
はてなキーワード:音声合成とは
anond:20260201092625 の文字数制限にひっかかっていたことに気がついたので分割した。
自動車ナビ専用アプリ (徒歩ルートもない) ということもあり、かなりすっきりした地図。最大ズームにしても一戸建て住宅は基本的に表示されない仕様になっている。
利用者が地図をつくるシステムになっているため、田舎では自分で地図を編集する覚悟で使用することになる。都会・田舎にかかわらずGoogle (後述のとおり関連会社のため) に情報を送信してよいのであれば、知っている道こそアプリを起動した状態で走行し、地図の誤りがあれば編集に参加してほしい。
駐車場所の保存は写真つきにできる。位置情報を取得しづらい地下駐車場ではとくに便利。
制限速度やスピード取り締まりを地図編集でいれることができ、ルート案内の有無にかかわらず警告してくれる。
案内音声はデフォルトでは音声合成 (サヤカ = 一時期Googleの読み上げでつかわれていたのとおなじ音声) だが、道路名や交差点名などの読み上げがなくてもいいなら人間の音声 (はるか) による案内もできる。人間の音声はけっこうよく、海外製アプリにしてはかなりききとりやすい音声で案内してくれる。また、Appleマップと同様、スマホの音量設定にかかわらず、常にWaze側で設定した音量で音声が再生される (つまりスマホ側の音量が0でも100でも案内時は固定音量) 。CarPlay対応カーナビをもっておらず、スマホ単独で使用している場合には案内音声の明瞭度がけっこう重要な点だったりするので、この点も意識してえらんでほしい。
あと、完全に知っている道ならばあえて知らない言語に設定してみるのもたのしいかも...?
※ "Including street names" "道路名読み上げ" と表示されているものは音声合成、その他は人間が録音した音声になる、
またナビゲーションアプリとしてはおそらく唯一、自分で音声を録音することもできる。録音項目数はおおいけど、録音しなかった音声は標準音声 (はるか) で案内可能なので無理に全部録音する必要はない。
あと、ラジオ・ポッドキャスト・オーディオブックを再生している場合、案内音声のタイミングで再生を続行するか一時停止するかを設定でえらべる。音声同士はかぶらないようにしてほしい派とずっと再生しておきたい派のどちらにも対応できるのはありがたい。Appleマップだと強制的に一時停止されるが、ほかは未確認 (自動車はもっていないが徒歩ナビがあるアプリは確認してもよかったかもしれない) 。
WazeはGoogle関連会社のため、検索でWaze独自のデータにヒットしなかった場合は自動的にGoogleMapsのデータを検索する。そのため、検索してもみつからないという問題は (Googleに登録されているかぎりは)おこらないので安心してほしい。また、Wazeで事故や道路工事を報告した場合、GoogleMapsにも反映される (ただし地図データはことなるため報告場所のピンの位置がわずかにずれることはある) 。
車両種別は "Private" (自家用車) "Taxi" (タクシー) "Motorcycle" (オートバイ)から選択できる。というかWazeでオートバイルートを選択できるならGoogleMapsでも選択できてもいいとおもうのだが...。
地図の配色は2種類から選択できる (昔はもっとあったのだが...) 。"マップエディタ" に設定すると、道路種別により色がかわる。
なお、ナビゲーションをしていない状態でも、バックグラウンドで動作する。運転を終了後一定距離歩く、運転していない状態で一定時間経過する、メニューからスリープを選択する、のいずれかで停止する。
※ 車を降りる前に停止すると駐車位置が保存されないので注意。
もともとはドコモ地図ナビだったのだが、ドコモのサービス見直しによりゼンリンの単独運営にきりかわった。これによりドコモユーザー以外でも使用可能になった。
ナビゲーション機能を使用するのは有料契約が必要。住宅地図を除く地図を閲覧するだけなら契約は必要ない。
地図の種類はたくさんあるが、"徒歩地図" は "駅の出入り口やバス停などをより見やすくした地図" と書いてあるわりにはけっこう拡大しないとバス停が表示されないというのはちょっとなー...。もうすこし広域の地図でもバス停を表示してくれたらいいが。ゼンリンベースの地図同士でくらべても、Yahoo!のほうが見やすいかな...。
ナビゲーションの案内音パターン (チャイムのこと) は3種類から選択できるが、海外製は無音のやつもおおいから無音を選択できてもよかったのではという気もするが。
アイシンのNAVIeliteとトヨタのTCスマホナビの後続。
地図がトヨタ製のため、運転時に便利なランドマークが優先的に3D化されているほか、画面下側にあるほど建物がうすくなるようになっている。
このアプリでナビゲーションする以外に、リモコンとして使用して、トヨタのカーナビ or NaviCon対応カーナビに目的地を送信することもできる。
VICSの渋滞情報はデフォルトで渋滞なしも表示されるが、渋滞なしを非表示にして、混雑・渋滞のみを表示する設定にもできる。
トヨタ (アイシン) のナビは社外ナビでもかつて採用していたというメーカーが多数あり、人によっては聞き馴染みのある音声で案内してくれる (徒歩ルートはバイブレーションのみ対応なので車ルートで設定する必要がある) 。
アプリ内ヘルプページによると、ナビゲーション中の "○○県に入りました" という音声もあるとのこと。
ナビゲーション機能は有料。
ベースとなる地図はゼンリンなのに建物の形やスポット情報はOpenStreetMapという変わり種。
そのため、地図を一定以上拡大するとアイコン (とくに駐車場) がやたらと表示されるため少々見づらい。ある程度広域にしたほうがよいだろう。
※ランドマーク表示設定でオープン駐車場をオフにすればかなり緩和されるが、ほかの駐車場も消えるので一長一短。
あと、日本語翻訳が不自然。案内音声にも影響しているので、英語ができるなら音声だけでも英語にしたほうがつかいやすいだろう。
HUD機能が最大の特徴で、ルート案内中にメニューからHUDモードをオン、フロントガラスのちかくにセットすると、目線をそらさなくても窓に反射する文字で曲がる地点までの距離を確認できるというもの。
※エアバッグやセンサーなどをふさぐような設置はしないように注意。
最近のスマートフォンで増えてきたOLEDディスプレイと相性がよいとおもわれる。(LCDとはことなり黒は完全に発光しないため明るさを最大にしても黒い部分の発光が気にならない)
次世代のCarPlay (計器類もふくめてCarPlay対応になるもの) は通常のCarPlayとはことなり車両自体の対応が必要なので、そのような車両が普及するまではHUDが便利な機能になりうるとおもう。
そのほか、SmartCam (ドライブレコーダーで録画しながらその映像を使用してナビゲーション) なんて機能もある。一石二鳥。ただしカメラ常時動作はまちがいなくバッテリーを消費するのでご注意。
そのほか、海外製カーナビではめずらしいルートシミュレーション機能がある ("プレビュー" という名前) 。
ルートサイドのガソリンスタンドと金額を自動表示する機能もある (オフにもできる) 。
一方通行の道路を走行中に逆走車がいると通知する機能はあるが、日本には対応していない ("この機能は現在の国ではご利用いただけません" と表示される) 。日本にこそ必要な機能な気がするのだが。VICSと提携してほしいな。
逆走はどのくらい危険? → もしマリオカート64をもっている、もしくはNintendo Switch Online + 追加パックに加入しているのであれば、マリオカート64のマリオGPをひととおりクリアすると出現する "おまけ"レベルで "キノピオハイウェイ" を走行してみてほしい。すべての車が逆走した状態でせまってくる。自分の車のスピードに相手の車のスピードが加算されるので、非常に危険。もし現実で逆走車情報を見聞きした場合、車間距離をじゅうぶんにとって、左右によけられる状態にしよう。
スマホアプリは、起動していきなり現在地の住所と最寄りの鉄道駅が画面下側に表示されるのが最大の特徴。
あと、スマホアプリの文字サイズは端末設定に連動でも大中小の選択でもなく、1倍・1.25倍・1.5倍・2倍というかわった調整方法になっている。
デフォルトの地図が住所ごとの色分けという、ちょっと昔の国産地図によくある配色になっている。
地図表示は無料だと "デフォルト" "円キョリ" "地形図" "防災マップ" "方位" が選択可能。方位はことしの恵方が強調表示される、いわゆる恵方コンパスとなる。
有料登録すると、"境界線マップ" "ひらがなマップ" "通り名マップ" "到達円マップ" が追加で選択可能になる。月額課金のほか広告再生で5分間だけ有料機能を使用することもできる (回数制限は不明だが繰り返し広告再生はできた) 。自分みたいに使用頻度がすくなめの人にとっては5分10分だけ使用したいというケースがおおいので、広告再生で一時開放は非常にありがたい。
"境界線マップ" は前述のYahoo!マップの住所地図とほぼおなじで、住所ごとの境界線が表示される。
"通り名マップ" はAppleマップのドライブ地図・Yahoo!マップの交通状況・自動車用アプリ (WazeやmoviLinkなど) のように、道路番号や道路名を優先表示するもの。
"到達圏マップ" は現在地から徒歩○○分 (デフォルトは10分) で移動できる目安範囲を表示するもの。Apple WatchのAppleマップにも似たような機能がある (iPhoneにはない) が、Appleは円キョリみたいにただの円が表示されるのに対して、マピオンは道路にそっての表示になるので、精度がより高い。
電車やバスのルート案内がメインであり、起動時の画面が経路検索になっている。地図はおまけ機能だろう。なお、地図をデフォルトにすることもできるが、Appleのように前回使用時の画面をデフォルトにする設定が望まれるところ。
ルート検索は交通機関と徒歩は無料だが、自動車のみ有料という特殊な課金スタイルになっている。
地図は操作性があまりよくない。まず、日本製サービスによくある中心点が表示されるシステムだが、ノースアップ (北を上) にしていても現在地の点の位置と中心点の位置があわない。ヘディングアップ (進行方向を上) ならまだわかるが...。
そして、任意の場所に目的地を設定したいときも、スポット名をタップしても何も反応がない。地図を長押ししても反応がない。目的地を手入力する画面で "地図から選択" もない。答えは、地図をスクロールして中心点をあわせてから、その中心点をタップ。なんて仕様だ...。スクロールで自動的に目的地に設定ボタンを表示するような仕様にしてくれればまだましなのだが...。
同じメーカーが開発した天気アプリもウェブの寄せ集め系 (設定をふくむ全ての画面でロードが発生するうえにiOSでは位置情報取得に毎回許可操作が必要) だからなのか、表示に時間がかかる。
アプリ版は現在はない (昔はあった) が、かつてグループ会社だったパイオニアがCOCCHiというアプリ (後述) を提供しているのでいらないという判断がされた可能性もありそう。
さまざまな地図サービスのベース地図となっている、ジオテクノロジーズが直接提供しているもの。
地図表示は "印刷用" "RPG風" "古地図風" といった変わり種も選択できる。 "RPG風" "古地図風" は名前のとおりだが、"印刷用" というのは地図表示が白黒になり、モノクロ印刷に適した表示になる。
現在 "お絵描きマップ" がベータ版として提供されており、地図上に手書きしてそのまま印刷、というのもよいだろう。
ルート検索は条件設定も多数あるが、経由地の滞在時間を設定する機能もある (渋滞考慮などに影響する) 。これはなかなかない。
アプリ版がないため、そのまま音声案内ができないのが残念。
夜モードの地図は専用地図ではなく、ただ画面を暗くしただけというもの。
無料版と有料版は機能の差異以外には案内音声の音質がことなるほか (有料版のみニューラル音声が利用できる) 、渋滞情報の表示もことなる (無料版はスマートループのみで有料版はVICS併用) という、変わった差別化がされているのがおもしろい。
有料版に住宅地図オプションを付加すると、上記ゼンリン地図ナビの有料版同様、ゼンリン住宅地図も表示できるようになる。意外とニーズがあるんだな...。
最近は車検証も電子化したが、車検証をスキャンすることで、自動的にその車両にあわせたルートになる (規制車種区分もふくめた考慮は有料限定だがその他は無料でも可能) 。
渋滞情報にあわせた自動再探索は、画面上に2つのルートが表示されて、元ルートと新ルートをボタン操作で選択する方式。
ナビ音声はiOS版はAppleマップ同様デフォルトの音声読み上げ機能を使用している。が、選択できる音声が "Kyoko" (デフォルト音声) と "O-ren" (高音質の女性音声) のみが選択可能で、 "Otoya" (高音質の男性音声) は使用できない。切り替え機能があるならOtoyaもいれてくれればよかったのに...。Sygicは3つとも選択できる。
現在地を表示するアイコンを車のアイコンにはできないものの、そのかわりカスタマイズが豊富。矢印の色のほか、矢印のまわりに円を表示するかどうか、円を塗りつぶしにするか線にするか、といったところまで選択できる。
ルート検索はスタンダードルートと有料登録すると選択できるプレミアムルートがある。プレミアムルートはHERE (前述のとおり日本では昨年開始したばかりのサービス) のシステムをつかっているとのこと。
あまり使用例がない (今回とりあげたサービスでは乗換MAPナビのみ)昭文社の地図データの元になっているもの。紙の地図がそのまま電子化されたものだと考えるとよい。
事前にPC版から地図データを取り込む必要があるため、スマホ単独では使用できない。
いちおう地図表示は標準・グレー・ミッドナイトから選択できる。
まあ全部あげるときりがないけど...。
全世界の地図を表示できるサービスでズームレベルを最小にしたとき地球儀表示になるのはAppleマップ・HEREWeGo・Sygic。地図表示のまま縮小されるのはGoogleMaps・Yahoo!マップ・Bing地図・Waze。
文字数制限にひっかかったためanond:20260202081917 に書いた。
映画監督脚本家の三宅隆太がやってるYoutubeチャンネル「スクリプトドクターのサクゲキ大学」の動画がオススメに上がってきたから見たらなんかかわいいメガネウーマンがトークしだしたんだけど、微妙な訛りから「こいつ中国人留学生かなんかで三宅の生徒かなんかか?」と思って見てたら、AIだった
AIだとわかって見たら微妙な質感とかがAIなんだけど、急に出てきて見てたら「そういうフィルターかけて配信してる実写配信者」に全然見えるところまで来てるわ。音声合成はまだまだここから感はあったけど。
仕組みがAIを利用してリアルな人間を映して、リアルタイムに音声を変換している先進的Vtuber方式なのか、発言を入れたらモーションも自動で着いて動画が出力される形なのかはわかんないけど(多分後者かな)、ブラッシュアップが続いたら普通にAIとわかんない映像出力が可能そう。
最初に結論書いておくけど、クリーンな生成AIを使われて不利益が生じましたって裁判になるまではたぶん状況変わんないよ。
無断学習禁止とか書いている人とか、無断学習こそが問題(許諾を取れば良い)みたいな話してる人いるけど、もう合法になっちゃったんだよね。
第30条の4
著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
生成AI目的だろうが検索エンジン目的だろうが、機械的に処理して人間が直接楽しまないなら使って良いよ、となってる。
ポイントは但し書きの部分で"著作権者の利益を不当に害することとなる場合"のところね。
ちょっと話題になりつつある音声合成モデルがらみのは、ココがキモね。
特定の声優さんの声を模倣する目的で機械学習させて、その結果その声優さんの利益を害してたらアウト。
一度法律になったものは基本的に相当のことが無いと廃止になりません。(解釈変更で逃げたりするのはそれで)
第30条の4を相手取るのは相当しんどいと思うので、個人的にはここ十年くらいでの可能性はゼロじゃないかな。
我こそはという法曹畑の人が居たら投げ銭はすると思う。それぐらいちょっと無理じゃないかな。
特に絵画的な表現で顕著なんですが、アイデア(作風・画風)は著作権として保護の対象になりません。
これは文化の発展に寄与しつつ、いうて権利も守ろうやという、せめぎあいの歴史でもあるので個別具体例には触れません。
通常、類似性(創作性のある表現が似てるか)、依拠性(知ってた上か)が揉めどころですが、ポイントはまさにここです。
合法無断学習生成AIを使って出力しようが、完全許諾学習クリーン生成AIを使って出力しようが、出力物が著作権侵害してれば一緒です。
特に、存命の俳優の演技(創作性のある表現)を真似て出力するのは、相当揉めるでしょう。
これは学習基が何かに寄らず当然揉めるので、無断学習だろうが許諾学習だろうが関係無いんすよ。
たぶん、無断学習(自分の創作物が勝手に使われるのが嫌だ)という部分にフォーカスが当たり続けて、理解が広がるとしたらガッツリお金の絡む話で裁判沙汰になってからだと思う。
超具体的に言うと、ときメモ裁判みたいなやつとか、パルワールドみたいなやつとか、あの辺。
完全にクリーンなデータで作られた生成AIの出力物で、超揉めてからが本番。
なので、たぶんクリーンなデータにこだわって開発を進めても、とん挫すると思うよ。やるなら地の利(国内で合法)を活かしてガツガツ言ってビジネス面でメリット出しながら公式から出した方が良いと思うよ。
これまでの音声合成って、初期のものは一文字ずつ決められた音を再生するだけ(ゆっくり解説とか)だったり
ボーカロイドみたいに個別に調整可能だったりっていう初期段階のものから
サービス化されてるものって単語単位とか文脈をある程度読み取って音声合成してたんだよね
ところがOpenAIの作ってる音声合成って全然違う発想で作られてて
プロンプトを含めて入力されたテキストの意味を理解して、それを元に音声を作り出してる
音声の波形がどうなっていれば正解に近いか、みたいな考え方で音声を作り出してて
例えば「こんにちは」みたいな文字列を渡しても「こんちは」って喋ったりするし「こんちゃー」って言ったりする
これが絶妙で今までに無い音声合成が可能になってて、もの凄く自然な音声を作れる
ただ、そのせいでたまに指定してないことを喋ったりするんだよね
っていう文字列を渡したら
って喋ったりする
みたいに喋ったりする時もあってちょっと嫌だな、と思ってた
ところが、さっきデバッグしてたら
みたいなことを喋ってドキッとした
プロンプトに現在時刻を挿入してたからだと思うんだけど、「こんにちは」からは完全にズレてるんだよね
バグってるにもほどがあるよなぁ、と思ってログ取りたいから再度実行してみたんだよ
そしたら10秒ぐらい音声流れなくて
しばらくしたら小さな音声が流れた
「ぼくはここにいるよ」
やりたいのこれ。フレームワークの2段階メジャーアップデート対応とかでやりたいのは、Devinに自分たちのサービスの既存コードをフレームワーク側の記法やdeprecatedになったパッケージを回避する記述に書き直すじゃなくて、既存コードはそのままきフレームワーク側やパッケージ側をなんとかしてほしいんだよ。
あと、何かとApp StoreやGoogle Playが何か言ってくるのをコード改修するんじゃなくて、DevinがAppleやGoogleのサポートに連絡して期限延ばしてもらうとか、リジェクトされたのを押し通すのとか、そういう交渉をやってほしいんよ。
あとは、会社の人事評価シートの記入をよしなにやってくれたり、評価面談も映像合成と音声合成でいい感じに代わりにやってくれるとかさ。
実際「プログラミングにかかる工数は全体の2割」とか言われるけど、ホント2割の工数削減のためにこんな大層な技術や電気代が使われるのナンセンスよ。
"AI tasks"の方が"AI problems"よりも一般的な用法です。
AIの分野では、"tasks"という用語が特定の目標や作業を指すために広く使用されています。
例えば、画像認識、自然言語処理、音声合成などが"AI tasks"として言及されることが多いです。
一方、"AI problems"という表現も使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます。
例えば、AIの倫理的問題、説明可能性の課題、バイアスの問題などがAIの"problems"として議論されることがあります。
これらのタスクは、AIシステムが実行する具体的な作業や目標を表しています。
したがって、AIの特定の作業や目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。
やはり、流石に一応権利を有したエロゲを使用しているということなのかもしれない。
ただ、それでも曖昧な表現をするのは明示的に音声合成をする許可を得ていないからだと思われる。
つまり、ゲームごと権利を有する=音声データ権利をも持つということだろう。
それって、いかなる改変を行っていかなるサービス展開をしても良いということなのだろうか?
このような時代の前の契約だったから想定されていないだけな気もするが。
これが正しければ、法律的には問題ないのだろうな。かなり倫理的にあくどいことはやっているけれど、気にしない企業ということだろう。
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。
DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。
それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。
最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。
それの学習元に、エロゲーのテキスト音声データが使われているのではないかという話。
まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)
現時点では何のフィルターもなく、どのような卑語や卑猥なセリフも発話させられる。
ただ、ある特定の雰囲気のパターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。
それは「ちゅぱちゅぱれろれろ」だ。
他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」や「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。
ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。
一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」や「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。
さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」は発音される。その他、適当な意味をなさない「ちゅかちゅほぱれもふい」等のランダムな文字列にしても発音される。
他にも、私が試してみた限りでは、上述の謎の雰囲気のテキスト群以外の文章はほぼ正確に文字通りに発音される。
以上のことから、学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気のセリフに対して、「その文字の通常の発音通りでないような音声」が対応しているようなデータが使われていることが推測される。
(念の為に書いておくと、音声合成の学習にあたっては、音声とその音声が何を喋っているかというテキストのペアを、大量に学習させる。)
余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くからの音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語からの情報も音声合成に入力していること推測できる。
元の日本語テキストに対して、その音素列に加えて、大規模言語モデルのエンコーダーモデル、いわゆるテキスト埋め込みも音声合成のテキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである。
音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフの意味」も理解する、というわけである。
例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、「はてなは、匿名性を活かした自由な表現が可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音のテンション等が変わること等も、これらの帰結である。
さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキストが文字通りの発音と対応しない、そのような状況を知っているはずである。そう、エロゲーだ。
エロゲーにはチュパ音という文化がある。これはヒロインが主人公にフェラチオをするシーンで、ヒロインの声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである。
そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり水音出しまくり啜りまくりの演技が音声として与えられる。
よって上記挙動から、DMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。
界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般)からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成や音声認識等の音声に関するAIの研究においては非常に貴重なデータとなっている。
よって、大量の「テキストと音声のペア」が必要な音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定の声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語の発音の仕方をAIが学ぶときに必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである。
ましてやDMMである。エロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZAに依存していることをすでに知っているだろう(いつもお世話になっております)。
以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそものきっかけは、それより前に、単純にいろんなキャラで音声合成させて遊んでいたら、
少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたからである。
久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身でそれから表に出てきて大成功していることで有名)
月城 美蘭ちゃんのキャラは某シリーズの某キャラがめっちゃ好きです。
他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。
さらに実験を重ねていると、エロゲーが学習に使用されていると推測されるもう一つの事象を発見した。
それは「おちんちん」という単語を含んだセリフを音声合成させると、不自然に「おちんちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である。
(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)
このことから、「おちんちん」という単語がそのまま発話されないデータが学習元に多いのではないかと推測できる。
エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。
このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。
このことも、エロゲーの音声データがDMMボイスの学習元として使われているという推測を支持している。
追記。ブコメ等で、「膣」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく:anond:20241105060042
端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから、本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。
引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」を音声合成させてみるのを試してみるとよいだろう。
DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライの文章から抜粋する。
https://x.com/1230yuji/status/1852914053326483685
「音声学習データは音声データの大量購入、機械合成、収録で取得しています。具体的な情報は企業秘密にあたるため開示できません。」
ここで「音声データの大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストのペアのデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
さらにまた、DMMボイスはアニメ調のキャラクターの音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
つまり、ここでの大量購入はエロゲーの大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。
追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく:https://www.youtube.com/watch?v=tkBGBVjOIZk
(以前ここで第8条1(1)について書いたいたが、この文言自体は利用規約で一般的なもののようだ、申し訳ない)
音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバーや声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。
これは、声優たちが、自分たちの声が無断でAI学習に使用され、その上で収益化をされていることに対して反対して展開している運動だ。
(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)
また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から、法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。
このようなAIと音声の権利については最近の柿沼弁護士の記事が参考になるので詳しくはそちらを読んでほしい。
https://storialaw.jp/blog/11344
私自身は法律の専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。
音声AIの法的議論では「パブリシティ権」という概念が重要になる。これはざっくり言うと、有名女優の肖像を勝手に商品の宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである。
このパブリシティ権は現在の日本の法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。
しかし有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービスを提供していたら、正式に契約を結んでいた場合に得られたであろう声優の利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。
だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。
声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権の侵害にあたるかは、おそらくかなりグレーで判例待ち事案である。
そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。
何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近の声優たちやアンチ生成AIの人達による運動に対しては、事態を注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である。
また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論や判例が進むかもな」といった程度の感想である。
(そしてDMMボイスのような技術が可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自身一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)
しかし、最近の声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。
技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しかし音声合成する際には非実在の人物による声音の音声合成が可能である(例えば声優二人の中間の声等)。
それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないかと個人的には感じている。
(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利の議論の難しいところである。)
公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーがDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。
また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能性である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーのセリフが堂々と出ていたことから、それの学習元にエロゲーが入っていることはほぼ確実である。
また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能性である。前に少し触れた通り、現在の生成AIには学習に大量のデータが必要であり、まず音声AIが発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータが必要である。そのような学習は非常にお金と時間がかかるため、生成AIでは「まず大規模なデータで学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者のデータで少量追加学習する」というアプローチが取られる場合がほとんどである。このPermalink |記事への反応(17) | 07:53