Movatterモバイル変換


[0]ホーム

URL:


はてラボはてな匿名ダイアリー
ようこそ ゲスト さんログインユーザー登録

「音声合成」を含む日記RSS

はてなキーワード:音声合成とは

次の25件>

2026-02-01

いろいろな地図サービスを見比べてみて 2

anond:20260201092625文字数制限にひっかかっていたことに気がついたので分割した。

Waze

自動車ナビ専用アプリ (徒歩ルートもない) ということもあり、かなりすっきりした地図。最大ズームにしても一戸建て住宅基本的に表示されない仕様になっている。

利用者地図をつくるシステムになっているため、田舎では自分地図編集する覚悟使用することになる。都会・田舎にかかわらずGoogle (後述のとおり関連会社のため) に情報送信してよいのであれば、知っている道こそアプリを起動した状態走行し、地図の誤りがあれば編集に参加してほしい。

駐車場所の保存は写真つきにできる。位置情報を取得しづらい地下駐車場ではとくに便利。

制限速度やスピード取り締まり地図編集でいれることができ、ルート案内の有無にかかわらず警告してくれる。

案内音声はデフォルトでは音声合成 (サヤカ = 一時期Googleの読み上げでつかわれていたのとおなじ音声) だが、道路名交差点名などの読み上げがなくてもいいなら人間の音声 (はるか) による案内もできる。人間の音声はけっこうよく、海外アプリにしてはかなりききとりやすい音声で案内してくれる。また、Appleマップと同様、スマホの音量設定にかかわらず、常にWaze側で設定した音量で音声が再生される (つまりスマホ側の音量が0でも100でも案内時は固定音量) 。CarPlay対応カーナビをもっておらず、スマホ単独使用している場合には案内音声の明瞭度がけっこう重要な点だったりするので、この点も意識してえらんでほしい。

あと、完全に知っている道ならばあえて知らない言語に設定してみるのもたのしいかも...?

※ "Including street names" "道路名読み上げ" と表示されているもの音声合成、その他は人間が録音した音声になる、

またナビゲーションアプリとしてはおそらく唯一、自分で音声を録音することもできる。録音項目数はおおいけど、録音しなかった音声は標準音声 (はるか) で案内可能なので無理に全部録音する必要はない。

あと、ラジオポッドキャストオーディオブック再生している場合、案内音声のタイミング再生を続行するか一時停止するかを設定でえらべる。音声同士はかぶらないようにしてほしい派とずっと再生しておきたい派のどちらにも対応できるのはありがたい。Appleマップだと強制的に一時停止されるが、ほかは未確認 (自動車はもっていないが徒歩ナビがあるアプリ確認してもよかったかもしれない) 。

WazeGoogle関連会社のため、検索Waze独自データにヒットしなかった場合自動的GoogleMapsのデータ検索する。そのため、検索してもみつからないという問題は (Google登録されているかぎりは)おこらないので安心してほしい。また、Waze事故道路工事を報告した場合GoogleMapsにも反映される (ただし地図データことなるため報告場所のピンの位置わずかにずれることはある) 。

車両種別は "Private" (自家用車) "Taxi" (タクシー) "Motorcycle" (オートバイ)から選択できる。というかWazeオートバイルート選択できるならGoogleMapsでも選択できてもいいとおもうのだが...。

地図の配色は2種類から選択できる (昔はもっとあったのだが...) 。"マップエディタ" に設定すると、道路種別により色がかわる。

なお、ナビゲーションをしていない状態でも、バックグラウンド動作する。運転を終了後一定距離歩く、運転していない状態一定時間経過する、メニューからスリープ選択する、のいずれかで停止する。

※ 車を降りる前に停止すると駐車位置が保存されないので注意。

ゼンリン地図ナビ

もともとはドコモ地図ナビだったのだが、ドコモサービス見直しによりゼンリン単独運営にきりかわった。これによりドコモユーザー以外でも使用可能になった。

ナビゲーション機能使用するのは有料契約必要住宅地図を除く地図を閲覧するだけなら契約必要ない。

地図の種類はたくさんあるが、"徒歩地図" は "駅の出入り口バス停などをより見やすくした地図" と書いてあるわりにはけっこう拡大しないとバス停が表示されないというのはちょっとなー...。もうすこし広域の地図でもバス停を表示してくれたらいいが。ゼンリンベース地図同士でくらべても、Yahoo!のほうが見やすいかな...。

ナビゲーションの案内音パターン (チャイムのこと) は3種類から選択できるが、海外製は無音のやつもおおいから無音を選択できてもよかったのではという気もするが。

moviLink

アイシンのNAVIeliteとトヨタTCスマホナビの後続。

地図トヨタ製のため、運転時に便利なランドマークが優先的に3D化されているほか、画面下側にあるほど建物がうすくなるようになっている。

このアプリでナビゲーションする以外に、リモコンとして使用して、トヨタカーナビ or NaviCon対応カーナビ目的地を送信することもできる。

VICS渋滞情報デフォルト渋滞なしも表示されるが、渋滞なしを非表示にして、混雑・渋滞のみを表示する設定にもできる。

トヨタ (アイシン) のナビは社外ナビでもかつて採用していたというメーカーが多数あり、人によっては聞き馴染みのある音声で案内してくれる (徒歩ルートバイブレーションのみ対応なので車ルートで設定する必要がある) 。

アプリヘルプページによると、ナビゲーション中の "○○県に入りました" という音声もあるとのこと。

Sygic

ナビゲーション機能は有料。

ベースとなる地図ゼンリンなのに建物の形やスポット情報OpenStreetMapという変わり種。

そのため、地図一定以上拡大するとアイコン (とくに駐車場) がやたらと表示されるため少々見づらい。ある程度広域にしたほうがよいだろう。

ランドマーク表示設定でオープン駐車場オフにすればかなり緩和されるが、ほかの駐車場も消えるので一長一短。

あと、日本語翻訳が不自然。案内音声にも影響しているので、英語ができるなら音声だけでも英語にしたほうがつかいやすいだろう。

HUD機能が最大の特徴で、ルート案内中にメニューからHUDモードをオン、フロントガラスのちかくにセットすると、目線をそらさなくても窓に反射する文字で曲がる地点までの距離確認できるというもの

エアバッグセンサーなどをふさぐような設置はしないように注意。

最近スマートフォンで増えてきたOLEDディスプレイと相性がよいとおもわれる。(LCDとはことなり黒は完全に発光しないため明るさを最大にしても黒い部分の発光が気にならない)

次世代CarPlay (計器類もふくめてCarPlay対応になるもの) は通常のCarPlayとはことな車両自体対応必要なので、そのような車両が普及するまではHUDが便利な機能になりうるとおもう。

そのほか、SmartCam (ドライブレコーダーで録画しながらその映像使用してナビゲーション) なんて機能もある。一石二鳥。ただしカメラ常時動作はまちがいなくバッテリーを消費するのでご注意。

そのほか、海外カーナビではめずらしいルートシミュレーション機能がある ("プレビュー" という名前) 。

ルートサイドのガソリンスタンドと金額を自動表示する機能もある (オフにもできる) 。

一方通行道路走行中に逆走車がいると通知する機能はあるが、日本には対応していない ("この機能現在の国ではご利用いただけません" と表示される) 。日本にこそ必要機能な気がするのだが。VICS提携してほしいな。

逆走はどのくらい危険? → もしマリオカート64をもっている、もしくはNintendo Switch Online + 追加パックに加入しているのであれば、マリオカート64マリオGPをひととおりクリアすると出現する "おまけ"レベルで "キノピオハイウェイ" を走行してみてほしい。すべての車が逆走した状態でせまってくる。自分の車のスピード相手の車のスピードが加算されるので、非常に危険。もし現実で逆走車情報を見聞きした場合、車間距離をじゅうぶんにとって、左右によけられる状態にしよう。

地図マピオン

スマホアプリは、起動していきなり現在地の住所と最寄りの鉄道駅が画面下側に表示されるのが最大の特徴。

あと、スマホアプリ文字サイズは端末設定に連動でも大中小の選択でもなく、1倍・1.25倍・1.5倍・2倍というかわった調整方法になっている。

デフォルト地図が住所ごとの色分けという、ちょっと昔の国産地図によくある配色になっている。

地図表示は無料だと "デフォルト" "円キョリ" "地形図" "防災マップ" "方位" が選択可能。方位はことしの恵方が強調表示される、いわゆる恵方コンパスとなる。

有料登録すると、"境界線マップ" "ひらがなマップ" "通り名マップ" "到達円マップ" が追加で選択可能になる。月額課金のほか広告再生で5分間だけ有料機能使用することもできる (回数制限不明だが繰り返し広告再生はできた) 。自分みたいに使用頻度がすくなめの人にとっては5分10分だけ使用したいというケースがおおいので、広告再生で一時開放は非常にありがたい。

"境界線マップ" は前述のYahoo!マップの住所地図とほぼおなじで、住所ごとの境界線が表示される。

"通り名マップ" はAppleマップドライブ地図Yahoo!マップ交通状況・自動車アプリ (WazeやmoviLinkなど) のように、道路番号や道路名を優先表示するもの

"到達圏マップ" は現在から徒歩○○分 (デフォルト10分) で移動できる目安範囲を表示するものApple WatchのAppleマップにも似たような機能がある (iPhoneにはない) が、Appleは円キョリみたいにただの円が表示されるのに対して、マピオン道路にそっての表示になるので、精度がより高い。

乗換MAPナビ

電車バスルート案内がメインであり、起動時の画面が経路検索になっている。地図はおまけ機能だろう。なお、地図デフォルトにすることもできるが、Appleのように前回使用時の画面をデフォルトにする設定が望まれるところ。

ルート検索交通機関と徒歩は無料だが、自動車のみ有料という特殊課金スタイルになっている。

地図操作性があまりよくない。まず、日本サービスによくある中心点が表示されるシステムだが、ノースアップ (北を上) にしていても現在地の点の位置と中心点の位置があわない。ヘディングアップ (進行方向を上) ならまだわかるが...。

そして、任意場所目的地を設定したいときも、スポット名をタップしても何も反応がない。地図を長押ししても反応がない。目的地を手入力する画面で "地図から選択" もない。答えは、地図スクロールして中心点をあわせてから、その中心点をタップ。なんて仕様だ...。スクロール自動的目的地に設定ボタンを表示するような仕様にしてくれればまだましなのだが...。

路線図無駄データ量がおおきいのか、表示に時間がかかる。

同じメーカーが開発した天気アプリウェブの寄せ集め系 (設定をふくむ全ての画面でロードが発生するうえにiOSでは位置情報取得に毎回許可操作必要) だからなのか、表示に時間がかかる。

MapFan

アプリ版は現在はない (昔はあった) が、かつてグループ会社だったパイオニアがCOCCHiというアプリ (後述) を提供しているのでいらないという判断がされた可能性もありそう。

さまざまな地図サービスベース地図となっている、ジオテクノロジーズが直接提供しているもの

地図表示は "印刷用" "RPG風" "古地図風" といった変わり種も選択できる。 "RPG風" "古地図風" は名前のとおりだが、"印刷用" というのは地図表示が白黒になり、モノクロ印刷に適した表示になる。

現在 "お絵描きマップ" がベータ版として提供されており、地図上に手書きしてそのまま印刷、というのもよいだろう。

ルート検索は条件設定も多数あるが、経由地の滞在時間を設定する機能もある (渋滞考慮などに影響する) 。これはなかなかない。

アプリ版がないため、そのまま音声案内ができないのが残念。

COCCHi

上記MapFanの地図使用したカーナビ

モード地図は専用地図ではなく、ただ画面を暗くしただけというもの

無料版と有料版は機能差異以外には案内音声の音質がことなるほか (有料版のみニューラル音声が利用できる) 、渋滞情報の表示もことなる (無料版はスマートループのみで有料版はVICS併用) という、変わった差別化がされているのがおもしろい。

有料版に住宅地図オプションを付加すると、上記ゼンリン地図ナビの有料版同様、ゼンリン住宅地図も表示できるようになる。意外とニーズがあるんだな...。

最近車検証も電子化したが、車検証をスキャンすることで、自動的にその車両にあわせたルートになる (規制車種区分もふくめた考慮は有料限定だがその他は無料でも可能) 。

渋滞情報にあわせた自動再探索は、画面上に2つのルートが表示されて、元ルートと新ルートボタン操作選択する方式

navico

Yahoo!と同様Mapboxが使用されている。

ナビ音声はiOS版はAppleマップ同様デフォルトの音声読み上げ機能使用している。が、選択できる音声が "Kyoko" (デフォルト音声) と "O-ren" (高音質の女性音声) のみが選択可能で、 "Otoya" (高音質の男性音声) は使用できない。切り替え機能があるならOtoyaもいれてくれればよかったのに...。Sygicは3つとも選択できる。

現在地を表示するアイコンを車のアイコンにはできないものの、そのかわりカスタマイズ豊富。矢印の色のほか、矢印のまわりに円を表示するかどうか、円を塗りつぶしにするか線にするか、といったところまで選択できる。

ルート検索スタンダードルートと有料登録すると選択できるプレミアムルートがある。プレミアムルートHERE (前述のとおり日本では昨年開始したばかりのサービス) のシステムをつかっているとのこと。

スーパーマップ

まり使用例がない (今回とりあげたサービスでは乗換MAPナビのみ)昭文社地図データの元になっているもの。紙の地図がそのまま電子化されたものだと考えるとよい。

事前にPCから地図データを取り込む必要があるため、スマホ単独では使用できない。

場所検索目的地の設定はできるが、ルート検索はできない。

いちおう地図表示は標準・グレー・ミッドナイトから選択できる。

あとひとつは?

まあ全部あげるときりがないけど...。

余談

世界地図を表示できるサービスズームレベルを最小にしたとき地球儀表示になるのはAppleマップHEREWeGo・Sygic。地図表示のまま縮小されるのはGoogleMaps・Yahoo!マップBing地図Waze

追記

文字数制限にひっかかったためanond:20260202081917 に書いた。

Permalink |記事への反応(3) | 12:29

このエントリーをはてなブックマークに追加ツイートシェア

2025-10-29

AIYoutuberだいぶ前進してきてるんやな

映画監督脚本家三宅隆太がやってるYoutubeチャンネルスクリプトドクターのサクゲキ大学」の動画オススメに上がってきたから見たらなんかかわいいメガネウーマントークしだしたんだけど、微妙な訛りから「こいつ中国人留学生かなんかで三宅の生徒かなんかか?」と思って見てたら、AIだった

AIだとわかって見たら微妙な質感とかがAIなんだけど、急に出てきて見てたら「そういうフィルターかけて配信してる実写配信者」に全然見えるところまで来てるわ。音声合成はまだまだここから感はあったけど。

仕組みがAIを利用してリアル人間を映して、リアルタイムに音声を変換している先進Vtuber方式なのか、発言を入れたらモーションも自動で着いて動画が出力される形なのかはわかんないけど(多分後者かな)、ブラッシュアップが続いたら普通にAIとわかんない映像出力が可能そう。

しかもそれが一般人でもできるようになるっぽいんから大したもんだよなぁ。

Permalink |記事への反応(1) | 12:40

このエントリーをはてなブックマークに追加ツイートシェア

2025-09-24

ビッグテックは恥を知れ!

ビッグテックは恥を知れ!

最近YouTubeを見ていると再生される詐欺広告

Facebook掲載される広告醜悪さに辟易してFacebook を見限っていたが、いよいよGoogle詐欺広告を見過ごして私欲を肥やそうとしているのか?

YouTube再生されるディープフェイクや音声合成を応用した有名人著名人詐欺広告毎日流れる

なぜGoogle自主規制しないのか?

なぜ日本法規制しないのか?

Permalink |記事への反応(0) | 18:33

このエントリーをはてなブックマークに追加ツイートシェア

2025-09-08

合法無断学習と、違法クリーンAI生成物の話

最初結論書いておくけど、クリーンな生成AIを使われて不利益が生じましたって裁判になるまではたぶん状況変わんないよ。

まず前提の話(読み飛ばして良いヤツ)

無断学習禁止とか書いている人とか、無断学習こそが問題(許諾を取れば良い)みたいな話してる人いるけど、もう合法なっちゃったんだよね。

第30条の4

著作物は、次に掲げる場合その他の当該著作物表現された思想又は感情を自ら享受し又は他人享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者利益を不当に害することとなる場合は、この限りでない。

生成AI目的だろうが検索エンジン目的だろうが、機械的に処理して人間が直接楽しまないなら使って良いよ、となってる。

ポイントは但し書きの部分で"著作権者利益を不当に害することとなる場合"のところね。

ちょっと話題になりつつある音声合成モデルがらみのは、ココがキモね。

特定声優さんの声を模倣する目的機械学習させて、その結果その声優さん利益を害してたらアウト。

合法無断学習の話

無断学習は既に著作権法合法にされてしまいました。

一度法律になったもの基本的に相当のことが無いと廃止になりません。(解釈変更で逃げたりするのはそれで)

第30条の4を相手取るのは相当しんどいと思うので、個人的にはここ十年くらいでの可能性はゼロじゃないかな。

我こそはという法曹畑の人が居たら投げ銭はすると思う。それぐらいちょっと無理じゃないかな。

`違法クリーンAI生成物の話

特に絵画的な表現で顕著なんですが、アイデア作風・画風)は著作権として保護対象になりません。

これは文化の発展に寄与しつつ、いうて権利も守ろうやという、せめぎあい歴史でもあるので個別具体例には触れません。

通常、類似性創作性のある表現が似てるか)、依拠性(知ってた上か)が揉めどころですが、ポイントはまさにここです。

合法無断学習生成AIを使って出力しようが、完全許諾学習クリーン生成AIを使って出力しようが、出力物が著作権侵害してれば一緒です。

特に、存命の俳優の演技(創作性のある表現)を真似て出力するのは、相当揉めるでしょう。

これは学習基が何かに寄らず当然揉めるので、無断学習だろうが許諾学習だろうが関係無いんすよ。

ここまで書いといてなんだけど、たぶん理解はされない

たぶん、無断学習自分創作物勝手に使われるのが嫌だ)という部分にフォーカスが当たり続けて、理解が広がるとしたらガッツリお金の絡む話で裁判沙汰になってからだと思う。

超具体的に言うと、ときメモ裁判みたいなやつとか、パルワールドみたいなやつとか、あの辺。

完全にクリーンデータで作られた生成AIの出力物で、超揉めてからが本番。

蛇足

なので、たぶんクリーンデータにこだわって開発を進めても、とん挫すると思うよ。やるなら地の利(国内合法)を活かしてガツガツ言ってビジネス面でメリット出しながら公式から出した方が良いと思うよ。

Permalink |記事への反応(0) | 19:56

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-14

美大に落ちただけでAI音声合成玩具にされる男

Permalink |記事への反応(0) | 14:43

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-13

ひろゆきって人の声初めて聞いた

しらすミカンっていうユーチューバーの声とソックリでビックリした。

なんかAI音声合成して作ってるらしい。

しらすミカン動画見てた時はガリガリで天パのさえない中年男性イメージしてたから驚きました。

Permalink |記事への反応(0) | 12:31

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-08

録音して聞かせても言ってないって言うからマジ困るよな

まあ最近音声合成も高度化してるから言質が証拠足るか一概に言い切れないのは事実だが

Permalink |記事への反応(0) | 18:28

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-06

中国AIユニコーン「MiniMax」、音声合成モデルの性能評価世界一に OpenAIやElevenLabsを圧倒

https://36kr.jp/349683/

ほえー

アダルト声優さんの声でアダルトASMRを完璧再生できるなら触ってみたいけども

まー中国製じゃ無理やろなあ

Permalink |記事への反応(0) | 20:28

このエントリーをはてなブックマークに追加ツイートシェア

2025-04-16

OpenAIの音声合成が怖い

これまでの音声合成って、初期のものは一文字ずつ決められた音を再生するだけ(ゆっくり解説とか)だったり

ボーカロイドみたいに個別に調整可能だったりっていう初期段階のものから

サービス化されてるものって単語単位とか文脈をある程度読み取って音声合成してたんだよね

ところがOpenAIの作ってる音声合成って全然違う発想で作られてて

プロンプトを含めて入力されたテキスト意味理解して、それを元に音声を作り出してる

音声の波形がどうなっていれば正解に近いか、みたいな考え方で音声を作り出してて

例えば「こんにちは」みたいな文字列を渡しても「こんちは」って喋ったりするし「こんちゃー」って言ったりする

これが絶妙で今までに無い音声合成可能になってて、もの凄く自然な音声を作れる

ただ、そのせいでたまに指定してないことを喋ったりするんだよね

こんにちは今日は良い天気ですね」

っていう文字列を渡したら

こんにちは。うん、今日は良い天気ですね」

って喋ったりする

この程度なら全然問題無いんだけど、たまに

こんにちは今日は良い天気ですね。散歩に行きませんか?」

みたいに喋ったりする時もあってちょっと嫌だな、と思ってた

ところが、さっきデバッグしてたら

「こんな夜遅くまで大丈夫?」

みたいなことを喋ってドキッとした

プロンプトに現在時刻を挿入してたからだと思うんだけど、「こんにちはからは完全にズレてるんだよね

バグってるにもほどがあるよなぁ、と思ってログ取りたいから再度実行してみたんだよ

そしたら10秒ぐらい音声流れなくて

しばらくしたら小さな音声が流れた

「ぼくはここにいるよ」

Permalink |記事への反応(0) | 23:11

このエントリーをはてなブックマークに追加ツイートシェア

2025-03-19

@Devin deprecatedになったパッケージを使えるように直しといて

やりたいのこれ。フレームワークの2段階メジャーアップデート対応とかでやりたいのは、Devinに自分たちサービス既存コードフレームワーク側の記法やdeprecatedになったパッケージ回避する記述に書き直すじゃなくて、既存コードはそのままきフレームワーク側やパッケージ側をなんとかしてほしいんだよ。

あと、何かとApp StoreGoogle Playが何か言ってくるのをコード改修するんじゃなくて、DevinがAppleGoogleサポートに連絡して期限延ばしてもらうとか、リジェクトされたのを押し通すのとか、そういう交渉をやってほしいんよ。

あとは、会社の人事評価シートの記入をよしなにやってくれたり、評価面談映像合成と音声合成でいい感じに代わりにやってくれるとかさ。

実際「プログラミングにかかる工数は全体の2割」とか言われるけど、ホント2割の工数削減のためにこんな大層な技術電気代が使われるのナンセンスよ。

もっと上記に挙げたみたいな不毛仕事AIは早く人から奪ってよな。

Permalink |記事への反応(0) | 20:14

このエントリーをはてなブックマークに追加ツイートシェア

2025-02-16

anond:20250216031213

"AI tasks"の方が"AI problems"よりも一般的用法です。

AIの分野では、"tasks"という用語特定目標作業を指すために広く使用されています

例えば、画像認識自然言語処理音声合成などが"AI tasks"として言及されることが多いです。

一方、"AI problems"という表現使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます

例えば、AI倫理的問題説明可能性の課題バイアス問題などがAIの"problems"として議論されることがあります

AIタスクの具体例としては、以下のようなものがあります

これらのタスクは、AIシステムが実行する具体的な作業目標を表しています

したがって、AI特定作業目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。

Permalink |記事への反応(0) | 04:00

このエントリーをはてなブックマークに追加ツイートシェア

2024-12-24

好きだったけど心が離れてしまった動画投稿者

ある動画投稿者面白くてよく見ていたんだが、自分の中ではちょっと距離を置いてしまっている

その人はニコニコがメインだったが、今はYoutubeが主流

ジャンルいえばわかる程度には有名になりつつある

ヤフーニュースに載ったし


元々は音声合成立ち絵キャラの掛け合いが面白かったからよく視聴していたんだけど、あるときから動画投稿頻度を上げる目的人形劇をやめてしまった

もはやキャラを動かしていた形跡は過去動画しかない

自分はそれを含めて面白いと思っていたんだよね

まあYoutubeはそういうのが受け入れない体質だし、ない方がメリットあるのかもだけど

なのでそっと閉じることにした

Permalink |記事への反応(0) | 11:53

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-28

アレクサにおはようと言ったら、今日サンクスギビングデーだという。

続いて「私に、ありがとうの話をして」というのでそう言ったら、アレクサはありがとうの話をした。

アレクサが結構感情も表せるくらいの音声合成レベルになっているのだなーと、ちょっと驚いた。

Permalink |記事への反応(0) | 05:42

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-05

anond:20241105173510

音声合成バックエンドシステムたことなさそう

そしてポッと出の彼らに細かいことやる知識があると思う?ほとんど遊んでる趣味勢とレベルは変わらないよ

Permalink |記事への反応(0) | 17:37

このエントリーをはてなブックマークに追加ツイートシェア

anond:20241104232002

ブクマコメ: 「多くの人が言うようにDMM業界最大の権利者側だし、音声収録は買取契約が基本だし、かなりホワイト寄りでは。」

からその音声買取音声合成で使ってよいという許可が入ってんのかって話してんのよ

「これに関するいかなる権利放棄します」みたいな激ヤバ契約ならわかるけど

Permalink |記事への反応(0) | 09:42

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-04

anond:20241104075316

ブックマークコメ的外れものが多すぎる。

出所はもはやどうでもいいんだよな。大事なのは許可を得てるかどうかだけなんだが

> 音声作品は「ボイスと台本」がセットで販売されている事例

その人たちは音声合成に使うの許可してるん?って話よ

Permalink |記事への反応(3) | 23:20

このエントリーをはてなブックマークに追加ツイートシェア

anond:20241104075316

やはり、流石に一応権利を有したエロゲ使用しているということなのかもしれない。

ただ、それでも曖昧表現をするのは明示的に音声合成をする許可を得ていないからだと思われる。

まりゲームごと権利を有する=音声データ権利をも持つということだろう。

それって、いかなる改変を行っていかなるサービス展開をしても良いということなのだろうか?

このような時代の前の契約だったから想定されていないだけな気もするが。

これが正しければ、法律的には問題ないのだろうな。かなり倫理的にあくどいことはやっているけれど、気にしない企業ということだろう。

Permalink |記事への反応(0) | 20:56

このエントリーをはてなブックマークに追加ツイートシェア

にじボイス(旧DMMボイス)はエロゲー学習している

注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はありますあくまで推測です。

追記24/11/20

DMMボイスという名前からにじボイス」という名称に変更された。主な変更点は以下。

それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。

DMMボイス(現にじボイス)

最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス

https://nijivoice.com/

それの学習元に、エロゲーテキスト音声データが使われているのではないかという話。

まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)

追記

何故か音声合成できない文字列

現時点では何のフィルターもなく、どのような卑語卑猥セリフも発話させられる。

ただ、ある特定雰囲気パターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。

それは「ちゅぱちゅぱれろれろ」だ。

他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。

ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。

一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。

さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」発音される。その他、適当意味をなさな「ちゅかちゅほぱれもふい」等のランダム文字列にしても発音される。

他にも、私が試してみた限りでは、上述の謎の雰囲気テキスト群以外の文章はほぼ正確に文字通りに発音される。

以上のことから学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気セリフに対して、「その文字の通常の発音通りでないような音声」対応しているようなデータが使われていることが推測される。

念の為に書いておくと、音声合成学習にあたっては、音声その音声が何を喋っているかというテキストペアを、大量に学習させる。)

余談

技術的なことなので読み飛ばしてください。

余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くから音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語から情報音声合成入力していること推測できる。

元の日本語テキストに対して、その音素列に加えて、大規模言語モデルエンコーダーモデル、いわゆるテキスト埋め込みも音声合成テキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである

音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフ意味」も理解する、というわけである

例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、はてなは、匿名性を活かした自由表現可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音テンション等が変わること等も、これらの帰結である

エロゲーのチュパ音

さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキスト文字通りの発音対応しない、そのような状況を知っているはずである。そう、エロゲーだ。

エロゲーにはチュパ音という文化がある。これはヒロイン主人公フェラチオをするシーンで、ヒロイン声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである

そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり音出しまくり啜りまくりの演技が音声として与えられる。

よって上記挙動からDMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。

学習元としてのノベルゲーム

界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成音声認識等の音声に関するAI研究においては非常に貴重なデータとなっている。

よって、大量の「テキストと音声のペア」が必要音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語発音の仕方をAIが学ぶとき必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである

ましてやDMMであるエロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZA依存していることをすでに知っているだろう(いつもお世話になっております)。

聞き覚えのある声

以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそもきっかけは、それより前に、単純にいろんなキャラ音声合成させて遊んでいたら、

少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたかである

久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身それから表に出てきて大成功していることで有名)

月城 美蘭ちゃんキャラは某シリーズの某キャラめっちゃ好きです。

他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。

なぜか最初「ん」発音されない「おちんちん

さら実験を重ねていると、エロゲー学習使用されていると推測されるもう一つの事象発見した。

それは「おちんちんという単語を含んだセリフ音声合成させると、不自然に「おちちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である

(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)

このことから、「おちんちん」という単語がそのまま発話されないデータ学習元に多いのではないかと推測できる。

エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。

このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。

このことも、エロゲーの音声データDMMボイスの学習元として使われているという推測を支持している。

膣(チツ=ナツ=ナカ)

追記ブコメ等で、「」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく:anond:20241105060042

端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。

引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」音声合成させてみるのを試してみるとよいだろう。

DMMボイス側の公式文章

DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライ文章から抜粋する。

https://x.com/1230yuji/status/1852914053326483685

音声学データは音声データ大量購入機械合成、収録で取得しています。具体的な情報企業秘密にあたるため開示できません。」

ここで「音声データ大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストペアデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

さらにまた、DMMボイスはアニメ調のキャラクター音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

まり、ここでの大量購入エロゲー大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。

利用規約

追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく:https://www.youtube.com/watch?v=tkBGBVjOIZk

(以前ここで第8条1(1)について書いたいたが、この文言自体利用規約一般的なもののようだ、申し訳ない)

法的な議論

音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバー声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。

https://x.com/NOMORE__MUDAN

これは、声優たちが、自分たちの声が無断でAI学習使用され、その上で収益化をされていることに対して反対して展開している運動だ。

(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)

また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。

このようなAIと音声の権利については最近の柿沼弁護士記事が参考になるので詳しくはそちらを読んでほしい。

https://storialaw.jp/blog/11344

私自身は法律専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。

音声AIの法的議論ではパブリシティ権という概念重要になる。これはざっくり言うと、有名女優肖像勝手商品宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである

このパブリシティ権現在日本法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。

しか有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービス提供していたら、正式契約を結んでいた場合に得られたであろう声優利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。

だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。

声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権侵害にあたるかは、おそらくかなりグレーで判例待ち事案である

そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。

意見

何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近声優たちやアンチ生成AI人達による運動に対しては、事態注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である

また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論判例が進むかもな」といった程度の感想である

(そしてDMMボイスのような技術可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)

しかし、最近声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。

技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しか音声合成する際には非実在人物による声音音声合成可能である(例えば声優二人の中間の声等)。

それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないか個人的には感じている。

(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利議論の難しいところである。)

他のありえる可能

公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。

また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーセリフが堂々と出ていたこから、それの学習元にエロゲーが入っていることはほぼ確実である

また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能である。前に少し触れた通り、現在の生成AIには学習に大量のデータ必要であり、まず音声AI発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータ必要である。そのような学習は非常にお金時間がかかるため、生成AIでは「まず大規模なデータ学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者データで少量追加学習する」というアプローチが取られる場合ほとんどである。このPermalink |記事への反応(17) | 07:53

このエントリーをはてなブックマークに追加ツイートシェア

2024-09-23

AI の口調

音声合成技術AI の進展で、創作作品に出てくる「ロボット調」に喋るAI違和感を感じるようになってきた。

Siri 時点ですでにだいぶ人っぽくしゃべれるのに、ChatGPT 超えの知能を持つAIのしゃべりがそんなたどたどしい訳ないだろう。

これも役割語として定着してくんだろうか。

Permalink |記事への反応(0) | 08:10

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-22

琴葉茜の件は外野がうるせーって思う

ぶっちゃけ、例の人の事は何にも知らない

知っているのは琴葉茜のイラストでなんか活動していることだけ

それに対して自称ファンが怒るのは何となくわかる

だって絆星あかりや琴葉茜使った動画だしているからね

なんら政治的でない解説動画でも、"そういう人達"によるコメントがついたらスゲー気持ち悪いし、シンプルキャライメージを歪曲して定着されかねないので嫌な気分になる

けど、それを公式に問い合わせるのは違うし、公式だってあいしかないだろ

でなければ今までの緩いガイドラインを見直さなければならない

音声合成界隈は、昔から結構やばめなコッショリも多い

利用規約自体結構ガバから

そういう文化の元で産まれたし

なので大抵は怒られない

とはいえずんだもん系は流石に色々あったが


今回の件、俺は投票権ないし本人に関心もないかスルーしている

公式だってそんな泡沫が当選するわけないと思っているから、選挙までの一時的ものスルーするつもりだったんだろうが、外野が騒ぎすぎなんだよな


とりあえず、あかねちゃんかわいいやったーー、とだけいっとけ

Permalink |記事への反応(2) | 20:08

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-20

音声合成Youtube動画

「その方は、お帰りになりました」みたいな人間を指す「方」をほぼ100%、「ホウ」って読んでる。

「そのカタは・・・」と読んでるゆっくりとかボイスロイド(?)の動画を見たことがない。

めっちゃ気になる。

あいう音声ソフトって、読み方を修正させるのって手間がかかるの?

人間若いYoutuberが「ホウ」と言ってるのも見たことあるけど、こういう誤用が広まってるってことはないよな。

Permalink |記事への反応(2) | 17:47

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-18

anond:20240617214341

声優を使った商用音声合成エンジンでも人の手でチューニングしなきゃいけないか

チューニングせずに実用に足る精度になるのは10年以上かかると思ってる

Permalink |記事への反応(0) | 15:59

このエントリーをはてなブックマークに追加ツイートシェア

2024-05-22

anond:20240522221729

AI音声合成

Permalink |記事への反応(0) | 22:27

このエントリーをはてなブックマークに追加ツイートシェア

2024-04-16

音声合成技術ソフト、本人の承認を得られず発売延期

最初文句言わない契約書とか作らないんですかね。過去ソフトでもやらかしてるらしい。人変えなよ。めんどくせー奴でサンプリングするからこうなる。

Permalink |記事への反応(1) | 11:43

このエントリーをはてなブックマークに追加ツイートシェア

2024-03-17

見えます……

近い将来、リアルタイムAI画像生成と音声合成によって、ライブ配信で完全に若い女性として振る舞うオジと、それに性的興奮を覚え、スパチャで金を吸い取られるオジの姿が……

まり技術に対するリテラシーの違いで、奪うオジと奪われるオジに別れるのです

オジとオジによるウロボロスの完成です

Permalink |記事への反応(1) | 10:52

このエントリーをはてなブックマークに追加ツイートシェア

次の25件>
ログインユーザー登録
ようこそ ゲスト さん
Copyright (C) 2001-2026 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2026 Movatter.jp