Movatterモバイル変換

はてラボ

はてな匿名ダイアリー

ようこそゲストさん

ユーザー登録

「音声認識」を含む日記

はてなキーワード:音声認識とは

2025-10-18

■国会の投票は、もう選挙区 廃止したらいいんじゃね

落ち着いて考えてみると、国会議員って別に地域の代表ってわけじゃないじゃん？憲法に書いてあるよね。全国民の代表だって。

党の名簿を登録させる比例代表は残すとして、選挙区なんて廃止して、全国でまるごと一個の選挙区にしたらいいんじゃねえかな。

実際には全国行脚して票を集めるなんて無理だから、それぞれの地元で範囲を絞って選挙活動する議員と、全国から広く浅く票を集めようとする議員が出てくるはず

比例代表と違って、トップが大量に得票してもその人しか当選しないようにするから、タレント候補みたいなのや、金にものを言わせて宣伝するようなのは逆に使いづらくなり、妙なポピュリズムに従う愚衆（ってここでは書いちゃうけど）がここで吸収されて対応できるようになるでしょ。

元々選挙がなんで選挙区ごとに分かれているのかって、結局投開票がその単位でやらないと実務的に不可能だったからだと思うんだよね。

だけど今はコンピュータがあるから、電子投票機（別にオンラインでなくてもよし）でやれば出来ると思うんだよね。音声認識とかで入力させるとかでもいける。

候補者が数千人単位になるだろうから、重点地域を登録して、その中でくじ引きで特に投票所に表示させるとかそういうのはあってもいいかもしれない。

現実問題地域ごとの課題は沢山あってそれぞれ地域性をもって対処しなきゃいけないこともある。

だから、衆院はこの選挙区廃止で全国一個の方式にして一票の格差は完全になくして公正にし、参院は都道府県ごと区切った選挙区で必ず一定の人数が選出されるような風にしてしまえばいい。

Permalink |記事への反応(3) | 23:39

ツイートシェア

2025-09-28

■anond:20250928015621

金出せば作れるよ。

音声認識とローカルLLMの組み合わせで。

Permalink |記事への反応(0) | 14:59

ツイートシェア

2025-08-10

■anond:20250809212333

勉強不足だな。音声認識でやればいいじゃん

Permalink |記事への反応(0) | 10:59

ツイートシェア

2025-06-29

■

iPhoneはカメラの位置にもマイクがついてるから

よくわからない握り方してもちゃんと音声認識するんよね

Permalink |記事への反応(0) | 13:56

ツイートシェア

2025-05-22

■anond:20250522144412

面白い使い方してるなｗ

そこに音声認識が加わればもっと面白くなりそうｗ

Permalink |記事への反応(0) | 14:45

ツイートシェア

2025-05-14

■対戦格闘ゲーム「昇龍軒！！」って叫んだら昇龍軒撃ってくれるようになって欲しい

いまなら音声認識でできるでしょ？やって

Permalink |記事への反応(0) | 21:05

ツイートシェア

2025-04-22

■パソコン詳しい人たすけて

音声認識で会話を記録→その内容を書き起こし→まとめる

ってやってくれるサービスを使おうとしてるんだけど

それってスペック高いパソコンじゃなきゃ無理？

大学生が使うようなノートパソコンでも可能？

Permalink |記事への反応(2) | 22:47

ツイートシェア

2025-04-03

■

かなり無理してiPadAirM3を買って気合い入れてフィルムを貼ったのに機種を間違えてた、店舗で買って4千円、フィルムにしては高い

ガラス製のペーパーライクは珍しいし（あんまり意味ないかもしれない）金属製のペン先を使いたいから別にしばらくこれで使えばいっかって思ってたけどマイクに思いっきり被さっていてsiriが反応しないことに気づいた、剥がさないとダメなのかこれ…？

というかマイク故障してないよな、音声認識に使われてるマイクって前面のであってる？フィルム貼ったら反応しなくなるもんなの？

勢いで買ったのが悪いけどだから店舗で買うのって嫌なんだよなー

Permalink |記事への反応(1) | 22:26

ツイートシェア

2025-04-01

■anond:20250401063829

Geminiが雑談に応じてくれるよ。

ただし、よほどよどみなく話さないと、こちらが言い終わる前に向こうが話し始めてしまい、それが延々と終わらなくなるという傾向がある。

ちょっと会話のキャッチボールのようになりづらい。

ChatGPTでもできるけど音声認識の精度がやや劣る感じ。

両者とももうちょい、改良が必要であるようだ。

他に雑談の相手によさそうなAIはあれば誰か教えてほしい。できれば無料だとよい。

Permalink |記事への反応(0) | 06:43

ツイートシェア

2025-03-26

■anond:20250326205334

リアルタイム生成＋音声認識である程度インタラクティブにしてくれたら毎月1000円くらいは余裕で課金する

Permalink |記事への反応(0) | 20:57

ツイートシェア

2025-03-20

■

アレクサに「ウグイスの鳴き真似をして」というとウグイスの鳴き真似をしてくれるよ。今日限定かもしれないけど。

はやくアレクサと雑談できるようになってほしいな。

今年あたりできるようになる、というニュースが先日あたりあったと思うが。

Geminiとは一応、雑談はできるようになっているけど、こっちが言い終わる前に話しはじめて、延々と話し終わらないという問題がある。

まあ、こちらが途切れないように、スラスラとよどみなく話せばよいのだけど。

コミュ症にはきつい。

しっかり考えてから一気に話さないといけない。

ChatGPTは日本語の音声認識能力がgeminiより劣る感じで、こちらもちょっと対応が疲れる。

その他雑談ができるスマホアプリは妙にリア充向け、若年層向けだったりするのでちょっと試すのをためらってしまう。

要は気負わずにできる雑談練習の相手が欲しいのだ。

Permalink |記事への反応(0) | 05:07

ツイートシェア

2025-03-03

■Switch2の詳細発表まであと1ヶ月くらいだから

好き勝手なこと言えるのもあと1ヶ月くらいだぞ！

・miniLED搭載

・aptXLL 対応 Bluetooth

・標準的なPC向けマウス対応(有線/無線)

・音声認識対応の文字入力

・eSIM

・完全防水

・サードパーティストア対応

　・ロンチリリースはSteam(ただしProton対応ゲームのみ)

・リアルタイムゲーム配信対応

　・任天堂オフィシャルの配信システムも同時開始、名前はニンテンドーゲームチューブ(ロゴが紫の六角形)またはニンニン生放送(イメージキャラが忍者)

実現可能性？うるせえ！

Permalink |記事への反応(2) | 09:32

ツイートシェア

2025-02-27

■anond:20250227121527

Micorosoftの古いofficeのライセンス再発行が完全機械化されててビビったぞ俺。

音声認識しやすいように気を付けていたせいで、妙に不自然な発音でアルファベットや数字を言うことに。

Permalink |記事への反応(0) | 12:20

ツイートシェア

2025-02-25

■派遣のおっさんと家電屋でテレビを買いに行ったら、ドン引きした

今日、俺とババア先輩（32）と派遣のおっさんとお姉さん先輩（49）の四人で、家電屋にテレビを買いに行った。

俺とババア先輩はそろそろ買い替えようと思っていたし、お姉さん先輩も興味があるらしくついてきた。

派遣のおっさんは「俺も見るだけ見てみるわ」と言いながら、なぜかやる気満々だった。

　

売り場に着くと、最新のテレビがズラッと並んでいて、俺たちは画質やサイズを見比べながら選んでいた。

ババア先輩とお姉さん先輩は「有機EL、やっぱりキレイだね」「このサイズなら部屋にちょうど良さそう」と真剣に選んでいたが、派遣のおっさんはなぜかリモコンを片っ端から手に取ってチャンネル変えまくってた。

「お前、何してんの？」と聞くと、「いや、このリモコンのボタンの押し心地、めっちゃいいな！」と感動しててドン引きした…。

しかも、音声認識機能を試して「YouTube！」「アマプラ！」と連呼し始め、店員に「すみません、試しすぎると誤作動するので…」と注意されてまたドン引きした…。

さらに、「俺ならこれ買うわ！」とドヤ顔で指差したのが、32インチの激安モデル。

「いや、それ一番安いやつだろ」と突っ込むと、「テレビは映れば十分なんだよ！しかもこれ、2万切ってるからな！」と得意げに語っててさらにドン引きした…。

俺たちが「せっかくなら大きめで画質のいいやつ買いたい」と言っても、「いやいや、安いほうがコスパ最強だから！」と一人だけ頑なに32インチ推し。

いや、俺たちはそういう基準で選んでねえんだよ…。

極めつけは、ババア先輩が「ポイント還元あるし、こっちの55インチにしようかな」と言ったとき。

派遣のおっさん、なぜか店員に「ポイントって現金化できます？」と真顔で聞いてて、店員が「申し訳ありません、ポイントは現金化できません」と苦笑いしていた。

そりゃそうだろ…。

結局、俺とババア先輩は55インチの4Kテレビを買い、お姉さん先輩も新しいサウンドバーを購入。

派遣のおっさんは「今日は見るだけだから」と言いながら、最後まで32インチの激安テレビの前で「でも2万切ってるのはヤバいよな…」とつぶやいていた…。

Permalink |記事への反応(2) | 21:24

ツイートシェア

2025-02-16

■anond:20250216031213

"AI tasks"の方が"AI problems"よりも一般的な用法です。

AIの分野では、"tasks"という用語が特定の目標や作業を指すために広く使用されています。

例えば、画像認識、自然言語処理、音声合成などが"AI tasks"として言及されることが多いです。

一方、"AI problems"という表現も使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます。

例えば、AIの倫理的問題、説明可能性の課題、バイアスの問題などがAIの"problems"として議論されることがあります。

AI タスクの具体例としては、以下のようなものがあります：

これらのタスクは、AI システムが実行する具体的な作業や目標を表しています。

したがって、AIの特定の作業や目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。

Permalink |記事への反応(0) | 04:00

ツイートシェア

2025-01-22

■anond:20250122065405

好みとかITリテラシーという概念のない惑星からやってきた増田

　

なお、知的な発達に重度の遅れがある方(IQ30とか)で、それゆえに文盲な方も、

Googleの音声認識で文字起こし＋コピペの合わせ技を自ら編み出して

メール送れるようになったりするぞ

Permalink |記事への反応(1) | 06:59

ツイートシェア

2024-12-15

■音声認識 タイプのIQ テスト

そんなのがあったら猿ぐつわをつけられた東大生は無言で最低値をたたき出してしまうよ

Permalink |記事への反応(0) | 16:59

ツイートシェア

2024-12-13

■anond:20240621172117

そして音声認識ソフト、音声合成ソフトを汚染するんだよなぁ。社会負荷の上昇。

Permalink |記事への反応(0) | 08:26

ツイートシェア

2024-11-07

■ChatGPTは法律にも詳しい

GPTの性能が著しく向上している。最近では希望する類似裁判の判例を検索させると、瞬時に何件も調べあげて、どこが類似しているかを瞬時に提示してくる。結果をまとめて、反論資料を作成しろと命じればそれも瞬時に作成する。誤字脱字もない、校正も自分でやってしまう。もしかして、これに音声認識とリアルタイムな反論を出来るようにすればAI 弁護士が爆誕するんじゃないか？

Permalink |記事への反応(3) | 00:29

ツイートシェア

2024-11-05

■AIは凄く進歩しているのにOCRの精度が悪いのどうして？

いつも便利に使っている中で不満に思うことが一つ。

OCRの精度が悪い事。

描かれた絵や写真の認識は向上したし音声認識も向上しているのに、事務処理に重要な文字情報の認識が悪いままで困ってる。

スキャンして作られたpdfを読ませると全然ダメ。

直に出力した画像の認識はマシなので恐らくだけど解像度が影響しているように思う。

とはいえ解像度が低い画像は補正して認識するのに、小学生でも読めるような文章ですら読み取れないのは不思議すぎる。

何か特別な理由があるんだろうか。

Permalink |記事への反応(3) | 17:16

ツイートシェア

2024-11-04

■にじボイス（旧DMMボイス）はエロゲーを学習している

注意：AI 批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。

追記（24/11/20）

DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。

キャラクターが15人増える
なぜか久世凛さんとイルミルの声優が変更される
ツッコミがあった利用規約の修正

それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。

DMMボイス（現にじボイス）

最近 AI界隈（？）で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAI サービス。

https://nijivoice.com/

それの学習元に、エロゲーのテキスト音声データが使われているのではないかという話。

まずは性能がかなり高くて楽しいのでみんな遊んでみてください。（そして知ってる声優がいないか探してみてください。）

追記

11/7現在アクセス増大でサービス一時停止しており、サンプルボイスさえ聞けないので、サンプルボイス集を作っておいた:https://whyp.it/collections/3281/dmm
利用規約についてのツッコミ動画があったので貼っておく:https://www.youtube.com/watch?v=tkBGBVjOIZk

何故か音声合成できない文字列

現時点では何のフィルターもなく、どのような卑語や卑猥なセリフも発話させられる。

ただ、ある特定の雰囲気のパターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。

それは「ちゅぱちゅぱれろれろ」だ。

他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」や「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。

ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。

一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」や「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。

さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」は発音される。その他、適当な意味をなさない「ちゅかちゅほぱれもふい」等のランダムな文字列にしても発音される。

他にも、私が試してみた限りでは、上述の謎の雰囲気のテキスト群以外の文章はほぼ正確に文字通りに発音される。

以上のことから、学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気のセリフに対して、「その文字の通常の発音通りでないような音声」が対応しているようなデータが使われていることが推測される。

（念の為に書いておくと、音声合成の学習にあたっては、音声とその音声が何を喋っているかというテキストのペアを、大量に学習させる。）

余談

技術的なことなので読み飛ばしてください。

余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くからの音声合成での「日本語文章→音素列（簡単に言えば読みのカナ列）→音声」という流れの単純な音声合成だけでなく、元の日本語からの情報も音声合成に入力していること推測できる。

元の日本語テキストに対して、その音素列に加えて、大規模言語モデルのエンコーダーモデル、いわゆるテキスト埋め込みも音声合成のテキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである。

音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフの意味」も理解する、というわけである。

例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、「はてなは、匿名性を活かした自由な表現が可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音のテンション等が変わること等も、これらの帰結である。

エロゲーのチュパ音

さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキストが文字通りの発音と対応しない、そのような状況を知っているはずである。そう、エロゲーだ。

エロゲーにはチュパ音という文化がある。これはヒロインが主人公にフェラチオをするシーンで、ヒロインの声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである。

そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー！」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり水音出しまくり啜りまくりの演技が音声として与えられる。

よって上記挙動から、DMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。

学習元としてのノベル ゲーム

界隈では有名な事実だが、エロゲー（R18に限らずノベルゲー一般）からは、1本だいたい（ものによるが）20 時間程度の音声とテキストの両方を（多少の知識があれば）大量に抽出することができ、音声合成や音声認識等の音声に関するAIの研究においては非常に貴重なデータとなっている。

よって、大量の「テキストと音声のペア」が必要な音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定の声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語の発音の仕方をAIが学ぶときに必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである。

ましてやDMM である。エロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZAに依存していることをすでに知っているだろう（いつもお世話になっております）。

聞き覚えのある声

以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそものきっかけは、それより前に、単純にいろんなキャラで音声合成させて遊んでいたら、

少なくとも私の耳には「あれこの人あの声優じゃん？」というキャラが何人かいたからである。

久世凛さん（くん？）の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか？（元エロゲー声優出身でそれから表に出てきて大成功していることで有名）

月城美蘭ちゃんのキャラは某シリーズの某キャラがめっちゃ好きです。

他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。

なぜか最初の「ん」が発音されない「おちんちん」

さらに実験を重ねていると、エロゲーが学習に使用されていると推測されるもう一つの事象を発見した。

それは「おちんちん」という単語を含んだセリフを音声合成させると、不自然に「おちんちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である。

（実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。）

このことから、「おちんちん」という単語がそのまま発話されないデータが学習元に多いのではないかと推測できる。

エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。

このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い（ピー音がそのまま入っているものもある）。

このことも、エロゲーの音声データがDMMボイスの学習元として使われているという推測を支持している。

膣（チツ=ナツ=ナカ）

追記。ブコメ等で、「膣」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく:anond:20241105060042

端的に言うと、データセットに「膣内に出して……！」等のセリフで「ナカに出して！」と発音されていることが多いことから、本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。

引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」を音声合成させてみるのを試してみるとよいだろう。

DMMボイス側の公式な文章

DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライの文章から抜粋する。

https://x.com/1230yuji/status/1852914053326483685

「音声学習データは音声データの大量購入、機械合成、収録で取得しています。具体的な情報は企業秘密にあたるため開示できません。」

ここで「音声データの大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストのペアのデータセットで、大量購入できるようなものはほぼない（あったら喉から手が出るほど欲しい）。

さらにまた、DMMボイスはアニメ調のキャラクターの音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない（あったら喉から手が出るほど欲しい）。

つまり、ここでの大量購入はエロゲーの大量購入を指しているのではないかと推測することができる。（もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか）。

利用規約

追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく:https://www.youtube.com/watch?v=tkBGBVjOIZk

（以前ここで第８条1(1)について書いたいたが、この文言自体は利用規約で一般的なもののようだ、申し訳ない）

法的な議論

音声AIについて昨年5月あたりから品質が大いに向上したことで、AI カバーや声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。

https://x.com/NOMORE__MUDAN

これは、声優たちが、自分たちの声が無断でAI 学習に使用され、その上で収益化をされていることに対して反対して展開している運動だ。

（この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。）

また、このような運動がおこる背景として、（イラストでかなりバトルが発生しているが、）AI 学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から、法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。

このようなAIと音声の権利については最近の柿沼弁護士の記事が参考になるので詳しくはそちらを読んでほしい。

https://storialaw.jp/blog/11344

私自身は法律の専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる（間違ってたらすみません）。

音声AIの法的議論では「パブリシティ権」という概念が重要になる。これはざっくり言うと、有名女優の肖像を勝手に商品の宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである。

このパブリシティ権は現在の日本の法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。

しかし有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる！」としてこのサービスを提供していたら、正式に契約を結んでいた場合に得られたであろう声優の利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる（判例待ちなので断言はたぶんできない）。

だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。

声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権の侵害にあたるかは、おそらくかなりグレーで判例待ち事案である。

そのような意味で、このDMMボイスは（もし裁判等や運動が起これば）音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。

意見

何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近の声優たちやアンチ生成AIの人達による運動に対しては、事態を注視しているだけの中立的（むしろ逆にガンガン生成AI使っていこうぜという）立場である。

また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論や判例が進むかもな」といった程度の感想である。

（そしてDMMボイスのような技術が可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自身一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。）

しかし、最近の声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。

技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しかし音声合成する際には非実在の人物による声音の音声合成が可能である（例えば声優二人の中間の声等）。

それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないかと個人的には感じている。

（ただ、私の耳が悪いだけで、ホントは「この人の声だ！」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利の議論の難しいところである。）

他のありえる可能性

公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーがDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。

また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能性である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成 AI ライブラリを知っているが、それはデモ動画に私の好きなエロゲーのセリフが堂々と出ていたことから、それの学習元にエロゲーが入っていることはほぼ確実である。

また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能性である。前に少し触れた通り、現在の生成AIには学習に大量のデータが必要であり、まず音声AIが発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータが必要である。そのような学習は非常にお金と時間がかかるため、生成AIでは「まず大規模なデータで学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者のデータで少量追加学習する」というアプローチが取られる場合がほとんどである。この Permalink |記事への反応(17) | 07:53

ツイートシェア

2024-09-17

■anond:20240917005322

ドリームキャストも画期的だったよなぁ、

据え置き機と携帯機セットだったもんなぁ、今思えば。

音声認識のゲームもやっぱりあったし。

Permalink |記事への反応(0) | 01:00

ツイートシェア

■anond:20240917005052

ファミコンで音声認識も出来たな

Permalink |記事への反応(0) | 00:52

ツイートシェア

2024-07-23

■anond:20240723105543

俺はあと200年無理だと思うね。

ソフトはもうちょっといけるかな。視覚認識系と音声認識系ね。

でもそれが、意味とか概念の認識系にまで行くかは怪しい。

　

というのもそこにたどり着くには、たぶん身体性が必要だから。

　

で、AIが使うであろうロボの身体というのが、ちょっと安くなる未来が見えないよな。

ボストンダイナミクスみたいなロボを、スマホやルンバぐらい一般家庭に配る未来が来る？　

ちょっとすぐはきつい。資源問題とかもあるし。

Permalink |記事への反応(0) | 10:58

ツイートシェア

2024-07-19

■anond:20240719095517

女性の金玉は、通常「卵巣」と呼ばれてるからね。しょうがないねw

ちなみに、googleの音声認識機能の英語モードで、キンタマって聞かせると、Canyou tellmom?って認識されるそうだ。10年ぐらい前の話題だがww

Permalink |記事への反応(0) | 13:21

ツイートシェア

ログインユーザー登録

ようこそゲストさん

Copyright (C) 2001-2025 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp