Movatterモバイル変換


[0]ホーム

URL:


はてラボはてな匿名ダイアリー
ようこそ ゲスト さんログインユーザー登録

「音声合成」を含む日記RSS

はてなキーワード:音声合成とは

次の25件>

2025-06-14

美大に落ちただけでAI音声合成玩具にされる男

Permalink |記事への反応(0) | 14:43

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-13

ひろゆきって人の声初めて聞いた

しらすミカンっていうユーチューバーの声とソックリでビックリした。

なんかAI音声合成して作ってるらしい。

しらすミカン動画見てた時はガリガリで天パのさえない中年男性イメージしてたから驚きました。

Permalink |記事への反応(0) | 12:31

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-08

録音して聞かせても言ってないって言うからマジ困るよな

まあ最近音声合成も高度化してるから言質が証拠足るか一概に言い切れないのは事実だが

Permalink |記事への反応(1) | 18:28

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-06

中国AIユニコーン「MiniMax」、音声合成モデルの性能評価世界一に OpenAIやElevenLabsを圧倒

https://36kr.jp/349683/

ほえー

アダルト声優さんの声でアダルトASMRを完璧再生できるなら触ってみたいけども

まー中国製じゃ無理やろなあ

Permalink |記事への反応(0) | 20:28

このエントリーをはてなブックマークに追加ツイートシェア

2025-04-16

OpenAIの音声合成が怖い

これまでの音声合成って、初期のものは一文字ずつ決められた音を再生するだけ(ゆっくり解説とか)だったり

ボーカロイドみたいに個別に調整可能だったりっていう初期段階のものから

サービス化されてるものって単語単位とか文脈をある程度読み取って音声合成してたんだよね

ところがOpenAIの作ってる音声合成って全然違う発想で作られてて

プロンプトを含めて入力されたテキスト意味理解して、それを元に音声を作り出してる

音声の波形がどうなっていれば正解に近いか、みたいな考え方で音声を作り出してて

例えば「こんにちは」みたいな文字列を渡しても「こんちは」って喋ったりするし「こんちゃー」って言ったりする

これが絶妙で今までに無い音声合成可能になってて、もの凄く自然な音声を作れる

ただ、そのせいでたまに指定してないことを喋ったりするんだよね

こんにちは今日は良い天気ですね」

っていう文字列を渡したら

こんにちは。うん、今日は良い天気ですね」

って喋ったりする

この程度なら全然問題無いんだけど、たまに

こんにちは今日は良い天気ですね。散歩に行きませんか?」

みたいに喋ったりする時もあってちょっと嫌だな、と思ってた

ところが、さっきデバッグしてたら

「こんな夜遅くまで大丈夫?」

みたいなことを喋ってドキッとした

プロンプトに現在時刻を挿入してたからだと思うんだけど、「こんにちはからは完全にズレてるんだよね

バグってるにもほどがあるよなぁ、と思ってログ取りたいから再度実行してみたんだよ

そしたら10秒ぐらい音声流れなくて

しばらくしたら小さな音声が流れた

「ぼくはここにいるよ」

Permalink |記事への反応(0) | 23:11

このエントリーをはてなブックマークに追加ツイートシェア

2025-03-19

@Devin deprecatedになったパッケージを使えるように直しといて

やりたいのこれ。フレームワークの2段階メジャーアップデート対応とかでやりたいのは、Devinに自分たちサービス既存コードフレームワーク側の記法やdeprecatedになったパッケージ回避する記述に書き直すじゃなくて、既存コードはそのままきフレームワーク側やパッケージ側をなんとかしてほしいんだよ。

あと、何かとApp StoreGoogle Playが何か言ってくるのをコード改修するんじゃなくて、DevinがAppleGoogleサポートに連絡して期限延ばしてもらうとか、リジェクトされたのを押し通すのとか、そういう交渉をやってほしいんよ。

あとは、会社の人事評価シートの記入をよしなにやってくれたり、評価面談映像合成と音声合成でいい感じに代わりにやってくれるとかさ。

実際「プログラミングにかかる工数は全体の2割」とか言われるけど、ホント2割の工数削減のためにこんな大層な技術電気代が使われるのナンセンスよ。

もっと上記に挙げたみたいな不毛仕事AIは早く人から奪ってよな。

Permalink |記事への反応(0) | 20:14

このエントリーをはてなブックマークに追加ツイートシェア

2025-02-16

anond:20250216031213

"AI tasks"の方が"AI problems"よりも一般的用法です。

AIの分野では、"tasks"という用語特定目標作業を指すために広く使用されています

例えば、画像認識自然言語処理音声合成などが"AI tasks"として言及されることが多いです。

一方、"AI problems"という表現使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます

例えば、AI倫理的問題説明可能性の課題バイアス問題などがAIの"problems"として議論されることがあります

AIタスクの具体例としては、以下のようなものがあります

これらのタスクは、AIシステムが実行する具体的な作業目標を表しています

したがって、AI特定作業目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。

Permalink |記事への反応(0) | 04:00

このエントリーをはてなブックマークに追加ツイートシェア

2024-12-24

好きだったけど心が離れてしまった動画投稿者

ある動画投稿者面白くてよく見ていたんだが、自分の中ではちょっと距離を置いてしまっている

その人はニコニコがメインだったが、今はYoutubeが主流

ジャンルいえばわかる程度には有名になりつつある

ヤフーニュースに載ったし


元々は音声合成立ち絵キャラの掛け合いが面白かったからよく視聴していたんだけど、あるときから動画投稿頻度を上げる目的人形劇をやめてしまった

もはやキャラを動かしていた形跡は過去動画しかない

自分はそれを含めて面白いと思っていたんだよね

まあYoutubeはそういうのが受け入れない体質だし、ない方がメリットあるのかもだけど

なのでそっと閉じることにした

Permalink |記事への反応(0) | 11:53

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-28

アレクサにおはようと言ったら、今日サンクスギビングデーだという。

続いて「私に、ありがとうの話をして」というのでそう言ったら、アレクサはありがとうの話をした。

アレクサが結構感情も表せるくらいの音声合成レベルになっているのだなーと、ちょっと驚いた。

Permalink |記事への反応(0) | 05:42

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-05

anond:20241105173510

音声合成バックエンドシステムたことなさそう

そしてポッと出の彼らに細かいことやる知識があると思う?ほとんど遊んでる趣味勢とレベルは変わらないよ

Permalink |記事への反応(0) | 17:37

このエントリーをはてなブックマークに追加ツイートシェア

anond:20241104232002

ブクマコメ: 「多くの人が言うようにDMM業界最大の権利者側だし、音声収録は買取契約が基本だし、かなりホワイト寄りでは。」

からその音声買取音声合成で使ってよいという許可が入ってんのかって話してんのよ

「これに関するいかなる権利放棄します」みたいな激ヤバ契約ならわかるけど

Permalink |記事への反応(0) | 09:42

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-04

anond:20241104075316

ブックマークコメ的外れものが多すぎる。

出所はもはやどうでもいいんだよな。大事なのは許可を得てるかどうかだけなんだが

> 音声作品は「ボイスと台本」がセットで販売されている事例

その人たちは音声合成に使うの許可してるん?って話よ

Permalink |記事への反応(3) | 23:20

このエントリーをはてなブックマークに追加ツイートシェア

anond:20241104075316

やはり、流石に一応権利を有したエロゲ使用しているということなのかもしれない。

ただ、それでも曖昧表現をするのは明示的に音声合成をする許可を得ていないからだと思われる。

まりゲームごと権利を有する=音声データ権利をも持つということだろう。

それって、いかなる改変を行っていかなるサービス展開をしても良いということなのだろうか?

このような時代の前の契約だったから想定されていないだけな気もするが。

これが正しければ、法律的には問題ないのだろうな。かなり倫理的にあくどいことはやっているけれど、気にしない企業ということだろう。

Permalink |記事への反応(0) | 20:56

このエントリーをはてなブックマークに追加ツイートシェア

にじボイス(旧DMMボイス)はエロゲー学習している

注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はありますあくまで推測です。

追記24/11/20

DMMボイスという名前からにじボイス」という名称に変更された。主な変更点は以下。

それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。

DMMボイス(現にじボイス)

最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス

https://nijivoice.com/

それの学習元に、エロゲーテキスト音声データが使われているのではないかという話。

まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)

追記

何故か音声合成できない文字列

現時点では何のフィルターもなく、どのような卑語卑猥セリフも発話させられる。

ただ、ある特定雰囲気パターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。

それは「ちゅぱちゅぱれろれろ」だ。

他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。

ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。

一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。

さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」発音される。その他、適当意味をなさな「ちゅかちゅほぱれもふい」等のランダム文字列にしても発音される。

他にも、私が試してみた限りでは、上述の謎の雰囲気テキスト群以外の文章はほぼ正確に文字通りに発音される。

以上のことから学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気セリフに対して、「その文字の通常の発音通りでないような音声」対応しているようなデータが使われていることが推測される。

念の為に書いておくと、音声合成学習にあたっては、音声その音声が何を喋っているかというテキストペアを、大量に学習させる。)

余談

技術的なことなので読み飛ばしてください。

余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くから音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語から情報音声合成入力していること推測できる。

元の日本語テキストに対して、その音素列に加えて、大規模言語モデルエンコーダーモデル、いわゆるテキスト埋め込みも音声合成テキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである

音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフ意味」も理解する、というわけである

例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、はてなは、匿名性を活かした自由表現可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音テンション等が変わること等も、これらの帰結である

エロゲーのチュパ音

さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキスト文字通りの発音対応しない、そのような状況を知っているはずである。そう、エロゲーだ。

エロゲーにはチュパ音という文化がある。これはヒロイン主人公フェラチオをするシーンで、ヒロイン声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである

そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり音出しまくり啜りまくりの演技が音声として与えられる。

よって上記挙動からDMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。

学習元としてのノベルゲーム

界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成音声認識等の音声に関するAI研究においては非常に貴重なデータとなっている。

よって、大量の「テキストと音声のペア」が必要音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語発音の仕方をAIが学ぶとき必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである

ましてやDMMであるエロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZA依存していることをすでに知っているだろう(いつもお世話になっております)。

聞き覚えのある声

以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそもきっかけは、それより前に、単純にいろんなキャラ音声合成させて遊んでいたら、

少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたかである

久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身それから表に出てきて大成功していることで有名)

月城 美蘭ちゃんキャラは某シリーズの某キャラめっちゃ好きです。

他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。

なぜか最初「ん」発音されない「おちんちん

さら実験を重ねていると、エロゲー学習使用されていると推測されるもう一つの事象発見した。

それは「おちんちんという単語を含んだセリフ音声合成させると、不自然に「おちちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である

(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)

このことから、「おちんちん」という単語がそのまま発話されないデータ学習元に多いのではないかと推測できる。

エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。

このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。

このことも、エロゲーの音声データDMMボイスの学習元として使われているという推測を支持している。

膣(チツ=ナツ=ナカ)

追記ブコメ等で、「」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく:anond:20241105060042

端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。

引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」音声合成させてみるのを試してみるとよいだろう。

DMMボイス側の公式文章

DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライ文章から抜粋する。

https://x.com/1230yuji/status/1852914053326483685

音声学データは音声データ大量購入機械合成、収録で取得しています。具体的な情報企業秘密にあたるため開示できません。」

ここで「音声データ大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストペアデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

さらにまた、DMMボイスはアニメ調のキャラクター音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

まり、ここでの大量購入エロゲー大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。

利用規約

追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく:https://www.youtube.com/watch?v=tkBGBVjOIZk

(以前ここで第8条1(1)について書いたいたが、この文言自体利用規約一般的なもののようだ、申し訳ない)

法的な議論

音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバー声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。

https://x.com/NOMORE__MUDAN

これは、声優たちが、自分たちの声が無断でAI学習使用され、その上で収益化をされていることに対して反対して展開している運動だ。

(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)

また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。

このようなAIと音声の権利については最近の柿沼弁護士記事が参考になるので詳しくはそちらを読んでほしい。

https://storialaw.jp/blog/11344

私自身は法律専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。

音声AIの法的議論ではパブリシティ権という概念重要になる。これはざっくり言うと、有名女優肖像勝手商品宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである

このパブリシティ権現在日本法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。

しか有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービス提供していたら、正式契約を結んでいた場合に得られたであろう声優利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。

だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。

声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権侵害にあたるかは、おそらくかなりグレーで判例待ち事案である

そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。

意見

何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近声優たちやアンチ生成AI人達による運動に対しては、事態注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である

また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論判例が進むかもな」といった程度の感想である

(そしてDMMボイスのような技術可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)

しかし、最近声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。

技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しか音声合成する際には非実在人物による声音音声合成可能である(例えば声優二人の中間の声等)。

それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないか個人的には感じている。

(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利議論の難しいところである。)

他のありえる可能

公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。

また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーセリフが堂々と出ていたこから、それの学習元にエロゲーが入っていることはほぼ確実である

また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能である。前に少し触れた通り、現在の生成AIには学習に大量のデータ必要であり、まず音声AI発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータ必要である。そのような学習は非常にお金時間がかかるため、生成AIでは「まず大規模なデータ学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者データで少量追加学習する」というアプローチが取られる場合ほとんどである。このPermalink |記事への反応(16) | 07:53

このエントリーをはてなブックマークに追加ツイートシェア

2024-09-23

AI の口調

音声合成技術AI の進展で、創作作品に出てくる「ロボット調」に喋るAI違和感を感じるようになってきた。

Siri 時点ですでにだいぶ人っぽくしゃべれるのに、ChatGPT 超えの知能を持つAIのしゃべりがそんなたどたどしい訳ないだろう。

これも役割語として定着してくんだろうか。

Permalink |記事への反応(0) | 08:10

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-22

琴葉茜の件は外野がうるせーって思う

ぶっちゃけ、例の人の事は何にも知らない

知っているのは琴葉茜のイラストでなんか活動していることだけ

それに対して自称ファンが怒るのは何となくわかる

だって絆星あかりや琴葉茜使った動画だしているからね

なんら政治的でない解説動画でも、"そういう人達"によるコメントがついたらスゲー気持ち悪いし、シンプルキャライメージを歪曲して定着されかねないので嫌な気分になる

けど、それを公式に問い合わせるのは違うし、公式だってあいしかないだろ

でなければ今までの緩いガイドラインを見直さなければならない

音声合成界隈は、昔から結構やばめなコッショリも多い

利用規約自体結構ガバから

そういう文化の元で産まれたし

なので大抵は怒られない

とはいえずんだもん系は流石に色々あったが


今回の件、俺は投票権ないし本人に関心もないかスルーしている

公式だってそんな泡沫が当選するわけないと思っているから、選挙までの一時的ものスルーするつもりだったんだろうが、外野が騒ぎすぎなんだよな


とりあえず、あかねちゃんかわいいやったーー、とだけいっとけ

Permalink |記事への反応(2) | 20:08

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-20

音声合成Youtube動画

「その方は、お帰りになりました」みたいな人間を指す「方」をほぼ100%、「ホウ」って読んでる。

「そのカタは・・・」と読んでるゆっくりとかボイスロイド(?)の動画を見たことがない。

めっちゃ気になる。

あいう音声ソフトって、読み方を修正させるのって手間がかかるの?

人間若いYoutuberが「ホウ」と言ってるのも見たことあるけど、こういう誤用が広まってるってことはないよな。

Permalink |記事への反応(2) | 17:47

このエントリーをはてなブックマークに追加ツイートシェア

2024-06-18

anond:20240617214341

声優を使った商用音声合成エンジンでも人の手でチューニングしなきゃいけないか

チューニングせずに実用に足る精度になるのは10年以上かかると思ってる

Permalink |記事への反応(0) | 15:59

このエントリーをはてなブックマークに追加ツイートシェア

2024-05-22

anond:20240522221729

AI音声合成

Permalink |記事への反応(0) | 22:27

このエントリーをはてなブックマークに追加ツイートシェア

2024-04-16

音声合成技術ソフト、本人の承認を得られず発売延期

最初文句言わない契約書とか作らないんですかね。過去ソフトでもやらかしてるらしい。人変えなよ。めんどくせー奴でサンプリングするからこうなる。

Permalink |記事への反応(1) | 11:43

このエントリーをはてなブックマークに追加ツイートシェア

2024-03-17

見えます……

近い将来、リアルタイムAI画像生成と音声合成によって、ライブ配信で完全に若い女性として振る舞うオジと、それに性的興奮を覚え、スパチャで金を吸い取られるオジの姿が……

まり技術に対するリテラシーの違いで、奪うオジと奪われるオジに別れるのです

オジとオジによるウロボロスの完成です

Permalink |記事への反応(1) | 10:52

このエントリーをはてなブックマークに追加ツイートシェア

2023-09-01

16年かけてもボカロシャロン・アップルにはならなかった

AIによる音声合成技術が発達してフェイビデオを作ったりネカマになったりは随分楽になった。

だけどコンピューター歌手歌唱力はまだまだリアルと全く違う。

機械的であることを売りにした「ドモアリガトミスターロボット」のような楽曲を完成させることさえもまだまだ遠いように見える。

人間にもなれずロボットにもなりきれないモラトリアムの隙間に潜り込むことで永遠の何かを手にしようとしている節さえある。

最近ではボカロソングよりもボイロを楽器化した楽曲の方が可能性を感じるような節さえある。

結局初音ミクは圧倒的で絶対的人間以上の歌手には至らなかった。

サブカルチャー世界に強烈な地位を築き上げることは出来たが人間を超えることはなかった。

あの頃夢見た未来はまだまだ遠い。

Permalink |記事への反応(0) | 21:25

このエントリーをはてなブックマークに追加ツイートシェア

2023-08-27

日本音声合成立ち絵文化って独特だよな

合成音声界隈は間違いなく日本が独走しているけど、これって日本以外ではあんまり流行っていない気がする

特に合成音声にキャラ立ち絵を組み合わせるってのは日本くらいしかやらないんじゃない?

Youtubeとかで海外の人の動画を見ても、日本のようなタイプってまず見かけない

地声や本人が出てくるパターンが多いんだよな

匿名文化日本が強いってのも理由にあるんだろうし、その需要を満たす程度には合成音声界隈が活発かつ立ち絵豊富ってのもあるんじゃない?

仮説というか感覚でしゃべってるから事実とは異なるだろうけどさ

ちなみに動画原稿が書けなくなったので気分転換につぶやいてる

Permalink |記事への反応(0) | 23:13

このエントリーをはてなブックマークに追加ツイートシェア

2023-03-21

人型ロボット未来

ボストン・ダイナミクスロボットは、すでに体操選手のような凄い動きまで身につけているが、人との会話機能はなかった。

ここにChatGPTと、音声認識音声合成つんで、もうちょっと高性能になればいい。

人型ロボット技術要素はそろっちゃったんだな。

2003年4月7日から20年ほど遅れたが、未来きた感ある。

Permalink |記事への反応(0) | 05:45

このエントリーをはてなブックマークに追加ツイートシェア

2023-03-19

anond:20230318142416

消えてはいないがプラットフォームが変わった

また、ハードウェアPCスマホになったことが大きい

加えて、音声合成ナレーションの分野のほうが需要あるからそちらにシフトしている

Permalink |記事への反応(1) | 12:57

このエントリーをはてなブックマークに追加ツイートシェア

次の25件>
ログインユーザー登録
ようこそ ゲスト さん
Copyright (C) 2001-2025 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp