日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。 追記(24/11/20)DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。 キャラクターが15人増える なぜか久世凛さんとイルミルの声優が変更されるツッコミがあった利用規約の修正それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。 DMMボイス(現にじボイス)最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。 https://nijivoice.com/ それの学習元に、エロゲーのテキスト音声データが使われているのではないかと
わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声変換声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換システムがあると応用の幅が広がると思い、研究開発に挑戦しました。 声変換を含む音声合成の品質は、
今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO(ニュートリノ)です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT(いずれも学術的に公開されている歌声データベースを利用して開発している)の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです(9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です)。 先日、「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート」という記事でも紹介し、無事にクラウドファ
本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由
こんな簡単なコマンドで、Windowsは「しゃべって」くれる。画面キャプチャーでは声をお聞かせすることはできないが、お手元のWindows PowerShellで試してほしい スクリプトを作るとき、ちょっとユーザーの気を引きたくなることがある。たとえば、少し時間のかかる処理をするときに、終わったことを通知したい場合などだ。あるいは、実行後にすこし時間が経過してからエラーを通知するような場合にも、気を引きたくなることがある。 こんなとき昔のコンピューターならベル音やビープ音を鳴らすのが一般的だった。端末装置からコンピューターを使っていた頃、Ctrl+Gを出力するとベル音が鳴った。マイクロプロセッサが使われ始め、パソコンの原型ができあがった頃、BEEPと呼ばれる機能ができた。プログラムでビットをオンオフし、これをスピーカーに接続することで音を出していた。今もマザーボード上には、そのための小さな
筆者はUTAUによる波形接続の時代から「その人の声になりきる」技術を試してきましたが、このほど、その中でも画期的と思える技術に出会いました。『Seed-VC』(Seed Voice Conversion)というオープンソースソフトです。 ■AIボイチェンの進化どこが画期的なポイントかというと、高い音質を維持しながら、ゼロショット、つまりファインチューニングをせずに、1秒から30秒までの短い音源を参照するだけで、短時間でオリジナルに近いボイチェンができるところにあります。 以前紹介したDiff-SVCやRVCは、オリジナル音声に近いボイチェンが可能ですが、学習にはそれなりの長さのオーディオデータと高性能GPUによる処理が必要です。
ここ数か月、AIの進化が加速していて、時代についていけなくなりそうです。音楽関連のものも次々と登場していて、いつも驚くばかりですが、ここ数日SNSのタイムラインで何度か目にしたのがSongRなるもの。「これ、何だろう?」とリンクを踏んでみたところ、AIが自動作曲・編曲してくれ、作詞もしてくれるし、自分で歌詞を入力すればそれに合わせて歌ってもくれるというサービスだったのです。 アプリをインストールしたりする必要もなく、ブラウザで使えるサービスであるためWindwosでもMacでもiPhone、Androidでも何でもOKというもの。まだスタートして1、2週間のようですが、現在ベータ版という扱いだからか、誰でも無料で使うことができ、サービスとなっています。まだ発展途上という感じではありますが、今後進化していくと、かなり凄いものになりそうな気もするシステムだったので、ちょっと紹介してみましょう。
自分の声をまったく別のキャラクタの声に変えることを実現するAIボイスチェンジャー。エフェクトを使って自分の声を加工する従来のボイスチェンジャーとは異なり、自分の声は完全に消えて、まったく別人になりきれるのが特徴で、これまでもVoidolやCoeFontボイスチェンジャーといったものを記事でも紹介してきたほか、中国系のフリーウェアでもかなりの精度を持ったものがいろいろ登場してきています。 そうした中、12月25日、まったく新たなAIボイスチェンジャー、Parakeet.VC(パラキート・ブイシー)が、福島県のベンチャー企業、Parakeet株式会社からリリースされました。ここには東北ずん子や東北きりたん、またずんだもんをはじめ、計109種類の声が収録されており、ユーザーはそれらを選んで、マイクで話せばリアルタイムにキャラクタの声に変換することが可能です。既存のAIボイスチェンジャーと比較して
3行で 「カブトクワガタ」に搭載されている読み上げ機能によって、画面を見ることができない全盲のプレイヤーがゲームを楽しめるようになっています。 視覚に障害を持つプレイヤーだけでなく、未就学児や、文字を読むことに困難を抱える人など、色々な属性の人がプレイできるようになっていると思います。 システム面・技術面の両方において、「カブトクワガタ」は日本のゲームアクセシビリティに革命をもたらすポテンシャルがあり、その事実が、開発者を含めた多くの人に知られることを臨みます。 ※最終更新: 2023/07/27 カブトクワガタってなんやねん カブトクワガタ は、Nintendo Switchのゲームです。クワガタやカブトムシを育てて戦うRPGです。2023年3月15日にリリースされました。 なにがすごいのか ほぼ全ての文字を読み上げる このゲームは、画面に表示されるほぼ全ての文字を読み上げてくれます。本
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV
これまでに誰でも簡単に「結月ゆかり」の声になれる音声変換技術や音声合成ソフト「VOICEVOX」を開発してきたヒホ氏の所属するドワンゴの機械学習技術研究部門Dwango Media VillageがAI音声合成ソフト「Seiren Voice」を発表しました。Seiren Voiceではマイクで録音した音声を自動で文字起こしして、イントネーションを再現したまま結月ゆかりや琴葉 茜・葵のボイスに変換可能とのことなので、実際に無料体験版をインストールして使い方や変換精度を確かめてみました。 高品質な音声変換ソフトウェア | Seiren Voice https://seiren-voice.dmv.nico/ ・目次 ◆1:Seiren Voice&音声ライブラリのインストール手順 ◆2:Seiren Voiceで音声を変換する手順 ◆3:Seiren Voiceで編集部員の声を結月ゆかりにボ
日頃よりご愛顧いただき誠にありがとうございます。 [[SofTalk]]は、長年AquesTalkに対応してまいりましたが、勝手ながら AquesTalkへの対応を中止させていただくこととしました。 SofTalkのようにAquesTalkを同梱している場合、利用者がAquesTalkの機能を使わずに、 OpenJTalkを商用利用する場合でも、AquesTalkのライセンス料を支払わなければなりません。 AQUEST社たってのお願いで7年ほど前に新ライセンスに移行しましたが、旧ライセンスに比べて 冷遇されている状況を思うと、趣味であるはずのプログラミングを苦痛に感じるようになりました。 AQUEST社とは一度話し合いの場が設けられることになりましたが、「ごあいさつ程度の意味合いで」 「食事のできるオープンなお店で」と言われたときに建設的な意見交換が望めないように感じ、 お会いしたくありま
稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参
10月27日、Synthesizer Vの新しい歌声データベースとして、Maiがお披露目となり、その歌唱動画が公開されました。実際にユーザーが入手可能になるまでには、まだもう少し待つ必要がありそうですが、遅くとも年内には登場するそうですから心待ちにしたいところです。 今回、Synthesizer Vの開発元であるDreamtonicsによって公開されたMaiの歌声のビデオを見ると、驚くほど滑らか、スマートな歌い方であり、もはや人間の歌声と区別がつかない次元まで進化しているように感じます。しかも、とくに調声をしなくても、音符と歌詞を入力するだけで、非常にリアルな歌い方をしてくれる、というのも、嬉しいところです。一方で、先日リリースされたSynthesizer V Studio Proの最新バージョン1.7.1において、歌声データベースの複数バージョンを利用できる機能が追加されています。なぜそ
AI歌声合成技術の開発を手掛けるテクノスピーチ(名古屋市)は2月18日、AI技術により人間らしい歌声を合成できるソフトウェア「CeVIO Pro」のα版を24日に無償公開すると発表した。既存バージョンの「CeVIO」「CeVIO AI」とは異なり、Windows・macOSの両方に対応。追加の許諾や利用料不要で商用利用も可能。 CeVIO Proは、楽譜と歌詞を入力すると、AIが人間らしい歌声をシミュレーションして出力する歌声合成ソフト。まずは無料で商用利用もできるキャラクター音源1種類と編集ソフトをα版としてリリース。当該音源は正式版のリリース後も無償提供する。 現在の最新版であるCeVIO AIは、Windows専用で音楽制作ソフト(DAW)との連携に未対応。販売方法も買い切り方式だが、CeVIO ProはmacOSにも対応し、DAWとの連携も可能。第2弾以降のキャラクター音源はサブス
驚異的に進化したSynthesizer V AI まずは、バックグラウンドや機能、性能といったものを紹介する前に、私がSynthesizer V Pro Studioの1.5.0を使って打ち込んだ、弦巻マキの歌声をちょっと聴いてみてください。 いかがですか?従来の歌声合成の概念を覆すレベルに来ていると思いませんか?これは、2年前のコミケでDTMステーションCreativeからリリースしたoyasumiという曲の冒頭部分。そのときは声優の小岩井ことりさんにボーカルをお願いし、囁くように優しく歌ってもらったので、弦巻マキにも、それっぽく歌わせて仕上げてみたのです。本来、弦巻マキは「アニメキャラっぽい雰囲気の元気な女の子」というイメージの歌声ですが、そことはだいぶ違ったニュアンスの歌声になっているのも感じられたと思います。 「自動処理」メニューにある「自動ピッチ調整(カスタマイズ)」を選択する
先日、個人開発していたzenncastというWebサービスをリリースしました。 Zennでトレンドになっている記事を、毎日AIが10分のラジオにして届けてくれるというサービスです。 ありがたいことに公開後はたくさんの方に試してもらえ、技術的な質問も多数いただきました。 このZennではzenncastの技術構成や仕組みを紹介します(プロンプトつき)。 作ったもの まずはエピソードを一つ選んで1分くらい聴いてみてください! AIラジオの雰囲気が掴めると思います。 追記 zenncastのような番組を、誰でも好きな情報ソースで作れるサービスを作りました! 自分のメディアやブログをラジオに変換して、それをサイトに埋め込んだりSpotifyなどに配信できたりします👇 主な機能・特徴 毎朝10分のラジオを生成 Zennでトレンドになっている記事を要約して紹介 お便りを投稿すると、翌日のエピソードで
音声合成ソフトの開発や販売を手掛けるSSS(仙台市)は3月16日、音声合成ソフト「VOICEVOX」用音源「九州そら」をリリースした。九州そらは、せりふを入力するだけで人間らしい“ささやき声”を出力できるAIだ。 VOICEVOXは、ドワンゴでAIの研究に携わっているヒホ(ヒロシバ)さん(@hiho_karuta)さんが開発した無料の音声合成ソフト。AI技術を活用して、人間らしい話し声を合成できる。イントネーションや話す速さなどの調整も可能。立体音声を制作できるソフトを活用すれば「ASMR動画」の制作にも使える。 九州そらはVOICEVOX用音源として初めてささやき声の合成に対応した。ソフトのダウンロードと利用は無料。「VOICEVOX:九州そら」とクレジットを記入すれば商用利用も無償でできる。 関連記事 「VOICEPEAK」と「CeVIO Pro」、 新しい音声・歌声合成製品はどこがす
シロワニさん氏が趣味で開発したというWindows向けのAIトークソフト「COEIROINK(コエイロインク)」が無料で公開されています。COEIROINKは連絡不要で商用利用もOKなフリー素材キャラクター・つくよみちゃんに好きなテキストを誰でも簡単に読み上げてもらうことが可能なので、自作アニメやボイスドラマのキャラクターボイス、実況動画や解説動画のナレーションなどの作成にお役立ちです。 COEIROINK https://coeiroink.com/ ✨COEIROINKリリース✨ 無料の音声合成エンジン「#COEIROINK」が登場! 文章を読み上げます! ■公式サイト⇒https://t.co/66YStrCYu0 ■COEIROINK開発:シロワニさん様 @shirowanisan ■VOICEVOX開発:ヒホ様 @hiho_karuta 第1弾は「#つくよみちゃん」! 商用利用O
CoeFont通訳はここがスゴい!CoeFont通訳は、自分が話した言語を、それ以外の言語へ、リアルタイムに変換します。 自分の外国語音声を準備すれば、自分の声で、海外の相手に話をすることができます。 Solve These Common Issues at OnceOvercome the language barrier that used to be a challenge. Easily keep track of the conversation flow and conduct more efficient online meetings.
高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者の妻の歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp
すでに、その歌声を聴いて驚かれた方も多いと思いますが、本日10月30日、株式会社インターネットより、「Synthesizer V AI 花響 琴(Hibiki Koto)」が発売されました。非常に人間らしくリアルに歌うAI歌声合成エンジンとして広く知られるSynthesizer V AIではありますが、花響 琴はその中でも最高レベルの歌唱力を持つと同時に、幅広い表現力を持った歌声データベースになっており、従来の歌声合成の世界観とは一線を画すこれまでにない歌声を実現するものとなっています。 まさに圧倒的な歌唱力の本格派シンガーであるデフォルトのボーカルスタイルに加え、優しく歌うBallade、かわいい声で歌うCute、暗い声で歌うDark、ミュージカル風に歌うMusical、Falsetto(ファルセット)、パワフルに歌うPowerと、さまざまな歌い方ができるのも花響 琴の大きな特徴。そして
これまでもワープロやタイプライター、ビデオタイトラーなど、昔のガジェットをいたずらに購入していじくってきましたが、今回はいよいよマイコン! マイコンなんて昔じゃないじゃん! ……と思いきや、ボクの子ども時代にもありましたからね。 約40年前のマイコンは、今のMacやWindowsとはまったく違う、人間に優しくない使い勝手で頭を抱えました。 1975年群馬生まれ。ライター&イラストレーター。 犯罪者からアイドルちゃんまで興味の幅は広範囲。仕事のジャンルも幅が広過ぎて、他人に何の仕事をしている人なのか説明するのが非常に苦痛です。変なスポット、変なおっちゃんなど、どーしてこんなことに……というようなものに関する記事をよく書きます。(動画インタビュー) 前の記事:子どもに覚えさせたい!? ボクの考えた最強の「あいうえお表」 > 個人サイト Web人生 ありがとう、ジョブズ&ゲイツ 約40年前のマイ
このDiff-SVCを簡単に実行できるGoogle ColabのNotebookが1月23日に公開停止となってしまったのです。ですので、前回紹介したやり方での実行はできなくなります。筆者はGoogle Colabからローカルにコピーしているのでこれまで通りに使えますが、新規に手軽にやろうという人への道は一時的にではありますが、閉ざされたことになります。 ▲筆者はGoogle ColabのNotebookをローカルに保存しているので現在も利用可能 なぜこういうことになったかというと、それは悪質な利用者のせいです。 自分の音源や、権利を所有する、許可をもらっている人物の声であれば問題ないのですが、前回言及したように、よく知られている歌手、セレブ、VOCALOIDなど既存のバーチャルシンガーの音源などを勝手にDiff-SVCでAI音源にし、歌わせたものを例えば「AIアリアナ・グランデが~を歌った
NEUTRINO、CeVIO AI、Synthesizer V……と、まるで人間のように歌う、AI歌声合成の世界が賑わっていますが、今年この世界がさらに大きく変わる可能性が出てきました。一般ユーザーが自分の声を収録し、それを元にAI歌声合成をするための統一した楽曲の規格を作り、公開されることになったのです。その仕組みづくりに貢献したのが、声優であり、マルチクリエイターでもある小岩井ことり(@koiwai_kotori)さん。AI歌声合成のために、小岩井さんが作詞・作曲するとともに、自ら歌唱したデータ、計50曲が公開されることとなり、それをテンプレートにして歌えば、それぞれのAI歌声合成ができる世界が実現できることになりそうなのです。 そのプロトタイプとなる小岩井さんの歌唱データベースが公開に向けて、準備を進めているところですが、正式公開前に、実際に歌わせることができるソフトであるNEUTR
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く