Movatterモバイル変換

skypenguins id:skypenguins

音声合成に関するskypenguinsのブックマーク (11)

VoiceBox
Voicebox:Text-Guided Multilingual Universal Speech Generation at ScaleWe present Voicebox, a state-of-the-art speech generative model built upon Meta’s non-autoregressive flow matching model. By learning to solve atext-guided speech infilling task with a large scale of data, Voicebox outperforms single purposeAI models across speech tasks through in-context learning. Voicebox can synthesize spe
skypenguins2023/06/17
音声合成
TTS
AI
機械学習
deeplearning
リンク
声優・小岩井ことりさん、電子情報通信学会で表彰される　研究向けオリジナル曲を50曲作り貢献
声優の小岩井ことりさんは9月15日、明治大学の森勢将雅専任准教授らと共同執筆した論文が電子情報通信学会で船井ベストペーパー賞を受賞したと発表した。作曲で音声合成分野の研究に貢献した。受賞した論文は「レアなモーラを含む日本語歌唱データベースの構築と基礎評価」。著者は小岩井さん、森勢専任准教授、ライターの藤本健さん。内容は、AI歌声合成技術などの研究に使えるオリジナル曲を集めたデータベースを作成したというもの。収録したオリジナル曲には、日本語の音素をできる限り含んだ歌詞、さまざまなパターンのメロディーが織り込んである。これまで歌声合成の分野では、著作権などの問題から童謡を使うことが多かったが、オリジナル曲のみでデータベースを構築することで利用条件の緩和を目指した。
skypenguins2022/09/19
ATR音素バランス503文の楽曲版的なやつ？
声優
研究
論文
音声合成
リンク
オノマトペ（擬音語）から環境音を合成するニューラルネットワーク（Onoma-to-Wave）をPyTorchで実装した - 備忘録
はじめに事前準備ソースコード実装の概要と動かし方補助的に作成したモジュールの概要おまけ：訓練済みモデルのリリース環境音合成実験音響イベントによる条件付けなし音響イベントによる条件付けあり実装の舞台裏とかTIPS おわりに参考文献はじめに下記の雑誌論文が最近出版された。 Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words", APSIPA Transactions on Signal and Information Processing: Vol. 11: No.
skypenguins2022/07/02
名前が洒落てるな
deeplearning
音声合成
リンク
音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能
skypenguins2022/02/17
スタンドアロンで動作するから情報流出のリスクもほぼゼロだし商用利用可能で24000円は破格だな
音声合成
リンク
無料でキャラクターボイスを自動で合成してくれるAIトークソフト「COEIROINK」は誰でも超簡単に創作物の「声」を作り出せる
シロワニさん氏が趣味で開発したというWindows向けのAIトークソフト「COEIROINK(コエイロインク)」が無料で公開されています。COEIROINKは連絡不要で商用利用もOKなフリー素材キャラクター・つくよみちゃんに好きなテキストを誰でも簡単に読み上げてもらうことが可能なので、自作アニメやボイスドラマのキャラクターボイス、実況動画や解説動画のナレーションなどの作成にお役立ちです。 COEIROINK https://coeiroink.com/ ✨COEIROINKリリース✨ 無料の音声合成エンジン「#COEIROINK」が登場！文章を読み上げます！ ■公式サイト⇒https://t.co/66YStrCYu0 ■COEIROINK開発：シロワニさん様 @shirowanisan ■VOICEVOX開発：ヒホ様 @hiho_karuta 第１弾は「#つくよみちゃん」！商用利用O
skypenguins2021/12/29
503個あるATR音素バランス文の声優による発話音声をGANベースの深層学習モデルに投入し、Optunaでひたすらハイパーパラメータを探索するだけの簡単なお仕事
AI
音声合成
リンク
エンタメ活用へ向けたAIによる音声生成（Part1） | BLOG - DeNA Engineering
はじめまして、AI システム部の森紘一郎です。音声チームにおいて音声合成をはじめとする音声技術に関する研究開発を担当しています。本記事では、TechCon2020 で発表予定だった内容についてブログ記事にまとめました。このPart1の記事では音声合成に関する取り組みについて紹介します。また、 Part2の記事では音声変換に関する取り組みについて紹介します。音声合成のデモはこちらから確認できます。概要バーチャルキャラクターやスマートスピーカーなど音声を活用した新たなアプリケーションが広がっています。近年、発展が著しい深層学習は音声分野にも導入が進んでおり、自分好みの声で好きな言葉を喋らせることや、男性の声を女性の可愛らしい声に変換することが可能になってきました。本記事では、最新の音声AI 技術を紹介するとともに、音声合成のエンターテインメント分野への導入の試みについて紹介します
skypenguins2021/01/14
おお…
deeplearning
機械学習
音声合成
リンク
Text-to-Speech AI: Lifelike Speech Synthesis | Google Cloud
Converttext into natural-sounding speech using anAPI powered by the best of Google’sAI techno logies. New customers get up to $300 in freecredits to tryText-to-Speech and otherGoogle Cloud products.
skypenguins2018/03/28
google
tts
音声合成
リンク
自然な音声作る「WaveNet」の衝撃　なぜ機械は人と話せるようになったのか
2017年、米Googleや米Amazonなどの「スマートスピーカー」と呼ばれるデバイスの普及が日本で始まった。例えば、「ねえGoogle、今日の予定は？」と話しかけると、カレンダーアプリに入力していた予定を流ちょうな日本語で読み上げてくれる。中に人がいるわけではない。デバイスが人の声を認識し、応答となる声を合成しているのだ。このデバイスが音声で応答するために使用しているコアの技術は、「音声認識」と「音声合成」という2つの技術だ。音声認識は人の声の波形を機械で処理し、どんな文であったかを推定する技術。音声合成は与えられた文やデータから、人が話す音声を合成する技術だ。ここに、音声認識で推定した文に対して適切な応答文を出力する「対話制御」という技術が加わり、「人の話を聞いて適切な応答を音声で返す」という一連の動作を実現している。音声認識・合成ともに、コンピュータを利用した研究は1950年
skypenguins2018/03/27
前にサンプル聞いたけどマジで人間と区別つかないくらい自然だったんだよな
google
音声合成
WaveNet
TTS
機械学習
深層学習
リンク
ディープラーニングの力で結月ゆかりの声になってみた
目次（背景）自分の声を結月ゆかりにしたい。前回はあまりクオリティが良くなかったので、手法を変えて質を上げたい。（手法）声質変換を、低音質変換と高音質化の二段階に分けてそれぞれ学習させた。画像分野で有名なモデルを使った。（結果）性能が飛躍的に向上し、かなり聞き取れるものになった。（考察）精度はまだ改善の余地があり、多対多声質変換にすることで精度が向上すると考えられる。今回の結果を論文化したい。デモ動画背景多くの人が可愛い女の子になりたいと思っている。ＣＧ技術やモーションキャプチャ技術の向上により、姿は女の子に仮想化できるようになってきた。しかし、声に関してはまだまだ課題が多い。声質変換は「遅延」「音質」「複数話者」などの難しい課題がある。今回は、自分の声を結月ゆかりにするための、低遅延で実現可能な高音質声質変換を目指した。手法大きく分けて３つの工夫をした。画像ディープ
skypenguins2018/02/13
まえにブクマしたやつが上がったのかと思ったら同じ人だけど新しいエントリだったでござる
DeepLearning
深層学習
機械学習
音声合成
リンク
声質をコピーする音声合成システム – Lyrebird
昨年はGoogle DeepMindが開発した音声合成用のネットワーク, WaveNetが話題になりましたが、その先をいく仕組みが今後公開されようとしています。Lyrebirdというカナダのスタートアップ企業が開発したテクノロジーです. まずは以下のデモをお聞きください. オバマ、トランプ、ヒラリーとアメリカの政治家の声が見事に再現されています。この仕組みのすごいのは、1分ほどの声の録音があればそこからその人の声質を再現できるという部分.さらに録音ファイルの音質は問わないとのこと. スタートアップのファウンダーをみると、WaveNetの次にでてきた同様の音声合成のモデル SampleRNNの論文の著者が含まれていました。憶測ですが、SampleRNNの技術が使われているのかもしれません(未確認)。ただし、SampleRNNのときは音声の合成に実時間以上の時間がかかっていたはずですが、Ly
skypenguins2018/02/08
1分のデータで…！？
SampleRNN
音声合成
リンク
DeepLearningでも声質変換したい！
これはドワンゴ Advent Calendar 2017の9日目の記事です。漫画やアニメを見ていると、可愛い女の子になって可愛い女の子と他愛もない会話をして過ごす日常に憧れます。そんな感じで、可愛い女の子になりたい人は多いと思います1。しかし残念なことに、現在の技術で真の可愛い女の子になるのはとても難しいです。じゃあせめて仮想でいいから可愛い女の子になりたいですよね（バーチャルyoutuberキズナアイみたいな）。しかし、仮に姿を可愛い女の子にしても、声が可愛くなければ願いは叶いません。ということで、声を可愛くする声質変換を目指してみました。今回は僕の声をDeepLearningの力を借りて結月ゆかりにしました。お勉強まずは音声の勉強をします。これが一番時間かかりました。最近の音声合成手法は3種類あります。音響特徴量+vocoder wavenet STFT+位相推定
skypenguins2017/12/10
DeepLearning
深層学習
機械学習
音声合成
リンク
1