音声ファイルや動画からの文字起こしはAIによって簡単にできるようになりましたが、文字起こしができるAIをPCにセットアップするのはやや面倒です。オープンソースの文字起こしツールの「Vibe」はWindows・macOS・Linuxであれば誰でも簡単にインストール可能で、NVIDIA・AMD・AppleGPUで実行できるように最適化されています。Vibeを使えば完全にオフラインでの文字起こしが可能で、データがデバイスから外部に漏れることはありません。 Vibe. https://thewh1teagle.github.io/vibe/ thewh1teagle/vibe: Transcribe on your own! https://github.com/thewh1teagle/vibe Vibeは記事作成時点で、バージョン3.0.5がリリースされています。今回はWindows環境にイ

発表・掲載日:2025/03/10 日本語音声基盤モデル「いざなみ」「くしなだ」を公開 -少量の日本語音声データで高性能な音声AIを構築可能に- ポイント 豊かな感情表現を含む6万時間の日本語音声データから2種類の日本語音声基盤モデルを構築 モデルの改良が容易な「いざなみ」と感情認識や音声認識の能力がより高い「くしなだ」を一般公開 少量データを活用した音声AIの構築・普及に貢献 国立研究開発法人 産業技術総合研究所(以下「産総研」という)人工知能研究センター 深山覚 研究チーム長、緒方淳 客員研究員は、高性能な音声AI構築に利用可能な2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を公開しました。 音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルで、音声認識や音声感情認識などに応用が進んでいます。音声基盤モデルの構築には、対象とする言語やそれが使われるシーンを想定
萌(も)え声を出したくても出せない人でも簡単に簡単に萌え声を生成できる「Moe TTS」が公開されていたので利用してみました。Moe TTSは機械学習を用いて実際のゲームソフトの音声等を合成しており、機械学習でアプリケーションを開発するコミュニティ「Hugging Face」内で公開されています。 Moe TTS - a Hugging Face Space by skytnt https://huggingface.co/spaces/skytnt/moe-tts Moe TTSにアクセスするとこんな感じの画面が表示されます。 そのまま上にスクロールすると文字の入力ボックスが現れます。デフォルトで「こんにちは。」と入力されていたので、今回はこれに続けて「今日も寒いですね。」と入力。そして、「Generate」をクリックします。 すると、ページ下部に再生ボタンが現れます。そのまま再生ボタン

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く