Movatterモバイル変換


[0]ホーム

URL:


コンテンツにスキップ
Wikipedia
検索

Open JTalk

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Open JTalk
開発元名古屋工業大学
最新版
オンライン版:1.06, SourceForge版:1.11 /2012年12月25日 (13年前) (2012-12-25), SourceForge版:2018年12月25日 (7年前) (2018-12-25)
リポジトリsourceforge.net/projects/open-jtalk/
プログラミング
言語
C++
使用エンジンHTS
対応OSLinux、他
対応言語日本語
サポート状況開発中
種別テキスト音声合成
ライセンス修正BSDライセンス
公式サイトopen-jtalk.sp.nitech.ac.jp
テンプレートを表示

Open JTalkおーぷんじぇいとーく名古屋工業大学で開発された日本語テキスト音声合成ソフトウェアである[1]

概要

[編集]
開発の原点にあたる名古屋工業大学

Open JTalk は名古屋工業大学にて開発された、日本語を対象とするテキスト音声合成(text-to-speech、文章読み上げ)ソフトウェアである[1]オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM(Hidden Markov Model、隠れマルコフモデル)を採用しており、少ないメモリでも動作するのが特徴[2]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」(フォルマントシフト)、「ピッチシフト」(声の高さ)、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

配布

[編集]

オンライン版

[編集]

公式サイト[3] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス(音響モデル)は2種類(男性1種類、女性4感情4種類)。

オープンソース版

[編集]

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。音声合成にはさらに辞書データとボイスデータ(音響モデル、htsvoice形式)が必要[2]。ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

[編集]

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

[編集]

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU
Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。[4]

パッケージマネージャを利用した導入方法

[編集]

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker
docker pull u6kapps/open_jtalk[5]
Homebrew
brew install open-jtalk[6]
APT
apt install open-jtalk[7]
apt install open-jtalk-mecab-naist-jdic ※辞書データ
apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python
pip install pyopenjtalk[8]
.NET(NuGet)
Install-Package SharpOpenJTalk[9]
Node.js (npm)
npm install openjtalk[10]

音響モデル

[編集]

Open JTalkで利用可能な音響モデル(ボイスライブラリ、htsvoice形式)の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている(規約で許可されていればOpen JTalkで利用可能)[11]

NIT ATR503 M001

[編集]

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている[12]クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

[編集]

メイ(HTS Voice "Mei")は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[14]

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル(normal, happy, angry, sad, bashful)がある。

タクミ

[編集]

タクミ(HTS Voice "Takumi")はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[14]

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル(normal, happy, angry, sad)がある。

tohoku-f01

[編集]

東北大学 伊藤・能勢研究室[15] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている[16]

4つの感情別音響モデル(angry, happy, neutral, sad)がある。

利用

[編集]

Open JTalk は様々な場面で実利用されている。以下はその一例である:

  • MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている[2]
  • NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー

ライブラリ・フレームワークとしての利用

[編集]

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

バージョン一覧

[編集]
表. バージョン履歴
Open JTalk

(SourceForge 版)

Open JTalk Demonstration Page

(オンライン版)

バージョンリリース日バージョンリリース日
1.112018-12-25[1]
1.102016-12-25[21]
1.092015-12-25[22]
1.082014-12-25[23]
1.072013-12-25[24]
1.062012-12-25[25]1.82012-12-25
1.052011-12-25[26]1.72011-12-25
1.042011-07-07[27]1.62011-07-07
1.032011-05-01[28]
1.022010-12-25[29]1.42010-12-25
1.012010-05-14[30]
1.002009-12-25[31]1.02009-12-25

技術

[編集]

Open JTalk は様々な音声合成手法を組み合わせて制作されている。

脚注

[編集]
[脚注の使い方]

注釈

[編集]
  1. ^テキスト→形態素・アクセント付き短単位系列
  2. ^アクセント付き短単位系列 → フルコンテキストラベル系列
  3. ^フルコンテキストラベル系列 →音響特徴量系列
  4. ^音響特徴量系列 → 音声波形

出典

[編集]
  1. ^abcThe Japanese TTS System "Open JTalk" version 1.11 release December 25, 2018open_jtalk_readme-1.11.txt より引用。
  2. ^abcd(大浦 2018)
  3. ^Open JTalk - HMM-based Text-to-Speech System- 公式サイト
  4. ^なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  5. ^u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
  6. ^open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
  7. ^open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
  8. ^pyopenjtalk — pyopenjtalk 0.1.6+7ad3adc documentation”. 2021年9月23日閲覧。
  9. ^NuGet Gallery”. 2021年9月23日閲覧。
  10. ^openjtalk - npm”. 2021年9月23日閲覧。
  11. ^なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  12. ^ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
  13. ^abメイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
  14. ^abmmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
  15. ^東北大学大学院工学研究科 伊藤・能勢研究室”. 2021年9月23日閲覧。
  16. ^icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
  17. ^エンタメ活用へ向けたAIによる音声生成(Part1) · DeNA Engineers' Blog”. DeNA (2020年3月4日). 2021年9月19日閲覧。
  18. ^高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
  19. ^無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
  20. ^シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
  21. ^The Japanese TTS System "Open JTalk" version 1.10 release December 25, 2016open_jtalk_readme-1.10.txt より引用。
  22. ^The Japanese TTS System "Open JTalk" version 1.09 release December 25, 2015open_jtalk_readme-1.09.txt より引用。
  23. ^The Japanese TTS System "Open JTalk" version 1.08 release December 25, 2014open_jtalk_readme-1.08.txt より引用。
  24. ^The Japanese TTS System "Open JTalk" version 1.07 release December 25, 2013open_jtalk_readme-1.07.txt より引用。
  25. ^The Japanese TTS System "Open JTalk" version 1.06 release December 25, 2012open_jtalk_readme-1.06.txt より引用。
  26. ^The Japanese TTS System "Open JTalk" version 1.05 release December 25, 2011open_jtalk_readme-1.05.txt より引用。
  27. ^The Japanese TTS System "Open JTalk" version 1.04 release July 7, 2011open_jtalk_readme-1.04.txt より引用。
  28. ^The Japanese TTS System "Open JTalk" version 1.03 release May 1, 2011open_jtalk_readme-1.03.txt より引用。
  29. ^The Japanese TTS System "Open JTalk" version 1.02 release December 25, 2010open_jtalk_readme-1.02.txt より引用。
  30. ^The Open JTalk version 1.01 release May 14, 2010open_jtalk_readme-1.01.txt より引用。
  31. ^The Open JTalk version 1.00 release December 25, 2009open_jtalk_readme-1.00.txt より引用。
  32. ^形態素解析ツールである MeCab ... には単語ラティス上の経路予測 ... に基づく手法が用いられている.p.1 より引用。篠原, 正太 (2017).“ニューラルネットワークを用いた系列ラベリングによる単語分割手法”(PDF).DEIM2017 第9回データ工学と情報マネジメントに関するフォーラム:1–6.
  33. ^OpenJTalk の解析資料”. 2021年9月19日閲覧。
  34. ^Open JTalk version 1.05 ... には,匂坂規則と,独自の数詞に関するアクセント結合規則を組み合わせたものが実装されている.p.299 より引用。鈴木, 雅之 (2012).“CRF を用いた日本語東京方言のアクセント結合自動推定”(PDF).日本音響学会秋季講演論文集:299–302.
  35. ^隠れマルコフモデル (Hidden Markov Model; HMM) に基づく音声合成 ... その日本語実装である ... Open JTalk(大浦 2018, p. 17)

参考文献

[編集]

関連項目

[編集]

外部リンク

[編集]
モデル / 手法
エンジン
商用
フリー
非OSS
システム / API
商 用
自由ソフトウェア
ハードウェア
歴史的
LSI
娯楽
応用ソフトウェア
商用
フリー
サイト
アクセシビリティ
スクリーン
リーダー

リスト
商用
フリー
ハード
Self-voicing
商用
フリー
音声ブラウザ
商用
ブラウザ拡張
フリー
サイト拡張
商用
ボーカルシンセ
商用
フリー
シェア
非OSS
ハード
応用
サイト
サービス・サイト
プロトコル
開発者・研究者
関連分野
カテゴリカテゴリ
製品
CeVIOプロジェクト
1st PLACE
エクシング
エクシング
テイチクエンタテインメント
三波クリエイツ
VOCALOMAKETS
SSS
TOKYO6 ENTERTAINMENT
KAMITSUBAKI STUDIO
インクストゥエンター
AHS
ZAN-SHIN
U-Stella
テクノスピーチ
Kizuna AI株式会社
ブシロード
ガソリンアレイ
candy cream algorithm
バンダイナムコエンターテインメント
KONAMI
  • 篁響季s
  • 風祭朝陽s
  • 小紫桃果s
  • 山田花音s
そよぎフラクタル
  • 梵そよぎts
MARUMOCHI LABEL
  • 箱庭ハノs
  • 箱庭コトs
Chorical
  • SELENAs
  • 瑛璨s
Studio ENTRE
  • 白岬ジャスパーs
  • 乙辺ヒスイs
Sephirese
  • 柚凛s
s: ソングボイスのみ, t: トークボイスのみ, ts: ソング・トークボイスあり
CeVIOプロジェクト
製品
組織
関連
姉妹ブランド製品
姉妹ソフト
組織
その他
スタブアイコン

この項目は、ソフトウェアに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めていますPJ:コンピュータ/P:コンピュータ)。

  1. ^大浦圭一郎 - 大浦准教授のプロフィール
  2. ^Techno-Speech, Inc. / 株式会社テクノスピーチ
https://ja.wikipedia.org/w/index.php?title=Open_JTalk&oldid=107325849」から取得
カテゴリ:
隠しカテゴリ:

[8]ページ先頭

©2009-2026 Movatter.jp