Movatterモバイル変換

Open JTalk

出典: フリー百科事典『ウィキペディア（Wikipedia）』

Open JTalk
開発元	名古屋工業大学

最新版	オンライン版:1.06, SourceForge版:1.11 /2012年12月25日 (13年前) (2012-12-25), SourceForge版:2018年12月25日 (7年前) (2018-12-25)
リポジトリ	sourceforge.net/projects/open-jtalk/
プログラミング言語	C++
使用エンジン	HTS
対応OS	Linux、他
対応言語	日本語
サポート状況	開発中
種別	テキスト音声合成
ライセンス	修正BSDライセンス
公式サイト	open-jtalk.sp.nitech.ac.jp
テンプレートを表示

Open JTalk（おーぷんじぇいとーく）は名古屋工業大学で開発された日本語テキスト音声合成ソフトウェアである^[1]。

概要

[編集]

Open JTalk は名古屋工業大学にて開発された、日本語を対象とするテキスト音声合成（text-to-speech、文章読み上げ）ソフトウェアである^[1]。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM（Hidden Markov Model、隠れマルコフモデル）を採用しており、少ないメモリでも動作するのが特徴^[2]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」（フォルマントシフト）、「ピッチシフト」（声の高さ）、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

配布

[編集]

オンライン版

[編集]

公式サイト^[3] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス（音響モデル）は2種類（男性1種類、女性4感情4種類）。

オープンソース版

[編集]

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。音声合成にはさらに辞書データとボイスデータ（音響モデル、htsvoice形式）が必要^[2]。ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

[編集]

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

[編集]

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU: Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。^[4]

パッケージマネージャを利用した導入方法

[編集]

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker: docker pull u6kapps/open_jtalk^[5]
Homebrew: brew install open-jtalk^[6]
APT: apt install open-jtalk^[7]; apt install open-jtalk-mecab-naist-jdic ※辞書データ; apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python: pip install pyopenjtalk^[8]
.NET(NuGet): Install-Package SharpOpenJTalk^[9]
Node.js (npm): npm install openjtalk^[10]

音響モデル

[編集]

Open JTalkで利用可能な音響モデル（ボイスライブラリ、htsvoice形式）の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている（規約で許可されていればOpen JTalkで利用可能）^[11]。

NIT ATR503 M001

[編集]

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている^[12]。クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

[編集]

メイ（HTS Voice "Mei"）は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター^[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[14]。

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル（normal, happy, angry, sad, bashful）がある。

タクミ

[編集]

タクミ（HTS Voice "Takumi"）はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター^[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[14]。

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル（normal, happy, angry, sad）がある。

tohoku-f01

[編集]

東北大学伊藤・能勢研究室^[15] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている^[16]。

4つの感情別音響モデル（angry, happy, neutral, sad）がある。

利用

[編集]

Open JTalk は様々な場面で実利用されている。以下はその一例である：

MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている^[2]。
NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー

ライブラリ・フレームワークとしての利用

[編集]

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

DeNAによるハッカドールのキャラクターを利用した音声合成研究事例^[17]
VOICEVOX - ヒホ（ヒロシバ）作の、ITAコーパス^[18] を利用したボイスが利用可能なOSSなDNN音声合成ソフト^[19]。
シロワニさんのつくよみちゃんトークソフト - シロワニさん作の、フリーのDNN音声合成ソフト^[20]。

バージョン一覧

[編集]

表. バージョン履歴
Open JTalk (SourceForge 版)		Open JTalk Demonstration Page (オンライン版)
バージョン	リリース日	バージョン	リリース日
1.11	2018-12-25^[1]
1.10	2016-12-25^[21]
1.09	2015-12-25^[22]
1.08	2014-12-25^[23]
1.07	2013-12-25^[24]
1.06	2012-12-25^[25]	1.8	2012-12-25
1.05	2011-12-25^[26]	1.7	2011-12-25
1.04	2011-07-07^[27]	1.6	2011-07-07
1.03	2011-05-01^[28]
1.02	2010-12-25^[29]	1.4	2010-12-25
1.01	2010-05-14^[30]
1.00	2009-12-25^[31]	1.0	2009-12-25

技術

[編集]

Open JTalk は様々な音声合成手法を組み合わせて制作されている。

形態素解析^{[注 1]}: 単語ラティス上の経路予測 +条件付き確率場^[32]
- エンジン:MeCab
- 発音辞書: 発音が追加されたNAIST Japanese Dictionary (NAIST-jdic)^[2]^[33]
アクセント句推定^{[注 2]}: 匂坂規則と独自の規則^[34]
音響モデル^{[注 3]}:隠れマルコフモデル^[35]
波形生成^{[注 4]}:

脚注

[編集]

[脚注の使い方]

注釈

[編集]

^テキスト→形態素・アクセント付き短単位系列
^アクセント付き短単位系列 → フルコンテキストラベル系列
^フルコンテキストラベル系列 →音響特徴量系列
^音響特徴量系列 → 音声波形

出典

[編集]

^^a ^b ^cThe Japanese TTS System "Open JTalk" version 1.11 release December 25, 2018open_jtalk_readme-1.11.txt より引用。
^^a ^b ^c ^d(大浦 2018)
^Open JTalk - HMM-based Text-to-Speech System- 公式サイト
^“なんかいろいろしてみますダウンロード”. 2021年9月23日閲覧。
^“u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
^“open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
^“open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
^“pyopenjtalk — pyopenjtalk 0.1.6+7ad3adc documentation”. 2021年9月23日閲覧。
^“NuGet Gallery”. 2021年9月23日閲覧。
^“openjtalk - npm”. 2021年9月23日閲覧。
^“なんかいろいろしてみますダウンロード”. 2021年9月23日閲覧。
^“ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
^^a ^b“メイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
^^a ^b“mmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
^“東北大学大学院工学研究科伊藤・能勢研究室”. 2021年9月23日閲覧。
^“icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
^“エンタメ活用へ向けたAIによる音声生成（Part1） · DeNA Engineers' Blog”. DeNA (2020年3月4日). 2021年9月19日閲覧。
^“高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
^“無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
^“シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
^The Japanese TTS System "Open JTalk" version 1.10 release December 25, 2016open_jtalk_readme-1.10.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.09 release December 25, 2015open_jtalk_readme-1.09.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.08 release December 25, 2014open_jtalk_readme-1.08.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.07 release December 25, 2013open_jtalk_readme-1.07.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.06 release December 25, 2012open_jtalk_readme-1.06.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.05 release December 25, 2011open_jtalk_readme-1.05.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.04 release July 7, 2011open_jtalk_readme-1.04.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.03 release May 1, 2011open_jtalk_readme-1.03.txt より引用。
^The Japanese TTS System "Open JTalk" version 1.02 release December 25, 2010open_jtalk_readme-1.02.txt より引用。
^The Open JTalk version 1.01 release May 14, 2010open_jtalk_readme-1.01.txt より引用。
^The Open JTalk version 1.00 release December 25, 2009open_jtalk_readme-1.00.txt より引用。
^形態素解析ツールである MeCab ... には単語ラティス上の経路予測 ... に基づく手法が用いられている．p.1 より引用。篠原, 正太 (2017).“ニューラルネットワークを用いた系列ラベリングによる単語分割手法”(PDF).DEIM2017 第9回データ工学と情報マネジメントに関するフォーラム:1–6.
^“OpenJTalk の解析資料”. 2021年9月19日閲覧。
^Open JTalk version 1.05 ... には，匂坂規則と，独自の数詞に関するアクセント結合規則を組み合わせたものが実装されている．p.299 より引用。鈴木, 雅之 (2012).“CRF を用いた日本語東京方言のアクセント結合自動推定”(PDF).日本音響学会秋季講演論文集:299–302.
^隠れマルコフモデル (Hidden Markov Model; HMM) に基づく音声合成 ... その日本語実装である ... Open JTalk(大浦 2018, p. 17)

参考文献

[編集]

大浦, 圭一郎 (2018).“隠れマルコフモデルに基づく日本語音声合成ソフトウェア入門”.システム／制御／情報. システム制御情報学会.62 (2):57–62.doi:10.11509/isciesci.62.2_57.

外部リンク

[編集]

Open JTalk - HMM-based Text-to-Speech System - 公式サイト（オンライン版）
Open JTalk -SourceForge版公式サイト
SHABERU - フリーの音声合成ソフト。Windows向けのOpen JTalkのスタンドアロンソフト。有志による追加ボイス（音響モデル、htsvoice形式）が充実している
pyopenjtalk -Python向けのラッパーライブラリ
SharpOpenJTalk -C#向けのラッパーライブラリ
node-openjtalk -Node.js向けのラッパーライブラリ
Gyutan -Java移植版
jtalkDLL - 各プログラミング言語から利用するための共有ライブラリ版
OpenJTalk For Unity -Unity(ゲームエンジン)むけプラグイン
tdmelodic_openjtalk -NEologdを基にした日本語アクセント辞書tdmelodicをOpen JTalkから利用できるようにした辞書データ。商用利用不可

音声合成

モデル / 手法

エンジン

商用	AquesTalk AITalk ReadSpeaker FineSpeech RECAIUS RubyTalk VoiceOperator CereProc（英語版） IVONA（英語版） Microsoft text-to-speech voices（英語版） PlainTalk（英語版） Syllaflow Seiren Voice
フリー	eSpeak（英語版） Gnuspeech（英語版） Festival Speech Synthesis System（英語版） Open JTalk
非OSS	MBROLA（英語版）

システム / API

商　用	Microsoft Speech API Microsoft Speech Server（英語版） Talk It!（英語版）
自由ソフトウェア	FreeTTS（英語版）

ハードウェア

歴史的	DECtalk（英語版） Pattern playback（英語版） The Voder（英語版） Wolfgang von Kempelen's speaking machine（英語版）
LSI	GI SP0256（英語版） TI LPC Speech Chips（英語版）
娯楽	Currah（英語版） Echo 2（英語版） Phasor（英語版） Intellivoice（英語版） Speak & Spell（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5M（英語版）

応用ソフトウェア

商用	VOICEROID CeVIO Megpoid Talk A.I.VOICE ボイスソムリエ AOLbyPhone（英語版） DialogOS（英語版） Dr. Sbaitso（英語版） Microsoft Agent（英語版） Microsoft Narrator（英語版） Voice font（英語版） VOICEPEAK
フリー	棒読みちゃん SofTalk VOICEVOX COEIROINK
サイト	コエステーション /CoeAvatar CoeFont

アクセシビリティ

スクリーン
リーダー
（リスト）

商用	JAWS PC Talker（） VoiceOver
フリー	BRLTTY（） Gnopernicus（英語版） GR for UNIX（） NonVisual Desktop Access Orca Thunder（英語版）
ハード	簡単ケータイらくらくホン

Self-voicing

商用	WordQ+SpeakQ（英語版）
フリー	Emacspeak（英語版）

音声ブラウザ

商用	aiBrowser ホームページリーダー Spoken Web（英語版）

ブラウザ拡張

フリー	Fire Vox（英語版） Text to Voice（英語版）

サイト拡張

商用	BrowseAloud（英語版） Readspeaker（英語版）

ボーカルシンセ

商用	Cantor（英語版） VOCALOID CeVIO Synthesizer V くまうた
フリー	AquesTone Flinger（英語版）ディレイラマ Sinsy NEUTRINO
シェア	UTAU
非OSS	MBROLA（英語版）
ハード	DECtalk（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5-M（英語版）
応用	ぼかりす
サイト	コエラボ

サービス・サイト

Odiogo（英語版）
Quack.com（英語版）

プロトコル

開発者・研究者

Movatterモバイル変換

概要

配布

オンライン版

オープンソース版

導入

アプリとしての導入方法

パッケージマネージャを利用した導入方法

音響モデル

NIT ATR503 M001

メイ

タクミ

tohoku-f01

利用

ライブラリ・フレームワークとしての利用

バージョン一覧

技術

脚注

注釈

出典

参考文献

関連項目

外部リンク