Movatterモバイル変換

コンテンツにスキップ

UTAU

リンクを編集

出典: フリー百科事典『ウィキペディア（Wikipedia）』

曖昧さ回避

この項目では、ソフトウェアについて説明しています。大貫妙子&坂本龍一楽曲のアルバム名については「UTAU (アルバム)」をご覧ください。

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索^?: "UTAU" – ニュース ·書籍 ·スカラー ·CiNii ·J-STAGE ·NDL ·dlib.jp ·ジャパンサーチ ·TWL(2023年6月)

UTAU
UTAU-Synth
開発元	飴屋プロジェクト

最新版	Ver0.4.19(Win/0.4.系)、Ver0.2.76(Win/0.2.系)、1.0.0 b21(Mac) /2024年 5月23日(Win/0.4.系)、2010年 5月25日(Win/0.2.系)、2024年 2月9日(Mac)
対応OS	Windows XP、Windows Vista、Mac OS X
種別	DTM、シーケンサー、音声処理
ライセンス	シェアウェア(ドネーションウェア)フリーウェアとしても使用可
公式サイト	歌声合成ツールUTAU サポートページ
テンプレートを表示

UTAU（ウタウ）とは、飴屋／菖蒲（あめや・あやめ）がフリーウェアとして配布している、Windows、macOS用歌声合成ソフトウェアである。2008年3月に配布が開始された。2011年5月27日にはMac OSX版である「UTAU-Synth」が公開された。歌唱合成ソフトでは、「ユーザーが声を採取して作成した音源を歌唱（音高の調整など）させることが可能」なソフトの一つである。

概要

ピアノロール上にノートを挿入して動かし、完成した譜面のノートにある文字から音声ファイルを使用して結合し、1つの音声ファイルを作ることができるソフトウェアである。ソフトウェアの分類としては音声合成の一派に当たるが、どちらかと言えば歌唱に特化した「歌唱合成」（波形接続型）に分類される。厳密に言えば、「音声データの挿入（切り貼り）・編集による歌唱ソフトウェア（シーケンサー、あるいはサンプラー）」に当てはまり、より専門的に特化した合成ツールと比べ、いくつか差異がある。UTAUの機能でまとめるなら、「音声をまとめたファイルを使用し、フォルマントを保ちながらピッチを変更でき、タイムストレッチに対応した音声結合ツール」の1つである。

制作の過程で、VOCALOIDと同じ3部構造を持ち（VOCALOIDの項、及び下記の節を参照）、それらの構成内容にユーザーが手を加えられるのも特徴。

公開以後、ニコニコ動画やYouTubeにて楽曲のヴォーカルにUTAUで作成した歌を加えた動画などが投稿され、またUTAUで使用される事を目的とした音声ファイルが少しずつアップロードされ、一つのコミュニティを生み出す。2009年には窓の杜大賞にて金賞を受賞した^[1]。

2011年1月19日、着うたや着声配信業務も手掛けているドワンゴに音声ファイルの簡易生成用に仕様を変えたエンジンの開発・提供し、『歌う@mobile』のサービスが行われている^[2]。

また、UTAUをボーカルとして使用したCD楽曲も商業流通で販売されている。

UTAUの構成

UTAUは、

録音（サンプリング）した音声データと、UTAUで読み込む際に使用する設定データをまとめた音声ライブラリ
ピアノロール上でノート（音符）を配置・単語を入力し、ピッチ、音量の推移、その他加工編集操作を行うエディタ部
ライブラリデータを読み込み、GUIで作成した楽譜データに基づいて、resampler、あるいは処理が類似した加工機で加工する音声伸縮エンジン部

の3つに分けられている。音声ライブラリは外部データ、GUIとエンジンはコアという形で分類される。音声ライブラリには、アクエストのテキスト読上げ用ソフトウェア「AquesTalk」から作成したものをデフォルト音声^{[注 1]}として同梱している。

読み込む音声ファイルは、UTAUエディタ上のノートに入力された文字記号とライブラリ内の音声ファイル名を照合して取り出す仕様である。ただし、prefix.mapという設定ファイルによって音高に応じて読みこむファイルが設定されている場合は、それにしたがって音声ファイル名を照合する。ライブラリ内の音声ファイルには、それぞれに音高が設定されている。合成される歌声は、元になる音声ファイルと、UTAUエディタ上の音高（実際に発声される音高）との差に応じて音高が調整される。音高の調整時には、フォルマントを加工し、声質の極端な変化を防いでいる。フォルマントフィルタは任意で使用しないようにすることも可能。

エディタ部

resamplerに受け渡すための楽譜情報・加工設定データを入力・出力する部分である。デフォルトでは、ピアノロール上には音符データしか表示されていないが、表示設定を切り替えることでピッチ曲線と音量の減衰情報、その他音声加工用の各種パラメータの文字が視覚的に表示される。1トラックのみ作成可能で音符の重ね置きはできない。ただし、音符上での原音設定によっては声を被せて1トラック内でコーラスさせることも可能。また、Mac OS X版においては、単一の音源に限り8つのマルチチャンネルに対応している。休符はrで表記される。

作成した楽譜および発音データは、ustファイルとして保存される。楽譜データをresamplerに通すことで音声ファイルであるwaveファイルとして出力可能。また標準MIDIファイル（SMF）形式のMIDIデータの読み込みに対応し、VocaloidのVSQファイルにも対応しているため、それらのファイルとUTAUとの間でデータを互換させることも可能である。

各音符には、ピッチ調整やエンベロープ、音を加工するためのオプション設定が可能。オプション設定で使われる加工処理用パラメータは、使用するエンジンの伸縮加工部（resampler等）によって使用できるものに差異がある。その内容は、声を男性的・女性的に変化するもの、ローパス・ハイパスフィルタ、原音のピッチ変動の揺れ幅操作、ノイズの低減や追加（吐息成分（ホワイトノイズ）の追加。VOCALOIDエディタのパラメータで言うブレシネスに相当）などがある。

操作系の簡易化・補助も、母音結合やオートピッチ、オートビブラート、総合的な機能としてボタン選択によりビブラートの自動設定や母音結合、ポルタメント等を自動で行う「おま☆かせ」が使用できる。オートピッチについてはより具体的に、且つ簡易に操作が行えるようにするためのAutopitch Mode2（通称Mode2）という操作体系に切り替えることが可能。

ドネーションウェアとしてのレジスト登録を行うと、レンダリング後に生成した波形を書きだし、再度調整することが可能。

エディタ部ではプラグインを用いることも可能で、これにより便利な拡張機能を使用できる。プラグインは、有志が制作したものが特定個所で配布されている。ちなみに、エディタの配色はsetting.iniのパラメータを書き換えることで変更することができる。

音声ライブラリ

UTAUにおける音声ライブラリ（おんせいライブラリ）は波形断片とメタデータの集まりである^[3]。原音ファイルセット（げんおんファイルセット）とも^[3]。

波形接続型歌声合成であるUTAUでは音源となる短い音声を調整しつつ繋ぎ合わせることで1つの歌を生成する^[4]^[3]。その基本単位となる波形断片および子音長アノテーションやライセンス文などのメタデータをまとめたものが音声ライブラリである。

UTAUは付属のデフォルト音声ライブラリを提供している^[5]。また、音声ライブラリはサードパーティーでも自由に制作できる^[6]。2025年現在、数多くの音声ライブラリが有志により配布されている^[7]。配布サイトはボイスバンク（VoiceBank）とも呼ばれ、また商業や同人の形で有償販売されるケースもある。

キャラクター・ボーカル・シリーズに倣って、（主にUTAU用の）キャラクター設定を付加している所もある。

音声ライブラリの構成

音声ライブラリは以下のファイルから構成される：

原音ファイル（げんおんファイル）：波形断片が記録されたWAVファイル。あ.wav など。
readme.txt ：音源の説明や表現・利用についての規約テキストファイル。
原音設定表：音声の発音・消音部、伸縮可能部、前後の音と被せられる範囲のアノテーション。oto.ini^{[注 2]}。
周波数表（しゅうはすうひょう）：原音の基音・音色関係を設定。使用するエンジンに依存。あ_wav.frq など。
prefix.map ：違う音高の音声で同名のファイルを混載した識別情報
その他
- アイコンとして使用する画像ファイル
- 単体の台詞音声、イラスト素材など

原音設定表は、UTAUで使用する音源の中でも、後述の音源方式を含む発音にかかわる基本かつ重要部分。エディタ部で楽譜データから加工データを出力する際、音源ファイルにあるこの原音設定表を参照も参照しデータを作成する。設定表は、UTAUでもGUIで設定が可能であり、周波数表は該当する音声を再生する際に自動的に作成されるが、どちらもファイルが膨大であるほど設定と作成に時間がかかるほか、誤差が生じることもある^{[注 3]}ため、あらかじめ同梱されている場合が多い。原音設定は、他のユーザーによって配布される場合もある。

まとめた音声ライブラリは、UTAUのフォルダ内に直接移動するか、zipのままUTAUのアイコンに受け渡すことで使用可能になる。zipファイルで受け渡す場合は、uarと拡張子を書き変えて明示することができる。また、DLL化することで容量を圧縮できる。このDLL化は、UTAUのデフォルト音声で使用されている。

原音の内容

UTAUは任意の音を原音ファイルとして扱えるため、自身の声・動物の鳴き声・楽器の音など、様々な音をサンプリングして音声ライブラリ化し音を奏でる・歌わせることが可能である。

それと同時に、UTAUの主目的は声断片の接続による歌声合成である。そのため言語音として扱いやすい単位で原音を収録して音声ライブラリ化されることが多い。どのような単位が望ましいかは用途やエンジンに依存するため、複数の種類が利用されている（⇒#単独音・#連続音・#CVVC・CVC・連単音・その他）。

単独音

UTAU における単独音（たんどくおん）は単一のモーラからなる原音である。

日本語は V・CV音節によく似た「モーラ」を発話の基本単位としている^[8]（例: 「チョ｜コ｜レ｜ー｜ト」）。そのため、読みの各モーラに対応する波形断片を単に接続していけば音声を合成できる。このために UTAU で用意される、単一のモーラからなる原音が単独音である。わかりやすく言えば、単独音は「あいうえお表の各文字に相当する原音」である。

連続音

UTAU における連続音（れんぞくおん）は複数のモーラからなる原音である。

日本語において複数のモーラが連続で発話された場合、実際の音は単独音を単に繋げただけとは異なっている。モーラとモーラの境目・移り変わり時には特有の音の遷移が見られる。この遷移を実現する方法として、遷移込みで原音をサンプリングしてクロスフェードする手法がある。例えば 2 モーラの「アカ/aka/」を用意しておけば、単独音と組み合わせて自然に遷移する音が次のように作れる：

ガ/ga/ + アカ/aka/ → ガカ/gaka/（画家）
サ/sa/ + アカ/aka/ → サカ/saka/（坂）
タ/ta/ + アカ/aka/ → タカ/taka/（鷹）

このために UTAU で用意される、複数のモーラからなる原音が連続音である。わかりやすく言えば、連続音は「数文字読み上げた原音」である。

これは音声合成の連結的合成（ダイフォン・トライフォン接続、VCV / 母音-子音-母音）の一種である。連続音を用いることで無調整でも単独音より自然な発音が得られる。録音するモーラの長さによってもその扱いが変化するが、モーラ数とそれに伴って変化する収録音源数によって音源設定もやや複雑で、音源取り直しの手間や収録時間も相対的にかかるようになる。

CVVC・CVC・連単音・その他

他にも次のような原音が提案・実用されている：

CVVC：母音-子音（VC）で構成された音素を挟みこみ「CV VC CV」な流れになるように分けて作る。日本語以外にも適合。
CVC：子音-母音-子音（CVC）で原音を構成。VCV を基本とする連続音と対照的。
連単音：「れんたんじゅつ」という調整初心者向け（連続した音節で収録した音声ファイルを単独音音源のように設定）

多重音声やささやき声、子音のみ等といった音声ファイルを用意することで表現力を高めることも可能である。日本語にない発音を含む言語に対応したライブラリを作る場合、入力にX-SAMPAなどの音声記号を用いることにより、多言語に対応したライブラリも存在する^[9]。

エンジン部

エンジン部にあたる波形合成器は、エディタ部で作成した加工データと音声ライブラリを使い、音声ファイルを出力する部分。伸縮器と結合器で構成されている。デフォルトで、伸縮部のresamplerと結合部のwavtoolがそれぞれ同梱されている。

出力させる音声ファイルは、エディタ部で範囲指定した部分を再生することも可能。エンジン自体は独立したものであるため、同じような合成をおこなうものであれば、エンジン部だけを入れ替えることも可能。エンジン部は、作者が公開しているものから有志が作成したものもある。デフォルトで搭載されている音声伸縮エンジンであるresamplerも同様に、処理の仕方が多少異なるバージョンが複数ある。基本的に使用できるエンジンは、エディタ部で入力したustファイルに対して1つであるが、ツールを併用することで複数のエンジンをノートごとに指定し切り替えることも可能。

エンジンによって生成される音声の音質及び加工結果が異なるほか、結合ファイルが生成されるまでの処理時間が異なったり、処理の仕様に合わせて独自の波形加工用フラグオプションを付け加えることもできる。ただし、エンジンの処理仕様に適する原音の仕様との相性があり、適合しないエンジンと音源では音質が悪化したり、異常処理が起きることもある。

生成方法はバッチ処理でデータをまとめて生成するため、UTAUのエディタ上でオートスクロールさせる場合は一度キャッシュファイルを作成しなければならない。エンジンによっては、処理で生じるキャッシュファイルの量が増大することもある。出力時は仕様上単一で処理を行うが、DLLの使用やマルチスレッド支援ツールの使用で高速化ができるようになっている。

なお、VOCALOIDで使うvsqファイルをGUIで編集可能なソフトウェア「Cadencii」は、外部から合成器を使用する作りとなっており、UTAUの波形合成器とも連動させることができ、リアルタイム再生を行うことができる。

開発の経緯

2007年9月に初音ミクが発売とともに大きな話題になり、ニコニコ動画に多くの既存曲、オリジナル曲がアップロードされるようになると、かねてよりニコニコ動画にTHE IDOLM@STER関連のMAD作品を発表していた、いわゆる「職人」と呼ばれるユーザーたちは、その動きを面白がり、THE IDOLM@STERに関する多くの歌から、曲の一音一音を切り貼りして別の歌に仕立て、それをニコニコ動画にアップロードしてその出来栄えを競い合っていく。THE IDOLM@STERは、短い期間に大量の曲が作られており、1人のアーティストの膨大な音声データを簡単に集めることが可能であったため、切り貼りで別の曲に仕立てることが出来た。このような手作業による声の繋ぎ合わせでの歌の制作を「人力Vocaloid」と称して楽しんでいた。^[要出典]

この流れの中で、ニコニコ動画に自作ラップを投稿するなどの活動を行うミュージシャンの一人だったLOLI.COMは、自らの声を収録した音声ファイルを人力Vocaloid用の素材とし、「炉利音コム」と称して公開した。UTAUの作者となる飴屋／菖蒲も、炉利音コムを使用して動画を投稿していた。飴屋／菖蒲は、分解された素材から歌詞への再結合にAudacity、Audacityで作成した音源を楽曲の音高に合わせるためのMelodyneの体験版、それによってできた音声の録音にWindows付属のサウンドレコーダーを使用して作品を作った結果、相当手間がかかることを動画内で記載している。このように人力Vocaloidに歌わせるには膨大な手間がかかるため、切り貼りを簡単に出来る「人力Vocaloid支援ツール」としてUTAUは開発された。^[要出典]

ツール自体は、2008年 1月11日にニコニコ動画で発表されている^[10]。その時点では、コマンドラインツールとバッチファイルを使用した「Wavtool」によるので、音声ファイルの中で切り出すエンベロープにも近い、音の時間指定の調節を可能としたものであった。音階は事前に音声を加工したファイルを作りまとめておく必要があった。

2008年2月05日に単音の伸縮機能と音高変更^{[注 4]}、さらにGUIを追加した動画が公開されている。音源は、JPNTAKE^[11]が出力した音節を加工して使用された。2008年2月20日には、原音設定に該当する単音伸縮における伸縮境界点の設定（タイムストレッチ）と、単音単位でのピッチベンドの調節を可能にした動画が公開され、基本的な仕様はほぼ完成された。この時点では、作者が「人力Vocaloid」のツールとして使用していたMELODYNEに劣らないように改良が加えられている。2008年3月6日に仕様説明の動画がニコニコ動画で公開され、同年3月15日にツールの名前をUTAUと命名し現在に至る。

作者はもともと業務系プログラマで音声合成専門ではなかったが、UTAUの制作を通じて知識を取り入れて制作がすすめられた。公開後も改良が重ねられており、他の音声合成関係開発者たちと情報を重ねて開発が進められている^[12]。

ただし、飴屋／菖蒲は、2008年6月に「人力Vocaloidは人の手作業で膨大な手間をかけて作られたものであり、機械で生成するのは方向性が違うため、『人力ボーカロイド支援ツール』という名称を辞退する」とした。これによってUTAUは歌声合成ソフトウェアという名称になっている^[13]。

肖像権・著作権とデモンストレーション用音声データの変更

UTAUは、あらゆる音声を用いて歌声を作成する事が可能なため、テレビ番組、CD、DVDソフトから既存の人物の音声を採取し、それをデータとして用いることが可能である。作者の飴屋／菖蒲も、当初は『HAND MAID メイのボイスドラマCD』の一部を用いて、デモンストレーションを行っていた。

これらを背景として2008年5月に飴屋／菖蒲は、権利関係がクリアにならない限り、当面はその音声データを用いたデモンストレーションを行わないとした^[14]。

脚注

注釈

^音源名「UTAUデフォルト」。キャラクタ名は唄音ウタ、通称デフォ子。
^UTAU-SYNTHはoto_ini.txt
^原音の周波数が極端に高い、低い場合は設定値の限界に追い付かず、またデスボイスを始めとした息成分(ノイズ)が濃厚で基音が正常に検出されにくい音源は、手動で周波数表を修正しないと正しく再生されない、または音高がおかしくなる場合がある。
^Resamplerに該当する。音高変更で用いるフォルマント処理に関しては彼独自のアルゴリズムで制作された。

出典

^窓の杜 - 2009年窓の杜大賞
^UTAUについて “UTAU”のモバイル版『歌う@mobile』
^^a ^b ^cUTAU ... サンプリングされた音声ライブラリを元に歌唱を組み立てる機能を持ち ... 音声ライブラリ（原音ファイルセット）(飴屋／菖蒲 2025)
^UTAUによる波形接続松尾, 公也 (2024). “わずか10秒の元音声でもリアルな「なりきりボイチェン」できる無料ソフト『Seed-VC』は過去最高レベルの再現度か（CloseBox）”. TechnoEdge. https://www.techno-edge.net/article/2024/10/17/3768.html.
^音声ライブラリ ... は付属音声の他に(飴屋／菖蒲 2025)
^音声ライブラリ ... は ... 自作も可能です。... UTAUで使うことの出来る音源を製作するのにこちらへの許可や申告は必要ありません。(飴屋／菖蒲 2025)
^現在はUTAUに向けて作成された音声ライブラリがネット上に非常に多く存在しており(飴屋／菖蒲 2025)
^日本語において，モーラは言語音上の基本単位であり石黒, 翔 (2018).“日本語のモーラ数を計数するシェルスクリプトプログラムの提案”.日本認知心理学会発表論文集: 1.
^http://www.youtube.com/watch?v=Dpy2ZBoZ924
^『【炉利音コム】作業時間を短縮するツールを作ってみた【人力支援】』2008年1月11日。https://www.nicovideo.jp/watch/sm2004419。2025年7月19日閲覧。
^https://web.archive.org/web/20070524215112/http://www.geocities.jp/asaamori/yy.jpntake.html AquesTalkのエンジンを使用したテキスト読み上げソフト。
^四本淑三 (2010年8月14日). “あなたの声で歌うソフト「UTAU」の奇妙な世界”. ASCII.jp. 2020年3月25日閲覧。
^““真の人力Vocaloid”とは”. FC2 Blog - ＵＴＡＵについて (2008年6月1日). 2020年3月25日閲覧。
^http://utau2008.blog47.fc2.com/blog-entry-38.html

参考文献

関連項目

音声合成
ボーカルシンセサイザー
- VOCALOID
- CeVIO
- Synthesizer V - UTAU用エンジン「Moresampler」をベースに制作された。
- 重音テト
- 足立レイ
- Nyan Cat
タイムストレッチ/ピッチシフト
- PSOLA
フーリエ変換（FFT）
スペクトラム
フォルマント

外部リンク

スタブアイコン

この項目は、ソフトウェアに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

「https://ja.wikipedia.org/w/index.php?title=UTAU&oldid=106055349」から取得

隠しカテゴリ:

[8]ページ先頭

©2009-2025 Movatter.jp