





本発明は、概して音声合成並びに通信システムと方法に関する。より詳細には、本発明は、パラメータ生成を使用し、提供されたテキストから音声を合成することに関する。 The present invention relates generally to speech synthesis and communication systems and methods. More particularly, the present invention relates to synthesizing speech from provided text using parameter generation.
提供されたテキストの音声合成のためのシステムと方法が示される。特に、システム内でのパラメータ生成は、パラメータのストリームの段階的近似ではなく音声の自然な流れを真似するために連続近似として実行される。提供されたテキストは、分割されることができ、パラメータは、音声モデルを使用して生成されることができる。音声モデルから生成されたパラメータは、音声合成に適用する新たなパラメータのセットを得るために後処理段階においてさらに使用される。 A system and method for speech synthesis of provided text is presented. In particular, parameter generation within the system is performed as a continuous approximation to mimic the natural flow of speech rather than a stepwise approximation of the parameter stream. The provided text can be split and the parameters can be generated using a speech model. The parameters generated from the speech model are further used in the post-processing stage to obtain a new set of parameters to apply to speech synthesis.
ある実施形態において、提供されたテキストのためのコンテキストラベルを生成する手段と、音声モデルを使用して、前記提供されたテキストために生成された前記コンテキストラベルのためのパラメータのセットを生成する手段と、分散スケーリングが可能である、前記生成されたパラメータのセットの処理手段と、音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストのための音声合成手段とを含む、提供されたテキストの音声合成のためのシステムが示される。 In some embodiments, means for generating a context label for the provided text and means for generating a set of parameters for the context label generated for the provided text using a speech model Speech for the provided text, wherein said means for processing said generated set of parameters capable of distributed scaling and said set of parameters processed for speech synthesis can be applied A system for speech synthesis of provided text including synthesis means is shown.
別の実施形態において、提供されたテキストをフレーズのシーケンスに分割するステップと、音声モデルを使用して前記フレーズのシーケンスのためのパラメータを生成するステップと、提供されたテキストのための音声合成に使用可能である別のパラメータのセットを得るために、前記生成されたパラメータを処理するステップとを含む、連続的な特徴ストリームを使用する、音声合成に使用するための提供されたテキストのためのパラメータ生成方法が示される。 In another embodiment, dividing the provided text into a sequence of phrases, generating a parameter for the sequence of phrases using a speech model, and speech synthesis for the provided text Processing the generated parameters to obtain another set of parameters that can be used for a provided text for use in speech synthesis using a continuous feature stream A parameter generation method is shown.
本発明の原理を理解するのを促す目的で、図面に表されている実施形態を参照し、具体的な用語を使用してそれらの実施形態を説明する。それにもかかわらず、本発明の範囲の限定はそれによって意図されていないことが理解されよう。説明されている実施形態における任意の変更およびさらなる修正、ならびに本明細書に記載されている本発明の原理の任意のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように企図されている。 For the purpose of promoting an understanding of the principles of the invention, reference will now be made to the embodiments illustrated in the drawings and specific language will be used to describe the embodiments. It will nevertheless be understood that no limitation of the scope of the invention is thereby intended. Any changes and further modifications in the described embodiments, as well as any further applications of the principles of the invention described herein, will generally occur to those skilled in the art to which the invention pertains. It is intended to be
従来のテキスト読み上げ(TTS)システムにおいて、文字言語若しくはテキストは、自動的に言語規格に変換されることができる。言語規格は、音声波形を生成するために音声コーパスの保存形式または音声コーパスのモデルに指標をつける。統計的パラメトリック音声システムは、いかなる音声もそのものは保存せず、かわりに音声モデルを保存する。音声コーパスのモデルと言語分析の出力結果とは、出力音声の合成に使用されるパラメータのセットを評価するために使用されることができる。音声コーパスのモデルは、音声パラメータが適合する確率関数の平均と共分散を含む。検索モデルは、音声シグナルを表すために、基本周波数(f0)およびメルケプストラム(MCEPs)などのスペクトルパラメータを生成することができる。しかし、これらのパラメータは、固定フレームレートのためであり、ステートマシンから得られる。パラメータのストリームの段階的近似は、音声の自然な流れの真似ではない結果を生む。自然な音声は、連続的であり段階的ではない。ある実施形態において、音声の自然な流れを真似するために、モデルの段階的近似を連続的なストリームへと変換するシステムと方法が開示される。 In conventional text-to-speech (TTS) systems, a character language or text can be automatically converted to a language standard. Language standards index speech corpus storage formats or speech corpus models to generate speech waveforms. Statistical parametric speech systems do not store any speech itself, but instead store a speech model. The speech corpus model and the output of the linguistic analysis can be used to evaluate a set of parameters used for the synthesis of the output speech. The speech corpus model includes the mean and covariance of the probability function that the speech parameters fit. The search model can generate spectral parameters such as fundamental frequency (f0) and mel cepstrum (MCEPs) to represent the audio signal. However, these parameters are for a fixed frame rate and are obtained from the state machine. A stepwise approximation of the parameter stream yields a result that is not an imitation of the natural flow of speech. Natural speech is continuous and not gradual. In one embodiment, a system and method for converting a stepped approximation of a model into a continuous stream to mimic the natural flow of speech is disclosed.
図1は、100として全体が示されている音声合成のための従来のシステムのある実施形態を表す図である。音声合成システムの基本構成要素は、音声コーパス106、言語規格107、パラメータ化モジュール108を含むことができる訓練モジュール105と、テキスト111、コンテキストラベル112、統計的パラメータモデル113、音声合成モジュール114を含むことができる合成モジュール110とを含むことができる。 FIG. 1 is a diagram representing one embodiment of a conventional system for speech synthesis, indicated generally as 100. The basic components of a speech synthesis system include a
訓練モジュール105は、統計的パラメータモデル113を訓練するために使用することができる。訓練モジュール105は、音声コーパス106、言語規格107、パラメータ化モジュール108を含むことができる。音声コーパス106は、言語規格107に変換されることができる。音声コーパスは、言語のボキャブラリーを成立させる音節と単語の文脈における言語において生成される音声を扱うために選択された文字言語またはテキストを含むことができる。言語規格107は、音声コーパスのモデルの保存形式または音声波形を生成するための音声コーパスのモデルに指標をつける。音声そのものは保存されないが、音声のモデルは保存される。モデルは、音声パラメータが適合する確率関数の平均と共分散を含む。 The
合成モジュール110は、音声モデルを保存し音声を生成することができる。合成モジュール110は、テキスト111、コンテキストラベル112、統計的パラメータモデル113、音声合成モジュール114を含むことができる。コンテキストラベル112は、様々な粒度をもつことができるテキスト111内のコンテキスト情報を表し、たとえば、サラウンディングサウンド、サラウンディング単語、サラウンディングフレーズなどに関する情報を表す。コンテキストラベル112は、言語モデルから提供されたテキストのために生成されることができる。統計的パラメータモデル113は、音声パラメータが適合する確率関数の平均と共分散を含むことができる。 The
音声合成モジュール114は、テキスト111の音声パラメータを受信し、当該パラメータを合成音声へと変換する。これは、スペクトル情報を時間領域信号に変換するためのメル対数スペクトル近似(MLSA)フィルタなどの標準的な方法を使用してなされることができる。 The
図2は、200として全体が示されているパラメータ生成を使用した音声合成システムのある変更実施形態を表す図である。システムの基本構成要素は、図1の基本構成要素と類似した構成要素にパラメータ生成モジュール205を加えた基本構成要素を含むことができる。統計的パラメトリック音声合成システムにおいて、音声信号は、固定フレームレートにおけるパラメータのセットとして表される。パラメータ生成モジュール205は、統計的パラメータモデル113からオーディオ信号を受信し、変換する。ある実施形態において、時間領域内のオーディオ信号は、より効率的な処理のためにスペクトル領域などの他の領域へと数学的に変換されている。スペクトル情報は、さらに音声信号を表すためにf0およびMCEPsなどの周波数係数形式で保存される。パラメータ生成は、入力として指標をつけられた音声モデルと、出力として指標をつけられたスペクトルパラメータを有しているようなものである。ある実施形態において、隠れマルコフモデル(HMM)技術が使用される。モデル113は、スタティック係数とも呼ばれるパラメータの統計分布だけでなく、それらの変化率も含む。変化率は、デルタ係数と呼ばれる一次導関数と、デルタデルタ係数とされる二次導関数とを有するものとして説明されることができる。3つのタイプのパラメータは、モデルの単一の観測ベクトル中に共にスタックされている。パラメータ生成処理は、下記により詳細に示される。 FIG. 2 is a diagram representing a modified embodiment of a speech synthesis system using parameter generation, indicated generally as 200. The basic components of the system can include basic components obtained by adding the
従来のパラメータの統計モデルにおいては、パラメータの平均と分散のみ考慮されている。平均パラメータは、パラメータ生成の各状態のために使用される。これは、自然な音声作用に反して各状態の遷移時において値が突然変化する区分的定数パラメータの軌跡を生成する。さらに、スタティック係数の統計的特性だけが考慮され、パラメータの値の変化速度は考慮されない。したがって、図2に表された変更実施形態のように、一次導関数と二次導関数の統計的特性が考慮されなければならない。 In the conventional parameter statistical model, only the average and variance of the parameters are considered. The average parameter is used for each state of parameter generation. This produces a trajectory of piecewise constant parameters whose values suddenly change at each state transition, contrary to natural speech effects. Furthermore, only the statistical properties of the static coefficients are considered, not the rate of change of the parameter values. Therefore, the statistical properties of the first and second derivatives must be considered, as in the modified embodiment depicted in FIG.
最尤パラメータ生成(MLPG)は、スタティック係数と導関数の統計的特性を考慮した方法である。しかし、この方法はシーケンスの長さを増加させる多大な計算量を有するため、リアルタイムシステムにおける実施は実際的ではない。テキストメッセージ全体ではなく言語セグメントに基づいたパラメータを生成するより効率的な方法が下記に示されている。言語セグメントは、TTSシステム中のコンテキストラベル「休止(pause)」によって区切ることができる任意の単語群または文章群を指すこともある。 Maximum likelihood parameter generation (MLPG) is a method that takes into account the statistical properties of static coefficients and derivatives. However, since this method has a large amount of computation to increase the length of the sequence, implementation in a real-time system is not practical. A more efficient way of generating parameters based on language segments rather than entire text messages is shown below. A language segment may refer to any group of words or sentences that can be separated by a context label “pause” in the TTS system.
図3は、300として全体が示されているパラメータの軌跡を生成するある実施形態を表すフローチャートである。パラメータの軌跡はテキストメッセージ全体のかわりに言語セグメントに基づいて生成される。パラメータ生成の前に、統計的パラメ―タモデル113に示される継続性モデルを使用して状態シーケンスが選択されることができる。これは、統計的パラメータモデル中の各状態から生成されるフレームの数を決定する。パラメータ生成モジュールによって仮定されるように、パラメータは同一の状態においては変化しない。この軌跡が結果として音声信号の質を低下させることになる。しかし、デルタパラメータとデルタデルタパラメータからの情報を使用してより平滑な軌跡を積算すると、音声合成出力はより自然でより明瞭である。 FIG. 3 is a flowchart illustrating an embodiment for generating a parameter trajectory, indicated generally as 300. The parameter trajectory is generated based on the language segment instead of the entire text message. Prior to parameter generation, a state sequence can be selected using the continuity model shown in the
動作305において、状態シーケンスが選択される。たとえば、状態シーケンスは、モデル113の各状態から生成されるフレームの数を決定する統計的パラメータモデル113を使用して、選択されることができる。制御は動作310に移され、処理300は継続する。 In
動作310において、セグメントが分割される。ある実施形態において、セグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。制御は、動作315a、315bのうち少なくとも1つに移され、処理300は継続する。 In
動作315aおよび動作315bにおいて、スペクトルパラメータが生成される。スペクトルパラメータは音声シグナルを表し、基本周波数315a、MCEPs、315bのうち少なくとも1つを含む。これらの処理は、下記の図5と図6とにおいて、より詳細に示される。制御は動作320に移され、処理300は継続する。 In
動作320において、パラメータの軌跡が作成される。たとえば、パラメータの軌跡は、時間領域に沿った全ての状態にわたって各パラメータのストリームを連結することによって、作成されることができる。実際には、パラメータモデルの各次元は軌跡をもつ。そのような1つの次元のパラメータの軌跡作成の実例が図4に全体的に提供される。図4(KING,Simon(2010年6月24日) A beginners’ guide to statistical parametric speech synthesis: The Centre for Speech Technology Research, University of Edinburgh, UK 、pp.9)は、平滑にされたMLPGからの軌跡の一般化された実施形態である。 In
図5は、500として全体が示されている基本周波数パラメータ生成のための処理のある実施形態を表すフローチャートである。処理は、入力テキストが言語セグメントに分割された後にパラメータ生成モジュール205(図2)中に発生することがある。パラメータはセグメントごとに予測される。 FIG. 5 is a flow chart representing an embodiment of a process for generating fundamental frequency parameters, indicated generally as 500. Processing may occur in the parameter generation module 205 (FIG. 2) after the input text has been divided into language segments. Parameters are predicted for each segment.
動作505において、フレームがインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、i=1が第一フレームを表し、i=2が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームをインクリメントについて、「i」の値は望ましい間隔で増加される。ある実施形態において、「i」の値は各回に1ずつ増加されることができる。制御は動作510に移され、処理500は継続する。 In
動作510において、言語セグメントが信号中に存在するか否かが判定される。言語セグメントが存在すると判定された場合、制御は動作515に移され、処理500は継続する。言語セグメントが存在しないと判定された場合、制御は動作525に移され、処理500は継続する。 In
動作510における判定は、任意の適切な基準に基づいて行われることができる。ある実施形態において、言語セグメントのセグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。 The determination in
動作515において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの変動を調整するために使用されてもよい。f0軌跡は、パラメータ生成におけるスタティック係数とデルタ係数の平均を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向にあってもよい。分散スケーリングは、合成された信号がより鮮明に聞こえるように、f0軌跡のダイナミックレンジを拡大することができる。制御は動作520に移され、処理500は継続する。 In
動作520において、ログ領域から線形周波数領域への変換が基本周波数において実行され、処理500は終了する。 In
動作525において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作530に移され、処理500は継続する。音声化が開始したと判定された場合、制御は動作535に移され、処理500は継続する。 In
動作520における判定は、任意の適切な基準に基づくことができる。ある実施形態において、f0モデルがf0の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、f0モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。 The determination in
動作530において、フレームは音声化されていないと判定されている。f0(i)=0のように当該フレームのスペクトルパラメータは0である。制御は動作505に戻され、処理500は継続する。 In
動作535において、フレームは音声化されていると判定されており、第一フレームにおいて音声化されているか否かがさらに判定される。音声化が第一フレームにおいてなされていると判定された場合、制御は動作540に移され、処理500は継続する。音声化が第一フレームにおいてなされていないと判定された場合、制御は動作545に移され、処理500は継続する。 In
動作535における判定は、任意の適切な基準に基づくことができる。ある実施形態においては、判定は予測されたf0値に基づいており、別の実施形態においては、判定は音声化予測のための特定モデルに基づいている可能性がある。 The determination in
動作540において、第一フレームのスペクトルパラメータは、f0(i)=f0_mean(i)というセグメントの平均である。制御は動作505に戻され、処理500は継続する。 In
動作545において、デルタ値が調整される必要があるか否かが判定される。デルタ値は調整が必要であると判定された場合、制御は動作550に移され、処理500は継続する。デルタ値は調整が必要でないと判定された場合、制御は動作555に移され、処理500は継続する。 In operation 545, it is determined whether the delta value needs to be adjusted. If it is determined that the delta value needs to be adjusted, control is transferred to
動作545における判定は、任意の適切な基準に基づくことができる。たとえば、各フレームにおけるパラメータの望ましい水準への変更を制御するために調整が必要であることがある。 The determination in act 545 can be based on any suitable criteria. For example, adjustments may be necessary to control changes to the desired level of parameters in each frame.
動作550において、デルタがクランプされる。f0_deltaMean(i)は、クランプ後にf0_new_deltaMean(i)として示されることができる。クランプされなかった場合、f0_new_deltaMean(i)はf0_deltaMean(i)に等しい。デルタをクランプする目的は、各フレームにおけるパラメータの望ましい水準への変更を確実に制御することである。変更が大きすぎる場合、いくつかのフレームに渡って変更が持続した場合、パラメータの軌跡は、望ましい自然な音声の範囲内に入らない。制御は動作555に移され、処理500は継続する。 In
動作555において、現行のパラメータの値は、f0(i)=f0(i−1)+f0_new_deltaMean(i)という予測値にパラメータのデルタ値を足した値に更新される。これは、モデルごとの軌跡のランプアップまたはランプダウンを促進する。次に、制御は動作560に移され、処理500は継続する。 In
動作560において、音声が終了されたか否かが判定される。音声が終了されていないと判定された場合、制御は動作505に移され、処理500は継続する。音声が終了されたと判定された場合、制御は動作565に移され、処理500は継続する。 In
動作560における判定は、任意の適切な基準に基づくことができる。ある実施形態において、連続フレームの数のf0値がゼロとなることは、音声が終了されたことを示すことができる。 The determination at
動作565において、平均値の移行が行われる。たとえば、全ての有声フレーム、または音声化されたセグメントがひとたび終了されると、音声セグメントの平均値は望ましい値に調整されることができる。平均値の調整は、パラメータの軌跡を望ましい自然な音声の範囲に移行することもできる。制御は動作570に移され、処理500は継続する。 In
動作570において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡は、ある箇所で突然変化した可能性があり、これにより、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、f0軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作505に戻され、処理500は継続する。処理は、任意の必要な回数継続的に繰り返すことができる。各フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントが終了するまで処理されることができる。言語セグメントの分散は、全体的な分散に基づいて調整されることができる。スタティック係数とデルタ係数の平均値がパラメータ生成に使用されるため、パラメータの軌跡は、自然な音声と比較するとより小さいダイナミックレンジを有してもよい。分散スケーリング法は、合成されたシグナルがくぐもった音にならないよう、パラメータの軌跡のダイナミックレンジを拡大するために使用されることができる。次に、スペクトルパラメータはログ領域から線状領域へと変換されることができる。 In
図6は、600として全体が示されているMCEPs生成の実施形態を示すフローチャートである。処理は、パラメータ生成モジュール205(図2)において行われることがある。 FIG. 6 is a flowchart illustrating an embodiment of MCEPs generation, indicated generally as 600. Processing may be performed in the parameter generation module 205 (FIG. 2).
動作605において、出力パラメータ値が初期化される。ある実施形態において、出力パラメータ値は以前のフレームにて生成されたパラメータに依存しているため、出力パラメータは時間i=0のときに初期化されることができる。したがって、初期mcep(0)=mcep_mean(1)である。制御は動作610に移され、処理600は継続する。 In
動作610において、フレームはインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、i=1が第一フレームを表し、i=2が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームのインクリメントについて、「i」の値は望ましい間隔で増加される。ある実施形態において、「i」の値は各回に1ずつ増加されることができる。制御は動作615に移され、処理600は継続する。 In
動作615において、セグメントが終了されたか否かが判定される。セグメントが終了されたと判定された場合は、制御は動作620に移され、処理600は継続する。セグメントが終了されていないと判定された場合は、制御は動作630に移され、処理は継続する。 In
動作615における判定は、言語モジュールからの情報及び休止の存在を使用して行われる。 The determination in
動作620において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡はある箇所で突然変化した可能性があり、この突然変化により、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作625に移され、処理600は継続する。 In
動作625において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの分散を調整するために使用されることができる。軌跡は、パラメータ生成にスタティック係数とデルタ係数の平均値を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向があってもよい。分散スケーリングは、合成されたシグナルがくぐもった音にならないよう、軌跡のダイナミックレンジを拡大することができる。処理600は終了する。 In
動作630において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作635に移され、処理600は継続する。音声化が開始したと判定された場合、制御は動作640に移され、処理600は継続する。 In
動作630の判定は、任意の適切な基準に基づくことができる。ある実施形態において、f0モデルがf0の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、f0モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。 The determination of
動作635において、スペクトルパラメータが判定される。フレームのスペクトルパラメータは、mcep(i)=(mcep(i−1)+mcep_mean(i))/2となる。制御は動作610に戻され、処理600は継続する。 In
動作640において、フレームは音声化されているか判定され、音声が第一フレームにあるか否かがさらに判定される。音声が第一フレームにあると判定された場合、制御は動作635に戻され、処理600は継続する。音声が第一フレームにないと判定された場合、制御は動作645に移され、処理600は継続する。 In
動作645において、音声は第一フレームに無く、スペクトルパラメータは、mcep(i)=(mcep(i−1)+mcep_delta(i)+mcep_mean(i))/2となる。制御は動作610に戻され、処理600は継続する。ある実施形態において、複数のMCEPsはシステム中に存在することができる。処理600は、すべてのMCEPsが処理されるまで任意の回数繰り返すことができる。 In
図および前述の説明において本発明を詳細に表し、記述したが、これらは単に説明であり、特徴を限定するものではない。好ましい実施形態のみが表され、記述されていると理解すべきであって、ここに記載されている本発明の精神と、後述の保護を求める特許請求の範囲にある本発明の精神の少なくとも一方の範囲内からくるすべての均等物、変更、修正が含まれると理解すべきである。 While the invention has been illustrated and described in detail in the drawings and foregoing description, the foregoing is only illustrative and not restrictive in character. It should be understood that only the preferred embodiments have been shown and described, and at least one of the spirit of the invention as described herein and the spirit of the invention as claimed in the following claims seeking protection. It should be understood that all equivalents, changes and modifications that come within the scope of
ゆえに本発明の適切な範囲は、添付の特許請求の範囲の最も広い解釈によって決めるべきであり、そのようなすべての修正並びに図面に表された事項および明細書に記載された事項と均等の関係にあるすべての事項が含まれる。 Accordingly, the proper scope of the invention should be determined by the broadest interpretation of the appended claims, and all such modifications as well as equivalent matters to those expressed in the drawings and described in the specification. All items in are included.
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201461927152P | 2014-01-14 | 2014-01-14 | |
| US61/927,152 | 2014-01-14 | ||
| PCT/US2015/011348WO2015108935A1 (en) | 2014-01-14 | 2015-01-14 | System and method for synthesis of speech from provided text |
| Publication Number | Publication Date |
|---|---|
| JP2017502349A JP2017502349A (en) | 2017-01-19 |
| JP6614745B2true JP6614745B2 (en) | 2019-12-04 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016542126AActiveJP6614745B2 (en) | 2014-01-14 | 2015-01-14 | System and method for speech synthesis of provided text |
| Country | Link |
|---|---|
| US (2) | US9911407B2 (en) |
| EP (1) | EP3095112B1 (en) |
| JP (1) | JP6614745B2 (en) |
| AU (2) | AU2015206631A1 (en) |
| BR (1) | BR112016016310B1 (en) |
| CA (1) | CA2934298C (en) |
| CL (1) | CL2016001802A1 (en) |
| WO (1) | WO2015108935A1 (en) |
| ZA (1) | ZA201604177B (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107924678B (en)* | 2015-09-16 | 2021-12-17 | 株式会社东芝 | Speech synthesis device, speech synthesis method, and storage medium |
| US10249314B1 (en)* | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
| US10872598B2 (en)* | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
| US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
| US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
| CN108962217B (en)* | 2018-07-28 | 2021-07-16 | 华为技术有限公司 | Speech synthesis method and related equipment |
| CN109285535A (en)* | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | Phoneme synthesizing method based on Front-end Design |
| CN109785823B (en)* | 2019-01-22 | 2021-04-02 | 中财颐和科技发展(北京)有限公司 | Speech synthesis method and system |
| CN114144790B (en) | 2020-06-12 | 2024-07-02 | 百度时代网络技术(北京)有限公司 | Personalized speech-to-video with three-dimensional skeletal regularization and representative body gestures |
| US11587548B2 (en)* | 2020-06-12 | 2023-02-21 | Baidu Usa Llc | Text-driven video synthesis with phonetic dictionary |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69620967T2 (en)* | 1995-09-19 | 2002-11-07 | At & T Corp., New York | Synthesis of speech signals in the absence of encoded parameters |
| US6567777B1 (en)* | 2000-08-02 | 2003-05-20 | Motorola, Inc. | Efficient magnitude spectrum approximation |
| US6970820B2 (en)* | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
| US6792407B2 (en)* | 2001-03-30 | 2004-09-14 | Matsushita Electric Industrial Co., Ltd. | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems |
| GB0113570D0 (en)* | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Audio-form presentation of text messages |
| US20030028377A1 (en)* | 2001-07-31 | 2003-02-06 | Noyes Albert W. | Method and device for synthesizing and distributing voice types for voice-enabled devices |
| CA2365203A1 (en)* | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
| US7096183B2 (en)* | 2002-02-27 | 2006-08-22 | Matsushita Electric Industrial Co., Ltd. | Customizing the speaking style of a speech synthesizer based on semantic analysis |
| US7136816B1 (en)* | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
| US20060074672A1 (en)* | 2002-10-04 | 2006-04-06 | Koninklijke Philips Electroinics N.V. | Speech synthesis apparatus with personalized speech segments |
| US6961704B1 (en)* | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
| US8886538B2 (en) | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
| AU2005207606B2 (en)* | 2004-01-16 | 2010-11-11 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
| US7693719B2 (en)* | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
| US20100030557A1 (en)* | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
| JP4455610B2 (en)* | 2007-03-28 | 2010-04-21 | 株式会社東芝 | Prosody pattern generation device, speech synthesizer, program, and prosody pattern generation method |
| JP5457706B2 (en)* | 2009-03-30 | 2014-04-02 | 株式会社東芝 | Speech model generation device, speech synthesis device, speech model generation program, speech synthesis program, speech model generation method, and speech synthesis method |
| EP2507794B1 (en)* | 2009-12-02 | 2018-10-17 | Agnitio S.L. | Obfuscated speech synthesis |
| US20120143611A1 (en)* | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
| CN102651217A (en) | 2011-02-25 | 2012-08-29 | 株式会社东芝 | Method and equipment for voice synthesis and method for training acoustic model used in voice synthesis |
| CN102270449A (en)* | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | Method and system for synthesising parameter speech |
| JP5631915B2 (en)* | 2012-03-29 | 2014-11-26 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and learning apparatus |
| US10303800B2 (en) | 2014-03-04 | 2019-05-28 | Interactive Intelligence Group, Inc. | System and method for optimization of audio fingerprint search |
| Publication number | Publication date |
|---|---|
| US10733974B2 (en) | 2020-08-04 |
| CL2016001802A1 (en) | 2016-12-23 |
| US20180144739A1 (en) | 2018-05-24 |
| US9911407B2 (en) | 2018-03-06 |
| CA2934298C (en) | 2023-03-07 |
| US20150199956A1 (en) | 2015-07-16 |
| WO2015108935A1 (en) | 2015-07-23 |
| EP3095112A1 (en) | 2016-11-23 |
| AU2020203559B2 (en) | 2021-10-28 |
| AU2015206631A1 (en) | 2016-06-30 |
| EP3095112A4 (en) | 2017-09-13 |
| BR112016016310A2 (en) | 2017-08-08 |
| NZ721092A (en) | 2021-03-26 |
| CA2934298A1 (en) | 2015-07-23 |
| ZA201604177B (en) | 2018-11-28 |
| JP2017502349A (en) | 2017-01-19 |
| EP3095112B1 (en) | 2019-10-30 |
| AU2020203559A1 (en) | 2020-06-18 |
| BR112016016310B1 (en) | 2022-06-07 |
| Publication | Publication Date | Title |
|---|---|---|
| JP6614745B2 (en) | System and method for speech synthesis of provided text | |
| US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
| Ma et al. | Incremental text-to-speech synthesis with prefix-to-prefix framework | |
| EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
| US20170249953A1 (en) | Method and apparatus for exemplary morphing computer system background | |
| CN112102811B (en) | Optimization method and device for synthesized voice and electronic equipment | |
| JPH0632020B2 (en) | Speech synthesis method and apparatus | |
| Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
| JP6330069B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
| KR102051235B1 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
| JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP2583074B2 (en) | Voice synthesis method | |
| JP4684770B2 (en) | Prosody generation device and speech synthesis device | |
| Astrinaki et al. | sHTS: A streaming architecture for statistical parametric speech synthesis | |
| Lin et al. | New refinement schemes for voice conversion | |
| EP1640968A1 (en) | Method and device for speech synthesis | |
| Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
| JP2004341259A (en) | Speech unit expansion / contraction device and method thereof | |
| NZ721092B2 (en) | System and method for synthesis of speech from provided text | |
| Sudhakar et al. | Performance Analysis of Text To Speech Synthesis System Using Hmm and Prosody Features With Parsing for Tamil Language | |
| CN118314913A (en) | Audio processing method and device, electronic equipment and storage medium | |
| Sulír et al. | The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model | |
| Chomwihoke et al. | Comparative study of text-to-speech synthesis techniques for mobile linguistic translation process | |
| Kayte et al. | Post-Processing Using Speech Enhancement Techniques for Unit Selection andHidden Markov Model-based Low Resource Language Marathi Text-to-Speech System | |
| Krithiga et al. | Introducing pitch modification in residual excited LPC based Tamil text-to-speech synthesis |
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination | Free format text:JAPANESE INTERMEDIATE CODE: A621 Effective date:20170515 | |
| A977 | Report on retrieval | Free format text:JAPANESE INTERMEDIATE CODE: A971007 Effective date:20180419 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20180522 | |
| A601 | Written request for extension of time | Free format text:JAPANESE INTERMEDIATE CODE: A601 Effective date:20180820 | |
| A601 | Written request for extension of time | Free format text:JAPANESE INTERMEDIATE CODE: A601 Effective date:20181020 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20181122 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20190423 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20190622 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text:JAPANESE INTERMEDIATE CODE: A01 Effective date:20191015 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text:JAPANESE INTERMEDIATE CODE: A61 Effective date:20191102 | |
| R150 | Certificate of patent or registration of utility model | Ref document number:6614745 Country of ref document:JP Free format text:JAPANESE INTERMEDIATE CODE: R150 | |
| R250 | Receipt of annual fees | Free format text:JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text:JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text:JAPANESE INTERMEDIATE CODE: R250 |