Movatterモバイル変換


[0]ホーム

URL:


JP2002062899A - Device and method for data processing, device and method for learning and recording medium - Google Patents

Device and method for data processing, device and method for learning and recording medium

Info

Publication number
JP2002062899A
JP2002062899AJP2000251969AJP2000251969AJP2002062899AJP 2002062899 AJP2002062899 AJP 2002062899AJP 2000251969 AJP2000251969 AJP 2000251969AJP 2000251969 AJP2000251969 AJP 2000251969AJP 2002062899 AJP2002062899 AJP 2002062899A
Authority
JP
Japan
Prior art keywords
tap
prediction
code
coefficient
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000251969A
Other languages
Japanese (ja)
Inventor
Tetsujiro Kondo
哲二郎 近藤
Masaaki Hattori
正明 服部
Yasuhiro Fujimori
泰弘 藤森
Tsutomu Watanabe
勉 渡辺
Hiroto Kimura
裕人 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony CorpfiledCriticalSony Corp
Priority to JP2000251969ApriorityCriticalpatent/JP2002062899A/en
Priority to PCT/JP2001/006708prioritypatent/WO2002013183A1/en
Priority to DE60143327Tprioritypatent/DE60143327D1/en
Priority to KR1020027004559Aprioritypatent/KR100819623B1/en
Priority to DE60140020Tprioritypatent/DE60140020D1/en
Priority to US10/089,925prioritypatent/US7283961B2/en
Priority to DE60134861Tprioritypatent/DE60134861D1/en
Priority to EP01956800Aprioritypatent/EP1308927B9/en
Priority to EP08003539Aprioritypatent/EP1944760B1/en
Priority to EP08003538Aprioritypatent/EP1944759B1/en
Priority to TW090119402Aprioritypatent/TW564398B/en
Publication of JP2002062899ApublicationCriticalpatent/JP2002062899A/en
Priority to NO20021631Aprioritypatent/NO326880B1/en
Priority to US11/903,550prioritypatent/US7912711B2/en
Priority to NO20082403Aprioritypatent/NO20082403L/en
Priority to NO20082401Aprioritypatent/NO20082401L/en
Pendinglegal-statusCriticalCurrent

Links

Landscapes

Abstract

PROBLEM TO BE SOLVED: To obtain high quality synthesized sound. SOLUTION: In a signal receiving section 94 of a CELP (Code Excited Linear Prediction Coding) system portable telephone, the code outputted by a channel decoder 21 are decoded into decoded residual signals and decoded linear prediction coefficients. In a predicting section 106, predicted values of true residual signals are obtained by employing the decoded residual signals and tap coefficients obtained by learning. Then, in a voice synthesis filter 29, voice synthesis is conducted by using the residual signals and linear predicted coefficients respectively obtained by the sections 106 and 107.

Description

Translated fromJapanese
【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ処理装置お
よびデータ処理方法、学習装置および学習方法、並びに
記録媒体に関し、特に、例えば、CELP(Code Excite
d Liner Prediction coding)方式で符号化された音声
を、高音質の音声に復号することができるようにするデ
ータ処理装置およびデータ処理方法、学習装置および学
習方法、並びに記録媒体に関する。
The present invention relates to a data processing device and a data processing method, a learning device and a learning method, and a recording medium, and particularly to, for example, a CELP (Code Excite).
The present invention relates to a data processing device and a data processing method, a learning device and a learning method, and a recording medium that enable a speech coded by a d Liner Prediction coding) method to be decoded into a high-quality speech.

【0002】[0002]

【従来の技術】図1および図2は、従来の携帯電話機の
一例の構成を示している。
2. Description of the Related Art FIGS. 1 and 2 show an example of the configuration of a conventional portable telephone.

【0003】この携帯電話機では、音声を、CELP方
式により所定のコードに符号化して送信する送信処理
と、他の携帯電話機から送信されてくるコードを受信し
て、音声に復号する受信処理とが行われるようになって
おり、図1は、送信処理を行う送信部を、図2は、受信
処理を行う受信部を、それぞれ示している。
[0003] In this portable telephone, a transmission process of encoding a speech into a predetermined code by the CELP method and transmitting the same, and a reception process of receiving a code transmitted from another portable telephone and decoding it into speech are performed. FIG. 1 shows a transmitting unit for performing a transmitting process, and FIG. 2 shows a receiving unit for performing a receiving process.

【0004】図1に示した送信部では、ユーザが発話し
た音声が、マイク(マイクロフォン)1に入力され、そ
こで、電気信号としての音声信号に変換され、A/D(A
nalog/Digital)変換部2に供給される。A/D変換部2
は、マイク1からのアナログの音声信号を、所定のサン
プリング周波数(例えば、8kHz)でサンプリングする
ことにより、ディジタルの音声信号にA/D変換し、さ
らに、所定のビット数で量子化を行って、演算器3とL
PC(Liner Prediction Coefficient)分析部4に供給す
る。
In the transmitting unit shown in FIG. 1, a voice uttered by a user is input to a microphone (microphone) 1, where it is converted into a voice signal as an electric signal, and A / D (A
(nalog / Digital) conversion unit 2. A / D converter 2
Converts A / D into a digital audio signal by sampling an analog audio signal from the microphone 1 at a predetermined sampling frequency (for example, 8 kHz), and further performs quantization by a predetermined number of bits. , Arithmetic unit 3 and L
It is supplied to a PC (Liner Prediction Coefficient) analysis unit 4.

【0005】LPC分析部4は、A/D変換部2からの
音声信号を、所定のフレーム(例えば、160サンプ
ル)ごとにLPC分析し、P次の線形予測係数α1
α2,・・・,αPを求める。そして、LPC分析部4
は、このP次の線形予測係数αp(p=1,2,・・
・,P)を要素とするベクトルを、音声の特徴ベクトル
として、ベクトル量子化部5に供給する。
[0005] The LPC analysis unit 4 performs an LPC analysis of the audio signal from the A / D conversion unit 2 for each predetermined frame (for example, 160 samples), and obtains a P-order linear prediction coefficient α1 ,
α2 ,..., αP are obtained. And the LPC analysis unit 4
Is the P-order linear prediction coefficient αp (p = 1, 2,.
., P) are supplied to the vector quantization unit 5 as speech feature vectors.

【0006】ベクトル量子化部5は、線形予測係数を要
素とするコードベクトル(セントロイドベクトル)とコ
ードとを対応付けたコードブックを記憶しており、その
コードブックに基づいて、LPC分析部4からの特徴ベ
クトルαをベクトル量子化する。そして、ベクトル量子
化部5は、そのベクトル量子化の結果得られるコード
(以下、適宜、Aコード(A_code)という)を、コード決
定部15に供給する。
The vector quantization unit 5 stores a code book in which a code vector (centroid vector) having a linear prediction coefficient as an element is associated with a code, and based on the code book, an LPC analysis unit 4 stores the code book. Is vector-quantized from the feature vector α. Then, the vector quantization unit 5 supplies a code obtained as a result of the vector quantization (hereinafter, appropriately referred to as an A code (A_code)) to the code determination unit 15.

【0007】さらに、ベクトル量子化部5は、Aコード
に対応するコードベクトルα’を構成する要素となって
いる線形予測係数α1’,α2’,・・・,αP’を、音
声合成フィルタ6に供給する。
[0007] Further, the vector quantization unit 5 converts the linear prediction coefficients α1 ′, α2 ′,..., ΑP ′, which constitute the code vector α ′ corresponding to the A code, into speech. It is supplied to the synthesis filter 6.

【0008】音声合成フィルタ6は、例えば、IIR(I
nfinite Impulse Response)型のディジタルフィルタ
で、ベクトル量子化部5からの線形予測係数αp’(p
=1,2,・・・,P)をIIRフィルタのタップ係数
とするとともに、演算器14から供給される残差信号e
を入力信号として、音声合成を行う。
The speech synthesis filter 6 is, for example, an IIR (I
nfinite Impulse Response) type digital filter, and the linear prediction coefficient αp ′ (p
= 1, 2,..., P) as the tap coefficients of the IIR filter, and the residual signal e supplied from the arithmetic unit 14.
Is used as an input signal to perform speech synthesis.

【0009】即ち、LPC分析部4で行われるLPC分
析は、現在時刻nの音声信号(のサンプル値)sn、お
よびこれに隣接する過去のP個のサンプル値sn-1,s
n-2,・・・,sn-Pに、式 sn+α1n-1+α2n-2+・・・+αPn-P=en ・・・(1) で示す線形1次結合が成立すると仮定し、現在時刻nの
サンプル値snの予測値(線形予測値)sn’を、過去の
P個のサンプル値sn-1,sn-2,・・・,sn-Pを用い
て、式 sn’=−(α1n-1+α2n-2+・・・+αPn-P) ・・・(2) によって線形予測したときに、実際のサンプル値sn
線形予測値sn’との間の自乗誤差を最小にする線形予
測係数αpを求めるものである。
That is, the LPC analysis performed by the LPC analysis unit 4 includes (a sample value of) the audio signal sn at the current time n and the past P sample values sn−1 and s adjacent thereto.
n-2, ···, the snP, linear combination represented by the formulas n + α 1 s n- 1 + α 2 s n-2 + ··· + α P s nP = e n ··· (1) There assuming satisfied, the predicted value of the sample value sn at the current time n the (linear prediction value) sn ', past P sample valuess n-1, s n- 2, ···, s nP When the linear prediction is performed by the equation sn ′ = − (α1 sn−1 + α2 sn−2 +... + ΑP snP ) (2), the actual sample value s A linear prediction coefficient αp that minimizes the square error betweenn and the linear prediction value sn ′ is obtained.

【0010】ここで、式(1)において、{en}(・・
・,en-1,en,en+1,・・・)は、平均値が0で、分散
が所定値σ2の互いに無相関な確率変数である。
[0010] Here, in the formula(1), {e n} (··
, En−1 , en , en + 1 ,...) Are uncorrelated random variables having an average value of 0 and a variance of a predetermined value σ2 .

【0011】式(1)から、サンプル値snは、式 sn=en−(α1n-1+α2n-2+・・・+αPn-P) ・・・(3) で表すことができ、これを、Z変換すると、次式が成立
する。
From the [0011] formula (1), the sample value sn the formulas n = e n - (α 1 s n-1 + α 2 s n-2 + ··· + α P s nP) ··· (3) Which can be expressed by the following equation.

【0012】 S=E/(1+α1-1+α2-2+・・・+αP-P) ・・・(4) 但し、式(4)において、SとEは、式(3)における
nとenのZ変換を、それぞれ表す。
[0012] S = E / (1 + α 1 z - 1 + α 2 z - 2 + ··· + α P z - P) ··· (4) In Expression (4), S and E, the formula (3 the Z transform of sn and en in), it represents respectively.

【0013】ここで、式(1)および(2)から、en
は、式 en=sn−sn’・・・(5) で表すことができ、実際のサンプル値snと線形予測値
n’との間の残差信号と呼ばれる。
Here, from equations (1) and (2), en
It is 'can be represented by (5), the actual sample value sn and linear predicted value sn' wherein en = sn -sn called residual signal between.

【0014】従って、式(4)から、線形予測係数αp
をIIRフィルタのタップ係数とするとともに、残差信
号enをIIRフィルタの入力信号とすることにより、
音声信号snを求めることができる。
Therefore, from equation (4), the linear prediction coefficient αp
With the tap coefficients of the IIR filter, by the residual signal en as an input signal of the IIR filter,
It can be obtained audio signal sn.

【0015】そこで、音声合成フィルタ6は、上述した
ように、ベクトル量子化部5からの線形予測係数αp
をタップ係数とするとともに、演算器14から供給され
る残差信号eを入力信号として、式(4)を演算し、音
声信号(合成音信号)ssを求める。
Therefore, the speech synthesis filter 6 receives the linear prediction coefficient αp ′ from the vector quantization unit 5 as described above.
Is used as a tap coefficient, and using the residual signal e supplied from the arithmetic unit 14 as an input signal, the equation (4) is calculated to obtain a speech signal (synthesized sound signal) ss.

【0016】なお、音声合成フィルタ6では、LPC分
析部4によるLPC分析の結果得られる線形予測係数α
pではなく、そのベクトル量子化の結果得られるコード
に対応するコードベクトルとしての線形予測係数αp
が用いられるため、音声合成フィルタ6が出力する合成
音信号は、A/D変換部2が出力する音声信号とは、基
本的に同一にならない。
In the speech synthesis filter 6, a linear prediction coefficient α obtained as a result of the LPC analysis by the LPC analysis unit 4 is used.
Instead ofp , a linear prediction coefficient αp ′ as a code vector corresponding to the code obtained as a result of the vector quantization
Is used, the synthesized sound signal output from the sound synthesis filter 6 is not basically the same as the sound signal output from the A / D converter 2.

【0017】音声合成フィルタ6が出力する合成音信号
ssは、演算器3に供給される。演算器3は、音声合成
フィルタ6からの合成音信号ssから、A/D変換部2
が出力する音声信号sを減算し、その減算値を、自乗誤
差演算部7に供給する。自乗誤差演算部7は、演算器3
からの減算値の自乗和(第kフレームのサンプル値につ
いての自乗和)を演算し、その結果得られる自乗誤差
を、自乗誤差最小判定部8に供給する。
The synthesized sound signal ss output from the voice synthesis filter 6 is supplied to the arithmetic unit 3. The arithmetic unit 3 converts the synthesized sound signal ss from the speech synthesis filter 6 into an A / D converter 2
Subtracts the output audio signal s, and supplies the subtracted value to the square error calculator 7. The square error calculator 7 is configured to calculate
, The sum of the squares of the subtraction value from the sum (the sum of the squares of the sample values of the k-th frame) is calculated, and the resulting square error is supplied to the square error minimum determination unit 8.

【0018】自乗誤差最小判定部8は、自乗誤差演算部
7が出力する自乗誤差に対応付けて、ラグを表すコード
としてのLコード(L_code)、ゲインを表すコードとして
のGコード(G_code)、および符号語を表すコードとして
のIコード(I_code)を記憶しており、自乗誤差演算部7
が出力する自乗誤差に対応するLコード、Gコード、お
よびLコードを出力する。Lコードは、適応コードブッ
ク記憶部9に供給され、Gコードは、ゲイン復号器10
に供給される。また、Iコードは、励起コードブック記
憶部11に供給される。さらに、Lコード、Gコード、
およびIコードは、コード決定部15にも供給される。
The minimum square error determining section 8 correlates the square error output from the square error calculating section 7 with an L code (L_code) as a code representing a lag, a G code (G_code) as a code representing a gain, And an I code (I_code) as a code representing a code word.
Output the L code, the G code, and the L code corresponding to the squared error output by. The L code is supplied to the adaptive codebook storage unit 9, and the G code is supplied to the gain decoder 10.
Supplied to Further, the I code is supplied to the excitation codebook storage unit 11. Furthermore, L code, G code,
And the I code are also supplied to the code determination unit 15.

【0019】適応コードブック記憶部9は、Lコード
と、所定の遅延時間(ラグ)とを対応付けた適応コード
ブックを記憶しており、演算器14から供給される残差
信号eを、自乗誤差最小判定部8から供給されるLコー
ドに対応付けられた遅延時間だけ遅延して、演算器12
に出力する。
The adaptive codebook storage unit 9 stores an adaptive codebook in which an L code is associated with a predetermined delay time (lag), and stores the residual signal e supplied from the arithmetic unit 14 as a square. The operation unit 12 is delayed by a delay time associated with the L code supplied from the error minimum determination unit 8.
Output to

【0020】ここで、適応コードブック記憶部9は、残
差信号eを、Lコードに対応する時間だけ遅延して出力
することから、その出力信号は、その遅延時間を周期と
する周期信号となる。この周期信号は、音声合成フィル
タ6における線形予測係数を用いた音声合成において、
主として、有声音の合成音を生成するための駆動信号と
なる。
Here, since the adaptive codebook storage unit 9 outputs the residual signal e with a delay corresponding to the time corresponding to the L code, the output signal is a periodic signal having a cycle of the delay time. Become. In the speech synthesis using the linear prediction coefficient in the speech synthesis filter 6,
It is mainly a drive signal for generating a synthesized voiced voice.

【0021】ゲイン復号器10は、Gコードと、所定の
ゲインβおよびγとを対応付けたテーブルを記憶してお
り、自乗誤差最小判定部8から供給されるGコードに対
応付けられたゲインβおよびγを出力する。ゲインβと
γは、演算器12と13に、それぞれ供給される。
The gain decoder 10 stores a table in which a G code is associated with predetermined gains β and γ, and a gain β associated with the G code supplied from the square error minimum determining unit 8 is stored. And γ are output. The gains β and γ are supplied to computing units 12 and 13, respectively.

【0022】励起コードブック記憶部11は、Iコード
と、所定の励起信号とを対応付けた励起コードブックを
記憶しており、自乗誤差最小判定部8から供給されるI
コードに対応付けられた励起信号を、演算器13に出力
する。
The excitation codebook storage unit 11 stores an excitation codebook in which an I code is associated with a predetermined excitation signal, and is supplied from the minimum square error determination unit 8.
An excitation signal associated with the code is output to the calculator 13.

【0023】ここで、励起コードブックに記憶されてい
る励起信号は、例えば、ホワイトノイズ等であり、音声
合成フィルタ6における線形予測係数を用いた音声合成
において、主として、無声音の合成音を生成するための
駆動信号となる。
Here, the excitation signal stored in the excitation codebook is, for example, white noise or the like. In speech synthesis using linear prediction coefficients in the speech synthesis filter 6, mainly a synthesized voice of unvoiced sound is generated. Drive signal for

【0024】演算器12は、適応コードブック記憶部9
の出力信号と、ゲイン復号器10が出力するゲインβと
を乗算し、その乗算値lを、演算器14に供給する。演
算器13は、励起コードブック記憶部11の出力信号
と、ゲイン復号器10が出力するゲインγとを乗算し、
その乗算値nを、演算器14に供給する。演算器14
は、演算器12からの乗算値lと、演算器13からの乗
算値nとを加算し、その加算値を、残差信号eとして、
音声合成フィルタ6に供給する。
The arithmetic unit 12 stores the adaptive codebook storage unit 9
Is multiplied by the gain β output from the gain decoder 10, and the multiplied value 1 is supplied to the calculator 14. The arithmetic unit 13 multiplies the output signal of the excitation codebook storage unit 11 by the gain γ output by the gain decoder 10,
The multiplied value n is supplied to the arithmetic unit 14. Arithmetic unit 14
Adds the multiplied value 1 from the computing unit 12 and the multiplied value n from the computing unit 13 and uses the sum as a residual signal e as
It is supplied to the voice synthesis filter 6.

【0025】音声合成フィルタ6では、以上のようにし
て、演算器14から供給される残差信号eを入力信号と
して、その入力信号が、ベクトル量子化部5から供給さ
れる線形予測係数αp’をタップ係数とするIIRフィ
ルタでフィルタリングされ、その結果得られる合成音信
号が、演算器3に供給される。そして、演算器3および
自乗誤差演算部7において、上述の場合と同様の処理が
行われ、その結果得られる自乗誤差が、自乗誤差最小判
定部8に供給される。
As described above, the speech synthesis filter 6 uses the residual signal e supplied from the arithmetic unit 14 as an input signal and converts the input signal into the linear prediction coefficient αp supplied from the vector quantization unit 5. Filtered by an IIR filter using 'as a tap coefficient, the resultant synthesized sound signal is supplied to the arithmetic unit 3. Then, the same processing as described above is performed in the arithmetic unit 3 and the square error calculator 7, and the square error obtained as a result is supplied to the minimum square error determiner 8.

【0026】自乗誤差最小判定部8は、自乗誤差演算部
7からの自乗誤差が最小(極小)になったかどうかを判
定し、最小になっていないと判定した場合、上述のよう
に、その自乗誤差に対応するLコード、Gコード、およ
びLコードを出力して、以下、同様の処理が繰り返され
る。
The squared error minimum judging section 8 judges whether or not the squared error from the squared error calculating section 7 has become minimum (minimum). If the squared error has not been minimized, as described above, The L code, the G code, and the L code corresponding to the error are output, and the same processing is repeated thereafter.

【0027】一方、自乗誤差最小判定部8は、自乗誤差
が最小になったと判定した場合、確定信号を、コード決
定部15に出力する。コード決定部15は、ベクトル量
子化部5から供給されるAコードを順次ラッチするとと
もに、自乗誤差最小判定部8から供給されるLコード、
Gコード、およびIコードを順次ラッチするようになっ
ており、自乗誤差最小判定部8から確定信号を受信する
と、そのときラッチしているAコード、Lコード、Gコ
ード、およびIコードを、チャネルエンコーダ16に供
給する。チャネルエンコーダ16は、コード決定部15
からのAコード、Lコード、Gコード、およびIコード
を多重化し、コードデータとして出力する。このコード
データは、伝送路を介して送信される。
On the other hand, when the square error minimum judging section 8 judges that the square error has become minimum, it outputs a determination signal to the code determining section 15. The code determination unit 15 sequentially latches the A code supplied from the vector quantization unit 5, and outputs the L code supplied from the square error minimum determination unit 8,
The G code and the I code are sequentially latched. When a decision signal is received from the square error minimum determination unit 8, the A code, L code, G code, and I code latched at that time are transmitted to the channel. It is supplied to the encoder 16. The channel encoder 16 includes a code determination unit 15
A code, L code, G code, and I code are multiplexed and output as code data. This code data is transmitted via a transmission path.

【0028】なお、以下では、説明を簡単にするため、
Aコード、Lコード、Gコード、およびIコードは、フ
レームごとに求められるものとする。但し、例えば、1
フレームを、4つのサブフレームに分割し、Lコード、
Gコード、およびIコードは、サブフレームごとに求め
るようにすること等が可能である。
In the following, in order to simplify the description,
The A code, L code, G code, and I code are determined for each frame. However, for example, 1
Divide the frame into four subframes, L code,
The G code and the I code can be determined for each subframe.

【0029】ここで、図1(後述する図2、図11、お
よび図12においても同様)では、各変数に、[k]が付
され、配列変数とされている。このkは、フレーム数を
表すが、明細書中では、その記述は、適宜省略する。
Here, in FIG. 1 (the same applies to FIGS. 2, 11 and 12 described later), each variable is marked with [k] and is an array variable. Although k represents the number of frames, the description thereof is omitted as appropriate in the specification.

【0030】次に、以上のようにして、他の携帯電話機
の送信部から送信されてくるコードデータは、図2に示
す受信部のチャネルデコーダ21で受信される。チャネ
ルデコーダ21は、コードデータから、Lコード、Gコ
ード、Iコード、Aコードを分離し、それぞれを、適応
コードブック記憶部22、ゲイン復号器23、励起コー
ドブック記憶部24、フィルタ係数復号器25に供給す
る。
Next, as described above, the code data transmitted from the transmission section of another portable telephone is received by the channel decoder 21 of the reception section shown in FIG. The channel decoder 21 separates an L code, a G code, an I code, and an A code from code data, and separates them into an adaptive codebook storage unit 22, a gain decoder 23, an excitation codebook storage unit 24, and a filter coefficient decoder. 25.

【0031】適応コードブック記憶部22、ゲイン復号
器23、励起コードブック記憶部24、演算器26乃至
28は、図1の適応コードブック記憶部9、ゲイン復号
器10、励起コードブック記憶部11、演算器12乃至
14とそれぞれ同様に構成されるもので、図1で説明し
た場合と同様の処理が行われることにより、Lコード、
Gコード、およびIコードが、残差信号eに復号され
る。この残差信号(復号残差信号)eは、音声合成フィ
ルタ29に対して、入力信号として与えられる。
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 are the adaptive codebook storage unit 9, the gain decoder 10, and the excitation codebook storage unit 11 of FIG. , And the arithmetic units 12 to 14, respectively, and by performing the same processing as in the case described with reference to FIG.
The G code and the I code are decoded into a residual signal e. This residual signal (decoded residual signal) e is provided to the speech synthesis filter 29 as an input signal.

【0032】フィルタ係数復号器25は、図1のベクト
ル量子化部5が記憶しているのと同一のコードブックを
記憶しており、Aコードを、線形予測係数αp’に復号
し、音声合成フィルタ29に供給する。
The filter coefficient decoder 25 stores the same codebook as that stored in the vector quantization unit 5 in FIG. 1, decodes the A code into a linear prediction coefficient αp ′, It is supplied to the synthesis filter 29.

【0033】音声合成フィルタ29は、図1の音声合成
フィルタ6と同様に構成されており、フィルタ係数復号
器25からの線形予測係数(復号線形予測係数)αp
をタップ係数とするとともに、演算器28から供給され
る残差信号eを入力信号として、式(4)を演算し、こ
れにより、図1の自乗誤差最小判定部8において自乗誤
差が最小と判定されたときの合成音信号を生成する。こ
の合成音信号は、D/A(Digital/Analog)変換部30に
供給される。D/A変換部30は、音声合成フィルタ2
9からの合成音信号を、ディジタル信号からアナログ信
号にD/A変換し、スピーカ31に供給して出力させ
る。
The speech synthesis filter 29 has the same configuration as the speech synthesis filter 6 in FIG. 1, and receives the linear prediction coefficient (decoded linear prediction coefficient) αp ′ from the filter coefficient decoder 25.
Is used as a tap coefficient, and the residual signal e supplied from the arithmetic unit 28 is used as an input signal to calculate Equation (4), whereby the square error minimum determination unit 8 in FIG. A synthesized sound signal is generated when the sound is generated. This synthesized sound signal is supplied to a D / A (Digital / Analog) converter 30. The D / A conversion unit 30 includes the speech synthesis filter 2
9 is converted from a digital signal to an analog signal by D / A conversion and supplied to a speaker 31 for output.

【0034】[0034]

【発明が解決しようとする課題】以上のように、携帯電
話機の送信部(図1)では、受信部(図2)の音声合成
フィルタ29に与えられるフィルタデータとしての残差
信号と線形予測係数がコード化されて送信されてくるた
め、受信部では、そのコードが、残差信号と線形予測係
数に復号される。しかしながら、この復号された残差信
号や線形予測係数(以下、適宜、それぞれを、復号残差
信号または復号線形予測係数という)には、量子化誤差
等の誤差が含まれるため、音声をLPC分析して得られ
る残差信号と線形予測係数には一致しない。
As described above, in the transmitting section (FIG. 1) of the portable telephone, the residual signal and the linear prediction coefficient as the filter data given to the speech synthesis filter 29 of the receiving section (FIG. 2). Is coded and transmitted, so that the receiving unit decodes the code into a residual signal and a linear prediction coefficient. However, the decoded residual signal and the linear prediction coefficient (hereinafter, appropriately referred to as a decoded residual signal and a decoded linear prediction coefficient, respectively) include an error such as a quantization error. And the linear prediction coefficient do not match.

【0035】このため、受信部の音声合成フィルタ29
が出力する合成音信号は、歪みを有する、音質の劣化し
たものとなることがある。
For this reason, the speech synthesis filter 29 of the receiving section
May be distorted and sound quality may be degraded.

【0036】本発明は、このような状況に鑑みてなされ
たものであり、高音質の合成音が得られるようにするも
のである。
The present invention has been made in view of such a situation, and aims to obtain a high-quality synthesized sound.

【0037】[0037]

【課題を解決するための手段】本発明のデータ処理装置
は、コードを復号し、復号フィルタデータを出力するコ
ード復号手段と、学習を行うことにより求められた所定
のタップ係数を取得する取得手段と、タップ係数および
復号フィルタデータを用いて、所定の予測演算を行うこ
とにより、フィルタデータの予測値を求め、音声合成フ
ィルタに供給する予測手段とを備えることを特徴とす
る。
A data processing apparatus according to the present invention decodes a code and outputs decoded filter data, and an acquiring means for acquiring a predetermined tap coefficient obtained by performing learning. And a prediction unit that performs a predetermined prediction operation using the tap coefficients and the decoded filter data to obtain a predicted value of the filter data and supplies the predicted value to the speech synthesis filter.

【0038】本発明のデータ処理方法は、コードを復号
し、復号フィルタデータを出力するコード復号ステップ
と、学習を行うことにより求められた所定のタップ係数
を取得する取得ステップと、タップ係数および復号フィ
ルタデータを用いて、所定の予測演算を行うことによ
り、フィルタデータの予測値を求め、音声合成フィルタ
に供給する予測ステップとを備えることを特徴とする。
According to the data processing method of the present invention, a code decoding step of decoding a code and outputting decoding filter data, an obtaining step of obtaining a predetermined tap coefficient obtained by performing learning, a tap coefficient and decoding A prediction step of performing a predetermined prediction operation using the filter data to obtain a predicted value of the filter data and supplying the predicted value to the speech synthesis filter.

【0039】本発明の第1の記録媒体は、コードを復号
し、復号フィルタデータを出力するコード復号ステップ
と、学習を行うことにより求められた所定のタップ係数
を取得する取得ステップと、タップ係数および復号フィ
ルタデータを用いて、所定の予測演算を行うことによ
り、フィルタデータの予測値を求め、音声合成フィルタ
に供給する予測ステップとを備えるプログラムが記録さ
れていることを特徴とする。
A first recording medium according to the present invention comprises: a code decoding step of decoding a code and outputting decoded filter data; an acquisition step of acquiring a predetermined tap coefficient obtained by performing learning; And a prediction step of performing a predetermined prediction operation using the decoded filter data to obtain a predicted value of the filter data and supplying the predicted value to the speech synthesis filter.

【0040】本発明の学習装置は、フィルタデータに対
応するコードを復号し、復号フィルタデータを出力する
コード復号手段と、タップ係数および復号フィルタデー
タを用いて予測演算を行うことにより得られるフィルタ
データの予測値の予測誤差が、統計的に最小になるよう
に学習を行い、タップ係数を求める学習手段とを備える
ことを特徴とする。
The learning apparatus according to the present invention decodes a code corresponding to filter data and outputs decoded filter data, and filter data obtained by performing a prediction operation using tap coefficients and decoded filter data. And learning means for learning so as to statistically minimize the prediction error of the predicted value of.

【0041】本発明の学習方法は、フィルタデータに対
応するコードを復号し、復号フィルタデータを出力する
コード復号ステップと、タップ係数および復号フィルタ
データを用いて予測演算を行うことにより得られるフィ
ルタデータの予測値の予測誤差が、統計的に最小になる
ように学習を行い、タップ係数を求める学習ステップと
を備えることを特徴とする。
According to the learning method of the present invention, a code decoding step of decoding a code corresponding to filter data and outputting decoded filter data, and a filter data obtained by performing a prediction operation using tap coefficients and decoded filter data A learning step of learning so as to statistically minimize the prediction error of the prediction value of.

【0042】本発明の第2の記録媒体は、フィルタデー
タに対応するコードを復号し、復号フィルタデータを出
力するコード復号ステップと、タップ係数および復号フ
ィルタデータを用いて予測演算を行うことにより得られ
るフィルタデータの予測値の予測誤差が、統計的に最小
になるように学習を行い、タップ係数を求める学習ステ
ップとを備えるプログラムが記録されていることを特徴
とする。
The second recording medium of the present invention is obtained by decoding a code corresponding to filter data and outputting a decoded filter data by performing a code decoding step, and performing a prediction operation using the tap coefficients and the decoded filter data. And a learning step of learning so as to statistically minimize the prediction error of the predicted value of the filter data to be obtained and obtaining a tap coefficient.

【0043】本発明のデータ処理装置およびデータ処理
方法、並びに第1の記録媒体においては、コードが復号
され、復号フィルタデータが出力される。さらに、学習
を行うことにより求められた所定のタップ係数が取得さ
れ、タップ係数および復号フィルタデータを用いて、所
定の予測演算を行うことにより、フィルタデータの予測
値が求められる。
In the data processing device and the data processing method of the present invention, and the first recording medium, the code is decoded and the decoded filter data is output. Further, a predetermined tap coefficient obtained by performing learning is obtained, and a predetermined prediction operation is performed using the tap coefficient and the decoded filter data, whereby a predicted value of the filter data is obtained.

【0044】本発明の学習装置および学習方法、並びに
第2の記録媒体においては、フィルタデータに対応する
コードが復号され、復号フィルタデータが出力される。
そして、タップ係数および復号フィルタデータを用いて
予測演算を行うことにより得られるフィルタデータの予
測値の予測誤差が、統計的に最小になるように学習が行
われ、タップ係数が求められる。
In the learning device and the learning method of the present invention, the code corresponding to the filter data is decoded, and the decoded filter data is output.
Learning is performed so that the prediction error of the prediction value of the filter data obtained by performing the prediction operation using the tap coefficient and the decoded filter data is statistically minimized, and the tap coefficient is obtained.

【0045】[0045]

【発明の実施の形態】図3は、本発明を適用した音声合
成装置の一実施の形態の構成例を示している。
FIG. 3 shows an example of the configuration of an embodiment of a speech synthesizer to which the present invention is applied.

【0046】この音声合成装置には、音声合成フィルタ
47に与える残差信号と線形予測係数を、それぞれコー
ド化した残差コードとAコードが多重化されたコードデ
ータが供給されるようになっており、その残差コードと
Aコードから、それぞれ残差信号と線形予測係数を求
め、音声合成フィルタ47に与えることで、合成音が生
成されるようになっている。
The speech synthesizer is supplied with code data obtained by multiplexing a residual code and an A code obtained by encoding the residual signal and the linear prediction coefficient to be supplied to the speech synthesis filter 47. A synthesized signal is generated by obtaining a residual signal and a linear prediction coefficient from the residual code and the A code, respectively, and applying them to the speech synthesis filter 47.

【0047】但し、残差コードを、残差信号と残差コー
ドとを対応付けたコードブックに基づいて、残差信号に
復号した場合には、前述したように、その復号残差信号
は、誤差を含むものとなり、合成音の音質が劣化する。
同様に、Aコードを、線形予測係数とAコードとを対応
付けたコードブックに基づいて、線形予測係数に復号し
た場合にも、その復号線形予測係数は、誤差を含むもの
となり、合成音の音質が劣化する。
However, when the residual code is decoded into a residual signal based on a code book in which the residual signal is associated with the residual code, as described above, the decoded residual signal is An error is included, and the sound quality of the synthesized sound deteriorates.
Similarly, when the A code is decoded into a linear prediction coefficient based on a code book in which the linear prediction coefficient and the A code are associated with each other, the decoded linear prediction coefficient includes an error, and Sound quality deteriorates.

【0048】そこで、図3の音声合成装置では、学習に
より求めたタップ係数を用いた予測演算を行うことによ
り、真の残差信号と線形予測係数の予測値を求め、これ
らを用いることで、高音質の合成音を生成するようにな
っている。
Therefore, the speech synthesizer shown in FIG. 3 performs a prediction operation using the tap coefficients obtained by learning to obtain the true residual signal and the predicted value of the linear prediction coefficient, and uses these to obtain A high-quality synthesized sound is generated.

【0049】即ち、図3の音声合成装置では、例えば、
クラス分類適応処理を利用して、復号線形予測係数が、
真の線形予測係数(の予測値)に復号される。
That is, in the speech synthesizer shown in FIG.
Using the classification adaptive processing, the decoded linear prediction coefficient is
It is decoded to (the predicted value of) the true linear prediction coefficient.

【0050】クラス分類適応処理は、クラス分類処理と
適応処理とからなり、クラス分類処理によって、データ
を、その性質に基づいてクラス分けし、各クラスごとに
適応処理を施すものであり、適応処理は、以下のような
手法のものである。
The class classification adaptation process includes a class classification process and an adaptation process. The class classification process classifies data into classes based on the nature of the data, and performs an adaptation process for each class. Is based on the following method.

【0051】即ち、適応処理では、例えば、復号線形予
測係数と、所定のタップ係数との線形結合により、真の
線形予測係数の予測値が求められる。
That is, in the adaptive processing, for example, a predicted value of a true linear prediction coefficient is obtained by a linear combination of a decoded linear prediction coefficient and a predetermined tap coefficient.

【0052】具体的には、例えば、いま、真の線形予測
係数を教師データとするとともに、その真の線形予測係
数を、所定のコードブックに基づいてベクトル量子化
し、さらに、そのベクトル量子化結果としてのAコード
を、ベクトル量子化に用いたコードブックに基づいて復
号して得られる復号線形予測係数を生徒データとして、
教師データである線形予測係数yの予測値E[y]を、
幾つかの復号線形予測係数x1,x2,・・・の集合と、
所定のタップ係数w1,w2,・・・の線形結合により規
定される線形1次結合モデルにより求めることを考え
る。この場合、予測値E[y]は、次式で表すことがで
きる。
More specifically, for example, the true linear prediction coefficients are now used as teacher data, and the true linear prediction coefficients are vector-quantized based on a predetermined codebook. The decoded linear prediction coefficient obtained by decoding the A code as is based on the codebook used for vector quantization as student data,
The prediction value E [y] of the linear prediction coefficient y which is the teacher data is
A set of several decoded linear prediction coefficients x1 , x2 ,.
It is considered that the tap coefficients are determined by a linear combination model defined by a linear combination of predetermined tap coefficients w1 , w2 ,. In this case, the predicted value E [y] can be expressed by the following equation.

【0053】 E[y]=w11+w22+・・・・・・(6)E [y] = w1 x1 + w2 x2 +... (6)

【0054】式(6)を一般化するために、タップ係数
jの集合でなる行列W、生徒データxijの集合でなる
行列X、および予測値E[yj]の集合でなる行列Y’
を、
To generalize equation (6), a matrix W composed of a set of tap coefficients wj , a matrix X composed of a set of student data xij , and a matrix Y composed of a set of predicted values E [yj ] '
To

【数1】で定義すると、次のような観測方程式が成立する。(Equation 1) Defines the following observation equation.

【0055】XW=Y’・・・(7)XW = Y '(7)

【0056】ここで、行列Xの成分xijは、i件目の生
徒データの集合(i件目の教師データyiの予測に用い
る生徒データの集合)の中のj番目の生徒データを意味
し、行列Wの成分wjは、生徒データの集合の中のj番
目の生徒データとの積が演算されるタップ係数を表す。
また、yiは、i件目の教師データを表し、従って、E
[yi]は、i件目の教師データの予測値を表す。な
お、式(6)の左辺におけるyは、行列Yの成分yi
サフィックスiを省略したものであり、また、式(6)
の右辺におけるx1,x2,・・・も、行列Xの成分xij
のサフィックスiを省略したものである。
Here, the component xij of the matrix X means the j-th student data in the i-th set of student data (a set of student data used for predicting thei-th teacher data yi ). The component wj of the matrix W represents a tap coefficient by which a product with the j-th student data in the set of student data is calculated.
Yi represents the i-th teacher data.
[Yi ] represents the predicted value of the i-th teacher data. Note that y on the left side of the equation (6) is obtained by omitting the suffix i of the component yi of the matrix Y.
X1 on the right side of, x2, · · · also components of the matrix X xij
Suffix i is omitted.

【0057】そして、この観測方程式に最小自乗法を適
用して、真の線形予測係数yに近い予測値E[y]を求
めることを考える。この場合、教師データとなる真の線
形予測係数yの集合でなる行列Y、および線形予測係数
yに対する予測値E[y]の残差eの集合でなる行列E
を、
Then, consider that a least square method is applied to this observation equation to obtain a prediction value E [y] close to the true linear prediction coefficient y. In this case, a matrix Y consisting of a set of true linear prediction coefficients y serving as teacher data and a matrix E consisting of a set of residuals e of prediction values E [y] for the linear prediction coefficients y
To

【数2】で定義すると、式(7)から、次のような残差方程式が
成立する。
(Equation 2) From equation (7), the following residual equation is established.

【0058】XW=Y+E・・・(8)XW = Y + E (8)

【0059】この場合、真の線形予測係数yに近い予測
値E[y]を求めるためのタップ係数wjは、自乗誤差
In this case, the tap coefficient wj for obtaining the prediction value E [y] close to the true linear prediction coefficient y is the square error

【数3】を最小にすることで求めることができる。(Equation 3) Can be obtained by minimizing.

【0060】従って、上述の自乗誤差をタップ係数wj
で微分したものが0になる場合、即ち、次式を満たすタ
ップ係数wjが、真の線形予測係数yに近い予測値E
[y]を求めるため最適値ということになる。
Therefore, the above square error is calculated by tap coefficient wj
, The tap coefficient wj that satisfies the following equation is equal to the predicted value E close to the true linear prediction coefficient y.
This is an optimum value for obtaining [y].

【0061】[0061]

【数4】・・・(9)(Equation 4) ... (9)

【0062】そこで、まず、式(8)を、タップ係数w
jで微分することにより、次式が成立する。
Therefore, first, the equation (8) is changed to the tap coefficient w
By differentiating withj , the following equation is established.

【0063】[0063]

【数5】・・・(10)(Equation 5) ... (10)

【0064】式(9)および(10)より、式(11)
が得られる。
From equations (9) and (10), equation (11)
Is obtained.

【0065】[0065]

【数6】・・・(11)(Equation 6) ... (11)

【0066】さらに、式(8)の残差方程式における生
徒データxij、タップ係数wj、教師データyi、および
誤差eiの関係を考慮すると、式(11)から、次のよ
うな正規方程式を得ることができる。
Further, considering the relationship among the student data xij , the tap coefficient wj , the teacher data yi , and the error ei in the residual equation of the equation (8), the following normal equation is obtained from the equation (11). Equation can be obtained.

【0067】[0067]

【数7】・・・(12)(Equation 7) ... (12)

【0068】なお、式(12)に示した正規方程式は、
行列(共分散行列)Aおよびベクトルvを、
The normal equation shown in equation (12) is
The matrix (covariance matrix) A and the vector v are

【数8】で定義するとともに、ベクトルWを、数1で示したよう
に定義すると、式 AW=v・・・(13) で表すことができる。
(Equation 8) If the vector W is defined as shown in Expression 1, it can be expressed by the following expression: AW = v (13)

【0069】式(12)における各正規方程式は、生徒
データxijおよび教師データyiのセットを、ある程度
の数だけ用意することで、求めるべきタップ係数wj
数Jと同じ数だけたてることができ、従って、式(1
3)を、ベクトルWについて解くことで(但し、式(1
3)を解くには、式(13)における行列Aが正則であ
る必要がある)、最適なタップ係数(ここでは、自乗誤
差を最小にするタップ係数)wjを求めることができ
る。なお、式(13)を解くにあたっては、例えば、掃
き出し法(Gauss-Jordanの消去法)などを用いることが
可能である。
Each normal equation in the equation (12) is prepared by preparing a certain number of sets of the student data xij and the teacher data yi , and forming the same number as the number J of the tap coefficients wj to be obtained. And therefore equation (1)
3) with respect to the vector W (however, equation (1)
To solve 3), the matrix A in equation (13) needs to be non-singular), and the optimal tap coefficient (here, the tap coefficient that minimizes the square error) wj can be obtained. In solving equation (13), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.

【0070】以上のようにして、最適なタップ係数wj
を求めておき、さらに、そのタップ係数wjを用い、式
(6)の予測演算により、真の線形予測係数yに近い予
測値E[y]を求めるのが適応処理である。
As described above, the optimum tap coefficient wj
The advance calculated, further, using the tap coefficients wj, the predictive calculation of the equation (6), an adaptive process to obtain the prediction value E [y] close to the true linear prediction coefficients y.

【0071】なお、例えば、教師データとして、高いサ
ンプリング周波数でサンプリングした音声信号、または
多ビットを割り当てた音声信号をLPC分析することに
より得られた線形予測係数を用いるとともに、生徒デー
タとして、低いサンプリング周波数でサンプリングした
音声信号、または低ビットを割り当てた音声信号をLP
C分析してベクトル量子化し、そのベクトル量子化結果
を復号して得られる復号線形予測係数を用いた場合、タ
ップ係数としては、高いサンプリング周波数でサンプリ
ングした音声信号、または多ビットを割り当てた音声信
号を生成するのに、予測誤差が、統計的に最小となる線
形予測係数が得られることになる。従って、この場合、
より高音質の合成音を得ることが可能となる。
For example, a linear prediction coefficient obtained by performing LPC analysis on a speech signal sampled at a high sampling frequency or a speech signal to which multiple bits are assigned is used as teacher data, and a low sampling rate is used as student data. Audio signal sampled at frequency or audio signal assigned low bit
When a decoded linear prediction coefficient obtained by performing C analysis and vector quantization and decoding the vector quantization result is used, an audio signal sampled at a high sampling frequency or an audio signal to which multiple bits are assigned is used as a tap coefficient. Is generated, a linear prediction coefficient whose prediction error is statistically minimized is obtained. Therefore, in this case,
It is possible to obtain a synthesized sound of higher sound quality.

【0072】図3の音声合成装置では、以上のようなク
ラス分類適応処理により、復号線形予測係数を、真の線
形予測係数(の予測値)に復号する他、復号残差信号
も、真の残差信号(の予測値)に復号するようになって
いる。
In the speech synthesizer shown in FIG. 3, the decoded linear prediction coefficient is decoded into (the predicted value of) the true linear prediction coefficient by the above-described class classification adaptive processing, and the decoded residual signal is also converted into the true linear prediction coefficient. The decoding is performed to (predicted value of) the residual signal.

【0073】即ち、デマルチプレクサ(DEMUX)4
1には、コードデータが供給されるようになっており、
デマルチプレクサ41は、そこに供給されるコードデー
タから、フレームごとのAコードと残差コードを分離
し、それぞれを、フィルタ係数復号器42Aと残差コー
ドブック記憶部42Eに供給する。
That is, the demultiplexer (DEMUX) 4
1 is supplied with code data,
The demultiplexer 41 separates the A code and the residual code for each frame from the code data supplied thereto, and supplies them to the filter coefficient decoder 42A and the residual code book storage unit 42E.

【0074】ここで、図3におけるコードデータに含ま
れるAコードと残差コードは、音声を、所定のフレーム
ごとにLPC分析して得られる線形予測係数と残差信号
を、所定のコードブックを用いて、それぞれベクトル量
子化することにより得られるコードとなっている。
Here, the A code and the residual code included in the code data in FIG. 3 are obtained by converting a linear prediction coefficient and a residual signal obtained by performing LPC analysis on speech for each predetermined frame into a predetermined code book. , And are codes obtained by vector quantization.

【0075】フィルタ係数復号器42Aは、デマルチプ
レクサ41から供給されるフレームごとのAコードを、
そのAコードを得るときに用いられたのと同一のコード
ブックに基づいて、復号線形予測係数に復号し、タップ
生成部43Aに供給する。
The filter coefficient decoder 42A converts the A code for each frame supplied from the demultiplexer 41 into
Based on the same codebook used to obtain the A code, the A code is decoded to a decoded linear prediction coefficient and supplied to the tap generation unit 43A.

【0076】残差コードブック記憶部42Eは、デマル
チプレクサ41から供給されるフレームごとの残差コー
ドを得るときに用いられたのと同一のコードブックを記
憶しており、デマルチプレクサからの残差コードを、そ
のコードブックに基づいて、復号残差信号に復号し、タ
ップ生成部43Eに供給する。
The residual codebook storage section 42E stores the same codebook used when obtaining the residual code for each frame supplied from the demultiplexer 41, and stores the residual code from the demultiplexer. The code is decoded into a decoded residual signal based on the codebook, and is supplied to the tap generation unit 43E.

【0077】タップ生成部43Aは、フィルタ係数復号
器42Aから供給されるフレームごとの復号線形予測係
数から、後述するクラス分類部44Aにおけるクラス分
類に用いられるクラスタップとなるものと、同じく後述
する予測部46における予測演算に用いられる予測タッ
プとなるものを、それぞれ抽出する。即ち、タップ生成
部43Aは、例えば、いま処理しようとしているフレー
ムの復号線形予測係数すべてを、線形予測係数について
のクラスタップおよび予測タップとする。そして、タッ
プ生成部43Aは、線形予測係数についてのクラスタッ
プをクラス分類部44Aに、予測タップを予測部46A
に、それぞれ供給する。
The tap generation unit 43A converts the decoded linear prediction coefficients for each frame supplied from the filter coefficient decoder 42A into a class tap used for class classification in the class classification unit 44A described later, Each of the prediction taps used for the prediction calculation in the unit 46 is extracted. That is, the tap generation unit 43A sets, for example, all the decoded linear prediction coefficients of the frame currently being processed as class taps and prediction taps for the linear prediction coefficient. Then, the tap generation unit 43A sends the class tap for the linear prediction coefficient to the class classification unit 44A and the prediction tap to the prediction unit 46A.
Respectively.

【0078】タップ生成部43Eは、残差コードブック
記憶部42Eから供給されるフレームごとの復号残差信
号から、クラスタップとなるものと、予測タップとなる
ものを、それぞれ抽出する。即ち、タップ生成部43E
は、例えば、いま処理しようとしているフレームの復号
残差信号のサンプル値すべてを、残差信号についてのク
ラスタップおよび予測タップとする。そして、タップ生
成部43Eは、残差信号についてのクラスタップをクラ
ス分類部44Eに、予測タップを予測部46Eに、それ
ぞれ供給する。
The tap generator 43E extracts a class tap and a prediction tap from the decoded residual signal for each frame supplied from the residual codebook storage 42E. That is, the tap generation unit 43E
Let, for example, all the sample values of the decoded residual signal of the frame to be processed be used as the class tap and the prediction tap for the residual signal. Then, the tap generation unit 43E supplies the class tap for the residual signal to the class classification unit 44E and the prediction tap to the prediction unit 46E.

【0079】ここで、予測タップやクラスタップの構成
パターンは、上述したパターンのものに限定されるもの
ではない。
Here, the configuration patterns of the prediction taps and the class taps are not limited to those described above.

【0080】なお、タップ生成部43Aでは、復号線形
予測係数と、復号残差信号との両方の中から、線形予測
係数のクラスタップや予測タップを抽出するようにする
ことができる。さらに、タップ生成部43Aでは、Aコ
ードや残差コードからも、線形予測係数についてのクラ
スタップや予測タップを抽出するようにすることができ
る。また、後段の予測部46Aや46Eが既に出力した
信号や、音声合成フィルタ47が既に出力した合成音信
号からも、線形予測係数についてのクラスタップや予測
タップを抽出するようにすることができる。タップ生成
部43Eにおいても、同様にして、残差信号についての
クラスタップや予測タップを抽出することが可能であ
る。
The tap generation section 43A can extract the class taps and prediction taps of the linear prediction coefficient from both the decoded linear prediction coefficient and the decoded residual signal. Further, the tap generation unit 43A can extract a class tap and a prediction tap for the linear prediction coefficient from the A code and the residual code. Further, the class taps and the prediction taps for the linear prediction coefficients can be extracted from the signals already output by the prediction units 46A and 46E at the subsequent stage and the synthesized sound signal already output by the speech synthesis filter 47. The tap generation unit 43E can similarly extract a class tap and a prediction tap for the residual signal.

【0081】クラス分類部44Aは、タップ生成部43
Aからの線形予測係数についてのクラスタップに基づ
き、注目している注目フレーム(真の線形予測係数の予
測値を求めようとしているフレーム)の線形予測係数を
クラス分類し、その結果得られるクラスに対応するクラ
スコードを、係数メモリ45Aに出力する。
The classifying section 44A includes a tap generating section 43
Based on the class tap for the linear prediction coefficient from A, the linear prediction coefficient of the focused frame of interest (the frame for which the prediction value of the true linear prediction coefficient is to be obtained) is classified, and the resulting class is The corresponding class code is output to the coefficient memory 45A.

【0082】ここで、クラス分類を行う方法としては、
例えば、ADRC(Adaptive Dynamic Range Coding)等を採
用することができる。
Here, as a method of performing the class classification,
For example, ADRC (Adaptive Dynamic Range Coding) or the like can be adopted.

【0083】ADRCを用いる方法では、クラスタップを構
成する復号線形予測係数が、ADRC処理され、その結果得
られるADRCコードにしたがって、注目フレーム(の線形
予測係数)のクラスが決定される。
In the method using ADRC, the decoded linear prediction coefficients constituting the class taps are subjected to ADRC processing, and the class of (the linear prediction coefficient of) the target frame is determined according to the ADRC code obtained as a result.

【0084】なお、KビットADRCにおいては、例えば、
クラスタップを構成する復号線形予測係数の最大値MAX
と最小値MINが検出され、DR=MAX-MINを、集合の局所的
なダイナミックレンジとし、このダイナミックレンジDR
に基づいて、クラスタップを構成する復号線形予測係数
がKビットに再量子化される。即ち、クラスタップを構
成する復号線形予測係数の中から、最小値MINが減算さ
れ、その減算値がDR/2Kで除算(量子化)される。そし
て、以上のようにして得られる、クラスタップを構成す
るKビットの各復号線形予測係数を、所定の順番で並べ
たビット列が、ADRCコードとして出力される。従って、
クラスタップが、例えば、1ビットADRC処理された場合
には、そのクラスタップを構成する各復号線形予測係数
は、最小値MINが減算された後に、最大値MAXと最小値MI
Nとの平均値で除算され、これにより、各復号線形予測
係数が1ビットとされる(2値化される)。そして、そ
の1ビットの復号線形予測係数を所定の順番で並べたビ
ット列が、ADRCコードとして出力される。
In the K-bit ADRC, for example,
Maximum value MAX of decoded linear prediction coefficients constituting class taps
And the minimum value MIN is detected, and DR = MAX-MIN is set as the local dynamic range of the set.
, The decoded linear prediction coefficients constituting the class tap are requantized to K bits. That is, from the decoded linear prediction coefficients forming the class taps, the minimum value MIN is subtracted, and the subtracted value is divided (quantized) by DR / 2K. Then, a bit string obtained by arranging the K-bit decoded linear prediction coefficients constituting the class tap in the predetermined order, which is obtained as described above, is output as an ADRC code. Therefore,
When a class tap is subjected to, for example, 1-bit ADRC processing, each decoded linear prediction coefficient constituting the class tap is obtained by subtracting a minimum value MIN from a maximum value MAX and a minimum value MI.
It is divided by the average value with N, whereby each decoded linear prediction coefficient is made one bit (binarized). Then, a bit string in which the 1-bit decoded linear prediction coefficients are arranged in a predetermined order is output as an ADRC code.

【0085】なお、クラス分類部44Aには、例えば、
クラスタップを構成する復号線形予測係数の値の系列
を、そのままクラスコードとして出力させることも可能
であるが、この場合、クラスタップが、P次の復号線形
予測係数で構成され、各復号線形予測係数に、Kビット
が割り当てられているとすると、クラス分類部44Aが
出力するクラスコードの場合の数は、(2NK通りとな
り、復号線形予測係数のビット数Kに指数的に比例した
膨大な数となる。
The class classification unit 44A includes, for example,
It is also possible to output the series of values of the decoded linear prediction coefficients constituting the class taps as they are as the class code. In this case, the class taps are composed of P-order decoded linear prediction coefficients, Assuming that K bits are assigned to the coefficients, the number of class codes output by the classifying unit 44A is (2N )K , which is exponentially proportional to the number K of bits of the decoded linear prediction coefficient. It is a huge number.

【0086】従って、クラス分類部44Aにおいては、
クラスタップの情報量を、上述のADRC処理や、あるいは
ベクトル量子化等によって圧縮してから、クラス分類を
行うのが好ましい。
Therefore, in the classifying section 44A,
It is preferable to perform the class classification after compressing the information amount of the class tap by the above-described ADRC processing or vector quantization.

【0087】クラス分類部44Eも、タップ生成部43
Eから供給されるクラスタップに基づき、クラス分類部
44Aにおける場合と同様にして、注目フレームのクラ
ス分類を行い、その結果得られるクラスコードを、係数
メモリ45Eに出力する。
The class classifying section 44E also includes the tap generating section 43
Based on the class tap supplied from E, the class classification of the frame of interest is performed in the same manner as in the class classification unit 44A, and the resulting class code is output to the coefficient memory 45E.

【0088】係数メモリ45Aは、後述する図6の学習
装置において学習処理が行われることにより得られる、
クラスごとの線形予測係数についてのタップ係数を記憶
しており、クラス分類部44Aが出力するクラスコード
に対応するアドレスに記憶されているタップ係数を、予
測部46Aに出力する。
The coefficient memory 45A is obtained by performing a learning process in a learning device shown in FIG.
The tap coefficient for the linear prediction coefficient for each class is stored, and the tap coefficient stored at the address corresponding to the class code output from the class classification unit 44A is output to the prediction unit 46A.

【0089】係数メモリ45Eは、後述する図6の学習
装置において学習処理が行われることにより得られる、
クラスごとの残差信号についてのタップ係数を記憶して
おり、クラス分類部44Eが出力するクラスコードに対
応するアドレスに記憶されているタップ係数を、予測部
46Eに出力する。
The coefficient memory 45E is obtained by performing a learning process in a learning device shown in FIG.
The tap coefficient for the residual signal for each class is stored, and the tap coefficient stored at the address corresponding to the class code output from the class classification unit 44E is output to the prediction unit 46E.

【0090】ここで、各フレームについて、P次の線形
予測係数が求められるとすると、注目フレームについ
て、P次の線形予測係数を、式(6)の予測演算によっ
て求めるには、Pセットのタップ係数が必要である。従
って、係数メモリ45Aには、1つのクラスコードに対
応するアドレスに対して、Pセットのタップ係数が記憶
されている。同様の理由から、係数メモリ45Eには、
各フレームにおける残差信号のサンプル点と同一数のセ
ットのタップ係数が記憶されている。
Here, assuming that a P-order linear prediction coefficient is determined for each frame, a P-order linear prediction coefficient for the frame of interest is determined by tapping the P-set. Coefficient is required. Therefore, the tap memory of the P set is stored in the coefficient memory 45A for the address corresponding to one class code. For the same reason, the coefficient memory 45E contains
The same number of sets of tap coefficients as the sample points of the residual signal in each frame are stored.

【0091】予測部46Aは、タップ生成部43Aが出
力する予測タップと、係数メモリ45Aが出力するタッ
プ係数とを取得し、その予測タップとタップ係数とを用
いて、式(6)に示した線形予測演算(積和演算)を行
い、注目フレームのP次の線形予測係数(の予測値)を
求めて、音声合成フィルタ47に出力する。
The prediction section 46A acquires the prediction tap output from the tap generation section 43A and the tap coefficient output from the coefficient memory 45A, and uses the prediction tap and the tap coefficient to obtain the equation (6). A linear prediction operation (product-sum operation) is performed, and a P-order linear prediction coefficient (predicted value) of the frame of interest is obtained and output to the speech synthesis filter 47.

【0092】予測部46Eは、タップ生成部43Eが出
力する予測タップと、係数メモリ45Eが出力するタッ
プ係数とを取得し、その予測タップとタップ係数とを用
いて、式(6)に示した線形予測演算を行い、注目フレ
ームの残差信号(の予測値)を求めて、音声合成フィル
タ47に出力する。
The prediction section 46E acquires the prediction tap output from the tap generation section 43E and the tap coefficient output from the coefficient memory 45E, and uses the prediction tap and the tap coefficient to obtain the equation (6). A linear prediction operation is performed to obtain (predicted value of) the residual signal of the frame of interest, and output to the speech synthesis filter 47.

【0093】ここで、係数メモリ45Aは、注目フレー
ムを構成するP次の線形予測係数の予測値それぞれを求
めるためのPセットのタップ係数を出力するが、予測部
46Aは、各次数の線形予測係数を、予測タップと、そ
の次数に対応するタップ係数のセットとを用いて、式
(6)の積和演算を行う。予測部46Eも同様である。
Here, the coefficient memory 45A outputs the tap coefficients of the P set for obtaining the predicted values of the P-order linear prediction coefficients constituting the frame of interest. The prediction unit 46A performs the linear prediction of each order. The product-sum operation of the equation (6) is performed using the prediction tap and a set of tap coefficients corresponding to the order. The same applies to the prediction unit 46E.

【0094】音声合成フィルタ47は、例えば、図1の
音声合成フィルタ29と同様に、IIR型のディジタル
フィルタで、予測部46Aからの線形予測係数をIIR
フィルタのタップ係数とするとともに、予測部46Eか
らの残差信号を入力信号として、その入力信号のフィル
タリングを行うことにより、合成音信号を生成し、D/
A変換部48に供給する。D/A変換部48は、音声合
成フィルタ47からの合成音信号を、ディジタル信号か
らアナログ信号にD/A変換し、スピーカ49に供給し
て出力させる。
The speech synthesis filter 47 is, for example, an IIR type digital filter similar to the speech synthesis filter 29 of FIG. 1, and converts the linear prediction coefficient from the prediction unit 46A into an IIR type.
In addition to using the tap coefficients of the filter, the residual signal from the prediction unit 46E is used as an input signal, and the input signal is filtered to generate a synthesized sound signal.
It is supplied to the A conversion unit 48. The D / A converter 48 D / A converts the synthesized sound signal from the voice synthesis filter 47 from a digital signal to an analog signal, and supplies the analog signal to a speaker 49 for output.

【0095】なお、図3では、タップ生成部43Aと4
3Eにおいて、それぞれクラスタップを生成し、クラス
分類部44Aと44Eにおいて、それぞれ、そのクラス
タップに基づくクラス分類を行い、さらに、係数メモリ
45Aと45Eから、それぞれ、そのクラス分類結果と
してのクラスコードに対応する、線形予測係数と残差信
号それぞれについてのタップ係数を取得するようにした
が、線形予測係数と残差信号それぞれについてのタップ
係数は、例えば、以下のようにして取得することも可能
である。
In FIG. 3, tap generation units 43A and 43A
In 3E, a class tap is generated, and in each of the classifying units 44A and 44E, a class is classified based on the class tap. The corresponding tap coefficients for each of the linear prediction coefficient and the residual signal are obtained.However, the tap coefficients for each of the linear prediction coefficient and the residual signal can be obtained, for example, as follows. is there.

【0096】即ち、タップ生成部43Aと43E、クラ
ス分類部44Aと44E、係数メモリ45Aと45E
を、ぞれぞれ一体的に構成する。いま、一体的に構成し
たタップ生成部、クラス分類部、係数メモリを、それぞ
れ、タップ生成部43、クラス分類部44、係数メモリ
45というものとすると、タップ生成部43には、復号
線形予測係数と復号残差信号とからクラスタップを構成
させ、クラス分類部44には、そのクラスタップに基づ
いて、クラス分類を行わせ、1つのクラスコードを出力
させる。さらに、係数メモリ45には、各クラスに対応
するアドレスに、線形予測係数についてのタップ係数
と、残差信号についてのタップ係数との組を記憶させて
おき、クラス分類部44が出力するクラスコードに対応
するアドレスに記憶されている線形予測係数と残差信号
それぞれについてのタップ係数の組を出力させる。そし
て、予測部46Aと46Eでは、このようにして、係数
メモリ45から組で出力される線形予測係数についての
タップ係数と、残差信号についてのタップ係数に基づい
て、それぞれ、処理を行うようにすることができる。
That is, the tap generation units 43A and 43E, the class classification units 44A and 44E, and the coefficient memories 45A and 45E
Are integrally configured. Now, assuming that the integrally formed tap generation unit, class classification unit, and coefficient memory are respectively a tap generation unit 43, a class classification unit 44, and a coefficient memory 45, the tap generation unit 43 includes a decoded linear prediction coefficient And the decoded residual signal to form a class tap, and the class classifying unit 44 performs a class classification based on the class tap and outputs one class code. Further, in the coefficient memory 45, a set of a tap coefficient for the linear prediction coefficient and a tap coefficient for the residual signal is stored at an address corresponding to each class, and the class code output by the class classification unit 44 is stored. Are output as a set of tap coefficients for each of the linear prediction coefficients and the residual signal stored at the address corresponding to Then, the prediction units 46A and 46E perform processing in this manner based on the tap coefficient for the linear prediction coefficient and the tap coefficient for the residual signal output as a set from the coefficient memory 45, respectively. can do.

【0097】なお、タップ生成部43Aと43E、クラ
ス分類部44Aと44E、係数メモリ45Aと45E
を、ぞれぞれ別に構成する場合には、線形予測係数につ
いてのクラス数と、残差信号についてのクラス数とは、
同一になるとは限らないが、一体的に構成する場合に
は、線形予測係数と残差信号についてのクラス数は、同
一になる。
The tap generating units 43A and 43E, the classifying units 44A and 44E, and the coefficient memories 45A and 45E
Are separately configured, the number of classes for the linear prediction coefficient and the number of classes for the residual signal are:
Although not necessarily the same, the number of classes for the linear prediction coefficient and the residual signal is the same when they are configured integrally.

【0098】次に、図4は、図3の音声合成フィルタ4
7の構成例を示している。
Next, FIG. 4 shows the speech synthesis filter 4 shown in FIG.
7 shows a configuration example.

【0099】図4において、音声合成フィルタ47は、
P次の線形予測係数を用いるものとなっており、従っ
て、1つの加算器51、P個の遅延回路(D)521
至52P、およびP個の乗算器531乃至53Pから構成
されている。
In FIG. 4, the speech synthesis filter 47
Has become one using the P-order LPC coefficients, therefore, it consists of a single adder 51, P number of delay circuits (D) 521 to 52P, and P multipliers 531 to 53P ing.

【0100】乗算器531乃至53Pには、それぞれ、予
測部46Aから供給されるP次の線形予測係数α1
α2,・・・,αPがセットされ、これにより、音声合成
フィルタ47では、式(4)にしたがって演算が行わ
れ、合成音信号が生成される。
The multipliers 531 to 53P have P-order linear prediction coefficients α1 , α1 ,
α2 ,..., αP are set, whereby the speech synthesis filter 47 performs an operation in accordance with equation (4) to generate a synthesized sound signal.

【0101】即ち、予測部46Eが出力する残差信号e
は、加算器51を介して、遅延回路521に供給され、
遅延回路52pは、そこへの入力信号を、残差信号の1
サンプル分だけ遅延して、後段の遅延回路52p+1に出
力するとともに、乗算器53pに出力する。乗算器53p
は、遅延回路52pの出力と、そこにセットされた線形
予測係数αpとを乗算し、その乗算値を、加算器51に
出力する。
That is, the residual signal e output from the prediction unit 46E
Via the adder 51 is supplied to the delay circuit 521,
The delay circuit 52p converts the input signal there into the residual signal 1
The signal is delayed by the number of samples and output to the delay circuit 52p + 1 at the subsequent stage and output to the multiplier 53p . Multiplier 53p
Multiplies the output of the delay circuit 52p by the linear prediction coefficient αp set therein, and outputs the multiplied value to the adder 51.

【0102】加算器51は、乗算器531乃至53Pの出
力すべてと、残差信号eとを加算し、その加算結果を、
遅延回路521に供給する他、音声合成結果(合成音信
号)として出力する。
The adder 51 adds all the outputs of the multipliers 531 to 53P and the residual signal e, and
Other supplied to the delay circuit 521, and outputs as a speech synthesis result (synthesized sound signal).

【0103】次に、図5のフローチャートを参照して、
図3の音声合成装置の処理(音声合成処理)について説
明する。
Next, referring to the flowchart of FIG.
The processing (speech synthesis processing) of the speech synthesis device in FIG. 3 will be described.

【0104】デマルチプレクサ41は、そこに供給され
るコードデータから、フレームごとのAコードと残差コ
ードを順次分離し、それぞれを、フィルタ係数復号器4
2Aと残差コードブック記憶部42Eに供給する。
The demultiplexer 41 sequentially separates the A code and the residual code for each frame from the code data supplied thereto, and separates them into the filter coefficient decoder 4.
2A and the residual codebook storage unit 42E.

【0105】フィルタ係数復号器42Aは、デマルチプ
レクサ41から供給されるフレームごとのAコードを、
復号線形予測係数に順次復号し、タップ生成部43Aに
供給し、また、残差コードブック記憶部42Eは、デマ
ルチプレクサ41から供給されるフレームごとの残差コ
ードを、復号残差信号に順次復号し、タップ生成部43
Eに供給する。
The filter coefficient decoder 42A outputs the A code for each frame supplied from the demultiplexer 41,
The decoded code is sequentially decoded into decoded linear prediction coefficients and supplied to the tap generation unit 43A. The residual codebook storage unit 42E sequentially decodes the residual code for each frame supplied from the demultiplexer 41 into a decoded residual signal. And the tap generation unit 43
Supply to E.

【0106】タップ生成部43Aは、そこに供給される
復号線形予測係数のフレームを、順次、注目フレームと
し、ステップS1において、フィルタ係数復号器42A
から供給される復号線形予測係数から、クラスタップと
予測タップを生成する。さらに、ステップS1では、タ
ップ生成部43Eは、残差コードブック記憶部42Eか
ら供給される復号残差信号から、クラスタップと予測タ
ップを生成する。タップ生成部43Aが生成したクラス
タップは、クラス分類部44Aに、予測タップは、予測
部46Aに、それぞれ供給され、タップ生成部43Eが
生成したクラスタップは、クラス分類部44Eに、予測
タップは、予測部46Eに、それぞれ供給される。
The tap generator 43A sequentially sets the frames of the decoded linear prediction coefficients supplied thereto as frames of interest, and in step S1, the filter coefficient decoder 42A
And class taps and prediction taps are generated from the decoded linear prediction coefficients supplied from. Further, in step S1, the tap generation unit 43E generates a class tap and a prediction tap from the decoded residual signal supplied from the residual codebook storage unit 42E. The class taps generated by the tap generation unit 43A are supplied to the classification unit 44A, the prediction taps are supplied to the prediction unit 46A, respectively, the class taps generated by the tap generation unit 43E are supplied to the classification unit 44E, and the prediction taps are , And the prediction unit 46E.

【0107】そして、ステップS2に進み、クラス分類
部44Aと44Eは、タップ生成部43Aと43Eから
供給されるクラスタップに基づいて、それぞれクラス分
類を行い、その結果得られるクラスコードを、係数メモ
リ45Aと45Eに、ぞれぞれ供給して、ステップS3
に進む。
Then, the process proceeds to step S2, where the classifying units 44A and 44E perform class classification based on the class taps supplied from the tap generating units 43A and 43E, and store the resulting class code in the coefficient memory. 45A and 45E, respectively, and supply them to step S3.
Proceed to.

【0108】ステップS3では、係数メモリ45Aと4
5Eは、クラス分類部44Aと44Eから供給されるク
ラスコードに対応するアドレスから、タップ係数を、そ
れぞれ読み出し、予測部46Aと46Eに、それぞれ供
給する。
In step S3, the coefficient memories 45A and 45A
5E reads the tap coefficient from the address corresponding to the class code supplied from the classifying units 44A and 44E, and supplies the tap coefficients to the predicting units 46A and 46E, respectively.

【0109】そして、ステップS4に進み、予測部46
Aは、係数メモリ45Aが出力するタップ係数を取得
し、そのタップ係数と、タップ生成部43Aからの予測
タップとを用いて、式(6)に示した積和演算を行い、
注目フレームの真の線形予測係数(の予測値)を得る。
さらに、ステップS4では、予測部46Eは、係数メモ
リ45Eが出力するタップ係数を取得し、そのタップ係
数と、タップ生成部43Eからの予測タップとを用い
て、式(6)に示した積和演算を行い、注目フレームの
真の残差信号(の予測値)を得る。
Then, the process proceeds to a step S4, wherein the predicting section 46
A obtains the tap coefficient output from the coefficient memory 45A, and performs the product-sum operation shown in Expression (6) using the tap coefficient and the prediction tap from the tap generation unit 43A.
The true linear prediction coefficient (predicted value) of the frame of interest is obtained.
Further, in step S4, the prediction unit 46E acquires the tap coefficient output from the coefficient memory 45E, and uses the tap coefficient and the prediction tap from the tap generation unit 43E to calculate the product sum shown in Expression (6). The calculation is performed to obtain (the predicted value of) the true residual signal of the frame of interest.

【0110】以上のようにして得られた残差信号および
線形予測係数は、音声合成フィルタ47に供給され、音
声合成フィルタ47では、その残差信号および線形予測
係数を用いて、式(4)の演算が行われることにより、
注目フレームの合成音信号が生成される。この合成音信
号は、音声合成フィルタ47から、D/A変換部48を
介して、スピーカ49に供給され、これにより、スピー
カ49からは、その合成音信号に対応する合成音が出力
される。
The residual signal and the linear prediction coefficient obtained as described above are supplied to a speech synthesis filter 47. The speech synthesis filter 47 uses the residual signal and the linear prediction coefficient to obtain the equation (4). Is calculated,
A synthesized sound signal of the frame of interest is generated. The synthesized sound signal is supplied from the voice synthesis filter 47 to the speaker 49 via the D / A conversion unit 48, whereby the synthesized sound signal corresponding to the synthesized sound signal is output from the speaker 49.

【0111】予測部46Aと46Eにおいて、線形予測
係数と残差信号がそれぞれ得られた後は、ステップS5
に進み、まだ、注目フレームとして処理すべきフレーム
の復号線形予測係数および復号残差信号があるかどうか
が判定される。ステップS5において、まだ、注目フレ
ームとして処理すべきフレームの復号線形予測係数およ
び復号残差信号があると判定された場合、ステップS1
に戻り、次に注目フレームとすべきフレームを、新たに
注目フレームとして、以下、同様の処理を繰り返す。ま
た、ステップS5において、注目フレームとして処理す
べきフレームの復号線形予測係数および復号残差信号が
ないと判定された場合、音声合成処理を終了する。
After the prediction units 46A and 46E have obtained the linear prediction coefficient and the residual signal, respectively, step S5
It is determined whether there are still decoded linear prediction coefficients and decoded residual signals of the frame to be processed as the frame of interest. If it is determined in step S5 that there are still decoded linear prediction coefficients and decoded residual signals of the frame to be processed as the frame of interest, step S1
And the same processing is repeated hereafter, with the frame to be the next frame of interest set as the new frame of interest. If it is determined in step S5 that there is no decoded linear prediction coefficient and no decoded residual signal of the frame to be processed as the frame of interest, the speech synthesis processing ends.

【0112】次に、図6は、図3の係数メモリ45Aお
よび45Eに記憶させるタップ係数の学習処理を行う学
習装置の一実施の形態の構成例を示している。
Next, FIG. 6 shows an example of the configuration of an embodiment of a learning device for performing a learning process of tap coefficients stored in the coefficient memories 45A and 45E of FIG.

【0113】学習装置には、学習用のディジタル音声信
号が、フレーム単位で供給されるようになっており、こ
の学習用のディジタル音声信号は、LPC分析部61A
および予測フィルタ61Eに供給される。
The learning device is supplied with a digital voice signal for learning in units of frames. The digital voice signal for learning is supplied to the LPC analyzing section 61A.
And the prediction filter 61E.

【0114】LPC分析部61Aは、そこに供給される
音声信号のフレームを、順次、注目フレームとし、その
注目フレームの音声信号をLPC分析することで、P次
の線形予測係数を求める。この線形予測係数は、予測フ
ィルタ61Eおよびベクトル量子化部62Aに供給され
るとともに、線形予測係数についてのタップ係数を求め
るための教師データとして、正規方程式加算回路66A
に供給される。
The LPC analysis section 61A sequentially determines the frames of the audio signal supplied thereto as frames of interest, and performs an LPC analysis on the audio signal of the frame of interest to obtain a P-order linear prediction coefficient. The linear prediction coefficient is supplied to the prediction filter 61E and the vector quantization unit 62A, and is used as teacher data for obtaining tap coefficients for the linear prediction coefficient by a normal equation addition circuit 66A.
Supplied to

【0115】予測フィルタ61Eは、そこに供給される
注目フレームの音声信号と線形予測係数を用いて、例え
ば、式(1)にしたがった演算を行うことにより、注目
フレームの残差信号を求め、ベクトル量子化部62Eに
供給するとともに、残差信号についてのタップ係数を求
めるための教師データとして、正規方程式加算回路66
Eに供給する。
The prediction filter 61E obtains the residual signal of the frame of interest by performing, for example, an operation according to equation (1) using the audio signal of the frame of interest and the linear prediction coefficient supplied thereto. A normal equation addition circuit 66 is supplied to the vector quantization unit 62E and used as teacher data for obtaining tap coefficients for the residual signal.
Supply to E.

【0116】即ち、式(1)におけるsnとenのZ変換
を、SとEとそれぞれ表すと、式(1)は、次式のよう
に表すことができる。
[0116] That is, the Z-transform of sn and en in the formula (1), expressed respectively S and E, equation (1) can be expressed by the following equation.

【0117】 E=(1+α1-1+α2-2+・・・+αP-P)S ・・・(14)[0117]E = (1 + α 1 z - 1 + α 2 z - 2 + ··· + α P z - P) S ··· (14)

【0118】式(14)から、残差信号eは、音声信号
sと線形予測係数αPとの積和演算で求めることがで
き、従って、残差信号eを求める予測フィルタ61E
は、FIR(Finite Impulse Response)型のディジタル
フィルタで構成することができる。
From equation (14), the residual signal e can be obtained by the product-sum operation of the speech signal s and the linear prediction coefficient αP, and therefore, the prediction filter 61E for obtaining the residual signal e
Can be configured by a FIR (Finite Impulse Response) type digital filter.

【0119】即ち、図7は、予測フィルタ61Eの構成
例を示している。
That is, FIG. 7 shows a configuration example of the prediction filter 61E.

【0120】予測フィルタ61Eには、LPC分析部6
1Aから、P次の線形予測係数が供給されるようになっ
ており、従って、予測フィルタ61Eは、P個の遅延回
路(D)711乃至71P、P個の乗算器721乃至7
P、および1つの加算器73から構成されている。
The prediction filter 61E includes an LPC analysis unit 6
From 1A, being adapted to the linear prediction coefficients P following is supplied, therefore, the prediction filter 61E is, P number of delay circuits (D) 711 to 71P, P multipliers 721 to 7
2P , and one adder 73.

【0121】乗算器721乃至72Pには、それぞれ、L
PC分析部61Aから供給されるP次の線形予測係数の
うちのα1,α2,・・・,αPがセットされる。
Each of the multipliers 721 to 72P has L
Α1 , α2 ,..., ΑP among the P-order linear prediction coefficients supplied from the PC analysis unit 61A are set.

【0122】一方、注目フレームの音声信号sは、遅延
回路711と加算器73に供給される。遅延回路71
pは、そこへの入力信号を、残差信号の1サンプル分だ
け遅延して、後段の遅延回路71p+1に出力するととも
に、乗算器72pに出力する。乗算器72pは、遅延回路
71pの出力と、そこにセットされた線形予測係数αp
を乗算し、その乗算値を、加算器73に出力する。
[0122] On the other hand, the audio signal s of the frame of interest is supplied to the delay circuit 711 and the adder 73. Delay circuit 71
p delays the input signal therefor by one sample of the residual signal, outputs the delayed signal to the delay circuit 71p + 1 at the subsequent stage, and outputs it to the multiplier 72p . The multiplier 72p multiplies the output of the delay circuit 71p by the linear prediction coefficient αp set therein, and outputs the multiplied value to the adder 73.

【0123】加算器73は、乗算器721乃至72Pの出
力すべてと、音声信号sとを加算し、その加算結果を、
残差信号eとして出力する。
The adder 73 adds all the outputs of the multipliers 721 to 72P and the audio signal s, and
It is output as a residual signal e.

【0124】図6に戻り、ベクトル量子化部62Aは、
線形予測係数を要素とするコードベクトルとコードとを
対応付けたコードブックを記憶しており、そのコードブ
ックに基づいて、LPC分析部61Aからの注目フレー
ムの線形予測係数で構成される特徴ベクトルをベクトル
量子化し、そのベクトル量子化の結果得られるAコード
を、フィルタ係数復号器63Aに供給する。ベクトル量
子化部62Eは、残差信号のサンプル値を要素とするコ
ードベクトルとコードとを対応付けたコードブックを記
憶しており、そのコードブックに基づいて、予測フィル
タ61Eからの注目フレームの残差信号のサンプル値で
構成される残差ベクトルをベクトル量子化し、そのベク
トル量子化の結果得られる残差コードを、残差コードブ
ック記憶部63Eに供給する。
Returning to FIG. 6, the vector quantization unit 62A
A codebook in which a code is associated with a code vector having a linear prediction coefficient as an element is stored. Based on the codebook, a feature vector composed of the linear prediction coefficient of the frame of interest from the LPC analysis unit 61A is stored. Vector quantization is performed, and the A code obtained as a result of the vector quantization is supplied to the filter coefficient decoder 63A. The vector quantization unit 62E stores a codebook in which a code is associated with a code vector having a sample value of the residual signal as an element, and based on the codebook, stores a residual frame of interest from the prediction filter 61E. The residual vector constituted by the sample value of the difference signal is vector-quantized, and the residual code obtained as a result of the vector quantization is supplied to the residual code book storage unit 63E.

【0125】フィルタ係数復号器63Aは、ベクトル量
子化部62Aが記憶しているのと同一のコードブックを
記憶しており、そのコードブックに基づいて、ベクトル
量子化部62AからのAコードを、復号線形予測係数に
復号し、線形予測係数についてのタップ係数を求めるた
めの生徒データとして、タップ生成部64Aに供給す
る。ここで、図3のフィルタ係数復号器42Aは、図6
のフィルタ係数復号器63Aと同様に構成されている。
The filter coefficient decoder 63A stores the same codebook as that stored in the vector quantization unit 62A, and converts the A code from the vector quantization unit 62A based on the codebook. The data is decoded to the decoded linear prediction coefficient, and is supplied to the tap generation unit 64A as student data for obtaining a tap coefficient for the linear prediction coefficient. Here, the filter coefficient decoder 42A of FIG.
Is configured similarly to the filter coefficient decoder 63A.

【0126】残差コードブック記憶部63Eは、ベクト
ル量子化部62Eが記憶しているのと同一のコードブッ
クを記憶しており、そのコードブックに基づいて、ベク
トル量子化部62Eからの残差コードを、復号残差信号
に復号し、残差信号についてのタップ係数を求めるため
の生徒データとして、タップ生成部64Eに供給する。
ここで、図3の残差コードブック記憶部42Eは、図6
の残差コードブック記憶部42Eと同様に構成されてい
る。
The residual codebook storage unit 63E stores the same codebook as that stored by the vector quantization unit 62E, and based on the codebook, stores the residual code from the vector quantization unit 62E. The code is decoded into a decoded residual signal, and is supplied to the tap generation unit 64E as student data for obtaining tap coefficients for the residual signal.
Here, the residual codebook storage unit 42E of FIG.
Is configured similarly to the residual codebook storage unit 42E.

【0127】タップ生成部64Aは、図3のタップ生成
部43Aにおける場合と同様に、フィルタ係数復号器6
3Aから供給される復号線形予測係数から、予測タップ
とクラスタップを構成し、クラスタップを、クラス分類
部65Aに供給するとともに、予測タップを、正規方程
式加算回路66Aに供給する。タップ生成部64Eは、
図3のタップ生成部43Eにおける場合と同様に、残差
コードブック記憶部63Eから供給される復号残差信号
から、予測タップとクラスタップを構成し、クラスタッ
プを、クラス分類部65Eに供給するとともに、予測タ
ップを、正規方程式加算回路66Eに供給する。
The tap generation section 64A has a filter coefficient decoder 6 similar to the tap generation section 43A of FIG.
A prediction tap and a class tap are formed from the decoded linear prediction coefficients supplied from 3A, and the class tap is supplied to the classifying unit 65A and the prediction tap is supplied to the normal equation adding circuit 66A. The tap generation unit 64E
As in the case of the tap generation unit 43E in FIG. 3, a prediction tap and a class tap are formed from the decoded residual signal supplied from the residual codebook storage unit 63E, and the class tap is supplied to the class classification unit 65E. At the same time, the prediction tap is supplied to the normal equation addition circuit 66E.

【0128】クラス分類部65Aと65Eは、図3のク
ラス分類部44Aと44Eにおける場合とそれぞれ同様
に、そこに供給されるクラスタップに基づいて、クラス
分類を行い、その結果得られるクラスコードを、正規方
程式加算回路66Aと66Eに、それぞれ供給する。
The classifying units 65A and 65E perform class classification based on the class taps supplied thereto, as in the case of the classifying units 44A and 44E in FIG. 3, and classify the resulting class code. , And normal equation adding circuits 66A and 66E.

【0129】正規方程式加算回路66Aは、LPC分析
部61Aからの教師データとしての注目フレームの線形
予測係数と、タップ生成部64Aからの生徒データとし
ての予測タップ(を構成する復号線形予測係数)を対象
とした足し込みを行う。正規方程式加算回路66Eは、
予測フィルタ61Eからの教師データとしての注目フレ
ームの残差信号と、タップ生成部64Eからの生徒デー
タとしての予測タップ(を構成する復号残差信号)を対
象とした足し込みを行う。
The normal equation addition circuit 66A calculates the linear prediction coefficient of the frame of interest as the teacher data from the LPC analysis section 61A and the prediction tap (the decoded linear prediction coefficient constituting the prediction tap) as the student data from the tap generation section 64A. Perform target addition. The normal equation addition circuit 66E
The addition is performed for the residual signal of the frame of interest as the teacher data from the prediction filter 61E and the prediction residual (the decoded residual signal forming the same) as the student data from the tap generation unit 64E.

【0130】即ち、正規方程式加算回路66Aは、クラ
ス分類部65Aから供給されるクラスコードに対応する
クラスごとに、予測タップ(生徒データ)を用い、式
(13)の行列Aにおける各コンポーネントとなってい
る、生徒データどうしの乗算(xinim)と、サメーシ
ョン(Σ)に相当する演算を行う。
That is, the normal equation adding circuit 66A uses the prediction taps (student data) for each class corresponding to the class code supplied from the class classification section 65A to generate each component in the matrix A of the equation (13). Multiplication (xin xim ) between the student data, and an operation corresponding to summation (Σ).

【0131】さらに、正規方程式加算回路66Aは、や
はり、クラス分類部65Aから供給されるクラスコード
に対応するクラスごとに、生徒データ(予測タップを構
成する復号線形予測係数)および教師データ(注目フレ
ームの線形予測係数)を用い、式(13)のベクトルv
における各コンポーネントとなっている、生徒データと
教師データの乗算(xini)と、サメーション(Σ)
に相当する演算を行う。
Further, the normal equation adding circuit 66A also generates student data (decoded linear prediction coefficients constituting prediction taps) and teacher data (frame of interest) for each class corresponding to the class code supplied from the class classification section 65A. Of the equation (13) using the linear prediction coefficient
Multiplication of student data and teacher data (xin yi ) and summation (Σ)
An operation corresponding to is performed.

【0132】正規方程式加算回路66Aは、以上の足し
込みを、LPC分析部61Aから供給される線形予測係
数のフレームすべてを注目フレームとして行い、これに
より、各クラスについて、線形予測係数に関する式(1
3)に示した正規方程式をたてる。
The normal equation adding circuit 66A performs the above-described addition using all the frames of the linear prediction coefficients supplied from the LPC analysis section 61A as the frames of interest.
The normal equation shown in 3) is established.

【0133】正規方程式加算回路66Eも、同様の足し
込みを、予測フィルタ61Eから供給される残差信号の
フレームすべてを注目フレームとして行い、これによ
り、各クラスについて、残差信号に関する式(13)に
示した正規方程式をたてる。
The normal equation addition circuit 66E also performs the same addition using all the frames of the residual signal supplied from the prediction filter 61E as the frame of interest, whereby the equation (13) relating to the residual signal is obtained for each class. Make the normal equation shown in.

【0134】タップ係数決定回路67Aと67Eは、正
規方程式加算回路66Aと66Eにおいてクラスごとに
生成された正規方程式それぞれを解くことにより、クラ
スごとに、線形予測係数と残差信号についてのタップ係
数をそれぞれ求め、係数メモリ68Aと68Eの、各ク
ラスに対応するアドレスにそれぞれ供給する。
The tap coefficient determination circuits 67A and 67E solve the linear prediction coefficients and the tap coefficients for the residual signal for each class by solving each of the normal equations generated for each class in the normal equation addition circuits 66A and 66E. Each is obtained and supplied to an address corresponding to each class in the coefficient memories 68A and 68E.

【0135】なお、学習用の音声信号として用意した音
声信号によっては、正規方程式加算回路66Aや66E
において、タップ係数を求めるのに必要な数の正規方程
式が得られないクラスが生じる場合があり得るが、タッ
プ係数決定回路67Aと67Eは、そのようなクラスに
ついては、例えば、デフォルトのタップ係数を出力す
る。
Depending on the audio signal prepared as the audio signal for learning, the normal equation addition circuits 66A and 66E
In the above, there may be a case where a class in which the number of normal equations required for obtaining the tap coefficient is not obtained may occur. However, the tap coefficient determination circuits 67A and 67E determine the default tap coefficient for such a class, for example. Output.

【0136】係数メモリ68Aと68Eは、タップ係数
決定回路67Aと67Eからそれぞれ供給されるクラス
ごとの線形予測係数と残差信号についてのタップ係数
を、それぞれ記憶する。
The coefficient memories 68A and 68E store the linear prediction coefficients for each class and the tap coefficients for the residual signal supplied from the tap coefficient determination circuits 67A and 67E, respectively.

【0137】次に、図8のフローチャートを参照して、
図6の学習装置の処理(学習処理)について説明する。
Next, referring to the flowchart of FIG.
The processing (learning processing) of the learning device in FIG. 6 will be described.

【0138】学習装置には、学習用の音声信号が供給さ
れ、ステップS11では、その学習用の音声信号から、
教師データと生徒データが生成される。
A learning audio signal is supplied to the learning device. In step S11, the learning audio signal is
Teacher data and student data are generated.

【0139】即ち、LPC分析部61Aは、学習用の音
声信号のフレームを、順次、注目フレームとし、その注
目フレームの音声信号をLPC分析することで、P次の
線形予測係数を求め、教師データとして、正規方程式加
算回路66Aに供給する。さらに、この線形予測係数
は、予測フィルタ61Eおよびベクトル量子化部62A
にも供給され、ベクトル量子化部62Aは、LPC分析
部61Aからの注目フレームの線形予測係数で構成され
る特徴ベクトルをベクトル量子化し、そのベクトル量子
化の結果得られるAコードを、フィルタ係数復号器63
Aに供給する。フィルタ係数復号器63Aは、ベクトル
量子化部62AからのAコードを、復号線形予測係数に
復号し、その復号線形予測係数を、生徒データとして、
タップ生成部64Aに供給する。
That is, the LPC analysis section 61A sequentially sets the frames of the audio signal for learning as a frame of interest, performs an LPC analysis on the audio signal of the frame of interest, obtains a P-order linear prediction coefficient, and obtains the teacher data. Is supplied to the normal equation addition circuit 66A. Further, the linear prediction coefficient is calculated by the prediction filter 61E and the vector quantization unit 62A.
The vector quantization unit 62A vector-quantizes the feature vector composed of the linear prediction coefficient of the frame of interest from the LPC analysis unit 61A, and converts the A code obtained as a result of the vector quantization into filter coefficient decoding. Bowl 63
A. The filter coefficient decoder 63A decodes the A code from the vector quantization unit 62A into decoded linear prediction coefficients, and uses the decoded linear prediction coefficients as student data.
This is supplied to the tap generator 64A.

【0140】一方、注目フレームの線形予測係数を、L
PC分析部61Aから受信した予測フィルタ61Eは、
その線形予測係数と、注目フレームの学習用の音声信号
とを用いて、式(1)にしたがった演算を行うことによ
り、注目フレームの残差信号を求め、教師データとし
て、正規方程式加算回路66Eに供給する。さらに、こ
の残差信号は、ベクトル量子化部62Eにも供給され、
ベクトル量子化部62Eは、予測フィルタ61Eからの
注目フレームの残差信号のサンプル値で構成される残差
ベクトルをベクトル量子化し、そのベクトル量子化の結
果得られる残差コードを、残差コードブック記憶部63
Eに供給する。残差コードブック記憶部63Eは、ベク
トル量子化部62Eからの残差コードを、復号残差信号
に復号し、その復号残差信号を、生徒データとして、タ
ップ生成部64Eに供給する。
On the other hand, the linear prediction coefficient of the frame of interest is represented by L
The prediction filter 61E received from the PC analysis unit 61A is
By using the linear prediction coefficient and the speech signal for learning the frame of interest to perform an operation according to equation (1), a residual signal of the frame of interest is obtained. To supply. Further, this residual signal is also supplied to a vector quantization unit 62E,
The vector quantization unit 62E vector-quantizes a residual vector composed of sample values of the residual signal of the frame of interest from the prediction filter 61E, and stores a residual code obtained as a result of the vector quantization in a residual codebook. Storage unit 63
Supply to E. The residual codebook storage unit 63E decodes the residual code from the vector quantization unit 62E into a decoded residual signal, and supplies the decoded residual signal to the tap generation unit 64E as student data.

【0141】そして、ステップS12に進み、タップ生
成部64Aが、フィルタ係数復号器63Aから供給され
る復号線形予測係数から、線形予測係数についての予測
タップとクラスタップを構成するとともに、タップ生成
部64Eが、残差コードブック記憶部63Eから供給さ
れる復号残差信号から、残差信号についての予測タップ
とクラスタップを構成する。線形予測係数についてのク
ラスタップは、クラス分類部65Aに供給され、予測タ
ップは、正規方程式加算回路66Aに供給される。ま
た、残差信号についてのクラスタップは、クラス分類部
65Eに供給され、予測タップは、正規方程式加算回路
66Eに供給される。
Then, the process proceeds to step S12, where the tap generation section 64A constructs a prediction tap and a class tap for the linear prediction coefficient from the decoded linear prediction coefficients supplied from the filter coefficient decoder 63A, and generates the tap generation section 64E. Form prediction taps and class taps for the residual signal from the decoded residual signal supplied from the residual codebook storage unit 63E. The class tap for the linear prediction coefficient is supplied to the classifying unit 65A, and the prediction tap is supplied to the normal equation adding circuit 66A. The class tap for the residual signal is supplied to the classifying unit 65E, and the prediction tap is supplied to the normal equation adding circuit 66E.

【0142】その後、ステップS13において、クラス
分類部65Aが、線形予測係数についてのクラスタップ
に基づいて、クラス分類を行い、その結果得られるクラ
スコードを、正規方程式加算回路66Aに供給するとと
もに、クラス分類部65Eが、残差信号についてのクラ
スタップに基づいて、クラス分類を行い、その結果得ら
れるクラスコードを、正規方程式加算回路66Eに供給
する。
Thereafter, in step S13, the class classifying section 65A classifies the class based on the class tap for the linear prediction coefficient, and supplies the resulting class code to the normal equation adding circuit 66A. The classifying section 65E classifies the residual signal based on the class tap, and supplies the resulting class code to the normal equation adding circuit 66E.

【0143】そして、ステップS14に進み、正規方程
式加算回路66Aは、LPC分析部61Aからの教師デ
ータとしての注目フレームの線形予測係数、およびタッ
プ生成部64Aからの生徒データとしての予測タップ
(を構成する復号線形予測係数)を対象として、式(1
3)の行列Aとベクトルvの、上述したような足し込み
を行う。さらに、ステップS14では、正規方程式加算
回路66Eが、予測フィルタ61Eからの教師データと
しての注目フレームの残差信号、およびタップ生成部6
4Eからの生徒データとしての予測タップ(を構成する
復号残差信号)を対象として、式(13)の行列Aとベ
クトルvの、上述したような足し込みを行い、ステップ
S15に進む。
In step S14, the normal equation adding circuit 66A constructs the linear prediction coefficient of the frame of interest as the teacher data from the LPC analysis section 61A and the prediction tap (the student data from the tap generation section 64A). (1), the equation (1)
3) Addition of the matrix A and the vector v as described above is performed. Further, in step S14, the normal equation addition circuit 66E outputs the residual signal of the frame of interest as teacher data from the prediction filter 61E and the tap generation unit 6
The above-described addition of the matrix A of Expression (13) and the vector v is performed on the prediction tap (the decoded residual signal constituting the prediction tap) as the student data from 4E, and the process proceeds to Step S15.

【0144】ステップS15では、まだ、注目フレーム
として処理すべきフレームの学習用の音声信号があるか
どうかが判定される。ステップS15において、まだ、
注目フレームとして処理すべきフレームの学習用の音声
信号があると判定された場合、ステップS11に戻り、
次のフレームを新たに注目フレームとして、以下、同様
の処理が繰り返される。
In step S15, it is determined whether there is still a speech signal for learning a frame to be processed as the frame of interest. In step S15,
If it is determined that there is an audio signal for learning of a frame to be processed as the frame of interest, the process returns to step S11,
With the next frame as a new frame of interest, the same processing is repeated thereafter.

【0145】また、ステップS15において、注目フレ
ームとして処理すべきフレームの学習用の音声信号がな
いと判定された場合、即ち、正規方程式加算回路66A
と66Eにおいて、各クラスについて、正規方程式が得
られた場合、ステップS16に進み、タップ係数決定回
路67Aは、各クラスごとに生成された正規方程式を解
くことにより、各クラスごとに、線形予測係数について
のタップ係数を求め、係数メモリ68Aの、各クラスに
対応するアドレスに供給して記憶させる。さらに、タッ
プ係数決定回路67Eも、各クラスごとに生成された正
規方程式を解くことにより、各クラスごとに、残差信号
についてのタップ係数を求め、係数メモリ68Eの、各
クラスに対応するアドレスに供給して記憶させ、処理を
終了する。
If it is determined in step S15 that there is no audio signal for learning the frame to be processed as the frame of interest, that is, the normal equation adding circuit 66A
If the normal equation is obtained for each class in steps E and E, the process proceeds to step S16, where the tap coefficient determination circuit 67A solves the normal equation generated for each class, thereby obtaining a linear prediction coefficient for each class. Are obtained and supplied to and stored in the coefficient memory 68A at addresses corresponding to the respective classes. Further, the tap coefficient determination circuit 67E also solves the normal equation generated for each class to obtain a tap coefficient for the residual signal for each class, and stores the tap coefficient in the coefficient memory 68E in an address corresponding to each class. The data is supplied and stored, and the process ends.

【0146】以上のようにして、係数メモリ68Aに記
憶された各クラスごとの線形予測係数についてのタップ
係数が、図3の係数メモリ45Aに記憶されているとと
もに、係数メモリ68Eに記憶された各クラスごとの残
差信号についてのタップ係数が、図3の係数メモリ45
Eに記憶されている。
As described above, the tap coefficients for the linear prediction coefficients for each class stored in the coefficient memory 68A are stored in the coefficient memory 45A of FIG. The tap coefficient for the residual signal for each class is stored in the coefficient memory 45 of FIG.
E.

【0147】従って、図3の係数メモリ45Aに記憶さ
れたタップ係数は、線形予測演算を行うことにより得ら
れる真の線形予測係数の予測値の予測誤差(ここでは、
自乗誤差)が、統計的に最小になるように学習を行うこ
とにより求められたものであり、また、係数メモリ45
Eに記憶されたタップ係数も、線形予測演算を行うこと
により得られる真の残差信号の予測値の予測誤差(自乗
誤差)が、統計的に最小になるように学習を行うことに
より求められたものであるから、図3の予測部46Aと
46Eが出力する線形予測係数と残差信号は、それぞれ
真の線形予測係数と残差信号にほぼ一致することとな
り、その結果、これらの線形予測係数と残差信号によっ
て生成される合成音は、歪みの少ない、高音質のものと
なる。
Therefore, the tap coefficients stored in the coefficient memory 45A of FIG. 3 are the prediction errors (here, the prediction errors of the prediction values of the true linear prediction coefficients obtained by performing the linear prediction operation).
(Square error) is obtained by performing learning so as to be statistically minimized.
The tap coefficient stored in E is also obtained by learning so that the prediction error (square error) of the predicted value of the true residual signal obtained by performing the linear prediction operation is statistically minimized. Therefore, the linear prediction coefficient and the residual signal output by the prediction units 46A and 46E in FIG. 3 substantially match the true linear prediction coefficient and the residual signal, respectively. As a result, these linear prediction coefficients The synthesized sound generated by the coefficient and the residual signal has low distortion and high sound quality.

【0148】なお、図3の音声合成装置において、上述
したように、例えば、タップ生成部43Aに、復号線形
予測係数と復号残差信号との両方から、線形予測係数の
クラスタップや予測タップを抽出させるようにする場合
には、図6のタップ生成部64Aにも、復号線形予測係
数と復号残差信号との両方から、線形予測係数のクラス
タップや予測タップを抽出させるようにする必要があ
る。タップ生成部64Eについても同様である。
In the speech synthesizer shown in FIG. 3, as described above, for example, the tap generation unit 43A outputs the class tap and the prediction tap of the linear prediction coefficient from both the decoded linear prediction coefficient and the decoded residual signal. In the case where the taps are extracted, it is necessary that the tap generation unit 64A of FIG. 6 also extract the class tap and the prediction tap of the linear prediction coefficient from both the decoded linear prediction coefficient and the decoded residual signal. is there. The same applies to the tap generation unit 64E.

【0149】また、図3の音声合成装置において、上述
したように、タップ生成部43Aと43E、クラス分類
部44Aと44E、係数メモリ45Aと45Eを、ぞれ
ぞれ一体的に構成する場合には、図6の学習装置におい
ても、タップ生成部64Aと64E、クラス分類部65
Aと65E、正規方程式加算回路66Aと66E、タッ
プ係数決定回路67Aと67E、係数メモリ68Aと6
8Eを、ぞれぞれ一体的に構成する必要がある。この場
合、正規方程式加算回路66Aと66Eを一体的に構成
した正規方程式加算回路では、LPC分析部61Aが出
力する線形予測係数と、予測フィルタ61Eが出力する
残差信号との両方を、一度に、教師データとするととも
に、フィルタ係数復号器63Aが出力する復号線形予測
係数と、残差コードブック記憶部63Eが出力する復号
残差信号との両方を、一度に、生徒データとして、正規
方程式がたてられ、タップ係数決定回路67Aと67E
とを一体的に構成したタップ係数決定回路では、その正
規方程式を解くことにより、クラスごとの、線形予測係
数と残差信号それぞれについてのタップ係数が、一度に
求められる。
In the speech synthesizer shown in FIG. 3, when the tap generators 43A and 43E, the classifiers 44A and 44E, and the coefficient memories 45A and 45E are integrally formed, as described above. 6, the tap generators 64A and 64E, the classifier 65
A and 65E, normal equation addition circuits 66A and 66E, tap coefficient determination circuits 67A and 67E, coefficient memories 68A and 6
8E must be integrally formed. In this case, in the normal equation adding circuit in which the normal equation adding circuits 66A and 66E are integrally formed, both the linear prediction coefficient output from the LPC analysis unit 61A and the residual signal output from the prediction filter 61E are simultaneously output. In addition to the teacher data, both the decoded linear prediction coefficient output from the filter coefficient decoder 63A and the decoded residual signal output from the residual codebook storage unit 63E are used as student data at once, and the normal equation is Tap coefficient determination circuits 67A and 67E
In the tap coefficient determination circuit integrally configured with the above, the tap coefficient for each of the linear prediction coefficient and the residual signal for each class is obtained at once by solving the normal equation.

【0150】次に、図9は、本発明を適用した伝送シス
テム(システムとは、複数の装置が論理的に集合した物
をいい、各構成の装置が同一筐体中にあるか否かは問わ
ない)の一実施の形態の構成を示している。
Next, FIG. 9 shows a transmission system to which the present invention is applied (a system refers to a device in which a plurality of devices are logically assembled, and it is determined whether or not the devices of each configuration are in the same housing. (Regardless of the present invention).

【0151】この伝送システムでは、携帯電話機811
と812が、基地局821と822それぞれとの間で、無
線による通信を行うとともに、基地局821と822それ
ぞれが、交換局83との間で通信を行うことにより、最
終的には、携帯電話機811と812との間において、基
地局821および822、並びに交換局83を介して、音
声の送受信を行うことができるようになっている。な
お、基地局821と822は、同一の基地局であっても良
いし、異なる基地局であっても良い。
In this transmission system, the portable telephone 811
When 812, between the base station 821 and 822, respectively, performs communication by radio, each base station 821 and 822, by communicating with the switching center 83, the final In this configuration, voice can be transmitted and received between the mobile phones 811 and 812 via the base stations 821 and 822 and the exchange 83. Note that the base stations 821 and 822 may be the same base station or different base stations.

【0152】ここで、以下、特に区別する必要がない限
り、携帯電話機811と812を、携帯電話機81と記述
する。
Here, the portable telephones 811 and 812 will be described as the portable telephone 81 unless it is particularly necessary to distinguish them.

【0153】図10は、図9の携帯電話機81の構成例
を示している。
FIG. 10 shows a configuration example of the mobile phone 81 of FIG.

【0154】アンテナ91は、基地局821または822
からの電波を受信し、その受信信号を、変復調部92に
供給するとともに、変復調部92からの信号を、電波
で、基地局821または822に送信する。変復調部92
は、アンテナ91からの信号を復調し、その結果得られ
る、図1で説明したようなコードデータを、受信部94
に供給する。また、変復調部92は、送信部93から供
給される、図1で説明したようなコードデータを変調
し、その結果得られる変調信号を、アンテナ91に供給
する。送信部93は、図1に示した送信部と同様に構成
され、そこに入力されるユーザの音声を、コードデータ
に符号化して、変復調部92に供給する。受信部94
は、変復調部92からのコードデータを受信し、そのコ
ードデータから、図3の音声合成装置における場合と同
様の高音質の音声を復号して出力する。
The antenna 91 is connected to the base station 821 or 822
It receives signals from, and transmits the received signal, and supplies the modem unit 92, a signal from the modem unit 92, a radio wave, the base station 821 or 822. Modem 92
Demodulates the signal from the antenna 91 and converts the resulting code data as described in FIG.
To supply. The modulation / demodulation unit 92 modulates the code data supplied from the transmission unit 93 as described with reference to FIG. 1, and supplies the resulting modulated signal to the antenna 91. The transmitting unit 93 is configured similarly to the transmitting unit shown in FIG. 1, encodes the user's voice input thereto into code data, and supplies the code data to the modem unit 92. Receiver 94
Receives the code data from the modulation / demodulation unit 92, decodes the code data, and decodes and outputs the same high-quality sound as in the speech synthesizer in FIG.

【0155】即ち、図11は、図10の受信部94の構
成例を示している。なお、図中、図2における場合と対
応する部分については、同一の符号を付してあり、以下
では、その説明は、適宜省略する。
FIG. 11 shows an example of the configuration of the receiving section 94 shown in FIG. In the figure, portions corresponding to those in FIG. 2 are denoted by the same reference numerals, and a description thereof will be omitted as appropriate below.

【0156】タップ生成部101には、チャネルデコー
ダ21が出力する、フレーム(またはサブフレーム)ご
とのLコード、Gコード、Iコード、およびAコードが
供給されるようになっており、タップ生成部101は、
そのLコード、Gコード、Iコード、およびAコードか
ら、クラスタップとするものを抽出し、クラス分類部1
04に供給する。ここで、タップ生成部101が生成す
るような、レコード等で構成されるクラスタップを、以
下、適宜、第1のクラスタップという。
The L code, the G code, the I code, and the A code for each frame (or subframe) output from the channel decoder 21 are supplied to the tap generation unit 101. 101 is
From the L code, G code, I code, and A code, a class tap is extracted, and the class
04. Here, a class tap composed of records and the like generated by the tap generation unit 101 is hereinafter appropriately referred to as a first class tap.

【0157】タップ生成部102には、演算器28が出
力する、フレーム(またはサブフレーム)ごとの残差信
号eが供給されるようになっており、タップ生成部10
2は、その残差信号から、クラスタップとするもの(サ
ンプル点)を抽出し、クラス分類部104に供給する。
さらに、タップ生成部102は、演算器28からの残差
信号から、予測タップとするものを抽出し、予測部10
6に供給する。ここで、タップ生成部102が生成する
ような、残差信号で構成されるクラスタップを、以下、
適宜、第2のクラスタップという。
The tap generator 102 is supplied with the residual signal e for each frame (or subframe) output from the arithmetic unit 28.
2 extracts a class tap (sample point) from the residual signal and supplies it to the classifying unit 104.
Further, the tap generation unit 102 extracts, from the residual signal from the arithmetic unit 28, what is to be a prediction tap,
6 Here, a class tap constituted by a residual signal, such as that generated by the tap generation unit 102, will be described below.
Where appropriate, referred to as a second class tap.

【0158】タップ生成部103には、フィルタ係数復
号器25が出力する、フレームごとの線形予測係数αp
が供給されるようになっており、タップ生成部103
は、その線形予測係数から、クラスタップとするものを
抽出し、クラス分類部104に供給する。さらに、タッ
プ生成部103は、フィルタ係数復号器25からの線形
予測係数から、予測タップとするものを抽出し、予測部
107に供給する。ここで、タップ生成部103が生成
するような、線形予測係数で構成されるクラスタップ
を、以下、適宜、第3のクラスタップという。
The tap generation unit 103 outputs the linear prediction coefficient αp for each frame output from the filter coefficient decoder 25.
Is supplied, and the tap generation unit 103
Extracts a class tap from the linear prediction coefficients and supplies the class tap to the class classification unit 104. Further, the tap generation unit 103 extracts a prediction tap from the linear prediction coefficients from the filter coefficient decoder 25, and supplies the prediction tap to the prediction unit 107. Here, a class tap constituted by linear prediction coefficients generated by the tap generation unit 103 is hereinafter appropriately referred to as a third class tap.

【0159】クラス分類部104は、タップ生成部10
1乃至103それぞれから供給される第1乃至第3のク
ラスタップをまとめて、最終的なクラスタップとし、そ
の最終的なクラスタップに基づいて、クラス分類を行
い、そのクラス分類結果としてのクラスコードを、係数
メモリ105に供給する。
The classifying section 104 includes the tap generating section 10
The first to third class taps supplied from the respective 1 to 103 are collectively referred to as a final class tap, a class is classified based on the final class tap, and a class code as a result of the classification is obtained. Is supplied to the coefficient memory 105.

【0160】係数メモリ105は、後述する図12の学
習装置において学習処理が行われることにより得られ
る、クラスごとの線形予測係数についてのタップ係数
と、残差信号についてのタップ係数を記憶しており、ク
ラス分類部104が出力するクラスコードに対応するア
ドレスに記憶されているタップ係数を、予測部106と
107に供給する。なお、係数メモリ105から予測部
106に対しては、残差信号についてのタップ係数We
が供給され、係数メモリ105から予測部107に対し
ては、線形予測係数についてのタップ係数Waが供給さ
れる。
The coefficient memory 105 stores tap coefficients for the linear prediction coefficients for each class and tap coefficients for the residual signal, which are obtained by performing a learning process in the learning apparatus shown in FIG. The tap coefficients stored at the addresses corresponding to the class codes output from the class classification unit 104 are supplied to the prediction units 106 and 107. Note that the tap coefficient We for the residual signal is sent from the coefficient memory 105 to the prediction unit 106.
Is supplied from the coefficient memory 105 to the prediction unit 107 with the tap coefficient Wa for the linear prediction coefficient.

【0161】予測部106は、図3の予測部46Eと同
様に、タップ生成部102が出力する予測タップと、係
数メモリ105が出力する残差信号についてのタップ係
数とを取得し、その予測タップとタップ係数とを用い
て、式(6)に示した線形予測演算を行う。これによ
り、予測部106は、注目フレームの残差信号(の予測
値)emを求めて、音声合成フィルタ29に、入力信号
として供給する。
The prediction unit 106 acquires the prediction tap output from the tap generation unit 102 and the tap coefficient for the residual signal output from the coefficient memory 105, similarly to the prediction unit 46E of FIG. The linear prediction operation shown in Expression (6) is performed using the and the tap coefficients. Accordingly, the prediction unit 106 obtains (predicted value of) the residual signal em of the frame of interest and supplies it to the speech synthesis filter 29 as an input signal.

【0162】予測部107は、図3の予測部46Aと同
様に、タップ生成部103が出力する予測タップと、係
数メモリ105が出力する線形予測係数についてのタッ
プ係数とを取得し、その予測タップとタップ係数とを用
いて、式(6)に示した線形予測演算を行う。これによ
り、予測部107は、注目フレームの線形予測係数(の
予測値)mαpを求めて、音声合成フィルタ29に供給
する。
The prediction unit 107 acquires the prediction tap output from the tap generation unit 103 and the tap coefficient for the linear prediction coefficient output from the coefficient memory 105, similarly to the prediction unit 46A of FIG. The linear prediction operation shown in Expression (6) is performed using the and the tap coefficients. Accordingly, the prediction unit 107 obtains (a predicted value of) the linear prediction coefficient mαp of the frame of interest, and supplies it to the speech synthesis filter 29.

【0163】以上のように構成される受信部94では、
基本的には、図5に示したフローチャートにしたがった
処理と同様の処理が行われることで、高音質の合成音
が、音声の復号結果として出力される。
In the receiving unit 94 configured as described above,
Basically, the same processing as the processing according to the flowchart shown in FIG. 5 is performed, so that a high-quality synthesized sound is output as a decoded sound.

【0164】即ち、チャネルデコーダ21は、そこに供
給されるコードデータから、Lコード、Gコード、Iコ
ード、Aコードを分離し、それぞれを、適応コードブッ
ク記憶部22、ゲイン復号器23、励起コードブック記
憶部24、フィルタ係数復号器25に供給する。さら
に、Lコード、Gコード、Iコード、およびAコード
は、タップ生成部101にも供給される。
That is, the channel decoder 21 separates the L code, the G code, the I code, and the A code from the code data supplied thereto, and separates them into the adaptive codebook storage unit 22, the gain decoder 23, It is supplied to the codebook storage unit 24 and the filter coefficient decoder 25. Further, the L code, the G code, the I code, and the A code are also supplied to the tap generation unit 101.

【0165】そして、適応コードブック記憶部22、ゲ
イン復号器23、励起コードブック記憶部24、演算器
26乃至28では、図1の適応コードブック記憶部9、
ゲイン復号器10、励起コードブック記憶部11、演算
器12乃至14における場合と同様の処理が行われ、こ
れにより、Lコード、Gコード、およびIコードが、残
差信号eに復号される。この復号残差信号は、演算器2
8からタップ生成部102に供給される。
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 include the adaptive codebook storage unit 9 shown in FIG.
The same processing as in the gain decoder 10, the excitation codebook storage unit 11, and the arithmetic units 12 to 14 is performed, whereby the L code, the G code, and the I code are decoded into the residual signal e. This decoded residual signal is calculated by
8 to the tap generation unit 102.

【0166】さらに、フィルタ係数復号器25は、図1
で説明したように、そこに供給されるAコードを、復号
線形予測係数に復号し、タップ生成部103に供給す
る。
Further, the filter coefficient decoder 25 has the configuration shown in FIG.
As described in, the A code supplied thereto is decoded into decoded linear prediction coefficients and supplied to the tap generation unit 103.

【0167】タップ生成部101は、そこに供給される
Lコード、Gコード、Iコード、およびAコードのフレ
ームを、順次、注目フレームとし、ステップS1(図
5)において、チャネルデコーダ21からのLコード、
Gコード、Iコード、およびAコードから、第1のクラ
スタップを生成し、クラス分類部104に供給する。さ
らに、ステップS1では、タップ生成部102が、演算
器28からの復号残差信号から、第2のクラスタップを
生成し、クラス分類部104に供給するとともに、タッ
プ生成部103が、フィルタ係数復号器25からの線形
予測係数から、第3のクラスタップを生成し、クラス分
類部104に供給する。また、ステップS1では、タッ
プ生成部102が、演算器28からの残差信号から、予
測タップとするものを抽出し、予測部106に供給する
とともに、タップ生成部103が、フィルタ係数復号器
25からの線形予測係数から、予測タップを生成し、予
測部107に供給する。
The tap generation unit 101 sequentially sets the L code, G code, I code, and A code frames supplied thereto as frames of interest, and in step S1 (FIG. 5), outputs the L code from the channel decoder 21. code,
A first class tap is generated from the G code, the I code, and the A code, and supplied to the class classification unit 104. Further, in step S1, the tap generation unit 102 generates a second class tap from the decoded residual signal from the arithmetic unit 28 and supplies the second class tap to the class classification unit 104. A third class tap is generated from the linear prediction coefficient from the unit 25 and supplied to the class classification unit 104. In step S1, the tap generation unit 102 extracts a prediction tap from the residual signal from the arithmetic unit 28 and supplies the prediction tap to the prediction unit 106. A prediction tap is generated from the linear prediction coefficient from, and is supplied to the prediction unit 107.

【0168】そして、ステップS2に進み、クラス分類
部104は、タップ生成部101乃至103それぞれか
ら供給される第1乃至第3のクラスタップをまとめた、
最終的なクラスタップに基づいて、クラス分類を行い、
その結果得られるクラスコードを、係数メモリ105に
供給して、ステップS3に進む。
Then, the process proceeds to a step S2, wherein the classifying section 104 groups the first to third class taps supplied from the tap generating sections 101 to 103, respectively.
Classify based on the final class tap,
The resulting class code is supplied to the coefficient memory 105, and the process proceeds to step S3.

【0169】ステップS3では、係数メモリ105は、
クラス分類部104から供給されるクラスコードに対応
するアドレスから、残差信号と線形予測係数それぞれに
ついてのタップ係数を読み出し、残差信号についてのタ
ップ係数を、予測部106に供給するとともに、線形予
測係数についてのタップ係数を、予測部107に供給す
る。
In step S3, the coefficient memory 105 stores
A tap coefficient for each of the residual signal and the linear prediction coefficient is read from an address corresponding to the class code supplied from the class classification unit 104, and a tap coefficient for the residual signal is supplied to the prediction unit 106 and the linear prediction is performed. The tap coefficients for the coefficients are supplied to the prediction unit 107.

【0170】そして、ステップS4に進み、予測部10
6は、係数メモリ105が出力する残差信号についての
タップ係数を取得し、そのタップ係数と、タップ生成部
102からの予測タップとを用いて、式(6)に示した
積和演算を行い、注目フレームの真の残差信号(の予測
値)を得る。さらに、ステップS4では、予測部107
は、係数メモリ105が出力する線形予測係数について
のタップ係数を取得し、そのタップ係数と、タップ生成
部103からの予測タップとを用いて、式(6)に示し
た積和演算を行い、注目フレームの真の線形予測係数
(の予測値)を得る。
Then, the process proceeds to a step S4, wherein the prediction section 10
6 obtains a tap coefficient for the residual signal output from the coefficient memory 105, and performs the product-sum operation shown in Expression (6) using the tap coefficient and the prediction tap from the tap generation unit 102. , The true residual signal (predicted value) of the frame of interest. Further, in step S4, the prediction unit 107
Obtains tap coefficients for the linear prediction coefficients output from the coefficient memory 105, and performs the product-sum operation shown in Expression (6) using the tap coefficients and the prediction taps from the tap generation unit 103. The (true predicted value) of the true linear prediction coefficient of the frame of interest is obtained.

【0171】以上のようにして得られた残差信号および
線形予測係数は、音声合成フィルタ29に供給され、音
声合成フィルタ29では、その残差信号および線形予測
係数を用いて、式(4)の演算が行われることにより、
注目フレームの合成音信号が生成される。この合成音信
号は、音声合成フィルタ29から、D/A変換部30を
介して、スピーカ31に供給され、これにより、スピー
カ31からは、その合成音信号に対応する合成音が出力
される。
The residual signal and the linear prediction coefficient obtained as described above are supplied to a speech synthesis filter 29. The speech synthesis filter 29 uses the residual signal and the linear prediction coefficient to obtain the equation (4) Is calculated,
A synthesized sound signal of the frame of interest is generated. The synthesized sound signal is supplied from the voice synthesis filter 29 to the speaker 31 via the D / A conversion unit 30. As a result, the speaker 31 outputs a synthesized sound corresponding to the synthesized sound signal.

【0172】予測部106と107において、残差信号
と線形予測係数がそれぞれ得られた後は、ステップS5
に進み、まだ、注目フレームとして処理すべきフレーム
のLコード、Gコード、Iコード、およびAコードがあ
るかどうかが判定される。ステップS5において、ま
だ、注目フレームとして処理すべきフレームのLコー
ド、Gコード、Iコード、およびAコードがあると判定
された場合、ステップS1に戻り、次に注目フレームと
すべきフレームを、新たに注目フレームとして、以下、
同様の処理を繰り返す。また、ステップS5において、
注目フレームとして処理すべきフレームのLコード、G
コード、Iコード、およびAコードがないと判定された
場合、処理を終了する。
After the prediction units 106 and 107 obtain the residual signal and the linear prediction coefficient, respectively, step S5
It is determined whether there is still an L code, a G code, an I code, and an A code of the frame to be processed as the frame of interest. If it is determined in step S5 that there are still L codes, G codes, I codes, and A codes of the frames to be processed as the frame of interest, the process returns to step S1, and the frame to be the next frame of interest is newly set. In the following,
The same processing is repeated. Also, in step S5,
L code, G of the frame to be processed as the frame of interest
If it is determined that there is no code, I code, and A code, the process ends.

【0173】次に、図12は、図11の係数メモリ10
5に記憶させるタップ係数の学習処理を行う学習装置の
一実施の形態の構成例を示している。
Next, FIG. 12 shows the coefficient memory 10 of FIG.
5 shows a configuration example of an embodiment of a learning device that performs a learning process of a tap coefficient stored in No. 5;

【0174】マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15とそれぞれ同様に
構成される。そして、マイク201には、学習用の音声
信号が入力されるようになっており、従って、マイク2
01乃至コード決定部215では、その学習用の音声信
号に対して、図1における場合と同様の処理が施され
る。
The microphone 201 through the code determination unit 215
The configuration is the same as that of the microphone 1 to the code determination unit 15 in FIG. The microphone 201 receives a learning audio signal.
In the 01 to chord determination unit 215, the same processing as in FIG. 1 is performed on the learning audio signal.

【0175】そして、予測フィルタ111Eには、A/
D変換部202が出力する、ディジタル信号とされた学
習用の音声信号と、LPC分析部204が出力する線形
予測係数が供給される。また、タップ生成部112Aに
は、ベクトル量子化部205が出力する線形予測係数
(ベクトル量子化に用いられるコードブックのコードベ
クトル(セントロイドベクトル)を構成する線形予測係
数)が供給され、タップ生成部112Eには、演算器2
14が出力する残差信号(音声合成フィルタ206に供
給されるのと同一の残差信号)が供給される。さらに、
正規方程式加算回路114Aには、LPC分析部204
が出力する線形予測係数が供給され、タップ生成部11
7には、コード決定部215が出力するLコード、Gコ
ード、Iコード、およびAコードが供給される。
The prediction filter 111E includes A /
A learning audio signal converted into a digital signal and output from the D conversion unit 202 and a linear prediction coefficient output from the LPC analysis unit 204 are supplied. The tap generation unit 112A is supplied with linear prediction coefficients (linear prediction coefficients constituting a code vector (centroid vector) of a codebook used for vector quantization) output from the vector quantization unit 205, and generates taps. The operation unit 2 is included in the unit 112E.
The residual signal (the same residual signal as that supplied to the speech synthesis filter 206) output by 14 is supplied. further,
The normal equation addition circuit 114A includes an LPC analysis unit 204
Are supplied, and the tap generation unit 11
7, the L code, the G code, the I code, and the A code output from the code determination unit 215 are supplied.

【0176】予測フィルタ111Eは、A/D変換部2
02から供給される学習用の音声信号のフレームを、順
次、注目フレームとして、その注目フレームの音声信号
と、LPC分析部204から供給される線形予測係数を
用いて、例えば、式(1)にしたがった演算を行うこと
により、注目フレームの残差信号を求める。この残差信
号は、教師データとして、正規方程式加算回路114E
に供給される。
The prediction filter 111E includes an A / D converter 2
The frames of the audio signal for learning supplied from 02 are sequentially set as a frame of interest, using the audio signal of the frame of interest and the linear prediction coefficient supplied from the LPC analysis unit 204, for example, to equation (1) By performing the calculation according to the above, the residual signal of the frame of interest is obtained. The residual signal is used as teacher data as a normal equation addition circuit 114E.
Supplied to

【0177】タップ生成部112Aは、ベクトル量子化
部205から供給される線形予測係数から、図11のタ
ップ生成部103における場合と同一の予測タップと第
3のクラスタップを構成し、第3のクラスタップを、ク
ラス分類部113Aおよび113Eに供給するととも
に、予測タップを、正規方程式加算回路114Aに供給
する。
The tap generation section 112A forms the same prediction tap and third class tap as in the tap generation section 103 in FIG. 11 from the linear prediction coefficients supplied from the vector quantization section 205, The class tap is supplied to the classifying units 113A and 113E, and the prediction tap is supplied to the normal equation adding circuit 114A.

【0178】タップ生成部112Eは、演算器214か
ら供給される残差信号から、図11のタップ生成部10
2における場合と同一の予測タップと第2のクラスタッ
プを構成し、第2のクラスタップを、クラス分類部11
3Aおよび113Eに供給するとともに、予測タップ
を、正規方程式加算回路114Eに供給する。
The tap generating section 112E calculates the tap signal of the tap generating section 10 shown in FIG.
2 and the same prediction tap and the second class tap as in the case of FIG.
The prediction tap is supplied to the normal equation addition circuit 114E while being supplied to 3A and 113E.

【0179】クラス分類部113Aおよび113Eに
は、タップ生成部112Aと112Eから、それぞれ第
3と第2のクラスタップが供給される他、タップ生成部
117から第1のクラスタップも供給される。そして、
クラス分類部113Aと113Eは、図11のクラス分
類部104における場合と同様に、そこに供給される第
1乃至第3のクラスタップをまとめて、最終的なクラス
タップとし、その最終的なクラスタップに基づいて、ク
ラス分類を行い、その結果得られるクラスコードを、正
規方程式加算回路114Aと114Eに、それぞれ供給
する。
To the classifying units 113A and 113E, the third and second class taps are supplied from the tap generating units 112A and 112E, respectively, and the first class tap is also supplied from the tap generating unit 117. And
As in the case of the classifying unit 104 in FIG. 11, the classifying units 113A and 113E combine the first to third class taps supplied thereto to form a final class tap, and Classification is performed based on the taps, and the resulting class code is supplied to normal equation addition circuits 114A and 114E, respectively.

【0180】正規方程式加算回路114Aは、LPC分
析部204からの注目フレームの線形予測係数を、教師
データとして受信するとともに、タップ生成部112A
からの予測タップを、生徒データとして受信し、その教
師データおよび生徒データを対象として、クラス分類部
113Aからのクラスコードごとに、図6の正規方程式
加算回路66Aにおける場合と同様の足し込みを行うこ
とにより、各クラスについて、線形予測係数に関する式
(13)に示した正規方程式をたてる。正規方程式加算
回路114Eは、予測フィルタ111Eからの注目フレ
ームの残差信号を、教師データとして受信するととも
に、タップ生成部112Eからの予測タップを、生徒デ
ータとして受信し、その教師データおよび生徒データを
対象として、クラス分類部113Eからのクラスコード
ごとに、図6の正規方程式加算回路66Eにおける場合
と同様の足し込みを行うことにより、各クラスについ
て、残差信号に関する式(13)に示した正規方程式を
たてる。
The normal equation adding circuit 114A receives the linear prediction coefficient of the frame of interest from the LPC analysis section 204 as teacher data, and also generates the tap generation section 112A.
Is received as student data, and the same addition as in the normal equation adding circuit 66A of FIG. 6 is performed on the teacher data and student data for each class code from the class classification unit 113A. Thus, for each class, the normal equation shown in Expression (13) for the linear prediction coefficient is established. The normal equation adding circuit 114E receives the residual signal of the frame of interest from the prediction filter 111E as teacher data, receives the prediction tap from the tap generator 112E as student data, and outputs the teacher data and student data. As an object, the same addition as in the normal equation adding circuit 66E of FIG. 6 is performed for each class code from the class classification unit 113E, so that the normal signal shown in the equation (13) for the residual signal is obtained for each class. Make an equation.

【0181】タップ係数決定回路115Aと115E
は、正規方程式加算回路114Aと114Eにおいてク
ラスごとに生成された正規方程式それぞれを解くことに
より、クラスごとに、線形予測係数と残差信号について
のタップ係数をそれぞれ求め、係数メモリ116Aと1
16Eの、各クラスに対応するアドレスにそれぞれ供給
する。
Tap coefficient determination circuits 115A and 115E
Solves each of the normal equations generated for each class in the normal equation addition circuits 114A and 114E, thereby obtaining a linear prediction coefficient and a tap coefficient for the residual signal for each class.
16E to the addresses corresponding to each class.

【0182】なお、学習用の音声信号として用意する音
声信号によっては、正規方程式加算回路114Aや11
4Eにおいて、タップ係数を求めるのに必要な数の正規
方程式が得られないクラスが生じる場合があり得るが、
タップ係数決定回路115Aと115Eは、そのような
クラスについては、例えば、デフォルトのタップ係数を
出力する。
Depending on the audio signal prepared as the audio signal for learning, the normal equation addition circuit 114A or 11
In 4E, there may be a case where a class in which the necessary number of normal equations for obtaining the tap coefficients cannot be obtained occurs.
For such a class, the tap coefficient determination circuits 115A and 115E output, for example, default tap coefficients.

【0183】係数メモリ116Aと116Eは、タップ
係数決定回路115Aと115Eから、それぞれ供給さ
れるクラスごとの線形予測係数と残差信号についてのタ
ップ係数を、それぞれ記憶する。
The coefficient memories 116A and 116E store the linear prediction coefficients for each class and the tap coefficients for the residual signal supplied from the tap coefficient determination circuits 115A and 115E, respectively.

【0184】タップ生成部117は、コード決定部21
5から供給されるLコード、Gコード、Iコード、およ
びAコードから、図11のタップ生成部101における
場合と同一の第1のクラスタップを生成し、クラス分類
部113Aおよび113Eに供給する。
[0184] The tap generation section 117
From the L code, G code, I code, and A code supplied from 5, the same first class tap as that in the tap generation unit 101 in FIG. 11 is generated and supplied to the class classification units 113A and 113E.

【0185】以上のように構成される学習装置では、基
本的には、図8に示したフローチャートにしたがった処
理と同様の処理が行われることで、高音質の合成音を得
るためのタップ係数が求められる。
In the learning apparatus configured as described above, basically, the same processing as the processing according to the flowchart shown in FIG. 8 is performed, so that tap coefficients for obtaining a high-quality synthesized sound are obtained. Is required.

【0186】学習装置には、学習用の音声信号が供給さ
れ、ステップS11において、その学習用の音声信号か
ら、教師データと生徒データが生成される。
The learning device is supplied with a learning voice signal, and in step S11, teacher data and student data are generated from the learning voice signal.

【0187】即ち、学習用の音声信号は、マイク201
に入力され、マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15における場合とそ
れぞれ同様の処理を行う。
That is, the audio signal for learning is transmitted from the microphone 201
And the microphone 201 through the code determination unit 215
The same processing as in the case of the microphone 1 to the code determination unit 15 in FIG. 1 is performed.

【0188】その結果、LPC分析部204で得られる
線形予測係数は、教師データとして、正規方程式加算回
路114Aに供給される。また、この線形予測係数は、
予測フィルタ111Eにも供給される。さらに、演算器
214で得られる残差信号は、生徒データとして、タッ
プ生成部112Eに供給される。
As a result, the linear prediction coefficients obtained by the LPC analysis section 204 are supplied to the normal equation adding circuit 114A as teacher data. Also, this linear prediction coefficient is
It is also supplied to the prediction filter 111E. Further, the residual signal obtained by the calculator 214 is supplied to the tap generator 112E as student data.

【0189】また、A/D変換部202が出力するディ
ジタルの音声信号は、予測フィルタ111Eに供給さ
れ、ベクトル量子化部205が出力する線形予測係数
は、生徒データとして、タップ生成部112Aに供給さ
れる。さらに、コード決定部215が出力するLコー
ド、Gコード、Iコード、およびAコードは、タップ生
成部117に供給される。
The digital audio signal output from the A / D converter 202 is supplied to the prediction filter 111E, and the linear prediction coefficient output from the vector quantizer 205 is supplied to the tap generator 112A as student data. Is done. Further, the L code, G code, I code, and A code output by the code determination unit 215 are supplied to the tap generation unit 117.

【0190】そして、予測フィルタ111Eは、A/D
変換部202から供給される学習用の音声信号のフレー
ムを、順次、注目フレームとして、その注目フレームの
音声信号と、LPC分析部204から供給される線形予
測係数を用いて、式(1)にしたがった演算を行うこと
により、注目フレームの残差信号を求める。この予測フ
ィルタ111Eで得られる残差信号は、教師データとし
て、正規方程式加算回路114Eに供給される。
Then, the prediction filter 111E calculates the A / D
The frames of the audio signal for learning supplied from the conversion unit 202 are sequentially set as a frame of interest, and the audio signal of the frame of interest and the linear prediction coefficient supplied from the LPC analysis unit 204 are used to obtain Equation (1). By performing the calculation according to the above, the residual signal of the frame of interest is obtained. The residual signal obtained by the prediction filter 111E is supplied to the normal equation adding circuit 114E as teacher data.

【0191】以上のようにして、教師データと生徒デー
タが得られた後は、ステップS12に進み、タップ生成
部112Aが、ベクトル量子化部205から供給される
線形予測係数から、線形予測係数についての予測タップ
と第3のクラスタップを生成するとともに、タップ生成
部112Eが、演算器214から供給される残差信号か
ら、残差信号についての予測タップと第2のクラスタッ
プを生成する。さらに、ステップS12では、タップ生
成部117が、コード決定部215から供給されるLコ
ード、Gコード、Iコード、およびAコードから、第1
のクラスタップを生成する。
After the teacher data and the student data have been obtained as described above, the process proceeds to step S12, where the tap generation unit 112A calculates the linear prediction coefficient from the linear prediction coefficient supplied from the vector quantization unit 205. , And a tap generation unit 112E generates a prediction tap and a second class tap for the residual signal from the residual signal supplied from the arithmetic unit 214. Further, in step S12, the tap generation unit 117 determines the first code from the L code, G code, I code, and A code supplied from the code determination unit 215.
Generate class taps for.

【0192】線形予測係数についての予測タップは、正
規方程式加算回路114Aに供給され、残差信号につい
ての予測タップは、正規方程式加算回路114Eに供給
される。また、第1乃至第3のクラスタップは、クラス
分類回路113Aおよび113Eに供給される。
The prediction tap for the linear prediction coefficient is supplied to the normal equation addition circuit 114A, and the prediction tap for the residual signal is supplied to the normal equation addition circuit 114E. The first to third class taps are supplied to the classifying circuits 113A and 113E.

【0193】その後、ステップS13において、クラス
分類部113Aと113Eが、第1乃至第3のクラスタ
ップに基づいて、クラス分類を行い、その結果得られる
クラスコードを、正規方程式加算回路114Aと114
Eに、それぞれ供給する。
Thereafter, in step S13, the classifying units 113A and 113E perform class classification based on the first to third class taps, and classify the resulting class codes into normal equation adding circuits 114A and 114A.
E.

【0194】そして、ステップS14に進み、正規方程
式加算回路114Aは、LPC分析部204からの教師
データとしての注目フレームの線形予測係数、およびタ
ップ生成部112Aからの生徒データとしての予測タッ
プを対象として、式(13)の行列Aとベクトルvの、
上述したような足し込みを、クラス分類部113Aから
のクラスコードごとに行う。さらに、ステップS14で
は、正規方程式加算回路114Eが、予測フィルタ11
1Eからの教師データとしての注目フレームの残差信
号、およびタップ生成部112Eからの生徒データとし
ての予測タップを対象として、式(13)の行列Aとベ
クトルvの、上述したような足し込みを、クラス分類部
113Eからのクラスコードごとに行い、ステップS1
5に進む。
Then, proceeding to step S14, the normal equation adding circuit 114A targets the linear prediction coefficient of the frame of interest as the teacher data from the LPC analysis unit 204 and the prediction tap as the student data from the tap generation unit 112A. , Of the matrix A and the vector v in equation (13)
The above-described addition is performed for each class code from the class classification unit 113A. Further, in step S14, the normal equation adding circuit 114E
For the residual signal of the frame of interest as the teacher data from 1E and the prediction tap as the student data from the tap generator 112E, the above-described addition of the matrix A and the vector v of Expression (13) is performed. Is performed for each class code from the class classifying unit 113E, and step S1
Go to 5.

【0195】ステップS15では、まだ、注目フレーム
として処理すべきフレームの学習用の音声信号があるか
どうかが判定される。ステップS15において、まだ、
注目フレームとして処理すべきフレームの学習用の音声
信号があると判定された場合、ステップS11に戻り、
次のフレームを新たに注目フレームとして、以下、同様
の処理が繰り返される。
In step S15, it is determined whether there is still a speech signal for learning a frame to be processed as the frame of interest. In step S15,
If it is determined that there is an audio signal for learning of a frame to be processed as the frame of interest, the process returns to step S11,
With the next frame as a new frame of interest, the same processing is repeated thereafter.

【0196】また、ステップS15において、注目フレ
ームとして処理すべきフレームの学習用の音声信号がな
いと判定された場合、即ち、正規方程式加算回路114
Aと114Eそれぞれにおいて、各クラスについて、正
規方程式が得られた場合、ステップS16に進み、タッ
プ係数決定回路115Aは、各クラスごとに生成された
正規方程式を解くことにより、各クラスごとに、線形予
測係数についてのタップ係数を求め、係数メモリ116
Aの、各クラスに対応するアドレスに供給して記憶させ
る。さらに、タップ係数決定回路115Eも、各クラス
ごとに生成された正規方程式を解くことにより、各クラ
スごとに、残差信号についてのタップ係数を求め、係数
メモリ116Eの、各クラスに対応するアドレスに供給
して記憶させ、処理を終了する。
If it is determined in step S15 that there is no audio signal for learning the frame to be processed as the frame of interest, that is, the normal equation adding circuit 114
When the normal equation is obtained for each class in each of A and 114E, the process proceeds to step S16, where the tap coefficient determination circuit 115A solves the normal equation generated for each class, thereby obtaining a linear equation for each class. The tap coefficients for the prediction coefficients are obtained, and the coefficient memory 116
A is supplied to the address corresponding to each class and stored. Further, the tap coefficient determination circuit 115E also solves the normal equation generated for each class to obtain a tap coefficient for the residual signal for each class, and stores the tap coefficient in the coefficient memory 116E in the address corresponding to each class. The data is supplied and stored, and the process ends.

【0197】以上のようにして、係数メモリ116Aに
記憶された各クラスごとの線形予測係数についてのタッ
プ係数と、係数メモリ116Eに記憶された各クラスご
との残差信号についてのタップ係数が、図11の係数メ
モリ105に記憶されている。
As described above, the tap coefficients for the linear prediction coefficients for each class stored in the coefficient memory 116A and the tap coefficients for the residual signal for each class stored in the coefficient memory 116E are shown in FIG. Eleven coefficient memories 105 are stored.

【0198】従って、図11の係数メモリ105に記憶
されたタップ係数は、線形予測演算を行うことにより得
られる真の線形予測係数や残差信号の予測値の予測誤差
(自乗誤差)が、統計的に最小になるように学習を行う
ことにより求められたものであるから、図11の予測部
106と107が出力する残差信号と線形予測係数は、
それぞれ真の残差信号と線形予測係数にほぼ一致するこ
ととなり、その結果、これらの残差信号と線形予測係数
によって生成される合成音は、歪みの少ない、高音質の
ものとなる。
Accordingly, the tap coefficients stored in the coefficient memory 105 of FIG. 11 are obtained by calculating the true linear prediction coefficient obtained by performing the linear prediction operation and the prediction error (square error) of the prediction value of the residual signal. The residual signal and the linear prediction coefficient output by the prediction units 106 and 107 in FIG. 11 are obtained by performing learning so as to minimize the difference.
The true residual signal and the linear prediction coefficient substantially coincide with each other, and as a result, the synthesized sound generated by the residual signal and the linear prediction coefficient has low distortion and high sound quality.

【0199】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
Next, the above-described series of processing can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is
Installed on a general-purpose computer.

【0200】そこで、図13は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
FIG. 13 shows a configuration example of an embodiment of a computer in which a program for executing the above-described series of processing is installed.

【0201】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク305やROM3
03に予め記録しておくことができる。
A program is stored in a hard disk 305 or a ROM 3 as a recording medium built in the computer.
03 can be recorded in advance.

【0202】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体311に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体311は、いわゆるパッケージソフ
トウエアとして提供することができる。
Alternatively, the program may be a floppy (registered trademark) disk, a CD-ROM (Compact Disc Read Onl
y Memory), MO (Magneto optical) disc, DVD (Digita
l Versatile Disc), a magnetic disk, a semiconductor memory, etc., can be temporarily or permanently stored (recorded) in a removable recording medium 311. Such a removable recording medium 311 can be provided as so-called package software.

【0203】なお、プログラムは、上述したようなリム
ーバブル記録媒体311からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部308で受信し、内蔵するハード
ディスク305にインストールすることができる。
The program can be installed in the computer from the removable recording medium 311 as described above, can be wirelessly transferred from a download site to the computer via an artificial satellite for digital satellite broadcasting, or can be connected to a LAN (Local Area). Network) or the Internet, and the program can be transferred to the computer by wire. The computer can receive the transferred program by the communication unit 308 and install the program on the built-in hard disk 305.

【0204】コンピュータは、CPU(Central Processing
Unit)302を内蔵している。CPU302には、バス3
01を介して、入出力インタフェース310が接続され
ており、CPU302は、入出力インタフェース310を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部307が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)303に格納されているプログラムを実行
する。あるいは、また、CPU302は、ハードディスク
305に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部308で受信されてハー
ドディスク305にインストールされたプログラム、ま
たはドライブ309に装着されたリムーバブル記録媒体
311から読み出されてハードディスク305にインス
トールされたプログラムを、RAM(Random Access Memor
y)304にロードして実行する。これにより、CPU30
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU302は、その処理結果を、必要に応
じて、例えば、入出力インタフェース310を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部306から出力、あるいは、通信部308から
送信、さらには、ハードディスク305に記録等させ
る。
The computer has a CPU (Central Processing).
Unit 302). The CPU 302 has a bus 3
01 is connected to the input / output interface 310 via the input / output interface 310, and the user operates the input unit 307 including a keyboard, a mouse, a microphone, and the like via the input / output interface 310. When a command is input, the ROM (Read O
nly Memory) 303 is executed. Alternatively, the CPU 302 may execute a program stored in the hard disk 305, a program transferred from a satellite or a network, received by the communication unit 308 and installed in the hard disk 305, or a removable recording medium 311 attached to the drive 309. The program read and installed on the hard disk 305 is stored in a RAM (Random Access Memory).
y) Load into 304 and execute. Thereby, the CPU 30
2 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 302 transmits the processing result as necessary, for example, via the input / output interface 310.
An output is made from an output unit 306 composed of an LCD (Liquid CryStal Display), a speaker, or the like, or transmitted from the communication unit 308, and further recorded on the hard disk 305.

【0205】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
Here, in this specification, processing steps for describing a program for causing a computer to perform various processing do not necessarily have to be processed in chronological order in the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0206】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
Further, the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.

【0207】なお、本実施の形態においては、学習用の
音声信号として、どのようなものを用いるかについて
は、特に言及しなかったが、学習用の音声信号として
は、人が発話した音声の他、例えば、曲(音楽)等を採
用することが可能である。そして、上述したような学習
処理によれば、学習用の音声信号として、人の発話を用
いた場合には、そのような人の発話の音声の音質を向上
させるようなタップ係数が得られ、曲を用いた場合に
は、曲の音質を向上させるようなタップ係数が得られる
ことになる。
In this embodiment, no particular reference has been made as to what kind of speech signal to use as a learning speech signal. Alternatively, for example, a song (music) or the like can be adopted. According to the above-described learning process, when a human utterance is used as the learning voice signal, a tap coefficient that improves the sound quality of the voice of such a human utterance is obtained, When a song is used, a tap coefficient that improves the sound quality of the song is obtained.

【0208】また、図11の実施の形態では、係数メモ
リ105には、タップ係数をあらかじめ記憶させておく
ようにしたが、係数メモリ105に記憶させるタップ係
数は、携帯電話機81において、図9の基地局82(あ
るいは交換局83)や、図示しないWWW(World Wide
Web)サーバ等からダウンロードするようにすることがで
きる。即ち、上述したように、タップ係数は、人の発話
用や曲用等のように、ある種類の音声信号に適したもの
を、学習によって得ることができる。さらに、学習に用
いる教師データおよび生徒データによっては、合成音の
音質に差が生じるタップ係数を得ることができる。従っ
て、そのような各種のタップ係数を、基地局82等に記
憶させておき、ユーザには、自身の所望するタップ係数
をダウンロードさせるようにすることができる。そし
て、このようなタップ係数のダウンロードサービスは、
無料で行うこともできるし、有料で行うこともできる。
さらに、タップ係数のダウンロードサービスを有料で行
う場合には、タップ係数のダウンロードに対する対価と
しての代金は、例えば、携帯電話機81の通話料等とと
もに請求するようにすることが可能である。
In the embodiment of FIG. 11, the tap coefficients are stored in advance in the coefficient memory 105. However, the tap coefficients stored in the coefficient memory 105 are the same as those in FIG. The base station 82 (or the exchange 83) or a WWW (World Wide
(Web) It can be downloaded from a server or the like. That is, as described above, a tap coefficient suitable for a certain type of audio signal, such as for a human utterance or music, can be obtained by learning. Further, depending on teacher data and student data used for learning, it is possible to obtain a tap coefficient that causes a difference in sound quality of a synthesized sound. Therefore, such various tap coefficients can be stored in the base station 82 or the like, and the user can download the tap coefficient desired by the user. And, such a tap coefficient download service,
You can do it for free or for a fee.
Further, when the tap coefficient download service is performed for a fee, the price for the download of the tap coefficient can be charged together with the call charge of the mobile phone 81, for example.

【0209】また、係数メモリ105は、携帯電話機8
1に対して着脱可能なメモリカード等で構成することが
できる。この場合、上述したような各種のタップ係数そ
れぞれを記憶させた、異なるメモリカードを提供するよ
うにすれば、ユーザは、場合に応じて、所望のタップ係
数が記憶されたメモリカードを、携帯電話機81に装着
して使用することが可能となる。
[0209] The coefficient memory 105 stores
It can be configured by a memory card or the like that can be attached to and detached from one. In this case, if a different memory card storing the above-described various tap coefficients is provided, the user can replace the memory card storing the desired tap coefficient with a mobile phone as necessary. 81 can be used.

【0210】さらに、本発明は、例えば、VSELP(V
ector Sum Excited Liner Prediction),PSI−CE
LP(Pitch Synchronous Innovation CELP),CS−A
CELP(Conjugate Structure Algebraic CELP)等のC
ELP方式による符号化の結果得られるコードから合成
音を生成する場合に、広く適用可能である。
Furthermore, the present invention relates to, for example, VSELP (V
ector Sum Excited Liner Prediction), PSI-CE
LP (Pitch Synchronous Innovation CELP), CS-A
C such as CELP (Conjugate Structure Algebraic CELP)
The present invention is widely applicable to a case where a synthesized sound is generated from a code obtained as a result of encoding by the ELP method.

【0211】また、本発明は、CELP方式による符号
化の結果得られるコードから合成音を生成する場合に限
らず、あるコードから、残差信号と線形予測係数を得
て、合成音を生成する場合に、広く適用可能である。
The present invention is not limited to the case where a synthesized speech is generated from a code obtained as a result of encoding according to the CELP system, but generates a synthesized speech by obtaining a residual signal and a linear prediction coefficient from a certain code. Widely applicable in cases.

【0212】さらに、本実施の形態では、タップ係数を
用いた線形1次予測演算によって、残差信号や線形予測
係数の予測値を求めるようにしたが、この予測値は、そ
の他、2次以上の高次の予測演算によって求めることも
可能である。
Furthermore, in the present embodiment, the prediction values of the residual signal and the linear prediction coefficient are obtained by the linear primary prediction operation using the tap coefficients. Can be obtained by a higher-order prediction calculation of

【0213】また、CELP方式では、ソフト補間ビッ
トや、フレームエネルギが、コードデータに含められる
場合があるが、この場合、そのソフト補間ビットや、フ
レームエネルギも用いて、クラス分類を行うようにする
ことが可能である。
In the CELP system, the soft interpolation bits and the frame energy may be included in the code data. In this case, the classification is performed using the soft interpolation bits and the frame energy. It is possible.

【0214】[0214]

【発明の効果】本発明のデータ処理装置およびデータ処
理方法、並びに第1の記録媒体によれば、コードが復号
され、復号フィルタデータが出力される。さらに、学習
を行うことにより求められた所定のタップ係数が取得さ
れ、タップ係数および復号フィルタデータを用いて、所
定の予測演算を行うことにより、フィルタデータの予測
値が求められる。従って、そのフィルタデータによっ
て、高音質の合成音を生成することが可能となる。
According to the data processing apparatus, the data processing method, and the first recording medium of the present invention, a code is decoded and decoded filter data is output. Further, a predetermined tap coefficient obtained by performing learning is obtained, and a predetermined prediction operation is performed using the tap coefficient and the decoded filter data, whereby a predicted value of the filter data is obtained. Therefore, it is possible to generate a high-quality synthesized sound using the filter data.

【0215】本発明の学習装置および学習方法、並びに
第2の記録媒体によれば、フィルタデータに対応するコ
ードが復号され、復号フィルタデータが出力される。そ
して、タップ係数および復号フィルタデータを用いて予
測演算を行うことにより得られるフィルタデータの予測
値の予測誤差が、統計的に最小になるように学習が行わ
れ、タップ係数が求められる。従って、そのタップ係数
によって、高音質の合成音を生成するためのフィルタデ
ータを得ることが可能となる。
According to the learning apparatus, the learning method, and the second recording medium of the present invention, the code corresponding to the filter data is decoded, and the decoded filter data is output. Learning is performed so that the prediction error of the prediction value of the filter data obtained by performing the prediction operation using the tap coefficient and the decoded filter data is statistically minimized, and the tap coefficient is obtained. Therefore, it is possible to obtain filter data for generating a high-quality synthesized sound by using the tap coefficients.

【図面の簡単な説明】[Brief description of the drawings]

【図1】従来の携帯電話機の送信部の一例の構成を示す
ブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an example of a transmission unit of a conventional mobile phone.

【図2】従来の携帯電話機の受信部の一例の構成を示す
ブロック図である。
FIG. 2 is a block diagram illustrating a configuration of an example of a receiving unit of a conventional mobile phone.

【図3】本発明を適用した音声合成装置の一実施の形態
の構成例を示すブロック図である。
FIG. 3 is a block diagram illustrating a configuration example of an embodiment of a speech synthesis device to which the present invention has been applied;

【図4】音声合成フィルタ47の構成例を示すブロック
図である。
FIG. 4 is a block diagram illustrating a configuration example of a speech synthesis filter 47;

【図5】図3の音声合成装置の処理を説明するフローチ
ャートである。
FIG. 5 is a flowchart illustrating a process of the speech synthesizer of FIG. 3;

【図6】本発明を適用した学習装置の一実施の形態の構
成例を示すブロック図である。
FIG. 6 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.

【図7】予測フィルタ61Eの構成例を示すブロック図
である。
FIG. 7 is a block diagram illustrating a configuration example of a prediction filter 61E.

【図8】図6の学習装置の処理を説明するフローチャー
トである。
FIG. 8 is a flowchart illustrating a process of the learning device in FIG. 6;

【図9】本発明を適用した伝送システムの一実施の形態
の構成例を示す図である。
FIG. 9 is a diagram illustrating a configuration example of an embodiment of a transmission system to which the present invention has been applied.

【図10】携帯電話機81の構成例を示すブロック図で
ある。
FIG. 10 is a block diagram illustrating a configuration example of a mobile phone 81.

【図11】受信部94の構成例を示すブロック図であ
る。
FIG. 11 is a block diagram illustrating a configuration example of a receiving unit 94.

【図12】本発明を適用した学習装置の他の実施の形態
の構成例を示すブロック図である。
FIG. 12 is a block diagram illustrating a configuration example of another embodiment of a learning device to which the present invention has been applied.

【図13】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
FIG. 13 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 チャンネルデコーダ, 22 適応コードブック記
憶部, 23 ゲイン復号器, 24 励起コードブッ
ク記憶部, 25 フィルタ係数復号器, 26乃至2
8 演算器, 29 音声合成フィルタ, 30 D/
A変換部, 31 スピーカ, 41 デマルチプレク
サ, 42A フィルタ係数復号器,42E 残差コー
ドブック記憶部, 43A,43E タップ生成部,
44A,44E クラス分類部, 45A,45E 係
数メモリ, 46A,46E予測部, 47 音声合成
フィルタ, 48 D/A変換部, 49 スピーカ,
51 加算器, 521乃至52P 遅延回路, 53
1乃至53P 乗算器,61A LPC分析部, 61E
予測フィルタ, 62A,62E ベクトル量子化
部, 63A フィルタ係数復号器, 63E 残差コ
ードブック記憶部, 64A,64E タップ生成部,
65A,65E クラス分類部, 66A,66E
正規方程式加算回路, 67A,67E タップ係数決
定回路,68A,68E 係数メモリ, 711乃至7
P 遅延回路, 721乃至72P 乗算器, 73
加算器, 811,812 携帯電話機, 821,822
基地局, 83 交換局, 91 アンテナ, 92
変復調部, 93 送信部, 94 受信部, 101
乃至103 タップ生成部, 104 クラス分類部,
105 係数メモリ, 106,107 予測部,
111E 予測フィルタ, 112A,112E タッ
プ生成部, 113A,113E クラス分類部, 1
14A, 114E 正規方程式加算回路, 115
A,115E タップ係数決定回路, 116A,11
6E 係数メモリ, 117 タップ生成部, 201
マイク, 202 A/D変換部, 203 演算
器,204 LPC分析部, 205 ベクトル量子化
部, 206 音声合成フィルタ, 207 自乗誤差
演算部, 208 自乗誤差最小判定部, 209適応
コードブック記憶部, 210 ゲイン復号器, 21
1 励起コードブック記憶部, 212 乃至214
演算器, 215 コード決定部, 301バス, 3
02 CPU, 303 ROM, 304 RAM, 305
ハードディスク, 306 出力部, 307 入力
部, 308 通信部, 309ドライブ, 310
入出力インタフェース, 311 リムーバブル記録媒
1 channel decoder, 22 adaptive codebook storage, 23 gain decoder, 24 excitation codebook storage, 25 filter coefficient decoder, 26 to 2
8 arithmetic unit, 29 speech synthesis filter, 30 D /
A conversion unit, 31 speakers, 41 demultiplexer, 42A filter coefficient decoder, 42E residual codebook storage unit, 43A, 43E tap generation unit,
44A, 44E Classifier, 45A, 45E coefficient memory, 46A, 46E predictor, 47 speech synthesis filter, 48 D / A converter, 49 speaker,
51 adder, 521 to 52P delay circuit, 53
1 to 53P multiplier, 61A LPC analyzer, 61E
Prediction filter, 62A, 62E vector quantization unit, 63A filter coefficient decoder, 63E residual codebook storage unit, 64A, 64E tap generation unit,
65A, 65E Classifier, 66A, 66E
Normal equation addition circuit, 67A, 67E tap coefficient determination circuit, 68A, 68E coefficient memory, 711 to 7
1P delay circuit, 721 to 72P multiplier, 73
Adder, 811 , 812 Mobile phone, 821 , 822
Base station, 83 exchange, 91 antenna, 92
Modulation / demodulation unit, 93 transmitting unit, 94 receiving unit, 101
To 103 tap generator, 104 classifier,
105 coefficient memory, 106, 107 prediction unit,
111E prediction filter, 112A, 112E tap generation unit, 113A, 113E class classification unit, 1
14A, 114E Normal equation addition circuit, 115
A, 115E tap coefficient determination circuit, 116A, 11
6E coefficient memory, 117 tap generator, 201
Microphone, 202 A / D conversion unit, 203 arithmetic unit, 204 LPC analysis unit, 205 vector quantization unit, 206 speech synthesis filter, 207 square error calculation unit, 208 minimum square error determination unit, 209 adaptive codebook storage unit, 210 Gain decoder, 21
1 excitation codebook storage unit, 212 to 214
Arithmetic unit, 215 code decision unit, 301 bus, 3
02 CPU, 303 ROM, 304 RAM, 305
Hard disk, 306 output unit, 307 input unit, 308 communication unit, 309 drive, 310
I / O interface, 311 Removable recording medium

───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤森 泰弘 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 渡辺 勉 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 木村 裕人 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D045 CA01 CC08 5J064 AA01 BA13 BB03 BB13 BC01 BC12 BD02 BD03 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Yasuhiro Fujimori 6-35, Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Tsutomu Watanabe 6-35, Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Hiroto Kimura 6-35 Kita Shinagawa, Shinagawa-ku, Tokyo Sony Corporation F-term (reference) 5D045 CA01 CC08 5J064 AA01 BA13 BB03 BB13 BC01 BC12 BD02 BD03

Claims (23)

Translated fromJapanese
【特許請求の範囲】[Claims]【請求項1】 線形予測係数と所定の入力信号に基づい
て音声合成を行う音声合成フィルタに与えるフィルタデ
ータを、所定のコードから生成するデータ処理装置であ
って、 前記コードを復号し、復号フィルタデータを出力するコ
ード復号手段と、 学習を行うことにより求められた所定のタップ係数を取
得する取得手段と、 前記タップ係数および復号フィルタデータを用いて、所
定の予測演算を行うことにより、前記フィルタデータの
予測値を求め、前記音声合成フィルタに供給する予測手
段とを備えることを特徴とするデータ処理装置。
1. A data processing apparatus for generating, from a predetermined code, filter data to be applied to a voice synthesis filter for performing voice synthesis based on a linear prediction coefficient and a predetermined input signal, the code processing comprising: decoding the code; Code decoding means for outputting data; acquiring means for acquiring a predetermined tap coefficient obtained by performing learning; and performing a predetermined prediction operation using the tap coefficient and decoding filter data, thereby obtaining the filter. A data processing apparatus comprising: a prediction unit that obtains a predicted value of data and supplies the predicted value to the speech synthesis filter.
【請求項2】 前記予測手段は、前記タップ係数および
復号フィルタデータを用いて線形1次予測演算を行うこ
とにより、前記フィルタデータの予測値を求めることを
特徴とする請求項1に記載のデータ処理装置。
2. The data according to claim 1, wherein the prediction unit obtains a prediction value of the filter data by performing a linear primary prediction operation using the tap coefficients and the decoded filter data. Processing equipment.
【請求項3】 前記取得手段は、前記タップ係数を記憶
している記憶手段から、前記タップ係数を取得すること
を特徴とする請求項1に記載のデータ処理装置。
3. The data processing apparatus according to claim 1, wherein the acquisition unit acquires the tap coefficient from a storage unit that stores the tap coefficient.
【請求項4】 前記予測値を求めようとしている前記フ
ィルタデータを注目フィルタデータとして、その注目フ
ィルタデータを予測するのに前記タップ係数とともに用
いる予測タップを、前記復号フィルタデータから抽出す
る予測タップ抽出手段をさらに備え、 前記予測手段は、前記予測タップおよびタップ係数を用
いて予測演算を行うことを特徴とする請求項1に記載の
データ処理装置。
4. A prediction tap extraction for extracting, from the decoding filter data, a prediction tap used together with the tap coefficient for predicting the filter data of interest, wherein the filter data for which the prediction value is to be obtained is used as filter data of interest. The data processing apparatus according to claim 1, further comprising a unit, wherein the prediction unit performs a prediction operation using the prediction tap and the tap coefficient.
【請求項5】 前記注目フィルタデータを、幾つかのク
ラスのうちのいずれかにクラス分類するのに用いるクラ
スタップを、前記復号フィルタデータから抽出するクラ
スタップ抽出手段と、 前記クラスタップに基づいて、前記注目フィルタデータ
のクラスを求めるクラス分類を行うクラス分類手段とを
さらに備え、 前記予測手段は、前記予測タップと、前記注目フィルタ
データのクラスに対応する前記タップ係数とを用いて予
測演算を行うことを特徴とする請求項4に記載のデータ
処理装置。
5. A class tap extracting means for extracting, from the decoded filter data, a class tap used to classify the filter data of interest into one of several classes, based on the class tap. Classifying means for performing class classification for obtaining a class of the filter data of interest, wherein the prediction means performs a prediction operation using the prediction tap and the tap coefficient corresponding to the class of the filter data of interest. The data processing apparatus according to claim 4, wherein the data processing is performed.
【請求項6】 前記注目フィルタデータを、幾つかのク
ラスのうちのいずれかにクラス分類するのに用いるクラ
スタップを、前記コードから抽出するクラスタップ抽出
手段と、 前記クラスタップに基づいて、前記注目フィルタデータ
のクラスを求めるクラス分類を行うクラス分類手段とを
さらに備え、 前記予測手段は、前記予測タップと、前記注目フィルタ
データのクラスに対応する前記タップ係数とを用いて予
測演算を行うことを特徴とする請求項4に記載のデータ
処理装置。
6. A class tap extracting means for extracting, from the code, a class tap used to classify the filter data of interest into any one of several classes, based on the class tap, Classifying means for performing a class classification for obtaining a class of the filter data of interest, wherein the prediction means performs a prediction calculation using the prediction tap and the tap coefficient corresponding to the class of the filter data of interest. The data processing device according to claim 4, wherein:
【請求項7】 前記クラスタップ抽出手段は、前記クラ
スタップを、前記コードと、前記復号フィルタデータの
両方から抽出することを特徴とする請求項6に記載のデ
ータ処理装置。
7. The data processing apparatus according to claim 6, wherein the class tap extracting unit extracts the class tap from both the code and the decoded filter data.
【請求項8】 前記タップ係数は、前記タップ係数およ
び復号フィルタデータを用いて所定の予測演算を行うこ
とにより得られる前記フィルタデータの予測値の予測誤
差が、統計的に最小になるように、学習を行うことによ
り得られたものであることを特徴とする請求項1に記載
のデータ処理装置。
8. The tap coefficient is set such that a prediction error of a prediction value of the filter data obtained by performing a predetermined prediction operation using the tap coefficient and the decoded filter data is statistically minimized. The data processing apparatus according to claim 1, wherein the data processing apparatus is obtained by performing learning.
【請求項9】 前記フィルタデータは、前記入力信号と
線形予測係数のうちの少なくとも一方または両方である
ことを特徴とする請求項1に記載のデータ処理装置。
9. The data processing apparatus according to claim 1, wherein the filter data is at least one or both of the input signal and a linear prediction coefficient.
【請求項10】 前記音声合成フィルタをさらに備える
ことを特徴とする請求項1に記載のデータ処理装置。
10. The data processing device according to claim 1, further comprising the speech synthesis filter.
【請求項11】 前記コードは、音声を、CELP(Cod
e Excited Liner Prediction coding)方式によって符号
化することにより得られたものであることを特徴とする
請求項1に記載のデータ処理装置。
11. The code according to claim 1, wherein said code is a CELP (Cod
2. The data processing apparatus according to claim 1, wherein the data processing apparatus is obtained by performing encoding by e Excited Liner Prediction coding).
【請求項12】 線形予測係数と所定の入力信号に基づ
いて音声合成を行う音声合成フィルタに与えるフィルタ
データを、所定のコードから生成するデータ処理方法で
あって、 前記コードを復号し、復号フィルタデータを出力するコ
ード復号ステップと、 学習を行うことにより求められた所定のタップ係数を取
得する取得ステップと、 前記タップ係数および復号フィルタデータを用いて、所
定の予測演算を行うことにより、前記フィルタデータの
予測値を求め、前記音声合成フィルタに供給する予測ス
テップとを備えることを特徴とするデータ処理方法。
12. A data processing method for generating, from a predetermined code, filter data to be provided to a voice synthesis filter that performs voice synthesis based on a linear prediction coefficient and a predetermined input signal, wherein the code is decoded. A code decoding step of outputting data; an obtaining step of obtaining a predetermined tap coefficient obtained by performing learning; and performing a predetermined prediction operation using the tap coefficient and decoding filter data, thereby obtaining the filter. A prediction step of obtaining a predicted value of data and supplying the predicted value to the speech synthesis filter.
【請求項13】 線形予測係数と所定の入力信号に基づ
いて音声合成を行う音声合成フィルタに与えるフィルタ
データを、所定のコードから生成するデータ処理を、コ
ンピュータに行わせるプログラムが記録されている記録
媒体であって、 前記コードを復号し、復号フィルタデータを出力するコ
ード復号ステップと、 学習を行うことにより求められた所定のタップ係数を取
得する取得ステップと、 前記タップ係数および復号フィルタデータを用いて、所
定の予測演算を行うことにより、前記フィルタデータの
予測値を求め、前記音声合成フィルタに供給する予測ス
テップとを備えるプログラムが記録されていることを特
徴とする記録媒体。
13. A recording in which a program for causing a computer to perform data processing for generating, from a predetermined code, filter data to be applied to a voice synthesis filter that performs voice synthesis based on a linear prediction coefficient and a predetermined input signal is recorded. A medium for decoding the code and outputting decoding filter data; an obtaining step of obtaining a predetermined tap coefficient obtained by performing learning; and using the tap coefficient and the decoding filter data. And a prediction step of performing a predetermined prediction operation to obtain a predicted value of the filter data and supplying the predicted value to the speech synthesis filter.
【請求項14】 線形予測係数と所定の入力信号に基づ
いて音声合成を行う音声合成フィルタに与えるフィルタ
データに対応するコードから、前記フィルタデータの予
測値を、予測演算によって求めるのに用いる所定のタッ
プ係数を学習する学習装置であって、 フィルタデータに対応するコードを復号し、復号フィル
タデータを出力するコード復号手段と、 前記タップ係数および復号フィルタデータを用いて予測
演算を行うことにより得られる前記フィルタデータの予
測値の予測誤差が、統計的に最小になるように学習を行
い、前記タップ係数を求める学習手段とを備えることを
特徴とする学習装置。
14. A predetermined value used for obtaining a predicted value of the filter data from a code corresponding to filter data given to a voice synthesis filter that performs voice synthesis based on a linear prediction coefficient and a predetermined input signal by a prediction operation. A learning device for learning tap coefficients, which is obtained by decoding a code corresponding to filter data and outputting decoded filter data, and performing a prediction operation using the tap coefficients and the decoded filter data. A learning unit that performs learning so that a prediction error of a prediction value of the filter data is statistically minimized and obtains the tap coefficient.
【請求項15】 前記学習手段は、前記タップ係数およ
び復号フィルタデータを用いて線形1次予測演算を行う
ことにより得られる前記フィルタデータの予測値の予測
誤差が、統計的に最小になるように学習を行うことを特
徴とする請求項14に記載の学習装置。
15. The learning means according to claim 1, wherein a prediction error of a predicted value of the filter data obtained by performing a linear primary prediction operation using the tap coefficients and the decoded filter data is statistically minimized. The learning device according to claim 14, wherein learning is performed.
【請求項16】 前記予測値を求めようとしている前記
フィルタデータを注目フィルタデータとして、その注目
フィルタデータを予測するのに前記タップ係数とともに
用いる予測タップを、前記復号フィルタデータから抽出
する予測タップ抽出手段をさらに備え、 前記学習手段は、前記予測タップおよびタップ係数を用
いて予測演算を行うことにより得られる前記フィルタデ
ータの予測値の予測誤差が、統計的に最小になるように
学習を行うことを特徴とする請求項14に記載の学習装
置。
16. Extraction of prediction taps for extracting, from the decoded filter data, prediction taps used together with the tap coefficients for predicting the filter data of interest, using the filter data for which the prediction value is to be obtained as filter data of interest. The learning means further performs learning so that a prediction error of a prediction value of the filter data obtained by performing a prediction operation using the prediction tap and the tap coefficient is statistically minimized. The learning device according to claim 14, wherein:
【請求項17】 前記注目フィルタデータを、幾つかの
クラスのうちのいずれかにクラス分類するのに用いるク
ラスタップを、前記復号フィルタデータから抽出するク
ラスタップ抽出手段と、 前記クラスタップに基づいて、前記注目フィルタデータ
のクラスを求めるクラス分類を行うクラス分類手段とを
さらに備え、 前記学習手段は、前記予測タップと、前記注目フィルタ
データのクラスに対応する前記タップ係数とを用いて予
測演算を行うことにより得られる前記フィルタデータの
予測値の予測誤差が、統計的に最小になるように学習を
行うことを特徴とする請求項16に記載の学習装置。
17. A class tap extracting means for extracting, from the decoded filter data, a class tap used to classify the filter data of interest into one of several classes, based on the class tap. Classifying means for performing a class classification for obtaining a class of the filter data of interest, wherein the learning means performs a prediction operation using the prediction tap and the tap coefficient corresponding to the class of the filter data of interest. 17. The learning device according to claim 16, wherein learning is performed such that a prediction error of a prediction value of the filter data obtained by performing the calculation is statistically minimized.
【請求項18】 前記注目フィルタデータを、幾つかの
クラスのうちのいずれかにクラス分類するのに用いるク
ラスタップを、前記コードから抽出するクラスタップ抽
出手段と、 前記クラスタップに基づいて、前記注目フィルタデータ
のクラスを求めるクラス分類を行うクラス分類手段とを
さらに備え、 前記学習手段は、前記予測タップと、前記注目フィルタ
データのクラスに対応する前記タップ係数とを用いて予
測演算を行うことにより得られる前記フィルタデータの
予測値の予測誤差が、統計的に最小になるように学習を
行うことを特徴とする請求項16に記載の学習装置。
18. A class tap extracting means for extracting, from the code, a class tap used to classify the target filter data into any of several classes, based on the class tap, Classifying means for performing class classification for obtaining a class of the filter data of interest, wherein the learning means performs a prediction operation using the prediction tap and the tap coefficient corresponding to the class of the filter data of interest. 17. The learning device according to claim 16, wherein learning is performed such that a prediction error of a prediction value of the filter data obtained by the above is statistically minimized.
【請求項19】 前記クラスタップ抽出手段は、前記ク
ラスタップを、前記コードと、前記復号フィルタデータ
の両方から抽出することを特徴とする請求項18に記載
の学習装置。
19. The learning apparatus according to claim 18, wherein the class tap extracting unit extracts the class tap from both the code and the decoded filter data.
【請求項20】 前記フィルタデータは、前記入力信号
と線形予測係数のうちの少なくとも一方または両方であ
ることを特徴とする請求項14に記載の学習装置。
20. The learning device according to claim 14, wherein the filter data is at least one or both of the input signal and a linear prediction coefficient.
【請求項21】 前記コードは、音声を、CELP(Cod
e Excited Liner Prediction coding)方式によって符号
化することにより得られたものであることを特徴とする
請求項14に記載の学習装置。
21. The code according to claim 1, wherein the code is a CELP (Cod
15. The learning device according to claim 14, wherein the learning device is obtained by encoding using an e Excited Liner Prediction coding) method.
【請求項22】 線形予測係数と所定の入力信号に基づ
いて音声合成を行う音声合成フィルタに与えるフィルタ
データに対応するコードから、前記フィルタデータの予
測値を、予測演算によって求めるのに用いる所定のタッ
プ係数を学習する学習方法であって、 フィルタデータに対応するコードを復号し、復号フィル
タデータを出力するコード復号ステップと、 前記タップ係数および復号フィルタデータを用いて予測
演算を行うことにより得られる前記フィルタデータの予
測値の予測誤差が、統計的に最小になるように学習を行
い、前記タップ係数を求める学習ステップとを備えるこ
とを特徴とする学習方法。
22. A predetermined value used for obtaining a predicted value of the filter data from a code corresponding to filter data given to a voice synthesis filter for performing voice synthesis based on a linear prediction coefficient and a predetermined input signal by a prediction operation. A learning method for learning tap coefficients, which is obtained by decoding a code corresponding to filter data and outputting decoded filter data, and performing a prediction operation using the tap coefficients and the decoded filter data. A learning step of performing learning so that a prediction error of a prediction value of the filter data is statistically minimized, and obtaining the tap coefficient.
【請求項23】 線形予測係数と所定の入力信号に基づ
いて音声合成を行う音声合成フィルタに与えるフィルタ
データに対応するコードから、前記フィルタデータの予
測値を、予測演算によって求めるのに用いる所定のタッ
プ係数を学習する学習処理を、コンピュータに行わせる
プログラムが記録されている記録媒体であって、 フィルタデータに対応するコードを復号し、復号フィル
タデータを出力するコード復号ステップと、 前記タップ係数および復号フィルタデータを用いて予測
演算を行うことにより得られる前記フィルタデータの予
測値の予測誤差が、統計的に最小になるように学習を行
い、前記タップ係数を求める学習ステップとを備えるプ
ログラムが記録されていることを特徴とする記録媒体。
23. A predetermined value used for obtaining a predicted value of the filter data from a code corresponding to filter data given to a voice synthesis filter for performing voice synthesis based on a linear prediction coefficient and a predetermined input signal by a prediction operation. A code decoding step of decoding a code corresponding to the filter data and outputting decoded filter data on a recording medium storing a program for causing a computer to perform a learning process of learning tap coefficients; A learning step of learning so that a prediction error of a predicted value of the filter data obtained by performing a prediction operation using the decoded filter data is statistically minimized, and a learning step of obtaining the tap coefficient. A recording medium characterized by being recorded.
JP2000251969A2000-08-092000-08-23Device and method for data processing, device and method for learning and recording mediumPendingJP2002062899A (en)

Priority Applications (15)

Application NumberPriority DateFiling DateTitle
JP2000251969AJP2002062899A (en)2000-08-232000-08-23Device and method for data processing, device and method for learning and recording medium
EP01956800AEP1308927B9 (en)2000-08-092001-08-03Voice data processing device and processing method
EP08003539AEP1944760B1 (en)2000-08-092001-08-03Voice data processing device and processing method
KR1020027004559AKR100819623B1 (en)2000-08-092001-08-03 Processing apparatus and processing method of voice data
DE60140020TDE60140020D1 (en)2000-08-092001-08-03 Voice data processing apparatus and processing method
US10/089,925US7283961B2 (en)2000-08-092001-08-03High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
DE60134861TDE60134861D1 (en)2000-08-092001-08-03 DEVICE FOR PROCESSING LANGUAGE DATA AND METHOD OF PROCESSING
PCT/JP2001/006708WO2002013183A1 (en)2000-08-092001-08-03Voice data processing device and processing method
DE60143327TDE60143327D1 (en)2000-08-092001-08-03 Voice data processing apparatus and processing method
EP08003538AEP1944759B1 (en)2000-08-092001-08-03Voice data processing device and processing method
TW090119402ATW564398B (en)2000-08-092001-08-08Device and method for processing sound data
NO20021631ANO326880B1 (en)2000-08-092002-04-05 Speech data method and apparatus
US11/903,550US7912711B2 (en)2000-08-092007-09-21Method and apparatus for speech data
NO20082403ANO20082403L (en)2000-08-092008-05-26 Speech data method and apparatus
NO20082401ANO20082401L (en)2000-08-092008-05-26 Speech data method and apparatus

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
JP2000251969AJP2002062899A (en)2000-08-232000-08-23Device and method for data processing, device and method for learning and recording medium

Publications (1)

Publication NumberPublication Date
JP2002062899Atrue JP2002062899A (en)2002-02-28

Family

ID=18741295

Family Applications (1)

Application NumberTitlePriority DateFiling Date
JP2000251969APendingJP2002062899A (en)2000-08-092000-08-23Device and method for data processing, device and method for learning and recording medium

Country Status (1)

CountryLink
JP (1)JP2002062899A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2007295599A (en)*2007-06-042007-11-08Sony CorpLearning apparatus and learning method, program, and recording medium
JP2014502366A (en)*2010-10-292014-01-30イェン,アントン Low bit rate signal coder and decoder

Citations (9)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JPS6111800A (en)*1984-06-271986-01-20日本電気株式会社Residual excitation type vocoder
JPH0683400A (en)*1992-06-041994-03-25American Teleph & Telegr Co <Att>Speech-message processing method
JPH0750586A (en)*1991-09-101995-02-21At & T CorpLow delay celp coding method
JPH08248996A (en)*1995-03-101996-09-27Nippon Telegr & Teleph Corp <Ntt> Digital filter filter coefficient determination method
JPH08328591A (en)*1995-05-171996-12-13Fr Telecom A method of adapting noise masking levels to a synthetic analysis speech coder using a short-term perceptual weighting filter
JPH0990997A (en)*1995-09-261997-04-04Mitsubishi Electric Corp Speech coding apparatus, speech decoding apparatus, speech coding / decoding method, and composite digital filter
JPH09258795A (en)*1996-03-251997-10-03Nippon Telegr & Teleph Corp <Ntt> Digital filter and acoustic coding / decoding device
JPH10242867A (en)*1997-02-251998-09-11Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method
JP2000066700A (en)*1998-08-172000-03-03Oki Electric Ind Co LtdVoice signal encoder and voice signal decoder

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JPS6111800A (en)*1984-06-271986-01-20日本電気株式会社Residual excitation type vocoder
JPH0750586A (en)*1991-09-101995-02-21At & T CorpLow delay celp coding method
JPH0683400A (en)*1992-06-041994-03-25American Teleph & Telegr Co <Att>Speech-message processing method
JPH08248996A (en)*1995-03-101996-09-27Nippon Telegr & Teleph Corp <Ntt> Digital filter filter coefficient determination method
JPH08328591A (en)*1995-05-171996-12-13Fr Telecom A method of adapting noise masking levels to a synthetic analysis speech coder using a short-term perceptual weighting filter
JPH0990997A (en)*1995-09-261997-04-04Mitsubishi Electric Corp Speech coding apparatus, speech decoding apparatus, speech coding / decoding method, and composite digital filter
JPH09258795A (en)*1996-03-251997-10-03Nippon Telegr & Teleph Corp <Ntt> Digital filter and acoustic coding / decoding device
JPH10242867A (en)*1997-02-251998-09-11Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method
JP2000066700A (en)*1998-08-172000-03-03Oki Electric Ind Co LtdVoice signal encoder and voice signal decoder

Cited By (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2007295599A (en)*2007-06-042007-11-08Sony CorpLearning apparatus and learning method, program, and recording medium
JP2014502366A (en)*2010-10-292014-01-30イェン,アントン Low bit rate signal coder and decoder

Similar Documents

PublicationPublication DateTitle
JPH08179796A (en)Voice coding method
US7912711B2 (en)Method and apparatus for speech data
JP4857468B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP2002268686A (en)Voice coder and voice decoder
JP4857467B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP3353852B2 (en) Audio encoding method
JP2002062899A (en)Device and method for data processing, device and method for learning and recording medium
JPH09127985A (en)Signal coding method and device therefor
JPH09127987A (en)Signal coding method and device therefor
JP4517262B2 (en) Audio processing device, audio processing method, learning device, learning method, and recording medium
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP4736266B2 (en) Audio processing device, audio processing method, learning device, learning method, program, and recording medium
JP2003345392A (en) Vector Quantizer for Spectral Envelope Parameters Using Partitioning Scaling Factor
US7283961B2 (en)High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP2004301954A (en) Hierarchical encoding method and hierarchical decoding method for audio signal
JP3256215B2 (en) Audio coding device
JP2002073097A (en) CELP-type speech coding apparatus, CELP-type speech decoding apparatus, speech coding method, and speech decoding method
JP3092436B2 (en) Audio coding device
JP3520955B2 (en) Acoustic signal coding
JP2002229597A (en) Vector quantization device for LPC parameters
JPH0455899A (en)Voice signal coding system
JPH09127986A (en)Multiplexing method for coded signal and signal encoder

Legal Events

DateCodeTitleDescription
A621Written request for application examination

Free format text:JAPANESE INTERMEDIATE CODE: A621

Effective date:20070220

A131Notification of reasons for refusal

Free format text:JAPANESE INTERMEDIATE CODE: A131

Effective date:20100216

A521Request for written amendment filed

Free format text:JAPANESE INTERMEDIATE CODE: A523

Effective date:20100412

A02Decision of refusal

Free format text:JAPANESE INTERMEDIATE CODE: A02

Effective date:20110118


[8]ページ先頭

©2009-2025 Movatter.jp