【発明の詳細な説明】[産業上の利用分野]本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその話者を同定又は照合するに好適な話者
認識方式に関する。DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speaker recognition method suitable for identifying or verifying a speaker from input speech using an online terminal such as an electric lock or an IC card.
[従来の技術]話者認識とは、入力音声からその話合な認識することで
あり、話者同定と話者照合の2つの形態かある。[Prior Art] Speaker recognition is the recognition of speech from input speech, and there are two forms: speaker identification and speaker verification.
話者同定とは入力音声か登録話者のうちの誰の声である
かを判定することであり、話者照合とは入力音声が登録
話者の声であると見なせるか否かを判定することである
。Speaker identification is the process of determining whether the input voice is the voice of a registered speaker, and speaker verification is the process of determining whether the input voice can be considered to be the voice of a registered speaker. That's true.
従来の話者認識方式は、例えば特公昭56−13956
号公報、電子通信学会論文誌73/11 Vol、56
−ANo、11 (文献1)に記載される如く、以下
の手順による。Conventional speaker recognition methods include, for example, the Japanese Patent Publication No. 56-13956.
Publication, Journal of the Institute of Electronics and Communication Engineers 73/11 Vol. 56
- According to the following procedure as described in ANo. 11 (Reference 1).
■入力音声に含まれる話者に関する特tfifiLを抽
出する。(2) Extract the special tfifiL related to the speaker included in the input voice.
■予め上記■と同様にして抽出しておいた標僧パターン
と上記■て抽出した特徴量との距離を計算する。(2) Calculate the distance between the Shozo pattern previously extracted in the same manner as (2) above and the feature amount extracted in (2) above.
■話者同定の場合は、上記距離が最小の+ffi準パタ
ーンの話者を入力音声の話者と判定し、話者照合の場合
は、上記距離に予めしきい値を設定し、距離かその値よ
りも小さい場合には、入力音声はその標準パターンの話
者によるものであると判定する。■In the case of speaker identification, the speaker of the +ffi quasi-pattern with the minimum distance above is determined to be the speaker of the input voice, and in the case of speaker verification, a threshold value is set in advance for the above distance, and the distance or If it is smaller than the value, it is determined that the input speech is made by the speaker of that standard pattern.
この時、特公昭56−13956号公報ては、上記特徴
量として、入力音声から算出したスペクトルパラメータ
間の相関、各パラメータの平均値及び標準偏差を用いる
こととしている。At this time, in Japanese Patent Publication No. 56-13956, the correlation between spectral parameters calculated from the input voice, the average value and standard deviation of each parameter are used as the feature amounts.
[発明か解決しようとする課題]然しなから、上記従来の話者認識方式では、以下の問題
点かある。[Problems to be Solved by the Invention] However, the conventional speaker recognition method described above has the following problems.
■標準パターン作成時から時間が経過するにつれ、認識
率か劣化する。例えば文献1に記載の実験結果にあって
は、標準パターン作成時から3ケ月経過により、話者同
定率は100%から85%に劣化し、話者照合率は99
%から91%に劣化する。■As time passes from the time the standard pattern was created, the recognition rate deteriorates. For example, in the experimental results described in Reference 1, the speaker identification rate deteriorated from 100% to 85% after three months had passed since the standard pattern was created, and the speaker matching rate decreased to 99%.
% to 91%.
■実時間処理か困難である。即ち、従来の話者認識方式
において一定以上の認識率を確保するためには複雑な特
徴量を用いる必要があるが、複雑な特徴量を抽出するに
は複雑な処理装置が必要であり、処理時間も多大となる
。■Real-time processing is difficult. In other words, in conventional speaker recognition methods, it is necessary to use complex features to ensure a recognition rate above a certain level, but extracting complex features requires a complex processing device. It also takes a lot of time.
本発明は、経時的な認識率の劣化か極めて少なく、容易
に実時間処理できる話者認識方式を得ることを目的とす
る。SUMMARY OF THE INVENTION An object of the present invention is to obtain a speaker recognition method that can easily perform real-time processing with extremely little deterioration in recognition rate over time.
[課題を解決するための手段]請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声から話者認識する話者認識方式であって
、ニューラルネットワークへの入力として、音声の周波
数特性の時間的変化を用いるようにしたものである。[Means for Solving the Problems] The present invention as set forth in claim 1 is a speaker recognition method for recognizing a speaker from an input voice using a neural network, and the frequency characteristics of the voice are used as input to the neural network. This method uses the temporal change in .
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化を用いるようにしたものである
。According to a second aspect of the present invention, a temporal change in an average frequency characteristic of audio within a certain period of time is used as an input to the neural network.
請求項3に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。According to a third aspect of the present invention, the neural network is a hierarchical neural network.
[作用]請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。[Function] According to the present invention as set forth in claim 1, there are the following functions and effects.
■経時的な認廉率の劣化が極めて少ない。このことは、
後述する実験結果により確認されていることであるが、
ニューラルネットワークが音声の時期差による変動の影
響を受けにくい構造をとることか可能なためと推定され
る。■There is extremely little deterioration in the recognition rate over time. This means that
This is confirmed by the experimental results described below,
It is presumed that this is because it is possible for the neural network to adopt a structure that is less susceptible to fluctuations due to differences in speech timing.
■ニューラルネットワークへの入力として、「音声の周
波数特性の時間的変化」を用いたから、入力を得るため
の前処理か、従来の複雑な特徴量抽出に比して、単純と
なり、この前処理に要する時間か知<’r足りる。■Since "temporal changes in the frequency characteristics of the audio" are used as input to the neural network, it is possible to use preprocessing to obtain the input, which is simpler than conventional complex feature extraction. I don't know how much time it takes.
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純且つ迅速である。■Neural networks are, in principle, simple and quick to perform calculations on the entire network.
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。■In principle, each unit that makes up a neural network operates independently, and parallel arithmetic processing is possible. Therefore, calculation processing is quick.
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。(2) With the above (2) to (4), speaker recognition processing can be easily performed in real time without using a complicated processing device.
又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。Further, according to the present invention as set forth in claim 2, in addition to the effects (1) to (2) above, there is the following effect (2).
■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な周波数特性の時間的変化」を
用いたから、ニューラルネットワークにおける処理か単
純となり、この処理に要する時間がより短くて足りる。■As the input to the neural network is ``temporal changes in the average frequency characteristics of the audio within a certain period of time'', the processing in the neural network is simple and the time required for this processing is shorter.
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。Further, according to the present invention as set forth in claim 3, in addition to the effects (1) to (2) above, there is the following effect (2).
0階層的なニューラルネットワークにあっ°Cは、現在
、後述する如くの簡単な学習アルゴリズム(パックプロ
パゲーション)か確立されており、高い認識率を実現で
きるニューラルネットワークを容易に形成できる。Currently, a simple learning algorithm (pack propagation), which will be described later, has been established for a zero-layer neural network, and a neural network that can achieve a high recognition rate can be easily formed.
[実施例]第1図は本発明か適用された話者認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図ばニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の!111 mを示す模式図である。[Example] Fig. 1 is a schematic diagram showing an example of a speaker recognition system to which the present invention is applied, Fig. 2 is a schematic diagram showing input speech, and Fig. 3 is a schematic diagram showing the output of a band-pass filter. Figure 4 is a schematic diagram showing a neural network, Figure 5 is a schematic diagram showing a hierarchical neural network, and Figure 6 is a schematic diagram of a neural network. 111 m.
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。Prior to describing specific embodiments of the present invention, the configuration of the neural network and the learning algorithm will be described.
(1)ニューラルネットワークは、その構造から、第4
図(A)に示す階層的ネットワークと第4図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
1両ネットワークのいずれを用いて構成するものであり
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。(1) Due to its structure, neural networks are
It can be roughly divided into two types: a hierarchical network shown in FIG. 4(A) and an interconnected network shown in FIG. 4(B). Although the present invention may be configured using either one or both networks, a hierarchical network is more useful because a simple learning algorithm as described below has been established.
(2)ネットワークの構造階層的ネットワークは、第5図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。(2) Network Structure A hierarchical network has a hierarchical structure consisting of an input layer, an intermediate layer, and an output layer, as shown in FIG.
各層は1以上のユニットから構成される。結合は、入力
層り中間層→出力層という前向きの結合たけて、各層内
での結合はない。Each layer is composed of one or more units. The connections are forward-looking, from the input layer to the intermediate layer to the output layer, and there are no connections within each layer.
(3)ユニットの構造ユニットは第6図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。(3) Structure of the unit The unit is a model of a neuron in the brain and has a simple structure as shown in FIG. It receives input from other units, sums it up, transforms it using a certain rule (conversion function), and outputs the result. Each connection with another unit is given a variable weight that represents the strength of the connection.
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−m的には第6図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。(4) Learning (pack propagation) Learning of a network is to bring the actual output closer to the target value (desired output). Learn by making changes.
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROCESSING、 the MIT Press
、 1986. (文献2)に記載されているパックプ
ロパゲーションを用いることができる。Further, as a learning algorithm, for example, Rumel
hart, D.E., McClelland, J.
L, and thePDP Re5earch Gr.
oup, PARALLEL DISTRIBUTED
PROCESSING, the MIT Press
, 1986. Pack propagation described in (Reference 2) can be used.
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、nチャンネルのバンド
パスフィルタ10、平均化回路15、ニューラルネット
ワーク20、判定回路30の結合にて構成される(第1
図参照)。Hereinafter, specific examples of the present invention will be described. still,
The recognition system 1 of this embodiment is configured by combining an n-channel bandpass filter 10, an averaging circuit 15, a neural network 20, and a determination circuit 30 (first
(see figure).
(A)学習単語を「タダイマ」、入力l1ii語を「タ
タイマ」とし、入力単語の学習単語に対する時期差は0
〜3ケ月とした。(A) The learning word is "Tadaima", the input l1ii word is "Tadaima", and the time difference between the input word and the learning word is 0.
~3 months.
CB)話者■話者同定については、登録話者9名とした。CB) speaker■ Regarding speaker identification, nine registered speakers were identified.
■話者照合については、登録話者9名、学習詐称者27
名、未学習詐称者10名とした。■ Regarding speaker verification, there were 9 registered speakers and 27 learned impostors.
The number of uneducated impostors was 10.
(C)前処理■入力音声「タダイマ」を、第2図に示す如く、4つの
ブロックに時間的に等分割する。(C) Preprocessing ■ The input voice "Tadaima" is temporally equally divided into four blocks as shown in FIG.
■音声波形を、第1図に示す如く、複数(n個)チャン
ネルのバントパスフィルタ10に通し、各ブロック即ち
各一定時間毎に第3図(A)〜(D)のそれぞれに示す
如くの周波数特性を得る。■The audio waveform is passed through a plurality (n) channel band pass filter 10 as shown in FIG. Obtain frequency characteristics.
この時、バントパスフィルタ10の出力は各ブロック毎
に平均化回路15で平均化される。At this time, the output of the band pass filter 10 is averaged by an averaging circuit 15 for each block.
(D)ニューラルネットワークによる処理及び判■前処
理の結果(ブロック毎のバンドパスフィルタ10の出力
)を、第1図に示す如く、3ftjjの階層的なニュー
ラルネットワーク20に入力する。入力層21は、前処
理の4ツロツク、nチャンネルに対応する、4Xnユニ
ツトにて構成される。出力層22は、話者同定について
は各登録話者に対応する9ユニツト、話者照合について
は登録話者群とその他の群とに対応する2ユニットにて
構成される。(D) Processing and determination by neural network ① The results of the preprocessing (output of the bandpass filter 10 for each block) are input to a 3ftjj hierarchical neural network 20 as shown in FIG. The input layer 21 is composed of 4×n units corresponding to 4 blocks and n channels for preprocessing. The output layer 22 is composed of nine units corresponding to each registered speaker for speaker identification, and two units corresponding to the registered speaker group and other groups for speaker verification.
■ニューラルネットワーク20の出力を判定回路30に
入力し、出力層22の各ユニットの出力値のうち最大の
値を出力したユニットを同定認識部31、照合認識部3
2のそれぞれにおいて判定し、結果として同定若しくは
照合を行なう。但し、本発明の実施において、ニューラ
ルネットワーク20の出力は判定回路30の如くにて機
織的に判定処理されず、ニューラルネットワーク20の
出力を得た人間の知力にて判定処理されるものであって
も貨い。■The output of the neural network 20 is input to the determination circuit 30, and the unit that outputs the maximum value among the output values of each unit of the output layer 22 is identified by the recognition unit 31 and the verification recognition unit 3.
2, and identification or verification is performed as a result. However, in the implementation of the present invention, the output of the neural network 20 is not mechanically judged by the judgment circuit 30, but is judged by the human intellect that has obtained the output of the neural network 20. Also money.
■前述した学習アルゴリズムのバックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで学習させ、一定認識率を保証し得るネットワー
クを構築する。尚、出力としては、各入力話者に対応し
たユニ・ソトが「1」、その他か「0」となるように学
習した。■By backpropagation of the learning algorithm described above, the network is trained until the output error with respect to the input converges to a certain level, and a network that can guarantee a certain recognition rate is constructed. It should be noted that the output was learned so that the uni-soto corresponding to each input speaker would be "1" and the others would be "0".
(E)実験上記認識システムlを用いて、話者同定と話者照合を実
験した。(E) Experiment Using the recognition system I described above, an experiment was conducted on speaker identification and speaker verification.
(a)話者同定入力音声は■登録話者9名の学習直後の「タダイマ」、
■登録話者9名の3ケ月後の「タダイマ」とした。(a) Speaker identification input speech is ■ “Tadaima” immediately after learning of 9 registered speakers,
■It was named "Tadaima" after 3 months with 9 registered speakers.
結果、学習直後の同定率100%に対し、3ケ月後の同
定率98%であり、経時的な同定率の劣化が極めて少な
いことか認められた。As a result, while the identification rate was 100% immediately after learning, the identification rate was 98% after 3 months, indicating that the deterioration of the identification rate over time was extremely small.
(b)話者照合入力音声は■登録話者9名と学習詐称者27名の学習直
後の「タダイマ」、■登録話者9名と学習詐称者27名
の3ケ月後の「タダイマ」、■未学習詐称者10名の「
タダイマ」とした。(b) The input voices for speaker verification are ■ "Tadaima" immediately after learning by 9 registered speakers and 27 learning impostors, ■ "Tadaima" after 3 months by 9 registered speakers and 27 learning impostors, ■ 10 uneducated impostors “
"Tadaima".
結果、学習直後の照合率100%に対し、3ケ月後の照
合率99%であり、経時的な照合率の劣化が極めて少な
いことが認められた。As a result, while the matching rate was 100% immediately after learning, the matching rate was 99% after three months, and it was confirmed that there was very little deterioration in the matching rate over time.
(e)処理速度1回の入力音声「タダイマ」に対し、同定又は照合に要
した時間は1秒以内であり、極めて迅速処理できること
が認められた。(e) Processing speed The time required for identification or verification of the input voice "Tadaima" once was less than 1 second, and it was confirmed that processing could be performed extremely quickly.
即ち、上記認識システム1にあっては、上記(a) 、
(b)の結果が示すように認識率が高く、而もその認識
率の経時的な劣化が極めて少ない。That is, in the recognition system 1, the above (a),
As shown in the result in (b), the recognition rate is high, and the deterioration of the recognition rate over time is extremely small.
又、上記認識システム1にあっては、上記 (c)の結
果が示すように話者認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。Further, in the recognition system 1, as shown in the result (c) above, the speaker recognition process can be performed quickly without using a complicated processing device, and can be easily performed in real time.
[発明の効果]以上のように本発明によれば、経時的な認識率の劣化か
極めて少なく、容易に実時間処理できる話者認識方式を
搏ることかできる。[Effects of the Invention] As described above, according to the present invention, it is possible to develop a speaker recognition method that can easily perform real-time processing with extremely little deterioration in recognition rate over time.
第1図は本発明が適用された話者認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。1・・・認識システム、10・・・バントパスフィルタ・15・・・平均化回路、20・・・ニューラルネットワーク、21・・・入力層22・・・出力層、30・・・判定回路、31・・・同定認識部、32・・・照合認識部。第1図特許出願人 積水化学工業株式会社代表者 廣1)馨第2図時間第3図(A)(B)(C)(D)第4図第5図↑入力パターンFig. 1 is a schematic diagram showing an example of a speaker recognition system to which the present invention is applied, Fig. 2 is a schematic diagram showing input speech, Fig. 3 is a schematic diagram showing the output of a band pass filter, and Fig. 4 is a schematic diagram showing an example of a speaker recognition system to which the present invention is applied. FIG. 5 is a schematic diagram showing a neural network. FIG. 5 is a schematic diagram showing a hierarchical neural network. FIG. 6 is a schematic diagram showing a unit structure. DESCRIPTION OF SYMBOLS 1... Recognition system, 10... Band pass filter, 15... Averaging circuit, 20... Neural network, 21... Input layer 22... Output layer, 30... Judgment circuit, 31...Identification recognition unit, 32...Verification recognition unit. Figure 1 Patent applicant Sekisui Chemical Co., Ltd. Representative Hiroshi 1) Kaoru Figure 2 Time Figure 3 (A) (B) (C) (D) Figure 4 Figure 5 ↑ Input pattern
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63291837AJPH02135500A (en) | 1988-11-17 | 1988-11-17 | Talker recognizing system |
| CA 2003183CA2003183C (en) | 1988-11-17 | 1989-11-16 | Speaker recognition system |
| DE1989621292DE68921292T2 (en) | 1988-11-17 | 1989-11-17 | Speaker recognition system. |
| EP19890121349EP0369485B1 (en) | 1988-11-17 | 1989-11-17 | Speaker recognition system |
| US08/150,785US5461697A (en) | 1988-11-17 | 1993-11-12 | Speaker recognition system using neural network |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63291837AJPH02135500A (en) | 1988-11-17 | 1988-11-17 | Talker recognizing system |
| Publication Number | Publication Date |
|---|---|
| JPH02135500Atrue JPH02135500A (en) | 1990-05-24 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63291837APendingJPH02135500A (en) | 1988-11-17 | 1988-11-17 | Talker recognizing system |
| Country | Link |
|---|---|
| JP (1) | JPH02135500A (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008152262A (en)* | 2006-12-15 | 2008-07-03 | Samsung Electronics Co Ltd | Speech feature vector conversion method and apparatus |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63261400A (en)* | 1987-04-20 | 1988-10-28 | 富士通株式会社 | Voice recognition method |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63261400A (en)* | 1987-04-20 | 1988-10-28 | 富士通株式会社 | Voice recognition method |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008152262A (en)* | 2006-12-15 | 2008-07-03 | Samsung Electronics Co Ltd | Speech feature vector conversion method and apparatus |
| US8838446B2 (en) | 2006-12-15 | 2014-09-16 | Samsung Electronics Co., Ltd. | Method and apparatus of transforming speech feature vectors using an auto-associative neural network |
| Publication | Publication Date | Title |
|---|---|---|
| CN109712628B (en) | A speech noise reduction method and speech recognition method based on DRNN noise reduction model established by RNN | |
| CN110379441B (en) | Voice service method and system based on countermeasure type artificial intelligence network | |
| CN109243467A (en) | Sound-groove model construction method, method for recognizing sound-groove and system | |
| CN113823293A (en) | A method and system for speaker recognition based on speech enhancement | |
| CN112151036A (en) | Anti-sound-crosstalk method, device and equipment based on multi-pickup scene | |
| CN111785262B (en) | Speaker age and gender classification method based on residual error network and fusion characteristics | |
| JPH03273722A (en) | Sound/modem signal identifying circuit | |
| CN111785284A (en) | Method, device and equipment for recognizing text-independent voiceprint based on phoneme assistance | |
| JPH06161496A (en) | Voice recognition system for recognizing remote control command words for home appliances | |
| JPH02135500A (en) | Talker recognizing system | |
| JPH02273798A (en) | Speaker recognition system | |
| JPH03230200A (en) | Voice recognizing method | |
| CN118194172A (en) | A communication interference signal recognition method based on Mobile-Former network | |
| JPH02273800A (en) | Speaker recognition system | |
| JPH02273799A (en) | Speaker recognition system | |
| CN105245497A (en) | Identity authentication method and device | |
| JPH02275996A (en) | Word recognition system | |
| CN113948089B (en) | Voiceprint model training and voiceprint recognition methods, devices, equipment and media | |
| CA2003183C (en) | Speaker recognition system | |
| JPH02304497A (en) | Word recognition system | |
| JPH03157698A (en) | Speaker recognizing system | |
| JPH04163600A (en) | Method of speaker recognition | |
| JPH05143094A (en) | Speaker recognition system | |
| JPH03230256A (en) | Voice recognizing method | |
| JPH03157697A (en) | Word recognizing system |