DE3129353A1

Movatterモバイル変換

Info

Publication number: DE3129353A1
Application number: DE19813129353
Authority: DE
Inventors: Werner Dipl.-Ing. 8000 München Liegl
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 1981-07-24
Filing date: 1981-07-24
Publication date: 1983-02-10

Abstract

The invention relates to a method for speaker-independent recognition of individual words from a provided word set in telecommunications systems with the aid of an electronic speech recognition system which essentially comprises a synthesis system which reproduces the words, a processing unit which splits spoken words up into parameters and a reference pattern memory containing reference patterns allocated to the words, a specific number of the individual words being spoken by a plurality of persons in the so-called learning phase. The intended object of the invention is to keep the recognition rate of the recognition device as high as possible despite the largest possible number of different speaking persons. The object is achieved in that every word which is spoken by a trainee and recognised is replicated by the synthesis system and reproduced in the learning phase to form the reference pattern. This allows the trainee to get used to the "machine language" and to adapt his mode of speech to it, thereby enabling more frequent recognition of the words by the recognition system.

Description

Translated fromGerman

Verfahren zur sprecherunabhängigen Erkennung vonMethod for speaker-independent recognition of

gesprochenen Worten in Fernmeldesystemen.spoken words in telecommunications systems.

Die Erfindung betrifft ein Verfahren zur sprecherunabhängigen Erkennungvon einzelnen gesprochenen Worten aus einer vorgegebenen Wortmenge in Fernmeldesystemenmit einer Teilnehmervorrichtung zur Eingabe der zu erkennenden Worte und einem nachgeschaltetenelektronischen Spracherkennungssystem, welches unter anderem aus einem alle einzelnenWorte in Parameterform enthaltenden und diese Worte bei Abru-f einzeln hörbar abgebendenSynthesesystem, aus einer die in einer Lernphase eingesprochenen Worte in Parameterzerlegenden Aufbereitungseinheit und aus einem die-nach Abschluß der Lernphase gebildetenReferenzmuster der einzelnen Worte enthaltenden Referenzmusterspeicher besteht undwobei in der Lernphase jedes einzelne Wort zur Bildung des Referenzmusters in bestimmterAnzahl, aber immer von einer anderen Person eingesprochen wird.The invention relates to a method for speaker-independent recognitionof individual spoken words from a given set of words in telecommunications systemswith a subscriber device for entering the words to be recognized and a downstream deviceelectronic speech recognition system, which, among other things, consists of an all individualContaining words in parametric form and emitting these words individually audibly on Abru-fSynthesis system, from one the words spoken in a learning phase into parametersdecomposing processing unit and from one which is formed after the learning phase has been completedThere is reference pattern of the reference pattern memory containing the individual words andwhereby in the learning phase each individual word for the formation of the reference pattern in certainNumber, but is always spoken by another person.

Soll eine Spracherkennung durch ein obengenanntes System von der Persondes Sprechers unabhängig sein, dann muß in der Lernphase, in der die Sprecher dieeinzelnen Worte und Befehle in das Spracherkennungssystem eingeben; Jeder Sprechereinmal oder mehrmals das bestimmte Wort in das System eingeben, wobei dieses Wortin geeignet ausgewählte Parameter zerlegt wird. Anschließend wirdeüber die einzelnenEingaben des Wortes gemittelt, so daß sich ein sprecherunabhängiges Referenzmusterergibt. Die auf diese Weise erhaltenen Referenzmuster der zu erkennenden Worte werdenin einem Referenzmusterspeicher abgespeichert.Should a speech recognition through an above-mentioned system from the personof the speaker must be independent, then in the learning phase, in which the speakers theenter individual words and commands into the speech recognition system; Any speakerEnter the specific word into the system one or more times, taking that wordis broken down into suitably selected parameters. Then it will be about the individualInputs of the word averaged, so that a speaker-independent reference patternresults. The reference patterns of the words to be recognized thus obtained becomestored in a reference pattern memory.

In der Erkennungsphase wird ein gesprochenes Wort in Parameter zerlegtund das daraus gebildete Testmuster mit allen abgespeicherten Referenzmustern verglichen.In the recognition phase, a spoken word is broken down into parametersand the test pattern formed therefrom is compared with all stored reference patterns.

Uberschreitet ein als Ähnlichkeitsmaß für äedes.Referenzmuster gebildeterZahlenwert eine vorgegebene Schwelle, so gilt das mit diesem Referenzmuster verbundeneWort als erkannt. Ist diese Schwelle bei allen Referenzmustern unterschritten, dannerfolgt eine Fehlermeldung (Nichterkennung) (Ruske, G.: Automatische Erkennung gesprochenerSprache Proc. DAG A"80, VDE-Verlag 1980, Seite 61 bis 72; Zwicker, E; Daxer, W.:Erkennung von 14 isoliert gesprochenen Worten in einem kompakten Gerät mit Mikroprozessora.a.O, Seiten 731 bis 734).Exceeds a reference pattern formed as a measure of similarity for aeedesIf a numerical value exceeds a predetermined threshold, then the one associated with this reference pattern appliesWord recognized. If this threshold is not reached for all reference patterns, thenan error message occurs (non-recognition) (Ruske, G .: Automatic recognition of spoken wordsLanguage proc. DAG A "80, VDE-Verlag 1980, pages 61 to 72; Zwicker, E; Daxer, W .:Recognition of 14 isolated spoken words in a compact device with a microprocessorloc. cit., pages 731 to 734).

Mit steigender Anzahl von unterschiedlichen Sprechern wird sich beider Mitteilung ein Referenzmuster mit immer weniger scharfer Wortcharakteristikergeben, so daß die nicht unterschreitbare Ähnlichkeitsschwelle immer höher angesetztwerden muß. Dadurch werden immer mehr eingesprochene Worte als nicht erkennbar vondem Erkennungssystem zurückgewiesen.As the number of different speakers increases,the communication a reference pattern with less and less sharp word characteristicsresult, so that the similarity threshold, which cannot be fallen below, is always set highermust become. As a result, more and more words are spoken as not recognizable byrejected by the detection system.

Die Aufgabe der Erfindung soll nun darin bestehen, ein einfaches Verfahrenzu finden, mit dem ohne großen Aufwand bei einem sprecherunabhängigen System dieErkennungsrate angehoben werden kann.The object of the invention is now to be a simple methodto find, with the without much effort in a speaker-independent system theDetection rate can be increased.

Dies erfolgt nach dem erfindungsgemäßen Verfahren dadurch, daß inder Lernphase zur Bildung des Referenzmusters eines jeden Wortes nach Einsprechendes entsprechenden Wortes durch eine Trainingsperson nach Erkennen des Wortes durchdas Erkennungssystem das entsprechende vom Synthesesystem produzierte Wort hörbarist.This is done according to the method according to the invention in that inthe learning phase to form the reference pattern of each word after speakingof the corresponding word by a training person after recognizing the wordthe recognition system audibly the corresponding word produced by the synthesis systemis.

Hieraus ergibt sich der Vorteil, daß sich, bedingt durcheinenLerneffekt, die einzelnen nachfolgenden das bestimmte Wort einsprechenden Personenin ihrer Sprechweise an die Sprechweise-des quittierenden Synthesesystems anpassen.Diese Synthesesprache bildet gewissermaßen ein 'tSprechnormal", das die Benutzeran eine für das Erkennungssystem günstige Sprechweise heranführt.This has the advantage that, due toaLearning effect, the individual subsequent people speaking the specific wordadapt their speech to the speech of the acknowledging synthesis system.This synthesis language forms, so to speak, a 'speaking standard' that the userintroduces a manner of speaking that is favorable for the recognition system.

Den größten Nutzen aus dem erfindungsgemäßen Verfahren zieht man dann,wenn man vor der Lernphase des Systems den Trainingssprechern die einzelnen Synthesewortezu Gehör bringt und so dafür sorgt, daß ein Referenzmuster möglichst viel Ähnlichkeit"mit dem entsprechenden Synthesewort hat. Diese"Ähnlichkeit" erstreckt sich auf dievon Sprecher zu Sprecher verschiedenen SprecheigentUmlichkeiten wie Betonung, Grundfrequenzverlauf,Sprechgeschwindigkeit-, Lautstärke, - Verschlucken von Vokalen und verschiedene(umgangssprachlich gefärbte) Aussprechmöglichkeiten.The greatest benefit from the process according to the invention is then obtainedif you give the training speakers the individual synthesis words before the learning phase of the systemto be heard and thus ensures that a reference pattern is as similar as possible "with the corresponding synthesis word. This "similarity" extends to theDifferent speech characteristics from speaker to speaker such as accentuation, fundamental frequency curve,Speech rate, volume, swallowing of vowels and various(colloquial colored) pronunciation options.

Zum besseren Verständnis des erfindungsgemäßen Verfahrens soll einekurze Beschreibung eines die menschliche Sprache erkennenden Systems erfolgen.For a better understanding of the method according to the invention, abrief description of a system that recognizes human language.

Ein elektronisches Spracherkennungssystem analysiert die akustischenParameter eines gesprochenen Wortes und vergleicht diese mit den Parametern vonvorher "gelernten" und in einem Referenzmusterspeicher abgespeicherten Worten. Esist also ein Lernvorgang erforderlich, der eine Sprecherabhängigkeit beinhaltet,Sprechunabhängige Geräte erhalten ihren Referenzmustersatz entweder durch Mitteilungüber die Sprechmuster einer Vielzahl von Sprechern - was für den. einzelnen Sprecherzu einem Absinken der Erkennungsrate führt -oder bei einer endlichen Zahl von bekanntenSprechern durch Abspeicherung der Referenzmuster aller Sprecher, wodurch vor allembei einer größeren Anzahl von zu erkennenden Worten ein großer Speicherplatz benötigtwird.An electronic speech recognition system analyzes the acousticParameters of a spoken word and compares them with the parameters ofwords previously "learned" and stored in a reference pattern memory. ItSo a learning process is required that includes speaker dependency,Speech-independent devices receive their reference pattern set either by notificationabout the speaking patterns of a multitude of speakers - what for. individual speakerleads to a decrease in the recognition rate -or with a finite number of known onesSpeakers by storing the reference pattern of all speakers, which above allrequires a large amount of storage space for a large number of words to be recognizedwill.

Die einzelnen Parameter eines Wortes werden aus dem Zeitverlauf desvon einem Mikrophon abgegebenen Signals abgeleitet. Dies erfolgt beispielsweisedurch eine Kurzzeitspektralanalyse und eine Anzahl weiterer Messungen, wie z.B.der Messung von Verlauf der Grundfrequenz, der Bestimmung stimmhafter und stimmloserIntervalle, dem Pegelverlauf und den Sprachpausen.The individual parameters of a word are taken from the time course of thederived from a microphone emitted signal. This is done for exampleby a short-term spectral analysis and a number of other measurements, e.g.the measurement of the course of the fundamental frequency, the determination of voiced and unvoicedIntervals, the level curve and the speech pauses.

Zum"Laden" des Referenzmusterspeichers spricht jeder Sprecher jedesgewünschte Wort einige Male in das Eingabegerät. Die Mitteilung der gewonnenen Parameterentweder über sämtliche Eingaben eines Sprechers oder über die Eingaben aller Sprecherzusätzlich einer Zeitnormierung (Wortanfang und Wortende werden erkannt und damitdas Wort unabhängig von der Sprechweise in einen bestimmten Zeitrahmen gebracht)ergibt dann das Referenzmuster dieses Wortes. Die Referenzmuster aller Worte bildenden Referenzmustersatz. Im Erkennungsvorgang wird dann wiederum die bereits beschriebeneErmittelung der Parameter des eingesprochenen Wortes und eine Wortanfangs- und Wortendeerkennungvorgenommen.To "load" the reference pattern memory, each speaker speaks each otherdesired word a few times into the input device. Communication of the parameters obtainedeither via all inputs of a speaker or via the inputs of all speakersadditionally a time standardization (beginning and end of word are recognized and thusbrought the word into a certain time frame regardless of the way it is spoken)then gives the reference pattern of this word. Form the reference patterns of all wordsthe reference sample set. The one already described is then used again in the recognition processDetermination of the parameters of the spoken word and recognition of the beginning and end of a wordperformed.

Nach einer Zeitnormierung erfolgt ein Vergleich des aus dem eingesprochenenWort gewonnenen und zeitnormierten Parametersatzes (Testmuster) mit den im Referenzmusterspeichervorliegenden Parametersätzen (Referenzmuster) aller Worte. Das mit dem ähnlichstenReferenzmuster verbundene Wort wird als erkanntes Wort ausgegeben, wobei ein bestimmterÄhnlichkeitswert überschritten werden muß. Ist dies nicht möglich, dann wird auf"Fehler" erkannt. Bei Erkennen der Ausgabe "Fehler" kann dann der Sprecher das gewollteWort erneut einsprechen. Wird das Wort richtig erkannt, dann erfolgt die Auswertungdesselben. Zum Beispiel bewirkt die Nennung eines Namens die automatische Wahl derzugehörigen Teilnehmernummer. Ist das Eingabegerät eine Lautsprechstation, dannkann somit durch Einsprechen des Namens eine vollständige Telefonverbindung aufgebautwerden.After a time normalization, a comparison is made of the spoken wordWord obtained and time-normalized parameter set (test pattern) with those in the reference pattern memoryexisting parameter sets (reference samples) of all words. The one with the closestReference pattern linked word is output as a recognized word, with a certainSimilarity value must be exceeded. If this is not possible, then it will open"Error found. If the output "error" is recognized, the speaker can then do what he wantsSpeak the word again. If the word is recognized correctly, the evaluation takes placesame. For example, giving a name causes the automatic selection of theassociated participant number. If the input device is a loudspeaker station, thenA complete telephone connection can thus be established by speaking the namewill.

In dem dem erfindungsgemäßen Verfahren zugrunde liegenden sprecherunabhängigenSystem geht man davon aus, daß es sich um ein System mit einem beispielsweise imHandel käufliches Synthesesystem handelt, in dem für einen ganz bestimmten Wortschatzdie Parameter für die Synthese dieser Worte abgespeichert sind. Diese Worte sindüber das Eingabegerät (Fernsprechapparat) abhörbar. In der auch hier notwendigenLernphase wird von mehreren Sprechern das gewünschte Wort eingesprochen.In the speaker-independent on which the method according to the invention is basedSystem is assumed to be a system with an imTrade commercial synthesis system, in which for a very specific vocabularythe parameters for the synthesis of these words are stored. These words arecan be listened to via the input device (telephone). In the one that is also necessary hereDuring the learning phase, several speakers speak the desired word.

Dabei wird beispielsweise nach dem ersten Einsprechen eines Sprechersund nach Erkennen des Wortes durch das System das gleiche Wort aus dem Systemspeicherangefordert. Dieses Wort ertönt in Systemsprache, so wie es ursprünglich bei derFertigung als am klarsten erkennbar für das System eingegeben wurde. Die weiterenSprecher können sich nach Mithören auf diese Sprache einstellen und sich in ihrerAusdrucksweise angleichen.-Das Wort in der Systemsprache kann jeweils erneut abgehörtwerden. Wird -letztlich aus dem Einsprechen aller Sprecher und einer Mittelung imReferenzmusterspeicher der entsprechende Referenzmusterparametersatz abgespeichert,dann wird dieser weitgehend durch die Systemsprache beeinflußt und dem entsprechendenParametersatz der Systemsprache angeglichen sein. Hieraus ergibt sich bei Beibehaltungder gelernten Sprechweise seitens der Sprecher eine systemgünstige Worteingabe undeine entsprechend hohe Erkennungsrate.For example, after a speaker has spoken for the first timeand upon recognition of the word by the system, the same word from the system memoryrequested. This word sounds in system language, as it was originally with theManufacturing was entered as most clearly recognizable to the system. The othersAfter listening in, speakers can adjust to this language and feel in theirAdjust wording.-The word in the system language can be listened to again each timewill. Will ultimately result from the speaking of all speakers and averaging in theReference pattern memory the corresponding reference pattern parameter set is stored,then this is largely influenced by the system language and the corresponding oneThe parameter set must be adapted to the system language. This results in retentionthe language learned on the part of the speaker a system-friendly word input anda correspondingly high recognition rate.

Aus dem Vorstehenden geht hervor, daß es nach dem erfindungsgemäßenVerfahren in einfacher und wirtschaftlicher Weise möglich ist, bei einem sprecherunabhängigenSpracherkennungssystem eine erhöhte Erkennungsrate zu erzielen.From the above it appears that it is according to the inventionProcedure in a simple and economical way is possible with a speaker independentSpeech recognition system to achieve an increased recognition rate.

1 Patentanspruch1 claim

Claims

Translated fromGerman

Patentanspruch Verfahren zur sprecherunabhängigen Erkennung von einzelnengesprochenen Worten aus einer vorgegebenen Wortmenge in Fernmeldesystem mit einerTeilnehmervorrichtung zur Eingabe der zu erkennenden Worte und einem nachgeschaltetenelektronischen Spracherkennungssystem, welches unter anderem aus'einem alle einzelnenWorte in Parameterform enthaltenden und diese Worte bei Abruf einzeln hörbar abgebendenSynthesesystem, aus einer die in einer Lernphase eingesprochenen Worte in Parameterzerlegenden Aufbereitungseinheit und aus einem die nach Abschluß der Lernphase gebildetenReferenzmuster der einzelnen Worte enthaltenden Referenzmusterspeicher besteht undwobei in der Lernphase das einzelne Wort zur Bildung des Referenzmusters in bestimmterAnzahl, aber immer von einer anderen Person eingesprochen wird, d a d u r c h ge k e n n z e i c h n e t daß in der Lernphase zur Bildung des Referenzmusters einesjeden Wortes nach Einsprechen des entsprechenden Wortes. durch eine Trainingspersonnach Erkennen des Wortes durch das Erkennungssystem das entsprechende vom Synthesesystemproduzierte Wort hörbar ist.Method for speaker-independent recognition of individualsspoken words from a given set of words in telecommunications system with aSubscriber device for entering the words to be recognized and a downstreamelectronic speech recognition system, which, among other things, consists of all individualContaining words in parameter form and emitting these words individually audibly when called upSynthesis system, from one the words spoken in a learning phase into parametersdecomposing processing unit and from one the one formed after completion of the learning phaseThere is reference pattern of the reference pattern memory containing the individual words andwhereby in the learning phase the individual word for the formation of the reference pattern in certainNumber, but is always spoken by another person, d u r c h ge k e n n n z e i c h n e t that in the learning phase for the formation of the reference pattern of aeach word after speaking the corresponding word. by a training personafter the word has been recognized by the recognition system, the corresponding one from the synthesis systemproduced word is audible.