DE19927317A1

Movatterモバイル変換

Info

Publication number: DE19927317A1
Application number: DE1999127317
Authority: DE
Inventors: Christoph Bueltemann; Heribert Leisner; Tilo Schlumberger; Detlef Zuendorf
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-06-15
Filing date: 1999-06-15
Publication date: 2000-12-21

Abstract

A speech signal (1) is digitalized through signal preparation (2) and prepared with digital filters in an optimum way. Commands (3) in a genetic program (5) are repeatedly called up with digitalized values for the speech signal during one of several preset time intervals. A classification result representing recognized content of the speech signal is then set.

Description

Translated fromGerman

Die Erfindung bezieht sich auf ein Verfahren zur automatischen Spracherkennung, Sprecheridentifizierung und Spracherzeugung auf Basis genetischer Programmierung (GP) sowie auf eine Vorrichtung zur Durchführung des Verfahrens.The invention relates to a method forautomatic speech recognition, speaker identification andLanguage generation based on genetic programming (GP)and on a device for performing the method.

Es ist bekannt, daß die automatische Spracherkennung, Sprecheridentifizierung und Spracherzeugung die Bedienung von Computersystemen stark vereinfacht, bzw. in manchen Fällen überhaupt erst ermöglicht.It is known that automatic speech recognition,Speaker identification and language generation the operation ofComputer systems greatly simplified, or in some casesmade possible at all.

Die automatische Spracherkennung kann sowohl zur Erkennung, gesprochener, übertragener Sprache, als auch zur Verifikation der Identität eines Benutzers eingesetzt werden.The automatic speech recognition can be used for recognition,spoken, transmitted language, as well as for verificationthe identity of a user.

Hinsichtlich Spracherkennungstechniken laufen verschiedene Forschungsvorhaben seit ca. 1950. In letzter Zeit wurden die Erkennungsmöglichkeiten durch die Entwicklung von statistischen Verfahren wie z. B. dem Hiddden-Markow-Modell(HMM) deutlich verbessert.There are several different types of speech recognition techniquesResearch projects since approx. 1950. Recently thePossibilities of recognition through the development ofstatistical methods such as B. the Hiddden-MarkowModel (HMM) significantly improved.

Aus der Literatur (Schukat-Talamazzini, E. G. (1995), Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, Braunschweig) ist bereits bekannt, daß Verfahren der Spracherkennung entweder auf dem Vergleich zwischen abgespeicherten Referenzmustern und der unbekannten Äußerung beruhen oder auf der Beschreibung einzelner Wörter des Vokabulars mittels stochastischer Modelle. Dabei wird eine Äußerung, bestehend aus digitalen Abtastwerten, zunächst in eine Folge von Sprachblöcken vorgegebener Dauer zerlegt, und dann für jeden Sprachblock ein Satz von Merkmalsgrößen berechnet. Jeder Satz ergibt einen sogenannten Merkmalsvektor. Die statistischen Eigenschaften der Merkmalsgrößen werden in dem modellbasierenden Ansatz durch Verteilungsdichtefunktionen mit entsprechenden Mittelwerten und Varianzen erfasst. Diese Mittelwerte und Varianzen müssen zunächst in einer Trainingsphase anhand einer Vielzahl von repräsentativen Trainingsäußerungen bestimmt werden, um einen Referenzsatz(ein Modell) zu gewinnen. Zur Erkennung einer unbekannten Äußerung werden dann für die Modelle, die die Wörter des Vokabulars repräsentieren, jeweils Wahrscheinlichkeiten berechnet.From the literature (Schukat-Talamazzini, E.G. (1995),Automatic speech recognition, basics, statistical modelsand efficient algorithms, Vieweg Verlag, Braunschweig)already known that methods of speech recognition eitheron the comparison between stored reference patterns andbased on the unknown utterance or on the descriptionindividual words of the vocabulary using stochasticModels. In doing so, an utterance consisting of digital Samples, first in a sequence of speech blockspredetermined duration, and then one for each speech blockSet of feature sizes calculated. Each sentence makes oneso-called feature vector. The statistical propertiesof the feature sizes are in the model-based approachthrough distribution density functions with correspondingAverage values and variances recorded. These averages andVariances must first be based on aVariety of representative training statements determinedto get a reference sentence (a model). ForDetection of an unknown utterance will then occur for theModels that represent the words of the vocabulary, respectivelyProbabilities calculated.

Aus DE 41 10 300 A1 ist bekannt, daß das Wort, dessen Modell die größte Wahrscheinlichkeit liefert, als erkannt gilt.From DE 41 10 300 A1 it is known that the word, its modelprovides the greatest probability than is recognized.

Diese statistischen Verfahren wurden durch die Einbeziehung und Kombination mit Methoden auf neuronaler Netzwerktechnologie erweitert.These statistical procedures have been incorporatedand combination with methods on neuralNetwork technology expanded.

Dabei sind folgende Verfahren zur Geräuschreduzierung bei der Spracherkennung bekannt:
Ein Verfahren zur Geräuschreduzierung ist die Cepstral Noise Reduction, die auf auf einem Multilayer-Netzwerk basierend auf LPC(Linear Predictive Coding) Cepstral Koeffizienten beruht. Hierbei setzt ein Noise Reduction Network mittels nichtlinearer auto-associative Mapping eine Anzahl von noisy Cepstral Koeffizienten in eine Anzahl von noise-free Cepstral Koeffizienten im Bereich der Cepstral um. Mit diesem Verfahren wird eine Erkennungsrate von 65% erreicht ("A Cepstral Noise Reduction Multi-Layer Neural Network"; Helge B. D. Sorensen; ICASSP91; Toronto, Canada, May 14-17, 1991).The following methods for noise reduction in speech recognition are known:
One method for noise reduction is cepstral noise reduction, which is based on a multilayer network based on LPC (linear predictive coding) cepstral coefficients. Here, a noise reduction network uses nonlinear auto-associative mapping to convert a number of noisy cepstral coefficients into a number of noise-free cepstral coefficients in the area of the cepstral. With this method, a recognition rate of 65% is achieved ("A Cepstral Noise Reduction Multi-Layer Neural Network"; Helge BD Sorensen; ICASSP91; Toronto, Canada, May 14-17, 1991).

Ein anderes Verfahren der Geräuschreduzierung basiert auf einen strukturierten universellem Netzwerk. Ein solches Netzwerk ermöglicht die Geräuschreduzierung durch die 3 folgenden Schritte.Another method of noise reduction is based ona structured universal network. Such oneNetwork enables noise reduction through the 3rdfollowing steps.

Der erste Schritt ist eine Spektralanalyse der gesprochenen Sprache. Der zweite ist ein eigen strukturiertes neuronales Geräuschreduzierungsverfahren SNNR (Self-Structuring Neural Noise Reduction). Das bereits geräuschreduzierte Ergebnis des SNNR-Netzwerkes wird dann im dritten Schritt durch das sogenannte Hidden Control Neural Network (HCNN) vervollständigt (Helge B. D. Sorensen und Uwe Hartmann; "A Self-Structuring Neural Noise Reduction Model"; Universität Aalborg; Dänemark; nach Mai 1991).The first step is a spectral analysis of the spoken oneLanguage. The second is a self-structured neuralNoise reduction method SNNR (Self-Structuring NeuralNoise Reduction). The already noise-reduced result of theSNNR network is then in the third step by theHidden Control Neural Network (HCNN)completed (Helge B. D. Sorensen and Uwe Hartmann; "A Self-Structuring Neural Noise Reduction Model "; UniversityAalborg; Denmark; after May 1991).

Ein weiteres bekanntes Verfahren zur Geräuschreduzierung ist das des Conectionist Models. Dabei wird ein 4stufiges Netzwerk durch einen Algorithem trainiert; verrauschte Signale in rauschfreie Signale umzusetzen. Auf diese Art ist das Netzwerk in der Lage, Geräuschreduzierung zu lernen. Weiterhin kann es verrauschte Signale, die nicht Teil der trainierten Signale sind, vom Geräusch separieren (Shin'ichi Tamura und Axel Waibel; "Noise Reduction Using Conectionist Models"; Osaka; Japan; ICASSP88; April 1988).Another known method for noise reduction isthat of the Conectionist Model. This is a 4-stepNetwork trained by an algorithm; noisy signalsto convert into noise-free signals. That's how it isNetwork able to learn noise reduction. Fartherthere may be noisy signals that are not part of the trainedSignals are separate from noise (Shin'ichi Tamura andAxel Waibel; "Noise Reduction Using Conectionist Models";Osaka; Japan; ICASSP88; April 1988).

Weiterhin wurden verschiedene Netzwerktopologien und verschiedene Variationen von Trainingsalgorithmen bei der Verwendung von neuronalen Netzwerken zur Geräuschreduzierung getestet und optimiert (Michael Trompf; "Building Blocks for a Neural Noise Reductionm Network for Robust Speech Recognition"; Proceedings of EUSIPCA 1992, Brüssel, Belgien; August 24-27, 1992).Furthermore, various network topologies anddifferent variations of training algorithms at theUse of neural networks for noise reductiontested and optimized (Michael Trompf; "Building Blocks for aNeural Noise Reductionm Network for Robust SpeechRecognition "; Proceedings of EUSIPCA 1992, Brussels, Belgium;August 24-27, 1992).

Verfahren zur Sprecherverifikation verwenden personenspezifische Eigenschaften der menschlichen Stimme als Merkmale. Mit ihnen wird die Identitätsüberprüfung einer Person anhand einer kurzen Sprachprobe der jeweiligen Person möglich. Überlicherweise werden bei diesem Verfahren aus mindestens einer digitalen Sprechprobe sprecherspezifische Merkmale extrahiert. Bei diesen Verfahren zur Sprecherverifikation werden zwei unterschiedliche Phasen, eine Trainings- und eine Testphase unterschieden.Use speaker verification proceduresperson-specific properties of the human voice asCharacteristics. With them, identity verification becomes onePerson based on a short speech sample of the respective personpossible. Usually, this procedure will be outat least one digital speech sample speaker-specificCharacteristics extracted. In these procedures, the speakerverification will be two different phases, oneTraining and a test phase differentiated.

In einer Trainingsphase werden bei sog. textabhängigen Sprecherverifikationsverfahren von einem Benutzer vorgebbare Äußerungen in eine Anordnung eingesprochen. Daraus werden Referenz-Merkmalvektoren gebildet, welche sprecherspezifische Merkmale enthalten. Dazu wird das Sprachsignal in kleine, pseudostationäre Abschnitte unterteilt. Für die Dauer dieser Abschnitte wird das Sprachsignal als stationär angenommen. Üblicherweise weisen diese Abschnitte eine Zeitdauer von ca. 10 bis 20 ms auf.In a training phase, so-called text-dependentSpeaker verification procedure predefined by a userComments expressed in an order. From that becomeReference feature vectors formed, which speaker-specificFeatures included. To do this, the speech signal is divided into small,pseudo-stationary sections divided. For the duration of thisSections, the speech signal is assumed to be stationary.These sections usually have a duration of approx.10 to 20 ms.

In der Testphase wird für das Sprachsignal mindestens eine, üblicherweise eine Vielzahl von Merkmalsvektoren gebildet, die mit der Sprachprobe verglichen werden. Bei genügend kleinem Abstand wird der Sprecher als der zu verifizierende Sprecher akzeptiert. Aus S. Furui; "Cepstral Analysis Technique for Automatic Speaker Verification"; IEEE Transactions ASSP, Vol. ASSP-29, Nr. 2, S. 254-272, April 1981, ist das zuvor beschriebene Verfahren bekannt, bei dem ein erheblicher Nachteil darin zu sehen ist, daß das Verfahren eine hohe Unsicherheit bei der Verifikation des Sprechers aufweist. Dies resultiert daher, daß eine Entscheidungsschwelle für die Akzeptanz oder Zurückweisung des Sprechers bestimmt werden muß. Diese Bestimmung erfolgt lediglich aus den sehr kurzen pseudostationären Abschnitten der Sprachprobe des zu verifizierenden Benutzers. Selbst das in DE 196 30 109 A1 beschriebene Verfahren, das die Berücksichtigung eines "Gegenbeispiels" beschreibt (Sprechprobe eines nicht zu verifizierenden Sprechers), ändert nichts an der grundsätzlichen Problematik des Verfahrens.In the test phase, at least one,usually formed a plurality of feature vectors thatbe compared with the speech sample. With enough smallDistance is the speaker as the speaker to be verifiedaccepted. From S. Furui; "Cepstral Analysis Technique forAutomatic Speaker Verification "; IEEE Transactions ASSP, Vol.ASSP-29, No. 2, pp. 254-272, April 1981, that was beforedescribed method known in which a significantThe disadvantage of this is that the process is highUncertainty in the verification of the speaker. Thistherefore results in a decision threshold for theAcceptance or rejection of the speaker can be determinedgot to. This determination is made only from the very shortpseudo-stationary sections of the speech sample of the verifying user. Even that in DE 196 30 109 A1described method, which takes into account a"Counterexample" describes (speech sample one notverifying speaker) does not change the reasonadditional problems of the procedure.

Der Zweck einer automatischen Spracherzeugung ist im allgemeinen, für einen Menschen, der einen Computer oder ein Gerät benutzt, unterschiedliche Formen an Informationen zur Verfügung zu stellen.The purpose of automatic language generation is ingeneral, for a person using a computer or aDevice uses different forms of informationTo make available.

Daher Zweck sollte die automatische Spracherzeugung den Benutzer mit aus einem gegebenen Text synthetisierter Sprache mit hoher Qualität bedienen. Die Erzeugung von Sprache aus Text erfordert die Umwandlung eines elektronisch gespeicherten, geschriebenen oder gedruckten Textes in gesprochene Sprache. Es ist viel günstiger, aus Text erzeugte Sprache auszugeben, als Sprache aufzunehmen und wieder abzuspielen. Die Erzeugung von Sprache wird oft dann verwendet, wenn der Text voraussichtlich oft variiert und er vorher nicht ohne weiteres aufgenommen werden kann.Therefore, automatic speech generation should aimUser with language synthesized from a given textoperate with high quality. The generation of speechText requires the conversion of an electronic onestored, written or printed text inspoken language. It is much cheaper to use textOutput language, record as language and againto play. The generation of speech is often thenused when the text is expected to vary often and hecannot be easily recorded beforehand.

Bei einer Sprache wie z. B. Deutsch oder Englisch, bei der die Aussprache eines Wortes oft nicht klar aus der Schreibweise der Wörter ersichtlich ist, ist es wichtig, die Schreibweise in einem sprachlichen Modul in eindeutige phonetische Darstellungen umzuwandeln, bevor die Schreibweise an ein akustisches Modul zur Erzeugung von Sprachsignalverläufen weitergeleitet wird. Um eine phonetische Darstellung einer Schreibweise zu erzeugen, kann ein auf Regeln basierendes System, bzw. können Aussprachewörterbücher oder auf solche Aussprachewörterbücher trainierte automatische Verfahren, zur Umwandlung der Schreibweise in Aussprache verwendet werden.In a language such as B. German or English, in which thePronunciation of a word is often not clear from the spellingof the words is evident, it is important the spellingin a linguistic module into clear phoneticConvert representations before spelling out aacoustic module for the generation of speech waveformsis forwarded. For a phonetic representation of aGenerating spelling can be based on rulesSystem, or can pronunciation dictionaries or on suchPronunciation dictionaries trained automatic procedures toConversion of spelling to pronunciation can be used.

Aussprachelexika und daher auch auf Aussprachelexika trainierte automatische Verfahren verwenden lexikalische Aussprachen. Lexikalische Aussprachen sind unterspezifizierte, verallgemeinerte Aussprachen, die veränderte postlexikalische Aussprachen in natürlicher Sprache ergeben können aber nicht müssen. Zum Beispiel kann das englische Wort "foot" in einem Aussprachewörterbuch als /fuht/ aufgeführt werden.Pronunciation dictionaries and therefore also on pronunciation dictionariestrained automatic procedures use lexicalDebates. Lexical pronunciations are under-specified,generalized pronunciations, the changed postlexicalPronunciations in natural language cannot resulthave to. For example, the English word "foot" in onePronunciation dictionary to be listed as / fuht /.

Aussprachen werden in der TIMIT-(Texas Instrument-Massachusetts Institut of Technologie-)Notation angegeben, die in "The Structure and Format of the DARPA TIMIT CD-ROM Prototype" von John S. Garofolo beschrieben wird. In natürlicher Sprache könnte das letzte /t/ als [t] auftauchen, wenn zum Beispiel "foot" einen Satz beendet, oder als flap [dx], wenn "foot" vor einem anderen Wort kommt, das im selben Satz mit einem Vokal beginnt, wie in "my foot is . . .".Pronunciations are in the TIMIT- (Texas Instrument-Massachusetts Institute of Technology) notationdescribed in "The Structure and Format of the DARPA TIMIT CD-ROMPrototype "by John S. Garofolo. Innatural language, the last / t / could appear as [t],if, for example, "foot" ends a sentence, or as a flap[dx] if "foot" comes before another word in the sameSentence begins with a vowel, as in "my foot is...".

In neuronalen Netzen und anderen von Daten gesteuerten Verfahren zur Spracherzeugung wird ein Lernverfahren verwendet, um zu lernen, wie aus phonetischer Information spektrale Sprachinformationen erzeugt wird. Auf diese Art werden die akustischen Parameter des neuronalen Netzes trainiert. Dabei werden Sprachsignalverläufe mit phonetischen Informationen gekennzeichnet, und dann wird zum Beispiel ein neuronales Netz oder ein anderes von Daten gesteuertes System trainiert, um die spektralen Charakteristiken, der mit diesen Zeitabschnitten verbundenen Laute zu lernen.In neural networks and others controlled by dataLanguage production process becomes a learning processused to learn how from phonetic informationspectral speech information is generated. In this mannerbecome the acoustic parameters of the neural networktrained. Here, speech waveforms with phoneticInformation is flagged, and then, for example, aneural network or another system controlled by datatrained to the spectral characteristics of thoseTo learn periods of connected sounds.

Wenn das neuronale Netzsystem tatsächlich eingesetzt wird, muss das neuronale Netz geeignete spektrale Informationen aus bestimmten phonetischen Information erzeugen. Wie oben erwähnt, werden die phonetische Information aus einem Text mittels eines Schreibweise-Phonetik-Lexikons oder mit einem automatischem Verfahren, das mit solch einem Lexikon trainiert wurde, abgeleitet.If the neural network system is actually used,the neural network must provide suitable spectral informationgenerate certain phonetic information. As abovementions the phonetic information from a textby means of a spelling-phonetics lexicon or with aautomatic procedure that trains with such a lexicon was derived.

Da von Daten gesteuerte Verfahren zur Erzeugung von Sprache Testdaten erzeugen sollen, die den Trainingsdaten entsprechen und die damit natürlicher Sprache ähneln, ist es ist wichtig, dass die in der Testphase entwickelten phonetischen Darstellungen im Wesentlichen zu jenen passen, die in die Trainingsphase verwendet wurden. So ist sichergestellt, dass die höchste Zuverlässigkeit erreicht wird. Leider sind zwischen den in Wörterbüchern gefundenen lexikalischen Aussprachen und den Aussprachen, die verwendet werden, um Sprache zu kennzeichnen, immer Abweichungen möglich. Diese Abweichungen können mindestens vier verschiedene Ursachen haben: Eigenarten des Sprechers, Eigenarten des Wörterbuchs, Eigenarten der Markierung und Unterschiede zwischen lexikalischen und postlexikalischen Aussprachen.As a data-driven method for generating speechShould generate test data that correspond to the training dataand which resemble natural language with it, it is importantthat the phonetic developed in the test phaseRepresentations essentially match those that fit into theTraining phase were used. This ensures thatthe highest reliability is achieved. Unfortunatelly it isbetween the lexicals found in dictionariesPronunciations and the pronunciations that are used toTo label language, deviations are always possible. ThisDeviations can have at least four different causeshave: idiosyncrasies of the speaker, idiosyncrasies of the dictionary,Characteristics of the marking and differences betweenlexical and post-lexical pronunciations.

Die zur Zeit eingesetzten Verfahren benötigen sehr große Ressourcen an CPU-Leistung und Speicher sind bei der Sprecheridentifizierung unzuverlässig, bei der automatischen Spracherzeugung läßt die Sprachqualität zu wünschen übrig. Darüber hinaus sind sie sind nur eingeschränkt für Echtzeitapplikationen einsetzbar, so daß dies dazu führt, daß entsprechende Lösungen dazu, einen großen Platzbedarf erfordern und hohe Kosten verursachen. Die Folge davon ist, daß diese Lösungen in embedded Applikationen nicht einsetzbar sind. Auch werden diese Verfahren in keinster Weise den Anforderungen, wie sie im Freien, Industriebetrieben oder in Fahrzeugen auftreten, d. h., unter Einbeziehung von Hintergrundgeräuschen, gerecht, da die Erkennungsleistung bei Einsatzbedingugnen dieser Art rapide absinkt.The processes currently used require very large onesCPU power and memory resources are includedSpeaker identification unreliable in automaticSpeech generation leaves much to be desired in terms of speech quality.In addition, they are only limited forReal-time applications can be used, so that this leads to the fact thatappropriate solutions, a large space requirementrequire and cause high costs. The consequence of this isthat these solutions cannot be used in embedded applicationsare. Nor will these procedures in any wayRequirements as they are in the open air, industrial plants or inVehicles occur, d. that is, includingBackground noise, just because the detection performance atConditions of use of this kind drop rapidly.

Es sind Rechnereinheiten bekannt zur Steuerung von Geräten, Maschinen, Computern und Produktionsanlagen. Diese werden im Wesentlichen zur Steuerung und Regelung der vorgenannten Systeme verwendet. Weiterhin sind erste Geräte bekannt, in denen Schaltkreise (Chips) eingebaut sind, die nur eine eingeschränkte Funktionalität hinsichtlich der Spracheingabe besitzen. Diese Chips können nur eine geringe Anzahl von Sprachkommandos erkennen und sind sehr empfindlich bei Veränderung der Stimmlage und gegenüber Störgeräuschen. Derartige Rechnereinheiten mit solchen eingebauten Chips werden derzeit von Firmen wie z. B. Sensorx, Inc. (Sunnyval, CA, USA) oder fonix, Inc. (Salt Lake City, UT, USA) hergestellt und angeboten. Die derzeit auf dem Markt erhältlichen Rechnereinheiten (embedded systeme) sind nicht für den Mensch-Maschine Dialog auf Sprachbasis ausgelegt, sondern werden durch die Eingabe mittels verschiedener Bedienelemente (z. B. Schalter oder Taster) und/oder Tastatur bedient. Die Reaktion bzw. Antwort der Rechnereinheiten erfolgt im Allgemeinen dann mittels einem alphanummerischen und/oder graphischen Display.Computer units are known for controlling devices,Machines, computers and production facilities. These are in the Essential for the control and regulation of the aforementionedSystems used. Furthermore, the first devices are known inwhich have built-in circuits (chips) that only have onelimited functionality regarding voice inputhave. These chips can only be a small number ofRecognize voice commands and are very sensitive toChanges in voice and noise.Such computer units with such built-in chipsare currently used by companies such as B. Sensorx, Inc.(Sunnyval, CA, USA) or fonix, Inc. (Salt Lake City, UT, USA)manufactured and offered. The currently on the marketavailable computer units (embedded systems) are notdesigned for human-machine dialogue based on language,but are entered by means of differentOperating elements (e.g. switches or buttons) and / or keyboardserved. The response or response of the computing unitsis generally done using an alphanumericand / or graphic display.

Die vorgenannten bekannten Rechnereinheiten sind durch ihre eingeschränkte Funktionalität hinsichtlich der Sprachein- und Sprachausgabe nur bedingt für den Mensch-Maschine Dialog geeignet. Weiterhin sind diese Rechnereinheiten, die durch Schalter, Taster oder Tastatur bedient werden, im Gegensatz zur automatischen Sprachein- und Sprachausgabe (gemäß der vorliegenden Erfindung) erheblich fehleranfälliger, störanfälliger und aufwendiger (in der Handhabung) hinsichtlich der Datenein- oder Ausgabe. Darüber sind bei solchen Systemen immer entsprechende Fähigkeiten und Kenntnisse bezüglich der Funktionsweise und Bedienung (z. B. bei der Tastatur) erforderlich.The aforementioned known computer units are characterized by theirlimited functionality in terms of voice input andVoice output only conditionally for human-machine dialoguesuitable. Furthermore, these computing units are made bySwitches, buttons or keyboards are operated, in contrastfor automatic voice input and output (according to thepresent invention) significantly more susceptible to errors,more prone to failure and more complex (in handling)regarding data input or output. About are atsuch systems always have the appropriate skills andKnowledge of how it works and how to use it (e.g.with the keyboard) required.

Die Aufgabe der vorliegenden Erfindung besteht nun darin, ein Verfahren und/oder eine Vorrichtung zu schaffen, das eine zuverlässige automatische Spracherkennung ermöglicht, die effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert, sowie sich leicht und einfach in embedded Systeme (eingebundene Mikrorechnersteuerungen), und Geräte integrierten läßt. Weiterhin ermöglicht es die verläßliche Identifikation des Sprechers/-in und stellt eine Ausgabemöglichkeit mittels Sprachsynthese bereit.The object of the present invention is now aTo create a method and / or an apparatus, the one enables reliable automatic speech recognition thatefficient and robust even in the event of malfunctionsBackground noise works, as well, and easilysimply in embedded systems (integratedMicrocomputer controls), and devices integrated.It also enables reliable identification of theSpeaker and provides an output option by means ofSpeech synthesis ready.

Zur Lösung dieser Aufgabe wird vorgeschlagen, daß
To solve this problem, it is proposed that

a) ein Sprachsignal mit einer vorgebbaren Taktrate digitalisiert wird,a) a voice signal with a predeterminable clock rate digitalis isized
b) die digitalisierten Werte des Sprachsignals derart einem GP zugeführt werden, daß durch den wiederholten Aufruf des GP's mit Werten des digitalisierten Sprachsignals ein Klassifikationsergebnis gebildet wird,b) the digitized values of the speech signal in such a GPbe supplied by the repeated call of the GPwith values of the digitized speech signalClassification result is formed,
c) die Klassifikation auf Basis des Klassifikationsergebnisses unter Betrachtung des Wertes und/oder der Änderung des Wertes in vorgebbaren und/oder festen Intervallen erfolgt,c) the classification based on the classification resultconsidering the value and / or the change inValue takes place in predefinable and / or fixed intervals,
d) daß die Verarbeitung des Klassifikationsergebnises derart erfolgt, daß Phoneme und/oder Worte auf Basis von neuronalen Netzwerken (NN) und/oder auf der Basis von genetischen Programmen (GP) und/oder auf der Basis von Fuzzy Logik (FL) identifiziert werden,d) that the processing of the classification result in such a wayis done that phonemes and / or words based on neuralNetworks (NN) and / or based on geneticPrograms (GP) and / or based on fuzzy logic (FL)be identified,
e) eine Rechnereinheit eine Spracherkennung, Sprecheridentifizierung und Spracherzeugung aus Taktgenerator, CPU(Central Processor Unit), Befehlsspeicher und/oder Datenspeicher, Analogein- und/oder Analogausgangsschaltung beinhaltet.e) a computer unit a speech recognition, speaker idtification and speech generation from clock generator,CPU (Central Processor Unit), command memory and / orData storage, analog input and / or analog output circuitincludes.

Die vorstehenden Ausführungen werden anhand der Zeichnungen näher erläutert.The above statements are based on the drawingsexplained in more detail.

Somit zeigen:Thus show:

Fig. 1 den Datenfluß und die Datenverarbeitung bei der Bildung des Klassifikationsergebnisses,Fig. 1 the flow of data and the data processing in the image ung the classification result,

Fig. 2 den Datenfluß und die Datenverarbeitung bei der Interpretation von Klassifikationsergebnissen,Fig. 2 shows the data flow and data processing at the Inter pretation results of classification,

Fig. 3 eine Rechnereinheit in Draufsicht, bestehend aus Taktgenerator, CPU, Befehlsspeicher und/oder Datenspeicher sowie Analogein- und/oder Ausgangsschaltung,Fig generator. 3 shows a computer unit in plan view consisting of stroke, CPU, instruction memory and / or data storage as well as analog input and / or output circuit,

Fig. 4 eine Computermaus in Seitenansicht mit einer eingebauten Rechnereinheit und einem Mikrophon zur Spracheingabe,Fig. 4 is a computer mouse in side view, with its integral computing unit and a microphone for voice input,

Fig. 5 eine Rechnereinheit bzw. Spracherkennungseinheit in Draufsicht; einem Mikrophon; einem Lautsprecher und einer GSM-Anschlussbuchse,Fig. 5 is a computer unit or speech recognition unit in plan view; a microphone; a loudspeaker and a GSM connection socket,

Fig. 6 eine Rechnereinheit bzw. Spracherkennungs- und Spracherzeugungseinheit in Draufsicht mit einem Lautsprecher und einer GSM-Anschlussbuchse,Fig. 6 is a computer unit or speech recognition and speech generation unit in plan view with a loudspeaker and a GSM connection socket,

Fig. 7 eine Rechnereinheit bzw. einer Spracherkennungs- und Spracherzeugungseinheit in Draufsicht; einem Mikrophon; einem Lautsprecher und einer Anschlussbuchse für die Verbindung zur Steuereinheit des Rollstuhls,Fig. 7 is a computer unit or a speech recognition and speech generation unit in plan view; a microphone; a loudspeaker and a connection socket for the connection to the wheelchair control unit,

Fig. 8 eine Rechnereinheit mit einer Spracherkennungs- und Spracherzeugungseinheit in Draufsicht; einem Mikrophon; einem Lautsprecher; Funktionstasten, Anschlussbuchse für GPS-Antenne, Anschlussbuchse für FM-Antenne,Fig. 8 is a computer unit with a speech recognition and speech generation unit in plan view; a microphone; a speaker; Function keys, connection socket for GPS antenna, connection socket for FM antenna,

Fig. 9 eine Rechnereinheit bzw. in Draufsicht mit einer Spracherkennungs- und Spracherzeugungseinheit; einem Mikrophon; einem Lautsprecher; einem Funktionstastenfeld und einer Anzeige,Figure 9 is a computer unit and in plan view with a speech recognition and speech generationunit. a microphone; a speaker; a control panel and a display,

Fig. 10 ein Schaltkreis in Draufsicht, mit einem Taktgenerator, einem CPU-Kern, einem NN-Netz, einem Befehlsspeicher und/oder Datenspeicher sowie einer Analogeingangsschaltung und einer Analogausgangsschaltung.Fig. 10 is a circuit in plan view, with a clock generator, a CPU core, an NN network, a command memory and / or data memory and an analog input circuit and an analog output circuit.

Fig. 1 zeigt ein Fließbild gemäß dem erfindungsgemäßen Verfahren, welches den Datenfluß und die Bearbeitung des Sprachsignals (1) bis zum Klassifikationsergebnis (6) darstellt. Das Sprachsignal (1) wird mittels der Signaldigitalisierung bzw. der Signalaufbereitung (2) digitalisiert und optional aufbereitet (in der Form von digitalen Filtern). Diese GP-Kommandos (3) des genetischen Programms (5) werden wiederholt während eines der vorgebbaren Zeitintervalle mit digitalisierten Werten das Sprachsignals (1) aufgerufen. Daraufhin stellt sich ein Klassifikationsergebnis (6) ein, welches den erkannten Inhalt des Sprachsignals (1) repräsentiert.Fig. 1 shows a flow diagram according to the method according to the invention, illustrating the data flow and the processing of the speech signal(1) to the classification result(6). The speech signal (1 ) is digitized by means of signal digitization or signal conditioning (2 ) and optionally processed (in the form of digital filters). These GP commands (3 ) of the genetic program (5 ) are called up repeatedly during one of the predefinable time intervals with digitized values of the speech signal (1 ). A classification result (6 ) is then set, which represents the recognized content of the speech signal (1 ).

InFig. 2 wird das Verfahren für die Weiterverarbeitung des/der Klassifikationsergebnisse(s) (5) eines oder mehrerer genetischer Programme (4) dargestellt. Unter optionaler Zuführung von linguistischen Regeln (2), phonetischen Regeln (1) oder den vorgebbaren erkennbaren Worten (3) werden die Werte einem oder mehreren Funktionsblöcken (GP (8) und/oder Fuzzy Logik (7) und/oder NN (6)) zugeführt. Hierdurch wird ein Wort und/oder Phonemidenifikator (9) errechnet, welcher eine Liste von Worten/Phonemen oder ein einzelnes Wort/Phonem und dessen/deren Erkennungswahrscheinlichkeit beinhaltet.InFIG. 2, the method for the further processing of the / of the classification results (s)(5) one or more genetic programs(4) is shown. With the optional addition of linguistic rules (2 ), phonetic rules (1 ) or the predefinable recognizable words (3 ), the values are assigned to one or more function blocks (GP (8 ) and / or fuzzy logic (7 ) and / or NN (6 ) ) fed. In this way, a word and / or phoneme identifier (9 ) is calculated, which contains a list of words / phonemes or an individual word / phoneme and its / their recognition probability.

Fig. 3 beschreibt eine Vorrichtung, die eine Rechnereinheit (1) darstellt, die zur Spracherkennung, Sprecheridentifizierung und Spracherzeugung dient. Die Rechnereinheit (1) besteht aus einem Taktgenerator (2), welcher den Takt für die CPU(Central Processor Unit) (4) vorgibt, einem Befehls- und/oder Datenspeicher (5), in welchem Programme GP's sowie konventionell erstellte Programme und Daten gespeichert werden und einer Analogein- und/oder Analogausgangsschaltung (3) die Sprachsignale in digitale Werte und/oder digitale Werte in Sprachsignale umwandelt.Fig. 3 describes a device which is a computer unit(1) which is used for speech recognition, speaker identification, and speech production. The computer unit (1 ) consists of a clock generator (2 ), which specifies the clock for the CPU (Central Processor Unit) (4 ), a command and / or data memory (5 ), in which programs GPs and conventionally created programs and data are stored and an analog input and / or analog output circuit (3 ) converts the speech signals into digital values and / or digital values into speech signals.

InFig. 4 wird eine Computermaus (1) beschrieben, die mittels Spracheingabe bedient werden kann. Dabei wird per Sprachsteuerung über das Mikrophon (2) die Benutzeroberfläche auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik gesteuert. Diese Steuerung erfolgt mittels einer Rechnereinheit (3), die einen Sprachchip (4) beinhaltet, der die Bedienungskommandos umsetzt.InFig. 4 a computer mouse (1 ) is described which can be operated by voice input. The user interface is controlled by voice control via the microphone (2 ) on the basis of GP (genetic programs) and / or NN algorithms and / or fuzzy logic. This control takes place by means of a computer unit (3 ) which contains a voice chip (4 ) which implements the operating commands.

InFig. 5 wird eine Rechnereinheit bzw. Spracherkennungseinheit (1) gezeigt, bei der per Spracheingabe die Eingabe von SMS(Short-Message-System)-Nachrichten erfolgt. Dabei werden per Spracheingabe über das Mikrophon (2) mittels der Spracherkennungseinheit (1) auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik, SMS-Nachrichten erzeugt und über die GSM-Anschlussbuchse (4) an ein GSM-Telefon ausgegeben. Die Rückmeldung der Einheit erfolgt über den Lautsprecher (3).InFIG. 5, a computer unit or speech recognition unit(1) is shown, takes place at the voice input by the input of SMS (Short Message System) messages. SMS messages are generated by voice input via the microphone (2 ) using the voice recognition unit (1 ) on the basis of GP (genetic programs) and / or NN algorithms and / or fuzzy logic and via the GSM connection socket (4 ) output to a GSM phone. The unit reports back via the loudspeaker (3 ).

InFig. 6 wird eine Rechnereinheit bzw. Spracherzeugungseinheit (1) gezeigt, die automatisch eine GSM-Verbindung und/oder Funkverbindung aufbaut, und die Absetzung eines Notrufes durchführt. Dabei werden vorher abgespeicherte Daten in Sprache auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik umgesetzt und über die GSM-Anschlussbuchse (2) ausgegeben.InFIG. 6, a computer unit or voice generating unit(1) is shown, which automatically establishes a GSM connection and / or radio link, and performs the removal of an emergency call. Previously stored data is converted into speech based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic and output via the GSM connection socket (2 ).

Fig. 7 zeigt eine Rechnereinheit bzw. Spracherkennungs- und Spracherzeugungseinheit (1); einem Mikrophon (2); einem Lautsprecher (3) und einer Anschlussbuchse (4) für die Verbindung zur Steuereinheit des Rollstuhls. Dadurch ist eine sprachgesteuerte Bedienung auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik, der Steuerung des Rollstuhls möglich.Fig. 7 shows a computer unit or speech recognition and speech production unit(1); a microphone (2 ); a loudspeaker (3 ) and a connection socket (4 ) for the connection to the wheelchair control unit. This enables voice-controlled operation based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic to control the wheelchair.

InFig. 8 wird eine Rechnereinheit (1) mit einer Spracherkennungs- und Spracherzeugungseinheit (4) gezeigt. Über das Mikrophon (2) erfolgt die Spracheingabe auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik, die von der Rechnereinheit (1) über den Lautsprecher (3) zur Kontrolle wieder ausgegeben wird.InFIG. 8, a computer unit(1) is shown with a speech recognition and speech generation unit(4). The microphone (2 ) is used for voice input based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic, which is output again by the computer unit (1 ) via the loudspeaker (3 ) for control purposes.

Ergänzend können über die Funktionstasten (5) weitere Informationen oder Kommandos eingegeben werden. Nach der sprachgesteuerten Eingabe des Zieles erfolgt die Bestimmung der IST-Position mittels GPS-Daten (Global Position System), die von der GPS-Antenne empfangen werden, die an der GPS-Anschlussbuchse (6) angeschlossen ist. Diese Daten werden durch die über die FM-Antenne empfangenen D-GPS-Daten (Differential Global Position System), die an der FM-Anschlussbuchse (7) angechlossen ist, in der Genauigkeit korregiert. Daraus werden dann kontinuierlich Weg- bzw. Richtungshinweise ermittelt und über den Lautsprecher (3) ausgegeben.In addition, further information or commands can be entered using the function keys (5 ). After the voice-controlled entry of the destination, the actual position is determined by means of GPS data (Global Position System), which is received by the GPS antenna which is connected to the GPS connection socket (6 ). This data is corrected in terms of accuracy by the D-GPS data (Differential Global Position System) received via the FM antenna and connected to the FM connection socket (7 ). Directions and directions are then continuously determined and output via the loudspeaker (3 ).

InFig. 9 wird eine Rechnereinheit (1) mit einer Spracherkennungs- und Spracherzeugungseinheit (4) gezeigt. Dabei wird per Spracheingabe über das Mikrophon (2) mittels der Spracherkennungs- und Spracherzeugungseinheit (4) auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik die sprachgesteuerte Datenein- und Ausgabe von Produktions- und Lagerdaten ermöglicht. Über das Mikrophon (2) erfolgt die Spracheingabe, die von der Rechnereinheit (1) über den Lautsprecher (3) zur Kontrolle wieder ausgegeben, oder auf der Anzeige (6) dargestellt wird. Ergänzend können über die Funktionstasten (5) weitere Informationen oder Kommandos eingegeben werden.InFig. 9 is a computer unit(1) is shown with a speech recognition and speech generation unit(4). The voice-controlled data input and output of production and warehouse data is activated by voice input via the microphone (2 ) using the voice recognition and voice generation unit (4 ) based on GP (genetic programs) and / or NN algorithms and / or fuzzy logic enables. The microphone (2 ) is used for voice input, which is output again by the computer unit (1 ) via the loudspeaker (3 ) for checking purposes or is shown on the display (6 ). In addition, further information or commands can be entered using the function keys (5 ).

InFig. 10 wird ein Schaltkreis (1) dargestellt, der zur Spracherkennung, Sprecheridentifizierung und Spracherzeugung dient. Dieser Schaltkreis (1) beinhaltet einen Taktgenerator (2), einen GP-uP Kern (5), NN-Netz (6), einen Befehlsspeicher und Datenspeicher (7), eine Analogeingangsschaltung (2) und eine Analogausgangsschaltung (3).InFig. 10, a circuit(1) is shown, which is used for speech recognition, speaker identification, and speech production. This circuit (1 ) contains a clock generator (2 ), a GP-uP core (5 ), NN network (6 ), a command memory and data memory (7 ), an analog input circuit (2 ) and an analog output circuit (3 ).

Bei dem erfindungsgemäßen Verfahren wird ein Sprachsignal mit einer vorgegebenen Taktrate, z. B. 100 us, digitalisiert. Das Sprachsignal wird verändert und/oder transformiert, und/oder vorgeschaltete Algorithmen zur Merkmalsextraktion (wie digitale Filter) werden verwendet. Den GP's (genetischen Programmen) wird zusätzlich und/oder ausschließlich dieses Signal zugeführt. Das digitale Signal kann verändert und/oder transformiert werden, indem die Phonem- und/oder Wort-Identifikation auf der Basis von neuronalen Netzwerken (NN) erfolgt, und das Klassifikationsergebnis einem NN in Form von digitalen Werten zugeführt wird. Die Phonem- oder Wort-Identifikation können auch auf der Basis von Fuzzy Logik (FL) erfolgen. Dabei wird dann das Klassifikationsergebnis einer FL-Funktion in Form von digitalen Werten zugeführt.In the method according to the invention, a speech signal is includeda predetermined clock rate, e.g. B. 100 us, digitized. TheSpeech signal is changed and / or transformed, and / orupstream algorithms for feature extraction (such asdigital filters) are used. The GP's (geneticPrograms) is additionally and / or exclusively thisSignal supplied. The digital signal can be changed and / orbe transformed by the phoneme and / or wordIdentification based on neural networks (NN)and the classification result is an NN in the form ofis supplied to digital values. The phoneme or wordIdentification can also be based on fuzzy logic (FL)respectively. The classification result then becomes oneFL function supplied in the form of digital values.

Eine weitere Möglichkeit besteht darin, daß bei der Phonem- und/oder Wort-Identifikation das Klassifikationsergebnis einem oder mehreren GP's (genetischen Programm(en)) in Form von digitalen Werten zugeführt wird.Another possibility is that with the phonemeand / or word identification the classification resultor several GPs (genetic program (s)) in the form of is supplied to digital values.

Dem NN, den FL-Funktionen und den GP-Funktionen können zusätzlich linguistische und/oder phonetische Regeln und/oder die möglichen erkennbaren Phonemsequenzen, welche die erkennbaren Äußerungen repräsentieren, in Form von digitalen Werten zugeführt werden. Dabei wird das NN dadurch trainiert, daß eingangseitig in Form von digitalen Werten Klassifikationswrte angelegt werden, und ausgangseitig das gewünschte Signal eingespeist wird.The NN, the FL functions and the GP functions canadditionally linguistic and / or phonetic rules and / orthe possible recognizable phoneme sequences which therepresent recognizable utterances, in the form of digitalValues. The NN is trained bythat input side in the form of digital valuesClassification words are created, and on the output side thedesired signal is fed.

Zur Identifikation des Sprechers/der Sprecherin wird das Klassifikationsergebnis von GP's (genetischen Programmen) aus dem Sprachsignal verwendet.This is used to identify the speakerClassification result from GP's (genetic programs)used the speech signal.

Die Sprachsynthese und Spracherzeugung auf Basis von GP's (genetischen Programmen) wird dadurch realisiert, daß den GP's Phonemklänge in Form von digitalen Werten zugeführt werden und/oder die Phonemklänge von GP's generiert werden.Speech synthesis and speech generation based on GP's(genetic programs) is realized by the GP'sPhoneme sounds can be supplied in the form of digital valuesand / or the phoneme sounds are generated by GP's.

Weiterhin werden die Phonemklänge durch GP's und/oder NN (neuronalen Netzwerken) und/oder Fuzzy Logik kombiniert und/oder moduliert.Furthermore, the phoneme sounds by GP's and / or NN(neural networks) and / or fuzzy logic combinedand / or modulated.

Hierzu werden nachstehende Beispiele erläutert:The following examples are explained:

Beispiel 1example 1

Bei dem erfindungsgemäßen Verfahren ist es möglich, daß die sprachgesteuerte Eingabe eines Zieles auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik, durch Nennung des Ortes erfolgt, die bei kleineren Orten durch die Nennung der nächstgrößeren Stadt ergänzt wird. Dabei wird der Erkennungsprozess zweimal durchlaufen, wobei im 2. Durchlauf in Abhängigkeit zum Ergebnis des 1. Durchlaufes ein differenziertes Vokabular geladen wird.In the method according to the invention it is possible that thevoice-controlled entry of a destination based on GP(genetic programs) and / or NN algorithms and / orFuzzy logic, done by naming the place atsmaller places by naming the next largest cityis added. The recognition process is done twicepass through, in the 2nd pass depending on Result of the 1st run a differentiated vocabularyis loaded.

Beispiel 2Example 2

Die Steuerung einer Computermaus und die Navigation auf der Oberfläche eines Computerbetriebssystems kann per Sprachsteuerung auf Basis von GP (genetischen Programmen) und/oder NN-Algorithmen und/oder Fuzzy-Logik erfolgen. Damit ist es möglich, eine Computermaus herzustellen, bei der Benutzer alternativ die Betriebssystemkommandos direkt per Sprache eingibt, Menüs öffnet, Programme startet, oder Steuerkommandos absetzt, ohne erst den Mauszeiger auf die entsprechende Position zu fahren, und anzuklicken.The control of a computer mouse and the navigation on theSurface of a computer operating system can be perVoice control based on GP (genetic programs)and / or NN algorithms and / or fuzzy logic. In order toit is possible to make a computer mouse whereAlternatively, users can use the operating system commands directly viaEnter language, open menus, start programs, or controlissues commands without first hovering over thecorresponding position to drive, and click.

Beispiel 3Example 3

Gemäß der erfindungsgemäßen Vorrichtung, ist es möglich, daß die Rechnerheit die Eingabe von Sprache in SMS-(Short-Message-System)Nachrichten umsetzt. Dies wird dadurch erreicht, dass die Sprachkommandos und der Sprechtext des Benutzers erfaßt, von der Spracherkennung interpretiert und in das SMS-Datenformat umgewandelt wird.According to the device according to the invention, it is possible thatthe arithmetic the input of language in SMS- (short-Message system). This will do soachieved that the voice commands and the speech text of theUser detected, interpreted by the speech recognition and inthe SMS data format is converted.

Beispiel 4Example 4

Als weitere Möglichkeit wird vorgeschlagen, daß ein Notruf automatisch durch eine GSM-Verbindung und/oder Funkverbindung abgesetzt werden kann. Dies geschieht mittels Sprachsynthese und Spracherzeugung auf Basis von GP.Another possibility is that an emergency callautomatically through a GSM connection and / or radio connectioncan be discontinued. This is done using speech synthesisand speech generation based on GP.

Ebenso kann die Rechnereinheit einen Rollstuhl per Sprache steuern, indem die Sprachkommandos des Benutzers erfaßt, von der Spracherkennung interpretiert und in geeignete Fahrbefehle umgesetzt werden.The computer unit can also control a wheelchair by voicecontrol by capturing the user's voice commands frominterpreted the speech recognition and into suitable driving commandsbe implemented.

In gleicher Weise können Orientierungshilfen für Blinde und Sehbehinderte durch eine sprachgesteuerte Rechnereinheit realisiert werden, die z. B. Anweisungen bezüglich der Gehrichtung geben.In the same way, orientation aids for the blind and Visually impaired thanks to a voice-controlled computer unitbe realized, the z. B. Instructions RegardingGive direction of walking.

Letztlich kann auch in der Dateneingabe im Lagerwesen (z. B. Qualitätskontrolle, Fertigungsprozeßsteuerung) das Verfahren Einsatz finden. Durch den geringen Performenzbedarf, ist es möglich, die Sprachein- und Spracherzeugung in einem tragbaren Gerät unterzubringen, das bis zu 8 Stunden Betriebsdauer hat. Hier mit normaler Standard-PC Technologie zu arbeiten ist nicht möglich, da viel zu groß und fehleranfällig. Durch diese robuste Spracherkennung ist die Dateneingabe auch in einem Umfeld mit hohem Geräuschpegel bei hoher Genauigkeit möglich. Die Spracherzeugung gibt dann dem Benutzer Anweisungen oder wiederholt die Eingaben zur Verifizierung. Auch als interaktive Hilfe kann die Spracherzeugung eingesetzt werden.Ultimately, data entry in warehousing (e.g.Quality control, manufacturing process control) the procedureFind use. Due to the low performance requirement, it ispossible speech and language generation in a portableTo house the device that has up to 8 hours of operation.Here you can work with normal standard PC technologynot possible because it is much too large and prone to errors. Through thisRobust voice recognition is data entry in oneEnvironment with high noise level possible with high accuracy.Speech generation then gives instructions or to the userrepeats the entries for verification. Also asInteractive help can be used to produce speech.

Weitere Anwendungen gibt es im Bereich der embedded Systeme, d. h. in verschiedene Schaltungen eingebundene Mikrorechnersteuerungen, speziell dann, wenn die gesamte erforderliche Hard- und Software zur Spracherkennung, Sprecheridentifizierung und Spracherzeugung in einem Schaltkreis untergebracht wird.There are other applications in the area of embedded systems,d. H. integrated in different circuitsMicrocomputer controls, especially when the wholenecessary hardware and software for speech recognition,Speaker identification and language generation in oneCircuit is housed.

Vorteil dieser Erfindung ist es, ein Verfahren anbieten zu können, das eine zuverlässige automatische Spracherkennung ermöglicht, die effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert, sowie sich leicht und einfach in embedded Systeme, und Geräte integrierten läßt. Weiterhin ist von Vorteil, daß keine Vorverarbeitung des Zeitsignals (der digitalen Abtastwerte) erforderlich ist. Das Verfahren ist sprecherunabhängig. Es sind keine aufwendigen Trainingsprozeduren zu durchlaufen, oder umfangreiche Referenzsätze zu erstellen und zu speichern.The advantage of this invention is to offer a methodcan do that with reliable automatic speech recognitionenables the efficient and robust even in the event of malfunctionsBackground noise works, as well, and easilysimply integrated into embedded systems and devices.Another advantage is that no preprocessing of theTime signal (the digital samples) is required. TheThe procedure is independent of the speaker. They are not complexTo go through training procedures, or extensive onesCreate and save reference sentences.

Bei der Anwendung dieses Verfahrens zur Sprecheridentifizierung ergibt sich der Vorteil, daß die Identifizierung in Echtzeit, d. h. unmittelbar, erfolgt, und daß dafür keine weiteren Komponenten benötigt werden.When using this procedure to speakidentification has the advantage that the identifiornament in real time, d. H. immediately, and for thatno further components are required.

Bei der Anwendung des erfindungsgemäßen Verfahrens zur Spachausgabe ergibt sich der Vorteil, daß nur sehr wenig Speicher und CPU-Ressourcen benötigt werden, und für die Spracherzeugung ohne Zeitverzug erfolgt.When using the method according to the inventionLanguage output gives the advantage that very littleMemory and CPU resources are needed, and for thatLanguage generation takes place without delay.

Ein weiterer Vorteil ist die Möglichkeit Systeme, die auf diesem Verfahren bzw. auf solche Vorrichtungen basieren, klein und kostengünstig aufzubauen, die einfach handhabbar sind, leicht und portabel, sowie durch die gegebene Echtzeitreaktion für neue Anwendungsfelder geeignet sind.Another benefit is the ability to run systemsthis method or based on such devices, smalland inexpensive to build that are easy to use,light and portable, as well as through the given real-time reactionare suitable for new fields of application.

Claims

Translated fromGerman

1. Verfahren und Vorrichtung zur automatischen Spracherkennung, Sprecheridentifizierung und Spracherzeugung auf Basis genetischer Programmierung (GP),dadurch gekennzeichnet,

a) daß ein Audiosignal mit einer vorgebbaren Taktrate digitalisiert wird,
b) daß die digitalisierten Werte des Sprachsignals derart einem GP zugeführt werden, daß durch den wiederholten Aufruf des GP's mit Werten des digitalisierten Sprachsignals ein Klassifikationsergebnis gebildet wird,
c) daß die Klassifikation auf Basis des Klassifikationsergebnisses unter Betrachtung des Wertes und/oder der Änderung des Wertes in vorgebbaren und/oder festen Intervallen erfolgt,
d) daß die Verarbeitung des Klassifikationsergebnisses derart erfolgt, daß Phoneme und/oder Worte auf Basis von neuronalen Netzwerken (NN) und/oder auf der Basis von genetischen Programmen (GP) und/oder auf der Basis von Fuzzy Logik (FL) identifiziert werden,
e) daß eine Rechnereinheit eine Spracherkennung, Sprecheridentifizierung, Spracherzeugung bestehend aus Taktgenerator, CPU (Central Processor Unit), Befehlsspeicher und/oder Datenspeicher, Analogein- und/oder Analogausgangsschaltung beinhaltet.

1. Method and device for automatic speech recognition, speaker identification and speech generation based on genetic programming (GP),characterized in that

a) that an audio signal is digitized at a predeterminable clock rate,
b) that the digitized values of the speech signal are fed to a GP in such a way that a classification result is formed by repeatedly calling the GP with values of the digitized speech signal,
c) that the classification takes place on the basis of the classification result, taking into account the value and / or the change in value, at predeterminable and / or fixed intervals,
d) that the classification result is processed in such a way that phonemes and / or words are identified on the basis of neural networks (NN) and / or on the basis of genetic programs (GP) and / or on the basis of fuzzy logic (FL) ,
e) that a computer unit includes speech recognition, speaker identification, speech generation consisting of a clock generator, CPU (Central Processor Unit), command memory and / or data memory, analog input and / or analog output circuit.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phonem- und/oder Wort-Identifikation auf der Basis von neuronalen Netzwerken (NN) erfolgt, und das Klassifikationsergebnis einem NN in Form von digitalen Werten zugeführt wird.2. The method according to claim 1,characterized,that the phoneme and / or word identification on the Basis of neural networks (NN), and thatClassification result an NN in the form of digitalValues.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phonem- oder Wort-Identifikation auf der Basis von Fuzzy Logik (FL) erfolgt und das Klassifikationsergebnis einer FL-Funktion in Form von digitalen Werten zugeführt wird.3. The method according to claim 1,characterized,that the phoneme or word identification baseddone by fuzzy logic (FL) and thatClassification result of an FL function in the form ofis supplied to digital values.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Phonem- und/oder Wort-Identifikation das Klassifikationsergebnis einem oder mehreren GP's (genetischen Programm(en)) in Form von digitalen Werten zugeführt wird.4. The method according to claim 1,characterized,that in the phoneme and / or word identificationClassification result of one or more GPs(genetic program (s)) in the form of digital valuesis fed.

5. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß dem NN zusätzlich linguistische und/oder phonetische Regeln und/oder die möglichen erkennbaren Phonemsequenzen, welche die erkennbaren Äußerungen repräsentieren, in Form von digitalen Werten zugeführt werden.5. The method according to claim 1 and 2,characterized,that the NN additionally linguistic and / or phoneticRules and / or the possible recognizablePhoneme sequences, which are the recognizable utterancesrepresent, supplied in the form of digital valuesbecome.

6. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß die FL-Funktionen zusätzlich linguistische und/oder phonetische Regeln und/oder zusätzlich die möglichen erkennbaren Phonemsequenzen, welche die erkennbaren Äußerungen repräsentieren, in Form von digitalen Werten zugeführt werden.6. The method according to claim 1 and 3,characterized,that the FL functions are also linguistic and / orphonetic rules and / or additionally the possible onesrecognizable phoneme sequences, which the recognizableRepresent utterances in the form of digital valuesbe fed.

7. Verfahren nach einem der Ansprüche 1 und 4, dadurch gekennzeichnet, daß den GP-Funktionen zusätzlich linguistische und phonetische Regeln und/oder zusätzlich die möglichen erkennbaren Phonemsequenzen, welche die erkennbaren Äußerungen repräsentieren, zugeführt werden.7. The method according to any one of claims 1 and 4,characterized,that the GP functions additionally linguistic andphonetic rules and / oradditionally the possible recognizable phoneme sequences,which represent the recognizable utterances,be fed.

8. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das NN durch Sollwertvorgabe trainiert wird.8. The method according to claim 5,characterized,that the NN is trained by specifying the setpoint.

9. Verfahren nach einem der Ansprüche 1, 4 und 7, dadurch gekennzeichnet, daß den GP's (genetischen Programmen) zusätzlich und/oder ausschließlich dieses Signal zugeführt wird.9. The method according to any one of claims 1, 4 and 7,characterized,that the GP's (genetic programs) additionally and / oronly this signal is supplied.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß das digitale Signal verändert und/oder transformiert wird, und/oder vorgeschaltete Algorithmen zur Merkmalsextraktion (wie digitale Filter) verwendet werden.10. The method according to any one of claims 1 to 9,characterized,that the digital signal changes and / or transformsis, and / or upstream algorithms forFeature extraction (like digital filters) is usedbecome.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß das Klassifikationsergebnis von GP's (genetischen Programmen) aus dem Sprachsignal zur Identifikation des Sprechers/der Sprecherin verwendet wird.11. The method according to any one of claims 1 to 10,characterized,that the classification result of GP's (geneticPrograms) from the speech signal to identify theSpeaker is used.

12. Verfahren nach einem der Ansprüche 1 bis 11 für die Sprachsynthese und Spracherzeugung auf Basis von GP's (genetischen Programmen), dadurch gekennzeichnet, daß den GP's Phonemklänge in Form von digitalen Werten zugeführt werden und/oder die Phonemklänge von GP's generiert werden.12. The method according to any one of claims 1 to 11 for theSpeech synthesis and speech generation based on GP's(genetic programs),characterized, that the GP's phoneme sounds in the form of digital valuesbe supplied and / or the phoneme sounds of GP'sto be generated.

13. Verfahren nach einem der Ansprüche 1 bis 12 für die Sprachsynthese und Spracherzeugung auf Basis von GP's (genetischen Programmen), dadurch gekennzeichnet, daß die Phonemklänge durch GP's und/oder NN (neuronalen Netzwerken) und/oder Fuzzy Logik kombiniert und/oder moduliert werden.13. The method according to any one of claims 1 to 12 for theSpeech synthesis and speech generation based on GP's(genetic programs),characterized,that the phoneme sounds by GP's and / or NN (neuronalNetworks) and / or fuzzy logic combined and / orbe modulated.