DE4106347A1

Movatterモバイル変換

Info

Publication number: DE4106347A1
Application number: DE19914106347
Authority: DE
Inventors: Hans-Hermann Hamer; Andreas Noll; Herbert Piotrowski
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1991-02-28
Filing date: 1991-02-28
Publication date: 1992-09-03

Abstract

A speech signal is detected by a microphone (4) that provides an input to preprocessing module (6) that converts the signal into digital form and identifies parameters. Reference parameters are stored in a memory (8). A main processing stage (10) provides a comparison of values within each speech signal segment and the results are stored (26). Reference values are provided from a listing within a separate memory (25). Intermediate results of the identification process are held in a large capacity memory (20) with a fast access cycle. ADVANTAGE - Provides real time speech recognition process.

Description

Translated fromGerman

Die Erfindung betrifft eine Anordnung zur Erkennung der Wörter in einem Sprachsignal, mit einer Vorverarbeitungsanordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte einer Anzahl Parameter in einem Zeitabschnitt des Sprachsignals angibt, mit einer ersten Speicheranordnung, die eine Anzahl Referenzwerte enthält, von denen jeder Referenzwert die Werte der Parameter in einem Zeitabschnitt eines Referenzsprachsignals angibt und jeweils eine Folge von Referenzwerten ein zu erkennendes Wort eines vorgegebenen Vokabulars darstellt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit aus der ersten Speicheranordnung ausgelesenen Referenzwerten vergleicht und die Vergleichsergebnisse insbesondere unter Berücksichtigung von in einer zweiten Speicheranordnung gespeicherten Sprachregeln weiterverarbeitet und dabei Zwischenergebnisse in einer dritten Speicheranordnung zwischenspeichert und am Ende des Sprachsignals aus dem günstigsten Gesamtvergleichsergebnis eine Folge von erkannten Wörtern ausgibt.The invention relates to an arrangement for detecting theWords in a speech signal, with preprocessingarrangement that from the continuous speech signalderives temporal sequence from speech signal values from whicheach speech signal value the values of a number of parameters inindicates a period of the speech signal, with afirst memory arrangement, which has a number of reference valuescontains, each of which reference value the values ofParameters in a period of a reference languagesignals and a sequence of reference valuesa word to be recognized from a given vocabularyrepresents, and with a processing arrangement that eachSpeech signal value with from the first memory arrangementcompares the read reference values and the comparisonresults especially taking into account ina second memory arrangement stored voice rulesprocessed further and interim results in onethird memory arrangement temporarily and at the endthe speech signal from the cheapest overall comparisonresults in a sequence of recognized words.

Derartige Anordnungen sind allgemein bekannt, beispielsweise aus der EP 2 85 211 A2. Dicke bekannte Anordnung dient zur Erkennung von Wörtern in kontinuierlich gesprochener Sprache, wobei ein großes Vokabular vorgesehen ist und Sprachregeln berücksichtigt werden. Dabei wird mit Hilfe einer wirksam organisierten Suche der hohe Aufwand für Rechenzeit und Speicherbedarf, der bei einem derartigen Erkennungsproblem auftritt, erheblich reduziert. Von einer bestimmten Größe des Wortschatzes und einer bestimmten Menge von Sprachregeln an kann jedoch trotz der erheblichen Aufwandsreduktion eine Erkennung in Echtzeit nicht mehr durchgeführt werden. Die Ursache liegt dabei weniger in der unzureichenden Rechengeschwindigkeit als vielmehr in den Speicherzugriffszeiten. Bei jedem Sprachsignalwert sind nämlich für die Verarbeitung eines Referenzwertes eine große Anzahl Speicherzugriffe erforderlich, wobei die Speicheroperationen für die reine Vergleichsoperation noch hinzuzurechnen sind. Mit allen über die rein physikalischen Speicherzugriffe hinausgehenden Speicheroperationen wie z. B. Adreßberechnungen bei einem Vokabular von ca. 1000 Wörtern und einem mittleren Verzweigungsfaktor der Sprachregeln von 50 (d. h. einem Wort in einem Satz können aufgrund der Sprachregeln im Mittel 50 andere Wörter folgen), sind für jeden neuen Sprachsignalwert unter Umständen einige tausend Referenzwerte für eine sichere Erkennung zu verarbeiten. Da die Sprachsignalwerte im allgemeinen mit einem Abstand von 10 ms aufeinander folgen und andererseits bereits die Gesamtzahl der Speicherzugriffe für jeden Sprachsignalwert ein Mehrfaches dieser Zeit benötigen, ist eine Spracherkennung in Echtzeit unter diesen Umständen mit einem konventiellen Microprozessorsystem nicht möglich. Dies gilt unabhängig von der Rechengeschwindigkeit, da wie angegeben die wesentliche Zeit für Speicherzugriffe benötigt wird. Aus diesem Grunde würde eine Erhöhung der Rechengeschwindigkeit keine Beschleunigung der Sprachsignalverarbeitung bewirken.Such arrangements are generally known, for examplefrom EP 2 85 211 A2. Thick known arrangementis used to recognize words in continuousspoken language, using a large vocabularyis provided and language rules are taken into account.With the help of an effectively organized search thehigh expenditure for computing time and memory requirement, which atsuch a detection problem occurs significantlyreduced. Of a certain size of the vocabulary and a certain set of language rules howeverdespite the considerable reduction in effort, a detection inReal time can no longer be carried out. The cause isless in the insufficient computing speedrather than in memory access times. With everyoneVoice signal values are namely for processing aA large number of memory accessesrequired, with the store operations for pureComparative operation are still to be added. With allbeyond the purely physical memory accessoutgoing memory operations such as B. Address calculationswith a vocabulary of approx. 1000 words and oneaverage branching factor of the language rules of 50(i.e. a word in a sentence may be due to theLanguage rules follow 50 other words on average) are foreach new speech signal value may have somea thousand reference values for reliable detectionto process. Since the speech signal values generally withfollow each other 10 ms apart and othersthe total number of memory accesses foreach speech signal value a multiple of this timeneed is real-time speech recognition underthese circumstances with a conventional microprocessorsystem not possible. This applies regardless of theComputing speed, as stated the most importantMemory access time is required. For this reasonan increase in computing speed would notAccelerate speech signal processing.

Aufgabe der Erfindung ist es daher, eine Anordnung der eingangs genannten Art anzugeben, die eine schnellere Verarbeitung von Sprachsignalwerten ermöglicht, so daß mit begrenztem Aufwand auch bei komplexen Erkennungsverfahren eine Erkennung in Echtzeit möglich wird.The object of the invention is therefore an arrangement ofSpecify the type mentioned above, which is a fasterProcessing of speech signal values enables so that withlimited effort even with complex recognition processesreal-time recognition is possible.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß wenigstens die dritte Speicheranordnung in mehrere voneinander unabhängige dritte Speicher und die Verarbeitungsanordnung in mehrere einzelne Elemente aufgeteilt ist, die jeweils einander zugeordnet sind und je ein Modul mit einer Rechenanordnung für die Verarbeitungsanordnung und mit einer Speichereinheit für den dritten Speicher bilden, wobei alle Moduln parallel untereinander und mit der Vorverarbeitungsanordnung über einen gemeinsamen Bus verbunden sind und in jedem Modul die Rechenanordnung jeden neuen Sprachsignalwert unabhängig von den anderen Moduln mit einer Untermenge der Referenzwerte vergleicht und nur die dabei erzeugten Vergleichsergebnisse weiterverarbeitet.This object is achieved in thatat least the third memory arrangement in severalindependent third memory and theProcessing arrangement in several individual elementsis divided, which are each assigned to each other andone module each with a computing arrangement for theProcessing arrangement and with a storage unit forform the third memory, with all modules in parallelwith each other and with the preprocessing arrangementare connected to a common bus and in each modulethe computing arrangement each new speech signal valueindependent of the other modules with a subset of theCompares reference values and only those generatedComparative results processed further.

Die Erkennung macht sich den Umstand zunutze, daß ein Sprachsignalwert einer großen Anzahl von Verarbeitungsoperationen unterworfen wird, insbesondere einer großen Anzahl von Vergleichen, wobei die Vergleichsergebnisse weiterverarbeitet werden müssen, und daß diese Operationen zu einem wesentlichen Teil unabhängig voneinander sind. Durch die Aufteilung insbesondere des Speichers, auf den die meisten Speicherzugriffe während der Verarbeitung des Sprachsignalwertes erfolgen, auf mehrere einzelne, voneinander unabhängige Speichereinheiten und zeitlich parallele Durchführung der Verarbeitung eines Sprachsignalwertes in getrennten Rechenanordnungen kann dann eine wirksame Parallelverarbeitung erfolgen, ohne daß wesentliche Wartezeiten durch voneinander abhängige Verarbeitungen entstehen.The detection takes advantage of the fact that aSpeech signal value of a large number of processingoperations, especially a large oneNumber of comparisons, the comparison resultsmust be processed and that these operationsare largely independent of each other.By dividing in particular the memory on themost memory accesses while processing theSpeech signal values take place on several individual,mutually independent storage units and temporallyparallel processing of a languageSignal values in separate computing arrangements can theneffective parallel processing takes place withoutsignificant waiting times due to interdependentProcessing occurs.

Insbesondere wenn ein Sprachmodell verwendet wird, bei dem einzelne Folgen von Knoten und Übergängen teilweise voneinander unabhängig sind, beispielsweise wie bei dem in der genannten EP 2 85 211 A2 angegebenen Sprachmodell, ist es zweckmäßig, daß die Untermenge der Referenzwerte je Modul fest vorgegeben ist. Jeder Modul arbeitet damit also mit einem Teil des Vokabulars und auch mit einem Teil des Sprachmodells, so daß innerhalb jedes Moduls ein Sprachsignalwert entsprechend schneller verarbeitet werden kann.Especially if a language model is used in whichindividual sequences of nodes and transitions partiallyare independent of each other, for example as in theof the mentioned language model EP 2 85 211 A2 it is appropriate that the subset of the reference values eachModule is fixed. So every module works with itwith part of the vocabulary and also with part of theLanguage model, so that within each module a languagesignal value can be processed faster.

Bei der genannten bekannten Anordnung wird abhängig von den gespeicherten Sprachregeln und von Schwellwerten für Vergleichsergebnisse jeder Sprachsignalwert nur mit einem während der Folge der Sprachsignalwerte variierenden Teil der Referenzwerte verglichen. Die Sprachregeln geben nämlich an, daß nach einem Wort nur bestimmte andere Wörter bzw. Wortkategorien folgen können, so daß allein dadurch bereits nur ein Teil der Referenzwerte anschließend verwendet wird. Durch die Schwellwerte werden Hypothesen abgebrochen, wenn sie um ein bestimmtes Maß unähnlicher mit dem gesprochenen Satz werden als die übrigen Hypothesen. Auch dadurch wird der Teil der Referenzwerte, die für die unmittelbar folgenden Vergleiche verwendet werden, reduziert, so daß nicht das gesamte Vokabular aktiv ist. Der jeweils aktive Teil der Referenzwerte variiert jedoch mit der Folge der Sprachsignale, d. h. mit dem Fortschreiten im Vergleich des gesprochenen Satzes. Um in diesem Falle dennoch eine günstige Parallelarbeit, d. h. eine annähernd gleichmäßige Auslastung der einzelnen Moduln zu erreichen, ist es zweckmäßig, daß die Untermenge der Referenzwerte je Modul abhängig von dem momentanen Teil der Referenzwerte ausgewählt ist. Die einzelnen Moduln arbeiten damit also nicht mit einer festen Untermenge der Referenzwerte und ggf. der Sprachregeln, sondern die Untermenge wird ggf. bei jedem neuen Sprachsignalwert je Modul neu festgelegt. Dies erfordert zwar einen gewissen Organisationsaufwand und ebenfalls eine Anzahl Speicherzugriffe, die jedoch wesentlich kleiner ist als die Anzahl Speicherzugriffe bei der Verarbeitung eines Sprachsignalwertes, so daß durch die gleichmäßigere Auslastung der einzelnen Moduln trotzdem eine wesentliche Zeiteinsparung bei der Verarbeitung eines Sprachsignalwertes eintritt. In diesem Falle ist es zweckmäßig, daß in jedem Modul der gemeinsame Bus außer mit der Rechenanordnung direkt mit der zugehörigen Speichereinheit verbunden ist. Auf diese Weise können die Umspeichervorgänge bei einer Änderung der Untermenge der Referenzwerte je Modul beschleunigt werden, wobei zu berücksichtigen ist, daß außerdem die in den Speichereinheiten der Moduln gespeicherten Zwischenergebnisse der vorhergehenden Vergleiche ggf. umgespeichert werden müssen.In the known arrangement mentioned depends onthe stored language rules and threshold values forComparison results of each speech signal value with only onepart varying during the sequence of the speech signal valuesof the reference values compared. Give the language rulesnamely, that after one word only certain othersWords or word categories can follow, so that alonetherefore only part of the reference valuesis then used. Through the threshold valuesHypotheses are canceled if they are a certain amountbecome more dissimilar to the spoken sentence than thatother hypotheses. This also becomes part of theReference values for the immediately followingComparisons used are reduced so that not thatentire vocabulary is active. The currently active part of theHowever, reference values vary with the sequence of speechsignals, d. H. with the progress in the comparison of thespoken sentence. In this case, neverthelesscheap parallel work, d. H. an approximately even oneIt is to achieve utilization of the individual modulesexpedient that the subset of the reference values per moduledepending on the current part of the reference valuesis selected. The individual modules work with itnot with a fixed subset of the reference values andif necessary the language rules, but the subset is possiblyredefined for each new speech signal value per module.This requires a certain organizational effortand also a number of memory accesses, howeveris significantly smaller than the number of memory accesses atprocessing a speech signal value so that by the more even utilization of the individual modulesnevertheless a significant time saving atProcessing of a speech signal value occurs. In thisIf it is appropriate, the common in each moduleBus except with the computing arrangement directly with thehearing storage unit is connected. In this waycan the restore operations if theSubset of reference values per module are accelerated,taking into account that also in theStorage units of the modules stored intermediateresults of previous comparisons, if applicablehave to be re-stored.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigenEmbodiments of the invention are as followsexplained in more detail with reference to the drawing. Show it

Fig. 1 ein Blockschaltbild einer allgemeinen Anordnung zur Spracherkennung,Fig. 1 is a block diagram of a general arrangement for speech recognition,

Fig. 2 die Aufteilung der Verarbeitungsanordnung und der Speicher auf mehrere Moduln gemäß der Erfindung.Fig. 2 shows the distribution of the processing arrangement and the memory on several modules according to the invention.

In dem Blockschaltbild inFig. 1 wird ein akustisches Sprachsignal über ein Mikrofon2 aufgenommen, und das elektrische Sprachsignal wird in einem Verstärker4 verstärkt und einer Vorverarbeitungsanordnung6 zugeführt, die aus dem analogen kontinuierlichen Sprachsignal digitale Sprachsignalwerte ableitet, von denen jeder Sprachsignalwert die Werte von Parametern in einem Zeitabschnitt des Sprachsignals angibt. Dies erfolgt ggf. mit Hilfe eines Speichers8, insbesondere wenn die Parameter Phoneme sind, wobei in dem Speicher8 dann Referenzphoneme gespeichert sind. Die Zeitabschnitte des Sprachsignals, für die die Vorverarbeitungsanordnung6 jeweils Parameter bestimmt, schließen unmittelbar aneinander an, so daß am Ausgang eine regelmäßige Folge von Sprachsignalwerten abgegeben wird.In the block diagram inFig. 1, an acoustic speech signal is picked up via a microphone2 , and the electrical speech signal is amplified in an amplifier4 and fed to a preprocessing arrangement6 , which derives digital speech signal values from the analog continuous speech signal, from which each speech signal value the values of Specifies parameters in a time segment of the speech signal. This may be done with the aid of a memory8 , in particular if the parameters are phonemes, reference phonemes then being stored in the memory8 . The time segments of the speech signal for which the preprocessing arrangement6 determines parameters directly adjoin one another, so that a regular sequence of speech signal values is output at the output.

Diese werden einer Verarbeitungsanordnung10 zugeführt, in der jeder Sprachsignalwert mit einer Anzahl Referenzwerte verglichen wird, die in einem Speicher25 gespeichert sind. In dem Speicher26 sind Sprachregeln gespeichert, die insbesondere angeben, welche Wörter, d. h. welche Folgen von Referenzwerten im Speicher25 nach einem gerade beendeten Wort folgen können, so daß auf diese Weise jeder Sprachsignalwert nur mit einem begrenzten Teil der gesamten Referenzwerte im Speicher25 verglichen werden muß. Die Adressierung der Speicher25 und26 erfolgt durch die Verarbeitungsanordnung10 insbesondere anhand der bisherigen Vergleichsergebnisse. Der Inhalt der Speicher25 und26 wird, zumindest sofern es sich nicht um eine selbstlernende bzw. nachlernende Anordnung handelt, während des Erkennungsvorgangs nicht verändert, so daß diese Speicher Festwertspeicher darstellen und auch als solche ausgeführt sein können.These are fed to a processing arrangement10 , in which each speech signal value is compared with a number of reference values, which are stored in a memory25 . Speech rules are stored in the memory26 , which in particular indicate which words, ie which sequences of reference values in the memory25 can follow after a word that has just ended, so that each speech signal value is compared in this way only with a limited part of the total reference values in the memory25 must become. The memory25 and26 are addressed by the processing arrangement10, in particular on the basis of the comparison results to date. The content of the memories25 and26 , at least insofar as it is not a self-learning or re-learning arrangement, is not changed during the recognition process, so that these memories represent read-only memories and can also be designed as such.

Die einzelnen Vergleichsergebnisse werden in der Verarbeitungsanordnung weiterverarbeitet, vorzugsweise nach vorgegebenen Regeln aufakkumuliert, und die entstehenden Zwischenergebnisse werden jeweils in einem Speicher20 abgespeichert. Beispielsweise bei der Anordnung gemäß der eingangs genannten EP 2 85 211 A2 umfaßt der Speicher20 für die Zwischenergebnisse mehrere Speicherbereiche, die nicht nur aufakkumulierte Vergleichsergebnisse, sondern u. a. auch Rückwärtszeiger und Startpunkte enthalten, so daß der Speicher20 eine große Kapazität haben muß und bei jedem neuen Sprachsignalwert für jeden Referenzwert eine Vielzahl von Speicherzugriffen darauf erforderlich ist. Der Speicher20 ist naturgemäß ein Schreib-Lese-Speicher, und da jeder Speicherzugriff eine Mindestzeit benötigt, ergibt sich für jeden Referenzwert eine merkliche Gesamtzeit der erforderlichen Speicherzugriffe, die die gesamte Verarbeitungszeit des Sprachsignals wesentlich bestimmt. Erst nach Verarbeitung des gesamten Sprachsignals kann am Ausgang29 dann die Folge der erkannten Wörter ausgegeben werden.The individual comparison results are processed further in the processing arrangement, preferably accumulated according to predetermined rules, and the intermediate results that are created are each stored in a memory20 . For example, in the arrangement according to EP 2 85 211 A2 mentioned at the outset, the memory20 for the intermediate results comprises a plurality of memory areas which contain not only accumulated comparison results, but also, among other things, backward pointers and starting points, so that the memory20 must have a large capacity and for each new speech signal value a large number of memory accesses are required for each reference value. The memory20 is naturally a read-write memory, and since each memory access requires a minimum time, there is a noticeable total time of the required memory accesses for each reference value, which essentially determines the total processing time of the speech signal. Only after the entire speech signal has been processed can the sequence of the recognized words be output at the output29 .

InFig. 2 ist ein Blockschaltbild einer Anordnung angegeben, mit der die Verarbeitung des Sprachsignals beschleunigt wird. Das akustische Sprachsignal wird wieder über das Mikrofon2 aufgenommen, im Verstärker4 verstärkt und der Vorverarbeitungsanordnung6 zugeführt, die daraus wie beschrieben die zeitliche Folge von Sprachsignalwerten ableitet. Diese werden über einen Bus9 mit Datenleitungen und Steuerleitungen und vorzugsweise auch Adreßleitungen einer Anzahl Moduln zur Verarbeitung zugeführt, wobei hier zwei Module angedeutet sind, die jeweils aus einer Rechenanordnung12 bzw.13 und einer Speichereinheit22 bzw.23 bestehen, wobei die Rechenanordnung mit der zugehörigen Speichereinheit über einen Bus16 bzw.17 verbunden ist. Jede Rechenanordnung12 bzw.13 und ebenso auch jede Speichereinheit22 bzw.23 ist mit dem Bus9 verbunden. Ferner ist noch ein weiteres Modul aus einer Rechenanordnung11 und einem Speicher21 vorhanden, die untereinander über einen Bus15 und ferner direkt mit dem Bus9 verbunden sind. Außerdem ist die Rechenanordnung11 über einen Bus14 mit einer Eingabe-Ausgabeeinheit28 verbunden, die beispielsweise eine Tastatur und einen Bildschirm für einen Operator und ggf. auch einen Massenspeicher aufweist. Der Speicher21 entspricht im wesentlichen den Speichern25 und26 inFig. 1. Der Inhalt dieser Speicher25 und/oder26 kann jedoch auch zumindest teilweise in den Speichern22 bzw.23 der Module enthalten sein. Im übrigen bildet jede Rechenanordnung12 bzw.13 der Module zumindest einen wesentlichen Teil der Verarbeitungsanordnung10 inFig. 1 nach, wodurch gewisse Teile mehrfach vorhanden sind, wie es bei einer Parallelverarbeitung allgemein unvermeidbar ist. Die Speicher einheiten22 bzw.23 stellen im wesentlichen einen Teil des Speichers20 inFig. 1 dar.InFig. 2 is a block diagram of an arrangement is indicated, with which the processing of the speech signal is accelerated. The acoustic speech signal is picked up again via the microphone2 , amplified in the amplifier4 and fed to the preprocessing arrangement6 , which derives the temporal sequence of speech signal values from it as described. These are supplied via a bus9 with data lines and control lines and preferably also address lines to a number of modules for processing, two modules being indicated here, each consisting of a computing arrangement12 or13 and a storage unit22 or23 , the computing arrangement is connected to the associated memory unit via a bus16 or17 . Each computing arrangement12 or13 and also each storage unit22 or23 is connected to the bus9 . Furthermore, there is still another module from a Rechenanord voltage11 and a memory21 , which are connected to each other via a bus15 and also directly to the bus9 . In addition, the computing arrangement11 is connected via a bus14 to an input / output unit28 , which has, for example, a keyboard and a screen for an operator and possibly also a mass memory. The memory21 corresponds essentially to the memories25 and26 inFIG. 1. However, the contents of these memories25 and / or26 can also be at least partially contained in the memories22 and23 of the modules. In addition, each computing arrangement12 or13 of the modules simulates at least a substantial part of the processing arrangement10 inFIG. 1, as a result of which certain parts are present several times, as is generally unavoidable in parallel processing. The storage units22 and23 essentially represent part of the memory20 inFIG. 1.

Sofern bei der Durchführung der Funktionen in dem Modul mit der Rechenanordnung11 und der Speichereinheit21 während der Verarbeitung jeweils eines Sprachsignals noch Zeit übrig ist, kann dieses Modul auch dafür verwendet werden, parallel zu den anderen Moduln einen Teil der Verarbeitungsvorgänge, d. h. der Vergleiche und Verarbeitung der Vergleichsergebnisse, für jeweils einen Sprachsignalwert durchzuführen, um auf diese Weise alle vorhandenen Elemente der gesamten Anordnung optimal auszunutzen. Im wesentlichen dient jedoch dieses Modul mit der Rechenanordnung11 und dem Speicher21 als Steuereinheit für den Datenverkehr auf dem gemeinsamen Bus9 sowie als Steueranordnung für den Speicher21 und die Eingabe-Ausgabeeinheiten28.If there is still time in the execution of the functions in the module with the computing arrangement11 and the storage unit21 during the processing of a speech signal in each case, this module can also be used for parallel to the other modules, a part of the processing operations, ie the comparisons and Processing of the comparison results for one speech signal value in each case in order in this way to optimally utilize all the elements present in the entire arrangement. Essentially, however, this module with the computing arrangement11 and the memory21 serves as a control unit for data traffic on the common bus9 and as a control arrangement for the memory21 and the input-output units28 .

Jeder neue von der Vorverarbeitungsanordnung6 erzeugte Sprachsignalwert wird über den Bus9 allen Moduln parallel zugeführt, und jeder Modul führt die entsprechenden Verarbeitungsschritte, d. h. den Vergleich mit Referenzwerten und die Weiterverarbeitung der Vergleichsergebnisse unabhängig von den anderen Moduln durch. Lediglich wenn im Speicher21 des übergeordneten Steuermoduls aus der Rechenanordnung11 und der Speichereinheit21 alle Referenzwerte und Sprachregeln gespeichert sind, treten während der Verarbeitung eines Sprachsignalwertes wiederholt Zugriffe auf diese Speicher auf, wobei Zugriffswünsche von zwei oder mehr Moduln gleichzeitig auftreten können. In diesem Falle tritt für mindestens ein Modul eine gewisse Wartezeit auf, die im Verhältnis zur Gesamtzeit jedoch nicht sehr bedeutend ist.Each new speech signal value generated by the preprocessing arrangement6 is fed in parallel to all modules via the bus9 , and each module carries out the corresponding processing steps, ie the comparison with reference values and the further processing of the comparison results independently of the other modules. Only when all reference values and language rules are stored in the memory21 of the higher-level control module from the arithmetic arrangement11 and the memory unit21 does access to this memory occur repeatedly during the processing of a speech signal value, access requests from two or more modules being able to occur simultaneously. In this case there is a certain waiting time for at least one module, which is not very significant in relation to the total time.

Am Ende des Sprachsignals fragt die Rechenanordnung11 des übergeordneten Moduls das günstigste Gesamtvergleichsergebnis jedes Moduls ab und ermittelt daraus das für alle Moduln günstigste Vergleichsergebnis, wodurch dann die Folge der erkannten Wörter fest liegt und über die Eingabe-Ausgabeeinheit29 ausgegeben werden kann.At the end of the speech signal, the computing arrangement11 of the higher-level module queries the most favorable overall comparison result of each module and uses this to determine the most favorable comparison result for all modules, as a result of which the sequence of the recognized words is then fixed and can be output via the input / output unit29 .

Claims

Translated fromGerman

1. Anordnung zur Erkennung der Wörter in einem Sprachsignal, mit einer Vorverarbeitungsanordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte einer Anzahl Parameter in einem Zeitabschnitt des Sprachsignals angibt, mit einer ersten Speicheranordnung, die eine Anzahl Referenzwerte enthält, von denen jeder Referenzwert die Werte der Parameter in einem Zeitabschnitt eines Referenzsprachsignals angibt und jeweils eine Folge von Referenzwerten ein zu erkennendes Wort eines vorgegebenen Vokabulars darstellt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit aus der ersten Speicheranordnung ausgelesenen Referenzwerten vergleicht und die Vergleichsergebnisse insbesondere unter Berücksichtigung von in einer zweiten Speicheranordnung gespeicherten Sprachregeln weiterverarbeitet und dabei Zwischenergebnisse in einer dritten Speicheranordnung zwischenspeichert und am Ende des Sprachsignals aus dem günstigsten Gesamtvergleichsergebnis eine Folge von erkannten Wörtern ausgibt,dadurch gekennzeichnet, daß wenigstens die dritte Speicheranordnung in mehrere voneinander unabhängige dritte Speicher und die Verarbeitungsanordnung in mehrere einzelne Elemente aufgeteilt ist, die jeweils einander zugeordnet sind und je ein Modul mit einer Rechenanordnung für die Verarbeitungsanordnung und mit einer Speichereinheit für den dritten Speicher bilden, wobei alle Moduln parallel untereinander und mit der Vorverarbeitungsanordnung über einen gemeinsamen Bus verbunden sind und in jedem Modul die Rechenanordnung jeden neuen Sprachsignal wert unabhängig von den anderen Moduln mit einer Untermenge der Referenzwerte vergleicht und nur die dabei erzeugten Vergleichsergebnisse weiterverarbeitet.1. Arrangement for recognizing the words in a speech signal, with a preprocessing arrangement which derives a temporal sequence of speech signal values from the continuous speech signal, from which each speech signal value indicates the values of a number of parameters in a time section of the speech signal, with a first storage arrangement , which contains a number of reference values, each of which reference values indicates the values of the parameters in a time segment of a reference speech signal and in each case a sequence of reference values represents a word of a predetermined vocabulary to be recognized, and a processing arrangement which reads each speech signal value from the first memory arrangement Comparing reference values and further processing the comparison results, in particular taking into account language rules stored in a second memory arrangement, and temporarily storing intermediate results in a third memory arrangement and at the end of the Spr Axis signal outputs a sequence of recognized words from the most favorable overall comparison result,characterized in that at least the third memory arrangement is divided into a plurality of independent third memories and the processing arrangement is divided into several individual elements, each of which is assigned to one another and each has a module with a computing arrangement for the Processing arrangement and form with a storage unit for the third memory, all modules are connected in parallel with each other and with the preprocessing arrangement via a common bus and in each module the computing arrangement compares each new speech signal value independently of the other modules with a subset of the reference values and only processes the comparison results generated in the process.

2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Untermenge der Referenzwerte je Modul fest vorgegeben ist.2. Arrangement according to claim 1,characterized in that the subset of the referencevalues per module is fixed.

3. Anordnung nach Anspruch 1, wobei abhängig von den gespeicherten Sprachregeln und von Schwellwerten für Vergleichsergebnisse jeder Sprachsignalwert mit nur einem während der Folge der Sprachsignalwerte variierenden Teil der Referenzwerte verglichen wird, dadurch gekennzeichnet, daß die Untermenge der Referenzwerte je Modul abhängig von dem momentanen Teil der Referenzwerte ausgewählt ist.3. Arrangement according to claim 1, wherein depending on thestored language rules and threshold values forComparison results of each speech signal value with only onepart varying during the sequence of the speech signal valuesthe reference values are compared,characterized in that the subset of the referencevalues per module depending on the current part of theReference values is selected.

4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß in jedem Modul der gemeinsame Bus außer mit der Rechenanordnung direkt mit der zugehörigen Speichereinheit verbunden ist.4. Arrangement according to claim 3,characterized in that in each module the commonBus except with the computing arrangement directly with thehearing storage unit is connected.