Movatterモバイル変換


[0]ホーム

URL:


DE4106347A1 - Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle - Google Patents

Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle

Info

Publication number
DE4106347A1
DE4106347A1DE19914106347DE4106347ADE4106347A1DE 4106347 A1DE4106347 A1DE 4106347A1DE 19914106347DE19914106347DE 19914106347DE 4106347 ADE4106347 ADE 4106347ADE 4106347 A1DE4106347 A1DE 4106347A1
Authority
DE
Germany
Prior art keywords
arrangement
speech signal
memory
values
reference values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19914106347
Other languages
German (de)
Inventor
Hans-Hermann Hamer
Andreas Noll
Herbert Piotrowski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbHfiledCriticalPhilips Patentverwaltung GmbH
Priority to DE19914106347priorityCriticalpatent/DE4106347A1/en
Publication of DE4106347A1publicationCriticalpatent/DE4106347A1/en
Withdrawnlegal-statusCriticalCurrent

Links

Classifications

Landscapes

Abstract

A speech signal is detected by a microphone (4) that provides an input to preprocessing module (6) that converts the signal into digital form and identifies parameters. Reference parameters are stored in a memory (8). A main processing stage (10) provides a comparison of values within each speech signal segment and the results are stored (26). Reference values are provided from a listing within a separate memory (25). Intermediate results of the identification process are held in a large capacity memory (20) with a fast access cycle. ADVANTAGE - Provides real time speech recognition process.

Description

Translated fromGerman

Die Erfindung betrifft eine Anordnung zur Erkennung der Wörter in einem Sprachsignal, mit einer Vorverarbeitungs­anordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte einer Anzahl Parameter in einem Zeitabschnitt des Sprachsignals angibt, mit einer ersten Speicheranordnung, die eine Anzahl Referenzwerte enthält, von denen jeder Referenzwert die Werte der Parameter in einem Zeitabschnitt eines Referenzsprach­signals angibt und jeweils eine Folge von Referenzwerten ein zu erkennendes Wort eines vorgegebenen Vokabulars darstellt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit aus der ersten Speicheranordnung ausgelesenen Referenzwerten vergleicht und die Vergleichs­ergebnisse insbesondere unter Berücksichtigung von in einer zweiten Speicheranordnung gespeicherten Sprachregeln weiterverarbeitet und dabei Zwischenergebnisse in einer dritten Speicheranordnung zwischenspeichert und am Ende des Sprachsignals aus dem günstigsten Gesamtvergleichs­ergebnis eine Folge von erkannten Wörtern ausgibt.The invention relates to an arrangement for detecting theWords in a speech signal, with preprocessingarrangement that from the continuous speech signalderives temporal sequence from speech signal values from whicheach speech signal value the values of a number of parameters inindicates a period of the speech signal, with afirst memory arrangement, which has a number of reference valuescontains, each of which reference value the values ofParameters in a period of a reference languagesignals and a sequence of reference valuesa word to be recognized from a given vocabularyrepresents, and with a processing arrangement that eachSpeech signal value with from the first memory arrangementcompares the read reference values and the comparisonresults especially taking into account ina second memory arrangement stored voice rulesprocessed further and interim results in onethird memory arrangement temporarily and at the endthe speech signal from the cheapest overall comparisonresults in a sequence of recognized words.

Derartige Anordnungen sind allgemein bekannt, beispiels­weise aus der EP 2 85 211 A2. Dicke bekannte Anordnung dient zur Erkennung von Wörtern in kontinuierlich gesprochener Sprache, wobei ein großes Vokabular vorgesehen ist und Sprachregeln berücksichtigt werden. Dabei wird mit Hilfe einer wirksam organisierten Suche der hohe Aufwand für Rechenzeit und Speicherbedarf, der bei einem derartigen Erkennungsproblem auftritt, erheblich reduziert. Von einer bestimmten Größe des Wortschatzes und einer bestimmten Menge von Sprachregeln an kann jedoch trotz der erheblichen Aufwandsreduktion eine Erkennung in Echtzeit nicht mehr durchgeführt werden. Die Ursache liegt dabei weniger in der unzureichenden Rechengeschwindigkeit als vielmehr in den Speicherzugriffszeiten. Bei jedem Sprachsignalwert sind nämlich für die Verarbeitung eines Referenzwertes eine große Anzahl Speicherzugriffe erforderlich, wobei die Speicheroperationen für die reine Vergleichsoperation noch hinzuzurechnen sind. Mit allen über die rein physikalischen Speicherzugriffe hinaus­gehenden Speicheroperationen wie z. B. Adreßberechnungen bei einem Vokabular von ca. 1000 Wörtern und einem mittleren Verzweigungsfaktor der Sprachregeln von 50 (d. h. einem Wort in einem Satz können aufgrund der Sprachregeln im Mittel 50 andere Wörter folgen), sind für jeden neuen Sprachsignalwert unter Umständen einige tausend Referenzwerte für eine sichere Erkennung zu verarbeiten. Da die Sprachsignalwerte im allgemeinen mit einem Abstand von 10 ms aufeinander folgen und anderer­seits bereits die Gesamtzahl der Speicherzugriffe für jeden Sprachsignalwert ein Mehrfaches dieser Zeit benötigen, ist eine Spracherkennung in Echtzeit unter diesen Umständen mit einem konventiellen Microprozessor­system nicht möglich. Dies gilt unabhängig von der Rechengeschwindigkeit, da wie angegeben die wesentliche Zeit für Speicherzugriffe benötigt wird. Aus diesem Grunde würde eine Erhöhung der Rechengeschwindigkeit keine Beschleunigung der Sprachsignalverarbeitung bewirken.Such arrangements are generally known, for examplefrom EP 2 85 211 A2. Thick known arrangementis used to recognize words in continuousspoken language, using a large vocabularyis provided and language rules are taken into account.With the help of an effectively organized search thehigh expenditure for computing time and memory requirement, which atsuch a detection problem occurs significantlyreduced. Of a certain size of the vocabulary and a certain set of language rules howeverdespite the considerable reduction in effort, a detection inReal time can no longer be carried out. The cause isless in the insufficient computing speedrather than in memory access times. With everyoneVoice signal values are namely for processing aA large number of memory accessesrequired, with the store operations for pureComparative operation are still to be added. With allbeyond the purely physical memory accessoutgoing memory operations such as B. Address calculationswith a vocabulary of approx. 1000 words and oneaverage branching factor of the language rules of 50(i.e. a word in a sentence may be due to theLanguage rules follow 50 other words on average) are foreach new speech signal value may have somea thousand reference values for reliable detectionto process. Since the speech signal values generally withfollow each other 10 ms apart and othersthe total number of memory accesses foreach speech signal value a multiple of this timeneed is real-time speech recognition underthese circumstances with a conventional microprocessorsystem not possible. This applies regardless of theComputing speed, as stated the most importantMemory access time is required. For this reasonan increase in computing speed would notAccelerate speech signal processing.

Aufgabe der Erfindung ist es daher, eine Anordnung der eingangs genannten Art anzugeben, die eine schnellere Verarbeitung von Sprachsignalwerten ermöglicht, so daß mit begrenztem Aufwand auch bei komplexen Erkennungsverfahren eine Erkennung in Echtzeit möglich wird.The object of the invention is therefore an arrangement ofSpecify the type mentioned above, which is a fasterProcessing of speech signal values enables so that withlimited effort even with complex recognition processesreal-time recognition is possible. 

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß wenigstens die dritte Speicheranordnung in mehrere voneinander unabhängige dritte Speicher und die Verarbeitungsanordnung in mehrere einzelne Elemente aufgeteilt ist, die jeweils einander zugeordnet sind und je ein Modul mit einer Rechenanordnung für die Verarbeitungsanordnung und mit einer Speichereinheit für den dritten Speicher bilden, wobei alle Moduln parallel untereinander und mit der Vorverarbeitungsanordnung über einen gemeinsamen Bus verbunden sind und in jedem Modul die Rechenanordnung jeden neuen Sprachsignalwert unabhängig von den anderen Moduln mit einer Untermenge der Referenzwerte vergleicht und nur die dabei erzeugten Vergleichsergebnisse weiterverarbeitet.This object is achieved in thatat least the third memory arrangement in severalindependent third memory and theProcessing arrangement in several individual elementsis divided, which are each assigned to each other andone module each with a computing arrangement for theProcessing arrangement and with a storage unit forform the third memory, with all modules in parallelwith each other and with the preprocessing arrangementare connected to a common bus and in each modulethe computing arrangement each new speech signal valueindependent of the other modules with a subset of theCompares reference values and only those generatedComparative results processed further.

Die Erkennung macht sich den Umstand zunutze, daß ein Sprachsignalwert einer großen Anzahl von Verarbeitungs­operationen unterworfen wird, insbesondere einer großen Anzahl von Vergleichen, wobei die Vergleichsergebnisse weiterverarbeitet werden müssen, und daß diese Operationen zu einem wesentlichen Teil unabhängig voneinander sind. Durch die Aufteilung insbesondere des Speichers, auf den die meisten Speicherzugriffe während der Verarbeitung des Sprachsignalwertes erfolgen, auf mehrere einzelne, voneinander unabhängige Speichereinheiten und zeitlich parallele Durchführung der Verarbeitung eines Sprach­signalwertes in getrennten Rechenanordnungen kann dann eine wirksame Parallelverarbeitung erfolgen, ohne daß wesentliche Wartezeiten durch voneinander abhängige Verarbeitungen entstehen.The detection takes advantage of the fact that aSpeech signal value of a large number of processingoperations, especially a large oneNumber of comparisons, the comparison resultsmust be processed and that these operationsare largely independent of each other.By dividing in particular the memory on themost memory accesses while processing theSpeech signal values take place on several individual,mutually independent storage units and temporallyparallel processing of a languageSignal values in separate computing arrangements can theneffective parallel processing takes place withoutsignificant waiting times due to interdependentProcessing occurs.

Insbesondere wenn ein Sprachmodell verwendet wird, bei dem einzelne Folgen von Knoten und Übergängen teilweise voneinander unabhängig sind, beispielsweise wie bei dem in der genannten EP 2 85 211 A2 angegebenen Sprachmodell, ist es zweckmäßig, daß die Untermenge der Referenzwerte je Modul fest vorgegeben ist. Jeder Modul arbeitet damit also mit einem Teil des Vokabulars und auch mit einem Teil des Sprachmodells, so daß innerhalb jedes Moduls ein Sprach­signalwert entsprechend schneller verarbeitet werden kann.Especially if a language model is used in whichindividual sequences of nodes and transitions partiallyare independent of each other, for example as in theof the mentioned language model EP 2 85 211 A2 it is appropriate that the subset of the reference values eachModule is fixed. So every module works with itwith part of the vocabulary and also with part of theLanguage model, so that within each module a languagesignal value can be processed faster.

Bei der genannten bekannten Anordnung wird abhängig von den gespeicherten Sprachregeln und von Schwellwerten für Vergleichsergebnisse jeder Sprachsignalwert nur mit einem während der Folge der Sprachsignalwerte variierenden Teil der Referenzwerte verglichen. Die Sprachregeln geben nämlich an, daß nach einem Wort nur bestimmte andere Wörter bzw. Wortkategorien folgen können, so daß allein dadurch bereits nur ein Teil der Referenzwerte anschließend verwendet wird. Durch die Schwellwerte werden Hypothesen abgebrochen, wenn sie um ein bestimmtes Maß unähnlicher mit dem gesprochenen Satz werden als die übrigen Hypothesen. Auch dadurch wird der Teil der Referenzwerte, die für die unmittelbar folgenden Vergleiche verwendet werden, reduziert, so daß nicht das gesamte Vokabular aktiv ist. Der jeweils aktive Teil der Referenzwerte variiert jedoch mit der Folge der Sprach­signale, d. h. mit dem Fortschreiten im Vergleich des gesprochenen Satzes. Um in diesem Falle dennoch eine günstige Parallelarbeit, d. h. eine annähernd gleichmäßige Auslastung der einzelnen Moduln zu erreichen, ist es zweckmäßig, daß die Untermenge der Referenzwerte je Modul abhängig von dem momentanen Teil der Referenzwerte ausgewählt ist. Die einzelnen Moduln arbeiten damit also nicht mit einer festen Untermenge der Referenzwerte und ggf. der Sprachregeln, sondern die Untermenge wird ggf. bei jedem neuen Sprachsignalwert je Modul neu festgelegt. Dies erfordert zwar einen gewissen Organisationsaufwand und ebenfalls eine Anzahl Speicherzugriffe, die jedoch wesentlich kleiner ist als die Anzahl Speicherzugriffe bei der Verarbeitung eines Sprachsignalwertes, so daß durch die gleichmäßigere Auslastung der einzelnen Moduln trotzdem eine wesentliche Zeiteinsparung bei der Verarbeitung eines Sprachsignalwertes eintritt. In diesem Falle ist es zweckmäßig, daß in jedem Modul der gemeinsame Bus außer mit der Rechenanordnung direkt mit der zuge­hörigen Speichereinheit verbunden ist. Auf diese Weise können die Umspeichervorgänge bei einer Änderung der Untermenge der Referenzwerte je Modul beschleunigt werden, wobei zu berücksichtigen ist, daß außerdem die in den Speichereinheiten der Moduln gespeicherten Zwischen­ergebnisse der vorhergehenden Vergleiche ggf. umgespeichert werden müssen.In the known arrangement mentioned depends onthe stored language rules and threshold values forComparison results of each speech signal value with only onepart varying during the sequence of the speech signal valuesof the reference values compared. Give the language rulesnamely, that after one word only certain othersWords or word categories can follow, so that alonetherefore only part of the reference valuesis then used. Through the threshold valuesHypotheses are canceled if they are a certain amountbecome more dissimilar to the spoken sentence than thatother hypotheses. This also becomes part of theReference values for the immediately followingComparisons used are reduced so that not thatentire vocabulary is active. The currently active part of theHowever, reference values vary with the sequence of speechsignals, d. H. with the progress in the comparison of thespoken sentence. In this case, neverthelesscheap parallel work, d. H. an approximately even oneIt is to achieve utilization of the individual modulesexpedient that the subset of the reference values per moduledepending on the current part of the reference valuesis selected. The individual modules work with itnot with a fixed subset of the reference values andif necessary the language rules, but the subset is possiblyredefined for each new speech signal value per module.This requires a certain organizational effortand also a number of memory accesses, howeveris significantly smaller than the number of memory accesses atprocessing a speech signal value so that by the more even utilization of the individual modulesnevertheless a significant time saving atProcessing of a speech signal value occurs. In thisIf it is appropriate, the common in each moduleBus except with the computing arrangement directly with thehearing storage unit is connected. In this waycan the restore operations if theSubset of reference values per module are accelerated,taking into account that also in theStorage units of the modules stored intermediateresults of previous comparisons, if applicablehave to be re-stored.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigenEmbodiments of the invention are as followsexplained in more detail with reference to the drawing. Show it

Fig. 1 ein Blockschaltbild einer allgemeinen Anordnung zur Spracherkennung,Fig. 1 is a block diagram of a general arrangement for speech recognition,

Fig. 2 die Aufteilung der Verarbeitungsanordnung und der Speicher auf mehrere Moduln gemäß der Erfindung.Fig. 2 shows the distribution of the processing arrangement and the memory on several modules according to the invention.

In dem Blockschaltbild inFig. 1 wird ein akustisches Sprachsignal über ein Mikrofon2 aufgenommen, und das elektrische Sprachsignal wird in einem Verstärker4 verstärkt und einer Vorverarbeitungsanordnung6 zugeführt, die aus dem analogen kontinuierlichen Sprachsignal digitale Sprachsignalwerte ableitet, von denen jeder Sprachsignalwert die Werte von Parametern in einem Zeitabschnitt des Sprachsignals angibt. Dies erfolgt ggf. mit Hilfe eines Speichers8, insbesondere wenn die Parameter Phoneme sind, wobei in dem Speicher8 dann Referenzphoneme gespeichert sind. Die Zeitabschnitte des Sprachsignals, für die die Vorverarbeitungsanordnung6 jeweils Parameter bestimmt, schließen unmittelbar aneinander an, so daß am Ausgang eine regelmäßige Folge von Sprachsignalwerten abgegeben wird.In the block diagram inFig. 1, an acoustic speech signal is picked up via a microphone2 , and the electrical speech signal is amplified in an amplifier4 and fed to a preprocessing arrangement6 , which derives digital speech signal values from the analog continuous speech signal, from which each speech signal value the values of Specifies parameters in a time segment of the speech signal. This may be done with the aid of a memory8 , in particular if the parameters are phonemes, reference phonemes then being stored in the memory8 . The time segments of the speech signal for which the preprocessing arrangement6 determines parameters directly adjoin one another, so that a regular sequence of speech signal values is output at the output.

Diese werden einer Verarbeitungsanordnung10 zugeführt, in der jeder Sprachsignalwert mit einer Anzahl Referenzwerte verglichen wird, die in einem Speicher25 gespeichert sind. In dem Speicher26 sind Sprachregeln gespeichert, die insbesondere angeben, welche Wörter, d. h. welche Folgen von Referenzwerten im Speicher25 nach einem gerade beendeten Wort folgen können, so daß auf diese Weise jeder Sprachsignalwert nur mit einem begrenzten Teil der gesamten Referenzwerte im Speicher25 verglichen werden muß. Die Adressierung der Speicher25 und26 erfolgt durch die Verarbeitungsanordnung10 insbesondere anhand der bisherigen Vergleichsergebnisse. Der Inhalt der Speicher25 und26 wird, zumindest sofern es sich nicht um eine selbstlernende bzw. nachlernende Anordnung handelt, während des Erkennungsvorgangs nicht verändert, so daß diese Speicher Festwertspeicher darstellen und auch als solche ausgeführt sein können.These are fed to a processing arrangement10 , in which each speech signal value is compared with a number of reference values, which are stored in a memory25 . Speech rules are stored in the memory26 , which in particular indicate which words, ie which sequences of reference values in the memory25 can follow after a word that has just ended, so that each speech signal value is compared in this way only with a limited part of the total reference values in the memory25 must become. The memory25 and26 are addressed by the processing arrangement10, in particular on the basis of the comparison results to date. The content of the memories25 and26 , at least insofar as it is not a self-learning or re-learning arrangement, is not changed during the recognition process, so that these memories represent read-only memories and can also be designed as such.

Die einzelnen Vergleichsergebnisse werden in der Verarbeitungsanordnung weiterverarbeitet, vorzugsweise nach vorgegebenen Regeln aufakkumuliert, und die entstehenden Zwischenergebnisse werden jeweils in einem Speicher20 abgespeichert. Beispielsweise bei der Anordnung gemäß der eingangs genannten EP 2 85 211 A2 umfaßt der Speicher20 für die Zwischenergebnisse mehrere Speicherbereiche, die nicht nur aufakkumulierte Vergleichsergebnisse, sondern u. a. auch Rückwärtszeiger und Startpunkte enthalten, so daß der Speicher20 eine große Kapazität haben muß und bei jedem neuen Sprach­signalwert für jeden Referenzwert eine Vielzahl von Speicherzugriffen darauf erforderlich ist. Der Speicher20 ist naturgemäß ein Schreib-Lese-Speicher, und da jeder Speicherzugriff eine Mindestzeit benötigt, ergibt sich für jeden Referenzwert eine merkliche Gesamtzeit der erforder­lichen Speicherzugriffe, die die gesamte Verarbeitungszeit des Sprachsignals wesentlich bestimmt. Erst nach Verarbeitung des gesamten Sprachsignals kann am Ausgang29 dann die Folge der erkannten Wörter ausgegeben werden.The individual comparison results are processed further in the processing arrangement, preferably accumulated according to predetermined rules, and the intermediate results that are created are each stored in a memory20 . For example, in the arrangement according to EP 2 85 211 A2 mentioned at the outset, the memory20 for the intermediate results comprises a plurality of memory areas which contain not only accumulated comparison results, but also, among other things, backward pointers and starting points, so that the memory20 must have a large capacity and for each new speech signal value a large number of memory accesses are required for each reference value. The memory20 is naturally a read-write memory, and since each memory access requires a minimum time, there is a noticeable total time of the required memory accesses for each reference value, which essentially determines the total processing time of the speech signal. Only after the entire speech signal has been processed can the sequence of the recognized words be output at the output29 .

InFig. 2 ist ein Blockschaltbild einer Anordnung angegeben, mit der die Verarbeitung des Sprachsignals beschleunigt wird. Das akustische Sprachsignal wird wieder über das Mikrofon2 aufgenommen, im Verstärker4 verstärkt und der Vorverarbeitungsanordnung6 zugeführt, die daraus wie beschrieben die zeitliche Folge von Sprachsignalwerten ableitet. Diese werden über einen Bus9 mit Datenleitungen und Steuerleitungen und vorzugsweise auch Adreßleitungen einer Anzahl Moduln zur Verarbeitung zugeführt, wobei hier zwei Module angedeutet sind, die jeweils aus einer Rechen­anordnung12 bzw.13 und einer Speichereinheit22 bzw.23 bestehen, wobei die Rechenanordnung mit der zugehörigen Speichereinheit über einen Bus16 bzw.17 verbunden ist. Jede Rechenanordnung12 bzw.13 und ebenso auch jede Speichereinheit22 bzw.23 ist mit dem Bus9 verbunden. Ferner ist noch ein weiteres Modul aus einer Rechenanord­nung11 und einem Speicher21 vorhanden, die untereinander über einen Bus15 und ferner direkt mit dem Bus9 verbunden sind. Außerdem ist die Rechenanordnung11 über einen Bus14 mit einer Eingabe-Ausgabeeinheit28 verbunden, die beispielsweise eine Tastatur und einen Bildschirm für einen Operator und ggf. auch einen Massen­speicher aufweist. Der Speicher21 entspricht im wesent­lichen den Speichern25 und26 inFig. 1. Der Inhalt dieser Speicher25 und/oder26 kann jedoch auch zumindest teilweise in den Speichern22 bzw.23 der Module enthalten sein. Im übrigen bildet jede Rechenanordnung12 bzw.13 der Module zumindest einen wesentlichen Teil der Verarbeitungsanordnung10 inFig. 1 nach, wodurch gewisse Teile mehrfach vorhanden sind, wie es bei einer Parallel­verarbeitung allgemein unvermeidbar ist. Die Speicher­ einheiten22 bzw.23 stellen im wesentlichen einen Teil des Speichers20 inFig. 1 dar.InFig. 2 is a block diagram of an arrangement is indicated, with which the processing of the speech signal is accelerated. The acoustic speech signal is picked up again via the microphone2 , amplified in the amplifier4 and fed to the preprocessing arrangement6 , which derives the temporal sequence of speech signal values from it as described. These are supplied via a bus9 with data lines and control lines and preferably also address lines to a number of modules for processing, two modules being indicated here, each consisting of a computing arrangement12 or13 and a storage unit22 or23 , the computing arrangement is connected to the associated memory unit via a bus16 or17 . Each computing arrangement12 or13 and also each storage unit22 or23 is connected to the bus9 . Furthermore, there is still another module from a Rechenanord voltage11 and a memory21 , which are connected to each other via a bus15 and also directly to the bus9 . In addition, the computing arrangement11 is connected via a bus14 to an input / output unit28 , which has, for example, a keyboard and a screen for an operator and possibly also a mass memory. The memory21 corresponds essentially to the memories25 and26 inFIG. 1. However, the contents of these memories25 and / or26 can also be at least partially contained in the memories22 and23 of the modules. In addition, each computing arrangement12 or13 of the modules simulates at least a substantial part of the processing arrangement10 inFIG. 1, as a result of which certain parts are present several times, as is generally unavoidable in parallel processing. The storage units22 and23 essentially represent part of the memory20 inFIG. 1.

Sofern bei der Durchführung der Funktionen in dem Modul mit der Rechenanordnung11 und der Speichereinheit21 während der Verarbeitung jeweils eines Sprachsignals noch Zeit übrig ist, kann dieses Modul auch dafür verwendet werden, parallel zu den anderen Moduln einen Teil der Verarbeitungsvorgänge, d. h. der Vergleiche und Verarbeitung der Vergleichsergebnisse, für jeweils einen Sprachsignalwert durchzuführen, um auf diese Weise alle vorhandenen Elemente der gesamten Anordnung optimal auszunutzen. Im wesentlichen dient jedoch dieses Modul mit der Rechenanordnung11 und dem Speicher21 als Steuer­einheit für den Datenverkehr auf dem gemeinsamen Bus9 sowie als Steueranordnung für den Speicher21 und die Eingabe-Ausgabeeinheiten28.If there is still time in the execution of the functions in the module with the computing arrangement11 and the storage unit21 during the processing of a speech signal in each case, this module can also be used for parallel to the other modules, a part of the processing operations, ie the comparisons and Processing of the comparison results for one speech signal value in each case in order in this way to optimally utilize all the elements present in the entire arrangement. Essentially, however, this module with the computing arrangement11 and the memory21 serves as a control unit for data traffic on the common bus9 and as a control arrangement for the memory21 and the input-output units28 .

Jeder neue von der Vorverarbeitungsanordnung6 erzeugte Sprachsignalwert wird über den Bus9 allen Moduln parallel zugeführt, und jeder Modul führt die entsprechenden Verarbeitungsschritte, d. h. den Vergleich mit Referenz­werten und die Weiterverarbeitung der Vergleichsergebnisse unabhängig von den anderen Moduln durch. Lediglich wenn im Speicher21 des übergeordneten Steuermoduls aus der Rechenanordnung11 und der Speichereinheit21 alle Referenzwerte und Sprachregeln gespeichert sind, treten während der Verarbeitung eines Sprachsignalwertes wieder­holt Zugriffe auf diese Speicher auf, wobei Zugriffs­wünsche von zwei oder mehr Moduln gleichzeitig auftreten können. In diesem Falle tritt für mindestens ein Modul eine gewisse Wartezeit auf, die im Verhältnis zur Gesamtzeit jedoch nicht sehr bedeutend ist.Each new speech signal value generated by the preprocessing arrangement6 is fed in parallel to all modules via the bus9 , and each module carries out the corresponding processing steps, ie the comparison with reference values and the further processing of the comparison results independently of the other modules. Only when all reference values and language rules are stored in the memory21 of the higher-level control module from the arithmetic arrangement11 and the memory unit21 does access to this memory occur repeatedly during the processing of a speech signal value, access requests from two or more modules being able to occur simultaneously. In this case there is a certain waiting time for at least one module, which is not very significant in relation to the total time.

Am Ende des Sprachsignals fragt die Rechenanordnung11 des übergeordneten Moduls das günstigste Gesamtvergleichs­ergebnis jedes Moduls ab und ermittelt daraus das für alle Moduln günstigste Vergleichsergebnis, wodurch dann die Folge der erkannten Wörter fest liegt und über die Eingabe-Ausgabeeinheit29 ausgegeben werden kann.At the end of the speech signal, the computing arrangement11 of the higher-level module queries the most favorable overall comparison result of each module and uses this to determine the most favorable comparison result for all modules, as a result of which the sequence of the recognized words is then fixed and can be output via the input / output unit29 .

Claims (4)

Translated fromGerman
1. Anordnung zur Erkennung der Wörter in einem Sprach­signal, mit einer Vorverarbeitungsanordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignal­wert die Werte einer Anzahl Parameter in einem Zeit­abschnitt des Sprachsignals angibt, mit einer ersten Speicheranordnung, die eine Anzahl Referenzwerte enthält, von denen jeder Referenzwert die Werte der Parameter in einem Zeitabschnitt eines Referenzsprachsignals angibt und jeweils eine Folge von Referenzwerten ein zu erkennendes Wort eines vorgegebenen Vokabulars darstellt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit aus der ersten Speicheranordnung ausgelesenen Referenzwerten vergleicht und die Vergleichsergebnisse insbesondere unter Berücksichtigung von in einer zweiten Speicheranordnung gespeicherten Sprachregeln weiter­verarbeitet und dabei Zwischenergebnisse in einer dritten Speicheranordnung zwischenspeichert und am Ende des Sprachsignals aus dem günstigsten Gesamtvergleichsergebnis eine Folge von erkannten Wörtern ausgibt,dadurch gekennzeichnet, daß wenigstens die dritte Speicheranordnung in mehrere voneinander unabhängige dritte Speicher und die Verarbeitungsanordnung in mehrere einzelne Elemente aufgeteilt ist, die jeweils einander zugeordnet sind und je ein Modul mit einer Rechenanordnung für die Verarbeitungsanordnung und mit einer Speicher­einheit für den dritten Speicher bilden, wobei alle Moduln parallel untereinander und mit der Vorverarbeitungsanord­nung über einen gemeinsamen Bus verbunden sind und in jedem Modul die Rechenanordnung jeden neuen Sprachsignal­ wert unabhängig von den anderen Moduln mit einer Unter­menge der Referenzwerte vergleicht und nur die dabei erzeugten Vergleichsergebnisse weiterverarbeitet.1. Arrangement for recognizing the words in a speech signal, with a preprocessing arrangement which derives a temporal sequence of speech signal values from the continuous speech signal, from which each speech signal value indicates the values of a number of parameters in a time section of the speech signal, with a first storage arrangement , which contains a number of reference values, each of which reference values indicates the values of the parameters in a time segment of a reference speech signal and in each case a sequence of reference values represents a word of a predetermined vocabulary to be recognized, and a processing arrangement which reads each speech signal value from the first memory arrangement Comparing reference values and further processing the comparison results, in particular taking into account language rules stored in a second memory arrangement, and temporarily storing intermediate results in a third memory arrangement and at the end of the Spr Axis signal outputs a sequence of recognized words from the most favorable overall comparison result,characterized in that at least the third memory arrangement is divided into a plurality of independent third memories and the processing arrangement is divided into several individual elements, each of which is assigned to one another and each has a module with a computing arrangement for the Processing arrangement and form with a storage unit for the third memory, all modules are connected in parallel with each other and with the preprocessing arrangement via a common bus and in each module the computing arrangement compares each new speech signal value independently of the other modules with a subset of the reference values and only processes the comparison results generated in the process.2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Untermenge der Referenz­werte je Modul fest vorgegeben ist.2. Arrangement according to claim 1,characterized in that the subset of the referencevalues per module is fixed.3. Anordnung nach Anspruch 1, wobei abhängig von den gespeicherten Sprachregeln und von Schwellwerten für Vergleichsergebnisse jeder Sprachsignalwert mit nur einem während der Folge der Sprachsignalwerte variierenden Teil der Referenzwerte verglichen wird, dadurch gekennzeichnet, daß die Untermenge der Referenz­werte je Modul abhängig von dem momentanen Teil der Referenzwerte ausgewählt ist.3. Arrangement according to claim 1, wherein depending on thestored language rules and threshold values forComparison results of each speech signal value with only onepart varying during the sequence of the speech signal valuesthe reference values are compared,characterized in that the subset of the referencevalues per module depending on the current part of theReference values is selected.4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß in jedem Modul der gemeinsame Bus außer mit der Rechenanordnung direkt mit der zuge­hörigen Speichereinheit verbunden ist.4. Arrangement according to claim 3,characterized in that in each module the commonBus except with the computing arrangement directly with thehearing storage unit is connected.
DE199141063471991-02-281991-02-28Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycleWithdrawnDE4106347A1 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
DE19914106347DE4106347A1 (en)1991-02-281991-02-28Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
DE19914106347DE4106347A1 (en)1991-02-281991-02-28Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle

Publications (1)

Publication NumberPublication Date
DE4106347A1true DE4106347A1 (en)1992-09-03

Family

ID=6426120

Family Applications (1)

Application NumberTitlePriority DateFiling Date
DE19914106347WithdrawnDE4106347A1 (en)1991-02-281991-02-28Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle

Country Status (1)

CountryLink
DE (1)DE4106347A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US5884260A (en)*1993-04-221999-03-16Leonhard; Frank UldallMethod and system for detecting and generating transient conditions in auditory signals
EP1497824A4 (en)*2002-04-222006-06-14Matsushita Electric Industrial Co Ltd MATCHING FOR EXTENDED VOCABULAR VOICE RECOGNITION, PACKET DISTRIBUTION AND LOCALIZED TRELLIS ACCESS
US7343288B2 (en)2002-05-082008-03-11Sap AgMethod and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en)2002-05-082008-07-29Sap AktiengesellschaftMethod and system for the processing of voice data and for the recognition of a language

Citations (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
EP0285221A2 (en)*1987-04-031988-10-05Philips Patentverwaltung GmbHMethod for detecting continually pronounced words
EP0373042A2 (en)*1988-11-301990-06-13Bull S.A.Integrated circuit for dynamic programming

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
EP0285221A2 (en)*1987-04-031988-10-05Philips Patentverwaltung GmbHMethod for detecting continually pronounced words
EP0373042A2 (en)*1988-11-301990-06-13Bull S.A.Integrated circuit for dynamic programming

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US5884260A (en)*1993-04-221999-03-16Leonhard; Frank UldallMethod and system for detecting and generating transient conditions in auditory signals
EP1497824A4 (en)*2002-04-222006-06-14Matsushita Electric Industrial Co Ltd MATCHING FOR EXTENDED VOCABULAR VOICE RECOGNITION, PACKET DISTRIBUTION AND LOCALIZED TRELLIS ACCESS
US7343288B2 (en)2002-05-082008-03-11Sap AgMethod and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en)2002-05-082008-07-29Sap AktiengesellschaftMethod and system for the processing of voice data and for the recognition of a language

Similar Documents

PublicationPublication DateTitle
DE3750277T2 (en) Method and device for recovering symbol chains from data.
EP0299572B1 (en)Method for connected word recognition
DE3317325C2 (en)
DE1499182C3 (en) Data storage system
EP0533261A2 (en)Method and apparatus for recognizing uttered words in a speech signal
EP0533260A2 (en)Method and apparatus for recognizing the uttered words in a speech signal
DE3126363A1 (en) METHOD AND DEVICE FOR CONTROLLING DATA TRANSMISSION WITH DIRECT MEMORY ACCESS
DE2939411C2 (en) Data processing system with virtual memory addressing
EP0285221A2 (en)Method for detecting continually pronounced words
EP0319078A2 (en)Method and apparatus for the determination of the begin and end points of isolated words in a speech signal
DE69224778T2 (en) Adaptation system with dynamic programming for speech recognition
EP0285211B1 (en)Method for detecting continually pronounced words
EP0533259A2 (en)Method and apparatus for recognizing a sequence of words
DE69028021T2 (en) Continuous speech recognition facility
DE69419837T2 (en) Continuous sign language recognition device and input device therefor
DE3026055C2 (en) Circuit arrangement for automatic character recognition
DE2920041C2 (en) Method for verifying signals, and arrangement for carrying out the method
DE4106347A1 (en)Real time speech recognition system - has parallel bus coupled modules that provide comparisons with part of references values for fast operating cycle
EP0272723B1 (en)Method and arrangement for determining the temporal course of a speech parameter
EP0677835B1 (en)Process to ascertain a series of words
DE1774211C3 (en) Data storage arrangement for a data processing system
DE4342425A1 (en) Method and arrangement for transmitting voice signals
EP0760502A1 (en)Ranking method for membership function values of linguistic input values in a fuzzy logic processor and device for carrying out the method
DE19645057C2 (en) Device for the selection of address words by means of demultiplex decoding
DE3215868A1 (en)Method and arrangement for recognising the words in a continuous word chain

Legal Events

DateCodeTitleDescription
8110Request for examination paragraph 44
8139Disposal/non-payment of the annual fee

[8]ページ先頭

©2009-2025 Movatter.jp