DE202007009355U1

Movatterモバイル変換

Info

Publication number: DE202007009355U1
Application number: DE202007009355U
Authority: DE
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 2007-07-04
Filing date: 2007-07-04
Publication date: 2007-09-27
Anticipated expiration: 2017-07-05
Also published as: WO2009003824A1

Abstract

Translated fromGerman

Sprachdialogsystemmit einer Client-Server-Struktur, bei welchem ein Nutzer mittelsSpracheingaben übereinen Client mit einem Applikationsserver kommuniziert, wobei derApplikationsserver mindestens eine Sprachdialoganwendung, die einein einer Beschreibungssprache programmierte formale Beschreibungeines Sprachdialogs und Sprachmodelle für Dialogschritte des Sprachdialogsaufweist, wobei die Spracheingaben des Nutzers als Audiosignal vondem Client an den Applikationsserver übertragen werden, dadurch gekennzeichnet, dassder Applikationsserver eine Spracherkennungseinheit und eine Sprechercharakterisierungseinheitaufweist, welche das übertrageneAudiosignal parallel verarbeiten.Voice control systemwith a client-server structure in which a user usesVoice inputs viaa client communicates with an application server, wherein theApplication server at least one voice dialogue application, the onein a description language programmed formal descriptiona speech dialogue and language models for dialogue steps in the speech dialoguewherein the user's speech inputs are used as the audio signal ofthe client are transmitted to the application server, characterized in thatthe application server comprises a speech recognition unit and a speaker characterization unithaving the transmittedProcess audio signal in parallel.

Description

Translated fromGerman

DieErfindung betrifft ein System füradaptive Sprachdialoganwendungen.TheThe invention relates to a system foradaptive speech dialogue applications.

Miteinem Sprachdialogsystem könnenAnrufer überdas Telefon teil- oder vollautomatisierte natürlich-sprachliche Dialoge führen. Hierbeiwerden aus einem frei formulierten Satz des Anrufers von dem Sprachdialogsystemdie relevanten Informationen erkannt und fehlende Informationengezielt nachgefragt. Im Gegensatz zu den früheren IVR (Interactive VoiceResponse) Dialogsystemen, bei denen schrittweise die benötigten Informationendurch das Sprachdialogsystem abgefragt wurden, sind natürlich-sprachlicheDialogsysteme wesentlich benutzer-freundlicher.Witha voice dialogue systemCaller overthe phone partially or fully automated natural-language dialogues lead. in this connectionare from a freely formulated sentence of the caller from the speech dialogue systemthe relevant information detected and missing informationspecifically inquired. Unlike the earlier IVR (Interactive VoiceResponse) dialog systems, which gradually provide the information neededare queried through the speech dialogue system, are natural-languageDialog systems much more user-friendly.

Indem Bestreben, die Benutzerakzeptanz von automatisierten Sprachdialogsystemenweiter zu erhöhen,besteht ein Bedarf nach verbesserten Systemen, die einem zwischenmenschlichenDialog noch näherkommen. Beispielsweise ist festzustellen, dass Sprachdialogsystemein unterschiedlichen Benutzergruppen mit unterschiedlichem Erfolgverwendet werden. So fälltes beispielsweise älteren Menschenschwerer, sich in einem automatisierten Sprachdialogsystem zurechtzu finden, als jüngeren Personen.Inthe endeavor, the user acceptance of automated speech dialogue systemscontinue to increaseThere is a need for improved systems that are interpersonalDialogue even closercome. For example, it should be noted that speech dialogue systemsin different user groups with varying degrees of successbe used. That's how it isfor example, older peopleharder to cope with in an automated speech dialogue systemto find, as younger persons.

Somitliegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Sprachdialogsystemanzugeben, welches an unterschiedliche Benutzergruppen anpassbareSprachdialoganwendungen bereitstellt.ConsequentlyThe present invention is based on the object, a speech dialogue systemspecify which can be adapted to different user groupsProvides voice dialog applications.

DieseAufgabe wird erfindungsgemäß durch einSystem mit den in Schutzanspruch 1 angegebenen Merkmalen gelöst. VorteilhafteWeiterbildungen der Erfindung sind in den übrigen Schutzansprüchen angegeben.TheseThe object is achieved by aSystem solved by the features specified in protection claim 1. advantageousFurther developments of the invention are specified in the other claims.

Daserfindungsgemäße Sprachdialogsystem weisteine Client-Server-Strukturauf, bei welchem ein Nutzer mittels Spracheingaben über einenClient mit einem Applikationsserver kommuniziert. Der Applikationsserverhält mindestenseine Sprachdialoganwendung bereit, die eine in einer Beschreibungsspracheprogrammierte formale Beschreibung eines Sprachdialogs und Sprachmodellefür Dialogschritte desSprachdialogs aufweist. Die Spracheingaben des Nutzers werden alsAudiosignal von dem Client an den Applikationsserver übertragen.Der Applikationsserver weist eine Spracherkennungseinheit und eineSprechercharakterisierungseinheit auf, welche das übertrageneAudiosignal parallel verarbeiten.Thehas speech dialogue system according to the inventiona client-server structureon, in which a user by means of voice inputs on aClient communicates with an application server. The application serverholds at leasta voice dialog application ready, one in a description languageprogrammed formal description of a speech dialogue and language modelsfor dialog steps of theSpeech dialogue. The voice inputs of the user are calledTransfer audio signal from the client to the application server.The application server has a speech recognition unit and aSpeaker characterization unit, which transmitted theProcess audio signal in parallel.

DieErfindung weist den Vorteil auf, dass die Ergebnisse der Sprechercharakterisierungund der Spracherkennung fürjede Äußerung desSprechers gleichzeitig vorliegen, so dass das Sprachdialogsystemauf Grundlage dieser Informationen eine adaptierte Sprachdialoganwendungbereitstellen kann.TheThe invention has the advantage that the results of the speaker characterizationand speech recognition forevery statement of theSpeaker present at the same time, so that the voice dialogue systembased on this information, an adapted voice dialogue applicationcan provide.

Gemäß einerWeiterbildung der vorliegenden Erfindung umfasst der Applikationsservereine Sprachdialogsteuereinheit, welche auf Grundlage erkannter Spracheingabenaus der Spracherkennungseinheit und einen Sprecher charakterisierenderWerte aus der Sprechercharakterisierungseinheit die Sprachdialoganwendungsteuert.According to oneDevelopment of the present invention comprises the application servera voice dialogue control unit based on recognized voice inputsfrom the speech recognition unit and a speaker characterizingValues from the speaker characterization unit the speech dialogue applicationcontrols.

Gemäß einerweiteren Ausbildung der vorliegenden Erfindung weist die Sprachdialogsteuereinheiteine Sprachinterpretationseinheit zur semantischen Interpretationvon erkannten Spracheingaben auf, die von der Spracherkennungseinheitermittelt werden.According to oneFurther embodiment of the present invention, the speech dialogue control unita language interpretation unit for semantic interpretationrecognized voice input from the speech recognition unitbe determined.

ImWeiteren werden bevorzugte Ausführungsformendes erfindungsgemäßen Sprachdialogsystemsfür adaptiveSprachdialoganwendungen unter Bezugnahme auf die beigefügten Figurenzur Erläuterungerfindungswesentlicher Merkmale beschrieben.in theOther preferred embodimentsthe speech dialogue system according to the inventionfor adaptiveSpeech dialogue applications with reference to the attached figuresIn order to explainfeatures essential to the invention described.

EszeigenItdemonstrate

1 ineiner schematischen Darstellung einen Ablauf einer Sprechercharakterisierung, 1 in a schematic representation a course of a speaker characterization,

2 ineiner schematischen Darstellung eine erfindungsgemäße Anordnungdes Sprachdialogsystems, 2 in a schematic representation of an inventive arrangement of the speech dialogue system,

3 ineiner schematischen Darstellung eine exemplarische Anwendung deserfindungsgemäßen Sprachdialogsystems. 3 in a schematic representation of an exemplary application of the speech dialogue system according to the invention.

1 zeigtin einer schematischen Darstellung einen Ablauf einer Sprechercharakterisierung. Ineinem ersten Schritt wird das Sprachsignal einer Merkmalsextraktionseinheit101 zugeführt. Dieaus dem Sprachsignal extrahierten Merkmalsvektoren werden paralleldrei unterschiedlichen Phonemerkennungseinheiten102,103,104 zugeführt. Die Phonemerkennungseinheitensind jeweils auf eine Klasse fürdie Sprechercharakterisierung trainiert, beispielsweise ist diePhonemerkennungseinheit102 auf männliche, die Phonemerkennungseinheit103 aufweibliche und die Phonemerkennungseinheit104 auf kindlicheSprecher trainiert. Die zugehörigenErkennungswahrscheinlichkeiten jeder Phonemerkennungseinheit sindalso fürdie jeweils passende Klasse am höchsten.Die Erkennungswahrscheinlichkeiten von den Phonemerkennungseinheiten102,103 und104 werdenjeweils an ein Neuronales Netz105 weitergeleitet. Zusätzlich werdennoch weitere Merkmale aus der Merkmalsextraktionseinheit101,wie beispielsweise das Harmonics-to-NoiseVerhältnis desSprachsignals, dem Neuronalen Netz105 zugeführt. AufGrundlage der Informationen aus den Phonemerkennungseinheiten102,103,104 undden zusätzlichenMerkmalen aus der Merkmalsextraktionseinheit101 ermitteltdas Neuronale Netz105 für jede Klasse eine Klassenwahrscheinlichkeit.Die ermittelten Klassenwahrscheinlichkeiten werden einer Klassenentscheidungseinheit107 zugeführt, welchedas Sprachsignal der Klasse mit der höchsten Klassenwahrscheinlichkeitzuordnet. 1 shows a schematic representation of a procedure of a speaker characterization. In a first step, the speech signal becomes a feature extraction unit 101 fed. The feature vectors extracted from the speech signal become parallel to three different phoneme recognition units 102 . 103 . 104 fed. The phoneme recognition units are each trained on a class for speaker characterization, for example, the phoneme recognition unit 102 to male, the phoneme recognition unit 103 on female and the phoneme recognition unit 104 trained on childlike speakers. The associated detection probabilities of each phoneme recognition unit are therefore the highest for the respective matching class. The recognition probabilities of the phoneme recognition units 102 . 103 and 104 are each connected to a neural network 105 forwarded. In addition, further features from the feature extraction unit 101 such as the harmonics-to-noise ratio of the speech signal, the neural network 105 Trains leads. Based on the information from the phoneme recognition units 102 . 103 . 104 and the additional features from the feature extraction unit 101 determines the neural network 105 a class probability for each class. The determined class probabilities become a class decision unit 107 which assigns the speech signal to the class with the highest class probability.

DieSprechercharakterisierung kann beispielsweise zur Klassifizierungeines Sprachsignals nach Alter, Geschlecht, Sprache oder Dialektdes Sprechers verwendet werden.TheSpeaker characterization can be used, for example, for classificationa voice signal by age, gender, language or dialectused by the speaker.

2 zeigtin einer schematischen Darstellung eine erfindungsgemäße Anordnungdes Sprachdialogsystems. Die Anordnung umfasst in diesem Ausführungsbeispieleine Kommunikationseinheit201, eine Sprachdialogkontrolleinheit202 undeinen Sprachserver203. 2 shows a schematic representation of an inventive arrangement of the speech dialogue system. The arrangement comprises in this embodiment a communication unit 201 , a voice dialogue control unit 202 and a voice server 203 ,

DieKommunikationseinheit201 übermittelt das Sprachsignaldes Benutzers in diesem Ausführungsbeispielan die Sprachdialogkontrolleinheit202 und an den Sprachserver203.Zudem empfängtdie Kommunikationseinheit201 Sprachdaten von der Sprachdialogkontrolleinheit202 unddem Sprachserver203. Die Übermittlung der Daten zwischenKommunikationsendgerät201 undSprachserver203 erfolgt beispielsweise anhand eines RTP(Real-Time Transport Protocol) Protokolls. Die Übermittlung der Daten zwischenSprachdialogkontrolleinheit202 und Sprachserver203 erfolgtbeispielsweise anhand eines MRCP (Media Resource Control Protocol)Protokolls.The communication unit 201 transmits the user's voice signal in this embodiment to the voice dialogue control unit 202 and to the language server 203 , In addition, the communication unit receives 201 Voice data from the voice dialogue control unit 202 and the language server 203 , The transmission of the data between communication terminal 201 and language server 203 takes place for example by means of an RTP (Real-Time Transport Protocol) protocol. The transmission of data between speech dialogue control unit 202 and language server 203 takes place, for example, using an MRCP (Media Resource Control Protocol) protocol.

DasReal-Time Transport Protocol (RTP) ist ein Protokoll zur kontinuierlichen Übertragungvon audiovisuellen Daten (Streams) über IP-basierte Netzwerke.TheReal-time transport protocol (RTP) is a protocol for continuous transmissionaudiovisual data (streams) over IP-based networks.

DasMedia Resource Control Protocol (MRCP) ist ein Standard des IETFfür denZugriff auf Sprachsoftware in verteilten Systemen bzw. im Internet.Das Protokoll ermöglichtdie Fernsteuerung und externe Kontrolle von Sprach-Ressourcen. MRCP dientder Übermittlungvon Steuerinformationen, währendandere Protokolle wie RTP (Real Time Transport Protocol) die Sprachübertragungdefinieren.TheMedia Resource Control Protocol (MRCP) is a standard of the IETFfor theAccess to speech software in distributed systems or on the Internet.The protocol allowsthe remote control and external control of voice resources. MRCP servesthe transmissionof control information whileother protocols like RTP (Real Time Transport Protocol) voice transmissiondefine.

DieSprachdialogkontrolleinheit202 steuert und kontrolliertden Sprachdialog mit dem Benutzer. Hierzu werden Sprach- und Steuerinformationenzwischen Kommunikationsendgerät201 undSprachdialogkontrolleinheit202 sowie zwischen Sprachserver203,Sprachdialogkontrolleinheit202 und Kommunikationsendgerät201 ausgetauscht.Die Übertragung derDaten erfolgt dabei vorzugsweise nach dem MRCP Protokoll. Die Dialogsteuerungin der Sprachdialogkontrolleinheit202 wird beispielsweisenach dem VoiceXML Standard vorgenommen. Die Sprachdialogkontrolleinheit202 befindetsich beispielsweise auf einem Applikationsserver oder auf einemmobilen Kommunikationsendgerät(PDA, Smartphone).The voice dialogue control unit 202 controls and controls the speech dialogue with the user. For this purpose, voice and control information between communication terminal 201 and voice dialogue control unit 202 as well as between language servers 203 , Speech dialogue control unit 202 and communication terminal 201 replaced. The transmission of the data preferably takes place according to the MRCP protocol. The dialog control in the speech dialogue control unit 202 is for example made according to the VoiceXML standard. The voice dialogue control unit 202 is located, for example, on an application server or on a mobile communication terminal (PDA, smartphone).

VoiceXML(Voice Extended Markup Language) ist eine XML-Applikation, die der Beschreibung vonDialog-Abläufenin einem Sprachdialogsystem dient.VoiceXML(Voice Extended Markup Language) is an XML application that describes the description ofDialogue processesin a speech dialogue system.

DerSprachserver203 umfasst einen MRCP-Server204 zurInterpretation und Generierung von MRCP-Sprach- und Steuerinformationen. Weiterhinumfasst der Sprachserver203 eine Spracherkennungseinheit205 undeine Sprechercharakterisierungseinheit206. Die Spracherkennungseinheit205 unddie Sprechercharakterisierungseinheit206 verarbeiten dasSprachsignal parallel und stellen der Sprachdialogkontrolleinheit202 somitdie ermittelten Werte parallel zur Verfügung. Zusätzlich kann der Sprachserver203 beispielsweiseeine DTMF-Erkennungseinheit(Dual Tone Multiple Frequency)207 und eine Sprachanfangsdetektionseinheit("Barge-in")208 umfassen.The language server 203 includes an MRCP server 204 for the interpretation and generation of MRCP speech and control information. Furthermore, the language server includes 203 a speech recognition unit 205 and a speaker characterization unit 206 , The speech recognition unit 205 and the speaker characterization unit 206 process the speech signal in parallel and set the speech dialogue control unit 202 thus the determined values are available in parallel. Additionally, the voice server 203 for example, a DTMF detection unit (Dual Tone Multiple Frequency) 207 and a speech capture detection unit ("barge-in") 208 include.

DTMF(Dual Tone Multiple Frequency: „Doppeltonmehrfrequenz"), auch Mehrfrequenzwahlverfahren,ist ein analoges Verfahren zur Übermittlung vonRufnummern bzw. gedrücktenWähltasten.Ziffern beziehungsweise Tasten, die gewählt wurden, werden auf deranalogen Anschlussleitung des Telefons als Wählsignale übertragen. Üblicherweise wird ein Wählsignalin derartigen Verfahren durch eine Überlagerung zweier sinusförmiger Tonsignalerepräsentiert,die von einer DTMF-Erkennungseinheiterkannt werden.DTMF(Dual Tone Multiple Frequency), also multi-frequency,is an analogous method for the transmission ofPhone numbers or pressedDialpad.Numerals or keys that have been selected are displayed on theanalogue telephone line as dialing signals. Usually, a dial signalin such methods by a superposition of two sinusoidal sound signalsrepresentsthat of a DTMF recognition unitbe recognized.

3 zeigtin einer schematischen Darstellung eine exemplarische Anwendungdes erfindungsgemäßen Sprachdialogsystems.In einem adaptiven Sprachdialog gesteuerten Shopping portal werden dieAnrufer durch eine Sprechercharakterisierung nach Alter301 undGeschlecht302,303 klassifiziert. Demnach erfolgteine Zuordnung der Anrufer zum weiblichen302 und zum männlichen303 Geschlecht. Zudemwerden die Anrufer in drei Altersklassen eingeteilt: Kinder304,Erwachsene305 und306, Senioren307.Je nach zugewiesenem Geschlecht und Alter werden unterschiedlicheInteressen der Anrufer vermutet und der Sprachdialog entsprechendgestaltet. In diesem Ausführungsbeispielwerden der Gruppe Kinder beiderlei Geschlechts304 Informationen über Spieleund Musik/Film dargeboten. In der Gruppe der Erwachsenen werdenden Frauen Informationen überMode und Parfümsund den MännernInformationen überAutos und Sport-angeboten. Den Senioren wiederum werden unabhängig vomerkannten Geschlecht Shoppingangebote aus dem Bereich Gesundheitund Wohnung/Garten unterbreitet. 3 shows a schematic representation of an exemplary application of the speech dialogue system according to the invention. In an adaptive speech dialogue controlled shopping portal the callers become by a speaker characterization by age 301 and gender 302 . 303 classified. Accordingly, there is an assignment of the caller to the female 302 and to the male 303 Gender. In addition, the callers are divided into three age groups: children 304 , Adults 305 and 306 , Seniors 307 , Depending on the assigned gender and age, different interests of the caller are assumed and the speech dialogue is designed accordingly. In this embodiment, the group of children of both sexes 304 Information about games and music / film presented. In the group of adults, women are offered information about fashion and perfumes and men information about cars and sports. The seniors, in turn, regardless of the gender recognized shopping offers from the field Ge health and apartment / garden submitted.

Durchdie parallele Verarbeitung des Sprachsignals in einer Spracherkennungseinheitund einer Sprechercharakterisierungseinheit besteht die Möglichkeitein adaptives Sprachdialogsystem bereitzustellen, welches ein maßgeschneidertesAngebot für unterschiedlicheZielgruppen ermöglicht.Bythe parallel processing of the speech signal in a speech recognition unitand a speaker characterization unit is possibleto provide an adaptive speech dialogue system which is tailor madeOffer for differentTarget groups.

Diein einer Sprechercharakterisierungseinheit ermittelten Informationensind weiterhin geeignet, um eine statistische Auswertung der Anruferzu erstellen. So kann eine statistische Auswertung eines Dialogsystemsbeispielsweise ergeben, dass 75% der Anrufer weiblich und im Alterzwischen 35 und 50 Jahren waren oder dass 60% der Senioren den Sprachdialogvorzeitig beendet haben.TheInformation determined in a speaker characterization unitare still suitable to provide a statistical evaluation of the callerto create. So can a statistical evaluation of a dialogue systemFor example, 75% of callers are female and olderbetween the ages of 35 and 50, or that 60% of seniors had the language dialoguehave ended prematurely.

Ineinem weiteren Szenario werden die Ergebnisse der Sprechercharakterisierungfür multilingualeSprachservices herangezogen. Anhand der ermittelten Sprache desAnrufers wird ein Sprachdialog in der jeweiligen Sprache gestartet.InAnother scenario will be the results of speaker characterizationfor multilingualLanguage services. Based on the determined language of theCaller is started a language dialogue in the respective language.

Weiterhinkann die Sprechercharakterisierung zur Erkennung der Anruferemotionoder der Qualitätder Telefonverbindung benutzt werden. So wird durch die Sprechercharakterisierung beispielsweiseerkannt, dass der Anrufer besonders verärgert oder die Telefonverbindungbesonders schlecht ist. In diesem Fall besteht die Möglichkeit,den Anrufer mit einem Call Center Mitarbeiter zu verbinden.Fartherthe speaker characterization can be used to detect caller emotionor the qualitythe telephone connection are used. For example, speaker characterization becomesRecognized that the caller is particularly upset or the telephone connectionespecially bad. In this case, there is the possibilityto connect the caller with a call center employee.

Dievorliegende Erfindung ist nicht auf die hier beschriebenen Ausführungsbeispielebeschränkt.TheThe present invention is not limited to the embodiments described hereinlimited.

Claims

Translated fromGerman

Sprachdialogsystem mit einer Client-Server-Struktur,bei welchem ein Nutzer mittels Spracheingaben über einen Client mit einemApplikationsserver kommuniziert, wobei der Applikationsserver mindestenseine Sprachdialoganwendung, die eine in einer Beschreibungsspracheprogrammierte formale Beschreibung eines Sprachdialogs und Sprachmodellefür Dialogschrittedes Sprachdialogs aufweist, wobei die Spracheingaben des Nutzersals Audiosignal von dem Client an den Applikationsserver übertragenwerden,dadurch gekennzeichnet, dass der Applikationsservereine Spracherkennungseinheit und eine Sprechercharakterisierungseinheitaufweist, welche das übertrageneAudiosignal parallel verarbeiten.A speech dialogue system having a client-server structure, in which a user communicates with an application server via voice inputs via a client, the application server having at least one voice dialogue application having a formal description of a voice dialogue and language models for dialog steps of the voice dialogue programmed in a description language, wherein the Speech inputs of the user are transmitted as audio signal from the client to the application server,characterized in that the application server comprises a speech recognition unit and a speaker characterization unit, which process the transmitted audio signal in parallel.

Sprachdialogsystem nach Anspruch 1, wobei der Applikationsservereine Sprachdialogsteuereinheit umfasst, welche auf Grundlage erkannterSpracheingaben aus der Spracherkennungseinheit und einen Sprechercharakterisierender Werte aus der Sprechercharakterisierungseinheitdie Sprachdialoganwendung steuert.The speech dialogue system of claim 1, wherein the application servera voice dialogue control unit, which is recognized based onSpeech inputs from the speech recognition unit and a speakercharacterizing values from the speaker characterization unitcontrols the voice dialog application.

Sprachdialogsystem nach Anspruch 2, wobei die Sprachdialogsteuereinheiteine Sprachinterpretationseinheit zur semantischen Interpretationvon erkannten Spracheingaben aufweist, die von der Spracherkennungseinheitermittelt werden.A voice dialogue system according to claim 2, wherein the voice dialogue control unita language interpretation unit for semantic interpretationof recognized voice input received by the voice recognition unitbe determined.

Sprachdialogsystem nach Anspruch 1, wobei der Applikationsserveran ein Datennetz angeschlossen ist.The speech dialogue system of claim 1, wherein the application serverconnected to a data network.

Sprachdialogsystem nach Anspruch 4, wobei das Datennetzdas Internet ist.Speech dialogue system according to claim 4, wherein the data networkthe internet is.

Sprachdialogsystem nach Anspruch 1, wobei der Clientvon einem Kommunikationsendgerätumfasst ist.The voice dialogue system of claim 1, wherein the clientfrom a communication terminalis included.

Sprachdialogsystem nach Anspruch 6, wobei das Kommunikationsendgerät eine Ausgabeeinheit umfasst,welche von dem Applikationsserver übermittelte Daten als Audiosignaloder als synthetisiertes Sprachsignal ausgibt.Speech dialogue system according to claim 6, wherein the communication terminal comprises an output unit,which data transmitted by the application server as an audio signalor outputs as a synthesized speech signal.