DieErfindung betrifft ein System füradaptive Sprachdialoganwendungen.TheThe invention relates to a system foradaptive speech dialogue applications.
Miteinem Sprachdialogsystem könnenAnrufer überdas Telefon teil- oder vollautomatisierte natürlich-sprachliche Dialoge führen. Hierbeiwerden aus einem frei formulierten Satz des Anrufers von dem Sprachdialogsystemdie relevanten Informationen erkannt und fehlende Informationengezielt nachgefragt. Im Gegensatz zu den früheren IVR (Interactive VoiceResponse) Dialogsystemen, bei denen schrittweise die benötigten Informationendurch das Sprachdialogsystem abgefragt wurden, sind natürlich-sprachlicheDialogsysteme wesentlich benutzer-freundlicher.Witha voice dialogue systemCaller overthe phone partially or fully automated natural-language dialogues lead. in this connectionare from a freely formulated sentence of the caller from the speech dialogue systemthe relevant information detected and missing informationspecifically inquired. Unlike the earlier IVR (Interactive VoiceResponse) dialog systems, which gradually provide the information neededare queried through the speech dialogue system, are natural-languageDialog systems much more user-friendly.
Indem Bestreben, die Benutzerakzeptanz von automatisierten Sprachdialogsystemenweiter zu erhöhen,besteht ein Bedarf nach verbesserten Systemen, die einem zwischenmenschlichenDialog noch näherkommen. Beispielsweise ist festzustellen, dass Sprachdialogsystemein unterschiedlichen Benutzergruppen mit unterschiedlichem Erfolgverwendet werden. So fälltes beispielsweise älteren Menschenschwerer, sich in einem automatisierten Sprachdialogsystem zurechtzu finden, als jüngeren Personen.Inthe endeavor, the user acceptance of automated speech dialogue systemscontinue to increaseThere is a need for improved systems that are interpersonalDialogue even closercome. For example, it should be noted that speech dialogue systemsin different user groups with varying degrees of successbe used. That's how it isfor example, older peopleharder to cope with in an automated speech dialogue systemto find, as younger persons.
Somitliegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Sprachdialogsystemanzugeben, welches an unterschiedliche Benutzergruppen anpassbareSprachdialoganwendungen bereitstellt.ConsequentlyThe present invention is based on the object, a speech dialogue systemspecify which can be adapted to different user groupsProvides voice dialog applications.
DieseAufgabe wird erfindungsgemäß durch einSystem mit den in Schutzanspruch 1 angegebenen Merkmalen gelöst. VorteilhafteWeiterbildungen der Erfindung sind in den übrigen Schutzansprüchen angegeben.TheseThe object is achieved by aSystem solved by the features specified in protection claim 1. advantageousFurther developments of the invention are specified in the other claims.
Daserfindungsgemäße Sprachdialogsystem weisteine Client-Server-Strukturauf, bei welchem ein Nutzer mittels Spracheingaben über einenClient mit einem Applikationsserver kommuniziert. Der Applikationsserverhält mindestenseine Sprachdialoganwendung bereit, die eine in einer Beschreibungsspracheprogrammierte formale Beschreibung eines Sprachdialogs und Sprachmodellefür Dialogschritte desSprachdialogs aufweist. Die Spracheingaben des Nutzers werden alsAudiosignal von dem Client an den Applikationsserver übertragen.Der Applikationsserver weist eine Spracherkennungseinheit und eineSprechercharakterisierungseinheit auf, welche das übertrageneAudiosignal parallel verarbeiten.Thehas speech dialogue system according to the inventiona client-server structureon, in which a user by means of voice inputs on aClient communicates with an application server. The application serverholds at leasta voice dialog application ready, one in a description languageprogrammed formal description of a speech dialogue and language modelsfor dialog steps of theSpeech dialogue. The voice inputs of the user are calledTransfer audio signal from the client to the application server.The application server has a speech recognition unit and aSpeaker characterization unit, which transmitted theProcess audio signal in parallel.
DieErfindung weist den Vorteil auf, dass die Ergebnisse der Sprechercharakterisierungund der Spracherkennung fürjede Äußerung desSprechers gleichzeitig vorliegen, so dass das Sprachdialogsystemauf Grundlage dieser Informationen eine adaptierte Sprachdialoganwendungbereitstellen kann.TheThe invention has the advantage that the results of the speaker characterizationand speech recognition forevery statement of theSpeaker present at the same time, so that the voice dialogue systembased on this information, an adapted voice dialogue applicationcan provide.
Gemäß einerWeiterbildung der vorliegenden Erfindung umfasst der Applikationsservereine Sprachdialogsteuereinheit, welche auf Grundlage erkannter Spracheingabenaus der Spracherkennungseinheit und einen Sprecher charakterisierenderWerte aus der Sprechercharakterisierungseinheit die Sprachdialoganwendungsteuert.According to oneDevelopment of the present invention comprises the application servera voice dialogue control unit based on recognized voice inputsfrom the speech recognition unit and a speaker characterizingValues from the speaker characterization unit the speech dialogue applicationcontrols.
Gemäß einerweiteren Ausbildung der vorliegenden Erfindung weist die Sprachdialogsteuereinheiteine Sprachinterpretationseinheit zur semantischen Interpretationvon erkannten Spracheingaben auf, die von der Spracherkennungseinheitermittelt werden.According to oneFurther embodiment of the present invention, the speech dialogue control unita language interpretation unit for semantic interpretationrecognized voice input from the speech recognition unitbe determined.
ImWeiteren werden bevorzugte Ausführungsformendes erfindungsgemäßen Sprachdialogsystemsfür adaptiveSprachdialoganwendungen unter Bezugnahme auf die beigefügten Figurenzur Erläuterungerfindungswesentlicher Merkmale beschrieben.in theOther preferred embodimentsthe speech dialogue system according to the inventionfor adaptiveSpeech dialogue applications with reference to the attached figuresIn order to explainfeatures essential to the invention described.
EszeigenItdemonstrate
DieSprechercharakterisierung kann beispielsweise zur Klassifizierungeines Sprachsignals nach Alter, Geschlecht, Sprache oder Dialektdes Sprechers verwendet werden.TheSpeaker characterization can be used, for example, for classificationa voice signal by age, gender, language or dialectused by the speaker.
DieKommunikationseinheit
DasReal-Time Transport Protocol (RTP) ist ein Protokoll zur kontinuierlichen Übertragungvon audiovisuellen Daten (Streams) über IP-basierte Netzwerke.TheReal-time transport protocol (RTP) is a protocol for continuous transmissionaudiovisual data (streams) over IP-based networks.
DasMedia Resource Control Protocol (MRCP) ist ein Standard des IETFfür denZugriff auf Sprachsoftware in verteilten Systemen bzw. im Internet.Das Protokoll ermöglichtdie Fernsteuerung und externe Kontrolle von Sprach-Ressourcen. MRCP dientder Übermittlungvon Steuerinformationen, währendandere Protokolle wie RTP (Real Time Transport Protocol) die Sprachübertragungdefinieren.TheMedia Resource Control Protocol (MRCP) is a standard of the IETFfor theAccess to speech software in distributed systems or on the Internet.The protocol allowsthe remote control and external control of voice resources. MRCP servesthe transmissionof control information whileother protocols like RTP (Real Time Transport Protocol) voice transmissiondefine.
DieSprachdialogkontrolleinheit
VoiceXML(Voice Extended Markup Language) ist eine XML-Applikation, die der Beschreibung vonDialog-Abläufenin einem Sprachdialogsystem dient.VoiceXML(Voice Extended Markup Language) is an XML application that describes the description ofDialogue processesin a speech dialogue system.
DerSprachserver
DTMF(Dual Tone Multiple Frequency: „Doppeltonmehrfrequenz"), auch Mehrfrequenzwahlverfahren,ist ein analoges Verfahren zur Übermittlung vonRufnummern bzw. gedrücktenWähltasten.Ziffern beziehungsweise Tasten, die gewählt wurden, werden auf deranalogen Anschlussleitung des Telefons als Wählsignale übertragen. Üblicherweise wird ein Wählsignalin derartigen Verfahren durch eine Überlagerung zweier sinusförmiger Tonsignalerepräsentiert,die von einer DTMF-Erkennungseinheiterkannt werden.DTMF(Dual Tone Multiple Frequency), also multi-frequency,is an analogous method for the transmission ofPhone numbers or pressedDialpad.Numerals or keys that have been selected are displayed on theanalogue telephone line as dialing signals. Usually, a dial signalin such methods by a superposition of two sinusoidal sound signalsrepresentsthat of a DTMF recognition unitbe recognized.
Durchdie parallele Verarbeitung des Sprachsignals in einer Spracherkennungseinheitund einer Sprechercharakterisierungseinheit besteht die Möglichkeitein adaptives Sprachdialogsystem bereitzustellen, welches ein maßgeschneidertesAngebot für unterschiedlicheZielgruppen ermöglicht.Bythe parallel processing of the speech signal in a speech recognition unitand a speaker characterization unit is possibleto provide an adaptive speech dialogue system which is tailor madeOffer for differentTarget groups.
Diein einer Sprechercharakterisierungseinheit ermittelten Informationensind weiterhin geeignet, um eine statistische Auswertung der Anruferzu erstellen. So kann eine statistische Auswertung eines Dialogsystemsbeispielsweise ergeben, dass 75% der Anrufer weiblich und im Alterzwischen 35 und 50 Jahren waren oder dass 60% der Senioren den Sprachdialogvorzeitig beendet haben.TheInformation determined in a speaker characterization unitare still suitable to provide a statistical evaluation of the callerto create. So can a statistical evaluation of a dialogue systemFor example, 75% of callers are female and olderbetween the ages of 35 and 50, or that 60% of seniors had the language dialoguehave ended prematurely.
Ineinem weiteren Szenario werden die Ergebnisse der Sprechercharakterisierungfür multilingualeSprachservices herangezogen. Anhand der ermittelten Sprache desAnrufers wird ein Sprachdialog in der jeweiligen Sprache gestartet.InAnother scenario will be the results of speaker characterizationfor multilingualLanguage services. Based on the determined language of theCaller is started a language dialogue in the respective language.
Weiterhinkann die Sprechercharakterisierung zur Erkennung der Anruferemotionoder der Qualitätder Telefonverbindung benutzt werden. So wird durch die Sprechercharakterisierung beispielsweiseerkannt, dass der Anrufer besonders verärgert oder die Telefonverbindungbesonders schlecht ist. In diesem Fall besteht die Möglichkeit,den Anrufer mit einem Call Center Mitarbeiter zu verbinden.Fartherthe speaker characterization can be used to detect caller emotionor the qualitythe telephone connection are used. For example, speaker characterization becomesRecognized that the caller is particularly upset or the telephone connectionespecially bad. In this case, there is the possibilityto connect the caller with a call center employee.
Dievorliegende Erfindung ist nicht auf die hier beschriebenen Ausführungsbeispielebeschränkt.TheThe present invention is not limited to the embodiments described hereinlimited.
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE202007009355UDE202007009355U1 (en) | 2007-07-04 | 2007-07-04 | Speech dialogue system for adaptive speech dialogue applications |
| PCT/EP2008/057471WO2009003824A1 (en) | 2007-07-04 | 2008-06-13 | Voice dialogue system for adaptive voice dialogue applications |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE202007009355UDE202007009355U1 (en) | 2007-07-04 | 2007-07-04 | Speech dialogue system for adaptive speech dialogue applications |
| Publication Number | Publication Date |
|---|---|
| DE202007009355U1true DE202007009355U1 (en) | 2007-09-27 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE202007009355UExpired - LifetimeDE202007009355U1 (en) | 2007-07-04 | 2007-07-04 | Speech dialogue system for adaptive speech dialogue applications |
| Country | Link |
|---|---|
| DE (1) | DE202007009355U1 (en) |
| WO (1) | WO2009003824A1 (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102007043870A1 (en)* | 2007-09-14 | 2009-03-19 | Siemens Ag | Method and device for the classification of data |
| EP2077658A1 (en) | 2008-01-04 | 2009-07-08 | Siemens Aktiengesellschaft | Method for providing a service for a user |
| EP2674941A1 (en)* | 2012-06-15 | 2013-12-18 | Samsung Electronics Co., Ltd | Terminal apparatus and control method thereof |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102004056166A1 (en)* | 2004-11-18 | 2006-05-24 | Deutsche Telekom Ag | Speech dialogue system and method of operation |
| US20060122840A1 (en)* | 2004-12-07 | 2006-06-08 | David Anderson | Tailoring communication from interactive speech enabled and multimodal services |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102007043870A1 (en)* | 2007-09-14 | 2009-03-19 | Siemens Ag | Method and device for the classification of data |
| EP2077658A1 (en) | 2008-01-04 | 2009-07-08 | Siemens Aktiengesellschaft | Method for providing a service for a user |
| EP2674941A1 (en)* | 2012-06-15 | 2013-12-18 | Samsung Electronics Co., Ltd | Terminal apparatus and control method thereof |
| Publication number | Publication date |
|---|---|
| WO2009003824A1 (en) | 2009-01-08 |
| Publication | Publication Date | Title |
|---|---|---|
| DE60124559T2 (en) | DEVICE AND METHOD FOR LANGUAGE RECOGNITION | |
| DE60025748T2 (en) | VOICE RECOGNITION | |
| DE60001809T2 (en) | Voice portal host computer and procedures | |
| EP1956814A1 (en) | Digital method and device for authenticating a user of a telecommunications / data network | |
| EP1256936A2 (en) | Method for the training or the adaptation of a speech recognizer | |
| DE10220524A1 (en) | Method and system for processing voice data and for recognizing a language | |
| EP1264301B1 (en) | Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system | |
| DE10251113A1 (en) | Voice recognition method, involves changing over to noise-insensitive mode and/or outputting warning signal if reception quality value falls below threshold or noise value exceeds threshold | |
| EP1077448B1 (en) | Speech recognition taking into account fluctuations of loudness | |
| DE60133537T2 (en) | AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM | |
| EP0508547B1 (en) | Circuit for speech recognition | |
| DE69512961T2 (en) | Speech recognition based on "HMMs" | |
| DE10220521A1 (en) | Method and system for processing voice data and classifying conversations | |
| DE102014200570A1 (en) | Method and system for generating a control command | |
| DE202007009355U1 (en) | Speech dialogue system for adaptive speech dialogue applications | |
| DE10000973A1 (en) | Voice-controlled identification involves permitting clear identification once user has been recognized, thereby enabling user to be addressed personally | |
| WO2001086634A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
| WO1993002448A1 (en) | Method and device for recognizing individual words of spoken speech | |
| DE10220522A1 (en) | Method and system for processing voice data using voice recognition and frequency analysis | |
| WO2014056555A1 (en) | Motor vehicle having a speech translation system | |
| WO2005069278A1 (en) | Method and device for processing a voice signal for robust speech recognition | |
| WO2014023308A1 (en) | Method and system for providing a translation of a voice content from a first audio signal | |
| WO2005011235A1 (en) | Method and system for providing a hands-free functionality on mobile telecommunication terminals by the temporary downloading of a speech-processing algorithm | |
| WO2018188907A1 (en) | Processing speech input | |
| DE10308611A1 (en) | Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition |
| Date | Code | Title | Description |
|---|---|---|---|
| R207 | Utility model specification | Effective date:20071031 | |
| R163 | Identified publications notified | Effective date:20071123 | |
| R156 | Lapse of ip right after 3 years | Effective date:20110201 |