Dieser Inhalt wurde automatisch aus dem Englischen übersetzt, und kann Fehler enthalten.Erfahre mehr über dieses Experiment.
Web Speech API
DieWeb Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen:SpeechSynthesis (Text-zu-Sprache) undSpeechRecognition (Asynchrone Spracherkennung).
In diesem Artikel
Web-Sprachkonzepte und Verwendung
Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Sie hat zwei Komponenten:
- Spracherkennung wird über das
SpeechRecognition-Interface zugegriffen, das die Fähigkeit bietet, Sprachkontext aus einer Audioquelle zu erkennen und es Ihrer App ermöglicht, angemessen zu reagieren.In der Regel verwenden Sie den Konstruktor des Interfaces, um ein neuesSpeechRecognition-Objekt zu erstellen. Dieses Objekt bietet eine Anzahl von Ereignis-Handlern, um zu erkennen, wann Sprache von dem Mikrofon des Geräts (oder von einer Audiospur) eingehend ist.Sie können angeben, ob die Spracherkennung einen vom Nutzer bereitgestellten Dienst (Standard) verwenden oderlokal im Browser ausgeführt werden soll. - Sprachsynthese wird über das
SpeechSynthesis-Interface zugegriffen, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt zu lesen (normalerweise über den Standard-Sprachsynthesizer des Geräts). Verschiedene Stimmtypen werden durchSpeechSynthesisVoice-Objekte repräsentiert, und verschiedene Textabschnitte, die gesprochen werden sollen, werden durchSpeechSynthesisUtterance-Objekte repräsentiert.Sie können diese sprechen lassen, indem Sie sie an dieSpeechSynthesis.speak()-Methode übergeben.
Weitere Details zur Nutzung dieser Funktionen finden Sie unterVerwendung der Web Speech API.
Schnittstellen der Web Speech API
>Spracherkennung
SpeechRecognitionDas Kontroll-Interface für den Erkennungsdienst; dieses behandelt auch das
SpeechRecognitionEvent, das vom Erkennungsdienst gesendet wird.SpeechRecognitionAlternativeRepräsentiert ein einzelnes, vom Spracherkennungsdienst erkanntes Wort.
SpeechRecognitionErrorEventRepräsentiert Fehlermeldungen vom Erkennungsdienst.
SpeechRecognitionEventDas Ereignisobjekt für die
result- undnomatch-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind.SpeechRecognitionPhraseRepräsentiert einen Satz, der in die Spracherkennungsmotor zurkontextabhängigen Bevorzugung eingefügt werden kann.
SpeechRecognitionResultRepräsentiert ein einzelnes Erkennungsergebnis, das möglicherweise mehrere
SpeechRecognitionAlternative-Objekte enthält.SpeechRecognitionResultListRepräsentiert eine Liste von
SpeechRecognitionResult-Objekten oder ein einzelnes, wenn Ergebnisse imcontinuous-Modus erfasst werden.
Sprachsynthese
SpeechSynthesisDas Kontroll-Interface für den Sprachdienst; dieses kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen abzurufen, Sprache zu starten und zu pausieren und andere Befehle nebenbei auszuführen.
SpeechSynthesisErrorEventEnthält Informationen über Fehler, die bei der Verarbeitung von
SpeechSynthesisUtterance-Objekten im Sprachdienst auftreten.SpeechSynthesisEventEnthält Informationen über den aktuellen Zustand der in den Sprachdienst verarbeiteten
SpeechSynthesisUtterance-Objekte.SpeechSynthesisUtteranceRepräsentiert eine Sprachanforderung.Es enthält den Inhalt, den der Sprachdienst lesen soll, sowie Informationen darüber, wie er gelesen werden soll (z. B. Sprache, Tonhöhe und Lautstärke).
SpeechSynthesisVoiceRepräsentiert eine Stimme, die das System unterstützt.Jede
SpeechSynthesisVoicehat ihren eigenen relativen Sprachdienst, einschließlich Informationen über Sprache, Name und URI.Window.speechSynthesisSpezifiert als Teil eines
[NoInterfaceObject]-Interfaces namensSpeechSynthesisGetter, und implementiert vomWindow-Objekt, bietet diespeechSynthesis-Eigenschaft Zugriff auf denSpeechSynthesis-Controller und somit den Einstiegspunkt in die Sprachsynthesefunktionalität.
Veraltete Schnittstellen
Das Konzept der Grammatik wurde aus der Web Speech API entfernt. Verwandte Funktionen bleiben in der Spezifikation und werden von unterstützenden Browsern aus Gründen der Rückwärtskompatibilität weiterhin erkannt, haben jedoch keinen Einfluss auf Spracherkennungsdienste.
SpeechGrammarVeraltetRepräsentiert Wörter oder Muster von Wörtern, die der Erkennungsdienst erkennen soll.
SpeechGrammarListVeraltetRepräsentiert eine Liste von
SpeechGrammar-Objekten.
Fehler
Für Informationen über Fehler, die von der Speech API gemeldet werden (zum Beispiel"language-not-supported" und"language-unavailable"), siehe die folgende Dokumentation:
Sicherheitsüberlegungen
Der Zugriff auf dielokale Spracherkennung-Funktionalität der Web Speech API wird durch dieon-device-speech-recognition- undPermissions-Policy-Direktive kontrolliert.
Insbesondere wo eine definierte Richtlinie die Nutzung blockiert, werden alle Versuche, die MethodenSpeechRecognition.available() oderSpeechRecognition.install() der API aufzurufen, fehlschlagen.
Beispiele
UnsereBeispiele der Web Speech API veranschaulichen Spracherkennung und -synthese.
Spezifikationen
| Specification |
|---|
| Web Speech API> # speechreco-section> |
| Web Speech API> # tts-section> |