-
Die Erfindung betrifft ein Verfahren
zum Betrieb eines Spracherkennungssystems, in welchem ein Sprachsignal
eines Benutzers detektiert und zur Erkennung einer im Sprachsignal
enthaltenen Sprachinformation analysiert wird. Darüber hinaus
betrifft die Erfindung ein Spracherkennungssystem mit Mitteln zur
Detektion eines Sprachsignals eines Benutzers und mit einer Spracherkennungseinrichtung,
um das detektierte Sprachsignal zur Erkennung einer im Sprachsignal
enthaltenen Sprachinformation zu analysieren.
-
In vielen Anwendungsbereichen werden
zunehmend Spracherkennungssysteme genutzt, um eine sprachliche Kommunikation
zwischen einem Benutzer und der jeweiligen Anwendung, z.B. einer Gerätesteuerung
oder einem automatischen Informationsdienst, zu ermöglichen.
Solche Sprach-Benutzerschnittstellen haben viele Vorteile. Zum einen erlauben
sie ganz allgemein die freihändige
Bedienung von Geräten.
Zum anderen sind sie besonders als Benutzerschnittstellen für sehbehinderte
oder körperbehinderte
Personen geeignet, welche nicht in der Lage sind, optische Anzeigen
zu lesen und/oder Eingabehilfsmittel wie eine Tastatur oder eine
Maus zu bedienen und welche daher auf Sprache als Kommunikationsmittel
angewiesen sind. Des Weiteren werden solche Benutzerschnittstellen
zunehmend in automatischen Sprach-Dialogsystemen genutzt. Ein Beispiel
für solche
Sprach-Dialogsysteme sind automatische Anrufbeantwortungs- und Auskunftssysteme,
wie sie inzwischen insbesondere von einigen größeren Firmen und Ämtern verwendet
werden, um einen Anrufer möglichst
schnell und komfortabel mit der gewünschten Information zu versorgen
oder mit einer Stelle zu verbinden, welche für die speziellen Anfragen des
Anrufers zuständig
ist. Weitere Beispiele hierfür
sind automatische Telefonauskunftssysteme, Fahrplanauskunftssysteme,
Informationsdienste mit allgemeinen Veranstaltungshinweisen oder
Kino- und Theaterprogrammen sowie beliebige Kombinationen der verschiedenen
Auskunftssysteme.
-
Je nach Art der konkreten Anwendung,
die das Spracherkennungssystem nutzt, erfolgt die technische Übermittlung
des Sprachsignals des Benutzers zum Spracherkennungssystem über unterschiedliche
Wege bzw. Geräte.
Bei stationären
Dialogsystemen, beispielsweise in Informationsterminals an öffentlichen
Standorten wie Bahnhöfen,
Flughäfen,
Museen etc. weist das Spracherkennungssystem einen oder mehrere
Empfangskanäle
auf, an die geeignete Mikrofone, Headsets oder dgl, angeschlossen
sind, über
die die Nutzer mit dem Terminal bzw. dem Spracherkennungssystem
kommunizieren können.
Die zuvor beschriebenen automatischen Sprach-Dialogsysteme sind
dagegen üblicherweise über ein
Kommunikationsnetz, beispielsweise ein Telefonnetz oder das Internet,
mittels entsprechender Endgeräte
des Benutzers erreichbar. Hier wird folglich das Sprachsignal des
Benutzers zunächst
vom Endgerät
erfasst, in elektrische Signale umgewandelt und über einen Sprach- und/oder
Datenkanal des Kommunikationsnetzes an einen Anschluss des Sprachdialogsystems übermittelt.
-
Insbesondere bei solchen Spracherkennungssystemen,
welche von den Benutzern mittels eines Kommunikationsendgeräts aus einer
beliebigen Umgebung heraus kontaktiert werden können, ergibt sich zwangsläufig, dass
die Empfangsqualität, mit
der das Sprachsignal empfangen wird, stark differieren und sich
sogar während
einer Sitzung stark ändern
kann. Die Empfangsqualität
wird dabei zu einem wesentlichen Teil zum einen durch die Qualität des Übertragungskanals,
d. h. beispielsweise der Telefonverbindung, sowie zum anderen von
dem Hintergrundgeräuschpegel
bestimmt, der wiederum von der Umgebung abhängig ist, in der sich der Benutzer gerade
befindet. Es ist klar, dass mit einer schlechteren Empfangsqualität auch die
Arbeitsbedingungen für
das Spracherkennungssystem ungünstiger
sind, da Nebengeräusche
oder auch kurzzeitige Störungen
bzw. Unterbrechungen des Übertragungskanals das
Erkennungsergebnis verfälschen
können.
Mit zunehmender Verschlechterung der Empfangsqualität kommt
es je nach Empfindlichkeit des Spracherkennungssystems früher oder
später
dazu, dass das Spracherkennungssystem kaum noch in der Lage ist, einigermaßen zufriedenstellende
Erkennungsergebnisse zu liefern. Ungünstigerweise ist es dabei so, dass
in der Regel gerade die Spracherkennungssysteme, welche möglichst
schnell und natürlich
auf eine Äußerung eines
Benutzers reagieren und daher für den
Benutzer an sich sehr komfortabel sind, besonders empfindlich auf
Störungen
reagieren. Dagegen sind Spracherkennungssysteme, welche z. B. nur
zu bestimmten, genau vorgegebenen Zeitpunkten die Eingabe von Sprachäußerungen
des Benutzers zulassen, welche eine bestimmte, relativ hohe Lautstärke bei
der Spracheingabe erfordern und welche relativ langsam auf Äußerungen
reagieren, gegenüber Verschlechterungen
der Empfangsqualität
robuster.
-
Es ist Aufgabe der vorliegenden Erfindung, ein
Verfahren zum Betrieb eines Spracherkennungssystems bzw. ein Spracherkennungssystem
der eingangs genannten Art dahingehend zu verbessern, dass es auch
bei einer Verschlechterung der Empfangsqualität mit möglichst guter Qualität weiter
arbeitet und dabei den maximal möglichen
Komfort für den
Benutzer bietet.
-
Diese Aufgabe wird dadurch gelöst, dass
ein Empfangsqualitätswert
oder ein Störwert
ermittelt wird, welcher eine aktuelle Empfangsqualität repräsentiert,
und dass das Spracherkennungssystem in einen störunempfindlicheren Betriebsmodus
umschaltet und/oder ein Warnsignal an den Benutzer ausgibt, wenn
der Empfangsqualitätswert
eine bestimmte Empfangsqualitätsschwelle
unterschreitet bzw. der Störwert
eine Störschwelle überschreitet.
-
Da die Beobachtung eines Empfangsqualitätswerts
bezüglich
des Unterschreitens einer bestimmten Empfangsqualitätsschwelle
bis auf die Verwendung reziproker Werte sowie die entsprechende Umkehr
der Grenzbedingung mit einer Beobachtung eines Störwerts,
beispielsweise die Höhe
eines Hintergrundgeräuschsignals,
bezüglich
des Überschreitens
einer bestimmten Störschwelle
identisch ist, erfolgt die weitere Beschreibung der Erfindung – ohne die
Erfindung in dieser Hinsicht zu beschränken – der Einfachheit halber in
der Regel nur anhand der ersten Variante. Die einander entsprechenden
Begriffe der beiden Varianten können
in der nachfolgenden Beschreibung jederzeit gegeneinander ausgetauscht werden.
-
Die Erfindung ermöglicht eine angemessene Reaktion
des Spracherkennungssystems selbst und/oder des Benutzers auf eine
Verschlechterung der Empfangsqualität, so dass folglich dem Benutzer immer
der unter den aktuellen Empfangsbedingungen maximal mögliche Komfort
geboten werden kann und andererseits sichergestellt ist, dass bei
schlechter werdenden Empfangsbedingungen die Qualität der Erkennungsergebnisse
nicht zu stark abfällt.
-
Als eine Reaktion des Spracherkennungssystems
selbst ist dabei vorgesehen, dass das Spracherkennungssystem in
einen robusteren Betriebsmodus umschaltet, in dem die Empfangsqualität sich weniger
auf die Qualität
der Spracherkennung auswirkt. Beispielsweise könnte ein Sprachaktivitätsdetektor,
welcher das eingehende Sprachsignal zunächst detektiert, unempfindlicher
geschaltet werden oder es können
Wartezeiten, bis eine Reaktion des Spracherkennungssystems erfolgt,
verlängert
werden, so dass das Spracherkennungssystem insgesamt nicht mehr
so schnell auf eventuelle Nebengeräusche reagiert. Alternativ
oder zusätzlich
wird ein Warnsignal, bei dem es sich bevorzugt um eine ausführlichere
Warnmeldung in Form eines vom Spracherkennungssystem ausgegebenen
Sprachsignals handelt, an den Benutzer ausgegeben, so dass dieser
auch selbst auf die Verschlechterung der Empfangsqualität reagieren
kann und sich beispielsweise in eine ruhigere Umgebung begibt oder
bei Verwendung eines Mobilfunkgeräts versucht, die Mobilfunkverbindung
durch Aufsuchen eines geeigneten Standorts zu verbessern.
-
Hierbei sind die unterschiedlichsten
Kombinationen der beiden genannten Reaktionsmöglichkeiten denkbar. So kann
beispielsweise nur ein Warnsignal an den Benutzer ausgegeben werden oder
nur eine automatische Umschaltung in einen störungsunempfindlicheren Betriebsmodus
durchgeführt
werden. Es kann aber auch gleichzeitig mit der Umschaltung in den
robusteren Betriebsmodus eine Warnmeldung an den Benutzer ausgegeben
werden, die vorzugsweise den Hinweis enthält, dass der Betriebsmodus
umgeschaltet wurde. Des Weiteren ist es auch möglich, dass zunächst nur
das Warnsignal an den Benutzer ausgegeben wird und beispielsweise
nach Ablauf einer bestimmten Zeit, wenn die Empfangsqualität nicht
wieder steigt oder sogar noch stärker
absinkt, eine Umschaltung in den störungsunempfindlicheren Betriebsmodus
erfolgt.
-
Die Empfangsqualitätsschwelle
kann dabei auch in Abhängigkeit
von bestimmten Parametern der jeweiligen Anwendung variabel festgelegt
werden, beispielsweise in Abhängigkeit
davon, welche Folgen eine fehlerhafte Erkennung eines Sprachsignals
haben kann. Insbesondere ist es auch möglich, dass mehrere unterschiedliche
Empfangsqualitätsschwellen
festgelegt werden und in Abhängigkeit
von diesen Empfangsqualitätsschwellen
jeweils stufenweise unterschiedliche Betriebsmodi eingeschaltet und/oder
bestimmte Warnsignale an den Benutzer ausgegeben werden.
-
Bei einem besonders bevorzugten Ausführungsbeispiel
wird das Spracherkennungssystem automatisch in den vorherigen Betriebszustand
zurückgeschaltet,
wenn der Empfangsqualitätswert
die Empfangsqualitätsschwelle
wieder überschreitet.
D. h. das Spracherkennungssystem wird beispielsweise automatisch
wieder empfindlicher und reagiert somit für den Benutzer komfortabler,
sobald sich der Benutzer aufgrund des Warnsignals erfolgreich um
eine bessere Empfangsqualität
bemüht,
oder aus sonstigen Gründen
die Empfangsqualität
wieder besser wird.
-
Bei einem besonders bevorzugten Ausführungsbeispiel
wird bei Unterschreiten der Empfangsqualitätsschwelle ein Barge-in-Betriebszustand
des Spracherkennungssystems ausgeschaltet. D. h. das Spracherkennungssystem
schaltet von einem Betriebsmodus, in dem der Benutzer die Möglichkeit hat,
in Sprachausgaben des Spracherkennungssystems, sog. „Prompts", hineinzureden,
in einen „alternativen" Betriebsmodus um,
in welchem der Benutzer zunächst
die vollständige
Ausgabe des Prompts abwarten muss, bevor er auf das Prompt des Spracherkennungssystems
reagieren kann. Solche Barge-in-Spracherkennungssysteme
haben zum einen den Vorteil, dass sie gegenüber den „alternativen" Systemen erheblich
natürlicher,
d. h. wie ein „richtiger" Gesprächspartner,
für den
Benutzer reagieren. Zum anderen kann ein erfahrener Benutzer ein
solches Spracherkennungssystems erheblich schneller bedienen, da
er oftmals die auszugebenden Prompts bereits kennt und daher die
Ausgabe des Prompts durch eine vorzeitige Reaktion unterbrechen
und somit den gesamten Dialog zeitlich verkürzen kann.
-
Die Ermittlung eines Empfangsqualitätswerts kann
auf verschiedene Weise durchgeführt
werden.
-
Besonders einfach ist ein Empfangsqualitätswert mittels
eines Sprachaktivitätsdetektors
ermittelbar, welcher ohnehin in der Regel am Eingang des Spracherkennungssystems
dazu verwendet wird, um zunächst
das eingehende Sprachsignal als solches zu detektieren und an die
eigentliche Spracherkennungseinrichtung weiterzuleiten. Hierbei kann
der Empfangsqualitätswert
z. B. auf Basis eines in einer Sprechpause des Benutzers empfangenen Untergrundsignals
bestimmt werden. D. h. es wird beispielsweise ein Rauschpegel bzw.
die Basis-Signalenergie am Eingang innerhalb der Sprechpausen gemessen
und als Maß für die Empfangsqualität genutzt.
So kann beispielsweise festgestellt werden, ob der Benutzer sich
in einer ruhigen oder lauten Umgebung befindet. Des Weiteren kann
der Empfangsqualitätswert
auch mit Hilfe der eigentlichen Spracherkennungseinrichtung selbst
ermittelt werden, z. B. auf Basis von erreichten Konfidenzwerten
für die
Erkennungsergebnisse oder auf Basis von anderen Parametern, die
beispielsweise von der Qualität
des Erkennungsergebnisses oder vom Aufwand bei der Erkennung abhängen.
-
Die konkrete Verarbeitung des Empfangsqualitätswerts
innerhalb des Spracherkennungssystems kann dann ebenfalls auf unterschiedliche
Weise erfolgen.
-
Zum einen kann der Sprachaktivitätsdetektor den
Empfangsqualitätswert
selbst beispielsweise an eine Dialog-Steuereinrichtung übermitteln.
In diesem Fall kann z. B. ein Programmierer der jeweiligen Anwendung,
welcher die Dialog-Steuereinrichtung entsprechend seiner Anwendung
ausbildet, festlegen, ab welcher Empfangsqualitäts schwelle das Spracherkennungssystem
in welcher Weise reagiert bzw. welche Prompts an den Benutzer ausgegeben
werden.
-
Alternativ oder zusätzlich ist
es auch möglich,
dass der Sprachaktivitätsdetektor
ein Empfangsbeeinträchtigungsanzeigesignal
an die Dialog-Steuereinrichtung und/oder andere Komponenten des Systems
ausgibt, wenn der Empfangsqualitätswert die
Empfangsqualitätsschwelle
unterschreitet. Die Dialog-Steuereinrichtung kann dann entsprechend auf
das Empfangsbeeinträchtigungsanzeigesignal reagieren
und beispielsweise einen passenden Prompt an den Benutzer ausgeben.
Außerdem
kann über
die Dialog-Steuereinrichtung und/oder die weiteren Systemkomponenten
der Betriebszustand geändert
werden.
-
Bei einem besonders komfortablen
System wird ein eingehendes Signal detaillierter hinsichtlich der
An der Störung,
die dafür
verantwortlich ist, dass der Empfangsqualitätswert unterhalb der Empfangsqualitätsschwelle
liegt, analysiert. Es wird dann als Warnsignal an den Benutzer ein
Prompt ausgegeben, welches die entsprechenden Informationen enthält. D.h.
es wird beispielsweise analysiert, ob es sich um eine schlechte
Verbindung zwischen einem Kommunikationsendgerät des Benutzers und dem Spracherkennungssystem
handelt oder ob die Hintergrundgeräusche in der Umgebung des Benutzers
zu laut sind. Wenn der Benutzer die entsprechenden Informationen
erhält,
fällt es
ihm leichter, in der richtigen Weise zu reagieren, um die Empfangsqualität zu verbessern.
Diese Analyse kann u. a. mit Hilfe des Sprachaktivitätsdetektors
und/oder der eigentlichen Spracherkennungseinrichtung erfolgen.
-
Ein erfindungsgemäßes Spracherkennungssystem
muss zur Durchführung
des erfindungsgemäßen Verfahrens
zum einen eine entsprechende Qualitätskontrolleinrichtung zur Ermittlung
eines entsprechenden Empfangsqualitätswerts oder eines Störwerts aufweisen.
Zum anderen muss das Spracherkennungssystem einen Vergleicher aufweisen,
um den Empfangsqualitätswert
mit einer bestimmten Empfangsqualitätsschwelle zu vergleichen oder
um den Störwert
mit einer bestimmten Störschwelle
zu vergleichen.
-
Schließlich benötigt ein solches Spracherkennungssystem
entsprechende Steuerungsmittel, beispielsweise eine Schalteinrichtung
oder eine entsprechend programmierte Dialog-Steuereinrichtung, um
das Spracherkennungssystem in einen störungsunempfindlicheren Betriebsmodus
umzuschalten und/oder ein Warnsignal an den Benutzer auszugeben,
wenn der Empfangsqualitätswert
eine bestimmte Empfangsqualitätsschwelle
unterschreitet bzw. der Störwert
die Störschwelle überschreitet.
Der Vergleicher kann dabei auch in andere Komponenten des Systems,
beispielsweise den Sprachaktivitätsdetektor
oder die Dialog-Steuereinrichtung integriert sein.
-
Ein erfindungsgemäßes Spracherkennungssystem
kann vorzugsweise in weiten Teilen mittels geeigneter Software auf
einem Computer bzw. in einer Sprachsteuerung eines Geräts realisiert
werden. So können
z. B. die Spracherkennungseinrichtung und die Dialog-Steuereinrichtung
vollständig
in Form von Softwaremodulen realisiert werden. Auch eine Einrichtung
zur Generierung der geeigneten Prompts, beispielsweise ein sogenannter „TTS-Konverter" (Text-To-Speech-Konverter)
ist ebenfalls mittels geeigneter Software realisierbar. Alternativ
ist es auch möglich,
einen Prompt-Player zu verwenden, welcher bestimmte, im vorhinein
aufgenommene Prompts für
den Benutzer abspielt. Es ist natürlich erforderlich, dass das
System entsprechend hardwaremäßig zu realisierende
Möglichkeiten
zur Spracheingabe und zur Sprachausgabe hat, beispielsweise ein Mikrofon
und einen Lautsprecher oder eine Schnittstelle zum Anschluss an
ein Kommunikationsnetz aufweist, über welches das Spracherkennungssystem
mittels eines Endgeräts
erreichbar ist.
-
Insbesondere ist es auch möglich, dass
das Spracherkennungssystem nicht innerhalb eines einzelnen Geräts, beispielsweise
auf einem einzelnen Server, realisiert ist, sondern dass verschiedene Komponenten
des Systems an verschiedenen Orten angeordnet sind, welche über ein
entsprechendes Netzwerk untereinander verbunden sind. Das erfindungsgemäße Spracherkennungssystem
kann in Verbindung mit beliebigen Applikationen verwendet werden.
Insbesondere kann es auch gleichzeitig, beispielsweise in Form eines
Timesharing-Verfahrens, mehreren Applikationen als dienstleistendes System zur
Verfügung
stehen und so für
die verschiedenen Applikationen jeweils eine Benutzerschnittstelle
bilden.
-
Die Erfindung wird im Folgenden unter
Hinweis auf die beigefügten
Figuren anhand zweier Ausführungsbeispiele
näher erläutert. Es
zeigen:
-
1 ein
schematisches Blockdiagramm für ein
erfindungsgemäßes Spracherkennungssystem gemäß einem
ersten Ausführungsbeispiel,
-
2 ein
schematisches Blockdiagramm für ein
erfindungsgemäßes Spracherkennungssystem gemäß einem
zweiten Ausführungsbeispiel.
-
Bei den in den beiden Figuren dargestellten Ausführungsbeispielen
handelt es sich jeweils um sogenannte „barge-in-fähige" Spracherkennungssysteme 1.
-
An die Spracherkennungssysteme 1 ist
jeweils zur Eingabe eines Sprachsignals SI ein
Mikrofon 2 angeschlossen. Zur Ausgabe von akustischen Signalen
bzw. Sprachausgaben (Prompts) an den Benutzer ist an die Spracherkennungssysteme 1 jeweils
ein Lautsprecher 3 angeschlossen. Alternativ können sich
das Mikrofon 2 und der Lautsprecher 3 auch in
einem vom Spracherkennungssystem 1 selbst entfernten Endgerät befinden,
welches über eine
geeignete Schnittstelle, beispielsweise ein Telefonnetz o. Ä., mit dem
Spracherkennungssystem 1 verbunden ist.
-
Ein vom Mikrofon 2 aus eingehendes
Signal gelangt bei beiden Spracherkennungssystemen 1 jeweils
zunächst
zu einem Echofilter 4 (auch „Echo Cancellator" genannt). Dieser
Echofilter 4 dient dazu, um in den Fällen, in denen der Benutzer
gleichzeitig spricht, obwohl noch ein Prompt SO durch
das Spracherkennungssystem 1 selbst ausgegeben wird, das Echo
des Prompts SO, welches in gedämpfter Form dem
Sprachsignal SI überlagert sein kann, aus dem Eingangssignal
auszufiltern.
-
Das Sprachsignal SI wird
dann an einen Sprachaktivitätsdetektor 5 weitergeleitet,
welcher die Signalenergie und somit die Sprachaktivität des Benutzers
misst. Dieser Sprachaktivitätsdetektor 5 dient zum
einen dazu, um den Beginn und das Ende eines Sprachsignals sowie
Sprechpausen innerhalb einer Äußerung des
Benutzers zu detektieren. Zum anderen gibt dieser Sprachaktivitätsdetektor
ein Barge-in-Signal SBI aus, welches zu
einem Text-to-Speech-Konverter 8 (im Folgenden TTS-Konverter 8 genannt)
und an eine Dialog-Steuereinrichtung 10 geleitet wird,
um in den Fällen,
in denen ein Benutzer in einen ausgegebenen Prompt hinein spricht,
die weitere Ausgabe des Prompts durch den TTS-Konverter 8 zu
verhindern.
-
Im vorliegenden Fall befindet sich
in der Ausgangsleitung für
das Barge-in-Signal SBI des Sprachaktivitätsdetektors 5 eine
Barge-in-Schalteinheit 9. Nur im geschlossenen Zustand
dieser Barge-in-Schalteinheit 9 ist das System 1 tatsächlich barge-in-fähig. Bei
geöffnetem
Schalter (wie in 1 dargestellt)
reagiert das Spracherkennungssystem 1 dagegen auf eine
Spracheingabe des Benutzers während
der Ausgabe eines Prompts nicht.
-
Vom Sprachaktivitätsdetektor 5 aus wird
das Sprachsignal SI selbst an eine automatische
Spracherkennungseinrichtung 7 weitergeleitet, in welcher die
eigentliche Analyse des Sprachsignals SI zur
Erkennung der darin enthaltenen Sprachinformation durchgeführt wird.
Das Erkennungsergebnis wird dann in Textform bzw. in einer anderen
maschinenlesbaren Form an die Dialog-Steuereinrichtung 10 weitergeleitet.
-
Diese Dialog-Steuereinrichtung 10 reagiert schließlich in
vorbestimmter Weise, d. h. gemäß einem
vorgegebenen Dialogablauf, auf das Erkennungsergebnis und sucht
beispielsweise aus einem Speicher 12 eine vom Benutzer
gewünschte
Information heraus oder hinterlegt dort vom Benutzer eingegebene
Daten. Außerdem
steuert diese Dialog-Steuereinrichtung
den TTS-Konverter 8 und übergibt diesem die Daten für die an
den Benutzer auszugebenden Prompts. Die Prompts werden dann vom TTS-Konverter 8 aus über den
Echofilter 4 an den Lautsprecher 3 übermittelt
und dort ausgegeben. Der genaue Aufbau der Dialog-Steuereinrichtung 10 ist
in der Regel abhängig
von der jeweiligen Applikation.
-
Erfindungsgemäß weisen die beiden in den Figuren
dargestellten Ausführungsbeispiele
jeweils neben einer Barge-in-Schalteinheit 9 eine Qualitätskontrolleinrichtung 6 auf,
welche Teil des Sprachaktivitätsdetektors 5 ist.
In dieser Qualitätskontrolleinrichtung 6 wird
ein Empfangsqualitätswert
SQ ermittelt. Hierbei kann es sich beispielsweise
um den reziproken Wert eines Hintergrundgeräuschpegels handeln, welcher
vor Beginn der Äußerung und/oder
in den Sprechpausen des Benutzers vom Sprachaktivitätsdetektor 5 gemessen
wird.
-
Der Empfangsqualitätswert SQ wird an die Dialog-Steuereinrichtung 10 übermittelt,
welche den Empfangsqualitätswert
SQ innerhalb eines Vergleichers 11,
der z. B. in Form eines Software-Moduls realisiert ist, mit einer
vorgegebenen Empfangsqualitätsschwelle
vergleicht. Sobald der Empfangsqualitätswert SQ unterhalb
der vorgegebenen Schwelle liegt, wird von der Dialog-Steuereinrichtung 10 ein Barge-in-Ausschaltsignal
SBA an die Barge-in-Schalteinheit 9 übermittelt
und dort der Schalter in den in 1 dargestellten
Zustand gebracht. D. h. das Spracherkennungssystem 1 wird
von einem barge-in-fähigen
Betriebszustand in einen nicht barge-in-fähigen Betriebszustand umgeschaltet.
Dies hat den Vorteil, dass es bei zu hoher Hintergrundgeräuschschwelle
nicht dazu kommen kann, dass das Spracherkennungssystem 1 während einer
Ausgabe eines Prompts ständig
aufgrund von Hintergrundgeräuschen,
welche nicht dem Benutzer zugeordnet sind und nicht zur Unterbrechung
des Prompts dienen sollen, unterbrochen wird. D. h. das Spracherkennungssystem 1 schaltet
in einen Betriebszustand um, der zwar zu einer etwas unnatürlicheren
und damit für
den Benutzer unbequemeren Dialogweise führt, der aber erheblich robuster
und für
die zu diesem Zeitpunkt vorliegenden Empfangsbedingungen erheblich
geeigneter ist.
-
Zusätzlich lässt die Dialog-Steuereinrichtung 10,
sobald der Empfangsqualitätswert
SQ unterhalb der vorgegebenen Empfangsqualitätsschwelle
liegt, ein entsprechendes Warnsignal in Form eines geeigneten Warn-Prompts
SW vom TTS-Generator 8 erzeugen
und ausgeben, beispielsweise eine Ansage „Die Hintergrundgeräusche sind
zu laut. Bitte warten Sie die Ausgabe eines Prompts vollständig ab,
bevor Sie antworten."
-
Die Dialog-Steuereinrichtung 10 ist
derart eingerichtet, dass sie automatisch, wenn der Empfangsqualitätswert SQ wieder oberhalb der vorgegebenen Empfangsqualitätsschwelle
liegt, das Barge-in-Ausschaltsignal SBA aufhebt
und somit der Schalter innerhalb der Barge-in-Schalteinheit 9 wieder
geschlossen wird.
-
Grundsätzlich steht es dabei im Ermessen des
Programmierers der Dialog-Steuereinrichtung 10, beliebige
Empfangsqualitätsschwellen
festzulegen, ab denen ein Barge-in-Zustand ausgeschaltet wird und/oder
bei denen eine Warnung an den Benutzer erfolgt, damit dieser sich
gegebenenfalls bemüht, eine
ruhigere Umgebung aufzusuchen, sofern dies möglich ist.
-
2 zeigt
ein geringfügig
anderes Ausführungsbeispiel
eines erfindungsgemäßen Spracherkennungssystems 1.
-
Bei diesem Ausführungsbeispiel erfolgt der Vergleich
des Empfangsqualitätswerts
SQ mit der Empfangsqualitätsschwelle
direkt in der Qualitätskontrolleinrichtung 6,
d. h. der Vergleicher 11 ist in die Qualitätskontrolleinrichtung 6 integriert.
Die Qualitätskontrolleinrichtung 6 gibt
bei Unterschreiten der vorgegebenen Empfangsqualitätsschwelle
ein Empfangsbeeinträchtigungsanzeigesignal
SEB aus, welches gleichzeitig die Barge-in-Schalteinheit 9 ausschaltet
und an die Dialog-Steuereinrichtung 10 gegeben wird, damit
dort je nach Programmierung die Ausgabe eines geeigneten Warn-Prompts
SW über den
TTS-Konverter 8 veranlasst wird.
-
Es wird noch einmal darauf hingewiesen, dass
es sich bei den in den Figuren dargestellten Spracherkennungssystemen 1 nur
um spezielle Ausführungsbeispiele
der Erfindung handelt und es im Ermessen des Fachmanns steht, die
Spracherkennungssysteme 1 bzw. das Verfahren zum Betrieb
der Spracherkennungssysteme 1 im Rahmen der Erfindung auf
verschiedene Weise zu modifizieren.
-
So ist es insbesondere möglich, dass
beispielsweise die Qualitätskontrolleinheit 6 auch
Teil der Dialog-Steuereinrichtung 10 ist. Ebenso kann die Barge-in-Schalteinrichtung 9 auch
Teil des Sprachaktivitätsdetektors 5 oder
der Dialog-Steuereinrichtung 10 sein und beispielsweise
auch als rein softwaremäßiger Schalter
ausgebildet sein. Des Weiteren ist es möglich, dass die Qualitätskontrolleinheit 6 rein
hardwaremäßig als
eigenständiges
Modul aufgebaut ist. Außerdem
kann das Spracherkennungssystem zusätzliche Komponenten bzw. weitere
Funktionen aufweisen, beispielsweise ein intelligentes, grammatikbasiertes
Barge-in-Verfahren durchführen.
Hierbei wird nicht bereits von dem Sprachaktivitätsdetektor das Barge-In-Signal
erzeugt, sondern erst von der Spracherkennungseinrichtung, welche
zunächst prüft, ob ein
eingehendes Signal wirklich einen sinnvollen Inhalt hat und daher
als Barge-In-Fall anzusehen ist. Weitere Variationen können beispielsweise eine
Sprechererkennung oder andere Erweiterungen des Spracherkennungssystems
enthalten.