[go: up one dir, main page]

DE10251113A1 - Verfahren zum Betrieb eines Spracherkennungssystems - Google Patents

Verfahren zum Betrieb eines Spracherkennungssystems Download PDF

Info

Publication number
DE10251113A1
DE10251113A1 DE10251113A DE10251113A DE10251113A1 DE 10251113 A1 DE10251113 A1 DE 10251113A1 DE 10251113 A DE10251113 A DE 10251113A DE 10251113 A DE10251113 A DE 10251113A DE 10251113 A1 DE10251113 A1 DE 10251113A1
Authority
DE
Germany
Prior art keywords
reception quality
threshold
value
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10251113A
Other languages
English (en)
Inventor
Albert R.R. Kooiman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10251113A priority Critical patent/DE10251113A1/de
Priority to DE60325881T priority patent/DE60325881D1/de
Priority to US10/532,919 priority patent/US8781826B2/en
Priority to AT03751200T priority patent/ATE421139T1/de
Priority to PCT/IB2003/004727 priority patent/WO2004042698A1/en
Priority to CNB2003801025294A priority patent/CN100524458C/zh
Priority to JP2004549444A priority patent/JP2006505003A/ja
Priority to AU2003269418A priority patent/AU2003269418A1/en
Priority to EP03751200A priority patent/EP1561203B1/de
Publication of DE10251113A1 publication Critical patent/DE10251113A1/de
Priority to JP2010203561A priority patent/JP2011022600A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Es wird ein Verfahren zum Betrieb eines Spracherkennungssytems beschrieben, in welchem ein Sprachsignal (S¶I¶) eines Benutzers detektiert und zur Erkennung einer im Spachsignal (S¶I¶) enthaltenen Sprachinformation analysiert wird. Hierbei ermittelt das Spracherkennungssystem einen Empfangsqualitätswert (S¶Q¶) oder einen Störwert, welcher eine aktuelle Empfangsqualität repräsentiert. Das Spracherkennungssystem schaltet in einen störunempfindlicheren Betriebsmodus um und/oder gibt ein Warnsignal (S¶W¶) an den Benutzer aus, wenn der Empfangsqualitätswert (S¶Q¶) eine bestimmte Empfangsqualitätsschwelle unterschreitet bzw. der Störwert eine Störschwelle überschreitet. Darüber hinaus wird ein entsprechendes Spracherkennungssystem beschrieben.

Description

  • Die Erfindung betrifft ein Verfahren zum Betrieb eines Spracherkennungssystems, in welchem ein Sprachsignal eines Benutzers detektiert und zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Darüber hinaus betrifft die Erfindung ein Spracherkennungssystem mit Mitteln zur Detektion eines Sprachsignals eines Benutzers und mit einer Spracherkennungseinrichtung, um das detektierte Sprachsignal zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation zu analysieren.
  • In vielen Anwendungsbereichen werden zunehmend Spracherkennungssysteme genutzt, um eine sprachliche Kommunikation zwischen einem Benutzer und der jeweiligen Anwendung, z.B. einer Gerätesteuerung oder einem automatischen Informationsdienst, zu ermöglichen. Solche Sprach-Benutzerschnittstellen haben viele Vorteile. Zum einen erlauben sie ganz allgemein die freihändige Bedienung von Geräten. Zum anderen sind sie besonders als Benutzerschnittstellen für sehbehinderte oder körperbehinderte Personen geeignet, welche nicht in der Lage sind, optische Anzeigen zu lesen und/oder Eingabehilfsmittel wie eine Tastatur oder eine Maus zu bedienen und welche daher auf Sprache als Kommunikationsmittel angewiesen sind. Des Weiteren werden solche Benutzerschnittstellen zunehmend in automatischen Sprach-Dialogsystemen genutzt. Ein Beispiel für solche Sprach-Dialogsysteme sind automatische Anrufbeantwortungs- und Auskunftssysteme, wie sie inzwischen insbesondere von einigen größeren Firmen und Ämtern verwendet werden, um einen Anrufer möglichst schnell und komfortabel mit der gewünschten Information zu versorgen oder mit einer Stelle zu verbinden, welche für die speziellen Anfragen des Anrufers zuständig ist. Weitere Beispiele hierfür sind automatische Telefonauskunftssysteme, Fahrplanauskunftssysteme, Informationsdienste mit allgemeinen Veranstaltungshinweisen oder Kino- und Theaterprogrammen sowie beliebige Kombinationen der verschiedenen Auskunftssysteme.
  • Je nach Art der konkreten Anwendung, die das Spracherkennungssystem nutzt, erfolgt die technische Übermittlung des Sprachsignals des Benutzers zum Spracherkennungssystem über unterschiedliche Wege bzw. Geräte. Bei stationären Dialogsystemen, beispielsweise in Informationsterminals an öffentlichen Standorten wie Bahnhöfen, Flughäfen, Museen etc. weist das Spracherkennungssystem einen oder mehrere Empfangskanäle auf, an die geeignete Mikrofone, Headsets oder dgl, angeschlossen sind, über die die Nutzer mit dem Terminal bzw. dem Spracherkennungssystem kommunizieren können. Die zuvor beschriebenen automatischen Sprach-Dialogsysteme sind dagegen üblicherweise über ein Kommunikationsnetz, beispielsweise ein Telefonnetz oder das Internet, mittels entsprechender Endgeräte des Benutzers erreichbar. Hier wird folglich das Sprachsignal des Benutzers zunächst vom Endgerät erfasst, in elektrische Signale umgewandelt und über einen Sprach- und/oder Datenkanal des Kommunikationsnetzes an einen Anschluss des Sprachdialogsystems übermittelt.
  • Insbesondere bei solchen Spracherkennungssystemen, welche von den Benutzern mittels eines Kommunikationsendgeräts aus einer beliebigen Umgebung heraus kontaktiert werden können, ergibt sich zwangsläufig, dass die Empfangsqualität, mit der das Sprachsignal empfangen wird, stark differieren und sich sogar während einer Sitzung stark ändern kann. Die Empfangsqualität wird dabei zu einem wesentlichen Teil zum einen durch die Qualität des Übertragungskanals, d. h. beispielsweise der Telefonverbindung, sowie zum anderen von dem Hintergrundgeräuschpegel bestimmt, der wiederum von der Umgebung abhängig ist, in der sich der Benutzer gerade befindet. Es ist klar, dass mit einer schlechteren Empfangsqualität auch die Arbeitsbedingungen für das Spracherkennungssystem ungünstiger sind, da Nebengeräusche oder auch kurzzeitige Störungen bzw. Unterbrechungen des Übertragungskanals das Erkennungsergebnis verfälschen können. Mit zunehmender Verschlechterung der Empfangsqualität kommt es je nach Empfindlichkeit des Spracherkennungssystems früher oder später dazu, dass das Spracherkennungssystem kaum noch in der Lage ist, einigermaßen zufriedenstellende Erkennungsergebnisse zu liefern. Ungünstigerweise ist es dabei so, dass in der Regel gerade die Spracherkennungssysteme, welche möglichst schnell und natürlich auf eine Äußerung eines Benutzers reagieren und daher für den Benutzer an sich sehr komfortabel sind, besonders empfindlich auf Störungen reagieren. Dagegen sind Spracherkennungssysteme, welche z. B. nur zu bestimmten, genau vorgegebenen Zeitpunkten die Eingabe von Sprachäußerungen des Benutzers zulassen, welche eine bestimmte, relativ hohe Lautstärke bei der Spracheingabe erfordern und welche relativ langsam auf Äußerungen reagieren, gegenüber Verschlechterungen der Empfangsqualität robuster.
  • Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zum Betrieb eines Spracherkennungssystems bzw. ein Spracherkennungssystem der eingangs genannten Art dahingehend zu verbessern, dass es auch bei einer Verschlechterung der Empfangsqualität mit möglichst guter Qualität weiter arbeitet und dabei den maximal möglichen Komfort für den Benutzer bietet.
  • Diese Aufgabe wird dadurch gelöst, dass ein Empfangsqualitätswert oder ein Störwert ermittelt wird, welcher eine aktuelle Empfangsqualität repräsentiert, und dass das Spracherkennungssystem in einen störunempfindlicheren Betriebsmodus umschaltet und/oder ein Warnsignal an den Benutzer ausgibt, wenn der Empfangsqualitätswert eine bestimmte Empfangsqualitätsschwelle unterschreitet bzw. der Störwert eine Störschwelle überschreitet.
  • Da die Beobachtung eines Empfangsqualitätswerts bezüglich des Unterschreitens einer bestimmten Empfangsqualitätsschwelle bis auf die Verwendung reziproker Werte sowie die entsprechende Umkehr der Grenzbedingung mit einer Beobachtung eines Störwerts, beispielsweise die Höhe eines Hintergrundgeräuschsignals, bezüglich des Überschreitens einer bestimmten Störschwelle identisch ist, erfolgt die weitere Beschreibung der Erfindung – ohne die Erfindung in dieser Hinsicht zu beschränken – der Einfachheit halber in der Regel nur anhand der ersten Variante. Die einander entsprechenden Begriffe der beiden Varianten können in der nachfolgenden Beschreibung jederzeit gegeneinander ausgetauscht werden.
  • Die Erfindung ermöglicht eine angemessene Reaktion des Spracherkennungssystems selbst und/oder des Benutzers auf eine Verschlechterung der Empfangsqualität, so dass folglich dem Benutzer immer der unter den aktuellen Empfangsbedingungen maximal mögliche Komfort geboten werden kann und andererseits sichergestellt ist, dass bei schlechter werdenden Empfangsbedingungen die Qualität der Erkennungsergebnisse nicht zu stark abfällt.
  • Als eine Reaktion des Spracherkennungssystems selbst ist dabei vorgesehen, dass das Spracherkennungssystem in einen robusteren Betriebsmodus umschaltet, in dem die Empfangsqualität sich weniger auf die Qualität der Spracherkennung auswirkt. Beispielsweise könnte ein Sprachaktivitätsdetektor, welcher das eingehende Sprachsignal zunächst detektiert, unempfindlicher geschaltet werden oder es können Wartezeiten, bis eine Reaktion des Spracherkennungssystems erfolgt, verlängert werden, so dass das Spracherkennungssystem insgesamt nicht mehr so schnell auf eventuelle Nebengeräusche reagiert. Alternativ oder zusätzlich wird ein Warnsignal, bei dem es sich bevorzugt um eine ausführlichere Warnmeldung in Form eines vom Spracherkennungssystem ausgegebenen Sprachsignals handelt, an den Benutzer ausgegeben, so dass dieser auch selbst auf die Verschlechterung der Empfangsqualität reagieren kann und sich beispielsweise in eine ruhigere Umgebung begibt oder bei Verwendung eines Mobilfunkgeräts versucht, die Mobilfunkverbindung durch Aufsuchen eines geeigneten Standorts zu verbessern.
  • Hierbei sind die unterschiedlichsten Kombinationen der beiden genannten Reaktionsmöglichkeiten denkbar. So kann beispielsweise nur ein Warnsignal an den Benutzer ausgegeben werden oder nur eine automatische Umschaltung in einen störungsunempfindlicheren Betriebsmodus durchgeführt werden. Es kann aber auch gleichzeitig mit der Umschaltung in den robusteren Betriebsmodus eine Warnmeldung an den Benutzer ausgegeben werden, die vorzugsweise den Hinweis enthält, dass der Betriebsmodus umgeschaltet wurde. Des Weiteren ist es auch möglich, dass zunächst nur das Warnsignal an den Benutzer ausgegeben wird und beispielsweise nach Ablauf einer bestimmten Zeit, wenn die Empfangsqualität nicht wieder steigt oder sogar noch stärker absinkt, eine Umschaltung in den störungsunempfindlicheren Betriebsmodus erfolgt.
  • Die Empfangsqualitätsschwelle kann dabei auch in Abhängigkeit von bestimmten Parametern der jeweiligen Anwendung variabel festgelegt werden, beispielsweise in Abhängigkeit davon, welche Folgen eine fehlerhafte Erkennung eines Sprachsignals haben kann. Insbesondere ist es auch möglich, dass mehrere unterschiedliche Empfangsqualitätsschwellen festgelegt werden und in Abhängigkeit von diesen Empfangsqualitätsschwellen jeweils stufenweise unterschiedliche Betriebsmodi eingeschaltet und/oder bestimmte Warnsignale an den Benutzer ausgegeben werden.
  • Bei einem besonders bevorzugten Ausführungsbeispiel wird das Spracherkennungssystem automatisch in den vorherigen Betriebszustand zurückgeschaltet, wenn der Empfangsqualitätswert die Empfangsqualitätsschwelle wieder überschreitet. D. h. das Spracherkennungssystem wird beispielsweise automatisch wieder empfindlicher und reagiert somit für den Benutzer komfortabler, sobald sich der Benutzer aufgrund des Warnsignals erfolgreich um eine bessere Empfangsqualität bemüht, oder aus sonstigen Gründen die Empfangsqualität wieder besser wird.
  • Bei einem besonders bevorzugten Ausführungsbeispiel wird bei Unterschreiten der Empfangsqualitätsschwelle ein Barge-in-Betriebszustand des Spracherkennungssystems ausgeschaltet. D. h. das Spracherkennungssystem schaltet von einem Betriebsmodus, in dem der Benutzer die Möglichkeit hat, in Sprachausgaben des Spracherkennungssystems, sog. „Prompts", hineinzureden, in einen „alternativen" Betriebsmodus um, in welchem der Benutzer zunächst die vollständige Ausgabe des Prompts abwarten muss, bevor er auf das Prompt des Spracherkennungssystems reagieren kann. Solche Barge-in-Spracherkennungssysteme haben zum einen den Vorteil, dass sie gegenüber den „alternativen" Systemen erheblich natürlicher, d. h. wie ein „richtiger" Gesprächspartner, für den Benutzer reagieren. Zum anderen kann ein erfahrener Benutzer ein solches Spracherkennungssystems erheblich schneller bedienen, da er oftmals die auszugebenden Prompts bereits kennt und daher die Ausgabe des Prompts durch eine vorzeitige Reaktion unterbrechen und somit den gesamten Dialog zeitlich verkürzen kann.
  • Die Ermittlung eines Empfangsqualitätswerts kann auf verschiedene Weise durchgeführt werden.
  • Besonders einfach ist ein Empfangsqualitätswert mittels eines Sprachaktivitätsdetektors ermittelbar, welcher ohnehin in der Regel am Eingang des Spracherkennungssystems dazu verwendet wird, um zunächst das eingehende Sprachsignal als solches zu detektieren und an die eigentliche Spracherkennungseinrichtung weiterzuleiten. Hierbei kann der Empfangsqualitätswert z. B. auf Basis eines in einer Sprechpause des Benutzers empfangenen Untergrundsignals bestimmt werden. D. h. es wird beispielsweise ein Rauschpegel bzw. die Basis-Signalenergie am Eingang innerhalb der Sprechpausen gemessen und als Maß für die Empfangsqualität genutzt. So kann beispielsweise festgestellt werden, ob der Benutzer sich in einer ruhigen oder lauten Umgebung befindet. Des Weiteren kann der Empfangsqualitätswert auch mit Hilfe der eigentlichen Spracherkennungseinrichtung selbst ermittelt werden, z. B. auf Basis von erreichten Konfidenzwerten für die Erkennungsergebnisse oder auf Basis von anderen Parametern, die beispielsweise von der Qualität des Erkennungsergebnisses oder vom Aufwand bei der Erkennung abhängen.
  • Die konkrete Verarbeitung des Empfangsqualitätswerts innerhalb des Spracherkennungssystems kann dann ebenfalls auf unterschiedliche Weise erfolgen.
  • Zum einen kann der Sprachaktivitätsdetektor den Empfangsqualitätswert selbst beispielsweise an eine Dialog-Steuereinrichtung übermitteln. In diesem Fall kann z. B. ein Programmierer der jeweiligen Anwendung, welcher die Dialog-Steuereinrichtung entsprechend seiner Anwendung ausbildet, festlegen, ab welcher Empfangsqualitäts schwelle das Spracherkennungssystem in welcher Weise reagiert bzw. welche Prompts an den Benutzer ausgegeben werden.
  • Alternativ oder zusätzlich ist es auch möglich, dass der Sprachaktivitätsdetektor ein Empfangsbeeinträchtigungsanzeigesignal an die Dialog-Steuereinrichtung und/oder andere Komponenten des Systems ausgibt, wenn der Empfangsqualitätswert die Empfangsqualitätsschwelle unterschreitet. Die Dialog-Steuereinrichtung kann dann entsprechend auf das Empfangsbeeinträchtigungsanzeigesignal reagieren und beispielsweise einen passenden Prompt an den Benutzer ausgeben. Außerdem kann über die Dialog-Steuereinrichtung und/oder die weiteren Systemkomponenten der Betriebszustand geändert werden.
  • Bei einem besonders komfortablen System wird ein eingehendes Signal detaillierter hinsichtlich der An der Störung, die dafür verantwortlich ist, dass der Empfangsqualitätswert unterhalb der Empfangsqualitätsschwelle liegt, analysiert. Es wird dann als Warnsignal an den Benutzer ein Prompt ausgegeben, welches die entsprechenden Informationen enthält. D.h. es wird beispielsweise analysiert, ob es sich um eine schlechte Verbindung zwischen einem Kommunikationsendgerät des Benutzers und dem Spracherkennungssystem handelt oder ob die Hintergrundgeräusche in der Umgebung des Benutzers zu laut sind. Wenn der Benutzer die entsprechenden Informationen erhält, fällt es ihm leichter, in der richtigen Weise zu reagieren, um die Empfangsqualität zu verbessern. Diese Analyse kann u. a. mit Hilfe des Sprachaktivitätsdetektors und/oder der eigentlichen Spracherkennungseinrichtung erfolgen.
  • Ein erfindungsgemäßes Spracherkennungssystem muss zur Durchführung des erfindungsgemäßen Verfahrens zum einen eine entsprechende Qualitätskontrolleinrichtung zur Ermittlung eines entsprechenden Empfangsqualitätswerts oder eines Störwerts aufweisen. Zum anderen muss das Spracherkennungssystem einen Vergleicher aufweisen, um den Empfangsqualitätswert mit einer bestimmten Empfangsqualitätsschwelle zu vergleichen oder um den Störwert mit einer bestimmten Störschwelle zu vergleichen.
  • Schließlich benötigt ein solches Spracherkennungssystem entsprechende Steuerungsmittel, beispielsweise eine Schalteinrichtung oder eine entsprechend programmierte Dialog-Steuereinrichtung, um das Spracherkennungssystem in einen störungsunempfindlicheren Betriebsmodus umzuschalten und/oder ein Warnsignal an den Benutzer auszugeben, wenn der Empfangsqualitätswert eine bestimmte Empfangsqualitätsschwelle unterschreitet bzw. der Störwert die Störschwelle überschreitet. Der Vergleicher kann dabei auch in andere Komponenten des Systems, beispielsweise den Sprachaktivitätsdetektor oder die Dialog-Steuereinrichtung integriert sein.
  • Ein erfindungsgemäßes Spracherkennungssystem kann vorzugsweise in weiten Teilen mittels geeigneter Software auf einem Computer bzw. in einer Sprachsteuerung eines Geräts realisiert werden. So können z. B. die Spracherkennungseinrichtung und die Dialog-Steuereinrichtung vollständig in Form von Softwaremodulen realisiert werden. Auch eine Einrichtung zur Generierung der geeigneten Prompts, beispielsweise ein sogenannter „TTS-Konverter" (Text-To-Speech-Konverter) ist ebenfalls mittels geeigneter Software realisierbar. Alternativ ist es auch möglich, einen Prompt-Player zu verwenden, welcher bestimmte, im vorhinein aufgenommene Prompts für den Benutzer abspielt. Es ist natürlich erforderlich, dass das System entsprechend hardwaremäßig zu realisierende Möglichkeiten zur Spracheingabe und zur Sprachausgabe hat, beispielsweise ein Mikrofon und einen Lautsprecher oder eine Schnittstelle zum Anschluss an ein Kommunikationsnetz aufweist, über welches das Spracherkennungssystem mittels eines Endgeräts erreichbar ist.
  • Insbesondere ist es auch möglich, dass das Spracherkennungssystem nicht innerhalb eines einzelnen Geräts, beispielsweise auf einem einzelnen Server, realisiert ist, sondern dass verschiedene Komponenten des Systems an verschiedenen Orten angeordnet sind, welche über ein entsprechendes Netzwerk untereinander verbunden sind. Das erfindungsgemäße Spracherkennungssystem kann in Verbindung mit beliebigen Applikationen verwendet werden. Insbesondere kann es auch gleichzeitig, beispielsweise in Form eines Timesharing-Verfahrens, mehreren Applikationen als dienstleistendes System zur Verfügung stehen und so für die verschiedenen Applikationen jeweils eine Benutzerschnittstelle bilden.
  • Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand zweier Ausführungsbeispiele näher erläutert. Es zeigen:
  • 1 ein schematisches Blockdiagramm für ein erfindungsgemäßes Spracherkennungssystem gemäß einem ersten Ausführungsbeispiel,
  • 2 ein schematisches Blockdiagramm für ein erfindungsgemäßes Spracherkennungssystem gemäß einem zweiten Ausführungsbeispiel.
  • Bei den in den beiden Figuren dargestellten Ausführungsbeispielen handelt es sich jeweils um sogenannte „barge-in-fähige" Spracherkennungssysteme 1.
  • An die Spracherkennungssysteme 1 ist jeweils zur Eingabe eines Sprachsignals SI ein Mikrofon 2 angeschlossen. Zur Ausgabe von akustischen Signalen bzw. Sprachausgaben (Prompts) an den Benutzer ist an die Spracherkennungssysteme 1 jeweils ein Lautsprecher 3 angeschlossen. Alternativ können sich das Mikrofon 2 und der Lautsprecher 3 auch in einem vom Spracherkennungssystem 1 selbst entfernten Endgerät befinden, welches über eine geeignete Schnittstelle, beispielsweise ein Telefonnetz o. Ä., mit dem Spracherkennungssystem 1 verbunden ist.
  • Ein vom Mikrofon 2 aus eingehendes Signal gelangt bei beiden Spracherkennungssystemen 1 jeweils zunächst zu einem Echofilter 4 (auch „Echo Cancellator" genannt). Dieser Echofilter 4 dient dazu, um in den Fällen, in denen der Benutzer gleichzeitig spricht, obwohl noch ein Prompt SO durch das Spracherkennungssystem 1 selbst ausgegeben wird, das Echo des Prompts SO, welches in gedämpfter Form dem Sprachsignal SI überlagert sein kann, aus dem Eingangssignal auszufiltern.
  • Das Sprachsignal SI wird dann an einen Sprachaktivitätsdetektor 5 weitergeleitet, welcher die Signalenergie und somit die Sprachaktivität des Benutzers misst. Dieser Sprachaktivitätsdetektor 5 dient zum einen dazu, um den Beginn und das Ende eines Sprachsignals sowie Sprechpausen innerhalb einer Äußerung des Benutzers zu detektieren. Zum anderen gibt dieser Sprachaktivitätsdetektor ein Barge-in-Signal SBI aus, welches zu einem Text-to-Speech-Konverter 8 (im Folgenden TTS-Konverter 8 genannt) und an eine Dialog-Steuereinrichtung 10 geleitet wird, um in den Fällen, in denen ein Benutzer in einen ausgegebenen Prompt hinein spricht, die weitere Ausgabe des Prompts durch den TTS-Konverter 8 zu verhindern.
  • Im vorliegenden Fall befindet sich in der Ausgangsleitung für das Barge-in-Signal SBI des Sprachaktivitätsdetektors 5 eine Barge-in-Schalteinheit 9. Nur im geschlossenen Zustand dieser Barge-in-Schalteinheit 9 ist das System 1 tatsächlich barge-in-fähig. Bei geöffnetem Schalter (wie in 1 dargestellt) reagiert das Spracherkennungssystem 1 dagegen auf eine Spracheingabe des Benutzers während der Ausgabe eines Prompts nicht.
  • Vom Sprachaktivitätsdetektor 5 aus wird das Sprachsignal SI selbst an eine automatische Spracherkennungseinrichtung 7 weitergeleitet, in welcher die eigentliche Analyse des Sprachsignals SI zur Erkennung der darin enthaltenen Sprachinformation durchgeführt wird. Das Erkennungsergebnis wird dann in Textform bzw. in einer anderen maschinenlesbaren Form an die Dialog-Steuereinrichtung 10 weitergeleitet.
  • Diese Dialog-Steuereinrichtung 10 reagiert schließlich in vorbestimmter Weise, d. h. gemäß einem vorgegebenen Dialogablauf, auf das Erkennungsergebnis und sucht beispielsweise aus einem Speicher 12 eine vom Benutzer gewünschte Information heraus oder hinterlegt dort vom Benutzer eingegebene Daten. Außerdem steuert diese Dialog-Steuereinrichtung den TTS-Konverter 8 und übergibt diesem die Daten für die an den Benutzer auszugebenden Prompts. Die Prompts werden dann vom TTS-Konverter 8 aus über den Echofilter 4 an den Lautsprecher 3 übermittelt und dort ausgegeben. Der genaue Aufbau der Dialog-Steuereinrichtung 10 ist in der Regel abhängig von der jeweiligen Applikation.
  • Erfindungsgemäß weisen die beiden in den Figuren dargestellten Ausführungsbeispiele jeweils neben einer Barge-in-Schalteinheit 9 eine Qualitätskontrolleinrichtung 6 auf, welche Teil des Sprachaktivitätsdetektors 5 ist. In dieser Qualitätskontrolleinrichtung 6 wird ein Empfangsqualitätswert SQ ermittelt. Hierbei kann es sich beispielsweise um den reziproken Wert eines Hintergrundgeräuschpegels handeln, welcher vor Beginn der Äußerung und/oder in den Sprechpausen des Benutzers vom Sprachaktivitätsdetektor 5 gemessen wird.
  • Der Empfangsqualitätswert SQ wird an die Dialog-Steuereinrichtung 10 übermittelt, welche den Empfangsqualitätswert SQ innerhalb eines Vergleichers 11, der z. B. in Form eines Software-Moduls realisiert ist, mit einer vorgegebenen Empfangsqualitätsschwelle vergleicht. Sobald der Empfangsqualitätswert SQ unterhalb der vorgegebenen Schwelle liegt, wird von der Dialog-Steuereinrichtung 10 ein Barge-in-Ausschaltsignal SBA an die Barge-in-Schalteinheit 9 übermittelt und dort der Schalter in den in 1 dargestellten Zustand gebracht. D. h. das Spracherkennungssystem 1 wird von einem barge-in-fähigen Betriebszustand in einen nicht barge-in-fähigen Betriebszustand umgeschaltet. Dies hat den Vorteil, dass es bei zu hoher Hintergrundgeräuschschwelle nicht dazu kommen kann, dass das Spracherkennungssystem 1 während einer Ausgabe eines Prompts ständig aufgrund von Hintergrundgeräuschen, welche nicht dem Benutzer zugeordnet sind und nicht zur Unterbrechung des Prompts dienen sollen, unterbrochen wird. D. h. das Spracherkennungssystem 1 schaltet in einen Betriebszustand um, der zwar zu einer etwas unnatürlicheren und damit für den Benutzer unbequemeren Dialogweise führt, der aber erheblich robuster und für die zu diesem Zeitpunkt vorliegenden Empfangsbedingungen erheblich geeigneter ist.
  • Zusätzlich lässt die Dialog-Steuereinrichtung 10, sobald der Empfangsqualitätswert SQ unterhalb der vorgegebenen Empfangsqualitätsschwelle liegt, ein entsprechendes Warnsignal in Form eines geeigneten Warn-Prompts SW vom TTS-Generator 8 erzeugen und ausgeben, beispielsweise eine Ansage „Die Hintergrundgeräusche sind zu laut. Bitte warten Sie die Ausgabe eines Prompts vollständig ab, bevor Sie antworten."
  • Die Dialog-Steuereinrichtung 10 ist derart eingerichtet, dass sie automatisch, wenn der Empfangsqualitätswert SQ wieder oberhalb der vorgegebenen Empfangsqualitätsschwelle liegt, das Barge-in-Ausschaltsignal SBA aufhebt und somit der Schalter innerhalb der Barge-in-Schalteinheit 9 wieder geschlossen wird.
  • Grundsätzlich steht es dabei im Ermessen des Programmierers der Dialog-Steuereinrichtung 10, beliebige Empfangsqualitätsschwellen festzulegen, ab denen ein Barge-in-Zustand ausgeschaltet wird und/oder bei denen eine Warnung an den Benutzer erfolgt, damit dieser sich gegebenenfalls bemüht, eine ruhigere Umgebung aufzusuchen, sofern dies möglich ist.
  • 2 zeigt ein geringfügig anderes Ausführungsbeispiel eines erfindungsgemäßen Spracherkennungssystems 1.
  • Bei diesem Ausführungsbeispiel erfolgt der Vergleich des Empfangsqualitätswerts SQ mit der Empfangsqualitätsschwelle direkt in der Qualitätskontrolleinrichtung 6, d. h. der Vergleicher 11 ist in die Qualitätskontrolleinrichtung 6 integriert. Die Qualitätskontrolleinrichtung 6 gibt bei Unterschreiten der vorgegebenen Empfangsqualitätsschwelle ein Empfangsbeeinträchtigungsanzeigesignal SEB aus, welches gleichzeitig die Barge-in-Schalteinheit 9 ausschaltet und an die Dialog-Steuereinrichtung 10 gegeben wird, damit dort je nach Programmierung die Ausgabe eines geeigneten Warn-Prompts SW über den TTS-Konverter 8 veranlasst wird.
  • Es wird noch einmal darauf hingewiesen, dass es sich bei den in den Figuren dargestellten Spracherkennungssystemen 1 nur um spezielle Ausführungsbeispiele der Erfindung handelt und es im Ermessen des Fachmanns steht, die Spracherkennungssysteme 1 bzw. das Verfahren zum Betrieb der Spracherkennungssysteme 1 im Rahmen der Erfindung auf verschiedene Weise zu modifizieren.
  • So ist es insbesondere möglich, dass beispielsweise die Qualitätskontrolleinheit 6 auch Teil der Dialog-Steuereinrichtung 10 ist. Ebenso kann die Barge-in-Schalteinrichtung 9 auch Teil des Sprachaktivitätsdetektors 5 oder der Dialog-Steuereinrichtung 10 sein und beispielsweise auch als rein softwaremäßiger Schalter ausgebildet sein. Des Weiteren ist es möglich, dass die Qualitätskontrolleinheit 6 rein hardwaremäßig als eigenständiges Modul aufgebaut ist. Außerdem kann das Spracherkennungssystem zusätzliche Komponenten bzw. weitere Funktionen aufweisen, beispielsweise ein intelligentes, grammatikbasiertes Barge-in-Verfahren durchführen. Hierbei wird nicht bereits von dem Sprachaktivitätsdetektor das Barge-In-Signal erzeugt, sondern erst von der Spracherkennungseinrichtung, welche zunächst prüft, ob ein eingehendes Signal wirklich einen sinnvollen Inhalt hat und daher als Barge-In-Fall anzusehen ist. Weitere Variationen können beispielsweise eine Sprechererkennung oder andere Erweiterungen des Spracherkennungssystems enthalten.

Claims (10)

  1. Verfahren zum Betrieb eines Spracherkennungssystems (1), in welchem ein Sprachsignal (SI) eines Benutzers detektiert und zur Erkennung einer im Sprachsignal (SI) enthaltenen Sprachinformation analysiert wird, dadurch gekennzeichnet, dass ein Empfangsqualitätswert (SQ) oder ein Störwert ermittelt wird, welcher eine aktuelle Empfangsqualität repräsentiert, und dass das Spracherkennungssystem (1) in einen störunempfindlicheren Betriebsmodus umschaltet und/oder ein Warnsignal (SW) an den Benutzer ausgibt, wenn der Empfangsqualitätswert (SQ) eine bestimmte Empfangsqualitätsschwelle unterschreitet bzw. der Störwert eine Störschwelle überschreitet.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Spracherkennungssystem automatisch in den vorherigen Betriebszustand zurückschaltet, wenn der Empfangsqualitätswert (SQ) die Empfangsqualitätsschwelle wieder überschreitet bzw. der Störwert die Störschwelle wieder unterschreitet.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei Unterschreiten der Empfangsqualitätsschwelle bzw. Überschreiten der Störschwelle ein Barge-in-Betriebszustand des Spracherkennungssystems (1) ausgeschaltet wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Empfangsqualitätswert (SQ) oder Störwert mittels eines Sprachaktivitätsdetektors (5) ermittelt wird.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Empfangsqualitätswert (SQ) oder Störwert auf Basis eines vor Beginn der Äußerung und/oder in einer Sprechpause des Benutzers empfangenen Untergrundsignals ermittelt wird.
  6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass der Sprachaktivitätsdetektor (5) den Empfangsqualitätswert (SQ) oder Störwert selbst und/oder bei Unterschreiten der Empfangsqualitätsschwelle bzw. bei Überschreiten der Störschwelle ein Empfangsbeeinträchtigungsanzeigesignal (SEB) an eine Dialog-Steuereinrichtung (10) übermittelt.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Dialog-Steuereinrichtung (10) bei Empfang des Empfangsbeeinträchtigungsanzeigesignals (SEB) und/oder wenn der empfangene Empfangsqualitätswert (SQ) die Empfangsqualitätsschwelle unterschreitet bzw. der Störwert die Störschwelle überschreitet, die Ausgabe eines Prompts (SW) an den Benutzer auslöst, welcher die Information enthält, dass die Empfangsbedingungen schlecht sind.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass ein eingehendes Signal hinsichtlich der Art der Störung, die dafür verantwortlich ist, dass der Empfangsqualitätswert (SQ) unterhalb der Empfangsqualitätsschwelle bzw. der Störwert oberhalb der Störschwelle liegt, analysiert wird, und an den Benutzer ein Prompt (SW) ausgegeben wird, welches diese Information enthält.
  9. Spracherkennungssystem (1) mit Mitteln (5) zur Detektion eines Sprachsignals (SI) eines Benutzers und einer Spracherkennungseinrichtung (7), um das detektierte Sprachsignal (SI) zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation zu analysieren, gekennzeichnet durch, eine Qualitätskontrolleinrichtung (6) zur Ermittlung eines Empfangsqualitätswerts (SQ) oder eines Störwerts, welcher eine aktuelle Empfangsqualität repräsentiert, einen Vergleicher, um den Empfangsqualitätswert (SQ) mit einer bestimmten Empfangsqualitätsschwelle zu vergleichen oder um den Störwert mit einer bestimmten Störschwelle zu vergleichen, und Steuerungsmittel (9, 10), welche derart ausgebildet sind, dass das Spracherkennungssystem (1) in einen störungsempfindlicheren Betriebsmodus umgeschaltet wird und/oder ein Warnsignal (SW) an den Benutzer ausgegeben wird, wenn der Empfangsqualitätswert die Empfangsqualitätsschwelle unterschreitet bzw. der Störwert die Störschwelle überschreitet.
  10. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE10251113A 2002-11-02 2002-11-02 Verfahren zum Betrieb eines Spracherkennungssystems Withdrawn DE10251113A1 (de)

Priority Applications (10)

Application Number Priority Date Filing Date Title
DE10251113A DE10251113A1 (de) 2002-11-02 2002-11-02 Verfahren zum Betrieb eines Spracherkennungssystems
CNB2003801025294A CN100524458C (zh) 2002-11-02 2003-10-24 用于操作语音识别系统的方法
US10/532,919 US8781826B2 (en) 2002-11-02 2003-10-24 Method for operating a speech recognition system
AT03751200T ATE421139T1 (de) 2002-11-02 2003-10-24 Verfahren zum betreiben eines spracherkennungssystemes
PCT/IB2003/004727 WO2004042698A1 (en) 2002-11-02 2003-10-24 Method for operating a speech recognition system
DE60325881T DE60325881D1 (de) 2002-11-02 2003-10-24 Verfahren zum betreiben eines spracherkennungssystemes
JP2004549444A JP2006505003A (ja) 2002-11-02 2003-10-24 音声認識システムの動作方法
AU2003269418A AU2003269418A1 (en) 2002-11-02 2003-10-24 Method for operating a speech recognition system
EP03751200A EP1561203B1 (de) 2002-11-02 2003-10-24 Verfahren zum betreiben eines spracherkennungssystemes
JP2010203561A JP2011022600A (ja) 2002-11-02 2010-09-10 音声認識システムの動作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10251113A DE10251113A1 (de) 2002-11-02 2002-11-02 Verfahren zum Betrieb eines Spracherkennungssystems

Publications (1)

Publication Number Publication Date
DE10251113A1 true DE10251113A1 (de) 2004-05-19

Family

ID=32115143

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10251113A Withdrawn DE10251113A1 (de) 2002-11-02 2002-11-02 Verfahren zum Betrieb eines Spracherkennungssystems
DE60325881T Expired - Lifetime DE60325881D1 (de) 2002-11-02 2003-10-24 Verfahren zum betreiben eines spracherkennungssystemes

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60325881T Expired - Lifetime DE60325881D1 (de) 2002-11-02 2003-10-24 Verfahren zum betreiben eines spracherkennungssystemes

Country Status (8)

Country Link
US (1) US8781826B2 (de)
EP (1) EP1561203B1 (de)
JP (2) JP2006505003A (de)
CN (1) CN100524458C (de)
AT (1) ATE421139T1 (de)
AU (1) AU2003269418A1 (de)
DE (2) DE10251113A1 (de)
WO (1) WO2004042698A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010055297A1 (de) * 2010-12-21 2012-06-21 Brose Fahrzeugteile Gmbh & Co. Kommanditgesellschaft, Hallstadt Verfahren zur Erzeugung einer Bedienmeldung beim Auftreten eines Bedienereignisses

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10224816A1 (de) * 2002-06-05 2003-12-24 Philips Intellectual Property Eine mobile Einheit und ein Verfahren zur Steuerung einer mobilen Einheit
GB2417812B (en) * 2003-05-08 2007-04-18 Voice Signal Technologies Inc A signal-to-noise mediated speech recognition algorithm
US7406422B2 (en) * 2004-07-20 2008-07-29 Hewlett-Packard Development Company, L.P. Techniques for improving collaboration effectiveness
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
EP2107553B1 (de) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Verfahren zur Erkennung einer Unterbrechung einer Sprachausgabe
EP2148325B1 (de) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Verfahren zur Bestimmung der Anwesenheit einer gewollten Signalkomponente
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
WO2013147845A1 (en) * 2012-03-30 2013-10-03 Intel Corporation Voice-enabled touchscreen user interface
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
CN103971680B (zh) 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US9293135B2 (en) * 2013-07-02 2016-03-22 Volkswagen Ag Countermeasures for voice recognition deterioration due to exterior noise from passing vehicles
US9613619B2 (en) 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN104767652B (zh) * 2014-01-08 2020-01-17 杜比实验室特许公司 监视数字传输环境性能的方法
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN107147972A (zh) * 2016-03-01 2017-09-08 卡讯电子股份有限公司 音频讯号输出控制方法及系统
US10283138B2 (en) * 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置
JP7388006B2 (ja) * 2019-06-03 2023-11-29 コニカミノルタ株式会社 画像処理装置及びプログラム
KR20190084912A (ko) * 2019-06-28 2019-07-17 엘지전자 주식회사 사용자의 액션에 따라 제어 가능한 인공 지능 장치 및 그의 동작 방법
KR20210017392A (ko) * 2019-08-08 2021-02-17 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US11037571B2 (en) * 2019-10-04 2021-06-15 Motorola Solutions, Inc. Speech-based two-way radio assistant

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
JP2589468B2 (ja) * 1986-02-18 1997-03-12 松下電器産業株式会社 音声認識装置
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
US5870705A (en) * 1994-10-21 1999-02-09 Microsoft Corporation Method of setting input levels in a voice recognition system
EP0809841B1 (de) * 1995-02-15 2001-04-11 BRITISH TELECOMMUNICATIONS public limited company Detektion von sprechaktivität
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
EP1021804A4 (de) * 1997-05-06 2002-03-20 Speechworks Int Inc System und verfahren zur entwicklung von interaktiven sprachanwendungen
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6505155B1 (en) * 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
NL1012148C2 (nl) * 1999-05-25 2000-11-28 Koninkl Kpn Nv Spraakverwerkend systeem.
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6724864B1 (en) * 2000-01-20 2004-04-20 Comverse, Inc. Active prompts
WO2001056015A1 (en) * 2000-01-27 2001-08-02 Koninklijke Philips Electronics N.V. Speech detection device having two switch-off criterions
US6466654B1 (en) * 2000-03-06 2002-10-15 Avaya Technology Corp. Personal virtual assistant with semantic tagging
JP3903410B2 (ja) * 2000-06-01 2007-04-11 三菱電機株式会社 音声入力制御システム
WO2002005537A1 (en) * 2000-06-29 2002-01-17 Koninklijke Philips Electronics N.V. Speech quality estimation for off-line speech recognition
GB2367467B (en) * 2000-09-30 2004-12-15 Mitel Corp Noise level calculator for echo canceller
US7117442B1 (en) 2001-02-01 2006-10-03 International Business Machines Corporation Efficient presentation of database query results through audio user interfaces
JP2002244696A (ja) * 2001-02-20 2002-08-30 Kenwood Corp 音声認識による制御装置
US6754310B1 (en) * 2001-03-08 2004-06-22 3Com Corporation Telephony interface device for providing diagnostic information to a telephone
JP2002297186A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
CN1266625C (zh) 2001-05-04 2006-07-26 微软公司 用于web启用的识别的服务器
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010055297A1 (de) * 2010-12-21 2012-06-21 Brose Fahrzeugteile Gmbh & Co. Kommanditgesellschaft, Hallstadt Verfahren zur Erzeugung einer Bedienmeldung beim Auftreten eines Bedienereignisses

Also Published As

Publication number Publication date
JP2011022600A (ja) 2011-02-03
WO2004042698A1 (en) 2004-05-21
CN1708782A (zh) 2005-12-14
EP1561203A1 (de) 2005-08-10
US8781826B2 (en) 2014-07-15
AU2003269418A1 (en) 2004-06-07
DE60325881D1 (de) 2009-03-05
ATE421139T1 (de) 2009-01-15
US20060200345A1 (en) 2006-09-07
JP2006505003A (ja) 2006-02-09
EP1561203B1 (de) 2009-01-14
CN100524458C (zh) 2009-08-05
WO2004042698A8 (en) 2005-05-19

Similar Documents

Publication Publication Date Title
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE602004003443T2 (de) Sprachperiodenerkennung basierend auf Elektromyographie
EP1324314B1 (de) Spracherkennungssystem und Verfahren zum Betrieb eines solchen
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE60129327T2 (de) Anordnung und verfahren in bezug auf die vermittlung von sprache
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
DE19956747C1 (de) Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
WO2002043049A1 (de) Verfahren zur steuerung eines eine akustische ausgabeeinrichtung aufweisenden geräts
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE102017205652B3 (de) Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
EP3396978A1 (de) Verfahren zum betrieb einer hörvorrichtung und hörvorrichtung
EP3337187A1 (de) Verfahren zum betrieb eines hörgerätes
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE602005001995T2 (de) Basisband-Modem und Verfahren zur Spracherkennung und verwendendes Mobilkommunikationsendgerät
WO2009103610A1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE102019208742B4 (de) Sprachübersetzungssystem zum Bereitstellen einer Übersetzung eines Spracheingabesignals eines Sprechers in ein anderssprachiges Sprachausgabesignal für einen Hörer sowie Übersetzungsverfahren für ein derartiges Sprachübersetzungssystem
EP3836567A1 (de) Verfahren zum betrieb eines hörsystems und hörsystem
DE602004004824T2 (de) Automatische Behandlung von Konversationsgruppen
DE3137314C2 (de) Schaltungsanordnung für sprachgesteuerte Freisprechgeräte
DE19751536C2 (de) Spracherkennungspegelsteuervorrichtung in einem Spracherkennungstelefongerät und zugehöriges Steuerverfahren
DE102006001730A1 (de) Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm
DE10333896A1 (de) Verfahren und System zum Bereitstellen einer Freisprechfunktionalität bei mobilen Telekomunikationsendeinrichtungen
EP4027333B1 (de) Virtueller sprachassistent mit verbesserter erkennungsgenauigkeit
DE102006058758B4 (de) Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee