[go: up one dir, main page]

DE10131157C1 - Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme - Google Patents

Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme

Info

Publication number
DE10131157C1
DE10131157C1 DE2001131157 DE10131157A DE10131157C1 DE 10131157 C1 DE10131157 C1 DE 10131157C1 DE 2001131157 DE2001131157 DE 2001131157 DE 10131157 A DE10131157 A DE 10131157A DE 10131157 C1 DE10131157 C1 DE 10131157C1
Authority
DE
Germany
Prior art keywords
probability distribution
user
speech recognition
recognition system
user profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
DE2001131157
Other languages
English (en)
Inventor
Florian M Unterkircher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EXCELSIS INFORMATIONSSYSTEME GMBH, 70178 STUTT, DE
Original Assignee
PROJECT49 AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PROJECT49 AG filed Critical PROJECT49 AG
Priority to DE2001131157 priority Critical patent/DE10131157C1/de
Application granted granted Critical
Publication of DE10131157C1 publication Critical patent/DE10131157C1/de
Anticipated expiration legal-status Critical
Withdrawn - After Issue legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein dynamisches Grammatikgewichtsverfahren und Computerprogramm für Spracherkennungssysteme, worin eine Wahrscheinlichkeitsverteilung p¶n¶ für Grammatikeinträge in ein Spracherkennungssystem implementiert wird, wobei die Implementierung erfolgt, während ein Benutzer mit dem Spracherkennungssystem verbunden ist. Es ist die Aufgabe der Erfindung, ein solches bekanntes Verfahren und Computersystem derart weiterzubilden, dass die Genauigkeit der Spracherkennung für eine individuellen Benutzer verbessert wird. Diese Aufgabe wird erfindungsgemäß dadurch gelöst, dass eine bisher bei der Spracherkennung von dem Spracherkennungssystem 520 verwendete a-priori Wahrscheinlichkeitsverteilung p¶n-1¶ für Grammatikeinträge anhand eines für den identifizierten Benutzer erstellten Benutzerprofils adaptiert und die daraus resultierende Wahrscheinlichietsverteilung p¶n-1¶ in das Spracherkennungssystem 520 implementiert wird.

Description

Die Erfindung betrifft ein dynamisches Grammatik­ gewichtungsverfahren für Spracherkennungssysteme, worin eine Wahrscheinlichkeitsverteilung pn für Grammatikeinträge in ein Spracherkennungssystem implementiert wird, wobei die Implementierung erfolgt, während ein Benutzer mit dem Spracherkennungssystem verbunden ist.
Die Erfindung betrifft weiterhin ein Computerprogramm mit einem Programmcode zur Durchführung dieses Verfahrens und ein entsprechendes Spracherkennungssystem. Darüber hinaus betrifft die Erfindung eine Verwendung des Verfahrens oder des Computerprogramms im Bankenbereich zur Abwicklung von Bankgeschäften.
Aus dem Stand der Technik sind Spracherkennungssysteme, wie in Fig. 5 dargestellt, grundsätzlich bekannt. Da in Fig. 5 beschriebene, aus dem Stand der Technik bekannte Spracherkennungssystem 520 dient zur Spracherkennung, d. h. zur Umsetzung von eingegebener Sprache mit möglichst hoher Wahrscheinlichkeit in eine entsprechende richtige Wortfolge. Die Sprache kann entweder direkt in das Spracherkennungssystem eingegeben oder diesem über ein Kommunikationssystem 510, z. B. in Form eines Telefonsystems, eines Mobilfunknetzes oder eines Local Area Networks etc. zugeführt werden.
Zur Durchführung der Spracherkennung sind in dem bekannten Spracherkennungssystem 520 eine Segmentierungseinheit 522 sowie ein akustisches Modell 524 und eine sogenannte Grammatik 526 üblicherweise als Software implementiert. Die Segmentierungseinheit 522 dient zur Zerlegung der eingegebenen Sprache in Sprachsegmente. Jedes dieser Sprachsegmente wird mit Hilfe des akustischen Modells 524 in eine Vielzahl von Phonemen abgebildet, wobei die einzelnen Phoneme jeweils mit einer unterschiedlichen Wahrscheinlichkeit das Sprachsegment repräsentieren. Danach erfolgt durch die Grammatik 526 eine Auswertung der Vielzahl der Phoneme, um letzten Endes eine Wortfolge zu bestimmen und über das Spracherkennungssystem auszugeben, welche dem Sprachsegment mit der größten Wahrscheinlichkeit entspricht.
Aus der WO 00/68933 ist es bekannt, Sprachmuster einer Spracheingabe eines Benutzers dazu zu verwenden, um das akustische Modell eines Spracherkennungssystems an den Benutzer anzupassen. Es wird vorgeschlagen, diese Anpassung rekursiv bei einer Vielzahl von Spracheingaben des Benutzers vorzunehmen, um das akustische Modell sukzessive zu optimieren. Auf diese Weise wird die Genauigkeit, mit welcher das Spracherkennungssystem die Spracheingabe des Benutzers erkennt, ebenfalls sukzessive verbessert.
Die US 6 154 722 lehrt demgegenüber eine Adaption des Sprachmodells bzw. der Grammatik des Spracherkennungssystems zur Steigerung der Erkennungsgenauigkeit eines Spracherkennungssystems. Zur Adaption des Sprachmodells wird vorgeschlagen, eine n- Gram-Wahrscheinlichkeit nach Maßgabe durch Informationen, welche aus einer Wahrscheinlichkeit für eine kontextfreie Grammatik gewonnen werden, zu modifizieren.
Ausgehend von der US 6 154 722 als nächstliegendem Stand der Technik lag der Erfindung die Aufgabe zugrunde, ein bekanntes Grammatikgewichtungsverfahren, ein entsprechendes Computerprogramm und ein Spracherkennungssystem derart weiterzubilden, dass die Genauigkeit, mit welcher das Spracherkennungssystem von einem individuellen Benutzer eingegebene Sprache erkennt, weiter verbessert wird.
Diese Aufgabe wird durch den Gegenstand des Verfahrensanspruchs 1 gelöst. Genauer gesagt wird die Aufgabe dadurch gelöst, dass bei dem Verfahren folgende Schritte ausgeführt werden: Identifizieren des Benutzers; Ermitteln der Wahrscheinlichkeitsverteilung pn durch Adaptieren einer a-priori Wahrscheinlichkeitsverteilung Pn-1 anhand eines für den identifizierten Benutzer erstellten Benutzerprofils, welches Informationen zur Gewichtung von Grammatikeinträgen enthält, die für den identifizierten Benutzer spezifisch sind und Implementieren der Wahrscheinlichkeitsverteilung pn in das Spracherkennungssystem anstelle der a-priori Wahrscheinlichkeitsverteilung pn-1 bevor oder während der identifizierte Benutzer eine Spracheingabe durchführt.
Die a-priori Wahrscheinlichkeitsverteilung pn-1 sowie die aus deren Adaption resultierende Wahrscheinlichkeitsverteilung pn repräsentieren jeweils eine Gewichtung, mit welcher das Spracherkennungssystem die einzelnen Einträge der Grammatik zum Auswerten der von dem Benutzer in das Spracherkennungssystem eingegebenen Sprache heranzieht.
Ein Benutzerprofil ist eine für den identifizierten Benutzer spezifische Gewichtung der Einträge der Grammatik. Es repräsentiert z. B. die absoluten Häufigkeiten, mit welchen ein Benutzer während einer Spracheingabe bestimmte Vokabeln verwendet. Eine aus diesem Benutzerprofil abgeleitete Wahrscheinlichkeitsverteilung pB könnte in diesem Fall z. B. die den absoluten Häufigkeiten entsprechenden relativen Häufigkeiten repräsentieren.
Die Wahrscheinlichkeitsverteilung pn ist durch die beschriebene Adaption auf Basis benutzerspezifischer Informationen erstellt worden und insofern an den identifizierten aktuellen Benutzer angepasst. Ein Spracherkennungssystem in welchem die Wahrscheinlichkeitsverteilung für den identifizierten Benutzer individuell implementiert wurde, zeichnet sich deshalb vorteilhafterweise gegenüber bekannten Spracherkennungssystemen durch eine wesentlich verbesserte Erkennungsgenauigkeit bei Spracheingaben des identifizierten Benutzers aus.
Die oben beschriebene Aufgabe wird weiterhin durch ein Computerprogramm gemäß Patentanspruch 10 sowie durch ein Spracherkennungssystem gemäß Patentanspruch 12 gelöst. Die Vorteile dieses Computerprogramms und des Spracherkennungssystems entsprechen den oben für das Verfahren genannten Vorteilen.
Das erfindungsgemäße Verfahren und Computerprogramm finden vorzugsweise Anwendung im Bankenbereich, insbesondere zur Wertpapierorder durch online Spracheingabe; es ist allerdings keineswegs auf diese Anwendung beschränkt. Vielmehr eignet es sich generell für jede Anwendung einer Spracherkennung.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Der Beschreibung sind insgesamt fünf Figuren beigefügt, wobei:
Fig. 1 ein erstes Ausführungsbeispiel für das erfindungsgemäße Verfahren;
Fig. 2 ein Beispiel für eine a-priori Wahrscheinlichkeitsverteilung von Einträgen einer Grammatik;
Fig. 3 ein Beispiel für eine Adaption einer Wahrscheinlichkeitsverteilung für Einträge einer Grammatik;
Fig. 4 ein zweites Ausführungsbeispiel für das erfindungsgemäße Verfahren; und
Fig. 5 den Aufbau eines aus dem Stand der Technik bekannten Spracherkennungssystems zeigt.
Es folgt eine detaillierte Beschreibung bevorzugter Ausführungsbeispiele der Erfindung unter Bezugnahme auf die angeführten Fig. 1 bis 5. Der aus dem Stand der Technik bekannte und oben unter Bezugnahme auf Fig. 5 beschriebene Aufbau eines Spracherkennungssystems und dessen grundsätzliche Funktionsweise gelten auch für die Erfindung. Zur Veranschaulichung wird bei der Beschreibung der Ausführungsbeispiele auf eine Anwendung der Erfindung im Bankenbereich Bezug genommen.
Fig. 1 zeigt ein erstes Ausführungsbeispiel für den Ablauf des erfindungsgemäßen Verfahrens. In Verfahrensschritt 101 erfolgt zunächst der Aufbau einer Verbindung eines Benutzers mit einem Spracherkennungssystem 520, z. B. über ein Kommunikationssystem 510, wie dies in Fig. 5 dargestellt ist.
In Verfahrensschritt 102 wird der Benutzer durch das Spracherkennungssystem 520 identifiziert. Das kann z. B. dadurch erfolgen, dass sich der Benutzer selber durch Angabe seines Namens, seiner Personal Identification Number PIN oder seiner Kontonummer identifiziert. Alternativ dazu kann der Benutzer auch automatisch identifiziert werden, z. B. durch automatische Erkennung seiner Rufnummer, wenn er sich über Telefon mit dem Spracherkennungssystem in Verbindung setzt, oder durch Sprechererkennung.
Nach der Identifikation des Benutzers wird in Verfahrensschritt 103 festgestellt, ob dieser bereits zu einem früheren Zeitpunkt mit dem Spracherkennungssystem 520 in einem bestimmten Kontext, z. B. in Sachen Wertpapierorder, interagiert hat oder nicht. Die Feststellung erfolgt in der Weise, dass die in Verfahrensschritt 102 ermittelte Identität des Benutzers mit gespeicherten Einträgen über ehemalige Benutzer des Spracherkennungssystems 520 verglichen wird. Die Speicherung der Einträge muss nicht in dem Spracherkennungssystem 520 selber, sondern kann auch extern erfolgen, wobei dann ein Zugriff auf diese Daten von dem Spracherkennungssystem aus, z. B. über eine Netzwerkanbindung, vorgesehen werden sollte.
Das Spracherkennungssystem 520 erkennt grundsätzlich alle Spracheingaben aufgrund von Grammatiken, welche alle möglichen Einträge spezifizieren, die das Spracherkennungssystem 520 in einem bestimmten Kontext, hier beispielhaft die Wertpapierorder, erkennen soll. Den Einträgen der Grammatiken sind individuell Wahrscheinlichkeiten zugeordnet, welche eine Gewichtung repräsentieren, mit welcher das Spracherkennungssystem 520 die einzelnen Einträge der Grammatik zum Auswerten der von einem Benutzer in das Spracherkennungssystem eingegebenen Sprache heranzieht.
Wenn in Schritt 103 festgestellt wird, dass es sich um einen erstmaligen Benutzer des Spracherkennungssystems 520 handelt, wird das Verfahren mit Schritt 104 fortgesetzt. In das Spracherkennungssystem 520 wird dann beispielsweise eine objektive Grammatik zur Spracherkennung implementiert. Eine solche objektive Grammatik zeichnet sich dadurch aus, dass die Wahrscheinlichkeitsverteilung ihrer Einträge entweder gleichverteilt oder nach objektiven, d. h. benutzerunabhängigen Kriterien gewichtet ist. Ist der Benutzer beispielsweise ein Bankkunde und möchte er erstmalig eine Wertpapierorder per Spracheingabe aufgeben, so könnten die Einträge der Grammatik, wie in Fig. 2 gezeigt, beispielsweise Aktientitel sein und die ihnen jeweils zugeordneten Wahrscheinlichkeiten deren relative Handelsvolumen an der Börse während eines bestimmten Zeitraumes in der Vergangenheit repräsentieren.
Bei dem in Fig. 1 dargestellten Verfahrensschritt 104 wird davon ausgegangen, dass für den erstmaligen Benutzer noch kein Benutzerprofil vorliegt, so dass in diesem Fall keine erfindungsgemäße benutzerspezifische Adaption der objektiven Wahrscheinlichkeitsverteilung stattfinden kann. Ein Benutzerprofil ist eine für den identifizierten Benutzer spezifische Gewichtung der Einträge der Grammatik.
Alternativ zu dem dargestellten Verfahrensschritt 104 ist es jedoch unter einer bestimmten Voraussetzung trotzdem möglich, auch für den erstmaligen Benutzer eine erfindungsgemäße Adaption der objektiven Wahrscheinlichkeitsverteilung vorzunehmen. Voraussetzung dafür ist, dass für den identifizierten Benutzer bereits vor dessen erster Spracheingabe ein Benutzerprofil vorliegt. Dies ist kann z. B. ein Benutzerprofil sein, welches nicht auf einer vom Benutzer durchgeführten kontextbezogenen Spracheingabe, sondern auf Grundlage anderer dem Benutzer zugeordneten Informationen erstellt wurde. Die erfindungsgemäße Adaption kann dann in der Weise erfolgen, dass die oben beschriebene objektive Wahrscheinlichkeitsverteilung der Einträge als a-priori Wahrscheinlichkeitsverteilung mathematisch mit einer aus dem Benutzerprofil abgeleiteten Wahrscheinlichkeitsverteilung pB zu einer adaptierten Wahrscheinlichkeitsverteilung pn verknüpft wird. Die Wahrscheinlichkeitsverteilung pn ist gegenüber der a- priori Wahrscheinlichkeitsverteilung besser auf den Benutzer abgestimmt und erhöht deshalb die Erkennungsgenauigkeit bei zukünftigen Spracheingaben des identifizierten Benutzers. Ein Beispiel für die Durchführung einer konkreten erfindungsgemäßen Adaption wird weiter unten unter Bezugnahme auf Fig. 3 gegeben.
Für den Fall, dass in Verfahrensschritt 103 festgestellt wurde, dass der Benutzer zu einem früheren Zeitpunkt bereits zumindest einmal mit dem Spracherkennungssystem interagiert hatte, dann wird das Verfahren mit Schritt 105 fortgesetzt. Dieser Schritt setzt voraus, dass sowohl eine a-priori Wahrscheinlichkeit pn-1 wie auch ein Benutzerprofil für den in Schritt 102 identifizierten Benutzer vorhanden ist.
Fig. 2 zeigt beispielhaft eine a-priori Wahrscheinlichkeitsverteilung. Demnach wird der Eintrag "Microsoft" mit einer Gewichtung von 80%, der Eintrag "Cisco" mit einer Gewichtung von 20%, der Eintrag "Callaway Golf" mit einer Gewichtung von 9% und der Eintrag "Macrosoft" mit einer Gewichtung von 1% bei der Auswertung einer Spracheingabe des Benutzers von dem Spracherkennungssystem herangezogen. Die a-priori Wahrscheinlichkeit pn-1 kann dabei entweder objektiv, d. h. benutzerunabhängig oder benutzerabhängig, z. B. auf Basis vorangegangener Auswertungen von Spracheingaben des Benutzers, erstellt worden sein.
Das Benutzerprofil kann entweder unabhängig von einer vorherigen Spracheingabe des identifizierten Benutzers oder aber abhängig von einer solchen vorherigen Spracheingabe angefertigt worden sein. Es kann entweder aus Massenspeicher innerhalb des Spracherkennungssystem oder von einem externen Speicher, welcher z. B. über eine Netzwerkanbindung angesprochen werden kann, abgerufen werden.
In jedem Fall erfolgt in Schritt 105 in Fig. 1 eine erfindungsgemäße Adaption einer a-priori Wahrscheinlichkeitsverteilung pn-1, d. h. einer bereits vor der Adaption vorhandenen Wahrscheinlichkeitsverteilung pn-1 mit einer aus dem Benutzerprofil des identifizierten Benutzers gewonnenen Wahrscheinlichkeitsverteilung pB.
Ergebnis der Adaption ist eine auf den identifizierten Benutzer abgestimmte Wahrscheinlichkeitsverteilung pn der Einträge der Grammatik. Diese wird gemäß Verfahrensschritt 106 anstelle der bisherigen a-priori Wahrscheinlichkeitsverteilung pn-1 in das Spracherkennungssystem 520 implementiert.
Ein Beispiel für eine konkrete Durchführung der erfindungsgemäßen Adaption und eine daraus resultierende Wahrscheinlichkeitsverteilung pn folgt weiter unten unter Bezugnahme auf Fig. 3.
Gemäß Verfahrensschritt 107 wird die Wahrscheinlichkeitsverteilung pn für die Einträge der Grammatik nach ihrer Implementierung von dem Spracherkennungssystem zum Erkennen zukünftiger Spracheingaben des identifizierten Benutzers verwendet. Wie bereits oben unter Bezugnahme auf Fig. 5 beschrieben wurde, wird dabei die akustische Spracheingabe des identifizierten Benutzers in eine entsprechende Wortfolge abgebildet.
Die akustische Spracheingabe des identifizierten Benutzers wird in Verfahrensschritt 108 zur Erstellung eines gegenüber dem in Verfahrensschritt 105 verbesserten Benutzerprofils verwendet. Genauer gesagt wird insbesondere das von dem Benutzer bei der Spracheingabe verwendete Vokabular oder dessen Aussprache für die Erstellung des verbesserten Benutzerprofils ausgewertet. Diese Informationen aus der aktuellen Spracheingabe bilden, gegebenenfalls zusammen mit ähnlichen Informationen aus vorangegangenen Spracheingaben, eine sprachliche Benutzungshistorie des identifizierten Benutzers. Die Benutzungshistorie ist ein Indiz dafür, welche Einträge der Grammatik in Zukunft von dem Spracherkennungssystem mit erhöhter Wahrscheinlichkeit zur Auswertung von Spracheingaben des Benutzers heranzuziehen sind. Neben der sprachlichen Benutzungshistorie können aber auch andere benutzerspezifische Informationen für die Erstellung des verbesserten Benutzerprofils herangezogen werden; insbesondere kann das verbesserte Benutzerprofil durch Modifikation eines bisher verwendeten Benutzerprofils erstellt werden.
Das verbesserte Benutzerprofil wird gemäß Verfahrensschritt 109 entweder in einem Speicher des Spracherkennungssystems oder in einem externen Speicher, abgespeichert.
Solange wie in Schritt 110 festgestellt wird, dass eine aktuelle Verbindung des Benutzers mit dem Spracherkennungssystem 520 noch besteht, werden die beschriebenen Verfahrensschritte 102 bis 110 immer wieder neu durchlaufen. Insofern findet dann während der aktuellen Verbindung eine permanente Optimierung der implementierten Grammatik, insbesondere der Wahrscheinlichkeitsverteilung von deren Einträgen statt. Damit einhergehend erfolgt eine stetige Verbesserung der Erkennungsgenauigkeit des Spracherkennungssystems für die Spracheingaben des identifizierten Benutzers.
Wird jedoch in Schritt 110 festgestellt, dass die aktuelle Verbindung des identifizierten Benutzers mit dem Spracherkennungssystem 520 abgebrochen wurde, dann ist das in Fig. 1 dargestellt Verfahren grundsätzlich abgeschlossen (Schritt 111). Das im letzten Durchlauf gemäß Fig. 1 verbesserte Benutzerprofil für den identifizierten Benutzer bleibt jedoch gespeichert bis dieser sich zu einem späteren Zeitpunkt erneut mit dem Spracherkennungssystem 520 in Verbindung setzt. Dann würde genau dieses Benutzerprofil aus dem Speicher abgerufen und gemäß Schritt 105 zur Adaption einer bisher verwendeten a- priori Wahrscheinlichkeitsverteilung verwendet.
Fig. 3 zeigt ein Beispiel für die konkrete Durchführung der erfindungsgemäßen Adaption, d. h. wie mit Hilfe von Informationen über den Benutzer eine Neugewichtung der Einträge in der Grammatik vorgenommen wird.
In Spalte 301 ist als Ausgangsbasis für die Neugewichtung eine vorgegebene objektive a-priori Wahrscheinlichkeitsverteilung pn-1 für bestimmte Aktientitel beispielhaft dargestellt. Genauer gesagt, ist in Spalte 301 angezeigt, dass laut der a-priori Wahrscheinlichkeitsverteilung das Spracherkennungssystem 520 den Aktientitel "Microsoft" mit einer Gewichtung von 70% zum Auswerten der von dem Benutzer in das Spracherkennungssystem eingegebenen Sprache heranzieht. Analog verwendet es den Aktientitel "Cisco" mit 20%, den Aktientitel "Callaway Golf" mit 9% und den Aktientitel "Macrosoft" mit einer Gewichtung von 1%.
In Spalte 302 in Fig. 3 ist die aus dem vorhandenen Benutzerprofil abgeleitete Verteilung der Wahrscheinlichkeiten pB für die Einträge der Grammatik des Spracherkennungssystems dargestellt. Das Benutzerprofil könnte hier z. B. die absoluten Häufigkeiten angeben, mit welchen der Benutzer während einer Spracheingabe bestimmte Vokabeln, hier z. B. Aktientitel, verwendet. Eine aus diesem Benutzerprofil abgeleitete Wahrscheinlichkeitsverteilung pB, wie Spalte 302 dargestellt, könnte dann z. B. die aus den absoluten Häufigkeiten abgeleiteten relativen Häufigkeiten repräsentieren. Demnach würden in diesem Beispiel die Aktientitel "Microsoft" und "Cisco" überhaupt nicht, der Aktientitel "Callaway Golf" mit 30% und der Titel "Macrosoft" mit einer Wahrscheinlichkeit von 70% bei einer Spracheingabe des Benutzers verwendet.
Erfindungsgemäß erfolgt eine Adaption der a-priori Wahrscheinlichkeitsverteilung pn-1 gemäß Spalte 301 dadurch, dass sie mit der aus dem Benutzerprofil abgeleiteten Wahrscheinlichkeitsverteilung pB in Spalte 302 mathematisch kombiniert wird. Gemäß Fig. 3 erfolgt die Kombination gemäß folgender Rekursionsformel:
pn-1.a + pB.b = pn (1)
wobei:
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
Bei dem Beispiel gemäß Fig. 3 geht die a-priori Wahrscheinlichkeitsverteilung pn-1 mit einer Gewichtung von a = 40% und die Wahrscheinlichkeitsverteilung pB mit einer Gewichtung von b = 60% in die Berechnung der Wahrscheinlichkeitsverteilung pn für die Einträge der Grammatik ein.
Grundsätzlich ist die Dimensionierung der Gewichte a und b variabel; sie kann z. B. davon abhängig gemacht werden, wie viele benutzerspezifische Informationen überhaupt vorliegen. Insbesondere die Dimensionierung von b kann z. B. nach Maßgabe durch die Größe derjenigen Zeitspanne erfolgen, welche zwischen der Erstellung des Benutzerprofils, welches als Grundlage für die Wahrscheinlichkeitsverteilung pB dient, und der Berechnung der Wahrscheinlichkeitsverteilung pn liegt. So fließen Spracheingaben des Benutzers, welche am vergangenen Tag erfolgt sind, vorzugsweise stärker in die Gewichtung ein, als Spracheingaben, welche einige Monate zurückliegen.
Die erfindungsgemäße Adaption der beiden Wahrscheinlichkeitsverteilungen pn-1 und pB führt mit dem Ergebnis der Wahrscheinlichkeitsverteilung pn zu einer Gewichtung, mit welcher das Spracherkennungssystem die einzelnen Einträge der Grammatik zum Auswerten der von einem Benutzer in das Spracherkennungssystem 520 eingegebenen Sprache heranzieht.
Einträge der Grammatik, welche stärker gewichtet sind, werden im Resultat von dem Spracherkennungssystem mit größerer Wahrscheinlichkeit richtig erkannt, als solche, die geringer gewichtet worden sind. So wird gemäß der adaptierten Wahrscheinlichkeitsverteilung pn, wie sie in Spalte 303 in Fig. 3 dargestellt ist, der Eintrag "Macrosoft" mit der größten und der Eintrag "Cisco" mit der geringsten Wahrscheinlichkeit richtig erkannt. Die Einträge "Microsoft" und "Callaway Golf" werden dagegen mit einer etwa gleich großen Wahrscheinlichkeit von 28% bzw. 22% richtig erkannt. Im Ergebnis führt die erfindungsgemäße Adaption schließlich dazu, dass die Erkennungsgenauigkeit für den einzelnen identifizierten Benutzer des Spracherkennungssystems wesentlich verbessert wird.
Fig. 4 zeigt ein zweites Ausführungsbeispiel für das erfindungsgemäß beanspruchte Verfahren. Dabei entsprechen die Verfahrensschritte 401 bis 411 jeweils den in Fig. 1 beschriebenen Verfahrensschritten 101 bis 111, mit Ausnahme der Schritte 105 und 405. In Schritt 405 wird im Unterschied zum Schritt 105 nach Fig. 1 für die Adaption der a-priori Wahrscheinlichkeitsverteilung der Einträge neben dem Benutzerprofil noch eine benutzerspezifische Negativliste von Grammatikeinträgen verwendet. Diese Negativliste wird aufgrund von Erkennungsresultaten bei vorangegangenen Spracheingaben des identifizierten Benutzers erstellt, welche falsch waren. Ob ein Erkennungsresultat falsch war, kann z. B. dadurch festgestellt werden, dass der Benutzer eine Spracheingabe wiederholt, nachdem er im Falle eines von dem Spracherkennungssystems falsch erkannten Eintrags, diesen als falsch zurückweist oder korrigiert. Die Negativliste, die auch als Skipliste bezeichnet wird, verhindert, dass eine Spracheingabe mehrfach zum selben falschen Erkennungsresultat führt.
Ähnlich wie das Benutzerprofil wird auch die Negativliste erfindungsgemäß sukzessive verbessert. Dafür wird zunächst in Schritt 407a in Fig. 4 festgestellt, ob eine aktuelle Spracheingabe richtig analysiert, d. h. eine richtige Wortfolge für die Spracheingabe erkannt worden ist. Wenn dies der Fall ist, braucht die Negativliste nicht verändert zu werden und das Verfahren wird mit Schritt 408 fortgesetzt. Wenn das Spracherkennungssystem einer Spracheingabe jedoch eine falsche Wortfolge zuordnet, so wird die Negativliste gemäß Schritt 412 modifiziert. Während einer aktuellen Verbindung des identifizierten Benutzers mit dem Spracherkennungssystem 520 wird diese Liste immer wieder für eine erneute Adaption der Wahrscheinlichkeitsverteilung in Schritt 405 verwendet. Nach Abbruch der aktuellen Verbindung wird die Negativliste gespeichert, um bei einer späteren erneuten Verbindung des identifizierten Benutzers mit dem Spracherkennungssystem wieder zwecks Adaption der Grammatik abgerufen zu werden.

Claims (13)

1. Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme, worin eine Wahrscheinlichkeitsverteilung pn für Grammatikeinträge in ein Spracherkennungssystem implementiert wird, wobei die Implementierung erfolgt, während ein Benutzer mit dem Spracherkennungssystem verbunden ist, gekennzeichnet durch mindestens folgende Schritte:
  • - Identifizieren des Benutzers (102);
  • - Ermitteln der Wahrscheinlichkeitsverteilung pn durch Adaptieren einer a-priori Wahrscheinlichkeitsverteilung pn-1 anhand eines für den identifizierten Benutzer erstellten Benutzerprofils, welches Informationen zur Gewichtung von Grammatikeinträgen enthält, die für den identifizierten Benutzer spezifisch sind (105); und
  • - Implementieren der Wahrscheinlichkeitsverteilung pn in das Spracherkennungssystem anstelle der a-priori Wahrscheinlichkeitsverteilung pn-1 bevor oder während der identifizierte Benutzer eine Spracheingabe durchführt (106).
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Benutzerprofil auf Grundlage von dem identifizierten Benutzer zugeordneten Informationen erstellt wird, welche unabhängig von einer von dem Benutzer durchgeführten Spracheingabe vorliegen.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass wenn die Implementierung der Wahrscheinlichkeitsverteilung pn in das Spracherkennungssystem vor der aktuellen Spracheingabe durch den identifizierten Benutzer erfolgt, das Benutzerprofil durch Auswerten von mindestens einer zeitlich vor der aktuellen Verbindung erfolgten Spracheingabe des identifizierten Benutzers in das Spracherkennungssystem erstellt wurde.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass, wenn die Implementierung der Wahrscheinlichkeitsverteilung pn in das Spracherkennungssystem während der aktuellen Spracheingabe durch den identifizierten Benutzer erfolgt, das Benutzerprofil durch Auswerten von mindestens einer zeitlich vor der aktuellen Verbindung erfolgten Spracheingabe und/oder durch Auswerten der aktuellen Spracheingabe des identifizierten Benutzers erstellt wurde.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass das Benutzerprofil durch Modifikation eines bisher gültigen Benutzerprofil erstellt wird.
6. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Ermittlung der Wahrscheinlichkeitsverteilung der Einträge der Grammatik durch mathematische Verknüpfung von zumindest einer a-priori Wahrscheinlichkeitsverteilung pn-1 mit einer Wahrscheinlichkeitsverteilung pB erfolgt, welche das erstellte Benutzerprofil repräsentiert.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Adaption der Wahrscheinlichkeitsverteilung rekursiv gemäß folgender Formel erfolgt:
pn-1.a + pB.b = pn (1)
wobei:
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Dimensionierung der Gewichte a, b nach Maßgabe durch die Größe derjenigen Zeitspanne erfolgt, welche zwischen der Erstellung des Benutzerprofils und der Adaption der a-priori Wahrscheinlichkeitsverteilung liegt.
9. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Ermittlung der Wahrscheinlichkeitsverteilung pn unter zusätzlicher Berücksichtigung einer Negativliste für die Einträge der Grammatik erfolgt.
10. Computerprogramm mit einem Programmcode, welcher ausgebildet ist zur Durchführung des Verfahrens gemäß einem der Ansprüche 1 bis 9, wenn es auf einem Prozessor eines Spracherkennungssystems abläuft.
11. Computerprogramm nach Anspruch 10, dadurch gekennzeichnet dass es auf einem Speichermedium gespeichert ist.
12. Spracherkennungssystem, welches ausgebildet ist zum Ablaufen des Computerprogramms nach einem der Ansprüche 10 oder 11.
13. Verwendung der Verfahrens gemäß einem der Ansprüche 1 bis 9 oder des Computerprogramms gemäß einem der Ansprüche 10 oder 11 im Bankenwesen, wobei der Benutzer ein Bankkunde ist und durch Spracheingabe in ein Spracherkennungssystem Bankgeschäfte, insbesondere Wertpapierorder, abwickelt; und wobei das Verfahren und/oder das Computerprogramm ausgebildet sind, das Benutzerprofil auf Basis der Namen von am häufigsten durch den Benutzer während eines Betrachtungszeitraumes durch Spracheingabe georderten Wertpapieren und/oder auf Basis der Namen der Wertpapiere in einem Depot des Benutzers zu erstellen.
DE2001131157 2001-06-29 2001-06-29 Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme Withdrawn - After Issue DE10131157C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2001131157 DE10131157C1 (de) 2001-06-29 2001-06-29 Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2001131157 DE10131157C1 (de) 2001-06-29 2001-06-29 Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme

Publications (1)

Publication Number Publication Date
DE10131157C1 true DE10131157C1 (de) 2002-07-04

Family

ID=7689748

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001131157 Withdrawn - After Issue DE10131157C1 (de) 2001-06-29 2001-06-29 Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme

Country Status (1)

Country Link
DE (1) DE10131157C1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008007698A1 (de) * 2008-02-06 2009-08-13 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
DE102008021954A1 (de) * 2008-02-29 2009-09-03 Navigon Ag Verfahren zum Betrieb eines elektronischen Assistenzsystems
CN117556832A (zh) * 2023-11-23 2024-02-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于语义约束的情感支持对话双向生方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0834862A2 (de) * 1996-10-01 1998-04-08 Lucent Technologies Inc. Verfahren zur Erkennung und Verifikation von Schlüsselsätzen für flexibles Sprachverständnis
WO2000019410A1 (en) * 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
WO2000068933A1 (en) * 1999-05-10 2000-11-16 Nuance Communications, Inc. Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
JP2001157137A (ja) * 1999-08-26 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0834862A2 (de) * 1996-10-01 1998-04-08 Lucent Technologies Inc. Verfahren zur Erkennung und Verifikation von Schlüsselsätzen für flexibles Sprachverständnis
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
WO2000019410A1 (en) * 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
WO2000068933A1 (en) * 1999-05-10 2000-11-16 Nuance Communications, Inc. Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP2001157137A (ja) * 1999-08-26 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008007698A1 (de) * 2008-02-06 2009-08-13 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
DE102008021954A1 (de) * 2008-02-29 2009-09-03 Navigon Ag Verfahren zum Betrieb eines elektronischen Assistenzsystems
CN117556832A (zh) * 2023-11-23 2024-02-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于语义约束的情感支持对话双向生方法
CN117556832B (zh) * 2023-11-23 2024-04-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于语义约束的情感支持对话双向生成方法

Similar Documents

Publication Publication Date Title
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69421324T2 (de) Verfahren und Vorrichtung zur Sprachkommunikation
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE69623364T2 (de) Einrichtung zur Erkennung kontinuierlich gesprochener Sprache
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
WO2004072954A1 (de) Dreistufige einzelworterkennung
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE69517571T2 (de) Verfahren zur Erkennung von Mustern

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: EXCELSIS INFORMATIONSSYSTEME GMBH, 70178 STUTT, DE

R120 Application withdrawn or ip right abandoned