DE10131157C1 - Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme - Google Patents
Dynamisches Grammatikgewichtungsverfahren für SpracherkennungssystemeInfo
- Publication number
- DE10131157C1 DE10131157C1 DE2001131157 DE10131157A DE10131157C1 DE 10131157 C1 DE10131157 C1 DE 10131157C1 DE 2001131157 DE2001131157 DE 2001131157 DE 10131157 A DE10131157 A DE 10131157A DE 10131157 C1 DE10131157 C1 DE 10131157C1
- Authority
- DE
- Germany
- Prior art keywords
- probability distribution
- user
- speech recognition
- recognition system
- user profile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn - After Issue
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 230000006978 adaptation Effects 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 240000003177 tenweeks stock Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein dynamisches Grammatikgewichtsverfahren und Computerprogramm für Spracherkennungssysteme, worin eine Wahrscheinlichkeitsverteilung p¶n¶ für Grammatikeinträge in ein Spracherkennungssystem implementiert wird, wobei die Implementierung erfolgt, während ein Benutzer mit dem Spracherkennungssystem verbunden ist. Es ist die Aufgabe der Erfindung, ein solches bekanntes Verfahren und Computersystem derart weiterzubilden, dass die Genauigkeit der Spracherkennung für eine individuellen Benutzer verbessert wird. Diese Aufgabe wird erfindungsgemäß dadurch gelöst, dass eine bisher bei der Spracherkennung von dem Spracherkennungssystem 520 verwendete a-priori Wahrscheinlichkeitsverteilung p¶n-1¶ für Grammatikeinträge anhand eines für den identifizierten Benutzer erstellten Benutzerprofils adaptiert und die daraus resultierende Wahrscheinlichietsverteilung p¶n-1¶ in das Spracherkennungssystem 520 implementiert wird.
Description
Die Erfindung betrifft ein dynamisches Grammatik
gewichtungsverfahren für Spracherkennungssysteme, worin
eine Wahrscheinlichkeitsverteilung pn für
Grammatikeinträge in ein Spracherkennungssystem
implementiert wird, wobei die Implementierung erfolgt,
während ein Benutzer mit dem Spracherkennungssystem
verbunden ist.
Die Erfindung betrifft weiterhin ein Computerprogramm mit
einem Programmcode zur Durchführung dieses Verfahrens und
ein entsprechendes Spracherkennungssystem. Darüber hinaus
betrifft die Erfindung eine Verwendung des Verfahrens oder
des Computerprogramms im Bankenbereich zur Abwicklung von
Bankgeschäften.
Aus dem Stand der Technik sind Spracherkennungssysteme,
wie in Fig. 5 dargestellt, grundsätzlich bekannt. Da in
Fig. 5 beschriebene, aus dem Stand der Technik bekannte
Spracherkennungssystem 520 dient zur Spracherkennung,
d. h. zur Umsetzung von eingegebener Sprache mit möglichst
hoher Wahrscheinlichkeit in eine entsprechende richtige
Wortfolge. Die Sprache kann entweder direkt in das
Spracherkennungssystem eingegeben oder diesem über ein
Kommunikationssystem 510, z. B. in Form eines
Telefonsystems, eines Mobilfunknetzes oder eines Local
Area Networks etc. zugeführt werden.
Zur Durchführung der Spracherkennung sind in dem bekannten
Spracherkennungssystem 520 eine Segmentierungseinheit 522
sowie ein akustisches Modell 524 und eine sogenannte
Grammatik 526 üblicherweise als Software implementiert.
Die Segmentierungseinheit 522 dient zur Zerlegung der
eingegebenen Sprache in Sprachsegmente. Jedes dieser
Sprachsegmente wird mit Hilfe des akustischen Modells 524
in eine Vielzahl von Phonemen abgebildet, wobei die
einzelnen Phoneme jeweils mit einer unterschiedlichen
Wahrscheinlichkeit das Sprachsegment repräsentieren.
Danach erfolgt durch die Grammatik 526 eine Auswertung der
Vielzahl der Phoneme, um letzten Endes eine Wortfolge zu
bestimmen und über das Spracherkennungssystem auszugeben,
welche dem Sprachsegment mit der größten
Wahrscheinlichkeit entspricht.
Aus der WO 00/68933 ist es bekannt, Sprachmuster einer
Spracheingabe eines Benutzers dazu zu verwenden, um das
akustische Modell eines Spracherkennungssystems an den
Benutzer anzupassen. Es wird vorgeschlagen, diese
Anpassung rekursiv bei einer Vielzahl von Spracheingaben
des Benutzers vorzunehmen, um das akustische Modell
sukzessive zu optimieren. Auf diese Weise wird die
Genauigkeit, mit welcher das Spracherkennungssystem die
Spracheingabe des Benutzers erkennt, ebenfalls sukzessive
verbessert.
Die US 6 154 722 lehrt demgegenüber eine Adaption des
Sprachmodells bzw. der Grammatik des
Spracherkennungssystems zur Steigerung der
Erkennungsgenauigkeit eines Spracherkennungssystems. Zur
Adaption des Sprachmodells wird vorgeschlagen, eine n-
Gram-Wahrscheinlichkeit nach Maßgabe durch Informationen,
welche aus einer Wahrscheinlichkeit für eine kontextfreie
Grammatik gewonnen werden, zu modifizieren.
Ausgehend von der US 6 154 722 als nächstliegendem Stand
der Technik lag der Erfindung die Aufgabe zugrunde, ein
bekanntes Grammatikgewichtungsverfahren, ein
entsprechendes Computerprogramm und ein
Spracherkennungssystem derart weiterzubilden, dass die
Genauigkeit, mit welcher das Spracherkennungssystem von
einem individuellen Benutzer eingegebene Sprache erkennt,
weiter verbessert wird.
Diese Aufgabe wird durch den Gegenstand des
Verfahrensanspruchs 1 gelöst. Genauer gesagt wird die
Aufgabe dadurch gelöst, dass bei dem Verfahren folgende
Schritte ausgeführt werden: Identifizieren des Benutzers;
Ermitteln der Wahrscheinlichkeitsverteilung pn durch
Adaptieren einer a-priori Wahrscheinlichkeitsverteilung
Pn-1 anhand eines für den identifizierten Benutzer
erstellten Benutzerprofils, welches Informationen zur
Gewichtung von Grammatikeinträgen enthält, die für den
identifizierten Benutzer spezifisch sind und
Implementieren der Wahrscheinlichkeitsverteilung pn in das
Spracherkennungssystem anstelle der a-priori
Wahrscheinlichkeitsverteilung pn-1 bevor oder während der
identifizierte Benutzer eine Spracheingabe durchführt.
Die a-priori Wahrscheinlichkeitsverteilung pn-1 sowie die
aus deren Adaption resultierende
Wahrscheinlichkeitsverteilung pn repräsentieren jeweils
eine Gewichtung, mit welcher das Spracherkennungssystem
die einzelnen Einträge der Grammatik zum Auswerten der von
dem Benutzer in das Spracherkennungssystem eingegebenen
Sprache heranzieht.
Ein Benutzerprofil ist eine für den identifizierten
Benutzer spezifische Gewichtung der Einträge der
Grammatik. Es repräsentiert z. B. die absoluten
Häufigkeiten, mit welchen ein Benutzer während einer
Spracheingabe bestimmte Vokabeln verwendet. Eine aus
diesem Benutzerprofil abgeleitete
Wahrscheinlichkeitsverteilung pB könnte in diesem Fall z. B.
die den absoluten Häufigkeiten entsprechenden relativen
Häufigkeiten repräsentieren.
Die Wahrscheinlichkeitsverteilung pn ist durch die
beschriebene Adaption auf Basis benutzerspezifischer
Informationen erstellt worden und insofern an den
identifizierten aktuellen Benutzer angepasst. Ein
Spracherkennungssystem in welchem die
Wahrscheinlichkeitsverteilung für den identifizierten
Benutzer individuell implementiert wurde, zeichnet sich
deshalb vorteilhafterweise gegenüber bekannten
Spracherkennungssystemen durch eine wesentlich verbesserte
Erkennungsgenauigkeit bei Spracheingaben des
identifizierten Benutzers aus.
Die oben beschriebene Aufgabe wird weiterhin durch ein
Computerprogramm gemäß Patentanspruch 10 sowie durch ein
Spracherkennungssystem gemäß Patentanspruch 12 gelöst. Die
Vorteile dieses Computerprogramms und des
Spracherkennungssystems entsprechen den oben für das
Verfahren genannten Vorteilen.
Das erfindungsgemäße Verfahren und Computerprogramm finden
vorzugsweise Anwendung im Bankenbereich, insbesondere zur
Wertpapierorder durch online Spracheingabe; es ist
allerdings keineswegs auf diese Anwendung beschränkt.
Vielmehr eignet es sich generell für jede Anwendung einer
Spracherkennung.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind
Gegenstand der Unteransprüche.
Der Beschreibung sind insgesamt fünf Figuren beigefügt,
wobei:
Fig. 1 ein erstes Ausführungsbeispiel für das
erfindungsgemäße Verfahren;
Fig. 2 ein Beispiel für eine a-priori
Wahrscheinlichkeitsverteilung von
Einträgen einer Grammatik;
Fig. 3 ein Beispiel für eine Adaption einer
Wahrscheinlichkeitsverteilung für
Einträge einer Grammatik;
Fig. 4 ein zweites Ausführungsbeispiel für das
erfindungsgemäße Verfahren; und
Fig. 5 den Aufbau eines aus dem Stand der
Technik bekannten Spracherkennungssystems
zeigt.
Es folgt eine detaillierte Beschreibung bevorzugter
Ausführungsbeispiele der Erfindung unter Bezugnahme auf
die angeführten Fig. 1 bis 5. Der aus dem Stand der
Technik bekannte und oben unter Bezugnahme auf Fig. 5
beschriebene Aufbau eines Spracherkennungssystems und
dessen grundsätzliche Funktionsweise gelten auch für die
Erfindung. Zur Veranschaulichung wird bei der Beschreibung
der Ausführungsbeispiele auf eine Anwendung der Erfindung
im Bankenbereich Bezug genommen.
Fig. 1 zeigt ein erstes Ausführungsbeispiel für den Ablauf
des erfindungsgemäßen Verfahrens. In Verfahrensschritt 101
erfolgt zunächst der Aufbau einer Verbindung eines
Benutzers mit einem Spracherkennungssystem 520, z. B. über
ein Kommunikationssystem 510, wie dies in Fig. 5
dargestellt ist.
In Verfahrensschritt 102 wird der Benutzer durch das
Spracherkennungssystem 520 identifiziert. Das kann z. B.
dadurch erfolgen, dass sich der Benutzer selber durch
Angabe seines Namens, seiner Personal Identification
Number PIN oder seiner Kontonummer identifiziert.
Alternativ dazu kann der Benutzer auch automatisch
identifiziert werden, z. B. durch automatische Erkennung
seiner Rufnummer, wenn er sich über Telefon mit dem
Spracherkennungssystem in Verbindung setzt, oder durch
Sprechererkennung.
Nach der Identifikation des Benutzers wird in
Verfahrensschritt 103 festgestellt, ob dieser bereits zu
einem früheren Zeitpunkt mit dem Spracherkennungssystem
520 in einem bestimmten Kontext, z. B. in Sachen
Wertpapierorder, interagiert hat oder nicht. Die
Feststellung erfolgt in der Weise, dass die in
Verfahrensschritt 102 ermittelte Identität des Benutzers
mit gespeicherten Einträgen über ehemalige Benutzer des
Spracherkennungssystems 520 verglichen wird. Die
Speicherung der Einträge muss nicht in dem
Spracherkennungssystem 520 selber, sondern kann auch
extern erfolgen, wobei dann ein Zugriff auf diese Daten
von dem Spracherkennungssystem aus, z. B. über eine
Netzwerkanbindung, vorgesehen werden sollte.
Das Spracherkennungssystem 520 erkennt grundsätzlich alle
Spracheingaben aufgrund von Grammatiken, welche alle
möglichen Einträge spezifizieren, die das
Spracherkennungssystem 520 in einem bestimmten Kontext,
hier beispielhaft die Wertpapierorder, erkennen soll. Den
Einträgen der Grammatiken sind individuell
Wahrscheinlichkeiten zugeordnet, welche eine Gewichtung
repräsentieren, mit welcher das Spracherkennungssystem 520
die einzelnen Einträge der Grammatik zum Auswerten der von
einem Benutzer in das Spracherkennungssystem eingegebenen
Sprache heranzieht.
Wenn in Schritt 103 festgestellt wird, dass es sich um
einen erstmaligen Benutzer des Spracherkennungssystems 520
handelt, wird das Verfahren mit Schritt 104 fortgesetzt.
In das Spracherkennungssystem 520 wird dann beispielsweise
eine objektive Grammatik zur Spracherkennung
implementiert. Eine solche objektive Grammatik zeichnet
sich dadurch aus, dass die Wahrscheinlichkeitsverteilung
ihrer Einträge entweder gleichverteilt oder nach
objektiven, d. h. benutzerunabhängigen Kriterien gewichtet
ist. Ist der Benutzer beispielsweise ein Bankkunde und
möchte er erstmalig eine Wertpapierorder per Spracheingabe
aufgeben, so könnten die Einträge der Grammatik, wie in
Fig. 2 gezeigt, beispielsweise Aktientitel sein und die
ihnen jeweils zugeordneten Wahrscheinlichkeiten deren
relative Handelsvolumen an der Börse während eines
bestimmten Zeitraumes in der Vergangenheit repräsentieren.
Bei dem in Fig. 1 dargestellten Verfahrensschritt 104 wird
davon ausgegangen, dass für den erstmaligen Benutzer noch
kein Benutzerprofil vorliegt, so dass in diesem Fall keine
erfindungsgemäße benutzerspezifische Adaption der
objektiven Wahrscheinlichkeitsverteilung stattfinden kann.
Ein Benutzerprofil ist eine für den identifizierten
Benutzer spezifische Gewichtung der Einträge der
Grammatik.
Alternativ zu dem dargestellten Verfahrensschritt 104 ist
es jedoch unter einer bestimmten Voraussetzung trotzdem
möglich, auch für den erstmaligen Benutzer eine
erfindungsgemäße Adaption der objektiven
Wahrscheinlichkeitsverteilung vorzunehmen. Voraussetzung
dafür ist, dass für den identifizierten Benutzer bereits
vor dessen erster Spracheingabe ein Benutzerprofil
vorliegt. Dies ist kann z. B. ein Benutzerprofil sein,
welches nicht auf einer vom Benutzer durchgeführten
kontextbezogenen Spracheingabe, sondern auf Grundlage
anderer dem Benutzer zugeordneten Informationen erstellt
wurde. Die erfindungsgemäße Adaption kann dann in der
Weise erfolgen, dass die oben beschriebene objektive
Wahrscheinlichkeitsverteilung der Einträge als a-priori
Wahrscheinlichkeitsverteilung mathematisch mit einer aus
dem Benutzerprofil abgeleiteten
Wahrscheinlichkeitsverteilung pB zu einer adaptierten
Wahrscheinlichkeitsverteilung pn verknüpft wird. Die
Wahrscheinlichkeitsverteilung pn ist gegenüber der a-
priori Wahrscheinlichkeitsverteilung besser auf den
Benutzer abgestimmt und erhöht deshalb die
Erkennungsgenauigkeit bei zukünftigen Spracheingaben des
identifizierten Benutzers. Ein Beispiel für die
Durchführung einer konkreten erfindungsgemäßen Adaption
wird weiter unten unter Bezugnahme auf Fig. 3 gegeben.
Für den Fall, dass in Verfahrensschritt 103 festgestellt
wurde, dass der Benutzer zu einem früheren Zeitpunkt
bereits zumindest einmal mit dem Spracherkennungssystem
interagiert hatte, dann wird das Verfahren mit Schritt 105
fortgesetzt. Dieser Schritt setzt voraus, dass sowohl eine
a-priori Wahrscheinlichkeit pn-1 wie auch ein
Benutzerprofil für den in Schritt 102 identifizierten
Benutzer vorhanden ist.
Fig. 2 zeigt beispielhaft eine a-priori
Wahrscheinlichkeitsverteilung. Demnach wird der Eintrag
"Microsoft" mit einer Gewichtung von 80%, der Eintrag
"Cisco" mit einer Gewichtung von 20%, der Eintrag
"Callaway Golf" mit einer Gewichtung von 9% und der
Eintrag "Macrosoft" mit einer Gewichtung von 1% bei der
Auswertung einer Spracheingabe des Benutzers von dem
Spracherkennungssystem herangezogen. Die a-priori
Wahrscheinlichkeit pn-1 kann dabei entweder objektiv, d. h.
benutzerunabhängig oder benutzerabhängig, z. B. auf Basis
vorangegangener Auswertungen von Spracheingaben des
Benutzers, erstellt worden sein.
Das Benutzerprofil kann entweder unabhängig von einer
vorherigen Spracheingabe des identifizierten Benutzers
oder aber abhängig von einer solchen vorherigen
Spracheingabe angefertigt worden sein. Es kann entweder
aus Massenspeicher innerhalb des Spracherkennungssystem
oder von einem externen Speicher, welcher z. B. über eine
Netzwerkanbindung angesprochen werden kann, abgerufen
werden.
In jedem Fall erfolgt in Schritt 105 in Fig. 1 eine
erfindungsgemäße Adaption einer a-priori
Wahrscheinlichkeitsverteilung pn-1, d. h. einer bereits vor
der Adaption vorhandenen Wahrscheinlichkeitsverteilung pn-1
mit einer aus dem Benutzerprofil des identifizierten
Benutzers gewonnenen Wahrscheinlichkeitsverteilung pB.
Ergebnis der Adaption ist eine auf den identifizierten
Benutzer abgestimmte Wahrscheinlichkeitsverteilung pn der
Einträge der Grammatik. Diese wird gemäß Verfahrensschritt
106 anstelle der bisherigen a-priori
Wahrscheinlichkeitsverteilung pn-1 in das
Spracherkennungssystem 520 implementiert.
Ein Beispiel für eine konkrete Durchführung der
erfindungsgemäßen Adaption und eine daraus resultierende
Wahrscheinlichkeitsverteilung pn folgt weiter unten unter
Bezugnahme auf Fig. 3.
Gemäß Verfahrensschritt 107 wird die
Wahrscheinlichkeitsverteilung pn für die Einträge der
Grammatik nach ihrer Implementierung von dem
Spracherkennungssystem zum Erkennen zukünftiger
Spracheingaben des identifizierten Benutzers verwendet.
Wie bereits oben unter Bezugnahme auf Fig. 5 beschrieben
wurde, wird dabei die akustische Spracheingabe des
identifizierten Benutzers in eine entsprechende Wortfolge
abgebildet.
Die akustische Spracheingabe des identifizierten Benutzers
wird in Verfahrensschritt 108 zur Erstellung eines
gegenüber dem in Verfahrensschritt 105 verbesserten
Benutzerprofils verwendet. Genauer gesagt wird
insbesondere das von dem Benutzer bei der Spracheingabe
verwendete Vokabular oder dessen Aussprache für die
Erstellung des verbesserten Benutzerprofils ausgewertet.
Diese Informationen aus der aktuellen Spracheingabe
bilden, gegebenenfalls zusammen mit ähnlichen
Informationen aus vorangegangenen Spracheingaben, eine
sprachliche Benutzungshistorie des identifizierten
Benutzers. Die Benutzungshistorie ist ein Indiz dafür,
welche Einträge der Grammatik in Zukunft von dem
Spracherkennungssystem mit erhöhter Wahrscheinlichkeit zur
Auswertung von Spracheingaben des Benutzers heranzuziehen
sind. Neben der sprachlichen Benutzungshistorie können
aber auch andere benutzerspezifische Informationen für die
Erstellung des verbesserten Benutzerprofils herangezogen
werden; insbesondere kann das verbesserte Benutzerprofil
durch Modifikation eines bisher verwendeten
Benutzerprofils erstellt werden.
Das verbesserte Benutzerprofil wird gemäß
Verfahrensschritt 109 entweder in einem Speicher des
Spracherkennungssystems oder in einem externen Speicher,
abgespeichert.
Solange wie in Schritt 110 festgestellt wird, dass eine
aktuelle Verbindung des Benutzers mit dem
Spracherkennungssystem 520 noch besteht, werden die
beschriebenen Verfahrensschritte 102 bis 110 immer wieder
neu durchlaufen. Insofern findet dann während der
aktuellen Verbindung eine permanente Optimierung der
implementierten Grammatik, insbesondere der
Wahrscheinlichkeitsverteilung von deren Einträgen statt.
Damit einhergehend erfolgt eine stetige Verbesserung der
Erkennungsgenauigkeit des Spracherkennungssystems für die
Spracheingaben des identifizierten Benutzers.
Wird jedoch in Schritt 110 festgestellt, dass die aktuelle
Verbindung des identifizierten Benutzers mit dem
Spracherkennungssystem 520 abgebrochen wurde, dann ist das
in Fig. 1 dargestellt Verfahren grundsätzlich
abgeschlossen (Schritt 111). Das im letzten Durchlauf
gemäß Fig. 1 verbesserte Benutzerprofil für den
identifizierten Benutzer bleibt jedoch gespeichert bis
dieser sich zu einem späteren Zeitpunkt erneut mit dem
Spracherkennungssystem 520 in Verbindung setzt. Dann würde
genau dieses Benutzerprofil aus dem Speicher abgerufen und
gemäß Schritt 105 zur Adaption einer bisher verwendeten a-
priori Wahrscheinlichkeitsverteilung verwendet.
Fig. 3 zeigt ein Beispiel für die konkrete Durchführung
der erfindungsgemäßen Adaption, d. h. wie mit Hilfe von
Informationen über den Benutzer eine Neugewichtung der
Einträge in der Grammatik vorgenommen wird.
In Spalte 301 ist als Ausgangsbasis für die Neugewichtung
eine vorgegebene objektive a-priori
Wahrscheinlichkeitsverteilung pn-1 für bestimmte
Aktientitel beispielhaft dargestellt. Genauer gesagt, ist
in Spalte 301 angezeigt, dass laut der a-priori
Wahrscheinlichkeitsverteilung das Spracherkennungssystem
520 den Aktientitel "Microsoft" mit einer Gewichtung von
70% zum Auswerten der von dem Benutzer in das
Spracherkennungssystem eingegebenen Sprache heranzieht.
Analog verwendet es den Aktientitel "Cisco" mit 20%, den
Aktientitel "Callaway Golf" mit 9% und den Aktientitel
"Macrosoft" mit einer Gewichtung von 1%.
In Spalte 302 in Fig. 3 ist die aus dem vorhandenen
Benutzerprofil abgeleitete Verteilung der
Wahrscheinlichkeiten pB für die Einträge der Grammatik des
Spracherkennungssystems dargestellt. Das Benutzerprofil
könnte hier z. B. die absoluten Häufigkeiten angeben, mit
welchen der Benutzer während einer Spracheingabe bestimmte
Vokabeln, hier z. B. Aktientitel, verwendet. Eine aus
diesem Benutzerprofil abgeleitete
Wahrscheinlichkeitsverteilung pB, wie Spalte 302
dargestellt, könnte dann z. B. die aus den absoluten
Häufigkeiten abgeleiteten relativen Häufigkeiten
repräsentieren. Demnach würden in diesem Beispiel die
Aktientitel "Microsoft" und "Cisco" überhaupt nicht, der
Aktientitel "Callaway Golf" mit 30% und der Titel
"Macrosoft" mit einer Wahrscheinlichkeit von 70% bei einer
Spracheingabe des Benutzers verwendet.
Erfindungsgemäß erfolgt eine Adaption der a-priori
Wahrscheinlichkeitsverteilung pn-1 gemäß Spalte 301
dadurch, dass sie mit der aus dem Benutzerprofil
abgeleiteten Wahrscheinlichkeitsverteilung pB in Spalte
302 mathematisch kombiniert wird. Gemäß Fig. 3 erfolgt die
Kombination gemäß folgender Rekursionsformel:
pn-1.a + pB.b = pn (1)
wobei:
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
Bei dem Beispiel gemäß Fig. 3 geht die a-priori
Wahrscheinlichkeitsverteilung pn-1 mit einer Gewichtung von
a = 40% und die Wahrscheinlichkeitsverteilung pB mit einer
Gewichtung von b = 60% in die Berechnung der
Wahrscheinlichkeitsverteilung pn für die Einträge der
Grammatik ein.
Grundsätzlich ist die Dimensionierung der Gewichte a und b
variabel; sie kann z. B. davon abhängig gemacht werden,
wie viele benutzerspezifische Informationen überhaupt
vorliegen. Insbesondere die Dimensionierung von b kann
z. B. nach Maßgabe durch die Größe derjenigen Zeitspanne
erfolgen, welche zwischen der Erstellung des
Benutzerprofils, welches als Grundlage für die
Wahrscheinlichkeitsverteilung pB dient, und der Berechnung
der Wahrscheinlichkeitsverteilung pn liegt. So fließen
Spracheingaben des Benutzers, welche am vergangenen Tag
erfolgt sind, vorzugsweise stärker in die Gewichtung ein,
als Spracheingaben, welche einige Monate zurückliegen.
Die erfindungsgemäße Adaption der beiden
Wahrscheinlichkeitsverteilungen pn-1 und pB führt mit dem
Ergebnis der Wahrscheinlichkeitsverteilung pn zu einer
Gewichtung, mit welcher das Spracherkennungssystem die
einzelnen Einträge der Grammatik zum Auswerten der von
einem Benutzer in das Spracherkennungssystem 520
eingegebenen Sprache heranzieht.
Einträge der Grammatik, welche stärker gewichtet sind,
werden im Resultat von dem Spracherkennungssystem mit
größerer Wahrscheinlichkeit richtig erkannt, als solche,
die geringer gewichtet worden sind. So wird gemäß der
adaptierten Wahrscheinlichkeitsverteilung pn, wie sie in
Spalte 303 in Fig. 3 dargestellt ist, der Eintrag
"Macrosoft" mit der größten und der Eintrag "Cisco" mit
der geringsten Wahrscheinlichkeit richtig erkannt. Die
Einträge "Microsoft" und "Callaway Golf" werden dagegen
mit einer etwa gleich großen Wahrscheinlichkeit von 28%
bzw. 22% richtig erkannt. Im Ergebnis führt die
erfindungsgemäße Adaption schließlich dazu, dass die
Erkennungsgenauigkeit für den einzelnen identifizierten
Benutzer des Spracherkennungssystems wesentlich verbessert
wird.
Fig. 4 zeigt ein zweites Ausführungsbeispiel für das
erfindungsgemäß beanspruchte Verfahren. Dabei entsprechen
die Verfahrensschritte 401 bis 411 jeweils den in Fig. 1
beschriebenen Verfahrensschritten 101 bis 111, mit
Ausnahme der Schritte 105 und 405. In Schritt 405 wird im
Unterschied zum Schritt 105 nach Fig. 1 für die Adaption
der a-priori Wahrscheinlichkeitsverteilung der Einträge
neben dem Benutzerprofil noch eine benutzerspezifische
Negativliste von Grammatikeinträgen verwendet. Diese
Negativliste wird aufgrund von Erkennungsresultaten bei
vorangegangenen Spracheingaben des identifizierten
Benutzers erstellt, welche falsch waren. Ob ein
Erkennungsresultat falsch war, kann z. B. dadurch
festgestellt werden, dass der Benutzer eine Spracheingabe
wiederholt, nachdem er im Falle eines von dem
Spracherkennungssystems falsch erkannten Eintrags, diesen
als falsch zurückweist oder korrigiert. Die Negativliste,
die auch als Skipliste bezeichnet wird, verhindert, dass
eine Spracheingabe mehrfach zum selben falschen
Erkennungsresultat führt.
Ähnlich wie das Benutzerprofil wird auch die Negativliste
erfindungsgemäß sukzessive verbessert. Dafür wird zunächst
in Schritt 407a in Fig. 4 festgestellt, ob eine aktuelle
Spracheingabe richtig analysiert, d. h. eine richtige
Wortfolge für die Spracheingabe erkannt worden ist. Wenn
dies der Fall ist, braucht die Negativliste nicht
verändert zu werden und das Verfahren wird mit Schritt 408
fortgesetzt. Wenn das Spracherkennungssystem einer
Spracheingabe jedoch eine falsche Wortfolge zuordnet, so
wird die Negativliste gemäß Schritt 412 modifiziert.
Während einer aktuellen Verbindung des identifizierten
Benutzers mit dem Spracherkennungssystem 520 wird diese
Liste immer wieder für eine erneute Adaption der
Wahrscheinlichkeitsverteilung in Schritt 405 verwendet.
Nach Abbruch der aktuellen Verbindung wird die
Negativliste gespeichert, um bei einer späteren erneuten
Verbindung des identifizierten Benutzers mit dem
Spracherkennungssystem wieder zwecks Adaption der
Grammatik abgerufen zu werden.
Claims (13)
1. Dynamisches Grammatikgewichtungsverfahren für
Spracherkennungssysteme, worin eine
Wahrscheinlichkeitsverteilung pn für Grammatikeinträge in
ein Spracherkennungssystem implementiert wird, wobei die
Implementierung erfolgt, während ein Benutzer mit dem
Spracherkennungssystem verbunden ist, gekennzeichnet
durch mindestens folgende Schritte:
- - Identifizieren des Benutzers (102);
- - Ermitteln der Wahrscheinlichkeitsverteilung pn durch Adaptieren einer a-priori Wahrscheinlichkeitsverteilung pn-1 anhand eines für den identifizierten Benutzer erstellten Benutzerprofils, welches Informationen zur Gewichtung von Grammatikeinträgen enthält, die für den identifizierten Benutzer spezifisch sind (105); und
- - Implementieren der Wahrscheinlichkeitsverteilung pn in das Spracherkennungssystem anstelle der a-priori Wahrscheinlichkeitsverteilung pn-1 bevor oder während der identifizierte Benutzer eine Spracheingabe durchführt (106).
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass das Benutzerprofil auf Grundlage von dem
identifizierten Benutzer zugeordneten Informationen
erstellt wird, welche unabhängig von einer von dem
Benutzer durchgeführten Spracheingabe vorliegen.
3. Verfahren nach Anspruch 1 oder 2, dadurch
gekennzeichnet, dass wenn die Implementierung der
Wahrscheinlichkeitsverteilung pn in das
Spracherkennungssystem vor der aktuellen Spracheingabe
durch den identifizierten Benutzer erfolgt, das
Benutzerprofil durch Auswerten von mindestens einer
zeitlich vor der aktuellen Verbindung erfolgten
Spracheingabe des identifizierten Benutzers in das
Spracherkennungssystem erstellt wurde.
4. Verfahren nach Anspruch 1 oder 2, dadurch
gekennzeichnet, dass, wenn die Implementierung der
Wahrscheinlichkeitsverteilung pn in das
Spracherkennungssystem während der aktuellen
Spracheingabe durch den identifizierten Benutzer erfolgt,
das Benutzerprofil durch Auswerten von mindestens einer
zeitlich vor der aktuellen Verbindung erfolgten
Spracheingabe und/oder durch Auswerten der aktuellen
Spracheingabe des identifizierten Benutzers erstellt
wurde.
5. Verfahren nach Anspruch 3 oder 4, dadurch
gekennzeichnet, dass das Benutzerprofil durch
Modifikation eines bisher gültigen Benutzerprofil
erstellt wird.
6. Verfahren nach einem der vorangegangenen Ansprüche,
dadurch gekennzeichnet, dass die Ermittlung der
Wahrscheinlichkeitsverteilung der Einträge der Grammatik
durch mathematische Verknüpfung von zumindest einer
a-priori Wahrscheinlichkeitsverteilung pn-1 mit einer
Wahrscheinlichkeitsverteilung pB erfolgt, welche das
erstellte Benutzerprofil repräsentiert.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
dass die Adaption der Wahrscheinlichkeitsverteilung
rekursiv gemäß folgender Formel erfolgt:
pn-1.a + pB.b = pn (1)
wobei:
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
pn-1.a + pB.b = pn (1)
wobei:
n: den Adaptionszustand der Wahrscheinlichkeitsverteilungen zum Zeitpunkt n;
pn-1: die a-priori Wahrscheinlichkeitsverteilung;
pB: die Wahrscheinlichkeitsverteilung gemäß dem Benutzerprofil;
pn: die adaptierte Wahrscheinlichkeitsverteilung; und
a, b: Gewichte mit a + b = 1
bedeutet.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet,
dass die Dimensionierung der Gewichte a, b nach Maßgabe
durch die Größe derjenigen Zeitspanne erfolgt, welche
zwischen der Erstellung des Benutzerprofils und der
Adaption der a-priori Wahrscheinlichkeitsverteilung
liegt.
9. Verfahren nach einem der vorangegangenen Ansprüche,
dadurch gekennzeichnet, dass die Ermittlung der
Wahrscheinlichkeitsverteilung pn unter zusätzlicher
Berücksichtigung einer Negativliste für die Einträge der
Grammatik erfolgt.
10. Computerprogramm mit einem Programmcode, welcher
ausgebildet ist zur Durchführung des Verfahrens gemäß
einem der Ansprüche 1 bis 9, wenn es auf einem Prozessor
eines Spracherkennungssystems abläuft.
11. Computerprogramm nach Anspruch 10, dadurch
gekennzeichnet dass es auf einem Speichermedium
gespeichert ist.
12. Spracherkennungssystem, welches ausgebildet ist zum
Ablaufen des Computerprogramms nach einem der Ansprüche
10 oder 11.
13. Verwendung der Verfahrens gemäß einem der Ansprüche
1 bis 9 oder des Computerprogramms gemäß einem der
Ansprüche 10 oder 11 im Bankenwesen, wobei der Benutzer
ein Bankkunde ist und durch Spracheingabe in ein
Spracherkennungssystem Bankgeschäfte, insbesondere
Wertpapierorder, abwickelt; und
wobei das Verfahren und/oder das Computerprogramm
ausgebildet sind, das Benutzerprofil auf Basis der Namen
von am häufigsten durch den Benutzer während eines
Betrachtungszeitraumes durch Spracheingabe georderten
Wertpapieren und/oder auf Basis der Namen der Wertpapiere
in einem Depot des Benutzers zu erstellen.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE2001131157 DE10131157C1 (de) | 2001-06-29 | 2001-06-29 | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE2001131157 DE10131157C1 (de) | 2001-06-29 | 2001-06-29 | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE10131157C1 true DE10131157C1 (de) | 2002-07-04 |
Family
ID=7689748
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE2001131157 Withdrawn - After Issue DE10131157C1 (de) | 2001-06-29 | 2001-06-29 | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE10131157C1 (de) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
| DE102008021954A1 (de) * | 2008-02-29 | 2009-09-03 | Navigon Ag | Verfahren zum Betrieb eines elektronischen Assistenzsystems |
| CN117556832A (zh) * | 2023-11-23 | 2024-02-13 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于语义约束的情感支持对话双向生方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0834862A2 (de) * | 1996-10-01 | 1998-04-08 | Lucent Technologies Inc. | Verfahren zur Erkennung und Verifikation von Schlüsselsätzen für flexibles Sprachverständnis |
| WO2000019410A1 (en) * | 1998-09-30 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Graphic user interface for navigation in speech recognition system grammars |
| WO2000068933A1 (en) * | 1999-05-10 | 2000-11-16 | Nuance Communications, Inc. | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
| US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
| JP2001157137A (ja) * | 1999-08-26 | 2001-06-08 | Matsushita Electric Ind Co Ltd | 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング |
-
2001
- 2001-06-29 DE DE2001131157 patent/DE10131157C1/de not_active Withdrawn - After Issue
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0834862A2 (de) * | 1996-10-01 | 1998-04-08 | Lucent Technologies Inc. | Verfahren zur Erkennung und Verifikation von Schlüsselsätzen für flexibles Sprachverständnis |
| US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
| WO2000019410A1 (en) * | 1998-09-30 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Graphic user interface for navigation in speech recognition system grammars |
| WO2000068933A1 (en) * | 1999-05-10 | 2000-11-16 | Nuance Communications, Inc. | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
| JP2001157137A (ja) * | 1999-08-26 | 2001-06-08 | Matsushita Electric Ind Co Ltd | 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
| DE102008021954A1 (de) * | 2008-02-29 | 2009-09-03 | Navigon Ag | Verfahren zum Betrieb eines elektronischen Assistenzsystems |
| CN117556832A (zh) * | 2023-11-23 | 2024-02-13 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于语义约束的情感支持对话双向生方法 |
| CN117556832B (zh) * | 2023-11-23 | 2024-04-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于语义约束的情感支持对话双向生成方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
| DE69421324T2 (de) | Verfahren und Vorrichtung zur Sprachkommunikation | |
| DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
| DE602006000090T2 (de) | Konfidenzmaß für ein Sprachdialogsystem | |
| DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
| DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
| DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
| DE69722980T2 (de) | Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen | |
| DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
| DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
| DE69919842T2 (de) | Sprachmodell basierend auf der spracherkennungshistorie | |
| DE69623364T2 (de) | Einrichtung zur Erkennung kontinuierlich gesprochener Sprache | |
| EP0797185A2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
| DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
| DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
| DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
| WO2004072954A1 (de) | Dreistufige einzelworterkennung | |
| DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
| DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
| EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
| DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
| DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
| DE69517571T2 (de) | Verfahren zur Erkennung von Mustern |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8100 | Publication of the examined application without publication of unexamined application | ||
| D1 | Grant (no unexamined application published) patent law 81 | ||
| 8364 | No opposition during term of opposition | ||
| 8327 | Change in the person/name/address of the patent owner |
Owner name: EXCELSIS INFORMATIONSSYSTEME GMBH, 70178 STUTT, DE |
|
| R120 | Application withdrawn or ip right abandoned |