DE102005018174A1 - Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 - Google Patents
Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 Download PDFInfo
- Publication number
- DE102005018174A1 DE102005018174A1 DE200510018174 DE102005018174A DE102005018174A1 DE 102005018174 A1 DE102005018174 A1 DE 102005018174A1 DE 200510018174 DE200510018174 DE 200510018174 DE 102005018174 A DE102005018174 A DE 102005018174A DE 102005018174 A1 DE102005018174 A1 DE 102005018174A1
- Authority
- DE
- Germany
- Prior art keywords
- user
- hypotheses
- data field
- input data
- ambiguous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009471 action Effects 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 108010089746 wobe Proteins 0.000 claims 1
- 238000012790 confirmation Methods 0.000 description 5
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem aus einer in einem Hypothesenraum abgelegten Liste mehrerer, von einem automatischen Spracherkennungssystem erkannter, mehrdeutiger Hypothesen, welche jeweils mit Zuverlässigkeitswerten versehen sind. Lediglich der vollständige Eingabedatensatz wird durch den Benutzer bestätigt. Die Hypothesen werden anhand ihrer Zuverlässigkeitswerte sortiert. Zur Vervollständigung der partiellen Eingabedatensätze wird dasjenige optimale notwendige Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Zur Auflösung von Mehrdeutigkeiten vollständiger Eingabedatensätze wird dasjenige optimale notwendige oder ein optimales zusätzliches Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Der Hypothesenraum wird dynamisch angepasst.
Description
- Die Erfindung betrifft ein Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen und zusätzlichen Datenfeldern für einen Benutzer in einem Sprachdialogsystem.
- Spracheingaben gewinnen bei der Bedienung von Diensten und Geräten zunehmend an Bedeutung. Komplexe Eingaben oder Eingabedatensätze, z. B. Zieleingaben bei Navigationssystemen sowie Informations- und Reservierungsanfragen für Flüge oder Restaurants, bestehen aus mehreren Kategorien bzw. Datenfeldern wie Ort, Straße, Hausnummer oder dergleichen. In bekannten Systemen werden die Kategorien einzeln eingegeben und müssen jeweils bestätigt werden. Die permanenten Bestätigungen führen zu unnötig langen Dialogen und sind somit für die Benutzer meist unkomfortabel.
- Ergebnisse der Spracherkennung können ebenso mehrdeutig sein wie Datenbankeinträge, z. B. kann das Spracherkennungssystem bei der Benutzereingabe von "Berlin" mehrere wahrscheinliche Städtenamen ausgeben, wie etwa "Berlin" und "Bellin". Außerdem gibt es in Deutschland mehrere Städte mit dem Namen Berlin, daher ist die orthografische Repräsentation des Namens in der Datenbank bzw. Datenbasis bereits mehrdeutig. Derartige Mehrdeutigkeiten treten besonders bei einem großen Vokabular des Spracherkennungssystems auf. In Deutschland gibt es mehr als 70.000 Städtenamen, so dass phonetische und orthografische Ähnlichkeiten unvermeidbar sind.
- Aus dem Stand der Technik sind bereits sprachbediente Systeme bekannt, die mit großem Vokabular umgehen können (Diktiersysteme in Büroumgebungen, zumeist sprecherabhängig). In Fahrzeugen liefern die existierenden Lösungen aufgrund der dort herrschenden sehr schwierigen Geräuschbedingungen und der erforderlichen Unabhängigkeit vom Sprecher, in schwierigen Situationen oft keine zufriedenstellenden/erfolgreichen Dialoge. Bisher wurden meist Lösungen realisiert, bei denen der Benutzer (zumindest die ersten 5 Buchstaben) buchstabieren musste, worauf ein Matching-Algorithmus die passenden Einträge einer großen Liste entnahm. Das Buchstabieren ist jedoch für den Benutzer ein unnatürlicher und relativ unkomfortabler Vorgang.
- In der WO 02/103678 A1 ist ein Verfahren zur Spracherkennung von Sprachäußerungen eines Benutzers zur Auswahl eines gewünschten Listenelements aus einer Gesamtliste von Listenelementen beschrieben.
- Aus der
DE 199 33 524 A1 ist ein Verfahren zur Eingabe von Daten in ein System, insbesondere in ein in einem Fahrzeug installierten Navigationssystem bekannt. Um die Eingabe von Daten für Benutzer zu erleichtern, ist vorgesehen, dass auf eine Eingabe eines Benutzers hin ein oder mehrere zu dieser Eingabe möglichst genau passende Begriffe als erkannte Begriffe ermittelt werden, dass zu jedem dieser erkannten Begriffe ein Zuverlässigkeitswert festgestellt wird und dass die einer Eingabe zugeordneten Begriffe unter Berücksichtigung ihrer Zuverlässigkeitswerte behandelt werden. - Die
DE 100 12 572 C2 betrifft eine Vorrichtung zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem im Echtzeitbetrieb mit Mitteln, durch die eine eingegebene Sprachäußerung eines Benut zers mittels einer Spracherkennungseinrichtung erfasst, mit gespeicherten Sprachäußerungen verglichen sowie gemäß ihrer Erkennungswahrscheinlichkeit klassifiziert wird und durch die die gespeicherte Sprachäußerung mit der größten Erkennungswahrscheinlichkeit als die eingegebene Sprachäußerung erkannt wird. Die einem Zielort zugeordneten gespeicherten Sprachäußerungen sind zumindest aus dem Zielortnamen und mindestens einer den Zielortnamen eindeutig identifizierenden, regional einschränkenden Zusatzinformation zusammengesetzt. - Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs erwähnten Art zu schaffen, welches die Nachteile des Standes der Technik vermeidet und die Benutzerfreundlichkeit erhöht, wobei insbesondere die Dauer der Sprachdialoge verkürzt und die Erkennungsgenauigkeit verbessert werden sollen.
- Diese Aufgabe wird erfindungsgemäß durch Anspruch 1 gelöst.
- Durch die erfindungsgemäßen Maßnahmen kann die Dialogdauer im Vergleich zu bekannten Systemen, welche nur auf Buchstabiereingaben oder Ganzworteingaben mit ständiger Benutzerbestätigung beruhen, in vorteilhafter Weise signifikant reduziert werden. Es müssen lediglich noch das Gesamtergebnis oder große Teile des Gesamtergebnisses bestätigt werden. Das Problem der geringen Erkennungsgenauigkeit bei großen Erkennervokabularien wird deutlich verringert, indem bei mehrdeutigen Erkennungsergebnissen optimale Zusatzinformationen bzw. Zusatzkategorien oder zusätzliche Datenfelder abgefragt werden, durch die das Erkennervokabular bzw. der Hypothesenraum dynamisch angepasst, insbesondere verkleinert werden kann und somit aufgrund einer möglichen Neuerkennung des gespeicherten Sprachsignals eine hinreichend gute Erkennung erzielt wird. Die Dialogerfolgsrate wird erhöht, da sich eine höhere Erkennungsgenauigkeit (aufgrund der angepassten Wortlisten) unmittelbar auf den Dialogerfolg auswirkt. Der Anteil erfolgloser Dialoganfragen wird anwendungsspezifisch deutlich reduziert.
- Die Benutzerfreundlichkeit wird durch die Vermeidung ständiger Bestätigungsfragen für jedes Attribut-Wertpaar erhöht; aufeinanderfolgende Dialogschritte (Schleifen) mit großem Erkennervokabular werden vermieden. Die Informationen werden sozusagen inkrementell verdichtet.
- Das erfindungsgemäße Verfahren (im folgenden auch als Disambiguierung bezeichnet) wird auf einem Hypothesenraum durchgeführt, welcher die mehrdeutigen Ergebnisse der Sprachäußerungen der Benutzereingaben und deren Beziehungen untereinander aufweist. Die Disambiguierungsstrategie basiert auf Zuverlässigkeitswerten (auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet) und optionalen zusätzlichen Kategorien bzw. Datenfeldern. Jede Hypothese im Hypothesenraum besitzt eine bestimmte, eindeutige Art der Repräsentation (z. B. orthografisch, syntaktisch oder semantisch) und einen Zuverlässigkeitswert, der die Zuverlässigkeit der Korrektheit der Hypothese schätzt. Dieser Zuverlässigkeitswert steht für die einzelnen Hypothesen zur Verfügung und kann durch Kombination mehrerer Datenfelder bzw. Kategorien eines komplexen Eingabedatensatzes oder Eintrags ebenfalls kombiniert werden. In besonders vorteilhafter Weise ist die korrekte Funktion des erfindungsgemäßen Verfahrens unabhängig davon ob die nach ihren Zuverlässigkeitswerten zu sortierenden Hypothesen von dem gesamten oder dem partiellen Eingabesatz abgeleitet werden.
- Vorteilhaft ist es, wenn die Anpassung des Hypothesenraums durch eine sukzessive Verkleinerung der Listen der erkannten mehrdeutigen Hypothesen erfolgt, da wie vorstehend bereits erwähnt, die Erkennungsgenauigkeit erhöht werden kann. Jedoch erlaubt das erfindungsgemäße Verfahren nicht nur große Hypothesenräume mit Hilfe von Zusatzinformationen, sozusagen vorwärts einzuschränken, sondern auch kleine Hypothesenräume zu erweitern oder mittels Zusatzinformationsabfragen und anschließender Neuerkennung komplett zu revidieren Erfindungsgemäß kann ferner vorgesehen sein, dass das optimale zu wählende zusätzliche Datenfeld über eine Gewichtungsformel aus einem Bekanntheitsgrad des zusätzlichen Datenfelds und einer Bewertung hinsichtlich der Auflösung der mehrdeutigen Hypothesen ermittelt wird. Vorteilhaft ist außerdem, wenn der Bekanntheitsgrad der zusätzlichen Datenfelder über eine Benutzerbefragung oder einer vorliegenden Statistik (beispielsweise aus dem Internet) ermittelt wird oder, wenn die Gewichtungsformel adaptiv, während der Benutzerinteraktion auf die Kenntnisse des jeweiligen Benutzers angepasst wird. In besonders vorteilhafter Weise kann vorgesehen werden, dass insbesondere dann, wenn sich durch Inferenz schon eine Eindeutigkeit des Gesamtsatzes ergibt, nicht alle notwendigen Datenfelder im Rahmen einer Benutzerabfrage nachgefragt werden müssen.
- Die nächste abzufragende zusätzliche Kategorie bzw. das nächste abzufragende zusätzliche Datenfeld kann durch ein Gewichtungsverfahren bzw. eine Gewichtungsstrategie ermittelt werden, das bzw. die beispielsweise auf einer Standard-Abfragereihenfolge mit Präferenzgewichten und einer Anzahl verschiedener Werte der zusätzlichen Kategorie für die gegebenen Hypothesen (sogenannte Disambiguierungsstärke) basiert. Die Präferenzgewichte können beispielsweise auf Basis einer Benutzerbefragung hinsichtlich der Kenntnis der Kategoriewerte ermittelt und zur Verfügung gestellt werden. Die Gewichtungsstrategie kann dabei adaptiv sein, indem während der Benutzerinteraktion, die benutzerspezifischen Kenntnisse der Kategorien bzw. Datenfelder gespeichert werden und daraufhin die Strategie zur Auflösung der Mehrdeutigkeiten bzw. die Disambiguierungsstrategie, d. h. die Strategie zur Auflösung von Mehrdeutigkeiten angepasst wird.
- Selbstverständlich können entsprechend der Verwendung einer Gewichtungsformel auch andere Optimierungskriterien zur Anwendung kommen; so beispielsweise bereits aus Internetanwendungen bekannte Zugriffsstatistiken.
- Vorteilhaft ist, wenn eine Datenbank zur Aufnahme der notwendigen und zusätzlichen Datenfelder vorgesehen ist. Wenn die Datenbank des weiteren anwendungsspezifisch ist, kann sie in vorteilhafter Weise genau auf eine bestimmte Anwendung angepasst werden.
- In einer verfahrensmäßigen Ausgestaltung der Erfindung kann vorgesehen sein, dass die Spracheingaben des Benutzers, insbesondere Bestätigungen, Zurückweisungen und Kenntnisse hinsichtlich der zusätzlichen Datenfelder, gespeichert werden.
- Sonach kann insbesondere die Gewichtungsstrategie dynamisch angepasst werden.
- Erfindungsgemäß kann vorgesehen sein, dass weitere Spracherkennungen mittels des angepassten Hypothesenraums auf unterschiedlichen Vokabularien des Spracherkennungssystems durchgeführt werden.
- Durch diese Vorgehensweise kann auf die Erkennung sehr großer Listen verzichtet werden, indem eine einfache oder mehrfache Neuerkennung (Rerecognition) einer gespeicherten Spracheingabe mit verschiedenen Vokabularien (Listen) durchgeführt wird. Da mit sinkender Vokabulargröße die Erkennungsgüte zunimmt, kann diese Methode von vertrauenswürdigeren Ergebnissen ausgehen. Aufgrund der Zuverlässigkeitswerte (auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet) entscheidet sich die Methode für den besten Kandidaten oder revidiert eventuell das bisherige beste Ergebnis.
- Vorteilhaft ist, wenn die Reihenfolge der abzufragenden notwendigen und zusätzlichen Datenfelder, insbesondere anwendungsspezifisch festgelegt wird.
- Als Rückfallstrategie kann ein partielles Buchstabieren der Hypothesen durch den Benutzer mit Listenmatch zur Ermittlung des vollständigen Eingabedatensatzes eingesetzt werden. Dies ist insbesondere bei gering vertrauenswürdigen Informationen denkbar.
- Weitere vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den restlichen Unteransprüchen. Nachfolgend ist anhand der Zeichnung prinzipmäßig ein Ausführungsbeispiel der Erfindung beschrieben.
- Die einzige Figur der Zeichnung zeigt eine vereinfachte schematische Darstellung eines erfindungsgemäßen Verfahrens.
- Die Erfindung wird im folgenden exemplarisch anhand eines Sprachdialogsystems einer Zielführungs- bzw. Navigationsanwendung dargestellt. In anderen Ausführungsbeispielen könnten auch weitere beziehungsweise andere Sprachdialogsysteme vorgesehen sein; beispielsweise kann das Sprachdialogsystem als Teil des Telefons, des Adressbuches oder zum Abspielen von Musik dienen. Hierzu sind insbesondere auch die applikationsspezifische Datenbank und Konfiguration vorteilhaft.
- Wie aus der Figur ersichtlich, erhält ein erfindungsgemäßes Verfahren
1 zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem (nicht dargestellt) aus einer in einem Hypothesenraum abgelegten Liste mehrerer, von einem automatischen Spracherkennungssystem (nicht dargestellt) erkannter, mehrdeutiger Hypothesen, welche jeweils mit Zuverlässigkeitswerten versehen sind. Dabei wird lediglich der vollständige Eingabedatensatz durch den Benutzer bestätigt. Die Hypothesen werden anhand ihrer Zuverlässigkeitswerte sortiert. Zur Vervollständigung der partiellen Eingabedatensätze wird dasjenige optimale notwendige Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Zur Auflösung von Mehrdeutigkeiten vollständiger Eingabedatensätze wird dasjenige optimale notwendige oder ein optimales zusätzliches Da tenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Der Hypothesenraum wird dynamisch angepasst. - Die Eingabedatensätze bzw. Hypothesen weisen mehrere notwendige Datenfelder bzw. Kategorien, nämlich "Stadt", "Bundesland", "Stadtteil", "Strasse", zusammen mit deren jeweiligen aus den einzelnen Datenfeldern kombinierten Zuverlässigkeitswerten (z. B. Berlin, Berlin, Mitte, Torstraße, 0,87), auf.
- Das Verfahren
1 greift auf eine applikationsspezifische Datenbank zu, welche alle Datenfelder (notwendige und zusätzliche) sowie deren Werte und Relationen bzw. Abhängigkeiten enthält. Notwendig sind Datenfelder, die den vollständigen Eingabedatensatz, d. h. das Navigationsziel definieren. Zusätzliche Datenfelder dienen der besseren Auflösung von Mehrdeutigkeiten. In der Figur sind als zusätzliche Datenfelder bzw. Kategorien "Landkreis" und "Postleitzahl" vorgesehen. Des weiteren sind bei einer Navigationsanwendung beispielsweise die Namen von Regionen, Flüssen, Seen, nahen Großstädten, Kfz-Kennzeichen oder Telefonvorwahlen denkbar. - Durch eine applikationsspezifische Konfiguration wird die allgemeine Funktionalität des Verfahrens
1 auf spezielle Anwendungen, im vorliegenden Ausführungsbeispiel ein Navigationssystem angepasst. In der Konfiguration werden neben den Adaptionsparametern wenigstens die folgenden Punkte festgelegt: - – welche Kategorien sind notwendig,
- – in welcher Reihenfolge werden diese Kategorien standardmäßig abgefragt,
- – welche zusätzlichen Kategorien sind zur Disambiguierung verfügbar,
- – welchen Bekanntheitsgrad haben die zusätzlichen Kategorien bei den Benutzern und
- – welche Größe ist für den Hypothesenraum verfügbar.
- Als Eingabeparameter erhält das Verfahren
1 die Ergebnisse aus den vorangegangenen Verarbeitungsstufen, d. h. der Spracherkennung durch ein Spracherkennungssystem oder Sprachverstehen, vorliegend in Form von Attribut- bzw. Datenfeld-Wert-Paaren, die mit Zuverlässigkeitswerten (Wahrscheinlichkeiten, Konfidenzmaßen/Vertrauensmaßen) versehen sind. Des weiteren wird übergeben, welche Datenfelder dem Benutzer unbekannt sind, in1 ist dies das Datenfeld "Postleitzahl", welche Datenfelder bestätigt wurden, vorliegend das Datenfeld "Bundesland" mit dem Wert "Berlin" und welche zurückgewiesen wurden, vorliegend das Datenfeld "Landkreis" mit dem Wert "Segeberg". Darüber hinaus kann auch ein Resetbefehl bzw. Zurücksetzen des Verfahrens/des Hypothesenraums und der Listen erhalten werden. - Als Ausgabeparameter wird eine durchzuführende nächste Aktion oder ein Vorschlag für eine durchzuführende nächste Aktion an das Sprachdialogsystem in Abhängigkeit des aktuellen Hypothesenraums übergeben, d. h. eine Entscheidung oder ein Entscheidungsvorschlag für die auszuführende Aktion im Dialogsystem unter Berücksichtigung des applikationsspezifischen Wissens.
- Folgende nächste Aktionen sind vorgesehen:
- – Abfrage eines neuen Datenfelds (als Ganzworteingabe oder Buchstabieren),
- – ein bereits eingegebenes Datenfeld durch eine weitere Spracherkennung auf einer dynamisch angepassten Vokabularliste des Spracherkennungssystems neu zu erkennen, da die Spracheingaben des Benutzers gespeichert werden, um nach Eingabe weiterer Kategorien eine Neuerkennung zu ermöglichen, bei welcher die ursprünglich sehr großen Listen aufgrund der Datenbankrelationen weiter eingeschränkt werden,
- – ein bereits eingegebenes Datenfeld zu bestätigen,
- – den vollständigen Eingabedatensatz als notwendige finale Bestätigung zu bestätigen oder
- – eine zuverlässigere Form der Eingabe, insbesondere Buchstabieren für ein Datenfeld zu wählen.
- Die weiteren Ausgabeparameter werden je nach vorgeschlagener Folgeaktion eingesetzt, so z. B.: die nächste Kategorie, deren dynamische Wortliste zum Nachladen des Erkennervokabulars, der komplette Ergebnisdatensatz und der Eingabemodus, also Ganzworteingabe oder Buchstabieren.
- Alle Eingabeinformationen werden aufbewahrt und nach jeder neuen Eingabe aktualisiert. Als Sprachsignale werden alle eingegebenen Datenfelder bzw. Kategorien und deren Werte mit deren zugehörigen Zuverlässigkeitswerten aufbewahrt. Außerdem wendet das Verfahren einen Lern- oder Adaptionsalgorithmus an, der speichert, welche Informationen oder Teilinformationen bereits bestätigt oder zurückgewiesen wurden und welche Datenfelder dem Benutzer unbekannt sind.
- Aus den gespeicherten Informationen wird eine Datenbankabfrage generiert, welche die Zusammenhänge der Datenfelder repräsentiert, um möglichst vollständige Datensätze zu erhalten und einen Hypothesenraum zu generieren. Der Hypothesenraum enthält alle zusammengehörigen Datensätze, Informationen zu deren Eindeutigkeit und die zugehörigen Zuverlässigkeitswerte, die für jeden Datensatz aus den einzelnen Datenfeldern zusammengesetzt werden. Auf dem Hypothesenraum wird ein Suchalgorithmus realisiert, der die Hypothesen anhand ihrer Zuverlässigkeitswerte sortiert und nach vollständigen Datensätzen sucht. Existieren mehrere vollständige Datensätze, so wird die zusätzliche Kategorie bzw. das zusätzliche Datenfeld gesucht, mit Hilfe derer bzw. dessen sich die Mehrdeutigkeiten am besten auflösen lassen.
- Hierfür kann eine Gewichtungsformel aus einem Bekanntheitsgrad der Datenfelder und der Disambiguierbarkeit (wie viele der verschiedenen Datensitze können durch die zusätzliche Kategorie unterschieden werden, d. h. eine Bewertung hinsicht lich der Auflösung der mehrdeutigen Hypothesen) angewendet werden. Liegt noch kein vollständiger Datensatz vor, so wird die nächste notwendige Kategorie anhand der Vorgabereihenfolge abgefragt. Werden Informationen (ein Datensatz) zurückgewiesen, so kann entweder die Korrektheit des nächstbesten Datensatzes (höchstes Vertrauensmaß bzw. höchster Zuverlässigkeitswert) nachgefragt werden, oder der Benutzer wird aufgefordert, den Wert für eine Kategorie zu buchstabieren. Nach dem Listenmatch, welches dem Buchstabieren folgt, existiert definitiv nur noch ein Wert für diese Kategorie.
Claims (15)
- Verfahren (
1 ) zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem aus einer in einem Hypothesenraum abgelegten Liste mehrerer, von einem automatischen Spracherkennungssystem erkannter, mehrdeutiger Hypothesen, welche jeweils mit Zuverlässigkeitswerten versehen sind, wobei – lediglich der vollständige Eingabedatensatz durch den Benutzer bestätigt wird, wobei – die Hypothesen anhand ihrer Zuverlässigkeitswerte sortiert werden, wobei – zur Vervollständigung der partiellen Eingabedatensätze dasjenige optimale notwendige Datenfeld zur Benutzerabfrage ermittelt wird, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst, wobei – zur Auflösung von Mehrdeutigkeiten vollständiger Eingabedatensätze dasjenige optimale notwendige oder ein optimales zusätzliches Datenfeld zur Benutzerabfrage ermittelt wird, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst, und wobei – der Hypothesenraum dynamisch angepasst wird. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anpassung des Hypothesenraums durch eine sukzessive Verkleinerung der Listen der erkannten mehrdeutigen Hypothesen erfolgt.
- Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das optimale zu wählende zusätzliche Datenfeld über eine Gewichtungsformel aus einem Bekanntheitsgrad des zu sätzlichen Datenfelds und einer Bewertung hinsichtlich der Auflösung der mehrdeutigen Hypothesen ermittelt wird.
- Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Bekanntheitsgrad der zusätzlichen Datenfelder über eine Benutzerbefragung oder eine vorliegende Statistik ermittelt wird.
- Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Gewichtungsformel adaptiv, während der Benutzerinteraktion auf die Kenntnisse des jeweiligen Benutzers angepasst wird.
- Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass eine Datenbank zur Aufnahme der notwendigen und zusätzlichen Datenfelder vorgesehen ist.
- Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Datenbank anwendungsspezifisch ist.
- Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Spracheingaben des Benutzers, insbesondere Bestätigungen, Zurückweisungen und Kenntnisse hinsichtlich der zusätzlichen Datenfelder, gespeichert werden.
- Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass weitere Spracherkennungen mittels des angepassten Hypothesenraums auf unterschiedlichen Vokabularien des Spracherkennungssystems durchgeführt werden.
- Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Reihenfolge der abzufragenden notwendigen und zusätzlichen Datenfelder, insbesondere anwendungsspezifisch festgelegt wird.
- Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass das Sprachdialogsystem als Teil des Telefons, des Adressbuches, der Bedienung eines Navigationssystems oder zum Abspielen von Musik dient, insbesondere in einem Kraftfahrzeug.
- Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass als Rückfallstrategie ein partielles Buchstabieren der Hypothesen durch den Benutzer eingesetzt wird.
- Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass als Eingabeparameter die Datenfeld-Wert-Paare mit den Zuverlässigkeitswerten, bestätigte Datenfeldwerte, zurückgewiesene Datenfeldwerte, unbekannte Datenfelder oder ein Resetbefehl erhalten werden.
- Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass als Ausgabeparameter eine durchzuführende nächste Aktion oder ein Vorschlag für eine durchzuführende nächste Aktion an das Sprachdialogsystem in Abhängigkeit des aktuellen Hypothesenraums übergeben wird.
- Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass folgende nächste Aktionen vorgesehen sind: – Abfrage eines neuen Datenfelds, – ein bereits eingegebenes Datenfeld durch eine weitere Spracherkennung auf einer dynamischen Vokabularliste des Spracherkennungssystems neu zu erkennen, – ein bereits eingegebenes Datenfeld zu bestätigen, – den vollständigen Eingabedatensatz zu bestätigen oder – eine zuverlässigere Form der Eingabe, insbesondere Buchstabieren für ein Datenfeld zu wählen.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE200510018174 DE102005018174A1 (de) | 2005-04-19 | 2005-04-19 | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
| PCT/EP2006/002489 WO2006111230A1 (de) | 2005-04-19 | 2006-03-17 | Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE200510018174 DE102005018174A1 (de) | 2005-04-19 | 2005-04-19 | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102005018174A1 true DE102005018174A1 (de) | 2006-11-02 |
Family
ID=36440904
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE200510018174 Ceased DE102005018174A1 (de) | 2005-04-19 | 2005-04-19 | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102005018174A1 (de) |
| WO (1) | WO2006111230A1 (de) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
| EP2096412A2 (de) | 2008-02-29 | 2009-09-02 | Navigon AG | Verfahren zum Betrieb eines Navigationssystems |
| DE102008021954A1 (de) * | 2008-02-29 | 2009-09-03 | Navigon Ag | Verfahren zum Betrieb eines elektronischen Assistenzsystems |
| DE102008028090A1 (de) * | 2008-02-29 | 2009-09-10 | Navigon Ag | Verfahren zum Betrieb eines Navigationssystems |
| DE102008062923A1 (de) * | 2008-12-23 | 2010-06-24 | Volkswagen Ag | Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung |
| FR2945623A1 (fr) * | 2009-05-18 | 2010-11-19 | Denso Corp | Procede et appareil de navigation |
| DE102009024693A1 (de) * | 2009-06-12 | 2010-12-16 | Volkswagen Ag | Infotainmentsystem für ein Fahrzeug und Verfahren zum Darstellen von Informationen |
| DE102009025530A1 (de) * | 2009-06-19 | 2010-12-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
| DE112009004313B4 (de) * | 2009-01-28 | 2016-09-22 | Mitsubishi Electric Corp. | Stimmerkennungseinrichtung |
| DE102017220266B3 (de) | 2017-11-14 | 2018-12-13 | Audi Ag | Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8108214B2 (en) * | 2008-11-19 | 2012-01-31 | Robert Bosch Gmbh | System and method for recognizing proper names in dialog systems |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
| DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
| DE19937490A1 (de) * | 1999-08-07 | 2001-04-19 | Volkswagen Ag | Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen |
| WO2002103678A1 (de) * | 2001-06-15 | 2002-12-27 | Harman Becker Automotive Systems Gmbh | Verfahren zur spracherkennung und spracherkennungssystem |
| DE10012572C2 (de) * | 2000-03-15 | 2003-03-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003509705A (ja) * | 1999-06-10 | 2003-03-11 | インフィネオン テクノロジーズ アクチエンゲゼルシャフト | 音声認識方法および音声認識装置 |
| US6421672B1 (en) * | 1999-07-27 | 2002-07-16 | Verizon Services Corp. | Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys |
| US6587818B2 (en) * | 1999-10-28 | 2003-07-01 | International Business Machines Corporation | System and method for resolving decoding ambiguity via dialog |
| US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
-
2005
- 2005-04-19 DE DE200510018174 patent/DE102005018174A1/de not_active Ceased
-
2006
- 2006-03-17 WO PCT/EP2006/002489 patent/WO2006111230A1/de not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
| DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
| DE19937490A1 (de) * | 1999-08-07 | 2001-04-19 | Volkswagen Ag | Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen |
| DE10012572C2 (de) * | 2000-03-15 | 2003-03-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
| WO2002103678A1 (de) * | 2001-06-15 | 2002-12-27 | Harman Becker Automotive Systems Gmbh | Verfahren zur spracherkennung und spracherkennungssystem |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
| EP2096412A2 (de) | 2008-02-29 | 2009-09-02 | Navigon AG | Verfahren zum Betrieb eines Navigationssystems |
| DE102008021954A1 (de) * | 2008-02-29 | 2009-09-03 | Navigon Ag | Verfahren zum Betrieb eines elektronischen Assistenzsystems |
| DE102008028090A1 (de) * | 2008-02-29 | 2009-09-10 | Navigon Ag | Verfahren zum Betrieb eines Navigationssystems |
| EP2096412A3 (de) * | 2008-02-29 | 2009-12-02 | Navigon AG | Verfahren zum Betrieb eines Navigationssystems |
| DE102008062923A1 (de) * | 2008-12-23 | 2010-06-24 | Volkswagen Ag | Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung |
| DE102008062923B4 (de) * | 2008-12-23 | 2025-11-06 | Volkswagen Ag | Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung |
| DE112009004313B4 (de) * | 2009-01-28 | 2016-09-22 | Mitsubishi Electric Corp. | Stimmerkennungseinrichtung |
| FR2945623A1 (fr) * | 2009-05-18 | 2010-11-19 | Denso Corp | Procede et appareil de navigation |
| DE102009024693A1 (de) * | 2009-06-12 | 2010-12-16 | Volkswagen Ag | Infotainmentsystem für ein Fahrzeug und Verfahren zum Darstellen von Informationen |
| DE102009024693B4 (de) * | 2009-06-12 | 2019-07-11 | Volkswagen Ag | Infotainmentsystem für ein Fahrzeug und Verfahren zum Darstellen von Informationen |
| DE102009025530A1 (de) * | 2009-06-19 | 2010-12-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
| DE102009025530B4 (de) * | 2009-06-19 | 2019-05-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
| DE102017220266B3 (de) | 2017-11-14 | 2018-12-13 | Audi Ag | Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug |
| US10720163B2 (en) | 2017-11-14 | 2020-07-21 | Audi Ag | Method for checking an onboard speech detection system of a motor vehicle and control device and motor vehicle |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2006111230A1 (de) | 2006-10-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
| DE19709518C5 (de) | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb | |
| DE102008017993B4 (de) | Sprachsuchvorrichtung | |
| DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
| DE69525178T2 (de) | Ansagedienste mit spracheingabe | |
| DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
| DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
| DE60032193T2 (de) | Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache | |
| DE102013222507B4 (de) | Verfahren zum Adaptieren eines Sprachsystems | |
| DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
| EP1264302B1 (de) | Verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem | |
| WO1998010413A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
| DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
| DE102015109379A1 (de) | Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet | |
| DE102005018174A1 (de) | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 | |
| EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
| EP1238250B1 (de) | Spracherkennungsverfahren und -einrichtung | |
| DE102019217751A1 (de) | Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem | |
| EP1282897A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
| DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
| DE102004055230B3 (de) | Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular | |
| DE60119643T2 (de) | Homophonewahl in der Spracherkennung | |
| DE10129005B4 (de) | Verfahren zur Spracherkennung und Spracherkennungssystem |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| 8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
| 8131 | Rejection |