DE602004006641T2

DE602004006641T2 - Audio-dialogsystem und sprachgesteuertes browsing-verfahren

Info

Publication number: DE602004006641T2
Application number: DE602004006641T
Authority: DE
Inventors: H.R. Scholl
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2003-11-10
Filing date: 2004-11-09
Publication date: 2008-01-24
Anticipated expiration: 2024-11-10
Also published as: CN1879149A; JP2007514992A; ATE363120T1; EP1685556B1; EP1685556A1; US20070136067A1; WO2005045806A1; DE602004006641D1

Description

Die vorliegende Erfindung bezieht sich auf ein Audio-Dialogsystem und auf ein sprachgesteuertes Browsing-Verfahren.
Audio-Dialogsysteme ermöglichen es, dass ein menschlicher Benutzer einen Audio-Dialog mit einer automatischen Anordnung, im Allgemeinen einem Computer, führt. Die Anordnung erteilt dem Benutzer Information durch Verwendung natürlicher Sprache. Entsprechende Sprachsynthesizer sind allgemein bekannt und weit verbreitet. Andererseits akzeptiert die Anordnung Benutzereingaben in Form natürlicher Sprache, und zwar unter Anwendung von Spracherkennungstechniken.
Beispiele von Audio-Dialogsystemen umfassen beispielsweise Telefoninformationssysteme, wie beispielsweise ein automatisches Zugfahrplaninformationssystem.
Der Inhalt des Dialogs zwischen der Anordnung und dem Benutzer wird in der Anordnung, oder an einer Fernstelle gespeichert, auf welche die Anordnung zugreifen kann. Der Inhalt kann in einem Hypertextformat gespeichert werden, wobei die Inhaltsdaten als ein oder mehrere Dokumente verfügbar ist. Die Dokumente enthalten den wirklichen Textinhalt, der durch Formatbeschreiber formatiert werden, die als Anhänger bezeichnet werden. Eine spezielle Art von Anhänger ist ein Bezugsanhänger, oder ein Link. Ein Bezugswert bezeichnet ein Bezugsziel, das ein anderer Teil des anwesenden Inhaltsdokumentes oder eines anderen Hypertextdokumentes ist. Jeder Bezugswert umfasst auch Aktivierungsinformation, die einem Benutzer die Möglichkeit bietet, den bezugswert oder den Link durch die Aktivierungsinformation zu selektieren. Ein Standard Hypertextdokumentformat ist das XML Format.
Es sind Audio-Dialogsysteme verfügbar, die Benutzern die Möglichkeit bieten, über einen Nur-Audiokanal auf Hypertextdokumente zuzugreifen. Da das Auslesen von Hypertextdokumenten im Allgemeinen als "Browsing" bezeichnet wird, werden diese Systeme auch als "Voice browsers" bezeichnet. US-A-5.884.266 beschreibt ein derartiges Audio-Dialogsystem, das einem Benutzer die Inhaltsdaten eines Hypertextdokumentes als Sprache liefert.
Wenn die Dokumente Bezugswerte enthalten, wird die entsprechende Aktivierungsinformation, hier als eine Aktivierungsphrase mit der Bezeichnung "link identifier" gegeben, als Sprache für den Benutzer ausgelesen, während der Link-Identifizierer unter Anwendung bestimmter Schallcharakteristiken unterschieden wird. Dies kann eine aurale Wiedergabe des Link-Identifizierertextes mit einer bestimmten Stimmhöhe, einer bestimmten Lautstärke oder einer anderen Schall- oder Audiocharakteristik aufweisen, die von einem Benutzer als ungleich des umgebenden Textes durchaus erkennbar ist. Zum Aktivieren eines Links kann ein Benutzer Sprachbefehle geben, entsprechend dem Link-Identifizierer oder der Aktivierungsphrase. Der Sprachbefehl des Benutzers wird in ein Spracherkennungssystem umgewandelt und in einem Befehlsprozessor verarbeitet. Wenn die Spracheingabe dem Link-Identifizierer oder der Aktivierungsphrase entspricht, wird der Sprachbefehl unter Verwendung der Linkadresse (Bezugsziel) durchgeführt und das Auslesen der Textinformation zu dem Benutzer von der betreffenden Adresse her wird fortgesetzt.
Ein Beispiel eines speziellen Formats für Hypertextdokumente abgezielt auf Bur-Audiosysteme ist "VoiceXML". In der aktuellen "W3C candidates recommendation of Voice Extensible Markup Language (Voice XML)" Version 2.0, können die Aktivierungsphrasen, die mit einem Link assoziiert sind, als interne oder externe Grammatik gegeben werden. Auf diese Weise können eine Vielzahl gültiger Aktivierungsphrasen spezifiziert werden. Die Benutzerspracheingabe soll einer dieser Aktivierungsphrasen genau entsprechen, damit ein Link aktiviert wird.
Wenn die Benutzereingabe einer der Aktivierungsphrasen nicht genau entspricht, wird der Benutzer meistens eine Fehlernachricht erhalten, in der es heißt, dass die Eingabe nicht erkannt wurde. Um dies zu vermeiden muss der Benutzer sich die ihm angebotenen Aktivierungsphrasen genau merken, oder der Autor des Inhaltsdokumentes muss mögliche Benutzersprachbefehle vorwegnehmen, die als Aktivierungsphrasen für einen bestimmten Link brauchbar wären.
Ein weiteres Beispiel eines bekannten Sprachbrowsers ist in EP-A-1168300 beschrieben worden.
Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein Audio-Dialogsystem und ein Sprachbrowsingverfahren zu schaffen, durch die eine einfache, intuitive Aktivierung eines Bezugswertes durch den Benutzer ermöglicht wird.
Diese Aufgabe wird nach der vorliegenden Erfindung durch ein Audio-Dialogsystem nach Anspruch 1 und ein Sprachbrowsingverfahren nach Anspruch 8 gelöst. Die Unteransprüche beziehen sich auf bevorzugte Ausführungsformen.
Ein System nach der vorliegenden Erfindung umfasst eine Audioeingabeeinheit mit Spracherkennungsmitteln und einen Audio-Ausgang mit Sprachsynthesizermitteln. Das System umfasst weiterhin Browsingmittel. Es sei bemerkt, dass diese Terme sich nur auf funktionellen Entitäten beziehen und dass in einem bestimmten System die genannten Mittel nicht unbedingt als physikalische Einzelgebilde vorhanden zu sein brauchen. Es wird insbesondere bevorzugt, dass wenigstens die Browsingmittel als von einem Computer durchführte Software implementiert wird. Spracherkennungs- und Sprachsynthesemittel sind ohne weiteres für den Fachmann verfügbar, und können als separate Entitäten implementiert werden, oder, auf alternative Weise, als Software, die in demselben Computer läuft, wie die Software, welche die Browsingmittel implementiert.
Nach der vorliegenden Erfindung wird ein Audio-Eingangssignal (Benutzersprachbefehl) von Sprache in Texteingabedaten umgewandelt und mit den Aktivierungsphrasen in dem aktuell verarbeiteten Dokument verglichen. Wie vorher bekannt, wird im falle einer genauen Übereinstimmung, d.h. Eingabetextdaten identisch zu einer bestimmten Aktivierungsphrase, der Bezugswert oder der Link aktiviert durch Zugriff auf Inhaltsdaten entsprechend dem Bezugsziel.
Im Gegensatz zu bereits bekannten Dialogsystemen und Sprachbrowsingverfahren kann eine Übereinstimmung auch gefunden werden, wenn die Texteingabedaten nicht einer Aktivierungsphrase genau entsprechen, sondern eine ähnliche Bedeutung haben.
Auf diese Weise wird in einem Dialogsystem oder in einem Sprachbrowsingverfahren nach der vorliegenden Erfindung der Benutzer nicht länger gezwungen, sich die Aktivierungsphrase genau zu merken. Dies ist besonders vorteilhaft in einem Dokument mit vielen Links. Der Benutzer kann nach dem Anhören aller verfügbaren Möglichkeit eine Wahl machen. Er braucht dann nicht länger sich die genaue Aktivierungsphrase des, sagen wir ersten oder zweiten Links in dem Dokument zu erinnern. Da die Aktivierungsphrase im Allgemeinen das gelinkte Dokument kurz beschreiben wird, wird sich der Benutzer wahrscheinlich die Bedeutung der Aktivierungsphrase erinnern. Der Benutzer kann dann den Link dadurch aktivieren, dass er einen Befehl mit eigenen Worten gibt, was erkannt und einwandfrei mit dem entsprechenden Link assoziiert wird.
Nach einer Entwicklung der vorliegenden Erfindung benutzt das System Wörterbuchmittel um zu ermitteln, ob Eingabetextdaten eine ähnliche Bedeutung haben wie eine Aktivierungsphrase. Für eine Vielzahl von Suchwörtern können aus den Wörterbuch mitteln verbundene Wörter erfasst werden. Die verbundene Wörter haben eine Bedeutung, die mit der des Suchwortes verbunden ist. Es wird insbesondere bevorzugt, dass verbundene Wörter die gleiche Bedeutung (Synonyme), eine übergeordnete oder untergeordnete Bedeutung (Hypernyme, Hyponyme) haben oder in einer ganzen/teilweisen Beziehung zu dem Suchwort stehen (Holonyme, Meronyme).
Zum Herausfinden einer übereinstimmenden Bedeutung werden verbundene Wörter erfasst für Wörter, die sich entweder in den Eingabetextdaten, oder in der Aktivierungsphrase oder in beiden befinden. Danach wird das verbundene Wort in dem Vergleich der Aktivierungsphrase und der Texteingabe verwendet. Auf diese Weise wird eine Übereinstimmung gefunden, wenn der Benutzer in seinem Aktivierungsbefehl einen alternativen, aber im Vergleich zu der genauen Aktivierungsphrase in der Bedeutung verbundenen Term verwendet.
Nach einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabenbefehl und der Aktivierungsphrase durch Anwendung des latenten semantischen Analysenverfahrens (LSA), oder eines demselben ähnlichen Verfahrens. LSA ist ein Verfahren der Verwendung statistischer Information, extrahiert aus einer Anzahl Dokumente um ein Maß der Ähnlichkeit in der Bedeutung für Wort/Wort-, Wort/Phrase- und Phrase/Phrase-Paare zu geben. Es hat sich herausgestellt, dass dieses mathematisch hergeleitetes Maß der Ähnlichkeit dem menschlichen Verständnis von Wörtern und Phrasen durchaus nahe kommt. In dem vorliegenden Kontext kann LSA auf vorteilhafte Weise angewandt werden um zu ermitteln, ob eine Aktivierungsphrase und eine Sprachbefehleingabe von dem Benutzer (Texteingabedaten) eine ähnliche Bedeutung haben.
Nach einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase durch Informationserfassungsverfahren, die auf einem Vergleich der zwei Phrasen beruht um gemeinsame Wörter zu linden, und durch Gewichtung dieser gemeinsamen Auftritt durch die invertierte Dokumentfrequenz des gemeinsamen Wortes. Die invertierte Dokumentfrequenz für ein Wort kann durch Ermittlung der Anzahl Auftritte dieses Wortes in der betreffenden Aktivierungsphrase berechnet werden, und durch Teilung dieses Wertes durch die Summe der Auftritte dieses Wortes in allen Aktivierungsphrasen für alle Links in dem betreffenden Dokument.
Nach wieder einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase durch Anwendung weicher Konzepte. Dieses Verfahren richtet sich auf Wortsequenzen. Sequenzen von Wörtern, die in den Aktivierungsphrasen auftreten, werden verarbeitet. Ein Übereinstimmung der Eingabetextdaten wird durch Verarbeitung dieser Wortsequenzen erhalten.
In einer bevorzugten Ausführungsform werden Sprachmodelle für jeden Link trainiert, was die Wortsequenzfrequenzen der entsprechenden Aktivierungsphrasen ergibt. Auf vorteilhafte Weise können die Modelle unter Anwendung bekannter Techniken geglättet werden um eine gute Verallgemeinerung zu erhalten. Auch kann das Hintergrundmodell trainiert werden. Wenn versucht wird eine Übereinstimmung zu finden. Wird die Übereinstimmung der Texteingabedaten mit diesen Modellen ermittelt.
Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 eine symbolische Darstellung einer ersten Ausführungsform eines Audio-Dialogsystems,
2 eine symbolische Darstellung eines Hyperlinks in einem System nach 1,
3 eine symbolische Darstellung einer Übereinstimmung und von Wörterbuchmitteln in dem System nach 1,
4 einen Teil einer zweiten Ausführungsform eines Audio-Dialogsystems.
In 1 ist ein Audio-Dialogsystem 10 dargestellt. Das System 10 umfasst eine Audioschnittstelle 12, einen Sprachbrowser 14 und eine Anzahl Dokumente D1, D2, D3.
In dem Ausführungsbeispiel nach 1 ist die Audioschnittstelle 12 ein Telefon, das über das Telefonnetzwerk 16 mit dem Sprachbrowser 14 verbunden ist. Seinerseits kann der Sprachbrowser 14 über ein Datennetzwerk 18, beispielsweise ein LAN, oder übers Internet, auf die Dokumente D1, D2, D3 zugreifen.
Der Sprachbrowser 14 umfasst eine Spracherkennungseinheit 20, die mit der Audioschnittstelle 12 verbunden ist, die Audioeingabe in erkannten Textdaten 21 umsetzt. Die Textdaten 21 werden einer zentralen Browsingeinheit 22 zugeführt. Die zentrale Brow singeinheit 22 liefert Ausgangstextdaten 24 zu einer Sprachsyntheseeinheit 26, welche die Ausgangstextdaten 24 in ein Ausgangssprachaudiosignal umsetzt, das über das Telefonnetzwerk 16 und die Audioschnittstelle 12 einem Benutzer zugeführt wird.
In 1 sind das Dialogsystem 10 und insbesondere der Sprachbrowser 14 nur schematisch mit ihren Funktionseinheiten dargestellt. In einer wirklichen Implementierung würde der Sprachbrowser 14 ein Computer mit einer Verarbeitungseinheit, beispielsweise einem Mikroprozessor, und mit einem Programmspeicher zur Speicherung eines Computerprogramms sein, das, wenn von der Verarbeitungseinheit durchgeführt, die Funktion des Sprachbrowsers 14, wie nachstehend beschrieben, durchführt. Die Sprachsynthese und die Spracherkennung können beide auch in Software implementiert werden. Dies sind durchaus bekannte Techniken und werden deswegen an dieser Stelle nicht weiter beschrieben.
Auf Hypertextdokumente D1, D2, D3 kann über das Netzwerk 18 unter Verwendung einer Netzwerkadresse zugegriffen werden. In dem Beispiel nach 1 wird aus Gründen der Einfachheit vorausgesetzt, dass die Netzwerkadresse dem Bezugszeichen entspricht. Techniken um ein Dokument in einem Datennetzwerk, wie im Internet, verfügbar zu machen, wie beispielsweise das http Protokoll, sind dem Fachmann durchaus bekannt und werden an dieser Stelle nicht näher beschrieben.
Hypertextdokumente D1, D2, D3 sind Textdokumente, die in XML-Format formatiert werden. Nachstehend ist ein vereinfachtes Beispiel eines Quellencodes für das Dokument D1 gegeben:
Das Dokument D1 enthält Textinhalt, der verfügbare Information über Vögel enthält. Der Quellencode des Dokumentes D1 enthält zwei Links Ln1, Ln2.
Der erste Link Ln1, wie in dem oben stehenden Quellentext für das Dokument D1 gegeben, ist in 2 dargestellt. Der Link enthält das Bezugsziel, hier D2. Der Link enthält auch eine Anzahl gültiger Aktivierungsphrasen. Diese sind die Phrasen, die ein Benutzer aussprechen kann um den Link Ln1 zu aktivieren.
Im Betrieb des Systems 10 nach 1, greift der Sprachbrowser 14 auf das Dokument D1 zu und liest den Inhalt über die Audio-Schnittstelle 12 zu einem Benutzer aus. Die zentralen Einheiten 22 extrahieren den Inhaltstext und senden diesen als Textdaten 24 zu der Sprachsyntheseeinheit 26, welche die Textdaten 24 in ein Audiosignal umsetzt, das über das Telefonnetzwerk 16 zu dem Benutzer übertragen und per Telefon 12 wiedergegeben wird.
Beim Auslesen des Textinhaltes des Dokumentes D1, werden die Links Ln1, Ln2 gefunden. Die zentrale Einheit 22 erkennt die Linkanhänger und verarbeitet die Links Ln1, Ln2 auf entsprechende Weise. Die Linkphrase (beispielsweise für den Link Ln1: "erkenne Vögel an ihrer Silhouette") wird dem Benutzer auf eine Art und Weise vorgelesen, dass es für den Benutzer erkennbar ist, dass diese Phrase zum Aktivieren eines Links verwendet werden kann. Um dies zu erreichen wird der Linkphrase ein bestimmter Ton zuge fügt, beispielsweise künstlich verzerrt, oder die Phrase wird auf eine spezielle Art und Weise gelesen (Stimmhöhe, Lautstärke, usw.).
Zu jeder Zeit während des Auslesevorgangs des Dokumentes kann der Benutzer Sprachbefehle über die Audio-Schnittstelle 12 eingeben, die bei der zentralen Einheit 22 als Texteingabe 21 empfangen werden. Diese Wortbefehle können benutzt werden um einen der Links in dem betreffenden Dokument zu aktivieren. Um zu erkennen, ob ein bestimmter Sprachbefehl gemeint ist, einen Link zu aktivieren, wird der Sprachbefehl mit den gültigen Linkaktivierungsphrasen verglichen, die für die Links des betreffenden Dokumentes gegeben sind. Dies ist in 3 dargestellt. In dieser Figur besteht eine Sprachbefehl 21 aus drei Worten 21a, 21b, 21c. In einem ersten Schritt werden diese Worte mit allen gültigen Aktivierungsphrasen in dem betreffenden Dokument verglichen. In 3 wird eine aus drei Worten 28a, 28b, 28c bestehende Aktivierungsphrase 28 mit dem Sprachbefehl 21 verglichen. Im Falle einer genauen Übereinstimmung, beispielsweise wenn die Worte 21a, 21b, 21c den Worten 28a, 28b, 28c in dem gegebenen Befehl genau entsprechen, wird der entsprechend bezeichnete Link aktiviert.
Bei Aktivierung eines Links beendet die zentrale Einheit 22 die Verarbeitung des betreffenden Dokumentes D1 und setzt die Verarbeitung des als Bezugsziel bezeichneten Dokumentes, in dem vorliegenden Fall des Dokumentes D2, fort. Das neue Dokument D2 wird danach auf gleiche Weise wie D1 vorher verarbeitet.
Die zentrale Einheit 22 aber erfordert nicht eine genaue, entsprechende Übereinstimmung des Sprachbefehls 21 mit der Linkaktivierungsphrase 28. Stattdessen wird ein Sprachbefehl als einen bestimmten Link bezeichnend erkannt, wenn der Sprachbefehl 21 und eine der Aktivierungsphrasen 28 des Links eine ähnliche Bedeutung haben.
Um automatisch zu beurteilen, ob die zwei Phrasen eine ähnliche Bedeutung haben, wird in der ersten Ausführungsform eine Wörterbuchdatenbank 30 verwendet. Die Datenbank 30 enthält eine Vielzahl von Datenbankeingaben 32, 33, 34, aus denen nur drei Beispiele in 3 dargestellt sind. In jeder Datenbankeingabe wird für einen Suchterm 32a eine Anzahl verbundener Terme 32b, 32c, 32d gegeben.
Während in einer einfachen Ausführungsform die Datenbank 30 ein Thesaurus sein kann, wobei für jeden Suchterm nur Synonyme (Terme mit gleicher Bedeutung) ermittelt werden können, wird bevorzugt, eine Datenbank mit einem breiteren Bereich zu benutzen, die nebst Synonymen auch superordinierte Terme, die allgemeiner sind als der Suchterm (Hypernyme), subordinierte Terme, die spezifischer sind als der Suchterm (Hyponyme), Teilnamen, die einen Teil eines größeren Ganzen nennen, bezeichnet durch den Suchterm (Meronyme) und ganze Namen, die das Ganze nennen, von dem der Suchterm ein Teil ist (Holonyme) gibt. Eine entsprechende elektronische elektrische Datenbank, auf die auch übers Internet zugegriffen werden kann, ist "WordNet", erhältlich bei der Princeton Universität, beschrieben in dem Buch: "WordNet, An Electronic Lexical Database" von Christiane Fellbaum (Autor), Bradford Books, 1998.
In dem Fall, dass keine identische Übereinstimmung für die Phrasen 21, 28 gefunden worden ist, greift die zentrale Einheit 22 auf die Datenbank 30 zu um verbundene Terme für jedes der Worte 28a, 28b, 28c der Aktivierungsphrase 28 zu ermitteln.
Es wird nun beispielsweise vorausgesetzt, dass die Aktivierungsphrase 28 für den Link Ln1: "Erkennung durch Silhouette" ist. Weiterhin wird vorausgesetzt, dass der Benutzerbefehl 21"Erkennung durch Form" ist, was in dem vorliegenden Kontext dieselbe Bedeutung hat. Die Phrasen 21 und 28 sind aber nicht identisch und in einem ersten Schritt wird keine Übereinstimmung gefunden.
Zur Überprüfung der Phrasen auf eine übereinstimmende Bedeutung greift die zentrale Einheit 22 auf die Datenbank 30 zu. Für den Suchterm "Silhouette" 32a gibt die Datenbank 30 verbundene Wörter "Umriss" 32b, "Form" 32c und "Darstellung" 32d. Unter Verwendung dieser Information erweitert die zentrale Einheit 22 die gültige Aktivierungsphrase 28 auf die entsprechenden Alternativen "Erkennung durch Umriss", "Erkennung durch Form", usw.
Wenn die auf diese Weise erweiterte Aktivierungsphrase "Erkennung durch Form" mit dem Benutzerbefehl 21 verglichen wird, wird die zentrale Einheit diese als identisch beurteilen und folglich eine Übereinstimmung zwischen der Benutzereingabe und dem ersten Link Ln1 finden. Die zentrale Einheit wird auf diese Weise diesen Link Ln1 aktivieren und übereinstimmen durch ständige Verarbeitung an der gegebenen Bezugszieladresse (D2).
4 zeigt eine zentrale Einheit 22a einer zweiten Ausführungsform der vorliegenden Erfindung. In der zweiten Ausführungsform der vorliegenden Erfindung ist die Struktur eines Audio-Dialogsystems die gleiche wie in 1. Der Unterschied zwischen der ersten und der zweiten Ausführungsform ist, dass in der zweiten Ausführungs form die Ermittlung, wenn die Phrasen 21 und 28 die gleiche Bedeutung haben, anders durchgeführt wird.
In der zweiten Ausführungsform nach 4 werden die Phrasen 21 und 28 dadurch miteinander verglichen, dass aus einer LSA Einheit 40 eine Kohärenzauswertung erhalten wird.
Die LSA Einheit 40 vergleicht die Phrasen 21, 28 durch Anwendung latenter semantischer Analyse (LSA). LSA ist eine mathematische, völlig automatische Technik, die angewandt werden kann um die Ähnlichkeit zweier Texte zu messen. Diese Texte können einzelne Wörter, Sätze oder Paragraphen sein. Unter Anwendung von LSA kann ein numerischer Wert ermittelt werden, der repräsentativ ist für den Grad, in dem die zwei semantisch relatiert sind.
Es gibt viele Quellen, die das LSA Verfahren detailliert beschreiben. Eine Übersicht lässt sich unter: http://lsa.colorado.edu/whatis.html finden. Für weitere Einzelheiten sei auf die Akten, aufgereiht unter: http://lsa.colorado.edu/papers.html verwiesen. Eine gut verständliche Erläuterung des Verfahrens ist in "Latent Problem Solving Analysis (LPSA): A computational theory of representation in complex, dynamic Problem solving tasks", Dissertation, University of Granada (2003), insbesondere Abschnitt 2, von J. F. Quesada gegeben.
Auch hier sei wieder bemerkt, dass die LSA Einheit 40 nur zur Illustration der Art und Weise, wie das LSA Verfahren in einem Sprachbrowser integriert ist, dargestellt ist. In einer echten Implementierung würde die komplette Funktion des Sprachbrowsers, einschließlich der zentralen Einheit 22a zum Vergleichen von Phrasen 21 und 28, und einer Verwirklichung dieses Vergleichs durch LSA vorzugsweise als ein einziger Software-Item implementiert werden.
LSA ist ein Informationsermittlungsverfahren, das Vektorraummodellierung benutzt. Es basiert auf der Modellierung des semantischen Raums einer Domäne als einen hochdimensionalen Vektorraum. Die bemessenen Variablen dieses Vektorraums sind Wörter (oder Wortfamilien).
In dem vorliegenden Kontext von Aktivierungsphrasen sind die verfügbaren Dokumente, verwendet als Trainingsraum, die Aktivierungsphrasen für die verschiedenen Links in dem aktuell verarbeiteten Hypertextdokument D1. Aus diesem Trainingsraum wird eine mit auftretende Matrix A der Größe N×K extrahiert: Für jedes von N möglichen Wör tern wird die Anzahl Auftritt dieser Wörter in den k Dokumenten in dem Trainingsraum in dem entsprechenden Matrixwert gegeben. Um Beeinflussung durch Wörter zu vermeiden, die in einer Vielzahl von Kontexten auftreten, kann die Zusammentreffmatrix unter Anwendung spezieller Filterfunktionen gefiltert werden.
Diese (möglicherweise gefilterte) Matrix A wird einer bemerkenswerten Wertzerlegung (SVD) ausgesetzt, die eine Form von Faktoranalyse ist, welche die Matrix in das Produkt aus drei Matrizes U D V^T zerlegt, wobei D eine digitale Matrix der Größe K×K ist mit den bemerkenswerten Werten auf der Diagonale und allen anderen Werten Null. U ist eine quadratische orthogonale N×N Matrix und umfasst die Eigenvektoren von A. Diese Zerlegung ergibt einen projizierten semantischen Raum, beschrieben durch diese Eigenvektoren.
Eine dimensionale Reduktion des semantischen Raums kann auf vorteilhafte Weise dadurch eingeführt werden, dass nur eine begrenzte Anzahl einzelner Werte selektiert wird, d.h. die größten einzelnen Werte und nur unter Verwendung der entsprechenden Eigenvektoren. Diese dimensionale Reduktion kann als Störung eliminierend betrachtet werden.
Die semantische Bedeutung einer Phrase kann dann als die Richtung des entsprechenden Vektors in dem erreichten semantischen Raum interpretiert werden. Eine semantische Beziehung zwischen zwei Phrasen kann durch Berechnung eines skalaren Produktes aus den entsprechenden Vektoren quantifiziert werden. So ist beispielsweise das Euklidische Produkt aus zwei Vektoren (gleicher Länge) abhängig von dem Kosinus des Winkels zwischen den Vektoren, der gleich Eins für parallele Vektoren und gleich Null für senkrecht aufeinander stehende Vektoren ist.
Dieser numerische Wert kann hier zum Quantisieren des Grades, bis Texteingabendaten 21 eines Benutzers und eine gültige Aktivierungsphrase 28 die gleiche Bedeutung haben.
Die LSA Einheit bestimmt diesen Wert für alle Aktivierungsphrasen. Wenn alle Werte unterhalb einer bestimmten Schwelle liegen, wird keiner der Links aktiviert und dem Benutzer wird eine Fehlernachricht zugeführt. Sonst wird die Aktivierungsphrase mit dem maximalen Wert "erkannt" und der entsprechende Link wird aktiviert.
Das oben beschriebene LSA Verfahren kann verschiedenartig implementiert werden. Das Verfahren ist effektiver, wenn ein großer Trainingsraum verfügbar ist. In dem vorliegenden Kontext wird der Trainingsraum durch die gültigen Aktivierungsphrasen gegeben. In Fällen, in denen der Autor eines Dokumentes sich nicht sehr der Ermittlung von Aussprachen des Benutzers für einen bestimmten Link gewidmet hat, ist die Anzahl Aktivierungsphrasen gering. Aber der Trainingsraum kann dadurch erweitert werden, dass auch die Dokumente berücksichtigt werden, auf welche die Links zeigen, da die Aktivierungsphrase im Allgemeinen auf den Inhalt des Dokumentes bezogen ist, das mit dem Bezugsziel übereinstimmt.
Weiterhin kann es sein, dass die Kookkurenzmatrix nicht nur die N Wörter aufweist, die wirklich in den Aktivierungsphrasen auftreten, sondern auch eine viel größere Anzahl Wörter, beispielsweise das komplette Vokabular der Spracherkennungsmittel.
In weiteren Ausführungsformen von Audio-Dialogsystemen können andere Verfahren angewandt werden um die Ähnlichkeit in der Bedeutung zwischen Eingabetextdaten 21 und Aktivierungsphrasen 28 zu ermitteln. So können beispielsweise bekannte Informationsermittlungsverfahren angewandt werden, wobei eine Auswertung als Quotient aus der Wortfrequenz (Anzahl Auftritte eines Terms in einer bestimmten Phrase) und der gesamten Wortfrequenz (Gesamtauftritt dieses Terms in allen Phrasen) ermittelt wird. Phrasen werden durch Zumessung, für jeden gemeinsamen Term, der Auswertung dieses bestimmten Terms verglichen. Da die Auswertung für Terme allgemeiner Bedeutung niedrig sein wird (die in vielen Phrasen vorhanden sind) und für Terme einer spezifischen Bedeutung, die verschiedene Links voneinander unterscheiden, hoch sein wird, wird die Gesamtsumme an Auswertungen für jedes Phrasenpaar einen Grad angeben, in dem diese Phrasen übereinstimmen.
In noch einer anderen Ausführungsform können sog. Weiche Konzepte angewandt werden um eine Ähnlichkeit zwischen Eingabetextdaten 21 und Aktivierungsphrasen 28 zu ermitteln. Dies umfasst das Vergleichen der zwei Phrasen nicht nur in Bezug auf einfache allgemeine Terme, sondern auch in Bezug auf charakteristische Sequenzen von Termen. Die übereinstimmenden Verfahren sind ebenfalls als konzeptabhängige/konzeptspezifische Sprachmodelle bekannt.
Wenn "weiche Konzepte" angewandt werden, wird eine Wortsequenzfrequenz auf Basis eines Trainingsraums ermittelt. In dem vorliegenden Kontext wäre der Trainingsraum die gültigen Aktivierungsphrasen aller Links in dem betreffenden Dokument. Jeder der Links würde als ein semantisches Konzept betrachtet. Für jedes Konzept wird ein Sprachmodell auf den verfügbaren Aktivierungsphrasen trainiert. Auch wird ein Hintergrundmodell ermittelt, beispielsweise unter Verwendung eines allgemeinen Textes in der entsprechenden Sprache, und zwar als Konkurrent der konzeptspezifischen Modelle. Die Modelle können geglättet werden um eine gute Verallgemeinerung zu erreichen.
Wenn die Eingabetestdaten 21 danach mit den Modellen übereinstimmen, werden Auswertungen zugeordnet, die eine Übereinstimmung mit jedem der Sprachmodelle angeben. Eine hohe Auswertung für ein bestimmtes Modell gibt eine gute Übereinstimmung für den entsprechenden Link an. Wenn das allgemeine Sprachmodell "gewinnt", wird keine Übereinstimmung gefunden.
Der Link mit dem "gewinnenden" Sprachmodell wird aktiviert.
Das Weichkonzeptverfahren wird in den nachfolgenden Dokumenten genannt: Souvignier, B., Kellner, A., Rueber, B., Schramm, H., und Seide, F. "The thoughtful Elephant: Strategies for Spoken Dialog Systems", IEEE-SPAU, 2000, Vol 8, n° 1, p. 51–62. Weitere Einzelheiten über dieses Verfahren werden gegeben in dem Dokument: Kellner, A., Portele, T., "SPICE – A Multimodal Conversational User Interface to an Electronic Program Guide", ICSA-Tutorial and Research Workshop an Multi-Modal Dialogue in Mobile Environments, 2002, Kloster Irsee, Deutschland.

2

: Ziel = D2
: Gültige_Aktivierungsphrasen = "Erkennen von Vögeln durch ihre Silhouette" "Erkennen durch Silhouette"

3

32a: Silhouette
32b: Umriss
32c: Form
32d: Darstellung
33: Vogel Vogelschar Gefieder Sperrling
34: Erkennen Ermitteln Observieren Unterscheiden

Claims

Audio-Dialogsystem, das Folgendes umfasst: – eine Audioeingangseinheit (12) zum Eingeben eines Audioeingangssignals, – Spracherkennungsmittel (20), die mit der genannten Audioeingangseinheit (12) assoziiert sind, zum Umwandeln des genannten Audioeingangssignals in Texteingangsdaten (21), – eine Audioausgangseinheit (12) zum Ausliefern eines Audioausgangssignals, und Sprachsynthesemittel (26), die mit der Ausgangseinheit (12) assoziiert ist, zum Umwandeln von Textausgangsdaten (24) in das genannte Audioausgangssignal, – Browsingmittel (22) zum verarbeiten von Inhaltsdaten (D1), wobei die genannten Inhaltsdaten (D1) Textinhalt und wenigstens einen Bezugswert (Ln1, Ln2) aufweist, wobei der genannte Bezugswert eine Bezugsziel- und Aktivierungsinformation aufweist, wobei die genannte Aktivierungsinformation eine oder mehrere Aktivierungsphrasen (28) umfasst, – wobei die genannten Browsingmittel (22) derart konfiguriert sind, dass sie die genannten Sprachsynthesemittel (26) derart steuern, dass sie den genannten Textinhalt ausliefern, – wobei die genannten Browsingmittel weiterhin derart konfiguriert sind, dass sie die genannten Eingangstextdaten (21) mit der genannten Aktivierungsphrase (28) vergleichen, und im Falle einer Übereinstimmung zum Zugreifen auf Inhaltsdaten (D2) entsprechend dem genannten Bezugsziel, – wobei im Falle die genannten Textdaten (21) nicht der genannten Aktivierungsphrase (28) nicht entspricht, finden die genannten Browsingmittel (22) eine Übereinstimmung, wenn die genannten Eingangstextdaten (21) eine Bedeutung haben, die mit der genannten Aktivierungsphrase (28) übereinstimmt.
System nach Anspruch 1, wobei das genannte System weiterhin die nachfolgenden Elemente umfasst: – Verzeichnismittel (30) zum Speichern einer Anzahl Suchwörter (32), verbundener Wörter (32b, 32c, 32d) mit einer Bedeutung, die mit der Bedeutung der genannten Suchwörter (32a) verbunden ist, – wobei die genannten Browsingmittel (22) derart konfiguriert sind, dass sie verbundene Wörter (32b, 32c, 32d) für Wörter in den genannten Eingangstextdaten (21) und/oder für Wörter in der genannten Aktivierungsphrase (28) erfassen, – und die genannten verbundenen Wörter (32b, 32c, 32d) für den genannten Vergleich verwenden.
System nach Anspruch 2, wobei: – die genannten Verzeichnismittel (30) wenigstens einige der genannten Suchwörter (32a) enthalten, – verbundene Wörter (32b, 32c, 32d), die in einer oder mehreren Kategorien außerhalb der Gruppe liegen, die aus Synonymen, Hyponymen, Hypernymen, Holonymen, Meronymen besteht.
System nach einem der vorstehenden Ansprüche, wobei: – die genannten Browsingmittel (22) derart konfiguriert sind, dass eine gleichzeitig auftretende Matrix gebildet wird, die für eine Anzahl Terme und für eine Anzahl Aktivierungsphrasen die Anzahl Auftritte der genannten Terme in den genannten Phrasen gibt, – eine einzige Wertzerlegung der genannten gleichzeitig auftretenden Matrix durchgeführt wird, und zwar zum Berechnen eines semantischen Raumes, und – eine Ähnlichkeit ermittelt wird durch Darstellung der genannten Eingangsdaten (2) und der genannten Aktivierungsphrase (28) als Vektoren in dem genannten semantischen Raum, und durch Berechnung eines Maßes für den Winkel zwischen diesen Vektoren.
System nach einem der vorstehenden Ansprüche, wobei – die genannten Browsingmittel (22) derart konfiguriert sind, dass sie eine Wortfrequenz für eine Anzahl Wörter in allen Aktivierungsphrasen aller Kopplungen in den genannten Inhaltsdaten ermitteln, – eine Ähnlichkeit ermittelt wird, und zwar dadurch, dass gemeinsame Wörter in den genannten Eingangstextdaten (21) und in der genannten Aktivierungsphrase (28) gefunden werden.
System nach einem der vorstehenden Ansprüche, wobei – die genannten Browsingmittel (22) derart konfiguriert sind, dass die eine Wortfolgefre quenz für eine Anzahl Wortfolgen aller Aktivierungsphrasen (28) aller genannten Kopplungen in den genannten Inhaltsdaten ermitteln, – eine Ähnlichkeit ermittelt wird, und zwar durch Verarbeitung von Wortsequenzen der genannten Eingangstextdaten (21).
System nach einem der vorstehenden Ansprüche, wobei – für jede der genannten Kopplungen ein Sprachmodell trainiert wird, wobei das genannte Sprachmodell Wortfolgefrequenzen aufweist, – die genannten Eingangstextdaten (21) mit jedem der genannten Sprachmodelle verglichen werden, und zwar durch Ermittlung einer Auswertung, die eine Übereinstimmung der genannten Eingangstextdaten (21) mit dem genannten Modell angibt, und – die genannte ähnliche Bedeutung entsprechend der genannten Bewertung ermittelt wird.
Sprachbrowsingverfahren, das die nachfolgenden Verfahrensschritte umfasst: – Verarbeitung von Inhaltsdaten (D1), wobei die genannten Inhaltsdaten (D1) Textinhalt und wenigstens einen Bezugswert (LN1) enthalten, wobei der genannte Bezugswert Bezugsziel- und Aktivierungsinformation aufweist, wobei die genannte Aktivierungsinformation eine oder mehrere Aktivierungsphrasen (28) aufweist, – Umwandlung des genannten Textinhalts in ein Audioausgangssignal unter Anwendung von Sprachsynthese, und Auslieferung des genannten Audioausgangssignals, – Erfassung eines Audioeingangssignals, und Anwendung von Spracherkennung zum Umwandeln des genannten Audioeingangssignals in Texteingangsdaten (21), – Vergleich der genannten Texteingangsdaten (21) mit der genannten Aktivierungsphrase (28) und wobei im Falle, dass die genannten Texteingangsdaten nicht mit der genannten Aktivierungsphrase (28) übereinstimmen, angegeben wird, dass es eine Übereinstimmung gibt, wenn die genannten Eingangstextdaten (21) eine Bedeutung haben, die mit der genannten Aktivierungsphrase (28) übereinstimmt, und im Falle einer Übereinstimmung, Zugriff auf Inhaltsdaten (D2) entsprechend dem genannten Bezugsziel.