-
Die
vorliegende Erfindung bezieht sich auf ein Audio-Dialogsystem und
auf ein sprachgesteuertes Browsing-Verfahren.
-
Audio-Dialogsysteme
ermöglichen
es, dass ein menschlicher Benutzer einen Audio-Dialog mit einer automatischen
Anordnung, im Allgemeinen einem Computer, führt. Die Anordnung erteilt
dem Benutzer Information durch Verwendung natürlicher Sprache. Entsprechende
Sprachsynthesizer sind allgemein bekannt und weit verbreitet. Andererseits
akzeptiert die Anordnung Benutzereingaben in Form natürlicher
Sprache, und zwar unter Anwendung von Spracherkennungstechniken.
-
Beispiele
von Audio-Dialogsystemen umfassen beispielsweise Telefoninformationssysteme,
wie beispielsweise ein automatisches Zugfahrplaninformationssystem.
-
Der
Inhalt des Dialogs zwischen der Anordnung und dem Benutzer wird
in der Anordnung, oder an einer Fernstelle gespeichert, auf welche
die Anordnung zugreifen kann. Der Inhalt kann in einem Hypertextformat
gespeichert werden, wobei die Inhaltsdaten als ein oder mehrere
Dokumente verfügbar
ist. Die Dokumente enthalten den wirklichen Textinhalt, der durch
Formatbeschreiber formatiert werden, die als Anhänger bezeichnet werden. Eine
spezielle Art von Anhänger
ist ein Bezugsanhänger,
oder ein Link. Ein Bezugswert bezeichnet ein Bezugsziel, das ein
anderer Teil des anwesenden Inhaltsdokumentes oder eines anderen
Hypertextdokumentes ist. Jeder Bezugswert umfasst auch Aktivierungsinformation,
die einem Benutzer die Möglichkeit
bietet, den bezugswert oder den Link durch die Aktivierungsinformation
zu selektieren. Ein Standard Hypertextdokumentformat ist das XML
Format.
-
Es
sind Audio-Dialogsysteme verfügbar,
die Benutzern die Möglichkeit
bieten, über
einen Nur-Audiokanal auf Hypertextdokumente zuzugreifen. Da das
Auslesen von Hypertextdokumenten im Allgemeinen als "Browsing" bezeichnet wird,
werden diese Systeme auch als "Voice
browsers" bezeichnet.
US-A-5.884.266 beschreibt
ein derartiges Audio-Dialogsystem, das einem Benutzer die Inhaltsdaten
eines Hypertextdokumentes als Sprache liefert.
-
Wenn
die Dokumente Bezugswerte enthalten, wird die entsprechende Aktivierungsinformation,
hier als eine Aktivierungsphrase mit der Bezeichnung "link identifier" gegeben, als Sprache
für den
Benutzer ausgelesen, während
der Link-Identifizierer unter Anwendung bestimmter Schallcharakteristiken
unterschieden wird. Dies kann eine aurale Wiedergabe des Link-Identifizierertextes
mit einer bestimmten Stimmhöhe,
einer bestimmten Lautstärke
oder einer anderen Schall- oder Audiocharakteristik aufweisen, die
von einem Benutzer als ungleich des umgebenden Textes durchaus erkennbar
ist. Zum Aktivieren eines Links kann ein Benutzer Sprachbefehle
geben, entsprechend dem Link-Identifizierer oder der Aktivierungsphrase.
Der Sprachbefehl des Benutzers wird in ein Spracherkennungssystem
umgewandelt und in einem Befehlsprozessor verarbeitet. Wenn die
Spracheingabe dem Link-Identifizierer oder der Aktivierungsphrase
entspricht, wird der Sprachbefehl unter Verwendung der Linkadresse
(Bezugsziel) durchgeführt
und das Auslesen der Textinformation zu dem Benutzer von der betreffenden
Adresse her wird fortgesetzt.
-
Ein
Beispiel eines speziellen Formats für Hypertextdokumente abgezielt
auf Bur-Audiosysteme ist "VoiceXML". In der aktuellen "W3C candidates recommendation
of Voice Extensible Markup Language (Voice XML)" Version 2.0, können die Aktivierungsphrasen,
die mit einem Link assoziiert sind, als interne oder externe Grammatik
gegeben werden. Auf diese Weise können eine Vielzahl gültiger Aktivierungsphrasen
spezifiziert werden. Die Benutzerspracheingabe soll einer dieser
Aktivierungsphrasen genau entsprechen, damit ein Link aktiviert
wird.
-
Wenn
die Benutzereingabe einer der Aktivierungsphrasen nicht genau entspricht,
wird der Benutzer meistens eine Fehlernachricht erhalten, in der
es heißt,
dass die Eingabe nicht erkannt wurde. Um dies zu vermeiden muss
der Benutzer sich die ihm angebotenen Aktivierungsphrasen genau
merken, oder der Autor des Inhaltsdokumentes muss mögliche Benutzersprachbefehle
vorwegnehmen, die als Aktivierungsphrasen für einen bestimmten Link brauchbar
wären.
-
Ein
weiteres Beispiel eines bekannten Sprachbrowsers ist in
EP-A-1168300 beschrieben
worden.
-
Es
ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein Audio-Dialogsystem und
ein Sprachbrowsingverfahren zu schaffen, durch die eine einfache,
intuitive Aktivierung eines Bezugswertes durch den Benutzer ermöglicht wird.
-
Diese
Aufgabe wird nach der vorliegenden Erfindung durch ein Audio-Dialogsystem nach
Anspruch 1 und ein Sprachbrowsingverfahren nach Anspruch 8 gelöst. Die
Unteransprüche
beziehen sich auf bevorzugte Ausführungsformen.
-
Ein
System nach der vorliegenden Erfindung umfasst eine Audioeingabeeinheit
mit Spracherkennungsmitteln und einen Audio-Ausgang mit Sprachsynthesizermitteln.
Das System umfasst weiterhin Browsingmittel. Es sei bemerkt, dass
diese Terme sich nur auf funktionellen Entitäten beziehen und dass in einem bestimmten
System die genannten Mittel nicht unbedingt als physikalische Einzelgebilde
vorhanden zu sein brauchen. Es wird insbesondere bevorzugt, dass
wenigstens die Browsingmittel als von einem Computer durchführte Software
implementiert wird. Spracherkennungs- und Sprachsynthesemittel sind
ohne weiteres für den
Fachmann verfügbar,
und können
als separate Entitäten
implementiert werden, oder, auf alternative Weise, als Software,
die in demselben Computer läuft,
wie die Software, welche die Browsingmittel implementiert.
-
Nach
der vorliegenden Erfindung wird ein Audio-Eingangssignal (Benutzersprachbefehl)
von Sprache in Texteingabedaten umgewandelt und mit den Aktivierungsphrasen
in dem aktuell verarbeiteten Dokument verglichen. Wie vorher bekannt,
wird im falle einer genauen Übereinstimmung,
d.h. Eingabetextdaten identisch zu einer bestimmten Aktivierungsphrase,
der Bezugswert oder der Link aktiviert durch Zugriff auf Inhaltsdaten entsprechend
dem Bezugsziel.
-
Im
Gegensatz zu bereits bekannten Dialogsystemen und Sprachbrowsingverfahren
kann eine Übereinstimmung
auch gefunden werden, wenn die Texteingabedaten nicht einer Aktivierungsphrase
genau entsprechen, sondern eine ähnliche
Bedeutung haben.
-
Auf
diese Weise wird in einem Dialogsystem oder in einem Sprachbrowsingverfahren
nach der vorliegenden Erfindung der Benutzer nicht länger gezwungen,
sich die Aktivierungsphrase genau zu merken. Dies ist besonders
vorteilhaft in einem Dokument mit vielen Links. Der Benutzer kann
nach dem Anhören
aller verfügbaren
Möglichkeit
eine Wahl machen. Er braucht dann nicht länger sich die genaue Aktivierungsphrase
des, sagen wir ersten oder zweiten Links in dem Dokument zu erinnern.
Da die Aktivierungsphrase im Allgemeinen das gelinkte Dokument kurz
beschreiben wird, wird sich der Benutzer wahrscheinlich die Bedeutung
der Aktivierungsphrase erinnern. Der Benutzer kann dann den Link
dadurch aktivieren, dass er einen Befehl mit eigenen Worten gibt,
was erkannt und einwandfrei mit dem entsprechenden Link assoziiert
wird.
-
Nach
einer Entwicklung der vorliegenden Erfindung benutzt das System
Wörterbuchmittel
um zu ermitteln, ob Eingabetextdaten eine ähnliche Bedeutung haben wie
eine Aktivierungsphrase. Für
eine Vielzahl von Suchwörtern
können
aus den Wörterbuch mitteln
verbundene Wörter
erfasst werden. Die verbundene Wörter
haben eine Bedeutung, die mit der des Suchwortes verbunden ist.
Es wird insbesondere bevorzugt, dass verbundene Wörter die
gleiche Bedeutung (Synonyme), eine übergeordnete oder untergeordnete
Bedeutung (Hypernyme, Hyponyme) haben oder in einer ganzen/teilweisen
Beziehung zu dem Suchwort stehen (Holonyme, Meronyme).
-
Zum
Herausfinden einer übereinstimmenden
Bedeutung werden verbundene Wörter
erfasst für
Wörter,
die sich entweder in den Eingabetextdaten, oder in der Aktivierungsphrase
oder in beiden befinden. Danach wird das verbundene Wort in dem
Vergleich der Aktivierungsphrase und der Texteingabe verwendet.
Auf diese Weise wird eine Übereinstimmung
gefunden, wenn der Benutzer in seinem Aktivierungsbefehl einen alternativen,
aber im Vergleich zu der genauen Aktivierungsphrase in der Bedeutung
verbundenen Term verwendet.
-
Nach
einer anderen Ausführungsform
der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit
in der Bedeutung zwischen dem Eingabenbefehl und der Aktivierungsphrase
durch Anwendung des latenten semantischen Analysenverfahrens (LSA),
oder eines demselben ähnlichen
Verfahrens. LSA ist ein Verfahren der Verwendung statistischer Information,
extrahiert aus einer Anzahl Dokumente um ein Maß der Ähnlichkeit in der Bedeutung
für Wort/Wort-,
Wort/Phrase- und Phrase/Phrase-Paare zu geben. Es hat sich herausgestellt,
dass dieses mathematisch hergeleitetes Maß der Ähnlichkeit dem menschlichen
Verständnis von
Wörtern
und Phrasen durchaus nahe kommt. In dem vorliegenden Kontext kann
LSA auf vorteilhafte Weise angewandt werden um zu ermitteln, ob
eine Aktivierungsphrase und eine Sprachbefehleingabe von dem Benutzer
(Texteingabedaten) eine ähnliche
Bedeutung haben.
-
Nach
einer anderen Ausführungsform
der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit
in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase
durch Informationserfassungsverfahren, die auf einem Vergleich der
zwei Phrasen beruht um gemeinsame Wörter zu linden, und durch Gewichtung
dieser gemeinsamen Auftritt durch die invertierte Dokumentfrequenz
des gemeinsamen Wortes. Die invertierte Dokumentfrequenz für ein Wort
kann durch Ermittlung der Anzahl Auftritte dieses Wortes in der
betreffenden Aktivierungsphrase berechnet werden, und durch Teilung
dieses Wertes durch die Summe der Auftritte dieses Wortes in allen
Aktivierungsphrasen für
alle Links in dem betreffenden Dokument.
-
Nach
wieder einer anderen Ausführungsform
der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit
in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase
durch Anwendung weicher Konzepte. Dieses Verfahren richtet sich
auf Wortsequenzen. Sequenzen von Wörtern, die in den Aktivierungsphrasen
auftreten, werden verarbeitet. Ein Übereinstimmung der Eingabetextdaten
wird durch Verarbeitung dieser Wortsequenzen erhalten.
-
In
einer bevorzugten Ausführungsform
werden Sprachmodelle für
jeden Link trainiert, was die Wortsequenzfrequenzen der entsprechenden
Aktivierungsphrasen ergibt. Auf vorteilhafte Weise können die
Modelle unter Anwendung bekannter Techniken geglättet werden um eine gute Verallgemeinerung
zu erhalten. Auch kann das Hintergrundmodell trainiert werden. Wenn
versucht wird eine Übereinstimmung
zu finden. Wird die Übereinstimmung
der Texteingabedaten mit diesen Modellen ermittelt.
-
Ausführungsbeispiele
der vorliegenden Erfindung sind in der Zeichnung dargestellt und
werden im Folgenden näher
beschrieben. Es zeigen:
-
1 eine
symbolische Darstellung einer ersten Ausführungsform eines Audio-Dialogsystems,
-
2 eine
symbolische Darstellung eines Hyperlinks in einem System nach 1,
-
3 eine
symbolische Darstellung einer Übereinstimmung
und von Wörterbuchmitteln
in dem System nach 1,
-
4 einen
Teil einer zweiten Ausführungsform
eines Audio-Dialogsystems.
-
In 1 ist
ein Audio-Dialogsystem 10 dargestellt. Das System 10 umfasst
eine Audioschnittstelle 12, einen Sprachbrowser 14 und
eine Anzahl Dokumente D1, D2, D3.
-
In
dem Ausführungsbeispiel
nach 1 ist die Audioschnittstelle 12 ein Telefon,
das über
das Telefonnetzwerk 16 mit dem Sprachbrowser 14 verbunden
ist. Seinerseits kann der Sprachbrowser 14 über ein
Datennetzwerk 18, beispielsweise ein LAN, oder übers Internet,
auf die Dokumente D1, D2, D3 zugreifen.
-
Der
Sprachbrowser 14 umfasst eine Spracherkennungseinheit 20,
die mit der Audioschnittstelle 12 verbunden ist, die Audioeingabe
in erkannten Textdaten 21 umsetzt. Die Textdaten 21 werden
einer zentralen Browsingeinheit 22 zugeführt. Die
zentrale Brow singeinheit 22 liefert Ausgangstextdaten 24 zu
einer Sprachsyntheseeinheit 26, welche die Ausgangstextdaten 24 in
ein Ausgangssprachaudiosignal umsetzt, das über das Telefonnetzwerk 16 und
die Audioschnittstelle 12 einem Benutzer zugeführt wird.
-
In 1 sind
das Dialogsystem 10 und insbesondere der Sprachbrowser 14 nur
schematisch mit ihren Funktionseinheiten dargestellt. In einer wirklichen
Implementierung würde
der Sprachbrowser 14 ein Computer mit einer Verarbeitungseinheit,
beispielsweise einem Mikroprozessor, und mit einem Programmspeicher
zur Speicherung eines Computerprogramms sein, das, wenn von der
Verarbeitungseinheit durchgeführt,
die Funktion des Sprachbrowsers 14, wie nachstehend beschrieben,
durchführt.
Die Sprachsynthese und die Spracherkennung können beide auch in Software
implementiert werden. Dies sind durchaus bekannte Techniken und werden
deswegen an dieser Stelle nicht weiter beschrieben.
-
Auf
Hypertextdokumente D1, D2, D3 kann über das Netzwerk 18 unter
Verwendung einer Netzwerkadresse zugegriffen werden. In dem Beispiel
nach 1 wird aus Gründen
der Einfachheit vorausgesetzt, dass die Netzwerkadresse dem Bezugszeichen
entspricht. Techniken um ein Dokument in einem Datennetzwerk, wie
im Internet, verfügbar
zu machen, wie beispielsweise das http Protokoll, sind dem Fachmann
durchaus bekannt und werden an dieser Stelle nicht näher beschrieben.
-
Hypertextdokumente
D1, D2, D3 sind Textdokumente, die in XML-Format formatiert werden.
Nachstehend ist ein vereinfachtes Beispiel eines Quellencodes für das Dokument
D1 gegeben:
-
Das
Dokument D1 enthält
Textinhalt, der verfügbare
Information über
Vögel enthält. Der
Quellencode des Dokumentes D1 enthält zwei Links Ln1, Ln2.
-
Der
erste Link Ln1, wie in dem oben stehenden Quellentext für das Dokument
D1 gegeben, ist in 2 dargestellt. Der Link enthält das Bezugsziel,
hier D2. Der Link enthält
auch eine Anzahl gültiger
Aktivierungsphrasen. Diese sind die Phrasen, die ein Benutzer aussprechen
kann um den Link Ln1 zu aktivieren.
-
Im
Betrieb des Systems 10 nach 1, greift
der Sprachbrowser 14 auf das Dokument D1 zu und liest den
Inhalt über
die Audio-Schnittstelle 12 zu einem Benutzer aus. Die zentralen
Einheiten 22 extrahieren den Inhaltstext und senden diesen
als Textdaten 24 zu der Sprachsyntheseeinheit 26,
welche die Textdaten 24 in ein Audiosignal umsetzt, das über das
Telefonnetzwerk 16 zu dem Benutzer übertragen und per Telefon 12 wiedergegeben
wird.
-
Beim
Auslesen des Textinhaltes des Dokumentes D1, werden die Links Ln1,
Ln2 gefunden. Die zentrale Einheit 22 erkennt die Linkanhänger und
verarbeitet die Links Ln1, Ln2 auf entsprechende Weise. Die Linkphrase
(beispielsweise für
den Link Ln1: "erkenne
Vögel an
ihrer Silhouette")
wird dem Benutzer auf eine Art und Weise vorgelesen, dass es für den Benutzer
erkennbar ist, dass diese Phrase zum Aktivieren eines Links verwendet
werden kann. Um dies zu erreichen wird der Linkphrase ein bestimmter
Ton zuge fügt,
beispielsweise künstlich
verzerrt, oder die Phrase wird auf eine spezielle Art und Weise
gelesen (Stimmhöhe, Lautstärke, usw.).
-
Zu
jeder Zeit während
des Auslesevorgangs des Dokumentes kann der Benutzer Sprachbefehle über die
Audio-Schnittstelle 12 eingeben, die bei der zentralen
Einheit 22 als Texteingabe 21 empfangen werden. Diese
Wortbefehle können
benutzt werden um einen der Links in dem betreffenden Dokument zu
aktivieren. Um zu erkennen, ob ein bestimmter Sprachbefehl gemeint
ist, einen Link zu aktivieren, wird der Sprachbefehl mit den gültigen Linkaktivierungsphrasen
verglichen, die für
die Links des betreffenden Dokumentes gegeben sind. Dies ist in 3 dargestellt.
In dieser Figur besteht eine Sprachbefehl 21 aus drei Worten 21a, 21b, 21c. In
einem ersten Schritt werden diese Worte mit allen gültigen Aktivierungsphrasen
in dem betreffenden Dokument verglichen. In 3 wird eine
aus drei Worten 28a, 28b, 28c bestehende
Aktivierungsphrase 28 mit dem Sprachbefehl 21 verglichen.
Im Falle einer genauen Übereinstimmung,
beispielsweise wenn die Worte 21a, 21b, 21c den
Worten 28a, 28b, 28c in dem gegebenen
Befehl genau entsprechen, wird der entsprechend bezeichnete Link
aktiviert.
-
Bei
Aktivierung eines Links beendet die zentrale Einheit 22 die
Verarbeitung des betreffenden Dokumentes D1 und setzt die Verarbeitung
des als Bezugsziel bezeichneten Dokumentes, in dem vorliegenden
Fall des Dokumentes D2, fort. Das neue Dokument D2 wird danach auf
gleiche Weise wie D1 vorher verarbeitet.
-
Die
zentrale Einheit 22 aber erfordert nicht eine genaue, entsprechende Übereinstimmung
des Sprachbefehls 21 mit der Linkaktivierungsphrase 28.
Stattdessen wird ein Sprachbefehl als einen bestimmten Link bezeichnend
erkannt, wenn der Sprachbefehl 21 und eine der Aktivierungsphrasen 28 des
Links eine ähnliche
Bedeutung haben.
-
Um
automatisch zu beurteilen, ob die zwei Phrasen eine ähnliche
Bedeutung haben, wird in der ersten Ausführungsform eine Wörterbuchdatenbank 30 verwendet.
Die Datenbank 30 enthält
eine Vielzahl von Datenbankeingaben 32, 33, 34,
aus denen nur drei Beispiele in 3 dargestellt
sind. In jeder Datenbankeingabe wird für einen Suchterm 32a eine
Anzahl verbundener Terme 32b, 32c, 32d gegeben.
-
Während in
einer einfachen Ausführungsform
die Datenbank 30 ein Thesaurus sein kann, wobei für jeden
Suchterm nur Synonyme (Terme mit gleicher Bedeutung) ermittelt werden
können,
wird bevorzugt, eine Datenbank mit einem breiteren Bereich zu benutzen,
die nebst Synonymen auch superordinierte Terme, die allgemeiner
sind als der Suchterm (Hypernyme), subordinierte Terme, die spezifischer
sind als der Suchterm (Hyponyme), Teilnamen, die einen Teil eines
größeren Ganzen
nennen, bezeichnet durch den Suchterm (Meronyme) und ganze Namen,
die das Ganze nennen, von dem der Suchterm ein Teil ist (Holonyme)
gibt. Eine entsprechende elektronische elektrische Datenbank, auf
die auch übers
Internet zugegriffen werden kann, ist "WordNet", erhältlich bei der Princeton Universität, beschrieben
in dem Buch: "WordNet,
An Electronic Lexical Database" von
Christiane Fellbaum (Autor), Bradford Books, 1998.
-
In
dem Fall, dass keine identische Übereinstimmung
für die
Phrasen 21, 28 gefunden worden ist, greift die
zentrale Einheit 22 auf die Datenbank 30 zu um
verbundene Terme für
jedes der Worte 28a, 28b, 28c der Aktivierungsphrase 28 zu
ermitteln.
-
Es
wird nun beispielsweise vorausgesetzt, dass die Aktivierungsphrase 28 für den Link
Ln1: "Erkennung
durch Silhouette" ist.
Weiterhin wird vorausgesetzt, dass der Benutzerbefehl 21"Erkennung durch
Form" ist, was in
dem vorliegenden Kontext dieselbe Bedeutung hat. Die Phrasen 21 und 28 sind
aber nicht identisch und in einem ersten Schritt wird keine Übereinstimmung
gefunden.
-
Zur Überprüfung der
Phrasen auf eine übereinstimmende
Bedeutung greift die zentrale Einheit 22 auf die Datenbank 30 zu.
Für den
Suchterm "Silhouette" 32a gibt
die Datenbank 30 verbundene Wörter "Umriss" 32b, "Form" 32c und "Darstellung" 32d. Unter
Verwendung dieser Information erweitert die zentrale Einheit 22 die
gültige
Aktivierungsphrase 28 auf die entsprechenden Alternativen "Erkennung durch Umriss", "Erkennung durch Form", usw.
-
Wenn
die auf diese Weise erweiterte Aktivierungsphrase "Erkennung durch Form" mit dem Benutzerbefehl 21 verglichen
wird, wird die zentrale Einheit diese als identisch beurteilen und
folglich eine Übereinstimmung
zwischen der Benutzereingabe und dem ersten Link Ln1 finden. Die
zentrale Einheit wird auf diese Weise diesen Link Ln1 aktivieren
und übereinstimmen
durch ständige
Verarbeitung an der gegebenen Bezugszieladresse (D2).
-
4 zeigt
eine zentrale Einheit 22a einer zweiten Ausführungsform
der vorliegenden Erfindung. In der zweiten Ausführungsform der vorliegenden
Erfindung ist die Struktur eines Audio-Dialogsystems die gleiche
wie in 1. Der Unterschied zwischen der ersten und der
zweiten Ausführungsform
ist, dass in der zweiten Ausführungs form
die Ermittlung, wenn die Phrasen 21 und 28 die
gleiche Bedeutung haben, anders durchgeführt wird.
-
In
der zweiten Ausführungsform
nach 4 werden die Phrasen 21 und 28 dadurch
miteinander verglichen, dass aus einer LSA Einheit 40 eine
Kohärenzauswertung
erhalten wird.
-
Die
LSA Einheit 40 vergleicht die Phrasen 21, 28 durch
Anwendung latenter semantischer Analyse (LSA). LSA ist eine mathematische,
völlig
automatische Technik, die angewandt werden kann um die Ähnlichkeit
zweier Texte zu messen. Diese Texte können einzelne Wörter, Sätze oder
Paragraphen sein. Unter Anwendung von LSA kann ein numerischer Wert
ermittelt werden, der repräsentativ
ist für
den Grad, in dem die zwei semantisch relatiert sind.
-
Es
gibt viele Quellen, die das LSA Verfahren detailliert beschreiben.
Eine Übersicht
lässt sich
unter: http://lsa.colorado.edu/whatis.html finden. Für weitere
Einzelheiten sei auf die Akten, aufgereiht unter: http://lsa.colorado.edu/papers.html
verwiesen. Eine gut verständliche
Erläuterung
des Verfahrens ist in "Latent Problem
Solving Analysis (LPSA): A computational theory of representation
in complex, dynamic Problem solving tasks", Dissertation, University of Granada
(2003), insbesondere Abschnitt 2, von J. F. Quesada gegeben.
-
Auch
hier sei wieder bemerkt, dass die LSA Einheit 40 nur zur
Illustration der Art und Weise, wie das LSA Verfahren in einem Sprachbrowser
integriert ist, dargestellt ist. In einer echten Implementierung
würde die komplette
Funktion des Sprachbrowsers, einschließlich der zentralen Einheit 22a zum
Vergleichen von Phrasen 21 und 28, und einer Verwirklichung
dieses Vergleichs durch LSA vorzugsweise als ein einziger Software-Item implementiert
werden.
-
LSA
ist ein Informationsermittlungsverfahren, das Vektorraummodellierung
benutzt. Es basiert auf der Modellierung des semantischen Raums
einer Domäne
als einen hochdimensionalen Vektorraum. Die bemessenen Variablen
dieses Vektorraums sind Wörter
(oder Wortfamilien).
-
In
dem vorliegenden Kontext von Aktivierungsphrasen sind die verfügbaren Dokumente,
verwendet als Trainingsraum, die Aktivierungsphrasen für die verschiedenen
Links in dem aktuell verarbeiteten Hypertextdokument D1. Aus diesem
Trainingsraum wird eine mit auftretende Matrix A der Größe N×K extrahiert:
Für jedes
von N möglichen
Wör tern
wird die Anzahl Auftritt dieser Wörter in den k Dokumenten in
dem Trainingsraum in dem entsprechenden Matrixwert gegeben. Um Beeinflussung
durch Wörter
zu vermeiden, die in einer Vielzahl von Kontexten auftreten, kann
die Zusammentreffmatrix unter Anwendung spezieller Filterfunktionen gefiltert
werden.
-
Diese
(möglicherweise
gefilterte) Matrix A wird einer bemerkenswerten Wertzerlegung (SVD)
ausgesetzt, die eine Form von Faktoranalyse ist, welche die Matrix
in das Produkt aus drei Matrizes U D VT zerlegt, wobei
D eine digitale Matrix der Größe K×K ist mit
den bemerkenswerten Werten auf der Diagonale und allen anderen Werten
Null. U ist eine quadratische orthogonale N×N Matrix und umfasst die Eigenvektoren
von A. Diese Zerlegung ergibt einen projizierten semantischen Raum,
beschrieben durch diese Eigenvektoren.
-
Eine
dimensionale Reduktion des semantischen Raums kann auf vorteilhafte
Weise dadurch eingeführt
werden, dass nur eine begrenzte Anzahl einzelner Werte selektiert
wird, d.h. die größten einzelnen
Werte und nur unter Verwendung der entsprechenden Eigenvektoren.
Diese dimensionale Reduktion kann als Störung eliminierend betrachtet
werden.
-
Die
semantische Bedeutung einer Phrase kann dann als die Richtung des
entsprechenden Vektors in dem erreichten semantischen Raum interpretiert
werden. Eine semantische Beziehung zwischen zwei Phrasen kann durch
Berechnung eines skalaren Produktes aus den entsprechenden Vektoren
quantifiziert werden. So ist beispielsweise das Euklidische Produkt
aus zwei Vektoren (gleicher Länge)
abhängig
von dem Kosinus des Winkels zwischen den Vektoren, der gleich Eins
für parallele
Vektoren und gleich Null für
senkrecht aufeinander stehende Vektoren ist.
-
Dieser
numerische Wert kann hier zum Quantisieren des Grades, bis Texteingabendaten 21 eines
Benutzers und eine gültige
Aktivierungsphrase 28 die gleiche Bedeutung haben.
-
Die
LSA Einheit bestimmt diesen Wert für alle Aktivierungsphrasen.
Wenn alle Werte unterhalb einer bestimmten Schwelle liegen, wird
keiner der Links aktiviert und dem Benutzer wird eine Fehlernachricht
zugeführt.
Sonst wird die Aktivierungsphrase mit dem maximalen Wert "erkannt" und der entsprechende
Link wird aktiviert.
-
Das
oben beschriebene LSA Verfahren kann verschiedenartig implementiert
werden. Das Verfahren ist effektiver, wenn ein großer Trainingsraum
verfügbar
ist. In dem vorliegenden Kontext wird der Trainingsraum durch die
gültigen
Aktivierungsphrasen gegeben. In Fällen, in denen der Autor eines
Dokumentes sich nicht sehr der Ermittlung von Aussprachen des Benutzers
für einen
bestimmten Link gewidmet hat, ist die Anzahl Aktivierungsphrasen
gering. Aber der Trainingsraum kann dadurch erweitert werden, dass
auch die Dokumente berücksichtigt
werden, auf welche die Links zeigen, da die Aktivierungsphrase im
Allgemeinen auf den Inhalt des Dokumentes bezogen ist, das mit dem
Bezugsziel übereinstimmt.
-
Weiterhin
kann es sein, dass die Kookkurenzmatrix nicht nur die N Wörter aufweist,
die wirklich in den Aktivierungsphrasen auftreten, sondern auch
eine viel größere Anzahl
Wörter,
beispielsweise das komplette Vokabular der Spracherkennungsmittel.
-
In
weiteren Ausführungsformen
von Audio-Dialogsystemen können
andere Verfahren angewandt werden um die Ähnlichkeit in der Bedeutung
zwischen Eingabetextdaten 21 und Aktivierungsphrasen 28 zu
ermitteln. So können
beispielsweise bekannte Informationsermittlungsverfahren angewandt
werden, wobei eine Auswertung als Quotient aus der Wortfrequenz
(Anzahl Auftritte eines Terms in einer bestimmten Phrase) und der
gesamten Wortfrequenz (Gesamtauftritt dieses Terms in allen Phrasen)
ermittelt wird. Phrasen werden durch Zumessung, für jeden
gemeinsamen Term, der Auswertung dieses bestimmten Terms verglichen.
Da die Auswertung für
Terme allgemeiner Bedeutung niedrig sein wird (die in vielen Phrasen
vorhanden sind) und für Terme
einer spezifischen Bedeutung, die verschiedene Links voneinander
unterscheiden, hoch sein wird, wird die Gesamtsumme an Auswertungen
für jedes
Phrasenpaar einen Grad angeben, in dem diese Phrasen übereinstimmen.
-
In
noch einer anderen Ausführungsform
können
sog. Weiche Konzepte angewandt werden um eine Ähnlichkeit zwischen Eingabetextdaten 21 und
Aktivierungsphrasen 28 zu ermitteln. Dies umfasst das Vergleichen
der zwei Phrasen nicht nur in Bezug auf einfache allgemeine Terme,
sondern auch in Bezug auf charakteristische Sequenzen von Termen.
Die übereinstimmenden
Verfahren sind ebenfalls als konzeptabhängige/konzeptspezifische Sprachmodelle
bekannt.
-
Wenn "weiche Konzepte" angewandt werden,
wird eine Wortsequenzfrequenz auf Basis eines Trainingsraums ermittelt.
In dem vorliegenden Kontext wäre
der Trainingsraum die gültigen
Aktivierungsphrasen aller Links in dem betreffenden Dokument. Jeder
der Links würde
als ein semantisches Konzept betrachtet. Für jedes Konzept wird ein Sprachmodell
auf den verfügbaren
Aktivierungsphrasen trainiert. Auch wird ein Hintergrundmodell ermittelt,
beispielsweise unter Verwendung eines allgemeinen Textes in der
entsprechenden Sprache, und zwar als Konkurrent der konzeptspezifischen
Modelle. Die Modelle können
geglättet
werden um eine gute Verallgemeinerung zu erreichen.
-
Wenn
die Eingabetestdaten 21 danach mit den Modellen übereinstimmen,
werden Auswertungen zugeordnet, die eine Übereinstimmung mit jedem der
Sprachmodelle angeben. Eine hohe Auswertung für ein bestimmtes Modell gibt
eine gute Übereinstimmung
für den
entsprechenden Link an. Wenn das allgemeine Sprachmodell "gewinnt", wird keine Übereinstimmung
gefunden.
-
Der
Link mit dem "gewinnenden" Sprachmodell wird
aktiviert.
-
Das
Weichkonzeptverfahren wird in den nachfolgenden Dokumenten genannt:
Souvignier, B., Kellner, A., Rueber, B., Schramm, H., und Seide,
F. "The thoughtful
Elephant: Strategies for Spoken Dialog Systems", IEEE-SPAU, 2000, Vol 8, n° 1, p. 51–62. Weitere
Einzelheiten über
dieses Verfahren werden gegeben in dem Dokument: Kellner, A., Portele,
T., "SPICE – A Multimodal
Conversational User Interface to an Electronic Program Guide", ICSA-Tutorial and
Research Workshop an Multi-Modal Dialogue in Mobile Environments,
2002, Kloster Irsee, Deutschland.
-
2
-
- Ziel
= D2
-
- Gültige_Aktivierungsphrasen
=
"Erkennen
von Vögeln
durch ihre Silhouette"
"Erkennen durch Silhouette"
-
3
- 32a
- Silhouette
- 32b
- Umriss
- 32c
- Form
- 32d
- Darstellung
- 33
- Vogel
Vogelschar
Gefieder
Sperrling
- 34
- Erkennen
Ermitteln
Observieren
Unterscheiden