[go: up one dir, main page]

DE602004006641T2 - Audio-dialogsystem und sprachgesteuertes browsing-verfahren - Google Patents

Audio-dialogsystem und sprachgesteuertes browsing-verfahren Download PDF

Info

Publication number
DE602004006641T2
DE602004006641T2 DE602004006641T DE602004006641T DE602004006641T2 DE 602004006641 T2 DE602004006641 T2 DE 602004006641T2 DE 602004006641 T DE602004006641 T DE 602004006641T DE 602004006641 T DE602004006641 T DE 602004006641T DE 602004006641 T2 DE602004006641 T2 DE 602004006641T2
Authority
DE
Germany
Prior art keywords
activation
data
input
text
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE602004006641T
Other languages
English (en)
Other versions
DE602004006641D1 (de
Inventor
H.R. Scholl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Publication of DE602004006641D1 publication Critical patent/DE602004006641D1/de
Application granted granted Critical
Publication of DE602004006641T2 publication Critical patent/DE602004006641T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Selective Calling Equipment (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Audio-Dialogsystem und auf ein sprachgesteuertes Browsing-Verfahren.
  • Audio-Dialogsysteme ermöglichen es, dass ein menschlicher Benutzer einen Audio-Dialog mit einer automatischen Anordnung, im Allgemeinen einem Computer, führt. Die Anordnung erteilt dem Benutzer Information durch Verwendung natürlicher Sprache. Entsprechende Sprachsynthesizer sind allgemein bekannt und weit verbreitet. Andererseits akzeptiert die Anordnung Benutzereingaben in Form natürlicher Sprache, und zwar unter Anwendung von Spracherkennungstechniken.
  • Beispiele von Audio-Dialogsystemen umfassen beispielsweise Telefoninformationssysteme, wie beispielsweise ein automatisches Zugfahrplaninformationssystem.
  • Der Inhalt des Dialogs zwischen der Anordnung und dem Benutzer wird in der Anordnung, oder an einer Fernstelle gespeichert, auf welche die Anordnung zugreifen kann. Der Inhalt kann in einem Hypertextformat gespeichert werden, wobei die Inhaltsdaten als ein oder mehrere Dokumente verfügbar ist. Die Dokumente enthalten den wirklichen Textinhalt, der durch Formatbeschreiber formatiert werden, die als Anhänger bezeichnet werden. Eine spezielle Art von Anhänger ist ein Bezugsanhänger, oder ein Link. Ein Bezugswert bezeichnet ein Bezugsziel, das ein anderer Teil des anwesenden Inhaltsdokumentes oder eines anderen Hypertextdokumentes ist. Jeder Bezugswert umfasst auch Aktivierungsinformation, die einem Benutzer die Möglichkeit bietet, den bezugswert oder den Link durch die Aktivierungsinformation zu selektieren. Ein Standard Hypertextdokumentformat ist das XML Format.
  • Es sind Audio-Dialogsysteme verfügbar, die Benutzern die Möglichkeit bieten, über einen Nur-Audiokanal auf Hypertextdokumente zuzugreifen. Da das Auslesen von Hypertextdokumenten im Allgemeinen als "Browsing" bezeichnet wird, werden diese Systeme auch als "Voice browsers" bezeichnet. US-A-5.884.266 beschreibt ein derartiges Audio-Dialogsystem, das einem Benutzer die Inhaltsdaten eines Hypertextdokumentes als Sprache liefert.
  • Wenn die Dokumente Bezugswerte enthalten, wird die entsprechende Aktivierungsinformation, hier als eine Aktivierungsphrase mit der Bezeichnung "link identifier" gegeben, als Sprache für den Benutzer ausgelesen, während der Link-Identifizierer unter Anwendung bestimmter Schallcharakteristiken unterschieden wird. Dies kann eine aurale Wiedergabe des Link-Identifizierertextes mit einer bestimmten Stimmhöhe, einer bestimmten Lautstärke oder einer anderen Schall- oder Audiocharakteristik aufweisen, die von einem Benutzer als ungleich des umgebenden Textes durchaus erkennbar ist. Zum Aktivieren eines Links kann ein Benutzer Sprachbefehle geben, entsprechend dem Link-Identifizierer oder der Aktivierungsphrase. Der Sprachbefehl des Benutzers wird in ein Spracherkennungssystem umgewandelt und in einem Befehlsprozessor verarbeitet. Wenn die Spracheingabe dem Link-Identifizierer oder der Aktivierungsphrase entspricht, wird der Sprachbefehl unter Verwendung der Linkadresse (Bezugsziel) durchgeführt und das Auslesen der Textinformation zu dem Benutzer von der betreffenden Adresse her wird fortgesetzt.
  • Ein Beispiel eines speziellen Formats für Hypertextdokumente abgezielt auf Bur-Audiosysteme ist "VoiceXML". In der aktuellen "W3C candidates recommendation of Voice Extensible Markup Language (Voice XML)" Version 2.0, können die Aktivierungsphrasen, die mit einem Link assoziiert sind, als interne oder externe Grammatik gegeben werden. Auf diese Weise können eine Vielzahl gültiger Aktivierungsphrasen spezifiziert werden. Die Benutzerspracheingabe soll einer dieser Aktivierungsphrasen genau entsprechen, damit ein Link aktiviert wird.
  • Wenn die Benutzereingabe einer der Aktivierungsphrasen nicht genau entspricht, wird der Benutzer meistens eine Fehlernachricht erhalten, in der es heißt, dass die Eingabe nicht erkannt wurde. Um dies zu vermeiden muss der Benutzer sich die ihm angebotenen Aktivierungsphrasen genau merken, oder der Autor des Inhaltsdokumentes muss mögliche Benutzersprachbefehle vorwegnehmen, die als Aktivierungsphrasen für einen bestimmten Link brauchbar wären.
  • Ein weiteres Beispiel eines bekannten Sprachbrowsers ist in EP-A-1168300 beschrieben worden.
  • Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein Audio-Dialogsystem und ein Sprachbrowsingverfahren zu schaffen, durch die eine einfache, intuitive Aktivierung eines Bezugswertes durch den Benutzer ermöglicht wird.
  • Diese Aufgabe wird nach der vorliegenden Erfindung durch ein Audio-Dialogsystem nach Anspruch 1 und ein Sprachbrowsingverfahren nach Anspruch 8 gelöst. Die Unteransprüche beziehen sich auf bevorzugte Ausführungsformen.
  • Ein System nach der vorliegenden Erfindung umfasst eine Audioeingabeeinheit mit Spracherkennungsmitteln und einen Audio-Ausgang mit Sprachsynthesizermitteln. Das System umfasst weiterhin Browsingmittel. Es sei bemerkt, dass diese Terme sich nur auf funktionellen Entitäten beziehen und dass in einem bestimmten System die genannten Mittel nicht unbedingt als physikalische Einzelgebilde vorhanden zu sein brauchen. Es wird insbesondere bevorzugt, dass wenigstens die Browsingmittel als von einem Computer durchführte Software implementiert wird. Spracherkennungs- und Sprachsynthesemittel sind ohne weiteres für den Fachmann verfügbar, und können als separate Entitäten implementiert werden, oder, auf alternative Weise, als Software, die in demselben Computer läuft, wie die Software, welche die Browsingmittel implementiert.
  • Nach der vorliegenden Erfindung wird ein Audio-Eingangssignal (Benutzersprachbefehl) von Sprache in Texteingabedaten umgewandelt und mit den Aktivierungsphrasen in dem aktuell verarbeiteten Dokument verglichen. Wie vorher bekannt, wird im falle einer genauen Übereinstimmung, d.h. Eingabetextdaten identisch zu einer bestimmten Aktivierungsphrase, der Bezugswert oder der Link aktiviert durch Zugriff auf Inhaltsdaten entsprechend dem Bezugsziel.
  • Im Gegensatz zu bereits bekannten Dialogsystemen und Sprachbrowsingverfahren kann eine Übereinstimmung auch gefunden werden, wenn die Texteingabedaten nicht einer Aktivierungsphrase genau entsprechen, sondern eine ähnliche Bedeutung haben.
  • Auf diese Weise wird in einem Dialogsystem oder in einem Sprachbrowsingverfahren nach der vorliegenden Erfindung der Benutzer nicht länger gezwungen, sich die Aktivierungsphrase genau zu merken. Dies ist besonders vorteilhaft in einem Dokument mit vielen Links. Der Benutzer kann nach dem Anhören aller verfügbaren Möglichkeit eine Wahl machen. Er braucht dann nicht länger sich die genaue Aktivierungsphrase des, sagen wir ersten oder zweiten Links in dem Dokument zu erinnern. Da die Aktivierungsphrase im Allgemeinen das gelinkte Dokument kurz beschreiben wird, wird sich der Benutzer wahrscheinlich die Bedeutung der Aktivierungsphrase erinnern. Der Benutzer kann dann den Link dadurch aktivieren, dass er einen Befehl mit eigenen Worten gibt, was erkannt und einwandfrei mit dem entsprechenden Link assoziiert wird.
  • Nach einer Entwicklung der vorliegenden Erfindung benutzt das System Wörterbuchmittel um zu ermitteln, ob Eingabetextdaten eine ähnliche Bedeutung haben wie eine Aktivierungsphrase. Für eine Vielzahl von Suchwörtern können aus den Wörterbuch mitteln verbundene Wörter erfasst werden. Die verbundene Wörter haben eine Bedeutung, die mit der des Suchwortes verbunden ist. Es wird insbesondere bevorzugt, dass verbundene Wörter die gleiche Bedeutung (Synonyme), eine übergeordnete oder untergeordnete Bedeutung (Hypernyme, Hyponyme) haben oder in einer ganzen/teilweisen Beziehung zu dem Suchwort stehen (Holonyme, Meronyme).
  • Zum Herausfinden einer übereinstimmenden Bedeutung werden verbundene Wörter erfasst für Wörter, die sich entweder in den Eingabetextdaten, oder in der Aktivierungsphrase oder in beiden befinden. Danach wird das verbundene Wort in dem Vergleich der Aktivierungsphrase und der Texteingabe verwendet. Auf diese Weise wird eine Übereinstimmung gefunden, wenn der Benutzer in seinem Aktivierungsbefehl einen alternativen, aber im Vergleich zu der genauen Aktivierungsphrase in der Bedeutung verbundenen Term verwendet.
  • Nach einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabenbefehl und der Aktivierungsphrase durch Anwendung des latenten semantischen Analysenverfahrens (LSA), oder eines demselben ähnlichen Verfahrens. LSA ist ein Verfahren der Verwendung statistischer Information, extrahiert aus einer Anzahl Dokumente um ein Maß der Ähnlichkeit in der Bedeutung für Wort/Wort-, Wort/Phrase- und Phrase/Phrase-Paare zu geben. Es hat sich herausgestellt, dass dieses mathematisch hergeleitetes Maß der Ähnlichkeit dem menschlichen Verständnis von Wörtern und Phrasen durchaus nahe kommt. In dem vorliegenden Kontext kann LSA auf vorteilhafte Weise angewandt werden um zu ermitteln, ob eine Aktivierungsphrase und eine Sprachbefehleingabe von dem Benutzer (Texteingabedaten) eine ähnliche Bedeutung haben.
  • Nach einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase durch Informationserfassungsverfahren, die auf einem Vergleich der zwei Phrasen beruht um gemeinsame Wörter zu linden, und durch Gewichtung dieser gemeinsamen Auftritt durch die invertierte Dokumentfrequenz des gemeinsamen Wortes. Die invertierte Dokumentfrequenz für ein Wort kann durch Ermittlung der Anzahl Auftritte dieses Wortes in der betreffenden Aktivierungsphrase berechnet werden, und durch Teilung dieses Wertes durch die Summe der Auftritte dieses Wortes in allen Aktivierungsphrasen für alle Links in dem betreffenden Dokument.
  • Nach wieder einer anderen Ausführungsform der vorliegenden Erfindung bestimmen die Browsingmittel eine Ähnlichkeit in der Bedeutung zwischen dem Eingabebefehl und der Aktivierungsphrase durch Anwendung weicher Konzepte. Dieses Verfahren richtet sich auf Wortsequenzen. Sequenzen von Wörtern, die in den Aktivierungsphrasen auftreten, werden verarbeitet. Ein Übereinstimmung der Eingabetextdaten wird durch Verarbeitung dieser Wortsequenzen erhalten.
  • In einer bevorzugten Ausführungsform werden Sprachmodelle für jeden Link trainiert, was die Wortsequenzfrequenzen der entsprechenden Aktivierungsphrasen ergibt. Auf vorteilhafte Weise können die Modelle unter Anwendung bekannter Techniken geglättet werden um eine gute Verallgemeinerung zu erhalten. Auch kann das Hintergrundmodell trainiert werden. Wenn versucht wird eine Übereinstimmung zu finden. Wird die Übereinstimmung der Texteingabedaten mit diesen Modellen ermittelt.
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eine symbolische Darstellung einer ersten Ausführungsform eines Audio-Dialogsystems,
  • 2 eine symbolische Darstellung eines Hyperlinks in einem System nach 1,
  • 3 eine symbolische Darstellung einer Übereinstimmung und von Wörterbuchmitteln in dem System nach 1,
  • 4 einen Teil einer zweiten Ausführungsform eines Audio-Dialogsystems.
  • In 1 ist ein Audio-Dialogsystem 10 dargestellt. Das System 10 umfasst eine Audioschnittstelle 12, einen Sprachbrowser 14 und eine Anzahl Dokumente D1, D2, D3.
  • In dem Ausführungsbeispiel nach 1 ist die Audioschnittstelle 12 ein Telefon, das über das Telefonnetzwerk 16 mit dem Sprachbrowser 14 verbunden ist. Seinerseits kann der Sprachbrowser 14 über ein Datennetzwerk 18, beispielsweise ein LAN, oder übers Internet, auf die Dokumente D1, D2, D3 zugreifen.
  • Der Sprachbrowser 14 umfasst eine Spracherkennungseinheit 20, die mit der Audioschnittstelle 12 verbunden ist, die Audioeingabe in erkannten Textdaten 21 umsetzt. Die Textdaten 21 werden einer zentralen Browsingeinheit 22 zugeführt. Die zentrale Brow singeinheit 22 liefert Ausgangstextdaten 24 zu einer Sprachsyntheseeinheit 26, welche die Ausgangstextdaten 24 in ein Ausgangssprachaudiosignal umsetzt, das über das Telefonnetzwerk 16 und die Audioschnittstelle 12 einem Benutzer zugeführt wird.
  • In 1 sind das Dialogsystem 10 und insbesondere der Sprachbrowser 14 nur schematisch mit ihren Funktionseinheiten dargestellt. In einer wirklichen Implementierung würde der Sprachbrowser 14 ein Computer mit einer Verarbeitungseinheit, beispielsweise einem Mikroprozessor, und mit einem Programmspeicher zur Speicherung eines Computerprogramms sein, das, wenn von der Verarbeitungseinheit durchgeführt, die Funktion des Sprachbrowsers 14, wie nachstehend beschrieben, durchführt. Die Sprachsynthese und die Spracherkennung können beide auch in Software implementiert werden. Dies sind durchaus bekannte Techniken und werden deswegen an dieser Stelle nicht weiter beschrieben.
  • Auf Hypertextdokumente D1, D2, D3 kann über das Netzwerk 18 unter Verwendung einer Netzwerkadresse zugegriffen werden. In dem Beispiel nach 1 wird aus Gründen der Einfachheit vorausgesetzt, dass die Netzwerkadresse dem Bezugszeichen entspricht. Techniken um ein Dokument in einem Datennetzwerk, wie im Internet, verfügbar zu machen, wie beispielsweise das http Protokoll, sind dem Fachmann durchaus bekannt und werden an dieser Stelle nicht näher beschrieben.
  • Hypertextdokumente D1, D2, D3 sind Textdokumente, die in XML-Format formatiert werden. Nachstehend ist ein vereinfachtes Beispiel eines Quellencodes für das Dokument D1 gegeben:
    Figure 00060001
    Figure 00070001
  • Das Dokument D1 enthält Textinhalt, der verfügbare Information über Vögel enthält. Der Quellencode des Dokumentes D1 enthält zwei Links Ln1, Ln2.
  • Der erste Link Ln1, wie in dem oben stehenden Quellentext für das Dokument D1 gegeben, ist in 2 dargestellt. Der Link enthält das Bezugsziel, hier D2. Der Link enthält auch eine Anzahl gültiger Aktivierungsphrasen. Diese sind die Phrasen, die ein Benutzer aussprechen kann um den Link Ln1 zu aktivieren.
  • Im Betrieb des Systems 10 nach 1, greift der Sprachbrowser 14 auf das Dokument D1 zu und liest den Inhalt über die Audio-Schnittstelle 12 zu einem Benutzer aus. Die zentralen Einheiten 22 extrahieren den Inhaltstext und senden diesen als Textdaten 24 zu der Sprachsyntheseeinheit 26, welche die Textdaten 24 in ein Audiosignal umsetzt, das über das Telefonnetzwerk 16 zu dem Benutzer übertragen und per Telefon 12 wiedergegeben wird.
  • Beim Auslesen des Textinhaltes des Dokumentes D1, werden die Links Ln1, Ln2 gefunden. Die zentrale Einheit 22 erkennt die Linkanhänger und verarbeitet die Links Ln1, Ln2 auf entsprechende Weise. Die Linkphrase (beispielsweise für den Link Ln1: "erkenne Vögel an ihrer Silhouette") wird dem Benutzer auf eine Art und Weise vorgelesen, dass es für den Benutzer erkennbar ist, dass diese Phrase zum Aktivieren eines Links verwendet werden kann. Um dies zu erreichen wird der Linkphrase ein bestimmter Ton zuge fügt, beispielsweise künstlich verzerrt, oder die Phrase wird auf eine spezielle Art und Weise gelesen (Stimmhöhe, Lautstärke, usw.).
  • Zu jeder Zeit während des Auslesevorgangs des Dokumentes kann der Benutzer Sprachbefehle über die Audio-Schnittstelle 12 eingeben, die bei der zentralen Einheit 22 als Texteingabe 21 empfangen werden. Diese Wortbefehle können benutzt werden um einen der Links in dem betreffenden Dokument zu aktivieren. Um zu erkennen, ob ein bestimmter Sprachbefehl gemeint ist, einen Link zu aktivieren, wird der Sprachbefehl mit den gültigen Linkaktivierungsphrasen verglichen, die für die Links des betreffenden Dokumentes gegeben sind. Dies ist in 3 dargestellt. In dieser Figur besteht eine Sprachbefehl 21 aus drei Worten 21a, 21b, 21c. In einem ersten Schritt werden diese Worte mit allen gültigen Aktivierungsphrasen in dem betreffenden Dokument verglichen. In 3 wird eine aus drei Worten 28a, 28b, 28c bestehende Aktivierungsphrase 28 mit dem Sprachbefehl 21 verglichen. Im Falle einer genauen Übereinstimmung, beispielsweise wenn die Worte 21a, 21b, 21c den Worten 28a, 28b, 28c in dem gegebenen Befehl genau entsprechen, wird der entsprechend bezeichnete Link aktiviert.
  • Bei Aktivierung eines Links beendet die zentrale Einheit 22 die Verarbeitung des betreffenden Dokumentes D1 und setzt die Verarbeitung des als Bezugsziel bezeichneten Dokumentes, in dem vorliegenden Fall des Dokumentes D2, fort. Das neue Dokument D2 wird danach auf gleiche Weise wie D1 vorher verarbeitet.
  • Die zentrale Einheit 22 aber erfordert nicht eine genaue, entsprechende Übereinstimmung des Sprachbefehls 21 mit der Linkaktivierungsphrase 28. Stattdessen wird ein Sprachbefehl als einen bestimmten Link bezeichnend erkannt, wenn der Sprachbefehl 21 und eine der Aktivierungsphrasen 28 des Links eine ähnliche Bedeutung haben.
  • Um automatisch zu beurteilen, ob die zwei Phrasen eine ähnliche Bedeutung haben, wird in der ersten Ausführungsform eine Wörterbuchdatenbank 30 verwendet. Die Datenbank 30 enthält eine Vielzahl von Datenbankeingaben 32, 33, 34, aus denen nur drei Beispiele in 3 dargestellt sind. In jeder Datenbankeingabe wird für einen Suchterm 32a eine Anzahl verbundener Terme 32b, 32c, 32d gegeben.
  • Während in einer einfachen Ausführungsform die Datenbank 30 ein Thesaurus sein kann, wobei für jeden Suchterm nur Synonyme (Terme mit gleicher Bedeutung) ermittelt werden können, wird bevorzugt, eine Datenbank mit einem breiteren Bereich zu benutzen, die nebst Synonymen auch superordinierte Terme, die allgemeiner sind als der Suchterm (Hypernyme), subordinierte Terme, die spezifischer sind als der Suchterm (Hyponyme), Teilnamen, die einen Teil eines größeren Ganzen nennen, bezeichnet durch den Suchterm (Meronyme) und ganze Namen, die das Ganze nennen, von dem der Suchterm ein Teil ist (Holonyme) gibt. Eine entsprechende elektronische elektrische Datenbank, auf die auch übers Internet zugegriffen werden kann, ist "WordNet", erhältlich bei der Princeton Universität, beschrieben in dem Buch: "WordNet, An Electronic Lexical Database" von Christiane Fellbaum (Autor), Bradford Books, 1998.
  • In dem Fall, dass keine identische Übereinstimmung für die Phrasen 21, 28 gefunden worden ist, greift die zentrale Einheit 22 auf die Datenbank 30 zu um verbundene Terme für jedes der Worte 28a, 28b, 28c der Aktivierungsphrase 28 zu ermitteln.
  • Es wird nun beispielsweise vorausgesetzt, dass die Aktivierungsphrase 28 für den Link Ln1: "Erkennung durch Silhouette" ist. Weiterhin wird vorausgesetzt, dass der Benutzerbefehl 21"Erkennung durch Form" ist, was in dem vorliegenden Kontext dieselbe Bedeutung hat. Die Phrasen 21 und 28 sind aber nicht identisch und in einem ersten Schritt wird keine Übereinstimmung gefunden.
  • Zur Überprüfung der Phrasen auf eine übereinstimmende Bedeutung greift die zentrale Einheit 22 auf die Datenbank 30 zu. Für den Suchterm "Silhouette" 32a gibt die Datenbank 30 verbundene Wörter "Umriss" 32b, "Form" 32c und "Darstellung" 32d. Unter Verwendung dieser Information erweitert die zentrale Einheit 22 die gültige Aktivierungsphrase 28 auf die entsprechenden Alternativen "Erkennung durch Umriss", "Erkennung durch Form", usw.
  • Wenn die auf diese Weise erweiterte Aktivierungsphrase "Erkennung durch Form" mit dem Benutzerbefehl 21 verglichen wird, wird die zentrale Einheit diese als identisch beurteilen und folglich eine Übereinstimmung zwischen der Benutzereingabe und dem ersten Link Ln1 finden. Die zentrale Einheit wird auf diese Weise diesen Link Ln1 aktivieren und übereinstimmen durch ständige Verarbeitung an der gegebenen Bezugszieladresse (D2).
  • 4 zeigt eine zentrale Einheit 22a einer zweiten Ausführungsform der vorliegenden Erfindung. In der zweiten Ausführungsform der vorliegenden Erfindung ist die Struktur eines Audio-Dialogsystems die gleiche wie in 1. Der Unterschied zwischen der ersten und der zweiten Ausführungsform ist, dass in der zweiten Ausführungs form die Ermittlung, wenn die Phrasen 21 und 28 die gleiche Bedeutung haben, anders durchgeführt wird.
  • In der zweiten Ausführungsform nach 4 werden die Phrasen 21 und 28 dadurch miteinander verglichen, dass aus einer LSA Einheit 40 eine Kohärenzauswertung erhalten wird.
  • Die LSA Einheit 40 vergleicht die Phrasen 21, 28 durch Anwendung latenter semantischer Analyse (LSA). LSA ist eine mathematische, völlig automatische Technik, die angewandt werden kann um die Ähnlichkeit zweier Texte zu messen. Diese Texte können einzelne Wörter, Sätze oder Paragraphen sein. Unter Anwendung von LSA kann ein numerischer Wert ermittelt werden, der repräsentativ ist für den Grad, in dem die zwei semantisch relatiert sind.
  • Es gibt viele Quellen, die das LSA Verfahren detailliert beschreiben. Eine Übersicht lässt sich unter: http://lsa.colorado.edu/whatis.html finden. Für weitere Einzelheiten sei auf die Akten, aufgereiht unter: http://lsa.colorado.edu/papers.html verwiesen. Eine gut verständliche Erläuterung des Verfahrens ist in "Latent Problem Solving Analysis (LPSA): A computational theory of representation in complex, dynamic Problem solving tasks", Dissertation, University of Granada (2003), insbesondere Abschnitt 2, von J. F. Quesada gegeben.
  • Auch hier sei wieder bemerkt, dass die LSA Einheit 40 nur zur Illustration der Art und Weise, wie das LSA Verfahren in einem Sprachbrowser integriert ist, dargestellt ist. In einer echten Implementierung würde die komplette Funktion des Sprachbrowsers, einschließlich der zentralen Einheit 22a zum Vergleichen von Phrasen 21 und 28, und einer Verwirklichung dieses Vergleichs durch LSA vorzugsweise als ein einziger Software-Item implementiert werden.
  • LSA ist ein Informationsermittlungsverfahren, das Vektorraummodellierung benutzt. Es basiert auf der Modellierung des semantischen Raums einer Domäne als einen hochdimensionalen Vektorraum. Die bemessenen Variablen dieses Vektorraums sind Wörter (oder Wortfamilien).
  • In dem vorliegenden Kontext von Aktivierungsphrasen sind die verfügbaren Dokumente, verwendet als Trainingsraum, die Aktivierungsphrasen für die verschiedenen Links in dem aktuell verarbeiteten Hypertextdokument D1. Aus diesem Trainingsraum wird eine mit auftretende Matrix A der Größe N×K extrahiert: Für jedes von N möglichen Wör tern wird die Anzahl Auftritt dieser Wörter in den k Dokumenten in dem Trainingsraum in dem entsprechenden Matrixwert gegeben. Um Beeinflussung durch Wörter zu vermeiden, die in einer Vielzahl von Kontexten auftreten, kann die Zusammentreffmatrix unter Anwendung spezieller Filterfunktionen gefiltert werden.
  • Diese (möglicherweise gefilterte) Matrix A wird einer bemerkenswerten Wertzerlegung (SVD) ausgesetzt, die eine Form von Faktoranalyse ist, welche die Matrix in das Produkt aus drei Matrizes U D VT zerlegt, wobei D eine digitale Matrix der Größe K×K ist mit den bemerkenswerten Werten auf der Diagonale und allen anderen Werten Null. U ist eine quadratische orthogonale N×N Matrix und umfasst die Eigenvektoren von A. Diese Zerlegung ergibt einen projizierten semantischen Raum, beschrieben durch diese Eigenvektoren.
  • Eine dimensionale Reduktion des semantischen Raums kann auf vorteilhafte Weise dadurch eingeführt werden, dass nur eine begrenzte Anzahl einzelner Werte selektiert wird, d.h. die größten einzelnen Werte und nur unter Verwendung der entsprechenden Eigenvektoren. Diese dimensionale Reduktion kann als Störung eliminierend betrachtet werden.
  • Die semantische Bedeutung einer Phrase kann dann als die Richtung des entsprechenden Vektors in dem erreichten semantischen Raum interpretiert werden. Eine semantische Beziehung zwischen zwei Phrasen kann durch Berechnung eines skalaren Produktes aus den entsprechenden Vektoren quantifiziert werden. So ist beispielsweise das Euklidische Produkt aus zwei Vektoren (gleicher Länge) abhängig von dem Kosinus des Winkels zwischen den Vektoren, der gleich Eins für parallele Vektoren und gleich Null für senkrecht aufeinander stehende Vektoren ist.
  • Dieser numerische Wert kann hier zum Quantisieren des Grades, bis Texteingabendaten 21 eines Benutzers und eine gültige Aktivierungsphrase 28 die gleiche Bedeutung haben.
  • Die LSA Einheit bestimmt diesen Wert für alle Aktivierungsphrasen. Wenn alle Werte unterhalb einer bestimmten Schwelle liegen, wird keiner der Links aktiviert und dem Benutzer wird eine Fehlernachricht zugeführt. Sonst wird die Aktivierungsphrase mit dem maximalen Wert "erkannt" und der entsprechende Link wird aktiviert.
  • Das oben beschriebene LSA Verfahren kann verschiedenartig implementiert werden. Das Verfahren ist effektiver, wenn ein großer Trainingsraum verfügbar ist. In dem vorliegenden Kontext wird der Trainingsraum durch die gültigen Aktivierungsphrasen gegeben. In Fällen, in denen der Autor eines Dokumentes sich nicht sehr der Ermittlung von Aussprachen des Benutzers für einen bestimmten Link gewidmet hat, ist die Anzahl Aktivierungsphrasen gering. Aber der Trainingsraum kann dadurch erweitert werden, dass auch die Dokumente berücksichtigt werden, auf welche die Links zeigen, da die Aktivierungsphrase im Allgemeinen auf den Inhalt des Dokumentes bezogen ist, das mit dem Bezugsziel übereinstimmt.
  • Weiterhin kann es sein, dass die Kookkurenzmatrix nicht nur die N Wörter aufweist, die wirklich in den Aktivierungsphrasen auftreten, sondern auch eine viel größere Anzahl Wörter, beispielsweise das komplette Vokabular der Spracherkennungsmittel.
  • In weiteren Ausführungsformen von Audio-Dialogsystemen können andere Verfahren angewandt werden um die Ähnlichkeit in der Bedeutung zwischen Eingabetextdaten 21 und Aktivierungsphrasen 28 zu ermitteln. So können beispielsweise bekannte Informationsermittlungsverfahren angewandt werden, wobei eine Auswertung als Quotient aus der Wortfrequenz (Anzahl Auftritte eines Terms in einer bestimmten Phrase) und der gesamten Wortfrequenz (Gesamtauftritt dieses Terms in allen Phrasen) ermittelt wird. Phrasen werden durch Zumessung, für jeden gemeinsamen Term, der Auswertung dieses bestimmten Terms verglichen. Da die Auswertung für Terme allgemeiner Bedeutung niedrig sein wird (die in vielen Phrasen vorhanden sind) und für Terme einer spezifischen Bedeutung, die verschiedene Links voneinander unterscheiden, hoch sein wird, wird die Gesamtsumme an Auswertungen für jedes Phrasenpaar einen Grad angeben, in dem diese Phrasen übereinstimmen.
  • In noch einer anderen Ausführungsform können sog. Weiche Konzepte angewandt werden um eine Ähnlichkeit zwischen Eingabetextdaten 21 und Aktivierungsphrasen 28 zu ermitteln. Dies umfasst das Vergleichen der zwei Phrasen nicht nur in Bezug auf einfache allgemeine Terme, sondern auch in Bezug auf charakteristische Sequenzen von Termen. Die übereinstimmenden Verfahren sind ebenfalls als konzeptabhängige/konzeptspezifische Sprachmodelle bekannt.
  • Wenn "weiche Konzepte" angewandt werden, wird eine Wortsequenzfrequenz auf Basis eines Trainingsraums ermittelt. In dem vorliegenden Kontext wäre der Trainingsraum die gültigen Aktivierungsphrasen aller Links in dem betreffenden Dokument. Jeder der Links würde als ein semantisches Konzept betrachtet. Für jedes Konzept wird ein Sprachmodell auf den verfügbaren Aktivierungsphrasen trainiert. Auch wird ein Hintergrundmodell ermittelt, beispielsweise unter Verwendung eines allgemeinen Textes in der entsprechenden Sprache, und zwar als Konkurrent der konzeptspezifischen Modelle. Die Modelle können geglättet werden um eine gute Verallgemeinerung zu erreichen.
  • Wenn die Eingabetestdaten 21 danach mit den Modellen übereinstimmen, werden Auswertungen zugeordnet, die eine Übereinstimmung mit jedem der Sprachmodelle angeben. Eine hohe Auswertung für ein bestimmtes Modell gibt eine gute Übereinstimmung für den entsprechenden Link an. Wenn das allgemeine Sprachmodell "gewinnt", wird keine Übereinstimmung gefunden.
  • Der Link mit dem "gewinnenden" Sprachmodell wird aktiviert.
  • Das Weichkonzeptverfahren wird in den nachfolgenden Dokumenten genannt: Souvignier, B., Kellner, A., Rueber, B., Schramm, H., und Seide, F. "The thoughtful Elephant: Strategies for Spoken Dialog Systems", IEEE-SPAU, 2000, Vol 8, n° 1, p. 51–62. Weitere Einzelheiten über dieses Verfahren werden gegeben in dem Dokument: Kellner, A., Portele, T., "SPICE – A Multimodal Conversational User Interface to an Electronic Program Guide", ICSA-Tutorial and Research Workshop an Multi-Modal Dialogue in Mobile Environments, 2002, Kloster Irsee, Deutschland.
  • 2
  • Ziel = D2
    Gültige_Aktivierungsphrasen = "Erkennen von Vögeln durch ihre Silhouette" "Erkennen durch Silhouette"
  • 3
  • 32a
    Silhouette
    32b
    Umriss
    32c
    Form
    32d
    Darstellung
    33
    Vogel Vogelschar Gefieder Sperrling
    34
    Erkennen Ermitteln Observieren Unterscheiden

Claims (8)

  1. Audio-Dialogsystem, das Folgendes umfasst: – eine Audioeingangseinheit (12) zum Eingeben eines Audioeingangssignals, – Spracherkennungsmittel (20), die mit der genannten Audioeingangseinheit (12) assoziiert sind, zum Umwandeln des genannten Audioeingangssignals in Texteingangsdaten (21), – eine Audioausgangseinheit (12) zum Ausliefern eines Audioausgangssignals, und Sprachsynthesemittel (26), die mit der Ausgangseinheit (12) assoziiert ist, zum Umwandeln von Textausgangsdaten (24) in das genannte Audioausgangssignal, – Browsingmittel (22) zum verarbeiten von Inhaltsdaten (D1), wobei die genannten Inhaltsdaten (D1) Textinhalt und wenigstens einen Bezugswert (Ln1, Ln2) aufweist, wobei der genannte Bezugswert eine Bezugsziel- und Aktivierungsinformation aufweist, wobei die genannte Aktivierungsinformation eine oder mehrere Aktivierungsphrasen (28) umfasst, – wobei die genannten Browsingmittel (22) derart konfiguriert sind, dass sie die genannten Sprachsynthesemittel (26) derart steuern, dass sie den genannten Textinhalt ausliefern, – wobei die genannten Browsingmittel weiterhin derart konfiguriert sind, dass sie die genannten Eingangstextdaten (21) mit der genannten Aktivierungsphrase (28) vergleichen, und im Falle einer Übereinstimmung zum Zugreifen auf Inhaltsdaten (D2) entsprechend dem genannten Bezugsziel, – wobei im Falle die genannten Textdaten (21) nicht der genannten Aktivierungsphrase (28) nicht entspricht, finden die genannten Browsingmittel (22) eine Übereinstimmung, wenn die genannten Eingangstextdaten (21) eine Bedeutung haben, die mit der genannten Aktivierungsphrase (28) übereinstimmt.
  2. System nach Anspruch 1, wobei das genannte System weiterhin die nachfolgenden Elemente umfasst: – Verzeichnismittel (30) zum Speichern einer Anzahl Suchwörter (32), verbundener Wörter (32b, 32c, 32d) mit einer Bedeutung, die mit der Bedeutung der genannten Suchwörter (32a) verbunden ist, – wobei die genannten Browsingmittel (22) derart konfiguriert sind, dass sie verbundene Wörter (32b, 32c, 32d) für Wörter in den genannten Eingangstextdaten (21) und/oder für Wörter in der genannten Aktivierungsphrase (28) erfassen, – und die genannten verbundenen Wörter (32b, 32c, 32d) für den genannten Vergleich verwenden.
  3. System nach Anspruch 2, wobei: – die genannten Verzeichnismittel (30) wenigstens einige der genannten Suchwörter (32a) enthalten, – verbundene Wörter (32b, 32c, 32d), die in einer oder mehreren Kategorien außerhalb der Gruppe liegen, die aus Synonymen, Hyponymen, Hypernymen, Holonymen, Meronymen besteht.
  4. System nach einem der vorstehenden Ansprüche, wobei: – die genannten Browsingmittel (22) derart konfiguriert sind, dass eine gleichzeitig auftretende Matrix gebildet wird, die für eine Anzahl Terme und für eine Anzahl Aktivierungsphrasen die Anzahl Auftritte der genannten Terme in den genannten Phrasen gibt, – eine einzige Wertzerlegung der genannten gleichzeitig auftretenden Matrix durchgeführt wird, und zwar zum Berechnen eines semantischen Raumes, und – eine Ähnlichkeit ermittelt wird durch Darstellung der genannten Eingangsdaten (2) und der genannten Aktivierungsphrase (28) als Vektoren in dem genannten semantischen Raum, und durch Berechnung eines Maßes für den Winkel zwischen diesen Vektoren.
  5. System nach einem der vorstehenden Ansprüche, wobei – die genannten Browsingmittel (22) derart konfiguriert sind, dass sie eine Wortfrequenz für eine Anzahl Wörter in allen Aktivierungsphrasen aller Kopplungen in den genannten Inhaltsdaten ermitteln, – eine Ähnlichkeit ermittelt wird, und zwar dadurch, dass gemeinsame Wörter in den genannten Eingangstextdaten (21) und in der genannten Aktivierungsphrase (28) gefunden werden.
  6. System nach einem der vorstehenden Ansprüche, wobei – die genannten Browsingmittel (22) derart konfiguriert sind, dass die eine Wortfolgefre quenz für eine Anzahl Wortfolgen aller Aktivierungsphrasen (28) aller genannten Kopplungen in den genannten Inhaltsdaten ermitteln, – eine Ähnlichkeit ermittelt wird, und zwar durch Verarbeitung von Wortsequenzen der genannten Eingangstextdaten (21).
  7. System nach einem der vorstehenden Ansprüche, wobei – für jede der genannten Kopplungen ein Sprachmodell trainiert wird, wobei das genannte Sprachmodell Wortfolgefrequenzen aufweist, – die genannten Eingangstextdaten (21) mit jedem der genannten Sprachmodelle verglichen werden, und zwar durch Ermittlung einer Auswertung, die eine Übereinstimmung der genannten Eingangstextdaten (21) mit dem genannten Modell angibt, und – die genannte ähnliche Bedeutung entsprechend der genannten Bewertung ermittelt wird.
  8. Sprachbrowsingverfahren, das die nachfolgenden Verfahrensschritte umfasst: – Verarbeitung von Inhaltsdaten (D1), wobei die genannten Inhaltsdaten (D1) Textinhalt und wenigstens einen Bezugswert (LN1) enthalten, wobei der genannte Bezugswert Bezugsziel- und Aktivierungsinformation aufweist, wobei die genannte Aktivierungsinformation eine oder mehrere Aktivierungsphrasen (28) aufweist, – Umwandlung des genannten Textinhalts in ein Audioausgangssignal unter Anwendung von Sprachsynthese, und Auslieferung des genannten Audioausgangssignals, – Erfassung eines Audioeingangssignals, und Anwendung von Spracherkennung zum Umwandeln des genannten Audioeingangssignals in Texteingangsdaten (21), – Vergleich der genannten Texteingangsdaten (21) mit der genannten Aktivierungsphrase (28) und wobei im Falle, dass die genannten Texteingangsdaten nicht mit der genannten Aktivierungsphrase (28) übereinstimmen, angegeben wird, dass es eine Übereinstimmung gibt, wenn die genannten Eingangstextdaten (21) eine Bedeutung haben, die mit der genannten Aktivierungsphrase (28) übereinstimmt, und im Falle einer Übereinstimmung, Zugriff auf Inhaltsdaten (D2) entsprechend dem genannten Bezugsziel.
DE602004006641T 2003-11-10 2004-11-09 Audio-dialogsystem und sprachgesteuertes browsing-verfahren Expired - Fee Related DE602004006641T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03104129 2003-11-10
EP03104129 2003-11-10
PCT/IB2004/052351 WO2005045806A1 (en) 2003-11-10 2004-11-09 Audio dialogue system and voice browsing method

Publications (2)

Publication Number Publication Date
DE602004006641D1 DE602004006641D1 (de) 2007-07-05
DE602004006641T2 true DE602004006641T2 (de) 2008-01-24

Family

ID=34560210

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004006641T Expired - Fee Related DE602004006641T2 (de) 2003-11-10 2004-11-09 Audio-dialogsystem und sprachgesteuertes browsing-verfahren

Country Status (7)

Country Link
US (1) US20070136067A1 (de)
EP (1) EP1685556B1 (de)
JP (1) JP2007514992A (de)
CN (1) CN1879149A (de)
AT (1) ATE363120T1 (de)
DE (1) DE602004006641T2 (de)
WO (1) WO2005045806A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019011356A1 (de) 2017-07-14 2019-01-17 Cognigy Gmbh Verfahren zur dialogführung zwischen mensch und computer

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051096B1 (en) * 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
TWI270052B (en) * 2005-08-09 2007-01-01 Delta Electronics Inc System for selecting audio content by using speech recognition and method therefor
JP4756499B2 (ja) * 2005-08-19 2011-08-24 株式会社国際電気通信基礎技術研究所 音声認識結果の検査装置及びコンピュータプログラム
US7921214B2 (en) * 2006-12-19 2011-04-05 International Business Machines Corporation Switching between modalities in a speech application environment extended for interactive text exchanges
US8712779B2 (en) * 2007-03-19 2014-04-29 Nec Corporation Information retrieval system, information retrieval method, and information retrieval program
JP4987682B2 (ja) * 2007-04-16 2012-07-25 ソニー株式会社 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US8620658B2 (en) 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US20110054647A1 (en) * 2009-08-26 2011-03-03 Nokia Corporation Network service for an audio interface unit
CN103188410A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
US20140350928A1 (en) * 2013-05-21 2014-11-27 Microsoft Corporation Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
US10349141B2 (en) 2015-11-19 2019-07-09 Google Llc Reminders of media content referenced in other media content
US10409550B2 (en) * 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
JP6972711B2 (ja) * 2017-06-30 2021-11-24 富士通株式会社 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置
US10789940B2 (en) * 2018-03-27 2020-09-29 Lenovo (Singapore) Pte. Ltd. Dynamic wake word identification
CN112669836B (zh) * 2020-12-10 2024-02-13 鹏城实验室 命令的识别方法、装置及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US6604075B1 (en) * 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases
US6823311B2 (en) * 2000-06-29 2004-11-23 Fujitsu Limited Data processing system for vocalizing web content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019011356A1 (de) 2017-07-14 2019-01-17 Cognigy Gmbh Verfahren zur dialogführung zwischen mensch und computer
US11315560B2 (en) 2017-07-14 2022-04-26 Cognigy Gmbh Method for conducting dialog between human and computer

Also Published As

Publication number Publication date
CN1879149A (zh) 2006-12-13
JP2007514992A (ja) 2007-06-07
ATE363120T1 (de) 2007-06-15
EP1685556B1 (de) 2007-05-23
EP1685556A1 (de) 2006-08-02
US20070136067A1 (en) 2007-06-14
WO2005045806A1 (en) 2005-05-19
DE602004006641D1 (de) 2007-07-05

Similar Documents

Publication Publication Date Title
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69427525T2 (de) Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE3416238C2 (de) Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten
DE10058811A1 (de) Verfahren zur Identifizierung von Musikstücken
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: SCHOLL, H.R., 52066 AACHEN, DE

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee