DE20004416U1

DE20004416U1 - Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme

Info

Publication number: DE20004416U1
Application number: DE20004416U
Authority: DE
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-09-22
Filing date: 2000-03-09
Publication date: 2000-07-20
Anticipated expiration: 2010-03-10
Also published as: WO2001022400A1; US6542866B1

Description

VOSSIUS «PARTNER
PATENTANWÄLTE

SlEBERTgTR. 4
u.Z.: E 1304 GM-DE 81675 ■ MÜNCHEN

Case: M61.13-0203
MICROSOFT CORPORATION

Spracherkennungsvorrichtung unter Verwendung mehrerer

Merkmalsströme

Die vorliegende Erfindung betrifft die Spracherkennung. Die vorliegende Erfindung betrifft insbesondere die Verwendung von Merkmalen zum Vornehmen der Spracherkennung.

Bei Spracherkennungssystemen wird ein Eingangssprachsignal in Wörter umgewandelt, die den verbalen Inhalt des Sprachsignals darstellen. Diese Umwandlung beginnt mit dem Umwandeln des analogen Sprachsignals in eine Reihe digitaler Werte. Die digitalen Werte werden dann durch eine Merkmalsextraktionseinheit geführt, die eine Folge von auf den digitalen Werten beruhenden Merkmalsvektoren berechnet. Jeder Merkmalsvektor stellt einen Abschnitt des Sprachsignals dar.

Die Merkmalsvektoren können jede beliebige Anzahl durch bekannte Merkmalsextraktionsverfahren, wie eine lineare Vorhersagecodierung (LPC), ein von der LPC abgeleitetes Cepstrum, eine lineare Wahrnehmungsvorhersage (PLP), ein Hörmodell und Mel-Frequenzcepstrumkoeffizienten (MFCC), extrahierter verfügbarer Merkmale darstellen.

Die Merkmalsvektoren werden dann auf ein Akustikmodell angewendet, das die Wahrscheinlichkeit beschreibt, daß ein Merkmalsvektor durch ein bestimmtes Wort, ein bestimmtes Phonem oder ein bestimmtes Senon erzeugt wurde. Auf der Grundlage einer Folge dieser Wahrscheinlichkeiten identifiziert ein Decodierer eine wahrscheinlichste Wortfolge für das Eingangssprachsignal.

Wenngleich zahlreiche Merkmale anhand des Sprachsignals extrahiert werden können, erzeugen die meisten Systeme aus dem Stand der Technik nur Merkmalsvektoren, die einem einzigen "besten" Merkmal zugeordnet sind. Als Spracherkennungs-

systeme zum ersten Mal entwickelt wurden, wurden Filterbänke zum Extrahieren des bei der Erkennung verwendeten einzigen Merkmals verwendet. Später wurde die lineare Vorhersagecodierung als die besten Merkmale für die Spracherkennung liefernd angesehen. In den letzten Jahren haben viele Sprachsysteme Mel-Frequenzcepstrumkoeffizienten verwendet, um das "beste" Merkmal für die Spracherkennung bereitzustellen.

Wenngleich ein einziges Merkmal recht gute Spracherkennungsergebnisse liefern kann, beeinträchtigen Systeme, die ein einziges Merkmal für die gesamte Spracherkennung verwenden, automatisch einige Aspekte ihrer Leistungsfähigkeit. Insbesondere kann ein einziges Merkmal nicht das beste Merkmal zum Erkennen jedes möglichen Lauts sein. Statt dessen soll das gewählte Merkmal im allgemeinen für alle Laute die beste durchschnittliche Leistungsfähigkeit liefern. - Für manche Laute würden andere Merkmale bessere Spracherkennungsergebnisse liefern als das gewählte Merkmal.

Zum Lösen dieses Problems wurde bei manchen Systemen aus dem Stand der Technik versucht, während der Erkennung mehrere Merkmale zu verwenden. Bei einem System schloß dies das Zuweisen eines Merkmals zu einer Klasse von Lauten ein. Beispielsweise würden Vokaltöne einem Merkmal zugeordnet werden und Reibelaute einem anderen Merkmal zugeordnet werden. Diese Kombination von Merkmalen ist jedoch weniger wünschenswert, weil sie ungeachtet des Orts des Lauts im Sprachsignal ein Merkmal für einen Laut erzwingt. Ebenso wie ein einziges Merkmal nicht für alle Lautklassen eine optimale Leistungsfähigkeit bietet, bietet ein einziges Merkmal nicht für alle Orte eines Lauts eine optimale Leistungsfähigkeit. Weiterhin wird das jeder Klasse zugeordnete Merkmal vom Entwickler des Systems gewählt und ist demgemäß möglicherweise nicht immer die beste Wahl für die Klasse.

Es wurde bei anderen Systemen versucht, durch Kombinieren

von verschiedenen Merkmalen zugeordneten Wahrscheinlichkeits-Häufigkeitswerten mehrere Merkmale zu verwenden. Bei diesen Systemen werden getrennte Häufigkeitswerte auf der Grundlage

jedes Merkmals berechnet. Falls demgemäß drei Merkmale verwendet werden, werden für jedes Segment des Sprachsignals drei Wahrscheinlichkeits-Häufigkeitswerte bestimmt.

Bei einem System werden diese Wahrscheinlichkeits-Häufigkeitswerte unter Verwendung einer Abstimmungstechnik kombiniert. Bei der Abstimmungstechnik wird jedes Merkmal zum Identifizieren einer Unterworteinheit für jedes Segment des Sprachsignals verwendet. Die Unterworteinheiten werden dann miteinander verglichen. Falls eine Unterworteinheit häufiger angetroffen wird als andere, wird diese Unterworteinheit für das Sprachsegment ausgewählt. Falls es eine Verbindung zwischen Unterworteinheiten gibt, wird die einem bestimmten Merkmal zugeordnete Unterworteinheit auf der Grundlage eines Rangs des Merkmals ausgewählt.

Bei einem anderen Spracherkennungssystem aus dem Stand der Technik werden die Wahrscheinlichkeits-Häufigkeitswerte unter Bilden der gewichteten Summe der von jedem Merkmal erzeugten Häufigkeitswerte kombiniert. Diese gewichtete Summe repräsentiert dann die Wahrscheinlichkeit, daß das Segment des Sprachsignals eine bestimmte Unterworteinheit darstellt. Andere Spracherkennungssysteme aus dem Stand der Technik kombinieren die Wahrscheinlichkeits-Häufigkeitswerte durch Multiplizieren der Häufigkeitswerte von jedem einzelnen Merkmal miteinander. Das Produkt stellt dann die Wahrscheinlichkeit dar, daß das Segment des Sprachsignals eine bestimmte Unterworteinheit darstellt.

Diese Kombinationssysteme sind nicht ideal, weil die einem optimalen Merkmal eines Lauts zugeordneten Häufigkeitswerte durch Hinzufügen von Häufigkeitswerten überdeckt werden, die weniger optimalen Merkmalen zugeordnet sind.

Es ist eine Vorrichtung zum Verwenden mehrerer Merkmalsströme bei der Spracherkennung vorgesehen. Bei der Vorrichtung erzeugt ein Merkmalsextraktor mindestens zwei Merkmalsvektoren für ein Segment eines Eingangssignals. Ein Decodierer erzeugt dann ein Weg-Ergebnis bzw. einen -Häufigkeits-

wert, der die Wahrscheinlichkeit angibt, daß ein Wort durch das Eingangssignal dargestellt wird. Der Weg-Häufigkeitswert wird durch Auswählen mindestens eines Segment-Ergebnisses bzw. -Häufigkeitswerts aus einer Gruppe mindestens zweier Segment-Häufigkeitswerte ausgewählt. Jeder Segment-Häufigkeitswert in der Gruppe stellt eine getrennte Wahrscheinlichkeit für dieselbe innerhalb eines Segments auftretende Segmenteinheit dar, jeder Segment-Häufigkeitswert beruht jedoch auf verschiedenen Merkmalsvektoren für das Segment.

Bei manchen Ausführungsformen sind zwei verschiedene Spracherkennungssysteme durch einen Decodierer integriert, der einzelne Wort-Häufigkeitswerte der zwei verschiedenen Systeme zu einem Hypothese-Weg-Erbebins bzw. -Häufigkeitswert kombinieren kann. Der Decodierer kann weiterhin einen Weg-Häufigkeitswert aus einer Gruppe von Hypothese-Weg-Häufigkeitswerten auswählen, um Text für das Eingangssprachsignal zu identifizieren.

Nachstehend werden bevorzugte Ausführungsformen der Erfindung anhand der Zeichnungen beispielhaft beschrieben.

FIG. 1 ist eine Draufsicht einer allgemeinen Berechnungsumgebung, in der eine Ausführungsform der vorliegenden Erfindung verwendet wird.

FIG. 2 ist ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung.

FIG. 3 ist ein Zeitablauf diagramm, in dem verschiedenen Extraktionsmodulen zugeordnete Abtastfenster mit unterschiedlicher Größe dargestellt sind.

FIG. 4 ist ein Flußdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Erfindung zum Verwenden mehrerer Merkmalsströme bei der Spracherkennung.

FIG. 5 ist ein Flußdiagramm eines Verfahrens gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zum Verwenden mehrerer Merkmalsströme bei der Spracherkennung.

«· ft ·

FIG. 6 ist ein Teil eines Trellis-Diagramms eines Decodierers gemäß einer Ausführungsform der vorliegenden Erfindung.

FIG. 1 und die damit verbundene Erörterung sollen eine kurze, allgemeine Beschreibung einer geeigneten Berechnungsumgebung geben, in der die Erfindung verwirklicht werden kann. Wenngleich dies nicht erforderlich ist, wird die Erfindung zumindest teilweise im allgemeinen Zusammenhang Computer-ausführbarer Befehle in der Art von Programmodulen, die von einem Personalcomputer ausgeführt werden, beschrieben. Allgemein umfassen Programmodule Routinenprogramme, Objekte, Komponenten, Datenstrukturen usw., die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen verwirklichen. Fachleute werden weiterhin verstehen, daß die Erfindung zusammen mit anderen Computersystemkonfigurationen unter Einschluß von tragbaren Vorrichtungen, Mehrprozessorsystemen, einer Mikroprozessor-gestützten oder programmierbaren Verbraucherelektronik, Netzwerk-PCs, Kleinrechnern, Großrechnern und dergleichen verwirklicht werden kann. Die Erfindung kann auch in verteilten Berechnungsumgebungen verwirklicht werden, in denen Aufgaben durch Fernverarbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetz miteinander verknüpft sind. In einer verteilten Berechnungsumgebung können sich Programmodule in Lokal- und Fernspeichervorrichtungen befinden.

Mit Bezug auf FIG. 1 sei bemerkt, daß ein als Beispiel dienendes System zum Verwirklichen der Erfindung eine Vielzweck-Rechenvorrichtung in Form eines herkömmlichen Personalcomputers 20 aufweist, der eine Verarbeitungseinheit (CPU) 21, einen Systemspeicher 22 und einen Systembus 23, der verschiedene Systemkomponenten unter Einschluß des Systemspeichers 22 mit der Verarbeitungseinheit 21 koppelt, aufweist. Der Systembus 23 kann mehreren Typen von Busstrukturen unter Einschluß eines Speicherbusses oder einer Speichersteuereinrichtung, einem peripheren Bus und einem lokalen Bus

unter Verwendung einer Vielzahl von Busarchitekturen angehören. Der Systemspeicher 22 weist einen Nurlesespeicher (ROM) 24 und einen Direktzugriffsspeicher (RAM) 25 auf. Eine Grund-Ein-/Ausgabeeinheit (BIOS) 26, die die Grundroutine enthält, die dabei hilft, Informationen beispielsweise während des Hochfahrens zwischen Elementen innerhalb des Personalcomputers 20 zu übertragen, ist im ROM 24 gespeichert. Der Personalcomputer 20 weist weiterhin ein Festplattenlaufwerk 27 zum Lesen aus einer Festplatte (nicht dargestellt) und zum Schreiben auf diese, ein Magnetplattenlaufwerk 28 zum Lesen aus der entfernbaren Magnetplatte 29 und zum Schreiben auf diese und ein Bildplattenlaufwerk 30 zum Lesen aus einer entfernbaren Bildplatte 31 in der Art einer CD-ROM oder anderer optischer Medien und zum Schreiben auf diese auf. Das Festplattenlaufwerk 27, das Magnetplattenlaufwerk 28 und das Bildplattenlaufwerk 30 sind durch eine Festplattenlaufwerk-Schnittstelle 32, eine Magnetplattenlaufwerk-Schnittstelle 33 bzw. eine Schnittstelle 34 für optische Laufwerke an den Systembus 23 angeschlossen. Die Laufwerke und die zugeordneten Computer-lesbaren Medien ermöglichen das nichtflüchtige Speichern Computer-lesbarer Befehle, Datenstrukturen, Programmodule und anderer Daten für den Personalcomputer 20.

Wenngleich bei der hier beschriebenen als Beispiel dienenden Umgebung die Festplatte, die entfernbare Magnetplatte 29 und die entfernbare Bildplatte 31 verwendet werden, wird verständlich sein, daß andere Typen Computer-lesbarer Medien, wie magnetische Kassetten, Flash-Speicher-Karten, digitale Videoplatten, Bernoulli-Kassetten, Direktzugriffsspeicher (RAMs), Nurlesespeicher (ROMs) und dergleichen, die von einem Computer ansteuerbare Daten speichern können, auch in der als Beispiel dienenden Betriebsumgebung verwendet werden können.

Eine Anzahl von Programmodulen kann auf der Festplatte, der Magnetplatte 29, der Bildplatte 31, dem ROM 24 oder dem RAM 25 gespeichert werden, wobei diese ein Betriebsystem 35, ein oder mehrere Anwenderprogramme 36, andere Programmodule 37 und Programmdaten 38 einschließen. Ein Benutzer kann über

&diams; ·

lokale Eingabevorrichtungen, wie eine Tastatur 40, eine Zeigevorrichtung 42 und ein Mikrofon 43 Befehle und Informationen in den Personalcomputer 20 eingeben. Andere Eingabevorrichtungen (nicht dargestellt) können einen Joystick, eine Spielekonsole, eine Satellitenschüssel, einen Scanner oder dergleichen einschließen. Diese und andere Eingabevorrichtungen sind häufig über eine Schnittstelle 46 eines seriellen Anschlusses, die mit dem Systembus 23 gekoppelt ist, mit der Verarbeitungseinheit 21 verbunden, sie können jedoch auch durch andere Schnittstellen in der Art einer Soundkarte, eines parallelen Anschlusses, eines Gameports oder eines universellen seriellen Busses (USB) angeschlossen sein. Ein Bildschirm 47 oder ein anderer Typ einer Anzeigevorrichtung ist auch über eine Schnittstelle in der Art eines Videoadapters 48 mit dem Systembus 23 verbunden. Zusätzlich zum Bildschirm 47 können Personalcomputer typischerweise andere periphere Ausgabevorrichtungen in der Art eines Lautsprechers 45 und von Druckern (nicht dargestellt) aufweisen.

Der Personalcomputer 20 kann in einer vernetzten Umgebung unter Verwendung logischer Verbindungen zu einem oder mehreren fernen Computern, wie einem fernen Computer 49, arbeiten. Der ferne Computer 49 kann ein weiterer Personalcomputer, eine tragbare Vorrichtung, ein Server, ein Router, ein Netzwerk-PC, eine Partnervorrichtung oder ein anderer Netzwerkknoten sein, und er umfaßt typischerweise viele oder alle der oben hinsichtlich des Personalcomputers 20 beschriebenen Elemente, wenngleich nur eine Speichervorrichtung 50 in FIG. 1 dargestellt ist. Die in FIG. 1 dargestellten logischen Verbindungen umfassen ein lokales Netz (LAN) 51 und ein weiträumiges Netz (WAN) 52. Diese Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetz-Intranets und dem Internet üblich.

Wenn er in einer LAN-Netzwerkumgebung verwendet wird, ist der Personalcomputer 20 über eine Netzwerkschnittstelle oder einen Adapter 53 mit dem lokalen Netz 51 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, weist der

Personalcomputer 20 typischerweise ein Modem 54 oder eine andere Einrichtung zum Einrichten von Datenübertragungen über das weiträumige Netz 52 in der Art des Internets auf. Das Modem 54, das intern oder extern sein kann, ist über die Schnittstelle 46 des seriellen Anschlusses mit dem Systembus 23 verbunden. In einer Netzwerkumgebung können hinsichtlich des Personalcomputers 20 dargestellte Programmodule oder Teile davon in den fernen Speichervorrichtungen verwendet werden. Es sei bemerkt, daß die dargestellten Netzverbindungen als Beispiel dienen und daß andere Mittel zum Einrichten einer Kommunikationsverbindung zwischen den Computern verwendet werden können. Beispielsweise kann eine drahtlose Kommunikationsverbindung zwischen einem oder mehreren Teilen des Netzwerks eingerichtet werden.

Wenngleich in FIG. 1 eine als Beispiel dienende Umgebung dargestellt ist, ist die vorliegende Erfindung nicht auf eine digitale Berechnungsumgebung beschränkt. Insbesondere kann die vorliegende Erfindung auf analoge Vorrichtungen oder Mischsignalvorrichtungen (analog und digital) angewendet werden. Weiterhin kann die vorliegende Erfindung bei einer einzigen integrierten Schaltung, beispielsweise bei Realisierungen mit einem kleinen Vokabular, eingesetzt werden.

FIG. 2 stellt ein detaillierteres Blockdiagramm von Modulen der allgemeinen Umgebung aus FIG. 1 dar, wobei diese für die vorliegende Erfindung besonders relevant sind. In FIG. 2 wird ein Eingangssprachsignal durch ein Mikrofon 100, das an einen Analog-Digital-Wandler (A-D-Wandler) 102 angeschlossen ist, in ein elektrisches Signal umgewandelt. Der A-D-Wandler 102 wandelt das Analogsignal in eine Reihe digitaler Werte um. Bei mehreren Ausführungsformen tastet der A-D-Wandler 102 das analoge Signal bei 16 kHz ab, wodurch 16 Kilobytes an Sprachdaten je Sekunde erzeugt werden.

Die vom A-D-Wandler 102 erzeugten Daten werden einem Merkmalsextraktor 104 zugeführt, der mehrere Merkmale aus dem digitalen Sprachsignal extrahiert. Insbesondere enthält der Merkmalsextraktor 104 mehrere Merkmalsextraktionsmodule 105,

107 und 109. Wenngleich in FIG. 2 drei Merkmalsextraktionsmodule dargestellt sind, können Ausführungsformen der vorliegenden Erfindung eine beliebige Anzahl von Merkmalsextraktionsmodulen aufweisen, solange es mehr als zwei Module gibt. Beispiele von Merkmalsextraktionsmodulen sind Module zum Ausführen einer linearen Vorhersagecodierung (LPC), eines von der LPC abgeleiteten Cepstrums, einer linearen Wahrnehmungsvorhersage (PLP), einer Hörmodell-Merkmalsextraktion und einer Mel-Frequenzcepstrumkoeffizienten-(MFCC)-Merkmalsextraktion. Es sei bemerkt, daß die Erfindung nicht auf diese Merkmalsextraktionsmodule beschränkt ist und daß andere Module innerhalb des Zusammengangs des vorliegenden Erfindung verwendet werden können.

Bei einer Ausführungsform der Erfindung stellt jedes Modul innerhalb des Merkmalsextraktors 104 eine eindeutige Extraktionstechnik dar. Demgemäß verwendet das Merkmalsextraktionsmodul 105 beispielsweise eine lineare Vorhersagecodierung, verwendet das Modul 107 eine lineare Wahrnehmungsvorhersage und verwendet das Modul 109 MFCC. Bei einer alternativen Ausführungsform teilen sich wenigstens zwei der Module die gleiche Grundextraktionstechnik, verwenden jedoch innerhalb der Technik unterschiedliche Parameter. Beispielsweise verwenden die Merkmalsextraktionsmodule 105 und 107 bei einer Ausführungsform MFCC, jedoch Abtastfenster mit unterschiedlicher Größe. Weil sich die Parameter bei den zwei Modulen unterscheiden, unterscheiden sich die von den zwei Modulen extrahierten Merkmale.

Jedes der Merkmalsextraktionsmodule empfängt den Strom digitaler Werte vom A-D-Wandler 102, und jedes von ihnen erzeugt einen Strom von Merkmalsvektoren. Jeder Merkmalsvektor ist einem Rahmen des Sprachsignals zugeordnet, der bei vielen Ausführungsformen 10 Millisekunden lang ist. Wenngleich jeder Merkmalsvektor einem identischen Rahmen zugeordnet ist, können die Merkmalsvektoren auf unterschiedliehen Abtastfenstergrößen beruhen, wie in FIG. 3 dargestellt ist.

- &iacgr;&ogr; -

FIG. 3 ist ein Zeitablaufdiagramm, in dem ein Satz von Rahmen 150, 152, 154, 156 und 158 eines Sprachsignals 160 dargestellt ist. In FIG. 3 sind auch ein Satz von Abtastfenstern 162 und 164, die einem ersten Merkmalsextraktionsmodul zugeordnet sind, und ein zweiter Satz von Abtastfenstern 166 und 168, die einem zweiten Merkmalsextraktionsmodul zugeordnet sind, dargestellt. Die Abtastfenster 162 und 166 sind im Rahmen 150 zentriert, und die Abtastfenster 164 und 168 sind jeweils im Rahmen 152 zentriert.

Jedes Abtastfenster liefert Informationen für einen Merkmalsvektor, der dem Rahmen zugeordnet ist, in dem das Abtastfenster zentriert ist. Demgemäß liefert das Abtastfenster 162 Informationen für einen dem Rahmen 150 zugeordneten Merkmalsvektor, und das Abtastfenster 164 liefert Informationen für einen dem Rahmen 152 zugeordneten Merkmalsvektor. Wenngleich sie viel größer als die Abtastfenster 162 und 164 sind, liefern die Abtastfenster 166 und 168 in ähnlicher Weise Informationen für dem Rahmen 150 bzw. 152 zugeordnete Merkmalsvektoren.

Zu FIG. 2 zurückkehrend sei bemerkt, daß die Ströme von durch die Extraktionsmodule erzeugten Merkmalsvektoren einem Decodierer 106 zugeführt werden, der eine wahrscheinlichste Sequenz von Wörtern auf der Grundlage der Ströme von Merkmalsvektoren, Akustikmodellen 108, eines Sprachmodells 110 und eines Lexikons 112 identifiziert.

Die Akustikmodelle 108 liefern akustische Ergebnisse bzw. Häufigkeitswerte, beispielsweise logarithmische Wahrscheinlichkeiten, die die Wahrscheinlichkeit dafür beschreiben, daß eine Reihe von Merkmalsvektoren durch eine bestimmte Reihe linguistischer Einheiten in der Art einer Reihe von Senonen, Phonemen, Geräuschlauten, Doppellauten oder Dreifachlauten erzeugt wurde. (Es sei im Zusammenhang mit dieser Anwendung bemerkt, daß auf solche linguistischen Einheiten manchmal unter Verwendung des allgemeinen Begriffs "Segmenteinheiten" Bezug genommen wird.) Innerhalb der Akustikmodelle 108 gibt es ein eigenes Modell für jedes vom

- 11 -

Merkmalsextraktor 104 extrahierte Merkmal. Jedes Modell wird auf der Grundlage eines Merkmalsextraktionsverfahrens und Trainingsdaten trainiert. Beispiele von Akustikmodellen 108 sind verborgene Markov-Modelle (HMM) mit diskreter, halbkontinuierlicher oder kontinuierlicher Dichte, die bei einer gegebenen Reihe von Merkmalsvektoren für eine Anzahl verschiedener Folgen linguistischer Einheiten logarithmische Wahrscheinlichkeiten liefern.

Das Sprachmodell 110 liefert einen Satz von Wahrscheinlichkeiten dafür, daß eine bestimmte Folge von Wörtern in der interessierenden Sprache auftritt. Bei vielen Ausführungsformen beruht das Sprachmodell auf einer Textdatenbank in der Art derjenigen von "North American Business News" (NAB), die in näheren Einzelheiten in einer Veröffentlichung mit dem Titel "CSR-III Text Language Model", University of Penn., 1994, beschrieben ist. Das Sprachmodell kann ein kontextfreies Grammatikmodell oder ein statistisches N-Grammatikmodell in der Art eines Trigramms sein. Bei einer Ausführungsform ist das Sprachmodell ein kompaktes Trigrammodell, das die Wahrscheinlichkeit einer Folge von Wörtern auf der Grundlage der kombinierten Wahrscheinlichkeiten von Dreiwortsegmenten der Folge bestimmt.

Auf der Grundlage der Akustikmodelle, des Sprachmodells und des Lexikons berechnet der Decodierer 106 das Ergebnis bzw. den Häufigkeitswert des Akustikmodells und des Sprachmodells für alle möglichen Wortfolgen. Der Decodierer 106 wählt dann die wahrscheinlichste Folge von Wörtern und/oder Geräuschen aus, die er zusammen mit den diesen Wörtern und/oder Geräuschen zugeordneten akustischen Häufigkeitswerten und Sprach-Häufigkeitswerten an seinem Ausgang bereitstellt. Die zum Erzeugen der akustischen Häufigkeitswerte und zum Auswählen der wahrscheinlichsten Folge von Wörtern verwendeten speziellen Verfahren werden weiter unten erörtert.

Die wahrscheinlichste Folge von Hypothese-Wörtern und die diesen Wörtern zugeordneten Akustik- und Sprach-Häufigkeits-

4 *
• &diams; ·

- 12 -

werte werden einem Vertrauensmaßmodul 114 zugeführt, das auch die vom Merkmalsextraktor 104 erzeugten Merkmalsvektoren empfängt. Das Vertrauensmaßmodul 114 identifiziert teilweise auf der Grundlage eines sekundären Akustikmodells, welche Wörter am wahrscheinlichsten vom Spracherkenner nicht richtig identifiziert worden sind. Das Vertrauensmaßmodul 114 führt die Folge von Hypothese-Wörtern dann zusammen mit Identifizierern, die angeben, welche Wörter nicht richtig identifiziert worden sind, einem Ausgabemodul 12 6 zu.

Bei Ausführungsformen der vorliegenden Erfindung identifiziert der Decodierer 106 die wahrscheinlichste Folge von Hypothese-Wörtern auf der Grundlage einer Kombination verschiedener Merkmale vom Merkmalsextraktor 104. Insbesondere verwendet der Decodierer 106 an verschiedenen Punkten im Sprachsignal verschiedene Merkmale. Bei einer Ausführungsform wählt der Decodierer 106 seine Merkmale auf einer Je-Rahmen-Grundlage aus. Bei anderen Ausführungsformen wählt der Decodierer 106 Merkmale auf einer Senon-, Phonem-, Doppellaut-, Dreifachlaut- oder Wortgrundlage aus. Bei all diesen Ausführungsformen ist ein einziges Merkmal nicht direkt mit einer Klasse linguistischer Einheiten verbunden. Beispielsweise ist ein einziges Merkmal nicht direkt mit einer Klasse von Phonemen oder einer Klasse von Wörtern verbunden. Statt dessen wird das Sprachsignal direkt dazu verwendet, zu bestimmen, welches Merkmal die wahrscheinlichste Folge von Wörtern am besten identifizieren kann.

FIG. 4 ist ein Flußdiagramm eines vom Decodierer 106 bei einer Ausführungsform der vorliegenden Erfindung verwendeten Decodierverfahrens. In einem Schritt 200 aus FIG. 4 empfängt und speichert der Decodierer 106 die vom Merkmalsextraktormodul 104 bereitgestellten mehreren Merkmalsströme. In einem Schritt 202 wählt der Decodierer 106 einen der Merkmalsströme aus, um durch Vornehmen des Decodierens eine Hypothese-Folge von Wörtern zu bestimmen. Demgemäß wird im Schritt 202 jedes Segment des Sprachsignals unter Verwendung von Merkmalsvekto-

• 4

&diams;·

- 13 -

ren vom gleichen Merkmalsextraktionsmodul im Merkmalsextraktor 104 decodiert.

Bei einem Schritt 204 wählt der Decodierer 106 das erste Segment des Sprachsignals aus. Dieses Segment weist eine zugeordnete Hypothese-Segmenteinheit auf, die im Schritt 202 bestimmt wurde. Bei einem Schritt 206 gewinnt der Decodierer 106 die von jedem der Extraktionsmodule für das gewählte Segment erzeugten Merkmalsvektoren. Falls demgemäß von LPC, PLP bzw. MFCC drei getrennte Merkmale erzeugt werden, werden drei Merkmalsvektoren gewonnen. Der Decodierer 106 verwendet dann die gewonnenen Merkmalsvektoren und die den Merkmalen zugeordneten jeweiligen Akustikmodelle zum Bestimmen eines Satzes posteriorer Wahrscheinlichkeiten. Jede einzelne Wahrscheinlichkeit ist die Wahrscheinlichkeit, daß die Hypothese-Segmenteinheit beim gegebenen jeweiligen Merkmalsvektor geäußert wurde. Dies würde bei Verwendung der oben erwähnten Merkmale beim gegebenen LPC-Merkmalsvektor zu einer Wahrscheinlichkeit für das Hypothese-Segment, beim gegebenen PLP-Merkmalsvektor zur Wahrscheinlichkeit der Hypothese-Segmenteinheit und beim gegebenen MFCC-Merkmalsvektor zur Wahrscheinlichkeit der Hypothese-Segmenteinheit führen.

Bei einer Ausführungsform ist die für jeden Merkmalsvektor bestimmte posteriore Wahrscheinlichkeit als

nc /u &igr; &khgr; P^(a I ^hseg) · P(hseg) ,-.-,-,

p(hseg I a) = — Gl. 1

p(a)

definiert, wobei p(hseg|a) die Wahrscheinlichkeit der Hypothese-Segmenteinheit hseg beim gegebenen Merkmalsvektor a ist, &rgr;(a|hseg) die Wahrscheinlichkeit des von der Hypothese-Segmenteinheit hseg erzeugten Merkmalsvektors a ist, &rgr;(hseg) die Wahrscheinlichkeit der in einer Lautäußerung auftretenden Hypothese-Segmenteinheit ist und p(a) die Wahrscheinlichkeit des in einer Lautäußerung auftretenden Merkmalsvektors a ist.

Weil der Nenner auf der rechten Seite die Gesamtwahrscheinlichkeit des in einem Laut auftretenden Merkmalsvektors darstellt, wird Gleichung 1 manchmal als

/&tgr; in &iacgr;&Oacgr;³ I hseg) ■ p(hseg) p(hseg\a)= Gl. 2

alle Segmenteinheiten

geschrieben, wobei p(a|seg) die Wahrscheinlichkeit des von einer Segmenteinheit erzeugten Merkmalsvektors ist und p(seg) die Wahrscheinlichkeit einer in der Lautäußerung auftretenden Segmenteinheit ist.

Beim Vergleich der den verschiedenen Merkmalsvektoren zugeordneten Wahrscheinlichkeiten kann ein Segmenteinheit-Sprachmodell angewendet werden, um die Wahrscheinlichkeit p(hseg) der in einer Lautäußerung auftretenden Hypothese-Segmenteinheit zu bestimmen, oder diese Wahrscheinlichkeit kann zu einer gleichmäßigen Wahrscheinlichkeit vereinfacht werden. Es sei bemerkt, daß die Wahrscheinlichkeit p(a) des in der Lautäußerung auftretenden Merkmalsvektors für jeden Merkmalsvektor berechnet werden muß und daß diese Wahrscheinlichkeit für verschiedene Merkmale verschieden ist.

Bei einem Schritt 208 vergleicht der Decodierer 106 die im Schritt 206 bestimmten Wahrscheinlichkeiten, um den Merkmalsvektor zu identifizieren, der die höchste Wahrscheinlichkeit für die Hypothese-Segmenteinheit erzeugt. Das dem Merkmalsvektor mit der höchsten Wahrscheinlichkeit zugeordnete Merkmal wird dann dem Segment zugewiesen. Wie weiter unten in näheren Einzelheiten erörtert wird, bewirkt dieses Zuweisen, daß das Merkmal verwendet wird, wenn eine revidierte Hypothese-Segmenteinheit für dieses Segment erzeugt wird.

Bei einem Schritt 210 bestimmt der Decodierer 106, ob dies das letzte Segment der Lautäußerung ist. Falls dies nicht der Fall ist, wird das nächste Segment bei einem Schritt 212 ausgewählt, und der Prozeß kehrt zum Schritt 206 zurück, wo ein Satz posteriorer Wahrscheinlichkeiten für dieses neue Segment bestimmt wird. Die Schritte 206, 208, 210 und 212 werden wiederholt und weisen jedem Segment Merkmale zu, bis das letzte Segment beim Schritt 210 erreicht wird.

Wenn das letzte Segment erreicht wurde, wird der Prozeß bei einem Schritt 214 fortgesetzt.

Beim Schritt 214 wird unter Verwendung der im Schritt 208 den Segmenten zugewiesenen Merkmale eine neue Decodierung vorgenommen. Diese neue Decodierung erzeugt eine neue Segmentierung und eine neue Hypothese-Folge von Wörtern. Während des Decodierens könnten für verschiedene Segmente verschiedene Merkmale verwendet werden. Falls beispielsweise im Schritt 208 dem zweiten Segment MFCC zugewiesen wird, werden der MFCC-Merkmalsvektor und das MFCC-Akustikmodell zum Berechnen der Häufigkeitswerte für alle möglichen Segmenteinheiten eines bestimmten Typs für das zweite Segment verwendet. Bei einer Ausführungsform werden beispielsweise Ergebnisse bzw. Häufigkeitswerte für alle möglichen Phoneme für das zweite Segment berechnet. Falls in ähnlicher Weise im Schritt 208 LPC dem dritten Segment zugewiesen wird, werden der LPC-Merkmalsvektor und das LPC-Akustikmodell zum Berechnen der Ergebnisse bzw. Häufigkeitswerte für alle möglichen Segmenteinheiten für das dritte Segment verwendet.

Bei einem Schritt 216 wird die neue Hypothese-Folge von Wörtern mit der vorhergehenden Hypothese-Folge verglichen und die Anzahl der Änderungen in der Folge bestimmt. Falls die Anzahl der Änderungen bei einem Schritt 218 größer als eine vorgegebene Schwelle ist, kehrt der Prozeß zum Schritt 204 zurück, wo das erste Segment der Lautäußeruhg ausgewählt wird. Die Schritte 206, 208, 210, 212, 214, 216 und 218 werden dann unter Verwendung der neuen Hypothese-Folge von Wörtern an Stelle der vorhergehenden Hypothese-Folge von Wörtern wiederholt. Die Schritte werden wiederholt, bis die Anzahl der Änderungen in der Folge von Wörtern unterhalb der Schwelle liegt. Wenn dies geschieht, endet der Prozeß bei einem Schritt 220.

Bei einer anderen Ausführungsform der Erfindung wird das Merkmal durch Erweitern des Decodierersuchraums um eine zusätzliche Dimension, nämlich darum, welches Merkmal für jedes Segment zu verwenden ist, ausgewählt. Unter Verwendung

dieses erweiterten Suchraums wählt der Decodierer automatisch das beste Merkmal für ein Segment aus, wenn er den Häufigkeitswert des besten Erkennungswegs auswählt.

Die zusätzliche Dimension des Decodierers wird dem Suchraum durch Erzeugen von Merkmal/Segment-Einheitspaaren im Decodierer hinzugefügt. Der Decodierer sucht dann nach der wahrscheinlichsten Folge von Merkmal/Segment-Einheitspaaren. Die Einzelheiten einer solchen Ausführungsform sind im Flußdiagramm aus FIG. 5 dargestellt.

In einem Schritt 250 aus FIG. 5 wird ein Satz von Merkmalsvektoren, jeweils einer für jedes Merkmal, für das aktuelle Segment des Sprachsignals empfangen. Bei einem Schritt 252 wird ein Satz akustischer Wahrscheinlichkeiten für jeden der Merkmalsvektoren bestimmt. Jeder Satz akustischer Wahrscheinlichkeiten weist beim jeweils gegebenen Merkmalsvektor eine akustische Wahrscheinlichkeit für jede mögliche Segmenteinheit eines bestimmten Typs (beispielsweise ein Senon, ein Phonem, ein Doppellaut, ein Dreifachlaut oder ein Wort) auf. Falls das System demgemäß LPC-, PLP- und MFCC-Merkmale verwendet und wenn die Segmenteinheit ein Phonem ist, weist der Satz von Wahrscheinlichkeiten für das LPC-Merkmal auf der Grundlage des LPC-Merkmalsvektors eine akustische Wahrscheinlichkeit für jedes Phonem auf, weist der Satz von Wahrscheinlichkeiten für das PLP-Merkmal auf der Grundlage des PLP-Merkmalsvektors eine akustische Wahrscheinlichkeit für jedes Phonem auf und weist der Satz von Wahrscheinlichkeiten für das MFCC-Merkmal auf der Grundlage des MFCC-Merkmalsvektors eine akustische Wahrscheinlichkeit für jedes Phonem auf. Weil jede Wahrscheinlichkeit merkmalsspezifisch ist, kann die Wahrscheinlichkeit als eine Wahrscheinlichkeit für ein Merkmal/Segment-Einheitspaar betrachtet werden.

Bei einem Schritt 254 verwendet der Decodierer 106 jede den Merkmal/Segment-Einheitspaaren zugeordnete Wahrscheinlichkeit zum Bestimmen eines Satzes von beim aktuellen Segment endenden Hypothese-Weg-Ergebnissen bzw. -Häufigkeitswerten. Insbesondere wird für jeden am

···&diams; · · * jij

- 17 -

vorhergehenden Segment endenden Hypothese-Weg für jedes Merkmal/Segment-Einheitspaar des aktuellen Segments ein neuer Weg-Häufigkeitswert berechnet. Falls demgemäß zehn Hypothese-Wege am vorhergehenden Segment geendet haben und es am aktuellen Segment einhundertfünfzig Merkmal/Segment-Einheitspaare gibt, die der vorhergehenden Hypothese unter der vom Lexikon und dem Sprachmodell erzeugten Einschränkung folgen können, werden 1500 (10 * 150) Hypothese-Weg-Häufigkeitswerte bestimmt.

FIG. 6 zeigt einen Teil eines Trellis-Diagramms, in dem ein Satz von Merkmal/Segment-Einheitspaaren 300, 302, 304, 306, 308 und 310 für ein aktuelles Segment 298 dargestellt ist. Die Wahrscheinlichkeiten der Merkmal/Segment-Einheitspaare 300, 302 und 304 beziehen sich auf das Auftreten des "AH"-Phonems in der Lautäußerung. Die Wahrscheinlichkeiten der Merkmal/Segment-Einheitspaare 300, 302 und 304 beruhen jedoch auf unterschiedlichen Merkmalen. Bei einer Ausführungsform beruht die Wahrscheinlichkeit des Paars 300 beispielsweise auf einem LPC-Merkmalsvektor, beruht die Wahrscheinlichkeit des Paars 302 auf einem PLP-Merkmalsvektor und beruht die Wahrscheinlichkeit des Paars 304 auf einem MFCC-Merkmalsvektor. Wenngleich die Merkmal/Segment-Einheitspaare demgemäß die gleiche Segmenteinheit darstellen, kann es jedem Merkmal/Segment-Einheitspaaren zugeordnete unterschiedliche Wahrscheinlichkeiten geben. In ähnlicher Weise betreffen die den Merkmal/Segment-Einheitspaaren 306, 308 und 310 zugeordneten Wahrscheinlichkeiten jeweils das Auftreten des "Th"-Phonems in der Lautäußerung, jede Wahrscheinlichkeit beruht jedoch auf einem anderen Merkmalsvektor.

Bei einer Ausführungsform sind die Wahrscheinlichkeiten jedes Paars in Hypothese-Weg-Häufigkeitswerten aufgenommen, die miteinander verglichen werden, um ein Erkennungsergebnis W* mit dem höchsten Weg-Häufigkeitswert zu erhalten:

W* = arg max_w p(W | A) Gl. 3

- 18 -

wobei W eine Folge von Segmenteinheiten ist, A die akustische Beobachtung ist und &rgr; (W | A) die Wahrscheinlichkeit von W bei gegebenem A ist. Ohne Verlust an Allgemeinheit wird angenommen, daß es mehrere A zugeordnete Merkmalsströme {Fj.}, ie[l,...,N] gibt und daß es S phonetische Segmente oder Wortsegmente für die betrachtete Lautäußerung gibt. Unter der Annahme einer genauen Segmentierung zerlegen wir Gleichung 3 folgendermaßen in eine Summe von Wahrscheinlichkeiten über alle möglichen gemischten Merkmalsstromwege: 10

W* = argmax_w ^f[p(W^k | F_Ik,A)p(F_Ik | A) Gl. 4

&idiagr;€&psgr; k=l

was folgendermaßen genähert werden kann:

s
W* = argmax_w Jf]^ ' ^FiJP^(Fi* ^{] A) G1}· ⁵

&Igr;&egr;&psgr; k=l

wobei &PSgr; ein Satz ist, der alle möglichen Merkmalsstrom-Permutationswege vom ersten bis zum S-ten Segment enthält, wobei I einen solchen Merkmalsstromweg in der Art von I= (I₁, I₂... Ik) darstellt, wobei I_ke[l,...,N] ist, wobei F_Ik das akustische Merkmal im k-ten Segment bezeichnet, wobei W^k die entsprechende Segmenteinheit im k-ten Segment bezeichnet, wobei p(F_It|A) die Wahrscheinlichkeit eines bestimmten Merkmals im Segment k bei gegebenem Sprachsignal A ist und wobei p(W^IC|F_I ) die Wahrscheinlichkeit einer Segmenteinheit W^k für das k-te Segment beim gegebenen Merkmalsvektor F_It für das k-te Segment ist.

Gleichung 5 beinhaltet, daß die beste Wortfolge diejenige sein sollte, die für alle möglichen Merkmalsstromkombinationen für die gegebene Lautäußerung die höchste posteriore Gesamtwahrscheinlichkeit aufweist.

Ein Weg zum Nähern von Gleichung 5 besteht darin, den maximalen Term jeder Summe zu finden und jede Summe durch diesen einen Term darzustellen. Demgemäß wird Gleichung 5 zu:

	= arg	max_w<max	»-·	*·· »·»**	·· ·» *• · ·**
			• 19	·· ·■·
		S ill Ic = I	-
W*		p(W^k I F₁	:_k)P(F_Ik I J

wobei maxi den maximalen Term jeder Summe aus Gleichung 5 angibt.

Der maximale Term aus Gleichung 5 wird für eine Folge von Segmenteinheiten erzeugt, wenn der Weg von Merkmalen die höchste Wahrscheinlichkeit für jede einzelne Segmenteinheit bereitstellt. Demgemäß wird Gleichung 6 zu:
10

W* = arg max J JJ ItIaX₁ p(W^k | F_lt)p(F_lk | A)I Gl. 7

U J

U = I

wobei ie[l,...,N] ist.

Gleichung 7 ist äquivalent damit, die höchste Wahrscheinlichkeit &rgr; (W^k | F_it ) &rgr; ( F_it I A) für jedes Segment zu finden, während in der gleichen Weise wie bei einem Bündelsuchalgorithmus ein Merkmalsumschalten zwischen verschiedenen Segmenten ermöglicht wird.

In der Praxis kann p(W^k|F_I|() hinsichtlich einer Akustikmodellwahrscheinlichkeit &rgr; (F_T |W^k) und einer Sprachmodellwahrscheinlichkeit p(W^k) folgendermaßen umgeschrieben werden:

_k P(F₁ I W^k) * p(W^k)

p(W^k I F₁ ) = ^-ii Gl. 8

p(F_ik)

wobei p(W^!c|F_i ) die Wahrscheinlichkeit der k-ten Segmenteinheit W^k beim gegebenen Merkmals vektor F_{1 k} ist, p(F_lk|W^k) die Wahrscheinlichkeit des von der Segmenteinheit W^k erzeugten Merkmalsvektors F_ik ist, p(W^k) die Wahrscheinlichkeit der bei der gegebenen Geschichte von Segmenteinheitsfolgen auftretenden Hypothese-Segmenteinheit W^k ist und P-(F₁ ) die Wahrscheinlichkeit des in der Lautäußerung auftretenden Merkmalsvektors F₁^ ist.

In Gleichung 8 kann p(F_ik|W^k) leicht anhand eines Merkmalsvektors F_ik und seines entsprechenden Sprachmodells erhalten werden. P(W^k) kann anhand des Sprachmodells erhalten werden. P(F₁^) kann auf verschiedene Arten genähert werden. Sie kann bei einer Ausführungsform unter Verwendung von Lautwahrscheinlichkeiten auf der Rahmenebene genähert werden.

I m) Gl. 9

n=l m=l

wobei N die Gesamtzahl von Rahmen im Segment k ist und M die Gesamtzahl von Lauten ist.

Es sei bemerkt, daß F_ik in Gleichung 8 nicht auf ein bestimmtes Merkmal beschränkt ist und daß verschiedene Segmente verschiedene Merkmale aufweisen können. Demgemäß kann der Merkmalsvektor für ein Segment auf einem LPC-Merkmal beruhen, und der Merkmalsvektor kann für das nächste Segment auf einem MFCC-Merkmal beruhen. Das für ein Segment gewählte Merkmal ist das Merkmal, das die Wahrscheinlichkeit p(W^k|F, ) für alle möglichen Merkmale maximiert, wie in Gleichung 7 dargestellt ist.

Im oben angegebenen Rahmen könnte das Segment ein HMM-Zustand, ein Laut oder ein Wort sein. Dabei schalten die Merkmalsvektoren bei manchen Ausführungsformen nicht zwischen Merkmalsströmen innerhalb eines Lauts oder bei manchen Ausführungsformen innerhalb eines Worts um. Weitere oder andere Übergangsverbote können auf die Folge von Merkmalsvektoren angewendet werden. Beispielsweise kann ein Übergangsverbot angewendet werden, das einige Übergänge zwischen Merkmalsströmen innerhalb von Wörtern zuläßt, das jedoch das Auftreten dieser Übergänge "unterbindet".

Die Gewichtswahrscheinlichkeit p(F_ikIA) in Gleichung 7 kann auch genähert werden. Bei einer Ausführungsform kann angenommen werden, daß sie auf alle Merkmalsströme gleichmäßig verteilt ist. Bei einer anderen Ausführungsform kann ein Vertrauensmaß verwendet werden, um Gewichte als Näherun-

gen der Wahrscheinlichkeit p(F_ik|A) abzuleiten. Es gibt viele Arten zum Erhalten von Vertrauens-Häufigkeitswerten, und im allgemeinen ist die Gewichtswahrscheinlichkeit umso höher, je höher der Vertrauens-Häufigkeitswert ist. Bei einer anderen Ausführungsform wird eine Fehlerrate in die Gewichtswahrscheinlichkeit P(F₁ |A) umgewandelt. Falls das Merkmal eine hohe Fehlerrate aufweist, wird es im Decodierprozeß "verworfen", weil es nicht so zuverlässig wie andere Merkmale ist.
Zu FIG. 5 zurückkehrend sei bemerkt, daß unwahrscheinliehe Wege aus der Suche beim Schritt 256 ausgesondert werden, sobald die Hypothese-Weg-Häufigkeitswerte beim Schritt 254 bestimmt wurden. Bei einer Ausführungsform der Erfindung geschieht dieses Aussondern auf einer Merkmal-für-Merkmal-Basis. Insbesondere wird das Aussondern so ausgeführt, daß es grob die gleiche Anzahl von Wegen gibt, die an Merkmal/Segment-Einheitspaaren für jedes Merkmal enden.

Dies kann durch getrenntes Identifizieren der bei jedem Merkmal endenden Wege mit der höchsten Wahrscheinlichkeit erreicht werden. Falls dementsprechend LPC-, PLP- und MFCC-Merkmale verwendet werden, wird der Weg mit der höchsten Wahrscheinlichkeit, der in einem LPC-Merkmal/Segment-Einheitspaar endet, getrennt von den Wegen mit der höchsten Wahrscheinlichkeit bestimmt, die in einem PLP-Merkmal/Segment-Einheitspaar oder einem MFCC-Merkmal/Segment-Einheitspaar enden. Hypothese-Wege werden dann mit dem Weg der höchsten Wahrscheinlichkeit, der das gleiche Endmerkmal aufweist, verglichen. Eine getrennte Bündelbreite wird dann für jedes Merkmal bestimmt, um zu gewährleisten, daß in etwa die gleiche Anzahl von Wegen an Merkmal/Segment-Einheitspaaren jedes Merkmals endet.

Nach dem Aussonderungsschritt 256 aus FIG. 5 bestimmt der Decodierer 106 an einem Schritt 258, ob dies der letzte Rahmen der Lautäußerung ist. Falls dies nicht der Fall ist, kehrt der Prozeß zum Schritt 250 zurück, wo die Merkmalsvektoren für den nächsten Rahmen empfangen werden. Die Schritte 250, 252, 254, 256 und 258 werden wiederholt, bis jeder

• ·

• · ■

- 22 -

Rahmen verarbeitet wurde und eine wahrscheinlichste Folge von Wörtern bestimmt worden ist. Der Prozeß endet dann an einem Schritt 260.

Bei weiteren Ausführungsformen der Erfindung ist der Prozeß aus FIG. 5 so erweitert, daß er das Auswählen eines Akustikmodells aus einem Satz von Akustikmodellen an jedem Segment aufweist. Bei einer speziellen Ausführungsform werden nach Sprechern gruppierte Modelle unter Verwendung einer Ansammlung von Sprechern erzeugt. Jedes gruppierte Modell wird durch eine andere Ansammlung von Sprechern trainiert, und jedes Modell erzeugt demgemäß unterschiedliche Wahrscheinlichkeiten für den gleichen Merkmalsvektor. Auf der Grundlage dieser unterschiedlichen Wahrscheinlichkeiten werden Hypothese-Wege erzeugt, so daß zwei verschiedene Wege den gleichen Laut im selben Segment auswählen, diesem Laut jedoch unterschiedliche Wahrscheinlichkeiten zuweisen. Durch Auswählen des wahrscheinlichsten Hypothese-Wegs wählt das System automatisch das geeignetste gruppierte Akustikmodell für das Segment. Wie bei den mehreren Merkmalsströmen kann die Berechnung der Hypothese-Weg-Häufigkeitswerte Verbote für das Umschalten zwischen Akustikmodeilen zwischen Lauten im selben Wort oder Unterwort aufweisen. Dies führt gewöhnlich dazu, daß ein einziges gruppiertes Akustikmodell für ein ganzes Wort oder Unterwort verwendet wird.

Bei einer anderen Ausführungsform werden Mikrofon-abhängige Modelle unter Verwendung von mit verschiedenen Mikrofonen aufgenommenen Datenproben erzeugt. Jedes Mikrofonabhängige Modell wird durch diesem speziellen Mikrofon zugeordnete Daten trainiert. Daher erzeugt jedes Modell unterschiedliche Wahrscheinlichkeiten für denselben Merkmalsvektor. Wenn ein neues Mikrofon verwendet wird, könnten die Eigenschaften des neuen Mikrofons für verschiedene Akustikeinheiten am besten zu verschiedenen Übungsmikrofonen passen. Demgemäß wird durch Auswählen des wahrscheinlichsten Hypothese-Wegs unter Verwendung mehrerer Mikrofon-abhängiger

Modelle die beste Übereinstimmung zwischen den Akustikmodellen und dem neuen noch nicht gesehenen Mikrofon erzielt.

Bei anderen Ausführungsformen ist das Verfahren aus FIG. 5 auf die Verwendung mehrerer Spracherkennungssysteme erweitert. Jedes System weist seine eigene Merkmalsextraktion, seine eigenen Akustikmodelle und seine eigenen Sprachmodelle auf. Wenngleich Systeme eine oder mehrere dieser Komponenten geteilt verwenden können, ist die in jedem beliebigen System angetroffene Kombination von Komponenten eindeutig. Während des Decodierens erzeugt der Decodierer unter Verwendung verschiedener Systeme Hypothese-Wege. Allgemein sind die Wege begrenzt, so daß der Decodierer nicht innerhalb eines Worts zwischen Systemen umschaltet. Verschiedene Systeme können jedoch für verschiedene Wörter in derselben Lautäußerung ausgewählt werden.

Wenngleich die vorliegende Erfindung mit Bezug auf spezielle Ausführungsformen beschrieben wurde, werden Fachleute erkennen, daß Änderungen an der Form und den Einzelheiten vorgenommen werden können, ohne vom Gedanken und vom Schutzumfang der Erfindung abzuweichen.

Claims

1. Spracherkennungssystem zum Identifizieren von Wörtern anhand einer Reihe Sprache darstellender digitaler Werte, aufweisend:
einen Merkmalsextraktor zum Erzeugen mindestens zweier Merkmalsvektoren für ein Segment der Reihe digitaler Werte, wobei jeder Merkmalsvektor auf der Reihe digitaler Werte beruht,
einen Decodierer, der einen Weg-Häufigkeitswert erzeugen kann, welcher die Wahrscheinlichkeit angibt, daß eine Folge von Wörtern durch die Reihe digitaler Werte dargestellt wird, wobei das Erzeugen des Weg-Häufigkeitswerts gekennzeichnet ist durch Auswählen eines gewählten Segment-Häufigkeitswerts aus einer Gruppe mindestens zweier Segment-Häufigkeitswerte, wobei jeder Segment-Häufigkeitswert in der Gruppe eine getrennte Wahrscheinlichkeit derselben innerhalb eines Segments auftretenden Segmenteinheit darstellt, wobei jeder Segment-Häufigkeitswert in der Gruppe jedoch auf einem anderen Merkmalsvektor beruht.

2. Spracherkennungssystem nach Anspruch 1, wobei der Decodierer weiter mehrere Weg-Häufigkeitswerte erzeugen kann, wobei jeder Weg-Häufigkeitswert eine getrennte Wahrscheinlichkeit angibt, daß eine getrennte Folge von Wörtern durch die Reihe digitaler Werte dargestellt wird.

3. Spracherkennungssystem nach Anspruch 2, wobei ein Weg- Häufigkeitswert durch Auswählen eines Segment-Häufigkeitswerts aus einer Gruppe erzeugt wird und wobei ein zweiter Weg-Häufigkeitswert durch Auswählen eines zweiten Segment- Häufigkeitswerts aus derselben Gruppe erzeugt wird.

4. Spracherkennungssystem nach Anspruch 2 oder 3, wobei der Decodierer weiter mindestens einen Weg-Häufigkeitswert aussondern kann, wobei das Aussondern durch Gruppieren derjenigen Weg-Häufigkeitswerte zu Aussonderungsgruppen, die denselben Merkmalsvektor zum Bestimmen des letzten gewählten Segment-Häufigkeitswerts im Weg-Häufigkeitswert verwenden, vorgenommen wird.

5. Spracherkennungssystem nach Anspruch 4, wobei verschiedene Aussonderungsgruppen von Weg-Häufigkeitswerten unter Verwendung unterschiedlicher Bündelbreiten ausgesondert werden.

6. Spracherkennungssystem nach einem der Ansprüche 1 bis 5, wobei der Weg-Häufigkeitswert teilweise auf zwei gewählten Segment-Häufigkeitswerten für zwei benachbarte Segmente beruht, wobei einer der zwei gewählten Segment-Häufigkeitswerte auf einem Merkmalsvektor beruht, der unter Verwendung eines ersten Merkmals extrahiert wird und wobei der andere der zwei gewählten Segment-Häufigkeitswerte auf einem Merkmalsvektor beruht, der unter Verwendung eines zweiten Merkmals extrahiert wird.

7. Spracherkennungssystem nach Anspruch 6, wobei das Erzeugen des Weg-Häufigkeitswerts weiter das Verringern des Weg- Häufigkeitswerts aufweist, wenn der Weg-Häufigkeitswert zwei gewählte Segment-Häufigkeitswerte von zwei benachbarten Segmenten aufweist, die auf Merkmalsvektoren beruhen, die unter Verwendung verschiedener Merkmale extrahiert werden.

8. Spracherkennungssystem nach Anspruch 7, wobei ein Segment ein Phonem ist.

9. Spracherkennungssystem nach Anspruch 7, wobei ein Segment ein Wort ist.

10. Spracherkennungssystem nach einem der Ansprüche 1 bis 9, wobei zwei Merkmalsvektoren eines einzigen Segments durch Anwenden verschiedener Parameter auf eine einzige Merkmalsextraktionstechnik abgeleitet werden.

11. Spracherkennungssystem nach Anspruch 10, wobei die verschiedenen Parameter unterschiedliche Abtastfenstergrößen aufweisen.

12. Spracherkennungssystem nach einem der Ansprüche 1 bis 11, wobei der Decodierer weiter zur Auswahl des Segment- Häufigkeitswertes dadurch angepaßt ist, daß er aufweist:
Mittel zum Identifizieren einer möglichen Segmenteinheit für ein Segment unter Verwendung eines Merkmalsvektors, der auf einem Erstdurchgangsmerkmal beruht,
Mittel zum Bestimmen einer Gruppe von Segment- Häufigkeitswerten für die mögliche Segmenteinheit unter Verwendung mehrerer Merkmalsvektoren, die auf getrennten Merkmalen beruhen,
Mittel zum Auswählen des besten Segment-Häufigkeitswerts und Festlegen des dem Segment-Häufigkeitswert zugeordneten Merkmals als Merkmal des Segments,
Mittel zum Bestimmen einer revidierten Segmenteinheit für das Segment unter Verwendung eines Merkmalsvektors, der auf dem Merkmal des Segments beruht,
Mittel zum Bestimmen einer Gruppe von Segment- Häufigkeitswerten für die revidierte Segmenteinheit unter Verwendung mehrerer Merkmalsvektoren, die auf getrennten Merkmalen beruhen, und
Mittel zum Auswählen des besten Segment-Häufigkeitswerts für die revidierte Segmenteinheit als den gewählten Segment- Häufigkeitswert.

13. Spracherkennungssystem nach Anspruch 12, wobei der Decodierer weiter das dem besten Segment-Häufigkeitswert zugeordnete Merkmal als Merkmal des Segments festlegen kann und wieder eine revidierte Segmenteinheit bestimmen kann, eine Gruppe von Segment-Häufigkeitswerten bestimmen kann und einen besten Segment-Häufigkeitswert auswählen kann.

14. Vorrichtung zum Umwandeln eines Sprachsignals in Text, aufweisend:
ein erstes Spracherkennungssystem, das einen ersten Wort- Häufigkeitswert aus einem ersten Teil des Sprachsignals erzeugen kann,
ein zweites Spracherkennungssystem, das einen zweiten Wort-Häufigkeitswert aus einem zweiten Teil des Sprachsignals erzeugen kann, wobei das zweite Spracherkennungssystem vom ersten Spracherkennungssystem verschieden ist, und
einen Decodierer, der den ersten Wort-Häufigkeitswert und den zweiten Wort-Häufigkeitswert kombinieren kann, um einen Hypothese-Weg-Häufigkeitswert zu bilden, und der weiter einen einzigen Weg-Häufigkeitswert aus einer Gruppe von Hypothese- Weg-Häufigkeitswerten zum Identifizieren des Texts auswählen kann.

15. Vorrichtung nach Anspruch 14, wobei das erste Spracherkennungssystem einen ersten Merkmalsextraktor, ein gemeinsames Akustikmodell und ein gemeinsames Sprachmodell aufweist und wobei das zweite Spracherkennungssystem das gemeinsame Akustikmodell, das gemeinsame Sprachmodell und einen zweiten Merkmalsextraktor, der vom ersten Merkmalsextraktor verschieden ist, aufweist.

16. Vorrichtung nach Anspruch 14, wobei das erste Spracherkennungssystem einen gemeinsamen Merkmalsextraktor, ein erstes Akustikmodell und ein gemeinsames Sprachmodell aufweist und wobei das zweite Spracherkennungssystem den gemeinsamen Merkmalsextraktor, das gemeinsame Sprachmodell und ein zweites Akustikmodell, das vom ersten Akustikmodell verschieden ist, aufweist.

17. Vorrichtung nach Anspruch 16, wobei das erste Akustikmodell ein nach Sprechern gruppiertes Modell aufweist und wobei das zweite Akustikmodell ein nach Sprechern gruppiertes Modell aufweist.

18. Vorrichtung nach Anspruch 16, wobei das erste Akustikmodell ein Mikrofon-abhängiges Modell aufweist und wobei das zweite Akustikmodell ein Mikrofon-abhängiges Modell aufweist.

19. Vorrichtung nach Anspruch 14, wobei das erste Spracherkennungssystem einen gemeinsamen Merkmalsextraktor, ein gemeinsames Akustikmodell und ein erstes Sprachmodell aufweist und wobei das zweite Spracherkennungssystem den gemeinsamen Merkmalsextraktor, das gemeinsame Akustikmodell und ein zweites Sprachmodell, das vom ersten Sprachmodell verschieden ist, aufweist.