DE10302101A1

DE10302101A1 - Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium

Info

Publication number: DE10302101A1
Application number: DE2003102101
Authority: DE
Inventors: Walter Sterz; Wolfgang Tschirk
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2003-01-21
Filing date: 2003-01-21
Publication date: 2004-08-05

Abstract

Es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden. Unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Trainieren eines Hidden Markov Modells sowie ein Computerprogramm-Element und ein Computerlesbares Speichermedium.
Hidden Markov Modelle finden in einer Vielzahl unterschiedlicher technischer Einsatzgebiete, beispielsweise im Rahmen der digitalen Signalverarbeitung, insbesondere der Spracherkennung oder der Mustererkennung, Verwendung.
Damit ein Hidden Markov Modell in der Praxis verwendet werden kann, muss es vor seiner Anwendung, beispielsweise zur Signalverarbeitung, trainiert werden.
Im Rahmen des Trainings eines Hidden Markov Modells (HMM) werden die Systemparameter des HMMs berechnet. Die Systemparameter des HMMs sind:

– die Emissionswahrscheinlichkeitsverteilung,
– die Zustandsübergangs-Wahrscheinlichkeiten und
– die Initialwahrscheinlichkeiten sowie
– die Anzahl der Zustände des Hidden Markov Modells.

Soll ein Hidden Markov Modell beispielsweise für ein sprecherabhängiges Spracherkennungssystem online, insbesondere in einem Embedded System, trainiert werden, so ist es wünschenswert, ein Trainingsverfahren mit relativ wenig erforderlichen Rechenoperationen einzusetzen, um die Systemanforderungen im Rahmen des Trainings des HMMs möglichst gering zu halten.
Als Verfahren zum Trainieren eines Hidden Markov Modells ist das so genannte Baum-Welch-Verfahren bekannt (vergleiche [1]).
Nachteilig an dem Baum-Welch-Verfahren ist insbesondere, dass dieses einen sehr hohen Rechenaufwand benötigt. Ein anderer erheblicher Nachteil des Baum-Welch-Verfahrens ist in den auftretenden numerischen Problemen zu sehen, da im Rahmen dieses Verfahrens viele Wahrscheinlichkeitswerte miteinander multipliziert werden, was zu sehr kleinen Zahlen führt. Die sehr kleinen Zahlen sind im Rahmen eines üblichen 8-Bit-, 16-Bit- oder 32-Bit-Prozessors, selbst mit einem 64-Bit-Prozessor oftmals nicht mehr mit der erforderlichen Genauigkeit verarbeitbar.

Somit liegt der Erfindung das Problem zugrunde, ein Hidden Markov Modell zu trainieren, wobei das Training mit reduzierten numerischen Problemen und mit reduziertem Rechenaufwand verglichen mit dem Baum-Welch-Verfahren durchführbar ist.

Das Problem wird durch das Verfahren und die Vorrichtung zum Trainieren eines Hidden Markov Modells sowie durch ein Computerprogramm-Element und ein Computerlesbares Speichermedium mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.

Bei einem Verfahren zum rechnergestützten Trainieren eines Hidden Markov Modells werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden.

Unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden. Ruf diese Weise wird das trainierte Hidden Markov Modell gebildet.

Eine Vorrichtung zum Trainieren eines Hidden Markov Modells weist eine Prozessoreinheit auf, die derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind oder durchgeführt werden.

Ein Computerprogramm-Element weist, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Schritte auf zum Trainieren eines Hidden Markov Modells.

In einem Computerlesbaren Speichermedium ist ein Programm gespeichert, das, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Verfahrensschritte aufweist zum Trainieren eines Hidden Markov Modells.

Anschaulich wird erfindungsgemäß das Problem der Bestimmung der Systemparameter des HMMs (anders ausgedrückt der Zustandsparameter des HMMs) auf die Bestimmung von Repräsentanten der Trainingsdatenvektoren zurückgeführt. Alle Trainingsdatenvektoren mit gemeinsamer Bedeutung, die bei einem Spracherkennungssystem beispielsweise eine lautsprachliche Einheit repräsentieren, werden vorzugsweise zu einem Zustand zusammengruppiert. Innerhalb der Trainingsdatenvektoren werden Repräsentanten ermittelt. Die logarithmierten Emissionswahrscheinlichkeiten erhält man vorzugsweise als euklidische Distanz zwischen den Repräsentanten des HMMs und dem Beobachtungsvektor des Eingangssignals. Die Zustandsübergangs-Wahrscheinlichkeiten und die Initialwahrscheinlichkeiten werden gemäß einer Ausgestaltung der Erfindung als Konstanten angenommen.

Die Trainingsdatenvektoren sind üblicherweise Vektoren, welche das Verhalten eines technischen Systems beschreiben und vorzugsweise zu Beginn des Verfahrens gemessen werden. Im Rahmen der Spracherkennung werden somit beispielsweise Äußerungen eines Menschen aufgenommen und aus dem aufgenommenen Sprachsignal werden die Trainingsdatenvektoren bestimmt. Im Rahmen der digitalen Bildverarbeitung werden beispielsweise Bilder mittels einer Kamera aufgenommen und die digitalisierten Bilder werden verwendet, um daraus Trainingsdatenvektoren zu generieren.

Allgemein stellen die Trainingsdatenvektoren Daten dar, die üblicherweise ein technisches System in seinem tatsächlichen Verhalten beschreiben und dienen dazu, das Verhalten des technischen Systems möglichst wahrheitsgetreu mittels des Hidden Markov Modells nachzubilden.

Durch die Erfindung wird es möglich, die bei dem Baum-Welch-Verfahren auftretenden numerischen Probleme zu vermeiden, da nicht mehr Produkte von vielen Wahrscheinlichkeitswerte ermittelt werden müssen.

Somit ist die Erfindung selbst auf einem Prozessor mit einer relativ geringen Wortbreite und mit einer relativ geringen Rechenleistung einsetzbar. Damit eignet sich die Erfindung insbesondere zum Einsatz in einem Embedded System.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im Folgenden beschriebenen Ausgestaltungen der Erfindung betreffen das Verfahren und die Vorrichtung zum Trainieren eines Hidden Markov Modells sowie das Computerprogramm-Element als auch das Computerlesbare Speichermedium.

Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, die Trainingsdatenvektoren zu Beginn des Verfahrens in unterschiedliche Zustandsgruppen zu gruppieren, wobei eine Zustandsgruppe jeweils einem Zustand des Hidden Markov Modells zugeordnet ist. Die Zustandsparameter eines jeweiligen Zustands des Hidden Markov Modells werden mit Trainingsdatenvektoren der zugehörigen Zustandsgruppe trainiert.

Durch die Zuordnung von Trainingsdatenvektoren zu Gruppen und damit durch das Zusammenfassen von Trainingsdatenvektoren in Gruppen einander hinsichtlich eines vorgegebenen Ähnlichkeitskriteriums ähnlicher Trainingsdatenvektoren wird die Konvergenz des Trainingsverfahrens erheblich beschleunigt und somit der Bedarf an Rechenleistung weiter reduziert.

Im Rahmen der Anwendung eines Hidden Markov Modells zur Sprachverarbeitung bedeutet dies beispielsweise, dass die Trainingsdatenvektoren zu Gruppen mit einer jeweils gemeinsamen Bedeutung zusammengefasst werden. Im Rahmen der Sprachverarbeitung werden die Trainingsdatenvektoren beispielsweise in Gruppen zusammengefasst, wobei jede Gruppe jeweils eine lautsprachliche Einheit repräsentiert.

Als lautsprachliche Einheit wird im Rahmen der Erfindung eine Symboldarstellung einer lautsprachlichen Äußerung verstanden, beispielsweise:

– eine Symboldarstellung von einzelnen Zeichen, die eine lautsprachliche Äußerung repräsentieren,
– Phonemsegmente,
– Phoneme,
– Allophone,
– Diphone,
– Halbsilben, oder
– ganze Wörter.

Zur Weiteren Vereinfachung und somit zur schnelleren Durchführbarkeit des Verfahrens ist es in einer Ausgestaltung der Erfindung vorgesehen, als Zustandsparameter die Mittelwertvektoren von den Wahrscheinlichkeitsdichtefunktionen zu verwenden, welche den jeweiligen Zustand des Hidden Markov Modells beschreiben.

Vorzugsweise wird als k-Nächster-Nachbar-Clustering-Verfahren ein 1-Nächster-Nachbar-Clustering-Verfahren eingesetzt (d.h. k = 1), anders ausgedrückt ein Winner-Takes-All-Verfahren (WTA-Verfahren).

Bei dieser Ausgestaltung der Erfindung wird somit nur der tatsächlich dem jeweiligen Trainingsdatenvektor in dem Vergleichsraum am Nächsten liegende Zustandsparameter, insbesondere Mittelwertvektor ausgewählt und dem jeweiligen Trainingsdatenvektor angepasst. Auf diese Weise wird das Konvergenzverhalten des Trainingsverfahrens weiter verbessert.

Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, zu prüfen, ob ein Zustandsparameter ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, und für den Fall, dass ein Zustandsparameter nicht ausreichend häufig im Rahmen des k- Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, dass dieser ersetzt wird durch einen neuen Zustandsparameter. Der neue Zustandsparameter ist vorzugsweise dadurch charakterisiert, dass er ausreichend häufig, vorzugsweise am häufigsten, im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist.

Durch diese Ausgestaltung der Erfindung wird das Konvergenzverhalten des Trainingsverfahrens weiter verbessert.

Alternativ kann der neue Zustandsparameter auch zufallsbasiert erzeugt werden.

Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, einen Zustandsparameter im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens in einem umso geringeren Maße an die Trainingsdatenvektoren anzupassen, je mehr Trainingsdatenvektoren im Rahmen des Trainingsverfahrens berücksichtigt werden.

Das Verfahren eignet sich insbesondere zum Einsatz in einem Embedded System.

Ferner kann die Erfindung in einem der folgenden Bereiche eingesetzt werden:

– in der Signalverarbeitung,
– in der Mustererkennung,
– in der Sprachverarbeitung, insbesondere in der sprecherabhängigen Spracherkennung oder der Sprechererkennung, insbesondere in einer Gerätesteuerung, beispielsweise in einem Telekommunikationsgerät, in der Home Automation, d.h. beispielsweise in einer Umgebungssteuerung,
– in der Bildverarbeitung,
– in der Schriftzeichenerkennung,
– im Rahmen der Prognose des Verhaltens eines technischen Systems, welches mittels Hidden Markov Modells beschrieben wird.

Anschaulich kann die Erfindung darin gesehen werden, dass die zu ermittelnden Repräsentanten der Trainingsdatenvektoren gemäß folgendem Verfahren bestimmt werden.

Zunächst werden alle die Trainingsvektoren ermittelt, die einem Zustand zugeordnet sind. Anschließend erfolgt eine Initialisierung, vorzugsweise eine Zufalls-Initialisierung der gewünschten Anzahl von Repräsentanten der Trainingsdatenvektoren. Nachfolgend werden die Repräsentanten, d.h. die Zustandsparameter, an die Wahrscheinlichkeitsdichtefunktion der Trainingsdatenvektoren adaptiert; anders ausgedrückt angepasst, indem

a) der in dem Vergleichsraum räumlich nächstliegende Repräsentant (Winner) zum aktuell betrachteten Trainingsdatenvektor im Sinne einer minimalen euklidischen Distanz ermittelt wird,
b) der ermittelte Repräsentant mit steigender Zahl von Durchläufen, vorzugsweise pro Durchlauf, abnehmender Adaptionskonstante an den jeweilig verwendeten Trainingsdatenvektor angepasst wird.

Die Schritte a) und b) werden in einer beliebig vorgebbaren Anzahl von Durchläufen mit allen Trainingsdatenvektoren durchgeführt.

Werden Zustandsparameter innerhalb eines Durchlaufs nicht oft genug zum Winner ermittelt, so werden diese gesondert behandelt, vorzugsweise dahingehend, dass für den Fall, dass ein Zustandsparameter zu selten getroffen wird; er durch jenen Repräsentanten, d.h. jenen Zustandsparameter, ersetzt wird, der in demselben Durchlauf am häufigsten als Winner bestimmt wurde.

Schließlich wird vorzugsweise die jeweils verwendete Anpassungskonstante (Adaptionskonstante) an die Gesamtanzahl der berücksichtigten Trainingsdatenvektoren angepasst. Die Adaptionskonstante wird in der Art gewählt, dass das Adaptionsverhalten auch bei Zuständen mit stark unterschiedlicher Anzahl von Trainingsdatenvektoren, welche dem jeweiligen Zustand zugeordnet sind, gleich und unabhängig von der Skalierung der Trainingsdatenvektoren ist.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Folgenden näher erläutert.
Es zeigen
1 ein Blockdiagramm einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung;
2 ein Diagramm eines Hidden Markov Modells gemäß einem Ausführungsbeispiel der Erfindung;
3A und 3B ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte zum Trainieren des Hidden Markov Modells gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind.
4 ein Telekommunikationsgerät mit einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung;
5 ein Autoradio mit einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung.
l zeigt eine Spracherkennungseinrichtung 100 gemäß einem Ausführungsbeispiel der Erfindung.
Die Spracherkennungseinrichtung 100 arbeitet je nach Betriebsmodus in einem ersten Betriebsmodus als Spracherkennungseinrichtung, wobei in dem Spracherkennungsmodus die Spracherkennungseinrichtung eine eingesprochene Äußerung 101, eingesprochen von einem Benutzer (nicht dargestellt) der Spracherkennungseinrichtung 100, erkennt unter Verwendung eines Verfahrens zur sprecherunabhängigen Spracherkennung. In einem zweiten Betriebsmodus, im Weiteren auch bezeichnet als Trainingsmodus, werden die im Folgenden beschriebenen Hidden Markov Modelle, welche im Rahmen der Spracherkennung verwendet werden, trainiert.
In beiden Betriebsmodi wird das von dem Benutzer eingesprochene Sprachsignal 101 einem Mikrofon 102 zugeführt, und als aufgenommenes elektrisches Rnalogsignal 103 einer Vorverarbeitung, insbesondere einer Vorverstärkung mittels einer Vorverarbeitungseinheit 104, insbesondere mittels eines Vorverstärkers unterzogen und als vorverarbeitetes und verstärktes Analogsignal 105 einem Analog-/Digitalwandler 106 zugeführt, dort in ein digitales Signal 107 umgewandelt und als digitales Signal 107 einem Rechner 108 zugeführt.
Es ist in diesem Zusammenhang anzumerken, dass das Mikrofon 102, die Vorverarbeitungseinheit 104, insbesondere die Verstärkungseinheit, und der Analog-/Digitalwandler 106 als separate Einheiten oder auch als in dem Rechner 108 integrierte Einheiten realisiert sein können.
Gemäß diesem Ausführungsbeispiel ist es vorgesehen, dass das digitalisierte Signal 107 dem Rechner 108 über dessen Eingangsschnittstelle 109 zugeführt wird.
Der Rechner 108 weist ferner einen Mikroprozessor 110, einen Speicher 111 sowie eine Ausgangsschnittstelle 112 auf, welche alle miteinander mittels eines Computerbus 113 gekoppelt sind.
Mittels des Mikroprozessors 110 werden die im Weiteren beschriebenen Verfahrensschritte, insbesondere die Verfahren zum Trainieren der Hidden Markov Modelle sowie zur Spracherkennung unter Verwendung der trainierten Hidden Markov Modelle durchgeführt. Ein elektronisches Wörterbuch, welches die Einträge enthält, die im Rahmen der Spracherkennung als Referenzworte enthalten, ist in dem Speicher 111 gespeichert.
Ferner ist ein ebenfalls mit dem Computerbus 113 gekoppelter digitaler Signalprozessor (DSP) 114 vorgesehen, der einen speziell auf die verwendeten sprecherunabhängigen Spracherkennungsalgorithmen hin spezialisierte Mikrocontroller aufweist.
In dem digitalen Signalprozessor 114 ist ferner ein Computerprogramm gespeichert, welches eingerichtet ist zur sprecherunabhängigen Spracherkennung. Alternativ können die verwendeten Algorithmen in hartverdrahteter Logik, das heißt unmittelbar selbst in, Hardware, realisiert sein.
Ferner ist der Rechner 108 mittels der Eingangsschnittstelle 109 mit einer Tastatur 115 sowie einer Computermaus 116 über elektrische Leitungen 117, 118 oder eine Funkverbindung, beispielsweise eine Infrarot-Verbindung oder eine Bluetooth-Verbindung gekoppelt.
Über zusätzliche Kabel oder Funkverbindungen, beispielsweise eine Infrarot-Verbindung oder eine Bluetooth-Verbindung 119, 120 ist der Rechner 108 mittels der Ausgangsschnittstelle 112 mit einem Lautsprecher 121 sowie einem Aktor 122 gekoppelt.
Der Aktor 122 repräsentiert in 1 allgemein jeden möglichen Aktor im Rahmen der Steuerung eines technischen Systems, beispielsweise realisiert in Form eines Hardwareschalters oder in Form eines Computerprogramms für den Fall, dass beispielsweise ein Telekommunikationsgerät oder ein anderes technisches System, beispielsweise ein Autoradio, eine Stereoanlage, ein Videorecorder, ein Fernseher, der Computer selbst oder irgendeine andere technische Anlage gesteuert werden soll.
Gemäß dem Ausführungsbeispiel der Erfindung weist die Vorverarbeitungseinheit 104 eine Filterbank mit einer Mehrzahl von Bandpässen auf, welche die Energie des eingegebenen Sprachsignals 103 in einzelnen Frequenzbändern messen. Mittels der Filterbank werden so genannte Kurzzeitspektren gebildet, indem die Ausgangssignale der Bandpässe gleichgerichtet, geglättet und in kurzen Abständen abgetastet werden, gemäß dem Ausführungsbeispiel alle 10 msec. Die so genannten Cepstrurn-Koeffizienten von zwei aufeinander folgenden Zeitfenstern sowie deren zeitliche erste Ableitung sowie deren zeitliche zweite Ableitung werden ermittelt und zu jeweils einem Super-Merkmalsvektor zusammengefasst und dem Rechner 108 zugeführt.
In einer alternativen Ausführungsform kann die Vorverarbeitungseinheit 104 in ihrer Funktion der Abbildung des Sprachsignals auf die Cepstrum-Koeffizienten in dem Rechner 108 und darin in dem Mikroprozessor 110 und/oder in dem DSP 114 realisiert sein.
In dem Rechner 108 ist, wie oben beschrieben, in Form eines Computerprogramms eine Spracherkennungseinheit, wobei die Spracherkennung auf dem Prinzip der Hidden Markov Modelle basiert, zur sprecherunabhängigen Spracherkennung realisiert, gemäß dem Ausführungsbeispiel in dem DSP 123.
In einem Basis-Wortschatz, der zu Beginn des Verfahrens in einem elektronischen Wörterbuch 114 gespeichert ist, ist zu jeweils einem Basis-Eintrag ein Hidden Markov Modell gespeichert, das jeweils auf folgende Weise unter Verwendung eines Trainings-Datensatzes, das heißt einer Menge von Trainings-Sprachsignalen, eingesprochen von einem oder mehreren Trainings-Nutzern, ermittelt wird.
Das Training der Hidden Markov Modelle erfolgt gemäß diesem Ausführungsbeispiel in drei Phasen:

– einer erste Phase, in der die in der Trainings-Datenbank enthaltenen Sprachsignale segmentiert werden,
– einer zweiten Phase, in der die LDA-Matrix (lineare Diskriminanzanalyse-Matrix) berechnet wird sowie
– einer dritten Phase, in der das Codebuch, das heißt die HMM-Prototypen-Merkmalsvektoren für jeweils eine in einem Auswahlschritt ausgewählte Anzahl von Merkmalsvektor-Komponenten berechnet werden.

Die Gesamtheit dieser drei Phasen wird im Weiteren als das Training der Hidden Markov Modelle bezeichnet (HMM-Training).
Das HMM-Training wird unter Verwendung des DSPs 123 sowie unter Verwendung von vorgegebenen Trainingskripts, anschaulich von geeignet eingerichteten Computerprogrammen, durchgeführt.
Gemäß diesem Ausführungsbeispiel wird jede gebildete lautsprachliche Einheit, das heißt jedes Phonem, in drei aufeinander folgende Phonemsegmente aufgeteilt, entsprechend einer Initial-Phase (erstes Phonemsegment), einer zentralen Phase (zweites Phonemsegment) und einer Endphase (drittes Phonemsegment) eines Lauts, das heißt eines Phonems.
Anders ausgedrückt wird jeder Laut in einem Lautmodell mit drei Zuständen, das heißt mit einem Drei-Zustands-HMM modelliert.
2 zeigt ein Beispiel eines Hidden Markov Modells 200 gemäß dem Ausführungsbeispiel der Erfindung.
Das Hidden Markov Modells 200 weist eine Vielzahl von Zuständen 1, 2, 3, 4, 5 auf. Ferner ist das Hidden Markov Modell 200 charakterisiert durch

– eine Emissionswahrscheinlichkeits-Verteilung b_j(o), mit der angegeben wird die Wahrscheinlichkeit, dass der Beobachtungsvektor o in dem Zustand j emittiert wird,
– Zustandsübergangs-Wahrscheinlichkeiten α_ij für den Zustandsübergang von dem Zustand i in den Zustand j,
– Eine Initialwahrscheinlichkeit π_i, mit der die Wahrscheinlichkeit angegeben wird, mit welcher ein Pfad durch das Hidden Markov Modell 200 in dem Zustand i beginnt.

Im Folgenden werden ohne Einschränkung der Allgemeingültigkeit die folgenden Randbedingungen angenommen.
In einem Links-Rechts-Modell als Hidden Markov Modell 200, bei dem nur die Zustandsübergänge einer Selbstschleife (Selfloop), eines Ein-Schritt-Zustandsübergangs (Step) und eines Zwei-Schritt-Zustandsübergangs (Skip) berücksichtigt werden, können die Zustandsübergangs-Wahrscheinlichkeiten α_ij, die ungleich dem Wert „Null" sind, als Konstanten angesetzt werden.
Anders ausgedrückt bedeutet dies, dass in diesem Fall für das beispielhafte Hidden Markov Modell 200 aus 2 gilt: α12 = α23 = α34 = α45 = C0 (1)(für einen Ein-Schritt-Zustandsübergang) bzw. α22 = α33 = α44 = α24 = C1 (2) (für eine Selbstschleife und einen Zwei-Schritt-Zustandsübergang).
Alle anderen (in 2 nicht dargestellten) Zustandsübergangs-Wahrscheinlichkeiten α_ij werden auf den Wert „Null" gesetzt.
Es ist in diesem Zusammenhang anzumerken, dass es nicht erforderlich ist, den Zustandsübergangs-Wahrscheinlichkeiten α_ij einen konstanten Wert zuzuordnen. Es ist in einer alternativen Ausgestaltung der Erfindung beispielsweise vorgesehen, in den Zustandsübergangs-Wahrscheinlichkeiten α_ij die Phonemlänge zu codieren.
Ferner wird gemäß diesem Ausführungsbeispiel definiert: π1 = 1 (3)und πi ≠ 1 = 0 (4)d.h. ein Pfad durch das Hidden Markov Modell 200 kann immer nur in dem ersten Zustand 1 beginnen. Diese Annahme kann immer getroffen werden, wenn in dem mittels des Hidden Markov Modells 200 beschriebenen Systems eine Anfangsbedingung existiert.
Die Emissionswahrscheinlichkeits-Verteilung b_j(o) wird gemäß diesem Ausführungsbeispiel mittels kontinuierlicher, mehrdimensionaler Wahrscheinlichkeits-Verteilung, so genannter continuous density mixtures modelliert gemäß folgender Vorschrift:
wobei mit

– c_jk ein Wahrscheinlichkeits-Verteilungskoeffizient der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
– Mj die Anzahl von in dem Zustand j vorhandener Wahrscheinlichkeits-Verteilungen,

– u_jk ein Mittelwertvektor der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
– Σ_jk eine Kovarianzmatrix der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
– n die Dimension des Beobachtungsvektors o,

Jede Wahrscheinlichkeits-Verteilung entspricht einer mehrdimensionalen Gaußverteilung. Mit einem solchen continuous density mixture model kann jede kontinuierliche Wahrscheinlichkeitsdichtefunktion beliebig genau angenähert werden. Setzt man die Varianzen der Gaußverteilungen auf einen konstanten Wert und sind gleichzeitig die Kovarianzen gleich Null – was der Fall ist, wenn der Beobachtungsvektor o mittels einer im Folgenden noch näher erläuterten Linearen Diskriminanzanalyse (LDA) ermittelt wurde – so sind zur Bestimmung der Emissionswahrscheinlichkeits-Verteilung b_j(o) nur noch die Mittelwertvektoren μ_jk erforderlich.
Während der Spracherkennung werden die drei Phonemsegmente in einer Bakis-Topologie oder allgemein einer Links-Rechts-Topologie aneinander gereiht und auf die Konkatenation dieser drei aneinander gereihten Segmente wird die Berechnung im Rahmen der sprecherunabhängigen Spracherkennung durchgeführt.
Wie im Weiteren noch näher erläutert wird, wird in dem Spracherkennungsmodus ein Viterbi-Algorithmus zum Dekodieren der Merkmalsvektoren, welche aus dem eingegebenen Sprachsignal 101 gebildet werden, durchgeführt.
Nach erfolgter Segmentierung wird die LDA-Matrix A mittels einer LDA-Matrix-Berechnungseinheit ermittelt.
Die LDA-Matrix A dient zur Transformation eines jeweiligen Super-Merkmalsvektors y auf einen Merkmalsvektor x gemäß folgender Vorschrift: x = A T·(y – y), (7)wobei mit

– x ein Merkmalsvektor,
– A eine LDA-Matrix,
– y ein Super-Merkmalsvektor,
– y ein globaler Verschiebungsvektor

Die LDA-Matrix A wird derart bestimmt, dass

– die Komponenten des Merkmalsvektors x im statistischen Durchschnitt voneinander im Wesentlichen unkorreliert sind,
– die statistischen Varianzen innerhalb einer Segmentklasse im statistischen Durchschnitt normalisiert sind,
– die Zentren der Segmentklassen im statistischen Durchschnitt einen maximalen Abstand voneinander aufweisen und
– die Dimension der Merkmalsvektoren x möglichst, vorzugsweise Spracherkennungsanwendungs-abhängig, reduziert wird.

Im Folgenden wird das Verfahren zum Bestimmen der LDA-Matrix A gemäß diesen Ausführungsbeispielen erläutert.
Es ist jedoch anzumerken, dass alternativ alle bekannten Verfahren zum Bestimmen einer LDA-Matrix A ohne Einschränkung eingesetzt werden kann.
Es wird angenommen, dass J Segmentklassen existieren, wobei jede Segmentklasse j einen Satz D_y-dimensionaler Super-Merkmalsvektoren y enthält, das heißt, dass gilt:
wobei mit N_j die Anzahl der in der Klasse j sich befindenden Super-Merkmalsvektoren y _j bezeichnet wird.
Mit
wird die Gesamtzahl der Super-Merkmalsvektoren y bezeichnet.
Es ist anzumerken, dass die Super-Merkmalsvektoren y _j ^k unter Verwendung der oben beschriebenen Segmentierung der Sprachsignal-Datenbank ermittelt worden sind. Gemäß diesem Ausführungsbeispiel weist jeder Super-Merkmalsvektor y _j ^k eine Dimension D_y von Dy = 78 (= 2·3·13)auf, wobei 13 MFCC-Koeffizienten (Cepstrums-Koeffizienten) in dem Super-Merkmalsvektor y _j ^k enthalten sind, sowie deren jeweilige zeitliche erste Ableitung und deren jeweilige zeitliche zweite Ableitung (dies begründet obigen Faktor 3).
Ferner sind in jedem Super-Merkmalsvektor y _j ^k jeweils die Komponenten zweier zeitlich unmittelbar aufeinanderfolgender Zeitfenster im Rahmen der Kurzzeitanalyse enthalten (dies begründet obigen Faktor 2).
Es ist in diesem Zusammenhang anzumerken, dass grundsätzlich eine beliebige, an die jeweilige Anwendung angepasste Zahl von Vektorkomponenten in dem Super-Merkmalsvektor y _j ^k enthalten sein kann, beispielsweise bis zu 20 Cepstrums-Koeffizienten und deren zugehörigen zeitlichen erste Ableitungen und zweite Ableitungen.
Der statistische Mittelwert oder anders ausgedrückt das Zentrum der Klasse j ergibt sich gemäß folgender Vorschrift:
Die Kovarianzmatrix Σ _j der Klasse j ergibt sich gemäß folgender Vorschrift:
Die Durchschnitts-Intea-Streumatrix S _w ist definiert als:
wobei p(j) als Gewichtungsfaktor der Klasse j bezeichnet wird.
In analoger Weise ist die Durchschnitts-Inter-Streumatrix S _b definiert als:
als dem Durchschnitts-Super-Merkmalsvektor über alle Klassen.
Die LDA-Matrix A wird zerlegt gemäß folgender Vorschrift: A = U·W·V, (16)wobei mit

– U eine erste Transformationsmatrix,
– W eine zweite Transformationsmatrix und
– V eine dritte Transformationsmatrix

Die erste Transformationsmatrix U wird verwendet, um die Durchschnitts-Intra-Streumatrix S _w zu diagonalisieren und wird ermittelt, indem die positiv definite und symmetrische Durchschnitts-Intra-Streumatrix S _w in ihren Eigenvektorraum transformiert wird. In ihrem Eigenvektorraum ist die Durchschnitts-Intea-Streumatrix S _w eine Diagonal-Matrix, deren Komponenten positiv und größer oder gleich null sind. Die Komponenten, deren Werte größer null sind, entsprechen der Durchschnitts-Varianz in der jeweiligen durch die entsprechende Vektorkomponente definierten Dimension.
Die zweite Transformationsmatrix W wird zum Normalisieren der Durchschnitts-Varianzen verwendet und wird ermittelt gemäß folgender Vorschrift:
Die Transformation U·W wird auch als Weißung bezeichnet.
Mit B = U·W (18)ergibt sich für die Matrix B ^T·S _w·B die Einheitsmatrix, welche bei jeder beliebigen orthonormalen Lineartransformation unverändert bleibt.
Um die Durchschnitts-Inter-Streumatrix S _b zu diagonalisieren wird die dritte Transformationsmatrix V, die gebildet wird gemäß folgender Vorschrift: V = B T·S b·B, (9) wobei B ^T·S _b·B ebenfalls eine positiv definite und symmetrische Matrix darstellt, in ihren Eigenvektorraum transformiert wird.
In dem Transformationsraum x = A T·(y – y) (20)ergeben sich somit folgende Matrizen: Eine diagonalisierte Durchschnitts-Intra-Streumatrix S _w:
und eine diagonalisierte Durchschnitts-Inter-Streumatrix S _b:
wobei mit
eine D_y × D_y Diagonalmatrix mit den Komponenten c_d in der Zeile/Spalte d und sonst mit Komponenten mit dem Wert Null, bezeichnet wird.
Die Werte σ² _d sind die Eigenwerte der Durchschnitts-Inter-Streumatrix S _b und stellen ein Maß für die so genannte Pseudoentropie der Merkmalsvektor-Komponenten dar, welche im Folgenden auch als Informationsgehalt der Merkmalsvektor-Komponenten bezeichnet wird. Es ist anzumerken, dass die Spur jeder Matrix invariant ist bezüglich irgendeiner Orthogonaltransformation, womit sich ergibt, dass die Summe
die Gesamt-Durchschnitts-Varianz des Durchschnitts-Vektors x _j der J Klassen darstellt.
Es ergibt sich somit eine ermittelte Anhängigkeit der Pseudoentropie der Merkmalsvektoren von den jeweils in dem Merkmalsvektor enthaltenen bzw. berücksichtigten Merkmalsvektor-Komponenten.
Gemäß diesem Ausführungsbeispiel wird anschließend eine Dimensionsreduktion vorgenommen, indem die σ² _d-Werte in in ihrer Größe abfallender Reihenfolge sortiert werden und die σ² _d-Werte weggelassen werden, das heißt unberücksichtigt bleiben, die kleiner sind als ein vorgegebener Schwellwert. Der vorgegebene Schwellwert kann ferner kumulativ definiert sein.
Dann kann die LDA-Matrix A ^T angepasst werden, indem die Zeilen entsprechend den Eigenwerten σ² _d sortiert werden und die Zeilen weggelassen werden, die zu den ausreichend „kleinen" Varianzen gehören und damit nur einen geringen Informationsgehalt (geringe Pseudoentropie) aufweisen.
Gemäß diesem Ausführungsbeispiel werden die Komponenten mit den 24 größten Eigenwerten σ² _d verwendet, anders ausgedrückt D_x = 24.
Die vier oben beschriebenen Teilschritte zum Ermitteln der LDA-Matrix A sind in folgender Tabelle zusammengefasst:
Das letzte Verfahren zum Teil-Verfahren im Rahmen des Trainings der Hidden Markov Modelle ist das Clustern der Merkmalsvektoren, welches mittels einer Clustereinheit durchgeführt wird und welches als Ergebnis ein jeweiliges Codebuch hat, jeweils spezifisch für einen Trainingsdatensatz mit einer vorgegebenen Anzahl von Merkmalsvektor-Komponenten. Die Gesamtheit der Repräsentanten der Segmentklassen wird als Codebuch bezeichnet und die Repräsentanten selbst werden auch als Prototypen der Phonemsegmentklasse bezeichnet.
Die Prototypen, im Weiteren auch als Prototyp-Merkmalsvektoren bezeichnet, werden gemäß dem Folgenden Verfahren ermittelt.
Die 3a und 3b zeigen in einem Ablaufdiagramm 300 die einzelnen Verfahrensschritte des Teil-Verfahrens zum Trainieren des Hidden Markov Modells 200 gemäß dem Ausführungsbeispiel der Erfindung.
Gemäß einem in 3a dargestellten ersten Schritt (Schritt 301) wird das Verfahren gestartet.
Anschließend werden, wie oben erläutert wurde, die Trainingsdatenvektoren erfasst (Schritt 302).
In einem nachfolgenden Schritt werden die Trainingsdatenvektoren in unterschiedliche Zustandsgruppen, welche jeweils eine gemeinsame Bedeutung aufweisen, gemäß diesem Ausführungsbeispiel eine lautsprachliche Einheit oder einen Teil einer lautsprachlichen Einheit repräsentieren, gruppiert (Schritt 303) und einem jeweiligen Zustand, der ebenfalls die jeweilige lautsprachliche Einheit repräsentiert, zugeordnet.
Anschließend erfolgt für alle HMM-Zustände eine Zufalls-Initialisierung von M_j Mittelwertvektoren in einem jeweiligen HMM-Zustand.
Üblicherweise sind für ein Ganzwortmodell mit ungefähr 2000 Repräsentanten, für ein Phonemmodell mit 4000 bis 10000 Repräsentanten bei ungefähr 100 bis 200 Zuständen bei der Initialisierung ungefähr 20 Mittelwertvektoren pro Zustand vorgesehen.
Die Zufallsinitialisierung der M_j Mittelwertvektoren μ_jk erfolgt gemäß folgender Vorschrift: μjk = wstart·rande(), (24)wobei mit

– w_start ein Gewichtswert der initialisierten Mittelwertvektoren und
– rand() eine Zufallszahl-Erzeugungsfunktion,

Nach erfolgter Initialisierung der M_j Mittelwertvektoren μ_jk für jeden der HMM-Zustände des Hidden Markov Modells 200 wird ein HMM-Zustandsindex j auf den Wert 1 initialisiert (Schritt 305).
Anschließend wird ein Trainingsdatenvektorindex n, mit dem ein jeweiliger Trainingsdatenvektor eindeutig identifiziert wird, auf den Wert 1 gesetzt (Schritt 306).
Zu dem als erstes ausgewählten Trainingsdatenvektor, dem der Trainingsdatenvektorindex n = 1 zugeordnet ist, wird der Mittelwertvektor in dem Zustand j = 1 ermittelt, der dem Trainingsdatenvektor mit n = 1 in dem Vergleichsraum am Nächsten liegt (Schritt 307).
Anders ausgedrückt bedeutet dies, dass zu dem aktuell betrachteten Trainingsdatenvektor v _jn der nächstliegende Mittelwertvektor μ_jw gemäß folgender Vorschrift ermittelt wird:
Der nächstliegende Mittelwertvektor (Winner μ_jw) wird in Abhängigkeit des aktuell verwendeten Trainingsdatenvektors v _jn gemäß folgender Vorschrift an die Position des aktuellen Trainingsdatenvektors angepasst (Schritt 308):
Der Adaptionskoeffizient a nimmt gemäß diesem Ausführungsbeispiel mit der Anzahl P der Durchläufe durch alle Trainingsdatenvektoren ab gemäß folgenden Vorschriften:
1. Durchlauf: a1 = astart, astart ≈ 0,1
Alle weiteren Durchläufe: ap+1 = ap·adiff, adiff ≈ 0,95, p = 1, ..., P.
Das Ermitteln des jeweils nächstliegenden Mittelwertvektors μ _jw und das entsprechende Anpassen des nächstliegenden Mittelwertvektors an den aktuellen Trainingsdatenvektor (Schritte 307, 308) wird für alle Trainingsdatenvektoren in der dem Zustand j zugeordneten Trainingsdatengruppe durchgeführt.
Anders ausgedrückt bedeutet dies, dass in einem Prüfschritt (Schritt 309) überprüft wird, ob der Trainingsdatenvektorindex n gleich dem Wert N ist, wobei mit N die Anzahl der in der jeweiligen Zustandsgruppe enthaltenen Trainingsdatenvektoren bezeichnet wird.
Ist dies nicht der Fall, so wird in einem nachfolgenden Schritt (Schritt 310) der Trainingsdatenvektorindex n um den Wert 1 erhöht und die Schritte 307 und 308 werden für den neuen, noch nicht berücksichtigten Trainingsdatenvektor n + 1 der dem HMM-Zustand j zugeordneten Zustandsgruppe erneut durchgeführt.
Sind alle Trainingsdatenvektoren einer Zustandsgruppe berücksichtigt worden, so wird in einem nachfolgenden Schritt geprüft, ob ein vorgegebenes Abbruchkriterium, beispielsweise eine vorgegebene Anzahl von durchzuführenden Iterationen, erfüllt ist (Schritt 311).
Ist das Abbruchkriterium nicht erfüllt, so wird eine neue Iteration, beginnend in Schritt 306, auf das Hidden Markov Modell 200 durchgeführt, mit einem neu gemäß folgender Vorschrift bestimmten Adaptionskoeffizient a (Schritt 312): ap+1 = ap·adiff
Ist das Abbruchkriterium erfüllt, so wird in einem nachfolgenden Schritt geprüft, ob das Verfahren schon für alle HMM-Zustände J durchgeführt worden ist.
Anders ausgedrückt bedeutet dies, dass in einem weiteren Prüfschritt (Schritt 313) überprüft wird, ob der Zustandsindex j gleich dem Wert J ist, wobei mit J die Anzahl berücksichtigter Zustände des Hidden Markov Modells 200 bezeichnet wird.
Ist dies nicht der Fall, so wird der Zustandsindex j um den Wert 1 erhöht (Schritt 314) und die Schritt 306, 307, 308, 309, 310 werden für die Trainingsdatenvektoren des neuen Zustands (j + 1) erneut durchgeführt.
Anders ausgedrückt bedeutet dies, dass alle Zustände unter Verwendung der den jeweiligen Zustandsgruppen zugeordneten Trainingsdatenvektoren gemäß dem oben beschriebenen Verfahren trainiert werden.
Ist das Verfahren für alle J HMM-Zustände und dabei für alle N Trainingsdatenvektoren durchgeführt worden, so wird das Verfahren in einem Schritt 315 beendet.
Im Folgenden werden zu dem oben beschriebenen Trainingsverfahren eines HMMs zwei bevorzugte Modifikationen beschrieben.
Gemäß einer alternativen Ausführungsform der Erfindung ist es vorgesehen, jene Mittelwertvektoren, die innerhalb einer Iteration nicht oft genug als nächstliegender Mittelwertvektor (als Winner) ermittelt worden sind, gesondert zu behandeln. Es wird ein Schwellenwertkoeffizient c_giveup eingeführt, der gemeinsam mit der Gesamtanzahl N der Trainingsdatenvektoren der jeweiligen Zustandsgruppe jene Schwelle definiert, unter der ein Mittelwertvektor als zu selten getroffen betrachtet wird.
Der Schwellenwert N_giveup ergibt sich somit gemäß folgender Vorschrift: Ngiveup = cgiveup·N, (27) mitcgiveup ≈ 0 ... 0,05. (28)
War ein Mittelwertvektor nach einer Iteration nicht öfter als N_giveup Mal der Winner, so wird er durch jenen Mittelwertvektor ersetzt, der in derselben Iteration am öftesten als nächstliegender Mittelwertvektor ermittelt worden ist. Gemäß der Vorschrift c_giveup = 0 wird ein Mittelwertvektor erst verworfen, wenn er innerhalb einer Iteration niemals getroffen wurde.
Diese Vorgehensweise hat insbesondere den Vorteil einer besseren Modellierung einer Feinstruktur in den Trainingsdatenvektoren.
Gemäß einer anderen Ausführungsform der Erfindung erfolgt eine unterschiedliche Anpassung der Adaptionskonstanten a an die Gesamtzahl N_j der Trainingsdatenvektoren pro Zustand j. Entsprechend folgender Vorschrift ist die Adaptionskonstante a umso kleiner gewählt, je mehr Trainingsdatenvektoren vorhanden sind:
wobei mit P die Anzahl der Durchläufe der Iterationen über alle N_j Trainingsdatenvektoren bezeichnet wird.
Auf diese Weise wird erreicht, dass bei verschiedenen Zuständen mit stark unterschiedlicher Anzahl vorhandener Trainingsdatenvektoren in der jeweiligen Zustandsgruppe das Adaptionsverhalten des Cluster-Verfahrens gleich ist.
Die Variable
wird in der Weise gewählt, dass die Adaptionskonstante a bei der ersten Iteration das 100-fache bis 10000-fache ihres Wertes bei der letzten Iteration beträgt, d.h. es gilt folgende Vorschrift:
Damit berechnet sich
zu:
Durch die erfindungsgemäße Vorgehensweise wird die erforderliche Rechenzeit zum Trainieren eines Hidden Markov Modells gegenüber dem Baum-Welch-Verfahren erheblich reduziert.
Bei einem Personal Computer mit einer Taktfrequenz von 1 GHz bedeutet dies ein Aufwand weniger Stunden zum Trainieren eines Hidden Markov Modells gemäß der Erfindung gegenüber einer Rechenzeit zum Trainieren des Hidden Markov Modells gemäß dem Baum-Welch-Verfahren von einigen Wochen.
Ferner treten erfindungsgemäß keine Zahlenwertprobleme mehr auf, da die Mittelwertvektoren dieselben Größenordnungen annehmen wie die Trainingsdatenvektoren.
Auf die oben beschriebene Weise wurden die Basiseinträge des elektronischen Wörterbuches, das heißt die Basiseinträge zur sprecherunabhängigen Spracherkennung erstellt und gespeichert und die entsprechenden Hidden Markov Modelle trainiert.
Somit existiert für jeden Basiseintrag jeweils ein Hidden Markov Modell.
Unter Verwendung der Hidden Markov Modelle wird in dem Spracherkennungssystem in dem Spracherkennungsmodus eine Ansicht bekannter Spracherkennung durchgeführt.
4 zeigt ein Mobilfunk-Telefongerät 400, in dem die in 1 dargestellte Spracherkennungseinrichtung 100 integriert ist. Ferner kann in das Mobilfunk-Telefongerät 400 ein PDA (Personal Digital Assistant) integriert sein sowie weitere Telekommunikations-Funktionen, wie beispielsweise das Senden und/oder Empfangen von Faxmitteilungen oder von SMS-Mitteilungen (Short Message Service-Mitteilungen) oder von MMS-Mitteilungen (Multimedia Message Service-Mitteilungen). Ferner kann das Mobilfunk-Telefongerät 400 um zusätzliche Multimediafunktionalitäten erweitert sein, beispielsweise kann eine Kamera in das Mobilfunk-Telefongerät 400 integriert sein.
5 zeigt ein Autoradio 500, in dem (symbolisch in 5 dargestellt) eine Vielzahl unterschiedlicher Komponenten integriert sind, so beispielsweise ein Navigationssystem 501, ein CD-Spieler 502, ein Kassettenrekorder 503, ein Radio 504, ein Telefongerät mit Freisprechanlage 505 sowie die Spracherkennungseinrichtung 100, wie sie in 1 dargestellt ist. Die Information kann sowohl mittels der Spracherkennungseinrichtung 100 als auch über einen Bildschirm 506 zwischen dem Benutzer und dem Autoradio 500 ausgetauscht werden.
Gerade zur Steuerung eines eine Vielzahl von unterschiedlichen Funktionalitäten bereitstellenden Systems, wie eines mit einer Vielzahl unterschiedlicher Funktionen versehenen Autoradios 500 eignet sich die Erfindung sehr gut, da sehr flexibel und sprecherunabhängig eine beliebig komplizierte Sprachdialog-Struktur aufgebaut und realisiert werden kann.
In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] John Nerbonne and Wilbert Heeringa, Measuring Dialect Distance Phonetically, in: John Coleman (ed.) Workshop on Computational Phonology, Special Interest Group of the Association for Computational Linguistics, Madrid, 1997, S. 11 – 18
[2] J. Nerbonne et al, Phonetic Distance between Dutch Dialects, Proceedings of CLIN '95, S. 185 – 202, Antwerpen, 1995
[3] D. Hirschfeld, Comparing static and dynamic features for segmental cost function calculation in concatenative speech synthesis, ICSLP, Peking, 2000

100: Spracherkennungseinrichtung
101: Sprachsignal
102: Mikrofon
103: Aufgenommenes analoges Sprachsignal
104: Vorverarbeitung
105: Vorverarbeitetes Sprachsignal
106: Analog-/Digital-Wandler
107: Digitales Sprachsignal
108: Rechner
109: Eingangsschnittstelle
110: Mikroprozessor
111: Speicher
112: Ausgangsschnittstelle
113: Computerbus
114: DSP
115: Tastatur
116: Computermaus
117: Kabel
118: Kabel
119: Funkverbindung
120: Funkverbindung
121: Lautsprecher
122: Aktor
123: DSP
1: HMM-Zustand
2: HMM-Zustand
3: HMM-Zustand
4: HMM-Zustand
5: HMM-Zustand
α_ij: Zustandsübergangs-Wahrscheinlichkeiten
300: Ablaufdiagramm
301: Start
302: Erfassen Trainingsdatenvektoren
303: Gruppieren Trainingsdatenvektoren in Zustandsgruppen
304: Initialisieren Mittelwertvektoren der HMM-Zustände
305: Zustandsindex j = 1
306: Trainingsdatenvektorindex n = 1
307: Ermitteln des dem Trainingsdatenvektor n nächstliegenden
: Mittelwertvektors
308: Anpassen des nächstliegenden Mittelwertvektors an
: Trainingsdatenvektor
309: n = N ?
310: n = n + 1
311: Abbruchkriterium erfüllt?
312: a_p+1 = a_p·a_diff
313: j = J ?
314: j = j + 1
315: Ende
400: Mobilfunk-Telefongerät
500: Autoradio
501: Navigationssystem
502: CD-Abspielgerät
503: Kassettenrekorder
504: Radio
505: Telefongerät mit Freisprechanlage
506: Bildschirm

Claims

Verfahren zum rechnergestützten Trainieren eines Hidden Markov Modells, – bei dem Zustandsparameter gebildet werden, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – bei dem unter Verwendung von Trainingsdatenvektoren ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt wird, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
Verfahren gemäß Anspruch 1, – bei dem die Trainingsdatenvektoren zu Beginn des Verfahrens in unterschiedliche Zustandsgruppen gruppiert werden, wobei eine Zustandsgruppe jeweils einem Zustand des Hidden Markov Modells zugeordnet ist, und – bei dem die Zustandsparameter eines jeweiligen Zustands mit Trainingsdatenvektoren der zugehörigen Zustandsgruppe trainiert werden.
Verfahren gemäß Anspruch 1 oder 2, bei dem als Zustandsparameter die Mittelwertvektoren von den jeweiligen Zustand des Hidden Markov Modells beschreibenden Wahrscheinlichkeitsdichtefunktionen verwendet werden.
Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem ein k-Nächster-Nachbar-Clustering-Verfahren mit k = 1 ausgeführt wird.
Verfahren gemäß einem der Ansprüche 1 bis 4, – bei dem geprüft wird, ob ein Zustandsparameter ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, und – bei dem für den Fall, dass ein Zustandsparameter nicht ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, dieser ersetzt wird durch einen neuen Zustandsparameter, der ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist.
Verfahren gemäß Anspruch 5, bei dem ein Zustandsparameter durch den Zustandsparameter als neuen Zustandsparameter ersetzt wird, der im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens am häufigsten angepasst worden ist.
Verfahren gemäß einem der Ansprüche 1 bis 6, bei dem ein Zustandsparameter im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens in einem um so geringeren Maß angepasst wird, je mehr Trainingsdatenvektoren verfügbar sind.
Verfahren gemäß einem der Ansprüche 1 bis 7, eingesetzt in einem der folgenden Bereiche: – Signalverarbeitung, – Mustererkennung, – Sprachverarbeitung, insbesondere der sprecherabhängigen Sprachererkennung oder der Sprechererkennung, – Bildverarbeitung, – Schriftzeichenerkennung, – Prognose des Verhalten eines technischen Systems, welches mittels des Hidden Markov Modells beschrieben wird, – Beschreibung eines ökologischen Prozesses, – Beschreibung eines ökonomischen Prozesses, – in einer Umgebungssteuerung, beispielsweise im Rahmen von Home Automation, – in einer Gerätesteuerung, insbesondere zur Steuerung eines Telekommunikationsgeräts.
Vorrichtung zum Trainieren eines Hidden Markov Modells, mit einer Prozessoreinheit, die derart eingerichtet ist, dass folgende Verfahrensschritte durchgeführt werden oder durchführbar sind: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
Vorrichtung gemäß Anspruch 9, eingerichtet als Embedded System.
Computerprogramm-Element, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Trainieren eines Hidden Markov Modells: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Trainieren eines Hidden Markov Modells: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.