[go: up one dir, main page]

DE10302101A1 - Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium - Google Patents

Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium Download PDF

Info

Publication number
DE10302101A1
DE10302101A1 DE2003102101 DE10302101A DE10302101A1 DE 10302101 A1 DE10302101 A1 DE 10302101A1 DE 2003102101 DE2003102101 DE 2003102101 DE 10302101 A DE10302101 A DE 10302101A DE 10302101 A1 DE10302101 A1 DE 10302101A1
Authority
DE
Germany
Prior art keywords
hidden markov
markov model
training data
training
data vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE2003102101
Other languages
English (en)
Inventor
Walter Sterz
Wolfgang Tschirk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infineon Technologies AG
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Priority to DE2003102101 priority Critical patent/DE10302101A1/de
Publication of DE10302101A1 publication Critical patent/DE10302101A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden. Unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Trainieren eines Hidden Markov Modells sowie ein Computerprogramm-Element und ein Computerlesbares Speichermedium.
  • Hidden Markov Modelle finden in einer Vielzahl unterschiedlicher technischer Einsatzgebiete, beispielsweise im Rahmen der digitalen Signalverarbeitung, insbesondere der Spracherkennung oder der Mustererkennung, Verwendung.
  • Damit ein Hidden Markov Modell in der Praxis verwendet werden kann, muss es vor seiner Anwendung, beispielsweise zur Signalverarbeitung, trainiert werden.
  • Im Rahmen des Trainings eines Hidden Markov Modells (HMM) werden die Systemparameter des HMMs berechnet. Die Systemparameter des HMMs sind:
    • – die Emissionswahrscheinlichkeitsverteilung,
    • – die Zustandsübergangs-Wahrscheinlichkeiten und
    • – die Initialwahrscheinlichkeiten sowie
    • – die Anzahl der Zustände des Hidden Markov Modells.
  • Soll ein Hidden Markov Modell beispielsweise für ein sprecherabhängiges Spracherkennungssystem online, insbesondere in einem Embedded System, trainiert werden, so ist es wünschenswert, ein Trainingsverfahren mit relativ wenig erforderlichen Rechenoperationen einzusetzen, um die Systemanforderungen im Rahmen des Trainings des HMMs möglichst gering zu halten.
  • Als Verfahren zum Trainieren eines Hidden Markov Modells ist das so genannte Baum-Welch-Verfahren bekannt (vergleiche [1]).
  • Nachteilig an dem Baum-Welch-Verfahren ist insbesondere, dass dieses einen sehr hohen Rechenaufwand benötigt. Ein anderer erheblicher Nachteil des Baum-Welch-Verfahrens ist in den auftretenden numerischen Problemen zu sehen, da im Rahmen dieses Verfahrens viele Wahrscheinlichkeitswerte miteinander multipliziert werden, was zu sehr kleinen Zahlen führt. Die sehr kleinen Zahlen sind im Rahmen eines üblichen 8-Bit-, 16-Bit- oder 32-Bit-Prozessors, selbst mit einem 64-Bit-Prozessor oftmals nicht mehr mit der erforderlichen Genauigkeit verarbeitbar.
  • Somit liegt der Erfindung das Problem zugrunde, ein Hidden Markov Modell zu trainieren, wobei das Training mit reduzierten numerischen Problemen und mit reduziertem Rechenaufwand verglichen mit dem Baum-Welch-Verfahren durchführbar ist.
  • Das Problem wird durch das Verfahren und die Vorrichtung zum Trainieren eines Hidden Markov Modells sowie durch ein Computerprogramm-Element und ein Computerlesbares Speichermedium mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
  • Bei einem Verfahren zum rechnergestützten Trainieren eines Hidden Markov Modells werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden.
  • Unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden. Ruf diese Weise wird das trainierte Hidden Markov Modell gebildet.
  • Eine Vorrichtung zum Trainieren eines Hidden Markov Modells weist eine Prozessoreinheit auf, die derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind oder durchgeführt werden.
  • Ein Computerprogramm-Element weist, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Schritte auf zum Trainieren eines Hidden Markov Modells.
  • In einem Computerlesbaren Speichermedium ist ein Programm gespeichert, das, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Verfahrensschritte aufweist zum Trainieren eines Hidden Markov Modells.
  • Anschaulich wird erfindungsgemäß das Problem der Bestimmung der Systemparameter des HMMs (anders ausgedrückt der Zustandsparameter des HMMs) auf die Bestimmung von Repräsentanten der Trainingsdatenvektoren zurückgeführt. Alle Trainingsdatenvektoren mit gemeinsamer Bedeutung, die bei einem Spracherkennungssystem beispielsweise eine lautsprachliche Einheit repräsentieren, werden vorzugsweise zu einem Zustand zusammengruppiert. Innerhalb der Trainingsdatenvektoren werden Repräsentanten ermittelt. Die logarithmierten Emissionswahrscheinlichkeiten erhält man vorzugsweise als euklidische Distanz zwischen den Repräsentanten des HMMs und dem Beobachtungsvektor des Eingangssignals. Die Zustandsübergangs-Wahrscheinlichkeiten und die Initialwahrscheinlichkeiten werden gemäß einer Ausgestaltung der Erfindung als Konstanten angenommen.
  • Die Trainingsdatenvektoren sind üblicherweise Vektoren, welche das Verhalten eines technischen Systems beschreiben und vorzugsweise zu Beginn des Verfahrens gemessen werden. Im Rahmen der Spracherkennung werden somit beispielsweise Äußerungen eines Menschen aufgenommen und aus dem aufgenommenen Sprachsignal werden die Trainingsdatenvektoren bestimmt. Im Rahmen der digitalen Bildverarbeitung werden beispielsweise Bilder mittels einer Kamera aufgenommen und die digitalisierten Bilder werden verwendet, um daraus Trainingsdatenvektoren zu generieren.
  • Allgemein stellen die Trainingsdatenvektoren Daten dar, die üblicherweise ein technisches System in seinem tatsächlichen Verhalten beschreiben und dienen dazu, das Verhalten des technischen Systems möglichst wahrheitsgetreu mittels des Hidden Markov Modells nachzubilden.
  • Durch die Erfindung wird es möglich, die bei dem Baum-Welch-Verfahren auftretenden numerischen Probleme zu vermeiden, da nicht mehr Produkte von vielen Wahrscheinlichkeitswerte ermittelt werden müssen.
  • Somit ist die Erfindung selbst auf einem Prozessor mit einer relativ geringen Wortbreite und mit einer relativ geringen Rechenleistung einsetzbar. Damit eignet sich die Erfindung insbesondere zum Einsatz in einem Embedded System.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Die im Folgenden beschriebenen Ausgestaltungen der Erfindung betreffen das Verfahren und die Vorrichtung zum Trainieren eines Hidden Markov Modells sowie das Computerprogramm-Element als auch das Computerlesbare Speichermedium.
  • Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, die Trainingsdatenvektoren zu Beginn des Verfahrens in unterschiedliche Zustandsgruppen zu gruppieren, wobei eine Zustandsgruppe jeweils einem Zustand des Hidden Markov Modells zugeordnet ist. Die Zustandsparameter eines jeweiligen Zustands des Hidden Markov Modells werden mit Trainingsdatenvektoren der zugehörigen Zustandsgruppe trainiert.
  • Durch die Zuordnung von Trainingsdatenvektoren zu Gruppen und damit durch das Zusammenfassen von Trainingsdatenvektoren in Gruppen einander hinsichtlich eines vorgegebenen Ähnlichkeitskriteriums ähnlicher Trainingsdatenvektoren wird die Konvergenz des Trainingsverfahrens erheblich beschleunigt und somit der Bedarf an Rechenleistung weiter reduziert.
  • Im Rahmen der Anwendung eines Hidden Markov Modells zur Sprachverarbeitung bedeutet dies beispielsweise, dass die Trainingsdatenvektoren zu Gruppen mit einer jeweils gemeinsamen Bedeutung zusammengefasst werden. Im Rahmen der Sprachverarbeitung werden die Trainingsdatenvektoren beispielsweise in Gruppen zusammengefasst, wobei jede Gruppe jeweils eine lautsprachliche Einheit repräsentiert.
  • Als lautsprachliche Einheit wird im Rahmen der Erfindung eine Symboldarstellung einer lautsprachlichen Äußerung verstanden, beispielsweise:
    • – eine Symboldarstellung von einzelnen Zeichen, die eine lautsprachliche Äußerung repräsentieren,
    • – Phonemsegmente,
    • – Phoneme,
    • – Allophone,
    • – Diphone,
    • – Halbsilben, oder
    • – ganze Wörter.
  • Zur Weiteren Vereinfachung und somit zur schnelleren Durchführbarkeit des Verfahrens ist es in einer Ausgestaltung der Erfindung vorgesehen, als Zustandsparameter die Mittelwertvektoren von den Wahrscheinlichkeitsdichtefunktionen zu verwenden, welche den jeweiligen Zustand des Hidden Markov Modells beschreiben.
  • Vorzugsweise wird als k-Nächster-Nachbar-Clustering-Verfahren ein 1-Nächster-Nachbar-Clustering-Verfahren eingesetzt (d.h. k = 1), anders ausgedrückt ein Winner-Takes-All-Verfahren (WTA-Verfahren).
  • Bei dieser Ausgestaltung der Erfindung wird somit nur der tatsächlich dem jeweiligen Trainingsdatenvektor in dem Vergleichsraum am Nächsten liegende Zustandsparameter, insbesondere Mittelwertvektor ausgewählt und dem jeweiligen Trainingsdatenvektor angepasst. Auf diese Weise wird das Konvergenzverhalten des Trainingsverfahrens weiter verbessert.
  • Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, zu prüfen, ob ein Zustandsparameter ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, und für den Fall, dass ein Zustandsparameter nicht ausreichend häufig im Rahmen des k- Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, dass dieser ersetzt wird durch einen neuen Zustandsparameter. Der neue Zustandsparameter ist vorzugsweise dadurch charakterisiert, dass er ausreichend häufig, vorzugsweise am häufigsten, im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist.
  • Durch diese Ausgestaltung der Erfindung wird das Konvergenzverhalten des Trainingsverfahrens weiter verbessert.
  • Alternativ kann der neue Zustandsparameter auch zufallsbasiert erzeugt werden.
  • Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, einen Zustandsparameter im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens in einem umso geringeren Maße an die Trainingsdatenvektoren anzupassen, je mehr Trainingsdatenvektoren im Rahmen des Trainingsverfahrens berücksichtigt werden.
  • Das Verfahren eignet sich insbesondere zum Einsatz in einem Embedded System.
  • Ferner kann die Erfindung in einem der folgenden Bereiche eingesetzt werden:
    • – in der Signalverarbeitung,
    • – in der Mustererkennung,
    • – in der Sprachverarbeitung, insbesondere in der sprecherabhängigen Spracherkennung oder der Sprechererkennung, insbesondere in einer Gerätesteuerung, beispielsweise in einem Telekommunikationsgerät, in der Home Automation, d.h. beispielsweise in einer Umgebungssteuerung,
    • – in der Bildverarbeitung,
    • – in der Schriftzeichenerkennung,
    • – im Rahmen der Prognose des Verhaltens eines technischen Systems, welches mittels Hidden Markov Modells beschrieben wird.
  • Anschaulich kann die Erfindung darin gesehen werden, dass die zu ermittelnden Repräsentanten der Trainingsdatenvektoren gemäß folgendem Verfahren bestimmt werden.
  • Zunächst werden alle die Trainingsvektoren ermittelt, die einem Zustand zugeordnet sind. Anschließend erfolgt eine Initialisierung, vorzugsweise eine Zufalls-Initialisierung der gewünschten Anzahl von Repräsentanten der Trainingsdatenvektoren. Nachfolgend werden die Repräsentanten, d.h. die Zustandsparameter, an die Wahrscheinlichkeitsdichtefunktion der Trainingsdatenvektoren adaptiert; anders ausgedrückt angepasst, indem
    • a) der in dem Vergleichsraum räumlich nächstliegende Repräsentant (Winner) zum aktuell betrachteten Trainingsdatenvektor im Sinne einer minimalen euklidischen Distanz ermittelt wird,
    • b) der ermittelte Repräsentant mit steigender Zahl von Durchläufen, vorzugsweise pro Durchlauf, abnehmender Adaptionskonstante an den jeweilig verwendeten Trainingsdatenvektor angepasst wird.
  • Die Schritte a) und b) werden in einer beliebig vorgebbaren Anzahl von Durchläufen mit allen Trainingsdatenvektoren durchgeführt.
  • Werden Zustandsparameter innerhalb eines Durchlaufs nicht oft genug zum Winner ermittelt, so werden diese gesondert behandelt, vorzugsweise dahingehend, dass für den Fall, dass ein Zustandsparameter zu selten getroffen wird; er durch jenen Repräsentanten, d.h. jenen Zustandsparameter, ersetzt wird, der in demselben Durchlauf am häufigsten als Winner bestimmt wurde.
  • Schließlich wird vorzugsweise die jeweils verwendete Anpassungskonstante (Adaptionskonstante) an die Gesamtanzahl der berücksichtigten Trainingsdatenvektoren angepasst. Die Adaptionskonstante wird in der Art gewählt, dass das Adaptionsverhalten auch bei Zuständen mit stark unterschiedlicher Anzahl von Trainingsdatenvektoren, welche dem jeweiligen Zustand zugeordnet sind, gleich und unabhängig von der Skalierung der Trainingsdatenvektoren ist.
  • Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Folgenden näher erläutert.
  • Es zeigen
  • 1 ein Blockdiagramm einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung;
  • 2 ein Diagramm eines Hidden Markov Modells gemäß einem Ausführungsbeispiel der Erfindung;
  • 3A und 3B ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte zum Trainieren des Hidden Markov Modells gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind.
  • 4 ein Telekommunikationsgerät mit einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung;
  • 5 ein Autoradio mit einer Spracherkennungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung.
  • l zeigt eine Spracherkennungseinrichtung 100 gemäß einem Ausführungsbeispiel der Erfindung.
  • Die Spracherkennungseinrichtung 100 arbeitet je nach Betriebsmodus in einem ersten Betriebsmodus als Spracherkennungseinrichtung, wobei in dem Spracherkennungsmodus die Spracherkennungseinrichtung eine eingesprochene Äußerung 101, eingesprochen von einem Benutzer (nicht dargestellt) der Spracherkennungseinrichtung 100, erkennt unter Verwendung eines Verfahrens zur sprecherunabhängigen Spracherkennung. In einem zweiten Betriebsmodus, im Weiteren auch bezeichnet als Trainingsmodus, werden die im Folgenden beschriebenen Hidden Markov Modelle, welche im Rahmen der Spracherkennung verwendet werden, trainiert.
  • In beiden Betriebsmodi wird das von dem Benutzer eingesprochene Sprachsignal 101 einem Mikrofon 102 zugeführt, und als aufgenommenes elektrisches Rnalogsignal 103 einer Vorverarbeitung, insbesondere einer Vorverstärkung mittels einer Vorverarbeitungseinheit 104, insbesondere mittels eines Vorverstärkers unterzogen und als vorverarbeitetes und verstärktes Analogsignal 105 einem Analog-/Digitalwandler 106 zugeführt, dort in ein digitales Signal 107 umgewandelt und als digitales Signal 107 einem Rechner 108 zugeführt.
  • Es ist in diesem Zusammenhang anzumerken, dass das Mikrofon 102, die Vorverarbeitungseinheit 104, insbesondere die Verstärkungseinheit, und der Analog-/Digitalwandler 106 als separate Einheiten oder auch als in dem Rechner 108 integrierte Einheiten realisiert sein können.
  • Gemäß diesem Ausführungsbeispiel ist es vorgesehen, dass das digitalisierte Signal 107 dem Rechner 108 über dessen Eingangsschnittstelle 109 zugeführt wird.
  • Der Rechner 108 weist ferner einen Mikroprozessor 110, einen Speicher 111 sowie eine Ausgangsschnittstelle 112 auf, welche alle miteinander mittels eines Computerbus 113 gekoppelt sind.
  • Mittels des Mikroprozessors 110 werden die im Weiteren beschriebenen Verfahrensschritte, insbesondere die Verfahren zum Trainieren der Hidden Markov Modelle sowie zur Spracherkennung unter Verwendung der trainierten Hidden Markov Modelle durchgeführt. Ein elektronisches Wörterbuch, welches die Einträge enthält, die im Rahmen der Spracherkennung als Referenzworte enthalten, ist in dem Speicher 111 gespeichert.
  • Ferner ist ein ebenfalls mit dem Computerbus 113 gekoppelter digitaler Signalprozessor (DSP) 114 vorgesehen, der einen speziell auf die verwendeten sprecherunabhängigen Spracherkennungsalgorithmen hin spezialisierte Mikrocontroller aufweist.
  • In dem digitalen Signalprozessor 114 ist ferner ein Computerprogramm gespeichert, welches eingerichtet ist zur sprecherunabhängigen Spracherkennung. Alternativ können die verwendeten Algorithmen in hartverdrahteter Logik, das heißt unmittelbar selbst in, Hardware, realisiert sein.
  • Ferner ist der Rechner 108 mittels der Eingangsschnittstelle 109 mit einer Tastatur 115 sowie einer Computermaus 116 über elektrische Leitungen 117, 118 oder eine Funkverbindung, beispielsweise eine Infrarot-Verbindung oder eine Bluetooth-Verbindung gekoppelt.
  • Über zusätzliche Kabel oder Funkverbindungen, beispielsweise eine Infrarot-Verbindung oder eine Bluetooth-Verbindung 119, 120 ist der Rechner 108 mittels der Ausgangsschnittstelle 112 mit einem Lautsprecher 121 sowie einem Aktor 122 gekoppelt.
  • Der Aktor 122 repräsentiert in 1 allgemein jeden möglichen Aktor im Rahmen der Steuerung eines technischen Systems, beispielsweise realisiert in Form eines Hardwareschalters oder in Form eines Computerprogramms für den Fall, dass beispielsweise ein Telekommunikationsgerät oder ein anderes technisches System, beispielsweise ein Autoradio, eine Stereoanlage, ein Videorecorder, ein Fernseher, der Computer selbst oder irgendeine andere technische Anlage gesteuert werden soll.
  • Gemäß dem Ausführungsbeispiel der Erfindung weist die Vorverarbeitungseinheit 104 eine Filterbank mit einer Mehrzahl von Bandpässen auf, welche die Energie des eingegebenen Sprachsignals 103 in einzelnen Frequenzbändern messen. Mittels der Filterbank werden so genannte Kurzzeitspektren gebildet, indem die Ausgangssignale der Bandpässe gleichgerichtet, geglättet und in kurzen Abständen abgetastet werden, gemäß dem Ausführungsbeispiel alle 10 msec. Die so genannten Cepstrurn-Koeffizienten von zwei aufeinander folgenden Zeitfenstern sowie deren zeitliche erste Ableitung sowie deren zeitliche zweite Ableitung werden ermittelt und zu jeweils einem Super-Merkmalsvektor zusammengefasst und dem Rechner 108 zugeführt.
  • In einer alternativen Ausführungsform kann die Vorverarbeitungseinheit 104 in ihrer Funktion der Abbildung des Sprachsignals auf die Cepstrum-Koeffizienten in dem Rechner 108 und darin in dem Mikroprozessor 110 und/oder in dem DSP 114 realisiert sein.
  • In dem Rechner 108 ist, wie oben beschrieben, in Form eines Computerprogramms eine Spracherkennungseinheit, wobei die Spracherkennung auf dem Prinzip der Hidden Markov Modelle basiert, zur sprecherunabhängigen Spracherkennung realisiert, gemäß dem Ausführungsbeispiel in dem DSP 123.
  • In einem Basis-Wortschatz, der zu Beginn des Verfahrens in einem elektronischen Wörterbuch 114 gespeichert ist, ist zu jeweils einem Basis-Eintrag ein Hidden Markov Modell gespeichert, das jeweils auf folgende Weise unter Verwendung eines Trainings-Datensatzes, das heißt einer Menge von Trainings-Sprachsignalen, eingesprochen von einem oder mehreren Trainings-Nutzern, ermittelt wird.
  • Das Training der Hidden Markov Modelle erfolgt gemäß diesem Ausführungsbeispiel in drei Phasen:
    • – einer erste Phase, in der die in der Trainings-Datenbank enthaltenen Sprachsignale segmentiert werden,
    • – einer zweiten Phase, in der die LDA-Matrix (lineare Diskriminanzanalyse-Matrix) berechnet wird sowie
    • – einer dritten Phase, in der das Codebuch, das heißt die HMM-Prototypen-Merkmalsvektoren für jeweils eine in einem Auswahlschritt ausgewählte Anzahl von Merkmalsvektor-Komponenten berechnet werden.
  • Die Gesamtheit dieser drei Phasen wird im Weiteren als das Training der Hidden Markov Modelle bezeichnet (HMM-Training).
  • Das HMM-Training wird unter Verwendung des DSPs 123 sowie unter Verwendung von vorgegebenen Trainingskripts, anschaulich von geeignet eingerichteten Computerprogrammen, durchgeführt.
  • Gemäß diesem Ausführungsbeispiel wird jede gebildete lautsprachliche Einheit, das heißt jedes Phonem, in drei aufeinander folgende Phonemsegmente aufgeteilt, entsprechend einer Initial-Phase (erstes Phonemsegment), einer zentralen Phase (zweites Phonemsegment) und einer Endphase (drittes Phonemsegment) eines Lauts, das heißt eines Phonems.
  • Anders ausgedrückt wird jeder Laut in einem Lautmodell mit drei Zuständen, das heißt mit einem Drei-Zustands-HMM modelliert.
  • 2 zeigt ein Beispiel eines Hidden Markov Modells 200 gemäß dem Ausführungsbeispiel der Erfindung.
  • Das Hidden Markov Modells 200 weist eine Vielzahl von Zuständen 1, 2, 3, 4, 5 auf. Ferner ist das Hidden Markov Modell 200 charakterisiert durch
    • – eine Emissionswahrscheinlichkeits-Verteilung bj(o), mit der angegeben wird die Wahrscheinlichkeit, dass der Beobachtungsvektor o in dem Zustand j emittiert wird,
    • – Zustandsübergangs-Wahrscheinlichkeiten αij für den Zustandsübergang von dem Zustand i in den Zustand j,
    • – Eine Initialwahrscheinlichkeit πi, mit der die Wahrscheinlichkeit angegeben wird, mit welcher ein Pfad durch das Hidden Markov Modell 200 in dem Zustand i beginnt.
  • Im Folgenden werden ohne Einschränkung der Allgemeingültigkeit die folgenden Randbedingungen angenommen.
  • In einem Links-Rechts-Modell als Hidden Markov Modell 200, bei dem nur die Zustandsübergänge einer Selbstschleife (Selfloop), eines Ein-Schritt-Zustandsübergangs (Step) und eines Zwei-Schritt-Zustandsübergangs (Skip) berücksichtigt werden, können die Zustandsübergangs-Wahrscheinlichkeiten αij, die ungleich dem Wert „Null" sind, als Konstanten angesetzt werden.
  • Anders ausgedrückt bedeutet dies, dass in diesem Fall für das beispielhafte Hidden Markov Modell 200 aus 2 gilt: α12 = α23 = α34 = α45 = C0 (1)(für einen Ein-Schritt-Zustandsübergang) bzw. α22 = α33 = α44 = α24 = C1 (2) (für eine Selbstschleife und einen Zwei-Schritt-Zustandsübergang).
  • Alle anderen (in 2 nicht dargestellten) Zustandsübergangs-Wahrscheinlichkeiten αij werden auf den Wert „Null" gesetzt.
  • Es ist in diesem Zusammenhang anzumerken, dass es nicht erforderlich ist, den Zustandsübergangs-Wahrscheinlichkeiten αij einen konstanten Wert zuzuordnen. Es ist in einer alternativen Ausgestaltung der Erfindung beispielsweise vorgesehen, in den Zustandsübergangs-Wahrscheinlichkeiten αij die Phonemlänge zu codieren.
  • Ferner wird gemäß diesem Ausführungsbeispiel definiert: π1 = 1 (3)und πi ≠ 1 = 0 (4)d.h. ein Pfad durch das Hidden Markov Modell 200 kann immer nur in dem ersten Zustand 1 beginnen. Diese Annahme kann immer getroffen werden, wenn in dem mittels des Hidden Markov Modells 200 beschriebenen Systems eine Anfangsbedingung existiert.
  • Die Emissionswahrscheinlichkeits-Verteilung bj(o) wird gemäß diesem Ausführungsbeispiel mittels kontinuierlicher, mehrdimensionaler Wahrscheinlichkeits-Verteilung, so genannter continuous density mixtures modelliert gemäß folgender Vorschrift:
    Figure 00150001
    wobei mit
    • – cjk ein Wahrscheinlichkeits-Verteilungskoeffizient der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
    • – Mj die Anzahl von in dem Zustand j vorhandener Wahrscheinlichkeits-Verteilungen,
    bezeichnet wird
    und wobei
    Figure 00160001
    wobei mit
    • – ujk ein Mittelwertvektor der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
    • – Σjk eine Kovarianzmatrix der k-ten Wahrscheinlichkeits-Verteilung in dem Zustand j,
    • – n die Dimension des Beobachtungsvektors o,
    bezeichnet wird.
  • Jede Wahrscheinlichkeits-Verteilung entspricht einer mehrdimensionalen Gaußverteilung. Mit einem solchen continuous density mixture model kann jede kontinuierliche Wahrscheinlichkeitsdichtefunktion beliebig genau angenähert werden. Setzt man die Varianzen der Gaußverteilungen auf einen konstanten Wert und sind gleichzeitig die Kovarianzen gleich Null – was der Fall ist, wenn der Beobachtungsvektor o mittels einer im Folgenden noch näher erläuterten Linearen Diskriminanzanalyse (LDA) ermittelt wurde – so sind zur Bestimmung der Emissionswahrscheinlichkeits-Verteilung bj(o) nur noch die Mittelwertvektoren μjk erforderlich.
  • Während der Spracherkennung werden die drei Phonemsegmente in einer Bakis-Topologie oder allgemein einer Links-Rechts-Topologie aneinander gereiht und auf die Konkatenation dieser drei aneinander gereihten Segmente wird die Berechnung im Rahmen der sprecherunabhängigen Spracherkennung durchgeführt.
  • Wie im Weiteren noch näher erläutert wird, wird in dem Spracherkennungsmodus ein Viterbi-Algorithmus zum Dekodieren der Merkmalsvektoren, welche aus dem eingegebenen Sprachsignal 101 gebildet werden, durchgeführt.
  • Nach erfolgter Segmentierung wird die LDA-Matrix A mittels einer LDA-Matrix-Berechnungseinheit ermittelt.
  • Die LDA-Matrix A dient zur Transformation eines jeweiligen Super-Merkmalsvektors y auf einen Merkmalsvektor x gemäß folgender Vorschrift: x = A T·(y – y), (7)wobei mit
    • x ein Merkmalsvektor,
    • A eine LDA-Matrix,
    • y ein Super-Merkmalsvektor,
    • y ein globaler Verschiebungsvektor
    bezeichnet wird.
  • Die LDA-Matrix A wird derart bestimmt, dass
    • – die Komponenten des Merkmalsvektors x im statistischen Durchschnitt voneinander im Wesentlichen unkorreliert sind,
    • – die statistischen Varianzen innerhalb einer Segmentklasse im statistischen Durchschnitt normalisiert sind,
    • – die Zentren der Segmentklassen im statistischen Durchschnitt einen maximalen Abstand voneinander aufweisen und
    • – die Dimension der Merkmalsvektoren x möglichst, vorzugsweise Spracherkennungsanwendungs-abhängig, reduziert wird.
  • Im Folgenden wird das Verfahren zum Bestimmen der LDA-Matrix A gemäß diesen Ausführungsbeispielen erläutert.
  • Es ist jedoch anzumerken, dass alternativ alle bekannten Verfahren zum Bestimmen einer LDA-Matrix A ohne Einschränkung eingesetzt werden kann.
  • Es wird angenommen, dass J Segmentklassen existieren, wobei jede Segmentklasse j einen Satz Dy-dimensionaler Super-Merkmalsvektoren y enthält, das heißt, dass gilt:
    Figure 00180001
    wobei mit Nj die Anzahl der in der Klasse j sich befindenden Super-Merkmalsvektoren y j bezeichnet wird.
  • Mit
    Figure 00180002
    wird die Gesamtzahl der Super-Merkmalsvektoren y bezeichnet.
  • Es ist anzumerken, dass die Super-Merkmalsvektoren y j k unter Verwendung der oben beschriebenen Segmentierung der Sprachsignal-Datenbank ermittelt worden sind. Gemäß diesem Ausführungsbeispiel weist jeder Super-Merkmalsvektor y j k eine Dimension Dy von Dy = 78 (= 2·3·13)auf, wobei 13 MFCC-Koeffizienten (Cepstrums-Koeffizienten) in dem Super-Merkmalsvektor y j k enthalten sind, sowie deren jeweilige zeitliche erste Ableitung und deren jeweilige zeitliche zweite Ableitung (dies begründet obigen Faktor 3).
  • Ferner sind in jedem Super-Merkmalsvektor y j k jeweils die Komponenten zweier zeitlich unmittelbar aufeinanderfolgender Zeitfenster im Rahmen der Kurzzeitanalyse enthalten (dies begründet obigen Faktor 2).
  • Es ist in diesem Zusammenhang anzumerken, dass grundsätzlich eine beliebige, an die jeweilige Anwendung angepasste Zahl von Vektorkomponenten in dem Super-Merkmalsvektor y j k enthalten sein kann, beispielsweise bis zu 20 Cepstrums-Koeffizienten und deren zugehörigen zeitlichen erste Ableitungen und zweite Ableitungen.
  • Der statistische Mittelwert oder anders ausgedrückt das Zentrum der Klasse j ergibt sich gemäß folgender Vorschrift:
    Figure 00190001
  • Die Kovarianzmatrix Σ j der Klasse j ergibt sich gemäß folgender Vorschrift:
    Figure 00190002
  • Die Durchschnitts-Intea-Streumatrix S w ist definiert als:
    Figure 00200001
    wobei p(j) als Gewichtungsfaktor der Klasse j bezeichnet wird.
  • In analoger Weise ist die Durchschnitts-Inter-Streumatrix S b definiert als:
    Figure 00200002
    als dem Durchschnitts-Super-Merkmalsvektor über alle Klassen.
  • Die LDA-Matrix A wird zerlegt gemäß folgender Vorschrift: A = V, (16)wobei mit
    • U eine erste Transformationsmatrix,
    • W eine zweite Transformationsmatrix und
    • V eine dritte Transformationsmatrix
    bezeichnet wird.
  • Die erste Transformationsmatrix U wird verwendet, um die Durchschnitts-Intra-Streumatrix S w zu diagonalisieren und wird ermittelt, indem die positiv definite und symmetrische Durchschnitts-Intra-Streumatrix S w in ihren Eigenvektorraum transformiert wird. In ihrem Eigenvektorraum ist die Durchschnitts-Intea-Streumatrix S w eine Diagonal-Matrix, deren Komponenten positiv und größer oder gleich null sind. Die Komponenten, deren Werte größer null sind, entsprechen der Durchschnitts-Varianz in der jeweiligen durch die entsprechende Vektorkomponente definierten Dimension.
  • Die zweite Transformationsmatrix W wird zum Normalisieren der Durchschnitts-Varianzen verwendet und wird ermittelt gemäß folgender Vorschrift:
    Figure 00210001
  • Die Transformation U·W wird auch als Weißung bezeichnet.
  • Mit B = U·W (18)ergibt sich für die Matrix B T·S w·B die Einheitsmatrix, welche bei jeder beliebigen orthonormalen Lineartransformation unverändert bleibt.
  • Um die Durchschnitts-Inter-Streumatrix S b zu diagonalisieren wird die dritte Transformationsmatrix V, die gebildet wird gemäß folgender Vorschrift: V = B T·S b·B, (9) wobei B T·S b·B ebenfalls eine positiv definite und symmetrische Matrix darstellt, in ihren Eigenvektorraum transformiert wird.
  • In dem Transformationsraum x = A T·(y – y) (20)ergeben sich somit folgende Matrizen: Eine diagonalisierte Durchschnitts-Intra-Streumatrix S w:
    Figure 00220001
    und eine diagonalisierte Durchschnitts-Inter-Streumatrix S b:
    Figure 00220002
    wobei mit
    Figure 00220003
    eine Dy × Dy Diagonalmatrix mit den Komponenten cd in der Zeile/Spalte d und sonst mit Komponenten mit dem Wert Null, bezeichnet wird.
  • Die Werte σ2 d sind die Eigenwerte der Durchschnitts-Inter-Streumatrix S b und stellen ein Maß für die so genannte Pseudoentropie der Merkmalsvektor-Komponenten dar, welche im Folgenden auch als Informationsgehalt der Merkmalsvektor-Komponenten bezeichnet wird. Es ist anzumerken, dass die Spur jeder Matrix invariant ist bezüglich irgendeiner Orthogonaltransformation, womit sich ergibt, dass die Summe
    Figure 00220004
    die Gesamt-Durchschnitts-Varianz des Durchschnitts-Vektors x j der J Klassen darstellt.
  • Es ergibt sich somit eine ermittelte Anhängigkeit der Pseudoentropie der Merkmalsvektoren von den jeweils in dem Merkmalsvektor enthaltenen bzw. berücksichtigten Merkmalsvektor-Komponenten.
  • Gemäß diesem Ausführungsbeispiel wird anschließend eine Dimensionsreduktion vorgenommen, indem die σ2 d-Werte in in ihrer Größe abfallender Reihenfolge sortiert werden und die σ2 d-Werte weggelassen werden, das heißt unberücksichtigt bleiben, die kleiner sind als ein vorgegebener Schwellwert. Der vorgegebene Schwellwert kann ferner kumulativ definiert sein.
  • Dann kann die LDA-Matrix A T angepasst werden, indem die Zeilen entsprechend den Eigenwerten σ2 d sortiert werden und die Zeilen weggelassen werden, die zu den ausreichend „kleinen" Varianzen gehören und damit nur einen geringen Informationsgehalt (geringe Pseudoentropie) aufweisen.
  • Gemäß diesem Ausführungsbeispiel werden die Komponenten mit den 24 größten Eigenwerten σ2 d verwendet, anders ausgedrückt Dx = 24.
  • Die vier oben beschriebenen Teilschritte zum Ermitteln der LDA-Matrix A sind in folgender Tabelle zusammengefasst:
    Figure 00230001
    Figure 00240001
  • Das letzte Verfahren zum Teil-Verfahren im Rahmen des Trainings der Hidden Markov Modelle ist das Clustern der Merkmalsvektoren, welches mittels einer Clustereinheit durchgeführt wird und welches als Ergebnis ein jeweiliges Codebuch hat, jeweils spezifisch für einen Trainingsdatensatz mit einer vorgegebenen Anzahl von Merkmalsvektor-Komponenten. Die Gesamtheit der Repräsentanten der Segmentklassen wird als Codebuch bezeichnet und die Repräsentanten selbst werden auch als Prototypen der Phonemsegmentklasse bezeichnet.
  • Die Prototypen, im Weiteren auch als Prototyp-Merkmalsvektoren bezeichnet, werden gemäß dem Folgenden Verfahren ermittelt.
  • Die 3a und 3b zeigen in einem Ablaufdiagramm 300 die einzelnen Verfahrensschritte des Teil-Verfahrens zum Trainieren des Hidden Markov Modells 200 gemäß dem Ausführungsbeispiel der Erfindung.
  • Gemäß einem in 3a dargestellten ersten Schritt (Schritt 301) wird das Verfahren gestartet.
  • Anschließend werden, wie oben erläutert wurde, die Trainingsdatenvektoren erfasst (Schritt 302).
  • In einem nachfolgenden Schritt werden die Trainingsdatenvektoren in unterschiedliche Zustandsgruppen, welche jeweils eine gemeinsame Bedeutung aufweisen, gemäß diesem Ausführungsbeispiel eine lautsprachliche Einheit oder einen Teil einer lautsprachlichen Einheit repräsentieren, gruppiert (Schritt 303) und einem jeweiligen Zustand, der ebenfalls die jeweilige lautsprachliche Einheit repräsentiert, zugeordnet.
  • Anschließend erfolgt für alle HMM-Zustände eine Zufalls-Initialisierung von Mj Mittelwertvektoren in einem jeweiligen HMM-Zustand.
  • Üblicherweise sind für ein Ganzwortmodell mit ungefähr 2000 Repräsentanten, für ein Phonemmodell mit 4000 bis 10000 Repräsentanten bei ungefähr 100 bis 200 Zuständen bei der Initialisierung ungefähr 20 Mittelwertvektoren pro Zustand vorgesehen.
  • Die Zufallsinitialisierung der Mj Mittelwertvektoren μjk erfolgt gemäß folgender Vorschrift: μjk = wstart·rande(), (24)wobei mit
    • – wstart ein Gewichtswert der initialisierten Mittelwertvektoren und
    • – rand() eine Zufallszahl-Erzeugungsfunktion,
    bezeichnet wird.
  • Nach erfolgter Initialisierung der Mj Mittelwertvektoren μjk für jeden der HMM-Zustände des Hidden Markov Modells 200 wird ein HMM-Zustandsindex j auf den Wert 1 initialisiert (Schritt 305).
  • Anschließend wird ein Trainingsdatenvektorindex n, mit dem ein jeweiliger Trainingsdatenvektor eindeutig identifiziert wird, auf den Wert 1 gesetzt (Schritt 306).
  • Zu dem als erstes ausgewählten Trainingsdatenvektor, dem der Trainingsdatenvektorindex n = 1 zugeordnet ist, wird der Mittelwertvektor in dem Zustand j = 1 ermittelt, der dem Trainingsdatenvektor mit n = 1 in dem Vergleichsraum am Nächsten liegt (Schritt 307).
  • Anders ausgedrückt bedeutet dies, dass zu dem aktuell betrachteten Trainingsdatenvektor v jn der nächstliegende Mittelwertvektor μjw gemäß folgender Vorschrift ermittelt wird:
    Figure 00270001
  • Der nächstliegende Mittelwertvektor (Winner μjw) wird in Abhängigkeit des aktuell verwendeten Trainingsdatenvektors v jn gemäß folgender Vorschrift an die Position des aktuellen Trainingsdatenvektors angepasst (Schritt 308):
    Figure 00270002
  • Der Adaptionskoeffizient a nimmt gemäß diesem Ausführungsbeispiel mit der Anzahl P der Durchläufe durch alle Trainingsdatenvektoren ab gemäß folgenden Vorschriften:
  • 1. Durchlauf: a1 = astart, astart ≈ 0,1
  • Alle weiteren Durchläufe: ap+1 = ap·adiff, adiff ≈ 0,95, p = 1, ..., P.
  • Das Ermitteln des jeweils nächstliegenden Mittelwertvektors μ jw und das entsprechende Anpassen des nächstliegenden Mittelwertvektors an den aktuellen Trainingsdatenvektor (Schritte 307, 308) wird für alle Trainingsdatenvektoren in der dem Zustand j zugeordneten Trainingsdatengruppe durchgeführt.
  • Anders ausgedrückt bedeutet dies, dass in einem Prüfschritt (Schritt 309) überprüft wird, ob der Trainingsdatenvektorindex n gleich dem Wert N ist, wobei mit N die Anzahl der in der jeweiligen Zustandsgruppe enthaltenen Trainingsdatenvektoren bezeichnet wird.
  • Ist dies nicht der Fall, so wird in einem nachfolgenden Schritt (Schritt 310) der Trainingsdatenvektorindex n um den Wert 1 erhöht und die Schritte 307 und 308 werden für den neuen, noch nicht berücksichtigten Trainingsdatenvektor n + 1 der dem HMM-Zustand j zugeordneten Zustandsgruppe erneut durchgeführt.
  • Sind alle Trainingsdatenvektoren einer Zustandsgruppe berücksichtigt worden, so wird in einem nachfolgenden Schritt geprüft, ob ein vorgegebenes Abbruchkriterium, beispielsweise eine vorgegebene Anzahl von durchzuführenden Iterationen, erfüllt ist (Schritt 311).
  • Ist das Abbruchkriterium nicht erfüllt, so wird eine neue Iteration, beginnend in Schritt 306, auf das Hidden Markov Modell 200 durchgeführt, mit einem neu gemäß folgender Vorschrift bestimmten Adaptionskoeffizient a (Schritt 312): ap+1 = ap·adiff
  • Ist das Abbruchkriterium erfüllt, so wird in einem nachfolgenden Schritt geprüft, ob das Verfahren schon für alle HMM-Zustände J durchgeführt worden ist.
  • Anders ausgedrückt bedeutet dies, dass in einem weiteren Prüfschritt (Schritt 313) überprüft wird, ob der Zustandsindex j gleich dem Wert J ist, wobei mit J die Anzahl berücksichtigter Zustände des Hidden Markov Modells 200 bezeichnet wird.
  • Ist dies nicht der Fall, so wird der Zustandsindex j um den Wert 1 erhöht (Schritt 314) und die Schritt 306, 307, 308, 309, 310 werden für die Trainingsdatenvektoren des neuen Zustands (j + 1) erneut durchgeführt.
  • Anders ausgedrückt bedeutet dies, dass alle Zustände unter Verwendung der den jeweiligen Zustandsgruppen zugeordneten Trainingsdatenvektoren gemäß dem oben beschriebenen Verfahren trainiert werden.
  • Ist das Verfahren für alle J HMM-Zustände und dabei für alle N Trainingsdatenvektoren durchgeführt worden, so wird das Verfahren in einem Schritt 315 beendet.
  • Im Folgenden werden zu dem oben beschriebenen Trainingsverfahren eines HMMs zwei bevorzugte Modifikationen beschrieben.
  • Gemäß einer alternativen Ausführungsform der Erfindung ist es vorgesehen, jene Mittelwertvektoren, die innerhalb einer Iteration nicht oft genug als nächstliegender Mittelwertvektor (als Winner) ermittelt worden sind, gesondert zu behandeln. Es wird ein Schwellenwertkoeffizient cgiveup eingeführt, der gemeinsam mit der Gesamtanzahl N der Trainingsdatenvektoren der jeweiligen Zustandsgruppe jene Schwelle definiert, unter der ein Mittelwertvektor als zu selten getroffen betrachtet wird.
  • Der Schwellenwert Ngiveup ergibt sich somit gemäß folgender Vorschrift: Ngiveup = cgiveup·N, (27) mitcgiveup ≈ 0 ... 0,05. (28)
  • War ein Mittelwertvektor nach einer Iteration nicht öfter als Ngiveup Mal der Winner, so wird er durch jenen Mittelwertvektor ersetzt, der in derselben Iteration am öftesten als nächstliegender Mittelwertvektor ermittelt worden ist. Gemäß der Vorschrift cgiveup = 0 wird ein Mittelwertvektor erst verworfen, wenn er innerhalb einer Iteration niemals getroffen wurde.
  • Diese Vorgehensweise hat insbesondere den Vorteil einer besseren Modellierung einer Feinstruktur in den Trainingsdatenvektoren.
  • Gemäß einer anderen Ausführungsform der Erfindung erfolgt eine unterschiedliche Anpassung der Adaptionskonstanten a an die Gesamtzahl Nj der Trainingsdatenvektoren pro Zustand j. Entsprechend folgender Vorschrift ist die Adaptionskonstante a umso kleiner gewählt, je mehr Trainingsdatenvektoren vorhanden sind:
    Figure 00300001
    wobei mit P die Anzahl der Durchläufe der Iterationen über alle Nj Trainingsdatenvektoren bezeichnet wird.
  • Auf diese Weise wird erreicht, dass bei verschiedenen Zuständen mit stark unterschiedlicher Anzahl vorhandener Trainingsdatenvektoren in der jeweiligen Zustandsgruppe das Adaptionsverhalten des Cluster-Verfahrens gleich ist.
  • Die Variable
    Figure 00310001
    wird in der Weise gewählt, dass die Adaptionskonstante a bei der ersten Iteration das 100-fache bis 10000-fache ihres Wertes bei der letzten Iteration beträgt, d.h. es gilt folgende Vorschrift:
    Figure 00310002
  • Damit berechnet sich
    Figure 00310003
    zu:
    Figure 00310004
  • Durch die erfindungsgemäße Vorgehensweise wird die erforderliche Rechenzeit zum Trainieren eines Hidden Markov Modells gegenüber dem Baum-Welch-Verfahren erheblich reduziert.
  • Bei einem Personal Computer mit einer Taktfrequenz von 1 GHz bedeutet dies ein Aufwand weniger Stunden zum Trainieren eines Hidden Markov Modells gemäß der Erfindung gegenüber einer Rechenzeit zum Trainieren des Hidden Markov Modells gemäß dem Baum-Welch-Verfahren von einigen Wochen.
  • Ferner treten erfindungsgemäß keine Zahlenwertprobleme mehr auf, da die Mittelwertvektoren dieselben Größenordnungen annehmen wie die Trainingsdatenvektoren.
  • Auf die oben beschriebene Weise wurden die Basiseinträge des elektronischen Wörterbuches, das heißt die Basiseinträge zur sprecherunabhängigen Spracherkennung erstellt und gespeichert und die entsprechenden Hidden Markov Modelle trainiert.
  • Somit existiert für jeden Basiseintrag jeweils ein Hidden Markov Modell.
  • Unter Verwendung der Hidden Markov Modelle wird in dem Spracherkennungssystem in dem Spracherkennungsmodus eine Ansicht bekannter Spracherkennung durchgeführt.
  • 4 zeigt ein Mobilfunk-Telefongerät 400, in dem die in 1 dargestellte Spracherkennungseinrichtung 100 integriert ist. Ferner kann in das Mobilfunk-Telefongerät 400 ein PDA (Personal Digital Assistant) integriert sein sowie weitere Telekommunikations-Funktionen, wie beispielsweise das Senden und/oder Empfangen von Faxmitteilungen oder von SMS-Mitteilungen (Short Message Service-Mitteilungen) oder von MMS-Mitteilungen (Multimedia Message Service-Mitteilungen). Ferner kann das Mobilfunk-Telefongerät 400 um zusätzliche Multimediafunktionalitäten erweitert sein, beispielsweise kann eine Kamera in das Mobilfunk-Telefongerät 400 integriert sein.
  • 5 zeigt ein Autoradio 500, in dem (symbolisch in 5 dargestellt) eine Vielzahl unterschiedlicher Komponenten integriert sind, so beispielsweise ein Navigationssystem 501, ein CD-Spieler 502, ein Kassettenrekorder 503, ein Radio 504, ein Telefongerät mit Freisprechanlage 505 sowie die Spracherkennungseinrichtung 100, wie sie in 1 dargestellt ist. Die Information kann sowohl mittels der Spracherkennungseinrichtung 100 als auch über einen Bildschirm 506 zwischen dem Benutzer und dem Autoradio 500 ausgetauscht werden.
  • Gerade zur Steuerung eines eine Vielzahl von unterschiedlichen Funktionalitäten bereitstellenden Systems, wie eines mit einer Vielzahl unterschiedlicher Funktionen versehenen Autoradios 500 eignet sich die Erfindung sehr gut, da sehr flexibel und sprecherunabhängig eine beliebig komplizierte Sprachdialog-Struktur aufgebaut und realisiert werden kann.
  • In diesem Dokument sind folgende Veröffentlichungen zitiert:
    • [1] John Nerbonne and Wilbert Heeringa, Measuring Dialect Distance Phonetically, in: John Coleman (ed.) Workshop on Computational Phonology, Special Interest Group of the Association for Computational Linguistics, Madrid, 1997, S. 11 – 18
    • [2] J. Nerbonne et al, Phonetic Distance between Dutch Dialects, Proceedings of CLIN '95, S. 185 – 202, Antwerpen, 1995
    • [3] D. Hirschfeld, Comparing static and dynamic features for segmental cost function calculation in concatenative speech synthesis, ICSLP, Peking, 2000
  • 100
    Spracherkennungseinrichtung
    101
    Sprachsignal
    102
    Mikrofon
    103
    Aufgenommenes analoges Sprachsignal
    104
    Vorverarbeitung
    105
    Vorverarbeitetes Sprachsignal
    106
    Analog-/Digital-Wandler
    107
    Digitales Sprachsignal
    108
    Rechner
    109
    Eingangsschnittstelle
    110
    Mikroprozessor
    111
    Speicher
    112
    Ausgangsschnittstelle
    113
    Computerbus
    114
    DSP
    115
    Tastatur
    116
    Computermaus
    117
    Kabel
    118
    Kabel
    119
    Funkverbindung
    120
    Funkverbindung
    121
    Lautsprecher
    122
    Aktor
    123
    DSP
    1
    HMM-Zustand
    2
    HMM-Zustand
    3
    HMM-Zustand
    4
    HMM-Zustand
    5
    HMM-Zustand
    αij
    Zustandsübergangs-Wahrscheinlichkeiten
    300
    Ablaufdiagramm
    301
    Start
    302
    Erfassen Trainingsdatenvektoren
    303
    Gruppieren Trainingsdatenvektoren in Zustandsgruppen
    304
    Initialisieren Mittelwertvektoren der HMM-Zustände
    305
    Zustandsindex j = 1
    306
    Trainingsdatenvektorindex n = 1
    307
    Ermitteln des dem Trainingsdatenvektor n nächstliegenden
    Mittelwertvektors
    308
    Anpassen des nächstliegenden Mittelwertvektors an
    Trainingsdatenvektor
    309
    n = N ?
    310
    n = n + 1
    311
    Abbruchkriterium erfüllt?
    312
    ap+1 = ap·adiff
    313
    j = J ?
    314
    j = j + 1
    315
    Ende
    400
    Mobilfunk-Telefongerät
    500
    Autoradio
    501
    Navigationssystem
    502
    CD-Abspielgerät
    503
    Kassettenrekorder
    504
    Radio
    505
    Telefongerät mit Freisprechanlage
    506
    Bildschirm

Claims (12)

  1. Verfahren zum rechnergestützten Trainieren eines Hidden Markov Modells, – bei dem Zustandsparameter gebildet werden, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – bei dem unter Verwendung von Trainingsdatenvektoren ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt wird, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
  2. Verfahren gemäß Anspruch 1, – bei dem die Trainingsdatenvektoren zu Beginn des Verfahrens in unterschiedliche Zustandsgruppen gruppiert werden, wobei eine Zustandsgruppe jeweils einem Zustand des Hidden Markov Modells zugeordnet ist, und – bei dem die Zustandsparameter eines jeweiligen Zustands mit Trainingsdatenvektoren der zugehörigen Zustandsgruppe trainiert werden.
  3. Verfahren gemäß Anspruch 1 oder 2, bei dem als Zustandsparameter die Mittelwertvektoren von den jeweiligen Zustand des Hidden Markov Modells beschreibenden Wahrscheinlichkeitsdichtefunktionen verwendet werden.
  4. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem ein k-Nächster-Nachbar-Clustering-Verfahren mit k = 1 ausgeführt wird.
  5. Verfahren gemäß einem der Ansprüche 1 bis 4, – bei dem geprüft wird, ob ein Zustandsparameter ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, und – bei dem für den Fall, dass ein Zustandsparameter nicht ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist, dieser ersetzt wird durch einen neuen Zustandsparameter, der ausreichend häufig im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens angepasst worden ist.
  6. Verfahren gemäß Anspruch 5, bei dem ein Zustandsparameter durch den Zustandsparameter als neuen Zustandsparameter ersetzt wird, der im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens am häufigsten angepasst worden ist.
  7. Verfahren gemäß einem der Ansprüche 1 bis 6, bei dem ein Zustandsparameter im Rahmen des k-Nächster-Nachbar-Clustering-Verfahrens in einem um so geringeren Maß angepasst wird, je mehr Trainingsdatenvektoren verfügbar sind.
  8. Verfahren gemäß einem der Ansprüche 1 bis 7, eingesetzt in einem der folgenden Bereiche: – Signalverarbeitung, – Mustererkennung, – Sprachverarbeitung, insbesondere der sprecherabhängigen Sprachererkennung oder der Sprechererkennung, – Bildverarbeitung, – Schriftzeichenerkennung, – Prognose des Verhalten eines technischen Systems, welches mittels des Hidden Markov Modells beschrieben wird, – Beschreibung eines ökologischen Prozesses, – Beschreibung eines ökonomischen Prozesses, – in einer Umgebungssteuerung, beispielsweise im Rahmen von Home Automation, – in einer Gerätesteuerung, insbesondere zur Steuerung eines Telekommunikationsgeräts.
  9. Vorrichtung zum Trainieren eines Hidden Markov Modells, mit einer Prozessoreinheit, die derart eingerichtet ist, dass folgende Verfahrensschritte durchgeführt werden oder durchführbar sind: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
  10. Vorrichtung gemäß Anspruch 9, eingerichtet als Embedded System.
  11. Computerprogramm-Element, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Trainieren eines Hidden Markov Modells: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
  12. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, folgende Schritte durchzuführen zum Trainieren eines Hidden Markov Modells: – es werden Zustandsparameter gebildet, mit denen Zustände des Hidden Markov Modells beschrieben werden, und – unter Verwendung von Trainingsdatenvektoren wird ein k-Nächster-Nachbar-Clustering-Verfahren auf die Zustandsparameter des Hidden Markov Modells ausgeführt, wobei die Zustandsparameter gemäß den Trainingsdatenvektoren angepasst werden, womit ein trainiertes Hidden Markov Modell gebildet wird.
DE2003102101 2003-01-21 2003-01-21 Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium Ceased DE10302101A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2003102101 DE10302101A1 (de) 2003-01-21 2003-01-21 Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003102101 DE10302101A1 (de) 2003-01-21 2003-01-21 Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium

Publications (1)

Publication Number Publication Date
DE10302101A1 true DE10302101A1 (de) 2004-08-05

Family

ID=32667696

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003102101 Ceased DE10302101A1 (de) 2003-01-21 2003-01-21 Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium

Country Status (1)

Country Link
DE (1) DE10302101A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9420109B2 (en) 2012-03-23 2016-08-16 Dolby Laboratories Licensing Corporation Clustering of audio streams in a 2D / 3D conference scene
CN112613191A (zh) * 2020-12-31 2021-04-06 广东电网有限责任公司广州供电局 电缆健康状态评估方法、装置、计算机设备和存储介质
CN114218998A (zh) * 2021-11-02 2022-03-22 国家电网有限公司信息通信分公司 一种基于隐马尔可夫模型的电力系统异常行为分析方法
CN116805062A (zh) * 2023-08-22 2023-09-26 长沙隼眼软件科技有限公司 目标分类方法、装置及存储介质
CN117951491A (zh) * 2024-02-05 2024-04-30 苏州光格科技股份有限公司 一种数据增强方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Industrial Co Ltd Low complexity, high accuracy clustering method for speech recognizer
DE69519297T2 (de) * 1994-07-18 2001-05-17 Sri International, Menlo Park Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69519297T2 (de) * 1994-07-18 2001-05-17 Sri International, Menlo Park Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Industrial Co Ltd Low complexity, high accuracy clustering method for speech recognizer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIRSCHFELD, D.: Comparing static and dynamic features for segmental cost function calculation in concatenataive speech synthesis, ICSLP, Peking 2000 *
NERBONNE, J. et al.: Phonetic Distance between Dutch Dialects, Proceedings of CLIN '95, Antwerpen 1995, S. 185-202 *
NERBONNE, John and HEERINGA, Wilbert: Measuring Dialect Distance Phonetically. in: John Coleman (ed.) Workshop on Computational Phonology, Special Interest Group of the Association for Computational Linguistics, Madrid 1997, S. 11-18 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9420109B2 (en) 2012-03-23 2016-08-16 Dolby Laboratories Licensing Corporation Clustering of audio streams in a 2D / 3D conference scene
CN112613191A (zh) * 2020-12-31 2021-04-06 广东电网有限责任公司广州供电局 电缆健康状态评估方法、装置、计算机设备和存储介质
CN114218998A (zh) * 2021-11-02 2022-03-22 国家电网有限公司信息通信分公司 一种基于隐马尔可夫模型的电力系统异常行为分析方法
CN116805062A (zh) * 2023-08-22 2023-09-26 长沙隼眼软件科技有限公司 目标分类方法、装置及存储介质
CN117951491A (zh) * 2024-02-05 2024-04-30 苏州光格科技股份有限公司 一种数据增强方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69705830T2 (de) Sprachverarbeitung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1435087B1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
DE10302101A1 (de) Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection