[go: up one dir, main page]

DE10122212C1 - Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner - Google Patents

Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner

Info

Publication number
DE10122212C1
DE10122212C1 DE2001122212 DE10122212A DE10122212C1 DE 10122212 C1 DE10122212 C1 DE 10122212C1 DE 2001122212 DE2001122212 DE 2001122212 DE 10122212 A DE10122212 A DE 10122212A DE 10122212 C1 DE10122212 C1 DE 10122212C1
Authority
DE
Germany
Prior art keywords
training
pattern
patterns
training patterns
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2001122212
Other languages
English (en)
Inventor
Walter Sterz
Wolfgang Tschirk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BenQ Corp
Original Assignee
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corp filed Critical Siemens Corp
Priority to DE2001122212 priority Critical patent/DE10122212C1/de
Application granted granted Critical
Publication of DE10122212C1 publication Critical patent/DE10122212C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Trainieren eines Modells für die Spracherkennung, insbesondere eines Hidden-Markov-Modells, bei dem a) ein Verschiebungswert zwischen mindestens zwei zusammengehörenden Trainingsmustern (11, 13) durch Korrelieren derart bestimmt wird, daß die Korrelation zwischen den Trainingsmustern maximal wird, und b) die Trainingsmuster (11, 13) mittels des Verschiebungswertes derart zueinander verschoben werden, daß einander entsprechende Bereiche der Trainingsmuster bezüglich eines gemeinsamen Bezugspunktes etwa die gleiche Lage aufweisen.

Description

Die Erfindung betrifft ein Verfahren zum Trainieren eines Mo­ dells für die Mustererkennung gemäß Anspruch 1 und einen Mustererkenner gemäß Anspruch 10.
Mustererkenner werden auf vielen Gebieten eingesetzt: Sprach­ erkennung, Bildverarbeitung, ökologische und ökonomische Pro­ zesse. Insbesondere für die Spracherkennung auf den Gebieten der Telekommunikation, in Umgebungssteuerungen (beispielswei­ se der Home-Automation) und Gerätesteuerungen kommen Muster­ erkenner auf der Basis des Hidden-Markov-Modells oder von neuronalen Netzen zum Einsatz.
Bei der automatischen Mustererkennung werden aus einem ein Muster repräsentierenden Signal Merkmalsvektoren extrahiert. Beispielsweise werden hierzu Abschnitte eines Sprachsignals jeweils mittels Fouriertransformation vom Zeit- in den Fre­ quenzbereich transformiert, so daß die Merkmalsvektoren die spektralen Anteile der einzelnen Abschnitte repräsentieren. Für ein ein Muster repräsentierendes Signal erhält man so ei­ ne Abfolge von Merkmalsvektoren, die spektrale Anteile, Ener­ gieanteile, etc. des Signals repräsentieren. Die Vektoren ge­ hören zu einem hochdimensionalen Merkmalsraum.
Bei einem Sprachsignal sind in einem Merkmalsraum einzelnen Phonemen bzw. Lauten bestimmte Raum-Bereiche zugeordnet. An­ hand der zeitlichen Abfolge von Merkmalsvektoren eines Sprachsignals in dem hochdimensionalen Merkmalsraum und der Lage einzelner Merkmalsvektoren in Bezug auf die den einzel­ nen Phonemen zugeordneten Raum-Bereiche ist es möglich, einen zu dem Sprachsignal passenden Text zu ermitteln oder aufgrund des erkannten Sprachsignals Steuervorgänge auszuführen.
Aus der DE 197 08 183 A1 ist ein Verfahren zur Spracherken­ nung mit Sprachmodellanpassung an die Besonderheiten eines speziellen Textes bekannt. Hierbei werden aus einem Sprach­ signal Testwerte abgeleitet und mit ein vorgegebenes Vokabu­ lar bestimmenden Referenzwerten verglichen. Hieraus werden Bewertungswerte abgeleitet, die an Wortgrenzen mit Sprachmo­ dellwerten verknüpft werden, welche von der Wahrscheinlich­ keit abhängen, dass ein bestimmtes Wort des Vokabulars in Ab­ hängigkeit von wenigstens einem vorhergehenden Wort auftritt. Im Rahmen dieses Verfahrens werden sogenannte Unigramm- und M-Gramm-Basissprachmodellwerte sequentiell eingesetzt.
Die Zuordnung einer Folge von Merkmalsvektoren zu einem be­ stimmten Muster kann mittels eines Hidden-Markov-Modells (HMM) oder eines neuronalen Netzes erfolgen.
Markov-Modelle sind aus der statistischen Signaltheorie be­ kannt und beschreiben mit einer besonders übersichtlichen Struktur statistische Prozesse dadurch, daß anhand eines Zu­ standsübergangsgraphen die Übergangswahrscheinlichkeiten zwi­ schen verschiedenen Zuständen eines Systems dargestellt wer­ den. Im Bereich der automatischen Mustererkennung hat sich das Hidden-Markov-Modell zur Zuordnung von Merkmalsvektorfol­ gen im hochdimensionalen Merkmalsraum zu einem bestimmten Muster bewährt, das mit höchster Wahrscheinlichkeit dem in einem Signal enthaltenen Muster entspricht.
Bei einem Spracherkenner bildet das Hidden-Markov-Modell für jedes Phonem oder Einzelwort einen Zustandsgraphen mit einer den Phonemsegmenten entsprechenden Anzahl von Zuständen. Übergangswahrscheinlichkeiten zwischen den verschiedenen Zu­ ständen ermöglichen die Modellierung von Phonemsegmentfolgen mit unterschiedlichen Wahrscheinlichkeiten. Ausgehend von ei­ nem vorliegenden, ein Muster repräsentierenden Signal erhält man durch Signalvorverarbeitung jedoch nur den Weg durch den hochdimensionalen Merkmalsraum, nicht aber die Folge von Raum-Bereichen (entsprechend einer Folge von Phonemen bei ei­ nem Sprachsignal).
Vor dem Einsatz eines Hidden-Markov-Modells zur Mustererken­ nung ist ein Trainieren erforderlich, um überhaupt die Raum- Bereiche in dem hochdimensionalen Merkmalsraum zu erzeugen. Trainiert wird beispielsweise bei einem Spracherkenner durch das Sprechen von Trainingsmustern, die bereits bekannt sind. Durch das Trainieren werden Übergangswahrscheinlichkeiten im Hidden-Markov-Modell eingestellt sowie die Verteilung der Trainingsmuster in einem Segment modelliert, um eine mög­ lichst exakte Erkennung zu erzielen. Als Trainingsmuster wer­ den entweder einzelne Worte oder gesprochene Sätze verwendet.
Aus der US 5,473,728 ist ein Verfahren zum Trainieren eines sogenannten homoscedastischen Hidden-Markov-Modells zur auto­ matischen Spracherkennung bekannt, welches die Schritte der Bereitstellung einer akustischen Spracheinheiten enthaltenden Datenbasis, der Erzeugung des besagten Hidden-Markov-Modells aus den akustischen Spracheinheiten und das Laden dieses Mo­ dells in den Spracherkenner umfasst. In einer vorteilhaften Ausprägung dieses Verfahrens werden mehrere iterative Trai­ ningsschritte ausgeführt, wobei jeweils eine Vorwärts-Zu­ standswahrscheinlichkeit für einen Markov-Kettenzustand, eine Rückwärts-Zustandswahrscheinlichkeit für den Markov-Ketten­ zustand und eine Komponenten-Zustandswahrscheinlichkeit für den Markov-Kettenzustand sowie eine Misch-Gauss-PDF-Kompo­ nente rekursiv für einen gegebenen Messungsvektor, eine Trai­ ningssequenz und eine Spracheinheit berechnet werden. Im Ab­ schnitt "Background of the Invention" dieser Druckschrift wird auf eine Reihe von Veröffentlichungen zur Handhabung von Hidden-Markov-Modellen, speziell unter dem Gesichtspunkt ih­ res Einsatzes bei der Spracherkennung, hingewiesen.
Besonders wichtig für die Erstellung und das Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden- Markov-Modells, ist die Segmentierung der verwendeten Trainingsmuster. Darunter versteht man die Unterteilung in be­ stimmte Abschnitte, in denen die Signalparameter annähernd konstant bleiben, beispielsweise bei einem Sprachsignal als Trainingsmuster die Unterteilung in Abschnitte mit gleichem Lautinhalt.
Allerdings sind nicht immer in allen Trainingsmustern alle Ausprägungen eines Signals vorhanden. Beispielsweise können Laute am Anfang oder Ende eines Wortes fehlen. Dies ist ins­ besondere dann kritisch, wenn zusammengehörende Trainingsmus­ ter, beispielsweise ein bestimmtes Wort, während des Trai­ nings mehrfach auftauchen. Geht man von den Mustergrenzen ei­ nes Trainingsmusters aus und wird innerhalb dieser Grenzen segmentiert, kann es vorkommen, daß Segmente, denen der glei­ che Index aufgrund eines zusammengehörenden Trainingsmusters zugeordnet ist, Bereiche unterschiedlichen Lautinhalts reprä­ sentieren.
In Fig. 3 ist im oberen Diagramm 10 der zeitliche Verlauf ei­ nes ersten, das Wort "Sieben" (ausgesprochen als "Sieben") repräsentierenden Sprachsignals 11 dargestellt. Im unteren Diagramm 12 ist der zeitliche Verlauf eines zweiten, eben­ falls das Wort "Sieben" (ausgesprochen allerdings als "Siebn") repräsentierenden Sprachsignals 13 abgebildet. Die hell dargestellten Bereiche 14 und 16 entsprechen den akus­ tisch ermittelten und vom Sprachsignal überdeckten Bereichen, welche die Wortgrenzen vorgeben. Die Bereiche unterscheiden sich erkennbar für beide Sprachsignale. Dadurch führt hier eine an den Wort- bzw. Mustergrenzen ausgerichtete Segmentie­ rung und anschließende Indizierung dazu, daß in beiden Trainingsmustern Segmente mit gleichem Index einen unterschiedli­ chen Lautinhalt aufweisen.
Bei der Segmentierung wird bisher von einer Initialsegmentie­ rung ausgegangen, die im einfachsten Fall als äquidistant an­ gesetzt wird. Konkret bedeutet dies, daß ein Trainingsmuster zur Segmentierung in äquidistante Abschnitte eingeteilt wird. Die einzelnen Grenzen von Segmenten können jedoch mittels Vi­ terbi-Segmentierung entsprechend dem Verlauf eines Trainings­ musters im Hidden-Markov-Modell bei einer Erkennungsphase verschoben werden.
Ferner sind zum Trainieren sogenannte "geschnittene", d. h. zeitlich begrenzte Trainingsmuster erforderlich. In einem dem Training vorhergehenden Schritt werden daher für jedes ein­ zelne Trainingsmuster sogenannte Mustergrenzen bestimmt (sie­ he die Bereiche 14 und 15 in Fig. 3). Dies bedeutet, daß das Trainingsmuster zeitlich begrenzt oder anders ausgedrückt isoliert sein muß, wenn die Ermittlung der Mustergrenzen auto­ matisiert werden soll. Liegt jedoch als Trainingsmuster ein kontinuierliches Signal vor, ist eine Automatisierung der Er­ mittlung der Mustergrenzen so gut wie nicht möglich.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zum Trainieren eines Modells für die Musterer­ kennung, insbesondere eines Hidden-Markov-Modells, und einen Mustererkenner vorzuschlagen, die eine im Vergleich zu einer "starren" Initialsegmentierung verbesserte Segmentierung er­ möglichen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen von Anspruch 1 und durch einen Mustererkenner mit den Merkmalen von Anspruch 10 gelöst. Bevorzugte Ausgestaltungen des Ver­ fahrens und des Mustererkenners ergeben sich aus den jeweili­ gen abhängigen Ansprüchen.
Die Erfindung schließt den grundlegenden Gedanken ein, ein Trainieren eines Modells für die Mustererkennung mittels meh­ rerer gleichartiger Trainingsmuster, insbesondere eines Hid­ den-Markov-Modells, vorerst ohne explizite Bestimmung von Mustergrenzen zu ermöglichen, indem ein Verschiebungswert zwischen mindestens zwei zusammengehörenden Trainingsmustern durch Korrelieren der Trainingsmuster bestimmt wird. Der Ver­ schiebungswert gibt an, wie ein Trainingsmuster in Bezug auf ein anderes Trainingsmuster verschoben werden muß, damit Be­ reiche mit gleichem Inhalt in den Trainingsmustern an glei­ cher Stelle liegen. Hierdurch ist keine explizite Bestimmung von Mustergrenzen erforderlich.
Verfahrensgemäß wird a) ein Verschiebungswert zwischen min­ destens zwei zusammengehörenden Trainingsmustern durch Korre­ lieren derart bestimmt, daß die Korrelation zwischen den Trainingsmustern maximal wird. Dann werden b) die Trainings­ muster mittels des Verschiebungswertes derart zueinander ver­ schoben, daß einander entsprechende Bereiche der Trainings­ muster bezüglich eines gemeinsamen Bezugspunktes etwa die gleiche Lage aufweisen. Einzelne Grenzen für die Trainings­ muster sind hierzu nicht notwendig.
Vorzugsweise kann das Korrelieren iterativ über mehrere Durchläufe für die Trainingsmuster durchgeführt werden, wo­ durch der Verschiebungswert besonders exakt ermittelt wird. Dies ist für eine besonders hohe Erkennungsrate wichtig, da hierdurch mit hoher Wahrscheinlichkeit Segmenten im Trai­ ningsmuster, die den gleichen Inhalt aufweisen, auch derselbe Index zugeordnet wird. In einer konkreten Ausführungsform werden die zueinander verschobenen Matrizen von zwei Trai­ ningsmustern addiert und bilden somit eine Mittelwertmatrix. Die Verschiebung aller weiteren Trainingsmuster wird durch Korrelation mit dieser Mittelwertmatrix bestimmt, wobei die neuerlich korrelierten Trainingsmuster wiederum verschoben zur Mittelwertmatrix dazu addiert werden. Dieser Vorgang kann iterativ mehrmals über alle Trainingsmuster erfolgen.
Vorzugsweise werden in einem Trainingsmuster Bereiche, die im Vergleich mit anderen zusammengehörenden Trainingsmustern fehlen, durch vorgegebene Füllbereiche ergänzt. Diese vorge­ gebenen Füllbereiche können beispielsweise bei einem Sprach­ signal lautfreie Bereiche (silence) sein. Insbesondere wird dies bei Trainingsmustern vorgenommen, bei denen beispiels­ weise Laute am Anfang oder am Ende eines Wortes fehlen.
In einer bevorzugten Ausgestaltung des Verfahrens werden an­ hand der in Schritt b) vorgenommenen Verschiebung Mustergren­ zen bestimmt, die für alle zusammengehörenden Trainingsmuster gelten. Erfolgt danach eine Segmentierung, die sich auf diese Mustergrenzen bezieht, werden verschiedene, aber zusammenge­ hörende Trainingsmuster derart segmentiert, daß Bereiche mit gleichem Inhalt in den verschiedenen Trainingsmustern in den gleichen Segmenten liegen.
Ein zwischen den Mustergrenzen liegender Bereich der Trai­ ningsmuster kann mittels eines Zentroidenverfahrens segmen­ tiert werden. Gemäß dem Zentroidenverfahren können innerhalb vorgegebener Beschränkungen alle möglichen Segmentierungen berechnet werden. Aus den berechneten Segmentierungen wird dann eine Segmentierung nach einem Distanzkriterium zum Zentroiden jedes Segments ausgewählt.
Das Auswahlkriterium kann derart ausgebildet sein, daß die Segmentierung ausgewählt wird, bei der die Summe der Quadrate der Distanzen von Merkmalsvektoren zu dem zugeordneten Zentroiden in jedem Segment über das gesamte Trainingsmuster minimal wird. Hierdurch erhält man eine optimale Segmentie­ rung.
Schließlich kann die Segmentierung entweder direkt zum Erstellen eines Modells zur Mustererkennung, insbesondere ei­ nes Hidden-Markov-Modells, oder als Initialsegmentierung er­ folgen. Anhand der Initialsegmentierung kann die Verschiebung von Segmentgrenzen einzelner Trainingsmuster, insbesondere mittels Viterbi-Segmentierung, vorgenommen werden.
Vorzugsweise wird das Verfahren bei der Spracherkennung ein­ gesetzt.
Ein Mustererkenner zur Durchführung des erfindungsgemäßen Verfahrens weist
  • - Vorverarbeitungsmittel zum Vorverarbeiten eines ein Trai­ ningsmuster repräsentierendes Signal,
  • - Berechnungsmittel zum Erstellen von Matrizen mit Merkmals­ vektoren für das Trainingsmuster,
  • - Korrelationsmittel zum Korrelieren von Matrizen, die zusam­ mengehörende Trainingsmuster repräsentieren,
  • - Auswertemittel zum Ermitteln eines Verschiebungswertes, und
  • - Sortiermittel zum Umsortieren von Matrizen abhängig von dem ermittelten Verschiebungswert auf.
Ferner können Additionsmittel vorgesehen sein, welche die Matrizen nach einem Umsortieren addieren.
Weitere Vorteile und Anwendungsmöglichkeiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung eines Ausfüh­ rungsbeispiels des erfindungsgemäßen Verfahrens in Verbindung mit den Zeichnungen. In diesen zeigen
Fig. 1 die in Fig. 3 dargestellten Trainingsmuster nach einer Verschiebung entsprechend einem mit dem erfindungsgemäßen Verfahren ermittelten Verschiebungswert,
Fig. 2 eine Segmentierung mit neun Segmenten der in Fig. 1 dargestellten Trainingsmuster, und
Fig. 3 ein Beispiel von zwei zusammengehörenden Trainingsmus­ tern, die zueinander verschoben sind.
Zur Beschreibung von Fig. 3 wird auf die Beschreibungseinlei­ tung verwiesen.
Ein Trainingsmuster für einen Spracherkenner wird durch eine Matrix dargestellt, deren Spalten Merkmalsvektoren mit auf­ einanderfolgenden Zeitindizes entsprechen. Hierbei ist die Zeit in sogenannte Frames als kleinste Zeiteinheit unter­ teilt. Ein Frame kann beispielsweise eine bestimmte Anzahl von digitalisierten Abtastwerten eines analogen Signals sein, welches das Trainingsmuster repräsentiert. Jeder Zeitindex entspricht einem Vielfachen einer Framelänge.
Die Zeilen der Matrix stellen Merkmale dar, welche durch die Vorverarbeitung des Signals gewählt wurden. Als Beispiele seinen hier nur spektrale Inhalte, Energiewerte, etc. ge­ nannt.
Im folgenden wird mit i ein Frame-Index, mit j ein Segment- Index und mit k eine Merkmals-Komponente bezeichnet.
Durch Korrelieren zweier zusammengehörender Trainingsmuster, die beispielsweise ein bestimmtes Wort in einem Sprachsignal repräsentieren, wird ein Zeitverschiebungswert bestimmt. Der Zeitverschiebungswert gibt die zeitliche Verschiebung der Trainingsmuster, bezogen auf einen gemeinsamen Bezugspunkt der beiden Trainingsmuster, an. Er wird durch das Korrelieren derart berechnet, daß die Korrelation maximal wird. Sind mit f und g zwei Matrizen bezeichnet, die jeweils ein Trainings­ muster repräsentieren, die beide zusammengehören, und bedeu­ tet m die Anzahl der Merkmalsvektoren pro Äußerung, so ergibt sich der Zeitverschiebungswert nach der folgenden Gleichung:
mit
x = arg max {cf,g(x)}
Konkret gibt der Zeitverschiebungswert x hier an, um wieviele Frames ein Trainingsmuster bezüglich des anderen Trainings­ musters verschoben werden muß, so daß entsprechende Bereiche der beiden Muster "zeitlich zur Deckung kommen". Beginnt bei­ spielsweise eine Äußerung in einem ersten Trainingsmuster mit dem Merkmalsvektor 0 (= erste Spalte der entsprechenden Mat­ rix) und ergibt sich als Verschiebungswert eines zweiten Trainingsmusters bezüglich des ersten Trainingsmusters 10, so heißt das, daß die Äußerung im zweiten Trainingsmuster mit dem Merkmalsvektor 10 entsprechend der elften Spalte der Mat­ rix beginnt. Um Merkmalsvektoren, die zu einander entspre­ chenden Bereichen der Trainingsmuster gehören, zur "Deckung" zu bringen, können die Spalten der zweiten Matrix jeweils um zehn "Plätze" verschoben werden.
Die Korrelation kann iterativ über mehrere Durchläufe durch­ geführt werden, um einen exakten Zeitverschiebungswert zu er­ halten.
Vorerst muß der Bereich vor und hinter jedem Trainingsmuster nicht weggeschnitten werden. Mustergrenzen sind daher nicht notwendig.
In Fig. 1 sind die in Fig. 3 zeitlich verschobenen Trainings­ muster 11 und 13 in dem oberen und unterem Diagramm 10 bzw. 12 nach einer Zeitverschiebung des zweiten Trainingsmusters 13 gemäß dem vorgenannten Verfahren dargestellt. Die einander entsprechenden Bereiche der beiden Trainingsmuster 11 und 13 liegen nun zeitlich an gleichen Positionen. Die durch die hellen Bereiche dargestellten Bereiche 14 und 16 der beiden Trainingsmuster 11 und 13 sind mit ihren Wortgrenzen nun an­ einander angepaßt.
Um einen Mittelwert mehrerer Trainingsmuster zu erhalten, werden nach der zeitlichen Verschiebung die Trainingsmuster addiert, d. h. die beiden die Trainingsmuster repräsentierenden Matrizen f und g werden zu einer neuen Matrix h addiert. Ein drittes Trainingsmuster i, das ebenfalls zu den beiden Trainingsmustern gehört, kann anschließend mit dem oben er­ läuterten Verfahren zeitlich in Bezug auf die Matrix h ent­ sprechend dem kumulierten Trainingsmuster "korrigiert und wiederum zur Matrix h addiert werden. Das "Korrigieren" um­ faßt das Korrelieren der Matrizen h und i und Ermitteln des Zeitverschiebungswertes x sowie das Umordnen der Spalten der Matrix i mit dem Zeitverschiebungswert x. Insgesamt erhält man so einen Mittelwert (oder genauer gesagt eine Mittelwert- Matrix) von mehreren zusammengehörenden Trainingsmustern.
Mit dem Mittelwert über mehrere Trainingsmuster können nun gemeinsame Wortgrenzen bestimmt werden, die für alle zusam­ mengehörenden Trainingsmuster gelten. Dies ist bereits in Fig. 1 dargestellt: Die durch die hellen Bereiche 14 und 16 dargestellten Wortgrenzen sind aneinander angepaßt. Oder an­ ders ausgedrückt: Die Wortgrenzen werden durch das Korrelie­ ren von Trainingsmustern und anschließendes Verschieben oder Aneinander-Ausrichten der Trainingsmuster insgesamt aneinan­ der angepaßt. Die so ermittelten und allen Trainingsmustern gemeinsamen Wortgrenzen entsprechen den äußersten Wortgrenzen aller korrelierten und verschobenen Trainingsmuster. Hier­ durch führt eine anschließende Segmentierung der Trainings­ muster dazu, daß in gleichen Segmenten verschiedener Trai­ ningsmuster jeweils Bereiche mit gleichem Lautinhalt liegen.
In einzelnen Trainingsmustern fehlende Laute werden hierbei durch Bereiche ersetzt, die lautmäßig "Stille" entsprechen (sogenannte "Silence"-Bereiche).
Innerhalb der gemeinsamen Wortgrenzen kann nun eine Segmen­ tierung durchgeführt werden. Die Segmentierung basiert auf einem Zentroidenverfahren. Gemäß dem Zentroidenverfahren wer­ den innerhalb vorgegebener Beschränkungen alle möglichen Seg­ mentierungen berechnet und daraus die beste nach dem Distanz­ kriterium zum Zentroiden ausgewählt.
Es seien fi ein Merkmalsvektor der Mittelwertmatrix h mit Frame-Index i und uj, vj Frame-Indices der Segmentgrenzen. Der Zentroid zj ist dann der Mittelwertsvektor eines Segments j:
Die Segmentierung ist optimal, wenn die Distanzsumme der Merkmalsvektoren zu ihrem Zentroiden im Segment über das ge­ samte Trainingsmuster minimal wird.
Als Beschränkungen seien folgende Werte angenommen:
nmin minimale Anzahl Merkmalsvektoren pro Segment,
nmax maximale Anzahl Merkmalsvektoren pro Segment,
N Anzahl Segmente,
L Anzahl Merkmalsvektoren pro Muster (ist für alle Muster gleich.
Mit der folgenden Gleichung werden die Distanzsummen der Merkmalsvektoren zu ihrem Zentroiden über alle möglichen Seg­ mentierungen berechnet:
Die Segmentgrenzen (uj, vj) werden innerhalb der obigen Be­ schränkungen nach den folgenden Kriterien variiert:
Hierbei werden alle möglichen Kombinationen durchgerechnet, was zum globalen Optimum führt. Die so ermittelte Segmentierung kann direkt zum Erstellen eines Hidden-Markov-Modells herangezogen werden oder als Initialsegmentierung für die Verschiebung der Segmentgrenzen der einzelnen Trainingsmuster beispielsweise mittels Viterbi-Segmentierung während des Trainings dienen.
In Fig. 2 ist eine Segmentierung der Trainingsmuster aus Fig. 1 nach dem Zentroidenverfahren dargestellt. Die beiden Trai­ ningsmuster wurden, ausgehend von den Mustergrenzen, in neun Segmente eingeteilt. Jedes Segment weist Bereiche der beiden Trainingsmuster auf, die den gleichen Lautinhalt umfassen. Die Segmentgrenzen sind mittels gepunkteter Linien in dem oberen und unteren Diagramm 10 und 12 dargestellt. Das siebte Segment weist beispielsweise die Segmentgrenzen 17 und 18 auf. Erkennbar sind die einzelnen Segmente unterschiedlich breit, d. h. die Segmentierung ist nicht äquidistant. Dies er­ gibt sich aufgrund des Zentroidenverfahrens.
Im übrigen sei noch einmal angemerkt, daß das erfindungsgemä­ ße Verfahren und der Mustererkenner nicht auf das Trainieren von Hidden-Markov-Modellen beschränkt, sondern prinzipiell bei jedem Mustererkennungsverfahren vorteilhaft anwendbar sind, bei denen eine Segmentierung von Trainingsmustern er­ forderlich ist.
Zusammenfassend ergeben sich durch die Erfindung im wesentli­ chen zwei Vorteile:
  • 1. Es müssen nicht die Grenzen jedes einzelnen Trainingsmus­ ters bestimmt werden. Statt dessen werden nur die Grenzen der Trainingsmuster nach dem Korrelieren und Verschieben be­ stimmt; diese Grenzen können dann auf alle zusammengehörenden Trainingsmuster angewendet werden.
  • 2. Entsprechende Segmente verschiedener Trainingsmuster rep­ räsentieren entsprechende Signalbereiche.

Claims (12)

1. Verfahren zum Trainieren eines Modells für die Musterer­ kennung mittels mehrerer gleichartiger Trainingsmuster, ins­ besondere eines Hidden-Markov-Modells, bei dem
  • a) ein die Verschiebung zwischen mindestens zwei zusammenge­ hörenden Trainingsmustern (11, 13) darstellender Verschie­ bungswert durch Korrelieren der zwei Trainingsmuster (11, 13) derart bestimmt wird, daß die Korrelation maximal wird, und
  • b) die Trainingsmuster (11, 13) mittels des Verschiebungswer­ tes derart zueinander verschoben werden, daß einander ent­ sprechende Bereiche der Trainingsmuster bezüglich eines ge­ meinsamen Bezugspunktes etwa die gleiche Lage aufweisen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Korrelieren iterativ über mehrere Durchläufe für die Trainingsmuster (11, 13) durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß in einem Trainingsmuster (13) im Vergleich mit anderen zusam­ mengehörenden Trainingsmustern (11) fehlende Bereiche durch vorgegebene Füllbereiche ergänzt werden.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß anhand der in Schritt b) vorgenommenen Verschiebung Muster­ grenzen (14, 16) bestimmt werden, die für alle zusammengehö­ renden Trainingsmuster (11, 13) gelten.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß ein zwischen den Mustergrenzen (14, 16) liegender Bereich der Trainingsmuster mittels eines Zentroidenverfahrens segmen­ tiert wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß innerhalb vorgegebener Beschränkungen alle möglichen Segmen­ tierungen berechnet werden und eine Segmentierung daraus nach einem Distanzkriterium zum Zentroiden jedes Segments ausge­ wählt wird.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Segmentierung ausgewählt wird, bei der die Summe der Quadrate der Distanzen von Merkmalsvektoren zu dem zugeordne­ ten Zentroiden in jedem Segment über das gesamte Trainings­ muster minimal wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Segmentierung entweder direkt zum Erstellen eines Modells zur Mustererkennung, insbesondere eines Hidden-Markov- Modells, oder als Initialsegmentierung für die Verschiebung von Segmentgrenzen (17, 18) einzelner Trainingsmuster, insbe­ sondere mittels Viterbi-Segmentierung, dient.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Mustererkennung eine Spracherkennung ist.
10. Mustererkenner zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, mit
  • - Vorverarbeitungsmitteln zum Vorverarbeiten eines ein Trai­ ningsmuster repräsentierendes Signal,
  • - Berechnungsmitteln zum Erstellen von Matrizen mit Merkmals­ vektoren für das Trainingsmuster,
  • - Korrelationsmitteln zum Korrelieren von Matrizen, die zu­ sammengehörende Trainingsmuster repräsentieren,
  • - Auswertemitteln zum Ermitteln eines Verschiebungswertes, und
  • - Sortiermitteln zum Umsortieren von Matrizen abhängig von dem ermittelten Verschiebungswert.
11. Mustererkenner nach Anspruch 10, dadurch gekennzeichnet, daß Additionsmittel vorgesehen sind, welche die Matrizen nach ei­ nem Umsortieren addieren.
12. Mustererkenner nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß er ein Spracherkenner ist.
DE2001122212 2001-05-08 2001-05-08 Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner Expired - Fee Related DE10122212C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2001122212 DE10122212C1 (de) 2001-05-08 2001-05-08 Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2001122212 DE10122212C1 (de) 2001-05-08 2001-05-08 Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner

Publications (1)

Publication Number Publication Date
DE10122212C1 true DE10122212C1 (de) 2002-10-10

Family

ID=7683948

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001122212 Expired - Fee Related DE10122212C1 (de) 2001-05-08 2001-05-08 Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner

Country Status (1)

Country Link
DE (1) DE10122212C1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events

Similar Documents

Publication Publication Date Title
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
EP0862160A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE19639844A1 (de) Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur
DE68914032T2 (de) Spracherkennungssystem.
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: BENQ CORP., TAOYUAN, TW

8328 Change in the person/name/address of the agent

Representative=s name: HOEFER & PARTNER, 81545 MUENCHEN

8339 Ceased/non-payment of the annual fee