DE10122212C1 - Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner - Google Patents
Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und MustererkennerInfo
- Publication number
- DE10122212C1 DE10122212C1 DE2001122212 DE10122212A DE10122212C1 DE 10122212 C1 DE10122212 C1 DE 10122212C1 DE 2001122212 DE2001122212 DE 2001122212 DE 10122212 A DE10122212 A DE 10122212A DE 10122212 C1 DE10122212 C1 DE 10122212C1
- Authority
- DE
- Germany
- Prior art keywords
- training
- pattern
- patterns
- training patterns
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 title claims abstract description 122
- 238000006073 displacement reaction Methods 0.000 title claims abstract description 12
- 238000003909 pattern recognition Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Trainieren eines Modells für die Spracherkennung, insbesondere eines Hidden-Markov-Modells, bei dem a) ein Verschiebungswert zwischen mindestens zwei zusammengehörenden Trainingsmustern (11, 13) durch Korrelieren derart bestimmt wird, daß die Korrelation zwischen den Trainingsmustern maximal wird, und b) die Trainingsmuster (11, 13) mittels des Verschiebungswertes derart zueinander verschoben werden, daß einander entsprechende Bereiche der Trainingsmuster bezüglich eines gemeinsamen Bezugspunktes etwa die gleiche Lage aufweisen.
Description
Die Erfindung betrifft ein Verfahren zum Trainieren eines Mo
dells für die Mustererkennung gemäß Anspruch 1 und einen
Mustererkenner gemäß Anspruch 10.
Mustererkenner werden auf vielen Gebieten eingesetzt: Sprach
erkennung, Bildverarbeitung, ökologische und ökonomische Pro
zesse. Insbesondere für die Spracherkennung auf den Gebieten
der Telekommunikation, in Umgebungssteuerungen (beispielswei
se der Home-Automation) und Gerätesteuerungen kommen Muster
erkenner auf der Basis des Hidden-Markov-Modells oder von
neuronalen Netzen zum Einsatz.
Bei der automatischen Mustererkennung werden aus einem ein
Muster repräsentierenden Signal Merkmalsvektoren extrahiert.
Beispielsweise werden hierzu Abschnitte eines Sprachsignals
jeweils mittels Fouriertransformation vom Zeit- in den Fre
quenzbereich transformiert, so daß die Merkmalsvektoren die
spektralen Anteile der einzelnen Abschnitte repräsentieren.
Für ein ein Muster repräsentierendes Signal erhält man so ei
ne Abfolge von Merkmalsvektoren, die spektrale Anteile, Ener
gieanteile, etc. des Signals repräsentieren. Die Vektoren ge
hören zu einem hochdimensionalen Merkmalsraum.
Bei einem Sprachsignal sind in einem Merkmalsraum einzelnen
Phonemen bzw. Lauten bestimmte Raum-Bereiche zugeordnet. An
hand der zeitlichen Abfolge von Merkmalsvektoren eines
Sprachsignals in dem hochdimensionalen Merkmalsraum und der
Lage einzelner Merkmalsvektoren in Bezug auf die den einzel
nen Phonemen zugeordneten Raum-Bereiche ist es möglich, einen
zu dem Sprachsignal passenden Text zu ermitteln oder aufgrund
des erkannten Sprachsignals Steuervorgänge auszuführen.
Aus der DE 197 08 183 A1 ist ein Verfahren zur Spracherken
nung mit Sprachmodellanpassung an die Besonderheiten eines
speziellen Textes bekannt. Hierbei werden aus einem Sprach
signal Testwerte abgeleitet und mit ein vorgegebenes Vokabu
lar bestimmenden Referenzwerten verglichen. Hieraus werden
Bewertungswerte abgeleitet, die an Wortgrenzen mit Sprachmo
dellwerten verknüpft werden, welche von der Wahrscheinlich
keit abhängen, dass ein bestimmtes Wort des Vokabulars in Ab
hängigkeit von wenigstens einem vorhergehenden Wort auftritt.
Im Rahmen dieses Verfahrens werden sogenannte Unigramm- und
M-Gramm-Basissprachmodellwerte sequentiell eingesetzt.
Die Zuordnung einer Folge von Merkmalsvektoren zu einem be
stimmten Muster kann mittels eines Hidden-Markov-Modells
(HMM) oder eines neuronalen Netzes erfolgen.
Markov-Modelle sind aus der statistischen Signaltheorie be
kannt und beschreiben mit einer besonders übersichtlichen
Struktur statistische Prozesse dadurch, daß anhand eines Zu
standsübergangsgraphen die Übergangswahrscheinlichkeiten zwi
schen verschiedenen Zuständen eines Systems dargestellt wer
den. Im Bereich der automatischen Mustererkennung hat sich
das Hidden-Markov-Modell zur Zuordnung von Merkmalsvektorfol
gen im hochdimensionalen Merkmalsraum zu einem bestimmten
Muster bewährt, das mit höchster Wahrscheinlichkeit dem in
einem Signal enthaltenen Muster entspricht.
Bei einem Spracherkenner bildet das Hidden-Markov-Modell für
jedes Phonem oder Einzelwort einen Zustandsgraphen mit einer
den Phonemsegmenten entsprechenden Anzahl von Zuständen.
Übergangswahrscheinlichkeiten zwischen den verschiedenen Zu
ständen ermöglichen die Modellierung von Phonemsegmentfolgen
mit unterschiedlichen Wahrscheinlichkeiten. Ausgehend von ei
nem vorliegenden, ein Muster repräsentierenden Signal erhält
man durch Signalvorverarbeitung jedoch nur den Weg durch den
hochdimensionalen Merkmalsraum, nicht aber die Folge von
Raum-Bereichen (entsprechend einer Folge von Phonemen bei ei
nem Sprachsignal).
Vor dem Einsatz eines Hidden-Markov-Modells zur Mustererken
nung ist ein Trainieren erforderlich, um überhaupt die Raum-
Bereiche in dem hochdimensionalen Merkmalsraum zu erzeugen.
Trainiert wird beispielsweise bei einem Spracherkenner durch
das Sprechen von Trainingsmustern, die bereits bekannt sind.
Durch das Trainieren werden Übergangswahrscheinlichkeiten im
Hidden-Markov-Modell eingestellt sowie die Verteilung der
Trainingsmuster in einem Segment modelliert, um eine mög
lichst exakte Erkennung zu erzielen. Als Trainingsmuster wer
den entweder einzelne Worte oder gesprochene Sätze verwendet.
Aus der US 5,473,728 ist ein Verfahren zum Trainieren eines
sogenannten homoscedastischen Hidden-Markov-Modells zur auto
matischen Spracherkennung bekannt, welches die Schritte der
Bereitstellung einer akustischen Spracheinheiten enthaltenden
Datenbasis, der Erzeugung des besagten Hidden-Markov-Modells
aus den akustischen Spracheinheiten und das Laden dieses Mo
dells in den Spracherkenner umfasst. In einer vorteilhaften
Ausprägung dieses Verfahrens werden mehrere iterative Trai
ningsschritte ausgeführt, wobei jeweils eine Vorwärts-Zu
standswahrscheinlichkeit für einen Markov-Kettenzustand, eine
Rückwärts-Zustandswahrscheinlichkeit für den Markov-Ketten
zustand und eine Komponenten-Zustandswahrscheinlichkeit für
den Markov-Kettenzustand sowie eine Misch-Gauss-PDF-Kompo
nente rekursiv für einen gegebenen Messungsvektor, eine Trai
ningssequenz und eine Spracheinheit berechnet werden. Im Ab
schnitt "Background of the Invention" dieser Druckschrift
wird auf eine Reihe von Veröffentlichungen zur Handhabung von
Hidden-Markov-Modellen, speziell unter dem Gesichtspunkt ih
res Einsatzes bei der Spracherkennung, hingewiesen.
Besonders wichtig für die Erstellung und das Trainieren eines
Modells für die Mustererkennung, insbesondere eines Hidden-
Markov-Modells, ist die Segmentierung der verwendeten Trainingsmuster.
Darunter versteht man die Unterteilung in be
stimmte Abschnitte, in denen die Signalparameter annähernd
konstant bleiben, beispielsweise bei einem Sprachsignal als
Trainingsmuster die Unterteilung in Abschnitte mit gleichem
Lautinhalt.
Allerdings sind nicht immer in allen Trainingsmustern alle
Ausprägungen eines Signals vorhanden. Beispielsweise können
Laute am Anfang oder Ende eines Wortes fehlen. Dies ist ins
besondere dann kritisch, wenn zusammengehörende Trainingsmus
ter, beispielsweise ein bestimmtes Wort, während des Trai
nings mehrfach auftauchen. Geht man von den Mustergrenzen ei
nes Trainingsmusters aus und wird innerhalb dieser Grenzen
segmentiert, kann es vorkommen, daß Segmente, denen der glei
che Index aufgrund eines zusammengehörenden Trainingsmusters
zugeordnet ist, Bereiche unterschiedlichen Lautinhalts reprä
sentieren.
In Fig. 3 ist im oberen Diagramm 10 der zeitliche Verlauf ei
nes ersten, das Wort "Sieben" (ausgesprochen als "Sieben")
repräsentierenden Sprachsignals 11 dargestellt. Im unteren
Diagramm 12 ist der zeitliche Verlauf eines zweiten, eben
falls das Wort "Sieben" (ausgesprochen allerdings als
"Siebn") repräsentierenden Sprachsignals 13 abgebildet. Die
hell dargestellten Bereiche 14 und 16 entsprechen den akus
tisch ermittelten und vom Sprachsignal überdeckten Bereichen,
welche die Wortgrenzen vorgeben. Die Bereiche unterscheiden
sich erkennbar für beide Sprachsignale. Dadurch führt hier
eine an den Wort- bzw. Mustergrenzen ausgerichtete Segmentie
rung und anschließende Indizierung dazu, daß in beiden Trainingsmustern
Segmente mit gleichem Index einen unterschiedli
chen Lautinhalt aufweisen.
Bei der Segmentierung wird bisher von einer Initialsegmentie
rung ausgegangen, die im einfachsten Fall als äquidistant an
gesetzt wird. Konkret bedeutet dies, daß ein Trainingsmuster
zur Segmentierung in äquidistante Abschnitte eingeteilt wird.
Die einzelnen Grenzen von Segmenten können jedoch mittels Vi
terbi-Segmentierung entsprechend dem Verlauf eines Trainings
musters im Hidden-Markov-Modell bei einer Erkennungsphase
verschoben werden.
Ferner sind zum Trainieren sogenannte "geschnittene", d. h.
zeitlich begrenzte Trainingsmuster erforderlich. In einem dem
Training vorhergehenden Schritt werden daher für jedes ein
zelne Trainingsmuster sogenannte Mustergrenzen bestimmt (sie
he die Bereiche 14 und 15 in Fig. 3). Dies bedeutet, daß das
Trainingsmuster zeitlich begrenzt oder anders ausgedrückt
isoliert sein muß, wenn die Ermittlung der Mustergrenzen auto
matisiert werden soll. Liegt jedoch als Trainingsmuster ein
kontinuierliches Signal vor, ist eine Automatisierung der Er
mittlung der Mustergrenzen so gut wie nicht möglich.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde,
ein Verfahren zum Trainieren eines Modells für die Musterer
kennung, insbesondere eines Hidden-Markov-Modells, und einen
Mustererkenner vorzuschlagen, die eine im Vergleich zu einer
"starren" Initialsegmentierung verbesserte Segmentierung er
möglichen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen von
Anspruch 1 und durch einen Mustererkenner mit den Merkmalen
von Anspruch 10 gelöst. Bevorzugte Ausgestaltungen des Ver
fahrens und des Mustererkenners ergeben sich aus den jeweili
gen abhängigen Ansprüchen.
Die Erfindung schließt den grundlegenden Gedanken ein, ein
Trainieren eines Modells für die Mustererkennung mittels meh
rerer gleichartiger Trainingsmuster, insbesondere eines Hid
den-Markov-Modells, vorerst ohne explizite Bestimmung von
Mustergrenzen zu ermöglichen, indem ein Verschiebungswert
zwischen mindestens zwei zusammengehörenden Trainingsmustern
durch Korrelieren der Trainingsmuster bestimmt wird. Der Ver
schiebungswert gibt an, wie ein Trainingsmuster in Bezug auf
ein anderes Trainingsmuster verschoben werden muß, damit Be
reiche mit gleichem Inhalt in den Trainingsmustern an glei
cher Stelle liegen. Hierdurch ist keine explizite Bestimmung
von Mustergrenzen erforderlich.
Verfahrensgemäß wird a) ein Verschiebungswert zwischen min
destens zwei zusammengehörenden Trainingsmustern durch Korre
lieren derart bestimmt, daß die Korrelation zwischen den
Trainingsmustern maximal wird. Dann werden b) die Trainings
muster mittels des Verschiebungswertes derart zueinander ver
schoben, daß einander entsprechende Bereiche der Trainings
muster bezüglich eines gemeinsamen Bezugspunktes etwa die
gleiche Lage aufweisen. Einzelne Grenzen für die Trainings
muster sind hierzu nicht notwendig.
Vorzugsweise kann das Korrelieren iterativ über mehrere
Durchläufe für die Trainingsmuster durchgeführt werden, wo
durch der Verschiebungswert besonders exakt ermittelt wird.
Dies ist für eine besonders hohe Erkennungsrate wichtig, da
hierdurch mit hoher Wahrscheinlichkeit Segmenten im Trai
ningsmuster, die den gleichen Inhalt aufweisen, auch derselbe
Index zugeordnet wird. In einer konkreten Ausführungsform
werden die zueinander verschobenen Matrizen von zwei Trai
ningsmustern addiert und bilden somit eine Mittelwertmatrix.
Die Verschiebung aller weiteren Trainingsmuster wird durch
Korrelation mit dieser Mittelwertmatrix bestimmt, wobei die
neuerlich korrelierten Trainingsmuster wiederum verschoben
zur Mittelwertmatrix dazu addiert werden. Dieser Vorgang kann
iterativ mehrmals über alle Trainingsmuster erfolgen.
Vorzugsweise werden in einem Trainingsmuster Bereiche, die im
Vergleich mit anderen zusammengehörenden Trainingsmustern
fehlen, durch vorgegebene Füllbereiche ergänzt. Diese vorge
gebenen Füllbereiche können beispielsweise bei einem Sprach
signal lautfreie Bereiche (silence) sein. Insbesondere wird
dies bei Trainingsmustern vorgenommen, bei denen beispiels
weise Laute am Anfang oder am Ende eines Wortes fehlen.
In einer bevorzugten Ausgestaltung des Verfahrens werden an
hand der in Schritt b) vorgenommenen Verschiebung Mustergren
zen bestimmt, die für alle zusammengehörenden Trainingsmuster
gelten. Erfolgt danach eine Segmentierung, die sich auf diese
Mustergrenzen bezieht, werden verschiedene, aber zusammenge
hörende Trainingsmuster derart segmentiert, daß Bereiche mit
gleichem Inhalt in den verschiedenen Trainingsmustern in den
gleichen Segmenten liegen.
Ein zwischen den Mustergrenzen liegender Bereich der Trai
ningsmuster kann mittels eines Zentroidenverfahrens segmen
tiert werden. Gemäß dem Zentroidenverfahren können innerhalb
vorgegebener Beschränkungen alle möglichen Segmentierungen
berechnet werden. Aus den berechneten Segmentierungen wird
dann eine Segmentierung nach einem Distanzkriterium zum
Zentroiden jedes Segments ausgewählt.
Das Auswahlkriterium kann derart ausgebildet sein, daß die
Segmentierung ausgewählt wird, bei der die Summe der Quadrate
der Distanzen von Merkmalsvektoren zu dem zugeordneten
Zentroiden in jedem Segment über das gesamte Trainingsmuster
minimal wird. Hierdurch erhält man eine optimale Segmentie
rung.
Schließlich kann die Segmentierung entweder direkt zum
Erstellen eines Modells zur Mustererkennung, insbesondere ei
nes Hidden-Markov-Modells, oder als Initialsegmentierung er
folgen. Anhand der Initialsegmentierung kann die Verschiebung
von Segmentgrenzen einzelner Trainingsmuster, insbesondere
mittels Viterbi-Segmentierung, vorgenommen werden.
Vorzugsweise wird das Verfahren bei der Spracherkennung ein
gesetzt.
Ein Mustererkenner zur Durchführung des erfindungsgemäßen
Verfahrens weist
- - Vorverarbeitungsmittel zum Vorverarbeiten eines ein Trai ningsmuster repräsentierendes Signal,
- - Berechnungsmittel zum Erstellen von Matrizen mit Merkmals vektoren für das Trainingsmuster,
- - Korrelationsmittel zum Korrelieren von Matrizen, die zusam mengehörende Trainingsmuster repräsentieren,
- - Auswertemittel zum Ermitteln eines Verschiebungswertes, und
- - Sortiermittel zum Umsortieren von Matrizen abhängig von dem ermittelten Verschiebungswert auf.
Ferner können Additionsmittel vorgesehen sein, welche die
Matrizen nach einem Umsortieren addieren.
Weitere Vorteile und Anwendungsmöglichkeiten der Erfindung
ergeben sich aus der nachfolgenden Beschreibung eines Ausfüh
rungsbeispiels des erfindungsgemäßen Verfahrens in Verbindung
mit den Zeichnungen. In diesen zeigen
Fig. 1 die in Fig. 3 dargestellten Trainingsmuster nach einer
Verschiebung entsprechend einem mit dem erfindungsgemäßen
Verfahren ermittelten Verschiebungswert,
Fig. 2 eine Segmentierung mit neun Segmenten der in Fig. 1
dargestellten Trainingsmuster, und
Fig. 3 ein Beispiel von zwei zusammengehörenden Trainingsmus
tern, die zueinander verschoben sind.
Zur Beschreibung von Fig. 3 wird auf die Beschreibungseinlei
tung verwiesen.
Ein Trainingsmuster für einen Spracherkenner wird durch eine
Matrix dargestellt, deren Spalten Merkmalsvektoren mit auf
einanderfolgenden Zeitindizes entsprechen. Hierbei ist die
Zeit in sogenannte Frames als kleinste Zeiteinheit unter
teilt. Ein Frame kann beispielsweise eine bestimmte Anzahl
von digitalisierten Abtastwerten eines analogen Signals sein,
welches das Trainingsmuster repräsentiert. Jeder Zeitindex
entspricht einem Vielfachen einer Framelänge.
Die Zeilen der Matrix stellen Merkmale dar, welche durch die
Vorverarbeitung des Signals gewählt wurden. Als Beispiele
seinen hier nur spektrale Inhalte, Energiewerte, etc. ge
nannt.
Im folgenden wird mit i ein Frame-Index, mit j ein Segment-
Index und mit k eine Merkmals-Komponente bezeichnet.
Durch Korrelieren zweier zusammengehörender Trainingsmuster,
die beispielsweise ein bestimmtes Wort in einem Sprachsignal
repräsentieren, wird ein Zeitverschiebungswert bestimmt. Der
Zeitverschiebungswert gibt die zeitliche Verschiebung der
Trainingsmuster, bezogen auf einen gemeinsamen Bezugspunkt
der beiden Trainingsmuster, an. Er wird durch das Korrelieren
derart berechnet, daß die Korrelation maximal wird. Sind mit
f und g zwei Matrizen bezeichnet, die jeweils ein Trainings
muster repräsentieren, die beide zusammengehören, und bedeu
tet m die Anzahl der Merkmalsvektoren pro Äußerung, so ergibt
sich der Zeitverschiebungswert nach der folgenden Gleichung:
mit
x = arg max {cf,g(x)}
Konkret gibt der Zeitverschiebungswert x hier an, um wieviele
Frames ein Trainingsmuster bezüglich des anderen Trainings
musters verschoben werden muß, so daß entsprechende Bereiche
der beiden Muster "zeitlich zur Deckung kommen". Beginnt bei
spielsweise eine Äußerung in einem ersten Trainingsmuster mit
dem Merkmalsvektor 0 (= erste Spalte der entsprechenden Mat
rix) und ergibt sich als Verschiebungswert eines zweiten
Trainingsmusters bezüglich des ersten Trainingsmusters 10, so
heißt das, daß die Äußerung im zweiten Trainingsmuster mit
dem Merkmalsvektor 10 entsprechend der elften Spalte der Mat
rix beginnt. Um Merkmalsvektoren, die zu einander entspre
chenden Bereichen der Trainingsmuster gehören, zur "Deckung"
zu bringen, können die Spalten der zweiten Matrix jeweils um
zehn "Plätze" verschoben werden.
Die Korrelation kann iterativ über mehrere Durchläufe durch
geführt werden, um einen exakten Zeitverschiebungswert zu er
halten.
Vorerst muß der Bereich vor und hinter jedem Trainingsmuster
nicht weggeschnitten werden. Mustergrenzen sind daher nicht
notwendig.
In Fig. 1 sind die in Fig. 3 zeitlich verschobenen Trainings
muster 11 und 13 in dem oberen und unterem Diagramm 10 bzw.
12 nach einer Zeitverschiebung des zweiten Trainingsmusters
13 gemäß dem vorgenannten Verfahren dargestellt. Die einander
entsprechenden Bereiche der beiden Trainingsmuster 11 und 13
liegen nun zeitlich an gleichen Positionen. Die durch die
hellen Bereiche dargestellten Bereiche 14 und 16 der beiden
Trainingsmuster 11 und 13 sind mit ihren Wortgrenzen nun an
einander angepaßt.
Um einen Mittelwert mehrerer Trainingsmuster zu erhalten,
werden nach der zeitlichen Verschiebung die Trainingsmuster
addiert, d. h. die beiden die Trainingsmuster repräsentierenden
Matrizen f und g werden zu einer neuen Matrix h addiert.
Ein drittes Trainingsmuster i, das ebenfalls zu den beiden
Trainingsmustern gehört, kann anschließend mit dem oben er
läuterten Verfahren zeitlich in Bezug auf die Matrix h ent
sprechend dem kumulierten Trainingsmuster "korrigiert und
wiederum zur Matrix h addiert werden. Das "Korrigieren" um
faßt das Korrelieren der Matrizen h und i und Ermitteln des
Zeitverschiebungswertes x sowie das Umordnen der Spalten der
Matrix i mit dem Zeitverschiebungswert x. Insgesamt erhält
man so einen Mittelwert (oder genauer gesagt eine Mittelwert-
Matrix) von mehreren zusammengehörenden Trainingsmustern.
Mit dem Mittelwert über mehrere Trainingsmuster können nun
gemeinsame Wortgrenzen bestimmt werden, die für alle zusam
mengehörenden Trainingsmuster gelten. Dies ist bereits in
Fig. 1 dargestellt: Die durch die hellen Bereiche 14 und 16
dargestellten Wortgrenzen sind aneinander angepaßt. Oder an
ders ausgedrückt: Die Wortgrenzen werden durch das Korrelie
ren von Trainingsmustern und anschließendes Verschieben oder
Aneinander-Ausrichten der Trainingsmuster insgesamt aneinan
der angepaßt. Die so ermittelten und allen Trainingsmustern
gemeinsamen Wortgrenzen entsprechen den äußersten Wortgrenzen
aller korrelierten und verschobenen Trainingsmuster. Hier
durch führt eine anschließende Segmentierung der Trainings
muster dazu, daß in gleichen Segmenten verschiedener Trai
ningsmuster jeweils Bereiche mit gleichem Lautinhalt liegen.
In einzelnen Trainingsmustern fehlende Laute werden hierbei
durch Bereiche ersetzt, die lautmäßig "Stille" entsprechen
(sogenannte "Silence"-Bereiche).
Innerhalb der gemeinsamen Wortgrenzen kann nun eine Segmen
tierung durchgeführt werden. Die Segmentierung basiert auf
einem Zentroidenverfahren. Gemäß dem Zentroidenverfahren wer
den innerhalb vorgegebener Beschränkungen alle möglichen Seg
mentierungen berechnet und daraus die beste nach dem Distanz
kriterium zum Zentroiden ausgewählt.
Es seien fi ein Merkmalsvektor der Mittelwertmatrix h mit
Frame-Index i und uj, vj Frame-Indices der Segmentgrenzen. Der
Zentroid zj ist dann der Mittelwertsvektor eines Segments j:
Die Segmentierung ist optimal, wenn die Distanzsumme der
Merkmalsvektoren zu ihrem Zentroiden im Segment über das ge
samte Trainingsmuster minimal wird.
Als Beschränkungen seien folgende Werte angenommen:
nmin minimale Anzahl Merkmalsvektoren pro Segment,
nmax maximale Anzahl Merkmalsvektoren pro Segment,
N Anzahl Segmente,
L Anzahl Merkmalsvektoren pro Muster (ist für alle Muster gleich.
nmin minimale Anzahl Merkmalsvektoren pro Segment,
nmax maximale Anzahl Merkmalsvektoren pro Segment,
N Anzahl Segmente,
L Anzahl Merkmalsvektoren pro Muster (ist für alle Muster gleich.
Mit der folgenden Gleichung werden die Distanzsummen der
Merkmalsvektoren zu ihrem Zentroiden über alle möglichen Seg
mentierungen berechnet:
Die Segmentgrenzen (uj, vj) werden innerhalb der obigen Be
schränkungen nach den folgenden Kriterien variiert:
Hierbei werden alle möglichen Kombinationen durchgerechnet,
was zum globalen Optimum führt. Die so ermittelte Segmentierung
kann direkt zum Erstellen eines Hidden-Markov-Modells
herangezogen werden oder als Initialsegmentierung für die
Verschiebung der Segmentgrenzen der einzelnen Trainingsmuster
beispielsweise mittels Viterbi-Segmentierung während des
Trainings dienen.
In Fig. 2 ist eine Segmentierung der Trainingsmuster aus Fig.
1 nach dem Zentroidenverfahren dargestellt. Die beiden Trai
ningsmuster wurden, ausgehend von den Mustergrenzen, in neun
Segmente eingeteilt. Jedes Segment weist Bereiche der beiden
Trainingsmuster auf, die den gleichen Lautinhalt umfassen.
Die Segmentgrenzen sind mittels gepunkteter Linien in dem
oberen und unteren Diagramm 10 und 12 dargestellt. Das siebte
Segment weist beispielsweise die Segmentgrenzen 17 und 18
auf. Erkennbar sind die einzelnen Segmente unterschiedlich
breit, d. h. die Segmentierung ist nicht äquidistant. Dies er
gibt sich aufgrund des Zentroidenverfahrens.
Im übrigen sei noch einmal angemerkt, daß das erfindungsgemä
ße Verfahren und der Mustererkenner nicht auf das Trainieren
von Hidden-Markov-Modellen beschränkt, sondern prinzipiell
bei jedem Mustererkennungsverfahren vorteilhaft anwendbar
sind, bei denen eine Segmentierung von Trainingsmustern er
forderlich ist.
Zusammenfassend ergeben sich durch die Erfindung im wesentli
chen zwei Vorteile:
- 1. Es müssen nicht die Grenzen jedes einzelnen Trainingsmus ters bestimmt werden. Statt dessen werden nur die Grenzen der Trainingsmuster nach dem Korrelieren und Verschieben be stimmt; diese Grenzen können dann auf alle zusammengehörenden Trainingsmuster angewendet werden.
- 2. Entsprechende Segmente verschiedener Trainingsmuster rep räsentieren entsprechende Signalbereiche.
Claims (12)
1. Verfahren zum Trainieren eines Modells für die Musterer
kennung mittels mehrerer gleichartiger Trainingsmuster, ins
besondere eines Hidden-Markov-Modells, bei dem
- a) ein die Verschiebung zwischen mindestens zwei zusammenge hörenden Trainingsmustern (11, 13) darstellender Verschie bungswert durch Korrelieren der zwei Trainingsmuster (11, 13) derart bestimmt wird, daß die Korrelation maximal wird, und
- b) die Trainingsmuster (11, 13) mittels des Verschiebungswer tes derart zueinander verschoben werden, daß einander ent sprechende Bereiche der Trainingsmuster bezüglich eines ge meinsamen Bezugspunktes etwa die gleiche Lage aufweisen.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß
das Korrelieren iterativ über mehrere Durchläufe für die
Trainingsmuster (11, 13) durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß
in einem Trainingsmuster (13) im Vergleich mit anderen zusam
mengehörenden Trainingsmustern (11) fehlende Bereiche durch
vorgegebene Füllbereiche ergänzt werden.
4. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
anhand der in Schritt b) vorgenommenen Verschiebung Muster
grenzen (14, 16) bestimmt werden, die für alle zusammengehö
renden Trainingsmuster (11, 13) gelten.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß
ein zwischen den Mustergrenzen (14, 16) liegender Bereich der
Trainingsmuster mittels eines Zentroidenverfahrens segmen
tiert wird.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet, daß
innerhalb vorgegebener Beschränkungen alle möglichen Segmen
tierungen berechnet werden und eine Segmentierung daraus nach
einem Distanzkriterium zum Zentroiden jedes Segments ausge
wählt wird.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet, daß
die Segmentierung ausgewählt wird, bei der die Summe der
Quadrate der Distanzen von Merkmalsvektoren zu dem zugeordne
ten Zentroiden in jedem Segment über das gesamte Trainings
muster minimal wird.
8. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
die Segmentierung entweder direkt zum Erstellen eines Modells
zur Mustererkennung, insbesondere eines Hidden-Markov-
Modells, oder als Initialsegmentierung für die Verschiebung
von Segmentgrenzen (17, 18) einzelner Trainingsmuster, insbe
sondere mittels Viterbi-Segmentierung, dient.
9. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
die Mustererkennung eine Spracherkennung ist.
10. Mustererkenner zur Durchführung des Verfahrens nach einem
der vorhergehenden Ansprüche, mit
- - Vorverarbeitungsmitteln zum Vorverarbeiten eines ein Trai ningsmuster repräsentierendes Signal,
- - Berechnungsmitteln zum Erstellen von Matrizen mit Merkmals vektoren für das Trainingsmuster,
- - Korrelationsmitteln zum Korrelieren von Matrizen, die zu sammengehörende Trainingsmuster repräsentieren,
- - Auswertemitteln zum Ermitteln eines Verschiebungswertes, und
- - Sortiermitteln zum Umsortieren von Matrizen abhängig von dem ermittelten Verschiebungswert.
11. Mustererkenner nach Anspruch 10,
dadurch gekennzeichnet, daß
Additionsmittel vorgesehen sind, welche die Matrizen nach ei
nem Umsortieren addieren.
12. Mustererkenner nach Anspruch 10 oder 11,
dadurch gekennzeichnet, daß
er ein Spracherkenner ist.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE2001122212 DE10122212C1 (de) | 2001-05-08 | 2001-05-08 | Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE2001122212 DE10122212C1 (de) | 2001-05-08 | 2001-05-08 | Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE10122212C1 true DE10122212C1 (de) | 2002-10-10 |
Family
ID=7683948
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE2001122212 Expired - Fee Related DE10122212C1 (de) | 2001-05-08 | 2001-05-08 | Verfahren zum Trainieren eines Modells für die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und Mustererkenner |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE10122212C1 (de) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7313269B2 (en) * | 2003-12-12 | 2007-12-25 | Mitsubishi Electric Research Laboratories, Inc. | Unsupervised learning of video structures in videos using hierarchical statistical models to detect events |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
| DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
-
2001
- 2001-05-08 DE DE2001122212 patent/DE10122212C1/de not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
| DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7313269B2 (en) * | 2003-12-12 | 2007-12-25 | Mitsubishi Electric Research Laboratories, Inc. | Unsupervised learning of video structures in videos using hierarchical statistical models to detect events |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
| DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
| DE69712277T2 (de) | Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten | |
| DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
| DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
| DE69722980T2 (de) | Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen | |
| DE69807765T2 (de) | Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner | |
| DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
| DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
| EP0987683B1 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
| EP0862160A2 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
| DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
| EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
| EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
| WO1999059135A2 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
| DE19639844A1 (de) | Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
| DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
| EP1199704A2 (de) | Auswahl der alternativen Wortfolgen für diskriminative Anpassung | |
| EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
| DE10304460B3 (de) | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung | |
| DE69628603T2 (de) | System zur Musteranpassung mittels einer Baumstruktur | |
| DE68914032T2 (de) | Spracherkennungssystem. | |
| DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8100 | Publication of patent without earlier publication of application | ||
| D1 | Grant (no unexamined application published) patent law 81 | ||
| 8364 | No opposition during term of opposition | ||
| 8327 | Change in the person/name/address of the patent owner |
Owner name: BENQ CORP., TAOYUAN, TW |
|
| 8328 | Change in the person/name/address of the agent |
Representative=s name: HOEFER & PARTNER, 81545 MUENCHEN |
|
| 8339 | Ceased/non-payment of the annual fee |