DE60309142T2

DE60309142T2 - System zur Schätzung von Parametern eines Gauß`schen Mixturmodells (GMM) oder eines GMM-basierten Hidden-Markov-Modells

Info

Publication number: DE60309142T2
Application number: DE60309142T
Authority: DE
Inventors: Christopher J. St. Clair Malvern WEBBER
Original assignee: Qinetiq Ltd
Current assignee: Qinetiq Ltd
Priority date: 2002-03-28
Filing date: 2003-03-24
Publication date: 2007-08-16
Anticipated expiration: 2023-03-25
Also published as: GB2387008A; GB0207343D0; JP4264006B2; AU2003217013A1; EP1488411B1; US20060178887A1; WO2003083831A1; DE60309142D1; JP2005521906A; EP1488411A1; US7664640B2; ATE343197T1

Description

Diese Erfindung betrifft ein System und ein Verfahren zur Verarbeitung von Signalen, um ihre Klassifizierung und Erkennung zu unterstützen. Insbesondere betrifft die Erfindung einen modifizierten Prozess für das Training und die Verwendung von sowohl Gaußschen Mixturmodellen als auch Hidden-Markov-Modellen, um die Leistungsfähigkeit bei der Klassifizierung zu verbessern, insbesondere, aber nicht ausschließlich in Bezug auf Sprache.
Gaußsche Mixturmodelle (GMMs) und versteckte Markov-Modelle (HMMs, Hidden Markov Models) werden oft als Klassifizierer für Signale verwendet, die die Identifizierung eines Eingangssignals unterstützen, wenn ein Satz von Mustereingaben vorgegeben ist, die als Trainingsdaten bekannt sind. Anwendungen der Methode umfassen Spracherkennung, wobei das Audiosprachsignal digitalisiert und in den Klassifizierer eingegeben wird, und der Klassifizierer versucht, aus seinem Vokabular von Worten den Satz von Worten zu erzeugen, der am wahrscheinlichsten dem eingegebenen Audiosignal entspricht. Weitere Anwendungen umfassen Radar, wobei ein Radarsignal von einer Szene zurückkommt und eine Schätzung für die Inhalte der Szene liefert, und bei der Bildverarbeitung. Die veröffentlichte internationale Beschreibung WO02/08783 zeigt die Verwendung von Hidden-Markov-Modellen bei der Verarbeitung von Radarsignalen.
Bevor ein GMM oder HMM verwendet werden kann, um ein Signal zu klassifizieren, muss es mit einem geeigneten Satz von Trainingsdaten trainiert werden, um Parameter in dem Modell zu initialisieren, damit es die effektivste Leistung bietet. Es gibt folglich zwei verschiedene Stufen, die mit der praktischen Verwendung dieser Modelle verbunden sind, die Trainingsstufe und die Klassifizierungsstufe. Bei beiden dieser Stufen werden dem Klassifizierer Daten auf dieselbe Weise präsentiert. Beim Einsatz bei der Spracherkennung wird typischer weise ein Satz von Vektoren, die das Sprachsignal darstellen, auf die folgende Weise erzeugt. Das ankommende Audiosignal wird digitalisiert und in l0ms-Segmente unterteilt. Das Frequenzspektrum von jedem Segment wird dann aufgenommen, wobei, wenn erforderlich, Fensterfunktionen eingesetzt werden, um die Effekte des Abschneidens auszugleichen, was einen Spektralvektor erzeugt. Jedes Element des Spektralvektors misst typischerweise den Logarithmus der integrierten Leistung innerhalb jedes verschiedenen Frequenzbandes. Der hörbare Frequenzbereich wird von ungefähr 25 solcher aneinandergrenzender Bänder überspannt, aber ein Element des Spektralvektors ist gewöhnlich dafür reserviert, den Logarithmus der integrierten Leistung über alle Frequenzbänder zu messen, das heißt, den Logarithmus der Gesamtlautstärke des Schalls. Folglich hat jeder Spektralvektor gewöhnlich ungefähr 25 + 1 = 26 Elemente; mit anderen Worten, der Vektorraum ist gewöhnlich 26-dimensional. Diese Spektralvektoren sind zeitlich geordnet und stellen die Eingabe für das HMM oder GMM als Spektrogrammdarstellung des Audiosignals dar.
Das Trainieren sowohl des GMMs als auch des HMMs umfasst die Erstellung eines optimierten Satzes von Parametern, die mit den Prozessen zusammenhängen, die die Trainingsdaten verwenden, sodass eine optimale Klassifizierung auftritt, wenn das Modell mit unbekannten Daten konfrontiert wird.
Ein GMM ist ein Modell für die Wahrscheinlichkeitsdichtefunktion (PDF, Probability Density Function) seiner Eingangsvektoren (z. B. Spektralvektoren) in ihrem Vektorraum, die als gewichtete Summe von Gaußschen Komponenten oder Klassen parametrisiert ist. Verfügbare Parameter für die Optimierung sind die Mittelwerte und Kovarianzmatrizen für jede Klasse, und Apriori-Wahrscheinlichkeiten der Klassen. Diese Apriori-Wahrscheinlichkeiten der Klassen sind die Gewichtungen der gewichteten Summe der Klassen. Diese anpassbaren Parameter werden typischerweise für einen Satz von Trainingsdaten durch eine anpassungsfähige, iterative Prozedur für die erneute Schätzung, wie etwa die Erwartungsmaximierung (EM, Expectation Maximisation) und Gradientenanstiegsalgorithmen für die logarithmierte Likelihood, die wohlbekannte Prozeduren für das Finden eines Satzes von Werten für alle anpassbaren Parameter sind, die den Mittelwert des Logarithmus der Likelihood-Funktion des Modells (log-Likelihood) über den Trainingssatz maximiert. Diese iterativen Prozeduren verfeinern die Werte der anpassbaren Parameter von einer Iteration zur nächsten, wobei sie mit Anfangsschätzwerten beginnen, die einfach Zufallszahlen sein können, die in geeigneten Bereichen liegen.
Nachdem die anpassbaren Parameter eines GMM optimiert wurden, können diese trainierten Parameter nachfolgend für die Identifizierung des wahrscheinlichsten aus dem Satz von alternativen Modellen für jeden beobachteten Spektralvektor verwendet werden, das heißt, zur Klassifizierung des Spektralvektors. Der Klassifizierungsschritt umfasst die herkömmliche Prozedur zur Berechnung der Likelihood, dass jede Komponente des GMM den beobachteten Spektralvektor hätte entstehen lassen können.
Während ein GMM ein Modell der PDF von einzelnen Eingangsvektoren ist, unabhängig von deren zeitlichen Korrelationen untereinander, ist ein HMM ein Modell der PDF von zeitlich geordneten Abfolgen von eingegebenen Vektoren. Die anpassbaren Parameter eines gewöhnlichen HMM sind die Beobachtungswahrscheinlichkeiten (die PDFs von Eingabevektoren, wobei alle möglichen versteckten Zustände der Markov-Kette vorgegeben sind) und die Übergangswahrschein lichkeiten (der Satz von Wahrscheinlichkeiten, dass die Markov-Kette einen Übergang zwischen jeder paarweisen Kombination von möglichen versteckten Zuständen machen wird).
Ein HMM kann seine Beobachtungswahrscheinlichkeiten als Gaußsche PDFs (sonst als Komponenten oder Klassen bekannt) oder gewichtete Summen von Gaußschen PDFs modellieren, das heißt als ein GMM. Solche HMMs sind als GMM-basierte HMMs bekannt. Die Beobachtungswahrscheinlichkeiten eines GMM-basierten HMMs werden als ein GMM parametrisiert, aber das GMM-basierte HMM ist selbst kein GMM. Einem GMM-basierten HMM kann jedoch eine Eingangsstufe hinzugefügt werden, wobei diese Eingangsstufe ein einfaches GMM enthält. Die logarithmierte Likelihood eines GMM-basierten HMM ist die logarithmierte Likelihood eines HMM, dessen Parametrisierung der Beobachtungswahrscheinlichkeiten als GMM erzwungen wird; es ist nicht die logarithmierte Likelihood eines GMMs. Folglich ist die Optimierungsprozedur eines GMM-basierten HMMs nicht dieselbe wie die eines GMMs. Eine Vorschrift für die Optimierung der Beobachtungswahrscheinlichkeiten eines GMM-basierten HMMs kann jedoch als Vorschrift für die Optimierung der Mittelwerte der Klassen, der Kovarianzmatrizen und der Apriori-Wahrscheinlichkeiten der Klassen des zugehörigen GMMs neu aufgestellt werden.
Training, oder Optimierung, der anpassbaren Parameter eines HMMs wird durchgeführt, um die Gesamtlikelihoodfunktion des Modells für das Eingabesignal zu maximieren, wie etwa eine Sprachsequenz. Eine herkömmliche Art, dies durchzuführen, ist, den Baum-Welch-Neuschätzungsalgorithmus zu verwenden, der eine Weiterentwicklung der Methode zur Maximierung der Erwartung der logarithmierten Likelihoodfunktion des Modells ist, die darauf erweitert ist, die probabilistische Abhängigkeit von versteckten Zuständen von deren früheren Werten in der Sprachsequenz zu berücksichtigen. Ein HMM wird zu Beginn mit anfänglichen, möglicherweise zufälligen Annahmen für die Werte für die Übergangs- und Beobachtungswahrscheinlichkeiten initialisiert.
Für jeden aus einem Satz von Sequenzen von eingegebenen Trainingsvektoren, wie etwa Sprachsequenzen, wird der Baum-Welch-Vorwärts-Rückwärts-Algorithmus angewendet, um die Wahrscheinlichkeit zu bestimmen, dass das HMM die beobachtete Sequenz hätte entstehen lassen können. Auf der Basis aller dieser Likelihoods der Modelle für jede Sequenz aktualisiert die Baum-Welch-Neuschätzungsformel die angenommenen Werte des Modells für die Übergangswahrscheinlichkeiten und die Beobachtungswahrscheinlichkeiten (das heißt, die Mittelwerte, Kovarianzmatrizen und Wahrscheinlichkeiten der vorangegangenen Klassen des GMMs), um den Anstieg der durchschnittlichen logarithmierten Likelihood des Modells zu maximieren. Dieser Prozess wird iteriert, wobei der Baum-Welch-Vorwärts-Rückwärts-Algorithmus verwendet wird, um revidierte Likelihoods der Modelle für jede Trainingssprachsequenz zu bestimmen und auf deren Basis unter Verwendung der Baum-Welch-Neuschätzungsformel weitere Aktualisierungen der anpassbaren Parameter bereitzustellen.
Jede Iteration der herkömmlichen Baum-Welch-Neuschätzungsprozedur kann für jedes GMM-basierte HMM in fünf Schritte herunter gebrochen werden: (a) Anwenden des Baum-Welch-Vorwärts-Rückwärts-Algorithmus auf jede Trainingssprachsequenz, (b) Bestimmen, wie die aktualisierten Werte der Mittelwerte der GMM-Klassen für die nächste Iteration sein sollen, (c) Bestimmen, wie die aktualisierten Werte der Kovarianzmatrizen der GMM-Klassen für die nächste Iteration sein sollen, (d) Bestimmen, wie die aktualisierten Werte der Apriori-Wahrscheinlichkeiten der GMM-Klassen für die nächste Iteration sein sollen, und (e) Festlegen, was die aktualisierten Werte für die HMM-Übergangswahrscheinlichkeiten für die nächste Iteration sein sollen. Folglich kann man sich die Baum-Welch-Neuschätzungsprozedur für die Optimierung eines GMM-basierten HMMs als eine Verallgemeinerung des EM-Algorithmus für die Optimierung eines GMMs vorstellen, aber mit den aktualisierten Übergangswahrscheinlichkeiten als einer zusätzlichen vierten Ausgabe.
Für manche Anwendungen werden HMMs eingesetzt, deren Beobachtungswahrscheinlichkeiten nicht als GMMs parametrisiert sind, sondern stattdessen auf unterer Ebene HMMs verwenden. Folglich wird eine Hierarchie gebildet, die an der Spitze ein HMM „auf höchster Ebene" umfasst, und an der Basis ein GMM, wobei die Beobachtungswahrscheinlichkeiten jeder Schicht durch die nächstniedrigere Stufe definiert sind. Diese Methode ist in Spracherkennungssystemen üblich, die auf Subwort-Einheiten basieren, wobei die Struktur zwei verschachtelte Ebenen von HMMs umfasst, von denen die niedrigste Beobachtungswahrscheinlichkeiten auf GMM-Basis hat.
Die Prozedur für die Optimierung der Beobachtungswahrscheinlichkeiten eines HMMs auf der höchsten Ebene reduziert sich auf die herkömmliche Prozedur für die Optimierung der Übergangswahrscheinlichkeiten und der Beobachtungswahrscheinlichkeiten (das heißt, der GMM-Parameter) der herkömmlichen HMMs auf der niedrigeren Ebene, die wie oben beschrieben abläuft. Die Prozedur zur Optimierung der Übergangswahrscheinlichkeiten der HMMs auf der höchsten Ebene ist die selbe, wie die herkömmliche Prozedur zur Optimierung der Übergangswahrscheinlichkeiten von HMMs, die wie oben beschrieben abläuft.
HMMs können auf diese Weise zu Hierarchien mit vielen Ebenen gestapelt werden. Die Prozedur zur Optimierung der Beobachtungswahrscheinlichkeiten auf jeder Ebene reduziert sich auf die herkömmliche Prozedur zur Optimierung der Übergangswahrscheinlichkeiten auf allen niedrigeren Ebenen kombiniert mit der herkömmlichen Prozedur zur Optimierung der GMM-Parameter auf der untersten Ebene. Die Prozedur zur Optimierung der Übergangswahrscheinlichkeiten auf jeder Ebene ist dieselbe wie die herkömmliche Prozedur zur Optimierung herkömmlicher Übergangswahrscheinlichkeiten von HMMs. Folglich kann die Prozedur zur Optimierung von hierarchischen HMMs als rekursive Anwendung von herkömmlichen Prozeduren zur Optimierung der Übergangs- und Beobachtungswahrscheinlichkeiten von herkömmlichen HMMs beschrieben werden.
Nachdem die anpassbaren Parameter des HMMs optimiert wurden, kann das trainierte HMM danach verwendet werden, um das wahrscheinlichste aus einem Satz von alternativen Modellen einer beobachteten Sequenz von Eingangsvektoren zu identifizieren – Spektralvektoren im Fall der Klassifizierung von Sprache, und komplexe Amplituden- oder Bilddaten im Falle von Radar und anderen Bildern. Dieser Prozess wird herkömmlich mit dem Baum-Welch-Vorwärts-Rückwärts-Algorithmus erreicht, der die Wahrscheinlichkeit der Erzeugung der beobachteten Sequenz von Eingangsvektoren aus jedem aus einem Satz von alternativen HMMs mit verschiedenen optimierten Übergangs- und Beobachtungswahrscheinlichkeiten berechnet.
Die oben beschriebenen Klassifizierungsverfahren haben gewisse Nachteile. Wenn die Beobachtungswahrscheinlichkeiten der GMMs, und folglich der HMMs, die hierarchisch über diesen stehen können, als auch die Übergangswahrscheinlichkeiten des HMMs optimiert werden, gibt es eine Tendenz, dass die Optimierung in lokalen Minima gefangen wird, was verhindert, dass das System die optimale Klassifizierung erreicht. Dies kann oft einer Tendenz zugeordnet werden, dass Likelihood-PDFs der Klassen „durcheinanderkommen", wenn sie die Freiheit haben, zu stark anisotrop zu werden. Betrachtet man die Spracherkennungstechnik, so sind auch aktuelle Erkenner bei der Erfassung subtiler Variationen und immanenter Eigenschaften von wirklicher Sprache schlecht, wie etwa die volle, spezifische Veränderlichkeit von Vokalen des Sprechers unter sehr verschiedenen Sprechbedingungen. Insbesondere nehmen individuelle Vokale komplexe Formen im Spektralvektorraum ein, und der Versuch, diese Formen als Gaußsche Verteilungen darzustellen, wie es herkömmlich getan wird, kann zu ungenauer Darstellung der Sprachgeräusche führen.
Das Dokument von R.A. Gopinath: „Constrained Maximum Likelihood Modeling with Gaussian Distributions" in Proceedins of the AR-PA WORKSHOP ON HUMAN LANGUAGE UNDERSTANDING, Januar (1998-01), XP002246953, verfügbar im Internet unter der URL: http://www.research.ibm.com/people/r/rameshg/gopinath-slt98.pdf veröffentlicht die Idee der Anwendung von Zwangsbedingungen auf einige Parameter der Gaußschen Dichtefunktionen während der Iterationen eines Maximum-Likelihood-Trainings.
Nach der vorliegenden Erfindung wird ein Signalverarbeitungssystem zur Verarbeitung mehrerer datenkodierender Vektoren mit mehreren Elementen geschaffen, wobei das System:

– eine Einrichtung zur Ableitung der datenkodierenden Vektoren aus Eingangssignalen aufweist,
– dazu eingerichtet ist, die datenkodierenden Vektoren mit wenigstens einem Gaußschen Mixturmodell und einen GMM-basierten Hidden-Markov-Modell (HMM) zu verarbeiten, wobei das wenigstens eine GMM und das GMM-basierte HMM wenigstens einen Vektor mit Mittelwerten der Klassen mit mehreren Elementen aufweist;
– dazu eingerichtet ist, die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klassen durch eine iterative Optimierungsprozedur zu verarbeiten;

Vorzugsweise werden die Beträge der Mittelwertvektoren von jedem der GMMs nach jeder Iteration neu skaliert, sodass sie alle den gleichen Wert haben.
Die meisten Signalverarbeitungssysteme des Typs, der in dieser Beschreibung diskutiert wird, enthalten ein GMM, das die Wahrscheinlichkeitsdichtefunktion von allen datenkodierenden Vektoren in der Trainingssequenz darstellt. Die Zwangsbedingung, die Elemente des Mittelwertvektors der Klassen auf konstante Beträge zu beschränken, führt zu vereinfachter Verarbeitung der GMMs, aus denen das Signalverarbeitungssystem besteht, da die Mittelwerte der Klassen von jedem GMM auf der Oberfläche einer Hyperkugel mit der Dimension (n – 1) liegen, wobei n die Dimension eines einzelnen Vektors ist.
Vorzugsweise werden auf eine Kovarianzmatrix, die zu dem GMM gehört, Zwangsbedingungen derart angewendet, dass sie isotrop und diagonal ist, und dass sie einer Varianz hat, die als Zwangsbedingung einen konstanten Wert hat. Dies beseitigt die Möglichkeit, dass bestimmte Klassen starke lokale Minima haben, die mit stark anisotropen Gaußschen Komponenten in Verbindung stehen, und verhindert auf diese Weise, dass sich solche suboptimalen Konfigurationen während des Trainingsprozesses bilden. Er sei bemerkt, dass eine Kovarianzmatrix, die auf diese Weise mit Zwangsbedingungen belegt ist, mathematisch als skalarer Wert betrachtet werden kann, und folglich kann ein skalarer Wert verwendet werden, um eine solche Kovarianzmatrix darzustellen.
Das Beseitigen gewisser Klassen mit lokalen Minima, indem die neuartigen Zwangsbedingungen nach der vorliegenden Erfindung eingesetzt werden, kann unter bestimmten Umständen sehr signifikante neuartige zusätzliche Vorteile (gegenüber dem und über das Erfordernis hinaus, lokale Minima zu begrenzen oder zu vermeiden, wenn möglich) aufweisen. Diese Umstände treten auf, wenn die Wahrscheinlichkeitsverteilungsfunktion (PDF, Probability Distribution Function) der datenkodierenden Vektoren gegenüber orthogonalen Symmetrien wie etwa Permutationstransformationen invariant ist. Die Beseitigung bestimmter Klassen mit lokalen Minima durch den Einsatz der neuartigen Zwangsbedingungen nach der vorliegenden Erfindung kann unter diesen Umständen ermöglichen, dass die Mittelwerte der Klassen des GMMs durch die selben Symmetrietransformationen nach Anpassungsprozeduren wie etwa dem wohlbekannten Erwartungsmaximierungs(EM Expectation Maximisation) Algorithmus selbst symmetrisch werden. Dies liefert eine Einrichtung für solche Anpassungsprozeduren, um GMMs abzuleiten, deren Aposteriori-Wahrscheinlichkeiten der Klassen bzgl. dieser selben Symmetrietransformationen invariant sind; diese Eigenschaft ist für die Herstellung von transformationsrobusten Mustererkennungssystemen nützlich.
Jedes GMM, und deshalb jedes GMM-basierte HMM, hat einen Satz von Apriori-Wahrscheinlichkeiten der Klassen. Vorzugsweise wird auf die Apriori-Wahrscheinlichkeiten der Klassen, die dem GMM zugeordnet sind, die Zwangsbedingung angewendet, dass sie gleich sind und während der Optimierungsprozedur konstant bleiben.
Signalverarbeitungssysteme nach dem Stand der Technik, die GMMs enthalten, vermeiden im allgemeinen das Anwenden von Zwangsbedingungen auf die Modellparameter; außer dass auf Kovarianzmatrizen gelegentlich die Zwangsbedingung angewendet wird, dass sie über die Klassen hinweg gleich sind, werden selten Forderungen für die Mittelwerte, Kovarianzmatrizen, Apriori-Wahrscheinlichkeiten der Klassen und Übergangswahrscheinlichkeiten der versteckten Zustände aufgestellt, außer dass ihre Werte derart gewählt werden, dass sie die durchschnittliche logarithmierte Likelihood so groß wie möglich machen.
Vorzugsweise wird jeder datenkodierende Vektor, der auch ein Eingangsvektor ist, der aus dem Eingangssignal während sowohl der Trainings- als auch der Klassifizierungsstufe, die das GMM verwendet, abgeleitet ist, derart Zwangsbedingungen unterworfen, dass seine Elemente x_i proportional zur den Quadratwurzeln der integrierten Leistung in verschiedenen Frequenzbändern sind. Vorteilhaft werden die Elemente von jedem solchen datenkodierenden Vektor derart ska liert, dass sich die Quadrate der Elemente des Vektors zu einem konstanten Wert aufsummieren, der von der Gesamtleistung des ursprünglichen Eingangssignals unabhängig ist.
Vorzugsweise wird jeder solcher datenkodierende Vektor durch das Hinzuzufügen von einem oder mehreren Elementen erweitert, die die Gesamtleistung in den Vektor darstellen. Die Skalierung der Vektorelemente, die oben beschrieben wurde, beseitigt jegliche Leistungangabe, sodass das oder die zusätzliche(n) Element(e) die einzige Angabe der Leistung oder Lautstärke in dem Vektor liefern. Natürlich muss die Berechnung des Wertes des Elements, das die Leistung darstellt, auf Elementen des Vektors vor der Skalierung basieren.
Es sei bemerkt, dass in dieser Beschreibung die Begriffe „Eingangsvektor" und „Spektralvektor" vor dem Hintergrund der Bereitstellung einer Eingabe für die untersten Ebene des Systemhierarchie austauschbar verwendet werden. Der Vektor auf dieser Ebene kann das wirkliche Leistungsspektrum des Eingangssignals darstellen, und folglich aus spektralen Koeffizienten bestehen, oder kann irgend eine modifizierte Form des Leistungsspektrums darstellen. In der Praxis stellt der Eingangsvektor im Allgemeinen ein Leistungsspektrum eines Abschnitts eines zeitlichen Eingangssignals dar, aber dies ist nicht für alle Anwendungen der Fall. In manchen Anwendungen wird weitere Verarbeitung des zeitlichen Eingangssignals eingesetzt, z. B. die Kosinustransformation. Ein „datenkodierender Vektor" ist in dieser Beschreibung jeder Vektor, der in Abhängigkeit des Kontextes als eine Eingabe in irgendeine Ebene der Hierarchie verwendet wird, das heißt jeder Vektor, der als direkte Eingabe in die bestimmte Ebene der Hierarchie eingegeben wird, die in diesem Kontext diskutiert wird. Ein datenkodierender Vektor ist folglich nur dann ein Eingangsvek tor, wenn er die Informationen darstellt, die auf der untersten Ebene der Hierarchie in das System gelangen.
Es sei auch bemerkt, dass das Normieren eines Vektors der Prozess der Neuskalierung aller seiner Elemente mit dem selben Faktor ist, um irgendein Kriterium zu erfüllen, das auf dem gesamten Vektor aus den Elementen definiert ist. Was für ein Faktor dies ist, hängt von dem Kriterium ab, das für die Normierung gewählt wird. Ein Vektor kann im allgemeinen mit einem von zwei nützlichen Kriterien normiert werden; eines ist, derart zu normieren, dass die Elemente sich nach der Normierung zu einer Konstanten aufsummieren, das andere ist, derart zu normieren, dass die Quadrate der Elemente sich nach der Normierung zu einer Konstanten aufsummieren. Durch das erste Kriterium wird der Faktor für die Neuskalierung proportional zum Reziproken der Summe der Werte der Elemente vor der Normierung. Durch das zweite Kriterium wird der Faktor für die Neuskalierung proportional zu dem Reziproken der Quadratwurzel aus der Summe der Quadrate der Werte der Elemente vor der Normierung. Ein Vektor aus Wahrscheinlichkeiten von sich gegenseitig ausschließender Ereignisse ist ein Beispiel eines Vektors, der mit dem ersten Kriterium normiert wurde, sodass die Summe dieser Wahrscheinlichkeiten 1 ist. Ein (reellwertiger) Einheitsvektor ist ein Beispiel für einen Vektor, der nach dem zweiten Kriterium normiert wurde, die Summe der Quadrate der Elemente eines (reellwertigen) Einheitsvektors ist 1. Ein Vektor, dessen Elemente die Quadratwurzeln einer Menge von Wahrscheinlichkeiten sich gegenseitig ausschließender Ereignisse umfassen, ist ebenso ein Beispiel eines Vektors, der durch das zweite Kriterium normiert ist.
Es sei bemerkt, dass für die Zwecke dieser Beschreibung jede Bezugnahme auf GMMs verwendet werden soll, um exponentielle Mixtur modelle (EMMs, Exponential Mixture Models) einzuschließen. EMMs können als Spezialfall von GMMs betrachtet werden, weil man die Gleichungen und Prozeduren zur Optimierung einfacher EMMs und EMM-basierter HMMs ableiten kann, indem die Normen |x| und |w| des datenkodierenden Vektors des GMMs beziehungsweise der Mittelwert der Klassen konstant gehalten werden und die Kovarianzmatrix des GMMs so aufgebaut wird, dass sie in dem herkömmlichen EM-Algorithmus für einfache GMMs oder der herkömmlichen Baum-Welch-Neuschätzungsprozedur für GMM-basierte HMMs isotrop ist. Nichtsdestoweniger sind die Gleichungen und Prozeduren, die auf diese Weise abgeleitet wurden, für EMMs sogar dann gültig, wenn |x| und |w| nicht konstant sind, und stellen gültige Vorschriften zur Optimierung allgemeiner EMMs dar.
Die hier beschriebene Erfindung kann ebenso auf ein System angewendet werden, das nur GMMs einsetzt, oder das GMM-basierte HMMs einsetzt, oder das GMM-basierte HMMs einsetzt, deren datenkodierende Vektoren aus den Aposteriori-Wahrscheinlichkeiten der Klassen von separaten GMMs auf unterer Ebene abgeleitet sind.
Es sei bemerkt, dass die Zwangsbedingungen und Bedingungen, die GMM-Parametern einschließlich der Mittelwertvektoren und der Kovarianzmatrix und der Apriori-Wahrscheinlichkeiten der Klassen wie oben diskutiert auferlegt werden können, auch äquivalenten Parametern des GMM-basierten HMMs auferlegt werden können.
Manche Anwendungen, insbesondere auf Subworteinheiten basierende Modelle, setzen vorteilhaft ein HMM ein, das als seine Beobachtungswahrscheinlichkeit ein GMM verwendet, dem Zwangsbedingungen nach der vorliegenden Erfindung auferlegt sind, wobei das HMM als die Beobachtungswahrscheinlichkeit für ein weiteres HMM dient.
Auf diese Weise kann eine Hierarchie von HMMs auf eine Weise nach dem Stand der Technik aufgebaut werden, aber mit dem Unterschied, dass die Zwangsbedingungen für die Modellparameter nach der vorliegenden Erfindung auf jeder Hierarchieebene angewendet werden.
Vorteilhaft kann die Hierarchie zwei GMMs als zwei untere Ebenen mit einem HMM auf der höchsten Ebene umfassen. Das GMM auf der untersten Ebene liefert die Aposteriori-Wahrscheinlichkeiten als datenkodierenden Vektor an ein zweites GMM auf höherer Ebene. Dieses zweite GMM liefert Beobachtungswahrscheinlichkeiten an ein HMM auf der dritten Ebene. Diese Anordnung ermöglicht, dass einzelne Sprachgeräusche in dem Spektralvektorraum nicht als einzelne Gaußsche Ellipsoide dargestellt werden, wie es üblich ist, sondern als Ansammlungen von vielen kleineren Gaußschen Hyperkreisen, die die Einheits-Hyperkugel überziehen, was Potenzial für eine originalgetreuere Darstellung von hochkomplex geformten Sprachgeräuschen und folglich verbesserte Klassifizierungsleistung bietet.
Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zur Verarbeitung eines Signals geschaffen, wobei das Signal mehrere datenkodierende Vektoren mit mehreren Elementen umfasst, wobei die datenkodierenden Vektoren aus einem analogen oder digitalen Eingangssignal abgeleitet sind, und wobei das Verfahren wenigstens ein Gaußsches Mixturmodell (GMM) und ein GMM-basiertes Hidden-Markov-Modell (HMM) einsetzt, wobei das wenigstens eine GMM und GMM-basierte HMM wenigstens einen Mittelwertvektor der Klassen mit mehreren Elementen aufweisen, und die Elemente des Mittelwertvektors (der Mittelwertvektoren) der Klassen in einer iterativen Prozedur optimiert werden, dadurch gekennzeichnet, dass die Elemente des Mittelwertvektors der Klassen während der Optimierungsprozedur derart skaliert werden, dass die Mittel Wertvektoren der Klassen bei jeder Iterationen eine konstanten Betrag haben, und die datenkodierenden Vektoren, die in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, derart verarbeitet werden, dass sie normiert werden.
S
Es sei bemerkt, dass der (die) Benutzer eines Systems, das nach dem Verfahren nach der vorliegenden Erfindung trainiert ist, sich von dem (den) Benutzer(n) unterscheiden können, die das Training durchgeführt haben. Dies liegt an der Unterscheidung zwischen dem Trainings- und dem Klassifizierungsmodus nach der Erfindung.
Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Computerprogramm geschaffen, das dazu entworfen ist, auf einem Computer zu laufen, und das dazu eingerichtet ist, ein Signalverarbeitungsverfahren zur Verarbeitung von einem oder mehreren Eingangsvektoren mit mehreren Elementen zu implementieren, wobei das Verfahren die folgenden Schritte umfasst:

– Ableiten der datenkodierenden Vektoren aus Eingangssignalen;
– Verarbeiten der datenkodierenden Vektoren mit wenigstens einem Gaußschen Mixturmodell (GMM) und einem GMM-basierten Hidden-Markov-Modell (HMM), wobei das wenigstens eine GMM und GMM-basierte HMM wenigstens einen Mittelwertvektor der Klassen mit mehreren Elementen aufweist;
– Verarbeiten der Elemente des (der) Mittelwertvektor(en) der Klassen durch eine iterative Optimierungsprozedur;

Die vorliegende Erfindung kann auf einem herkömmlichen Computersystem implementiert werden. Ein Computer kann programmiert werden, sodass ein Signalverarbeitungsverfahren nach der vorliegenden Erfindung implementiert wird, das auf der Computerhardware läuft.
Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Spracherkenner geschaffen, der ein Signalverarbeitungssystem zur Verarbeitung von einem oder mehreren Eingangsvektoren mit mehreren Elementen umfasst, wobei der Erkenner:

– eine Einrichtung zum Ableiten der datenkodierenden Vektoren aus Eingangssignalen aufweist;
– dazu eingerichtet ist, die datenkodierenden Vektoren mit wenigstens einem Gaußschen Mixturmodell (GMM) und einem GMM-basierten Hidden-Markov-Modell (HMM) zu verarbeiten, wobei das wenigstens eine GMM und GMM-basierte HMM wenigstens einen Mittelwert der Klasse mit mehreren Elementen aufweist;
– dazu eingerichtet ist, die Elemente des (der) Mittelwertvektor(en) der Klasse durch eine iterative Optimierungsprozedur zu verarbeiten;

Ein Spracherkenner kann vorteilhaft ein Signalverarbeitungssystem wie hier beschrieben enthalten, und kann ein Verfahren zur Signalverarbeitung wie hier beschrieben enthalten.
Die vorliegende Erfindung wird nun detaillierter, nur als Beispiel, mit Bezugnahme auf die Figuren im Anhang beschrieben, in denen:
1 schematisch eine typische Hardwareanordnung darstellt, die für die Verwendung für die vorliegende Erfindung geeignet ist, wenn sie in einem Spracherkenner implementiert ist.
2 zeigt in Form eines Blockdiagramms die herkömmliche Neuschätzungsprozedur, die von den Systemen nach dem Stand der Technik, die GMM- oder HMM-basierte Klassifizierer einsetzen, angewendet wird;
3 zeigt in Form eines Blockdiagramms eine der Vorverarbeitungsstufen, die auf Eingangsvektoren angewendet wird, die auf Sprachframes basieren, die die spektrale Form der Frames betrifft.
4 zeigt in Form eines Blockdiagramms eine weitere Vorverarbeitungsstufe, die mit den Eingangsvektoren ausgeführt wird, die die Gesamtlautstärke eines Sprachframes betrifft;
5 zeigt in Form eines Blockdiagramms die modifizierte Neuschätzungsprozedur von GMMs oder herkömmlichen oder hierarchischen HMMs nach der vorliegenden Erfindung;
6 zeigt detaillierter die Zwangsbedingung für die Neuskalierung der Klassenmittelwerte, die in 5 gezeigt sind;
7 zeigt in Form eines Blockdiagramms die Implementierung eines vollständigen Systems; und
8 zeigt grafisch einen Vorteil der vorliegenden Erfindung am Beispiel eines vereinfachten dreidimensionalen Eingangsvektorraums.
Die aktuelle Erfindung wird typischerweise auf einem Computersystem mit irgend einer Art von analogem Eingang, einem Analog-Digital-Wandler und einer digitalen Verarbeitungseinrichtung implementiert. Die digitale Verarbeitungseinrichtung umfasst einen digitalen Speicher und einen Prozessor. Wie in 1 gezeigt ist, hat eine Ausführung als Spracherkenner typischerweise ein Mikrofon 1, das als Wandler der Sprache selbst arbeitet, dessen Ausgang in einen Analog-Digital-Wandler (ADC) 2 gespeist wird. Es kann auch etwas analoge Verarbeitung vor dem ADC stattfinden (nicht gezeigt). Der ADC speist sein Ausgangssignal in einen Schaltkreis 3, der das Digitalsignal in l0ms-Abschnitte aufteilt, und mit jedem Abschnitt eine Spektralanalyse durchführt, um einen Spektralvektor zu erzeugen. Diese Spektralvektoren werden dann in den Signalprozessor 4 gespeist, in dem die vorliegende Erfindung implementiert ist. Dem Signalprozessor 4 ist ein digitaler Speicher 5 zugeordnet. Manche Anwendungen können als Eingangssignal ein Signal haben, das an irgendeiner entfernt gelegenen Stelle digitalisiert worden ist, und wei sen deshalb keinen ADC auf. Andere Anordnungen der Hardware sind innerhalb des Bereichs der vorliegenden Erfindung ebenso möglich.
Ein typisches Signalverarbeitungssystem nach der vorliegenden Erfindung umfasst ein simples GMM und ein GMM-basiertes HMM, die zusammen verwendet werden, um ein Eingangssignal zu klassifizieren. Bevor jedes dieser Modelle für Klassifizierungszwecke verwendet werden kann, müssen sie zuerst mit einem Satz von Trainingsdaten optimiert, oder trainiert, werden. Es gibt folglich zwei verschiedene Betriebsarten eines Klassifizierungsmodells: die Trainingsphase und die Klassifizierungsphase.
2 zeigt allgemein die Schritte, die von Systemen nach dem Stand der Technik beim Training sowohl eines GMM- als auch eines HMM-basierten Klassifizierers verwendet werden. 2 stellt die Optimierung von hierarchischen GMM-basierten HMMs als auch die Optimierung von herkömmlichen GMM-basierten HMMs und einfachen GMMs dar, weil die Schritte, die sich auf die Initialisierung und Neuschätzung der Übergangswahrscheinlichkeiten des HMMs beziehen, sich auf Initialisierung und Neuschätzung von Übergangswahrscheinlichkeiten des HMMs auf allen Ebenen der Hierarchie beziehen. Das Flussdiagramm beginnt von oben, wenn es erforderlich ist, einen verbesserten Satz von Parametern in dem Modell aufzubauen, um die Klassifizierungsleistung zu verbessern. Zuerst müssen verschiedene Klassen initialisiert werden, wobei diese durch die Mittelwerte der Klassen, Kovarianzmatrizen der Klassen und Apriori-Wahrscheinlichkeiten der Klassen dargestellt werden. HMMs haben den zusätzlichen Schritt der Initialisierung der Übergangswahrscheinlichkeiten. Diese Initialisierungwerte können zufällig sein, oder können eine „beste Schätzung" sein, die sich entweder aus irgendei ner vorangehenden Schätzungsprozedur oder aus irgendeinem anderen Verfahren ergibt.
Diese Initialisierungen stellen die anpassbaren Parameter für die erste Iteration der Trainingsprozedur ein, die wie folgt abläuft. Aus der Trainingssequenz erhält man einen datenkodierenden Vektor oder eine Vektorsequenz (für den Fall eines HMM), der mit einer bekannten Neuschätzungsprozedur verarbeitet wird. Für GMMs wird oft der EM-Algorithmus verwendet, und für HMMs ist die Baum-Welch-Neuschätzungsprozedur Gang und gäbe. Dies ist die innere Schleife der Neuschätzungsprozedur, die für alle datenkodierenden Vektoren in der Trainingssequenz ausgeführt wird.
Indem dies verfolgt wird, werden die Informationen, die während der Verarbeitung der inneren Schleife gewonnen werden, verwendet, um die neuen Klassen, und im Falle des HMM, die neuen Übergangswahrscheinlichkeiten zu berechnen. Die Konvergenz dieser neuen Daten wird geprüft, indem sie mit dem vorangehenden Satz verglichen werden, oder durch Beurteilung, ob die Likelihood-Funktion ein stabiles Minimum erreicht hat, und der Prozess wird erneut iteriert, wenn erforderlich, wobei die neu berechneten Daten als Startpunkt verwendet werden.
Gehen wir zur vorliegenden Erfindung über, eine Ausführung der vorliegenden Erfindung, die auf Spracherkennung angewendet wird, setzt einen modifizierten Spektralvektor ein, der auf eine Weise vorverarbeitet wird, die sich von der herkömmlichen logarithmischen Leistungsdarstellung nach dem Stand der Technik unterscheidet. Der Spektralvektor selbst besteht aus einen spektralen Darstellung eines l0ms-Abschnitts von Sprache, die typischerweise in 25 Frequenzintervalle unterteilt wird.
Das Ziel der ersten Stufe der Vorverarbeitung ist, dass Elemente x_i (i = 1, ..., m) des n-dimensionalen (m ≤ n) Spektralvektors x statt der herkömmlichen Logarithmen der integrierten Leistung in verschiedenen Frequenzbändern proportional zur Quadratwurzel
der integrierten Leistung P_i innerhalb verschiedener Frequenzbänder sein sollen. Außerdem sollen die Elemente x_i (i = 1, ..., m) derart skaliert werden, dass deren Quadrate sich zu einer Konstanten A aufsummieren, die von der über alle Frequenzbänder integrierten Gesamtleistung in dem Frame, der dem Spektralvektor entspricht, unabhängig ist. Wenn folglich der Frame in m Frequenzbänder abgebildet wird, genügen m der Elemente x_i des n-dimensionalen (n ≤ m) Spektralvektors x
Der Wert der Konstanten A hat keine funktionelle Bedeutung; alles, was wichtig ist, ist, dass er sich von einem Spektralvektor zum nächsten nicht ändert.
Der Vorteil dieser Darstellung der Spektralvektoren als normierte Quadratwurzeln aus der Leistung ist, dass der Grad der Übereinstimmung der Form des Spektralvektors x_i (i = 1, ..., m) im Vergleich mit einem Mittelwertvektor einer Klasse w_i (i = 1, ..., n) dann proportional zu dem Skalarprodukt ∑mi=1 xiwi ist, unabhängig von dem Betrag (Vektorlänge) der Schablone. Dies bietet die Freiheit, den Betrag der Schablone zu mit Zwangsbedingungen zu belegen, ohne die Funktio nalität zu verlieren, den Grad der Übereinstimmung mit der Schablone bestimmen zu können, indem das Skalarprodukt berechnet wird.
Die Schritte, die an der neuartigen Kodierung von Spektralvektoren beteiligt sind, sind in dem Flussdiagramm in 3 dargestellt und werden wie folgt aufgelistet (a–e). Nachdem (a) ein Wert für die Konstante A für die Verwendung für alle Sprachframes gewählt wurde, ist (b) der erste Schritt, der für jeden einzelnen Sprachframe angewendet wird, derselbe, wie der herkömmliche Prozess für die Durchführung einer Spektralanalyse, um m Werte der integrierten Leistung P_i (i = 1, ..., m) innerhalb m verschiedenen Frequenzbändern zu erhalten, die sich über den hörbaren Frequenzbereich erstrecken. Dann (c) werden statt der Berechnung der Logarithmen dieser Leistungswerte, wie es nach dem Stand der Technik üblich ist, deren Summe ∑mj=1 Pj und (d) deren Quadratwurzeln
(i = 1,..., m) berechnet. (e) Jeder Quadratwurzelwert
wird dann durch die Gesamtlesitung ∑mj=1 Pj geteilt (und mit einem beliebigen konstanten Skalierungsfaktor A multipliziert), um Elemente x_i (i = 1, ..., m) mit der neuartigen Kodierung des Spektralvektors zu erhalten, der durch Gleichung 1 definiert ist.
Als ein zweiter Teil der Vorverarbeitung der Spektralvektoren wird der Vektor außerdem durch Hinzufügen von zusätzlichen Elementen erweitert, die die Gesamtlautstärke der Sprache in dem Frame darstellen, das heißt, die über alle Frequenzbänder integrierte Gesamtleistung ∑mj=1 Pj .
Dies ist besonders nützlich in Verbindung mit der neuartigen Art und Weise der Kodierung der spektralen Form, die durch Gleichung 1 definiert ist. Dies liegt daran, dass die Elemente x_i (i = 1, ..., m) offensichtlich von der Gesamtlautstärke ∑mj=1 Pj unabhängig sind, und deshalb keine Information darüber kodieren, folglich müssen diese m Elemente durch zusätzliche Informationen erweitert werden, wenn der Spektralvektor die Lautsärkeninformation übermitteln soll.
In der vorliegenden Ausführung werden zwei zusätzliche Elemente x_m+1 und x_m+2 hinter den m Elementen zu dem Spektralvektor hinzugefügt, um die spektrale Form zu kodieren. Folglich hat der Spektralvektor n = m + 2 Dimensionen. Diese zwei Elemente hängen von der Gesamtlautstärke L ≡ ∑mj=1 Pj auf folgende Weise ab:
wobei f() und g() zwei (verschiedene) Funktionen der Gesamtlautstärke L sind, und B eine Konstante ist. Die Bedeutung von B ist, dass das Verhältnis B/A die relativen Beiträge zu dem quadrierten Betrag |x|2 = x·x = ∑ni=1 x2j festlegt, die aus den zwei Untermengen von Elementen (i = m + 1, m + 2) und (i = 1, ..., m) bestehen; die Werte dieser Beiträge sind offensichtlich B² beziehungsweise A². Das Verhältnis B/A kann deshalb verwendet werden, um die relative Gewichtung zu steuern, die der Gesamtlautstärke und der spektralen Form bei der Kodierung von Spektralvektoren beigemessen wird; zum Beispiel misst die Wahl von B = 0 der Gesamtlautstärke keine Bedeutung bei, während die Wahl von ähnlichen Werten für A und B beiden Aspekten der Sprache ähnliche Gewichtung beimisst. Der Wert von A² + B² kann aus Gründen der Einfachheit zu 1 gewählt werden, was den quadrierten Betrag |x|2 = x·x = ∑ni=1 x2j = A2 + B2 für alle Spektralvektoren unabhängig von ihrem Sprachinhalt gleich 1 macht.
Die Vorteile dieser neuartigen Darstellung der Lautstärke sind (a), dass die Beträge aller Sprachvektoren unabhängig von der Gesamt lautstärke den selben konstanten Wert haben, was die Freiheit einräumt, die Beträge der Schablonen (Mittelwerte der Klassen) w = (w₁, ..., w_n) mit Zwangsbedingungen zu belegen, wie es in den Hauptansprüchen vorgeschlagen wird, und (b), dass das Verhältnis B/A verwendet werden kann, um die relative Gewichtung zu steuern, die der Gesamtlautstärke und der spektralen Form bei der Kodierung von Spektralvektoren beigemessen wird.
Mögliche Wahlen für die Funktionen f() und g() umfassen
wobei L^min und L^max Konstanten sind, die so gewählt sind, dass sie den leisesten und lautesten Lautstärken (integrierte Gesamtleistung) entsprechen, die typischerweise in den einzelnen Sprachframes auftreten.
Brauchbare Werte für das Konstantenpaar (A,B) sind (1,0),
und
die alle A²+ B²= 1 genügen.
Die an dem Prozess beteiligten Schritte nach der Auswahl der Funktionen f() und g() und der Konstanten B, L^min und L^max, die für alle Sprachframes verwendet werden sollen, der erforderlich ist, um die Kodierung der Lautstärke wie oben beschrieben zu integrieren, sind in 4 dargestellt. Der Prozess umfasst (a) das Aufsummieren der integrierten Leistungen P_i innerhalb von m Frequenzbereichen i = 1, ...m für jeden Sprachframe, um die Gesamtlautstärke L für diesen Sprachframe zu erhalten, (b) das Auswerten der zwei zusätzlichen Elemente x_m+1 und x_m+2 für diesen Sprachframe nach Gleichung 2, und (c) Anhängen der zwei Zusatzelemente an die m Elemente für diesen Sprachframe, die aus dem Prozess in 4 erhalten wurden, um einen n = m + 2-dimensionalen Spektralvektor zu erhalten, der die neuartigen Kodierungen der spektralen Form und der Lautstärke enthält.
Die Schritte, die in den 3 und 4 gezeigt sind, umfassen die Vorverarbeitung der Spektralvektoren entsprechend der Ausführung der vorliegenden Erfindung.
Die Eingangsvektoren, die wie oben beschrieben vorverarbeitet wurden, werden verwendet, wenn die vielfältigen Parameter der GMMs und GMM-basierten HMMs optimiert werden. Die innere Schleife der Optimierungsprozedur, die oben mit Bezug auf 1 beschrieben wurde, wird mit herkömmlichen Verfahren durchgeführt, wie etwa EM-Neuschätzung beziehungsweise Baum-Welch-Neuschätzung. Weitere neuartige Stufen sind mit der Anwendung von Zwangsbedingungen auf die Parameter zwischen Iterationen dieser inneren Schleife befasst.
5 zeigt die Neuschätzungsprozedur nach der vorliegenden Erfindung, wobei zusätzliche Prozesse im Vergleich mit den in 2 gezeigten vorhanden sind. Diese zusätzlichen Prozesse beziehen sich auf die Initialisierung der Klassen bevor der iterative Teil der Prozedur beginnt, und auf die Neuskalierung der Mittelwerte der Klassen, die auf jede Iteration folgt, um die Zwangsbedingungen zu berücksichtigen, die auferlegt werden sollen. Für den Fall des HMM sei bemerkt, dass die Verarbeitung der Übergangswahrscheinlichkeiten gegenüber dem Stand der Technik unverändert bleibt.
Eine der Zwangsbedingungen, die zwischen Iterationen der inneren Schleife angewendet wird, betrifft die Mittelwertvektoren der Klassen des GMMs oder HMMs. Die Zwangsbedingung hat die Form der Neuskalierung des Satzes von n-dimensionalen Vektoren w_j = (w_j1, ..., w_jn), die die Mittelwerte der Klassen darstellen.
Diese Zwangsbedingung wird auf alle Mittelwerte von Klassen angewendet, sobald sie erneut geschätzt wurden, jedesmal, wenn sie (von den EM- und Baum-Welch-Neuschätzungsprozeduren zum Beispiel) erneut geschätzt wurden, und ebenso, wenn sie zum ersten Mal initialisiert werden (siehe 5). Diese zusätzlichen Schritte, die in dem Flussdiagramm in 5 dargestellt sind, sind (a) die Summierung der Quadrate seiner Elemente und dann das Ziehen der Quadratwurzel aus der Summe, wobei der Betrag |w_j| von jedem der N erneut geschätzten Mittelwerte der Klasse w_j zuerst als
für alle N Klassen j = 1, ..., N berechnet wird; (b) nach der Berechnung des Betrags |w_j| von jedem erneut geschätzten Mittelwert der Klassen werden alle Elemente von jedem Mittelwert der Klassen durch diesen entsprechenden Betrag geteilt, das heißt
Diese Schritte haben den Effekt der Neuskalierung aller Mittelwerte der Klassen w_j auf einen konstanten Betrag D bis zur nächsten Iteration ihrer Neuschätzung, nach der sie wieder neu auf einen konstanten Betrag D skaliert werden, indem diese Schritte wieder angewendet werden, wie in 5 dargestellt ist. Der Wert der Konstanten D wird vorzugsweise gleich dem Betrag |x| des Datenvektors x gesetzt. (Zum Beispiel muss für ein GMM, das Eingangsdaten mit einem Betrag |x| = √A² + B² empfängt, der Wert von D gleich √A² + B² gesetzt werden.)
Die Vorteile der Neuskalierung der Mittelwerte der Klassen auf konstanten Beträge sind, dass dies die Spracherkennungsalgorithmen motiviert, neuartige Kodierungen einzusetzen, die die Leistung bei der Sprachklassifikation verbessern (wie etwa hierarchische Kodierung mit Matrizen mit dünner Besetzung), und dass sie die Anfälligkeit von Spracherkennungsalgorithmen verringert, während des Trainings in unerwünschten suboptimalen Konfigurationen („lokalen Minima") gefangen zu werden. Diese Vorteile ergeben sich aus der Tatsache, dass die Dynamik des Lernens vereinfachte Freiheitsgrade hat, weil die Mittelwerte der Klassen gezwungen sind, auf einer Hyperkugel (mit dem Radius D) zu bleiben, wenn sie angepasst werden.
Die Neuskalierung der Mittelwerte der Klassen w_j auf konstanten Beträge ist besonders vorteilhaft in Verbindung mit der Skalierung der Datenvektoren x auf konstante Beträge. Dies liegt daran, dass der Grad der Übereinstimmung zwischen einem Datenvektor x und einem Mittelwert einer Klasse w_j rein aus der Berechnung des Skalarprodukts w_j·x bestimmt werden kann.
Weiter sind in dieser Ausführung der vorliegenden Erfindung die Kovarianzmatrizen C_j der Gaußverteilungen, die die GMMs darstellen, auf Isotropie und bedingte Varianz beschränkt, das heißt, dass sie nicht nach den herkömmlichen Neuschätzungsprozeduren für Kovarianzmatrizen (wie etwa EM-Algorithmen für GMMs und der Baum-Welch-Prozedur für GMM-basierte HMMs) optimiert werden, sondern ein für allemal als die isotrope Einheitsmatrix I und die bedingte Varianz V durch Cj ≡ VI für alle Klassen j = 1, ..., N (Gleichung 6)definiert werden.
V ist ein freier Parameter, der (zum Beispiel durch Versuch und Irrtum) gewählt wird, um dem Spracherkennungssystem die beste Klassifizierungsleistung zu geben; V muss größer als Null sein, da die Kovarianzmatrix nichtnegative Eigenwert hat, und V vorzugsweise erheblich kleiner als der Wert von D²ist. Der Vorteil, V viel kleiner als D² einzustellen, ist, dass dies zu einer Verteilung mit dünner Besetzung der Aposteriori-Wahrscheinlichkeiten der einfachen GMMs auf der ersten Ebene führt, die in der Hauptausführung den Raum der datenkodierenden Vektoren des GMM-basierten HMMs auf der zweiten Ebene füllen. Dies liegt daran, dass jede Gaußsche Komponente des einfachen GMMs auf erster Ebene einzeln nur einen kleinen Bereich der Hyperkugel der Spektralvektoren überspannt.
Dieser Prozess zur Auswahl der Kovarianzmatrizen umfasst die folgenden Schritte: (a) Auswählen eines Wertes für die Proportionalitätskonstante V, um die Klassifizierungsleistung zu optimieren, z. B. durch Versuch und Irrtum, (b) Einstellen der Kovarianzmatrizen der Klassen gleich V, und (c) Einstellen aller Elemente außerhalb der Diagonalen der Kovarianzmatrizen der Klassen auf Null. Folglich ist die Kovarianzmatrix nach dieser Ausführung der vorliegenden Erfindung sowohl isotrop als auch diagonal.
Die Verwendung in Verbindung mit den obigen Methoden zur Auferlegung von Zwangsbedingungen für die Beträge der Datenvektoren x und Mittelwerte der Klassen w_j, die die Kovarianzen der Klassen auf diese Weise bedingen, bieten den Vorteil der Motivation von Sprach erkennungsalgorithmen, neuartige Kodierungen von Sprachdaten einzusetzen, die die Spracherkennungsleistung (wie etwa hierarchische Kodierung mit Matrizen mit dünner Besetzung) verbessern können, und die Anfälligkeit von Spracherkennungsalgorithmen verringern, sich während des Trainings in unerwünschten suboptimalen Konfigurationen („lokale Minima") zu fangen. Kodierung mit Matrizen mit dünner Besetzung ergibt sich aus der Darstellung von einzelnen Sprachgeräuschen als Ansammlungen von vielen kleinen isotropen Gaußschen Hyperkreisen, die die Einheitshyperkugel im Raum der Spektralvektoren überziehen, was sich in dem Potenzial für zuverlässigere Darstellung von hochkomplex geformten Sprachgeräuschen, als es durch die Darstellung eines einzelnen anisotropen Ellipsoiden möglich ist, und folglich verbesserter Klassifizierungsleistung äußert.
Da diese Zwangsbedingung die Notwendigkeit der herkömmlichen Neuschätzung der Kovarianzmatrizen ohne Zwangsbedingungen beseitigt, umfasst die modifizierte Prozedur zur Optimierung der GMMs in 5 nicht die Neuschätzung von Kovarianzmatrizen wie die herkömmliche Prozedur in 2.
Für den Fall, in dem die Kovarianzmatrix auf Isotropie beschränkt ist, ist es wohlbekannt, dass jede Likelihood der Klassen eines GMMs (aus denen die Aposteriori-Wahrscheinlichkeiten über das wohlbekannte Bayessche Theorem abgeleitet werden) aus dem Betrag der Vektordifferenz |x - w| zwischen dem datenkodierenden Vektor x und dem entsprechenden Mittelwert der Klasse w berechnet wird. Es ist wohlbekannt, dass diese Größen aus dem Skalarprodukt x.w des datenkodierenden Vektors x und des Mittelwerts der Klasse w aus der Beziehung |x – w|² = |x²| + |w²| – 2x.w abgeleitet werden können. Im Fall eines exponentiellen Mixturmodells werden die Likelihoods der Klassen direkt aus dem Skalarprodukt x.w berechnet. In Fällen, in denen ein Satz {w} von N Mittelwerten der Klassen mit Translationstransformationen (wie etwa 2-dimensionalen Translationen in einer Bildebene in Fällen, in denen die datenkodierenden Vektoren Bilder darstellen, oder 1-dimensionalen zeitlichen Translationen in Fällen, in denen die datenkodierenden Vektoren 1-dimensionale zeitliche Signale darstellen) einander gleichwertig sind, liefert das wohlbekannte „Korrelationstheorem" eine viel recheneffizienteres Einrichtung zur Berechnung des entsprechenden Satzes {x.w} von N Skalarprodukten mit einem gegebenen datenkodierenden Vektor x als durch die explizite Ausführung von N Skalarproduktoperationen; das äquivalente Ergebnis kann stattdessen durch die Berechnung der inversen Fourier-Transformation des komponentenweisen Produkts der Fouriertransformierten von x mit der richtungsumgekehrten Fouriertransformierten von w berechnet werden. Auf diese Weise kann das gewünschte Ergebnis {x.w} in der Größenordnung von N.log(N) Schritten statt N² erhalten werden. Weitere Details hiervon können nach dem Stand der Technik bei C.J.S. Webber, „Signal Processing Technique", PCT Publication No. WO/01/61526 gefunden werden. Die vorliegende Erfindung kann auf GMMs und/oder GMM-basierte HMMs angewendet werden, ungeachtet dessen, ob das Korrelationstheorem verwendet wird, um die Berechnung eines solchen Satzes von translationsbezogenen Skalarprodukten {x.w} zu berechnen oder nicht.
Eine weitere Zwangsbedingung, die in dieser Ausführung auferlegt wird, betrifft die Wahl der Apriori-Wahrscheinlichkeiten der Klassen. Die N Apriori-Wahrscheinlichkeiten Pr(j) für die GMM-Klassen j = 1, ..., N können auf Konstanten beschränkt werden, das heißt, nicht nach den herkömmlichen Neuschätzungsprozeduren für Apriori-Wahrscheinlichkeiten von Klassen (wie etwa dem EM-Algorithmus für GMMs und der Baum-Welch-Prozedur für GMM-basierte HMMs) zu optimieren, sondern ein für allemal durch den Schritt des Setzens von Pr(j) = 1/N für alle Klassen j = 1, ..., N (Gleichung 7). definiert werden.
Bei der Verwendung in Verbindung mit den obigen Innovationen für die Auferlegung von Zwangsbedingungen für die Beträge von Datenvektoren x, den Mittelwerten der Klassen w_j und den Kovarianzmatrizen C_j bietet die Auferlegung von Zwangsbedingungen für die Apriori-Wahrscheinlichkeiten von Klassen auf diese Weise den Vorteil der Reduzierung der Anfälligkeit von Spracherkennungsalgorithmen, sich während des Trainings in unerwünschten suboptimalen Konfigurationen („lokalen Minima") zu fangen. Weil diese Erfindung die Notwendigkeit der herkömmlichen Neuschätzung von Apriori-Wahrscheinlichkeiten der Klassen ohne Zwangsbedingungen beseitigen, umfasst die modifizierte Prozedur zur Optimierung von GMMs in 5 keine Neuschätzung von Apriori-Wahrscheinlichkeiten von Klassen wie die herkömmliche Prozedur in 2.
Fachleuten auf dem relevanten Gebiet ist klar, dass die Zwangsbedingungen, die GMMs oder HMMs wie oben beschrieben in der Trainingsphase des Modells auferlegt werden, ebenso während der Klassifizierungsphase bei der Verwendung des Modells angewendet werden müssen. Wenn sie während des Trainings angewendet wurden, müssen die Schritte zur Kodierung der spektralen Form und der Gesamtlautstärke nach der vorliegenden Erfindung wie oben beschrieben auf jeden Spektralvektor von jeglicher neuer Sprache, die klassifiziert werden soll, angewendet werden.
Eine Implementierung der Erfindung, die alle Zwangsbedingungen kombiniert, die oben detailliert beschrieben wurden, ist in 6 dargestellt. Diese Implementierung verwendet herkömmliche Spektralanalyse von jedem Sprachframe, gefolgt von neuartigen Schritten, die oben beschrieben wurden, um sowohl die spektrale Form als auch die Gesamtlautstärke in jedem Spektralvektor zu kodieren und den Betrag von jedem Spektralvektor auf den konstanten Wert 1 zu skalieren. Die Parameter A und B werden beide gleich 1/√2 gesetzt, und D wird gleich 1 gesetzt.
Solche Spektralvektoren mit Einheitsbetrag werden in ein GMM mit 100 Gaußschen Klassen (N = 100) eingegeben, wobei die Mittelwerte der Klassen alle auf einen Betrag gleich 1 beschränkt sind, die Apriori-Wahrscheinlichkeiten der Klassen alle auf konstante Werte gleich 1/100 beschränkt sind und die Kovarianzmatrizen auf Isotropie und konstante Varianten beschränkt sind (das heißt, nicht bei jeder Iteration nach einer Prozedur wie etwa dem EM-Algorithmus neu geschätzt werden). Als eine gute Wahl für diese konstante Varianz V wurde 0,01 gefunden, obwohl andere Werte durch Versuch und Irrtum ausgewählt werden können, um die beste Leistung bei der Sprachklassifikation für das gesamte System zu erreichen; die richtige Wahl für V liegt zwischen 0 und 1. Für jeden Spektralvektor, der in dieses GMM eingegeben wird, werden die Aposteriori-Wahrscheinlichkeiten für die Klassen auf herkömmliche Weise berechnet.
Jeder Satz von Aposteriori-Wahrscheinlichkeiten des GMMs, der oben für jeden Spektralvektor berechnet wurde, wird verwendet, um die datenkodierenden Vektoren mit Einheitsbetrag für die Eingabe in einen herkömmliches GMM-basiertes HMM zu berechnen, indem die Quadratwurzeln aus diesen Aposteriori-Wahrscheinlichkeiten gezogen werden.
Diese datenkodierenden Vektoren mit Einheitsbetrag werden in das HMM als Beobachtungsvektoren eingegeben. Die Mittelwerte der Klassen der Gaußschen Mixtur, die die Parametrisierung der Beobachtungswahrscheinlichkeiten des HMMs darstellen, sind alle auf Beträge gleich 1 beschränkt. Die Anzahl N von Gaußschen Klassen, die verwendet wird, um die Beobachtungswahrscheinlichkeiten des HMMs zu parametrisieren, wird durch Versuch und Irrtum ausgewählt, sodass sich die beste Leistung bei der Sprachklassifikation des Gesamtsystems ergibt. Die Apriori-Wahrscheinlichkeiten dieser Klassen werden dann durch diese Wahl von N festgelegt; sie sind alle mit der Zwangsbedingung belegt und auf 1/N gesetzt. Die Kovarianzmatrizen dieser Klassen sind alle auf Isotropie und konstante Varianzen beschränkt (das heißt, sie werden nicht ohne Zwangsbedingung nach einer Prozedur wie etwa dem EM-Algorithmus erneut geschätzt). Die Wahl dieser konstanten Varianz V wird durch Versuch und Irrtum festgelegt, sodass sie die beste Leistung bei der Spracherkennung des Gesamtsystems ergibt; die richtige Wahl für V liegt zwischen 0 und 1.
Die bevorzugte Implementierung der Erfindung kann im Trainingsmodus und im Klassifizierungsmodus betrieben werden. Im Klassifizierungsmodus wird das HMM verwendet, um die eingegebenen Beobachtungsvektoren nach einem herkömmlichen HMM-Klassifizierungsverfahren (Baum-Welch-Vorwärts-Rückwärts-Algorithmus oder Viterbi-Algorithmus) zu klassifizieren, wobei es den oben beschriebenen Modifikationen unterworfen ist.
Im Trainingsmodus wird (a) das GMM für das Training der Spektralvektoren mit Einheitsbetrag (wie oben beschrieben kodiert) nach einer herkömmlichen Prozedur zur Optimierung der Mittelwerte von Klassen von GMMs (z. B. dem EM-Neuschätzungsalgorithmus) opti miert, die den innovativen Modifikationen zur Neuskalierung der Mittelwerte der GMM-Klassen auf konstante Beträge gleich 1 unterliegt und die herkömmlichen Schritte zur Neuschätzung der Kovarianzmatrizen der GMM-Klassen und Apriori-Wahrscheinlichkeiten der Klassen weglässt. (b) Nachdem das GMM optimiert wurde, wird es wie oben beschrieben verwendet, um einen Satz von datenkodierenden Vektoren aus dem Trainingssatz von spektralen Sprachvektoren zu berechnen. (c) Dieser Satz von datenkodierenden Vektoren wird dann für das Training des HMM nach einer herkömmlichen Prozedur zur Optimierung der Mittelwerte von HMM-Klassen (z. B. der Baum-Welch-Neuschätzungsprozedur) verwendet, die den innovativen Modifikationen zur Neuskalierung der Mittelwerte von HMM-Klassen auf Beträge gleich 1 unterliegt und die herkömmlichen Schritte zur Neuschätzung der Kovarianzmatrizen der HMM-Klassen und der Apriori-Wahrscheinlichkeiten der Klassen weglässt. Die herkömmlichen Schritte zur Neuschätzung der Übergangswahrscheinlichkeiten des HMMs werden nicht modifiziert; die herkömmliche Baum-Welch-Neuschätzungsprozedur kann für die Neuschätzung der Übergangswahrscheinlichkeiten des HMMs verwendet werden.
8 stellt den Vorteil des Einsatzes der Zwangsbedingungen nach der vorliegenden Erfindung dar. Sie zeigt einen Spektralvektor x = (x₁, x₂, x₃), wobei |x| = 1 ist. Die Beschränkung dieses Spektralvektors, zum Beispiel 101, darauf, dass er einen konstanten Betrag hat, impliziert, dass die Mittelwerte der Klasse 102 alle auf der Oberfläche einer Hyperkugel liegen. In dem gezeigten Fall hat die Hyperkugel zwei Dimensionen, und ist deshalb eine herkömmliche 2-Kugel 103 in einem herkömmlichen dreidimensionalen Raum. Das Beschränken der Kovarianzmatrizen darauf, dass sie isotrop und diagonal sind, hat den Effekt, dass die einzelnen Klassen in Form von Kreisen 104 auf diese Hyperkugel projiziert werden. Diese Anordnung ermöglicht, dass einzelne Sprachgeräusche in dem Spektralvektorraum nicht als einzelne Gaußsche Ellipsoide dargestellt werden, wie es üblich ist, sondern als Ansammlungen 105 von vielen kleineren Gaußschen Hyperkreisen 104, die die Einheitshyperkugel 103 überziehen, was Potenzial für eine verlässlichere Darstellung von hochkomplex geformten Sprachgeräuschen und folglich verbesserte Leistung bei der Klassifizierung bietet. Jede Klasse (Hyperkreis), zum Beispiel 104, überspannt nur einen kleinen Bereich der komplexen Form, die den Satz von allen der Spektralvektoren (die alle auf dem Hyperkreis 103 der Spektralvektoren liegen müssen) absteckt, die alternativen Aussprachen eines bestimmten individuellen Sprachgeräuschs entsprechen können; insgesamt können viele solcher Klassen 104 die gesamte komplexe Form viel verlässlicher überspannen, als es ein einzelner anisotroper Ellipsoide könnte, der herkömmlich verwendet wird, um ein einzelnes Sprachgeräusch darzustellen. Andere Sätze von Gaußschen Klassen in dem selben Mixturmodell können Teile von anderen komplexen Formen auf der Hyperkugel aus den Spektralvektoren überspannen, das heißt von anderen Sprachgeräuschen. Die Aposteriori-Wahrscheinlichkeiten, die jeder dieser Gaußschen Klassen (Hyperkreise) zugeordnet sind, ist ein Maß dafür, wie nah der aktuelle Spektralvektor (auf der Hyperkugel der Spektralvektoren) an dem Mittelwert der entsprechenden Gaußschen Klasse 102 (das Zentrum des Hyperkreises) ist. Auf Basis von all den zeitlichen Korrelationen zwischen Sprachgeräuschen, die in den Sprachsequenzen beim Training vorhanden sind, zu lernen, welche Sätze von Klassen welchen Sprachgeräuschen entsprechen, ist die Funktion des GMM-basierten HMMs, dessen Eingaben aus dem Satz von allen diesen Aposteriori-Wahrscheinlichkeiten geliefert werden.
Um eine Analogie zu verwenden, eine große Anzahl von Hyperkreisen hilft lokale Minima weit besser zu vermeiden als eine kleine Anzahl von anisotropen Ellipsoiden, aus dem von der Wirkung her gleichen Grund, dass sich ein Bündel von Stöcken leichter verheddert als ein Tablett voller Murmeln. (In dieser Analogie spielt die Minimierung des gesamten Gravitationspotentials des Satzes von Murmeln die analoge Rolle zum Maximieren der Likelihood des Modells.) Ebenso kann man hochkomplexe Formen viel zuverlässiger durch die Verwendung einer Menge von Murmeln darstellen, als durch die Verwendung weniger Stöcke.
Einem Fachmann ist bewusst, dass man sich andere Ausführungen innerhalb des Bereichs der Erfindung vorstellen kann, wobei dieser Bereich durch die Ansprüche im Anhang definiert ist.
A.R. Webb, Statistical Pattern Recognition, Arnold (London), 1999. B.H. Juang & L.R. Rabiner, Hidden Markov models for speech recognition, Technometrics 33(§), American Statistical Association, 1991.

Claims

Signalverarbeitungssystem zur Verarbeitung mehrerer datenkodierender Vektoren mit mehreren Elementen, wobei das System: – eine Einrichtung zum Ableiten der datenkodierenden Vektoren aus Eingangssignalen aufweist; – dazu eingerichtet ist, die datenkodierenden Vektoren mit wenigstens einem Gaußschen Mixturmodell (GMM) und einem GMM-basierten Hidden-Markov-Modell (HMM) zu verarbeiten, das wenigstens einen Vektor mit Mittelwerten der Klassen mit mehreren Elementen aufweist; – dazu eingerichtet ist, die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klasse mit einer iterativen Optimierungsprozedur zu verarbeiten; dadurch gekennzeichnet, dass das System auch dazu eingerichtet ist, die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klassen während der Optimierungsprozedur zu skalieren, um dafür zu sorgen, dass der Vektor (die Vektoren) mit Mittelwerten der Klassen bei jeder Iteration einen konstanten Betrag haben, und die datenkodierenden Vektoren, die in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, zu normieren.
System nach Anspruch 1, bei dem das wenigstens eine GMM und GMM-basierte HMM eine Kovarianzmatrix hat, deren Elemente während der Optimierungsprozedur derart mit Zwangsbedingun gen belegt bleiben, dass die Matrix isotrop und diagonal ist, und der Wert der Elemente auf der Diagonalen ungleich Null während der Optimierungsprozedur konstant bleibt.
System nach Anspruch 1 oder Anspruch 2, in dem für die Apriori-Wahrscheinlichkeiten der Klassen, die dem wenigstens einem GMM und GMM-basierten HMM zugeordnet sind, erzwungen wird, dass sie gleich sind und während der Optimierungsprozedur unverändert bleiben.
System nach einem der vorangehenden Ansprüche, in dem die datenkodierenden Vektoren derart normiert sind, dass die Vektoren gleiche Beträge haben.
System nach Anspruch 4, in dem der Betrag von jedem datenkodierenden Vektor von der gesamten spektralen Leistung in dem Vektor unabhängig ist.
System nach Anspruch 4 oder Anspruch 5, in dem die Elemente, die spektrale Koeffizienten von datenkodierenden Vektoren bilden, dazu eingerichtet sind, einzelnen proportional zur Quadratwurzel der Leistung in ihrem entsprechenden Spektralband geteilt durch die Quadratwurzel der Gesamtleistung zu sein, die in den Spektralbändern enthalten ist, die in dem Vektor dargestellt werden.
System nach einem der Ansprüche 4 bis 6, wobei das System dazu eingerichtet ist, wenigstens ein zusätzliches Element zu jedem datenkodierenden Vektor hinzuzufügen, wobei das hinzugefügte Element (die hinzugefügten Elemente) die Gesamtleistung kodie ren, die in den Spektralbändern enthalten ist, die in dem Vektor dargestellt werden.
System nach Anspruch 7, wobei das System dazu eingerichtet ist, zwei Elemente zu jedem datenkodierenden Vektor hinzuzufügen, um die Gesamtleistung in Spektralbändern darzustellen, wobei diese zwei Elemente derart eingerichtet sind, dass die Summe ihrer Quadrate eine Konstante über alle datenkodierenden Vektoren ist, die das Spektrum des Eingangssignals darstellen.
System nach einem der Ansprüche 1 bis 8, wobei das System ein GMM-basiertes HMM verwendet, wobei das GMM-basierte HMM die Beobachtungswahrscheinlichkeiten für ein HMM auf höherer Ebene liefert.
System nach einem der Ansprüche 1 bis 9, bei dem die Ableitung der datenkodierenden Vektoren aus dem Eingangssignal die Verwendung eines GMMs auf unterer Ebene umfasst, wobei dieses GMM auf unterer Ebene die datenkodierenden Vektoren an das wenigstens eine GMM und GMM-basierte HMM liefert, die Elemente umfassen, die aus den Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene abgeleitet sind.
System nach Anspruch 10, in dem Elemente der datenkodierenden Vektoren, die von dem GMM auf unterer Ebene in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, proportional zur Quadratwurzel der Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene sind.
System nach Anspruch 10, in dem Elemente der datenkodierenden Vektoren, die von dem GMM auf unterer Ebene in das wenig stens eine GMM und GMM-basierte HMM eingegeben werden, proportional zu den Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene sind.
System nach einem der Ansprüche 9 bis 12, in dem die konstanten Werte für den Betrag von jedem der Vektoren mit Mittelwerten der Klassen auf jeder Ebene verschieden sein können.
Verfahren zum Verarbeiten eines Signals, wobei das Signal mehrere datenkodierende Vektoren mit mehreren Elementen umfasst, bei dem die datenkodierenden Vektoren aus einer analogen oder digitalen Eingabe abgeleitet sind, und wobei das Verfahren wenigstens Gaußsches Mixturmodell (GMM) und ein GMM-basiertes Hidden-Markov-Modell (HMM) einsetzt, wobei das wenigstens eine GMM und GMM-basierte HMM wenigstens einen Vektor mit Mittelwerten der Klassen mit mehreren Elementen aufweist, und die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klassen in einer iterativen Prozedur optimiert werden, dadurch gekennzeichnet, dass die Elemente des Vektors mit Mittelwerten der Klassen während der Optimierungsprozedur derart skaliert werden, dass die Vektoren mit Mittelwerten der Klassen bei jeder Iteration einen konstanten Betrag haben, und die datenkodierenden Vektoren, die in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, derart verarbeitet werden, dass sie normiert werden.
Verfahren nach Anspruch 14, bei dem eine Kovarianzmatrix in dem wenigstens einen GMM und GMM-basierten HMM ein oder mehrere Elemente aufweist, die alle während der Optimierungsprozedur der Zwangsbedingung unterliegen, dass die Matrix iso trop und diagonal ist und der Wert ihrer Elemente ungleich Null während der Optimierungsprozedur konstant bleibt.
Verfahren nach Anspruch 14 oder 15, bei dem den Apriori-Wahrscheinlichkeiten der Klassen, die zu dem wenigstens einen GMM und GMM-basierten HMM gehören, die Zwangsbedingung auferlegt wird, dass sie gleich sind und während der Optimierungsprozedur unverändert bleiben.
Verfahren nach einem der Ansprüche 14 bis 16, bei dem die datenkodierenden Vektoren in einer Vorverarbeitungsstufe skaliert werden, bevor sie in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, sodass die Beträge von allen datenkodierenden Vektoren gleich sind.
Verfahren nach Anspruch 17, bei dem der Betrag von jedem datenkodierenden Vektor von der Gesamtleistung in dem Vektor unabhängig ist.
Verfahren nach Anspruch 17 oder 18, bei dem die Elemente, die spektrale Koeffizienten von datenkodierenden Vektoren bilden, dazu eingerichtet sind, einzeln proportional zur Quadratwurzel der Leistung in ihrem entsprechenden Spektralband geteilt durch die Quadratwurzel der Gesamtleistung zu sein, die in den Spektralbändern enthalten ist, die in dem Vektor dargestellt sind.
Verfahren nach einem der Ansprüche 17 bis 19, bei dem wenigstens ein zusätzliches Element zu jedem datenkodierenden Vektor hinzugefügt wird, wobei das hinzugefügte Element (die hinzugefügten Elemente) die Gesamtleistung kodieren, die in den Spektralbändern enthalten ist, die in dem Vektor dargestellt sind.
Verfahren nach Anspruch 20, bei dem zwei Elemente zu jedem datenkodierenden Vektor hinzugefügt werden, um die Gesamtleistung in den Spektralbändern darzustellen, wobei diese zwei Elemente derart eingerichtet sind, dass die Summe ihrer Quadrate eine Konstante über alle Eingangsvektoren ist, die das Spektrum des Eingangssignals darstellen.
Verfahren nach einem der Ansprüche 14 bis 21, bei dem das wenigstens eine GMM und GMM-basierte HMM die Beobachtungswahrscheinlichkeiten für ein HMM auf höherer Ebene liefert.
Verfahren nach einem der Ansprüche 14 bis 22, bei dem die Ableitung der datenkodierenden Vektoren aus dem Eingangssignal die Verwendung eines GMMs auf unterer Ebene umfasst, wobei dieses GMM auf unterer Ebene die datenkodierenden Vektoren an das wenigstens eine GMM und GMM-basierte HMM liefert, die Elemente umfassen, die aus den Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene abgeleitet sind.
Verfahren nach Anspruch 23, bei dem Elemente der datenkodierenden Vektoren, die aus dem GMM auf unterer Ebene in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, proportional zur Quadratwurzel der Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene sind.
Verfahren nach Anspruch 23, bei dem die Elemente der datenkodierenden Vektoren, die aus dem GMM auf unterer Ebene in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, proportional zu den Aposteriori-Wahrscheinlichkeiten des GMMs auf unterer Ebene sind.
Verfahren nach einem der Ansprüche 22 bis 25, bei dem die konstanten Werte für den Betrag von jedem der Vektoren mit Mittelwerten der Klassen auf jeder Ebene verschieden sein können.
Computerprogramm, das dazu eingerichtet ist, auf einem Computer zu laufen, der eine Kodeeinrichtung umfasst, die bewirkt, dass ein Computer alle Schritte eines Verfahrens nach Anspruch 14 ausführt, wenn das Programm auf einem Computer läuft.
Spracherkenner mit einem Signalverarbeitungssystem zur Verarbeitung von einem oder mehreren Eingangsvektoren mit mehreren Elementen, wobei der Erkenner: – eine Einrichtung zum Ableiten der datenkodierenden Vektoren aus Eingangssignalen aufweist; – dazu eingerichtet ist, die datenkodierenden Vektoren mit wenigstens einem Gaußschen Mixturmodell (GMM) und einem GMM-basierten Hidden-Markov-Modell (HMM) zu verarbeiten, wobei das wenigstens eine GMM und GMM-basierte HMM wenigstens einen Vektor mit Mittelwerten der Klassen mit mehreren Elementen haben; – dazu eingerichtet ist, die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klassen durch eine iterative Optimierungsprozedur zu verarbeiten; dadurch gekennzeichnet, dass das System auch dazu eingerichtet ist, die Elemente des Vektors (der Vektoren) mit Mittelwerten der Klasse während der Optimierungsprozedur zu skalieren, um dafür zu sorgen, dass der Vektor (die Vektoren) mit Mittelwerten der Klassen bei jeder Iterationen einen konstanten Betrag haben, und die datenkodierenden Vektoren, die in das wenigstens eine GMM und GMM-basierte HMM eingegeben werden, zu normieren.