[go: up one dir, main page]

DE60000403T2 - Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung - Google Patents

Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung

Info

Publication number
DE60000403T2
DE60000403T2 DE60000403T DE60000403T DE60000403T2 DE 60000403 T2 DE60000403 T2 DE 60000403T2 DE 60000403 T DE60000403 T DE 60000403T DE 60000403 T DE60000403 T DE 60000403T DE 60000403 T2 DE60000403 T2 DE 60000403T2
Authority
DE
Germany
Prior art keywords
model
speech
function
data
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60000403T
Other languages
English (en)
Other versions
DE60000403D1 (de
Inventor
Hongchang Pao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Application granted granted Critical
Publication of DE60000403D1 publication Critical patent/DE60000403D1/de
Publication of DE60000403T2 publication Critical patent/DE60000403T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Description

  • Die Erfindung betrifft eine Modelladaptierungsvorrichtung und ein Modelladaptierungsverfahren, ein Aufzeichnungsmedium und eine Musterkennungsvorrichtung. Die Erfindung bezieht sich insbesondere auf eine Modelladaptierungsvorrichtung und ein Modelladaptierungsverfahren, ein Aufzeichnungsmedium und eine Musterkennungsvorrichtung, die für die Verwendung in einem Fall geeignet sind, in welchem z. B. eine Spracherkennung durchgeführt wird.
  • Es sind bisher Verfahren bekannt, mit denen Wörter erkannt werden, die in einer geräuschvollen Umgebung gesprochen werden. Typische Verfahren hierfür sind das PMC-Verfahren (Verfahren mit Parallel-Modellkombination), das SS/NSS-Verfahren (Verfahren mit spektraler Subtraktion/nichtlinearer spektraler Subtraktion), das SFE-Verfahren (Verfahren mit stochastischer Merkmalextraktion) usw..
  • Das PMC-Verfahren liefert eine zufriedenstellende Erkennungsleistung, weil die Information über das Umgebungsgeräusch direkt in ein Klangmodell einbezogen wird, die Rechenkosten sind jedoch hoch (da Berechnungen auf hohem Niveau erforderlich sind, das Gerät groß ist, die Verarbeitung lange Zeit beansprucht usw.). Bei dem SS/NSS-Verfahren wird das Umgebungsgeräusch in einer Stufe entfernt, in der Merkmale von Sprachdaten extrahiert werden. Deshalb sind die Rechenkosten bei dem SS/NSS-Verfahren niedriger als bei dem PMC-Verfahren, so daß seine Benutzung derzeit weit verbreitet ist. Bei dem SFE-Verfahren wird das Umgebungsgeräusch, ähnlich wie bei dem SS/NSS-Verfahren in einer Stufe entfernt, in der Merkmale eines Sprachsignals, das Umgebungsgeräusch enthält, extrahiert werden, und als Merkmale werden diejenigen extrahiert, die durch eine Wahrscheinlichkeitsverteilung repräsentiert werden. Das SFE-Verfahren, wie es oben beschrieben wurde, unterscheidet sich von dem SS/NSS-Verfahren und dem PMC-Verfahren, bei dem die Sprachmerkmale als Punkt in dem Merkmalraum extrahiert werden, darin, daß die Sprachmerkmale als Verteilung in dem Merkmalraum extrahiert werden.
  • Bei jedem der oben beschriebenen Verfahren wird nach der Extrahierung der Sprachmerkmale festgelegt, welches der Klangmodelle, die mehreren Wörtern entsprechen, die im voraus registriert werden, am besten auf die Merkmale paßt, und das Wort, das dem Klangmodell entspricht, das am besten paßt, wird als Erkennungsergebnis ausgegeben.
  • Die Einzelheiten des SFE-Verfahrens sind in der ungeprüften japanischen Patentanmeldung mit der Veröffentlichungsnummer 11-133992 (japanische Patentanmeldung Nr. 9-300979) usw. beschrieben, die von der Inhaberin dieser Anmeldung früher eingereicht wurde. Außerdem sind die Einzelheiten des Leistungsvergleichs usw. zwischen dem PMC-Verfahren, dem SS/NSS-Verfahren und dem SFE-Verfahren z. B. beschrieben in "H. Pao, H. Honda, K. Minamino, M. Ornote, H. Ogawa and N. Iwahashi, Stochastic Feature Extraction for Improving Noise Robustness in Speech Recognition, Proceedings of the 8th Sony Research Forum, SRF98-234, Seiten 9-14, October 1998"; "N. Iwahashi, H. Pao, H. Honda, K. Knamino, and M. Omote, Stochastic Features for Noise Robust in Speech Recognition, ICASSP98 Proceedings, Seiten 633-636, May 1998"; "N. Iwahashi. H. Pao (presenter), H. Honda, K Minamino and M. Ornote, Noise Robust Speech Recognition Using Stochastic Representation of Features, ASJ'98-Spring Proceedings, Seiten 91-92, March 1999"; "N. Iwahashi, H. Pao, H. Honda, K. Minamino and M. Omote, Stochastic Representation of Features for Noise Robust Speech Recognition, Techni W Report of IEICE, Seiten 19-24, SP97-97 (1998-01); usw..
  • Bei dem oben beschriebenen SFE-Verfahren usw. wird das Umgebungsgeräusch nicht direkt in der Spracherkennungsstufe berücksichtigt, d. h. die Information über das Umgebungsgeräusch wird nicht direkt in ein Nichtsprache-Klangmodell eingegeben, woraus sich das Problem ergibt, daß die Spracherkennungsleistung geringer ist.
  • Aufgrund der Tatsache, daß die Information über das Umgebungsgeräusch nicht direkt in ein Nichtsprache-Klangmodell einbezogen wird, entsteht das weitere Problem, daß die Erkennungsleistung abnimmt, wenn die Zeit vom Beginn der Spracherkennung bis zum Beginn der Spracherzeugung anwächst.
  • Die vorliegende Erfindung entstand im Hinblick auf die vorangehend beschriebenen Umstände. Ein Ziel der Erfindung besteht darin, zu verhindern, daß die Erkennungsleistung abnimmt, wenn die Zeit vom Beginn der Spracherkennung bis zum Beginn der Spracherzeugung anwächst, indem ein Nichtsprache-Klangmodell durch Verwendung der Information über das Umgebungsgeräusch korrigiert wird.
  • Um dieses Ziel zu erreichen, sind Geräte vorgesehen, wie sie in den Ansprüchen 1 und 15 angegeben sind, ferner ein Verfahren, wie es in Anspruch 16 angegeben ist, und ein Aufzeichnungsmedium, wie es in Anspruch 17 angegeben ist.
  • Um das oben erwähnte Ziel zu erreichen, sieht die vorliegende Erfindung nach einem ersten Aspekt eine Modelladaptierungsvorrichtung vor mit einer Modelladaptierungseinrichtung zur Adaptierung eines bei der Musterkennung benutzten vorbestimmten Modells auf der Basis von in einem vorbestimmten Intervall extrahierten Daten und des Grads der Frische, der die Neuigkeit der extrahierten Daten repräsentiert.
  • Die Musterkennung kann auf der Basis einer Merkmal Verteilung in einem Merkmalraum der Eingangsdaten durchgeführt werden.
  • Die Modelladaptierungseinrichtung kann die Adaptierung des vorbestimmten Modells durchführen, indem sie als Grad der Frische eine Funktion benutzt, deren Wert sich in einer solchen Weise ändert, daß er der zeitbezogenen Position der extrahierten Daten in dem vorbestimmten Modell entspricht.
  • Die Funktion kann eine monoton ansteigende oder eine nichtlineare Funktion sein.
  • Die Funktion kann diskrete Werte oder kontinuierliche Werte annehmen.
  • Die Funktion kann eine Funktion zweiter Ordnung sein, eine Funktion dritter Ordnung oder eine Funktion höherer Ordnung.
  • Die Funktion kann eine logarithmische Funktion sein.
  • Die Eingangsdaten können Sprachdaten sein.
  • Das vorbestimmte Modell kann ein Klangmodell sein, das das Geräusch in einem Intervall repräsentiert, das kein Sprachsegment ist.
  • Die Daten-Extrahiereinrichtung kann optional aufweisen:
  • eine Rahmenbildungseinrichtung mit einem Eingang für den Empfang einer Quelle für Sprache und/oder Umgebungsgeräusch und zur Erzeugung entsprechender Datenrahmen,
  • eine Geräuschbeobachtungsintervall-Extrahiereinrichtung zum Extrahieren eines Geräuschvektors für eine Anzahl (m) von Rahmen in einem Geräuschbeobachtungsintervall,
  • ein Merkmal-Extrahiereinrichtung, die auf den Geräuschvektor (a) und einen Beobachtungsvektor in einem Spracherkennungsintervall anspricht, um einen Merkmalvektor (y) zu erzeugen, und
  • eine auf den Geräuschvektor ansprechende Nichtsprache-Klangmodell-Korrektureinrichtung.
  • In einem Ausführungsbeispiel kann die Vorrichtung ferner optional aufweisen:
  • eine Leistungsspektrum-Analyseeinrichtung zur Aufnahme der extrahierten Daten, eine Geräuschcharakteristik-Berechnungseinrichtung, die auf Umgebungsgeräusch anspricht, und
  • eine Merkmalverteilungsparameter-Berechnungseinrichtung zur Erzeugung eines Merkmalverteilungsparameters nach Maßgabe der Leistungsspektrum-Analyseeinrichtung und der Geräuschcharakteristik-Berechnungseinrichtung.
  • Das Gerät nach dem obigen Ausführungsbeispiel kann ferner optional aufweisen:
  • eine Mehrzahl von Identifikationsfunktions-Berechnungseinrichtungen, von denen wenigstens eine ein Nichtsprachmodell aufnimmt, wobei diese Einrichtung den Merkmalverteilungsparameter aufnimmt und in Abhängigkeit hiervon eine entsprechende Identifikationsfunktion erzeugt, und
  • eine Festiegungseinrichtung, die auf die genannten Identifikationsfunktionen anspricht, um auf der Basis eines am nächsten liegenden Passung ein Erkennungsergebnis zu erzeugen. Die Vorrichtung kann optional aufweisen:
  • eine Merkmal-Extrahiereinrichtung zum Extrahieren der Merkmale der Eingangsdaten,
  • eine Speichereinrichtung zum Speichern einer vorbestimmten Anzahl von Modellen, in welche die Eingangsdaten klassifiziert werden sollen, und
  • eine Klassifizierungseinrichtung zum Klassifizieren der einem vorbestimmten Modell entsprechenden Eingangsdaten, die in einem vorbestimmten Intervall beobachtet werden, und zur Ausgabe der Daten als extrahierte Daten.
  • Nach einem zweiten Aspekt liefert die vorliegende Erfindung ein Modelladaptierungsverfahren mit einem Modelladaptierungsschritt zur Durchführung einer Adaptierung eines vorbestimmten Modells auf der Basis der extrahierten Daten in einem vorbestimmten Intervall und des Grads der Frische, der die Neuigkeit der extrahierten Daten repräsentiert.
  • Nach einem dritten Aspekt liefert die vorliegende Erfindung ein Aufzeichnungsmedium, auf dem ein Programm aufgezeichnet ist, das einen Modelladaptierungsschritt umfaßt zur Durchführung einer Adaptierung des vorbestimmten Modells auf der Basis der extrahierten Daten in einem vorbestimmten Intervall und des Grads der Frische, das die Neuigkeit der extrahierten Daten repräsentiert.
  • Nach einem vierten Aspekt liefert die vorliegende Erfindung eine Musterkennungsvorrichtung mit einer Modelladaptierungseinrichtung zur Durchführung einer Adaptierung eines vorbestimmten Modells auf der Basis der in einem vorbestimmten Intervall extrahierten Daten und des Grads der Frische, der die Neuigkeit der extrahierten Daten repräsentiert.
  • Bei der Modelladaptierungsvorrichtung und dem Modelladaptierungsverfahren, dem Aufzeichnungsmedium und der Musterkennungsvorrichtung gemäß der Erfindung wird eine Adaptierung eines vorbestimmten Modells auf der Basis der in einem vorbestimmten Intervall extrahierten Daten und des Grads der Frische durchgeführt, die die Neuigkeit der extrahierten Daten repräsentiert.
  • Die obigen Ziele sowie weitere Ziele, Aspekte und neuartige Merkmale der Erfindung werden durch die folgende detaillierte Beschreibung weiter verdeutlicht, die auf die anliegenden Zeichnungen Bezug nimmt.
  • Fig. 1 zeigt ein Blockdiagramm eines Konstruktionsbeispiels einer Spracherkennungsvorrichtung gemäß der Erfindung,
  • Fig. 2 zeigt ein Diagramm, mit dem die Arbeitsweise der Geräuschbeobachtungsintervall-Extrahierstufe 3 von Fig. 1 erläutert wird,
  • Fig. 3 zeigt ein Blockdiagramm eines detaillierten Beispiels für den Aufbau der Merkmal- Extrahierstufe 5 in Fig. 1,
  • Fig. 4 zeigt ein Blockdiagramm eines detaillierten Beispiels für den Aufbau der Spracherkennungsstufe 6 in Fig. 1,
  • Fig. 5 zeigt ein Flußdiagramm eines HMM (Hidden Markov Model),
  • Fig. 6 zeigt ein Diagramm mit Simulationsergebnissen,
  • Fig. 7 zeigt ein Diagramm für eine Normal Verteilung eines Nichtsprache-Klangmodells,
  • Fig. 8 zeigt ein Blockdiagramm eines Beispiels für den Aufbau der Nichtsprache-Klangmodell-Korrekturstufe 7 in Fig. 1,
  • Fig. 9 zeigt ein Diagramm, in welchem ein Zustand dargestellt ist, bei dem ein diskreter Wert in einen kontinuierlichen Wert umgewandelt wird,
  • Fig. 10 zeigt ein Diagramm einer allgemeinen Frischefunktion F(x),
  • Fig. 11 zeigt ein Diagramm eines ersten Beispiels der Frischefunktion F(x),
  • Fig. 12 zeigt ein Diagramm eines zweiten Beispiels für die Frischefunktion F(x),
  • Fig. 13 zeigt ein Diagramm eines dritten Beispiels für die Frischefunktion F(x),
  • Fig. 14 zeigt ein Diagramm eines vierten Beispiels für die Frischefunktion F(x),
  • Fig. 15 zeigt ein Diagramm eines fünften Beispiels für die Frischefunktion F(x),
  • Fig. 16 zeigt ein Diagramm eines sechsten Beispiels für die Frischefunktion F(x),
  • Fig. 17 zeigt ein Blockdiagramm eines Beispiels für den Aufbau eines Ausführungsbeispiels eines Computers gemäß der Erfindung.
  • Fig. 1 zeigt ein Beispiel für den Aufbau eines Ausführungsbeispiels einer Spracherkennungsvorrichtung gemäß der Erfindung. In dieser Spracherkennungsvorrichtung nimmt ein Mikrofon 1 die erzeugte Sprache, die den Gegenstand der Erkennung bildet, zusammen mit Umgebungsgeräusch auf und gibt es an eine Rahmenbildungsstufe 2 aus. Die Rahmenbildungsstufe 2 extrahiert die von dem Mikrofon 1 in einem vorbestimmten Zeitintervall (z. B. in 10 Millisekunden) zugeführte Sprachdaten und gibt die extrahierten Daten als Daten eines Rahmens aus. Die von der Rahmenbildungsstufe 2 in Rahmeneinheiten ausgegebenen Sprachdaten werden als Beobachtungsvektor "a", in dem jede der Sprachdaten in einer zeitlichen Reihe, die diesen Rahmen bildet, eine Komponente darstellt, an eine Geräuschbeobachtungsintervall-Extrahierstufe 3 und an eine Merkmal-Extrahierstufe 5 ausgegeben. Im folgenden wird ein Beobachtungsvektor, der Sprachdaten eines t-ten Rahmens darstellt, als a(t) bezeichnet, wenn dies passend ist.
  • Die Geräuschbeobachtungsintervall-Extrahierstufe 3 puffert die Sprachdaten in Rahmeneinheiten, die von der Rahmenbildungsstufe 3 zugeführt werden, während einer vorbestimmten Zeitspanne (einer Zeitspanne von M oder mehr Rahmen), extrahiert einen Beobachtungsvektor "a" für M Rahmen in einem Geräuschbeobachtungsintervall Tn, und zwar von einem Zeitpunkt tb, in dem der Spracherzeugungsschalter 4 eingeschaltet wird, bis zu einem Zeitpunkt ta reicht, der um einen Betrag von M Rahmen früher liegt, und gibt ihn an die Merkmal-Extrahierstufe 5 und eine Nichtsprache-Klangmodell-Korrekturstufe 7 aus.
  • Der Spracherzeugungsschalter 4 wird von dem Benutzer eingeschaltet, wenn dieser mit der Spracherzeugung beginnt, und er wird ausgeschaltet, wenn die Spracherzeugung beendet ist. Deshalb ist die erzeugte Sprache nicht in den Sprachdaten vor dem Zeitpunkt tb (Geräuschbeobachtungsintervall Tn) enthalten, in welchem der Spracherzeugungsschalter 4 eingeschaltet wird, und es ist nur Umgebungsgeräusch vorhanden. Das Intervall von dem Zeitpunkt tb, in welchem der Spracherzeugungsschalter 4 eingeschaltet wird, bis zu dem Zeitpunkt td, in welchem der Spracherzeugungsschalter 4 ausgeschaltet wird, ist ein Spracherkennungsintervall, und die Sprachdaten in diesem Spracherkennungsintervall sind Gegenstand der Spracherkennung.
  • Die Merkmal-Extrahierstufe 5 entfernt die Komponenten des Umgebungsgeräuschs aus dem Beobachtungsvektor "a" in dem Spracherkennungsintervall nach dem Zeitpunkt tb, der von der Rahmenbildungsstufe 2 zugeführt wird, auf der Basis der Sprachdaten, in denen nur das Umgebungsgeräusch aus dem Geräuschbeobachtungsintervall Tn vorhanden ist, das von der Geräuschbeobachtungsintervall-Extrahierstufe 3 zugeführt wird, und extrahiert die Merkmale. Das heißt, die Merkmal-Extrahierstufe 5 unterzieht die echten (von dem Umgebungsgeräusch befreiten) Sprachdaten als Beobachtungsvektor "a" z. B. einer Fourier-Transformation, um ihr Leistungsspektrum zu bestimmen, und berechnet einen Merkmalvektor y, in dem jede Frequenzkomponente des Leistungsspektrums eine Komponente bildet. Das Verfahren zur Berechnung des Leistungsspektrums ist nicht auf ein Verfahren beschränkt, bei dem eine Fourier-Transformation benutzt wird. Das heißt, das Leistungsspektrum kann auch z. B. durch eine Maßnahme bestimmt werden, die allgemein als Filterbankverfahren bezeichnet wird.
  • Außerdem berechnet die Merkmal-Extrahierstufe 5 auf der Basis des berechneten Merkmalvektors y einen (im folgenden als "Merkmalverteilungsparameter" bezeichneten) Parameter Z, der die Verteilung in einem Merkmalvektorraum repräsentiert, und der gewonnen wird, wenn die in den Sprachdaten als Beobachtungsvektor "a" enthaltene Sprache in einen Raum (den Merkmalvektorraum) der Merkmale abgebildet wird, und liefert ihn an die Spracherkennungsstufe 6.
  • Fig. 3 zeigt ein detailliertes Beispiel für den Aufbau der Merkmal-Extrahierstufe 5 von Fig. 1. In der Merkmal-Extrahierstufe 5 wird der von der Rahmenbildungsstufe 2 zugeführte Beobachtungsvektor "a" einer Leistungsspektrum-Analysestufe 11 zugeführt. In der Leistungsspektrum-Analysestufe 11 wird der Beobachtungsvektor "a" z. B. mit Hilfe eines FFT-(Fast Fourier Transform)-Algorithmus einer Fourier-Transformation unterzogen und dadurch das Leistungsspektrum der Sprache als Merkmalvektor extrahiert. Es sei hier angenommen, daß der Beobachtungsvektor "a" als die Sprachdaten eines Rahmens in einen Merkmalvektor (D-dimensionaler Merkmalvektor) umgewandelt wird, der aus D Komponenten besteht.
  • Ein Merkmalvektor, der aus einem Beobachtungsvektor a(t) des t-ten Rahmens gewonnen wird, wird hier als y(t) bezeichnet. Die Spektralkomponente der echten Sprache des Merkmalvektors y(t) mit x(t) bezeichnet, während die Spektralkomponente des Umgebungsgeräusch mit u(t) bezeichnet wird. In diesem Fall kann die Spektralkomponente der echten Sprache durch die folgende Gleichung (1) ausgedrückt werden:
  • x(t) = y(t) - u(t) (1)
  • wobei angenommen ist, daß das Umgebungsgeräusch irreguläre Eigenschaften hat und daß die Sprachdaten als Beobachtungsvektor a(t) so beschaffen sind, daß das Umgebungsgeräusch zu der echten Sprachkomponente addiert ist.
  • In der Merkmal-Extrahierstufe 5 wird auf der anderen Seite das Umgebungsgeräusch allein oder in Form der von der Geräuschbeobachtungsintervall-Extrahierstufe 3 eingegebenen Sprachdaten der Geräuschcharakteristik-Berechnungsstufe 13 zugeführt. In der Geräuschcharakteristik-Berechnungsstufe 13 werden die Eigenschaften des Umgebungsgeräuschs in dem Geräuschbeobachtungsintervall Tn bestimmt.
  • Unter der Annahme, daß die Verteilung des Leistungsspektrums u(t) des Umgebungsgeräuschs in dem Spracherkennungsintervall die gleiche ist wie die des Umgebungsgeräuschs in dem Sprachbeobachtungsintervall Tn unmittelbar vor diesem Spracherkennungsintervall und daß diese Verteilung eine Normalverteilung ist, werden in der Geräuschcharakteristik-Berechnungsstufe 13 ein Mittelwert (mittlerer Vektor) des Umgebungsgeräuschs und dessen Varianz (Varianzmatrix) bestimmt.
  • Ein mittlerer Vektor u' und eine Varianzmatrix Σ' können auf der Basis der folgenden Gleichung (2) bestimmt werden:
  • worin der mittlere Vektor u'(i) die i-te Komponente des mittleren Vektors u'(i = 1, 2, ..., D), y(t)(i) die i-te Komponente des Merkmalvektors des t-ten Rahmens und Σ'(i, j) die Komponente der i-ten Zeile und der j-ten Spalte der Varianzmatrix Σ'(j = 1, 2, ..., D) repräsentieren.
  • Um die Zahl der Berechnungen zu reduzieren, wird bei der Betrachtung des Umgebungsgeräuschs angenommen, daß die Komponenten des Merkmalvektors y nicht miteinander korreliert sind. In diesem Fall ist die Varianzmatrix Σ', wie in der folgenden Gleichung dargestellt, mit Ausnahme für die diagonalen Komponenten gleich 0.
  • Σ'(i, J) = 0, i ≠ j (3)
  • In der Geräuschcharakteristik-Berechnungsstufe 13 werden in der oben beschriebenen Weise der mittlere Vektor u' und die Varianzmatrix Σ', die die Normalverteilung definieren, als die Eigenschaften des Umgebungsgeräuschs bestimmt, und diese werden einer Merkmalverteilungsparameter-Berechnungsstufe 12 zugeführt.
  • Auf der anderen Seite wird das Ausgangssignal der Leistungsspektrum-Analysestufe 11, d. h. der Merkmalvektor y der erzeugten Sprache, der Umgebungsgeräusch enthält, der Merkmalverteilungsparameter-Berechnungsstufe 12 zugeführt. In der Merkmalverteilungsparameter- Berechnungsstufe 12 wird ein Merkmalverteilungsparameter, der die Verteilung (Verteilung von Schätzwerten) des Leistungsspektrums der wahren Sprache auf der Basis des Merkmalvektors y aus der Leistungsspektrum-Analysierstufe 11 und der Eigenschaften des Umgebungsgeräuschs aus der Geräuschcharakteristik-Berechnungsstufe 13 berechnet.
  • In der Merkmalverteilungsparameter-Berechnungsstufe 12 werden unter der Annahme, daß die Verteilung des Leistungsspektrums der wahren Sprache eine Normalverteilung ist, dessen mittlerer Vektor ξ, und die Varianzmatrix Ψ als Merkmalverteilungsparameter auf der Basis der folgenden Gleichungen (4) bis (7) berechnet:
  • Wenn i = j, gilt
  • Wenn i ≠ j, gilt
  • Ψ(t)(i, J) = 0
  • worin ξ(t)(i) die i-te Komponente des mittleren Vektors ξ(t) in dem t-ten Rahmen repräsentiert, E einen Mittelwert innerhalb bedeutet, x(t)(i) die i-te Komponente des Leistungsspektrums x(t) der wahren Sprache in dem t-ten Rahmen repräsentiert, u(t)(i) die i-te Komponente des Leistungsspektrums des Umgebungsgeräuschs in dem t-ten Rahmen repräsentiert und P(u(t)(i)) die Wahrscheinlichkeit repräsentiert, daß die i-te Komponente des Leistungsspektrums des Umgebungsgeräuschs in dem t-ten Rahmen gleich u(t)(i) ist. Da hier als Verteilung des Umgebungsgeräuschs eine Normalverteilung angenommen wird, kann P(u(t)(i)) so ausgedrückt werden, wie dies in Gleichung (7) angegeben ist.
  • Weiterhin repräsentiert Ψ(t)(i, j) die Komponente der i-ten Zeile und der j-ten Spalte der Varianz Ψ(t) in dem t-ten Rahmen. V repräsentiert die Varianz innerhalb von .
  • In der Merkmal verteilungsparameter-Berechnungsstufe 12 werden in der oben beschriebenen Weise für jeden Rahmen der mittlere Vektor E, und die Varianzmatrix Ψ als Merkmalverteilungsparameter bestimmt, die die Verteilung in dem Merkmalvektorraum der wahren Sprache repräsentieren (hier die Verteilung für den Fall, daß die Verteilung in dem Merkmalvektorraum der wahren Sprache als Normalverteilung angenommen wird).
  • Anschließend werden die in jedem Rahmen des Spracherkennungsintervalls festgelegten Merkmalverteilungsparameter an die Spracherkennungsstufe 6 ausgegeben. Das heißt, wenn das Spracherkennungsintervall T Rahmen umfaßt und der in jedem dieser T Rahmen festgelegte Merkmalverteilungsparameter mit z(t) = {ξ(t), Ψ(t)} (t = 1, 2, ..., T) bezeichnet wird, liefert die Merkmalverteilungsparameter-Berechnungsstufe 12 die Merkmalverteilungsparameter (Sequenz) Z = {z(1), z(2), ..., z(T)} an die Spracherkennungsstufe 6.
  • Es sei noch einmal auf Fig. 1 Bezug genommen. Die Spracherkennungsstufe 6 klassifiziert den von der Merkmal-Extrahierstufe 5 zugeführten Merkmalverteilungsparameter Z in eines aus einer vorbestimmten Anzahl K von Klangmodellen und ein Nichtsprache-Klangmodell und gibt das Klassifizierungsergebnis als Erkennungsergebnis der eingegebenen Sprache aus. Das heißt, in der Spracherkennungsstufe 6 sind z. B. eine Identifizierungsfunktion (Funktion zur Identifizierung, ob der Merkmalparameter Z in ein Nichtsprache-Klangmodell klassifiziert ist), die einem Nichtsprache-Segment entspricht, und Identifizierungsfunktionen (Funktionen zur Identifizierung, ob der Merkmalparameter Z in irgendeines der Klangmodelle klassifiziert ist), die jedem der vorbestimmten Anzahl Z von Wörtern entsprechen, gespeichert, und sie berechnet den Wert der Identifizierungsfunktion jedes Klangmodells unter Verwendung des Merkmalverteilungsparameters Z aus der Merkmal-Extrahierstufe 5 als Argument. Als Erkennungsergebnis wird dann ein Klangmodell (Wort oder Nichtsprache (Geräusch)) ausgegeben, welchem der (normalerweise als Score bezeichnete) Funktionswert liegt.
  • Fig. 4 zeigt ein detailliertes Beispiel für den Aufbau der Spracherkennungsstufe 6 von Fig. 1. Der von der Merkmalverteilungsparameter-Berechnungsstufe 12 an die Merkmal-Extrahierstufe 5 gelieferte Merkmalverteilungsparameter Z wird Identifikationsfunktions-Berechnungsstufen 21-1 und 21-k und einer Identifikationsfunktions-Berechnungsstufe 21-s zugeführt. In der Identifikationsfunktions-Berechnungsstufe 21-k (k = 1, 2, ..., K) ist eine Identifikationsfunktion Gk(Z) zum Identifizieren eines dem k-ten Klangmodell von K Klangmodellen entsprechenden Worts gespeichert, und sie berechnet die Identifikationsfunktion Gk(Z) unter Verwendung des Merkmal verteilungsparameters Z aus der Merkmal-Extrahierstufe 5 als Argument. In der Identifikationsfunktions-Berechnungsstufe 21-s ist eine Identifikationsfunktion Gs(Z) zum Identifizieren eines dem Nichtsprache-Klangmodell entsprechenden Nichtsprache- Segments gespeichert, und sie berechnet die Identifikationsfunktion Gs(Z) unter Verwendung des Merkmalverteilungsparameters Z aus der Merkmal-Extrahierstufe 5 als Argument.
  • In der Spracherkennungsstufe 6 wird die Identifizierung (Erkennung) eines Worts oder von Nichtsprache als eine Klasse durchgeführt, wobei z. B. ein HMM-(Hidden Markov Model)- Verfahren benutzt wird.
  • Anhand von Fig. 5 wird nun das HMM-Verfahren beschrieben. In Fig. 5 hat das HMM insgesamt H Zustände q&sub1; bis qH, und für den Zustandsübergang sind nur der Übergang zu sich selbst und der Übergang zu dem rechts benachbarten Zustand erlaubt. Weiterhin ist der Ausgangszustand auf den am weitesten links liegenden Zustand q&sub1; gesetzt, der Endzustand ist auf den am weitesten rechts liegenden Zustand qH gesetzt, und der Zustandsübergang von dem Endzustand qH ist verboten. Ein Modell, in welchem es keinen Übergang zu dem links von sich selbst liegenden Zustand gegeben ist, wird als Links-nach-rechts-Modell bezeichnet, und bei der Spracherkennung wird generell ein Links-nach-rechts-Modell benutzt.
  • Wenn ein Modell zum Identifizieren einer k-Klasse des HMM als k-Klassen-Modell bezeichnet wird, ist das k-Klassen-Modell z. B. durch eine Wahrscheinlichkeit (Wahrscheinlichkeit des Anfangszustands) πk(qh) definiert, in welcher das Modell zu Anfang in einem Zustand qh ist, ferner durch eine Wahrscheinlichkeit (Übergangswahrscheinlichkeit) ak(qi, qj), mit der das Modell zu einer Zeit (Rahmen) t in einem Zustand qi ist und Übergänge in einen Zustand qj zu der nächsten Zeit t + 1 stattfinden und durch eine Wahrscheinlichkeit (Ausgangswahrscheinlichkeit) bk(qi), mit der der Zustand qi einen Merkmalvektor 0 ausgibt, wenn der Zustandsübergang von dem Zustand qi(h = 1, 2, ..., H) aus stattfindet.
  • In einem Fall, in welchem eine Merkmalvektorsequenz O&sub1;, O&sub2;, ... gegeben ist, wird z. B. die Klasse eines Modells als Erkennungsergebnis der Merkmalvektorsequenz angenommen, bei der die Wahrscheinlichkeit (Beobachtungswahrscheinlichkeit), mit der eine Merkmalvektorsequenz beobachtet wird, am höchsten ist.
  • Diese Beobachtungswahrscheinlichkeit wird hier durch die Identifikationsfunktion Gk(Z) bestimmt. Das heißt, die Identifikationsfunktion Gk(Z) ist auf der Basis der folgenden Gleichung (8) gegeben, wobei angenommen wird, daß in der optimalen Zustandssequenz in Bezug auf den Merkmalverteilungsparameter (Sequenz) Z = {z&sub1;, z&sub2;, ..., zT} (die Art, in der der optimale Zustandsübergang stattfindet) die Identifikationsfunktion Gk(Z) die Wahrscheinlichkeit bestimmt, mit der ein solcher Zustandsverteilungsparameter (Sequenz) Z = {z&sub1;, z&sub2;, ..., zT} beobachtet wird:
  • worin bk'(qi)(zj) die Ausgangswahrscheinlichkeit repräsentiert, wenn das Ausgangssignal eine durch zj repräsentierte Verteilung ist. Für die Ausgangswahrscheinlichkeit bk(s)(Ot), die eine Wahrscheinlichkeit ist, mit der jeder Merkmal vektor während eines Zustandsübergangs ausgegeben wird, wird hier eine Normalverteilungsfunktion benutzt, wobei angenommen wird, daß keine Korrelation zwischen den Komponenten in dem Merkmalvektorraum vorhanden ist. Wenn in diesem Fall das Eingangssignal eine durch 21 repräsentierte Verteilung ist, kann die Ausgangswahrscheinlichkeit bk'(s)(zt) auf der Basis der folgenden Gleichung (9) bestimmt werden, wobei eine Wahrscheinlichkeitsdichtefunktion Pkm(s)(x) benutzt wird, die durch den mittleren Vektor uk(s) und die Varianzmatrix Σk(s) definiert ist, und eine Wahrscheinlichkeitsdichtefunktion Pf(t)(x), die den Merkmalvektor (hier das Leistungsspektrum) x des t-ten Rahmens repräsentiert:
  • wobei das Integrationsintervall der Integration in Gleichung (9) die Gesamtheit des D-dimensionalen Merkmalvektorraums (hier des Leistungsspektrumraums) ist.
  • In Gleichung (9) wird P(s)(i)(ξ(t)(i), Ψ(t)(i, i)) durch die folgende Gleichung (10 ausgedrückt:
  • worin uk(s)(i) die i-te Komponente des mittleren Vektors uk(s) repräsentiert, und Σk(s)(i, i) die Komponente der i-ten Zeile und der i-ten Spalte der Varianzmatrix Σk(s) repräsentiert. Die Ausgangswahrscheinlichkeit des k-Klassen-Modells wird durch diese Komponenten definiert.
  • Das HMM ist, wie oben beschrieben, definiert durch die Wahrscheinlichkeit uk(qh) des Anfangszustands, die Übergangswahrscheinlichkeit ak(qi, qj) und die Ausgangswahrscheinlich keit bk(qi)(O). Diese Wahrscheinlichkeiten werden durch Berechnen eines Merkmalvektors aus den Lern-Sprachdaten und unter Verwendung des Merkmalvektors im voraus bestimmt.
  • Wenn als HMM-Modell das in Fig. 5 dargestellte benutzt wird, wird nur die dem Zustand q&sub1; entsprechende Wahrscheinlichkeit des Anfangszustands auf "1" gesetzt, und alle Anfangszustandswahrscheinlichkeiten, die anderen Zuständen entsprechen, werden auf "0" gesetzt, da der Übergang immer von dem linkesten Zustand q&sub1; beginnt. Falls Ψ(t)(i, i) auf "0" gesetzt wird, entspricht außerdem die Ausgangswahrscheinlichkeit der Ausgangswahrscheinlichkeit in einem kontinuierlichem HMM für den Fall, daß die Varianz des Merkmalvektors nicht berücksichtigt wird, wie aus den Gleichungen (9) und (10) hervorgeht.
  • Als Verfahren zum Erlernen eines HMM sind z. B. Baum-Welch-Neuschätzverfahren usw. bekannt.
  • Es sei noch einmal auf Fig. 4 Bezug genommen. In der Identifikationsfunktions-Berechnungsstufe 21-k (k = 1, 2, ..., K) sind für das k-Klassen-Modell die Identifikationsfunktion Gk(Z) von Gleichung (8), die durch die Anfangszustandswahrscheinlichkeit πk(qh) definiert ist, die im voraus durch Lernen festgelegt ist, ferner die Übergangswahrscheinlichkeit ak(qi, qj) und die Ausgangswahrscheinlichkeit bk(qi)(O) gespeichert. Die Identifikationsfunktions- Berechnungsstufe 21-k berechnet die Identifikationsfunktion Gk(Z) unter Verwendung des Merkmalverteilungsparameters Z aus der Merkmal-Extrahierstufe 5 als Argument und gibt dessen Funktionswert (die oben beschriebene Beobachtungswahrscheinlichkeit) Gk(Z) an eine Festlegungsstufe 22 aus. In der Identifikationsfunktions-Berechnungsstufe 21-s sind eine Identifikationsfunktion Gs(Z), ähnlich der Identifikationsfunktion Gk(Z) von Gleichung (8), die durch die von der Nichtsprache-Klangmodell-Korrekturstufe 7 gelieferte Anfangszustandswahrscheinlichkeit πs(qh) bestimmt wird, ferner die Übergangswahrscheinlichkeit as(qi, qj) und die Ausgangswahrscheinlichkeit bs(qi)(O) gespeichert. Die Identifikationsfunktions- Berechnungsstufe 21-s berechnet die Identifikationsfunktion Gs(Z) unter Verwendung des Merkmal verteilungsparameters Z aus der Merkmal-Extrahierstufe 5 als Argument und gibt dessen Funktionswert (die oben beschriebene Beobachtungswahrscheinlichkeit) Gs(Z) an die Festlegungsstufe 22 aus.
  • In der Festlegungsstufe 22 wird für den Funktionswert Gk(Z) (es wird hier angenommen, daß er den Funktionswert Gs(Z) enthält) aus jeder der Identifikationsfunktions-Berechnungsstufen 21-1 und 21-k und z. B. aus der Identifikationsfunktions-Berechnungsstufe 21-s unter Verwendung der in der folgenden Gleichung (11) angegebenen Festlegungsregel der Merkmalverteilungsparameter Z, d. h. die Klasse (Klangmodell), zu der die eingegebene Sprache gehört, identifiziert:
  • C(Z) = Ck, falls Gk(Z) = max {Gi(Z)} (11)
  • worin C(Z) die Funktion zur Durchführung einer Identifizierungsoperation (Prozeß) zum Identifizieren einer Klasse repräsentiert, der der Merkmalverteilungsparameter Z angehört, und der Ausdruck max auf der rechten Seite der zweiten Gleichung von Gleichung (11) den Maximalwert des Funktionswerts Gi(Z) (hier ist i = s, 1, 2, ..., K) repräsentiert, der folgt.
  • Wenn die Festlegungsstufe 22 die Klasse auf der Basis von Gleichung (11) festlegt, gibt die Festlegungsstufe 22 die Klasse als Erkennungsergebnis der eingegebenen Sprache aus.
  • Es sei noch einmal auf Fig. 1 Bezug genommen. Die Nichtsprache-Klangmodell-Korrekturstufe 7 erzeugt die Identifikationsfunktion Gs(Z), die dem in der Spracherkennungsstufe 6 gespeicherten Nichtsprache-Klangmodell entspricht, auf der Basis des Umgebungsgeräuschs als die Sprachdaten in dem Geräuschbeobachtungsintervall Tn, das von der Geräuschbeobachtungsintervall-Extrahierstufe 3 zugeführt wird, und liefert es an die Spracherkennungsstufe 6.
  • In der Nichtsprache-Klangmodell-Korrekturstufe 7 wird ein Merkmal vektor X für jeden von M Rahmen der Sprachdaten (Umgebungsgeräusch) in dem Geräuschbeobachtungsintervall Tn beobachtet, das von der Geräuschbeobachtungsintervall-Extrahierstufe 3 eingegeben wird, und es wird dessen Merkmalverteilung erzeugt.
  • {F&sub1;(X), F&sub2;(X), ..., FM(X)} (12)
  • Die Merkmalverteilung {Fi(X), i = 1, 2, ..., M} ist eine Wahrscheinlichkeitsdichtefunktion und wird im folgenden auch als "Nichtsprache-Merkmalsverteilung PDF" bezeichnet.
  • Als nächstes wird die Nichtsprache-Merkmalverteilung PDF in eine dem Nichtsprache- Klangmodell entsprechende Wahrscheinlichkeitsverteilung Fs(X) auf der Basis von Gleichung (13) abgebildet.
  • Fs(X) = V(F&sub1;(X), F&sub2;(X), ..., FM(X)) (13)
  • worin V eine Korrekturfunktion (Abbildungsfunktion) zum Abbilden der Nichtsprache- Merkmalverteilung PDF {Fi(X), i = 1, 2, ..., M} in das Nichtsprache-Klangmodell Fs(X) ist.
  • Für diese Abbildung können durch die Beschreibung der Nichtsprache-Merkmalverteilung PDF verschiedene Methoden konzipiert werden, z. B.
  • worin βi(F&sub1;(X), F&sub2;(X), ..., FM(X), M) eine Gewichtungsfunktion ist, die jeder Nichtsprache- Merkmalverteilung entspricht und im folgenden als "βi" bezeichnet wird. Die Gewichtungsfunktion βi erfüllt die Bedingungen der folgenden Gleichung (16);
  • Wenn angenommen wird, daß die Wahrscheinlichkeitsverteilung Fs(X) des Nichtsprache- Klangmodells eine Normal Verteilung ist und daß die Komponenten, die den Merkmalvektor jedes Rahmens bilden, nicht miteinander korreliert sind, ist die Covarianzmatrix Σi der Nichtsprache-Merkmalverteilung PDF {Fi(X), i = 1, 2, ..., M} eine diagonale Matrix. Die Vorbedingung für diese Annahme macht es jedoch erforderlich, daß die Covarianzmatrix des Nichtsprache-Klangmodells ebenfalls eine diagonale Matrix ist. Falls die Komponenten, die den Merkmalvektor jedes Rahmens bilden, nicht miteinander korreliert sind, ist deshalb die Nichtsprache-Merkmalverteilung PDF {Fi(X), i = 1, 2, ..., M} eine Normalverteilung G(Ei, Σi), die einen Mittelwert und eine Varianz besitzt, die jeder Komponente entsprechen. Ei ist der Mittelwert von Fi(X) (im folgenden auch als "Erwartungswert" bezeichnet), falls angebracht, und Σi ist die Covarianzmatrix von Fi(X).
  • Wenn der Mittelwert der Nichtsprache-Merkmalverteilung, M Rahmen des Geräuschbeobachtungsintervalls Tn entspricht, mit ui und seine Varianz als σi² bezeichnet werden, kann die Wahrscheinlichkeitsdichtefunktion der Nichtsprache-Merkmalverteilung durch die Normalverteilung G(ui, σi²) (i = 1, 2, ..., M) ausgedrückt werden. Auf der Basis der obigen Annahme ist es unter Verwendung des Mittelwerts ui und der Varianz σi², die den einzelnen Rahmen entsprechen, möglich, die (dem oben beschriebenen Gs(Z) entsprechende) Normalverteilung G(us, σi²) die das Nichtsprache-Klangmodell Fs(X) approximiert, nach verschiedenen Methoden zu berechnen, die im folgenden beschrieben werden.
  • Die erste Methode zur Berechnung der Normalverteilung G(us, σs²) des Nichtsprache-Klangmodells ist eine Methode, bei der die Nichtsprache-Merkmalverteilung {G(ui, σi²), i = 1, 2, ..., M} benutzt wird. Der Mittelwert aller ui ist, wie in der folgenden Gleichung (17) dargestellt, der Mittelwert us des Nichtsprache-Klangmodells, der Mittelwert aller σi² ist, wie in der folgenden Gleichung (18) dargestellt, die Varianz σs² des Nichtsprache-Klangmodells:
  • worin a und b Koeffizienten sind, deren optimalen Werte durch Simulation bestimmt werden.
  • Eine zweite Methode zur Berechnung der Normalverteilung G(us, σS²) des Nichtsprache- Klangmodells ist eine Methode, bei der diejenigen Werte aus der Nichtsprache-Merkmalverteilung {G(ui, σi²), i = 1, 2, ..., M}, die den Erwartungswert ui haben, benutzt werden. Dabei werden auf der Basis der folgenden Gleichungen (19) und (20) der Mittelwert us des Nichtsprache-Klangmodells und seine Varianz σS² berechnet:
  • worin a und b Koeffizienten sind, bei denen die optimalen Werte durch Simulation bestimmt werden. Eine dritte Methode zur Berechnung der Normalverteilung G(us, σs²) des Nichtsprache-Klangmodells ist eine Methode, bei der der Mittelwert us des Nichtsprache-Klangmodells und seine Varianz σS² durch eine Kombination der Nichtsprache-Merkmalverteilung {G(ui, σi²), i = 1, 2, ..., M} berechnet werden.
  • Bei dieser Methode wird die Wahrscheinlichkeits-Statik jeder Nichtsprache-Merkmalverteilung G(ui, σi²) als Xi bezeichnet:
  • {X&sub1;, X&sub2;, ..., XM} (21)
  • Wenn hier die Wahrscheinlichkeits-Statik der Normalverteilung G(us, σS²) des Nichtsprache- Klangmodells als Xs bezeichnet wird, kann die Wahrscheinlichkeits-Statik Xs durch eine lineare Kombination der Wahrscheinlichkeits-Statik Xi und der Gewichtungsfunktion βi ausgedrückt werden, wie dies in der folgenden Gleichung (22) dargestellt ist. Die Gewichtungsfunktion βi erfüllt die Bedingung von Gleichung (16).
  • Die Normalverteilung G(us, σS²) des Nichtsprache-Klangmodells kann durch die folgende Gleichung (23) ausgedrückt werden:
  • In Gleichung (23) kann die Gewichtungsfunktion βi generell z. B. gleich l/M sein. In diesem Fall werden der Mittelwert us von Gleichung (23) und ihre Varianz σS² unter Verwendung vorbestimmter Koeffizienten bestimmt, wie dies z. B. in den folgenden Gleichungen dargestellt ist
  • worin a und b Koeffizienten sind, deren optimalen Werte durch Simulation bestimmt werden.
  • Bei einer vierten Methode zur Berechnung der Normalverteilung G(us, σS²) des Nichtsprache- Klangmodells wird eine statistische Population Ωi = {fi,j} angenommen, die der Wahrscheinlichkeits-Statik Xi der Nichtsprache-Merkmalverteilung {G(ui, σi²), i = 1, 2, ..., M} entspricht. Wenn hier {Ni = N; i = 1, 2, ..., M} angenommen wird, kann der Mittelwert ui auf der Basis der folgenden Gleichung (26) gewonnen werden, und die Varianz o,2 kann auf der Basis der folgenden Gleichung (28) gewonnen werden:
  • Durch Neuordnen der Gleichung (28) erhält man die Beziehung der folgenden Gleichung
  • Wenn hier die Summe Ω der statistischen Population,
  • berücksichtigt wird, lassen sich aus der Gleichung (26) die folgenden Gleichungen (30) und (31) ableiten, und aus der Gleichung (29) lassen sich die folgenden Gleichungen (32) bis (34) ableiten:
  • In der Praxis werden die Gleichungen (31) und (34) benutzt, indem sie mit Koeffizienten multipliziert werden:
  • worin a und b Koeffizienten sind, deren optimale Werte durch Simulation bestimmt werden.
  • Weiterhin kann, wie die folgende Gleichung (37) zeigt, ein Koeffizient auch nur mit der Varianz σS² multipliziert werden.
  • Als nächstes wird die Arbeitsweise der Spracherkennungsvorrichtung von Fig. 1 beschrieben. Sprachdaten (erzeugte Sprache, die Umgebungsgeräusch enthält, als Objekt der Erkennung), die von dem Mikrofon 1 aufgenommen wird, werden der Rahmenbildungsstufe 2 zugeführt, so daß die Sprachdaten in Rahmen angeordnet werden. Die Sprachdaten jedes Rahmens werden als Beobachtungsvektor "a" sequentiell der Geräuschbeobachtungsintervall-Extrahierstufe 3 und der Merkmal-Extrahierstufe 5 zugeführt. In der Geräuschbeobachtungsintervall-Extrahierstufe 3 werden die Sprachdaten (das Umgebungsgeräusch) in dem Geräuschbeobachtungsintervall Tn vor dem Zeitpunkt tb an, in dem der Spracherzeugungsschalter 4 eingeschaltet wird, extrahiert, und die Sprachdaten werden der Merkmal-Extrahierstufe 5 und der Nichtsprache-Klangmodell-Korrekturstufe 7 zugeführt.
  • In der Nichtsprache-Klangmodell-Korrekturstufe 7 wird auf der Basis des Umgebungsgeräuschs als den Sprachdaten in dem Geräuschbeobachtungsintervall Tn das Nichtsprache- Klangmodell nach einer der oben beschriebenen Methoden eins bis vier aktualisiert (adaptiert) und der Spracherkennungsstufe 6 zugeführt. In der Spracherkennungsstufe 6 wird eine Identifikationsfunktion, die dem bis zu dieser Zeit gespeicherten Nichtsprache-Klangmodell entspricht, durch die Identifikationsfunktion als das von der Nichtsprache-Klangmodell-Korrekturstufe 7 zugeführte Nichtsprache-Klangmodell aktualisiert. Das heißt, es erfolgt eine Adaptierung des Nichtsprache-Klangmodells.
  • Auf der anderen Seite werden in der Merkmal-Extrahierstufe 5 die Sprachdaten als Beobachtungsvektor "a" aus der Rahmenbildungsstufe 2 einer Klanganalyse unterzogen, um ihren Merkmal vektor y zu bestimmen. Außerdem wird in der Merkmal-Extrahierstufe 5 auf der Basis des festgelegten Merkmalvektors y ein Merkmalverteilungsparameter Z, der die Verteilung in dem Merkmalvektorraum repräsentiert, berechnet und der Spracherkennungsstufe 6 zugeführt. In der Spracherkennungsstufe 6 wird unter Verwendung des Merkmalverteilungsparameters aus der Merkmal-Extrahierstufe 5 der Wert der Identifikationsfunktion des Klangmodells berechnet, das der Nichtsprache und jedem von einer vorbestimmten Anzahl K von Wörtern entspricht. Als Erkennungsergebnis der Sprache wird ein Klangmodell ausgegeben, in dem deren Funktionswert ein Maximum ist.
  • Da die Sprachdaten, wie oben beschrieben, als Beobachtungsvektor "a" in einen Merkmalverteilungsparameter Z umgewandelt werden, der die Verteilung in dem Merkmalvektorraum repräsentiert, der ein Raum seiner Merkmale ist, ist der Merkmalverteilungsparameter so beschaffen, daß er die Verteilungscharakteristik des in den Sprachdaten enthaltenen Geräuschs berücksichtigt. Da außerdem die Identifikationsfunktion, die dem Nichtsprache-Klangmodell zum Identifizieren (Erkennen) von Nichtsprache entspricht, unmittelbar bevor Sprache erzeugt wird, auf der Basis der Sprachdaten in dem Geräuschbeobachtungsintervall Tn aktualisiert wird, kann die Spracherkennungsrate erheblich verbessert werden.
  • Fig. 6 zeigt Ergebnisse eines Experiments (Simulation), bei dem die Änderung der Spracherkennungsrate gemessen wurde, wenn das Nichtsprache-Segment Ts (siehe Fig. 2) vom Einschalten des Spracherzeugungsschalters 4 bis zur Erzeugung von Sprache geändert wird.
  • Die Kurve "a" in Fig. 6 zeigt die Ergebnisse einer herkömmlichen Methode, bei der ein Nichtsprache-Klangmodell nicht korrigiert wird (es findet keine Adaptierung des Nichtsprache- Klangmodells statt), die Kurve "b" zeigt Ergebnisse der ersten Methode, die Kurve "c" zeigt Ergebnisse der zweiten Methode, die Kurve "d" zeigt Ergebnisse der dritten Methode, und die Kurve "e" zeigt Ergebnisse der vierten Methode.
  • Die Bedingungen des Experiments sind folgende. Die für die Erkennung benutzten Sprachdaten werden in einem Wagen aufgenommen, der auf einer Schnellstraße fährt. Das Geräuschbeobachtungsintervall Tn beträgt etwa 0,2 Sekunden in 20 Rahmen. Das Nichtsprache-Segment Ts wurde auf 0,05, 0,1, 0,2, 0,3 und 0,5 Sekunden gesetzt. Bei der Extrahierung der Merkmale der Sprachdaten wurde eine Analyse in einer MFCC-Domäne durchgerührt (die Merkmale wurden durch MFCC-(Mel-Frequency Cepstral Coefficients)-Analyse gewonnen). Die Zahl der Menschen, die Sprache für das Erkennungsobjekt erzeugten, betrug acht (vier männliche und vier weibliche Personen), und jede Person sprach 303 Wörter. Die Zahl der Wörter, für die die Erkennung durchgeführt wurde, betrug 5000 Wörter in Japanisch. Das Klangmodell ist ein HMM, und das Lernen wurde zuvor unter Verwendung von Sprachdaten durchgeführt, die für das Lernen präpariert wurden. Bei der Spracherkennung wurde ein Viterbi-Suchverfahren benutzt, dessen Strahlbreite auf 3000 gesetzt war.
  • Bei der ersten, zweiten und vierten Methode war der Koeffizient "a" auf 1,0 gesetzt, und der Koeffizient "b" war auf 0,1 gesetzt. Bei der dritten Methode war der Koeffizient "a" auf 1,0 gesetzt, und der Koeffizient "b" war auf 1,0 gesetzt.
  • Wie aus Fig. 6 klar hervorgeht, nimmt die Spracherkennungsrate bei dem herkömmlichen Verfahren (Kurve "a") erheblich ab, wenn das Nichtsprache-Segment Ts vergrößert wird. Bei der ersten bis vierten Methode (Kurven "b" bis "e") gemäß der Erfindung nimmt die Spracherkennungsrate selbst dann, wenn das Nichtsprache-Segment Ts vergrößert wird, nur geringfügig ab. Das heißt, gemäß vorliegender Erfindung ist es möglich, die Spracherkennungsrate selbst dann auf einem speziellen Niveau zu halten, wenn das Nichtsprache-Segment Ts geändert wird.
  • Bei jeder der oben beschriebenen Methoden eins bis vier wird der Mittelwert us, der die Normalverteilung G(us, σS²) des Nichtsprache-Klangmodells definiert, ein Mittelwert des Mittelwerts m der Nichtsprache-Merkmalverteilung G(ui, σi²). Wenn der Mittelwert des Mittelwerts ui der Nichtsprache-Merkmalverteilung G(ui, σi²) mit p bezeichnet wird und die Normalverteilungen der nach der ersten bis vierten Methode festgelegten Nichtsprache-Klangmodelle mit Gs1(u, ss1²), Gs2(u, σs2²), Gs3(u, ss3²) bzw. Gs4(u, ss4²) bezeichnet werden, werden diese zu Verteilungen in dem Merkmalraum, in denen der Mittelwert u das Zentrum (Schwerpunkt) ist.
  • Die Adaptierung eines Nichtsprache-Klangmodells nach der oben beschriebenen ersten bis vierten Methode auf der Basis der Nichtsprache-Merkmalverteilung G(ui, σi²) kann durch die folgende Gleichung (38) definiert werden, indem man eine Abb. V benutzt. Im folgenden wird G(ui, σi²) als Gi und G(us, σs²) als Gs geschrieben, wenn dies angebracht ist.
  • Gs() = V(G&sub1;, G&sub2;, ..., Gi, ...) (38)
  • Außerdem ist hier als Normalverteilung G eine Normalverteilung angenommen, und diese Normalverteilung ist durch einen Mittelwert und eine Varianz definiert. Wenn der Mittelwert und die Varianz, die die Normalverteilung G definieren durch us und σs² ausgedrückt werden, wie dies oben beschrieben wurde, kann die Definition von Gleichung (38) auch durch die folgenden Gleichungen (39) und (40) ausgedrückt werden, indem die Abb. Vu und Vs2 des Mittelwerts bzw. der Varianz benutzt werden:
  • us = Vu(G&sub1;, G&sub2;, ...) (39)
  • σs² = Vs2(G&sub1;, G&sub2;, ...) (40)
  • Bei der ersten bis vierten Methode, die durch die oben beschriebenen Abb. V(Vu und Vs2) ausgedrückt werden, wird die Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM in einer Zeitreihe, die aus jedem der M Rahmen in dem Geräuschbeobachtungsintervall Tn (Fig. 2) gewonnen wird, gleich behandelt.
  • Nun ist das Umgebungsgeräusch in dem Geräuschbeobachtungsintervall genaugenommen jedoch nicht das gleiche wie das Umgebungsgeräusch in dem Geräuschbeobachtungsintervall Tn, das dem Geräuschbeobachtungsintervall unmittelbar vorangeht, und weiterhin wird allgemein angenommen, daß das Umgebungsgeräusch in dem Geräuschbeobachtungsintervall Tn sich um so mehr von dem Umgebungsgeräusch in dem Spracherkennungsintervall unterscheidet, je größer der Abstand von dem Spracherkennungsintervall (von dessen Startzeitpunkt tc) ist.
  • Deshalb sollte die Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM in einer Zeitreihe, die aus jedem der M Rahmen in dem Geräuschbeobachtungsintervall Tn (siehe Fig. 2) gewonnen wird, durch Gewichtung mit denjenigen, die dem Spracherkennungsintervall näher liegen, behandelt werden, statt gleich behandelt zu werden (diejenigen, die größeren Abstand von dem Spracherkennungsintervall haben, sollten ohne Zuteilung eines Gewichts behandelt werden). Eine solche Gewichtung wurde z. B. in EP-A-694 906 für die Berechnung eines Korrekturvektors beschrieben, der von einem Eingangsmerkmalvektor zu subtrahieren ist, um diesen Eingangsmerkmalvektor zu normieren. Dies ermöglicht eine Adaptierung (Korrektur und Aktualisierung) des. Nichtsprache-Klangmodells, wodurch die Genauigkeit der Spracherkennung weiter verbessert wird.
  • Deshalb wird für die in dem Geräuschbeobachtungsintervall Tn gewonnene Nichtsprache- Merkmalverteilung G&sub1;, G&sub2;, ..., GM der Grad der Frische eingeführt, der deren Neuigkeit (hier entsprechend der Neuigkeit relativ zu dem Spracherkennungsintervall) repräsentiert, und im folgenden wird ein Verfahren zur Durchführung einer Adaptierung eines Nichtsprache- Klangmodells beschrieben, das diese Frische berücksichtigt.
  • Fig. 8 zeigt ein Beispiel für den Aufbau der Nichtsprache-Klangmodell-Korrekturstufe 7 von Fig. 1, die eine Adaptierung eines Nichtsprache-Klangmodells vornimmt.
  • In einer Frischefunktion-Speicherstufe 31 ist eine Frischefunktion (Parameter, die eine Frischefunktion definieren) gespeichert, die den Grad der Frische repräsentiert, wie er oben beschrieben wurde.
  • Eine Folge von Beobachtungsvektoren (hier Sprachdaten von M Rahmen) als Sprachdaten (Geräusch) in dem Geräuschbeobachtungsintervall Tn, die von der Geräuschbeobachtungsintervall-Extrahierstufe 3 ausgegeben werden, werden einer Korrekturstufe 32 zugeführt. Die Korrekturstufe 32 gewinnt aus diesem Beobachtungsvektor eine Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM und adaptiert ein Nichtsprache-Klangmodell auf der Basis dieser Verteilung und der in der Frischefunktion-Speicherstufe 31 gespeicherten Frischefunktion.
  • Die Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM enthält hier diskrete Werte, die in jedem der M Rahmen in dem Geräuschbeobachtungsintervall Tn beobachtet werden. Wenn die Nichtsprache-Klangmodell-Korrekturstufe 7 ein System ist, das diskrete Werte verarbeitet, kann die Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM, die diskrete Werte enthält, so benutzt werden, wie sie ist. Falls die Nichtsprache-Klangmodell-Korrekturstufe 7 jedoch ein System ist, das kontinuierliche Werte verarbeitet, wie sie z. B. in Fig. 9 dargestellt sind, muß die Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM, die diskrete Werte enthält, durch einen kontinuierlichen Wandler in kontinuierliche Werte umgewandelt werden, und die Werte werden anschließend von der Nichtsprache-Klangmodell-Korrekturstufe 7 verarbeitet. Als Verfahren zur Umwandlung von diskreten Werten in kontinuierliche Werte steht z. B. ein Verfahren zur Verfügung, das eine Approximierung durch eine Spline-Funktion durchführt.
  • Die diskreten Werte sind eine endliche Zahl von Beobachtungswerten, die in diskreten Zeitpunkten in einem speziellen endlichen Bobachtungsintervall beobachtet werden, während die kontinuierlichen Werte eine unendliche Zahl von Beobachtungswerten sind, die in beliebigen Zeitpunkten in einem speziellen endlichen (oder unendlichen) Beobachtungsintervall beobachtet werden und durch eine spezielle Funktion ausgedrückt werden.
  • Für den Fall, daß die für die Adaptierung eines Nichtsprache-Klangmodells benutzte Nichtsprache-Merkmalverteilung diskrete Werte enthält, wird auch die Frischefunktion eine Funktion von diskreten Werten, und wenn die Nichtsprache-Merkmalverteilung kontinuierliche Werte enthält, wird auch die Frischefunktion eine Funktion von kontinuierlichen Werten.
  • Als nächstes werden eine Frischefunktion und eine Adaptierung eines Nichtsprache-Klangmodells unter Verwendung der Frischefunktion für den Fall, daß die Frischefunktion diskrete Werte enthält, und für den Fall, daß die Frischefunktion kontinuierliche Werte enthält, unterschiedlich beschrieben.
  • Zunächst kann eine Frischefunktion F(x) z. B. so definiert werden, wie dies in den folgenden Gleichungen (41) bis (43) angegeben ist:
  • worin Ωobs das Beobachtungsintervall der Nichtsprache-Merkmalverteilung repräsentiert und in diesem Ausführungsbeispiel dem Geräuschbeobachtungsintervall Tn entspricht.
  • Auf der Basis von Gleichung (41) wird die Frischefunktion F(x) in anderen Intervallen als dem Beobachtungsintervall Ωobs gleich 0. Aus Gleichung (42) geht hervor, daß die Frischefunktion F(x) eine Funktion ist, die im Lauf der Zeit ansteigt oder sich in dem Beobachtungsintervall Ωobs ment ändert (in der vorliegenden Beschreibung als "monoton ansteigende Funktion" bezeichnet). Deshalb ist der Wert der Frischefunktion F(x) grundsätzlich um so größer, je näher sie dem Spracherkennungsintervall liegt (siehe Fig. 2). Aus Gleichung (43) geht hervor, daß die Frischefunktion F(x) eine Funktion ist, deren integrierter Wert gleich 1 wird, wenn eine Integration über das Beobachtungsintervall Ωobs durchgeführt wird. Auf der Basis der Gleichungen (41) bis (43) hat die Frischefunktion F(x) z. B. den in Fig. 10 dargestellten Verlauf.
  • Im vorliegenden Ausführungsbeispiel wird die Frischefunktion F(x) als Multiplikator benutzt, der mit der Nichtsprache-Merkmalverteilung zu multiplizieren ist, wie dies weiter unten beschrieben wird. Die Frischefunktion F(x) wirkt deshalb als Gewicht für die Nichtsprache- Merkmalverteilung, mit der der Wert der Funktion als Multiplikator multipliziert wird, wenn der Wert der Funktion positiv oder negativ ist. Außerdem bewirkt die Frischefunktion F(x), daß sie die Nichtsprache-Merkmalverteilung, mit der ihr Wert als Multiplikator multipliziert wird, ungültig macht, wenn der Wert gleich 0 ist, so daß dann kein Einfluß auf die Adaptierung des Nichtsprache-Klangmodells ausgeübt wird.
  • Durch die Verwendung der Frischefunktion F(x), wie sie oben beschrieben wurde, und der Nichtsprache-Merkmalverteilung G&sub1;, G&sub2;, ..., GM in der Korrekturstufe 32 von Fig. 8 kann das Nichtsprache-Klangmodell Gs nach der Adaptierung grundsätzlich auf der Basis der folgenden Gleichung (44) bestimmt werden:
  • Nach Gleichung (44) wird die Nichtsprache-Merkmalverteilung, die dem Spracherkennungsintervall näher liegt, durch Gewichtung behandelt, und es wird eine Adaptierung eines Nichtsprache-Klangmodells durchgeführt. Als Ergebnis kann die Genauigkeit der Spracherkennung sogar noch weiter verbessert werden.
  • Als nächstes werden ein spezifisches Beispiel der Frischefunktion F(x) und eine Adaptierung eines Nichtsprache-Klangmodells beschrieben, bei der diese benutzt wird. Im folgenden wird angenommen, daß das Beobachtungsintervall Ωobs der Nichtsprache-Merkmalverteilung (in diesem Ausführungsbeispiel das Geräuschbeobachtungsintervall Tn) ein Intervall ist, in welchem x von 0 bis x läuft. Außerdem werden als Funktionswerte der Frischefunktion F(x) nur die Werte des Beobachtungsintervalls Ωobs berücksichtigt, (wie in Gleichung (41) angegeben), da die Funktionswerte in anderen als dem Beobachtungsintervall Ωobs gleich 0 sind, im folgenden wird dieser Punkt nicht erwähnt).
  • Als Frischefunktion F(x) kann z. B. eine lineare Funktion benutzt werden. Falls kontinuierliche Werte als Funktionswerte herangezogen werden, wird die Frischefunktion F(x) z. B. durch die Gleichung (45) ausgedrückt:
  • F(x) = α·x (45)
  • In Gleichung (45) ist α eine vorbestimmte Konstante, und diese Konstante α wird auf der Basis der Definition der Frischefunktion von Gleichung (43) gleich 2/xM². Deshalb läßt sich die Frischefunktion F(x) von Gleichung (45) durch die folgende Gleichung (46) ausdrücken:
  • Die Frischefunktion F(x) von Gleichung (46) ist in Fig. 11 dargestellt.
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung durch die Gleichung (47) bestimmt:
  • worin Gx(ui, sx²) eine Nichtsprache-Merkmalverteilung zu der Zeit x repräsentiert und ui und σx² der Mittelwert bzw. die Varianz sind, die die Normalverteilung definieren, die die Nichtsprache-Merkmalverteilung darstellt.
  • Als Frischefunktion F(x) kann z. B. eine lineare Funktion benutzt werden, die diskrete Werte annimmt. In diesem Fall wird die Frischefunktion F(x) z. B. durch die folgende Gleichung (48) ausgedrückt:
  • In Gleichung (48) ist α eine vorbestimmte Konstante, und diese Konstante α wird auf der Basis der Definition der Frischefunktion in Gleichung (43) 2/(xm(xM + 1)). Deshalb läßt sich die Frischefunktion F(x) von Gleichung (48) durch folgende Gleichung (49) ausdrücken:
  • Die Frischefunktion F(x) von Gleichung (49) ist in Fig. 12 dargestellt.
  • In diesem Fall wird ein Nichtsprache-Klangmodell Gs nach der Adaptierung auf der Basis von Gleichung (50) bestimmt:
  • worin Gx die Nichtsprache-Merkmalverteilung in einem Abtastpunkt (Abtastzeit) x repräsentiert.
  • Als Frischefunktion F(x) kann z. B. auch eine nichtlineare Funktion, wie eine Exponentialfunktion, eine Binominalfunktion höherer Ordnung oder eine logarithmische Funktion benutzt werden. Wenn als Frischefunktion F(x) z. B. als Funktion höherer Ordnung eine Funktion zweiter Ordnung benutzt wird, die kontinuierliche Werte annimmt, läßt sich die Frischefunktion F(x) z. B. auf der Basis von Gleichung (51) ausdrücken:
  • F(x) = α·x² (51)
  • In Gleichung (51) ist a eine vorbestimmte Konstante, und diese Konstante α wird auf der Basis der Definition der Frischefunktion von Gleichung (43) gleich 3/xM³. Deshalb läßt sich die Frischefunktion F(x) von Gleichung (51) auf der Basis von Gleichung (52) ausdrücken:
  • Die durch die Gleichung (52) ausgedrückte Frischefunktion F(x) ist in Fig. 13 dargestellt.
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung auf der Basis von Gleichung (53) bestimmt:
  • Die Frischefunktion F(x) kann als Funktion höherer Ordnung z. B. eine Funktion zweiter Ordnung sein, die diskrete Werte annimmt. In diesem Fall wird die Frischefunktion F(x) z. B. auf der Basis von Gleichung (54) ausgedrückt:
  • F(x) = α·x² x = 1, 2, ..., xM (54)
  • In Gleichung (54) ist a eine vorbestimmte Konstante, und diese Konstante α wird auf der Basis der Definition der Frischefunktion von Gleichung (43) gleich 6/(xM(xM + 1)(2xM + 1)). Deshalb wird die Frischefunktion F(x) von Gleichung (54) auf der Basis der folgenden Gleichung (55) ausgedrückt:
  • Die durch die Gleichung (55) ausgedrückte Frischefunktion F(x) ist in Fig. 14 dargestellt. In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung auf der Basis von Gleichung (56) bestimmt:
  • Wenn als Frischefunktion F(x) z. B. eine logarithmische Funktion benutzt wird, die kontinuierliche Werte annimmt, läßt sich die Frischefunktion F(x) z. B. auf der Basis von Gleichung (57) ausdrücken;
  • F(x) = α·log(x + 1) (57)
  • In Gleichung (57) ist α eine vorbestimmte Konstante, und diese Konstante a wird auf der Basis der Definition der Frischefunktion von Gleichung (43) gleich 1/((xM + 1)log(xM + 1) - xM). Die Frischefunktion F(x) von Gleichung (57) läßt sich deshalb durch die folgende Gleichung (58) ausdrücken:
  • Die Frischefunktion F(x) von Gleichung (58) ist in Fig. 15 dargestellt.
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung auf der Basis von Gleichung (59) bestimmt:
  • Als Frischefunktion F(x) kann z. B. auch eine logarithmische Funktion benutzt werden, die diskrete Werte annimmt. In diesem Fall wird die Frischefunktion F(x) z. B. durch die folgende Gleichung (60) ausgedrückt:
  • F(x) = α·log(x + 1) x = 1, 2, ..., xM (60)
  • In Gleichung (60) ist α eine vorbestimmte Konstante, und diese Konstante α wird auf der Basis der Definition der Frischefunktion von Gleichung (43) bestimmt. Deshalb läßt sich die Frischefunktion F(x) von Gleichung (60) durch die folgende Gleichung (61) ausdrücken:
  • Die Frischefunktion F(x) von Gleichung (61) ist in Fig. 16 dargestellt.
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung durch die folgende Gleichung (62) bestimmt:
  • Wenn als Frischefunktion F(x) z. B. eine allgemeine Funktion höherer Ordnung benutzt wird, die kontinuierliche Werte annimmt, läßt sich die Frischefunktion F(x) z. B. durch die folgende Gleichung (63) ausdrücken:
  • F(x) = α·xp (63)
  • In Gleichung (63) ist α eine vorbestimmte Konstante, und der Grad der Frischefunktion F(x) wird durch p bestimmt.
  • Die Konstante α kann auf der Basis der Definition der Frischefunktion von Gleichung (43) bestimmt werden. Deshalb läßt sich die Frischefunktion F(x) von Gleichung (63) durch die folgende Gleichung (64) ausdrücken:
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung durch die folgende Gleichung (65) bestimmt:
  • Wenn p in Gleichung (64) z. B. gleich 1 oder 2 ist, ist die Frischefunktion F(x) eine lineare Funktion oder eine Funktion zweiter Ordnung, die kontinuierliche Werte annimmt und durch Gleichung (46) oder (52) ausgedrückt wird.
  • Wenn p in Gleichung (64) z. B. gleich 3 ist, ist die Frischefunktion F(x) eine Funktion dritter Ordnung, die kontinuierliche Werte annimmt und durch die folgende Gleichung (66) ausgedrückt wird:
  • Wenn p in Gleichung (64) gleich 4 ist, ist die Frischefunktion F(x) eine Funktion vierter Ordnung, die kontinuierliche Werte annimmt und durch die folgende Gleichung (67) ausgedrückt wird:
  • Wenn als Frischefunktion F(x) z. B. eine allgemeine Funktion höherer Ordnung benutzt wird, die diskrete Werte annimmt, läßt sich die Frischefunktion F(x) z. B. durch die folgende Gleichung (68) ausdrücken:
  • F(x) = α·xp x = 1, 2, ..., xM (68)
  • In Gleichung (68) ist α eine vorbestimmte Konstante, und die Ordnung der Frischefunktion F(x) wird durch p bestimmt.
  • Die Konstante α kann auf der Basis der Definition der Frischefunktion von Gleichung (43) bestimmt werden. Deshalb läßt sich die Frischefunktion F(x) von Gleichung (68) durch die folgende Gleichung (69) ausdrücken:
  • In diesem Fall wird das Nichtsprache-Klangmodell Gs nach der Adaptierung durch die folgende Gleichung (70) bestimmt:
  • Wenn p in Gleichung (69) z. B. gleich 1 oder 2 ist, ist die Frischefunktion F(x) eine lineare Funktion oder eine Funktion zweiter Ordnung, die diskrete Werte annimmt und durch Gleichung (49) oder (55) ausgedrückt wird.
  • Wenn p in Gleichung (69) z. B. gleich 3 ist, ist die Frischefunktion F(x) eine Funktion dritter Ordnung, die diskrete Werte annimmt und durch die folgende Gleichung (71) ausgedrückt wird:
  • Wenn p in Gleichung (69) z. B. gleich 4 ist, ist die Frischefunktion F(x) eine Funktion vierter Ordnung, die diskrete Werte annimmt und durch die folgende Gleichung (72) ausgedrückt wird:
  • Das Konzept der Frischefunktion F(x) kann auf die Adaptierung eines Nichtsprache-Klangmodells und zusätzlich auf die Adaptierung an die in einer geräuschvollen Umgebung sprechende Person und auf die Adaptierung eines Klangmodells angewendet werden, das kein Nichtsprache-Klangmodell ist. Es ist außerdem möglich, das Konzept der Frischefunktion F(x) auf die Sprachdetektierung und die nichtstationäre Geräuschdetektierung anzuwenden. Darüber hinaus ermöglicht es die Anwendung des Konzepts der Frischefunktion F(x) auch auf dem Gebiet der Tonsignalverarbeitung, der Bildsignalverarbeitung und der Kommunikation, die Robustheit gegen Umgebungsgeräusch zu verbessern und die Leistung des Systems zu steigern.
  • Obwohl vorangehend die Anwendung der vorliegenden Erfindung auf eine Spracherkennungsvorrichtung beschrieben wurde, kann eine solche Spracherkennungsvorrichtung z. B. bei einem Kraftfahrzeug-Navigationsgerät angewendet werden, das Spracheingabe akzeptieren kann, oder auf verschiedene andere Gerätetypen.
  • In diesem Ausführungsbeispiel wird ein Merkmalverteilungsparameter bestimmt, der die Verteilungscharakteristik von Geräusch berücksichtigt. Dieses Geräusch enthält z. B. in einer Umgebung, in der Sprache erzeugt wird, Geräusch von außerhalb und enthält zusätzlich z. B. in einem Fall, in welchem Sprache erkannt wird, die über eine Telefonleitung oder andere Kommunikationsleitungen übertragen wurde, charakteristische Merkmale der Kommunikationsleitung.
  • Darüber hinaus kann die vorliegende Erfindung in Fällen angewendet werden, in denen zusätzlich zur Spracherkennung, Bilderkennung oder andere Mustererkennungen durchgerührt werden.
  • Die Lehre der Erfindung kann z. B. auch auf Mustererkennungssysteme und -verfahren in Anwendungen übertragen werden wie:
  • - Objektidentifizierung und -sortierung, z. B. in der Robotertechnik, dem computergestützten Zusammenbau, der Identifizierung von Personen oder Fahrzeugen usw.,
  • - der Authentifizierung von Dokumenten,
  • - der optischen Handschrifterkennung
  • - usw.
  • Obwohl in dem vorliegenden Ausführungsbeispiel eine Adaptierung eines Nichtsprache- Klangmodells unter Verwendung einer als Verteilung in einem Merkmalraum dargestellten Nichtsprache-Merkmalverteilung durchgeführt wird, kann die Adaptierung eines Nichtsprache-Klangmodells auch unter Verwendung von Geräuschmerkmalen durchgeführt werden, die als Punkt in einem Merkmalraum dargestellt werden.
  • Die oben beschriebene Verarbeitungsfolge kann durch Hardware oder durch Software realisiert werden. Wenn die Verarbeitungsfolge durch Software realisiert wird, sind Programme, die die Software bilden, in einem Universalcomputer usw. installiert.
  • Fig. 17 zeigt ein entsprechendes Beispiel für den Aufbau eines Ausführungsbeispiels eines Computers, in welchem die Programme installiert sind, die die oben beschriebene Verarbeitungsfolge ausführen.
  • Die Programme können im voraus auf einem Aufzeichnungsmedium, wie einer Festplatte 105 oder einem ROM 103 aufgezeichnet werden, das in dem Computer enthalten ist.
  • Alternativ können die Programme temporär oder permanent in einem herausnehmbaren Aufzeichnungsmedium 111 gespeichert (aufgezeichnet) sein, z. B. einer Diskette, einer CD-ROM (Compact Disc-Nurlesespeicher), einer magneto-optischen Platte (MO-Disc), einer DVD (Digital Versatile Disc), einer magnetischen Platte oder einem Halbleiterspeicher. Ein solches herausnehmbares Aufzeichnungsmedium 111 kann als sog. Package-Software vorgesehen sein.
  • Statt von dem herausnehmbaren Aufzeichnungsmedium 111, wie dem oben beschriebenen, in einem Computer installiert zu werden, können die Programme auch drahtlos von einer Download-Seite über einen künstlichen Satelliten für digitalen Satellitenrundfunk übertragen werden, oder sie können durch eine Drahtverbindung über ein Netzwerk, z. B. ein LAN (Local Area Network) oder das Internet zu einem Computer übertragen werden. Die in dieser Weise übertragenen Programme werden von einem Kommunikationsteil 108 empfangen und auf der darin enthaltenen Festplatte 105 installiert.
  • Der Computer enthält eine CPU (zentrale Verarbeitungseinheit) 102. Ein Eingabe-/Ausgabe- Interface 110 ist mit der CPU 102 über einen Bus 101 verbunden. Wenn der Benutzer eine von einer Tastatur, eine Maus usw. gebildete Eingabevorrichtung 107 betätigt und dadurch über das Eingabe/Ausgabe-Interface 110 ein Befehl eingegeben wird, führt die CPU 102 entsprechend diesem Befehl, ein in einer ROM (Nurlesespeicher) 103 gespeichertes Programm aus. Alternativ lädt die CPU 102 ein in der Festplatte 105 gespeichertes Programm, ein Programm, das von einem Satelliten oder einem Netzwerk übertragen wird und das von dem Kommunikationsteil 108 empfangen und in der Festplatte 105 gespeichert wird, oder ein Programm, das von dem herausnehmbaren Aufzeichnungsmedium, das aus einem Laufwerk 109 ausgelesen und auf der Festplatte 105 installiert wird, in ein RAM (Speicher mit wahlfreiem Zugriff) 104 und führt das Programm aus. Als Ergebnis führt die CPU 105 die Verarbeitungen entsprechend den in den oben beschriebenen Blockdiagrammen angegebenen Konstruktionen aus. Die CPU 102 gibt dann das Verarbeitungsergebnis auf Anforderung über das Eingabe/Ausgabe-Interface 110 z. B. an eine von einer LCD (Flüssigkristallanzeige) gebildete Anzeigevorrichtung 106, einen Lautsprecher usw. aus, oder die überträgt das Verarbeitungsergebnis aus dem Kommunikationsteil 108 und zeichnet außerdem das Verarbeitungsergebnis auf der Festplatte 105 auf.
  • In der vorliegenden Beschreibung müssen die Verarbeitungsschritte, die ein Programm beschreiben, das einen Computer veranlaßt, verschiedene Verarbeitungstypen auszuführen, die Verarbeitung nicht notwendigerweise in einer zeitlichen Folge entsprechend der beschriebenen Sequenz als Flußdiagramm ausgeführt werden, sie können ebenso gut eine Verarbeitung enthalten, die parallel oder individuell ausgeführt wird (z. B. Parallelverarbeitung oder objektorientierte Verarbeitung).
  • Ein Programm kann ferner so ausgestaltet sein, daß es von einem Computer ausgeführt wird, oder so, daß es verteilt durch mehrere Computer ausgeführt wird. Außerdem kann ein Programm so ausgestaltet sein, daß es zu einem entfernten Computer übertragen und von diesem ausgeführt wird.
  • Bei der Modelladaptierungsvorrichtung und dem Modelladaptierungsverfahren, dem Aufzeichnungsmedium und der Mustererkennungsvorrichtung gemäß der Erfindung wird eine Adaptierung eines vorbestimmten Modells auf der Basis von in einem vorbestimmten Intervall extrahierten Daten und dem Grad der Frische ausgeführt, der die Neuigkeit der extrahierten Daten repräsentiert. Deshalb kann Erkennungsleistung verbessert werden, wenn die Mustererkennung unter Verwendung des Modells durchgeführt wird.
  • Es lassen sich zahlreiche verschiedene Ausführungsbeispiele der Erfindung konstruieren, ohne daß der Bereich der Erfindung verlassen wird. Es ist zu beachten, daß die vorliegende Erfindung nicht auf das in der Beschreibung dargestellte spezifische Ausführungsbeispiel beschränkt ist. Die Erfindung soll im Gegenteil verschiedene Modifizierungen und äquivalente Anordnungen abdecken, die in dem Bereich der Erfindung liegen, wie er im folgenden beansprucht wird.

Claims (17)

1. Modelladaptierungsvorrichtung zur Durchführung einer Adaptierung eines Modells, das zur Mustererkennung benutzt wird, welche zeitserielle Eingangsdaten in eines aus einer vorbestimmten Anzahl von Modellen klassifiziert, wobei die modellaptive Vorrichtung aufweist:
eine Daten-Extrahiereinrichtung (3) zum Extrahieren der einem vorbestimmten Modell entsprechenden Eingangsdaten, die in einem vorbestimmten Intervall beobachtet werden, und zur Ausgabe der Daten als extrahierte Daten und
eine Modelladaptierungseinrichtung (7) zur Durchführung einer Adaptierung des vorbestimmten Modells auf der Basis der in dem genannten vorbestimmten Intervall extrahierten Daten und des Grads der Frische, der die Neuigkeit der extrahierten Daten innerhalb des vorbestimmten Intervalls repräsentiert.
2. Modelladaptierungsvorrichtung nach Anspruch 1, bei der die Mustererkennung auf der Basis einer Merkmalverteilung in einem Merkmalraum der Eingangsdaten durchgeführt wird.
3. Modelladaptierungsvorrichtung nach Anspruch 1 oder 2, bei der die Modelladaptierungseinrichtung eine Adaptierung des vorbestimmten Modells durchführt, wobei sie als die genannte Frische eine Funktion benutzt, deren Wert sich in einer solchen Weise ändert, daß er der zeitbezogenen Position der extrahierten Daten in dem vorbestimmten Intervall entspricht.
4. Modelladaptierungsvorrichtung nach Anspruch 3, bei der die genannte Funktion eine monoton ansteigende Funktion ist, die im Verlauf der Zeit ansteigt.
5. Modelladaptierungsvorrichtung nach Anspruch 4, bei der die Funktion eine lineare oder eine nichtlineare Funktion ist.
6. Modelladaptierungsvorrichtung nach Anspruch 4, bei der die Funktion diskrete Werte oder kontinuierliche Werte annimmt.
7. Modelladaptierungsvorrichtung nach Anspruch 4, bei der die Funktion eine Funktion zweiter Ordnung, eine Funktion dritter Ordnung oder eine Funktion höherer Ordnung ist.
8. Modelladaptierungsvorrichtung nach Anspruch 4, bei der die Funktion eine logaritmische Funktion ist.
9. Modelladaptierungsvorrichtung nach einem der Ansprüche 1 bis 8, bei der die Eingangsdaten Sprachdaten sind.
10. Modelladaptierungsvorrichtung nach Anspruch 9, bei der das vorbestimmte Modell ein Klangmodell ist, das in einem Intervall, das kein Sprachsegment ist, Geräusch repräsentiert.
11. Modelladaptierungsvorrichtung nach einem der Ansprüche 1 bis 10, bei der die Daten- Extrahiereinrichtung aufweist:
eine Rahmenbildungseinrichtung (2) mit einem Eingang für den Empfang einer Quelle (1) von Sprache und/oder umgebungsgeräusch und zur Erzeugung entsprechender Datenrahmen,
eine Geräuschbeobachtungsintervall-Extrahiereinrichtung (3) zum Extrahieren eines Geräuschvektors für eine Anzahl (M) von Rahmen in einem Geräuschbeobachtungsintervall (Tn),
eine Merkmal-Extrahiereinrichtung (5), die auf den Geräuschvektor (a) und einen Beobachtungsvektor (a) in einem Spracherkennungsintervall reagiert, um einen Merkmalvektor (y) zu erzeugen, und
eine auf den Geräuschvektor ansprechende Nichtsprache-Klangmodell-Korrektureinrichtung (7).
12. Modelladaptierungsvorrichtung nach einem der Ansprüche 1 bis 11, ferner mit einer Leistungsspektrum-Analyseeinrichturig (11) für den Empfang der extrahierten Daten,
einer Geräuschcharakteristik-Berechnungseinrichtung (13), die auf Umgebungsgeräusch anspricht, und
eine Merkmalverteilungsparameter-Berechnungseinrichtung (12) zur Erzeugung eines Merkmalverteilungsparameters (Z) nach Maßgabe der Leistungsspektrum-Analyseeinrichtung und der Geräuschcharakteristik-Berechnungseinrichtung.
13. Modelladaptierungsvorrichtung nach Anspruch 12, ferner mit
einer Mehrzahl von Identifikationsfunktions-Berechnungseinrichtungen (21-s, 21-1 bis 21- k) , von denen wenigstens eine ein Nichtsprachmodell empfängt, wobei diese Einrichtung den Merkmalverteilungsparameter (Z) aufnimmt und in Abhängigkeit hiervon eine entsprechende Identifikationsfunktion (Gs(Z), G&sub1;(Z) bis Gk(Z)) erzeugt, und
einer Festlegungseinrichtung (22), die auf die genannten Identifikationsfunktionen anspricht, um auf der Basis eines am nächsten liegenden Gegenstücks ein Erkennungsergebnis zu erzeugen.
14. Modelladaptierungsvorrichtung nach einem der Ansprüche 1 bis 13, ferner mit
einer Merkmal-Extrahiereinrichtung zum Extrahieren der Merkmale der Eingangsdaten,
einer Speichereinrichtung zum Speichern einer vorbestimmten Anzahl von Modellen, in welche die Eingangsdaten klassifiziert werden sollen, und
einer Klassifizierungseinrichtung zum Klassifizieren der einem vorbestimmten Modell entsprechenden Eingangsdaten, die in einem vorbestimmten Intervall beobachtet werden, und zur Ausgabe der Daten als extrahierte Daten.
15. Mustererkennungsvorrichtung zum Klassifizieren von zeitseriellen Eingangsdaten in eines aus einer vorbestimmten Anzahl von Modellen, wobei die Mustererkennungsvorrichtung aufweist:
eine Merkmal-Extrahiereinrichtung (5) zum Extrahieren der Merkmale der Eingangsdaten,
eine Speichereinrichtung zum Speichern der genannten vorbestimmten Anzahl von Modellen und
eine Modelladaptierungsvorrichtung nach Anspruch 1.
16. Modelladaptierungsverfahren zur Durchführung einer Adaptierung eines Modells, das zur Mustererkennung benutzt wird, welches zeitserielle Eingangsdaten in eines aus einer vorbestimmten Anzahl von Modellen klassifiziert, wobei das modellaptive Verfahren umfaßt:
einen Datenextrahierschritt zum Extrahieren der einem vorbestimmten Modell entsprechenden Eingangsdaten, die in einem vorbestimmten Intervall beobachtet werden, und zur Ausgabe der Daten als extrahierte Daten und
einen Modelladaptierungsschritt zur Durchführung einer Adaptierung des vorbestimmten Modells auf der Basis der extrahierten Daten in dem genannten vorbestimmten Intervall und des Grads der Frische, der die Neuigkeit der extrahierten Daten innerhalb des vorbestimmten Intervalls repräsentiert.
17. Aufzeichnungsmedium, auf dem ein Programm aufgezeichnet ist, das einen Computer veranlaßt, eine Adaptierung eines bei der Mustererkennung benutzten Modells auszuführen, welche zeitserielle Eingangsdaten in eines aus einer vorbestimmten Anzahl von Modellen klassifiziert, wobei das Programm umfaßt:
einen Datenextrahierschritt zum Extrahieren der einem vorbestimmten Modell entsprechenden Eingangsdaten, die in einem vorbestimmten Intervall beobachtet werden, und zur Ausgabe der Daten als extrahierte Daten und
einen Modelladaptierungsschritt zur Durchführung einer Adaptierung des vorbestimmten Modells auf der Basis der extrahierten Daten in dem genannten vorbestimmten Intervall und des Grads der Frische, der die Neuigkeit der extrahierten Daten innerhalb des vorbestimmten Intervalls repräsentiert.
DE60000403T 1999-12-28 2000-12-27 Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung Expired - Fee Related DE60000403T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37576699 1999-12-28

Publications (2)

Publication Number Publication Date
DE60000403D1 DE60000403D1 (de) 2002-10-10
DE60000403T2 true DE60000403T2 (de) 2003-04-17

Family

ID=18506028

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60000403T Expired - Fee Related DE60000403T2 (de) 1999-12-28 2000-12-27 Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung

Country Status (3)

Country Link
US (2) US6920421B2 (de)
EP (1) EP1113419B1 (de)
DE (1) DE60000403T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
US20050207653A1 (en) * 2004-03-16 2005-09-22 Nikitin Alexei V Method for analysis of line objects
US20060224541A1 (en) * 2005-03-21 2006-10-05 Ross Gerald H B Method and apparatus for pattern recognition for knowledge capture and customization
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
CN105355198B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于多重自适应的模型补偿语音识别方法
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4852181A (en) 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
GB2239971B (en) 1989-12-06 1993-09-29 Ca Nat Research Council System for separating speech from background noise
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5604839A (en) 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
NZ302748A (en) * 1995-03-07 1999-04-29 British Telecomm Speech recognition using a priori weighting values
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
GB9710514D0 (en) * 1996-09-21 1997-07-16 Philips Electronics Nv Electronic devices and their manufacture
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6490327B1 (en) * 1998-12-30 2002-12-03 Ericsson Inc. System and method for self-adaptive maximum likelihood sequence detection using a T-algorithm
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6633843B2 (en) * 2000-06-08 2003-10-14 Texas Instruments Incorporated Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption

Also Published As

Publication number Publication date
US20010025276A1 (en) 2001-09-27
EP1113419A1 (de) 2001-07-04
EP1113419B1 (de) 2002-09-04
US6920421B2 (en) 2005-07-19
DE60000403D1 (de) 2002-10-10
US7043425B2 (en) 2006-05-09
US20050171767A1 (en) 2005-08-04

Similar Documents

Publication Publication Date Title
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69010722T2 (de) Spracherkennungssystem.
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69819438T2 (de) Verfahren zur Spracherkennung
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee