DE69720134T2

DE69720134T2 - Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten

Info

Publication number: DE69720134T2
Application number: DE69720134T
Authority: DE
Inventors: Keizaburo Takagi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-10-28
Filing date: 1997-10-28
Publication date: 2003-12-04
Anticipated expiration: 2017-10-29
Also published as: EP0838805A3; JPH10133693A; US5907826A; EP0838805B1; DE69720134D1; JP3006677B2; EP0838805A2

Description

Hintergrund der Erfindung

Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und insbesondere auf eine Spracherkennungstechnik, die die Grundfrequenzkomponenten der Intensitätsinformationen verwendet.
Bei den Spracherkennungstechniken ist das am weitesten verbreitete Schema ein Schema der Konvertierung der eingegebenen Sprache in einen Merkmalsvektor durch Analysieren der Signalform der Eingangssprache innerhalb eines Analysefensters (Rahmen), der sich in vorgegebenen Zeitintervallen bewegt, für eine kurze Zeitperiode, und Behandeln der gesamten Eingangssprache als ein Zeitreihensignal, das den Merkmalsvektor repräsentiert, um somit einen Abgleich durchzuführen. Es wurden verschiedene Analyseschemen für diesen Merkmalsvektor vorgeschlagen. Obwohl nicht alle von diesen hier beschrieben werden können, umfassen sie die Cepstrum-Analyse, die Spektrumanalyse, die Leistungsanalyse und dergleichen.
Ein herkömmliches Schema der Verwendung von Informationen über die Grundfrequenz (die hier im folgenden als "Tonhöhe" bezeichnet wird) als Teil eines Merkmalsvektors wurde verwendet, um die Spracherkennungsleistung zu verbessern. Dieses Schema weist eine Anordnung ähnlich derjenigen auf, die in Fig. 4 gezeigt ist. Genauer konvertiert ein Merkmalsextraktionsabschnitt 41 die Eingangssprache in Merkmalsvektoren (z. B. ein Cepstrum oder dergleichen), die für die allgemeine Spracherkennung verwendet worden sind. Ein Tonhöhenextraktionsabschnitt 42 konvertiert die Eingangssprache in Tonhöhenfrequenzen oder Zeitableitungen hiervon, welche als Merkmalsvektoren zusammen mit den Merkmalsvektoren, die vom Merkmalsextraktionsabschnitt 41 ausgegeben werden, zur Erkennung an einen Erkennungsabschnitt 43 ausgegeben werden. Der Erkennungsabschnitt 43 führt einen Abgleich zwischen den Merkmalsvektoren, die vom Merkmalsexfraktionsabschnitt 41 und vom Tonhöhenextraktionsabschnitt 42 ausgegeben werden, und den Standardmustern, die mit derselben Merkmalsvektorkonfiguration im voraus analysiert worden sind, durch und gibt den wahrscheinlichsten Vektor als das Erkennungsergebnis aus.
Eine Spracherkennungsvorrichtung dieses Typs ist dafür ausgelegt, Vokal/Konsonant-Segmentationsfehler (stimmhafter Ton/stimmloser Ton) beim Abgleich zu vermeiden, indem die Tonhöheninformation als Teil eines Merkmalsvekfors eingeschlossen wird, um somit eine höhere Leistungsfähigkeit zu erreichen. Vokale der Sprache werden erzeugt, wenn der Vokaltrakt durch eine impulsartige Tonquelle angeregt wird, die erzeugt wird durch Öffnen/Schließen der Stimmritze. Die Vokale weisen daher klare periodische Strukturen auf und werden als Tonhöhen beobachtet.
Eine Spracherkennungsvorrichtung" die Spektralinformationen und Tonfrequenzinformationen verwendet, ist offenbart in "Isolated Word Recognition Using Pitch Pattern Information", Takahashi u. a., IEICE Trans. Fundamentals of Electronics, Bd. 76A, S. 231-236 (1993).
Im Gegensatz hierzu werden Konsonanten (insbesondere stimmlose Konsonanten) mittels einer aperiodischen Geräuschquelle und nicht mit der Stimmritze erzeugt. Die Konsonanten weisen daher keine klare periodische Struktur auf und es können keine klaren Tonhöhen beobachtet werden. Aus diesen Gründen können Fehler beim Abgleich zwischen Vokal- und Konsonantenabschnitten reduziert werden, indem Tonhöheninformationen verwendet werden.
Es ist ein weiterer Zweck einer Spracherkennungsvorrichtung eines Typs, das Tonhöhenmuster einer tonalen Sprache wie z. B. chinesisch zu identifizieren. Da jedoch dieser Zweck von den Aufgaben der vorliegenden Erfindung verschieden ist, wird eine genaue Beschreibung hiervon weggelassen.
In einer herkömmlichen Spracherkennungsvorrichtung, die Tonhöheninformationen verwendet, werden Frequenzinformationen über Tonhöhen direkt verwendet oder als Zeitableitungen der Frequenzinformationen verwendet. Die Frequenzinformationen über Tonhöhen werden direkt verwendet, wobei die Informationen zwischen Individuen sowie Geschlechtern stark variieren. Außerdem ist die Frequenzinformation, die von einem gegebenen Individuum erhalten wird, leicht durch dessen physikalischen Zustand und einen psychologischen Faktor beeinflußt, und ist somit instabil. Das heißt, solche Informationen stören die Spracherkennungsvorrichtung und können kein effektiver Parameter sein. Da sich diese Informationen zwischen Individuen deutlich verändern, sind die Informationen insbesondere ein Merkmalsvektor, der für einen Parameter für die Spracherkennung von nicht spezifischen Sprechern ungeeignet ist.
In einer Spracherkennungsvorrichtung, die Zeitableitungen vom Tonhöhenfrequenzinformationen verwendet, variieren solche Informationen zwischen Individuen und Gebieten deutlich. Selbst die gleichen Inhalte einer Äußerung variieren zwischen Dialekten und dergleichen in der Tonhöhe deutlich. Diese Tendenz spiegelt sich direkt in den Zeitableitungen der Tonhöhenfrequenzinformationen wieder. Diese Informationen werden somit zu einem Parameter, der sich zwischen Individuen und Gebieten deutlich ändert. Das heißt, dieser Parameter ist für die Spracherkennung von nicht spezifischen Sprechern nicht nützlich.

Zusammenfassung der Erfindung

Es ist eine Aufgabe der vorliegenden Erfindung, wie in den Ansprüchen 1-11 beansprucht ist, eine Spracherkennungsvorrichtung zu schaffen, die Merkmalsvektoren bildet, die für eine Spracherkennungsvorrichtung für nicht spezifische Sprecher geeignet ist, indem Tonhöhenintensitätsinformationen verwendet werden, die frei von Variationen zwischen Individuen und Gebieten sind, sowie Zeitableitungen der Tonhöhenintensitätsinformationen anstelle der Tonhöhenfrequenzinformationen, die anfällig sind für den nachteiligen Einfluß von Veränderungen zwischen Individuen und Gebieten.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, eine Hochleistungs- Spracherkennungsvorrichtung zu schaffen, die Stimmhaft/Stimmlos-Ton-Segmentierungsfehler reduziert.
Um die obigen Aufgaben zu lösen, wird gemäß der vorliegenden Erfindung eine Spracherkennungsvorrichtung geschaffen, die eine Merkmalsextraktionseinrichtung zum Extrahieren von Merkmalsvektoren einer Eingangssprache, das wenigstens eine Tonhöhenintensität-Extraktionseinrichtung zum Extrahieren von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält, und eine Erkennungseinrichtung zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung umfaßt.

Kurzbeschreibung der Zeichnungen

Fig. 1 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 2 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 3 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der dritten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 4 ist ein Blockschaltbild, das eine herkömmliche Spracherkennungsvorrichtung zeigt;
Fig. 5 ist ein Graph, der die Tonhöhenintensitäten zeigt, die in der Spracherkennungsvorrichtung der vorliegenden Erfindung verwendet werden; und
Fig. 6 ist ein Graph, der die Tonhöhenfrequenzen zeigt, die in der herkömmlichen Spracherkennungsvorrichtung verwendet werden.

Genaue Beschreibung der bevorzugten Ausführungsformen

Im folgenden werden die Ausführungsformen der vorliegenden Erfindung mit Bezug auf die beigefügten Zeichnungen genauer beschrieben.
Fig. 1 zeigt eine Spracherkennungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 11 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Extraktionsabschnitt 12 zum Extrahieren der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 13 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsexfraktionsabschnitt 11, wenn ein Teil oder der gesamte Merkmalsvektor vom Merkmalsextraktionsabschnitt 11 zu den Tonhöhenintensitäten paßt, die vom Tonhöhenintensität-Extraktionsabschnitt 12 extrahiert worden sind. Wenn die Merkmalsvektoren sowohl unter Verwendung der vom Tonhöhenintensität-Extraktionsabschnitt 12 ausgegebenen Tonhöhenintensitäten als auch anderer Merkmalsvektoren für die Spracherkennung verwendet werden sollen, gibt der Merkmalsextraktionsabschnitt 11 diese anderen Merkmalsvektoren für die Spracherkennung aus.
Der Tonhöhenintensität-Extraktionsabschnitt 12 konvertiert die Eingangssprache in Tonhöhenintensitäten. Es wurden verschiedene Tonhöhenextraktionstechniken zum Extrahieren von Tonhöhenintensitäten vorgeschlagen. Die Tonhöhenintensität wird unter Verwendung einer der Techniken extrahiert. Zum Beispiel kann diese Tonhöhenextraktionstechnik die Intensität der Tonhöhenkomponente eines Oberwellenproduktspektrums oder dessen logarithmische Intensität verwenden, wie beschrieben ist in "Digital Signal Processing for Speech", L. R. Rabinar, R. W. Schafer, Corona, Bd. 2, S. 73-75, 1988; die Intensität eines Cepstrums und dessen Spitzenposition, wie beschrieben ist in "Digital Signal Processing for Speech", L. R. Rabinar, R. W. Schafer, Corona, Bd. 2, S. 135-140, 1988; oder die Intensität eines Cepstrumkoeffizienten und dessen Tonhöhenposition oder dessen Logarithmus.
Der Erkennungsabschnitt 13 führt eine Spracherkennung durch, indem er die vom Tonhöhenintensität-Exfraktionsabschnitt 12 extrahierten Tonhöhenintensitäten und andere Merkmalsvektoren, die vom Merkmalsextraktionsabschnitt 11 extrahiert worden sind, für die Spracherkennung verwendet. Es sind verschiedene Typen von Vektoren als Merkmalsvektoren bekannt, die für die Spracherkennung verwendet werden. Obwohl nicht alle von diesen beschrieben werden können, stehen als typische Beispiele ein Cepstrum, ein Spektrum, ein Leistungsspektrum, die Zeitableitungen hiervon und dergleichen zur Verfügung. Es können auch irgendwelche anderen Typen von Merkmalsvektoren verwendet werden, solange sie für die Spracherkennung verwendet werden können.
Ferner sind verschiedene Spracherkennungsalgorithmen bekannt. Obwohl nicht alle von diesen beschrieben werden können, stehen ein DP-Anpassungsalgorithmus, ein HMM-Algorithmus, ein Neuronales-Netz-Algorithmus und dergleichen als typische Beispiele zur Verfügung. Irgendwelche anderen Typen von Verfahren können ebenfalls verwendet werden, solange sie dafür ausgelegt sind, die Erkennungsverarbeitung für die Spracherkennung auszuführen.
Fig. 2 zeigt eine Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 21 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 23 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 21, wenn einige oder alle der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 21 zu den Zeitableitungen der Tonhöhenintensitäten passen, die vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 extrahiert worden sind.
Wenn die von Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 ausgegebenen Tonhöhenintensitäten und die anderen Merkmalsvektoren für die Spracherkennung als Merkmalsvektoren verwendet werden, gibt der Merkmalsextraktionsabschnitt 21 diese anderen Merkmalsvektoren für die Spracherkennung aus.
Der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 konvertiert die Eingangssprache zu Tonhöhenintensität-Zeitableitungen. Es sind verschiedene Typen von Schemen als Algorithmen bekannt, um Zeitableitungen sowie Tonhöhenintensitäten zu erhalten. Es sei P(t) die Tonhöhenintensität, wobei die Zeitableitungen ΔP(t) unter Verwendung eines linearen Regressionskoeffizienten anhand der folgenden Gleichung (1) berechnet werden:
wobei M die interessierende Regressionsfensterbreite ist. Irgendwelche anderen Typen von Größeninformationen können verwendet werden, solange sie Größen (dynamische Merkmalsgrößen) repräsentieren, die Änderungen über der Zeit anzeigen. Außerdem können Zeitableitungen des n-ten Grades erhalten werden und verwendet werden, indem eine Gleichung zum Erhalten eines dynamischen Merkmals mit einer beliebigen Häufigkeit n angewendet wird. Wenn die Tonhöhen- Zeitableitungen verwendet werden, sind die Zeitableitungen an einem Abschnitt mit einer stabilen Tonhöhenintensität klein, während die Zeitableitungen an einem Abschnitt, der eine veränderliche Tonhöhenintensität aufweist, groß sind. Aus diesem Grund steigt der Wert an der Grenze zwischen einem stimmhaften Ton und einem stimmlosen Ton oder an dem Grenzabschnitt, an dem eine Verschiebung von einem stimmlosen Ton zu einem stimmhaften Ton auftritt, an. Als Ergebnis werden die Segmentierungsfehler an diesen Abschnitten reduziert, weshalb dieser Typ von Größeninformation ein effektiver Parameter für die Spracherkennung ist.
Fig. 3 zeigt eine Spracherkennungsvorrichtung gemäß der dritten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 31 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Extraktionsabschnitt 32 zum Extrahieren der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, einen Tonhöheninfensität-Zeitableitung-Extraktionsabschnitt 33 zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 34 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 31, wenn einige oder alle der Merkmalsvektoren des Merkmalsextraktionsabschnitts 31 zu den Tonhöhenintensitäten, die vom Tonhöhenintensität-Extraktionsabschnitt 32 extrahiert worden sind, und den Tonhöhenintensität-Zeitableitungen passen, die vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 extrahiert worden sind.
Wenn die Tonhöheintensitäten und die Tonhöhenintensität-Zeitableitungen, die vom Tonhöhenintensität-Extraktionsabschnitt 32 und vom Tonhöhenintensität- Zeitableitung-Extraktionsabschnitt 33 ausgegeben werden, und andere Merkmalsvektoren für die Spracherkennung als Merkmalsvektoren verwendet werden, gibt der Merkmalsextraktionsabschnitt 31 diese anderen Merkmalsvektoren für die Spracherkennung aus.
Der Tonhöhenintensität-Extraktionsabschnitt 32 konvertiert die Eingangssprache in Tonhöhenintensitäten. Gleichzeitig konvertiert der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 die Eingangssprache in Tonhöhenintensität- Zeitableitungen. Der Erkennungsabschnitt 34 führte die Spracherkennung auf der Grundlage der Ausgaben vom Tonhöhenintensität-Extraktionsabschnitt 32 und vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 aus. Wenn die im Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 verwendeten Tonhöhenintensitäten durch das gleiche Berechnungsverfahren erhalten werden wie diejenigen für die Tonhöhenintensitäten, die vom Tonhöhenintensitätsextraktionsabschnitt 32 extrahiert werden, kann der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 unter Verwendung der Ausgänge vom Tonhöhenintensität- Extraktionsabschnitt 32 gebildet werden.
Fig. 5 zeigt ein Beispiel dafür, wie die Tonhöhenintensität einer Äußerung, z. B. "hai", die in der Spracherkennungsvorrichtung der vorliegenden Erfindung verwendet wird, sich über die Zeit ändert. Die Äußerung "hai" wird gebildet vom stimmlosen Konsonanten "h", dem Vokal "a" und dem Vokal "1". Die Tonhöhenintensität wird bei "h" niedrig, wobei zu einem Zeitpunkt, zu dem kein Ton vorhanden ist, gar keine klare Tonhöhe beobachtet werden kann. Im Gegensatz hierzu werden bei den Vokalen "a" und "i" klare Tonhöhen beobachtet, wobei hohe Tonhöhenintensitäten erhalten werden. Aus diesem Grund ist die Tonhöhenintensitätsinformation ein guter Parameter für die Anzeige eines stimmhaften Abschnitts, wie z. B. eines Vokals, und kann somit als ein guter Merkmalsvektor für die Spracherkennung verwendet werden.
Fig. 6 zeigt ein Beispiel dafür, wie sich die Tonhöhenfrequenzinformation der gleichen Äußerung "hai" wie oben beschrieben, die in der herkömmlichen Spracherkennungsvorrichtung verwendet wird, über die Zeit ändert. Wie in Fig. 6 gezeigt ist, gibt es viele Abschnitte, wie z. B. andere Abschnitte als die Äußerung und den stimmlosen Konsonanten "h", an denen keine klare Tonhöhe beobachtet wird. An diesen Abschnitten weisen die extrahierten Tonhöhenfrequenzen häufig zufällige Formen auf und sind nicht stabil. Das heißt, nur die Abschnitte, die dem "a" und dem "i" entsprechen, sind zuverlässige Abschnitte in Fig. 6, wobei jedoch die übrigen Abschnitte unnötig sind. Um dieses Problem zu lösen, können z. B. nur die zuverlässigen Intervalle extrahiert werden, indem eine Schwellenermittlungslogik verwendet wird, die die Tonhöhenintensitätsinformationen verwendet. Eine solche Ermittlung enthält jedoch Fehler, wobei die Gesamtzuverlässigkeit der Tonhöhenfrequenzinformationen aufgrund der Fehler verschlechtert wird. Ferner variieren die Frequenzinformationen über die Abschnitte "a" und "i", aus denen Tonhöhenfrequenzen genau extrahiert werden, zwischen Individuen deutlich. Die Verwendung solcher Werte als Merkmalsvektoren für die Spracherkennung stört nicht nur die Operation der Spracherkennungsvorrichtung, sondern trägt auch nicht zu einer Verbesserung ihrer Leistungsfähigkeit bei.
Wie oben beschrieben worden ist, repräsentiert eine Tonhöhenintensität in der vorliegenden Erfindung im wesentlichen die Größe eines Tonhöhengrades (der anzeigt, wie viele Tonhöhen vorhanden sind) als kontinuierlicher Wert. Da Rauschen und stimmlose Geräusche kleine Werte annehmen, und stimmhafte Geräusche große Werte annehmen, ist die Tonhöhenintensitätsinformation frei von einem instabilen Verhalten und ist somit stabil.
Außerdem ist die Tonhöhenintensität weniger anfällig für individuelle Variationen als eine Tonhöhenfrequenz. Aus diesem Grund weist die Tonhöhenintensitätsinformation eine hohe Leistungsfähigkeit in der Spracherkennung für nicht spezifische Sprecher auf Da ferner keine Schwellenermittlung erforderlich ist, im Gegensatz zu der herkömmlichen Technik, die eine Tonhöhenfrequenz verwendet, tritt keine Verschlechterung der Zuverlässigkeit auf.
Im folgenden werden Modifikationen der ersten bis dritten Ausführungsformen beschrieben.
In der ersten Modifikation, wenn ein Cepstrum als Tonhöhenintensität verwendet wird, kann der Maximalwert einer Quefrency-Komponente mit dem maximalen Wert des Cepstrums direkt als Tonhöhenintensität verwendet werden. Es ist zu beachten, daß ein Quefrency-Bereich, in welchem eine Maximalwertsuche durchzuführen ist, im voraus definiert werden kann.
In der zweiten Modifikation, wenn ein Cepstrum-Koeffizient verwendet werden soll, kann der Maximalwert des Cepstrum-Koeffizienten oder dessen Logarithmus direkt als Tonhöhenintensität verwendet werden. Es ist zu beachten, daß ein Cepstrum-Koeffizientenbereich, in welchem eine Maximalwertsuche durchgeführt werden soll, im voraus definiert werden kann.
Ein Fall, in weichem dann, wenn ein Cepstrum als Tonhöhenintensität verwendet werden soll, der Maximalwert erhalten wird, nachdem zweidimensionale Muster in Rahmenrichtung und in Quefrency-Richtung von einem zweidimensionalen Filter für die Spitzenhervorhebung verarbeitet worden sind, wird als dritte Modifikation beschrieben. Zum Beispiel kann ein Gauß-Filter als zweidimensionales Filter verwendet werden, daß diese Funktion implementiert. Es sei z. B. ein Fall, in welchem ein Filter D mit den Ordnungen 3 · 3 vorgesehen ist, wie durch Gleichung (2) gezeigt ist, betrachtet:
Es sei C(i, j) (i: Zeitachsenrichtung, j: Quefrency-Richtung) das zweidimensionale Cepstrum, so wird ein Cepstrum X(i,j)~, für das die Spitzenhervorhebungsverarbeitung unter Verwendung des Filters D durchgeführt wird, aus der folgenden Gleichung (3) berechnet:
X(i, j) = { 2 C(i-1, j-1) + C(i-1, j) + C(i, j-1) + + 2 C(i-1, j + 1)+ C(i, j-1)+ (4 + 4 2)C(i, j) + C(i, j + 1) + 2 C(i + 1, j-1) + C(i + 1, j) + 2 C(i + 1, j + 1)}/(8 + 8 2) ...(3)
Eine Tonhöhenintensität wird mit Bezug auf das Ergebnis X(i, j) erhalten, das nach dieser Hervorhebungsverarbeitung erhalten worden ist. Mit dieser Verarbeitung wird dann, wenn ein großer Wert nahe dem Punkt (i, j) vorhanden ist, dieser Wert gewichtet und addiert. Die Spitze wird somit hervorgehoben. In diesem Fall wird das zweidimensionale Filter mit einer Größe von 3 · 3 verwendet. Es können jedoch Filter mit anderen Größen verwendet werden. Außerdem kann für die Hervorhebungsverarbeitung auch ein Filter verwendet werden, das eine Glättungswirkung aufweist.
Die dritte Modifikation kann mit der zweiten Modifikation unter Verwendung einer Cepstrums-Funktion kombiniert werden, um die vierte Modifikation zu implementieren.
Wie oben beschrieben worden ist, können gemäß der vorliegenden Erfindung Merkmalsvektoren, die für eine Spracherkennungsvorrichtung für nicht spezifische Sprecher geeignet sind, gebildet werden, indem Tonhöhenintensitätsinformationen verwendet werden, die relativ kleine Variationen zwischen Individuen aufweisen, anstelle von Frequenzinformationen, die große Variationen zwischen Individuen und Gebieten aufweisen. Gleichzeitig können Segmentierungsfehler für stimmhafte/stimmlose Töne reduziert werden. Somit kann eine Hochleistungs-Spracherkennung verwirklicht werden.
Durch die Verwendung der Zeitableitungen der Tonhöhenintensitäten nimmt der Wert an der Grenze zwischen einem stimmhaften Geräusch und einem stimmlosen Geräusch oder an dem Grenzabschnitt, an dem ein Übergang von einem stimmlosen Geräusch zu einem stimmhaften Geräusch auftritt, zu. Als Ergebnis werden die Segmentierungsfehler an diesen Abschnitten reduziert, wobei eine weitere Erhöhung der Genauigkeit erreicht werden kann.

Claims

1. Spracherkennungsvorrichtung, gekennzeichnet durch:

eine Merkmalsextraktionseinrichtung (11, 31) zum Extrahieren von Merkmalsvektoren einer Eingangssprache, wobei die Merkmalsextraktionseinrichtung wenigstens eine Tonhöhenintensität-Extraktionseinrichtung (12, 32) zum Extrahieren von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält; und

eine Erkennungseinrichtung (13, 34) zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung.

2. Vorrichtung nach Anspruch 1, bei der die Merkmalsextraktionseinrichtung wenigstens eine Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache enthält und

die Erkennungseinrichtung eine Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Zeitableitungen der Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung ausführt.

3. Vorrichtung nach Anspruch 1, bei der die von der Tonhöhenintensität- Extraktionseinrichtung extrahierte Tonhöhenintensität unter allen Frequenzen eines Cepstrums oder in einem im voraus definierten Frequenzbereich ein Maximalwert ist.

4. Vorrichtung nach Anspruch 1, bei der die von der Tonhöhenintensität- Extraktionseinrichtung extrahierte Tonhöhenintensität entweder unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich ein Maximalwert oder ein Logarithmus hiervon ist.

5. Vorrichtung nach Anspruch 3, bei der die Tonhöhenintensität-Extraktionseinrichtung einen Maximalwert als eine Tonhöhenintensität unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich erhält, nachdem zweidimensionale Muster in einer Rahmenrichtung und einer Frequenzrichtung unter Verwendung eines zweidimensionalen Filters für die Spitzenhervorhebung verarbeitet worden sind.

6. Vorrichtung nach Anspruch 4, bei der die Tonhöhenintensität-Extraktionseinrichtung einen Maximalwert als eine Tonhöhenintensität unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich erhält, nachdem zweidimensionale Muster in einer Rahmenrichtung und in einer Cepstrumkoeffizient-Zeitrichtung unter Verwendung eines zweidimensionalen Filters für die Spitzenhervorhebung verarbeitet worden sind.

7. Spracherkennungsvorrichtung, gekennzeichnet durch:

eine Merkmalsextraktionseinrichtung (21) zum Extrahieren von Merkmalsvektoren einer Eingangssprache, wobei die Merkmalsextraktionseinrichtung eine Tonhöhenintensität-Zeitableitung-Exfraktionseinrichtung (22) zum Extrahieren von Zeitableitungen von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält; und

eine Erkennungseinrichtung (23) zum Ausführen einer Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Zeitableitungen der Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung.

8. Vorrichtung nach Anspruch 7, bei der die Tonhöhenintensität, die von der Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung verwendet wird, unter allen Frequenzen eines Cepstrums oder in einem im voraus definierten Frequenzbereich ein Maximalwert ist.

9. Vorrichtung nach Anspruch 7, bei der die Tonhöhenintensität, die von der Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung verwendet wird, entweder unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich ein Maximalwert oder ein Logarithmus hiervon ist.

10. Vorrichtung nach Anspruch 8, bei der der in der Tonhöhenintensität- Zeitableitung-Extraktionseinrichtung als die Tonhöhenintensität verwendete Maximalwert unter allen Zeiten der Cepstrum-Koeffizienten oder in dem im voraus definierten Zeitbereich nach einer Verarbeitung zweidimensionaler Muster in einer Rahmenrichtung und einer Frequenzrichtung durch ein zweidimensionales Filter für die Spitzenhervorhebung erhalten wird.

11. Vorrichtung nach Anspruch 9, bei der der in der Tonhöhenintensität- Zeitableitung-Extraktionseinrichtung als die Tonhöhenintensität verwendete Maximalwert unter allen Zeiten der Cepstrum-Koeffizienten oder in dem im voraus definierten Zeitbereich nach einer Verarbeitung zweidimensionaler Muster in einer Rahmenrichtung und einer Cepstrumkoeffizient-Zeitrichtung durch ein zweidimensionales Filter für die Spitzenhervorhebung erhalten wird.