[go: up one dir, main page]

DE69720134T2 - Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten - Google Patents

Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten

Info

Publication number
DE69720134T2
DE69720134T2 DE69720134T DE69720134T DE69720134T2 DE 69720134 T2 DE69720134 T2 DE 69720134T2 DE 69720134 T DE69720134 T DE 69720134T DE 69720134 T DE69720134 T DE 69720134T DE 69720134 T2 DE69720134 T2 DE 69720134T2
Authority
DE
Germany
Prior art keywords
pitch
pitch intensity
intensity
speech recognition
intensities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69720134T
Other languages
English (en)
Other versions
DE69720134D1 (de
Inventor
Keizaburo Takagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69720134D1 publication Critical patent/DE69720134D1/de
Application granted granted Critical
Publication of DE69720134T2 publication Critical patent/DE69720134T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Description

    Hintergrund der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und insbesondere auf eine Spracherkennungstechnik, die die Grundfrequenzkomponenten der Intensitätsinformationen verwendet.
  • Bei den Spracherkennungstechniken ist das am weitesten verbreitete Schema ein Schema der Konvertierung der eingegebenen Sprache in einen Merkmalsvektor durch Analysieren der Signalform der Eingangssprache innerhalb eines Analysefensters (Rahmen), der sich in vorgegebenen Zeitintervallen bewegt, für eine kurze Zeitperiode, und Behandeln der gesamten Eingangssprache als ein Zeitreihensignal, das den Merkmalsvektor repräsentiert, um somit einen Abgleich durchzuführen. Es wurden verschiedene Analyseschemen für diesen Merkmalsvektor vorgeschlagen. Obwohl nicht alle von diesen hier beschrieben werden können, umfassen sie die Cepstrum-Analyse, die Spektrumanalyse, die Leistungsanalyse und dergleichen.
  • Ein herkömmliches Schema der Verwendung von Informationen über die Grundfrequenz (die hier im folgenden als "Tonhöhe" bezeichnet wird) als Teil eines Merkmalsvektors wurde verwendet, um die Spracherkennungsleistung zu verbessern. Dieses Schema weist eine Anordnung ähnlich derjenigen auf, die in Fig. 4 gezeigt ist. Genauer konvertiert ein Merkmalsextraktionsabschnitt 41 die Eingangssprache in Merkmalsvektoren (z. B. ein Cepstrum oder dergleichen), die für die allgemeine Spracherkennung verwendet worden sind. Ein Tonhöhenextraktionsabschnitt 42 konvertiert die Eingangssprache in Tonhöhenfrequenzen oder Zeitableitungen hiervon, welche als Merkmalsvektoren zusammen mit den Merkmalsvektoren, die vom Merkmalsextraktionsabschnitt 41 ausgegeben werden, zur Erkennung an einen Erkennungsabschnitt 43 ausgegeben werden. Der Erkennungsabschnitt 43 führt einen Abgleich zwischen den Merkmalsvektoren, die vom Merkmalsexfraktionsabschnitt 41 und vom Tonhöhenextraktionsabschnitt 42 ausgegeben werden, und den Standardmustern, die mit derselben Merkmalsvektorkonfiguration im voraus analysiert worden sind, durch und gibt den wahrscheinlichsten Vektor als das Erkennungsergebnis aus.
  • Eine Spracherkennungsvorrichtung dieses Typs ist dafür ausgelegt, Vokal/Konsonant-Segmentationsfehler (stimmhafter Ton/stimmloser Ton) beim Abgleich zu vermeiden, indem die Tonhöheninformation als Teil eines Merkmalsvekfors eingeschlossen wird, um somit eine höhere Leistungsfähigkeit zu erreichen. Vokale der Sprache werden erzeugt, wenn der Vokaltrakt durch eine impulsartige Tonquelle angeregt wird, die erzeugt wird durch Öffnen/Schließen der Stimmritze. Die Vokale weisen daher klare periodische Strukturen auf und werden als Tonhöhen beobachtet.
  • Eine Spracherkennungsvorrichtung" die Spektralinformationen und Tonfrequenzinformationen verwendet, ist offenbart in "Isolated Word Recognition Using Pitch Pattern Information", Takahashi u. a., IEICE Trans. Fundamentals of Electronics, Bd. 76A, S. 231-236 (1993).
  • Im Gegensatz hierzu werden Konsonanten (insbesondere stimmlose Konsonanten) mittels einer aperiodischen Geräuschquelle und nicht mit der Stimmritze erzeugt. Die Konsonanten weisen daher keine klare periodische Struktur auf und es können keine klaren Tonhöhen beobachtet werden. Aus diesen Gründen können Fehler beim Abgleich zwischen Vokal- und Konsonantenabschnitten reduziert werden, indem Tonhöheninformationen verwendet werden.
  • Es ist ein weiterer Zweck einer Spracherkennungsvorrichtung eines Typs, das Tonhöhenmuster einer tonalen Sprache wie z. B. chinesisch zu identifizieren. Da jedoch dieser Zweck von den Aufgaben der vorliegenden Erfindung verschieden ist, wird eine genaue Beschreibung hiervon weggelassen.
  • In einer herkömmlichen Spracherkennungsvorrichtung, die Tonhöheninformationen verwendet, werden Frequenzinformationen über Tonhöhen direkt verwendet oder als Zeitableitungen der Frequenzinformationen verwendet. Die Frequenzinformationen über Tonhöhen werden direkt verwendet, wobei die Informationen zwischen Individuen sowie Geschlechtern stark variieren. Außerdem ist die Frequenzinformation, die von einem gegebenen Individuum erhalten wird, leicht durch dessen physikalischen Zustand und einen psychologischen Faktor beeinflußt, und ist somit instabil. Das heißt, solche Informationen stören die Spracherkennungsvorrichtung und können kein effektiver Parameter sein. Da sich diese Informationen zwischen Individuen deutlich verändern, sind die Informationen insbesondere ein Merkmalsvektor, der für einen Parameter für die Spracherkennung von nicht spezifischen Sprechern ungeeignet ist.
  • In einer Spracherkennungsvorrichtung, die Zeitableitungen vom Tonhöhenfrequenzinformationen verwendet, variieren solche Informationen zwischen Individuen und Gebieten deutlich. Selbst die gleichen Inhalte einer Äußerung variieren zwischen Dialekten und dergleichen in der Tonhöhe deutlich. Diese Tendenz spiegelt sich direkt in den Zeitableitungen der Tonhöhenfrequenzinformationen wieder. Diese Informationen werden somit zu einem Parameter, der sich zwischen Individuen und Gebieten deutlich ändert. Das heißt, dieser Parameter ist für die Spracherkennung von nicht spezifischen Sprechern nicht nützlich.
  • Zusammenfassung der Erfindung
  • Es ist eine Aufgabe der vorliegenden Erfindung, wie in den Ansprüchen 1-11 beansprucht ist, eine Spracherkennungsvorrichtung zu schaffen, die Merkmalsvektoren bildet, die für eine Spracherkennungsvorrichtung für nicht spezifische Sprecher geeignet ist, indem Tonhöhenintensitätsinformationen verwendet werden, die frei von Variationen zwischen Individuen und Gebieten sind, sowie Zeitableitungen der Tonhöhenintensitätsinformationen anstelle der Tonhöhenfrequenzinformationen, die anfällig sind für den nachteiligen Einfluß von Veränderungen zwischen Individuen und Gebieten.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, eine Hochleistungs- Spracherkennungsvorrichtung zu schaffen, die Stimmhaft/Stimmlos-Ton-Segmentierungsfehler reduziert.
  • Um die obigen Aufgaben zu lösen, wird gemäß der vorliegenden Erfindung eine Spracherkennungsvorrichtung geschaffen, die eine Merkmalsextraktionseinrichtung zum Extrahieren von Merkmalsvektoren einer Eingangssprache, das wenigstens eine Tonhöhenintensität-Extraktionseinrichtung zum Extrahieren von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält, und eine Erkennungseinrichtung zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung umfaßt.
  • Kurzbeschreibung der Zeichnungen
  • Fig. 1 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 2 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 3 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß der dritten Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 4 ist ein Blockschaltbild, das eine herkömmliche Spracherkennungsvorrichtung zeigt;
  • Fig. 5 ist ein Graph, der die Tonhöhenintensitäten zeigt, die in der Spracherkennungsvorrichtung der vorliegenden Erfindung verwendet werden; und
  • Fig. 6 ist ein Graph, der die Tonhöhenfrequenzen zeigt, die in der herkömmlichen Spracherkennungsvorrichtung verwendet werden.
  • Genaue Beschreibung der bevorzugten Ausführungsformen
  • Im folgenden werden die Ausführungsformen der vorliegenden Erfindung mit Bezug auf die beigefügten Zeichnungen genauer beschrieben.
  • Fig. 1 zeigt eine Spracherkennungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 11 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Extraktionsabschnitt 12 zum Extrahieren der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 13 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsexfraktionsabschnitt 11, wenn ein Teil oder der gesamte Merkmalsvektor vom Merkmalsextraktionsabschnitt 11 zu den Tonhöhenintensitäten paßt, die vom Tonhöhenintensität-Extraktionsabschnitt 12 extrahiert worden sind. Wenn die Merkmalsvektoren sowohl unter Verwendung der vom Tonhöhenintensität-Extraktionsabschnitt 12 ausgegebenen Tonhöhenintensitäten als auch anderer Merkmalsvektoren für die Spracherkennung verwendet werden sollen, gibt der Merkmalsextraktionsabschnitt 11 diese anderen Merkmalsvektoren für die Spracherkennung aus.
  • Der Tonhöhenintensität-Extraktionsabschnitt 12 konvertiert die Eingangssprache in Tonhöhenintensitäten. Es wurden verschiedene Tonhöhenextraktionstechniken zum Extrahieren von Tonhöhenintensitäten vorgeschlagen. Die Tonhöhenintensität wird unter Verwendung einer der Techniken extrahiert. Zum Beispiel kann diese Tonhöhenextraktionstechnik die Intensität der Tonhöhenkomponente eines Oberwellenproduktspektrums oder dessen logarithmische Intensität verwenden, wie beschrieben ist in "Digital Signal Processing for Speech", L. R. Rabinar, R. W. Schafer, Corona, Bd. 2, S. 73-75, 1988; die Intensität eines Cepstrums und dessen Spitzenposition, wie beschrieben ist in "Digital Signal Processing for Speech", L. R. Rabinar, R. W. Schafer, Corona, Bd. 2, S. 135-140, 1988; oder die Intensität eines Cepstrumkoeffizienten und dessen Tonhöhenposition oder dessen Logarithmus.
  • Der Erkennungsabschnitt 13 führt eine Spracherkennung durch, indem er die vom Tonhöhenintensität-Exfraktionsabschnitt 12 extrahierten Tonhöhenintensitäten und andere Merkmalsvektoren, die vom Merkmalsextraktionsabschnitt 11 extrahiert worden sind, für die Spracherkennung verwendet. Es sind verschiedene Typen von Vektoren als Merkmalsvektoren bekannt, die für die Spracherkennung verwendet werden. Obwohl nicht alle von diesen beschrieben werden können, stehen als typische Beispiele ein Cepstrum, ein Spektrum, ein Leistungsspektrum, die Zeitableitungen hiervon und dergleichen zur Verfügung. Es können auch irgendwelche anderen Typen von Merkmalsvektoren verwendet werden, solange sie für die Spracherkennung verwendet werden können.
  • Ferner sind verschiedene Spracherkennungsalgorithmen bekannt. Obwohl nicht alle von diesen beschrieben werden können, stehen ein DP-Anpassungsalgorithmus, ein HMM-Algorithmus, ein Neuronales-Netz-Algorithmus und dergleichen als typische Beispiele zur Verfügung. Irgendwelche anderen Typen von Verfahren können ebenfalls verwendet werden, solange sie dafür ausgelegt sind, die Erkennungsverarbeitung für die Spracherkennung auszuführen.
  • Fig. 2 zeigt eine Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 21 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 23 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 21, wenn einige oder alle der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 21 zu den Zeitableitungen der Tonhöhenintensitäten passen, die vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 extrahiert worden sind.
  • Wenn die von Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 ausgegebenen Tonhöhenintensitäten und die anderen Merkmalsvektoren für die Spracherkennung als Merkmalsvektoren verwendet werden, gibt der Merkmalsextraktionsabschnitt 21 diese anderen Merkmalsvektoren für die Spracherkennung aus.
  • Der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 22 konvertiert die Eingangssprache zu Tonhöhenintensität-Zeitableitungen. Es sind verschiedene Typen von Schemen als Algorithmen bekannt, um Zeitableitungen sowie Tonhöhenintensitäten zu erhalten. Es sei P(t) die Tonhöhenintensität, wobei die Zeitableitungen ΔP(t) unter Verwendung eines linearen Regressionskoeffizienten anhand der folgenden Gleichung (1) berechnet werden:
  • wobei M die interessierende Regressionsfensterbreite ist. Irgendwelche anderen Typen von Größeninformationen können verwendet werden, solange sie Größen (dynamische Merkmalsgrößen) repräsentieren, die Änderungen über der Zeit anzeigen. Außerdem können Zeitableitungen des n-ten Grades erhalten werden und verwendet werden, indem eine Gleichung zum Erhalten eines dynamischen Merkmals mit einer beliebigen Häufigkeit n angewendet wird. Wenn die Tonhöhen- Zeitableitungen verwendet werden, sind die Zeitableitungen an einem Abschnitt mit einer stabilen Tonhöhenintensität klein, während die Zeitableitungen an einem Abschnitt, der eine veränderliche Tonhöhenintensität aufweist, groß sind. Aus diesem Grund steigt der Wert an der Grenze zwischen einem stimmhaften Ton und einem stimmlosen Ton oder an dem Grenzabschnitt, an dem eine Verschiebung von einem stimmlosen Ton zu einem stimmhaften Ton auftritt, an. Als Ergebnis werden die Segmentierungsfehler an diesen Abschnitten reduziert, weshalb dieser Typ von Größeninformation ein effektiver Parameter für die Spracherkennung ist.
  • Fig. 3 zeigt eine Spracherkennungsvorrichtung gemäß der dritten Ausführungsform der vorliegenden Erfindung. Diese Spracherkennungsvorrichtung enthält einen Merkmalsextraktionsabschnitt 31 zum Extrahieren der Merkmalsvektoren der Eingangssprache, einen Tonhöhenintensität-Extraktionsabschnitt 32 zum Extrahieren der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, einen Tonhöheninfensität-Zeitableitung-Extraktionsabschnitt 33 zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache, und einen Erkennungsabschnitt 34 zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren vom Merkmalsextraktionsabschnitt 31, wenn einige oder alle der Merkmalsvektoren des Merkmalsextraktionsabschnitts 31 zu den Tonhöhenintensitäten, die vom Tonhöhenintensität-Extraktionsabschnitt 32 extrahiert worden sind, und den Tonhöhenintensität-Zeitableitungen passen, die vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 extrahiert worden sind.
  • Wenn die Tonhöheintensitäten und die Tonhöhenintensität-Zeitableitungen, die vom Tonhöhenintensität-Extraktionsabschnitt 32 und vom Tonhöhenintensität- Zeitableitung-Extraktionsabschnitt 33 ausgegeben werden, und andere Merkmalsvektoren für die Spracherkennung als Merkmalsvektoren verwendet werden, gibt der Merkmalsextraktionsabschnitt 31 diese anderen Merkmalsvektoren für die Spracherkennung aus.
  • Der Tonhöhenintensität-Extraktionsabschnitt 32 konvertiert die Eingangssprache in Tonhöhenintensitäten. Gleichzeitig konvertiert der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 die Eingangssprache in Tonhöhenintensität- Zeitableitungen. Der Erkennungsabschnitt 34 führte die Spracherkennung auf der Grundlage der Ausgaben vom Tonhöhenintensität-Extraktionsabschnitt 32 und vom Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 aus. Wenn die im Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 verwendeten Tonhöhenintensitäten durch das gleiche Berechnungsverfahren erhalten werden wie diejenigen für die Tonhöhenintensitäten, die vom Tonhöhenintensitätsextraktionsabschnitt 32 extrahiert werden, kann der Tonhöhenintensität-Zeitableitung-Extraktionsabschnitt 33 unter Verwendung der Ausgänge vom Tonhöhenintensität- Extraktionsabschnitt 32 gebildet werden.
  • Fig. 5 zeigt ein Beispiel dafür, wie die Tonhöhenintensität einer Äußerung, z. B. "hai", die in der Spracherkennungsvorrichtung der vorliegenden Erfindung verwendet wird, sich über die Zeit ändert. Die Äußerung "hai" wird gebildet vom stimmlosen Konsonanten "h", dem Vokal "a" und dem Vokal "1". Die Tonhöhenintensität wird bei "h" niedrig, wobei zu einem Zeitpunkt, zu dem kein Ton vorhanden ist, gar keine klare Tonhöhe beobachtet werden kann. Im Gegensatz hierzu werden bei den Vokalen "a" und "i" klare Tonhöhen beobachtet, wobei hohe Tonhöhenintensitäten erhalten werden. Aus diesem Grund ist die Tonhöhenintensitätsinformation ein guter Parameter für die Anzeige eines stimmhaften Abschnitts, wie z. B. eines Vokals, und kann somit als ein guter Merkmalsvektor für die Spracherkennung verwendet werden.
  • Fig. 6 zeigt ein Beispiel dafür, wie sich die Tonhöhenfrequenzinformation der gleichen Äußerung "hai" wie oben beschrieben, die in der herkömmlichen Spracherkennungsvorrichtung verwendet wird, über die Zeit ändert. Wie in Fig. 6 gezeigt ist, gibt es viele Abschnitte, wie z. B. andere Abschnitte als die Äußerung und den stimmlosen Konsonanten "h", an denen keine klare Tonhöhe beobachtet wird. An diesen Abschnitten weisen die extrahierten Tonhöhenfrequenzen häufig zufällige Formen auf und sind nicht stabil. Das heißt, nur die Abschnitte, die dem "a" und dem "i" entsprechen, sind zuverlässige Abschnitte in Fig. 6, wobei jedoch die übrigen Abschnitte unnötig sind. Um dieses Problem zu lösen, können z. B. nur die zuverlässigen Intervalle extrahiert werden, indem eine Schwellenermittlungslogik verwendet wird, die die Tonhöhenintensitätsinformationen verwendet. Eine solche Ermittlung enthält jedoch Fehler, wobei die Gesamtzuverlässigkeit der Tonhöhenfrequenzinformationen aufgrund der Fehler verschlechtert wird. Ferner variieren die Frequenzinformationen über die Abschnitte "a" und "i", aus denen Tonhöhenfrequenzen genau extrahiert werden, zwischen Individuen deutlich. Die Verwendung solcher Werte als Merkmalsvektoren für die Spracherkennung stört nicht nur die Operation der Spracherkennungsvorrichtung, sondern trägt auch nicht zu einer Verbesserung ihrer Leistungsfähigkeit bei.
  • Wie oben beschrieben worden ist, repräsentiert eine Tonhöhenintensität in der vorliegenden Erfindung im wesentlichen die Größe eines Tonhöhengrades (der anzeigt, wie viele Tonhöhen vorhanden sind) als kontinuierlicher Wert. Da Rauschen und stimmlose Geräusche kleine Werte annehmen, und stimmhafte Geräusche große Werte annehmen, ist die Tonhöhenintensitätsinformation frei von einem instabilen Verhalten und ist somit stabil.
  • Außerdem ist die Tonhöhenintensität weniger anfällig für individuelle Variationen als eine Tonhöhenfrequenz. Aus diesem Grund weist die Tonhöhenintensitätsinformation eine hohe Leistungsfähigkeit in der Spracherkennung für nicht spezifische Sprecher auf Da ferner keine Schwellenermittlung erforderlich ist, im Gegensatz zu der herkömmlichen Technik, die eine Tonhöhenfrequenz verwendet, tritt keine Verschlechterung der Zuverlässigkeit auf.
  • Im folgenden werden Modifikationen der ersten bis dritten Ausführungsformen beschrieben.
  • In der ersten Modifikation, wenn ein Cepstrum als Tonhöhenintensität verwendet wird, kann der Maximalwert einer Quefrency-Komponente mit dem maximalen Wert des Cepstrums direkt als Tonhöhenintensität verwendet werden. Es ist zu beachten, daß ein Quefrency-Bereich, in welchem eine Maximalwertsuche durchzuführen ist, im voraus definiert werden kann.
  • In der zweiten Modifikation, wenn ein Cepstrum-Koeffizient verwendet werden soll, kann der Maximalwert des Cepstrum-Koeffizienten oder dessen Logarithmus direkt als Tonhöhenintensität verwendet werden. Es ist zu beachten, daß ein Cepstrum-Koeffizientenbereich, in welchem eine Maximalwertsuche durchgeführt werden soll, im voraus definiert werden kann.
  • Ein Fall, in weichem dann, wenn ein Cepstrum als Tonhöhenintensität verwendet werden soll, der Maximalwert erhalten wird, nachdem zweidimensionale Muster in Rahmenrichtung und in Quefrency-Richtung von einem zweidimensionalen Filter für die Spitzenhervorhebung verarbeitet worden sind, wird als dritte Modifikation beschrieben. Zum Beispiel kann ein Gauß-Filter als zweidimensionales Filter verwendet werden, daß diese Funktion implementiert. Es sei z. B. ein Fall, in welchem ein Filter D mit den Ordnungen 3 · 3 vorgesehen ist, wie durch Gleichung (2) gezeigt ist, betrachtet:
  • Es sei C(i, j) (i: Zeitachsenrichtung, j: Quefrency-Richtung) das zweidimensionale Cepstrum, so wird ein Cepstrum X(i,j)~, für das die Spitzenhervorhebungsverarbeitung unter Verwendung des Filters D durchgeführt wird, aus der folgenden Gleichung (3) berechnet:
  • X(i, j) = { 2 C(i-1, j-1) + C(i-1, j) + C(i, j-1) + + 2 C(i-1, j + 1)+ C(i, j-1)+ (4 + 4 2)C(i, j) + C(i, j + 1) + 2 C(i + 1, j-1) + C(i + 1, j) + 2 C(i + 1, j + 1)}/(8 + 8 2) ...(3)
  • Eine Tonhöhenintensität wird mit Bezug auf das Ergebnis X(i, j) erhalten, das nach dieser Hervorhebungsverarbeitung erhalten worden ist. Mit dieser Verarbeitung wird dann, wenn ein großer Wert nahe dem Punkt (i, j) vorhanden ist, dieser Wert gewichtet und addiert. Die Spitze wird somit hervorgehoben. In diesem Fall wird das zweidimensionale Filter mit einer Größe von 3 · 3 verwendet. Es können jedoch Filter mit anderen Größen verwendet werden. Außerdem kann für die Hervorhebungsverarbeitung auch ein Filter verwendet werden, das eine Glättungswirkung aufweist.
  • Die dritte Modifikation kann mit der zweiten Modifikation unter Verwendung einer Cepstrums-Funktion kombiniert werden, um die vierte Modifikation zu implementieren.
  • Wie oben beschrieben worden ist, können gemäß der vorliegenden Erfindung Merkmalsvektoren, die für eine Spracherkennungsvorrichtung für nicht spezifische Sprecher geeignet sind, gebildet werden, indem Tonhöhenintensitätsinformationen verwendet werden, die relativ kleine Variationen zwischen Individuen aufweisen, anstelle von Frequenzinformationen, die große Variationen zwischen Individuen und Gebieten aufweisen. Gleichzeitig können Segmentierungsfehler für stimmhafte/stimmlose Töne reduziert werden. Somit kann eine Hochleistungs-Spracherkennung verwirklicht werden.
  • Durch die Verwendung der Zeitableitungen der Tonhöhenintensitäten nimmt der Wert an der Grenze zwischen einem stimmhaften Geräusch und einem stimmlosen Geräusch oder an dem Grenzabschnitt, an dem ein Übergang von einem stimmlosen Geräusch zu einem stimmhaften Geräusch auftritt, zu. Als Ergebnis werden die Segmentierungsfehler an diesen Abschnitten reduziert, wobei eine weitere Erhöhung der Genauigkeit erreicht werden kann.

Claims (11)

1. Spracherkennungsvorrichtung, gekennzeichnet durch:
eine Merkmalsextraktionseinrichtung (11, 31) zum Extrahieren von Merkmalsvektoren einer Eingangssprache, wobei die Merkmalsextraktionseinrichtung wenigstens eine Tonhöhenintensität-Extraktionseinrichtung (12, 32) zum Extrahieren von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält; und
eine Erkennungseinrichtung (13, 34) zum Ausführen der Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung.
2. Vorrichtung nach Anspruch 1, bei der die Merkmalsextraktionseinrichtung wenigstens eine Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung zum Extrahieren der Zeitableitungen der Intensitäten der Grundfrequenzkomponenten der Eingangssprache enthält und
die Erkennungseinrichtung eine Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Zeitableitungen der Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung ausführt.
3. Vorrichtung nach Anspruch 1, bei der die von der Tonhöhenintensität- Extraktionseinrichtung extrahierte Tonhöhenintensität unter allen Frequenzen eines Cepstrums oder in einem im voraus definierten Frequenzbereich ein Maximalwert ist.
4. Vorrichtung nach Anspruch 1, bei der die von der Tonhöhenintensität- Extraktionseinrichtung extrahierte Tonhöhenintensität entweder unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich ein Maximalwert oder ein Logarithmus hiervon ist.
5. Vorrichtung nach Anspruch 3, bei der die Tonhöhenintensität-Extraktionseinrichtung einen Maximalwert als eine Tonhöhenintensität unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich erhält, nachdem zweidimensionale Muster in einer Rahmenrichtung und einer Frequenzrichtung unter Verwendung eines zweidimensionalen Filters für die Spitzenhervorhebung verarbeitet worden sind.
6. Vorrichtung nach Anspruch 4, bei der die Tonhöhenintensität-Extraktionseinrichtung einen Maximalwert als eine Tonhöhenintensität unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich erhält, nachdem zweidimensionale Muster in einer Rahmenrichtung und in einer Cepstrumkoeffizient-Zeitrichtung unter Verwendung eines zweidimensionalen Filters für die Spitzenhervorhebung verarbeitet worden sind.
7. Spracherkennungsvorrichtung, gekennzeichnet durch:
eine Merkmalsextraktionseinrichtung (21) zum Extrahieren von Merkmalsvektoren einer Eingangssprache, wobei die Merkmalsextraktionseinrichtung eine Tonhöhenintensität-Zeitableitung-Exfraktionseinrichtung (22) zum Extrahieren von Zeitableitungen von Intensitäten von Grundfrequenzkomponenten der Eingangssprache enthält; und
eine Erkennungseinrichtung (23) zum Ausführen einer Spracherkennung unter Verwendung der Merkmalsvektoren einschließlich der extrahierten Zeitableitungen der Intensitäten der Grundfrequenzkomponenten von der Merkmalsextraktionseinrichtung.
8. Vorrichtung nach Anspruch 7, bei der die Tonhöhenintensität, die von der Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung verwendet wird, unter allen Frequenzen eines Cepstrums oder in einem im voraus definierten Frequenzbereich ein Maximalwert ist.
9. Vorrichtung nach Anspruch 7, bei der die Tonhöhenintensität, die von der Tonhöhenintensität-Zeitableitung-Extraktionseinrichtung verwendet wird, entweder unter allen Zeiten von Cepstrum-Koeffizienten oder in einem im voraus definierten Zeitbereich ein Maximalwert oder ein Logarithmus hiervon ist.
10. Vorrichtung nach Anspruch 8, bei der der in der Tonhöhenintensität- Zeitableitung-Extraktionseinrichtung als die Tonhöhenintensität verwendete Maximalwert unter allen Zeiten der Cepstrum-Koeffizienten oder in dem im voraus definierten Zeitbereich nach einer Verarbeitung zweidimensionaler Muster in einer Rahmenrichtung und einer Frequenzrichtung durch ein zweidimensionales Filter für die Spitzenhervorhebung erhalten wird.
11. Vorrichtung nach Anspruch 9, bei der der in der Tonhöhenintensität- Zeitableitung-Extraktionseinrichtung als die Tonhöhenintensität verwendete Maximalwert unter allen Zeiten der Cepstrum-Koeffizienten oder in dem im voraus definierten Zeitbereich nach einer Verarbeitung zweidimensionaler Muster in einer Rahmenrichtung und einer Cepstrumkoeffizient-Zeitrichtung durch ein zweidimensionales Filter für die Spitzenhervorhebung erhalten wird.
DE69720134T 1996-10-28 1997-10-28 Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten Expired - Lifetime DE69720134T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8284827A JP3006677B2 (ja) 1996-10-28 1996-10-28 音声認識装置

Publications (2)

Publication Number Publication Date
DE69720134D1 DE69720134D1 (de) 2003-04-30
DE69720134T2 true DE69720134T2 (de) 2003-12-04

Family

ID=17683529

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69720134T Expired - Lifetime DE69720134T2 (de) 1996-10-28 1997-10-28 Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten

Country Status (4)

Country Link
US (1) US5907826A (de)
EP (1) EP0838805B1 (de)
JP (1) JP3006677B2 (de)
DE (1) DE69720134T2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6795807B1 (en) 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2003514260A (ja) * 1999-11-11 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識のための音調特徴
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
KR20030060593A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 피치값을 이용한 음성 인식 방법
KR100533601B1 (ko) * 2002-12-05 2005-12-06 베스티안파트너스(주) 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법
JP4447857B2 (ja) * 2003-06-20 2010-04-07 株式会社エヌ・ティ・ティ・ドコモ 音声検出装置
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US8315870B2 (en) * 2007-08-22 2012-11-20 Nec Corporation Rescoring speech recognition hypothesis using prosodic likelihood
JP5495858B2 (ja) * 2010-03-02 2014-05-21 三菱電機株式会社 音楽音響信号のピッチ推定装置及び方法
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
JP6546070B2 (ja) * 2015-11-10 2019-07-17 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
CN110648686B (zh) * 2018-06-27 2023-06-23 达发科技股份有限公司 调整语音频率的方法及其声音播放装置
CN109036408A (zh) * 2018-08-23 2018-12-18 重庆加河科技有限公司 一种用于vr展示教学的语音识别控制设备及控制方法
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
EP0763812B1 (de) * 1990-05-28 2001-06-20 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JPH0876789A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 不特定話者単語音声認識システムおよび不特定話者単語音声認識方法
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法

Also Published As

Publication number Publication date
EP0838805A3 (de) 1998-12-23
JPH10133693A (ja) 1998-05-22
US5907826A (en) 1999-05-25
EP0838805B1 (de) 2003-03-26
DE69720134D1 (de) 2003-04-30
JP3006677B2 (ja) 2000-02-07
EP0838805A2 (de) 1998-04-29

Similar Documents

Publication Publication Date Title
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69321656T2 (de) Verfahren zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE4031638C2 (de)
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69020736T2 (de) Wellenanalyse.
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung