DE69635141T2

DE69635141T2 - Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung

Info

Publication number: DE69635141T2
Application number: DE69635141T
Authority: DE
Inventors: Mazin G. Rahim; Jay Gordon Wilpon
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-12-20
Filing date: 1996-12-17
Publication date: 2006-03-09
Anticipated expiration: 2016-12-18
Also published as: DE69616724D1; CA2192397C; EP1093112B1; EP1093112A2; US5806022A; EP0780828A3; JP4050350B2; EP1093112A3; EP0780828B1; JPH09179585A; CA2192397A1; DE69635141D1; DE69616724T2; EP0780828A2; MX9606483A

Description

Die Erfindung betrifft ein Verfahren zum Erzeugen von Sprachsignalen kennzeichnenden Sprachmerkmalssignalen nach Anspruch 1. Ferner betrifft die vorliegende Erfindung eine Vorrichtung zum Erzeugen dieser Sprachmerkmalssignale nach Anspruch 12.
HINTERGRUND DER ERFINDUNG
Aus der Schrift von Shirai et al., „Phoneme Recognition in Continuous Speech using Feature Selection Based on Mutual Information", Euro Speech 1989, S. 370–373, ist ein Verfahren zum Erzeugen von Sprachmerkmalssignalen bekannt, wobei diese Sprachmerkmalssignale Sprachsignale kennzeichnen. Dieses bekannte Verfahren schließt die Schritte des Erzeugens eines Satzes von Sprachsignale kennzeichnenden Spektralparametern, des Wichtens des Satzes von Spektralparametern und des Erzeugens von Sprache kennzeichnenden Merkmalssignalen aufgrund des gewichteten Satzes von Spektral-Samples ein.
Ein ähnliches Verfahren und eine Vorrichtung zum Durchführen dieses Verfahrens ist aus der Schrift von Buhrke et al., „Application of Vector Quantized Hidden Markov Modeling to Telephone Network Based Connected Digit Recognition", ICASSP 1994, S. 1/105–108 ein.
Sprachsignale, die über ein Telekommunikationsnetzwerk übertragen werden, wie beispielsweise ein Großentfernungs-Nachrichtenaustauschnetzwerk, können häufig akustisch durch unbekannte variable Bedingungen beeinflußt werden. Diese Bedingungen können in signifikanter Weise die Qualität eines automatischen Spracherkennungssystems (ASR) verschlechtern, welches in typischer Weise in solch einem Netzwerk enthalten ist. Solche Bedingungen können beispielsweise Umgebungsstörgeräusche, Kanalinterferenz und die Verwendung unterschiedlicher Schall-Detektionsausrüstungen umfassen.
Ein typisches ASR System führt eine Spracherkennung dadurch aus, indem es übereinstimmende Merkmalsdaten, welche repräsentativ für übertragene Sprachsignale sind, mit Datenmustern vergleicht, welche repräsentativ für phonetische Einheiten sind, die als Trainings-Erkennungsmodelle bekannt sind. Die Erkennungsmodelle werden in typischer Weise durch Überwachen der Übertragung von vorbestimmten Sprachsignalen erhalten, die bekannte phonetische Eigenschaften haben und zwar über den gleichen Netzwerk-Verbindungspfad wie derjenige der aktuellen Sprachsignale, wie beispielsweise solche, die während einer Telefonkonversation auftreten, die dann zu einem ASR System gesendet werden.
In vielen Fällen kann das Vorhandensein von unbekannten variablen Bedingungen oder Zuständen in einem Netzwerkpfad zu akustischen Fehlübereinstimmungen zwischen den Erkennungsmodellen und den Testdaten fuhren. Diese akustischen Fehlübereinstimmungen können eine Verschlechterung der Spracherkennungsqualität verursachen. Akustische Fehlübereinstimmungen können leicht beispielsweise dann auftreten, wenn die über einen Netzwerkpfad übertragenen Sprachsignale zur Verbesserung der Sprachqualität der menschlichen Wahrnehmung verstärkt werden. Wenn eine solche Verstärkung (enhancement) oder Anhebung auftritt, kann die Spracherkennungsqualität suboptimal sein und zwar dort, wo die Erkennungsmodelle, die bei der Spracherkennungsverarbeitung verwendet werden, nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Sprachsignal-Verstärkungsschaltungen enthält. Gegenwärtige Sprachsignal-Verarbeitungstechniken, die versuchen eine Robustheit des ASR Systems hinsichtlich der übereinstimmenden Merkmale zu liefern, die für die detektierten Sprachsignale repräsentativ sind und zwar Übereinstimmung mit Erkennungsmodellen, kompensieren in typischer Weise nicht ausreichend akustische Fehlübereinstimmungen, die in der oben geschilderten Weise resultieren können.
ZUSAMMENFASSUNG DER ERFINDUNG
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren und ein System anzugeben, welches die Fähigkeit besitzt, die Spracherkennungsqualität zu verbessern.
Gemäß dem Verfahren nach der vorliegenden Erfindung wird diese Aufgabe durch die Merkmale des Anspruches 1 gelöst.
Verbesserte Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen 2 bis 11.
Im Zusammenhang mit der erfindungsgemäßen Vorrichtung wird die genannte Aufgabe durch die Merkmale von Anspruch 12 gelöst.
Verbesserte Ausführungsformen der erfindungsgemäßen Vorrichtung ergeben sich aus den Unteransprüchen 13 bis 18.
Das erfindungsgemäße Verfahren für eine Merkmalsextraktionsvorrichtung eignet sich besonders gut für die Verwendung bei der Realisierung einer Kompensation, die eine höhere Robustheit hinsichtlich der Spracherkennungsqualität in Netzwerken mit Verstärkung bzw. Anhebung liefert und zwar dort, wo beispielsweise Erkennungsmodelle nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Anhebungs- oder Verstärkungsschaltungen enthält.
In einem Aspekt der vorliegenden Erfindung wird die Sprachsignalverstärkung während der Durchführung der Merkmalsextraktionsverarbeitung am Frontende eines Spracherkennungssystems kompensiert, welches einen Merkmalsextrahierer und einen Spracherkenner enthält. Der Merkmalsextrahierer berechnet Cepstral-Merkmale der verstärkten Sprachsignale unter Verwendung einer Kombination einer linearen Vorhersage-Kodierung (LPC) und einer Mel-Filter-Analyse. Der Extrahierer kompensiert die Ver stärkung an den zeitvariablen Sprachsignalen nachdem sie auf eine Frequenzdomäne-Repräsentation transformiert wurden.
Nach diesem Verfahren werden erstens die zeitvariablen verstärkten Sprachsignale gesampelt. Diese Samples werden in Rahmen gesammelt und werden dann unter Verwendung der Fourier-Transformation von Zeit- in Frequenzdomäne-Repräsentationen umgewandelt. Dann wird das Energiespektrum für jeden Rahmen einer selektiv gewichteten Mel-Filterbankverarbeitung unterzogen, wobei die Wichtungen selektiv den Effekt der Anhebung oder Verstärkung der spektralen Eigenschaften der Sprachsignale kompensieren. Anschließend werden die Cepstral-Merkmale dadurch erhalten, indem Autokorrelations-Koeffizienten aus den spektralen Repräsentationen der kompensierten verstärkten Sprachsignale berechnet werden, und indem dann die LPC Analyse und die Cepstral-Rekursion durchgeführt werden.
Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich unmittelbar für einen Fachmann aus der folgenden detaillierten Beschreibung und den anhängenden Zeichnungen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht ein Blockschaltbild eines verbesserten Telekommunikationsnetzwerks, welches zur Durchführung von Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der vorliegenden Erfindung geeignet ist.
2 zeigt ein veranschaulichendes Blockschaltbild eines Sprachsignalprozessors, der in dem System von 1 enthalten sein kann, um eine Spracherkennung durchzuführen, indem die Mel-LPC-Cepstral-Merkmale der verstärkten Sprachsignale gemäß der vorliegenden Erfindung berechnet werden.
3 ist ein veranschaulichendes Blockschaltbild eines als Beispiel gewählten Kompensationsmerkmal-Extrahierers:
4 ist ein Flußdiagramm eines Verfahrens zur Durchführung einer Spracherkennung gemäß der vorliegenden erfinderischen Technik der Berechnung der Mel-LPC-Cepstrum-Merkmale der verstärkten Sprachsignale.
DETAILLIERTE BESCHREIBUNG
1 zeigt ein Blockschaltbild eines als Beispiel gewählten Telekommunikationsnetzwerks 100, welches für die Durchführung einer Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der Technik nach der vorliegenden Erfindung geeignet ist.
Gemäß 1 kann das Netzwerk 100 in geeigneter Weise eine Vielzahl von Gesprächsgebühr-Ämtern umfassen, wie beispielsweise die Gesprächsgebühr-Ämter 105 und 110, die miteinander verbunden sein können und zwar in irgendeiner einer Vielfalt von gut bekannten Arten, um Groß-Sprach- und Daten-Verbindungen für deren Teilnehmer zu liefern, wie beispielsweise Telephonteilnehmer, die den Stationseinheiten oder Sätzen S1 und S2 zugeordnet sind. Ein örtliches zentrales Amt 50 verbindet die Station S1 mit dem Gesprächsgebühren-Amt 105, und ein örtliches Zentralamt 75 verbindet die Station S2 mit dem Gesprächsgebühren-Amt 110.
Das Netzwerk 100 kann ferner eine Sprachanhebungsvorrichtung oder einen Verstärker 107 enthalten und zwar in dem Verbindungspfad zwischen den Gesprächsgebühren-Ämtern 105 und 110 zum Anheben der Qualität der Sprachsignale, bevor diese von einem Teilnehmer empfangen werden, wie beispielsweise einem Telephonbenutzer. Beispielsweise kann der Verstärker 107 eine geeignete Schaltungsanordnung enthalten, wie beispielsweise eine Echo-Beseitigungsschaltungsanordnung oder irgendeine andere Schaltungsanordnung, um den Energiewert der Sprachsignale zu erhöhen oder abzusenken. Siehe hierzu das U.S. Patent 5 195 132 für eine detailliertere Beschreibung der Implementierung der Sprachsignalanhebung in einem Netzwerk, welches das Erhöhen der Energiepegel der ausgewählten Frequenzen involviert.
Gemäß der vorliegenden Erfindung ist ein Sprachsignalprozessor 102 zusätzlich in dem Netzwerkverbindungspfad enthalten, um Sprachsignale von dem Verstärker 107 zu empfangen, und um eine Sprachsignalerkennungssignalverarbeitung durchzuführen, inklusive einer Merkmalsextrahierung, wie dies noch weiter unten vollständiger beschrieben wird. Eine Telephonverbindung von der Station S1 zu der Station S2 wird in geeigneter Weise über das örtliche zentrale Amt 50, das Gesprächsgebühren-Amt 105, den Enhancer 107, den Prozessor 102, das Gesprächsgebühren-Amt 110 und das örtliche Zentralamt 75 gemäß den herkömmlichen Techniken hergestellt, die im folgenden nicht weiter beschrieben werden. Es sei darauf hingewiesen, daß das Netzwerk 100 aus irgendeinem gut bekannten Telekommunikationsnetzwerk bestehen kann, wie beispielsweise dem AT&T Netzwerk.
Bei den herkömmlichen Telekommunikationsnetzwerken ist die Berechnung von Parametern, die als Merkmale zum Charakterisieren von zeitvariablen Sprachsignalen bekannt sind, hoch empfindlich gegenüber der Einführung von akustischen Schwankungen der Sprachsignale durch beispielsweise eine Sprachsignalanhebung oder Verstärkung. Dieser Zustand traf speziell für die Berechnung von bevorzugten Merkmalen wie beispielsweise den Cepstral-Merkmalen zu. Als ein Ergebnis hat das Einschließen oder Einführen solch einer Sprachsignalanhebung in einem Netzwerkverbindungspfad ernsthaft die Qualität der automatischen Spracherkennungsverarbeitung (ASR) verschlechtert, bei der die Erkennungsmodelle, die dazu verwendet werden, um Merkmalsdaten zur Übereinstimmung zu bringen, welche repräsentativ für die übertragenen Sprachsignale sind, auf einem Netzwerkpfad trainiert wurden, der keine ähnliche oder identische Sprachsignal-Verstärkungsschaltungsanordnung enthielt.
Gemäß der vorliegenden Erfindung arbeitet der Prozessor 102, der in dem Netzwerk 100 enthalten ist, in geeigneter Weise derart, um die Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Sprachsignalen durchgeführt wird, die durch den Sprachsignal- Verstärker 107 angehoben oder verstärkt worden sind bevor sie weiter zu der ASR-Verarbeitungsvorrichtung geroutet wurden wie beispielsweise zu dem Prozessor 102. Der Prozessor 102 führt im wesentlichen Anhebungs-Kompensationsoperationen durch, die die verbesserte Robustheit der Cepstral-Merkmal-gestützten Spracherkennungsverarbeitung verbessern. Alternativ kann der Prozessor 102 in dem Netzwerk 100 in Einklang mit der Technik nach der vorliegenden Erfindung arbeiten, um Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Signalen durchgeführt wird, die vor ihrer Zuleitung zu dem Prozessor 102 nicht angehoben oder verstärkt wurden oder durch einen Enhancer angehoben oder verstärkt worden sind, der eine Anhebung oder Verstärkung bei den Sprachsignalen einführt, die von der Anhebung oder Verstärkung verschieden ist, die durch den Prozessor 102 kompensiert wird. Zum Zwecke der Veranschaulichung sei angenommen, daß die Erkennungsmodelle, die bei der Durchführung der Merkmalsanpassung verwendet werden und zwar während der Spracherkennungsverarbeitung bei dem Prozessor 102 über einen Netzwerkpfad trainiert worden sind, der keine Sprachsignalanhebungs- oder Verstärkungsschaltungsanordnung enthält.
Zum Zwecke der Veranschaulichung sei angenommen, daß der Verstärker 107 eine Sprachsignalanhebung hinsichtlich der Sprachsignale einführt, die von der Station S1 zu der Station S2 übertragen werden und zwar während der Lenkung der Signale durch das Netzwerk zum Prozessor 102. Es sei angenommen, daß in Verbindung mit den übertragenen Sprachsignalen, die zu dem Prozessor 102 geleitet worden sind, die durch den Verstärker 107 angehoben wurden, Informationen hinsichtlich der Natur der Anhebung oder Verstärkung zum Zwecke der Implementierung an dem Prozessor 102 verfügbar sind und zwar in einer Weise, die weiter unten beschrieben wird, um eine geeignete Kompensation für die Anhebung oder Verstärkung vorzunehmen.
Zum Zwecke der Klarheit und Kürze wird eine Kenntnis der Spracherkennungsverarbeitungstechniken angenommen, die die Verwendung einer linearen Vorhersagekodierung (LPC) und einer Mel-Filteranalyse zum Extrahieren von Cepstral-Merkmalen aus den Daten involviert, die für die spektralen Charakteristiken der Sprachsignale repräsentativ sind. Siehe Rabiner, Lawrence and Juang, Biing-Hwang, „Fundamentals of Speech Recognition" (1993), Seiten 103–107, 112–117 und 183–190. Um es kurz auszu drücken, so involviert die LPC Verarbeitung das Extrahieren von Merkmalen aus den Sprachsignalen durch Ursprungstraktat-Separation und Modellierung von spektralen Spitzen als eine lineare Kombination vergangener Sprachproben. Die Mel-Filteranalyse involviert das Extrahieren von Merkmalen aus Sprachsignalen basierend auf der Kenntnis der menschlichen Wahrnehmung von akustischen spektralen Komponenten der Sprachsignale, indem in vorteilhafter Weise das komplette Spektrum der Sprachsignale in Ausdrücken einer subjektiven Steigung (pitch) von reinen Tönen bei s-genannten Mel-Skalen-Intervallen gesampelt wird. Diese Mel-Skalen-Intervallwerte werden in herkömmlicher Weise als Filterbänke implementiert, die als Mel-Filterbänke bekannt sind, um in geeigneter Weise spektrale Komponenten der Sprachsignale zu modifizieren, um die Gesamt-Spracherkennung zu verbessern.
Bei einem Aspekt der vorliegenden Erfindung wird die LPC Analyse mit der Mel-Filterbank-Analyse kombiniert, um Cepstral-Merkmale zu berechnen, welche die Einführung einer Anhebung oder Verstärkung an den übertragenen Sprachsignalen kompensieren, wobei die Kompensation dann implementiert wird, wenn die angehobenen oder verstärkten Sprachsignale in geeigneter Weise in die Frequenz-Domäne-Repräsentation transformiert worden sind. Wie dies noch vollständiger weiter unten beschrieben wird, umfaßt die Berechnung der Mel-LPC-Kepstrum-Merkmale eine Mel-Filterbank-Analyse gefolgt von der LPC Analyse, bei der Autokorrelationskoeffizienten auf der Grundlage einer perzeptualen Frequenzskala berechnet werden und bei der eine Glättung des Energiespektrums unter Anwendung der LPC Techniken durchgeführt wird. Zum Zwecke der Veranschaulichung enthält der Verstärker 107 eine Anhebungs-Schaltungsanordnung ähnlich derjenigen, die in dem U.S. Patent 5 195 132 beschrieben ist, die oben angegeben wurde (im folgenden als TrueVoice^sm-Anhebung bezeichnet), um Sprachsignale anzuheben, die zu dem Prozessor 102 von der Station S1 zugeführt werden und wobei die Spracherkennungsverarbeitung an dem Prozessor 102 durchgeführt wird unter Heranziehung von Erkennungsmodellen, die unter Verwendung der Sprachsignale trainiert wurden, die nicht angehoben oder verstärkt worden sind.
2 zeigt eine beispielhafte Ausführungsform des Prozessors 102, der arithmetische Operationen durchführen kann, um die Mel-LPC-Cepstrum-Merkmale zu berechnen, um eine hoch robuste Spracherkennung an Sprachsignalen vorzunehmen, die durch die TrueVoice^sm-Anhebung bei dem Verstärker 107 angehoben oder verstärkt wurden. Gemäß 2 enthält der Prozessor 102 in geeigneter Weise einzelne Funktionsblöcke zur Durchführung der Mel-Cepstral-Berechnungen und der Merkmalsanpassung in Verbindung mit den übertragenen oder gesendeten Sprachsignalen, welche die Anhebung enthalten oder keine Anhebung aufweisen. Die Funktionen, die durch diese Blöcke wiedergegeben werden, können durch die Verwendung von entweder einer gemeinsam verwendeten oder getrennt verwendeten Hardware geliefert werden und zwar inklusive, jedoch nicht beschränkt auf eine Hardware, welche eine Software ausführen kann. Bei einer bevorzugten Ausführungsform umfassen die Funktionsblöcke in dem Prozessor 102 einen Kompensiermerkmal-Extrahierer 202 und einen Recognizer 204, die einen Trainings-Erkennungsmodell-Speicher 206 in Form eines RAM enthalten. Der Extrahierer 202 und der Recognizer 204 sind in geeigneter Weise an einen Speicher 208 angeschlossen. Der Speicher 208 enthält programmierte Befehle, die in geeigneter Weise ausgeführt werden können, um die vorliegende erfinderische Technik zu implementieren. Wie weiter unten erläutert wird, liefern die Funktionsblöcke des Extrahierers 202 und des Recognizers 204 die Verarbeitung der Sprachsignale, die über das Gesprächgebühren-Amt 105 oder 110 gesendet werden und zwar entsprechend der Implementierung der Technik nach der vorliegenden Erfindung. Es sei auch darauf hingewiesen, daß die Operationen, die durch die Funktionsblöcke durchgeführt werden, in ähnlicher Form unter Verwendung eines einzelnen gemeinsam verwendeten Prozessors ausgeführt werden können. Solch ein Prozessor kann einen Standard-Digitalsignalprozessor umfassen und würde einen Nur-Lese-Speicher oder einen anderen geeigneten Speicher enthalten, um die Software zu speichern, und um die Operationen durchzuführen, die weiter unten erläutert werden. Ferner kann die Technik nach der vorliegenden Erfindung unter Verwendung einer Firmware oder vermittels diskreter Komponenten implementiert werden, die in einer integrierten Schaltung realisiert sind. Andere geeignete Ausführungsformen können unmittelbar von Fachleuten implementiert werden. Obwohl beispielsweise, wie dies in 2 gezeigt ist, der Kompensations merkmal-Extrahierer 202 so angeschlossen ist, daß er seine Eingangsgröße von dem Verstärker 107 empfängt, kann er auch direkt an ein Gebühren-Amt wie beispielsweise das Amt 105 angeschlossen werden, ohne daß irgendeine Anhebung dazwischen wirksam wird.
3 zeigt in Einzelheiten eine beispielhafte Ausführungsform des Extrahierers 202, der die Operationen durchführen kann, um eine Anhebung der Sprachsignale zu kompensieren, die weiter unten in Verbindung mit 4 beschrieben werden. Gemäß 3 kann der Extrahierer 202 in geeigneter Weise einen Empfänger 211, einen Vorverzerrer (preemphasizer) 212, einen Rahmen-Blockierer 213, einen Hamming-Multiplizierer 214, einen Frequenzdomäne-Konverter 215, einen Kompensator 216 und einen Cepstral-Merkmal-Computer 217 aufweisen. Diese Funktionsblöcke führen in geeigneter Weise Operationen durch, um die Technik nach der vorliegenden Erfindung zu implementieren, wie dies noch weiter unten in Verbindung mit 4 vollständig erläutert wird. Es sei darauf hingewiesen, daß die an jedem dieser Funktionsblöcke durchgeführten Operationen unter Verwendung einer Kombination aus Software und/oder Hardware als auch Verwendung von Hardware alleine implementiert werden können.
Gemäß 2 besteht der Kompensationsmerkmal-Extrahierer 202 im wesentlichen aus einem Frontende-Prozessor in einem ASR System, welches Operationen durchführt, um die Mel-LPC Cepstral-Merkmale der zeitlich variablen Sprachsignale zu berechnen, die von dem Gesprächsgebühren-Amt 105 ausgeroutet wurden basierend auf den spektralen oder Frequenzdomäne-Repräsentationen der Eigenschaften dieser Signale. Die Mel-LPC Cepstral-Merkmale, die letztendlich durch den Cepstral-Merkmal-Computer 217 des Extrahierers 202 berechnet werden, beschreiben die breiten akustischen Eigenschaften der unterschiedlichen phonetischen Einheiten, die in herkömmlicher Weise für die Spracherkennung verwendet werden. Insbesondere kombiniert der Kompensator 216 und der Cepstral-Merkmal-Computer 217 die LPC- und Mel-Filterbank-Analyse, um einen Satz von kompensierten Cepstral-Merkmalen zu berechnen, die für die gesendeten Sprachsignale repräsentativ sind, die dafür sorgen, daß die ASR Verarbeitung in dem Netzwerk 100 durch den Recognizer 204 im wesentlichen unempfindlich gegenüber akustischen Schwankungen ist, die durch die Anhebung oder Verstärkung verursacht werden. Die Mel-LPC Cepstral-Merkmale werden dem Recognizer 204 angeboten, der diese dann mit den Erkennungsmodellen vergleicht, die in dem Speicher 206 abgespeichert sind, um das beste Wort oder Sequenz von Wörtern zu bestimmen, welches bzw. die mit der phonetischen Einheit übereinstimmt, die durch die berechneten Merkmale wiedergegeben wird. Ein geeigneter Recognizer kann beispielsweise das gut bekannte versteckte Markov-Modell (HMM) verwenden, welches auf den Erkennungstechniken basiert.
Es sei darauf hingewiesen, daß eine gewisse Vorkenntnis der eingeführten Anhebung oder Verstärkung wie beispielsweise der TrueVoice^sm-Anhebung erforderlich ist, um die Kompensation hinsichtlich der Anhebung durchzuführen unter Verwendung der Frequenzdomäne, die für die Sprachsignale repräsentativ ist entsprechend der Technik nach der vorliegenden Erfindung. Diese Informationen können allgemein der Öffentlichkeit zur Verfügung stehen. Alternativ können Informationen, welche die Anhebung oder Verstärkung betreffen, beispielsweise unter Verwendung von Standard-Techniken gemäß einem empirischen Samplevorgang der Sprachsignale bestimmt werden, die über den Netzwerkverbindungspfad übertragen werden, der eine Sprachsignal-Anhebungs-Schaltungsanordnung enthält. Im Vergleich dazu erforderten die herkömmlichen Techniken der Cepstral-Mittelwertsubtraktion und der Signalvorspann-Beseitigung keine Vorkenntnis der akustischen Schwankungen in den Sprachsignalen und werden daher als auf einer blinden Entwindung basierende Techniken betrachtet.
4 zeigt ein Verfahren 220 zum Berechnen von Mel-LPC Cepstrum-Merkmalen von angehobenen zeitvariablen Sprachsignalen an den Kompensations-Merkmal-Extrahierer 202 des Prozessors 102 unter Verwendung der als Beispiel genannten Funktionsblöcke, die in 3 gezeigt sind. Zum Zwecke der Veranschaulichung sei angenommen, daß die Sprachsignale digitalisiert sind und zwar in bevorzugter Weise bei einer 8,0 kHz Rate zum Emulieren eines digitalen Telephonnetzwerks bevor sie zu dem Extrahierer 202 geroutet werden. Gemäß 4 empfängt bei dem Schritt 222 der Empfänger 211 die angehobenen Sprachsignale von dem Verstärker 107. Dann bei dem Schritt 224 verarbeitet der Vorverzerrer (preemphasizer) 212 die digitalisierten Sprachsignalproben, um eine spektrale Glättung zu erzeugen. Die Vorverzerrung wird in geeigneter Weise unter Verwendung von beispielsweise eines herkömmlichen digitalen Netzwerks erster Ordnung durchgeführt. Bei dem Schritt 226 sammelt der Rahmenblocker 213 die Sprachsignalproben in Rahmen oder bildet Blöcke aus diesen. Ein einzelner Rahmen besteht aus Abschnitten von aufeinanderfolgenden Sprachproben, die n msec des Signals entsprechen und es sind aufeinanderfolgende Rahmen um n msec voneinander beabstandet. Bei dem Schritt 228 multipliziert der Hamming-Multiplizierer 214 jeden Rahmen der Proben durch ein Hamming-Fenster wie dies beim Sand der Technik üblich ist. Bei dem Schritt 230 führt der Frequenzdomäne-Konverter 215 eine Fourier-Transformation an jedem im Fenster erscheinenden Segment der Sprache durch, um einen Satz von Spektralproben zu generieren, die den angehobenen Sprachsignalen entsprechen, die bei dem Empfänger 211 empfangen werden.
Bei dem Schritt 232 verarbeitet der Kompensator 216 jeden Rahmen, um das Energiespektrum für jeden Rahmen der Spektralproben zu veranlassen durch einen Satz von M Mel-Filterbänke hindurch zu laufen und dieser kann in geeigneter Weise eine dreieckförmige Gestalt haben. Die Mel-Filterbänke sind in geeigneter Weise gewichtet, um Effekte zu kompensieren, die die Anhebung auf die Berechnung der Cepstral-Merkmale der übertragenen Sprachsignale haben kann. Mit anderen Worten werden die Effekte der Anhebung oder Verstärkung der Sprachsignale bei dem Kompensator 216 kompensiert, der Operationen an den Frequenzdomäne-Wiedergaben der angehobenen oder verstärkten Sprachsignale durchführt. Es sei darauf hingewiesen, daß die Mel-LPC Cepstrum-Berechnung dazu beiträgt, daß die Verstärkung von jedem Spektralband vollständig gesteuert werden kann. Dies erlaubt eine Kompensation der Sprachsignalanhebung einfach dadurch, indem eine Wichtungsfunktion bei den Mel-Filterbänken vorgenommen wird. Beispielsweise wird eine Kompensation der Sprachsignalanhebung dadurch ausgeführt, indem eine ideale Hochpaßfilterung implementiert wird, indem solche unerwünschten Mel-Filterbänke einer Nachentzerrung oder Höhenabsenkung (de-emphasizing) vor der Berechnung der Cepstral-Merkmale aus der Frequenzdomäne-Repräsentation der Sprachsignale unter Verwendung der LPC Techniken vorgenommen wird. Diese Wichtung von Datenwert-Koeffizienten in der Spektraldomäne ist extrem vorteilhaft und sorgt für die Berechnung von kompensierten Cepstral-Merkmalen der angehobenen Sprachsignale, die in geeigneter Weise an Erkennungsmodelle angepaßt werden können, die nicht trainiert wurden und zwar unter Verwendung der angehobenen Sprachsignale. Es sei darauf hingewiesen, daß die Cepstral-Merkmale, wenn sie einmal berechnet wurden, in einer analogen Weise nicht gewichtet werden können. Es sei ferner darauf hingewiesen, daß solch eine Verarbeitung der angehobenen Sprachsignale grob angenähert werden kann, indem die angehobenen Sprachsignale gefiltert werden während sie sich noch in ihrer Zeitdomäne-Repräsentation befinden.
Bei der als Beispiel gewählten Ausführungsform des Netzwerks 100, bei dem eine TrueVoice^sm-Anhebung hinsichtlich der Sprachsignale durch den Verstärker 107 eingeführt wird, werden Informationen, welche die Eigenschaften der True-Voice^sm-Anhebung betreffen, dazu verwendet, um die Wichtungen zu bestimmen, die bei den Mel-Filterbänken des Kompensators 216 angewendet werden. Anhand von experimentellen Analysen wurde festgestellt, daß die True-Voice^sm-Anhebung einen Filtervorgang der Sprachsignale involviert hat unter Verwendung eines Preemphasis-Filters (p-Filters) und Anwenden eines langsam variierenden AVC (automatischer Volumen-Controller) an den Signalen und zwar dort, wo das p-Filter einen 10–20 dB Spektral-Pol einführt und zwar irgendwo in dem Frequenzband zwischen 150 Hz und 220 Hz. In diesem Fall würden die Mel-Filterbänke die gewünschte Hochpaßfilterung implementieren und zwar in der Frequenzdomäne, was dann zu einer Modifikation der berechneten Cepstrum-Merkmale führen würde und somit die Robustheit der Spracherkennungsqualität in Richtung auf einen niederfrequenten Powerbootingvorgang (Leistungshochtreibvorgang) verbessert. Beispielsweise kann Mel-Filterbänken mit einer Frequenz unter 290 Hz eine Wichtung von Null zugeordnet werden und Filterbänken mit Frequenzen oberhalb von 290 Hz kann eine Wichtung der Einheit zugeordnet werden. Mit anderen Worten wird die Wirkung der TrueVoice^sm-Anhebung in Verbindung mit der Sprachsignalerkennung dadurch minimiert werden, indem die Niederfrequenz-Mel-Spektralbänder nachentzerrt werden (de-emphasizing), die bei der Berechnung des Mel-LPC-Cepstrums verwendet werden. In bevorzugter Weise kann ein Schwellenwert von 290 Hz implementiert werden und zwar derart, daß die Mel-Bank-Frequenzbänder unterhalb dieser Schwelle während der Berechnung des Cepstrums nicht in Betracht gezogen werden. Diese Mel-LPC-Cepstrumverarbeitung kann als eine ideale Hochpaßfilterung betrachtet werden, bei der die Niederfrequenzbänder bis 290 Hz schwer gedämpft sind.
Gemäß 4 führt der Cepstral-Merkmal-Computer 217 bei dem Schritt 234 eine IDCT (inverse diskrete Kosinus-Transformation) durch und zwar in Verbindung mit dem geglätteten Energiespektrum, um Q-Autokorrelationskoeffizienten zu liefern, wobei Q in geeigneter Weise auf 12 gesetzt wird. Bei dem Schritt 236 konvertiert der Cepstral-Merkmal-Computer 217 jeden Satz der Autokorrelationskoeffizienten zuerst in LPC Koeffizienten, und zwar unter Verwendung von beispielsweise dem Durbinschen Rekursionsalgorithmus, und dann in Cepstralparameter unter Verwendung der Standard-LPC-Zu-Cepstrum-Rekursion. Das Abmaß oder Größe des Cepstralvektors wird in geeigneter Weise auf 12 gesetzt. Schließlich bei dem Schritt 238 versucht der Recognizer 204 die Erkennungsmodelle, die in dem Modellspeicher 206 gespeichert sind, in Übereinstimmung mit den berechneten Cepstral-Merkmalen zu bringen und zwar für die kompensierten angehobenen Sprachsignale, und liefert Daten, die für die Merkmalsübereinstimmungsoperationen repräsentativ sind, um einen weiteren Routing-Vorgang zu der Station S2 durchzuführen, wie dies auf dem Gebiet üblich ist.
Es sei darauf hingewiesen, daß die Berechnungstechnik für das Mel-LPC-Cepstrum-Merkmal eine höhere Robustheit gegenüber Sprachanhebungen oder Verstärkungen liefern kann und in einigen Fällen die ASR Performance nicht nachteilig beeinflußt wird; selbst dann nicht, wenn die Anhebung nicht eingeführt worden ist und die Mel-LPC-Cepstrum-Merkmale für eine Kompensation einer bestimmten Anhebung der Sprachsignale sorgen. Es sei darauf hingewiesen, daß unterschiedliche Filter und Abfallfrequenzen verwendet werden können, um die Technik gemäß der vorliegenden Erfindung zur Verwendung der Mel-Filterbankverarbeitung, um eine Anhebung oder Verstärkung von Sprachsignalen zu kompensieren, zu implementieren. Es sei ferner drauf hingewiesen, daß für eine Signalanhebung, die feine Modifikationen hinsichtlich des Sprachspektrums involviert, ein robustes Frontende-System wie beispielsweise ein solches, welches die Mel-LPC-Cepstrum-Merkmale berechnet, einen einfachen Zugriff auf Spracherkennungssysteme bietet, um das Sprachspektrum in irgendeiner Weise zu ändern, was für die Zwecke erforderlich ist, um Merkmale der Sprachsignale zu berechnen, die mit Erkennungsmodellen übereinstimmen müssen, welche nicht unter Verwendung der angehobenen Sprachsignale trainiert wurden.
Es sei darauf hingewiesen, daß die Ausführungsformen und Abwandlungen, die hier gezeigt und oben beschrieben wurden, lediglich die Prinzipien der Erfindung veranschaulichen, und daß vielfältige Abwandlungen für Fachleute möglich sind, ohne dabei den Rahmen der Erfindung zu verlassen.

Claims

Verfahren zum Erzeugen von Sprachsignale kennzeichnenden Sprachmerkmalssignalen, wobei das Verfahren die folgenden Schritte umfaßt: Erzeugen eines Satzes von spektralen Parametern, welche Sprachsignale kennzeichnen; selektives Wichten des Satzes von spektralen Parametern (232), um Anhebungseffekt auf die spektralen Eigenschaften der Sprachsignale zu kompensieren, der von Verstärkern (107) in einem Netz verursacht wird; und Erzeugen von sprachkennzeichnenden Merkmalssignalen aufgrund des gewichteten Satzes von spektralen Samples.
Verfahren nach Anspruch 1, die folgenden Schritte umfassend: Empfangen von Sprachsignalen; Bilden von Sprachsignalblöcken in Rahmen; kombiniertes Durchführen einer Codierung mit linearer Vorhersage und einer cepstralen Rekursionsanalyse der gebildeten Sprachsignalblöcke, um mel-LPC-Cepstral-Merkmalssignale zu erzeugen.
Verfahren nach Anspruch 2, ferner den Schritt des Vergleichens der mel-LPC-Cepstral-Merkmale mit einem Erkennungsmodell umfassend.
Verfahren nach Anspruch 2, ferner die folgenden Schritte umfassend: Nutzen einer Mel-Filterbank, um die gebildeten Sprachsignalblöcke zu filtern und um Mel-gefilterte Signale zu erzeugen, die dann durch das kombinierte Durchführen einer Codierung mit linearer Vorhersage und einer cepstralen Rekursionsanalyse analysiert werden.
Verfahren nach Anspruch 2, ferner den Schritt der Vorverzerrung der Sprachsignale umfassend, um eine spektrale Glättung der Signale zu erreichen.
Verfahren nach Anspruch 2, ferner den Schritt des Multiplizierens jedes der Rahmen durch eine Hamming-Fensterung umfassend.
Verfahren nach Anspruch 6, ferner den Schritt des Transformierens jedes der Hamming-Fensterungsrahmen von einer Zeitwiedergabe in eine Frequenzbereichswiedergabe umfassend.
Verfahren nach Anspruch 7, ferner das Filtern jeder der Frequenzbereichswiedergaben mittels einer Mel-Filterbank umfassend, welche Werte wichtet, die in einem Speicher hinterlegt sind.
Verfahren nach Anspruch 8, ferner den Schritt des Erzeugens von Autokorrelationskoeffizienten aus den gefilterten Frequenzwiedergaben umfassend.
Verfahren nach Anspruch 9, wobei die Codierungsanalyse mit linearer Vorhersage dazu dient, die Autokorrelationskoeffizienten in LPC-Koeffizienten umzuwandeln, und die cepstralen Rekursionsanalyse dazu dient, Cepstral-Parameter aus den LPC-Koeffizienten zu berechnen.
Verfahren nach Anspruch 1, wobei die Schritte des selektiven Gewichtens des Satzes von spektralen Parametern durch selektiv gewichtete Mel-Filterbänke durchgeführt wird.
Vorrichtung zum Erzeugen von Sprachsignale kennzeichnenden Sprachmerkmalssignalen, umfassend: einen Frequenzbereichswandler (215) zum Erzeugen eines Satzes von Spektral-Samples, welche die Sprachsignale darstellen; eine Wichtungseinheit (216) zum selektiven Wichten des Satzes von Spektral-Samples, um die Anhebungswirkung auf die spektralen Eigenschaften der Sprachsignale zu kompensieren, die von Verstärkern im Telekommunikationsnetz bewirkt wird; und einen Merkmals-Computer (217) zum Erzeugen von sprachkennzeichnenden Merkmalssignalen aufgrund des gewichteten Satzes von Spektral-Samples.
Vorrichtung nach Anspruch 12, ferner einen Empfänger umfassend, wobei der Empfänger über eine Vorverarbeitungsschaltung mit dem Frequenzbereichswandler verbunden ist.
Vorrichtung nach Anspruch 13, wobei die Vorverarbeitungsschaltung eine Vorverzerrungseinheit einschließt.
Vorrichtung nach Anspruch 13, wobei die Vorverarbeitungsschaltung eine Rahmen-Blockbildungseinrichtung einschließt.
Vorrichtung nach Anspruch 13, wobei die Vorverarbeitungsschaltung einen Hamming-Multiplikator einschließt.
Vorrichtung nach Anspruch 12, wobei die Wichtungseinheit einen Satz von selektiv gewichteten Mel-Filterbänken einschließt.
Vorrichtung nach Anspruch 12, wobei die Wichtungseinheit ferner selektiv gewichtete Mel-Filterbänke einschließt.