-
Die
Erfindung betrifft ein Verfahren zum Erzeugen von Sprachsignalen
kennzeichnenden Sprachmerkmalssignalen nach Anspruch 1. Ferner betrifft
die vorliegende Erfindung eine Vorrichtung zum Erzeugen dieser Sprachmerkmalssignale
nach Anspruch 12.
-
HINTERGRUND
DER ERFINDUNG
-
Aus
der Schrift von Shirai et al., „Phoneme Recognition in Continuous
Speech using Feature Selection Based on Mutual Information", Euro Speech 1989,
S. 370–373,
ist ein Verfahren zum Erzeugen von Sprachmerkmalssignalen bekannt,
wobei diese Sprachmerkmalssignale Sprachsignale kennzeichnen. Dieses
bekannte Verfahren schließt
die Schritte des Erzeugens eines Satzes von Sprachsignale kennzeichnenden
Spektralparametern, des Wichtens des Satzes von Spektralparametern
und des Erzeugens von Sprache kennzeichnenden Merkmalssignalen aufgrund
des gewichteten Satzes von Spektral-Samples ein.
-
Ein ähnliches
Verfahren und eine Vorrichtung zum Durchführen dieses Verfahrens ist
aus der Schrift von Buhrke et al., „Application of Vector Quantized
Hidden Markov Modeling to Telephone Network Based Connected Digit
Recognition", ICASSP
1994, S. 1/105–108
ein.
-
Sprachsignale,
die über
ein Telekommunikationsnetzwerk übertragen
werden, wie beispielsweise ein Großentfernungs-Nachrichtenaustauschnetzwerk,
können
häufig
akustisch durch unbekannte variable Bedingungen beeinflußt werden.
Diese Bedingungen können
in signifikanter Weise die Qualität eines automatischen Spracherkennungssystems (ASR)
verschlechtern, welches in typischer Weise in solch einem Netzwerk
enthalten ist. Solche Bedingungen können beispielsweise Umgebungsstörgeräusche, Kanalinterferenz
und die Verwendung unterschiedlicher Schall-Detektionsausrüstungen
umfassen.
-
Ein
typisches ASR System führt
eine Spracherkennung dadurch aus, indem es übereinstimmende Merkmalsdaten,
welche repräsentativ
für übertragene
Sprachsignale sind, mit Datenmustern vergleicht, welche repräsentativ
für phonetische
Einheiten sind, die als Trainings-Erkennungsmodelle bekannt sind.
Die Erkennungsmodelle werden in typischer Weise durch Überwachen
der Übertragung
von vorbestimmten Sprachsignalen erhalten, die bekannte phonetische
Eigenschaften haben und zwar über den
gleichen Netzwerk-Verbindungspfad wie derjenige der aktuellen Sprachsignale,
wie beispielsweise solche, die während
einer Telefonkonversation auftreten, die dann zu einem ASR System
gesendet werden.
-
In
vielen Fällen
kann das Vorhandensein von unbekannten variablen Bedingungen oder
Zuständen
in einem Netzwerkpfad zu akustischen Fehlübereinstimmungen zwischen den
Erkennungsmodellen und den Testdaten fuhren. Diese akustischen Fehlübereinstimmungen
können
eine Verschlechterung der Spracherkennungsqualität verursachen. Akustische Fehlübereinstimmungen
können
leicht beispielsweise dann auftreten, wenn die über einen Netzwerkpfad übertragenen
Sprachsignale zur Verbesserung der Sprachqualität der menschlichen Wahrnehmung
verstärkt
werden. Wenn eine solche Verstärkung
(enhancement) oder Anhebung auftritt, kann die Spracherkennungsqualität suboptimal
sein und zwar dort, wo die Erkennungsmodelle, die bei der Spracherkennungsverarbeitung
verwendet werden, nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad
nicht trainiert worden sind, der ähnliche Sprachsignal-Verstärkungsschaltungen
enthält.
Gegenwärtige
Sprachsignal-Verarbeitungstechniken, die versuchen eine Robustheit
des ASR Systems hinsichtlich der übereinstimmenden Merkmale zu
liefern, die für
die detektierten Sprachsignale repräsentativ sind und zwar Übereinstimmung
mit Erkennungsmodellen, kompensieren in typischer Weise nicht ausreichend
akustische Fehlübereinstimmungen,
die in der oben geschilderten Weise resultieren können.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren
und ein System anzugeben, welches die Fähigkeit besitzt, die Spracherkennungsqualität zu verbessern.
-
Gemäß dem Verfahren
nach der vorliegenden Erfindung wird diese Aufgabe durch die Merkmale
des Anspruches 1 gelöst.
-
Verbesserte
Ausführungsformen
des erfindungsgemäßen Verfahrens
ergeben sich aus den Unteransprüchen
2 bis 11.
-
Im
Zusammenhang mit der erfindungsgemäßen Vorrichtung wird die genannte
Aufgabe durch die Merkmale von Anspruch 12 gelöst.
-
Verbesserte
Ausführungsformen
der erfindungsgemäßen Vorrichtung
ergeben sich aus den Unteransprüchen
13 bis 18.
-
Das
erfindungsgemäße Verfahren
für eine Merkmalsextraktionsvorrichtung
eignet sich besonders gut für
die Verwendung bei der Realisierung einer Kompensation, die eine
höhere
Robustheit hinsichtlich der Spracherkennungsqualität in Netzwerken
mit Verstärkung
bzw. Anhebung liefert und zwar dort, wo beispielsweise Erkennungsmodelle
nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad
nicht trainiert worden sind, der ähnliche Anhebungs- oder Verstärkungsschaltungen
enthält.
-
In
einem Aspekt der vorliegenden Erfindung wird die Sprachsignalverstärkung während der Durchführung der
Merkmalsextraktionsverarbeitung am Frontende eines Spracherkennungssystems kompensiert,
welches einen Merkmalsextrahierer und einen Spracherkenner enthält. Der
Merkmalsextrahierer berechnet Cepstral-Merkmale der verstärkten Sprachsignale
unter Verwendung einer Kombination einer linearen Vorhersage-Kodierung (LPC) und einer
Mel-Filter-Analyse. Der Extrahierer kompensiert die Ver stärkung an
den zeitvariablen Sprachsignalen nachdem sie auf eine Frequenzdomäne-Repräsentation
transformiert wurden.
-
Nach
diesem Verfahren werden erstens die zeitvariablen verstärkten Sprachsignale
gesampelt. Diese Samples werden in Rahmen gesammelt und werden dann
unter Verwendung der Fourier-Transformation von Zeit- in Frequenzdomäne-Repräsentationen
umgewandelt. Dann wird das Energiespektrum für jeden Rahmen einer selektiv
gewichteten Mel-Filterbankverarbeitung unterzogen, wobei die Wichtungen
selektiv den Effekt der Anhebung oder Verstärkung der spektralen Eigenschaften
der Sprachsignale kompensieren. Anschließend werden die Cepstral-Merkmale
dadurch erhalten, indem Autokorrelations-Koeffizienten aus den spektralen
Repräsentationen
der kompensierten verstärkten Sprachsignale
berechnet werden, und indem dann die LPC Analyse und die Cepstral-Rekursion
durchgeführt
werden.
-
Weitere
Merkmale und Vorteile der vorliegenden Erfindung ergeben sich unmittelbar
für einen Fachmann
aus der folgenden detaillierten Beschreibung und den anhängenden
Zeichnungen.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 veranschaulicht
ein Blockschaltbild eines verbesserten Telekommunikationsnetzwerks, welches
zur Durchführung
von Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der vorliegenden
Erfindung geeignet ist.
-
2 zeigt
ein veranschaulichendes Blockschaltbild eines Sprachsignalprozessors,
der in dem System von 1 enthalten sein kann, um eine Spracherkennung
durchzuführen,
indem die Mel-LPC-Cepstral-Merkmale der verstärkten Sprachsignale gemäß der vorliegenden
Erfindung berechnet werden.
-
3 ist
ein veranschaulichendes Blockschaltbild eines als Beispiel gewählten Kompensationsmerkmal-Extrahierers:
-
4 ist
ein Flußdiagramm
eines Verfahrens zur Durchführung
einer Spracherkennung gemäß der vorliegenden
erfinderischen Technik der Berechnung der Mel-LPC-Cepstrum-Merkmale
der verstärkten
Sprachsignale.
-
DETAILLIERTE
BESCHREIBUNG
-
1 zeigt
ein Blockschaltbild eines als Beispiel gewählten Telekommunikationsnetzwerks 100, welches
für die
Durchführung
einer Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der Technik
nach der vorliegenden Erfindung geeignet ist.
-
Gemäß 1 kann
das Netzwerk 100 in geeigneter Weise eine Vielzahl von
Gesprächsgebühr-Ämtern umfassen,
wie beispielsweise die Gesprächsgebühr-Ämter 105 und 110,
die miteinander verbunden sein können
und zwar in irgendeiner einer Vielfalt von gut bekannten Arten,
um Groß-Sprach- und
Daten-Verbindungen für
deren Teilnehmer zu liefern, wie beispielsweise Telephonteilnehmer,
die den Stationseinheiten oder Sätzen
S1 und S2 zugeordnet sind. Ein örtliches
zentrales Amt 50 verbindet die Station S1 mit dem Gesprächsgebühren-Amt 105,
und ein örtliches
Zentralamt 75 verbindet die Station S2 mit dem Gesprächsgebühren-Amt 110.
-
Das
Netzwerk 100 kann ferner eine Sprachanhebungsvorrichtung
oder einen Verstärker 107 enthalten
und zwar in dem Verbindungspfad zwischen den Gesprächsgebühren-Ämtern 105 und 110 zum
Anheben der Qualität
der Sprachsignale, bevor diese von einem Teilnehmer empfangen werden,
wie beispielsweise einem Telephonbenutzer. Beispielsweise kann der
Verstärker 107 eine
geeignete Schaltungsanordnung enthalten, wie beispielsweise eine Echo-Beseitigungsschaltungsanordnung
oder irgendeine andere Schaltungsanordnung, um den Energiewert der
Sprachsignale zu erhöhen
oder abzusenken. Siehe hierzu das U.S. Patent 5 195 132 für eine detailliertere
Beschreibung der Implementierung der Sprachsignalanhebung in einem
Netzwerk, welches das Erhöhen
der Energiepegel der ausgewählten
Frequenzen involviert.
-
Gemäß der vorliegenden
Erfindung ist ein Sprachsignalprozessor 102 zusätzlich in
dem Netzwerkverbindungspfad enthalten, um Sprachsignale von dem
Verstärker 107 zu
empfangen, und um eine Sprachsignalerkennungssignalverarbeitung
durchzuführen,
inklusive einer Merkmalsextrahierung, wie dies noch weiter unten
vollständiger
beschrieben wird. Eine Telephonverbindung von der Station S1 zu der
Station S2 wird in geeigneter Weise über das örtliche zentrale Amt 50,
das Gesprächsgebühren-Amt 105,
den Enhancer 107, den Prozessor 102, das Gesprächsgebühren-Amt 110 und
das örtliche
Zentralamt 75 gemäß den herkömmlichen
Techniken hergestellt, die im folgenden nicht weiter beschrieben
werden. Es sei darauf hingewiesen, daß das Netzwerk 100 aus
irgendeinem gut bekannten Telekommunikationsnetzwerk bestehen kann,
wie beispielsweise dem AT&T
Netzwerk.
-
Bei
den herkömmlichen
Telekommunikationsnetzwerken ist die Berechnung von Parametern, die
als Merkmale zum Charakterisieren von zeitvariablen Sprachsignalen
bekannt sind, hoch empfindlich gegenüber der Einführung von
akustischen Schwankungen der Sprachsignale durch beispielsweise
eine Sprachsignalanhebung oder Verstärkung. Dieser Zustand traf
speziell für
die Berechnung von bevorzugten Merkmalen wie beispielsweise den Cepstral-Merkmalen
zu. Als ein Ergebnis hat das Einschließen oder Einführen solch
einer Sprachsignalanhebung in einem Netzwerkverbindungspfad ernsthaft
die Qualität
der automatischen Spracherkennungsverarbeitung (ASR) verschlechtert,
bei der die Erkennungsmodelle, die dazu verwendet werden, um Merkmalsdaten
zur Übereinstimmung
zu bringen, welche repräsentativ
für die übertragenen
Sprachsignale sind, auf einem Netzwerkpfad trainiert wurden, der
keine ähnliche
oder identische Sprachsignal-Verstärkungsschaltungsanordnung enthielt.
-
Gemäß der vorliegenden
Erfindung arbeitet der Prozessor 102, der in dem Netzwerk 100 enthalten
ist, in geeigneter Weise derart, um die Fehlerwerte zu minimieren,
wenn die Spracherkennung an übertragenen
Sprachsignalen durchgeführt
wird, die durch den Sprachsignal- Verstärker 107 angehoben oder
verstärkt
worden sind bevor sie weiter zu der ASR-Verarbeitungsvorrichtung
geroutet wurden wie beispielsweise zu dem Prozessor 102.
Der Prozessor 102 führt
im wesentlichen Anhebungs-Kompensationsoperationen durch, die die
verbesserte Robustheit der Cepstral-Merkmal-gestützten Spracherkennungsverarbeitung
verbessern. Alternativ kann der Prozessor 102 in dem Netzwerk 100 in
Einklang mit der Technik nach der vorliegenden Erfindung arbeiten,
um Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen
Signalen durchgeführt
wird, die vor ihrer Zuleitung zu dem Prozessor 102 nicht
angehoben oder verstärkt
wurden oder durch einen Enhancer angehoben oder verstärkt worden
sind, der eine Anhebung oder Verstärkung bei den Sprachsignalen
einführt,
die von der Anhebung oder Verstärkung
verschieden ist, die durch den Prozessor 102 kompensiert
wird. Zum Zwecke der Veranschaulichung sei angenommen, daß die Erkennungsmodelle,
die bei der Durchführung
der Merkmalsanpassung verwendet werden und zwar während der
Spracherkennungsverarbeitung bei dem Prozessor 102 über einen
Netzwerkpfad trainiert worden sind, der keine Sprachsignalanhebungs- oder
Verstärkungsschaltungsanordnung
enthält.
-
Zum
Zwecke der Veranschaulichung sei angenommen, daß der Verstärker 107 eine Sprachsignalanhebung
hinsichtlich der Sprachsignale einführt, die von der Station S1
zu der Station S2 übertragen werden
und zwar während
der Lenkung der Signale durch das Netzwerk zum Prozessor 102.
Es sei angenommen, daß in
Verbindung mit den übertragenen Sprachsignalen,
die zu dem Prozessor 102 geleitet worden sind, die durch
den Verstärker 107 angehoben
wurden, Informationen hinsichtlich der Natur der Anhebung oder Verstärkung zum
Zwecke der Implementierung an dem Prozessor 102 verfügbar sind und
zwar in einer Weise, die weiter unten beschrieben wird, um eine
geeignete Kompensation für
die Anhebung oder Verstärkung
vorzunehmen.
-
Zum
Zwecke der Klarheit und Kürze
wird eine Kenntnis der Spracherkennungsverarbeitungstechniken angenommen,
die die Verwendung einer linearen Vorhersagekodierung (LPC) und
einer Mel-Filteranalyse zum Extrahieren von Cepstral-Merkmalen aus
den Daten involviert, die für
die spektralen Charakteristiken der Sprachsignale repräsentativ
sind. Siehe Rabiner, Lawrence and Juang, Biing-Hwang, „Fundamentals
of Speech Recognition" (1993),
Seiten 103–107,
112–117
und 183–190. Um
es kurz auszu drücken,
so involviert die LPC Verarbeitung das Extrahieren von Merkmalen
aus den Sprachsignalen durch Ursprungstraktat-Separation und Modellierung
von spektralen Spitzen als eine lineare Kombination vergangener
Sprachproben. Die Mel-Filteranalyse involviert das Extrahieren von Merkmalen
aus Sprachsignalen basierend auf der Kenntnis der menschlichen Wahrnehmung
von akustischen spektralen Komponenten der Sprachsignale, indem
in vorteilhafter Weise das komplette Spektrum der Sprachsignale
in Ausdrücken
einer subjektiven Steigung (pitch) von reinen Tönen bei s-genannten Mel-Skalen-Intervallen gesampelt
wird. Diese Mel-Skalen-Intervallwerte werden in herkömmlicher Weise
als Filterbänke
implementiert, die als Mel-Filterbänke bekannt sind, um in geeigneter
Weise spektrale Komponenten der Sprachsignale zu modifizieren, um
die Gesamt-Spracherkennung zu verbessern.
-
Bei
einem Aspekt der vorliegenden Erfindung wird die LPC Analyse mit
der Mel-Filterbank-Analyse
kombiniert, um Cepstral-Merkmale zu berechnen, welche die Einführung einer
Anhebung oder Verstärkung
an den übertragenen
Sprachsignalen kompensieren, wobei die Kompensation dann implementiert
wird, wenn die angehobenen oder verstärkten Sprachsignale in geeigneter
Weise in die Frequenz-Domäne-Repräsentation
transformiert worden sind. Wie dies noch vollständiger weiter unten beschrieben
wird, umfaßt
die Berechnung der Mel-LPC-Kepstrum-Merkmale eine Mel-Filterbank-Analyse gefolgt von
der LPC Analyse, bei der Autokorrelationskoeffizienten auf der Grundlage
einer perzeptualen Frequenzskala berechnet werden und bei der eine
Glättung
des Energiespektrums unter Anwendung der LPC Techniken durchgeführt wird.
Zum Zwecke der Veranschaulichung enthält der Verstärker 107 eine
Anhebungs-Schaltungsanordnung ähnlich derjenigen,
die in dem U.S. Patent 5 195 132 beschrieben ist, die oben angegeben
wurde (im folgenden als TrueVoicesm-Anhebung
bezeichnet), um Sprachsignale anzuheben, die zu dem Prozessor 102 von
der Station S1 zugeführt
werden und wobei die Spracherkennungsverarbeitung an dem Prozessor 102 durchgeführt wird
unter Heranziehung von Erkennungsmodellen, die unter Verwendung
der Sprachsignale trainiert wurden, die nicht angehoben oder verstärkt worden
sind.
-
2 zeigt
eine beispielhafte Ausführungsform
des Prozessors 102, der arithmetische Operationen durchführen kann,
um die Mel-LPC-Cepstrum-Merkmale zu berechnen, um eine hoch robuste Spracherkennung
an Sprachsignalen vorzunehmen, die durch die TrueVoicesm-Anhebung
bei dem Verstärker 107 angehoben
oder verstärkt
wurden. Gemäß 2 enthält der Prozessor 102 in
geeigneter Weise einzelne Funktionsblöcke zur Durchführung der
Mel-Cepstral-Berechnungen und der Merkmalsanpassung in Verbindung
mit den übertragenen oder
gesendeten Sprachsignalen, welche die Anhebung enthalten oder keine
Anhebung aufweisen. Die Funktionen, die durch diese Blöcke wiedergegeben werden,
können
durch die Verwendung von entweder einer gemeinsam verwendeten oder
getrennt verwendeten Hardware geliefert werden und zwar inklusive,
jedoch nicht beschränkt
auf eine Hardware, welche eine Software ausführen kann. Bei einer bevorzugten
Ausführungsform
umfassen die Funktionsblöcke
in dem Prozessor 102 einen Kompensiermerkmal-Extrahierer 202 und
einen Recognizer 204, die einen Trainings-Erkennungsmodell-Speicher 206 in Form
eines RAM enthalten. Der Extrahierer 202 und der Recognizer 204 sind
in geeigneter Weise an einen Speicher 208 angeschlossen.
Der Speicher 208 enthält
programmierte Befehle, die in geeigneter Weise ausgeführt werden
können,
um die vorliegende erfinderische Technik zu implementieren. Wie
weiter unten erläutert
wird, liefern die Funktionsblöcke des
Extrahierers 202 und des Recognizers 204 die Verarbeitung
der Sprachsignale, die über
das Gesprächgebühren-Amt 105 oder 110 gesendet
werden und zwar entsprechend der Implementierung der Technik nach
der vorliegenden Erfindung. Es sei auch darauf hingewiesen, daß die Operationen,
die durch die Funktionsblöcke
durchgeführt
werden, in ähnlicher
Form unter Verwendung eines einzelnen gemeinsam verwendeten Prozessors
ausgeführt werden
können.
Solch ein Prozessor kann einen Standard-Digitalsignalprozessor umfassen
und würde
einen Nur-Lese-Speicher oder einen anderen geeigneten Speicher enthalten,
um die Software zu speichern, und um die Operationen durchzuführen, die
weiter unten erläutert
werden. Ferner kann die Technik nach der vorliegenden Erfindung
unter Verwendung einer Firmware oder vermittels diskreter Komponenten
implementiert werden, die in einer integrierten Schaltung realisiert
sind. Andere geeignete Ausführungsformen
können
unmittelbar von Fachleuten implementiert werden. Obwohl beispielsweise, wie
dies in 2 gezeigt ist, der Kompensations merkmal-Extrahierer 202 so
angeschlossen ist, daß er
seine Eingangsgröße von dem
Verstärker 107 empfängt, kann
er auch direkt an ein Gebühren-Amt wie
beispielsweise das Amt 105 angeschlossen werden, ohne daß irgendeine
Anhebung dazwischen wirksam wird.
-
3 zeigt
in Einzelheiten eine beispielhafte Ausführungsform des Extrahierers 202,
der die Operationen durchführen
kann, um eine Anhebung der Sprachsignale zu kompensieren, die weiter
unten in Verbindung mit 4 beschrieben werden. Gemäß 3 kann
der Extrahierer 202 in geeigneter Weise einen Empfänger 211,
einen Vorverzerrer (preemphasizer) 212, einen Rahmen-Blockierer 213,
einen Hamming-Multiplizierer 214, einen Frequenzdomäne-Konverter 215,
einen Kompensator 216 und einen Cepstral-Merkmal-Computer 217 aufweisen.
Diese Funktionsblöcke
führen
in geeigneter Weise Operationen durch, um die Technik nach der vorliegenden Erfindung
zu implementieren, wie dies noch weiter unten in Verbindung mit 4 vollständig erläutert wird.
Es sei darauf hingewiesen, daß die
an jedem dieser Funktionsblöcke
durchgeführten
Operationen unter Verwendung einer Kombination aus Software und/oder
Hardware als auch Verwendung von Hardware alleine implementiert
werden können.
-
Gemäß 2 besteht
der Kompensationsmerkmal-Extrahierer 202 im wesentlichen
aus einem Frontende-Prozessor in einem ASR System, welches Operationen
durchführt,
um die Mel-LPC Cepstral-Merkmale der zeitlich variablen Sprachsignale
zu berechnen, die von dem Gesprächsgebühren-Amt 105 ausgeroutet
wurden basierend auf den spektralen oder Frequenzdomäne-Repräsentationen
der Eigenschaften dieser Signale. Die Mel-LPC Cepstral-Merkmale,
die letztendlich durch den Cepstral-Merkmal-Computer 217 des
Extrahierers 202 berechnet werden, beschreiben die breiten
akustischen Eigenschaften der unterschiedlichen phonetischen Einheiten,
die in herkömmlicher
Weise für
die Spracherkennung verwendet werden. Insbesondere kombiniert der
Kompensator 216 und der Cepstral-Merkmal-Computer 217 die
LPC- und Mel-Filterbank-Analyse, um einen Satz von kompensierten
Cepstral-Merkmalen zu berechnen, die für die gesendeten Sprachsignale
repräsentativ
sind, die dafür
sorgen, daß die
ASR Verarbeitung in dem Netzwerk 100 durch den Recognizer 204 im
wesentlichen unempfindlich gegenüber
akustischen Schwankungen ist, die durch die Anhebung oder Verstärkung verursacht werden.
Die Mel-LPC Cepstral-Merkmale werden dem Recognizer 204 angeboten,
der diese dann mit den Erkennungsmodellen vergleicht, die in dem Speicher 206 abgespeichert
sind, um das beste Wort oder Sequenz von Wörtern zu bestimmen, welches bzw.
die mit der phonetischen Einheit übereinstimmt, die durch die
berechneten Merkmale wiedergegeben wird. Ein geeigneter Recognizer
kann beispielsweise das gut bekannte versteckte Markov-Modell (HMM) verwenden,
welches auf den Erkennungstechniken basiert.
-
Es
sei darauf hingewiesen, daß eine
gewisse Vorkenntnis der eingeführten
Anhebung oder Verstärkung
wie beispielsweise der TrueVoicesm-Anhebung
erforderlich ist, um die Kompensation hinsichtlich der Anhebung
durchzuführen
unter Verwendung der Frequenzdomäne,
die für
die Sprachsignale repräsentativ
ist entsprechend der Technik nach der vorliegenden Erfindung. Diese
Informationen können allgemein
der Öffentlichkeit
zur Verfügung
stehen. Alternativ können
Informationen, welche die Anhebung oder Verstärkung betreffen, beispielsweise
unter Verwendung von Standard-Techniken
gemäß einem
empirischen Samplevorgang der Sprachsignale bestimmt werden, die über den
Netzwerkverbindungspfad übertragen
werden, der eine Sprachsignal-Anhebungs-Schaltungsanordnung enthält. Im Vergleich dazu
erforderten die herkömmlichen
Techniken der Cepstral-Mittelwertsubtraktion und der Signalvorspann-Beseitigung
keine Vorkenntnis der akustischen Schwankungen in den Sprachsignalen
und werden daher als auf einer blinden Entwindung basierende Techniken
betrachtet.
-
4 zeigt
ein Verfahren 220 zum Berechnen von Mel-LPC Cepstrum-Merkmalen
von angehobenen zeitvariablen Sprachsignalen an den Kompensations-Merkmal-Extrahierer 202 des
Prozessors 102 unter Verwendung der als Beispiel genannten Funktionsblöcke, die
in 3 gezeigt sind. Zum Zwecke der Veranschaulichung
sei angenommen, daß die
Sprachsignale digitalisiert sind und zwar in bevorzugter Weise bei
einer 8,0 kHz Rate zum Emulieren eines digitalen Telephonnetzwerks
bevor sie zu dem Extrahierer 202 geroutet werden. Gemäß 4 empfängt bei
dem Schritt 222 der Empfänger 211 die angehobenen
Sprachsignale von dem Verstärker 107.
Dann bei dem Schritt 224 verarbeitet der Vorverzerrer (preemphasizer) 212 die
digitalisierten Sprachsignalproben, um eine spektrale Glättung zu erzeugen.
Die Vorverzerrung wird in geeigneter Weise unter Verwendung von
beispielsweise eines herkömmlichen
digitalen Netzwerks erster Ordnung durchgeführt. Bei dem Schritt 226 sammelt
der Rahmenblocker 213 die Sprachsignalproben in Rahmen oder
bildet Blöcke
aus diesen. Ein einzelner Rahmen besteht aus Abschnitten von aufeinanderfolgenden Sprachproben,
die n msec des Signals entsprechen und es sind aufeinanderfolgende
Rahmen um n msec voneinander beabstandet. Bei dem Schritt 228 multipliziert
der Hamming-Multiplizierer 214 jeden Rahmen der Proben
durch ein Hamming-Fenster wie dies beim Sand der Technik üblich ist.
Bei dem Schritt 230 führt
der Frequenzdomäne-Konverter 215 eine
Fourier-Transformation an jedem im Fenster erscheinenden Segment
der Sprache durch, um einen Satz von Spektralproben zu generieren,
die den angehobenen Sprachsignalen entsprechen, die bei dem Empfänger 211 empfangen
werden.
-
Bei
dem Schritt 232 verarbeitet der Kompensator 216 jeden
Rahmen, um das Energiespektrum für
jeden Rahmen der Spektralproben zu veranlassen durch einen Satz
von M Mel-Filterbänke
hindurch zu laufen und dieser kann in geeigneter Weise eine dreieckförmige Gestalt
haben. Die Mel-Filterbänke sind
in geeigneter Weise gewichtet, um Effekte zu kompensieren, die die
Anhebung auf die Berechnung der Cepstral-Merkmale der übertragenen
Sprachsignale haben kann. Mit anderen Worten werden die Effekte
der Anhebung oder Verstärkung
der Sprachsignale bei dem Kompensator 216 kompensiert,
der Operationen an den Frequenzdomäne-Wiedergaben der angehobenen
oder verstärkten
Sprachsignale durchführt.
Es sei darauf hingewiesen, daß die Mel-LPC
Cepstrum-Berechnung dazu beiträgt,
daß die
Verstärkung
von jedem Spektralband vollständig gesteuert
werden kann. Dies erlaubt eine Kompensation der Sprachsignalanhebung
einfach dadurch, indem eine Wichtungsfunktion bei den Mel-Filterbänken vorgenommen
wird. Beispielsweise wird eine Kompensation der Sprachsignalanhebung
dadurch ausgeführt,
indem eine ideale Hochpaßfilterung
implementiert wird, indem solche unerwünschten Mel-Filterbänke einer
Nachentzerrung oder Höhenabsenkung
(de-emphasizing) vor der Berechnung der Cepstral-Merkmale aus der
Frequenzdomäne-Repräsentation
der Sprachsignale unter Verwendung der LPC Techniken vorgenommen wird.
Diese Wichtung von Datenwert-Koeffizienten in der Spektraldomäne ist extrem
vorteilhaft und sorgt für
die Berechnung von kompensierten Cepstral-Merkmalen der angehobenen
Sprachsignale, die in geeigneter Weise an Erkennungsmodelle angepaßt werden
können,
die nicht trainiert wurden und zwar unter Verwendung der angehobenen
Sprachsignale. Es sei darauf hingewiesen, daß die Cepstral-Merkmale, wenn
sie einmal berechnet wurden, in einer analogen Weise nicht gewichtet
werden können.
Es sei ferner darauf hingewiesen, daß solch eine Verarbeitung der angehobenen
Sprachsignale grob angenähert
werden kann, indem die angehobenen Sprachsignale gefiltert werden
während
sie sich noch in ihrer Zeitdomäne-Repräsentation
befinden.
-
Bei
der als Beispiel gewählten
Ausführungsform
des Netzwerks 100, bei dem eine TrueVoicesm-Anhebung
hinsichtlich der Sprachsignale durch den Verstärker 107 eingeführt wird,
werden Informationen, welche die Eigenschaften der True-Voicesm-Anhebung betreffen, dazu verwendet, um
die Wichtungen zu bestimmen, die bei den Mel-Filterbänken des Kompensators 216 angewendet
werden. Anhand von experimentellen Analysen wurde festgestellt,
daß die
True-Voicesm-Anhebung einen Filtervorgang
der Sprachsignale involviert hat unter Verwendung eines Preemphasis-Filters
(p-Filters) und Anwenden eines langsam variierenden AVC (automatischer
Volumen-Controller) an den Signalen und zwar dort, wo das p-Filter
einen 10–20
dB Spektral-Pol einführt
und zwar irgendwo in dem Frequenzband zwischen 150 Hz und 220 Hz.
In diesem Fall würden
die Mel-Filterbänke
die gewünschte Hochpaßfilterung
implementieren und zwar in der Frequenzdomäne, was dann zu einer Modifikation der
berechneten Cepstrum-Merkmale
führen
würde und
somit die Robustheit der Spracherkennungsqualität in Richtung auf einen niederfrequenten
Powerbootingvorgang (Leistungshochtreibvorgang) verbessert. Beispielsweise
kann Mel-Filterbänken
mit einer Frequenz unter 290 Hz eine Wichtung von Null zugeordnet
werden und Filterbänken
mit Frequenzen oberhalb von 290 Hz kann eine Wichtung der Einheit zugeordnet
werden. Mit anderen Worten wird die Wirkung der TrueVoicesm-Anhebung in Verbindung mit der Sprachsignalerkennung
dadurch minimiert werden, indem die Niederfrequenz-Mel-Spektralbänder nachentzerrt
werden (de-emphasizing), die bei der Berechnung des Mel-LPC-Cepstrums verwendet werden.
In bevorzugter Weise kann ein Schwellenwert von 290 Hz implementiert
werden und zwar derart, daß die
Mel-Bank-Frequenzbänder
unterhalb dieser Schwelle während
der Berechnung des Cepstrums nicht in Betracht gezogen werden. Diese Mel-LPC-Cepstrumverarbeitung
kann als eine ideale Hochpaßfilterung
betrachtet werden, bei der die Niederfrequenzbänder bis 290 Hz schwer gedämpft sind.
-
Gemäß 4 führt der
Cepstral-Merkmal-Computer 217 bei dem Schritt 234 eine
IDCT (inverse diskrete Kosinus-Transformation) durch und zwar in
Verbindung mit dem geglätteten
Energiespektrum, um Q-Autokorrelationskoeffizienten zu liefern,
wobei Q in geeigneter Weise auf 12 gesetzt wird. Bei dem Schritt 236 konvertiert
der Cepstral-Merkmal-Computer 217 jeden Satz der Autokorrelationskoeffizienten
zuerst in LPC Koeffizienten, und zwar unter Verwendung von beispielsweise
dem Durbinschen Rekursionsalgorithmus, und dann in Cepstralparameter
unter Verwendung der Standard-LPC-Zu-Cepstrum-Rekursion.
Das Abmaß oder Größe des Cepstralvektors
wird in geeigneter Weise auf 12 gesetzt. Schließlich bei dem Schritt 238 versucht
der Recognizer 204 die Erkennungsmodelle, die in dem Modellspeicher 206 gespeichert
sind, in Übereinstimmung
mit den berechneten Cepstral-Merkmalen zu bringen und zwar für die kompensierten
angehobenen Sprachsignale, und liefert Daten, die für die Merkmalsübereinstimmungsoperationen
repräsentativ
sind, um einen weiteren Routing-Vorgang zu der Station S2 durchzuführen, wie dies
auf dem Gebiet üblich
ist.
-
Es
sei darauf hingewiesen, daß die
Berechnungstechnik für
das Mel-LPC-Cepstrum-Merkmal eine
höhere
Robustheit gegenüber
Sprachanhebungen oder Verstärkungen
liefern kann und in einigen Fällen
die ASR Performance nicht nachteilig beeinflußt wird; selbst dann nicht,
wenn die Anhebung nicht eingeführt
worden ist und die Mel-LPC-Cepstrum-Merkmale für eine Kompensation einer bestimmten
Anhebung der Sprachsignale sorgen. Es sei darauf hingewiesen, daß unterschiedliche
Filter und Abfallfrequenzen verwendet werden können, um die Technik gemäß der vorliegenden
Erfindung zur Verwendung der Mel-Filterbankverarbeitung, um eine
Anhebung oder Verstärkung
von Sprachsignalen zu kompensieren, zu implementieren. Es sei ferner
drauf hingewiesen, daß für eine Signalanhebung, die
feine Modifikationen hinsichtlich des Sprachspektrums involviert,
ein robustes Frontende-System wie beispielsweise ein solches, welches
die Mel-LPC-Cepstrum-Merkmale berechnet, einen einfachen Zugriff
auf Spracherkennungssysteme bietet, um das Sprachspektrum in irgendeiner
Weise zu ändern,
was für
die Zwecke erforderlich ist, um Merkmale der Sprachsignale zu berechnen,
die mit Erkennungsmodellen übereinstimmen
müssen,
welche nicht unter Verwendung der angehobenen Sprachsignale trainiert
wurden.
-
Es
sei darauf hingewiesen, daß die
Ausführungsformen
und Abwandlungen, die hier gezeigt und oben beschrieben wurden,
lediglich die Prinzipien der Erfindung veranschaulichen, und daß vielfältige Abwandlungen
für Fachleute
möglich
sind, ohne dabei den Rahmen der Erfindung zu verlassen.