DE60000087T2

DE60000087T2 - Zuverlässigkeitswertung von dekodierten Signalblöcken zur Spracherkennung auf drahtlosen Ubertragungkanälen

Info

Publication number: DE60000087T2
Application number: DE60000087T
Authority: DE
Inventors: Alexandros Potamianos; Wolfgang Reichl; Vijitha Weerackody
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2000-04-24
Filing date: 2000-11-06
Publication date: 2002-09-12
Anticipated expiration: 2020-11-07
Also published as: EP1180764B1; EP1180764A1; JP4875249B2; US6760699B1; DE60000087D1; JP2001356792A

Description

Technisches Gebiet

Die vorliegende Erfindung betrifft allgemein das Gebiet der automatischen Spracherkennung und insbesondere ein Verfahren und eine Vorrichtung zur Bereitstellung einer verbesserten Spracherkennungssystemleistung in einem verteilten automatischen Spracherkennungssystem zur Verwendung über drahtlose Kanäle.

Allgemeiner Stand der Technik

Die Aufgabe der automatischen Spracherkennung umfaßt die automatisierte Identifizierung von Wörtern oder Phrasen, die von einer Person gesprochen wurden, typischerweise, damit ein automatisiertes System bestimmte (automatisierte) Aktionen als Reaktion darauf durchführen kann (z. B. um ein System durch Spracheingabe zu steuern). Bei einem Spracherkennungsszenario, das in letzter Zeit viel Aufmerksamkeit auf sich gelenkt hat, wird eine automatische Spracherkennung (ASR) in Umgebungen durchgeführt, die einen drahtlosen (z. B. zellularen) Kommunikationskanal verwenden. Diese ASR über drahtlose/zellulare Netze ist beim Entwurf drahtloser Multimediasysteme der nächsten Generation immer wichtiger geworden. Insbesondere gibt es heute bereits vielfältige Sprechdialogsystemanwendungen, die ASR- Technologie verwenden. Zu diesen gehören u. a. Personal Assistants, Sprachportale, Reise-Reservierungssysteme, Börseninformationssystem usw. und die Anzahl solcher Anwendungen, die spezifisch für die Verwendung zum Beispiel mit Mobilfernsprechern in Kraftfahrzeugen sowie für andere drahtlose Geräte implementiert werden, nimmt ebenfalls rasch zu.
Wenn automatische Spracherkennungsfunktionen in einer drahtlosen Umgebung angewandt werden sollten, wurde der gesamte Spracherkennungsvorgang herkömmlich in der Regel an das Empfangsende des Kommunikationskanals verlegt. Insbesondere wurden herkömmliche Sprachcodierungsverfahren verwendet, um die Sprache über den drahtlosen Kanal zu senden, und erst dann (am Empfangsende) wurde der Spracherkennungsvorgang durchgeführt und in der Regel erst nachdem die codierte Sprache am Empfangsende decodiert wurde. Genauer gesagt wurde im drahtlosen Gerät eine Codierung des Sprachsignals durchgeführt, das codierte Signal wurde über den drahtlosen Kanal übertragen, das Signal am Empfangsende des drahtlosen Kanals (z. B. in der Basisstation) decodiert, um die ursprüngliche Sprache zu "rekonstruieren", und als Letztes wurde der automatische Spracherkennungsvorgang an der rekonstruierten Sprache auf völlig herkömmliche Weise eingeleitet (d. h., als ob überhaupt keine Übertragung über einen drahtlosen Kanal durchgeführt worden wäre). In den meisten Fällen wurde dieser Ansatz aus Gründen der Notwendigkeit eingesetzt, da der Rechenaufwand bei der Durchführung des Spracherkennungsvorgangs in dem drahtlosen Gerät selbst zu groß war.
In letzter Zeit wurde jedoch ein besonders interessanter Ansatz für das Problem der ASR über einen drahtlosen Kanal versucht, bei dem ein sogenanntes "verteiltes" ASR-System verwendet wird. Mit "verteilt" ist hier gemeint, daß die Funktionen, die durchgeführt werden müssen, um den Spracherkennungsvorgang zu bewirken, aufgeteilt werden und sich separat an den beiden "Enden" des drahtlosen Kanals befinden - wobei sich ein Teil der Funktionen am Senderende des Kanals (z. B. im drahtlosen Gerät selbst) und ein anderer Teil am Empfangsende des drahtlosen Kommunikationskanals (z. B. in der Basisstation) befindet. Durch einen solchen Ansatz können Benutzer kostspielige Betriebsmittel auf einem zentralen Server teilen, der gewöhnlich beträchtliche Verarbeitungsleistung und Speicher bereitstellt. Außerdem ermöglicht der verteilte Systementwurf eine zentrale Installation und Wartung von ASR-Software und befreit den Benutzer von schwierigen Installations- und Wartungsprozeduren. Der alternative Ansatz der Durchführung der Spracherkennung lokal in dem drahtlosen Gerät vergrößert die Rechen-, Leistungs- und Speicheranforderungen für das Gerät signifikant und begrenzt die Portierbarkeit zwischen Sprachen und Anwendungsbereichen. Mit der heutigen Technologie können in dem Handgerät nur Spracherkennungssysteme mit sehr beschränktem Vokabular, wie zum Beispiel sprechertrainierte Namenwahl, praktisch verankert sein, während der größte Teil der Anwendungen auf dem Netzserver verankert sein muß.
Genauer gesagt extrahiert gemäß einem solchen verteilten ASR-Szenario ein kleines Client-Programm, das in dem drahtlosen Gerät abläuft, repräsentative Parameter des Sprachsignals (die gewöhnlich in der Technik der ASR als "Merkmale" bezeichnet werden) aus dem mobilen Endgerät und sendet diese Parameter über den drahtlosen Kanal zu einem Spracherkennungsserver. Dieser Server kann zum Beispiel ein Multi-Benutzer- Server sein, der Spracherkennungsaufgaben für mehrere verschiedene mobile Endgeräte durchführt. Bei jedem Fall wird im Server die automatische Spracherkennung auf der Grundlage dieser Merkmale auf ansonsten herkömmliche Weise durchgeführt, wie zum Beispiel durch Verwendung von Hidden-Markov-Modellen (HMMs), was alles Durchschnittsfachleuten völlig vertraut ist.
Zusätzlich entsteht eine der wohlbekannten Komplexitäten der drahtlosen Kommunikationstechnologie im allgemeinen durch das Problem von Übertragungsfehlern, die unweigerlich auftreten, wenn Daten über einen drahtlosen Kanal übertragen werden. Als Folge wurde dem Problem der Fehlererkennung und Fehlerkorrektur in einer drahtlosen Übertragungsumgebung in letzter Zeit sehr viel Aufmerksamkeit gewidmet. Genauer gesagt wurden vielfältige Kanalcodierungsverfahren entwickelt, die jeweils verschiedene Grade des Fehlerschutzes und der Korrekturfähigkeit bei gegebenen Kosten an zusätzlichen Bit, die über den drahtlosen Kanal übertragen werden müssen, bereitstellen. Obwohl dieses Problem ausführlich untersucht wurde, ist es unweigerlich der Fall, daß das Ziel solcher Fehlermilderungsstrategien darin besteht, die Auswirkungen solcher Übertragungsfehler zu Anfang zu erkennen und dann, wenn möglich, zu beseitigen. In vielen Fällen können diese Fehler jedoch nicht vollständig beseitigt werden. Stattdessen können dem drahtlosen Empfänger (z. B. der Basisstation) übertragene Daten mit fragwürdiger Zuverlässigkeit vorgelegt werden. In solchen Fällen würden drahtlose Systeme im Stand der Technik (für ASR- Zwecke oder nicht) in der Regel entweder annehmen, daß die Daten korrekt sind (obwohl erkannt wurde, daß eine signifikante Wahrscheinlichkeit besteht, daß sie es nicht sind) oder andernfalls die Daten als völlig unzuverlässig und deshalb als "verloren" (oder "gelöscht") betrachten und sie deshalb einfach verwerfen.

Kurze Darstellung der Erfindung

Gemäß den Prinzipien der vorliegenden Erfindung wurde festgestellt, daß bestimmte Kanalcodierungsverfahren vorteilhafterweise nicht nur Fehlererkennungs- und -korrekturfähigkeiten bereitstellen können, sondern auch probabilistische Informationen bezüglich der Wahrscheinlichkeit, daß ein gegebener Teil der Daten genau zu einem bestimmten Wert decodiert wurde. Genauer gesagt können solche Verfahren verwendet werden, um probabilistische Genauigkeitsinformationen für die decodierten Bit bereitzustellen. Auf der Grundlage dieser Erkennung liefert die vorliegende Erfindung ein Verfahren und eine Vorrichtung zur Durchführung der automatischen Spracherkennung in einem verteilten ASR- System zur Verwendung in einem drahtlosen Kanal, wobei solche probabilistischen Informationen ausgenutzt werden. Das heißt, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden Genauigkeitswahrscheinlichkeiten für die decodierten Merkmale vorteilhafterweise berechnet und verwendet, um die Spracherkennungsleistung unter schlechten Kanalbedingungen (d. h. beim Vorliegen von Übertragungsfehlern oder -verlusten) zu verbessern.
Genauer gesagt und gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die Bitfehlerwahrscheinlichkeiten für jedes der Bit, mit denen ein gegebenes ASR-Merkmals codiert wird, verwendet, um den Konfidenzwert zu berechnen, den das System in dem decodierten Wert dieses Merkmals annehmen kann. Merkmale, die mit hoher Wahrscheinlichkeit verfälscht wurden, werden vorteilhafterweise nicht verwendet oder allgemeiner bei der Berechnung der akustischen Distanz durch die Spracherkennungsvorrichtung geringer gewichtet. Dieser neuartige Ansatz für die akustische Decodierung wird hier als "Soft-Merkmalsdecodierung" bezeichnet und erzeugt drastische Verbesserungen der ASR-Leistung unter bestimmten ungünstigen Kanalbedingungen.
Genauer gesagt liefert die vorliegende Erfindung ein Verfahren und eine Vorrichtung zur Durchführung der automatischen Spracherkennung mit den folgenden Schritten: Empfangen einer Menge codierter Sprachmerkmale, wobei die codierten Sprachmerkmale über einen Kommunikationskanal übertragen wurden; Decodieren der Menge codierter Spachmerkmale, um eines oder mehrere decodierte Sprachmerkmale und eines oder mehrere diesen zugeordnete Wahrscheinlichkeitsmaße zu erzeugen, wobei jedes Wahrscheinlichkeitsmaß eine Abschätzung einer Wahrscheinlichkeit umfaßt, daß das diesem entsprechende decodierte Sprachmerkmal genau übertragen und decodiert wurde; und Durchführen der Spracherkennung auf der Grundlage des einen oder der mehreren decodierten Sprachmerkmale und des einen oder der mehreren diesen zugeordneten Wahrscheinlichkeitsmaße.

Kurze Beschreibung der Zeichnungen

Fig. 1 zeigt ein Blockschaltbild eines beispielhaften automatischen Spracherkennungssystems zur Verwendung über einen drahtlosen Kanal, in dem die Soft- Merkmalsdecodierung vorteilhafterweise verwendet wird.
Fig. 2 zeigt ein Diagramm, das beispielhaft den Prozeß der Umsetzung einer ursprünglichen Merkmalsmenge in eine Soft-Merkmalsmenge gemäß einem Ausführungsbeispiel des beispielhaften automatischen Spracherkennungssystems von Fig. 1 zeigt.

Ausführliche Beschreibung

Übersicht eines beispielhaften ASR-Systems mit Soft- Merkmalsdecodierung

Gemäß einer beispielhaften Spracherkennungssystemausführungsform der vorliegenden Erfindung werden repräsentative Parameter, die für Spracherkennungszwecke geeignet sind, aus dem Sprachsignal extrahiert und quantisiert, um eine Quellenbitrate von 6 kb/s (Kilobit pro Sekunde) zu ergeben. Man beachte, daß verschiedene Teile des Bitstroms, der aus diesen Sprachparametern erhalten wird, verschiedene Empfindlichkeitswerte gegenüber Übertragungsfehlern aufweisen können. Deshalb kann ein beliebiges von mehreren Fehlerschutzverfahren, die ungleiche Grade des Fehlerschutzes für verschiedene Segmente des Bitstroms geben, vorteilhafterweise verwendet werden. Die Gesamtbitrate des codierten Bitstroms gemäß dem hier beschriebenen Ausführungsbeispiel beträgt 9,6 kb/s. Experimente zur Untersuchung dieses beispielhaften Codex wurden über vielfältige drahtlose Kanäle durchgeführt (wie zum Beispiel Gaussche und verschiedene korrelierte Rayleigh-Kanäle), und diese Experimente haben die zufriedenstellende Leistung des Systems für typische Spracherkennungsaufgaben, sogar im Fall ungünstiger Kanalbedingungen, demonstriert.
Gemäß den Prinzipien der vorliegenden Erfindung und gemäß ihrem Ausführungsbeispiel werden die "Soft- Ausgaben" des Kanaldecodierers vorteilhafterweise verwendet, um die Leistung des Spracherkennungssystems zu verbessern. Genauer gesagt erhält man aus dem Decodierungsprozeß vorteilhafterweise den Konfidenzwert für jedes decodierte Bit, und dieser Konfidenzwert wird dann verwendet, um die Konfidenz für die decodierten ASR-Merkmale abzuschätzen. Auf der Grundlage dieser Konfidenzwerte kann die Wichtigkeit jedes Merkmals in dem Spracherkennungsalgorithmus vorteilhafterweise gewichtet werden.
Genauer gesagt zeigt Fig. 1 ein Blockschaltbild eines beispielhaften automatischen Spracherkennungssystems zur Verwendung über einen drahtlosen Kanal, bei dem die Soft-Merkmalsdecodierung vorteilhafterweise verwendet wird. Das System enthält beispielsweise ein drahtloses Gerät 10, einen drahtlosen Übertragungskanal 14 und eine Basisstation 19. Gemäß den Prinzipien der vorliegenden Erfindung wird Eingangssprache, die dem drahtlosen Gerät 10 zugeführt wurde, durch ein Merkmalsextraktionsmodul 11 verarbeitet, um dieser Spracherkennungsmerkmale zu entnehmen. Die Spracherkennungsmerkmale können herkömmliche akustische Merkmale umfassen (d. h. die typischerweise von herkömmlichen Spracherkennungssystemen verwendet werden), wie zum Beispiel Cepstral-Koeffizienten auf der Grundlage einer LPC-Analyse (Linear Predictive Coding), sowie eines Signalenergieparameters. Die Identifikation oder Extraktion solcher Parameter (d. h. Merkmale) ist völlig herkömmlich und Durchschnittsfachleuten wohlbekannt. (Siehe unten für eine ausführliche Beschreibung von Merkmalsmengen, die vorteilhafterweise gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das hier beschrieben wird, ausgewählt werden können.)
Sobald die Merkmale extrahiert wurden, führt das Merkmalsquantisierungsmodul 12 einen herkömmlichen Codierungsprozeß (d. h. eine Quantisierung) an diesen Daten durch, was zum Beispiel einen herkömmlichen Skalarquantisierer umfassen kann, der Durchschnittsfachleuten ebenfalls vertraut ist. (Eine ausführlichere Besprechung möglicher Quantisierungsverfahren, die gemäß einem Ausführungsbeispiel der vorliegenden Erfindung vorteilhafterweise verwendet werden können, wird nachfolgend angegeben.) Als Letztes werden die resultierenden Bit (aus dem Merkmalsquantisierungsmodul 12) von dem Kanalcodierungsmodul 13 codiert, das ein beliebiges von mehreren herkömmlichen Kanalcodierungsverfahren anwenden kann, die Durchschnittsfachleuten vertraut sind. Insbesondere ist es gemäß dem Ausführungsbeispiel der vorliegenden Erfindung vorteilhaft, eines von mehreren möglichen Verfahren mit ungleichem Fehlerschutz (UEP) zu benutzen, wobei diese Verfahren Durchschnittsfachleuten vertraut sind. (Es werden später mehrere solche beispielhafte Verfahren ausführlicher beschrieben.)
Die codierten Bit, die sich aus dem Kanalcodierungsmodul 13 ergeben und die eine codierte quantisierte Darstellung der gewählten Merkmale bilden, werden dann beispielsweise von dem drahtlosen Gerät 10 über den drahtlosen Kanal 14 zur Verarbeitung zu der Basisstation 19 gesendet. Genauer gesagt werden die übertragenen Daten in der Basisstation 19 und gemäß einem Ausführungsbeispiel der vorliegenden Erfindung zunächst durch ein Kanaldecodierungsmodul 15 decodiert, um sowohl eine Menge decodierter Bit als auch entsprechende Bitkonfidenzinformationen zu erzeugen. Solche Decodierungsverfahren sind herkömmlich und Fachleuten vertraut und liefern probabilistische decodierte Bitinformationen im Gegensatz zu den traditionelleren Decodierungsverfahren (wie zum Beispiel eine einfache Viterbi-Decodierung), die nur den wahrscheinlichsten Bitwert liefern (ohne jegliche Informationen bezüglich der Wahrscheinlichkeit der Genauigkeit des decodierten Bitwerts).
Auf der Grundlage der decodierten Bit aus dem Kanaldecodierungsmodul 15 werden vorteilhafterweise die Merkmale durch das Merkmalswiedergewinnungsmodul 16, das völlig herkömmlich und Fachleuten vertraut ist, wiedergewonnen (d. h. die Bit werden wieder zu Merkmalsdaten zusammengestellt). Gleichzeitig werden jedoch gemäß den Prinzipien der vorliegenden Erfindung und gemäß ihrem Ausführungsbeispiel, das hier beschrieben wird, die Bitkonfidenzwerte, die von dem Kanaldecodierungsmodul 15 bestimmt werden, vorteilhafterweise durch das Bit-zu-Merkmal-Konfidenzumsetzungsmodul 17 in Merkmalskonfidenzwerte umgesetzt. Danach werden sowohl die resultierenden Merkmale (die durch das Merkmalswiedergewinnungsmodul 16 bestimmt werden) als auch die Merkmalskonfidenzwerte (die von dem Bit-zu-Merkmal-Konfidenzumsetzungsmodul 17 berechnet werden) der Spracherkennungsvorrichtung 18 zugeführt, die eine Spracherkennung der ursprünglichen Eingangssprache (die dem drahtlosen Gerät 10 zugeführt wurde) auf der Grundlage sowohl der Merkmale als auch ihrer entsprechenden Konfidenzwerte durchführt.

Eine beispielhafte Menge von Merkmalen und ein beispielhafter Quantisierungsprozeß

Die unter Verwendung eines normalen Sprachcodierungsalgorithmus gewonnenen Sprachparameter sind nicht unbedingt die besten Parameter für Spracherkennungszwecke. Zusätzlich verbrauchen Sprachcodierer gewöhnlich eine signifikante Menge von Bit für die Übertragung des Anregungs- oder LPC- Restsignals, obwohl diese Informationen für Spracherkennungszwecke überhaupt nicht nützlich sind. Die Erfinder konzentrieren sich deshalb auf die Entnahme und Übertragung nur von Sprachparametern, die spezifisch für Spracherkennungszwecke ausgewählt wurden.
Viele verfügbare Spracherkennungssysteme verwenden Cepstral-Merkmale, die Fachleuten vertraut sind, zur Signalparametrisierung. Es handelt sich um eine kompakte und robuste Sprachdarstellung, die sich für distanzgestützte Klassifizierer gut eignet, und sie können aus einer Mel-Filterbankanalyse oder einem LPC- Ansatz (lineare Prädiktion) berechnet werden, wobei alles Durchschnittsfachleuten völlig vertraut ist. Gemäß dem hier beschriebenen beispielhaften automatischen Spracherkennungssystem sind die akustischen Merkmale, die für die Spracherkennung verwendet werden, die 12 Cepstral-Koeffizienten c&sub1;, c&sub2;, ... C&sub1;&sub2;, die alle 10 ms auf der Grundlage einer herkömmlichen LPC-Analyse der Ordnung 10 zusammen mit der Gesamtsignalenergie e berechnet werden. Die Signalabtastrate beträgt vorteilhafterweise 8000 Hz, und es wird vorteilhafterweise ein Hamming-Fenster mit 240 Abtastwerten verwendet. Somit bildet diese Menge von Merkmalen alle 10 ms einen 13-dimensionalen Vektor, der die akustische Eingabe für das beispielhafte automatische Spracherkennungssystem umfaßt.
Für Datenübertragungszwecke werden alle 13 Merkmale vorteilhafterweise skalarquantisiert. Es kann ein einfacher ungleichförmiger Quantisierer verwendet werden, um die Quantisierungszellen zu bestimmen. Der Quantisierer verwendet vorteilhafterweise die empirische Verteilungsfunktion als die Compandierungsfunktion, so daß Abtastwerte gleichförmig in den Quantisierungszellen verteilt werden. Ein beispielhafter Algorithmus, der verwendet werden kann, ist eine einfache nicht-iterative Approximation des Lloydschen Algorithmus, der Fachleuten vertraut ist, der nicht notwendigerweise das Quantisierungsrauschen minimiert. Eine bessere Leistung läßt sich durch Verwendung eines k-Mittelwert-Algorithmus erzielen, der Fachleuten ebenfalls vertraut ist und auf den gesamten Merkmalsvektor (d. h. die Vektorquantisierung) angewandt wird. Man beachte, daß die nachfolgend beschriebenen Fehlerschutz- und Versteckungsalgorithmen in Verbindung mit vielfältigen Quantisierungsverfahren verwendet werden können.
Bei einer automatischen Spracherkennung gemäß den Prinzipien der vorliegenden Erfindung können vielfältige verschiedene Bitzuteilungsverfahren verwendet werden, die jeweils für Fachleute offensichtlich sind. Zum Beispiel besteht ein mögliches vorteilhaftes Verfahren darin, der Signalenergie e und jedem der fünf signifikantesten Cepstral-Merkmale c&sub1;, ... c&sub5; sechs Bit zuzuweisen, während jedem der nächsten sechs signifikantesten Cepstral-Merkmale c&sub6;, ... c&sub1;&sub1; vier Bit zugewiesen werden. Empirische Tests haben keine wesentliche Leistungsverschlechterung für die bewertete Aufgabe gezeigt, wenn der letzte (d. h. der 12.) Cepstral-Koeffizient c&sub1;&sub2; mit seinem festen vorberechneten Mittelwert ersetzt wird. c&sub1;&sub2; enthält deshalb für den Spracherkennungsprozeß nur minimale relevante Informationen, und somit können ihm vorteilhafterweise keine Bit zugeteilt werden. Im Empfänger kann c&sub1;&sub2; einfach wieder auf seinen festen vorberechneten Mittelwert gesetzt werden, und der standardmäßige 13-dimensionale Merkmalsvektor kann dann während der Erkennung verwendet werden. Die Gesamtzahl von Bit für dieses beispielhafte Bitzuteilungsverfahren beträgt 60 Bit pro 10-ms-Rahmen, so daß eine uncodierte Datenrate von 6 kb/s über den drahtlosen Kanal übertragen werden muß.

Ein beispielhaftes Übertragungssystem

Die Auswirkungen verschiedener Sprachcodierungsalgorithmen auf die Leistung der automatischen Spracherkennung wurde ausführlich untersucht. Insbesondere wurde im allgemeinen für verteilte drahtlose Spracherkennungssysteme eine starke Verschlechterung der ASR-Leistung festgestellt, insbesondere bei Fehlern bei der drahtlosen Übertragung, die in Stößen auftreten können. Aufgrund der schnellen Schwankungen der Empfangssignalstärke kann die Mobilfunkumgebung ein sehr schwieriger Kanal für die Datenübertragung sein. Für die Übertragung von ASR-Parametern wird deshalb ein spezielles Kanalfehlerschutzverfahren vorteilhafterweise verwendet, um die Bandbreiten- und Leistungseffizienz zu verbessern. Die vor Kanalfehlern geschützten Sprachparameter bilden einen Spracherkennungscodex, der sich bei dem drahtlosen Endgerät und bei der Basisstation befindet. Das beispielhafte System, das in Fig. 1 gezeigt und hier beschrieben wird, versucht, einen effizienten Spracherkennungscodex für vielfältige verschiedene Kanalbedingungen bereitzustellen. Außerdem ist es sehr wünschenswert, die Neuübertragung von Sprachparametern im Fall von Übertragungsfehlern zu vermeiden, da dadurch eine zusätzliche Verzögerung in das Systemansprechverhalten eingeführt und die spektrale Effizienz vermindert wird.
Man beachte insbesondere, daß die 60 Bit, die gemäß dem hier beschriebenen beispielhaften Merkmalsquantisierungsverfahren für jeden 10-ms-Sprachrahmen bereitgestellt werden, vorteilhafterweise mit verschiedenen Graden des Fehlerschutzes versehen werden können. Verfahren mit ungleichem Fehlerschutz (UEP) für Sprachcodierungsanwendungen sind Durchschnittsfachleuten wohlbekannt und wurden in der Literatur und in bestimmten Normen ausführlich untersucht. In Verbindung mit dem vorliegenden beispielhaften ASR- System wurden mehrere UEP-Verfahren untersucht, und es werden hier insbesondere drei Verfahren vorgestellt.
Wie bereits erwähnt, beträgt die Datenrate für quantisierte Sprachparameter gemäß dem hier beschriebenen beispielhaften ASR-System 6 kb/s. Auf der Grundlage u. a. einer der Datenraten, die in der nordamerikanischen Zellularnorm IS-95 verwendet werden, verwendet das beispielhafte ASR-System, das hier beschrieben wird, eine Datenrate von 9,6 kb/s für das codierte Signal mit dem Modulationsformat der binären Phasenumtastung (DPSK), das Fachleuten vertraut ist. Man beachte, daß das bei einer Datenrate von 9,6 kb/s eingeführte Kanal-Overhead mäßig ist, und wenn eine gegebene Anwendung niedrigere codierte Bitraten erfordert, können vorteilhafterweise trelliscodierte Modulationsverfahren mit Modulationen höherer Ordnung, die ebenfalls Fachleuten vertraut sind, verwendet werden. Man beachte außerdem, daß ein herkömmliches Differenzmodulationsverfahren vorteilhafterweise verwendet werden kann, um den Demodulationsprozess zu vereinfachen.
Bei langsam schwindenden Kanälen ist es vorteilhaft, einen großen Verschachteler zu verwenden, um die Systemleistung zu verbessern. Große Verschachteler führen jedoch Verzögerungen ein, und dies kann in bestimmten Echtzeitanwendungen unerwünscht sein. Gemäß dem hier beschriebenen beispielhaften ASR-System wurde vorteilhafterweise für Verschachtelungs- und Kanalcodierungszwecke ein 80-ms-Rahmen bzw. 8-Sprachrahmen gewählt. Die Gesamtverschachtelungs- und Entschachtelungsverzögerung beträgt deshalb 160 ms, und dieser Betrag kann bei typischen drahtlosen Spracherkennungsanwendungen leicht toleriert werden.
Gemäß dem hier beschriebenen beispielhaften ASR-System sind die 12 Sprachparameter, die vorteilhafterweise in einem 10-ms-Sprachrahmen "geschützt" werden sollen, der Energieparameter e und die 11 Ceptstral-Koeffizienten c&sub1;(n), c&sub2; (n), ... c&sub1;&sub1; (n), wobei "n" den Sprachrahmenindex bezeichnet. Offensichtlich ist es vorteilhaft, die signifikanteren Bit der obigen Parameter mit einem besseren Kanalfehlerschutz zu versehen. Außerdem wurde bestimmt, daß der Energieparameter e am empfindlichsten gegenüber Quantisierungsrauschen und gegenüber zufälligen Übertragungsfehlern ist, und es folgen dann zunächst die Cepstral-Koeffizienten c&sub1;(n), ... c&sub5;(n) und dann die Cepstral-Koeffizienten c&sub6;(n), ... c&sub1;&sub1;(n). Da die beispielhafte kanalcodierte Bitrate 9,6 kb/s beträgt, liegt die Gesamtzahl codierter Bit in einem 80-ms- kanalcodierten Rahmen bei 768.
Gemäß einem ersten beispielhaften Verfahren mit ungleichem Fehlerschutz, das hier als UEP 1 bezeichnet wird, betrachte man drei Grade des Kanalfehlerschutzes, die als L1, L2 und L3 bezeichnet werden. Um den signifikantesten Bit von L1 einen höheren Fehlerschutzgrad zu geben, wird L1 außerdem vorteilhafterweise in zwei Werte aufgeteilt - L1_1 und L1_2. Die Zuweisung der Bit für verschiedene Grade des ungleichen Fehlerschutzsystems (UEP) ist in der folgenden Tabelle angegeben:
In der obigen Notation bedeuten e&sup0;(n), e¹(n), ... die Bit von e(n) in absteigender Reihenfolge der Signifikanz (und ähnlich bei den Cepstral-Koeffizienten). Wie aus der obigen Tabelle ersichtlich ist, beträgt die Anzahl von Bit pro Sprachrahmen L1, L2 und L3 13, 2 4 bzw. 2 3. In diesem Fall enthält L1_1 die Bit, von denen bestimmt worden ist, daß sie die wichtigsten 7 Bit sind, und diese werden vorteilhafterweise mit einem zyklischen äußeren (12,7)-Code (der Durchschnittsfachleuten völlig vertraut ist) und mit einem inneren Faltungscode (der Durchschnittsfachleuten ebenfalls völlig vertraut ist) geschützt. Bei einem Ausführungsbeispiel der vorliegenden Erfindung kann der zyklische (12,7)-Code nur verwendet werden, um Fehler zu erkennen, was bei der Fehlerversteckung im Empfänger nützlich ist. Gemäß einem anderen Ausführungsbeispiel der vorliegenden Erfindung kann jedoch eine zusätzliche Empfängerkomplexität bereitgestellt werden, so daß es möglich wird, diesen Code auch für die Fehlerkorrektur zu verwenden. L1_2 enthält beispielsweise die nächsten 6 wichtigen Bit. Ein Code mit Rate-1/2, Speicher 8, wird für Bit des Werts L1 verwendet, und somit beträgt die Gesamtzahl codierter Bit für die 8 Sprachrahmen für den L1-Wert 288.
Der Wert L2 enthält beispielsweise die nächsten 24 wichtigen Bit und für den Wert L2 wird vorteilhafterweise ein mit Rate-2/3 ratenkompatibler punktierter Faltungscode (RCPC-Code) verwendet. Die Gesamtzahl codierter L2-Wert-Bit für die 8 Sprachrahmen, einschließlich des 8-Bit-Endteils beträgt beispielsweise 300. Die am wenigsten wichtigen Bit befinden sich in L3, und diese können vorteilhafterweise ohne jegliche Kanalcodierung übertragen werden. Um die Gesamtzahl von Bit nach der Codierung in 8 Sprachrahmen auf 768 zu halten, werden weiterhin 4 Bit aus den codierten L2-Wert-Bit punktiert. Die Kanalcodierung wird vorteilhafterweise so durchgeführt, daß L1_1-Wert-Bit L1_2-Wert-Bit und dann L2-Wert-Bit folgen. Man beachte, daß wegen des RCPC-Codes der Rate-1/2-Code nicht abgeschlossen wird und deshalb diese Bit von L1_2, die von dem L2-Wert um weniger als eine Decodierungstiefe des Kanalcodes getrennt sind, nicht dem gewöhnlichen Rate-1/2- Muttercode ausgesetzt werden. Am Kanalcodierereingang werden die L1_2-Wert-Bit für die 8 Sprachrahmen n, (n+1), ... (n+7) folgendermaßen angeordnet:
e²(n),e²(n+1), ... e²(n+7); c¹&sub1;(n), c¹&sub1;(n+1), ... c¹&sub1;(n+7); ... ; c¹&sub5;(n), c¹&sub5;(n+1), ... c¹&sub5;(n+7)
Wie bereits erwähnt, wurde bestimmt, daß die Koeffizienten c&sub1;(n) signifikanter als c&sub5;(n) sind und deshalb diese Bitanordnung vorteilhafterweise Bit mit niedrigerer Signifikanz in Richtung des Endes des L1_2- Rahmens anordnet, das einem weniger leistungsstarken Code als dem gewöhnlichen Rate-1/2-Muttercode ausgesetzt wird.
Gemäß einem zweiten beispielhaften Verfahren mit ungleichem Fehlerschutz, das hier als UEP2 bezeichnet wird, wird der äußere Code vorteilhafterweise von den L1_1-Wert-Bit in dem UEP1-Verfahren gemäß der obigen Beschreibung entfernt. Dadurch kann man einen stärkeren Code auf L2-Wert-Bit anwenden. Die L1_1-Wert-Bit erhalten jedoch nicht denselben starken Fehlerschutz, da die Fehlererkennungs- und Korrekturfähigkeit des äußeren Codes fehlt. Die Bitzuweisung für L1, L2 und L3, mit Ausnahme des Fehlerschutzes, ist beispielsweise dieselbe wie für das UEP1-Verfahren.
Mit einem Rate-1/2-Faltungscode beträgt die Gesamtzahl codierter Bit in 8 Sprachrahmen aus L1-Wert-Bit beispielsweise 208. Für die 200 L2-Bit (einschließlich des 8-Bit-Endteils) kann vorteilhafterweise ein Rate- 1/2-Code mit 24 punktierten Bit verwendet werden, um 376 codierte Bit zu ergeben. Mit den 184 uncodierten L3-Bit beträgt die Gesamtzahl codierter Bit in 8 Sprachrahmen dann beispielsweise 768. Die L1_2-Bit können vorteilhafterweise wie bei dem UEP1-Verfahren angeordnet werden, wobei die L1_1-Bit den L1_2-Bit vorausgehen.
Und gemäß einem dritten beispielhaften Verfahren mit ungleichem Fehlerschutz, das hier als UEP3 bezeichnet wird, werden die Bit vorteilhafterweise so neu angeordnet, daß die signifikantesten Bit (MSBs) aller Merkmalskomponenten im Wert L1 gruppiert werden. Man beachte erstens, daß (wie bereits erwähnt) die Merkmalskomponenten e(n) und c&sub1;(n) ... Cg(n) die wichtigsten sind und außerdem, daß bei den beiden oben beschriebenen Fehlerschutzverfahren die beiden MSBs jeder dieser Komponenten im Wert L1 liegen. Man beachte jedoch außerdem, daß die MSBs von c&sub6;(n), ... c&sub1;&sub1;(n) ebenfalls wichtige Parameter sind. Somit kann es vorteilhaft sein, die MSBs aller Merkmalskomponenten in L1 anzuordnen. Genauer gesagt ist die Bitanordnung in der folgenden Tabelle gezeigt:
Wie aus dieser Tabelle ersichtlich ist, sind zugewiesene L1_1-Bit dieselben wie die bei dem UEP1- Verfahren, und sie werden durch einen äußeren (12,7)- Code und einen inneren Code mit Rate-1/2, Speicher 8, der UEP1 gleicht, geschützt. Wie bei dem UEP1-Verfahren wird ein Rate-2/3-Code auf die Wert-L2-Bit angewandt und die Wert-L3-Bit werden nicht codiert.
Es seien a(n) die Sprachbits am Eingang des Kanalcodierers und b(n) das Kanalcodiererausgangssignal. Dann wird b(n) vorteilhafterweise über 768 Symbole hinweg, die über 80 ms auftreten, verschachtelt, und dann differenzcodiert, so daß man folgendes erhält:
u(n) = d(n)d(n - 1), (1)
wobei d(n) das Verschachtelerausgangssignal ist. Das Basisband-äquivalente Empfangssignal kann folgendermaßen geschrieben werden:
y(n) = A (n)u(n) + < (n) (2)
wobei A die Senderamplitude, 3(n) die komplexe Kanalverstärkung und < (n) die Komponente des additiven weißen Gausschen Rauschens (AWGN) ist. Man beachte außerdem, daß für einen Kanal mit Rayleigh-Fading (n) eine korrelierte komplexe Gaussche Variable ist, für die folgendes gilt:
E{ (n) (n + k)} = J&sub0;(2B(ν/8)kT), (3)
wobei v, 8 und T die Mobilgeschwindigkeit, die Wellenlänge des HF-Trägers bzw. die Symbolintervalldauer ist. Im Empfänger wird y(n) vorteilhafterweise zunächst differenzcodiert, dann entschachtelt und schließlich Viterbi-decodiert. Das Ausgangssignal â(n) des Viterbi-Decodierers wird vorteilhafterweise zu dem Spracherkennermodul gesendet.

Eine beispielhafte Soft-Merkmalsfehlerversteckungsprozedur

Um die nachteiligen Effekte von Übertragungsfehlern zu überwinden, umfassen übliche Fehlerversteckungsstrategien häufig das Wiederholen zuvor empfangener Rahmen oder eine Parameterinterpolation. Diese Techniken können dabei helfen, zufällige Bitfehler zu reparieren, versagen jedoch für in Stößen auftretende Fehler, die bei Kanälen mit Fading sehr wahrscheinlich auftreten. Gemäß den Prinzipien der vorliegenden Erfindung wird in dem hier beschriebenen beispielhaften ASR-System eine neuartige Fehlerversteckungstechnik bereitgestellt, die auf "Soft-Ausgaben" aus dem Kanaldecodierer für die ASR-Einheit basiert. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird der Maximum-a-posteriori-Algorithmus (MAP- Algorithmus) verwendet, der Durchschnittsfachleuten vertraut ist. Durch Verwendung dieses herkömmlichen Verfahrens kann die a-posteriori-Wahrscheinlichkeit der Genauigkeit jedes decodierten Bit vorteilhafterweise bestimmt werden. Danach verwendet die ASR-Einheit vorteilhafterweise diese Informationen, um eine verbesserte Spracherkennungsleistung auf der Grundlage einer ansonsten herkömmlichen Spracherkennungsvorrichtung zu erzielen.
Genauer gesagt erzeugt der Empfänger für jede der 12 decodierten SprachMerkmalskomponenten einen zusätzlichen Wert, der die Konfidenz angibt, daß diese Komponente korrekt decodiert wurde. Insbesondere werden gemäß einem Ausführungsbeispiel der vorliegenden Erfindung zwei Konfidenzbit für jedes der 12 Merkmalse erzeugt - dabei entspricht das erste und das zweite Bit dem ersten bzw. zweiten MSB jedes Merkmals. Genauer gesagt (und gemäß diesem Ausführungsbeispiel) nehme man an, daß â(n) die relevanten MSB-Bit am Kanaldecodiererausgang sind. Der MAP-Decodierer liefert vorteilhafterweise die Wahrscheinlichkeit pi(n) = Prob {â(n) = i}, i = 0, 1, wobei p&sub0;(n) + p&sub1;(n) = 1 ist. Man gebe eine Schwelle T(> 0, 5) an. Dann beträgt der Konfidenzwert 7i(n) = 1, wenn pi(n) > T ist; und 7i(n) = 0 andernfalls. Mit dieser beispielhaften Zuweisung ist bei einem Konfidenzwert in der Nähe von 1 das entsprechende Bit mit einer sehr hohen Wahrscheinlichkeit korrekt, und wenn der Konfidenzwert nahe bei 0 liegt, wird das übertragene Bit durch eine Löschung dargestellt. Diese resultierenden 1-Bit-quantisierten Konfidenzwerte 7i(n) für jedes der beiden MSBs der 12 Merkmalskomponenten werden vorteilhafterweise zusammen mit dem entsprechenden kanaldecodierten Bitstrom zu dem Spracherkennungsmodul gesendet.
Bei einem Ausführungsbeispiel der vorliegenden Erfindung verwirft die Fehlerversteckungsstrategie übertragene Merkmalse, die wahrscheinlich fehlerhaft sind, und verwendet nur die zuverlässigen für Wahrscheinlichkeitsberechnungen in der Spracherkennungsvorrichtung. Das heißt, es kann dann ein reduzierter Merkmalsvektor verwendet werden, der nur auf den Komponenten basiert, die einen hohen Konfidenzwert aufweisen. Bei einem Spracherkennungssystem auf der Grundlage eines Hidden- Markov-Modells (HMM) werden die beobachteten Merkmalsvektoren zum Beispiel vorteilhafterweise durch zustandsspezifische Wahrscheinlichkeitsverteilungen p(x/s) modelliert, wobei x der Merkmalsvektor und s der Zustand des Modells ist. (Hidden-Markov-Modelle und auf ihnen basierende Spracherkennungsverfahren sind Durchschnittsfachleuten völlig vertraut.) Herkömmliche Spracherkennungsvorrichtungen auf HMM-Basis verwenden gewöhnlich eine Mischung Gausscher Dichten für jeden Zustand des Phonem- (oder Triphon-)spezifischen HMM. In einem solchen Fall ist die reduzierte Verteilung für den zuverlässigen Teil des Merkmalssvektors vorteilhafterweise die marginale Verteilung, die durch Integrieren über alle unzuverlässigen Komponenten folgendermaßen bestimmt wird:
p(xrel s) = p(x s)dxunrel (4)
wobei xrel, xunrel die zuverlässige bzw. unzuverlässige Komponente des Merkmalvektors sind. Die Verwendung der marginalen Verteilung der zuverlässigen Komponenten für die HMM-Wahrscheinlichkeitsberechnung ist eines der Verfahren zur Verbesserung der Robustheit von Spracherkennungsvorrichtungen in rauschbehafteten Umgebungen, die Fachleuten bekannt sind und häufig als die "Theorie fehlender Merkmale" bezeichnet werden. (Man beachte, daß zwar für herkömmliche Spracherkennunganwendungen in rauschbehafteten Umgebungen die Etikettierung unzuverlässiger spektraler Merkmale eine große Herausforderung sein kann, gemäß der vorliegenden Erfindung jedoch die Zuverlässigkeit jedes Merkmals vorteilhafterweise durch den Kanaldecodierer bereitgestellt wird.) Insbesondere kann man mit einer Modellierung mit Gausscher Mischung und diagonaler Covarianz (die Durchschnittsfachleuten vertraut ist) die reduzierte Wahrscheinlichkeitsfunktion leicht berechnen, indem man einfach unzuverlässige Komponenten aus der vollständigen Wahrscheinlichkeitsberechnung wegfallen läßt. Man beachte, daß die Verwendung dieses Ansatzes vorteilhafterweise nur eine unwesentliche Modifikation bestehender Spracherkennungsalgorithmen erfordert.
Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden sowohl die übertragenen Merkmale als auch aus ihnen abgeleitete zusätzliche Merkmalse vorteilhafterweise von der Spracherkennungsvorrichtung verwendet. Zum Beispiel können neben den übertragenen Merkmalen (d. h. dem Energiemerkmal und den 12 Cepstrum- Merkmalen) selbst, glatte erste und zweite Ableitungen dieser, die hier als "delta"-Merkmale bzw. "delta- delta"-Merkmale bezeichnet werden, berechnet und beim Spracherkennungsprozeß verwendet werden. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das nur zuverlässig empfangene Merkmale verwendet und diejenigen, die unzuverlässig sein können, verwirft, kann genauer gesagt deshalb die folgende Strategie vorteilhafterweise verwendet werden:
(1) Für Energie- und Cepstrum-Merkmale, wenn das erste oder das zweite Bit mit einem Konfidenzwert von 0 empfangen wurde, diese nicht bei der Wahrscheinlichkeitsberechnung verwenden (d. h. gemäß der obigen Gleichung marginalisieren); und
(2) für "delta" und "delta-delta"-Merkmale, wenn das erste oder das zweite Bit eines beliebigen der Merkmale in dem für die delta- oder delta-delta-Berechnung verwendeten Fenster mit einem Konfidenzwert 0 empfangen wurde, das entsprechende delta- oder delta-delta- Merkmals bei der Wahrscheinlichkeitsberechnung nicht benutzen.
Fig. 2 zeigt ein Diagramm, das den oben beschriebenen Prozeß zur Umsetzung einer ursprünglichen Merkmalsmenge in eine Soft-Merkmalsmenge gemäß diesem Ausführungsbeispiel des automatischen Spracherkennungssystems von Fig. 1 veranschaulicht. Aus der Figur geht hervor, daß die ursprüngliche Merkmalsmenge beispielsweise das Energiemerkmals 21, die Cepstrum-Merkmale 22-1 bis 22-12, das delta- Energie-Merkmal 23, delta-Cepstrum-Merkmale 24-1 bis 24-12, das delta-delta-Energiemerkmal 25 und delta- delta-Cepstrum-Merkmale 26-1 bis 26-12 enthält. Gemäß diesem Ausführungsbeispiel werden vorteilhafterweise fünf- und sieben-Rahmen-Fenster für die delta bzw. delta-delta-Berechnung verwendet. Genauer gesagt, werden die delta-Merkmalswerte für den Rahmen n vorteilhafterweise auf der Grundlage der Rahmen n-2, n- 1, n, n+1 und n+2 berechnet. Ähnlich werden die deltadelta-Merkmalswerte für den Rahmen n vorteilhafterweise auf der Grundlage der Rahmen n-3, n-2, n-1, n, n+1, n+2 und n+3 berechnet (Verfahren zur Berechnung der deltas aus der ursprünglichen Merkmalsmenge sind im allgemeinen in der Technik wohlbekannt und für Durchschnittsfachleute auf diesem Gebiet offensichtlich.) In dem Beispiel, das in dem Diagramm gezeigt ist, ist zu beachten, daß bestimmte dieser Merkmale (z. B. das Cepstrum-Merkmal 22-1, das delta- Cepstrum-Merkmal 24-12, das delta-delta-Cepstrum- Merkmal 26-1 und das delta-delta-Cepstrum-Merkmal 26- 12) als durch falsche MSBs gemäß der im Diagramm dargestellten Prozedur marginalisiert gezeigt sind.

Eine beispielhafte Soft-Merkmalsgewichtungsprozedur

Gemäß einem weiteren Ausführungsbeispiel können Merkmalskomponenten bei der Wahrscheinlichkeitsberechnung vorteilhafterweise durch ihre Konfidenzwerte gewichtet werden. In diesem Fall erhält man aus dem Decodierungsprozeß kontinuierliche Konfidenzwerte zwischen 0 und 1, und der Beitrag jedes Merkmals zu der Wahrscheinlichkeitsberechnung des Spracherkennermoduls kann vorteilhafterweise durch seinen entsprechenden Konfidenzwert skaliert werden. Das heißt, bei der Anwendung dieses Fehlerversteckungsansatzes werden die ASR-Merkmale auf "softe" Weise verwendet, wobei jede Komponente mit dem Wert der Konfidenz, daß sie genau decodiert wurde, gewichtet wird.
Genauer gesagt werden gemäß dem Soft- Merkmalsdecodierungsprozess Gewichte vorteilhafterweise auf jedes Merkmal in der Wahrscheinlichkeitsberechnung in der Spracherkennungsvorrichtung angewandt. Unter der Annahme, daß die Zustandsbeobachtungswahrscheinlichkeitsdichtefunktion (pdf) eine Mischung Gausscher pdfs mit Diagonal-Covarianz ist, gilt:
wobei x der Merkmalsvektor, N die Größe des Merkmalsvektors, M die Anzahl Gausscher Mischungen pro Zustand und Wm, :m und φm das Mischungsgewicht, der Mittelwert bzw. die Standardabweichung für die m-te Gaussche für den HMM-Zustand s sind. Unter der Annahme, daß Cn die dem n-ten Merkmals zugeordnete Konfidenz ist, modifiziert das im Decodierer angewandte Gewichtungsverfahren vorteilhafterweise die Zustandsbeobachtungswahrscheinlichkeitsberechnung folgendermaßen:
wobei f(Cn) eine Funktion der Konfidenz Cn ist. Man beachte, daß C eine Funktion der Zeit ist und vorteilhafterweise mit der Rahmenrate, d. h. so oft wie x, aktualisiert wird. Unter der Annahme, daß die Konfidenz auf eine Zahl zwischen 0 und 1 normiert wird, lautet eine mögliche Form der Funktion f(C) dann (C) = ( + 1)/( + C), und die obige Gleichung wird zu:
wobei eine Glättungskonstante ist, die zum Beispiel experimentell so bestimmt werden kann, daß der Fehler an einer ausgehaltenen Datenmenge minimiert wird. Man beachte, daß für sehr große Werte von alle Merkmale mehr oder weniger gleichmäßig gewichtet werden (d. h. die Konfidenz C wird praktisch ignoriert), während für kleine Werte von nur Merkmale mit einem hohen Konfidenzwert (d. h. Cn in der Nähe von 1) bei der Beobachtungswahrscheinlichkeitsberechnung betrachtet werden. Alle anderen Aspekte des Decodierungsprozesses, mit Ausnahme der Merkmalsgewichtung bei der Zustandsbeobachtungswahrscheinlichkeitsberechnung, bleiben vorteilhafterweise unverändert von den oben in Verbindung mit dem Ausführungsbeispiel der vorliegenden Erfindung, das nur zuverlässig empfangene Merkmale verwendet und diejenigen, die unzuverlässig sein können, verwirft, beschriebenen.

Zusätzliche Eigenschaften des beispielhaften ASR- Systems

Gemäß dem hier beschriebenen beispielhaften ASR-System können die 12 LPC-abgeleiteten Cepstral-Koeffizienten, die Signalenergie und die ersten und zweiten Zeitableitungen dieser Komponenten vorteilhafterweise alle als akustische Merkmale in dem Spracherkennungsmodul verwendet werden. Der Cepstral- Mittelwert für jede Sprachäußerung kann vorteilhafterweise berechnet und entfernt werden, bevor die Erkennung durchgeführt wird. Die Cepstral- Koeffizienten und die Signalenergie können vorteilhafterweise im mobilen Endgerät berechnet und zu der Basisstation gesendet werden und dann im Empfänger rekonstruiert, mit den Konfidenzwerten für die Soft- Merkmalsfehlerversteckung (gemäß den Prinzipien der vorliegenden Erfindung) ergänzt und dann schließlich zu dem netzgestützten Spracherkennungsserver gesendet werden, in dem die ersten und zweiten Zeitableitungen vorteilhafterweise erzeugt und zu der übertragenen Merkmalsmenge hinzugefügt werden können.
Die akustischen Modelle für die Spracherkennung können mit einer Sammlung von zum Beispiel Datenbasen in englischer Sprache trainiert werden, die beispielsweise über das öffentliche Fernsprechnetz gesammelt werden. Das Spracherkennermodul kann dann auf HMMs mit kontinuierlicher Dichte basieren. Und die durch die HMMs modellierten akustischen Einheiten können zustandsgeclusterte Triphon-Modelle sein, die drei emittierende Zustände und eine links-nach-rechts- Topologie aufweisen.

Addendum für die ausführliche Beschreibung

Es wurden oben lediglich die Prinzipien der Erfindung veranschaulicht. Es versteht sich somit, daß Fachleute in der Lage sein werden, verschiedene Anordungen zu konzipieren, die zwar hier nicht explizit beschrieben oder gezeigt wurden, aber dennoch die Prinzipien der Erfindung realisieren und in dem Schutzumfang der Erfindung eingeschlossen sind, der durch die angefügten Ansprüche definiert wird. Außerdem sollen alle hier angeführten Beispiele und alle hier angeführte Bedingungssprache hauptsächlich ausdrücklich nur pädagogischen Zwecken dienen, um dem Leser das Verständnis der Prinzipien der Erfindung und der von den Erfindern beigetragenen Konzepte zur Erzielung eines Fortschritts der Technik zu erleichtern und sollen nicht als auf solche spezifisch angeführten Beispiele und Bedingungen beschränkt aufgefaßt werden. Außerdem sollen alle hier angeführten Aussagen, die Prinzipien, Aspekte und Ausführungsformen der Erfindung sowie spezifische Beispiele für diese anführen, sowohl strukturelle als auch funktionsmäßige Äquivalente dieser umfassen. Außerdem ist beabsichtigt, daß solche Äquivalente sowohl zur Zeit bekannte Äquivalente als auch in der Zukunft entwickelte Äquivalente umfassen - d. h. alle entwickelten Elemente, die ungeachtet der Struktur dieselbe Funktion durchführen.
Somit ist zum Beispiel für Fachleute erkennbar, daß die hier vorgestellten Blockschaltbilder Konzeptansichten von beispielhaften Schaltkreisen darstellen, die die Prinzipien der Erfindung realisieren. Ähnlich versteht sich, daß alle Flußpläne, Flußdiagramme, Zustandsübergangsdiagramme, alle Erzeugercode und dergleichen verschiedene Prozesse darstellen, die auf geeignete Weise in einem computerlesbaren Medium dargestellt und durch einen Computer oder Prozessor ausgeführt werden können, gleichgültig, ob ein solcher Computer oder Prozessor explizit gezeigt ist oder nicht.
Die Funktionen der in den Figuren gezeigten verschiedenen Elemente, darunter Funktionsblöcke, die als "Prozessoren" oder "Module" bezeichnet sind, können durch Verwendung eigener Hardware oder durch Verwendung von Hardware, die Software ausführen kann, in Verbindung mit geeigneter Software, bereitgestellt werden. Bei Bereitstellung durch einen Prozessor können die Funktionen durch einen eigenen, fest zugeordneten Prozessor, durch einen einzigen gemeinsam benutzten Prozessor oder durch mehrere einzelne Prozessoren bereitgestellt werden, von denen manche gemeinsam benutzt werden können. Außerdem sollte die explizite Verwendung des Begriffs "Prozessor" oder "Steuerung" nicht als sich ausschließlich auf Hardware, die Software ausführen kann, beziehend aufgefaßt werden, und kann implizit ohne Einschränkung Hardware für digitale Signalverarbeitung (DSP), Nur-Lese-Speicher (ROM) zum Speichern von Software, Direktzugriffsspeicher (RAM) und nicht flüchtige Speicher einschließen. Außerdem kann andere, herkömmliche und/oder kundenspezifische Hardware mit eingeschlossen werden. Ähnlich sind alle in den Figuren gezeigten Schalter nur Konzepte. Ihre Funktion kann durch den Betrieb von Programmlogik, durch eigene Logik, durch Wechselwirkung von Programmsteuerung und eigener Logik oder sogar manuell ausgeführt werden, wobei das konkrete Verfahren von dem Implementierer so gewählt werden kann, wie es sich spezifischer aus dem Kontext versteht.
In den vorliegenden Ansprüchen soll jedes Element, das als ein Mittel zur Durchführung einer spezifizierten Funktion ausgedrückt wird, jede beliebige Art der Durchführung dieser Funktion einschließen, darunter zum Beispiel (a) eine Kombination von Schaltungselementen, die diese Funktion durchführen, oder (b) Software in beliebiger Form, darunter daher Firmware, Microcode oder dergleichen, kombiniert mit entsprechenden Schaltkreisen zur Ausführung dieser Software, um die Funktion durchzuführen. Die Erfindung, die durch diese Ansprüche definiert wird, ist in dem Umstand begründet, daß die von den verschiedenen angeführten Mitteln bereitgestellten Funktionen so kombiniert und zusammengebracht werden, wie es die Ansprüche angeben.

Claims

1. Verfahren zur Durchführung automatischer Spracherkennung, mit den folgenden Schritten:

Empfangen einer Menge codierter Sprachmerkmale, wobei die codierten Sprachmerkmale über einen Kommunikationskanal übertragen wurden;

Decodieren der Menge codierter Sprachmerkmale, um eines oder mehrere decodierte Sprachmerkmale und eines oder mehrere diesen zugeordnete Wahrscheinlichkeitsmaße zu erzeugen, wobei jedes Wahrscheinlichkeitsmaß eine Abschätzung einer Wahrscheinlichkeit umfaßt, daß das diesem entsprechende decodierte Sprachmerkmal genau übertragen und decodiert wurde, und

Durchführen der Spracherkennung auf der Grundlage des einen oder der mehreren decodierten Sprachmerkmale und des einen oder der mehreren diesen zugeordneten Wahrscheinlichkeitsmaße.

2. Verfahren nach Anspruch 1, wobei der Kommunikationskanal einen drahtlosen Kommunikationskanal umfaßt.

3. Verfahren nach Anspruch 2, wobei die Menge codierter Sprachmerkmale gemäß der nordamerikanischen Zellularnorm IS-95 mit einer Datenrate von 9,6 kb/s über den drahtlosen Kommunikationskanal übertragen wurde.

4. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale einen oder mehrere Cepstral-Koeffizienten auf der Grundlage einer linear-prädiktiven Codierungsanalyse umfaßt.

5. Verfahren nach Anspruch 4, wobei die Menge codierter Sprachmerkmale weiterhin eine Signalenergiekomponente umfaßt.

6. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale ein oder mehrere Sprachmerkmale umfaßt, die durch Verwendung eines ungleichförmigen Skalarquantisierers quantisiert wurden.

7. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale mehrere Sprachmerkmale umfaßt, die vektorquantisiert wurden.

8. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale durch Verwendung eines Verfahrens mit ungleichem Fehlerschutz codiert wurde.

9. Verfahren nach Anspruch 8, wobei das Verfahren mit ungleichem Fehlerschutz die Verwendung von CRC (cyclic redundancy code) umfaßt.

10. Verfahren nach Anspruch 8, wobei das Verfahren mit ungleichem Fehlerschutz die Verwendung eines Faltungscodes umfaßt.

11. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale differenzcodiert wurde und wobei der Schritt des Decodierens der Menge codierter Sprachmerkmale den Schritt des Differenzdecodierens der Menge codierter Sprachmerkmale umfaßt.

12. Verfahren nach Anspruch 1, wobei die Menge codierter Sprachmerkmale vor der Übertragung verschachtelt wurde und wobei der Schritt des Decodierens der Menge codierter Sprachmerkmale den Schritt des Entschachtelns der Menge codierter Sprachmerkmale umfaßt.

13. Verfahren nach Anspruch 1, wobei der Schritt des Decodierens der Menge codierter Sprachmerkmale das Durchführen einer Viterbi-Decodierung dieser umfaßt, um das eine oder die mehreren decodierten Sprachmerkmale zu erzeugen.

14. Verfahren nach Anspruch 1, wobei der Schritt des Decodierens der Menge codierter Sprachmerkmale die folgenden Schritte umfaßt:

Bestimmen eines oder mehrerer Bitkonfidenzwerte, die einem oder den mehreren entsprechenden Bit der empfangenen Menge der codierten Sprachmerkmale zugeordnet sind, und

Erzeugen des einen oder der mehreren Wahrscheinlichkeitsmaße, die den decodierten Sprachmerkmalen zugeordnet sind, auf der Grundlage des einen oder der mehreren Bitkonfidenzwerte.

15. Verfahren nach Anspruch 14, wobei der Schritt des Bestimmens des einen oder der mehreren Bitkonfidenzwerte durch Verwendung eines Maximum-a- posteriori-Algorithmus erzielt wird.

16. Verfahren nach Anspruch 1, wobei der Schritt des Durchführens von Spracherkennung durch Verwendung eines oder mehrerer Hidden-Markov-Modelle mit stetiger Dichte durchgeführt wird.

17. Verfahren nach Anspruch 1, wobei der Schritt des Durchführens von Spracherkennung auf der Grundlage nur derjeniger des einen oder der mehreren decodierten Sprachmerkmale durchgeführt wird, die aufgrund des Überschreitens einer vorbestimmten Schwelle durch das diesen zugeordnete Wahrscheinlichkeitsmaß als zuverlässig angesehen werden.

18. Verfahren nach Anspruch 1, wobei der Schritt des Durchführens von Spracherkennung weiterhin auf einer oder mehreren Sprachmerkmalableitungen basiert, wobei die Sprachmerkmalableitungen auf der Grundlage einer entsprechenden zeitlich geordneten Folge von mehreren der decodierten Sprachmerkmale bestimmt werden.

19. Verfahren nach Anspruch 18, wobei der Schritt des Durchführens von Spracherkennung nur auf der Grundlage derjeniger der einen oder der mehreren Sprachmerkmalableitungen durchgeführt wird, die auf der Grundlage der Wahrscheinlichkeitsmaße, die den mehreren der decodierten Sprachmerkmale in der entsprechenden zeitlich geordneten Folge zugeordnet sind, als zuverlässig angesehen werden.

20. Verfahren nach Anspruch 1, wobei der Schritt des Durchführens von Spracherkennung das Gewichten jedes des einen oder der mehreren decodierten Sprachmerkmale auf der Grundlage des diesen zugeordneten entsprechenden Wahrscheinlichkeitsmaßes umfaßt.

21. Vorrichtung zur Durchführung automatischer Spracherkennung, umfassend:

ein Mittel zum Empfangen einer Menge codierter Sprachmerkmale, wobei die codierten Sprachmerkmale über einen Kommunikationskanal übertragen wurden;

ein Mittel zum Decodieren der Menge codierter Sprachmerkmale, um eines oder mehrere decodierte Sprachmerkmale und eines oder mehrere diesen zugeordnete Wahrscheinlichkeitsmaße zu erzeugen, wobei jedes Wahrscheinlichkeitsmaß eine Abschätzung einer Wahrscheinlichkeit umfaßt, daß das ihm entsprechende decodierte Sprachmerkmal genau übertragen und decodiert wurde, und

ein Mittel zum Durchführen von Spracherkennung auf der Grundlage des einen oder der mehreren decodierten Sprachmerkmale und des einen oder der mehreren diesen zugeordneten Wahrscheinlichkeitsmaße.

22. Vorrichtung nach Anspruch 21, wobei der Kommunikationskanal einen drahtlosen Kommunikationskanal umfaßt.

23. Vorrichtung nach Anspruch 22, wobei die Menge codierter Sprachmerkmale gemäß der nordamerikanischen Zellularnorm IS-95 mit einer Datenrate von 9,6 kb/s über den drahtlosen Kommunikationskanal übertragen wurde.

24. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale einen oder mehrere Cepstral-Koeffizienten auf der Grundlage einer linear-prädiktiven Codierungsanalyse umfaßt.

25. Vorrichtung nach Anspruch 24, wobei die Menge codierter Sprachmerkmale weiterhin eine Signalenergiekomponente umfaßt.

26. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale ein oder mehrere Sprachmerkmale umfaßt, die durch Verwendung eines ungleichförmigen Skalarquantisierers quantisiert wurden.

27. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale mehrere Sprachmerkmale umfaßt, die vektorquantisiert wurden.

28. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale durch Verwendung eines Verfahrens mit ungleichem Fehlerschutz codiert wurde.

29. Vorrichtung nach Anspruch 28, wobei das Verfahren mit ungleichem Fehlerschutz die Verwendung von CRC umfaßt.

30. Vorrichtung nach Anspruch 28, wobei das Verfahren mit ungleichem Fehlerschutz die Verwendung eines Faltungscodes umfaßt.

31. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale differenzcodiert wurde und das Mittel zum Decodieren der Menge codierter Sprachmerkmale ein Mittel zum Differenzdecodieren der Menge codierter Sprachmerkmale umfaßt.

32. Vorrichtung nach Anspruch 21, wobei die Menge codierter Sprachmerkmale vor der Übertragung verschachtelt wurde und wobei das Mittel zum Decodieren der Menge codierter Sprachmerkmale ein Mittel zum Entschachteln der Menge codierter Sprachmerkmale umfaßt.

33. Vorrichtung nach Anspruch 21, wobei das Mittel zum Decodieren der Menge codierter Sprachmerkmale ein Mittel zum Durchführen einer Viterbi-Decodierung dieser umfaßt, um das eine oder die mehreren decodierten Sprachmerkmale zu erzeugen.

34. Vorrichtung nach Anspruch 21, wobei das Mittel zum Decodieren der Menge codierter Sprachmerkmale folgendes umfaßt:

ein Mittel zum Bestimmen eines oder mehrerer Bitkonfidenzwerte, die dem einen oder den mehreren entsprechenden Bit der empfangenen Menge codierter Sprachmerkmale zugeordnet sind, und

ein Mittel zum Erzeugen des einen oder der mehreren Wahrscheinlichkeitsmaße, die den decodierten Sprachmerkmalen zugeordnet sind, auf der Grundlage des einen oder der mehreren Bitkonfidenzwerte.

35. Vorrichtung nach Anspruch 34, wobei das Mittel zum Bestimmen des einen oder der mehreren Bitkonfidenzwerte durch Verwendung eines Maximum- a-posteriori-Algorithmus erzielt wird.

36. Vorrichtung nach Anspruch 21, wobei das Mittel zum Durchführen von Spracherkennung durch Verwendung eines oder mehrerer Hidden-Markov-Modelle mit stetiger Dichte durchgeführt wird.

37. Vorrichtung nach Anspruch 21, wobei das Mittel zum Durchführen von Spracherkennung auf der Grundlage nur derjeniger des einen oder der mehreren decodierten Sprachmerkmale durchgeführt wird, die aufgrund des Überschreitens einer vorbestimmten Schwelle durch das diesen zugeordnete Wahrscheinlichkeitsmaß als zuverlässig angesehen werden.

38. Vorrichtung nach Anspruch 21, wobei das Mittel zum Durchführen von Spracherkennung weiterhin auf einer oder mehreren Sprachmerkmalableitungen basiert, wobei die Sprachmerkmalableitungen auf der Grundlage einer entsprechenden zeitlich geordneten Folge von mehreren der decodierten Sprachmerkmale bestimmt werden.

39. Vorrichtung nach Anspruch 38, wobei das Mittel zum Durchführen von Spracherkennung nur auf der Grundlage derjeniger der einen oder der mehreren Sprachmerkmalsableitungen durchgeführt wird, die auf der Grundlage der Wahrscheinlichkeitsmaße, die den mehreren der decodierten Sprachmerkmale in der entsprechenden zeitlich geordneten Folge zugeordnet sind, als zuverlässig angesehen werden.

40. Vorrichtung nach Anspruch 21, wobei das Mittel zum Durchführen von Spracherkennung ein Mittel zum Gewichten jedes des einen oder der mehreren decodierten Sprachmerkmale auf der Grundlage des diesen zugeordneten entsprechenden Wahrscheinlichkeitsmaßes umfaßt.