DE102004017486A1

DE102004017486A1 - Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Info

Publication number: DE102004017486A1
Application number: DE102004017486A
Authority: DE
Inventors: Tim Dr. Fingscheidt; Sorel Dr. Stan
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 2004-04-08
Filing date: 2004-04-08
Publication date: 2005-10-27
Also published as: EP1733384A1; US20070198255A1; WO2005098827A1

Abstract

Verfahren zur Geräuschreduktion (NC) bei einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: Erfassen des Sprach-Eingangssignals (SS); Zugreifen auf eine festgelegte Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers; Verringern eines Geräuschanteils im Sprach-Eingangssignal (SS) auf Basis mittels der festgelegten Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers.

Description

Die Erfindung betrifft ein Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal eines Sprechers sowie eine Vorrichtung zur Durchführung des Verfahrens.
Spracherkennung wird eingesetzt, um die Bedienung von elektrischen Geräten, insbesondere solche, bei denen die Benutzeroberfläche miniaturisiert ist, zu erleichtern. Um eine Spracherkennung zur ermöglichen, muss ein sogenanntes akustisches Modell erstellt werden. Dazu werden Sprachkommandos trainiert. Dieses Training kann beispielsweise für den Fall einer sprecherunabhängigen Spracherkennung schon werkseitig erfolgen. Unter "Training" wird dabei verstanden, dass auf der Basis von mehrfachem Sprechen eines Sprachkommandos sogenannte, das Sprachkommando beschreibende Merkmalsvektoren bzw. "Feature Vectors" erstellt werden. Diese Merkmalsvektoren, die auch Prototypen genannten werden, werden dann in dem akustischen Modell, beispielsweise einem sogenannten "Hidden Markov Modell" HMM gesammelt.
Das akustische Modell dient dazu, einer gegebenen Folge von aus dem Vokabular ausgewählten Sprachkommandos bzw. Wörtern, die Wahrscheinlichkeit der beobachteten Merkmalsvektoren während der Erkennung zu ermitteln.
Zur Spracherkennung bzw. Erkennung der fließenden Sprache wird neben einem akustischen Modell auch ein sogenanntes Sprachmodell benutzt, das die Wahrscheinlichkeit des Aufeinanderfolgens einzelner Wörter in der zu erkennenden Sprache angibt.
Ziel von derzeitigen Weiterentwicklungen bei der Spracherkennung ist es, die Spracherkennungsrate zu erhöhen, d.h. die Wahrscheinlichkeit zu erhöhen, dass ein von einem Benutzer des elektrischen Gerätes, beispielsweise eines mobilen Kommunikationsgerät wie einem Mobiltelefon, gesprochenes Wort oder Sprachkommando auch als dieses erkannt wird.
Da Spracherkennung vielseitig eingesetzt wird, erfolgt die Benutzung auch in Umgebungen, die durch Geräusch gestört sind. In diesem Fall sinken die Spracherkennungsraten drastisch, da die im akustischen Modell, beispielsweise dem HMM befindlichen Merkmalsvektoren auf Basis von reiner, d.h. nicht mit Rauschen behafteter Sprache erstellt bzw. "trainiert" wurden.
Dies führt zu einer unbefriedigenden Spracherkennung in lauten Umgebungen, wie etwa auf der Strasse, in vielbesuchten Gebäuden oder auch im Auto.
Um die Robustheit gegenüber Umgebungsgeräuschen zu erhöhen, wird derzeit bei automatischen Spracherkennungssystemen (ASR, "Automatic Speech Recognition"), die auf HMMs basieren zwei Wege eingeschlagen, nämlich 1) die Adaption des HMMS und 2) die Kompensationsmethoden in der Merkmalsvektordomäne. Dazu ist folgendes anzumerken:

1. Die Adaption des HMMs oder allgemein des Modells, die beispielsweise über einer lineare Maximum-Likelihood-Regression Methode (MLLR, "Maximum Likelihood Linear Regression") ist keine geeignete Methode für die Kompensation von Umgebungsgeräusch bei automatischer Spracherkennung in mobilen Kommunikationsgeräten. Dies kommt daher, dass das mobile Gerät in einer Vielzahl von Umgebungen verwendet wird und die Adaption an eine Umgebung zwangsläufig zu einer schlechten Anpassung an eine andere Umgebung führt.
2. Kompensationsmethoden in der Merkmalsvektordomaine können auf vielfältige Art und Weise realisiert werden. Ein einfacher Weg ist die Anwendung akustischer Verbesserungsmethoden bzw. "Audio Enhancement Technics", wie beispielsweise eine Wiener Filterung oder spektrale Subtraktion. Diese zielen darauf ab, aus dem Powerspektrum geräuschbehafteter Sprache das Powerspektrum rauschfreier Sprache bzw. "clean speech" zu gewinnen. Auf Basis des bereinigten Power Spectrums werden dann Merkmalsvektoren berechnet, die der Spracherkennung unterzogen werden.

Alternativ dazu gibt es eine Vielzahl weiterer Kompensationsmethoden in der Merkmalsdomaine, beispielsweise Taylor Vektor Reihen ("Vector Taylor series" VTS), Vector polynom Approximationen (Vector polynomial approximations" VPS) oder interaktive multiple Modelle ("Interacting Multiple Models" IMM).
Nachteil dieses zweiten Ansatzes zur Verbesserung der Robustheit gegenüber Umgebungsgeräusch ist der hohe rechnerische Aufwand, der insbesondere die Anwendung in Kommunikationsgeräten mit begrenzten Prozessor- und Speicherresourcen behindert.
Ausgehend von diesem Stand der Technik ist es Aufgabe der Erfindung, eine Möglichkeit zu schaffen, Spracherkennung auch in geräuschbehafteten Umgebungen mit einer hohen Spracherkennungsrate durchzuführen.
Diese Aufgabe wird durch die unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
Es ist Kern der Erfindung, die Geräuschreduktion nicht in Bezug auf die Umgebung durchzuführen, sondern in Bezug auf den jeweiligen Sprecher. Es zeigt sich, dass damit unabhängig von der Umgebung und damit dem Umgebungsgeräusch, eine Verbesserung der Spracherkennung erzielt werden kann.
Dazu wird das Sprach-Eingangssignal eines Sprechers, z.B. des Benutzers eines bestimmten Kommunikationsgerätes, erfasst und mittels einer auf einer Sprachcharakteristik dieses Sprechers basierenden Geräuschreduktion bereinigt. Dadurch werden gute Ergebnisse bei beliebigen Umgebungen und zugleich relativ geringer Rechenkomplexität erzielt.
Die Sprachcharakteristik des Sprechers kann durch eine geeignete mathematische Modellierung des Sprachsignals des Sprechers, welches über einen längeren Zeitraum erfasst wird, abgeleitet werden. Dazu wird beispielsweise das Sprachsignal durch eine parametrisierte Funktion beschrieben. Mittels der Parameter werden Verzerrungen aufgrund des Rauschens beim Sprach-Eingangssignal korrigiert.
Die Erfindung betrifft ferner die Anwendung des Verfahrens für ein Spracherkennungssystem sowie ein Kommunikationsgerät, mit dem dieses Verfahren durchgeführt wird.
Weitere Vorteile der Erfindung werden anhand ausgewählter Ausführungsbeispiele mittels Figuren beschrieben.
Es zeigen
1: Ein Kommunikationsgerät mit einer Spracherkennungseinrichtung;
2: Ein Modell für geräuschbehaftete Sprache
3: den Ablauf einer Spracherkennung aus einem Sprach-Eingangssignal,
4 den Ablauf einer Merkmalsvektorextraktion,
5 die Erstellung einer Sprachcharakteristik sowie eines sprecherabhängigen Vokabulars (Training),
6 die Erstellung einer sprecherabhängigen Beschreibung auf Basis der Sprachcharakteristik und einer sprecherunabhängigen Beschreibung,
7 eine Spracherkennung unter Verwendung einer sprecherspezifischen Geräuschreduktion und eines sprecherspezifischen bzw. abhängigen Vokabulars.
1
In 1 ist ein Kommunikationsgerät CD mit einer Spracherkennungseinheit SR dargestellt. Bei dem Kommunikationsgerät CD kann es sich beispielsweise um ein Mobilfunkendgerät, einen PDA oder andere insbesondere personalisierte, d.h. hauptsächlich einem Benutzer zugeordnete, Kommunikationsgeräte handeln.
Das Kommunikationsgerät CD weist eine Benutzeroberfläche UI auf, mittels der der Benutzer das Kommunikationsgerät bedienen kann. Bei der Benutzeroberfläche UI handelt es sich beispielsweise eine Tastatur, Touch-Screen, oder auch mittel zur Spracheingabe. Dazu weist die Benutzeroberfläche weiterhin ein Mikrofon M zum Erfassen eines akustischen Signals die eines Sprachsignals auf.
Zum Austausch von Daten weist das Kommunikationsgerät weiterhin eine Übertragungsschnittstelle ANT auf. Bei der Übertragungsschnittstelle kann es sich um einen drahtgebundenen oder drahtlosen Anschluss an ein Kommunikationssystem handeln. Insbesondere handelt es sich bei der Übertragungsschnittstelle ANT um eine Antenne.
Die Spracherkennungseinheit SR weist zumindest eine Prozessoreinheit CPU zur Durchführung von Rechenoperationen und eine Speichereinheit SE zum Abspeichern von Daten auf.
2
Ein Sprach-Eingangssignal wird beispielsweise mit dem Mikrofon M des Kommunikationsgeräts CD erfasst. In realen Umgebungen ist das Sprach-Eingangssignal bzw. das Sprachsignal geräuschbehaftet.
In 2 ist eine Modellierung eines geräuschbehafteten Sprachsignals aus einem reinen Sprachsignal dargestellt. Für diese Modellierung wird das geräuschbehaftete Sprachsignal als Überlagerung von reiner Sprache und Rauschen dargestellt. Bei der Modellierung gemäß 2 wird angenommen, dass die reine Sprache CS durch einen linearen Kanal LC übertragen wird und erst nach der Übertragung Rauschen N zum reinen Sprachsignal CS addiert wird, um geräuschbehaftete Sprache NS zu erhalten. Bei dem linearen Kanal handelt es sich beispielsweise um die Transferfunktion zwischen den Mund und Mikrofon, die von räumliche Eigenschaften der Umgebung (z.B. Auto oder Büro) abhängig ist.
3
Das geräuschbehaftete Sprach-Eingangssignal wird wie bereits dargelegt beispielsweise mit dem Mikrofon M erfasst und anschließend einer Geräuschreduktion unterzogen. Diese Geräuschreduktion kann für Anwendungen bei der Spracherkennung im Rahmen der eingangs beschriebenen Merkmalsextraktion erfolgen.
In 3 ist nun schematisch die Verarbeitung des Sprach-Eingangssignals SS zur nachfolgenden Spracherkennung dargestellt.
Das Sprach-Eingangssignal SS wird einer Merkmalsextraktion FE unterzogen. Ergebnis dieser Merkmalsextraktion ist ein sogenannter Merkmalsvektor FV, auf dessen Basis eine Spracherkennung SR stattfindet.
4
Prinzipiell lässt sich jede Sprache in für sie spezifische Phoneme aufteilen. Phoneme sind Lautbausteine oder Laute, die noch bedeutungsdifferenzierend sind. Spracherkennungsmethoden können phonembasiert erfolgen.
In 4 sind einzelne Schritte einer Merkmalsextraktion FE für eine phonembasierte Spracherkennung dargestellt.
Es können folgende Schritte beinhaltet sein: Das Zerlegen F des Sprach-Eingangssignals SS im Rahmen bzw. Zeitfenster einer vorgegebenen Länge, beispielsweise 10 oder 20 Millisekunden; Filterung FI des daraus hervorgegangenen Signals mit einem endlichen Impulsantwortfilter bzw. "Finite Impulse Response Filter" (FIR), der einer "pre-emphasis" Filterung entspricht, notwendig um die höhere Frequenzen im Spektrum des Sprachsignals zu verstärken.
Weiterhin erfolgt die Bildung AA von sogenannten Hamming-Fenstern um ein Antialiasing, d.h. ein Vermeiden des Heranziehens von nicht tatsächlich ermittelten Frequenzen, zu erreichen. Anschließend wird eine schnelle bzw. "fast" Fourier Transformation FFT durchgeführt. Das Ergebnis ist ein Leistungs-Spektrum bzw. "Power-Spektrum", bei dem die Leistung gegenüber der Frequenz aufgetragen wird. Dieses Power-Spektrum wird zur Anpassung an die Sensitivität des menschlichen Ohres einer sogenannten "Mel"-Filterung MF mit 15 Dreiecks-Filtern unterzogen. Das Ergebnis hierbei wären 15 Koeffizienten, die zu einer effizienteren Darstellung beispielsweise logarithmiert LOG werden. Nun erfolgt eine Geräuschreduktion NC. Über eine diskrete Cosinustransformation DCT werden sogenannten "Cepstrum"-Koeffizienten ermittelt, so dass nun zusammen mit der logarithmierten Energie 13 Koeffizienten vorliegen. Zur Reduzierung der Fehleranfälligkeit dieser Koeffizienten wird eine sogenannten Delta-Abbildung DA und Delta-Delta-Abbildung DDA durchgeführt, bei der Zusammenhänge zum vorhergehenden und zum vor-vorhergehenden Rahmen ermittelt werden. Auch die Zusammenhänge werden mit je 13 Koeffizienten beschrieben, so dass nach Ablauf dieser Kette von Transformationen 39 Koeffizienten vorliegen. Diese 39 Koeffizienten stellen die Einträge bzw. Komponenten eines Merkmalsvektors FV darf. Optional kann noch eine sprachenabhängige Speicherplatzreduktion LDA erfolgen. Falls diese sprachenabhängige Speicherplatzreduzierung LDA erfolgt, so ist auch der daraus hervorgegangene Merkmalsvektor FV sprachenabhängig.
Die einzelnen Merkmalsvektoren FV lassen sich nun den genannten Prototypen zuordnen. Dadurch wird das Sprachsignal identifiziert, d.h. es liegt beispielsweise in einer phonetischen Umschrift vor. Der phonetischen Umschrift kann ein Bedeutungsinhalt zugewiesen werden.
Für die Geräuschreduktion des Sprach-Eingangssignals wird eine Charakteristik der Sprache eines spezifischen Benutzers herangezogen, also des Benutzers des Kommunikationsgeräts, d.h. die Geräuschreduktion funktioniert für andere Benutzer nicht notwendigerweise zufriedenstellend. Dies stellt jedoch bei einer Vielzahl von Kommunikationsgeräten, die eben nur von einem Benutzer verwendet werden, kein Problem dar. Die Sprachcharakteristik eines Sprechers wird aus seinem "Langzeit"-Sprachsignal ermittelt. Dazu wird das Sprachsignal über eine Zeitdauer aufgenommen, welche deutlich länger ist, als die Zeitdauer zum Sprechen eines Sprachkommandos, um kurzzeitige Schwankungen heraus zu ermitteln und wirklich auf das Sprachsignal charakterisierende Langzeiteigenschaften zu kommen. Dieser Vorgang wird im Rahmen der Erfindung auch als (benutzerspezifisches) Training bezeichnet. Zum Erfassen der Sprachcharakteristik wird das Sprachsignal über eine geeignete Funktion beschrieben, während Parameter zur statistischen Beschreibung des Sprachsignals herangezogen werden können. Als Funktion bietet sich beispielsweise eine Gaussfunktion oder eine Summe von Gaussfunktionen an. Die Beschreibung eines Sprachsignals mittels Gausfunktionen wird oft auch als Gaussian Mixture Model GMM bezeichnet. Dieses kann durch folgende Wahrscheinlichkeitsdichte-Funktion (PDF) beschrieben werden:
wobei
die Gauss-Wahrscheinlichkeitsdichte Funktion mit einem Mittelwert
und einer Covarianz Matrix
darstellt. Die Variable x_t stellt dabei ein Sprachsignal der Länge eines Zeitrahmens dar. k ist eine Laufvariable für die Nummer der verwendeten Gaussfunktion bis zur Anzahl von verwendeten Gaussfunktionen K.
Im Falle einer diagonalen Covarianz Matrix lässt sich die Gauss-Wahrscheinlichkeitsdichtefunktion folgendermaßen darstellen:
wobei eine Gaussfunktion bis zu D Dimensionen hat, d ist die Dimensions-Laufvariable und σ_k,d die Varianz der k-ten Gaussfunktion in der Dimension d darstellt.
Damit kann das GMM beschrieben werden als:
womit das GMM bei Kenntnis von Gleichung (3) sowie des Zeitpunktes t vollständig beschrieben ist durch die statistischen Größen Wahrscheinlichkeit, Mittelwert und Varianz
Bei der Geräuschreduktion werden nun diese statistischen Größen dazu verwendet, um das durch Rauschen bzw. Umgebungsgeräusch verzerrte Sprach-Eingangssignals SS des Sprechers wieder seinem "Normalzustand" anzunähern. Dazu wird auch das Sprach-Eingangssignal SS mittels des GMM beschrieben und die aus dem Sprach-Eingangssignals ermittelten statistischen Größen Wahrscheinlichkeit p, Erwartungswert und Varianz mittels der aus der Charakteristik bekannten statistischen Größen normiert. Dies kann beispielsweise folgendermaßen vorgenommen werden: Es wird die Wahrscheinlichkeitsdichtefunktion für die k-te Gaussfunktion bestimmt
sowie ein entsprechender Normierungsfaktor dafür:
Daraus werden die Erwartungswerte für das Sprachsignal x und das quadrierte Sprachsignal x² bestimmt
Damit werden die Parameter des sprecherunabhängigen (beispielsweise schon werkseitig mitgelieferten), sprachenabhängigen GMM (GMM-L-SI) unter Verwendung der nachfolgenden Formeln adaptiert um das sprecherabhängige, sprachenabhängige GMM (GMM-L-SD) zur Geräuschreduktion zu erhalten. Dazu wird die Wahrscheinlichkeit angepasst:
Weiterhin der Mittelwert
sowie die Varianz
wobei die Variablen
geeignet gewählt werden.
Diese werden beispielsweise durch Versuch und Fehlerbestimmung des Versuchs ("trial and error") bestimmt. Die Werte dieser Variablen bestimmen nur wie viel die neuen Beobachtungen gewichtet werden. Eine Möglichkeit ist
und α ist ein Normierungsfaktor so dass
5
Eine Anwendung dieses Konzepts einer sprecherabhängigen Geräuschreduktion ist im Rahmen einer Spracherkennung in 5 dargestellt. Das Sprach-Eingangssignal SS wird im Rahmen der Merkmalsextraktion FE in Rahmen zerlegt (Schritt F) und einer ersten Vorverarbeitung PP1 unterzogen. Die erste Vorverarbeitung PP1 beinhaltet die Schritte vor der Geräuschreduktion NC (vgl. 4). Das daraus hervorgegangene Signal Z wird einer herkömmlichen Geräuschreduktion NC mittels eines sprachenabhängigen, sprecherunabhängigen GMM's unterzogen. Das daraus hervorgegangene Signal X wird nun in der in 5 dargestellten Trainingssituation zur Erstellung der Sprechercharakteristik XST-L-SD verwendet, welche natürlich auch von der Sprache des Sprechers abhängt. Außerdem wird das Signal X der nachfolgenden Vorverarbeitung PP2, welche die Schritte nach der Geräuschreduktion NC umfasst, unterzogen. Ergebnis der Merkmalsvektorsextraktion FE ist ein Merkmalsvektor FV.
Zur Zuordnung eines Merkmalsvektors wird eine Abstandsberechnung D zu dem Prototypen aus dem sprecherunabhängigen HMM (SI-HMM) vorgenommen.
Dieser Abstand wird über eine Abstand-zu-Index-Einheit D2I ins sprecherabhängige Vokabular VOC-L-SD, welches natürlich auch sprachenabhängig ist, umgewandelt.
6
In 6 ist nun die Erstellung einer sprecherabhängigen Beschreibung des Sprachsignals GMM-L-SD mittels einer bayesischen Adaption BA auf Basis der Sprachcharakteristik XST-L-SD und des sprecherunabhängigen Modells zur Sprachbeschreibung GMM-L-SI zu sehen. Die bayesische Adaption ist in den Gelichungen 9, 10 und 11 beschrieben.
7
Die so erstellte sprecherabhängige Beschreibung GMM-L-SD tritt nun in der "Testsituation", d.h. während der tatsächlichen Spracherkennung in 7 bei der Geräuschreduktion NC zur Anwendung. Bei der Spracherkennung selbst wird das sprecherabhängige Vokabular VOC-L-SD neben dem sprecherunabhängigen Vokabular VOC-L-SI eingesetzt.
Es gibt nun verschiedene Alternativen zur Implementierung des Geräuschreduktionsverfahrens in ein Kommunikationsgerät. Eine besteht darin, die Sprachcharakteristik XST-L-SD, welche die Parameter wie Wahrscheinlichkeit, Erwartungswert, Variance enthält auf einem nicht flüchtigen Speichermedium, beispielsweise einem Flash-Speicher während des Trainings von beispielsweise Sprachkommandos oder Namen, vergleiche 5, oder während eines speziellen Adaptionsvorgangs abzuspeichern. Die sprecherabhängige Beschreibung GMM-L-SD wird aus der sprecherunabhängigen Beschreibung GMM-L-SI und der Sprachcharakteristik XST-L-SD wie in 6 dargestellt ermittelt. Im Kommunikationsgerät CD liegen sowohl sprecherabhängige Beschreibung GMM-L-SD als auch sprecherunabhängige Beschreibung GMM-L-SI vor, allerdings ist lediglich die sprecherabhängige Beschreibung GMM-L-SD aktiv. Diese Realisierung erlaubt insbesondere das Zurückgehen zu werksseitigen Einstellungen, welche in der sprecherunabhängigen Beschreibung GMM-L-SI festgehalten sind.
Eine weitere Option besteht darin, die Sprachcharakteristik XST-L-SD in einem flüchtigen Speicher zu hinterlegen. Die sprecherabhängige Beschreibung GMM-L-SD wird anschließend von der sprecherunabhängigen Beschreibung GMM-L-SI und der Sprachcharakteristik XST-L-SD ermittelt, wie in 6 dargestellt. Die daraus erzeugte sprecherabhängige Beschreibung GMM-L-SD ersetzt die sprecherunabhängige Beschreibung GMM-L-SI auf dem nicht flüchtigen Speicher und die Sprachcharakteristik XST-L-SD wird vom temporären Speicher entfernt, sobald die Adaption fertig gestellt ist. Dies hat den Vorteil, dass sehr wenig Speicherplatz benötigt wird, nämlich nur der für die sprecherunabhängige Beschreibung GMM-L-SI.

CS: Reine Sprache
LC: Linearer Kanal
NS: Geräuschbehaftete Sprache
N: Geräusch
SS: Sprachsignal
PP: Vorverarbeitung
FV: Merkmalsvektor
D: Abstandsberechnung
SI-HMM: Sprecherunkabhängiges HMM-Modell
I: Index
D2I: Zuweisung Abstand zu Index
CD: Kommunikationsgerät
SE: Speichereinheit
CPU: Prozessoreinheit
UI: Benutzeroberfläche
ANT: Antenne
SR: Spracherkennungseinheit
M: Mikrophon

Claims

Verfahren zur Geräuschreduktion (NC) bei einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: – Erfassen des Sprach-Eingangssignals (SS); – Zugreifen auf eine festgelegte Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers; – Verringern eines Geräuschanteils im Sprach-Eingangssignal (SS) auf Basis mittels der festgelegten Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers.
Verfahren nach Anspruch 1, bei dem die Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers aus einem Sprachsignal des Sprechers über ein Training ermittelt wird.
Verfahren nach Anspruch 2, bei dem die Sprachcharakteristik (GMM-L-SD, XST-L-SD) durch eine Funktion mit mindestens einer Variablen angenähert wird.
Verfahren nach Anspruch 3, bei dem das Sprachsignal des Sprechers über eine Gaußfunktion oder eine Summe von Gaußfunktionen angenähert wird und die in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) enthaltenen Variablen Mittelwerte und Varianzen der einzelnen Gaußfunktion oder Gaußfunktionen sind.
Verfahren nach Anspruch 4, bei dem in der Summe von Gaußfunktionen die einzelnen Gaußfunktionen gewichtet sind und die Gewichtungsfaktoren in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) erfasst sind.
Verfahren nach einem der Ansprüche 4 oder 5, bei dem die Gaußfunktion eine D-dimensionale Funktion ist, wobei D eine natürliche Zahl darstellt, welche in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) erfasst ist.
Verfahren nach Anspruch 5 oder 6, bei dem die gewichtete Summe von Gaußfunktionen p(x_f) durch folgende Funktion gebildet wird:
wobei x_t ein Sprachsignal der Länge eines Zeitrahmens, k ein die Gaußfunktion bezeichnender Laufindex, K die Gesamtzahl der Gaußfunktionen, die zum Beschreiben des Sprachsignals verwendet wird, μ_k,d der Erwartungswert der k-ten Gaußfunktion in der Dimension d von einer Gesamtzahl von Dimensionen D darstellt, σ_k,d die zur k-ten Gaußfunktion in der d-ten Dimension zugehörige Varianz und w_k der Gewichtungsfaktor für die k-te, D-dimensionale Gaußfunktion.
Spracherkennungsverfahren für zumindest ein Sprachkommando in einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: a) Vorverarbeiten (PP) des Sprach-Eingangssignals (SS) b) Extrahieren von Merkmalsvektoren (FV) aus dem Sprach-Eingangssignal (SS) c) Erkennen des Sprachkommandos anhand eines Vergleichs der Merkmalsvektoren (FV) mit festgelegten Prototyp-Merkmalsvektoren dadurch gekennzeichnet, dass die Vorverarbeitung (PP, PP1, PP2) ein Verfahren zur Geräuschreduktion nach einem der Ansprüche 1 bis 7 umfasst.
Kommunikationsgerät (CD) mit – einem Mikrofon (M) zur Aufnahme eines Sprachsignals; – einer Prozessoreinheit (CPU) zur Verarbeitung des Sprachsignals und Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8; – einer Speichereinheit (SE) zum Abspeichern einer Sprachcharakteristik zumindest eines Sprechers.