-
Die
Erfindung betrifft ein Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
eines Sprechers sowie eine Vorrichtung zur Durchführung des
Verfahrens.
-
Spracherkennung
wird eingesetzt, um die Bedienung von elektrischen Geräten, insbesondere
solche, bei denen die Benutzeroberfläche miniaturisiert ist, zu
erleichtern. Um eine Spracherkennung zur ermöglichen, muss ein sogenanntes
akustisches Modell erstellt werden. Dazu werden Sprachkommandos
trainiert. Dieses Training kann beispielsweise für den Fall einer sprecherunabhängigen Spracherkennung
schon werkseitig erfolgen. Unter "Training" wird dabei verstanden, dass auf der
Basis von mehrfachem Sprechen eines Sprachkommandos sogenannte,
das Sprachkommando beschreibende Merkmalsvektoren bzw. "Feature Vectors" erstellt werden.
Diese Merkmalsvektoren, die auch Prototypen genannten werden, werden
dann in dem akustischen Modell, beispielsweise einem sogenannten "Hidden Markov Modell" HMM gesammelt.
-
Das
akustische Modell dient dazu, einer gegebenen Folge von aus dem
Vokabular ausgewählten Sprachkommandos
bzw. Wörtern, die
Wahrscheinlichkeit der beobachteten Merkmalsvektoren während der Erkennung
zu ermitteln.
-
Zur
Spracherkennung bzw. Erkennung der fließenden Sprache wird neben einem
akustischen Modell auch ein sogenanntes Sprachmodell benutzt, das
die Wahrscheinlichkeit des Aufeinanderfolgens einzelner Wörter in
der zu erkennenden Sprache angibt.
-
Ziel
von derzeitigen Weiterentwicklungen bei der Spracherkennung ist
es, die Spracherkennungsrate zu erhöhen, d.h. die Wahrscheinlichkeit
zu erhöhen,
dass ein von einem Benutzer des elektrischen Gerätes, beispielsweise eines mobilen
Kommunikationsgerät
wie einem Mobiltelefon, gesprochenes Wort oder Sprachkommando auch
als dieses erkannt wird.
-
Da
Spracherkennung vielseitig eingesetzt wird, erfolgt die Benutzung
auch in Umgebungen, die durch Geräusch gestört sind. In diesem Fall sinken
die Spracherkennungsraten drastisch, da die im akustischen Modell,
beispielsweise dem HMM befindlichen Merkmalsvektoren auf Basis von
reiner, d.h. nicht mit Rauschen behafteter Sprache erstellt bzw. "trainiert" wurden.
-
Dies
führt zu
einer unbefriedigenden Spracherkennung in lauten Umgebungen, wie
etwa auf der Strasse, in vielbesuchten Gebäuden oder auch im Auto.
-
Um
die Robustheit gegenüber
Umgebungsgeräuschen
zu erhöhen,
wird derzeit bei automatischen Spracherkennungssystemen (ASR, "Automatic Speech
Recognition"), die
auf HMMs basieren zwei Wege eingeschlagen, nämlich 1) die Adaption des HMMS
und 2) die Kompensationsmethoden in der Merkmalsvektordomäne. Dazu
ist folgendes anzumerken:
- 1. Die Adaption des
HMMs oder allgemein des Modells, die beispielsweise über einer
lineare Maximum-Likelihood-Regression
Methode (MLLR, "Maximum
Likelihood Linear Regression")
ist keine geeignete Methode für
die Kompensation von Umgebungsgeräusch bei automatischer Spracherkennung
in mobilen Kommunikationsgeräten.
Dies kommt daher, dass das mobile Gerät in einer Vielzahl von Umgebungen
verwendet wird und die Adaption an eine Umgebung zwangsläufig zu
einer schlechten Anpassung an eine andere Umgebung führt.
- 2. Kompensationsmethoden in der Merkmalsvektordomaine können auf
vielfältige
Art und Weise realisiert werden. Ein einfacher Weg ist die Anwendung
akustischer Verbesserungsmethoden bzw. "Audio Enhancement Technics", wie beispielsweise
eine Wiener Filterung oder spektrale Subtraktion. Diese zielen darauf ab,
aus dem Powerspektrum geräuschbehafteter
Sprache das Powerspektrum rauschfreier Sprache bzw. "clean speech" zu gewinnen. Auf
Basis des bereinigten Power Spectrums werden dann Merkmalsvektoren berechnet,
die der Spracherkennung unterzogen werden.
-
Alternativ
dazu gibt es eine Vielzahl weiterer Kompensationsmethoden in der
Merkmalsdomaine, beispielsweise Taylor Vektor Reihen ("Vector Taylor series" VTS), Vector polynom
Approximationen (Vector polynomial approximations" VPS) oder interaktive
multiple Modelle ("Interacting
Multiple Models" IMM).
-
Nachteil
dieses zweiten Ansatzes zur Verbesserung der Robustheit gegenüber Umgebungsgeräusch ist
der hohe rechnerische Aufwand, der insbesondere die Anwendung in
Kommunikationsgeräten
mit begrenzten Prozessor- und Speicherresourcen behindert.
-
Ausgehend
von diesem Stand der Technik ist es Aufgabe der Erfindung, eine
Möglichkeit
zu schaffen, Spracherkennung auch in geräuschbehafteten Umgebungen mit
einer hohen Spracherkennungsrate durchzuführen.
-
Diese
Aufgabe wird durch die unabhängigen
Ansprüche
gelöst.
Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
-
Es
ist Kern der Erfindung, die Geräuschreduktion
nicht in Bezug auf die Umgebung durchzuführen, sondern in Bezug auf
den jeweiligen Sprecher. Es zeigt sich, dass damit unabhängig von
der Umgebung und damit dem Umgebungsgeräusch, eine Verbesserung der
Spracherkennung erzielt werden kann.
-
Dazu
wird das Sprach-Eingangssignal eines Sprechers, z.B. des Benutzers
eines bestimmten Kommunikationsgerätes, erfasst und mittels einer
auf einer Sprachcharakteristik dieses Sprechers basierenden Geräuschreduktion
bereinigt. Dadurch werden gute Ergebnisse bei beliebigen Umgebungen
und zugleich relativ geringer Rechenkomplexität erzielt.
-
Die
Sprachcharakteristik des Sprechers kann durch eine geeignete mathematische
Modellierung des Sprachsignals des Sprechers, welches über einen
längeren
Zeitraum erfasst wird, abgeleitet werden. Dazu wird beispielsweise
das Sprachsignal durch eine parametrisierte Funktion beschrieben.
Mittels der Parameter werden Verzerrungen aufgrund des Rauschens
beim Sprach-Eingangssignal korrigiert.
-
Die
Erfindung betrifft ferner die Anwendung des Verfahrens für ein Spracherkennungssystem
sowie ein Kommunikationsgerät,
mit dem dieses Verfahren durchgeführt wird.
-
Weitere
Vorteile der Erfindung werden anhand ausgewählter Ausführungsbeispiele mittels Figuren
beschrieben.
-
Es
zeigen
-
1:
Ein Kommunikationsgerät
mit einer Spracherkennungseinrichtung;
-
2:
Ein Modell für
geräuschbehaftete
Sprache
-
3:
den Ablauf einer Spracherkennung aus einem Sprach-Eingangssignal,
-
4 den
Ablauf einer Merkmalsvektorextraktion,
-
5 die
Erstellung einer Sprachcharakteristik sowie eines sprecherabhängigen Vokabulars
(Training),
-
6 die
Erstellung einer sprecherabhängigen
Beschreibung auf Basis der Sprachcharakteristik und einer sprecherunabhängigen Beschreibung,
-
7 eine
Spracherkennung unter Verwendung einer sprecherspezifischen Geräuschreduktion
und eines sprecherspezifischen bzw. abhängigen Vokabulars.
-
1
-
In 1 ist
ein Kommunikationsgerät
CD mit einer Spracherkennungseinheit SR dargestellt. Bei dem Kommunikationsgerät CD kann
es sich beispielsweise um ein Mobilfunkendgerät, einen PDA oder andere insbesondere
personalisierte, d.h. hauptsächlich
einem Benutzer zugeordnete, Kommunikationsgeräte handeln.
-
Das
Kommunikationsgerät
CD weist eine Benutzeroberfläche
UI auf, mittels der der Benutzer das Kommunikationsgerät bedienen
kann. Bei der Benutzeroberfläche
UI handelt es sich beispielsweise eine Tastatur, Touch-Screen, oder
auch mittel zur Spracheingabe. Dazu weist die Benutzeroberfläche weiterhin
ein Mikrofon M zum Erfassen eines akustischen Signals die eines
Sprachsignals auf.
-
Zum
Austausch von Daten weist das Kommunikationsgerät weiterhin eine Übertragungsschnittstelle ANT
auf. Bei der Übertragungsschnittstelle
kann es sich um einen drahtgebundenen oder drahtlosen Anschluss
an ein Kommunikationssystem handeln. Insbesondere handelt es sich
bei der Übertragungsschnittstelle
ANT um eine Antenne.
-
Die
Spracherkennungseinheit SR weist zumindest eine Prozessoreinheit
CPU zur Durchführung
von Rechenoperationen und eine Speichereinheit SE zum Abspeichern
von Daten auf.
-
2
-
Ein
Sprach-Eingangssignal wird beispielsweise mit dem Mikrofon M des
Kommunikationsgeräts
CD erfasst. In realen Umgebungen ist das Sprach-Eingangssignal bzw.
das Sprachsignal geräuschbehaftet.
-
In 2 ist
eine Modellierung eines geräuschbehafteten
Sprachsignals aus einem reinen Sprachsignal dargestellt. Für diese
Modellierung wird das geräuschbehaftete
Sprachsignal als Überlagerung
von reiner Sprache und Rauschen dargestellt. Bei der Modellierung
gemäß 2 wird
angenommen, dass die reine Sprache CS durch einen linearen Kanal
LC übertragen
wird und erst nach der Übertragung
Rauschen N zum reinen Sprachsignal CS addiert wird, um geräuschbehaftete
Sprache NS zu erhalten. Bei dem linearen Kanal handelt es sich beispielsweise
um die Transferfunktion zwischen den Mund und Mikrofon, die von
räumliche Eigenschaften
der Umgebung (z.B. Auto oder Büro)
abhängig
ist.
-
3
-
Das
geräuschbehaftete
Sprach-Eingangssignal wird wie bereits dargelegt beispielsweise
mit dem Mikrofon M erfasst und anschließend einer Geräuschreduktion
unterzogen. Diese Geräuschreduktion
kann für Anwendungen
bei der Spracherkennung im Rahmen der eingangs beschriebenen Merkmalsextraktion
erfolgen.
-
In 3 ist
nun schematisch die Verarbeitung des Sprach-Eingangssignals SS zur nachfolgenden Spracherkennung
dargestellt.
-
Das
Sprach-Eingangssignal SS wird einer Merkmalsextraktion FE unterzogen.
Ergebnis dieser Merkmalsextraktion ist ein sogenannter Merkmalsvektor
FV, auf dessen Basis eine Spracherkennung SR stattfindet.
-
4
-
Prinzipiell
lässt sich
jede Sprache in für
sie spezifische Phoneme aufteilen. Phoneme sind Lautbausteine oder
Laute, die noch bedeutungsdifferenzierend sind. Spracherkennungsmethoden
können
phonembasiert erfolgen.
-
In 4 sind
einzelne Schritte einer Merkmalsextraktion FE für eine phonembasierte Spracherkennung
dargestellt.
-
Es
können
folgende Schritte beinhaltet sein: Das Zerlegen F des Sprach-Eingangssignals
SS im Rahmen bzw. Zeitfenster einer vorgegebenen Länge, beispielsweise
10 oder 20 Millisekunden; Filterung FI des daraus hervorgegangenen
Signals mit einem endlichen Impulsantwortfilter bzw. "Finite Impulse Response
Filter" (FIR), der
einer "pre-emphasis" Filterung entspricht,
notwendig um die höhere
Frequenzen im Spektrum des Sprachsignals zu verstärken.
-
Weiterhin
erfolgt die Bildung AA von sogenannten Hamming-Fenstern um ein Antialiasing, d.h. ein
Vermeiden des Heranziehens von nicht tatsächlich ermittelten Frequenzen,
zu erreichen. Anschließend
wird eine schnelle bzw. "fast" Fourier Transformation
FFT durchgeführt.
Das Ergebnis ist ein Leistungs-Spektrum bzw. "Power-Spektrum", bei dem die Leistung gegenüber der
Frequenz aufgetragen wird. Dieses Power-Spektrum wird zur Anpassung
an die Sensitivität
des menschlichen Ohres einer sogenannten "Mel"-Filterung
MF mit 15 Dreiecks-Filtern unterzogen. Das Ergebnis hierbei wären 15 Koeffizienten,
die zu einer effizienteren Darstellung beispielsweise logarithmiert
LOG werden. Nun erfolgt eine Geräuschreduktion
NC. Über
eine diskrete Cosinustransformation DCT werden sogenannten "Cepstrum"-Koeffizienten ermittelt, so dass nun
zusammen mit der logarithmierten Energie 13 Koeffizienten vorliegen.
Zur Reduzierung der Fehleranfälligkeit
dieser Koeffizienten wird eine sogenannten Delta-Abbildung DA und
Delta-Delta-Abbildung
DDA durchgeführt,
bei der Zusammenhänge
zum vorhergehenden und zum vor-vorhergehenden Rahmen ermittelt werden.
Auch die Zusammenhänge
werden mit je 13 Koeffizienten beschrieben, so dass nach Ablauf
dieser Kette von Transformationen 39 Koeffizienten vorliegen. Diese
39 Koeffizienten stellen die Einträge bzw. Komponenten eines Merkmalsvektors
FV darf. Optional kann noch eine sprachenabhängige Speicherplatzreduktion
LDA erfolgen. Falls diese sprachenabhängige Speicherplatzreduzierung
LDA erfolgt, so ist auch der daraus hervorgegangene Merkmalsvektor
FV sprachenabhängig.
-
Die
einzelnen Merkmalsvektoren FV lassen sich nun den genannten Prototypen
zuordnen. Dadurch wird das Sprachsignal identifiziert, d.h. es liegt
beispielsweise in einer phonetischen Umschrift vor. Der phonetischen
Umschrift kann ein Bedeutungsinhalt zugewiesen werden.
-
Für die Geräuschreduktion
des Sprach-Eingangssignals wird eine Charakteristik der Sprache
eines spezifischen Benutzers herangezogen, also des Benutzers des
Kommunikationsgeräts,
d.h. die Geräuschreduktion
funktioniert für
andere Benutzer nicht notwendigerweise zufriedenstellend. Dies stellt
jedoch bei einer Vielzahl von Kommunikationsgeräten, die eben nur von einem
Benutzer verwendet werden, kein Problem dar. Die Sprachcharakteristik
eines Sprechers wird aus seinem "Langzeit"-Sprachsignal ermittelt.
Dazu wird das Sprachsignal über
eine Zeitdauer aufgenommen, welche deutlich länger ist, als die Zeitdauer
zum Sprechen eines Sprachkommandos, um kurzzeitige Schwankungen
heraus zu ermitteln und wirklich auf das Sprachsignal charakterisierende
Langzeiteigenschaften zu kommen. Dieser Vorgang wird im Rahmen der
Erfindung auch als (benutzerspezifisches) Training bezeichnet. Zum
Erfassen der Sprachcharakteristik wird das Sprachsignal über eine
geeignete Funktion beschrieben, während Parameter zur statistischen
Beschreibung des Sprachsignals herangezogen werden können. Als
Funktion bietet sich beispielsweise eine Gaussfunktion oder eine
Summe von Gaussfunktionen an. Die Beschreibung eines Sprachsignals
mittels Gausfunktionen wird oft auch als Gaussian Mixture Model
GMM bezeichnet. Dieses kann durch folgende Wahrscheinlichkeitsdichte-Funktion
(PDF) beschrieben werden:

wobei
die Gauss-Wahrscheinlichkeitsdichte
Funktion mit einem Mittelwert
und einer Covarianz Matrix
darstellt. Die Variable x
t stellt dabei ein Sprachsignal der Länge eines
Zeitrahmens dar. k ist eine Laufvariable für die Nummer der verwendeten
Gaussfunktion bis zur Anzahl von verwendeten Gaussfunktionen K.
-
Im
Falle einer diagonalen Covarianz Matrix lässt sich die Gauss-Wahrscheinlichkeitsdichtefunktion
folgendermaßen
darstellen:
wobei
eine Gaussfunktion bis zu D Dimensionen hat, d ist die Dimensions-Laufvariable
und σ
k,d die Varianz der k-ten Gaussfunktion in
der Dimension d darstellt.
-
Damit
kann das GMM beschrieben werden als:
womit
das GMM bei Kenntnis von Gleichung (3) sowie des Zeitpunktes t vollständig beschrieben
ist durch die statistischen Größen Wahrscheinlichkeit,
Mittelwert und Varianz
-
Bei
der Geräuschreduktion
werden nun diese statistischen Größen dazu verwendet, um das
durch Rauschen bzw. Umgebungsgeräusch
verzerrte Sprach-Eingangssignals SS des Sprechers wieder seinem "Normalzustand" anzunähern. Dazu
wird auch das Sprach-Eingangssignal SS mittels des GMM beschrieben und
die aus dem Sprach-Eingangssignals ermittelten statistischen Größen Wahrscheinlichkeit
p, Erwartungswert und Varianz mittels der aus der Charakteristik
bekannten statistischen Größen normiert.
Dies kann beispielsweise folgendermaßen vorgenommen werden: Es
wird die Wahrscheinlichkeitsdichtefunktion für die k-te Gaussfunktion bestimmt
sowie
ein entsprechender Normierungsfaktor dafür:
-
Daraus
werden die Erwartungswerte für
das Sprachsignal x und das quadrierte Sprachsignal x
2 bestimmt
-
Damit
werden die Parameter des sprecherunabhängigen (beispielsweise schon
werkseitig mitgelieferten), sprachenabhängigen GMM (GMM-L-SI) unter
Verwendung der nachfolgenden Formeln adaptiert um das sprecherabhängige, sprachenabhängige GMM
(GMM-L-SD) zur Geräuschreduktion
zu erhalten. Dazu wird die Wahrscheinlichkeit angepasst:
-
Weiterhin
der Mittelwert
sowie die Varianz
wobei die Variablen
geeignet gewählt werden.
-
Diese
werden beispielsweise durch Versuch und Fehlerbestimmung des Versuchs
("trial and error") bestimmt. Die Werte
dieser Variablen bestimmen nur wie viel die neuen Beobachtungen
gewichtet werden. Eine Möglichkeit
ist
und α ist ein Normierungsfaktor so
dass
-
5
-
Eine
Anwendung dieses Konzepts einer sprecherabhängigen Geräuschreduktion ist im Rahmen
einer Spracherkennung in 5 dargestellt. Das Sprach-Eingangssignal
SS wird im Rahmen der Merkmalsextraktion FE in Rahmen zerlegt (Schritt
F) und einer ersten Vorverarbeitung PP1 unterzogen. Die erste Vorverarbeitung
PP1 beinhaltet die Schritte vor der Geräuschreduktion NC (vgl. 4).
Das daraus hervorgegangene Signal Z wird einer herkömmlichen
Geräuschreduktion
NC mittels eines sprachenabhängigen, sprecherunabhängigen GMM's unterzogen. Das
daraus hervorgegangene Signal X wird nun in der in 5 dargestellten Trainingssituation
zur Erstellung der Sprechercharakteristik XST-L-SD verwendet, welche
natürlich
auch von der Sprache des Sprechers abhängt. Außerdem wird das Signal X der
nachfolgenden Vorverarbeitung PP2, welche die Schritte nach der
Geräuschreduktion
NC umfasst, unterzogen. Ergebnis der Merkmalsvektorsextraktion FE
ist ein Merkmalsvektor FV.
-
Zur
Zuordnung eines Merkmalsvektors wird eine Abstandsberechnung D zu
dem Prototypen aus dem sprecherunabhängigen HMM (SI-HMM) vorgenommen.
-
Dieser
Abstand wird über
eine Abstand-zu-Index-Einheit D2I ins sprecherabhängige Vokabular VOC-L-SD,
welches natürlich
auch sprachenabhängig
ist, umgewandelt.
-
6
-
In 6 ist
nun die Erstellung einer sprecherabhängigen Beschreibung des Sprachsignals
GMM-L-SD mittels einer bayesischen Adaption BA auf Basis der Sprachcharakteristik
XST-L-SD und des sprecherunabhängigen
Modells zur Sprachbeschreibung GMM-L-SI zu sehen. Die bayesische
Adaption ist in den Gelichungen 9, 10 und 11 beschrieben.
-
7
-
Die
so erstellte sprecherabhängige
Beschreibung GMM-L-SD tritt nun in der "Testsituation", d.h. während der tatsächlichen
Spracherkennung in 7 bei der Geräuschreduktion
NC zur Anwendung. Bei der Spracherkennung selbst wird das sprecherabhängige Vokabular
VOC-L-SD neben dem sprecherunabhängigen
Vokabular VOC-L-SI eingesetzt.
-
Es
gibt nun verschiedene Alternativen zur Implementierung des Geräuschreduktionsverfahrens
in ein Kommunikationsgerät.
Eine besteht darin, die Sprachcharakteristik XST-L-SD, welche die
Parameter wie Wahrscheinlichkeit, Erwartungswert, Variance enthält auf einem
nicht flüchtigen
Speichermedium, beispielsweise einem Flash-Speicher während des
Trainings von beispielsweise Sprachkommandos oder Namen, vergleiche 5,
oder während
eines speziellen Adaptionsvorgangs abzuspeichern. Die sprecherabhängige Beschreibung
GMM-L-SD wird aus der sprecherunabhängigen Beschreibung GMM-L-SI
und der Sprachcharakteristik XST-L-SD wie in 6 dargestellt
ermittelt. Im Kommunikationsgerät
CD liegen sowohl sprecherabhängige
Beschreibung GMM-L-SD als auch sprecherunabhängige Beschreibung GMM-L-SI
vor, allerdings ist lediglich die sprecherabhängige Beschreibung GMM-L-SD
aktiv. Diese Realisierung erlaubt insbesondere das Zurückgehen
zu werksseitigen Einstellungen, welche in der sprecherunabhängigen Beschreibung
GMM-L-SI festgehalten sind.
-
Eine
weitere Option besteht darin, die Sprachcharakteristik XST-L-SD
in einem flüchtigen
Speicher zu hinterlegen. Die sprecherabhängige Beschreibung GMM-L-SD
wird anschließend
von der sprecherunabhängigen
Beschreibung GMM-L-SI und der Sprachcharakteristik XST-L-SD ermittelt,
wie in 6 dargestellt. Die daraus erzeugte sprecherabhängige Beschreibung
GMM-L-SD ersetzt die sprecherunabhängige Beschreibung GMM-L-SI
auf dem nicht flüchtigen
Speicher und die Sprachcharakteristik XST-L-SD wird vom temporären Speicher
entfernt, sobald die Adaption fertig gestellt ist. Dies hat den
Vorteil, dass sehr wenig Speicherplatz benötigt wird, nämlich nur
der für
die sprecherunabhängige
Beschreibung GMM-L-SI.
-
- CS
- Reine
Sprache
- LC
- Linearer
Kanal
- NS
- Geräuschbehaftete
Sprache
- N
- Geräusch
- SS
- Sprachsignal
- PP
- Vorverarbeitung
- FV
- Merkmalsvektor
- D
- Abstandsberechnung
- SI-HMM
- Sprecherunkabhängiges HMM-Modell
- I
- Index
- D2I
- Zuweisung
Abstand zu Index
- CD
- Kommunikationsgerät
- SE
- Speichereinheit
- CPU
- Prozessoreinheit
- UI
- Benutzeroberfläche
- ANT
- Antenne
- SR
- Spracherkennungseinheit
- M
- Mikrophon