[go: up one dir, main page]

DE102004017486A1 - Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal - Google Patents

Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal Download PDF

Info

Publication number
DE102004017486A1
DE102004017486A1 DE102004017486A DE102004017486A DE102004017486A1 DE 102004017486 A1 DE102004017486 A1 DE 102004017486A1 DE 102004017486 A DE102004017486 A DE 102004017486A DE 102004017486 A DE102004017486 A DE 102004017486A DE 102004017486 A1 DE102004017486 A1 DE 102004017486A1
Authority
DE
Germany
Prior art keywords
speech
speaker
gmm
input signal
xst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102004017486A
Other languages
English (en)
Inventor
Tim Dr. Fingscheidt
Sorel Dr. Stan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corp
Original Assignee
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corp filed Critical Siemens Corp
Priority to DE102004017486A priority Critical patent/DE102004017486A1/de
Priority to PCT/EP2004/053014 priority patent/WO2005098827A1/de
Priority to EP04804542A priority patent/EP1733384A1/de
Priority to US11/578,128 priority patent/US20070198255A1/en
Publication of DE102004017486A1 publication Critical patent/DE102004017486A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

Verfahren zur Geräuschreduktion (NC) bei einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: Erfassen des Sprach-Eingangssignals (SS); Zugreifen auf eine festgelegte Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers; Verringern eines Geräuschanteils im Sprach-Eingangssignal (SS) auf Basis mittels der festgelegten Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers.

Description

  • Die Erfindung betrifft ein Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal eines Sprechers sowie eine Vorrichtung zur Durchführung des Verfahrens.
  • Spracherkennung wird eingesetzt, um die Bedienung von elektrischen Geräten, insbesondere solche, bei denen die Benutzeroberfläche miniaturisiert ist, zu erleichtern. Um eine Spracherkennung zur ermöglichen, muss ein sogenanntes akustisches Modell erstellt werden. Dazu werden Sprachkommandos trainiert. Dieses Training kann beispielsweise für den Fall einer sprecherunabhängigen Spracherkennung schon werkseitig erfolgen. Unter "Training" wird dabei verstanden, dass auf der Basis von mehrfachem Sprechen eines Sprachkommandos sogenannte, das Sprachkommando beschreibende Merkmalsvektoren bzw. "Feature Vectors" erstellt werden. Diese Merkmalsvektoren, die auch Prototypen genannten werden, werden dann in dem akustischen Modell, beispielsweise einem sogenannten "Hidden Markov Modell" HMM gesammelt.
  • Das akustische Modell dient dazu, einer gegebenen Folge von aus dem Vokabular ausgewählten Sprachkommandos bzw. Wörtern, die Wahrscheinlichkeit der beobachteten Merkmalsvektoren während der Erkennung zu ermitteln.
  • Zur Spracherkennung bzw. Erkennung der fließenden Sprache wird neben einem akustischen Modell auch ein sogenanntes Sprachmodell benutzt, das die Wahrscheinlichkeit des Aufeinanderfolgens einzelner Wörter in der zu erkennenden Sprache angibt.
  • Ziel von derzeitigen Weiterentwicklungen bei der Spracherkennung ist es, die Spracherkennungsrate zu erhöhen, d.h. die Wahrscheinlichkeit zu erhöhen, dass ein von einem Benutzer des elektrischen Gerätes, beispielsweise eines mobilen Kommunikationsgerät wie einem Mobiltelefon, gesprochenes Wort oder Sprachkommando auch als dieses erkannt wird.
  • Da Spracherkennung vielseitig eingesetzt wird, erfolgt die Benutzung auch in Umgebungen, die durch Geräusch gestört sind. In diesem Fall sinken die Spracherkennungsraten drastisch, da die im akustischen Modell, beispielsweise dem HMM befindlichen Merkmalsvektoren auf Basis von reiner, d.h. nicht mit Rauschen behafteter Sprache erstellt bzw. "trainiert" wurden.
  • Dies führt zu einer unbefriedigenden Spracherkennung in lauten Umgebungen, wie etwa auf der Strasse, in vielbesuchten Gebäuden oder auch im Auto.
  • Um die Robustheit gegenüber Umgebungsgeräuschen zu erhöhen, wird derzeit bei automatischen Spracherkennungssystemen (ASR, "Automatic Speech Recognition"), die auf HMMs basieren zwei Wege eingeschlagen, nämlich 1) die Adaption des HMMS und 2) die Kompensationsmethoden in der Merkmalsvektordomäne. Dazu ist folgendes anzumerken:
    • 1. Die Adaption des HMMs oder allgemein des Modells, die beispielsweise über einer lineare Maximum-Likelihood-Regression Methode (MLLR, "Maximum Likelihood Linear Regression") ist keine geeignete Methode für die Kompensation von Umgebungsgeräusch bei automatischer Spracherkennung in mobilen Kommunikationsgeräten. Dies kommt daher, dass das mobile Gerät in einer Vielzahl von Umgebungen verwendet wird und die Adaption an eine Umgebung zwangsläufig zu einer schlechten Anpassung an eine andere Umgebung führt.
    • 2. Kompensationsmethoden in der Merkmalsvektordomaine können auf vielfältige Art und Weise realisiert werden. Ein einfacher Weg ist die Anwendung akustischer Verbesserungsmethoden bzw. "Audio Enhancement Technics", wie beispielsweise eine Wiener Filterung oder spektrale Subtraktion. Diese zielen darauf ab, aus dem Powerspektrum geräuschbehafteter Sprache das Powerspektrum rauschfreier Sprache bzw. "clean speech" zu gewinnen. Auf Basis des bereinigten Power Spectrums werden dann Merkmalsvektoren berechnet, die der Spracherkennung unterzogen werden.
  • Alternativ dazu gibt es eine Vielzahl weiterer Kompensationsmethoden in der Merkmalsdomaine, beispielsweise Taylor Vektor Reihen ("Vector Taylor series" VTS), Vector polynom Approximationen (Vector polynomial approximations" VPS) oder interaktive multiple Modelle ("Interacting Multiple Models" IMM).
  • Nachteil dieses zweiten Ansatzes zur Verbesserung der Robustheit gegenüber Umgebungsgeräusch ist der hohe rechnerische Aufwand, der insbesondere die Anwendung in Kommunikationsgeräten mit begrenzten Prozessor- und Speicherresourcen behindert.
  • Ausgehend von diesem Stand der Technik ist es Aufgabe der Erfindung, eine Möglichkeit zu schaffen, Spracherkennung auch in geräuschbehafteten Umgebungen mit einer hohen Spracherkennungsrate durchzuführen.
  • Diese Aufgabe wird durch die unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
  • Es ist Kern der Erfindung, die Geräuschreduktion nicht in Bezug auf die Umgebung durchzuführen, sondern in Bezug auf den jeweiligen Sprecher. Es zeigt sich, dass damit unabhängig von der Umgebung und damit dem Umgebungsgeräusch, eine Verbesserung der Spracherkennung erzielt werden kann.
  • Dazu wird das Sprach-Eingangssignal eines Sprechers, z.B. des Benutzers eines bestimmten Kommunikationsgerätes, erfasst und mittels einer auf einer Sprachcharakteristik dieses Sprechers basierenden Geräuschreduktion bereinigt. Dadurch werden gute Ergebnisse bei beliebigen Umgebungen und zugleich relativ geringer Rechenkomplexität erzielt.
  • Die Sprachcharakteristik des Sprechers kann durch eine geeignete mathematische Modellierung des Sprachsignals des Sprechers, welches über einen längeren Zeitraum erfasst wird, abgeleitet werden. Dazu wird beispielsweise das Sprachsignal durch eine parametrisierte Funktion beschrieben. Mittels der Parameter werden Verzerrungen aufgrund des Rauschens beim Sprach-Eingangssignal korrigiert.
  • Die Erfindung betrifft ferner die Anwendung des Verfahrens für ein Spracherkennungssystem sowie ein Kommunikationsgerät, mit dem dieses Verfahren durchgeführt wird.
  • Weitere Vorteile der Erfindung werden anhand ausgewählter Ausführungsbeispiele mittels Figuren beschrieben.
  • Es zeigen
  • 1: Ein Kommunikationsgerät mit einer Spracherkennungseinrichtung;
  • 2: Ein Modell für geräuschbehaftete Sprache
  • 3: den Ablauf einer Spracherkennung aus einem Sprach-Eingangssignal,
  • 4 den Ablauf einer Merkmalsvektorextraktion,
  • 5 die Erstellung einer Sprachcharakteristik sowie eines sprecherabhängigen Vokabulars (Training),
  • 6 die Erstellung einer sprecherabhängigen Beschreibung auf Basis der Sprachcharakteristik und einer sprecherunabhängigen Beschreibung,
  • 7 eine Spracherkennung unter Verwendung einer sprecherspezifischen Geräuschreduktion und eines sprecherspezifischen bzw. abhängigen Vokabulars.
  • 1
  • In 1 ist ein Kommunikationsgerät CD mit einer Spracherkennungseinheit SR dargestellt. Bei dem Kommunikationsgerät CD kann es sich beispielsweise um ein Mobilfunkendgerät, einen PDA oder andere insbesondere personalisierte, d.h. hauptsächlich einem Benutzer zugeordnete, Kommunikationsgeräte handeln.
  • Das Kommunikationsgerät CD weist eine Benutzeroberfläche UI auf, mittels der der Benutzer das Kommunikationsgerät bedienen kann. Bei der Benutzeroberfläche UI handelt es sich beispielsweise eine Tastatur, Touch-Screen, oder auch mittel zur Spracheingabe. Dazu weist die Benutzeroberfläche weiterhin ein Mikrofon M zum Erfassen eines akustischen Signals die eines Sprachsignals auf.
  • Zum Austausch von Daten weist das Kommunikationsgerät weiterhin eine Übertragungsschnittstelle ANT auf. Bei der Übertragungsschnittstelle kann es sich um einen drahtgebundenen oder drahtlosen Anschluss an ein Kommunikationssystem handeln. Insbesondere handelt es sich bei der Übertragungsschnittstelle ANT um eine Antenne.
  • Die Spracherkennungseinheit SR weist zumindest eine Prozessoreinheit CPU zur Durchführung von Rechenoperationen und eine Speichereinheit SE zum Abspeichern von Daten auf.
  • 2
  • Ein Sprach-Eingangssignal wird beispielsweise mit dem Mikrofon M des Kommunikationsgeräts CD erfasst. In realen Umgebungen ist das Sprach-Eingangssignal bzw. das Sprachsignal geräuschbehaftet.
  • In 2 ist eine Modellierung eines geräuschbehafteten Sprachsignals aus einem reinen Sprachsignal dargestellt. Für diese Modellierung wird das geräuschbehaftete Sprachsignal als Überlagerung von reiner Sprache und Rauschen dargestellt. Bei der Modellierung gemäß 2 wird angenommen, dass die reine Sprache CS durch einen linearen Kanal LC übertragen wird und erst nach der Übertragung Rauschen N zum reinen Sprachsignal CS addiert wird, um geräuschbehaftete Sprache NS zu erhalten. Bei dem linearen Kanal handelt es sich beispielsweise um die Transferfunktion zwischen den Mund und Mikrofon, die von räumliche Eigenschaften der Umgebung (z.B. Auto oder Büro) abhängig ist.
  • 3
  • Das geräuschbehaftete Sprach-Eingangssignal wird wie bereits dargelegt beispielsweise mit dem Mikrofon M erfasst und anschließend einer Geräuschreduktion unterzogen. Diese Geräuschreduktion kann für Anwendungen bei der Spracherkennung im Rahmen der eingangs beschriebenen Merkmalsextraktion erfolgen.
  • In 3 ist nun schematisch die Verarbeitung des Sprach-Eingangssignals SS zur nachfolgenden Spracherkennung dargestellt.
  • Das Sprach-Eingangssignal SS wird einer Merkmalsextraktion FE unterzogen. Ergebnis dieser Merkmalsextraktion ist ein sogenannter Merkmalsvektor FV, auf dessen Basis eine Spracherkennung SR stattfindet.
  • 4
  • Prinzipiell lässt sich jede Sprache in für sie spezifische Phoneme aufteilen. Phoneme sind Lautbausteine oder Laute, die noch bedeutungsdifferenzierend sind. Spracherkennungsmethoden können phonembasiert erfolgen.
  • In 4 sind einzelne Schritte einer Merkmalsextraktion FE für eine phonembasierte Spracherkennung dargestellt.
  • Es können folgende Schritte beinhaltet sein: Das Zerlegen F des Sprach-Eingangssignals SS im Rahmen bzw. Zeitfenster einer vorgegebenen Länge, beispielsweise 10 oder 20 Millisekunden; Filterung FI des daraus hervorgegangenen Signals mit einem endlichen Impulsantwortfilter bzw. "Finite Impulse Response Filter" (FIR), der einer "pre-emphasis" Filterung entspricht, notwendig um die höhere Frequenzen im Spektrum des Sprachsignals zu verstärken.
  • Weiterhin erfolgt die Bildung AA von sogenannten Hamming-Fenstern um ein Antialiasing, d.h. ein Vermeiden des Heranziehens von nicht tatsächlich ermittelten Frequenzen, zu erreichen. Anschließend wird eine schnelle bzw. "fast" Fourier Transformation FFT durchgeführt. Das Ergebnis ist ein Leistungs-Spektrum bzw. "Power-Spektrum", bei dem die Leistung gegenüber der Frequenz aufgetragen wird. Dieses Power-Spektrum wird zur Anpassung an die Sensitivität des menschlichen Ohres einer sogenannten "Mel"-Filterung MF mit 15 Dreiecks-Filtern unterzogen. Das Ergebnis hierbei wären 15 Koeffizienten, die zu einer effizienteren Darstellung beispielsweise logarithmiert LOG werden. Nun erfolgt eine Geräuschreduktion NC. Über eine diskrete Cosinustransformation DCT werden sogenannten "Cepstrum"-Koeffizienten ermittelt, so dass nun zusammen mit der logarithmierten Energie 13 Koeffizienten vorliegen. Zur Reduzierung der Fehleranfälligkeit dieser Koeffizienten wird eine sogenannten Delta-Abbildung DA und Delta-Delta-Abbildung DDA durchgeführt, bei der Zusammenhänge zum vorhergehenden und zum vor-vorhergehenden Rahmen ermittelt werden. Auch die Zusammenhänge werden mit je 13 Koeffizienten beschrieben, so dass nach Ablauf dieser Kette von Transformationen 39 Koeffizienten vorliegen. Diese 39 Koeffizienten stellen die Einträge bzw. Komponenten eines Merkmalsvektors FV darf. Optional kann noch eine sprachenabhängige Speicherplatzreduktion LDA erfolgen. Falls diese sprachenabhängige Speicherplatzreduzierung LDA erfolgt, so ist auch der daraus hervorgegangene Merkmalsvektor FV sprachenabhängig.
  • Die einzelnen Merkmalsvektoren FV lassen sich nun den genannten Prototypen zuordnen. Dadurch wird das Sprachsignal identifiziert, d.h. es liegt beispielsweise in einer phonetischen Umschrift vor. Der phonetischen Umschrift kann ein Bedeutungsinhalt zugewiesen werden.
  • Für die Geräuschreduktion des Sprach-Eingangssignals wird eine Charakteristik der Sprache eines spezifischen Benutzers herangezogen, also des Benutzers des Kommunikationsgeräts, d.h. die Geräuschreduktion funktioniert für andere Benutzer nicht notwendigerweise zufriedenstellend. Dies stellt jedoch bei einer Vielzahl von Kommunikationsgeräten, die eben nur von einem Benutzer verwendet werden, kein Problem dar. Die Sprachcharakteristik eines Sprechers wird aus seinem "Langzeit"-Sprachsignal ermittelt. Dazu wird das Sprachsignal über eine Zeitdauer aufgenommen, welche deutlich länger ist, als die Zeitdauer zum Sprechen eines Sprachkommandos, um kurzzeitige Schwankungen heraus zu ermitteln und wirklich auf das Sprachsignal charakterisierende Langzeiteigenschaften zu kommen. Dieser Vorgang wird im Rahmen der Erfindung auch als (benutzerspezifisches) Training bezeichnet. Zum Erfassen der Sprachcharakteristik wird das Sprachsignal über eine geeignete Funktion beschrieben, während Parameter zur statistischen Beschreibung des Sprachsignals herangezogen werden können. Als Funktion bietet sich beispielsweise eine Gaussfunktion oder eine Summe von Gaussfunktionen an. Die Beschreibung eines Sprachsignals mittels Gausfunktionen wird oft auch als Gaussian Mixture Model GMM bezeichnet. Dieses kann durch folgende Wahrscheinlichkeitsdichte-Funktion (PDF) beschrieben werden:
    Figure 00110001
    wobei
    Figure 00110002
    die Gauss-Wahrscheinlichkeitsdichte Funktion mit einem Mittelwert
    Figure 00110003
    und einer Covarianz Matrix
    Figure 00110004
    darstellt. Die Variable xt stellt dabei ein Sprachsignal der Länge eines Zeitrahmens dar. k ist eine Laufvariable für die Nummer der verwendeten Gaussfunktion bis zur Anzahl von verwendeten Gaussfunktionen K.
  • Im Falle einer diagonalen Covarianz Matrix lässt sich die Gauss-Wahrscheinlichkeitsdichtefunktion folgendermaßen darstellen:
    Figure 00110005
    wobei eine Gaussfunktion bis zu D Dimensionen hat, d ist die Dimensions-Laufvariable und σk,d die Varianz der k-ten Gaussfunktion in der Dimension d darstellt.
  • Damit kann das GMM beschrieben werden als:
    Figure 00110006
    womit das GMM bei Kenntnis von Gleichung (3) sowie des Zeitpunktes t vollständig beschrieben ist durch die statistischen Größen Wahrscheinlichkeit, Mittelwert und Varianz
    Figure 00120001
  • Bei der Geräuschreduktion werden nun diese statistischen Größen dazu verwendet, um das durch Rauschen bzw. Umgebungsgeräusch verzerrte Sprach-Eingangssignals SS des Sprechers wieder seinem "Normalzustand" anzunähern. Dazu wird auch das Sprach-Eingangssignal SS mittels des GMM beschrieben und die aus dem Sprach-Eingangssignals ermittelten statistischen Größen Wahrscheinlichkeit p, Erwartungswert und Varianz mittels der aus der Charakteristik bekannten statistischen Größen normiert. Dies kann beispielsweise folgendermaßen vorgenommen werden: Es wird die Wahrscheinlichkeitsdichtefunktion für die k-te Gaussfunktion bestimmt
    Figure 00120002
    sowie ein entsprechender Normierungsfaktor dafür:
    Figure 00120003
  • Daraus werden die Erwartungswerte für das Sprachsignal x und das quadrierte Sprachsignal x2 bestimmt
    Figure 00120004
  • Damit werden die Parameter des sprecherunabhängigen (beispielsweise schon werkseitig mitgelieferten), sprachenabhängigen GMM (GMM-L-SI) unter Verwendung der nachfolgenden Formeln adaptiert um das sprecherabhängige, sprachenabhängige GMM (GMM-L-SD) zur Geräuschreduktion zu erhalten. Dazu wird die Wahrscheinlichkeit angepasst:
    Figure 00130001
  • Weiterhin der Mittelwert
    Figure 00130002
    sowie die Varianz
    Figure 00130003
    wobei die Variablen
    Figure 00130004
    geeignet gewählt werden.
  • Diese werden beispielsweise durch Versuch und Fehlerbestimmung des Versuchs ("trial and error") bestimmt. Die Werte dieser Variablen bestimmen nur wie viel die neuen Beobachtungen gewichtet werden. Eine Möglichkeit ist
    Figure 00130005
    und α ist ein Normierungsfaktor so dass
    Figure 00130006
  • 5
  • Eine Anwendung dieses Konzepts einer sprecherabhängigen Geräuschreduktion ist im Rahmen einer Spracherkennung in 5 dargestellt. Das Sprach-Eingangssignal SS wird im Rahmen der Merkmalsextraktion FE in Rahmen zerlegt (Schritt F) und einer ersten Vorverarbeitung PP1 unterzogen. Die erste Vorverarbeitung PP1 beinhaltet die Schritte vor der Geräuschreduktion NC (vgl. 4). Das daraus hervorgegangene Signal Z wird einer herkömmlichen Geräuschreduktion NC mittels eines sprachenabhängigen, sprecherunabhängigen GMM's unterzogen. Das daraus hervorgegangene Signal X wird nun in der in 5 dargestellten Trainingssituation zur Erstellung der Sprechercharakteristik XST-L-SD verwendet, welche natürlich auch von der Sprache des Sprechers abhängt. Außerdem wird das Signal X der nachfolgenden Vorverarbeitung PP2, welche die Schritte nach der Geräuschreduktion NC umfasst, unterzogen. Ergebnis der Merkmalsvektorsextraktion FE ist ein Merkmalsvektor FV.
  • Zur Zuordnung eines Merkmalsvektors wird eine Abstandsberechnung D zu dem Prototypen aus dem sprecherunabhängigen HMM (SI-HMM) vorgenommen.
  • Dieser Abstand wird über eine Abstand-zu-Index-Einheit D2I ins sprecherabhängige Vokabular VOC-L-SD, welches natürlich auch sprachenabhängig ist, umgewandelt.
  • 6
  • In 6 ist nun die Erstellung einer sprecherabhängigen Beschreibung des Sprachsignals GMM-L-SD mittels einer bayesischen Adaption BA auf Basis der Sprachcharakteristik XST-L-SD und des sprecherunabhängigen Modells zur Sprachbeschreibung GMM-L-SI zu sehen. Die bayesische Adaption ist in den Gelichungen 9, 10 und 11 beschrieben.
  • 7
  • Die so erstellte sprecherabhängige Beschreibung GMM-L-SD tritt nun in der "Testsituation", d.h. während der tatsächlichen Spracherkennung in 7 bei der Geräuschreduktion NC zur Anwendung. Bei der Spracherkennung selbst wird das sprecherabhängige Vokabular VOC-L-SD neben dem sprecherunabhängigen Vokabular VOC-L-SI eingesetzt.
  • Es gibt nun verschiedene Alternativen zur Implementierung des Geräuschreduktionsverfahrens in ein Kommunikationsgerät. Eine besteht darin, die Sprachcharakteristik XST-L-SD, welche die Parameter wie Wahrscheinlichkeit, Erwartungswert, Variance enthält auf einem nicht flüchtigen Speichermedium, beispielsweise einem Flash-Speicher während des Trainings von beispielsweise Sprachkommandos oder Namen, vergleiche 5, oder während eines speziellen Adaptionsvorgangs abzuspeichern. Die sprecherabhängige Beschreibung GMM-L-SD wird aus der sprecherunabhängigen Beschreibung GMM-L-SI und der Sprachcharakteristik XST-L-SD wie in 6 dargestellt ermittelt. Im Kommunikationsgerät CD liegen sowohl sprecherabhängige Beschreibung GMM-L-SD als auch sprecherunabhängige Beschreibung GMM-L-SI vor, allerdings ist lediglich die sprecherabhängige Beschreibung GMM-L-SD aktiv. Diese Realisierung erlaubt insbesondere das Zurückgehen zu werksseitigen Einstellungen, welche in der sprecherunabhängigen Beschreibung GMM-L-SI festgehalten sind.
  • Eine weitere Option besteht darin, die Sprachcharakteristik XST-L-SD in einem flüchtigen Speicher zu hinterlegen. Die sprecherabhängige Beschreibung GMM-L-SD wird anschließend von der sprecherunabhängigen Beschreibung GMM-L-SI und der Sprachcharakteristik XST-L-SD ermittelt, wie in 6 dargestellt. Die daraus erzeugte sprecherabhängige Beschreibung GMM-L-SD ersetzt die sprecherunabhängige Beschreibung GMM-L-SI auf dem nicht flüchtigen Speicher und die Sprachcharakteristik XST-L-SD wird vom temporären Speicher entfernt, sobald die Adaption fertig gestellt ist. Dies hat den Vorteil, dass sehr wenig Speicherplatz benötigt wird, nämlich nur der für die sprecherunabhängige Beschreibung GMM-L-SI.
  • CS
    Reine Sprache
    LC
    Linearer Kanal
    NS
    Geräuschbehaftete Sprache
    N
    Geräusch
    SS
    Sprachsignal
    PP
    Vorverarbeitung
    FV
    Merkmalsvektor
    D
    Abstandsberechnung
    SI-HMM
    Sprecherunkabhängiges HMM-Modell
    I
    Index
    D2I
    Zuweisung Abstand zu Index
    CD
    Kommunikationsgerät
    SE
    Speichereinheit
    CPU
    Prozessoreinheit
    UI
    Benutzeroberfläche
    ANT
    Antenne
    SR
    Spracherkennungseinheit
    M
    Mikrophon

Claims (9)

  1. Verfahren zur Geräuschreduktion (NC) bei einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: – Erfassen des Sprach-Eingangssignals (SS); – Zugreifen auf eine festgelegte Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers; – Verringern eines Geräuschanteils im Sprach-Eingangssignal (SS) auf Basis mittels der festgelegten Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers.
  2. Verfahren nach Anspruch 1, bei dem die Sprachcharakteristik (GMM-L-SD, XST-L-SD) des Sprechers aus einem Sprachsignal des Sprechers über ein Training ermittelt wird.
  3. Verfahren nach Anspruch 2, bei dem die Sprachcharakteristik (GMM-L-SD, XST-L-SD) durch eine Funktion mit mindestens einer Variablen angenähert wird.
  4. Verfahren nach Anspruch 3, bei dem das Sprachsignal des Sprechers über eine Gaußfunktion oder eine Summe von Gaußfunktionen angenähert wird und die in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) enthaltenen Variablen Mittelwerte und Varianzen der einzelnen Gaußfunktion oder Gaußfunktionen sind.
  5. Verfahren nach Anspruch 4, bei dem in der Summe von Gaußfunktionen die einzelnen Gaußfunktionen gewichtet sind und die Gewichtungsfaktoren in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) erfasst sind.
  6. Verfahren nach einem der Ansprüche 4 oder 5, bei dem die Gaußfunktion eine D-dimensionale Funktion ist, wobei D eine natürliche Zahl darstellt, welche in der Sprachcharakteristik (GMM-L-SD, XST-L-SD) erfasst ist.
  7. Verfahren nach Anspruch 5 oder 6, bei dem die gewichtete Summe von Gaußfunktionen p(xf) durch folgende Funktion gebildet wird:
    Figure 00190001
    wobei xt ein Sprachsignal der Länge eines Zeitrahmens, k ein die Gaußfunktion bezeichnender Laufindex, K die Gesamtzahl der Gaußfunktionen, die zum Beschreiben des Sprachsignals verwendet wird, μk,d der Erwartungswert der k-ten Gaußfunktion in der Dimension d von einer Gesamtzahl von Dimensionen D darstellt, σk,d die zur k-ten Gaußfunktion in der d-ten Dimension zugehörige Varianz und wk der Gewichtungsfaktor für die k-te, D-dimensionale Gaußfunktion.
  8. Spracherkennungsverfahren für zumindest ein Sprachkommando in einem Sprach-Eingangssignal (SS) eines Sprechers mit folgenden Schritten: a) Vorverarbeiten (PP) des Sprach-Eingangssignals (SS) b) Extrahieren von Merkmalsvektoren (FV) aus dem Sprach-Eingangssignal (SS) c) Erkennen des Sprachkommandos anhand eines Vergleichs der Merkmalsvektoren (FV) mit festgelegten Prototyp-Merkmalsvektoren dadurch gekennzeichnet, dass die Vorverarbeitung (PP, PP1, PP2) ein Verfahren zur Geräuschreduktion nach einem der Ansprüche 1 bis 7 umfasst.
  9. Kommunikationsgerät (CD) mit – einem Mikrofon (M) zur Aufnahme eines Sprachsignals; – einer Prozessoreinheit (CPU) zur Verarbeitung des Sprachsignals und Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8; – einer Speichereinheit (SE) zum Abspeichern einer Sprachcharakteristik zumindest eines Sprechers.
DE102004017486A 2004-04-08 2004-04-08 Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal Withdrawn DE102004017486A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102004017486A DE102004017486A1 (de) 2004-04-08 2004-04-08 Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
PCT/EP2004/053014 WO2005098827A1 (de) 2004-04-08 2004-11-19 Verfahren zur geräuschreduktion bei einem sprach-eingangssignal
EP04804542A EP1733384A1 (de) 2004-04-08 2004-11-19 Verfahren zur geräuschreduktion bei einem sprach-eingangssignal
US11/578,128 US20070198255A1 (en) 2004-04-08 2004-11-19 Method For Noise Reduction In A Speech Input Signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004017486A DE102004017486A1 (de) 2004-04-08 2004-04-08 Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Publications (1)

Publication Number Publication Date
DE102004017486A1 true DE102004017486A1 (de) 2005-10-27

Family

ID=35062289

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004017486A Withdrawn DE102004017486A1 (de) 2004-04-08 2004-04-08 Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Country Status (4)

Country Link
US (1) US20070198255A1 (de)
EP (1) EP1733384A1 (de)
DE (1) DE102004017486A1 (de)
WO (1) WO2005098827A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548036B2 (en) 2009-06-24 2013-10-01 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1926087A1 (de) * 2006-11-27 2008-05-28 Siemens Audiologische Technik GmbH Anpassung einer Hörvorrichtung an ein Sprachsignal
EP2058803B1 (de) * 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partielle Sprachrekonstruktion
US8521766B1 (en) * 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
EP3610918B1 (de) * 2009-07-17 2023-09-27 Implantica Patent Ltd. Sprachsteuerung eines medizinischen implantats
US8234111B2 (en) 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
EP2849181A1 (de) * 2013-09-12 2015-03-18 Sony Corporation Stimmfilterverfahren, Vorrichtung und elektronische Ausrüstung
CN104464746A (zh) 2013-09-12 2015-03-25 索尼公司 语音滤波方法、装置以及电子设备
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
CN109087630B (zh) * 2018-08-29 2020-09-15 深圳追一科技有限公司 语音识别的方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0586996A2 (de) * 1992-09-04 1994-03-16 Daimler-Benz Aktiengesellschaft Verfahren zur Spracherkennung mit dem eine Anpassung der Sprachcharakteristiken erreicht wird
DE69121145T2 (de) * 1990-02-28 1996-12-12 Stanford Res Inst Int Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69228034T2 (de) * 1991-09-25 1999-08-26 Matra Nortel Communications Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
DE69522605T2 (de) * 1994-05-13 2002-07-04 Sony Corp., Tokio/Tokyo Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des Rauschbereichs
DE60001398T2 (de) * 1999-04-12 2003-09-04 Telefonaktiebolaget L M Ericsson (Publ), Stockholm System und verfahren zur rauschverminderung im mikrofonpaarsignal mittels spektraler subtraktion
DE69627580T2 (de) * 1995-06-30 2004-03-25 Sony Corp. Verfahren zur Rauschverminderung in einem Sprachsignal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US7346510B2 (en) * 2002-03-19 2008-03-18 Microsoft Corporation Method of speech recognition using variables representing dynamic aspects of speech
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69121145T2 (de) * 1990-02-28 1996-12-12 Stanford Res Inst Int Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69228034T2 (de) * 1991-09-25 1999-08-26 Matra Nortel Communications Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen
EP0586996A2 (de) * 1992-09-04 1994-03-16 Daimler-Benz Aktiengesellschaft Verfahren zur Spracherkennung mit dem eine Anpassung der Sprachcharakteristiken erreicht wird
DE69522605T2 (de) * 1994-05-13 2002-07-04 Sony Corp., Tokio/Tokyo Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des Rauschbereichs
DE69627580T2 (de) * 1995-06-30 2004-03-25 Sony Corp. Verfahren zur Rauschverminderung in einem Sprachsignal
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
DE60001398T2 (de) * 1999-04-12 2003-09-04 Telefonaktiebolaget L M Ericsson (Publ), Stockholm System und verfahren zur rauschverminderung im mikrofonpaarsignal mittels spektraler subtraktion

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548036B2 (en) 2009-06-24 2013-10-01 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system
US8718124B2 (en) 2009-06-24 2014-05-06 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system
DE102010030450B4 (de) * 2009-06-24 2014-10-23 Sumitomo Wiring Systems, Ltd. Rauscherfassungsverfahren, Rauscherfassungsvorrichtung, Simulationsverfahren, Simulationsvorrichtung und Kommunikationssystem
DE102010030450B8 (de) 2009-06-24 2015-01-08 Sumitomo Wiring Systems, Ltd. Rauscherfassungsverfahren, Rauscherfassungsvorrichtung, Simulationsverfahren, Simulationsvorrichtung und Kommunikationssystem

Also Published As

Publication number Publication date
EP1733384A1 (de) 2006-12-20
US20070198255A1 (en) 2007-08-23
WO2005098827A1 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69705891T2 (de) Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells
DE60207784T2 (de) Sprecheranpassung für die Spracherkennung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1159734B1 (de) Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
DE10030105A1 (de) Spracherkennungseinrichtung
WO2004072954A1 (de) Dreistufige einzelworterkennung
EP1084490A1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE60022291T2 (de) Unüberwachte anpassung eines automatischen spracherkenners mit grossem wortschatz
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee