DE602005000539T2

DE602005000539T2 - Verstärkungsgesteuerte Geräuschunterdrückung

Info

Publication number: DE602005000539T2
Application number: DE602005000539T
Authority: DE
Inventors: Kazuhito Redmond Koishida; Feng Redmond Zhuge; Hosam A. Redmond Khalil; Tian Redmond Wang; Wei-ge Redmond Chen
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-06-15
Filing date: 2005-06-09
Publication date: 2007-06-06
Anticipated expiration: 2025-06-10
Also published as: CN1727860B; DE602005000539D1; KR101120679B1; EP1607938B1; US7454332B2; ATE353466T1; CN1727860A; JP4861645B2; KR20060046450A; EP1607938A1; US20050278172A1; JP2006003899A

Description

Technisches Gebiet
Die Erfindung bezieht sich im allgemeinen auf die digitale Audiosignal-Verarbeitung und insbesondere auf die Rauschunterdrückung bei Stimm- oder Sprachsignalen.
Hintergrund
Die Rauschunterdrückung (NS) von Sprachsignalen kann bei vielen Anwendung nützlich sein. Bei der Mobiltelefonie kann die Rauschunterdrückung beispielsweise verwendet werden, um Hintergrundrauschen zu entfernen und dadurch eine einfacher zu erfassende Sprache von Anrufen zu erzeugen, die in geräuschvollen Ümgebungen getätigt werden. In ähnlicher Weise kann die Rauschunterdrückung die wahrnehmbare Qualität und die Spracherfassung bei Telefonkonferenzen, bei Sprach-Chats von Online-Spielen, bei internetbasierten Sprachnachrichten und dem Sprach-Chat sowie anderen ähnlichen Kommunikationsanwendungen verbessern. Das Eingangsaudiosignal ist bei diesen Anwendungen normalerweise von Rauschen begleitet, da die Aufzeichnungsumgebung nicht ideal ist. Zudem kann die Rauschunterdrückung das Kompressionsverhalten verbessern, wenn sie vor dem Codieren oder dem Komprimieren von Sprachsignalen verwendet wird (wie etwa über den Windows Media Voice Codec und andere ähnliche Codecs). Die Rauschunterdrückung kann vor der Spracherkennung angewendet werden, um die Erkennungsgenauigkeit zu verbessern.
Es gibt einige hinlänglich bekannte Techniken für die Rauschunterdrückung in Sprachsignalen, wie etwa die Spektralsubtraktion und die MMSE (Minimum Mean Square Error – Minimaler quadratischer Durchschnittsfehler). Beinahe sämtliche dieser bekannten Techniken unterdrücken das Rauschen durch Anwendung einer Spektralverstärkung G(M,k), basierend auf einer Schätzung des Rauschens im Sprachsignal, auf jeden Kurzzeit-Spektralwert S(m,k) des Sprachsignals, wobei m die Rahmenzahl und k der Spektralindex ist, (Siehe beispielsweise S.F. Boll, A. V. Oppenheim, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoustics, Speech and Signal Processing, ASSP-27(2), April 1979; und Rainer Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing und Minumum Statistics", IEEE Transactions on Speech and Audio Processing, Vol. 9, No. pp. 504-512, Juli 2001.) Eine äußerst geringe Spektralverstärkung wird auf Spektralwerte angewendet, von denen geschätzt wird, dass sie Rauschen enthalten, um so das Rauschen im Signal zu unterdrücken.
US-A-6507623 beschreibt die Glättung der Verstärkung auf einer Kanal-zu-Kanal-Basis, wobei die Glättung stärker ist, wenn die Verstärkung größere Bedeutung hat.
Leider kann die Verwendung der Rauschunterdrückung künstliche Verzerrungen (hörbare "Artefakte") in das Sprachsignal einleiten, da beispielsweise die Spektralverstärkung, die durch die Rauschunterdrückung angewendet wird, entweder zu groß (es wird mehr als nur Rauschen entfernt) oder zu klein (eine vollständige Entfernung des Rauschens schlägt fehl) ist. Ein Artefakt, unter dem zahlreiche NS-Techniken leiden, wird musikalisches Rauschen genannt, bei dem die NS-Technik ein Artefakt hervorruft, das als melodisches Audiosignalmuster wahrgenommen wird, das in der Eingabe nicht vorhanden war. In einigen Fällen, kann dieses musikalische Rauschen auffällig und ablenkend sein, zusätzlich zu der Tatsache, dass es eine ungenaue Darstellung der Sprache ist, die im Eingangsignal vorhanden ist.
Übersicht
Die Erfindung ist in den unabhängigen Ansprüchen 1 und 8 beschrieben.
Bei einer Anwendung der Sprachrauschunterdrückung, die hier beschrieben ist, wird eine neuartige verstärkungsbeschränkte Technik eingeführt, um die Präzision der Rauschunterdrückung zu verbessern und dadurch das Auftreten von Artefakten musikalischen Rauschens zu verringern. Die Technik schätzt das Rauschspektrum während der Sprache und nicht nur während Sprechpausen, so dass die Rauschschätzung während Perioden langen Sprechens präziser gehalten werden kann. Zudem wird eine Rauschschätz-Glättung verwendet, um eine bessere Rauschschätzung zu erzielen. Der Hörtest zeigt, dass diese verstärkungsbeschränkte Rauschunterdrückungstechnik und die Rauschschätz-Glättungstechnik die Sprachqualität von Sprachsignalen deutlich verbessern.
Die Techniken der verstärkungsbeschränkten Rauschunterdrückung und der geglätteten Rauschschätzung können bei Verwendungen einer Rauschunterdrückungsvorrichtung angewendet werden, die mit Anwendung einer Spektralverstärkung G(m,k) auf jeden Kurzzeit-Spektralwert S(m,k) arbeiten. Hier ist m die Rahmenzahl und k der Spektralindex.
Insbesondere wird bei einem Beispiel der Verwendung einer Rauschunterdrückungstechnik das Eingangssprachsignal in Rahmen unterteilt. Ein Analysefenster wird auf jeden Rahmen angewendet, worauf das Signal in ein Frequenzdomänensignal S(m,k) mit Hilfe der schnellen Fouriertransformation (FFT) umgewandelt wird. Die Spektralwerte werden zu N Bins für die weitere Verarbeitung gruppiert. Eine Rauschcharakteristik wird für jeden Bin geschätzt, wenn er als Rausch-Bin klassifiziert wird. Ein Energieparameter wird sowohl in der Zeitdomäne als auch in der Frequenzdomäne geglättet, um eine bessere Rauschschätzung je Bin zu erhalten. Die Verstärkungsfaktoren G(m,k) werden auf der Basis des aktuellen Signalspektrums und der Rauschschätzung berechnet. Ein Verstärkungsglättungsfilter wird angewendet, um die Verstärkungsfaktoren zu glätten, bevor diese auf die Signalspektralwerte S(m,k) angewendet werden. Dieses abgeänderte Signalspektrum wird für die Ausgabe in die Zeitdomäne umgewandelt.
Das Verstärkungsglättungsfilter führt zwei Schritte zur Glättung der Verstärkungsfaktoren aus, bevor diese auf die Spektralwerte angewendet werden. Zunächst wird ein Rauschfaktor ξ(m)∈[0,1] für den aktuellen Rahmen berechnet. Er wird auf der Basis eines Anteils der Zahl der Rausch-Bins an der Gesamtzahl von Bins bestimmt. Ein Nullwert-Rauschfaktor ∈(m)=0 bezeichnet die Verwendung lediglich einer konstanten Verstärkung für alle Spektralwerte, wohingegen ein Rauschfaktor ∈(m)=1 überhaupt keine Glättung kennzeichnet. Anschließend wird dieser Rauschfaktor verwendet, um die Verstärkungsfaktoren G(m,k) zu verändern und so geglättete Verstärkungsfaktoren G_S(m,k) zu erzeugen. Beim Beispiel der Verwendung einer Rauschunterdrückungsvorrichtung geschieht dies durch Anwenden der FFT auf G(m,k), worauf die hohen Frequenzbestandteile abgeschnitten werden.
Zusätzliche Merkmale und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung der Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen deutlich.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockschaltbild einer Vorrichtung zum Unterdrücken von Sprachrauschen, die die hier beschriebene verstärkungsbeschränkte Rauschunterdrückungstechnik anwendet.
2 ist ein Flussdiagramm, das einen verstärkungsbeschränkten Rauschunterdrückungsvorgang darstellt, der in der Vorrichtung zum Unterdrücken von Sprachrauschen aus 1 ausgeführt wird.
3 ist ein Graph, der eine überlappte Fensterfunktion darstellt, die auf das Eingangssprachsignal beim verstärkungsbeschränkten Rauschunterdrückungsvorgang von 2 angewendet wird.
4 ist ein Flussdiagramm, das eine Aktualisierungsbestimmungs-Prüfung darstellt, die beim verstärkungsbeschränkten Rauschunterdrückungsvorgang von 2 ausgeführt wird.
5 und 6 sind Flussdiagramme, die die Aktualisierung von Rauschstatistiken (Mittel und Varianz) auf der Basis der Aktualisierungsbestimmungs-Prüfung darstellen, die beim verstärkungsbeschränkten Rauschunterdrückungsvorgang in 2 ausgeführt wird.
7 ist ein Blockschaltbild einer geeigneten Berechungsumgebung zur Verwendung der Vorrichtung zum Unterdrücken von Sprachrauschen aus 1.
Detaillierte Beschreibung
Die folgende Beschreibung bezieht sich auf verstärkungsbeschränkte Rauschunterdrückungssysteme für die Verwendung bei Audio- oder Sprachverarbeitungssystemen. Wie es in 1 dargestellt ist, kann diese verstärkungsbeschränkte Rauschunterdrückungstechnik auf ein Sprachsignal 115 als Vorprozess (durch die Rauschunterdrückungsvorrichtung 120) in einem verstärkungsbeschränkten Rauschunterdrückungssystem 100 vor der Verarbeitung des resultierenden rauschunterdrückten Sprachsignals 125 durch unterschiedliche Arten von Audiosignalprozessoren 130 (wie etwa Codierung oder Kompression, Sprach-Chat oder Telefonkonferenz, Spracherkennung, etc.) angewendet werden. Der Audiosignalprozessor erzeugt eine verarbeitete Signalausgabe 135 (wie etwa ein Sprach- oder Audiosignal, Spracherkennungsparameter oder andere Analyseparameter, etc.), die durch die verstärkungsbeschränkte Rauschunterdrückung (beispielsweise in der Wahrnehmungsqualität, der Erkennungs- oder Analysepräzision, etc.) verbessert werden kann.
1. Dargestellte Ausführungsform
2 zeigt eine verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200, die in der Rauschunterdrückungsvorrichtung 120 (1) ausgeführt wird. Die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 beginnt mit der Eingabe 210 eines Sprachsignals, wie etwa aus einem Mikrofon oder einer Sprachsignalaufzeichnung. Das Sprachsignal wird bei einer Abtastrate F_S, die normalerweise 8.000, 11.025, 16.000, 22.050 Hz oder eine andere Rate haben kann, die sich für die Anwendung eignet, digitalisiert oder zeitlich abgetastet. Das Eingangssprachsignal hat anschließend die Gestalt einer Sequenz oder eines Stroms von Sprachsignalabtastungen, die mit x(i) gekennzeichnet sind.
In der Pre-Emphasisstufe 220 wird dieses Eingangssprachsignal (x(i)) verarbeitet, um die Sprache beispielsweise über eine Hochpassfilterung zu akzentuieren (wenngleich andere Formen der Emphasis alternativ verwendet werden können). Zunächst erfolgt eine Rahmenbildung, um die Sprachsignalabtastungen zu Rahmen einer voreingestellten Länge N zu gruppieren, die 160 Abtastungen betragen kann. Das durch Rahmenbildung bearbeitete Sprachsignal ist mit x(m,n) gekennzeichnet, wobei m die Rahmenzahl und n die Abtastzahl innerhalb des Rahmens ist. Eine geeignete Hochpassfilterung für die Emphasis kann mit der folgenden Formel dargestellt werden: H(z) = 1 + βz–1 wobei ein geeigneter Wert für β –0,8 ist. Dieses Nochpassfilter kann durch Berechnen des akzentuierten Sprachsignals x_h(m,n) als gewichteter, sich bewegender Durchschnitt der entsprechenden Abtastung des Eingangssprachsignals mit seiner unmittelbar vorausgehenden Abtastung realisiert werden, wie es in der folgenden Gleichung dargestellt ist: xh(m,n) = x(m,n) + β(m,n-1)
Eine Fensterfunktion 300 (die in 3 gezeigt ist), wird anschließend auf eine Überlappungsrahmenfunktion des sprachakzentuierten Signals in der Überlappungsstufe 230 und der Fensterstufe 231 angewendet. Bei einer beispielhaften Anwendung ist die Fensterfunktion w(n) mit der Fensterlänge (L=256) und der Rahmenüberlappung (L_w=48) gegeben durch:
Diese Fensterfunktion wird mit einem überlappten Rahmen (x_w) des akzentuierten (hochpassgefilterten) Signals x_h(m,n-L_w) multipliziert, der gegeben ist durch:
Die Multiplikation erzeugt ein Fenstersignal s_w(m,n), wie in der folgenden Gleichung: sw(m,n) = xw(n)w(n), 0 ≤ n < L
Nach der Fensterbearbeitung wird das Sprachsignal über eine Frequenzanalyse (z.B. mit Hilfe der schnellen Fouriertransformation (FFT) 240 oder einer ähnlichen Transformation) in die Frequenzdomäne transformiert. Dies führt zu einem Satz von Spektralkoeffizienten oder einem Frequenzspektrum für jeden Rahmen des Signals, wie es in der folgenden Gleichung dargestellt ist: S(m,k) = FFTL(sw(m,n))
Die Spektralkoeffizienten sind komplexe Werte und repräsentieren somit sowohl die Spektralamplitude (S_A) als auch die Phase (S_P) des Sprachsignals gemäß den folgenden Beziehungen: SA(m,k) = |S(m,k)| SP(m,k) = tan–1 S(m,k)
Die Spektralamplitude wird im folgenden Vorgang analysiert, um eine präzisere Schätzung des Gewinns zu erzeugen, der bei der Rauschunterdrückung verwendet werden soll, wohingegen die Phase zur Verwendung bei der inversen FTT beibehalten wird.
In den Stufen 250–251 wird eine Frequenz- und Zeitdomänenglättung an den Energiebändern des Spektrums für jeden Rahmen ausgeführt. Eine Gleitfenster-Glättung in der Frequenzdomäne wird zunächst ausgeführt, wie es in der folgenden Gleichung dargestellt ist:
Darauf folgt eine Zeitdomänenglättung, die durch die folgende Gleichung gegeben ist:
wobei
Hier ist der Wert von γ ein Parameter, der variabel gewählt werden kann, um den Glättungsgrad zu steuern. Insbesondere wenn sich der Wert von γ dem Verhältnis (N/F_S) nähert, geht α gegen Null, was zu einer geringeren Glättung führt, wenn die oben erwähnte Zeitdomänenglättung angewendet wird. Wird andererseits der Wert vergrößert (γ→∞), dann nähert sich α einem Einheitswert, wodurch eine größere Glättung erzeugt wird.
Die Stufen 260 und 261 berechnen die Rahmen-Energie bzw. die in der Vergangenheit geringste Energie. Die Rahmen-Energie wird aus der folgenden Gleichung berechnet:
Die niedrigste Energie in der Vergangenheit ist gegeben durch:
wobei M ein konstanter Parameter ist, der normalerweise 1 oder 2 Sekunden repräsentiert.
In einer Aktualisierungsprüfstufe 262 beurteilt die Rauschunterdrückungsvorrichtung 120, ob die Rauschunterdrückungsstatistiken des Sprachsignals aktualisiert werden sollen, die auf der Basis eines Frequenz-Bins verfolgt werden. Die Rauschunterdrückungsvorrichtung 120 gruppiert die Spektralwerte der Sprachsignalrahmen zu einer Anzahl von Frequenz-Bins. Bei der dargestellten Anwendung werden die Spektralwerte (k) zu jeweils einem Spektralwert pro Frequenz-Bin gruppiert. Bei alternativen Anwendungen können unterschiedliche andere Gruppierungen der Spektralwerte der Rahmen zu Frequenz-Bins vorgenommen werden, wie etwa mehr als ein Spektralwert pro Frequenz-Bin, oder nicht einheitliche Gruppierungen von Spektralwerten zu Frequenz-Bins.
4 zeigt eine Prozedur 400, die bei der Aktualisierungsprüfstufe 262 (2) von der Rauschunterdrückungsvorrichtung 120 (1) angewendet wird, um zu bestimmen, ob und wie Rauschstatistiken für das Sprachsignal aktualisiert werden. Bei dieser Prozedur 400 bestimmt die Rauschunterdrückungsvorrichtung, ob die Rauschstatistiken im aktuellen Sprachsignalrahmen rückgesetzt werden sollen, und bestimmt zudem, ob die Rauschstatistiken einzelner Frequenz-Bins aktualisiert werden sollen. Die Rauschunterdrückungsvorrichtung führt diese Prozedur an jedem Rahmen des Sprachsignals aus.
Zunächst prüft (Entscheidung 410) die Rauschunterdrückungsvorrichtung bei der Ermittlung, ob die Rauschstatistiken rückgesetzt werden sollen, ob sich die Rahmen-Energie unter einem ersten Schwellenwertvielfachen (λ₁) der in der Vergan genheit geringsten Energie für das Sprachsignal befindet (was im allgemeinen eine Pause beim Sprechen kennzeichnet), wie es in der folgenden Gleichung dargestellt ist: SE(m) < λ1Smin(m)
Ist dies der Fall (bei Block 415), setzt die Rauschnuterdrückungsvorrichtung ein Kennzeichen für den Rahmen auf ein (R(m)=1) zurück, wodurch gekennzeichnet ist, dass die Rauschstatistiken im aktuellen Rahmen rückgesetzt werden sollen.
Andernfalls schreitet die Rauschunterdrückungsvorrichtung fort um zu prüfen, ob die Frequenz-Bins aktualisiert werden sollen. Für diese Überprüfung (Entscheidung 420) prüft die Rauschunterdrückungsvorrichtung, ob sich die Rahmen-Energie unter einem zweiten (höheren) Schwellenwertvielfachen (λ₂) der in der Vergangenheit niedrigsten Energie befindet (wodurch im allgemeinen eine fortwährende Sprechpause gekennzeichnet ist), wie es in der folgenden Gleichung dargestellt ist: SE(m) < λ2Smin(m)
Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Aktualisierungskennzeichen für die Frequenz-Bins des Rahmens auf Eins (d.h. U(m,k)=1).
Andernfalls bestimmt (innerhalb der "FOR"-Schleifenblöcke 430, 460) die Rauschunterdrückungsvorrichtung auf einer Pro-Frequenz-Bin-Basis, ob das jeweilige Frequenz-Bin aktualisiert werden soll. Für jedes Frequenz-Bin prüft die Rauschunterdrückungsvorrichtung, ob die Rahmen-Energie niedriger ist als eine Funktion von Rausch-Mittel und Rausch-Varianz des entsprechenden Frequenz-Bins im vorausgehenden Rahmen (Entscheidung 440), wie es in der folgenden Gleichung dargestellt ist:
Ist die logarithmische Energie des Frequenz-Bins geringer als die Schwellenwertfunktion von Rausch-Mittel und -Varianz des Frequenz-Bins im vorausgehenden Rahmen, dann setzt die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen für den Frequenz-Bin auf Eins (U(m,k)=1) bei Block 445. Das Aktualisierungskennzeichen für den aktuellen Frequenz-Bin wird bei Block 445 andernfalls auf Null (U(m,k)=0) gesetzt, wenn keine Aktualisierung ausgeführt wird.
Unter erneuter Bezugnahme auf 2 aktualisiert die Rauschunterdrückungsvorrichtung bei Block 263 die Rauschspektralstatistiken pro Frequenz-Bin gemäß den Aktualisierungsbestimmungen, die bei Block 262 vorgenommen wurden. Die Rauschstatistiken, die pro Frequenz-Bin verfolgt werden, enthalten das Rausch-Mittel und die Rausch-Varianz.
5 zeigt eine Prozedur 500 zum Aktualisieren des Rausch-Mittels für einen Sprachsignalrahmen. Bei einer Anfangsentscheidung 510 der Rausch-Mittel-Aktualisierungsprozedur 500 prüft die Rauschunterdrückung, ob das Rücksetzkennzeichen kennzeichnet, dass die Rauschstatistiken für den Rahmen zurückzusetzen sind (d.h. ob R(m)=1). Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Rausch-Mittel-Berechnung für die Frequenz-Bins (0≤k<K) zurück, wie es in der folgenden Gleichung dargestellt ist: SM(m,k) = log SS(m,k)
Ist das Rücksetzkennzeichen für den Rahmen nicht gesetzt (R(m)≠1), aktualisiert die Rauschunterdrückungsvorrichtung das Rausch-Mittel für die Frequenz-Bins gemäß ihrer Aktualisierungskennzeichen. In der "FOR"-Schleife 520, 550 prüft die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen jedes Frequenz-Bins (Entscheidung 530). Ist das Aktualisierungskennzeichen gesetzt (U(m,k)=1), wird das Rausch-Mittel für den Frequenz-Bin als eine gewichtete Summe des Rausch-Mittels des Frequenz-Bins im vorherigen Rahmen und des Sprachsignals des Frequenz-Bins im vorliegenden Rahmen aktualisiert, wie es in der folgenden Gleichung dargestellt ist: SM(m,k) = αMSM (m-1,k) + (1-αM) log SS(m,k)
Andernfalls wird das Rausch-Mittel des Frequenz-Bins nicht aktualisiert und somit vom vorherigen Rahmen übertragen, wie es in der folgenden Gleichung gezeigt ist: SM(m,k) = SM(m-1,k)
6 zeigt eine Prozedur 600 zum Aktualisieren der Rausch-Varianz für einen Sprachsignalrahmen. In einer Anfangsentscheidung 610 der Rausch-Mittel-Prüfprozedur 600 prüft die Rauschunterdrückungsvorrichtung, ob das Rücksetzkennzeichen anzeigt, dass die Rauschstatistiken für den Rahmen zurückgesetzt werden sollen (d.h. ob R(m)=1). Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Rausch-Varianz-Berechnung für die Frequenz-Bins (0≤k<K) zurück, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = |log SS(m,k) – SM(m,k)|2
Ist andernfalls das Rücksetzkennzeichen für den Rahmen nicht gesetzt (R(m)≠1), akualisiert die Rauschunterdrückungsvorrichtung die Rausch-Varianz für die Frequenz-Bins gemäß ihrer Aktualisierungskennzeichen. In der "FOR"-Scheife 620, 650 prüft die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen jedes Frequenz-Bins (Entscheidung 630). Ist das Aktualisierungskennzeichen eingestellt (U(m,k)=1), wird die Rausch-Varianz für den Frequenz-Bin als eine gewichtete Funktion der Rausch-Varianz des Frequenz-Bins im vorhergehenden Rahmen und der des Sprachsignals des Frequenz-Bins im vorherigen Rahmen aktualisiert, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = αVSV(m-1,k) + (1-αV) |log SS(m,k) – SM(m,k)|2
Andernfalls wird die Rausch-Varianz des Frequenz-Bins nicht aktualisiert und somit vom vorherigen Rahmen übertragen, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = SV(m-1,k)
Unter erneuter Bezugnahme auf 2 berechnet und glättet die Rauschunterdrückungsvorrichtung in den nächsten Stufen 270–271 der verstärkungsbeschränkten Rauschunterdrückungsverarbeitung 200 Verstärkungsfaktoren (G(m,k)) auf der Basis des aktuellen Signalspektrums und der Rauschschätzung von Stufe 263, die als Verstärkungsfilter angewendet werden sollen, um das Sprachsignalspektrum an der Stufe 272 abzuändern.
In einer Signalrauschabstands-(SNR-)Verstärkungsfilterstufe 270 berechnet die Rauschunterdrückungsvorrichtung zunächst den SNR der Frequenz-Bins, wie es in der folgenden Gleichung gezeigt ist:
Die Rauschunterdrückungsvorrichtung verwendet anschließend das SNR, um die Verstärkungsfaktoren für das Verstärkungsfilter wie folgt zu berechnen:
In einer Verstärkungsglättungsstufe 271 glättet die Rauschunterdrückungsvorrichtung anschließend die Verstärkungsfaktoren gemäß der Berechnung der "Verrauschung" (im folgenden als "Rauschfaktor" bezeichnet) des Rahmens, wobei eine stärkere Glättung auf stärker verrauschte Rahmen angewendet wird, als sie auf Sprachrahmen angewendet wird. Die Rauschunterdrückungsvorrichtung berechnet ein Rauschverhältnis für den Rahmen als ein Verhältnis der Anzahl ver rauschter Frequenz-Bins (d.h. die Bins, für die Aktualisierung gekennzeichnet sind) zur Gesamtzahl der Bins wie folgt:
Die Rauschunterdrückungsvorrichtung berechnet anschließend einen Glättungsfaktor für den Rahmen (der auf den Bereich 0 bis 1 festgelegt ist) wie folgt:
Bei dieser Anwendung führt die Rauschunterdrückungsvorrichtung eine Glättung in der Frequenzdomäne unter Verwendung der FFT an, um das Verstärkungsfilter in die Frequenzdomäne zu transformieren. Für die Frequenzdomänen-Transformation berechnet die Rauschunterdrückungsvorrichtung einen Satz von expandierten Verstärkungsfaktoren (G'(m,k)) aus den Verstärkungsfaktoren (G(m,k)) wie folgt:
wobei K die Anzahl der Frequenz-Bins ist. L ist normalerweise 2K. Die expandierten Verstärkungsfaktoren kopieren somit wirkungsvoll die Verstärkungsfaktoren von 0 zu K-1 und kopieren ein Spiegelbild der Verstärkungsfaktoren von K zu L-1.
Die Rauschunterdrückungsvorrichtung berechnet anschließend ein Verstärkungsspektrum (g(Λ)) über die FFT der expandierten Verstärkungsfaktoren wie folgt: g(Λ) = FFT(G'(m,k))
Die FFT erzeugt Spektralkoeffizienten, die komplexe Werte haben, aus denen die Amplitude und die Phase des Verstärkungsspektrums wie folgt berechnet werden:
Anschließend glättet die Rauschunterdrückungsvorrichtung das Verstärkungsfilter durch Nullsetzen von Hochfrequenzkomponenten des Verstärkungsspektrums. Die Rauschunterdrückungsvorrichtung behält eine Zahl von Verstärkungsspektralkoeffizienten bis zu einer Zahl auf der Basis des Glättungsfaktors (M(m)) und der Nullsetzung der Komponenten über dieser Zahl gemäß der folgenden Gleichung bei: Ng = abrunden [(1-M(m))(K-1)] + 1so dass
Eine inverse FFT wird anschließend auf dieses reduzierte Verstärkungsspektrum angewendet, um das geglättete Verstärkungsfilter zu erzeugen, durch: GS(m,k) = IFFT(g'Λ(Λ),gP(Λ))
Diese FFT-basierte Glättung erzeugt wirkungsvoll eine geringe oder keine Glättung für einen Glättungsfaktor in der Nähe Null (wobei beispielsweise keine oder wenige "verrauschte" Frequenz-Bins durch das Aktualisierungskennzeichen im Rahmen gekennzeichnet sind) und glättet das Verstärkungsfilter zu einem kon stanten Wert, wenn sich der Glättungsfaktor Eins nähert (beispielsweise mit allen oder beinahe allen "verrauschten" Bins). Demzufolge ist für einen Null-Glättungsfaktor (M(m)=0) das geglättete Verstärkungsfilter: GS(m,k) = G(m,k)
Im Gegensatz dazu ist für einen Glättungsfaktor gleich Eins (M(m)=1) das geglättete Verstärkungsfilter:
In einem nächstens Schritt 272 wendet die Rauschunterdrückungsvorrichtung das resultierende geglättete Verstärkungsfilter auf die Spektralamplitude des Sprachsignalrahmens wie folgt an: S'Λ(m,k) = SΛ(m,k)GS(m,k)
Infolge der Rauschstatistikschätzung und der Glättungsvorgänge sollten die Verstärkungsfaktoren, die auf die verrauschten Bins angewendet werden, im Vergleich zu den nicht verrauschten Frequenz-Bins weitaus geringer sein, so dass das Rauschen im Sprachsignal unterdrückt wird.
Bei Stufe 280 wendet die Rauschunterdrückungsvorrichtung die inverse Transformation auf das Spektrum des Sprachsignals, wie es durch das Verstärkungsfilter abgeändert wurde, wie folgt an: y0(m,n) = IFFTL(S'Λ(m,k), SP(m,k))
Eine Umkehrung der Überlappung und die Pre-Emphasis (Hochpassfilterung) werden anschließend in den Stufen 281, 282 angewendet, um die finale Ausgabe 290 der Rauschunterdrückung zu erzeugen, wie es mit den folgenden Formeln dargestellt ist:
2. Berechnungsumgebung
Das oben beschriebene Rauschunterdrückungssystem 100 (1) und die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 können bei einer beliebigen einer Vielfalt von Vorrichtungen angewendet werden, bei denen eine Audiosignalverarbeitung ausgeführt wird, wie etwa unter anderen bei Computern, Audioabspiel-Sende- und Empfangsgeräten, tragbaren Audioabspielgeräten, Audiokonferenzen, Audio-Web-Streaming-Anwendungen und dergleichen. Die verstärkungsbegrenzte Rauschunterdrückung kann in einer Hardwareschaltung (z.B. in der Schaltung eines ASIC, FPGA, etc.) wie auch in einer Audio-Verarbeitungssoftware angewendet werden, die in einem Computer oder einer anderen Berechnungsumgebung ausgeführt wird (ob in der Zentralverarbeitungseinheit (CPU) oder einem digitalen Signalprozessor, einer Audio-Karte oder dergleichen ausgeführt), wie es in 7 gezeigt ist.
7 zeigt ein allgemeines Beispiel einer geeigneten Berechnungsumgebung (700), in der die beschriebene verstärkungsbeschränkte Rauschunterdrückung angewendet werden kann. Die Berechnungsumgebung (700) soll keine Einschränkung des Geltungsbereiches des Verwendung oder der Funktionalität der Erfindung darstellen, da die vorliegende Erfindung in unterschiedlichen Berechnungsumgebungen für allgemeine oder spezielle Zwecke verwendet werden kann.
Unter Bezugnahme auf 7 enthält die Berechnungsumgebung (700) wenigstens eine Verarbeitungseinheit (710), einen Speicher (710) und einen Speicher (720). In 7 ist diese einfachste Konfiguration (730) von der Strichlinie begrenzt. Die Verarbeitungseinheit (710) führt computerausführbare Anweisungen aus und kann ein realer oder ein virtueller Prozessor sein. In einem Mehrprozessorsystem führen mehrere Verarbeitungseinheiten computerausführbare Anweisungen aus, um die Verarbeitungsleistung zu erhöhen. Der Speicher (720) kann ein flüchtiger Speicher (z.B. ein Register, ein Cache, ein RAM), ein nicht flüchtiger Speicher (z.B. ROM, EEPROM, Flash-Speicher, etc.) oder eine beliebige Kombination der beiden sein. Der Speicher (720) speichert Software (780), die die beschriebenen verstärkungsbeschränkten Rauschunterdrückungstechniken ausführt.
Eine Berechnungsumgebung kann zusätzliche Merkmale haben. Beispielsweise enthält die Berechnungsumgebung (700) einen Speicher (740), eine oder mehrere Eingabevorrichtungen (750), eine oder mehrere Ausgabevorrichtungen (760) und eine oder mehrere Kommunikationsverbindungen (770). Ein Zwischenverbindungsmechanismus (nicht gezeigt), wie etwa ein Bus, ein Controller oder ein Netzwerk, verbindet die Komponenten der Berechungsumgebung (700). Normalerweise stellt eine Betriebssystemsoftware (nicht gezeigt) eine Betriebsumgebung für andere Software bereit, die in der Berechnungsumgebung (700) ausgeführt wird, und koordiniert die Aktivitäten der Komponenten der Berechnungsumgebung (700).
Der Speicher (740) kann entnehmbar oder nicht entnehmbar sein und umfasst Magnetplatten, Magnetbänder oder Kassetten, CD-ROMs, CD-RWs, DVDs oder ein beliebiges anderes Medium, das verwendet werden kann, um Informationen zu speichern, und auf das in der Berechnungsumgebung (700) zugegriffen werden kann. Der Speicher (740) speichert Anweisungen für die Software (780), die die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 (2) ausführt.
Die Eingabevorrichtung(en) (750) kann (können) eine Tasteingabevorrichtung, wie etwa eine Tastatur, eine Maus, ein Stift, ein Trackball, eine Spracheingabevorrichtung, eine Scanvorrichtung oder eine andere Vorrichtung sein, die eine Eingabe für die Berechnungsumgebung (700) bereitstellt. Für Audio kann (können) die Eingabevorrichtung(en) (750) eine Sound-Karte oder eine ähnliche Vorrichtung sein, die eine Audioeingabe in analoger oder digitaler Art gestattet, oder eine CD-ROM-Lesevorrichtung, die der Berechungsvorrichtung Audioabtastungen bereit stellt. Die Ausgabevorrichtung(en) kann (können) eine Anzeigeeinrichtung, ein Drucker, ein Lautsprecher, ein CD-Brenner oder eine andere Vorrichtung sein, die eine Ausgabe aus der Berechnungsumgebung (700) bereitstellt.
Die Kommunikationsverbindungen (770) ermöglichen eine Kommunikation über ein Kommunikationsmedium zu einer weiteren Berechnungseinheit. Das Kommunikationsmedium transportiert Informationen, wie etwa computerlesbare Anweisungen, komprimierte Audio- oder Videoinformationen oder andere Daten, in einem modulierten Datensignal. Ein moduliertes Datensignal ist ein Signal, bei dem eines oder mehrere seiner Charakteristika derart eingestellt oder geändert werden, dass die Informationen im Signal codiert werden. Beispielsweise umfassen Kommunikationsmedien, ohne dabei eine Einschränkung darzustellen, drahtgebundene oder drahtlose Techniken, die mit einem elektrischen, optischen, HF-, Infrarot-, akustischem oder anderem Träger eingesetzt werden.
Die schnellen Kopfhörer-Virtualisierungstechniken können hier im allgemeinen Zusammenhang computerlesbarer Medien beschrieben werden. Computerlesbare Medien sind beliebige verfügbare Medien, auf die in einer Berechnungsumgebung zugegriffen werden kann. Beispielsweise umfassen in der Berechungsumgebung (700) computerlesbare Medien, ohne dabei eine Einschränkung darzustellen, den Speicher (720), den Speicher (740), Kommunikationsmedien und Kombinationen aus beliebigen der oben genannten Medien.
Die schnellen Kopfhörer-Virtualisierungstechniken können hier im allgemeinen Zusammenhang mit computerausführbaren Anweisungen beschrieben werden, wie etwa jenen, die in Programmmodulen enthalten sind, die in einer Berechnungsumgebung auf einem realen oder virtuellen Zielprozessor ausgeführt werden. Im allgemeinen beinhalten Programmmodule Routinen, Programme, Bibliotheken, Objekte, Klassen, Komponenten, Datenstrukturen und dergleichen, die unterschiedliche Aufgaben ausführen oder spezielle abstrakte Datentypen einsetzen. Die Funktionalität der Programmmodule kann kombiniert oder zwischen Programmmodulen aufgeteilt sein, wie es bei unterschiedlichen Ausführungsformen gewünscht ist. Computerausführbare Anweisungen für Programmmodule können innerhalb einer lokalen oder verteilten Berechnungsumgebung ausgeführt werden.
Aus Darstellungsgründen werden in der Beschreibung Begriffe wie "bestimmen", "erzeugen", "einstellen" und "anwenden" verwendet, um Rechenoperationen in einer Berechnungsumgebung zu beschreiben. Diese Begriffe sind Abstraktionen hohen Niveaus für Operationen, die von einem Computer ausgeführt werden, und sollten nicht mit Tätigkeiten verwechselt werden, die von einem Menschen ausgeführt werden. Die tatsächlichen Computeroperationen, die diesen Begriffen entsprechen, können in Abhängigkeit der Anwendung variieren.
Angesichts der zahlreichen möglichen Ausführungsformen, auf die die Prinzipien unserer Erfindung angewendet werden können, beanspruchen wir als unsere Erfindung sämtliche derartige Ausführungsformen, die im Geltungsbereich der folgenden Ansprüche liegen.

Claims

Verfahren zum Unterdrücken von Sprachrauschen, das umfasst: Umwandeln eines Rahmens eines Eingangs-Sprachsignals in eine Frequenzdomänen-Darstellung mit einer Vielzahl von Spektralwerten; Klassifizieren einer Vielzahl von Frequenz-Bins als verrauscht oder nicht verrauscht; Berechnen einer Vielzahl von Verstärkungsfaktoren für die Frequenz-Bins; Berechnen eines Rauschfaktors auf Basis eines Verhältnisses einer Anzahl verrauschter Frequenz-Bins zu einer Gesamtzahl von Frequenz-Bins, der von einem Wert, der keine Glättung anzeigt, zu einem Wert variiert, der Glättung der Verstärkungsfaktoren auf eine konstante Verstärkung anzeigt; Glätten der Verstärkungsfaktoren gemäß dem Rauschfaktor; und Modifizieren der Spektralwerte durch Anwenden der Verstärkungsfaktoren auf entsprechende Spektralwerte; und inverses Transformieren der modifizierten Spektralwerte zu der Zeitdomäne, um ein Ausgangs-Sprachsignal zu erzeugen.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 1, wobei das Glätten der Verstärkungsfaktoren umfasst: Transformieren der Verstärkungsfaktoren zu einer Frequenzdomänen-Darstellung; Abschneiden von Hochfrequenzkomponenten der Frequenzdomänen-Darstellung der Verstärkungsfaktoren gemäß dem Rauschfaktor; und inverses Transformieren der Frequenzdomänen-Darstellung der Verstärkungsfaktoren.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 1, wobei Klassifizieren der Frequenz-Bins umfasst: Berechnen von Rahmenenergie; Tracking eines Schätzwertes von Rausch-Mitttel und -Varianz für die Frequenz-Bins; Klassifizieren eines Frequenz-Bins als verrauscht, wenn die Rahmen-Energie niedriger ist als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz des jeweiligen Frequenz-Bins für den vorangehenden Rahmen; und Aktualisieren des Schätzwertes von Rausch-Mittel und -Varianz für als verrauscht klassifizierte Frequenz-Bins.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, das des Weiteren umfasst: Glätten der Spektralwerte; und Verwenden der geglätteten Spektralwerte beim Berechnen der Rahmen-Energie und des Schätzwertes von Rausch-Mittel und -Varianz.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, wobei das Glätten der Spektralwerte Durchführen von sowohl Zeit- als auch Frequenzdomänen-Glättung der Spektralwerte umfasst.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, das des Weiteren umfasst: Berechnen eines historisch niedrigen Maßes der Rahmen-Energie; Bestimmen, dass der Schätzwert von Rausch-Mittel und -Varianz zurückgesetzt wird, wenn das Maß der Rahmen-Energie niedriger ist als ein erstes Schwellenwert-Vielfaches des historisch niedrigen Maßes der Rahmen-Energie; Bestimmen, dass der Schätzwert von Rauschmittel und -Varianz für die Frequenz-Bins aktualisiert wird, wenn das Maß der Rahmen-Energie niedriger als ein zweites Schwellenwert-Vielfaches des historisch niedrigen Maßes der Rahmen-Energie.
Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, wobei das Berechnen der Verstärkungsfaktoren umfasst: Berechnen der Verstärkungsfaktoren als eine Funktion des Schätzwertes von Rausch-Mittel und des Spektralwertes für den jeweiligen Frequenz-Bin.
Verfahren zum Unterdrücken von Sprachrauschen, die umfasst: eine Einrichtung (240) zum Transformieren eines Rahmens eines Eingangs-Sprachsignals in eine Frequenzdomänen-Darstellung mit einer Vielzahl von Spektralwerten; eine Einrichtung (262) zum Klassifizieren einer Vielzahl von Frequenz-Bins als verrauscht oder nicht verrauscht; eine Einrichtung (270) zum Berechnen einer Vielzahl von Verstärkungsfaktoren für die Frequenz-Bins; eine Einrichtung (262) zum Berechnen eines Rauschfaktors auf Basis eines Verhältnisses einer Anzahl verrauschter Frequenz-Bins zu einer Gesamtzahl von Frequenz-Bins, das von einem Wert, der kein Glätten anzeigt, zu einem Wert variiert, der Glätten der Verstärkungsfaktoren auf eine konstante Verstärkung anzeigt; eine Einrichtung (271) zum Glätten der Verstärkungsfaktoren gemäß dem Rauschfaktor, und eine Einrichtung zum Modifizieren der Spektralwerte durch Anwenden der Verstärkungsfaktoren auf entsprechende Spektralwerte; und eine Einrichtung (280) zum inversen Transformieren der modifizierten Spektralwerte zu der Zeitdömäne, um ein Ausgangs-Sprachsignal zu erzeugen.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 8, wobei die Einrichtung zum Glätten der Verstärkungsfaktoren umfasst: eine Einrichtung zum Transformieren der Verstärkungsfaktoren zu einer Frequenzdomänen-Darstellung; eine Einrichtung zum Abschneiden von Hochfrequenzkomponenten der Frequenzdomänen-Darstellung der Verstärkungsfaktoren gemäß dem Rauschfaktor; und eine Einrichtung zum inversen Transformieren der Frequenzdomänen-Darstellung der Verstärkungsfaktoren.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 8, wobei die Einrichtung zum Klassifizieren der Frequenz-Bins umfasst: eine Einrichtung zum Berechnen von Rahmen-Energie; eine Einrichtung zum Tracking eines Schätzwertes von Rausch-Mittel und -Varianz für die Frequenz-Bins; eine Einrichtung zum Klassifizieren eines Frequenz-Bins als verrauscht, wenn die Rahmen-Energie niedriger ist als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz des jeweiligen Frequenz-Bins für den vorangehenden Rahmen; und eine Einrichtung zum Aktualisieren des Schätzwertes von Rausch-Mittel und -Varianz für als verrauscht klassifizierte Frequenz-Bins.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, die des Weiteren umfasst: eine Einrichtung zum Glätten der Spektralwerte; und eine Einrichtung zum Verwenden der geglätteten Spektralwerte beim Berechnen der Rahmen-Energie und des Schätzwertes von Rausch-Mitteln und -Varianz.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, wobei die Einrichtung zum Glätten der Spektralwerte eine Einrichtung zum Durchführen von sowohl Zeit- als auch Frequenzdomänen-Glätten der Spektralwerte umfasst.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, die des Weiteren umfasst: eine Einrichtung zum Berechnen eines historisch tiefen Maßes der Rahmen-Energie; eine Einrichtung, die bestimmt, dass der Schätzwert von Rausch-Mittel und -Varianz zurückgesetzt wird, wenn das Maß der Rahmen-Energie niedriger ist als ein erstes Schwellenwert-Vielfaches des historisch tiefen Maßes der Rahmen-Energie; eine Einrichtung, die bestimmt, dass der Schätzwert von Rausch-Mitttel und -Varianz für die Frequenz-Bins aktualisiert wird, wenn das Maß der Rahmen-Energie niedriger ist als ein zweites Schwellenwert-Vielfaches des historisch tiefen Maßes der Rahmen-Energie.
Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, wobei die Einrichtung zum Berechnen der Verstärkungsfaktoren umfasst: eine Einrichtung zum Berechnen der Verstärkungsfaktoren als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz und des Spektralwertes für den jeweiligen Frequenz-Bin.