[go: up one dir, main page]

DE602005000539T2 - Verstärkungsgesteuerte Geräuschunterdrückung - Google Patents

Verstärkungsgesteuerte Geräuschunterdrückung Download PDF

Info

Publication number
DE602005000539T2
DE602005000539T2 DE602005000539T DE602005000539T DE602005000539T2 DE 602005000539 T2 DE602005000539 T2 DE 602005000539T2 DE 602005000539 T DE602005000539 T DE 602005000539T DE 602005000539 T DE602005000539 T DE 602005000539T DE 602005000539 T2 DE602005000539 T2 DE 602005000539T2
Authority
DE
Germany
Prior art keywords
noise
frequency
gain
smoothing
spectral values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602005000539T
Other languages
English (en)
Other versions
DE602005000539D1 (de
Inventor
Kazuhito Redmond Koishida
Feng Redmond Zhuge
Hosam A. Redmond Khalil
Tian Redmond Wang
Wei-ge Redmond Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602005000539D1 publication Critical patent/DE602005000539D1/de
Application granted granted Critical
Publication of DE602005000539T2 publication Critical patent/DE602005000539T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/24Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Control Of Amplification And Gain Control (AREA)

Description

  • Technisches Gebiet
  • Die Erfindung bezieht sich im allgemeinen auf die digitale Audiosignal-Verarbeitung und insbesondere auf die Rauschunterdrückung bei Stimm- oder Sprachsignalen.
  • Hintergrund
  • Die Rauschunterdrückung (NS) von Sprachsignalen kann bei vielen Anwendung nützlich sein. Bei der Mobiltelefonie kann die Rauschunterdrückung beispielsweise verwendet werden, um Hintergrundrauschen zu entfernen und dadurch eine einfacher zu erfassende Sprache von Anrufen zu erzeugen, die in geräuschvollen Ümgebungen getätigt werden. In ähnlicher Weise kann die Rauschunterdrückung die wahrnehmbare Qualität und die Spracherfassung bei Telefonkonferenzen, bei Sprach-Chats von Online-Spielen, bei internetbasierten Sprachnachrichten und dem Sprach-Chat sowie anderen ähnlichen Kommunikationsanwendungen verbessern. Das Eingangsaudiosignal ist bei diesen Anwendungen normalerweise von Rauschen begleitet, da die Aufzeichnungsumgebung nicht ideal ist. Zudem kann die Rauschunterdrückung das Kompressionsverhalten verbessern, wenn sie vor dem Codieren oder dem Komprimieren von Sprachsignalen verwendet wird (wie etwa über den Windows Media Voice Codec und andere ähnliche Codecs). Die Rauschunterdrückung kann vor der Spracherkennung angewendet werden, um die Erkennungsgenauigkeit zu verbessern.
  • Es gibt einige hinlänglich bekannte Techniken für die Rauschunterdrückung in Sprachsignalen, wie etwa die Spektralsubtraktion und die MMSE (Minimum Mean Square Error – Minimaler quadratischer Durchschnittsfehler). Beinahe sämtliche dieser bekannten Techniken unterdrücken das Rauschen durch Anwendung einer Spektralverstärkung G(M,k), basierend auf einer Schätzung des Rauschens im Sprachsignal, auf jeden Kurzzeit-Spektralwert S(m,k) des Sprachsignals, wobei m die Rahmenzahl und k der Spektralindex ist, (Siehe beispielsweise S.F. Boll, A. V. Oppenheim, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoustics, Speech and Signal Processing, ASSP-27(2), April 1979; und Rainer Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing und Minumum Statistics", IEEE Transactions on Speech and Audio Processing, Vol. 9, No. pp. 504-512, Juli 2001.) Eine äußerst geringe Spektralverstärkung wird auf Spektralwerte angewendet, von denen geschätzt wird, dass sie Rauschen enthalten, um so das Rauschen im Signal zu unterdrücken.
  • US-A-6507623 beschreibt die Glättung der Verstärkung auf einer Kanal-zu-Kanal-Basis, wobei die Glättung stärker ist, wenn die Verstärkung größere Bedeutung hat.
  • Leider kann die Verwendung der Rauschunterdrückung künstliche Verzerrungen (hörbare "Artefakte") in das Sprachsignal einleiten, da beispielsweise die Spektralverstärkung, die durch die Rauschunterdrückung angewendet wird, entweder zu groß (es wird mehr als nur Rauschen entfernt) oder zu klein (eine vollständige Entfernung des Rauschens schlägt fehl) ist. Ein Artefakt, unter dem zahlreiche NS-Techniken leiden, wird musikalisches Rauschen genannt, bei dem die NS-Technik ein Artefakt hervorruft, das als melodisches Audiosignalmuster wahrgenommen wird, das in der Eingabe nicht vorhanden war. In einigen Fällen, kann dieses musikalische Rauschen auffällig und ablenkend sein, zusätzlich zu der Tatsache, dass es eine ungenaue Darstellung der Sprache ist, die im Eingangsignal vorhanden ist.
  • Übersicht
  • Die Erfindung ist in den unabhängigen Ansprüchen 1 und 8 beschrieben.
  • Bei einer Anwendung der Sprachrauschunterdrückung, die hier beschrieben ist, wird eine neuartige verstärkungsbeschränkte Technik eingeführt, um die Präzision der Rauschunterdrückung zu verbessern und dadurch das Auftreten von Artefakten musikalischen Rauschens zu verringern. Die Technik schätzt das Rauschspektrum während der Sprache und nicht nur während Sprechpausen, so dass die Rauschschätzung während Perioden langen Sprechens präziser gehalten werden kann. Zudem wird eine Rauschschätz-Glättung verwendet, um eine bessere Rauschschätzung zu erzielen. Der Hörtest zeigt, dass diese verstärkungsbeschränkte Rauschunterdrückungstechnik und die Rauschschätz-Glättungstechnik die Sprachqualität von Sprachsignalen deutlich verbessern.
  • Die Techniken der verstärkungsbeschränkten Rauschunterdrückung und der geglätteten Rauschschätzung können bei Verwendungen einer Rauschunterdrückungsvorrichtung angewendet werden, die mit Anwendung einer Spektralverstärkung G(m,k) auf jeden Kurzzeit-Spektralwert S(m,k) arbeiten. Hier ist m die Rahmenzahl und k der Spektralindex.
  • Insbesondere wird bei einem Beispiel der Verwendung einer Rauschunterdrückungstechnik das Eingangssprachsignal in Rahmen unterteilt. Ein Analysefenster wird auf jeden Rahmen angewendet, worauf das Signal in ein Frequenzdomänensignal S(m,k) mit Hilfe der schnellen Fouriertransformation (FFT) umgewandelt wird. Die Spektralwerte werden zu N Bins für die weitere Verarbeitung gruppiert. Eine Rauschcharakteristik wird für jeden Bin geschätzt, wenn er als Rausch-Bin klassifiziert wird. Ein Energieparameter wird sowohl in der Zeitdomäne als auch in der Frequenzdomäne geglättet, um eine bessere Rauschschätzung je Bin zu erhalten. Die Verstärkungsfaktoren G(m,k) werden auf der Basis des aktuellen Signalspektrums und der Rauschschätzung berechnet. Ein Verstärkungsglättungsfilter wird angewendet, um die Verstärkungsfaktoren zu glätten, bevor diese auf die Signalspektralwerte S(m,k) angewendet werden. Dieses abgeänderte Signalspektrum wird für die Ausgabe in die Zeitdomäne umgewandelt.
  • Das Verstärkungsglättungsfilter führt zwei Schritte zur Glättung der Verstärkungsfaktoren aus, bevor diese auf die Spektralwerte angewendet werden. Zunächst wird ein Rauschfaktor ξ(m)∈[0,1] für den aktuellen Rahmen berechnet. Er wird auf der Basis eines Anteils der Zahl der Rausch-Bins an der Gesamtzahl von Bins bestimmt. Ein Nullwert-Rauschfaktor ∈(m)=0 bezeichnet die Verwendung lediglich einer konstanten Verstärkung für alle Spektralwerte, wohingegen ein Rauschfaktor ∈(m)=1 überhaupt keine Glättung kennzeichnet. Anschließend wird dieser Rauschfaktor verwendet, um die Verstärkungsfaktoren G(m,k) zu verändern und so geglättete Verstärkungsfaktoren GS(m,k) zu erzeugen. Beim Beispiel der Verwendung einer Rauschunterdrückungsvorrichtung geschieht dies durch Anwenden der FFT auf G(m,k), worauf die hohen Frequenzbestandteile abgeschnitten werden.
  • Zusätzliche Merkmale und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung der Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen deutlich.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockschaltbild einer Vorrichtung zum Unterdrücken von Sprachrauschen, die die hier beschriebene verstärkungsbeschränkte Rauschunterdrückungstechnik anwendet.
  • 2 ist ein Flussdiagramm, das einen verstärkungsbeschränkten Rauschunterdrückungsvorgang darstellt, der in der Vorrichtung zum Unterdrücken von Sprachrauschen aus 1 ausgeführt wird.
  • 3 ist ein Graph, der eine überlappte Fensterfunktion darstellt, die auf das Eingangssprachsignal beim verstärkungsbeschränkten Rauschunterdrückungsvorgang von 2 angewendet wird.
  • 4 ist ein Flussdiagramm, das eine Aktualisierungsbestimmungs-Prüfung darstellt, die beim verstärkungsbeschränkten Rauschunterdrückungsvorgang von 2 ausgeführt wird.
  • 5 und 6 sind Flussdiagramme, die die Aktualisierung von Rauschstatistiken (Mittel und Varianz) auf der Basis der Aktualisierungsbestimmungs-Prüfung darstellen, die beim verstärkungsbeschränkten Rauschunterdrückungsvorgang in 2 ausgeführt wird.
  • 7 ist ein Blockschaltbild einer geeigneten Berechungsumgebung zur Verwendung der Vorrichtung zum Unterdrücken von Sprachrauschen aus 1.
  • Detaillierte Beschreibung
  • Die folgende Beschreibung bezieht sich auf verstärkungsbeschränkte Rauschunterdrückungssysteme für die Verwendung bei Audio- oder Sprachverarbeitungssystemen. Wie es in 1 dargestellt ist, kann diese verstärkungsbeschränkte Rauschunterdrückungstechnik auf ein Sprachsignal 115 als Vorprozess (durch die Rauschunterdrückungsvorrichtung 120) in einem verstärkungsbeschränkten Rauschunterdrückungssystem 100 vor der Verarbeitung des resultierenden rauschunterdrückten Sprachsignals 125 durch unterschiedliche Arten von Audiosignalprozessoren 130 (wie etwa Codierung oder Kompression, Sprach-Chat oder Telefonkonferenz, Spracherkennung, etc.) angewendet werden. Der Audiosignalprozessor erzeugt eine verarbeitete Signalausgabe 135 (wie etwa ein Sprach- oder Audiosignal, Spracherkennungsparameter oder andere Analyseparameter, etc.), die durch die verstärkungsbeschränkte Rauschunterdrückung (beispielsweise in der Wahrnehmungsqualität, der Erkennungs- oder Analysepräzision, etc.) verbessert werden kann.
  • 1. Dargestellte Ausführungsform
  • 2 zeigt eine verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200, die in der Rauschunterdrückungsvorrichtung 120 (1) ausgeführt wird. Die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 beginnt mit der Eingabe 210 eines Sprachsignals, wie etwa aus einem Mikrofon oder einer Sprachsignalaufzeichnung. Das Sprachsignal wird bei einer Abtastrate FS, die normalerweise 8.000, 11.025, 16.000, 22.050 Hz oder eine andere Rate haben kann, die sich für die Anwendung eignet, digitalisiert oder zeitlich abgetastet. Das Eingangssprachsignal hat anschließend die Gestalt einer Sequenz oder eines Stroms von Sprachsignalabtastungen, die mit x(i) gekennzeichnet sind.
  • In der Pre-Emphasisstufe 220 wird dieses Eingangssprachsignal (x(i)) verarbeitet, um die Sprache beispielsweise über eine Hochpassfilterung zu akzentuieren (wenngleich andere Formen der Emphasis alternativ verwendet werden können). Zunächst erfolgt eine Rahmenbildung, um die Sprachsignalabtastungen zu Rahmen einer voreingestellten Länge N zu gruppieren, die 160 Abtastungen betragen kann. Das durch Rahmenbildung bearbeitete Sprachsignal ist mit x(m,n) gekennzeichnet, wobei m die Rahmenzahl und n die Abtastzahl innerhalb des Rahmens ist. Eine geeignete Hochpassfilterung für die Emphasis kann mit der folgenden Formel dargestellt werden: H(z) = 1 + βz–1 wobei ein geeigneter Wert für β –0,8 ist. Dieses Nochpassfilter kann durch Berechnen des akzentuierten Sprachsignals xh(m,n) als gewichteter, sich bewegender Durchschnitt der entsprechenden Abtastung des Eingangssprachsignals mit seiner unmittelbar vorausgehenden Abtastung realisiert werden, wie es in der folgenden Gleichung dargestellt ist: xh(m,n) = x(m,n) + β(m,n-1)
  • Eine Fensterfunktion 300 (die in 3 gezeigt ist), wird anschließend auf eine Überlappungsrahmenfunktion des sprachakzentuierten Signals in der Überlappungsstufe 230 und der Fensterstufe 231 angewendet. Bei einer beispielhaften Anwendung ist die Fensterfunktion w(n) mit der Fensterlänge (L=256) und der Rahmenüberlappung (Lw=48) gegeben durch:
    Figure 00060001
  • Diese Fensterfunktion wird mit einem überlappten Rahmen (xw) des akzentuierten (hochpassgefilterten) Signals xh(m,n-Lw) multipliziert, der gegeben ist durch:
    Figure 00070001
  • Die Multiplikation erzeugt ein Fenstersignal sw(m,n), wie in der folgenden Gleichung: sw(m,n) = xw(n)w(n), 0 ≤ n < L
  • Nach der Fensterbearbeitung wird das Sprachsignal über eine Frequenzanalyse (z.B. mit Hilfe der schnellen Fouriertransformation (FFT) 240 oder einer ähnlichen Transformation) in die Frequenzdomäne transformiert. Dies führt zu einem Satz von Spektralkoeffizienten oder einem Frequenzspektrum für jeden Rahmen des Signals, wie es in der folgenden Gleichung dargestellt ist: S(m,k) = FFTL(sw(m,n))
  • Die Spektralkoeffizienten sind komplexe Werte und repräsentieren somit sowohl die Spektralamplitude (SA) als auch die Phase (SP) des Sprachsignals gemäß den folgenden Beziehungen: SA(m,k) = |S(m,k)| SP(m,k) = tan–1 S(m,k)
  • Die Spektralamplitude wird im folgenden Vorgang analysiert, um eine präzisere Schätzung des Gewinns zu erzeugen, der bei der Rauschunterdrückung verwendet werden soll, wohingegen die Phase zur Verwendung bei der inversen FTT beibehalten wird.
  • In den Stufen 250251 wird eine Frequenz- und Zeitdomänenglättung an den Energiebändern des Spektrums für jeden Rahmen ausgeführt. Eine Gleitfenster-Glättung in der Frequenzdomäne wird zunächst ausgeführt, wie es in der folgenden Gleichung dargestellt ist:
    Figure 00080001
  • Darauf folgt eine Zeitdomänenglättung, die durch die folgende Gleichung gegeben ist:
    Figure 00080002
    wobei
  • Figure 00080003
  • Hier ist der Wert von γ ein Parameter, der variabel gewählt werden kann, um den Glättungsgrad zu steuern. Insbesondere wenn sich der Wert von γ dem Verhältnis (N/FS) nähert, geht α gegen Null, was zu einer geringeren Glättung führt, wenn die oben erwähnte Zeitdomänenglättung angewendet wird. Wird andererseits der Wert vergrößert (γ→∞), dann nähert sich α einem Einheitswert, wodurch eine größere Glättung erzeugt wird.
  • Die Stufen 260 und 261 berechnen die Rahmen-Energie bzw. die in der Vergangenheit geringste Energie. Die Rahmen-Energie wird aus der folgenden Gleichung berechnet:
    Figure 00090001
  • Die niedrigste Energie in der Vergangenheit ist gegeben durch:
    Figure 00090002
    wobei M ein konstanter Parameter ist, der normalerweise 1 oder 2 Sekunden repräsentiert.
  • In einer Aktualisierungsprüfstufe 262 beurteilt die Rauschunterdrückungsvorrichtung 120, ob die Rauschunterdrückungsstatistiken des Sprachsignals aktualisiert werden sollen, die auf der Basis eines Frequenz-Bins verfolgt werden. Die Rauschunterdrückungsvorrichtung 120 gruppiert die Spektralwerte der Sprachsignalrahmen zu einer Anzahl von Frequenz-Bins. Bei der dargestellten Anwendung werden die Spektralwerte (k) zu jeweils einem Spektralwert pro Frequenz-Bin gruppiert. Bei alternativen Anwendungen können unterschiedliche andere Gruppierungen der Spektralwerte der Rahmen zu Frequenz-Bins vorgenommen werden, wie etwa mehr als ein Spektralwert pro Frequenz-Bin, oder nicht einheitliche Gruppierungen von Spektralwerten zu Frequenz-Bins.
  • 4 zeigt eine Prozedur 400, die bei der Aktualisierungsprüfstufe 262 (2) von der Rauschunterdrückungsvorrichtung 120 (1) angewendet wird, um zu bestimmen, ob und wie Rauschstatistiken für das Sprachsignal aktualisiert werden. Bei dieser Prozedur 400 bestimmt die Rauschunterdrückungsvorrichtung, ob die Rauschstatistiken im aktuellen Sprachsignalrahmen rückgesetzt werden sollen, und bestimmt zudem, ob die Rauschstatistiken einzelner Frequenz-Bins aktualisiert werden sollen. Die Rauschunterdrückungsvorrichtung führt diese Prozedur an jedem Rahmen des Sprachsignals aus.
  • Zunächst prüft (Entscheidung 410) die Rauschunterdrückungsvorrichtung bei der Ermittlung, ob die Rauschstatistiken rückgesetzt werden sollen, ob sich die Rahmen-Energie unter einem ersten Schwellenwertvielfachen (λ1) der in der Vergan genheit geringsten Energie für das Sprachsignal befindet (was im allgemeinen eine Pause beim Sprechen kennzeichnet), wie es in der folgenden Gleichung dargestellt ist: SE(m) < λ1Smin(m)
  • Ist dies der Fall (bei Block 415), setzt die Rauschnuterdrückungsvorrichtung ein Kennzeichen für den Rahmen auf ein (R(m)=1) zurück, wodurch gekennzeichnet ist, dass die Rauschstatistiken im aktuellen Rahmen rückgesetzt werden sollen.
  • Andernfalls schreitet die Rauschunterdrückungsvorrichtung fort um zu prüfen, ob die Frequenz-Bins aktualisiert werden sollen. Für diese Überprüfung (Entscheidung 420) prüft die Rauschunterdrückungsvorrichtung, ob sich die Rahmen-Energie unter einem zweiten (höheren) Schwellenwertvielfachen (λ2) der in der Vergangenheit niedrigsten Energie befindet (wodurch im allgemeinen eine fortwährende Sprechpause gekennzeichnet ist), wie es in der folgenden Gleichung dargestellt ist: SE(m) < λ2Smin(m)
  • Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Aktualisierungskennzeichen für die Frequenz-Bins des Rahmens auf Eins (d.h. U(m,k)=1).
  • Andernfalls bestimmt (innerhalb der "FOR"-Schleifenblöcke 430, 460) die Rauschunterdrückungsvorrichtung auf einer Pro-Frequenz-Bin-Basis, ob das jeweilige Frequenz-Bin aktualisiert werden soll. Für jedes Frequenz-Bin prüft die Rauschunterdrückungsvorrichtung, ob die Rahmen-Energie niedriger ist als eine Funktion von Rausch-Mittel und Rausch-Varianz des entsprechenden Frequenz-Bins im vorausgehenden Rahmen (Entscheidung 440), wie es in der folgenden Gleichung dargestellt ist:
    Figure 00100001
  • Ist die logarithmische Energie des Frequenz-Bins geringer als die Schwellenwertfunktion von Rausch-Mittel und -Varianz des Frequenz-Bins im vorausgehenden Rahmen, dann setzt die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen für den Frequenz-Bin auf Eins (U(m,k)=1) bei Block 445. Das Aktualisierungskennzeichen für den aktuellen Frequenz-Bin wird bei Block 445 andernfalls auf Null (U(m,k)=0) gesetzt, wenn keine Aktualisierung ausgeführt wird.
  • Unter erneuter Bezugnahme auf 2 aktualisiert die Rauschunterdrückungsvorrichtung bei Block 263 die Rauschspektralstatistiken pro Frequenz-Bin gemäß den Aktualisierungsbestimmungen, die bei Block 262 vorgenommen wurden. Die Rauschstatistiken, die pro Frequenz-Bin verfolgt werden, enthalten das Rausch-Mittel und die Rausch-Varianz.
  • 5 zeigt eine Prozedur 500 zum Aktualisieren des Rausch-Mittels für einen Sprachsignalrahmen. Bei einer Anfangsentscheidung 510 der Rausch-Mittel-Aktualisierungsprozedur 500 prüft die Rauschunterdrückung, ob das Rücksetzkennzeichen kennzeichnet, dass die Rauschstatistiken für den Rahmen zurückzusetzen sind (d.h. ob R(m)=1). Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Rausch-Mittel-Berechnung für die Frequenz-Bins (0≤k<K) zurück, wie es in der folgenden Gleichung dargestellt ist: SM(m,k) = log SS(m,k)
  • Ist das Rücksetzkennzeichen für den Rahmen nicht gesetzt (R(m)≠1), aktualisiert die Rauschunterdrückungsvorrichtung das Rausch-Mittel für die Frequenz-Bins gemäß ihrer Aktualisierungskennzeichen. In der "FOR"-Schleife 520, 550 prüft die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen jedes Frequenz-Bins (Entscheidung 530). Ist das Aktualisierungskennzeichen gesetzt (U(m,k)=1), wird das Rausch-Mittel für den Frequenz-Bin als eine gewichtete Summe des Rausch-Mittels des Frequenz-Bins im vorherigen Rahmen und des Sprachsignals des Frequenz-Bins im vorliegenden Rahmen aktualisiert, wie es in der folgenden Gleichung dargestellt ist: SM(m,k) = αMSM (m-1,k) + (1-αM) log SS(m,k)
  • Andernfalls wird das Rausch-Mittel des Frequenz-Bins nicht aktualisiert und somit vom vorherigen Rahmen übertragen, wie es in der folgenden Gleichung gezeigt ist: SM(m,k) = SM(m-1,k)
  • 6 zeigt eine Prozedur 600 zum Aktualisieren der Rausch-Varianz für einen Sprachsignalrahmen. In einer Anfangsentscheidung 610 der Rausch-Mittel-Prüfprozedur 600 prüft die Rauschunterdrückungsvorrichtung, ob das Rücksetzkennzeichen anzeigt, dass die Rauschstatistiken für den Rahmen zurückgesetzt werden sollen (d.h. ob R(m)=1). Ist dies der Fall, setzt die Rauschunterdrückungsvorrichtung die Rausch-Varianz-Berechnung für die Frequenz-Bins (0≤k<K) zurück, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = |log SS(m,k) – SM(m,k)|2
  • Ist andernfalls das Rücksetzkennzeichen für den Rahmen nicht gesetzt (R(m)≠1), akualisiert die Rauschunterdrückungsvorrichtung die Rausch-Varianz für die Frequenz-Bins gemäß ihrer Aktualisierungskennzeichen. In der "FOR"-Scheife 620, 650 prüft die Rauschunterdrückungsvorrichtung das Aktualisierungskennzeichen jedes Frequenz-Bins (Entscheidung 630). Ist das Aktualisierungskennzeichen eingestellt (U(m,k)=1), wird die Rausch-Varianz für den Frequenz-Bin als eine gewichtete Funktion der Rausch-Varianz des Frequenz-Bins im vorhergehenden Rahmen und der des Sprachsignals des Frequenz-Bins im vorherigen Rahmen aktualisiert, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = αVSV(m-1,k) + (1-αV) |log SS(m,k) – SM(m,k)|2
  • Andernfalls wird die Rausch-Varianz des Frequenz-Bins nicht aktualisiert und somit vom vorherigen Rahmen übertragen, wie es in der folgenden Gleichung gezeigt ist: SV(m,k) = SV(m-1,k)
  • Unter erneuter Bezugnahme auf 2 berechnet und glättet die Rauschunterdrückungsvorrichtung in den nächsten Stufen 270271 der verstärkungsbeschränkten Rauschunterdrückungsverarbeitung 200 Verstärkungsfaktoren (G(m,k)) auf der Basis des aktuellen Signalspektrums und der Rauschschätzung von Stufe 263, die als Verstärkungsfilter angewendet werden sollen, um das Sprachsignalspektrum an der Stufe 272 abzuändern.
  • In einer Signalrauschabstands-(SNR-)Verstärkungsfilterstufe 270 berechnet die Rauschunterdrückungsvorrichtung zunächst den SNR der Frequenz-Bins, wie es in der folgenden Gleichung gezeigt ist:
    Figure 00130001
  • Die Rauschunterdrückungsvorrichtung verwendet anschließend das SNR, um die Verstärkungsfaktoren für das Verstärkungsfilter wie folgt zu berechnen:
    Figure 00130002
  • In einer Verstärkungsglättungsstufe 271 glättet die Rauschunterdrückungsvorrichtung anschließend die Verstärkungsfaktoren gemäß der Berechnung der "Verrauschung" (im folgenden als "Rauschfaktor" bezeichnet) des Rahmens, wobei eine stärkere Glättung auf stärker verrauschte Rahmen angewendet wird, als sie auf Sprachrahmen angewendet wird. Die Rauschunterdrückungsvorrichtung berechnet ein Rauschverhältnis für den Rahmen als ein Verhältnis der Anzahl ver rauschter Frequenz-Bins (d.h. die Bins, für die Aktualisierung gekennzeichnet sind) zur Gesamtzahl der Bins wie folgt:
    Figure 00140001
  • Die Rauschunterdrückungsvorrichtung berechnet anschließend einen Glättungsfaktor für den Rahmen (der auf den Bereich 0 bis 1 festgelegt ist) wie folgt:
    Figure 00140002
  • Bei dieser Anwendung führt die Rauschunterdrückungsvorrichtung eine Glättung in der Frequenzdomäne unter Verwendung der FFT an, um das Verstärkungsfilter in die Frequenzdomäne zu transformieren. Für die Frequenzdomänen-Transformation berechnet die Rauschunterdrückungsvorrichtung einen Satz von expandierten Verstärkungsfaktoren (G'(m,k)) aus den Verstärkungsfaktoren (G(m,k)) wie folgt:
    Figure 00140003
    wobei K die Anzahl der Frequenz-Bins ist. L ist normalerweise 2K. Die expandierten Verstärkungsfaktoren kopieren somit wirkungsvoll die Verstärkungsfaktoren von 0 zu K-1 und kopieren ein Spiegelbild der Verstärkungsfaktoren von K zu L-1.
  • Die Rauschunterdrückungsvorrichtung berechnet anschließend ein Verstärkungsspektrum (g(Λ)) über die FFT der expandierten Verstärkungsfaktoren wie folgt: g(Λ) = FFT(G'(m,k))
  • Die FFT erzeugt Spektralkoeffizienten, die komplexe Werte haben, aus denen die Amplitude und die Phase des Verstärkungsspektrums wie folgt berechnet werden:
    Figure 00150001
  • Anschließend glättet die Rauschunterdrückungsvorrichtung das Verstärkungsfilter durch Nullsetzen von Hochfrequenzkomponenten des Verstärkungsspektrums. Die Rauschunterdrückungsvorrichtung behält eine Zahl von Verstärkungsspektralkoeffizienten bis zu einer Zahl auf der Basis des Glättungsfaktors (M(m)) und der Nullsetzung der Komponenten über dieser Zahl gemäß der folgenden Gleichung bei: Ng = abrunden [(1-M(m))(K-1)] + 1so dass
    Figure 00150002
  • Eine inverse FFT wird anschließend auf dieses reduzierte Verstärkungsspektrum angewendet, um das geglättete Verstärkungsfilter zu erzeugen, durch: GS(m,k) = IFFT(g'Λ(Λ),gP(Λ))
  • Diese FFT-basierte Glättung erzeugt wirkungsvoll eine geringe oder keine Glättung für einen Glättungsfaktor in der Nähe Null (wobei beispielsweise keine oder wenige "verrauschte" Frequenz-Bins durch das Aktualisierungskennzeichen im Rahmen gekennzeichnet sind) und glättet das Verstärkungsfilter zu einem kon stanten Wert, wenn sich der Glättungsfaktor Eins nähert (beispielsweise mit allen oder beinahe allen "verrauschten" Bins). Demzufolge ist für einen Null-Glättungsfaktor (M(m)=0) das geglättete Verstärkungsfilter: GS(m,k) = G(m,k)
  • Im Gegensatz dazu ist für einen Glättungsfaktor gleich Eins (M(m)=1) das geglättete Verstärkungsfilter:
    Figure 00160001
  • In einem nächstens Schritt 272 wendet die Rauschunterdrückungsvorrichtung das resultierende geglättete Verstärkungsfilter auf die Spektralamplitude des Sprachsignalrahmens wie folgt an: S'Λ(m,k) = SΛ(m,k)GS(m,k)
  • Infolge der Rauschstatistikschätzung und der Glättungsvorgänge sollten die Verstärkungsfaktoren, die auf die verrauschten Bins angewendet werden, im Vergleich zu den nicht verrauschten Frequenz-Bins weitaus geringer sein, so dass das Rauschen im Sprachsignal unterdrückt wird.
  • Bei Stufe 280 wendet die Rauschunterdrückungsvorrichtung die inverse Transformation auf das Spektrum des Sprachsignals, wie es durch das Verstärkungsfilter abgeändert wurde, wie folgt an: y0(m,n) = IFFTL(S'Λ(m,k), SP(m,k))
  • Eine Umkehrung der Überlappung und die Pre-Emphasis (Hochpassfilterung) werden anschließend in den Stufen 281, 282 angewendet, um die finale Ausgabe 290 der Rauschunterdrückung zu erzeugen, wie es mit den folgenden Formeln dargestellt ist:
    Figure 00170001
  • 2. Berechnungsumgebung
  • Das oben beschriebene Rauschunterdrückungssystem 100 (1) und die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 können bei einer beliebigen einer Vielfalt von Vorrichtungen angewendet werden, bei denen eine Audiosignalverarbeitung ausgeführt wird, wie etwa unter anderen bei Computern, Audioabspiel-Sende- und Empfangsgeräten, tragbaren Audioabspielgeräten, Audiokonferenzen, Audio-Web-Streaming-Anwendungen und dergleichen. Die verstärkungsbegrenzte Rauschunterdrückung kann in einer Hardwareschaltung (z.B. in der Schaltung eines ASIC, FPGA, etc.) wie auch in einer Audio-Verarbeitungssoftware angewendet werden, die in einem Computer oder einer anderen Berechnungsumgebung ausgeführt wird (ob in der Zentralverarbeitungseinheit (CPU) oder einem digitalen Signalprozessor, einer Audio-Karte oder dergleichen ausgeführt), wie es in 7 gezeigt ist.
  • 7 zeigt ein allgemeines Beispiel einer geeigneten Berechnungsumgebung (700), in der die beschriebene verstärkungsbeschränkte Rauschunterdrückung angewendet werden kann. Die Berechnungsumgebung (700) soll keine Einschränkung des Geltungsbereiches des Verwendung oder der Funktionalität der Erfindung darstellen, da die vorliegende Erfindung in unterschiedlichen Berechnungsumgebungen für allgemeine oder spezielle Zwecke verwendet werden kann.
  • Unter Bezugnahme auf 7 enthält die Berechnungsumgebung (700) wenigstens eine Verarbeitungseinheit (710), einen Speicher (710) und einen Speicher (720). In 7 ist diese einfachste Konfiguration (730) von der Strichlinie begrenzt. Die Verarbeitungseinheit (710) führt computerausführbare Anweisungen aus und kann ein realer oder ein virtueller Prozessor sein. In einem Mehrprozessorsystem führen mehrere Verarbeitungseinheiten computerausführbare Anweisungen aus, um die Verarbeitungsleistung zu erhöhen. Der Speicher (720) kann ein flüchtiger Speicher (z.B. ein Register, ein Cache, ein RAM), ein nicht flüchtiger Speicher (z.B. ROM, EEPROM, Flash-Speicher, etc.) oder eine beliebige Kombination der beiden sein. Der Speicher (720) speichert Software (780), die die beschriebenen verstärkungsbeschränkten Rauschunterdrückungstechniken ausführt.
  • Eine Berechnungsumgebung kann zusätzliche Merkmale haben. Beispielsweise enthält die Berechnungsumgebung (700) einen Speicher (740), eine oder mehrere Eingabevorrichtungen (750), eine oder mehrere Ausgabevorrichtungen (760) und eine oder mehrere Kommunikationsverbindungen (770). Ein Zwischenverbindungsmechanismus (nicht gezeigt), wie etwa ein Bus, ein Controller oder ein Netzwerk, verbindet die Komponenten der Berechungsumgebung (700). Normalerweise stellt eine Betriebssystemsoftware (nicht gezeigt) eine Betriebsumgebung für andere Software bereit, die in der Berechnungsumgebung (700) ausgeführt wird, und koordiniert die Aktivitäten der Komponenten der Berechnungsumgebung (700).
  • Der Speicher (740) kann entnehmbar oder nicht entnehmbar sein und umfasst Magnetplatten, Magnetbänder oder Kassetten, CD-ROMs, CD-RWs, DVDs oder ein beliebiges anderes Medium, das verwendet werden kann, um Informationen zu speichern, und auf das in der Berechnungsumgebung (700) zugegriffen werden kann. Der Speicher (740) speichert Anweisungen für die Software (780), die die verstärkungsbeschränkte Rauschunterdrückungsverarbeitung 200 (2) ausführt.
  • Die Eingabevorrichtung(en) (750) kann (können) eine Tasteingabevorrichtung, wie etwa eine Tastatur, eine Maus, ein Stift, ein Trackball, eine Spracheingabevorrichtung, eine Scanvorrichtung oder eine andere Vorrichtung sein, die eine Eingabe für die Berechnungsumgebung (700) bereitstellt. Für Audio kann (können) die Eingabevorrichtung(en) (750) eine Sound-Karte oder eine ähnliche Vorrichtung sein, die eine Audioeingabe in analoger oder digitaler Art gestattet, oder eine CD-ROM-Lesevorrichtung, die der Berechungsvorrichtung Audioabtastungen bereit stellt. Die Ausgabevorrichtung(en) kann (können) eine Anzeigeeinrichtung, ein Drucker, ein Lautsprecher, ein CD-Brenner oder eine andere Vorrichtung sein, die eine Ausgabe aus der Berechnungsumgebung (700) bereitstellt.
  • Die Kommunikationsverbindungen (770) ermöglichen eine Kommunikation über ein Kommunikationsmedium zu einer weiteren Berechnungseinheit. Das Kommunikationsmedium transportiert Informationen, wie etwa computerlesbare Anweisungen, komprimierte Audio- oder Videoinformationen oder andere Daten, in einem modulierten Datensignal. Ein moduliertes Datensignal ist ein Signal, bei dem eines oder mehrere seiner Charakteristika derart eingestellt oder geändert werden, dass die Informationen im Signal codiert werden. Beispielsweise umfassen Kommunikationsmedien, ohne dabei eine Einschränkung darzustellen, drahtgebundene oder drahtlose Techniken, die mit einem elektrischen, optischen, HF-, Infrarot-, akustischem oder anderem Träger eingesetzt werden.
  • Die schnellen Kopfhörer-Virtualisierungstechniken können hier im allgemeinen Zusammenhang computerlesbarer Medien beschrieben werden. Computerlesbare Medien sind beliebige verfügbare Medien, auf die in einer Berechnungsumgebung zugegriffen werden kann. Beispielsweise umfassen in der Berechungsumgebung (700) computerlesbare Medien, ohne dabei eine Einschränkung darzustellen, den Speicher (720), den Speicher (740), Kommunikationsmedien und Kombinationen aus beliebigen der oben genannten Medien.
  • Die schnellen Kopfhörer-Virtualisierungstechniken können hier im allgemeinen Zusammenhang mit computerausführbaren Anweisungen beschrieben werden, wie etwa jenen, die in Programmmodulen enthalten sind, die in einer Berechnungsumgebung auf einem realen oder virtuellen Zielprozessor ausgeführt werden. Im allgemeinen beinhalten Programmmodule Routinen, Programme, Bibliotheken, Objekte, Klassen, Komponenten, Datenstrukturen und dergleichen, die unterschiedliche Aufgaben ausführen oder spezielle abstrakte Datentypen einsetzen. Die Funktionalität der Programmmodule kann kombiniert oder zwischen Programmmodulen aufgeteilt sein, wie es bei unterschiedlichen Ausführungsformen gewünscht ist. Computerausführbare Anweisungen für Programmmodule können innerhalb einer lokalen oder verteilten Berechnungsumgebung ausgeführt werden.
  • Aus Darstellungsgründen werden in der Beschreibung Begriffe wie "bestimmen", "erzeugen", "einstellen" und "anwenden" verwendet, um Rechenoperationen in einer Berechnungsumgebung zu beschreiben. Diese Begriffe sind Abstraktionen hohen Niveaus für Operationen, die von einem Computer ausgeführt werden, und sollten nicht mit Tätigkeiten verwechselt werden, die von einem Menschen ausgeführt werden. Die tatsächlichen Computeroperationen, die diesen Begriffen entsprechen, können in Abhängigkeit der Anwendung variieren.
  • Angesichts der zahlreichen möglichen Ausführungsformen, auf die die Prinzipien unserer Erfindung angewendet werden können, beanspruchen wir als unsere Erfindung sämtliche derartige Ausführungsformen, die im Geltungsbereich der folgenden Ansprüche liegen.

Claims (14)

  1. Verfahren zum Unterdrücken von Sprachrauschen, das umfasst: Umwandeln eines Rahmens eines Eingangs-Sprachsignals in eine Frequenzdomänen-Darstellung mit einer Vielzahl von Spektralwerten; Klassifizieren einer Vielzahl von Frequenz-Bins als verrauscht oder nicht verrauscht; Berechnen einer Vielzahl von Verstärkungsfaktoren für die Frequenz-Bins; Berechnen eines Rauschfaktors auf Basis eines Verhältnisses einer Anzahl verrauschter Frequenz-Bins zu einer Gesamtzahl von Frequenz-Bins, der von einem Wert, der keine Glättung anzeigt, zu einem Wert variiert, der Glättung der Verstärkungsfaktoren auf eine konstante Verstärkung anzeigt; Glätten der Verstärkungsfaktoren gemäß dem Rauschfaktor; und Modifizieren der Spektralwerte durch Anwenden der Verstärkungsfaktoren auf entsprechende Spektralwerte; und inverses Transformieren der modifizierten Spektralwerte zu der Zeitdomäne, um ein Ausgangs-Sprachsignal zu erzeugen.
  2. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 1, wobei das Glätten der Verstärkungsfaktoren umfasst: Transformieren der Verstärkungsfaktoren zu einer Frequenzdomänen-Darstellung; Abschneiden von Hochfrequenzkomponenten der Frequenzdomänen-Darstellung der Verstärkungsfaktoren gemäß dem Rauschfaktor; und inverses Transformieren der Frequenzdomänen-Darstellung der Verstärkungsfaktoren.
  3. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 1, wobei Klassifizieren der Frequenz-Bins umfasst: Berechnen von Rahmenenergie; Tracking eines Schätzwertes von Rausch-Mitttel und -Varianz für die Frequenz-Bins; Klassifizieren eines Frequenz-Bins als verrauscht, wenn die Rahmen-Energie niedriger ist als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz des jeweiligen Frequenz-Bins für den vorangehenden Rahmen; und Aktualisieren des Schätzwertes von Rausch-Mittel und -Varianz für als verrauscht klassifizierte Frequenz-Bins.
  4. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, das des Weiteren umfasst: Glätten der Spektralwerte; und Verwenden der geglätteten Spektralwerte beim Berechnen der Rahmen-Energie und des Schätzwertes von Rausch-Mittel und -Varianz.
  5. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, wobei das Glätten der Spektralwerte Durchführen von sowohl Zeit- als auch Frequenzdomänen-Glättung der Spektralwerte umfasst.
  6. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, das des Weiteren umfasst: Berechnen eines historisch niedrigen Maßes der Rahmen-Energie; Bestimmen, dass der Schätzwert von Rausch-Mittel und -Varianz zurückgesetzt wird, wenn das Maß der Rahmen-Energie niedriger ist als ein erstes Schwellenwert-Vielfaches des historisch niedrigen Maßes der Rahmen-Energie; Bestimmen, dass der Schätzwert von Rauschmittel und -Varianz für die Frequenz-Bins aktualisiert wird, wenn das Maß der Rahmen-Energie niedriger als ein zweites Schwellenwert-Vielfaches des historisch niedrigen Maßes der Rahmen-Energie.
  7. Verfahren zum Unterdrücken von Sprachrauschen nach Anspruch 3, wobei das Berechnen der Verstärkungsfaktoren umfasst: Berechnen der Verstärkungsfaktoren als eine Funktion des Schätzwertes von Rausch-Mittel und des Spektralwertes für den jeweiligen Frequenz-Bin.
  8. Verfahren zum Unterdrücken von Sprachrauschen, die umfasst: eine Einrichtung (240) zum Transformieren eines Rahmens eines Eingangs-Sprachsignals in eine Frequenzdomänen-Darstellung mit einer Vielzahl von Spektralwerten; eine Einrichtung (262) zum Klassifizieren einer Vielzahl von Frequenz-Bins als verrauscht oder nicht verrauscht; eine Einrichtung (270) zum Berechnen einer Vielzahl von Verstärkungsfaktoren für die Frequenz-Bins; eine Einrichtung (262) zum Berechnen eines Rauschfaktors auf Basis eines Verhältnisses einer Anzahl verrauschter Frequenz-Bins zu einer Gesamtzahl von Frequenz-Bins, das von einem Wert, der kein Glätten anzeigt, zu einem Wert variiert, der Glätten der Verstärkungsfaktoren auf eine konstante Verstärkung anzeigt; eine Einrichtung (271) zum Glätten der Verstärkungsfaktoren gemäß dem Rauschfaktor, und eine Einrichtung zum Modifizieren der Spektralwerte durch Anwenden der Verstärkungsfaktoren auf entsprechende Spektralwerte; und eine Einrichtung (280) zum inversen Transformieren der modifizierten Spektralwerte zu der Zeitdömäne, um ein Ausgangs-Sprachsignal zu erzeugen.
  9. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 8, wobei die Einrichtung zum Glätten der Verstärkungsfaktoren umfasst: eine Einrichtung zum Transformieren der Verstärkungsfaktoren zu einer Frequenzdomänen-Darstellung; eine Einrichtung zum Abschneiden von Hochfrequenzkomponenten der Frequenzdomänen-Darstellung der Verstärkungsfaktoren gemäß dem Rauschfaktor; und eine Einrichtung zum inversen Transformieren der Frequenzdomänen-Darstellung der Verstärkungsfaktoren.
  10. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 8, wobei die Einrichtung zum Klassifizieren der Frequenz-Bins umfasst: eine Einrichtung zum Berechnen von Rahmen-Energie; eine Einrichtung zum Tracking eines Schätzwertes von Rausch-Mittel und -Varianz für die Frequenz-Bins; eine Einrichtung zum Klassifizieren eines Frequenz-Bins als verrauscht, wenn die Rahmen-Energie niedriger ist als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz des jeweiligen Frequenz-Bins für den vorangehenden Rahmen; und eine Einrichtung zum Aktualisieren des Schätzwertes von Rausch-Mittel und -Varianz für als verrauscht klassifizierte Frequenz-Bins.
  11. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, die des Weiteren umfasst: eine Einrichtung zum Glätten der Spektralwerte; und eine Einrichtung zum Verwenden der geglätteten Spektralwerte beim Berechnen der Rahmen-Energie und des Schätzwertes von Rausch-Mitteln und -Varianz.
  12. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, wobei die Einrichtung zum Glätten der Spektralwerte eine Einrichtung zum Durchführen von sowohl Zeit- als auch Frequenzdomänen-Glätten der Spektralwerte umfasst.
  13. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, die des Weiteren umfasst: eine Einrichtung zum Berechnen eines historisch tiefen Maßes der Rahmen-Energie; eine Einrichtung, die bestimmt, dass der Schätzwert von Rausch-Mittel und -Varianz zurückgesetzt wird, wenn das Maß der Rahmen-Energie niedriger ist als ein erstes Schwellenwert-Vielfaches des historisch tiefen Maßes der Rahmen-Energie; eine Einrichtung, die bestimmt, dass der Schätzwert von Rausch-Mitttel und -Varianz für die Frequenz-Bins aktualisiert wird, wenn das Maß der Rahmen-Energie niedriger ist als ein zweites Schwellenwert-Vielfaches des historisch tiefen Maßes der Rahmen-Energie.
  14. Vorrichtung zum Unterdrücken von Sprachrauschen nach Anspruch 10, wobei die Einrichtung zum Berechnen der Verstärkungsfaktoren umfasst: eine Einrichtung zum Berechnen der Verstärkungsfaktoren als eine Funktion des Schätzwertes von Rausch-Mittel und -Varianz und des Spektralwertes für den jeweiligen Frequenz-Bin.
DE602005000539T 2004-06-15 2005-06-09 Verstärkungsgesteuerte Geräuschunterdrückung Expired - Lifetime DE602005000539T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US869467 2004-06-15
US10/869,467 US7454332B2 (en) 2004-06-15 2004-06-15 Gain constrained noise suppression

Publications (2)

Publication Number Publication Date
DE602005000539D1 DE602005000539D1 (de) 2007-03-22
DE602005000539T2 true DE602005000539T2 (de) 2007-06-06

Family

ID=34940130

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005000539T Expired - Lifetime DE602005000539T2 (de) 2004-06-15 2005-06-09 Verstärkungsgesteuerte Geräuschunterdrückung

Country Status (7)

Country Link
US (1) US7454332B2 (de)
EP (1) EP1607938B1 (de)
JP (1) JP4861645B2 (de)
KR (1) KR101120679B1 (de)
CN (1) CN1727860B (de)
AT (1) ATE353466T1 (de)
DE (1) DE602005000539T2 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2349718T3 (es) * 2004-09-16 2011-01-10 France Telecom Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.
EP1805891B1 (de) * 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Berechnung und anpassung der wahrgenommenen lautstärke und/oder der wahrgenommenen spektrumsbalance eines audiosignals
CN101027719B (zh) * 2004-10-28 2010-05-05 富士通株式会社 噪声抑制装置
JP5203933B2 (ja) * 2005-04-21 2013-06-05 ディーティーエス・エルエルシー オーディオ雑音を減少させるシステムおよび方法
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US20090308229A1 (en) * 2006-06-29 2009-12-17 Nxp B.V. Decoding sound parameters
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
FR2906071B1 (fr) * 2006-09-15 2009-02-06 Imra Europ Sas Soc Par Actions Reduction de bruit multibande avec une reference de bruit non acoustique
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
WO2008115435A1 (en) * 2007-03-19 2008-09-25 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
DE602007004217D1 (de) * 2007-08-31 2010-02-25 Harman Becker Automotive Sys Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
US8401845B2 (en) * 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
KR101597752B1 (ko) * 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
CN102150206B (zh) * 2008-10-24 2013-06-05 三菱电机株式会社 噪音抑制装置以及声音解码装置
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5415739B2 (ja) * 2008-10-31 2014-02-12 宮本工業株式会社 鍛造用マグネシウム合金
EP2226794B1 (de) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Hintergrundgeräuschschätzung
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
KR101176207B1 (ko) 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
DK2463856T3 (da) 2010-12-09 2014-09-22 Oticon As Fremgangsmåde til at reducere artefakter i algoritmer med hurtig varierende forstærkning
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP5757104B2 (ja) 2011-02-24 2015-07-29 住友電気工業株式会社 マグネシウム合金材及びその製造方法
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9159336B1 (en) * 2013-01-21 2015-10-13 Rawles Llc Cross-domain filtering for audio noise reduction
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
PL3011563T3 (pl) 2013-06-21 2020-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie audio z rekonstrukcją uszkodzonych lub nieodebranych ramek przy użyciu tcx ltp
GB201401689D0 (en) 2014-01-31 2014-03-19 Microsoft Corp Audio signal processing
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
JP6446893B2 (ja) * 2014-07-31 2019-01-09 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
JP6596236B2 (ja) * 2015-05-27 2019-10-23 本田技研工業株式会社 耐熱性マグネシウム合金及びその製造方法
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US9881630B2 (en) * 2015-12-30 2018-01-30 Google Llc Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
JP7447796B2 (ja) * 2018-10-15 2024-03-12 ソニーグループ株式会社 音声信号処理装置、雑音抑圧方法
CN113470674B (zh) * 2020-03-31 2023-06-16 珠海格力电器股份有限公司 语音降噪方法、装置、存储介质及计算机设备
CN114387983A (zh) * 2020-10-21 2022-04-22 大众问问(北京)信息科技有限公司 一种噪声抑制参数处理方法、装置及计算机设备
CN113707170B (zh) * 2021-08-30 2025-03-28 展讯通信(上海)有限公司 风噪声抑制方法、电子设备和存储介质
US12456476B2 (en) 2022-12-14 2025-10-28 Google Llc Noise suppression for speech data with reduced power consumption
CN119229886B (zh) * 2024-11-28 2025-03-21 浙江大华技术股份有限公司 一种音频增益方法、电子设备及计算机可读存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
KR940009391B1 (ko) 1985-07-01 1994-10-07 모토로라 인코포레이티드 잡음 억제 시스템
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
FI100154B (fi) 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä kohinan vaimentamiseksi
DE69428119T2 (de) * 1993-07-07 2002-03-21 Picturetel Corp., Peabody Verringerung des hintergrundrauschens zur sprachverbesserung
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
SE505156C2 (sv) 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6507623B1 (en) * 1999-04-12 2003-01-14 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by time-domain spectral subtraction
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US6775337B2 (en) 2001-08-01 2004-08-10 M/A-Com Private Radio Systems, Inc. Digital automatic gain control with feedback induced noise suppression
JP2004012884A (ja) * 2002-06-07 2004-01-15 Sharp Corp 音声認識装置

Also Published As

Publication number Publication date
CN1727860B (zh) 2010-05-05
DE602005000539D1 (de) 2007-03-22
KR101120679B1 (ko) 2012-03-23
EP1607938B1 (de) 2007-02-07
US7454332B2 (en) 2008-11-18
ATE353466T1 (de) 2007-02-15
CN1727860A (zh) 2006-02-01
JP4861645B2 (ja) 2012-01-25
KR20060046450A (ko) 2006-05-17
EP1607938A1 (de) 2005-12-21
US20050278172A1 (en) 2005-12-15
JP2006003899A (ja) 2006-01-05

Similar Documents

Publication Publication Date Title
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE3689035T2 (de) Rauschminderungssystem.
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE112009000805B4 (de) Rauschreduktion
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE69714431T2 (de) Verfahren zum verbessern von verrauschter sprache und gerät
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
DE69420027T2 (de) Rauschverminderung
DE69606978T2 (de) Verfahren zur rauschunterdrückung mittels spektraler subtraktion
DE602004001241T2 (de) Vorrichtung zur Unterdrückung von impulsartigen Windgeräuschen
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
EP2158588A1 (de) Spektralglättungsverfahren von verrauschten signalen
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE602004003209T2 (de) Vorrichtung und Verfahren zur Sprachaktivitätsdetektion
DE102014221810A1 (de) Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert
DE10157535A1 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition