[go: up one dir, main page]

DE3689035T2 - Rauschminderungssystem. - Google Patents

Rauschminderungssystem.

Info

Publication number
DE3689035T2
DE3689035T2 DE86903767T DE3689035T DE3689035T2 DE 3689035 T2 DE3689035 T2 DE 3689035T2 DE 86903767 T DE86903767 T DE 86903767T DE 3689035 T DE3689035 T DE 3689035T DE 3689035 T2 DE3689035 T2 DE 3689035T2
Authority
DE
Germany
Prior art keywords
channel
noise
gain
energy
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE86903767T
Other languages
English (en)
Other versions
DE3689035D1 (de
Inventor
David Borth
Ira Gerson
Philip Smanski
Richard Vilmur
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US06/750,941 external-priority patent/US4630305A/en
Priority claimed from US06/750,572 external-priority patent/US4630304A/en
Priority claimed from US06/750,942 external-priority patent/US4628529A/en
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE3689035D1 publication Critical patent/DE3689035D1/de
Application granted granted Critical
Publication of DE3689035T2 publication Critical patent/DE3689035T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/34Muting amplifier when no signal is present
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Description

    Hintergrund der Erfindung 1. Erfindungsgebiet
  • Die vorliegende Erfindung betrifft akustische Geräuschunterdrückungssysteme im allgemeinen und im besonderen eine verbesserte Methode und Einrichtung zum Unterdrücken umweltbedingter Hintergrundgeräusche von Sprachsignalen, um eine Verbesserung der Sprachqualität zu erzielen.
  • 2. Beschreibung der bekannten Technik
  • Akustische Geräuschunterdrückungssysteme dienen im allgemeinen dem Zweck der Verbesserung der Gesamtqualität des gewünschten Signals durch Unterscheiden des Signals von dem umgebenden Hintergrundgeräusch. Insbesondere bei Sprachübertragungssystemen ist es im hohem Maße erwünscht, das Signal/Rauschverhältnis (SNR) des Sprachsignals zu verbessern, um die Sprachqualität zu steigern. Dieser Sprachverbesserungsprozeß ist besonders im Umgebungen mit abnormal hohen Pegeln umgebender Hintergrundgeräusche, zum Beispiel in einem Flugzeug, einem fahrenden Auto oder einer lauten Fabrik, unentbehrlich.
  • Eine typische Anwendung für Geräuschunterdrückung ist bei einem Hörgerät. Umwelthintergundgeräusche sind nicht für nur die Hörbehinderten belästigend, sondern stört oftmals auch ihre Fähigkeit, Sprache zu verstehen. Ein Verfahren, dieses Problem anzugehen, kann in US-Patent Nr. 4,461,025, betitelt Automatic Background Noise Suppressor gefunden werden. Nach diesem Verfahren wird das Sprachsignal durch automatisches Unterdrücken des Audiosignals in Abwesenheit von Sprache und Erhöhen der Verstärkung des Audiosystems, wenn Sprache vorhanden ist, verbessert. Diese Variante einer automatischen Verstärkungsregelschaltung (AGC) untersucht die ankommende Audiowellenform selbst, um zu bestimmen, ob der gewünschte Sprachanteil vorhanden ist.
  • Ein zweites Verfahren zur Verbesserung der Sprachverständlichkeit in einer Hörgeräteanwendung ist in US-Patent Nr. 4,454,609 beschrieben. Diese Technik hebt den Spektralgehalt konsonanter Sprachlaute hervor, um die Intensität konsonanter Laute mit der von vokalischen Lauten auszugleichen. Die geschätzte Spektralform der Eingabesprache wird verwendet, um die Spektralform des tatsächlichen Sprachsignals so zu verändern, daß ein verbessertes Ausgabesprachsignal erzeugt wird. Zum Beispiel kann ein Steuersignal eines aus einer Mehrzahl verschiedener Filter mit spezifizierten Frequenzgängen zum Verändern der Spektralform des Eingabesprachsignals auswählen, um dadurch ein verbessertes Konsonantenausgangssignal zu erzeugen.
  • Ein höher entwickeltes Verfahren zur Implementierung eines Geräuschunterdrückungssystems ist die Technik der spektralen Subtraktion oder spektralen Verstärkungsänderung. Bei Anwendung dieses Verfahrens wird das Audioeingabesignalspektrum durch eine Bank von Bandpaßfiltern in individuelle Spektralbänder geteilt, und einzelne Spektralbänder werden entsprechend ihrem Geräuschenergiegehalt abgeschwächt. Ein Geräuschunterdrückungsvorfilter mit spektraler Subtraktion ist in R. J. McAulay und M. L. Malpass, "Speech Enhancement Using a Soft-Decision Noise Suppression Filter," IEEE Trans. Acoust., Speech Signal Processing, Vol. ASSP-28, Nr. 2, (April 1980), Seiten 137-145 beschrieben. Dieses Vorfilter verwendet eine Schätzung der spektralen Dichte der Hintergrundgeräuschleistung, um das Sprach-SNR zu erzeugen, das wiederum verwendet wird, einen Verstärkungsfaktor für jeden einzelnen Kanal zu berechnen. Dieser Verstärkungsfaktor wird als Zeiger für eine Tabelle verwendet, um die Dämpfung für dieses einzelne Spektralband zu bestimmen. Die Kanäle werden dann abgeschwächt und wieder zusammengefügt, um die geräuschverminderte Ausgangswellenform zu erzeugen.
  • Bei spezialisierten Anwendungen mit relativ hohen Hintergrundgeräuschumgebungen wird jedoch ein wirksameres Geräuschunterdrückungsverfahren angestrebt. Zum Beispiel bieten zur Zeit einige zellulare Mobilfunk- Telefonsysteme die Option eines Fahrzeug-Lautsprecher/Mikrophons, die dem Autofahrer einen Freisprechbetrieb ermöglicht. Das Freisprech- Mobilmikrophon befindet sich typischerweise in größerem Anstand vom Benutzer, zum Beispiel hochliegend an der Sonnenblende befestigt. Das weiter entfernte Mikrophon liefert wegen der Straßen- und Windgeräusche im Fahrzeug dem Gesprächspartner einen viel schlechteren Signal/ Rauschpegel. Obwohl die an der Gegenseite empfangene Sprache für gewöhnlich verständlich ist, kann der hohe Hintergrundgeräuschpegel sehr störend sein.
  • Obwohl die vorerwähnten Verfahren herkömmlicher Technik bei normalen Hintergrundgeräuschverhältnissen zufriedenstellend arbeiten können, wird die Leistung dieser Verfahren stark eingeschränkt, wenn sie unter solch hohen Hintergrundgeräuschverhältnissen verwendet werden. Bei Verwendung typischer Geräuschunterdrückungssysteme kann der Geräuschpegel über dem größten Teil des Audiobands um 10 dB reduziert werden, ohne die Sprachqualität ernsthaft zu beeinflussen. Wenn jedoch diese herkömmlichen Techniken in Umgebungen mit relativ hohem Hintergrundgeräusch verwendet werden, die Geräuschverminderungspegel nahe 20 dB erfordern, ist eine wesentliche Verschlechterung der Sprachqualität vorhanden.
  • Daher besteht eine Notwendigkeit für ein verbessertes akustisches Geräuschunterdrückungssystem, das ausreichende Hintergrundgeräuschdämpfung in Umgebungen mit hohem Umgebungsgeräusch bereitstellt, ohne die Qualität des gewünschten Signals wesentlich zu beeinflussen.
  • Zusammenfassung der Erfindung
  • Es ist demnach eine Aufgabe der vorliegenden Erfindung ein verbessertes System gemäß den unabhängigen Ansprüchen 1 und 3 zur Unterdrückung von Hintergrundgeräuschen in Umgebungen mit hohem Hintergrundgeräusch bereitzustellen.
  • Eine andere Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Geräuschunterdrückungssystem für Sprachübertragung bereitzustellen, das den optimalen Kompromiß zwischen Geräuschunterdrückungsgrad und Verschlechterung der Sprachqualität erzielt.
  • Eine ganz besondere Aufgabe der vorliegenden Erfindung ist es, ein Geräuschunterdrückungssystem bereitzustellen, das besonders für die Verwendung in zellularen Freisprech-Mobilfunktelefonanwendungen angepaßt ist.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist es, ein preiswertes Geräuschunterdrückungssystem bereitzustellen, das imstande ist, in einem 8-Bit-Mikrocomputer implementiert zu werden.
  • Die vorliegende Erfindung ist, kurz beschrieben, ein verbessertes Geräuschunterdrückungssystem, das Sprachqualitätsverbesserung durch Dämpfung des Hintergrundgeräuschs von einem vorverarbeiteten Eingabesignal - das am Eingang des Geräuschunterdrückungssystems vorhandene Sprache-plus-Geräuschsignal - durchführt, um ein geräuschvermindertes nachverarbeitetes Ausgabesignal - das am Ausgang des Geräuschunterdrückungssystems vorhandene Sprache-minus-Geräuschsignal
  • - durch spektrale Verstärkungsänderung zu erzeugen. Das Geräuschunterdrückungssystem der vorliegenden Erfindung enthält eine Einrichtung zum Trennen des Eingabesignals in eine Mehrzahl vorverarbeiteter, ausgewählte Frequenzkanäle darstellender Signale und eine Einrichtung zum andern eines Betriebsparameters, z. B. die Verstärkung, jedes dieser vorverarbeiteten Signale gemäß einem Änderungssignal, um nachverarbeitete geräuschverminderte Ausgangssignale bereitzustellen. Die Einrichtung zum Erzeugen des Änderungssignals erzeugt Verstärkungsfaktoren für jeden Kanal durch automatisches Auswählen einer aus einer Mehrzahl von Verstärkungstabellengruppen als Reaktion auf den gesamten mittleren Hintergrundgeräuschpegel des Eingabesignals und durch Auswählen eines aus einer Mehrzahl von Verstärkungswerten von jeder Verstärkungstabelle als Reaktion auf die SNR-Schätzung des einzelnen Kanals. Folglich wird jeder einzelne Kanalverstärkungswert als eine Funktion von (a) der Kanalnummer, (b) der momentanen Kanal-SNR-Schätzung und (c) des gesamten mittleren Hintergrundgeräuschpegels ausgewählt. Folglich verwendet das Geräuschunterdrückungssystem der vorliegenden Erfindung nachverarbeitete Signalenergie - am Ausgang des Geräuschunterdrückungssystems vorhandene Signalenergie - um ein Änderungssignal zum Steuern der Geräuschunterdrückungsparameter zu erzeugen. Es ist dieses Verfahren der Implementierung des nachverarbeiteten Signals, um das Änderungssignal zu erzeugen, und des automatischen Auswählens einer aus einer Mehrzahl von Verstärkungstabellengruppen pro dem mittleren gesamten Hintergrundgeräuschpegel, das der vorliegenden Erfindung erlaubt, akustische Geräuschunterdrückung bei hohen Umgebungsgeräuschhintergründen mit wesentlich kleinerer Sprachqualitätsverschlechterung durchzuführen.
  • Kurzbeschreibung der Zeichnungen
  • Die Merkmale der vorliegenden Erfindung, die für neuartig gehalten werden, sind in Besonderheit in den anliegenden Ansprüchen dargelegt. Die Erfindung selbst, zusammen mit weiteren Aufgaben und Vorteilen, kann jedoch am besten mit Bezug auf die folgende Beschreibung verstanden werden, wenn sie mit den begleitenden Zeichnungen in Verbindung gebracht wird.
  • Fig. 1 ist ein Blockschaltbild eines in der Technik bekannten fundamentalen Geräuschunterdrückungssystems, das die Technik der spektralen Verstärkungsänderung veranschaulicht.
  • Fig. 2 ist ein Blockschaltbild einer alternativen Implementierung eines herkömmlichen Geräuschunterdrückungssystems, das die Technik der Kanalfilterbank veranschaulicht.
  • Fig. 3 ist ein Blockschaltbild eines verbesserten akustischen Geräuschunterdrückungssystems, das die Technik der Hintergrundgeräuschschätzung der vorliegenden Erfindung verwendet.
  • Fig. 4 ist ein Blockschaltbild einer alternativen Implementierung der vorliegenden Erfindung, die simulierte nachverarbeitete Signalenergie benutzt, um die Hintergrundgeräuschschätzung zu erzeugen.
  • Fig. 5 ist ein ausführliches Blockschaltbild, das die bevorzugte Ausführung des erfindungsgemäßen verbesserten Geräuschunterdrückungssystems zeigt.
  • Fig. 6 ist ein Flußdiagramm, das die allgemeine Folge von Operationen zeigt, die in Übereinstimmung mit der Praxis der vorliegenden Erfindung ausgeführt werden.
  • Fig. 7 ist ein ausführliches Flußdiagramm, das die spezifischen Folgen der in Fig. 6 gezeigten Operationen zeigt.
  • Beschreibung der bevorzugten Ausführung
  • Mit Bezug auf die begleitenden Zeichnungen zeigt Fig. 1 das allgemeine Prinzip der Geräuschunterdrückung mit spektraler Subtraktion, wie es in der Technik bekannt ist. Ein Sprache plus Geräusch enthaltendes zeitkontinuierliches Signal wird an Eingang 102 des Geräuschunterdrükkungssystems 100 angelegt. Dieses Signal wird durch A/D-Wandler 105 in digitale Form umgewandelt. Die digitalen Daten werden dann durch die von Fenster 110 ausgeführte Fensterfunktion (z. B. Hamming-, Hanning- oder Kaiserverfahren) in Datenblöcke unterteilt. Die Wahl des Fensters ist ähnlich der Wahl der Filterkurve bei einer analogen Spektrumanalyse. Das verrauschte Sprachsignal wird dann durch "Fast Fourier Transform" (FFT) 115 in den Frequenzbereich umgewandelt. Das Leistungsspektrum des verrauschten Sprachsignals wird durch die Größenquadraturfunktion 120 berechnet und an den Hintergrundgeräuschschätzer 125 und den Leistungsspektrummodifizierer 130 angelegt.
  • Der Hintergrundgeräuschschätzer führt zwei Funktionen aus: (1) er bestimmt, wenn das eingehende Sprache-plus-Geräuschsignal nur Hintergrundgeräusch enthält; und (2) er aktualisiert die alte Schätzung der Hintergrundgeräuschleistungsspektrumdichte, wenn nur Hintergrundgeräusch vorhanden ist. Die momentane Schätzung des Hintergrundrauschleistungsspektrums wird von dem Sprache-plus-Geräusch-Leistungsspektrum durch Leistungsspektrummodifizierer 130 abgezogen, der im Idealfall nur das Leistungsspektrum von reiner Sprache zurückläßt. Die Quadratwurzel des Leistungsspektrums der reinen Sprache wird dann durch Großen-Quadratwurzelfunktion 135 berechnet. Diese Größe des reinen Sprachsignals wird zu Phaseninformation 145 des Originalsignals addiert und vom Frequenzbereich durch "Inverse Fast Fourier Transform" (IFFT) 140 in den Zeltbereich zurückgewandelt. Die diskreten Datensegmente des reinen Sprachsignals werden dann an die überlagern-und-Addieren-Funktion 150 angelegt, um das verarbeitete Signal zu rekonstruieren. Dieses Digitalsignal wird dann durch D/A-Wandler 155 in eine analoge Wellenform rückgewandelt, die am Ausgang 158 verfügbar ist. Demnach erfordert ein akustisches Geräuschunterdrückungssystem, das die spektrale Subtraktionstechnik anwendet, eine genaue Schätzung der momentanen Spektraldichte der Hintergrundgeräuschleistung, um die Geräuschlöschfunktion auszuführen.
  • Ein Nachteil der "Fast Fourier Transform"-Lösung von Fig. 1 besteht darin, daß sie eine digitale Signalverarbeitungstechnik ist, die erhebliche Computerleistung benötigt, um das Geräuschunterdrückungssystem in dem Frequenzbereich zu implementieren. Ein anderer Nachteil der FFT-Lösung ist, daß das Ausgangssignal um die Zeit verzögert wird, die benötigt wird, um die Abtastungen für die FFT-Berechnung zu akkumulieren.
  • Eine alternative Implementierung eines Geräuschunterdrückungssystems mit spektraler Subtraktion ist das in Fig. 2 gezeigte Kanalfilterbankverfahren. Bei Geräuschunterdrückungssystem 200 wird das an Eingang 205 vorhandene Sprache-plus-Geräuschsignal durch Kanalteiler 210 in eine Anzahl ausgewählter Frequenzkanäle geteilt. Die Verstärkung dieser einzelnen vorverarbeiteten Sprachkanäle 215 wird dann durch Kanalverstärkungsmodifizierer 250 als Reaktion auf Modifiziersignal 245 so eingestellt, daß die Verstärkung der Kanäle, die ein niedriges Sprache-zu-Geräuschverhältnis zeigen, reduziert wird. Die einzelnen, nachverarbeitete Sprache 255 umfassende Kanäle werden dann in Kanalkombinierer 260 wieder zusammengefügt, um ein an Ausgang 265 verfügbares geräuschvermindertes Sprachsignal zu bilden.
  • Kanalteiler 210 besteht typischerweise aus einer Zahl N angrenzender Bandpaßfilter. Die Filter überschneiden sich bei den 3 dB-Punkten, so daß das rekonstruierte Ausgangssignal eine Welligkeit von weniger als 1 dB im gesamten Sprachfrequenzbereich zeigt. In der vorliegenden Ausführung werden 14 Butterworth-Bandpaßfilter benutzt, um den Frequenzbereich von 250-3400 Hz zu überspannen, obwohl jede Zahl und Art von Filtern verwendet werden könnte. Auch ist bei der bevorzugten Ausführung die Filterbank von Kanalteiler 210 digital ausgeführt. Diese besondere Ausführung wird nachfolgend in Fig. 6 und 7 beschrieben.
  • Kanalverstärkungsmodifizierer 250 dient zum Einstellen der Verstärkung jedes der einzelnen Kanäle, die vorverarbeitete Sprache 215 enthalten. Diese Modifizierung erfolgt durch Multiplizieren der Amplitude des vorverarbeiteten Eingangssignals in einem einzelnen Kanal mit seinem entsprechenden, aus Modifizierungssignal 245 erhaltenen Kanalverstärkungswert. Die Modifizierungsfunktion der Kanalverstärkung kann leicht durch Software unter Verwendung digitaler Signalverarbeitungs-(DSP)-Verfahren ausgeführt werden.
  • Ähnlich kann die Summierfunktion des Kanalkombinierers 260, DSP verwendend, in Software oder in Hardware durch Verwendung einer Summierschaltung ausgeführt werden, um die N nachverarbeiteten Kanäle zu einem einzigen nachverarbeiteten Ausgangssignal zusammenzufügen. Das Kanalfilterbankverfahren trennt somit das verrauschte Eingangssignal in einzelne Kanäle, schwächt die Kanäle mit einem niedrigen Sprachezu-Geräuschverhältnis ab und setzt die einzelnen Kanäle wieder zusammen, um ein geringgestörtes Ausgangssignal zu bilden.
  • Die vorverarbeitete Sprache 215 umfassende einzelnen Kanäle werden auch an Kanalenergieschätzer 220 angelegt, der dazu dient, Energiehüllwerte E&sub1;-EN für jeden Kanal zu erzeugen. Diese Energiewerte, die Kanalenergieschätzung 225 enthalten, werden von dem Kanalgeräuschschätzer 230 benutzt, um eine SNR-Schätzung X&sub1;-XN für jeden Kanal bereitzustellen. Die SNR-Schätzungen 235 werden dann einem Kanalverstärkungssteuerer 240 zugeführt, der die einzelnen Kanalverstärkungswerte G&sub1;-GN, die Modifizierungssignal 245 umfassen, bereitstellt.
  • Kanalenergieschätzer 220 besteht aus einer Gruppe von N Energiedetektoren, um eine Schätzung der vorverarbeiteten Signalenergie in jedem der N Kanäle zu erzeugen. Jeder Energiedetektor kann aus einem Vollweggleichrichter, gefolgt von einem Butterworth-Tiefpaßfilter zweiter Ordnung, dem möglicherweise ein weiterer Vollweggleichrichter folgt, bestehen. Die bevorzugte Ausführung der Erfindung benutzt DSP-Implementierungsverfahren in Software, obwohl zahlreiche andere Methoden angewandt werden können. Ein geeigneter DSP-Algorithmus ist in Kapitel 11 von L. R. Rabiner und B. Gold, Theory and Applicatlon of Digital Signal Processing, (Prentice Hall, Englewood Cliffs, N.J., 1975) beschrieben.
  • Kanalgeräuschschätzer 230 erzeugt SNR-Schätzungen X&sub1;- XN durch Vergleichen der einzelnen Kanalenergieschätzungen der momentanen Eingangssignalenergie (Signal) mit einer Art momentanen Schätzung der Hintergrundgeräuschenergie (Geräusch). Diese Hintergrundgeräuschschätzung kann durch Ausführen einer Kanalenergiemessung während der Pausen in der menschlichen Sprache erzeugt werden. Somit überwacht ein Hintergrundgeräuschschätzer ständig das Eingabesprachsignal, um die Sprechpausen zu ermitteln, so daß die Hintergrundgeräuschenergie während dieses genauen Zeitabschnitts gemessen werden kann. Ein Kanal- SNR-Schätzer vergleicht diese Hintergrundgeräuschschätzung mit der Eingabesignalenergieschätzung, um Signal-zu-Geräuschschätzungen auf einer pro-Kanal-Basis zu bilden. Bei der vorliegenden Ausführung wird dieser SNR-Vergleich als Softwaredivision der Kanalenergieschätzungen durch die Hintergrundgeräuschschätzungen auf der Basis eines einzelnen Kanals durchgeführt.
  • Kanalverstärkungssteuerer 240 erzeugt die einzelnen Kanalverstärkungswerte des Modifizierungssignals 245 als Reaktion auf SNR-Schätzungen 235. Eine Methode zur Auswahl der Verstärkungswerte besteht darin, die SNR-Schätzung mit einem vorgewählten Schwellwert zu vergleichen, und Einheitsverstärkung bereitzustellen, wenn die SNR-Schätzung unter dem Schwellwert liegt, während eine erhöhte Verstärkung oberhalb des Schwellwerts bereitgestellt wird. Eine zweite Methode besteht darin, den Verstärkungswert als Funktion der SNR-Schätzung zu berechnen, so daß der Verstärkungswert in einer bestimmten mathematischen Beziehung (d. h. linear, logarithmisch usw.) zu dem SNR steht. Die vorliegende Ausführung verwendet ein drittes Verfahren, das die Kanalverstärkungswerte aus einer Kanalverstärkungstabellengruppe auswählt, die aus empirisch ermittelten Verstärkungswerten besteht. Dieses Verfahren wird ausführlich in Verbindung mit Fig. 5 beschrieben werden.
  • Wie oben angemerkt, kann die Hintergrundgeräuschschätzung durch Ausführen einer Messung der vorverarbeiteten Signalenergie während der Pausen in der menschlischen Sprache erzeugt werden. Demnach muß der Hintergrundgeräuschschätzer die Sprechpausen durch Ausführen einer Sprache/Geräuschentscheidung genau ermitteln, um die Zelt zu steuern, in der eine Hintergrundgeräuschenergiemessung erfolgt. Frühere Verfahren zum Herbeiführen der Sprache/Geräuschentscheidung wurden bisher unter Verwendung der Eingabesignalenergie - die am Eingang des Geräuschunterdrückungssystems vorhandene Signal-plus-Geräuschenergie - implementiert. Diese Praxis der Benutzung des Eingabesignals erlegt der Wirksamkeit jedes Hintergrundgeräuschschätzverfahrens arttypische Beschränkungen auf. Diese Beschränkungen beruhen auf der Tatsache, daß die Energiecharakteristik stimmloser Sprachlaute der Energiecharakteristik von Hintergrundgeräuschen sehr ähnlich ist. In einer Umgebung mit relativ hohem Hintergrundgeräusch wird die Sprache/Geräuschentscheidung sehr schwierig und die Hintergrundgeräuschschätzung wird folglich in hohem Maße ungenau. Diese Ungenauigkeit beeinflußt direkt die Leistung des Geräuschunterdrückungssystems als Ganzes.
  • Wenn jedoch die Sprache/Geräuschentscheidung der Hintergrundgeräuschschätzung auf der Ausgangssignalenergie - der am Ausgang des Geräuschunterdrückungssystems vorhandenen Signalenergie - beruhen würde, dann würde die Genauigkeit des Sprache/Geräuschentscheidungsvorgangs in hohem Male durch das Geräuschunterdrückungssystem selbst verbessert werden. Mit anderen Worten, bei Verwendung nachverarbeiteter Sprache - die am Ausgang des Geräuschunterdrückungssystems vorhandene Sprachenergie - arbeitet der Hintergrundgeräuschschätzer auf einem viel reineren Sprachsignal, so daß eine genauere Sprache/ Geräuschklassifizierung erfolgen kann. Die vorliegende Erfindung lehrt diese einmalige Vorstellung des Implementierens nachverarbeiteter Sprachsignale, um darauf diese Sprache/Geräuschentscheidungen aufzubauen. Folglich werden genauere Bestimmungen der Sprechpausen getroffen, und es wird eine bessere Leistung des Geräuschunterdrückers erzielt.
  • Diese neuartige Technik der vorliegenden Erfindung ist in Fig. 3 dargestellt, die ein vereinfachtes Blockschaltbild des verbesserten akustischen Geräuschunterdrückungssystems 300 zeigt. Kanalteiler 210, Kanalverstärkungsmodifizierer 250, Kanalkombinierer 260, Kanalverstärkungssteuerer 240 und Kanalenergieschätzer 220 bleiben von Geräuschunterdrückungssystem 200 unverändert. Der Kanalgeräuschschätzer 230 von Fig. 2 wurde jedoch durch Kanal-SNR-Schätzer 310, Hintergrundgeräuschschätzer 320 und Kanalenergieschätzer 330 ersetzt. Zusammen erzeugen diese drei Elemente SNR-Schätzungen 235, die sowohl auf der vorverarbeiteten Sprache 215 als auch auf der nachverarbeiteten Sprache 255 basieren.
  • Funktion und Aufbau von Kanalenergieschätzer 330 sind mit dem von Kanalenergieschätzer 220 identisch mit der Ausnahme, daß die nachverarbeitete Sprache 255 anstelle der vorverarbeiteten Sprache 215 an seinen Eingang angelegt wird. Die nachverarbeiteten Kanalenergieschätzungen 335 werden von dem Hintergrundgeräuschschätzer 320 verwendet, um die Sprache/Geräuschentscheidung auszuführen.
  • Beim Erzeugen der Hintergrundgeräuschschätzung 325 müssen zwei grundlegende Funktionen ausgeführt werden. Erstens muß eine Entscheidung getroffen werden, wann das eingehende Sprache-plus-Geräuschsignal - während der Pausen in der menschlichen Sprache - nur Hintergrundgeräusche enthält. Diese Sprache/Geräuschentscheidung erfolgt durch periodisches Ermitteln der Minima des nachverarbeiteten Sprachsignals 255, entweder auf der Basis eines einzelnen Kanals oder auf einer alle Kanäle zusammenfassenden Basis. Zweitens wird die Sprache/ Geräuschentscheidung benutzt, um die Zeit zu steuern, bei der Hintergrundgeräuschenergiemessung gemacht wird, um dadurch einen Mechanismus bereitzustellen, die alte Hintergrundgeräuschschätzung zu aktualisieren. Eine Hintergrundgeräuschschätzung erfolgt durch Erzeugen und Speichern einer Schätzung der Hintergrundgeräuschenergie von vorverarbeiteter Sprache 215, die durch vorverarbeitete Kanalenergieschätzung 225 bereitgestellt wird. Zahlreiche Verfahren können angewandt werden, um die Minima der nachverarbeiteten Signalenergie zu ermitteln, oder um die Schätzung der Hintergrundgeräuschenergie basierend auf dem vorverarbeiteten Signal zu erzeugen und zu speichern. Das besondere, bei der vorliegenden Ausführung zur Durchführung dieser Funktionen angewandte Verfahren wird in Verbindung mit Fig. 6 beschrieben werden.
  • Kanal-SNR-Schätzer 310 vergleicht Hintergrundgeräuschschätzung 325 mit Kanalenergieschätzungen 225, um SNR-Schätzungen 235 zu erzeugen. Wie zuvor bemerkt, erfolgt dieser SNR-Vergleich bei der vorliegenden Ausführung als Softwaredivision der Kanalenergieschätzungen (Signal plus Geräusch) durch die Hintergrundgeräuschschätzungen (Geräusch) auf der Basis der einzelnen Kanäle. SNR-Schätzungen 235 werden verwendet, um einzelne Verstärkungswerte von einer aus empirisch ermittelten Verstärkungen bestehenden Kanalverstärkungstabelle auszuwählen.
  • Es ist dieses Verfahren der genaueren Steuerung der Zeit, bei der die Hintergrundgeräuschmessung erfolgt, wobei die Zeitbestimmung auf nachverarbeiteter Sprachenergie beruht, das eine genauere Messung der vorverarbeiteten Sprache für die Hintergrundgeräuschschätzung ermöglicht. Demnach wird die Leistung des gesamten Geräuschunterdrükkungssystems durch Gewinnung der Sprache/Geräuschentscheidung aus nachverarbeiteter Sprache verbessert.
  • Fig. 4 ist eine alternative Implementierung der vorliegenden Erfindung, die veranschaulicht, wie die von dem Hintergrundgeräuschschätzer benutzte nachverarbeitete Sprachenergie auf eine andere Weise erhalten werden kann. Nachverarbeitete Sprachenergie kann "simuliert" werden durch Multiplizieren der von Kanalenergieschätzer 220 erhaltenen vorverarbeiteten Kanalenergieschätzungen 225 mit den Kanalverstärkungswerten von Modifizierungssignal 245, das von Kanalverstärkungssteuerer 240 erhalten wird. Diese Multiplikation erfolgt auf einer pro-Kanal-Basis im Hintergrundgeräuschschätzer 420, wodurch eine Mehrzahl von Hintergrundgeräuschschätzungen 325 an Kanal-SNR- Schätzer 310 angelegt werden. Bei der vorliegenden Ausführung erfolgt dieser Multiplikationsvorgang durch einen Energieschätzungsmodifizierer, der in Hintergrundgeräuschschätzer 420 enthalten ist. Alternativ kann diese simulierte nachverarbeitete Sprache durch einen externen Multiplikationsblock oder durch andere Modifizierungseinrichtungen beigestellt werden.
  • Der Vorteil der Bereitstellung simulierter nachverarbeiteter Sprachenergie an den Hintergrundgeräuschschätzer besteht darin, daß ein zweiter Kanalenergieschätzer (320) nicht mehr gebraucht wird. Kanalenergieschätzer 220 stellt vorverarbeitete Sprachenergieschätzungen 225 für jeden Kanal bereit, die, wenn sie mit den einzelnen Kanalverstärkungsfaktoren multipliziert werden, nachverarbeitete Sprachenergieschätzungen 335 darstellen, die normalerweise von dem nachverarbeiteten Kanalenergieschätzer 330 bereitgestellt werden. Daher kann die Funktion eines Kanalenergieschätzungsblocks auf Kosten einer Art von Energieschätzungsmodifizierungsblocks eingespart werden. Abhängig von der Systemkonfiguration und Implementierung kann der Vorteil der Verwendung simulierter nachverarbeiteter Sprache (bereitgestellt durch einen Modifizierungsblock) gegenüber nachverarbeiteter Sprache (direkt von dem Ausgang erhalten) erheblich sein.
  • Fig. 5 ist ein ausführliches Blockschaltbild der bevorzugten Ausführung der vorliegenden Erfindung. Das verbesserte Geräuschunterdrükkungssystem 500 enthält zahlreiche nützliche Geräuschunterdrückungstechniken: (a) die in Fig. 2 gezeigte Kanalfilterbank-Geräuschunterdrückungstechnik; (b) die simulierte nachverarbeitete Sprachenergietechnik zur Hintergrundgeräuschschätzung, wie in Fig. 4 gezeigt; (c) die Energietalermittlungstechnik zum Ausführen der Sprache/Geräuschentscheidung; (d) eine neuartige Technik zum Auswählen von Verstärkungswerten aus mehrfachen Verstärkungstabellen gemäß dem gesamten Hintergrundgeräuschpegel; und (e) ein neues Verfahren der Glättung der Verstärkungsfaktoren auf einer pro-Abtastung-Basis.
  • Zu Fig. 5. A/D-Wandler 510 tastet das verrauschte Sprachsignal an Eingang 205 alle 125 us ab. Dieses Digitalsignal wird dann an Preemphasisfilter 520 angelegt, das etwa eine Preemphasis von 6 dB pro Oktave an das Signal angelegt, bevor es in Kanäle geteilt wird. Preemphasis wird verwendet, weil sowohl hochfrequentes Geräusch als auch hochfrequente Sprachanteile normalerweise einen niedrigeren Energiepegel haben als niederfrequentes Geräusch und Sprache. Das vorverzerrte Signal wird dann an Kanalteiler 210 angelegt, der das Eingangssignal in N Signale teilt, die ausgewählte Frequenzkanäle darstellen. Diese vorverarbeitete Sprache 215 umfassende N Kanäle werden dann, wie zuvor beschrieben, an Kanalenergieschätzer 220 und Kanalverstärkungsmodifizierer 250 angelegt. Nach Verstärkungsmodifizierung werden die einzelnen Kanäle, die nachverarbeitete Sprache 255 umfassen, durch den Kanalkombinierer 260 summiert, um ein einziges nachverarbeitetes Ausgangssignal zu bilden. Dieses wird dann durch Entzerrungsnetzwerk 540 mit etwa 6 dB pro Oktave entzerrt, bevor es mit D/A- Wandler 550 in eine analoge Wellenform zurückgewandelt wird. Das geräuschverminderte (reine) Sprachsignal liegt dann an Ausgang 265 an.
  • Die Energie in jedem der N Kanäle wird durch Kanalenergieschätzer 220 gemessen, um Kanalenergieschätzungen 225 zu erzeugen. Diese Energiehüllwerte werden an drei bestimmte Blöcke angelegt. Erstens werden vorverarbeitete Signalenergieschätzungen in Energieschätzungsmodifizierer 560 mit rohen Kanalverstärkungswerten 535 multipliziert. Diese Multiplikation dient dazu, nachverarbeitete Energie durch Ausführen praktisch der gleichen Funktion wie Kanalverstärkungsmodifizierer 250
  • - außer auf einem Kanalenergiepegel anstatt eines Kanalsignalpegels - zu simulieren. Die einzelnen simulierten nachverarbeiteten Kanalenergieschätzungen von Energieschätzungsmodifizierer 560 werden an Kanalenergiekombinierer 565 angelegt, der eine einzelne Gesamtenergieschätzung für Energietaldetektor 570 bereitstellt. Kanalenergiekombinierer 565 kann weggelassen werden, wenn mehrere Taldetektoren auf einer pro-Kanal-Basis benutzt und die Taldetektorausgangssignale kombiniert werden.
  • Energietaldetektor 570 benutzt die Gesamtenergieschätzung von Kombinierer 565, um die Sprechpausen zu ermitteln. Dieses erfolgt in drei Stufen. Zuerst wird ein Ausgangstalpegel eingerichtet. Wenn der Hintergrundgeräuschschätzer 420 zuvor nicht initialisiert wurde, wird ein Ausgangstalpegel erzeugt, der einer hohen Hintergrundgeräuschumgebung entsprechen würde. Andernfalls wird der vorangehende Talpegel als seine nachverarbeitete Hintergrundgeräuschenergiegeschichte beibehalten. Als nächstes wird der vorangehende (oder initialisierte) Talpegel aktualisiert, um die momentanen Hintergrundgeräuschbedingungen widerzuspiegeln. Dieses erfolgt durch Vergleichen des vorangehenden Talpegels mit der einzelnen Gesamtenergieschätzung von Kombinierer 565. Durch diesen Aktualisierungsvorgang wird ein momentaner Talpegel gebildet, der im Detail in Fig. 7 beschrieben wird. Der von Energietaldetektor 570 ausgeführte dritte Schritt ist das Treffen der tatsächlichen Sprache/Geräuschentscheidung. Ein vorgewählter Taloffset wird zu dem aktualisierten momentanen Talpegel addiert, um einen Geräuschschwellpegel zu bilden. Dann wird die einzelne, gesamte nachverarbeitete Energieschätzung wiederum verglichen, nur dieses Mal mit dem Geräuschschwellpegel. Wenn diese Energieschätzung kleiner ist als der Geräuschschwellpegel, erzeugt der Energietaldetektor 570 ein Sprache/Geräuschsteuersignal (Talerkennungssignal), das anzeigt, daß keine Sprache vorhanden ist.
  • Die zweite Verwendung der vorverarbeiteten Energieschätzungen ist die der Aktualisierung der Hintergrundgeräuschschätzung. Währen der Pausen in dem simulierten nachverarbeiteten Sprachsignal, wie durch ein positives Talerkennungssignal von Energietaldetektor 570 bestimmt, wird Kanalschalter 575 geschlossen, damit die vorverarbeiteten Sprachenergieschätzungen 225 an Glättungsfilter 580 angelegt werden können. Die geglätteten Energieschätzungen am Ausgang von Glättungsfilter 580 werden in Energieschätzungsspeicherregister 585 gespeichert. Elemente 580 und 585, wie dargestellt verbunden, bilden ein rekursives Filter, das einen zeitgemittelten Wert jeder einzelnen Sprachenergieschätzung bereitstellt. Diese Glättung stellt sicher, daß die momentanen Hintergrundgeräuschschätzungen, im Gegensatz zu den am Ausgang von Schalter 575 vorhandenen momentanen Geräuschenergieschätzungen, die in Speicherregister 585 gespeicherten mittleren Hintergrundgeräuschschätzungen widerspiegeln. Somit ist ständig eine sehr genaue Hintergrundgeräuschschätzung 325 zur Verwendung durch das Geräuschunterdrückungssystem vorhanden.
  • Wenn keine vorangehende Hintergrundgeräuschschätzung in dem Energieschätzungsspeicherregister 585 vorhanden ist, wird das Register mit einem Ausgangswert voreingestellt, der einer Hintergrundgeräuschschätzung entspricht, die der einer niedrigen Geräuscheingabe nahekommt.
  • Zu Anfang erfolgt keine Geräuschunterdrückung. Als Folge davon führt Energietaldetektor 570 Sprache/Geräuschentscheidungen auf Sprachenergie durch, die noch nicht verarbeitet wurde. Schließlich stellt Taldetektor 570 rohe Sprache/Geräuschentscheidungen bereit, um Kanalschalter 575 zu aktivieren, der veranlaßt, daß die initialisierte Hintergrundgeräuschschätzung aktualisiert wird. Wenn die Hintergrundgeräuschschätzung aktualisiert ist, beginnt der Geräuschunterdrücker, die Eingabesprachenergie durch Unterdrücken des Hintergrundgeräuschs zu verarbeiten. Folglich zeigt die nachverarbeitete Sprachenergie ein etwas höheres Signal-zu-Geräuschverhältnis, das dem Taldetektor beim Herstellen genauerer Sprache/Geräuschklassifizierungen zur Verfügung steht. Nachdem das System für eine kurze Zeit (z. B. 100-500 ms) gearbeitet hat, arbeitet der Taldetektor auf einem verbesserten SNR- Sprachsignal. Somit steuern zuverlässige Sprache/Geräuschentscheidungen den Schalter 575, der wiederum dem Energieschätzungsspeicherregister 585 erlaubt, das Hintergrundgeräuschleistungsspektrum sehr genau widerzuspiegeln. Diese "Bootstrap-Methode" - aktualisieren der Anfangswerte mit genaueren Hintergrundgeräuschschätzungen - ist es, die der vorliegenden Erfindung erlaubt, sehr genaue Hintergrundgeräuschschätzungen für ein akustisches Geräuschunterdrückungssystem zu erzeugen.
  • Die dritte Verwendung für vorverarbeitete Kanalenergieschätzungen 225 ist zum Anlegen an Kanal-SNR-Schätzer 310. Wie zuvor angemerkt, stellen diese Schätzungen Signal-plus-Geräusch zum Vergleichen mit Hintergrundgeräuschschätzung 325, die nur Geräusch darstellt, dar. Dieser Signal-zu-Geräuschvergleich erfolgt als Softwaredivision in Kanal- SNR-Schätzer 310, um Kanal-SNR-Schätzungen 235 zu erzeugen. Diese SNR- Schätzungen werden verwendet, um einzelne, Modifizierungssignal 245 umfassende Kanalverstärkungswerte auszuwählen.
  • Verstärkungstabellen stellen im allgemeinen eine nichtlineare Abbildung zwischen den Kanal-SNR-Eingaben X&sub1;-XN und den Kanalverstärkungsausgaben G&sub1;-GN bereit. Eine Verstärkungstabelle ist im Grunde eine zweidimensionale Anordnung empirisch ermittelter Verstärkungswerte. Diese Kanalverstärkungswerte werden typischerweise als Funktion von zwei Variablen ausgewählt: (a) die einzelne Kanalnummer N und (b) die einzelne SNR-Schätzung XN. Wenn in einem einzelnen Kanal Sprache vorhanden ist, wird die Signal-zu-Geräuschverhältnisschätzung hoch sein. Eine grobe SNR-Schätzung XN würde einen Kanalverstärkungswert GN zu Folge haben, der sich einem Maximalwert (d. h. in der vorliegenden Ausführung 1) nähert. Der Betrag des Verstärkungsanhebung kann so entworfen sein, daß er abhängig von dem ermittelten SNR ist, - je größer das SNR, um so mehr wird die einzelne Kanalverstärkung von der Grundverstärkung (alles Geräusch) angehoben. Wenn in dem einzelnen Kanal nur Geräusch vorhanden ist, wird die SNR-Schätzung niedrig sein, und die Verstärkung für diesen Kanal wird reduziert werden, wobei sie sich einem minimalen Grundverstärkungswert (d. h. 0) nähert. Sprachenergie erscheint nicht gleichzeitig in allen Kanälen, so daß die Kanäle, die einen niedrigen Sprachenergiepegel enthalten, von dem Sprachenergiespektrum unterdrückt werden.
  • In ungewöhnlich hohen Hintergrundgeräuschumgebungen, die Geräuschunterdrückungspegel von etwa 20 dB erfordern, müssen jedoch verschiedene Geräuschunterdrückungsverstärkungsfaktoren gewählt werden, um solchen Pegeln zu entsprechen. Bei bestimmten Anwendungen, die wechselnde Geräuschumgebungen aufweisen, können außerdem die für einen Hintergrundgeräuschpegel gewählten Verstärkungsfaktoren die Sprachqualität erheblich verschlechtern, wenn sie bei einem anderen Hintergrundgeräuschpegel verwendet werden. Dieses Problem ist besonders augenfällig in Fahrzeugumgebungen, wo ungeeignete Verstärkungsfaktoren einen Verlust niederfrequenter Sprachanteile verursachen können, was Sprache bei hoher Geräuschunterdrückung dünn klingen lädt.
  • Die vorliegende Ausführung löst dieses Problem durch Auswählen der Kanalverstärkungswerte als Funktion von drei Variablen durch Kanalverstärkungssteuerer 240. Die erste Variable ist die der einzelnen Kanalnummer 1 bis N, so daß der Verstärkungsfaktor eines niederfrequenten Kanals unabhängig von dem eines hochfrequenten Kanals gewählt werden kann. Die zweite Variable ist die einzelne Kanal-SNR- Schätzung. Diese beiden Variablen bilden die Basis der Geräuschunterdrückung mit spektraler Verstärkungsmodifizierung, da die eine niedrige SNR-Schätzung enthaltende einzelnen Kanäle aus dem Sprachspektrum unterdrückt werden.
  • Die dritte Variable ist die des gesamten mittleren Hintergrundgeräuschpegels des Eingabesignals. Diese dritte Variable erlaubt automatisches Auswählen einer aus einer Mehrzahl von Verstärkungstabellen, wobei jede Verstärkungstabelle einen Satz empirisch ermittelter Kanalverstärkungswerte enthält, die als Funktion der beiden anderen Variablen ausgewählt werden können. Diese Verstärkungstabellenauswahltechnik erlaubt, abhängig von der besonderen Hintergrundgeräuschumgebung, eine breitere Wahl von Kanalverstärkungswerten.
  • Zum Beispiel kann eine getrennter Verstärkungstabellensatz mit verschiedenen nichtlinearen Beziehungen zwischen Niederfrequenz- und Hochfrequenzverstärkungswerten bei einer besonderen Hintergrundgeräuschumgebung erwünscht sein, wodurch die geräuschverminderte Sprache normaler klingen kann. Dieses Verfahren ist besonders bei Fahrzeugumgebungen nützlich, wo ein Verlust niederfrequenter Sprachanteile die Sprache bei hoher Geräuschunterdrückung dünn klingen lädt.
  • Zurück zu Fig. 5. Der gesamte mittlere Hintergrundgeräuschpegel wird durch Anlegen des momentanen Talpegels 525 von Energietaldetektor 570 an Geräuschpegelquantisierer 555 bestimmt. Der Ausgang von Quantisierer 555 wird benutzt, um den geeigneten Verstärkungstabellensatz für die gegebene Geräuschumgebung auszuwählen. Geräuschpegelquantisierung ist erforderlich, da der momentane Talpegel ein sich ständig verändernder Parameter ist, während nur eine bestimmte Zahl Verstärkungstabellensätze vorhanden sind, von denen Verstärkungswerte auszuwählen sind. Geräuschpegelquantisierer 555 benutzt Hysterese, um im Gegensatz zu einem statischen (streng linearen) Schwellwertauswahlmechanismus einen einzelnen Verstärkungstabellensatz aus einer Reihe momentaner Talpegel zu bestimmen.
  • Das Verstärkungstabellenauswahlsignal, Ausgang von Geräuschpegelquantisierer 555, wird an Verstärkungstabellenschalter 595 angelegt, um die Verstärkungstabellenauswahl zu vollziehen. Folglich kann einer aus einer Mehrzahl von Verstärkungstabellensätzen 590 als eine Funktion des gesamten mittleren Hintergrundgeräuschpegels ausgewählt werden. Jeder Verstärkungstabellensatz hat ausgewählte einzelne Kanalverstärkungswerte, die verschiedenen einzelnen Kanal-SNR-Schätzungen 235 entsprechen. Bei der vorliegenden Ausführung werden drei Verstärkungstabellensätze benutzt, die niedrigen, mittleren oder hohen Hintergrundgeräuschpegeln entsprechen. Jedoch kann eine beliebige Zahl von Verstärkungstabellensätzen verwendet und eine beliebige Organisation von Kanalverstärkungswerten implementiert werden.
  • Die rohen Kanalverstärkungswerte 535, die am Ausgang von Schalter 595 anliegen, werden an Verstärkungsglättungsfilter 530 und an Energieschätzungsmodifizierer 560 angelegt. Wie zuvor angemerkt, werden diese rohen Verstärkungswerte von Energieschätzungsmodifizierer 560 benutzt, um simulierte nachverarbeitete Sprachenergieschätzungen zu erzeugen.
  • Verstärkungsglättungsfilter 530 stellt eine Glättung der rohen Verstärkungswerte 535 auf der pro-Abtastung-Basis für jeden einzelnen Kanal bereit. Diese pro-Abtastung-Glättung der Geräuschunterdrückungsverstärkungsfaktoren verbessert erheblich das durch Stufenunstetigkeiten in den Rahmen-zu-Rahmen-Verstärkungsänderungen verursachte Geräuschflatterverhalten. Für jeden Kanal werden unterschiedliche Zeitkonstanten benutzt, um die verschiedenen verwendeten Verstärkungstabellensätze zu kompensieren. Der Verstärkungsglättungsfilteralgorithmus wird später beschrieben. Diese geglätteten Verstärkungswerte enthalten das Modifizierungssignal 245, das an Kanalverstärkungsmodifizierer 250 angelegt wird. Wie zuvor beschrieben, führt der Kanalverstärkungsmodifizierer spektrale Verstärkungsmodifizierungsgeräuschunterdrückung durch Reduzieren der relativen Verstärkung der verrauschten Kanäle durch.
  • Fig. 6a/b ist ein Flußdiagramm, das die Gesamtfunktion der vorliegenden Erfindung veranschaulicht. Das Flußdiagramm von Fig. 6a/b entspricht dem verbesserten Geräuschunterdrückungssystem 500 von Fig. 2. Dieses verallgemeinerte Flußdiagramm ist in drei funktionale Blöcke unterteilt: Geräuschunterdrückungsschleife 604 - in Fig. 7a weiter im Detail beschrieben; automatischer Verstärkungswähler 615 - in Fig. 7b ausführlicher beschrieben; und automatischer Hintergrundgeräuschschätzer 621 - dargestellt in Fig. 7c und 7d.
  • Die Funktion des verbesserten Geräuschunterdrückungssystems der vorliegenden Erfindung beginnt mit Fig. 6a bei Initialisierungsblock 601. Wenn das System erstmals eingeschaltet wird, existiert in Energieschätzungsspeicherregister 585 keine alte Hintergrundgeräuschschätzung, und in Energietaldetektor 570 existiert keine Geräuschenergievergangenheit. Folglich wird während der Initialisierung 601 Speicherregister 585 mit einem Initialisierungswert voreingestellt, der einen Hintergrundgeräuschschätzwert darstellt, der einem reinen Sprachsignal am Eingang entspricht. Ähnlich wird der Energietaldetektor 570 mit einem Initialisierungswert voreingestellt, der einen Talpegel darstellt, der einem verrauschten Sprachsignal am Eingang entspricht.
  • Initialisierungsblock 601 stellt auch anfängliche Abtastzähler, Kanalzähler und Rahmenzähler bereit. Zum Zweck der folgenden Erörterung wird eine Abtastperiode von 125 us, entsprechend einer Abtastrate von 8 kHz, festgelegt. Die Rahmendauer ist als ein 10 ms dauerndes Zeltintervall definiert, zu dem Abtastungen des Eingangssignals quantisiert werden. Demnach entspricht ein Rahmen bei einer Abtastrate von 8 kHz 80 Abtastungen.
  • Zu Anfang ist der Abtastzähler Null gesetzt. Block 602 erhöht den Abtastzähler um eins, und eine verrauschte Sprachabtastung wird in Block 603 von A/D-Wandler 510 eingegeben. Die Sprachabtastung wird dann in Block 605 durch Vorverzerrungsnetzwerk 520 vorverzerrt.
  • Der Vorverzerrung folgend initialisiert Block 606 den Kanalzähler zu eins. Entscheidungsblock 607 prüft dann die Kanalzählerzahl. Wenn der Kanalzähler kleiner ist als die höchste Kanalnummer N, wird die Abtastung für diesen Kanal Bandpaß-gefiltert und die Signalenergie für diesen Kanal in Block 608 geschätzt. Das Ergebnis wird zum späteren Gebrauch gespeichert. Block 609 glättet die rohe Kanalverstärkung für den vorliegenden Kanal, und Block 610 modifiziert den Pegel der Bandpaß-gefilterten Abtastung unter Verwendung der geglätteten Kanalverstärkung. Die N Kanäle werden dann (auch in Block 610) kombiniert, um eine einzelne verarbeitete Ausgangssprachabtastung zu bilden. Block 611 erhöht den Kanalzähler um eins und der Vorgang in Blöcken 607 bis 611 wird wiederholt.
  • Wenn das Ergebnis der Entscheidung in 607 wahr ist, wird die kombinierte Abtastung in Block 612 entzerrt und als modifizierte Sprachabtastung in Block 613 ausgegeben. Der Abtastzähler wird dann in Block 614 geprüft, um zu sehen, ob alle Abtastungen in dem laufenden Rahmen verarbeitet wurden. Wenn Abtastungen übrig bleiben, wird die aus Blöcken 602 bis 613 bestehende Schleife für eine andere Abtastung erneut eingegangen. Wenn alle Abtastungen in dem laufenden Rahmen verarbeitet wurden, stößt Block 614 den Vorgang von Block 615 zum Aktualisieren der einzelnen Kanalverstärkungen an.
  • Mit Fig. 6b fortfahrend setzt Block 616 den Kanalzähler auf eins. Block 617 prüft, ob alle Kanäle verarbeitet wurden. Ist diese Entscheidung negativ, berechnet Block 618 den Index zu der Verstärkungstabelle für den einzelnen Kanal durch Bildung einer SNR-Schätzung. Dieser Index wird dann in Block 619 benutzt, um einen Kanalverstärkungswert aus der Tabelle zu erhalten. Der Verstärkungswert wird dann zur Verwendung in Geräuschunterdrückungsschleife 604 gespeichert. Block 620 erhöht dann den Kanalzähler, und Block 617 prüft erneut, um zu sehen, ob alle Kanalverstärkungen aktualisiert wurden. Wenn diese Entscheidung bejahend ist, wird die Hintergrundgeräuschschätzung dann in Block 621 aktualisiert.
  • Um die Hintergrundgeräuschschätzung zu aktualisieren, simuliert die vorliegende Erfindung zuerst nachverarbeitete Energie in Block 622 durch Multiplizieren des aktualisierten rohen Kanalverstärkungswerts mit der vorverarbeiteten Energieschätzung für diesen Kanal. Als nächstes werden die simulierten nachverarbeiteten Energieschätzungen in Block 623 kombiniert, um eine Gesamtkanalenergieschätzung zur Verwendung durch den Taldetektor zu bilden. Block 624 vergleicht den Wert dieser gesamten nachverarbeiteten Energieschätzung mit dem vorangehenden Talpegel. Wenn der Energiewert den vorangehenden Talpegel überschreitet, wird der vorangehende Talpegel in Block 626 durch Erhöhen des Pegels mit einer langsamen Zeitkonstanten aktualisiert. Dies tritt ein, wenn Sprache oder ein höherer Hintergrundgeräuschpegel vorhanden ist. Wenn der Ausgang von Entscheidungsblock 624 negativ ist (nachverarbeitete Energie kleiner als vorangehender Talpegel), wird der vorangehende Talpegel in Block 625 durch Vermindern des Pegels mit einer schnellen Zeitkonstanten aktualisiert. Diese Verminderung des vorangehenden Talpegels tritt ein, wenn minimales Hintergrundgeräusch vorhanden ist. Folglich wird die Hintergrundgeräuschvergangenheit ständig durch langsames Erhöhen oder schnelles Vermindern des vorangehenden Talpegels zu der momentanen nachverarbeiteten Energieschätzung hin aktualisiert.
  • Der Aktualisierung des vorangehenden Talpegels (Block 625 oder 626) folgend prüft Entscheidungsblock 627, ob der momentane nachverarbeitete Energiewert einen vorbestimmten Geräuschschwellwert überschreitet. Wenn das Ergebnis dieses Vergleichs negativ ist, wird eine Entscheidung getroffen, daß nur Geräusch vorhanden ist, und die Hintergrundgeräuschspektrumschätzung wird in Block 628 aktualisiert. Dies entspricht dem Schließen von Kanalschalter 575. Wenn das Ergebnis der Prüfung bejahend ist, was anzeigt, daß Sprache vorhanden ist, wird die Hintergrundgeräuschschätzung nicht aktualisiert. In jedem Fall endet die Funktion von Hintergrundgeräuschschätzer 612, wenn der Abtastzähler in Block 629 zurückgesetzt wird und der Rahmenzähler in Block 630 erhöht wird. Die Ablauf rückt dann zu Block 602 vor, um Geräuschunterdrückung auf dem nächsten Sprachrahmen zu beginnen.
  • Das Flußdiagramm von Fig. 7a zeigt die spezifischen Details des Funktionsablaufs von Geräuschunterdrückungsschleife 604. Für jede Abtastung eingegebener Sprache vorverzerrt Block 701 die Abtastung durch Implementieren des beschriebenen Filters durch die Gleichung:
  • Y(nT) = X(nT) - K&sub1;[X((n-1)T)]
  • wo Y(nT) der Ausgang des Filters bei Zelt nT ist, T die Abtastperiode ist, X(nT) und X((n-1)T) die eingegebenen Abtastungen bei Zeiten nT bzw. (n-1)T sind und der Vorverzerrungskoeffizient K&sub1; = 0.9357 ist. Wie zuvor bemerkt, hebt dieses Filter die Sprachabtastung mit etwa +6 dB pro Oktave an.
  • Block 702 setzt den Kanalzähler auf eins und initialisiert das ausgegebene Abtasttotal zu Null. Block 703 prüft, um zu sehen, ob der Kanalzähler gleich der Gesamtkanalzahl N ist. Wenn diese Entscheidung negativ ist, beginnt die Geräuschunterdrückungsschleife durch Filtern der Sprachabtastung durch das Bandpaßfilter entsprechend dem vorliegenden Kanalzähler. Wie früher angemerkt, sind die Bandpaßfilter digital durch Verwendung von DSP-Verfahren ausgeführt, so daß sie als 4-Pol-Butterworth-Bandpaßfilter arbeiten.
  • Der Sprachabtastungsausgang von Bandpaßfilter (cc) wird dann in Block 705 Vollweg-gleichgerichtet und in Block 706 Tiefpaß-gefiltert, um den Energiehüllwert E(cc) für diese einzelne Abtastung zu erhalten. Diese Kanalenergieschätzung wird dann in Block 707 zur späteren Verwendung gespeichert. Wie den Fachleuten einleuchten wird, ist der Energiehüllwert E(cc) tatsächlich eine Schätzung der Quadratwurzel der Energie in dem Kanal.
  • Block 708 erhält den rohen Verstärkungswert RG für Kanal cc und führt Verstärkungsglättung mit einem Filter erster oder zweiter Ordnung durch, das die Gleichung implementiert:
  • G(nT) = G((n-1)T) + K&sub2;(cc) (RG(nT) - G(n-1)T)
  • wo G(nT) das geglättete Verstärkungssignal bei Zeit nT ist, T die Abtastperiode ist, G((n-1)T) das geglättete Verstärkungssignal bei Zeit (n-1)T ist, RG(nT) die berechnete rohe Kanalverstärkung für die letzte Rahmenperiode ist und K&sub2;(cc) der Filterkoeffizient für Kanal cc ist.
  • Diese Glättung der rohen Verstärkungswerte auf einer pro-Abtastung Basis reduziert die Unstetigkeiten bei Verstärkungsänderungen, wodurch das Geräuschflatterverhalten erheblich verbessert wird.
  • Block 709 multipliziert die in Block 704 erhaltene gefilterte Abtastung mit dem von Block 708 erhaltenen geglätteten Verstärkungswert für Kanal cc. Diese Funktion modifiziert den Pegel der Bandpaß-gefilterten Abtastung durch Verwendung der momentanen Kanalverstärkung entsprechend der Funktion des Kanalverstärkungsmodifizierers 250. Block 710 addiert dann die modifizierte gefilterte Abtastung für Kanal cc zu dem Ausgabeabtasttotal, das, wenn N-mal ausgeführt, die N modifizierten Bandpaßfilterausgänge kombiniert, um einen einzelnen verarbeiteten Sprachabtastungsausgang zu bilden. Die Funktion von Block 710 entspricht dem Kanalkombinierer 260. Block 711 erhöht den Kanalzähler um eins und der Vorgang in Blöcken 703 bis 711 wird dann wiederholt.
  • Wenn das Ergebnis der Prüfung in 703 wahr ist, wird die ausgegebene Sprachabtastung in Block 712 mit etwa -6 dB pro Oktave entzerrt gemäß der Gleichung:
  • Y(nT) = X(nT) + K&sub3;[Y((n-1)T)]
  • wo X(nT) die verarbeitete Abtastung bei Zeit nT ist, T die Abtastperiode ist, Y(nT) und Y((n-1)T) die entzerrten Sprachabtastungen bei Zeiten nT bzw. (n-1)T sind und K&sub3; der Entzerrungskoeffizient ist, der einen Wert von 0.9375 hat. Die entzerrte verarbeitete Sprachabtastung wird dann an den D/A-Wandlerblock 613 ausgegeben. Die Geräuschunterdrückungsschleife von Fig. 7a veranschaulicht somit sowohl die Kanalfilterbank-Geräuschunterdrückungstechnik als auch pro-Abtastung-Kanalverstärkungsglättungstechnik.
  • Das Flußdiagramm von Fig 7c beschreibt ausführlicher die Funktion des automatischen Verstärkungsauswahlblocks 615 von Fig. 6. Nach Verarbeitung aller Sprachabtastungen in einem Rahmen wird die Funktion an Block 615 übertragen, der zur Aktualisierung der einzelnen Kanalverstärkungen dient. Zuerst wird in Block 720 der Kanalzähler auf eins gesetzt. Als nächstes prüft Entscheidungsblock 721, ob alle Kanäle verarbeitet wurden. Wenn nicht, geht der Ablauf bei Block 722 weiter, der das SNR für den einzelnen Kanal berechnet. Wie zuvor erwähnt, ist die SNR-Berechnung einfach eine Division der pro-Kanal-Energieschätzungen (Signal-plus-Geräusch) durch die pro-Kanal-Hintergrundgeräuschschätzungen (Geräusch). Daher teilt Block 722 einfach die momentan gespeicherte Kanalenergieschätzung von Block 707 durch die momentane Hintergrundgeräuschschätzung von Block 628 entsprechend der Gleichung:
  • Index (cc) = [monentane Rahmenenergie für Kanal cc]/ [Hintergrundgeräuschschätzung für Kanal cc].
  • Der momentane Talpegel, 525 von Fig. 5, wird dann in Block 723 quantisiert, um ein digitales Verstärkungstabellenauswahlsignal von einem analogen Talpegel zu erzeugen. Beim Quantisieren des Talpegels wird Hysterese verwendet, da das Verstärkungstabellenauswahlsignal nicht auf minimale Änderungen im momentanen Talpegel ansprechen sollte.
  • In Block 724 wird die zu indexierende einzelne Verstärkungstabelle ausgewählt. In der vorliegenden Ausführung wird der in Block 723 erzeugte quantisierte Wert des momentanen Talpegels verwendet, um diese Auswahl auszuführen. Jedoch kann ein beliebiges Verfahren zur Verstärkungstabellenauswahl benutzt werden.
  • Der in Block 722 berechnete SNR-Index wird in Block 725 verwendet, um den rohen Kanalverstärkungswert von der geeigneten Verstärkungstabelle auszuwählen. Der Verstärkungswert wird demnach als Funktion von drei Variablen indiziert: (1) die Kanalnummer; (2) die momentane Kanal- SNR-Schätzung; und (3) der gesamte mittlere Hintergrundgeräuschpegel. Der rohe Verstärkungswert wird dann in Block 726 gemäß diesem Index aus drei Variablen erhalten.
  • Block 727 speichert die in Block 726 erhaltenen rohen Verstärkungswerte. Block 728 erhöht den Kanalzähler und Entscheidungsblock 721 wird erneut betreten. Nachdem alle N Kanalverstärkungen aktualisiert wurden, geht der Vorgang zu Block 621 weiter, um den momentanen Talpegel und die momentane Hintergrundgeräuschschätzung zu aktualisieren. Somit aktualisiert der automatische Verstärkungsauswahlblock 615 die Kanalverstärkungswerte auf einer Rahmen-für-Rahmen-Basis als Funktion des gesamten mittleren Hintergrundgeräuschpegels, um Geräuschunterdrückungsverstärkungsfaktoren für jeden einzelnen Kanal genauer zu erzeugen.
  • Fig. 7c und Fig. 7d breitet sich bei Block 721 aus, um die Funktion des automatischen Hintergrundgeräuschschätzers 420 von Fig. 5 genauer zu beschreiben. Insbesondere beschreibt Fig. 7c den Vorgang des Simulierens der nachverarbeiteten Energie und Kombinierens dieser Schätzungen, während Fig. 7d die Funktion des Taldetektors 570 beschreibt.
  • Nun zu Fig. 7c. Die Funktion zur Simulation nachverarbeiteter Sprache beginnt bei Block 730 durch Setzen des Kanalzählers (cc) auf eins. Block 731 prüft diesen Kanalzähler, um zu sehen, ob alle N Kanäle verarbeitet wurden. Wenn nicht, beschreibt die Gleichung von Block 732 den tatsächlichen von Energieschätzungsmodifizierer 560 von Fig. 5 ausgeführten Simulationsvorgang.
  • Simulierte nachverarbeitete Sprachenergie wird erzeugt durch Multiplizieren der rohen Kanalverstärkungswerte (direkt erhalten von den Kanalverstärkungstabellen) mit der vorverarbeiteten Energieschätzung (erhalten von Energieschätzer 220) für jeden Kanal über die Gleichung:
  • SE(cc) = E(cc) RG(cc)
  • wo SE(cc) die simulierte nachverarbeitete Energie für Kanal cc ist, E(cc) die von Block 707 gespeicherte momentane Rahmenenergieschätzung für Kanal cc ist und RG(cc) der von Block 725 erhaltene rohe Kanalverstärkungswert für Kanal cc ist. Wie früher bemerkt, ist E(cc) tatsächlich die Quadratwurzel der Energie in dem Kanal, da sie ein Maß der Signalumhüllung ist. Demnach wird das Glied RG(cc) der obigen Gleichung nicht quadriert. Die in Block 732 ausgeführte Multiplikation dient praktisch der gleichen Funktion wie Kanalverstärkungsmodifizierer 250 - außer daß der Kanalverstärkungsmodifizierer vorverarbeitetes Sprachsignal benutzt, während Energieschätzungsmodifizierer 560 vorverarbeitete Sprachenergie benutzt. (s. Fig. 5).
  • Der Kanalzähler wird dann in Block 733 erhöht und in Block 731 erneut abgefragt. Wenn ein simulierter nachverarbeiteter Energiewert für alle N Kanäle erhalten ist, dienen Blöcke 734 bis 738 zum kombinieren der einzelnen simulierten Kanalenergieschätzungen, um die einzelne Gesamtenergieschätzung nach der folgenden Gleichung zu bilden:
  • NACHVERARBEITETE ENERGIE =
  • KANAL (i) NACHVERARBEITETE ENERGIE
  • wo N die Zahl der Filter in der Filterbank ist.
  • Block 734 initialisiert den Kanalzähler zu eins, und Block 735 initialisiert den gesamten nachverarbeiteten Energiewert zu Null. Nach der Initialisierung prüft Entscheidungsblock 736, ob alle Kanalenergien kombiniert wurden oder nicht. Wenn nicht, addiert Block 737 den simulierten nachverarbeiteten Energiewert für den momentanen Kanal zu dem gesamten nachverarbeiteten Energiewert. Die momentane Kanalnummer wird dann in Block 738 erhöht, und die Kanalnummer wird bei Block 736 erneut geprüft. Wenn alle N Kanäle kombiniert wurden, um die gesamte, simulierte nachverarbeitete Energieschätzung zu bilden, geht der Vorgang bei Block 740 von Fig. 7d weiter.
  • Nun zu Fig. 7d. Blöcke 740 bis 745 zeigen, wie die nachverarbeitete Signalenergie benutzt wird, um entsprechend der Funktion von Energietaldetektor 570 von Fig. 5 den vorangehenden Talpegel zu erzeugen und zu aktualisieren. Nachdem alle nachverarbeiteten Energien pro Kanal kombiniert wurden, berechnet Block 740 den Logarithmus dieser kombinierten nachverarbeiteten Kanalenergie. Ein Grund, daß die Log- Darstellung der nachverarbeiteten Sprachenergie in der vorliegenden Ausführung benutzt wird, besteht darin, die Implementierung eines extrem groben Dynamikbereichs (> 90 dB) in einem 8-Bit-Mikroprozessorsystem zu erleichtern.
  • Entscheidungsblock 741 prüft dann, ob dieser Log-Energiewert den vorangehenden Talpegel überschreitet. Wie zuvor erwähnt, ist der vorangehende Talpegel entweder der gespeicherte Talpegel für den vorigen Rahmen oder ein von Block 701 von Fig. 6 bereitgestellter initialisierter Talpegel. Wenn der Log-Wert den vorangehenden Talpegel überschreitet, wird der vorangehende Talpegel in Block 743 mit dem momentanen Log-[nachverarbeitete Energie]-Wert durch Erhöhen des Pegels mit der langsamen Zeitkonstanten von etwa 1 Sekunde aktualisiert, um einen momentanen Talpegel zu bilden. Dieses tritt auf, wenn Sprache oder ein höherer Hintergrundgeräuschpegel vorhanden ist. Wenn umgekehrt der Ausgang von Entscheidungsblock 741 negativ ist (Log[nachverarbeitete Energie] kleiner als vorangehender Talpegel), wird der vorangehende Talpegel in Block 742 mit dem momentanen Log-[nachverarbeitete Energie]-Wert durch Vermindern des Pegels mit einer schnellen Zeitkonstanten von etwa 40 ms aktualisiert, um den momentanen Talpegel zu bilden. Dieses tritt auf, wenn ein niedrigerer Hintergrundgeräuschpegel vorhanden ist. Folglich wird die Hintergrundgeräuschvergangenheit ständig durch langsames Erhöhen oder schnelles Vermindern des vorangehenden Talpegels, abhängig von dem Hintergrundgeräuschpegel der momentanen, simulierten nachverarbeiteten Sprachenergieschätzung, aktualisiert.
  • Nach Aktualisierung des vorangehenden Talpegels prüft Entscheidungsblock 744, ob der momentane Log[nachverarbeitete Energie]-Wert den momentanen Talpegel plus einem vorbestimmten Offset übersteigt. Die Addition des momentanen Talpegels plus diesem Taloffset erzeugt einen Geräuschschwellenpegel. Bei der vorliegenden Ausführung stellt dieser Offset eine Erhöhung des momentanen Talpegels um etwa 6 dB bereit. Ein weiterer Grund zur Verwendung der Log-Arithmetik besteht demnach darin, den konstanten 6 dB Offsetadditionsvorgang zu vereinfachen.
  • Wenn die Log-Energie diesen Schwellwert überschreitet, - was einem Sprachrahmen anstatt einem Hintergrundgeräusch entsprechen würde - wird die momentane Hintergrundgeräuschschätzung nicht aktualisiert, und der Hintergrundgeräuschaktualisierungsprozeß endet. Wenn jedoch die Log-Energie den Geräuschschwellpegel nicht überschreitet, - was einem ermittelten Minimum in dem nachverarbeiteten Signal entsprechen würde, anzeigend, daß nur Geräusch vorhanden ist, - wird die spektrale Hintergrundgeräuschschätzung in Block 745 aktualisiert. Dieses entspricht dem Schließen des Kanalschalters 575 als Reaktion auf ein positives Talermittlungssignal von Energietaldetektor 570. Dieser Aktualisierungsvorgang besteht aus Bereitstellen eines zeitgemittelten Werts der vorverarbeiteten Kanalenergieschätzung für den einzelnen Kanal durch Glättung der Schätzung (in Glättungsfilter 580) und Speichern dieser zeitgemittelten Werte als pro-Kanal-Geräuschschätzungen (in Energieschätzungsspeicherregister 585). Die Funktion von Hintergrundgeräuschschätzungsblock 721 endet für den einzelnen Rahmen, der verarbeitet wird, durch Weitergehen zu Block 729 und 630, um einen neuen Rahmen zu erhalten.
  • Zusammenfassend führt die vorliegende Erfindung Spektralsubtraktions- Geräuschunterdrückung durch Verwenden eines nachverarbeiteten Sprachsignals aus, um die Hintergrundgeräuschschätzung zu erzeugen. Die vorliegende Erfindung verbessert ferner die Leistung dieser Systeme durch Verwenden des gesamten mittleren Hintergrundgeräuschs, um die Geräuschunterdrückungsverstärkungsfaktoren zu erzeugen, und durch Glättung dieser Verstärkungsfaktoren auf einer pro-Abtastung-Basis. Diese neuartigen Techniken erlauben der vorliegenden Erfindung, die akustische Geräuschunterdrückungsleistung bei hohen Umgebungsgeräuschhintergründen zu verbessern, ohne die Qualität des gewünschten Sprachsignals zu verschlechtern.
  • Während spezifische Ausführungen der vorliegenden Erfindung hierin gezeigt und beschrieben wurden, können von Fachleuten weitere Abwandlungen und Verbesserungen ausgeführt werden. Alle derartigen Modifikationen, die an den hierin offengelegten und beanspruchten grundlegenden Prinzipien festhalten, befinden sich innerhalb des Umfangs dieser Erfindung.

Claims (9)

1. Verbessertes Geräuschunterdrückungssystem (400) zur Dämpfung des Hintergrundgeräuschs von einem geräuschbelasteten Eingabesignal (205), um ein geräuschvermindertes Ausgabesignal (265) zu erzeugen, wobei das Geräuschunterdrückungssystem besitzt:
Einrichtung (210) zum Teilen des Eingangssignals in eine Mehrzahl vorverarbeiteter Signale (215), die ausgewählte Frequenzkanäle darstellen,
Einrichtung (250) zum Modifizieren der Verstärkung von jedem der Mehrzahl vorverarbeiteter Signale als Reaktion auf einen vorbestimmten Verstärkungswert (245), um eine Mehrzahl nachverarbeiteter Signale (255) bereitzustellen,
Einrichtung (260) zum Kombinieren der Mehrzahl nachverarbeiteter Signale, um das geräuschverminderte Ausgabesignal zu erzeugen, und Einrichtung (240, 310, 420) zum Erzeugen des vorbestimmten Verstärkungswerts, das Geräuschunterdrückungssystem dadurch gekennzeichnet, daß:
der vorbestimmte Verstärkungswert (245) als Reaktion auf Schätzungen des Signal-zu-Geräusch-Verhältnisses (SNR) in jedem einzelnen Kanal (235) erzeugt wird; und
die SNR-Schätzungen in jedem einzelnen Kanal auf der momentanen Signalenergieschätzung des vorverarbeiteten Signals in jedem einzelnen Kanal (225) und der vorangehenden Geräuschenergieschätzung des vorverarbeiteten Signals in jedem einzelnen Kanal (325) basieren, bestimmt zu Zeitpunkten, die den ermittelten Minima einer Darstellung der Mehrzahl nachverarbeiteter Signale entsprechen.
2. Verbessertes Geräuschunterdrückungssystem nach Anspruch 1, worin die Einrichtung zum Erzeugen der vorbestimmten Verstärkungswerte umfaßt:
eine Mehrzahl von Verstärkungstabellen (590), wobei jede Verstärkungstabelle vorbestimmte individuelle Kanalverstärkungswerte entsprechend den verschiedenen individuellen Kanal-SNR-Schätzungen besitzt; und
Verstärkungstabellenauswahleinrichtung (555, 595) zum automatischen Auswählen einer aus der Mehrzahl von Verstärkungstabellen entsprechend dem gesamten mittleren Hintergrundgeräuschpegel des Eingabesignals.
3. Verbessertes Geräuschunterdrückungssystem (500) zur Dämpfung des Hintergrundgeräuschs von einem geräuschbelasteten vorverarbeiteten Eingabesignal (205), um ein geräuschvermindertes nachverarbeitetes Ausgabesignal (265) durch spektrale Verstärkungsmodifizierung zu erzeugen, wobei das Geräuschunterdrückungssystem umfaßt:
Signalteilungseinrichtung (210) zum Teilen des vorverarbeiteten Eingabesignals in eine Mehrzahl ausgewählter Frequenzbänder, um dadurch eine Mehrzahl vorverarbeiteter Kanäle (215) zu erzeugen;
Kanalenergieschätzeinrichtung (220) zum Erzeugen einer Schätzung (225) der Energie in jedem der Mehrzahl vorverarbeiteter Kanäle;
Hintergrundgeräuschschätzeinrichtung (420) zum Erzeugen und Speichern von Schätzungen (325) der Hintergrundgeräuschenergie basierend auf den Kanalenergieschätzungen und zum periodischen Ermitteln der Minima des nachverarbeiteten Signalenergiepegels derartig, daß die Hintergrundgeräuschschätzungen nur während der Minima aktualisiert werden;
Kanal-SNR-Schätzeinrichtung (310) zum Erzeugen einer Schätzung des Signal-zu-Geräusch-Verhältnisses (SNR) jedes einzelnen Kanals (235) basierend auf den Kanalenergieschätzungen und den Hintergrundgeräuschschätzungen;
Kanalverstärkungssteuereinrichtung (240) zum Bereitstellen von Kanalverstärkungswerten (245) entsprechend den Kanal-SNR-Schätzungen;
Kanalverstärkungsmodifizierungseinrichtung (250) zum Einstellen der Verstärkung jedes der Mehrzahl der von der Signalteilungseinrichtung bereitgestellten vorverarbeiteten Kanäle entsprechend den Kanalverstärkungswerten, um dadurch eine Mehrzahl nachverarbeiteter Kanäle (255) zu erzeugen; und
Kanalkombinierungseinrichtung (260) zum Rekombinieren der Mehrzahl nachverarbeiteter Kanäle, um das nachbearbeitete Ausgabesignal zu erzeugen.
4. Verbessertes Geräuschunterdrückungssystem nach Anspruch 3, worin die Hintergrundgeräuschschätzeinrichtung (420) Einrichtung (560) zum Erzeugen der Darstellung des nachverarbeiteten Signalenergiepegels durch Multiplizieren der Mehrzahl vorverarbeiteter Kanäle mit den Kanal verstärkungswerten enthält.
5. Verbessertes Geräuschunterdrückungssystem nach Anspruch 3, worin die Hintergrundgeräuschschätzeinrichtung (420) umfaßt:
Speichereinrichtung (580, 585) zum Speichern einer Schätzung der Hintergrundgeräuschenergie des vorverarbeiteten Signals in jedem der Mehrzahl ausgewählter Frequenzbänder als pro-Kanal-Geräuschschätzungen und zum ständigen Bereitstellen der pro-Kanal-Geräuschschätzungen an die Kanal-SNR-Schätzeinrichtung;
Talermittlungseinrichtung (570) zum periodischen Ermitteln der Minima einer Gesamtschätzung der Energie des nachverarbeiteten Signals in jedem der Mehrzahl ausgewählter Frequenzbänder, um dadurch ein Talerkennungssignal zu erzeugen; und
Signalsteuereinrichtung (575), verbunden mit der Speichereinrichtung und gesteuert durch das Talerkennungssignal, zum Bereitstellen neuer Hintergrundgeräuschschätzungen an die Speichereinrichtung nur während der Minima.
6. Verbessertes Geräuschunterdrückungssystem nach Anspruch 5, worin die Speichereinrichtung (580, 585) umfaßt:
Glättungseinrichtung (580) zum Bereitstellen eines zeitgemittelten Werts jeder der Hintergrundgeräuschenergieschätzungen des vorverarbeiteten Signals in einem einzelnen Frequenzband; und
Speichereinrichtung (585) zum Speichern jedes der zeitgemittelten Werte von der Glättungseinrichtung als pro-Kanal-Geräuschschätzungen.
7. Verbessertes Geräuschunterdrückungssystem nach Anspruch 5, worin die Talermittlungseinrichtung (570) umfaßt:
Einrichtung zum Speichern des numerischen Werts der vorangehende ermittelten Minima als ein vorangehender Talpegel;
Einrichtung zum Vergleichen des momentanen numerischen Werts der Gesamtenergieschätzung mit dem vorangehenden Talpegel;
Einrichtung zum Erhöhen des vorangehenden Talpegels mit einer langsamen Geschwindigkeit, wenn der momentane numerische Wert größer als der vorangehende Talpegel ist; und
Einrichtung zum Vermindern des vorangehenden Talpegels mit einer schnellen Geschwindigkeit, wenn der momentane numerische Wert kleiner als der vorangehende Talpegel ist, um damit den vorangehenden Talpegel zu aktualisieren, um einen momentanen Talpegel bereitzustellen.
8. Verbessertes Geräuschunterdrückungssystem nach Anspruch 3, worin die Kanalverstärkungssteuereinrichtung (240) umfaßt:
eine Mehrzahl von Verstärkungstabellen (590), Jede Verstärkungstabelle mit vorbestimmten individuellen Kanalverstärkungswerten entsprechend den verschiedenen individuellen Kanal-SNR-Schätzungen;
Verstärkungstabellenauswahleinrichtung (555, 595) zum automatischen Auswählen einer aus der Mehrzahl von Verstärkungstabellen entsprechend dem gesamten mittleren Hintergrundgeräuschpegel des Eingabesignals;
womit jeder einzelne Kanalverstärkungswert als eine Funktion von (a) der einzelnen Kanalnummer, (b) der momentanen Kanal-SNR- Schätzung und (c) des gesamten mittleren Hintergrundgeräuschpegels ausgewählt wird.
9. Verbessertes Geräuschunterdrückungssystem nach Anspruch 3, worin die Kanalverstärkungssteuereinrichtung (240) weiter umfaßt:
Verstärkungsglättungseinrichtung (530) zum Glätten der von der Kanalverstärkungssteuereinrichtung an die Kanalverstärkungsmodifizierungseinrichtung bereitgestellten Verstärkungswerte.
DE86903767T 1985-07-01 1986-05-05 Rauschminderungssystem. Expired - Lifetime DE3689035T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US06/750,941 US4630305A (en) 1985-07-01 1985-07-01 Automatic gain selector for a noise suppression system
US06/750,572 US4630304A (en) 1985-07-01 1985-07-01 Automatic background noise estimator for a noise suppression system
US06/750,942 US4628529A (en) 1985-07-01 1985-07-01 Noise suppression system

Publications (2)

Publication Number Publication Date
DE3689035D1 DE3689035D1 (de) 1993-10-21
DE3689035T2 true DE3689035T2 (de) 1994-01-20

Family

ID=27419404

Family Applications (1)

Application Number Title Priority Date Filing Date
DE86903767T Expired - Lifetime DE3689035T2 (de) 1985-07-01 1986-05-05 Rauschminderungssystem.

Country Status (6)

Country Link
EP (1) EP0226613B1 (de)
KR (1) KR940009391B1 (de)
DE (1) DE3689035T2 (de)
FI (1) FI92118C (de)
HK (1) HK19297A (de)
WO (1) WO1987000366A1 (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2243274A (en) * 1990-02-20 1991-10-23 Switchtoll Limited Subtracting ambient noise from total noise during recording or broadcasting
JP3033061B2 (ja) * 1990-05-28 2000-04-17 松下電器産業株式会社 音声雑音分離装置
EP0459363B1 (de) * 1990-05-28 1997-08-06 Matsushita Electric Industrial Co., Ltd. Sprachkodierer
DE69124005T2 (de) * 1990-05-28 1997-07-31 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung
EP0459384B1 (de) * 1990-05-28 1998-12-30 Matsushita Electric Industrial Co., Ltd. Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
EP0763811B1 (de) * 1990-05-28 2001-06-20 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals
KR950013551B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 잡음신호예측장치
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
US6118758A (en) 1996-08-22 2000-09-12 Tellabs Operations, Inc. Multi-point OFDM/DMT digital communications system including remote service unit with improved transmitter architecture
US6771590B1 (en) 1996-08-22 2004-08-03 Tellabs Operations, Inc. Communication system clock synchronization techniques
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
DK1068704T3 (da) 1998-04-03 2012-09-17 Tellabs Operations Inc Filter til impulssvarforkortning, med yderligere spektrale begrænsninger, til multibærebølgeoverførsel
US6795424B1 (en) 1998-06-30 2004-09-21 Tellabs Operations, Inc. Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems
GB9821385D0 (en) * 1998-10-01 1998-11-25 British Broadcasting Corp Improvements relating to measuring channel state from a received signal and discriminating digital values from a received signal,suitable for use in cofdm
US6519486B1 (en) 1998-10-15 2003-02-11 Ntc Technology Inc. Method, apparatus and system for removing motion artifacts from measurements of bodily parameters
US7991448B2 (en) 1998-10-15 2011-08-02 Philips Electronics North America Corporation Method, apparatus, and system for removing motion artifacts from measurements of bodily parameters
FR2794323B1 (fr) * 1999-05-27 2002-02-15 Sagem Procede de suppression de bruit
FR2794322B1 (fr) * 1999-05-27 2001-06-22 Sagem Procede de suppression de bruit
WO2001065540A1 (en) * 2000-02-29 2001-09-07 Ericsson Inc Methods and systems for noise reduction for spatially displaced signal sources
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
EP1170728A1 (de) * 2000-07-05 2002-01-09 Alcatel System zur angepassten Reduktion von Geräuschen bei Sprachsignalen
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP2002149200A (ja) 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
EP2254351A3 (de) * 2003-03-03 2014-08-13 Phonak AG Verfahren zur Herstellung von akustischen Geräten und zur Verringerung von Windstörungen
US7127076B2 (en) 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
US20060184361A1 (en) * 2003-04-08 2006-08-17 Markus Lieb Method and apparatus for reducing an interference noise signal fraction in a microphone signal
US7454332B2 (en) 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
JP4172530B2 (ja) 2005-09-02 2008-10-29 日本電気株式会社 雑音抑圧の方法及び装置並びにコンピュータプログラム
EP1770685A1 (de) * 2005-10-03 2007-04-04 Maysound ApS System zur Verminderung der hörbaren Wahrnehmung des Schallstörpegels eines Menschen.
DE102006051071B4 (de) 2006-10-30 2010-12-16 Siemens Audiologische Technik Gmbh Pegelabhängige Geräuschreduktion
GB0725110D0 (en) * 2007-12-21 2008-01-30 Wolfson Microelectronics Plc Gain control based on noise level
EP2149985B1 (de) * 2008-07-29 2013-04-03 LG Electronics Inc. Vorrichtung zur Verarbeitung eines Audiosignals und Verfahren dafür
JP2010122617A (ja) 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
US8515087B2 (en) 2009-03-08 2013-08-20 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR102372188B1 (ko) * 2015-05-28 2022-03-08 삼성전자주식회사 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치
CN112863534B (zh) * 2020-12-31 2022-05-10 思必驰科技股份有限公司 噪声音频消除方法、语音识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3989897A (en) * 1974-10-25 1976-11-02 Carver R W Method and apparatus for reducing noise content in audio signals
US4185168A (en) * 1976-05-04 1980-01-22 Causey G Donald Method and means for adaptively filtering near-stationary noise from an information bearing signal
US4135590A (en) * 1976-07-26 1979-01-23 Gaulder Clifford F Noise suppressor system
US4208548A (en) * 1977-07-19 1980-06-17 Orban Associates, Inc. Apparatus and method for peak-limiting audio frequency signals
US4340778A (en) * 1979-11-13 1982-07-20 Bennett Sound Corporation Speaker distortion compensator
JPS56122243A (en) * 1980-02-29 1981-09-25 Victor Co Of Japan Ltd Noise reduction system
JPS56152337A (en) * 1980-04-24 1981-11-25 Victor Co Of Japan Ltd Noise reduction system

Also Published As

Publication number Publication date
WO1987000366A1 (en) 1987-01-15
FI92118B (fi) 1994-06-15
HK19297A (en) 1997-02-20
FI92118C (fi) 1994-09-26
EP0226613A4 (de) 1988-06-14
DE3689035D1 (de) 1993-10-21
FI870642A0 (fi) 1987-02-16
KR880700539A (ko) 1988-03-15
EP0226613B1 (de) 1993-09-15
KR940009391B1 (ko) 1994-10-07
FI870642A7 (fi) 1987-02-16
EP0226613A1 (de) 1987-07-01

Similar Documents

Publication Publication Date Title
DE3689035T2 (de) Rauschminderungssystem.
DE3856280T2 (de) Rauschunterdrückungssystem
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE602004008455T2 (de) Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
DE69420027T2 (de) Rauschverminderung
DE112009000805B4 (de) Rauschreduktion
DE69905035T2 (de) Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69531710T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE69526007T2 (de) Postfilter und Verfahren zur Postfilterung
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE69931580T2 (de) Identifikation einer akustischer Anordnung mittels akustischer Maskierung
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69903334T2 (de) Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE112007003674T5 (de) Methode und Apparat zur Einkanal-Sprachverbesserung basierend auf einem latenzzeitreduzierten Gehörmodell
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
DE102014221810A1 (de) Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert

Legal Events

Date Code Title Description
8364 No opposition during term of opposition