DE69803203T2

DE69803203T2 - Verfahren und vorrichtung zur rauschunterdrückung eines digitalen sprachsignals

Info

Publication number: DE69803203T2
Application number: DE69803203T
Authority: DE
Inventors: Philip Lockwood; Stephane Lubiarz
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 2002-08-29
Anticipated expiration: 2018-09-17
Also published as: EP1016072A1; WO1999014738A1; FR2768547A1; AU9168998A; DE69803203D1; EP1016072B1; US6477489B1; FR2768547B1; CA2304571A1

Description

Die vorliegende Erfindung betrifft digitale Verfahren zur Rauschunterdrückung von Sprachsignalen. Sie betrifft insbesondere die Rauschunterdrückung mittels nichtlinearer Spektralsubtraktion.
Infolge der Verbreitung neuer Formen der Kommunikation, insbesondere der Mobiltelefone, findet die Kommunikation mehr und mehr in stark verlärmten Umgebungen statt. Der zu der Sprache hinzugekommene Lärm tendiert daher dazu, die Kommunikationen zu stören, indem er eine optimale Komprimierung des Sprachsignals behindert und ein unnatürliches Hintergrundgeräusch erzeugt. Andererseits macht der Lärm das Verstehen der gesprochenen Nachricht schwierig und ermüdend.
Es wurden zahlreiche Algorithmen untersucht, um zu versuchen, die Auswirkungen von Lärm bei einer Kommunikation zu verringern. S.F. Boll ("Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-27, Nr. 2, April 1979) schlug einen Algorithmus basierend auf der Spektralsubtraktion vor. Diese Methode besteht darin, das Spektrum des Lärms während der Stillephasen zu schätzen und es von dem empfangenen Signal zu subtrahieren. Sie ermöglicht eine Verringerung des Pegels des empfangenen Lärms. Ihr hauptsächlicher Nachteil besteht darin, daß sie ein musikalisches Geräusch erzeugt, das aufgrund seiner Unnatürlichkeit insbesondere störend ist.
Diese Arbeiten, die von D.B. Paul ("The spectral envelope estimation vocoder", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-29, Nr. 4, August 1981) und von P. Lockwood et J. Boudy ("Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars", Speech Communication, Vol. 11, Juni 1992, S. 215-228, und EP-A-0 534 837) wieder aufgenommen und verbessert wurden, gestatteten es, den Lärmpegel merklich zu senken und dabei einen natürlichen Charakter zu bewahren. Des weiteren hatte dieser Beitrag das Verdienst, erstmalig das Prinzip der Maskierung in die Berechnung des Rauschunterdrückungsfilters mit einzubeziehen. Ausgehend von dieser Idee wurde ein erster Versuch von S. Nandkumar und J.H.L. Hansen ("Speech enhancement on a new set of auditory constrained parameters", Proc. ICASSP 94, S. I.1-I.4) unternommen, in der Spektralsubtraktion explizit berechnete Maskierungskurven anzuwenden. Trotz der enttäuschenden Resultate dieser Methode hatte dieser Beitrag das Verdienst, daß er den. Akzent auf die Wichtigkeit des Umstands setzte, das Sprachsignal im Zuge der Rauschunterdrückung nicht zu denaturieren.
Weitere Verfahren, die auf der Zerlegung des Sprachsignals in Einzelwerte und somit auf einer Projektion des Sprachsignals auf einen verringerten Raum basieren, wurden von Bart De Moore ("The singular value decomposition and long and short spaces of noisy matrices", IEEE Trans. on Signal Processing, Vol. 41, Nr. 9, September 1993, S. 2826-2838) und von S.H. Jensen et al. ("Reduction of broad-band noise in speech by truncated QSVD", IEEE Trans. on Speech and Audio Processing, Vol. 3, Nr. 6, November 1995) untersucht. Das Prinzip dieser Methode ist es, das Sprachsignal und das Lärmsignal als völlig dekorreliert zu betrachten und in Betracht zu ziehen, daß das Sprachsignal eine ausreichende Vorhersagbarkeit besitzt, um ausgehend von einem beschränkten Satz von Parametern vorhergesagt zu werden. Diese Methode gestattet es, eine akzeptable Rauschunterdrückung für stark stimmhafte Signale zu erzielen, die jedoch das Sprachsignal vollständig denaturiert. Angesichts eines relativ kohärenten Geräusches wie etwa dem, das durch das Abrollgeräusch von Fahrzeugreifen oder das Klopfen eines Motors hervorgerufen wird, kann sich der Lärm als leichter vorhersagbar als das nicht-stimmhafte Sprachsignal erweisen. Es besteht daher eine Tendenz, das Sprachsignal in einen Teil des Vektorraums des Geräusches zu projizieren. Das Verfahren berücksichtigt nicht das Sprachsignal, insbesondere nicht-stimmhafte Bereiche der Sprache, in denen die Vorhersagbarkeit herabgesetzt ist. Des weiteren gestattet es die Vorhersage des Sprachsignals ausgehend von einem beschränkten Satz von Parametern nicht, die gesamte eigentliche Reichhaltigkeit der Sprache in Betracht zu ziehen. Von daher sind die Grenzen von Methoden verständlich, die einzig auf mathematischen Erwägungen basieren und dabei den besonderen Charakter der Sprache außer acht lassen.
Weitere Methoden schließlich basieren auf Kohärenzkriterien. Die Funktion der Kohärenz wurde insbesondere gut entwickelt von J.A. Cadzow und O.M. Solomon ("Linear modeling and the coherence function", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-35, Nr. 1, Januar 1987, S. 19-28), und ihre Anwendung auf die Rauschunterdrückung wurde von R. Le Bouquin ("Enhancement of noisy speech signals: application to mobile radio communications", Speech Communication, Vol. 18, S. 3-19) untersucht. Dieses Verfahren basiert auf der Tatsache, daß das Sprachsignal eine deutlich stärkere Kohärenz als der Lärm besitzt, vorausgesetzt, daß mehrere unabhängige Kanäle verwendet werden. Die erzielten Resultate scheinen durchaus ermutigend zu sein. Leider setzt diese Methode jedoch voraus, daß mehrere Tonaufnahmequellen vorhanden sind, was nicht immer der Fall ist.
Eine hauptsächliche Aufgabe der vorliegenden Erfindung ist es, ein neues Verfahren zur Rauschunterdrückung vorzuschlagen, welches die Charakteristiken der Wahrnehmung der Sprache durch das menschliche Ohr berücksichtigt und somit eine effektive Rauschunterdrückung ermöglicht, ohne die Wahrnehmung der Sprache zu verschlechtern. Erfindungsgemäß sind ein Verfahren gemäß Anspruch 1 sowie eine Vorrichtung gemäß Anspruch 19 vorgesehen.
Die Erfindung schlägt nunmehr ein Verfahren zur Rauschunterdrückung eines in aufeinanderfolgenden Blöcken behandelten digitalen Sprachsignals vor, wobei
- Spektralkomponenten des Sprachsignals an jedem Block berechnet werden;
- für jeden Block majorierte Schätzungen von Spektralkomponenten von in dem Sprachsignal enthaltenem Rauschen berechnet werden;
- eine spektrale Subtraktion durchgeführt wird, die mindestens einen ersten Subtraktionsschritt aufweist, in dem jeweils von jeder Spektralkomponente des Sprachsignals an dem Block eine erste Größe subtrahiert wird, die von Parametern abhängt, welche die majorierte Schätzung der dem Rauschen für den Block entsprechenden Spektralkomponente beinhalten, so daß Spektralkomponenten eines ersten rauschunterdrückten Signals erhalten werden.
Auf das Ergebnis der Spektralsubtraktion kann eine Transformierung in den Zeitbereich angewendet werden, um ein rauschunterdrücktes Sprachsignal zu erstellen.
Gemäß der Erfindung weist die Spektralsubtraktion des weiteren die folgenden Schritte auf:
- Berechnung einer Maskierungskurve unter Anwendung eines Modells der auditiven Wahrnehmung ausgehend von den Spektralkomponenten des ersten rauschunterdrückten Signals;
- Vergleich der majorierten Schätzungen der Spektralkomponenten des Rauschens für den Block mit der berechneten Maskierungskurve; und
- einen zweiten Subtrahierschritt, in dem jeweils von jeder Spektralkomponente des Sprachsignals an dem Block eine zweite Größe subtrahiert wird, die von Parametern abhängt, welche einen Abstand zwischen der majorierten Schätzung der entsprechenden Spektralkomponente des Rauschens und der berechneten Maskierungskurve beinhalten.
Die zweite zu subtrahierende Größe kann insbesondere auf den Bruchteil der majorierten Schätzung der entsprechenden Spektralkomponente beschränkt sein, der die Maskierungskurve übersteigt. Diese Vorgehensweise beruht auf der Beobachtung, daß es ausreichend ist, die hörbaren Frequenzen von Lärm zu entrauschen. Hingegen hat es keinen Zweck, Lärm zu beseitigen, der durch Sprache maskiert ist.
Die Überbewertung der Spektralumhüllenden des Rauschens ist im allgemeinen wünschenswert, damit die auf diese Weise erstellte majorierte Schätzung gegen abrupte Variationen des Rauschens robust ist. Dennoch weist diese Überbewertung üblicherweise den Nachteil auf, das Sprachsignal zu verzerren, wenn sie zu groß wird. Dies hat die Auswirkung, daß der stimmhafte Charakter des Sprachsignals beeinträchtigt wird, indem ein Teil seiner Vorhersagbarkeit unterdrückt wird. Dieser Nachteil ist sehr störend unter den Bedingungen der Telefonie, denn gerade während der Stimmhaftigkeitsbereiche ist das Sprachsignal am energiereichsten. Durch Begrenzung der abzuziehenden Größe, wenn sich herausstellt, daß die Gesamtheit oder ein Teil einer Frequenzkomponente des überbewerteten Rauschens von der Sprache maskiert ist, ermöglicht die Erfindung eine starke Verringerung dieses Nachteils.
Weitere Details und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von nicht-einschränkenden Ausführungsbeispielen unter Bezugnahme auf die beigefügte Zeichnung.
Es zeigt:
- Fig. 1 eine schematische Übersicht eines Rauschunterdrückungssystems, das die vorliegende Erfindung anwendet;
- Fig. 2 und 3 Organigramme von Prozeduren, die durch einen Stimmaktivitätsdetektor des Systems von Fig. 1 angewendet werden;
- Fig. 4 ein Diagramm, das die Zustände eines Automaten zur Erfassung von Stimmaktivität darstellt;
- Fig. 5 ein Diagramm zur Veranschaulichung der Variationen eines Grades der Stimmaktivität;
- Fig. 6 eine schematische Übersicht eines Moduls zur Überbewertung von Rauschen des Systems von Fig. 1;
- Fig. 7 ein Diagramm zur Veranschaulichung der Berechnung einer Maskierungskurve;
- Fig. 8 ein Diagramm zur Veranschaulichung der Nutzung der Maskierungskurven in dem System von Fig. 1;
- Fig. 9 eine schematische Übersicht eines weiteren Systems zur Rauschunterdrückung unter Anwendung der vorliegenden Erfindung;
- Fig. 10 ein Diagramm zur Veranschaulichung einer in einem erfindungsgemäßen Verfahren verwendbaren Methode für die harmonische Analyse; und
- Fig. 11 eine teilweise Darstellung der schematischen Übersicht von Fig. 9.
Das in Fig. 1 dargestellte System zur Rauschunterdrückung behandelt ein digitales Sprachsignal s. Ein Fensterbildungsmodul 10 bringt dieses Signal s in die Form von aufeinanderfolgenden Fenstern oder Blöcken, die jeweils aus einer Anzahl N von Abtastproben eines digitalen Signals bestehen. Auf klassische Weise können diese. Blöcke gegenseitige Überlappungen aufweisen. In der nachfolgenden Beschreibung wird angenommen, ohne daß dies einschränkend gedacht ist, daß die Blöcke aus N = 256 Abtastproben mit einer Abtastrate Fe von 8 kHz bestehen, mit einer Hamming-Wichtung in jedem Fenster, und Überlappungen von 50% zwischen aufeinanderfolgenden Fenstern.
Der Signalblock wird durch ein Modul 11, das einen klassischen Algorithmus der schnellen Fourier-Transformation (TFR) für die Berechnung des Moduls des Spektrums des Signals anwendet, in den Frequenzbereich transformiert. Das Modul 11 liefert somit eine mit Sn,f bezeichnete Gesamtheit von N = 256 Frequenzkomponenten des Sprachsignals, wobei n die Nummer des momentanen Blocks und f eine Frequenz des diskreten Spektrums bezeichnet. Aufgrund der Eigenschaften der digitalen Signale im Frequenzbereich werden nur die N/2 = 128 ersten Abtastproben verwendet.
Für die Berechnung der Schätzungen des in dem Signal s enthaltenen Rauschens wird nicht die am Ausgang der schnellen Fourier-Transformation verfügbare Frequenzauflösung verwendet, sondern eine schwächere Auflösung, die durch eine Anzahl I von Frequenzbändern bestimmt ist, welche das Band [0, Fe/2] des Signals abdeckt. Jedes Band i (1 ≤ i ≤ 1) erstreckt sich zwischen einer unteren Frequenz f(i - 1) und einer oberen Frequenz f(i), wobei f(0) = 0, und f(I) = Fe/2. Dieses Zerschneiden in Frequenzbänder kann gleichförmig (f(i) - f(i - 1) = Fe/2I) sein. Es kann auch nicht gleichförmig sein (z. B. gemäß einer Barks- Skala). Ein Modul 12 berechnet die jeweiligen Mittelwerte der Spektralkomponenten Sn,f des Sprachsignals pro Bändern, beispielsweise durch eine gleichförmige Wichtung wie etwa:
Diese Mittelwertbildung vermindert die Schwankungen zwischen den Bändern durch Mitteln der Beiträge des Rauschens in diesen Bändern, wodurch die Varianz des Schätzers des Rauschens vermindert wird. Des weiteren gestattet diese Mittelwertbildung eine starke Verringerung der Komplexität des Systems.
Die gemittelten Spektralkomponenten Sn,i werden an ein Modul 15 für die Erfassung von Stimmaktivität und an ein Modul 16 zur Schätzung des Rauschens adressiert. Diese beiden Module 15, 16 arbeiten insofern gemeinsam, als von dem Modul 15 für die verschiedenen Bänder gemessene Stimmaktivitätsgrade γn,i von dem Modul 16 für die Schätzung der Langzeitenergie des Rauschens in den verschiedenen Bändern verwendet werden, während diese Langzeitschätzungen n,i von dem Modul 15 verwendet werden, um eine apriorische Rauschunterdrückung des Sprachsignals in den verschiedenen Bändern vorzunehmen, um die Stimmaktivitätsgrade γn,i zu bestimmen.
Der Betrieb der Module 15 und 16 kann den in Fig. 2 und 3 dargestellten Organigrammen entsprechen.
In den Schritten 17 bis 20 führt das Modul 15 die apriorische Rauschunterdrückung des Sprachsignals in den unterschiedlichen Bändern i für den Signalblock n durch.
Diese apriorische Rauschunterdrückung wird gemäß einem klassischen Vorgang zur nichtlinearen Spektralsubtraktion ausgehend von Schätzungen des Rauschens durchgeführt, welche bei einem oder mehreren vorausgegangenen Blöcken erhalten wurden. In Schritt 17 berechnet das Modul 15 mit der Auflösung der Bänder i den Frequenzgang Hpn,i des Filters für die apriorische Rauschunterdrückung gemäß der Formel:
wobei τ1 und τ2 als Anzahl von Blöcken ausgedrückte Verzögerungen sind (τ1 ≤ 1, τ2 ≤ 0), und α'n,i ein Koeffizient der Überbewertung des Rauschens ist, dessen Bestimmung weiter unten erläutert wird. Die Verzögerung τ1 kann festgelegt (z. B. τ1 = 1) oder auch variabel sein. Sie ist umso geringer, je stärker man sich auf die Erfassung der Stimmaktivität verläßt.
In den Schritten 18 bis 20 werden die Spektralkomponenten pn,i berechnet gemäß:
pni = max{Hpn,i·Sn,i,βpi· n-τ1,i} (3)
wobei βpi ein Untergrenzenkoeffizient nahe 0 ist, der klassischerweise dazu dient zu vermeiden, daß das Spektrum des entrauschten Signals negative oder übermäßig schwache Werte annimmt, die ein musikalisches Geräusch hervorrufen würden.
Die Schritte 17 bis 20 bestehen somit im wesentlichen darin, von dem Spektrum des Signals eine durch den Koeffizienten α'n-τ1,i majorierte Schätzung des apriorisch geschätzten Spektrums des Rauschens zu subtrahieren.
In Schritt 21 berechnet das Modul 15 die Energie des apriorisch rauschunterdrückten Signals in den verschiedenen Bändern i für den Block n: En,i = p ,i. Es berechnet auch einen globalen Mittelwert En,0 der Energie des apriorisch rauschunterdrückten Signals durch eine Summe der Energien pro Band En,i, die mit den Breiten dieser Bänder gewichtet sind. In den nachfolgenden Angaben wird der Index i = 0 dazu verwendet, das globale Band des Signals zu bezeichnen.
In den Schritten 22 und 23 berechnet das Modul 15 für jedes Band i (0 ≤ i ≤ I) eine Größe ΔEn,i, welche für die Kurzzeitvariation der Energie des entrauschten Signals im Band i steht, sowie einen Langzeitwert n,i der Energie des entrauschten Signals im Band i. Die Größe ΔEn,i kann berechnet werden durch eine vereinfachte Ableitungsformel:
was die Langzeitenergie n,i betrifft, so kann diese mit Hilfe eines Vergessensfaktors B1 wie etwa 0 < B1 < 1 berechnet werden, nämlich n,i = B1· n-1,i + (1 - B1)·En,i.
Nach der Berechnung der Energien En,i des rauschunterdrückten Signals, seiner Kurzzeitvariationen ΔEn,i und seiner Langzeitwerte n,i auf die in Fig. 2 angegebene Weise berechnet das Modul 15 für jedes Band i (0 ≤ i ≤ I) einen Wert ρi, der für die Evolution der Energie des rauschunterdrückten Signals steht. Diese Berechnung wird in den Schritten 25 bis 36 von Fig. 3 vorgenommen, die für jedes Band i zwischen i = 0 und i = I durchgeführt werden. Diese Berechnung wendet einen Langzeitschätzer bai der Umhüllenden des Rauschens, einen internen Schätzer bii und einen Zähler bi für verrauschte Blöcke an.
In Schritt 25 wird die Größe ΔEn,i mit einem Schwellwert &epsi;1 verglichen. Wenn der Schwellwert &epsi;1 nicht erreicht wird, wird der Zähler bi in Schritt 26 um eine Einheit inkrementiert. In Schritt 27 wird der Langzeitschätzer bai mit dem Wert der geglätteten Energie n,i verglichen. Falls bai ≥ n,i, wird der Schätzer bai gleich dem geglätteten Wert n,i in Schritt 26 genommen, und der Zähler bi wird auf Null zurückgesetzt. Die Größe ρi, die gleich dem Verhältnis bai/ n,i genommen wird (Schritt 36), ist somit gleich 1.
Wenn Schritt 27 ergibt, daß bai < n,i, wird der Zähler bi in Schritt 29 mit einem Grenzwert bmax verglichen. Falls bi > bmax, wird angenommen, daß das Signal zu stationär ist, um Stimmaktivität zu unterstützen. Daraufhin wird der oben genannte Schritt 28 durchgeführt, der in der Annahme besteht, daß der Block nur Rauschen beinhaltet. Falls bi ≤ bmax in Schritt 29, wird der interne Schätzer bii in Schritt 33 berechnet gemäß:
bii = (1 - Bm)· n,i + Bm·bai (4)
In dieser Formel steht Bm für einen zwischen 0,90 und 1 liegenden Aktualisierungskoeffizienten. Sein Wert ist je nach dem Zustand eines Automaten für die Erfassung von Stimmaktivität verschieden (Schritte 30 bis 32). Dieser Zusand δn-1 ist derjenige, der bei det Verarbeitung des vorherigen Blockes bestimmt wurde. Falls sich der Automat in einem Zustand der Erfassung von Sprache befindet (δn-1 = 2 in Schritt 30), nimmt der Koeffizient Bm einen Wert Bmp an, der sehr nahe bei 1 liegt, damit der Schätzer des Rauschens bei Vorhandensein von Sprache sehr geringfügig aktualisiert wird. Im entgegengesetzten Fall nimmt der Koeffizient Bm einen geringeren Wert Bms an, um in einer Stillephase eine bedeutendere Aktualisierung des Schätzers des Rauschens zu ermöglichen. In Schritt 34 wird der Abstand bai - bii zwischen dem Langzeitschätzer und dem internen Schätzer des Rauschens mit einem Schwellwert &epsi;2 verglichen. Wenn der Schwellwert &epsi;2 nicht erreicht wird, wird der Langzeitschätzer bai in Schritt 35 mit dem Wert des internen Schätzers bii aktualisiert. Andernfalls bleibt der Langzeitschätzer bai unverändert. Es wird somit vermieden, daß abrupte Variationen aufgrund eines Sprachsignals zu einer Aktualisierung des Schätzers des Rauschens führen.
Nach dem Erhalt der Größen ρi nimmt das Modul 15 die Entscheidungen der Stimmaktivität in Schritt 37 vor. Das Modul 15 aktualisiert zuerst den Zustand des Erfassungsautomaten gemäß der für die Gesamtheit des Bandes des Signals berechneten Größe ρ&sub0; Der neue Zustand δn des Automaten hängt von dem vorhergegangenen Zustand δn-1 und von ρ&sub0; ab, wie in Fig. 4 dargestellt ist.
Vier Zustände sind möglich: δ = 0 erfaßt Stille bzw. Abwesenheit von Sprache; δ = 2 erfaßt das Vorhandensein einer Stimmaktivität; und die Zustände δ = 1 und δ = 3 sind dazwischenliegende Zustände δes Anstiegs und Abfallens. Wenn sich der Automat im Zustand von Stille (δn-1 = 0) befindet, bleibt er dort, wenn ρ&sub0; nicht eine erste Schwelle SE1 übersteigt, und geht im entgegengesetzten Fall in den Anstiegszustand über. Im Anstiegszustand (δn- 1 = 1) kehrt er in den Zustand von Stille zurück, wenn ρ&sub0; kleiner als der Schwellwert SE1 ist, geht in den. Zustand der Sprache über, wenn ρ&sub0; größer als eine über der Schwelle SE1 liegende Schwelle SE2 ist, und bleibt im Anstiegszustand, falls SE1 ≤ ρ&sub0; ≤ SE2. Wenn sich der Automat im Zustand der Sprache (δn-1 = 2) befindet, so bleibt er dort, falls ρ&sub0; eine unter der Schwelle SE2 liegende dritte Schwelle SE3 ist, und geht im entgegengesetzten Fall in den Abstiegszustand über. Im Abstiegszustand (δn-1 = 3) kehrt der Automat in den Zustand der Sprache zurück, falls de ρ&sub0; größer als der Schwellwert SE2 ist, kehrt in den Zustand der Stille zurück, wenn ρ&sub0; diesseits eines unter dem Schwellwert 5E2 liegenden vierten Schwellwerts SE4 ist, und bleibt im Abstiegszustand, falls SE4 ≤ ρ&sub0; ≤ SE2.
In Schritt 37 berechnet das Modul 15 des weiteren die Stimmaktivitätsgrade γn,i in jedem Band i ≥ 1. Dieser Grad γn,i ist vorzugsweise ein nicht-binärer Parameter, d. h. die Funktion yn,i = g(ρi) ist eine Funktion, die in Abhängigkeit von den durch die Größe ρi angenommenen Werten kontinuierlich zwischen 0 und 1 variiert. Diese Funktion besitzt beispielsweise den in Fig. 5 dargestellten Verlauf.
Das Modul 16 berechnet die Schätzungen des Rauschens pro Band, die im Rauschunterdrückungsvorgang verwendet werden, unter Anwendung der aufeinanderfolgenden Werte der Komponenten Sn,i und der Stimmaktivitätsgrade γn,i Dies entspricht den Schritten 40 bis 42 von Fig. 3. In Schritt 40 wird bestimmt, ob der Automat für die Erfassung von Stimmaktivität aus dem Anstiegszustand in den Zustand der Sprache übergegangen ist. Falls ja, werden die vorausgehend für jedes Band i ≥ 1 berechneten beiden letzten Schätzungen n-1,i und n-2,i gemäß dem vorausgegangenen Schätzwert n-3,i korrigiert. Diese Korrektur wird durchgeführt, um den Umstand zu berücksichtigen, daß in der Anstiegsphase (δ = 1) die Langzeitschätzungen der Energie des Rauschens in dem Vorgang für die Erfassung von Stimmaktivität (Schritte 30 bis 33) so berechnet werden konnten, als ob das Signal nur Rauschen beinhaltete (Bm = Bms), so daß die Gefahr besteht, daß sie mit einem Fehler behaftet sind.
In Schritt 42 aktualisiert das Modul 16 die Schätzungen des Rauschens pro Band gemäß den Formeln:
n,i = λB· n-1,i + (1 - λB)·Sn,i (5)
wobei λB einen Vergessensfaktor wie etwa 0 < λB < 1 bezeichnet. Formel (6) zeigt die Berücksichtigung des nicht-binären Stimmaktivitätsgrades γn,i.
Wie obenstehend angegeben wurde, sind die Langzeitschätzungen des Rauschens n,i Gegenstand einer Überbewertung durch ein Modul 45 (Fig. 1), bevor die Rauschunterdrückung mittels nichtlinearer Spektralsubtraktion vorgenommen wird. Das Modul 45 berechnet den oben genannten Koeffizienten der Überbewertung α'n,i sowie eine majorierte Schätzung 'n,i die im wesentlichen α'n,i ' 'n,i entspricht.
Die Strukturierung des Überbewertungsmoduls 45 ist in Fig. 6 dargestellt. Die majorierte Schätzung 'n,i wird erhalten durch Kombinieren der Langzeitschätzung n,i und eines Maßes ΔB der Veränderlichkeit der Rauschkomponente in dem Band i um seine Langzeitschätzung. Bei dem betrachteten Beispiel ist dieses Kombinieren im wesentlichen eine einfache Summe, die von einem Addierer 46 erstellt wird wird. Es könnte sich hierbei auch um eine gewichtete Summe handeln.
Der Überbewertungskoeffizient α'n,i ist gleich dem Verhältnis zwischen der vom Addierer 46 gelieferten Summe n,i + ΔB und der verzögerten Langzeitschätzung n-τ3,i (Teiler 47), die nach oben hin durch einen Grenzwert αmax beschränkt ist, beispielsweise αmax = 4 (Block 48). Die Verzögerung τ3 dient gegebenenfalls dazu, in den Anstiegsphasen (δ = 1) den Wert des Überbewertungskoeffizienten α'n,i zu korrigieren, bevor die Langzeitschätzungen durch die Schritte 40 und 41 von Fig. 3 korrigiert worden sind (z. B. τ3 = 3).
Die majorierte Schätzung 'n,i wird schließlich gleich α'n,i· n-τ3,i genommen (Multiplizierer 49).
Das Maß ΔB der Veränderlichkeit des Rauschens reflektiert die Varianz des Schätzers des Rauschens. Es wird in Abhängigkeit von den Werten von Sn,i und von n,i für eine bestimmte Anzahl von vorherigen Blöcken berechnet, an denen das Sprachsignal keine Stimmaktivität in dem Band i aufweist. Es ist eine Funktion der für eine Anzahl K von Blöcken mit Stille (n - k ≤ n) berechneten Abstände Sn-k,i - n-k,i . In dem dargestellten Beispiel ist diese Funktion einfach das Maximum (Block 50). Für jeden Block n wird der Grad der Stimmaktivität γn,i mit einem Schwellwert (Block 51) verglichen, um zu entscheiden, ob der in 52-53 berechnete Abstand Sn,i - n,i in eine Warteschlange 54 mit K Stellen geladen werden muß, die im Ersteingang/Erstausgang-Modus (FIFO) organisiert ist. Falls γn,i den Schwellwert nicht übersteigt (der gleich 0 sein kann, falls die Fuunktion g() die Form von Fig. 5 besitzt), wird die FIFO nicht versorgt, während sie es im entgegengesetzten Fall wird. Der in der FIFO 54 enthaltene Maximalwert wird dann als Maß ΔB der Veränderlichkeit geliefert.
Das Maß ΔB der Veränderlichkeit kann als Variante in Abhängigkeit von den Werten Sn,f (anstatt Sn,i) und n,i erhalten werden. Anschließend wird auf die gleiche Weise, mit der Ausnahme, daß die FIFO 54 Sn-k,i - n-k,i nicht enthält, vorgegangen, jedoch eher f [ ,f(i)[ Sn-k,f - n-k,i .
Aufgrund der unabhängigen Langzeitschätzungen der Schwankungen des Rauschens n,i und seiner Kurzzeitveränderlichkeit ΔB stellt der majorierte Schätzer 'n,i eine ausgezeichnete Robustheit des Rauschunterdrückungsverfahrens gegen musikalische Geräusche zur Verfügung.
Eine erste Phase der spektralen Subtraktion wird durch das in Fig. 1 dargestellte Modul 55 verwirklicht. Diese Phase liefert vor der Auflösung der Bänder i (1 ≤ i 1) den Frequenzgang H ,i eines ersten Rauschunterdrückungsfilters in Abhängigkeit von den Komponenten Sn,i und n,i und den Überbewertungskoeffizienten α'n,i. Diese Berechnung kann für jedes Band i durchgeführt werden gemäß der Formel:
wobei τ4 eine als τ4 ≥ 0 (z. B. τ4 = 0) bestimmte ganzzahlige Verzögerung ist. In dem Ausdruck (7) stellt der Koeffizient β wie der Koeffizient βpi der Formel (3) eine Untergrenze dar, die klassischerweise zur Vermeidung von negativen oder zu kleinen Werten des rauschunterdrückten Signals dient.
Auf bekannte Weise (EP 0 534 837) könnte der Überbewertungskoeffizient α'n,i in der Formel (7) durch einen anderen Koeffizienten ersetzt werden, der gleich einer Funktion von α'n,i und einer Schätzung des Rauschabstandes (z. B. Sn,i/ n,i) ist, wobei diese Funktion gemäß dem Schätzwert des Rauschabstandes abnehmend ist. Diese Funktion ist somit gleich α'n,i für die kleinsten Werte des Rauschabstandes. Wenn das Signal stark verrauscht ist, ist es nämlich a priori nicht sinnvoll, den Überbewertungsfaktor zu vermindern. Vorteilhaft nimmt diese Funktion für die höchsten Werte des Rauschabstandes gegen Null hin ab. Dies ermöglicht einen Schutz der energiereichsten Zonen des Spektrums, in denen das Sprachsignal am bedeutendsten ist, wobei die von dem Signal zu subtrahierende Größe somit gegen Null tendiert.
Diese Strategie kann verfeinert werden, indem sie selektiv auf die Harmonischen der Tonfrequenz ("pitch") des Sprachsignals angewendet wird, wenn dieses eine Stimmaktivität aufweist.
Somit wird bei der in Fig. 1 dargestellten Ausführungsform eine zweite Phase der Rauschunterdrückung durch ein Modul 56 zum Schutz der Harmonischen durchgeführt. Dieses Modul berechnet mit der Auflösung der Fourier- Transformierung den Frequenzgang H ,f eines zweiten Rauschunterdrückungsfilters in Abhängigkeit von den Parametern H ,i, α'n,i, n,i, δn, Sn,i und der außerhalb der Stillephasen durch ein Modul für die harmonische Analyse 57 berechneten Tonfrequenz fp = Fe/Tp. In einer Stillephase (δn = 0) ist das Modul 56 nicht in Betrieb, d. h. H ,f = H ,i für jede Frequenz f eines Bandes i. Das Modul 57 kann jegliches bekannte Verfahren für die Analyse des Sprachsignals des Blocks anwenden, um die Periode Tp zu bestimmen, die als ganze Zahl oder Bruchteil von Abtastproben angegeben wird, z. B. ein lineares Prädiktionsverfahren.
Der durch das Modul 56 zur Verfügung gestellte Schutz kann darin bestehen, daß für jede zu einem Band i gehörige Frequenz f durchgeführt wird:
Δf = Fe/N stellt die spektrale Auflösung der Fourier- Transformation dar. Wenn H ,f = 1, ist die von der Komponente Sn,f zu substrahierende Größe Null. In dieser Berechnung drücken die Untergrenzenkoeffizienten Bi (z. B. β = β ) den Umstand aus, daß bestimmte Harmonische der Tonfrequenz fp von Rauschen maskiert sein können, so daß es nicht sinnvoll ist, sie zu schützen.
Diese Schutzstrategie wird vorzugsweise für jede der Frequenzen angewendet, die am nächsten zu den Harmonischen von fp sind, d. h. auf jedes ganzzahlige η.
Wenn man mit δfp die Frequenzauflösung bezeichnet, bei der das Analysemodul 57 die geschätzte Tonfrequenz fp erzeugt, d. h. daß die reelle Tonfrequenz zwischen fp - δ fp/2 und fp + δfp/2 liegt, dann kann der Abstand zwischen der η-ten Harmonischen der reellen Tonfrequenz und ihrer Schätzung η · fp (Bedingung (9)) bis ±η · δfp/2 gehen. Bei hohen Werten von η kann dieser Abstand größer als die halbe spektrale Auflösung Δf/2 der Fourier-Transformierten sein. Um diese Unsicherheit zu berücksichtigen und einen guten Schutz der Harmonischen der reellen Tonfrequenz zu gewährleisten, kann jede der Frequenzen des Intervalls [η · fp - η · δfp/2, η · fp + η · δfp/2] geschützt werden, d. h. die obenstehende Bedingung (9) kann ersetzt werden durch:
ganzzahliges η/ f - η·fp ≤ (η·δfp + Δf)/2 (9')
Diese Schutzart (Bedingung 9') ist von besonderem Interesse, wenn die Werte von η groß sein können, insbesondere falls das Verfahren in einem Breitbandsystem verwendet wird.
Für jede geschützte Frequenz kann der korrigierte Frequenzgang H ,f gemäß der obenstehenden Angabe gleich 1 sein, was der Substraktion einer Größe Null im Rahmen der spektralen Subtraktion entspricht, d. h. einem kompletten Schutz der betreffenden Frequenz. Allgemeiner gesagt, dieser korrigierte Frequenzgang H ,f könnte je nach dem gewünschten Schutzgrad gleich einem zwischen 1 und H ,f liegenden Wert genommen werden, was der Subtraktion einer Größe entspricht, die kleiner als diejenige ist, die zu subtrahieren wäre, wenn die betreffende Frequenz nicht geschützt wäre.
Die Spektralkomponenten S ,f eines rauschunterdrückten Signals werden durch einen Multiplizierer 58 berechnet:
S ,f = H ,f·Sn,f (10)
Dieses Signal Sn,f wird an ein Modul 60 geliefert, das für jeden Block n eine Maskierungskurve berechnet durch Anwenden eines psychoakustischen Modells der Gehörwahrnehmung durch das menschliche Ohr.
Das Phänomen der Maskierung ist ein von der Funktion des menschlichen Ohrs her bekanntes Prinzip. Wenn zwei Frequenzen gleichzeitig gehört werden, ist es möglich, daß eine von den beiden nicht mehr hörbar ist. Man sagt dann, daß diese maskiert ist.
Es gibt verschiedene Verfahrensweisen für die Berechnung der Maskierungskurven. Beispielsweise kann die von J.D. Johnston ("Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Area in Communications, Vol. 6, Nr. 2, Februar 1988) entwickelte angewendet werden. Bei dieser Verfahrensweise wird in der Frequenzskala der Barks gearbeitet. Die Maskierungskurve wird als die Faltung der Funktion der spektralen Dehnung der Basilarmembran im Bark-Bereich mit dem anregenden Signal betrachtet, bestehend in der vorliegenden Anwendung aus, dem Signal Sn,f. Die spektrale Dehnungsfunktion kann auf die in Fig. 7 dargestellte Weise modelliert werden. Für jedes Bark-Band wird der Beitrag der in Betracht gezogenen niederen und hohen Bänder durch die Funktion der Dehnung der Basilarmembran berechnet:
wobei die Indices q und q' die Bark-Bänder (0 ≤ q,q' ≤ Q) bezeichnen, und S ,q' für den Mittelwert der Komponenten S ,f des rauschunterdrückten Anregungssignals für die diskreten Frequenzen f steht, die zum Bark-Band q' gehören.
Der Maskierungsschwellwert M ,q wird erhalten durch das Modul 60 für Bark-Band q gemäß der Formel:
Mn,q = Cn,q/Rq (12)
in der Rq von dem mehr oder minder stimmhaften Charakter des Signals abhängt. Auf bekannte Weise ist eine mögliche Form von Rq:
10.log&sub1;&sub0;(Rq) = (A + q)·χ + B·(1 - χ) (13)
wobei A = 14,5 und B = 5,5. χ bezeichnet einen Stimmhaftigkeitsgrad des Sprachsignals, der zwischen Null (keine Stimmhaftigkeit) und 1 (stark stimmhaftes Signal) variiert. Der Parameter x kann die bekannte Form aufweisen:
wobei SFM in Dezibel das Verhältnis zwischen dem arithmetischen Mittel und dem geometrischen Mittel der Energie der Bark-Bänder angibt, und SFMmax = -60 dB.
Das Rauschunterdrückungssystem weist darüber hinaus ein Modul 62 auf, das den Frequenzgang des Rauschunterdrückungsfilters in Abhängigkeit von der durch das Modul 60 berechneten Maskierungskurve Mn,q und den durch das Modul 45 berechneten majorierten Schätzungen korrigiert. Das Modul 62 entscheidet über das Rauschunterdrückungsniveau, das tatsächlich erzielt werden soll.
Durch einen Vergleich der Umhüllenden der majorierten Schätzung des Rauschens mit der durch die Maskierungsschwellwerte Mn,q gebildeten Umhüllenden wird entschieden, das Signal nur in dem Maße zu entrauschen, in dem die majorierte Schätzung 'n,i die Maskierungskurve übersteigt. Dies vermeidet eine nutzlose Unterdrückung von durch Sprache maskiertem Rauschen.
Die neue Antwort H ,f für eine zu dem Band i gehörende Frequenz r, die durch das Modul 12 und im Bark-Band q definiert wird, hängt somit von dem relativen Abstand zwischen der majorierten Schätzung 'n,i der entsprechenden Spektralkomponente des Rauschens und der Maskierungskurve Mn,q' folgendermaßen ab:
Anders ausgedrückt, die bei dem Vorgang der Spektralsubtraktion mit dem Frequenzgang H ,f von einer Spektralkomponente S ,f zu subtrahierende Größe ist im wesentlichen gleich dem Minimum zwischen der bei dem Vorgang der Spektralsubtraktion mit dem Frequenzgang H ,f von dieser Spektralkomponente zu subtrahierenden Größe einerseits und dem Bruchteil der majorierten Schätzung 'n,i der entsprechenden Spektralkomponente des Rauschens andererseits, die gegebenenfalls die Maskierungskurve Mn,q übersteigt.
Fig. 8 veranschaulicht das Prinzip der durch das Modul 62 angewendeten Korrektur. Sie zeigt schematisch ein Beispiel für eine auf der Grundlage der Spektralkomponenten S ,f des rauschunterdrückten Signals sowie der majorierten Schätzung 'n,i des Spektrums des Rauschens berechnete Maskierungskurve Mn,q. Die schließlich von den Komponenten Sn,f zu subtrahierende Größe ist die durch die schraffierten Bereiche dargestellte, d. h. diejenige, die auf den Bruchteil der majorierten Schätzung 'n,i der Spektralkomponenten des Rauschens, das die Maskierungskurve übersteigt, begrenzt ist.
Diese Subtraktion wird durch Multiplizieren des Frequenzgangs H ,f des Rauschunterdrückungsfilters mit den Spektralkomponenten Sn,f des Sprachsignals (Multiplizierer 64) durchgeführt. Ein Modul 65 rekonstruiert sodann das rauschunterdrückte Signal im Zeitbereich mittels Durchführung der schnellen inversen Fourier- Transformierung (TFRI) der vom Multiplizierer 64 gelieferten Abtastproben der Frequenz S ,f. Bei jedem Block werden einzig die N/2 = 128 ersten Abtastproben des durch das Modul 65 erzeugten Signals als endgültiges rauschunterdrücktes Signal s³ geliefert, nach Rekonstruktion mittels Addition-Überlappung mit den N/2 = 128 letzten Abtastproben des vorangegangenen Blocks (Modul 66).
Fig. 9 zeigt eine bevorzugte Ausführungsform eines die Erfindung anwendenden Rauschunterdrückungssystems. Dieses System weist eine bestimmte Anzahl von Elementen auf, die entsprechenden Elementen des Systems von Fig. 1 ähnlich sind und bei denen die gleichen Bezugszeichen verwendet wurden. So liefern die Module 10, 11, 12, 15, 16, 45 und 55 insbesondere die Größen Sn,i, n,i, α'n,i, 'n,i und H ,f für die Durchführung der selektiven Rauschunterdrückung.
Die Frequenzauflösung der schnellen Fouriertransformation 11 ist eine Einschränkung des Systems von Fig. 1. Die Frequenz, die Gegenstand des Schutzes durch das Modul 56 ist, ist nämlich nicht unbedingt die genaue Tonfrequenz fp, sondern diejenige Frequenz, die dieser in dem diskreten Spektrum am nächsten ist. In bestimmten Fällen ist es somit möglich, Harmonische zu schützen, die relativ weit von derjenigen der Tonfrequenz entfernt sind. Das System von Fig. 9 behebt diesen Nachteil mittels einer geeigneten Konditionierung des Sprachsignals.
Bei dieser Konditionierung wird die Abtastrate des Signals derart modifiziert, daß die Periode 1/fp genau eine ganze Zahl von Abtastprobenzeiten des konditionierten Signals abdeckt.
Zahlreiche Verfahren für die harmonische Analyse, die von dem Modul 57 angewendet werden können, sind in der Läge, einen Bruchteilwert der Verzögerung Tp zur Verfügung zu stellen, der als Anzahl von Abtastproben bei der anfänglichen Abtastfrequenz Fe ausgedrückt ist. Es wird somit eine neue Abtastfrequenz fe gewählt, so daß diese gleich einem ganzzahligen Mehrfachen der geschätzten Tonfrequenz ist, bzw. fe = p·fp = p·Fe/Tp = K·Fe, wobei p eine ganze Zahl ist. Um keine Abtastproben des Signals zu verlieren, ist es ratsam, daß fe größer als Fe ist. Es kann insbesondere die Bedingung gestellt werden, daß es zwischen Fe und 2Fe liegt (1 ≤ K ≤ 2), um die Durchführung der Konditionierung zu erleichtern.
Wohlgemerkt, falls an dem momentanen Block (δn ≠ 0) überhaupt keine Stimmaktivität erfaßt wird, oder wenn die durch das Modul 5 geschätzte Verzögerung Tp ganzzahlig ist, ist es nicht erforderlich, das Signal zu konditionieren.
Damit jede der Harmonischen der Tonfrequenz auch einem ganzzahligen Mehrfachen von Abtastproben des Signals entspricht, muß die ganze Zahl p ein Teiler der Größe N des durch das Modul 10 erzeugten Signalfensters sein: N = αp, wobei α eine ganze Zahl ist. Diese Größe N ist üblicherweise eine Potenz von 2 für die Anwendung der TFR. Sie beträgt in dem betrachteten Beispiel 256.
Die spektrale Auflösung Δf der diskreten Fourier- Transformation des konditionierten Signals ist gegeben durch Δf = p·fp/N = fp/α. Man ist daher bestrebt, p klein zu wählen, um α zu maximieren, jedoch ausreichend groß für Überabtastung. In dem betrachteten Beispiel, in dem Fe = 8 kHz und N = 256 sind, sind die für die Parameter p und α gewählten Werte in Tabelle 1 angegeben. Tabelle I
Diese Auswahl wird durch ein Modul 70 gemäß dem Wert der Verzögerung Tp durchgeführt, der von dem Modul 57 für die harmonische Analyse geliefert wird. Das Modul 70 liefert das Verhältnis K zwischen den Abtastraten an drei Frequenzänderungsmodule 71, 72, 73.
Das Modul 71 dient zum Transformieren der Werte Sn,i, n,i, α'n,i. 'n,i und H ,f bezüglich der von dem Modul 12 definierten Bänder i im Maßstab der modifizierten Frequenzen (Abtastfrequenz fe). Diese Transformierung besteht einfach darin, die Bänder i um den Faktor K zu dehnen. Die auf diese Weise transformierten Werte werden an das Modul 56 zum Schützen der Harmonischen geliefert.
Dieses arbeitet auf die gleiche Weise wie oben erwähnt, um den Frequenzgang H ,f des Rauschunterdrückungsfilters zur Verfügung zu stellen. Dieser Frequenzgang H ,f wird auf die gleiche Weise wie im Fall der Fig. 1 erhalten (Bedingungen (8) und (9)), mit dem einzigen Unterschied, daß bei der Bedingung (9) die Tonfrequenz fp = fe/p gemäß dem Wert der ganzzahligen Verzögerung p definiert wird, der von dem Modul 70 geliefert wird, wobei auch die Frequenzauflösung Δf von diesem Modul 70 geliefert wird.
Das Modul 72 führt die Überabtastung des Blockes von N Abtastproben durch, der von dem Fensterbildungsmodul 10 geliefert wird. Die Überabtastung um einen rationalen Faktor K (K = K1/K2) besteht darin, zuerst eine Überabtastung um den ganzzahligen Faktor K1 durchzuführen, daraufhin eine Unterabtastung um den ganzzahligen Faktor K2. Diese Überabtastung und Unterabtastung um ganzzahlige Faktoren können auf klassische Weise mit Hilfe von vielphasigen Filterbänken durchgeführt werden.
Der von dem Modul 72 gelieferte konditionierte Signalblock s' weist KN Abtastproben mit der Frequenz fe auf. Diese Abtastproben werden an ein Modul 75 adressiert, das ihre Fourier-Transformierte berechnet. Die Transformierung kann ausgehend von zwei Blöcken von N = 256 Abtastproben durchgeführt werden: einem, der aus den N ersten Abtastproben des Blockes mit der Länge KN des konditionierten Signals s' besteht, und dem anderen, der aus den N letzten Abtastproben dieses Blockes besteht. Die beiden Blöcke weisen daher eine Überlappung von (2 - K) · 100% auf. Für jeden der beiden Blöcke wird ein Satz Fourier-Komponenten Sn,f erhalten. Diese Komponenten Sn,f werden an den Multiplizierer 58 geliefert, der sie mit der Spektralantwort H ,f multipliziert, um die Spektralkomponenten S ,f des ersten rauschunterdrückten Signals zur Verfügung zu stellen.
Diese Komponenten S ,f werden an das Modul 60 adressiert, welches die Maskierungskurven auf die obenstehend angegebene Weise berechnet.
Vorzugsweise wird bei der Berechnung der Maskierungskurven die Größe χ, welche den Stimmhaftigkeitsgrad des Sprachsignals bezeichnet (Formel (13)) in der Form χ = 1 - H genommen, wobei H eine Entropie der Autokorrelation der Spektralkomponenten S ,f des rauschunterdrückten konditionierten Signals ist. Die Autokorrelationen A(k) werden durch ein Modul 76 berechnet, beispielsweise gemäß der Formel:
Ein Modul 77 berechnet daraufhin die normalisierte Entropie H und liefert sie an das Modul 60 für die Berechnung der Maskierungskurve (s. S.A. McClellan et al.: "Spectral Entropy: an Alternative Indicator for Rate Allocation?", Proc. ICASSP'94, S. 201-204):
Infolge der Konditionierung des Signals sowie seiner Rauschunterdrückung durch das Filter H ,f stellt die normalisierte Entropie H ein gegen das Rauschen und Variationen der Tonfrequenz sehr robustes Maß der Stimmhaftigkeit zur Verfügung.
Das Korrekturmodul 62 arbeitet auf die gleiche Weise wie dasjenige des Systems von Fig. 1, unter Berücksichtigung des überbewerteten Rauschens 'n,i, das durch das Frequenzänderungsmodul 71 wieder auf Maßstab gebracht wurde. Es liefert den Frequenzgang H ,f des definitiven Rauschunterdrückungsfilters, der durch den Multiplizierer 64 mit den Spektralkomponenten Sn,f des konditionierten Signals multipliziert wird. Die daraus resultierenden Komponenten Sn,f werden durch das TFRI-Modul 65 in den Zeitbereich zurückgeführt. Am Ausgang dieses TFRI 65 kombiniert ein Modul 80 bei jedem Block die beiden Signalblöcke, die aus der Verarbeitung der beiden überlappenden, von der TFR 75 gelieferten beiden Signalblöcke stammen. Dieses Kombinieren kann aus einer Summe mit Hamming- Wichtung der Abtastproben bestehen, um einen rauschunterdrückten konditionierten Signalblock von KN Abtastproben zu bilden.
Das von dem Modul 80 gelieferte rauschunterdrückte konditionierte Signal ist Gegenstand einer Änderung der Abtastfrequenz durch das Modul 73. Seine Abtastfrequenz wird durch die zu den durch das Modul 75 entgegengesetzten Operationen auf Fe = fe/K zurückgeführt. Das Modul 73 liefert N = 256 Abtastproben pro Block. Nach der Rekonstruktion mittels addition-recouvrement mit den N/2 = 128 letzten Abtastproben des vorhergegangenen Blocks werden letztlich nur die N/2 = 128 ersten Abtastproben des momentanen Blocks bewahrt, um das endgültige rauschunterdrückte Signal s³ zu bilden (Modul 66).
Bei einer bevorzugten Ausführungsform erstellt ein Modul 82 die durch das Modul 10 gebildeten und durch das Modul 66 gesicherten Fenster, so daß eine Anzahl M von Abtastproben gleich einem ganzzahligen Vielfachen von Tp = Fe/fp gesichert wird. Somit werden Probleme mit Phasendiskontinuität zwischen den Blöcken vermieden. Auf entsprechende Weise steuert das Verwaltungsmodul 82 das Fensterbildungsmodul 10, damit die Überlappung zwischen dem momentanen Block und dem nächsten N - M entspricht. Diese Überlappung von N - M Abtastproben wird in der Summe mit Überlappung beibehalten, die von dem Modul 66 bei der Verarbeitung des nächsten Blocks durchgeführt wird. Ausgehend von dem durch das Modul 57 für die harmonische Analyse gelieferten Wert Tp berechnet das Modul 82 die zu sichernde Anzahl von Abtastproben M = Tp · E[N/(2Tp)], wobei E[] den ganzzahligen Teil bezeichnet, und steuert auf entsprechende Weise die Module 10 und 66.
Bei der vorliegend beschriebenen Ausführungsform wird die Tonfrequenz gemittelt an dem Block geschätzt. Die Tonfrequenz kann aber während dieser Dauer in einem bestimmten Maße variieren. Im Rahmen der vorliegenden Erfindung ist es möglich, diese Variationen zu berücksichtigen, indem das Signal so konditioniert wird, daß künstlich eine konstante Tonfrequenz in dem Block erhalten wird.
Hierfür ist es nötig, daß das Modul 57 für die harmonische Analyse die Zeitintervalle zwischen den aufeinanderfolgenden, während der Dauer des Blocks auftretenden Unterbrechungen des Sprachsignals liefert, welche Schließungen der Glottis des Sprechers zuzuordnen sind. Verfahren, die für die Erfassung solcher Mikrounterbrechungen verwendbar sind, sind auf dem Gebiet der harmonischen Analyse des Sprachsignals allgemein bekannt. In dieser Hinsicht kann Bezug genommen werden auf die folgenden Artikel: M. BASSEVILLE et al., "Sequential detection of abrupt changes in spectral characteristics of digital signals", IEEE Trans. on Information Theory, 1983, Vol. IT-29, Nr. 5, S. 708-723; R. ANDRE-OBRECHT, "A new statistical approach for the automatic segmentation of continucus speech signals", IEEE Trans. on Acous., Speech ad Sig. Proc., Vol. 36, Nr. 1, Januar 1988; und C. MURGIA et al., "An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals", Signal Processing VII, 1994, S. 1685-1688.
Das Prinzip dieser Verfahren ist es, eine statistische Überprüfung zwischen zwei Modellen durchzuführen, dem einen kurzfristig und dem anderen langfristig. Die beiden Modelle sind adaptive Modelle der linearen Prädiktion. Der Wert dieser statistischen Überprüfung wm ist die kumulierte Summe des Wahrscheinlichkeitsverhältnisses a posteriori von zwei Verteilungen, korrigiert um die Kullback-Divergenz. Bei einer Verteilung von Resten mit einer Gauß'schen Statistik ist dieser Wert gegeben durch:
wobei e und für den berechneten Rest zum Zeitpunkt der Abtastprobe m des Blocks bzw. die Langzeitvarianz des Modells stehen, e und σ ebenso für den Rest bzw. die Kurzzeitvarianz des Modells stehen. Je näher sich die beiden Modelle sind, desto näher ist der Wert wm der statistischen Überprüfung nahe 0. Wenn die beiden Modelle voneinander entfernt sind, wird dieser Wert wm negativ, was eine Unterbrechung R des Signals anzeigt.
Fig. 10 zeigt ein mögliches Beispiel für die Evolution des Wertes wm, das die Unterbrechungen R des Sprachsignals zeigt. Die Zeitintervalle tr (r = 1, 2, ...) zwischen zwei aufeinanderfolgenden Unterbrechungen R werden berechnet und als Anzahl von Abtastproben des Sprachsignals ausgedrückt. Jedes dieser Intervalle t ist umgekehrt proportional zur Tonfrequenz fp, die somit lokal geschätzt wird: fp = Fe/tr am r-ten Intervall.
Es ist somit möglich, die zeitlichen Variationen der Tonfrequenz zu korrigieren (d. h., den Umstand, daß die Intervalle an einem gegebenen Block nicht alle gleich sind), damit in jedem der Analyseblöcke eine konstante Tonfrequenz vorliegt. Diese Korrektur wird durchgeführt mittels einer Modifizierung der Abtastfrequenz an jedem Intervall tr, so daß nach Überabtastung konstante Intervalle zwischen zwei Glottis-Unterbrechungen erhalten werden. Es wird somit die Zeitdauer zwischen zwei Unterbrechungen modifiziert, indem eine Überabtastung in einem variablen Verhältnis erfolgt, so daß sie sich nach dem größten Intervall richtet. Des weiteren wird derart verfahren, daß die Konditionierungseinschränkung beachtet wird, gemäß der die Überabtastfrequenz ein Mehrfaches der geschätzten Tonfrequenz ist.
Fig. 11 zeigt die Mittel, die zum Berechnen der Konditionierung des Signals in diesem letzteren Fall verwendet werden.
Das Modul 57 für die harmonische Analyse ist so ausgeführt, daß es das oben genannte Analyseverfahren anwendet und die Intervalle tr bezüglich des durch das Modul 10 erzeugten Signalsblocks liefert. Für jedes dieser Intervalle berechnet das Modul 70 (Block 90 in Fig. 11) das Überabtastverhältnis Kr = pr/tr, wobei die ganze Zahl pr durch die dritte Spalte der Tabelle I angegeben ist, wenn tr die in der zweiten Spalte angegebenen Werte annimmt. Diese Überabtastverhältnisse Kr werden an die Frequenzänderungsmodule 72 und 73 geliefert, damit die Interpolationen mit dem Überabtastverhältnis Kr an dem entsprechenden Zeitintervall tr durchgeführt werden.
Das größte Tp der durch das Modul 57 für einen Block gelieferten Zeitintervalle tr wird durch das Modul 70 (Block 91 in Fig. 11) gewählt, um ein Paar p,α wie in der Tabelle I angegeben zu erhalten. Die modifizierte Abtastfrequenz ist somit fe = p·Fe/Tp wie obenstehend, wobei die spektrale Auflösung Δf der diskreten Fourier-Transformation des konditionierten Signals immer noch durch Δf = Fe/(α·Tp) gegeben ist. Für das Frequenzänderungsmodul 71 ist das Überabtastverhältnis K angegeben durch K = P/Tp (Black 92). Das Modul 56 zum Schützen der Harmonischen der Tonfrequenz arbeitet auf die gleiche Weise wie obenstehend, unter Verwendung für die Bedingung (9) der vom Block 91 gelieferten spektralen Auflösung Δf sowie der gemäß dem durch den Block 91 gelieferten Wert der ganzzahligen Verzögerung p definierten Tonfrequenz fp = fe/p.
Diese Ausführungsform der Erfindung impliziert ebenfalls eine Anpassung des Fensterverwaltungsmoduls 82. Die Anzahl M von Abtastproben des entrauschten Signals, die an dem momentanen Block zu sichern sind, enspricht hier einer ganzen Zahl von aufeinanderfolgenden Zeitintervallen tr zwischen zwei Glottis-Unterbrechungen (s. Fig. 10). Diese Anordnung vermeidet die Probleme von Phasendiskontinuität zwischen Blöcken und berücksichtigt dabei mögliche Variationen der Zeitintervalle tr an einem Block.

Claims

1. Verfahren zur Rauschunterdrückung eines in aufeinanderfolgenden Blöcken behandelten digitalen Sprachsignals (s), wobei:

- Spektralkomponenten (Sn,f, Sn,i) des Sprachsignals an jedem Block berechnet werden;

- für jeden Block majorierte Schätzungen ( 'n,i) von Spektralkomponenten von in dem Sprachsignal enthaltenem Rauschen berechnet werden;

- eine spektrale Subtraktion durchgeführt wird, die mindestens einen ersten Subtraktionsschritt aufweist, in dem jeweils von jeder Spektralkomponente (Sn,f) des Sprachsignals an dem Block eine erste Größe subtrahiert wird, die von Parametern abhängt, welche die majorierte Schätzung ( 'n,i) der dem Rauschen für den Block entsprechenden Spektralkomponente beinhalten, so daß Spektralkomponenten (S²n,f) eines ersten rauschunterdrückten Signals erhalten werden,

dadurch gekennzeichnet, daß die spektrale Subtraktion des weiteren die folgenden Schritte aufweist:

- Berechnung einer Maskierungskurve (Mn,q) unter Anwendung eines Modells der auditiven Wahrnehmung ausgehend von den Spektralkomponenten (S²n,f) des ersten rauschunterdrückten Signals;

- Vergleich der majorierten Schätzungen ( 'n,i) der Spekträlkomponenten des Rauschens für den. Block mit der berechneten Maskierungskurve (Mn,q); und

- einen zweiten Subtrahierschritt, in dem jeweils von jeder Spektralkomponente (Sn,f) des Sprachsignals an dem Block eine zweite Größe subtrahiert wird, die von Parametern abhängt, welche einen Abstand zwischen der majorierten Schätzung der entsprechenden Spektralkomponente des Rauschens und der berechneten Maskierungskurve beinhalten.

2. Verfahren nach Anspruch 1, bei dem die zweite Größe bezüglich einer Spektralkomponente (Sn,f) des Sprachsignals an dem Block im wesentlichen gleich dem Minimum zwischen der entsprechenden ersten Größe und dem Anteil der majorierten Schätzung ( 'n,i) der entsprechenden Spektralkomponente des Rauschens ist, welcher die Maskierungskurve (Mn,q) übersteigt.

3. Verfahren nach einem der Ansprüche 1 oder 2, bei dem eine harmonische Analyse des Sprachsignals durchgeführt wird, um eine Tonfrequenz (fp) des Sprachsignals an jedem Block zu schätzen, wo es eine Stimmaktivität aufweist.

4. Verfahren nach Anspruch 3, bei dem die Parameter, von denen die ersten zu subtrahierenden Größen abhängen, die geschätzte Tonfrequenz (fp) beinhalten.

5. Verfahren nach Anspruch 4, bei dem die erste von einer gegebenen Spektralkomponente (Sn,f) des Sprachsignals zu subtrahierende Größe geringer ist, wenn die Spektralkomponente derjenigen Frequenz entspricht, die einem ganzzahligen Vielfachen der geschätzten Tonfrequenz (fp) am nächsten ist, als wenn die Spektralkomponente nicht der Frequenz entspricht, die einem ganzzahligen Vielfachen der geschätzten Tonfrequenz am nächsten ist.

6. Verfahren nach Anspruch 4 oder 5, bei dem die jeweils von den Spektralkomponenten (Sn,f) des Sprachsignals zu subtrahierenden Größen, welche den Frequenzen entsprechen, die den ganzzahligen Vielfachen der geschätzten Tonfrequenz (fp) am nächsten sind, im wesentlichen Null sind.

7. Verfahren nach einem der Ansprüche 3 bis 6, bei dem, nach der Schätzung der Tonfrequenz (fp) des Sprachsignals an einem Block das Sprachsignal des Blocks konditioniert wird, indem es bei einer Überabtastfrequenz (fe) überabgetastet wird, die ein Mehrfaches der geschätzten Tonfrequenz ist, und die Spektralkomponenten (Sn,f) des Sprachsignals an dem Block auf der Grundlage des konditionierten Signals (s') berechnet werden, um diese Größen von ihnen zu subtrahieren.

8. Verfahren nach Anspruch 7, bei dem Spektralkomponenten (Sn,f) des Sprachsignals berechnet werden, indem das konditionierte Signal (s') auf Blöcke von N Abtastproben verteilt wird, welche einer Transformation im Frequenzbereich unterzogen werden, und bei dem das Verhältnis (p) zwischen der Überabtastfrequenz (fe) und der geschätzten Tonfrequenz ein Teiler mit der Zahl N ist.

9. Verfahren nach Anspruch 7 oder 8, bei dem ein Grad der Stimmhaftigkeit (χ) des Sprachsignals an dem Block ausgehend von einer Berechnung der Entropie (H) der Autokorrelation der auf der Grundlage des konditionierten Signals berechneten Spektralkomponenten geschätzt wird.

10. Verfahren nach Anspruch 9, bei dem die Spektralkomponenten (S²n,f), deren Autokorrelation (H) berechnet wird, die auf der Grundlage des konditionierten Signals (s') nach Subtraktion der ersten Größen berechneten sind.

11. Verfahren nach Anspruch 9 oder 10, bei dem der Grad der Stimmhaftigkeit (χ) ausgehend von einer normalisierten Entropie H mit der Form

gemessen wird, wobei N die Anzahl von Abtastproben ist, die zur Berechnung der Spektralkomponenten (Sn,f) auf der Grundlage des konditionierten Signals (s') verwendet werden, und A(k) die normalisierte Autokorrelation ist, die definiert ist durch:

wobei S²n,f die auf der Grundlage des konditionierten Signals berechnete Spektralkomponente mit Rang f ist.

12. Verfahren nach Anspruch 11, wobei die Berechnung der Maskierungskurve (Mn,q) den mittels der normalisierten Entropie H gemessenen Grad der Stimmhaftigkeit (χ) einsetzt.

13. Verfahren nach einem der Ansprüche 3 bis 12, bei dem nach der Behandlung eines jeden Blockes von den durch diese Behandlung zur Verfügung gestellten Abtastproben des rauschunterdrückten Sprachsignals eine Anzahl von Abtastproben (M) aufbewahrt wird, die gleich einem ganzzahligen Vielfachen von Malen des Verhältnisses (Tp) aus der Abtastfrequenz (Fe) und der geschätzten Tonfrequenz (fp) ist.

14. Verfahren nach einem der Ansprüche 3 bis 12, bei dem die Schätzung der Tonfrequenz des Sprachsignals an einem Block die folgenden Schritte aufweist:

- Schätzen der Zeitintervalle (tr) zwischen zwei aufeinanderfolgenden, während der Dauer des Blocks auftretenden Unterbrechungen (R) des Signals, welche Schließungen der Glottis des Sprechers zuzuordnen sind, wobei die geschätzte Tonfrequenz zu den Zeitintervallen umgekehrt proportional ist;

- Interpolieren des Sprachsignals in den Zeitintervallen, damit das aus dieser Interpolation hervorgehende konditionierte Signal (s') zwischen zwei aufeinanderfolgenden Unterbrechungen ein konstantes Zeitintervall aufweist.

15. Verfahren nach Anspruch 14, bei dem nach Behandlung eines jeden Blockes von den durch diese Behandlung zur Verfügung gestellten Abtastproben des rauschunterdrückten Sprachsignals eine Anzahl von Abtastproben (M) aufbewahrt wird, welche einer ganzzahligen Anzahl von geschätzten Zeitintervallen (tr) entspricht.

16. Verfahren nach einem der vorhergehenden Ansprüche, bei dem im Spektralbereich Werte eines Rauschabstandes geschätzt werden, den das Sprachsignal (s) an jedem Block aufweist, und bei dem die Parameter, von denen die ersten zu subtrahierenden Größen abhängen, die geschätzten Werte des Rauschabstandes beinhalten, wobei die von jeder Spektralkomponenten (Sn,f) des Sprachsignals an dem Block zu subtrahierende erste Größe eine abnehmende Funktion des entsprechenden geschätzten Werts des Rauschabstandes ist.

17. Verfahren nach Anspruch 16, bei dem die Funktion für die höchsten Werte des Rauschabstandes nach Null hin abnimmt.

18. Verfahren nach einem der vorhergehenden Ansprüche, bei dem auf das Ergebnis der spektralen Subtraktion eine Transformation in den Zeitbereich angewendet wird, um ein rauschunterdrücktes Sprachsignal (s³) zu erstellen.

19. Vorrichtung zur Rauschunterdrückung eines Sprachsignals, mit Behandlungseinrichtungen, die dazu konzipiert sind, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.