DE112016004161T5

DE112016004161T5 - Mikrofonsignalzusammenführung

Info

Publication number: DE112016004161T5
Application number: DE112016004161.6T
Authority: DE
Inventors: Kuan-Chieh Yen; Thomas E. Miller; Mushtaq Syed
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2015-09-14
Filing date: 2016-08-23
Publication date: 2018-05-30
Also published as: US9401158B1; CN108028049A; WO2017048470A1; US20170078790A1; US9961443B2; CN108028049B

Abstract

Es werden Systeme und Verfahren für die Zusammenführung von Mikrofonsignalen bereitgestellt. Ein anschauliches Verfahren beginnt mit dem Empfang eines ersten und eines zweiten Signals, die Klänge repräsentieren, die entsprechend von einem Innenmikrofon und einem Außenmikrofon erfasst werden. Das zweite Signal enthält mindestens eine Sprachkomponente. Das erste Signal und die Sprachkomponente werden zumindest durch menschliches Gewebe modifiziert. Das erste und das zweite Signal werden verarbeitet, so dass Abschätzungen des Rauschens erhalten werden. Das erste Signal wird an das zweite Signal angeglichen. Das zweite Signal und das angeglichene erste Signal werden auf der Grundlage der Abschätzungen des Rauschens gemischt, um ein verbessertes Sprachsignal zu erzeugen. Das Innenmikrofon ist im Inneren eines Gehörgangs angeordnet und ist zur Isolation von Schallsignalen von außerhalb des Gehörgangs abgedichtet. Das Außenmikrofon ist außerhalb des Gehörgangs angeordnet. Ein Teil oder die gesamte Verarbeitung des Mischens und des Angleichens in dem System und in dem Verfahren können auf Basis von Teilbändern im Frequenzbereich ausgeführt werden.

Description

GEBIET
Die vorliegende Erfindung betrifft generell die Audio-Verarbeitung und insbesondere Systeme und Verfahren zum Zusammenführen von Mikrofonsignalen.
HINTERGRUND
Die große Menge an intelligenten Telefonen, Tablet-Rechnern und anderen Mobilgeräten hat die Art und Weise fundamental geändert, in der Menschen auf Information zugreifen und miteinander kommunizieren. Die Menschen telefonieren an unterschiedlichen Orten, etwa in gut besuchten Kneipen, in belebten Stadtstraßen und windreichen Außenbereichen, in denen nachteilige akustische Bedingungen erhebliche Herausforderungen für die Qualität der Sprachkommunikation darstellen. Ferner sind mittlerweile Sprachbefehle ein wichtiges Verfahren zum Interagieren mit elektronischen Geräten in Anwendungen, in denen Benutzer mit ihren Augen und Händen primär eine andere Aufgabe ausführen, etwa beispielsweise Autofahren. Mit der voranschreitenden Verkleinerung elektronischer Geräte können Sprachbefehle das bevorzugte Verfahren zum Interagieren mit elektronischen Geräten werden. Trotz der jüngeren Fortschritte in der Sprachtechnik ist jedoch die Spracherkennung unter lärmbelasteten Bedingungen weiterhin schwierig. Daher ist die Reduzierung des Einflusses von Geräuschen bzw. des Rauschens sowohl für die Qualität der Sprachkommunikation als auch das Verhalten der Spracherkennung wichtig.
Am Kopf getragene Garnituren sind eine natürliche Erweiterung für Telefonendgeräte und Musikwiedergabegeräte, da sie die Bequemlichkeit des Freisprechens sowie Privatsphäre bei der Verwendung bieten. Im Vergleich zu anderen Freisprechoptionen repräsentiert eine am Kopf getragene Garnitur eine Option, in der Mikrofone an Stellen in der Nähe des Mundes des Benutzers angeordnet werden können, wobei es Einschränkungen in der Geometrie bezüglich des Mundes des Benutzers und der Mikrofone gibt. Dies führt zu Mikrofonsignalen, die ein besseres Signal-zu-Rauschen-Verhältnis (SNR) haben und einfacher zu steuern sind, wenn eine Rauschunterdrückung auf Basis mehrerer Mikrofone eingesetzt wird. Im Vergleich zur Verwendung herkömmlicher Hörer sind jedoch Mikrofone von Kopfgarnituren relativ weit vom Mund des Benutzers entfernt. Folglich bietet die Kopfgarnitur nicht die Wirkung der Rauschabschirmung, die durch die Hand des Benutzers und die meisten der Hörer erreicht wird. Da die Kopfgarnituren in der Vergangenheit aufgrund der Anforderungen an Kopfgarnituren, dass sie weniger auffällig und weniger störend sind, zunehmend kleiner und leichter geworden sind, wird dieses Problem zunehmend bedeutsam.
Wenn ein Benutzer eine Kopfgarnitur trägt, werden die Gehörgänge des Benutzers in natürlicher Weise von der äußeren Schallumgebung abgeschirmt. Wenn eine Kopfgarnitur eine intensive akustische Abdichtung des Gehörgangs bietet, wäre ein im Inneren des Gehörgangs angeordnetes Mikrofon (das Innenmikrofon) akustisch von der Außenumgebung isoliert, so dass die Umgebungsgeräusche deutlich abgeschwächt wären. Ferner ist ein Mikrofon im Inneren eines abgeschirmten Gehörgangs frei von Effekten von Windturbulenzen. Andererseits kann die Stimme eines Benutzers über diverse Gewebearten im Kopf des Benutzers geleitet werden, um somit den Gehörgang zu erreichen, da es im Inneren des Gehörgangs eingeschlossen ist. Ein vom Innenmikrofon aufgenommenes Signal sollte daher ein wesentlich höheres SNR im Vergleich zu dem Mikrofon außerhalb des Gehörgangs des Benutzers (das Außenmikrofon) haben.
Jedoch sind auch die Innenmikrofonsignale nicht unproblematisch. Zunächst hat die durch den Körper geleitete Stimme bzw. Sprache tendenziell einen stark abgeschwächten Hochfrequenzanteil und hat damit eine deutlich schmälere wirksame Bandbreite im Vergleich zu Sprache, die über Luft geleitet wird. Wenn ferner die durch den Körper geleitete Sprache bzw. Stimme im Inneren des Kanals eingeschlossen ist, bildet sie stehende Wellen im Inneren des Gehörgangs. Als Folge davon erscheint die vom Innenmikrofon aufgenommene Stimme häufig dumpf und nachhallend, und es fehlt die natürliche Klangfarbe der Stimme, die von den Außenmikrofonen aufgenommen wird. Des Weiteren unterliegen die effektive Bandbreite und die Muster der stehenden Wellen deutlichen Schwankungen für unterschiedliche Benutzer und Passbedingungen für Kopfgarnituren. Wenn schließlich auch ein Lautsprecher in dem gleichen Gehörgang angeordnet ist, werden auch Klänge, die vom Lautsprecher erzeugt werden, von dem Innenmikrofon aufgenommen. Selbst mit akustischer Echoauslöschung (AEC) führt die enge Kopplung zwischen dem Lautsprecher und dem Innenmikrofon häufig zu deutlicher Sprachverzerrung nach der AEC.
Es wurden andere Anstrengungen in der Vergangenheit unternommen, um die einzigartigen Eigenschaften des Innenmikrofonsignals zum besseren Verhalten bei Rauschunterdrückung vorteilhaft auszunutzen. Dennoch bleibt das Erreichen eines gleichbleibenden Leistungsverhaltens für unterschiedliche Benutzer und unterschiedliche Nutzungsbedingungen weiterhin eine Herausforderung.
ÜBERBLICK
Dieser Überblick wird bereitgestellt, um eine Auswahl von Konzepten in vereinfachter Form einzuführen, die nachfolgend in der detaillierten Beschreibung weiter beschrieben sind. Dieser Überblick soll keine Schlüsselmerkmale oder wesentlichen Merkmale des beanspruchten Gegenstands angeben, und es ist auch nicht beabsichtigt, dass er als Hilfe bei der Festlegung des Schutzbereichs des beanspruchten Gegenstands zu verwenden ist.
Gemäß einem Aspekt der beschriebenen Technik wird ein beispielhaftes Verfahren zur Verschmelzung bzw. Zusammenführung von Mikrofonsignalen bereitgestellt. In diversen Ausführungsformen umfasst das Verfahren das Empfangen eines ersten Signals und eines zweiten Signals. Das erste Signal enthält zumindest eine Sprachkomponente bzw. Stimmkomponente. Das zweite Signal enthält die Sprachkomponente bzw. Stimmkomponente, die durch zumindest menschliches Gewebe modifiziert ist. Das Verfahren umfasst ferner die Verarbeitung des ersten Signals, so dass erste Abschätzungen des Rauschens erhalten werden. Das Verfahren umfasst ferner Angleichen des zweiten Signals an das erste Signal. Das Zusammenführen bzw. das Zusammenmischen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, des ersten Signals und des angeglichenen zweiten Signals zur Erzeugung eines verbesserten Sprachsignals ist ebenfalls Bestandteil des Verfahrens. In einigen Ausführungsformen umfasst das Verfahren die Verarbeitung des zweiten Signals derart, dass zweite Abschätzungen des Rauschens erhalten werden, und das Mischen beruht zumindest auf den ersten Abschätzungen des Rauschen und den zweiten Abschätzungen des Rauschens.
In einigen Ausführungsformen repräsentiert das zweite Signal mindestens einen Klang, der durch ein Innenmikrofon erfasst wird, das im Inneren eines Gehörgangs angeordnet ist. In gewissen Ausführungsformen kann das Innenmikrofon während der Verwendung abgeschlossen bzw. abgedichtet sein, um eine Isolierung zu Schallsignalen, die von außerhalb des Gehörgangs stammen, zu erreichen oder es kann teilweise abgedichtet sein in Abhängigkeit von dem Benutzer und der Anordnung des Innenmikrofons des Benutzers in dem Gehörgang.
In einigen Ausführungsformen repräsentiert das erste Signal mindestens einen Klang, der von einem Außenmikrofon, das außerhalb eines Gehörgangs angeordnet ist, aufgenommen wird.
In einigen Ausführungsformen beinhaltet das Verfahren ferner das Ausführen einer Rauschunterdrückung des ersten Signals auf der Grundlage der ersten Abschätzungen des Rauschens vor der Angleichung der Signale. In anderen Ausführungsformen umfasst das Verfahren ferner das Ausführen einer Rauschunterdrückung des ersten Signals auf der Grundlage der ersten Abschätzungen des Rauschens und einer Rauschunterdrückung des zweiten Signals auf der Grundlage der zweiten Abschätzungen des Rauschens vor dem Angleichen der Signale.
Gemäß einem weiteren Aspekt der vorliegenden Offenbarung wird ein System zum Zusammenführen von Mikrofonsignalen bereitgestellt. Das anschauliche System umfasst einen digitalen Signalprozessor, der ausgebildet ist, ein erstes Signal und ein zweites Signal zu empfangen. Das erste Signal enthält mindestens eine Sprachkomponente bzw. Stimmkomponente. Das zweite Signal enthält zumindest die Sprachkomponente, die zumindest durch menschliches Gewebe modifiziert ist. Der digitale Signalprozessor ist ausgebildet, das erste Signal so zu verarbeiten, dass erste Abschätzungen von Rauschen erhalten werden, und in einigen Ausführungsformen, das zweite Signal zu verarbeiten, so dass zweite Abschätzungen des Rauschens erhalten werden. In dem anschaulichen System gleicht der digitale Signalprozessor das zweite Signal an das erste Signal an und mischt, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, das erste Signal und das angeglichene zweite Signal, so dass ein verbessertes Stimmsignal bzw. Sprachsignal erzeugt wird. In einigen Ausführungsformen gleicht der digitale Signalprozessor das zweite Signal an das erste Signal an und mischt, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens und der zweiten Abschätzungen des Rauschens, das erste Signal und das angeglichene zweite Signal derart, dass ein verbessertes Sprachsignal bzw. Stimmsignal erzeugt wird.
In einigen Ausführungsformen umfasst das System ein Innenmikrofon und ein Außenmikrofon. In gewissen Ausführungsformen kann das Innenmikrofon während der Verwendung abgedichtet bzw. nach außen abgeschlossen sein, um eine Isolierung zu Schallsignalen zu erreichen, die von außerhalb des Gehörgangs stammen, oder es kann teilweise abgedichtet sein, wobei dies von dem Benutzer und der von dem Benutzer vorgenommenen Anordnung des Innenmikrofons in dem Gehörgang abhängt. Das zweite Signal kann mindestens einen Klang repräsentieren, der von dem Innenmikrofon aufgenommenen wird. Das Außenmikrofon ist außerhalb des Gehörgangs angeordnet. Das erste Signal kann mindestens einen Klang repräsentieren, der von dem Außenmikrofon aufgenommen wird.
Gemäß einem weiteren Beispiel werden in den Ausführungsformen der vorliegenden Offenbarung die Schritte des Verfahrens zur Zusammenführung von Mikrofonsignalen in einem nichtflüchtigen maschinenlesbaren Medium gespeichert, das Befehle enthält, die, wenn sie durch einen oder mehrere Prozessoren umgesetzt werden, die genannten Schritte ausführen.
Andere beispielhafte Ausführungsformen der Offenbarung und Aspekte ergeben sich aus der folgenden Beschreibung, wenn diese in Zusammenhang mit den folgenden Zeichnungen studiert wird.
Figurenliste
Es werden Ausführungsformen beispielhaft und nicht einschränkend in den Figuren der begleitenden Zeichnungen dargestellt, in denen gleiche Bezugszeichen gleiche Elemente benennen.

1 ist eine Blockansicht eines Systems und einer Umgebung, in der das System verwendet wird, gemäß einer anschaulichen Ausführungsform.
2 ist eine Blockansicht einer Kopfgarnitur, der zum Einrichten der vorliegenden Technik gemäß einer anschaulichen Ausführungsform geeignet ist.
3-5 sind Beispiele von Signalformen und spektralen Verteilungen von Signalen, die von einem Außenmikrofon und einem Innenmikrofon aufgenommen werden.
6 ist eine Blockansicht, die Details einer digitalen Verarbeitungseinheit zur Zusammenführung bzw. zur Verschmelzung von Mikrofonsignalen gemäß einer anschaulichen Ausführungsform darstellt.
7 ist ein Flussdiagramm, das ein Verfahren zur Mikrofonsignalzusammenführung gemäß einer anschaulichen Ausführungsform zeigt.
8 ist ein Computersystem, das zum Einrichten von Verfahren für die vorliegende Technik gemäß einer anschaulichen Ausführungsform verwendet werden kann.

DETAILLIERTE BESCHREIBUNG
Die hierin offenbarte Technik betrifft Systeme und Verfahren zum Verschmelzen bzw. Zusammenführen von Mikrofonsignalen. Es können diverse Ausführungsformen der vorliegenden Technik mit Mobilgeräten umgesetzt werden, die ausgebildet sind, Audiodaten zu empfangen und/ oder zu anderen Geräten weiterzuleiten, etwa beispielsweise Funktelefone, Telefonhörer, Kopfgarnituren, am Körper tragbare Geräte und Systeme zum Ausführen von Konferenzen.
Diverse Ausführungsformen der vorliegenden Offenbarung bieten eine nahtlose Verschmelzung bzw. Zusammenführung mindestens eines Innenmikrofonsignals und mindestens eines Außenmikrofonsignals unter Anwendung der gegensätzlichen Eigenschaften der beiden Signale, um einen optimalen Ausgleich zwischen Rauschunterdrückung und Stimmqualität bzw. Sprachqualität zu erreichen.
Gemäß einer anschaulichen Ausführungsform kann ein Verfahren zur Verschmelzung bzw. zur Zusammenführung von Mikrofonsignalen damit beginnen, dass ein erstes Signal und ein zweites Signal empfangen werden. Das erste Signal enthält mindestens eine Stimmkomponente bzw. Sprachkomponente. Das zweite Signal enthält die Sprachkomponente, die zumindest durch menschliches Gewebe modifiziert ist. Das anschauliche Verfahren umfasst die Verarbeitung des ersten Signals, so dass erste Abschätzungen für ein Rauschen erhalten werden und in einigen Ausführungsformen enthält es die Verarbeitung des zweiten Signals, um zweite Abschätzungen des Rauschens zu erhalten. Das Verfahren kann ferner das Angleichen des zweiten Signals an das erste Signal enthalten. Das Verfahren kann ein Mischen bereitstellen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens (und in einigen Ausführungsformen auch auf der Grundlage der zweiten Abschätzungen des Rauschens), des ersten Signals und des angeglichenen zweiten Signals, um ein verbessertes Sprachsignal zu erzeugen.
Es sei nun auf 1 verwiesen, in der eine Blockansicht eines anschaulichen Systems 100 zur Verschmelzung bzw. Zusammenführung von Mikrofonsignalen und dessen Umgebung gezeigt ist. Das anschauliche System 100 umfasst mindestens ein inneres Mikrofon bzw. Innenmikrofon 106, ein äußeres Mikrofon bzw. Außenmikrofon 108, einen digitalen Signalprozessor (DSP) 112 und eine Funkschnittstelle oder verdrahtete Schnittstelle 114. Das Innenmikrofon 106 ist im Inneren eines Gehörgangs 104 eines Benutzers angeordnet und ist von der äußeren Schallumgebung 102 relativ abgeschirmt. Das Außenmikrofon 108 ist außerhalb des Gehörgangs 104 des Benutzers angeordnet und unterliegt der Einwirkung der äußeren Schallumgebung 102.
In diversen Ausführungsformen sind die Mikrofone 106 und 108 entweder analog oder digital. In jedem Falle werden die Ausgangssignale der Mikrofone in ein synchronisiertes pulscodiertes Modulations-(PCM) Format mit geeigneter Abtastfrequenz umgewandelt und dem Eingangsanschluss des DSP 112 zugeleitet. Die Signale x_in und x_ex bezeichnen Signale, die Klänge repräsentieren, die entsprechend von dem Innenmikrofon 106 und dem Außenmikrofon 108 aufgenommen werden.
Der DSP 112 führt geeignete Signalverarbeitungsaufgaben aus, um die Qualität der Mikrofonsignale x_in und x_ex zu verbessern. Das Ausgangssignal des DSP 112, das als das ausgesendete Signal (s_out) bezeichnet wird, wird zu dem gewünschten Ziel, beispielsweise zu einem Netzwerk oder einer übergeordneten Einrichtung 116 (siehe das Signal, das als s_out in der Aufwärtsverbindung bzw. Aufwärtsstrecke bezeichnet ist), über eine Funkschnittstelle oder verdrahtete Schnittstelle 114 gesendet.
Wenn eine Zwei-Wege-Sprachkommunikation erforderlich ist, wird ein Signal durch das Netzwerk oder die übergeordnete Einrichtung 116 aus einer geeigneten Quelle (beispielsweise über die Funkschnittstelle oder verdrahtete Schnittstelle 114) empfangen. Dieses wird als das Empfangs-Eingangssignal (r_in) bezeichnet (als r_in in der Abwärtsverbindung bzw. Abwärtsstrecke in dem Netzwerk oder der übergeordneten Einrichtung 116 gekennzeichnet). Das empfangene Eingangssignal kann über die Funkschnittstelle oder verdrahtete Schnittstelle 114 zur erforderlichen Verarbeitung in den DSP 112 eingekoppelt werden. Das resultierende Signal, das als das Empfangsausgangssignal (r_out) bezeichnet wird, wird mittels eines Digital-Analog-Wandlers (DAC) 110 in ein analoges Signal umgewandelt und wird dann einem Lautsprecher 118 eingespeist, um dem Benutzer präsentiert zu werden. In einigen Ausführungsformen ist der Lautsprecher 118 in dem gleichen Gehörgang 104 wie das Innenmikrofon 106 angeordnet. In anderen Ausführungsformen ist der Lautsprecher 118 in dem zu dem Gehörgang 104 gegenüberliegenden Gehörgang angeordnet. In dem Beispiel der 1 befindet sich der Lautsprecher 118 in dem gleichen Gehörgang wie das Innenmikrofon 106, so dass eine akustische Echoauslöschung (AEC) erforderlich sein kann, um die Rückkopplung des empfangenen Signals zur anderen Seite zu verhindern. Wenn optional in einigen Ausführungsformen keine weitere Verarbeitung an dem empfangenen Signal erforderlich ist, kann das empfangene Eingangssignal (r_in) mit dem Lautsprecher gekoppelt werden, ohne dass es den DSP 112 durchläuft.
2 zeigt eine anschauliche Kopfgarnitur 200, die zur Einrichtung von Verfahren der vorliegenden Offenbarung geeignet ist. Die Kopfgarnitur bzw. das Headset 200 umfasst ein oder mehrere Module für das Ohrinnere (ITE-Module) 202 und Module 204 und 206 zur Anbringung hinter dem Ohr (BTE) für jedes Ohr eines Benutzers. Das eine oder die mehreren ITE-Module 202 sind so ausgebildet, dass sie in die Gehörgänge des Benutzers eingeführt werden können. Die BTE-Module 204 und 206 sind so ausgebildet, dass sie hinter den Ohren des Benutzers angeordnet werden können. In einigen Ausführungsformen kommuniziert die Kopfgarnitur 200 mit übergeordneten Einrichtungen über eine Bluetooth-Funkverbindung. Die Bluetooth-Funkverbindung kann einem Bluetooth-Niederenergie-(BLE-) oder einem anderen Bluetooth-Standard entsprechen und kann zur Wahrung der Geheimhaltung auf diverse Arten verschlüsselt sein.
In diversen Ausführungsformen umfassen das eine oder die mehreren ITE-Module 202 das Innenmikrofon 106 und den Lautsprecher 118, die beide in Bezug auf den Gehörgang nach innen zeigen. Das eine oder die mehreren ITE-Modul 202 können eine akustische Trennung zwischen dem einen oder den beiden Gehörgängen 104 und der Außenschallumgebung 102 bieten.
In einigen Ausführungsformen enthält jedes der BTE-Module 204 und 206 mindestens ein Außenmikrofon. Das BTE-Modul 204 kann einen DSP, einen oder mehrere Steuerknöpfe und eine Bluetooth-Funkverbindung zu übergeordneten Geräten enthalten. Das BTE-Modul 206 kann eine geeignete Batterie mit einer Ladeschaltung aufweisen.
Eigenschaften von Mikrofonsignalen
Das Außenmikrofon 108 unterliegt der Einwirkung der Außenschallumgebung. Die Stimme des Benutzers wird auf das Außenmikrofon 108 über die Luft übertragen. Wenn das Außenmikrofon 108 relativ nahe an dem Mund des Benutzers angeordnet ist und keine Hindernisse vorhanden sind, klingt die von dem Außenmikrofon 108 aufgenommene Sprache bzw. Stimme natürlich. Jedoch ist in diversen Ausführungsformen das Außenmikrofon 108 Umgebungsgeräuschen ausgesetzt, etwa dem Geräusch bzw. Rauschen, das von Wind, Fahrzeugen und diversen Hintergrundgeräuschen erzeugt wird. Wenn Umgebungsrauschen vorhanden ist, so reduziert dies die Qualität des Außenmikrofonsignals und kann eine Sprachkommunikation und Spracherkennung erschweren.
Das Innenmikrofon 106 ist im Inneren des Gehörgangs des Benutzers angeordnet. Wenn das eine oder die mehreren ITE-Module 202 eine gute Schalltrennung von der Außenumgebung bieten (beispielsweise eine gute Abdichtung bieten), dann wird die Stimme des Anwenders hauptsächlich über Körperleitung auf das Innenmikrofon 106 übertragen. Aufgrund der Anatomie des menschlichen Körpers wird der Hochfrequenzanteil der über den Körper geleiteten Stimme deutlich abgeschwächt im Vergleich zu dem niederfrequenten Anteil und fällt häufig bis unter eine vorbestimmte Rauschgrenze. Daher kann die von dem Innenmikrofon 106 aufgenommene Stimme häufig stumpf klingen. Der Grad des Abstumpfens und die Frequenzantwort, die von einem Benutzer wahrgenommen werden, können von der speziellen Knochenstruktur des Benutzers, dem speziellen Aufbau der eustachischen Röhre des Benutzers (die das Mittelohr mit der oberen Kehle verbindet) und anderen damit im Zusammenhang stehenden anatomischen Eigenschaften des Benutzers abhängen. Andererseits ist das Innenmikrofon 106 aufgrund der Schallisolation relativ frei von dem Einfluss des Umgebungsrauschens bzw. der Umgebungsgeräusche.
3 zeigt ein Beispiel von Signalformen und von spektralen Verteilungen von Signalen 302 und 304, die entsprechend von dem Außenmikrofon 108 und dem Innenmikrofon 106 aufgenommen werden. Die Signale 302 und 304 enthalten die Stimme bzw. Sprache des Anwenders. Wie in diesem Beispiel gezeigt ist, hat die von dem Innenmikrofon 106 aufgenommene Stimme eine deutlich stärkere spektrale Neigung zu den tieferen Frequenzen. Der hochfrequente Anteil des Signals 304 ist in den beispielhaften Signalformen deutlich abgeschwächt und führt somit zu einer deutlich schmäleren effektiven Bandbreite im Vergleich zu dem Signal 302, das von dem Außenmikrofon aufgenommen wurde.
4 zeigt ein weiteres Beispiel der Signalformen und der spektralen Verteilungen von Signalen 402 und 404, die entsprechend von dem Außenmikrofon 108 und dem Innenmikrofon 106 aufgenommen wurden. Die Signale 402 und 404 enthalten in diesem Beispiel nur Rauschen, das von Wind erzeugt wird. Der wesentliche Unterschied in den Signalen 402 und 404 zeigt an, dass ein Rauschen des Windes an dem Außenmikrofon 108 klar vorhanden ist, das aber in diesem Beispiel größtenteils von dem Innenmikrofon 106 abgeschirmt wird.
Die effektive Bandbreite und die spektrale Ausgewogenheit der von dem Innenmikrofon 106 aufgenommenen Sprache kann signifikant variieren in Abhängigkeit von Faktoren, etwa der Anatomie des Kopfes des Benutzers, den Spracheigenschaften bzw. Stimmeigenschaften des Benutzers und der Schallisolation, die durch das eine oder die mehreren ITE-Module 202 geschaffen wird. Selbst bei genau gleichem Benutzer und gleicher Kopfgarnitur können sich Bedingungen deutlich zwischen unterschiedlichen Benutzungsvorgängen unterscheiden. Eine der signifikantesten Variablen ist die Schallisolation, die durch das eine oder die mehreren ITE-Module 202 geschaffen wird. Wenn die Abdichtung des einen oder der mehreren ITE-Module 202 sehr ausgeprägt ist, dann erreicht die Stimme des Benutzers das Innenmikrofon hauptsächlich über die Körperleitung und die entsprechende Energie wird im Inneren des Gehörgangs gut zurückgehalten. Da aufgrund des dichten Abschlusses das Umgebungsrauschen beim Eindringen in den Gehörgang größtenteils abgeblockt wird, hat das Signal an dem Innenmikrofon ein sehr hohes Signal-Rausch-Verhältnis (SNR), jedoch häufig mit einer sehr begrenzten effektiven Bandbreite. Wenn der Schallaustausch zwischen der Außenumgebung und dem Gehörgang signifikant wird (beispielsweise aufgrund einer teilweisen Abdichtung des einen oder der mehreren ITE-Module 202), dann kann die Stimme des Benutzers das Innenmikrofon auch über die Luftleitung erreichen, so dass die wirksame Bandbreite verbessert wird. Wenn jedoch das Umgebungsrauschen in den Gehörgang eintritt und die über Körperleitung eingespeiste Stimme aus dem Gehörgang entweicht, dann kann auch das SNR an dem Innenmikrofon 106 abnehmen.
5 zeigt noch ein weiteres Beispiel der Signalformen und spektralen Verteilungen von Signalen 502 und 504, die entsprechend von dem Außenmikrofon 108 und dem Innenmikrofon 106 aufgenommen werden. Die Signale 502 und 504 enthalten die Stimme bzw. Sprache des Benutzers. Das Innenmikrofonsignal 504 in 5 hat einen stärkeren Niederfrequenzanteil als das Innenmikrofonsignal 304 der 3, hat jedoch einen sehr starken Abfall nach 2,0-2,5 kHz. Andererseits hat das Innenmikrofonsignal 304 in 3 einen niedrigeren Pegel, hat jedoch in diesem Beispiel einen signifikanten Sprachanteil bis zu 4,0-4,5 kHz.
6 zeigt eine Blockansicht des DSP 112, der zum Zusammenführen von Mikrofonsignalen gemäß diversen Ausführungsformen der vorliegenden Offenbarung geeignet ist. Die Signale x_in und x_ex sind Signale, die entsprechend Klänge repräsentieren, die von dem Innenmikrofon 106 einerseits und dem Außenmikrofon 108 anderseits aufgenommen werden. Die Signale x_in und x_ex müssen nicht notwendigerweise die Signale sein, die direkt von den jeweiligen Mikrofonen stammen; sie können die Signale repräsentieren, die direkt von den entsprechenden Mikrofonen stammen. Beispielsweise können die direkten Signalausgaben aus den Mikrofonen in gewisser Weise vorverarbeitet werden, beispielsweise können sie in ein synchronisiertes pulscodiertes Modulations-(PCM-) Format mit einer geeigneten Abtastfrequenz umgewandelt werden, wobei das umgewandelte Signal das Signal ist, das von dem Verfahren verarbeitet wird.
In dem Beispiel der 6 werden die Signale x_in und x_ex zunächst durch Rauschüberwachungs/Rauschunterdrückungs-(NT/NR)-Module 602 und 604 verarbeitet, so dass eine kontinuierliche Abschätzung des Rauschpegels, der von jedem Mikrofon aufgenommen wird, erhalten wird. Optional kann die Rauschunterdrückung (NR) durch die NT/NR-Module 602 und 604 ausgeführt werden, indem der abgeschätzte Rauschpegel verwendet wird. In diversen Ausführungsformen werden die Mikrofonsignale x_in und x_ex mit oder ohne NR und Rauschabschätzungen bzw. Abschätzungen des Rauschens (beispielsweise „Abschätzungen für externes Rauschen und SNR“, die von NT/NR 602 ausgegeben werden und/oder „Abschätzungen für inneres Rauschen und SNR“, die von NT/NR 604 ausgegeben werden) von den NT/NR-Modulen 602 und 604 zu einem Mikrofon-Spektralangleichungs-(MSA-) Modul 606 gesendet, in welchem der spektrale Angleichungsfilter adaptiv abgeschätzt und auf das Innenmikrofonsignal x_in angewendet wird. Ein wesentlicher Zweck der MSA besteht darin, die an dem Innenmikrofon 106 aufgezeichnete Sprache an die Sprache anzugleichen, die von dem Außenmikrofon 108 aufgenommen wird, wobei dies innerhalb der effektiven Bandbreite des gehörganginternen Sprachsignals erfolgt.
Das Außenmikrofonsignal x_ex, das spektral angeglichene Innenmikrofonsignal x_in,align und die abgeschätzten Rauschpegel an beiden Mikrofonen 106 und 108 werden dann zu einem Mikrofonsignal-Misch-(MSB-) Modul 608 gesendet, in welchem die beiden Mikrofonsignale in geeigneter Weise auf der Grundlage des aktuellen Signals und der Rauschbedingungen kombiniert werden, um ein einziges Ausgangssignal mit optimaler Sprachqualität bzw. Stimmqualität zu erzeugen.
Weitere Einzelheiten in Hinblick auf die Module in 6 sind in verschiedener Weise nachfolgend angegeben.
In diversen Ausführungsformen arbeiten die Module 602-608 (NT/NR, MSA und MSB) in einem Vollband-Bereich (ein Zeitbereich) oder einem gewissen Teilband-Bereich (Frequenzbereich). Für Ausführungsformen mit einem Modul, das in einem Teilband-Bereich arbeitet, wird eine geeignete Analyse-Filterbank (AFB) für die Eingabe in das Modul verwendet, um jedes Eingangssignal vom Zeitbereich in den Teilband-Bereich umzuwandeln. In einigen Ausführungsformen wird eine adaptive Synthese-Filterbank (SFB) bereitgestellt, um jedes Teilband-Ausgangssignal nach Bedarf in Abhängigkeit von dem Bereich des empfangenen Moduls zurück in den Zeitbereich umzuwandeln.
Zu Beispielen der Filterbanken gehören eine digitale Fourier-Transformations-(DFT-) Filterbank, eine modifizierte digitale Cosinus-Transformations-(MDCT) Filterbank, eine 1/3-Oktaven-Filterbank, eine Elementarwellen-Filterbank oder andere geeignete, durch Wahrnehmung motivierte Filterbanken. Wenn aufeinanderfolgende Module 602-608 in dem gleichen Teilband-Bereich arbeiten, können die dazwischen liegenden AFBs und SFBs im Hinblick auf maximale Effizienz und minimale Systembearbeitungszeit entfernt werden. Selbst wenn in einigen Ausführungsformen zwei aufeinanderfolgende Module 602-608 in unterschiedlichen Teilband-Bereichen arbeiten, kann ihre Synergie verwendet werden, indem die SFB des vorhergehenden Moduls und die AFB des nachfolgenden Moduls in Hinblick auf minimale Verarbeitungszeit und Rechenaufwand kombiniert werden. In diversen Ausführungsformen arbeiten alle Verarbeitungsmodule 602-608 in dem gleichen Teilband-Bereich.
Bevor die Mikrofonsignale jeweils die Module 602-608 erreichen, können sie durch geeignete Vorverarbeitungsmodule verarbeitet werden, etwa Gleichstrom-(DC)-Abblockfilter, Windgeräuschunterdrückung (WBM), AEC und dergleichen. In ähnlicher Weise kann das Ausgangssignal aus dem MSB-Modul 608 durch geeignete Nachverarbeitungsmodule weiter verarbeitet werden, etwa in Form statischer oder dynamischer Entzerrung (EQ) und durch automatische Verstärkungssteuerung (AGC). Des Weiteren können andere Verarbeitungsmodule in den Verarbeitungsablauf, der in 6 gezeigt ist, eingefügt werden, solange die eingefügten Module nicht die Funktionsweise der diversen Ausführungsformen der vorliegenden Technik stören.
Weitere Details der Verarbeitungsmodule
Rauschüberwachungs/Rauschunterdrückungs-(NT/NR-) Modul
Der vorrangige Zweck der NT/NR-Module 602 und 604 liegt darin, dass eine kontinuierliche bzw. aktuelle Abschätzung des Rauschens (Rauschpegel und SNR) der Mikrofonsignale erfolgt. Diese kontinuierlichen Abschätzungen werden ferner nachfolgenden Modulen zur Verfügung gestellt, um ihre Funktionen zu ermöglichen. Normalerweise ist eine Rauschüberwachung effektiver, wenn sie in einem Teilband-Bereich mit ausreichender Frequenzauflösung ausgeführt wird. Wenn beispielsweise eine DFT-Filterbank verwendet wird, sind DFT-Größen von 128 und 256 für Abtastraten von entsprechend 8 und 16 kHz bevorzugt. Dies führt zu 62,5 Hz/Band, das dem Erfordernis für niedrigere Frequenzbänder (< 750 Hz) genügt. Die Frequenzauflösung kann für Frequenzbänder über 1 kHz reduziert werden. Für diese höheren Frequenzbänder kann die erforderliche Frequenzauflösung im Wesentlichen proportional zur Mittelfrequenz des Bandes sein.
In diversen Ausführungsformen liefert ein Teilband-Rauschpegel mit ausreichender Frequenzauflösung eine reichere Information in Hinblick auf das Rauschen. Da unterschiedliche Arten von Rauschen unterschiedliche spektrale Verteilung haben können, kann das Rauschen mit dem gleichen Vollband-Pegel einen unterschiedlichen Einfluss auf die Wahrnehmung haben. Ein Teilband-SNR ist auch robuster in Hinblick auf eine Entzerrung, die an dem Signal ausgeführt wird, so dass ein Teilband-SNR eines Innenmikrofonsignals, das gemäß der vorliegenden Technik abgeschätzt wird, weiterhin gültig bleibt, nachdem die spektrale Angleichung von dem nachfolgenden MSA-Modul ausgeführt ist.
Viele Rauschunterdrückungsverfahren beruhen auf einer wirksamen Überwachung des Rauschpegels und können daher für das NT/NR-Modul eingesetzt werden. Die Rauschunterdrückung, die in dieser Stufe ausgeführt wird, kann die Qualität von Mikrofonsignalen, die nachfolgenden Modulen zugeleitet werden, verbessern. In einigen Ausführungsformen werden die Abschätzungen, die in den NT/NR-Modulen erhalten werden, mit Information kombiniert, die in anderen Modulen erhalten wird, um eine Rauschunterdrückung in einer späteren Stufe auszuführen. Beispielsweise und ohne darauf einschränken zu wollen, sind geeignete Rauschunterdrückungsverfahren beschrieben in Ephraim and Malah, „Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator“, IEEE Transactions on Acoustics, Speech, and Signal Processing, Dezember 1984, das hiermit in seiner Gesamtheit für die obigen Zwecke mit eingeschlossen ist.
Mikrofonsprektumsangleichungs-(MSA-) Modul
In diversen Ausführungsformen besteht der hauptsächliche Zweck des MSA-Moduls 606 darin, Stimmsignale bzw. Sprachsignale, die von dem Innenmikrofon und dem Außenmikrofon aufgenommen werden, spektral anzugleichen, um Signale für die nahtlose Mischung der beiden Sprachsignale in dem nachfolgenden MSB-Modul 608 zu ermöglichen. Wie zuvor erläutert ist, ist die von dem Außenmikrofon 108 aufgenommene Sprache typischerweise besser spektral ausgeglichen und hat daher einen natürlicheren Klang. Andererseits kann die von dem Innenmikrofon 106 aufgenommene Sprache tendenziell einen Verlust an Hochfrequenzinhalt aufweisen. Daher agiert das MSA-Modul 606 in dem Beispiel der 6 derart, dass es die Stimme bzw. Sprache am Innenmikrofon 106 spektral an die Stimme bzw. Sprache an dem Außenmikrofon 108 innerhalb der effektiven Bandbreite der Sprache am Innenmikrofon angleicht. Obwohl die Angleichung der spektralen Amplitude der wesentliche Zweck in diversen Ausführungsformen ist, kann die Angleichung der spektralen Phase auch dazu dienen, optimale Ergebnisse zu erreichen. Konzeptionell kann die Mikrofonspektrumsangleichung (MSA) durch Anwenden eines spektralen Angleichungsfilters (H_SA) an das Innenmikrofonsignal erreicht werden: $X_{i n, a l i g n} (f) = H_{S A} (f) X_{i n} (f)$
wobei X_in(f) und X_in,align(f) die Frequenzantworten entsprechend des ursprünglichen und des spektral angeglichenen Innenmikrofonsignals sind. Der spektrale Angleichungsfilter muss in diesem Beispiel das folgende Kriterium erfüllen: $H_{S A} (f) = {\begin{matrix} \frac{X_{e x, v o i c e} (f)}{X_{i n, v o i c e} (f)} & , & f \in Ω_{i n, v o i c e} \\ δ & , & f \notin Ω_{i n, v o i c e} \end{matrix}$
wobei Ω_in,voice die effektive Bandbreite der Stimme bzw. Sprache in dem Gehörgang ist, X_ex,voice(f) und X_in,voice(f) die Frequenzantworten der von entsprechend dem Außenmikrofon und dem Innenmikrofon aufgenommenen Sprachsignale sind. In diversen Ausführungsformen ist der genaue Wert von δ in Gleichung (2) nicht kritisch, jedoch sollte er eine ausreichend kleine Zahl sein, um eine Verstärkung des Rauschens in dem Gehörgang zu vermeiden. Der spektrale Angleichungsfilter kann im Zeitbereich oder in einem beliebigen Teilband-Bereich eingerichtet werden. Abhängig von dem physikalischen Ort des Außenmikrofons kann ein Hinzufügen einer geeigneten Verzögerung zu dem Außenmikrofonsignal erforderlich sein, um die Kausalität des erforderlichen spektralen Angleichungsfilters sicherzustellen.
Ein intuitives Verfahren zum Erhalten eines spektralen Angleichungsfilters besteht darin, die spektralen Verteilungen der Sprache am Außenmikrofon und am Innenmikrofon zu messen und einen Filter auf der Grundlage dieser Messungen zu erstellen. Dieses intuitive Verfahren könnte in gut gesteuerten Umgebungen gut funktionieren. Wie jedoch zuvor erläutert ist, sind die spektrale Verteilung der Sprache und das Rauschen in dem Gehörgang äußerst variabel und von Faktoren abhängig, die spezifisch für Benutzer, Geräte und wie gut die Geräte in das Ohr des Benutzers bei speziellen Gelegenheiten passen (beispielsweise der Abdichtung) abhängig. Die Gestaltung des Angleichungsfilters auf der Grundlage des Durchschnittes aller Bedingungen würde nur unter gewissen Bedingungen gut funktionieren. Andererseits führt die Gestaltung des Filters auf der Grundlage spezieller Bedingungen zu dem Risiko einer Überanpassung, was zu einer übermäßigen Verzerrung und zu Rauschfehlersignalen führen kann. Somit sind unterschiedliche Vorgehensweisen für die Gestaltung erforderlich, um den gewünschten Ausgleich zu erreichen.
Cluster-Verfahren
In diversen Ausführungsformen werden Sprachsignale bzw. Stimmsignale, die von dem Außenmikrofon und dem Innenmikrofon aufgenommen werden, gesammelt, so dass eine Abdeckung für diverse Anwendergruppen, Geräte und Passbedingungen erreicht wird. Es kann ein empirischer spektraler Angleichungsfilter aus jedem dieser Sprachsignalpaare abgeschätzt werden. Heuristische Ansätze oder datengestützte Ansätze können dann eingesetzt werden, um diese empirischen Filter in Cluster bzw. Gruppen einzustufen und einen entsprechenden Filter für jeden Cluster zu trainieren. Gemeinsam bilden in den diversen Ausführungsformen die repräsentativen Filter aller Cluster eine Gruppe aus Kandidatenfiltern bzw. potentiellen Filtern. Während des Echtzeitbetriebs kann eine grobe Abschätzung der gewünschten spektralen Angleichungsfilterantwort erhalten und verwendet werden, um den am besten geeigneten Kandidatenfilter auszuwählen, der auf das Innenmikrofonsignal anzuwenden ist.
Alternativ wird in anderen Ausführungsformen eine Gruppe aus Merkmalen aus den gesammelten Sprachsignalpaaren zusammen mit den empirischen Filtern extrahiert. Diese Merkmale sollten besser beobachtbar sein und mit der Variabilität der idealen Antwort eines spektralen Angleichungsfilters korrelieren, etwa die Grundfrequenz der Stimme, die spektrale Steigung des Innenmikrofonsignals, die Lautstärke der Stimme und das SNR im Inneren des Gehörgangs. In einigen Ausführungsformen werden diese Eigenschaften dem Prozess zur Einstufung in Cluster hinzugefügt, so dass ein repräsentativer Filter und ein repräsentativer Eigenschaftenvektor für jeden Cluster trainiert werden. Während des Echtzeitbetriebs kann die gleiche Merkmalsgruppe extrahiert und mit diesen repräsentativen Eigenschaftenvektoren verglichen werden, um die beste Übereinstimmung zu ermitteln. In diversen Ausführungsformen wird dann der Kandidatenfilter, der aus dem gleichen Cluster wie der Eigenschaftenvektor mit der besten Übereinstimmung ist, auf das Innenmikrofonsignal angewendet.
Beispielhaft und ohne darauf einschränken zu wollen, ist ein anschauliches Cluster-Verfolgungsverfahren beschrieben in der US-Patentanmeldung mit der Nr. 13/492,780 mit dem Titel „Noise Reduction Using Multi-Feature Cluster Tracker“ (am 14. April 2015 als US-Patent mit der Nr. 9,008,329 erteilt), das hiermit für die obigen Zwecke in seiner Gesamtheit durch Bezugnahme mit eingeschlossen ist.
Adaptives Verfahren
Im Gegensatz zum Auswählen aus einer Gruppe aus vortrainierten Kandidaten kann eine Vorgehensweise mit adaptiver Filterung eingesetzt werden, um den spektralen Angleichungsfilter aus den Außenmikrofon- und Innenmikrofonsignalen abzuschätzen. Da die Stimmkomponenten an den Mikrofonen nicht direkt beobachtbar sind und die effektive Bandbreite der Stimme bzw. der Sprache in dem Gehörgang ungewiss ist, wird das in Gl. (2) angegebene Kriterium für praktische Zwecke wie folgt modifiziert: ${\hat{H}}_{S A} (f) = \frac{E {X_{e x} (f) X_{i n}^{*} (f)}}{E {{| X_{i n} (f) |}^{2}}}$
wobei das hochgestellte * das komplex Konjugierte repräsentiert und E{·} einen statistischen Erwartungswert repräsentiert. Wenn der Gehörgang wirksam von der Außenschallumgebung abgeschirmt ist, dann ist das Sprachsignal der einzige Beitrag zu dem Kreuzkorrelationsterm im Zähler der Gl. (3) und der Autokorrelationsterm im Nenner der Gl. (3) wäre die Leistung der Sprache am Innenmikrofon mit seiner effektiven Bandbreite. Außerhalb seiner effektiven Bandbreite ist der Term im Nenner die Leistung des Grundrauschens an dem Innenmikrofon und der Term im Zähler geht gegen 0. Es kann gezeigt werden, dass der auf der Grundlage der Gl. (3) abgeschätzte Filter die Abschätzung gemäß dem minimalen mittleren quadratischen Fehler (MMSE) des in der Gl. (2) angegebenen Kriteriums ist.
Wenn der Schallaustausch zwischen der Außenumgebung und dem Gehörgang signifikant wird, dann ist der auf der Grundlage der Gl. (3) abgeschätzte Filter nicht mehr länger eine MMSE-Abschätzung der Gl. (2), da das in den Gehörgang eingedrungene Rauschen bzw. die Geräusche ebenfalls zu der Kreuzkorrelation zwischen den Mikrofonsignalen beitragen. Als Folge davon hat die Abschätzung in Gl. (3) eine bi-modale Verteilung, wobei der Modus, der mit der Sprache, die die unverschobene Abschätzung repräsentiert, verknüpft ist und der Modus, der mit Rauschen verknüpft ist, zu der Verschiebung des Grundwertes beitragen. Die Minimierung des Einflusses der Schallübertragung kann eine geeignete Adaptionssteuerung erforderlich machen. Beispielhafte Ausführungsformen zur Bereitstellung dieser geeigneten Adaptionssteuerung sind nachfolgend detailliert beschrieben.
Implementierungen im Zeitbereich
In einigen Ausführungsformen kann der in Gl. (3) definierte spektrale Angleichungsfilter in die Darstellung im Zeitbereich wie folgt umgewandelt werden: $h_{S A} = E {x_{i n}^{*} (n) x_{i n}^{T} (n)}^{- 1} E {x_{i n}^{*} (n) x_{e x} (n)}$
wobei h_SA ein Vektor ist, der aus den Koeffizienten eines Filters mit finiter Impulsantwort der Länge N (FIR) besteht: $h_{S A} = {[\begin{matrix} \begin{matrix} h_{S A} (0) & h_{S A} (1) \end{matrix} & Λ & h_{S A} (N - 1) \end{matrix}]}^{T}$
und x_ex(n) und x_in(n) sind Signalvektoren, die aus den letzten N Abtastwerten der entsprechenden Signale zum Zeitpunkt n bestehen: $x (n) = {[\begin{matrix} \begin{matrix} x (n) & x (n - 1) \end{matrix} & Λ & x (n - N + 1) \end{matrix}]}^{T}$
wobei das hochgestellte ^T einen transponierten Vektor oder eine transponierte Matrix repräsentiert und das hochgestellte ^H eine hermitisch transponierte Größe repräsentiert. Das spektral angeglichene Innenmikrofonsignal kann erhalten werden, indem der spektrale Angleichungsfilter auf das Innenmikrofonsignal angewendet wird: $x_{i n, a l i g n} (n) = x_{i n}^{T} (n) h_{S A}$
In diversen Ausführungsformen können viele adaptive Filteransätze angewendet werden, um den in Gl. (4) definierten Filter einzurichten. Ein derartiger Ansatz ist: ${\hat{h}}_{S A} (n) = R_{i n, i n}^{- 1} (n) r_{e x, i n} (n)$
wobei ĥ_SA(n) die Filterabschätzung zum Zeitpunkt n ist. R_in,in(n) und r_ex,in(n) sind die aktuellen Abschätzungen von entsprechend $E {x_{in}^{*} (n) x_{in}^{T} (n)}$
und $E {x_{in}^{*} (n) x_{ex} (n)} .$
Diese aktuellen Abschätzungen können wie folgt berechnet werden: $R_{i n, i n} (n) = R_{i n, i n} (n - 1) + α_{S A} (n) (x_{i n}^{*} (n) x_{i n}^{T} (n) - R_{i n, i n} (n - 1))$
$r_{e x, i n} (n) = r_{e x, i n} (n - 1) + α_{S A} (n) (x_{i n}^{*} (n) x_{e x} (n) - r_{e x, i n} (n - 1))$
wobei α_SA(n) ein adaptiver Glättungsfaktor ist, der definiert ist als: $α_{S A} (n) = α_{S A 0} Γ_{S A} (n)$
Die Basisglättungskonstante α_{SA 0} bestimmt, wie schnell die aktuellen Abschätzungen aktualisiert werden. Sie nimmt einen Wert zwischen 0 und 1 an, wobei der größere Wert einem kleineren Zeitfenster für die grundlegende Glättung entspricht. Der Sprachwahrscheinlichkeitsschätzung Γ_SA(n) nimmt ebenfalls Werte zwischen 0 und 1 an, wobei 1 Gewissheit der Sprachdominanz anzeigt und 0 Gewissheit des Fehlens der Sprache angibt. Diese Vorgehensweise liefert die Adaptionssteuerung, die erforderlich ist, um den Einfluss einer Schallkopplung zu minimieren und den abgeschätzten spektralen Angleichungsfilter unverschoben zu lassen. Details über Γ_SA(n) werden nachfolgend weiter erläutert.
Die in Gl. (8) gezeigte Filteradaption kann eine Matrixinversioin erfordern. Wenn die Filterlänge N anwächst, wird dies sowohl rechentechnisch aufwändig als auch numerisch herausfordernd. In einigen Ausführungsformen wird ein adaptiver Filter mit den kleinsten mittleren Quadraten (LMS) für den in Gl. (4) definierten Filter angewendet: ${\hat{h}}_{S A} (n + 1) = {\hat{h}}_{S A} (n) + \frac{μ_{S A} Γ_{S A} (n)}{{‖ x_{i n} (n) ‖}^{2}} x_{i n}^{*} (n) e_{S A} (n)$
wobei µ_SA eine konstante Adaptionsschrittweite zwischen 0 und 1 ist, ||x_in(n)|| die Norm des Vektors x_in(n) ist, und e_SA(n) der spektrale Angleichungsfehler ist, der definiert ist als: $e_{S A} (n) = x_{e x} (n) - x_{i n}^{T} (n) {\hat{h}}_{S A} (n)$
Ähnlich zu den in den Gl. (8) - (11) gezeigten direkten Ansätzen kann die Sprachwahrscheinlichkeitsabschätzung Γ_SA(n) benutzt werden, um die Filteranpassung so zu steuern, dass der Einfluss der Schallkopplung auf die Filteranpassung minimiert wird.
Im Vergleich zu den beiden Ansätzen konvergiert die LMS langsamer, ist aber rechentechnisch effizient und numerisch stabil. Dieser Kompromiss tritt signifikanter hervor, wenn die Filterlänge größer wird. Andere Arten von adaptiven Filtertechniken, etwa eine schnelle affine Projektion (FAP) oder eine Gitter-Leiter-Struktur, können ebenfalls eingesetzt werden, um unterschiedliche Kompromisse zu erreichen. Es ist wesentlich, einen effektiven Adaptionssteuermechanismus für diese anderen Techniken zu gestalten. In diversen Ausführungsformen kann die Implementierung in einem geeigneten Teilband-Bereich zu einem besseren Kompromiss in Hinblick auf Konvergenz, Recheneffizienz und numerischer Stabilität führen. Implementierungen im Teilband-Bereich sind nachfolgend weiter detaillierter beschrieben.
Implementierungen im Teilband-Bereich
Wenn Signale im Zeitbereich in einen Teilband-Bereich umgewandelt werden, ist die effektive Bandbreite jedes Teilbandes nur ein Teil der Vollband-Bandbreite. Daher wird für gewöhnlich eine Abwärts-Abtastung ausgeführt, um die Redundanz zu entfernen, und der Faktor für die Abwärtsabtastung D nimmt typischerweise mit der Frequenzauflösung zu. Nach der Umwandlung der Mikrofonsignale x_ex(n) und x_in(n) in einen Teilband-Bereich werden die Signale an der k-ten Stelle als x_ex,k(m) und x_in,k(m) bezeichnet, wobei m ein Abtastindex (oder ein Blockindex) in der abwärts abgetasteten diskreten Zeitskala ist und typischerweise als m = n/ D definiert ist.
Der in Gl. (3) definierte spektrale Angleichungsfilter kann wie folgt in eine Darstellung im Teilband-Bereich umgewandelt werden: $h_{S A, k} = E {x_{i n, k}^{*} (m) x_{i n, k}^{T} (m)}^{- 1} E {x_{i n, k}^{*} (m) x_{e x, k} (m)}$
die parallel in jedem der Teilbänder (k = 0,1, ... ,K) eingerichtet wird. Der Vektor h_SA,k besteht aus den Koeffizienten eines FIR-Filters mit der Länge M für das Teilband k: $h_{S A, k} = {[\begin{matrix} \begin{matrix} h_{S A, k} (0) & h_{S A, k} (1) \end{matrix} & Λ & h_{S A, k} (M - 1) \end{matrix}]}^{T}$
und x_ex,k(m) und x_in,k(m) sind Signalvektoren, die aus den letzten M Abtastwerten der entsprechenden Teilband-Signale zum Zeitpunkt m bestehen: $x_{k} (m) = {[\begin{matrix} \begin{matrix} x_{k} (m) & x_{k} (m - 1) \end{matrix} & Λ & x_{k} (x - M + 1) \end{matrix}]}^{T}$
In diversen Ausführungsformen wird aufgrund der Abwärtsabtastung die Filterlänge, die in dem Teilband-Bereich zur Abdeckung einer ähnlichen Zeitspanne erforderlich ist, wesentlich kleiner als in dem Zeitbereich. Typischerweise ist die Beziehung zwischen M und N gegeben durch $M= [N/D] .$
Wenn die Teilband-Abtastrate (Blockrate) gleich oder langsamer als 8 Millisekunden (ms) pro Block ist, wie dies typischerweise für die Sprachsignalverarbeitung der Fall ist, dann ist aufgrund der Nähe aller Mikrofone M häufig bei einem Wert von 1 für Anwendungen mit Kopfgarnitur. In diesem Falle kann die Gl. (14) vereinfacht werden zu: $h_{S A, k} = E {x_{e x, k} (m) x_{i n, k}^{*} (m)} / E {{| x_{i n, k} (m) |}^{2}}$
wobei h_SA,k ein komplexer Filter mit Einzelabgriff ist. Das spektral angeglichene Innenmikrofonsignal im Teilband kann erhalten werden, indem der spektrale Angleichungsfilter im Teilband auf das Teilband-Innenmikrofonsignal angewendet wird: $x_{i n, a l i g n, k} (m) = h_{S A, k} x_{i n, k} (m)$
Die Implementierung des direkten adaptiven Filters des in Gl. (17) definierten Teilband-Filters kann wie folgt formuliert werden: ${\hat{h}}_{S A, k} (m) = r_{e x, i n, k} (m) / r_{i n, i n, k} (m)$
wobei ĥ_SA,k(m) die Filterabschätzung im Block m ist, und r_in,in,k (m) und r_ex,in,k(m) die aktuellen bzw. kontinuierlichen Abschätzungen von entsprechend E{|x_in,k(m)|²} und $E {x_{ex,k} (m) x_{in,k}^{*} (m)}$
sind. Diese aktuellen Abschätzungen können wie folgt berechnet werden: $r_{i n, i n, k} (m) = r_{i n, i n, k} (m - 1) + α_{S A, k} (m) ({| x_{i n, k} (m) |}^{2} - r_{i n, i n, k} (m - 1))$
$r_{e x, i n, k} (m) = r_{e x, i n, k} (m - 1) + α_{S A, k} (m) (x_{e x, k} (m) x_{i n, k}^{*} (m) - r_{e x, i n, k} (m - 1))$
wobei α_SA,k (m) ein adaptiver Glättungsfaktor für das Teilband ist, der wie folgt definiert ist $α_{S A, k} (m) = α_{S A 0, k} Γ_{S A, k} (m)$
Die Teilband-Basisglättungskonstante α_SA0,k bestimmt, wie schnell die aktuellen Abschätzungen in jedem Teilband aktualisiert werden. Sie nimmt einen Wert zwischen 0 und 1 an, wobei der größere Wert einem kleineren Basisglättungszeitfenster entspricht. Die Teilband-Sprachwahrscheinlichkeitsabschätzung Γ_SA,k(m) nimmt ebenfalls Werte zwischen 0 und 1 an, wobei 1 die Gewissheit der Sprachdominanz anzeigt und 0 die Gewissheit anzeigt, dass Sprache in diesem Teilband nicht vorhanden ist. Ähnlich zu dem Falle im Zeitbereich liefert dies die Adaptionssteuerung, die erforderlich ist, um den Einfluss von Schallkopplung zu minimieren und den abgeschätzten spektralen Angleichungsfilter unverschoben zu lassen. Da jedoch Sprachsignale häufig ungleichmäßig über die Frequenz verteilt sind, bietet die Fähigkeit, die Adaption in jedem Teilband separat zu steuern, die Flexibilität bezüglich einer feineren Steuerung und damit ein besseres Leistungspotential. Ferner wird die Matrixinversion in Gl. (8) auf einen einfachen Divisionsvorgang in Gl. (19) reduziert, so dass die rechentechnischen und numerischen Anforderungen deutlich reduziert werden. Die Details über Γ_SA,k(m) werden nachfolgend weiter erläutert.
Ähnlich zu dem Falle im Zeitbereich kann eine adaptive LMS-Filterimplementierung für den in Gl. (17) definierten Filter angewendet werden: ${\hat{h}}_{S A, k} (m + 1) = {\hat{h}}_{S A, k} (m) + \frac{μ_{S A} Γ_{S A, k} (m)}{{‖ x_{i n, k} (m) ‖}^{2}} e_{S A, k} (m) x_{i n, k}^{*} (m)$
wobei µ_SA eine gleichbleibende Adaptionsschrittweite zwischen 0 und 1 ist, $‖ x_{in,k} (m) ‖$
die Norm von x_in,k(m) ist, und e_SA,k(m) der spektrale Angleichungsfehler im Teilband ist und wie folgt definiert ist: $e_{S A, k} (m) = x_{e x, k} (m) - {\hat{h}}_{S A, k} (m) x_{i n, k} (m)$
Ähnlich zu dem in den Gl. (19) - (22) gezeigten direkten Ansatz kann die Teilband-Sprachwahrscheinlichkeitsabschätzung Γ_SA,k(m) verwendet werden, um die Filteranpassung zur Minimierung des Einflusses der Schallkopplung auf die Filteranpassung zu steuern. Da ferner dies ein LMS-Filter mit Einzelabgriff ist, kann die Konvergenz deutlich schneller sein als für den entsprechenden Filter im Zeitbereich, der in Gl. (12) - (13) gezeigt ist.
Sprachwahrscheinlichkeitsabschätzung
Die Sprachwahrscheinlichkeitsabschätzung Γ_SA(n) in Gl. (11) und (12) und die Teilband-Sprachwahrscheinlichkeitsabschätzung Γ_SA,k(m) in Gl. (22) und (23) können eine Adaptionssteuerung für die entsprechenden adaptiven Filter bereitstellen. Es gibt viele Möglichkeiten, bei der Formulierung der Teilband-Wahrscheinlichkeitsabschätzung. Ein derartiges Beispiel ist: $Γ_{S A, k} (m) = ξ_{e x, k} (m) ξ_{i n, k} (m) min (\begin{matrix} {| \frac{x_{i n, k} (m) {\hat{h}}_{S A, k} (m)}{x_{e x, k} (m)} |}^{γ} & , & 1 \end{matrix})$
wobei ξ_ex,k(m) und ξ_in,k(m) die Signalverhältnisse für die Teilband-Signale x_ex,k(m) und x_in,k(m) sind. Diese können unter Anwendung der aktuellen Rauschleistungsabschätzungen P_Nz,ex,k(m), P_NZ,in,k(m) oder SNR-Abschätzungen (SNR_ex,k(m), SNR_ex,k(m)) berechnet werden, die von den NT/NR-Modulen 602 bereitgestellt werden, etwa in Form: $ξ (m) = \frac{{SNR}_{k} (m)}{{SNR}_{k} (m) + 1} oder max (1 - \frac{P_{NZ,k} (m)}{{| x_{k} (m) |}^{2}},0)$
Wie zuvor erläutert ist, zeigt die Abschätzung des spektralen Angleichungsfilters in Gl. (3) eine bi-modale Verteilung, wenn es eine signifikante Schallkopplung gibt. Da der Modus, der mit der Sprache in Zusammenhang steht, generell einen kleineren bedingten Mittelwert hat als der Modus, der mit dem Rauschen in Zusammenhang steht, hilft der dritte Term in Gl. (25) dabei, den Einfluss des Rauschmodus auszuschließen.
Für die Sprachwahrscheinlichkeitsabschätzung Γ_SA(n) besteht eine Option darin, einfach die Komponenten in Gleichung (25) durch ihre Vollband-Entsprechungen zu ersetzen. Da jedoch die Leistung der Schallsignale tendenziell sich in dem unteren Frequenzbereich konzentriert, führt die Anwendung einer derartigen Entscheidung für die Zeitbereichsadaptionssteuerung tendenziell zu einer nicht guten Arbeitsweise im höheren Frequenzbereich. Bei Betrachtung der begrenzten Bandbreite der Sprache des Innenmikrofons 106 führt dies häufig zur Volatilität der Hochfrequenzantwort des abgeschätzten spektralen Angleichungsfilters. Daher führt die Verwendung einer wahrnehmungsbasierten Frequenzgewichtung in diversen Ausführungsformen zur Hervorhebung der Hochfrequenzleistung bei der Berechnung des Vollband-SNR zu einem besser ausgewogenen Leistungsverhalten bezüglich der Frequenz. Alternativ kann die Verwendung eines gewichteten Mittelwerts der Teilband-Sprachwahrscheinlichkeitsabschätzungen als die Sprachwahrscheinlichkeitsabschätzung ebenfalls eine ähnliche Wirkung erreichen.
Mikrofonsignal-Misch-(MSB-) Modul
Der Hauptzweck des MSB-Moduls 608 besteht darin, das Außenmikrofonsignal x_ex(n) und das spektral angeglichene Innenmikrofonsignal x_in,align(n) zu kombinieren, um ein Ausgangssignal mit optimalem Kompromiss zwischen Rauschunterdrückung und Sprachqualität zu erzeugen. Dieser Vorgang kann entweder im Zeitbereich oder im Teilband-Bereich eingerichtet werden. Während das Mischen im Zeitbereich eine einfache und intuitive Art des Mischens der zwei Signale bietet, bietet das Mischen im Teilband-Bereich eine größere Steuerungsflexibilität und somit ein höheres Potential zum Erreichen eines besseren Kompromisses zwischen Rauschunterdrückung und Sprachqualität.
Mischung im Zeitbereich
Das Mischen im Zeitbereich kann wie folgt als Formel dargestellt werden: $s_{o u t} (n) = g_{S B} x_{i n, a l i g n} (n) + (1 - g_{S B}) x_{e x} (n)$
wo g_SB das Signalmischgewicht für das spektral angeglichene Innenmikrofonsignal ist, das den Wert zwischen 0 und 1 annimmt. Es kann beobachtet werden, dass die Gewichte für x_ex(n) und x_in,align(n) sich stets zu 1 summieren. Da die beiden Signale innerhalb der effektiven Bandbreite der Sprache in dem Gehörgang spektral angeglichen sind, sollte die Sprache in dem gemischten Signal innerhalb dieser effektiven Bandbreite bei Änderung des Gewichts konsistent bleiben. Dies ist der wesentliche Vorteil des Ausführens der Amplituden- und Phasenangleichung in dem MSA-Modul 606.
Idealerweise sollte g_SB in ruhigen Umgebungen gleich 0 sein, so dass das Außenmikrofonsignal dann als das Ausgangssignal verwendet werden könnte, um eine natürliche Sprachqualität zu erhalten. Andererseits sollte g_SB gleich 1 in sehr rauschbehafteten bzw. mit Nebengeräuschen behafteten Umgebungen sein, so dass das spektral angeglichene Innenmikrofonsignal dann als das Ausgangssignal verwendet werden sollte, um den Vorteil seines reduzierten Rauschens aufgrund der Schallisolation in Bezug auf die Außenumgebung auszunutzen. Wenn die Umgebung von ruhig zu laut übergeht, nimmt der Wert von g_SB zu, und das gemischte Ausgangssignal verschiebt sich von einem Außenmikrofon in Richtung zu einem Innenmikrofon. Dies führt ebenfalls zu einem allmählichen Verlust des höherfrequenten Sprachanteils und somit kann die Sprache einen stumpfen Klang annehmen.
Der Übergangsvorgang für den Wert von g_SB kann diskret sein und kann durch die Abschätzung des Rauschpegels an dem Außenmikrofon (P_Nz,ex) wesentlich beeinflusst sein, die von dem NT/NR-Modul 602 geliefert wird. Beispielsweise kann der Bereich des Rauschpegels in (L+1) Zonen unterteilt werden, wobei Zone 0 die ruhigsten Bedingungen und Zone L die lautesten Bedingungen abdeckt. Der obere und der untere Schwellenwert für diese Zonen könnten den folgenden Bedingungen genügen: $\begin{array}{l} T_{S B, H i,0} & < & T_{S B, H i,1} & < & Λ & < & T_{S B, H i, L - 1} \\ T_{S B, L o,1} & < & T_{S B, L o,2} & < & Λ & < & T_{S B, L o, L} \end{array}$
wobei T_SB,Hi,l und T_SB,Lo,l der obere und der untere Schwellenwert der Zone l sind, mit l = 0,1, ... ,L. Es sollte beachtet werden, dass es keine untere Grenze für die Zone 0 und keine obere Grenze für die Zone L gibt. Diese Schwellenwerte könnten auch der Bedingung genügen: $\begin{array}{l} T_{S B, L o, l + 1} & \leq & T_{S B, H i, l} & \leq & T_{S B, L o, l + 2} \end{array}$
so dass es Überlappungen zwischen benachbarten Zonen, aber nicht zwischen nicht benachbarten Zonen gibt. Diese Überlappungen dienen als Hysterese, die eine Signalverzerrung aufgrund eines übermäßigen Umschaltens zwischen Zonen reduziert. Für jede dieser Zonen kann ein Kandidat des g_SB-Wertes festgelegt werden. Dieser Kandidat sollte der Bedingung genügen: $\begin{array}{l} g_{S B,0} = 0 & \leq & g_{S B,1} & \leq & g_{S B,2} & \leq & Λ & \leq & g_{S B, L - 1} & \leq & g_{S B, L} = 1 \end{array}$
Da sich die Rauschbedingungen mit deutlich kleinerer Geschwindigkeit ändern als die Abtastfrequenz, können die Mikrofonsignale in aufeinanderfolgende Blöcke aus Abtastwerten unterteilt werden, und es kann eine aktuelle bzw. kontinuierliche Abschätzung eines Rauschpegels an einem Außenmikrofon für jeden Block verfolgt bzw. überwacht werden, der als P_NZ,ex(m) bezeichnet ist, wobei m der Blockindex ist. Idealerweise sollte eine auf Wahrnehmung beruhende Frequenzgewichtung angewendet werden, wenn die geschätzte Rauschspektralleistung in die Vollband-Rauschpegelabschätzung mit aufgenommen wird. Dies würde dazu führen, dass P_NZ,ex(m) besser mit dem durch Wahrnehmung hervorgerufenen Einfluss des aktuellen Umgebungsrauschens korreliert. Indem die Rauschzone bei Block m als Λ_SB(m) bezeichnet wird, kann ein Algorithmus auf Basis einer Zustandsmaschine für das MSB-Modul 608 definiert werden wie folgt:

1. Initialisieren des Blocks 0 als eine Rauschzone 0, das heißt, Λ_SB(0) = 0.
2. Wenn der Block (m-1) in der Rauschzone l liegt, das heißt, Λ_SB(m-1) = l, dann wird die Rauschzone für den Block m, Λ_SB(m), ermittelt durch Vergleich der Rauschpegelabschätzung P_NZ,ex(m) mit den Schwellenwerten der Rauschzone l: $Λ_{SB} (m) = {\begin{array}{l} l + 1 & , & {wenn P}_{NZ,ex} (m) > T_{SB,Hi,l}, & l \neq L \\ l - 1 & , & {wenn P}_{NZ,ex} (m) < T_{SB,Lo,l}, & l \neq 0 \\ l & , & ansonsten \end{array}$
3. Festlegen des Mischgewichts für x_in,align(n) in Block m als einen Kandidaten in der Zone A_SB(m): $g_{S B} (m) = g_{S B, Λ_{S B} (m)}$
und Verwenden des Gewichts zur Berechnung des gemischten Ausgangssignals für den Block m auf der Grundlage der Gl. (27).
4. Zurückkehren zu Schritt 2 für den nächsten Block.

Alternativ kann der Übergangsvorgang für den Wert von g_SB kontinuierlich sein. Anstelle der Unterteilung des Bereichs einer Grundrauschabschätzung in Zonen und einer Zuweisung eines Mischgewichts in jeder dieser Zonen kann die Beziehung zwischen der Rauschpegelabschätzung und dem Mischgewicht als eine kontinuierliche Funktion definiert werden: $g_{S B} (m) = f_{S B} (P_{N Z, e x} (m))$
wobei f_SB (•) eine nicht kleiner werdende Funktion von P_Nz,ex(m) ist, die einen Bereich zwischen 0 und 1 hat. In gewissen Ausführungsformen kann eine andere Information, etwa Rauschpegelabschätzungen aus vorhergehenden Blöcken und SNR-Abschätzungen, in den Vorgang der Ermittlung des Wertes von g_SB(m) mit eingeschlossen werden. Dies kann auf der Grundlage von datengesteuerten Ansätzen (Maschinenlernen) oder heuristischen Regeln erreicht werden. Beispielsweise und ohne darauf einschränken zu wollen, sind Beispiele diverser Ansätze mit Maschinenlernen und heuristischen Regeln in der US-Patentanmeldung mit der Nr. 14/046,551 beschrieben mit dem Titel „Noise Suppression for Speech Processing Based on Machine-Learning Mask Estimation“, die am 4. Oktober 2013 eingereicht wurde.
Mischen im Teilband-Bereich
Das Mischen im Teilband-Bereich liefert einen einfachen und intuitiven Mechanismus zum Kombinieren der Signale des Innenmikrofons und des Außenmikrofons auf der Grundlage der Umgebungsgeräuschbedingungen. Unter Bedingungen mit starkem Rauschen würde sich jedoch eine Auswahl ergeben zwischen hochfrequentem Sprachanteil mit Rauschen und reduziertem Rauschen mit gedämpfter Sprachqualität. Wenn die Sprache im Inneren des Gehörgangs eine sehr begrenzte effektive Bandbreite hat, kann ihre Verständlichkeit sehr gering sein. Dies schränkt die Wirksamkeit der Sprachkommunikation oder der Spracherkennung deutlich ein. Ferner wird aufgrund des Fehlens einer Frequenzauflösung bei der Mischung im Zeitbereich ein Ausgleich zwischen Schaltstörsignal aufgrund der weniger häufigen, aber dennoch signifikanten Änderungen der Mischgewichtung und der Verzerrung aufgrund der kleineren, aber gleichmäßigeren Änderungen herbeigeführt. Ferner ist die Wirksamkeit der Steuerns der Gewichte für das Mischen für die Mischung im Zeitbereich auf der Grundlage eines abgeschätzten Rauschpegels stark abhängig von Faktoren, etwa der Feinabstimmung und den Verstärkungseinstellungen in der Audio-Kette, den Positionen von Mikrofonen und der Lautstärke der Sprache bzw. der Stimme des Benutzers. Andererseits kann die Verwendung eines SNR als Steuermechanismus im Zeitbereich weniger wirksam sein aufgrund des Fehlens einer Frequenzauflösung. In Hinblick auf die Einschränkungen bei der Mischung im Zeitbereich kann die Mischung im Teilband-Bereich gemäß den diversen Ausführungsformen Flexibilität und die Möglichkeit bieten, eine erhöhte Robustheit und ein größeres Leistungsvermögen für das MSB-Modul zu erreichen.
Beim Mischen im Teilband-Bereich wird der in Gl. (27) definierte Signalmischvorgang auf das Teilband-Außenmikrofonsignal x_ex,k(m) und auf das spektral angeglichene Teilband-Innenmikrofonsignal x_in,align,k(m) angewendet, wie folgt: $s_{o u t, k} (m) = g_{S B, k} x_{i n, a l i g n, k} (m) + (1 - g_{S B, k}) x_{e x, k} (m)$
wobei k der Teilband-Index und m der Blockindex ist. Das im Teilband gemischte Ausgangssignal s_out,k(m) kann in den Zeitbereich zurück transformiert werden, um das gemischte Ausgangssignal s_out(n) zu erzeugen, oder es kann im Teilband-Bereich bleiben, um von nachgeordneten Teilband-Verarbeitungsmodulen verarbeitet zu werden.
In diversen Ausführungsformen bietet die Mischung im Teilband-Bereich die Flexibilität des Einstellens der Signalmischgewichte (g_SB,k) für jedes Teilband in separater Weise, so dass das Verfahren die Änderungen von Faktoren besser handhaben kann, etwa die effektive Bandbreite der gehörganginternen Sprache und der spektralen Leistungsverteilungen von Sprache und Rauschen. Aufgrund der verfeinerten Frequenzauflösung kann ein SNR-basierter Steuermechanismus in dem Teilband-Bereich effizient sein und liefert die gewünschte Robustheit gegenüber Schwankungen von diversen Faktoren, etwa von Verstärkungseinstellungen in der Audio-Kette, den Positionen von Mikrofonen und der Lautstärke der Stimme des Benutzers.
Die Teilband-Signalmischgewichte können auf der Grundlage der Differenz zwischen den SNRs im Innenmikrofon und im Außenmikrofon wie folgt eingestellt werden: $g_{S B, k} (m) = (\frac{{(S N R_{i n, k} (m))}^{ρ_{S B}}}{{(S N R_{i n, k} (m))}^{ρ_{S B}} + {(β_{S B} S N R_{e x, k} (m))}^{ρ_{S B}}})$
wobei SNR_ex,k(m) und SNR_in,k(m) die aktuellen Teilband-SNRs des Außenmikrofonsignals und entsprechend des Innenmikrofonsignals sind, und diese werden aus den NT/NR-Modulen 602 bereitgestellt. β_SB ist die Verschiebungskonstante, die positive Werte annimmt und die normalerweise auf 1,0 festgesetzt ist. ρ_SB ist die Übergangssteuerkonstante, die positive Werte annimmt und die normalerweise auf einen Wert zwischen 0,5 und 4,0 eingestellt wird. Wenn β_SB =1,0 gilt, dann begünstigt das Teilband-Signalmischgewicht, das aus Gl. (35) berechnet wird, das Signal mit dem höheren SNR in dem entsprechenden Teilband. Da die beiden Signale entsprechend angeglichen sind, erlaubt diese Entscheidung, das Mikrofon mit dem geringeren Grundrauschen innerhalb der effektiven Bandbreite einer gehörganginternen Sprache auszuwählen. Außerhalb dieser Bandbreite erfolgt eine Verschiebung zu dem Außenmikrofonsignal in der natürlichen Sprachbandbreite oder es erfolgt eine Aufteilung zwischen den beiden, wenn es in dem Teilband keine Sprache bzw. Stimme gibt. Das Festlegen von β_SB auf eine Zahl größer oder kleiner als 1,0 verschiebt die Entscheidung in Richtung zu einem Außenmikrofon oder entsprechend zu einem Innenmikrofon. Der Einfluss von β_SB ist proportional zu seiner logarithmischen Skala. ρ_SB steuert den Übergang zwischen den Mikrofonen. Ein größeres ρ_SB führt zu einem schärferen Übergang, während ein kleineres ρ_SB zu einem weicheren Übergang führt.
Die Entscheidung in Gl. (35) kann in Hinblick auf eine bessere Sprachqualität zeitlich geglättet werden. Alternativ können die in Gl. (35) verwendeten Teilband-SNRs zeitlich geglättet werden, um eine ähnliche Wirkung zu erreichen. Wenn die Teilband-SNRs sowohl für das Innenmikrofonsignal als auch für das Außenmikrofonsignal gering sind, verlangsamt sich der Glättungsvorgang zugunsten eines konsistenteren Grundrauschens.
Die Entscheidung in Gl. (35) wird in jedem Teilband unabhängig ausgeführt. Eine bandübergreifende Entscheidung kann zur besseren Robustheit hinzugefügt werden. Beispielsweise können die Teilbänder mit relativ niedrigem SNR im Vergleich zu anderen Teilbändern in Richtung zu dem Teilbandsignal mit der niedrigeren Leistung für eine bessere Rauschunterdrückung verschoben werden.
Die SNR-basierte Entscheidung für g_SB,k(m) hängt im Wesentlichen von den Verstärkungseinstellungen in der Audio-Kette ab. Obwohl es möglich ist, die Rauschpegelabschätzungen direkt oder indirekt in den Entscheidungsprozess in Hinblick auf eine verbesserte Robustheit gegenüber der Volatilität in SNR-Abschätzungen einzubauen, kann die Robustheit gegenüber anderen Arten von Schwankungen dadurch reduziert werden.
Beispielhafte alternative Verwendungen
Ausführungsformen der vorliegenden Technik sind nicht auf Einrichtungen beschränkt, die ein einziges Innenmikrofon und ein einziges Außenmikrofon haben. Wenn beispielsweise mehrere Außenmikrofone vorhanden sind, können Algorithmen zur räumlichen Filterung zunächst auf die Außenmikrofonsignale angewendet werden, um ein einziges Außenmikrofonsignal mit geringerem Rauschpegel zu erzeugen, während seine Sprachqualität an das Außenmikrofon mit der besten Sprachqualität angeglichen wird. Das resultierende Außenmikrofonsignal kann dann durch die vorgeschlagene Vorgehensweise verarbeitet werden, um eine Zusammenführung mit dem Innenmikrofonsignal zu erreichen.
Wenn in ähnlicher Weise zwei Innenmikrofone vorhanden sind, eines in jedem Gehörgang des Benutzers, dann kann zunächst eine Kohärenzverarbeitung auf die beiden Innenmikrofonsignale angewendet werden, um ein einziges Innenmikrofonsignal mit besserer Schallisolation, breiterer effektiver Sprachbandbreite oder beidem zu erzeugen. In diversen Ausführungsformen wird dieses einzige interne Signal dann unter Anwendung diverser Ausführungsformen des Verfahrens und des Systems der vorliegenden Technik verarbeitet, um ein Zusammenführen mit dem Außenmikrofonsignal zu erreichen.
Alternativ kann die vorliegende Technik auf Paare von Innenmikrofon und Außenmikrofon, beispielsweise auf das linke und das rechte Ohr des Benutzers, separat angewendet werden. Da die Ausgangssignale die spektralen Amplituden und Phasen der Sprache an den entsprechenden Außenmikrofonen bewahren, können sie durch geeignete nachgeordnete Verarbeitungsmodule verarbeitet werden, um die Sprachqualität weiter zu verbessern. Die vorliegende Technik kann ferner für andere Konfigurationen aus Innenmikrofon und Außenmikrofon verwendet werden.
7 ist ein Flussdiagramm, das ein Verfahren 700 zum Verschmelzen bzw. Zusammenführen von Mikrofonsignalen gemäß einer anschaulichen Ausführungsform zeigt. Das Verfahren 700 kann unter Anwendung des DSP 112 umgesetzt werden. Das anschauliche Verfahren 700 beginnt in Block 702 mit dem Empfang eines ersten Signals und eines zweiten Signals. Das erste Signal repräsentiert mindestens einen Klang, der von einem Außenmikrofon aufgenommen wird, und der mindestens eine Sprachkomponente enthält. Das zweite Signal repräsentiert mindestens einen Klang, der von einem Innenmikrofon erfasst wird, das im Inneren eines Gehörgangs eines Benutzers angeordnet ist, und das Signal enthält zumindest die Sprachkomponente, die zumindest durch menschliches Gewebe modifiziert ist. Das Innenmikrofon kann an der Einsetzstelle abgedichtet werden, um eine Isolation zu Schallsignalen, die von außerhalb des Gehörgangs stammen, zu erreichen, oder es kann teilweise in Abhängigkeit von dem Anwender und der Anordnung des Innenmikrofons in dem Gehörgang durch den Anwender abgedichtet werden.
In Block 704 ermöglicht das Verfahren 700 die Verarbeitung des ersten Signals, um erste Abschätzungen des Rauschens bzw. der Geräusche zu erhalten. In Block 706 (der gestrichelt gezeigt ist, da er für einige Ausführungsformen optional ist) verarbeitet das Verfahren 700 das zweite Signal, um zweite Abschätzungen des Rauschens zu erhalten. In Block 708 gleicht das Verfahren 700 das zweite Signal an das erste Signal an. In Block 710 beinhaltet das Verfahren 700 das Mischen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens (und optional auch auf der Grundlage der zweiten Abschätzungen des Rauschens), des ersten Signals und des angeglichenen zweiten Signals, um ein verbessertes Sprachsignal zu erzeugen.
8 zeigt ein anschauliches Computersystem 800, das zum Implementieren einiger Ausführungsformen der vorliegenden Erfindung eingesetzt werden kann. Das Computersystem 800 der 8 kann in Zusammenhang und dergleichen von Computersystemen, Netzwerken, Server-Rechnern oder Kombinationen davon eingerichtet werden. Das Computersystem 800 der 8 beinhaltet eine oder mehrere Prozessoreinheiten 810 und einen Hauptspeicher 820. Der Hauptspeicher 820 speichert teilweise Befehle und Daten, die zur Ausführung durch die Prozessoreinheiten 810 vorgesehen sind. Der Hauptspeicher 820 speichert in diesem Beispiel den ausführbaren Code, wenn er in Betrieb ist. Das Computersystem 800 der 8 umfasst ferner einen Massendatenspeicher 830, eine tragbare Speichereinrichtung 840, Ausgabeeinrichtungen 850, Benutzereingabeeinrichtungen 860, ein Graphikanzeigesystem 870 und Peripheriegeräte 880.
Die in 8 gezeigten Komponenten sind so dargestellt, dass sie durch einen einzigen Bus 890 verbunden sein. Die Komponenten können über eine oder mehrere Datentransporteinrichtungen verbunden sein. Die Prozessoreinheit 810 und der Hauptspeicher 820 sind über einen lokalen Mikroprozessorbus verbunden, und der Massendatenspeicher 830, das eine oder die mehreren Peripheriegerät/e 880, die tragbare Speichereinrichtung 840 und das Graphikanzeigesystem 870 sind über einen oder mehrere Eingangs/Ausgangs-(I/O-) Busse verbunden.
Der Massendatenspeicher 830, der mittels eines Magnetscheibenlaufwerks, eines Halbleiterspeicherlaufwerks, oder eines optischen Diskettenlaufwerks implementiert werden kann, ist ein nichtflüchtiger Speicher zur Speicherung von Daten und Befehlen zur Verwendung durch die Prozessoreinheit 810. Der Massendatenspeicher 830 speichert die Systemsoftware zum Implementieren von Ausführungsformen der vorliegenden Offenbarung zum Zwecke des Ladens dieser Software in den Hauptspeicher 820.
Die tragbare Speichereinrichtung 840 arbeitet in Verbindung mit einem tragbaren, nichtflüchtigen Speichermedium, etwa einem Flash-Laufwerk, einem Diskettenlaufwerk, einer Kompaktdiskette, einer digitalen Videodiskette oder einer Speichereinrichtung für den universellen seriellen Bus (USB), um Daten und Code mit dem Computersystem 800 der 8 auszutauschen. Die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung ist in einem derartigen tragbaren Medium gespeichert und wird dem Computersystem 800 über die tragbare Speichereinrichtung 840 zugeführt.
Die Anwendereingabeeinrichtungen 860 können einen Bereich einer Benutzerschnittstelle bereitstellen. Die Benutzereingabeeinrichtungen 860 können ein oder mehrere Mikrofone, alphanumerische Tasten, etwa eine Tastatur, zur Eingabe alphanumerischer Information oder anderer Information, oder eine Zeigereinrichtung, etwa eine Maus, eine Spurverfolgungskugel, einen Stift oder Cursor-Richtungstasten aufweisen. Die Benutzereingabeeinrichtungen 860 können ferner einen berührungsempfindlichen Bildschirm beinhalten. Des Weiteren beinhaltet das in 8 gezeigte Computersystem 800 die Ausgabeeinrichtungen 850. Zu geeigneten Ausgabeeinrichtungen 850 gehören Lautsprecher, Drucker, Netzwerkschnittstellen und Bildschirmgeräte.
Das Graphikanzeigesystem 870 umfasst eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigeeinrichtung. Das Graphikanzeigesystem 870 kann so konfiguriert werden, dass es Textinformation und Graphikinformation empfängt und die Information zur Ausgabe auf der Anzeigevorrichtung verarbeitet.
Die Peripheriegeräte 880 können eine beliebige Art von Geräten zur Unterstützung des Computers umfassen, um dem Computersystem zusätzliche Funktionen hinzuzufügen.
Die in dem Computersystem 800 der 8 bereitgestellten Komponenten sind solche, die typischerweise in Computersystemen vorgefunden werden und die zur Verwendung in Verbindung mit Ausführungsformen der vorliegenden Offenbarung geeignet und dazu gedacht sind, eine breite Kategorie derartiger Computerkomponenten zu repräsentieren, die im Stand der Technik gut bekannt sind. Somit kann das Computersystem 800 der 8 ein Personalcomputer (PC), ein Hand-Computersystem, ein Telefon, ein mobiles Computersystem, ein Arbeitsplatzrechner, ein Tablet-Rechner, ein Phablet-Rechner, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großcomputer, ein am Körper tragbarer Rechner oder ein beliebiges anderes Computersystem sein. Der Computer kann ferner unterschiedliche Buskonfigurationen, vernetzte Plattformen, Multi-Prozessor-Plattformen und dergleichen mit einschließen. Es können diverse Betriebssysteme eingesetzt werden, wozu UNIX, LINUX, WINDOWS, MAC OS, PALM OS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme gehören.
Die Verarbeitung der diversen Ausführungsformen kann in Software eingerichtet werden, die auf Basis eines Cloud-Systems beruht. In einigen Ausführungsformen ist das Computersystem 800 als eine Cloud-basierte Rechenumgebung eingerichtet, etwa als eine virtuelle Maschine, die in einer Rechen-Cloud arbeitet. In anderen Ausführungsformen kann das Computersystem 800 selbst eine Cloud-basierte Rechenumgebung enthalten, in der die Funktionen des Computersystems 800 in einer verteilten Weise ausgeführt werden. Daher kann das Computersystem 800, wenn es als eine Rechen-Cloud ausgebildet ist, mehrere Recheneinrichtungen in diversen Formen aufweisen, wie dies nachfolgend detaillierter beschrieben ist.
Im Allgemeinen ist eine Cloud-basierte Rechenumgebung eine Ressource, die typischerweise die Rechenleistung einer großen Gruppe an Prozessoren vereinigt (etwa innerhalb von Netz-Servern) und/oder die die Speicherkapazität einer großen Gruppe aus Computerspeichern oder Speichereinrichtungen vereinigt. Systeme, die Cloud-basierte Ressourcen bieten, können exklusiv von ihren Besitzern genutzt werden, oder derartige Systeme sind auch für externe Benutzer verfügbar, die Anwendungen innerhalb der Recheninfrastruktur verteilen, um den Vorteil großer Rechenressourcen oder Speicherressourcen zu erhalten.
Die Cloud kann beispielsweise durch ein Netzwerk aus Netz-Servern gebildet sein, die mehrere Recheneinrichtungen, etwa das Computersystem 800 umfassen, wobei jeder Server (oder zumindest mehrere davon) einen Prozessor und/oder Speicherressourcen bereitstellen. Diese Server können die Arbeitslast, die durch mehrere Benutzer entsteht (beispielsweise von Kunden für Cloud-Ressourcen oder anderen Benutzern) verwalten. Typischerweise werden der Cloud Arbeitslastanforderungen von jedem Benutzer auferlegt, die in Echtzeit variieren, häufig sehr stark variieren. Die Natur und das Ausmaß dieser Schwankungen hängt typischerweise von der Art der geschäftlichen Aktivität ab, die mit dem Benutzer in Zusammenhang steht.
Die vorliegende Technik ist zuvor mit Verweis auf beispielhafte Ausführungsformen beschrieben. Daher sollen andere Varianten der anschaulichen Ausführungsformen durch die vorliegende Offenbarung ebenfalls abgedeckt sein.

Claims

Ein Verfahren zum Zusammenführen von Mikrofonsignalen, wobei das Verfahren umfasst: Empfangen eines ersten Signals, das mindestens eine Sprachkomponente enthält, und eines zweiten Signals, das zumindest die Sprachkomponente enthält, die zumindest durch menschliches Gewebe modifiziert ist; Verarbeiten des ersten Signals, um erste Abschätzungen von Rauschen zu erhalten; spektrales Angleichen der Sprachkomponente in dem zweiten Signal an die Sprachkomponente in dem ersten Signal; und Mischen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, des ersten Signals und der angeglichenen Sprachkomponente in dem zweiten Signal zur Erzeugung eines verbesserten Sprachsignals, wobei das Mischen beinhaltet: Zuweisen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, eines ersten Gewichts zu dem ersten Signal und eines zweiten Gewichts zu dem zweiten Signal, und Mischen des ersten Signals und des zweiten Signals entsprechend dem ersten Gewicht und dem zweiten Gewicht.
Das Verfahren nach Anspruch 1, wobei das zweite Signal mindestens einen Klang repräsentiert, der von einem im Inneren eines Gehörgangs angeordneten Innenmikrofon erfasst wird.
Das Verfahren nach Anspruch 2, wobei das Innenmikrofon zumindest teilweise abgedichtet ist, um eine Isolierung zu Schallsignalen von außerhalb des Gehörgangs bereitzustellen.
Das Verfahren nach Anspruch 1, wobei das erste Signal mindestens einen Klang repräsentiert, der von einem außerhalb eines Gehörgangs angeordneten Außenmikrofon erfasst wird.
Das Verfahren nach Anspruch 1, das ferner Verarbeiten des zweiten Signals zum Erhalten zweiter Abschätzungen des Rauschens umfasst.
Das Verfahren nach Anspruch 5, wobei Zuweisen des ersten Gewichts zu dem ersten Signal und des zweiten Gewichts zu dem zweiten Signal zumindest auf den ersten Abschätzungen des Rauschens und den zweiten Abschätzungen des Rauschens beruht.
Das Verfahren nach Anspruch 1, wobei das Angleichen und/oder das Mischen für Teilbänder im Frequenzbereich ausgeführt werden.
Das Verfahren nach Anspruch 1, wobei das Verarbeiten, das Angleichen und das Mischen für Teilbänder im Frequenzbereich ausgeführt werden.
Das Verfahren nach Anspruch 1, das ferner Ausführen einer Rauschunterdrückung für das erste Signal umfasst.
Das Verfahren nach Anspruch 1, das ferner Ausführen einer Rauschunterdrückung für das zweite Signal umfasst.
Das Verfahren nach Anspruch 5, das ferner umfasst: vor dem Angleichen, Ausführen einer Rauschunterdrückung für das erste Signal auf der Grundlage der ersten Abschätzungen des Rauschens; und vor dem Angleichen, Ausführen einer Rauschunterdrückung für das zweite Signal auf der Grundlage der zweiten Abschätzungen des Rauschens.
Das Verfahren nach Anspruch 5, das ferner umfasst: nach dem Angleichen, Ausführen einer Rauschunterdrückung für das erste Signal auf der Grundlage der ersten Abschätzungen des Rauschens; und nach dem Angleichen, Ausführen einer Rauschunterdrückung für das zweite Signal auf der Grundlage der zweiten Abschätzungen des Rauschens.
Das Verfahren nach Anspruch 1, wobei das Angleichen umfasst: Anwenden eines spektralen Angleichungsfilters auf das zweite Signal.
Das Verfahren nach Anspruch 13, wobei der spektrale Angleichungsfilter einen empirisch abgeleiteten Filter beinhaltet.
Das Verfahren nach Anspruch 13, wobei der spektrale Angleichungsfilter einen adaptiven Filter umfasst, der auf der Grundlage einer Kreuzkorrelation des ersten Signals und des zweiten Signals und einer Autokorrelation des zweiten Signals berechnet wird.
Das Verfahren nach Anspruch 6, wobei das erste Gewicht einen größeren Wert als das zweite Gewicht erhält, wenn ein Signal-Rauschen-Verhältnis (SNR) des ersten Signals größer als ein SNR des zweiten Signals ist, und wobei das zweite Gewicht einen größeren Wert als das erste Gewicht erhält, wenn das SNR des ersten Signals kleiner als das SNR des zweiten Signals ist, wobei die Differenz zwischen dem ersten Gewicht und dem zweiten Gewicht der Differenz zwischen dem SNR des ersten Signals und dem SNR des zweiten Signals entspricht.
Ein System zum Zusammenführen von Mikrofonsignalen, wobei das System umfasst: einen digitalen Signalprozessor, ausgebildet ist zum: Empfangen eines ersten Signals mit mindestens einer Sprachkomponente und eines zweiten Signals mit mindestens der Sprachkomponente, die zumindest durch menschliches Gewebe modifiziert ist; Verarbeiten des ersten Signals, um erste Abschätzungen eines Rauschens zu erhalten; spektralen Angleichen der Sprachkomponente in dem zweiten Signal an die Sprachkomponente in dem ersten Signal; und Mischen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, des ersten Signals und der angeglichenen Sprachkomponente in dem zweiten Signal zur Erzeugung eines verbesserten Sprachsignals, mit: Zuweisen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, eines ersten Gewichtes zu dem ersten Signal und eines zweiten Gewichtes zu dem zweiten Signal; und Mischen des ersten Signals und des zweiten Signals entsprechend dem ersten Gewicht und dem zweiten Gewicht.
Das System nach Anspruch 17, das ferner umfasst: ein Innenmikrofon, das im Inneren eines Gehörgangs angeordnet und abgedichtet ist, so dass es von Schallsignalen außerhalb des Gehörgangs isoliert ist, wobei das zweite Signal mindestens einen Klang repräsentiert, der von dem Innenmikrofon erfasst wird; und ein Außenmikrofon, das außerhalb des Gehörgangs angeordnet ist, wobei das erste Signal mindestens einen Klang repräsentiert, der von dem Außenmikrofon erfasst wird.
Das System nach Anspruch 17, wobei der digitale Signalprozessor ferner ausgebildet ist, das zweite Signal so zu verarbeiten, dass zweite Abschätzungen des Rauschens erhalten werden.
Das System nach Anspruch 19, wobei das Zuweisen des ersten Gewichts zu dem ersten Signal und des zweiten Gewichts zu dem zweiten Signal zumindest auf den ersten Abschätzungen des Rauschens und den zweiten Abschätzungen des Rauschens beruht.
Das System nach Anspruch 17, wobei die Verarbeitung, das Angleichen und das Mischen für Teilbänder im Frequenzbereich ausgeführt werden.
Das System nach Anspruch 17, wobei der digitale Signalprozessor ferner ausgebildet ist, eine Rauschunterdrückung für das erste Signal und das zweite Signal auszuführen.
Das System nach Anspruch 19, wobei der digitale Signalprozessor ferner ausgebildet ist zum: Ausführen, vor dem Angleichen und auf der Basis der ersten Abschätzungen des Rauschens, einer Rauschunterdrückung für das erste Signal; und Ausführen, vor dem Angleichen und auf der Grundlage der zweiten Abschätzungen des Rauschens, einer Rauschunterdrückung für das zweite Signal.
Das System nach Anspruch 19, wobei der digitale Signalprozessor ferner ausgebildet ist zum: Ausführen, nach dem Angleichen und auf der Grundlage der ersten Abschätzungen des Rauschens, einer Rauschunterdrückung für das erste Signal; und Ausführen, nach dem Angleichen und auf der Grundlage der zweiten Abschätzungen des Rauschens, einer Rauschunterdrückung für das zweite Signal.
Das System nach Anspruch 17, wobei das Angleichen umfasst: Anwenden eines spektralen Angleichungsfilters auf das zweite Signal.
Das System nach Anspruch 25, wobei der spektrale Angleichungsfilter einen empirisch abgeleiteten Filter und/oder einen adaptiven Filter beinhaltet, wobei der adaptive Filter auf der Grundlage einer Kreuzkorrelation des ersten Signals und des zweiten Signals und einer Autokorrelation des zweiten Signals berechnet ist.
Das System nach Anspruch 20, wobei das erste Gewicht einen größeren Wert als das zweite Gewicht erhält, wenn ein Signal-Rauschen-Verhältnis (SNR) des ersten Signals größer als ein SNR des zweiten Signals ist, und wobei das zweite Gewicht einen größeren Wert erhält als das erste Gewicht, wenn das SNR des ersten Signals kleiner ist als das SNR des zweiten Signals, wobei die Differenz zwischen dem ersten Gewicht und dem zweiten Gewicht der Differenz zwischen dem SNR des ersten Signals und dem SNR des zweiten Signals entspricht.
Ein nicht-flüchtiges computerlesbares Speichermedium, in welchem Befehle enthalten sind, die bei Ausführung durch mindestens einen Prozessor zur Ausführung von Schritten eines Verfahrens führen, wobei das Verfahren umfasst: Empfangen eines ersten Signals mit mindestens einer Sprachkomponente und eines zweiten Signals mit mindestens der Sprachkomponente, die zumindest durch menschliches Gewebe modifiziert ist; Verarbeiten des ersten Signals zum Erhalten erster Abschätzungen eines Rauschens; spektrales Angleichen der Sprachkomponente in dem zweiten Signal an die Sprachkomponente in dem ersten Signal; und Mischen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, des ersten Signals und der angeglichenen Sprachkomponente in dem zweiten Signal zur Erzeugung eines verbesserten Sprachsignals, wobei das Mischen umfasst: Zuweisen, auf der Grundlage zumindest der ersten Abschätzungen des Rauschens, eines ersten Gewichts zu dem ersten Signal und eines zweiten Gewichts zu dem zweiten Signal, und Mischen des ersten Signals und des zweiten Signals gemäß dem ersten Gewicht und dem zweiten Gewicht.