-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Audiosignalverarbeitung
und insbesondere auf die Erzeugung mehrerer Ausgangskanäle aus weniger
Eingangskanälen,
wie z. B. einem (mono) Kanal oder zwei (stereo) Eingangskanälen.
-
Multikanal-Audiomaterial
wird mehr und mehr populär.
Dies hat dazu geführt,
dass inzwischen auch viele Endbenutzer Multikanal-Wiedergabesysteme
besitzen. Dies ist hauptsächlich
darauf zurückzuführen, dass
DVDs immer populärer
werden, und dass daher auch viele Benutzer von DVDs inzwischen 5.1-Multikanal-Ausrüstungen
haben. Solche Wiedergabesysteme bestehen im allgemeinen aus drei
Lautsprechern L (Links), C (Center) und R (Rechts), die typischerweise
vor dem Benutzer angeordnet sind, und zwei Lautsprechern Ls und
Rs, die hinter dem Benutzer angeordnet sind, und typischerweise
noch aus einem LFE-Kanal, der auch Niederfrequenz-Effekt-Kanal oder
Subwoofer genannt wird. Ein solches Kanal-Szenario ist in 5b und
in 5c angedeutet. Während die Positionierung der
Lautsprecher L, C, R, Ls, Rs, bezüglich des Benutzers wie in
den 5b und 5c gezeichnet
vorgenommen werden sollte, damit der Benutzer einen möglichst
guten Höreindruck
bekommt, ist die Positionierung des LFE-Kanals (in 5b und 5c nicht
gezeigt) nicht so entscheidend, da das Ohr bei derart niedrigen
Frequenzen keine Lokalisierung vornehmen kann und der LFE-Kanal somit irgendwo,
wo er aufgrund seiner beträchtlichen
Größe nicht
stört,
angeordnet werden kann.
-
Ein
solches Mehrkanalsystem erzeugt mehrere Vorteile gegen über einer
typischen Stereo-Reproduktion, die eine Zweikanal-Reproduktion ist,
wie sie z. B. in 5a gezeigt ist.
-
Auch
außerhalb
der optimalen mittigen Hörposition
ergibt sich eine verbesserte Stabilität des vorderen Höreindrucks,
der auch als ”Front
Image” bezeichnet
wird, und zwar aufgrund des Mitten-Kanals. Es ergibt sich somit
ein größerer „Sweet-Spot”, wobei „Sweet
Spot” für die optimale
Hörposition
steht.
-
Ferner
hat der Zuhörer
ein besseres Gefühl
des ”Eintauchens” in die
Audioszene aufgrund der beiden hinteren Lautsprecher Ls und Rs.
-
Dennoch
existiert eine riesige Anzahl an im Besitz des Benutzers befindlichen
oder allgemein verfügbaren
Audiomaterials, das nur als Stereomaterial existiert, das also nur
zwei Kanäle
hat, nämlich
den linken Kanal und den rechten Kanal. Typische Tonträger für solche
Stereostücke
sind Kompakt-Disks.
-
Um
ein solches Stereomaterial über
eine 5.1-Multikanal-Audioanlage
abzuspielen, hat man zwei Optionen, die gemäß der ITU empfohlen werden.
-
Die
erste Option besteht darin, den linken und den rechten Kanal über den
linken und den rechten Lautsprecher des Multikanal-Wiedergabesystems
abzuspielen. Nachteilig an dieser Lösung ist jedoch, dass man die
Vielzahl der bereits bestehenden Lautsprecher nicht ausnutzt, dass
man also das Vorhandensein des Center-Lautsprechers und der beiden
hinteren Lautsprecher nicht vorteilhaft ausnutzt.
-
Eine
andere Option besteht darin, die zwei Kanäle in ein Multikanalsignal
umzuwandeln. Dies kann während
der Wiedergabe oder durch eine spezielle Vorverarbeitung geschehen,
welche alle sechs Lautsprecher des beispielsweise vorhandenen 5.1-Wiedergabesystems
vorteilhaft ausnutzt und damit zu einem verbesserten Höreindruck
führt,
wenn das Hochmischen oder der ”Upmix” von zwei
Kanälen
auf 5 bzw. 6 Kanäle fehlerfrei
durchgeführt
wird.
-
Nur
dann hat die zweite Option, also die Verwendung sämtlicher
Lautsprecher des Mehrkanalsystems einen Vorteil gegenüber der
ersten Lösung,
wenn man also keine Upmix-Fehler begeht. Solche Upmix-Fehler können insbesondere
störend
sein, wenn Signale für
die hinteren Lautsprecher, welche auch als Ambience-Signale oder
Umgebungssignale bekannt sind, nicht fehlerfrei erzeugt werden.
-
Eine
Möglichkeit,
diesen sogenannten Upmix-Prozess durchzuführen, ist unter dem Stichwort ”Direct Ambience-Konzept” bekannt.
Die Direktschallquellen werden durch die drei vorderen Kanäle derart
wiedergegeben, dass sie von dem Benutzer an der gleichen Position
wie in der ursprünglichen
Zweikanalversion wahrgenommen werden. Die ursprüngliche Zweikanalversion ist
in 5a schematisch dargestellt, und zwar am Beispiel
verschiedener Drum-Instrumente.
-
5b zeigt
eine hochgemischte Version des Konzepts, bei der alle ursprünglichen
Schallquellen, also die Drum-Instrumente
wieder von den drei vorderen Lautsprecher L, C und R wiedergegeben
werden, wobei zusätzlich
von den beiden hinteren Lautsprechern spezielle Umgebungssignale
ausgegeben werden. Der Ausdruck ”Direkt-Schallquelle” wird somit
dazu verwendet, um einen Ton zu beschreiben, der nur und direkt von
einer diskreten Schallquelle wie beispielsweise einem Drum-Instrument
oder einem anderen Instrument oder allgemein einem speziellen Audioobjekt
kommt, wie es schematisch z. B. in 5a anhand
eines Drum-Instruments dargestellt ist. Irgendwelche zusätzlichen
Töne, wie
beispielsweise aufgrund von Wandreflexionen etc. sind in einer solchen
Direktschallquelle nicht vorhanden. In diesem Szenario bestehen
die Schallsignale, die von den beiden hinteren Lautsprechern Ls,
Rs in 5b abgegeben werden, nur aus
Umgebungssignalen, die in der ursprünglichen Aufzeichnung vorhanden
sind oder nicht. Solche Umgebungssignale oder ”Ambience”-Signale gehören nicht
zu einer einzigen Schallquelle, sondern tragen zur Reproduktion
der Raumakus tik einer Aufzeichnung bei und führen somit zu dem sogenannten ”Eintauch”-Gefühl des Zuhörers.
-
Ein
weiteres Alternativkonzept, das als ”In-the-Band”-Konzept bezeichnet
ist, ist in 5c schematisch dargestellt.
Jeder Schalltyp, also Direktschallquellen und umgebungs-artige Töne werden
alle um den Zuhörer
herum positioniert. Die Position eines Tons ist unabhängig von
seiner Charakteristik (Direktschallquellen oder umgebungsartige
Töne) und
hängt nur
von dem spezifischen Entwurf des Algorithmus ab, wie es z. B. in 5c dargestellt
ist. So wurde in 5c durch den Upmix-Algorithmus
bestimmt, dass die beiden Instrumente 1100 und 1102 seitlich
bezüglich
des Zuhörers
positioniert werden, während
die beiden Instrumente 1104 und 1106 vor dem Benutzer
positioniert werden. Dies führt
dazu, dass die beiden hinteren Lautsprecher Ls, Rs nunmehr auch
Anteile der beiden Instrumente 1100 und 1102 enthalten
und nicht mehr nur umgebungs-artige Töne, wie es bei 5b noch
der Fall war, wo dieselben Instrumente alle vor dem Benutzer positioniert
worden sind.
-
Die
Fachveröffentlichung ”C. Avendano
und J. M. Jot: ”Ambience
Extraction and Synthesis from Stereo Signals for Multichannel Audio
Upmix”,
IEEE International Conference an Acoustics, Speech and Signal Processing,
ICASSP 02, Orlando, Fl, May 2002” offenbart eine Frequenzbereichstechnik,
um Umgebungsinformationen in Stereo-Audiosignalen zu identifizieren
und zu extrahieren. Dieses Konzept basiert auf der Berechnung einer
Inter-Kanal-Kohärenz
und einer nichtlinearen Abbildungsfunktion, die es erlauben soll,
Zeit Frequenz-Regionen in dem Stereosignal zu bestimmen, die hauptsächlich aus
Umgebungs-Komponenten bestehen. Umgebungssignale werden dann synthetisiert
und verwendet, um die hinteren Kanäle oder ”Surround”-Kanäle Ls, Rs (10 und 11) eines Multikanal-Wiedergabesystems
zu speichern.
-
In
der Fachveröffentlichung ”R. Irwan
und Ronald M. Aarts: ”A
method to convert stereo to multi-channel sound”, The proceedings of the AES
19th International Conference, Schloss Elmau, Deutschland, Juni 21–24, Seiten
139–143,
2001” wird
ein Verfahren präsentiert,
um ein Stereosignal in ein Multikanalsignal umzuwandeln. Das Signal
für die
Surround-Kanäle
wird unter Verwendung einer Kreuzkorrelationstechnik berechnet.
Eine Hauptkomponentenanalyse (PCA; PCA = Principle Component Analysis)
wird verwendet, um einen Vektor zu berechnen, der eine Richtung
des dominanten Signals anzeigt. Dieser Vektor wird dann von einer Zwei-Kanal-Darstellung
auf eine Drei-Kanal-Darstellung abgebildet, um die drei vorderen
Kanäle
zu erzeugen.
-
Alle
bekannten Techniken versuchen auf verschiedene Arten und Weisen
die Ambience-Signale bzw. Umgebungssignale aus dem ursprünglichen
Stereosignal zu extrahieren oder sogar aus Rauschen bzw. weiteren
Informationen zu synthetisieren, wobei zur Synthese der Ambience-Signale
auch Informationen, welche nicht im Stereosignal sind, verwendet
werden können.
Letztendlich geht es jedoch immer darum, Informationen aus dem Stereosignal
zu extrahieren bzw. Informationen in ein Wiedergabe-Szenario einzuspeisen,
die nicht explizit vorliegen, da typischerweise nur ein Zweikanal-Stereosignal
und gegebenenfalls irgendwelche Zusatzinformationen bzw. Metainformationen
zur Verfügung
stehen.
-
Nachfolgend
wird auf weitere bekannte Upmix- bzw. Hochmisch-Verfahren eingegangen,
die ohne Steuerparameter arbeiten. Solche Hochmisch-Verfahren werden
auch als Blind-Hochmischverfahren
oder „Blind-Upmixing”-Verfahren
bezeichnet.
-
Die
meisten derartigen Techniken, um aus einem Monokanal ein so genanntes
Pseudo-Stereophonie-Signal zu erzeugen (also ein 1-auf-2-Upmix),
sind nicht signaladaptiv. Dies bedeutet, dass sie ein Monosignal
immer gleich verarbeiten, unabhängig
davon, welcher Inhalt in dem Monosignal enthalten ist. Solche Systeme
arbeiten oft mit einfachen Filterstrukturen und/oder Zeitverzögerungen,
um die erzeugten Signale zu dekorrelieren, beispielsweise durch
Verarbeiten des Einkanal-Eingangssignals durch ein Paar von so genannten komplementären Kammfiltern,
wie es in M. Schroeder, „An
artificial stereophonic effect obtained from using a single signal”, JAES,
1957, beschrieben ist. Ein weiterer Überblick solcher Systeme findet
sich in C. Faller, „Pseudo
stereophony revisited”,
Proceedings of the AES 118nd Convention, 2005.
-
Darüber hinaus
existiert auch die Technik der Umgebungssignal-Extraktion (Ambiente
Extraktion) unter Verwendung einer nicht-negativen Matrixfaktorisierung,
insbesondere im Kontext eines 1-auf-N-Upmix, wobei N größer als
zwei ist. Hier wird eine Zeit-Frequenz-Verteilung (TFD; TFD = timefrequency
distribution) des Eingangssignals berechnet, beispielsweise mittels
einer Kurzzeit-Fourier-Transformation.
Ein Schätzwert
der TFD der Direktsignal-Komponenten
wird mittels eines numerischen Optimierungsverfahrens abgeleitet,
das als nicht-negative Matrixfaktorisierung bezeichnet wird. Ein
Schätzwert
für die
TFD des Umgebungssignals wird durch Berechnen der Differenz der
TFD des Eingangssignals und des Schätzwerts der TFD für das Direktsignal
bestimmt. Die Re-Synthese bzw. Synthese des Zeitsignals des Umgebungssignals
wird unter Verwendung des Phasenspektrogramms des Eingangssignals
ausgeführt.
Eine zusätzliche
Nachverarbeitung wird optional durchgeführt, um die Hörerfahrung
des erzeugten Multikanalsignals zu verbessern. Dieses Verfahren
ist ausführlich
in C. Uhle, A. Walther, O. Hellmuth und J. Herre in „Ambiente
separation from mono recordings using non-negative matrix factorization”, Proceedings
of the AES 30th Conference 2007, beschrieben.
-
Beim
Hochmischen von Stereoaufzeichnungen existieren verschiedene Techniken.
Eine Technik besteht in der Verwendung von Matrix-Decodierern. Matrix-Decodierer
sind unter dem Stichwort Dolby Pro Logic II, DTS Neo: 6 oder HarmanKardon/Lexicon
Logic 7 bekannt und in nahezu jedem Au dio/Video-Empfänger enthalten,
der heutzutage verkauft wird. Als Nebenprodukt ihrer beabsichtigten
Funktionalität
sind diese Verfahren auch in der Lage, ein blindes Hochmischen durchzuführen. Diese
Decodierer verwenden Interkanal-Differenzen
und signaladaptive Steuermechanismen, um Multikanal-Ausgangssignale
zu erzeugen.
-
Wie
es bereits dargelegt worden ist, werden auch Frequenzbereichs-Techniken
verwendet, die von Avendano und Jot beschrieben worden sind, um
die Umgebungs-Information (ambience information) in Stereoaudiosignalen
zu identifizieren und zu extrahieren. Dieses Verfahren basiert auf
der Berechnung eines Interkanal-Kohärenz-Index und einer nichtlinearen
Abbildungsfunktion, wodurch es ermöglicht wird, die Zeit-Frequenz-Regionen
zu bestimmen, die hauptsächlich
aus Umgebungssignal-Komponenten bestehen. Die Umgebungssignale werden
nachfolgend synthetisiert und verwendet, um die Surround-Kanäle des Multikanal-Wiedergabesystems
zu speisen.
-
Ein
Bestandteil des Direkt/Umgebungs-Hochmisch-Prozesses besteht in
der Extraktion eines Umgebungssignals, das in die beiden hinteren
Kanäle
Ls, Rs eingespeist wird. Es existieren bestimmte Anforderungen an
ein Signal, dass es als umgebungsartiges Signal im Kontext eines
Direkt/Umgebungs-Hochmisch-Prozesses verwendet wird. Eine Voraussetzung
besteht darin, dass keine relevanten Teile der Direktschallquellen hörbar sein
sollen, um die Direktschallquellen sicher vor dem Hörer lokalisieren
zu können.
Dies ist besonders dann wichtig, wenn das Audiosignal Sprache oder
einen oder mehrere unterscheidbare Sprecher. enthält. Sprachsignale,
die dagegen von einer Menschenmenge erzeugt werden, müssen nicht
unbedingt den Hörer stören, wenn
sie nicht vor dem Hörer
lokalisiert sind.
-
Wenn
eine spezielle Menge an Sprachkomponenten durch die hinteren Kanäle reproduziert
werden würde,
würde dies
dazu führen,
dass die Position des oder der wenigen Sprecher von vorne nach hinten
bzw. ein Stück
weit zum Benutzer oder sogar hinter den Benutzer platziert wird,
was in einer sehr störenden
Schallwahrnehmung resultiert. Besonders in dem Fall, in dem Audio-
und Videomaterial gleichzeitig dargeboten wird, wie beispielsweise
in einem Kino, ist ein solcher Eindruck besonders störend.
-
Eine
Grundvoraussetzung für
das Tonsignal eines Kinofilms (eines Soundtracks) besteht darin,
dass der Höreindruck
mit dem Eindruck konform gehen soll, der durch die Bilder erzeugt
wird. Hörbare
Hinweise zur Lokalisation sollten also nicht zu sichtbaren Hinweisen
zur Lokalisation im Gegensatz stehen. Folglich sollte die entsprechende
Sprache dann, wenn ein Sprecher auf dem Bildschirm zu sehen ist,
ebenfalls vor dem Benutzer platziert sein.
-
Dasselbe
gilt für
alle anderen Audiosignale, d. h. ist nicht unbedingt auf Situationen
begrenzt, bei denen gleichzeitig Audiosignale und Videosignale dargeboten
werden. Solche anderen Audiosignale sind beispielsweise Rundfunksignale
oder Hörbücher. Ein
Hörer ist
daran gewöhnt,
dass Sprache von den vorderen Kanälen erzeugt wird, wobei er
sich dann, wenn auf einmal Sprache von den hinteren Kanälen kommen
würde, wahrscheinlich
umdrehen würde,
um seinen üblichen
Eindruck wiederherzustellen.
-
Um
die Qualität
der Umgebungssignale zu verbessern, wird in der deutschen Patentanmeldung
DE 10 2006 017 280.9-55 vorgeschlagen,
ein einmal extrahiertes Umgebungssignal einer Transientendetektion
zu unterziehen und eine Transientenunterdrückung herbeizuführen, ohne
wesentliche Einbußen
an Energie in dem Umgebungssignal zu erreichen. Hierzu wird eine
Signalsubstitution vorgenommen, um Bereiche mit Transienten durch
entsprechende Signale ohne Transienten, jedoch mit annähernd der
gleichen Energie, zu ersetzen.
-
Das
AES Convention Paper „Descriptor-based
specialization”,
J. Monceaux, F. Pachet, u. a., 28.–31. Mai 2005, Barcelo na, Spanien,
offenbart eine deskriptorenbasierte Spatialisierung, bei der auf
der Basis von extrahierten Deskriptoren detektierte Sprache gedämpft werden
soll, indem nur der Mitte-Kanal stumm geschaltet wird. Hierzu wird
ein Sprachextraktor verwendet. Eine Anschlag- und Einschwingzeit
werden verwendet, um Modifikationen des Ausgangssignals zu glätten. So
kann ein Multikanal-Soundtrack ohne Sprache aus einem Film extrahiert
werden. Wenn eine bestimmte Stereo-Nachhalleigenschaft in dem ursprünglichen
Stereo-Downmixsignal
vorhanden ist, führt
dies dazu, dass ein Hochmisch-Tool diesen Nachhall auf jeden Kanal mit
Ausnahme des Mitten-Kanals verteilt, so dass ein Nachhall zu hören ist.
Um dies zu unterbinden, wird eine dynamische Pegelsteuerung für L, R,
Ls und Rs durchgeführt,
um den Nachhall einer Stimme zu dämpfen.
-
Die
WO 2007/096792 A1 offenbart
eine Vorrichtung zum Verarbeiten von Audiodaten, die eine Klassifikationseinheit
aufweist, die angepasst ist, um die Audiodaten zu klassifizieren.
Abhängig
von den Klassifizierungsinformationen wird eine Reproduktionskonfiguration
gesteuert, und wird eine Audiodatenverarbeitung durchgeführt, um
verarbeitete Audiodaten zu erhalten, die abhängig von einer entsprechenden
Klassifizierung unterschiedlich verarbeitet worden sind. Ferner
können
Abstrahlmuster von Schallquellen in einer Klasse, die in einer speziellen
Anwendung verwendet werden, in einem Labor gemessen werden. Diese
Informationen können
verwendet werden, um Klassen einem Audioinhalt zuzuweisen. Beispielhaft
können
skalierte und verzögerte
Versionen des Audiosignals über
die Lautsprecher abgestrahlt werden, wobei vorher unter Verwendung
von Dekorrelationstechniken, wie beispielsweise einer Lauridsen-Dekorrelation,
ein Hochmischen des Audiosignals in mehrere Kanäle durchgeführt werden kann.
-
Die
US 2007/0041592 A1 offenbart
ein Verfahren zum Trennen von Quellen in einem Stereosignal mit einem
linken Kanal und einem rechten Kanal, wo zunächst versucht wird, einen Stereo-Mix
rückgängig zu
machen, um dann die daraus erhaltenen Quellensignale in einen Multikanal-Mix
umzusetzen.
-
Die
EP 1 021 063 A2 offenbart
eine Audiosignalverarbeitungseinrichtung mit einer Sprachtrenneinrichtung,
welche ausgangsseitig ein Signal ohne Sprache und ein Signal mit
Sprache erzeugt. Das Signal mit Sprache wird zu einem Center-Lautsprecher übertragen,
während
das Signal ohne Sprache in einen Multikanal-Emulator gebracht wird,
welcher ausgangsseitig Signale für
Lautsprecher L, R, Ls, Rs liefert.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum
Erzeugen eines Multikanalsignals mit einer Anzahl von Ausgangskanälen zu schaffen,
das einerseits flexibel und andererseits ein qualitativ hochwertiges
Produkt liefert.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Multikanalsignals
gemäß Patentanspruch
1, ein Verfahren zum Erzeugen eines Multikanalsignals gemäß Anspruch
22 oder ein Computerprogramm gemäß Patentanspruch
23 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass Sprachkomponenten
in den hinteren Kanälen,
also in den Umgebungskanälen
unterdrückt
werden, damit die hinteren Kanäle
sprachkomponentenfrei sind. Hierzu wird ein Eingangssignal mit einem
oder mehreren Kanälen
hoch gemischt, um einen Direktsignalkanal zu liefern und um einen
Umgebungssignalkanal oder je nach Implementierung bereits den modifizierten
Umgebungssignalkanal zu liefern. Ein Sprachdetektor ist vorgesehen,
um in dem Eingangssignal, dem Direktkanal oder dem Umgebungskanal
nach Sprachkomponenten zu suchen, wobei solche Sprachkomponenten
in zeitlichen und/oder frequenzmäßigen Abschnitten
oder auch in Bestandteilen einer orthogonalen Zerlegung beispielsweise
auftreten können.
Ein Signalmodifizierer ist vorgesehen, um das vom Hochmischer erzeugte
Direktsignal oder eine Kopie des Eingangssignals dahin gehend zu
modifizieren, dass dort die Sprachsignalkomponenten unterdrückt werden,
während
die Direktsignalkomponenten in den entsprechenden Abschnitten, die
Sprachsignalkomponenten umfassen, weniger oder nicht gedämpft werden.
Ein solches modifiziertes Umgebungskanalsignal wird dann zur Erzeugung
von Lautsprechersignalen für
entsprechende Lautsprecher verwendet.
-
Wurde
jedoch das Eingangssignal modifiziert, so wird das vom Hochmischer
erzeugte Umgebungssignal direkt verwendet, da dort bereits die Sprachkomponenten
unterdrückt
sind, da das das zugrunde liegende Audiosignal ebenfalls bereits
unterdrückte
Sprachkomponenten hatte. In diesem Fall wird jedoch dann, wenn der
Hochmisch-Prozess auch einen Direktkanal erzeugt, der Direktkanal
nicht auf der Basis des modifizierten Eingangssignals berechnet,
sondern auf der Basis des unmodifizierten Eingangssignals, um zu
erreichen, dass selektiv die Sprachkomponenten unterdrückt werden,
und zwar nur in dem Umgebungskanal, nicht jedoch in dem Direktkanal,
in dem die Sprachkomponenten ja ausdrücklich erwünscht sind.
-
Damit
wird verhindert, dass eine Reproduktion von Sprachkomponenten in
den hinteren Kanälen
bzw. Umgebungssignalkanälen
stattfindet, die ansonsten den Zuhörer stören oder sogar verwirren würde. Folglich wird
erfindungsgemäß sichergestellt,
dass Dialoge und andere Sprache, die von einem Zuhörer verstehbar
ist, die also eine Spektralcharakteristik hat, die für Sprache
typisch ist, vor dem Zuhörer
platziert wird.
-
Dieselben
Anforderungen existieren auch für
das In-Band-Konzept,
bei dem ebenfalls erwünscht
wird, dass Direktsignale nicht in den hinteren Kanälen platziert
werden, son dern vor den Zuhörer
und gegebenenfalls seitlich vom Zuhörer, jedoch nicht hinter dem
Zuhörer,
wie es in 5c gezeigt ist, bei dem die
Direktsignalkomponenten (und auch die Umgebungssignalkomponenten)
alle vor dem Hörer
platziert sind.
-
Erfindungsgemäß wird also
eine signalabhängige
Verarbeitung vorgenommen, um die Sprachkomponenten in den hinteren
Kanälen
bzw. in dem Umgebungssignal zu entfernen oder zu unterdrücken. Hierzu
werden zwei wesentliche Schritte vorgenommen, nämlich das Erfassen des Auftretens
von Sprache und das Unterdrücken
von Sprache, wobei das Erfassen des Auftretens von Sprache im Eingangssignal,
im Direktkanal oder im Umgebungskanal vorgenommen werden kann, und
wobei das Unterdrücken
von Sprache im Umgebungskanal direkt oder indirekt im Eingangssignal
vorgenommen werden kann, das dann verwendet wird, um den Umgebungskanal
zu erzeugen, wobei dieses modifizierte Eingangssignal nicht dazu
verwendet wird, um den Direktkanal zu erzeugen.
-
Erfindungsgemäß wird also
erreicht, dass dann, wenn man ein Multikanal-Surround-Signal aus
einem Audiosignal mit weniger Kanälen erzeugt, welches Sprachkomponenten
enthält,
sichergestellt wird, dass die resultierenden Signale für die vom
Benutzer aus gesehen hinteren Kanäle eine minimale Menge an Sprache umfassen,
um das ursprüngliche
Ton-Bild vor dem Benutzer (Front-Image) zu erhalten. Wenn eine spezielle Menge
an Sprachkomponenten durch die hinteren Kanäle reproduziert werden würde, würde die
Position der Sprecher außerhalb
des vorderen Bereichs positioniert werden, und zwar irgendwo zwischen
dem Zuhörer
und den vorderen Lautsprechern oder in extremen Fällen sogar
hinter dem Zuhörer.
Dies würde
in einer sehr störenden
Schallwahrnehmung resultieren, besonders wenn die Audiosignale gleichzeitig
mit visuellen Signalen dargeboten werden, wie es beispielsweise
in Filmen der Falls ist. Daher enthalten viele Multikanal-Film-Soundtracks
kaum Sprachkomponenten in den hinteren Kanälen. Erfindungsgemäß werden
Sprachsignal komponenten detektiert und an geeigneter Stelle unterdrückt.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf
die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
-
1 ein
Blockschaltbild eines Ausführungsbeispiels
der vorliegenden Erfindung;
-
2 eine
Zuordnung von Zeit/Frequenz-Abschnitten eines Analysesignals und
eines Umgebungskanals bzw. Eingangssignals zur Erläuterung
der „entsprechenden
Abschnitte”;
-
3 eine
Umgebungssignalmodifikation gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung;
-
4 eine
Kooperation zwischen einem Sprachdetektor und einem Umgebungssignalmodifizierer
gemäß einem
weiteren Ausführungsbeispiel
der vorliegenden Erfindung;
-
5a ein
Stereo-Wiedergabe-Szenario mit Direktquellen (Schlaginstrumenten)
und diffusen Komponenten;
-
5b ein
Multikanal-Wiedergabe-Szenario, bei dem alle Direktschaltquellen
durch die vorderen Kanäle
wiedergegeben werden und diffuse Komponenten durch alle Kanäle wiedergegeben
werden, wobei dieses Szenario auch als Direkt-Umgebung-Konzept bezeichnet
wird;
-
5c ein
Multikanal-Wiedergabe-Szenario, bei dem diskrete Schaltquellen auch
durch hintere Kanäle
zumindest teilweise wiedergegeben werden können und bei dem Umgebungskanäle nicht
oder weniger als in 5b durch die hinteren Lautsprecher
wiedergegeben werden;
-
6a ein
weiteres Ausführungsbeispiel
mit einer Sprachdetektion im Umgebungskanal und einer Modifikation
des Umgebungskanals;
-
6b ein
Ausführungsbeispiel
mit Sprachdetektion im Eingangssignal und Modifikation des Umgebungskanals;
-
6c ein
Ausführungsbeispiel
mit einer Sprachdetektion im Eingangssignal und einer Modifikation des
Eingangssignals;
-
6d ein
weiteres Ausführungsbeispiel
mit einer Sprachdetektion im Eingangssignal und einer Modifikation
im Umgebungssignal, wobei die Modifikation speziell auf die Sprache
abgestimmt ist;
-
7 ein
Ausführungsbeispiel
mit bandweiser Verstärkungsfaktorberechnung
basierend auf einem Bandpasssignal/Subbandsignal; und
-
8 eine
detailliertere Darstellung eines Verstärkungsberechnungsblocks von 7.
-
1 zeigt
ein Blockschaltbild einer Vorrichtung zum Erzeugen eines Multikanalsignals 10,
das in 1 derart gezeigt ist, dass es einen linken Kanal
L, einen rechten Kanal R, einen Mitte-Kanal C, einen LFE-Kanal,
einen linken hinteren Kanal LS und einen rechten hinteren Kanal
RS aufweist. Es sei darauf hingewiesen, dass die vorliegende Erfindung
jedoch auch für
beliebige andere Darstellungen als für diese gewählte 5.1-Darstellung geeignet
ist, beispielsweise für
eine 7.1-Darstellung oder auch für
eine 3.0-Darstellung, wobei hier nur ein linker Kanal, ein rechter
Kanal und ein Mitte-Kanal erzeugt wird. Das Multi kanalsignal 10 mit den
beispielsweise sechs Kanälen,
die in 1 gezeigt sind, wird aus einem Eingangssignal 12 bzw. „x” erzeugt,
das eine Anzahl von Eingangskanälen
hat, wobei die Anzahl von Eingangskanälen 1 oder größer als
1 ist und beispielsweise gleich 2 ist, wenn ein Stereo-Downmix eingegeben
wird. Generell ist jedoch die Anzahl der Ausgangskanäle größer als
die Anzahl der Eingangskanäle.
-
Die
in 1 gezeigte Vorrichtung umfasst einen Hochmischer 14 zum
Hochmischen des Eingangssignals 12, um wenigstens einen
Direktsignalkanal 15 und einen Umgebungssignalkanal 16 oder
gegebenenfalls einen modifizierten Umgebungssignalkanal 16' zu erzeugen.
Ferner ist ein Sprachdetektor 18 vorgesehen, der ausgebildet
ist, um als Analysesignal das Eingangssignal 12 zu verwenden,
wie es bei 18a vorgesehen ist, oder um den Direktsignalkanal 15 zu
verwenden, wie es bei 18b vorgesehen ist, oder um ein anderes Signal
zu verwenden, das im Hinblick auf das zeitliche/frequenzmäßige Auftreten
bzw. im Hinblick auf seine Charakteristik, was Sprachkomponenten
betrifft, ähnlich
zum Eingangssignal 12 ist. Der Sprachdetektor detektiert
einen Abschnitt des Eingangssignals, des Direktkanals oder z. B.
auch des Umgebungskanals, wie es bei 18c dargestellt ist,
in dem ein Sprachanteil auftritt. Dieser Sprachanteil kann ein signifikanter
Sprachanteil sein, also z. B. ein Sprachanteil, dessen Spracheigenschaft
abhängig
von einem bestimmten qualitativen oder quantitativen Maß abgeleitet
worden ist, wobei das qualitative Maß und das quantitative Maß eine Schwelle überschreitet,
die auch als Spracherfassungsschwelle bezeichnet wird.
-
Bei
einem quantitativen Maß wird
eine Spracheigenschaft mit einem numerischen Wert quantifiziert, und
dieser numerische Wert wird mit einer Schwelle verglichen. Bei einem
qualitativen Maß wird
eine Entscheidung pro Abschnitt vorgenommen, die durch eines oder
mehrere Entscheidungskriterien vorgenommen werden kann. Solche Entscheidungskriterien
können
beispielsweise verschiedene quantitative Merkmale sein, die untereinander
verglichen/gewichtet oder irgendwie verarbeitet werden, um zu einer
Ja/Nein-Entscheidung zu kommen.
-
Die
in 1 gezeigte Vorrichtung umfasst ferner einen Signalmodifizierer 20,
der ausgebildet ist, um das ursprüngliche Eingangssignal zu modifizieren,
wie es bei 20a gezeigt ist, oder der ausgebildet ist, um
den Umgebungskanal 16 zu modifizieren. Wenn der Umgebungskanal 16 modifiziert
wird, gibt der Signalmodifizierer 20 einen modifizierten
Umgebungskanal 21 aus, während dann, wenn das Eingangssignal 20a modifiziert wird,
ein modifiziertes Eingangssignal 20b zum Hochmischer 14 ausgegeben
wird, der dann den modifizierten Umgebungskanal 16' z. B. durch
denselben Hochmischvorgang erzeugt, der für den Direktkanal 15 verwendet worden
ist. Sollte dieser Hochmischprozess aufgrund des modifizierten Eingangssignals 20b ebenfalls
zu einem Direktkanal führen,
so würde
dieser Direktkanal verworfen werden, da als Direktkanal ein Direktkanal
erfindungsgemäß verwendet
wird, der von dem unmodifizierten (ohne Sprachunterdrückung) Eingangssignal 12 und
nicht von dem modifizierten Eingangssignal 20b abgeleitet
worden ist.
-
Der
Signalmodifizierer ist ausgebildet, um Abschnitte des wenigstens
einen Umgebungskanals oder des Eingangssignals zu modifizieren,
wobei diese Abschnitte zeitliche oder frequenzmäßige Abschnitte oder Anteile
einer orthogonalen Zerlegung beispielsweise sein können. Insbesondere
werden die Abschnitte modifiziert, die den Abschnitten entsprechen,
die von dem Sprachdetektor detektiert worden sind, so dass der Signalmodifizierer,
wie es dargestellt worden ist, den modifizierten Umgebungskanal 21 oder
das modifizierte Eingangssignal 20b erzeugt, in dem ein
Sprachanteil gedämpft
oder eliminiert ist, wobei der Sprachanteil in dem entsprechenden
Abschnitt des Direktkanals weniger oder am besten überhaupt
nicht gedämpft
worden ist.
-
Darüber hinaus
umfasst die in 1 gezeigte Vorrichtung eine
Lautsprechersignalausgabeeinrichtung 22 zum Ausgeben von
Lautsprechersignalen in einem Wiedergabeszenario, wie beispielsweise
dem in 1 beispielhaft gezeigten 5.1-Szenario, wobei jedoch auch ein 7.1-Szenario,
ein 3.0-Szenario
oder ein anderes oder noch höheres
Szenario ebenfalls möglich
ist. Insbesondere werden zum Erzeugen der Lautsprechersignale für ein Wiedergabeszenario
der wenigstens eine Direktkanal und der wenigstens eine modifizierte
Umgebungskanal verwendet, wobei der modifizierte Umgebungskanal
entweder vom Signalmodifizierer 20 stammen kann, wie es
bei 21 gezeigt ist, oder vom Hochmischer 14 stammen
kann, wie es bei 16' gezeigt
ist.
-
Wenn
beispielsweise zwei modifizierte Umgebungskanäle 21 geliefert werden,
so könnten
diese beiden modifizierten Umgebungskanäle direkt in die beiden Lautsprechersignale
Ls, Rs eingespeist werden, während
die Direktkanäle
nur in die drei vorderen Lautsprecher L, R, C eingespeist werden,
so dass eine komplette Aufteilung zwischen Umgebungssignalkomponenten
und Direktsignalkomponenten stattgefunden hat. Die Direktsignalkomponenten
befinden sich dann alle vor dem Benutzer und die Umgebungssignalkomponenten
befinden sich alle hinter dem Benutzer. Alternativ können auch
Umgebungssignalkomponenten typischerweise zu einem kleineren Prozentsatz
auch in die vorderen Kanäle
eingebracht werden, so dass z. B. das in 5b gezeigte
Direkt/Umgebungs-Szenario
entsteht, bei dem nicht nur von Surround-Kanälen Umgebungssignale erzeugt
werden, sondern auch von den vorderen Lautsprechern z. B. L, C,
R.
-
Wird
dagegen das In-Band-Szenario bevorzugt, so werden Umgebungssignalkomponenten
ebenfalls hauptsächlich
von den vorderen Lautsprechern z. B. L, R, C ausgegeben, wobei jedoch
auch Direktsignalkomponenten zumindest teilweise in die beiden hinteren
Lautsprecher Ls, Rs eingespeist werden. Um nämlich eine Platzierung der
beiden Direktsignalquellen 1100 und 1102 in 5c an
den gezeigten Orten zu erreichen, wird der Anteil der Quelle 1100 im
Lautsprecher L etwa genauso groß sein
wie im Lautsprecher Ls, damit gemäß einer typischen Panning-Regel
die Quelle 1100 in der Mitte zwischen L und Ls platziert
werden kann. Die Lautsprechersignalausgabeeinrichtung 22 kann
somit je nach Implementierung ein direktes Durchleiten eines eingangsseitig
eingespeisten Kanals bewirken oder kann eine Abbildung der Umgebungskanäle und der
Direktkanäle,
beispielsweise durch ein In-Band-Konzept oder ein Direkt/Umgebungs-Konzept
vornehmen, derart, dass eine Verteilung der Kanäle auf die einzelnen Lautsprecher
stattfindet und letztendlich, um das tatsächliche Lautsprechersignal
zu erzeugen, eine Aufsummation der Anteile aus den einzelnen Kanälen erfolgen
kann.
-
2 zeigt
eine Zeit/Frequenz-Aufteilung eines Analysesignals im oberen Abschnitt
und eines Umgebungskanals oder Eingangssignals in einem unteren
Abschnitt. Insbesondere ist entlang der horizontalen Achse die Zeit
aufgetragen und ist entlang der vertikalen Achse die Frequenz aufgetragen.
Dies bedeutet, dass in 2 für jedes Signal 15 Zeit/Frequenz-Kacheln
oder Zeit/Frequenz-Abschnitte gezeichnet sind, die im Analysesignal
und im Umgebungskanal/Eingangssignal die gleiche Nummer haben. Dies
bedeutet, dass der Signalmodifizierer 20 z. B. dann, wenn
der Sprachdetektor 18 im Abschnitt 22 ein Sprachsignal
detektiert, den Abschnitt des Umgebungskanals/Eingangssignals irgendwie
verarbeitet, wie beispielsweise dämpft, komplett eliminiert oder
durch ein Synthesesignal substituiert, das keine Spracheigenschaft
hat. Es sei darauf hingewiesen, dass bei der vorliegenden Erfindung
die Aufteilung nicht so selektiv sein muss, wie es in 2 gezeigt ist.
Stattdessen kann auch bereits eine zeitliche Detektion einen zufrieden
stellenden Effekt liefern, wobei dann ein bestimmter zeitlicher
Abschnitt des Analysesignals, beispielsweise von Sekunde 2 zu Sekunde
2,1 als Sprachsignal enthaltend detektiert wird, um dann den Abschnitt
des Umgebungskanals oder des Eingangssignals ebenfalls zwischen
Sekunde 2 und 2,1 zu verarbeiten, um eine Sprachunterdrückung zu
erreichen.
-
Alternativ
kann auch eine orthogonale Zerlegung durchgeführt werden, z. B. mittels einer
Hauptkomponentenanalyse, wobei dann sowohl im Umgebungskanal oder
Eingangssignal als auch im Analysesignal dieselbe Komponentenzerlegung
verwendet wird. Dann werden bestimmte Komponenten, die als Sprachkomponenten
im Analysesignal detektiert worden sind, im Umgebungskanal bzw.
Eingangssignal gedämpft
oder komplett unterdrückt
bzw. eliminiert. Es wird also je nach Implementierung ein Abschnitt
im Analysesignal detektiert, wobei dann dieser Abschnitt nicht unbedingt
im Analysesignal, sondern gegebenenfalls auch in einem anderen Signal
verarbeitet wird.
-
3 zeigt
eine Implementierung eines Sprachdetektors in Kooperation mit einem
Umgebungskanalmodifizierer, wobei der Sprachdetektor lediglich eine
Zeitinformation liefert, also, wenn 2 betrachtet
wird, lediglich breitbandig den ersten, zweiten, dritten, vierten
oder fünften
Zeitabschnitt identifiziert und diese Information dem Umgebungskanalmodifizierer 20 über eine
Steuerleitung 18d (1) mitteilt.
Der Sprachdetektor 18 und der Umgebungskanalmodifizierer 20,
die synchron arbeiten oder die gepuffert arbeiten, erreichen zusammen,
dass in dem zu modifizierenden Signal, das beispielsweise das Signal 12 oder
das Signal 16 sein kann, das Sprachsignal bzw. die Sprachkomponente
gedämpft
ist, während
sichergestellt wird, dass eine solche Dämpfung des entsprechenden Abschnitts
im Direktkanal nicht oder nur weniger auftritt. Je nach Implementierung
kann dies dadurch erreicht werden, dass der Hochmischer 14 ohne
Rücksicht
auf Sprachkomponenten arbeitet, wie beispielsweise in einem Matrixverfahren
oder in einem anderen Verfahren, das keine spezielle Sprachverarbeitung
durchführt.
Das dadurch gewonnene Direktsignal wird dann ohne weitere Verarbeitung
der Ausgabeeinrichtung 22 zugeführt, während das Umgebungssignal im
Hinblick auf eine Sprachunterdrückung
verarbeitet wird.
-
Alternativ
kann dann, wenn der Signalmodifizierer das Eingangssignal einer
Sprachunterdrückung
unterzieht, der Hochmischer 14 gewissermaßen zweimal
arbeiten, um einerseits auf der Basis des ursprünglichen Eingangssignals die
Direktkanalkomponente zu extrahieren, um aber auf der Basis des
modifizierten Eingangssignals 20b den modifizierten Umgebungskanal 16' zu extrahieren.
Hier würde
derselbe Hochmisch-Algorithmus zweimal ablaufen, jedoch unter Verwendung
eines jeweils anderen Eingangssignals, wobei in dem einen Eingangssignal
die Sprachkomponente gedämpft
ist und im anderen Eingangssignal die Sprachkomponente nicht gedämpft ist.
-
Je
nach Implementierung hat der Umgebungskanalmodifizierer eine Funktionalität einer
Breitbanddämpfung
oder eine Funktionalität
einer Hochpassfilterung, wie es nachfolgend noch dargelegt wird.
-
Nachfolgend
werden anhand der 6a, 6b, 6c und 6d verschiedene
Implementierungen der erfindungsgemäßen Vorrichtung dargelegt.
-
In 6a wird
das Umgebungssignal a aus dem Eingangssignal x extrahiert, wobei
diese Extraktion ein Teil der Funktionalität des Hochmischens 14 ist.
Das Auftreten von Sprache wird in dem Umgebungssignal a detektiert.
Das Detektionsergebnis d wird im Umgebungskanalmodifizierer 20 verwendet,
der das modifizierte Umgebungssignal 21 berechnet, in dem
Sprachanteile unterdrückt
sind.
-
6b zeigt
eine zur 6a dahin gehend unterschiedliche
Konfiguration, dass das Eingangssignal und nicht das Umgebungssignal
dem Sprachdetektor 18 als Analysesignal 18a zugeführt wird.
Insbesondere wird das modifizierte Umgebungskanalsignal as ähnlich
der Konfiguration von 6a berechnet, wobei jedoch die
Sprache im Eingangssignal, detektiert wird. Dies wird dadurch motiviert,
dass die Sprachkomponenten im Allgemeinen im Eingangssignal x deut licher
auffindbar sind als im Umgebungssignal a. Somit kann durch die in 6b gezeigte
Konfiguration eine höhere
Zuverlässigkeit
erreicht werden.
-
In 6c wird
das sprachmodifizierte Umgebungssignal as aus
einer Version xs des Eingangssignals extrahiert,
das bereits einer Sprachsignalunterdrückung unterzogen worden ist.
Da die Sprachkomponenten in x typischerweise prominenter hervortreten
als in einem extrahierten Umgebungssignal ist ihre Unterdrückung sicherer
und nachhaltiger durchzuführen
als in 6a. Nachteil der in 6c gezeigten
Konfiguration im Vergleich zu der Konfiguration in 6a ist,
dass mögliche
Artefakte der Sprachunterdrückung
und den Umgebungsextraktionsprozess abhängig vom Typ des Extraktionsverfahrens
noch vergrößert werden
könnten.
Allerdings wird in 6c die Funktionalität des Umgebungskanalextraktors 14 nur
dazu verwendet, den Umgebungskanal aus dem modifizierten Audiosignal
zu extrahieren. Der Direktkanal wird jedoch nicht aus dem modifizierten
Audiosignal xs (20b) extrahiert,
sondern auf der Basis des ursprünglichen
Eingangssignals x (12).
-
Bei
der in 6d gezeigten Konfiguration wird
das Umgebungssignal a aus dem Eingangssignal x durch den Hochmischer
extrahiert. Das Auftreten von Sprache wird im Eingangssignal x detektiert.
Ferner werden durch einen Sprachanalysator 30 zusätzliche
Seiteninformationen e berechnet, die die Funktionalität des Umgebungskanalmodifizierers 20 zusätzlich steuern.
Diese Seiteninformationen werden direkt aus dem Eingangssignal berechnet
und können
die Position von Sprachkomponenten in einer Zeit/Frequenz-Darstellung, beispielsweise
in Form eines Spektrogramms von 2 sein oder
können
weitere Zusatzinformationen sein, auf die nachfolgend noch näher eingegangen
wird.
-
Nachfolgend
wird detaillierter auf die Funktionalität des Sprachdetektors 18 eingegangen.
Die Aufgabe einer Sprachdetektion besteht darin, eine Mischung aus
Audiosignalen zu analysieren, um eine Wahrscheinlichkeit abzuschätzen, dass
Sprache präsent
ist. Das Eingangssignal kann ein Signal sein, das aus einer Vielzahl
von unterschiedlichen Typen von Audiosignalen zusammengesetzt sein
kann, beispielsweise aus einem Musiksignal, aus Rauschen oder aus
speziellen Toneffekten, wie sie von Kinofilmen bekannt sind. Eine
Möglichkeit
zur Sprachdetektion besteht darin, ein Mustererkennungssystem einzusetzen.
Unter Mustererkennung versteht man das Analysieren von Rohdaten
und das Durchführen
einer speziellen Verarbeitung basierend auf einer Kategorie eines
Musters, das man in den Rohdaten entdeckt hat. Insbesondere beschreibt
der Ausdruck „Muster” oder „Pattern” eine zugrunde
liegende Ähnlichkeit,
die zwischen den Messungen von Objekten gleicher Kategorien (Klassen)
zu finden ist. Die Basisoperationen eines Mustererkennungssystems
bestehen in dem Erfassen, also der Aufnahme der Daten unter Verwendung
eines Wandlers, einer Vorverarbeitung, einer Merkmalsextraktion
und einer Klassifikation, wobei diese Grundoperationen in der angegebenen
Reihenfolge durchgeführt
werden können.
-
Üblicherweise
werden Mikrophone als Sensoren für
ein Spracherfassungssystem eingesetzt. Eine Vorbereitung kann eine
A/D-Wandlung, ein Resampling oder eine Rauschreduktion umfassen.
Die Merkmalsextraktion ist die Berechnung von charakteristischen
Merkmalen für
jedes Objekt aus den Messungen. Die Merkmale werden derart gewählt, dass
sie unter Objekten derselben Klasse ähnlich sind, dass also eine
gute Intra-Klassen-Kompaktheit erreicht wird und dass sie unterschiedlich
sind für
Objekte unterschiedlicher Klassen, so dass eine Inter-Klassen-Trennbarkeit
erreicht wird. Eine dritte Anforderung besteht darin, dass die Merkmale
robust bezüglich
Rauschen, Umgebungsbedingungen und für die menschliche Wahrnehmung
irrelevanten Transformationen des Eingangssignals sein sollten.
Die Merkmalsextraktion kann in zwei getrennte Stufen aufgeteilt
werden. Die erste Stufe ist die Merkmalsberechnung und die zweite
Stufe ist die Merkmalsprojektion oder Transformation auf eine im
Allgemeinen orthogonale Basis, um eine Korrelation zwischen Merkmalsvektoren
zu minimieren und um die Dimensionalität der Merkmale zu reduzieren,
indem Elemente mit niedriger Energie nicht verwendet werden.
-
Die
Klassifikation ist der Prozess der Entscheidung, ob Sprache vorhanden
ist oder nicht, und zwar basierend auf den extrahierten Merkmalen
und einem trainierten Klassifizierer. So sei folgende Gleichung
gegeben.
-
In
der obigen Gleichung wird eine Menge von Trainingsvektoren ΩXY definiert, wobei Merkmalsvektoren durch
xi bezeichnet werden und der Satz von Klassen
durch Y. Für
eine grundsätzliche
Spracherfassung gilt also, dass Y zwei Werte hat, nämlich {Sprache,
Nicht-Sprache}.
-
In
der Trainingsphase werden die Merkmale xi aus
bezeichneten Daten berechnet, d. h. aus Audiosignalen, bei denen
bekannt ist, zu welcher Klasse y dieselben gehören. Nach einer Vollendung
des Trainings hat der Klassifizierer die Charakteristika aller Klassen
gelernt.
-
In
der Anwendungsphase des Klassifizierers werden die Merkmale aus
den unbekannten Daten wie in der Trainingsphase berechnet und projiziert
und vom Klassifizierer aufgrund der im Training erlangten Kenntnis über die
Charakteristika der Klassen klassifiziert.
-
Nachfolgend
wird auf spezielle Implementierungen der Sprachunterdrückung eingegangen,
wie sie beispielsweise durch den Signalmodifizierer 20 durchgeführt werden
können.
So können
verschiedene Verfahren eingesetzt werden, um Sprache in einem Audiosignal
zu unterdrücken.
Hierbei gibt es Verfahren, die aus dem Gebiet der Sprachverstärkung und
Rauschreduktion für
Kommunikationsanwendungen bekannt sind. Ursprünglich wurden Sprachverstärkungsverfahren
dazu ver wendet, um die Sprache in einer Mischung aus Sprache und
Hintergrundrauschen zu verstärken.
Solche Methoden können
modifiziert werden, um auch das Gegenteil zu bewirken, nämlich eine
Unterdrückung
von Sprache, wie sie für
die vorliegende Erfindung durchgeführt wird.
-
So
existieren Lösungsansätze zur
Sprachverstärkung
und Rauschreduktion, die die Koeffizienten einer Zeit/Frequenz-Darstellung gemäß einem
Schätzwert
des Grads des Rauschens, das in einem solchen Zeit/Frequenz-Koeffizienten
enthalten ist, dämpfen
oder verstärken.
Wenn keine zusätzlichen
Informationen über
ein Hintergrundrauschen bekannt sind, beispielsweise a-priori-Informationen
oder Informationen, die durch einen speziellen Rauschsensor gemessen
werden, wird eine Zeit/Frequenz-Darstellung aus einer verrauschten
Messung gewonnen, beispielsweise unter Verwendung spezieller Minimal-Statistik-Verfahren.
Eine Rauschunterdrückungsregel
berechnet einen Dämpfungsfaktor
unter Verwendung des Rauschschätzwerts. Dieses
Prinzip ist als Kurzzeit-Spektraldämpfung oder
Spektral-Gewichtung bekannt, wie es beispielsweise in G. Schmid, „Single-channel
noise suppression based an spectral weighting”, Eurasip Newsletter 2004,
bekannt ist. Signalverarbeitungsmethoden, die gemäß dem Prinzip
der Kurzzeit-Spektraldämpfung
(STSA) arbeiten, bestehen in der Spektralsubtraktion, der Wiener-Filterung
und dem Ephraim-Malah-Algorithmus. Eine allgemeinere Formulierung
des STSA-Ansatzes führt
zu einem Signal-Subspace-Verfahren,
das auch als Methode des reduzierten Rangs bekannt ist und in P.
Hansen und S. Jensen, „Fir
filter representation of reduced-rank noise reduction”, IEEE
TSP, 1998, beschrieben ist.
-
Prinzipiell
können
also alle Verfahren, die Sprache Verstärken oder Nicht-Sprach-Komponenten
unterdrücken,
auf entgegengesetzte Art und Weise mit Blick auf ihre bekannte Verwendung
eingesetzt werden, um Sprache zu unterdrücken bzw. um Nicht-Sprache
zu verstärken.
Das allgemeine Modell der Sprachverstärkung oder Rauschunterdrückung besteht darin,
dass das Eingangssignal eine Mischung aus erwünschtem Signal (Sprache) und
dem Hintergrundrauschen (Nicht-Sprache)
ist. Eine Unterdrückung
der Sprache wird z. B. durch Invertieren der Dämpfungsfaktoren in einem STSA-basierten Verfahren
oder durch Austauschen der Definition des erwünschten Signals und des Hintergrundrauschens
erreicht.
-
Eine
wichtige Anforderung bei der Sprachunterdrückung besteht jedoch darin,
dass im Hinblick auf den Kontext des Hochmischens das resultierende
Audiosignal als Audiosignal hoher Audioqualität wahrgenommen wird. Es ist
bekannt, dass Sprachverbesserungsverfahren und Rauschreduktionsverfahren
hörbare Artefakte
in das Ausgangssignal einführen.
Ein Beispiel eines solchen Artefakts wird als Musikrauschen oder Musiktöne bekannt
und resultiert aus einer fehlerhaften Schätzung von Rauschböden (noise
floors) und schwankenden Subband-Dämpfungsfaktoren.
-
Alternativ
können
auch blinde Quellentrennverfahren eingesetzt werden, um die Sprachsignalanteile von
dem Umgebungssignal zu separieren und beide anschließend getrennt
zu manipulieren.
-
Für die spezielle
Anforderung nach der Erzeugung hochqualitativer Audiosignale werden
jedoch bestimmte nachfolgend dargelegte Verfahren aufgrund der Tatsache,
dass sie im Vergleich zu anderen Verfahren wesentlich besser abschneiden,
bevorzugt. Ein Verfahren besteht in der Breitbanddämpfung,
wie sie in 3 bei 20 angedeutet ist. Das
Audiosignal wird zu den Zeitabschnitten, wo Sprache vorhanden ist,
gedämpft.
Spezielle Verstärkungsfaktoren
liegen im Bereich zwischen –12
dB und –3
dB, wobei eine bevorzugte. Dämpfung bei
6 dB liegt. Da andere Signalkomponenten/anteile genauso unterdrückt werden,
könnte
man meinen, dass der gesamte Verlust an Audiosignalenergie deutlich
wahrgenommen wird. Es hat sich jedoch herausgestellt, dass dieser
Effekt nicht störend
ist, da sich der Benutzer ohnehin besonders auf die vorderen Lautsprecher
L, C, R konzentriert, wenn eine Sprachsequenz beginnt, so dass der
Benutzer die Energieabnahme der hinteren Kanäle bzw. des Umgebungssignals,
dann, wenn er sich gerade auf ein Sprachsignal konzentriert, nicht
wahrnehmen wird. Dies wird insbesondere durch den weiteren typischen
Effekt verstärkt,
dass der Pegel des Audiosignals ohnehin aufgrund einer einsetzenden
Sprache zunimmt. Durch Einführen
einer Dämpfung
im Bereich zwischen –12
dB und 3 dB wird die Dämpfung
nicht als störend
wahrgenommen. Stattdessen empfindet es der Benutzer wesentlich angenehmer,
dass aufgrund der Unterdrückung
von Sprachkomponenten in den hinteren Kanälen ein Effekt erreicht wird,
der dazu führt,
dass für
den Benutzer die Sprachkomponenten ausschließlich in den vorderen Kanälen positioniert
sind.
-
Ein
alternatives Verfahren, das ebenfalls in 3 bei 20 angedeutet
wird, besteht in einer Hochpassfilterung. Das Audiosignal wird dort,
wo Sprache vorhanden ist, einer Hochpassfilterung unterzogen, wobei eine
Grenzfrequenz im Bereich zwischen 600 Hz und 3.000 Hz liegt. Die
Einstellung der Grenzfrequenz ergibt sich aus der Signalcharakteristik
von Sprache im Hinblick auf die vorliegenden Erfindung. Das Langzeit-Leistungsspektrum
eines Sprachsignals konzentriert, sich auf einen Bereich unter 2,5
kHz. Der bevorzugte Bereich der Grundfrequenz von tonaler Sprache
(voiced speech) liegt im Bereich zwischen 75 Hz und 330 Hz. Ein
Bereich zwischen 60 Hz und 250 Hz ergibt sich für männliche Erwachsene. Mittelwerte
liegen bei 120 Hz für männliche
Sprecher und 215 Hz für
weibliche Sprecherinnen. Aufgrund der Resonanzen im Vokaltrakt werden bestimmte
Signalfrequenzen verstärkt.
Die entsprechenden Peaks in dem Spektrum werden auch als Formant-Frequenzen
oder einfach als Formanten bezeichnet. Typischerweise existieren
etwa drei signifikante Formanten unter 3.500 Hz. Folglich zeigt
die Sprache eine 1/F-Natur, d. h. die spektrale Energie nimmt mit
zunehmender Frequenz ab. Daher können
Sprachkomponenten zu Zwecken der vorliegenden Erfindung gut durch
eine Hochpass filterung mit dem angegebenen Grenzfrequenzbereich
gefiltert werden.
-
Eine
weitere bevorzugte Implementierung besteht in der Sinus-Signal-Modellierung,
die anhand von 4 dargestellt wird. So wird
in einem ersten Schritt 40 die Grundwelle einer Sprache
detektiert, wobei diese Detektion im Sprachdetektor 18 oder
aber, wie es in 6e gezeigt ist, in
dem Sprachanalysator 30 stattfinden kann. Hierauf wird
in einem Schritt 41 eine Untersuchung durchgeführt, um
die zu der Grundwelle gehörenden Oberwellen
herauszufinden. Diese Funktionalität kann im Sprachdetektor/Sprachanalysator
oder auch sogar bereits im Umgebungssignalmodifizierer durchgeführt werden.
Hierauf wird für
das Umgebungssignal ein Spektrogramm berechnet, und zwar auf der
Basis einer blockweise ausgeführten
Hin-Transformation,
wie es bei 42 dargelegt ist. Hierauf wird die eigentliche
Sprachunterdrückung
in einem Schritt 43 durchgeführt, in dem die Grundwelle
und die Oberwellen im Spektrogramm gedämpft werden. In einem Schritt 44 wird
dann das modifizierte Umgebungssignal, in dem die Grundwelle und
die Oberwellen gedämpft
oder eliminiert sind, wieder einer Rücktransformation unterzogen,
um das modifizierte Umgebungssignal oder das modifizierte Eingangssignal
zu erreichen.
-
Diese
sinusartige Signalmodellierung wird oft für die Tonsynthese, die Audiocodierung,
die Quellentrennung, die Tonmanipulation und zur Rauschunterdrückung eingesetzt.
Hier wird ein Signal als Zusammensetzung aus Sinuswellen mit zeitlich
variierenden Amplituden und Frequenzen dargestellt. Tonale Sprachsignalkomponenten
werden manipuliert, indem die Partialtöne, d. h. die Grundwelle und
deren Harmonische (Oberwellen), identifiziert und modifiziert werden.
-
Die
Partialtöne
werden mittels eines Partialton-Finders identifiziert, wie es bei 41 dargelegt
ist. Typischerweise wird das Partialton-Finden in der Zeit/Frequenz-Domäne durchgeführt. Ein
Spektrogramm wird mittels einer Kurzzeit-Fourier-Transformation, wie es bei 42 angedeutet
ist, durchgeführt.
Lokale Maxima in jedem Spektrum des Spektrogramms werden detektiert
und Trajektorien durch lokale Maxima benachbarter Spektren bestimmt.
Eine Schätzung
der Grundfrequenz kann den Spitzen-Such-Prozess (Peak Picking) unterstützen, wobei
diese Abschätzung
der Grundfrequenz bei 40 durchgeführt wird. Eine Sinussignaldarstellung wird
dann aus den Trajektorien erreicht. Es sei darauf hingewiesen, dass
also die Reihenfolge zwischen dem Schritt 40, 41 und
dem Schritt 42 auch variiert werden kann, so dass zunächst eine
Hin-Transformation 42 ausgeführt wird, die im Sprachanalysator 30 von 6d erfolgt.
-
Verschiedene
Erweiterungen der Ableitung einer Sinussignaldarstellung wurden
vorgeschlagen. Ein Multi-Auflösungs-Verarbeitungs-Lösungsansatz
zur Rauschreduktion ist in D. Andersen und M. Clements, „Audio
signal noise reduction using multi-resolution sinusoidal modeling”, Proceedings
of ICASSP 1999, dargestellt. Ein iterativer Prozess für das Ableiten
der Sinusdarstellung wurde in J. Jensen und J. Hansen, „Speech enhancement
using a constrained iterative sinusoidal model”, IEEE TSAP 2001, vorgestellt.
-
Unter
Verwendung der sinusförmigen
Signaldarstellung wird ein verbessertes Sprachsignal durch Verstärken der
Sinuskomponente erhalten. Die erfindungsgemäße Sprachunterdrückung möchte jedoch
genau das Gegenteil erreichen, nämlich
die Partialtöne
unterdrücken,
wobei die Partialtöne
die Grundwelle und deren Harmonische umfassen, und zwar für ein Sprachsegment
mit tonaler Sprache. Typischerweise sind die Sprachkomponenten mit
hoher Energie tonal. So wird eine Sprache bei einem Pegel von 60–75 dB für Vokale und
etwa 20–30
dB niedriger für
Konsonanten gesprochen. Für
tonale Sprache (Vokale) ist die Erregung ein periodisches pulsartiges
Signal. Das Erregungssignal wird durch den Vokaltrakt gefiltert.
Folglich ist nahezu die gesamte Energie eines tonalen Sprachsegments
in der Grundwelle und ihren Harmonischen konzentriert. Durch Unterdrückung dieser
Partialtöne
werden die Sprachkomponenten signifikant unterdrückt.
-
Eine
weitere Art und Weise, um eine Sprachunterdrückung zu erreichen, ist in 7 und 8 dargestellt. 7 und 8 erläutern das
Grundprinzip der Kurzzeit-Spektraldämpfung oder
Spektralgewichtung. Hier wird zunächst das Leistungsdichtespektrum
des Hintergrundrauschens geschätzt.
Das dargestellte Verfahren schätzt
die Menge an Sprache, die in einer Zeit/Frequenz-Kachel enthalten
ist, unter Verwendung von so genannten Low-Level-Merkmalen, die
ein Maß für die „Sprachartigkeit” eines
Signals in einem bestimmten Frequenzabschnitt geben. Low-Level-Features
bzw. Merkmale niederer Ebene sind Merkmale mit niedrigem Niveau
bezüglich
der Interpretation ihrer Bedeutung und des Aufwands ihrer Berechnung.
-
Das
Audiosignal wird in eine Anzahl von Frequenzbändern mittels einer Filterbank
oder einer Kurzzeit-Fourier-Transformation
zerlegt, die in 7 bei 70 dargestellt
ist. Hierauf werden, wie es bei 71a und 71b beispielhaft
dargestellt ist, zeitlich variierende Verstärkungsfaktoren für alle Subbänder aus
solchen Merkmalen niederer Ebenen (Low-Level-Features) berechnet,
um Subbandsignale proportional zu der Menge an Sprache, die sie
enthalten, zu dämpfen.
Geeignete Merkmale auf niedriger Ebene sind das spektrale Flachheitmaß (SFM;
SFM = spectral flatness measure) und die 4-Hz-Modulationsenergie
(4 HzME). Das SFM misst den Grad an Tonalität eines Audiosignals und ergibt
sich für
ein Band aus dem Quotienten des geometrischen Mittelwerts aller
Spektralwerte in einem Band und des arithmetischen Mittelwerts der
Spektralkomponenten in dem Band. Das 4 HzME wird dadurch motiviert,
dass Sprache einen charakteristischen Energiemodulations-Peak bei
etwa 4 Hz hat, was der. mittleren Silbenrate eines Sprechers entspricht.
-
8 zeigt
eine detailliertere Darstellung des Verstärkungsberechnungsblocks 71a und 71b von 7.
Es wird auf der Basis eines Subbands xi eine
Mehrzahl von verschiedenen Low-Level-Features, also LLF1, ..., LLFn
berechnet. Diese Features werden dann in einem Kombinierer 80 kombiniert,
um zu einem Verstärkungsfaktor
gi für
ein Subband zu kommen.
-
Es
sei darauf hingewiesen, dass je nach Implementierung nicht unbedingt
Merkmale niedriger Ordnung, sondern jegliche Merkmale verwendet
werden können,
wie beispielsweise auch Energiemerkmale etc., die dann gemäß der Implementierung
von 8 in einem Kombinierer miteinander kombiniert
werden können, um
zu einem quantitativen Verstärkungsfaktor
gi zu kommen, derart, dass jedes Band (zu
jedem Zeitpunkt) variabel gedämpft
wird, um eine Sprachunterdrückung
zu erreichen.
-
Abhängig von
den Gegebenheiten kann das erfindungsgemäße Verfahren in Hardware oder
in Software implementiert werden. Die Implementierung kann auf einem
digitalen Speichermedium, insbesondere einer Diskette oder CD mit
elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem
programmierbaren Computersystem zusammenwirken können, dass. das Verfahren ausgeführt wird.
Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt
mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode
zur Durchführung
des erfindungsgemäßen Verfahrens,
wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In
anderen Worten ausgedrückt,
kann die Erfindung somit als ein Computer-Programm mit einem Programmcode
zur Durchführung
des Verfahrens realisiert werden, wenn das Computer-Programm auf
einem Computer abläuft.