-
Die
vorliegende Erfindung bezieht sich auf die Multikanal-Audiotechnik und
insbesondere auf Multikanal-Audioanwendungen
in Verbindung mit Kopfhörer-Techniken.
-
Die
beiden internationalen Patentanmeldungen WO 99/49574 und WO 99/14983
offenbaren Audiosignalverarbeitungstechniken zum Ansteuern eines
Paars von gegenüberliegend
angeordneten Kopfhörer-Lautsprechern,
damit ein Benutzer über die
beiden Kopfhörer
eine räumliche
Wahrnehmung der Audioszene erhält,
die nicht nur eine Stereo-Darstellung sondern eine Multikanal-Darstellung
ist. So erhält
der Hörer über seine
bzw. ihre Kopfhörer
eine räumliche
Wahrnehmung eines Audiostücks,
die im besten Fall gleich seiner räumlichen Wahrnehmung ist, wenn
der Benutzer in einem Wiedergaberaum sitzen würde, der beispielsweise mit
einer 5.1-Audioanlage ausgestattet ist. Zu diesem Zweck wird für jeden Kopfhörer-Lautsprecher jeder
Kanal des Multikanal-Audiostücks
oder Multikanal-Audiodatenstroms, wie es in 2 dargestellt ist, einem eigenen Filter zugeführt, wonach
dann die jeweils gefilterten zusammengehörenden Kanäle aufaddiert werden, wie es
nachfolgend dargestellt wird.
-
Auf
einer linken Seite in 2 befinden
sich die Multikanal-Eingänge 20,
die zusammen eine Multikanal-Darstellung des Audiostücks oder
Audiodatenstroms repräsentieren.
Ein solches Szenario ist beispielsweise in 10 schematisch gezeigt. 10 zeigt einen Wiedergaberaum 200,
in dem eine so genannte 5.1-Audioanlage angeordnet ist. Die 5.1-Audioanlage umfasst
einen Mitte-Lautsprecher 201, einen Vorne-Links-Lautsprecher 202,
einen Vorne-Rechts-Lautsprecher 203,
einen Hinten-Links-Lautsprecher 204 und einen Hinten-Rechts-Lautsprecher 205.
Eine 5.1-Audioanlage hat einen zusätzlichen Subwoofer 206,
der auch als Low-Frequency-Enhancement-Kanal
bezeichnet wird. Im so genannten „Sweet Spot" des Wiedergaberaums 200 befindet
sich ein Zuhörer 207,
der einen Kopfhörer 208 trägt, welcher
einen linken Kopfhörer-Lautsprecher 209 und
einen rechten Kopfhörer-Lautsprecher 210 aufweist.
-
Die
in 2 gezeigte Verarbeitungseinrichtung
ist nunmehr ausgebildet, um jeden Kanal 1, 2, 3 der
Multikanal-Eingänge 20 mit
einem Filter HiL, der den Schallkanal vom
Lautsprecher zum linken Lautsprecher 209 in 10 beschreibt, zu filtern,
und um denselben Kanal ferner mit einem Filter HiR zu
filtern, der den Schall von einem der fünf Lautsprecher zum rechten
Ohr bzw. zum rechten Lautsprecher 210 des Kopfhörers 208 darstellt.
-
Wäre beispielsweise
der Kanal 1 in 2 der
vordere linke Kanal, der durch den Lautsprecher 202 in 10 ausgestrahlt wird, so
würde das
Filter HiL den durch eine gestrichelte Linie 212 angedeuteten
Kanal darstellen, während
das Filter HiR den durch eine gestrichelte
Linie 213 dargestellten Kanal wiedergeben würde. Wie
es in 10 beispielsweise durch
eine gestrichelte Linie 214 angedeutet ist, erhält der linke
Kopfhörerlautsprecher 209 nicht
nur den Direktschall, sondern auch frühe Reflexionen an einer Rand
des Wiedergaberaums und natürlich auch
späte Reflexionen,
die in einem diffusen Nachhall ausgedrückt werden.
-
Eine
solche Filterdarstellung ist in 11 dargestellt.
Insbesondere zeigt 11 ein
schematisches Beispiel für
eine Impulsantwort eines Filters, beispielsweise des Filters HiL von 2 dar.
Der Direktschall, der durch die Linie 212 in 11 dargestellt ist, wird
durch einen Peak am Anfang des Filters dargestellt, während frühe Reflexionen,
wie sie beispielsweise durch 214 in 10 dargestellt sind, durch einen mittleren
Bereich mit mehreren (diskreten) kleineren Peaks in 11 wiedergegeben werden. Der diffuse
Nachhall ist dann typischerweise nicht mehr nach einzelnen Peaks
aufgelöst,
da der Schall des Lautsprechers 202 prinzipiell beliebig
oft reflektiert wird, wobei die Energie natürlich mit jeder Reflexion und
zusätzlicher
Ausbreitungsstrecke weiter abnimmt, wie es durch die abnehmende
Energie im hinteren Abschnitt, der mit „diffuser Nachhall" in 11 bezeichnet ist, dargestellt ist.
-
Jedes
der in 2 gezeigten Filter
umfasst daher eine Filter-Impulsantwort, die in etwa einen Verlauf
hat, wie er durch die schematische Impulsantwortdarstellung in 11 wiedergegeben ist. Selbstverständlich wird
die einzelne Filter-Impulsantwort vom Wiedergaberaum, der Positionierung
der Lautsprecher, eventueller Dämpfungseigenschaften
im Wiedergaberaum z. B. aufgrund mehrerer anwesender Personen oder
im Wiedergaberaum befindlichen Möbeln
etc. sowie Idealerweise auch von den Eigenschaften der einzelnen
Lautsprecher 201 bis 206 abhängen.
-
Die
Tatsache, dass sich die Signale von allen Lautsprechern am Ohr des
Zuhörers 207 superponieren,
wird durch die Addierer 22 und 23 in 2 dargestellt. Es wird also
jeder Kanal mit einem entsprechenden Filter für das linke Ohr gefiltert,
um dann die von den Filtern ausgegebenen Signale, die alle für das linke
Ohr bestimmt sind, einfach aufzuaddieren, um das Kopfhörer-Ausgangssignal
für das
linke Ohr L zu erhalten. Analog wird eine Addition durch den Addierer 23 für das rechte
Ohr bzw. für
den rechten Kopfhörer-Lautsprecher 210 in 10 vorgenommen, um durch überlagerung
sämtlicher
mit einem entsprechenden Filter für das rechte Ohr gefilterten
Lautsprecher-Signale das Kopfhörer-Ausgangssignal für das rechte
Ohr zu erhalten.
-
Aufgrund
der Tatsache, dass es neben dem Direktschall auch frühe Reflexionen
und insbesondere auch einen diffusen Nachhall gibt, welche insbesondere
für die
Raumwahrnehmung von großer
Bedeutung sind, damit der Ton nicht synthetisch oder „hölzern" klingt, sondern
dem Hörer
das Gefühl
vermit telt, er sitzt wirklich in einem Konzertsaal mit seinen akustischen
Eigenschaften, werden die Impulsantworten der einzelnen Filter 21 alle
eine beträchtliche
Länge annehmen.
Die Faltung jedes einzelnen Multi-Kanals der Multikanal-Darstellung mit zwei
Filtern führt
daher bereits zu einer erheblichen Rechenaufgabe. Da für jeden
einzelnen Multi-Kanal zwei
Filter benötigt
werden, nämlich
einer für
das linke Ohr und ein anderer für
das rechte Ohr, werden, wenn der Subwoofer-Kanal
ebenfalls eigens behandelt wird, für eine Kopfhörer-Wiedergabe
einer 5.1-Multikanal-Darstellung insgesamt 12 voneinander unterschiedliche
Filter benötigt.
Alle Filter haben, wie es aus 11 ersichtlich
ist, eine sehr lange Impulsantwort, um nicht nur den Direktschall
sondern auch frühe
Reflexionen und den diffusen Nachhall berücksichtigen zu können, der
einem Audiostück
eigentlich erst die richtige Klangwiedergabe und einen guten Raumeindruck
verleiht.
-
Um
das bekannte Konzept in die Realität umzusetzen, wird daher, wie
es in 10 gezeigt ist,
neben einem Multikanalspieler 220 die sehr aufwendige virtuelle
Tonverarbeitung 222 benötigt,
die die Signale für
die beiden Lautsprecher 209 und 210, die durch Leitungen 224 und 226 in 10 dargestellt sind, liefert.
-
Kopfhörer-Anlagen
zum Erzeugen eines Multikanal-Kopfhörer-Sounds sind daher aufwendig, sperrig
und teuer, was an der hohen Rechenleistung, am hohen Strombedarf
für die
nötige
hohe Rechenleistung und am hohen Arbeitsspeicherbedarf für die durchzuführenden
Bewertungen mit der Impulsantwort und am damit verbundenen großen Volumen
oder teuren Bausteinen für
das Abspielgerät liegt.
Solche Anwendungen sind daher an Home-PC-Soundkarten bzw. Laptop-Soundkarten
oder auch Heim-Stereo-Anlagen gebunden.
-
Insbesondere
ist dem immer größer werdenden
Markt an mobilen Abspielgeräten,
wie beispielsweise mobilen CD-Playern oder insbesondere den Hardware-Playern
bleibt der Multika nal-Kopfhörer-Sound
verschlossen, da die Rechenanforderungen zum Filtern der Multi-Kanäle mit z.
B. 12 unterschiedlichen Filtern sowohl im Hinblick auf
die Prozessorressourcen als auch im Hinblick auf den Stromverbrauch
der typischerweise batteriebetriebenen Geräte nicht in dem Preissegment
realisierbar sind. Hier geht es um ein Preissegment am unteren (niedrigen)
Ende der Skala. Gerade dieses Preissegment ist aber aufgrund der
großen
Stückzahlen
wirtschaftlich sehr interessant.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein effizientes
Signalverarbeitungskonzept zu liefern, das eine Kopfhörer-Wiedergabe
in Multikanal-Qualität
auch auf einfachen Wiedergabegeräten
ermöglicht.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Erzeugen eines codierten
Stereo-Signals nach Patentanspruch 1 oder durch ein Verfahren zum
Erzeugen eines codierten Stereo-Signals
nach Patentanspruch 11 oder ein Computer-Programm nach Patentanspruch
12 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass der hoch
qualitative und attraktive Multikanal-Kopfhörer-Sound allen verfügbaren Abspielgeräten, wie
beispielsweise CD-Playern oder Hardware-Playern, dadurch zur Verfügung gestellt werden
kann, dass aus einer Multikanal-Darstellung eines
Audiostücks
oder Audiodatenstroms, also beispielsweise einer 5.1-Darstellung
eines Audiostücks außerhalb
eines Hardware-Players, also z. B. in einem rechenstarken Computer
eines Providers einer Kopfhörer-Signalverarbeitung
unterzogen. Erfindungsgemäß wird das
Ergebnis Kopfhörer-Signalverarbeitung
jedoch nicht einfach abgespielt, sondern einem typischen Audio-Stereo-Codierer
zugeführt,
der dann aus dem linken Kopfhörerkanal
und dem rechten Kopfhörerkanal
ein codiertes Stereosignal erzeugt.
-
Dieses
codierte Stereosignal kann dann, wie jedes andere codierte Stereosignal,
das keine Multikanaldarstellung auf weist, dem Hardware-Player oder
z. B. einem mobilen CD-Player
in Form einer CD zugeführt
werden. Das Wiedergabegerät
wird dann den Benutzer mit einem Kopfhörer-Multikanal-Sound versorgen,
ohne dass irgendwelche zusätzlichen Ressourcen
bzw. Einrichtungen an bereits bestehenden Geräten hinzugefügt werden
müssen.
Erfindungsgemäß wird das
Ergebnis der Kopfhörer-Signalverarbeitung,
also das linke und das rechte Kopfhörersignal nicht, wie im Stand
der Technik, in einem Kopfhörer
wiedergegeben, sondern codiert und als codierte Stereo-Daten ausgegeben.
-
Eine
solche Ausgabe kann eine Speicherung, eine Übertragung oder irgendetwas ähnliches sein.
Eine solche Datei mit codierten Stereodaten kann dann ohne weiteres
jedem beliebigen für
Stereo-Wiedergabe ausgebildeten Wiedergabegerät zugeführt werden, ohne dass der Benutzer
irgendwelche Änderungen
an seinem Gerät
durchführen
müsste.
-
Das
erfindungsgemäße Konzept,
aus dem Ergebnis der Kopfhörer-Signalverarbeitung
ein codiertes Stereo-Signal zu erzeugen, ermöglicht es somit, dass die Multikanal-Darstellung, die
eine wesentlich bessere und lebensnahere Qualität für einen Benutzer liefert, auch
auf allen einfachen und sehr stark verbreiteten und in Zukunft noch
stärker
verbreiteten Hardware-Playern eingesetzt werden kann.
-
Bei
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird von einer codierten Multikanal-Darstellung
ausgegangen, also einer Parameterdarstellung, die einen oder typischerweise zwei
Basiskanäle
aufweist, und die ferner Parameterdaten aufweist, um auf der Basis
der Basiskanäle und
der Parameterdaten die Multi-Kanäle
der Multikanaldarstellung zu erzeugen. Nachdem ein Frequenzbereichbasiertes
Verfahren zur Multikanal-Decodierung bevorzugt wird, wird erfindungsgemäß die Kopfhörer-Signalverarbeitung
nicht in dem Zeitbereich durch Faltung des Zeitsignals mit der Impulsantwort
durchgeführt,
sondern im Frequenzbereich durch Multiplikation mit der Filter-Übertragungsfunktion.
-
Dies
ermöglicht
die Einsparung von wenigstens einer Rücktransformation vor der Kopfhörer-Signalverarbeitung
und ist insbesondere dann vorteilhaft, wenn auch der nachfolgende
Stereo-Codierer im Frequenzbereich arbeitet, sodass dann, ohne dass
jemals in den Zeitbereich gegangen werden muss, die Stereo-Codierung
des Kopfhörer-Stereo-Signals
ebenfalls ohne Gang in den Zeitbereich erfolgen kann. Die Verarbeitung
von der Multikanal-Darstellung bis zum codierten Stereosignal ohne Einschaltung
eines Zeitbereichs oder durch eine wenigstens reduzierte Anzahl
von Transformationen ist nicht nur im Hinblick auf die Rechenzeiteffizienz
interessant, sondern grenzt Qualitätsverluste ein, da weniger
Verarbeitungsstufen auch weniger Artefakte in das Audiosignal einführen.
-
Insbesondere
bei Block-basierten Verfahren, die unter Berücksichtigung einer psychoakustischen Maskierungsschwelle
quantisieren, wie es für
den Stereo-Codierer bevorzugt wird, ist es wichtig, so viel Tandem-Codierungs-Artefakte
als möglich
zu verhindern.
-
Bei
einem besonders bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird als Multikanal-Darstellung eine
BCC-Darstellung mit einem oder vorzugsweise zwei Basiskanälen verwendet.
Nachdem das BCC-Verfahren im Frequenzbereich arbeitet, werden die
Multi-Kanäle
nicht, wie beim BCC-Decodierer üblich, nach
ihrer Synthese in den Zeitbereich transformiert. Stattdessen wird
die blockweise vorliegende Spektraldarstellung der Multikanäle verwendet
und der Kopfhörer-Signalverarbeitung
unterzogen. Hierzu werden die Übertragungsfunktionen
der Filter verwendet, also die Fourier-Transformierten der Impulsantworten,
um eine Multiplikation zwischen der Spektraldarstellung der Multi-Kanäle und den
Filter-Übertragungsfunktionen durchzuführen. Sofern
die Impulsantworten der Filter zeitlich länger als ein Block von Spektralkomponenten
am Ausgang des BCC-Decodierers
sind, wird eine blockweise Filterverarbeitung bevorzugt, bei der die
Impulsantworten der Filter im Zeit bereich getrennt werden und blockweise
transformiert werden, um dann entsprechende für solche Maßnahmen nötige Gewichtungen der Spektren
durchzuführen,
wie sie beispielsweise in der WO 94/01933 offenbart sind.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf
die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
-
1 ein
Blockschaltbild der erfindungsgemäßen Vorrichtung zum Erzeugen
eines codierten Stereo-Signals;
-
2 eine
Detaildarstellung einer Implementierung der Kopfhörer-Signalverarbeitung
von 1;
-
3 einen
bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und
parametrischen Multikanal-Informationen;
-
4 eine
Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für eine BCC-Codierung/Decodierung;
-
5 eine
Blockdiagrammdarstellung einer BCC-Codierer/Decodierer-Kette;
-
6 ein
Blockdiagramm einer Implementierung des BCC-Synthese-Blocks von 5;
-
7 eine
Kaskadierung zwischen einem Multikanal-Decodierer und der Kopfhörer-Signalverarbeitung
ohne Transformation in den Zeitbereich;
-
8 eine
Kaskadierung zwischen der Kopfhörer-Signalverarbeitung
und einem Stereo-Codierer ohne Transformation in den Zeitbereich;
-
9 ein
Prinzip-Blockdiagramm eines bevorzugten Stereo-Codierers;
-
10 eine
Prinzipdarstellung eines Wiedergabe-Szenarios zum Bestimmen der Filterfunktionen
von 2;
-
11 eine
prinzipielle Darstellung einer zu erwartenden Impulsantwort eines
Filters, das gemäß 10 bestimmt
ist.
-
1 zeigt
ein Prinzip-Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen
eines codierten Stereo-Signals
eines Audiostücks
oder Audiodatenstroms. Das Stereo-Signal umfasst in uncodierter
Form einen uncodierten ersten Stereokanal 10a sowie eine
uncodierten zweiten Stereo-Kanal 10b und wird aus einer
Multikanal-Darstellung des Audiostücks oder Audiodatenstroms erzeugt,
wobei die Multikanal-Darstellung Informationen über mehr als zwei Multi-Kanäle aufweist.
Wie später
noch dargestellt wird, kann die Multikanal-Darstellung in einer uncodierten
oder codierten Form vorliegen. Ist die Multikanal-Darstellung in
uncodierter Form vorhanden, so umfasst sie drei oder mehr Multi-Kanäle. Bei einem
bevorzugten Anwendungs-Szenario umfasst die Multikanal-Darstellung
fünf Kanäle und einen Subwoofer-Kanal.
-
Ist
die Multikanal-Darstellung dagegen in einer codierten Form vorhanden,
so umfasst diese codierte Form typischerweise einen oder mehrere
Basis-Kanäle
sowie Parameter zum Synthetisieren der drei oder mehr Multi-Kanäle aus dem
einen oder den beiden Basiskanälen.
Ein Multikanal-Decodierer 11 ist daher ein Beispiel für eine Einrichtung
zum Bereitstellen der mehr als zwei Multi-Kanäle aus der Multikanal-Darstellung. Liegt
die Multikanal-Darstellung dagegen bereits in uncodierter Form vor,
also z. B. in Form von 5 + 1 PCM-Kanälen, so entspricht die Einrichtung
zum Bereitstellen einem Eingangsanschluss für eine Einrichtung 12 zum Durchführen einer
Kopfhörer-Signalverarbeitung,
um das uncodierte Stereosignal mit dem uncodierten ersten Stereo-Kanal 10a und
dem uncodierten zweiten Stereo-Kanal 10b zu erzeugen.
-
Vorzugsweise
ist die Einrichtung 12 zum Durchführen Kopfhörer-Signalverarbeitung ausgebildet,
um die Multi-Kanäle
der Multikanal-Darstellung jeweils mit einer ersten Filterfunktion
für den
ersten Stereo-Kanal und mit einer zweiten Filterfunktion für den zweiten
Stereo-Kanal zu bewerten und bewertete Multi-Kanäle jeweils aufzuaddieren, um
den uncodierten ersten Stereo-Kanal und den uncodierten zweiten
Stereo-Kanal zu erhalten, wie es anhand von 2 dargestellt
worden ist. Der Einrichtung 12 zum Durchführen der
Kopfhörer-Signalverarbeitung
ist ein Stereo-Codierer 13 nachgeschaltet, der ausgebildet ist,
um den ersten uncodierten Stereo-Kanal 10a und den zweiten
uncodierten Stereo-Kanal 10b zu codieren, um das codierte
Stereo-Signal an einem Ausgang 14 des Stereo-Codierers 13 zu
erhalten. Der Stereo-Codierer führt
eine Datenraten-Reduktion durch, sodass eine Datenrate, die zum Übertragen des
codierten Stereo-Signals nötig
ist, kleiner als eine Datenrate ist, die zum Übertragen des uncodierten Stereo-Signals
nötig ist.
-
Erfindungsgemäß wird somit
ein Konzept erreicht, das es ermöglicht,
Mehrkanalton, der auch als „Surround" bezeichnet wird, über einfache
Abspielgeräte,
wie beispielsweise Hardware-Player, Stereo-Kopfhörern zuzuführen.
-
Als
einfache Kopfhörer-Signalverarbeitung kann
z. B. die Summe bestimmter Kanäle
gebildet werden, um die Ausgangskanäle für die Stereo-Daten zu erhalten.
Verbesserte Verfahren arbeiten mit komplexeren Algorithmen, die
wiederum eine bessere Qualität
der Wiedergabe erreichen.
-
Es
sei darauf hingewiesen, dass es das erfindungsgemäße Konzept
ermöglicht,
dass die rechenaufwendigen Schritte zum Multikanal-Decodieren und
zum Durchführen
der Kopfhörer- Signalverarbeitung
nicht im Abspielgerät
selbst durchgeführt
werden, sondern extern durchgeführt
werden. Das Ergebnis des erfindungsgemäßen Konzepts ist eine codierte
Stereo-Datei, die beispielsweise ein MP3-File, ein AAC-File, ein HE-AAC-File
oder irgendein anderes Stereo-File ist.
-
Bei
anderen Ausführungsbeispielen
können auch
die Multikanal-Decodierung, die Kopfhörer-Signalverarbeitung und
die Stereo-Codierung auf unterschiedlichen Geräten ausgeführt werden, da die Ausgangsdaten
bzw. Eingangsdaten der einzelnen Blöcke leicht portierbar und standardisiert
erzeugbar und abspeicherbar sind.
-
Nachfolgend
wird Bezug nehmend auf 7 eine bevorzugte Ausführungsform
der vorliegenden Erfindung dargestellt, bei der der Multikanal-Decodierer 11 eine
Filterbank oder eine FFT-Funktion aufweist, derart, dass die Multikanal-Darstellung im Frequenzbereich
geliefert wird. Im Einzelnen werden die einzelnen Multi-Kanäle als Blöcke von
Spektralwerten für
jeden Kanal separat erzeugt. Erfindungsgemäß wird dann die Kopfhörer-Signalverarbeitung nicht
im Zeitbereich durch Faltung der zeitlichen Kanäle mit den Filter-Impulsantworten durchgeführt, sondern
es wird eine Multiplikation der Frequenzbereichs-Darstellung der
Multikanäle
mit einer Spektraldarstellung der Filter-Impulsantwort durchgeführt. Am
Ausgang der Kopfhörer-Signalverarbeitung
wird dann ein uncodiertes Stereosignal erreicht, das jedoch nicht
im Zeitbereich vorliegt, sondern das einen linken und einen rechten
Stereo-Kanal umfasst, wobei ein solcher Stereo-Kanal als Folge von
Blöcken von
Spektralwerten gegeben ist, wobei jeder Block von Spektralwerten
ein Kurzzeitspektrum des Stereo-Kanals darstellt.
-
Bei
dem in 8 gezeigten Ausführungsbeispiel wird der Kopfhörer-Signalverarbeitungs-Block 12 eingangsseitig
entweder mit Zeitbereichs- oder Frequenzbereichsdaten versorgt.
Ausgangsseitig werden die uncodierten Stereo-Kanäle im Frequenzbereich, also
wieder als Folge von Blöcken
von Spektralwerten erzeugt. Als Stereo-Codierer 13 wird
in diesem Fall ein Stereo-Codierer bevorzugt, der Transformations-basiert
ist, der also Spektralwerte verarbeitet, ohne dass zwischen der
Kopfhörer-Signalverarbeitung 12 und
dem Stereo-Codierer 13 eine Frequenz/Zeit-Umsetzung und
eine anschließende Zeit-Frequenz-Umsetzung
erforderlich ist. Ausgangsseitig gibt der Stereo-Codierer 13 dann
eine Datei mit dem codierten Stereosignal aus, die neben Seiteninformationen
eine codierte Form von Spektralwerten umfasst.
-
Bei
einem besonders bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird auf dem Weg von der Multikanal-Darstellung am Eingang des
Blocks 11 von 1 bis zur codierten Stereo-Datei
am Ausgang 14 der Einrichtung von 1 eine durchgehende
Frequenzbereichs-Verarbeitung durchgeführt, ohne dass eine Umsetzung
in den Zeitbereich und gegebenenfalls wieder eine Umsetzung in den
Frequenzbereich zu erfolgen hat. Wird als Stereo-Codierer ein MP3-Codierer
oder ein AAC-Codierer eingesetzt, so wird bevorzugt, das Fourier-Spektrum
am Ausgang des Kopfhörer-Signalverarbeitungs-Blocks
in ein MDCT-Spektrum umzusetzen. Damit wird erfindungsgemäß sichergestellt,
dass die Phaseninformationen, die für die Faltung/Bewertung der
Kanäle
im Kopfhörer-Signalverarbeitungs-Block exakt
benötigt
werden, in die nicht derart phasen-korrekt arbeitende MDCT-Darstellung umgerechnet werden,
sodass für
den Stereo-Codierer
im Gegensatz zu einem normalen MP3-Codierer oder einem normalen
AAC-Codierer keine Einrichtung zum Umsetzen von Zeitbereich in den
Frequenzbereich, also in das MDCT-Spektrum benötigt wird.
-
9 zeigt
ein allgemeines Blockschaltbild für einen bevorzugten Stereo-Codierer.
Der Stereo-Codierer umfasst eingangsseitig ein Joint-Stereo-Modul 15,
das vorzugsweise adaptiv bestimmt, ob eine gemeinsame Stereocodierung
beispielsweise in Form einer Mitte/Seite-Codierung einen höheren Codiergewinn
liefert als eine getrennte Verarbeitung von linkem und rechtem Kanal.
Das Joint-Stereo-Modul 15 kann ferner ausgebildet sein,
um eine Intensity-Stereo-Codierung
durchzuführen,
wobei eine Intensity-Stereo-Codierung
insbesondere bei höheren
Frequenzen einen beträchtlichen
Codiergewinn liefert, ohne dass hörbare Artefakte auftreten. Der
Ausgang des Joint-Stereo-Moduls 15 wird dann unter Verwendung
verschiedener weiterer Redundanz-reduzierender Maßnahmen,
wie beispielsweise einer TNS-Filterung,
einer Rauschsubstitution etc. weiterverarbeitet, um dann die Ergebnisse
einem Quantisierer 16 zuzuführen, der unter Verwendung einer
psychoakustischen Maskierungsschwelle eine Quantisierung der Spektralwerte
erreicht. Die Quantisierer-Schrittweite ist dabei derart gewählt, dass das
durch das Quantisieren eingeführte
Rauschen unterhalb der psychoakustischen Markierungsschwelle bleibt,
sodass eine Datenratenreduktion erreicht wird, ohne dass die durch
die verlustbehaftete Quantisierung eingeführten Verzerrungen hörbar werden.
Dem Quantisierer 16 ist schließlich ein Entropie-Codierer 17 nachgeschaltet,
der eine verlustlose Entropie-Codierung der quantisierten Spektralwerte
durchführt.
Am Ausgang des Entropie-Codierers liegt dann das codierte Stereosignal
vor, das neben den Entropie-codierten Spektralwerten zur Decodierung
nötige
Seiteninformationen umfasst.
-
Nachfolgend
wird auf bevorzugte Implementierungen des Multikanal-Decodierers
bzw. auf bevorzugte Multikanal-Darstellungen
anhand der 3 bis 6 eingegangen.
-
So
existieren in der Technik viele Techniken zum Reduzieren der Datenmenge,
die zur Übertragung
eines Multikanal-Audiosignals
benötigt
wird. Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem
Zweck wird auf 3 verwiesen, die eine Joint-Stereo-Vorrichtung 60 zeigt.
Diese Vorrichtung kann eine Vorrichtung sein, die beispielsweise
die Intensity-Stereo- (IS-) Technik oder die Binaural Cue Codiertechnik
(BCC) implementiert. Ein solches Gerät empfängt üblicherweise als Eingangssignal
zumindest zwei Kanäle
CH1, CH2, ... CHn, und gibt einen einzigen Trägerkanal sowie parametrische Multikanalinformationen
aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine
Approximation eines Ursprungskanals (CH1, CH2, ..., CHn) berechnet
werden kann.
-
Normalerweise
wird der Trägerkanal
Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte
etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden
Signals liefern, während
die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten
umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus,
wie beispielsweise Gewichten durch Multiplizieren, durch Zeitverschieben,
durch Frequenzverschieben, etc. Die parametrischen Multikanalinformationen
umfassen daher eine relativ grobe Darstellung des Signals oder des
zugeordneten Kanals. In Zahlen ausgedrückt beträgt die Menge an Daten, die
von einem Trägerkanal
benötigt
wird, eine Menge von etwa 60 bis 70 kBit/s, während die Menge an Daten, die
durch parametrische Seiteninformationen für einen Kanal benötigt wird,
im Bereich von 1, 5 bis 2, 5 kBit/s ist. Es sei darauf hingewiesen,
dass die vorstehenden Zahlen für
komprimierte Daten gelten. Selbstverständlich benötigt ein nicht-komprimierter
CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen. Ein Beispiel
für parametrische
Daten sind die bekannten Skalenfaktoren, Intensity-Stereo-Informationen
oder BCC-Parameter, wie es nachfolgend dargelegt wird.
-
Die
Technik der Intensity-Stereo-Codierung ist in dem RES-Preprint 3799, „Intensity
Stereo Coding",
J. Herre, K.H. Brandenburg, D. Lederer, Februar 1994, Amsterdam
beschrieben. Allgemein basiert das Konzept von Intensity Stereo
auf einer Hauptachsentransformation, die auf Daten beider stereophoner
Audiokanäle
durchzuführen
ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum
konzentriert sind, kann ein Codiergewinn erreicht werden, indem
beide Signale um einen bestimmten Winkel gedreht werden, bevor die
Codierung stattfindet. Dies ist jedoch nicht immer für reale
stereophone Reproduktionstechniken gegeben. Daher wird diese Technik
dahingehend modifiziert, dass die zweite orthogonale Komponente
von der Übertragung
in dem Bitstrom ausgeschlossen wird. Somit bestehen die rekonstruierten
Signale für
den linken und den rechten Kanal aus unterschiedlich gewichteten
oder skalierten Versionen desselben übertragenen Signals. Dennoch
unterscheiden sich die rekonstruierten Signale in ihrer Amplitude,
sie sind jedoch identisch im Hinblick auf ihre Phaseninformationen.
Die Energie-Zeit-Hüllkurven
beider ursprünglicher
Audiokanäle
werden jedoch durch die selektive Skalierungsoperation beibehalten,
die typischerweise auf frequenzselektive Art und Weise arbeitet.
Dies entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen,
wo die dominanten räumlichen
Informationen durch die Energiehüllkurven
bestimmt werden.
-
Zusätzlich wird
bei praktischen Implementierungen das übertragene Signal, d. h. der
Trägerkanal aus
dem Summensignal des linken Kanals und des rechten Kanals anstatt
der Rotation beider Komponenten erzeugt. Ferner wird diese Verarbeitung,
d. h. das Erzeugen von Intensity-Stereo-Parametern zum Durchführen der
Skalierungsoperationen frequenzselektiv durchgeführt, d. h. unabhängig für jedes
Skalenfaktorband, d. h. für
jede Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um
einen kombinierten oder „Träger"-Kanal und zusätzlich zu
dem kombinierten Kanal die Intensity-Stereo-Informationen zu bilden.
Die Intensity-Stereo-Informationen
hängen
von der Energie des ersten Kanals, der Energie des zweiten Kanals
oder der Energie des kombinierten Kanals ab.
-
Die
BCC-Technik ist in dem AES-Convention-Paper 5574 „Binaural
Cue Coding applied to stereo and multichannel audio compression", T. Faller, F. Baumgarte,
Mai 2002, München,
beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen in eine
Spektraldarstellung umgewandelt, und zwar unter Verwendung einer
DFT-basierten Transformation mit überlappenden Fenstern. Das
resultierende Spektrum wird in nicht-überlappende Abschnitte eingeteilt,
von denen jeder einen Index hat. Jede Partition hat eine Bandbreite
proportional zu der äquivalenten
Rechteckbandbreite (ERB). Die Inter-Kanal-Pegelunterschiede (ICLD;
ICLD = Inter Channel Level Differences) und die Interkanal-Zeitunterschiede
(ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition
und für
jeden Frame k ermittelt. Die ICLD und ICTD werden quantisiert und
codiert, um schließlich
als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede
und die Interkanal-Zeitunterschiede sind
für jeden
Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter
gemäß vorbestimmter
Formeln berechnet, die von den bestimmten Partitionen des zu verarbeitenden
Signals abhängen.
-
Auf
Decodiererseite empfängt
der Decodierer typischerweise ein Monosignal und den BCC-Bitstrom.
Das Monosignal wird in den Frequenzbereich transformiert und in
einen Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der
auch decodierte ICLD- und ICTD-Werte empfängt. In dem Spatial-Syntheseblock werden
die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation
des Monosignals durchzuführen,
um die Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-Umwandlung
eine Rekonstruktion des ursprünglichen
Multikanal-Audiosignals darstellen.
-
Im
Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um
die kanalseitigen Informationen so auszugeben, dass die parametrischen
Kanaldaten quantisierte und codierte ICLD- oder ICTD-Parameter sind,
wobei einer der ursprünglichen
Kanäle
als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet
wird.
-
Normalerweise
wird der Trägersignal
aus der Summe der teilnehmenden Ursprungskanäle gebildet.
-
Natürlich liefern
die obigen Techniken nur eine Monodarstellung für einen Decodierer, der nur den
Trägerkanal
verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen
Daten zur Erzeugung von einer oder mehreren Approximationen von mehr
als einem Eingangskanal zu verarbeiten.
-
Die
BCC-Technik ist auch in den US-Patentveröffentlichungen US 2003/0219130
A1, US 2003/0026441 A1 und US 2003/0035553 A1 beschrieben. Zusätzlich wird
auf die Fachveröffentlichung „Binaural
Cue Coding. Part II: Schemes and Applications", T. Faller und F. Baumgarte, IEEE Trans.
On Audio and Speech Proc. Bd. 11, Nr. 6, November 2003 verwiesen.
-
Nachfolgend
wird ein typisches BCC-Schema zur Multikanalaudiocodierung detaillierter
dargestellt, und zwar Bezug nehmend auf die 4 bis 6.
-
5 zeigt
ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen.
Das Multikanalaudioeingangssignal an einem Eingang 110 eines
BCC-Codierers 112 wird
in einem sogenannten Downmix-Block 114 heruntergemischt. Bei
diesem Beispiel ist das ursprüngliche
Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit einem
vorderen linken Kanal, einem vorderen rechten Kanal, einem linken
Surround-Kanal, einem rechten Surround-Kanal und einem Mittenkanal. Bei
dem bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein
Summensignal durch eine einfache Addition dieser fünf Kanäle in ein
Monosignal.
-
Andere
Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung
eines Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen
Kanal erhalten wird.
-
Dieser
einzige Kanal wird an einer Summensignalleitung 115 ausgegeben.
Eine Seiteninformation, die von dem BCC- Analyseblock 116 erhalten wird,
wird auf einer Seiteninformationsleitung 117 ausgegeben.
-
Bei
dem BCC-Analyseblock werden Interkanal-Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede
(ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings
ist der BCC-Analyseblock 116 auch in der Lage, Interkanal-Korrelationswerte
(ICC-Werte) zu berechnen. Das Summensignal und die Seiteninformationen
werden in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen.
Der BCC-Decodierer zerlegt das übertragene
Summensignal in eine Anzahl von Subbändern und führt Skalierungen, Verzögerungen
und andere Verarbeitungsschritte aus, um die Subbänder der
auszugebenden Multikanal-Audiokanäle zu liefern.
Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD-
und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals
am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche
Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen.
Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und
einen Seiteninformationenüberarbeitungsblock 123.
-
Nachfolgend
wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug
nehmend auf 6 dargestellt. Das Summensignal
auf der Leitung 115 wird in eine Zeit-/Frequenz-Umwandlungseinheit oder
Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert
eine Anzahl N von Subbandsignalen oder, in einem Extremfall, ein
Block von Spektralkoeffizienten, wenn die Audio-Filterbank 125 eine 1:1-Transformation durchführt, d.
h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten
erzeugt.
-
Der
BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126,
eine Pegelmodifikationsstufe 127, eine Korrelationsverarbeitungsstufe 128 und
eine Inversfilterbankstufe IFB 129. Am Ausgang der Stufe 129 kann
das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle
eines 5-Kanal-Surroundsystems zu einem Satz von Lautsprechern 124 ausgegeben
werden, wie sie in 5 oder 4 dargestellt
sind.
-
Das
Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich
mittels des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben
wird, wird derart kopiert, dass mehrere Versionen desselben Signals
erhalten werden, wie es durch den Kopierknoten 130 dargestellt
ist. Die Anzahl der Versionen des ursprünglichen Signals ist gleich
der Anzahl der Ausgangskanäle
in dem Ausgangssignal. Dann wird jede Version des ursprünglichen
Signals am Knoten 130 einer bestimmten Verzögerung d1, d2, ..., di, ... dN unterzogen. Die
Verzögerungsparameter
werden durch den Seiteninformationsverarbeitungsblock 123 in 5 berechnet
und von den Interkanal-Zeitunterschieden, wie sie durch den BCC-Analyseblock 116 von 5 berechnet
worden sind, abgeleitet.
-
Dasselbe
gilt für
die Multiplikationsparameter a1, a2, ..., ai, ...,
aN, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend
auf den Interkanal-Pegelunterschieden,
wie sie durch den BCC-Analyseblock 116 berechnet worden
sind, berechnet werden.
-
Die
durch den BCC-Analyseblock 116 berechneten ICC-Parameter werden
zum Steuern der Funktionalität
des Blocks 128 verwendet, so dass bestimmte Korrelationen
zwischen den verzögerten
und in ihren Pegeln manipulierten Signalen an den Ausgängen des
Blocks 128 erhalten werden. Es sei hier darauf hingewiesen,
dass die Reihenfolge der Stufen 126, 127, 128 von
der in 6 gezeigten Reihenfolge abweichen kann.
-
Es
sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung
des Audiosignals auch die BCC-Analyse rahmenweise durchgeführt wird, also
zeitlich variabel, und dass ferner eine frequenzweise BCC-Analyse
erhalten wird, wie es durch die Filterbank-Aufteilung aus 6 ersichtlich
ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband erhalten
werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank 125 das
Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der
BCC-Analyseblock
einen Satz von BCC-Parametern für
jedes der 32 Bänder
erhält.
Natürlich
führt der
BCC-Syntheseblock 122 von 5, der detailliert
in 6 dargestellt ist, eine Rekonstruktion durch,
die auch auf den beispielhaft genannten 32 Bändern basiert.
-
Nachfolgend
wird Bezug nehmend auf 4 ein Szenario dargestellt,
das dazu verwendet wird, um einzelne BCC-Parameter zu bestimmen. Normalerweise
können
die ICLD-, ICTD- und ICC-Parameter zwischen Kanalpaaren definiert
werden. Es wird jedoch bevorzugt, die ICLD- und ICTD-Parameter zwischen
einem Referenzkanal und jedem anderen Kanal zu bestimmen. Dies ist
in 4A dargestellt.
-
ICC-Parameter
können
auf verschiedene Arten und Weisen definiert werden. Allgemein gesagt kann
man ICC-Parameter in dem Codierer zwischen allen möglichen
Kanalpaaren bestimmen, wie es in 4B dargestellt
ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den
stärksten
zwei Kanälen
zu einem Zeitpunkt zu berechnen, wie es in 4C dargestellt
ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein
ICC-Parameter zwischen den Kanälen 1 und 2 berechnet
wird, und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen
den Kanälen 1 und 5 berechnet
wird. Der Decodierer synthetisiert dann die Interkanalkorrelation zwischen
den stärksten
Kanälen
in dem Decoder und verwendet bestimmte heuristische Regeln zum Berechnen
und Synthetisieren der Interkanalkohärenz für die restlichen Kanalpaare.
-
Bezüglich der
Berechnung beispielsweise der Multiplikationsparameter a1, aN basierend auf
den übertragenen
ICLD- Parametern
wird auf das AES-Convention-Paper Nr. 5574 Bezug genommen. Die ICLD-Parameter
stellen eine Energieverteilung eines ursprünglichen Mehrkanalsignals dar.
Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in 4A gezeigt, vier ICLD-Parameter zu nehmen,
die die Energiedifferenz zwischen den jeweiligen Kanälen und
dem vorderen linken Kanal darstellen. In dem Seiteninformationsverarbeitungsblock 122 werden die
Multiplikationsparameter a1, ..., aN von den ICLD-Parametern so abgeleitet,
dass die gesamte Energie aller rekonstruierter Ausgangskanäle dieselbe ist
(oder proportional zu der Energie des übertragenen Summensignals ist).
-
Bei
dem in 7 gezeigten Ausführungsbeispiel wird auf die
Frequenz-Zeit-Umsetzung, die durch die inversen Filterbanken IFB 129 von 6 erreicht
werden, verzichtet. Es werden stattdessen die Spektraldarstellungen
der einzelnen Kanäle
am Eingang dieser inversen Filterbanken verwendet und der Kopfhörer-Signalverarbeitungs-Vorrichtung
von 7 zugeführt,
um ohne eine zusätzliche
Frequenz/Zeit-Transformation
die Bewertung der einzelnen Multi-Kanäle mit den jeweils zwei Filtern
pro Multi-Kanal durchzuführen.
-
Im
Hinblick auf eine komplette im Frequenzbereich stattfindende Verarbeitung
sei darauf hingewiesen, dass dann der Multikanal-Decodierer, also
z. B. die Filterbank 125 von 6 und der
Stereo-Codierer dieselbe Zeit/Frequenzauflösung haben sollen. Ferner wird
es bevorzugt, ein und dieselbe Filterbank zu verwenden, was insbesondere
auch dahingehend vorteilhaft ist, dass für die gesamte Verarbeitung,
wie sie in 1 darstellt ist, nur eine einzige
Filterbank benötigt
wird. In diesem Fall ergibt sich eine besonders effiziente Verarbeitung,
da die Transformation im Multikanal-Decodierer und im Stereo-Encodierer nicht
berechnet werden müssen.
-
Die
Eingangsdaten bzw. Ausgangsdaten beim erfindungsgemäßen Konzept
sind daher vorzugsweise im Frequenzbereich codiert mittels Transformation/Filterbank
und sind nach psychoakustischen Vorgaben unter Ausnutzung von Verdeckungseffekten
codiert, wobei insbesondere im Decodierer eine spektrale Darstellung
der Signale vorliegen sollte. Beispiele hierfür sind MP3-Dateien, AAC-Dateien
oder AC3-Dateien. Die Eingangsdaten bzw. Ausgangsdaten können jedoch
auch durch Summen- und Differenzbildung codiert sein, wie es bei
so genannten matrizierten Verfahren der Fall ist. Beispiele hierfür sind Dolby
ProLogic, Logic7 oder Circle Surround. Die Daten insbesondere der
Multikanaldarstellung können
zusätzlich
mit parametrischen Verfahren codiert sein, wie es bei MP3 Surround
der Fall ist, wobei dieses Verfahren auf der BCC-Technik basiert.
-
Abhängig von
den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen in
Hardware oder in Software implementiert werden. Die Implementierung
kann auf einem digitalen Speichermedium, insbesondere einer Diskette
oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die
so mit einem programmierbaren Computersystem zusammenwirken können, dass
das Verfahren ausgeführt
wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem
auf einem maschinenlesbaren Träger
gespeicherten Programmcode zur Durchführung eines erfindungsgemäßen Verfahrens,
wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen
Worten ausgedrückt
kann die Erfindung somit als ein Computer-Programm mit einem Programmcode
zur Durchführung
des Verfahrens realisiert werden, wenn das Computer-Programm auf
einem Computer abläuft.