Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen
Wiedergaberaum definiert
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Wiedergabe von räumlichen Audiosignalen, wie sie beispielsweise bei der Wiedergabe von Filmmaterial, Konzerten oder auch im Bereich der Computer- und Videospiele vorkommen.
Im Bereich der räumlichen Audiowidergabe sind im Stand der Technik mehrere Verfahren bekannt, darunter beispielsweise die Wellenfeldsynthese, deren Grundidee auf dem Huy- gen' sehen Prinzip basiert, wonach jeder Punkt, der von einer Welle erfasst wird, Ausgangspunkt einer Elementarwelle ist, die sich kugelförmig bzw. kreisförmig ausbreitet. Die Wellenfeldsynthese wird in der Akustik, basierend auf einer großen Anzahl von Lautsprechern, die nebeneinander angeordnet sind, einem sog. Lautsprecher-Array, angewendet, und ist prinzipiell in der Lage, jede beliebige Form einer einlaufenden Wellenfront nachzubilden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer Ii- nearen Anordnung der Lautsprecher, können die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung so gefiltert werden, dass sich ein entsprechender räumlicher Eindruck für einen Hörer ergibt, wobei die abgestrahlten Klangfelder der einzelnen Lautspre- eher sich entsprechend überlagern. Sind mehrere Schallquellen vorhanden, wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflektierenden Wänden, so können unter Um- ständen auch Reflexionen über entsprechende Filter mit Hilfe des Lautsprecher-Arrays kompensiert werden.
Der Aufwand bei der Berechnung einer Wellenfeldsynthese hängt stark von der Anzahl der wiederzugebenden Schallquellen, den Reflexionseigenschaften eines Wiedergaberaumes und der Anzahl der Lautsprecher ab. Die Möglichkeiten der WeI- lenfeldsynthese können umso besser ausgeschöpft werden, je größer die Lautsprecher-Arrays sind, d. h. umso mehr einzelne Lautsprecher bereitgestellt werden. Nachteilig ist dabei jedoch, dass die erforderliche Rechenleistung mit der Anzahl der verwendeten Einzellautsprecher steigt. Für jede virtuelle Schallquelle, d.h. wiederzugebende Schallquelle, muss für jeden einzelnen Lautsprecher des Lautsprecher- Arrays ein entsprechendes Signal berechnet und übertragen werden. Insbesondere bei sich bewegenden virtuellen Quellen steigt der Rechenwand immens, so dass konventionelle Syste- me durch die Darstellung bewegter Klangwellen sehr schnell an ihre Grenzen stoßen, wobei der limitierende Faktor die Rechenleistung ist.
Eine weitere bekannte Technik zur räumlichen Schallfeldre- Produktion ist Ambisonic. Diese Technik basiert auf einer harmonischen Zerlegung des akustischen Feldes entlang einer Kugeloberfläche (3-D) oder entlang eines Kreisumfangs (2- D) . Bei der Wiedergabe wird eine endliche Anzahl dieser harmonischen Anteile zur Reproduktion des originalen Schallfeldes an einem Punkt, dem Abhörpunkt, verwendet. Abhängig von der Anzahl der verwendeten harmonischen Anteile (genannt Ordnung) vergrößert sich die räumliche Ausdehnung des Gebietes der optimalen Rekonstruktion des Schallfeldes. Im einfachsten sinnvollen Fall (1. Ordnung) wird hierbei eine Toninformation in vier Kanäle codiert, was auch unter dem Synonym Ambisonic B-Format bekannt ist. Ein Kanal enthält dabei ein Monosignal der Toninformation. Die drei anderen Kanäle enthalten die räumlichen Komponenten der drei räumlichen Dimensionen. Diese drei Signale basieren auf ei- ner harmonischen Zerlegung des akustischen Feldes entlang einer Kugeloberfläche und spiegeln die instantane Druckverteilung der Tonwellen wieder. Dieser Fall ist auch der kommerziell nutzbarste Fall. Weil die vier Signale Ursprung-
lieh als Konkurrenz zur Quadrofonie auf Schallplatte Platz finden mussten. Derzeit arbeitet man an der Ausarbeitung einer Spezifikation, die das Medium DVD benutzt und dementsprechend mehr Kanäle zulässt.
Ambisonic erlaubt ein räumliches Audiosignal in die beschriebenen vier Kanäle zu zerlegen, und entsprechend wieder zusammenzusetzen. Die Signale beziehen sich dabei auf einen Referenzpunkt, der inmitten einer Kugel angeordnet ist, auf deren Oberfläche sich die entsprechenden Lautsprecher befinden. Die Darstellung von räumlichen Audiosignalen nach der Ambisonic-Methode bieten demnach eine weniger komplexe Möglichkeit, räumliche Signale zu speichern und wiederzugeben. Nachteilig an dieser Technologie ist jedoch, dass die räumliche Auflösung und damit der erzielbare Eindruck eines Raumklangs begrenzt sind.
Mit zunehmender Ambisonic-Ordnung lassen sich zwar qualitativ ähnliche Ergebnisse erzielen, wie mit WFS. Allerdings steigt damit auch die Komplexität stark an, und es gibt kein Mikrofon, dass die Richtcharakteristik dieser höheren Harmonischen besitzt. Hier müssen dann ausgeklügelte Mic- Arrays verwendet werden
WFS rekonstruiert innerhalb eines Volumens (oder Fläche) und das in einer Qualität, die vom implementierten Aufwand (z.B. LS-Abstand) abhängig ist.
Ambisonic rekonstruiert zwar exakt, aber von einem Punkt ausgehend und nur für sehr hohe Ordnungen auf einer vergleichbar großen Fläche wie WFS.
Beide Verfahren haben aber eine gemeinsame Theoretische Basis, die Holophonie.
Die Signale beziehen sich auf einen Referenzpunkt, indem sich ein Hörer idealerweise befindet, was die Versorgung
einer größeren Fläche, wie beispielsweise eines Kinos oder einer Konzerthalle entsprechend erschwert.
Ferner ist es eine Vorraussetzung, dass sich sowohl die Wiedergabelautsprecher bezüglich des Abhörpunktes als auch die virtuellen Klangobjekte bezüglich der Wiedergabelautsprecher in ausreichend weiter Entfernung befinden, sodass in jedem Fall ebene Wellenfronten angenommen werden können.
Ferner sind aus der Technologie weitere Methoden zur Darstellung räumlicher Tonquellen bekannt. Beispielsweise DTS (DTS = Digital Theatre System) ist ein digitales Mehrkanal- Surroundsoundformat .
Verfahren wie DTS, Dolby Surround, kann man auch als Kodierungsformate betrachten. Damit kann man Audiosignale, die für die 5.1-Wiedergabe geeignet sind auf z.B. einer DVD speichern.
Es kommt sowohl in Filmtheatern als auch auf Datenträgern, wie beispielsweise DVDs zum Einsatz. Die Wiedergabe erfolgt dabei idealerweise über kreisförmig angeordnete Lautsprecher, in deren Mitte sich ein für die räumliche Klangwiedergabe günstiger Wiedergaberaum befindet, der auch „sweet area" genannt wird. Eine weitere Gruppe von räumlichen
Klangsignalen stellen die Dolby Digital-Signale dar, die in mehreren Varianten verfügbar sind. Abgesehen von der WeI- lenfeldsynthese haben viele Audioformate den Nachteil, dass nur eine sehr begrenzte räumliche Auflösung und damit auch ein begrenzter räumlicher Klangeffekt erzielt werden kann. Die Wellenfeldsynthese selbst bietet zwar die räumliche Auflösung, jedoch ist diese gerade im Falle von mehreren bewegten virtuellen Tonquellen aufgrund limitierter Rechenleistung nicht zu erzielen, wenn z. B. für Consumer- Anwendungen auch Kostenargumente im Hinblick auf die verfügbare Rechenleistung eine Rolle spielen. Ferner entstehen durch die variablen Verzögerungswerte einer bewegten Audioquelle Dopplerartefakte. Die Wellenfeldsynthese ist abhän-
gig von dem Rechenaufwand, der wiederum von der Anzahl der virtuellen Audioquellen, der Anzahl der Renderingkanäle, den Quellbewegungen, den Filterverfahren, den Verzögerungs- interpolationsverfahren usw. abhängt.
Hinsichtlich der Signalverarbeitung von Ambisonic-Surround- Signalen liefert Jerome Daniel, „Further Study of Sound Field Coding with Higher Order Ambisonics" presented at the AES 116 th Convention, Berlin 2004 einen guten Überblick. Eine Beurteilung der Qualität der Schallfeldreproduktion durch Ambisonic kann in Martin Dewhirst, Slawomir Zielinski, Philip Jackson, Francis Rumsey: "Objective As- sessment of Spatial Localisation Attributes of Surround- Sound Reproduction Systems", presented at the AES 118th Convention, Barcelona 2005 gefunden werden. Alois Sontac- chi, Robert Höldrich, "Further Investigations on 3D Sound Fields using distance coding", presented at the Proceedings of the COST G-6 Conference on Digital Audio Effects, Limer- ick 2001 beschäftigt sich mit der Speicherung von räum- liehen Audiosignalen. Die WO 2005/015954 A2 und die WO
02/08506 B beschäftigen sich mit Ambisonic-Signalen, und beschreiben die räumliche Codierung mit der zugehörigen SignalVerarbeitung.
Es ist die Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zu schaffen, um räumliche Audiosignale effizienter und mit besserer räumlicher Auflösung wiederzugeben.
Diese Aufgabe wird gelöst durch eine Vorrichtung gemäß Anspruch 1, ein Verfahren gemäß Anspruch 17 oder ein Computerprogramm gemäß Anspruch 18.
Der Kerngedanke der vorliegenden Erfindung liegt in der Er- kenntnis, dass beispielsweise mit Hilfe der Wellenfeldsyn- these eine hohe räumliche Auflösung erzielt werden kann, die genutzt werden kann, um statische virtuelle Klangwellen zu simulieren. Die statischen virtuellen Klangwellen können
dann wiederum an das jeweilige Audioformat angepasst werden.
Bevorzugterweise kann auch die Eigenschaft der virtuellen Klangwellen auf das Wiedergabeformat angepasst werden, so daß die Charakteristika von Punktquellen oder ebenen Wellen verwendet werden können.
Beispielsweise kann ein 5.1. Audiosignal, das über fünf z. B. auf einem Kreis angeordnete Lautsprecher wiedergegeben wird, durch fünf simulierte Klangwellen mit Hilfe einer Wellenfeldsynthese, die beispielsweise ein Lautsprecher- Array von hundert Lautsprechern bedient, emuliert werden. Auf diese Weise können die Vorteile der Wellenfeldsynthese, das heißt, die höhere räumliche Auflösung, und die Vorteile anderer räumlicher Audiosignalverarbeitungsverfahren, wie beispielsweise Ambisonic genutzt werden. Mit dem erfindungsgemäßen Verfahren können demnach über eine Wellenfeldsynthese nun auch mehrere bewegliche Quellen wiedergegeben werden, wobei der Rechenaufwand für die Wellenfeldsynthese konstant gehalten werden kann, da diese lediglich statische Quellen simulieren muss, die auf statische Filter zurückgehen.
Ein Vorteil des erfindungsgemäßen Verfahrens ist auch die wählbare Anpassung der Komplexität der notwendigen Berechnungen auf die bei der Wiedergabe zur Verfügung stehenden Ressourcen.
Ausführungsbeispiele der vorliegenden Erfindung werden im Folgenden anhand der beigefügten Figuren näher erläutert. Es zeigen:
Fig. 1 ein Ausführungsbeispiel der vorliegenden Erfin- düng;
Fig. 2 ein weiteres Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3 eine Veranschaulichung eines Ausführungsbeispiels der vorliegenden Erfindung; und
Fig. 4 eine beispielhafte Implementierung der Näherungslösung mit Lautsprechern außerhalb eines Kreises.
Fig. 1 zeigt eine Vorrichtung 100 zum Erzeugen einer Anzahl von Lautsprechersignalen 102 für ein Lautsprecher-Array, das einen Wiedergaberaum definiert. Die Vorrichtung 100 um- fasst eine Vorstufe 110, die ausgebildet ist, um unter Verwendung eines oder mehrerer Eingangsaudiosignale 112, das bzw. die einer bzw. mehreren virtuellen Positionen 114 zu- geordnet ist bzw. sind, eine Mehrzahl von Ausgangsaudiosignalen 116 zu erzeugen, wobei jedes Ausgangsaudiosignal 116 einer durch die Vorstufe 110 festgelegten Lautsprecherposition 118 zugeordnet ist, und wobei die Vorstufe 110 so ausgebildet ist, dass die Mehrzahl von Ausgangsaudiosignalen 116 zusammen eine Wiedergabe des oder der Eingangsaudiosignale 112 an der oder den virtuellen Positionen 114 nachbildet, und wobei eine Anzahl von Ausgangsaudiosignalen 116 kleiner als eine Anzahl von Lautsprechersignalen 102 für das Lautsprecher-Array ist. Die Vorrichtung 100 umfasst ferner eine Hauptstufe 120, die ausgebildet ist, um die
Mehrzahl von Ausgangsaudiosignalen 116 zu erhalten und ferner als virtuelle Position für jedes Ausgangsaudiosignal 116, die durch die Vorstufe 110 festgelegten Lautsprecherpositionen 118 zu erhalten, und wobei die Hauptstufe 120 ausgebildet ist, um die Anzahl von Lautsprechersignalen 102 für das Lautsprecher-Array so zu erzeugen, dass durch das Lautsprecher-Array, die durch die Vorstufe 110 festgelegten Lautsprecherpositionen 118 als virtuelle Quelle nachgebildet werden.
In einem Ausführungsbeispiel der vorliegenden Erfindung ist die Hauptstufe 120 ausgebildet, um die Anzahl von Lautsprechersignalen 102 und die durch die Vorstufe 110 erzeugten
festgelegten Lautsprecherpositionen 118 durch eine Wellen- feldsynthese zu erzeugen. Das Lautsprecherarray wird dabei von der Hauptstufe 120 entsprechend angesteuert. Die festgelegten Lautsprecherpositionen 118 werden dabei statisch oder in einem anderen Ausführungsbeispiel semi-statisch derart erzeugt, dass Positionsänderungen der Lautsprecherpositionen 118 weniger häufig oder langsamer erfolgen als Positionsänderungen der virtuellen Positionen 114.
Dies hat zur Folge, dass über die Wellenfeldsynthese nur statische Quellen bzw. semi-statische Quellen erzeugt werden. Dadurch verringert sich der Rechenaufwand für die Wellenfeldsynthese erheblich, wobei bewegte Quellen immer noch über die vorgeschaltete Vorstufe 110 durch entsprechende Ansteuerung der Ausgangsaudiosignale 116 erfolgen kann.
In einem weiteren Ausführungsbeispiel der vorliegenden Erfindung ist die Hauptstufe 120 ausgebildet, um ein virtuelles Lautsprechersystem zu emulieren, das weniger Lautspre- eher umfasst als das Lautsprecherarray. Das virtuelle Lautsprechersystem kann dabei durch Punktquellen oder aber durch ebene Wellen emuliert werden. Sollen bewegte Quellen simuliert werden, so kann dies durch eine Anpassung der Ausgangsaudiosignale 116 über die Vorstufe 110 realisiert werden, wobei die Lautsprecherpositionen 118 unverändert belassen werden können.
Eingangsaudiosig'nale 112 sind in Ausführungsbeispielen der vorliegenden Erfindung in vielerlei Formaten denkbar. Im Ausführungsbeispiel, das in Fig. 1 dargestellt ist, wird beispielhaft davon ausgegangen, dass die Eingangsaudiosignale 112 getrennt von ihren virtuellen Positionen 114 der Vorstufe zur Verfügung gestellt werden. Erfindungsgemäß sind jedoch sämtliche räumliche Audioformate denkbar, wie beispielsweise Ambisonic, Quadrophonie, Prologic, Prologic II, Dolby Digital, Dolby Digital EX, DTS, DTS-ES, SDDS (SDDS = Sonic Dynamic Digital Sound), THX, IMAX usw. Erfindungsgemäß stellt die Vorstufe 110 über ihre Eingangsan-
Schlüsse, wie beispielsweise in der Fig. 1 die Eingangsaudiosignale 112 und die virtuellen Positionen 114, einen Bildbereich in einem Audioformat zur Verfügung. Dieser Bildbereich wird dann von der erfindungsgemäßen Vorrichtung 100 abgebildet in einen Realbereich, der dem Lautsprecher- array und dessen Lautsprechersignalen 102 entspricht. Die Vorstufe 110 konvertiert dabei den Bildbereich in einen Zwischenbereich, der aufwandsgünstig von der Hauptstufe 120 in den Realbereich abgebildet werden kann.
In einem weiteren Ausführungsbeispiel kann die erfindungsgemäße Vorrichtung 100 ferner dazu ausgebildet sein, um zusätzliche Audiosignale oder zusätzliche Positionen zu erhalten, die ebenfalls auf die Lautsprechersignale 102 und das Lautsprecher-Array abgebildet werden, und deren Format sich von dem Format der Eingangsaudiosignale 112 unterscheiden kann. Beispielsweise wäre es denkbar, statische Quellen direkt über die Wellenfeldsynthese anzusteuern, und deren virtuelle Quellpositionen und Ausgangsaudiosignale direkt der Hauptstufe 120 zur Verfügung zu stellen, wohingegen bewegte Audioquellen, über die Vorstufe 110 angesteuert werden. Das Lautsprecherarray selbst kann beispielsweise durch ein zirkuläres Lautsprecherarray realisiert sein. Generell sind jedoch beliebige Formen von Lautsprecherar- rays denkbar, wobei die Hauptstufe 120 dazu ausgelegt sein kann, die beliebigen Formen von Lautsprecherarrays auf einen virtuellen Kreis abzubilden. Dies kann beispielsweise durch Filterung der Signale der einzelnen Lautsprecher geschehen, wie z. B. durch Amplitudenskalierung und Verzöge- rungen pro Lautsprecher. Es kann in diesem Zusammenhang auch von irregulären Lautsprecher-Arrays gesprochen werden, die in Ausführungsbeispielen der vorliegenden Erfindung beispielsweise auf ein virtuelles zirkuläres Array abgebildet werden können.
Zur weiteren Verdeutlichung der vorliegenden Erfindung zeigt Fig. 2 ein Ausführungsbeispiel eines Filmtheaters o- der Konzertsaals 200. Zunächst sei davon ausgegangen, dass
ein Lautsprecherarray 210 auf einem Kreis 215 angeordnet sei. Das Lautsprecherarray 210 umschließt dabei einen Zuschauerraum 220, indem sich die Zuschauer während einer Vorstellung befinden. Mit Hilfe des Lautsprecherarrays 210 können nun über eine Wellenfeldsynthese virtuelle Klangwellen 225 erzeugt werden. Diese virtuellen Klangwellen 225 können nun aufwandsgünstig, d. h. ohne den Rechenbedarf der Wellenfeldsynthese zu erhöhen, genutzt werden, um ein räumliches Klangerlebnis bei einem Zuschauer in dem Zuschauer- räum 220 zu erzeugen.
In einem Ausführungsbeispiel der vorliegenden Erfindung wird die Wellenfeldsynthese als Wiedergabesystem mit den bekannten Vorteilen genutzt. Es werden dabei nur statische Quellen mit Hilfe der Wellenfeldsynthese dargestellt, was ein Wegfallen der Nachteile durch Quellbewegung und beispielsweise durch dynamische Filter zur Folge hat. Der Rechenaufwand der Wellenfeldsynthese wird dadurch weitgehend konstant gehalten, ggf. kann die Anzahl der virtuellen Quellen reduziert werden. Die Wellenfeldsynthese stellt somit ein konstantes virtuelles Lautsprechersystem zu Verfügung. Über ein hybrides Verfahren, z. B. Codierung von Bewegungen in Ambisonic, 5.1, VBAP, usw., können nun bewegte Quellen über das virtuelle Lautsprechersystem realisiert werden.
Es wird somit eine Übertragung in einem Bildbereich realisiert. Eine virtuelle Klangquelle in der Wellenfeldsynthese repräsentiert einen Lautsprecher der virtuellen Wiedergabe- anordnung für das jeweilige Audiowiedergabeverfahren, in welches die dynamische Szene konvertiert werden kann. Diese virtuellen Lautsprecher können in der Wellenfeldsynthese als Punktquellen oder auch durch ebene Wellen wiedergegeben werden. Je nach erwünschtem Realitätsgrad oder verfügbarer Rechenkapazität kann ein Bildbereich, z.B. in der Ambiso- nic-Domäne, im Grad der Darstellung skaliert werden. Die Bewegung einer Klangquelle erfolgt im virtuellen Lautsprechersystem als Lautstärkeveränderung der virtuellen Laut-
Sprecher. Falls notwendig, kann in einem Ausführungsbeispiel auch die Laufzeit einer Originalquelle, beispielsweise direkt im Originalbereich, verändert werden oder, wie bei Higher Order-Ambisonic möglich, auch im Bildbereich. Generell ist das Format der Audioszenen keinen Einschränkungen unterworfen. Zum Beispiel könnte eine Wellenfeldsyn- these-Szene aus z. B. XMT-SAW nach Ambisonic kodiert werden oder auch in einem beliebigen anderen Mehrkanal- Audiowiedergabeverfahren, wie beispielsweise 5.1. Charakte- ristisch an diesem Hybridverfahren ist eine Trennung in zwei Bereiche, den Original- und den Bildbereich. Gleichbedeutend damit ist eine Unabhängigkeit bei der Szenenerstellung respektive Codierung von der letztendlich verwendeten LautsprecheraufStellung .
Nachfolgend wird eine bevorzugte Umrechnung von WFS- Eingangsdaten in Ambisonic-Daten dargestellt. Ausgangspunkt ist das XML Format. Die einzelnen Schallereignisse sind als Objekte kodiert. Folgende Informationen sind in den Objekt- beschreibungen enthalten: Position der .wav Datei mit dem Audiosignal der Quelle, Existenzzeitraum der Quelle, und Bewegungsinformationen der Quelle (Position der Quelle mit time stamps) .
Die Kodierung findet dann wie folgt statt: Die Position
(Abstand und Einfallswinkel) der Schallquelle werden Sam- plegenau berechnet. Mit diesen Informationen können für einfaches Ambisonic und Ambisonic-WFS Hybrid direkt die Ambisonic Signale berechnet werden. Bei Ambisonic mit Nah- feldkodierung werden die Ambisonic Gewichtsfaktoren im Frequenzraum berechnet. Bei einer Fensterlänge, die eine gute Wiedergabequalität ermöglicht, ist nur eine sprunghafte Bewegung der Quelle möglich. Durch Fensterüberlappung kann der Effekt allerdings abgeschwächt werden. Bei der Berech- nung mit dem Ambisonic-WFS-Hybridverfahren. Werden die Symmetrieeigenschaften von Ambisonic genutzt, um eine effizientere Berechnung zu ermöglichen. Beim Hybrid- und Nah- feldkodierten Ambisonic ist zu beachten, dass die Ambiso-
nicsignale für einen Kreis mit vorgegebenem Radius gültig sind, da die Nahfeldeffekte sowohl der Quelle als auch der Lautsprecher in die Berechnung eingehen.
Bei der Wiedergabe von einfachen Ambisonicsignalen müssen keine weiteren Effekte beachtet werden. Die Wiedergabe findet einfach über den Ambisonicplayer statt.
Wenn die Wiedergabeanordnung exakt den Annahmen bei der Ko- dierung entspricht, können auch die Ambisonicsignale aus dem Hybrid- und Nahfeldkodierten Verfahren direkt verwendet werden. Sollte die Wiedergabeanordnung nicht exakt übereinstimmen, gibt es zwei Möglichkeiten: Die Nahfeldeffekte der Lautsprecher werden exakt berücksichtigt. Dabei wird der bei der Dekodierung bereits angenommene Nahfeldeffekt berücksichtigt. Dieses Verfahren ist allerdings aufwendig.
Die zweite Möglichkeit stellt eine Näherungslösung dar. Dafür werden die Signale der Lautsprecher entsprechend ihres Abstandes vom Kreismittelpunkt verzögert und verstärkt. Simulationen haben gezeigt, dass diese Vorgehensweise Ergebnisse vergleichbar zum ersten (exakten) Ansatz liefert. Voraussetzung ist, dass der bei der Kodierung angenommene Radius des Lautsprechers in der Größenordnung der Radii der Wiedergabelautsprecher (am besten Mittelwert) liegt.
Eine bevorzugte Anordnung des Kreises ist in Fig. 4 gezeigt. Wenn man den Radius so legt, dass Quellen innerhalb des Radius liegen, so würde man die Signale entsprechend deren Abstand zum Mittelpunkt dämpfen und im Vergleich zu den anderen Lautsprechern „beschleunigen", was z. B. dadurch erreicht werden kann, wenn alle anderen Lautsprechersignale verzögert werden, so dass der eine nicht verzögerte Lautsprecher im Vergleich zu den anderen Lautsprechern be- schleunigt ist.
Allgemein gesagt ist die Vorstufe 110 vorzugsweise ausgebildet, um Positionsänderungen der bewegten virtuellen Po-
sitionen 114 durch eine Anpassung der Ausgangsaudiosignale 116 abzubilden und die Lautsprecherpositionen 118 unverändert zu belassen, wobei die Anpassung eine Verzögerung oder Verstärkung eines auf eine virtuelle Quelle zurückgehenden Lautsprecherkomponentensignals entsprechend einem Abstand einer virtuellen Quelle von einem gedachten Kreismittelpunkt, auf dem die Lautsprecherpositionen platzierbar sind, aufweist .
Hierbei wird es bevorzugt, dass wobei für jede Lautsprecherposition die Lautsprecherkomponentensignale für die bewegten virtuellen Quellen nach der jeweiligen Verzögerung oder Verstärkung addiert werden, um ein angepasstes Ausgangsaudiosignal zu erzeugen.
Beispielsweise führt eine Veränderung der Position einer Quelle von einem Lautsprecher weg und zu einem anderen Lautsprecher hin dazu, dass das Komponentensignal der Quelle für den Lautsprecher, von dem die Quelle wegbewegt wur- de, abhängig von der Verschiebung bzw. dem Betrag der Positionsänderung verzögert und etwas gedämpft wird. Dagegen kann das Komponentensignal des Lautsprechers, zu dem die Quelle hinbewegt wurde, abhängig von der Verschiebung bzw. dem Betrag der Positionsänderung negativ verzögert und et- was verstärkt werden. Falls eine negative Verzögerung nicht möglich ist, kann das Signal nicht verändert werden, aber alle anderen Signale, so dass effektiv eine negative Verzögerung oder „Beschleunigung" des einen Signals bezüglich der anderen Signale erreicht wird.
Ausführungsbeispiele der vorliegenden Erfindung können auch nicht-kreisförmige oder irreguläre Lautsprecheranordnungen verwenden. Dabei werden die Signale entsprechend ihrer Wiedergabeposition vorgefiltert, d.h. in ihrer Amplitude und Phase und Klangspektrum derart verändert, dass die Entfernung eines Lautsprechers von einem virtuellen Kreis kompensiert wird. Dabei werden also irreguläre Lautsprecheranordnungen wieder auf eine virtuelle kreisförmige Lautsprecher-
anordnung abgebildet. Dieser Effekt ist in der Fig. 2 ebenfalls verdeutlicht. Wird davon ausgegangen, dass das Filmtheater oder der Konzertsaal eine rechteckige Form hat, wie beispielsweise durch 230 angedeutet, so können Ausführungs- beispiele der vorliegenden Erfindung diese nicht regulär angeordneten Lautsprecher auf einen virtuellen Kreis 215 abbilden, indem die entsprechenden Signale in ihrer Amplitude skaliert werden, und deren Verzögerung angepasst wird.
Dabei ist es unerheblich, auf welchem Wege beispielsweise die Ambisonic-Signale gewonnen wurden. Ferner bieten Ausführungsbeispiele der vorliegenden Erfindung die Möglichkeit einer Anpassung des idealen Hörbereichs. Diese Möglichkeit ist indirekt durch die virtuellen Klangquellen ge- geben, die in einem anderen Ausführungsbeispiel anpassbar oder semi-statisch sind.
Die Fig. 3 verdeutlicht dieses Verfahren. Fig. 3 zeigt einen Originalbereich 300, einen Bildbereich 310 und eine Wellenfeldsynthese-Wiedergabe 320. In dem Originalbereich 300 liegt beispielsweise ein Stereosignal oder ein Signal in einem beliebigen anderen räumlichen Audioformat vor. Dieses Signal kann nun in einen Bildbereich konvertiert werden, wobei die Ordnung des Bildbereichs je nach Audio- format skalierbar ist. Der Bildbereich 310 könnte beispielsweise ein Ambisonic-Signal sein. Der Bildbereich 310 wird in Anlehnung an die Fig. 1 durch die Vorstufe 110 bereitgestellt. Aus dem Bildbereich 310 erfolgt eine Anpassung an ein Lautsprecher-Setup, wobei auch irreguläre Laut- sprecher-Setups berücksichtigt werden, es erfolgt eine
Hybridisierung des Audiosignals. Die Wellenfeldsynthese- Wiedergabe 320 in der Fig. 3 entspricht der Hauptstufe 120 der Fig. 1 und bildet letztendlich den Bildbereich in einen Realbereich, nämlich auf Lautsprechersignale für ein Laut- sprecher-Array ab.
Die Komplexität, das heißt der Rechenaufwand, der für die Wellenfeldsynthese notwendig ist, kann somit auf eine end-
liehe Zahl statischer Filter eingeschränkt werden. Damit können vielerlei Probleme der Wellenfeldsynthese bezüglich bewegter Klangwellen gelöst werden, wie beispielsweise das Auftreten von Dopplerartefakten und von zeitlichen Interpo- lationsartefakten. Der Rechenaufwand der Wellenfeldsynthese kann somit nahezu konstant und wesentlich geringer als bei vergleichbaren Wellenfeldsynthesen-Rendering gehalten werden. Ausführungsbeispiele der vorliegenden Erfindung bieten somit den Vorteil, dass eine Realisierung auf DSP-Boards wesentlich kostengünstiger erfolgen kann (DSP = Digital Signal Processor) .
Zur Realisierung einer Wellenfeldsynthese kann für die Codierung beispielsweise die exakte Lösung einer Wellenglei- chung verwendet werden. Die Signale des Originalbereichs könnten sich beispielsweise aus der Richtungscodierung nach der klassischen Ambisonic-Theorie und einer abstandsabhän- gigen Codierung erfolgen. Eine Abstandscodierung kann durch eine Filterung der Ambisonic-Signale der einzelnen Ordnun- gen erfolgen. Nahfeldeffekte der Lautsprecher des Lautspre- cher-Arrays, als auch der codierten Schallquellen können kombiniert werden, somit können die entstehenden Ambisonic- Signale beschränkt gehalten werden. Die zur Wellenfeldsynthese zum Einsatz kommenden Filter sind sowohl von der Fre- quenz des Eingangssignals als auch vom Abstand der Lautsprecher und der reproduzierten Schallquelle abhängig. Die Filterung kann im Frequenzbereich vorgenommen werden, bei veränderlichem Abstand kann eine gleitende Fensterung im Zeitbereich vorgenommen werden, wobei die Filter bei verän- dertem Abstand entsprechend angepasst werden können.
Eine Berechnung der nahfeldkodierten Ambisonic-Signale durch den Hybridansatz liefert ein Filter im Zeitbereich, das automatisch für alle Frequenzen gültig ist. Somit ist auch die Berücksichtigung von unterschiedlichen Abständen der reproduzierten Schallquellen, d.h. der virtuellen Klangquellen, leicht möglich. Ferner bietet sich die Möglichkeit einer Vorfilterung der Signale, um verfahrensbe-
dingte Dämpfungen von hohen Frequenzen auszugleichen. Dann können auch höhere Frequenzen diskret reproduziert werden um Aliasing-Effekte auszuschließen. Rotationsmatrizen für Ambisonic können ferner ausgenutzt werden, um den Berech- nungsaufwand zu verringern. Der Berechnungsaufwand kann dann auf ein Viertel, dem zweidimensionalen Fall, bzw. auf ein Achtel, im dreidimensionalen Fall, des Aufwands bei der direkten Berechnung reduziert werden.
Ausführungsbeispiele der vorliegenden Erfindung bieten somit den Vorteil, dass der Berechnungsaufwand von räumlichen Audiosignalen erheblich reduziert werden kann, und ein anpassungsfähiges System realisiert wird.
Insbesondere wird darauf hingewiesen, dass abhängig von den Gegebenheiten, das erfindungsgemäße Schema auch in Software implementiert sein kann. Die Implementation kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder einer CD mit elektronisch auslesbaren Steuersignalen erfol- gen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt, kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogrammprodukt auf einem Computer abläuft.
Bezugszeichenlistβ
100 Vorrichtung zum Erzeugen einer "Anzahl von Lautspre- chersignalen
102 Lautsprechersignal
110 Vorstufe
112 Eingangsaudiosignal
114 virtuelle Positionen 116 Ausgangsausgangssignale
118 Lautsprecherpositionen
120 Hauptstufe
200 Filmtheater oder Konzertsaal 210 Lautsprecher-Array für Wellenfeldsynthese
215 Kreis
220 Zuschauerraum
225 virtuelle Klangquellen
230 rechteckiger Lautsprecheranordnung
300 Originalbereich
310 Bildbereich
320 Wellenfeldsynthesewiedergabe