DE112021005027T5

DE112021005027T5 - Nahtloses skalierbares decodieren von kanälen, objekten und hoa-audioinhalt

Info

Publication number: DE112021005027T5
Application number: DE112021005027.3T
Authority: DE
Inventors: Moo Young Kim; Dipanjan Sen; Eric Allamanche; J. Kevin Calhoun; Frank Baumgarte; Sina Zamani; Eric Day
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-09-25
Filing date: 2021-09-10
Publication date: 2023-08-10
Also published as: US20230360660A1; GB2614482A; CN116324980A; WO2022066426A1; US12380904B2; GB202304697D0; CN116324980B

Abstract

Offenbart werden Verfahren und Systeme zum Decodieren von immersivem Audioinhalt, der durch eine adaptive Anzahl von Szenenelementen für Kanäle, Audioobjekte, Higher-Order-Ambisonics (HOA) und/oder andere Tonfelddarstellungen codiert wird. Das decodierte Audio wird an die Lautsprecherkonfiguration einer Wiedergabevorrichtung gerendert. Für Bitströme, die Audioszenen mit einer verschiedenen Mischung von Kanälen, Objekten und/oder HOA in aufeinanderfolgenden Frames darstellen, können ein Einblenden des neuen Frames und ein Ausblenden des alten Frames durchgeführt werden. Das Überblenden zwischen aufeinanderfolgenden Frames erfolgen in der Lautsprecheranordnung nach dem Rendern, in dem räumlich decodierten Inhaltstyp vor dem Rendern oder zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers, aber vor dem räumlichen Decodieren und Rendern. Das Überblenden kann einen Immediate Fade-in/Fade-out Frame (IFFF) für den Übergangs-Frame verwenden oder kann eine Overlap-Add-Synthese-Technik, wie die Time-Domain Aliasing Cancellation (TDAC) der MDCT, verwenden.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht den Vorteil der am 25. September 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/083.794 , deren Offenbarung hierin durch Verweis in ihrer Gesamtheit aufgenommen wird.
GEBIET
Diese Offenbarung bezieht sich auf das Gebiet der Audiokommunikation; und insbesondere auf Verfahren der digitalen Signalverarbeitung, die dazu ausgelegt sind, einen immersiven Audioinhalt zu decodieren, der unter Verwendung von Techniken der adaptiven räumlichen Codierung codiert wurde. Es werden auch andere Gesichtspunkte beschrieben.
STAND DER TECHNIK
Unterhaltungselektronikvorrichtungen stellen digitale Audiocodier- und -decodierfähigkeiten von zunehmender Komplexität und Leistung bereit. Herkömmlicherweise wird der Audioinhalt hauptsächlich unter Verwendung eines Zweikanalstereoformats, das einen linken und einen rechten Audiokanal bereitstellt, erzeugt, verteilt und konsumiert. Neuere Marktentwicklungen zielen darauf ab, eine immersivere Hörererfahrung unter Verwendung von reicheren Audioformaten bereitzustellen, die Mehrkanalaudio, objektbasiertes Audio und/oder Ambisonics unterstützen, beispielsweise Dolby Atmos oder MPEG-H.
Die Bereitstellung von immersivem Audioinhalt ist mit einem Bedarf an einer größeren Bandbreite, d. h. einer erhöhten Datenrate für Streamen und Download verglichen mit der für Stereoinhalt, verbunden. Wenn die Bandbreite begrenzt ist, werden Techniken gewünscht, um die Audiodatengröße zu reduzieren, während die bestmögliche Audioqualität beibehalten wird. Ein gemeinsamer Bandbreitenreduzierungsansatz in der perzeptuellen Audiocodierung nutzt vorteilhaft die perzeptuellen Eigenschaften des Hörens, um die Audioqualität beizubehalten. Zum Beispiel können räumliche Codierer, die verschiedenen Inhaltstypen, wie Mehrkanalaudio, Audioobjekten, Higher-Order-Ambisonics (HOA) oder dem Stereoformat, entsprechen, ein bitrateneffizientes Codieren des Tonfelds unter Verwendung von räumlichen Parametern ermöglichen. Um die begrenzte Bandbreite effizient zu verwenden, können Audioszenen verschiedener Komplexitäten unter Verwendung verschiedener Inhaltstypen für die Übertragung räumlich codiert werden. Das Decodieren und Rendern von Audioszenen, die unter Verwendung verschiedener Inhaltstypen codiert werden, kann jedoch räumliche Artefakte einführen, wie beim Übergehen zwischen gerenderten Audioszenen, die unter Verwendung von Inhaltstypen verschiedener räumlicher Auflösung codiert werden. Um einen umfassenderen und immersiveren Audioinhalt unter Verwendung begrenzter Bandbreite bereitzustellen, werden robustere Audiocodierungs- und -decodierungstechniken (Audio-Codec-Techniken) gewünscht.
KURZDARSTELLUNG
Offenbart werden Gesichtspunkte eines skalierbaren Decodierers, der immersiven Audioinhalt, der unter Verwendung einer adaptiven Anzahl von Elementen verschiedener Inhaltstypen dargestellt wird, decodiert und rendert. Audioszenen des immersiven Audioinhalts können durch eine adaptive Anzahl von Szenenelementen in einem oder mehreren Inhaltstypen, die durch Techniken der adaptiven räumlichen Codierung und Basisliniencodierung codiert werden, und adaptive Kanalkonfigurationen dargestellt werden, um die Zielbitrate eines Übertragungskanals oder eines Benutzers zu unterstützen. Zum Beispiel können Audioszenen durch eine adaptive Anzahl von Szenenelementen für Kanäle, Objekte und/oder Higher-Order-Ambisonics (HOA) usw. dargestellt werden. Die HOA beschreibt ein Tonfeld basierend auf sphärischen Oberwellen. Die verschiedenen Inhaltstypen weisen verschiedene Bandbreitenanforderungen und entsprechend eine verschiedene Audioqualität auf, wenn sie an dem Decodierer neu erstellt werden. Techniken der adaptiven räumlichen Kanal- und Objektcodierung können die adaptive Anzahl von Kanälen und Objekten erzeugen, und Techniken der adaptiven räumlichen HOA-Codierung oder HOA-Komprimierung können die adaptive Reihenfolge der HOA erzeugen. Die Adaption kann abhängig von der Zielbitrate, die mit einer gewünschten Qualität verbunden ist, und einer Analyse, die die Priorität der Kanäle, Objekte und der HOA bestimmt, sein. Die Zielbitrate kann sich basierend auf dem Kanalzustand oder der Bitratenanforderung eines oder mehrerer Benutzer dynamisch ändern. Die Prioritätsentscheidungen können basierend auf der räumlichen Ausprägung der durch die Kanäle, Objekte und die HOA dargestellten Tonfeldkomponenten gerendert werden.
Unter einem Gesichtspunkt kann ein skalierbarer Decodierer Audioströme decodieren, die Audioszenen durch eine adaptive Anzahl von Szenenelementen für Kanäle, Objekte, die HOA und/oder eine stereobasierte immersive Codierung (STIC) darstellen. Der skalierbare Decodierer kann die decodierten Ströme auch mit einer festen Lautsprecherkonfiguration rendern. Ein Überblenden der gerenderten Kanäle, Objekte, HOA oder von stereobasierten Signalen zwischen aufeinanderfolgenden Frames kann für dieselbe Lautsprecheranordnung durchgeführt werden. Zum Beispiel können Frame-nach-Frame-Audiobitströme von Kanälen/Objekten, HOA und STIC-Codierungen mit einem räumlichen Kanal-/Objektdecodierer, räumlichen HOA-Decodierer bzw. STIC-Decodierer decodiert werden. Die decodierten Bitströme werden an die Lautsprecherkonfiguration einer Wiedergabevorrichtung gerendert. Wenn der neu gerenderte Frame eine verschiedene Mischung von Kanälen, Objekten, HOA und STIC-Signalen aus dem zuvor gerenderten Frame enthält, kann der neue Frame eingeblendet werden, und der alte Frame kann für dieselbe Lautsprecheranordnung ausgeblendet werden. In der überlappten Periode für das Überblenden kann dasselbe Tonfeld durch zwei verschiedene Mischungen von Kanälen, Objekten, HOA und STIC-Signalen dargestellt werden.
Unter einem Gesichtspunkt werden an einem Audiodecodierer Bitströme decodiert, die Audioszenen mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und/oder STIC-Codierungen darstellen. Der Audiodecodierer kann das Überblenden zwischen Kanälen, Objekten, HOA und Stereoformatsignalen in den Kanälen, Objekten, HOA und dem Stereoformat durchführen. Ein Mischer in derselben Wiedergabevorrichtung wie der Audiodecodierer oder in einer anderen Wiedergabevorrichtung kann die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf ihren jeweiligen Lautsprecheranordnungen rendern. Unter einem Gesichtspunkt können die überblendete Ausgabe des Audiodecodierers und die zeitsynchronisierten Kanal-, Objekt-, HOA- und STIC-Metadaten an andere Wiedergabevorrichtungen übertragen werden, wo PCM und die Metadaten an den Mischer übergeben werden. Unter einem Gesichtspunkt können die überblendete Ausgabe des Audiodecodierers und die zeitsynchronisierten Metadaten als Bitströme komprimiert und an andere Wiedergabevorrichtungen übertragen werden, wo die Bitströme dekomprimiert und an den Mischer übergeben werden. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als eine Datei für ein zukünftiges Rendern gespeichert werden.
Unter einem Gesichtspunkt werden an einem Audiodecodierer Bitströme decodiert, die Audioszenen mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und/oder STIC-Codierungen darstellen. Ein Mischer in derselben Wiedergabevorrichtung kann das Überblenden zwischen Kanälen, Objekten, HOA und Stereoformatsignalen in den Kanälen, Objekten, HOA und dem Stereoformat durchführen. Der Mischer kann dann die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf seiner Lautsprecheranordnung rendern. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers die PCM-Kanäle und ihre zeitsynchronisierten Kanal-, Objekt-, HOA- und STIC-Metadaten sein. Die Ausgabe des Audiodecodierers kann komprimiert und zum Überblenden und Rendern an andere Wiedergabevorrichtungen übertragen werden.
Unter einem Gesichtspunkt werden an einem Audiodecodierer Bitströme decodiert, die Audioszenen mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und/oder STIC-Codierungen darstellen. Das Überblenden zwischen vorherigen und aktuellen Frames kann vor dem räumlichen Decodieren zwischen den Transportkanälen an dem Ausgang des Basisliniendecodierers durchgeführt werden. Ein Mischer in einer oder mehreren Vorrichtungen kann die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf ihren jeweiligen Lautsprecheranordnungen rendern. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers die PCM-Kanäle und ihre zeitsynchronisierten Kanal-, Objekt-, HOA- und STIC-Metadaten sein.
Unter einem Gesichtspunkt der Techniken zum Überblenden zwischen Kanälen, Objekten, HOA und Stereoformatsignalen, wenn der aktuelle Frame Bitströme enthält, die mit einer verschiedenen Mischung von Inhaltstypen als der des vorherigen Frames codiert werden, kann der Übergangs-Frame mit einer Mischung von Strömen beginnen, die als ein Immediate Fade-in/Fade-out Frame (IFFF) bezeichnet werden. Der IFFF kann nicht nur Bitströme des aktuellen Frames enthalten, die mit einer Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Einblenden codiert werden, sondern auch die Bitströme des vorherigen Frames, die mit einer verschiedenen Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Ausblenden codiert werden. Unter einem Gesichtspunkt kann das Überblenden von Strömen unter Verwendung von IFFF zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers, zwischen den räumlich dekomprimierten Signalen als die Ausgabe des räumlichen Decodierers oder zwischen den Lautsprechersignalen als die Ausgabe des Renderers durchgeführt werden.
Unter einem Gesichtspunkt kann das Überblenden von zwei Strömen unter Verwendung einer Overlap-Add-Synthese-Technik, wie der durch die modifizierte diskrete Cosinustransformation (MDCT) verwendeten, durchgeführt werden. Anstatt einen IFFF für den Übergangs-Frame zu verwenden, kann die Time-Domain Aliasing Cancellation (TDAC) der MDCT als impliziter Einblend-/Ausblend-Frame zum räumlichen Mischen von Strömen verwendet werden. Unter einem Gesichtspunkt kann ein implizites räumliches Mischen von Strömen mit TDAC der MDCT zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren durchgeführt werden.
Unter einem Gesichtspunkt wird ein Verfahren zum Decodieren von Audioinhalt offenbart, der durch eine adaptive Anzahl von Szenenelementen für verschiedene Inhaltstypen dargestellt wird, um ein Überblenden der Inhaltstypen durchzuführen. Das Verfahren schließt ein Empfangen von Frames des Audioinhalts ein. Der Audioinhalt wird durch einen oder mehrere Inhaltstypen, wie Kanäle, Objekte, HOA, stereobasierte Signale usw., dargestellt. Die Frames enthalten Audioströme, die den Audioinhalt unter Verwendung einer adaptiven Anzahl von Szenenelementen in dem einen oder den mehreren Inhaltstypen codieren. Das Verfahren schließt außerdem ein Verarbeiten von zwei aufeinanderfolgenden Frames ein, die Audioströme enthalten, die eine verschiedene Mischung der adaptiven Anzahl des Szenenelements in dem einen oder den mehreren Inhaltstypen codieren, um decodierte Audioströme für die zwei aufeinanderfolgenden Frames zu erzeugen. Das Verfahren schließt ferner ein Durchführen eines Überblendens der decodierten Audioströme in den zwei aufeinanderfolgenden Frames basierend auf einer Lautsprecherkonfiguration ein, um eine Vielzahl von Lautsprechern anzusteuern. Unter einem Gesichtspunkt können die überblendeten Ausgaben einem Kopfhörer bereitgestellt oder für Anwendungen, wie binaurales Rendern, verwendet werden.
Die vorstehende Zusammenfassung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der vorliegenden Erfindung ein. Die Erfindung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden ausführlichen Beschreibung offenbart werden und die in den mit der Anmeldung eingereichten Ansprüchen ausdrücklich genannt sind. Solche Kombinationen weisen bestimmte Vorteile auf, die in der vorstehenden Kurzdarstellung nicht spezifisch angegeben sind.
Figurenliste
Verschiedene Gesichtspunkte der Offenbarung hier werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf den gleichen Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann der Kürze halber und zur Reduzierung der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt der Offenbarung zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.

1 ist ein Funktionsblockdiagramm eines Codec mit hierarchischer räumlicher Auflösung, der das Codieren von immersivem Audioinhalt adaptiv einstellt, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung.
2 stellt eine Audiodecodierarchitektur, die Bitströme decodiert und rendert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen basierend auf einer festen Lautsprecherkonfiguration darstellen, sodass ein Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in derselben Lautsprecheranordnung durchgeführt werden kann, gemäß einem Gesichtspunkt der Offenbarung dar.
3 stellt ein Funktionsblockdiagramm von zwei Audiodecodierern, die die Audiodecodierarchitektur von 2 implementieren, um ein räumliches Mischen mit redundanten Frames durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
4 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen darstellen, sodass ein Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in den Kanälen, Objekten, HOA und Stereoformatsignalen in einer Vorrichtung durchgeführt werden kann und die überblendete Ausgabe an mehrere Vorrichtungen zum Rendern übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar.
5 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen in einer Vorrichtung darstellen, und wobei die decodierte Ausgabe an mehrere Vorrichtungen zum Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in den Kanälen, Objekten, HOA und Stereoformatsignalen und zum Rendern übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar.
6 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen in einer Vorrichtung darstellen, und wobei die decodierte Ausgabe an mehrere Vorrichtungen zum Rendern und dann Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in der jeweiligen Lautsprecheranordnung der mehreren Vorrichtungen übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar.
7A stellt ein Überblenden von zwei Strömen unter Verwendung eines Immediate Fade-in/Fade-out Frames (IFFF), die nicht nur Bitströme des aktuellen Frames enthalten, die mit einer Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Einblenden codiert werden, sondern auch die Bitströme des vorherigen Frames, die mit einer verschiedenen Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Ausblenden codiert werden, wobei der IFFF ein unabhängiger Frame sein kann, gemäß einem Gesichtspunkt der Offenbarung dar.
7B stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF, wobei der IFFF ein Frame mit prädiktivem Codieren sein kann, gemäß einem Gesichtspunkt der Offenbarung dar.
8 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 6 implementieren, um ein räumliches Mischen mit einem IFFF durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
9A stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF basierend auf einer Overlap-Add-Synthese-Technik, wie der Time-Domain Aliasing Cancellation (TDAC) der modifizierten diskreten Cosinustransformation (MDCT), gemäß einem Gesichtspunkt der Offenbarung dar.
9B stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF, der N Frames der zwei Ströme überspannt, gemäß einem Gesichtspunkt der Offenbarung dar.
10 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 6 implementieren, um ein implizites räumliches Mischen mit TDAC der MDCT durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
11 stellt eine Audiodecodierarchitektur, die ein Überblenden der Bitströme durchführt, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen zwischen aufeinanderfolgenden Frames als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren darstellen, sodass die Mischer in einer oder mehreren Vorrichtungen die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf ihren jeweiligen Lautsprecheranordnungen rendern können, gemäß einem Gesichtspunkt der Offenbarung dar.
12 stellt ein Funktionsblockdiagramm von zwei Audiodecodierern, die die Audiodecodierarchitektur von 11 implementieren, um ein räumliches Mischen mit redundanten Frames zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
13 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 11 implementieren, um ein räumliches Mischen mit einem IFFF zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
14 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 11 implementieren, um ein implizites räumliches Mischen mit TDAC der MDCT zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar.
15 ist ein Flussdiagramm eines Verfahrens zum Decodieren von Audioströmen, die Audioszenen durch eine adaptive Anzahl von Szenenelement für verschiedene Inhaltstypen darstellen, um ein Überblenden der Inhaltstypen in den Audioströmen durchzuführen, gemäß einem Gesichtspunkt der Offenbarung.

DETAILLIERTE BESCHREIBUNG
Es ist wünschenswert, einen immersiven Audioinhalt über einen Übertragungskanal von einer Audioquelle an ein Wiedergabesystem bereitzustellen, während die bestmögliche Audioqualität beibehalten wird. Wenn sich die Bandbreite des Übertragungskanals aufgrund von sich ändernden Kanalzuständen oder einer sich ändernden Zielbitrate des Wiedergabesystems ändert, kann das Codieren des immersiven Audioinhalts adaptiert werden, um den Kompromiss zwischen Audiowiedergabequalität und der Bandbreite zu verbessern. Der immersive Audioinhalt kann Mehrkanalaudio, Audioobjekte oder räumliche Audiorekonstruktionen, die als Ambisonics bekannt sind, die ein Tonfeld basierend auf sphärischen Oberwellen beschreiben, die verwendet werden können, um das Tonfeld für die Wiedergabe neu zu erstellen, einschließen. Ambisonics können sphärische Oberwellen erster Ordnung oder höherer Ordnung, die auch als Higher-Order-Ambisonics (HOA) bekannt sind, einschließen. Der immersive Audioinhalt kann in Audioinhalt verschiedener Bitraten und räumlicher Auflösung abhängig von der Zielbitrate und Prioritätsrangfolge der Kanäle, Objekte und HOA adaptiv codiert werden. Der adaptiv codierte Audioinhalt und seine Metadaten können über den Übertragungskanal übertragen werden, um es einem oder mehreren Decodierern mit sich ändernden Zielbitraten zu ermöglichen, die immersive Audioerfahrung zu rekonstruieren.
Systeme und Verfahren werden für Audiodecodierungstechniken offenbart, die einen immersiven Audioinhalt decodieren, der durch eine adaptive Anzahl von Szenenelementen für Kanäle, Audioobjekte, HOA und/oder eine andere Tonfelddarstellung, wie STIC-Codierungen, codiert wird. Die Decodierungstechniken können das Decodieren von Audio an die Lautsprecherkonfiguration einer Wiedergabevorrichtung rendern. Für Bitströme, die Audioszenen mit einer verschiedenen Mischung von Kanälen, Objekten, HOA oder stereobasierten Signalen, die in aufeinanderfolgenden Frames empfangen werden, darstellen, können das Einblenden des neuen Frames und das Ausblenden des alten Frames durchgeführt werden. Das Überblenden zwischen aufeinanderfolgenden Frames, die mit einer verschiedenen Mischung von Inhaltstypen codiert werden, kann zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers, zwischen den räumlich dekomprimierten Signalen als die Ausgabe des räumlichen Decodierers oder zwischen den Lautsprechersignalen als die Ausgabe des Renderers erfolgen.
Unter einem Gesichtspunkt können Techniken zum Überblenden von aufeinanderfolgenden Frames, die mit einer verschiedenen Mischung von Kanälen, Objekten, HOA oder stereobasierten Signalen codiert werden, einen Immediate Fade-in/Fade-out Frame (IFFF) für den Übergangs-Frame verwenden. Der IFFF kann Bitströme des aktuellen Frames für das Einblenden und Bitströme des vorherigen Frames für das Ausblenden enthalten, um redundante Frames zu beseitigen, die für das Überblenden erforderlich sind. Unter einem Gesichtspunkt kann das Überblenden eine Overlap-Add-Synthese-Technik, wie die Time-Domain Aliasing Cancellation (TDAC) der MDCT ohne einen expliziten IFFF verwenden. Vorteilhafterweise kann das räumliche Mischen von Audioströmen unter Verwendung der offenbarten Überblendtechniken räumliche Artefakte, die mit dem Überblenden verbunden sind, beseitigen, und kann die Rechenkomplexität, die Latenz und die Anzahl von Decodierern, die zum Decodieren von immersivem Audioinhalt verwendet werden, der durch eine adaptive Anzahl von Szenenelementen für Kanäle, Audioobjekte und/oder HOA codiert wird, reduzieren.
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt. Es versteht sich jedoch, dass Gesichtspunkte der vorliegenden Offenbarung auch ohne diese spezifischen Details umgesetzt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu erschweren.
Die hierin verwendete Terminologie dient lediglich dem Zweck der Beschreibung besonderer Gesichtspunkte und ist nicht als Einschränkung der Erfindung zu verstehen. Raumbezogene Begriffe, wie „unter“, „unterhalb“, „untere/r/s“, „oberhalb“, „obere/r/s“ und dergleichen, können hierin zur einfachen Beschreibung verwendet werden, um die Beziehung eines Elements oder eines Merkmals zu einem weiteren Element, weiteren Elementen, einem weiteren Merkmal oder weiteren Merkmalen, wie in den Figuren veranschaulicht, zu beschreiben. Es versteht sich, dass die raumbezogenen Begriffe dazu dienen, zusätzlich zu der in den Figuren dargestellten Ausrichtung verschiedene Ausrichtungen der Elemente oder Merkmale im Gebrauch oder Betrieb zu erfassen. Wenn zum Beispiel eine Vorrichtung, die mehrere Elemente in den Figuren enthält, umgedreht wird, würden Elemente, die als „unter“ oder „unterhalb von“ anderen Elementen oder Merkmalen beschrieben werden, dann „oberhalb“ der anderen Elemente oder Merkmale ausgerichtet sein. Somit kann der beispielhafte Begriff „unterhalb“ sowohl eine Ausrichtung oberhalb als auch unterhalb umschließen. Die Vorrichtung kann anders ausgerichtet sein (z. B. um 90 Grad gedreht oder in anderen Ausrichtungen), und die hierin verwendeten raumbezogenen Deskriptoren können entsprechend interpretiert werden.
Wie hierin verwendet, sollen die Singularformen „ein“, „eine/r/s“ und „der“, „die“, „das“ auch die Pluralformen einschließen, es sei denn, der Kontext gibt etwas anderes an. Es versteht sich ferner, dass die Begriffe „umfasst“ und/oder „umfassend“ das Vorhandensein von aufgeführten Merkmalen, Schritten, Vorgängen, Elementen und/oder Komponenten spezifizieren, aber das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Schritten, Vorgängen, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen.
Die Begriffe „oder“ und „und/oder“, wie hierin verwendet, sind als inklusiv oder ein Beliebiges oder eine beliebige Kombination bedeutend zu interpretieren. Daher bedeuten „A, B oder C“ oder „A, B und/oder C“ eines der Folgenden: A; B; C; A und B; A und C; B und C; A, B und C". Eine Ausnahme von dieser Definition tritt nur auf, wenn sich eine Kombination von Elementen, Funktionen, Schritten oder Aktionen auf irgendeine Weise inhärent gegenseitig ausschließt.
1 ist ein Funktionsblockdiagramm eines Codec mit hierarchischer räumlicher Auflösung, der das Codieren von immersivem Audioinhalt adaptiv einstellt, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung. Der immersive Audioinhalt 111 kann verschiedene Eingabeformate für immersives Audio, die auch als Tonfelddarstellungen bezeichnet werden, wie Mehrkanalaudio, Audioobjekte, HOA, Dialog, einschließen. Im Fall einer Mehrkanaleingabe können M Kanäle einer bekannten Eingabekanalanordnung, wie einer 7.1.4-Anordnung (7 Lautsprecher in der mittleren Ebene, 4 Lautsprecher in der oberen Ebene, 1 Niederfrequenzeffektlautsprecher (LFE-Lautsprecher)), vorhanden sein. Es versteht sich, dass die HOA auch First-Order-Ambisonics (FOA) einschließen können. In der folgenden Beschreibung der Techniken der adaptiven Codierung können Audioobjekte ähnlich wie Kanäle behandelt werden, und zur Vereinfachung können Kanäle und Objekte im Betrieb des Codecs mit hierarchischer räumlicher Auflösung zusammen gruppiert werden.
Audioszenen des immersiven Audioinhalts 111 können durch eine Anzahl von Kanälen/Objekten 150, HOA 154 und einen Dialog 158 dargestellt werden, begleitet von Kanal-/Objektmetadaten 151, HOA-Metadaten 155 bzw. Dialogmetadaten 159. Metadaten können verwendet werden, um Eigenschaften des zugehörigen Tonfelds, wie die Anordnungskonfiguration oder Richtparameter der zugehörigen Kanäle oder Positionen, Größen, Richtung oder räumliche Bildparameter der zugehörigen Objekte oder HOA zu beschreiben, um einen Renderer dabei zu unterstützen, das gewünschte Quellbild zu erreichen oder die wahrgenommenen Positionen dominanter Töne neu zu erstellen. Um zu ermöglichen, dass der Codec mit hierarchischer räumlicher Auflösung den Kompromiss zwischen räumlicher Auflösung und der Zielbitrate verbessert, können die Kanäle/Objekte und die HOA so eingestuft werden, dass höher eingestufte Kanäle/Objekte und HOA räumlich codiert werden, um eine Tonfelddarstellung höherer Qualität beizubehalten, während niedriger eingestufte Kanäle/Objekte und HOA umgewandelt und in eine Tonfelddarstellung niedrigerer Qualität räumlich codiert werden können, wenn die Zielbitrate abnimmt.
Ein Kanal-/Objektprioritätsentscheidungsmodul 121 kann die Kanäle/Objekte 150 und Kanal-/Objektmetadaten 151 der Audioszenen empfangen, um eine Prioritätsrangfolge 162 der Kanäle/Objekte 150 bereitzustellen. Unter einem Gesichtspunkt kann die Prioritätsrangfolge 162 basierend auf der räumlichen Ausprägung der Kanäle und Objekte, wie der Position, Richtung, Bewegung, Dichte usw. der Kanäle/Objekte 150, gerendert werden. Zum Beispiel können Kanäle/Objekte mit größerer Bewegung nahe der wahrgenommenen Position des dominanten Tons räumlich ausgeprägter sein und können somit höher als Kanäle/Objekte mit weniger Bewegung von der wahrgenommenen Position des dominanten Tons weg eingestuft werden. Um die Verschlechterung der Gesamtaudioqualität der Kanäle/Objekte zu minimieren, wenn die Zielbitrate reduziert wird, kann die Audioqualität, die als räumliche Auflösung der höher eingestuften Kanäle/Objekte ausgedrückt wird, beibehalten werden, während die der niedriger eingestuften Kanäle/Objekte reduziert werden kann. Unter einem Gesichtspunkt können die Kanal-/Objektmetadaten 151 Informationen bereitstellen, um das Kanal-ZObjektprioritätsentscheidungsmodul 121 beim Rendern der Prioritätsrangfolge 162 zu leiten. Zum Beispiel können die Kanal-/Objektmetadaten 151 Prioritätsmetadaten zum Einstufen bestimmter Kanäle/Objekte 150 enthalten, wie sie durch eine menschliche Eingabe bereitgestellt werden. Unter einem Gesichtspunkt können die Kanäle/Objekte 150 und Kanal-/Objektmetadaten 151 das Kanal-/Objektprioritätsentscheidungsmodul 121 als Kanäle/Objekte 160 bzw. Kanal-/Objektmetadaten 161 durchlaufen.
Ein räumlicher Kanal-/Objektcodierer 131 kann die Kanäle/Objekte 160 und die Kanal-/Objektmetadaten 161 basierend auf der Kanal-/Objektprioritätsrangfolge 162 und der Zielbitrate 190 räumlich codieren, um den Kanal-/Objektaudiostrom 180 und die zugehörigen Metadaten 181 zu erzeugen. Zum Beispiel können für die höchste Zielbitrate alle Kanäle/Objekte 160 und die Metadaten 161 in den Kanal-/Objektaudiostrom 180 und die Kanal-/Objektmetadaten 181 räumlich codiert werden, um die höchste Audioqualität des resultierenden Transportstroms bereitzustellen. Die Zielbitrate kann durch den Kanalzustand des Übertragungskanals oder die Zielbitrate der Decodierungsvorrichtung bestimmt werden. Unter einem Gesichtspunkt kann der räumliche Kanal-/Objektcodierer 131 die Kanäle/Objekte 160 in den Frequenzbereich transformieren, um das räumliche Codieren durchzuführen. Die Anzahl der Frequenzteilbänder und die Quantisierung der codierten Parameter können abhängig von der Zielbitrate 190 angepasst werden. Unter einem Gesichtspunkt kann der räumliche Kanal-/Objektcodierer 131 die Kanäle/Objekte 160 und die Metadaten 161 clustern, um eine reduzierte Zielbitrate 190 zu ermöglichen.
Unter einem Gesichtspunkt, wenn die Zielbitrate 190 reduziert wird, können die Kanäle/Objekte 160 und die Metadaten 161, die einen Rang niedrigerer Priorität aufweisen, in einen anderen Inhaltstyp umgewandelt und mit einem anderen Codierer räumlich codiert werden, um einen Transportstrom niedrigerer Qualität zu erzeugen. Der räumliche Kanal-/Objektcodierer 131 codiert diese niedrig eingestuften Kanäle/Objekte möglicherweise nicht, die als Kanäle/Objekte niedriger Priorität 170 und zugehörigen Metadaten 171 ausgegeben werden. Ein HOA-Umwandlungsmodul 123 kann die Kanäle/Objekte niedriger Priorität 170 und die zugehörigen Metadaten 171 in HOA 152 und zugehörige Metadaten 153 umwandeln. Während die Zielbitrate 190 progressiv reduziert wird, können progressiv mehr der Kanäle/Objekte 160 und der Metadaten 161 ausgehend vom niedrigsten des Prioritätsrangs 162 als die Kanäle/Objekte niedriger Priorität 170 und die zugehörigen Metadaten 171 ausgegeben werden, die in die HOA 152 und die zugehörigen Metadaten 153 umgewandelt werden sollen. Die HOA 152 und die zugehörigen Metadaten 153 können räumlich codiert werden, um einen Transportstrom zu erzeugen, der verglichen mit einem Transportstrom, der alle der Kanäle/Objekte 160 vollständig codiert, eine niedrigere Qualität aufweist, aber den Vorteil hat, dass er eine niedrigere Bitrate und eine niedrigere Übertragungsbandbreite erfordert.
Es kann mehrere Hierarchieebenen für das Umwandeln und Codieren der Kanäle/Objekte 160 in einen anderen Inhaltstyp, um niedrigere Zielbitraten zu ermöglichen, geben. Unter einem Gesichtspunkt können einige der Kanäle/Objekte niedriger Priorität 170 und zugehörigen Metadaten 171 mit einer parametrischen Codierung, wie einem Codierer für stereobasierte immersive Codierung (STIC-Codierer) 137, codiert werden. Der STIC-Codierer 137 kann einen Zweikanalstereoaudiostrom 186 aus einem immersiven Audiosignal rendern, wie durch Abwärtsmischen von Kanälen oder Rendern von Objekten oder HOA in ein Stereosignal. Der STIC-Codierer 137 kann auch Metadaten 187 basierend auf einem perzeptuellen Modell erzeugen, das Parameter ableitet, die die wahrgenommene Richtung dominanter Töne beschreiben. Durch Umwandeln und Codieren einiger der Kanäle/Objekte in den Stereoaudiostrom 186 anstelle von HOA kann eine weitere Reduzierung der Bitrate ermöglicht werden, wenn auch in einem Transportstrom niedrigerer Qualität. Während der STIC-Codierer 137 derart beschrieben wird, dass er Kanäle, Objekte oder HOA in den Zweikanalstereoaudiostrom 186 rendert, ist der STIC-Codierer 137 nicht darauf beschränkt und kann die Kanäle, Objekte oder HOA in einen Audiostrom von mehr als zwei Kanälen rendern.
Unter einem Gesichtspunkt können bei einer mittleren Zielbitrate einige der Kanäle/Objekte niedriger Priorität 170 mit dem niedrigsten Prioritätsrang und ihre zugehörigen Metadaten 171 in den Stereoaudiostrom 186 und die zugehörigen Metadaten 187 codiert werden. Der/das verbleibende Kanal/Objekt niedriger Priorität 170 mit einem Rang höherer Priorität und ihre zugehörigen Metadaten können in die HOA 152 und zugehörigen Metadaten 153 umgewandelt werden, die mit anderen HOA 154 und zugehörigen Metadaten 155 aus dem immersiven Audioinhalt 111 priorisiert und in einen HOA-Audiostrom 184 und die zugehörigen Metadaten 185 codiert werden können. Die verbleibenden Kanäle/Objekte 160 mit dem höchsten Prioritätsrang und ihre Metadaten werden in den Kanal-/Objektaudiostrom 180 und die zugehörigen Metadaten 181 codiert. Unter einem Gesichtspunkt können bei der niedrigsten Zielbitrate alle der Kanäle/Objekte 160 in den Stereoaudiostrom 186 und die zugehörigen Metadaten codiert werden, wobei keine codierten Kanäle, Objekte oder HOA in dem Transportstrom verbleiben. Ähnlich wie die Kanäle/Objekte können die HOA auch derart eingestuft werden, dass höher eingestufte HOA räumlich codiert werden, um die Tonfelddarstellung höherer Qualität der HOA beizubehalten, während niedriger eingestufte HOA in eine Tonfelddarstellung niedrigerer Qualität, wie ein Stereosignal, gerendert werden. Ein HOA-Prioritätsentscheidungsmodul 125 kann die HOA 154 und die zugehörigen Metadaten 155 der Tonfelddarstellung der Audioszenen aus dem immersiven Audioinhalt 111 sowie die umgewandelten HOA 152, die aus den Kanälen/Objekten niedriger Priorität 170 und den zugehörigen Metadaten 153 umgewandelt wurden, empfangen, um eine Prioritätsrangfolge 166 zwischen den HOA bereitzustellen. Unter einem Gesichtspunkt kann die Prioritätsrangfolge basierend auf der räumlichen Ausprägung der HOA, wie der Position, Richtung, Bewegung, Dichte usw. der HOA, gerendert werden. Um die Verschlechterung der Gesamtaudioqualität der HOA zu minimieren, wenn die Zielbitrate reduziert wird, kann die Audioqualität der höher eingestuften HOA beibehalten werden, während die der niedriger eingestuften HOA reduziert werden kann. Unter einem Gesichtspunkt können die HOA-Metadaten 155 Informationen bereitstellen, um das HOA-Prioritätsentscheidungsmodul 125 beim Rendern der HOA-Prioritätsrangfolge 166 zu leiten. Das HOA-Prioritätsentscheidungsmodul 125 kann die HOA 154 aus dem immersiven Audioinhalt 111 und die umgewandelten HOA 152, die aus den Kanälen/Objekten niedriger Priorität 170 umgewandelt wurden, kombinieren, um die HOA 164 zu erzeugen, sowie die zugehörigen Metadaten der kombinierten HOA kombinieren, um die HOA-Metadaten 165 zu erzeugen.
Ein hierarchischer räumlicher HOA-Codierer 135 kann die HOA 164 und die HOA-Metadaten 165 basierend auf der HOA-Prioritätsrangfolge 166 und der Zielbitrate 190 räumlich codieren, um den HOA-Audiostrom 184 und die zugehörigen Metadaten 185 zu erzeugen. Zum Beispiel können für eine hohe Zielbitrate alle der HOA 164 und der HOA-Metadaten 165 in den HOA-Audiostrom 184 und die HOA-Metadaten 184 räumlich codiert werden, um einen Transportstrom hoher Qualität bereitzustellen. Unter einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 die HOA 164 in den Frequenzbereich transformieren, um das räumliche Codieren durchzuführen. Die Anzahl der Frequenzteilbänder und die Quantisierung der codierten Parameter können abhängig von der Zielbitrate 190 angepasst werden. Unter einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 die HOA 164 und die HOA-Metadaten 165 clustern, um eine reduzierte Zielbitrate 190 zu ermöglichen. Unter einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 Komprimierungstechniken durchführen, um eine adaptive Reihenfolge der HOA 164 zu erzeugen.
Unter einem Gesichtspunkt, wenn die Zielbitrate 190 reduziert wird, können die HOA 164 und die Metadaten 165, die einen Rang niedrigerer Priorität aufweisen, als ein Stereosignal codiert werden. Der hierarchische räumliche HOA-Codierer 135 codiert diese niedrig eingestuften HOA möglicherweise nicht, die als HOA niedriger Priorität 174 und zugehörige Metadaten 175 ausgegeben werden. Während die Zielbitrate 190 progressiv reduziert wird, können progressiv mehr der HOA 164 und der HOA-Metadaten 165 ausgehend von dem niedrigsten des Prioritätsrangs 166 als die HOA niedriger Priorität 174 und die zugehörigen Metadaten 175 ausgegeben werden, die in den Stereoaudiostrom 186 und die zugehörigen Metadaten 187 codiert werden sollen. Der Stereoaudiostrom 186 und die zugehörigen Metadaten 187 erfordert eine niedrigere Bitrate und eine niedrigere Übertragungsbandbreite verglichen mit einem Transportstrom, der alle der HOA 164 vollständig codiert, wenn auch bei einer niedrigeren Audioqualität. Somit, während die Zielbitrate 190 reduziert wird, kann ein Transportstrom für eine Audioszene eine größere Mischung einer Hierarchie von Inhaltstypen niedrigerer Audioqualität aufweisen. Unter einem Gesichtspunkt kann die hierarchische Mischung der Inhaltstypen Szene-nach-Szene, Frame-nach-Frame oder Paket-nach-Paket adaptiv geändert werden. Vorteilhafterweise passt der Codec mit hierarchischer räumlicher Auflösung die hierarchische Codierung des immersiven Audioinhalts adaptiv an, um eine sich ändernde Mischung von Kanälen, Objekten, HOA und Stereosignalen basierend auf der Zielbitrate und der Prioritätsrangfolge von Komponenten der Tonfelddarstellung zu erzeugen, um den Kompromiss zwischen Audioqualität und der Zielbitrate zu verbessern.
Unter einem Gesichtspunkt können Audioszenen des immersiven Audioinhalts 111 den Dialog 158 und die zugehörigen Metadaten 159 enthalten. Ein räumlicher Dialogcodierer 139 kann den Dialog 158 und die zugehörigen Metadaten 159 basierend auf der Zielbitrate 190 codieren, um einen Sprachstrom 188 und Sprachmetadaten 189 zu erzeugen. Unter einem Gesichtspunkt kann der räumliche Dialogcodierer 139 den Dialog 158 in einen Sprachstrom 188 von zwei Kanälen codieren, wenn die Zielbitrate 190 hoch ist. Wenn die Zielbitrate 190 reduziert wird, kann der Dialog 158 in einen Sprachstrom 188 eines Kanals codiert werden.
Ein Basisliniencodierer 141 kann den Kanal-/Objektaudiostrom 180, HOA-Audiostrom 184 und Stereoaudiostrom 186 in einen Audiostrom 191 basierend auf der Zielbitrate 190 codieren. Der Basisliniencodierer 141 kann beliebige bekannte Codierungstechniken verwenden. Unter einem Gesichtspunkt kann der Basisliniencodierer 141 die Rate und die Quantisierung der Codierung an die Zielbitrate 190 anpassen. Ein Sprachcodierer 143 kann den Sprachstrom 188 für den Audiostrom 191 separat codieren. Die Kanal/Metadaten 181, HOA-Metadaten 185, Stereometadaten 187 und die Sprachmetadaten 189 können zu einem einzelnen Transportkanal des Audiostroms 191 kombiniert werden. Der Audiostrom 191 kann über einen Übertragungskanal übertragen werden, um es einem oder mehreren Decodierern zu ermöglichen, den immersiven Audioinhalt 111 zu rekonstruieren.
2 stellt eine Audiodecodierarchitektur, die Bitströme decodiert und rendert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen basierend auf einer festen Lautsprecherkonfiguration darstellen, sodass ein Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in derselben Lautsprecheranordnung durchgeführt werden kann, gemäß einem Gesichtspunkt der Offenbarung dar. Drei Pakete werden durch den Paketempfänger empfangen. Die Pakete 1, 2 und 3 können Bitströme enthalten, die mit 1000 kBit/s (16 Objekte), 512 kBit/s (4 Objekte + 8 HOA) bzw. 64 kBit/s (2 STIC) codiert werden. Frame-nach-Frame-Audiobitströme von Kanälen/Objekten, HOA und eine stereobasierte parametrische Codierung können mit einem räumlichen Kanal-/Objekt-Decodierer/-Renderer, räumlichen HOA-Decodierer/-Renderer bzw. Stereo-Decodierer/- Renderer decodiert werden. Die decodierten Bitströme können an die Lautsprecherkonfiguration (z. B. 7.1.4 einer Benutzervorrichtung) gerendert werden.
Wenn ein neues Paket eine verschiedene Mischung von Kanälen, Objekten, HOA und stereobasierten Signalen aus dem vorherigen Paket enthält, kann das neue Paket eingeblendet werden und kann das alte Paket ausgeblendet werden. In der überlappten Periode für das Überblenden kann dasselbe Tonfeld durch zwei verschiedene Mischungen von Kanälen, Objekten, HOA und stereobasierten Signalen dargestellt werden. Zum Beispiel wird bei Frame Nr. 9 dieselbe Audioszene durch entweder 4 Objekte + 8 HOA oder 2 STIC dargestellt. Die 4 Objekte + 8 HOA des alten Pakets können ausgeblendet werden, und die 2 STIC des neuen Pakets können in der 7.1.4-Lautsprecherdomäne eingeblendet werden.
3 stellt ein Funktionsblockdiagramm von zwei Audiodecodierern, die die Audiodecodierarchitektur von 2 implementieren, um ein räumliches Mischen mit redundanten Frames durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (301) enthält Frames 1 bis 4. Jeder Frame in Paket 1 schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (302) enthält Frames 3 bis 6. Jeder Frame in Paket 2 schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Die zwei Pakete enthalten überlappte und redundante Frames 3 bis 4, die die überlappte Periode für das Überblenden darstellen. Ein Basisliniendecodierer 309 eines ersten Audiodecodierers führt das Basisliniendecodieren der Bitströme in Frames 1 bis 4 von Paket 1 (301) durch. Ein Basisliniendecodierer 359 eines zweiten Audiodecodierers führt das Basisliniendecodieren der Bitströme in Frames 3 bis 6 von Paket 2 (302) durch.
Ein räumlicher Objektdecodierer 303 des ersten Audiodecodierers decodiert die codierten Objekte in Frames 1 bis 4 von Paket 1 (301) in eine N1-Anzahl decodierter Objekte 313. Ein Objekt-Renderer 323 in dem ersten Audiodecodierer rendert die N1 decodierten Objekte 313 in die Lautsprecherkonfiguration (z. B. 7.1.4) des ersten Audiodecodierers. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 333 dargestellt werden.
Ein räumlicher HOA-Decodierer 305 in dem ersten Audiodecodierer decodiert die codierten HOA in Frames 1 bis 4 von Paket 1 (301) in eine N2-Anzahl decodierter HOA 315. Ein HOA-Renderer 325 in dem ersten Audiodecodierer rendert die N2 decodierten HOA 315 in die Lautsprecherkonfiguration. Die gerenderten HOA können durch die O1-Anzahl von Lautsprecherausgaben 335 dargestellt werden. Die gerenderten Objekte in der O1-Anzahl von Lautsprecherausgaben 333 und die gerenderten HOA in der O1-Anzahl von Lautsprecherausgaben 335 können unter Verwendung eines Ausblenden-Fensters 309 an dem Frame 4 ausgeblendet werden, um eine Lautsprecherausgabe zu erzeugen, die O1 Objekte 343 und O1 HOA 345 enthält. Dementsprechend decodiert ein räumlicher Objektdecodierer 353 des zweiten Audiodecodierers die codierten Objekte in Frames 3 bis 6 von Paket 2 (302) in eine N3-Anzahl decodierter Objekte 363. Ein Objekt-Renderer 373 in dem zweiten Audiodecodierer rendert die N3 decodierten Objekte 363 in dieselbe Lautsprecherkonfiguration wie derselbe Audiodecodierer. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 383 dargestellt werden.
Ein STIC-Decodierer 357 in dem zweiten Audiodecodierer decodiert die codierten STIC-Signale in Frames 3 bis 6 von Paket 2 (302) in decodierte STIC-Signale 367. Ein STIC-Renderer 377 in dem zweiten Audiodecodierer rendert die decodierten STIC-Signale 367 in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 387 dargestellt werden. Die gerenderten Objekte in der O1-Anzahl von Lautsprecherausgaben 383 und die gerenderten STIC-Signale in der O1-Anzahl von Lautsprecherausgaben 387 können unter Verwendung eines Einblenden-Fensters 359 an dem Frame 4 eingeblendet werden, um eine Lautsprecherausgabe zu erzeugen, die O1 Objekte 393 und O1 STIC-Signale 397 enthält. Ein Mischer kann die Lautsprecherausgabe, die O1 Objekte 343 und O1 HOA 345 von Frames 1 bis 4 enthält, mit der Lautsprecherausgabe, die 01 Objekte 393 und O1 STIC-Signale 397 von Frames 4 bis 6 enthält, mischen, um die 01 Lautsprecherausgabe 350 zu erzeugen, wobei das Überblenden an dem Frame 4 erfolgt. Somit wird das Überblenden von Objekten, HOA und STIC-Signalen in derselben Lautsprecheranordnung durchgeführt.
4 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen darstellen, sodass ein Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in den Kanälen, Objekten, HOA und Stereoformatsignalen in einer Vorrichtung durchgeführt werden kann und die überblendete Ausgabe an mehrere Vorrichtungen zum Rendern übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar. Die Pakete 1, 2 und 3 können dieselben codierten Bitströme wie in 2 enthalten.
Frame-nach-Frame-Audiobitströme von Kanälen/Objekten, HOA und STIC-Signalen können mit dem räumlichen Kanal-/Objektdecodierer, räumlichen HOA-Decodierer bzw. STIC-Decodierer decodiert werden. Zum Beispiel kann der räumliche HOA-Decodierer eine räumlich komprimierte Darstellung der HOA-Signale in HOA-Koeffizienten decodieren. Die HOA-Koeffizienten können dann anschließend gerendert werden. Die decodierten Bitströme können an dem Frame Nr. 9 der räumlich decodierten Kanäle/Objekte, HOA und STIC-Signale vor dem Rendern überblendet werden. Ein Mischer in derselben Wiedergabevorrichtung wie der Audiodecodierer oder in einer anderen Wiedergabevorrichtung kann die überblendeten Kanäle, Objekte, HOA und STIC-Signale basierend auf ihren jeweiligen Lautsprecheranordnungen rendern. Unter einem Gesichtspunkt kann die überblendete Ausgabe des Audiodecodierers als Bitströme komprimiert und an andere Wiedergabevorrichtungen übertragen werden, wo die Bitströme dekomprimiert und dem Mischer zum Rendern basierend auf ihren jeweiligen Lautsprecheranordnungen übergeben werden. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als eine Datei für ein zukünftiges Rendern gespeichert werden.
5 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen in einer Vorrichtung darstellen, und wobei die decodierte Ausgabe an mehrere Vorrichtungen zum Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in den Kanälen, Objekten, HOA und Stereoformatsignalen und zum Rendern übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar. Die Pakete 1, 2 und 3 können dieselben codierten Bitströme wie in 2 und 4 enthalten.
Frame-nach-Frame-Audiobitströme von Kanälen/Objekten, HOA und STIC-Signalen können mit dem räumlichen Kanal-/Objektdecodierer, räumlichen HOA-Decodierer bzw. STIC-Decodierer decodiert werden. Ein Mischer in derselben Wiedergabevorrichtung wie der Decodierer kann das Überblenden zwischen den räumlich dekomprimierten Signalen als die Ausgabe des räumlichen Decodierers vor dem Rendern durchführen. Der Mischer kann dann die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf der Lautsprecheranordnung rendern. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als Bitströme komprimiert und an andere Wiedergabevorrichtungen übertragen werden, wo die Bitströme dekomprimiert und dem Mischer zum Überblenden und Rendern basierend auf ihren jeweiligen Lautsprecheranordnungen übergeben werden. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als eine Datei für ein zukünftiges Rendern gespeichert werden.
6 stellt eine Audiodecodierarchitektur, die Bitströme decodiert, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen in einer Vorrichtung darstellen, und wobei die decodierte Ausgabe an mehrere Vorrichtungen zum Rendern und dann Überblenden der Bitströme zwischen aufeinanderfolgenden Frames in der jeweiligen Lautsprecheranordnung der mehreren Vorrichtungen übertragen werden kann, gemäß einem Gesichtspunkt der Offenbarung dar. Die Pakete 1, 2 und 3 können dieselben codierten Bitströme wie in 2, 4 und 5 enthalten.
Frame-nach-Frame-Audiobitströme von Kanälen/Objekten, HOA und STIC-Signalen können mit dem räumlichen Kanal-/Objektdecodierer, räumlichen HOA-Decodierer bzw. STIC-Decodierer decodiert werden. Ein Mischer in derselben Wiedergabevorrichtung wie der Decodierer kann die decodierten Bitströme basierend auf der Lautsprecherkonfiguration rendern. Der Mischer kann das Überblenden zwischen den Kanälen, Objekten, HOA und STIC-Signalen zwischen den Lautsprechersignalen durchführen. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als Bitströme komprimiert und an andere Wiedergabevorrichtungen übertragen werden, wo die Bitströme dekomprimiert und dem Mischer zum Rendern basierend auf ihren jeweiligen Lautsprecheranordnungen und Überblenden übergeben werden. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als eine Datei für ein zukünftiges Rendern gespeichert werden.
7A stellt ein Überblenden von zwei Strömen unter Verwendung eines Immediate Fade-in/Fade-out Frames (IFFF), der nicht nur Bitströme des aktuellen Frames enthalten kann, die mit einer Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Einblenden codiert werden, sondern auch die Bitströme des vorherigen Frames, die mit einer verschiedenen Mischung von Kanälen, Objekten, HOA und Stereoformatsignalen für das Ausblenden codiert werden, wobei der IFFF ein unabhängiger Frame sein kann, gemäß einem Gesichtspunkt der Offenbarung dar.
Zum sofortigen Einblenden und Ausblenden von zwei verschiedenen Strömen kann der Übergangs-Frame mit dem IFFF beginnen. Der IFFF kann Bitströme des aktuellen Frames für das Einblenden und Bitströme des vorherigen Frames für das Ausblenden enthalten, um redundante Frames für das Überblenden, wie die in 3 verwendeten überlappenden und redundanten Frames, zu beseitigen. Wenn der IFFF als unabhängiger Frame (I-Frame) codiert ist, kann er sofort decodiert werden. Wenn er jedoch mit prädiktiver Codierung (P-Frame) codiert ist, sind Bitströme der vorherigen Frames erforderlich sind Decodieren. In diesem Fall kann der IFFF diese redundanten vorherigen Frames, beginnend mit einem I-Frame, enthalten.
7B stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF, wobei der IFFF ein Frame mit prädiktivem Codieren sein kann, gemäß einem Gesichtspunkt der Offenbarung dar. Der IFFF kann redundante vorherige Frames 2 bis 3 enthalten, die mit dem I-Frame in Frame 2 beginnen, weil der Frame 3 auch ein Frame mit prädiktivem Codieren ist.
8 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 6 implementieren, um ein räumliches Mischen mit einem IFFF durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (801) enthält Frames 1 bis 4. Jeder Frame in Paket 1 (801) schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (802) enthält Frames 5 bis 8. Jeder Frame in Paket 2 (802) schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Der erste Frame von Paket 2 (802) oder Frame 5 ist ein IFFF, der das Übergangs-Frame für das Überblenden darstellt. Ein Basisliniendecodierer 809 des Audiodecodierers führt das Basisliniendecodieren der Bitströme in beiden Paketen durch. Ein räumlicher Objektdecodierer 803 des Audiodecodierers decodiert die codierten Objekte in Frames 1 bis 4 von Paket 1 (801) und Frames 5 bis 8 von Paket 2 (802) in eine N1 Anzahl decodierter Objekte 813. Ein Objekt-Renderer 823 rendert die N1 decodierten Objekte 813 in die Lautsprecherkonfiguration (z. B. 7.1.4) des Audiodecodierers. Die gerenderten Objekte können durch die O1 Anzahl von Lautsprecherausgaben 833 dargestellt werden. Ein räumlicher HOA-Decodierer 805 in dem Audiodecodierer decodiert die codierten HOA in Frames 1 bis 4 von Paket 1 (801) und den IFFF von Paket 2 (802) in eine N2-Anzahl decodierter HOA 815. Ein HOA-Renderer 825 rendert die N2 decodierten HOA 815 in die Lautsprecherkonfiguration. Die gerenderten HOA können durch die O1-Anzahl von Lautsprecherausgaben 835 dargestellt werden.
Ein STIC-Decodierer 807 im Audiodecodierer decodiert die codierten STIC-Signale in dem IFFF (Frame 5) von Paket 2 (802) und die verbleibenden Frames 6 bis 8 von Paket 2 (802) in decodierte STIC-Signale 817. Ein STIC-Renderer 827 rendert die decodierten STIC-Signale 817 in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 837 dargestellt werden. Ein Einblenden-Ausblenden-Fenster 809 führt ein Überblenden von Lautsprecherausgaben, die die 01 Objekte 833, O1 HOA 835 und O1 STIC-Signale 837 enthalten, durch, um die O1 Lautsprecherausgabe 850 zu erzeugen, wobei das Überblenden an dem Frame 5 erfolgt. Somit wird das Überblenden von Objekten, HOA und STIC-Signalen in derselben Lautsprecheranordnung durchgeführt. Da der IFFF Bitströme des aktuellen Frames für das Einblenden und Bitströme des vorherigen Frames für das Ausblenden enthält, beseitigt er den Einsatz von redundanten Frames für das Überblenden, wie die in 3 verwendeten überlappenden und redundanten Frames. Ein weiterer Vorteil des Verwendens des IFFF für das Überblenden schließt eine reduzierte Latenz und die Fähigkeit, nur einen Audiodecodierer im Vergleich zu den zwei Audiodecodierern von 3 zu verwenden, ein. Unter einem Gesichtspunkt kann das Überblenden von Objekten, HOA und STIC-Signalen zwischen aufeinanderfolgenden Frames unter Verwendung von IFFF in den Kanälen, Objekten, HOA und Stereoformatsignalen, wie den in 4 und 5 dargestellten Audiodecodierungsarchitekturen, durchgeführt werden.
9A stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF basierend auf einer Overlap-Add-Synthese-Technik, wie der Time-Domain Aliasing Cancellation (TDAC) der modifizierten diskreten Cosinustransformation (MDCT), gemäß einem Gesichtspunkt der Offenbarung dar. Für das Einblenden eines neuen Pakets, wenn eine TDAC der MDCT erforderlich ist, wird in dem IFFF ein weiterer redundanter Frame hinzugefügt. Zum Beispiel ist MDCT-Koeffizienten für Frame 3 erforderlich, um eine decodierte Audioausgabe für das Frame 4 zu erhalten. Da der Frame 3 jedoch ein P-Frame ist, wird nicht nur der Frame 3, sondern auch der Frame 2, der ein I-Frame ist, in dem IFFF hinzugefügt.
9B stellt ein Überblenden von zwei Strömen unter Verwendung eines IFFF, der N Frames der zwei Ströme überspannt, gemäß einem Gesichtspunkt der Offenbarung dar. Wenn N Frame für das Überblendet verwendet werden, sind Bitströme, die die N Frame von vorherigen und aktuellen Paketen darstellen, in dem IFFF enthalten.
10 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 6 implementieren, um ein implizites räumliches Mischen mit TDAC der MDCT durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (1001) enthält Frames 1 bis 4. Jedes Frame in Paket 1 (1001) schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (1002) enthält Frames 5 bis 8. Jeder Frame in Paket 2 (1002) schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Der erste Frame von Paket 2 (1002) oder Frame 5 ist ein impliziter IFFF, der den Übergangs-Frame für das Überblenden basierend auf einer TDAC der MDCT darstellt. Ein Basisliniendecodierer 1009 des Audiodecodierers führt das Basisliniendecodieren der Bitströme in beiden Paketen durch.
Ein räumlicher Objektdecodierer 1003 des Audiodecodierers decodiert die codierten Objekte in Frames 1 bis 4 von Paket 1 (1001) und Frames 5 bis 8 von Paket 2 (1002) in eine N1-Anzahl decodierter Objekte 1013. Ein Objekt-Renderer 1023 rendert die N1 decodierten Objekte 1013 in die Lautsprecherkonfiguration (z. B. 7.1.4) des Audiodecodierers. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 1033 dargestellt werden.
Ein räumlicher HOA-Decodierer 1005 in dem Audiodecodierer decodiert die codierten HOA in Frames 1 bis 4 von Paket 1 (1001) und den impliziten IFFF von Paket 2 (1002) in eine N2-Anzahl decodierter HOA 1015. Ein HOA-Renderer 1025 rendert die N2 decodierten HOA 1015 in die Lautsprecherkonfiguration. Die gerenderten HOA können durch die O1-Anzahl von Lautsprecherausgaben 1035 dargestellt werden.
Ein STIC-Decodierer 1007 in dem Audiodecodierer decodiert die codierten STIC-Signale in Frames 5 bis 8 von Paket 2 (802) in decodierte STIC-Signale 1017. Das STIC-Signal 1017 schließt das MDCT-TDAC-Fenster ein, das an dem Frame 5 beginnt. Ein STIC-Renderer 1027 rendert die decodierten STIC-Signale 1017 in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 1037 dargestellt werden. Das implizite Einblenden-Ausblenden an dem Frame 5, das durch die MDCT-TDAC eingeführt wird, führt ein Überblenden von Lautsprecherausgaben, die die O1 Objekte 1033, O1 HOA 1035 und O1 STIC-Signale 1037 enthalten, durch, um die O1 Lautsprecherausgabe 1050 zu erzeugen, wobei das Überblenden an dem Frame 5 erfolgt. Somit wird das Überblenden von Objekten, HOA und STIC-Signalen in derselben Lautsprecheranordnung durchgeführt. Vorteile des Verwendens einer TDAC der MDCT als einen impliziten IFFF für das Überblenden schließt ein Beseitigen des Einsatzes von redundanten Frames für das Überblenden und die Fähigkeit, nur einen Audiodecodierer im Vergleich zu den zwei Audiodecodierern von 3 zu verwenden, ein. Da die TDAC bereits eine Fensterfunktion einführt, kann ein Überblenden der Lautsprecherausgabe von aktuellen und zukünftigen Frames durch einfaches Hinzufügen durchgeführt werden, ohne dass ein explizites Einblenden-Ausblenden-Fenster erforderlich ist, wodurch die Latenz der Audiodecodierung reduziert wird.
11 stellt eine Audiodecodierarchitektur, die ein Überblenden der Bitströme durchführt, die Audioszenen mit einer verschiedenen Mischung von codierten Inhaltstypen zwischen aufeinanderfolgenden Frames als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren darstellen, sodass die Mischer in einer oder mehreren Vorrichtungen die überblendeten Kanäle, Objekte, HOA und Stereoformatsignale basierend auf ihren jeweiligen Lautsprecheranordnungen rendern können, gemäß einem Gesichtspunkt der Offenbarung dar. Die Pakete 1, 2 und 3 können dieselben codierten Bitströme wie in 2, 4 und 5 enthalten.
An einem Audiodecodierer werden Bitströme decodiert, die Audioszenen mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und/oder STIC-Codierungen darstellen. Das Überblenden zwischen vorherigen und aktuellen Frames kann zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers und vor dem räumlichen Decodieren und Rendern durchgeführt werden, um die Rechenkomplexität zu reduzieren. Ein räumlicher Kanal-/Objektdecodierer, ein räumlicher HOA-Decodierer und ein STIC-Decodierer können jeweils überblendete Kanäle/Objekte, HOA und STIC-Signale räumlich decodieren. Ein Mischer kann die decodierten und überblendeten Bitströme basierend auf der Lautsprecherkonfiguration rendern. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als Bitströme komprimiert und an andere Wiedergabevorrichtungen übertragen werden, wo die Bitströme dekomprimiert und dem Mischer zum Rendern basierend auf ihren jeweiligen Lautsprecheranordnungen übergeben werden. Unter einem Gesichtspunkt kann die Ausgabe des Audiodecodierers als eine Datei für ein zukünftiges Rendern gespeichert werden. Das Durchführen eines Überblendens von Bitströmen in aufeinanderfolgenden Frames zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers kann vorteilhaft sein, wenn die Anzahl von Transportkanälen im Vergleich zur Anzahl von Kanälen/Objekt, HOA und STIC-Signalen nach dem räumlichen Decodieren niedrig ist.
12 stellt ein Funktionsblockdiagramm von zwei Audiodecodierern, die die Audiodecodierarchitektur von 11 implementieren, um ein räumliches Mischen mit redundanten Frames zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (1201) enthält Frames 1 bis 4. Jeder Frame in Paket 1 schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (1202) enthält Frames 3 bis 6. Jeder Frame in Paket 2 schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Die zwei Pakete enthalten überlappte und redundante Frames 3 bis 4, die die überlappte Periode für das Überblenden darstellen.
Ein Basisliniendecodierer 1203 eines ersten Audiodecodierers decodiert das Paket 1 (1201) in ein basisliniendecodiertes Paket 1 (1205), das an dem Frame 4 unter Verwendung eines Ausblenden-Fensters 1207 ausgeblendet werden kann, um das ausgeblendete Paket 1 (1209) zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren und Rendern zu erzeugen. Ein räumlicher Objekt-Decodierer und -Renderer 1213 des ersten Audiodecodierers decodiert die codierten Objekte in dem ausgeblendeten Paket 1 (1209) räumlich und rendert die decodierten Objekte in die Lautsprecherkonfiguration (z. B. 7.1.4) des ersten Audiodecodierers. Die gerenderten Objekte können durch die O1 Anzahl von Lautsprecherausgaben 1243 dargestellt werden. Ein räumlicher HOA-Decodierer und -Renderer 1215 des ersten Audiodecodierers decodiert die codierten HOA im ausgeblendeten Paket 1 (1209) räumlich und rendert die decodierten HOA in die Lautsprecherkonfiguration des ersten Audiodecodierers. Die gerenderten HOA können durch die O1 Anzahl von Lautsprecherausgaben 1245 dargestellt werden.
Dementsprechend decodiert ein Basisliniendecodierer 1253 eines zweiten Audiodecodierers das Paket 2 (1202) in ein basisliniendecodiertes Paket 2 (1255), das an den Frames 3 und 4 unter Verwendung eines Ausblenden-Fensters 1257 ausgeblendet werden kann, um das ausgeblendete Paket 2 (1259) zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren und Rendern zu erzeugen. Ein räumlicher Objekt-Decodierer und -Renderer 1263 des zweiten Audiodecodierers decodiert die codierten Objekte in dem ausgeblendeten Paket 2 (1259) räumlich und rendert die decodierten Objekte in dieselbe Lautsprecherkonfiguration wie der erste Audiodecodierer. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 1293 dargestellt werden. Ein STIC-Decodierer und -Renderer 1267 des zweiten Audiodecodierers decodiert die codierten STIC-Signale in dem ausgeblendeten Paket 1 (1209) räumlich und rendert die decodierten STIC-Signale in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 1297 dargestellt werden. Ein Mischer kann die Lautsprecherausgaben, die O1 Objekte 1243 und O1 HOA 1245 von Frames 1 bis 4 enthalten, mit den Lautsprecherausgaben, die O1 Objekte 1293 und O1 STIC-Signale 1297 von Frames 4 bis 6 enthalten, mischen, um die O1 Lautsprecherausgabe 1250 zu erzeugen, wobei das Überblenden an dem Frame 4 erfolgt.
13 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 11 implementieren, um ein räumliches Mischen mit einem IFFF zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (1301) enthält Frames 1 bis 4. Jeder Frame in Paket 1 (1301) schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (1302) enthält Frames 5 bis 8. Jeder Frame in Paket 2 (1302) schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Der erste Frame von Paket 2 (1302) oder Frame 5 ist ein IFFF, der das Übergangs-Frame für das Überblenden darstellt.
Ein Basisliniendecodierer 1303 des Audiodecodierers decodiert das Paket 1 (1301) und das Paket 2 (1302) in ein basisliniendecodiertes Paket 1305. Ein Einblenden-Ausblenden-Fenster führt ein Überblenden des basisliniendecodierten Pakets 1305 durch, um ein überblendetes Paket 1309 zu erzeugen, wobei das Überblenden an dem Frame 5 zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren und Rendern erfolgt. Die STIC-codierten Signale im IFFF können die STIC-codierten Signale von den Frames 3 und 4 von Paket 1 (1301) enthalten, wenn die STIC-Signale in dem IFFF mit einem prädiktiven Frame codiert werden.
Ein räumlicher Objekt-Decodierer und -Renderer 1313 des Audiodecodierers decodiert die codierten Objekte in dem überblendeten Paket 1309 räumlich und rendert die decodierten Objekte in die Lautsprecherkonfiguration (z. B. 7.1.4) des Audiodecodierers. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 1323 dargestellt werden. Ein räumlicher HOA-Decodierer und -Renderer 1315 des Audiodecodierers decodiert die codierten HOA in dem überblendeten Paket 1309 räumlich und rendert die decodierten HOA in die Lautsprecherkonfiguration des Audiodecodierers. Die gerenderten HOA können durch die O1-Anzahl von Lautsprecherausgaben 1325 dargestellt werden. Ein STIC-Decodierer und -Renderer 1317 des Audiodecodierers decodiert die codierten STIC-Signale in dem überblendeten Paket 1309 räumlich und rendert die decodierten STIC-Signale in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 1327 dargestellt werden.
Ein Mischer kann die Lautsprecherausgaben, die O1 Objekte 1323, O1 HOA 1325 und O1 STIC-Signale 1327 enthalten, mischen, um O1 Lautsprecherausgabesignale zu erzeugen, wobei das Überblenden an dem Frame 5 erfolgt. Da der IFFF Bitströme des aktuellen Frames für das Einblenden und Bitströme des vorherigen Frames für das Ausblenden enthält, beseitigt es den Einsatz von redundanten Frames für das Überblenden, wie die in 12 verwendeten überlappten und redundanten Frames. Ein weiterer Vorteil des Verwendens des IFFF für das Überblenden schließt eine reduzierte Latenz und die Fähigkeit, nur einen Audiodecodierer verglichen mit den in 12 verwendeten zwei Audiodecodierern zu verwenden, ein.
14 stellt ein Funktionsblockdiagramm eines Audiodecodierers, der die Audiodecodierarchitektur von 11 implementieren, um ein implizites räumliches Mischen mit TDAC der MDCT zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers durchzuführen, gemäß einem Gesichtspunkt der Offenbarung dar. Das Paket 1 (1401) enthält Frames 1 bis 4. Jeder Frame in Paket 1 (1401) schließt eine Anzahl von Objekten und HOA ein. Das Paket 2 (1402) enthält Frames 5 bis 8. Jeder Frame in Paket 2 (1402) schließt eine Anzahl von Objekten und STIC-Signalen ein. Die zwei Pakete enthalten Bitströme, die eine oder mehrere Audioszenen darstellen können, die mit einer adaptiven Anzahl von Szenenelementen für Kanäle, Objekte, HOA und STIC-Codierungen codiert werden. Der erste Frame von Paket 2 (1402) oder Frame 5 ist ein impliziter IFFF, der den Übergangs-Frame für das Überblenden basierend auf einer TDAC der MDCT darstellt.
Ein Basisliniendecodierer 1303 des Audiodecodierers decodiert das Paket 1 (1401) und das Paket 2 (1402) in ein basisliniendecodiertes Paket 1405. Der implizite IFFF in dem Frame 5 des basisliniendecodierten Pakets 1405, das durch die TDAC der MDCT eingeführt wird, bewirkt, dass der Audiodecodierer ein Überblenden des basisliniendecodierten Pakets 1405 zwischen den Transportkanälen als die Ausgabe des Basisliniendecodierers vor dem räumlichen Decodieren und Rendern durchführt, wobei das Überblenden an dem Frame 5 erfolgt.
Ein räumlicher Objekt-Decodierer und -Renderer 1313 des Audiodecodierers decodiert die codierten Objekte in dem überblendeten Paket 1405 räumlich und rendert die decodierten Objekte in die Lautsprecherkonfiguration (z. B. 7.1.4) des Audiodecodierers. Die gerenderten Objekte können durch die O1-Anzahl von Lautsprecherausgaben 1423 dargestellt werden. Ein räumlicher HOA-Decodierer und -Renderer 1315 des Audiodecodierers decodiert die codierten HOA in dem überblendeten Paket 1405 räumlich und rendert die decodierten HOA in die Lautsprecherkonfiguration des Audiodecodierers. Die gerenderten HOA können durch die O1-Anzahl von Lautsprecherausgaben 1425 dargestellt werden. Ein STIC-Decodierer und -Renderer 1317 des Audiodecodierers decodiert die codierten STIC-Signale in dem überblendeten Paket 1405 räumlich und rendert die decodierten STIC-Signale in die Lautsprecherkonfiguration. Die gerenderten STIC-Signale können durch die O1-Anzahl von Lautsprecherausgaben 1427 dargestellt werden.
Ein Mischer kann die Lautsprecherausgaben, die O1 Objekte 1423, O1 HOA 1425 und O1 STIC-Signale 1427 enthalten, mischen, um O1 Lautsprecherausgabesignale zu erzeugen, wobei das Überblenden an dem Frame 5 erfolgt. Vorteile des Verwendens einer TDAC der MDCT als ein impliziter IFFF für das Überblenden schließt ein Beseitigen des Einsatzes von redundanten Frames für das Überblenden und die Fähigkeit, nur einen Audiodecodierer verglichen mit den zwei Audiodecodierern von 12 zu verwenden, ein. Da die TDAC bereits eine Fensterfunktion einführt, kann ein Überblenden der Lautsprecherausgabe von aktuellen und zukünftigen Frames durch einfaches Hinzufügen durchgeführt werden, ohne dass ein explizites Einblenden-Ausblenden-Fenster erforderlich ist, wodurch die Latenz der Audiodecodierung reduziert wird.
15 ist ein Flussdiagramm eines Verfahrens 1500 zum Decodieren von Audioströmen, die Audioszenen durch eine adaptive Anzahl von Szenenelementen für verschiedene Inhaltstypen darstellen, um ein Überblenden der Inhaltstypen in den Audioströmen durchzuführen, gemäß einem Gesichtspunkt der Offenbarung. Das Verfahren 1500 kann durch die Decodierer von 2, 3, 4, 5, 6, 8, 10, 11, 12, 13 oder 14 umgesetzt werden.
Bei Vorgang 1501 empfängt das Verfahren 1500 Frames von Audioinhalt. Der Audioinhalt wird durch einen oder mehrere Inhaltstypen, wie Kanäle, Objekte, HOA, stereobasierte Signale usw., dargestellt. Die Frames enthalten Audioströme, die den Audioinhalt unter Verwendung einer adaptiven Anzahl von Szenenelementen in dem einen oder den mehreren Inhaltstypen codieren. Zum Beispiel können die Frames Audioströme enthalten, die eine adaptive Anzahl von Szenenelementen für Kanäle/Objekte, HOA und/oder STIC-Codierungen codieren.
Bei Vorgang 1503 verarbeitet das Verfahren 1500 zwei aufeinanderfolgende Frames, die Audioströme enthalten, die den Audioinhalt unter Verwendung einer verschiedenen Mischung der adaptiven Anzahl des Szenenelements in dem einen oder den mehreren Inhaltstypen codieren, um decodierte Audioströme für die zwei aufeinanderfolgenden Frames zu erzeugen.
Bei Vorgang 1505 erzeugt das Verfahren 1500 ein Überblenden der decodierten Audioströme in den zwei aufeinanderfolgenden Frames basierend auf einer Lautsprecherkonfiguration, um eine Vielzahl von Lautsprechern anzusteuern. Zum Beispiel können die decodierten Audioströme eines alten Frames der zwei aufeinanderfolgenden Frames eingeblendet werden und können die decodierten Audioströme eines neuen Frames der zwei aufeinanderfolgenden Frames eingeblendet werden, sodass die überblendeten Inhaltstypen gemischt werden können, um Lautsprecherausgabesignale basierend auf derselben Lautsprecherkonfiguration zu erzeugen. Unter einem Gesichtspunkt können die überblendeten Ausgaben einem Kopfhörer bereitgestellt oder für Anwendungen, wie binaurales Rendern, verwendet werden.
Hierin beschriebene Ausführungsformen des skalierbaren Decodierers können in einem Datenverarbeitungssystem implementiert werden, zum Beispiel durch einen Netzwerkcomputer, einen Netzwerkserver, einen Tablet-Computer, ein Smartphone, einen Laptop-Computer, einen Desktop-Computer, andere Unterhaltungselektronikvorrichtungen oder andere Datenverarbeitungssysteme. Insbesondere sind die Vorgänge, die für das Decodieren und das Überblenden von Bitströmen beschrieben werden, die Audioszenen durch eine adaptive Anzahl von Szenenelement für Kanäle, Objekte, HOA und/oder STIC-Codierungen darstellen, digitale Signalverarbeitungsvorgänge, die durch einen Prozessor durchgeführt werden, der Anweisungen ausführt, die in einem oder mehreren Speichern gespeichert sind. Der Prozessor kann die gespeicherten Anweisungen aus den Speichern lesen und die Anweisungen ausführen, um die beschriebenen Vorgänge durchzuführen. Diese Speicher stellen Beispiele für maschinenlesbare, nichtflüchtige Speichermedien dar, die Computerprogrammanweisungen speichern oder enthalten können, die, wenn sie ausgeführt werden, ein Datenverarbeitungssystem dazu veranlassen, das eine oder die mehreren hierin beschriebenen Verfahren durchzuführen. Bei dem Prozessor kann es sich um einen Prozessor einer lokalen Vorrichtung wie einem Smartphone, einen Prozessor in einem entfernten Server oder um ein verteiltes Verarbeitungssystem mit mehreren Prozessoren in der lokalen Vorrichtung und im entfernten Server handeln, deren jeweilige Speicher verschiedene Teile der Anweisungen enthalten, die zum Durchführen der beschriebenen Vorgänge erforderlich sind.
Die hierin beschriebenen Prozesse und Blöcke sind nicht auf die beschriebenen spezifischen Beispiele beschränkt und sind nicht auf die spezifischen Reihenfolgen beschränkt, die als Beispiele hierin verwendet werden. Vielmehr kann jeder der Verarbeitungsblöcke neu geordnet, kombiniert oder entfernt werden, parallel oder seriell durchgeführt werden, wie es erforderlich ist, um die oben dargelegten Ergebnisse zu erzielen. Die Verarbeitungsblöcke, die mit dem Implementieren des Audioverarbeitungssystems verbunden sind, können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, die auf einem nichttransitorischen computerlesbaren Speichermedium gespeichert sind, um die Funktionen des Systems durchzuführen. Das gesamte Audioverarbeitungssystem oder ein Teil davon kann als Speziallogikschaltlogik (z. B. ein FPGA (Field-Programmable Gate Array) und/oder ein ASIC (Application-Specific Integrated Circuit)) implementiert sein. Das gesamte Audiosystem oder ein Teil davon kann unter Verwendung einer elektronischen Hardwareschaltlogik implementiert werden, die elektronische Vorrichtungen, wie mindestens eines von einem Prozessor, einem Speicher, einer programmierbaren Logikvorrichtung oder einem Logikgatter, einschließt. Ferner können Prozesse in jeder Kombination von Hardwarevorrichtungen und Softwarekomponenten implementiert werden.
Auch wenn gewisse beispielhafte Fälle beschrieben und in den begleitenden Zeichnungen gezeigt wurden, versteht es sich, dass diese für die allgemeine Erfindung lediglich veranschaulichend und nicht einschränkend sind und dass diese Erfindung nicht auf die spezifischen gezeigten und beschriebenen Konstruktionen und Anordnungen beschränkt ist, da Fachleuten verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend anstatt einschränkend anzusehen.
Um das Patentamt und alle Leser von Patenten, die basierend auf dieser Anmeldung erteilt werden, bei der Auslegung der beiliegenden Ansprüche zu unterstützen, möchten die Anmelder darauf hinweisen, dass sie sich bei keinem der beiliegenden Ansprüche oder Anspruchselemente auf die Anwendung von 35 U.S.C. 112(f) berufen möchten, es sei denn, die Begriffe „Mittel für“ oder „Schritt für“ werden ausdrücklich in dem bestimmten Anspruch verwendet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63083794 [0001]

Claims

Verfahren zum Decodieren von Audioinhalt, wobei das Verfahren umfasst: Empfangen, durch eine Decodierungsvorrichtung, von Frames des Audioinhalts, wobei der Audioinhalt durch eine Vielzahl von Inhaltstypen dargestellt wird, wobei die Frames Audioströme enthalten, die den Audioinhalt unter Verwendung einer adaptiven Anzahl von Szenenelementen in der Vielzahl von Inhaltstypen codieren; Erzeugen von decodierten Audioströmen durch Verarbeiten von zwei aufeinanderfolgenden Frames, die die Audioströme enthalten, die den Audioinhalt unter Verwendung einer verschiedenen Mischung der adaptiven Anzahl der Szenenelemente in der Vielzahl von Inhaltstypen codieren; und Erzeugen eines Überblendens der decodierten Audioströme in den zwei aufeinanderfolgenden Frames basierend auf einer Lautsprecherkonfiguration, um eine Vielzahl von Lautsprechern anzusteuern.
Verfahren nach Anspruch 1, wobei das Erzeugen der decodierten Audioströme umfasst: Erzeugen von räumlich decodierten Audioströmen für die Vielzahl von Inhaltstypen, die mindestens ein Szenenelement für jeden der zwei aufeinanderfolgenden Frames aufweisen; und Rendern der räumlich decodierten Audioströme für die Vielzahl von Inhaltstypen, um Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen für jeden der zwei aufeinanderfolgenden Frames basierend auf der Lautsprecherkonfiguration der Decodierungsvorrichtung zu erzeugen; und wobei das Erzeugen des Überblendens der decodierten Audioströme umfasst: Erzeugen eines Überblendens der Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen von einem früheren Frame zu einem späteren Frame der zwei aufeinanderfolgenden Frames; und Mischen des Überblendens der Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen, um die Vielzahl von Lautsprechern anzusteuern.
Verfahren nach Anspruch 2, ferner umfassend: Übertragen der räumlich decodierten Audioströme und zeitsynchronisierten Metadaten für die Vielzahl von Inhaltstypen an eine zweite Vorrichtung zum Rendern basierend auf einer Lautsprecherkonfiguration der zweiten Vorrichtung.
Verfahren nach Anspruch 1, wobei das Erzeugen der decodierten Audioströme umfasst: Erzeugen von räumlich decodierten Audioströmen für die Vielzahl von Inhaltstypen, die mindestens ein Szenenelemente für jeden der zwei aufeinanderfolgenden Frames aufweisen, und wobei das Erzeugen des Überblendens der decodierten Audioströme umfasst: Erzeugen eines Überblendens der räumlich decodierten Audioströme für die Vielzahl von Inhaltstypen von einem früheren Frame zu einem späteren Frame der zwei aufeinanderfolgenden Frames; Rendern des Überblendens der räumlich decodierten Audioströme für die Vielzahl von Inhaltstypen, um Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen basierend auf der Lautsprecherkonfiguration der Decodierungsvorrichtung zu erzeugen; und Mischen der Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen, um die Vielzahl von Lautsprechern anzusteuern.
Verfahren nach Anspruch 4, ferner umfassend: Übertragen des Überblendens der räumlich decodierten Audioströme und zeitsynchronisierten Metadaten für die Vielzahl von Inhaltstypen an eine zweite Vorrichtung zum Rendern basierend auf einer Lautsprecherkonfiguration der zweiten Vorrichtung.
Verfahren nach Anspruch 4, ferner umfassend: Übertragen der räumlich decodierten Audioströme und zeitsynchronisierten Metadaten für die Vielzahl von Inhaltstypen an eine zweite Vorrichtung zum Überblenden und Rendern basierend auf einer Lautsprecherkonfiguration der zweiten Vorrichtung.
Verfahren nach Anspruch 1 oder 2 oder 4, wobei ein späterer Frame der zwei aufeinanderfolgenden Frames einen Immediate Fade-in/Fade-out Frame (IFFF) umfasst, der zum Erzeugen des Überblendens der decodierten Audioströme verwendet wird, wobei der IFFF Bitströme enthält, die den Audioinhalt des späteren Frames für sofortiges Einblenden codieren und den Audioinhalt eines früheren Frames der zwei aufeinanderfolgenden Frames für sofortiges Ausblenden codieren.
Verfahren nach Anspruch 7, wobei das Erzeugen der decodierten Audioströme umfasst: Erzeugen von decodierten Audioströmen für die Vielzahl von Inhaltstypen, die mindestens ein Szenenelemente für jeden der zwei aufeinanderfolgenden Frames aufweisen, wobei die decodierten Audioströme für die zwei aufeinanderfolgenden Frames eine verschiedene Mischung der adaptiven Anzahl der Szenenelemente in der Vielzahl von Inhaltstypen aufweisen, und wobei das Erzeugen des Überblendens der decodierten Audioströme in den zwei aufeinanderfolgenden Frames umfassen: Erzeugen eines Übergangs-Frames basierend auf dem IFFF, wobei der Übergangs-Frame ein sofortiges Einblenden der decodierten Audioströme für die Vielzahl von Inhaltstypen für den späteren Frame und ein sofortiges Ausblenden der decodierten Audioströme für die Vielzahl von Inhaltstypen für den früheren Frame umfasst.
Verfahren nach Anspruch 7, wobei der IFFF einen ersten Frame eines aktuellen Pakets umfasst und der frühere Frame einen letzten Frame eines vorherigen Pakets umfasst.
Verfahren nach Anspruch 9, wobei der IFFF ferner einen unabhängigen Frame umfasst, das in die decodierten Audioströme für den ersten Frame des aktuellen Pakets decodiert wird.
Verfahren nach Anspruch 9, wobei der IFFF ferner einen Frame mit prädiktivem Codieren und einen oder mehrere vorherige Frames, die es ermöglichen, den IFFF in die decodierten Audioströme für den ersten Frame des aktuellen Pakets zu decodieren, wobei der eine oder die mehreren vorherigen Frames mit einem unabhängigen Frame beginnen, umfasst.
Verfahren nach Anspruch 9, wobei für die Time-Domain Aliasing Cancellation (TDAC) der modifizierten diskreten Cosinustransformation (MDCT) der IFFF ferner einen oder mehrere vorherige Frames, die es ermöglichen, den IFFF in die decodierten Audioströme für den ersten Frame des aktuellen Pakets zu decodieren, wobei der eine oder die mehreren vorherigen Frames mit einem unabhängigen Frame beginnen, umfasst.
Verfahren nach Anspruch 9, wobei der IFFF ferner eine Vielzahl von Frames des aktuellen Pakets und eine Vielzahl von Frames des früheren Pakets umfasst, um eine Vielzahl von Übergangs-Frames zu ermöglichen, wenn das Überblenden der decodierten Audioströme erzeugt wird.
Verfahren nach Anspruch 1, wobei das Erzeugen des Überblendens der decodierten Audioströme in die zwei aufeinanderfolgenden Frames umfasst: Durchführen eines Einblendens der decodierten Audioströme für einen späteren Frame der zwei aufeinanderfolgenden Frames und eines Ausblendens der decodierten Audioströme für einen früheren Frame der zwei aufeinanderfolgenden Frames basierend auf einer Fensterfunktion, die mit der Time-Domain Aliasing Cancellation (TDAC) der modifizierten diskreten Cosinustransformation (MDCT) verbunden ist.
Verfahren nach Anspruch 1, wobei das Erzeugen der decodierten Audioströme umfasst: Erzeugen von basisliniendecodierten Audioströmen für die Vielzahl von Inhaltstypen, die mindestens ein Szenenelemente für jeden der zwei aufeinanderfolgenden Frames aufweisen, und wobei das Erzeugen des Überblendens der decodierten Audioströme umfasst: Erzeugen eines Überblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen von einem früheren Frame zu einem späteren Frame der zwei aufeinanderfolgenden Frames zwischen Transportkanälen; Erzeugen von räumlich decodierten Audioströmen des Überblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen; Rendern der räumlich decodierten Audioströme für die Vielzahl von Inhaltstypen, um Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen basierend auf der Lautsprecherkonfiguration der Decodierungsvorrichtung zu erzeugen; und Mischen der Lautsprecherausgabesignale für die Vielzahl von Inhaltstypen, um die Vielzahl von Lautsprechern anzusteuern.
Verfahren nach Anspruch 15, ferner umfassend: Übertragen der räumlich decodierten Audioströme des Überblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen und ihre zeitsynchronisierten Metadaten an eine zweite Vorrichtung zum Rendern basierend auf einer Lautsprecherkonfiguration der zweiten Vorrichtung.
Verfahren nach Anspruch 15, wobei das Erzeugen des Überblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen von dem früheren Frame zu dem späteren Frame der zwei aufeinanderfolgenden Frames zwischen Transportkanälen umfasst: Erzeugen eines Übergangs-Frames basierend auf einem Immediate Fade-in/Fadeout Frame (IFFF), wobei der IFFF Bitströme enthält, die den Audioinhalt des späteren Frames codieren und den Audioinhalt des früheren Frames codieren, um ein sofortiges Einblenden der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen für den späteren Frame und ein sofortiges Ausblenden der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen für den früheren Frame zwischen den Transportkanälen zu ermöglichen.
Verfahren nach Anspruch 15, wobei das Erzeugen des Überblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen von dem früheren Frame zu dem späteren Frame der zwei aufeinanderfolgenden Frames zwischen Transportkanälen umfasst: Durchführen eines Einblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen für den späteren Frame und eines Ausblendens der basisliniendecodierten Audioströme für die Vielzahl von Inhaltstypen für den früheren Frame basierend auf einer Fensterfunktion, die mit der Time-Domain Aliasing Cancellation (TDAC) der modifizierten diskreten Cosinustransformation (MDCT) verbunden ist.
Verfahren nach Anspruch 1, wobei die Vielzahl von Inhaltstypen einen Audiokanal, Kanalobjekte oder Higher-Order-Ambisonics (HOA) umfassen und wobei die adaptive Anzahl von Szenenelementen in der Vielzahl von Inhaltstypen eine adaptive Anzahl von Kanälen, eine adaptive Anzahl von Kanalobjekten oder eine adaptive Reihenfolge der HOA umfassen.
System, das konfiguriert ist, um Audioinhalt zu decodieren, wobei das System umfasst: einen Speicher, der konfiguriert ist, um Anweisungen zu speichern; einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um die in dem Speicher gespeicherten Anweisungen auszuführen zum: Empfangen von Frames des Audioinhalts, wobei der Audioinhalt durch eine Vielzahl von Inhaltstypen dargestellt wird, wobei die Frames Audioströme enthalten, die den Audioinhalt unter Verwendung einer adaptiven Anzahl von Szenenelementen in der Vielzahl von Inhaltstypen codieren; Verarbeiten von zwei aufeinanderfolgenden Frames, die die Audioströme enthalten, die den Audioinhalt unter Verwendung einer verschiedenen Mischung der adaptiven Anzahl der Szenenelemente in der Vielzahl von Inhaltstypen codieren, um decodierte Audioströme zu erzeugen; und Erzeugen eines Überblendens der decodierten Audioströme in den zwei aufeinanderfolgenden Frames basierend auf einer Lautsprecherkonfiguration, um eine Vielzahl von Lautsprechern anzusteuern.