HK40111043A

HK40111043A - 用於对基於场景的沉浸式音频内容进行编码或解码的方法和设备

Info

Publication number: HK40111043A
Application number: HK62024098627.8A
Authority: HK
Inventors: S·伯伦
Original assignee: 杜比国际公司
Priority date: 2021-11-30
Filing date: 2022-11-30
Publication date: 2024-12-27

Description

用于对基于场景的沉浸式音频内容进行编码或解码的方法和设备

相关申请的交叉引用

本申请要求于2021年11月30日提交的美国临时申请号63/284,198和于2022年9月27日提交的美国临时申请号63/410,587的优先权。

技术领域

本文档涉及用于处理音频、特别是用于对沉浸式音频内容进行编码的方法和对应设备。

背景技术

位于收听位置的收听者的收听环境内的声音或声场可以使用高保真立体声(Ambisonics)音频信号来描述，特别是一阶高保真立体声信号(FOA)或高阶高保真立体声信号(HOA)。高保真立体声信号可以被视为多声道音频信号，其中每个声道对应于收听者的收听位置处的声场的特定指向性图案。高保真立体声信号可以使用三维(3D)笛卡尔坐标系来描述，其中所述坐标系的原点对应于收听位置，x轴指向前方，y轴指向左侧，并且z轴指向上方。

本文档解决了使得能够对高保真立体声音频信号进行特别高效和灵活的编码的技术问题。独立权利要求中的每个独立权利要求解决了所述技术问题。从属权利要求中描述了优选的示例。

发明内容

根据一方面，描述了一种用于对高保真立体声输入音频信号进行编码的方法。所述方法包括将所述输入音频信号提供给空间重建(SPAR)编码器以及定向音频编码(DirAC)分析器和参数编码器。此外，所述方法包括基于所述SPAR编码器的输出以及基于所述DirAC分析器和参数编码器的输出来生成编码器比特流。

根据另一方面，描述了一种用于对指示高保真立体声输入音频信号的编码器比特流进行解码的方法。所述方法包括基于所述编码器比特流使用空间重建(SPAR)解码器来生成中间高保真立体声信号。此外，所述方法包括使用定向音频编码(DirAC)合成器处理所述中间高保真立体声信号，以提供用于渲染的输出音频信号。

应当注意，本文所描述的方法可以作为相应方法的全部或部分各自以软件和/或计算机可读代码的形式在一个或多个处理器上实施。

根据又一方面，描述了一种软件程序。所述软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种存储介质。所述存储介质可以包括软件程序，所述软件程序适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据又一方面，描述了一种计算机程序产品。所述计算机程序可以包括可执行指令，所述可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种系统，所述系统包括一个或多个处理器。所述系统进一步包括非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行本文所述的方法中的一种或多种方法的操作。

根据又一方面，描述了一种非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行本文所述的方法中的一种或多种方法的操作。

根据另一方面，描述了一种用于对高保真立体声输入音频信号进行编码的编码设备。所述编码设备被配置为将输入音频信号提供给空间重建(SPAR)编码器以及定向音频编码(DirAC)分析器和参数编码器。所述编码设备进一步被配置为基于所述SPAR编码器的输出以及基于所述DirAC分析器和参数编码器的输出来生成编码器比特流。

根据又一方面，描述了一种用于对指示高保真立体声输入音频信号的编码器比特流进行解码的解码设备。所述解码设备被配置为基于编码器比特流使用空间重建(SPAR)解码器来生成中间高保真立体声信号。此外，所述解码设备被配置为使用定向音频编码(DirAC)合成器来处理所述中间高保真立体声信号，以提供用于渲染的输出音频信号。

应当注意，如在本专利申请中概述的方法和系统、包括其优选实施例可以独立使用，或者与本文档中公开的其他方法和系统结合使用。此外，本专利申请中概述的方法和系统的所有方面可以任意组合。特别地，权利要求的特征可以以任意方式彼此组合。

附图说明

下面参考附图以示例性方式解释本发明，在附图中：

图1示出了示例音频编码器；

图2示出了示例音频解码器；

图3a和图3b分别示出了示例音频编码器和音频解码器；

图4示出了示例音频编码器；

图5a示出了用于对高保真立体声音频信号进行编码的示例方法的流程图；以及

图5b示出了用于对指示高保真立体声音频信号的比特流进行解码的示例方法的流程图。

具体实施方式

如以上所指示的，本文档涉及高保真立体声音频信号的高效和灵活编码。用于高保真立体声信号的示例编码方案是所谓的SPAR(空间重建)方案，所述方案例如在以下文献中描述：McGrath等人的“Immersive Audio Coding for Virtual Reality Using aMetadata-assisted Extension of the 3GPP EVS Codec[使用3GPP EVS编解码器的元数据辅助扩展对虚拟现实进行沉浸式音频编码]”，ICASSP 2019-2019IEEE声学、语音与信号处理国际会议(ICASSP)，2019，第730-734页，doi:10.1109/ICASSP.2019.8683712，所述文献的内容通过引用以其全文并入本文。另外的编码方案是所谓的定向音频编码(DirAC)方案，所述方案例如在以下文献中描述：Ahonen、Jukka等人的“Directional analysis ofsound field with linear microphone array and applications in soundreproduction[线性麦克风阵列的声场定向分析及其在声音再现中的应用]”音频工程学会公约124.音频工程学会，2008，和/或V.Pulkki等人的“Directional audio coding-perception-based reproduction of spatial sound[定向音频编码——基于感知的空间声音再现]”，空间听觉原理和应用国际研讨会，2009年11月11-13日，日本宫城藏王，所述文献的内容通过引用以其全文并入本文。

在SPAR中，可以在下混期间对高保真立体声(FOA或HOA)音频信号进行空间处理，使得基于由SPAR编码器确定的元数据对一个或多个下混声道进行波形编码并对一些声道进行参数编码。SPAR解码器执行相反的操作，即，它在SPAR元数据的帮助下对一个或多个接收到的(和经解码的)下混声道进行上混，以重建原始的高保真立体声声道。SPAR通常在多个不同的时间/频率(T/F)片上操作。

定向音频编码(DirAC)是一种基于到达方向(DoA)和每个T/F片的扩散(即，针对多个不同的T/F片)的参数编码方法。DirAC通常与输入音频格式无关，但可以用于高保真立体声音频，这意味着DirAC参数分析可以基于高保真立体声(FOA或HOA)输入音频信号，并且DirAC解码器可以重建高保真立体声信号。DirAC的一个属性是DirAC可以适于基于多个接收到的信号(传输声道)以及基于DirAC元数据直接生成双耳渲染的输出信号。DirAC元数据生成可以部分或全部在解码端进行，并且例如在发射和接收到的FOA或HOA传输声道上操作(如本文档中概述的)。此外，DirAC可以用于恢复阶数比最初输入到编码系统中的阶数更高的高保真立体声音频，并且因此可以用于例如相对于输入音频信号的空间分辨率增强输出信号的空间分辨率。

SPAR是一种高效的编码方法，允许以相对低的比特率存储和/或传输高保真立体声信号。对于高质量需求，SPAR可以用于高效地表示HOA信号(例如，阶数为L＝3或更高)，同时仅使用相对少量的下混声道信号(例如，4个或更少)。然而，SPAR没有提供用于从低阶高保真立体声输入音频信号恢复和/或生成增加的高保真立体声阶数的高保真立体声输出信号的解决方案。例如，如果输入音频信号是FOA(L＝1)，则通常不可能恢复和/或生成HOA2(L＝2)或HOA3(L＝3)信号。在这种情况下，SPAR通常只允许在给定比特率下以相对高的质量重建FOA输入音频信号。

DirAC是一种高效的编码方法，其优势根据对编码系统的要求而变化。例如，如果要求在解码后以尽可能高的保真度恢复给定阶数L(FOA或HOA)的输入高保真立体声信号，则可以观察到DirAC的编码效率通常低于SPAR。还观察到，DirAC音频重建的质量在相对高的比特率下饱和，并且DirAC没有提供在相对高的比特率下获得透明音频质量的本地解决方案。为了解决这个问题，依赖于DirAC的编码系统可以(以相对高的比特率)将所有输入声道(例如，在FOA的情况下为4个)作为传输声道传输，并且可以停用使用DirAC的参数重建。这影响了DirAC的效率(与SPAR相比)，并导致相对高的复杂度(就数值和存储器资源而言)，因为相对较大数量的传输声道必须使用波形编码来进行编码(与在SPAR编码系统内编码的下混声道的数量相比)。

在本文档中，描述了一种编码方案，其以优化的方式组合了SPAR和DirAC编码系统的优势。SPAR和DirAC可以被组合，使得组合的解码器基于接收到的且经解码的SPAR下混信号和SPAR元数据(使用SPAR解码器)重建第一组高保真立体声上混信号。然后，重建的SPAR上混信号(本文称为中间高保真立体声信号)可以被馈送到DirAC解码器，以便使用DirAC元数据对所述一组SPAR上混信号进行操作(例如，以生成高保真立体声阶数增加的输出信号)。

图1示出了示例编码设备(也称为编码器或编码单元)100，并且图2和图4示出了示例解码设备(也称为解码器或解码单元)200。SPAR和DirAC在编码设备100内以并行结构操作，并且在解码设备200内以串联结构操作。作为示例(非限制性的)，可以假设输入音频信号101是FOA信号，并且编解码器(编码/解码)系统100、200对20ms长度的帧进行操作。

在编码设备100中，输入音频信号101的帧可以被馈送到SPAR编码器110、130(其可以包括下混单元110和核心音频编码器130)以及可选的DirAC分析器和参数编码器120。这些单元110、120、130中的每一个分别生成相应的部分比特流102、104、105。SPAR编码器110、130(特别是SPAR编码器110、130的下混单元110)生成SPAR元数据比特流(或SPAR元数据)102和一组(一个或多个)SPAR下混声道信号103。一个或多个SPAR下混声道信号103被馈送到核心音频编码器130，所述核心音频编码器被配置为使用核心音频比特流105来表示这些信号103。

SPAR编码器110、130的核心音频编码器130可以被配置为执行一个或多个下混声道信号103的波形编码，从而提供核心音频比特流105。可以使用单声道波形编码器(例如，3GPP EVS编码)对每个下混声道信号103进行编码，从而实现高效编码。对一个或多个下混声道信号103进行编码的进一步的示例是MPEG AAC、MPEG HE-AAC和其他MPEG音频编解码器、3GPP编解码器以及杜比数字/杜比数字加(AC-3，eAC-3)。值得注意的是，SPAR和DirAC都是空间音频编码框架，它们可以与分别表示下混声道或传输声道的各种不同的核心音频编解码器一起操作。SPAR和DirAC通过其相应的SPAR元数据或DirAC元数据来表示空间音频信息。

可选的DirAC分析器和元数据编码器120生成可选的DirAC元数据比特流(或DirAC元数据)104。与用于FOA的传统DirAC编码器相比，编码设备100不包括DirAC传输声道生成器或下混器(因为该信息由SPAR编码器110、130提供)。部分比特流102、104、105(在多路复用单元140内)被复用成公共编码器比特流106，所述公共编码器比特流可以被传输到解码设备200。

在解码设备200处，接收到的(编码器)比特流106可以(在解复用单元240内)被解复用成部分比特流102、104、105，尤其是SPAR元数据比特流102、核心音频比特流105和(可选的)DirAC元数据比特流104。核心音频比特流105被馈送到核心音频解码器230，所述核心音频解码器重建一个或多个SPAR下混声道信号205。这些一个或多个重建的下混声道信号205与SPAR元数据比特流102一起被馈送到SPAR上混单元210中。SPAR上混单元210对一个或多个重建的下混声道信号205进行上混，以提供对原始高保真立体声信号101(其可以称为中间高保真立体声信号101)的至少一个声道子集的重建201。该中间高保真立体声信号201通常只是编码设备100的原始高保真立体声输入音频信号101的近似。中间高保真立体声信号201的高保真立体声阶数L通常等于或不大于原始输入音频信号101的高保真立体声阶数。

该中间高保真立体声信号201可以被馈送到解码设备200处的DirAC分析和元数据生成器单元250中。该可选的DirAC分析和元数据生成器单元250可以基于SPAR重建的中间高保真立体声信号201来执行DirAC分析和元数据生成。来自DirAC分析和元数据生成器单元250的可选(辅助)DirAC元数据204(称为辅助DirAC元数据204)、从编码设备100接收到的可选DirAC元数据比特流104和SPAR重建的中间高保真立体声信号201可以被馈送到DirAC合成单元220中。该DirAC合成单元220可以对接收到的元数据比特流104进行解码。随后，可以使用可用的DirAC元数据104、204对SPAR重建的中间高保真立体声信号201执行DirAC信号合成。DirAC合成单元220可以被配置为合成更高阶的输出高保真立体声信号211(与输入音频信号101相比)，或者合成(渲染)双耳输出信号211，或者合成(渲染)多扩音器输出信号211。

如图1、图2和图4所图示的，可以可选地在编码设备100(在DirAC分析器和元数据编码器120内)和/或解码设备200(在DirAC分析和元数据生成器单元250内)处执行DirAC分析。如果传输声道信号(即，一个或多个下混声道信号103和/或中间高保真立体声信号201)不适于在解码设备200处解码之后执行DirAC分析，则可以在编码设备100处执行DirAC分析和元数据编码。如果经解码的传输声道信号仅仅是单一的(单声道)或立体声音频信号而不是高保真立体声信号，则可能是这种情况。在这种情况下，无法执行所有球形或至少圆柱形方向的到达方向(DOA)分析(其通常在DirAC分析单元120、250内执行)。在核心音频编码器130内使用参数编码方法(例如，带宽扩展、谱带复制(SBR)等)的情况下，所传输的高保真立体声信号的某些频带也可能是这种情况，这使得DOA分析对于某些频带是不可能的或不可靠的。如本文档中概述的将DirAC与SPAR组合的益处是，在任何情况下，经解码的中间高保真立体声信号201均可用于解码器侧的DirAC分析(在DirAC分析和元数据生成器单元250内)。

SPAR和DirAC编码的一方面是，这两种方法都在频带(子带)和帧或子帧上操作，即在T/F片上操作。这些方法的实施可以使用子带上的时域中的操作、QMF域中的操作或例如(经修改的)DFT频率仓或这种仓组上的频域中的操作。因此，本文所描述的所有方面适用于任何T/F片。此外，术语子带、频带/仓或QMF带/仓在本文档的上下文中是可互换的。同样，术语子带域、QMF域或频域在本文的上下文中是可互换的。

在组合SPAR和DirAC编码时，可以证明特定的T/F片或子带更多地受益于基于SPAR解码的中间高保真立体声信号201(在DirAC分析和元数据生成器单元250内)执行DirAC分析，而对于其他情况，在编码设备100(在DirAC分析器和元数据编码器120内)处进行这样的分析并且将对应的元数据比特流104传输到解码设备200可能是有益的。通常，DirAC参数分析在编码设备100处更可靠，因为它可以基于原始输入音频信号101。然而，在这种情况下，对应的元数据比特流104需要被编码和传输。当假设某个总比特率预算时，DirAC元数据比特流104的部分比特率是以SPAR元数据比特流102和核心音频比特流105可用的比特率为代价的。因此，至少对于一个或多个所选择的T/F片或子带，将DirAC分析基于中间高保真立体声信号201(在解码设备200处)的对应SPAR解码的T/F片或子带信号可能对整个编码系统的性能更有益。

是在编码器侧还是在解码器侧为给定子带或T/F片选择DirAC参数分析(以便实现最佳编码系统)可以取决于一个或多个核心音频编码的SPAR下混声道信号103的一个或多个属性，并且进而取决于在SPAR解码器210、230的上混单元210中进行上混之后重建的中间高保真立体声信号201对于执行DirAC参数分析(在DirAC分析和元数据生成器单元250内)的适用性。已经观察到，与编码不保持波形的子带和时间帧相比，编码保持波形的子带和时间帧通常更适合在解码设备200(在DirAC分析和元数据生成器单元250内)处进行DirAC参数分析。对于更低的频带和/或更具音调性而非类噪声的时间/频率信号部分，通常就是这种情况。因此，编解码器系统100、200可以被配置为在编码器侧对高频带和/或类噪声时间/频率信号部分执行DirAC参数分析(在DirAC分析器和元数据编码器120内)。另一方面，编解码器系统100、200可以被配置为在解码器侧(在DirAC分析和元数据生成器单元250内)对低频带和/或音调时间/频率信号部分执行DirAC参数分析。

因此，组合的SPAR和DirAC编码/解码系统100、200可以包括自适应装置，所述自适应装置在编码设备100中的DirAC元数据传输与在解码设备200中针对选择性T/F片、子带和/或帧执行的DirAC分析之间自适应地切换。自适应可以例如取决于输入音频信号101的一个或多个检测到的属性，比如音调或噪声。

组合的SPAR和DirAC编码/解码系统100、200可以包括解码设备200，所述解码设备对被馈送到后续DirAC单元220、250中的修改数量的SPAR上混声道进行操作。SPAR系统通常上混为高保真立体声信号，这意味着它为给定的高保真立体声阶数L产生(L+1)²个上混声道。值得注意的是，对于相对低的比特率操作(例如，<64kbps)，SPAR解码和上混操作(在上混单元210内)可能至少对于某些T/F片或频带导致相对差的信号质量。这可能会对后续的DirAC操作产生影响，进而可能会影响编码/解码系统100、200的音频输出信号211的质量。

这个问题可以通过修改SPAR使得上混声道信号的数量(在上混单元210中进行上混之后)减少(至少对于某些T/F片或频带)来解决。作为示例，对于FOA输入音频信号101，可以修改SPAR，使得其至少对于某些T/F片或频带仅产生单个上混声道或两个上混声道，对应于经解码的B格式FOA分量信号W，或分别对应于W和Y。SPAR的这种修改可以通过将废弃声道(Y，Z，X，分别为Z，X)的相应上混系数(在SPAR元数据内)设置为0来实现，和/或在2声道的示例中，通过不执行从W到Y的预测来实现，这导致所传输的预测残差信号Y'与Y相同。

可以修改解码设备200的DirAC单元220和/或250，使得它们至少在具有对应减少数量的输入信号的选定T/F片或频带上操作。对于DirAC合成单元220，这意味着所使用的原型信号的数量相应减少。对于1声道的示例，这意味着DirAC合成基于单一的(单声道)原型信号，对于具有W和Y输入信号的2声道的情况，DirAC合成器可以将这些信号转换为从中可以获得原型信号的左/右立体声表示。DirAC分析(在DirAC分析和元数据生成器单元250中)通常不可能用于这些T/F片或频带。相应地，对于这些T/F片或子带，应该在编码设备100中计算DirAC元数据104，并在编码器比特流106内进行传输。

因此，解码设备200可以被配置为在上混单元210内仅执行部分上混，使得上混单元210的输出信号201(即，中间高保真立体声信号201)包括少于(L+1)²个声道。该部分上混的中间高保真立体声信号201可以被传递到DirAC合成单元220，以提供用于渲染的输出音频信号211，例如，双耳或立体声输出信号。可以对多个T/F片或子带的子集执行部分上混。可替代地，可以对完整的T/F片或子带集合执行部分上混。执行部分上混的选项可以用于以相对低的比特率提高输出信号211的感知音频质量。

举例来说，解码设备200可以被配置为在上混单元210内执行部分上混，使得上混单元210的输出信号201是立体声信号。可替代地或另外，解码设备200可以被配置为将DirAC合成单元220置于直通操作模式(其中，DirAC合成单元220传递上混单元210的输出信号201，而不修改输出信号201和/或不对输出信号201执行操作)。这使得能够高效生成立体声输出信号211(例如，对于具有2个扬声器的多扬声器系统)。

组合的SPAR和DirAC编码/解码系统100、200可以被配置为高效地处理头部跟踪器输入数据，以响应于这样的数据来调整(旋转)输出音频信号211。在示例中，相对低阶(例如，FOA)的SPAR重建的中间高保真立体声信号201在被馈送到DirAC单元220、250中之前可以被旋转(根据头部跟踪器数据)。如果DirAC分析和元数据生成完全基于解码设备200处可用的SPAR重建的中间高保真立体声信号201，则这在数值上特别高效。数值上低效的替代方案可以是在DirAC合成(在DirAC合成单元220中)之后旋转高阶高保真立体声信号211。即使从编码设备100(部分地)接收到DirAC元数据104，该元数据104(包含检测到的主要声音方向的方位角和仰角)也可以基于从头部跟踪设备获得的旋转角度对接收到的角度进行附加调整。

图3a和图3b图示了组合的SPAR和DirAC编码设备100以及组合的SPAR和DirAC解码设备200的示例。编码设备100和/或解码设备200可以被配置为根据比特率在SPAR编码器与DirAC编码器之间切换。图3a和图3b所示的编码设备100和解码设备200不允许提供本文档中描述的协同作用。

图3a所示的编码设备100包括选择单元300，所述选择单元被配置为根据编码器比特流106的(目标)比特率301来选择SPAR编码器分支或(可替代地)DirAC编码器分支。举例来说，如果比特率301等于或小于预定比特率阈值，则可以选择SPAR编码器分支。另一方面，如果比特率301大于比特率阈值，则可以选择DirAC编码器分支。作为这种情况的结果，编码器比特流106包括来自SPAR编码器分支的比特流102、105或来自DirAC编码器分支的比特流325、104。

DirAC编码器分支可以包括下混单元321，所述下混单元被配置为将高保真立体声输入音频信号101的多个输入声道信号下混为一个或多个传输声道信号324。可以使用任意(单声道、双声道或多声道)波形编码器322对一个或多个传输声道信号324进行编码，从而提供核心音频比特流325。

图3b图示了对应的解码设备200，所述解码设备包括SPAR解码器分支和单独的DirAC解码器分支，这两个分支都被配置为生成可以(根据编码器比特流106的比特率301)选择的输出信号，以提供解码设备200的输出信号211。

SPAR解码器分支可以包括可选的渲染单元320，所述渲染单元被配置为生成替代性输出信号311(不同于中间高保真立体声信号201)，比如立体声信号或双耳信号。可以提供选择单元371以在中间高保真立体声信号201与替代性输出信号311之间进行选择。

DirAC解码器分支通常包括元数据解码单元340，所述元数据解码单元被配置为从DirAC元数据比特流104中生成DirAC元数据304。此外，DirAC解码器分支可以包括核心解码器单元342，所述核心解码器单元被配置为基于核心音频比特流325来生成一个或多个重建的传输声道信号344(其对应于一个或多个传输声道信号324)。一个或多个重建的传输声道信号344和DirAC元数据304可以在DirAC合成单元360内使用以生成输出信号(例如，高保真立体声信号)。

DirAC解码器分支可以进一步包括DirAC分析器和元数据生成器350(类似或等于单元350)，其被配置为分析一个或多个重建的传输声道信号344以生成辅助DirAC元数据354，所述辅助DirAC元数据可以在DirAC合成单元360中使用以生成输出信号(用于渲染)。可以选择(使用选择单元372、300)DirAC合成单元360的输出信号作为解码设备200的总输出信号211。

另外，DirAC解码器分支可以包括i渲染单元361(或协调的内部渲染单元)，其被配置为生成替代性输出信号(作为DirAC合成单元360的输出信号的替代方案)。替代性输出信号可以是双耳信号或立体声信号(作为高保真立体声信号的替代方案)。渲染单元361可以被配置为基于DirAC元数据304、辅助DirAC元数据354和/或重建的传输声道信号344来生成替代性输出信号。渲染单元361可以包括在图2中的解码设备200的DirAC合成单元220内。

应当注意，图3a的编码设备100的一个或多个部件可以在图1的编码设备100内使用。以类似的方式，图3b的解码设备200的一个或多个部件可以在图2和/或图4的解码设备200内使用。

在图1的编码设备100中，SPAR波形编码器可以利用任意核心音频编码工具，尤其是对于所有比特率。SPAR可以针对所有比特率与DirAC组合运行。DirAC解码(在DirAC合成单元220内)可以依赖于所有比特率的SPAR重建的中间高保真立体声信号201。

在相对低的比特率下，DirAC编解码器通常使用1个或2个传输声道，组合的SPAR/DirAC编解码器可以适于在以下各项上操作

·具有一个或两个传输声道的某些频带，其要求在编码器和解码器两者处进行DirAC操作以重建FOA信号；和/或

·具有FOA信号的4个SPAR重建信号的某些其他频带。

因此，可以提供FOA直通。

在某些(相对低的)比特率下，组合的SPAR/DirAC编解码器可以适于至少在对低阶的高保真立体声信号进行SPAR重建的某些频带上操作，并依赖于DirAC来重建原始高保真立体声阶数。因此，可以提供HOA直通。

DirAC可以用作用于基于由SPAR重建的低阶高保真立体声信号来增加音频信号的空间分辨率的主要工具。特别地，FOA和/或HOAn输入音频信号101可以被转换成HOAm、双耳信号和/或LS(扩音器)信号，其中输出高保真立体声阶数m大于输入高保真立体声阶数n。

可以提供内部和/或外部渲染器选项，例如

·内部渲染器与(假设的)参考渲染器在使用参考测试进行主观评估时表现相当；

·内部渲染器不会引起附加延迟；和/或

·外部渲染器提供无法在针对参考渲染器的参考测试中测试的高级功能。渲染器可以提供改进的直通性能。

本文所描述的组合的SPAR/DirAC编解码器可以被配置为与独立的SPAR编解码器和DirAC编解码器向后兼容。特别地，如果解码器端DirAC合成模块被置于直通操作模式，则可以维持原始SPAR操作。此外，如果SPAR模块被置于直通操作模式下(例如，通过将SPAR预测系数设置为零)，则可以维持原始DirAC操作。

通过提供FOA直通，可以实现相对于比特率行为的严格增加的质量。通过提供HOA直通，编解码器可以实现用于HOA信号的纯SPAR编码器的性能。DirAC的使用允许高效地生成HOA内容(例如，具有HOA4分辨率)。组合的SPAR/DirAC系统在低比特率下以特别高效的方式执行，因为它可能依赖于可以在SPAR编码模块中产生的有效下混声道W*。

如以上所概述的，SPAR和/或DirAC处理通常在不同的子带和/或T/F片中执行。一种或多种不同类型的滤波器组(FB)可以用于此目的。举例来说，可以使用被称为FB_A的第一类型的滤波器组。FB_A可以是QMF(正交镜像滤波器)滤波器组，特别是复合低延迟滤波器组(CLDFB)。FB_A可以包括60个声道，这些声道可以被分组为一组子带。第二类型的滤波器组可以被称为FB_B。FB_B可以是奈奎斯特滤波器组，其包括经修改的DFT(离散傅里叶变换)的应用，其中，经修改的DFT的不同仓可以被分组为一组子带。滤波器组可以应用于具有一定重叠(例如，1ms重叠)的时域信号，以避免块效应。FB_A(分析加合成)可以展现出2.5至5ms的延迟和/或FB_B(分析加合成)可以展现出2ms的延迟。

在第一示例中，SPAR编码器110、130的下混单元110可以利用FB_B分析来生成SPAR元数据比特流102，并利用FB_B合成来生成一个或多个下混声道信号103。此外，DirAC分析器和元数据编码器120可以利用FB_A分析。在解码器侧，SPAR上混单元210可以利用FB_B分析和FB_B合成来生成中间(高保真立体声)信号201。此外，DirAC单元220、250可以利用对中间(高保真立体声)信号201的FB_A分析和FB_A合成(在DirAC处理之后)来生成输出信号211。

可以在SPAR编码器110、130的下混单元110的输入端执行FB_B分析，并且可以在SPAR编码器110、130的下混单元110的输出端(在提供一个或多个下混声道信号103的输出端)执行FB_B合成。此外，可以在DirAC分析器和元数据编码器120的输入端执行FB_A分析。此外，可以在SPAR上混单元210的输入端(在一个或多个重建的下混声道信号205的输入端)执行FB_B分析，并且可以在SPAR上混单元210的输出端执行FB_B合成。此外，可以对中间(高保真立体声)信号201执行FB_A分析(在进入DirAC分析和元数据生成器单元250和/或DirAC合成单元220之前)，并且可以在DirAC合成单元220的输出端执行FB_A合成处理。

在进一步的示例中，可以使用FB_B来分析高保真立体声输入音频信号101(对于SPAR处理和DirAC处理两者，优选地在进入SPAR编码器110、130的下混单元110和/或DirAC分析器和元数据编码器120之前)。可以使用FB_B合成来生成一个或多个下混声道信号103(在SPAR编码器110、130的下混单元110的输出端)。解码设备200可以使用第一示例的滤波器组布置。

在优选示例中，可以使用FB_B(或可替代地FB_A)分析来分析高保真立体声输入音频信号101(对于SPAR以及对于DirAC处理，优选地在进入SPAR编码器110、130的下混单元110和/或DirAC分析器和元数据编码器120之前)。可以使用FB_B(或可替代地FB_A)合成来生成一个或多个下混声道信号103(并且可以在SPAR编码器110、130的下混单元110的输出端执行)。在解码器侧，可以使用FB_A(或可替代地FB_B)分析来分析一个或多个重建的下混声道信号205(在SPAR上混单元210的输入端)。中间(高保真立体声)信号201可以被提供给滤波器组域内的DirAC处理单元250、220，从而消除了对另一滤波器组操作的需要。通过这样做，可以减少解码设备200的处理负担和延迟。可以在DirAC合成单元220的输出端使用FB_A(或可替代地FB_B)合成来生成输出信号211。

图5a示出了用于对高保真立体声输入音频信号101进行编码的示例方法500的流程图。高保真立体声输入音频信号101包括多个不同的输入声道信号，其中，不同的声道可以与不同的平移函数和/或球面基础函数和/或不同的指向性图案相关。举例来说，L阶3D高保真立体声信号可以包括(L+1)²个声道。一阶高保真立体声(FOA)信号是L＝1阶的高保真立体声信号，并且高阶高保真立体声(HOA)信号是L>1阶的高保真立体声信号。

方法500包括将输入音频信号101提供501给空间重建(SPAR)编码器110、130以及定向音频编码(DirAC)分析器和参数编码器120(以并列方式)。

SPAR编码器110、130可以被配置为将子带和/或QMF域内的高保真立体声输入音频信号101的多个输入声道信号下混为一个或多个下混声道信号103。通常，下混声道信号103的数量小于输入声道信号的数量。一个或多个下混声道信号103可以由(波形)音频编码器130编码，以便提供音频比特流105。

此外，SPAR编码器110、130可以被配置为生成与子带和/或QMF域中的高保真立体声输入音频信号101的表示相关联的SPAR元数据比特流102。SPAR元数据比特流102可以适于将一个或多个下混声道信号103上混为重建的中间高保真立体声信号201的多个重建的声道信号(在对应的解码设备200处)，其中，重建的中间高保真立体声信号201的多个重建的声道信号通常对应于(以一对一的关系)高保真立体声输入音频信号101的多个输入声道信号。

为了确定SPAR元数据比特流102，一个或多个下混声道信号103可以被变换到子带域中和/或可以在子带域内进行处理。此外，输入音频信号101的多个输入声道信号可以被变换到子带域(包括多个不同频带的子带)中。随后，可以在每个子带的基础上(例如，在每个频带的基础上和/或在每个时间/频率片的基础上)确定SPAR元数据比特流102，尤其是使得通过使用SPAR元数据比特流102对一个或多个下混声道信号103的子带信号进行上混，获得输入音频信号101的多个输入声道信号的子带信号的近似。不同子带(即，不同频带和/或不同时间/频率片)的SPAR元数据可以被组合以形成SPAR元数据比特流102。

DirAC分析器和参数编码器120可以被配置为对子带和/或QMF域内的高保真立体声输入音频信号101执行到达方向分析(DoA)，以确定指示高保真立体声输入音频信号101的一个或多个主要分量的到达方向的DirAC元数据比特流104。DirAC元数据比特流104可以指示高保真立体声输入音频信号101的一个或多个主要分量的空间方向。可以为多个不同的频带和/或多个不同的时间/频率片生成DirAC元数据104，特别是一个或多个主要分量的空间方向。

方法500进一步包括基于SPAR编码器110、130的输出102、105以及基于DirAC分析器和参数编码器120的输出104来生成502编码器比特流106。DirAC分析器可以被配置为执行到达方向(DoA)分析和/或扩散分析。换句话说，DirAC分析可以包括DoA分析和/或扩散分析。如以上所指示的，SPAR编码器110、130的输出102、105可以包括SPAR元数据比特流102和指示一组SPAR下混声道信号103的音频比特流105。DirAC分析器和参数编码器120的输出104可以包括DirAC元数据比特流104。生成502编码器比特流106可以包括将SPAR元数据比特流102、音频比特流105和DirAC元数据比特流104复用到公共编码器比特流106中。编码器比特流106的表示可以被传输(特别是传输到解码设备200)和/或存储。

因此，描述了方法500，所述方法联合使用SPAR编码和DirAC编码来提供具有提高的感知质量的特别高效的高保真立体声音频编码器。在方法500的上下文中，由DirAC编码方案提供的数据可以局限于DirAC元数据。另一方面，DirAC编码方案的一个或多个传输声道可以由SPAR编码方案提供的数据(尤其是一个或多个下混声道信号和/或SPAR元数据)来代替。

方法500可以包括生成多个频带和/或多个时间/频率片内的子带数据，其中，所述子带数据表示输入音频信号101。为此目的，可以使用QMF和/或子带滤波器组。

此外，方法500可以包括选择多个频带和/或多个时间/频率片的子集。所述频带和/或时间/频率片的子集可以对应于频率等于或高于预定阈值频率的频率范围。这可以用于针对一个(较低)频率范围实现选择性地基于SPAR元数据的操作，并且针对另一个(较高)频率范围实现基于DirAC元数据104的操作。

可替代地或另外，可以(例如，通过分析输入音频信号101)确定关于输入音频信号101的属性的属性信息，特别是关于输入音频信号101的类噪声或音调特征的属性。然后可以基于属性信息来选择频带和/或时间/频率片的子集。特别地，可以基于属性信息来确定所选择的频带和/或时间/频率片的子集的频率范围的阈值频率。

然后可以为所选择的频带和/或时间/频率片的子集、特别是仅为所选择的频带和/或时间/频率片的子集确定DirAC分析器和参数编码器120的输出104，特别是DirAC元数据比特流104。

换句话说，可以在编码设备100处仅针对全部多个频带和/或全部多个时间/频率片的缩减子集，特别是针对不具有音调特征和/或具有类噪声特征的频带和/或时间/频率片，和/或针对较高频带和/或时间/频率片(其等于或高于特定阈值频率)来确定DirAC元数据。通过这样做，可以提供特别高效和高质量的高保真立体声编码方案。

如以上所指示的，通常在子带和/或滤波器组域内执行SPAR处理和/或DirAC处理。方法500可以包括生成多个频带和/或多个时间/频率片内的子带数据，所述子带数据表示输入音频信号101。可以使用分析滤波器组来生成子带数据。然后可以将子带数据提供给SPAR编码器110、130以生成SPAR元数据比特流102，并提供给DirAC分析器和参数编码器120以生成DirAC元数据104。

因此，可以使用单个分析滤波器组来将输入音频信号101变换到滤波器组域中。输入信号101可以在滤波器组域内由不同子带的系数和/或样本(即，子带数据)来表示。该子带数据可以用作SPAR处理和DirAC处理的基础，从而提供特别高效的编码设备100。

方法500可以包括使用合成滤波器组在SPAR编码器110、130内生成一个或多个下混声道信号103。分析滤波器组和合成滤波器组可以形成(可能完美重建)分析/合成滤波器组。一个或多个下混声道信号103可以是在核心音频编码器130内编码的时域信号。

因此，可以在编码设备100内使用单个分析/合成滤波器组(例如，奈奎斯特或QMF滤波器组)来执行SPAR处理和DirAC处理，从而降低编码设备100的计算复杂度(而不影响感知质量)。

图5b示出了用于对指示高保真立体声输入音频信号101的编码器比特流106进行解码的示例(计算机实施的)方法510的流程图。方法510包括基于编码器比特流106使用空间重建(SPAR)解码器210、230来生成511中间高保真立体声信号201。中间高保真立体声信号201可以具有与输入音频信号101的阶数相同的阶数L。中间高保真立体声信号201可以是时域信号。可替代地，中间高保真立体声信号201可以在滤波器组或子带域内表示。

可以从编码器比特流106中提取SPAR元数据比特流102和音频比特流105。然后可以使用SPAR解码器210、230从SPAR元数据比特流102和音频比特流105中生成中间高保真立体声信号201。特别地，可以使用(波形)音频解码器230从音频比特流105中生成一组重建的下混声道信号205。此外，可以使用上混单元210基于SPAR元数据比特流102将所述一组重建的下混声道信号205上混为中间高保真立体声信号201(包括多个(尤其是(L+1)²个或更少)中间声道信号)。中间高保真立体声信号201的多个中间声道信号通常是高保真立体声输入音频信号101的多个输入声道信号或其子集的重建和/或近似。

此外，方法500包括使用定向音频编码(DirAC)合成器220(也称为DirAC合成单元)来处理512中间高保真立体声信号201，以提供用于渲染的输出音频信号211。输出信号211可以包括高保真立体声输出信号、双耳输出信号、立体声或多扩音器输出信号中的至少一者。特别地，可以从编码器比特流106中提取DirAC元数据比特流104。可以使用DirAC合成器220根据DirAC元数据比特流104来处理中间高保真立体声信号201以提供输出音频信号211。

如以上所指示的，可以在时域中表示中间高保真立体声信号201。在这种情况下，DirAC处理可以包括应用分析滤波器组来将中间高保真立体声信号201变换到滤波器组域中。在优选示例中，已经在滤波器组域中表示中间高保真立体声信号201(其通过SPAR处理提供)。通过这样做，可以消除合成滤波器组(在SPAR处理内)的应用以及后续分析滤波器组(在DirAC处理内)的应用，从而提高解码设备200的计算效率和感知质量。

因此，描述了解码方法510，所述解码方法利用SPAR解码，随后进行DirAC合成操作(以及可能的DirAC分析操作)。SPAR解码可以用于以高效和高质量的方式提供一个或多个传输声道(尤其是中间高保真立体声信号201)。DirAC合成器可以用于提供一种或多种不同类型的输出信号211，以便以灵活的方式渲染音频信号。在这种情况下，可以使用输入音频信号101的一个或多个主要分量的DoA数据(包括在DirAC元数据内)来生成输出信号211。

可以(至少部分地)在编码器比特流106内提供DirAC元数据。可替代地或另外，可以在解码设备200处(至少部分地)生成DirAC元数据。

因此，方法510可以包括在DirAC分析器250内(即在DirAC分析和元数据生成器单元250内)处理中间高保真立体声信号201以生成辅助DirAC元数据204。在这种情况下，可以执行DoA分析以确定指示中间高保真立体声信号201的一个或多个主要分量的DoA的辅助DirAC元数据204。

然后可以使用DirAC合成器220根据辅助DirAC元数据204来处理中间高保真立体声信号201以提供输出音频信号211。通过利用已经在解码设备200处确定的DirAC元数据，可以进一步提高高保真立体声编解码器的效率。

如以上所指示的，通常为多个不同的频带和/或时间/频率片生成(SPAR和/或DirAC)元数据。编解码器可以被配置为在编码设备100处为所述不同频带和/或时间/频率片中的一些生成DirAC元数据，并在解码设备200处为所述不同频带和/或时间/频率片中的另一些生成DirAC元数据(特别地，以互补和/或互斥的方式)。通过这样做，可以进一步提高高保真立体声编解码器的效率和质量。

方法510可以包括(例如，使用子带变换和/或QMF滤波器组)生成多个频带和/或多个时间/频率片内的子带数据，其中，所述子带数据表示(滤波器组或子带域内的)中间高保真立体声信号201。此外，方法510可以包括选择多个频带和/或多个时间/频率片的子集。

可以选择与频率等于或低于预定阈值频率的频率范围相对应的频带和/或时间/频率片的子集。

可替代地或另外，可以例如通过分析中间高保真立体声信号201来确定关于输入音频信号101和/或中间高保真立体声信号201的属性的属性信息，特别是关于输入音频信号101和/或中间高保真立体声信号201的类噪声或音调特征的属性。然后可以基于属性信息来确定频带和/或时间/频率片的子集。特别地，可以基于属性信息来确定用于选择子集的阈值频率。

方法510可以进一步包括基于子带数据为所选择的频带和/或时间/频率片的子集、特别是仅为所选择的频带和/或时间/频率片的子集确定辅助DirAC元数据204。

因此，可以直接在解码设备200处为频带和/或时间/频率片的缩减子集生成辅助DirAC元数据204(无需传输这些频带和/或时间/频率片的DirAC元数据)。低频带可能就是这种情况。通过这样做，可以进一步提高高保真立体声编解码器的效率。

方法510可以包括(特别地使用头部跟踪设备)确定关于收听者的头部(在收听环境内)的(空间)取向的取向数据。可以根据取向数据对中间高保真立体声信号201执行旋转操作，以生成旋转的高保真立体声信号。因此，可以旋转中间高保真立体声信号以便以资源高效的方式考虑收听者的头部取向。此外，可以基于旋转的高保真立体声信号(而不是未旋转的中间高保真立体声信号)来生成辅助DirAC元数据。

然后，可以使用DirAC合成器220来处理旋转的中间高保真立体声信号201，以提供用于向收听者渲染的(旋转的)输出音频信号211。通过这样做，可以以高效和精确的方式考虑头部旋转。

如以上所指示的，可以从编码器比特流106中提取DirAC元数据比特流(即，DirAC元数据)104。方法510可以包括根据取向数据对DirAC元数据比特流(即，对DirAC元数据)104执行旋转操作，以生成旋转的DirAC元数据比特流(即，旋转的DirAC元数据)。然后，可以使用DirAC合成器220根据旋转的DirAC元数据比特流(即，根据旋转的DirAC元数据)来处理中间高保真立体声信号201或从其得到的高保真立体声信号(尤其是旋转的高保真立体声信号)，以提供用于向收听者渲染的输出音频信号211。通过这样做，可以以高效和精确的方式考虑头部旋转。

方法510可以包括使用DirAC合成器220从中间高保真立体声信号201中生成高保真立体声输出信号211。为此目的，可以使用(来自编码器比特流106的)DirAC元数据比特流104和/或(在解码设备200处生成的)辅助DirAC元数据204。高保真立体声输出信号211可以具有比输入音频信号101和/或中间高保真立体声信号201的高保真立体声阶数大的高保真立体声阶数L。通过这样做，可以以高效的方式提高高保真立体声音频渲染的质量和灵活性。

如以上所指示的，方法510可以包括从编码器比特流106中提取音频比特流105，以及使用(核心)音频解码器230从音频比特流105中生成一组重建的下混声道信号205。换句话说，可以从编码器比特流106中得到一组重建的下混声道信号205。

方法510可以进一步包括将分析滤波器组应用于所述一组重建的下混声道信号205，以将所述一组重建的下混声道信号205(来自时域)变换到滤波器组域中。分析滤波器组可以被配置为将一个或多个不同的重建下混声道信号205变换成不同的频率声道或频率仓，所述频率声道或频率仓可以被分组为一组子带。一个或多个不同的重建下混声道信号205可以在滤波器组域内表示为不同子带的样本和/或系数。

另外，方法510可以包括基于滤波器组域中的一组重建的下混声道信号205来生成511在滤波器组域中表示的中间高保真立体声信号201。为此目的，可以(使用SPAR元数据比特流102)执行上混操作。中间高保真立体声信号201可以在滤波器组域内表示为不同子带的样本和/或系数。

方法510可以进一步包括使用DirAC合成器220来处理512在滤波器组域中表示的中间高保真立体声信号201。因此，DirAC合成器220(以及可能的DirAC分析器250)可以直接对在滤波器组域中表示的中间高保真立体声信号201进行操作(不需要执行另一个滤波器组操作)。通过这样做，DirAC元数据104、204(已经在滤波器组域中表示)可以直接应用于在滤波器组域中表示的中间高保真立体声信号201。

因此，解码设备200可以利用单个分析滤波器组来将一个或多个重建的下混信号205变换到滤波器组域中。随后，可以在相同的滤波器组域中直接提供SPAR上混和/或DirAC处理。通过这样做，可以提供特别高效的解码设备200。此外，可以提高解码设备200的音频质量。

方法510可以进一步包括使用DirAC合成器220来处理512在滤波器组域中表示的中间高保真立体声信号201，以生成在滤波器组域中表示的输出信号211。如以上所指示的，可以直接在应用于一个或多个重建的下混信号205的分析滤波器组的滤波器组域内执行DirAC合成，从而在该滤波器组域内生成输出信号211。输出信号211可以在滤波器组域内表示为滤波器组域的不同子带的样本和/或系数。

另外，方法510可以包括将合成滤波器组应用于在滤波器组域中表示的输出信号211，以生成时域中的输出信号211。分析滤波器组和合成滤波器组通常形成联合分析/合成滤波器组，特别是完美的重建分析/合成滤波器组。举例来说，分析滤波器组和合成滤波器组可以是奈奎斯特滤波器组或QMF(正交镜像滤波器)滤波器组。

可能已经使用第一类型的滤波器组(特别是奈奎斯特滤波器组)生成了编码器比特流106。(在解码设备200处使用的)分析滤波器组可以是不同于第一类型的第二类型的滤波器组，特别是QMF滤波器组。第一类型的滤波器组的频带边界优选地被调整到和/或对准第二类型的滤波器组的对应频带边界。

因此，可以在编码设备100和解码设备200处使用不同类型的分析/合成滤波器组。通过这样做，可以进一步提高整个编解码器的感知质量，同时保持编解码器的延时尽可能低。

中间高保真立体声信号201(在时域内或在滤波器组域内)可以包括比原始高保真立体声输入音频信号101更少的声道。换句话说，SPAR解码器210、230可以用于(仅)执行部分上混操作，以生成与高保真立体声输入音频信号101相比包括更少声道的中间高保真立体声信号201。

可以在具有多个子带和/或多个时间/频率片的滤波器组域中执行部分上混操作。对于所有的多个子带和/或所有的多个时间/频率片，中间高保真立体声信号201与高保真立体声输入音频信号101相比可以包括更少声道。可替代地，仅对于所述多个子带和/或所述多个时间/频率片的子集，中间高保真立体声信号201与高保真立体声输入音频信号101相比可以包括更少声道。

因此，例如，在编码器比特流106的比特率等于或小于预定比特率阈值(例如，64kbs)的情况下，解码设备200可以被配置为使SPAR解码器210、230仅生成原始高保真立体声输入音频信号101的声道的子集。然后，可以在DirAC合成220中使用该声道子集来生成输出信号211。通过这样做，可以(以相对低的比特率)提高音频质量，同时降低解码器操作的数值复杂度和存储器需求。

解码设备200可以被配置为将DirAC合成器220置于直通操作模式和/或绕过DirAC合成器220。这可以被完成，使得中间高保真立体声信号201对应于用于渲染的输出音频信号211(其中，例如由于部分上混操作，中间高保真立体声信号201可以例如对应于立体声信号)。通过这样做，可以以高效的方式提供立体声输出。

应当注意，术语“元数据”和“元数据比特流”在本文档中可互换使用，使得如果提到“元数据”，这(也)可以指“元数据比特流”，和/或如果提到“元数据比特流”，这(也)可以指“元数据”。

本文所描述的系统的各方面可以在合适的基于计算机的声音处理网络环境中实施，以便处理数字或数字化音频文件。自适应音频系统的部分可以包括一个或多个网络，所述网络包括任何期望数量的独立机器，所述机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。

一个或多个部件、块、过程或其他功能部件可以通过控制系统的基于处理器的计算设备的执行的计算机程序来实施。还应当注意，可以使用硬件、固件和/或体现在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合，从其行为、寄存器传输、逻辑部件和/或其他特性的角度描述本文公开的各种功能。可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质，如光、磁或半导体存储介质。

虽然已经通过示例并且就具体实施例描述了一种或多种实施方式，但是应当理解，一种或多种实施方式不限于所公开的实施例。相反，其旨在覆盖对本领域技术人员显而易见的各种修改和类似布置。因此，所附权利要求的范围应当被赋予最广泛的解释，以便涵盖所有这样的修改和类似布置。

本发明的各个方面和实施方式也可以从以下所枚举的示例实施例(EEE)中理解，所述示例实施例不是权利要求。

EEE1.一种用于对高保真立体声输入音频信号(101)进行编码的方法(500)；所述方法(500)包括，

-将所述输入音频信号(101)提供(501)给SPAR编码器(110，130)以及DirAC分析器和参数编码器(120)；以及

-基于所述SPAR编码器(110，130)的输出(102，105)以及基于所述DirAC分析器和参数编码器(120)的输出(104)来生成(502)编码器比特流(106)。

EEE2.如EEE1所述的方法(500)，其中，

-所述SPAR编码器(110，130)的输出(102，105)包括SPAR元数据比特流(102)和指示一组SPAR下混声道信号(103)的音频比特流(105)；和/或

-所述DirAC分析器和参数编码器(120)的输出(104)包括DirAC元数据比特流(104)。

EEE3.如EEE2所述的方法(500)，其中，生成(502)所述编码器比特流(106)包括将所述SPAR元数据比特流(102)、所述音频比特流(105)和所述DirAC元数据比特流(104)复用到公共编码器比特流(106)中。

EEE4.如任一前述EEE所述的方法(500)，进一步包括传输所述编码器比特流(106)的表示，特别是传输到解码设备(200)，和/或存储所述编码器比特流(106)的表示。EEE5.如任一前述EEE所述的方法(500)，其中，所述方法(500)包括，

-生成多个频带和/或多个时间/频率片内的子带数据，所述子带数据表示所述输入音频信号(101)；

-选择所述多个频带和/或所述多个时间/频率片的子集；以及

-基于所述子带数据，为所选择的频带和/或时间/频率片的子集、特别是仅为所选择的频带和/或时间/频率片的子集确定所述DirAC分析器和参数编码器(120)的输出(104)，特别是DirAC元数据比特流(104)。

EEE6.如EEE5所述的方法(500)，其中，所述方法(500)包括，

-确定关于所述输入音频信号(101)的属性的属性信息，特别是关于所述输入音频信号(101)的类噪声或音调特征的属性；以及

-基于所述属性信息选择所述频带和/或时间/频率片的子集。

EEE7.如EEE5至EEE6中任一项所述的方法(500)，其中，所述频带和/或时间/频率片的子集对应于频率等于或高于预定阈值频率的频率范围。

EEE8.如前述EEE中任一项所述的方法(500)，其中，所述方法(500)包括，

-使用分析滤波器组生成多个频带和/或多个时间/频率片内的子带数据，所述子带数据表示所述输入音频信号(101)；以及

-将所述子带数据提供给所述SPAR编码器(110，130)以生成SPAR元数据(102)，并提供给所述DirAC分析器和参数编码器(120)以生成DirAC元数据(104)。

EEE9.如EEE8所述的方法(500)，其中，所述方法(500)包括，使用合成滤波器组在所述SPAR编码器(110，130)内生成一个或多个下混声道信号(103)。

EEE10.一种用于对指示高保真立体声输入音频信号(101)的编码器比特流(106)进行解码的方法(510)；所述方法(510)包括，

-基于所述编码器比特流(106)使用SPAR解码器(210，230)来生成(511)中间高保真立体声信号(201)；以及

-使用DirAC合成器(220)处理(512)所述中间高保真立体声信号(201)以提供用于渲染的输出音频信号(211)。

EEE11.如EEE10所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取SPAR元数据比特流(102)和音频比特流(105)；以及

-使用所述SPAR解码器(210，230)从所述SPAR元数据比特流(102)和所述音频比特流(105)中生成所述中间高保真立体声信号(201)。

EEE12.如EEE11所述的方法(510)，其中，所述方法(510)包括，

-使用音频解码器(230)从所述音频比特流(105)中生成一组重建的下混声道信号(205)；以及

-使用上混单元(210)基于所述SPAR元数据比特流(102)将所述一组重建的下混声道信号(205)上混为所述中间高保真立体声信号(201)。

EEE13.如EEE10至EEE12中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取DirAC元数据比特流(104)；以及

-使用所述DirAC合成器(220)根据所述DirAC元数据比特流(104)来处理(512)所述中间高保真立体声信号(201)以提供所述输出音频信号(211)。

EEE14.如EEE10至EEE13中任一项所述的方法(510)，其中，所述方法(510)包括，

-在DirAC分析器(250)内处理所述中间高保真立体声信号(201)以生成辅助DirAC元数据(204)；以及

-使用所述DirAC合成器(220)根据所述辅助DirAC元数据(204)来处理(512)所述中间高保真立体声信号(201)以提供所述输出音频信号(211)。

EEE15.如EEE14所述的方法(510)，其中，所述方法(510)包括，

-生成多个频带和/或多个时间/频率片内的子带数据，所述子带数据表示所述中间高保真立体声信号(201)；

-选择所述多个频带和/或所述多个时间/频率片的子集；以及

-基于所述子带数据，为所选择的频带和/或时间/频率片的子集、特别是仅为所选择的频带和/或时间/频率片的子集确定所述辅助DirAC元数据(204)。

EEE16.如EEE15所述的方法(510)，其中，所述方法(510)包括，

-确定关于所述输入音频信号(101)和/或所述中间高保真立体声信号(201)的属性的属性信息，特别是关于所述输入音频信号(101)和/或所述中间高保真立体声信号(201)的类噪声或音调特征的属性；以及

-基于所述属性信息选择所述频带和/或时间/频率片的子集。

EEE17.如EEE15至EEE16中任一项所述的方法(510)，其中，所述频带和/或时间/频率片的子集对应于频率等于或低于预定阈值频率的频率范围。

EEE18.如EEE10至EEE17中任一项所述的方法(510)，其中，所述方法(510)包括使用所述DirAC合成器(220)从所述中间高保真立体声信号(201)中生成高保真立体声输出信号(211)，所述高保真立体声输出信号的高保真立体声阶数大于所述输入音频信号(101)和/或所述中间高保真立体声信号(201)的高保真立体声阶数。

EEE19.如EEE10至EEE18中任一项所述的方法(510)，其中，所述输出信号(211)包括高保真立体声输出信号、双耳输出信号、立体声或多扩音器输出信号中的至少一者。

EEE20.如EEE10至EEE19中任一项所述的方法(510)，其中，所述方法(510)包括，

-特别地使用头部跟踪设备来确定关于收听者的头部取向的取向数据；

-根据所述取向数据对所述中间高保真立体声信号(201)执行旋转操作，以生成旋转的高保真立体声信号；以及

-使用所述DirAC合成器(220)处理所述旋转的高保真立体声信号，以提供用于向所述收听者渲染的所述输出音频信号(211)。

EEE21.如EEE10至EEE20中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取DirAC元数据(104)；

-根据所述取向数据对所述DirAC元数据(104)执行旋转操作，以生成旋转的DirAC元数据；以及

-使用所述DirAC合成器(220)根据所述旋转的DirAC元数据来处理所述中间高保真立体声信号(201)或从中得到的高保真立体声信号，以提供用于向所述收听者渲染的所述输出音频信号(211)。

EEE22.如EEE10至EEE21中任一项所述的方法(510)，其中，

-所述中间高保真立体声信号(201)与所述高保真立体声输入音频信号(101)相比包括更少声道；和/或

-所述SPAR解码器(210，230)用于执行部分上混操作，以生成与所述高保真立体声输入音频信号(101)相比包括更少声道的中间高保真立体声信号(201)。

EEE23.如EEE22所述的方法(510)，其中，

-在具有多个子带和/或多个时间/频率片的滤波器组域中执行所述部分上混操作；并且

-对于所有的所述多个子带和/或所有的所述多个时间/频率片，所述中间高保真立体声信号(201)与所述高保真立体声输入音频信号(101)相比包括更少声道；或者

-仅对于所述多个子带和/或所述多个时间/频率片的子集，所述中间高保真立体声信号(201)与所述高保真立体声输入音频信号(101)相比包括更少声道。

EEE24.如EEE10至EEE22中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取音频比特流(105)；

-使用音频解码器(230)从所述音频比特流(105)中生成一组重建的下混声道信号(205)；

-将分析滤波器组应用于所述一组重建的下混声道信号(205)以将所述一组重建的下混声道信号(205)变换到滤波器组域中；

-基于所述滤波器组域中的所述一组重建的下混声道信号(205)生成(511)在所述滤波器组域中表示的中间高保真立体声信号(201)；以及

-使用所述DirAC合成器(220)处理(512)在所述滤波器组域中表示的所述中间高保真立体声信号(201)。

EEE25.如EEE24所述的方法(510)，其中，所述方法(510)包括，

-使用所述DirAC合成器(220)处理(512)在所述滤波器组域中表示的所述中间高保真立体声信号(201)，以生成在所述滤波器组域中表示的输出信号(211)；以及

-将合成滤波器组应用于在所述滤波器组域中表示的所述输出信号(211)，以生成时域中的输出信号(211)。

EEE26.如EEE25所述的方法(510)，其中，

-所述分析滤波器组和所述合成滤波器组形成联合分析/合成滤波器组，特别是完美的重建分析/合成滤波器组；和/或

-所述分析滤波器组和所述合成滤波器组是奈奎斯特滤波器组或QMF滤波器组。

EEE27.如EEE24至EEE26中任一项所述的方法(510)，其中，

-所述编码器比特流(106)是使用第一类型的滤波器组、特别是奈奎斯特滤波器组生成的；并且

-所述分析滤波器组是不同于所述第一类型的第二类型的滤波器组，特别是QMF滤波器组。

EEE28.如EEE27所述的方法(510)，其中，所述第一类型的滤波器组的频带边界被调整到所述第二类型的滤波器组的对应频带边界。

EEE29.一种系统，包括：

-一个或多个处理器；以及

-非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前述EEE中任一项所述的操作。

EEE30.一种存储有指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行EEE1至EEE28中任一项所述的操作。

EEE31.一种用于对高保真立体声输入音频信号(101)进行编码的编码设备(100)；其中，所述编码设备(100)被配置为

-将所述输入音频信号(101)提供给SPAR编码器(110，130)以及DirAC分析器和参数编码器(120)；以及

-基于所述SPAR编码器(110，130)的输出(102，105)以及基于所述DirAC分析器和参数编码器(120)的输出(104)来生成编码器比特流(106)。

EEE32.如EEE31所述的编码设备(100)，其中，所述高保真立体声输入音频信号(101)包括多个输入声道信号，并且其中，所述SPAR编码器(110、130)被配置为

-将子带和/或QMF域内的所述多个输入声道信号下混为一个或多个下混声道信号(103)；以及

-在所述子带和/或QMF域内生成SPAR元数据比特流(102)，所述SPAR元数据比特流适于将所述一个或多个下混声道信号(103)上混为重建的高保真立体声信号(201)的多个重建的声道信号。

EEE33.如EEE31至EEE32中任一项所述的编码设备(100)，其中，所述DirAC分析器和参数编码器(120)被配置为对子带和/或QMF域内的所述高保真立体声输入音频信号(101)执行到达方向分析，以确定指示所述高保真立体声输入音频信号(101)的一个或多个主要分量的到达方向的DirAC元数据比特流(104)。

EEE34.一种用于对指示高保真立体声输入音频信号(101)的编码器比特流(106)进行解码的解码设备(200)；其中，所述解码设备(200)被配置为

-基于所述编码器比特流(106)使用SPAR解码器(210，230)来生成中间高保真立体声信号(201)；以及

-使用DirAC合成器(220)处理所述中间高保真立体声信号(201)以提供用于渲染的输出音频信号(211)。

EEE35.如EEE34所述的解码设备(200)，其中，所述解码设备(200)被配置为

-将所述DirAC合成器(220)置于直通操作模式；和/或

-绕过所述DirAC合成器(220)；

特别是使得所述中间高保真立体声信号(201)对应于所述用于渲染的输出音频信号(211)。

Claims

1.一种用于对高保真立体声输入音频信号(101)进行编码的方法(500)；所述方法(500)包括，

2.如权利要求1所述的方法(500)，其中，

3.如权利要求2所述的方法(500)，其中，生成(502)所述编码器比特流(106)包括将所述SPAR元数据比特流(102)、所述音频比特流(105)和所述DirAC元数据比特流(104)复用到公共编码器比特流(106)中。

4.如任一前述权利要求所述的方法(500)，进一步包括传输所述编码器比特流(106)的表示，特别是传输到解码设备(200)，和/或存储所述编码器比特流(106)的表示。

5.如任一前述权利要求所述的方法(500)，其中，所述方法(500)包括，

-选择所述多个频带和/或所述多个时间/频率片的子集；以及

6.如权利要求5所述的方法(500)，其中，所述方法(500)包括，

-基于所述属性信息选择所述频带和/或时间/频率片的子集。

7.如权利要求5至6中任一项所述的方法(500)，其中，所述频带和/或时间/频率片的子集对应于频率等于或高于预定阈值频率的频率范围。

8.如前述权利要求中任一项所述的方法(500)，其中，所述方法(500)包括，

9.如权利要求8所述的方法(500)，其中，所述方法(500)包括，使用合成滤波器组在所述SPAR编码器(110，130)内生成一个或多个下混声道信号(103)。

10.一种用于对指示高保真立体声输入音频信号(101)的编码器比特流(106)进行解码的方法(510)；所述方法(510)包括，

11.如权利要求10所述的方法(510)，其中，所述方法(510)包括，

12.如权利要求11所述的方法(510)，其中，所述方法(510)包括，

13.如权利要求10至12中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取DirAC元数据比特流(104)；以及

14.如权利要求10至13中任一项所述的方法(510)，其中，所述方法(510)包括，

15.如权利要求14所述的方法(510)，其中，所述方法(510)包括

-选择所述多个频带和/或所述多个时间/频率片的子集；以及

16.如权利要求15所述的方法(510)，其中，所述方法(510)包括，

-基于所述属性信息选择所述频带和/或时间/频率片的子集。

17.如权利要求15至16中任一项所述的方法(510)，其中，所述频带和/或时间/频率片的子集对应于频率等于或低于预定阈值频率的频率范围。

18.如权利要求10至17中任一项所述的方法(510)，其中，所述方法(510)包括使用所述DirAC合成器(220)从所述中间高保真立体声信号(201)中生成高保真立体声输出信号(211)，所述高保真立体声输出信号的高保真立体声阶数大于所述输入音频信号(101)和/或所述中间高保真立体声信号(201)的高保真立体声阶数。

19.如权利要求10至18中任一项所述的方法(510)，其中，所述输出信号(211)包括高保真立体声输出信号、双耳输出信号、立体声或多扩音器输出信号中的至少一者。

20.如权利要求10至19中任一项所述的方法(510)，其中，所述方法(510)包括，

21.如权利要求10至20中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取DirAC元数据(104)；

22.如权利要求10至21中任一项所述的方法(510)，其中，

23.如权利要求22所述的方法(510)，其中，

24.如权利要求10至22中任一项所述的方法(510)，其中，所述方法(510)包括，

-从所述编码器比特流(106)中提取音频比特流(105)；

25.如权利要求24所述的方法(510)，其中，所述方法(510)包括，

26.如权利要求25所述的方法(510)，其中，

27.如权利要求24至26中任一项所述的方法(510)，其中，

28.如权利要求27所述的方法(510)，其中，所述第一类型的滤波器组的频带边界被调整到所述第二类型的滤波器组的对应频带边界。

29.一种系统，包括：

-一个或多个处理器；以及

-非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前述权利要求中任一项所述的操作。

30.一种存储有指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求1至28中任一项所述的操作。

31.一种用于对高保真立体声输入音频信号(101)进行编码的编码设备(100)；其中，所述编码设备(100)被配置为-将所述输入音频信号(101)提供给SPAR编码器(110，130)以及DirAC分析器和参数编码器(120)；以及

32.如权利要求31所述的编码设备(100)，其中，所述高保真立体声输入音频信号(101)包括多个输入声道信号，并且其中，所述SPAR编码器(110、130)被配置为

33.如权利要求31至32中任一项所述的编码设备(100)，其中，所述DirAC分析器和参数编码器(120)被配置为对子带和/或QMF域内的所述高保真立体声输入音频信号(101)执行到达方向分析，以确定指示所述高保真立体声输入音频信号(101)的一个或多个主要分量的到达方向的DirAC元数据比特流(104)。

34.一种用于对指示高保真立体声输入音频信号(101)的编码器比特流(106)进行解码的解码设备(200)；其中，所述解码设备(200)被配置为-基于所述编码器比特流(106)使用SPAR解码器(210，230)来生成中间高保真立体声信号(201)；以及

35.如权利要求34所述的解码设备(200)，其中，所述解码设备(200)被配置为-将所述DirAC合成器(220)置于直通操作模式；和/或

-绕过所述DirAC合成器(220)；