CN106465034A

CN106465034A - 采用几何距离定义的音频呈现装置和方法

Info

Publication number: CN106465034A
Application number: CN201580016080.2A
Authority: CN
Inventors: 珍·普洛斯提斯; 西蒙尼·费格; 马克斯·诺伊恩多夫; 于尔根·赫勒; 伯恩哈德·格瑞
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2014-03-26
Filing date: 2015-03-04
Publication date: 2017-02-22
Anticipated expiration: 2035-03-04
Also published as: US11632641B2; RU2016141784A; PL3123747T3; MX356924B; EP2925024A1; RU2016141784A3; US20200260205A1; CA2943460A1; AU2015238694A1; MY180501A; KR101903873B1; CN108924729A; CN108924729B; SG11201607944QA; US20170013388A1; WO2015144409A1; US10587977B2; US20230370799A1; MX2016012317A; AU2018204548A1

Abstract

提供了一种用于回放与位置相关联的音频对象的装置(100)。所述装置(100)包括：距离计算器(110)，用于计算所述位置到扬声器的距离或用于读取所述位置到扬声器的距离。所述距离计算器(110)被配置为取具有最小距离的解。所述装置(100)被配置为使用与所述解相对应的扬声器来对所述音频对象进行回放。

Description

采用几何距离定义的音频呈现装置和方法

技术领域

本发明涉及音频信号处理，具体地，涉及用于进行音频呈现的装置和方法，更具体地，涉及采用几何距离定义的音频呈现装置和方法。

背景技术

随着日常生活中多媒体内容消耗的不断增加，对复杂多媒体解决方案的需求也稳步增长。在这种背景下，对音频对象的定位扮演着重要的角色。针对现有扬声器系统的音频对象的优化定位是令人期待的。

在现有技术中，音频对象是已知的。音频对象可以被认为是例如具有相关联元数据的音轨。元数据可以例如描述原始音频数据的特性，例如期望的回放位置或音量水平。基于对象的音频的优点在于，可采用对于所有再现扬声器布局可能的最佳方式通过回放侧的特殊呈现处理来再现预定义移动。

几何元数据可用来定义应该将音频对象呈现到哪里，例如相对于参考点(例如，收听者)的方位角或仰角或绝对位置。元数据与对象音频信号一起存储或发送。

在MPEG(移动图像专家组)-H的背景下，在第105次MPEG会议上，音频组对不同的应用标准的要求和时间线进行了综述。根据该综述，对于下一代广播系统来讲，满足特定时间点和特定要求是至关重要的。据此，系统应该能够在编码器输入端处接受音频对象。此外，系统应该支持对音频对象的信号发送、递送和呈现，并且应该使得能够对对象进行用户控制，例如针对对话增强、备选语言轨道和音频描述语言。

在现有技术中，不同的概念是已知的。第一个概念是针对基于对象的音频的反射声音呈现(参见[2])。跳转(snap)至扬声器位置信息被包括在元数据定义中，作为有用的呈现信息。但是，在[2]中，没有提供关于在回放处理中如何使用所述信息的任何信息。此外，没有提供关于如何确定两个位置之间的距离的任何信息。

作为现有技术的另一概念，在[5]中描述了用于增强3D音频编著和呈现的系统和工具。文献[5]的图6B是示出了如何在算数上实现“跳转”至扬声器的图。具体地，根据文献[5]，如果确定将音频对象位置跳转至扬声器位置(参见[5]的图6B的块665)，则将音频对象位置映射到扬声器位置(参见[5]的图6B的块670)，一般是与针对音频对象接收的意图(x，y，z)位置最近的一个扬声器。根据[5]，跳转可应用于再现扬声器的小组和/或单个再现扬声器。但是，[5]采用笛卡尔(x，y，z)坐标，而不是球坐标。此外，呈现器行为仅被描述为将音频对象位置映射到扬声器位置。如果跳转标记是一，则不提供任何详细描述。此外，没有提供关于如何确定最近的扬声器的任何细节。

根据另一现有技术，即文献[1]中描述的用于自适应音频信号产生、编码和呈现的系统和方法，元数据信息(元数据元素)指定“一个或多个声音分量被呈现到扬声器馈线，以用于通过离声音分量的意图回放位置(如位置元数据所指出)最近的扬声器进行回放”。但是，没有提供关于如何确定最近的扬声器的任何信息。

在另一现有技术中，即文献[4]描述的音频定义模型，元数据标记被定义为“声道锁(channelLock)”。如果设置为1，则呈现器可将对象锁定到最近的声道或扬声器，而不是正常呈现。但是，没有描述对最近声道的确定。

在另一现有技术中，描述了对基于对象的音频的上混频(参见[3])。文献[3]描述了用于在不同的应用领域使用扬声器的距离测量的方法。这里，其用于对基于对象的音频材料进行上混频。呈现系统被配置为根据基于对象的音频节目(和对将被用来播放节目的扬声器的位置的了解)确定节目所指示的音频源的每个位置和每个扬声器的位置之间的距离。此外，[3]的呈现系统被配置为针对所述节目所指示的每个实际源位置(例如，沿源轨线的每个源位置)确定由扬声器的完整集合中的与实际源位置最近的那些扬声器(或一个扬声器)组成的完整集合的子集(“主”子集)，其中，在特定合理限定意义上定义本文中的“最近”。但是，没有提供关于应该如何计算所述距离的任何信息。

发明内容

本发明的目的是提供用于音频呈现的改善构思。本发明的目的是通过根据权利要求1的装置、根据权利要求13的解码器设备、根据权利要求14的方法和根据权利要求15的计算机程序解决的。

提供了一种用于回放与位置相关联的音频对象的装置。所述装置包括：距离计算器，用于计算所述位置到扬声器的距离或用于读取所述位置到扬声器的距离。所述距离计算器被配置为取具有最小距离的解。所述装置被配置为使用与所述解相对应的扬声器来对所述音频对象进行回放。

根据一个实施例，所述距离计算器可被配置为：例如，只有在由装置所接收的最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下才计算所述位置到扬声器的距离或读取所述位置到扬声器的距离。此外，所述距离计算器可被配置为：例如，只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才取具有最小距离的解。此外，所述装置可被配置为：例如，只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才使用与所述解相对应的扬声器来对所述音频对象进行回放。

在一个实施例中，所述装置可被配置为：例如，如果最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用，则不对所述音频对象进行任何呈现。

在一个实施例中，所述距离计算器可被配置为例如根据返回加权欧氏距离或优弧(great-arc)距离的距离函数来计算所述距离。

在一个实施例中，所述距离计算器可被配置为例如根据返回方位角和仰角中的加权绝对差的距离函数来计算所述距离。

在一个实施例中，所述距离计算器可被配置为例如根据返回至幂p的加权绝对差的距离函数来计算所述距离，其中p是数。在一个实施例中，p可被设置为例如p＝2。

在一个实施例中，所述距离计算器可被配置为例如根据返回加权角度差的距离函数来计算所述距离。

在一个实施例中，所述距离函数可以是例如根据下式定义的：

diffAngle＝acos(cos(azDiff)*cos(elDiff))，

其中，azDiff指示两个方位角的差，elDiff指示两个仰角的差，以及diffAngle指示加权角度差。

根据一个实施例，距离计算器可被配置为例如计算所述位置到扬声器的距离，以使得所述位置到所述扬声器之一的每一个距离Δ(P₁，P₂)都是根据下式计算的：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，以及β₂指示所述扬声器之一的仰角。或者，α1指示所述扬声器之一的方位角，α2指示所述位置的方位角，β1指示所述扬声器之一的仰角，以及β2指示所述位置的仰角。

在一个实施例中，距离计算器可被配置为例如计算所述位置到扬声器的距离，以使得所述位置到所述扬声器之一的每一个距离Δ(P₁，P₂)都是根据下式计算的：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，以及r₂指示所述扬声器之一的半径。或者，α1指示所述扬声器之一的方位角，α2指示所述位置的方位角，β1指示所述扬声器之一的仰角，β2指示所述位置的仰角，r1指示所述扬声器之一的半径，以及r2指示所述位置的半径。

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，a是第一数，b是第二数。或者，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，以及β₂指示所述位置的仰角，a是第一数，以及b是第二数。

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，r₂指示所述扬声器之一的半径，a是第一数，以及b是第二数。或者，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，β₂指示所述位置的仰角，r₁指示所述扬声器之一的半径，以及r₂指示所述位置的半径，a是第一数，b是第二数，以及c是第三数。

根据一个实施例，提供了解码器设备。所述解码器设备包括：USAC解码器，用于对比特流进行解码，以获得一个或多个音频输入声道，获得一个或多个输入音频对象，获得压缩的对象元数据以及获得一个或多个SAOC传输声道。此外，所述解码器设备包括：SAOC解码器，用于对所述一个或多个SAOC传输声道进行解码，以获得包括一个或多个所呈现的音频对象的组。此外，所述解码器设备包括：对象元数据解码器，用于对压缩的对象元数据进行解码，以获得未压缩的元数据。此外，所述解码器设备包括格式转换器，用于对所述一个或多个音频输入声道进行转换，以获得一个或多个经过转换的声道。此外，所述解码器设备包括混频器，用于对所述包括一个或多个所呈现的音频对象的组中的所述一个或多个所呈现的音频对象、所述一个或多个输入音频对象和所述一个或多个经过转换的声道进行混频，以获得一个或多个经过解码的音频声道。所述对象元数据解码器和混频器一起形成根据上述实施例之一的装置。所述对象元数据解码器包括根据上述实施例之一的装置的距离计算器，其中，距离计算器被配置为：针对所述一个或多个输入音频对象中的每个输入音频对象计算与所述输入音频对象相关联的位置与扬声器的距离或读取与所述输入音频对象相关联的位置与扬声器的距离，以及取具有最小距离的解。所述混频器被配置为向扬声器输出所述一个或多个经过解码的音频声道之一内的所述一个或多个输入音频对象中的每个输入音频对象，所述扬声器与由根据上述实施例之一的装置的距离计算器针对所述输入音频对象确定的解相对应。

一种用于回放与位置相关联的音频对象的方法，包括：

-计算所述位置到扬声器的距离或用于读取所述位置到扬声器的距离。

-取具有最小距离的解。以及

-使用与所述解相对应的扬声器来对所述音频对象进行回放。

此外，提供了一种用于当在计算机或信号处理器上执行时实现上述方法的计算机程序。

附图说明

在下文中，将参考附图更详细地描述本发明的实施例，在附图中：

图1是根据实施例的装置。

图2示出了根据实施例的对象呈现器。

图3示出了根据实施例的对象元数据处理器。

图4示出了3D音频编码器的概览。

图5示出了根据实施例的3D音频解码器的概览。

图6示出了格式转换器的结构。

具体实施方式

图1示出了一种用于回放与位置相关联的音频对象的装置100。

所述装置100包括：距离计算器110，用于计算所述位置到扬声器的距离或用于读取所述位置到扬声器的距离。所述距离计算器110被配置为取具有最小距离的解。

所述装置100被配置为使用与所述解相对应的扬声器来对所述音频对象进行回放。

例如，针对每个扬声器，确定所述位置(音频对象位置)和所述扬声器(所述扬声器的位置)之间的距离。

根据一个实施例，所述距离计算器可被配置为：例如，只有在由装置100所接收的最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下才计算所述位置到扬声器的距离或读取所述位置到扬声器的距离。此外，所述距离计算器可被配置为：例如，只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才取具有最小距离的解。此外，所述装置100可被配置为：例如，只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才使用与所述解相对应的扬声器来对所述音频对象进行回放。

在一个实施例中，所述装置100可被配置为：例如，如果最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用，则不对所述音频对象进行任何呈现。

在一个实施例中，所述距离计算器可被配置为例如根据返回至幂p的加权绝对差的距离函数来计算所述距离，其中p是数。在一个实施例中，p可被设置为例如2。

diffAngle＝acos(cos(azDiff)*cos(elDiff))，

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，以及β₂指示所述扬声器之一的仰角。或者，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，以及β₂指示所述位置的仰角。

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，以及r₂指示所述扬声器之一的半径。或者，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，β₂指示所述位置的仰角，r₁指示所述扬声器之一的半径，以及r₂指示所述位置的半径。

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|

α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，r₂指示所述扬声器之一的半径，a是第一数，b是第二数，以及c是第三数。或者，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，β₂指示所述位置的仰角，r₁指示所述扬声器之一的半径，以及r₂指示所述位置的半径，a是第一数，b是第二数，以及c是第三数。

在下文中，描述了本发明的实施例。该实施例提供用于使用几何距离定义进行音频呈现的概念。

对象元数据可用来限定以下任一项：

1)应将对象呈现到空间中的何处，或

2)应使用哪个扬声器来回放所述对象。

如果元数据中指示的对象的位置并不落于单个扬声器上，则对象呈现器将使用多个扬声器和定义的遥放(pan)规则来创建输出信号。遥放在定位声音或声音色彩方面是次优的。

因此，基于对象的内容的制作方可期待进行如下限定：特定声音来自在特定方向上的单个扬声器。

可能发生的是，该扬声器并不存在于用户扬声器设置中。从而，在元数据中设置标记，强制由最近的可用扬声器对该声音进行回放，而不进行任何呈现。

本发明描述了如何找到最近的扬声器，其中允许通过一定的加权来考虑相对于期望对象位置的可容忍偏差。

图2示出了根据实施例的对象呈现器。

在基于对象的音频格式中，元数据是与对象信号一起存储或发送的。使用元数据和关于回放环境的信息在回放侧对音频对象进行呈现。这种信息是例如扬声器的数量或屏幕的大小。

表1-示例元数据：

针对对象，几何元数据可用来定义应该如何对它们进行呈现，例如相对于参考点(例如，收听者)的方位角或仰角或绝对位置。呈现器基于几何数据和可用扬声器及其位置来计算扬声器信号。

如果音频对象(与3D空间中的位置(例如方位角、仰角和距离)相关联的音频信号)不应被呈现到其相关联的位置，而是由本地扬声器设置中存在的扬声器来进行回放，则一种方式将是借助元数据来限定应该回放所述对象的扬声器。

尽管如此，还存在制作方不希望通过特定扬声器而是通过下一个可用的扬声器(即，“几何上最近的”扬声器)来回放对象内容的情况。这允许离散的回放，而不必限定哪个扬声器对应于哪个音频信号或在多个扬声器之间进行呈现。

根据本发明的实施例通过以下方式从上文中产生。

元数据域：

表2-组定义()的语法

mdae_closestSpeakerPlayout该标记定义了不应被呈现而是直接由离成员的几何位置最近的扬声器回放的元数据元素组的成员。

在对象元数据处理器中进行重映射，该对象元数据处理器将本地扬声器设置考虑在内，并且使用关于应该通过哪个扬声器或从哪个方向呈现声音的特定信息来执行信号到相应呈现器的路由。

图3示出了根据实施例的对象元数据处理器。

以下描述了针对距离计算的策略：

-如果设置了最近扬声器元数据标记，则在所述最近扬声器上对声音进行回放

-为此，计算(或从预先存储的表中读取)到接下来的扬声器的距离

-取具有最小距离的解

-距离函数可以是例如(但不限于)：

-加权欧氏或优弧距离

-方位角和仰角的加权绝对差

-至幂p(p＝2＝＞最小二乘解)的加权绝对差

-加权角度差，例如，diffAngle＝acos(cos(azDiff)*cos(elDiff))

以下给出最近扬声器计算的示例。

如果启用了音频元素组的mdae_closestSpeakerPlayout标记，则音频元素组的成员均应该由离音频元素的给定位置最近的扬声器回放。不应用任何呈现。

两个位置P₁和P₂在球坐标系中的距离被定义为其方位角α和仰角β的绝对差。

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|

应该相对于音频元素P_wanted的期望位置针对N个输出扬声器的所有已知位置P₁到P_N计算该距离。

最近的已知扬声器位置是到音频元素的期望位置的距离取最小值的位置。

P_next＝min(Δ(P_wanted，P₁)，Δ(P_wanted，P₂)，...，Δ(P_wanted，P_N))

通过该公式，能够向仰角、方位角和/或半径添加权重。在该方式中，能够说明的是，通过使用更高的数来对方位角偏差进行加权，方位角偏差与仰角偏差相比是更不可容忍的。

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|

一个示例涉及针对双声道呈现的最近扬声器计算。

如果应该在耳机或立体声扬声器设置上将音频内容作为双声道立体声信号进行回放，则音频内容的每个声道传统地与双声道室内脉冲响应或头部相关脉冲响应进行数学组合。

该脉冲响应的测量位置必须对应于应该感知到相关联的声道的音频内容的方向。在多声道音频系统或基于对象的音频中，存在以下情况：(通过扬声器或通过对象位置)可限定的位置的数量大于可用脉冲响应的数量。在该情况中，如果不存在任何专用脉冲响应可用于所述声道位置或所述对象位置的话，则必须选择合适的脉冲响应。为了只对感知施加最小的位置改变，所选择的脉冲响应应该是“几何上最近的”脉冲响应。

在两种情况中都需要确定已知位置(即，回放扬声器或双声道室内脉冲响应(BRIR))的列表中的哪一个是期望位置的下一个位置。因此，必须定义不同位置之间的“距离”。

本文中，将不同位置之间的距离定义为其方位角和仰角的绝对差。

下式用来计算两个位置P₁，P₂在通过仰角α和方位角β限定的坐标系中的距离：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|

能够添加半径r，作为第三变量：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|

最近的已知位置是到期望位置的距离取最小值的位置。

P_next＝min(Δ(P_wanted，P₁)，Δ(P_wanted，P₂)，..，Δ(P_wanted，P_N))。

在一个实施例中，可向仰角、方位角和/或半径添加权重：

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|。

根据一些实施例，可根据例如以下内容确定最近的扬声器：

两个位置P₁和P₂在球坐标系中的距离可被定义为例如其方位角和仰角θ的绝对差：

应该相对于音频元素的期望位置Pwanted针对N个输出扬声器的所有已知位置P₁到P_N计算该距离。

最近的已知扬声器位置是到音频元素的期望位置的距离取最小值的位置：

P_next＝min(Δ(P_wanted，P₁)，Δ(P_wanted，P₂)，...，Δ(P_wanted，P_N))。

例如，根据一些实施例，如果最近扬声器播放(ClosestSpeakerPlayout)标记等于1，则根据一些实施例的最近的扬声器播放处理可通过确定音频对象组中的每个成员的最近的现有扬声器的位置来进行。

例如，最近的扬声器播放处理可对于具有动态位置数据的元素组尤其有意义。最近的已知扬声器位置可以是例如到音频元素的期待/期望位置的距离取最小值的位置。

在下文中，提供了对3D音频编解码系统的系统概览。本发明的实施例可用于这种3D音频编解码系统。所述3D音频编解码系统可以例如基于用于对声道和对象信号进行编码的MPEG-G USAC编解码器。

根据实施例，为了增加对大量对象进行编码的效率，采用了MPEG SAOC(空间音频对象编码)技术。例如，根据一些实施例，三种类型的呈现器可以执行例如将对象呈现到声道，将声道呈现到耳机或将声道呈现到不同的扬声器设置的任务。

当显式地发送对象信号或使用SAOC对对象进行参数化编码时，将对应的对象元数据信息进行压缩且复用到3D音频比特流中。

图4和图5示出了3D音频系统的不同算法块。具体地，图4示出了3D音频编码器的概览。图5示出了根据实施例的3D音频解码器的概览。

现在描述图4和图5的模块的可能实施例。

在图4中，示出了预呈现器810(还称为混频器)。在图4的配置中，预呈现器810(混频器)是可选的。预呈现器810能够可选地用来在编码前将声道加对象输入场景转换为声道场景。在功能上，编码器侧的预呈现器810可以例如与解码器侧的对象呈现器/混频器920的功能有关，下文将对此进行描述。对象的预呈现确保了编码器输入处的确定性的信号熵，该信号熵基本上独立于同时活跃的对象信号的数目。在具有对象的预呈现的情况下，不再要求任何对象元数据传输。离散对象信号被呈现到编码器被配置使用的声道布局。针对每个声道的对象的权重是从相关联的对象元数据(OAM)获得的。

用于扬声器声道信号、离散对象信号、对象下混频信号以及预呈现信号的核心编解码器基于MPEG-D USAC技术(USAC核心编解码器)。USAC编码器820(如图4所示)通过基于对象指派以及输入声道的几何与语义信息创建信号与对象映射信息来对大量信号的编码进行处理。该映射信息描述如何将输入声道和对象映射到USAC声道元素(CPE、SCE、LFE)以及如何向解码器发送对应信息。

所有附加的有效载荷(如SAOC数据或对象元数据)已通过扩展元素传递且已在USAC编码器速率控制中加以考虑。

根据对于呈现器的速率/失真需求以及互动需求，对象的编码可以通过不同的方式进行。以下对象编码变型是可能的：

-预呈现对象：在编码前，将对象信号预呈现并混频为22.2声道信号。随后的编码链看到22.2声道信号。

-离散对象波形：将对象作为单声道波形提供给USAC编码器820。除了声道信号之外，USAC编码器820使用单个声道元素SCE来发送对象。在接收机侧对解码对象进行呈现和混频。将压缩的对象元数据信息一起发送给接收机/呈现器。

-参数化对象波形：借助SAOC参数来描述对象属性及他们彼此间关系。由USAC编码器820使用USAC对对象信号的下混频进行编码。将参数化信息一起发送。根据对象的数目以及整体数据速率来选择下混频声道的数目。向SAOC呈现器发送压缩的对象元数据信息。

在解码器侧，USAC解码器910进行USAC解码。

此外，根据实施例，提供了解码器，参见图5。所述解码器包括：USAC解码器910，用于对比特流进行解码，以获得一个或多个音频输入声道，获得一个或多个音频对象，获得压缩的对象元数据以及获得一个或多个SAOC传输声道。

此外，所述解码器包括：SAOC解码器915，用于对所述一个或多个SAOC传输声道进行解码，以获得包括一个或多个所呈现的音频对象的第一组。

此外，所述解码器包括：格式转换器922，用于对所述一个或多个音频输入声道进行转换，以获得一个或多个经过转换的声道。

此外，解码器包括：混频器930，用于对包括一个或多个所呈现的音频对象的所述第一组中的音频对象、包括一个或多个所呈现的音频对象的第二组的音频对象和所述一个或多个经过转换的声道进行混频，以获得一个或多个经过解码的音频声道。

在图5中，示出了解码器的具体实施例。针对对象信号的SAOC编码器815(SAOC编码器815是可选的，参见图4)和SAOC解码器915(参见图5)基于MPEG SAOC技术。所述系统能够基于较少数目的传输声道和附加参数数据(OLD(对象级差)、IOC(对象间相关性)、DMG(下混频增益))重新创建、修改以及呈现多个音频对象。附加参数数据展示出比单独发送所有对象所需的数据速率低得多的数据速率，使得编码非常高效。

SAOC编码器815以作为单声道波形的对象/声道信号作为输入，且输出参数信息(其被封装在3D音频比特流中)和SAOC传输声道(其是使用单个声道元素来编码并发送的)。

SAOC解码器915根据经过解码的SAOC传输声道以及参数信息重构对象/声道信号，并基于再现布局、解压缩的对象元数据信息以及可选地基于用户交互信息来产生输出音频场景。

关于对象元数据编解码器，针对每个对象，通过对象属性在时间及空间中的量化来对指示对象在3D空间中的几何位置及扩展的相关联元数据进行高效编码(例如，由图4的元数据编码器818)。将压缩的对象元数据cOAM(压缩的音频对象元数据)作为辅助信息发送到接收机。在接收机处，cOAM由元数据解码器918解码。

例如，在图5中，元数据解码器918可例如根据上述实施例之一实现图1的距离计算器110。

对象呈现器(例如，图5的对象呈现器920)根据给定的再现格式利用压缩的对象元数据来产生对象波形。每个对象根据其元数据被呈现至特定输出声道。该块的输出是根据部分结果之和得到的。在一些实施例中，如果进行了对最近扬声器的确定，则对象呈现器920可以例如将从USAC-3D解码器910接收的音频对象在不进行呈现的情况下传递到混频器930。混频器930可以例如将音频对象传递到通过对于扬声器的距离计算器(例如，实现在元数据解码器918内)确定的扬声器。根据实施例，可能包括例如距离计算器的元数据解码器918、混频器930和可选地对象呈现器920可一起实现图1的装置100。

例如，元数据解码器918包括距离计算器(未示出)并且所述距离计算器或所述元数据解码器918可以通过例如到混频器930的连接(未示出)用信号发送针对从USAC-3D解码器接收的一个或多个音频对象的每个音频对象的最近扬声器。混频器930然后可以只向多个扬声器中的最近扬声器(通过距离计算器确定)在扬声器声道内输出音频对象。

在一些其他实施例中，由距离计算器或元数据解码器918向混频器930仅针对所述音频对象中的一个或多个用信号向最近扬声器进行信号发送。

如果基于声道的内容以及离散/参数化对象都被解码，则在输出得到的波形之前(或在向后置处理器模块馈送它们之前，后置处理器模块例如是双声道呈现器或是扬声器呈现器模块)，(例如由图5的混频器930)对基于声道的波形和所呈现的对象波形进行混频。

双声道呈现器模块940可以例如产生多声道音频材料的双声道下混频，使得可通过虚拟声音源来表示每个输入声道。该处理是在QMF域中逐帧进行。该双声道化可以基于例如所测量的双声道室内脉冲响应。

扬声器呈现器922可以例如在所发送的声道配置和所希望的再现格式之间进行转换。因此在下文中将其称为“格式转换器”922。格式转换器922执行至较少数目的输出声道的转换，例如，其创建下混频。针对输入及输出格式的给定组合，该系统自动地产生优化的下混频矩阵，并在下混频处理中应用这些矩阵。格式转换器922允许标准扬声器配置并允许具有非标准扬声器位置的随机配置。

根据实施例，提供了解码器设备。所述解码器设备包括：USAC解码器910，用于对比特流进行解码，以获得一个或多个音频输入声道，获得一个或多个输入音频对象，获得压缩的对象元数据以及获得一个或多个SAOC传输声道。

此外，所述解码器设备包括：SAOC解码器915，用于对所述一个或多个SAOC传输声道进行解码，以获得包括一个或多个所呈现的音频对象的组。

此外，所述解码器设备包括：对象元数据解码器918，用于对压缩的对象元数据进行解码，以获得未压缩的元数据。

此外，所述解码器设备包括：格式转换器922，用于对所述一个或多个音频输入声道进行转换，以获得一个或多个经过转换的声道。

此外，所述解码器设备包括：混频器930，用于对所述包括一个或多个所呈现的音频对象的组中的所述一个或多个所呈现的音频对象、所述一个或多个输入音频对象和所述一个或多个经过转换的声道进行混频，以获得一个或多个经过解码的音频声道。

所述对象元数据解码器918和混频器930一起形成根据上述实施例之一(例如根据图1的实施例)的装置100。

所述对象元数据解码器918包括根据上述实施例之一的装置100的距离计算器110，其中，距离计算器110被配置为：针对所述一个或多个输入音频对象中的每个输入音频对象计算与所述输入音频对象相关联的位置与扬声器的距离或读取与所述输入音频对象相关联的位置与扬声器的距离，以及取具有最小距离的解。

所述混频器930被配置为向扬声器输出所述一个或多个经过解码的音频声道之一内的所述一个或多个输入音频对象中的每个输入音频对象，所述扬声器与由根据上述实施例之一的装置100的距离计算器110针对所述输入音频对象确定的解相对应。

在这种实施例中，对象呈现器920可以是可选的。在一些实施例中，对象呈现器920可存在，但可能只在指示最近扬声器播放的元数据信息被去激活时对输入的音频对象进行呈现。如果指示最近扬声器播放的元数据信息被激活，则对象呈现器920可例如将输入的音频对象直接传递到混频器，而不对输入的音频对象进行呈现。

图6示出了格式转换器的结构。图6示出了下混频配置器1010和用于对QMF(正交镜像滤波器)域中的下混频进行处理的下混频处理器。

在下文中，还描述了本发明的实施例的概念和其他实施例。

在实施例中，举例来讲，可使用元数据和关于回放环境的信息在回放侧对音频对象进行呈现(例如，通过对象呈现器)。这种信息可以是例如扬声器的数量或屏幕的大小。对象呈现器可以例如基于几何数据和可用扬声器及其位置来计算扬声器信号。

对象的用户控制可以例如通过描述性元数据(例如，通过关于对象在比特流中的存在以及对象的高级属性的信息)来实现，或者，可以例如通过限制性元数据(例如，关于内容创建器如何使得交互成为可能的信息)来实现。

根据实施例，对音频对象的发送、递送和呈现可通过位置元数据来实现，例如，通过结构元数据(例如，对象的分组和层级)，例如，通过向特定扬声器进行呈现的能力以及发送作为对象的声道内容的能力，以及例如，使对象场景适应屏幕大小的措施。

因此，除了对象在3D空间中已经限定的几何位置和级别之外，还开发了新的元数据域。

一般地，通过元数据中所指示的在3D空间中的位置来限定对象的位置。

该回放扬声器可以是存在于本地扬声器设置中的特定扬声器。在该情况中，可借助元数据来直接地限定期望的扬声器。

尽管如此，还存在制作方不希望通过特定扬声器而是通过下一个可用的扬声器(例如，“几何上最近的”扬声器)来回放对象内容的情况。这允许离散的回放，而不必限定哪个扬声器对应于哪个音频信号。由于再现扬声器布局对于制作方来讲可能是未知的，从而其可能不知道能够选择哪个扬声器，所以这是有用的。

实施例提供对不需要任何平方根运算或cos/sin函数的距离函数的简单定义。在实施例中，距离函数用于角域(方位角、仰角、距离)，从而不需要进行到任何其他坐标系(笛卡尔、经度/维度)的变换。根据实施例，函数中具有权重，权重提供了在方位角偏差、仰角偏差和半径偏差之间移动关注点的可能性。函数中的权重可以例如根据人类的听力进行调整(例如，根据方位角和仰角方向的刚好能感知到的差别来调整权重)。函数不仅能应用于对最近扬声器的确定，还能用于选择双声道室内脉冲响应或头部相关脉冲响应以进行双声道呈现。在这种情况中，不需要对脉冲响应进行内插，相反，可使用“最近的”脉冲响应。

根据一个实施例，在基于对象的元数据中可以定义被称为mae_closestSpeakerPlayout的“ClosestSpeakerPlayout”标记，该标记强制由最近的可用扬声器对该声音进行回放，而不进行呈现。如果对象的“ClosestSpeakerPlayout”标记被设为一，则可将对象标记为由最近扬声器进行回放。可以根据对象“组”的级别来定义“ClosestSpeakerPlayout”标记。对象组是应作为联合进行呈现或修改的相关对象的合集的概念。如果该标记被设为一，则其适用于组内的所有成员。

根据实施例，为了确定最近扬声器，如果启用了组(例如，音频对象的组)的mdae_closestSpeakerPlayout标记，则组的成员均应该由离对象的给定位置最近的扬声器回放。不应用任何呈现。如果针对组启用了“ClosestSpeakerPlayout”，则进行以下处理：

针对组成员中的每一个，确定成员的几何位置(根据动态对象元数据(OAM))，以及确定最近扬声器(通过在预先存储的表中进行查找或通过在距离测量的帮助下进行计算)。计算所述成员的位置到现有扬声器中的每一个(或只是子集)的距离。产生最小距离的扬声器被定义为最近的扬声器，并且成员被路由到其最近的扬声器。组成员均由其最近的扬声器进行回放。

如所述，针对最近扬声器的确定的距离测量可以例如实现为：

-方位角和仰角的加权绝对差

-方位角、仰角和半径/距离的加权绝对差

以及，例如(但不限于)：

-至幂p(p＝2＝＞最小二乘解)的加权绝对差

-(加权)勾股定理/欧氏距离

可通过采用以下公式来实现笛卡尔坐标的距离d：

其中，x₁、y₁、z₁是第一位置的x、y和z坐标值，x₂、y₂、z₂是第二位置的x、y和z坐标值，d是第一位置和第二位置之间的距离。

可通过采用以下公式来实现极坐标的距离测量d：

其中，α₁、β₁、r₁是第一位置的极坐标值，α₂、β₂、r₂是第二位置的极坐标值，d是第一位置和第二位置之间的距离。

加权角度差可以是根据下式定义的：

diffAngle＝acos(cos(α₁-α₂)·cos(β₁-β₂))

关于顺向距离、优弧距离或优环距离，距离是沿球面表面测量的(与通过球面内部的直线相反)。可采用例如平方根运算和三角函数。坐标可变换为例如纬度和经度。

回到以上出现的公式：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|，

所述公式可被看作使用极坐标(而不是像原始计程车几何定义中使用的笛卡尔坐标)的修正的计程车几何。

Δ(P₁，P₂)＝|x₁-x₂|+y₁-y₂|。

通过该公式，能够向仰角、方位角和/或半径添加权重。在该方式中，能够说明的是，通过使用更高的数来对方位角偏差进行加权，方位角偏差与仰角偏差相比是更不可容忍的：

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|。

作为进一步的观点，应该注意的是，在实施例中，图2的“所呈现的对象音频”可被认为是“所呈现的基于对象的音频”。在图2中，关于静态对象元数据的usacConfigExtention和usacExtension只是用作具体实施例的示例。

关于图3应该注意的是，在一些实施例中，图3的动态对象元数据可以是例如位置OAM(音频对象元数据、位置数据+增益)。在一些实施例中，可以通过将信号路由到格式转换器或对象呈现器来实现“路由信号”。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对相应方法的描述，其中，框或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。

新颖的解构信号可以存储在数字存储介质上，或者可以在诸如无线传输介质或有线传输介质(例如，互联网)等的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的非瞬时数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

“System and Method for Adaptive Audio Signal Generation，Coding andRendering”，专利申请号：US20140133683 A1(权利要求48)

“Reflected sound rendering for object-based audio”，专利申请号：WO2014036085 A1(章节：Playback Applications)

“Upmixing object based audio”，专利申请号：US20140133682 A1(具体实施例部分以及权利要求71b))

“Audio Definition Model”，EBU-TECH 3364，

https：//tech.ebu.ch/docs/tech/tech3364.pdf

“System and Tools for Enhanced 3D Audio Authoring and Rendering”，专利申请号：US20140119581 A1

Claims

1.一种用于回放与位置相关联的音频对象的装置(100)，包括：

距离计算器(110)，用于计算所述位置到扬声器的距离或用于读取所述位置到扬声器的距离；

其中，距离计算器(110)被配置为取具有最小距离的解，以及

其中，所述装置(100)被配置为使用与所述解相对应的扬声器来对所述音频对象进行回放。

2.根据权利要求1所述的装置(100)，

其中，距离计算器(110)被配置为：只有在由所述装置(100)所接收的最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才计算所述位置到扬声器的距离或读取所述位置到扬声器的距离，

其中，距离计算器(110)被配置为：只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才取具有最小距离的解，以及

其中，所述装置(100)被配置为：只有在所述最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用的条件下，才使用与所述解相对应的扬声器来对所述音频对象进行回放。

3.根据权利要求2所述的装置(100)，其中，所述装置(100)被配置为：如果最近扬声器播放标记(mdae_closestSpeakerPlayout)被启用，则不对所述音频对象进行任何呈现。

4.根据权利要求1-3中的任一项所述的装置(100)，其中，所述距离计算器(110)被配置为根据返回加权欧氏距离或优弧距离的距离函数来计算所述距离。

5.根据权利要求1-3中的任一项所述的装置(100)，其中，所述距离计算器(110)被配置为根据返回方位角和仰角中的加权绝对差的距离函数来计算所述距离。

6.根据权利要求1-3中的任一项所述的装置(100)，其中，所述距离计算器(110)被配置为根据返回至幂p的加权绝对差的距离函数来计算所述距离，其中p是数。

7.根据权利要求1-3中的任一项所述的装置(100)，其中，所述距离计算器(110)被配置为根据返回加权角度差的距离函数来计算所述距离。

8.根据权利要求7所述的装置(100)，其中，所述距离函数是根据下式定义的：

diffAngle＝acos(cos(azDiff)*cos(elDiff))，

其中，azDiff指示两个方位角的差，

其中，elDiff指示两个仰角的差，以及

其中，diffAngle指示加权角度差。

9.根据前述任一权利要求所述的装置(100)，其中，距离计算器(100)被配置为计算所述位置到扬声器的距离，以使得所述位置到所述扬声器之一的每一个距离Δ(P₁，P₂)都是根据下式计算的：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|

其中，α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，以及β₂指示所述扬声器之一的仰角，或

其中，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，以及β₂指示所述位置的仰角。

10.根据权利要求1-8中的任一项所述的装置(100)，

其中，距离计算器(100)被配置为计算所述位置到扬声器的距离，以使得所述位置到所述扬声器之一的每一个距离Δ(P₁，P₂)都是根据下式计算的：

Δ(P₁，P₂)＝|β₁-β₂|+|α₁-α₂|+|r₁-r₂|

其中，α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，以及r₂指示所述扬声器之一的半径，或

其中，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，β₂指示所述位置的仰角，r₁指示所述扬声器之一的半径，以及r₂指示所述位置的半径。

11.根据权利要求1-8中的任一项所述的装置(100)，

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|

其中，α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，a是第一数，以及b是第二数，或

其中，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，以及β₂指示所述位置的仰角，a是第一数，以及b是第二数。

12.根据权利要求1-8中的任一项所述的装置(100)，

其中，距离计算器(100)被配置为计算所述位置到扬声器的距离，以使得所述位置到所述扬声器之一的距离中的每一个距离Δ(P₁，P₂)都是根据下式计算的：

Δ(P₁，P₂)＝b·|β₁-β₂|+a·|α₁-α₂|+c·|r₁-r₂|

其中，α₁指示所述位置的方位角，α₂指示所述扬声器之一的方位角，β₁指示所述位置的仰角，β₂指示所述扬声器之一的仰角，r₁指示所述位置的半径，r₂指示所述扬声器之一的半径，a是第一数，b是第二数，以及c是第三数，或

其中，α₁指示所述扬声器之一的方位角，α₂指示所述位置的方位角，β₁指示所述扬声器之一的仰角，β₂指示所述位置的仰角，r₁指示所述扬声器之一的半径，以及r₂指示所述位置的半径，a是第一数，b是第二数，以及c是第三数。

13.一种解码器设备，包括：

USAC解码器(910)，用于对比特流进行解码，以获得一个或多个音频输入声道，获得一个或多个输入音频对象，获得压缩的对象元数据以及获得一个或多个SAOC传输声道；

SAOC解码器(915)，用于对所述一个或多个SAOC传输声道进行解码，以获得包括一个或多个所呈现的音频对象的组；

对象元数据解码器(918)，用于对压缩的对象元数据进行解码，以获得未压缩的元数据；

格式转换器(922)，用于对所述一个或多个音频输入声道进行转换，以获得一个或多个经过转换的声道；以及

混频器(930)，用于对所述包括一个或多个所呈现的音频对象的组中的所述一个或多个所呈现的音频对象、所述一个或多个输入音频对象和所述一个或多个经过转换的声道进行混频，以获得一个或多个经过解码的音频声道，

其中，对象元数据解码器(918)和混频器(930)一起形成根据前述任一权利要求所述的装置(100)，

其中，对象元数据解码器(918)包括根据前述任一权利要求所述的装置(100)的距离计算器(110)，其中，距离计算器(110)被配置为：针对所述一个或多个输入音频对象中的每个输入音频对象计算与所述输入音频对象相关联的位置与扬声器的距离或读取与所述输入音频对象相关联的位置与扬声器的距离，以及取具有最小距离的解，以及

其中，所述混频器(930)被配置为向扬声器输出所述一个或多个经过解码的音频声道之一内的所述一个或多个输入音频对象中的每个输入音频对象，所述扬声器与由根据前述任一权利要求所述的装置(100)的距离计算器(110)针对所述输入音频对象确定的解相对应。

14.一种用于回放与位置相关联的音频对象的方法，包括：

计算所述位置到扬声器的距离或读取所述位置到扬声器的距离；

取具有最小距离的解；以及

使用与所述解相对应的扬声器来对所述音频对象进行回放。

15.一种用于当在计算机或信号处理器上执行时实现根据权利要求14所述的方法的计算机程序。