CN108885877B

CN108885877B - 用于估计声道间时间差的设备及方法

Info

Publication number: CN108885877B
Application number: CN201780018898.7A
Authority: CN
Inventors: 斯特凡·拜尔; 埃伦妮·福托波罗; 马库斯·缪特拉斯; 吉约姆·福克斯; 伊曼纽尔·拉维利; 马库斯·施奈尔; 斯蒂芬·多拉; 沃尔夫冈·耶格斯; 马丁·迪茨; 戈兰·马尔科维奇
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2016-01-22
Filing date: 2017-01-20
Publication date: 2023-09-08
Anticipated expiration: 2037-01-20
Also published as: MX371224B; CN107710323A; BR112018014916A2; RU2705007C1; TW201729180A; MY181992A; MY196436A; RU2704733C1; RU2017145250A; ES2727462T3; EP3405948A1; KR20180105682A; CA3012159C; JP2022088584A; JP6626581B2; JP2021101253A; TWI653627B; AU2019213424B8; JP7053725B2; RU2693648C2

Abstract

用于估计第一声道信号与第二声道信号之间的声道间时间差的设备，包含：计算器(1020)，用于从时间区块中的第一声道信号及时间区块中的第二声道信号计算用于该时间区块的互相关频谱；频谱特性估计器(1010)，用于估计用于该时间区块的第一声道信号或第二声道信号的频谱的特性；平滑化滤波器(1030)，用于使用频谱特性随时间平滑化互相关频谱以获得经平滑化的互相关频谱；及处理器(1040)，用于处理经平滑化的互相关频谱以获得声道间时间差。

Description

用于估计声道间时间差的设备及方法

技术领域

本申请涉及立体声处理，或大体涉及多声道处理，其中多声道信号具有在立体声信号的情况下的两个声道，如左声道及右声道，或具有多于两个声道，如三、四、五或任何其它数目的声道。

背景技术

相比于立体声音乐的存储及广播，立体声语音及特别是会话式立体声语音受到远较少的科学关注。实际上，在语音通信中，至今仍主要使用单声道传输。然而，随着网络带宽及容量的增加，预期基于立体声技术的通信将变得更普及且将带来更佳的收听体验。

为了高效存储或广播，在音乐的感知音频编码中已对立体声音频材料的高效编码进行长时间研究。在波形保留至关重要的高比特率下，已经长期采用称作中间/侧边(M/S)立体声的和-差立体声。对于低比特率，已经引入强度立体声及最近以来的参数立体声编码。在不同标准中采用最新技术，如HeAACv2及Mpeg USAC。其产生两声道信号的降混并关联紧凑空间边信息。

联合立体声编码通常建立在高频分辨率(即低时间分辨率，信号的时间-频率变换)上，且于是与在大部分语音编码器中执行的低延迟及时域处理不兼容。此外，产生的比特率通常为高。

另一方面，参数立体声采用位于编码器前端的额外滤波器组作为预处理器及位于解码器后端的额外滤波器组作为后处理器。因此，参数立体声可与如ACELP的常规语音编码器一起使用，如在MPEG USAC中进行的那样。此外，听觉场景的参数化可以最少量边信息达成，这适用于低比特率。但如同例如在MPEG USAC中，参数立体声并未被特别设计用于低延迟且不会针对不同会话式情境传递一致的质量。在空间场景的常规参数表示中，立体声影像的宽度被应用于两个合成声道上的解相关器人工复制并受由编码器计算及传输的声道间相干性(IC)参数的控制。对于大部分立体声语音，此种加宽立体声影像的方式不适于重新创建作为相当直接声音的语音的自然环境，原因在于相当直接声音是由位于空间内的特定位置的单个源产生(偶尔具有来自室内的一些混响)。相比之下，乐器具有比语音远更自然的宽度，其可通过将声道解相关而更佳地模拟。

当利用不重合麦克风纪录语音时也会出现问题，如在当麦克风彼此远离或用于双耳纪录或渲染时的A-B配置中。这些情境可被预期用于在电话会议中捕捉语音或用于在多点控制单元(MCU)中以遥远扬声器创建虚拟听觉场景。信号的到达时间从一个声道到另一个声道是不同的，不同于在重合麦克风上进行的纪录，例如X-Y(强度纪录)或M-S(中间-侧边纪录)。该未经时间对准的两个声道的相干性计算则可能被错误地估计，使得人工环境合成失败。

有关立体声处理的先前技术参考文献为专利号为5,434,948或8,811,621的美国专利。

文件WO 2006/089570 A1公开了近透明或透明的多声道编码器/解码器方案。多声道编码器/解码器方案额外产生波形类型残差信号。此残差信号连同一个或多个多声道参数一起被传输至解码器。与纯粹参数多声道解码器相反，加强式解码器由于额外残差信号而产生具有改进输出质量的多声道输出信号。在编码器侧，左声道及右声道两者均由分析滤波器组滤波。然后，对于每个子频带信号，针对子频带计算对准值及增益值。然后在进一步处理之前执行此种对准。在解码器侧，执行去对准及增益处理，然后对应信号被合成滤波器组合成，以便产生经解码的左信号及经解码的右信号。

在这样的立体声处理应用中，为了典型地执行宽带时间对准过程，第一声道信号与第二声道信号之间的声道-间或声道间时间差的计算是有用的。然而，第一声道与第二声道之间的声道间时间差的使用确实存在有其它应用，其中这些应用在参数数据的储存或传输、包括两个声道的时间对准的立体声/多声道处理、到达时间差估计用于室内扬声器位置的确定、波束成形空间滤波、前景/背景分解、或例如通过声学三角测量的声源定位中，只列举少数。

对于全部这些应用，需要第一与第二声道信号之间的声道间时间差的有效、准确且稳健的确定。

确实已经存在这种确定被称作术语“GCC-PHAT”，或换言之，广义互相关相位变换。典型地，在两个声道信号间计算互相关频谱，及然后，在对广义互相关频谱执行逆频谱变换如逆DFT以便找出时域表示之前，对互相关频谱施加加权函数用以获得所谓的广义互相关频谱。此时域表示代表用于某些时间滞后的值，及时域表示的最高峰然后典型地对应于时间延迟或时间差，即，两个声道信号之间的差的声道间时间延迟。

然而，已显示特别是在与例如没有任何混响或背景噪声的清晰语音不同的信号中，此种通用技术的稳健度并非最佳的。

发明内容

本发明的目的在于提供用于估计两个声道信号之间的声道间时间差的改进概念。

此目的通过实施例描述的用于估计声道间时间差的设备、用于估计声道间时间差的方法、或计算机程序而达成。

本发明基于如下发现：由第一声道信号或第二声道信号的频谱的频谱特性控制的互相关频谱随时间的平滑化显著地改进声道间时间差确定的稳健度及准确性。

在较佳实施例中，频谱的调性/噪度特性被确定，且在类音调信号的情况下，平滑化较强，而在嘈杂信号的情况下，平滑化变成较不强。

较佳地，使用频谱平坦度量，在类音调信号的情况下，频谱平坦度量将为低且平滑化将变较强，及在类噪音信号的情况下，频谱平坦度量将为高，如约1或接近1，且平滑化将为弱。

因此，根据本发明，用于估计第一声道信号与第二声道信号之间的声道间时间差的设备包含计算器，用于针对时间区块中的第一声道信号及时间区块中的第二声道信号计算用于时间区块的互相关频谱。该设备进一步包含频谱特性估计器，用于针对该时间区块估计第一声道信号和第二声道信号的频谱的特性，及此外，平滑化滤波器，用于使用频谱特性随着时间平滑化该互相关频谱以获得经平滑化的互相关频谱。然后，该经平滑化的互相关频谱进一步以处理器处理以获得声道间时间差参数。

对于与经平滑化的互相关频谱的进一步处理相关的较佳实施例，执行适应性阈值化操作，其中该经平滑化的广义互相关频谱的时域表示被分析以便确定可变阈值，其取决于时域表示，及时域表示的峰值与该可变阈值作比较，其中声道间时间差被确定为相关联于与该阈值呈预定关系(如大于该阈值)的峰值的时间滞后。

在一个实施例中，可变阈值被确定为与诸如时域表示的值的10％的最大值中的值的整数倍数相等的值，或另外，在可变确定的又一实施例中，可变阈值由可变阈值与该值的乘法计算，其中该值取决于第一及第二声道信号的信噪比特性，其中对于较高的信噪比该值变较高，而对于较低的信噪比该值变较低。

如前文已述，声道间时间差计算可用于多种不同应用中，如参数数据的储存或传输、立体声/多声道处理/编码、两个声道的时间对准、用于在具有两个麦克风及已知麦克风设置的室内扬声器位置的确定的到达时间差估计、用于波束成形目的、空间滤波、前景/背景分解、或例如基于两个或三个信号的时间差通过声学三角测量的声源定位。

在后文中，然而，描述声道间时间差计算的较佳实施例及使用以用于在编码具有至少两个声道的多声道信号的处理中的两个立体声信号的宽带时间对准。

用于编码具有至少两个声道的多声道信号的设备包含：参数确定器，一方面用于确定宽带对准参数及另一方面用于确定多个窄带对准参数。这些参数被信号对准器使用，信号对准器用于使用这些参数对准至少两个声道以获得已对准的声道。然后，信号处理器使用已对准的声道计算中间信号及侧边信号，中间信号及侧边信号随后被编码并转发至经编码的输出信号，该经编码的输出信号额外具有作为参数边信息的宽带对准参数及多个窄带对准参数。

在解码器侧，信号解码器解码经编码的中间信号及经编码的侧边信号以获得经解码的中间及侧边信号。然后这些信号被信号处理器处理用于计算经解码的第一声道及经解码的第二声道。然后使用包括在经编码的多声道信号中的宽带对准参数的信息及多个窄带参数的信息去对准这些经解码的声道以获得经解码的多声道信号。

在特定实施例中，宽带对准参数为声道间时间差参数且多个窄带对准参数为声道间相位差。

本发明基于如下发现：特别对于在有多于一个扬声器情况下的语音信号，但也对于在有多个音频源情况下的其它音频信号，可使用被施加至一个或两个声道的全频谱的诸如声道间时间差参数的宽带对准参数考虑均映射入多声道信号的两个声道的音频源的不同位置。除了此宽带对准参数之外，已发现从子频带到子频带不同的若干窄带对准参数额外地导致信号在两个声道中的更佳对准。

因此，对应于每个子频带中的相同时间延迟的宽带对准连同对应于用于不同子频带的不同相位旋转的相位对准，在两个声道被转换成中间/侧边表示之前，导致该两个声道的优化对准，该中间/侧边表示然后被进一步编码。由于已获得优化对准的事实，一方面，中间信号的能量尽可能地高，另一方面，侧边信号的能量尽可能地小，从而可获得具有最低可能比特率或对于某个比特率具有最高可能音频质量的优化编码结果。

特别地，对于会话式语音材料，典型地扬声器看来似乎在两个不同位置处是活跃的。此外，情况是这样的：通常只有一个扬声器从第一位置说话，及然后第二扬声器从第二位置或地点说话。不同位置对两个声道诸如第一或左声道及第二或右声道上的影响由归因于不同位置的不同到达时间以及因此的两个声道间的某个时间延迟反映，且此时间延迟因时间而异。通常，此影响在两个声道信号中被反映为可通过宽带对准参数处理的宽带去对准。

另一方面，可通过用于个别频带的个别相位对准参数考虑特别是来自混响或进一步噪声源的其它效应，这些参数被叠加在两个声道的宽带不同到达时间或宽带去对准上。

有鉴于此，宽带对准参数及在宽带对准参数之上的多个窄带对准参数的使用导致在编码器侧的用以获得良好且极为紧凑的中间/侧边表示的优化声道对准，而另一方面，在解码器侧的解码之后的对应去对准导致用于某个比特率的良好音频质量或用于某个要求的音频质量的小比特率。

本发明的优点为其提出远比现有立体声编码方案更适合用于立体声语音会话的新颖立体声编码方案。根据本发明，特别是在语音源的情况但也在其它音频源的情况下，特别地利用多声道信号的声道中发生的声道间时间差而组合参数立体声技术及联合立体声编码技术。

多个实施例提供有用的优点，如后面所述。

新颖方法为混合来自于常规M/S立体声及参数立体声的元素的混合办法。在常规M/S中，声道被动地降混以产生中间信号及侧边信号。通过在对声道进行求和及微分之前使用也可被称为主成分分析(PCA)的卡洛南-洛伊变换(KLT)旋转声道可进一步扩展该过程。以主代码编码对中间信号编码，而侧边信号被传递至次编码器。演进M/S立体声可通过在目前或先前帧中编码的中间声道而进一步使用侧边信号的预测。旋转及预测的主要目标为最大化中间信号的能量，同时最小化侧边信号的能量。M/S立体声为波形保留，且就此方面而言，对任何立体声情境是极为稳健的，但就位消耗量而言可能是极为昂贵的。

为了低比特率下的最高效率，参数立体声计算并编码参数，例如，声道间声级差(ILD)、声道间相位差(IPD)、声道间时间差(ITD)及声道间相干性(IC)。这些参数紧密地表示立体声影像且为听觉场景的线索(声源位置、声像(panning)、立体声宽度…)。目标然后为参数化立体声场景及仅编码可位于解码器处并借助于传输的立体声线索再度被空间化的降混信号。

本发明办法混合两种概念。首先，立体声线索ITD及IPD被计算及施加至两个声道上。目标是表示不同频带的宽带的时间差及相位。然后两个声道以时间及相位对准，然后执行M/S编码。发现ITD及IPD对于建模立体声语音是有用的，且是M/S中的基于KLT旋转的良好替代。不同于纯粹参数编码，周围环境不再通过IC建模，反而通过经编码和/或经预测的侧边信号直接建模。已发现此种办法尤其在处理语音信号时更稳健。

ITD的计算及处理为本发明的关键部分。已在先前技术双耳线索编码(BCC)中利用ITD，但一旦ITD随时间改变时该技术是无效率的。为了避免此缺点，设计特定窗口化用于平滑化两个不同ITD间的过渡，且能从一个扬声器无缝切换至在不同位置的另一个扬声器。

进一步实施例涉及下述过程，在编码器侧，使用已经以稍早确定的宽带对准参数对准的声道执行用来确定多个窄带对准参数的参数确定。

对应地，在使用典型地单个宽带对准参数执行宽带去对准之前，执行在解码器侧的窄带去对准。

在进一步实施例中，较佳地，在编码器侧但甚至更要紧地在解码器侧，在全部对准之后，及尤其在使用宽带对准参数的时间对准之后，执行从一个区块至下一区块的某种窗口化及重叠相加操作或任一种交叉衰落。如此避免了当时间或宽带对准参数从区块至区块地改变时的任何可听伪声，如卡嚓声。

在其它实施例中，施加不同频谱分辨率。更具体地，声道信号经受具有高频分辨率的时间-频谱转换，如DFT频谱，而对于具有较低频谱分辨率的参数频带确定参数，如窄带对准参数。典型地，参数频带具有比信号频谱更多一个频谱线，及典型地具有来自DFT频谱的一组频谱线。此外，参数频带从低频增至高频以便考虑心理声学议题。

进一步实施例涉及诸如声级间差的声级(level)参数的额外使用或用于处理诸如立体声填充参数等的侧边信号的其它过程。经编码的侧边信号可由实际侧边信号本身表示，或由使用当前帧或任何其它帧的中间信号执行的预测残差信号表示，或由仅在频带的子集中的侧边信号或侧边预测残差信号及仅用于剩余频带的预测参数表示，或甚至无需高频分辨率侧边信号信息而由用于全部频带的预测参数表示。因此，在如上最后的替代例中，经编码的侧边信号仅由用于每个参数频带或仅参数频带的子集的预测参数表示，使得对于剩余参数频带不存在关于原侧边信号的任何信息。

此外，较佳地，多个窄带对准参数并非用于反映宽带信号的全带宽的全部参数频带而仅用于一组较低频带，如参数频带的较低50％。另一方面，立体声填充参数不被用于数个较低频带，原因在于对于这些频带，侧边信号本身或预测残差信号被传输以便确保至少对于较低频带波形校正表示是可用的。另一方面，对于较高频带，侧边信号并非以波形正确表示传输以便进一步降低比特率，但侧边信号典型地由立体声填充参数表示。

此外，较佳地，基于相同DFT频谱在一个且相同频域内执行整个参数分析及对准。为此，此外，较佳地使用相位变换广义互相关(GCC-PHAT)技术用于声道间时间差确定。在本过程的较佳实施例中，执行基于频谱形状信息(该信息较佳地为频谱平坦度量)的相关频谱的平滑化，以使得在类噪声信号的情况下平滑化将为弱，及在类音调信号的情况下平滑化将变得较强。

此外，较佳地，执行特定相位旋转，其中对声道振幅进行说明。特别地，相位旋转分布在两个声道间，用于编码器侧的对准，及当然，用于解码器侧的去对准，在解码器侧具有较高振幅的声道被视为引导声道且将受相位旋转影响较小，即，相比于具有较低振幅的声道将更少被旋转。

此外，使用利用定标因子的能量定标执行和-差计算，定标因子从两个声道的能量得出，以及此外，受限于某个范围，以便确保中间/侧边计算不会过度影响能量。然而，另一方面，应注意，出于本发明目的，此种能量守恒(energy conservation)不像在先前技术过程中那么重要，因为事先对准时间及相位。因此，归因于从左及右的中间信号及侧边信号的计算(在编码器侧)或归因于从中间及侧边的左及右信号的计算(在解码器侧)的能量起伏波动不像先前技术中那么显著。

附图说明

随后，参考附图讨论本发明的较佳实施例，其中：

图1为用于编码多声道信号的设备的较佳实施例的框图；

图2为用于解码经编码的多声道信号的设备的较佳实施例；

图3为用于某些实施例的不同频率分辨率及其它频率相关方面的例示；

图4a示出为了对准声道而在用于编码的设备中执行的过程的流程图；

图4b示出在频域中执行的过程的较佳实施例；

图4c示出使用具有零填补部分及重叠范围的分析窗口在用于编码的设备中执行的过程的较佳实施例；

图4d示出在用于编码的设备内执行的另外的过程的流程图；

图4e示出显示声道间时间差估计的较佳实施例的流程图；

图5示出流程图，该流程图示出在用于编码的设备中执行的过程的另一实施例；

图6a示出编码器的实施例的框图；

图6b示出解码器的对应实施例的流程图；

图7示出具有低重叠正弦窗口的较佳窗口情境，具有零填补用于立体声时间-频率分析及合成；

图8示出显示不同参数值的比特消耗量的表；

图9a示出较佳实施例中的由用于解码经编码的多声道信号的设备执行的过程；

图9b示出用于解码经编码的多声道信号的设备的较佳实施例；

图9c示出在经编码的多声道信号的解码情况下在宽带去对准的情况下执行的过程。

图10a示出用于估计声道间时间差的设备的实施例；

图10b示出其中施加声道间时间差的信号进一步处理的示意表示；

图11a示出由图10a的处理器执行的过程；

图11b示出由图10a的处理器执行的进一步过程；

图11c示出在时域表示的分析中的可变阈值的计算及该可变阈值的使用的又一实施例；

图11d示出用于该可变阈值的确定的第一实施例；

图11e示出用于该阈值的确定的又一实施例；

图12示出用于清晰语音信号的经平滑化的互相关频谱的时域表示；

图13示出用于具有噪音及周围环境的语音信号的经平滑化的互相关频谱的时域表示。

具体实施方式

图10a示出用于估计第一声道信号如左声道与第二声道信号如右声道之间的声道间时间差的设备的实施例。这些声道被输入至关于图4e额外示出为项451的时间-频谱转换器150内。

此外，左及右声道信号的时域表示被输入至计算器1020用于从时间区块中的第一声道信号及时间区块中的第二声道信号计算用于该时间区块的互相关频谱。此外，该设备包含频谱特性估计器1010，其用于估计用于时间区块的第一声道信号或第二声道信号的频谱的特性。该设备进一步包含平滑化滤波器1030，用于使用该频谱特性随着时间平滑化该互相关频谱以获得经平滑化的互相关频谱。该设备进一步包含处理器1040，用于处理该经平滑化的互相关频谱以获得声道间时间差。

特别地，在较佳实施例中，频谱特性估计器的功能也由图4e项453、454反映。

此外，在较佳实施例中，互相关频谱计算器1020的功能也由将在稍后描述的图4e项452反映。

对应地，平滑化滤波器1030的功能也由将在稍后描述的图4e的上下文中的项453反映。此外，在较佳实施例中，处理器1040的功能也在图4e的上下文中被描述为项456至459。

较佳地，频谱特性估计计算频谱的噪度或音调，其中较佳实施例为频谱平坦度量的计算在音调或非嘈杂信号的情况下接近0而在嘈杂或类噪音信号的情况下接近1。

特别地，平滑化滤波器然后用于在第一较不嘈杂特性或第一较多音调特性的情况下，随时间施加具有第一平滑化度的较强平滑化，或在第二较多嘈杂特性或第二较少音调特性的情况下，随时间施加具有第二平滑化度的较弱平滑化。

特别地，第一平滑化大于第二平滑化度，其中第一嘈杂特性比第二嘈杂特性较少嘈杂，或第一音调特性比第二音调特性具有更多音调。较佳实施例为频谱平坦度量。

此外，如图11a中所示，在执行对应于图4e的实施例中的步骤457及458的步骤1031中的时域表示的计算之前，处理器较佳地如图4e及11a中的456所示地实施以归一化经平滑化的互相关频谱。然而，如图11a中概述，处理器也可在没有图4e的步骤456中的归一化的情况下操作。然后，处理器用于分析时域表示，如图11a的块1032中所示，以便找出声道间时间差。此分析可以任一种已知方式执行且将导致改进的稳健度，原因在于分析是基于根据频谱特性而被平滑化的互相关频谱而被执行的。

如图11b中所示，时域分析1032的较佳实施例为如图11a中的458所示的对应于图4e的项458的时域表示的低通滤波，及在经低通滤波的时域表示内使用峰值搜寻/峰值拾取操作的随后进一步处理1033。

如图11c中所示，峰值拾取或峰值搜寻操作的较佳实施例是使用可变阈值执行此操作。特别地，处理器用于通过从时域表示确定1034可变阈值及通过比较时域表示的一个峰值或数个峰值(经过或未经过频谱归一化而获得)与该可变阈值而在从经平滑化的互相关频谱得出的时域表示内执行峰值搜寻/峰值拾取操作，其中该声道间时间差被确定为和与该可变阈值呈预定关系的峰值相关联的时间延迟。

如图11d中所示，在稍后关于图4e-b的伪码中示出的一个较佳实施例包含根据其振幅将数值分类1034a。然后，如图11d中的项1034b中所示，确定例如最高10％或5％值。

然后，如步骤1034c中所示，数字如数字3与最高10％或5％中的最低值相乘以获得可变阈值。

如前述，较佳地，确定最高10％或5％，但确定数值中的最高50％的最低数字及使用较高的乘数(如10)也是可行的。当然，即使确定较小量如数值的最高3％，及数值的最高3％中的最低值乘以例如等于2.5或2(即小于3)的数字。如此，图11d中所示的实施例中可使用不同的数字与百分比的组合。除了百分比之外，数字也可改变，且大于1.5的数字为较佳地。

在图11e中示出的又一实施例中，时域表示被划分成子区块，如由块1101所示，这些子区块在图13中以1300指示。此处，约16个子区块用于有效范围，从而每个子区块具有20的时间滞后跨度。然而，子区块的数目可大于此值或较低，且较佳地，大于3且低于50。

在图11e的步骤1102中，确定每个子区块中的峰值，及在步骤1103中，确定全部子区块中的平均峰值。然后，在步骤1104中，确定乘数值a，其一方面取决于信噪比，及在又一个实施例中，取决于阈值与最大峰值之间的差，如块1104的左侧指示。取决于这些输入值，确定较佳三个不同乘数值中的一个，其中乘数值可等于a_low、a_high及a_lowest。

然后，在步骤1105中，在块1104中确定的乘数值a乘以平均阈值以便获得可变阈值，其然后用于块1106中的比较操作。对于比较操作，再次可使用输入至块1101中的时域表示，或可使用如在块1102中概述的每个子区块中的已确定的峰值。

随后，概述有关时域互相关函数内的峰值的评估及检测的进一步实施例。

归因于不同的输入情景，为了估计声道间时间差(ITD)而从广义互相关(GCC-PHAT)方法产生的时域互相关函数内的峰值的评估及检测并非经常是直截了当的。清晰语音输入可导致具有强峰值的低偏差互相关函数，而在嘈杂混响环境中的语音可产生具有高偏差的向量，及具有较低但仍然突出的振幅的峰值，其指示ITD的存在。描述适应性及灵活的峰值检测算法以适应不同的输入情景。

归因于延迟限制，总体系统可处理声道时间对准上至某个极限，即ITD_MAX。所提出算法被设计用以检测在下列情况下是否存在有效ITD：

·归因于突出峰值的有效ITD。存在在互相关函数的[-ITD_MAX,ITD_MAX]界限内的突出峰值。

·不相关。当两个声道间不相关时，没有突出峰值。应定义阈值，高于该阈值峰值足够强以被视为有效ITD值。否则，无需信令ITD处理，这表示ITD被设定为零且不执行时间对准。

·界外ITD。区域[-ITD_MAX,ITD_MAX]以外的互相关函数的强峰值应被评估以确定是否存在在系统的处理容量以外的ITD。在此种情况下，无需信令ITD处理且因此不执行时间对准。

为了确定峰值的振幅是否足够高以被视为时间差值，需定义适当阈值。对于不同输入情景，互相关函数输出因不同参数(例如，环境(噪声、混响等)、麦克风设置(AB、M/S)等)而异。因此，适应性地定义阈值相当重要。

在所提出算法中，首先通过计算[-ITD_MAX,ITD_MAX]区域内的互相关函数的振幅的包络的粗略计算的平均值定义阈值(图13)，然后该平均值相应地取决于SNR估计而被加权。

以下描述算法的逐一步骤描述。

表示时域互相关的GCC-PHAT的逆DFT的输出被重新排列为从负至正时间滞后(图12)。

互相关向量被划分成三个主要区：关注区，即[-ITD_MAX,ITD_MAX]及ITD_MAX界限之外的区，即时间滞后小于-ITD_MAX(max_low)及高于ITD_MAX(max_high)。“界外”区的最大峰值被检测及储存，以与关注区中检测到的最大峰值比较。

为了确定是否存在有效ITD，考虑互相关函数的子向量区[-ITD_MAX,ITD_MAX]。子向量被划分成N个子区块(图13)。

针对每个子区块，找出且储存最大峰值振幅peak_sub及相等时间滞后位置index_sub。

本地极大值的最大值peak_max被确定且将与阈值比较以确定有效ITD值的存在。

最大值peak_max与max_low及max_high比较。若peak_max低于两者中的任一者，则不信令ITD处理且不执行时间对准。由于系统的ITD处理极限，无需评估界外峰值的振幅。

峰值的振幅的均值被计算：

通过以SNR相依加权因子a_w加权peak_mean计算阈值thres：

thres＝a_wpeak_mean，其中

在SNR<<SNR_threshold及|thres-peak_max|<ε的情况下，峰值振幅也与略较松弛阈值(a_w＝a_lowest)作比较，以免剔除具有高邻近峰值的突出峰值。加权因子可以是例如a_high＝3，a_low＝2.5，及a_lowest＝2，而SNR_threshold可以是例如20db，及边界ε＝0.05。

较佳范围针对a_high为2.5至5；针对a_low为1.5至4；针对a_lowest为1.0至3；针对SNR_threshold为10至30db；及针对ε为0.01至0.5，其中a_high大于a_low大于a_lowest。

若peak_max>thres，则相等时间滞后作为估计的ITD返回，否则不信令ITD处理(ITD＝0)。

进一步实施例稍后将关于图4e描述。

随后，图10b的块1050内的本发明的较佳实施例用于信号进一步处理器，其关于图1至图9c(即在两个声道的立体声/多声道处理/编码及时间对准的上下文中)被讨论。

然而，如图10b中陈述及示出，存在有众多其它领域，其中也可使用经确定的声道间时间差执行信号进一步处理。

图1示出用于编码具有至少两个声道的多声道信号的设备。多声道信号10一方面被输入参数确定器100且另一方面被输入信号对准器200。参数确定器100从多声道信号一方面确定宽带对准参数及另一方面确定多个窄带对准参数。这些参数经由参数线路12输出。此外，如图所示，这些参数也经由另一参数线路14被输出至输出接口500。在参数线路14上，额外参数如声级参数从参数确定器100被转发至输出接口500。信号对准器200用于使用经由参数线路10接收的宽带对准参数及多个窄带对准参数，对准多声道信号10的至少两个声道，以在信号对准器200的输出处获得已对准的声道20。这些已对准的声道20被转发至信号处理器300，信号处理器300用于从经由线路20接收的已对准的声道计算中间信号31及侧边信号32。用于编码的设备还包含用于编码来自线路31的中间信号及来自线路32的侧边信号以获得线路41上的编码中间信号及线路42上的编码侧边信号的信号编码器400。这些信号均被转发至输出接口500用于在输出线路50处产生经编码的多声道信号。在输出线路50处的经编码的信号包含来自线路41的编码中间信号、来自线路42的编码侧边信号、来自线路14的窄带对准参数及宽带对准参数、以及选择性地，来自线路14的声级参数，以及此外选择性地，由信号编码器400产生并经由参数线路43被转发至输出接口500的立体声填充参数。

较佳地，信号对准器用于在参数确定器100实际上计算窄带参数之前，使用宽带对准参数对准来自多声道信号的声道。因此，在此实施例中，信号对准器200经由连接线15将宽带对准声道发送回参数确定器100。然后，参数确定器100从相对于宽带特性已对准的多声道信号确定多个窄带对准参数。然而，在其它实施例中，无需使用此种特定过程顺序而确定参数。

图4a示出较佳实施例，其中执行引发连接线15的特定步骤顺序。在步骤16中，使用两个声道确定宽带对准参数，并获得宽带对准参数，如声道间时差或ITD参数。然后，在步骤21中，两个声道被图1的信号对准器200使用宽带对准参数加以对准。然后，在步骤17中，使用参数确定器100内的已对准声道确定窄带参数，以确定多个窄带对准参数，如用于多声道信号的不同频带的多个声道间相位差参数。然后，在步骤22中，每个参数频带中的频谱值使用用于此特定频带的对应窄带对准参数加以对准。当针对每个频带在步骤22中执行此过程时，对于每个频带窄带对准参数是可用的，然后对准的第一及第二或左/右声道可用于由图1的信号处理器300进行的进一步信号处理。

图4b示出图1的多声道编码器的又一实施例，其中在频域中执行若干过程。

更具体地，多声道编码器进一步包含时间-频谱转换器150，其用于将时域多声道信号转换成频域内的至少两个声道的频谱表示。

此外，如152处所示，在图1中以100、200及300示出的参数确定器、信号对准器及信号处理器全部操作于频域中。

此外，多声道编码器及，特别地，信号处理器进一步包含用于至少产生中间信号的时域表示的频谱-时间转换器154。

较佳地，频谱-时间转换器额外地也将由块152表示的过程所确定的侧边信号的频谱表示转换成时域表示，且然后，图1的信号编码器400，取决于图1的信号编码器400的特定实施例，用于进一步将中间信号和/或侧边信号编码为时域信号。

较佳地，图4b的时间-频谱转换器150用于实施图4c的步骤155、156及157。特别地，步骤155包含提供在其一端具有至少一个零填补部分的分析窗口，及特别地，例如，具有如在后文中图7所示的在初始窗口部分的零填补部分及在终结窗口部分的零填补部分。此外，分析窗口额外地具有在窗口的第一半处及在窗口的第二半处的重叠范围或重叠部分，及此外，较佳地，视情况而定，中间部分为非重叠范围。

在步骤156中，使用具有重叠范围的分析窗口对每个声道进行窗口化。更具体地，使用分析窗口对每个声道进行窗口化，使得获得声道的第一区块。随后，获得相同声道的具有与第一区块的某个重叠范围的第二区块，等等，使得例如在五次窗口化操作之后，每个声道的五个窗口化样本区块是可用的，然后如图4c中157处所示，每个声道的五个窗口化样本区块被个别被变换成频谱表示。对其它声道也执行相同过程，因而在步骤157结束时，频谱值区块的序列及特别是复合频谱值(如DFT频谱值或复合子频带样本)是可用的。

在由图1的参数确定器100执行的步骤158中，确定宽带对准参数，以及在由图1的信号对准器200执行的步骤159中，使用宽带对准参数执行循环移位。在再次由图1的参数确定器100执行的步骤160中，针对个别频带/子频带确定窄带对准参数，及在步骤161中，使用针对特定频带确定的对应窄带对准参数而对于每个频带旋转已对准的频谱值。

图4d示出由信号处理器300执行的进一步过程。更具体地，信号处理器300用于计算中间信号及侧边信号，如在步骤301所示。在步骤302中，可执行侧边信号的某种进一步处理，及然后在步骤303中，中间信号及侧边信号的每个区块被变换回时域，及在步骤304中，合成窗口被施加至由步骤303获得的每个区块，及在步骤305中，一方面执行用于中间信号的重叠相加操作，及另一方面执行用于侧边信号的重叠相加操作，以最终获得时域中间/侧边信号。

更具体地，步骤304及305的操作导致从中间信号或侧边信号的一个区块至中间信号和侧边信号的下一区块的一种交叉衰落被执行，使得即便当出现任何参数变化时，如出现声道间时间差参数或声道间相位差参数，然而这将在由图4d中的步骤305获得的时域中间/侧边信号中是听不到的。

新颖的低延迟立体声编码为利用一些空间线索的联合中间/侧边(M/S)立体声编码，其中中间声道被主单声道核心编码器编码，及侧边声道在次核心编码器中被编码。编码器及解码器原理在图6a、6b中描绘。

立体声处理主要在频域(FD)中执行。选择性地，在频率分析之前，可在时域(TD)中执行一些立体声处理。对于ITD计算情况是这样，其可在频率分析之前计算及应用，以用于在追求立体声分析及处理之前按时间对准声道。另外，ITD处理可在频域直接进行。由于常见语音编码器如ACELP不含任何内部时间-频率分解，立体声编码在核心编码器之前借助于分析-合成滤波器组增加额外复合经调制的滤波器组及在核心解码器之后增加分析-合成滤波器组的另一阶段。在较佳实施例中，采用具有低重叠区的过取样DFT。然而，在其它实施例中，可使用具有相似的时间分辨率的任何复值的时间-频率分解。

立体声处理包含计算空间线索：声道间时间差(ITD)、声道间相位差(IPD)、及声道间声级差(ILD)。ITD及IPD被用在输入立体声信号上以用于按时间及相位对准两个声道L及R。在宽带或时域中计算ITD，而针对参数频带中的每个或部分计算IPD及ILD，其对应频率空间的非一致分解。一旦两个声道对准，施加联合M/S立体声，然后进一步从中间信号预测侧边信号。预测增益是从ILD得出的。

中间信号被主核心编码器进一步编码。在较佳实施例中，主核心编码器为3GPPEVS标准，或从其得出的可在语音编码模式ACELP与基于MDCT变换的音乐模式间切换的编码。较佳地，ACELP及以基于MDCT的编码器分别受时域带宽扩展(TD-BWE)及或智能间隙填补(IGF)模块的支持。

首先通过中间声道使用从ILD得出的预测增益预测侧边信号。可进一步通过中间信号的延迟版本预测残差，或通过次核心编码器直接编码残差，在较佳实施例中，在MDCT域执行。在编码器的立体声处理可通过图5概述，如后面所述。

图2示出用于解码在输入线路50处接收的经编码的多声道信号的设备的实施例的框图。

更特别地，信号由输入接口600接收。连接至输入接口600的为信号解码器700及信号去对准器900。此外，信号处理器800一方面连接至信号解码器700及另一方面连接至信号去对准器。

更特别地，经编码的多声道信号包含经编码的中间信号、经编码的侧边信号、宽带对准参数的信息、及多个窄带参数的信息。因此，线路50上的经编码的多声道信号可恰为与由图1的输出接口500所输出的相同信号。

然而，要紧地，此处应注意，与图1中所示相反，包括在某种形式的经编码信号中的宽带对准参数及多个窄带对准参数可恰为被图1中的信号对准器200所使用的对准参数，但另外，也可以是其逆值，即，可被恰由信号对准器200执行的相同操作使用但具有逆值以获得去对准的参数。

因此，对准参数的信息可以是如由图1中的信号对准器200使用的对准参数，或可以是其逆值，即，实际“去对准参数”。此外，这些参数典型地以某种形式量化，如后面参考图8所讨论。

图2的输入接口600从经编码的中间/侧边信号分离宽带对准参数及多个窄带对准参数的信息并经由参数线路610将该信息转发至信号去对准器900。另一方面，经编码的中间信号经由线路601被转发至信号解码器700，及经编码的侧边信号经由信号线路602被转发至信号解码器700。

信号解码器用于解码经编码的中间信号及解码经编码的侧边信号以获得线路701上的经解码的中间信号及线路702上的经解码的侧边信号。这些信号被信号处理器800用于从经解码的中间信号及经译码的侧边信号计算经解码的第一声道信号或经解码的左信号及计算经解码的第二声道或经解码的右声道信号，及经解码的第一声道及经解码的第二声道分别在线路801、802上输出。信号去对准器900用于使用宽带对准参数的信息去对准线路801上的经解码的第一声道及经解码的右声道802，及此外使用多个窄带对准参数的信息以获得经解码的多声道信号，即，在线路901及902上具有至少两个已解码且已去对准的声道的解码信号。

图9a示出由图2的信号去对准器900执行的较佳步骤顺序。更具体地，步骤910接收已对准的左及右声道，如从图2的线路801、802上可获得的。在步骤910中，信号去对准器900使用窄带对准参数的信息去对准个别子频带，以便在911a及911b获得经相位去对准的经解码第一及第二或左及右声道，在步骤912中，使用宽带对准参数去对准声道，因此在913a及913b获得经相位及时间去对准的声道。

在步骤914中，执行任何进一步处理，包含使用窗口化或任何重叠相加操作，或通常使用任何交叉衰落操作，以便在915a及915b获得伪声降低的或无伪声的解码信号，即，至没有任何伪声的经解码的声道，然而一方面针对宽带及另一方面针对多个窄带已存在典型地时变去对准参数。

图9b示出图2中所示的多声道解码器的较佳实施例。

特别地，图2的信号处理器800包含时间-频谱转换器810。

此外，信号处理器包含中间/侧边至左/右转换器820以便从中间信号M及侧边信号S计算左信号L及右信号R。

然而，重要地是，为了在块820中通过中间/侧边至左/右转换计算L及R，不一定要使用侧边信号S。相反地，如后面所述，开始只使用从声道间声级差参数ILD得出的增益参数计算左/右信号。一般而言，预测增益也可被视为为ILD的一种形式。增益可从ILD得出，但也可直接计算出。较佳地不再计算ILD，但直接计算预测增益并在解码器中传输且使用预测增益而非ILD参数。

因此，在此实施例中，侧边信号S只用于声道更新器830，如由旁通线路821所示，声道更新器830使用经传输的侧边信号S操作以提供较佳的左/右信号。

因此，转换器820使用经由声级参数输入822获得的声级参数操作，而实际上未使用侧边信号S，但然后声道更新器830使用侧边821，且取决于特定实施例使用经由线路831接收的立体声填充参数操作。然后信号对准器900包含相位去对准器及能量定标器910。能量定标受由定标因子计算器940得出的定标因子控制。声道更新器830的输出馈入定标因子计算器940。基于经由输入911接收的窄带对准参数，执行相位去对准，及在块920中，基于经由线路921接收的宽带对准参数，执行时间去对准。最后，执行频谱-时间转换930以便最终获得解码信号。

图9c示出较佳实施例中的在图9b的块920及930内典型执行的又一步骤顺序。

更具体地，窄带去对准声道被输入对应图9b的块920的宽带去对准功能内。在块931中执行DFT或任何其它变换。实际计算时域样本之后，执行使用合成窗口的选择性合成窗口化。合成窗口较佳地恰与分析窗口相同，或从分析窗口得出(例如，内插或抽样)但以某种方式取决于分析窗口。相依性较佳地为使得对于重叠范围中的每个点由两个重叠窗口界定的乘数因子加和为1。如此，在块932中的合成窗口之后，进行重叠操作及随后相加操作。另外，替代合成窗口化及重叠/相加操作，执行用于每个声道的随后区块间的任何交叉衰落，以便如图9a的上下文中已讨论的获得伪声降低的解码信号。

当考虑图6b时，变得清楚的是，针对中间信号的实际解码操作(即一方面“EVS解码器”)，及针对侧边信号的逆向量量化VQ^-1及逆MDCT操作(IMDCT)对应图2的信号解码器700。

此外，块810中的DFT操作对应图9b中的元件810，及逆立体声处理及逆时移的功能对应图2的块800、900，及图6b的逆DFT操作930对应图9b中的块930中的对应操作。

接着更详细地讨论图3。特别地，图3示出具有个别频谱线的DFT频谱。较佳地，DFT频谱或图3中所示的任何其它频谱为复合频谱，及每个线为具有振幅及相位或具有实部及虚部的复频谱线。

此外，频谱也被划分成不同参数频带。每个参数频带具有至少一个及较佳地多于一个频谱线。此外，参数频带从较低频增至较高频。典型地，宽带对准参数为用于整个频谱，即用于包含图3中的示例实施例中的全部频带1至6的频谱的单个宽带对准参数。

此外，提供多个窄带对准参数，使得对于每个参数频带有单个对准参数。这表示用于频带的对准参数总是适用于对应频带内的全部频谱值。

此外，除了窄带对准参数之外，声级参数也被提供给每个参数频带。

与为频带1至频带6的每个及每个参数频带提供声级参数相比，较佳地只提供多个窄带对准参数给有限数目的较低频带，如频带1、2、3及4。

此外，立体声填充参数被提供给某个数目的频带，较低频带除外，如在示例实施例中，提供给频带4、5及6，但存在用于较低参数频带1、2及3的侧边信号频谱值，且因此，针对这些较低频带不存在立体声填充参数，使用侧边信号本身或表示侧边信号的预测残差信号获得波形匹配。

如已描述，如在图3中的实施例中，在较高频带中存在有更多频谱线，参数频带6中有七条频谱线而参数频带2中仅有三条频谱线。然而，当然，参数频带数目、频谱线数目、及参数频带内的频谱线数目、及针对某些参数的不同限值将为不同。

然而，图8示出某个实施例中的参数的分布及被提供以参数的频带数目，在该实施例中与图3相比，实际存在12个频带。

如图所示，提供声级参数ILD给12个频带中的每个，且声级参数被量化至由每频带五比特表示的量化准确度。

此外，窄带对准参数IPD只被提供给较低频带上至2.5kHz的更宽频率。此外，声道间时间差或宽带对准参数只被提供作为全频谱的单个参数，但针对全频带具有由8比特表示的极高量化准确度。

此外，提供相当粗略量化的立体声填充参数，由每频带3比特表示，且并非用于低于1kHz的较低频带，因为对于较低频带包括实际编码的侧边信号或侧边信号残差频谱值。

随后，关于图5概述在编码器侧的较佳处理。在第一步骤中，执行左及右声道的DFT分析。该过程对应图4c的步骤155至157。在步骤158中，计算宽带对准参数，及特别地较佳的宽带对准参数声道间时间差(ITD)。如在170中所示，执行频域中的L及R的时移。另外，也在时域中执行此种时移。然后执行逆DFT，在时域中执行时移，及执行额外正DFT以便在使用宽带对准参数的对准之后再次具有频谱表示。

在经移位的L及R表示上为每个参数频带计算ILD参数，即声级参数及相位参数(IPD参数)，如步骤171所示。此步骤例如对应图4c的步骤160。依据声道间相位差参数的函数旋转时移的L及R表示，如图4c的步骤161或图5所示。接着，如步骤301中所示，计算中间及侧边信号，及较佳地，额外有能量转换操作，如后面所述。在随后步骤174中，利用作为ILD的函数的M及选择性地利用过去的M信号，即稍早帧的中间信号，执行S的预测。接着，执行中间信号及侧边信号的逆DFT，其对应较佳实施例中图4d的步骤303、304、305。

在最后步骤175中，时域中间信号m及选择性地，残差信号如步骤175中所示的被编码。此过程对应由图1中的信号编码器400执行的过程。

在逆立体声处理中，在解码器处，侧边(Side)信号在DFT域中产生，且首先从中间(Mid)信号预测为：

其中g为针对每个参数频带计算的增益且为传输的声道间声级差(ILD)的函数。

然后，预测残差Side-g·Mid可以两种不同方式精炼：

--通过残差信号的次编码：

其中g_cod为针对全频谱传输的全局增益。

--通过残差预测，也称作立体声填充，以来自前一DFT帧的先前解码中间信号频谱预测残差侧边频谱：

其中g_pred为每参数频带传输的预测增益。

在相同DFT频谱内可混合两种编码精制。在较佳实施例中，残差编码应用于较低参数频带，而残差预测应用于剩余频带。在如图1中描绘的较佳实施例中，在时域中合成残差侧边信号及通过MDCT对其进行变换之后在MDCT域执行残差编码。不同于DFT，MDCT是关键取样的且更适用于音频编码。MDCT系数通过格型向量量化而被直接地向量量化，但可选地可由被熵编码器跟随的标量量化器编码。可选地，残差侧边信号也在时域中通过语音编码技术被编码，或在DFT域被直接编码。

1.时间-频率分析：DFT

重要的是，来自由DFT进行的立体声处理的额外时间-频率分解允许良好听觉场景分析，而不会显著增加编码系统的总延迟。在默认情况下，使用10毫秒(核心编码器的20毫秒成帧的两倍)的时间分辨率。分析及合成窗口是相同且对称的。窗口在图7中以16kHz的取样率表示。可观察到，重叠区受限用以减少造成的延迟，及当在频域中应用ITD时，也加入零填补以逆平衡循环移位，如后面所述。

2.立体声参数

立体声参数最大可以立体声DFT的时间分辨率传输。最小可减少至核心编码器的成帧分辨率，即20毫秒。在默认情况下，当未检测到瞬态时，跨2个DFT窗口每20毫秒计算参数。参数频带构成遵循大致为等效矩形带宽(ERB)的两倍或四倍的频谱的非一致且非重叠分解。在默认情况下，4倍ERB标度被用于16kHz频率带宽的共12个频带(32kbps取样率，超宽带立体声)。图8概述配置的示例，对此立体声边信息以约5kbps传输。

3.ITD的计算及声道时间对准

通过使用相位变换广义互相关(GCC-PHAT)估计到达时间延迟(TDOA)计算ITD：

其中L及R分别为左及右声道的频谱。可与用于随后立体声处理的DFT相独立地执行或可分享频率分析。用于计算ITD的伪码如下：

图4e示出用于实施稍早示出的伪码的流程图，以便获得作为宽带对准参数的示例的声道间时间差的稳健有效的计算。

在块451中，执行针对第一声道(l)及第二声道(r)的时域信号的DFT分析。此DFT分析典型地将为例如与图5或图4c的步骤155至157的上下文中已经讨论的相同的DFT分析。

针对每频率仓执行互相关，如块452中所示。

因此，针对左及右声道的全频谱范围获得互相关频谱。

在步骤453中，然后从L及R的振幅频谱计算频谱平坦度量，及在步骤454中，选取较大的频谱平坦度量。然而，在步骤454中的选择并非必需是选择较大者，而从两个声道的单个SFM的确定也可以是只有左声道或只有右声道的计算及选择，或可以是两个SFM值的加权平均的计算。

在步骤455中，依据频谱平坦度量，然后互相关频谱随着时间而被平滑化。

较佳地，通过振幅频谱的几何平均除以振幅频谱的算术平均计算频谱平坦度量。如此，SFM值限于0至1间。

在步骤456中，然后平滑化的互相关频谱通过其振幅而被归一化，及在步骤457中，计算已归一化的平滑化的互相关频谱的逆DFT。在步骤458中，较佳地执行某个时域滤波，但取决于实施例，也可不考虑此时域滤波但将其视为较佳的，如后面所述。

在步骤459中，通过滤波广义互相关函数的峰值拾取及通过执行某个阈值化操作而执行ITD估计。

若未获得高于阈值的峰值，则ITD被设定为零，且对此对应区块不执行时间对准。

ITD计算也可概述如下。取决于频谱平坦度量，在被平滑化之前，在频域中计算互相关。SFM限于0至1间。在类噪声信号的情况下，SFM将为高(即，约1)且平滑化将为弱。在类音调信号的情况下，SFM将为低且平滑化将变强。然后，在变换回时域之前，平滑化的互相关通过其幅值而被归一化。归一化对应互相关的相位变换，且已知在低噪声及相对高混响环境中，显示比正常互相关更佳的性能。如此得到的时域函数首先被滤波以达成更稳健的峰值峰化。对应最大振幅的索引对应左及右声道间的时间差(ITD)的估计。若最大振幅低于给定阈值，则ITD的估计视为不可靠且被设定为零。

若在时域中施加时间对准，则在分离的DFT分析中计算ITD。如下地进行移位：

要求在编码器的额外延迟，其至多等于可处理的最大绝对ITD。ITD随时间的变化通过DFT的分析窗口化而被平滑化。

可选地，可在频域中执行时间对准。在此种情况下，ITD计算及循环移位在相同DFT域中，与此另一个立体声处理分享的域。循环移位通过下式给定：

需要DFT窗口的零填补来以循环移位模拟时移。零填补的大小对应可处理的最大绝对ITD。在较佳实施例中，通过将3.125毫秒的零加在两端，零填补均匀地分裂在分析窗口两侧。ITD最大可能绝对值则为6.25毫秒。在A-B麦克风设置中，其对应两个麦克风间约2.15米的最大距离的最恶劣情况。ITD随时间的变化通过合成窗口化及DFT的重叠相加而被平滑化。

重要的是，时移之后为已移位信号的窗口化。这是与先前技术双耳线索编码(BCC)的主要区别，时移被施加至窗口化信号上，但在合成阶段不被进一步窗口化。因此，ITD随时间的任何变化在解码信号中产生伪声瞬态/卡嚓声。

4.IPD的计算及声道旋转

在时间对准两个声道之后，计算IPD，及依赖于立体声配置，此用于每个参数频带或至少上至给定ipd_max_band。

然后，IPD应用于两个声道用以对准其相位：

其中β＝atan2(sin(IPD_i[b])、cos(IPD_i[b])+c)、及b为频率索引k所属的参数频带索引。参数β负责在两个声道间分布相位旋转量同时使其相位对准。β依赖于IPD但也依赖于声道的相对振幅声级ILD。若声道具有较高振幅，则将被视为引导声道且比具有较低振幅的声道将较少地受相位旋转的影响。

5.和-差及侧边信号编码

对两个声道的经时间及相位对准的频谱执行和差变换，使得能量保存在中间信号。

其中限于1/1.2与1.2间，即-1.58与+1.58db。当调整M及S的能量时，此限制避免了伪声。值得注意的是，当时间及相位经事先对准时，此种能量守恒较不重要。可选地，界限可增大或减小。

进一步以M预测侧边信号S：

其中其中可选地，通过最小化残差及由先前方程式推出的ILD的均方差(MSE)可找到最佳预测增益g。

残差信号S’(f)可通过两种手段建模：以M的延迟频谱对其进行预测，或在MDCT域中直接在MDCT域对其进行编码。

6.立体声解码

中间信号X及侧边信号S首先被转换成左及右声道L及R如下：

L_i[k]＝M_i[k]+gM_i[k]，对于band_limits[b]≤k＜band_limits[b+1]

R_i[k]＝M_i[k]-gM_i[k]，对于band_limits[b]≤k＜band_limits[b+1]

其中每参数频带增益g从ILD参数得出：

其中

针对低于cod_max_band的参数频带，以经解码的侧边信号更新两个声道：

L_i[k]＝L_i[k]+cod_gain_i·S_i[k]，对于0≤k＜band_limits[cod_max_band]

R_i[k]＝R_i[k]-cod_gain_i·S_i[k]，对于0≤k＜band_limits[cod_max_band]

针对较高参数频带，侧边信号被预测且声道被更新为：

L_i[k]＝L_i[k]+cod_pred_i[b]·M_i-1[k]，对于band_limits[b]≤k＜band_limits[b+1]

R_i[k]＝R_i[k]-cod_pred_i[b]·M_i-1[k]，对于band_limits[b]≤k＜band_linits[b+1]

最后，声道乘以复值，目标在于恢复立体声信号的原能量及声道间相位：

L_i[k]＝a·e^j2πβ·L_i[k]

其中

其中a如先前所定义地定义并限定，及其中β＝atan2(sin(IPD_i[b])，cos(IPD_i[b])+c)，及其中atan2(x，y)为x对y的四象限反正切。

最后，依赖于被传输的ITD，在时域或频域中时移声道。通过逆DFT及重叠相加合成时域声道。

本发明的特定特征涉及空间线索与和-差联合立体声编码的组合。更具体地，空间线索IDT及IPD被计算并应用于立体声声道(左及右)上。此外，和-差(M/S信号)被计算，及较佳地，以M进行S的预测。

在解码器侧，连同和-差联合立体声编码组合宽带及窄带空间线索。更特别地，使用至少一个空间线索如ILD利用中间信号预测侧边信号，及计算逆和-差以获得左及右声道，及此外，宽带及窄带空间线索被应用于左及右声道上。

较佳地，在使用ITD处理后，编码器具有关于经时间对准的声道的窗口和重叠-相加。此外，在应用声道间时间差之后，解码器额外具有经移位或经去对准的声道版本的窗口化及重叠-相加操作。

利用GCC-Phat方法的声道间时间差的计算是特别稳健的方法。

新颖过程对于先前技术是有益的，原因在于以低延迟达成立体声音频或多声道音频的比特率编码。该过程被特别地设计以对于输入信的不同性质及多声道或立体声纪录的不同设置是稳健的。特别地，本发明为比特率立体声语音编码提供良好质量。

较佳过程可用于全部类型立体声或多声道音频内容(如语音及音乐等)的广播的分布以给定低比特率具有恒定感官品质。此种应用领域为数字无线电、因特网串流、或音频通信应用。

所发明的编码音频信号可存储于数字存储介质或非瞬时存储介质上，或可在如无线传输介质或有线传输介质(如因特网)的传输介质上传输。

虽然一些方面已经在设备的上下文中描述，显然这些方面也表示对应方法的描述，其中块或装置对应方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应设备的对应块或项或特征的描述。

取决于某些实施例要求，本发明的实施例可以硬件或软件实施。可使用其上存储有电子可读控制信号的数字存储介质(例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)执行实施，电子可读控制信号与可编程计算机系统协作(或能协作，使得执行相应的方法。

依据本发明的一些实施例包含一种具有电子可读控制信号的数据载体，电子可读控制信号可与可编程计算机系统协作，使得执行本文描述的方法之一。

概略言之，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可操作用于执行方法之一。程序代码例如可存储在机器可读取载体上。

其它实施例包含存储于机器可读取载体上或非瞬时存储介质上的用于执行本文描述的方法之一的计算机程序。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文描述的方法之一。

因此，本发明方法的进一步实施例为包含用于执行本文描述的方法之一的计算机程序纪录于其上的数据载体(或数字存储介质，或计算机可读介质)。

因此，本发明方法的进一步实施例为表示用于执行本文描述的方法之一的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为经由数据通信连接(例如经由因特网)而被传送。

又一实施例包含处理构件，例如计算机，或可编程逻辑设备，其被配置为或适于执行本文描述的方法之一。

又一实施例包含具有安装于其上的用于执行本文描述的方法之一的计算机程序的计算机。

在一些实施例中，可使用编程逻辑设备(例如，现场可编程门阵列)执行本文描述的方法的部分或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以便执行本文描述的方法之一。通常，这些方法较佳地由任何硬件设备执行。

前述实施例仅用于说明本发明的原理。应当理解的是，本文描述的布置及细节的修改及变化对于本领域的其他技术人员将是显而易见的。因此，其意图仅受随附的专利权利要求范围所限，而不受此处实施例的描述及解释给出的特定细节所限。

Claims

1.一种用于估计第一声道信号与第二声道信号之间的声道间时间差的设备，包含：

计算器(1020)，用于从时间区块中的第一声道信号及所述时间区块中的第二声道信号计算用于所述时间区块的互相关频谱；

频谱特性估计器(1010)，用于估计用于所述时间区块的第一声道信号或第二声道信号的频谱的特性；

平滑化滤波器(1030)，用于使用频谱特性随时间平滑化所述互相关频谱以获得经平滑化的互相关频谱；及

处理器(1040)，用于处理所述经平滑化的互相关频谱以获得声道间时间差。

2.如权利要求1所述的设备，

其中所述处理器(1040)用于使用所述经平滑化的互相关频谱的振幅归一化(456)所述经平滑化的互相关频谱。

3.如权利要求1所述的设备，

其中所述处理器(1040)用于：

计算(1031)所述经平滑化的互相关频谱或经归一化及平滑化的互相关频谱的时域表示；及

分析(1032)所述时域表示以确定所述声道间时间差。

4.如权利要求3所述的设备，

其中所述处理器(1040)用于低通滤波(458)所述时域表示并进一步处理(1033)低通滤波的结果。

5.如权利要求3所述的设备，

其中所述处理器(1040)用于通过在从所述经平滑化的互相关频谱确定的时域表示内执行峰值搜寻或峰值拾取操作而确定所述声道间时间差。

6.如权利要求1所述的设备，

其中所述频谱特性估计器(1010)用于确定频谱的噪度作为所述频谱特性；及

其中所述平滑化滤波器(1030)用于在第一较少嘈杂特性的情况下以第一平滑化度随时间施加较强的平滑化，或在第二较多嘈杂特性的情况下以第二平滑化度随时间施加较弱的平滑化，

其中所述第一平滑化度大于所述第二平滑化度，且其中所述第一较少嘈杂特性比所述第二较多嘈杂特性具有较少嘈杂，

或者

其中所述频谱特性估计器(1010)用于确定频谱的调性作为所述频谱特性；及

其中所述平滑化滤波器(1030)用于在第一较多音调特性的情况下以第一平滑化度随时间施加较强的平滑化，或在第二较少音调特性的情况下以第二平滑化度随时间施加较弱的平滑化，

其中所述第一平滑化度大于所述第二平滑化度，且其中所述第一较多音调特性比所述第二较少音调特性具有更多音调。

7.如权利要求1所述的设备，

其中所述频谱特性估计器(1010)用于计算所述第一声道信号的频谱的第一频谱平坦度量及所述第二声道信号的第二频谱的第二频谱平坦度量作为所述特性，并通过以下操作中的一个而从所述第一频谱平坦度量及所述第二频谱平坦度量确定频谱的特性：

从所述第一频谱平坦度量和所述第二频谱平坦度量中选择最大值；

确定所述第一频谱平坦度量和所述第二频谱平坦度量之间的加权平均；以及

从所述第一频谱平坦度量和所述第二频谱平坦度量中选择最小值。

8.如权利要求1所述设备，

其中所述平滑化滤波器(1030)用于通过来自时间区块的用于频率的互相关频谱值与来自至少一个过去时间区块的用于所述频率的互相关频谱值的加权组合计算用于所述频率的经平滑化的互相关频谱值，其中用于加权组合的加权因子由频谱的特性确定。

9.如权利要求1所述的设备，

其中所述处理器(1040)用于确定在从所述经平滑化的互相关频谱得出的时域表示内的有效范围及无效范围，

其中所述无效范围内的至少一个最大峰值被检测并与所述有效范围内的最大峰值作比较，其中只有当所述有效范围内的最大峰值大于所述无效范围内的至少一个最大峰值时才确定所述声道间时间差。

10.如权利要求1所述的设备，

其中所述处理器(1040)用于：

在从所述经平滑化的互相关频谱得出的时域表示内执行峰值搜寻操作，

从所述时域表示确定(1034)可变阈值；及

比较(1035)峰值与所述可变阈值，其中所述声道间时间差被确定为和与所述可变阈值呈预定关系的峰值相关联的时间滞后。

11.如权利要求10所述的设备，

其中所述处理器(1040)用于确定所述可变阈值(1034c)为等于所述时域表示的值中的最大10％中的值的整数倍数的值。

12.如权利要求1所述的设备，

其中所述处理器(1040)用于确定(1102)从所述经平滑化的互相关频谱得出的时域表示的多个子区块中的每个子区块中的最大峰值振幅，

其中所述处理器(1040)用于基于从所述多个子区块的最大峰值振幅得出的平均峰值振幅计算(1104，1105)可变阈值，及

其中所述处理器(1040)用于确定所述声道间时间差为与大于所述可变阈值的所述多个子区块的最大峰值相对应的时间滞后值。

13.如权利要求12所述的设备，

其中所述处理器(1040)用于通过对子区块中的峰值的最大峰值幅度进行平均所确定的平均峰值幅度与某个值的相乘(1105)而计算所述可变阈值，

其中所述某个值由所述第一声道信号及所述第二声道信号的信噪比(SNR)特性确定(1104)，其中某个值的第一值与第一SNR值相关联及某个值的第二值与第二SNR值相关联，其中所述第一值大于所述第二值，及其中所述第一SNR值大于所述第二SNR值。

14.如权利要求13所述的设备，

其中所述处理器(1040)用于在第三SNR值低于所述第二SNR值的情况下且当所述可变阈值与最大峰值之间的差低于预定值时使用(1104)低于某个值的第二值的第三值。

15.一种用于估计第一声道信号与第二声道信号之间的声道间时间差的方法，包括：

从时间区块中的第一声道信号及所述时间区块中的第二声道信号计算(1020)用于所述时间区块的互相关频谱；

估计(1010)用于所述时间区块的第一声道信号或第二声道信号的频谱的特性；

使用频谱特性随时间平滑化(1030)所述互相关频谱以获得经平滑化的互相关频谱；及

处理(1040)所述经平滑化的互相关频谱以获得所述声道间时间差。

16.一种计算机可读存储介质，具有存储在其上的计算机程序，当所述计算机程序在计算机或处理器上运行时，用于执行如权利要求15所述的方法。