CN105900335A

CN105900335A - 用于压缩音频信号的音频压缩系统

Info

Publication number: CN105900335A
Application number: CN201480073003.6A
Authority: CN
Inventors: 彼得·格罗舍; 郎玥; 张清
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-01-30
Filing date: 2014-01-30
Publication date: 2016-08-24
Anticipated expiration: 2034-01-30
Also published as: US20160344356A1; WO2015113601A1; MX361826B; JP2017506038A; CN105900335B; BR112016017756A2; EP3100353B1; EP3100353A1; MX2016009912A; KR20160113224A

Abstract

本发明涉及一种用于压缩输入音频信号的音频压缩系统(100)，所述音频压缩系统(100)包括：数字滤波器(101)，其用于对所述输入音频信号进行滤波以获得滤波后音频信号，所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及压缩器(103)，其用于基于所述滤波后音频信号压缩所述输入音频信号以获得压缩后音频信号。

Description

用于压缩音频信号的音频压缩系统

技术领域

本发明涉及音频信号处理的领域。

背景技术

音频信号的动态范围的减小是录音、放音和广播领域中的重要话题。动态范围的减小可能与使音频信号的特性适应于所采用的音频设备的物理能力相关。

为了减小音频信号的动态范围，可以采用压缩器。压缩器的压缩特性可以通过多个压缩参数控制，所述压缩参数可能大大影响音频信号的感知质量。

参数的调整由于人声感知的复杂特性可能具有挑战性且极大地取决于音频信号的特性。

在音频工程师协会期刊1984年第32卷第316到327页上的G.W.麦克纳利(G.W.McNally)的“数字音频信号的动态范围控制(Dynamic RangeControl of Digital Audio Signals)”中，描述使用压缩器的动态范围压缩。

发明内容

本发明的目标是提供一种用于有效地压缩输入音频信号的音频压缩系统，所述系统允许压缩后音频信号的高感知质量。

此目标通过独立权利要求项的特征实现。另外的实施形式通过附属权利要求项、描述以及图式显而易见。

本发明是基于以下发现：输入音频信号可以通过数字滤波器滤波，其中数字滤波器的频率传递函数的基于频率的幅值可以通过人耳的等响曲线形成。通过借助数字滤波器对输入音频信号进行滤波，输入音频信号的具有人耳的低响度灵敏度的部分可以被放大且输入音频信号的具有人耳的高响度灵敏度的部分可以被衰减。换句话说，根据本发明，对于音频信号处理，考虑人声感知的特性。压缩器可以基于滤波后音频信号依次压缩输入音频信号以获得压缩后音频信号。因此压缩可以集中在输入音频信号的具有人耳的低响度灵敏度的部分上且因此增强压缩后音频信号的感知质量。

根据第一方面，本发明涉及一种用于压缩输入音频信号的音频压缩系统，所述音频压缩系统包括：数字滤波器，其用于对输入音频信号进行滤波以获得滤波后音频信号，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及压缩器，其用于基于所述滤波后音频信号压缩输入音频信号以获得压缩后音频信号。因此，可以实现压缩后音频信号的高感知质量。

输入音频信号可以是采样后和/或量化后音频信号。输入音频信号可以包括单声道音频信号、立体声音频信号或多声道音频信号。

数字滤波器可以实施为有限脉冲响应(finite impulse response，FIR)滤波器或无限脉冲响应(infinite impulse response，IIR)滤波器。数字滤波器的滤波特性可以使用频率传递函数在频域中确定。

人耳的等响曲线可能与基于频率的声压曲线有关，其中人类使用纯的和/或稳定的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。

滤波后音频信号可以是采样后和/或量化后音频信号。滤波后音频信号可以包括单声道音频信号、立体声音频信号或多声道音频信号。

压缩器可以是数字压缩器。压缩器可以用于组合输入音频信号与滤波后音频信号以获得压缩后音频信号。

压缩后音频信号可以是采样后和/或量化后音频信号。压缩后音频信号可以包括单声道音频信号、立体声音频信号或多声道音频信号。

在根据第一方面本身的音频压缩系统的第一实施形式中，数字滤波器是用于对时域输入音频信号进行时域滤波以提供时域中的滤波后音频信号的时域滤波器。因此，可以实现对输入音频信号进行滤波的低时延。

可以对时域输入音频信号采样以获得一系列样本，所述样本可以通过时域滤波器滤波以获得滤波后音频信号的一系列样本。时域滤波器可以例如使用直接形式结构或栅格结构实施。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第二实施形式中，频率传递函数具有在预定频率之下或之上的恒定幅值。因此，可以限制频率传递函数的幅值的总范围。

在预定频率之下的恒定幅值的情况下，预定频率可以例如是10Hz。在预定频率之上的恒定幅值的情况下，预定频率可以例如是7kHz。

频率传递函数的幅值可以基于频率归一化。基于频率的频率传递函数的幅值的均值可以具有值一。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第三实施形式中，频率传递函数的相位基于频率而线性增大或减小。因此，可以实现数字滤波器的恒定群时延。

在根据第一方面本身、第一方面的第一实施形式或第一方面的第二实施形式的音频压缩系统的第四实施形式中，频率传递函数的相位是基于频率恒定的，具体来说等于零。因此，可以有效地实施数字滤波器。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第五实施形式中，频率传递函数通过滤波器系数确定，其中数字滤波器包括确定单元和滤波单元，其中所述确定单元用于基于至少一个等响曲线确定滤波器系数，其中所述滤波单元用于基于所确定的滤波器系数对音频信号进行滤波。因此，可以实现数字滤波器的滤波特性的调适。

确定单元可以用于基于至少一个等响曲线使用例如帕克斯-麦克莱伦算法的数字滤波器设计技术确定滤波器系数。滤波器系数可以是实数，例如2.5或7.8，或复数，例如1+j或4-3j。滤波器系数可以包括滤波器抽头。

滤波单元可以包括有限脉冲响应(finite impulse response，FIR)或无限脉冲响应(infinite impulse response，IIR)滤波器结构。

在根据第一方面的第五实施形式的音频压缩系统的第六实施形式中，确定单元用于从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的滤波器系数以便确定滤波器系数。因此，数字滤波器可以采用不同的等响曲线。

在根据第一方面的第六实施形式的音频压缩系统的第七实施形式中，不同的等响曲线与音频信号的不同响度级相关联，其中确定单元进一步用于确定音频信号的响度级，其中确定单元进一步用于基于所确定的响度级选择与等响曲线相关联的滤波器系数。因此，数字滤波器的频率传递函数可以根据音频信号的响度级调适。

音频信号的响度级可能与在预定时间间隔内的音频信号的平均能量有关。所述预定时间间隔可以例如是20ms或100ms。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第八实施形式中，压缩器用于基于滤波后音频信号确定压缩增益信号，且用于组合输入音频信号与压缩增益信号以获得压缩后音频信号。因此，可以有效地执行输入音频信号的压缩。

压缩增益信号可以基于例如分段线性压缩特性曲线的压缩特性曲线从滤波后音频信号得到。输入音频信号与压缩增益信号的组合可以包括输入音频信号与压缩增益信号的相乘。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第九实施形式中，音频压缩系统进一步包括用于对压缩后音频信号进行滤波的均衡滤波器，所述均衡滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。因此，可以实现音频压缩系统的平坦的频率响应。

在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第十实施形式中，音频压缩系统进一步包括用于减小时域中的压缩后音频信号的最大幅值的峰值限制器。因此，可以减轻压缩后音频信号的削波效果。

峰值限制器可以实现为具有高压缩阈值和/或高压缩比的动态范围压缩器。

根据第二方面，本发明涉及一种用于压缩输入音频信号的音频压缩方法，所述音频压缩方法包括：通过数字滤波器对输入音频信号进行滤波以获得滤波后音频信号，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及基于滤波后音频信号压缩输入音频信号以获得压缩后音频信号。因此，可以实现压缩后音频信号的高感知质量。

音频压缩方法可以通过根据第一方面本身或第一方面的任何实施形式的音频压缩系统执行。音频压缩方法的另外特征可直接由根据第一方面本身或第一方面的任何实施形式的音频压缩系统的功能性产生。

根据第三方面，本发明涉及一种用于对音频信号进行滤波的数字滤波器，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。因此，可以提供用于与人声感知有关的应用的数字滤波器。

根据第四方面，本发明涉及一种用于对音频信号进行滤波的数字滤波方法，所述数字滤波方法包括通过数字滤波器对音频信号进行滤波，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。因此，可以提供用于与人声感知有关的应用的数字滤波方法。

所述数字滤波方法可以通过根据第三方面本身的数字滤波器执行。数字滤波方法的另外特征可以直接由根据第三方面本身的数字滤波器的功能性产生。

在根据第四方面本身的数字滤波方法的第一实施形式中，频率传递函数通过滤波器系数确定，其中所述数字滤波方法包括基于至少一个等响曲线确定滤波器系数，且基于所确定的滤波器系数对音频信号进行滤波。因此，可以实现数字滤波方法的滤波特性的调适。

在根据第四方面的第一实施形式的数字滤波方法的第二实施形式中，滤波器系数的确定包括从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的滤波器系数以便确定滤波器系数。因此，数字滤波方法可以采用不同的等响曲线。

根据第五方面，本发明涉及一种包括程序代码的计算机程序，所述程序代码当在计算机上执行时用于执行根据第二方面本身的音频压缩方法或用于执行根据第四方面本身或第四方面的任何实施形式的数字滤波方法。因此，可以自动且可重复的方式应用所述方法。

可以机器可读程序代码的形式提供所述计算机程序。所述程序代码可以包括用于计算机的处理器的一系列命令。计算机的处理器可以用于执行程序代码。

本发明可以用硬件和/或软件实施。

附图说明

本发明的具体实施方式将结合以下附图进行描述，其中：

图1示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式；

图2示出根据实施形式的用于压缩输入音频信号的音频压缩方法的图式；

图3示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式；

图4示出根据实施形式的用于对音频信号进行滤波的数字滤波方法的图式；

图5示出根据实施形式的高动态范围音频信号和压缩后音频信号的图式；

图6示出根据实施形式的动态范围压缩原理的图式；

图7示出根据实施形式的使用指数衰减的时间平滑的图式；

图8示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式；

图9示出根据实施形式的不同等响曲线的图式；

图10示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式；

图11示出根据实施形式的用于对人耳的响度灵敏度建模的数字滤波器的频率响应的图式；

图12示出根据实施形式的用于压缩输入音频信号的压缩器的图式；

图13示出根据实施形式的均衡滤波器的频率响应的图式；

图14示出说明根据实施形式的音频压缩系统对输入音频信号的作用的图式；

图15示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式；

图16示出根据实施形式的用于压缩输入音频信号的压缩器的图式；以及

图17示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式。

相同参考符号指代相同或等效的特征。

具体实施方式

图1示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。

音频压缩系统100包括：数字滤波器101，其用于对输入音频信号进行滤波以获得滤波后音频信号，所述数字滤波器101包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及压缩器103，其用于基于滤波后音频信号压缩输入音频信号以获得压缩后音频信号。

数字滤波器101可以实施为有限脉冲响应(finite impulse response，FIR)滤波器或无限脉冲响应(infinite impulse response，IIR)滤波器。数字滤波器101的滤波特性可以使用频率传递函数在频域中确定。

压缩器103可以是数字压缩器。压缩器103可以用于组合输入音频信号与滤波后音频信号以获得压缩后音频信号。

图2示出根据实施形式的用于压缩输入音频信号的音频压缩方法200的图式。

音频压缩方法200包括：通过数字滤波器对输入音频信号进行滤波201以获得滤波后音频信号，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；且基于滤波后音频信号压缩203输入音频信号以获得压缩后音频信号。

音频压缩方法200可以通过图1的音频压缩系统100执行。音频压缩方法200的另外特征可以直接由图1的音频压缩系统100的功能性产生。

图3示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。

数字滤波器101包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。

图4示出根据实施形式的用于对音频信号进行滤波的数字滤波方法400的图式。

数字滤波方法400包括通过数字滤波器对音频信号进行滤波401，所述数字滤波器包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。

数字滤波方法400可以通过图3的数字滤波器101执行。数字滤波方法400的另外特征可以直接由图3的数字滤波器101的功能性产生。

图5示出根据实施形式的高动态范围音频信号和压缩后音频信号的图式。在左边，描绘具有峰值幅度1的原始高动态范围音频信号。在右边，描绘具有峰值幅度1但减少的动态范围的压缩后音频信号。

例如平板计算机或智能电话的移动装置通常配备有较小的低质量微型扬声器和低功率放大器。因此，可以通过在此类装置中的电声系统再现的声音的质量可能被限制。具体来说，可以产生的最大声压级可能被限制。这可能导致较高程度的信号失真和受限的动态范围。

此外，此类装置通常用于在可能需要高输出电平的嘈杂环境中播放声音。甚至，进一步的处理，例如为了补偿扬声器之间的较小距离的立体声扩展，可能更进一步减小最大输出电平。

此问题的一个解决方案可以是较高质量的扬声器和具有较高输出功率的放大器的集成。然而，这可能需要可能不能集成到较小移动装置中的较大扬声器和消耗来自电池的更多能量的放大器。因此，可能需要能够增强通过此类移动装置产生的声学信号的所感知响度的信号处理技术。音频信号的动态范围压缩(Dynamic range compression，DRC)可以是一种用于响度增强的技术。DRC的目标可以是增加平均信号能量同时将峰值能量保持在由电声系统的能力施加的限制内。为了实现此效果，一个策略可以是增强弱信号成分的电平。

图5中说明音频信号的动态范围压缩的效果。左图示出典型的音乐实例的信号幅度。有规律地出现的高幅度峰值通常与击鼓相对应。信号可以进行归一化以获得峰值幅度1，所述峰值幅度可以与可以由电声系统处理的最大幅度相对应。数字音频信号的幅度通常约束到区间[-1；1]。超出这些限制的幅度可能导致削波，即，所述幅度可能受到所述限制的限制。这可能导致高信号失真。此峰值幅度可以限制信号的总输出电平，因为它可能仅很少地在高动态范围音频信号中出现。大部分信号可能具有低幅度。在此信号上执行的动态范围压缩操作的结果可以产生绘制在图5的右边上的幅度。尽管所产生的信号的峰值幅度可以仍为1，但可以界定所感知的平均响度的平均幅度可能高得多。具体来说，具有低幅度的成分可以大大增强。可以被界定为低能量成分与高能量成分的比值的动态范围可以减小。

图6示出根据实施形式的动态范围压缩原理的图式。说明了动态范围压缩的使用基于峰值幅度检测的静态压缩曲线的基本原理。无压缩的情况通过实线说明。使用-15dB的压缩阈值和3:1的压缩比的压缩的情况通过虚线说明。

输入信号x和压缩后信号x_c之间的传递函数可以示出以下特性。在输入信号x的电平在以dB指定的给定阈值T之下的情况下，可能不修改所述输入信号的电平；压缩后信号x_c可以与x相同。在输入信号x的电平超出阈值T的情况下，x_c可以给定压缩比R减小。压缩比可以使输入信号的电平变化与输出信号的电平变化有关。在此实例中，R＝3的压缩比可以指示输入信号中超出阈值T 3dB的电平可以减小到输出信号中在阈值之上仅1dB的电平。因此，与输入信号的电平P_x相比，压缩后信号的电平可以根据时变增益g(t)减小。

等式1可以如下给出：

P_x(t)＝20log₁₀|x(t)|

g (t) = \{\begin{matrix} - (1 - 1 / R) \cdot (P_{x} (t) - T), & P_{x} (t) > T \\ 0, & P_{x} (t) \leq T \end{matrix}

P_{x_{c}} (t) = P_{x} (t) + g (t)

这可以是动态范围压缩的基本原理。因为DRC可以是在音乐记录和制作中、甚至在模拟域中的重要话题，所以可以应用许多不同的实施方案和扩展。具体来说，图6中示出的分段线性压缩曲线可以由软压缩曲线替代，例如，用S型曲线等膝状或饱和压缩曲线替代。

图7示出根据实施形式的使用指数衰减的时间平滑的图式。使用指数衰减的时间平滑可以用于对攻击和/或衰减时间建模。实线说明P_x。虚线说明使用30ms的攻击滤波时间常数和150ms的释放滤波时间常数的P_s。

在没有时间平滑的情况下，动态范围压缩可能引入许多失真，因为输出信号的电平可能改变地太快。输出信号可能不与输入信号的特性类似。为了减少DRC的可听失真，压缩增益可以缓慢地改变。

实现此效果的方法可以是通过如图7中所图示添加指数衰减以用于攻击和释放时间来平滑峰值幅度的检测。为下标为A的攻击和下标为R的释放指定不同的时间常数τ_A、τ_R可以允许控制对声学事件的不同状态的平滑效果。攻击可以指代与信号电平中的增加一起的事件的开始。释放可以指代此事件的通常较慢的能量衰减。攻击和释放的指数衰减可以如下计算：

τ_A、τ_R可以被界定为达到攻击和释放的最后值的63％的时间；

等式2可以如下给出：

P_{s} (t) = \{\begin{matrix} α_{A} P_{s} (t - 1) + (1 - α_{A}) P_{x} (t), & P_{x} (t) > P_{s} (t - 1) \\ α_{R} P_{s} (t - 1), & P_{x} (t) \leq P_{s} (t - 1) \end{matrix}

随后，P_s(t)可以替代P_x(t)用于等式1或2中以用于时变增益g(t)的计算。

可以使用不同的实施方案，例如，解耦、分支、前馈、反馈、侧链、偏置和/或后置增益实施方案。

时间平滑参数设置可以与压缩的量和音频质量之间的权衡即失真相关且可以构成压缩的量和音频质量之间的权衡。具体来说，所述时间平滑参数设置可以影响如由鼓声或瞬态产生的幅度峰值可受影响的程度。在长释放时间常数的情况下，在峰值或瞬态之后，信号可衰减较长时间，且P_y可减小太多。在短释放时间常数的情况下，在瞬态之后可能发生信号电平的跳跃。在长攻击时间常数的情况下，瞬态可能不衰减，因为它们可能短于攻击时间，且峰值电平可仍较高。在短攻击时间常数的情况下，瞬态可能被压制，从而导致缺乏清晰度，电平可能减小得太多，且瞬态的电平可与紧挨在瞬态之前的信号的电平相同。

不同的解决方案可以应用于DRC。评价DRC算法的四个主要标准可以是音质、压缩率、计算复杂性以及用户可控性。在压缩和质量之间可以存在权衡，因为高压缩通常可导致不良的音质。在波形中的峰值，例如瞬态或攻击，可以被衰减以获得高压缩增益。这可能导致缺乏感知清晰度。如例如在TV和无线电广播中使用的高质量动态范围压缩系统通常可以在频域中工作或作用于全频带信号的子带分解。这可能导致高计算复杂性。特别是对于移动装置，计算和能量资源可能是有限的。

参数设置可以与获得较高量的压缩同时保持高音频质量相关。最优参数设置还可以取决于具体音频信号和收听环境。对于消费装置中的应用，通常可以使用保守或并非最优的设置来预界定参数。用户可能不具有除开和关以外的任何控制机制。

图8示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。音频压缩系统100可以包括动态范围压缩系统。

音频压缩系统100包括数字滤波器101、压缩器103、均衡滤波器801以及峰值限制器803。压缩器103包括压缩增益控制805和压缩单元807。压缩单元807包括参数规范单元809、增益估计单元811、第一乘法器813以及第二乘法器815。参数规范单元809将压缩阈值、压缩比、攻击滤波时间常数以及释放滤波时间常数提供给增益估计单元811。

许多方法聚焦于音乐制作应用。本发明尤其处理移动放音情形，其中目标可以是实时地增加由智能电话和/或平板计算机等移动装置的扬声器产生的平均输出电平，同时保持高音质和低计算复杂性以及低功耗或低电池功耗。

本发明可以涉及如图8中所描绘的增强音频压缩系统100或动态范围压缩系统。音频压缩系统100可以包括用于考虑人耳的灵敏度的频率特性的人声感知的模型，即，数字滤波器101或滤波器等响模块。音频压缩系统100可以包括用于减小瞬态的电平同时保持信号清晰度的级联动态范围压缩系统，即，与峰值限制器803或峰值限制器模块级联的压缩器103或动态范围压缩模块。音频压缩系统100或系统可以包括用于压缩增益G的单一控制参数，所述控制参数可以由用户或消费者以连续方式控制。音频压缩系统100或系统可以包括用于移动装置上的实时应用的在时域中的低复杂性全频带实施方案。

图8中描绘音频压缩系统100或系统的流程图。给定输入信号x(t)，音频压缩系统100或系统可以执行以下步骤。

首先，可以应用数字滤波器101或滤波器等响模块，即，预处理操作，所述操作通过用等响曲线对输入信号x(t)进行滤波来应用简化响度模型以便获得响度均衡输入信号x_l(t)。预处理的目标可以是加强信号中的人耳较不敏感的频率。第二，可以应用压缩器103或动态范围压缩模块。它可以包括参数规范单元809或参数规范模块。给定以dB为单位的外部、例如用户指定的所希望的压缩增益，可以最优方式调整内部动态范围压缩参数T、R、τ_A、τ_R。所述压缩器或动态范围压缩模块可进一步包括可以从响度均衡输入信号x_l(t)估计时变增益g(t)的增益估计单元811或增益估计模块。所获得的压缩在已经通过均衡加强的区域中可能更强，所述区域可以与其中人耳较不敏感的区域相对应。因此，动态范围压缩的失真可以为不太容易听到的且可以应用更强的压缩。输入信号x(t)的动态范围压缩可以通过对信号x(t)应用时变增益g(t)和所希望的压缩增益G以获得压缩后信号x_c(t)来执行。第三，可以可选地应用均衡滤波器801或均衡模块，所述均衡滤波器或均衡模块可以对x_c(t)应用均衡以校正取决于频率的压缩且重建信号x_e(t)的平坦的频率响应。这还可以考虑扬声器的频率响应。第四，可以可选地应用峰值限制器803。可以应用峰值和/或瞬态的软限制以防止在强攻击阶段中的削波以获得输出信号y(t)。

图9示出根据实施形式的不同等响曲线的图式。

耳朵可能并不对所有频率同样敏感。图9示出对在整个可听范围上的不同频率的响应作为示出被视为同样响的声压级的曲线的集合。对于低和高频率，声压级可能高得多以获得与在中间频率中时相同的感知响度。曲线可在2到5kHz的范围内最低，在4kHz处具有凹陷，指示耳朵可能对在此范围中的频率最敏感。较高或较低音调的强度级可以实质上升高以便产生相同的响度印象。此发现可以用于实现输出信号的较高音质。想法可以是在其中人耳较不敏感的那些频率区域中应用更强的动态范围压缩。

图10示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。数字滤波器101可以包括滤波器等响模块。

数字滤波器101可以包括确定单元1001和滤波单元1003。确定单元1001可以用于滤波器参数规范，其中可以将等响曲线提供到确定单元1001以获得滤波器系数。滤波单元1003可以基于滤波器系数对输入信号x(t)进行滤波以获得响度均衡信号x_l(t)。

可以通过用等响曲线滤波来应用响度模型以对人耳的灵敏度建模。这可以增强其中人耳较不敏感的频率且可以使其中人耳高度敏感的频率衰减。

图11示出根据实施形式的用于对人耳的响度灵敏度建模的数字滤波器的频率响应的图式。在低频率处，放大可被约束且可能不通过扬声器再现。在高频率处，放大可被约束且通常通过扬声器增强。

以下处理可以用于获得此效果，见图10。执行具有类似于等响曲线的滤波器响应的滤波。这可以增强在其中人耳较不敏感的频率处的电平且可以使其中人耳高度敏感的频率衰减。然后，随后的动态范围压缩可以集中在其中人耳较不敏感的频率区域中，即高和低频率。因此，压缩失真可以是不太容易听到的。具体来说，2到5kHz或2到6kHz的频率范围可几乎不由动态范围压缩修改。此范围可以是对于声音清晰度最重要的。

如图11中示出的滤波器响应可以是基于等响曲线但根据若干方面修改。为了考虑微型扬声器特性和能力，可以通过引入上限来限制最低和最高频率的放大。此限制的动机可以是基于所考虑的使用小扬声器的应用情形。此处，最低频率可能不通过扬声器再现且高频率通常可以通过此类扬声器放大。限制放大可以考虑这一点。放大的总范围，即，滤波器响应的最小值和最大值之间的差值，可能限于仅跨越15dB。从图9可以看出，在单一等响曲线的声压级中的最小值和最大值之间的差值可以达到80dB。在动态范围压缩中，阈值T在典型的应用情形中可以设定成6和20dB之间的值。因此，应用可以将某些频率与其它频率相比放大80dB的均衡可以导致仅这些频率被高度压缩，然而，其它频率可能未达到阈值且可能因此根本不被压缩。约束放大的总范围可以允许控制不同频率区域中的动态范围压缩的强度。

图12示出根据实施形式的用于压缩输入音频信号的压缩器103的图式。压缩器103可以包括压缩单元807或动态范围压缩模块。

压缩单元807包括参数规范单元809、增益估计单元811、第一乘法器813以及第二乘法器815。参数规范单元809将压缩阈值T、压缩比R以及攻击滤波时间常数和释放滤波时间常数τ_R、τ_A提供给增益估计单元811。可以将响度均衡音频信号x_l(t)提供到增益估计单元811。可以将输入音频信号x(t)提供到第二乘法器815。压缩后音频信号x_c(t)可以通过第二乘法器815提供。

随后，可以对输入信号应用动态范围压缩，如图12中示出。动态范围压缩可以遵循大体描述且可以使用相同的符号。

首先，给定例如由用户指定的所希望的压缩增益G，用于如所引入的动态范围压缩的参数T、R、τ_A、τ_R可以如下得到。目标可以是压缩信号使得在x_c(t)的峰值幅度和可以在不削波的情况下再现的最大值P_max之间产生G的余量。

m a x (P_{x_{c}} (t)) \overset{!}{=} P_{m a x} - G

T＝P_max-G·λ(1+1/R)

发现可以是，为了获得所希望的增益，R和T的不同的值是可能的。降低阈值可以允许获得较高G，但同时还可能增加受DRC影响的信号成分的量。增加压缩比R，在阈值之上的成分可能得到更强压缩。选择就感知质量而言最优的R和T值可能是困难的任务。发现是，阈值T和压缩比R之间的特定关系有希望获得高质量。此外，泛听测试揭示：当近似为下式时，动态范围压缩的感知质量最优

R≈G/(2dB)。

时间平滑常数τ_A、τ_R可通过减少压缩的量以确保可对于获得高感知质量重要的时间连续性来影响DRC结果。因此，所实现的最终压缩低于所希望的G。平滑越强，即，时间常数τ_A、τ_R越大，所实现的压缩就越低。为了获得最佳可能的感知质量，可以取决于所希望的压缩增益G选择时间常数的参数值。

τ_A≈-0.0002sec/dB·G+0.006sec

τ_R≈-0.0033sec/dB·G+0.12sec

感知收听测试揭示：时间常数和G之间的线性相关性产生最佳结果。为了增加G的值，时间常数可以线性减小。

作为平滑的结果，P_s＜P_x可能发生。因此，可能希望添加容差λ≥1以保证可以实现所希望的压缩增益G。所述容差可以考虑到，快速瞬态可能被攻击衰减错过且可以导致高信号峰值。因此，可以根据攻击时间常数选择容差的值。

λ＝1.122+65·1/sec·τ_A

在得到最优参数设置之后，可以从响度均衡信号估计时变增益g(t)。

g (t) = \{\begin{matrix} - (1 - 1 / R) \cdot (P_{s} (t) - T), & P_{s} (t) > T \\ 0, & P_{s} (t) \leq T \end{matrix}

其中

P_{s} (t) = \{\begin{matrix} α_{A} P_{s} (t - 1) + (1 - α_{A}) P_{x} (t), & P_{x} (t) > P_{s} (t - 1) \\ α_{R} P_{s} (t - 1), & P_{x} (t) \leq P_{s} (t - 1) \end{matrix}

且

α_{R} = e^{- 1 / τ_{R}}, α_{A} = e^{- 1 / τ_{A}}

最后，所述增益可以与所希望的压缩增益G相乘或通过所希望的压缩增益G放大且最后与原始输入信号x(t)相乘，且不与响度均衡信号相乘。这提供最佳可能质量，因为原始信号未由响度模型改变而是仅由响度校正增益改变。

x_c(t)＝x(t)·10^G/20·g(t)

图13示出根据实施形式的例如均衡滤波器801的均衡滤波器的频率响应的图式。

作为可选的后处理步骤，可以对信号应用均衡滤波器801。可能希望均衡补偿取决于频率的动态范围压缩。通过响度模型增强的频率范围可以得到更强压缩且因此可以接收与通过响度模型衰减的频率相比更低的电平。尽管此方法可以确保动态范围压缩可以集中在其中人耳对压缩失真较不敏感的频率范围中，但它还可能产生不具有平坦的频率响应的输出信号。为了补偿此效果，可以使用具有等响曲线的变体的再次滤波。

可以调整如图13中示出的滤波器响应以补偿由预处理滤波器针对相等响度产生的影响增益g(t)的计算的非线性压缩。因为增益g(t)从响度均衡信号得到但可以应用到原始输入信号，所以压缩后信号通常可能不具有平坦的频率响应。具体来说，可以使低和高频率衰减。在使用产生6dB的压缩增益G的阈值T＝12dB和2:1的比值的示例性压缩的情况下，图13中示出的滤波器响应可以被设计用于补偿此效果。在此情况下，低和高频率可以被放大约2dB以便实现平坦的频率响应。对于G的不同值，所述响应可以线性缩放。

可能希望均衡补偿取决于频率的动态范围压缩。可以使用具有等响曲线的变体的滤波。可能地，均衡取决于压缩增益。并且，可以考虑目标输出装置以界定均衡。

图14示出说明根据实施形式的例如音频压缩系统100的音频压缩系统对输入音频信号x(t)的作用的图式。音频压缩系统可以包括动态范围压缩系统。第一波形示出输入信号x(t)，第二波形示出在步骤三即均衡之后的音频信号x_e(t)，且第三波形示出在步骤四即峰值限制之后的音频信号y(t)。

作为最终步骤，可以应用峰值限制器以防止输出信号中的削波。削波可以涉及信号的超出最大可能值P_max的幅度。由于用时间常数τ_R、τ_A执行的时间平滑，例如击鼓等快速且强的瞬态可能未被压缩。因此，信号电平中的快速变化可以保留在输出信号中，这可以是确保高感知质量或信号清晰度的重要方面。然而，这些峰值还可能防止可以在没有削波的情况下实现所希望的压缩增益G。此问题的一个直接的解决方案可以是减小用于动态范围压缩模块中的时间常数。但这可能降低质量。

当添加峰值限制器作为最终处理步骤时，可以实现高音质同时避免削波。峰值限制器可以是可以被调节以仅影响信号的其余峰值的动态范围压缩器。为此目的，阈值T可以设定成高阈值，例如T＝-1dB，且压缩比也可以较高，例如R＝60:1。与用于攻击和释放时间常数的较小值一起，这些设置可以确保超出阈值且因此导致削波的任何峰值可以非常大的比值被压缩，例如R＝60:1。因此，超出阈值的峰值可以被较强地压缩或软削波以确保它们不超出此阈值。

通过压缩单元或动态范围压缩模块执行的缓慢动态范围压缩可以确保可以通过压缩保持音频信号的缓慢演进的长期和中期特性，且快速反应峰值限制器可以执行软削波以仅防止削波。在组合中，可以尽可能地保持信号质量，具体来说信号清晰度，同时仍确保高压缩增益。

图14比较输入信号x(t)与在均衡之后的压缩后信号x_e(t)以及在峰值限制之后的最终输出信号y(t)。在动态范围压缩之后，所述信号的中期水平特性可以得到保持，但超出幅度值[-1；+1]的峰值可以保留在信号x_e(t)中。这些最后可以通过峰值限制器软削波以获得信号y(t)。

图15示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。音频压缩系统100可以包括动态范围压缩系统。

音频压缩系统100包括使用响度模型的数字滤波器101、压缩器103、均衡滤波器801以及峰值限制器803。压缩器103包括压缩增益控制805、用于内部参数调适的参数规范单元809以及用于动态范围压缩的减压缩单元1501。可以将输入音频信号提供到数字滤波器101且提供到减压缩单元1501。输出信号可以通过峰值限制器803提供。

应用简化的响度模型，即数字滤波器101或具有等响曲线的滤波器，可以加强其中人耳较不敏感的频率。可以实现动态范围压缩。由于响度模型，压缩可以在其中耳朵较不敏感且压缩失真可不太容易听到的区域中更强。应用均衡以校正取决于频率的压缩且以重建平坦频率响应可以是所希望的。可采用用于防止在强攻击阶段中的削波的峰值限制器803。

图16示出根据实施形式的用于压缩输入音频信号的压缩器103的图式。压缩器103可以包括压缩单元807或动态范围压缩模块。

压缩单元807包括参数规范单元809、增益估计单元811以及合路器单元1601。参数规范单元809将压缩阈值、压缩比、攻击滤波时间常数以及释放滤波时间常数提供给增益估计单元811。可以将响度均衡音频信号提供到增益估计单元811。输入音频信号可以提供到合路器单元1601。压缩后音频信号可以通过合路器单元1601提供。

可以实现动态范围压缩。可以从响度均衡信号估计增益且将其应用到原始输入信号。简化动态范围压缩的参数设置可以是所希望的。用户可以连续方式指定所希望的压缩增益G。可以得到动态范围压缩的参数T、R、τ_A、τ_R且可以将其提供到DRC算法。因为可能出现P_s＜P_x，所以可以添加容差λ≥1以获得所希望的压缩增益。

图17示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。数字滤波器101可以包括滤波器等响模块。

数字滤波器101可以包括使用等响曲线的确定单元1001，以及滤波单元1003。滤波单元1003可以对输入音频信号进行滤波以提供响度均衡音频信号。数字滤波器101可以是基于响度模型。

本发明可以经专门定制用于在具有有限的电声系统、处理能力和功耗的移动装置上的应用。可以提供较高音质。压缩失真可以集中在具有较低的人耳灵敏度的频率范围中。缓慢压缩和快速峰值限制的组合可以尽可能地保留信号的缓慢和快速成分两者的原始特性。可以保留感知清晰度。可以提供用户可控强度的压缩。可采用用于指定所希望的压缩增益的单一压缩增益参数。所述参数可连续地调整以适应于信号内容和/或收听环境。可以提供计算简单的实施方案。可采用全频带处理而非频域和/或子带处理。可以实现低时延，因为没有频率变换和/或子带分解可被采用。

在实施形式中，本发明涉及一种用于音频信号的增强的动态范围压缩的方法和设备，包括用于考虑人耳的灵敏度的频率特性的人声感知的全频带模型，以及用于减小瞬态的电平同时保持信号清晰度的级联动态范围压缩和软削波系统。

在实施形式中，本发明涉及所述方法和设备，进一步包括用于使用户以连续方式控制用于压缩增益的单一控制参数的单元，以及用于从指定的压缩增益参数得到最优参数设置的内部转换器。

在实施形式中，本发明涉及终端和/或解码器特征。

Claims

1.一种用于压缩输入音频信号的音频压缩系统(100)，其特征在于，所述音频压缩系统(100)包括：

数字滤波器(101)，其用于对所述输入音频信号进行滤波以获得滤波后音频信号，所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及

压缩器(103)，其用于基于所述滤波后音频信号压缩所述输入音频信号以获得压缩后音频信号。

2.根据权利要求1所述的音频压缩系统(100)，其特征在于，所述数字滤波器(101)是用于对时域输入音频信号进行时域滤波以提供时域中的滤波后音频信号的时域滤波器。

3.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，所述频率传递函数具有在预定频率之下或之上的恒定幅值。

4.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，所述频率传递函数的相位基于频率而线性增大或减小。

5.根据权利要求1到3所述的音频压缩系统(100)，其特征在于，所述频率传递函数的相位是基于频率恒定的，具体来说等于零。

6.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，所述频率传递函数通滤波器系数确定，其中所述数字滤波器(101)包括确定单元(1001)和滤波单元(1003)，其中所述确定单元(1001)用于基于至少一个等响曲线确定所述滤波器系数，其中所述滤波单元(1003)用于基于所述所确定的滤波器系数对所述音频信号进行滤波。

7.根据权利要求6所述的音频压缩系统(100)，其特征在于，所述确定单元(1001)用于从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的滤波器系数以便确定所述滤波器系数。

8.根据权利要求7所述的音频压缩系统(100)，其特征在于，所述不同等响曲线与所述音频信号的不同响度级相关联，其中所述确定单元(1001)进一步用于确定所述音频信号的所述响度级，其中所述确定单元(1001)进一步用于基于所述所确定的响度级选择与所述等响曲线相关联的所述滤波器系数。

9.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，所述压缩器(103)用于基于所述滤波后音频信号确定压缩增益信号，且用于组合所述输入音频信号与所述压缩增益信号以获得所述压缩后音频信号。

10.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，进一步包括用于对所述压缩后音频信号进行滤波的均衡滤波器(801)，所述均衡滤波器(801)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。

11.根据前述权利要求中任一项所述的音频压缩系统(100)，其特征在于，进一步包括用于减小时域中的所述压缩后音频信号的最大幅值的峰值限制器(803)。

12.一种用于压缩输入音频信号的音频压缩方法(200)，其特征在于，所述音频压缩方法(200)包括：

通过数字滤波器(101)对所述输入音频信号进行滤波(201)以获得滤波后音频信号，所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成；以及

基于所述滤波后音频信号压缩(203)所述输入音频信号以获得压缩后音频信号。

13.一种用于对音频信号进行滤波的数字滤波器(101)，其特征在于，所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。

14.一种用于对音频信号进行滤波的数字滤波方法(400)，其特征在于，所述数字滤波方法(400)包括通过数字滤波器(101)对所述音频信号进行滤波(401)，所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数，所述幅值通过人耳的等响曲线形成。

15.一种计算机程序，其特征在于，包括当在计算机上执行时用于执行根据权利要求12所述的音频压缩方法(200)或用于执行根据权利要求14所述的数字滤波方法(400)的程序代码。