CN1310210C

CN1310210C - 使用解码信号的特征适配合成频谱分量的音频编码系统

Info

Publication number: CN1310210C
Application number: CNB038139693A
Authority: CN
Inventors: 格兰特·A.·戴维森; 迈克尔·M.·杜鲁门; 马修·C.·费勒斯; 马克·S.·文顿
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-06-17
Filing date: 2003-06-09
Publication date: 2007-04-11
Anticipated expiration: 2023-06-09
Also published as: EP1514263B1; CA2489443C; CA2489443A1; JP2005530206A; TWI288915B; AU2003243441C1; MXPA04012540A; PL207861B1; TW200400487A; EP1514263A1; PL371898A1; US20080140405A1; WO2003107329A1; AU2003243441B2; CN1662960A; AU2003243441A1

Abstract

音频编码系统中的接收器接收传载音频信号的频率子带信号的信号。检查子带信号以估计音频信号的一个或多个特征。合成具有估计特征的频谱分量。集成合成频谱分量与子带信号并通过合成滤波器组以生成输出信号。在一个实施例中，估计的特征是时间形状，合成的类似噪声的频谱分量具有音频信号的时间形状。

Description

使用解码信号的特征适配合成频谱分量的音频编码系统

技术领域

本发明一般地涉及音频编码系统，尤其涉及改善得自音频编码系统的音频信号的感知质量。

背景技术

音频编码系统用于将音频信号编码为适合于传输或存储的编码信号，然后接收或检索编码信号并解码以获得用于回放的原始音频信号的版本。感知音频编码试图将原始音频信号编码为比原始音频信号的信息容量要求更低的编码信号，然后将编码信号解码并提供在感知上与原始音频信号难以区别的输出。感知音频编码系统的一个实例参见高级电视系统委员会(ATSC)2001年8月20日出版的A/A52文件，其标题是“Revision A to Digital Audio Compression(AC-3)Standard”，称之为杜比数字。另一个实例参见Bodi等人的文献，“ISO/IEC MPEG-2 Advanced Audio Coding，”J.AES，vol.45，no.10，October 1997，pp.789-814，称之为高级音频编码(AAC)。在这两个编码系统和其它许多感知编码系统中，分频带发送器对音频信号使用分析滤波器组以获得按聚类或频带排列的频谱分量，并按照心理声学原理对频谱分量编码从而产生编码信号。其带宽通常是变化的并且通常与人类听觉系统所谓临界带的宽度相当。互补的分频带接收器接收并解码编码信号以恢复频谱分量，然后对解码频谱分量使用合成滤波器组以获得原始音频信号的一个复本。

感知编码系统可以用于减少音频信号的信息容量需求同时保留音频质量的主观或感知度量，所以音频信号的编码表示能够以更少的带宽通过信道传输或以更少的空间存储在记录媒体上。通过量化频谱分量可以减少信息容量需求，量化将噪声引入被量化信号，但是感知音频编码系统通常使用心理声学模型控制量化噪声的幅度，以通过信号中的频谱分量掩蔽噪声或使其不可闻。

在允许发送或记录的编码信号有方法达到高比特率的音频编码系统中，传统的感知编码技术工作得相当好。但是当将编码信号限制为低比特率时，这些技术本身不提供很好的音频质量。其它技术试图与感知编码技术结合起来在低比特率下提供高质量的信号。

一种称为“高频再生”(HFR)的技术参见Truman等人2002年3月28日提交的题为“Broadband Frequency Translation for HighFrequency Regeneration”的美国专利申请第10/113,858号，该文献在此被全文引用作为参考。在使用HFR的音频系统中，发送器去除编码信号中的高频分量而接收器再生或合成类似噪声分量代替缺失的高频分量。接收器输出端提供的合成信号一般与输入到发送器的原始信号在感知上不一样，但成熟的再生技术提供的输出信号可以是具有相当高感知质量的原始输入信号相当好的近似，另外在低比特率下也是可能的。在本说明中，高质量通常的意思是宽带且感知噪声水平低。

另一个称为“频谱孔填充”(SHF)的合成技术参见Truman等人2002年6月17日提交的题为“Improved Audio Coding System UsingSpectral Hole Filling”的美国专利申请第10/174,493号，该文献在此被全文引用作为参考。根据该技术，发送器量化和编码输入信号频谱分量的方法是忽略编码信号中一些频带的频谱分量。这些缺失频谱分量的频带称之为频谱孔。SHF技术通常不提供与原始输入信号在感知上相同的输出信号，但是它能改善那些被限制工作于低比特率编码信号的系统中输出信号的感知质量。

类似HFR和SHF的技术在许多情况下是有优势的，但并不能在所有情况下都表现得很好。在用块变换实现分析和合成滤波器组的系统对幅度快速变化的音频信号进行编码的情况下就特别麻烦。在这种情况下，听得见的类似噪声的频谱分量在对应变换块的一段时间内会变得模糊。

一种可以用于减少听得见的时间模糊噪声影响的技术是在高度非平稳的输入信号段减少分析和合成变换的块长度。该技术在允许传送或记录有方法获得高比特率的编码信号的音频编码系统中工作得很好，但是因为较短块的使用减少了变换所能获得的编码增益，该技术在较低比特率系统中不能很好工作。

在另一个技术中，发送器在应用分析变换之前修改输入信号以消除或减少幅度的快速变化。接收器在应用合成变换之后反转这种修改的影响。不幸的是，该技术模糊了输入信号的真实谱特征，因为发送器必须利用发送信号的一部分传递接收器反转修改影响时所需的参数，因此使有效的感知编码需要的失真信息。

在第三个称之为时间噪声整形的技术中，发送器对分析滤波器组输出的频谱分量使用预测滤波器，并在发送信号中传递预测误差和预测滤波器的系数，接收器对预测误差信号使用逆滤波器以恢复频谱分量。因为传递预测滤波器的系数需要信号开销，所以该技术在低比特率系统中不受欢迎。

发明内容

本发明的一个目的就是提供可以用于低比特率音频编码系统中改善由该系统生成的音频信号的感知质量的技术。

根据本发明，编码音频信息的处理包括：接收编码音频信息并获得代表一些但不是全部音频信号频谱内容的子带信号，检查子带信号以获得音频信号的特征，生成具有音频信号特征的合成频谱分量，集成所合成频谱分量与子带信号以生成一组修改的子带信号，以及对该组修改的子带信号使用合成滤波器组以生成音频信息。

通过参考下面的说明和附图，可以更好的理解本发明的各分量特征及其最佳实施例。下面说明的内容和附图仅仅作为示例而不能理解为对本发明范畴的限定。

附图简述

图1是音频编码系统中发送器的示意框图。

图2是音频编码系统中接收器的示意框图。

图3是可以用于实施本发明各个方面的一个装置的示意框图。

具体实施方式

A.概述

本发明的各个方面可以与类似图1和2所示的多种信号处理方法和装置结合在一起。一些方面可以由仅仅在接收器上的处理过程来实施，而其它方面需要接收器和发送器的协同处理过程。下面提供可以用于实施本发明这些方面的过程描述以及可以用于执行这些过程的典型装置的概述。

图1示出了分频带音频发送器的一个实施例，其中分析滤波器组12接收来自通道11的代表音频信号的音频信息，并作为响应提供代表音频信号频谱内容的频率子带信号。每个子带信号传递到编码器14，由其生成子带信号的编码表示并将该编码表示传递给格式器16。格式器16将编码表示装配成适合传输或存储的输出信号，然后沿通道17传递该输出信号。

图2示出了分频带音频接收器的一个实施例，其中解格式器22接收通道21的输入信号，该信号传载代表音频信号频谱内容的频率子带信号的编码表示。解格式器22从输入信号中获得编码表示并将其传递到解码器24。解码器24将编码表示解码为频率子带信号。分析器25检查子带信号以获得子带信号所代表的音频信号的一个或多个特征。将特征指示传递给分量合成器26，后者使用响应于该特征的适配过程生成合成频谱分量。集成器27将解码器24提供的子带信号与分量合成器26生成的合成频谱分量集成在一起生成一组修改子带信号。作为对该组修改子带信号的响应，合成滤波器组28沿通道29生成代表音频信号的音频信息。在图中所示的具体实施例中，分析器25和分量合成器26都不响应于由解格式器22得自输入信号的任何控制信息而适配处理过程。在其它实施例中，分析器25和/或分量合成器26可以响应于得自输入信号的控制信息。

图1和图2所示的设备示出了用于三个频率子带的滤波器组。在典型实施例中使用更多的子带，但为了说明清楚仅显示三个。对于本发明任何具体数字都是不重要的。

分析与合成滤波器组基本上可以用包括离散傅里叶变换或离散余弦变换(DCT)在内的任何块变换实现。在包含如上所述发送器和接收器的一个音频编码系统中，分析滤波器组12和合成滤波器组28是由所谓时域假信号抵消(TDAC)变换的修改DCT实现的，其说明参见Princen等人的文献，“Subband/Transform Coding Using FilterBank Designs Based on Time Domain Aliasing Cancellation，”ICASSP1987 Conf.Proc.，May 1987，pp.2161-64。

由块变换实现的分析滤波器组将一块或一段音调信号变换为代表该段信号谱内容的变换系数。一个或多个相邻变换系数的组合代表某一频率子带内的频谱内容，该子带的带宽与组合中系数的数目相当。术语“子带信号”是指一个或多个相邻变换系数的组合，术语“频谱分量”是指变换系数。

本说明中使用的术语“编码器”和“编码”是指可以用于用编码信息表示音频信号的信息处理装置和方法，其编码信息比音频信号本身的信息容量需求更低。术语“解码器”和“解码”是指可以用于从编码表示中恢复音频信号的信息处理装置和方法。两个关于缩减信息容量需求的实例是需要处理与前面提及的杜比数字和AAC编码标准兼容的比特流的编码。对于本发明任何具体类型的编码或解码都是不重要的。

B.接收器

本发明的各个方面可以在接收器上实施而不需要来自发送器的任何具体处理或信息。首先说明这些方面。

1.信号特征的分析

本发明可以用于以极低比特率编码信号表示音频信号的编码系统。极低比特率系统的编码信息通常包含仅仅代表音频信号一部分频谱分量的子带信号。分析器25检查这些子带信号以获得子带信号所代表的部分音频信号的一个或多个特征。将这些一个或多个特征的表示传递给分量合成器26，并用于调集成成频谱分量的生成。下面说明可以采用的几种特征实例。

a)幅度

许多编码系统生成的编码信息代表已量化为某个所需比特长度或量化分解度的频谱分量。当小频谱分量的幅度小于由量化分量最低有效位(LSB)表示的水平时，可以从编码信息中忽略该分量，或者以某种形式表示的量化值为零或认为是零。对应于由编码信号传载的量化频谱分量的LSB的水平可以认为是从编码信息中忽略的小频谱分量幅度的上界。

分量合成器26可以使用该水平限制代替缺失频谱分量的任何合成频谱分量幅度。

b)谱形状

包含在编码信息中的子带信号的谱形状可从子带信号本身之中即时获得，但是谱形状的其它信息可以通过在频域对子带信号使用滤波器导出。该滤波器可以使预测滤波器，低通滤波器或基本上所需的任何滤波器。

谱形状的指示或滤波器输出适当地传递给分量合成器26。如果需要，也应传递使用何滤波器的指示。

c)掩蔽

可以使用感知模型估计子带信号中频谱分量的心理声学掩蔽效应。因为这些掩蔽效应随频率变化，即使第一个和第二个频谱分量具有相同的幅度，第一个频谱分量在某个频率提供的掩蔽也不必和第二个频谱分量在另一个频率提供的掩蔽具有相同的水平。

将估计的掩蔽效应指示传递给分量合成器26，后者控制频谱分量的合成，以使合成频谱分量的估计掩蔽效应与子带中频谱分量的估计掩蔽效应具有所需的联系。

d)音调

子带信号的音调可以用包括计算谱平坦度量在内的多种方法估计，平坦度是子带信号样本的算术平均值除以子带信号样本的几何平均之后的规格化商。还可以用分析子带信号内频谱分量的分布或排列的方法估计音调。例如，如果少量大的频谱分量被长段的非常小的频谱分量分隔，那么可以认为子带信号更似音调而不是噪声。还有一种方法对子带信号使用预测滤波器以确定预测增益，大的预测增益倾向于指示该信号更似音调。

将音调指示传递给分量合成器26，后者控制频谱分量的合成，以使合成分量具有适当的音调水平。这可以通过构造类似音调和类似噪声合成分量的加权组合已获得所需的音调水平来完成。

e)时间形状

子带信号代表的信号的时间形状可以直接由子带信号估计出来。时间形状估计器的一个实施例的技术基础可以用公式1所代表的线性系统来解释。

y(t)＝h(t)·x(t) (1)

其中，y(t)是其时间形状待估计的信号；

h(t)是信号y(t)的时间形状；

点符号(·)表示相乘；以及

x(t)是信号y(t)的时间平坦化的版本。

该公式可以重写为：

Y[k]＝H[k]*X[k] (2)

其中，Y[k]是信号y(t)的频域表示；

H[k]是h(t)的频域表示；

星号(*)表示卷积；以及

X[k]是信号x(t)的频域表示。

频域表示Y[k]对应于解码器24获得的一个或多个子带信号。通过求解由Y[k]和X[k]的自回归移动平均(ARMA)模型导出的方程组，分析器25可以得到时间形状h(t)频域表示H[k]的估计。关于使用ARMA模型的附加信息可以由Proakis和Manolakis的文章“DigitalSignal Processing：Principles，Algorithms and Applications”(MacMillan Publishing Co.，New York，1988)获得，特别参见818-821页。

频域表示Y[k]按照变换系数的块排列，变换系数的每个块表达了信号y(t)的一个短时谱。频域表示X[k]也是按照块排列，频域表示X[k]中系数的每个块代表假设为广义平稳的时间平坦信号x(t)的样本的一个块。还假设表示X[k]的每个块中的系数是独立分布的。给定这些假设，信号可以用下面的ARMA模型表示：

Y [k] + Σ_{l = 1}^{L} a_{l} Y [k - l] = Σ_{q = 0}^{Q} b_{q} X [k - q] - - - (3)

其中L是ARMA模型中自回归部分的长度；以及

Q是ARMA模型中移动平均部分的长度。

可以通过求解Y[k]的自相关求解公式3中的a_l和b_q：

E {Y [k] \cdot Y [k - m]} = - Σ_{l = 1}^{L} a_{l} E {Y [k - l] \cdot Y [k - m]} + Σ_{q = 0}^{Q} b_{q} E {X [k - q] \cdot Y [k - m]} - - - (4)

其中E{}表示期望值函数。

公式4可以重写为

R_{YY} [m] = - Σ_{l = 1}^{L} a_{l} R_{YY} [m - l] + Σ_{q = 0}^{Q} b_{q} R_{XY} [m - q] - - - (5)

其中R_YY[m]表示Y[n]的自相关；以及

R_XY[k]表示Y[k]和X[k]的互相关。

如果进一步假设H[k]代表的线性系统仅仅是自回归的，那么公式5右边第二分量可以忽略。于是公式5可以重写为：

R_{YY} [m] = - Σ_{l = 1}^{L} a_{l} R_{YY} [m - l]

对于m＞0 (6)

这表示可以用于求解L个系数a_i的一组L个线性方程。

用这个解释，在此可以说明一个使用频域技术的时间形状估计器的实施例。在该实施例中，时间形状估计器接收一个或多个子带信号y(t)的频域表示Y[k]并计算对于-L≤m≤L的自相关序列R_YY[m]。这些值用于建立一组求解系数a_i的线性方程，这些系数表示下面公式7所示的线性全极点滤波器FR的极点。

FR (z) = \frac{1}{1 + Σ_{i = 1}^{L} a_{i} z^{- i}} - - - (7)

该滤波器可用于如同类似噪声信号的任意时间平坦化信号的频域表达，以获得时间形状基本上等于信号y(t)时间形状的时间平坦化信号的一个版本的频域表达。

滤波器FR的极点描述可以传递给分量合成器26，它可以使用该滤波器生成代表具有所需时间形状的信号的合成频谱分量。

2.合成频谱分量的生成

分量合成器26可以用多种方法生成合成频谱分量。下面说明两种方法。可以采用多种方法。例如，根据由子带信号导出的特征或频率可以选择不同的方法。

第一种方法生成类似噪声信号。例如，很多种时域或频域技术中的任何一个都基本上可以用于生成类似噪声信号。

第二种方法使用一种称为谱平移或谱复制的技术，从一个或多个频率子带中复制频谱分量。因为较高频率分量通常以某种方式与较低频率分量相联系，所以较低频率的频谱分量通常复制到较高频率。但原则上，频谱分量可以复制到较低或较高的频率。如果需要，可以将噪声添加或混合入平移分量中并可以按需要适配幅度。所作的适配最好能消除或至少减少合成分量相位的不连续。

频谱分量的合成由接收自分析器25的信息控制以使合成频谱分量具有得自子带信号的一个或多个特征。

3.信号分量的集成

可以用多种方法将合成频谱分量与子带信号频谱分量集成在一起。一种方法是通过组合代表相应频率的相应合成分量与子带分量，将合成分量作为一种颤动的形式。另一种方法是用一个或多个合成分量代替所选的子带信号中出现的频谱分量。还有一种方法是合并合成分量与子带信号分量以代表子带信号中没有出现的频谱分量。这些与其他方法可以用于多种组合。

C.发送器

前面说明的本发明的各个方面可以在接收器上实现，而不需要发送器提供任何超过用接收器接收和解码没有本发明特征的子带信号时所需要的控制信息。如果提供了附加的控制信息那么本发明的这些方面可以得到增强。下面讨论一个例子。

将时间整形应用于合成分量的程度可以由编码信息中提供的控制信息进行适配。可以采用的一种方法是使用如下面公式所示的参数β。

FR (z) = \frac{1}{1 + Σ_{i = 1}^{L} a_{i} β^{i} z^{- i}},

对于0≤β≤1 (8)

当β＝0时滤波器不提供时间整形，当β＝1时，滤波器提供的时间整形程度使得合成分量的时间形状和子带信号的时间形状之间的相关性最大。β为其它值时提供的时间整形程度介于前面二者之间。

在一个是实例中，发送器提供的控制信息允许接收器设置β值取八个值中的一个。

发送器可以提供其它的控制信息以使接收器可以按所需的任何方法将其用于适配分量合成过程。

D.实施

本发明的各个方面可以用很多种方法实施，包括通用计算机系统中或其它一些装置中的软件，这些装置包括更专门化的器件如数字信号处理(DSP)电路，连接到类似于通用计算机中的那些元件。图3是可以用于实施本发明在发送器或接收器中各个方面的装置70的框图。DSP 72提供计算资源。RAM 73是信号处理时DSP 72使用的系统随机存取存储器(RAM)；ROM 74表示持久存储的某种形式，如只读存储器(ROM)，它存储操作装置70以及实施本发明各个方面所需的程序。I/O(输入/输出)控制器75表示的是通过通信信道76、77接收和发送信号的接口电路。当需要接收和/或发送模拟音频信号时，I/O控制器75可以包含模-数发送器和数-模发送器。如实施例所示，所有主要的系统组件都与总线71相连，该总线代表的物理总线可能不止一种；但总线结构对于本发明的实施不是必需的。

在通用计算机系统中的实施例，可以包含附加的元件，用于连接键盘或鼠标以及显示器等装置，以及控制含有存储媒体的存储装置，媒体如磁带或磁盘或光学媒体等。存储媒体可以用于记录操作系统、实用及应用的指令程序，可以包含实施本发明各个方面的程序本身。

实施本发明各个方面所需的功能可由以多种方式实现的部件来执行，包括分立逻辑部件、一个或多个ASIC和/或程控处理器。这些部件的实现方式对于本发明不重要。

本发明的软件实施可以通过多种机器可读媒介传输，如覆盖从超声到紫外频段频率范围的基带或调制通信线路，或通过使用基本上任何磁性或光学记录技术传送信息的存储媒体传送，包括磁带，磁盘和光盘。也可以在计算机系统70的各个组件中采用处理电路实施各个方面，如ASIC，通用集成电路，由包含在各种ROM或RAM中的程序控制的微处理器以及其它技术。

Claims

1.一种处理编码音频信息的方法，其中该方法包括：

接收编码音频信息并从其中获得代表音频信号的一些但不是全部频谱内容的子带信号；

检查子带信号以获得音频信号的特征，其中所述特征是心理声学掩蔽效应、音调以及时间形状中的任何一种；

生成具有该音频信号特征的合成频谱分量；

集成合成频谱分量与子带信号以生成一组修改的子带信号；以及

通过对该组修改的子带信号应用合成滤波器组来生成音频信息。

2.权利要求1的方法，其中所述特征是时间形状，该方法通过生成频谱分量并将生成的频谱分量与该时间形状的频域表示进行卷积以生成具有该时间形状的合成频谱分量。

3.权利要求2的方法，该方法通过计算子带信号的至少一些分量的自相关函数以获得时间形状。

4.权利要求1的方法，其中所述特征是时间形状，该方法通过生成频谱分量并对至少一些生成的频谱分量应用滤波器以生成具有该时间形状的合成频谱分量。

5.权利要求4的方法，该方法从编码信息中获得控制信息并响应于控制信息适配滤波器。

6.权利要求1的方法，该方法通过合并合成频谱分量与子带信号的分量以生成该组修改的子带信号。

7.权利要求1的方法，该方法通过组合合成频谱分量与子带信号的分量以生成该组修改的子带信号。

8.权利要求1的方法，该方法通过用合成频谱分量代替子带信号的分量以生成该组修改的子带信号。

9.权利要求1的方法，该方法：

通过检查频谱第一部分中的一个或多个子带信号的分量以获得音频信号的特征；以及

通过复制频谱第一部分中的一个或多个子带信号分量到频谱的第二部分以形成合成子带信号并修改复制的分量以使得合成子带信号具有音频信号的特征，来生成合成频谱分量。

10.一种用于处理编码音频信息的装置，其中该装置包括：

接收编码音频信息的输入端；

存储器；以及

与输入端和存储器连接的处理电路；

其中处理电路适合于：

接收编码音频信息并从中获得代表音频信号的一些但不是全部频谱内容的子带信号；

生成具有该音频信号特征的合成频谱分量；

11.权利要求10的装置，其中所述特征是时间形状，该处理电路适合于通过生成频谱分量并将生成的频谱分量与该时间形状的频域表示进行卷积以生成具有该时间形状的合成频谱分量。

12.权利要求11的装置，其中该处理电路适合于通过计算子带信号的至少一些分量的自相关函数以获得时间形状。

13.权利要求10的装置，其中所述特征是时间形状，该处理电路适合于通过生成频谱分量并对至少一些生成的频谱分量应用滤波器以生成具有该时间形状的合成频谱分量。

14.权利要求13的装置，其中该处理电路适合于从编码信息中获得控制信息并响应于控制信息适配滤波器。

15.权利要求10的装置，其中该处理电路适合于通过合并合成频谱分量与子带信号的分量以生成该组修改的子带信号。

16.权利要求10的装置，其中该处理电路适合于通过组合合成频谱分量与子带信号的分量以生成该组修改的子带信号。

17.权利要求10的装置，其中该处理电路适合于通过用合成频谱分量代替子带信号的分量以生成该组修改的子带信号。

18.权利要求10的装置，其中该处理电路适合于：