CN102144259A

CN102144259A - 用于产生带宽扩展输出数据的装置和方法

Info

Publication number: CN102144259A
Application number: CN2009801349055A
Authority: CN
Inventors: 马克思·诺伊恩多夫; 伯恩哈德·格里尔; 乌尔里赫·克里默; 马库斯·穆尔特鲁斯; 哈拉尔德·波普; 尼古拉斯·雷特尔巴; 弗雷德里克·内格尔; 马库斯·洛瓦索; 马雷·盖尔; 曼努埃尔·扬德尔; 维尔吉利奥·巴奇加卢波
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-06-23
Publication date: 2011-08-03
Anticipated expiration: 2029-06-23
Also published as: BRPI0910523B1; RU2011101617A; TWI415115B; EP2301028B1; CA2729971A1; CN102089817A; ZA201009207B; RU2011103999A; TW201007701A; ZA201100086B; IL210196A; KR20130095841A; CN102144259B; KR101345695B1; IL210330A0; WO2010003544A1; HK1156140A1; MX2011000361A; BRPI0910517A2; PL2301028T3

Abstract

一种用于为音频信号产生带宽扩展输出数据的装置(100)，包含噪声本底测量器(110)、信号能量表征器(120)和处理器(130)。该音频信号(105)包含第一频带(105a)中的分量和第二频带(105b)中的分量，该带宽扩展输出数据(102)适于控制该第二频带中的分量的合成。该噪声本底测量器(110)在音频信号(105)的时间部分(T)内测量该第二频带(105b)中的噪声本底数据。信号能量表征器(120)得到能量分布数据，该能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布。处理器(130)组合噪声本底数据(115)与能量分布数据(125)，以获得带宽扩展输出数据(102)。

Description

用于产生带宽扩展输出数据的装置和方法

技术领域

本发明涉及一种用于产生带宽扩展(BWE)输出数据的装置和方法、一种音频编码器和音频解码器。

背景技术

自然音频编码和语音编码是针对音频信号的两种主要类别的编码解码器。自然音频编码通常用于中间比特率下的音乐或任意信号，且一般提供宽音频带宽。语音编码器基本上受限于语音再现且可在非常低的比特率下使用。宽带语音较窄带语音提供重要的主观质量改善。此外，由于多媒体领域的巨大发展，音乐及其它非语音信号的传输以及储存，以及例如针对通过电话系统的无线电/电视(TV)高质量传输是所期望的特征。

为了极大地减小比特率，信号源编码可使用分离频带感知音频编码解码器来执行。这些自然音频编码解码器利用信号中的感知无关及统计冗余。如果只利用上述对于所给定的比特率限制而言是不充分的，则采样速率被减小。减小组成等级的数目也是常见的，允许偶尔可听量化失真，并且允许通过两个或多个声道的联合立体声编码或参数编码来使用立体声场的劣化。这些方法的过度使用导致恼人的感知劣化。为了提高编码性能，使用诸如频谱带复制(SBR)的带宽扩展方法作为一种用于在基于HFR(高频重构)的编码解码器中产生高频信号的有效方法。

在记录和传送声响信号的过程中，诸如背景噪声之类的噪声本底(noise floor)始终存在。为了在解码器侧上产生可信的声响信号，应当传输或产生噪声本底。在后一种情况下，应当确定原始音频信号中的噪声本底。在频谱带复制中，这通过SBR工具或SBR相关模块来执行，这种工具或模块产生表征噪声本底的特征(其它除外)并且被传输到解码器以重构该噪声本底的参数。

在WO 00/45379中，描述了一种自适应噪声本底工具，这在所合成的高频带频率分量中提供充足的噪声内容。然而，若在基带中，短时能量波动或所谓的瞬变发生，则产生高频带频率分量中的扰动伪像。这些伪像是感知不可接受的，且现有技术不提供可接受的解决方案(特别是在带宽有限的情况下)。

发明内容

因此，本发明的目的是提供一种装置，该装置允许有效编码而没有可感知伪像，特别是对于语音信号而言。

该目的通过以下来实现：根据权利要求1所述的用于产生SBR输出数据的装置、根据权利要求7所述的编码器、根据权利要求10所述的用于产生SBR输出数据的方法、根据权利要求13所述的解码器、根据权利要求14所述的用于解码的方法、或根据权利要求16所述的已编码音频信号。

本发明基于以下发现：依据音频信号在一时间部分中的能量分布改变所测量的噪声本底可以在解码器测提高所合成音频信号的感知质量。尽管从理论观点，不需要所测量的噪声本底的改变或处理，但是产生噪声本底的传统技术显示多个缺点。一方面，基于音调测量的噪声本底的估计通过传统方法来执行是困难的且不总是精确的。另一方面，噪声本底的目的是在解码器测上再现正确的音调印象。即使原始音频信号与已解码信号的主观音调印象是相同的，但是仍然存在产生伪像的可能性；例如对于语音信号而言。

主观测试显示不同类型的语音信号应以不同方式来处理。在浊音语音信号中，计算的噪声本底的降低在与原始计算的噪声本底相比较时，噪声本底产生感知上较高的质量。结果在这种情况下语音发出较少的回响。在音频信号包含齿音的情况下，噪声本底中的伪像增加可以掩盖与齿音有关的修补方法中的缺点。例如，短时能量波动(瞬变)在被移动或变换到较高频带时，产生扰动伪像，且噪声本底的增加也可掩盖这些能量波动。

瞬时瞬变可以定义为传统信号中的部分，其中能量的强烈增加出现在短时间段中，这在特定频率区域上可以是受限的或不受限的。瞬变的示例是对响板及打击乐器的击打，以及人类声音中的特定声音，例如字母：P、T、K、...。到目前为止，这类瞬变的检测通常以相同的方式或相同的算法(使用瞬变阈值)来实现，这独立于信号，不管该信号被分类为语音还是被分类为音乐。此外，浊音和清音语音之间的可能区别不影响传统或经典的瞬变检测机制。

因此，实施例提供了针对诸如浊音语音之类的信号的噪声本底的减小，噪声本底以及针对包含例如齿音的信号的噪声本底的增加。

为了区分不同的信号，实施例使用能量分布数据(例如齿音参数)，该能量分布数据测量能量主要位于较高频率还是较低频率，或者换句话说，音频信号的频谱表示朝较高频率的方向显示增加还是减小倾斜。其他实施例也使用第一LPC系数(LPC＝线性预测编码)，以产生齿音参数。

存在两种用于改变噪声本底的可能性。第一可能性是传输所述齿音参数，使得解码器可以使用该齿音参数，以便调整噪声本底(例如除了计算的噪声本底以外，增加还是减小噪声本底)。除了计算的噪声本底参数的外，该齿音参数可通过传统方法来传输或在解码器侧上计算。第二可能性是通过使用齿音参数(或能量分布数据)改变该所传输的噪声本底，使得编码器将修改的噪声本底数据传输到解码器，且在解码器侧不需要修改-可以使用相同的解码器。因此，噪声本底的处理原则上可在编码器侧上以及在解码器侧上进行。

频谱带复制作为用于带宽扩展的示例依赖定义一时间部分的SBR帧，在该时间部分中音频信号被分成第一频带及第二频带中的分量。对于整个SBR帧而言，可以测量及/或改变噪声本底。备选地，SBR帧被分成噪声包络也是可能的，使得对于噪声包络中的每一噪声包络而言，可以执行针对噪声本底的调整。换言之，噪声本底工具的时间分辨率通过SBR帧中的所谓的噪声包络来确定。根据标准(ISO/IEC14496-3)，每一SBR帧最多包含两个噪声包络，使得噪声本底的调整可在基本部分SBR帧上进行。对于一些应用而言，这可能是足够的。然而，增加噪声包络的数目以改善用于时变音调的模型也是可能的。

因此，实施例包含一种用于针对音频信号产生BWE输出数据的装置，其中，该音频信号包含第一频带及第二频带中的分量，且该BWE输出数据适于控制第二频带中分量的合成。该装置包含用于在该音频信号的一时间部分内测量该第二频带中的噪声本底数据的一噪声本底测量器。因为所测量的噪声本底影响音频信号的音调，所以噪声本底测量器可以包含音调测量器。备选地，可以实现该噪声本底测量器，以测量信号中的噪音量，以获得噪声本底。该装置还包含用于得出能量分布数据的信号-能量表征器，其中该能量分布数据表征在该音频信号的该时间部分的频谱中的能量分布的特征，最后，该装置包含用于组合噪声本底数据与能量分布数据以获得BWE输出数据的处理器。

在其他实施例中，信号能量表征器适于将齿音参数用作能量分布数据，且该齿音参数例如可以是第一LPC系数。在其他实施例中，处理器适于将能量分布数据添加至已编码音频数据的比特流中，或者备选地，该处理器适于调整噪声本底参数，使得噪声本底根据能量分布数据而增加或被减小(信号相关)。在这个实施例中，噪声本底测量器将首先测量噪声本底，以产生噪声本底数据，该噪声本底数据稍后将由该处理器来调整或改变。

在其他实施例中，时间部分是SBR帧，且信号能量表征器适于每一SBR帧产生多个噪声本底包络。因此，噪声本底测量器以及信号能量表征器可以适于针对每一噪声本底包络测量噪声本底数据以及所得出的能量分布数据。噪声本底包络的数目可以是例如1、2、4、...每SBR帧。

其他实施例也包含在解码器中用于产生音频信号的第二频带中的分量的频谱带复制工具。在该产生中，使用针对第二频带中的分量的频谱带复制输出数据和未处理信号频谱表示。频谱带复制工具包含噪声本底计算单元和组合器，噪声本底计算单元被配置为根据能量分布数据计算噪声本底，组合器用于组合该未处理信号频谱表示与该计算的噪声本底，以产生具有该计算的噪声本底的第二频带中的分量。

实施例的一个优点是组合外部判定(语音/音频)与内部浊音语音检测器或内部齿音检测器(信号能量表征器)，其中该内部齿音检测器控制被信号通知给解码器的附加噪声的事件，或者调整计算的噪声本底。对于清音信号而言，执行通常的噪声本底计算获。对于语音信号(从外部切换判定得出)而言，执行附加语音分析，以确定实际信号的发声。要添加到解码器或编码器的噪声量根据信号的齿音程度(与发声相反)来缩放。齿音的程度例如可以通过测量短信号部分的频谱倾斜来确定。

附图说明

现在通过所示示例描述本发明。参考附图，通过以下详细描述将更容易认识且更好地理解本发明的特征，在附图中：

图1示出了根据本发明实施例的用于产生BWE输出数据的装置的框图；

图2a示出了非齿音信号的负频谱倾斜；

图2b示出了类似齿音信号的正频谱倾斜；

图2c示出了基于低阶LPC参数的频谱倾斜m的计算；

图3示出了编码器的框图；

图4示出了用于处理已编码音频串以在解码器侧上输出PCM采样的框图；

图5a、5b示出了传统噪声本底计算工具与根据实施例的修改的噪声本底计算工具的比较；以及

图6示出了在预定数目的时间部分中的SBR帧的划分。

具体实施方式

图1示出了用于针对音频信号105产生带宽扩展(BWE)输出数据102的装置100。该音频信号105包含第一频带105a中的分量和第二频带105b中的分量。BWE输出数据102适于控制第二频带105b中的分量的合成。装置100包含噪声本底测量器110、信号能量表征器120以及处理器130。噪声本底测量器110适于在音频信号105的时间部分内测量或确定第二频带105b的噪声本底数据115。详细地，噪声本底可以通过比较基带的所测量噪声与较高频带的所测量噪声来确定，使得可以确定在修补后用以再现自然音调印象所需噪声量。信号能量表征器120得出能量分布数据125，能量分布数据125表征音频信号105的时间部分的频谱中的能量分布。因此噪声本底测量器110接收例如第一和/或第二频带105a、105b，且信号能量表征器120接收例如第一和/或第二频带105a、105b。处理器130接收噪声本底数据115和能量分布数据125，且将噪声本底数据115和能量分布数据125组合以获得BWE输出数据102。频谱带复制包含用于带宽扩展的一个示例，其中BWE输出数据102变成SBR输出数据。接下来的实施例将主要描述SBR的示例，但是本发明的装置/方法不限于这个示例。

能量分布数据125指示第二频带中所包含的能量与第一频带中所包含的能量之间相比较的关系。在最简单的情况下，能量分布数据由比特给出，该比特指示与SBR频带(较高频带)相比较，是否有较多的能量储存在基带中，或者反之亦然。SBR频带(较高频带)例如可以被定义为大于例如由4kHz给出的一阈值的频率分量，且基带(较低频带)可以是小于该阈值频率(例如小于4kHz或另一频率)的信号分量。这些阈值频率的示例大概是5kHz或6kHz。

图2a和图2b示出了音频信号105的时间部分内频谱中的两个能量分布。由能级P所显示的能量分布作为频率F(模拟信号)的函数，其也可能是由多个采样或线(变换到频域)所给出的信号的包络。该所示曲线图也较简单，以使频谱倾斜概念可视化。较低及较高频带可被定义为小于或大于临界频率F₀的频率(横跨例如500Hz、1kHz或2kHz的频率)。

图2a示出了下降频谱倾斜的能量分布(随着频率增大而减小)。换言的，在这种情况下，与高频率分量相比较，有较多的能量储存在低频率分量中。因此，对于较高频率而言，能级P减小，暗示负频谱倾斜(递减函数)。因此，如果信号能级P指示在较高频带(F＞F₀)较较低频带(F＜F₀)中有较少的能量，则能级P包含负频谱倾斜。例如针对包含少量齿音或不包含齿音的音频信号而言，发生这种类型的信号。

图2b示出了这种情况，其中能级P随着频率F增加，这暗示正频谱倾斜(根据频率的能级P的递增函数)。因此，如果信号能级P指示在较高频带(F＞F₀)较较低频带(F＜F₀)有较多的能量，则能级P包含正频谱倾斜。如果音频信号105包含例如所示齿音，则产生这样的能量分布。

图2a示出了具有负频谱倾斜的信号的功率谱。负频谱倾斜表示频谱的下降斜率。与的相反，图2b示出了具有正频谱倾斜的信号的功率谱。换言之，该频谱倾斜具有上升斜率。当然，诸如在图2a中所示的频谱或在图2b中所示的频谱中的每一频谱在具有不同于频谱倾斜的斜率的局部范围内将具有变化。

例如，当诸如通过使直线与实际频谱之间的平方差最小化来讲该直线拟合到该功率谱时，可以获得频谱倾斜。将直线拟合到频谱可以是用于计算短时频谱的频谱倾斜的方式之一。然而，优选地，使用LPC系数来计算频谱倾斜。

V.Goncharoff、E.Von Colln和R.Morris的出版物“Efficientcalculation of spectral tilt from various LPC parameters”，NavalCommand、Control and Ocean Surveillance Center(NCCOSC)、RDT和EDivision、San Diego、CA 92152-52001的(于1996年5月23日出版)公开了计算频谱倾斜的若干方法。

在一个实现方式中，频谱倾斜被定义为针对对数功率谱的最小二乘线性拟合的斜率。然而，也可以应用针对非对数功率谱或振幅谱或任何其它类型频谱的线性拟合。这一点在本发明的上下文中特别正确，其中在优选实施例中，主要对频谱倾斜的符号，即线性拟合结果的斜率是正还是负感兴趣。然而，频谱倾斜的实际值在本发明的高效实施例中不太重要，但是该实际值在较详细实施例中可能是重要的。

当语音的线性预测编码(LPC)用来对其短时频谱进行建模时，直接根据LPC模型参数而非对数功率谱计算频谱倾斜在计算上较有效。图2c示出了与第n阶全极对数功率谱相对应的倒频谱系数c_k的方程式。在这一方程式中，k是整数索引，p_n是LPC滤波器的z域传递函数H(z)的全极表示中的第n极。图2c中的下一个方程式是根据倒频谱系数的频谱倾斜。特别地，m是频谱倾斜，k及n是整数，N是H(z)的全极模型的最高阶极点。图2c中的下一个方程式定义第N阶LPC滤波器的对数功率谱S(ω)。G是增益常数，且α_k是线性预测器系数，且ω等于2×π×f，其中f是频率。图2c中的最下面的方程式直接产生倒频谱系数作为LPC系数α_k的函数。然后倒频谱系数c_k用来计算频谱倾斜。一般而言，这种方法较分解LPC多项式以获得极值及使用极方程式求解频谱倾斜将在计算上将更有效。因此，在计算LPC系数α_k后，可以使用在图2c中的底部的方程式来计算倒频谱系数c_k，然后可以使用图2c中的第一个方程式根据倒频谱系数计算极点p_n。然后基于该极点，可以计算在图2c中的第二个方程式中所定义的频谱倾斜m。

已发现的是，第一阶LPC系数α₁对于频谱倾斜的符号的良好估计而言是充分的。因此，α₁是c₁的良好估计。因此，c₁是p₁的良好估计。当p₁被插入到针对频谱倾斜m的方程式时，变得清楚的是，由于图2c中的第二个方程式中的负符号，频谱倾斜m的符号与在图2c中的LPC系数定义中的第一LPC系数α₁的符号相反。

优选地，信号能量表征器120被配置为，产生与在音频信号的当前时间部分中的音频信号的频谱倾斜的符号有关的指示作为能量分布数据。

优选地，信号能量表征器120被配置为产生从用于估计一个或多个低阶LPC系数的音频信号的时间部分的LPC分析得出的数据作为能量分布数据，以及从该等一个或多个低阶LPC系数得出能量分布数据。

优选地，信号能量表征器120被配置为只计算第一LPC系数而不计算额外的LPC系数，且从该第一LPC系数的符号得出能量分布数据。

优选地，信号能量表征器120被配置为确定频谱倾斜为负频谱倾斜，其中当第一LPC系数具有正符号时，频谱能量从较低频率到较高频率减小，以及检测频谱倾斜为正频谱倾斜，其中当该第一LPC系数具有负符号时，频谱能量从较低频率到较高频率增加。

在其它实施例中，频谱倾斜检测器或信号能量表征器120被配置为不仅计算第一阶LPC系数，而且计算若干低阶LPC系数，诸如直到3阶或4阶或甚至更高阶的LPC系数。在这样一个实施例中，频谱倾斜按如此高的精确度计算，以至于我们不能只指示符号作为齿音参数，而且作为依赖于倾斜的值，如在该符号实施例中其具有两个以上的值。

如上所述，在较高频率区域中齿音包含大量能量，而对于不具有或只具有很少齿音(例如元音)的部分，能量大部分分布在基带(低频带)中。这一观察可被使用，以确定语音信号部分是否包含齿音或所包含的程度。

因此，噪声本底测量器110(检测器)可使用频谱倾斜，以判定齿音的量，或给出信号中的齿音程度。频谱倾斜基本上可从能量分布的简单LPC分析获得。其可能例如足以计算第一LPC系数，以确定频谱倾斜参数(齿音参数)，因为频谱的行为(是递增还是递减函数)可以从第一LPC系数推断。该分析可以在信号能量表征器120内执行。如果音频编码器使用LPC用以解码音频信号，则不需要传送齿音参数，因为第一LPC系数可以在解码器端被用作能量分布数据。

在实施例中，处理器130可以被配置为根据能量分布数据125(频谱倾斜)改变噪声本底数据115，以获得经修改的噪声本底数据，且处理器130可以被配置为将该经修改的噪声本底数据加入到包含BWE输出数据102的比特流中。噪声本底数据115的改变可以是，使得与包含较少齿音(图2a)的音频信号105相比较，对于包含较多齿音(图2b)的音频信号105，经修改噪声本底被增加。

用于产生带宽扩展(BWE)输出数据102的装置100可以是编码器300的一部分。图3示出了编码器300的实施例，该编码器300包含BWE相关模块310(其可以包含例如SBR相关模块)、分析QMF组320、低通滤波器(LP滤波器)330、AAC核心编码器340以及比特流有效载荷格式化器350。此外，编码器300包含包络数据计算器210。编码器300包含PCM样本(音频信号105；PCM＝脉码调制)的输入端，该输入端连接到分析QMF组320及BWE相关模块310及LP滤波器330。分析QMF组320可以包含用以分离第二频带105b的高通滤波器，且连接到包络数据计算器210，该包络数据计算器210连接到比特流有效载荷格式化器350。LP滤波器330可以包含用以分离第一频带105a的低通滤波器，且连接到AAC核心编码器340，该AAC核心编码器340连接到比特流有效载荷格式化器350。最后，BWE相关模块310连接到包络数据计算器210及AAC核心编码器340。

因此，编码器300对音频信号105进行下采样，以产生核心频带105a中的分量(在LP滤波器330中)，将该分量输入到AAC核心编码器340中，该AAC核心编码器340编码核心频带中的音频信号，以及将已编码信号355转发到比特流有效载荷格式器350，其中，将核心频带的已编码音频信号355加入到已编码音频串流345(比特流)中。另一方面，音频信号105由分析QMF组320来分析，且该分析QMF组的高通滤波器提取高频带105b中的频率分量，且将该信号输入到包络数据计算器210中，以产生BWE数据375。例如，64子频带QMF组320执行输入信号的子频带滤波。来自滤波器组的输出(即子频带样本)是复数值，从而与规则QMF组相比，被两倍过采样。

BWE相关模块310例如可以包含用于产生BWE输出数据102的装置100，且通过例如将BWE输出数据102(齿音参数)提供到包络数据计算器210来控制该包络数据计算器210。使用由分析QMF组320产生的音频分量105b，包络数据计算器210计算BWE数据375且将该BWE数据375转发给比特流有效载荷格式化器350，该比特流有效载荷格式器350将BWE数据375与通过核心编码器340编码的分量355组合在已编码音频流345中。此外，包络数据计算器210例如可以使用齿音参数125，以调整噪声包络中的噪声本底。

备选地，用于产生BWE输出数据102的装置100也可以是包络数据计算器210的一部分，且处理器也可以是比特流有效载荷格式化器350的一部分。因此，装置100中的不同组件可以是图3中的不同编码器组件的一部分。

图4示出了解码器400的实施例，其中将已编码音频流345输入到比特流有效载荷解格式化器357中，比特流有效载荷解格式化器357使已编码音频信号355与BWE数据375分离。将已编码音频信号355输入到例如AAC核心解码器360中，该AAC核心解码器360产生第一频带中的已解码音频信号105a。将音频信号105a(第一频带中的分量)输入到分析32频带QMF组370中，该分析32频带QMF组370从第一频带中的音频信号105a产生例如32频率子频带105₃₂。将该频率子频带音频信号10532输入到补丁发生器410中，以产生未处理的信号频谱表示425(补丁)，将其输入到BWE工具430a中。该BWE工具430a例如可以包含用以产生噪声本底的噪声本底计算单元。此外，该BWE工具430a可以重构丢失的谐波或执行逆滤波步骤。BWE工具430a可实施要用在补丁发生器410的QMF频谱数据输出端的已知频谱带复制方法，用在频域中的修补算法例如以采用频域中的频谱数据的简单镜像或复制。

另一方面，将BWE数据375(例如包含BWE输出数据102)输入到比特流剖析器380中，该比特流剖析器380分析BWE数据375，以获得不同的子信息385，且将这些子信息输入到例如提取控制信息412及频谱带复制参数102的霍夫曼(Huffman)解码与解量化单元390中。该控制信息412控制补丁发生器410(例如以使用特定修补算法)，且BWE参数102也包含例如能量分布数据125(例如齿音参数)。将控制信息412输入到BWE工具430a中，且将频谱带复制参数102输入到BWE工具430a以及包络调整器430b中。该包络调整器430b可操作以调整所产生补丁的包络。因此，包络调整器430b产生第二频带的经调整未处理信号105b，且将其输入到一合成QMF组440中，该合成QMF组440组合第二频带105b中的分量与频域105₃₂中的音频信号。合成QMF组440例如可以包含64个频带，并且通过组合两个信号(第二频带105b中的分量与频域音频信号105₃₂)产生合成音频信号105(例如PCM样本输出，PCM＝脉码调制)。

合成QMF组440可包含组合器，该组合器在将第二频带105b转换到时域之前且在其将作为音频信号105被输出之前，组合频域信号105₃₂与该第二频带105b。可选地，组合器可输出频域中的音频信号105。

BWE工具430a可以包含传统噪声本底工具，该噪声本底工具将额外的噪声加入到经修补频谱(未处理信号频谱表示425)，使得频谱分量105a显示出原始信号的第二频带105b的音调，其中该频谱分量105a由核心编码器340传送且将用来合成第二频带105b的分量。然而，特别是在浊音语音路径中，由传统噪声本底工具所加入的额外噪声可能损害所再现信号的感知质量。

根据实施例，可以修改噪声本底工具，使得噪声本底工具考虑能量分布数据125(BWE数据102的一部分)，以根据所检测到的齿音程度改变噪声本底(参考图2)。备选地，如上所述，可以不修改解码器，而相反编码器可根据所检测到的齿音程度来改变噪声本底数据。

图5示出了传统噪声本底计算工具与根据本发明实施例的经修改的噪声本底计算工具的比较。该经修改的噪声本底计算工具可以是BWE工具430的一部分。

图5a示出了包含计算器433的传统噪声本底计算工具，其使用频谱带复制参数102和未处理信号频谱表示425，以计算未处理频谱线和噪声频谱线。BWE数据102可以包含包络数据与和噪声本底数据，从编码器传送该数据作为已编码音频流345的一部分。未处理信号频谱表示425例如从补丁发生器获得，该补丁发生器产生较高频带中的音频信号分量(第二频带105b中的合成分量)。未处理频谱线和噪声频谱线将进一步被处理，这可能涉及逆滤波、包络调整、加入丢失谐波等等。最后，组合器434将未处理频谱线与计算的噪声频谱线组合到第二频带105b中的分量。

图5b示出了根据本发明的实施例的噪声本底计算工具。除在图5a中所示的传统噪声本底计算工具以外，实施例包含噪声本底修改单元431，该噪声本底修改单元431被配置为例如在噪声本底计算工具433中对传送的噪声本底数据进行处理之前，基于能量分布数据125修改传送的噪声本底数据。也可以从编码器传送能量分布数据125作为BWE数据102的一部分，或除BWE数据102之外，从编码器传送能量分布数据125。所传送噪声本底数据的修改包含，例如噪声本底的级别的正频谱倾斜的增加(参考图2a)或噪声本底的级别的负频谱倾斜的减小(参考图2b)，例如增加3dB或减小3dB或任何其它离散值(例如+/-1dB或+/-2dB)。该离散值可以是整数dB值或非整数dB值。在减小/增加与频谱倾斜之间也可能存在函数依赖(例如线性相关)。

基于这经修改噪声本底数据，噪声本底计算工具433基于可以再次从补丁产生器中获得的未处理信号频谱表示425，再次计算未处理频谱线和经修改的噪声频谱线。图5b中的频谱带复制工具430也包含组合器434，该组合器434用于组合未处理频谱线与计算的噪声本底(包括来自修改单元431的修改)，以产生第二频带105b中的分量。

能量分布数据125可以指示最简单情况下的对传送的噪声本底数据级别的修改。如上所述，第一LPC系数同样可用作能量分布数据125。因此，如果音频信号105使用LPC来编码，则其他实施例使用第一LPC系数，该第一LPC系数是通过已编码音频流345来传送作为能量分布数据125。在这种情况下，不需要另外传送除能量分布数据125。

备选地，噪声本底的修改也可在计算器433中的计算的后执行，使得噪声本底修改单元431可以布置在处理器433之后。在其他实施例中，能量分布数据125可直接输入到计算器433中，该计算器433直接修改噪声本底的计算作为计算参数。因此，噪声本底修改单元431和计算器/处理器433可已组合成噪声本底修改器(modifier)工具433、431。

在另一实施例中，包含噪声本底计算工具的BWE工具430包含开关，其中该开关被配置为在噪声本底的高级别(正频谱倾斜)与噪声本底的低级别(负频谱倾斜)之间切换。该高级别例如可以与其中所传送的噪声级别被加倍(或与一个因子相乘)的情况相对应，而低级别与其中所传送级别被减倍的情况相对应。开关可以受已编码音频信号345的比特流中的比特控制，该位指示音频信号的正或负频谱倾斜。备选地，该开关也可通过分析已解码音频信号105a(第一频带中的分量)或频率子频带音频信号105₃₂来激活，例如相对于频率倾斜(频率倾斜是正还是负)。备选地，开关也可由第一LPC系数来控制，因为这系数指示频率倾斜(参考上文)。

尽管示意了图1、图3至图5中的一些作为装置的框图，但是这些图同时是方法的示意，其中方框的功能与方法步骤相对应。

如上所述，可以将SBR时间单元(SBR帧)或时间部分划分成各种数据块、所谓的包络。这种划分在SBR帧上是均匀的，且允许灵活调整SBR帧中的音频信号的合成。

图6示出了在n个包络中针对SBR帧的这种划分。SBR帧覆盖开始时间t₀与结束时间t_n之间的时间段或时间部分T。该时间部分T例如被划分成八个时间部分：第一时间部分T1、第二时间部分T2、...、第八时间部分T8。在这个示例中，包络的最大数目与时间部分的数目相符，且n＝8。这8个时间部分T1、...、T8由7个边界分开，这意味着边界1分开第一与第二时间部分T1、T2，边界2位于第二部分T2与第三部分T3之间等等，直到边界7分开第七部分T7与第八部分T8。

在其他实施例中，SBR帧被分成四个噪声包络(n＝4)或者被分成两个噪声包络(n＝2)。在第6图中所示的实施例中，所有包络包含相同的时间长度，在其它实施例中该时间长度可能是不同的，使得噪声包络覆盖不同的时间长度。详细地，具有两个噪声包络(n＝2)的情况包含在前四个时间部分(T1、T2、T3及T4)上从时间t₀延伸的第一包络及覆盖第五到第八时间部分(T5、T6、T7及T8)的第二噪声包络。由于标准ISO/IEC 14496-3，包络的最大数目限制为2。但是实施例可使用任何数目的包络(例如两个、四个或八个包络)。

在其他实施例中，包络数据计算器210被配置为依据所测量的噪声本底数据115的改变来改变包络的数目。例如，如果所测量的噪声本底数据115指示变化噪声级别(例如大于一阈值)，则包络的数目可以增加，而在噪声本底数据115指示恒定噪声本底的情况下，包络的数目可以减少。

在其它实施例中，信号能量表征器120可以基于语言信息，以检测语音中的齿音。当例如语音信号具有关联元信息(诸如国际语音拼字)时，则该元信息的分析也将提供语音部分的齿音检测。在该上下文中，对音频信号的元数据部分进行分析。

尽管在装置的上下文中描述了一些方面，但是清楚的是，这些方面也代表对应方法的描述，其中模块或设备与方法步骤或方法步骤的特征相对应。类似地，在方法步骤的上下文中所描述的方面也代表对应模块或项目或对应装置的特征的描述。

本发明的已编码音频信号可以储存在数字储存介质上或可在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传送。

依据特定实施要求，本发明的实施例可在硬件或软件中来实施。实施可以使用其上储存有电可读控制信号的数字储存介质来执行，例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，该电可读控制信号可以与可编程计算机系统协作(或能够协作)，使得执行相应方法。

根据本发明的一些实施例包含具有电可读控制信号的数据载体，该电可读控制信号可以与可编程计算机系统协作，使得执行这里所述的方法之一。

一般地，本发明的实施例可实施为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上执行时，该程序代码可操作用于执行方法之一。该程序代码例如可以储存在机器可读载体上。

其它实施例包含计算机程序，该计算机程序用于执行这里所述的方法之一、储存在机器可读载体上。

换言的，本发明方法的实施例因此是具有程序代码的计算机程序，当该计算机程序在计算机上执行时，该程序代码用于执行这里所述的方法之一。

因此，本发明方法的另一实施例是一种数据载体(或数字储存介质、或计算机可读介质)，该数据载体包含、其上记录有计算机程序，该计算机程序用以执行这里所述的方法之一。

因此，本发明方法的另一实施例是代表计算机程序的数据流或信号序列，该计算机程序用于执行这里所述的方法之一。该数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)来传送。

另一施例包含被配置为或适于执行这里所述的方法之一的处理装置，例如计算机或可编程逻辑器件。

另一实施例包含其上安装用于执行这里所述的方法之一的计算机程序的计算机。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可以用来执行这里所述方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作，以执行这里所述的方法之一。一般地，该等方法优选地通过任何硬件装置来执行。

就本发明的原理而言，上述实施例只是说明性的。需理解的是，这里所述配置及细节的修改与变化对于本领域中的其它技术人员而言将是显而易见的。因此，仅限于未决专利权利要求的范围，而不限于这里实施例的描述与解释所提出的特定细节。

Claims

1.一种用于为音频信号(105)产生带宽扩展输出数据(102)的装置(100)，所述音频信号(105)包括第一频带(105a)中的分量和第二频带(105b)中的分量，所述带宽扩展输出数据(102)适于控制第二频带(105b)中分量的合成，所述装置包括：

噪声本底测量器(110)，用于在音频信号(105)的时间部分(T)内测量第二频带(105b)的噪声本底数据(115)；

信号能量表征器(120)，用于得到能量分布数据(125)，能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布；以及

处理器(130)，用于组合噪声本底数据(115)与能量分布数据(125)，以获得带宽扩展输出数据(102)。

2.如权利要求1所述的装置(100)，其中，信号能量表征器(120)被配置为使用齿音参数或频谱倾斜参数作为能量分布数据(125)，所述齿音参数或频谱倾斜参数标识音频信号(105)随频率(F)的增大或减小级别。

3.如权利要求2所述的装置(100)，其中，信号能量表征器(120)被配置为使用第一线性预测编码系数作为所述齿音参数。

4.如前述权利要求中任一项所述的装置(100)，其中，处理器(130)被配置为将该噪声本底数据(115)和频谱能量分布数据(125)加到比特流中，作为BWE输出数据(102)。

5.如权利要求1至3中任一项所述的装置(100)，其中，处理器(130)被配置为根据能量分布数据(125)改变噪声本底数据(115)，以获得修改的噪声本底数据，并且，处理器(130)被配置为将修改的噪声本底数据加到比特流中，作为BWE输出数据(102)。

6.如权利要求5所述的装置(100)，其中，噪声本底数据(115)的改变是，使得与包括较少齿音的音频信号(105)相比较，修改的噪声本底针对包括较多齿音的音频信号(105)而增加。

7.一种用于编码音频信号(105)的编码器(300)，音频信号(105)包括第一频带(105a)中的分量和第二频带(105b)中的分量，所述编码器(300)包括：

核心编码器(340)，用于编码第一频带(105a)中的分量；

如权利要求1至6中任一项所述的用于产生BWE输出数据(102)的装置(100)；以及

包络数据计算器(210)，用于基于第二频带(105b)中的分量，来计算BWE数据(375)，其中，所计算的BWE数据(375)包括BWE输出数据(102)。

8.如权利要求7所述的编码器(300)，其中，时间部分(T)覆盖SBR帧，所述SBR帧包括多个噪声包络，且所述包络数据计算器(210)被配置为，为多个噪声包络中的不同噪声包络计算不同的BWE数据(375)。

9.如权利要求7或8所述的编码器(300)，其中，包络数据计算器(210)被配置为根据测量的噪声本底数据(115)的改变，来改变包络的数目。

10.一种用于为音频信号(105)产生带宽扩展输出数据(102)的方法，音频信号(105)包括第一频带(105a)中的分量和第二频带(105b)中的分量，带宽扩展输出数据(102)适于控制第二频带(105b)中的分量的合成，所述方法包括以下步骤：

在音频信号(105)的时间部分(T)内测量第二频带(105b)中的噪声本底数据(115)；

得到能量分布数据(125)，能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布；以及

组合噪声本底数据(115)与能量分布数据(125)，以获得带宽扩展输出数据(102)。

11.一种带宽扩展工具(430)，用于针对第二频带(105b)中的分量，基于带宽扩展输出数据(102)且基于未处理信号频谱表示(425)，产生音频信号(105)的第二频带(105b)中的分量，其中，带宽扩展输出数据(102)包括能量分布数据(125)，能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布，所述带宽扩展工具(430)包括：

噪声本底修改器工具(433，431)，被配置为根据能量分布数据(125)来修改所传送的噪声本底；以及

组合器(434)，用于组合未处理信号频谱表示(425)与修改的噪声本底，以产生第二频带(105b)中具有修改的噪声本底的分量。

12.如权利要求11所述的带宽扩展工具(430)，其中，音频信号(105)包括第一频带(105a)中的分量，并且带宽扩展参数(102)包括对噪声本底的噪声级别加以指示的所传送的噪声本底数据，以及

其中，噪声本底修改器工具(433、431)适于

在能量分布数据(125)指示音频信号(105)在第二频带(105b)的分量中比在第一频带(105a)的分量中包括更多能量的情况下，增加噪声级别，或者

在能量分布数据(125)指示音频信号(105)在第一频带(105a)的分量中比在第二频带(105b)的分量中包括更多能量的情况下，减小噪声级别。

13.一种用于对已编码音频流(345)进行解码以获得音频信号(105)的解码器，包括：

比特流解格式化器(375)，分离已编码信号(355)与BWE输出数据(102)；

如权利要求11或权利要求12所述的带宽扩展工具(430)；

核心解码器(360)，用于从已编码音频信号(355)中解码第一频带(105a)中的分量；以及

合成单元(440)，用于通过组合第一频带(105a)与第二频带(105b)中的分量，来合成音频信号(105)。

14.一种用于对已编码音频流(345)进行解码以获得音频信号(105)的方法，该音频信号(105)包括第一频带(105a)中的分量和带宽扩展输出数据(102)，其中，带宽扩展输出数据(102)包括能量分布数据(125)和噪声本底数据，能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布，所述方法包括：

从已编码音频流(345)中分离出已编码音频信号(355)和BWE输出数据(102)；

从已编码音频信号(355)中解码出第一频带(105a)中的分量；

从第一频带(105a)中的分量中产生针对第二频带(105b)中的分量的未处理信号频谱表示(425)；

根据能量分布数据(125)且根据所传送的噪声本底数据，来修改噪声本底；

组合未处理信号频谱表示(425)与修改的噪声本底，以产生第二频带(105b)中的具有计算的噪声本底的分量；以及

通过组合第一频带(105a)与第二频带(105b)中的分量，来合成音频信号(105)。

15.一种计算机程序，当在计算机上执行时用于执行如权利要求10或权利要求14所述的方法。

16.一种已编码音频流(345)，包括：

已编码音频信号(355)，针对音频信号(105)的第一频带(105a)中的分量；

噪声本底数据，适于控制针对音频信号(105)的第二频带(105b)中的分量的噪声本底的合成；以及

能量分布数据(125)，适于控制噪声本底的修改。