CN1890712A - 音频信号编码 - Google Patents
音频信号编码 Download PDFInfo
- Publication number
- CN1890712A CN1890712A CNA200480035931XA CN200480035931A CN1890712A CN 1890712 A CN1890712 A CN 1890712A CN A200480035931X A CNA200480035931X A CN A200480035931XA CN 200480035931 A CN200480035931 A CN 200480035931A CN 1890712 A CN1890712 A CN 1890712A
- Authority
- CN
- China
- Prior art keywords
- data
- frequency
- granularity
- window
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一方面,本发明提供一种用于MPEG-1层III的数据信号的解码器。在优选实施例中,所述解码器为类型0、1和3的MP3窗口函数的各个粒度的所有576个频率线执行单个逆MDCT,并对类型2窗口函数的三组192个频率线执行三次逆MDCT。据发现,使用“长的”逆MDCT提供了对包括多个“短的”逆MDCT和合成滤波器组的混合滤波器组的足够的近似。结果,构造输出信号可以无需滤波器组。另一方面,本发明提供一种用于产生MPEG-1层III类型的数据信号的编码器,其中采用“长的”MDCT来代替混合滤波器组。结果,生成MPEG-1层III类型的数据信号可以无需滤波器组。
Description
技术领域
本发明涉及数据信号的编码和解码。本发明特别但非专门地涉及用于编码和解码MPEG-1层III数据信号的设备。
背景技术
MPEG-1层III(通常称为MP3)是广泛使用的音频编解码器。在ISO/IEC JTC1/SC29/WG11 MPEG,IS11172-3的“Information Technology-Coding of Moving Pictures and Associated Audio for DigitalStorage Media at up to about 1.5Mbit/s”(部分3:音频,MPEG-1,1992)中描述了MP3的行业标准。该标准可以从国际标准化组织(ISO)(
www.i so.ch)中获得,因而在此引入作为参考。
图1表示典型的常规MPEG-1层III编码器10的简化框图,只示出了编码器10中那些有助于理解本发明的元件。编码器10被设置成接收PCM输入信号,包括一串或一帧1152个的音频采样。输入信号被提供给(多相)分析滤波器组(filterbank)12,其将输入信号滤波成32个均匀间隔的、交叠的频带,以产生32个下采样的子频带信号分量,每个包括36个子频带采样。
就每个子频带信号分量而言,窗口化(正)MDCT(改进的离散余弦变换)由MDCT单元14执行。四个窗口类型用来调节可变的时间分段。对于信号的(准)稳定部分,可以采用所谓的正常窗口,而对于信号的非稳定部分,可以采用一系列所谓的短窗口。为了在从正常窗口切换到短窗口以及从短窗口切换到正常窗口时防止间断,已经定义了两个瞬时类型的窗口,即所谓的开始、停止窗口。对于正常、开始或停止窗口,在36个输入(即36个子频带采样)上执行MDCT,产生18个输出的MDCT系数,通常称为频率线(frequency line)。对于短窗口,在三组12个输入上(即,三组12个子频带采样上)执行MDCT,并产生三组6个输出MDCT系数,或频率线的。一组576个的MDCT系数称为一个粒度。就包括1152个输入采样的普通MP3帧而言,作为编码处理交叠特性的结果,产生两个粒度。对于每576个输入采样,合计产生18×32=576个MDCT系数、或频率线。
在正常、开始或停止窗口的情况下,MDCT频率线被提供给防混叠蝴蝶(anti-aliasing butterflie)16,以减少通过下采样滤波器组12部分交叠的滤波器而引起的混叠的影响。最后,量化及编码单元18执行频率线适当的量化和编码,以便产生规定比特流格式的输出信号。量化和编码在执行比特分配算法的比特分配单元20控制下执行,一般受音质模型调控。
图2表示常规MPEG-1层III解码器30的简化框图,只示出了那些有助于理解本发明的元件。解码器30被安排成接收规定比特流格式的输入信号。解码和去量化单元32执行比特流的解码和去量化,以产生频率线、或MDCT系数。对于每组由编码器10所产生的576个MDCT频率线,再现各自的576个频率线。
频率线被提供给重新排序单元34,其在短类型窗口的情况下,在每个粒度内重新排序频率线。在正常、开始或停止窗口的情况下,频率线被提供混叠蝴蝶36,其对防混叠蝴蝶16执行的防混叠操作执行反操作。
IMDCT单元38在频率线上执行IMDCT(改进的离散余弦逆变换),以产生32个子频带信号分量,每个分量包括36个子频带采样。对于那些对应于正常、开始或停止窗MDCT的频率线而言,IMDCT单元38认为输入了18个频率线,并产生36个子频带采样。对于那些对应于短窗MDCT的频率线而言,IMDCT单元38认为输入了3组6个频率线,并产生3组12个子频带采样。
窗口化(windowed)操作以及标准的交叠和相加操作,通过窗口化和交叠相加单元40在子频带采样上被执行。有关使用哪种类型的窗口的信息被承载在比特流有关的辅助信息(side information)中。最后,子频带采样被提供给(多相)合成滤波器组42,以产生包括PCM采样的输出信号,而合成滤波器组42还包括上采样32倍。
滤波器组12、42包括原型低通滤波器,其被余弦调制以形成高频带。子频带滤波器组和MDCT单元的串联组合称为混合滤波器组,因为它部分由滤波器组组成、部分由转换组成。在编码器10中,分析滤波器组12和MDCT单元14共同包括混合分析滤波器组,而在解码器30中,IMDCT单元38和合成滤波器组42共同包括混合合成滤波器组。鉴于利用混合滤波器组带来的计算、继而实施的复杂性,对于MP3而言,这是公认的缺点。因此希望提供需要较少计算的MP3编码器和/或解码器。
发明内容
因此,本发明的第一方面提供一种用于数据信号的解码器,所述数据信号通过向子频带滤波器组提供数据信号以及通过在每个产生的子频带信号上执行各自频率正变换而被编码,所述解码器包括:用于解码及去量化接收的数据信号以产生多个频率线的粒度的装置;用于在每个粒度上执行一个或多个频率逆变换以产生多个数据采样的装置;以及用于对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样的装置;其中,就至少第一种类型的窗口函数而言,所述频率逆变换装置被设置成在各自粒度的所有频率线上执行单个频率逆变换,并且其中所述解码器还包括用于从所述窗口化数据采样中构造出输出信号的装置。
本发明的第二方面提供一种解码数据信号的方法,所述数据信号通过对子频带滤波器组提供数据信号以及通过在每个产生的子频带信号上执行各自的频率正变换而被编码,所述方法包括:解码及去量化接收的数据信号以产生多个频率线的粒度;在每个粒度上执行一个或多个频率逆变换以产生多个数据采样;对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样;以及从所述窗口化数据采样中构造出输出信号;其中,就至少第一种类型的窗口函数而言,在各自粒度内的所有频率线上执行单个频率逆变换。
本发明的第一和第二方面的每个允许生成输出信号而无需滤波器组。在优选实施例中,编码的数据信号包括MPEG-1层III的数据信号,并且频率的正和逆变换分别包括改进的离散余弦变换(MDCT)和改进的离散余弦逆变换(IMDCT)。
在优选实施例中,频率正变换相反的包括改进的离散余弦变换(MDCT),并且编码的数据信号包括MPEG-1层III的数据信号。
本发明的第三方面提供一种用于包括多个数据采样的输入信号的编码器,所述编码器包括:用于对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样的装置;用于在窗口化数据采样上执行一个或多个改进的离散余弦变换(MDCT)以产生多个频率线的粒度的装置;以及用于编码并量化每个粒度以产生MPEG-1层III类型的数据信号的装置;其中,就至少第一种类型的窗口函数而言,所述MDCT装置被设置成在关于其产生各自的粒度的所述接收的数据信号的所有窗口化数据采样上执行单个MDCT。
本发明的第四方面提供一种对包括多个数据采样的输入信号进行编码的方法,所述方法包括:对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样;在窗口化数据采样上执行一个或多个改进的离散余弦变换(MDCT)以产生多个频率线的粒度;编码并量化每个粒度以产生MPEG-1层III类型的数据信号;其中,就至少第一种类型的窗口函数而言,在关于其产生各自的粒度的所述接收的数据信号的所有窗口化数据采样上执行单个MDCT。
本发明的第三和第四方面允许生成MPEG-1层III类型的数据信号,而无需使用滤波器组。
本发明的第五方面提供一种用于编码和解码数据信号的系统、或编解码器,所述系统包括本发明第三方面的编码器和本发明第一方面的解码器。
在从属权利要求中,叙述了本发明每个方面的优选特征。
对于本领域普通技术人员来说,通过阅读以下对具体实施例的描述并参照附图,本发明的有利方面将变得更加明显。
附图说明
现通过示例且参照附图来描述本发明的实施例,其中:
图1是常规MPEG-1层III编码器的框图;
图2是常规MPEG-1层III解码器的框图;
图3是来自德耳塔脉冲的MPEG-1层III混合分析滤波器组的MDCT系数的图形表示;
图4是图3在对奇数子频带求反(乘以-1)之后的MDCT系数的图形表示;
图5示出了短窗口的MDCT系数在常规MPEG-1层III解码器中重新排序之后的顺序;
图6是解码器的MPEG-1层III信号的框图,所述解码器体现了本发明的一个方面;
图7示出了短窗口的MDCT系数在图6的解码设备中重新排序之后的顺序;以及
图8是体现本发明第三方面的用于产生MPEG-1层III类型信号的编码器。
具体实施方式
在常规MPEG-1层III(MP3)系统中,典型的数据帧包括两个粒度,每个粒度由576个频率线、或MDCT系数组成。如上所述,根据常规MP3的编码,这576个频率线包括32个子频带中每个子频带的各自一组的18个频率线。当使用短类型的窗口时,每组的18个频率线由每组6个的3组频率线组成。在图1的编码器10中,通过混合滤波器组12、14执行变换。取决于所需的窗口类型,MDCT单元14执行一个或多个针对每个子频带的MDCT。通过MDCT单元14执行的MDCT可以认为包括“短的”MDCT,其中,每次只在帧数据的(相对小的)各自部分上执行每个MDCT。对于正常、开始或停止类型的窗口,在子频带的36个输入采样上执行单个MDCT以产生18个频率线。对于短类型的窗口,执行三个MDCT变换,每个都在子频带的各自一组12个输入采样上执行以产生各自的一组6个频率线。因此,在常规MP3的解码器30中,通过IMDCT单元38执行的逆MDCT可以认为包括“短的”逆MDCT,因为每个逆MDCT只在关于数据帧产生的经过解码和去量化的频率线的各自部分上执行。对于正常、开始或停止类型的窗口,在子频带的18个频率线上执行单个逆MDCT以产生36个时域采样。对于短类型的窗口,执行三个逆MDCT变换,每个都在子频带的各自的一组6个频率线上执行以产生各自的一组12个时域采样。
相反,在本发明一个方面的实施例中,提供了解码MP3数据的方法,其中,在经解码和去量化的频率线、或MDCT系数上执行一个或多个“长的”逆MDCT,而关于整个数据粒度产生经解码和去量化的频率线、或MDCT系数。对于576个频率线、或MDCT系数的粒度,当需要正常、开始或停止类型的窗口时,在所有576个频率线上执行单个“长的”逆MDCT以产生1152个时域采样,而对于短类型的窗口,在各自的一组192个频率线上执行三个“长的”逆MDCT,以产生各自的一组384个时域采样。但不论是哪种情况,在作为整体的粒度的所有频率线上执行一个或多个逆MDCT,而不是在与各自子频带有关的各自频率线上执行。据发现,通过频率线的某些预处理以及通过适当的窗口化与交叠相加操作,“长的”逆MDCT的输出可以用来提供期望的PCM输出信号的感性上相当准确的近似值。可以在编码处理期间应用类似的原理,从而取对消编码器中滤波器组的需要。以下是更详细的描述。
在形成本发明的过程中,得出以下的观测:-理想的滤波器组包括长方形的不交叠的通带。如果MP3中所用滤波器组是理想的,则通过上述单个“长的”MDCT可以十分精确地近似混合滤波器组。滤波器组和防混叠蝴蝶的组合给出了对理想滤波器组相对好的近似。因此,混合滤波器组结合防混叠蝴蝶可以由单个“长的”MDCT替代。通过这些观测,推断出总的编码和解码处理,更具体而言,各自的混合滤波器组的操作可以通过余弦调制变换来近似。尤其是假定总的编码和解码处理可以通过MDCT来近似。
如果该假定是正确的,即如果混合滤波器组可以近似为MDCT,则对德耳塔脉冲的响应应该包括余弦波形。用于(正)MDCT的解析表达式如下:
其中,n是用于常规MP3编码器的时间索引(time index),其指示子频带采样的索引;N是变换的长度或大小;k是频率指数;x[n]是时域信号,其在常规的MP3编码器中包括由子频带采样组成的子频带时域信号;而c[k]是频域MDCT的频谱。
德耳塔脉冲可以如下描述(与窗口化无关):
x(n)=1 n=n′
x(n)=0 n≠n′ [2]
将[2]代入[1],得到:
图3用图表说明混合分析滤波器组在德耳塔脉冲的防混叠蝴蝶之后的结果。可见图3所示频谱由余弦类型的波形组成,而余弦类型的波形具有对应于奇数的、即交替(alternate)或每隔一个被求反(乘以-1)的子频带的波形。这一特性与混合滤波器组的输出共享,已知混合滤波器组的输出包括求反的交替子频带分量。实际上,对于解码器30中合成滤波器组42的每隔一个的子频带,每隔一个的输入值被求反(即乘以-1),以补偿由编码器10中的分析滤波器组12所引起的频率倒置。结果,相邻子频带之间的相位差变得近似180度,即乘以-1。更详细的描述见下列文章:B.Edler的“Aliasing reduction insub-bands of cascaded filter banks with decimation”,ElectronicsLetters,1992年6月4日,卷28,第12期)。
图4用图表说明了德耳塔脉冲防混叠蝴蝶之后的混合滤波器组在求反的子频带分量已经乘以-1来补偿该求反之后的频谱。在补偿以后,c[k]包括稍微失真的余弦函数。在图4中可以看见的失真,起因于由于分析滤波器组中的下采样而造成的混叠,其只通过防混叠蝴蝶以及通过分析滤波器组不具有理想线性相位特性的事实进行部分地补偿。因此,通过MDCT系数的某些预处理,混合滤波器组的操作可以用MDCT来近似。如下面更详细所述,在优选实施例中,一个或多个“长的”MDCT用来代替解码器30的混合合成滤波器组38、42的操作。同样,一个或多个“长的”MDCT可用来代替编码器10的混合分析滤波器组12、14的操作。
在图6中,示出了体现本发明一个方面的用于解码MPEG-1层III的数据信号以及类似编码的数据信号的设备,通常表示为60。只示出了那些为理解本发明所必需的元件。解码设备、或解码器60,包括解码和去量化单元62,其被设置成接收MPEG-1层比特流形式的数据信号、或类似编码的数据信号。解码和去量化单元62对接收的比特流执行适当的解码(一般为MP3所规定的Huffman解码)和重新量化,以恢复多个频率线、或MDCT系数。当该比特流包括MP3一致性(conformant)数据时,解码和去量化单元62可以执行标准的MP3解码和重新量化。通常对于包括1152个输入音频采样的一帧,576个频率线的两个粒度通过单元62来恢复(由于在窗口化中执行的交叠相加操作,576个输入采样有效地提供了576个MDCT系数,因此系统被临界采样)。
解码器60包括重新排序单元64,用于根据需要重新排序通过解码和去量化单元62产生的频率线。重新排序倒转正常通过编码器执行的重新排序。以下是更详细的描述。重新排序单元62可以从与各自帧相关联的辅助信息中确定出需要什么类型的重新排序。
提供逆MDCT单元IMDCT 68,用于在重新排序的频率线上执行一个或多个逆MDCT。如上所述,IMDCT单元68被设置成每次在频率线的整个粒度上进行操作,要么在该粒度内的所有频率线上执行单个逆MDCT(在需要正常、短或停止类型的窗口时),要么在该粒度内所有频率线的相应数量的子组上执行多个逆MDCT(在需要短类型窗口时)。对于一个粒度包括576个频率线的MP3比特流,对于正常、开始或停止窗口,IMDCT单元68在整个粒度上执行单个逆MDCT,产生1152个时域采样,而在每组由192个频率线组成的三个子组中各自的一个上执行三个逆MDCT,产生384个时域采样的三个各自的序列、或组。IMDCT单元68的输出包括多个(当前示例中为1152个)已恢复的信号分量、或采样,其可以用于构造PCM的输出信号。
为了构造PCM的输出信号,在通过IMDCT单元68产生的信号采样上执行窗口化与交叠相加操作。因此,解码器60还包括窗口化和交叠相加单元70,下面更详细地描述它的操作。
要指出的是,常规MP3解码器30的合成滤波器组42对交替子频带的信号分量、或子频带声道求反,以补偿编码器10的分析滤波器组12的频率倒置。因此,在意欲解码标准MP3一致性数据的解码器60的实施例中,解码器60包括求反单元66,用于对交替子频带的信号分量、或声道求反,即有关的MDCT系数乘以-1。图6中示出了求反单元66,介于重新排序单元64和IMDCT单元68之间,但是可替换地,可以位于别处,例如在解码和去量化单元62与重新排序单元64之间。
还要指出的是,分析滤波器组12具有交叠的子频带。这个效应通常被防混叠蝴蝶16降低,而编码器10通常包括防混叠蝴蝶16。
为了可以更好地理解重新排序单元64以及窗口化和交叠相加单元70,现更详细地描述常规的MP3窗口化。在MP3内规定了四种不同的窗口类型(和附随的长度),即‘normal(正常)’、‘start(开始)’、‘short(短)’和‘stop(停止)’。窗口的具体类型、或不同窗口类型的序列,被选择成适合即将施加(一个或多个)窗口的数据的那一部分的特性。例如,短类型窗口通常被施加给对应于音频信号中暂态的数据部分。与给出的数据帧相关联的辅助信息指示出哪种窗口类型将被与粒度一起使用。所需的窗口类型对MDCT(同理,逆MDCT)的长度、或大小和窗口化/交叠相加操作都有影响。
对于MP3,窗口函数z(n)可以描述如下:
对于正常类型的窗口(类型0):
对于开始类型的窗口(类型1):
对于短类型的窗口(类型2),三个短窗口同时被编码:
对于停止类型的窗口(类型3):
等式[4]、[5]、[6]和[7]中的每个窗口函数通常认为是单个窗口函数,即使它们可以包括施加超过一个的窗口。这应该从窗口长度是36(即36点窗口)、由此索引n从0到35的函数[4]、[5]和[7]中看出。对于函数[6],三个短的12点窗口的组合长度是36,由此对于p从0到2,n从0运行到11。因此,每个窗口类型的全长对应子频带信号分量的大小(36个子频带采样)。
对于类型2的窗口,即短窗口的序列,在编码器10中,每个粒度的576个MDCT系数(32个子频带乘以3个窗口乘以6个MDCT系数)被排序,以便允许更有效率的编码。因此在解码器中,发生相应的重新排序,以便使通过编码器执行的重新排序反向。在常规的MP3解码器30中,粒度的MDCT系数、或频率线,根据频率线、然后根据窗口索引、然后根据子频带,按照递增的粒度被重新排序。这在图5中得以说明,其示出了粒度50的一部分的结构,在粒度50中,每个频率线、或MDCT系数,可以被给与从0到575的各自频率线索引。在最高的、或最粗糙的粒度处,频率线根据指示它们属于哪个子频带且从0到31的子频带索引被排序。在每个子频带内,频率线根据指示哪个窗口将被用于频率线且从0到2的窗口索引被排序。在每个窗口内,频率线根据指示频率线被提供给MDCT的顺序且从0到5的频率线子索引被排序。因此,粒度50中的第一频率线(即,具有最低的频率线索引(=0)的频率线),是子索引为0、窗口索引为0和子频带索引为0的频率线,第二频率线(频率线系数=1)的子索引为1、窗口索引为0和子频带索引为0,等等,直到粒度50中的最后的频率线,其具有最高的频率线索引575,具有子索引为5、窗口索引2和子频带索引31。
在解码器60中,重新排序单元64被设置成按照不同于上述用于常规解码器的方式重新排序粒度的频率线。对于“短”(类型2)窗口,重新排序单元64根据频率线、然后根据子频带和最后的窗口,按照递增的粒度重新排序频率线。这在图7中加以说明,从图7中可以看出在粒度50′内,频率线根据窗口索引、然后根据子频带索引、然后根据频带子索引,按照最高的级别排序。
现描述通过窗口化和交叠相加单元70结合IMDCT单元68构造出的PCM输出信号。假设在下面的示例中,初始PCM信号包括1152个音频采样的多个帧,每个帧被变换成576个频率线(或MDCT系数)的两个粒度。因此,IMDCT单元68在576个MDCT系数的粒度上进行操作,以产生包括1152个采样的信号,这1152个采样然后被提供给窗口化和交叠相加单元70。
第l组、或第l个粒度的MDCT系数用Xl(k)表示,其中k=0...575。通过窗口化和交叠相加单元70在解码第l组(l从1开始)MDCT系数之后而产生的输出信号被描述为(使用交叠相加):
yl(n+576·l)=yl-1(n+576·l)+xl(n)
yl(n+576(l-1))=yl-1(n+576(l-1))+xl(n) [8]
其中,索引n=0...1151,yl-1(n)是在解码第l-1个组之后的输出信号,而xl(n)是通过IMDCT单元68在MDCT系数Xl(k)上进行操作而产生的信号。输出信号y0(n)对于所有的n都被初始化为零。
信号xl(n)的生成取决于指定的窗口类型。当第l个粒度的窗口类型为0、1、或3时,IMDCT单元68在Xl(k)提供的576个输入系数上执行逆MDCT,以产生1152个点的瞬时信号xtmp(n),如等式[9]所述:
其中n=0...N-1,N=1152。
当第l组的窗口类型是2(即“短”窗口)时,IMDCT单元68在各自的一组192个输入系数上执行三个逆MDCT,而每个系数由Xl(k)提供,以产生每个由384个点组成的瞬时信号xtmp,0(n)、xtmp,1(n)和xtmp,2(n),每个瞬时信号如等式[10]所述:
其中p=0...2,n=0...N-1,N=384。
它是被有效地提供给窗口化和交叠相加单元70的瞬时信号xtmp(n)、xtmp,p(n)。
当第l组的窗口类型为0时,窗口化和交叠相加单元70如下计算信号xl(n):
其中,[11]中的除数1152对应于IMDCT的变换长度N。
当第l组的窗口类型为1时,窗口化和交叠相加单元70如下计算信号xl(n):
xl(n)=xtmp(n) n=576...767.
xl(n)=0 n=960...1151
[12]
其中,[12]中的除数1152对应于IMDCT的变换长度N,除数384对应于N/3,而576对应于N/2。
当第l组的窗口类型为2时,窗口化和交叠相加单元70通过首先计算三个瞬时信号来计算信号xl(n):
其中,除数384对应于IMDCT的变换长度N。
信号xl(n)然后构造如下:
xl(n)=0 n=0...191
xl(n)=xl,tmp,0(n-192) n=192...383
xl(n)=xl,tmp,0(n-192)+xl,tmp,1(n-384) n=384...575
xl(n)=xl,tmp,1(n-384)+xl,tmp,2(n-576) n=576...767
xl(n)=xl,tmp,2(n-576) n=768...959
xl(n)=0 n=960...1151
[14]
当第l组的窗口类型为3时,窗口化和交叠相加单元70如下计算信号xl(n):
xl(n)=0 n=0...191
xl(n)=xtmp(n) n=384...575
[15]
其中,除数1152对应于IMDCT的长度N,而除数384对应于N/3。可见,等式[11]、[12]、[13]和[15]是通用的类型:
xl(n)=z(n)xtmp(n) [16]
其中,xl(n)是窗口化的信号,xtmp(n)是未被窗口化的信号,z(n)是窗口函数。要指出的是,等式[11]、[12]、[13]和[15]的窗口函数z(n)通常类似于分别在等式[4]、[5]、[6]和[7]中描述的窗口函数z(n)。然而,根据各自的变换长度N等式[11]、[12]、[13]和[15]中窗口函数z(n)各自的窗口长度更长并且各自的除数相应地更大。可以认为,等式[11]、[12]、[13]和[15]的窗口函数z(n)包括在等式[4]、[5]、[6]和[7]中分别描述的窗口函数z(n)的上采样(up-sampled)版本,上采样的程度取决于各自的变换长度/窗口长度,N。还要指出的是,等式[11]、[12]、[13]和[15]的窗口函数每个都包括单个的窗口函数,即使其应用可能包括一个以上窗口的应用。
此外,窗口化和交叠相加单元70只进行指定窗口类型的一个应用,即对整个粒度的采样施加一个窗口函数。这与常规解码器30相反,在常规解码器30中,窗口函数针对每个子频带都施加。
发现由窗口化和交叠相加单元产生的PCM输出信号包括高质量的音频信号,尽管它与MP3标准不完全一致或不比特正确(bit-true)。尤其是,出现一些相位失真和混叠,与MP3一致性信号相比,导致相对小的频谱失真和时域失真。然而,发现这些失真或伪差对人感知音频信号不具有重要的不利影响。实际上,在解码器60中,混合合成滤波器组被具有一些频谱混叠的“长的”相位失真的逆MDCT所替代。通过消除对许多“短”MDCT和合成滤波器组的需求,解码器60的计算复杂性被极大地降低。例如,经过一般优化的常规MP3解码器每个输出采样需要大约22.11次乘法和26.73次加法。对应的经过优化的解码器60每个输出采样仅仅需要8次乘法和20.5次加法。结果,解码器60提供更高的解码效率,后者导致更少的功耗或更低的DSP需求。解码器60的复杂性进一步降低,其中不需要混叠蝴蝶(因为它们在解码器30中的存在帮助合成滤波器组42重构PCM输出信号)。
如上所述,本发明的原理同样可以用于MP3类型的编码器。因此,本发明的另一方面提供一种用于编码音频信号以产生MPEG-1层III类型的信号或比特流的设备。要指出的是,该比特流不是标准的MP3比特流,尽管它与MP3一致——得到的解码信号在相位响应和混叠方面不同于MP3标准。本质上,“长的”相位失真的MDCT用来代替常规编码器10的分析混合滤波器组12、14。图8示出了体现本发明此方面的编码器80的简化框图。编码器80包括窗口化单元82,其在接收的PCM输入采样上执行窗口化。窗口化函数类似于等式[4]、[5]、[6]和[7]中描述的那些函数,尽管窗口长度根据所需的MDCT变换大小而不同。对于正常、开始或停止类型的窗口,MDCT单元84在接收的帧的所有1152个输入采样上执行“长的”MDCT,以产生576个频率线。对于短窗口,MDCT单元84在每组384个的三组输入采样中的各自一组上执行三个“长的”MDCT,以产生各自的一组192个频率线。编码器80可以包括常规的MP3量化和编码单元86以及比特分配单元88。可以在MDCT单元82与量化和编码单元86之间提供求反单元85,用于对交替的、即每隔一个的子频带求反。
应该理解,解码器60中求反单元66的作用在于补偿交替子频带的固有求反,而交替子频带的固有求反在常规MP3编码器中发生。相应地,编码器80中求反单元85的作用在于创建通常在常规编码器10中发生的交替子频带的求反。然而,交替子频带的求反不是必需的,所以在替换实施例中,求反单元66、85可以省略。
应该理解,解码器60不仅能够解码标准一致的MPEG-1层III数据,而且能够解码非标的MPEG-1层III类型数据,例如通过编码器80产生的非标数据。
本发明并不限于MPEG-1层III数据的信号或MDCT。例如,体现本发明第一方面的解码器可以被设置成在由以下编码器(包括非MPEG-1层III编码器)产生的编码数据信号上进行工作:该编码器向子频带滤波器组提供未经编码的数据信号(特别是但非必须是音频信号),并随后促使在每个产生的子频带信号上、即在混合滤波器组上执行相应的频率正变换。只要在解码器执行相应的去量化和解码,则谁后的量化和编码不必必须与MP3一致。类似地,频率正变换不必必须包括MDCT,只要该解码器采用兼容的频率逆变换。在这一点上要指出的是,术语“粒度”主要是MP3的术语,不过技术人员将容易理解,在非MP3的实施例的上下文中,在此使用的术语“粒度”可以被解释为频率线或系数的任何等效组(通常术语“帧”等效于“粒度”)。
优选但非必需的是,子频带滤波器组和频率变换被临界地采样,并且窗口函数交叠50%(因此,变换显示出时域混叠消除(TDAC)属性),并且更优选地,具有实际价值。还优选但非必需的是,执行混叠减少,例如通过防混叠蝴蝶,在编码器对变换过的子频带信号执行混叠减少。
前述描述涉及单声道的信号,但是本发明通过以上述方式处理每个各自的声道,可以容易地用于立体声或多声道的编码并解码。
体现本发明的编码器和解码器,可以用任何便利的方式实现,例如使用计算机程序代码、硬件或它们的组合。
本发明并不限于在此描述的实施例,可以在不脱离本发明范围的前提下进行修改或改变。
Claims (25)
1.一种用于数据信号的解码器,所述数据信号通过向子频带滤波器组提供数据信号以及通过在每个产生的子频带信号上执行各自的频率正变换而被编码,所述解码器包括:用于解码及去量化接收的数据信号以产生多个频率线的粒度的装置;用于在每个粒度上执行一个或多个频率逆变换以产生多个数据采样的装置;以及用于对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样的装置;其中,就至少第一种类型的窗口函数而言,所述频率逆变换装置被设置成在各自粒度的所有频率线上执行单个频率逆变换,并且其中所述解码器还包括用于从所述窗口化数据采样中构造出输出信号的装置。
2.如权利要求1所述的解码器,其中所述子频带滤波器组包括临界采样的子频带滤波器组。
3.如权利要求1或2所述的解码器,其中所述数据信号的编码还包括在所述子频带信号上执行混叠减小。
4.如任一前述权利要求所述的解码器,其中所述频率正变换包括临界采样的变换。
5.如权利要求4所述的解码器,其中所述窗口函数关于数据采样交叠50%。
6.如权利要求5所述的解码器,其中所述输出信号构造装置对所述窗口化数据信号施加一个或多个交叠相加操作以产生所述输出信号。
7.如任一前述权利要求所述的解码器,其中所述频率正变换包括改进的离散余弦变换(MDCT),而所述频率逆变换包括改进的离散余弦逆变换(IMDCT)。
8.如任一前述权利要求所述的解码器,其中就至少所述第一种类型的窗口函数而言,所述窗口函数施加装置被设置成对关于各自粒度而产生的所有数据采样施加单个窗口函数。
9.如任一前述权利要求所述的解码器,其中所述至少第一种类型的窗口函数包括MPEG-1层III类型0、类型1以及类型3窗口函数的长度调整过的版本。
10.如任一前述权利要求所述的解码器,其中就至少第二种类型的窗口函数而言,所述频率逆变换装置被设置成在粒度的各组频率线上执行各自的频率逆变换,所述粒度的所有频率线属于所述多组中的一组或其他组。
11.如权利要求10所述的解码器,其中就至少所述第二种类型的窗口函数而言,所述窗口函数施加装置被设置成对关于各组频率线而产生的所有数据采样上施加单个窗口函数。
12.如权利要求10或11所述的解码器,其中所述至少第二种类型的窗口函数包括MPEG-1层III类型2窗口函数的长度调整过的版本,并且所述粒度的频率线属于三组中的一组或其他组。
13.如任一前述权利要求所述的解码器,其中粒度内每个频率线与多个频率子频带的各自一个相关联,所述解码器还包括用于在即将施加所述至少第二种类型的窗口函数时重新排序粒度内的频率线的装置,所述重新排序装置被设置成根据频率线属于哪组、与哪个频率子频带有关、然后根据频率线的顺序,按照递减的粒度重新排序频率线。
14.如任一前述权利要求所述的解码器,还包括用于对与交替频率子频带有关的频率线求反的装置。
15.如从属于权利要求13的权利要求14所述的解码器,其中所述求反装置被设置在所述重新排序装置以及所述频率逆变换装置之间。
16.一种解码数据信号方法,所述数据信号通过向子频带滤波器组提供数据信号以及通过在每个产生的子频带信号上执行各自的频率正变换而被编码,所述方法包括:解码及去量化接收的数据信号以产生多个频率线的粒度;在每个粒度上执行一个或多个频率逆变换以产生多个数据采样;对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样;以及从所述窗口化数据采样中构造出输出信号;其中就至少第一种类型的窗口函数而言,在各自粒度内的所有频率线上执行单个频率逆变换。
17.一种用于包括多个数据采样的输入信号的编码器,所述编码器包括:用于对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样的装置;用于在窗口化数据采样上执行一个或多个改进的离散余弦变换(MDCT)以产生多个频率线的粒度的装置;以及用于编码并量化每个粒度以产生MPEG-1层III类型的数据信号的装置;其中就至少第一种类型的窗口函数而言,所述MDCT装置被设置成在关于其产生各自的粒度的所述接收的数据信号的所有窗口化数据采样上执行单个MDCT。
18.如权利要求17所述的编码器,其中就至少所述第一种类型的窗口函数而言,所述窗口函数施加装置被设置成在关于其产生各自的粒度的各自接收的数据信号的所有窗口化数据采样上施加单个窗口函数。
19.如权利要求17或18所述的编码器,其中所述至少第一种类型的窗口函数包括MPEG-1层III类型0、类型1以及类型3窗口函数的长度调整过的版本。
20.如权利要求17~19中任何一个权利要求所述的编码器,其中就至少第二种类型的窗口函数而言,所述MDCT装置被设置成在关于其产生各自的粒度的各自的窗口化数据采样组上执行各自的MDCT,关于其产生各自的粒度的所有窗口化数据采样属于所述多组中的一组或其他组。
21.如权利要求20所述的编码器,其中就至少第二种类型的窗口函数而言,所述窗口函数施加装置被设置成对各自组的所有窗口化数据采样施加单个窗口函数。
22.如权利要求20或21所述的编码器,其中所述至少第二种类型的窗口函数包括MPEG-1层III类型2窗口函数的长度调整过的版本,并且关于其产生各自的粒度的所述窗口化数据采样属于三组中的一组或其他组。
23.如权利要求17~22中任何一个权利要求所述的编码器,其中粒度内每个频率线与多个频率子频带中的各自一个相关联,所述编码器还包括用于对与交替频率子频带有关的频率线求反的装置。
24.一种对包括多个数据采样的输入信号进行编码的方法,所述方法包括:对所述数据采样施加一种或多种类型的窗口函数以产生多个窗口化数据采样;对窗口化数据采样执行一个或多个改进的离散余弦变换(MDCT)以产生多个频率线的粒度;编码并量化每个粒度以产生MPEG-1层III类型的数据信号;其中就至少第一种类型的窗口函数而言,在关于其产生各自的粒度的所述接收的数据信号的所有窗口化数据采样上执行单个MDCT。
25.一种用于编码和解码数据信号的系统,所述系统包括如权利要求17所述的编码器和如权利要求1所述的解码器。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP03104535 | 2003-12-04 | ||
| EP03104535.4 | 2003-12-04 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN1890712A true CN1890712A (zh) | 2007-01-03 |
Family
ID=34639327
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CNA200480035931XA Pending CN1890712A (zh) | 2003-12-04 | 2004-11-30 | 音频信号编码 |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP1692686A1 (zh) |
| JP (1) | JP2007515672A (zh) |
| KR (1) | KR20060131767A (zh) |
| CN (1) | CN1890712A (zh) |
| WO (1) | WO2005055203A1 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102243872A (zh) * | 2010-05-10 | 2011-11-16 | 炬力集成电路设计有限公司 | 对音频数字信号进行编码、解码的方法及系统 |
| CN114255768A (zh) * | 2015-06-16 | 2022-03-29 | 弗劳恩霍夫应用研究促进协会 | 用于缩减解码的方法和音频解码器 |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN100486332C (zh) * | 2005-11-17 | 2009-05-06 | 广达电脑股份有限公司 | 合成子频带滤波的方法及装置 |
| US9552818B2 (en) | 2012-06-14 | 2017-01-24 | Dolby International Ab | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels |
| EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
| JP7385531B2 (ja) * | 2020-06-17 | 2023-11-22 | Toa株式会社 | 音響通信システム、音響送信装置、音響受信装置、プログラムおよび音響信号送信方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE60118800T2 (de) * | 2001-06-08 | 2007-04-26 | Stmicroelectronics Asia Pacific Pte Ltd. | Einheitsfilterbank zur Audiocodierung |
-
2004
- 2004-11-30 JP JP2006542091A patent/JP2007515672A/ja active Pending
- 2004-11-30 EP EP04799284A patent/EP1692686A1/en not_active Withdrawn
- 2004-11-30 KR KR1020067010745A patent/KR20060131767A/ko not_active Withdrawn
- 2004-11-30 WO PCT/IB2004/052602 patent/WO2005055203A1/en not_active Ceased
- 2004-11-30 CN CNA200480035931XA patent/CN1890712A/zh active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102243872A (zh) * | 2010-05-10 | 2011-11-16 | 炬力集成电路设计有限公司 | 对音频数字信号进行编码、解码的方法及系统 |
| CN114255768A (zh) * | 2015-06-16 | 2022-03-29 | 弗劳恩霍夫应用研究促进协会 | 用于缩减解码的方法和音频解码器 |
| US12154580B2 (en) | 2015-06-16 | 2024-11-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
| US12154579B2 (en) | 2015-06-16 | 2024-11-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
| US12159638B2 (en) | 2015-06-16 | 2024-12-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
| US12165662B2 (en) | 2015-06-16 | 2024-12-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
Also Published As
| Publication number | Publication date |
|---|---|
| EP1692686A1 (en) | 2006-08-23 |
| KR20060131767A (ko) | 2006-12-20 |
| WO2005055203A1 (en) | 2005-06-16 |
| JP2007515672A (ja) | 2007-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1258172C (zh) | 对音频信号进行编码及解码的装置和方法 | |
| CN101878504B (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
| CN1914669A (zh) | 使用复数值数据的音频信号解码 | |
| CN1675683A (zh) | 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法 | |
| US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
| JP6144773B2 (ja) | 時間雑音/パッチ整形を用いる符号化オーディオ信号の符号化および復号化装置および方法 | |
| JP5400143B2 (ja) | オーバーラッピング変換の2つのブロック変換への因数分解 | |
| CN110047500B (zh) | 音频编码器、音频译码器及其方法 | |
| US9037454B2 (en) | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT) | |
| CN1813286A (zh) | 使用广义感觉相似性对数字介质光谱数据的有效编码 | |
| EP2028648A2 (en) | Multi-channel audio encoding and decoding | |
| CN1926609A (zh) | 用于信号分析和合成的自适应混合变换 | |
| CN101053019A (zh) | 使用复值滤波器组的音频信号的编码和解码 | |
| EP2261897A1 (en) | Quantization and inverse quantization for audio | |
| CN1662958A (zh) | 使用频谱孔填充的音频编码系统 | |
| CN1806239A (zh) | 用于转换为变换表示或对变换表示进行反转换的设备和方法 | |
| CN1310210C (zh) | 使用解码信号的特征适配合成频谱分量的音频编码系统 | |
| CN1669072A (zh) | 低比特速率音频编码 | |
| CN1552060A (zh) | 通过降低前噪声改善低比特速率音频编码系统的瞬时性能 | |
| CN1708787A (zh) | 用于使用高级心理声学模型来对数字音频编码的方法及其设备 | |
| US20040220805A1 (en) | Method and device for processing time-discrete audio sampled values | |
| JP2007507790A (ja) | 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号を変換する方法 | |
| JPWO2009125588A1 (ja) | 符号化装置および符号化方法 | |
| CN1890712A (zh) | 音频信号编码 | |
| CN1460992A (zh) | 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070103 |