HK1048555B - 高质量音频的可缩放编码方法 - Google Patents
高质量音频的可缩放编码方法 Download PDFInfo
- Publication number
- HK1048555B HK1048555B HK03100604.5A HK03100604A HK1048555B HK 1048555 B HK1048555 B HK 1048555B HK 03100604 A HK03100604 A HK 03100604A HK 1048555 B HK1048555 B HK 1048555B
- Authority
- HK
- Hong Kong
- Prior art keywords
- signal
- data
- core layer
- encoded
- subband
- Prior art date
Links
Description
技术领域
本发明涉及音频编码和解码,更具体地说,涉及可缩放地把音频数据编译到标准数据通道的若干层中以及可缩放地从标准数据通道中译解音频数据。
背景技术
部分由于过去二十年内只读光盘(CD)技术的广泛商业成功,16位脉码调制(PCM)已成为录制音频的发行和重放的行业标准。在这二十年内的大部分时间中,音频行业吹捧只读光盘提供优于乙烯树脂唱片和盒式磁带的音质,并且许多人认为增大音频分辨率,使之超出利用16位PCM能够获得的音频分辨率,几乎不能获得可感觉到的有益效果。
在最近几年里,由于各种原因,这种信念受到挑战。对于所有乐音的无噪声再现来说,16位PCM的动态范围过于有限。当音频被量化成16位PCM时,微妙的细节被丢失。此外,这种看法不能考虑降低量化分辨率,从而以降低信噪比和降低信号分辨率为代价提供额外的净空高度(headroom)的实践。由于这些利害关系的缘故,目前非常需要能够提供优于16位PCM的信号分辨率的音频处理。
目前还非常需要多通道音频。多通道音频提供音频的多个通道,和传统的单声道和立体声技术相比,这可改善再现声音的空间化。普通系统提供位于听场(listening field)前后的独立左右声道,并且还可提供中央声道和次低音声道(subwoofer channel)。近来的修改提供围绕听场的用于再现或合成不同类型的音频数据的空间间隔的许多音频通道。
知觉(perceptual)编码是相对于可比位速率的PCM信号,提高音频信号的感觉清晰度的多种技术中的一种。知觉编码通过消除被认为与主观音频质量的保持无关的信息,可降低编码信号的位速率,同时保持从编码信号恢复的主观音频质量。这可通过把音频信号分成频率分波段信号,并在引入低到可被解码信号本身掩蔽的量化噪声水平的量化分辨率下量化各个分波段信号来实现。在指定位速率的约束范围内,通过对更高分辨率的第二PCM信号进行知觉编码,把编码信号的位速率降低到和第一PCM信号的位速率基本相同,能够与指定分辨率的第一PCM信号相比,增大感知的信号分辨率。随后可使用这种编码形式的第二PCM信号替代第一PCM信号,并在重放时译解所述第二PCM信号。
知觉编码的一个例子具体体现于遵守在高级电视标准委员会(ATSC)A52文件(1994)中规定的公用ATSC AC-3位流规范的设备中。这种特殊的编码技术以及其它知觉编码技术具体体现于各种型式的Dolby Digitial编码器和解码器中。这些编码器和解码器可从California,San Francisco的Dolby Laboratories,Inc.购买。知觉编码技术的另一例子体现在遵守MPEG-1音频编码标准ISO 11172-3(1993)的设备中。
常规知觉编码技术的一个缺点是对于指定主观质量水平,知觉编码信号的位速率可能超过通信通道及存储介质的可用数据容量。例如,24位PCM音频信号的知觉编码会产生需要比16位宽数据通道所提供数据容量更大的数据容量的知觉编码信号。降低编码信号的位速率会降低可从编码信号再现的音频的主观质量。常规知觉编码技术的另一缺点是它们不支持译解单个知觉编码信号,从而不能在一个以上的主观质量水平条件下再现音频信号。
可缩放编码技术是一种能够提供各种解码质量的技术。可缩放编码使用一个或多个低分辨率编码中的数据以及扩充数据,提供音频信号的高分辨率编码。可在若干层中提供低分辨率编码和扩充数据。另外还特别需要可缩放的知觉编码,尤其是在解码阶段与市场上买得到的16位数字信号传送或存储装置向后兼容的可缩放知觉编码。
EP-A-0869622公开了两种可缩放编码技术。根据一种技术,输入信号被编码到核心层中,随后对编码信号进行解码,输入信号和解码信号之间的差别被编码到扩展层中。由于在编码器中执行一个或多个解码过程所需的资源的缘故,这种技术是不利的。根据另一种技术,输入信号被量化,代表一部分量化信号的二进制位被编码到核心层中,代表另一部分量化信号的二进制位被编码到扩展层中。由于这种技术不允许对于可缩放编码信号各层的输入信号应用不同的编码过程,因此这种技术也是不利的。
发明内容
公开了支持根据第一理想噪声频谱,把音频数据编码到数据通道的核心层中的可缩放音频编码。最好根据心理声学和数据容量标准确定第一理想噪声频谱。可根据另外的理想噪声频谱,把扩充数据编码到数据通道的一个或多个扩展层中。也可使用诸如常规的均匀量化之类的备选标准对扩充数据编码。
公开了只译解数据通道的核心层的系统和方法。另外还公开了既译解核心层又译解数据通道的一层或多层扩展层的系统和方法,和只译解核心层得到的音频质量相比,既译解核心层又译解扩展层的系统和方法提供更好的音频质量。
本发明的某些实施例应用于分波段信号。正如本领域中已知的那样,可以各种方式产生分波段信号,包括应用诸如正交镜象滤波器之类的数字滤波器,以及借助各种时域-频谱变换及子波变换。
本发明采用的数据通道最好具有遵守音频工程协会(AES)公布的标准AES3的一个16位宽的核心层和两个4位宽的扩展层。该标准也被美国国家标准学会(ANSI)称为ANSI S4.40。这里把这样一个数据通道称为标准AES3数据通道。
根据本发明各个方面的可缩放音频编码和解码可由分立逻辑组件,一个或多个ASIC,程控处理器实现,并且可由其它可从市场上买到的组件实现。这些组件的实现方式对本发明并不重要。优选实施例使用程控处理器,例如Motorola的DSP563xx系列数字信号处理器。用于这种实现的程序包括由机器可读介质,例如基带或调制通信路径和存储介质传送的指令。通信路径最好在从超声波频率到紫外线频率的频谱中。实际上任意磁或光记录技术都可用作存储介质,包括磁带、磁盘和光盘。
根据本发明的各个方面,根据本发明编码的音频信息可由这样的机器可读介质传送给路由器、解码器及其它处理器,并且可被这样的机器可读介质保存,以便稍后再发送、解码或进行其它处理。在优选实施例中,音频信息按照本发明编码,并存储到诸如光盘之类的机器可读介质上。最好按照各种帧和/或其它公开的数据结构格式化这种数据。随后解码器可读取存储的信息进行解码和重放。这种解码器不必包含编码功能。
根据本发明一方面的可缩放编码过程利用具有一个核心层和一个或多个扩展层的数据通道。接收若干分波段信号。根据第一理想噪声频谱确定各个分波段信号的相应第一量化分辨率,并按照相应的第一量化分辨率量化各个分波段信号,产生第一编码信号。根据第二理想噪声频谱确定各个分波段信号的相应第二量化分辨率,并按照相应的第二量化分辨率量化各个分波段信号,产生第二编码信号。产生指示第一编码信号和第二编码信号之间的残数的残数信号。第一编码信号被输出到核心层,残数信号被输出到扩展层。
根据本发明的另一方面,音频信号的编码过程使用具有若干层的标准数据通道。接收若干分波段信号。产生分波段信号的知觉编码和第二编码。产生指示相对于知觉编码的第二编码残数的残数信号。知觉编码被输出到数据通道的第一层中,残数信号被输出到数据通道的第二层中。
根据本发明的另一方面,标准数据通道的处理系统包括存储器和程控处理器。存储器包括按照本发明对音频信息编码的指令程序。程控处理器与存储器耦接,以便接收所述指令程序,并且还被耦接成接收若干分波段信号,以便进行处理。根据指令程序,程控处理器按照本发明处理分波段信号。在一个实施例中,这包括按照上面说明的可缩放编码过程,把第一编码或知觉编码信号输出到数据通道的一层中,把残数信号输出到数据通道的另一层中。
根据本发明的另一方面,数据处理方法使用具有包含音频信号的知觉编码的第一层和包含用于提高音频信号的知觉编码的分辨率的扩充数据的第二层的多层数据通道。根据该方法,通过数据通道接收音频信号的知觉编码和扩充数据。知觉编码被送给解码器或者其它处理器进行进一步的处理。在不考虑扩充数据的情况下,这可包括译解知觉编码产生第一解码信号。另一方面,扩充数据可被送到解码器或者其它处理器,并在所述解码器或者其它处理器与知觉编码组合产生第二编码信号,译解所述第二编码信号产生分辨率高于第一解码信号的第二解码信号。
根据本发明的另一方面,公开了处理多层数据通道上的数据的处理系统。多层数据通道具有包含音频信号的知觉编码的第一层和包含用于提高音频信号的知觉编码的分辨率的扩充数据的第二层。处理系统包括信号路由电路、存储器和程控处理器。信号路由电路通过数据通道接收知觉编码和扩充数据,并把知觉数据和可选的扩充数据送到程控处理器。存储器存储根据本发明处理音频信息的指令程序。程控处理器与信号路由电路耦合,以便接收知觉编码,程控处理器还与存储器耦合,以便接收指令程序。根据指令程序,程控处理器按照本发明处理知觉编码及可选的扩充数据。在一个实施例中,这包括如上所述的一层或多层信息的路由和解码。
根据本发明的另一方面,机器可读介质包含按照本发明执行编码过程的机器可执行的指令程序。根据本发明的另一方面,机器可读介质包含根据本发明执行路由和/或译解多层数据通道所携带的数据的方法的机器可执行的指令程序。前面及在下面的详细说明中公开了这种编码、路由和解码的例子。根据本发明的另一例子,机器可读介质包含根据本发明编码的编码音频信息,例如按照公开的过程或方法处理的任意信息。
根据本发明的另一方面,提供一种利用具有一层核心层和一层扩展层的标准数据通道的可缩放解码过程,所述过程包括:从核心层获取第一控制数据,从扩展数据获取第二控制数据;根据第一控制数据处理核心层,获得通过根据按照第一理想噪声频谱确定的相应第一量化分辨率量化分波段信号产生的第一编码信号;根据第二控制数据处理扩展层,获得指示第一编码信号和通过根据按照第二理想噪声频谱确定的相应第二量化分辨率量化分波段信号产生的第二编码信号间的残数的残数信号;根据第一控制数据译解第一编码信号,获得按照第一量化分辨率量化的若干第一分波段信号;通过组合所述若干第一分波段信号和所述残数信号,获得按照第二量化分辨率量化的若干第二分波段信号;和输出所述若干第二分波段信号。
根据本发明的另一方面,可以各种方式实现本发明的编码和解码过程。例如,可由诸如可编程数字信号处理器或计算机处理器之类机器执行,从而实现这种过程的指令程序可由机器可读的介质传送,机器可读取所述介质,获得所述程序,并且根据所述程序执行这样的过程。通过只借助所述介质传送相应的程序材料,机器可专用于只执行一部分的这种过程。
结合附图,参考下面的说明将更好地理解本发明的各种特征及其优选实施例,附图中,相同的附图标记代表相同的部分。下述说明的内容及附图仅仅是作为本发明的例子给出的,不应被理解为代表对本发明的范围的限制。
附图说明
图1A是对音频信号进行编码和/或解码的处理系统的示意方框图,所述处理系统包括专用数字信号处理器。
图1B是对音频信号编码和/或解码的计算机实现的系统的示意图。
图2A是按照心理声学原理和数据容量标准对音频通道编码的过程的流程图。
图2B是包含一连串帧的数据通道的示意图,每一帧包括一连串的字,每个字的宽度为16位。
图3A是包括组织成多帧、多段和多部分的若干层的可缩放数据通道的示意图。
图3B是可缩放数据通道的帧的示意图。
图4A是可缩放编码过程的流程图。
图4B是确定图4A中图解说明的可缩放编码过程的恰当量化分辨率的过程的流程图。
图5是图解说明可缩放解码过程的流程图。
图6A是可缩放数据通道的帧的示意图。
图6B是图6A中图解说明的音频段和音频扩充段的优选结构的示意图。
图6C是图6A中图解说明的元数据段的优选结构的示意图。
图6D是图6A中图解说明的元数据扩充段的优选结构的示意图。
具体实施方式
本发明涉及音频数据的可缩放编码。可缩放编码使用具有若干层的数据通道。所述若干层包括携带按照第一分辨率(resolution)表示音频信号的数据的核心层和一个或多个携带与核心层中携带的数据相结合,按照更高分辨率表示音频信号的数据的扩展层。本发明可应用于音频分波段信号。每个分波段信号一般代表音频频谱的一个频带。这些频带可相互重叠。每个分波段信号一般包含一个或多个分波段信号单元。
可利用各种技术产生分波段信号。一种技术是对音频数据应用频谱变换,在谱域中产生分波段信号单元。一个或多个相邻的分波段信号单元可被组合成组,形成分波段信号。形成指定分波段信号的分波段信号单元的数目及身份可预先确定,或者可以被编码的音频数据的特征为基础。适宜的频谱变换的例子包括离散傅里叶变换(DFT)和包括有时称为时域假信号消除(TDAC)变换的特殊的改进离散余弦变换(MDCT)的各种离散余弦变换(DCT)。在Princen,Johnson和Bradley的“Subband/TransformCoding Using Filter Bank Designs Based On Time Domain AliasingCancellation”,
Proc.Int.Conf.Acoust,Speech,and Signal Proc.,pp.2161-2164,1987年5月中说明了时域假信号消除(TDAC)变换。产生分波段信号的另一种技术是把一组串联的正交镜象滤波器(QMF)或者其它一些带通滤波器应用于音频数据,产生分波段信号。虽然实现方法的选择对编码系统的性能具有深远的影响,但是在原理上,对于本发明来说,不存在任何重要的特殊实现方法。
这里术语“分波段”被用于表示音频信号的一部分带宽。术语“分波段信号”被用于表示代表分波段的信号。术语“分波段信号单元”被用于表示分波段信号的单元或组分。例如,在使用频谱变换的实现中,分波段信号单元是变换系数。出于简便起见,这里把分波段信号的产生称为分波段滤波,而不管是通过应用频谱变换还是其它类型的滤波器实现这种信号产生的。这里,滤波器本身被称为滤波器组,或者更特别地被称为分析滤波器组。按照常规的方式,合成滤波器组与分析滤波器组相反或者基本相反。
可提供纠错信息,以便检测根据本发明处理的数据中的一个或多个错误。错误可产生于,例如这种数据的传输或缓冲过程中,在重放数据之前检测错误并恰当地校正数据通常都是有益的。术语“纠错”指的是任意错误检测和/或校正方案,例如奇偶校验位、循环冗余码、检查和和Reed-Solomon码。
现在参考图1A,图中示意表示了根据本发明的对音频数据编码和解码的处理系统100的一个实施例的方框图。处理系统100包括按照常规方式由总线116互连的程控处理器110、只读存储器120、随机存取存储器130和音频输入/输出接口140。程控处理器110是可从Motorola买到的DSP563xx型数字信号处理器。只读存储器120和随机存取存储器130具有常规的设计。只读存储器120存储有指令程序,允许程控处理器110如同参考图2A-7D说明的那样执行分析和合成功能,以及处理音频信号。当处理系统100处于掉电状态时,程序原样保存在只读存储器120中。根据本发明,实际也可用任意磁或光记录技术,例如使用磁带、磁盘或光盘的那些磁或光记录技术代替只读存储器120。随机存取存储器130按照常规方式为程控处理器110缓冲指令和数据,包括接收的和处理的信号。音频输入/输出接口140包括把一层或多层接收信号送到其它组件,例如程控处理器110的信号路由电路。信号路由电路可包括输入和输出信号的独立端子,或者可使用相同端子进行输入和输出。通过忽略合成和解码指令,处理系统100可专用于编码,另一方面,通过忽略分析和编码指令,处理系统100也可专用于解码。处理系统100是适于实现本发明的典型处理操作的代表,并不是用来描述本发明的特殊硬件实现。
为了进行编码,程控处理器110从只读存储器120获取编码指令程序。在音频输入/输出接口140,音频信号被提供给处理器100,并且被送给程控处理器110以便进行编码。响应编码指令程序,分析滤波器组对音频信号滤波,产生分波段信号,并且分波段信号被编码,从而产生编码信号。编码信号通过音频输入/输出接口140被提供给其它器件,或者被存储在随机存取存储器130中。
为了进行解码,程控处理器110从只读存储器120获取解码指令程序。最好已按照本发明编码的音频信号在音频输入/输出接口140被提供给处理系统100,并且被送给程控处理器110以便进行解码。响应解码指令程序,译解音频信号,获得相应的分波段信号,并且分波段信号被合成滤波器组过滤,从而获得输出信号。输出信号通过音频输入/输出接口140被提供给其它器件,或者被存储在随机存取存储器130中。
现在参见图1B,图中表示了根据本发明用于对音频信号编码和解码的计算机实现的系统150的一个实施例的示意方框图。计算机实现的系统150包括由总线158按照常规方式互连的中央处理器152、随机存取存储器153、硬盘154、输入装置155、端子156和输出装置157。中央处理器152最好包括支持实现浮点算术处理的硬件,并且可以是,例如可从CaliforniaSanta Clara的Intel公司购买的微处理器。音频信息通过端子156被提供给计算机实现的系统150,并被送给中央处理器152。存储在硬盘154上的指令程序允许计算机实现的系统150按照本发明处理音频数据。处理后的呈数字形式的音频数据随后通过端子被提供156,或者被记录并存储在硬盘154中。
可以预料本发明的处理系统100、计算机实现的系统150及其它实施例将用在可能既包括音频处理又包括视频处理的应用中。典型的视频应用会使其操作与视频时钟信号和音频时钟信号同步。视频时钟信号向视频帧提供同步基准。视频时钟信号可向NFSC、PAL帧或者ATSC视频信号提供基准。音频时钟信号向音频样本提供同步基准。时钟信号可具有任意频率。例如,在专业应用中,48kHZ是常见的音频时钟频率。对于实践本发明来说,不存在特别重要的时钟信号或时钟信号频率。
现在参见图2A,图中表示了按照心理声学及数据容量标准,把音频数据编码到数据通道中的过程200的流程图。另外还参见图2B,图中表示了数据通道250的方框图。数据通道250包括一系列帧260,每一帧260包括一系列的字。每个字被表示为一系列的位(n),这里n是介于0和15之间的整数(包括0和15),并且符号位(n~m)表示字的位(n)~位(m)。每一帧260包括控制段270和音频段280,控制段270和音频段280均包含相应整数数量的帧260的字。
在步骤210,接收代表音频信号的第一数据块的若干分波段信号。每个分波段信号包含一个或多个分波段单元,每个分波段单元由一个字代表。在步骤212,分析分波段信号,确定听觉掩蔽曲线。听觉掩蔽曲线指出在听不见的情况下,可注入各个相应分波段中的噪声的最大量。在这方面,什么是听得见的是以人类听力的心理声学模型为基础的,并且可能涉及分波段信号代表多个音频通道的交叉通道掩蔽特性。听觉掩蔽曲线用作理想噪声频谱的第一估计。在步骤214,分析理想的噪声频谱,确定各个分波段信号的相应量化分辨率,以致当据此量化分波段信号,并且随后对分波段信号解量化并将其转换成声波时,所得到的编码噪声在理想噪声频谱之下。在步骤216确定据此量化的分波段信号是否能够在音频段280的范围内,并且基本填满音频段280。如果否,则在步骤218调整理想噪声频谱,并重复步骤214、216。如果是,则在步骤220据此量化分波段信号,并在步骤222把分波段信号输入音频段280。
为帧260的控制段270产生控制数据。这包括输出到控制段270的第一字272中的同步模式。同步模式使解码器能够与数据通道250中的连续帧260同步。指示帧260的帧速率,段270的边界,编码操作的参数及检错信息的辅助控制数据被输出到控制段270的剩余部分274中。对于音频信号的各个数据块重复该过程,同时每个顺序数据块最好被编码到数据通道250的相应顺序帧260中。
过程200可用于把数据编码到多层音频通道的一层或多层中。在按照过程200对一层以上的多层编码的情况下,这些层中携带的数据之间可能存在大致的相关性,因此显著浪费了多层音频通道的数据容量。下面说明把扩充数据编码输出到数据通道的第二层中,从而提高这种数据通道的第一层中携带的数据的分辨率的可缩放过程。分辨率的提高最好可以表述为第一层的编码参数的功能关系,例如当被应用于用于对第一层编码的理想噪声频谱时,产生用于对第二层编码的理想噪声频谱的偏移量。随后这种偏移量可被输出到数据通道的确定位置,例如在第二层的某一字段或分段中,向解码器指出提高的数值。所述提高数值随后可用于确定第二层中每个分波段信号单元或与之相关的信息的位置。接下来说明的是用于据此组织可缩放数据通道的帧结构。
现在参见图3A,图中表示了包括核心层310、第一扩展层320和第二扩展层330的可缩放数据通道300的一个实施例的示意图。核心层310的宽度为L位,第一扩展层320的宽度为M位,第二扩展层330的宽度为N位,L、M、N为正整数。核心层310包括一序列的L位字。核心层310和第一扩展层320的组合包括一系列的(L+N)位字,核心层310、第一扩展层320和第二扩展层330的组合包括一系列的(L+M+N)位字。这里符号(n~m)用于表示字的位(n)~位(m),这里n和m是整数,并且m>n,并且m、n可以介于0~23之间(含0和23)。可缩放的数据通道300可以是,例如L、M、N分别等于16、4和4的24位宽的标准AES3数据通道。
根据本发明,可缩放的数据通道300可被组织成一系列的帧340。各帧340被分离成控制段350和跟随其后的音频段360。控制段350包括由控制段350与核心层310的交集确定的核心层部分352,由控制段350与第一扩展层320的交集确定的第一扩展层部分354,以及由控制段350与第二扩展层330的交集确定的第二扩展层部分356。音频段360包括第一子段和第二子段370、380。第一子段370包括由第一子段370与核心层310的交集确定的核心层部分372,由第一子段370与第一扩展层320的交集确定的第一扩展层部分374,以及由第一子段370与第二扩展层330的交集确定的第二扩展层部分376。类似地,第二子段380包括由第二子段380与核心层310的交集确定的核心层部分382,由第二子段380与第一扩展层320的交集确定的第一扩展层部分384,以及由第二子段380与第二扩展层330的交集确定的第二扩展层部分386。
本实施例中,核心层部分372、382携带按照心理声学标准压缩的编码音频数据,从而编码音频数据在核心层310的范围内。以编码过程的输入的形式提供的音频数据可包括,例如均由宽度为P位的字表示的分波段信号单元,整数P大于L。随后可应用心理声学原理把分波段信号单元编码成平均宽度约为L位的编码值或“符号”。从而分波段信号单元占据的数据体积被显著压缩,从而可以通过核心层310便利地传输分波段信号。编码操作最好与L位宽数据通道上音频数据的常规音频传输标准一致,以致可按照常规方式译解核心层310。第一扩展层部分374、384携带扩充数据,所述扩充数据可与核心层310中的编码信息结合使用,恢复与只根据核心层310中的编码信息恢复的音频信号相比,分辨率更高的音频信号。第二扩展层部分376、386携带辅助扩充数据,所述辅助扩充数据可与核心层310及第一扩展层320中的编码信息结合使用,恢复与只根据核心层310和第一扩展层320的结合体中携带的编码信息恢复的音频信号相比,分辨率更高的音频信号。本例中,第一子段370携带左声道CH_L的编码音频数据,第二子段380携带右声道CH_R的编码音频数据。
控制段350的核心层部分352携带用于控制解码过程的操作的控制数据。这种控制数据可包括指示帧340的起始位置的同步数据,指示程序结构(program configuration)和帧速率的格式数据,指示帧340中段及子段的边界的段数据,指示编码操作参数的参数数据,以及保护核心层部分352中的数据的检错信息。最好在核心层部分352中为每种控制数据设置预定或确定的位置,从而允许解码器从核心层部分352中快速解析每种控制数据。根据本实施例,译解和处理核心层310所必不可少的所有控制数据都包含在核心层部分352中。这允许例如由信号路由电路剥离或丢弃扩展层320、330,而不会损失基本控制数据,从而支持与被设计成接收格式化成L位字的数据兼容的数字信号处理器。根据本实施例,扩展层320、330的辅助控制数据可包含在扩展层部分354中。
在控制段350中,层310、320、330都最好携带用于译解音频段360中编码音频数据的相应部分的参数及其它信息。例如,核心层部分352可携带听觉掩蔽曲线的偏移量,所述听觉掩蔽曲线产生用于把信息知觉编码到核心层部分372、382中的第一理想噪声频谱。类似地,第一扩展层部分354可携带第一理想噪声频谱的偏移量,所述第一理想噪声频谱产生用于把信息编码到扩展层部分374、384中的第二理想噪声频谱,第二扩展层部分356可携带第二理想噪声频谱的偏移量,所述第二理想噪声频谱产生用于把信息编码到第二扩展层部分376、386中的第三理想噪声频谱。
现在参见图3B,图中表示了可缩放数据通道300的备选帧390的示意图。帧390包括帧340的控制段350和音频段360。在帧390中,控制段350还包括分别位于核心层310、第一扩展层320及第二扩展层330中的字段392、394和396。
字段392携带指出扩充数据的组织的标记。根据第一标记值,按照预定的结构组织扩充数据。所述预定结构最好是帧340的结构,以便用于左声道CH_L的扩充数据包含在第一子段370中,用于右声道CH_R的扩充数据包含在第二子段380中。这里把其中各个通道的核心及扩充数据包含在同一子段中的结构称为校准结构(aligned configuration)。根据第二标记值,扩充数据以自适应方式分布在扩展层320、330中,字段394、396分别包含各个相应音频通道的扩充数据包含在何处的指示。
字段392的大小最好足以包含用于控制段350的核心层部分352中的数据的检错码。由于这种控制数据控制核心层310的解码操作,因此保护这种控制数据是最好不过的。另一方面,字段392可包含保护音频段360的核心层部分372、382的检错码。不需要为扩展层320、330中的数据提供任何检错,因为一般来说在核心层310的宽度L足够的情况下,这种错误的效果几乎是不能感觉到的。例如,在核心层310被知觉(perceptually)编码成16位字深度(depth)的情况下,扩充数据主要提供微妙的细节,一般来说,解码和重放时,扩充数据中的错误是难以听见的。
字段394、396可分别包含一个检错码。所述检错码分别为扩展层320、330提供保护,所述检错码分别包含在扩展层320、330中。这最好包括控制数据的错误检测,不过也可包括音频数据的错误检测,或者同时包括控制数据及音频数据的错误检测。可为扩展层320、330分别规定两种不同的检错码。第一检错码规定按照预定的结构,例如帧340的结构组织相应扩展层的扩充数据。各层的第二检错码规定相应层的扩充数据分布在相应层中,并且规定指针包含在控制段350中以指示该扩充数据的位置。扩充数据最好和核心层310中的相应数据一样,位于数据通道300的相同帧390中。预定结构可用于组织某一扩展层及指针,从而组织另一扩展层及其它指针。检错码也可以是纠错码。
现在参见图4A,图中表示了根据本发明的可缩放编码过程400的实施例的流程图。该实施例使用图3A中所示的数据通道300的核心层310和第一扩展层320。在步骤402接收若干分波段信号,每个分波段信号包含一个或多个分波段信号单元。在步骤404,响应第一理想噪声频谱,确定各个分波段信号的相应第一量化分辨率。根据心理声学原理,并且最好还根据核心层310的数据容量要求,确定第一理想噪声频谱。这种要求可以是,例如核心层部分372、382的总数据容量极限。按照相应的第一量化分辨率量化分波段信号,产生第一编码信号。在步骤406,第一编码信号被输出到音频段360的核心层部分372、382中。
在步骤408,确定各个分波段信号的相应第二量化分辨率。最好根据核心层和第一扩展层310、320的结合体的数据容量要求,并且最好还根据心理声学原理确定第二量化分辨率。该数据容量要求可以是,例如核心层部分和第一扩展层部分372、374的结合体的总数据容量极限。按照相应的第二量化分辨率量化分波段信号,产生第二编码信号。在步骤410产生传送第一和第二编码信号间的某些残数量度(measure)或差别的第一残数信号。这最好是通过按照二进制补码或者其它形式的二进制算术运算,从第二编码信号中减去第一编码信号来实现。在步骤412,第一残数信号被输出到音频段360的第一扩展层部分374、384中。
在步骤414,确定相应分波段信号的第三量化分辨率。最好根据层310、320、330的结合体的数据容量,确定第三量化分辨率。另外最好还使用心理声学原理确定第三量化分辨率。按照相应的第三量化分辨率量化分波段信号,产生第三编码信号。在步骤416产生传送第二编码信号和第三编码信号之间的某些残数量度或差别的第二残数信号。最好通过形成第二编码信号和第三编码信号之间的二进制补码(或者其它二进制算术)差别产生第二残数信号。另一方面可产生传送第一编码信号和第三编码信号之间的残数量度或差别的第二残数信号。在步骤418,第二残数信号被输出到音频360的第二扩展层部分376、386中。
在步骤404、408、414中,当分波段信号包括一个以上的分波段信号单元时,按照特定分辨率的分波段信号的量化可包括按照特定分辨率统一量化分波段信号的各个单元。从而,如果某一分波段信号(ss)包括三个分波段信号单元(se1,se2,se3),则可通过按照量化分辨率Q,统一量化分波段信号的各个分波段信号单元,按照该量化分辨率Q量化该分波段信号。量化分波段信号可被记录为Q(ss),量化分波段信号单元可被记录为Q(se1)、Q(se2)、Q(se3)。这样,量化分波段信号Q(ss)包括量化分波段信号单元Q(se1)、Q(se2)、Q(se3)的集合。识别相对于基点许可的分波段信号单元的量化范围的编码范围可被规定为编码参数。基点最好是能够产生基本上和听觉掩蔽曲线相符的注入噪声(injectednoise)的量化水平。相对于听觉掩蔽曲线,编码范围可以介于,例如滤除噪声的约144分贝~注入噪声的约48分贝之间,或者简而言之,介于-148dB~+48dB之间。
在本发明的一个备选实施例中,按照特定的量化分辨率Q平均量化同一分波段信号内的分波段信号单元,但是按照不同的分辨率非均匀地量化单独的分波段信号单元。在本发明的又一个提供分波段内非均匀量化的实施例中,增益自适应量化技术按照特定的量化分辨率Q量化相同分波段内非均匀量化的实施例中,增益自适应量化技术按照特定的量化分辨率Q量化相同分波段内的某些分波段信号单元,并按照可能比分辨率Q更细微或更粗略某一可确定量值的不同分辨率,量化该分波段中的其它分波段信号单元。在Davidson等于1999年7月7日申请的专利申请“ UsingGain-Adaptive Quantization and Non-Uniform Symbol Lengths forImproved Audio Coding”中公开了在相应分波段内执行非均匀量化的优选方法。
在步骤402,接收的分波段信号最好包括一组代表左声道CH_L的左分波段信号SS_L和一组代表右声道CH_R的右分波段信号SS_R。这些声道可以是一对立体声声道,或者可以彼此基本无关。最好利用一对理想噪声频谱进行音频信号通道CH_L、CH_R的知觉编码,一个噪声频谱用于声道CH_L、CH_R之一。这样可在与组SS_R的相应分波段信号不同的分辨率下量化组SS_L的分波段信号。通过考虑交叉通道掩蔽效应,一个音频通道的理想噪声频谱会受到其它通道的信号内容的影响。在优选实施例中,交叉通道掩蔽效应被忽略。
如下所述根据分波段信号SS_L的听觉掩蔽特征,另外还可根据分波段信号SS_R的交叉通道掩蔽特征,以及诸如核心层部分372的可用数据容量之类的可选标准,确定左声道CH_L的第一理想噪声频谱。分析左分波段信号SS_L,并且还可分析右分波段信号SS_R,确定左声道CH_L的听觉掩蔽曲线AMC_L。听觉掩蔽曲线指出在听不见的情况下,可注入左声道CH_L的各个相应分波段中的最大噪声量。在这方面,听得见的标准是以人类听力的心理声学模型为基础确定的,并且可以涉及右声道CH_R的交叉通道掩蔽特征。听觉掩蔽曲线AMC_L用作左声道CH_L的第一理想噪声频谱的初始值,分析所述第一理想噪声频谱初始值,确定组SS_L的各个分波段信号的相应量化分辨率Q1_L,以致当根据Q1_L(SS_L)量化组SS_L的分波段信号,并且随后解量化并将其转换成声波时,所得到的编码噪声是听不见的。为了清楚起见,注意术语Q1_L指的是一组量化分辨率,对于分波段信号组SS_L中的各个分波段信号ss,该组量化分辨率具有相应的值Q1_LSS。要明白的是符号Q1_L(SS_L)意味着按照相应的量化分辨率量化组SS_L中的各个分波段信号。可如上所述均匀或者非均匀地量化各个分波段信号内的分波段信号单元。
按照类似的方式,分析右分波段信号SS_R,最好还分析左分波段信号SS_L,产生右声道CH_R的听觉掩蔽曲线AMC_R。听觉掩蔽曲线AMC_R可用作右声道CH_R的初始第一理想噪声频谱,分析所述初始第一理想噪声频谱,确定组SS_R的各个分波段信号的相应量化分辨率Q1_R。
现在参见图4B,图中表示了根据本发明确定量化分辨率的过程的流程图。过程420可用于,例如找出用于根据过程400对各层进行编码的适当量化分辨率。下面将关于左声道CH_L说明过程420,按照类似的方式处理右声道CH_R。
在步骤422把第一理想噪声频谱FDNS_L的初始值设置为等于听觉掩蔽曲线AMC_L。在步骤424确定组SS_L的各个分波段信号的相应量化分辨率,以便据此量化这些分波段信号,随后进行解量化并将其转换成声波,因此而产生的任何量化噪声基本上与第一理想噪声频谱FDNS_L相符。在步骤426,确定据此量化的分波段信号是否满足核心层310的数据容量要求。在过程420的本实施例中,数据容量要求被规定为据此量化的分波段信号是否放入核心层部分372中并且基本用尽核心层部分372的数据容量。根据步骤426中的否定确定,在步骤428调整第一理想噪声频谱FDNS_L。调整包括移动第一理想噪声频谱FDNS_L,所述移动的移动量在左声道CH_L的分波段内最好基本相同。在步骤426的确定结果为据此量化的分波段信号未被放入核心层部分372中的情况下,向上移动,这对应于更粗的分辨率。在步骤426的确定结果为据此量化的分波段信号放入核心层372中的情况下,向下移动,这对应于更精细的量化。第一次移动的移动量最好等于沿移动方向到编码范围的极值的剩余距离的大约一半。从而,在编码范围被规定为-144dB~+48dB的情况下,第一次移动可包括,例如向上移动FDNS_L约24dB。随后每次移动的移动量最好约为前一次移动量的一半。一旦在步骤428调整第一理想噪声频谱FDNS_L,则重复步骤424和426。当在执行步骤426中产生肯定确定时,在步骤430终止过程420,并且认为确定的量化分辨率Q1_L是合适的。
按照确定的量化分辨率Q1_L量化组SS_L的分波段信号,产生量化分波段信号Q1_L(SS_L)。量化分波段信号Q1_L(SS_L)用作左声道CH_L的第一编码信号FCS_L。可按照预先确定的任意顺序,例如依据分波段信号单元的频谱频率递增顺序方便地把量化分波段信号Q1_L(SS_L)输出到核心层部分372中。这样,在给定核心层310的核心层部分372的数据容量的情况下,在量分分波段信号Q1_L(SS_L)间分配核心层部分372的数据容量是以掩藏尽可能多的量化噪声为基础的。按照相似的方式处理右声道CH_R的分波段信号SS_R,产生右声道CH_R的第一编码信号FCS_R,所述第一编码信号FCS_R被输出到核心层部分382中。
如下所述按照过程420确定用于对第一扩展层部分374编码的适当量化分辨率Q2_L。在步骤422,把左声道CH_L的第二理想噪声频谱SDNS_L的初始值设定为等于第一理想噪声频谱FDNS_L。分析第二理想噪声频谱SDNS_L,确定组SS_L的各个分波段信号ss的相应第二量化分辨率Q2_LSS,以致在按照Q2_L(SS_L)量化组SS_L的分波段信号,并且随后进行解量化并将其转换成声波的情况下,所得到的量化噪声基本上与第二理想噪声频谱SDNS_L相符。在步骤426,确定据此量化的分波段信号是否满足第一扩展层320的数据容量要求。在过程420的本实施例中,数据容量要求被规定为残数信号是否放入第一扩展层部分374中,并基本用尽第一扩展层部分374的数据容量。残数信号被规定为据此确定的量化分波段信号Q2_L(SS_L)和为核心层部分372确定的量化分波段信号Q1_L(SS_L)之间的残数量度或差别。
响应步骤426中的否定确定,在步骤428调整第二理想噪声频谱SDNS_L。调整包括移动第二理想噪声频谱SDNS_L,所述移动的移动量在左声道CH_L的分波段内最好基本相同。在步骤426的残数信号未被放入第一扩展层部分372中的情况下,向上移动,否则向下移动。第一次移动的移动量最好等于沿移动方向到编码范围的极值的剩余距离的大约一半。随后每次移动的移动量最好约为前一次移动量的一半。一旦在步骤428调整第二理想噪声频谱SDNS_L,则重复步骤424和426。当在执行步骤426中产生肯定确定时,在步骤430终止过程420,并且认为确定的量化分辨率Q2_L是合适的。
按照确定的量化分辨率Q2_L量化组SS_L的分波段信号,产生相应的量化分波段信号Q2_L(SS_L),量化分波段信号Q2_L(SS_L)用作左声道CH_L的第二编码信号SCS_L。产生用于左声道CH_L的相应的第一残数信号FRS_L。优选方法是形成各个分波段信号单元的残数(residue),并通过按照预定的顺序,例如按照分波段信号单元的频率递增顺序,把这些残数的二进制位表示输出到第一扩展层部分374中。这样,在给定第一扩展层320的第一扩展层部分374的数据容量的情况下,在量化分波段信号Q2_L(SS_L)间分配第一扩展层部分374的数据容量是以掩藏尽可能多的量化噪声为基础的。按照相似的方式处理右声道CH_R的分波段信号SS_R,产生右声道CH_R的第二编码信号SCS_R和第一残数信号FRS_R。右声道CH_R的所述第一残数信号FRS_R被输出到第一扩展层部分384中。
可并行确定量化分波段信号Q2_L(SS_L)和Q1_L(SS_L)。最好通过把左声道CH_L的第二理想噪声频谱SDNS_L设置成等于听觉掩蔽曲线AMC_L或者不依赖于所确定的用于对核心层编码的第一理想噪声频谱FDNS_L的其它规范,实现这种并行确定。数据容量要求被规定为据此量化的分波段信号Q2_L(SS_L)是否会放入核心层部分372和第一扩展层部分374的结合体,并基本用尽所述结合体的数据容量。
就象对于第二理想噪声频谱那样,得到音频通道CH_L的第三理想噪声频谱的初始值,并且应用过程420,得到相应的第三量化分辨率Q3_L。据此量化的分波段信号Q3_L(SS_L)用作左声道CH_L的第三编码信号TCS_L。随后可按照类似于第一扩展层的方式产生左声道CH_L的第二残数信号SRS_L。但是在这种情况下,通过从第二编码信号SCS_L中的相应分波段信号单元中减去第三编码信号TCS_L中的分波段信号单元,得到所述残数信号。第二残数信号SRS_L被输出到第二扩展层部分376中。按照相似的方式处理右声道CH_R的分波段信号SS_R,产生右声道CH_R的第三编码信号TCS_R和第二残数信号SRS_R。右声道CH_R的第二残数信号SRS_R被输出到第二扩展层部分386中。
为核心层部分352产生控制数据。一般来说,控制数据允许解码器与一连串编码帧中的各帧同步,并且向解码器指出如何分析并译解在诸如帧340之类的各帧中提供的数据。由于设置了多种编码分辨率,因此控制数据一般要比不可缩放的编码实现中的控制数据复杂。在本发明的一个优选实施例中,控制数据包括同步模式,格式数据,段数据,参数据数据及检错码,所有这些将在下面说明。为扩展层320、330产生具体说明如何译解扩展层320、330的辅助控制信息。
可产生用于指示帧的起点的预定同步字。同步模式被输出到各帧的第一个字的前L位中,指出帧开始于何处。最好在帧中的任意其它位置不出现同步模式。同步模式向解码器指出如何从编码数据流中解析数据帧。
可产生指示程序结构(program configuration)、位流简表(profile)及帧速率的格式数据。程序结构指出包含在编码位流中的通道的数目及分布。位流简表指出利用的是帧的哪些层。位流简表的第一数值指出只在核心层310中提供编码。这种情况下最好省略扩展层320、330,以便节省数据通道上的数据容量。位流简表的第二数值指出在核心层310和第一扩展层320中提供编码数据。这种情况下,最好省略第二扩展层330。位流简表的第三数值指出在各层310、320、330中提供编码数据。最好按照AES3规范确定位流简表的第一、第二及第三数值。帧速率可被规定为单位时间的帧数或者近似数目,例如30Hz,对于AES3标准来说,这对应于每3200字一帧。帧速率帮助解码器保持同步并且有效缓冲输入的编码数据。产生指出段及子段边界的段数据。这些段数据包括指出控制段350、音频360、第一子段370和第二子段380的边界的段数据。在可缩放编码过程400的备选实施例中,例如对于多通道音频,在帧中包含有另外的子段。还可提供另外的音频段,以便通过把来自若干帧的音频信息组合成一个更大的帧,减小帧中控制数据的平均容量。对于需要较少音频通道的音频应用,还可省略子段。可以段数据的形式提供关于附加子段或被省略子段的边界的数据。也可按照相似的方式分别规定层310、320及330的深度L、M、N。L最好被规定为16,以便支持向后兼容常规的16位数字信号处理器。M和N最好被规定为4和4,以便支持由AES3标准确定的可缩放的数据通道标准。规定的深度最好不以数据的形式明确包含在帧中,而是在编码时推定规定的深度,以便恰当地实现在解码体系结构中。
产生指出编码操作参数的参数数据。这种参数指出哪些种类的编码操作被用于把数据编码成帧。参数数据的第一数值指出按照高级电视标准委员会(ATSC)A52文件(1994)中规定的公用ATSC AC-3位流规范对核心层310编码。参数数据的第二数值指出按照诸如体现于Dolby Digital编码器中的技术的知觉(perceptual)编码技术对核心层310编码,所述DolbyDigital编码器可从California,San Francisco的Dolby Laboratories,Inc.购买。本发明可以和各种知觉编码及解码技术一起应用。在美国专利5913191(Fielder)、5222189(Fielder)、5109417(Fielder等)、5632003(Davidson等)、5583962(Davis等)和5623577(Fielder)中公开了这些知觉编码和解码技术的各个方面。实践本发明并不需要任何特殊的知觉编码或解码技术。
产生一个或多个检错码,用于保护核心层部分352中的数据以及核心层310的核心层部分372、382中的数据(数据容量许可的话)。由于核心层部分352包括对相对于编码数据流中的帧340同步以及解析各帧340的核心层310来说必不可少的所有信息,因此和帧340的其它任何部分相比,最好在更高的程度上保护核心层部分352。
在本发明的该实施例中,数据如下所述被输出到帧中。第一编码信号FCS_L、FCS_R分别被输出到核心层部分372、382中,第一残数信号FRS_L、FRS_R分别被输出到第一扩展层部分374、384中,第二残数信号SRS_L、SRS_R分别被输出到第二扩展层部分376、386中。这可通过在信号FCS_L由前L位携带,信号FRS_L由接下来的M位携带,信号SRS_L由最后N位携带,对于信号FCS_R、FRS_R、SRS_R来说同样如此的情况下,同时多路复用这些信号FCS_L、FCS_R、FRS_L、FRS_R、SRS_L、SRS_R,形成字长度均为L+M+N的一连串字来实现。该串字被串行输出到音频段360中。同步字、格式数据、段数据、参数数据及数据保护信息被输出到核心层部分352中。扩展层320、330的附加控制信息被提供给它们相应的扩展层320、330。
根据可缩放音频编码过程400的优选实施例,以包含比例因子和一个或多个代表各个分波段信号单元的缩放值的块缩放形式(block-scaledform)表示核心层中的各个分波段信号。例如,可以用成组浮点表示各个分波段信号,其中成组浮点指数是比例因子,各个分波段信号单元由浮点尾数表示。实际上可使用任意形式的按比例缩放。为了简化解析编码数据流,恢复比例因子及缩放值,可在各帧内的预定位置把比例因子编码到数据流中,以致位于音频段360内的各个子段370、380的起点。
在优选实施例中,比例因子提供分波段信号功率的量度,心理声学模型可使用所述分波段信号功率的量度确定如前所述的听觉掩蔽曲线AMC_L、AMC_R。最好,核心层310的比例因子被用作扩展层320、330的比例因子,从而不必为每层产生并输出一组截然不同的比例因子。一般来说,只有各个编码信号的相应分波段信号单元之间的差别的最高有效位才被编码到扩展层中。
在优选实施例中,进行辅助处理,从编码数据中消除保留的或禁止的数据模式。例如,应避免编码音频数据中会模仿被保留而出现于帧起点的同步模式的数据模式。避免特殊的非零数据模式的一种简单方式是通过在编码音频数据和适当的密钥之间进行逐位“异”操作。在Vernon等的美国专利6233718“Avoiding Forbidden Data Patterns I、in Coded AudioData”中公开了避免禁止的及保留的数据模式的其它细节及辅助技术。密钥或其它控制信息可包含在各帧中,反转所执行的任何修改的效果,从而消除这些模式。
现在参见图5,图中表示了图解说明根据本发明的可缩放解码过程500的流程图。可缩放的解码过程500接收编码到一连串层中的音频信号。
第一层包括音频信号的知觉(perceptual)编码。所述知觉编码表现具有第一分辨率的音频信号。其余各层均包含有和音频信号的另一相应编码相关的数据。所述一连串层按照编码音频分辨率的递增顺序排序。更特别的是,可以组合并译解前K层的数据,提供与前K-1层中的数据相比分辨率更高的音频,这里K是大于1并且不大于层数总数的整数。
根据过程500,在步骤511选择译解分辨率。确定与选择的分辨率相联系的层次。如果为了消除保留或禁止数据模式而修改了数据流,则应反转这些修改的效果。在步骤513组合所确定层次中包含的数据与先前各层中的数据,随后在步骤515根据采用的按照相应分辨率对音频信号编码的编码过程的反向操作,译解组合数据。信号路由电路可剥离或忽略与比选择的分辨率更高的分辨率相联系的各层。在解码前应进行反转缩放效果所需的任何过程或操作。
现在说明处理系统100对通过标准AES3数据通道接收的音频数据进行的可缩放解码过程500的一个实施例。标准AES3数据通道以一连串位宽为24的字的形式提供数据。借助从0(它是最高有效位)到23(它是最低有效位)的位编号,可方便地识别字的各个二进制位。这里符号位(n~m)用于表示字的位(n)~(m),n和m为整数,并且m>n。按照本发明的可缩放数据通道300,AES3数据通道被分成一连串的帧,例如帧340。核心层310包括位(0~15),第一扩展层320包括位(16~19),第二扩展层330包括位(20~23)。
通过处理系统100的音频输入/输出接口140接收层310、320、330中的数据。响应解码指令的程序,处理系统100在数据流中搜索16位的同步模式,以便使其处理与各帧边界对准,把从同步模式顺序开始的数据分成表示为位(0~23)的24位字。从而第一个字的位(0~15)是同步模式。此时可执行反转为消除专用模式而进行的修改的效果所需的任何处理。
读取核心层310中的预定位置,从而获得格式数据、段数据、参数数据、偏移量及数据保护信息。处理检错码,以便检测核心层部分352中数据中的任何错误。当检测到数据错误时,可使相应音频静音或者重新传送数据。随后解析帧340,获得用于后续解码操作的数据。
为了只对核心层310进行解码,在步骤511选择16位分辨率。读取第一和第二音频子段370、380的核心层部分372、382中的确定位置,从而获得编码分波段信号单元。在利用块缩放表示法的优选实施例中,这是通过首先获得各个分波段信号的块比例因子(block scaling factor),并使用这些比例因子产生和编码过程中使用的听觉掩蔽曲线AMC_L、AMC_R相同的听觉掩蔽曲线AMC_L、AMC_R来实现的。对于从核心层部分352读出的各个通道,通过使听觉掩蔽曲线AMC_L、AMC_R移动相应的偏移量O1_L、O1_R,产生音频通道CH_L、CH_R的第一理想噪声频谱。随后按照编码过程400使用的相同方式确定音频通道的第一量化分辨率Q1_L、Q1_R。现在处理系统100可分别确定音频子段370、380的核心层部分372、382中代表分波段信号单元的缩放值的编码缩放值的长度和位置。从子段370、380中解析出编码缩放值,并使之与相应的分波段比例因子组合,从而得到音频通道CH_L、CH_R的量化分波段信号单元,所述量化分波段信号单元随后被转换成数字音频流。通过采用与编码过程中采用的分析滤波器组互补的合成滤波器组实现这种转换。数字音频流表现左声道CH_L和右声道CH_R。借助可按照常规方式实现的数-模转换,这些数字信号可被转换成模拟信号。
可如下所示译解核心层和第一扩展层310、320。在步骤511选择20位编码分辨率。如上所述获得核心层310中的分波段信号单元。从控制段350的扩展层部分354读出附加偏移量O2_L。通过使左声道CH_L的第一理想噪声频谱移动偏移量O2_L,产生音频通道CH_L的第二理想噪声频谱,并且响应获得的噪声频谱,按照关于根据编码过程400对第一扩展层进行知觉编码所描述的方式确定第二量化分辨率Q2_L。这些量化分辨率Q2_L指出扩展层部分374中残数信号RES1_L的各个分量的长度和位置。处理系统100读取相应的残数信号,并通过在步骤513组合残数信号RES1_L和从核心层310获得的缩放表示(scaled representation),得到量化分波段信号单元的缩放表示。在本发明的该实施例中,这是利用二进制编码加法实现的,逐一对分波段信号单元执行所述加法。根据各个分波段信号的缩放表示得到量化的分波段信号单元,随后利用适当的信号合成过程转换量化的分波段信号单元,产生各个通道的数字音频流。借助数-模转换,数字音频流可被转换成模拟信号。可按照类似于上面说明的方式译解核心层和第一、第二扩展层310、320、330。
现在参考图6A,图中表示了用于根据本发明的可缩放音频编码的帧700的备选实施例的示意图。帧700确定24位宽AES数据通道701的数据容量的分配。AES3数据通道包括一连串的24位宽的字。AES3数据通道包括核心层710和标识为中间层720及精细层(fine layer)730的两个扩展层。核心层710、中间层720及精细层730分别包括各个字的位(0~15)、位(16~19)及位(20~23)。从而,精细层730包括AES3数据通道的四个最低有效位,中间层720包括该数据通道的四个次低有效位。
分配数据通道701的数据容量,以便支持若干分辨率条件下的音频解码。这里这些分辨率指的是核心层710支持的16位分辨率,核心层710和中间层720的结合体支持的20位分辨率,以及由核心层710、中间层720和精细层730的结合体支持的24位分辨率。应明白上面提及的各种分辨率中的位数指的是传输或存储过程中各个相应层次的容量,并不涉及各层中包含的表现编码音频信号的符号的量化分辨率或者位长度。从而,所谓的“16位分辨率”对应于基本分辨率条件下的知觉编码,并且当解码和重放时,通常感到比16位PCM音频信号更精确。类似地,20位和24位分辨率对应于逐渐更高的分辨率条件下的知觉编码,并且一般来说可感到比相应的20位及24位PCM音频信号更为精确。
帧700被分成包括同步段740、元数据段750、音频段760,并且还可包括元数据扩充段770、音频扩充段780和量度(meter)段790的一系列段。元数据扩充段770和音频扩充段780相互依赖,因此要么同时包含有元数据扩充段770和音频扩充段780,要么既不包含元数据扩充段770又不包含音频扩充段780。在帧700的本实施例中,各段包括各层710、720、730中的多个部分。现在参见图6B、6C和6D,图中表示了音频段760和音频扩充段780、元数据段750和元数据扩充段770的优选结构的示意图。
在同步段740中,位(0~15)包含一个16位的同步模式,位(16~19)包含用于中间层720的一个或多个检错码,位(20~23)包含用于精细层730的一个或多个检错码。扩充数据中的错误一般产生听得见的微妙效果,因此数据保护局限于每个扩展层4位代码有益于节约AES3数据通道中的数据。在如上所述的元数据段750和元数据扩充段770中可提供扩展层720、730的辅助数据保护。还可为各个相应的扩展层720、730规定两个不同的数据保护值。任意一个所述数据保护值为相应层次720、730提供数据保护。第一数据保护值指出按照诸如校准结构之类的预定方式配置音频段760的相应层。第二数据保护值指出元数据段750包含的指针指出扩充数据包含在音频段760的相应层次中的位置,并且如果包含有音频扩充段780,则元数据扩充段770中的指针指出扩充数据包含在音频扩充段780的相应层次中的位置。
音频段760基本上类似于前面说明的帧390的音频段360。音频段760包括第一子段761和第二子段7610。第一子段761包括一个数据保护段767,分别包含第一子段761的相应子段763、764、765、766的四个相应通道子段(CS_0、CS_1、CS_2、CS_3),并且还可包括一个前缀762。通道子段对应于多通道音频信号的四个相应音频通道(CH_0、CH_1、CH_2、CH_3)。
在可选的前缀762中,核心层710包含用于避免核心层710相应携带的第一子段部分内的禁止模式的禁止模式密钥(KEY1_C),中间层720包含用于避免中间层720携带的第一子段部分内的禁止模式的禁止模式密钥(KEY1_I),精细层730包含用于避免精细层730相应携带的第一子段部分内的禁止模式的禁止模式密钥(KEY1_F)。
在通道子段CS_0中,核心层710包含音频通道CH_0的第一编码信号,中间层720包括音频通道CH_0的第一残数信号,精细层730包括音频通道CH_0的第二残数信号。最好利用如下所述修改的编码过程400把这些信号编码到各自相应的层次中。通道段CS_1、CS_2、CS_3按照类似的方式分别包含音频通道CH_1、CH_2、CH_3的数据。
在数据保护段767中,核心层710携带由核心层710相应包含的第一子段部分的一个或多个检错码,中间层720携带中间层720包含的第一子段部分的一个或多个检错码,精细层730携带由精细层730相应包含的第一子段部分的一个或多个检错码。在本实施例中,最好借助循环冗余码(CRC)提供数据保护。
第二子段7610类似地包括一个数据保护段7670、分别包含第二子段7610的相应子段7630、7640、7650、7660的四个通道子段(CS_4、CS_5、CS_6、CS 7),并且还可包括一个前缀7620。按照类似于子段761的方式配置第二子段7610。类似于音频段760配置音频扩充段780,允许两个或多个音频段位于单一帧内,从而减小标准AES3数据通道中消耗的数据容量。
如下所述配置元数据段750。由核心层710携带的元数据段750部分包括标题段751、帧控制段752、元数据子段753和数据保护子段754。中间层720携带的元数据段750部分包括中间元数据子段755和数据保护子段757,精细层730携带的元数据段750部分包括精细元数据子段756和数据保护子段758。在各层之间,数据保护子段754、757、758不必对准,但是最好均位于其相应各层的尾部或者位于另外某一预定位置。
标题751包括指示程序结构和帧速率的格式数据。帧控制段752包括规定同步段740、元数据段750和音频段760中各段及各子段的边界的段数据。元数据子段753、755、756包括指示执行的把音频数据分别编码到核心层710、中间层720和精细层730中的编码操作参数的参数数据。这些参数数据指出使用何种编码操作对相应层进行编码。最好相同类型的编码操作被用于具有相适应的分辨率的各个层次,以便反映各层中数据容量的相对数量。另一方面也可在核心层720中包含中间层720和精细层730的参数数据。但是核心层710的所有参数数据最好只包含在核心层710中,从而信号路由电路可剥离或忽略扩展层720、730,而不影响译解核心层710的能力。数据保护子段754、757、758包含分别保护核心层710、中间层720及精细层730的一个或多个检错码。
除了元数据扩充段770不包括帧控制段752之外,元数据扩充段770基本上类似于元数据段750。元数据扩充段770和音频扩充段780中各段和各子段的边界由它们与元数据段750和音频段760的实质相似性结合由元数据段750中帧控制段752包含的段数据来指示。
可选的量度段790包含帧700中所含的编码音频数据的平均幅度。特别地,在忽略音频扩充段780的情况下,量度段790的位(0~15)包含音频段760的位(0~15)中所含的编码音频数据的平均幅度的表示,位(16~19)和(20~23)分别包含分别被称为中间量度(IM)和精细量度(FM)的扩充数据。IM可以是包含在音频段760的位(16~19)中的编码音频数据的平均幅度,FM可以是包含在音频段760的位(20~23)中的编码音频数据的平均幅度。在包含音频扩充段780的情况下,平均幅度IM和FM最好反映包含在音频扩充段780各层中的编码音频。量度段790支持解码时方便地显示平均音频幅度。对于正确的音频解码来说这并不是必需的,为了节约AES3数据通道上的数据容量,可将其省略。
最好利用如下所述修改的可缩放的编码过程400和420把音频数据编码到帧700中。接收八个通道中各个通道的音频分波段信号。最好通过对时域音频数据的八个相应通道的成批样本应用块变换(block transform),并组合变换系数,从而形成分波段信号来产生这些分波段信号。均以包含分波段中各个系数的块指数(block exponent)和尾数的块浮点(block-floating-point)形式表示这些分波段信号。
通过利用一组分波段的“主指数”,可扩展指定位长度的分波段指数的动态范围。比较该组分波段中分波段的指数和某一阈值,确定相关主指数的数值。如果该组中每个分波段指数都大于例如,为3的阈值,则主指数的数值被设定为1,并且相关分波段指数减3,否则主指数被设定为0。
也可使用前面简要说明的增益自适应量化技术。在一个实施例中,根据各个分波段信号的尾数的量值是否大于二分之一,把各个分波段信号的尾数分成两组。小于或等于二分之一的尾数的数值被加倍,以便减少表现这些尾数所需的二进制位的数目。调整尾数的量化,反映这种加倍。尾数也可被分成两组上以的多组。例如,根据尾数的量值是在0~1/4之间、1/4~1/2之间还是在1/2~1之间,可把尾数分成三组,分别乘以4、2和1的比例因子,并据此量化,以便节约额外的数据容量。从上面引用的美国专利申请中可获得其它信息。
产生各个通道的听觉掩蔽曲线。各个听觉掩蔽曲线可能依赖于多个通道(在本实现中多达8个通道),而不仅仅是一个或二个通道的音频数据。利用这些听觉掩蔽曲线,并在如上所述修改尾数量化的情况下,对各个通道应用可缩放的编码过程400。应用迭代过程420确定对各层进行编码的适当量化分辨率。本实施例中,相对于对应的听觉掩蔽曲线,编码范围被规定为约-144dB~+48dB。随后分析过程400和420所产生的各个通道的第一编码信号、第一及第二残数信号,确定音频段760的第一子段761的禁止模式密钥KEY1_C、KEY1_I、KEY1_F(对于第二子段7610来说,与此类似)。
为第一批多通道音频产生元数据段750的控制数据。除了省略第二批多通道音频的段信息之外,按照类似方式为第二批多通道音频产生元数据扩充段770的控制数据。利用如上所述的相应禁止模式密钥分别修改这些控制数据,并分别输出到元数据段750和元数据段扩充段770中。
同样对第二批的八个音频通道进行上述过程,同时按照相似的方式把产生的编码信号输出到音频扩充段780中。除了对于第二批多通道音频来说不产生任何段数据之外,按照和第一批多通道音频相同的方式产生第二批多通道音频的控制数据。该控制数据输出到元数据扩充段770中。
同步模式被输出到同步段740的位(0~15)中。分别为中间层720和精细层730产生两个位宽为4的检错码,并分别输出到同步段740的位(16~19)和位(20-23)中。本实施例中,扩充数据中的错误通常产生听得见的细微效果,因此错误检测局限于每个扩展层的4位代码有益于节约标准AES3数据通道中的数据容量。
根据本发明,检错码可具有不依赖于所保护的数据的位模式的预定值,例如“0001”。通过检查这种检错码,确定代码本身是否已被破坏,提供错误检测。如果代码本身已被破坏,则认为层中的其它数据被破坏,获得该数据的另一副本,或者抑制所述错误。优选实施例为每个扩展层规定了多个预定检错码。这些代码也可指示层的结构。例如,第一检错码“0101”指出层具有预定的结构,例如校准结构。第二检错码“1001”指出层具有分布式结构,并且指针或其它数据被输出到元数据段750或其它位置,以指示层中数据的分布模式。在传输过程中几乎不可能一个代码受到破坏而产生另一代码,因为必定是破坏该代码的2个二进制位,而不破坏其余二进制位。从而该实施例基本上可避免单个位(single bit)传输错误。此外,译解扩展层时产生的任何错误一般最多只产生细微的听得到的效果。
在本发明的一个备选实施例中,采用其它形式的平均信息量编码压缩音频数据。例如,在一个备选实施例中,16位平均信息量编码过程产生输出到核心层上的压缩数据。对在更高分辨率下的数据编码重复该过程,产生试用编码信号。结合试用编码信号和压缩的音频数据,产生试用残数信号。根据需要重复上述过程,直到试用残数信号有效利用第一扩展层的数据容量为止,并把试用残数信号输出到第一扩展层上。通过再次提高平均信息量编码的分辨率,对第二层或多个附加扩展层重复上述过程。
对于本领域的技术人员来说,当参考本申请时,本发明的各种变化和修改将是显而易见的。本发明提供了这样的修改和变化,本发明的范围只由下述权利要求限定。
Claims (36)
1.一种利用具有一个核心层和一个扩展层的标准数据通道的可缩放编码方法,所述方法包括:
接收若干分波段信号;
根据第一理想噪声频谱确定各个分波段信号的相应第一量化分辨率,并按照相应的第一量化分辨率量化各个分波段信号,产生第一编码信号;
根据第二理想噪声频谱确定各个分波段信号的相应第二量化分辨率,并按照相应的第二量化分辨率量化各个分波段信号,产生第二编码信号;
产生指示第一编码信号和第二编码信号之间残数的残数信号;和
把第一编码信号输出到核心层中,把残数信号输出到扩展层中。
2.按照权利要求1所述的方法,其中根据按照心理声学原理确定的分波段信号的音频掩蔽特性,建立第一理想噪声频谱。
3.按照权利要求1所述的方法,其中按照根据满足核心层数据容量要求的这样的第一量化分辨率量化的分波段信号,确定第一量化分辨率。
4.按照权利要求1所述的方法,其中以对准的形式输出第一编码信号和残数信号。
5.按照权利要求1所述的方法,其中输出指示相对于第一编码信号的残数信号的结构模式的辅助数据。
6.按照权利要求1所述的方法,其中相对于第一理想噪声频谱,使第二理想噪声频谱偏移基本均匀的量值,其中所述基本均匀量值的指示被输出到标准数据通道中。
7.按照权利要求1所述的方法,其中第一编码信号包括若干比例因子,其中残数信号由第一编码信号的比例因子表示。
8.按照权利要求1所述的方法,其中按照相应的第二量化分辨率量化的分波段信号由包括二进制位的序列的缩放值表示,其中按照相应的第一量化分辨率量化的分波段信号由包括所述二进制位的子序列的另一缩放值表示。
9.一种利用具有一层核心层和一层扩展层的标准数据通道的可缩放解码方法,所述方法包括:
从核心层获取第一控制数据,从扩展数据获取第二控制数据;
根据第一控制数据处理核心层,获得通过根据按照第一理想噪声频谱确定的相应第一量化分辨率量化分波段信号产生的第一编码信号;
根据第二控制数据处理扩展层,获得指示第一编码信号和通过根据按照第二理想噪声频谱确定的相应第二量化分辨率量化分波段信号产生的第二编码信号间的残数的残数信号;
根据第一控制数据译解第一编码信号,获得按照第一量化分辨率量化的若干第一分波段信号;
通过组合所述若干第一分波段信号和所述残数信号,获得按照第二量化分辨率量化的若干第二分波段信号;和
输出所述若干第二分波段信号。
10.按照权利要求9所述的方法,其中第二控制数据表示第一理想噪声频谱和第二理想噪声频谱之间的偏移量。
11.按照权利要求9所述的方法,其中核心层中的数据以包括比例因子和一个或多个缩放值的块缩放形式表示相应的分波段信号,其中核心层的比例因子也可用于从扩展层得到的分波段信号。
12.按照权利要求11所述的方法,其中在核心层中传送的数据帧内的预定位置对比例因子编码。
13.按照权利要求11或12所述的方法,其中根据比例因子产生第一和第二理想噪声频谱。
14.按照权利要求11或12所述的方法,其中从核心层和扩展层中接收的数据中,根据得自于核心层的比例因子确定的位置解析出编码值。
15.按照权利要求10所述的方法,其中核心层中的数据以包括比例因子和一个或多个缩放值的块缩放形式表示相应的分波段信号,其中核心层的比例因子也可用于从扩展层得到的分波段信号。
16.按照权利要求15所述的方法,其中在核心层中传送的数据帧内的预定位置对比例因子编码。
17.按照权利要求15或16所述的方法,其中根据比例因子产生第一和第二理想噪声频谱。
18.按照权利要求15或16所述的方法,其中从核心层和扩展层中接收的数据中,根据得自于核心层的比例因子确定的位置解析出编码值。
19.一种用于标准数据通道的处理系统,该标准数据通道具有一个核心层和一个扩展层,所述处理系统包括:
接收若干分波段信号的装置;
根据第一理想噪声频谱确定各个分波段信号的相应第一量化分辨率,并按照相应的第一量化分辨率量化各个分波段信号以产生第一编码信号的装置;
根据第二理想噪声频谱确定各个分波段信号的相应第二量化分辨率,并按照相应的第二量化分辨率量化各个分波段信号以产生第二编码信号的装置;
产生指示第一编码信号和第二编码信号之间残数的残数信号的装置;和
把第一编码信号输出到核心层中并把残数信号输出到扩展层中的装置。
20.按照权利要求19所述的处理系统,其中根据按照心理声学原理确定的分波段信号的音频掩蔽特性,建立第一理想噪声频谱。
21.按照权利要求19所述的处理系统,其中按照根据满足核心层数据容量要求的这样的第一量化分辨率量化的分波段信号,确定第一量化分辨率。
22.按照权利要求19所述的处理系统,其中以对准的形式输出第一编码信号和残数信号。
23.按照权利要求19所述的处理系统,其中输出指示相对于第一编码信号的残数信号的结构模式的辅助数据。
24.按照权利要求19所述的处理系统,其中相对于第一理想噪声频谱,使第二理想噪声频谱偏移基本均匀的量值,其中所述基本均匀量值的指示被输出到标准数据通道中。
25.按照权利要求19所述的处理系统,其中第一编码信号包括若干比例因子,其中残数信号由第一编码信号的比例因子表示。
26.按照权利要求19所述的处理系统,其中按照相应的第二量化分辨率量化的分波段信号由包括二进制位的序列的缩放值表示,其中按照相应的第一量化分辨率量化的分波段信号由包括所述二进制位的子序列的另一缩放值表示。
27.一种用于标准数据通道的处理系统,该标准数据通道具有一层核心层和一层扩展层,所述处理系统包括:
从核心层获取第一控制数据和从扩展数据获取第二控制数据的装置;
根据第一控制数据处理核心层,以获得通过根据按照第一理想噪声频谱确定的相应第一量化分辨率量化分波段信号产生的第一编码信号的装置;
根据第二控制数据处理扩展层,以获得指示第一编码信号和通过根据按照第二理想噪声频谱确定的相应第二量化分辨率量化分波段信号产生的第二编码信号间的残数的残数信号的装置;
根据第一控制数据译解第一编码信号,以获得按照第一量化分辨率量化的若干第一分波段信号的装置;
通过组合所述若干第一分波段信号和所述残数信号,获得按照第二量化分辨率量化的若干第二分波段信号的装置;和
输出所述若干第二分波段信号的装置。
28.按照权利要求27所述的处理系统,其中第二控制数据表示第一理想噪声频谱和第二理想噪声频谱之间的偏移量。
29.按照权利要求27所述的处理系统,其中核心层中的数据以包括比例因子和一个或多个缩放值的块缩放形式表示相应的分波段信号,其中核心层的比例因子也可用于从扩展层得到的分波段信号。
30.按照权利要求29所述的处理系统,其中在核心层中传送的数据帧内的预定位置对比例因子编码。
31.按照权利要求29或30所述的处理系统,其中根据比例因子产生第一和第二理想噪声频谱。
32.按照权利要求29或30所述的处理系统,其中从核心层和扩展层中接收的数据中,根据得自于核心层的比例因子确定的位置解析出编码值。
33.按照权利要求28所述的处理系统,其中核心层中的数据以包括比例因子和一个或多个缩放值的块缩放形式表示相应的分波段信号,其中核心层的比例因子也可用于从扩展层得到的分波段信号。
34.按照权利要求33所述的处理系统,其中在核心层中传送的数据帧内的预定位置对比例因子编码。
35.按照权利要求33或34所述的处理系统,其中根据比例因子产生第一和第二理想噪声频谱。
36.按照权利要求33或34所述的处理系统,其中从核心层和扩展层中接收的数据中,根据得自于核心层的比例因子确定的位置解析出编码值。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US37067299A | 1999-08-09 | 1999-08-09 | |
| US09/370,562 | 1999-08-09 | ||
| PCT/US2000/021303 WO2001011609A1 (en) | 1999-08-09 | 2000-08-04 | Scalable coding method for high quality audio |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| HK1048555A1 HK1048555A1 (zh) | 2003-04-04 |
| HK1048555B true HK1048555B (zh) | 2004-12-24 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1153191C (zh) | 高质量音频的可缩放编码方法 | |
| CN1160702C (zh) | 使用多通道音频信号的编码方法及装置 | |
| US7292901B2 (en) | Hybrid multi-channel/cue coding/decoding of audio signals | |
| US7693721B2 (en) | Hybrid multi-channel/cue coding/decoding of audio signals | |
| CN1090846C (zh) | 数字声频信号低比特率编译码器和编译码方法及其编码记录媒体 | |
| US20060004566A1 (en) | Low-bitrate encoding/decoding method and system | |
| CN1669072A (zh) | 低比特速率音频编码 | |
| CN1113096A (zh) | 数据信号的编码装置、解码装置及其记录媒体 | |
| KR20020002241A (ko) | 디지털 오디오장치 | |
| KR20030071622A (ko) | 디지털 정보 신호의 인코딩과 디코딩을 위한 방법 및 장치 | |
| US7583804B2 (en) | Music information encoding/decoding device and method | |
| KR20070037945A (ko) | 오디오 신호의 부호화/복호화 방법 및 장치 | |
| CN1706192A (zh) | 音频流匹配与渐进扰频 | |
| CN1930914A (zh) | 参数多声道编码系统中基于频率的音频声道编码 | |
| CN101292428A (zh) | 用于编码/解码的方法和装置 | |
| CN1273955C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
| JP3984468B2 (ja) | 符号化装置、復号化装置及び符号化方法 | |
| US6463405B1 (en) | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband | |
| HK1048555A1 (zh) | 高质量音频的可缩放编码方法 | |
| HK1048555B (zh) | 高质量音频的可缩放编码方法 | |
| JP2003223193A (ja) | 変換符号化されたデータの復号方法及び変換符号化されたデータの復号装置 | |
| JP2008033211A (ja) | 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム | |
| HK1073525B (zh) | 音频解码装置和音频解码方法 | |
| HK1125750B (zh) | 用於编码/解码的方法和装置 | |
| HK1073525A1 (zh) | 音频解码装置和音频解码方法 |