CN101166377A

CN101166377A - 一种多语种环绕立体声的低码率编解码方案

Info

Publication number: CN101166377A
Application number: CNA2006101370321A
Authority: CN
Inventors: 施伟强
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-10-17
Filing date: 2006-10-17
Publication date: 2008-04-23

Abstract

发明的名称：一种多语种环绕立体声的低码率编解码方案所属技术领域：属于数字电视及影碟的音频编解码技术领域。解决的技术问题：数字电视或影碟在传送或储存多种语种的伴音且每种语种的伴音均为5.1声道环绕立体声时，如何降低传输或存储数据量(码率)的问题。技术方案的要点：多种语种的人声对白信号与一路5.1声道背景音响信号分别单独压缩，然后将多种语种的人声对白及一路5.1声道背景音响信号的压缩数据打包复用后传送或存储。解码回放时，再将经解压缩的人声对白信号(选择出多种语种中的一种)与背景音响信号重组混音，还原出一种语种的5.1声道环绕立体声信号。主要用途：数字电视及影碟(DVD，高清DVD)。

Description

一种多语种环绕立体声的低码率编解码方案

前言我们可展望一下不久的将来：在2008年奥运会时，我们将向全世界提供优质的数字化的电视直播节目：图象采用高清晰度的图象，而且还提供可供用户选择的多种语种的解说伴音，且每种语种的伴音均为5.1声道的环绕立体声信号。使收看者可选择自己能听懂的解说，还有如亲临比赛现场的视听感受。

而高清晰度的影音光碟，如EVD、蓝光DVD等，不仅能存储高清晰度的图象，而且还可存储记录可供选择的多种语种的伴音且每种语种的伴音均为5.1声道的环绕立体声信号。使观看者可选择自己语种的对白伴音，又能充分享受5.1声道环绕立体声的逼真音效。

但在目前编码方式及编码格式下，多语种(多路)的5.1声道环绕立体声信号的传输码率很大，影响其在影音光碟及数字电视上大量存储及传送。为此，我提出全新的编码、解码的方案，——一种多语种环绕立体声的低码率编解码方案。为说明方便，本说明书中简称其为：甜音(sweetone)

(一)技术领域：

本音频技术方案(sweetone)属于数字电视(包括DTV，HDTV)及影碟(包括DVD，高清DVD)的音频编解码技术领域，具体属于数字电视或影碟在传送或储存多种语种的伴音且每种语种的伴音均为5.1声道环绕立体声时，如何降低传输或存储数据量(码率)的编解码技术领域。

(二)背景技术：

目前的DVD盘片：有的盘片只记录单语种(单路)的5.1声道环绕立体声信号，有的盘片则记录多种语种(多路)的5.1声道环绕立体声信号。

每种语种5.1声道环绕立体声信号的组成：不管这6个声道的信号如何千变万化，但包含的声音信息主要是：

(1)背景音响(如音乐，自然环境音效及背景人声，计算机合成音效等等)，在前置L、R，中置C，环绕SL、SR，低音BASS 6个声道中均有分布。

(2)主角或主持人的人声对白(演说词)，有两种情况：<1>一般情况下(大多数碟片及电视节目)，对白定位在前方的中央，即中置C一个声道。<2>在音效要求较高的碟片，为表现主角(对白)的移动感及主角(对白)在环境中的实际效果，对白在前置L、R，中置C，环绕SL、SR中的某个声道或某几个声道均有分布，录音师将录在这些声道上的人声处理成有幅度、相位、频响、延时、混响…等的不同。

而对比一下在相同时间，同一部DVD或数字电视节目的各种语种的5.1声道环绕立体声信号，可发现各种语种的5.1声道环绕立体声信号中的背景音响(5.1声道)信号是完全一致的，唯一不同的是主人公或主持人的对白的语种。即在相同时间，每种语种的5.1声道环绕立体声信号均是由同样的背景音响信号与各自不同语种的对白人声混音而成的。

单语种(单路)的5.1声道环绕立体声信号中背景音响和主角或主持人的人声对白(演说词)是混音在一起存储记录的。目前采集、编码单语种(单路)的5.1声道环绕立体声信号的方式(先后顺序)是：采集到的人声对白先和背景音响混音，形成一路5.1声道环绕立体声信号，然后再将此路5.1声道环绕立体声信号压缩，打包复用以供传送或储存。

而存储记录了多种语种(多路)的5.1声道环绕立体声信号的DVD中：目前的记录编码方式下，每种语种的5.1声道环绕立体声信号中：背景音响和主角或主持人的人声对白(演说词)也是混音在一起存储记录的。目前采集、编码多语种(假如10种)的5.1声道环绕立体声信号的方式(先后顺序)是：采集到的多种语种(10路)人声对白先和相同的背景音响混音，形成多种语种(10路)的5.1声道环绕立体声信号，然后将各种语种(10路)的5.1声道环绕立体声信号压缩，再打包复用以供传送或储存。

DVD存储或数字电视传送的数字信号码流中，每秒种有很多单位时间段的音频数据包组成，故决定音频信号每秒钟数据量(码率)大小的是每段音频数据包的数据量的大小。

在目前采集、编码单语种(单路)的5.1声道环绕立体声信号的方式(先后顺序)下，形成的每段音频数据包的格式如(图1)所示：当DVD需存储或数字电视需传送单种语种(一路)的5.1声道环绕立体声信号时，每段音频数据包就只有一组单位取样时段的5.1声道环绕立体声压缩数据包构成。以采用AC-3压缩格式为例，传送一种语种(一路)的5.1声道环绕立体声数据每秒种的码率为384kbps。

在目前采集、编码多语种(多路)的5.1声道环绕立体声信号的方式(先后顺序)及编码格式下，形成的每段音频数据包的格式如(图2)所示：当DVD需存储或数字电视需传送多种语种(如10种)的5.1声道环绕立体声信号时，每段音频数据包就有多组(如10组)单位取样时段的5.1声道环绕立体声压缩数据包打包复用而成。以采用AC-3压缩格式为例，传送多种语种(10路)的5.1声道环绕立体声数据每秒种的码率约为3841kbps×10＝3840kbps，若传送50种语种(50路)的5.1声道环绕立体声数据每秒种的码率将约为384kbps×50＝19200kbps。目前编码方式(先后顺序)及编码格式下，多语种(多路)的5.1声道环绕立体声信号的传输码率很大，影响其在DVD及数字电视上大量存储及传送。

最新的蓝光DVD等高密度影碟，尽管碟片容量很大，但记录高清晰度、高质量的视音频信号会使存储数据量大增而占用较大的存储空间，故在此类高密度影碟上以目前编码方式(先后顺序)及编码格式来记录多种语种的5.1声道环绕立体声信号也存在一定难度。

同样，尽管高清晰度电视HDTV每个节目频道的带宽较宽，但传送高清晰度、高质量的视音频信号会使传送的数据量大增而占用较大的带宽，故以目前编码方式(先后顺序)及编码格式来传送多种语种的5.1声道环绕立体声信号也有一定困难。

那么有什么简单的方法可以降低多语种(多路)的5.1声道环绕立体声信号的数据量(码率)，可使影碟上能存储下多语种(多路)的5.1声道环绕立体声信号，或者在HDTV节目中能传送多语种(多路)的5.1声道环绕立体声信号而占用较少的带宽呢？

但从目前采集、编码多语种(多路)的5.1声道环绕立体声信号的方式(先后顺序)及编码格式(如图2)，可以知道包含在多路(10路)相同取样时段5.1声道环绕立体声信号(压缩数据包)中的相同的背景音响信号也被重复传送或存储了多次(10次)，被重复传送或存储多次的背景音响信号可以说是冗余数据。

(三)发明内容：

既然目前采集、编码多语种(多路)的5.1声道环绕立体声信号的方式(先后顺序)及编码格式下，冗余的背景音响信号不能被删除，(因为每一种语种(每一路)的5.1声道环绕立体声信号都不能没有背景音响信号)，难以降低多语种的5.1声道环绕立体声信号的数据量(码率)，故我设计了全新的编码、解码方案，暂名：甜音(sweetone)，可以降低存储或传送多语种的5.1声道环绕立体声信号的数据量(码率)。

sweetone方案原理很简单，就是换个思路：将目前采集、编码多语种(多路)的5.1声道环绕立体声信号的方式(先后顺序)：在前端，多语种的人声对白先和背景音响混音，再编码传送的方式改变为sweetone的方式(先后顺序)：在前端，多语种的人声对白和背景音响不混音，多语种的人声对白语音和背景音响单独编码传输，在终端(客户端)再将人声对白和背景音响混音。详细的表述即：由先将采集的每种语种的人声对白与背景音响混音，再将混合好的每种语种的5.1声道环绕立体声信号压缩，然后将多种语种(多路)的5.1声道环绕立体声压缩数据包打包复用后传送或存储的方式改为：每种语种的人声对白和背景音响不预先混音，将各自独立的多种语种的人声对白信号及单独一路的5.1声道背景音响信号各自分别压缩，然后将多种语种(多路)的人声对白信号压缩数据包及单独一路的5.1声道背景音响信号压缩数据包打包复用后传送或存储。在解码回放时，再将经解压缩的各自独立的人声对白信号(选择出多种语种中的一种)与背景音响信号重组混音，还原出任意一种语种的5.1声道环绕立体声信号。

在sweetone编码方案下，原先被重复传送或存储多次的背景音响信号，降低为只传送或存储一次。而原先传送或存储的各种语种的环绕立体声信号，也变为只需传送或存储各种语种的人声对白信号。从而降低了存储或传送多语种的5.1声道环绕立体声信号的数据量(码率)。

根据主角或主持人的人声对白的2种情况，我构思设计了两种版本的甜音(sweetone)方案：甜音版本1(sweetone version 1)及甜音版本2(sweetone version 2)。

(1)sweetone version 1方案用在一般情况下(大多数碟片及电视节目)，人声对白只定位在前方的中央，即中置C一个声道。故每种语种的人声对白只需传送或存储一个声道(单声道)的音频数据即可。在客户端、终端(数字电视、影碟机)回放时，将单声道的人声对白信号(选择多种语种中的一种)与背景音响信号中的中置声道信号混音，还原出一种语种的(人声对白定位在前方的中央)的5.1声道环绕立体声信号。

sweetone version 1方案下，信号编码格式如图3所示：每段音频数据包就是由多种语种(例如10路)的相同取样时段的单声道的人声对白压缩数据包和一路5.1声道的背景音响压缩数据包打包复用而成。

采用AC-3压缩格式时，传送一种语种(一路)单声道音频数据每秒钟的码率为64kbps，故传送10种语种(10路)单声道音频数据每秒钟的码率约为64kbps×10＝640kbps

采用AC-3压缩格式时，一路5.1声道环绕立体声背景音响音频数据每秒钟的码率为384kbps

640+384＝1024kbps，故sweetone version 1编解码方案采用AC-3压缩格式时，传送10种语种(10路)的5.1声道环绕立体声音频数据每秒钟的码率为1024kbps，不到目前一般编解码方案(如图2)传送10种语种(10路)的5.1声道环绕立体声音频数据每秒钟的传输码率3840kbps的1/3。

当采用与一般编解码方案传送10路5.1声道环绕立体声音频数据每秒钟的码率3840kbps一样的传输码率时，用sweetone version 1编解码方案可传送多少种语种(路)5.1声道环绕立体声音频数据呢？

3840-384(一路5.1声道环绕立体声背景音响音频数据每秒钟的码率为384kbps)＝3456kbps

3456÷64(一种语种(一路)单声道人声对白音频数据每秒钟的码率为64kbps)＝54种(路)

用sweetone version 1编解码方案可传送54种语种(路)5.1声道环绕立体声音频数据，是一般编解码方案相同传输码率下的5倍多。

我们知道：人声对白音频信号的频响范围小于0-20KHZ的范围，动态范围也不是很大。因此，对人声对白音频信号采集时适当降低取样频率和量化比特数，可以在不降低人声对白音频信号的音质的情况下进一步降低人声对白音频数据每秒钟的码率。例如，一种语种(一路)单声道人声对白音频数据每秒钟的码率可以取32kbps。

3456÷32＝108种(路)

这样，用sweetone version 1编解码方案就可传送108种语种(路)5.1声道环绕立体声音频数据，是一般编解码方案相同传输码率下的10倍多。

而对于其他音频压缩格式(如DTS、MPEG-2、EAC、AAC等)，与AC-3一样，用sweetone编解码方案也能比一般编解码方案降低存储或传送多语种的5.1声道环绕立体声信号的数据量(码率)。

(2)音效要求较高的碟片或电视节目，为表现主角(对白)的移动感及主角(对白)在环境中的实际效果，人声对白在前置L、R，中置C，环绕SL、SR中的某个声道或某几个声道均有可能分布。一般的编解码方案就是将人声对白信号经幅度、相位、频响、延时、混响…等多种音效处理后混音于背景音响信号5个声道中的某个声道或某几个声道，再经压缩、打包后传输或存储，这对于高传输码率当然是可行的。而sweetone version 1编解码方案是以低传输码率为目的：每种语种的人声对白和背景音响不预先混音，每段音频数据包就是由多种语种(例如10路)的相同取样时段的单声道的人声对白压缩数据包和一路5.1声道的背景音响压缩数据包打包复用而成。若要表现主角(对白)的移动感及主角(对白)在环境中的实际效果，而变传输单声道的人声对白信号为传输几个声道或5个声道的经音效处理后的人声对白信号，将使信号码率增大，显然不能在sweetone version 1编解码方案里应用。

但从目前制作5.1声道环绕立体声信号的过程可知道：人声对白信号是由配音演员在听背景音响及观看画面时，用一个声道单独采集的。而后，再由录音师将人声对白按剧情的需要经幅度、相位、频响、延时、混响…等多种音效处理后，混音于背景音响信号5个声道中的某几个声道或5个声道中。

据此，我构思设计了sweetone version 2编解码方案：人声对白不预作音效处理，也不和背景音响信号混音。象sweetone version 1编解码方案一样，每种语种的也只需传送一个声道(单声道)的音频数据，使传输码率较低，但在传送的人声对白音频数据的同时加上称之为“描述符”的低码率代码。在客户端、终端(数字电视、影碟机)解码回放时，利用“描述符”反映的参数将单声道的人声对白信号(选择多种语种中的一种)经幅度、相位、频响、延时、混响…等多种音效处理后，混音于背景音响信号5个声道中的某个声道或某几个声道中。还原出一种语种(人声对白也具有移动感及有在环境中的实际效果)的5.1声道环绕立体声信号。

sweetone version 2方案下，信号编码格式如图4所示：每段音频数据包就是由多种语种(例如10路)的相同取样时段的单声道的人声对白压缩数据包和一路用于描述该取样时段内人声对白信号在L、C、R、SL、SR各个声道中的参数的描述符及一路5.1声道的背景音响压缩数据包打包复用而成。

由于sweetone version 2方案与sweetone version 1方案的信号编码格式略有不同(每段音频数据包中前者比后者多一路描述符)以AC-3压缩格式为例，采用sweetone version 2方案传送10种语种(10路)的5.1声道环绕立体声音频数据每秒钟的码率要略大于sweetone version 1方案的1024kbps，但也不到目前一般编解码方案(如图2)传送10种语种(10路)的5.1声道环绕立体声音频数据每秒钟的传输码率3840kbps的1/3。

当采用与一般编解码方案传送10路5.1声道环绕立体声音频数据每秒钟的码率3840kbps一样的传输码率时，用sweetone version2编解码方案也可传送50种语种(50路)甚至100种语种(100路)以上的5.1声道环绕立体声音频数据。

关于“描述符”的说明：

“描述符”用于描述人声对白数据：(如图5所示)在各声道中音量的不同参数、在各声道中频响的不同参数、在各声道中相位的不同参数、在各声道中延时的不同参数、在各声道中混响的不同参数……

由于各语种的对白都是由配音演员在听背景音响及观看画面时录制的，故发音与画面上的口型是同步的。所以共用一路描述符来描述各种语种的人声对白在5.1声道环绕立体声信号的各个声道中的参数，可以降低传输的码率(每种语种各用一路描述符的话，传输的码率将增大)。另外，各种语种的人声对白信号共用一路描述符的话，也可使重放的各种语种的人声对白信号的音效都具有同样好的效果，而不会因各种语种人声对白信号的音效制作时(描述符)的差异造成音效的好坏不同。

描述符的参数类似于调音台、混音设备的各推子、旋钮的不同位置，由于实际制作音效时，在一秒钟内各推子、旋钮的调节变化次数并不是很多。所以对于每秒种由很多段音频数据包组成的音频数据流来说：实际情况是，每秒种内有很多段连续音频数据包内的描述符基本一致没有变化。因此，我们可以对有变化的描述符给予传送，而对没有变化的描述符不予重复传送，这也是降低传输码率的方法。

综上所述，sweetone编解码方案与目前一般编解码方案相比有以下技术特点、优点：

(1)在传送或存储相同种语种数量且相同音质的环绕立体声信号的情况下，sweetone编解码方案比一般编解码方案的传输码率更低，可以节省影碟盘片上的存储空间，节省数字电视传送的频率带宽。

(2)在一样的传输码率下，传送或存储相同音质的环绕立体声信号时，sweetone编解码方案比一般编解码方案能传送或存储更多种语种的环绕立体声信号。

(3)在一样的传输码率下，且传送或存储相同种语种数量的环绕立体声信号的情况下，sweetone编解码方案传送或存储的信号可以比一般编解码方案的采用更高标准的采样频率或量化比特数，即更佳的音质。

(4)sweetone编解码方案除了可降低多语种(多路)的5.1声道环绕立体声信号的码率外，还可降低多语种(多路)的6.1声道或7.1声道环绕立体声信号的码率，且效率更高。

(5)适应面广。sweetone编解码方案支持MPEG-2、AC-3、DTS、EAC、AAC等多种压缩格式。

(6)能提供声音的特殊播放功能：如只有背景音响无人声对白(适用于卡拉OK)，有人声对白无背景音响(适用于学习外语)，人声对白比背景音响相对音量更大(适用于午夜模式，使观看者能清楚听到对白，但背景音响又不太吵人)。

(7)sweetone编解码方案中，人声对白与背景音响是单独编码传输的，还有利于节目的后期制作和编辑。

(四)具体实施方式：

(1)sweetone version 1编解码方案对音频信号的处理方式：

由于sweetone version 1编解码方案中：终端(数字电视、影碟机)回放时，人声对白只定位于中置C一个声道，故在前端无须对人声对白音效处理。采集到的信号实时地就可以编码、传送、回放。能适用于现场直播节目的多语种的5.1声道环绕立体声伴音播出。当然，本方案也适用于非实时传送的场合。

前端：采集到的多种语种(多路)单声道人声对白信号同时以相同的取样时间段进行压缩，压缩成多路单声道的压缩数据包。采集到的5.1声道背景音响环绕立体声信号也同时以相同的取样时间段进行压缩，压缩成一路5.1声道的压缩数据包。(压缩格式可以是MPEG-2、AC-3、DTS、EAC、AAC等任意压缩格式)。为了传输、存储的需要，再将相同的取样时间段的多路单声道的人声对白压缩数据包和一路5.1声道的背景音响压缩数据包打包复用成一段取样时间段的音频数据包。sweetone version 1编解码方案中，每段音频数据包的编码格式如图3所示。(图中以传输10种语种(10路)为例)。重复上述过程就产生很多段连续的音频数据包，而音频数据流就是由很多段连续的音频数据包组成的。

由于sweetone version 1编解码方案中，每段音频数据包的编码格式与一般编码方案的格式不同，故一般的MPEG-1/2/4解压芯片的音频电路无法处理sweetone version 1音频数据包。因此，可开发sweetoneversion 1音频解码电路。(如图6)

终端：(数字电视、影碟机中的)sweetone version 1音频解码电路将接收到的sweetone version 1音频数据流中的每段音频数据包先解复用，(用户通过CPU控制sweetone version 1音频解码电路)选择出一种语种(一路)单声道的人声对白压缩数据包并解压缩，同时将5.1声道的背景音响压缩数据包解压缩，然后将解压后的一种语种(一路)单声道的人声对白信号与背景音响信号中的中置声道C混音，连续重复上述过程就还原出一种语种的5.1声道环绕立体声信号。

设计sweetone version 1音频解码电路时应注意和sweetone version 2编码格式及一般编码格式信号的兼容：1电路虽不能将sweetone version 2编码格式的数据包中的单声道的人声对白数据根据“描述符”的参数进行音效处理后混音到各个声道中，但能将单声道的人声对白信号与背景音响信号中的中置声道C混音，还原出人声对白定位在中置声道的5.1声道环绕立体声信号。2对于一般编码格式的5.1声道环绕立体声信号，电路对其只作解压处理就直通输出。

(2)sweetone version 2编解码方案对音频信号的处理方式：

由于sweetone version 2编解码方案中：为表现主角(人声对白)的移动感及主角(人声对白)在环境中的实际效果，终端(数字电视、影碟机)回放时，人声对白在五个声道中均有可能分布。故在前端需对单声道录制的人声对白信号制作反映人声对白音效的参数——描述符。因此，sweetone version 2编解码方案适用于非实时传送的场合：运用在有充分时间后期制作的电影或电视剧的多语种的5.1声道环绕立体声伴音。

由于现在音效处理、后期制作一般均用非线性音频工作站。一般的音效处理软件就是直接将人声对白信号进行音效处理后混音入背景音响信号中的几个或五个声道中去。sweetone version 2编解码方案对人声对白原始信号并不直接进行音效处理及混音，而是加上反映人声对白在背景音响信号中的几个或五个声道中的效果的参数——描述符(如图5)。故可开发sweetone version 2.0音效制作软件，用于制作描述符。

前端：先给录制好的单声道人声对白信号按照剧情的情况与背景音响的情况制作一路描述符信号。制作时，每段描述符应与相对应的每一个取样时间段的人声对白信号同步。

再将录制好的多种语种(多路)单声道人声对白信号同时以相同的取样时间段进行压缩，压缩成多路单声道的压缩数据包。录制好的5.1声道背景音响环绕立体声信号也同时以相同的取样时间段进行压缩，压缩成一路5.1声道的压缩数据包。(压缩格式可以是MPEG-2、AC-3、DTS、EAC、AAC等任意压缩格式)。为了传输、存储的需要，将相同取样时间段的多路单声道的人声对白压缩数据包和与之时间上相对应的描述符及一路5.1声道的背景音响压缩数据包打包复用成一段取样时间段的音频数据包。sweetone version 2编解码方案中，每段音频数据包的编码格式如图4所示。(图中以传输10种语种(10路)为例)。重复上述过程就产生很多段连续的音频数据包，而音频数据流就是由很多段连续的音频数据包组成的。

由于sweetone version2编解码方案中，每段音频数据包的编码格式与一般编码方案及sweetone version1编解码方案的编码格式不同，故可开发sweetone version 2音频解码电路。(如图7)

终端：(数字电视、影碟机中的)sweetone version2音频解码电路将接收到的sweetone version2音频数据流中的每段音频数据包先解复用，(用户通过CPU控制sweetone version.2音频解码电路)选择出一种语种(一路)单声道的人声对白压缩数据包并解压缩，同时将5.1声道的背景音响压缩数据包解压缩。然后将解压后的一种语种(一路)单声道的人声对白信号按照描述符反映的参数进行DSP数字音效处理后混音到背景音响信号的几个或五个声道中去，连续重复上述过程就还原出一种语种的人声对白也具有移动感及有在环境中实际效果的5.1声道环绕立体声信号。

设计sweetone version 2音频解码电路时应注意和sweetone version 1编码格式及一般编码格式信号的兼容：1 sweetone version 1编码格式的数据包没有描述符，故只将单声道的人声对白信号与背景音响信号中的中置声道C混音，还原出人声对白定位在中置声道的5.1声道环绕立体声信号。2对于一般编码格式的5.1声道环绕立体声信号，电路对其只作解压处理就直通输出。

(五)附图说明：

(图1)一般的编码格式：当DVD需存储或数字电视需传送单种语种(一路)的5.1声道环绕立体声信号时，每段音频数据包就只有一组单位取样时段的5.1声道环绕立体声压缩数据包构成。

(图2)一般的编码格式：当DVD需存储或数字电视需传送多种语种(如10种)的5.1声道环绕立体声信号时，每段音频数据包就有多组(10组)单位取样时段的5.1声道环绕立体声压缩数据包打包复用而成。

(图3)sweetone version 1编码格式：当DVD需存储或数字电视需传送多种语种(如10种)的5.1声道环绕立体声信号时，每段音频数据包就是由多种语种(10路)的相同取样时段的单声道的人声对白压缩数据包和一路5.1声道的背景音响压缩数据包打包复用而成。

(图4)sweetone version2编码格式：当DVD需存储或数字电视需传送多种语种(如10种)的5.1声道环绕立体声信号时，每段音频数据包就是由多种语种(10路)的相同取样时段的单声道的人声对白压缩数据包和一路用于描述该取样时段内人声对白信号在L、C、R、SL、SR各个声道中的参数的描述符及一路5.1声道的背景音响压缩数据包打包复用而成。

(图5)描述符用于描述人声对白数据：在各声道中音量的不同参数、在各声道中频响的不同参数、在各声道中相位的不同参数、在各声道中延时的不同参数、在各声道中混响的不同参数……

(图6)sweetone version 1音频解码电路框图

(图7)sweetone version 2音频解码电路框图

Claims

目前的多语种(多路)5.1声道环绕立体声信号的编解码方式(先后顺序)是：采集到的多种语种(多路)人声对白先和相同的背景音响混音，形成多种语种(多路)的5.1声道环绕立体声信号，然后将各种语种(多路)的5.1声道环绕立体声信号压缩，再将各种语种(多路)的5.1声道环绕立体声压缩数据打包复用以供传送或储存。在终端(数字电视、影碟机)：用户通过CPU控制音频解码电路选择出一种语种(一路)5.1声道环绕立体声压缩数据并解压缩，即可重放出一种语种(一路)的5.1声道环绕立体声信号。

本发明的独立权利要求：前序部分和特征部分写明的技术特征合在一起，限定本发明(sweetone编解码方案)要求保护的范围。

前序部分

要求保护的发明的主题名称：一种多语种环绕立体声的低码率编解码方案。方案简称：甜音(sweetone)

sweetone编解码方案与目前的编解码方案共有的必要技术特征是：多种语种(多路)人声对白和相同的背景音响是要混音的，各种语种(多路)的5.1声道环绕立体声信号(即包含的人声对白及背景音响信号)也是压缩的，各种语种(多路)的5.1声道环绕立体声压缩数据(即包含的人声对白及背景音响压缩数据)也是打包复用以供传送或储存的，在终端(数字电视、影碟机)：要重放出一种语种(一路)的5.1声道环绕立体声信号，用户也是需要通过CPU控制音频解码电路选择出一种语种(一路)的压缩数据并解压缩。

特征部分

sweetone编解码方案特有的技术特征是(区别于目前的编解码方式之处)：

sweetone version 1编解码方式(先后顺序)是：每种语种的人声对白和背景音响不预先混音，将各自独立的多种语种的人声对白信号及单独一路的5.1声道背景音响信号各自分别压缩，然后将多种语种(多路)的人声对白信号压缩数据包及单独一路的5.1声道背景音响信号压缩数据包打包复用后传送或存储。在终端(数字电视、影碟机)解码回放时，再将经解压缩的各自独立的单声道人声对白信号(用户通过CPU控制音频解码电路选择出多种语种中的一种)与背景音响信号重组混音，还原出任意一种语种(人声对白定位在前方中央)的5.1声道环绕立体声信号。

sweetone version 2编解码方案(先后顺序)是：人声对白不预作音效处理，也不和背景音响信号预先混音。在传送的人声对白音频数据中加上称之为“描述符”的低码率代码。将各自独立的多种语种(多路)的人声对白信号及单独一路的5.1声道背景音响信号各自分别压缩，然后将多种语种(多路)的人声对白信号压缩数据包和与之时间上相对应的描述符及单独一路的5.1声道背景音响压缩数据包打包复用后传送或存储。在客户端、终端(数字电视、影碟机)解码回放时，利用“描述符”反映的参数将经解压缩的单声道的人声对白信号((用户通过CPU控制音频解码电路选择多种语种中的一种)经幅度、相位、频响、延时、混响…等多种音效处理后，混音于背景音响信号5个声道中的某个声道或某几个声道中。还原出一种语种(人声对白也具有移动感及有在环境中的实际效果)的5.1声道环绕立体声信号。

注：这里的“描述符”用于描述人声对白数据：在各声道中音量的不同参数、在各声道中频响的不同参数、在各声道中相位的不同参数、在各声道中延时的不同参数、在各声道中混响的不同参数……