[go: up one dir, main page]

HK1060430B - 用於編碼和解碼非話音語音的方法和設備 - Google Patents

用於編碼和解碼非話音語音的方法和設備 Download PDF

Info

Publication number
HK1060430B
HK1060430B HK04103354.0A HK04103354A HK1060430B HK 1060430 B HK1060430 B HK 1060430B HK 04103354 A HK04103354 A HK 04103354A HK 1060430 B HK1060430 B HK 1060430B
Authority
HK
Hong Kong
Prior art keywords
sub
frame
random noise
filter
speech
Prior art date
Application number
HK04103354.0A
Other languages
English (en)
Other versions
HK1060430A1 (zh
Inventor
黄鹏俊
Original Assignee
高通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/690,915 external-priority patent/US6947888B1/en
Application filed by 高通股份有限公司 filed Critical 高通股份有限公司
Publication of HK1060430A1 publication Critical patent/HK1060430A1/zh
Publication of HK1060430B publication Critical patent/HK1060430B/zh

Links

Description

用于编码和解码非话音语音的方法和设备
技术领域
所揭示的实施例涉及语音处理领域。更具体地说,所揭示的实施例涉及一种新颖的和经改进的非话音语音段的低比特率编码的方法和设备。
背景技术
通过数字技术传输话音已经得到广泛应用,尤其是在长距离的和数字的无线电电话应用方面。反过来,它在确定能通过一个信道发送的最少的信息量而同时保持经重新构造的语音的能被感知到的质量方面引起了兴趣。如果语音通过简单的采样和数字化传输,需要每秒64k比特(kbps)数量级的数据速率才能达到常规的模拟电话的语音质量。然而,通过使用语音分析,再跟以适当的编码,传输和在接收器上再综合,数据速率的显著减小是能够达到的。
应用通过提取涉及人类语音生成模型的参数而压缩语音的技术的设备被叫做语音编码器。语音编码器把输入的语音信号分成几个时间大块,或分析帧。语音编码器通常包括一个编码器和一个解码器,或者一个编码解码器。编码器分析输入的语音帧以提取一定的相关参数,然后将这些参数量化为两进制的表示,即变为一组比特或一个两进制数据包。数据包通过通信信道传输到接收器和解码器。解码器处理该数据包,将其解量化以产生参数,然后用这些解量化的参数再综合成语音帧。
语音编码器的功能是通过去除所有语音内在多余的自然信息而将数字化的语音信号压缩为低比特率的信号。数字化的压缩通过用一组参数表示输入的语音帧以及应用量化来用一组比特表示这些参数而达到。如果该输入的语音帧有一个比特数Ni,以及由语音编码器产生的数据包有一个比特数No,由语音编码器得到的压缩因子Cr=Ni/No。挑战是既要保留经解码的语音的高语音质量,又要达到目标的压缩因子。语音编码器的性能取决于(1)语音模式,或上述分析和综合处理的结合进行得怎样好,和(2)在每帧No比特的目标比特率上参数量化处理进行得怎样好。语音模式的目标是对于每一个帧用一个小的参数组就能够捕获到语音信号的本质或目标语音质量。
语音编码器可以被作为时域的编码器实施,它试图通过应用高时间分辨率的处理来捕获时域的语音波形而一次编码一个小的语音片段(通常是5毫秒(ms)的子帧)。对于每一个子帧,来自一个编码本空间的高精确度表示通过在技术上已知的各种算法系统而被找到。或者,语音编码器可以被作为频域的编码器实施,它试图用一组参数(分析)捕获输入语音帧的短期语音频谱以及应用一个相应综合处理从该频谱参数重新创立语音波形。参数量化器根据在A.Gersho & R.M.Gray的著作“矢量量化和信号压缩”(1992)中叙述的已知的量化技术,通过用储存的编码矢量对它们的描绘而保存这些参数。
一种众所周知的时域语音编码器是在L.B.Rabiner & R.W.Schafer的著作“语音信号的数字处理”396-453(1978)中叙述的代码激励线性预测(CELP)编码器,该文通过引用而全部被结合在本文中。在CELP编码器中,语音信号的短期相关,或冗余,通过一个线性预测(LP)分析而去除,从中发现一个短期共振峰滤波系数。将短期滤波应用到输入的语音帧产生一个LP残余信号,该信号用长期预测滤波参数和一个后续的随机码本进一步模式化和量化。这样,CELP编码将编码时域的语音波形的任务分解为独立的编码LP短时间滤波系数和编码LP残余的任务。时域编码能以一个固定速率(即对每一个帧用相同的比特数N0)或以一个变化的速率(对不同类型的帧内容用不同的比特率)实行。可变速率编码器试图只用将编码解码参数编码到一个适合于获得目标质量的水平所需要的比特数量。一个示例的可变速率CELP编码器在美国专利号No.5414796中作过叙述,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
诸如CELP编码器的时域编码器通常依赖于每帧高数量的比特数No来保持时域语音波形的精确度。这样的编码器通常传递由相对大(例如8kbps或以上)的每帧比特数N0提供的优秀的语音质量。然而,在低比特率(4kbps或以下)时由于受到可得到的比特数的限制,时域编码器就不能保持高质量和稳健的性能。在低比特率时,受限制的码本空间降低了常规的时域编码器在高速率商业应用中成功施展的波形匹配能力。
通常,CELP方案应用一个短期预测(STP)滤波和一个长期预测(LTP)滤波。一种通过综合的分析(AbS)方法被用在编码器上以发现LTP延时和增益以及最佳的随机码本增益和指数。当前的最新技术编码器诸如增强的可变速率编码器(EVRC)能在大约每秒8k比特的数据速率上达到综合后的语音的优良质量。
大家也知道,非话音的语音是不能显示其周期性的。在常规的CELP方案中编码LTP滤波消耗的带宽对于非话音语音是不象语音的周期性强因而LTP滤波才有意义的话音语音那样被有效率地利用。因此,对于非话音语音就需要一种更高效率(即更低的比特率)的编码方案。
对于在低比特率上编码,发展了各种语音的频谱的或频域的编码方法,在这些方法中,语音信号被分析作为一个频谱的时间变化的演变。例如参看“语音编码和综合”第四章(M.B.Kleijn & K.K.Paliwal,1995版)中R.J.McAulay &T.F.Quatieri的“正弦编码”。在频谱编码器中,目标将用一组频谱参数来建模或预测每个语音的输入帧的短期语音频谱,而不是去精确地模仿时间变化的语音波形。然后频谱参数被编码,并且语音的一个输出帧被用经解码的参数创立。结果的综合的语音和初始的输入语音波形不匹配,但提供了相似的感觉质量。在技术上众所周知的频域编码器的实例包括多频带激励编码器(MBEs),正弦变换编码器(STCs),以及谐波编码器(HCs)。这样的频域编码器提供了一种高质量的参数模型,该参数模型具有一组能用在低比特率下得到的低比特数精确量化的紧凑的参数。
然而,低比特率编码带来了一个有限的编码分辨率或有限的码本空间的重大约束,它限制了单个的编码机制的有效性,使编码器不能在各种背景条件下用相同的精确度描绘各种类型的语音片段。例如,常规的低比特率频域编码器不传递语音帧的相位信息。代之以的是,相位信息要通过用一个随机的人工产生的初始相位值和线性内插法技术重新构成。例如参看在“29电子通信”856-57(1993年5月)中H.Yang等人的“在MBE模型中的对于话音语音综合的二次阶段内插法”。因为相位信息是人工产生的,即使正弦曲线的振幅由量化-非量化处理完全保持,由频域编码器产生的输出语音将和初始的输入语音不对齐(即主要的节奏将不同步)。因此已经证实,在频域编码器中,采用任何闭环性能测试,诸如信-噪比(SNR)或感觉SNR等是困难的。
一个在低比特率条件下高效地对语音编码的有效技术是多模式编码。多模式编码技术已经和一种开环模式判决处理相结合而用于进行低速率语音编码。一种这样的多模式编码技术在“语音编码和综合”第七章(M.B.Kleijn &K.K.Paliwal,1995版)中Amitava Das等人的“语音的多模式和可变速率编码”中叙述过。常规的多模式编码器将不同的模式,或编码-解码算法应用到输入语音帧的不同类型。每一个模式,或编码-解码处理都以最有效率的方式定制成描绘一个语音片段的一定的类型,诸如有话音语音,非话音语音,或背景噪声(无话音)。一个外部的开环模式判决机制审查了输入语音帧并且作出将哪一种模式应用到该帧的决定。该开环模式判决通常通过从输入帧提取一定数目的参数进行,对该参数关于一定的时间的和频谱的特征进行评估,并将模式判决基于该评估的基础之上。这样,模式判决的作出就不需要事先知道输出语音的精确条件,即根据声音质量或其他性能度量,输出语音将怎样接近于输入语音。一种对于一个语音的编码解码的实例的开环模式判决在美国专利号5414796中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
多模式编码可以是固定速率的,对每一个帧使用同一个比特数N0,或者是可变速率的,对不同的模式使用不同的比特率。在可变速率编码中的目标是只使用将编码解码器参数编码到一个适合于获得目标质量的水平所需要的比特数量。结果,就能应用可变比特速率(VBR)技术在一个相当低的平均速率上获得和固定速率的,更高速率的编码器一样的目标声音质量。一种实例的可变速率语音编码器在美国专利号5414796中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
目前,存在一个研究发展在中等到低比特率(即在2.4到4kbps和以下的范围)上工作的高质量语音编码器的利益和强大的商业需求的浪潮。该应用领域包括无线电话,卫星通信,互联网电话,各种多媒体和语音流应用,话音邮件,和其他话音储存系统。驱动力就是对高容量的需要和对在数据包丢失情况下的稳健性能的要求。对各种当前的语音编码的标准化的努力是另一个直接驱动力,推进了低速率语音编码算法的研究和发展。低速率语音编码器创立了每个可允许应用带宽更多的通道或用户,和一个附加的合适的信道编码层耦合的低速率语音编码器能够适合编码器规范的总体的比特预算量,并在信道误差条件下传递稳健的性能。
因此,多模式VBR语音编码是一种在低比特率下编码语音的有效的机构。常规的多模式方案对于各种语音片段(非话音,话音,过渡)以及背景噪声或静音的模式需要高效率的编码方案的结构或模式。语音编码器的总体性能取决于每一个模式进行得怎样好,编码器的平均速率取决于非话音的,话音的和其他语音片段的不同模式的比特率。为了在低平均速率下达到目标质量,必须设计高效率的高性能的模式,其中一些模式必须在低比特率下工作。通常,话音的和非话音的语音片段在高比特率下被捕获,背景噪声和静音片段用在一个相当低的速率下工作的模式描绘。这样,就存在一个对精确捕获一个高百分比的非话音的语音片段,同时每帧只使用最小数目的比特的高性能低比特率编码的需要。
发明内容
本揭示的实施例致力于一种精确捕获非话音的语音片段,同时每帧只使用最小数目的比特的高性能低比特率编码技术。因而,在本发明的一个实施例中,一种解码非话音语音片段的方法包括用接收到的多个子帧的指数来恢复一组经量化的增益;对多个子帧中的每一个子帧,产生一个包括随机数的随机噪声信号;对多个子帧中的每一个子帧,选择随机噪声信号的一个预定百分比的最高振幅随机数;由对每一个子帧恢复的增益按比例缩放经选择的最高振幅随机数,以产生一个按比例缩放的随机噪声信号;带通滤波和成形该按比例缩放的随机噪声信号;以及基于所接收到的滤波器选择指示,选择一个第二滤波器,以及用选择的滤波器进一步成形所述按比例缩放的随机噪声信号。
附图说明
通过在下文中结合附图进行的详尽叙述,本揭示的实施例的特征,目的和优点将变得更加清楚。在附图中,相同的参考标号始终对应相同的部件。附图中:
图1是用语音编码器终止在通信信道的每一端的框图;
图2A是能在高性能低比特率语音编码器中使用的一种编码器的框图;
图2B是能在高性能低比特率语音编码器中使用的一种解码器的框图;
图3描绘了一种能在图2A的编码器中使用的高性能低比特率非话音语音编码器;
图4描绘了一种能在图2B的解码器中使用的高性能低比特率非话音语音解码器;
图5是描绘非话音语音的高性能低比特率编码技术的编码步骤的流程图;
图6是描绘非话音语音的高性能低比特率编码技术的解码步骤的流程图;
图7A是在带能分析中应用的低通滤波的频率响应的曲线图;
图7B是在带能分析中应用的高通滤波的频率响应的曲线图;
图8A是在感觉滤波中应用的带通滤波的频率响应的曲线图;
图8B是在感觉滤波中应用的初始成形滤波的频率响应的曲线图;
图8C是可在最后的感觉滤波中应用的一个成形滤波的频率响应的曲线图;
图8D是可在最后的感觉滤波中应用的另一个成形滤波的频率响应的曲线图;
具体实施方式
本揭示的实施例为非话音语音的高性能低比特率编码提供了一种方法和设备。非话音信号被数字化和转换成采样的帧。非话音信号的每一帧由一个短期预测滤波器滤波以产生短期信号块。每一个帧被分解为多个子帧。然后为每一个子帧计算一个增益。这些增益被相继量化并传输。然后,产生一个随机噪声块并由下文详尽叙述的方法滤波。该经滤波的随机噪声由量化的子帧增益按比例缩放以形成一个表示该短期信号的量化的信号。在解码器处产生一个随机噪声帧,并且以和编码器处的随机噪声相同的方式滤波。然后解码器处的经滤波的随机噪声由接收到的子帧增益按比例缩放,并经过一个短期预测滤波,以形成一个表示初始采样的综合的语音帧。
揭示的实施例对各种非话音语音提出了一种新颖的编码技术。在每秒2k比特的速率下,经综合的非话音语音的质量在感觉上相当于需要高得多的数据速率的常规的CELP方案产生的质量。根据本揭示的实施例,能够编码一个高百分比(大约为百分之二十)的非话音语音片段
在图1中,第一编码器10接收数字化的语音采样s(n)并对该采样s(n)进行编码,以便于在传媒12或通信信道12上传递到第一解码器14。解码器14对经编码的采样进行解码并对输出的语音信号sSYNTH(n)进行综合。为了在相对的方向进行传输,第二编码器16对在通信信道18上传输的数字化的语音采样s(n)进行编码。第二解码器20接收并解码该经编码的语音采样,产生一个综合的输出语音信号sSYNTH(n)。
语音采样s(n)表示了已经根据技术上已知的各种方法数字化和量化的语音信号,这些方法包括例如脉冲编码调制(PCM)压扩μ律或A律。如在技术上已知的,语音采样s(n)被组织成输入数据帧,其中每一个帧都包括一个预定数目的数字化语音采样s(n)。在一个示例实施例中,应用了8kHz的采样速率,每20ms帧包括160采样。在下文叙述的实施例中,数据传输的速率可以在帧到帧的基础上从8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)变化。或者可以用其他的数据速率。如在本文中所用的那样,术语“全速率”或“高速率”通常是指大于或等于8kbps的数据速率,术语“半速率”或“低速率”通常是指小于或等于4kbps的数据速率。变化数据传输速率是有利的,因为较低的比特率可以有选择地应用于包含相对较少语音信息的帧上。如在本技术领域熟悉的人士所理解的那样,也可以应用其他的采样速率,帧尺寸和数据传输速率。
第一编码器10和第二解码器20一起构成第一语音编码器或语音编码解码器。相似地,第二编码器16和第一解码器14一起构成第二语音编码器。在本技术领域熟悉的人士能够理解的是,语音编码器可以用数字信号处理器(DSP),专用集成电路(ASIC),分立门逻辑,固件,或任何常规的可编程软件模块和微处理器实施。软件模块可以驻留在RAM存储器,闪速存储器,寄存器,以及在技术上已知的任何其他形式的可写储存媒介中。或者,任何常规的处理器,控制器,或状态机能够被用来代替微处理器。专门为语音编码设计的示例的ASIC在美国专利号5727123中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。该示例也在题为“用于在移动电话系统中进行快速语音压缩的专用集成电路(ASIC)”的美国专利号5784532中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
图2A是图1描绘的可以应用本揭示的实施例的编码器(10,16)的框图。由一个短期预测滤波器200滤波一个语音信号s(n)。该语音本身s(n)和/或在短期预测滤波器200的输出处的线性预测残余信号r(n)向语音分类器202提供输入。
语音分类器202的输出向开关203提供输入,使开关203能够以语音的经分类的模式为基础选择相应的模式编码器(204,206)。在本技术领域熟悉的人士将理解,语音分类器202不限制于话音的和非话音的语音分类,也可以分类过渡,背景噪声(静音),或其他类型的语音。
话音语音编码器204通过任何常规的诸如CELP或原型波形内插法(PWI)的方法编码话音语音。
非话音语音编码器205根据下文叙述的实施例编码低比特率的非话音语音。根据一个实施例参考图3的细节叙述非话音语音编码器206。
由编码器204或编码器206编码以后,多路复用器208形成一个包括数据包,语音模式和其他经编码的参数的数据包比特流,以用于传输。
图2B是图1描绘的可以应用本揭示的实施例的解码器(14,20)的框图。
除多路复用器210接收一个包比特流,从该比特流多路分解出数据,并且恢复数据包,语音模式,和其他经编码的参数。
多路分解器210的输出向开关211提供输入,使开关211能够以语音的经分类的模式为基础选择相应的模式解码器(212,214)。在本技术领域熟悉的人士将理解,开关211不限制于话音的和非话音的语音模式,并且也可以识别过渡,背景噪声(静音),或其他类型的语音。
话音语音解码器212通过进行话音编码器204的反向操作对话音语音进行解码。
在一个实施例中,如下文参考图4详尽叙述的那样,非话音语音解码器214对以低比特率传输的非话音语音进行解码。
解码器212或解码器214解码以后,综合的线性预测残余信号被短期预测滤波器216滤波。短期预测滤波器216的输出处的综合的语音被通向一个后滤波处理器218以产生最后的输出语音。
图3是图2描绘的高性能低比特率非话音语音编码器206的详尽框图。图3详尽描绘了非话音编码器的一个实施例的装置和操作顺序。
数字化的语音采样s(n)被输入到线性预测编码(LPC)分析器302和LPC滤波器304。LPC分析器302产生数字化语音采样的线性预测(LP)系数。LPC滤波器304产生被输入到增益计算部件306和非按比例缩放的带能分析器314的语音残余信号r(n)。
增益计算部件306将每一个数字化语音采样帧分解成子帧,为每一个子帧计算一组下文被称作增益或指数的码本增益,将增益分解成子组,并且使每一个子组的增益标准化。语音残余信号r(n),n=0,…,N-1,被分段成K个子帧,其中N是一个帧中残余采样的数目。在一个实施例中,K=10以及N=160。增益G(i),i=0,…,K-1,对于每一个子帧以如下方法计算:
以及
增益量化器308将K增益量化,对于增益的增益码本指数相继被传输。量化可以用常规的线性的或矢量的量化方案或者用任何其他变型进行。一个具体化的方案是多级矢量量化。
来自LPC滤波器304的残余信号输出r(n)通过在非按比例缩放带能分析器314中的一个低通滤波器和一个高通滤波器。对于残余信号r(n)计算出r(n),El,Elp1,和Ehp1的能量值。E1是残余信号r(n)中的能量,Elp1是残余信号r(n)中的低带能量,Ehp1是残余信号r(n)中的高带能量。在一个实施例中,非按比例缩放带能分析器314的低通滤波器和高通滤波器的频率响应分别在图7A和图7B中显示。能量值E1,Elp1,和Ehp1的计算如下:
以及
能量值E1,Elp1和Ehpl在后面被用来选择最后成形滤波器316中的成形滤波器,用以处理随机噪声信号,因此随机噪声信号能最接近地类似于初始的噪声信号。
对于LPC分析器302输出的每一K个子帧,随机数产生器310产生单位方差在-1和+1之间均匀分布的随机数字。随机数选择器312相对于每一个子帧中的大多数低振幅随机数进行选择。对每一个子帧,最高振幅随机数的一部分被保留。在一个实施例中,被保留的随机数的一部分占25%。
然后每一个子帧的来自随机数选择器312的随机数输出由乘法器307用从增益量化器308输出的子帧的各自的量化增益相乘。然后乘法器307的按比例缩放的随机信号输出 由感觉滤波处理。
为了提高量化的非话音语音的感觉质量和保持其自然特征,在按比例缩放的随机信号 上进行两步的感觉滤波处理。
在感觉滤波处理的第一步,按比例缩放的随机信号被通过感觉滤波器318中的两个固定滤波器。感觉滤波器318的第一个固定滤波器是一个带通滤波器320,它从 消除了低端和高端频率以产生信号 在一个实施例中,带通滤波器320的频率响应由图8A描绘。感觉滤波器318的第二个固定滤波器是感觉成形滤波器322。由元件320计算的信号 被通过感觉成形滤波器322以产生信号 在一个实施例中,感觉成形滤波器322的频率响应由图8B描绘。
由元件320计算的信号 和由元件322计算的信号 的计算方法如下:
以及
信号 和 的能量分别被计算成E2和E3。E2和E3的计算方法如下:
以及
在感觉滤波处理的第二步,从感觉成形滤波器322输出的信号 被按比例缩放成以E1和E2为基础具有和从LPC滤波器304输出的初始的残余信号r(n)相同的能量。
在按比例缩放的带能分析器324中,由元件322计算的按比例缩放的和经滤波的随机信号 经受和先前在初始的残余信号r(n)上由非按比例缩放的带能分析器314进行的相同的带能分析。
由元件322计算的信号 的计算方法如下:
的低通带能用Elp2表示, 的高通带能用Ehp2表示。将 的高带和低带能和r(n)的高带和低带能比较以确定在最后成形滤波器316中使用的下一个成形滤波器。以r(n)和 的比较为基础,或者不用另外的滤波,或者挑选两个固定成形滤波器中的一个滤波器以在r(n)和 之间产生最紧密的匹配。最后的滤波成形(或没有额外的滤波)由将初始信号的带能和随机信号的带能比较而确定。
初始信号的低带能和按比例缩放的经预先滤波的随机信号的低带能的比例Rl的计算方法如下:
Rl=10*log10(Elp1/Elp2)。
初始信号的高带能和按比例缩放的经预先滤波的随机信号的高带能的比例Rh的计算方法如下:
Rh=10*log10(Ehp1/Ehp2)。
如果比例Rl小于-3,则高通最后成形滤波器(滤波器2)被用来进一步处理 以产生
如果比例Rh小于-3,则低通最后成形滤波器(滤波器3)被用来进一步处理 以产生
否则,对 不进行任何进一步处理,因此
从最后成形滤波器316的输出是量化的随机残余信号 信号 被按比例缩放使其具有和 相同的能量。
图8C显示了高通最后成形滤波器(滤波器2)的频率响应。图8D显示了低通最后成形滤波器(滤波器3)的频率响应。
产生一个滤波器选择指示以指出为最后滤波选择哪一个滤波器(滤波器2,滤波器3或没有滤波器)。滤波器选择指示被相继传输,因此解码器能够复制最后滤波。在一个实施例中,滤波器选择指示由两个比特构成。
图4是图2描绘的高性能低比特率非话音语音解码器214的详尽框图。图4详尽描绘了非话音语音解码器的一个实施例的装置和操作顺序。非话音语音解码器接收非话音数据包,通过进行和图2中描绘的非话音语音编码器206反向的操作从数据包综合非话音语音。
非话音数据包被输入到增益去量化器406。增益去量化器406进行和图3中描绘的非话音编码器中的增益量化器308相反的操作。增益去量化器406的输出是K个量化的非话音增益。
随机数产生器402和随机数选择器404进行图3的非话音编码器中的随机数产生器310和随机数选择器310完全相同的操作。
然后每一个子帧的从随机数选择器404输出的随机数字由乘法器405用从增益去量化器406输出的子帧的各自的量化增益相乘。然后乘法器405的按比例缩放的随机信号输出 由感觉滤波处理。
进行一个和图3中的非话音编码器的感觉滤波处理相同的两步感觉滤波处理。感觉滤波器408进行和图3中的非话音编码器中的感觉滤波器318完全相同的操作。随机信号 被通过感觉滤波器408中的两个固定滤波器。带通滤波器407和初始成形滤波器409和图3的非话音编码器中的感觉滤波器318中使用的带通滤波器320和初始成形滤波器322完全相同。带通滤波器407和初始成形滤波器409以后的输出分别被表示为 和 信号 和 如图3的非话音编码器中一样进行计算。
信号 在最后成形滤波器410中滤波。最后成形滤波器410和图3的非话音编码器中的最后成形滤波器316相同。如由图3的非话音编码器处产生的滤波器选择指示所确定的和解码器214处的数据比特包中接收的那样,最后成形滤波器410进行或者是高通最后成形滤波,低通最后成形滤波,或者是不进行最后滤波。从最后成形滤波器410输出的量化残余信号r(n)被按比例缩放使其具有和 相同的能量。
量化的随机信号 由LPC综合滤波器412滤波以产生综合的语音信号
一个后续的后滤波器414可以被应用到综合的语音信号 以产生最后的输出语音。
图5是描绘用于非话音语音的高性能低比特率编码技术的编码步骤的流程图。
在步骤502,向一个非话音语音编码器(未显示)提供一个非话音数字化语音采样帧。每20毫秒提供一个新帧。在一个以每秒8k比特的速率采样非话音语音的实施例中,一个帧包含160个采样。控制流程进行到步骤504。
在步骤504,由LPC滤波器滤波数据帧,产生一个残余信号帧。控制流程进行到步骤506。
步骤506-516描述增益计算和残余信号帧的量化的方法步骤。
在步骤506,残余信号帧被分解成子帧。在一个实施例中,每一个帧被分解成十个每一个有十六采样的子帧。控制流程进行到步骤508。
在步骤508,对每一个子帧计算增益。在一个实施例中,计算十个子帧增益。控制流程进行到步骤510。
在步骤510,子帧增益被分解成子组。在一个实施例中,10个子帧增益被分解成每一个有五个子帧增益的两个子组。控制流程进行到步骤512。
在步骤512,每一个子组的增益被标准化,以便于对每一个子组产生一个标准化因子。在一个实施例中,为每一个有五个增益的两个子组产生了两个标准化因子。控制流程进行到步骤514。
在步骤514,步骤512中产生的标准化因子被转换到对数域或指数形式,然后被量化。在一个实施例中,产生一个量化的标准化因子,在下文中将被称为指数1。控制流程进行到步骤516。
在步骤516,步骤512中产生的每一个子组的标准化增益被量化。在一个实施例中,两个子组被量化,以产生两个量化增益值,在下文中将被称为指数2和指数3。控制流程进行到步骤518。
步骤518-520叙述了产生一个随机量化非话音语音信号的方法步骤。
在步骤518,为每一个子帧产生一个随机噪声信号。对每一个子帧选择一个所产生的预定百分比的最高振幅随机数。未被选择的数被置零。在一个实施例中,被选择的随机数的百分比为25%。控制流程进行到步骤520。
在步骤520,由步骤516中产生的每一个子帧的量化增益按比例缩放被选择的随机数。控制流程进行到步骤522。
步骤522-528叙述了感觉滤波随机信号的方法步骤。步骤522-528的感觉滤波提高了感觉质量并且保持了随机的量化非话音语音信号的自然属性。
在步骤522,随机的量化非话音语音信号被带通滤波以消除高端和低端成分。控制流程进行到步骤524。
在步骤524,将一个固定的初步成形滤波器应用到随机的量化非话音语音信号。控制流程进行到步骤526。
在步骤526,分析随机信号和初始的残余信号的低带能和高带能。控制流程进行到步骤528。
在步骤528,将初始残余信号的能量分析和随机信号的能量分析比较,以确定随机信号的进一步滤波是否必要。以该分析为基础,或者不滤波,或者选择两个预定的最后滤波器中的一个滤波器以进一步滤波随机信号。两个预定的最后滤波器是一个高通最后成形滤波器和一个低通最后成形滤波器。产生一个滤波器选择指示信息以向解码器指出哪一个最后滤波器(或没有滤波器)被应用。在一个实施例中,滤波器选择指示信息是2比特。控制流程进行到步骤530。
在步骤530,传输用于步骤514中产生的量化标准化因子的一个指数,用于步骤516中产生的量化子组增益的指数以及步骤528中产生的滤波器选择指示信息。在一个实施例中,传输指数1,指数2,指数3和一个2比特最后滤波器选择指示。包括传输量化LPC参数指数所需要的比特,一个实施例的比特率为每秒2k比特。(LPC参数的量化不在本揭示的实施例的范围之内。)
图6是描绘非话音语音的高性能低比特率编码技术的解码步骤的流程图。
在步骤602,为一个非话音语音帧接收一个标准化因子指数,量化子组增益指数,和一个最后滤波器选择指示。在一个实施例中,接收指数1,指数2,指数3和一个2比特最后滤波器选择指示。控制流程进行到步骤604。
在步骤604,用标准化因子指数从查找表中恢复标准化因子。标准化因子从对数域或指数形式转换到线性形式。控制流程进行到步骤606。
在步骤606,用增益指数从查找表中恢复增益。恢复的增益由恢复的标准化因子按比例缩放以恢复初始帧的每一个子组的量化增益。控制流程进行到步骤608。
在步骤608中,完全如在编码中一样,为每一个子帧产生一个随机噪声信号。对每一个子帧选择一个所产生的预定百分比的最高振幅随机数。未选择的数被置零。在一个实施例中,被选择的随机数的百分比为25%。控制流程进行到步骤610。
在步骤610中,选择的随机数由步骤606中恢复的每一个子帧的量化增益按比例缩放。
步骤612-616叙述了用于感觉滤波随机信号的解码方法步骤。
在步骤612,随机量化非话音语音信号被带通滤波以消除高端和低端成分。带通滤波器和在编码中使用的带通滤波器完全一样。控制流程进行到步骤614。
在步骤614中,将一个固定的初步成形滤波器应用到随机的量化非话音语音信号。固定的初步成形滤波器和在编码中使用的固定的初步成形滤波器完全一样。控制流程进行到步骤616。
在步骤616中,以滤波器选择指示信息为基础,或者不滤波,或者选择两个预定的最后滤波器中的一个滤波器以在最后成形滤波中进一步滤波随机信号。最后成形滤波器的两个预定的滤波器是一个高通最后成形滤波器(滤波器2)和一个低通最后成形滤波器(滤波器3),和编码器的高通最后成形滤波器和低通最后成形滤波器完全一样。从最后成形滤波器输出的量化随机信号被按比例缩放,使其具有和带通滤波器的信号输出相同的能量。量化的随机信号由一个LPC综合滤波器滤波以产生一个综合的语音信号。可以对该综合的语音信号应用一个后续的后滤波器以产生最后的经解码的输出语音。
图7A是标准化的频率相对于带能分析器(314,324)中的低通滤波器的振幅频率响应的曲线图,该带能分析器被用于分析在从编码器的LPC滤波器(304)输出的残余信号r(n),以及从编码器的初步成形滤波器(322)输出的按比例缩放和经滤波的随机信号 中的低带能。
图7B是标准化的频率相对于带能分析器(314,324)中的高通滤波器的振幅频率响应的曲线图,该带能分析器被用于分析在从编码器的LPC滤波器(304)输出的残余信号r(n),以及从编码器的初步成形滤波器(322)输出的按比例缩放和经滤波的随机信号 中的高带能。
图8A是标准化的频率相对于带通滤波器(320,407)中的低带通最后成形滤波器的振幅频率响应的曲线图,该带通滤波器被用于成形从编码器和解码器的乘法器(307,405)输出的按比例缩放的随机信号
图8B是标准化的频率相对于初步成形滤波器(322,409)中的高带通成形滤波器的振幅频率响应的曲线图,该初步成形滤波器被用于成形从编码器和解码器的带通滤波器(320,407)输出的按比例缩放的随机信号
图8C是标准化的频率相对于最后成形滤波器(316,410)中的高带通最后成形滤波器的振幅频率响应的曲线图,该最后成形滤波器被用于成形从编码器和解码器的初步成形滤波器(322,409)输出的按比例缩放和经滤波的随机信号
图8D是标准化的频率相对于最后成形滤波器(316,410)中的低带通最后成形滤波器的振幅频率响应的曲线图,该最后成形滤波器被用于成形从编码器和解码器的初步成形滤波器(322,409)输出的按比例缩放和经滤波的随机信号
前面对优选实施例的叙述被提供来使在本技术领域熟练的任何人士都能实施或利用本揭示的实施例。对于这些技术上熟练的人士而言,对这些实施例进行各种修改将是容易和显而易见的,并且本文中定义的通用原理也可以不再需要用创造才能而被应用到其他实施例中。这样,本揭示的实施例不希望仅被限制于本文显示的实施例,而应有和本文中揭示的原理和新颖特征相符合的宽范围。

Claims (65)

1.一种编码非话音语音片段的方法,其特征在于,该方法包括:
将一个线性预测残余信号帧划分成多个子帧;
通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益;
将该子帧增益组分解成子帧增益子组;
标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;
将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化;
将标准化的子帧增益子组量化,以产生多个量化码本增益,其中量化码本增益的每一个是指多个子组的每一个的码本增益指数;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
选择与每一子帧相关联的随机噪声信号的一预定百分比的最高振幅随机数;
对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号;
带通滤波和成形该按比例缩放的随机噪声信号,以产生一经带通滤波和成形后的随机噪声信号;
分析线性预测残余信号帧的能量和经带通滤波和成形后的随机噪声信号的能量以产生能量分析;
在能量分析的基础上选择第二滤波器并用该选择的滤波器进一步成形所述经带通滤波和成形后的随机噪声信号;以及
产生一个第二滤波器选择指示以识别该选择的滤波器。
2.如权利要求1所述的方法,其特征在于,其中将一个线性预测残余信号帧划分成多个子帧的步骤包括将一个线性预测残余信号帧划分成10个子帧。
3.如权利要求2所述的方法,其特征在于,其中将该子帧增益组分解成子帧增益子组的步骤包括将一组十个子帧增益划分成两组,每组五个子帧增益。
4.如权利要求1所述的方法,其特征在于,其中线性预测残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
5.如权利要求1所述的方法,其特征在于,其中预定的最高振幅随机数的百分比为百分之二十五。
6.如权利要求3所述的方法,其特征在于,其中为该两个子组分别产生一个标准化因子。
7.如权利要求1所述的方法,其特征在于,其中量化子帧增益是用多级矢量量化进行的。
8.一种编码非话音语音片段的方法,其特征在于,该方法包括:
将一个线性预测残余信号帧划分成子帧,每一个子帧有一个与其相关的码本增益;
量化码本增益以产生码本增益指数;
通过与子帧相关联的码本增益指数按比例缩放和每一个子帧相关联的预定百分比的最高振幅随机噪声;
对按比例缩放的随机噪声进行一次第一滤波;
将经第一滤波后的随机噪声的能量和线性预测残余信号的能量比较;
以该比较为基础对该经第一滤波后的随机噪声进行一次第二滤波;
产生一个第二滤波器选择指示以识别所进行的第二滤波。
9.如权利要求8所述的方法,其特征在于,其中将一个线性预测残余信号帧划分成子帧的步骤包括将一个线性预测残余信号帧划分成10个子帧。
10.如权利要求8所述的方法,其特征在于,其中线性预测残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
11.如权利要求8所述的方法,其特征在于,其中预定百分比为百分之二十五。
12.如权利要求8所述的方法,其特征在于,其中量化码本增益以产生码本增益指数是用多级矢量量化进行的。
13.一种用于编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
将一个线性预测残余信号帧划分成多个子帧的装置;
通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益的装置;
将该子帧增益组分解成子帧增益子组的装置;
标准化子帧增益子组以产生多个标准化因子的装置,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;
将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化的装置;
将标准化的子帧增益子组量化,以产生多个量化码本增益的装置,其中量化码本增益的每一个是指多个子组的每一个的码本增益指数;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的装置;
选择与每一个子帧相关联的随机噪声信号的一预定百分比的最高振幅随机数的装置;
对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的装置;
带通滤波和成形该按比例缩放的随机噪声信号以产生经带通滤波和成形后的随机噪声信号的装置;
分析线性预测残余信号帧的能量和经带通滤波和成形后的随机噪声信号的能量以产生能量分析的装置;
在能量分析的基础上选择第二滤波器并用该选择的滤波器进一步成形经带通滤波和成形后的随机噪声信号的装置;以及
产生一个第二滤波器选择指示以识别该选择的滤波器的装置。
14.如权利要求13所述的语音编码器,其特征在于,其中将一个线性预测残余信号帧划分成多个子帧的装置包括将一个线性预测残余信号帧划分成10个子帧的装置。
15.如权利要求14所述的语音编码器,其特征在于,其中将该组子帧增益划分成子组的装置包括将一组十个子帧增益划分成两个组,其中每个组为五个子帧增益的装置。
16.如权利要求13所述的语音编码器,其特征在于,其中选择一预定百分比的最高振幅随机数的装置包括选择百分之二十五的最高振幅随机数的装置。
17.如权利要求15所述的语音编码器,其特征在于,其中标准化子组的装置包括为该两个子组分别产生一个标准化因子的装置。
18.如权利要求13所述的语音编码器,其特征在于,其中量化子帧增益的装置包括进行多级矢量量化的装置。
19.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
将一个线性预测残余信号帧划分成子帧的装置,每一个子帧有一个与其相关的码本增益;
量化码本增益以产生码本增益指数的装置;
通过与子帧相关联的码本增益指数按比例缩放和每一个子帧相关联的预定百分比的最高振幅随机噪声的装置;
对按比例缩放的随机噪声进行一次第一滤波的装置;
将经第一滤波后的随机噪声的能量和线性预测残余信号的能量比较的装置;
以该比较为基础对该经第一滤波后的随机噪声进行一次第二滤波的装置;
产生一个第二滤波器选择指示以识别所进行的第二滤波的装置。
20.如权利要求19所述的语音编码器,其特征在于,其中将一个线性预测残余信号帧划分成子帧的装置包括将一个线性预测残余信号帧划分成10个子帧的装置。
21.如权利要求19所述的语音编码器,其特征在于,其中按比例缩放预定百分比的最高振幅随机噪声的装置包括一个按比例缩放百分之二十五的最高振幅随机噪声的装置。
22.如权利要求19所述的语音编码器,其特征在于,其中量化码本增益以产生码本增益指数的装置包括进行多级矢量量化的装置。
23.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
一个增益计算部件,该部件配置成将一个线性预测残余信号帧划分成多个子帧,通过为多个子帧中的每一个子帧计算一个码本增益建立一组子帧增益,将该组子帧增益划分成子帧增益子组,标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子中的每一个因子都和标准化的子帧增益子组中的一个子组相关联,以及将多个标准化因子中的每一个因子都转换成指数形式;
一个增益量化器,该量化器配置成量化经转换的多个标准化因子以产生量化的标准化因子指数,以及量化标准化的子帧增益子组以产生多个量化码本增益,其中量化码本增益中的每一个是指多个子组中的每一个子组的码本增益指数;
一个随机数产生器,该产生器配置成对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
一个随机数选择器,该选择器配置成对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;
一个乘法器,该乘法器配置成为每一个子帧用量化的码本增益按比例缩放经选择的最高振幅随机数,以产生按比例缩放的随机噪声信号;
一个用于从按比例缩放的随机噪声信号中消除低端和高端频率以产生经带通滤波的随机噪声信号的带通滤波器;
一个用于感觉滤波该经带通滤波的随机噪声信号以产生经感觉滤波的随机噪声信号的第一成形滤波器;
一个非按比例缩放的带能分析器,该分析器配置成分析线性预测残余信号的能量;
一个按比例缩放的带能分析器,该分析器配置成分析经感觉滤波的随机噪声信号的能量,以及产生一个和经感觉滤波的随机噪声信号的能量相比较的线性预测残余信号能量的相关能量分析;
一个第二成形滤波器,该滤波器配置成在相关能量分析的基础上选择一个第二滤波器,用该选择的滤波器进一步成形经感觉滤波的随机噪声信号,并且产生一个第二滤波器选择指示以识别该选择的滤波器。
24.如权利要求23所述的语音编码器,其特征在于,其中带通滤波器和第一成形滤波器是固定的滤波器。
25.如权利要求23所述的语音编码器,其特征在于,其中第二成形滤波器用两个固定的成形滤波器配置。
26.如权利要求23所述的语音编码器,其特征在于,其中配置成产生一个第二滤波器选择指示以识别该选择的滤波器的第二成形滤波器被进一步配置成产生一个两比特滤波器选择指示。
27.如权利要求23所述的语音编码器,其特征在于,其中配置成将一个线性预测残余信号帧划分成多个子帧的增益计算部件被进一步配置成将线性预测残余信号帧划分成十个子帧。
28.如权利要求23所述的语音编码器,其特征在于,其中增益计算部件被进一步配置成将一组十个子帧增益划分成两个组,其中每组为五个子帧增益。
29.如权利要求23所述的语音编码器,其特征在于,其中配置成选择一预定百分比的最高振幅随机数的随机数选择器被进一步配置成选择百分之二十五的最高振幅随机数。
30.如权利要求23所述的语音编码器,其特征在于,其中增益计算部件被进一步配置成为每一个为五个子帧码本增益的两个子组产生两个标准化因子。
31.如权利要求23所述的语音编码器,其特征在于,其中增益量化器被进一步配置成进行多级矢量量化。
32.一种编码非话音的语音片段的语音编码器,其特征在于,该编码器包括:
一个增益计算部件,该元件配置成将一个线性预测残余信号帧划分成多个子帧,每一个子帧都有一个与其相关联的码本增益;
一个增益量化器,该量化器配置成量化码本增益以产生码本增益指数;
一个随机数选择器和乘法器,被配置成通过和子帧有关的码本增益指数按比例缩放一个和每一个子帧有关的预定百分比的最高振幅随机噪声;
一个第一感觉滤波器,该感觉滤波器配置成对按比例缩放的随机噪声进行第一滤波;
一个带能分析器,该分析器配置成将经第一滤波后的随机噪声的能量和线性预测残余信号的能量进行比较;
一个第二成形滤波器,该滤波器配置成在该比较的基础上对该经第一滤波后的随机噪声进行第二滤波,并且产生一个第二滤波器选择指示以识别所进行的第二滤波。
33.如权利要求32所述的语音编码器,其特征在于,其中被配置成将线性预测残余信号帧划分成子帧的增益计算部件被进一步配置成将线性预测残余信号帧划分成十个子帧。
34.如权利要求32所述的语音编码器,其特征在于,其中被配置成按比例缩放预定百分比的最高振幅随机噪声的随机噪声选择器和乘法器被进一步配置成按比例缩放百分之二十五的最高振幅随机噪声。
35.如权利要求32所述的语音编码器,其特征在于,其中被配置成量化码本增益以产生码本增益指数的增益量化器被进一步配置成进行多级矢量量化。
36.如权利要求32所述的语音编码器,其特征在于,其中被配置成对按比例缩放的随机噪声进行第一滤波的第一感觉滤波器被进一步配置成用一个固定的带通滤波器和一个固定的成形滤波器对按比例缩放的随机噪声进行滤波。
37.如权利要求32所述的语音编码器,其特征在于,其中被配置成对经第一滤波后的随机噪声进行第二滤波的第二成形滤波器被进一步配置成具有两个固定的滤波器。
38.如权利要求32所述的语音编码器,其特征在于,其中被配置成产生一个第二滤波器选择指示的第二成形滤波器被进一步配置成产生一个两比特滤波器选择指示。
39.一种解码非话音语音片段的方法,其特征在于,该方法包括:
用接收到的多个子帧的标准化因子指数和量化子组增益指数恢复一组量化增益;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
选择与每一个子帧相关联的随机噪声信号的预定百分比的最高振幅随机数;
对每一个子帧用被恢复的量化增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号;
带通滤波和成形该按比例缩放的随机噪声信号,以产生经带通滤波和成形后的随机噪声信号;以及
在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形经带通滤波和成形后的随机噪声信号。
40.如权利要求39所述的方法,其特征在于,该方法进一步包括用一个线性预测编码综合滤波器进一步滤波经第二滤波器进一步成形的随机噪声。
41.如权利要求39所述的方法,其特征在于,其中多个子帧包括经编码的非话音语音的每帧十个子帧的划分。
42.如权利要求39所述的方法,其特征在于,其中多个子帧包括被划分成子组的子帧增益。
43.如权利要求41所述的方法,其特征在于,其中子组包括将一个十个子帧增益的组划分成两个组,每组为五个子帧增益。
44.如权利要求41所述的方法,其特征在于,其中经编码的非话音语音帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
45.如权利要求39所述的方法,其特征在于,其中预定百分比为百分之二十五。
46.如权利要求43所述的方法,其特征在于,其中为每一组为五个子帧增益的两个子组恢复两个标准化因子。
47.如权利要求39所述的方法,其特征在于,其中恢复一组量化增益是用多级矢量量化进行的。
48.一种解码非话音语音片段的方法,其特征在于,该方法包括:
从接收到的和每一个子帧有关的标准化因子指数和量化子组增益指数恢复划分成子帧增益的量化增益;
通过和每一个子帧有关的标准化因子指数和量化子组增益指数按比例缩放和每一个子帧有关的预定百分比的最高振幅随机噪声;
对按比例缩放的随机噪声进行第一滤波;
对该经第一滤波后的随机噪声进行由一个接收到的滤波器选择指示确定的第二滤波。
49.如权利要求48所述的方法,其特征在于,该方法包括用一个线性预测编码综合滤波器进一步滤波经第二滤波后的随机噪声。
50.如权利要求48所述的方法,其特征在于,其中子帧增益包括经编码的非话音语音的每帧十个子帧增益的划分。
51.如权利要求50所述的方法,其特征在于,其中经编码的非话音语音帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
52.如权利要求48所述的方法,其特征在于,其中预定百分比是百分之二十五。
53.如权利要求48所述的方法,其特征在于,其中恢复的量化增益是通过多级矢量量化进行量化的。
54.一种解码非话音语音片段的解码器,其特征在于,该解码器包括:
用接收到的多个子帧的标准化因子指数和量化子组增益指数恢复一组量化增益的装置;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的装置;
选择与每一个子帧相关联的随机噪声信号的预定百分比的最高振幅随机数的装置;
对每一个子帧用被恢复的量化增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的装置;
带通滤波和成形该按比例缩放的随机噪声信号以产生经带通滤波和成形后的随机噪声信号的装置;以及
在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形经带通滤波和成形后的随机噪声信号的装置。
55.如权利要求54所述的解码器,其特征在于,该解码器包括用一个线性预测编码综合滤波器进一步滤波经第二滤波器进一步成形的随机噪声的装置。
56.如权利要求54所述的解码器,其特征在于,其中用于选择与每一个子帧相关联的随机噪声信号的预定百分比的最高振幅随机数的装置进一步包括用于选择百分之二十五的最高振幅随机数的装置。
57.一种解码非话音的语音片段的解码器,其特征在于,该解码器包括:
一个配置成用接收到的多个子帧的标准化因子指数和量化子组增益指数恢复一组量化增益的增益去量化器;
一个配置成对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的随机数产生器;
一个配置成选择与每一个子帧相关联的随机噪声信号的预定百分比的最高振幅随机数的随机数选择器;
一个配置成通过恢复的每一个帧的量化增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的随机数乘法器;
一个滤波和成形按比例缩放的随机噪声信号以产生经带通滤波和成形后的随机噪声信号的带通滤波器和第一成形滤波器;以及
一个配置成在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形经带通滤波和成形后的随机噪声信号的第二成形滤波器。
58.如权利要求57所述的解码器,其特征在于,该解码器进一步包括一个线性预测编码综合滤波器,它被配置成进一步滤波经第二滤波器进一步成形的随机噪声。
59.如权利要求57所述的解码器,其特征在于,其中配置成选择随机噪声信号的预定百分比的最高振幅随机数的随机数选择器被进一步配置成选择百分之二十五的最高振幅随机数。
60.一种解码非话音语音片段的解码器,其特征在于,该解码器包括:
从接收到的和每一个子帧有关的标准化因子指数和量化子组增益指数恢复划分成子帧增益的量化增益的装置;
通过和每一个子帧有关的标准化因子指数和量化子组增益指数按比例缩放和每一个子帧有关的预定百分比的最高振幅随机噪声的装置;
对按比例缩放的随机噪声进行第一滤波的装置;
对该经第一滤波后的随机噪声进行由一个接收到的滤波器选择指示确定的第二滤波的装置。
61.如权利要求60所述的解码器,其特征在于,该解码器包括用一个线性预测编码综合滤波器进一步滤波经第二滤波的随机噪声的装置。
62.如权利要求60所述的解码器,其特征在于,其中按比例缩放和每一个子帧有关的预定百分比的最高振幅随机噪声的装置进一步包括按比例缩放和每一个子帧有关的25%的最高振幅随机噪声的装置。
63.一种解码非话音的语音片段的解码器,其特征在于,该解码器包括:
一个被配置成从接收到的和每一个子帧有关的标准化因子指数和量化子组增益指数恢复被分解成子帧增益的量化增益的增益去量化器;
一个被配置成通过和子帧有关的标准化因子指数和量化子组增益指数按比例缩放和每一个子帧有关的预定百分比的最高振幅随机噪声的随机数选择器和乘法器;
一个被配置成对按比例缩放的随机噪声进行一个第一感觉滤波的第一成形滤波器;
一个被配置成对该经第一滤波后的随机噪声进行一个由一个接收到的滤波器选择指示确定的第二滤波的第二成形滤波器。
64.如权利要求63所述的解码器,其特征在于,该解码器包括一个线性预测编码综合滤波器,它被配置成进一步滤波经第二滤波的随机噪声。
65.如权利要求63所述的解码器,其特征在于,其中配置成按比例缩放和每一个子帧有关的预定百分比的最高振幅随机噪声的随机数选择器和乘法器进一步配置成按比例缩放和每一个子帧有关的25%的最高振幅随机噪声。
HK04103354.0A 2000-10-17 2001-10-06 用於編碼和解碼非話音語音的方法和設備 HK1060430B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/690,915 US6947888B1 (en) 2000-10-17 2000-10-17 Method and apparatus for high performance low bit-rate coding of unvoiced speech
US09/690,915 2000-10-17
PCT/US2001/042575 WO2002033695A2 (en) 2000-10-17 2001-10-06 Method and apparatus for coding of unvoiced speech

Publications (2)

Publication Number Publication Date
HK1060430A1 HK1060430A1 (zh) 2004-08-06
HK1060430B true HK1060430B (zh) 2007-08-03

Family

ID=

Similar Documents

Publication Publication Date Title
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN100350453C (zh) 强壮语音分类方法和装置
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
US8346544B2 (en) Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
JP4489960B2 (ja) 音声の無声セグメントの低ビットレート符号化
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1279510C (zh) 用来对相位谱信息进行子抽样的方法和设备
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
HK1060430B (zh) 用於編碼和解碼非話音語音的方法和設備
HK1064196B (zh) 用來對相位譜信息進行子抽樣的方法和設備
HK1067444B (zh) 強壯語音分類方法和裝置
HK1055833B (zh) 閉環多模混合域線性預測語音編解碼器和處理幀的方法
HK1091584A (zh) 語音中非話音部分的低數據位速率編碼