CN111210831B - 基于频谱拉伸的带宽扩展音频编解码方法及装置 - Google Patents
基于频谱拉伸的带宽扩展音频编解码方法及装置 Download PDFInfo
- Publication number
- CN111210831B CN111210831B CN201811397265.4A CN201811397265A CN111210831B CN 111210831 B CN111210831 B CN 111210831B CN 201811397265 A CN201811397265 A CN 201811397265A CN 111210831 B CN111210831 B CN 111210831B
- Authority
- CN
- China
- Prior art keywords
- frequency
- frequency domain
- spectrum
- bandwidth
- domain grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 245
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000003595 spectral effect Effects 0.000 claims description 159
- 230000005236 sound signal Effects 0.000 claims description 28
- 238000007493 shaping process Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010021403 Illusion Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
基于频谱拉伸的带宽扩展音频编解码方法及装置。本发明涉及用于带宽扩展的音频编码方法及装置。所述音频具有低频部分与高频部分,所述方法包括步骤:将高频部分进行频域栅格划分得到频域栅格区域;在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子;和向解码端传送与拉伸因子有关的拉伸信息。本发明还涉及用于带宽扩展的音频解码方法及装置。
Description
技术领域
本发明的实施例涉及数字音频编解码技术,尤其涉及一种用于带宽扩展的音频编码方法及装置,以及用于带宽扩展的音频解码方法及装置。
背景技术
传统的感觉音频编码技术(DRA、AAC和MP3等)的立体声典型工作码率是96-128kbps,且在64kbps/立体声以下时编码质量存在明显的主观感觉失真。调频广播应用的典型编码码率为48kbps-64kbps/立体声,这时传统感觉音频编码技术的主观声音质量已不能满足调频广播要求。
如图1所示,提出了数字音频信号的带宽扩展(BandWidth Extension,简称BWE)编码技术。如图1所示,一个全频带单声道音频信号的低频部分采用传统的感觉音频编码(如AAC或DRA),而高频部分采用BWE进行参数编码,从而实现了一种低码率音频编码的方法。
目前的带宽扩展编码技术有很多,性能也参差不齐。已经公开且用于国际标准中带宽扩展编码技术主要由如下两种编码算法:
第一种带宽扩展编码技术是ISO/IEC 14496-3MPEG-4中描述的频谱带复制(Spectral Bandwidth Replication,简称SBR)编码。图2示出了SBR编码的具体原理框图。SBR是频域处理的算法,其编码原理为:每帧信号通过64子带的正交镜像滤波器组(Quadrature Mirror Filter,简称QMF)获得64个均匀的子频带,每个子频带包含32个样点,根据当前信号的瞬态特性划分一个合理的时频栅格,每个栅格计算一个能量信息并进行霍夫曼(Huffman)编码。该算法同时包括音调性检查并传输个别的单个正弦信号参数信息。
图3示出了SBR解码的具体原理框图。SBR解码原理为:经过核心解码器(AAC)输出的解码pcm通过32子带的QMF获得32个均匀的子频带,每个子频带包含32个样点,根据SBR解复用输出的控制参数进行高频生成,然后根据控制参数以及包络数据对高频进行调整,然后将低频32子带QMF的输出以及经调整后高频子带QMF的输出一起进入到64带QMF合成,最后输出全频带pcm音频信号。
SBR中用低频子带k生成高频子带m的简要示意图如图4所示。在SBR中,低频子带k生成高频子带m的公式为:
x[m][n]=x[k][n]+bw(k)·a0·x[k][n-1]+(bw(k))2·a1·x[k][n-2](1)
其中:a0和a1是预测系数;bw(k)为弯曲因子,范围是0-0.98,具体值由控制参数决定,其含义是当高频的音调性强时,bw(k)偏向于0;当高频的音调性弱、甚至是类噪时,bw(k)偏向于0.98。
从上述公式(1)可以看到:
当bw(k)=0时,高频子带m就是由低频子带k直接拷贝生成;
当bw(k)=0.98时,高频子带m就是由低频子带k的预测残差生成。
因此,SBR技术在高频生成时的主要问题是,SBR的高频细节就是低频拷贝或者低频残差拷贝获得,这种技术在音频信号的低频和高频差别很大时,会出现较大的问题,因为SBR高频的细节恢复比较粗糙,所以在整个高频部分的还原上难以获得较高的质量。
第二种带宽扩展编码技术是在3GPP AMR-WB+编码方法中包含的一种简单的带宽扩展技术。它是一种时域处理的算法,主要编码原理是:将输入信号分为同样带宽的低频和高频两部分时域信号,低频(LF)部分通过线性预测编码(Linear Prediction Coding,简称“LPC”)分析滤波处理得到低频信号的残差信号,然后经过高频LPC合成滤波来模拟高频细节信号;然后通过与实际SHF(n)的实际高频信号比较,得到高频包络(能量)的增益矢量(每子帧一个增益值),最后通过低频高频和低频连接点的增益的一致性进一步修正增益矢量,然后编码此修正增益矢量。因此传输给解码端的包括修正增益矢量和高频LPC系数。AMR-WB+的高频解码过程基本是编码的反过程。
AMR-WB+中高频生成方法的简要示意图如图5所示。图中Fs是指经过重采样后的信号采样率。AMR-WB+中高频生成的简要过程为:经过重采样后频率为Fs的信号经过低通滤波2倍下采样后得到采样率为Fs/2的低频信号;该低频信号经过预测后得到低频残差信号;将该残差信号的谱反转后激励高频的预测滤波器,生成高频信号。
AMR-WB+的带宽扩展技术在高频生成的起始频带固定,只能是Fs/4,降低了带宽扩展技术的灵活性。对于大多数信号来说,越靠近低频,音调性越强,越靠近高频,音调性越弱,甚至是类噪性的,可是通过图5可以看出,带宽扩展中最高频的信号部分是由核心编码器中最低频的信号部分生成,所以对于大部分信号,这种拷贝使得经AMR-WB+的带宽扩展后的信号的高频部分有强烈的音调性,使主观质量大大降低。
在SBR带宽扩展编解码算法中,高频信号细节的重建时通过低频部分拷贝得到,或者对低频部分采用简单的2阶滤波得到;由于没有考虑所替换的高频部分内容,这种方法得到的高频细节包络形状或者与低频部分相同;或者滤波后接近白噪声的平坦频谱。
另外,AMR-WB+的带宽扩展技术则通过高频部分的LPC方式获得高频部分的谱包络,但是LPC的计算占用一定的运算复杂度,同时预测系数的编码需要占用较多的比特率(由于BWE技术一般应用于低码率音频编码,此时LPC系数编码所占用的比特率就有可能造成低频部比特率不足而造成低频量化失真过大,影响整体主观声音质量)。
一般BWE解码过程为:高频细节谱系数的产生都是从低频部分拷贝过来,然后进行滤波或者谱包络形状调整(例如SBR,AMR-WB+带宽扩展部分),最后再进行增益调整(重建本高频部分的总能量)。
通常所要拷贝而选取的低频部分带宽(或者谱线数),和替换的目标高频部分细节的带宽(或谱线数)一样。
当音频编码码率较低时,低频编码部分(通常采用感觉音频编码,如AAC、DRA等)频率较低(核编码器编码的音频低频部分偏低),带宽扩展技术BWE要编码的高频部分较多(宽)时,可能出现低频部分连续拷贝两次及以上情况(如SBR),这时重建的高频频谱系数的细节通常与原始高频部分频谱系数的细节出现较大偏差,从而影响高频重建效果,最终降低整体主观声音质量。
另外,对于强谐波类音频信号,这类音频信号除了基频信号外还存在丰富的高次谐波成分(泛音),使得整个音频信号听起来更丰满、平滑和明亮等(音色)。对于这一类信号BWE编解码,由于高频含有大量的弦信号,都通过独立弦信号编码则需要大量的编码信息,这在低码率编码时无法保证;因此从低频如何拷贝到高频来重建高频细节就非常重要。简单的拷贝通常无法保证低频谱线中的基音及低次谐波正好替换原音频信号高频部分的高次谐波,从而改变音色带来高频失真。
发明内容
为缓解或解决上述问题中的至少一个方面,提出本发明。
根据本发明的实施例的一个方面,提出了一种用于带宽扩展的音频编码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:将高频部分进行频域栅格划分得到频域栅格区域;在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子;和向解码端传送与拉伸因子有关的拉伸信息。
根据本发明的实施例的另一方面,提出了一种用于带宽扩展的音频解码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:获取与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;基于拉伸信息从低频部分确定匹配的拷贝频谱;将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
根据本发明的实施例的又一方面,提出了一种用于带宽扩展的音频编码装置,所述音频具有低频部分与高频部分,所述装置包括:频域栅格划分模块,用于将高频部分进行频域栅格划分得到频域栅格区域;匹配模块,用于在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;拉伸因子确定模块,用于确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子;和发送模块,用于向解码端传送与拉伸因子有关的拉伸信息。
根据本发明的实施例的再一方面,提出了一种用于带宽扩展的音频解码装置,所述音频具有低频部分与高频部分,所述装置包括:拉伸因子确定模块,用于获取与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;拷贝频谱确定模块,用于从低频部分确定匹配的相应拷贝频谱;拉伸模块,用于将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和拷贝模块,用于将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
附图说明
以下描述与附图可以更好地帮助理解本发明所公布的各种实施例中的这些和其他特点、优点,其中:
图1为现有技术中基于带宽扩展的低码率音频编码框架的示意图;
图2为现有技术中SBR编码的示意性原理框图;
图3为现有技术中SBR解码的示意性原理框图;
图4为SBR中用低频子带k生成高频子带m的简要示意图;
图5为现有技术中AMR-WB+中高频生成方法的简要示意图;
图6为根据本发明的一个示例性实施例的用于带宽扩展的音频编码方法的流程图;
图7为根据本发明的一个示例性实施例的应用高频谱包络模板的BWE编码的示意性框图;
图8为根据本发明的一个示例性实施例的用于带宽扩展的音频解码方法的流程图;
图9为根据本发明的一个示例性实施例的应用高频谱包络模板的BWE解码的示意性框图;
图10为根据本发明的一个示例性实施例的一般音频信号的高频细节重建的示意图;
图11为根据本发明的一个示例性实施例的拉伸因子在时频方向上分组的示意图;
图12为根据本发明的一个示例性实施例的强谐波音频信号的高频细节重建的示意图;
图13为根据本发明的一个示例性实施例的在SBR技术中应用的基于频谱拉伸的SBR编码的示意性框图;
图14为根据本发明的一个示例性实施例的在SBR技术中应用的基于频谱拉伸的SBR解码的示意性框图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。在说明书中,相同或相似的附图标号指示相同或相似的部件。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释,而不应当理解为对本发明的一种限制。
在本发明中,对于基于拉伸的编码方法,主要包括:在BWE编码端,基于栅格的划分情况,比较低频部分和BWE编码的高频部分之间的信号特性确定一个(或者一组,一般依赖于一帧中时间栅格个数量)拉伸因子α,对拉伸因子α进行编码(编码方法可以是时间方向差分后量化,然后对差分进行线性编码,或者对一帧中的一组α进行矢量量化编码)成为α参数,后将α参数作为拉伸参数信息打包进入BWE码流信息中。
基于以上,如图6所示,本发明提出了一种用于带宽扩展的音频编码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:
将高频部分进行频域栅格划分得到频域栅格区域;
在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;
确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子;和
向解码端传送与拉伸因子有关的拉伸信息。
图7为根据本发明的一个示例性实施例的应用高频谱包络模板的BWE编码的示意性框图。
在本发明中,线性拉伸因子中的线性表示在执行拉伸时,直接以拷贝频谱的拉伸因子倍数在频域上进行线性的比例拉伸。
在本发明中,M可以为1,这在本发明的保护范围之内。在M为1的情况下,如果在时域上没有进一步栅格划分,则该一个频域栅格区域对应一个拷贝频谱,也对应一个拉伸因子。在M为1的情况下,如果在时域上有进一步栅格划分为多个时域栅格区域,则该一个频域栅格区域可以对应一个拷贝频谱(该拷贝频谱可以同时应用于该多个时域栅格区域)或者多个拷贝频谱,同时存在多个拉伸因子,不过,该多个拉伸因子在数值上可以相同,也可以不同。
还需要指出的是,频域划分时,高频部分除了M个频域栅格区域之外,还可以具有其他的频域栅格区域。
在本发明中,M也可以大于1。此时,所述拉伸因子可包括与所述M个频域栅格区域分别对应的M个拉伸因子。同样可以理解的,M个拉伸因子在数值上可以彼此相同,也可以不同。
在M大于1的情况下,可选的,与所述M个频域栅格区域匹配的低频部分的M个拷贝频谱均不重叠。
在本发明中,拷贝频谱之间重叠,包括了频域上的部分重叠,也包括了两个拷贝频谱相同的情况,均在本发明的保护范围内。
在M大于1的情况下,可选的,与所述M个频域栅格区域匹配的低频部分的M个拷贝频谱中的至少两个拷贝频谱存在重叠。
在M大于1的情况下,可选的,与所述M个频域栅格区域匹配的M个拷贝频谱中至少两个拷贝频谱的带宽彼此不同;和/或所述M个频域栅格区域中至少两个频域栅格区域的带宽彼此不同。
在M大于1的情况下,可选的,所述M个频域栅格区域的带宽彼此相同。
图10为根据本发明的一个示例性实施例的一般音频信号的高频细节重建的示意图。这里的一般音频信号为非强谐波类音频信号。在这种情况下,高频部分没有强谐波信号或者高次谐波信号,当编码码率较低时,低频编码部分的最高谱线(FL)比较低(这时,现有技术中的方法是需要将低频拷贝2次或更多次),如果确定了要拷贝的低频部分的带宽为BWL=FL-FS(其中FS为起始谱线,BWL的选取也可以不以FL结束,而是以FE终止谱线结束,这时BWL=FE-FS,因此需要将起始和终止谱线标号作为参数传送给接收端或者编码端),重建高频部分的带宽为BWH,=FH-FL则定义一个拉伸因子α=BWH/BWL。这样通过一次拷贝及拉伸处理即可获得高频部分谱系数的细节,其中线性拉伸处理方法可以采用α倍重采样实现。
基于以上,在高频部分没有强谐波信号或者高次谐波信号时,所述拉伸因子可为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。例如,在图10中,拉伸因子为1.6。
拷贝频谱具有对应的低频起始谱线与低频终止谱线。
如图10所示,一个拷贝频谱的所述低频终止谱线为低频部分的最高谱线。
图11为根据本发明的一个示例性实施例的拉伸因子在时频方向上分组的示意图。
如图11所示,BWE的高频部分可以根据栅格划分(频率方向)组合成M个拉伸区域BWH1、BWH2…BWHM(要求BWH=BWH1+BWH2+…+BWHM。每个区域可以在低频部分匹配有一个相关的频谱段,或者每个区域在低频部分找到最相关的一部分低频分别为BWL1、BWL2…BWLM(其中各个部分可以重叠),然后得出一组α,即α1=BWH1/BWL1、α2=BWH2/BWL2…αM=BWHM/BWLM。
如图11所示,还可以对于频域栅格区域进行时域划分,即一帧时间宽度可能包含多个栅格,也可以组合成N个时间段来计算拉伸因子(划分的原则是不同时间段需要不同的拉伸因子以及不同的低频相关频谱段),因此可以得到一个二维数组的拉伸因子αM,N。
相应的,所述方法还包括步骤:将M个频域栅格区域中的每一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;且所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数。
图12为根据本发明的一个示例性实施例的强谐波音频信号的高频细节重建的示意图。
对于高频具有强谐波类音频信号情况,由于高次谐波通常都在低频部分基频和低次谐波的倍频位置,可以将低频部分中基频和低次谐波部分,或者低次谐波部分,拷贝到高频部分来替换原始高频细节。在拷贝或者替换时,通过拉伸因子α使得拷贝后的基频(当存在时)和低次谐波正好落在高次谐波上(或附近),这样既保留高频部分的主要高次谐波,又无需对很多独立弦信号编码。从而获得较好的高频重建效果,减少低码率时高频信号失真。
因此,对于高频部分具有高次谐波的情况,拉伸因子α的计算可以根据高频部分谐波的间距(带宽)与低频部分基频和低次谐波的间距(带宽)或者低次谐波之间的间距(带宽)之比得到。在可选的实施例中,采用一个频域栅格区域内的频率最低的两个高次谐波谱线之间的间距与低频部分的基频谱线与频率最低的低次谐波谱线之间的间距或者低频部分的频率最低的两个低次谐波谱线之间的间距的比值作为拉伸因子α。
在一个具体的实施例中,如图12所示,一旦确定了拉伸因子α,可以根据BWE编码的起始频率FL和第一根高频谐波谱线距离BWHS,并考虑BWLS=BWHS/α,来确定低频起始谱线FS。
相应的,在本发明中,所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。可选的,一个拷贝频谱的低频终止谱线为低频部分的最高谱线。如图12所示,进一步的M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域。
虽然没有示出,在M大于1的情况下,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线。
为了确定拷贝频谱的起始谱线,在彼此对应的拷贝频谱与频域栅格区域中,可以使得高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
此外,也可以通过混合方式来产生高频细节,通常先采用强谐波拉伸,然后通过非强谐波拉伸共同构造出高频细节。基于此,虽然没有示出,还可以将高频部分进行频域栅格划分得到M+1个频域栅格区域,所述第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;所述方法还包括将代表辅助拉伸因子的辅助拉伸信息传送给解码端,对于第M+1个频域栅格区域,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值。这里的所述M个频域栅格区域之外可以是在所述M个频域栅格区域的右侧,也可以是左侧,均在本发明的保护范围之内。
在图12所示的实施例中,同样可以根据栅格时间方向和频率方向可以分别划分出M个时间段和N个频率段,计算出拉伸因子数组αM,N。如此,在一个实施例中,所述方法还包括步骤:将M个频域栅格区域中的至少一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;且所述拉伸因子包括αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数。
在高频部分存在高次谐波的情况下,在低频部分匹配与频域栅格区域相应的拷贝频谱时,可以基于频域栅格区域中的高次谐波谱线来选择拷贝频谱,如图12中示例所示。
在本发明中,对于基于拉伸的的解码方法,在BWE解码端,可以从BWE码流中拆分出拉伸因子α等拉伸参数,通过拉伸因子信息解码或者与之相关的拉伸信息解码,计算出拉伸因子α,利用高频细节生成模块,通过对低频部分进行α倍线性拉伸来重建高频频谱。
基于此以及上述的音频编码方法,如图8所示,本发明提出了一种用于带宽扩展的音频解码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:
获取与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;
基于拉伸信息从低频部分确定匹配的拷贝频谱;
将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和
将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
图9为根据本发明的一个示例性实施例的应用高频谱包络模板的BWE解码的示意性框图。
可选的,音频解码方法中,所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
可选的,音频解码方法中,从低频部分选择的匹配的拷贝频谱时,所述方法包括步骤:确定所述拷贝频谱的低频起始谱线与低频终止谱线。进一步的,一个拷贝频谱的所述低频终止谱线为低频部分的最高谱线。
可选的,音频解码方法中,M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数;且“将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置”包括步骤:以将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱,代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
可选的,音频解码方法中,所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
可选的,音频解码方法中,一个拷贝频谱的低频终止谱线为低频部分的最高谱线。
可选的,音频解码方法中,M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域。
可选的,音频解码方法中,M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线。
可选的,音频解码方法中,彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
可选的,音频解码方法中,高频部分频域栅格划分为M+1个频域栅格区域,所述第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;所述方法还包括步骤:获得代表辅助拉伸因子的辅助拉伸信息以及确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;所述方法还包括步骤:将与第M+1个频域栅格区域匹配的辅助拷贝频谱拉伸所述辅助拉伸因子倍而得到所述辅助拉伸频谱,以及将辅助拉伸频谱拷贝到第M+1个频域栅格区域中的对应位置。
可选的,音频解码方法中,M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数;且“将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置”包括步骤:以将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱,代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
基于后面参照图14描述的实施例,可选的,该音频解码方法还包括步骤:对拷贝到高频部分的拉伸频谱进行包络整形。
基于后面参照图14描述的实施例,可选的,该音频解码方法还包括步骤:对已经进行包络整形或者即将进行包络整形的拉伸频谱进行增益调整。
相应的,本发明的实施例也提出了一种用于带宽扩展的音频编码装置,所述音频具有低频部分与高频部分,所述装置包括:
频域栅格划分模块,用于将高频部分进行频域栅格划分得到频域栅格区域;
匹配模块,用于在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;
拉伸因子确定模块,用于确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子;和
发送模块,用于向解码端传送与拉伸因子有关的拉伸信息。
可选的,在该编码装置中,M大于1;所述拉伸因子包括与所述M个频域栅格区域分别对应的M个拉伸因子。
可选的,在该编码装置中,所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
可选的,在该编码装置中,拷贝频谱具有对应的低频起始谱线与低频终止谱线。可选的,一个拷贝频谱的所述低频终止谱线为低频部分的最高谱线。
可选的,该编码装置还包括时域划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数。
可选的,在该编码装置中,所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
可选的,在该编码装置中,一个拷贝频谱的低频终止谱线为低频部分的最高谱线。
可选的,在该编码装置中,M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域。进一步可选的,在该编码装置中,M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线。
可选的,在该编码装置中,线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
可选的,在该编码装置中,将高频部分进行频域栅格划分得到M+1个频域栅格区域,所述第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;所述装置还包括辅助拉伸因子确定模块,用于确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;所述发送模块将代表辅助拉伸因子的辅助拉伸信息传送给解码端。
可选的,在该编码装置中,所述装置还包括时域划分模块,用于将M个频域栅格区域中的至少一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;所述拉伸因子包括αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数。
相应的,本发明的实施例也提出了一种用于带宽扩展的音频解码装置,所述音频具有低频部分与高频部分,所述装置包括:
拉伸因子确定模块,用于获取与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;
拷贝频谱确定模块,用于从低频部分确定匹配的相应拷贝频谱;
拉伸模块,用于将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和
拷贝模块,用于将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
可选的,在该解码装置中,所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
可选的,在该解码装置中,所述拷贝频谱具有低频起始谱线与低频终止谱线。可选的,一个拷贝频谱的所述低频终止谱线为低频部分的最高谱线。
可选的,在该解码装置中,所述装置还包括时域栅格划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数;所述拉伸模块将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱;所述拷贝模块以所述拉伸频谱代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
可选的,在该解码装置中,所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
可选的,在该解码装置中,一个拷贝频谱的低频终止谱线为低频部分的最高谱线。
可选的,在该解码装置中,M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域。
可选的,在该解码装置中,M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线。
可选的,在该解码装置中,彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
可选的,在该解码装置中,高频部分频域栅格划分为M+1个频域栅格区域,所述第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;所述装置还包括辅助拉伸因子确定模块,用于获得代表辅助拉伸因子的辅助拉伸信息以及确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;所述装置还包括辅助拷贝频谱确定模块,用于基于辅助拉伸信息在低频部分确定辅助拷贝频谱;所述装置还包括辅助拉伸模块,用于将与第M+1个频域栅格区域匹配的辅助拷贝频谱拉伸所述辅助拉伸因子倍而得到所述辅助拉伸频谱;所述装置还包括辅助拷贝模块,用于将辅助拉伸频谱拷贝到第M+1个频域栅格区域中的对应位置。
可选的,在该解码装置中,所述装置还包括时域栅格划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数;所述拉伸模块将匹配的拷贝频谱拉伸αij倍得到拉伸频谱;所述拷贝模块以所述拉伸频谱代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
可选的,基于后面参照图14描述的实施例,该解码装置还包括:包络整形模块,用于对拷贝到高频部分的拉伸频谱进行包络整形。
可选的,基于后面参照图14描述的实施例,该解码装置还包括:增益调整模块,用于对已经进行包络整形或者即将进行包络整形的拉伸频谱进行增益调整。
下面基于图13与图14示例性描述基于拉伸的SBR编码方法与SBR解码方法。
在SBR编码中拉伸模块的处理步骤:
(1)SBR中其他模块计算方法不变,此处不再详细描述;
(2)针对SBR中QMF将输入音频信号分成64个子带,且每个子带有32个样点,根据音频信号瞬态特性将划分为不同时频分辨率的栅格;
(3)对于拉伸因子α计算模块,其输入参数为对时频栅格参数的在SBR编码的高频部分将进一步划分得到M个频率段N个时间段,为了减少传输附加信息(每个段的起始和结束谱线等),将N设为1,即每帧在任何时间采用同样的低频谱段以及对应的拉伸因子;M=2,即在频率方向是由2个拉伸因子;
(4)确定低频起始和终止谱线,同样为了简化,终止谱线选择低频部分的最高谱线FL,分析BWE开始编码的高频谱线是否为强谐波类信号,如果是,则采用强谐波方式计算出拉伸因子α1,否则根据非强谐波方式计算出拉伸因子α1;
(5)根据拉伸因子α1,以及高频部分,确定出低频部分的起始谱线FS并编码作为参数打包到SBR码流中;
(6)根据编码要求的最高编码频率,如果低频部分拉伸α后的高频部分不能满足BWE高频部分,则剩余的最高频谱段(M=2的第二段)进一步采用非强谐波方式计算出一个新的α2;
(7)然后α1和α2进一步通过矢量量化编码,将码本下标打包到SBR码流中;
(8)同时M和N也作为拉伸参数打包到SBR码流中,最后将SBR码流传送给解码端。
在SBR解码中拉伸模块的处理步骤:
(1)接收SBR码流,从码流中解析出拉伸参数信息,得到频率方向段数M、时间方向段数N、低频起始谱线FS和拉伸因子编码下标;
(2)对拉伸因子编码下标进行矢量量化解码,得到拉伸因子α1和α2;
(3)由于N=1和M=2,因此进一步根据所给低频起始点FS,从低频部分拷一段谱线(即FS至FL),然后通过α1拉伸,代替FL至α1(FL-FS)的第一段高频部分的细节,然后第二部分高频通过对FL之前的一段低频谱线拉伸α2倍来获得;
(4)通过(2)和(3)两步完成了SBR高频部分的谱线细节恢复,然后可对高频进行包络整形;
(5)最后,SBR通常还要进行增益调整,确保本栅格高频部分的能量和编码端原始高频部分的能量一致。从而恢复SBR高频部分,完成SBR解码
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行变化、要素组合,本发明的范围由所附权利要求及其等同物限定。
Claims (32)
1.一种用于带宽扩展的音频编码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:
将高频部分进行频域栅格划分得到频域栅格区域;
在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;
确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子,在高频部分没有强谐波信号或者高次谐波信号的情况下,如果确定了要拷贝的低频部分的带宽为BWL=FL-FS或者BWL=FE-FS,重建高频部分的带宽为BWH=FH-FL则定义线性拉伸因子α=BWH/BWL,其中FL为低频编码部分的最高谱线,FS为起始谱线,FE为终止谱线,在高频部分具有高次谐波的情况下,线性拉伸因子α的计算根据高频部分谐波的间距与低频部分基频和低次谐波的间距或者低次谐波之间的间距之比得到;和
向解码端传送与拉伸因子有关的拉伸信息。
2.根据权利要求1所述的方法,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
3.根据权利要求2所述的方法,其中:
所述方法还包括步骤:将M个频域栅格区域中的每一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;且
所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数。
4.根据权利要求1所述的方法,其中:
所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且
所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
5.根据权利要求1所述的方法,其中:
所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;
M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域;
M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线;
彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
6.根据权利要求4或5所述的方法,其中:
将高频部分进行频域栅格划分得到M+1个频域栅格区域,所述M+1个频域栅格区域中的第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;
所述方法还包括将代表辅助拉伸因子的辅助拉伸信息传送给解码端,对于第M+1个频域栅格区域,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值。
7.根据权利要求4或5所述的方法,其中:
所述方法还包括步骤:将M个频域栅格区域中的至少一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;且
所述拉伸因子包括αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数。
8.一种用于带宽扩展的音频解码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:
获取基于权利要求1-7中的任一方法传送的与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;
基于拉伸信息从低频部分确定匹配的拷贝频谱;
将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和
将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
9.根据权利要求8所述的方法,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
10.根据权利要求9所述的方法,其中:
M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数;且
“将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置”包括步骤:以将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱,代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
11.根据权利要求8所述的方法,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且
所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
12.根据权利要求8所述的方法,其中:
所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;
M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域;
M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线;
彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
13.根据权利要求11或12所述的方法,其中:
高频部分频域栅格划分为M+1个频域栅格区域,所述M+1个频域栅格区域中的第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;
所述方法还包括步骤:获得代表辅助拉伸因子的辅助拉伸信息以及确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;
所述方法还包括步骤:将与第M+1个频域栅格区域匹配的辅助拷贝频谱拉伸所述辅助拉伸因子倍而得到辅助拉伸频谱,以及将辅助拉伸频谱拷贝到第M+1个频域栅格区域中的对应位置。
14.根据权利要求11或12所述的方法,其中:
M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;
所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数;且
“将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置”包括步骤:以将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱,代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
15.根据权利要求8所述的方法,还包括步骤:
对拷贝到高频部分的拉伸频谱进行包络整形。
16.根据权利要求15所述的方法,还包括步骤:
对已经进行包络整形或者即将进行包络整形的拉伸频谱进行增益调整。
17.一种用于带宽扩展的音频编码装置,所述音频具有低频部分与高频部分,所述装置包括:
频域栅格划分模块,用于将高频部分进行频域栅格划分得到频域栅格区域;
匹配模块,用于在低频部分选择与所述频域栅格区域中的M个频域栅格区域对应匹配的拷贝频谱,M为自然数;
拉伸因子确定模块,用于确定拉伸因子,所述拉伸因子为与M个频域栅格区域中的频域栅格区域以及匹配的相应拷贝频谱相关的线性拉伸因子,在高频部分没有强谐波信号或者高次谐波信号的情况下,如果确定了要拷贝的低频部分的带宽为BWL=FL-FS或者BWL=FE-FS,重建高频部分的带宽为BWH=FH-FL则定义线性拉伸因子α=BWH/BWL,其中FL为低频编码部分的最高谱线,FS为起始谱线,FE为终止谱线,在高频部分具有高次谐波的情况下,拉伸因子α的计算根据高频部分谐波的间距与低频部分基频和低次谐波的间距或者低次谐波之间的间距之比得到;和
发送模块,用于向解码端传送与拉伸因子有关的拉伸信息。
18.根据权利要求17所述的装置,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
19.根据权利要求18所述的装置,其中:
所述装置还包括时域划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;
所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数。
20.根据权利要求17所述的装置,其中:
所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且
所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
21.根据权利要求17所述的装置,其中:
M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域;
M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线;
彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
22.根据权利要求20或21所述的装置,其中:
将高频部分进行频域栅格划分得到M+1个频域栅格区域,所述M+1个频域栅格区域中的第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;
所述装置还包括辅助拉伸因子确定模块,用于确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;
所述发送模块将代表辅助拉伸因子的辅助拉伸信息传送给解码端。
23.根据权利要求20或21所述的装置,其中:
所述装置还包括时域划分模块,用于将M个频域栅格区域中的至少一个频域栅格区域在时域上进行栅格划分以获得N个时域栅格区域,其中N为自然数;
所述拉伸因子包括αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数。
24.一种用于带宽扩展的音频解码装置,所述音频具有低频部分与高频部分,所述装置包括:
拉伸因子确定模块,用于获取基于权利要求1-7中的任一方法传送的与拉伸因子有关的拉伸信息以及确定拉伸因子,所述拉伸因子为与高频部分的M个频域栅格区域中的频域栅格区域以及低频部分中匹配的相应拷贝频谱相关的线性拉伸因子,M为自然数;
拷贝频谱确定模块,用于从低频部分确定匹配的相应拷贝频谱;
拉伸模块,用于将匹配的拷贝频谱拉伸对应的拉伸因子倍得到拉伸频谱;和
拷贝模块,用于将拉伸频谱拷贝到M个频域栅格区域中的对应频域栅格区域的对应位置。
25.根据权利要求24所述的装置,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值。
26.根据权利要求24所述的装置,其中:
所述装置还包括时域栅格划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;
所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的带宽,i为不大于M的自然数,j为不大于N的自然数;
所述拉伸模块将匹配的拷贝频谱拉伸αij倍得到的拉伸频谱;
所述拷贝模块以所述拉伸频谱代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
27.根据权利要求24所述的装置,其中:
所述拉伸因子为频域栅格区域的带宽与匹配的拷贝频谱的带宽的比值所述高频部分具有强谐波音频信号,M个频域栅格区域中的每一个频域栅格区域具有至少两个高次谐波;且
所述拉伸因子为高频对应带宽与对应的低频对应带宽之间的比值,所述高频对应带宽为M个频域栅格区域中的对应频域栅格区域的频率最低的两个高次谐波谱线之间的带宽;且所述低频对应带宽,在对应的拷贝频谱中具有基波的情况下,为拷贝频谱中的低频起始谱线与基波谱线之间的带宽,而在对应的拷贝频谱中不具有基波的情况下,为拷贝频谱中的频率最低的两个低次谐波谱线之间的带宽。
28.根据权利要求24所述的装置,其中:
M个频域栅格区域包括以低频部分的最高谱线作为高频起始谱线的频域栅格区域;
M大于1,M个频域栅格区域中相邻的频域栅格区域中,前一个频域栅格区域的终止谱线为后一个频域栅格区域的起始谱线;
彼此对应的拷贝频谱与频域栅格区域中,高频起始谱线和频率最低的高次谐波谱线之间的带宽与低频起始谱线和低频基准谱线之间的带宽的比值等于所述拉伸因子,其中,在对应的拷贝频谱中具有基波的情况下,所述低频基准谱线为基波谱线,而在对应的拷贝频谱中不具有基波的情况下,所述低频基准谱线为拷贝频谱中频率最低的低次谐波谱线。
29.根据权利要求27或28所述的装置,其中:
高频部分频域栅格划分为M+1个频域栅格区域,所述M+1个频域栅格区域中的第M+1个频域栅格区域为所述M个频域栅格区域之外的频域栅格区域;
所述装置还包括辅助拉伸因子确定模块,用于获得代表辅助拉伸因子的辅助拉伸信息以及确定辅助拉伸因子,辅助拉伸因子为第M+1个频域栅格区域的带宽与匹配的辅助拷贝频谱的带宽的比值;
所述装置还包括辅助拷贝频谱确定模块,用于基于辅助拉伸信息在低频部分确定辅助拷贝频谱;
所述装置还包括辅助拉伸模块,用于将与第M+1个频域栅格区域匹配的辅助拷贝频谱拉伸所述辅助拉伸因子倍而得到辅助拉伸频谱;
所述装置还包括辅助拷贝模块,用于将辅助拉伸频谱拷贝到第M+1个频域栅格区域中的对应位置。
30.根据权利要求27或28所述的装置,其中:
所述装置还包括时域栅格划分模块,用于将M个频域栅格区域中的每一个频域栅格区域在时域上栅格划分为N个时域栅格区域,其中N为自然数;
所述拉伸因子为αij,其中,αij=BWHij/BWLij,BWHij为第i个频域栅格区域在第j个时域栅格区域的高频对应带宽,BWLij为低频部分中与第i个频域栅格区域在第j个时域栅格区域匹配的拷贝频谱的低频对应带宽,i为不大于M的自然数,j为不大于N的自然数;
所述拉伸模块将匹配的拷贝频谱拉伸αij倍得到拉伸频谱;
所述拷贝模块以所述拉伸频谱代替高频部分的M个频域栅格区域的第i个频域格栅区域的第j个时域栅格区域。
31.根据权利要求24所述的装置,还包括:
包络整形模块,用于对拷贝到高频部分的拉伸频谱进行包络整形。
32.根据权利要求31所述的装置,还包括:
增益调整模块,用于对已经进行包络整形或者即将进行包络整形的拉伸频谱进行增益调整。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811397265.4A CN111210831B (zh) | 2018-11-22 | 2018-11-22 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811397265.4A CN111210831B (zh) | 2018-11-22 | 2018-11-22 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111210831A CN111210831A (zh) | 2020-05-29 |
| CN111210831B true CN111210831B (zh) | 2024-06-04 |
Family
ID=70788038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811397265.4A Active CN111210831B (zh) | 2018-11-22 | 2018-11-22 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111210831B (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116110424B (zh) * | 2021-11-11 | 2025-07-15 | 腾讯科技(深圳)有限公司 | 一种语音带宽扩展方法及相关装置 |
| CN118215959B (zh) * | 2022-09-05 | 2025-05-13 | 北京小米移动软件有限公司 | 一种音频信号频带扩展方法、装置、设备及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5583784A (en) * | 1993-05-14 | 1996-12-10 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Frequency analysis method |
| CN102884574A (zh) * | 2009-10-20 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
| CN105261373A (zh) * | 2015-09-16 | 2016-01-20 | 深圳广晟信源技术有限公司 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
| CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102473417B (zh) * | 2010-06-09 | 2015-04-08 | 松下电器(美国)知识产权公司 | 频带扩展方法、频带扩展装置、集成电路及音频解码装置 |
| EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
-
2018
- 2018-11-22 CN CN201811397265.4A patent/CN111210831B/zh active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5583784A (en) * | 1993-05-14 | 1996-12-10 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Frequency analysis method |
| CN102884574A (zh) * | 2009-10-20 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
| CN105261373A (zh) * | 2015-09-16 | 2016-01-20 | 深圳广晟信源技术有限公司 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
| CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
Non-Patent Citations (1)
| Title |
|---|
| 移动音频带宽扩展算法计算复杂度优化;杭波;王毅;康长青;;计算机应用(第02期);第516-520页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111210831A (zh) | 2020-05-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101589942B1 (ko) | 외적 향상 고조파 전치 | |
| CN109448741B (zh) | 一种3d音频编码、解码方法及装置 | |
| CN105280190B (zh) | 带宽扩展编码和解码方法以及装置 | |
| CA2698031C (en) | Method and device for noise filling | |
| TWI541797B (zh) | 使用時間雜訊修補成形以編碼及解碼已被編碼音訊的裝置及方法 | |
| CN101276587B (zh) | 声音编码装置及其方法和声音解码装置及其方法 | |
| CN113936674B (zh) | 用于音频信号的高频重建技术的回溯兼容集成 | |
| JP6535730B2 (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
| JP2012098759A (ja) | スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック | |
| JP2005535940A (ja) | スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置 | |
| CN103155033A (zh) | 高频重建期间的音频信号处理 | |
| CN111210832B (zh) | 基于频谱包络模板的带宽扩展音频编解码方法及装置 | |
| JP4538324B2 (ja) | 音声信号符号化 | |
| CN111210831B (zh) | 基于频谱拉伸的带宽扩展音频编解码方法及装置 | |
| CN105280189B (zh) | 带宽扩展编码和解码中高频生成的方法和装置 | |
| JP2025511991A (ja) | ニューラルネットワーク・システムを使用する高周波数再構成 | |
| HK40059194A (zh) | 用於音频信号的高频重建技术的回溯兼容集成 | |
| HK40061783A (zh) | 用於音频信号的高频重建技术的回溯兼容集成 | |
| HK40061782A (zh) | 用於音频信号的高频重建技术的回溯兼容集成 | |
| HK40029770B (zh) | 用於音频信号的高频重建技术的回溯兼容集成 | |
| HK40029770A (zh) | 用於音频信号的高频重建技术的回溯兼容集成 | |
| EA044947B1 (ru) | Обратно совместимая компоновка гармонического транспозера для реконструкции высоких частот звуковых сигналов |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |