[go: up one dir, main page]

CN121336256A - 具有子带信号上时间噪声整形的音频信号编解码的装置和方法 - Google Patents

具有子带信号上时间噪声整形的音频信号编解码的装置和方法

Info

Publication number
CN121336256A
CN121336256A CN202480040267.5A CN202480040267A CN121336256A CN 121336256 A CN121336256 A CN 121336256A CN 202480040267 A CN202480040267 A CN 202480040267A CN 121336256 A CN121336256 A CN 121336256A
Authority
CN
China
Prior art keywords
subband
signal
signals
audio signal
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202480040267.5A
Other languages
English (en)
Inventor
理查德·福格
伯恩德·埃德勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Publication of CN121336256A publication Critical patent/CN121336256A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了根据实施例的用于音频信号解码的装置(200)。装置(200)包括解码单元(210),被配置为对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数。而且,装置(200)包括第一变换单元(220),被配置为将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号。此外,装置(200)包括子带信号修改器(230),被配置为通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号。而且,装置(200)包括第二变换单元(240),被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。

Description

具有子带信号上时间噪声整形的音频信号编解码的装置和 方法
技术领域
本发明涉及子带信号上的时间噪声整形,特别地涉及一种用于音频信号编码的装置和方法以及一种用于音频信号解码的装置和方法,其支持子带信号上的时间噪声整形,更特别地,其支持MDCT子带信号上的时间噪声整形。
背景技术
变换域中的编解码是一种在许多最先进编解码器中用于通用音频编解码的方法。在编码器侧,需要将音频信号分割成帧,这些帧被加窗然后变换到谱域。这些短时频谱随后被量化和熵编码,然后传输到解码器,在解码器处它们变换回时域。变换的常见选择是改进离散余弦变换(MDCT)。
由于在谱域中进行用于传输的量化,因此可以为不同频率区域选择不同的量化器步长。这允许利用人类听觉系统的同时掩蔽效应,这反过来可以在保持良好感知质量的同时实现低传输比特率。这种对量化噪声的频谱分布的控制存在缺点,即对量化噪声的时间分布的控制不直接,导致量化噪声扩散到整个变换窗口。对于瞬态信号来说,这可能是一个问题,其中,同时掩蔽仅在瞬态的期间比较强烈,而时间掩蔽通常仅在瞬态之后比较强烈。因此,量化噪声的去掩蔽和感知质量的下降可能会出现。
由此产生的常见伪影是所谓的预回声。
为了解决这一问题,引入了以下几种方法。预回声控制方法检测关键情况并尝试通过应用更精细的量化来避免伪影。然而,这种方法导致比特率显著增加。
窗口切换[1]允许编解码器改变变换窗口的长度,允许对平稳信号使用长窗口和对瞬态信号使用短窗口。后者将量化噪声的扩散限制在短窗口的边界,从而有效减少时间去掩蔽。然而,不仅使用较短窗口降低编码效率,取决于具体的实现方式,可能还需要窗口切换决策的前瞻量,导致整体系统延迟增加。增益控制方法[2][3][4]尝试在将信号馈送到编码器之前在时间上扁平化信号,并在解码后重塑原始时间包络。这导致量化噪声在时间上被整形为类似于原始信号的时间包络。由于信号的时间行为在不同频率区域通常不同,增益控制通常在编码器之前和解码器之后采用辅助滤波器组。这不仅需要更高的计算复杂度,还可能增加系统的整体延迟。此外,增益控制必须为扁平化/重塑过程传输边信息。这可以以显式增益[2][3]的形式或用于在编码器/解码器处[4]估计增益的边信息的形式。
基于线性预测编码(LPC)的时间噪声整形(TNS)[5],引入了一种方法,它遵循与增益控制类似的概念,但完全在变换域中工作。它将从音频的时域编码中已知的开环LPC应用于频谱。就像时域中的开环LPC会导致量化噪声在频谱上被整形为类似于原始信号,变换域中的LPC作为变换对偶过程,导致量化噪声在时间上被整形为类似于原始信号。由于线性预测(LP)滤波器被应用于频谱,因此可以直接针对不同的频率区域使用不同的滤波器,以分别考虑不同的时间行为。
滤波器作为边信息被传输到解码器。在最先进的编解码器中,这一过程是通过在反正弦域中对反射系数(RC)进行量化,并随后进行熵编码来实现的。
发明内容
本发明的目的是提供改进的时间噪声整形概念。本发明的目的通过根据权利要求1所述的装置、权利要求30所述的装置、权利要求65所述的方法、权利要求66所述的方法以及权利要求67所述的计算机程序来实现。
提供了根据实施例的用于音频信号解码的装置。装置包括解码单元,被配置为对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数。此外,装置包括第一变换单元,被配置为将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号。此外,装置包括子带信号修改器,被配置为通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号。此外,装置包括第二变换单元,被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
而且,提供了根据实施例的用于音频信号编码的装置。装置包括第一变换单元,被配置为将包括多个谱系数的第一谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号。而且,装置包括子带信号修改器,被配置为修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,以获取修改后的子带信号域音频信号。此外,装置包括第二变换单元,被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号。而且,装置包括编码单元,被配置为生成音频信号编码,音频信号编码包括修改后的谱域音频信号的编码和修改信息或其编码,其中,修改信息包括关于一个或多个子带信号如何被修改的信息。
此外,提供了根据实施例的用于音频信号解码的方法。方法包括:
-对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数;
-将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
-通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号;以及
-将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
而且,提供了根据实施例的用于音频信号编码的方法。方法包括:
-将包括多个谱系数的第一谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
-修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,以获取修改后的子带信号域音频信号;
-将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号;以及
-生成音频信号编码,音频信号编码包括修改后的谱域音频信号的编码和修改信息或其编码,其中,修改信息包括关于一个或多个子带信号如何被修改的信息。
此外,提供了根据实施例的计算机程序,用于当在计算机或信号处理器上执行时,实现上述方法之一。
根据实施例,提供了新概念,其在编码器和解码器中对MDCT(改进离散余弦变换)频谱应用子带合并/分割。这允许对不同频率范围的时域子带信号进行修改,从而在编码器中在量化之前扁平化时间包络并在解码器处重塑为其原始包络。解码器处的重塑过程不仅恢复原始信号的时间包络,而且还相应地对量化噪声进行整形,这导致量化噪声在时间上被整形为类似于原始信号。这避免了量化噪声的时间去掩蔽和变换音频编解码中常见的预回声伪影。对于时间扁平化/重塑过程,提出了传输的增益的应用以及低边信息压扩方法。最后,方法还可以与时域混叠削减(TDAR)相结合用于子带合并/分割,提高噪声整形质量。
附图说明
下文参考附图更详细地描述了本公开的实施例,其中:
图1示出了根据实施例的用于音频信号编码的装置。
图2示出了根据实施例的用于音频信号解码的装置。
图3示出了根据实施例的系统。
图4示出了根据实施例的变换音频编码器,其对三个子带信号组进行子带信号上的时间噪声整形。
图5示出了根据实施例的变换音频解码器,其对应于图4的变换音频编码器,并且其对三个子带信号组进行子带信号上的时间噪声整形。
图6根据实施例在(a)中示出了通过压扩的扁平化过程以及在(b)中示出了通过压扩的重塑过程。
图7在(a)中示出了扁平化过程以及在(b)中示出了重塑过程,其中,增益将在编码器处确定,并且其中边信息将被传输到解码器。
图8示出了用于通过AR建模来计算和传输子带信号组的增益的编码器侧的实施例。
图9示出了用于通过AR建模来计算和传输子带信号组的增益的解码器侧的实施例,其对应图8中描绘的编码器侧。
图10示出了用于得出子带信号组的增益的编码器侧的实施例。
图11示出了用于得出子带信号组的增益的解码器侧的实施例,其对应图10中描绘的编码器侧。
图12示出了用于通过DPCM传输子带信号组的原型增益的编码器侧的实施例。
图13示出了用于通过DPCM传输子带信号组的原型增益的解码器侧的实施例,其对应图12中描绘的编码器侧的实施例。
图14示出了具有相等长度的子带合并窗口。
图15示出了具有不同长度的子带合并窗口。
具体实施方式
图1示出了根据实施例的用于音频信号编码的装置100。
装置100包括第一变换单元110,被配置为将包括多个谱系数的第一谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号。
而且,装置100包括子带信号修改器120,被配置为修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,以获取修改后的子带信号域音频信号。
此外,装置100包括第二变换单元130,被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号。
而且,装置100包括编码单元140,被配置为生成音频信号编码,音频信号编码包括修改后的谱域音频信号的编码和修改信息或其编码,其中,修改信息包括关于一个或多个子带信号如何被修改的信息。
根据实施例,子带信号修改器120可以,例如,被配置为修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号的动态范围可以,例如,减小(例如,被扁平化)。
在实施例中,子带信号修改器120可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号。
根据实施例,子带信号修改器120可以,例如,被配置为通过扁平化子带信号的时间包络,来修改一个或多个子带信号中的每个子带信号的时间包络。
在实施例中,子带信号修改器120可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号在修改后的动态范围小于在修改前的动态范围。
根据实施例,子带信号修改器120可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得时间平坦度度量指示一个或多个子带信号中的每个子带信号在修改后比在修改前更平坦。
在实施例中,子带信号修改器120可以,例如,被配置为采用非线性映射曲线来减小所述子带信号的动态范围。
根据实施例,子带信号修改器120可以,例如,被配置为通过在子带信号的样本的幅度上应用指数α,来扁平化子带信号的时间包络。修改信息包括关于指数α的信息,和/或包括用于确定指数α的信息,和/或包括关于1/α的信息,或包括用于确定1/α的信息。
在实施例中,子带信号修改器120可以,例如,被配置为通过将子带信号的样本中的每个样本与增益函数的增益g相乘,来扁平化子带信号的时间包络。修改信息包括关于增益函数的信息,或包括用于确定增益函数的信息,和/或包括关于派生函数的信息,派生函数包括增益函数的每个增益g的增益1/g,和/或包括用于确定派生函数的信息。
根据实施例,子带信号修改器120可以,例如,被配置为在被修改之前,根据自回归模型从一个或多个子带信号确定多个反射系数。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括多个反射系数或其编码。
在实施例中,子带信号修改器120可以,例如,被配置为在被修改之前,为一个或多个子带信号生成一个或多个归一化频谱自相关函数。子带信号修改器120可以,例如,被配置为确定一个或多个归一化频谱自相关函数的多个反射系数。子带信号修改器120可以,例如,被配置为从多个反射系数中生成多个增益,并且可以,例如,被配置为将多个增益应用于一个或多个子带信号。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括多个反射系数或其编码。
根据实施例,子带信号修改器120可以,例如,被配置为被配置为在被修改之前,确定一个或多个子带信号的下采样组合包络的多个样本。子带信号修改器120可以,例如,被配置为使用下采样组合包络的多个样本,根据修改参数α来确定多个增益。子带信号修改器120可以,例如,被配置为通过将多个增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得在将一个或多个增益应用于一个或多个子带信号之后,一个或多个子带信号的动态范围减小。
在实施例中,编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括修改参数α或其编码。
根据实施例,子带信号修改器120可以,例如,被配置为确定一个或多个子带信号的多个适用增益,使得通过将多个适用增益应用于一个或多个子带信号,一个或多个子带信号的动态范围减小。编码单元140可以,例如,被配置为确定多个下采样增益,使得多个下采样增益表示多个适用增益的下采样。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括多个下采样增益或其编码。
在实施例中,编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括多个下采样增益的差分脉冲编码调制编码。
根据实施例,子带信号修改器120可以,例如,被配置为在被修改之前,确定指示用于一个或多个子带信号的两个或更多个预定义映射曲线中的预定义映射曲线的指示符。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括指示符或其编码。
在实施例中,第一变换单元110可以,例如,被配置为通过进行第一重叠变换,将第一谱域音频信号从谱域变换到子带信号域,以获取包括多个子带信号的子带信号域变换后的音频信号。第二变换单元130可以,例如,被配置为通过进行第二重叠变换,将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号。
根据实施例,第一变换单元110可以,例如,被配置为通过将多个块中的每个块从谱域变换到子带信号域,来进行第一重叠变换,其中,每个块包括多个谱系数的一部分。多个块中的两个或更多个块中的每个块与多个块中的至少一个其他块重叠,使得所述块和所述至少一个其他块包括多个谱系数中的相同谱系数。
在实施例中,第二变换单元130可以,例如,被配置为通过变换多个子带信号中的每个子带信号,来进行第二重叠变换,以从子带信号获取谱域中的多个中间样本。第二变换单元130可以,例如,被配置为通过对从多个子带信号中的每个子带信号获取的多个中间系数进行重叠相加,来获取修改后的谱域音频信号的多个谱系数。
根据实施例,谱域可以例如是改进离散余弦变换,或,谱域可以例如是改进离散正弦变换。
在实施例中,装置100还包括时间到频谱变换单元105,被配置为将第一时域音频信号从时域变换到谱域,以获取第一谱域音频信号。
根据实施例,子带信号修改器120可以,例如,被配置为通过对子带信号域变换后的音频信号的多个子带信号的第一组一个或多个子带信号进行修改,以及通过对子带信号域变换后的音频信号的多个子带信号的第二组两个或更多个子带信号进行修改,来修改一个或多个子带信号,其中,第二组不同于第一组。编码单元140可以,例如,被配置为生成音频信号编码,音频信号编码包括修改信息或其编码,使得修改信息包括第一修改信息和第二修改信息,其中,第一修改信息取决于第一组一个或多个子带信号的修改,第二修改信息取决于第二组两个或更多个子带信号的修改,其中,第一修改信息不同于第二修改信息。
在实施例中,第一组不包括第二组所包括的任何子带信号,并且第二组不包括第一组所包括的任何子带信号。
根据实施例,第一修改信息包括关于已应用于第一组一个或多个子带信号的每个子带信号的样本上的第一指数的信息。第二修改信息包括关于已应用于第二组两个或更多个子带信号的每个子带信号的样本上的第二指数的信息,第二指数不同于第一指数。
在实施例中,第一修改信息包括关于已应用于第一组一个或多个子带信号的每个子带信号上的第一增益函数的信息。第二修改信息包括关于已应用于第二组两个或更多个子带信号的每个子带信号上的第二增益函数的信息,第二增益函数不同于第一增益函数。
根据实施例,子带信号修改器120可以,例如,被配置为根据多个子带信号的一个或多个信号特性来确定多个组的一个或多个子带信号,其中,多个组包括第一组和第二组。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括关于如何将多个子带信号分组为多个组的一个或多个子带信号的信息。
在实施例中,子带信号修改器120可以,例如,被配置为通过以下确定多个组的一个或多个子带信号:根据子带信号的功率对多个子带信号中的每个子带信号进行归一化来获取多个归一化子带信号;确定归一化子带信号之间的相似度;以及根据与子带信号相关联的归一化子带信号与其他归一化子带信号之间的相似度,将多个子带信号中的子带信号关联到多个组中的一个组。
根据实施例,第一变换单元110可以,例如,被配置为进行时域混叠削减,以使用当前频谱之后的后续频谱来生成多个子带信号中的一个或多个子带信号,当前频谱包括第一谱域音频信号的谱系数。
在实施例中,编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码包括对多个子带信号中的哪些子带信号进行了时域混叠削减的指示。
根据实施例,第一变换单元110可以,例如,被配置为仅当距离度量指示进行时域混叠削减生成的子带信号与不进行时域混叠削减生成的子带信号之间的距离大于阈值距离时,才进行时域混叠削减以生成多个子带信号中的子带信号。
在实施例中,子带信号修改器120可以,例如,被配置为进行确定,以根据子带信号域变换后的音频信号的多个子带信号中的子带信号的信号特性,确定是否修改所述子带信号。子带信号修改器120可以,例如,被配置为根据确定来修改或不修改所述子带信号。编码单元140可以,例如,被配置为生成音频信号编码,使得音频信号编码指示子带信号修改器120是否已修改子带信号。
根据实施例,子带信号修改器120可以,例如,被配置为通过确定子带信号中是否存在瞬态来进行确定,以确定是否修改所述子带信号。
在实施例中,子带信号修改器120可以,例如,被配置为采用时间平坦度度量和/或频谱平坦度度量来确定是否修改子带信号。
根据实施例,子带信号修改器120可以,例如,被配置为采用自回归模型来确定是否修改子带信号。
图2示出了根据实施例的用于音频信号解码的装置200。
装置200包括解码单元210,被配置为对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数。
而且,装置200包括第一变换单元220,被配置为将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号。
此外,装置200包括子带信号修改器230,被配置为通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号。
而且,装置200包括第二变换单元240,被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
根据实施例,子带信号修改器230可以,例如,被配置为修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号的动态范围增加(例如,被重塑)。
在实施例中,子带信号修改器230可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号。
根据实施例,子带信号修改器230可以,例如,被配置为通过重塑(例如,反扁平化/重构)子带信号的时间包络,来修改一个或多个子带信号中的每个子带信号的时间包络。
在实施例中,子带信号修改器230可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号在修改后的动态范围大于在修改前的动态范围。
根据实施例,子带信号修改器230可以,例如,被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得时间平坦度度量指示一个或多个子带信号中的每个子带信号在修改前比在修改后更平坦。
在实施例中,子带信号修改器230可以,例如,被配置为采用非线性映射曲线来增加子带信号的动态范围。
根据实施例,修改信息包括关于指数α的信息或用于确定指数α的信息。子带信号修改器230可以,例如,被配置为通过在子带信号的样本的幅度上应用指数β,来重塑(例如,反扁平化/重构)子带信号的时间包络,其中,β=α,和/或,其中,β=1/α,和/或,其中,β是从α得出的。
在实施例中,修改信息包括关于接收的增益函数的信息或用于确定接收的增益函数的信息。子带信号修改器230可以,例如,被配置为
-通过将子带信号的样本中的每个样本与应用的增益函数的增益g相乘;或
-通过将子带信号的样本中的每个样本与1/g相乘,其中,g是应用的增益函数的增益,
来重塑(例如,反扁平化/重构)子带信号的时间包络。
应用的增益函数可以,例如,等于接收的增益函数,或应用的增益函数可以,例如,从增益函数得出。
根据实施例,解码单元210可以,例如,被配置为从音频信号编码获取多个反射系数。子带信号修改器230可以,例如,被配置为根据自回归模型,根据多个反射系数来修改一个或多个子带信号。
在实施例中,多个反射系数是一个或多个归一化频谱自相关函数的多个反射系数。子带信号修改器230可以,例如,被配置为从多个反射系数生成多个增益。子带信号修改器230可以,例如,被配置为根据多个增益来修改一个或多个子带信号。
根据实施例,子带信号修改器230可以,例如,被配置为在被修改之前,确定一个或多个子带信号的下采样组合包络的多个样本。子带信号修改器230可以,例如,被配置为使用下采样组合包络的多个样本,根据修改参数α来确定多个增益。子带信号修改器230可以,例如,被配置为通过将多个增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得在将一个或多个增益应用于一个或多个子带信号之后,一个或多个子带信号的动态范围增加。
在实施例中,解码单元210可以,例如,被配置为从音频信号编码获取修改参数α。
根据实施例,解码单元210可以,例如,被配置为从音频信号编码获取多个下采样增益。解码单元210可以,例如,被配置为从多个下采样增益中获取多个适用增益,使得多个适用增益表示多个下采样增益的上采样。子带信号修改器230可以,例如,被配置为通过将多个适用增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得一个或多个子带信号的动态范围增加。
在实施例中,音频信号编码包括多个下采样增益的差分脉冲编码调制编码。解码单元210可以,例如,被配置为从音频信号编码内的多个下采样增益的差分脉冲编码调制编码获取多个下采样增益。
根据实施例,解码单元210可以,例如,被配置为从两个或更多个预定义映射曲线获取指示预定义映射曲线的指示符。子带信号修改器230可以,例如,被配置为获取所述预定义映射曲线。子带信号修改器230可以,例如,被配置为根据所述预定义映射曲线来修改一个或多个子带信号。
在实施例中,第一变换单元220可以,例如,被配置为通过进行第一重叠变换,将解码的谱域音频信号从谱域变换到子带信号域,以获取包括多个子带信号的子带信号域变换后的音频信号。第二变换单元240可以,例如,被配置为通过进行第二重叠变换,将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
根据实施例,第一变换单元220可以,例如,被配置为通过将多个块中的每个块从谱域变换到子带信号域,来进行第一重叠变换,其中,每个块包括多个谱系数的一部分。多个块中的两个或更多个块中的每个块与多个块中的至少一个其他块重叠,使得所述块和所述至少一个其他块包括多个谱系数中的相同谱系数。
在实施例中,第二变换单元240可以,例如,被配置为通过变换多个子带信号中的每个子带信号,来进行第二重叠变换,以从所述子带信号获取谱域中的多个中间样本。第二变换单元240可以,例如,被配置为通过对从多个子带信号中的每个子带信号获取的多个中间系数进行重叠相加,来获取重构的谱域音频信号的多个谱系数。
根据实施例,谱域可以例如是改进离散余弦变换。或者,谱域可以例如是改进离散正弦变换。
在实施例中,装置200还包括频谱到时间变换单元245,频谱到时间变换单元245被配置为将重构的谱域音频信号从谱域变换到时域,以获取重构的时域音频信号。
根据实施例,修改信息包括第一修改信息和第二修改信息,其中,第一修改信息不同于第二修改信息。子带信号修改器230可以,例如,被配置为通过根据第一修改信息对子带信号域变换后的音频信号的多个子带信号的第一组一个或多个子带信号进行修改,以及通过根据第二修改信息对子带信号域变换后的音频信号的多个子带信号的第二组两个或更多个子带信号进行修改,来修改一个或多个子带信号,其中,第二组不同于第一组。
在实施例中,第一组不包括第二组所包括的任何子带信号,并且第二组不包括第一组所包括的任何子带信号。
根据实施例,第一修改信息包括接收的第一指数,其中,第二修改信息包括接收的第二指数。子带信号修改器230可以,例如,被配置为将接收的第一指数或从接收的第一指数得出的第一值应用于多个子带信号的第一组一个或多个子带信号的样本上。子带信号修改器230可以,例如,被配置为将接收的第二指数或从接收的第二指数得出的第二值应用于多个子带信号的第二组两个或更多个子带信号的样本上。
在实施例中,第一修改信息包括接收的第一增益函数,其中,第二修改信息包括接收的第二增益函数。子带信号修改器230可以,例如,被配置为将接收的第一增益函数或从接收的第一增益函数得出的派生第一增益函数应用于第一组一个或多个子带信号的每个子带信号上。子带信号修改器230可以,例如,被配置为将接收的第二增益函数或从接收的第二增益函数得出的派生第二增益函数应用于第二组两个或更多个子带信号的每个子带信号上。
根据实施例,音频信号编码包括关于如何将多个子带信号分组为多个组的一个或多个子带信号的信息,其中,多个组包括第一组和第二组。
在实施例中,当将多个子带信号变换到谱域时,第二变换单元240可以,例如,被配置为撤销在编码器侧进行的时域混叠削减操作。
根据实施例,音频信号编码包括多个子带信号中的哪些子带信号进行了时域混叠削减的指示。当将多个子带信号变换到谱域时,第二变换单元240可以,例如,被配置为对那些由指示进行指示的子带信号撤销时域混叠削减操作。
在实施例中,音频信号编码包括修改指示,指示多个子带信号中的子带信号是否已在编码器侧被修改。子带信号修改器230可以,例如,被配置为根据修改指示来修改或不修改子带信号。
图3示出了根据实施例的系统。
系统包括图1所示的用于音频信号编码的装置100和图2所示的用于音频信号解码的装置200。
用于音频信号解码的装置200被配置为接收由用于音频信号编码的装置100生成的音频信号编码。
在下文中,描述了本发明实施例基于的概念。
在下文中,描述了MDCT和子带合并/分割。
如参考文献[6]中引入的子带合并/分割是一种基于MDCT构建非均匀滤波器组的方法,此处给出简要概述。方法建立在MDCT基础上,MDCT针对输入信号帧
(1)
定义为
(2)
其中,wt[n]是合适的窗函数。
与参考文献[6]相比,此处我们使用更常见的正时间偏移
(3)
然而,当考虑到与正时间偏移核相比时间反转的子带信号时,也可以使用核
对于子带合并,MDCT频谱被分割为宽度为的子带,其中,是子带索引。为了保持符号简洁,选择了一个公共子带宽度,但需要注意,任何有效的MDCT窗口切换序列[1]在实践中都适用。
然后,可以如下通过子带合并获得子带信号:
(4)
(5)
其中,是合适的窗函数。需要注意的是,在此步骤中引入了频域混叠。
根据子带信号,可以通过子带分割将MDCT频谱重构为
(6)
随后进行频谱重叠相加过程
(7)
(8)
为了重构时域信号,随后进行逆改进离散余弦变换(IMDCT)
(9)
以及时域重叠相加过程
(10)
(11)
请注意,为简单起见,时间/频谱分析和合成窗被选择为,并且在上保持恒定。然而,只要满足普林森-布拉德利(Princen-Bradley)条件[7],合成窗和分析窗通常可以不同,也可以基于
为了说明子带合并的第一示例,图14示出了具有相等长度的子带合并窗口。
为了说明子带合并的另一个示例,图15示出了具有不同长度的子带合并窗口。
在下文中,提供了一种基于MDCT频谱的子带合并/分割[6]的时间噪声整形的新方法。这允许对MDCT子带信号的时间包络进行修改,从而在量化之前,在编码器中产生扁平化的包络,并在解码器中产生包括量化噪声的重塑包络。虽然该方法与众所周知的增益控制相当,但该方法不需要辅助滤波器组,而是像基于LPC的TNS[5]一样完全在MDCT域中进行。与基于LPC的TNS相比,新方法在时域扁平化/重塑的执行方式上有更大的灵活性。
首先,引入了MDCT和子带合并/分割的基础,之后解释了在子带信号上使用扁平化和重塑的时间噪声整形,并提出了两种实现方法,包括编码边信息的不同方法。随后解释了如何在该方案中使用TDAR。最后提供了示例性检测算法。
以下将描述本发明的具体实施例。
特别地,现在介绍用于子带信号上的TNS的新概念,更具体地,用于基于子带合并/分割的TNS的新概念。
图4和图5中示出了一些实施例的基本概念。
图4示出了一个(简化的)变换音频编码器,其对包括P=3个子带信号组 以及的子带信号上进行时间噪声整形。
类似地,图5示出了一个(简化的)变换音频解码器,其对应图4的变换音频编码器,并且其对包括P=3个子带信号组 以及的子带信号进行时间噪声整形。
在编码器中,MDCT被变换为子带信号。子带信号索引被分组为P个集合,其中以及
尽管在上述表述中,集合仅包括子带信号索引而不包括子带信号本身,但当提及术语“子带信号组”时,应理解子带信号组可以,例如,包括一个或多个子带信号。尽管如此,为了此处提供的解释具有更好的可读性,在本文提供的解释中使用了子带信号集合,其包括多个标识组子带信号的索引。一些实施例可以,例如,使用这样的子带信号集合,例如,来识别子带信号。
对于一个组内的所有子带信号,对相应的子带信号进行共同的时间扁平化操作,并向解码器传输边信息。随后通过子带分割和量化(通常由感知模型控制)来重建MDCT频谱。
在解码器中,执行子带合并以获得量化的、扁平化的子带信号。然后,对于子带信号组中的所有子带信号,基于边信息进行共同的时间重塑过程,该过程恢复信号的原始时间包络,从而也相应地对量化噪声进行整形。再次通过子带分割重建MDCT频谱并变换回时域。
如果重塑操作是扁平化操作的逆操作,则在无量化的情况下,整个处理是完美重构的,尽管这并不是该方法进行所必需的约束条件。
通常,子带信号的分组可以针对每个帧进行自适应选择,并作为边信息进行传输。但在下文中,我们将假定其保持不变。
此外,对于某个子带信号组完全不应用任何处理,因此不发送该组的任何边信息,也是有益的。这对于对应于非常低频的子带信号尤其有用,因为这些信号不太容易出现预回波伪影,因此也不需要进行时域噪声整形。
在下文中,描述了通过压扩进行的扁平化/重塑。
进行子带信号的扁平化/重塑的一种简单方法是应用脉冲编码调制(PCM)编码中已知的压扩。扁平化和重塑随后通过分别用于压缩和扩张的非线性映射曲线来实现。类似的方法已成功应用于频谱[8]和时间噪声整形[4]。
理论上,任何合适的可逆函数可用于压缩,因此用于扩张。这里选择指数函数 ,因为它可以通过指数轻松地进行参数化。
编码器中组中的扁平化子带信号
(12)
通过压缩获得。在解码器处,我们应用反函数进行扩张以获得
(13)
重塑后的子带信号。通过压扩进行的扁平化/重塑过程在图6中示出。
图6根据实施例在(a)中示出了用于子带信号组集合中的子带信号索引的通过压扩的扁平化过程以及在(b)中示出了重塑过程。控制压扩函数的形状的参数必须在编码器处确定并作为边信息传输给解码器。
指数应根据组中子带信号的时间特性自适应地选择。对于非瞬态信号,应选择为1,这有效地关闭了压扩。瞬态信号越强,应选择的值越接近0,将导致更强的压扩。
此外,必须传输到解码器。一个示例可以是使用2比特进行传输,以便能够传输0.3、0.4、0.5和1.0中的一个值,其中,最后一个值导致压扩被关闭。
在下文中,描述了通过增益进行的扁平化/重塑。
进行子带信号的扁平化/重塑的另一种方式是通过与增益包络进行相乘。
在编码器处,时间扁平化通过乘以增益来进行,得到
(14)
以获得组中的扁平化子带信号。
然后,在解码器处,
(15)
这是针对子带信号时间包络所进行的操作,其中重塑增益通过增益进行的扁平化/重塑过程在图7中进行了可视化。
图7在(a)中示出了用于子带信号组集合中的子带信号索引的扁平化过程以及在(b)中示出了重塑过程,其中,要在编码器处确定增益,并且,其中,要作为边信息传输给解码器。
在下文中,描述了根据实施例的增益的传输。
在下文中,提出了几种用于计算以及在解码器处传输/获取增益的示例性方法。取决于方法,确定编码器侧增益的过程和结果也可能不同。需要注意的是,这里仅对每种方法中的计算进行了非常基础的介绍。其他方法也是可行的。
在下文中,描述了通过采用自回归模型来编码增益。
使用AR模型编码增益与众所周知的基于LPC的TNS方法[5]中传输边信息的方式非常接近。获得子带信号组的AR模型系数所需的归一化频谱自相关函数(ACF)可以计算为
(16)
包括相应子带信号的归一化频谱ACF的和。这确保了时间整形不被高能量子带信号主导。需要注意的是,混叠频谱也可用于计算每个子带的频谱ACF。
正如基于LPC的TNS一样,可以使用莱文森-德宾(Levinson-Durbin)算法[9]将ACF转换为每个子带信号组的RC。对于这个过程,可以选择AR模型阶数,产生尽可能多的RC。这些RC可以如AAC[10]、EVS或LC3等基于LPC的TNS方法中那样进行量化和熵编码,并传输到解码器。在编码器和解码器处,将量化后的反射系数转换回长度模型阶数+1的线性预测滤波器系数。此转换有时也称为“rc2poly”。
在实施例中,编码器侧的增益之后可以通过逆广义离散傅里叶变换(IGDFT)计算
(17)
以及
(18)
在另一个实施例中,编码器侧的增益之后可以通过逆广义离散傅里叶变换(IGDFT)计算
(17’)
以及
(18)
在另一个实施例中,编码器侧增益之后可以通过逆广义离散傅里叶变换(IGDFT)计算
(17-1)
以及
(18)
取决于整个编码系统,可能需要通过乘法缩放对进行进一步归一化。例如,归一化到均方根(RMS)值为1,便于避免子带信号的不必要缩放。
解码器侧增益简单地表示为倒数的形式
(19)
编码器和解码器侧的处理在图8和图9中示出。
图8示出了通过AR建模来计算和传输关于图4和图5定义的子带信号组的增益的编码器侧的实施例。
图9示出了通过AR建模来计算和传输关于图4和图5定义的子带信号组的增益的解码器侧的实施例,其对应图8所描绘的编码器侧。
在下文中,描述了一种对得出的增益进行编码的概念。
上述基于压扩的概念可以扩展为一种概念,其中,重塑增益不是显式传输的,而是使用传输的边信息从子带信号得出的。
首先,在实施例中,计算每个子带信号组的下采样组合包络,例如,通过
(20)
其中,是整数下采样因子,因此应以N mod L=0的方式选择。
在另一个实施例中,计算每个子带信号组的下采样组合包络,例如,通过
(20-1)
其中,是整数下采样因子,因此应以N mod L=0的方式选择。
在编码器中,增益通过下采样子带信号包络的指数压缩以直接的方式获得
(21)
参数决定了压扩效果的强度,并以上述解释的相同方式作为边信息进行传输。
在一个实施例中,在解码器处,我们得到作为编码器侧增益的近似值的增益,如下:
(22)
(23)
在另一个实施例中,在解码器处,我们得到作为编码器侧增益的近似值的增益,如下:
(22-1)
(23)
可以注意到,如果选择下采样因子D=1且集合中的子带信号的数量,则此方法产生与基于压扩的时间扁平化/重塑完全相同的结果,如上所述。
注意,的计算可以额外包括一个乘法归一化因子,以避免子带信号的不必要缩放。
图10示出了针对子带信号组得出增益的编码器侧的实施例,子带信号组是参照图4和图5定义的。
图11示出了针对子带信号组得出增益的解码器侧的实施例,其对应图10所描绘的编码器侧,其中子带信号组是参照图4和图5定义的。
在下文中,描述了使用DPCM编码对增益进行编码。
通过差分脉冲编码调制(DPCM)编码传输增益在确定增益方面具有高度灵活性,这有助于在更多考虑感知效果的情况下实现时间噪声整形。然而,该方法在边信息开销方面可能效率较低。基本思路采用了“比例因子”方法,这种方法常用于频域噪声整形[10]中,但在子带信号时域中用于时间噪声整形。
在一个实施例中,对于每个子带信号组,计算下采样原型增益,例如,通过简单地设置
(24)
其中,D=N/L是整数下采样因子,因此应以N mod L=0的方式来选择。
在另一个实施例中,对于每个子带信号组,计算下采样原型增益,例如,通过简单地设置
(24-1)
其中,D=N/L是整数下采样因子,因此应以N mod L=0的方式来选择。
图12示出了针对子带信号组,通过DPCM传输原型增益的编码器侧的实施例,子带信号组是参照图4和图5定义的。
图13示出了针对子带信号组,通过DPCM传输原型增益的解码器侧的实施例,其对应图12所描绘的编码器侧的实施例,子带信号组是参照图4和图5定义的。
如图12和图13所描绘,这些原型增益被转换为分贝值并通过DPCM方案进行量化,随后进行熵编码以用于传输。在编码器和解码器处,下采样重塑增益通过整合和转换获得。最终的重塑增益之后可以通过,例如采样和保持上采样,来计算
(25)
扁平化增益被简单地给出为
现在,简要概述用于编码增益的另外的概念。
根据实施例,提供了通过 [11]中提出的方法的的编码和的编码。
在实施例中,提供了通过向量量化的的编码和的编码。
根据实施例,在每个帧i中仅编码与帧i的变换窗口的右侧(与帧i+1重叠的部分)相对应的不加窗增益,其中。之后,可以通过级联之后进行加窗来计算。
在下文中,描述时域混叠削减。
众所周知,MDCT域中的所有处理本质上是在包括时域混叠(TDA)的信号上进行的。虽然在IMDCT后的重叠相加过程中,原始信号的TDA通过时域混叠消除(TDAC)被消除掉了,但这并不适用于量化噪声。
因此,除非采取对策,否则在MDCT域中发生的所有时间噪声整形都遵循TDA对称性。这种效应对于基于LPC的TNS方法是众所周知的,它可能导致预点击伪影[12],并且上述方法也存在同样的问题。TDA的影响可以通过使用低重叠窗口[13]来减轻,这也缓解了TNS的预点击问题。然而,由于窗口影响适用于全频带,这可能会降低编码效率,特别是对于不仅包括瞬态还包括音调分量的信号。
为了克服子带信号上TNS的上述问题并提高感知编码质量,可以应用TDAR[6]。此过程可以解释为子带信号上的时间重叠相加过程,因此可以仅在有益的频率区域中进行。TDAR的应用需作为每个子带信号组的边信息进行信号通知(例如,用1比特表示启用/关闭),且始终对应当前窗的右侧(即与下一帧重叠)的TDAR应用。
TDAR操作必须在编码器的子带合并操作中应用,然后在解码器的子带分割期间被逆向执行。由于TDAR操作和逆TDAR操作需要前一频谱和下一频谱可用,因此分别在编码器和解码器中获取下一MDCT频谱需要额外的延迟。
如果使用TDAR,则编码器中子带合并/分割与解码器中子带合并/分割之间的任何其他处理也受益于减少的TDA。
在下文中,描述根据实施例的切换检测。
为了避免不必要地应用扁平化/重塑或TDAR,必须在编码器中进行检测以找出是否开启/关闭该处理。这应以产生最佳感知质量的方式完成。在下文中,提出了实现这种检测的示例性方法。
下面,描述用于扁平化/重塑的切换检测。
是否应用扁平化/重塑的决定取决于子带信号的时间特性。应仅对主要包括瞬态分量的信号进行这种处理。
现在,描述了一个通过子带上的时间&频谱平坦度测量的示例。
确定子带信号的时间特性的一种方法是使用通常用于评估频谱平坦度的平坦度度量[14][15]。这可以应用于每个子带信号的平方幅度以获得每个子带信号的时间平坦度度量的值为1表示恒定的时间包络,而值接近0表示更具峰值/瞬态的时间包络。
使用这一点,可以为每个子带信号组做出决定。一个简单的检测算法可以在子带信号组上启用时间噪声整形,如果
(26)
评估为真。tf_threshold是编码器调谐参数。
除此之外,还可以在的平方幅度上计算每个子带的频谱平坦度的值为1表示非音调频谱,而值接近0表示包括音调分量的频谱。
结合时间平坦度,这使得能够对每个子带中的音调和瞬态分量进行良好的分类。特别地,避免对非常音调的信号启用时间噪声整形是有益的。因此,同时使用时间和频谱平坦度的简单检测算法可以启用时间噪声整形,如果
(27)
对于子带信号组评估为真。
现在,描述通过AR模型预测增益的示例。
另一个受基于LPC的TNS启发的方法是AR模型/LP预测增益。预测增益是衡量AR模型描述原始信号的程度的度量,可以在莱文森-德宾算法的过程中进行计算。如果度量高,我们可以得出结论:子带信号是相当瞬态的,应进行扁平化/重塑。如果度量低,则不应应用扁平化/重塑。为此决定找到合适的阈值是编码器调谐的一部分。
由于该方法需要计算频谱ACF和莱文森-德宾算法的结果,因此它最适用于上述基于AR建模的传输增益的方法,因为这些步骤已经执行。然而,该方法也可以应用于其他方法的检测,但这会为计算频谱ACF和莱文森-德宾算法带来额外的计算复杂度。
现在,描述用于TDAR的切换检测。
是否应用TDAR的决定取决于MDCT中固有的TDA对子带信号和噪声整形的影响程度。一个简单的示例性检测算法可以进行TDAR,并使用,例如距离度量,将具有减少TDA的子带信号与具有TDA的子带信号进行比较。如果这表明存在较大差异,则可以启用TDAR。
在下文中,给出了一些时间平坦度度量。这些时间平坦度度量可以,例如,用于确定信号和/或其时间包络的平坦度。同样,时间平坦度度量可以,例如,用于确定信号的动态范围。简而言之,通常,信号越平坦,其动态范围越低。
给定一个时域信号
(28),
归一化平方幅度(平方时间包络)可以,例如,被获得为
(29)。
对于具有完全平坦时间包络的信号,
(30)。
基于此,可以,例如,定义以下用于x[n]的时间平坦度的度量。对于具有完全平坦包络的信号,这些平坦度度量达到最大值。
经典平坦度度量(CFM)可以,例如,定义如下:
(31)
归一化熵可以,例如,定义如下:
(32)
基于熵的平坦度度量(EFM)可以,例如,定义如下:
(33)
基于MSE的平坦度度量(MSEFM)可以,例如,定义如下:
(34)
基于差的平坦度度量(DFM)可以,例如,定义如下:
(35)
基于对数差的平坦度度量(LDFM)可以,例如,定义如下:
(36)
关于动态范围,具有如上所述的归一化平方时间包络p[n]的信号x[n]的动态范围可以,例如,由p[n]的最大值与p[n]的最小值之比得出:
动态范围=max( p[n] ) / min( p[n] )
通常,该值可以,例如,使用10·log10(动态范围)转换为分贝。
例如,可以注意到,动态范围可以,例如,被解释为一种非平坦度度量,例如,平坦/扁平化的包络使动态范围最小化。
尽管一些方面已经在装置的上下文中进行了描述,但很明显,这些方面也表示对相应方法的描述,其中,块或装置对应方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应装置的相应块或项目或特征的描述。一些或所有方法步骤可以由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中,一个或多个最重要的方法步骤可以由这样的装置执行。
根据某些实施要求,本发明的实施例可以在硬件或软件中实现,或者至少部分在硬件中或至少部分在软件中实现。实施方式可以使用数字存储介质(例如,软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行,该介质上存储有电子可读控制信号,这些信号与可编程计算机系统协作(或能够协作)以使得执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括一种具有电子可读控制信号的数据载体,这些信号能够与可编程计算机系统协作,使得执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,在计算机程序产品在计算机上运行时,程序代码用于执行本文所述的方法之一。程序代码可以,例如,存储在机器可读载体上。
其他实施例包括一种用于执行本文所述的方法之一的计算机程序,计算机程序存储在机器可读载体上。
换句话说,因此,本发明方法的一个实施例是一种具有程序代码的计算机程序,用于在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一个实施例是一种数据载体(或数字存储介质,或计算机可读介质),其上记录有用于执行本文所述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非临时性的。
因此,本发明方法的另一个实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以,例如,被配置为通过数据通信连接,例如通过互联网,进行传输。
另一个实施例包括一种处理装置,例如计算机或可编程逻辑设备,其被配置为或适用于执行本文所述的方法之一。
另一个实施例包括一种计算机,其上安装有用于执行本文所述的方法之一的计算机程序。
根据本发明的另一个实施例包括一种装置或系统,被配置为将用于执行本文所述的方法之一的计算机程序传输(例如,电子地或光学地)给接收器。接收器可以,例如,是计算机、移动设备、存储设备等。装置或系统可以,例如,包括用于将计算机程序传输给接收器的文件服务器。
在一些实施例中,可以使用可编程逻辑设备(例如现场可编程阵列)来执行本文所述的方法的部分或全部功能。在一些实施例中,现场可编程阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任何硬件装置执行。
本文所述的装置可以使用硬件装置实现,或使用计算机实现,或使用硬件装置和计算机的组合实现。
本文所述的方法可以使用硬件装置执行,或使用计算机执行,或使用硬件装置和计算机的组合执行。
上述实施例仅用于说明本发明的原理。可以理解的是,对于本领域技术人员而言,对上述的结构和细节所做的修改和变化是显而易见的。因此,本发明仅以即将申请的专利权利要求书所限定的范围为准,而不受上述所描述和解释的实施例的具体细节的限制。
缩写
TNS 时间噪声整形
MDCT 改进离散余弦变换
IMDCT 逆改进离散余弦变换
TDA 时域混叠
TDAC 时域混叠消除
TDAR 时域混叠削减
LP 线性预测
LPC 线性预测编码
ACF 自相关函数
RCs 反射系数
AR 自回归
PCM 脉冲编码调制
DPCM 差分脉冲编码调制
IGDFT 逆广义离散傅里叶变换
RMS 均方根
参考文献
[1] B. Edler, “Codierung von Audiosignalen mit überlappenderTransformation und adaptiven Fensterfunktionen," Frequenz, vol. 43, no. 9,pp. 252–256, 1989.
[2] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri,H. Fuchs, and M. Dietz, “ISO/IEC MPEG-2 advanced audio coding,” Journal ofthe Audio engineering society, vol. 45, no. 10, pp. 789–814, 1997.
[3] F. Ghido, S. Disch, J. Herre, F. Reutelhuber, and A. Adami,“Coding of fine granular audio signals using High Resolution EnvelopeProcessing (HREP),” in 2017 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP), pp. 701–705, IEEE, 2017.
[4] A. Biswas, P. Hedelin, L. F. Villemoes, and V. Melkote, “TemporalNoise Shaping with Companding,” in INTERSPEECH, pp. 3548–3552, 2018.
[5] J. Herre and J. D. Johnston, “Enhancing the performance ofperceptual audio coders by using temporal noise shaping (TNS),” in AudioEngineering Society Convention 101, Audio Engineering Society, 1996.
[6] N. Werner and B. Edler, “Nonuniform orthogonal filterbanks basedon MDCT analysis/synthesis and time-domain aliasing reduction,” IEEE SignalProcessing Letters, vol. 24, no. 5, pp. 589–593, 2017.
[7] J. Princen, A. Johnson, and A. Bradley, “Subband/transform codingusing filter bank designs based on time domain aliasing cancellation,” inICASSP'87. IEEE International Conference on Acoustics, Speech, and SignalProcessing, vol. 12, pp. 2161–2164, IEEE, 1987.
[8] R. Lefebvre and C. LaFlamme, “Shaping coding noise withfrequency-domain companding,” pp. 61–62, 1997.
[9] J. Makhoul, “Linear prediction: A tutorial review,” Proceedingsof the IEEE, vol. 63, no. 4, pp. 561–580, 1975.
[10] ISO/IEC, “Information technology – Coding of audio-visualobjects – Part 3: Audio.” International Standard 14496-3.
[11] S. Korse, T. Jähnel, and T. Bäckström, “Entropy Coding ofSpectral Envelopes for Speech and Audio Coding Using DistributionQuantization,” in Interspeech, pp. 2543–2547, 2016.
[12] T.-W. Chang, C.-T. Chien, T. Chiou, Y.-H. Hsiao, H.-W. Hue, W.-C. Lee, C.-M. Liu, K.-Y. Peng, and C.-H. Yang, “Design of MPEG-4 AACEncoder,” in Audio Engineering Society Convention 117, Audio EngineeringSociety, 2004.
[13] E. Allamanche, R. Geiger, J. Herre, and T. Sporer, “MPEG-4 lowdelay audio coding based on the AAC codec,” in Audio Engineering SocietyConvention 106, Audio Engineering Society, 1999.
[14] A. Gray and J. Markel, “A spectral-flatness measure for studyingthe autocorrelation method of linear prediction of speech analysis,” IEEETransactions on Acoustics, Speech, and Signal Processing, vol. 22, no. 3, pp.207–217, 1974.
[15] N. Madhu, “Note on measures for spectral flatness,” Electronicsletters, vol. 45, no. 23, pp. 1195–1196, 2009.

Claims (67)

1.一种用于音频信号解码的装置(200),其中,装置(200)包括:
解码单元(210),被配置为对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数;
第一变换单元(220),被配置为将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
子带信号修改器(230),被配置为通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号;以及
第二变换单元(240),被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
2.根据权利要求1所述的装置(200),
其中,子带信号修改器(230)被配置为修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号的动态范围增加(例如,被重塑)。
3.根据权利要求1或2所述的装置(200),
其中,子带信号修改器(230)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号。
4.根据权利要求3所述的装置(200),
其中,子带信号修改器(230)被配置为通过重塑(例如,反扁平化/重构)子带信号的时间包络,来修改一个或多个子带信号中的每个子带信号的时间包络。
5.根据权利要求3或4所述的装置(200),
其中,子带信号修改器(230)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号在修改后的动态范围大于在修改前的动态范围。
6.根据权利要求3至5中任一项所述的装置(200),
其中,子带信号修改器(230)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得时间平坦度度量指示一个或多个子带信号中的每个子带信号在修改前比在修改后更平坦。
7.根据权利要求3至6中任一项所述的装置(200),
其中,子带信号修改器(230)被配置为采用非线性映射曲线来增加子带信号的动态范围。
8.根据权利要求3至7中任一项所述的装置(200),
其中,修改信息包括关于指数α的信息或用于确定指数α的信息;
其中,子带信号修改器(230)被配置为通过在子带信号的样本的幅度上应用指数β,来重塑(例如,反扁平化/重构)子带信号的时间包络;以及
其中,β=α,和/或,其中,β=1/α,和/或,其中,β从α得出。
9.根据权利要求3至8中任一项所述的装置(200),
其中,修改信息包括关于接收的增益函数的信息或用于确定接收的增益函数的信息;
其中,子带信号修改器(230)被配置为
通过将子带信号的样本中的每个样本与应用的增益函数的增益g相乘;或
通过将子带信号的样本中的每个样本与1/g相乘,其中,g是应用的增益函数的增益,
来重塑(例如,反扁平化/重构)子带信号的时间包络;
其中,应用的增益函数等于接收的增益函数,或,其中,应用的增益函数从增益函数得出。
10.根据上述权利要求中任一项所述的装置(200),
其中,解码单元(210)被配置为从音频信号编码获取多个反射系数;以及
其中,子带信号修改器(230)被配置为根据自回归模型,根据多个反射系数来修改一个或多个子带信号。
11.根据权利要求10所述的装置(200),
其中,多个反射系数是一个或多个归一化频谱自相关函数的多个反射系数;
其中,子带信号修改器(230)被配置为从多个反射系数生成多个增益;以及
其中,子带信号修改器(230)被配置为根据多个增益来修改一个或多个子带信号。
12.根据权利要求1至9中任一项所述的装置(200),
其中,子带信号修改器(230)被配置为在修改之前,确定一个或多个子带信号的下采样组合包络的多个样本;
其中,子带信号修改器(230)被配置为使用下采样组合包络的多个样本,根据修改参数(α)来确定多个增益;以及
其中,子带信号修改器(230)被配置为通过将多个增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得在将一个或多个增益应用于一个或多个子带信号之后,一个或多个子带信号的动态范围增加。
13.根据权利要求12所述的装置(200),
其中,解码单元(210)被配置为从音频信号编码获取修改参数(α)。
14.根据权利要求1至9中任一项所述的装置(200),
其中,解码单元(210)被配置为从音频信号编码获取多个下采样增益;
其中,解码单元(210)被配置为从多个下采样增益中获取多个适用增益,使得多个适用增益表示多个下采样增益的上采样;以及
其中,子带信号修改器(230)被配置为通过将多个适用增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得一个或多个子带信号的动态范围增加。
15.根据权利要求14所述的装置(200),
其中,音频信号编码包括多个下采样增益的差分脉冲编码调制编码;以及
其中,解码单元(210)被配置为从音频信号编码内的多个下采样增益的差分脉冲编码调制编码获取多个下采样增益。
16.根据权利要求1至9中任一项所述的装置(200),
其中,解码单元(210)被配置为获取指示两个或更多个预定义映射曲线中的预定义映射曲线的指示符;
其中,子带信号修改器(230)被配置为获取所述预定义映射曲线;以及
其中,子带信号修改器(230)被配置为根据所述预定义映射曲线来修改一个或多个子带信号。
17.根据上述权利要求中任一项所述的装置(200),
其中,第一变换单元(220)被配置为通过进行第一重叠变换将解码的谱域音频信号从谱域变换到子带信号域,以获取包括多个子带信号的子带信号域变换后的音频信号,
其中,第二变换单元(240)被配置为通过进行第二重叠变换将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
18.根据权利要求17所述的装置(200),
其中,第一变换单元(220)被配置为通过将多个块中的每个块从谱域变换到子带信号域,来进行第一重叠变换,其中,每个块包括多个谱系数的一部分;以及
其中,多个块中的两个或更多个块中的每个块与多个块中的至少一个其他块重叠,使得所述块和所述至少一个其他块包括多个谱系数中的相同谱系数。
19.根据权利要求17或18所述的装置(200),
其中,第二变换单元(240)被配置为通过变换多个子带信号中的每个子带信号,来进行第二重叠变换,以从所述子带信号获取谱域中的多个中间样本;以及
其中,第二变换单元(240)被配置为通过对从多个子带信号中的每个子带信号获取的多个中间系数进行重叠相加,来获取重构的谱域音频信号的多个谱系数。
20.根据上述权利要求中任一项所述的装置(200),
其中,谱域是改进离散余弦变换,或者其中,谱域是改进离散正弦变换。
21.根据上述权利要求中任一项所述的装置(200),
其中,装置(200)还包括频谱到时间变换单元(245),频谱到时间变换单元(245)被配置为将重构的谱域音频信号从谱域变换到时域,以获取重构的时域音频信号。
22.根据上述权利要求中任一项所述的装置(200),
其中,修改信息包括第一修改信息和第二修改信息,其中,第一修改信息不同于第二修改信息;以及
其中,子带信号修改器(230)被配置为通过根据第一修改信息对子带信号域变换后的音频信号的多个子带信号的第一组一个或多个子带信号进行修改,以及通过根据第二修改信息对子带信号域变换后的音频信号的多个子带信号的第二组两个或更多个子带信号进行修改,来修改一个或多个子带信号,其中,第二组不同于第一组。
23.根据权利要求22所述的装置(200),
其中,第一组不包括第二组所包括的任何子带信号,并且其中第二组不包括第一组所包括的任何子带信号。
24.根据权利要求22或23所述的装置(200),
其中,第一修改信息包括接收的第一指数,其中,第二修改信息包括接收的第二指数;
其中,子带信号修改器(230)被配置为将接收的第一指数或从接收的第一指数得出的第一值应用于多个子带信号的第一组一个或多个子带信号的样本上;以及
其中,子带信号修改器(230)被配置为将接收的第二指数或从接收的第二指数得出的第二值应用于多个子带信号的第二组两个或更多个子带信号的样本上。
25.根据权利要求22至24中任一项所述的装置(200),
其中,第一修改信息包括接收的第一增益函数,其中,第二修改信息包括接收的第二增益函数;
其中,子带信号修改器(230)被配置为将接收的第一增益函数或从接收的第一增益函数得出的得出第一增益函数应用于第一组一个或多个子带信号的每个子带信号上;以及
其中,子带信号修改器(230)被配置为将接收的第二增益函数或从接收的第二增益函数得出的得出第二增益函数应用于第二组两个或更多个子带信号的每个子带信号上。
26.根据权利要求22至25中任一项所述的装置(200),
其中,音频信号编码包括关于如何将多个子带信号分组为多个组的一个或多个子带信号的信息,其中,多个组包括第一组和第二组。
27.根据上述权利要求中任一项所述的装置(200),
其中,当将多个子带信号变换到谱域时,第二变换单元(240)被配置为撤销在编码器侧进行的时域混叠削减操作。
28.根据权利要求27所述的装置(200),
其中,音频信号编码包括对多个子带信号中的哪些进行了时域混叠削减的指示;以及
其中,当将多个子带信号变换到谱域时,第二变换单元(240)被配置为对那些由指示进行指示的子带信号撤销时域混叠削减操作。
29.根据上述权利要求中任一项所述的装置(200),
其中,音频信号编码包括修改指示,指示多个子带信号中的子带信号是否已在编码器侧被修改;以及
其中,子带信号修改器(230)被配置为根据修改指示来修改或不修改所述子带信号。
30.一种用于音频信号编码的装置(100),其中,装置(100)包括:
第一变换单元(110),被配置为将包括多个谱系数的第一谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
子带信号修改器(120),被配置为修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,以获取修改后的子带信号域音频信号;
第二变换单元(130),被配置为将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号;以及
编码单元(140),被配置为生成音频信号编码,音频信号编码包括修改后的谱域音频信号的编码和修改信息或其编码,其中,修改信息包括关于一个或多个子带信号如何被修改的信息。
31.根据权利要求30所述的装置(100),
其中,子带信号修改器(120)被配置为修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号的动态范围减小(例如,被扁平化)。
32.根据权利要求30或31所述的装置(100),
其中,子带信号修改器(120)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号。
33.根据权利要求32所述的装置(100),
其中,子带信号修改器(120)被配置为通过扁平化所述子带信号的时间包络,来修改一个或多个子带信号中的每个子带信号的时间包络。
34.根据权利要求32或33所述的装置(100),
其中,子带信号修改器(120)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得一个或多个子带信号中的每个子带信号在修改后的动态范围小于在修改前的动态范围。
35.根据权利要求32至34中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为通过根据修改信息修改一个或多个子带信号中的每个子带信号的时间包络,来修改一个或多个子带信号,使得时间平坦度度量指示一个或多个子带信号中的每个子带信号在修改后比在修改前更平坦。
36.根据权利要求35所述的装置(100),
其中,子带信号修改器(120)被配置为采用非线性映射曲线来减小所述子带信号的动态范围。
37.根据权利要求32至36中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为通过在子带信号的样本的幅度上应用指数α,来扁平化所述子带信号的时间包络;以及
其中,修改信息包括关于指数α的信息,和/或包括用于确定指数α的信息,和/或包括关于1/α的信息,或包括用于确定1/α的信息。
38.根据权利要求32至37中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为通过将子带信号的样本中的每个样本与增益函数的增益g相乘,来扁平化所述子带信号的时间包络;以及
其中,修改信息包括关于增益函数的信息,或包括用于确定增益函数的信息,和/或包括关于派生函数的信息,派生函数包括增益函数的每个增益g的增益1/g,和/或包括用于确定派生函数的信息。
39.根据权利要求30至38中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为在修改之前,根据自回归模型从一个或多个子带信号确定多个反射系数;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括多个反射系数或其编码。
40.根据权利要求39所述的装置(100),
其中,子带信号修改器(120)被配置为在修改之前,为一个或多个子带信号生成一个或多个归一化频谱自相关函数;
其中,子带信号修改器(120)被配置为确定一个或多个归一化频谱自相关函数的多个反射系数;
其中,子带信号修改器(120)被配置为从多个反射系数中生成多个增益,并且被配置为将多个增益应用于一个或多个子带信号;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括多个反射系数或其编码。
41.根据权利要求30至38中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为被配置为在修改之前,确定一个或多个子带信号的下采样组合包络的多个样本;
其中,子带信号修改器(120)被配置为使用下采样组合包络的多个样本,根据修改参数(α)来确定多个增益;以及
其中,子带信号修改器(120)被配置为通过将多个增益应用于一个或多个子带信号,来修改一个或多个子带信号,使得在将一个或多个增益应用于一个或多个子带信号之后,一个或多个子带信号的动态范围减小。
42.根据权利要求41所述的装置(100),
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括修改参数(α)或其编码。
43.根据权利要求30至38中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为确定用于一个或多个子带信号的多个适用增益,使得通过将多个适用增益应用于一个或多个子带信号,一个或多个子带信号的动态范围减小;
其中,编码单元(140)被配置为确定多个下采样增益,使得多个下采样增益表示多个适用增益的下采样;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括多个下采样增益或其编码。
44.根据权利要求43所述的装置(100),
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括多个下采样增益的差分脉冲编码调制编码。
45.根据权利要求30至38中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为在修改之前,确定指示用于一个或多个子带信号的两个或更多个预定义映射曲线中的预定义映射曲线的指示符;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括指示符或其编码。
46.根据权利要求30至38中任一项所述的装置(100),
其中,第一变换单元(110)被配置为通过进行第一重叠变换,将第一谱域音频信号从谱域变换到子带信号域,以获取包括多个子带信号的子带信号域变换后的音频信号;以及
其中,第二变换单元(130)被配置为通过进行第二重叠变换,将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号。
47.根据权利要求46所述的装置(100),
其中,第一变换单元(110)被配置为通过将多个块中的每个块从谱域变换到子带信号域,来进行第一重叠变换,其中,每个块包括多个谱系数的一部分;以及
其中,多个块中的两个或更多个块中的每个块与多个块中的至少一个其他块重叠,使得每个块和至少一个其他块包括多个谱系数中的相同谱系数。
48.根据权利要求46或47所述的装置(100),
其中,第二变换单元(130)被配置为通过变换多个子带信号中的每个子带信号,来进行第二重叠变换,以从所述子带信号获取谱域中的多个中间样本;以及
其中,第二变换单元(130)被配置为通过对从多个子带信号中的每个子带信号获取的多个中间系数进行重叠相加,来获取修改后的谱域音频信号的多个谱系数。
49.根据权利要求30至48中任一项所述的装置(100),
其中,谱域是改进离散余弦变换,或,其中,谱域是改进离散正弦变换。
50.根据权利要求30至49中任一项所述的装置(100),
其中,装置(100)还包括时间到频谱变换单元(105),时间到频谱变换单元(105)被配置为将第一时域音频信号从时域变换到谱域,以获取第一谱域音频信号。
51.根据权利要求30至50中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为通过对子带信号域变换后的音频信号的多个子带信号的第一组一个或多个子带信号进行修改,以及通过对子带信号域变换后的音频信号的多个子带信号的第二组两个或更多个子带信号进行修改,来修改一个或多个子带信号,其中,第二组不同于第一组;以及
其中,编码单元(140)被配置为生成音频信号编码,音频信号编码包括修改信息或其编码,使得修改信息包括第一修改信息和第二修改信息,其中,第一修改信息取决于第一组一个或多个子带信号的修改,第二修改信息取决于第二组两个或更多个子带信号的修改,其中,第一修改信息不同于第二修改信息。
52.根据权利要求51所述的装置(100),
其中,第一组不包括第二组所包括的任何子带信号,并且其中第二组不包括第一组所包括的任何子带信号。
53.根据权利要求51或52所述的装置(100),
其中,第一修改信息包括关于已应用于第一组一个或多个子带信号的每个子带信号的样本上的第一指数的信息;以及
其中,第二修改信息包括关于已应用于第二组两个或更多个子带信号的每个子带信号的样本上的第二指数的信息,第二指数不同于第一指数。
54.根据权利要求51至53中任一项所述的装置(100),
其中,第一修改信息包括关于已应用于第一组一个或多个子带信号的每个子带信号上的第一增益函数的信息;以及
其中,第二修改信息包括关于已应用于第二组两个或更多个子带信号的每个子带信号上的第二增益函数的信息,第二增益函数不同于第一增益函数。
55.根据权利要求51至54中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为根据多个子带信号的一个或多个信号特性来确定多个组的一个或多个子带信号,其中,多个组包括第一组和第二组;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括关于如何将多个子带信号分组为多个组的一个或多个子带信号的信息。
56.根据权利要求55所述的装置(100),
其中,子带信号修改器(120)被配置为通过以下确定多个组的一个或多个子带信号:根据多个子带信号中的每个子带信号的功率对子带信号进行归一化来获取多个归一化子带信号;确定归一化子带信号之间的相似度;以及根据与子带信号相关联的归一化子带信号与其他归一化子带信号之间的相似度,将多个子带信号中的子带信号关联到多个组中的一个组。
57.根据权利要求30至56中任一项所述的装置(100),
其中,第一变换单元(110)被配置为进行时域混叠削减,以使用当前频谱之后的后续频谱来生成多个子带信号中的一个或多个子带信号,当前频谱包括第一谱域音频信号的谱系数。
58.根据权利要求57所述的装置(100),
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码包括对多个子带信号中的哪些子带信号进行了时域混叠削减的指示。
59.根据权利要求57或58所述的装置(100),
其中,第一变换单元(110)被配置为仅当距离度量指示通过进行时域混叠削减生成的子带信号与不进行时域混叠削减生成的子带信号之间的距离大于阈值距离时,才进行时域混叠削减以生成多个子带信号中的子带信号。
60.根据权利要求30至59中任一项所述的装置(100),
其中,子带信号修改器(120)被配置为进行确定,以根据子带信号域变换后的音频信号的多个子带信号中的子带信号的信号特性确定是否修改所述子带信号;
其中,子带信号修改器(120)被配置为根据确定来修改或不修改所述子带信号;以及
其中,编码单元(140)被配置为生成音频信号编码,使得音频信号编码指示子带信号修改器(120)是否已修改所述子带信号。
61.根据权利要求60所述的装置(100),
其中,子带信号修改器(120)被配置为通过确定子带信号中是否存在瞬态来进行确定,以确定是否修改子带信号。
62.根据权利要求60或61所述的装置(100),
其中,子带信号修改器(120)被配置为采用时间平坦度度量和/或频谱平坦度度量来确定是否修改子带信号。
63.根据权利要求60或61所述的装置(100),
其中,子带信号修改器(120)被配置为采用自回归模型来确定是否修改子带信号。
64.一种系统,包括:
如权利要求30至63中任一项所述的用于音频信号编码的装置(100);以及
如权利要求1至29中任一项所述的用于音频信号解码的装置(200),
其中,如权利要求1至29中任一项所述的装置(200)被配置为接收由如权利要求30至63中任一项所述的装置(100)生成的音频信号编码。
65.一种用于音频信号解码的方法,其中,方法包括:
对音频信号编码进行解码,以获取解码的谱域音频信号和修改信息,其中,解码的谱域音频信号包括多个谱系数;
将解码的谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
通过根据修改信息修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,来获取修改后的子带信号域音频信号;以及
将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取重构的谱域音频信号。
66.一种用于音频信号编码的方法,其中,方法包括:
将包括多个谱系数的第一谱域音频信号从谱域变换到子带信号域,以获取子带信号域变换后的音频信号,子带信号域变换后的音频信号包括多个子带信号;
修改子带信号域变换后的音频信号的多个子带信号中的一个或多个子带信号,以获取修改后的子带信号域音频信号;
将修改后的子带信号域音频信号从子带信号域变换到谱域,以获取修改后的谱域音频信号;以及
生成音频信号编码,音频信号编码包括修改后的谱域音频信号的编码和修改信息或其编码,其中,修改信息包括关于一个或多个子带信号如何被修改的信息。
67.一种计算机程序,用于当在计算机或信号处理器上执行时,实现如权利要求65或66所述的方法。
CN202480040267.5A 2023-04-21 2024-04-19 具有子带信号上时间噪声整形的音频信号编解码的装置和方法 Pending CN121336256A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP23169234 2023-04-21
EP23169234.4 2023-04-21
PCT/EP2024/060791 WO2024218334A1 (en) 2023-04-21 2024-04-19 Apparatus and method for audio signal coding with temporal noise shaping on subband signals

Publications (1)

Publication Number Publication Date
CN121336256A true CN121336256A (zh) 2026-01-13

Family

ID=86142934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202480040267.5A Pending CN121336256A (zh) 2023-04-21 2024-04-19 具有子带信号上时间噪声整形的音频信号编解码的装置和方法

Country Status (2)

Country Link
CN (1) CN121336256A (zh)
WO (1) WO2024218334A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2410522T (pt) * 2008-07-11 2018-01-09 Fraunhofer Ges Forschung Codificador de sinal de áudio, método para codificar um sinal de áudio e programa de computador
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム

Also Published As

Publication number Publication date
WO2024218334A1 (en) 2024-10-24

Similar Documents

Publication Publication Date Title
US12014747B2 (en) Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
US11854561B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
US8959017B2 (en) Audio encoding/decoding scheme having a switchable bypass
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
US8862480B2 (en) Audio encoding/decoding with aliasing switch for domain transforming of adjacent sub-blocks before and subsequent to windowing
US11043226B2 (en) Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
TWI793666B (zh) 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式
TW201732780A (zh) 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備及方法
CN121336256A (zh) 具有子带信号上时间噪声整形的音频信号编解码的装置和方法
TWI864704B (zh) 用於音訊編碼器中之尺度參數之諧度相依傾斜控制之設備及方法
US20240371382A1 (en) Apparatus and method for harmonicity-dependent tilt control of scale parameters in an audio encoder
US20240153513A1 (en) Method and apparatus for encoding and decoding audio signal using complex polar quantizer
KR20260004452A (ko) 오디오 인코더에서 스케일 파라미터의 고조파 의존적 기울기 제어 장치 및 방법
HK40029859A (zh) 使用尺度参数的降采样或内插对音频信号进行编码及解码的装置及方法
HK40029859B (zh) 使用尺度参数的降采样或内插对音频信号进行编码及解码的装置及方法
BR122025025245A2 (pt) Aparelho e método para codificação e decodificação de um sinal de áudio usando parâmetros de amostragem descendente ou de interpolação de escala
HK1218018B (zh) 频域中基於cpl进行编码的低频增强

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination