CN111711918B

CN111711918B - 一种多通道信号的相干声与环境声提取方法及系统

Info

Publication number: CN111711918B
Application number: CN202010448458.9A
Authority: CN
Inventors: 吴彦琴; 桑晋秋; 郑成诗; 张芳杰; 李晓东
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2021-05-18
Anticipated expiration: 2040-05-25
Also published as: CN111711918A

Abstract

本发明公开了一种多通道信号的相干声与环境声提取方法及系统，所述方法包括：计算N个通道信号相干声的权重表达式，根据权重表达式估计相干声，由此计算各个通道的相干声；根据各个通道的相干声计算各个通道的环境声；将N个通道相干声与N个通道环境声进行逆傅里叶变换，得到时域表示的相干声与环境声。无论相干声能量所占比例大小、环境声在各个通道能量是否相等，本发明方法均可实现相干声与环境声提取，而且提取误差较小，精度高。

Description

一种多通道信号的相干声与环境声提取方法及系统

技术领域

本发明涉及空间声重放领域，特别涉及一种多通道信号的相干声与环境声提取方法及系统。

背景技术

空间声重放时，不仅需要满足一定的声源定位、声像宽度要求，还需形成良好的空间感和沉浸感。空间声主要包括具有方向性的相干声和具有扩散性的环境声两种成分。相干声与环境声的特性不同，人们对其感知也不同，因此为了实现更好的空间声重放效果，需要对相干声与环境声提取(Primary-Ambient Extraction,PAE)并进行不同的处理。

PAE技术可以与空间音频场景编码、方向音频编码等空间音频编码系统相融合，已经成为空间声重放系统的关键技术之一。通常，PAE技术作为音频编码或解码的前端，可以实现复杂、有效而且具有沉浸感的空间声重放。首先，PAE技术将空间声场景中的相干声与环境声分离，可以使重放空间声的音频格式与原始的音频格式独立，增加空间声重放的灵活性。其次，对于基于目标的音频格式，基于PAE的声重放系统在不分离出单个声源目标的情况下，一样能重放出空间感较好的声场景，维持了空间声重放的效率性。最后，PAE技术分离出声场景中的两个重要组成成分，即相干声成分和环境声成分，对其分别处理可以在重构声场景时提升听觉体验。

PAE可通过主成分分析法(Principal Component Analysis,PCA)完成，PCA法利用通道间的相关性，将输入信号的协方差矩阵的最大特征值对应的特征向量认定为相干声向量，对该向量进行归一化得到单位向量，输入信号向此单位向量做投影即可得到各个通道的相干声。PCA法的使用前提是相干声占主要能量，当相干声能量较少时提取误差增大。此外，当通道数较多时，输入信号的协方差矩阵的最大特征值对应的特征向量不易求解。除PCA法外，PAE中应用较广的另一种方法是最小二乘法(Least-Squares,LS)。由于使用LS法估计相干声时估计权重计算量较大，尤其是通道数较多时，无法计算估计权重，因此目前LS法仅用于立体声信号的PAE。成对相关法是专门针对多通道信号的PAE方法，此方法将多通道信号两两组对，并探究出各个通道的相干声能量占比与通道间相关值存在线性关系，利用通道间相关值求出各个通道的相干声能量占比，完成多通道信号的PAE。但是该方法仅使用了相关值的幅度信息，提取相干声的准确度不高。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种多通道信号的相干声与环境声提取方法。该方法通过计算通道数较少时使用最小二乘法估计相干声的权重，根据权重随通道数变化的规律性，得出针对任意通道数的多通道信号进行相干声估计时的权重表达式。此外，本发明的方法利用各个通道的信号能量以及通道间相关值，求出权重表达式中的各个未知参数，实现多通道信号的PAE。

为实现上述目的，本发明的实施例1提供了一种多通道信号的相干声与环境声提取方法，所述方法包括：

计算N个通道信号相干声的权重表达式，根据权重表达式估计相干声，由此计算各个通道的相干声；

根据各个通道的相干声计算各个通道的环境声；

将N个通道相干声与N个通道环境声进行逆傅里叶变换，得到时域表示的相干声与环境声。

作为上述方法的一种改进，所述计算N个通道信号相干声的权重表达式，根据权重表达式估计相干声，由此计算各个通道的相干声；具体包括：

将时域多通道信号进行傅里叶变换，第n个通道输入信号X_n表示为：

X_n＝β_nS+A_n

其中，S表示相干声的频谱，β_n表示第n个通道的相干声与第一个通道的相干声存在的幅度差异因子，1≤n≤N，β₁＝1，A_n表示第n个通道的环境声的频谱；

计算第n个通道输入信号X_n的短时能量

计算任意两个通道间的相关值：

其中，

为第n₁个通道和第n₂个通道间的相关值，n₁＝1,2,…,N,n₂＝1,2,…,N,n₁≠n₂；共有

个不同的互相关值；

利用

选取N组互相关值联立计算出各个通道中相干声所占比例为η_n；

对于第一个通道，已知β₁＝1，因此有：

其中，P_S表示相干声的短时能量，

表示第一个通道环境声的短时能量；

对于其他通道，根据输入信号X_n的短时能量

以及通道间相关值，得到：

其中，

表示第n个通道环境声的短时能量，其中n＝2,3,…,N；

计算第n个通道的权重值w_n：

则相干声的估计值

为：

则第n个通道相干声S_n：

作为上述方法的一种改进，所述根据各个通道的相干声计算各个通道的环境声；具体为：

第n个通道的环境声A_n为：

A_n＝X_n-S_n。

本发明的实施例2提供了一种多通道信号的相干声与环境声提取系统，所述系统包括：

相干声提取模块，用于计算N个通道信号相干声的权重表达式，根据权重表达式估计相干声，由此计算各个通道的相干声；

环境声提取模块，用于根据各个通道的相干声计算各个通道的环境声；

频域转时域模块，用于将所N个通道相干声与N个通道环境声进行逆傅里叶变换，得到时域表示的相干声与环境声。

作为上述系统的一种改进，所述相干声提取模块的具体实现过程为：

X_n＝β_nS+A_n

计算第n个通道输入信号X_n的短时能量

计算任意两个通道间的相关值：

其中，

个不同的互相关值；

利用

对于第一个通道，已知β₁＝1，因此有：

其中，P_S表示相干声的短时能量，

表示第一个通道环境声的短时能量；

对于其他通道，根据输入信号X_n的短时能量

以及通道间相关值，得到：

其中，

表示第n个通道环境声的短时能量，其中n＝2,3,…,N；

计算第n个通道的权重值w_n：

则相干声的估计值

为：

则第n个通道相干声S_n：

作为上述系统的一种改进，所述环境声提取模块的具体实现过程为：

第n个通道的环境声A_n为：

A_n＝X_n-S_n。

本发明的优势在于：

无论相干声能量所占比例大小、环境声在各个通道能量是否相等，本发明方法均可实现相干声和环境声的提取，而且提取误差较小，精度高。

附图说明

图1是本发明的多通道信号的相干声与环境声提取方法的流程图；

图2(a)是使用本发明的方法和成对相关法对混合五通道信号1进行相干声成分提取的误差图；

图2(b)是使用本发明的方法和成对相关法对混合五通道信号1进行环境声成分提取的误差图；

图3(a)是使用本发明的方法和成对相关法对混合五通道信号2进行相干声成分提取的误差图；

图3(b)是使用本发明的方法和成对相关法对混合五通道信号2进行环境声成分提取的误差图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

实施例1

如图1所示，本发明的实施例1提出了一种多通道信号的相干声与环境声提取方法，包括以下步骤：

步骤1)将多通道信号分帧后进行傅里叶变换得到频谱，根据多通道信号模型表示出各个通道的短时能量以及任意两个通道间相关值，具体包括：

多通道信号模型中，输入信号表示为相干声与环境声的叠加。由于相干声和环境声自身的特性不同，假设各个通道的相干声之间是完全相关的，即存在线性关系；假设相干声与每个通道的环境声以及通道间的环境声均是不相关的。

步骤1-1)将时域多通道信号进行傅里叶变换，得到频谱：

X_n＝β_nS+A_n,n＝1,2,…,N

其中，N为通道数，S表示相干声的频谱，β_n表示第n个通道相干声与第一个通道的相干声存在的幅度差异因子，且β₁＝1，A_n表示第n个通道的环境声的频谱；

步骤1-2)各个通道的信号能量可以表示为：

其中，E{}表示短时平均。

步骤1-3)各个通道间的相关值可以表示为：

其中，

个不同的互相关值；

步骤2)使用最小二乘法估计计算两个通道和三个通道的相干声的权重值，并探究其规律性，由此给出N个通道的相干声的权重值；

步骤2-1)对于两通道信号，利用输入信号X₁和X₂估计相干声的权重值：

步骤2-1-1)估计两通道的相干声

其中，w₁和w₂表示待求的估计权重。

步骤2-1-2)计算

的估计误差σ_S：

步骤2-1-3)使用最小二乘算法进行求解，即当估计误差与输入立体声信号完全不相关时，得到的权重为最优估计：

E{σ_SX₁}＝0

E{σ_SX₂}＝0

此时，最优估计的权重表示为：

其中，P_S表示相干声的短时能量，

和

分别表示两个通道环境声的短时能量。

步骤2-2)对于三通道信号，计算出输入信号X₁、X₂以及X₃估计相干声

的权重值：

步骤2-2-1)估计相干声

其中，w₁、w₂和w₃表示待求的估计权重。

步骤2-2-2)利用与步骤2-1)类似的处理方法可以求得三通道信号估计相干声的权重值：

其中，P_S表示相干声的短时能量，

和

分别表示三个通道环境声的短时能量。

步骤2-3)针对通道数为N的多通道信号，计算相干声的各通道的估计权重；

针对通道数为N的多通道信号，估计的相干声表示为：

其中，权重值可以表示为：

其中，P_S表示相干声的短时能量，

分别表示N个通道环境声的短时能量。

步骤3)计算估计相干声的权重中各个未知参数，完成多通道信号的相干声与环境声提取，具体包括：

步骤3-1)由于各个通道的相干声之间是完全相关的，相干声与各个通道的环境声以及通道间的环境声均是不相关的，因此，各个通道的信号能量可以表示为：

其中，P_S表示相干声的短时能量，

表示第n个通道环境声的短时能量。

两个不同通道间相关值为：

步骤3-2)定义各个通道中相干声所占比例为η_n，并由通道间相关值求η_n；包括：

步骤3-2-1)将N个通道两两分组并计算其相关值

根据η_n的定义得：

因此，可得关系：

两边取对数，得：

步骤3-2-2)N个通道信号存在

个不同的互相关值，当N＝3时为适定问题，当N＞3时为超定问题。因此，当N＞3时，选出可靠性较强的N组互相关值即可求出N个未知的通道中相干声所占比例。

步骤3-3)对于第一个通道，已知β₁＝1，因此有：

对于其他通道，根据各个通道的信号能量以及通道间相关值，可得：

步骤3-4)将步骤3-3)中所有参数带入步骤3-2)中权重的表达式，即可实现对第一个通道相干声S的估计。

步骤4)对任意通道数的多通道信号进行PAE，具体包括：

步骤4-1)计算各个通道的相干声，具体包括：

由于步骤2)计算出对任意通道数的多通道信号进行PAE时估计相干声的权重表达式，步骤3)计算出权重表达式中的各个未知参数，因此当确定了多通道信号的通道数，可直接根据权重表达式估计相干声S。此相干声直接为第一个通道的相干声，其他通道的相干声由S线性处理得到，即为β_nS(n＝2,…,N)。

步骤4-2)计算各个通道的环境声，具体包括：

将各个通道剩余成分认定为环境声，即A_n＝X_n-β_nS。

步骤4-3)将所得的N个通道相干声与N个通道环境声进行逆傅里叶变换，得到时域表示的相干声与环境声。

下面结合仿真实例，对本发明所提出的方法性能进行说明：

将完全相关的相干声与完全不相关的环境声按照一定比例合成混合五通道信号，使用本发明提出的多通道PAE方法和成对相关法进行成分提取。合成了两组混合多通道信号，即纯净语音作为相干声、海浪声作为环境声的混合五通道信号1以及纯净音乐声作为相干声、森林背景声作为环境声的混合五通道信号2。混合时，为了控制各个通道间相干声能量的分布，设定各个通道间相干声幅度差异因子β_n与其参考值β₀之间呈一定的比例关系；为了控制各个通道间环境声能量的分布，设定各个通道环境声能量

与其参考值

之间呈一定的比例关系；为了控制混合信号中相干声成分所占比例，设定不同的相干声能量占比γ。参考值β₀由γ决定。

本实验设定各个通道相干声的幅度存在β₁＝β₂＝β₀，β₃＝2β₀，β₄＝β₅＝0.5β₀的比例关系，各个通道环境声的能量存在

相干声能量占比γ取值为0.05至0.95(间隔为0.1)。相干声的提取误差ε_P分别表示为：

环境声的提取误差ε_a分别表示为：

图2(a)和图2(b)代表了本发明所提出的算法和成对相关法分别对混合五通道信号1进行PAE时相干声和环境声的提取误差；图3(a)和图3(b)代表了本发明所提出的算法和成对相关法分别对混合五通道信号2进行PAE时相干声和环境声的提取误差。可以看出，在相干声能量占比γ取值为0.05至0.95(间隔为0.1)的整个区间内，本发明提出的算法的提取误差均小于成对相关法。

实施例2

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。