CN114035157A

CN114035157A - 一种基于期望最大化算法的分频带时延估计方法及其系统

Info

Publication number: CN114035157A
Application number: CN202111274630.4A
Authority: CN
Inventors: 鲍明; 朱文龙; 陈志菲
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-11
Anticipated expiration: 2041-10-29
Also published as: CN114035157B

Abstract

本发明属于通信技术领域，具体涉及一种基于期望最大化算法的分频带时延估计方法，包括：传感器阵列接收任意的两个声源信号，分别对第一声源信号和第二声源信号进行离散时间傅里叶变换，得到对应的第一声信号和第二声信号；采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数；提取两个声信号的互功率谱，将其拆分成多个子频带，进而建立全频带互相关观测数据，并得到全频带矩阵；建立全频带矩阵与全频带互相关观测数据之间的映射关系，进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；采用期望最大化算法，计算每个子频带的估计时延，并进行多次迭代，并将该稳定估计时延作为最终的时延。

Description

一种基于期望最大化算法的分频带时延估计方法及其系统

技术领域

本发明属于通信技术领域，具体地说，涉及一种基于期望最大化算法的分频带时延估计方法及其系统。

背景技术

基于传感器阵列声学测量模型，时延估计(Time Delay Estimatin，简称TDE)是准确测量声源信息的关键技术之一，主要是利用各个传感器节点与参考传感器节点的信号到达时间差(TDOA)。传统上，时延估计TDE在许多定位系统中发挥了重要作用，包括雷达、声纳、无线系统或地震学。在声学信号处理中，时延估计TDE对于定位和跟踪声源至关重要。

时延估计中，应用最广的算法为广义互相关函数(Generalized Cross-Correlation,GCC)。该算法是由Knapp和Carter在1976年使用最大似然估计器提出。然而，在实际应用环境中，有色噪声、脉冲噪声和混响、延迟估计性能的影响，广义互相关算法性能急剧衰减。为此，出现了多种方法来提高互相关函数加权，锐化互相关函数峰值。根据加权形式和准则的不同，如ROTH-GCC(GCC with Roth transform)、SCOT-GCC(GCC withsmoothed coherence transform)、PHAT-GCC(GCC with phase transform)等时延估计方法。Cobos et.al提出了频率滑动广义互相关(FS-GCC)，其旨在解决两个传感器子带时间延迟差异估计问题。FS-GCC利用滑动窗口方法求得频谱相位，获得一组子带GCC，对不同频段进行加权，以准确估计时延差。这些方法本质上利用频域滤波获得高信噪比频带下的时延估计，需要预先知道声源信号所在的高信噪比频带。

发明内容

为解决现有技术存在的上述缺陷，本发明提出了一种基于期望最大化算法的分频带时延估计方法，本发明则对各个子带进行概率建模，利用EM算法优化收敛到高信噪比频带，获得准确的时延估计结果。该方法包括：

传感器阵列接收任意的两个声源信号，记为第一声源信号和第二声源信号；分别对第一声源信号和第二声源信号进行离散时间傅里叶变换，得到对应的第一声信号和第二声信号；

根据第一声信号和第二声信号，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数；

根据该互相关函数，提取两个声信号的互功率谱，并将其拆分成多个子频带，进而建立全频带互相关观测数据，并基于建立的全频带互相关观测数据，得到全频带矩阵；

建立全频带矩阵与全频带互相关观测数据之间的映射关系，根据该映射关系，确定均值和协方差矩阵，进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；

将该新映射关系带入条件期望函数，采用期望最大化算法，计算每个子频带的估计时延，并进行多次迭代，直至收敛于某一个稳定不变的稳定估计时延，且该稳定估计时延不再增加，则停止迭代；

并将该稳定估计时延作为最终的时延，完成分频带时延估计。

作为上述技术方案的改进之一，所述传感器阵列接收任意的两个声源信号，记为第一声源信号和第二声源信号；分别对第一声源信号和第二声源信号进行离散时间傅里叶变换，得到对应的第一声信号和第二声信号；其具体过程为：

传感器阵列接收任意的两个声源信号，记为第一声源信号x₁(t)和第二声源信号x₂(t)：

其中，a₁是第一振幅衰减因子；a₂是第二振幅衰减因子；s(t)是声源发射的信号，n₁(t)是第一加性白噪声；n₂(t)是第二加性白噪声；τ₁为第一声源信号的时延；τ₂为第二声源信号的时延；

分别对第一声源信号x₁(t)和第二声源信号x₂(t)进行离散时间傅里叶变换，得到对应的第一声信号X₁(ω)和第二声信号X₂(ω)：

其中，S(ω)为声源发射信号s(t)的傅里叶频谱；W₁(ω)为第一加性白噪声n₁(t)的傅里叶频谱；W₂(ω)为第二加性白噪声n₂(t)的傅里叶频谱。

作为上述技术方案的改进之一，所述根据第一声信号和第二声信号，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数；其具体过程为：

根据第一声信号X₁(ω)和第二声信号X₂(ω)，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数R(τ)；

其中，F-1为傅里叶逆变换；

为第一声源信号x₁(t)和第二声源信号x₂(t)的互功率谱；

为PHAT加权滤波后的第一声源信号x₁(t)和第二声源信号x₂(t)的互功率谱；Ψ(ω)为采用PHAT进行加权滤波后的信号；

其中，

其中，H₁(ω)为第一通道传递函数；H₂(ω)为第二通道传递函数；*为共轭。

作为上述技术方案的改进之一，所述根据该互相关函数，提取两个声信号的互功率谱，并将其拆分成多个子频带，进而建立全频带互相关观测数据，并基于建立的全频带互相关观测数据，得到全频带矩阵；其具体过程为：

根据该互相关函数R(τ)，提取两个声信号的互功率谱

并将其拆分成多个子频带r_k(n)，

其中，

为理想的、不具有噪声的第k子频带的互相关函数；w_k(n)为第k子频带的噪声；

其中，K为分频带数，则：

其中，ω_α为分频带宽；T为全频带带宽；

进而建立全频带互相关观测数据R(n)；

其中，w(n)为加性噪声；r(n)为理想下全频带的广义互相关函数；

并基于建立的全频带互相关观测数据R(n)，得到全频带矩阵L(n)；

其中，l_K(n)为第k个子频带的广义互相关函数；

其中，w_K(n)为相互独立的零均值高斯变量。

作为上述技术方案的改进之一，所述建立全频带矩阵与全频带互相关观测数据之间的映射关系，根据该映射关系，确定均值和协方差矩阵，进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；其具体过程为：

根据得到的全频带互相关观测数据R(n)和全频带矩阵L(n)，建立全频带矩阵与全频带互相关观测数据之间的映射关系：

R(n)＝f[L(n)]＝[1，...，1]L(n) (8)根据该映射关系，确定均值μ(n)和协方差矩阵Q(n)；

其中，

为理想的、不具有噪声的第k子频带的互相关函数；

为方差；

其中，σ²为加性噪声w(n)的方差；

进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点。

作为上述技术方案的改进之一，所述将该新映射关系带入条件期望函数，采用期望最大化算法，计算每个子频带的估计时延，并进行多次迭代，直至收敛于某一个稳定不变的稳定估计时延，且该稳定估计时延不再增加，则停止迭代；并将该稳定估计时延作为最终的时延，完成分频带时延估计；其具体过程为：

建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点；

将建立的映射关系带入到期望最大化算法(即EM算法)的条件期望函数U(θ，θ′)中：

其中，θ为待估计时延参数，θ＝τ；E[]为期望最大化算法的条件期望的期望运算；lnp()为自然对数运算；θ′为最大化期望算法迭代过程中θ的估计值；R为全频带互相关估计结果；e为时延估计误差；

为第k个子带的l_K(n)估计结果；

从上式，U(θ，θ′)要取得最大值，需满足：

对每个子频带分别进行E步和M步为：

E步：对于k＝1，...，K；并利用前面迭代的时延估计结果

代替θ′，从而构造各个子频带的

是最大化期望算法第m次迭代过程中第k个子带的互相关函数：

其中，

为第m次迭代计算时的第k个子带的l_K(n)估计结果；

M步：根据上一步得到的

得到第(m+1)次迭代的时延估计结果

其中，在无回响与噪声的条件下

其中，Ψ¹(ω)为在无回响与噪声的条件下，采用广义互相关的加权函数进行加权滤波后的信号；a₁为第一信号的振幅因子；a₂为第二信号的振幅银子；S(ω)为声源发射信号的傅里叶频谱；ω为角频率；τ₀为真实时延估计结果；j＝-1；

因此，

其中，φ_k为包含位移窗口响应的N个样本向量；

为为理想的、不具有噪声的第k子频带的互相关函数；

为第k个子频带的频率范围；

其中，ω_α为分频带宽，K为分频带数；

因此，上述对每个子频带分别进行E步和M步进一步化简为：

E步：

其中，

为第m次迭代计算时的时延估计结果；φ_k为包含位移窗口响应的N个样本向量；

M步：

其中，

f₀为信号的频率，f_s为采样频率，*代表共轭；

因此，得到第(m+1)次迭代的时延估计

在上述迭代过程中，每次迭代都会增大每个子频带的最大似然函数值，当收敛于似然函数的某一个稳定点时，如果继续迭代，参数的估计值都不再发生变化，似然函数也不再变化，则判断迭代终止；

本发明还提供了一种基于期望最大化算法的分频带时延估计系统，该系统包括：

声信号获取模块，用于传感器阵列接收任意的两个声源信号，记为第一声源信号和第二声源信号；分别对第一声源信号和第二声源信号进行离散时间傅里叶变换，得到对应的第一声信号和第二声信号；

函数获取模块，用于根据第一声信号和第二声信号，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数；

全频带矩阵建立模块，用于根据该互相关函数，提取两个声信号的互功率谱，并将其拆分成多个子频带，进而建立全频带互相关观测数据，并基于建立的全频带互相关观测数据，得到全频带矩阵；

映射模块，用于建立全频带矩阵与全频带互相关观测数据之间的映射关系，根据该映射关系，确定均值和协方差矩阵，进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；和

估计模块，用于将该新映射关系带入条件期望函数，采用期望最大化算法，计算每个子频带的估计时延，并进行多次迭代，直至收敛于某一个稳定不变的稳定估计时延，且该稳定估计时延不再增加，则停止迭代；

本发明还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行所述的方法。

本发明与现有技术相比的有益效果是：

本发明的方法通过对各子带信号进行概率建模，利用EM算法迭代优化收敛获得高信噪比频带下的时延估计结果，从而提高宽带信号在低信噪比下的时延估计精度。

附图说明

图1是本发明的一种基于期望最大化算法的分频带时延估计方法的流程图；

图2(a)是采用EM-FSGCC算法，时间t与幅度之间的曲线示意图；

图2(b)是采用GCC-PHAT算法，时间t与幅度之间的曲线示意图；

图2(c)是采用WSVD FS-GCC算法，时间t与幅度之间的曲线示意图；

图3(a)是采用GCC-EM算法、GCC-PHAT算法、WSVD FS-GCC算法，信噪比SNR与MAE之间的曲线示意图；

图3(b)采用GCC-EM算法、GCC-PHAT算法、WSVD FS-GCC算法，信噪比SNR与P之间的曲线示意图；

图3(c)采用GCC-EM算法、GCC-PHAT算法、WSVD FS-GCC算法，信噪比SNR与SDAE之间的曲线示意图。

具体实施方式

现结合附图和实例对本发明作进一步的描述。

如图1所示，本发明提供了一种基于期望最大化算法的分频带时延估计方法，该方法将GCC-PHAT(GCC with phase transform)分成多个无重叠频带，然后利用最大似然分别对每个频带估计时延；该方法对每个频带反复迭代，使用当前时延估计，用于分解GCC-PHAT，从而改进下一次时延估计。在正则性条件下，该方法收敛于似然函数一个平稳点，其中每个迭代周期都增加了估计时延的似然性。

该方法具体包括：

具体地，传感器阵列接收任意的两个声源信号，记为第一声源信号x₁(t)和第二声源信号x₂(t)：

具体地，根据第一声信号X₁(ω)和第二声信号X₂(ω)，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数R(τ)；

其中，F-1为傅里叶逆变换；

为第一声源信号x₁(t)和第二声源信号x₂(t)的互功率谱；

其中，

具体地，根据该互相关函数R(τ)，提取两个声信号的互功率谱

并将其拆分成多个子频带r_k(n)，

其中，

其中，K为分频带数，则：

其中，ω_α为分频带宽；T为全频带带宽；

进而建立全频带互相关观测数据R(n)；

其中，w(n)为加性噪声；r(n)为理想情况下全频带的广义互相关函数；

其中，l_K(n)为第K个子频带的广义互相关函数；

其中，w_K(n)为相互独立的零均值高斯变量。

具体地，根据得到的全频带互相关观测数据R(n)和全频带矩阵L(n)，建立全频带矩阵与全频带互相关观测数据之间的映射关系：

其中，

为理想的、不具有噪声的第k子频带的互相关函数；

为方差；

其中，σ²为加性噪声w(n)的方差；

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点。

具体地，建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点；

为第k个子带的l_K(n)估计结果；

从上式，U(θ，θ′)要取得最大值，需满足：

对每个子频带分别进行E步和M步为：

E步：对于k＝1，...，K；并利用前面迭代的时延估计结果

代替θ′，从而构造各个子频带的

其中，

为第m次迭代计算时的第k个子带的l_K(n)估计结果；

M步：根据上一步得到的

得到第(m+1)次迭代的时延估计结果

其中，在无回响与噪声的条件下

因此，

其中，φ_k为包含位移窗口响应的N个样本向量；

为为理想的、不具有噪声的第k子频带的互相关函数；

为第k个子频带的频率范围；

其中，ω_α为分频带宽，K为分频带数；

因此，上述对每个子频带分别进行E步和M步进一步化简为：

E步：

其中，

M步：

其中，

f₀为信号的频率，f_s为采样频率，*代表共轭；

因此，得到第(m+1)次迭代的时延估计

本发明还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述方法。

实施例1.

1.1性能准则

根据其绝对误差

将其分类为异常估计或者非异常估计；其中，τ₀是真实时延，

是时延估计。

如果e＞T_c/2，则将其分为异常估计，其中，T_c是信号相关的时间。

对于仿真的特定信号源，T_c计算为自相关函数主瓣宽度(取SNR＝-3db)。

TDE(time delay estimation)性能包括：

定义异常估计百分比

绝对误差的平均值

标准偏差

(针对非异常估计的子集)等指标对算法的时延估计性能进行评估，这些指标定义为：

其中，N_T表示估计的总数；N_a被确定为异常值的估计数；FSPR被定义为最大GCC峰值相对于第二个较大峰值的平均增益(针对非异常估计的子集)。

1.2仿真设置及算法参数

1.3外场实验

考虑了在一个单源场景中用图像源方法模拟的矩形房间。在房间内设置传感器阵列的位置和方向，以及每个麦克风配置的随机声源位置，一对分离的传感器产生合成脉冲响应。对每个混响条件都重复进行了模拟。使用了以下参数：

1)房间尺寸：6×7×3米(长×宽×高)。

2)声源位置：平面上的随机位置(x，y，z＝1.25)。

3)麦克风位置：两个麦克风阵列，传感器间距为0.5m，在x-y平面(z＝1.25)上有随机位置和方向。

4)SNR：在-15dB和10dB之间变化。每个SNR条件生成不同的噪声实现。为了控制SNR，相互独立的高斯白噪声被适当地缩放并添加到每个麦克风信号中。

5)源信号：2秒的男性语音信号，以44.1kHz的16位分辨率数字化。

对于cobos等人的现有的方法，将采用4096个样本的帧长度和具有75％重叠的Hann窗口，所以B＝128(频谱窗口)，M＝32(跳频)；而对于本发明所提出的方法，则能够避免子频带之间的重叠，因此，B＝M＝32。因此，在每个信噪比和混响条件下，用于评估每种方法的估计值的总数为N_T＝500。

1.3TDE结果

如图2(a)、2(b)和2(c)所示，展示出了，在信噪比较低时，不同算法所展现的效果图；其中，采用EM-FSGCC算法，在时间t＝91处，其对应的幅度是最大的，最大值为0.196；采用GCC-PHAT算法，在时间t＝-186处，其对应的幅度是最大的，最大值为0.058；采用WSVDFS-GCC算法，在时间t＝89处，其对应的幅度是最大的，最大值为0.056；

随信噪比变化的结果，如图3(a)、3(b)、3(c)所示。与传统的GCC-PHAT相比，本发明提出的方法，要优于WSVD-GCC。从图中可以看出，在低信噪比下，观察到了最大的改进，其中EM-FSGCC和传统GCC之间差异接近60个点，与WSVD-FSGCC相差40个点，随着信噪比的提升，所有算法都趋于一致。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于期望最大化算法的分频带时延估计方法，该方法包括：

2.根据权利要求1所述的基于期望最大化算法的分频带时延估计方法，其特征在于，所述传感器阵列接收任意的两个声源信号，记为第一声源信号和第二声源信号；分别对第一声源信号和第二声源信号进行离散时间傅里叶变换，得到对应的第一声信号和第二声信号；其具体过程为：

3.根据权利要求1所述的基于期望最大化算法的分频带时延估计方法，其特征在于，所述根据第一声信号和第二声信号，采用广义互相关时延估计算法，得到第一声信号和第二声信号之间广义互相关函数；其具体过程为：

其中，F^-1为傅里叶逆变换；

为第一声源信号x₁(t)和第二声源信号x₂(t)的互功率谱；

其中，

4.根据权利要求3所述的基于期望最大化算法的分频带时延估计方法，其特征在于，所述根据该互相关函数，提取两个声信号的互功率谱，并将其拆分成多个子频带，进而建立全频带互相关观测数据，并基于建立的全频带互相关观测数据，得到全频带矩阵；其具体过程为：

根据该互相关函数R(τ)，提取两个声信号的互功率谱

并将其拆分成多个子频带r_k(n)，

其中，

其中，K为分频带数，则：

其中，ω_α为分频带宽；T为全频带带宽；

进而建立全频带互相关观测数据R(n)；

其中，l_K(n)为第k个子频带的广义互相关函数；

其中，w_K(n)为相互独立的零均值高斯变量。

5.根据权利要求4所述的基于期望最大化算法的分频带时延估计方法，其特征在于，所述建立全频带矩阵与全频带互相关观测数据之间的映射关系，根据该映射关系，确定均值和协方差矩阵，进而建立全频带矩阵与由均值和协方差矩阵组成的观测数据之间的新映射关系；其具体过程为：

R(n)＝f[L(n)]＝[1，...，1]L(n) (8)

根据该映射关系，确定均值μ(n)和协方差矩阵Q(n)；

其中，

为理想的、不具有噪声的第k子频带的互相关函数；

为方差；

其中，σ²为加性噪声w(n)的方差；

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点。

6.根据权利要求5所述的基于期望最大化算法的分频带时延估计方法，其特征在于，所述将该新映射关系带入条件期望函数，采用期望最大化算法，计算每个子频带的估计时延，并进行多次迭代，直至收敛于某一个稳定不变的稳定估计时延，且该稳定估计时延不再增加，则停止迭代；并将该稳定估计时延作为最终的时延，完成分频带时延估计；其具体过程为：

L(n)～N(μ(n))，Q(n))，n＝1，...，N (13)

其中，n为第n个离散采样点；