CN102074236B

CN102074236B - 一种分布式麦克风的说话人聚类方法

Info

Publication number: CN102074236B
Application number: CN2010105683868A
Authority: CN
Inventors: 杨毅; 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2012-06-06
Anticipated expiration: 2030-11-29
Also published as: CN102074236A

Abstract

一种分布式麦克风的说话人聚类方法，先对分布式麦克风采集的信号进行预处理，再对声源信号片段采用时延估计法计算，得到对应的时延估计向量，然后排除错误数据并进行说话人分割，最后根据说话人分割的结果进行说话人聚类，本发明以分布式麦克风作为信号采集和输出设备，计算语音信号片段的时延向量，通过排除错误数据提高时延估计精度，对时延向量采用聚类算法将语音信号片段按说话人身份分别归类，设备价格低廉，具有使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。

Description

一种分布式麦克风的说话人聚类方法

技术领域

本发明属于语音技术领域，具体地涉及一种分布式麦克风的说话人聚类方法。

背景技术

随着网络和通讯技术的不断发展，利用现有的多媒体技术、网络与通讯技术、分布式处理技术等可以实现复杂声学环境场景下的多人多方对话。传统声源输入和录音设备包括头戴式麦克风、全向性和方向性单麦克风、麦克风阵列等。单麦克风作为传统声源输入和录音设备，具有体积小、价格低廉等优点，但不具备对环境噪声处理以及声源定位的能力；麦克风阵列由多个按照特定几何位置摆放的麦克风组成，对空间信号进行时空域联合处理，其能力包括：辨识与分离声源、混响条件下的声源定位、增强语音信号等。

分布式麦克风是由多个单麦克风组成的声音信号采集系统，各个麦克风由不同设备控制，对麦克风的排列和间距没有任何限制，麦克风采集的信号在时间域不完全同步。分布式麦克风结构简单、使用方便、节约成本，符合多声源多方向复杂对话场景的要求，可有效地完成说话人聚类、识别及定位等多种应用。与麦克风阵列系统不同的是，分布式麦克风对麦克风的位置和摆放没有任何约束和限制，此外分布式麦克风系统中的声源和麦克风位置信息未知。

对声音信息进行自动分类是语音信号处理领域的研究课题之一，说话人分割(Speaker Segmentation)和说话人聚类(Speaker Clustering)是其中的重要组成部分。通常的方法是：说话人分割将整个测试语音分割成一系列语音片段，这些语音片段只属于某一特定说话人；说话人聚类负责将分散的同属于一个说话人的语音归为一类。

传统的说话人分割方法基本以高斯模型的窗移统计法为基础，采用不同的距离测度选择，通过基于贝叶斯的信息准则进行融合得到分割点。说话人聚类方法可以采用进化隐马尔科夫(EHMM)计算方法，通过衡量路径分数更新分割结果。当说话人数目不限定时，可以采用分级聚类的方法进行说话人聚类。

麦克风阵列的说话人聚类方法主要利用说话人的空间位置差异进行分类。主要原理为：将时延估计向量作为说话人的空间特征，在GMM/HMM(高斯混合模型/隐马尔可夫模型)模型中对这些特征进行整合和分类。麦克风阵列的时延估计算法主要包括GCC(广义互相关)方法和LMS(最小均方误差)方法。GCC(广义互相关)受混响影响比较严重，改进后产生了CEP(倒谱预滤波)方法和基音加权的GCC(广义互相关)方法，EVD(特征值分解)和基于ATF(声学传递函数)的时延估计方法则分别利用子空间的技术和传递函数比来求解。但是麦克风阵列系统计算时对各个设备之间采样的误差敏感，因此对音频数据同步性要求十分严格；而普通的多人多方会议场景中声源个数未知、麦克风位置未知、房间声学环境未知，即需要在时间和空间先验信息均缺失的场景下对声音数据进行处理。

作为传统声源输入和录音设备的单麦克风，价格低廉、结构简单，缺点是易受环境干扰，且不能对声源进行定位；传统麦克风阵列系统已被广泛研究，没有商用化的主要原因是专用硬件价格昂贵以及算法复杂度较高。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提出一种分布式麦克风的说话人聚类方法，以分布式麦克风作为信号采集和输出设备，计算语音信号片段的时延向量，通过排除错误数据提高时延估计精度，对时延向量采用聚类算法将语音信号片段按说话人身份分别归类，设备价格低廉，具有使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。

一种分布式麦克风的说话人聚类方法，包括以下步骤：

第一步，对分布式麦克风采集的信号进行预处理

首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成n(n为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N_FFT个点Y_i(0≤i≤N_FFT)，每个点在频谱域上的概率密度可用公式(1)表示：

p_{i} = Y_{i} / Σ_{k = 0}^{N_{FFT} - 1} Y_{k} - - - (1)

其中：Y_k为经过FFT变换的语音信号在功率谱上的第k个点，Y_i为经过FFT变换的语音信号在功率谱上的第i个点，N_FFT为i的个数，p_i为第i个点在频谱域上的概率密度，

相应信号在频谱域上的熵函数定义可用公式(2)表示：

H = - Σ_{k = 0}^{N_{FFT} - 1} p_{k} \log (p_{k}) - - - (2)

其中：p_k为第k个点在频谱域上的概率密度，N_FFT为i的个数，H为频谱域上的熵函数，

将频域上的N_FFT个点划分成K个互不重叠的频段，称为子带，计算第l帧频谱域上每个点的概率如公式(3)所示：

p_{l} [k, i] = (Y_{i} + Q) / Σ_{j = m_{k}}^{m_{k + 1} - 1} (Y_{j} + Q) - - - (3)

其中：Y_j为经过FFT变换的语音信号在功率谱上的第j个点，Y_i为第k个子带上的点，

(0≤k≤K-1，m_k≤i≤m_k+1-1)为子带下限，Q为常数，p_l[k，i]为第l帧频谱域上每个点的概率，

根据信息熵的定义，第l帧的第k个子带的频谱熵的值如公式(4)所示：

E_{s} [l, k] = Σ_{i = mk}^{m_{k + 1} - 1} p_{l} [k, i] \log (p_{l} [k, i]) (0 \leq k \leq K - 1) - - - (4)

其中：p_l[k，i]为第l帧频谱域上每个点的概率，E_s[l，k]为第l帧的第k个子带的频谱熵，

根据下面公式(5)我们可以计算出第l帧的频谱信息熵：

H_{l} = - \frac{1}{K} Σ_{k = 0}^{K - 1} E_{h} [l, k] - - - (5)

其中：E_h[l，k]为第l帧的第k个子带的频谱熵，K为子带个数，H_l为经过滤波平滑处理后的第l帧的第k个子带的信息熵，定义如公式(6)所示：

E_h[l，k]＝(1-λ)E_s(h)[l，k]+λE_s(h+1)[l，k](0≤k≤K-1)(6)

其中：E_s(h)[l，k]获得方法如下：算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵E_s[l-N，k]，KE_s[l，k]，KE_s[l+N，k]上，将这组子带信息熵按升序顺序排序，E_s(h)[l，k]是E_s[l-N，k]，KE_s[l，k]，KE_s[l+N，k]中的第h个最大值；λ为一常数，E_h[l，k]为滤波平滑处理后的第l帧的第k个子带的信息熵，

由公式(5)可以得到每帧的信号有一个频谱熵H_l，当H_l的值大于事先设定的阈值T时，将第l帧判别语音帧，否则判为非语音帧；阈值T的定义为T＝βAvg+θ，其中

β＝0.01，θ＝0.1，E_m[k]为E_s[0，k]，K，E_s[N-1，k]的中值，Avg是输入信号最开始N帧的噪声估计，

第二步，对声源信号片段采用时延估计法计算，得到对应的时延估计向量

首先确定空间坐标，具体方法为：对每个麦克风按顺序编号为麦克风M1，M2...，Mn，n为大于1的整数，选择初始编号为1和2的两个麦克风M1和M2，设麦克风M1的位置为原点坐标，麦克风M1到麦克风M2的方向为起点坐标轴方向，随后将每50帧语音信号视为一组语音片段，采用时延估计法对每组语音片段到任意两个麦克风之间的时延差进行估计，得到n(n-1)个时延估计值，如公式(7)所示：

τ_{k} = {[\begin{matrix} {\hat{τ}}_{12} & {\hat{τ}}_{13} & L & {\hat{τ}}_{ij} \end{matrix}]}^{T} - - - (7)

其中：为第i个麦克风和第j个麦克风之间的时延差估计，τ_k为时延差估计向量，

时延估计可采用PHAT(相位变换)加权算法，其加权系数如公式(8)所示，时延估计方法如公式(9)～(10)所示：

W (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |} - - - (8)

其中：X₁(ω)、X₂(ω)分别为两路时域信号经过FFT变换之后的输出，^*为共轭符号，

R_{x_{1} x_{2}} (n) = IFFT (W (ω) \cdot X_{1} (ω) \cdot X_{2}^{*} (ω)) - - - (9)

\hat{τ} = \underset{n}{\arg \max} R_{x_{1} x_{2}} (n) - - - (10)

其中：

为两路信号的广义互相关函数，

为x₁和x₂之间的时

延估计值，

第三步，排除错误数据并进行说话人分割

首先需要去除无效数据，按下面公式(11)计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & SNR < {Thr}_{SNR} \\ \hat{τ} [n] & SNR &GreaterEqual; {Thr}_{SNR} \end{matrix} - - - (11)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

为某一帧估计的时延数据，当某一时刻信噪比小于阈值Thr_SNR时，采用上一时刻的估计时延作为该时刻的时延估计值，以及按公式(12)进一步计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & \hat{τ} [n] < Thr \\ \hat{τ} [n] & \hat{τ} [n] &GreaterEqual; Thr \end{matrix} - - - (12)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

为某一帧估计的时延数据，当某一时刻时延估计小于阈值Thr时，采用上一时刻的估计时延作为该时刻的时延估计值，

然后对不同空间位置的说话人进行分割计算，首先计算后验概率β_i(τ_k)如公式(13)所示：

β_{i} (τ_{k}) = \frac{α_{i} g (τ_{k}; μ_{i} . σ_{i}^{2})}{α_{1} g (τ_{k}; μ_{1} . σ_{1}^{2}) + α_{2} g (τ_{k}; μ_{2} . σ_{2}^{2}) + L + α_{i} g (τ_{k}; μ_{i} . σ_{i}^{2})} - - - (13)

其中：

为定义参数，α_i＝1/i，i代表GMM模型的个数，

的初始值采用K-means算法计算，τ_k为公式7计算获得的时延估计向量，β_i(τ_k)为后验概率，

公式(14)为参数更新算法：

\{\begin{matrix} {\hat{μ}}_{i} = \frac{Σ_{k = 1}^{n} β_{i} (τ_{k}) τ_{k}}{Σ_{k = 1}^{n} β_{i} (τ_{k})} \\ {\hat{σ}}_{i}^{2} = \frac{1}{d} \frac{Σ_{k = 1}^{n} β_{i} (τ_{k}) {(τ_{k} - μ_{i})}^{T} (τ_{k} - μ_{i})}{Σ_{k = 1}^{n} β_{i} (τ_{k})} \\ {\hat{α}}_{i} = \frac{1}{n} Σ_{k = 1}^{n} β_{i} (τ_{k}) \end{matrix} - - - (14)

其中：

为参数估计值，

为GMM模型参数的估计，β_i(τ_k)为公式13计算所得的后验概率，当

时停止更新参数，此处min为一常数，代表最小容忍值，

第四步，根据说话人分割的结果进行说话人聚类

利用一种基于K-means的算法对分割后的语音片段进行聚类，先计算每个集合的域密度，将密度最大的点作为初始点，下一个初始点为与第一个初始点距离最大的点，以此类推直到初始点的数目符合要求；

其次计算样本点到集合中心的距离来更新中心的值，选择符合公式(15)的采样点作为新的集合中心进行更新，

Func = Σ_{j = 1}^{J} Σ_{n = 1}^{M} {| | \hat{τ} [n] - τ_{j} | |}^{2} - - - (15)

其中：为时延估计向量

和每个语音片段的聚类中心τ_j的距离，τ_j[n]为中心向量，J为说话人个数，M为麦克风个数，

最后根据集合中心向量和语音片段向量的距离来对不同空间说话人的语音片段进行归类并标注。

本发明具有如下优点：

(1)、本发明提出的分布式非同步声传感器，对声传感器的空间位置无严格限制，此外对采集信号的同步性要求较低，相比麦克风阵列而言应用更加灵活广泛；

(2)本发明充分利用了麦克风之间及声源与麦克风之间的多个时延差进行信息融合，通过时延估计向量进行说话人分割，降低了传统说话人分割算法的复杂性的同时，稳健性有所提高；

(3)、本发明充分利用了分布式麦克风在空间域的优势，对单一说话人语音信号片段时延估计向量进行说话人聚类，降低了传统说话人聚类算法的复杂性；

(4)、本发明的分布式麦克风的说话人聚类方法能够应用于多种多人多方对话场景，具有稳健性好，适应多种声学环境的特点，并且

本发明可以在目前的掌上电脑、个人数字助理(PDA)或手机上实现，其应用范围非常广泛。

附图说明

图1是本发明的流程示意图。

图2是本发明端点检测的流程示意图。

图3是本发明声源时延估计的示意图。

图4是本发明说话人分割聚类的流程示意图。

具体实施方式

以下结合附图对本发明进行详细说明。

参照图1，一种分布式麦克风的说话人聚类方法，包括以下步骤：

第一步，对分布式麦克风采集的信号进行预处理

参照图2，首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，早期采用基于能量和过零率的方法可以准确地区分语音信号和噪声，但现实中的语音常常被较大的环境噪声所污染，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成n(n为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N_FFT个点Y_i(0≤i≤N_FFT)，每个点在频谱域上的概率密度可用公式(1)表示：

p_{i} = Y_{i} / Σ_{k = 0}^{N_{FFT} - 1} Y_{k} - - - (1)

相应信号在频谱域上的熵函数定义可用公式(2)表示：

H = - Σ_{k = 0}^{N_{FFT} - 1} p_{k} \log (p_{k}) - - - (2)

将频域上的N_FFT个点划分成K个互不重叠的频段，称为子带，计算第i帧频谱域上每个点的概率如公式(3)所示：

p_{l} [k, i] = (Y_{i} + Q) / Σ_{j = m_{k}}^{m_{k + 1} - 1} (Y_{j} + Q) - - - (3)

其中：Y_i为经过FFT变换的语音信号在功率谱上的第j个点，Y_i为第k个子带上的点，

(0≤k≤K-1，m_k≤i ≤m_k+1-1)为子带下限，Q为常数，p_l[k，i]为第l帧频谱域上每个点的概率，

E_{s} [l, k] = Σ_{i = mk}^{m_{k + 1} - 1} p_{l} [k, i] \log (p_{l} [k, i]) (0 \leq k \leq K - 1) - - - (4)

根据下面公式(5)我们可以计算出第l帧的频谱信息熵：

H_{l} = - \frac{1}{K} Σ_{k = 0}^{K - 1} E_{h} [l, k] - - - (5)

E_h[l，k]＝(1-λ)E_s(h)[l，k]+λE_s(h+1)[l，k](0≤k≤K-1)(6)

参照图3，首先确定空间坐标，具体方法为：对每个麦克风按顺序编号为麦克风M1，M2...，Mn，n为大于1的整数，选择初始编号为1和2的两个麦克风M1和M2，设麦克风M1的位置为原点坐标，麦克风M1到麦克风M2的方向为起点坐标轴方向，随后将每50帧语音信号视为一组语音片段，采用时延估计法对每组语音片段到任意两个麦克风之间的时延差进行估计，得到n(n-1)个时延估计值，如公式(7)所示：

τ_{k} = {[\begin{matrix} {\hat{τ}}_{12} & {\hat{τ}}_{13} & L & {\hat{τ}}_{ij} \end{matrix}]}^{T} - - - (7)

其中：

为第i个麦克风和第j个麦克风之间的时延差估计，τ_k为时延差估计向量，

W (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |} - - - (8)

R_{x_{1} x_{2}} (n) = IFFT (W (ω) \cdot X_{1} (ω) \cdot X_{2}^{*} (ω)) - - - (9)

其中：X₁(ω)、X₂(ω)分别为两路时域信号经过FFT变换之后的输出，^*为共轭符号，IFFT为反FFT变换，

为两路信号的广义互相关函数，

\hat{τ} = \underset{n}{\arg \max} R_{x_{1} x_{2}} (n) - - - (10)

其中：

为两路信号的广义互相关函数，

为x₁和x₂之间的时延估计值，

第三步，排除错误数据并进行说话人分割

参照图4，首先需要去除无效数据，按下面公式(11)计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & SNR < {Thr}_{SNR} \\ \hat{τ} [n] & SNR &GreaterEqual; {Thr}_{SNR} \end{matrix} - - - (11)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，为某一帧估计的时延数据，当某一时刻信噪比小于阈值Thr_SNR时，采用上一时刻的估计时延作为该时刻的时延估计值，以及按公式(12)进一步计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & \hat{τ} [n] < Thr \\ \hat{τ} [n] & \hat{τ} [n] &GreaterEqual; Thr \end{matrix} - - - (12)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

β_{i} (τ_{k}) = \frac{α_{i} g (τ_{k}; μ_{i} . σ_{i}^{2})}{α_{1} g (τ_{k}; μ_{1} . σ_{1}^{2}) + α_{2} g (τ_{k}; μ_{2} . σ_{2}^{2}) + L + α_{i} g (τ_{k}; μ_{i} . σ_{i}^{2})} - - - (12)

其中：

为定义参数，α_i＝1/i，i代表GMM模型的个数，

公式(14)为参数更新算法：

\{\begin{matrix} {\hat{μ}}_{i} = \frac{Σ_{k = 1}^{n} β_{i} (τ_{k}) τ_{k}}{Σ_{k = 1}^{n} β_{i} (τ_{k})} \\ {\hat{σ}}_{i}^{2} = \frac{1}{d} \frac{Σ_{k = 1}^{n} β_{i} (τ_{k}) {(τ_{k} - μ_{i})}^{T} (τ_{k} - μ_{i})}{Σ_{k = 1}^{n} β_{i} (τ_{k})} \\ {\hat{α}}_{i} = \frac{1}{n} Σ_{k = 1}^{n} β_{i} (τ_{k}) \end{matrix} - - - (14)

其中：

为参数估计值，

时停止更新参数，此处min为一常数，代表最小容忍值，

第四步，根据说话人分割的结果进行说话人聚类

利用一种基于K-means的算法对分割后的语音片段进行聚类，该算法可以克服标准K-means算法性能受初始值和孤立点影响大的缺陷，

先计算每个集合的域密度，将密度最大的点作为初始点，下一个初始点为与第一个初始点距离最大的点，以此类推直到初始点的数目符合要求；

Func = Σ_{j = 1}^{J} Σ_{n = 1}^{M} {| | \hat{τ} [n] - τ_{j} | |}^{2} - - - (15)

其中：

为时延估计向量和每个语音片段的聚类中心τ_j的距离，τ_j[n]为中心向量，J为说话人个数，M为麦克风个数，

附图中：

为单个声源的空间位置向量，为另一单个声源的空间位置向量，

分别为单个麦克风M_i M_k M_j的空间位置向量。

Claims

1.一种分布式麦克风的说话人聚类方法，其特征在于：包括以下步骤：

第一步，对分布式麦克风采集的信号进行预处理

首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成n个子带，n为大于零的整数，计算出每个子带的频谱熵，然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N_FFT个点

每个点在频谱域上的概率密度可用公式(1)表示：

p_{i} < < Y_{i} / \begin{matrix} N_{FFT} 1 \\ k < < 0 \end{matrix} Y_{k} - - - (1)

相应信号在频谱域上的熵函数定义可用公式(2)表示：

H < < \begin{matrix} N_{FFT} 1 \\ k < < 0 \end{matrix} p_{k} \log (p_{k}) - - - (2)

p_{l} [k, i] < < (\begin{matrix} Y_{i} & Q \end{matrix}) / \begin{matrix} m_{k 1} 1 \\ j < < m_{k} \end{matrix} (\begin{matrix} Y_{j} & Q \end{matrix}) - - - (3)

其中：Y_j为经过FFT变换的语音信号在功率谱上的第j个点，Y_i为第k个子带上的点，1)为子带下限，Q为常数，p_l[k，i]为第l帧频谱域上每个点的概率，

根据下面公式(5)我们可以计算出第l帧的频谱信息熵：

H_{l} < < \frac{1}{K} \begin{matrix} K 1 \\ k < < 0 \end{matrix} E_{h} [l, k] - - - (5)

其中：E_s(h)[l，k]获得方法如下：算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵E_s[lN，k]，...E_s[l，k]，...E_s[lN，k]上，将这组子带信息熵按升序顺序排序，E_s(h)[l，k]是

E_s[lN，k]，...E_s[l，k]，...E_s[lN，k]中的第h个最大值；l为一常数，E_h[l，k]为滤波平滑处理后的第l帧的第k个子带的信息熵，

由公式(5)可以得到每帧的信号有一个频谱熵H_l，当H_l的值大于事先设定的阈值T时，将第l帧判别语音帧，否则判为非语音帧；阈值T的定义为

其中

Avg < < \frac{1}{K} \begin{matrix} K 1 \\ k < < 0 \end{matrix} E_{m} [k],

E_m[k]为E_s[0，k]，...，E_s[N1，k]的中值，Avg是输入信号最开始N帧的噪声估计，

首先确定空间坐标，具体方法为：对每个麦克风按顺序编号M1，M2...，Mn，n为大于1的整数，选择初始编号为1和2的两个麦克风M1和M2，设M1的位置为原点坐标，M1到M2的方向为起点坐标轴方向，随后将每50帧语音信号视为一组语音片段，采用时延估计法对每组语音片段到任意两个麦克风之间的时延差进行估计，得到n(n 1)个时延差估计值，如公式(7)所示：