CN103811020A

CN103811020A - 一种智能语音处理方法

Info

Publication number: CN103811020A
Application number: CN201410081493.6A
Authority: CN
Inventors: 王�义; 魏阳杰; 陈瑶; 关楠
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2014-05-21
Anticipated expiration: 2034-03-05
Also published as: CN103811020B

Abstract

本发明一种智能语音处理方法，属于信息处理技术领域，本发明通过建立对话人声音模型库，实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音，根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音；与传统助听器不同，该方法可以根据用户个人需求从而自动为用户提供其所需的声音，减少了除噪音外的非目标人声的干扰，体现了该方法的个性化、互动化和智能化。

Description

一种智能语音处理方法

技术领域

本发明属于信息处理技术领域，具体涉及一种智能语音处理方法。

背景技术

据2013年世界卫生组织(WHO)发布的最新评估数据显示，全球目前共有3.6亿人存在不同程度的听力障碍，占全球总人口的5％。助听产品的使用可以有效地补偿听力障碍患者的听力损失，提高他们的生活和工作质量。然而，当今助听系统相关技术的研究仍然集中在噪声抑制和源声音幅值放大两个方面，很少涉及到基于声音特征的建模和多声源自动分离技术。当实际应用场景非常复杂时，例如：聚会时，多个说话人同时发声，甚至是伴有音乐等背景声音，由于助听系统无法从混合后的声音输入中分离出感兴趣的声音对象，简单的声音强度扩大功能只能增加使用者的听力负担甚至伤害，不会带来有效的声音输入和理解。因此，针对当前助听系统的技术缺陷，设计一款具有特定声音对象识别功能的、更加智能化和个性化的新型助听系统，具有非常重要的意义。

发明内容

针对现有技术存在的不足，本发明提出一种智能语音处理方法，以达到保证用户根据自己的需求获得纯净的声音接收和放大，实现助听系统的智能化、互动化和个性化的目的。

一种智能语音处理方法，包括以下步骤：

步骤1、采集样本语音段构建样本语音库，对样本语音进行特征提取，获得特征参数，并对特征参数进行训练；

具体过程如下：

步骤1-1、采集样本语音段，将采集的语音段进行离散化处理，提取语音信号的梅尔频率倒谱系数作为语音信号特征参数，并建立高斯混合模型；

模型公式如下：

p (XIG) = Σ_{i = 1}^{M} p_{i} b_{i} (X) - - - (1)

其中，p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率；

G表示高斯混合模型参数集，G＝{p_i，μ_i，∑_i}，i＝1，2，...，I；

I表示高斯混合模型中单一高斯模型个数；

p_i表示第i个单一高斯模型的权重系数，

μ_i表示第i个单一高斯模型的均值矢量；

∑_i表示第i个单一高斯模型的协方差矩阵；

X表示样本语音特征参数，X＝{x₁，x₂，...，x_T}，T表示特征向量的个数；

b_i(X)表示第i个单一高斯模型的密度函数，b_i(X)＝N(μ_i，∑_i)，N(.)表示标准高斯分布的密度函数；

步骤1-2、利用语音信号特征参数训练高斯混合模型；

即采用k均值聚类算法对语音信号特征参数进行聚类，获得高斯混合模型参数集初始值G₀＝{p_i ⁰，μ_i ⁰，∑_i ⁰}，i＝1，2，...，I；并根据获得的高斯混合模型参数集初始值，采用最大期望算法对模型进行估计，进而获得高斯混合模型参数，即完成特征参数的训练；

步骤2、采用M个麦克风组成的麦克风阵列采集被测环境音频信号，确定该环境声音源个数和每个声音源波束到达的方向，即声源到麦克风阵列的入射角度；

具体过程如下：

步骤2-1、采用M个麦克风组成的麦克风阵列采集被测环境的混合音频信号，并对采集的混合音频信号进行离散化处理，获得每个采样点的幅值；

步骤2-2、将每个采样点的幅值进行矩阵化，获得每个麦克风采集到的混合音频矩阵；上述混合音频矩阵的列数为一，行数为采样点个数，矩阵中元素为每个采样点的幅值；

步骤2-3、根据每个麦克风采集到的混合音频矩阵和麦克风个数，获得被测环境的混合音频信号的矢量协方差矩阵的估计值；

矢量协方差矩阵的估计值公式如下：

R_{xx} = \frac{1}{M} Σ_{m = 1}^{M} X (m) X^{H} (m) - - - (2)

其中，R_xx表示被测环境的混合音频信号的矢量协方差矩阵的估计值；

X(m)表示第m个麦克风采集到的混合音频矩阵；

X^H(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵；

步骤2-4、对矢量协方差矩阵的估计值进行特征值分解，获得特征值，并对特征值从大到小进行排序，确定特征值大于阈值的个数，即为声音源的个数；

步骤2-5、将麦克风个数减去声音源个数获得噪音源个数，进而对应获得噪音矩阵；

步骤2-6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量，再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数；

混合音频信号的角度谱函数公式如下：

P (θ) = \frac{1}{α^{H} (θ) V_{u} {V^{H}}_{u} α (θ)} - - - (3)

其中，P(θ)表示混合音频信号的角度谱函数；

α(θ)表示麦克风阵列的导向矢量，α(θ)＝(α₁(θ)，...，α_m(θ)，...，α_M(θ))，其中，

j表示虚数单位，k＝2π/λ，λ表示混合音频信号的波长，d_m表示第m个麦克风与阵列中心的距离，

表示第m个麦克风对于阵列中心的方向角度；

θ表示声音源的波束到达方向；

α^H(θ)表示麦克风阵列的导向矢量的转置矩阵；

V_u表示噪音矩阵；

V^H _u表示噪音矩阵的转置矩阵；

步骤2-7、根据混合音频信号的角度谱函数的波形，由大到小选取该波形的多个峰值，选择峰值的个数即为声音源的个数；

步骤2-8、确定选取峰值对应的角度值，即获得每个声音源的波束到达方向；

步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系，获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度；

麦克风阵列声压信号公式如下：

p_{w} (t) = Σ_{n = 1}^{N} 0.5 Σ_{m = 1}^{M} h_{mn} (t) s_{n} (t) - - - (4)

其中，p_w(t)表示t时刻麦克风阵列声压；

N表示声音源个数；

t表示时间；

s_n(t)表示第n个声音源的音频信号；

h_mn(t)表示第n个声音源与第m个麦克风之间的转换矩阵，h_mn(t)＝p₀(t)α_m(θ_n(t))，p₀(t)表示t时刻由声波造成的麦克风阵列中心声压；α_m(θ_n(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量，其中，θ_n(t)表示t时刻第n个声音源的波束到达方向；

麦克风阵列水平方向声压梯度公式如下：

其中，p_x(t)表示麦克风阵列水平方向声压梯度；

麦克风阵列垂直方向的声压梯度公式如下：

其中，p_y(t)表示麦克风阵列垂直方向的声压梯度；

步骤4、采用傅里叶变换将麦克风阵列中心声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度从时域转换到频域；

步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度，获得频率域内的声压信号的强度矢量公式，进而推导出强度矢量方向；

频率域内的声压信号的强度矢量公式为：

I (ω, t) = \frac{1}{ρ_{0} c} [Re {{p_{w}}^{*} (ω, t) p_{x} (ω, t)} u_{x} + Re {{p_{w}}^{*} (ω, t) p_{y} (ω, t)} u_{y}] - - - (7)

其中，I(ω，t)表示频率域内的声压信号的强度矢量；

p₀表示被测环境空气密度；

c表示声速；

Re[.]表示取复数实部；

p_w ^*(ω，t)表示频域内的麦克风阵列声压的共轭矩阵；

p_x(ω，t)表示频域内的麦克风阵列水平方向声压梯度；

p_y(ω，t)表示频域内的麦克风阵列垂直方向声压梯度；

u_x表示横坐标轴方向单位矢量；

u_y表示纵坐标轴方向单位矢量；

强度矢量方向公式如下：

γ (ω, t) = \tan^{- 1} [\frac{Re {{p_{w}}^{*} (ω, t) p_{y} (ω, t)}}{{p_{w}}^{*} (ω, t) p_{x} (ω, t)}] - - - (8)

其中，γ(ω，t)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向；

步骤6、对强度矢量方向进行统计获得其概率密度分布，采用混合冯米修斯分布进行拟合，获得语音强度矢量方向服从混合冯米修斯分布的模型参数，进而得到每个声压信号的强度矢量方向函数；

具体过程如下：

步骤6-1、对强度矢量方向进行统计获得其概率密度分布，采用混合冯米修斯分布进行拟合，获得语音的强度矢量方向服从的混合冯米修斯分布的模型参数集；

所述的混合冯米修斯分布模型公式如下：

g (θ) = Σ_{n = 1}^{N} α_{n} f (θ; k_{n}) - - - (10)

其中，表示混合冯米修斯分布概率密度；

表示混合声音方向角度；

α_n表示第n个声音源的声压信号的强度矢量方向函数的权重；

其中，I₀(k_n)表示第n个声音源对应的一阶修正贝塞尔函数，k_n表示第n个声音源声压信号的强度矢量方向服从的单一冯米修斯分布对应的浓度参数，即冯米修斯分布的方差的倒数；

混合冯米修斯分布函数参数集如下：

Γ＝{α_n，k_n}，i＝1，...，N (11)

步骤6-2、初始化模型参数，获得初始函数参数集；

步骤6-3、根据获得的初始模型参数，采用最大期望算法估计得到混合冯米修斯分布模型的参数；

步骤6-4、根据估计得到的混合冯米修斯分布模型参数，求得每个声压信号的强度矢量方向函数；

声压信号的强度矢量方向函数公式如下：

I_{n} (θ; ω, t) = α_{n} f (θ; k_{n}) - - - (12)

其中，

表示第n个声音源的强度矢量方向函数；

步骤7、根据得到的每个声压信号的强度矢量方向函数和麦克风阵列声压，获得每个声音源在频率域信号，并采用傅里叶反变换将该频域中的每个声源信号转换为时域内的声源信号；

每个声音源在频域中的信号公式如下：

{\tilde{s}}_{n} (ω, t) = p_{w} (ω, t) I_{n} (θ; ω, t) - - - (13)

其中，

表示混合语音分离后得到的第n个声源信号的频率域信号；

将

经过傅里叶反变换得到时域信号

步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率，选择概率值最大的声音源为目标声音源，保留该声音源信号，删除其他非目标声音源；

每个声音源信号与样本语音库中指定声音源的匹配概率公式如下：

C ({\tilde{X}}_{n}) = \log [P ({\tilde{X}}_{n} | G_{c})] - - - (14)

式中：

表示由分离后语音

提取的语音特征参数，即提取语音

的梅尔频率倒谱系数作为语音的特征参数；

表示第n个声音源信号与样本语音库中指定声音源的匹配概率；

G_c表示用户指定人的声音模型参数；

表示分离后语音属于用户指定人声音的概率；

步骤9、对保留的声音源信号进行放大，即完成在被测环境中对指定声音源的放大。

步骤2-4所述的阈值取值范围为10^-2～10^-16。

步骤6-1所述的α_n取0～1内的随机数，且满足

k_n取1～700内的随机数。

本发明优点：

本发明一种智能语音处理方法，通过建立对话人声音模型库，实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音，根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音；与传统助听器不同，该方法可以根据用户个人需求从而自动为用户提供其所需的声音，减少了除噪音外的非目标人声的干扰，体现了该方法的个性化、互动化和智能化。

附图说明

图1为本发明一种实施例的智能语音处理方法流程图；

图2为本发明一种实施例的建模声音源数据示意图，其中，图(a)表示第一个人的声音

数据示意图，图(b)表示第二个人的声音数据示意图，图(c)表示第三个人的声音数据示意图；

图3为本发明一种实施例用于声音混合的声音源数据示意图，其中，图(a)表示第一声音源的数据示意图，图(b)表示第二声音源的数据示意图，图(c)表示第三声音源的数据示意图；

图4为本发明一种实施例的麦克风阵列示意图；

图5为本发明一种实施例的四个麦克风接收到的数据示意图，其中，图(a)表示第一个麦克风接收到的混合声音信号示意图，图(b)表示第二个麦克风接收到的混合声音信号示意图，图(c)表示第三个麦克风接收到的混合声音信号示意图，图(d)表示第四个麦克风接收到的混合声音信号示意图；

图6为本发明一种实施例的四个麦克风接收到的数据采样后的示意图，其中，图(a)表示第一个麦克风接收到的混合声音信号采样后示意图，图(b)表示第二个麦克风接收到的混合声音信号采样后示意图，图(c)表示第三个麦克风接收到的混合声音信号采样后示意图，图(d)表示第四个麦克风接收到的混合声音信号采样后示意图；

图7为本发明一种实施例的混合信号的空间谱估计示意图；

图8为本发明一种实施例的混合声音矢量方向分布概率密度图；

图9为本发明一种实施例的极大似然估计混合冯米修斯模型示意图；

图10为本发明一种实施例的理想语音与分离后得到语音对比图，其中，图(a)为第一声音源的原始声音信号，图(b)为分离后第一声音源的原始声音信号，图(c)为第二声音源的原始声音信号，图(d)为分离后第二声音源的原始声音信号，图(e)为第三声音源的原始声音信号，图(f)为分离后第三声音源的原始声音信号。

具体实施方式

下面结合附图对本发明一种实施例做进一步说明。

本发明实施例中，模型系统主要分为语音建模模块和语音动态实时处理模块两个模块，其中语音建模模块实现说话人语音建模，语音动态实时处理模块实现复杂语音环境下，混合人声的方向定位与分离，混合语音识别与提取(即目标声音的提取放大和其余声音的屏蔽)。

一种智能语音处理方法，方法流程图如图1所示，包括以下步骤：

步骤1、采集样本语音段构建样本语音库，对样本语音进行特征提取，获得特征参数，并对特征参数进行训练；具体过程如下：

步骤1-1、在安静的室内环境录制样本语音段，将采集的语音段进行离散化处理，提取语音信号的梅尔频率倒谱系数(MFCC)作为语音信号特征参数，并建立高斯混合模型；

本发明实施例中，采用windows自带录音机分别录制3个人的语音，每个人录制2段，其中1段用于声音分离与识别，另外1段用于说话人语音建模，设置目标声音源为第一号声音源；如图2中图(a)至图(c)所示，分别取三个人的一段语音，为其建立高斯混合模型，并将得到的模型参数存入模型库中。

模型公式如下：

p (XIG) = Σ_{i = 1}^{M} p_{i} b_{i} (X) - - - (1)

I表示高斯混合模型中单一高斯模型个数；

p_i表示第i个单一高斯模型的权重系数，

μ_i表示第i个单一高斯模型的均值矢量；

∑_i表示第i个单一高斯模型的协方差矩阵；

步骤1-2、利用语音信号特征参数训练高斯混合模型；

即采用k均值聚类算法对语音信号特征参数进行聚类，获得高斯混合模型参数集初始值G₀＝{p_i ⁰，μ_i ⁰，∑_i ⁰}，i＝1，2，...，I；

本实例中采用16个单一高斯模型组成高斯混合模型。随机产生16个向量作为聚类中心，每个向量长度为语音帧数，将每帧的特征参数按最小距离准则分配到16个聚类中心中的某一个，然后重新计算每个聚类中心向量的中心值，将其作为新的聚类中心，直到算法收敛计算结束，此时得到的聚类中心就是初始高斯混合模型均值参数μ_i ⁰，求特征参数协方差获得初始∑_i ⁰，p_i ⁰则初始取值都为

采用最大期望算法对模型进行估计，其原则就是观测值出现的概率最大，通过分别对模型函数关于参数p_i ⁰，μ_i ⁰，∑_i ⁰求导等于零计算参数p_i，μ_i，∑_i的重估值，直到算法收敛计算结束，此时即完成特征参数的训练。

步骤2、采用4个麦克风组成的麦克风阵列采集被测环境音频信号，确定该环境声音源个数和每个声音源波束到达的方向，即声源到麦克风阵列的入射角度；

具体过程如下：

步骤2-1、采用4个麦克风组成的麦克风阵列采集被测环境音频信号，并对采集的混合音频信号进行离散化处理，获得每个采样点的幅值；

本发明实施例中，如图3中图(a)至图(c)所示，分别取三个人的另一段语音作为混合音频的声音数据源，采用4个麦克风，该4个麦克风组成的阵列如图4所示，一号麦克风与二号麦克风以阵列中心为中心对称分布于水平方向两侧，三号与四号麦克风以阵列中心为中心对称分布于垂直方向两侧；4个麦克风接收的混合数据如图5中图(a)至图(d)所示，对4个麦克风接收的语音进行离散化处理，离散化的频率为12500Hz，并确定每个采样点的幅值，如图6中图(a)至图(d)所示。

矢量协方差矩阵的估计值公式如下：

R_{xx} = \frac{1}{M} Σ_{m = 1}^{4} X (m) X^{H} (m) - - - (2)

X(m)表示第m个麦克风采集到的混合音频矩阵；

XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵；

步骤2-4、本实例中，对矢量协方差矩阵的估计值进行特征值分解，获得特征值[0.0000 0.0190 0.0363 0.1128]，并对特征值从大到小进行排序，与阈值10^-7比较，即获得3个特征值，因此声音源个数为3；

本发明实施例中，把与声音源个数3相等的特征值和对应的特征向量看作信号部分空间，剩下的4-3，即1个特征值和特征向量看作噪声部分空间，即噪音源个数为1，根据噪声特征值对应的元素可以得到噪声矩阵

V_u＝[-0.1218-0.4761i-0.1564+0.4659i-0.5070-0.0374i-0.5084]；

如图4所示，各个麦克风与阵列中心的距离都为0.02m；本发明实施例中，混合音频信号的波长为30000；一号麦克风对于阵列中心的方向角度为0°，二号麦克风对于阵列中心的方向角度为180°，三号麦克风对于阵列中心的方向角度为90°，一号麦克风对于阵列中心的方向角度为270°；

混合音频信号的角度谱函数公式如下：

P (θ) = \frac{1}{α^{H} (θ) V_{u} {V^{H}}_{u} α (θ)} - - - (3)

其中，P(θ)表示混合音频信号的角度谱函数；

α(θ)表示麦克风阵列的导向矢量，α(θ)＝(α₁(θ)，α₂(θ)，α₃(θ)，α₄(θ))，其中，α₁(θ)＝e^{jk0.02cos(0°-θ)}，α₂(θ)＝e^{jk002cos(180°-θ)}，α₃(θ)＝e^{jk002cos(90°-θ)}，α₄(θ)＝e^{jk002cos(270°-θ)}，j表示虚数单位，k＝2π/λ，λ表示混合音频信号的波长；

θ表示声音源的波束到达方向；

α^H(θ)表示麦克风阵列的导向矢量的转置矩阵；

V_u表示噪音矩阵；

V^H _u表示噪音矩阵的转置矩阵；

如图7所示，混合音频信号的角度谱函数P(θ)的波形，得到该混合声音中存在的3个声音源的波束到达方向分别为[50°，200°，300°]。

麦克风阵列声压公式如下：

p_{w} (t) = Σ_{n = 1}^{3} 0.5 Σ_{m = 1}^{4} h_{mn} (t) s_{n} (t) - - - (4)

其中，p_w(t)表示t时刻麦克风阵列声压；

N表示声音源个数；

t表示时间；

s_n(t)表示第n个声音源的音频信号；

麦克风阵列水平方向声压梯度公式如下：

其中，p_x(t)表示麦克风阵列水平方向声压梯度；

麦克风阵列垂直方向的声压梯度公式如下：

其中，p_y(t)表示麦克风阵列垂直方向的声压梯度；

步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度，获得频率域内的声压信号的强度矢量公式，进而得出强度矢量方向；

频率域内的声压信号的强度矢量公式为：

I (ω, t) = \frac{1}{ρ_{0} c} [Re {{p_{w}}^{*} (ω, t) p_{x} (ω, t)} u_{x} + Re {{p_{w}}^{*} (ω, t) p_{y} (ω, t)} u_{y}] - - - (7)

其中，I(ω，t)表示频率域内的声压信号的强度矢量；

ρ₀表示被测环境空气密度；

c表示声速；

Re[.]表示取复数实部；

p_w ^*(ω，t)表示频域内的麦克风阵列声压的共轭矩阵；

p_x(ω，t)表示频域内的麦克风阵列水平方向声压梯度；

p_y(ω，t)表示频域内的麦克风阵列垂直方向声压梯度；

u_x表示横坐标轴方向单位矢量；

u_y表示纵坐标轴方向单位矢量；

强度矢量方向公式如下：

γ (ω, t) = \tan^{- 1} [\frac{Re {{p_{w}}^{*} (ω, t) p_{y} (ω, t)}}{Re {{p_{w}}^{*} (ω, t) p_{x} (ω, t)}}] - - - (8)

具体过程如下：

本发明实施例中，如图8所示，γ(ω，t)的分布概率密度图；根据上述所求的声音源个数和角度可以得到符合该概率密度分布的混合冯米修斯分布由3个单一冯米修斯分布组成，且这三个分布的中心角度分别为[50°，200°，300°]。

所述的混合冯米修斯分布模型公式如下：

g (θ) = Σ_{n = 1}^{N} α_{n} f (θ; k_{n}) - - - (10)

其中，

表示混合冯米修斯分布概率密度；

表示混合声音方向角度；

混合冯米修斯分布函数参数集如下：

Γ＝{α_n，k_n}，i＝1，2，3 (11)

步骤6-2、初始化模型参数，获得初始函数参数集；

本发明实施例中，α取值为[1/3，1/3，1/3]，k取值[8，6，3]；

步骤6-3、根据获得的初始模型参数，建立初始的混合冯米修斯分布函数，得到函数公式为：

采用最大期望算法估计得到混合冯米修斯分布模型的参数，其原则就是观测值出现的概率最大，通过对模型函数关于参数α和k求导等于零计算参数α和k的重估值，

将γ(ω，t)作为代入

取对数得到初始对数似然值-3.0249e+004，通过计算每个当前单一冯米修斯分布占混合冯米修斯分布的比例可以获得重估的α参数[0.2267，0.2817，0.4516]，同时根据求导所得参数k求取方法得到重估k的值为[5.1498，4.0061，3.1277]，此时可得到新的对数似然值为-2.9887e+004，比较新旧似然值差值为362.3362远大于阈值所取阈值0.1，故将新似然值赋值给旧似然值，然后再重新用这两个新得到的重估参数重复刚才步骤直到新旧似然值小于阈值即认为算法收敛，本实例中最终得到α参数[0.2689，0.2811，0.4500]，k的值为[4.3508，3.3601，2.8332]，此时即获得了满足强度矢量方向分布的混合冯米修斯分布函数，如图9所示为得到的混合冯米修斯分布。

声压信号的强度矢量方向函数公式如下：

I_{n} (θ; ω, t) = α_{n} f (θ; k_{n}) - - - (12)

其中，

表示第n个声音源的强度矢量方向函数；

每个声音源在频域中的信号公式如下：

{\tilde{s}}_{n} (ω, t) = p_{w} (ω, t) I_{n} (θ; ω, t) - - - (13)

其中，表示混合语音分离后得到的第n个声源信号的频率域信号；

将

经过傅里叶反变换得到时域信号

步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率，认为概率值最大的声音源即为目标声音源，保留该声音源信号，删除其他非目标声音源；

本发明实施例中，假设第一个人为目标声音源，最终分离后的三个语音与该目标声音模型的匹配概率对数值分别为[-2.0850-2.8807-3.5084]×10⁴，其中最大匹配声音为1号分离后声音，即找到目标声音源。

C ({\tilde{X}}_{n}) = \log [P ({\tilde{X}}_{n} | G_{c})] - - - (14)

式中：

表示由分离后语音

提取的语音特征参数，即提取语音

的梅尔频率倒谱系数作为语音

的特征参数；

G_c表示用户指定人的声音模型参数；

表示分离后语音属于用户指定人声音的概率；

本发明实施例中，最后根据得到的混合冯米修斯分布模型参数得到每个声音源的方向函数，进一步分离得到原始声音，如图10中图(a)至图(f)所示，即为理想与分离后得到数据的对比图，可以看到相似度极高。