CN116403598A

CN116403598A - 一种基于深度嵌入特征聚类的多说话人语音分离方法

Info

Publication number: CN116403598A
Application number: CN202310245106.7A
Authority: CN
Inventors: 王晓晨; 张晋恺; 胡瑞敏; 柯善发; 吴玉林
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-07

Abstract

本发明提供了一种基于深度嵌入特征聚类的多说话人语音分离方法。本方法包括首先将纯净音源信号的幅度谱输入到量化比例膜计算模块以计算量化比例膜，将混合语音信号的幅度谱输入到嵌入特征提取网络中，输出每个时频点对应的深度嵌入特征；之后，将混合信号对应的深度嵌入特征和量化比例膜输入到基于量化比例膜的的目标函数构建模块以计算目标函数，并基于该目标函数优化网络模型；在优化后的网络模型中，对待分离的混合信号的嵌入特征使用聚类算法，得到IBM/IRM；之后，将混合信号的幅度谱与IBM/IRM对应值作积，最后做逆傅里叶变换得到分离的音源信号。本方法可以更准确地表达语音信号的高维特征，提高了语音分离模型的性能和泛用性。

Description

一种基于深度嵌入特征聚类的多说话人语音分离方法

技术领域

本发明属于数字音频信号处理技术领域，涉及一种利用深度嵌入特征和量化比例膜构建目标函数的多说话人语音分离算法，可有效区分不同说话人语音的高维特征表达，提高了在真实场景下进行语音分离的效果。

背景技术

多说话人语音分离是指从包含多个说话人语音的语音混合信号中提取感兴趣的一个或多个语音音源信号的语音信号处理技术，最早源自1953年Cherry提出的“鸡尾酒会”

问题。语音分离技术主要应用于智能语音处理领域，如为智能设备提供高质量的语音。多说话人语音分离技术主要分为两类方法：基于传统数学模型的频域语音分离方法、基于深度学习的语音分离方法。基于传统数学模型的方法一般是指利用待分离混合信号中语音的特性建立模型，然后对混合信号进行分离，有独立成分分析、非负矩阵分解等代表方法。基于传统数学模型的方法由于自身特性，存在不适用于盲源分离，实际场景难以满足稀疏性假设等缺陷，模型泛用性和效果欠佳。基于深度学习的语音分离方法的主流框架是“编码器—分离器—解码器”框架，又可以分为频域分离和时域分离。基于频域的语音分离方法的基本思想是通过深度学习的方式学习频域混合信号与频域音源信号之间的映射关系，通过这种映射关系分离输入的频域混合信号。基于频域的分离方法无一例外的存在相位的分离问题，并且幅度和相位需要分别建立模型，增加了模型的复杂度。为了解决由于相位估计不准而导致的语音分离性能提升难的问题，时域多说话人语音分离方法应运而生。基于时域的语音分离方法的基本思想是通过深度学习的方式学习时域混合信号与时域音源信号之间的映射关系。尽管基于时域的分离方法解决了相位分离的问题，但它会丢失一些频谱的细节信息，在真实场景中的泛化能力有待提升。

发明内容

为解决上述技术问题，本发明提供一种基于深度嵌入特征聚类的多说话人语音分离算法，使用量化后的理想比例膜来表达混合信号中音源信号幅度谱的所占比例，并在网络结构中使用残差网络作为嵌入式网络，用门控循环单元代替BLSTM网络以提高计算效率。本发明通过对不同说话人语音的高维特征的表达，提高模型在真实场景下的泛化能力。

本发明提供一种基于深度嵌入特征聚类的多说话人语音分离算法，包括训练阶段和测试阶段，其中训练阶段的实现过程为：

步骤A，独立音源片段特征提取：首先获得纯净音源信号的幅度谱，然后利用幅度谱计算理想比例膜IRM，并对理想比例膜进行量化得到量化比例膜QRM；

步骤B，混合信号的深度嵌入特征：将混合语音信号的对数幅度谱进行归一化后输入到嵌入特征提取网络中，输出每个时频点对应的深度嵌入特征；

将步骤B中混合信号对应的深度嵌入特征和步骤A中得到的量化比例膜QRM输入到构建的代价函数中，基于该代价函数优化嵌入特征提取网络模型；

在测试阶段，以J个语音的混合信号作为输入，经时域-频域变换及取模后得到混合信号的幅度谱；将混合信号的幅度谱输入嵌入特征提取网络，得到其深度嵌入特征；进而对深入嵌入特征使用聚类算法得到混合信号的理想二值膜IBM或理想比例膜IRM；将混合信号的幅度谱与IBM或IRM对应值作积，最后做逆傅里叶变换得到分离的音源信号。

进一步的，步骤A中获得纯净音源信号的幅度谱的具体实现方式如下；

对输入的J个纯净的独立语音信号S₁,S₂,…,S_J通过短时傅里叶变换进行时域-频域变换，并对变换后的频谱取模，得到对象信号的幅度谱O₁,O₂,…,O_J；

在短时傅里叶变换中，窗函数w(n)如下式：

其中n＝1,2,…,N,N+1，N为窗函数的总长度。

进一步的，步骤A中理想比例膜的计算方式为；

其中O_j(t,f)²表示时频点(t,f)内第j个音源信号的能量，t、f分别为时频点对应的时间、频率，β为可调参数，用于缩放膜函数。

进一步的，步骤A中量化比例膜QRM的计算公式如下；

其中round()表示将小数点后的数字四舍五入取整，n表示量化阶数。

进一步的，步骤B中，首先对J个语音的混合信号x做短时傅里叶变换，并对变换结果取模，得到混合信号的幅度谱X_i，然后幅度谱X_i取对数，得到混合信号的对数幅度谱log(|X_i|)。

进一步的，步骤B中，采用零均值和标准差对对数幅度谱进行归一化，作为嵌入特征提取网络的输入特征。

进一步的，所述嵌入特征提取网络包括残差跳跃模块+门控循环单元GRU+全连接层，其中残差跳跃模块使用五个残差跳跃单元，残差跳跃单元的结构如下，

每个残差跳跃单元包含两个分支，一个产生残差输出的分支和一个产生跳跃连接输出的分支，每个分支包含三个卷积层，残差分支、跳跃分支分别使用tanh函数、Sigmoid函数作为激活函数，其中每个残差输出作为下一个残差跳跃单元的输入，五个残差跳跃单元的跳跃输出被连接在一起得到Y_i；

跳跃Y_i输入到GRU+全连接层，输出混合信号的嵌入特征V。

进一步的，代价函数L_QDPcL的计算方式如下，

其中，V表示深度嵌入特征，W＝{w_i,j的计算方式如下，

w_i,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值，J表示混合信号中音源信号的个数，该计算对QRM的值进行了归一化，使得||w_i||＝1，其中，w_i＝(w_i,1,…,w_i,j,…,w_i,J)，从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。

进一步的，步骤A中从语音识别和语音分离领域通用的语料库TIMIT中获得纯净的独立语音信号，并将所有信号下采样到8kHz。

进一步的，短时傅里叶变换，帧长为32ms、帧偏移为16ms，经过短时傅里叶变换后得到129维的频谱。

与现有的多说话人语音分离算法相比，本发明的优势在于：当混合信号中的音源属于同一类且同时存在多个音源时，一般基于深度聚类的语音分离方法中混合信号在任意一个时频点最多只有一个音源起主导作用这一稀疏性假设不再成立。而本方法使用量化后的理想比例膜更准确地表达了混合信号中音源信号幅度谱的所占比例，并基于QRM重新定义了目标函数。同时本方法使用残差网络作为嵌入式网络，并使用门控循环单元代替BLSTM网络来进一步提高计算效率，解决了梯度消失问题。因此，本发明可以在混合信号中多说话人语音特征具有相似性的情况下，准确地表达和区分不同说话人语音特征的高维特征，以满足用户对多说话人语音分离的需求。

附图说明

图1是本发明实施例的结构框图。

图2是本发明实施例的嵌入特征提取网络结构图。

图3是本发明实施例的残差跳跃单元结构图。

具体实施例

为了便于本领域的技术人员理解和实施本发明，下面结合附图以及具体实施示例对本发明的技术方案作进一步说明，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明：

本发明在现有多说话人语音分离方法的基础上开展研究，提出了一种基于深度嵌入特征聚类的多说话人语音分离算法。首先将混合语音信号的幅度谱输入到嵌入特征提取网络中，输出每个时频点对应的深度嵌入特征；同时，将纯净音源信号的幅度谱输入到QRM计算模块以计算QRM；之后，将混合信号对应的深度嵌入特征和QRM输入到基于量化比例膜的目标函数构建模块以计算目标函数，并基于该目标函数优化网络模型。

参照图1，本发明提出了一种基于深度嵌入特征聚类的多说话人语音分离算法，包括以下步骤：

输入为J个纯净的独立语音信号S₁,S₂,…,S_J，这里采用语音识别和语音分离领域通用的语料库TIMIT，所有信号在处理之前都被下采样到8kHz。

应注意的是，此处规定的音频参数和对象种类仅为举例说明本发明的实施过程，并不用于限定本发明。

步骤A1：对输入的J个纯净的独立语音信号S₁,S₂,…,S_J通过短时傅里叶变换进行时域-频域变换，并对变换后的频谱取模，得到对象信号的幅度谱O₁,O2,…,O_J；

在短时傅里叶变换中，指定帧长为32ms、帧偏移为16ms，窗函数w(n)如下式，

其中n＝1,2,…,N,N+1，N为窗函数的总长度，变换后得到129维的频谱。

应注意的是，此处规定的帧长，窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤，并不用作限定本发明。

步骤A2：对步骤A1得到的频谱O₁,O₂,…,O_J的每个时频点计算理想比例膜IRM，获得J个纯净信号的理想比例膜IRM₁,IRM₂,IRM₃,…,IRM_J；

本实施例中，将可调参数β设置为1以满足

计算方式如下，

应该注意的是，此处规定的可调参数β只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤A3：对步骤A2得到的理想比例膜IRM₁,IRM₂,IRM₃,…,IRM_J进行量化，得到量化比例膜QRM₁,QRM₂,QRM₃,…,QRM_J。

本实施例中，量化阶数n定为35，对每个独立信号计算每个时频点的QRM，QRM的计算公式如下，

其中round()表示将小数点后的数字四舍五入取整；

应注意的是，指定量化阶数n仅为举例说明本发明的具体实施步骤，并不用作限定本发明。

参照图1，本发明提出一种基于深度嵌入特征聚类的多说话人语音分离算法，具体包括以下步骤：

步骤B1：对J个语音的混合信号x做短时傅里叶变换，并对变换结果取模，得到混合信号的幅度谱X_i；

在短时傅里叶变换中，指定帧长为32ms、帧偏移为16ms，窗函数如下式，

变换后得到129维的频谱。

步骤B2：对步骤B1得到的混合信号幅度谱X_i取对数，得到混合信号的对数幅度谱log(|X_i|)；

采用零均值和标准差对对数幅度谱进行归一化，作为网络的输入特征。

步骤B3：将步骤B2得到的对数幅度谱log(|X_i|)输入到残差跳跃模块，输出跳跃Y_i；

请见图2，本发明实施例中，嵌入特征提取网络的残差跳跃模块使用五个残差跳跃单元，残差输出作为下一残差跳跃单元的输入，所有残差跳跃单元的跳跃输出采用加法进行连接，得到Y_i。

请见图3，本发明实施例中，嵌入特征提取网络使用了残差跳跃单元，其结构如下，

本实施例中，每个残差跳跃单元包含两个分支，一个产生残差输出的分支和一个产生跳跃连接输出的分支，每个分支包含三个卷积层，残差分支、跳跃分支分别使用tanh函数、Sigmoid函数作为激活函数。其中每个残差输出作为下一个残差跳跃单元的输入，利用残差网络的优势解决深度模型的梯度消失问题。五个残差跳跃单元的跳跃输出被连接在一起，以将在几个不同层次提取的特征合并到其最终预测端。

步骤B4：将步骤B3得到的跳跃Y_i输入到门控循环单元GRU+全连接层，输出混合信号的嵌入特征V；

采用指数学习率衰减策略进行训练，初始学习率为1×10^-3，衰减率设置为0.8，每10次迭代衰减1次。采用RELU激活函数形成深度嵌入特征V。

应注意的是，此处规定的初始学习率，衰减率和迭代次数等只是为了举例说明本发明的具体实施步骤，并不用作限定本发明。

步骤B5：对步骤A3得到的量化比例膜QRM_i,j进行归一化，得到矩阵W＝{w_i,j}；

W＝{w_i,j的计算方式如下，

w_i,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值，J表示混合信号中音源信号的个数。该计算对QRM的值进行了归一化，使得||w_i||＝1，其中，w_i＝(w_i,1,…,w_i,j,…,w_i,J)，从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。

步骤B6：根据步骤B5所得矩阵w＝{w_i,j}和步骤B4所得深度嵌入特征V，计算得到代价函数L_QDPCL；

L_QDPCL的计算方式如下，

在训练过程中使用代价函数L_QDPCL在验证集上的结果来判断是否停止训练，判断准则是代价函数在验证集上的计算值连续10次迭代都未减少。

请见图1，在测试阶段，以J个语音的混合信号作为输入，经时域-频域变换及取模后得到混合信号的幅度谱；将混合信号的幅度谱输入嵌入特征提取网络，得到其嵌入特征；进而对嵌入特征使用K-means/GMM聚类算法得到混合信号的理想二值膜或理想比例膜(IBM/IRM)；将混合信号的幅度谱与IBM/IRM对应值作积，最后做逆傅里叶变换得到分离的音源信号。

应注意的是，此处规定的判断准则只是为了举例说明本发明的具体实施步骤，并不用作限定本发明。

与现有多说话人语音分离算法相比，本发明具有的优势及特点是：

本发明使用量化后的理想比例膜表达混合信号中音源信号幅度谱的所占比例，优化了对不同说话人语音的高维特征的表达和区分，有效控制了模型所需的数据量和网络结构的深度，并使用残差网络作为嵌入式网络，解决了梯度消失问题，在语音分离时具有更高的SNR，分离性能有所提升。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：包括训练阶段和测试阶段，其中训练阶段的实现过程为：

2.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤A中获得纯净音源信号的幅度谱的具体实现方式如下；

对输入的J个纯净的独立语音信号S₁，S₂，...，S_J通过短时傅里叶变换进行时域-频域变换，并对变换后的频谱取模，得到对象信号的幅度谱O₁，O₂，...，O_J；

在短时傅里叶变换中，窗函数w(n)如下式：

其中n＝1,2，...，N，N+1，N为窗函数的总长度。

3.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤A中理想比例膜的计算方式为；

其中O_j(t，f)²表示时频点(t，f)内第j个音源信号的能量，t、f分别为时频点对应的时间、频率，β为可调参数，用于缩放膜函数。

4.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤A中量化比例膜QRM的计算公式如下；

5.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤B中，首先对J个语音的混合信号x做短时傅里叶变换，并对变换结果取模，得到混合信号的幅度谱X_i，然后幅度谱X_i取对数，得到混合信号的对数幅度谱log(|X_i|)。

6.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤B中，采用零均值和标准差对对数幅度谱进行归一化，作为嵌入特征提取网络的输入特征。

7.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：所述嵌入特征提取网络包括残差跳跃模块+门控循环单元GRU+全连接层，其中残差跳跃模块使用五个残差跳跃单元，残差跳跃单元的结构如下，

跳跃Y_i输入到GRU+全连接层，输出混合信号的嵌入特征V。

8.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：代价函数L_QDPCL的计算方式如下，

其中，V表示深度嵌入特征，W＝{w_i,j}的计算方式如下，

w_i,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值，J表示混合信号中音源信号的个数，该计算对QRM的值进行了归一化，使得||w_i||＝1，其中，w_i＝(w_i,1，...，w_i,j，...，w_i,J)，从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。

9.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：步骤A中从语音识别和语音分离领域通用的语料库TIMIT中获得纯净的独立语音信号，并将所有信号下采样到8kHz。

10.如权利要求2所述的一种基于深度嵌入特征聚类的多说话人语音分离方法，其特征在于：短时傅里叶变换，帧长为32ms、帧偏移为16ms，经过短时傅里叶变换后得到129维的频谱。