CN103811020A - 一种智能语音处理方法 - Google Patents
一种智能语音处理方法 Download PDFInfo
- Publication number
- CN103811020A CN103811020A CN201410081493.6A CN201410081493A CN103811020A CN 103811020 A CN103811020 A CN 103811020A CN 201410081493 A CN201410081493 A CN 201410081493A CN 103811020 A CN103811020 A CN 103811020A
- Authority
- CN
- China
- Prior art keywords
- sound
- sound source
- signal
- microphone
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明一种智能语音处理方法,属于信息处理技术领域,本发明通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音;与传统助听器不同,该方法可以根据用户个人需求从而自动为用户提供其所需的声音,减少了除噪音外的非目标人声的干扰,体现了该方法的个性化、互动化和智能化。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种智能语音处理方法。
背景技术
据2013年世界卫生组织(WHO)发布的最新评估数据显示,全球目前共有3.6亿人存在不同程度的听力障碍,占全球总人口的5%。助听产品的使用可以有效地补偿听力障碍患者的听力损失,提高他们的生活和工作质量。然而,当今助听系统相关技术的研究仍然集中在噪声抑制和源声音幅值放大两个方面,很少涉及到基于声音特征的建模和多声源自动分离技术。当实际应用场景非常复杂时,例如:聚会时,多个说话人同时发声,甚至是伴有音乐等背景声音,由于助听系统无法从混合后的声音输入中分离出感兴趣的声音对象,简单的声音强度扩大功能只能增加使用者的听力负担甚至伤害,不会带来有效的声音输入和理解。因此,针对当前助听系统的技术缺陷,设计一款具有特定声音对象识别功能的、更加智能化和个性化的新型助听系统,具有非常重要的意义。
发明内容
针对现有技术存在的不足,本发明提出一种智能语音处理方法,以达到保证用户根据自己的需求获得纯净的声音接收和放大,实现助听系统的智能化、互动化和个性化的目的。
一种智能语音处理方法,包括以下步骤:
步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;
具体过程如下:
步骤1-1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型;
模型公式如下:
其中,p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率;
G表示高斯混合模型参数集,G={pi,μi,∑i},i=1,2,...,I;
I表示高斯混合模型中单一高斯模型个数;
μi表示第i个单一高斯模型的均值矢量;
∑i表示第i个单一高斯模型的协方差矩阵;
X表示样本语音特征参数,X={x1,x2,...,xT},T表示特征向量的个数;
bi(X)表示第i个单一高斯模型的密度函数,bi(X)=N(μi,∑i),N(.)表示标准高斯分布的密度函数;
步骤1-2、利用语音信号特征参数训练高斯混合模型;
即采用k均值聚类算法对语音信号特征参数进行聚类,获得高斯混合模型参数集初始值G0={pi 0,μi 0,∑i 0},i=1,2,...,I;并根据获得的高斯混合模型参数集初始值,采用最大期望算法对模型进行估计,进而获得高斯混合模型参数,即完成特征参数的训练;
步骤2、采用M个麦克风组成的麦克风阵列采集被测环境音频信号,确定该环境声音源个数和每个声音源波束到达的方向,即声源到麦克风阵列的入射角度;
具体过程如下:
步骤2-1、采用M个麦克风组成的麦克风阵列采集被测环境的混合音频信号,并对采集的混合音频信号进行离散化处理,获得每个采样点的幅值;
步骤2-2、将每个采样点的幅值进行矩阵化,获得每个麦克风采集到的混合音频矩阵;上述混合音频矩阵的列数为一,行数为采样点个数,矩阵中元素为每个采样点的幅值;
步骤2-3、根据每个麦克风采集到的混合音频矩阵和麦克风个数,获得被测环境的混合音频信号的矢量协方差矩阵的估计值;
矢量协方差矩阵的估计值公式如下:
其中,Rxx表示被测环境的混合音频信号的矢量协方差矩阵的估计值;
X(m)表示第m个麦克风采集到的混合音频矩阵;
XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵;
步骤2-4、对矢量协方差矩阵的估计值进行特征值分解,获得特征值,并对特征值从大到小进行排序,确定特征值大于阈值的个数,即为声音源的个数;
步骤2-5、将麦克风个数减去声音源个数获得噪音源个数,进而对应获得噪音矩阵;
步骤2-6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量,再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数;
混合音频信号的角度谱函数公式如下:
其中,P(θ)表示混合音频信号的角度谱函数;
α(θ)表示麦克风阵列的导向矢量,α(θ)=(α1(θ),...,αm(θ),...,αM(θ)),其中,j表示虚数单位,k=2π/λ,λ表示混合音频信号的波长,dm表示第m个麦克风与阵列中心的距离,表示第m个麦克风对于阵列中心的方向角度;
θ表示声音源的波束到达方向;
αH(θ)表示麦克风阵列的导向矢量的转置矩阵;
Vu表示噪音矩阵;
VH u表示噪音矩阵的转置矩阵;
步骤2-7、根据混合音频信号的角度谱函数的波形,由大到小选取该波形的多个峰值,选择峰值的个数即为声音源的个数;
步骤2-8、确定选取峰值对应的角度值,即获得每个声音源的波束到达方向;
步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系,获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度;
麦克风阵列声压信号公式如下:
其中,pw(t)表示t时刻麦克风阵列声压;
N表示声音源个数;
t表示时间;
sn(t)表示第n个声音源的音频信号;
hmn(t)表示第n个声音源与第m个麦克风之间的转换矩阵,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t时刻由声波造成的麦克风阵列中心声压;αm(θn(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量,其中,θn(t)表示t时刻第n个声音源的波束到达方向;
麦克风阵列水平方向声压梯度公式如下:
其中,px(t)表示麦克风阵列水平方向声压梯度;
麦克风阵列垂直方向的声压梯度公式如下:
其中,py(t)表示麦克风阵列垂直方向的声压梯度;
步骤4、采用傅里叶变换将麦克风阵列中心声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度从时域转换到频域;
步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度,获得频率域内的声压信号的强度矢量公式,进而推导出强度矢量方向;
频率域内的声压信号的强度矢量公式为:
其中,I(ω,t)表示频率域内的声压信号的强度矢量;
p0表示被测环境空气密度;
c表示声速;
Re[.]表示取复数实部;
pw *(ω,t)表示频域内的麦克风阵列声压的共轭矩阵;
px(ω,t)表示频域内的麦克风阵列水平方向声压梯度;
py(ω,t)表示频域内的麦克风阵列垂直方向声压梯度;
ux表示横坐标轴方向单位矢量;
uy表示纵坐标轴方向单位矢量;
强度矢量方向公式如下:
其中,γ(ω,t)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向;
步骤6、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音强度矢量方向服从混合冯米修斯分布的模型参数,进而得到每个声压信号的强度矢量方向函数;
具体过程如下:
步骤6-1、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音的强度矢量方向服从的混合冯米修斯分布的模型参数集;
所述的混合冯米修斯分布模型公式如下:
其中,表示混合冯米修斯分布概率密度;
αn表示第n个声音源的声压信号的强度矢量方向函数的权重;
混合冯米修斯分布函数参数集如下:
Γ={αn,kn},i=1,...,N (11)
步骤6-2、初始化模型参数,获得初始函数参数集;
步骤6-3、根据获得的初始模型参数,采用最大期望算法估计得到混合冯米修斯分布模型的参数;
步骤6-4、根据估计得到的混合冯米修斯分布模型参数,求得每个声压信号的强度矢量方向函数;
声压信号的强度矢量方向函数公式如下:
步骤7、根据得到的每个声压信号的强度矢量方向函数和麦克风阵列声压,获得每个声音源在频率域信号,并采用傅里叶反变换将该频域中的每个声源信号转换为时域内的声源信号;
每个声音源在频域中的信号公式如下:
步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率,选择概率值最大的声音源为目标声音源,保留该声音源信号,删除其他非目标声音源;
每个声音源信号与样本语音库中指定声音源的匹配概率公式如下:
Gc表示用户指定人的声音模型参数;
表示分离后语音属于用户指定人声音的概率;
步骤9、对保留的声音源信号进行放大,即完成在被测环境中对指定声音源的放大。
步骤2-4所述的阈值取值范围为10-2~10-16。
本发明优点:
本发明一种智能语音处理方法,通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音;与传统助听器不同,该方法可以根据用户个人需求从而自动为用户提供其所需的声音,减少了除噪音外的非目标人声的干扰,体现了该方法的个性化、互动化和智能化。
附图说明
图1为本发明一种实施例的智能语音处理方法流程图;
图2为本发明一种实施例的建模声音源数据示意图,其中,图(a)表示第一个人的声音
数据示意图,图(b)表示第二个人的声音数据示意图,图(c)表示第三个人的声音数据示意图;
图3为本发明一种实施例用于声音混合的声音源数据示意图,其中,图(a)表示第一声音源的数据示意图,图(b)表示第二声音源的数据示意图,图(c)表示第三声音源的数据示意图;
图4为本发明一种实施例的麦克风阵列示意图;
图5为本发明一种实施例的四个麦克风接收到的数据示意图,其中,图(a)表示第一个麦克风接收到的混合声音信号示意图,图(b)表示第二个麦克风接收到的混合声音信号示意图,图(c)表示第三个麦克风接收到的混合声音信号示意图,图(d)表示第四个麦克风接收到的混合声音信号示意图;
图6为本发明一种实施例的四个麦克风接收到的数据采样后的示意图,其中,图(a)表示第一个麦克风接收到的混合声音信号采样后示意图,图(b)表示第二个麦克风接收到的混合声音信号采样后示意图,图(c)表示第三个麦克风接收到的混合声音信号采样后示意图,图(d)表示第四个麦克风接收到的混合声音信号采样后示意图;
图7为本发明一种实施例的混合信号的空间谱估计示意图;
图8为本发明一种实施例的混合声音矢量方向分布概率密度图;
图9为本发明一种实施例的极大似然估计混合冯米修斯模型示意图;
图10为本发明一种实施例的理想语音与分离后得到语音对比图,其中,图(a)为第一声音源的原始声音信号,图(b)为分离后第一声音源的原始声音信号,图(c)为第二声音源的原始声音信号,图(d)为分离后第二声音源的原始声音信号,图(e)为第三声音源的原始声音信号,图(f)为分离后第三声音源的原始声音信号。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实施例中,模型系统主要分为语音建模模块和语音动态实时处理模块两个模块,其中语音建模模块实现说话人语音建模,语音动态实时处理模块实现复杂语音环境下,混合人声的方向定位与分离,混合语音识别与提取(即目标声音的提取放大和其余声音的屏蔽)。
一种智能语音处理方法,方法流程图如图1所示,包括以下步骤:
步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;具体过程如下:
步骤1-1、在安静的室内环境录制样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数(MFCC)作为语音信号特征参数,并建立高斯混合模型;
本发明实施例中,采用windows自带录音机分别录制3个人的语音,每个人录制2段,其中1段用于声音分离与识别,另外1段用于说话人语音建模,设置目标声音源为第一号声音源;如图2中图(a)至图(c)所示,分别取三个人的一段语音,为其建立高斯混合模型,并将得到的模型参数存入模型库中。
模型公式如下:
其中,p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率;
G表示高斯混合模型参数集,G={pi,μi,∑i},i=1,2,...,I;
I表示高斯混合模型中单一高斯模型个数;
pi表示第i个单一高斯模型的权重系数,
μi表示第i个单一高斯模型的均值矢量;
∑i表示第i个单一高斯模型的协方差矩阵;
X表示样本语音特征参数,X={x1,x2,...,xT},T表示特征向量的个数;
bi(X)表示第i个单一高斯模型的密度函数,bi(X)=N(μi,∑i),N(.)表示标准高斯分布的密度函数;
步骤1-2、利用语音信号特征参数训练高斯混合模型;
即采用k均值聚类算法对语音信号特征参数进行聚类,获得高斯混合模型参数集初始值G0={pi 0,μi 0,∑i 0},i=1,2,...,I;
本实例中采用16个单一高斯模型组成高斯混合模型。随机产生16个向量作为聚类中心,每个向量长度为语音帧数,将每帧的特征参数按最小距离准则分配到16个聚类中心中的某一个,然后重新计算每个聚类中心向量的中心值,将其作为新的聚类中心,直到算法收敛计算结束,此时得到的聚类中心就是初始高斯混合模型均值参数μi 0,求特征参数协方差获得初始∑i 0,pi 0则初始取值都为
采用最大期望算法对模型进行估计,其原则就是观测值出现的概率最大,通过分别对模型函数关于参数pi 0,μi 0,∑i 0求导等于零计算参数pi,μi,∑i的重估值,直到算法收敛计算结束,此时即完成特征参数的训练。
步骤2、采用4个麦克风组成的麦克风阵列采集被测环境音频信号,确定该环境声音源个数和每个声音源波束到达的方向,即声源到麦克风阵列的入射角度;
具体过程如下:
步骤2-1、采用4个麦克风组成的麦克风阵列采集被测环境音频信号,并对采集的混合音频信号进行离散化处理,获得每个采样点的幅值;
本发明实施例中,如图3中图(a)至图(c)所示,分别取三个人的另一段语音作为混合音频的声音数据源,采用4个麦克风,该4个麦克风组成的阵列如图4所示,一号麦克风与二号麦克风以阵列中心为中心对称分布于水平方向两侧,三号与四号麦克风以阵列中心为中心对称分布于垂直方向两侧;4个麦克风接收的混合数据如图5中图(a)至图(d)所示,对4个麦克风接收的语音进行离散化处理,离散化的频率为12500Hz,并确定每个采样点的幅值,如图6中图(a)至图(d)所示。
步骤2-2、将每个采样点的幅值进行矩阵化,获得每个麦克风采集到的混合音频矩阵;上述混合音频矩阵的列数为一,行数为采样点个数,矩阵中元素为每个采样点的幅值;
步骤2-3、根据每个麦克风采集到的混合音频矩阵和麦克风个数,获得被测环境的混合音频信号的矢量协方差矩阵的估计值;
矢量协方差矩阵的估计值公式如下:
其中,Rxx表示被测环境的混合音频信号的矢量协方差矩阵的估计值;
X(m)表示第m个麦克风采集到的混合音频矩阵;
XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵;
步骤2-4、本实例中,对矢量协方差矩阵的估计值进行特征值分解,获得特征值[0.0000 0.0190 0.0363 0.1128],并对特征值从大到小进行排序,与阈值10-7比较,即获得3个特征值,因此声音源个数为3;
步骤2-5、将麦克风个数减去声音源个数获得噪音源个数,进而对应获得噪音矩阵;
本发明实施例中,把与声音源个数3相等的特征值和对应的特征向量看作信号部分空间,剩下的4-3,即1个特征值和特征向量看作噪声部分空间,即噪音源个数为1,根据噪声特征值对应的元素可以得到噪声矩阵
Vu=[-0.1218-0.4761i-0.1564+0.4659i-0.5070-0.0374i-0.5084];
步骤2-6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量,再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数;
如图4所示,各个麦克风与阵列中心的距离都为0.02m;本发明实施例中,混合音频信号的波长为30000;一号麦克风对于阵列中心的方向角度为0°,二号麦克风对于阵列中心的方向角度为180°,三号麦克风对于阵列中心的方向角度为90°,一号麦克风对于阵列中心的方向角度为270°;
混合音频信号的角度谱函数公式如下:
其中,P(θ)表示混合音频信号的角度谱函数;
α(θ)表示麦克风阵列的导向矢量,α(θ)=(α1(θ),α2(θ),α3(θ),α4(θ)),其中,α1(θ)=ejk0.02cos(0°-θ),α2(θ)=ejk002cos(180°-θ),α3(θ)=ejk002cos(90°-θ),α4(θ)=ejk002cos(270°-θ),j表示虚数单位,k=2π/λ,λ表示混合音频信号的波长;
θ表示声音源的波束到达方向;
αH(θ)表示麦克风阵列的导向矢量的转置矩阵;
Vu表示噪音矩阵;
VH u表示噪音矩阵的转置矩阵;
步骤2-7、根据混合音频信号的角度谱函数的波形,由大到小选取该波形的多个峰值,选择峰值的个数即为声音源的个数;
步骤2-8、确定选取峰值对应的角度值,即获得每个声音源的波束到达方向;
如图7所示,混合音频信号的角度谱函数P(θ)的波形,得到该混合声音中存在的3个声音源的波束到达方向分别为[50°,200°,300°]。
步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系,获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度;
麦克风阵列声压公式如下:
其中,pw(t)表示t时刻麦克风阵列声压;
N表示声音源个数;
t表示时间;
sn(t)表示第n个声音源的音频信号;
hmn(t)表示第n个声音源与第m个麦克风之间的转换矩阵,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t时刻由声波造成的麦克风阵列中心声压;αm(θn(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量,其中,θn(t)表示t时刻第n个声音源的波束到达方向;
麦克风阵列水平方向声压梯度公式如下:
其中,px(t)表示麦克风阵列水平方向声压梯度;
麦克风阵列垂直方向的声压梯度公式如下:
其中,py(t)表示麦克风阵列垂直方向的声压梯度;
步骤4、采用傅里叶变换将麦克风阵列中心声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度从时域转换到频域;
步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度,获得频率域内的声压信号的强度矢量公式,进而得出强度矢量方向;
频率域内的声压信号的强度矢量公式为:
频率域内的声压信号的强度矢量公式为:
其中,I(ω,t)表示频率域内的声压信号的强度矢量;
ρ0表示被测环境空气密度;
c表示声速;
Re[.]表示取复数实部;
pw *(ω,t)表示频域内的麦克风阵列声压的共轭矩阵;
px(ω,t)表示频域内的麦克风阵列水平方向声压梯度;
py(ω,t)表示频域内的麦克风阵列垂直方向声压梯度;
ux表示横坐标轴方向单位矢量;
uy表示纵坐标轴方向单位矢量;
强度矢量方向公式如下:
其中,γ(ω,t)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向;
步骤6、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音强度矢量方向服从混合冯米修斯分布的模型参数,进而得到每个声压信号的强度矢量方向函数;
具体过程如下:
步骤6-1、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音的强度矢量方向服从的混合冯米修斯分布的模型参数集;
本发明实施例中,如图8所示,γ(ω,t)的分布概率密度图;根据上述所求的声音源个数和角度可以得到符合该概率密度分布的混合冯米修斯分布由3个单一冯米修斯分布组成,且这三个分布的中心角度分别为[50°,200°,300°]。
所述的混合冯米修斯分布模型公式如下:
αn表示第n个声音源的声压信号的强度矢量方向函数的权重;
混合冯米修斯分布函数参数集如下:
Γ={αn,kn},i=1,2,3 (11)
步骤6-2、初始化模型参数,获得初始函数参数集;
本发明实施例中,α取值为[1/3,1/3,1/3],k取值[8,6,3];
步骤6-3、根据获得的初始模型参数,建立初始的混合冯米修斯分布函数,得到函数公式为:
采用最大期望算法估计得到混合冯米修斯分布模型的参数,其原则就是观测值出现的概率最大,通过对模型函数关于参数α和k求导等于零计算参数α和k的重估值,
将γ(ω,t)作为代入取对数得到初始对数似然值-3.0249e+004,通过计算每个当前单一冯米修斯分布占混合冯米修斯分布的比例可以获得重估的α参数[0.2267,0.2817,0.4516],同时根据求导所得参数k求取方法得到重估k的值为[5.1498,4.0061,3.1277],此时可得到新的对数似然值为-2.9887e+004,比较新旧似然值差值为362.3362远大于阈值所取阈值0.1,故将新似然值赋值给旧似然值,然后再重新用这两个新得到的重估参数重复刚才步骤直到新旧似然值小于阈值即认为算法收敛,本实例中最终得到α参数[0.2689,0.2811,0.4500],k的值为[4.3508,3.3601,2.8332],此时即获得了满足强度矢量方向分布的混合冯米修斯分布函数,如图9所示为得到的混合冯米修斯分布。
步骤6-4、根据估计得到的混合冯米修斯分布模型参数,求得每个声压信号的强度矢量方向函数;
声压信号的强度矢量方向函数公式如下:
步骤7、根据得到的每个声压信号的强度矢量方向函数和麦克风阵列声压,获得每个声音源在频率域信号,并采用傅里叶反变换将该频域中的每个声源信号转换为时域内的声源信号;
每个声音源在频域中的信号公式如下:
其中,表示混合语音分离后得到的第n个声源信号的频率域信号;
步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率,认为概率值最大的声音源即为目标声音源,保留该声音源信号,删除其他非目标声音源;
本发明实施例中,假设第一个人为目标声音源,最终分离后的三个语音与该目标声音模型的匹配概率对数值分别为[-2.0850-2.8807-3.5084]×104,其中最大匹配声音为1号分离后声音,即找到目标声音源。
每个声音源信号与样本语音库中指定声音源的匹配概率公式如下:
Gc表示用户指定人的声音模型参数;
步骤9、对保留的声音源信号进行放大,即完成在被测环境中对指定声音源的放大。
本发明实施例中,最后根据得到的混合冯米修斯分布模型参数得到每个声音源的方向函数,进一步分离得到原始声音,如图10中图(a)至图(f)所示,即为理想与分离后得到数据的对比图,可以看到相似度极高。
Claims (3)
1.一种智能语音处理方法,其特征在于,包括以下步骤:
步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;
具体过程如下:
步骤1-1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型;
模型公式如下:
其中,p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率;
G表示高斯混合模型参数集,G={pi,μi,∑i},i=1,2,...,I;
I表示高斯混合模型中单一高斯模型个数;
μi表示第i个单一高斯模型的均值矢量;
∑i表示第i个单一高斯模型的协方差矩阵;
X表示样本语音特征参数,X={x1,x2,...,xT},T表示特征向量的个数;
bi(X)表示第i个单一高斯模型的密度函数,bi(X)=N(μi,∑i),N(.)表示标准高斯分布的密度函数;
步骤1-2、利用语音信号特征参数训练高斯混合模型;
即采用k均值聚类算法对语音信号特征参数进行聚类,获得高斯混合模型参数集初始值G0={pi 0,μi 0,∑i 0},i=1,2,...,I;并根据获得的高斯混合模型参数集初始值,采用最大期望算法对模型进行估计,进而获得高斯混合模型参数,即完成特征参数的训练;
步骤2、采用M个麦克风组成的麦克风阵列采集被测环境音频信号,确定该环境声音源个数和每个声音源波束到达的方向,即声源到麦克风阵列的入射角度;
具体过程如下:
步骤2-1、采用M个麦克风组成的麦克风阵列采集被测环境的混合音频信号,并对采集的混合音频信号进行离散化处理,获得每个采样点的幅值;
步骤2-2、将每个采样点的幅值进行矩阵化,获得每个麦克风采集到的混合音频矩阵;上述混合音频矩阵的列数为一,行数为采样点个数,矩阵中元素为每个采样点的幅值;
步骤2-3、根据每个麦克风采集到的混合音频矩阵和麦克风个数,获得被测环境的混合音频信号的矢量协方差矩阵的估计值;
矢量协方差矩阵的估计值公式如下:
其中,Rxx表示被测环境的混合音频信号的矢量协方差矩阵的估计值;
X(m)表示第m个麦克风采集到的混合音频矩阵;
XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵;
步骤2-4、对矢量协方差矩阵的估计值进行特征值分解,获得特征值,并对特征值从大到小进行排序,确定特征值大于阈值的个数,即为声音源的个数;
步骤2-5、将麦克风个数减去声音源个数获得噪音源个数,进而对应获得噪音矩阵;
步骤2-6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量,再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数;
混合音频信号的角度谱函数公式如下:
其中,P(θ)表示混合音频信号的角度谱函数;
α(θ)表示麦克风阵列的导向矢量,α(θ)=(α1(θ),...,αm(θ),...,αM(θ)),其中,j表示虚数单位,k=2π/λ,λ表示混合音频信号的波长,dm表示第m个麦克风与阵列中心的距离,表示第m个麦克风对于阵列中心的方向角度;
θ表示声音源的波束到达方向;
αH(θ)表示麦克风阵列的导向矢量的转置矩阵;
Vu表示噪音矩阵;
VH u表示噪音矩阵的转置矩阵;
步骤2-7、根据混合音频信号的角度谱函数的波形,由大到小选取该波形的多个峰值,选择峰值的个数即为声音源的个数;
步骤2-8、确定选取峰值对应的角度值,即获得每个声音源的波束到达方向;
步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系,获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度;
麦克风阵列声压信号公式如下:
其中,pw(t)表示t时刻麦克风阵列声压;
N表示声音源个数;
t表示时间;
sn(t)表示第n个声音源的音频信号;
hmn(t)表示第n个声音源与第m个麦克风之间的转换矩阵,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t时刻由声波造成的麦克风阵列中心声压;αm(θn(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量,其中,θn(t)表示t时刻第n个声音源的波束到达方向;
麦克风阵列水平方向声压梯度公式如下:
其中,px(t)表示麦克风阵列水平方向声压梯度;
麦克风阵列垂直方向的声压梯度公式如下:
其中,py(t)表示麦克风阵列垂直方向的声压梯度;
步骤4、采用傅里叶变换将麦克风阵列中心声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度从时域转换到频域;
步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度,获得频率域内的声压信号的强度矢量公式,进而推导出强度矢量方向;
频率域内的声压信号的强度矢量公式为:
其中,I(ω,t)表示频率域内的声压信号的强度矢量;
ρ0表示被测环境空气密度;
c表示声速;
Re[.]表示取复数实部;
pw *(ω,t)表示频域内的麦克风阵列声压的共轭矩阵;
px(ω,t)表示频域内的麦克风阵列水平方向声压梯度;
py(ω,t)表示频域内的麦克风阵列垂直方向声压梯度;
ux表示横坐标轴方向单位矢量;
uy表示纵坐标轴方向单位矢量;
强度矢量方向公式如下:
其中,γ(ω,t)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向;
步骤6、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音强度矢量方向服从混合冯米修斯分布的模型参数,进而得到每个声压信号的强度矢量方向函数;
具体过程如下:
步骤6-1、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音的强度矢量方向服从的混合冯米修斯分布的模型参数集;
所述的混合冯米修斯分布模型公式如下:
αn表示第n个声音源的声压信号的强度矢量方向函数的权重;
混合冯米修斯分布函数参数集如下:
Γ={αn,kn},i=1,..,N (11)
步骤6-2、初始化模型参数,获得初始函数参数集;
步骤6-3、根据获得的初始模型参数,采用最大期望算法估计得到混合冯米修斯分布模型的参数;
步骤6-4、根据估计得到的混合冯米修斯分布模型参数,求得每个声压信号的强度矢量方向函数;
声压信号的强度矢量方向函数公式如下:
其中,表示第n个声音源的强度矢量方向函数;
步骤7、根据得到的每个声压信号的强度矢量方向函数和麦克风阵列声压,获得每个声音源在频率域信号,并采用傅里叶反变换将该频域中的每个声源信号转换为时域内的声源信号;
每个声音源在频域中的信号公式如下:
步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率,选择概率值最大的声音源为目标声音源,保留该声音源信号,删除其他非目标声音源;
每个声音源信号与样本语音库中指定声音源的匹配概率公式如下:
表示第n个声音源信号与样本语音库中指定声音源的匹配概率;
Gc表示用户指定人的声音模型参数;
表示分离后语音属于用户指定人声音的概率;
步骤9、对保留的声音源信号进行放大,即完成在被测环境中对指定声音源的放大。
2.根据权利要求1所述的智能语音处理方法,其特征在于,步骤2-4所述的阈值取值范围为10-2~10-16。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410081493.6A CN103811020B (zh) | 2014-03-05 | 2014-03-05 | 一种智能语音处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410081493.6A CN103811020B (zh) | 2014-03-05 | 2014-03-05 | 一种智能语音处理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103811020A true CN103811020A (zh) | 2014-05-21 |
| CN103811020B CN103811020B (zh) | 2016-06-22 |
Family
ID=50707692
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201410081493.6A Expired - Fee Related CN103811020B (zh) | 2014-03-05 | 2014-03-05 | 一种智能语音处理方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103811020B (zh) |
Cited By (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
| CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
| CN105933820A (zh) * | 2016-04-28 | 2016-09-07 | 冠捷显示科技(中国)有限公司 | 一种外置无线音箱自动定位方法 |
| CN106128472A (zh) * | 2016-07-12 | 2016-11-16 | 乐视控股(北京)有限公司 | 演唱者声音的处理方法及装置 |
| CN106205610A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
| CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
| CN107220021A (zh) * | 2017-05-16 | 2017-09-29 | 北京小鸟看看科技有限公司 | 语音输入识别方法、装置及头戴式设备 |
| CN107274895A (zh) * | 2017-08-18 | 2017-10-20 | 京东方科技集团股份有限公司 | 一种语音识别设备及方法 |
| CN107527626A (zh) * | 2017-08-30 | 2017-12-29 | 北京嘉楠捷思信息技术有限公司 | 一种音频识别系统 |
| CN108198569A (zh) * | 2017-12-28 | 2018-06-22 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
| CN108520756A (zh) * | 2018-03-20 | 2018-09-11 | 北京时代拓灵科技有限公司 | 一种说话人语音分离的方法及装置 |
| CN108630193A (zh) * | 2017-03-21 | 2018-10-09 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
| CN108694950A (zh) * | 2018-05-16 | 2018-10-23 | 清华大学 | 一种基于深度混合模型的说话人确认方法 |
| CN108735227A (zh) * | 2018-06-22 | 2018-11-02 | 北京三听科技有限公司 | 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
| CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
| CN109505741A (zh) * | 2018-12-20 | 2019-03-22 | 浙江大学 | 一种基于矩形麦克风阵列的风力发电机破损叶片检测方法及装置 |
| CN110288996A (zh) * | 2019-07-22 | 2019-09-27 | 厦门钛尚人工智能科技有限公司 | 一种语音识别装置和语音识别方法 |
| CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
| CN110335626A (zh) * | 2019-07-09 | 2019-10-15 | 北京字节跳动网络技术有限公司 | 基于音频的年龄识别方法及装置、存储介质 |
| CN110706688A (zh) * | 2019-11-11 | 2020-01-17 | 广州国音智能科技有限公司 | 语音识别模型的构建方法、系统、终端及可读存储介质 |
| CN110867191A (zh) * | 2018-08-28 | 2020-03-06 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
| CN111028857A (zh) * | 2019-12-27 | 2020-04-17 | 苏州蛙声科技有限公司 | 基于深度学习的多通道音视频会议降噪的方法及系统 |
| CN111696570A (zh) * | 2020-08-17 | 2020-09-22 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
| CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
| CN111899756A (zh) * | 2020-09-29 | 2020-11-06 | 北京清微智能科技有限公司 | 一种单通道语音分离方法和装置 |
| WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
| CN112289335A (zh) * | 2019-07-24 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音信号的处理方法、装置及拾音设备 |
| CN113990342A (zh) * | 2021-11-19 | 2022-01-28 | 中国银行股份有限公司 | 一种声音处理方法及装置 |
| CN114093382A (zh) * | 2021-11-23 | 2022-02-25 | 广东电网有限责任公司 | 一种适用于语音信息的智能交互方法 |
| CN114207714A (zh) * | 2019-08-02 | 2022-03-18 | 诺基亚技术有限公司 | 用于移动设备的具有嵌入式近-远立体声的masa |
| CN114242072A (zh) * | 2021-12-21 | 2022-03-25 | 上海帝图信息科技有限公司 | 一种用于智能机器人的语音识别系统 |
| CN114613385A (zh) * | 2022-05-07 | 2022-06-10 | 广州易而达科技股份有限公司 | 一种远场语音降噪方法、云服务器及音频采集设备 |
| CN115240689A (zh) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | 目标声音确定方法、装置、计算机设备和介质 |
| CN118574049A (zh) * | 2024-08-01 | 2024-08-30 | 罗普特科技集团股份有限公司 | 一种多模态智能终端的麦克风校准方法及系统 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1653519A (zh) * | 2002-03-20 | 2005-08-10 | 高通股份有限公司 | 通过分析源信号的冗余特征进行稳健话音识别的方法 |
| US20090150146A1 (en) * | 2007-12-11 | 2009-06-11 | Electronics & Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
| JP2012211768A (ja) * | 2011-03-30 | 2012-11-01 | Advanced Telecommunication Research Institute International | 音源定位装置 |
| CN103426434A (zh) * | 2012-05-04 | 2013-12-04 | 索尼电脑娱乐公司 | 结合源方向信息通过独立分量分析的源分离 |
-
2014
- 2014-03-05 CN CN201410081493.6A patent/CN103811020B/zh not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1653519A (zh) * | 2002-03-20 | 2005-08-10 | 高通股份有限公司 | 通过分析源信号的冗余特征进行稳健话音识别的方法 |
| US20090150146A1 (en) * | 2007-12-11 | 2009-06-11 | Electronics & Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
| JP2012211768A (ja) * | 2011-03-30 | 2012-11-01 | Advanced Telecommunication Research Institute International | 音源定位装置 |
| CN103426434A (zh) * | 2012-05-04 | 2013-12-04 | 索尼电脑娱乐公司 | 结合源方向信息通过独立分量分析的源分离 |
Cited By (48)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104200813B (zh) * | 2014-07-01 | 2017-05-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
| CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
| CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
| CN105933820A (zh) * | 2016-04-28 | 2016-09-07 | 冠捷显示科技(中国)有限公司 | 一种外置无线音箱自动定位方法 |
| CN106205610B (zh) * | 2016-06-29 | 2019-11-26 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
| CN106205610A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
| CN106128472A (zh) * | 2016-07-12 | 2016-11-16 | 乐视控股(北京)有限公司 | 演唱者声音的处理方法及装置 |
| CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
| CN106448722B (zh) * | 2016-09-14 | 2019-01-18 | 讯飞智元信息科技有限公司 | 录音方法、装置和系统 |
| CN108630193B (zh) * | 2017-03-21 | 2020-10-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
| CN108630193A (zh) * | 2017-03-21 | 2018-10-09 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
| CN107220021A (zh) * | 2017-05-16 | 2017-09-29 | 北京小鸟看看科技有限公司 | 语音输入识别方法、装置及头戴式设备 |
| CN107274895A (zh) * | 2017-08-18 | 2017-10-20 | 京东方科技集团股份有限公司 | 一种语音识别设备及方法 |
| CN107274895B (zh) * | 2017-08-18 | 2020-04-17 | 京东方科技集团股份有限公司 | 一种语音识别设备及方法 |
| CN107527626A (zh) * | 2017-08-30 | 2017-12-29 | 北京嘉楠捷思信息技术有限公司 | 一种音频识别系统 |
| CN108198569B (zh) * | 2017-12-28 | 2021-07-16 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
| CN108198569A (zh) * | 2017-12-28 | 2018-06-22 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
| CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
| CN108520756A (zh) * | 2018-03-20 | 2018-09-11 | 北京时代拓灵科技有限公司 | 一种说话人语音分离的方法及装置 |
| CN108520756B (zh) * | 2018-03-20 | 2020-09-01 | 北京时代拓灵科技有限公司 | 一种说话人语音分离的方法及装置 |
| CN108694950A (zh) * | 2018-05-16 | 2018-10-23 | 清华大学 | 一种基于深度混合模型的说话人确认方法 |
| CN108694950B (zh) * | 2018-05-16 | 2021-10-01 | 清华大学 | 一种基于深度混合模型的说话人确认方法 |
| CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
| CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
| CN108735227B (zh) * | 2018-06-22 | 2020-05-19 | 北京三听科技有限公司 | 对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
| CN108735227A (zh) * | 2018-06-22 | 2018-11-02 | 北京三听科技有限公司 | 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
| CN110867191A (zh) * | 2018-08-28 | 2020-03-06 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
| CN109505741A (zh) * | 2018-12-20 | 2019-03-22 | 浙江大学 | 一种基于矩形麦克风阵列的风力发电机破损叶片检测方法及装置 |
| CN110335626A (zh) * | 2019-07-09 | 2019-10-15 | 北京字节跳动网络技术有限公司 | 基于音频的年龄识别方法及装置、存储介质 |
| CN110288996A (zh) * | 2019-07-22 | 2019-09-27 | 厦门钛尚人工智能科技有限公司 | 一种语音识别装置和语音识别方法 |
| CN112289335A (zh) * | 2019-07-24 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音信号的处理方法、装置及拾音设备 |
| WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
| CN114207714A (zh) * | 2019-08-02 | 2022-03-18 | 诺基亚技术有限公司 | 用于移动设备的具有嵌入式近-远立体声的masa |
| CN110706688A (zh) * | 2019-11-11 | 2020-01-17 | 广州国音智能科技有限公司 | 语音识别模型的构建方法、系统、终端及可读存储介质 |
| CN110706688B (zh) * | 2019-11-11 | 2022-06-17 | 广州国音智能科技有限公司 | 语音识别模型的构建方法、系统、终端及可读存储介质 |
| CN111028857A (zh) * | 2019-12-27 | 2020-04-17 | 苏州蛙声科技有限公司 | 基于深度学习的多通道音视频会议降噪的方法及系统 |
| CN111028857B (zh) * | 2019-12-27 | 2024-01-19 | 宁波蛙声科技有限公司 | 基于深度学习的多通道音视频会议降噪的方法及系统 |
| CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
| CN111696570B (zh) * | 2020-08-17 | 2020-11-24 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
| CN111696570A (zh) * | 2020-08-17 | 2020-09-22 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
| CN111899756A (zh) * | 2020-09-29 | 2020-11-06 | 北京清微智能科技有限公司 | 一种单通道语音分离方法和装置 |
| CN113990342A (zh) * | 2021-11-19 | 2022-01-28 | 中国银行股份有限公司 | 一种声音处理方法及装置 |
| CN114093382A (zh) * | 2021-11-23 | 2022-02-25 | 广东电网有限责任公司 | 一种适用于语音信息的智能交互方法 |
| CN114242072A (zh) * | 2021-12-21 | 2022-03-25 | 上海帝图信息科技有限公司 | 一种用于智能机器人的语音识别系统 |
| CN114613385A (zh) * | 2022-05-07 | 2022-06-10 | 广州易而达科技股份有限公司 | 一种远场语音降噪方法、云服务器及音频采集设备 |
| CN115240689A (zh) * | 2022-09-15 | 2022-10-25 | 深圳市水世界信息有限公司 | 目标声音确定方法、装置、计算机设备和介质 |
| CN115240689B (zh) * | 2022-09-15 | 2022-12-02 | 深圳市水世界信息有限公司 | 目标声音确定方法、装置、计算机设备和介质 |
| CN118574049A (zh) * | 2024-08-01 | 2024-08-30 | 罗普特科技集团股份有限公司 | 一种多模态智能终端的麦克风校准方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103811020B (zh) | 2016-06-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103811020A (zh) | 一种智能语音处理方法 | |
| Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
| CN112116920B (zh) | 一种说话人数未知的多通道语音分离方法 | |
| US10839822B2 (en) | Multi-channel speech separation | |
| CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
| CN112634935B (zh) | 语音分离方法、装置、电子设备和可读存储介质 | |
| CN111429939B (zh) | 一种双声源的声音信号分离方法和拾音器 | |
| CN109800700A (zh) | 一种基于深度学习的水下声信号目标分类识别方法 | |
| Brutti et al. | Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays | |
| US11869481B2 (en) | Speech signal recognition method and device | |
| Wan et al. | Sound source localization based on discrimination of cross-correlation functions | |
| CN102388416A (zh) | 信号处理装置及信号处理方法 | |
| Pham et al. | A Robust Framework for Acoustic Scene Classification. | |
| Kürby et al. | Bag-of-Features Acoustic Event Detection for Sensor Networks. | |
| CN103854660A (zh) | 一种基于独立成分分析的四麦克语音增强方法 | |
| Chen et al. | An end-to-end deep learning framework for multiple audio source separation and localization | |
| Dwivedi et al. | Long-term temporal audio source localization using sh-crnn | |
| Liang et al. | Attention-based multi-channel speaker verification with ad-hoc microphone arrays | |
| CN111179959A (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统 | |
| Xia et al. | Ava: An adaptive audio filtering architecture for enhancing mobile, embedded, and cyber-physical systems | |
| CN115691540A (zh) | 一种实时语音分离语音转写的方法 | |
| Talagala et al. | Binaural localization of speech sources in the median plane using cepstral HRTF extraction | |
| Krijnders et al. | Tone-fit and MFCC scene classification compared to human recognition | |
| Jafari et al. | Sparse coding for convolutive blind audio source separation | |
| Copiaco et al. | Identifying optimal features for multi-channel acoustic scene classification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160622 |