[go: up one dir, main page]

CN116403598A - 一种基于深度嵌入特征聚类的多说话人语音分离方法 - Google Patents

一种基于深度嵌入特征聚类的多说话人语音分离方法 Download PDF

Info

Publication number
CN116403598A
CN116403598A CN202310245106.7A CN202310245106A CN116403598A CN 116403598 A CN116403598 A CN 116403598A CN 202310245106 A CN202310245106 A CN 202310245106A CN 116403598 A CN116403598 A CN 116403598A
Authority
CN
China
Prior art keywords
deep
mixed signal
signal
residual
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310245106.7A
Other languages
English (en)
Inventor
王晓晨
张晋恺
胡瑞敏
柯善发
吴玉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310245106.7A priority Critical patent/CN116403598A/zh
Publication of CN116403598A publication Critical patent/CN116403598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于深度嵌入特征聚类的多说话人语音分离方法。本方法包括首先将纯净音源信号的幅度谱输入到量化比例膜计算模块以计算量化比例膜,将混合语音信号的幅度谱输入到嵌入特征提取网络中,输出每个时频点对应的深度嵌入特征;之后,将混合信号对应的深度嵌入特征和量化比例膜输入到基于量化比例膜的的目标函数构建模块以计算目标函数,并基于该目标函数优化网络模型;在优化后的网络模型中,对待分离的混合信号的嵌入特征使用聚类算法,得到IBM/IRM;之后,将混合信号的幅度谱与IBM/IRM对应值作积,最后做逆傅里叶变换得到分离的音源信号。本方法可以更准确地表达语音信号的高维特征,提高了语音分离模型的性能和泛用性。

Description

一种基于深度嵌入特征聚类的多说话人语音分离方法
技术领域
本发明属于数字音频信号处理技术领域,涉及一种利用深度嵌入特征和量化比例膜构建目标函数的多说话人语音分离算法,可有效区分不同说话人语音的高维特征表达,提高了在真实场景下进行语音分离的效果。
背景技术
多说话人语音分离是指从包含多个说话人语音的语音混合信号中提取感兴趣的一个或多个语音音源信号的语音信号处理技术,最早源自1953年Cherry提出的“鸡尾酒会”
问题。语音分离技术主要应用于智能语音处理领域,如为智能设备提供高质量的语音。多说话人语音分离技术主要分为两类方法:基于传统数学模型的频域语音分离方法、基于深度学习的语音分离方法。基于传统数学模型的方法一般是指利用待分离混合信号中语音的特性建立模型,然后对混合信号进行分离,有独立成分分析、非负矩阵分解等代表方法。基于传统数学模型的方法由于自身特性,存在不适用于盲源分离,实际场景难以满足稀疏性假设等缺陷,模型泛用性和效果欠佳。基于深度学习的语音分离方法的主流框架是“编码器—分离器—解码器”框架,又可以分为频域分离和时域分离。基于频域的语音分离方法的基本思想是通过深度学习的方式学习频域混合信号与频域音源信号之间的映射关系,通过这种映射关系分离输入的频域混合信号。基于频域的分离方法无一例外的存在相位的分离问题,并且幅度和相位需要分别建立模型,增加了模型的复杂度。为了解决由于相位估计不准而导致的语音分离性能提升难的问题,时域多说话人语音分离方法应运而生。基于时域的语音分离方法的基本思想是通过深度学习的方式学习时域混合信号与时域音源信号之间的映射关系。尽管基于时域的分离方法解决了相位分离的问题,但它会丢失一些频谱的细节信息,在真实场景中的泛化能力有待提升。
发明内容
为解决上述技术问题,本发明提供一种基于深度嵌入特征聚类的多说话人语音分离算法,使用量化后的理想比例膜来表达混合信号中音源信号幅度谱的所占比例,并在网络结构中使用残差网络作为嵌入式网络,用门控循环单元代替BLSTM网络以提高计算效率。本发明通过对不同说话人语音的高维特征的表达,提高模型在真实场景下的泛化能力。
本发明提供一种基于深度嵌入特征聚类的多说话人语音分离算法,包括训练阶段和测试阶段,其中训练阶段的实现过程为:
步骤A,独立音源片段特征提取:首先获得纯净音源信号的幅度谱,然后利用幅度谱计算理想比例膜IRM,并对理想比例膜进行量化得到量化比例膜QRM;
步骤B,混合信号的深度嵌入特征:将混合语音信号的对数幅度谱进行归一化后输入到嵌入特征提取网络中,输出每个时频点对应的深度嵌入特征;
将步骤B中混合信号对应的深度嵌入特征和步骤A中得到的量化比例膜QRM输入到构建的代价函数中,基于该代价函数优化嵌入特征提取网络模型;
在测试阶段,以J个语音的混合信号作为输入,经时域-频域变换及取模后得到混合信号的幅度谱;将混合信号的幅度谱输入嵌入特征提取网络,得到其深度嵌入特征;进而对深入嵌入特征使用聚类算法得到混合信号的理想二值膜IBM或理想比例膜IRM;将混合信号的幅度谱与IBM或IRM对应值作积,最后做逆傅里叶变换得到分离的音源信号。
进一步的,步骤A中获得纯净音源信号的幅度谱的具体实现方式如下;
对输入的J个纯净的独立语音信号S1,S2,…,SJ通过短时傅里叶变换进行时域-频域变换,并对变换后的频谱取模,得到对象信号的幅度谱O1,O2,…,OJ
在短时傅里叶变换中,窗函数w(n)如下式:
Figure BDA0004125736120000021
其中n=1,2,…,N,N+1,N为窗函数的总长度。
进一步的,步骤A中理想比例膜的计算方式为;
Figure BDA0004125736120000022
其中Oj(t,f)2表示时频点(t,f)内第j个音源信号的能量,t、f分别为时频点对应的时间、频率,β为可调参数,用于缩放膜函数。
进一步的,步骤A中量化比例膜QRM的计算公式如下;
Figure BDA0004125736120000023
其中round()表示将小数点后的数字四舍五入取整,n表示量化阶数。
进一步的,步骤B中,首先对J个语音的混合信号x做短时傅里叶变换,并对变换结果取模,得到混合信号的幅度谱Xi,然后幅度谱Xi取对数,得到混合信号的对数幅度谱log(|Xi|)。
进一步的,步骤B中,采用零均值和标准差对对数幅度谱进行归一化,作为嵌入特征提取网络的输入特征。
进一步的,所述嵌入特征提取网络包括残差跳跃模块+门控循环单元GRU+全连接层,其中残差跳跃模块使用五个残差跳跃单元,残差跳跃单元的结构如下,
每个残差跳跃单元包含两个分支,一个产生残差输出的分支和一个产生跳跃连接输出的分支,每个分支包含三个卷积层,残差分支、跳跃分支分别使用tanh函数、Sigmoid函数作为激活函数,其中每个残差输出作为下一个残差跳跃单元的输入,五个残差跳跃单元的跳跃输出被连接在一起得到Yi
跳跃Yi输入到GRU+全连接层,输出混合信号的嵌入特征V。
进一步的,代价函数LQDPcL的计算方式如下,
Figure BDA0004125736120000031
其中,V表示深度嵌入特征,W={wi,j的计算方式如下,
Figure BDA0004125736120000032
wi,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值,J表示混合信号中音源信号的个数,该计算对QRM的值进行了归一化,使得||wi||=1,其中,wi=(wi,1,…,wi,j,…,wi,J),从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。
进一步的,步骤A中从语音识别和语音分离领域通用的语料库TIMIT中获得纯净的独立语音信号,并将所有信号下采样到8kHz。
进一步的,短时傅里叶变换,帧长为32ms、帧偏移为16ms,经过短时傅里叶变换后得到129维的频谱。
与现有的多说话人语音分离算法相比,本发明的优势在于:当混合信号中的音源属于同一类且同时存在多个音源时,一般基于深度聚类的语音分离方法中混合信号在任意一个时频点最多只有一个音源起主导作用这一稀疏性假设不再成立。而本方法使用量化后的理想比例膜更准确地表达了混合信号中音源信号幅度谱的所占比例,并基于QRM重新定义了目标函数。同时本方法使用残差网络作为嵌入式网络,并使用门控循环单元代替BLSTM网络来进一步提高计算效率,解决了梯度消失问题。因此,本发明可以在混合信号中多说话人语音特征具有相似性的情况下,准确地表达和区分不同说话人语音特征的高维特征,以满足用户对多说话人语音分离的需求。
附图说明
图1是本发明实施例的结构框图。
图2是本发明实施例的嵌入特征提取网络结构图。
图3是本发明实施例的残差跳跃单元结构图。
具体实施例
为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:
本发明在现有多说话人语音分离方法的基础上开展研究,提出了一种基于深度嵌入特征聚类的多说话人语音分离算法。首先将混合语音信号的幅度谱输入到嵌入特征提取网络中,输出每个时频点对应的深度嵌入特征;同时,将纯净音源信号的幅度谱输入到QRM计算模块以计算QRM;之后,将混合信号对应的深度嵌入特征和QRM输入到基于量化比例膜的目标函数构建模块以计算目标函数,并基于该目标函数优化网络模型。
参照图1,本发明提出了一种基于深度嵌入特征聚类的多说话人语音分离算法,包括以下步骤:
输入为J个纯净的独立语音信号S1,S2,…,SJ,这里采用语音识别和语音分离领域通用的语料库TIMIT,所有信号在处理之前都被下采样到8kHz。
应注意的是,此处规定的音频参数和对象种类仅为举例说明本发明的实施过程,并不用于限定本发明。
步骤A1:对输入的J个纯净的独立语音信号S1,S2,…,SJ通过短时傅里叶变换进行时域-频域变换,并对变换后的频谱取模,得到对象信号的幅度谱O1,O2,…,OJ
在短时傅里叶变换中,指定帧长为32ms、帧偏移为16ms,窗函数w(n)如下式,
Figure BDA0004125736120000041
其中n=1,2,…,N,N+1,N为窗函数的总长度,变换后得到129维的频谱。
应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A2:对步骤A1得到的频谱O1,O2,…,OJ的每个时频点计算理想比例膜IRM,获得J个纯净信号的理想比例膜IRM1,IRM2,IRM3,…,IRMJ
本实施例中,将可调参数β设置为1以满足
Figure BDA0004125736120000042
计算方式如下,
Figure BDA0004125736120000051
其中Oj(t,f)2表示时频点(t,f)内第j个音源信号的能量,t、f分别为时频点对应的时间、频率,β为可调参数,用于缩放膜函数。
应该注意的是,此处规定的可调参数β只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A3:对步骤A2得到的理想比例膜IRM1,IRM2,IRM3,…,IRMJ进行量化,得到量化比例膜QRM1,QRM2,QRM3,…,QRMJ
本实施例中,量化阶数n定为35,对每个独立信号计算每个时频点的QRM,QRM的计算公式如下,
Figure BDA0004125736120000052
其中round()表示将小数点后的数字四舍五入取整;
应注意的是,指定量化阶数n仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
参照图1,本发明提出一种基于深度嵌入特征聚类的多说话人语音分离算法,具体包括以下步骤:
步骤B1:对J个语音的混合信号x做短时傅里叶变换,并对变换结果取模,得到混合信号的幅度谱Xi
在短时傅里叶变换中,指定帧长为32ms、帧偏移为16ms,窗函数如下式,
Figure BDA0004125736120000053
变换后得到129维的频谱。
应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤B2:对步骤B1得到的混合信号幅度谱Xi取对数,得到混合信号的对数幅度谱log(|Xi|);
采用零均值和标准差对对数幅度谱进行归一化,作为网络的输入特征。
步骤B3:将步骤B2得到的对数幅度谱log(|Xi|)输入到残差跳跃模块,输出跳跃Yi
请见图2,本发明实施例中,嵌入特征提取网络的残差跳跃模块使用五个残差跳跃单元,残差输出作为下一残差跳跃单元的输入,所有残差跳跃单元的跳跃输出采用加法进行连接,得到Yi
请见图3,本发明实施例中,嵌入特征提取网络使用了残差跳跃单元,其结构如下,
本实施例中,每个残差跳跃单元包含两个分支,一个产生残差输出的分支和一个产生跳跃连接输出的分支,每个分支包含三个卷积层,残差分支、跳跃分支分别使用tanh函数、Sigmoid函数作为激活函数。其中每个残差输出作为下一个残差跳跃单元的输入,利用残差网络的优势解决深度模型的梯度消失问题。五个残差跳跃单元的跳跃输出被连接在一起,以将在几个不同层次提取的特征合并到其最终预测端。
步骤B4:将步骤B3得到的跳跃Yi输入到门控循环单元GRU+全连接层,输出混合信号的嵌入特征V;
采用指数学习率衰减策略进行训练,初始学习率为1×10-3,衰减率设置为0.8,每10次迭代衰减1次。采用RELU激活函数形成深度嵌入特征V。
应注意的是,此处规定的初始学习率,衰减率和迭代次数等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤B5:对步骤A3得到的量化比例膜QRMi,j进行归一化,得到矩阵W={wi,j};
W={wi,j的计算方式如下,
Figure BDA0004125736120000061
wi,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值,J表示混合信号中音源信号的个数。该计算对QRM的值进行了归一化,使得||wi||=1,其中,wi=(wi,1,…,wi,j,…,wi,J),从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。
步骤B6:根据步骤B5所得矩阵w={wi,j}和步骤B4所得深度嵌入特征V,计算得到代价函数LQDPCL
LQDPCL的计算方式如下,
Figure BDA0004125736120000062
在训练过程中使用代价函数LQDPCL在验证集上的结果来判断是否停止训练,判断准则是代价函数在验证集上的计算值连续10次迭代都未减少。
请见图1,在测试阶段,以J个语音的混合信号作为输入,经时域-频域变换及取模后得到混合信号的幅度谱;将混合信号的幅度谱输入嵌入特征提取网络,得到其嵌入特征;进而对嵌入特征使用K-means/GMM聚类算法得到混合信号的理想二值膜或理想比例膜(IBM/IRM);将混合信号的幅度谱与IBM/IRM对应值作积,最后做逆傅里叶变换得到分离的音源信号。
应注意的是,此处规定的判断准则只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
与现有多说话人语音分离算法相比,本发明具有的优势及特点是:
本发明使用量化后的理想比例膜表达混合信号中音源信号幅度谱的所占比例,优化了对不同说话人语音的高维特征的表达和区分,有效控制了模型所需的数据量和网络结构的深度,并使用残差网络作为嵌入式网络,解决了梯度消失问题,在语音分离时具有更高的SNR,分离性能有所提升。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:包括训练阶段和测试阶段,其中训练阶段的实现过程为:
步骤A,独立音源片段特征提取:首先获得纯净音源信号的幅度谱,然后利用幅度谱计算理想比例膜IRM,并对理想比例膜进行量化得到量化比例膜QRM;
步骤B,混合信号的深度嵌入特征:将混合语音信号的对数幅度谱进行归一化后输入到嵌入特征提取网络中,输出每个时频点对应的深度嵌入特征;
将步骤B中混合信号对应的深度嵌入特征和步骤A中得到的量化比例膜QRM输入到构建的代价函数中,基于该代价函数优化嵌入特征提取网络模型;
在测试阶段,以J个语音的混合信号作为输入,经时域-频域变换及取模后得到混合信号的幅度谱;将混合信号的幅度谱输入嵌入特征提取网络,得到其深度嵌入特征;进而对深入嵌入特征使用聚类算法得到混合信号的理想二值膜IBM或理想比例膜IRM;将混合信号的幅度谱与IBM或IRM对应值作积,最后做逆傅里叶变换得到分离的音源信号。
2.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤A中获得纯净音源信号的幅度谱的具体实现方式如下;
对输入的J个纯净的独立语音信号S1,S2,...,SJ通过短时傅里叶变换进行时域-频域变换,并对变换后的频谱取模,得到对象信号的幅度谱O1,O2,...,OJ
在短时傅里叶变换中,窗函数w(n)如下式:
Figure FDA0004125736100000011
其中n=1,2,...,N,N+1,N为窗函数的总长度。
3.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤A中理想比例膜的计算方式为;
Figure FDA0004125736100000012
其中Oj(t,f)2表示时频点(t,f)内第j个音源信号的能量,t、f分别为时频点对应的时间、频率,β为可调参数,用于缩放膜函数。
4.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤A中量化比例膜QRM的计算公式如下;
Figure FDA0004125736100000021
其中round()表示将小数点后的数字四舍五入取整,n表示量化阶数。
5.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤B中,首先对J个语音的混合信号x做短时傅里叶变换,并对变换结果取模,得到混合信号的幅度谱Xi,然后幅度谱Xi取对数,得到混合信号的对数幅度谱log(|Xi|)。
6.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤B中,采用零均值和标准差对对数幅度谱进行归一化,作为嵌入特征提取网络的输入特征。
7.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:所述嵌入特征提取网络包括残差跳跃模块+门控循环单元GRU+全连接层,其中残差跳跃模块使用五个残差跳跃单元,残差跳跃单元的结构如下,
每个残差跳跃单元包含两个分支,一个产生残差输出的分支和一个产生跳跃连接输出的分支,每个分支包含三个卷积层,残差分支、跳跃分支分别使用tanh函数、Sigmoid函数作为激活函数,其中每个残差输出作为下一个残差跳跃单元的输入,五个残差跳跃单元的跳跃输出被连接在一起得到Yi
跳跃Yi输入到GRU+全连接层,输出混合信号的嵌入特征V。
8.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:代价函数LQDPCL的计算方式如下,
Figure FDA0004125736100000022
其中,V表示深度嵌入特征,W={wi,j}的计算方式如下,
Figure FDA0004125736100000023
wi,j表示混合信号的第i个时频点中第j个音源能量所占权重的量化值,J表示混合信号中音源信号的个数,该计算对QRM的值进行了归一化,使得||wi||=1,其中,wi=(wi,1,...,wi,j,...,wi,J),从而保证混合信号中属于同一音源信号的时频点所对应的深度嵌入特征之间的相似度为1。
9.如权利要求1所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:步骤A中从语音识别和语音分离领域通用的语料库TIMIT中获得纯净的独立语音信号,并将所有信号下采样到8kHz。
10.如权利要求2所述的一种基于深度嵌入特征聚类的多说话人语音分离方法,其特征在于:短时傅里叶变换,帧长为32ms、帧偏移为16ms,经过短时傅里叶变换后得到129维的频谱。
CN202310245106.7A 2023-03-10 2023-03-10 一种基于深度嵌入特征聚类的多说话人语音分离方法 Pending CN116403598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310245106.7A CN116403598A (zh) 2023-03-10 2023-03-10 一种基于深度嵌入特征聚类的多说话人语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310245106.7A CN116403598A (zh) 2023-03-10 2023-03-10 一种基于深度嵌入特征聚类的多说话人语音分离方法

Publications (1)

Publication Number Publication Date
CN116403598A true CN116403598A (zh) 2023-07-07

Family

ID=87011491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310245106.7A Pending CN116403598A (zh) 2023-03-10 2023-03-10 一种基于深度嵌入特征聚类的多说话人语音分离方法

Country Status (1)

Country Link
CN (1) CN116403598A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016135132A1 (en) * 2015-02-26 2016-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
CN109616124A (zh) * 2019-01-25 2019-04-12 厦门快商通信息咨询有限公司 基于ivector的轻量化声纹识别方法和系统
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110398730A (zh) * 2019-06-26 2019-11-01 中国人民解放军战略支援部队信息工程大学 基于坐标旋转和非均匀傅里叶变换机动目标相参检测方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016135132A1 (en) * 2015-02-26 2016-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN109616124A (zh) * 2019-01-25 2019-04-12 厦门快商通信息咨询有限公司 基于ivector的轻量化声纹识别方法和系统
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110398730A (zh) * 2019-06-26 2019-11-01 中国人民解放军战略支援部队信息工程大学 基于坐标旋转和非均匀傅里叶变换机动目标相参检测方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHANFA KE: ""Single Channel multi-speaker speech Separation based on quantized ratio mask and residual network"", 《MULTIMEDIA TOOLS AND APPLICATIONS》, 26 August 2020 (2020-08-26), pages 1 - 17 *
郝敏;刘航;李扬;简单;王俊影;: "基于聚类分析与说话人识别的语音跟踪", 计算机与现代化, no. 04, 15 April 2020 (2020-04-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法
CN117711423B (zh) * 2024-02-05 2024-05-10 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法及系统

Similar Documents

Publication Publication Date Title
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN111583954B (zh) 一种说话人无关单通道语音分离方法
CN113129897B (zh) 一种基于注意力机制循环神经网络的声纹识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN109192200B (zh) 一种语音识别方法
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
WO2014114049A1 (zh) 一种语音识别的方法、装置
CN103236260A (zh) 语音识别系统
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN102820033A (zh) 一种声纹识别方法
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN113539293A (zh) 基于卷积神经网络和联合优化的单通道语音分离方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Sofer et al. CNN self-attention voice activity detector
Goh et al. Robust computer voice recognition using improved MFCC algorithm
CN116403598A (zh) 一种基于深度嵌入特征聚类的多说话人语音分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination