CN111081273A

CN111081273A - 一种基于声门波信号特征提取的语音情感识别方法

Info

Publication number: CN111081273A
Application number: CN201911407521.8A
Authority: CN
Inventors: 易宏博; 周磊
Original assignee: Hunan Jingcheng Electronic Technology Co ltd
Current assignee: Hunan Jingcheng Electronic Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-04-28

Abstract

本发明公开了一种基于声门波信号特征提取的语音情感识别方法。其主要是通过采用语谱图和TEO作为CRNN的输入，结合低级描述符和高级统计函数，分别对情感语音特征进行提取、降维和识别算法，最后通过HSF通道进行输出。这其中声门波信号特征的提取主要通过复倒谱相位分解形式实现信号获取，采用PCA方法对特征矢量降维，采用BP神经网络算法识别后输出。本发明所述方法能更好地反映声带振动特性,声门开相、闭相信息明确,有效减小声源谐波成分和声道干扰，且识别正确率高。

Description

一种基于声门波信号特征提取的语音情感识别方法

技术领域

本发明属于语音识别和智能处理及人机交互领域，具体涉及一种基于声门波信号特征提取的语音情感识别方法。

背景技术

语音作为一种重要的信息资源传递与交流媒介而被广泛适用，在语音的声学信号中包含大量的用户信息、语义信息和丰富的情感信息，语音学任务的发展方向主要有声纹识别、语音识别及情感识别，语音情感识别旨在通过语音信号识别说话者的正确情绪状态，由于语音并非情感生理信号的完整表达形式，在忽略其余感官结果的前提下，如何高效而精确地识别用户表达的情感，是近年来语音学研究的热点问题。而声门波信号特征提取是优化语音情感识别的关键，传统的提取声门波的方法以逆滤波IF(InverseFiltering)为基础，如根据输入信号，在口唇外的自由场通过特殊设计的呼吸气流流速计记录口腔处的气体体积速度，通过IF的手段获取声门波，虽然不易受低频噪声影响，但流速计设计对传感器的精确度要求较高，难以满足普通工厂生产化的要求，而且特征提取方法是残差信号谐波和(SRH算法)，其精度也有待进一步突破，此外传统的运用语音信号处理技术中因为提取情感相关特征参数较广，导致维数过多，冗余性高，并且容易造成维数灾难影响语音情感的识别效果。

发明内容

本发明的目的在于提供一种基于声门波信号特征提取的语音情感识别方法，以回应背景技术中所提到的问题。

本发明的目的可以通过以下技术方案实现：一种基于声门波信号特征提取的语音情感识别方法，包括以下步骤：

第一步：语音输入及前端处理，语音信号输入后，采用离散维度表示情感描述模型和CASIA汉语情感语料库，通过TEO及语谱图路径的前端初处理，分别进行预加重、分侦加窗和清浊音判别情感语音信号后进行CRNN传输。

第二步：情感语言特征提取，通过获得一帧嗓音信号声门闭合点的位置，将声门闭合点位置与基音周期相对应，得到每个基音周期内声门闭合点具体位置。获取每个基音周期内的嗓音信号，采用复倒谱的方法将此周期内的嗓音信号分解为最大相位和最小相位信号并微分，与声门闭合点位置结合，最大相的组成部分与声门开相吻合，最小相组成部分与声门闭相吻合，实现微分声门波估计后从而实现情感语言特征提取。

第三步：情感语言特征降维处理，采用PCA方法对特征矢量降维。

第四步：情感语言特征识别算法及输出，采用BP神经网络算法对情感语言特征进行识别，利用前向传播计算出各层网络的激活值，然后利用反向传导算法不断调节各层的权值，从而减少误差、最后实现HSF通道输出。

进一步地，语谱图可使用光谱优化，将语谱图经过短时傅立叶变换之后，获得分段语谱图的原始光谱矩阵后对语音进行路径处理。

进一步地，提取的发音速率、短时能量、基音频率、共振峰和MFCC系数，可先在MATLAB平台上分别化真。

进一步地，可以采用基音同步送代自适应逆滤波方法进行共振峰波纹的滤除。

进一步地，可以采用SOFTMAX回归模型对栈式自编码学习到的特征进行分类。构建多层自编码网络进行算法的自学和完善。进一步融合声门波特征PSP和HRF的均值和方差，实现多维特征分类。

进一步地，本发明选用的是CASIA汉语情感语料库中的数据进行训练和识别，还可在其他的语音情感数据库如(柏林EMO-DB情感数据库/Belfast情感数据库/美国MEEI情感数据库等)进行仿真研究。

本发明的有益效果为：针对声门波信号提取，提出了一种系统的语音情感识别方法，该方法不仅对语音信号预处理过程中的清浊音判别算法进行了优化，而且融合声门波特征后识别效果更佳，提取出的声门波中声带的开相、闭相信息更加明确，谐振波纹较少，更能反应声带的振动特性。

附图说明

图1是本发明所述方法的流程图。

图2是运用本发明所述方法的声门波提取信号图。

具体实施方式

下面将结合实施例对本发明的技术方案进行进一步描述。

如图1所示，本发明实施例的一种基于声门波信号特征提取的语音情感识别方法，包括以下具体步骤：

第一步：语音输入及前端处理，语音信号输入后，采用离散维度表示情感描述模型和CASIA汉语情感语料库，通过TEO及语谱图路径的前端初处理后，通过一个传递函数为式为2.1的滤波器来实现声门激励的预加重，将语音信号截取为长度相同的数据帧，一般帧长取10～50ms，帧叠取5～25ms。然后基于W-SRH算法的清浊音算法来判别情感语音信号，算法通过输入数据后进行预处理，然后小波分析低频重构后计算短时能量，设置一个阈值a,当短时能量小于阈值时，此帧信号为清音，反之为浊音；然后通过分顿加窗计算谐波能量从而实现清浊音的二次区别，确保精准度，后进行CRNN传输。

第二步：情感语言特征提取，通过在数据库中分别提取30～50句语音信号，获得一帧嗓音信号声门闭合点的位置，将声门闭合点位置与基音周期相对应，得到每个基音周期内声门闭合点具体位置。获取每个基音周期内的嗓音信号，采用复倒谱的方法将此周期内的嗓音信号分解为最大相位和最小相位信号并微分，与声门闭合点位置结合，最大相的组成部分与声门开相吻合，最小相组成部分与声门闭相吻合，实现微分声门波估计后从而实现情感语言特征提取。

第三步：情感语言特征降维处理，采用PCA方法对特征矢量降维。从特征矢量中计算出一组不相关的特征向量，设X1.X2，…，Xp为P个原始特征，新特征为＝Yi,i＝1,2，…，P,y是新特征向量，设定X是变换矩阵。寻找最优的正交变换A使得新持征的方差达到极值，是每个原始持征的方差之和，信号中的大部分信息被包含在较少的主成分里，如果采用多个主成分，则观测主成分的方差之和，采用此方法在CASIA汉语情感语料库中选取30～50句语音的发音速率、短时能量、基音频率、共振峰等多维特征结合中，选取85～90％的方差贡献率，最终选取了18维特征作为新特征。

第四步：情感语言特征识别算法及输出，采用BP神经网络算法,对情感语言特征进行识别，首先构建一个基于梯度下降思想的有监督学习算法进行学习，分为正向传播和反向传导两个过程。利用梯度下降思想沿着误差性能函数梯度的反方向调整权值，然后又进入正向传播阶段，如此反复直到达到预定的迭代次数，或者允许误差低于一个阔值，设计一个H层的网络，使输入神经元个数为M，隐含层个数为I，输出层个数为K个。输入层第m个神经元记为Xm，隐含层第i个神经元记为ki，输出层第1个神经元记为y；从Xm到Yf的连接权值记为Wmf，用u和v分别表示每一层的输入和输出，BP神经网络的隐含层采用Than，输出层采用线性传输函数。然后利用前向传播计算出各层网络的激活值，然后利用反向传导算法不断调节各层的权值，从而减少误差，在自编码过程中深度学习，最后实现HSF通道输出。

而通过对单纯使用逆滤波方法的语音识别效果上来看，本发明所述方法提取出的声门波中声带的开相、闭相信息更加明确，谐振波纹较少，更能反应声带的振动特性。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于声门波信号特征提取的语音情感识别方法，其特征在于，包括语音信号输入、TEO及语谱图路径、CRNN传输、情感语言特征提取、情感语言特征降维、情感语言特征识别算法、HSF通道输出模块。

2.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，具体包括以下步骤：语音信号输入，采用离散维度表示情感描述模型和CASIA汉语情感语料库，通过TEO及语谱图路径的前端初处理，分别进行预加重、分侦加窗和清浊音判别情感语音信号后进行CRNN传输，利用复倒谱将每个基音周期内嗓音信号分解为最大相位信号与最小相位信号，经过微分运算后与声门闭合点位置结合，实现微分声门波估计后从而实现情感语言特征提取，采用PCA方法对特征矢量降维，采用BP神经网络算法对情感语言特征进行识别，利用前向传播计算出各层网络的激活值，然后利用反向传导算法不断调节各层的权值，从而减少误差、最后实现HSF通道输出。

3.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，声门波信号特征的提取主要通过复倒谱相位分解形式实现信号获取，而复倒谱相位分解的声门波估计途径主要是通过LF微分声门波模型通过采用理想化的正弦函数和指数函数对微分声门波建模完成。

4.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，声门波提取时要首先获得嗓音信号的基音周期和每个基音周期内声门闭合点位置。

5.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，要提取每个基音周期内嗓音信号的最大相位和最小相位信息，最大相位信号为声门开相组成部分，最小相位信号为声门闭相组成部分。

6.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，判别清浊音的算法为小波变换结合SRH的W-SRH清浊音判别算法。

7.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，采用PCA方法对特征矢量降维，降维对象包括发音速率、短时能量、基音频率和共振峰。

8.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法，其特征在于，BP神经网络采用多层的网络设计，采用非线性传输函数，采用反向传导算法沿着误差减小的方向，从输出层逐层调整网络的连接权值。且采用批量训练方式。