CN106128479B

CN106128479B - 一种演唱情感识别方法及装置

Info

Publication number: CN106128479B
Application number: CN201610517375.4A
Authority: CN
Inventors: 蔡智力; 李洪福
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2016-06-30
Filing date: 2016-07-02
Publication date: 2019-09-06
Anticipated expiration: 2036-07-02
Also published as: CN106128479A

Abstract

本申请公开了一种演唱情感识别方法及装置，其中所述提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；提取待识别演唱音频的情感特征；将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。本实施例相较于现有的语音情感识别和音乐情感识别，本实施例根据包括声音信号特征和曲谱特征的情感特征获得的情感识别模型能够根据曲谱特征和声音信号特征识别出对应演唱者的演唱情感，针对同一首歌曲，能够依据不同演唱者识别出对应演唱的情感，更为准确地识别出演唱者的情感。

Description

一种演唱情感识别方法及装置

技术领域

本申请属于情感识别领域，具体地说，涉及一种演唱情感识别及装置。

背景技术

现阶段音频的情感识别主要分为语音情感识别和音乐情感识别两方面，但是从演唱中识别情感却无人涉及，也是音频情感识别的一个难点。它不同于语音情感识别和音乐情感识别，因为：一、语音情感识别中依靠音调和语速就能判断出情感，但是演唱都是按照歌曲标定的音调和语速进行，所以依据音调和语速来识别演唱中的情感的方法不可行。申请号为200510046169.1，申请日为2005-03-31的专利公开文献“语音识别分析系统及服务方法”，则是在人与人通话过程中提取人类的声音频率,以声音情感度和声音亲合度为技术依据，得出基于感性科学领域的语音识别与分析。声音情感度是根据人发声的音调和音律，了解其性格，掌握发声人当时的心理状态；声音亲和度是根据分析由人类肺部直接带动的低频率发声,进而表露出发声人的真实情绪。但对于演唱场景，演唱时都是按照歌曲标定的音调和语速进行，此专利公开文献中依据音调和音律来识别演唱者的情感并不可行。二、音乐情感识别主要根据音频特征和曲谱特征判断情感，因此判断出来的情感都是固定的，但是在演唱时每个演唱者都可以自行演绎，对于同样一首歌曲，每个演唱者的演绎的情感并不相同，所以音乐情感识别不能依据演唱者的演唱情况准确识别出对应演唱的情感。

综上，演唱情感识别是一个完全不同于语音情感识别和音乐情感识别的新领域，现有技术中没有能够提供一种解决方案，以实现从演唱中识别演唱者的情感。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种演唱情感识别及装置，可以实现从演唱中识别演唱者的情感。

为了解决上述技术问题，本申请公开了一种演唱情感识别方法，包括：

提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；

提取待识别演唱音频的情感特征；

将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。

为解决上述技术问题，本申请还公开了一种演唱情感识别装置，包括：

训练模块，用于提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；

提取模块，用于提取待识别演唱音频的情感特征；

识别模块，用于将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。

为解决上述技术问题，本申请还公开了一种演唱情感识别方法，包括：

获取用户演唱音频；

当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令。

获取模块，用于获取用户演唱音频；

识别模块，用于当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令。

与现有技术相比，本申请可以获得包括以下技术效果：

本申请实施例提取的情感特征与语音情感识别和音乐情感识别在特征提取方面存在差别：语音情感识别只需要提取音频特征不涉及曲谱特征的提取，且其音频特征也只是音调、语速等；音乐情感识别虽然也提取音频特征和曲谱特征，但是不涉及语谱特征(包括在声音信号特征中)等的提取。因此相较于现有的语音情感识别和音乐情感识别，本实施例根据包括声音信号特征和曲谱特征的情感特征获得的情感识别模型能够根据曲谱特征和声音信号特征更为准确地识别出演唱者的情感。具体的，本实施例通过提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；提取待识别演唱音频的情感特征；将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。本申请实施例能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1A是本申请某些实施例提供的一种演唱情感识别方法的流程示意图；

图1B是本申请某些实施例提供的一种情感识别模型建立方法的流程示意图；

图2A是本申请某些实施例提供的再一种演唱情感识别方法的流程示意图；

图2B是基于图2A本申请某些实施例提供的演唱情感识别方法的流程示意图；

图3是本申请某些实施例提供的另一种演唱情感识别方法的流程示意图；

图4是本申请某些实施例提供的另一种情感识别模型建立方法流程示意图；

图5A是本申请某些实施例提供的压力因素和能量因素组成平面直角坐标系；

图5B是本申请某些实施例提供的一种情感识别模型建立方法的一部分流程示意图；

图6A是本申请某些实施例提供的演唱情感识别方法的流程示意图；

图6B是本申请某些实施例提供的演唱情感识别方法的部分流程示意图；

图6C是本申请某些实施例提供的演唱情感识别方法的另一部分流程示意图；

图7是本申请某些实施例提供的一种演唱识别方法的流程示意图；

图8是本申请某些实施例提供的一种演唱情感识别装置的结构示意图；

图9是本申请某些实施例提供的一种演唱识别装置的结构示意图；

图10是本申请某些实施例提供的电子终端的结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

实施例一

请参阅图1A，示出了本申请实施例提供一种演唱情感识别方法的流程示意图，本申请可以应用于终端设备，也可以应用于情感识别模型建立装置，该装置可以以软件、硬件或软硬件结合的方式典型地设置在终端设备中。以下以执行主体为终端设备为例进行说明，图1A所示的方法可以如下实现。

步骤100、提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征。可选的，区别于语音情感识别和音乐情感识别所提取的特征，本实施例提取的声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

可选的，如图1B所示，本实施例情感识别模型的训练方法如下。

步骤1011、确定所述待训练演唱音频的情感特征分别在第一坐标轴和第二坐标轴的训练坐标值，得到第一训练坐标值和第二训练坐标值；其中，所述第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应。

步骤1012、根据所述第一训练坐标值和待训练演唱音频的情感特征建立第一训练矩阵，根据所述第二训练坐标值和待训练演唱音频的情感特征建立第二训练矩阵；

步骤1013、将第一训练矩阵归一化成第一训练归一化矩阵；将第二训练矩阵归一化成第二训练归一化矩阵；

步骤1014、将所述第一训练归一化矩阵、第二训练归一化矩阵分别代入SVM算法，对应得到第一训练超平面、第二训练超平面；

步骤1015、将第一训练超平面和第一训练归一化矩阵代入SVM算法，得到基于第一坐标轴的第一情感识别模型；将第二训练超平面和第二训练归一化矩阵代入SVM算法，得到基于第二坐标轴的第二情感识别模型。所述第一情感识别模型用于确定待识别演唱音频的情感特征在第一坐标轴方向的第一坐标值，第二情感识别模型用于确定待识别演唱音频的情感特征在第二坐标轴方向的第二坐标值。

步骤102、提取待识别演唱音频的情感特征。与步骤101一样，步骤102提取的情感特征包括声音信号特征和曲谱特征。可选的，区别于语音情感识别和音乐情感识别所提取的特征，本实施例提取的声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

步骤103、将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。具体的，步骤103包括：

将待识别演唱音频的情感特征分别输入第一情感识别模型和第二情感识别模型，确定所述情感特征基于第一坐标轴的第一坐标值和基于第二坐标轴的第二坐标值；

根据所述第一坐标值和第二坐标值确定所述情感特征对应的象限，以确定所述情感特征对应的演唱情感类型。

本实施例提取的情感特征与语音情感识别和音乐情感识别在特征提取方面存在差别：语音情感识别只需要提取音频特征不涉及曲谱特征的提取，且其音频特征也只是音调、语速等；音乐情感识别虽然也提取音频特征和曲谱特征，但是不涉及语谱特征(包括在声音信号特征中)等的提取。因此相较于现有的语音情感识别和音乐情感识别，本实施例根据包括声音信号特征和曲谱特征的情感特征获得的情感识别模型能够根据曲谱特征和声音信号特征，识别出对应演唱者的演唱情感，针对同一首歌曲，能够依据不同演唱者识别出对应演唱的情感，更为准确地识别出演唱者的情感。具体的，本实施例通过提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；提取待识别演唱音频的情感特征；将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。本申请实施例能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

实施例二

结合图1A至图2B，本申请实施例提供一种演唱情感识别方法，为基于实施一的一种可实现方式，具体通过以下方式实现。在这里，第一坐标轴可以为X轴，第二坐标轴可以为Y轴。

可选的，所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静。所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

如图2A所示，在一种可行的实施方式中，步骤103通过以下方法得到第一坐标值。

在步骤1030，根据所述待识别演唱音频的声音信号特征、曲谱特征和基于第一坐标轴的第一训练矩阵，得到基于第一坐标轴的第一特征矩阵。具体的，将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于第一坐标轴的第一训练矩阵的最后一行，得到第一特征矩阵其中，所述第一训练矩阵基于预设待训练演唱音频的声音信号特征及曲谱特征和所述待训练演唱音频的情感特征在第一坐标轴的第一训练坐标值确定。本发明中，所述声音信号特征和曲谱特征中的参数g为待识别的歌曲，n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。

在步骤1032，对所述第一特征矩阵进行归一化处理，得到第一归一化矩阵，进而得到待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵。具体的，对所述矩阵中的数据按列进行归一化处理，得到第一归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵(a_gx,1…a_gx,n b_gx,1…b_gx,m)。

在步骤1034，将所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵、第一训练超平面和基于第一坐标轴的第一情感识别模型代入SVM算法，得到所述待识别演唱音频的情感特征在第一坐标轴方向的第一坐标值。具体的，将所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一训练超平面和X轴的第一情感识别模型T_X代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在X轴方向的第一坐标值X_g；其中，所述为训练声音信号特征的第p_i个特征，为训练曲谱特征的第q_i个特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。所述第一训练超平面基于第一训练矩阵进行归一化处理后第一训练归一化矩阵确定，所述第一训练矩阵基于所述第一训练坐标值和待训练演唱音频的情感特征确定；所述基于第一坐标轴的第一情感识别模型基于所述第一训练超平面和第一训练归一化矩阵确定。

如图2B所示，在一种可行的实施方式中，步骤103通过以下方法得到第二坐标值。

在步骤1030’，根据所述待识别演唱音频的声音信号特征、曲谱特征和基于第二坐标轴的第二训练矩阵，得到基于第二坐标轴的第二特征矩阵。具体的，将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于Y轴的第二训练矩阵的最后一行，得到第二特征矩阵其中，所述第二训练矩阵基于预设待训练演唱音频的声音信号特征及曲谱特征和所述待训练演唱音频的情感特征在第二坐标轴的第二训练坐标值确定。

在步骤1032’，对所述第二特征矩阵进行归一化处理，得到第二归一化矩阵，进而得到待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵。具体的，对所述矩阵中的数据按列进行归一化处理，得到第二归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵(a_gy,1…a_gy,n b_gy,1…b_gy,m)。

在步骤1034’，将所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵、第二训练超平面和基于第二坐标轴的第二情感识别模型代入SVM算法，得到所述待识别演唱音频的情感特征在第二坐标轴方向的第二坐标值。具体的，将所述(a_gx，1…a_gx，n b_gx，1…b_gx，m)、第二训练超平面和Y轴的第二情感识别模型T_Y代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y轴方向的第二坐标值Y_g，其中，所述为训练声音信号特征的第r_i个特，为训练曲谱特征的第s_i个特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。所述第二训练超平面基于第二训练矩阵进行归一化处理后第二训练归一化矩阵确定，所述第二训练矩阵基于所述第二训练坐标值和待训练演唱音频的情感特征确定；所述基于第二坐标轴的第二情感识别模型基于所述第二训练超平面和第二训练归一化矩阵确定。

应当理解的是，步骤1030和步骤1030’的执行顺序无先后，可同步执行。同理，骤1032和步骤1032’的执行顺序无先后，可同步执行。骤1034和步骤1034’的执行顺序无先后，可同步执行。

在本申请实施例中，第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应。本申请实施例通过待识别演唱音频的声音信号特征及曲谱特征确定所述待识别演唱音频的情感特征分别在第一坐标轴和第二坐标轴的坐标值，并根据第一坐标值和第二坐标值确定所述待识别演唱音频的情感特征对应的演唱情感类型，能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

另外，本实施例提取的情感特征与语音情感识别和音乐情感识别在特征提取方面存在差别：语音情感识别只需要提取音频特征不涉及曲谱特征的提取，且其音频特征也只是音调、语速等；音乐情感识别虽然也提取音频特征和曲谱特征，但是不涉及语谱特征(包括在声音信号特征中)等的提取。因此相较于现有的语音情感识别和音乐情感识别，本实施例根据包括声音信号特征和曲谱特征的情感特征获得的情感识别模型能够根据曲谱特征和声音信号特征，识别出对应演唱者的演唱情感，针对同一首歌曲，能够依据不同演唱者识别出对应演唱的情感，更为准确地识别出演唱者的情感。

实施例三

请参阅图3，本申请实施例提供了一种演唱情感识别方法，本实施例与实施例一、二大致相同，本实施例具体讲述：建立基于第一坐标轴的第一情感识别模型和基于第二坐标轴的第二情感识别模型，具体可以通过以下方式实现。

在步骤301，提取待训练演唱音频的声音信号特征及曲谱特征。具体的，提取待训练演唱音频的声音信号特征A_i,j及曲谱特征B_i,k。其中，A_i,j表示第i首待训练演唱音频的第j个声音信号特征的特征值，1≤j≤n，n为声音信号特征总数目，B_i,k表示第i首待训练演唱音频的第k个曲谱特征的特征值，1≤k≤m，m为曲谱特征总数目。

在步骤302，确定所述待训练演唱音频的声音信号特征及曲谱特征所对应的第一训练坐标值和第二训练坐标值。在这里，第一坐标轴可以为X轴，第二坐标轴可以为Y轴。第一训练坐标值X_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第一坐标轴的坐标值，第二训练坐标值Y_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第二坐标轴的坐标值，于是第i首待训练演唱音频特征为(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音乐方面的专业人员预先标注的坐标值。

在步骤303，根据所述第一训练坐标值、第二训练坐标值分别确定基于第一坐标轴的第一训练矩阵、基于第二坐标轴的第二训练矩阵。当所有L首歌曲的特征都提取完之后，将形成一个L*(n+m+2)的矩阵将该矩阵分成基于第一坐标轴的第一训练矩阵和基于第二坐标轴的第二训练矩阵

在步骤304，对所述第一训练矩阵、第二训练矩阵分别进行归一化处理，得到第一训练归一化矩阵和第二训练归一化矩阵。具体的，对X轴的第一训练矩阵中的数据按列进行归一化处理，使取值范围为[-1,1]，归一化后的第一训练归一化矩阵为式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

同理，对Y轴的第二训练矩阵进行同样的归一化处理后得到归一化的第二训练归一化矩阵阵为：式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

在步骤305，将所述第一训练归一化矩阵、第二训练归一化矩阵分别代入SVM算法，得到基于第一坐标轴的第一训练超平面、基于第二坐标轴的第二训练超平面。X轴的第一训练归一化矩阵代入SVM算法，该算法将求取X轴方向的一个超平面，该超平面能将x_i中大于0和小于0的部分尽可能区分开，求得的超平面将由声音信号特征和曲谱特征中的部分特征组成，设求得的X轴的超平面为其中为声音信号特征的第p_i个特征、为曲谱特征的第q_i个特征、p₁…p_i∈[1,n]；q₁…q_i∈[1,m]。同理，可求得Y轴的超平面为其中为声音信号特征的第r_i个特征、为曲谱特征的第s_i个特征、r₁…r_i∈[1,n]；s₁…s_i∈[1,m]。

在步骤306，将第一训练超平面和第一训练归一化矩阵代入SVM算法，得到基于第一坐标轴的情感识别模型；将第二训练超平面和第二训练归一化矩阵代入SVM算法，得到基于第二坐标轴的情感识别模型。依据求得的X轴超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和带入SVM算法中，即可求得X轴的情感识别模型，设为T_X。同理可求得Y轴的情感识别模型，设为T_Y。

实施例四

结合图1A至图3，本申请实施例提供一种演唱情感识别方法，大致包括两个过程：(一)演唱情感识别模型的建立；(二)演唱情感的识别。

(一)演唱情感识别模型的建立

该过程主要用于：建立基于第一坐标轴的第一情感识别模型和基于第二坐标轴的第二情感识别模型。在建立演唱情感识别模型的过程中，需要预先大量收集包含各种情感的演唱音频数据(作为待训练演唱音频)，演唱音频数据要求尽量是纯人声，同时收集对应演唱歌曲的曲谱。

然后找些音乐方面专业的人员来对收集到的这些演唱音频的情感进行分类：首先确定好情感分类的种类，然后每个演唱音频都要求音乐方面的专业人员各自听一遍，并各自做好情感标注，当大部分专业人员都认为当前这首演唱音频属于某一种情感时，则将当前这首音频分到该情感的目录底下，否则丢弃该音频，依此将所有演唱音频都分类好。需要说明的是：一段演唱音频中可能存在演唱情感变化的情况——比如前奏和高潮部分的演唱情感可能不同，此时应由音乐方面的专业人员将该演唱音频分成情感独立的若干段音频，使得每段内的音频的情感是一致的，同时对应的歌曲的曲谱也应按音频内容分段并做好标注使之与分段的音频一一对应。

经过上述过程后，能够将演唱音频按情感分类，并使得每类情感的音频数目相同；同时也要分类好歌曲的曲谱，使之与分类好的音频一一对应。

按情感类别分析并提取各个情感类别的演唱音频的声音信号特征，同时提取与演唱歌曲对应的曲谱特征。需要说明的是：区别于语音情感识别和音乐情感识别所提取的特征，本文所提取的特征包含以下几个内容，演唱音频的声音信号特征提取以下几个方面的内容：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；曲谱特征提取以下几个方面的内容：每分钟的节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。演唱音频的声音信号特征和曲谱特征都是针对同一首演唱歌曲的同一段进行提取的，如演唱音频演唱了哪几句歌曲，曲谱中也相应的提取这几句歌谱的特征。(备注：语音情感识别只需要提取音频特征不涉及曲谱特征的提取，且其音频特征也只是音调、语速等；音乐情感识别虽然也提取音频特征和曲谱特征，但是不涉及语谱特征等的提取。因此与语音情感识别和音乐情感识别在特征提取方面存在差别。)

在进行上述的预处理工作后，演唱情感识别模型的建立具体可以通过以下方式实现。在这里，第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应。第一坐标轴可以为X轴，第二坐标轴可以为Y轴。所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静。所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

具体的，本实施例将演唱情感分成4个类别，即悲伤沮丧、高兴欢快、紧张焦虑和自然平静，分别对应平面直角坐标系的四个象限，演唱歌曲的情感类型由音乐方面的专业人员确定后以坐标形式标注在所提取的情感类别特征数据中(平面直角坐标系中X和Y方向的取值范围为[-1,1]，值越偏离X和Y坐标轴，说明其某种情感越明显；值越靠近X、Y坐标轴，说明其某种情感特征越微弱)。本实施例的训练和识别算法为SVM算法，由音乐方面的专业人员标注好用户演唱情感所在的象限的坐标值，提取用户演唱情感特征并提取其演唱情感坐标值，完成所有特征和坐标的提取后，将分X轴数据和Y轴数据分别进行归一化处理，然后分别加入SVM进行训练。根据这些训练的数据，SVM会得出用户演唱情感在X轴和Y轴的情感特征的最佳超平面取值，从而获取基于X轴和Y轴的情感识别模型。

步骤100、提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征。结合图1A和图3，情感识别模型的建立程具体可参阅图3所示的实现方法。

在步骤302，确定所述待训练演唱音频的声音信号特征及曲谱特征所对应的第一训练坐标值和第二训练坐标值。第一训练坐标值X_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第一坐标轴的坐标值，第二训练坐标值Y_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第二坐标轴的坐标值，于是第i首待训练演唱音频特征为(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音乐方面的专业人员预先标注的坐标值。

在步骤303，根据所述第一训练坐标值、第二训练坐标值分别确定基于第一坐标轴的第一训练矩阵、基于第二坐标轴的第二训练矩阵。当所有L首歌曲的特征都提取完之后，将形成一个L*(n+m+2)的矩阵然后将该矩阵分成基于第一坐标轴的第一训练矩阵和基于第二坐标轴的第二训练矩阵

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

同理，对Y轴的第一训练矩阵进行同样的归一化处理后得到归一化的第二训练归一化矩阵阵为：式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

在步骤306，将第一训练超平面和第一训练归一化矩阵代入SVM算法，得到基于第一坐标轴的第一情感识别模型；将第二训练超平面和第二训练归一化矩阵代入SVM算法，得到基于第二坐标轴的第二情感识别模型。依据求得的X轴超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和带入SVM算法中，即可求得X轴的第一情感识别模型，设为T_X。同理可求得Y轴的第二情感识别模型，设为T_Y。T_X和T_Y即为建立的演唱情感识别模型。

所述第一情感识别模型用于确定待识别演唱音频的情感特征在第一坐标轴方向的第一坐标值，第二情感识别模型用于确定待识别演唱音频的情感特征在第二坐标轴方向的第二坐标值。

(二)演唱情感的识别

步骤102、提取待识别演唱音频的情感特征。步骤102提取的情感特征包括声音信号特征和曲谱特征。可选的，区别于语音情感识别和音乐情感识别所提取的特征，本实施例提取的声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

在步骤1030，根据所述待识别演唱音频的声音信号特征、曲谱特征和基于第一坐标轴的第一训练矩阵，得到基于第一坐标轴的第一特征矩阵。具体的，将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于X轴的第一训练矩阵的最后一行，得到第一特征矩阵其中，所述第一训练矩阵基于预设待训练演唱音频的声音信号特征及曲谱特征和所述待训练演唱音频的情感特征在第一坐标轴的第一训练坐标值确定

在步骤1034’，将所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵、第二训练超平面和基于第二坐标轴的第二情感识别模型代入SVM算法，得到所述待识别演唱音频的情感特征在第二坐标轴方向的第二坐标值。具体的，将所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二训练超平面和Y轴的第二情感识别模型T_Y代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y轴方向的第二坐标值Y_g，其中，所述为训练声音信号特征的第r_i个特，为训练曲谱特征的第s_i个特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。所述第二训练超平面基于第二训练矩阵进行归一化处理后第二训练归一化矩阵确定，所述第二训练矩阵基于所述第二训练坐标值和待训练演唱音频的情感特征确定；所述基于第二坐标轴的第二情感识别模型基于所述第二训练超平面和第二训练归一化矩阵确定。

实施例五

请参阅图4至图5B，示出了本申请实施例另外一可选的情感识别模型建立方法的流程示意图，本申请可以应用于终端设备，也可以应用于情感识别模型建立装置，该装置可以以软件、硬件或软硬件结合的方式典型地设置在终端设备中。以下以执行主体为终端设备为例进行说明，结合图4至图5B所示的方法可以如下实现。

在步骤400，获取待训练演唱音频样本，根据预设的情感类型对所述待训练演唱音频样本进行情感分类，确定与情感类型对应的多个待训练演唱音频子样本；其中，用于确定情感类型的情感因素包括压力因素和能量因素。

本步骤大量收集包含各种情感的演唱音频即待训练演唱音频，作为待训练演唱音频样本。演唱音频要求尽量是纯人声，同时收集演唱音频对应演唱歌曲的曲谱。本步骤可以是终端设备直接从本地或存储设备或网络获取采集人员收集的演唱音频。

待收集完演唱音频后，终端设备可根据预设的情感类型对演唱音频进行情感分类。具体的，可根据音乐方面专业的人员的分类标准对收集到的演唱音频进行情感分类，也可直接请音乐专业的人员依据他们的分类标准进行情感分类。音乐方面专业的人员的分类标准可以如下：首先确定好情感分类的种类，然后每个演唱音频都要求音乐方面的专业人员各自听一遍，并各自做好情感标注，当大部分专业人员都认为当前这首演唱音频属于某一种情感时，则将当前这首音频分到该情感的目录底下，否则丢弃该音频，依此将所有演唱音频都分类好。应当说明的是：一段演唱音频中可能存在演唱情感变化的情况——比如前奏和高潮部分的演唱情感可能不同，此时应由音乐方面的专业人员将该演唱音频分成情感独立的若干段音频，使得每段内的音频的情感是一致的，同时对应的歌曲的曲谱也应按音频内容分段并做好标注使之与分段的音频一一对应。

终端设备进行上述情感分类后，可确定与情感类型对应的多个待训练演唱音频子样本。具体的，将演唱音频按情感分类，并使得每类情感的音频数目相同，同时也要分类好歌曲的曲谱，使曲谱与分类好的音频一一对应。

步骤402、提取各待训练演唱音频子样本的情感特征，对所有所述待训练演唱音频子样本的情感特征分别基于压力维度和能量维度进行归一化处理，对应得到归一化压力情感特征和归一化能量情感特征。

步骤404、对所述归一化压力情感特征和归一化能量情感特征分别进行SVM算法训练，对应得到用于确定压力因素大小的压力指数和用于确定能量因素高低的能量指数。

步骤406、对所述归一化压力情感特征和压力指数进行SVM算法训练，得到用于确定压力因素的第一情感识别模型；对所述归一化能量情感特征和能量指数进行SVM算法训练，得到用于确定能量因素的第二情感识别模型。

本领域技术人员可以理解，在本申请具体实施方式的上述方法中，各步骤的序号大小并不意味着执行顺序的先后，各步骤的执行顺序、逻辑组合应以其功能和内在逻辑确定，而不应对本申请具体实施方式的实施过程构成任何限定。

在本申请实施例中，通过步骤400-406可以获得能够确定压力因素的第一情感识别模型和确定能量因素的第二情感识别模型，以使可执行本方法的终端设备或其他可间接调用本方法的终端设备能够依据第一情感识别模型和第二情感识别模型，确定待识别演唱音频的压力因素和能量因素，进而确定待识别演唱音频对应的演唱情感类型。通过本申请实施例，能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

在一可选的实施方式中，影响音乐情感的两个主要因素是压力和能量，由于压力和能量因素能较好的与声学特征对应，因此按照压力因素(Valence)的强弱可以把音乐的情感特征分成从焦虑的到快乐的不等，按照能量因素(Arousal)的强弱可以把音乐的情感特征分成从活力的到平静的不等。对应二维平面直角坐标系分割成的四个空间区域，音乐可以分成以下四大类：紧张的/恐惧的、兴高采烈的、满足的、沮丧的。如图5A所示，压力(Valence)维度可通过第一坐标轴表示，能量(Arousal)维度可通过第二坐标轴表示，其中，第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应。第一坐标轴可以为X轴，第二坐标轴可以为Y轴。所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静。所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

基于上述可选的实施方式，如图5B所示，步骤402可通过以下方式实现。

步骤4021、确定所述待训练演唱音频的声音信号特征及曲谱特征所对应的第一训练坐标值和第二训练坐标值。其中，所述情感特征可以包括声音信号特征和曲谱特征。

按情感类别分析并提取各个情感类别的演唱音频的声音信号特征，同时提取与演唱歌曲对应的曲谱特征。需要说明的是：区别于语音情感识别和音乐情感识别所提取的特征，本文所提取的特征包含以下几个内容，演唱音频的声音信号特征提取以下几个方面的内容：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；曲谱特征提取以下几个方面的内容：每分钟的节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。演唱音频的声音信号特征和曲谱特征都是针对同一首演唱歌曲的同一段进行提取的，如演唱音频演唱了哪几句歌曲，曲谱中也相应的提取这几句歌谱的特征。

具体的，提取待训练演唱音频的声音信号特征A_i,j及曲谱特征B_i,k。其中，A_i,j表示第i首待训练演唱音频的第j个声音信号特征的特征值，1≤j≤n，n为声音信号特征总数目，B_i,k表示第i首待训练演唱音频的第k个曲谱特征的特征值，1≤k≤m，m为曲谱特征总数目。

在步骤4021，确定所述待训练演唱音频的声音信号特征及曲谱特征所对应的第一训练坐标值和第二训练坐标值。在这里，第一训练坐标值X_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第一坐标轴的坐标值，第二训练坐标值Y_i表示音乐方面的专业人员标注好的第i首待训练演唱音频在第二坐标轴的坐标值，于是第i首待训练演唱音频特征为(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音乐方面的专业人员预先标注的坐标值。当所有L首歌曲的特征都提取完之后，将形成一个L*(n+m+2)的矩阵

步骤4022、根据所有所述待训练演唱音频子样本的情感特征和第一训练坐标值，确定基于第一坐标轴的第一训练矩阵；根据所有所述待训练演唱音频子样本的情感特征和第二训练坐标值确定基于第二坐标轴的第二训练矩阵。

具体的，基于X轴的第一训练矩阵为基于Y轴的第二训练矩阵为

步骤4023、对所述第一训练矩阵、第二训练矩阵分别进行归一化处理，对应得到第一训练归一化矩阵、第二训练归一化矩阵。在这里，第一训练归一化矩阵表示归一化压力情感特征，第二训练归一化矩阵表示归一化能量情感特征。

具体的，对X轴的第一训练矩阵中的数据按列进行归一化处理，使取值范围为[-1,1]，归一化后的第一训练归一化矩阵为式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

基于上述可选的实施方式，步骤404具体为：将所述第一训练归一化矩阵、第二训练归一化矩阵分别代入SVM算法，对应得到基于第一坐标轴的第一训练超平面、基于第二坐标轴的第二训练超平面；其中，所述第一训练超平面用于确定压力因素大小，所述第二训练超平面用于确定能量因素高低。具体的，将X轴的第一训练归一化矩阵代入SVM算法，该算法将求取X轴方向的一个超平面，该超平面能将x_i中大于0和小于0的部分尽可能区分开，求得的超平面将由声音信号特征和曲谱特征中的部分特征组成，设求得的X轴的超平面为其中为声音信号特征的第p_i个特征、为曲谱特征的第q_i个特征、p₁…p_i∈[1,n]；q₁…q_i∈[1,m]。同理，可求得Y轴的超平面为其中为声音信号特征的第r_i个特征、为曲谱特征的第s_i个特征、r₁…r_i∈[1,n]；s₁…s_i∈[1,m]。

步骤406具体为：将第一训练超平面和第一训练矩阵代入SVM算法，得到用于确定第一识别坐标值的第一情感识别模型；将第二训练超平面和第二训练矩阵代入SVM算法，得到用于确定第二识别坐标值的第二情感识别模型。在这里，第一识别坐标值表示压力因素，第二识别坐标值表示能量因素。依据求得的X轴超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和带入SVM算法中，即可求得X轴的训练模型，设为T_X。同理可求得Y轴的训练模型，设为T_Y。

在上述可选的实施方式中，第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应，本申请实施例可以获得能够确定第一坐标值的第一情感识别模型和第二坐标值的第二情感识别模型，以使执行本方法的终端设备或其他可间接调用本方法的终端设备可以根据第一坐标值和第二坐标值确定所述待识别演唱音频对应的演唱情感类型，能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

本申请实施例可以获得能够确定第一坐标值的第一情感识别模型T_X和第二坐标值的第二情感识别模型T_Y，以使执行本方法的终端设备或其他可间接调用本方法的终端设备可以根据第一坐标值和第二坐标值确定所述待识别演唱音频对应的演唱情感类型，能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

本实施例提取的情感特征与语音情感识别和音乐情感识别在特征提取方面存在差别：语音情感识别只需要提取音频特征不涉及曲谱特征的提取，且其音频特征也只是音调、语速等；音乐情感识别虽然也提取音频特征和曲谱特征，但是不涉及语谱特征(包括在声音信号特征中)等的提取。因此相较于现有的语音情感识别和音乐情感识别，本实施例根据包括声音信号特征和曲谱特征的情感特征获得的情感识别模型能够根据曲谱特征和声音信号特征，识别出对应演唱者的演唱情感，针对同一首歌曲，能够依据不同演唱者识别出对应演唱的情感，更为准确地识别出演唱者的情感。

实施例六

基于前述实施例，图6A至图6C示出了本申请实施例另外一可选的演唱情感识别方法的流程示意图，本申请可以应用于终端设备，也可以应用于情感识别模型建立装置，该装置可以以软件、硬件或软硬件结合的方式典型地设置在终端设备中。以下以执行主体为终端设备为例进行说明，结本实施例所示的方法可以如下实现。

在本实施例中，压力维度通过第一坐标轴表示，能量维度通过第二坐标轴表示，第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与情感类型一一对应。具体的，第一坐标轴可以为X轴，第二坐标轴可以为Y轴。所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静。所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

步骤600、提取待识别演唱音频的情感特征，其中，情感特征可以包括声音信号特征及曲谱特征。

步骤602、根据所述情感特征和第一情感识别模型，确定所述情感特征基于压力维度的压力因素；根据所述情感特征和第二情感识别模型，确定所述情感特征基于能量维度的能量因素；其中，所述压力因素和能量因素用于确定情感类型。在本实施例中，第一情感识别模型和第二情感识别模型为基于前述实施例建立得到，具体的模型建立过程可参阅实施例五。

具体的，根据所述待识别演唱音频的声音信号特征及曲谱特征确定所述待识别演唱音频的情感特征分别在第一坐标轴和第二坐标轴的坐标值，得到用于表征压力因素的第一坐标值和用于表征能量因素的第二坐标值。

如图6B所示，在一种可行的实施方式中，步骤602通过以下方法得到第一坐标值。

步骤6020，根据所述待识别演唱音频的声音信号特征、曲谱特征和基于第一坐标轴的第一训练矩阵，得到基于第一坐标轴的第一特征矩阵。具体的，将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于X轴的第一训练矩阵的最后一行，得到第一特征矩阵其中，所述第一训练矩阵基于预设待训练演唱音频的声音信号特征及曲谱特征和所述待训练演唱音频的情感特征在第一坐标轴的第一训练坐标值确定。

在步骤6022，对所述第一特征矩阵进行归一化处理，得到第一归一化矩阵，进而得到待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵。具体的，对所述矩阵中的数据按列进行归一化处理，得到第一归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵(a_gx,1…a_gx,n b_gx,1…b_gx,m)。

在步骤6024，将所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵、第一训练超平面和基于第一坐标轴的第一情感识别模型代入SVM算法，得到所述待识别演唱音频的情感特征在第一坐标轴方向的第一坐标值。具体的，将所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一训练超平面和X轴的第一情感识别模型T_X代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…_Bg,m)在X轴方向的第一坐标值X_g；其中，所述为训练声音信号特征的第p_i个特征，为训练曲谱特征的第q_i个特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。所述第一训练超平面基于第一训练矩阵进行归一化处理后第一训练归一化矩阵确定，所述第一训练矩阵基于所述第一训练坐标值和待训练演唱音频的情感特征确定；所述基于第一坐标轴的训练模型基于所述第一训练超平面和第一训练归一化矩阵确定。

如图6C所示，在一种可行的实施方式中，步骤602通过以下方法得到第二坐标值。

步骤6020’，根据所述待识别演唱音频的声音信号特征、曲谱特征和基于第二坐标轴的第二训练矩阵，得到基于第二坐标轴的第二特征矩阵。具体的，将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于Y轴的第二训练矩阵的最后一行，得到第二特征矩阵其中，所述第二训练矩阵基于预设待训练演唱音频的声音信号特征及曲谱特征和所述待训练演唱音频的情感特征在第二坐标轴的第二训练坐标值确定。

在步骤6022’，对所述第二特征矩阵进行归一化处理，得到第二归一化矩阵，进而得到待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵。具体的，对所述矩阵中的数据按列进行归一化处理，得到第二归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵(a_gy,1…a_gy,n b_gy,1…b_gy,m)。

在步骤6024’，将所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵、第二训练超平面和基于第二坐标轴的第二情感识别模型代入SVM算法，得到所述待识别演唱音频的情感特征在第二坐标轴方向的第二坐标值。具体的，将所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二训练超平面和Y轴的第二情感识别模型T_Y代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y轴方向的第二坐标值Y_g，其中，所述为训练声音信号特征的第r_i个特，为训练曲谱特征的第s_i个特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。所述第二训练超平面基于第二训练矩阵进行归一化处理后第二训练归一化矩阵确定，所述第二训练矩阵基于所述第二训练坐标值和待训练演唱音频的情感特征确定；所述基于第二坐标轴的训练模型基于所述第二训练超平面和第二训练归一化矩阵确定。

应当理解的是，步骤6020和步骤6020’的执行顺序无先后，可同步执行。同理，步骤6022和步骤6022’的执行顺序无先后，可同步执行。步骤6024和步骤6024’的执行顺序无先后，可同步执行。

步骤604、根据所述压力因素和能量因素，确定所述待识别演唱音频对应的演唱情感类型。具体的，根据所述第一坐标值和第二坐标值确定所述待识别演唱音频的情感特征对应的演唱情感类型。

在本申请实施例中，可以使可执行本方法的终端设备或其他可间接调用本方法的终端设备能够依据第一情感识别模型和第二情感识别模型，确定待识别演唱音频的压力因素和能量因素，进而确定待识别演唱音频对应的演唱情感类型。通过本申请实施例，能够实现根据演唱者的演唱音频识别演唱者的演唱情感类型，可以从演唱中识别演唱者的情感。

实施例七

请参阅图7，示出了本申请实施例提供的一种演唱情感识别方法，本申请可以应用于终端设备，也可以应用于情感识别模型建立装置，该装置可以以软件、硬件或软硬件结合的方式典型地设置在终端设备中。以下以执行主体为终端设备为例进行说明，图7所示方法可以通过以下方式实现。

在步骤700、获取用户演唱音频。本步骤可以是终端设备直接从本地或存储设备或网络获取用户演唱的演唱音频。

在步骤702、当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令。

本步骤可以通过语音情感识别和音乐情感识别对用户演唱音频进行情感类型的识别，也可以通过前述实施例一至六任一所述的方法对用户演唱音频进行情感类型的识别。

在一可选的实施方式中，所述演唱结果控制指令包括以下至少一种：演唱加分控制指令、灯光控制指令。例如，用户在KTV唱歌时，当KTV设备识别出用户演唱音频对应的情感类型与预设音乐情感(假设预设音乐情感为高兴欢快)相符时，则输出演唱加分控制指令，以对KTV设备显示的演唱分数进行加分。再例如，用户在KTV唱歌时，当KTV设备识别出用户演唱音频对应的情感类型与预设音乐情感(假设预设音乐情感为悲伤沮丧)相符时，则输出灯光控制指令，以对与KTV设备连接的照明设备进行灯光控制，具体的，可控制与KTV设备连接的照明设备输出蓝色光线，以体现悲伤沮丧的场景。

实施例8

请参阅图8，本实施例提供一种演唱情感识别装置，包括：

训练模块800，用于提取待训练演唱音频的情感特征，训练得到情感识别模型；所述情感特征包括声音信号特征和曲谱特征；

提取模块801，用于提取待识别演唱音频的情感特征；

识别模块802，用于将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感。

可选的，所述声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

可选的，所述训练模块如下：

训练坐标值确定单元，用于确定所述待训练演唱音频的情感特征分别在第一坐标轴和第二坐标轴的训练坐标值，得到第一训练坐标值和第二训练坐标值；其中，所述第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应；

训练矩阵确定单元，用于根据所述第一训练坐标值和待训练演唱音频的情感特征建立第一训练矩阵，根据所述第二训练坐标值和待训练演唱音频的情感特征建立第二训练矩阵；

训练归一化矩阵确定单元，用于将第一训练矩阵归一化成第一训练归一化矩阵；将第二训练矩阵归一化成第二训练归一化矩阵；

训练超平面确定单元，用于将所述第一训练归一化矩阵、第二训练归一化矩阵分别代入SVM算法，对应得到第一训练超平面、第二训练超平面；

情感识别模型确定单元，用于将第一训练超平面和第一训练归一化矩阵代入SVM算法，得到基于第一坐标轴的第一情感识别模型；将第二训练超平面和第二训练归一化矩阵代入SVM算法，得到基于第二坐标轴的第二情感识别模型。

可选的，所述识别模块包括：

输入单元，用于将待识别演唱音频的情感特征分别输入第一情感识别模型和第二情感识别模型，确定所述情感特征基于第一坐标轴的第一坐标值和基于第二坐标轴的第二坐标值；

确定单元，用于根据所述第一坐标值和第二坐标值确定所述情感特征对应的象限，以确定所述情感特征对应的演唱情感类型。

可选的，所述确定单元，具体用于：

根据所述第一训练矩阵和待识别演唱音频的情感特征，建立第一特征矩阵；对所述第一特征矩阵进行归一化处理，得到第一归一化矩阵，进而得到待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵；将所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵、第一训练超平面和第一情感识别模型代入SVM算法，得到情感特征在第一坐标轴方向的第一坐标值。

可选的，所述第一坐标轴为X轴，则所述确定单元，具体用于：

将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,nB_g,1…B_g,m 0)加入基于X轴的第一训练矩阵的最后一行，得到第一特征矩阵

对所述矩阵中的数据按列进行归一化处理，得到第一归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第一训练矩阵归一化后的矩阵(a_gx,1…a_gx,nb_gx,1…b_gx,m)；

将所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一训练超平面和X轴的第一情感识别模型T_X代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在X轴方向的第一坐标值X_g；其中，所述为训练声音信号特征的第p_i个特征，为训练曲谱特征的第q_i个特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。

可选的，所述确定单元，具体用于：

根据所述第二训练矩阵和待识别演唱音频的情感特征，建立第二特征矩阵；对所述第二特征矩阵进行归一化处理，得到第二归一化矩阵，进而得到待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵；将所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵、第二训练超平面和第二情感识别模型代入SVM算法，得到情感特征在第二坐标轴方向的第二坐标值。

可选的，所第二坐标轴为Y轴，则所述确定单元，具体用于：

将所述声音信号特征(A_g,1…A_g,n)和曲谱特征(B_g,1…B_g,m)组成的矩阵(A_g,1…A_g,nB_g,1…B_g,m 0)加入基于Y轴的第二训练矩阵的最后一行，得到第二特征矩阵

对所述矩阵中的数据按列进行归一化处理，得到第二归一化矩阵然后提取矩阵最后一行的数据，即得所述待识别演唱音频的情感特征经第二训练矩阵归一化后的矩阵(a_gy,1…a_gy,nb_gy,1…b_gy,m)；

将所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二训练超平面和Y轴的第二情感识别模型T_Y代入到SVM算法中，得到所述待识别演唱音频的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y轴方向的第二坐标值Y_g，其中，所述为训练声音信号特征的第r_i个特，为训练曲谱特征的第s_i个特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n为声音信号特征数目、m为曲谱特征数目、L为训练歌曲的个数。

可选的，所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静。

可选的，所述平面直角坐标系的象限与演唱情感类型的对应关系包括：

第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

本装置实施例与前述实施例中的方法特征相互对应，相关模块/单元可对应执行前述实施例中的方法流程，因此可参见前述实施例中方法流程部分的相关描述，在此不再赘述。

本申请实施例还提供一种电子终端，包括如前述实施例提供的演唱情感识别装置。本装置实施例与前述实施例中的方法特征相互对应，因此可参见前述实施例中方法流程部分的相关描述，在此不再赘述。

实施例九

请参阅图9，本实施例提供一种演唱识别装置，包括：

获取模块901，用于获取用户演唱音频；

识别模块902，用于当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令。

可选的，所述演唱结果控制指令包括以下至少一种：演唱加分控制指令、灯光控制指令。

请参阅图10，本申请实施例还提供一种电子终端，包括：

存储器1000；

一个或多个处理器1003；以及

一个或多个模块1001，所述一个或多个模块1001被存储在所述存储器中并被配置成由所述一个或多个处理器控制，所述一个或多个模块用于执行以下步骤的指令：

提取待识别演唱音频的情感特征；

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种演唱情感识别方法，其特征在于，包括：

提取待识别演唱音频的情感特征；

将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感；所述声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

2.根据权利要求1所述的演唱情感识别方法，其特征在于，所述情感识别模型的训练包括：

确定所述待训练演唱音频的情感特征分别在第一坐标轴和第二坐标轴的训练坐标值，得到第一训练坐标值和第二训练坐标值；其中，所述第一坐标轴和第二坐标轴组成平面直角坐标系，所述平面直角坐标系的象限与演唱情感类型一一对应；

根据所述第一训练坐标值和待训练演唱音频的情感特征建立第一训练矩阵，根据所述第二训练坐标值和待训练演唱音频的情感特征建立第二训练矩阵；

将第一训练矩阵归一化成第一训练归一化矩阵；将第二训练矩阵归一化成第二训练归一化矩阵；

将所述第一训练归一化矩阵、第二训练归一化矩阵分别代入SVM算法，对应得到第一训练超平面、第二训练超平面；

将第一训练超平面和第一训练归一化矩阵代入SVM算法，得到基于第一坐标轴的第一情感识别模型；将第二训练超平面和第二训练归一化矩阵代入SVM算法，得到基于第二坐标轴的第二情感识别模型。

3.根据权利要求2所述的演唱情感识别方法，其特征在于，所述将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感包括：

4.根据权利要求3所述的演唱情感识别方法，其特征在于，所述将待识别演唱音频的情感特征输入情感识别模型，确定所述情感特征基于第一坐标轴的第一坐标值包括：

5.根据权利要求3所述的演唱情感识别方法，其特征在于，所述将待识别演唱音频的情感特征输入情感识别模型，确定所述情感特征基于第二坐标轴的第二坐标值包括：

6.根据权利要求2所述的演唱情感识别方法，其特征在于，所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静；

所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

7.一种演唱情感识别装置，其特征在于，包括：

提取模块，用于提取待识别演唱音频的情感特征；

识别模块，用于将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感；所述声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

8.根据权利要求7所述的演唱情感识别装置，其特征在于，所述训练模块如下：

9.根据权利要求8所述的演唱情感识别装置，其特征在于，所述识别模块包括：

10.根据权利要求9所述的演唱情感识别装置，其特征在于，所述确定单元，具体用于：

11.根据权利要求9所述的演唱情感识别装置，其特征在于，所述确定单元，具体用于：

12.根据权利要求8所述的演唱情感识别装置，其特征在于，所述平面直角坐标系的象限对应的演唱情感类型包括：紧张焦虑、高兴欢快、悲伤沮丧、自然平静；所述平面直角坐标系的象限与演唱情感类型的对应关系包括：第一象限对应紧张焦虑、第二象限对应高兴欢快、第三象限对应悲伤沮丧、第四象限对应自然平静。

13.一种演唱识别方法，其特征在于，包括：

获取用户演唱音频；

当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令；

所述“识别用户演唱音频对应的情感类型”还包括步骤：

提取待识别演唱音频的情感特征；

将待识别演唱音频的情感特征输入情感识别模型，识别出待识别演唱音频的情感；

所述声音信号特征包括以下至少一种：平均能量、能量标准差、平均基频、基频标准差、超过平均基频的频率数目、平均矩心、矩心标准差、MFCC特征、语谱特征；所述曲谱特征包括以下至少一种：每分钟节拍数、大调类型、调式、平均音高、音高标准差、每个音的平均时长。

14.根据权利要求13所述的演唱识别方法，其特征在于，所述演唱结果控制指令包括以下至少一种：演唱加分控制指令、灯光控制指令。

15.一种演唱识别装置，其特征在于，包括：

获取模块，用于获取用户演唱音频；

识别模块，用于当识别用户演唱音频对应的情感类型与预设音乐情感相符时，输出对应的演唱结果控制指令，其中所述演唱结果控制指令包括以下至少一种：演唱加分控制指令、灯光控制指令；

所述识别模块还用于：

提取待识别演唱音频的情感特征；