CN114005446B

CN114005446B - 情感分析方法、相关设备及可读存储介质

Info

Publication number: CN114005446B
Application number: CN202111284622.8A
Authority: CN
Inventors: 王晓; 许胜强; 胡加学
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2024-12-13
Anticipated expiration: 2041-11-01
Also published as: CN114005446A

Abstract

本申请公开了一种情感分析方法、相关设备及可读存储介质。在获取待分析的语音对话数据之后，针对该语音对话数据中的每个句子，确定该句子的音频数据和文本数据，对该句子的音频数据和文本数据进行交互融合编码，得到该句子的音频特征和文本特征，基于该句子的音频特征和文本特征对该句子进行情感分析，确定该句子的情感类型。由于语音对话数据，文本信息和音频信息能够在不同维度表达出用户的情感信息，因此，基于句子的音频特征和文本特征确定的句子的情感类型更为准确。

Description

情感分析方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种情感分析方法、相关设备及可读存储介质。

背景技术

自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支，其中情感分析属于自然语言处理研究的一个重要课题，涉及多个领域。比如，在外呼或者导航领域，多轮交互时需要对用户的输入进行情感分析，基于情感分析结果优化多轮交互系统，以提升用户的满意度。可见，情感分析结果的准确度对用户满意度起着至关重要的作用。

因此，如何得到准确度高的情感分析结果，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种情感分析方法、相关设备及可读存储介质。具体方案如下：

一种情感分析方法，所述方法包括：

获取待分析的语音对话数据；

针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

可选地，所述对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型，包括：

将所述句子的音频数据和文本数据输入情感分析模型，所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；所述情感分析模型的情感分析模块基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

可选地，所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征，包括：

所述交互融合编码模块中的音频处理子模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征；

所述交互融合编码模块中的文本处理子模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的文本特征。

可选地，所述音频处理子模块中包括音频编码层、第一音频交互融合编码层以及第二音频交互融合编码层，所述文本处理子模块包括文本编码层、第一文本交互融合编码层以及第二文本交互融合编码层；所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征，包括：

所述音频编码层对所述句子的音频数据进行编码得到所述句子的初始音频特征；

所述文本编码层对所述句子的文本数据进行编码得到所述句子的初始文本特征；

所述第一音频交互融合编码层对所述句子的初始音频特征和所述句子的初始文本特征进行交互融合编码，得到所述句子的第一音频交互特征；

所述第一文本交互融合编码层对所述句子的初始音频特征和所述句子的初始文本特征进行交互融合编码，得到所述句子的第一文本交互特征；

所述第二音频交互融合编码层对所述句子的第一音频交互特征和所述句子的第一文本交互特征进行交互融合编码，得到所述句子的音频特征；

所述第二文本交互融合编码层对所述句子的第一音频交互特征和所述句子的第一文本交互特征进行交互融合编码，得到所述句子的文本特征。

可选地，所述情感分析模型的训练方法如下：

获取第一真样本数据集，所述第一真样本数据集中包括多个第一真样本数据，每个所述第一真样本数据包括一组真对话数据中每个句子的音频数据、文本数据以及情感类型标签；

根据所述第一真样本数据集生成假样本数据集，所述假样本数据集中包括多个假样本数据，每个所述假样本数据包括一组假对话数据中每个句子的音频数据、文本数据以及情感类型标签；

基于所述假样本数据集对预训练模型进行训练得到情感分析模型。

可选地，所述根据所述第一真样本数据集生成假样本数据集，包括：

针对所述第一真样本数据集中的每个第一真样本数据，确定所述第一真样本数据的情感逻辑因子；

基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集。

可选地，所述确定所述第一真样本数据的情感逻辑因子，包括：

将所述第一真样本数据中每个句子的文本数据输入情感逻辑因子生成模型，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子。

可选地，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子，包括：

所述情感逻辑因子生成模型中的语义特征提取模块对所述第一真样本数据中每个句子进行语义特征提取，得到所述第一真样本数据中每个句子的语义特征；

所述情感逻辑因子生成模型中的情感特征提取模块对所述第一真样本数据中每个句子的语义特征进行情感特征提取，得到所述第一真样本数据中每个句子的情感特征；

所述情感逻辑因子生成模型中的原因特征提取模块对所述第一真样本数据中每个句子的语义特征进行原因特征提取，得到所述第一真样本数据中每个句子的原因特征；

所述情感逻辑因子生成模型中的情感概率预测模块对所述第一真样本数据中每个句子的情感特征进行情感概率预测，得到所述第一真样本数据中每个句子的情感概率；

所述情感逻辑因子生成模型中的原因概率预测模块对所述第一真样本数据中每个句子的原因特征进行原因概率预测，得到所述第一真样本数据中每个句子的原因概率；

所述情感逻辑因子生成模型中的情感逻辑因子生成模块对所述第一真样本数据中各个句子的情感特征、情感概率、原因特征、原因概率以及所述第一真样本数据中句子的位置关系编码向量进行融合，得到所述第一真样本数据的情感逻辑因子。

可选地，所述情感逻辑因子生成模型是基于预设滑窗参数以及第二真样本数据集训练得到的；所述预设滑窗参数用于指示存在情感逻辑关系可能性大的句子组中包含句子的数量；所述第二真样本数据集中包括多个第二真样本数据，每个所述第二真样本数据包括一组真对话数据中每个句子的文本数据、原因标签、情感类型标签以及该组真对话数据的情感逻辑因子，所述原因标签用于指示所述句子是否与其他句子存在情感逻辑关系。

可选地，所述情感逻辑因子生成模型中的语义特征提取模块对所述第一真样本数据中每个句子进行语义特征提取，得到所述第一真样本数据中每个句子的语义特征，包括：

针对所述第一真样本数据中每个句子，提取所述句子以及与所述句子处于同一滑窗内的其他句子的整体语义特征作为所述句子的语义特征，所述滑窗是基于所述预设滑窗参数确定的。

可选地，所述基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集，包括：

针对所述第一真样本数据集中每个真样本数据，将所述第一真样本数据以及所述第一真样本数据的情感逻辑因子输入数据生成模型的N个生成器，所述数据生成模型的N个生成器输出所述假样本数据集，其中N与情感类型标签的数量相同。

可选地，所述数据生成模型的训练方式如下：

获取第三真样本数据集，所述第三真样本数据集中包括多个第三真样本数据，每个所述第三真样本数据包括一组真对话数据中每个句子的音频数据、文本数据、情感类型标签以及所述第三真样本数据的情感逻辑因子；

构建判别器，所述判别器为N+1类分类器；

以第三真样本数据集作为训练样本，以所述N个生成器的惩罚项累积最小，且所述判别器对所述数据模型的输出的判定结果趋近于所述判别器对第三真样本数据的判定结果为训练目标对所述数据生成模型进行训练。

一种情感分析装置，所述装置包括：

获取单元，用于获取待分析的语音对话数据；

情感分析单元，用于针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

可选地，所述情感分析单元，包括：

情感分析模型处理单元，用于将所述句子的音频数据和文本数据输入情感分析模型，所述情感分析模型包括交互融合编码模块和情感分析模块，所述交互融合编码模块用于对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；所述情感分析模块用于基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

可选地，所述情感分析模型的交互融合编码模块包括音频处理子模块和文本处理子模块：

所述音频处理子模块用于对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征；

所述文本处理子模块用于对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的文本特征。

可选地，所述音频处理子模块中包括音频编码层、第一音频交互融合编码层以及第二音频交互融合编码层，所述文本处理子模块包括文本编码层、第一文本交互融合编码层以及第二文本交互融合编码层；

所述音频编码层，用于对所述句子的音频数据进行编码得到所述句子的初始音频特征；

所述文本编码层，用于对所述句子的文本数据进行编码得到所述句子的初始文本特征；

所述第一音频交互融合编码层，用于对所述句子的初始音频特征和所述句子的初始文本特征进行交互融合编码，得到所述句子的第一音频交互特征；

所述第一文本交互融合编码层，用于对所述句子的初始音频特征和所述句子的初始文本特征进行交互融合编码，得到所述句子的第一文本交互特征；

所述第二音频交互融合编码层，用于对所述句子的第一音频交互特征和所述句子的第一文本交互特征进行交互融合编码，得到所述句子的音频特征；

所述第二文本交互融合编码层，用于对所述句子的第一音频交互特征和所述句子的第一文本交互特征进行交互融合编码，得到所述句子的文本特征。

可选地，所述装置还包括，情感分析模型训练单元，所述情感分析模型训练单元包括：

第一真样本数据集获取单元，用于获取第一真样本数据集，所述第一真样本数据集中包括多个第一真样本数据，每个所述第一真样本数据包括一组真对话数据中每个句子的音频数据、文本数据以及情感类型标签；

假样本数据集生成单元，用于根据所述第一真样本数据集生成假样本数据集，所述假样本数据集中包括多个假样本数据，每个所述假样本数据包括一组假对话数据中每个句子的音频数据、文本数据以及情感类型标签；

情感分析模型训练单元，用于基于所述假样本数据集对预训练模型进行训练得到情感分析模型。

可选地，所述假样本数据集生成单元，包括：

情感逻辑因子确定单元，用于针对所述第一真样本数据集中的每个第一真样本数据，确定所述第一真样本数据的情感逻辑因子；

假样本数据集生成子单元，用于基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集。

可选地，所述情感逻辑因子确定单元，包括：

情感逻辑因子生成模型处理单元，用于将所述第一真样本数据中每个句子的文本数据输入情感逻辑因子生成模型，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子。

可选地，所述情感逻辑因子生成模型包括语义特征提取模块、情感特征提取模块、原因特征提取模块、情感概率预测模块、原因概率预测模块以及情感逻辑因子生成模块：

可选地，所述情感逻辑因子生成模型中的语义特征提取模块还用于：

可选地，所述假样本数据集生成子单元，包括：

数据生成模型处理单元，用于针对所述第一真样本数据集中每个真样本数据，将所述第一真样本数据以及所述第一真样本数据的情感逻辑因子输入数据生成模型的N个生成器，所述数据生成模型的N个生成器输出所述假样本数据集，其中N与情感类型标签的数量相同。

可选地，所述数据生成模型的训练方式如下：

构建判别器，所述判别器为N+1类分类器；

一种情感分析设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的情感分析方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的情感分析方法的各个步骤。

借由上述技术方案，本申请公开了一种情感分析方法、相关设备及可读存储介质。在获取待分析的语音对话数据之后，针对该语音对话数据中的每个句子，确定该句子的音频数据和文本数据，对该句子的音频数据和文本数据进行交互融合编码，得到该句子的音频特征和文本特征，基于该句子的音频特征和文本特征对该句子进行情感分析，确定该句子的情感类型。由于语音对话数据，文本信息和音频信息能够在不同维度表达出用户的情感信息，因此，基于句子的音频特征和文本特征确定的句子的情感类型更为准确。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的情感分析方法的流程示意图；

图2为本申请实施例公开的一种情感分析模型结构示意图；

图3为本申请实施例公开的一种情感分析模型结构示意图；

图4为本申请实施例公开的一种情感分析模型结构示意图；

图5为本申请实施例公开的一种交互融合编码模块的结构示意图；

图6为本申请实施例公开的一种情感逻辑因子生成模型的结构示意图；

图7为本申请实施例公开的一种情感逻辑因子生成模型的结构示意图；

图8为本申请实施例公开的一种情感分析装置结构示意图；

图9为本申请实施例提供的情感分析设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了得到准确度高的情感分析结果，本案发明人进行研究发现，现有的情感分析方法主要有两种，一种是基于情感词典的情感分析方法，另一种是基于机器学习的情感分析方法。

其中，基于情感词典的情感分析方法需要预先构建情感词典，该情感词典包含正向词语词典、负向词语词典、程度词语词典、否定词语词典，各个词典中，每个词条由一个词语和对应权重构成。在基于情感词典对用户的输入进行情感分析时，需要将用户的输入与情感词典进行匹配，根据匹配到的词条中的权重来得到情感分析结果。

但是，基于情感词典的情感分析方法，只是利用简单的关键词匹配、线性叠加情感词的权重来得到情感分析结果，其准确度较低。例如：“我开始觉得你们非常的差劲，进度慢，效率垃圾，但是我接触后才发现非常的好”这句话其实表达的是一种赞美的情感，但是基于情感词典的情感分析得到的结果就是不太好的结果。

基于机器学习的情感分析方法，需要基于大量情感数据对LSTM(Long Short-TermMemory，长短期记忆网络)或者GRU(gated recurrent unit，门控循环单元)等RNN(Recurrent NeuralNetwork，循环神经网络)进行训练得到情感分析模型，其中，情感数据主要是文本数据。在基于机器学习的情感分析方法对用户的输入进行情感分析时，需要将用户的输入对应的文本数据，输入情感分析模型得到情感分析结果。

但是，现有的基于机器学习的情感分析方法，只是利用用户输入对应的文本数据进行情感分析，当用户输入为语音或视频时，无法从用户声音角度考虑用户的情感，导致其情感分析结果准确度较低。

鉴于上述方法存在的问题，本案发明人进行了深入研究，最终提出了一种情感分析方法。

接下来，通过下述实施例对本申请提供的情感分析方法进行介绍。

参照图1，图1为本申请实施例公开的情感分析方法的流程示意图，该方法可以包括：

步骤S101：获取待分析的语音对话数据。

在本申请中，待分析的语音对话数据可以为任意场景下的语音对话数据，该语音对话数据中包含多个句子，比如，在外呼领域，用户与客服或坐席系统的多轮语音交互数据，对此，本申请不进行任何限定。

在本申请中，待分析的语音对话数据可以为原始语音对话数据，也可以为对原始语音对话数据进行预处理(如降噪)之后的语音对话数据，对此，本申请不进行任何限定。

步骤S102：针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

通常的情感分析技术仅仅使用了文本数据，但是，针对语音对话数据，实际上音频信息也能够表达出用户的情感信息。因此，在本申请中，针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据，基于所述句子的音频数据和文本数据对所述句子进行情感分析，能够提升情感分析结果的准确度。

需要说明的是，在本申请中，可以对语音对话数据中的每个句子进行语音识别处理，得到所述句子的音频数据和文本数据。该方式可以采用现有的语音识别技术，此处不再赘述。

另外，需要说明的是，对句子的音频数据和文本数据进行交互融合编码，能够使得到的音频特征和文本特征包含整个句子语义的特征，使得基于句子的音频特征和文本特征确定的句子的情感类型更为准确。

在本申请中，可以采用神经网络模型对所述句子的音频数据和文本数据进行交互融合编码，得到句子的音频特征和文本特征，具体将通过后续实施例详细说明，此处不再展开描述。

在本实施例中，公开了一种情感分析方法，该方法中，在获取待分析的语音对话数据之后，针对该语音对话数据中的每个句子，确定该句子的音频数据和文本数据，对该句子的音频数据和文本数据进行交互融合编码，得到该句子的音频特征和文本特征，基于该句子的音频特征和文本特征对该句子进行情感分析，确定该句子的情感类型。由于语音对话数据，文本信息和音频信息能够在不同维度表达出用户的情感信息，因此，基于句子的音频特征和文本特征确定的句子的情感类型更为准确。

在本申请的另一个实施例中，对上述步骤S102中对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征、基于所述句子的音频特征和文本特征，确定所述句子的情感类型的具体实现方式进行详细说明。

在本申请中，可以预先构建并训练情感分析模型，基于训练好的情感分析模型实现上述步骤S102。

请参照图2，图2为本申请实施例公开的一种情感分析模型结构示意图。如图2所示，该情感分析模型包括交互融合编码模块和情感分析模块。

基于图2所示的情感分析模型，在本申请中，可以将所述句子的音频数据和文本数据输入情感分析模型，所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；所述情感分析模型的情感分析模块基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

在情感分析模型中，所述情感分析模型的交互融合编码模块需要对句子的音频数据和文本数据进行交互融合编码，而音频数据和文本数据是两种不同模态的数据，将音频数据和文本数据一起编码，难免会有所混乱。因此，在本申请中，提出了另一种情感分析模型，具体通过下述内容详细说明。

请参照图3，图3为本申请实施例公开的一种情感分析模型结构示意图。如图3所示，该情感分析模型包括交互融合编码模块和情感分析模块，所述交互融合编码模块包括音频处理子模块和文本处理子模块。

基于图3所示的情感分析模型，在本申请中，所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征的具体实现方式可以包括：所述交互融合编码模块中的音频处理子模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征；所述交互融合编码模块中的文本处理子模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的文本特征。

请参照图4，图4为本申请实施例公开的一种情感分析模型结构示意图。如图4所示，该情感分析模型包括交互融合编码模块和情感分析模块，所述交互融合编码模块包括音频处理子模块和文本处理子模块。所述音频处理子模块中包括音频编码层、第一音频交互融合编码层以及第二音频交互融合编码层，所述文本处理子模块包括文本编码层、第一文本交互融合编码层以及第二文本交互融合编码层。

基于图4所示的情感分析模型，在本申请中，所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征的具体实现方式可以包括：

考虑在交互融合编码中只进行一次交互融合编码只能提取的文本和音频的浅层信息，进行三次及以上的交互融合编码会使模型参数急剧增加，综合考虑，本方案进行了两次交互融合编码。第一次交互融合编码，主要对“音频”和“文本”的浅层信息进行交互并且进行特征抽取，注重对字音和字形的学习；第二次交互融合编码，主要是对“语音”和“文本”的深层特征进行交互并且进行特征抽取，注重对整体句子语音特征的学习和整个句子语义的深层理解。

需要说明的是，情感分析模型可以为能够实现“对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型”这一功能的任意神经网络结构，对此，本申请不进行任何限定。

作为一种可实施方式，交互融合编码模块的结构可以参考Multi-bert(Multi-bidirectional encoder representations from transformers，多模态的来自变换器的双向编码器表征量)模型构建。情感分析模块可以为attention层后接一层softmax层的结构。

作为一种可实施方式，在本申请中，公开了一种交互融合编码模块结构的具体实现，请参照图5，图5为本申请实施例公开的一种交互融合编码模块的结构示意图，该结构是参考Multi-bert(Multi-bid irectional encoder representations fromtransformers，多模态的来自变换器的双向编码器表征量)模型构建的。

如图5所示，该交互融合编码模块中，左边模块为音频处理子模块，右边模块为文本处理子模块。结合图5，下面对“所述交互融合编码模块中的音频处理子模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征”的具体实现方式进行如下说明：

在音频处理子模块，首先，将经过分词处理后的文本数据用w₁,w₂,w₃,…,w_n表示，w₁对应的音频片段用t₁表示，w₂对应的音频片段用t₂表示，……，w_n对应的音频片段用t_n表示，则对应的音频数据可以用t₁,t₂,t₃,…,t_n表示。将音频数据t₁,t₂,t₃,…,t_n通过预训练的MFCC(Mel-scale Frequency CepstralCoefficients，梅尔倒谱系数)模块提取声学特征得到声学特征向量v₁,v₂,v₃,…,v_n，接着通过embedding编码模块对声学特征向量v₁,v₂,v₃,…,v_n进行编码，得到embedding编码后的特征向量，将embedding编码后的特征向量以及文本处理子模块中第一个Transformer模块输出的特征向量传入到音频处理子模块中第一个co-transformer模块中，音频处理子模块中第一个co-transformer模块以及第一个Transformer模块共同实现对音频数据和文本数据的第一次交互融合编码，依此类推，音频处理子模块中第二个co-transformer模块以及第二个Transformer模块共同实现对音频数据和文本数据的第二次交互融合编码，得到句子的音频特征h_v1,h_v2,h_v3,…,h_vn。

在文本处理子模块中，将文本数据通过分词后用w₁,w₂,w₃,…,w_n表示，然后通过embedding编码模块以及第一个Transformer模块对其进行编码，得到第一个Transformer模块输出的特征向量，该特征向量以及音频处理子模块embedding编码后的特征向量传入到文本处理子模块中第一个co-transformer模块，文本处理子模块中第一个co-transformer模块以及第二个Transformer模块共同实现对音频数据和文本数据的第一次交互融合编码，依此类推，文本处理子模块中第二个co-transformer模块以及第三个Transformer模块共同实现对音频数据和文本数据的第二次交互融合编码，，得到句子的文本特征h_w1,h_w2,h_w3,…,h_wn。

在本申请中，可以基于大量“语音-文本”数据对交互融合编码模块进行预训练，得到预训练模型，情感分析模型的训练可以在预训练模型的基础上进行。

在本申请的另一个实施例中，对所述情感分析模型的训练方法进行了详细说明。

作为一种可实施方式，所述情感分析模型的训练方法可以包括：获取第一真样本数据集，所述第一真样本数据集中包括多个第一真样本数据，每个所述第一真样本数据包括一组真对话数据中每个句子的音频数据、文本数据以及情感类型标签；基于所述第一真样本数据集对预训练模型进行训练得到情感分析模型。

需要说明的是，情感类型标签可以基于具体的应用场景进行设定，对此，本申请不进行任何限定。比如，在外呼领域中，考虑到业务需求，情感类型标签可以包括愉悦、赞扬、中性、抱怨和愤怒这5种。其中，愉悦和赞扬为正向情感，抱怨和愤怒为负向情感。

由于在实际任务中，除了中性情感外，负向与正向情感数据比例占比较少，为了保证情感分析模型的训练效果，作为另一种可实施方式，所述情感分析模型的训练方法可以包括：

步骤S201：获取第一真样本数据集。

所述第一真样本数据集中包括多个第一真样本数据，每个所述第一真样本数据包括一组真对话数据中每个句子的音频数据、文本数据以及情感类型标签。

步骤S202：根据所述第一真样本数据集生成假样本数据集。

所述假样本数据集中包括多个假样本数据，每个所述假样本数据包括一组假对话数据中每个句子的音频数据、文本数据以及情感类型标签。

近年来，GAN(Generative Adversarial Net，对抗生成网络)在图像数据生成领域有着广泛应用，因此本申请中可以基于GAN生成假样本数据集。具体方法将通过后面的实施例详细说明，此处不再展开描述。

步骤S203：基于所述假样本数据集对预训练模型进行训练得到情感分析模型。

需要说明的是，本步骤中可以只基于所述假样本数据集对预训练模型进行训练得到情感分析模型，也可以同时基于所述第一真样本数据集合所述假样本数据集对预训练模型进行训练得到情感分析模型，对此，本申请不进行任何限定。

值得注意的是，在语音对话中，用户当前的情绪与前后的对话内容有着明显的逻辑关系，即因果关系。为了保证假样本数据的质量，在本申请中，在生成假样本数据时，对句子之间的情感逻辑关系进行了考虑。具体的，在本申请中，为语音对话数据中引入了情感逻辑因子这一参数，用于表示语音对话数据中每两个句子的逻辑关联程度。

基于此，在本申请的一个实施例中，对步骤S202根据所述第一真样本数据集生成假样本数据集的具体实现方式进行了介绍。该方式可以包括以下步骤：

步骤S301：针对所述第一真样本数据集中的每个第一真样本数据，确定所述第一真样本数据的情感逻辑因子。

需要说明的是，情感逻辑因子为矩阵形式，假设第一真样本数据中包含d个句子，则情感逻辑因子为d×d大小的矩阵，每个元素表示两个句子之间的逻辑关联程度。每个元素的取值范围可以为[0,1]，比如，句子A与句子B，其情感逻辑因子元素的数值越大，表明这两个句子的逻辑关联程度越大，即从句子A更能合理化地推出句子B；反之，若句子A与句子B之间的情感逻辑因子的数值越小，说明这两个句子的逻辑关联程度就越小，即从逻辑上由句子A推导出句子B的概率越小。

在本申请中，可以预先构建并训练情感逻辑因子生成模型，基于训练好的情感逻辑因子生成模型实现上述步骤S301，具体的，可以将所述第一真样本数据中每个句子的文本数据输入情感逻辑因子生成模型，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子。情感逻辑因子生成模型的构建及训练方式将通过后面的实施例详细说明，此处不再展开描述。

步骤S302：基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集。

在本申请中，可以预先构建并训练数据生成模型，基于训练好的数据生成模型实现上述步骤S302。具体实现方式将通过后面的实施例详细说明，此处不再展开描述。

在本申请的另一个实施例中，对情感逻辑因子生成模型的构建及训练过程进行了详细介绍，具体如下：

请参照图6，图6为本申请实施例公开的一种情感逻辑因子生成模型的结构示意图，如图6所示，该情感逻辑因子生成模型包括：语义特征提取模块、情感特征提取模块、原因特征提取模块、情感概率预测模块、原因概率预测模块和情感逻辑因子生成模块。

作为一种可实施方式，所述情感逻辑因子生成模型可以基于第二真样本数据集训练得到；所述第二真样本数据集中包括多个第二真样本数据，每个所述第二真样本数据包括一组真对话数据中每个句子的文本数据、原因标签、情感类型标签以及该组真对话数据的情感逻辑因子，所述原因标签用于指示所述句子是否与其他句子存在情感逻辑关系。

基于此，将所述第一真样本数据中每个句子的文本数据输入情感逻辑因子生成模型，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子的具体实现方式可以如下：

所述情感逻辑因子生成模型中的情感逻辑因子生成模块对所述第一真样本数据中每个句子的情感特征、情感概率、原因特征、原因概率以及所述第一真样本数据中句子的位置关系编码向量进行融合，得到所述第一真样本数据的情感逻辑因子。

需要说明的是，情感逻辑因子可以用二维矩阵表示，其中，第i行第j列的情感逻辑因子元素用于表示句子i和句子j的情感逻辑关系。具体的，其可通过下面公式计算得到：

其中，r_i ^emo表示句子i的情感特征，表示句子i的情感概率，表示句子j的原因特征，表示句子j的原因概率，rpe_i,j表示句子i和句子j的位置关系编码向量。

在本申请中，情感逻辑因子生成模型可以基于一个多层神经网络实现。作为一种可实施方式，语义特征提取模块可以采用Bi-LSTM模型和Attention机制实现，情感特征提取模块、原因特征提取模块可以采用Bi-LSTM模型实现，情感概率预测模块、原因概率预测模块和情感逻辑因子生成模块可以采用softmax网络实现。

为便于理解，请参照图7，图7为本申请实施例公开的一种情感逻辑因子生成模型的结构示意图，如图7所示，输入文本数据为D＝{c₁,...,c_d}，其中c_d表示输入文本数据中的第d个句子，r_i ^emo表示句子i的情感特征，r_i ^cau表示句子i的原因特征，表示句子i的情感概率，表示句子i的原因概率。模型最终输出表示情感逻辑因子中第i行第j列的情感逻辑因子元素。

实际人机交互过程中，在当前句子周围的句子与其存在情感逻辑关系可能性大，距离较远的句子与其存在情感逻辑关系可能性小。因此，在本申请中预设滑窗参数，该滑窗参数用于指示存在情感逻辑关系可能性大的句子组中包含句子的数量。基于该滑窗参数可以确定滑窗。比如滑窗参数为3，则每个滑窗为3×3的矩阵大小。

则作为另一种可实施方式，所述情感逻辑因子生成模型是基于预设滑窗参数以及第二真样本数据集训练得到的。

基于此，在所述情感逻辑因子生成模型中的语义特征提取模块对所述第一真样本数据中每个句子进行语义特征提取，得到所述第一真样本数据中每个句子的语义特征，包括：

针对所述第一真样本数据中每个句子，提取所述句子以及与所述句子处于同一滑窗内的其他句子的整体语义特征作为所述句子的语义特征。

该方式中，可以同时考虑与当前句子处于同一滑窗内的其他句子的上下文关系，得到的当前句子的语义特征中融合有与其存在情感逻辑关系可能性大的句子的特征，使得最终得出的第一真样本数据的情感逻辑因子更为准确。

在本申请的另一个实施例中，对基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集的实现方式进行了详细介绍，具体如下：

在上述内容中提到，在本申请中可以基于GAN生成假样本数据集。而GAN利用判别器D(Discriminator)对生成器G(Generator)生成数据进行指导，在本申请中通过优化GAN的模型结构，构建并训练得到了数据生成模型。具体将通过下述内容详细说明。

作为一种可实施方式，本申请中的数据生成模型包括N个生成器，其中N与情感类型标签的数量相同。

以情感类型标签包括愉快情感类型标签、赞扬情感类型标签、中性情感类型标签、抱怨情感类型标签和愤怒情感类型标签这五种为例，数据生成模型包括5个生成器，每个生成器分别对应生成具有愉快情感类型标签、赞扬情感类型标签、中性情感类型标签、抱怨情感类型标签和愤怒情感类型标签的数据。采用多个生成器可以生成具有不同情感类型标签的数据，同时能够增加生成数据的丰富度，而不是生成少量与原数据差别不大的相似的数据。

基于此，作为一种可实施方式，所述基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集，包括：针对所述第一真样本数据集中每个真样本数据，将所述第一真样本数据以及所述第一真样本数据的情感逻辑因子输入数据生成模型的N个生成器，所述数据生成模型的N个生成器输出所述假样本数据集。

作为一种可实施方式，数据生成模型的训练方式如下：

构建判别器，所述判别器为N+1类分类器；，其中N与情感类型标签的数量相同；

以第三真样本数据集作为训练样本，以所述N个生成器的惩罚项累积最小，且所述判别器对所述数据模型的输出的判定结果趋近于所述判别器对第三真样本数据的判定结果为训练目标对所述数据生成模型进行训练。每个生成器的惩罚项可以是通过蒙特卡洛搜索和判别器得到。

需要说明的是，在本申请中，判别器采用多分类，其可以在指导某一生成器生成数据的同时，可以远离其他情感类型标签。此外，在训练数据生成模型时，加入真样本数据的情感逻辑因子，可以使数据生成模型学习到真样本数据的情感逻辑特征，使生成的假样本数据更贴近于真样本数据。

作为一种可实施方式，每个生成器可以使用LSTM作为网络层，判别器可以使用CNN作为网络层。

数据生成模型生成的假样本数据集能够解决真样本数据集中各种情感类型的数据分布不均衡的问题。

下面对本申请实施例公开的情感分析装置进行描述，下文描述的情感分析装置与上文描述的情感分析方法可相互对应参照。

参照图8，图8为本申请实施例公开的一种情感分析装置结构示意图。如图8所示，该情感分析装置可以包括：

获取单元81，用于获取待分析的语音对话数据；

情感分析单元82，用于针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型。

作为一种可实施方式，所述情感分析单元，包括：

作为一种可实施方式，所述情感分析模型的交互融合编码模块包括音频处理子模块和文本处理子模块：

作为一种可实施方式，所述音频处理子模块中包括音频编码层、第一音频交互融合编码层以及第二音频交互融合编码层，所述文本处理子模块包括文本编码层、第一文本交互融合编码层以及第二文本交互融合编码层；

作为一种可实施方式，所述装置还包括，情感分析模型训练单元，所述情感分析模型训练单元包括：

作为一种可实施方式，所述假样本数据集生成单元，包括：

作为一种可实施方式，所述情感逻辑因子确定单元，包括：

作为一种可实施方式，所述情感逻辑因子生成模型包括语义特征提取模块、情感特征提取模块、原因特征提取模块、情感概率预测模块、原因概率预测模块以及情感逻辑因子生成模块：

作为一种可实施方式，所述情感逻辑因子生成模型是基于预设滑窗参数以及第二真样本数据集训练得到的；所述预设滑窗参数用于指示存在情感逻辑关系可能性大的句子组中包含句子的数量；所述第二真样本数据集中包括多个第二真样本数据，每个所述第二真样本数据包括一组真对话数据中每个句子的文本数据、原因标签、情感类型标签以及该组真对话数据的情感逻辑因子，所述原因标签用于指示所述句子是否与其他句子存在情感逻辑关系。

作为一种可实施方式，所述情感逻辑因子生成模型中的语义特征提取模块还用于：

作为一种可实施方式，所述假样本数据集生成子单元，包括：

作为一种可实施方式，所述数据生成模型的训练方式如下：

构建判别器，所述判别器为N+1类分类器；

参照图9，图9为本申请实施例提供的情感分析设备的硬件结构框图，参照图9，情感分析设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待分析的语音对话数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待分析的语音对话数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种情感分析方法，其特征在于，所述方法包括：

获取待分析的语音对话数据；

针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；利用预先构建的情感分析模型中的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型；

其中，所述交互融合编码模块包括音频处理子模块和文本处理子模块；

2.根据权利要求1所述的方法，其特征在于，所述对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述音频处理子模块中包括音频编码层、第一音频交互融合编码层以及第二音频交互融合编码层，所述文本处理子模块包括文本编码层、第一文本交互融合编码层以及第二文本交互融合编码层；所述情感分析模型的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述情感分析模型的训练方法如下：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一真样本数据集生成假样本数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第一真样本数据的情感逻辑因子，包括：

7.根据权利要求6所述的方法，其特征在于，所述情感逻辑因子生成模型对所述第一真样本数据中每个句子的文本数据进行处理，得到所述第一真样本数据的情感逻辑因子，包括：

8.根据权利要求7所述的方法，其特征在于，所述情感逻辑因子生成模型是基于预设滑窗参数以及第二真样本数据集训练得到的；所述预设滑窗参数用于指示存在情感逻辑关系可能性大的句子组中包含句子的数量；所述第二真样本数据集中包括多个第二真样本数据，每个所述第二真样本数据包括一组真对话数据中每个句子的文本数据、原因标签、情感类型标签以及该组真对话数据的情感逻辑因子，所述原因标签用于指示所述句子是否与其他句子存在情感逻辑关系。

9.根据权利要求8所述的方法，其特征在于，所述情感逻辑因子生成模型中的语义特征提取模块对所述第一真样本数据中每个句子进行语义特征提取，得到所述第一真样本数据中每个句子的语义特征，包括：

10.根据权利要求5所述的方法，其特征在于，所述基于所述第一真样本数据集中各个第一真样本数据以及各个第一真样本数据的情感逻辑因子生成假样本数据集，包括：

11.根据权利要求10所述的方法，其特征在于，所述数据生成模型的训练方式如下：

构建判别器，所述判别器为N+1类分类器；

12.一种情感分析装置，其特征在于，所述装置包括：

获取单元，用于获取待分析的语音对话数据；

情感分析单元，用于针对所述语音对话数据中的每个句子，确定所述句子的音频数据和文本数据；利用预先构建的情感分析模型中的交互融合编码模块对所述句子的音频数据和文本数据进行交互融合编码，得到所述句子的音频特征和文本特征；基于所述句子的音频特征和文本特征，确定所述句子的情感类型；

13.一种情感分析设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至11中任一项所述的情感分析方法的各个步骤。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至11中任一项所述的情感分析方法的各个步骤。