CN108717406A

CN108717406A - 文本情绪分析方法、装置及存储介质

Info

Publication number: CN108717406A
Application number: CN201810443238.XA
Authority: CN
Inventors: 李正洋; 李海疆
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-30
Anticipated expiration: 2038-05-10
Also published as: WO2019214145A1; CN108717406B

Abstract

本发明提供了一种文本情绪分析方法，该方法包括：接收携带目标文本的文本情绪分析请求，对所述目标文本进行预处理，并采用预设序列标注法对经过预处理后的目标文本进行分词处理，得到该目标文本对应的可用词集合；确定该目标文本的待分析的句子，获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；及，分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型，根据模型输出结果判断所述目标文本的情绪极性。本发明还提供一种电子装置及计算机存储介质。利用本发明，可以提高目标文本情绪分析的准确性。

Description

文本情绪分析方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文本情绪分析方法、电子装置及计算机可读存储介质。

背景技术

对于投资机构、投资者制定交易策略来说，特定事件或人物的相应文本的分析是十分必要且有用的。如我们通过分析某人(例如，X先生)在twitter上发布的所有关于中关贸易战的言论，我们大致可以了解其对该事件的态度，这对于中方提前做相应的准备是十分有用的。然而如今对于这类事件及人物的分析主要依靠于专业人员的人工作业，此类方法主要依赖于研究人员的专业能力及个人经验，很容易得出片面的结论。

发明内容

鉴于以上内容，本发明提供一种文本情绪分析方法、服务器及计算机可读存储介质，其主要目的在于提高目标文本情绪分析的准确性及效率。

为实现上述目的，本发明提供一种文本情绪分析方法，该方法包括：

S1、接收携带目标文本的文本情绪分析请求，对所述目标文本进行预处理，并采用预设序列标注法对经过预处理后的目标文本进行分词处理，得到该目标文本对应的可用词集合；

S2、确定该目标文本的待分析的句子，根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；及

S3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型，根据模型输出结果判断所述目标文本的情绪极性。

此外，本发明还提供一种电子装置，其特征在于，该装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本情绪分析程序，所述文本情绪分析程序被所述处理器执行时，可实现如下步骤：

A1、接收携带目标文本的文本情绪分析请求，对所述目标文本进行预处理，并采用预设序列标注法对经过预处理后的目标文本进行分词处理，得到该目标文本对应的可用词集合；

A2、确定该目标文本的待分析的句子，根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；及

A3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型，根据模型输出结果判断所述目标文本的情绪极性。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括文本情绪分析程序，所述文本情绪分析程序被处理器执行时，可实现如上所述文本情绪分析方法中的任意步骤。

本发明提出的文本情绪分析方法、电子装置及计算机可读存储介质，通过对待分析的目标文本进行分词，根据目标文本的篇幅长短确定待分析的句子，并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量，使得到的句子向量能够更准确的表达待分析的句子的信息；利用每个待分析的句子的句子向量及预先训练好的情绪判断模型，更准确地判断每个待分析的句子的情绪极性；根据目标文本中每个待分析的句子的情绪极性，综合判断目标文本的情绪极性，有助于提高目标文本情绪分析的准确性；通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子，有助于减小目标文本情绪分析的计算量，提高目标文本情绪分析的效率。

附图说明

图1为本发明文本情绪分析方法较佳实施例的流程图；

图2为本发明电子装置较佳实施例的示意图；

图3为本发明图2中文本情绪分析程序的程序模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种文本情绪分析方法。参照图1所示，为本发明文本情绪分析方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，文本情绪分析方法包括步骤S1-S3：

所述目标文本是关于特定事件/特定人物的文本，文本内容既可能是中文，也可能是英文。例如，当目标文本为国内的各券商、机构发布的研究报告时，鉴于中文不像英语等拉丁语系，除了标点符号之外，字之间紧密相连，没有明显的词边界，因此很难将词简单准确的提取出来。在中文中，单字作为最基本的语义单位，虽然也有自己的意义，但表意能力较差，意义较分散，而词的表意能力更强，能更加准确的描述一个事物，因此在自然语言处理中，通常情况下词(包括单字成词)是最基本的处理单位，因此必须对文本进行准确的分词处理；相反，当目标文本的内容为英文时，例如，X先生在twitter 上发布的所有关于中关贸易战的言论，英文的每个单词之间有明显的词边界 (空格)，则不需做文本分词处理。

分词方法大致分为两种：基于词典的机械切分，基于统计模型的序列标注切分两种方式。

在本实施例中，采用序列标注法训练一个长短期记忆循环神经网络(Long Short-Term Memory，简称LSTM)模型作为分词模型进行分词，该分词模型的训练过程如下：

获取预设数量(例如，10万)的样本语句，其中，样本语句中的词语为预设语料库中采用预设序列标注法标注好的词语。其中，该预设语料库使用的是经典的bakeoff2005中的微软研究院的切分语料，可将其中的训练集部分拿过来做训练，将测试集部分作为最终的测试。该预设序列标注法为按照每个字在词中的位置进行标注，标注类型包括：首字标注、中间字标注、尾字标注、单字标注。例如，在一段文字中，可以将每个字按照在词中的位置进行标注，常用的标记有以下四个label：B，Begin，表示这个字是一个词的首字；M，Middle，表示这是一个词中间的字；E，End，表示这是一个词的尾字；S，Single，表示这是单字成词。分词的过程就是将一段字符输入模型，然后得到相应的标记序列，再根据标记序列进行分词。例如，“达观数据是企业大数据服务商”，经过模型后得到的理想标注序列是：“BMMESBEBMEBME”，最终还原的分词结果是“达观数据/是/企业/大数据/ 服务商”。

在训练过程中，每隔预设时间，使用训练得到的分词模型对所述测试集中样本语句的各个词语标注进行识别，并将识别字符与该样本语句中采用预设序列标注法的标注进行比对，以评估模型识别标注的误差；若训练得到的模型识别标注的误差出现发散，则调整预设的训练参数并重新训练(例如，利用反向传播算法计算模型误差，并根据误差调整模型参数)，直至训练得到的模型识别标注的误差能够收敛；若训练得到的模型识别标注的误差收敛，则结束模型训练，将生成的模型作为分词模型。

需要说明的是，为了保证上述分词步骤顺利进行，在进行分词操作之前，该步骤还包括：将所述目标文本由原始格式转换成目标格式。其中，目标格式为可执行分词操作的格式。例如，当接收到的目标文本为各券商、机构发布的研究报告时，研究报告一般为pdf格式，无法直接进行分词操作，因此，将格式为pdf的研究报告通过软件转换成可执行分词操作的格式，例如，word。

进一步地，在进行分词操作之前，需要对上述转换格式后的目标文本进行预处理，例如，根据所述目标文本中的句号将所述目标文本划分为多个句子，然后针对每个句子进行分词操作。

S2、确定该目标文本的待分析的句子，根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；

其中，所述“确定该目标文本的待分析的句子”的步骤包括：

统计所述目标文本的字数；当字数小于预设阈值时，获取所述目标文本中的每一个句子作为待分析的句子；当字数大于或等于预设阈值时，则分别获取所述目标文本对应的可用词集合中每个词语的统计特征，根据预设评分规则计算每个词语的评分，筛选出评分排序靠前的词语作为目标文本的关键词，并从所述目标文本中筛选出包含关键词的句子，将所述包含关键词的句子作为待分析的句子。

在本实施例中，通过统计目标文本的字数，确定目标文本篇幅的长短。

当字数小于预设阈值(例如，300)时，目标文本的篇幅较短，目标文本的每个句子都有可能是关键语句，因此，可将目标文本的每个句子作为待分析的句子。当字数大于或等于预设阈值时，目标文本的篇幅较长，目标文本中会存在较多无法表达关键信息的噪声语句，将影响后续情绪分析结果，因此，需从目标文本中筛选出能代表目标文本关键信息的句子进行后续操作。

优选地，根据无监督的统计类方法对每个词语进行打分排序来提取出关键词。具体地，先从目标文本的分词结果中过滤掉重复词语及无意义词语，例如，将目标文本的每个句子的可用词集合中的所有词语提取成一个大的可用词集合(集合中词语不重复，即每个词在这个集合中只出现一次)，然后删除一些无意义的词，例如，“我、你、的、是”等。将这些代词、介词等无具体意义的词语预先按经验组成一个列表，然后删除这些无意义的词。

具体地，所述统计特征包括：词频、位置信息及词跨度。

词频，表示一个词在文本中出现的频率。一般情况下，如果一个词在文本中出现的越是频繁，那么这个词就越有可能作为文章的核心词。因此，频率越高，词频评分也越高；

位置信息，一般情况下，词出现的位置对于词来说有着很大的价值。例如，标题、摘要本身就是作者概括出的文章的中心思想，因此出现在这些地方的词具有一定的代表性，更可能成为关键词；

本实施例中，采用的比例是5∶5∶1的方式，为词语的位置信息设定在开头、结尾、中间的重要程度，开头、结尾、中间的划分比例为1∶1∶8。例如，如果一个目标文本一共由一万个词语有序组成，位于前百分之十位置的词语划分为开头位置，位于最后百分之十位置的词语划分为结尾位置，其余作为中间位置，重要程度为5∶5∶1。例如，假设“试验区”一词一共在目标文本中出现过5次，2次在开头，1次在结尾，其余在中间，于是‘试验区’一词关于位置的分数为：5×2+5*1+1*2＝17。

词跨度，指一个词或者短语字文中首次出现和末次出现之间的距离，词跨度越大说明这个词对文本越重要，可以反映文本的主题。因此，词跨度越大，词跨度评分也越高。具体地，词跨度的计算公式为：

span_i＝(last_i-first_i+1)/sum

其中，last_i表示词语i在目标文本中最后一次出现的位置，first_i表示词语 i在目标文本中第一次出现的位置，sum表示目标文本中词语的总数。词跨度被作为提取关键词的方法是因为在现实中，文本中总是有很多噪声(指不是关键词的那些词)，使用词跨度可以减少这些噪声。

综合考虑上述统计特征，并计算可用词集合中每个词语的评分。具体地，所述每个词语的评分的计算公式为：

S＝α*X₁+β*X₂+γ*X₃

其中，X₁为词语在所述目标文本中出现的频率的词频评分，α为预设的词频权重，X₂为词语在所述目标文本中出现位置的位置评分，β为预设的位置权重，X₃为词语在所述目标文本中的词跨度评分，γ为预设的词跨度权重。

根据每个词语的评分高低顺序进行排序，选择排序靠前的K(K的范围是个可自选的范围，根据需求来设定)个词语作为目标文本的关键词。上述步骤综合考虑每个词语的词频、位置信息、词跨度，提高了关键词提取的准确性。然后，从目标文本中筛选出包含上述关键词的句子作为待分析的句子。通过从篇幅较长的目标文本中筛选出包含关键词的句子作为待分析的句子，有助于减小计算量，提高文本情绪分析的效率。

确定目标文本的待分析的句子之后，需根据每个待分析的句子对应的可用词集合计算其对应的句子向量，首先，分别计算每个待分析的句子对应的可用词集合中每个词语的词向量，具体地，该步骤包括：

把每个词语输入预先训练好的词向量模型(word2vec模型)，生成一个词语级别(word-level)的向量r^wrd；把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型(Convolutional Neural Network，CNN)，生成该词语对应的字母/字符级别(character-level)的向量r^wch；将所述word-level的向量和character-level的向量组合得到一个新的词向量u_n＝[r^wrd，r^wch]，作为每个词语的词向量。

其中，r^wrd表示利用word2vec模型训练得到的向量，其处理方式与现有的word2vec模型一致，这里不再赘述；r^wch表示通过一层卷积神经网络训练得到的向量，具体步骤如下：

假设词w由M个字母组成，每个字母通过一个字符向量矩阵(character embeddingmatrix)转化成一个向量r^chr，即r^chr＝W^chrv^c，其中v^c是one-hot 向量(一个长度为n的数组，只有一个元素是1.0，其他元素是0.0)，依次处理后词w就能表示成一个d^chr*M的向量矩阵了。然后使用一个卷积长度为 k^chr的过滤器对上述向量进行卷积，再使用一个最大池化层进行池化后得到一个长度为的向量，也即r^wch。需要说明的是，本发明方案中卷积的做法和传统卷积不太一样，把相邻几个向量进行拼接之后，通过一个线性计算转化成一个固定维度的向量，统一不同长度词的维度。

通过上述步骤获取一个词语的word-level的向量和character-level的向量，有利于同时捕捉到词语的语义信息和词形态信息，为后面计算每个待分析的句子的句子向量的步骤打下基础。

利用上述步骤获取每个待分析的句子中不同词语的词向量后，需进一步确定每个句子对应的句子向量。具体地，该步骤包括：把每个待分析的句子输入所述word2vec模型，生成一个句子级别(sentence-level)的向量；

获取每个待分析的句子对应的可用词集合中每个词语的词向量 u₁，u₂，...，u_n，把组成每个待分析的句子的词语输入所述卷积神经网络模型，生成每个待分析的句子对应的word-level的向量；及

将所述sentence-level的向量和word-level的向量组合得到一个新的句子向量，作为每个待分析的句子的句子向量。

其中，所述每个待分析的句子对应的word-level的向量的计算方法与上述 r^wch的步骤大致相同，这里不作赘述。

利用上述步骤计算每个待分析的句子的句子向量，使得到的句子向量能更准确地表达每个待分析的句子的信息，为后面判断目标文本的情绪极性打下基础。

具体地，预先构建样本库，利用样本库训练预设深度神经网络模型(例如，一个三层的神经网络)，确定模型参数，将确定模型参数的神经网络模型作为情绪判断模型。所述情绪判断模型的训练步骤包括：

获取预设数量的样本语句，并根据其情绪极性为每个样本语句标注标签，得到样本数据。其中，标签包括：“1”、“0”、“-1”，“1”表示样本语句的情绪极性偏向于正面，“0”表示样本语句的情绪极性偏向于中立，“-1”表示样本语句的情绪极性偏向于负面。

基于交叉验证法(cross-validation)将预设数量(例如，10万)的样本语句按照预设比例(例如，7∶1∶2)分为：训练集，评估集，测试集这三个部分，其中，测试集为完全不参与模型训练的数据，仅仅是用来观测训练效果的数据；将训练集的样本数据输入至三层的神经网络模型，对该神经网络模型进行训练，初步确定模型参数；为了相对客观地判断初步确定的模型参数对训练集之外的样本数据的拟合程度，将所述测试集的样本数据输入训练得到的所述神经网络模型中，以对训练得到的所述神经网络模型进行测试，当训练得到的所述神经网络模型满足预设验证条件(例如，模型预测准确率大于或等于预设阈值，95％)，则训练完成，并将训练完成的神经网络模型作为情绪判断模型。

在本实施例中，训练模型时采用的是标注了标签为离散值的样本数据，因此，将目标文本的每个所述待分析的句子输入所述情绪判断模型后，模型输出结果也为离散值。

进一步地，需根据模型输出结果判断所述目标文本的情绪极性。具体地，该步骤包括：

根据模型输出结果分别确定每个所述待分析的句子的情绪极性，分别统计不同情绪极性对应的待分析的句子的数量；选择待分析的句子数量最多的情绪极性作为目标文本对应的情绪极性。

在本实施例中，将每个待分析的句子的句子向量作为情绪判断模型的输入，输出每个待分析的句子对应的情绪标签，例如，“1”、“0”、“-1”，根据情绪标签确定每个待分析的句子的情绪极性。然后，将所有待分析的句子的输出结果进行融合，得到目标文本的情绪极性。在本实施例中，分统计不同情绪极性对应的待分析的句子的数量，哪个情绪极性对应的句子数量最多，则将该情绪极性作为目标文本的情绪极性。例如，通过上述步骤确定X先生发布的关于中关贸易战的文本中每一句话的情绪极性、并对不同情绪极性对应的句子进行统计，若“负面”情绪极性对应的句子数量最多，判断X先生对中美贸易战的态度为“负面”。

上述实施例提出的文本情绪分析方法，通过对待分析的目标文本进行分词，根据目标文本的篇幅长短确定待分析的句子，并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量，使得到的句子向量能够更准确的表达待分析的句子的信息；利用每个待分析的句子的句子向量及预先训练好的情绪判断模型，更准确地判断每个待分析的句子的情绪极性；根据目标文本中每个待分析的句子的情绪极性，综合判断目标文本的情绪极性，有助于提高目标文本情绪分析的准确性；通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子，有助于减小目标文本情绪分析的计算量，提高目标文本情绪分析的效率。

本发明还提供一种电子装置。参照图2所示，为本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12，通信总线13，及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1 的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如该电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD) 卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括该电子装置 1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据，例如文本情绪分析程序10等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器 11中存储的程序代码或处理数据，例如文本情绪分析程序10等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

图2仅示出了具有组件11-14的电子装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED) 触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图2所示的电子装置1实施例中，作为一种计算机存储介质的存储器 11中存储文本情绪分析程序10的程序代码，处理器12执行文本情绪分析程序10的程序代码时，实现如下步骤：

所述目标文本是关于特定事件/特定人物的文本，文本内容既可能是中文，也可能是英文。例如，当目标文本为国内的各券商、机构发布的研究报告时，需对文本进行准确的分词处理；相反，当目标文本的内容为英文时，例如，X 先生在twitter上发布的所有关于中美贸易战的言论，英文的每个单词之间有明显的词边界(空格)，则不需做文本分词处理。

在本实施例中，采用序列标注法训练一个长短期记忆循环神经网络 (LSTM)模型作为分词模型进行分词，该分词模型的训练过程如下：

A2、确定该目标文本的待分析的句子，根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；

具体地，所述统计特征包括：词频、位置信息及词跨度。

词频，表示一个词在文本中出现的频率，频率越高，词频评分也越高。

位置信息，一般情况下，词出现的位置对于词来说有着很大的价值，本实施例中，采用的比例是5∶5∶1的方式，为词语的位置信息设定在开头、结尾、中间的重要程度，开头、结尾、中间的划分比例为1∶1∶8。

span_i＝(last_i-first_i+1)/sum

S＝α*X₁+β*X₂+γ*X₃

把每个词语输入预先训练好的词向量模型(word2vec模型)，生成一个词语级别(word-level)的向量r^wrd；把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型(Convolutional Neural Network，CNN)，生成该词语对应的字母/字符级别(character-level)的向量r^wch；将所述词语级别(word-level) 的向量和字母/字符级别(character-level)的向量组合得到一个新的词向量 u_n＝[r^wrd，r^wch]，作为每个词语的词向量。

利用上述步骤获取每个待分析的句子中不同词语的词向量后，需进一步确定每个句子对应的句子向量。具体地，该步骤包括：

把每个待分析的句子输入所述word2vec模型，生成一个句子级别 (sentence-level)的向量；获取每个待分析的句子对应的可用词集合中每个词语的词向量u₁，u₂，...，u_n，把组成每个待分析的句子的词语输入所述卷积神经网络模型，生成每个待分析的句子对应的word-level的向量；将所述 sentence-level的向量和word-level的向量组合得到一个新的句子向量，作为每个待分析的句子的句子向量。

基于交叉验证法(cross-validation)将预设数量(例如，10万)的样本语句按照预设比例(例如，7∶1∶2)分为：训练集、评估集、测试集这三个部分，其中，测试集为完全不参与模型训练的数据，仅仅是用来观测训练效果的数据；将训练集的样本数据输入至三层的神经网络模型，对该神经网络模型进行训练，初步确定模型参数；为了相对客观地判断初步确定的模型参数对训练集之外的样本数据的拟合程度，将所述测试集的样本数据输入训练得到的所述神经网络模型中，以对训练得到的所述神经网络模型进行测试，当训练得到的所述神经网络模型满足预设验证条件(例如，模型预测准确率大于或等于预设阈值，95％)，则训练完成，并将训练完成的神经网络模型作为情绪判断模型。

将每个待分析的句子的句子向量作为情绪判断模型的输入，输出每个待分析的句子对应的情绪标签，例如，“1”、“0”、“-1”，根据情绪标签确定每个待分析的句子的情绪极性。然后，将所有待分析的句子的输出结果进行融合，得到目标文本的情绪极性。在本实施例中，分别统计不同情绪极性对应的待分析的句子的数量，哪个情绪极性对应的句子数量最多，则将该情绪极性作为目标文本的情绪极性。例如，通过上述步骤确定X先生发布的关于中美贸易战的文本中每一句话的情绪极性、并对不同情绪极性对应的句子进行统计，若“负面”情绪极性对应的句子数量最多，判断X先生对中美贸易战的态度为“负面”。

上述实施例提出的电子装置1，通过对待分析的目标文本进行分词，根据目标文本的篇幅长短确定待分析的句子，并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量，使得到的句子向量能够更准确的表达待分析的句子的信息；利用每个待分析的句子的句子向量及预先训练好的情绪判断模型，更准确地判断每个待分析的句子的情绪极性；根据目标文本中每个待分析的句子的情绪极性，综合判断目标文本的情绪极性，有助于提高目标文本情绪分析的准确性；通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子，有助于减小目标文本情绪分析的计算量，提高目标文本情绪分析的效率。

可选地，在其他的实施例中，文本情绪分析程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如，参照图3所示，为图2中文本情绪分析程序10的模块示意图，该实施例中，文本情绪分析程序 10可以被分割为分词模块110、向量计算模块120及情绪分析模块130，所述模块110-130所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

分词模块110，用于接收携带目标文本的文本情绪分析请求，对所述目标文本进行预处理，并采用预设序列标注法对经过预处理后的目标文本进行分词处理，得到该目标文本对应的可用词集合；

向量计算模块120，用于确定该目标文本的待分析的句子，根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合，根据预设计算规则，分别计算所述待分析的句子的句子向量，其中，句子向量包括句子级别的向量和词语级别的向量；及

情绪分析模块130，用于分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型，根据模型输出结果判断所述目标文本的情绪极性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括文本情绪分析程序10，所述文本情绪分析程序10被处理器执行时实现如下操作：

本发明之计算机可读存储介质的具体实施方式与上述文本情绪分析方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本情绪分析方法，应用于电子装置，其特征在于，所述方法包括：

2.根据权利要求1所述的文本情绪分析方法，其特征在于，所述“根据模型输出结果判断所述目标文本的情绪极性”的步骤包括：

根据模型输出结果分别确定每个所述待分析的句子的情绪极性，分别统计不同情绪极性对应的待分析的句子的数量；及

选择待分析的句子数量最多的情绪极性作为目标文本对应的情绪极性。

3.根据权利要求2所述的文本情绪分析方法，其特征在于，所述“分别计算所述待分析的句子的句子向量”的步骤包括：

把所述待分析的句子输入所述词向量模型，生成一个句子级别的向量；

获取所述待分析的句子对应的可用词集合中每个词语的词向量，把组成每个所述待分析的句子的词语输入所述卷积神经网络模型，生成每个句子对应的词语级别的向量；及

将所述句子级别的向量和词语级别的向量组合得到一个新的句子向量，作为每个所述待分析的句子的句子向量。

4.根据权利要求3所述的文本情绪分析方法，其特征在于，所述“获取所述待分析的句子对应的可用词集合中每个词语的词向量”的步骤包括：

把每个词语输入预先训练好的词向量模型，生成一个词语级别的向量；

把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型，生成该词语对应的字母/字符级别的向量；及

将所述词语级别的向量和字母/字符级别的向量组合得到一个新的词向量，作为每个词语的词向量。

5.根据权利要求4所述的文本情绪分析方法，其特征在于，所述“采用预设序列标注法对经过预处理后的目标文本进行分词处理”的步骤包括：

对所述经过预处理后的目标文本中的每个字在词语中的位置进行标注，标注类型包括首字标注、中间字标注、尾字标注、单字标注；及

根据每个字的标注类型，确定所述经过预处理后的目标文本的分词结果。

6.根据权利要求1至5中任意一项所述的文本情绪分析方法，其特征在于，所述“确定该目标文本的待分析的句子”的步骤包括：

统计所述目标文本的字数；

当字数小于预设阈值时，获取所述目标文本中的每一个句子作为待分析的句子；或

当字数大于或等于预设阈值时，则分别获取所述目标文本对应的可用词集合中每个词语的统计特征，根据预设评分规则计算每个词语的评分，筛选出评分排序靠前的词语作为目标文本的关键词，并从所述目标文本中筛选出包含关键词的句子，将所述包含关键词的句子作为待分析的句子。

7.根据权利要求6所述的文本情绪分析方法，其特征在于：

所述统计特征包括词频、位置信息及词跨度；

所述每个词语的评分的计算公式为：

S＝α*X₁+β*X₂+γ*X₃

8.一种电子装置，其特征在于，该装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本情绪分析程序，所述文本情绪分析程序被所述处理器执行时，可实现如下步骤：

9.根据权利要求8所述的电子装置，其特征在于，所述“确定该目标文本的待分析的句子”的步骤包括：

统计所述目标文本的字数；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括文本情绪分析程序，所述文本情绪分析程序被处理器执行时，可实现如权利要求1至7中任意一项所述的文本情绪分析方法的步骤。