CN108717406A - 文本情绪分析方法、装置及存储介质 - Google Patents
文本情绪分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108717406A CN108717406A CN201810443238.XA CN201810443238A CN108717406A CN 108717406 A CN108717406 A CN 108717406A CN 201810443238 A CN201810443238 A CN 201810443238A CN 108717406 A CN108717406 A CN 108717406A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- target text
- analyzed
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本情绪分析方法,该方法包括:接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;确定该目标文本的待分析的句子,获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及,分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。本发明还提供一种电子装置及计算机存储介质。利用本发明,可以提高目标文本情绪分析的准确性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本情绪分析方法、电子装置及计算机可读存储介质。
背景技术
对于投资机构、投资者制定交易策略来说,特定事件或人物的相应文本的分析是十分必要且有用的。如我们通过分析某人(例如,X先生)在twitter上发布的所有关于中关贸易战的言论,我们大致可以了解其对该事件的态度,这对于中方提前做相应的准备是十分有用的。然而如今对于这类事件及人物的分析主要依靠于专业人员的人工作业,此类方法主要依赖于研究人员的专业能力及个人经验,很容易得出片面的结论。
发明内容
鉴于以上内容,本发明提供一种文本情绪分析方法、服务器及计算机可读存储介质,其主要目的在于提高目标文本情绪分析的准确性及效率。
为实现上述目的,本发明提供一种文本情绪分析方法,该方法包括:
S1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
S2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
S3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
此外,本发明还提供一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本情绪分析程序,所述文本情绪分析程序被所述处理器执行时,可实现如下步骤:
A1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
A2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
A3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括文本情绪分析程序,所述文本情绪分析程序被处理器执行时,可实现如上所述文本情绪分析方法中的任意步骤。
本发明提出的文本情绪分析方法、电子装置及计算机可读存储介质,通过对待分析的目标文本进行分词,根据目标文本的篇幅长短确定待分析的句子,并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量,使得到的句子向量能够更准确的表达待分析的句子的信息;利用每个待分析的句子的句子向量及预先训练好的情绪判断模型,更准确地判断每个待分析的句子的情绪极性;根据目标文本中每个待分析的句子的情绪极性,综合判断目标文本的情绪极性,有助于提高目标文本情绪分析的准确性;通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子,有助于减小目标文本情绪分析的计算量,提高目标文本情绪分析的效率。
附图说明
图1为本发明文本情绪分析方法较佳实施例的流程图;
图2为本发明电子装置较佳实施例的示意图;
图3为本发明图2中文本情绪分析程序的程序模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本情绪分析方法。参照图1所示,为本发明文本情绪分析方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文本情绪分析方法包括步骤S1-S3:
S1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
所述目标文本是关于特定事件/特定人物的文本,文本内容既可能是中文,也可能是英文。例如,当目标文本为国内的各券商、机构发布的研究报告时,鉴于中文不像英语等拉丁语系,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词简单准确的提取出来。在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位,因此必须对文本进行准确的分词处理;相反,当目标文本的内容为英文时,例如,X先生在twitter 上发布的所有关于中关贸易战的言论,英文的每个单词之间有明显的词边界 (空格),则不需做文本分词处理。
分词方法大致分为两种:基于词典的机械切分,基于统计模型的序列标注切分两种方式。
在本实施例中,采用序列标注法训练一个长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型作为分词模型进行分词,该分词模型的训练过程如下:
获取预设数量(例如,10万)的样本语句,其中,样本语句中的词语为预设语料库中采用预设序列标注法标注好的词语。其中,该预设语料库使用的是经典的bakeoff2005中的微软研究院的切分语料,可将其中的训练集部分拿过来做训练,将测试集部分作为最终的测试。该预设序列标注法为按照每个字在词中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。例如,在一段文字中,可以将每个字按照在词中的位置进行标注,常用的标记有以下四个label:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。例如,“达观数据是企业大数据服务商”,经过模型后得到的理想标注序列是:“BMMESBEBMEBME”,最终还原的分词结果是“达观数据/是/企业/大数据/ 服务商”。
在训练过程中,每隔预设时间,使用训练得到的分词模型对所述测试集中样本语句的各个词语标注进行识别,并将识别字符与该样本语句中采用预设序列标注法的标注进行比对,以评估模型识别标注的误差;若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练(例如,利用反向传播算法计算模型误差,并根据误差调整模型参数),直至训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为分词模型。
需要说明的是,为了保证上述分词步骤顺利进行,在进行分词操作之前,该步骤还包括:将所述目标文本由原始格式转换成目标格式。其中,目标格式为可执行分词操作的格式。例如,当接收到的目标文本为各券商、机构发布的研究报告时,研究报告一般为pdf格式,无法直接进行分词操作,因此,将格式为pdf的研究报告通过软件转换成可执行分词操作的格式,例如,word。
进一步地,在进行分词操作之前,需要对上述转换格式后的目标文本进行预处理,例如,根据所述目标文本中的句号将所述目标文本划分为多个句子,然后针对每个句子进行分词操作。
S2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;
其中,所述“确定该目标文本的待分析的句子”的步骤包括:
统计所述目标文本的字数;当字数小于预设阈值时,获取所述目标文本中的每一个句子作为待分析的句子;当字数大于或等于预设阈值时,则分别获取所述目标文本对应的可用词集合中每个词语的统计特征,根据预设评分规则计算每个词语的评分,筛选出评分排序靠前的词语作为目标文本的关键词,并从所述目标文本中筛选出包含关键词的句子,将所述包含关键词的句子作为待分析的句子。
在本实施例中,通过统计目标文本的字数,确定目标文本篇幅的长短。
当字数小于预设阈值(例如,300)时,目标文本的篇幅较短,目标文本的每个句子都有可能是关键语句,因此,可将目标文本的每个句子作为待分析的句子。当字数大于或等于预设阈值时,目标文本的篇幅较长,目标文本中会存在较多无法表达关键信息的噪声语句,将影响后续情绪分析结果,因此,需从目标文本中筛选出能代表目标文本关键信息的句子进行后续操作。
优选地,根据无监督的统计类方法对每个词语进行打分排序来提取出关键词。具体地,先从目标文本的分词结果中过滤掉重复词语及无意义词语,例如,将目标文本的每个句子的可用词集合中的所有词语提取成一个大的可用词集合(集合中词语不重复,即每个词在这个集合中只出现一次),然后删除一些无意义的词,例如,“我、你、的、是”等。将这些代词、介词等无具体意义的词语预先按经验组成一个列表,然后删除这些无意义的词。
具体地,所述统计特征包括:词频、位置信息及词跨度。
词频,表示一个词在文本中出现的频率。一般情况下,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。因此,频率越高,词频评分也越高;
位置信息,一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词;
本实施例中,采用的比例是5∶5∶1的方式,为词语的位置信息设定在开头、结尾、中间的重要程度,开头、结尾、中间的划分比例为1∶1∶8。例如,如果一个目标文本一共由一万个词语有序组成,位于前百分之十位置的词语划分为开头位置,位于最后百分之十位置的词语划分为结尾位置,其余作为中间位置,重要程度为5∶5∶1。例如,假设“试验区”一词一共在目标文本中出现过5次,2次在开头,1次在结尾,其余在中间,于是‘试验区’一词关于位置的分数为:5×2+5*1+1*2=17。
词跨度,指一个词或者短语字文中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。因此,词跨度越大,词跨度评分也越高。具体地,词跨度的计算公式为:
spani=(lasti-firsti+1)/sum
其中,lasti表示词语i在目标文本中最后一次出现的位置,firsti表示词语 i在目标文本中第一次出现的位置,sum表示目标文本中词语的总数。词跨度被作为提取关键词的方法是因为在现实中,文本中总是有很多噪声(指不是关键词的那些词),使用词跨度可以减少这些噪声。
综合考虑上述统计特征,并计算可用词集合中每个词语的评分。具体地,所述每个词语的评分的计算公式为:
S=α*X1+β*X2+γ*X3
其中,X1为词语在所述目标文本中出现的频率的词频评分,α为预设的词频权重,X2为词语在所述目标文本中出现位置的位置评分,β为预设的位置权重,X3为词语在所述目标文本中的词跨度评分,γ为预设的词跨度权重。
根据每个词语的评分高低顺序进行排序,选择排序靠前的K(K的范围是个可自选的范围,根据需求来设定)个词语作为目标文本的关键词。上述步骤综合考虑每个词语的词频、位置信息、词跨度,提高了关键词提取的准确性。然后,从目标文本中筛选出包含上述关键词的句子作为待分析的句子。通过从篇幅较长的目标文本中筛选出包含关键词的句子作为待分析的句子,有助于减小计算量,提高文本情绪分析的效率。
确定目标文本的待分析的句子之后,需根据每个待分析的句子对应的可用词集合计算其对应的句子向量,首先,分别计算每个待分析的句子对应的可用词集合中每个词语的词向量,具体地,该步骤包括:
把每个词语输入预先训练好的词向量模型(word2vec模型),生成一个词语级别(word-level)的向量rwrd;把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型(Convolutional Neural Network,CNN),生成该词语对应的字母/字符级别(character-level)的向量rwch;将所述word-level的向量和character-level的向量组合得到一个新的词向量un=[rwrd,rwch],作为每个词语的词向量。
其中,rwrd表示利用word2vec模型训练得到的向量,其处理方式与现有的word2vec模型一致,这里不再赘述;rwch表示通过一层卷积神经网络训练得到的向量,具体步骤如下:
假设词w由M个字母组成,每个字母通过一个字符向量矩阵(character embeddingmatrix)转化成一个向量rchr,即rchr=Wchrvc,其中vc是one-hot 向量(一个长度为n的数组,只有一个元素是1.0,其他元素是0.0),依次处理后词w就能表示成一个dchr*M的向量矩阵了。然后使用一个卷积长度为 kchr的过滤器对上述向量进行卷积,再使用一个最大池化层进行池化后得到一个长度为的向量,也即rwch。需要说明的是,本发明方案中卷积的做法和传统卷积不太一样,把相邻几个向量进行拼接之后,通过一个线性计算转化成一个固定维度的向量,统一不同长度词的维度。
通过上述步骤获取一个词语的word-level的向量和character-level的向量,有利于同时捕捉到词语的语义信息和词形态信息,为后面计算每个待分析的句子的句子向量的步骤打下基础。
利用上述步骤获取每个待分析的句子中不同词语的词向量后,需进一步确定每个句子对应的句子向量。具体地,该步骤包括:把每个待分析的句子输入所述word2vec模型,生成一个句子级别(sentence-level)的向量;
获取每个待分析的句子对应的可用词集合中每个词语的词向量 u1,u2,...,un,把组成每个待分析的句子的词语输入所述卷积神经网络模型,生成每个待分析的句子对应的word-level的向量;及
将所述sentence-level的向量和word-level的向量组合得到一个新的句子向量,作为每个待分析的句子的句子向量。
其中,所述每个待分析的句子对应的word-level的向量的计算方法与上述 rwch的步骤大致相同,这里不作赘述。
利用上述步骤计算每个待分析的句子的句子向量,使得到的句子向量能更准确地表达每个待分析的句子的信息,为后面判断目标文本的情绪极性打下基础。
S3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
具体地,预先构建样本库,利用样本库训练预设深度神经网络模型(例如,一个三层的神经网络),确定模型参数,将确定模型参数的神经网络模型作为情绪判断模型。所述情绪判断模型的训练步骤包括:
获取预设数量的样本语句,并根据其情绪极性为每个样本语句标注标签,得到样本数据。其中,标签包括:“1”、“0”、“-1”,“1”表示样本语句的情绪极性偏向于正面,“0”表示样本语句的情绪极性偏向于中立,“-1”表示样本语句的情绪极性偏向于负面。
基于交叉验证法(cross-validation)将预设数量(例如,10万)的样本语句按照预设比例(例如,7∶1∶2)分为:训练集,评估集,测试集这三个部分,其中,测试集为完全不参与模型训练的数据,仅仅是用来观测训练效果的数据;将训练集的样本数据输入至三层的神经网络模型,对该神经网络模型进行训练,初步确定模型参数;为了相对客观地判断初步确定的模型参数对训练集之外的样本数据的拟合程度,将所述测试集的样本数据输入训练得到的所述神经网络模型中,以对训练得到的所述神经网络模型进行测试,当训练得到的所述神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于预设阈值,95%),则训练完成,并将训练完成的神经网络模型作为情绪判断模型。
在本实施例中,训练模型时采用的是标注了标签为离散值的样本数据,因此,将目标文本的每个所述待分析的句子输入所述情绪判断模型后,模型输出结果也为离散值。
进一步地,需根据模型输出结果判断所述目标文本的情绪极性。具体地,该步骤包括:
根据模型输出结果分别确定每个所述待分析的句子的情绪极性,分别统计不同情绪极性对应的待分析的句子的数量;选择待分析的句子数量最多的情绪极性作为目标文本对应的情绪极性。
在本实施例中,将每个待分析的句子的句子向量作为情绪判断模型的输入,输出每个待分析的句子对应的情绪标签,例如,“1”、“0”、“-1”,根据情绪标签确定每个待分析的句子的情绪极性。然后,将所有待分析的句子的输出结果进行融合,得到目标文本的情绪极性。在本实施例中,分统计不同情绪极性对应的待分析的句子的数量,哪个情绪极性对应的句子数量最多,则将该情绪极性作为目标文本的情绪极性。例如,通过上述步骤确定X先生发布的关于中关贸易战的文本中每一句话的情绪极性、并对不同情绪极性对应的句子进行统计,若“负面”情绪极性对应的句子数量最多,判断X先生对中美贸易战的态度为“负面”。
上述实施例提出的文本情绪分析方法,通过对待分析的目标文本进行分词,根据目标文本的篇幅长短确定待分析的句子,并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量,使得到的句子向量能够更准确的表达待分析的句子的信息;利用每个待分析的句子的句子向量及预先训练好的情绪判断模型,更准确地判断每个待分析的句子的情绪极性;根据目标文本中每个待分析的句子的情绪极性,综合判断目标文本的情绪极性,有助于提高目标文本情绪分析的准确性;通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子,有助于减小目标文本情绪分析的计算量,提高目标文本情绪分析的效率。
本发明还提供一种电子装置。参照图2所示,为本发明电子装置1较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。
该电子装置1包括存储器11、处理器12,通信总线13,及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1 的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD) 卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子装置 1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如文本情绪分析程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器 11中存储的程序代码或处理数据,例如文本情绪分析程序10等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
图2仅示出了具有组件11-14的电子装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED) 触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在图2所示的电子装置1实施例中,作为一种计算机存储介质的存储器 11中存储文本情绪分析程序10的程序代码,处理器12执行文本情绪分析程序10的程序代码时,实现如下步骤:
A1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
所述目标文本是关于特定事件/特定人物的文本,文本内容既可能是中文,也可能是英文。例如,当目标文本为国内的各券商、机构发布的研究报告时,需对文本进行准确的分词处理;相反,当目标文本的内容为英文时,例如,X 先生在twitter上发布的所有关于中美贸易战的言论,英文的每个单词之间有明显的词边界(空格),则不需做文本分词处理。
分词方法大致分为两种:基于词典的机械切分,基于统计模型的序列标注切分两种方式。
在本实施例中,采用序列标注法训练一个长短期记忆循环神经网络 (LSTM)模型作为分词模型进行分词,该分词模型的训练过程如下:
获取预设数量(例如,10万)的样本语句,其中,样本语句中的词语为预设语料库中采用预设序列标注法标注好的词语。其中,该预设语料库使用的是经典的bakeoff2005中的微软研究院的切分语料,可将其中的训练集部分拿过来做训练,将测试集部分作为最终的测试。该预设序列标注法为按照每个字在词中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。例如,在一段文字中,可以将每个字按照在词中的位置进行标注,常用的标记有以下四个label:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。例如,“达观数据是企业大数据服务商”,经过模型后得到的理想标注序列是:“BMMESBEBMEBME”,最终还原的分词结果是“达观数据/是/企业/大数据/ 服务商”。
在训练过程中,每隔预设时间,使用训练得到的分词模型对所述测试集中样本语句的各个词语标注进行识别,并将识别字符与该样本语句中采用预设序列标注法的标注进行比对,以评估模型识别标注的误差;若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练(例如,利用反向传播算法计算模型误差,并根据误差调整模型参数),直至训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为分词模型。
需要说明的是,为了保证上述分词步骤顺利进行,在进行分词操作之前,该步骤还包括:将所述目标文本由原始格式转换成目标格式。其中,目标格式为可执行分词操作的格式。例如,当接收到的目标文本为各券商、机构发布的研究报告时,研究报告一般为pdf格式,无法直接进行分词操作,因此,将格式为pdf的研究报告通过软件转换成可执行分词操作的格式,例如,word。
进一步地,在进行分词操作之前,需要对上述转换格式后的目标文本进行预处理,例如,根据所述目标文本中的句号将所述目标文本划分为多个句子,然后针对每个句子进行分词操作。
A2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;
其中,所述“确定该目标文本的待分析的句子”的步骤包括:
统计所述目标文本的字数;当字数小于预设阈值时,获取所述目标文本中的每一个句子作为待分析的句子;当字数大于或等于预设阈值时,则分别获取所述目标文本对应的可用词集合中每个词语的统计特征,根据预设评分规则计算每个词语的评分,筛选出评分排序靠前的词语作为目标文本的关键词,并从所述目标文本中筛选出包含关键词的句子,将所述包含关键词的句子作为待分析的句子。
在本实施例中,通过统计目标文本的字数,确定目标文本篇幅的长短。
当字数小于预设阈值(例如,300)时,目标文本的篇幅较短,目标文本的每个句子都有可能是关键语句,因此,可将目标文本的每个句子作为待分析的句子。当字数大于或等于预设阈值时,目标文本的篇幅较长,目标文本中会存在较多无法表达关键信息的噪声语句,将影响后续情绪分析结果,因此,需从目标文本中筛选出能代表目标文本关键信息的句子进行后续操作。
优选地,根据无监督的统计类方法对每个词语进行打分排序来提取出关键词。具体地,先从目标文本的分词结果中过滤掉重复词语及无意义词语,例如,将目标文本的每个句子的可用词集合中的所有词语提取成一个大的可用词集合(集合中词语不重复,即每个词在这个集合中只出现一次),然后删除一些无意义的词,例如,“我、你、的、是”等。将这些代词、介词等无具体意义的词语预先按经验组成一个列表,然后删除这些无意义的词。
具体地,所述统计特征包括:词频、位置信息及词跨度。
词频,表示一个词在文本中出现的频率,频率越高,词频评分也越高。
位置信息,一般情况下,词出现的位置对于词来说有着很大的价值,本实施例中,采用的比例是5∶5∶1的方式,为词语的位置信息设定在开头、结尾、中间的重要程度,开头、结尾、中间的划分比例为1∶1∶8。
词跨度,指一个词或者短语字文中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。因此,词跨度越大,词跨度评分也越高。具体地,词跨度的计算公式为:
spani=(lasti-firsti+1)/sum
其中,lasti表示词语i在目标文本中最后一次出现的位置,firsti表示词语 i在目标文本中第一次出现的位置,sum表示目标文本中词语的总数。词跨度被作为提取关键词的方法是因为在现实中,文本中总是有很多噪声(指不是关键词的那些词),使用词跨度可以减少这些噪声。
综合考虑上述统计特征,并计算可用词集合中每个词语的评分。具体地,所述每个词语的评分的计算公式为:
S=α*X1+β*X2+γ*X3
其中,X1为词语在所述目标文本中出现的频率的词频评分,α为预设的词频权重,X2为词语在所述目标文本中出现位置的位置评分,β为预设的位置权重,X3为词语在所述目标文本中的词跨度评分,γ为预设的词跨度权重。
根据每个词语的评分高低顺序进行排序,选择排序靠前的K(K的范围是个可自选的范围,根据需求来设定)个词语作为目标文本的关键词。上述步骤综合考虑每个词语的词频、位置信息、词跨度,提高了关键词提取的准确性。然后,从目标文本中筛选出包含上述关键词的句子作为待分析的句子。通过从篇幅较长的目标文本中筛选出包含关键词的句子作为待分析的句子,有助于减小计算量,提高文本情绪分析的效率。
确定目标文本的待分析的句子之后,需根据每个待分析的句子对应的可用词集合计算其对应的句子向量,首先,分别计算每个待分析的句子对应的可用词集合中每个词语的词向量,具体地,该步骤包括:
把每个词语输入预先训练好的词向量模型(word2vec模型),生成一个词语级别(word-level)的向量rwrd;把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型(Convolutional Neural Network,CNN),生成该词语对应的字母/字符级别(character-level)的向量rwch;将所述词语级别(word-level) 的向量和字母/字符级别(character-level)的向量组合得到一个新的词向量 un=[rwrd,rwch],作为每个词语的词向量。
其中,rwrd表示利用word2vec模型训练得到的向量,其处理方式与现有的word2vec模型一致,这里不再赘述;rwch表示通过一层卷积神经网络训练得到的向量,具体步骤如下:
假设词w由M个字母组成,每个字母通过一个字符向量矩阵(character embeddingmatrix)转化成一个向量rchr,即rchr=Wchrvc,其中vc是one-hot 向量(一个长度为n的数组,只有一个元素是1.0,其他元素是0.0),依次处理后词w就能表示成一个dchr*M的向量矩阵了。然后使用一个卷积长度为 kchr的过滤器对上述向量进行卷积,再使用一个最大池化层进行池化后得到一个长度为的向量,也即rwch。需要说明的是,本发明方案中卷积的做法和传统卷积不太一样,把相邻几个向量进行拼接之后,通过一个线性计算转化成一个固定维度的向量,统一不同长度词的维度。
通过上述步骤获取一个词语的word-level的向量和character-level的向量,有利于同时捕捉到词语的语义信息和词形态信息,为后面计算每个待分析的句子的句子向量的步骤打下基础。
利用上述步骤获取每个待分析的句子中不同词语的词向量后,需进一步确定每个句子对应的句子向量。具体地,该步骤包括:
把每个待分析的句子输入所述word2vec模型,生成一个句子级别 (sentence-level)的向量;获取每个待分析的句子对应的可用词集合中每个词语的词向量u1,u2,...,un,把组成每个待分析的句子的词语输入所述卷积神经网络模型,生成每个待分析的句子对应的word-level的向量;将所述 sentence-level的向量和word-level的向量组合得到一个新的句子向量,作为每个待分析的句子的句子向量。
其中,所述每个待分析的句子对应的word-level的向量的计算方法与上述 rwch的步骤大致相同,这里不作赘述。
利用上述步骤计算每个待分析的句子的句子向量,使得到的句子向量能更准确地表达每个待分析的句子的信息,为后面判断目标文本的情绪极性打下基础。
A3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
具体地,预先构建样本库,利用样本库训练预设深度神经网络模型(例如,一个三层的神经网络),确定模型参数,将确定模型参数的神经网络模型作为情绪判断模型。所述情绪判断模型的训练步骤包括:
获取预设数量的样本语句,并根据其情绪极性为每个样本语句标注标签,得到样本数据。其中,标签包括:“1”、“0”、“-1”,“1”表示样本语句的情绪极性偏向于正面,“0”表示样本语句的情绪极性偏向于中立,“-1”表示样本语句的情绪极性偏向于负面。
基于交叉验证法(cross-validation)将预设数量(例如,10万)的样本语句按照预设比例(例如,7∶1∶2)分为:训练集、评估集、测试集这三个部分,其中,测试集为完全不参与模型训练的数据,仅仅是用来观测训练效果的数据;将训练集的样本数据输入至三层的神经网络模型,对该神经网络模型进行训练,初步确定模型参数;为了相对客观地判断初步确定的模型参数对训练集之外的样本数据的拟合程度,将所述测试集的样本数据输入训练得到的所述神经网络模型中,以对训练得到的所述神经网络模型进行测试,当训练得到的所述神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于预设阈值,95%),则训练完成,并将训练完成的神经网络模型作为情绪判断模型。
在本实施例中,训练模型时采用的是标注了标签为离散值的样本数据,因此,将目标文本的每个所述待分析的句子输入所述情绪判断模型后,模型输出结果也为离散值。
进一步地,需根据模型输出结果判断所述目标文本的情绪极性。具体地,该步骤包括:
根据模型输出结果分别确定每个所述待分析的句子的情绪极性,分别统计不同情绪极性对应的待分析的句子的数量;选择待分析的句子数量最多的情绪极性作为目标文本对应的情绪极性。
将每个待分析的句子的句子向量作为情绪判断模型的输入,输出每个待分析的句子对应的情绪标签,例如,“1”、“0”、“-1”,根据情绪标签确定每个待分析的句子的情绪极性。然后,将所有待分析的句子的输出结果进行融合,得到目标文本的情绪极性。在本实施例中,分别统计不同情绪极性对应的待分析的句子的数量,哪个情绪极性对应的句子数量最多,则将该情绪极性作为目标文本的情绪极性。例如,通过上述步骤确定X先生发布的关于中美贸易战的文本中每一句话的情绪极性、并对不同情绪极性对应的句子进行统计,若“负面”情绪极性对应的句子数量最多,判断X先生对中美贸易战的态度为“负面”。
上述实施例提出的电子装置1,通过对待分析的目标文本进行分词,根据目标文本的篇幅长短确定待分析的句子,并计算得到目标文本中每个待分析的句子对应的预设类型的句子向量,使得到的句子向量能够更准确的表达待分析的句子的信息;利用每个待分析的句子的句子向量及预先训练好的情绪判断模型,更准确地判断每个待分析的句子的情绪极性;根据目标文本中每个待分析的句子的情绪极性,综合判断目标文本的情绪极性,有助于提高目标文本情绪分析的准确性;通过从目标文本中筛选出能充分体现目标文本观点的待分析的句子,有助于减小目标文本情绪分析的计算量,提高目标文本情绪分析的效率。
可选地,在其他的实施例中,文本情绪分析程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如,参照图3所示,为图2中文本情绪分析程序10的模块示意图,该实施例中,文本情绪分析程序 10可以被分割为分词模块110、向量计算模块120及情绪分析模块130,所述模块110-130所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
分词模块110,用于接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
向量计算模块120,用于确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
情绪分析模块130,用于分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括文本情绪分析程序10,所述文本情绪分析程序10被处理器执行时实现如下操作:
A1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
A2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
A3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
本发明之计算机可读存储介质的具体实施方式与上述文本情绪分析方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本情绪分析方法,应用于电子装置,其特征在于,所述方法包括:
S1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
S2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
S3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
2.根据权利要求1所述的文本情绪分析方法,其特征在于,所述“根据模型输出结果判断所述目标文本的情绪极性”的步骤包括:
根据模型输出结果分别确定每个所述待分析的句子的情绪极性,分别统计不同情绪极性对应的待分析的句子的数量;及
选择待分析的句子数量最多的情绪极性作为目标文本对应的情绪极性。
3.根据权利要求2所述的文本情绪分析方法,其特征在于,所述“分别计算所述待分析的句子的句子向量”的步骤包括:
把所述待分析的句子输入所述词向量模型,生成一个句子级别的向量;
获取所述待分析的句子对应的可用词集合中每个词语的词向量,把组成每个所述待分析的句子的词语输入所述卷积神经网络模型,生成每个句子对应的词语级别的向量;及
将所述句子级别的向量和词语级别的向量组合得到一个新的句子向量,作为每个所述待分析的句子的句子向量。
4.根据权利要求3所述的文本情绪分析方法,其特征在于,所述“获取所述待分析的句子对应的可用词集合中每个词语的词向量”的步骤包括:
把每个词语输入预先训练好的词向量模型,生成一个词语级别的向量;
把组成每个词语的字母/字符输入预先训练好的卷积神经网络模型,生成该词语对应的字母/字符级别的向量;及
将所述词语级别的向量和字母/字符级别的向量组合得到一个新的词向量,作为每个词语的词向量。
5.根据权利要求4所述的文本情绪分析方法,其特征在于,所述“采用预设序列标注法对经过预处理后的目标文本进行分词处理”的步骤包括:
对所述经过预处理后的目标文本中的每个字在词语中的位置进行标注,标注类型包括首字标注、中间字标注、尾字标注、单字标注;及
根据每个字的标注类型,确定所述经过预处理后的目标文本的分词结果。
6.根据权利要求1至5中任意一项所述的文本情绪分析方法,其特征在于,所述“确定该目标文本的待分析的句子”的步骤包括:
统计所述目标文本的字数;
当字数小于预设阈值时,获取所述目标文本中的每一个句子作为待分析的句子;或
当字数大于或等于预设阈值时,则分别获取所述目标文本对应的可用词集合中每个词语的统计特征,根据预设评分规则计算每个词语的评分,筛选出评分排序靠前的词语作为目标文本的关键词,并从所述目标文本中筛选出包含关键词的句子,将所述包含关键词的句子作为待分析的句子。
7.根据权利要求6所述的文本情绪分析方法,其特征在于:
所述统计特征包括词频、位置信息及词跨度;
所述每个词语的评分的计算公式为:
S=α*X1+β*X2+γ*X3
其中,X1为词语在所述目标文本中出现的频率的词频评分,α为预设的词频权重,X2为词语在所述目标文本中出现位置的位置评分,β为预设的位置权重,X3为词语在所述目标文本中的词跨度评分,γ为预设的词跨度权重。
8.一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本情绪分析程序,所述文本情绪分析程序被所述处理器执行时,可实现如下步骤:
A1、接收携带目标文本的文本情绪分析请求,对所述目标文本进行预处理,并采用预设序列标注法对经过预处理后的目标文本进行分词处理,得到该目标文本对应的可用词集合;
A2、确定该目标文本的待分析的句子,根据该目标文本对应的可用词集合获取所述目标文本中待分析的句子对应的可用词集合,根据预设计算规则,分别计算所述待分析的句子的句子向量,其中,句子向量包括句子级别的向量和词语级别的向量;及
A3、分别将所述待分析的句子的句子向量输入预先训练好的情绪判断模型,根据模型输出结果判断所述目标文本的情绪极性。
9.根据权利要求8所述的电子装置,其特征在于,所述“确定该目标文本的待分析的句子”的步骤包括:
统计所述目标文本的字数;
当字数小于预设阈值时,获取所述目标文本中的每一个句子作为待分析的句子;或
当字数大于或等于预设阈值时,则分别获取所述目标文本对应的可用词集合中每个词语的统计特征,根据预设评分规则计算每个词语的评分,筛选出评分排序靠前的词语作为目标文本的关键词,并从所述目标文本中筛选出包含关键词的句子,将所述包含关键词的句子作为待分析的句子。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括文本情绪分析程序,所述文本情绪分析程序被处理器执行时,可实现如权利要求1至7中任意一项所述的文本情绪分析方法的步骤。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810443238.XA CN108717406B (zh) | 2018-05-10 | 2018-05-10 | 文本情绪分析方法、装置及存储介质 |
| PCT/CN2018/107725 WO2019214145A1 (zh) | 2018-05-10 | 2018-09-26 | 文本情绪分析方法、装置及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810443238.XA CN108717406B (zh) | 2018-05-10 | 2018-05-10 | 文本情绪分析方法、装置及存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN108717406A true CN108717406A (zh) | 2018-10-30 |
| CN108717406B CN108717406B (zh) | 2021-08-24 |
Family
ID=63899574
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810443238.XA Active CN108717406B (zh) | 2018-05-10 | 2018-05-10 | 文本情绪分析方法、装置及存储介质 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN108717406B (zh) |
| WO (1) | WO2019214145A1 (zh) |
Cited By (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109783800A (zh) * | 2018-12-13 | 2019-05-21 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
| CN109829152A (zh) * | 2018-12-13 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 头像更换方法、装置、计算机设备及存储介质 |
| CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
| CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
| CN110222331A (zh) * | 2019-04-26 | 2019-09-10 | 平安科技(深圳)有限公司 | 谎言识别方法及装置、存储介质、计算机设备 |
| CN110222182A (zh) * | 2019-06-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
| CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
| CN110334342A (zh) * | 2019-06-10 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 词语重要性的分析方法及装置 |
| CN110400173A (zh) * | 2019-07-23 | 2019-11-01 | 中译语通科技股份有限公司 | 市场情绪监测体系建立方法和系统 |
| CN110442857A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
| CN110597961A (zh) * | 2019-09-18 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本类目标注方法、装置、电子设备及存储介质 |
| CN110796565A (zh) * | 2019-10-14 | 2020-02-14 | 广州供电局有限公司 | 监理日志的分析方法及分析系统 |
| CN111047353A (zh) * | 2019-11-27 | 2020-04-21 | 泰康保险集团股份有限公司 | 数据处理方法、系统及电子设备 |
| CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
| CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
| CN111177308A (zh) * | 2019-12-05 | 2020-05-19 | 上海云洽信息技术有限公司 | 一种文本内容的识别情绪方法 |
| WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
| CN111259138A (zh) * | 2018-11-15 | 2020-06-09 | 航天信息股份有限公司 | 一种税务领域短文本的情感分类方法及装置 |
| CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
| CN111666588A (zh) * | 2020-05-14 | 2020-09-15 | 武汉大学 | 一种基于生成对抗网络的情绪差分隐私保护方法 |
| CN111782803A (zh) * | 2020-06-05 | 2020-10-16 | 京东数字科技控股有限公司 | 一种工单的处理方法、装置、电子设备及存储介质 |
| CN111816211A (zh) * | 2019-04-09 | 2020-10-23 | Oppo广东移动通信有限公司 | 情绪识别方法、装置、存储介质及电子设备 |
| CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
| CN112016296A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
| CN112036175A (zh) * | 2020-07-17 | 2020-12-04 | 苏宁金融科技(南京)有限公司 | 领域文本情绪识别方法、装置、计算机设备及存储介质 |
| CN112528628A (zh) * | 2020-12-18 | 2021-03-19 | 北京一起教育科技有限责任公司 | 一种文本处理的方法、装置及电子设备 |
| CN112732910A (zh) * | 2020-12-29 | 2021-04-30 | 华南理工大学 | 跨任务文本情绪状态评估方法、系统、装置及介质 |
| CN114120978A (zh) * | 2021-11-29 | 2022-03-01 | 中国平安人寿保险股份有限公司 | 情绪识别模型训练、语音交互方法、装置、设备及介质 |
| CN114911922A (zh) * | 2021-01-29 | 2022-08-16 | 中国移动通信有限公司研究院 | 一种情感分析方法、装置和存储介质 |
| CN115049018A (zh) * | 2022-07-21 | 2022-09-13 | 浙江极氪智能科技有限公司 | 一种情绪分析模型的训练方法、装置、设备及介质 |
| CN116205749A (zh) * | 2023-05-06 | 2023-06-02 | 深圳市秦保科技有限公司 | 电子保单信息数据管理方法、装置、设备及可读存储介质 |
Families Citing this family (71)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112818114B (zh) * | 2019-11-15 | 2024-05-24 | 阿里巴巴集团控股有限公司 | 信息的分类方法、检测方法、计算设备及存储介质 |
| CN110929528B (zh) * | 2019-11-21 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 对语句情感分析的方法、装置、服务器及存储介质 |
| CN110991163B (zh) * | 2019-11-29 | 2023-09-19 | 达观数据有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
| CN111126066B (zh) * | 2019-12-13 | 2023-05-02 | 北京因特睿软件有限公司 | 基于神经网络的中文修辞手法的确定方法和装置 |
| CN111062204B (zh) * | 2019-12-13 | 2023-08-22 | 北京因特睿软件有限公司 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
| CN111209748B (zh) * | 2019-12-16 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
| CN111178068B (zh) * | 2019-12-25 | 2023-05-23 | 华中科技大学鄂州工业技术研究院 | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 |
| CN111199150B (zh) * | 2019-12-30 | 2024-04-16 | 科大讯飞股份有限公司 | 文本分割方法、相关设备及可读存储介质 |
| CN111143884B (zh) * | 2019-12-31 | 2022-07-12 | 北京懿医云科技有限公司 | 数据脱敏方法与装置、电子设备及存储介质 |
| CN111192692B (zh) * | 2020-01-02 | 2023-12-08 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
| CN111241290B (zh) * | 2020-01-19 | 2023-05-30 | 车智互联(北京)科技有限公司 | 一种评论标签生成方法、装置和计算设备 |
| CN113254573B (zh) * | 2020-02-12 | 2024-08-20 | 北京嘀嘀无限科技发展有限公司 | 文本摘要生成方法、装置、电子设备及可读存储介质 |
| CN111428467B (zh) * | 2020-02-19 | 2024-05-07 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
| CN111414758B (zh) * | 2020-02-21 | 2023-10-20 | 平安科技(深圳)有限公司 | 零指代位置检测方法、装置、设备及计算机可读存储介质 |
| CN111444339B (zh) * | 2020-02-29 | 2024-05-03 | 平安国际智慧城市科技股份有限公司 | 文本题目难度标注方法、装置及计算机可读存储介质 |
| CN111506726B (zh) * | 2020-03-18 | 2023-09-22 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
| CN111428496B (zh) * | 2020-03-24 | 2023-08-15 | 北京小米松果电子有限公司 | 文本分词模型的训练方法、分词处理方法及装置、介质 |
| CN111695337B (zh) * | 2020-04-29 | 2024-11-08 | 平安科技(深圳)有限公司 | 智能面试中专业术语的提取方法、装置、设备及介质 |
| CN113590768B (zh) * | 2020-04-30 | 2023-10-27 | 北京金山数字娱乐科技有限公司 | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
| CN113626587B (zh) * | 2020-05-08 | 2024-03-29 | 武汉金山办公软件有限公司 | 一种文本类别识别方法、装置、电子设备及介质 |
| CN113742478B (zh) * | 2020-05-29 | 2023-09-05 | 国家计算机网络与信息安全管理中心 | 一种针对海量文本数据的定向筛选装置及方法 |
| CN111639177B (zh) * | 2020-06-04 | 2023-06-02 | 虎博网络技术(上海)有限公司 | 文本提取方法和装置 |
| CN111639185B (zh) * | 2020-06-04 | 2023-06-02 | 虎博网络技术(上海)有限公司 | 关系信息抽取方法、装置、电子设备和可读存储介质 |
| CN113761904B (zh) * | 2020-06-05 | 2025-04-25 | 阿里巴巴集团控股有限公司 | 文本识别模型的训练方法、装置、电子设备及存储介质 |
| CN111767728A (zh) * | 2020-06-29 | 2020-10-13 | 北京百度网讯科技有限公司 | 短文本分类方法、装置、设备以及存储介质 |
| CN111783469A (zh) * | 2020-06-29 | 2020-10-16 | 中国计量大学 | 一种提取文本句子特征的方法 |
| CN111814453B (zh) * | 2020-07-09 | 2023-08-08 | 重庆大学 | 基于BiLSTM-TextCNN的细粒度情感分析方法 |
| CN111858933B (zh) * | 2020-07-10 | 2024-08-06 | 暨南大学 | 基于字符的层次化文本情感分析方法及系统 |
| CN111966827B (zh) * | 2020-07-24 | 2024-06-11 | 大连理工大学 | 基于异构二部图的对话情感分析方法 |
| CN112016309B (zh) * | 2020-09-04 | 2024-03-08 | 平安科技(深圳)有限公司 | 抽取药物组合方法、设备、装置及存储介质 |
| CN112069309B (zh) * | 2020-09-14 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 信息获取方法、装置、计算机设备及存储介质 |
| CN112084769B (zh) * | 2020-09-14 | 2024-07-05 | 深圳前海微众银行股份有限公司 | 依存句法模型优化方法、装置、设备及可读存储介质 |
| CN112131888B (zh) * | 2020-09-23 | 2023-11-14 | 平安科技(深圳)有限公司 | 分析语义情感的方法、装置、设备及存储介质 |
| CN112183053B (zh) * | 2020-10-10 | 2024-11-08 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种数据处理方法及装置 |
| CN112347790B (zh) * | 2020-11-06 | 2024-01-16 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
| CN112330408B (zh) * | 2020-11-13 | 2024-09-24 | 上海络昕信息科技有限公司 | 一种产品推荐方法、装置及电子设备 |
| CN112580366B (zh) * | 2020-11-30 | 2024-02-13 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
| CN112507082B (zh) * | 2020-12-16 | 2024-08-16 | 作业帮教育科技(北京)有限公司 | 一种智能识别不当文本交互的方法、装置和电子设备 |
| CN112527963B (zh) * | 2020-12-17 | 2024-05-03 | 深圳市欢太科技有限公司 | 基于词典的多标签情感分类方法及装置、设备、存储介质 |
| CN112668343B (zh) * | 2020-12-22 | 2024-04-30 | 科大讯飞股份有限公司 | 文本重写方法以及电子设备、存储装置 |
| CN112686018B (zh) * | 2020-12-23 | 2024-08-23 | 中国科学技术大学 | 一种文本分割方法、装置、设备及存储介质 |
| CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
| CN114662487A (zh) * | 2020-12-23 | 2022-06-24 | 苏州国双软件有限公司 | 一种文本分段方法、装置、电子设备及可读存储介质 |
| CN112541476B (zh) * | 2020-12-24 | 2023-09-29 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
| CN112735428A (zh) * | 2020-12-27 | 2021-04-30 | 科大讯飞(上海)科技有限公司 | 一种热词获取方法、语音识别方法及相关设备 |
| CN112765444B (zh) * | 2021-01-08 | 2025-02-07 | 深圳前海微众银行股份有限公司 | 提取目标文本片段的方法、装置、设备及存储介质 |
| CN112860887B (zh) * | 2021-01-18 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种文本标注方法及装置 |
| CN113220887B (zh) * | 2021-05-31 | 2022-03-15 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法 |
| CN113204964B (zh) * | 2021-05-31 | 2024-03-08 | 平安科技(深圳)有限公司 | 一种数据处理方法、系统、电子设备及存储介质 |
| CN113515630B (zh) * | 2021-06-10 | 2024-04-09 | 深圳数联天下智能科技有限公司 | 三元组生成和校验方法、装置、电子设备和存储介质 |
| CN113434630B (zh) * | 2021-06-25 | 2023-07-25 | 平安科技(深圳)有限公司 | 客服服务评估方法、装置、终端设备及介质 |
| CN113468292B (zh) * | 2021-06-29 | 2024-06-25 | 中国银联股份有限公司 | 方面级情感分析方法、装置及计算机可读存储介质 |
| CN113407679B (zh) * | 2021-06-30 | 2023-10-03 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
| CN113535813B (zh) * | 2021-06-30 | 2023-07-28 | 北京百度网讯科技有限公司 | 一种数据挖掘方法、装置、电子设备以及存储介质 |
| CN113536772A (zh) * | 2021-07-15 | 2021-10-22 | 浙江诺诺网络科技有限公司 | 一种文本处理方法、装置、设备及存储介质 |
| CN113658577B (zh) * | 2021-08-16 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种语音合成模型训练方法、音频生成方法、设备及介质 |
| CN113919340B (zh) * | 2021-08-27 | 2024-08-13 | 北京邮电大学 | 一种基于无监督未登录词识别的自媒体语言情感分析方法 |
| CN113792541B (zh) * | 2021-09-24 | 2023-08-11 | 福州大学 | 一种引入互信息正则化器的方面级情感分析方法 |
| CN114239595B (zh) * | 2021-12-15 | 2024-05-10 | 平安科技(深圳)有限公司 | 回访名单智能生成方法、装置、设备及存储介质 |
| CN114547234A (zh) * | 2022-01-17 | 2022-05-27 | 特斯联科技集团有限公司 | 识别文本中情感语句的方法、装置、电子设备及介质 |
| CN114818685B (zh) * | 2022-04-21 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、电子设备及存储介质 |
| CN114969345B (zh) * | 2022-06-16 | 2024-12-13 | 平安科技(深圳)有限公司 | 智能化新闻主题情感分析方法、装置、设备及存储介质 |
| CN115080701B (zh) * | 2022-07-05 | 2025-08-01 | 上海找钢网信息科技股份有限公司 | 非结构化语句解析处理方法、装置、设备以及存储介质 |
| CN115374276A (zh) * | 2022-08-09 | 2022-11-22 | 北京百度网讯科技有限公司 | 情感极性确定方法、装置、设备、存储介质及程序产品 |
| CN115563987B (zh) * | 2022-10-17 | 2023-07-04 | 北京中科智加科技有限公司 | 一种评论文本分析处理方法 |
| CN115600646B (zh) * | 2022-10-19 | 2023-10-03 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、介质及设备 |
| CN115906835B (zh) * | 2022-11-23 | 2024-02-20 | 之江实验室 | 一种基于聚类和对比学习的中文问句文本表示学习的方法 |
| CN117150025B (zh) * | 2023-10-31 | 2024-01-26 | 湖南锦鳞智能科技有限公司 | 一种数据服务智能识别系统 |
| CN117422071B (zh) * | 2023-12-19 | 2024-03-15 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
| CN117787270B (zh) * | 2023-12-27 | 2025-10-10 | 金叶天成(北京)科技有限公司 | 一种基于统计特征和词图的轻量级中文关键词提取方法 |
| CN118210880B (zh) * | 2024-05-21 | 2024-07-26 | 北京心企领航科技有限公司 | 一种ai情绪可视化识别方法及系统 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014189400A1 (en) * | 2013-05-22 | 2014-11-27 | Axon Doo | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets |
| CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
| CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
| US20170308523A1 (en) * | 2014-11-24 | 2017-10-26 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
| CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
| CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106294845B (zh) * | 2016-08-19 | 2019-08-09 | 清华大学 | 基于权重学习和多特征抽取的多情绪分类方法及装置 |
| CN106919673B (zh) * | 2017-02-21 | 2019-08-20 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
| CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
| CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
| CN107944014A (zh) * | 2017-12-11 | 2018-04-20 | 河海大学 | 一种基于深度学习的中文文本情感分析方法 |
-
2018
- 2018-05-10 CN CN201810443238.XA patent/CN108717406B/zh active Active
- 2018-09-26 WO PCT/CN2018/107725 patent/WO2019214145A1/zh not_active Ceased
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014189400A1 (en) * | 2013-05-22 | 2014-11-27 | Axon Doo | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets |
| US20170308523A1 (en) * | 2014-11-24 | 2017-10-26 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
| CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
| CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
| CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
| CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
Cited By (47)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111259138A (zh) * | 2018-11-15 | 2020-06-09 | 航天信息股份有限公司 | 一种税务领域短文本的情感分类方法及装置 |
| WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
| CN109783800B (zh) * | 2018-12-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
| CN109829152A (zh) * | 2018-12-13 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 头像更换方法、装置、计算机设备及存储介质 |
| CN109783800A (zh) * | 2018-12-13 | 2019-05-21 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
| CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
| CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
| CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
| CN111816211A (zh) * | 2019-04-09 | 2020-10-23 | Oppo广东移动通信有限公司 | 情绪识别方法、装置、存储介质及电子设备 |
| CN110222331B (zh) * | 2019-04-26 | 2024-05-14 | 平安科技(深圳)有限公司 | 谎言识别方法及装置、存储介质、计算机设备 |
| CN110222331A (zh) * | 2019-04-26 | 2019-09-10 | 平安科技(深圳)有限公司 | 谎言识别方法及装置、存储介质、计算机设备 |
| CN110222182B (zh) * | 2019-06-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
| CN110222182A (zh) * | 2019-06-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
| CN110334342B (zh) * | 2019-06-10 | 2024-02-09 | 创新先进技术有限公司 | 词语重要性的分析方法及装置 |
| CN110334342A (zh) * | 2019-06-10 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 词语重要性的分析方法及装置 |
| CN110442857B (zh) * | 2019-06-18 | 2024-05-10 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
| WO2020253042A1 (zh) * | 2019-06-18 | 2020-12-24 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
| CN110442857A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
| CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
| WO2021012684A1 (zh) * | 2019-07-23 | 2021-01-28 | 中译语通科技股份有限公司 | 市场情绪监测体系建立方法和系统 |
| CN110400173A (zh) * | 2019-07-23 | 2019-11-01 | 中译语通科技股份有限公司 | 市场情绪监测体系建立方法和系统 |
| CN110597961A (zh) * | 2019-09-18 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本类目标注方法、装置、电子设备及存储介质 |
| CN110597961B (zh) * | 2019-09-18 | 2023-10-27 | 腾讯云计算(北京)有限责任公司 | 一种文本类目标注方法、装置、电子设备及存储介质 |
| CN110796565A (zh) * | 2019-10-14 | 2020-02-14 | 广州供电局有限公司 | 监理日志的分析方法及分析系统 |
| CN111047353A (zh) * | 2019-11-27 | 2020-04-21 | 泰康保险集团股份有限公司 | 数据处理方法、系统及电子设备 |
| CN111177308B (zh) * | 2019-12-05 | 2023-07-18 | 上海云洽信息技术有限公司 | 一种文本内容的识别情绪方法 |
| CN111177308A (zh) * | 2019-12-05 | 2020-05-19 | 上海云洽信息技术有限公司 | 一种文本内容的识别情绪方法 |
| CN111177402B (zh) * | 2019-12-13 | 2023-09-22 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
| CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
| CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
| CN111666588B (zh) * | 2020-05-14 | 2023-06-23 | 武汉大学 | 一种基于生成对抗网络的情绪差分隐私保护方法 |
| CN111666588A (zh) * | 2020-05-14 | 2020-09-15 | 武汉大学 | 一种基于生成对抗网络的情绪差分隐私保护方法 |
| CN111782803A (zh) * | 2020-06-05 | 2020-10-16 | 京东数字科技控股有限公司 | 一种工单的处理方法、装置、电子设备及存储介质 |
| CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
| CN112036175A (zh) * | 2020-07-17 | 2020-12-04 | 苏宁金融科技(南京)有限公司 | 领域文本情绪识别方法、装置、计算机设备及存储介质 |
| CN112016296A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
| CN112016296B (zh) * | 2020-09-07 | 2023-08-25 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
| CN112528628B (zh) * | 2020-12-18 | 2024-02-02 | 北京一起教育科技有限责任公司 | 一种文本处理的方法、装置及电子设备 |
| CN112528628A (zh) * | 2020-12-18 | 2021-03-19 | 北京一起教育科技有限责任公司 | 一种文本处理的方法、装置及电子设备 |
| CN112732910A (zh) * | 2020-12-29 | 2021-04-30 | 华南理工大学 | 跨任务文本情绪状态评估方法、系统、装置及介质 |
| CN112732910B (zh) * | 2020-12-29 | 2024-04-16 | 华南理工大学 | 跨任务文本情绪状态评估方法、系统、装置及介质 |
| CN114911922A (zh) * | 2021-01-29 | 2022-08-16 | 中国移动通信有限公司研究院 | 一种情感分析方法、装置和存储介质 |
| CN114120978A (zh) * | 2021-11-29 | 2022-03-01 | 中国平安人寿保险股份有限公司 | 情绪识别模型训练、语音交互方法、装置、设备及介质 |
| CN114120978B (zh) * | 2021-11-29 | 2025-04-25 | 中国平安人寿保险股份有限公司 | 情绪识别模型训练、语音交互方法、装置、设备及介质 |
| CN115049018A (zh) * | 2022-07-21 | 2022-09-13 | 浙江极氪智能科技有限公司 | 一种情绪分析模型的训练方法、装置、设备及介质 |
| CN115049018B (zh) * | 2022-07-21 | 2025-08-01 | 浙江极氪智能科技有限公司 | 一种情绪分析模型的训练方法、装置、设备及介质 |
| CN116205749A (zh) * | 2023-05-06 | 2023-06-02 | 深圳市秦保科技有限公司 | 电子保单信息数据管理方法、装置、设备及可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019214145A1 (zh) | 2019-11-14 |
| CN108717406B (zh) | 2021-08-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108717406A (zh) | 文本情绪分析方法、装置及存储介质 | |
| CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
| CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
| CN113312453B (zh) | 一种面向跨语言对话理解的模型预训练系统 | |
| CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
| CN111177326A (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
| CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
| CN112417854A (zh) | 中文文档抽取式摘要方法 | |
| CN111177374A (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
| CN109325165A (zh) | 网络舆情分析方法、装置及存储介质 | |
| CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
| CN109992782A (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
| CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
| CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
| CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
| CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
| CN110532563A (zh) | 文本中关键段落的检测方法及装置 | |
| CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
| CN104850617B (zh) | 短文本处理方法及装置 | |
| CN116341519B (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
| CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
| CN111291566A (zh) | 一种事件主体识别方法、装置、存储介质 | |
| CN108228569A (zh) | 一种基于松散条件下协同学习的中文微博情感分析方法 | |
| CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
| CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |