CN111159332A

CN111159332A - 一种基于bert的文本多意图识别方法

Info

Publication number: CN111159332A
Application number: CN201911219732.9A
Authority: CN
Inventors: 黄友福; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-15

Abstract

本发明公开了一种基于bert的文本多意图识别方法，包括以下步骤：S1：获取待识别文本并进行去重和删除停用词，得到训练语料；S2：获取句向量；S3：利用lightgbm模型训练用于识别意图的的句向量模型，得到意图类别，输出所有的主意图；S4：选取标准向量；S5：计算标准向量的马氏距离，输出子类别意图。

Description

一种基于bert的文本多意图识别方法

技术领域

本发明涉及医美领域、自然语言处理技术领域，尤其是一种基于bert的文本多意图识别方法。

背景技术

医疗仿真营销机器人的回复机制是，依据访客问题的和项目进行答复。实际运行中，文本常常存在歧义，或者文本本身确实存在多种意图，导致无法准确选择唯一的类别。另一方面，在制定智能对话系统等领域确实存在着对文本多意图识别的需求，需要根据文本所包含不同的意图来定制综合回复。因此，文本的多意图识别问题成了急需解决的问题。

解决文本多意图识别的问题，一般有人工标注方法和机器标注方法。人工标注方法即由标注人员逐条读取语料然后理解其中的多个含义并进行标注。人工标注的优点是稳健，准确率相对较高，但是存在效率低下，耗费人力和时间资源的问题。如果是由多人分工进行标注，还可能出现由于标注人员理解能力差别导致的系统性错误。若使用机器进行标注，也存在以下几个问题：1.机器学习模型只能给出正确率较高的最优解，难以输出次优解(其他意图)，因此只适合进行单意图识别；2.利用深度学习模型进行多意图的标注可以解决输出多意图的问题，但是需要大量的均衡的多意图数据进行训练，并且难以保证正确率。

发明内容

为解决现有技术中存在的问题，本发明是基于在现有的文本单意图识别模型的基础上进行改进，利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配，从而实现文本多意图的输出。提出了一种基于bert的文本多意图识别方法。

具体如下：

一种基于bert的文本多意图识别方法，包括以下步骤：

S1：获取待识别文本并进行去重和删除停用词，得到训练语料；

S2：获取句向量；

S3：利用lightgbm模型训练用于识别意图的的句向量模型，得到意图类别，输出所有的主意图；

S4：选取标准向量；

S5：计算标准向量的马氏距离，输出子类别意图。

优选的，步骤S2进一步为：搭建bert生成embeddeding服务bert-as-service，输入训练语料到bert-as-service中，获取句子的句向量。

优选的，步骤S4进一步为：分别计算同一主意图的所有文本在该类意图文本中出现的频率，以出现频率最高的文本的句向量为该类文本的标准向量。

优选的，步骤S5进一步为：计算每个文本到所有意图类别标准向量的马氏距离，得到包含n个距离值的集合，选择集合中绝对值最小的k个数值所对应的意图类别作为作为文本的子类别；其中，n为意图类别数，k<n。

优选的，所述标准向量还可以通过计算句向量平均值或经验法得到。

优选的，步骤S1采用ETL实现。

与现有技术相比较，本发明具有以下优点：

1.利用集成学习高效准确的优点，在其基础上进行改进提供了一种新的高精度的文本多意图识别方法。

2.在确保文本主意图正确的前提下，输出文本最有可能包含的子意图。

3.在选取意图类别标注向量时，以类意图文本中出现频率最高的文本的句向量作为该类文本的标准向量在实际应用中具有更高的准确率。

4.利用bert获取句向量，使得在预测结果在语义和泛化能力上得到大幅提升。

附图说明

图1是本发明基于bert的文本多意图识别方法的流程图。

具体实施方式

如图1所示为本发明一种基于bert的文本多意图识别方法的流程图，本方法在现有的文本单意图识别模型的基础上进行改进，利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配，从而实现文本多意图的输出。具体如下：

涉及的内核算法包括lightgbm，bert，马氏距离；其中，

LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。基于boosting算法所产生的工具有gbdt、adaboost、xgboost等。微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM，基于Histogram的决策树算法带深度限制的Leaf-wise的叶子生长策略直方图做差加速直接支持类别特征(Categorical Feature)Cache命中率优化基于直方图的稀疏特征优化多线程优化下面主要介绍Histogram算法、带深度限制的Leaf-wise的叶子生长策略和直方图做差加速。

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的，通过计算两个未知量的协方差距离，从而实现对未知样本之间相似度的对比。马氏距离相较于欧氏距离的优点是量纲无关，即两点之间的马氏距离与原始数据的测量单位无关，并且能够排除变量之间的相关性的干扰。因此马氏距离可以很好的避免文本转化为向量后不同维度之间的相关性带来的干扰。马氏距离的算法如下：

设有向量空间{X1，X2,……,Xn}，则Xi到Xj的马氏距离计算公式为

谷歌AI团队发布的BERT模型，在NLP业内引起巨大反响，认为是NLP领域里程碑式的进步。BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％(绝对改进7.6％)，MultiNLI准确度达到86.7％(绝对改进率5.6％)等。BERT的创新点在于它将双向Transformer用于语言模型，之前的模型是从左向右输入一个文本序列，或者将left-to-right和right-to-left的训练结合起来。实验的结果表明，双向训练的语言模型对语境的理解会比单向的语言模型更深刻。

一种基于bert的文本多意图识别方法，包括：

1)对训练语料进行ETL，即对训练语料进行去重、删除停用词。

2)搭建bert生成embeddeding服务bert-as-service，输入训练语料到bert-as-service中，获取该句子的句向量。

3)以步骤2)中输出的句向量为训练数据，利用lightgbm模型训练高质量的单意图输出模型，并输出所有训练语料的主意图。

4)分别计算属于同一主意图的所有文本在该类意图文本中出现的频率，以出现频率最高的文本的句向量作为该类文本的标准向量。除此之外，标准向量的选取方法还可以通过计算句向量平均值、经验法等其他方法确认。

5)计算每个文本到所有意图类别标准向量的马氏距离，得到包含n个距离值的集合(n为意图类别数)，选取集合中绝对值最小的k个(k<n)数值所对应的意图类别(主意图除外)作为文本的子类别。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种基于bert的文本多意图识别方法，其特征在于，包括以下步骤：

S2：获取句向量；

S4：选取标准向量；

S5：计算标准向量的马氏距离，输出子类别意图。

2.根据权利要求1所述的一种基于bert的文本多意图识别方法，其特征在于，步骤S2进一步为：搭建bert生成embeddeding服务bert-as-service，输入训练语料到bert-as-service中，获取句子的句向量。

3.根据权利要求1所述的一种基于bert的文本多意图识别方法，其特征在于，步骤S4进一步为：分别计算同一主意图的所有文本在该类意图文本中出现的频率，以出现频率最高的文本的句向量为该类文本的标准向量。

4.根据权利要求1所述的一种基于bert的文本多意图识别方法，其特征在于，步骤S5进一步为：计算每个文本到所有意图类别标准向量的马氏距离，得到包含n个距离值的集合，选择集合中绝对值最小的k个数值所对应的意图类别作为作为文本的子类别；其中，n为意图类别数，k<n。

5.根据权利要求1或3任一所述的一种基于bert的文本多意图识别方法，其特征在于，所述标准向量还可以通过计算句向量平均值或经验法得到。

6.根据权利要求1所述的一种基于bert的文本多意图识别方法，其特征在于，步骤S1采用ETL实现。