CN111159332A - 一种基于bert的文本多意图识别方法 - Google Patents
一种基于bert的文本多意图识别方法 Download PDFInfo
- Publication number
- CN111159332A CN111159332A CN201911219732.9A CN201911219732A CN111159332A CN 111159332 A CN111159332 A CN 111159332A CN 201911219732 A CN201911219732 A CN 201911219732A CN 111159332 A CN111159332 A CN 111159332A
- Authority
- CN
- China
- Prior art keywords
- text
- intention
- bert
- vector
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于bert的文本多意图识别方法,包括以下步骤:S1:获取待识别文本并进行去重和删除停用词,得到训练语料;S2:获取句向量;S3:利用lightgbm模型训练用于识别意图的的句向量模型,得到意图类别,输出所有的主意图;S4:选取标准向量;S5:计算标准向量的马氏距离,输出子类别意图。
Description
技术领域
本发明涉及医美领域、自然语言处理技术领域,尤其是一种基于bert的文本多意图识别方法。
背景技术
医疗仿真营销机器人的回复机制是,依据访客问题的和项目进行答复。实际运行中,文本常常存在歧义,或者文本本身确实存在多种意图,导致无法准确选择唯一的类别。另一方面,在制定智能对话系统等领域确实存在着对文本多意图识别的需求,需要根据文本所包含不同的意图来定制综合回复。因此,文本的多意图识别问题成了急需解决的问题。
解决文本多意图识别的问题,一般有人工标注方法和机器标注方法。人工标注方法即由标注人员逐条读取语料然后理解其中的多个含义并进行标注。人工标注的优点是稳健,准确率相对较高,但是存在效率低下,耗费人力和时间资源的问题。如果是由多人分工进行标注,还可能出现由于标注人员理解能力差别导致的系统性错误。若使用机器进行标注,也存在以下几个问题:1.机器学习模型只能给出正确率较高的最优解,难以输出次优解(其他意图),因此只适合进行单意图识别;2.利用深度学习模型进行多意图的标注可以解决输出多意图的问题,但是需要大量的均衡的多意图数据进行训练,并且难以保证正确率。
发明内容
为解决现有技术中存在的问题,本发明是基于在现有的文本单意图识别模型的基础上进行改进,利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配,从而实现文本多意图的输出。提出了一种基于bert的文本多意图识别方法。
具体如下:
一种基于bert的文本多意图识别方法,包括以下步骤:
S1:获取待识别文本并进行去重和删除停用词,得到训练语料;
S2:获取句向量;
S3:利用lightgbm模型训练用于识别意图的的句向量模型,得到意图类别,输出所有的主意图;
S4:选取标准向量;
S5:计算标准向量的马氏距离,输出子类别意图。
优选的,步骤S2进一步为:搭建bert生成embeddeding服务bert-as-service,输入训练语料到bert-as-service中,获取句子的句向量。
优选的,步骤S4进一步为:分别计算同一主意图的所有文本在该类意图文本中出现的频率,以出现频率最高的文本的句向量为该类文本的标准向量。
优选的,步骤S5进一步为:计算每个文本到所有意图类别标准向量的马氏距离,得到包含n个距离值的集合,选择集合中绝对值最小的k个数值所对应的意图类别作为作为文本的子类别;其中,n为意图类别数,k<n。
优选的,所述标准向量还可以通过计算句向量平均值或经验法得到。
优选的,步骤S1采用ETL实现。
与现有技术相比较,本发明具有以下优点:
1.利用集成学习高效准确的优点,在其基础上进行改进提供了一种新的高精度的文本多意图识别方法。
2.在确保文本主意图正确的前提下,输出文本最有可能包含的子意图。
3.在选取意图类别标注向量时,以类意图文本中出现频率最高的文本的句向量作为该类文本的标准向量在实际应用中具有更高的准确率。
4.利用bert获取句向量,使得在预测结果在语义和泛化能力上得到大幅提升。
附图说明
图1是本发明基于bert的文本多意图识别方法的流程图。
具体实施方式
如图1所示为本发明一种基于bert的文本多意图识别方法的流程图,本方法在现有的文本单意图识别模型的基础上进行改进,利用bert、lightgbm模型进行主意图识别并根据马氏距离对文本距离进行二次匹配,从而实现文本多意图的输出。具体如下:
涉及的内核算法包括lightgbm,bert,马氏距离;其中,
LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。基于boosting算法所产生的工具有gbdt、adaboost、xgboost等。微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,基于Histogram的决策树算法带深度限制的Leaf-wise的叶子生长策略直方图做差加速直接支持类别特征(Categorical Feature)Cache命中率优化基于直方图的稀疏特征优化多线程优化下面主要介绍Histogram算法、带深度限制的Leaf-wise的叶子生长策略和直方图做差加速。
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,通过计算两个未知量的协方差距离,从而实现对未知样本之间相似度的对比。马氏距离相较于欧氏距离的优点是量纲无关,即两点之间的马氏距离与原始数据的测量单位无关,并且能够排除变量之间的相关性的干扰。因此马氏距离可以很好的避免文本转化为向量后不同维度之间的相关性带来的干扰。马氏距离的算法如下:
设有向量空间{X1,X2,……,Xn},则Xi到Xj的马氏距离计算公式为
谷歌AI团队发布的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步。BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。BERT的创新点在于它将双向Transformer用于语言模型,之前的模型是从左向右输入一个文本序列,或者将left-to-right和right-to-left的训练结合起来。实验的结果表明,双向训练的语言模型对语境的理解会比单向的语言模型更深刻。
一种基于bert的文本多意图识别方法,包括:
1)对训练语料进行ETL,即对训练语料进行去重、删除停用词。
2)搭建bert生成embeddeding服务bert-as-service,输入训练语料到bert-as-service中,获取该句子的句向量。
3)以步骤2)中输出的句向量为训练数据,利用lightgbm模型训练高质量的单意图输出模型,并输出所有训练语料的主意图。
4)分别计算属于同一主意图的所有文本在该类意图文本中出现的频率,以出现频率最高的文本的句向量作为该类文本的标准向量。除此之外,标准向量的选取方法还可以通过计算句向量平均值、经验法等其他方法确认。
5)计算每个文本到所有意图类别标准向量的马氏距离,得到包含n个距离值的集合(n为意图类别数),选取集合中绝对值最小的k个(k<n)数值所对应的意图类别(主意图除外)作为文本的子类别。
上述实施例中的实施方案可以进一步组合或者替换,且实施例仅仅是对本发明的优选实施例进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中专业技术人员对本发明的技术方案作出的各种变化和改进,均属于本发明的保护范围。
Claims (6)
1.一种基于bert的文本多意图识别方法,其特征在于,包括以下步骤:
S1:获取待识别文本并进行去重和删除停用词,得到训练语料;
S2:获取句向量;
S3:利用lightgbm模型训练用于识别意图的的句向量模型,得到意图类别,输出所有的主意图;
S4:选取标准向量;
S5:计算标准向量的马氏距离,输出子类别意图。
2.根据权利要求1所述的一种基于bert的文本多意图识别方法,其特征在于,步骤S2进一步为:搭建bert生成embeddeding服务bert-as-service,输入训练语料到bert-as-service中,获取句子的句向量。
3.根据权利要求1所述的一种基于bert的文本多意图识别方法,其特征在于,步骤S4进一步为:分别计算同一主意图的所有文本在该类意图文本中出现的频率,以出现频率最高的文本的句向量为该类文本的标准向量。
4.根据权利要求1所述的一种基于bert的文本多意图识别方法,其特征在于,步骤S5进一步为:计算每个文本到所有意图类别标准向量的马氏距离,得到包含n个距离值的集合,选择集合中绝对值最小的k个数值所对应的意图类别作为作为文本的子类别;其中,n为意图类别数,k<n。
5.根据权利要求1或3任一所述的一种基于bert的文本多意图识别方法,其特征在于,所述标准向量还可以通过计算句向量平均值或经验法得到。
6.根据权利要求1所述的一种基于bert的文本多意图识别方法,其特征在于,步骤S1采用ETL实现。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911219732.9A CN111159332A (zh) | 2019-12-03 | 2019-12-03 | 一种基于bert的文本多意图识别方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911219732.9A CN111159332A (zh) | 2019-12-03 | 2019-12-03 | 一种基于bert的文本多意图识别方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111159332A true CN111159332A (zh) | 2020-05-15 |
Family
ID=70556541
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911219732.9A Pending CN111159332A (zh) | 2019-12-03 | 2019-12-03 | 一种基于bert的文本多意图识别方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111159332A (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112256864A (zh) * | 2020-09-23 | 2021-01-22 | 北京捷通华声科技股份有限公司 | 多意图识别的方法、装置、电子设备及可读存储介质 |
| CN112560458A (zh) * | 2020-12-09 | 2021-03-26 | 杭州艾耕科技有限公司 | 基于端到端深度学习模型的文章标题生成方法 |
| CN112989800A (zh) * | 2021-04-30 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于Bert的篇章的多意图识别方法、设备及可读存储介质 |
| CN113223735A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于对话表征的分诊方法、装置、设备及存储介质 |
| CN114818665A (zh) * | 2022-04-22 | 2022-07-29 | 电子科技大学 | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 |
| CN118656494A (zh) * | 2024-08-16 | 2024-09-17 | 成都晓多科技有限公司 | 一种买家之声细粒度意图分析与匹配方法及系统 |
| CN120951095A (zh) * | 2025-08-22 | 2025-11-14 | 青岛网信信息科技有限公司 | 一种ai平台下用户问题意图分析方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及系统 |
| CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
| CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
| CN110446063A (zh) * | 2019-07-26 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 视频封面的生成方法、装置及电子设备 |
-
2019
- 2019-12-03 CN CN201911219732.9A patent/CN111159332A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及系统 |
| CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
| CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
| CN110446063A (zh) * | 2019-07-26 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 视频封面的生成方法、装置及电子设备 |
Non-Patent Citations (2)
| Title |
|---|
| MOUNIKA MARREDDY等: ""Evaluating the Combination ofWord Embeddings with Mixture of Experts and Cascading gcForest in Identifying Sentiment Polarity"", 《IN PROCEEDINGS OF KDD 2019 (WISDOM’19): 8TH KDDWORKSHOP ON ISSUES OF SENTIMENT DISCOVERY AND OPINION MINING》 * |
| 刘娇等: ""人机对话系统中意图识别方法综述"", 《计算机工程与应用》 * |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112256864A (zh) * | 2020-09-23 | 2021-01-22 | 北京捷通华声科技股份有限公司 | 多意图识别的方法、装置、电子设备及可读存储介质 |
| CN112256864B (zh) * | 2020-09-23 | 2024-05-14 | 北京捷通华声科技股份有限公司 | 多意图识别的方法、装置、电子设备及可读存储介质 |
| CN112560458A (zh) * | 2020-12-09 | 2021-03-26 | 杭州艾耕科技有限公司 | 基于端到端深度学习模型的文章标题生成方法 |
| CN112989800A (zh) * | 2021-04-30 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于Bert的篇章的多意图识别方法、设备及可读存储介质 |
| CN113223735A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于对话表征的分诊方法、装置、设备及存储介质 |
| CN113223735B (zh) * | 2021-04-30 | 2024-08-20 | 平安科技(深圳)有限公司 | 基于对话表征的分诊方法、装置、设备及存储介质 |
| CN114818665A (zh) * | 2022-04-22 | 2022-07-29 | 电子科技大学 | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 |
| CN118656494A (zh) * | 2024-08-16 | 2024-09-17 | 成都晓多科技有限公司 | 一种买家之声细粒度意图分析与匹配方法及系统 |
| CN120951095A (zh) * | 2025-08-22 | 2025-11-14 | 青岛网信信息科技有限公司 | 一种ai平台下用户问题意图分析方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
| CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
| US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
| CN110147451B (zh) | 一种基于知识图谱的对话命令理解方法 | |
| CN109543183A (zh) | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 | |
| CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
| CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
| CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
| CN104680178B (zh) | 基于迁移学习多吸引子细胞自动机的图像分类方法 | |
| CN103886077B (zh) | 短文本的聚类方法和系统 | |
| CN114372145A (zh) | 一种基于知识图谱平台的运维资源动态分配的调度方法 | |
| Alotaibi et al. | Optical character recognition for quranic image similarity matching | |
| CN109635105A (zh) | 一种中文文本多意图识别方法及系统 | |
| CN109657039A (zh) | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 | |
| CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
| CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
| CN106649250A (zh) | 一种情感新词的识别方法及装置 | |
| Devi et al. | Entity extraction for malayalam social media text using structured skip-gram based embedding features from unlabeled data | |
| CN117765520A (zh) | 一种高效准确的歧义场景文字检测方法及系统 | |
| CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
| CN110532568A (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
| CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
| CN112309375B (zh) | 语音识别模型的训练测试方法、装置、设备及存储介质 | |
| CN114943235A (zh) | 一种基于多类语言模型的命名实体识别方法 | |
| CN110717015B (zh) | 一种基于神经网络的多义词识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
| RJ01 | Rejection of invention patent application after publication |