CN119202126A

CN119202126A - 一种消息内容抽取方法、装置、计算机设备及存储介质

Info

Publication number: CN119202126A
Application number: CN202411081721.XA
Authority: CN
Inventors: 王多多
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2024-08-07
Filing date: 2024-08-07
Publication date: 2024-12-27

Abstract

本申请公开一种消息内容抽取方法、装置、计算机设备及存储介质，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。本申请还涉及区块链技术领域，待审核消息存储在区块链节点上。本申请提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

Description

一种消息内容抽取方法、装置、计算机设备及存储介质

技术领域

本申请属于大数据技术领域，具体涉及一种消息内容抽取方法、装置、计算机设备及存储介质。

背景技术

触达审核是指在将特定信息(如推广信息、通知、活动详情等)通过短信、微信、APP站内信等渠道发送给目标客户之前，进行的一系列审核流程。这个过程的目的是确保发送的信息内容合规、准确、无误，并且以合适的形式在恰当的时机触达目标客户，从而避免因为误发、错发或不当发送而对客户造成困扰、损失或不良影响。

在面对大量的触达消息时，内容抽取技术可以快速筛选出需要重点关注的信息点，能够从大量的文本信息中准确提取出关键内容，如时间、地点、优惠详情等，帮助审核人员快速定位问题，提高审核效率。当前的内容抽取技术主要依赖于手工编制的规则或模板来抽取文本中的特定信息，这些规则或模板通常基于文本的结构、关键词、句式等特征来定义，用于识别并提取出符合特定条件的内容。而基于规则内容抽取的方法需要针对特定的知识领域或文本格式进行规则设计，因此规则的可移植性较差，难以直接应用于其他领域或格式的文本，且制定全面且准确的规则需要深厚的领域知识和大量的时间投入，同时规则也可能难以覆盖所有的语言现象，导致抽取结果的漏报或误报。随着文本格式和内容的不断变化，需要人力物力原有的规则不断更新和维护，以保持抽取结果的准确性和可靠性。

发明内容

本申请实施例的目的在于提出一种消息内容抽取方法、装置、计算机设备及存储介质，旨提供一种结合领域分类和业务领域知识图谱进行消息内容抽取的方案，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

为了解决上述技术问题，本申请实施例提供一种消息内容抽取方法，采用了如下所述的技术方案：

一种消息内容抽取方法，包括：

对待审核消息进行关键词提取，并将对提取到的关键词进行向量转化，得到关键词向量；

基于关键词向量和预训练的领域分类模型，对待审核消息进行领域分类，得到领域分类结果；

根据领域分类结果确定与待审核消息匹配的目标业务领域知识图谱，并生成目标业务领域知识图谱的向量表示，得到目标知识图谱向量；

结合目标知识图谱向量，使用预设的长短时记忆网络模型对待审核消息进行语义编码，生成语义表示向量；

基于语义表示向量，利用条件随机场模型识别待审核消息中的关键实体、实体属性和实体关系。

进一步地，领域分类模型中配置有若干个不同领域的分类标签，基于关键词向量和预训练的领域分类模型，对待审核消息进行领域分类，得到领域分类结果，包括：

计算关键词向量与领域分类模型中的分类标签的相似度，得到第一相似度，并将第一相似度值作为待审核消息的领域分类置信度；

对待审核消息的领域分类置信度进行降序排序，得到第一分类置信度序列；

根据第一分类置信度序列确定待审核消息所属的业务领域，得到领域分类结果。

进一步地，根据分类置信度序列确定待审核消息所属的业务领域，得到领域分类结果，包括：

从分类置信度序列中获取最大分类置信度，其中，最大分类置信度为分类置信度序列中的最大值；

比对最大分类置信度与预设的置信度阈值；

当最大分类置信度大于或等于置信度阈值时，获取最大分类置信度对应的分类标签，并将分类标签表示的业务领域确定为待审核消息所属的业务领域，得到领域分类结果。

进一步地，领域分类模型中配置的分类标签包括父领域标签和子领域标签，计算关键词向量与领域分类模型中的分类标签的相似度，并将相似度值作为待审核消息的领域分类置信度，包括：

确定与关键词向量匹配的目标父领域标签；

获取目标父领域标签下的所有子领域标签，得到目标子领域标签；

计算关键词向量与目标子领域标签的相似度，得到相似度；

将相似度值作为待审核消息的领域分类置信度。

进一步地，生成目标业务领域知识图谱的向量表示，得到目标知识图谱向量，包括：

在目标业务领域知识图谱中获取与待审核消息关联的实体，得到关联实体；

获取关联实体之间的关联关系，得到实体关联关系集合；

利用目标业务领域知识图谱的拓扑结构信息，计算实体关联关系集合在目标业务领域知识图谱中的结构位置，得到实体关系的拓扑结构；

对目标业务领域知识图谱中的实体和实体关系的拓扑结构进行语义表示，生成目标知识图谱向量。

进一步地，长短时记忆网络模型包括编码层、长短时记忆单元和知识融合单元，结合目标知识图谱向量，使用预设的长短时记忆网络模型对待审核消息进行语义编码，生成语义表示向量，包括：

获取待审核消息的消息文本，并将目标知识图谱向量和消息文本加载到长短时记忆网络模型中；

通过编码层对消息文本进行编码，得到消息文本向量；

使用长短时记忆单元对于输入的消息文本向量进行处理，得到隐状态向量；

使用知识融合单元对目标知识图谱向量和隐状态向量进行知识融合，得到语义表示向量。

进一步地，基于语义表示向量，利用条件随机场模型识别待审核消息中的关键实体、实体属性和实体关系，包括：

对待审核消息进行分词和词性标注，得到词汇标注序列；

通过条件随机场模型对词汇标注序列进行特征提取，得到若干个词汇特征向量；

基于语义表示向量对每一个词汇特征向量进行语义分析，基于语义分析结果确定关键实体、实体属性和实体关系；

基于语义表示向量对每一个词汇特征向量进行语义分析，基于语义分析结果确定关键实体、实体属性和实体关系，包括：

基于语义表示向量采用语义分析算法对每一个词汇特征向量进行语义分析，得到每一个词汇特征向量对应的语义特征；

通过语义特征识别待审核消息中的关键实体，得到关键实体列表；

基于关键实体列表，根据语义表示向量识别每一个关键实体包含的实体属性和实体关系。

为了解决上述技术问题，本申请实施例还提供一种消息内容抽取装置，采用了如下所述的技术方案：

一种消息内容抽取装置，包括：

关键词处理模块，用于对待审核消息进行关键词提取，并将对提取到的关键词进行向量转化，得到关键词向量；

领域分类模块，用于基于关键词向量和预训练的领域分类模型，对待审核消息进行领域分类，得到领域分类结果；

图谱向量化模块，用于根据领域分类结果确定与待审核消息匹配的目标业务领域知识图谱，并生成目标业务领域知识图谱的向量表示，得到目标知识图谱向量；

语义编码模块，用于结合目标知识图谱向量，使用预设的长短时记忆网络模型对待审核消息进行语义编码，生成语义表示向量；

内容抽取模块，用于基于语义表示向量，利用条件随机场模型识别待审核消息中的关键实体、实体属性和实体关系。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述任一项所述的消息内容抽取方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述中任一项所述的消息内容抽取方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开一种消息内容抽取方法、装置、计算机设备及存储介质，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。结合领域分类和业务领域知识图谱进行消息内容抽取，结合了消息内容的上下文语义信息，对消息内容的精准抽取与结构化处理，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的消息内容抽取方法的一个实施例的流程图；

图3示出了根据本申请的消息内容抽取装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Movi ng Pi cture ExpertsGroup Aud i o Layer I I I，动态影像专家压缩标准音频层面3)、MP4(Movi ng Pi ctureExperts Group Aud i o Layer I V，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content De l i very Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的消息内容抽取方法一般由服务器执行，相应地，消息内容抽取装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的消息内容抽取方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Art if i c i a l I nte l l i gence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。所述的消息内容抽取方法，包括以下步骤：

S201，对待审核消息进行关键词提取，并将对提取到的关键词进行向量转化，得到关键词向量。

具体来说，首先运用关键词提取技术，如TF-IDF、TextRank或基于深度学习的方法，从文本中自动识别出最具代表性的词汇或短语作为关键词。这些关键词能够概括文本的主要内容或核心思想。随后，通过向量转换技术，如词嵌入(Word Embedd i ng)模型，如Word2Vec、G l oVe或BERT的Embedd i ng层，将每个关键词映射到一个高维向量空间中，形成关键词向量。这些向量不仅保留了词汇的语义信息，还能够在一定程度上反映词汇间的相似性和关系。

S202，基于关键词向量和预训练的领域分类模型，对待审核消息进行领域分类，得到领域分类结果。

具体来说，首先依赖于关键词提取技术从待审核消息中抽取出关键信息，并将其转化为向量形式，即关键词向量。这些向量作为输入，被送入一个预训练的领域分类模型中。领域分类模型通过深度学习算法(如卷积神经网络CNN、循环神经网络RNN或其变体LSTM/GRU，甚至可能是Transformer结构)对关键词向量进行高效、精准的处理，从而识别出消息所属的具体领域或类别。这一过程充分利用了预训练模型在大量领域相关数据上学习到的特征表示能力，以及关键词向量所蕴含的语义信息，实现了对待审核消息领域分类的自动化和智能化，显著提高了分类的准确性和效率。

领域分类模型是一种用于识别文本所属领域的机器学习模型，能够根据文本的内容和特征，将其自动归类到预定义的领域类别中，如新闻、科技、娱乐等。该模型通过训练学习不同领域的文本特征，从而实现对新文本的准确分类。

S203，根据领域分类结果确定与待审核消息匹配的目标业务领域知识图谱，并生成目标业务领域知识图谱的向量表示，得到目标知识图谱向量。

具体来说，首先，通过领域分类模型对消息进行准确分类，确定其所属的业务领域。随后，基于这一分类结果，选择与待审核消息匹配的目标业务领域知识图谱。业务领域知识图谱作为结构化数据的集合，包含了该领域内实体、属性及关系的全面信息。为了后续处理，系统还需生成目标业务领域知识图谱的向量表示，即目标知识图谱向量。通过图嵌入技术，如TransE、Node2Vec等，将知识图谱中的节点、关系等转化为高维空间中的向量，以便于计算机进行高效的计算和推理。通过这种方式，系统能够充分利用领域知识图谱的丰富信息，

业务领域知识图谱(Domai n Know ledge Graph,DKG)是针对特定领域或行业构建的知识图谱，是一种基于图的数据结构，通过节点(代表实体)和边(代表实体之间的关系)来组织信息，形成对该领域知识的全面、结构化的表示。例如，保险产品知识图谱，该知识图谱围绕保险产品构建，包含各类保险产品的基本信息(如产品名称、类型、保障范围、保费、保额等)、条款解释、投保要求、理赔流程等。再如，理赔流程知识图谱，该知识图谱详细描述了保险理赔的流程、标准、要求等信息，包括报案、查勘、定损、核赔、赔付等各个环节。

S204，结合目标知识图谱向量，使用预设的长短时记忆网络模型对待审核消息进行语义编码，生成语义表示向量。

具体来说，利用目标知识图谱向量与长短时记忆网络(LSTM)模型相结合，对待审核消息进行深度语义编码。首先，通过知识图谱技术将目标领域的知识抽象化为向量形式，即目标知识图谱向量，这些向量蕴含了丰富的领域知识和上下文信息。随后，将待审核消息与这些向量相结合，作为LSTM模型的输入。LSTM模型作为一种特殊的循环神经网络(RNN)，能够有效捕捉文本中的长距离依赖关系，并通过其内部的“门”机制处理序列信息。在此过程中，LSTM模型会利用目标知识图谱向量提供的领域知识，对待审核消息进行更深层次的语义理解和分析，最终生成一个能够准确表达消息核心语义的语义表示向量，显著提升了文本语义编码的准确性和效率。

S205，基于语义表示向量，利用条件随机场模型识别待审核消息中的关键实体、实体属性和实体关系。

具体来说，在自然语言处理(NLP)中，利用条件随机场(CRF)模型结合语义表示向量来识别待审核消息中关键实体、实体属性及实体关系。首先，通过上述步骤获得的语义表示向量。随后，这一向量被输入到条件随机场模型中，条件随机场模型是一种序列标注模型，能够考虑标签之间的依赖关系，从而在全局范围内优化标注结果。在识别过程中，CRF模型不仅关注当前词的语义信息，还考虑上下文环境，结合语义表示向量中的领域知识，精准地识别出消息中的关键实体、这些实体的属性以及它们之间的关系，有效提升了实体及关系识别的准确率和鲁棒性。

在上述实施例中，本申请公开一种消息内容抽取方法，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。结合领域分类和业务领域知识图谱进行消息内容抽取，结合了消息内容的上下文语义信息，对消息内容的精准抽取与结构化处理，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

在上述实施例中，首先，通过计算关键词向量与预训练领域分类模型中各分类标签的相似度(即第一相似度)，为待审核消息分配了领域分类的置信度，充分利用了向量的空间特性，有效衡量了消息内容与各领域的关联程度。随后，对置信度进行降序排序，形成第一分类置信度序列，直观展示了消息与各领域匹配程度的强弱。最后，基于该序列确定消息所属的业务领域，确保了领域分类的准确性和合理性。

在上述实施例中，本申请通过为待审核消息分配了领域分类的置信度，来确定进行领域分类，不仅提升了分类的精确度，还增强了分类过程的可解释性。

在上述实施例中，在领域分类过程中引入了层次化的分类标签体系，包括父领域标签和子领域标签，通过引入了层次化的分类标签体系，不仅提高了分类的精确度，还使得分类结果更符合实际业务场景的需求，因为不同子领域间可能存在显著差异，直接影响后续的知识图谱匹配和语义编码过程。

比对最大分类置信度与预设的置信度阈值；

在上述实施例中，首先，从分类置信度序列中选取最大值作为最大分类置信度，确保了选取的是与待审核消息最匹配的领域。随后，通过与预设的置信度阈值进行比对，引入了一个明确的判断标准，用于评估分类结果的可靠性。当最大分类置信度满足阈值要求(即最大分类置信度大于或等于置信度阈值)时，即认为分类结果具有较高的可信度，此时直接采用对应的分类标签作为待审核消息的业务领域，确保了领域分类结果的准确性和有效性。当最大分类置信度小于置信度阈值时，采用输出分类置信度小于置信度阈值的告警提示，以告知处理人分类标签集合中不存在与当前关键词向量匹配的子标签，需要进行匹配标签注册，以在分类标签集合生成与当前关键词向量匹配父标签和子标签。

在上述实施例中，通过设置置信度比对机制，确定待审核消息所属的业务领域，不仅提高了分类的精确度，还增强了分类结果的稳定性和可靠性。

确定与关键词向量匹配的目标父领域标签；

计算关键词向量与目标子领域标签的相似度，得到相似度；

将相似度值作为待审核消息的领域分类置信度。

在上述实施例中，首先通过匹配机制，从预定义的分类标签体系中识别出与关键词向量最匹配的父领域标签。随后，针对该父领域，遍历并获取其下所有子领域标签，以实现对消息内容更精细化的分类。接着，利用相似度计算方法(如余弦相似度、欧氏距离等)计算相似度，量化关键词向量与每个目标子领域标签之间的关联程度，生成相似度值。最终，这些相似度值被直接用作衡量待审核消息领域分类准确性的置信度指标，从而辅助决策者或系统自动完成消息的分类处理，提高了分类的精确性和效率。

通过上述步骤，本申请通过精细化的领域分类体系(含父领域与子领域标签)，结合关键词向量与分类标签的相似度计算，实现了待审核消息领域分类的高精度判定，通过逐层匹配与相似度评估，不仅确保了分类的广度覆盖，还提升了分类的深度准确性，为消息处理提供了高置信度的领域分类结果，增强了系统的智能化与自动化水平。

进一步地，当系统计算得到的最大分类置信度未达到预设的置信度阈值时，表明在当前的分类标签集合中，未能找到与输入关键词向量高度匹配的子领域标签。为应对此情况，系统采用输出告警提示的方式，向处理人员明确传达了分类失败的信息，并指出分类标签集合中缺乏相应的匹配项。通过这个步骤不仅提高了系统的透明度和用户友好性，还促进了后续的标签注册工作。处理人员需根据告警提示，注册新的匹配标签，包括父标签和子标签，以扩充分类标签集合，确保系统能够更准确地应对未来可能遇到的类似关键词向量，从而提升整体分类的准确性和效率。

获取关联实体之间的关联关系，得到实体关联关系集合；

在上述实施例中，首先，从目标业务领域知识图谱中抽取与待审核消息直接相关的实体，这些实体是理解和分析消息内容的关键。随后，识别这些关联实体之间的复杂关系，形成实体关联关系集合，以揭示消息背后的业务逻辑和上下文。然后，利用知识图谱的拓扑结构信息，计算这些实体关系在图谱中的位置，即其拓扑结构，通过识别实体关系在图谱中的位置，确认实体关系的直接关联性，还融入了知识图谱的整体结构特性，为后续的语义表示提供了丰富的上下文信息。最后，通过对实体及其关系的拓扑结构进行高级语义表示，生成目标知识图谱向量，通过对实体和实体关系的拓扑结构进行语义表示，可以捕获并表达这些实体和关系在知识图谱中的深层逻辑和上下文信息，使得机器学习模型能够更准确地理解数据中的含义和模式，从而提高分类、推理等任务的性能。

实体关系的拓扑结构是指在知识图谱或网络图中，实体之间通过关系相互连接所形成的空间或逻辑结构。这种结构不考虑实体和关系的具体大小、形状，而是关注它们之间的连接方式和相对位置。通过拓扑结构，可以清晰地展示实体之间的相互作用和依赖关系，进而为知识推理、数据分析等任务提供有力支持。在构建知识图谱或进行网络分析时，实体关系的拓扑结构是一个重要的考虑因素。

计算实体关联关系集合在目标业务领域知识图谱中的结构位置，通常涉及分析图谱中实体间的连接路径、距离以及它们在图谱层次结构中的层级。首先，识别出与待审核消息关联的实体及其实体之间的直接和间接关系；其次，利用图论中的算法(如Di jkstra算法)计算这些实体之间的最短路径或距离；最后，根据实体在图谱中的层级或父子关系，确定它们在结构中的具体位置，这一过程有助于理解实体间的相对重要性和相互作用，为后续的语义表示提供基础。

在上述实施例中，本申请通过识别实体关系的拓扑结构，并对实体和实体关系的拓扑结构进行语义表示，生成目标知识图谱向量，该目标知识图谱向量不仅捕捉了消息相关的关键实体和关系，还融入了知识图谱的深层次结构信息，为后续的机器学习模型或算法提供了强大且富含语义的特征输入，从而提高了领域分类、信息检索等任务的准确性和效率。

通过编码层对消息文本进行编码，得到消息文本向量；

在上述实施例中，利用长短时记忆网络(LSTM)模型结合目标业务领域知识图谱，有效提升了待审核消息的语义理解和表示能力。首先，通过将消息文本与目标知识图谱向量一同输入LSTM模型，实现了文本信息与领域知识的初步整合。在编码层，消息文本被转换为向量化表示。随后，长短时记忆单元(LSTM单元)利用其独特的门控机制，对消息文本向量进行深度处理，从而提取出更为丰富的上下文依赖信息，生成隐状态向量。最后，知识融合单元将目标知识图谱向量与隐状态向量进行融合，这一过程不仅保留了文本自身的语义信息，还融入了领域知识图谱的深层结构和逻辑关系，使得生成的语义表示向量更加全面、准确。

长短时记忆网络(LSTM)模型是一种特殊的循环神经网络(RNN)，旨在解决传统RNN在处理长序列数据时存在的梯度消失或梯度爆炸问题。LSTM通过引入“遗忘门”、“输入门”和“输出门”三个控制单元，允许网络在捕获长期依赖关系的同时，也能有效地选择性地遗忘或保留信息。这种结构使得LSTM在处理时间序列数据、文本数据等领域表现出色，能够捕捉到更复杂的序列特征。

隐状态向量(Hidden State Vector)是循环神经网络(RNN)及其变体(如LSTM、GRU)中的一个关键概念，代表了网络在处理序列数据时，到当前时刻为止的输入序列所蕴含的内部信息或记忆。隐状态向量通过网络的循环连接传递，使得网络能够捕捉到序列中的时间依赖性和上下文信息。在生成任务中，隐状态向量还可以用于生成下一个时间步的输出。简而言之，隐状态向量是RNN及其变体在处理序列数据时用于存储和传递内部信息的一种数据结构。

在上述实施例中，通过将目标知识图谱向量和隐状态向量进行知识融合有助于将领域知识与文本自身的语义信息相结合。隐状态向量捕捉了文本序列的上下文依赖和内部信息，而目标知识图谱向量则代表了领域内的结构化知识，通过融合这两个向量，可以生成一个更加全面、准确的语义表示向量，该向量既包含了文本的具体含义，又融入了领域知识的约束和上下文，从而提高了后续任务(如分类、推理等)的准确性和效率。

对待审核消息进行分词和词性标注，得到词汇标注序列；

基于语义表示向量对每一个词汇特征向量进行语义分析，基于语义分析结果确定关键实体、实体属性和实体关系。

在上述实施例中，通过结合语义表示向量与条件随机场(CRF)模型，实现了对待审核消息中关键实体、实体属性及关系的精准识别。首先，通过分词和词性标注技术，将消息文本转化为易于处理的词汇标注序列。随后，利用CRF模型的序列建模能力，从词汇标注序列中提取出丰富的词汇特征向量，这些特征向量蕴含了词汇间的上下文信息和语法规则。进一步地，基于先前生成的语义表示向量，对每个词汇特征向量进行深入的语义分析，通过融合了文本的语义信息与领域知识，从而能够更准确地识别出关键实体、其属性以及它们之间的复杂关系。

条件随机场(CRF)模型是一种判别式概率无向图模型，用于建模和推断序列数据的条件概率分布。特别适用于标注或分析序列资料，如自然语言文本，通过考虑序列中元素之间的依赖关系，来提高标注的准确性。CRF打破了隐马尔可夫模型的假设限制，能够更好地捕捉序列数据的上下文信息和标签间的依赖关系，因此在自然语言处理、计算机视觉等领域得到广泛应用。

在上述实施例中，通过融合语义与统计模型的方法，显著提升了实体关系抽取的准确性和效率。

在上述实施例中，通过深度融合语义表示向量与语义分析算法，实现了对消息中关键实体、实体属性及关系的精细抽取。首先，利用语义分析算法对词汇特征向量进行解读，提取出每个词汇背后的语义特征。随后，基于这些丰富的语义特征，精准地识别出消息中的关键实体，构建了关键实体列表。最后，通过进一步分析语义表示向量与关键实体列表的关联，不仅识别了每个关键实体的具体属性，还揭示了关键实体之间错综复杂的实体关系。

通过语义特征识别待审核消息中的关键实体，主要依赖于语义分析算法对词汇特征向量的深入分析。这些语义特征向量捕捉了词汇的深层含义和上下文信息，使得模型能够区分哪些词汇在特定语境下具有关键意义，语义分析算法会分析这些特征向量，并与预定义的实体类型或模式进行匹配，从而识别出消息中的人名、地名、机构名等关键实体。这一过程结合了语义理解和模式识别技术，提高了实体识别的准确性和效率。

在本实施例中，消息内容抽取方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收指令或者获取数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

需要强调的是，为进一步保证上述待审核消息的私密和安全性，上述待审核消息还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On ly Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种消息内容抽取装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的消息内容抽取装置300，包括：

关键词处理模块301，用于对待审核消息进行关键词提取，并将对提取到的关键词进行向量转化，得到关键词向量；

领域分类模块302，用于基于关键词向量和预训练的领域分类模型，对待审核消息进行领域分类，得到领域分类结果；

图谱向量化模块303，用于根据领域分类结果确定与待审核消息匹配的目标业务领域知识图谱，并生成目标业务领域知识图谱的向量表示，得到目标知识图谱向量；

语义编码模块304，用于结合目标知识图谱向量，使用预设的长短时记忆网络模型对待审核消息进行语义编码，生成语义表示向量；

内容抽取模块305，用于基于语义表示向量，利用条件随机场模型识别待审核消息中的关键实体、实体属性和实体关系。

进一步地，领域分类模型中配置有若干个不同领域的分类标签，领域分类模块302具体用于：

计算关键词向量与领域分类模型中的分类标签的相似度，得到第一相似度，并将第一相似度值作为待审核消息的领域分类置信度；对待审核消息的领域分类置信度进行降序排序，得到第一分类置信度序列；根据第一分类置信度序列确定待审核消息所属的业务领域，得到领域分类结果。

进一步地，领域分类模块302进一步用于：

从第一分类置信度序列中获取第一分类置信度，其中，第一分类置信度为第一分类置信度序列中的最大值；比对第一分类置信度与预设的置信度阈值；当第一分类置信度大于或等于置信度阈值时，获取第一分类置信度对应的分类标签，并将分类标签表示的业务领域确定为待审核消息所属的业务领域，得到领域分类结果。

进一步地，领域分类模型中配置的分类标签包括父领域标签和子领域标签，领域分类模块302进一步用于：

筛选与关键词向量匹配的子领域标签，得到第一子领域标签；计算关键词向量与第一子领域标签的相似度。

领域分类模块302还用于：

当第一分类置信度小于置信度阈值时，确定与关键词向量匹配的目标父领域标签；获取目标父领域标签下的所有子领域标签，得到第二子领域标签；计算关键词向量与第二子领域标签的相似度，得到第二相似度，并将第二相似度值作为待审核消息的领域分类置信度；对待审核消息的领域分类置信度进行降序排序，得到第二分类置信度序列；从第二分类置信度序列中获取第二分类置信度，其中，第二分类置信度为第二分类置信度序列中的最大值；比对第二分类置信度与预设的置信度阈值；当第二分类置信度大于或等于置信度阈值时，获取第二分类置信度对应的分类标签，并将分类标签表示的业务领域确定为待审核消息所属的业务领域，得到领域分类结果。

进一步地，图谱向量化模块303具体用于：

在目标业务领域知识图谱中获取与待审核消息关联的实体，得到关联实体；获取关联实体之间的关联关系，得到实体关联关系集合；利用目标业务领域知识图谱的拓扑结构信息，计算实体关联关系集合在目标业务领域知识图谱中的结构位置，得到实体关系的拓扑结构；对目标业务领域知识图谱中的实体和实体关系的拓扑结构进行语义表示，生成目标知识图谱向量。

进一步地，长短时记忆网络模型包括编码层、长短时记忆单元和知识融合单元，语义编码模块304具体用于：

获取待审核消息的消息文本，并将目标知识图谱向量和消息文本加载到长短时记忆网络模型中；通过编码层对消息文本进行编码，得到消息文本向量；使用长短时记忆单元对于输入的消息文本向量进行处理，得到隐状态向量；使用知识融合单元对目标知识图谱向量和隐状态向量进行知识融合，得到语义表示向量。

进一步地，内容抽取模块305具体用于：

对待审核消息进行分词和词性标注，得到词汇标注序列；通过条件随机场模型对词汇标注序列进行特征提取，得到若干个词汇特征向量；基于语义表示向量对每一个词汇特征向量进行语义分析，基于语义分析结果确定关键实体、实体属性和实体关系。

内容抽取模块305进一步用于：

基于语义表示向量采用语义分析算法对每一个词汇特征向量进行语义分析，得到每一个词汇特征向量对应的语义特征；通过语义特征识别待审核消息中的关键实体，得到关键实体列表；基于关键实体列表，根据语义表示向量识别每一个关键实体包含的实体属性和实体关系。

在上述实施例中，本申请公开一种消息内容抽取装置，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。结合领域分类和业务领域知识图谱进行消息内容抽取，结合了消息内容的上下文语义信息，对消息内容的精准抽取与结构化处理，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(App l i cat i onSpec i f i cI ntegrated Ci rcu it，AS I C)、可编程门阵列(F i e l d－Programmabl e Gate Array，FPGA)、数字处理器(D i gita l Si gna l Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如消息内容抽取方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述消息内容抽取方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

在上述实施例中，本申请公开一种计算机设备，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。结合领域分类和业务领域知识图谱进行消息内容抽取，结合了消息内容的上下文语义信息，对消息内容的精准抽取与结构化处理，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的消息内容抽取方法的步骤。

在上述实施例中，本申请公开一种计算机可读存储介质，涉及大数据技术领域。首先通过关键词提取与向量转化，将待审核消息转化为关键词向量。随后，利用预训练的领域分类模型对关键词向量进行领域分类，确定消息所属的业务领域。根据领域分类结果，选取匹配的目标业务领域知识图谱，并生成其向量表示。接着，结合该向量表示，运用预设的长短时记忆网络模型对消息进行语义编码，生成语义表示向量。最后，基于该语义表示向量，通过条件随机场模型精准识别消息中的关键实体、属性及关系。结合领域分类和业务领域知识图谱进行消息内容抽取，结合了消息内容的上下文语义信息，对消息内容的精准抽取与结构化处理，提高了消息内容抽取的准确性和效率，能够自动化地识别出关键实体、属性及关系。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种消息内容抽取方法，其特征在于，包括：

基于所述关键词向量和预训练的领域分类模型，对所述待审核消息进行领域分类，得到领域分类结果；

根据所述领域分类结果确定与所述待审核消息匹配的目标业务领域知识图谱，并生成所述目标业务领域知识图谱的向量表示，得到目标知识图谱向量；

结合所述目标知识图谱向量，使用预设的长短时记忆网络模型对所述待审核消息进行语义编码，生成语义表示向量；

基于所述语义表示向量，利用条件随机场模型识别所述待审核消息中的关键实体、实体属性和实体关系。

2.如权利要求1所述的消息内容抽取方法，其特征在于，所述领域分类模型中配置有若干个不同领域的分类标签，所述基于所述关键词向量和预训练的领域分类模型，对所述待审核消息进行领域分类，得到领域分类结果，包括：

计算所述关键词向量与所述领域分类模型中的分类标签的相似度，得到相似度，并将所述相似度值作为所述待审核消息的领域分类置信度；

对所述待审核消息的领域分类置信度进行降序排序，得到分类置信度序列；

根据所述分类置信度序列确定所述待审核消息所属的业务领域，得到所述领域分类结果。

3.如权利要求2所述的消息内容抽取方法，其特征在于，所述根据所述分类置信度序列确定所述待审核消息所属的业务领域，得到所述领域分类结果，包括：

从所述分类置信度序列中获取最大分类置信度，其中，所述最大分类置信度为所述分类置信度序列中的最大值；

比对所述最大分类置信度与预设的置信度阈值；

当所述最大分类置信度大于或等于所述置信度阈值时，获取所述最大分类置信度对应的分类标签，并将所述分类标签表示的业务领域确定为所述待审核消息所属的业务领域，得到所述领域分类结果。

4.如权利要求3所述的消息内容抽取方法，其特征在于，所述领域分类模型中配置的分类标签包括父领域标签和子领域标签，所述计算所述关键词向量与所述领域分类模型中的分类标签的相似度，并将所述相似度值作为所述待审核消息的领域分类置信度，包括：

确定与所述关键词向量匹配的目标父领域标签；

获取所述目标父领域标签下的所有子领域标签，得到目标子领域标签；

计算所述关键词向量与所述目标子领域标签的相似度，得到所述相似度；

将所述相似度值作为所述待审核消息的领域分类置信度。

5.如权利要求1所述的消息内容抽取方法，其特征在于，所述生成所述目标业务领域知识图谱的向量表示，得到目标知识图谱向量，包括：

在所述目标业务领域知识图谱中获取与所述待审核消息关联的实体，得到关联实体；

获取所述关联实体之间的关联关系，得到实体关联关系集合；

利用所述目标业务领域知识图谱的拓扑结构信息，计算所述实体关联关系集合在所述目标业务领域知识图谱中的结构位置，得到实体关系的拓扑结构；

对所述目标业务领域知识图谱中的实体和实体关系的拓扑结构进行语义表示，生成所述目标知识图谱向量。

6.如权利要求1所述的消息内容抽取方法，其特征在于，所述长短时记忆网络模型包括编码层、长短时记忆单元和知识融合单元，所述结合所述目标知识图谱向量，使用预设的长短时记忆网络模型对所述待审核消息进行语义编码，生成语义表示向量，包括：

获取所述待审核消息的消息文本，并将所述目标知识图谱向量和所述消息文本加载到所述长短时记忆网络模型中；

通过所述编码层对所述消息文本进行编码，得到消息文本向量；

使用所述长短时记忆单元对于输入的消息文本向量进行处理，得到隐状态向量；

使用所述知识融合单元对所述目标知识图谱向量和所述隐状态向量进行知识融合，得到所述语义表示向量。

7.如权利要求1所述的消息内容抽取方法，其特征在于，所述基于所述语义表示向量，利用条件随机场模型识别所述待审核消息中的关键实体、实体属性和实体关系，包括：

对所述待审核消息进行分词和词性标注，得到词汇标注序列；

通过所述条件随机场模型对所述词汇标注序列进行特征提取，得到若干个词汇特征向量；

基于所述语义表示向量，采用语义分析算法对每一个所述词汇特征向量进行语义分析，得到每一个所述词汇特征向量对应的语义特征；

通过所述语义特征识别所述待审核消息中的关键实体，得到关键实体列表；

基于所述关键实体列表，根据所述语义表示向量识别每一个所述关键实体包含的实体属性和实体关系。

8.一种消息内容抽取装置，其特征在于，包括：

领域分类模块，用于基于所述关键词向量和预训练的领域分类模型，对所述待审核消息进行领域分类，得到领域分类结果；

图谱向量化模块，用于根据所述领域分类结果确定与所述待审核消息匹配的目标业务领域知识图谱，并生成所述目标业务领域知识图谱的向量表示，得到目标知识图谱向量；

语义编码模块，用于结合所述目标知识图谱向量，使用预设的长短时记忆网络模型对所述待审核消息进行语义编码，生成语义表示向量；

内容抽取模块，用于基于所述语义表示向量，利用条件随机场模型识别所述待审核消息中的关键实体、实体属性和实体关系。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的消息内容抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的消息内容抽取方法的步骤。