CN119357408A

CN119357408A - 基于大语言模型的电力知识图谱构建方法

Info

Publication number: CN119357408A
Application number: CN202411712763.9A
Authority: CN
Inventors: 沈伍强; 戴涛; 张小陆; 崔磊; 杜金燃; 王业超; 黄勇
Original assignee: China South Power Grid International Co ltd; Guangdong Power Grid Co Ltd; Information Center of Guangdong Power Grid Co Ltd
Current assignee: China South Power Grid International Co ltd; Guangdong Power Grid Co Ltd; Information Center of Guangdong Power Grid Co Ltd
Priority date: 2024-11-27
Filing date: 2024-11-27
Publication date: 2025-01-24

Abstract

本申请涉及一种基于大语言模型的电力知识图谱构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括：从电力场景中获取初始文档数据，并对初始文档数据进行过滤处理，得到目标电力文档数据；采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息；根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息；根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息；根据目标三元组信息，建立电力知识图谱。采用本方法能够提高电力信息处理准确性。

Description

基于大语言模型的电力知识图谱构建方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于大语言模型的电力知识图谱构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

随着电力系统的发展和电力通信网络复杂性的增加，运维人员在处理大量异构数据时面临挑战。这些数据通常以文本、表格和PDF等多种格式存在，包括设备运行记录、维护手册和故障报告等。

传统的方法主要依赖于知识搜索技术，但在电力通信网络复杂环境中的效果有限，使得属性的对齐方法难以有效应用，导致信息处理的准确性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高电力信息处理准确性的基于大语言模型的电力知识图谱构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于大语言模型的电力知识图谱构建方法，包括：

从电力场景中获取初始文档数据，并对所述初始文档数据进行过滤处理，得到目标电力文档数据；

采用预训练大语言模型，从所述目标电力文档数据中，提取出初始三元组信息；

根据所述目标电力文档数据，从预设电力领域信息库中，匹配出关联信息；

根据所述关联信息，对所述初始三元组信息进行数据修正处理，得到目标三元组信息；

根据所述目标三元组信息，建立电力知识图谱。

在其中一个实施例中，所述对所述初始文档数据进行过滤处理，得到目标电力文档数据，包括：

采用预训练的机器学习模型，对所述初始文档数据进行分类处理，得到电力相关文档数据和非电力相关文档数据；

将所述电力相关文档数据作为所述目标电力文档数据。

在其中一个实施例中，所述根据所述目标电力文档数据，从预设电力领域信息库中，匹配出关联信息，包括：

采用自然语言处理模型，对所述目标电力文档数据进行文本分块处理，得到目标文本块；

将所述目标文本块进行向量化处理，得到对应的文本向量；

根据所述文本向量，从所述预设电力领域信息库中，匹配出与所述文本向量之间的相关性最高的信息，作为所述关联信息。

在其中一个实施例中，所述根据所述关联信息，对所述初始三元组信息进行数据修正处理，得到目标三元组信息，包括：

根据所述关联信息，对所述初始三元组信息中的实体和实体关系进行消歧处理，得到处理后三元组信息；

根据所述关联信息，对所述处理后三元组信息中的实体属性信息进行审核处理，得到目标三元组信息。

在其中一个实施例中，所述采用预训练大语言模型，从所述目标电力文档数据中，提取出初始三元组信息，包括：

根据预设提取交互模板，生成提取交互信息；

将所述提取交互信息和所述目标电力文档数据，输入所述预训练大语言模型中，得到所述预训练大语言模型返回的初始三元组信息。

在其中一个实施例中，所述预训练大语言模型通过以下方式得到：

将预设生成交互信息，输入通用大语言模型中，得到所述通用大语言模型返回的三元组提取训练样本集；

根据所述三元组提取训练样本集，训练所述通用大语言模型，得到用于提取三元组信息的所述预训练大语言模型。

第二方面，本申请还提供了一种基于大语言模型的电力知识图谱构建装置，包括：

数据获取模块，用于从电力场景中获取初始文档数据，并对所述初始文档数据进行过滤处理，得到目标电力文档数据；

信息提取模块，用于采用预训练大语言模型，从所述目标电力文档数据中，提取出初始三元组信息；

信息匹配模块，用于根据所述目标电力文档数据，从预设电力领域信息库中，匹配出关联信息；

数据修正模块，用于根据所述关联信息，对所述初始三元组信息进行数据修正处理，得到目标三元组信息；

图谱建立模块，用于根据所述目标三元组信息，建立电力知识图谱。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述目标三元组信息，建立电力知识图谱。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述目标三元组信息，建立电力知识图谱。

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据所述目标三元组信息，建立电力知识图谱。

上述基于大语言模型的电力知识图谱构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，首先，从电力场景中获取初始文档数据，并对初始文档数据进行过滤处理，得到目标电力文档数据，通过对初始文档数据进行过滤处理，能够有效去除冗余、噪声或不完整的数据，确保后续处理的数据具有较高的质量，减少了无关信息的干扰，为更精准的知识图谱构建打下基础；接着，采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息，从经过过滤的电力文档中提取初始三元组信息，能够将非结构化的电力领域文本转换为结构化数据形式，使得电力数据中隐含的知识得以显现和整理，便于后续处理和知识图谱的构建；然后，根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息，通过在预设的电力领域信息库中进行匹配，能够为初始三元组提供更丰富的背景信息，提高了信息的关联性，确保提取出的三元组能够更好地反映电力系统中的真实关系；接下来，根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息，通过关联信息对初始三元组进行消歧、验证和修正，可以有效纠正错误、消除歧义、补充缺失信息，保证了三元组信息的准确性和完整性，进一步提升知识图谱中节点和关系的质量；最后，根据目标三元组信息，建立电力知识图谱，基于经过修正的目标三元组信息，能够构建出具有高准确性和高关联度的电力知识图谱，图谱可以系统化地展现电力系统中的各种实体及其相互关系，提升了数据的可读性和可用性，为智能化电力管理提供了基础。上述方法中，通过对电力领域的初始文档数据进行过滤、三元组提取、关联信息匹配和数据修正处理，构建出准确且高质量的电力知识图谱，提升了电力数据处理的准确性和效率。通过结构化提取三元组信息并结合领域知识库，增强了数据的关联性和背景信息的完备性。最终，有效地解决了传统电力数据处理方法在复杂环境下准确性较差的问题，实现了电力领域内数据的系统化组织和智能化应用，为电力系统的运维和管理提供了有力的支持。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对本申请实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一个实施例中基于大语言模型的电力知识图谱构建方法的流程示意图；

图2为另一个实施例中基于大语言模型的电力知识图谱构建方法的流程示意图；

图3为一个实施例中对初始文档数据进行分类处理的模型结构示意图；

图4为一个实施例中对通用大语言模型进行微调训练的示意图；

图5为一个实施例中基于大语言模型的电力知识图谱构建装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于大语言模型的电力知识图谱构建方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云计算服务的云服务器。本实施例中，该方法包括以下步骤：

步骤S101，从电力场景中获取初始文档数据，并对初始文档数据进行过滤处理，得到目标电力文档数据。

其中，初始文档数据是指从电力系统相关的场景中收集的各类原始数据，包括但不限于设备运行记录、维护手册、故障报告、实时监控数据等，这些数据通常以文本、表格、PDF或数据库形式存在，反映了电力系统中的运行状态、故障信息及相关操作记录等等。目标电力文档数据是通过对初始文档数据进行过滤、清洗和筛选后得到的数据集合，确保其具备与电力知识图谱构建相关的高质量特性。

示例性地，终端可以通过连接电力系统的运维平台或数据库接口，自动化获取所需的初始文档数据。首先，终端从多个电力场景中收集原始数据，可能包括日常运维系统的记录、历史故障数据、传感器的实时监控信息等多源数据。接着，终端对这些原始数据进行初步的清理和过滤处理，过滤掉与电力知识图谱构建无关的冗余信息、低质量数据或噪声数据。此过滤过程可以使用机器学习模型或自然语言处理技术进行，终端通过分析数据的语义、格式及结构，将不完整、重复或不相关的文档排除，从而保留高质量且与电力领域相关的目标文档数据，便于后续的三元组提取和知识图谱构建。

步骤S102，采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息。

其中，初始三元组信息是指从目标电力文档数据中提取出的基本结构化知识单元，至少包括两种形式：一种是实体-关系-实体，用于表示电力系统中两个实体之间的关系，例如“变压器A-连接-断路器B”；另一种是实体-属性-属性值，用于描述某个实体的特定属性及其对应的值，例如“变压器A-功率-500千瓦”。这些三元组信息是构建电力知识图谱的基础，通过捕捉实体间的关系和属性信息，可以为后续数据查询和推理提供支持。

示例性地，终端通过调用预训练的大语言模型，从目标电力文档数据中自动提取初始三元组信息。首先，终端对目标文档数据进行预处理，包括文本分词、命名实体识别、词性标注等步骤，以便识别出电力领域的相关实体和属性。接下来，终端通过模型分析文档中的语义结构，提取出两种类型的三元组：对于实体-关系-实体，终端识别文档中的设备、组件等实体，并提取它们之间的关联关系；对于实体-属性-属性值，终端识别出实体（如设备）及其对应的属性（如电压、功率）和属性值。通过这些操作，终端生成结构化的初始三元组信息，确保每个三元组准确反映电力系统中的实体及其相互关系或属性特征，从而为后续的知识图谱构建提供基础数据。

步骤S103，根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息。

其中，预设电力领域信息库是指包含大量电力领域专业知识的数据库，涵盖电力设备、操作规程、故障处理方法、技术规范等信息，能够为电力文档中的内容提供相关背景支持。关联信息是指从该信息库中匹配出的与目标电力文档数据中的实体、关系或属性相关的知识条目，用于补充和验证初始三元组信息。

示例性地，终端通过分析目标电力文档数据中的实体和关系，从预设电力领域信息库中自动匹配出相关的背景信息。终端首先根据从目标文档数据中提取的实体、关系和属性，生成查询请求，查询这些元素在电力领域信息库中的相关条目。例如，终端可以使用关键词匹配、语义相似度计算或知识库检索工具，将文档中的设备（如“变压器A”）与信息库中已有的设备条目进行匹配，查找有关设备特性、运行标准或故障类型的详细信息。在匹配过程中，终端可以结合语义分析，识别出电力文档数据中的关键术语，并使用自然语言处理技术进行上下文理解，以确保匹配到的信息与电力文档中的内容高度相关。这些匹配出的关联信息可以包括设备的运行参数、故障处理规范、或历史数据中常见的设备交互关系等。通过该过程，终端可以为初始三元组信息提供专业的领域背景知识，进一步增强三元组的准确性和完整性，并为后续的修正和验证提供支持。

步骤S104，根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息。

其中，数据修正处理是指根据从预设电力领域信息库中匹配出的关联信息，对初始三元组信息进行消歧、验证、补充和优化，以提高三元组的准确性、完整性和一致性。目标三元组信息则是经过修正处理后的高质量三元组，能够准确反映电力系统中的实体、关系或属性，符合专业领域的规范和要求。

示例性地，终端根据匹配到的关联信息，对初始三元组进行多个层次的修正处理。首先，终端执行实体消歧，即通过关联信息消除同名或相似实体的歧义，确保每个实体指向唯一的电力设备或系统组件。例如，文档中提到的“变压器A”可能在多个文档中出现，通过结合关联信息，终端可以确定具体是哪一类型或位置的变压器。接下来，终端执行关系验证，对初始三元组中的实体-关系-实体的结构进行审查，确保这些关系在电力领域中是合理的。例如，如果初始三元组表示“变压器A-连接-断路器B”，终端通过关联信息库中的技术规范验证该连接关系是否符合电力系统中的实际操作规程，若不符合则进行修正或删除。此外，终端会进行属性补充，即根据关联信息对初始三元组中的实体或属性进行补充。例如，若某个实体缺少具体的参数（如“电压等级”或“运行状态”），终端可以从关联信息库中查找并补全这些缺失的属性值。最终，终端通过一致性检查，确保修正后的目标三元组信息在结构和语义上与电力领域的专业知识一致。例如，如果初始三元组的关系或属性与关联信息库中的常规知识不符，终端会修正这些不一致之处，以确保三元组的准确性和一致性。通过这些修正处理，终端生成的目标三元组信息将更加完整和精确，为后续的知识图谱构建提供高质量的基础数据。

步骤S105，根据目标三元组信息，建立电力知识图谱。

其中，电力知识图谱是指通过结构化的方式，将电力系统中的实体及其关系或属性以图谱形式呈现，形成一个能够直观展示和存储电力领域知识的网络。图谱中的节点代表电力系统中的关键实体（如设备、组件），边代表实体之间的关系（如连接、依赖）或属性值（如功率、状态）。目标三元组信息是经过修正处理的高质量三元组，构成了知识图谱中的基本单元。

示例性地，终端根据目标三元组信息执行知识图谱的构建或更新。首先，若为初次构建，终端将每个三元组的实体作为节点添加到知识图谱中，将关系作为连接节点的边。例如，对于目标三元组“变压器A-连接-断路器B”，终端将在图谱中创建“变压器A”节点和“断路器B”节点，并通过“连接”关系将它们关联起来。对于实体-属性-属性值形式的三元组，终端会将属性值（如“500千瓦”）作为节点的附加信息，附加到相应实体（如“变压器A”）上，使图谱更加完整。

如果图谱已存在，终端可以基于目标三元组信息对现有图谱进行更新。更新过程包括：新增节点和关系：当目标三元组信息中的实体或关系不在现有知识图谱中时，终端将其作为新节点或新边添加到图谱中。例如，若识别到新的设备或连接关系，终端会在原图谱的基础上扩展对应的实体和关系。修正和更新现有节点信息：当目标三元组提供了已有实体的更新信息时，终端会对现有节点进行更新。例如，如果现有图谱中“变压器A”的功率为300千瓦，而新的目标三元组信息显示其功率已变为500千瓦，终端将修改该属性，确保图谱数据的准确性。移除过时或无效的信息：终端可以通过目标三元组信息标识和移除过时或已无效的节点或关系，确保知识图谱中的数据保持最新、有效。

最终，终端通过构建或更新电力知识图谱，能够系统化地呈现电力系统中的复杂实体关系，并实时反映设备状态、故障信息和维护记录等动态变化，支持更高效的查询、分析和推理。这不仅提升了知识图谱的准确性和实时性，还帮助运维人员更好地理解电力系统的运行情况，促进决策过程的智能化和数据驱动型管理。

上述基于大语言模型的电力知识图谱构建方法中，首先，从电力场景中获取初始文档数据，并对初始文档数据进行过滤处理，得到目标电力文档数据，通过对初始文档数据进行过滤处理，能够有效去除冗余、噪声或不完整的数据，确保后续处理的数据具有较高的质量，减少了无关信息的干扰，为更精准的知识图谱构建打下基础；接着，采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息，从经过过滤的电力文档中提取初始三元组信息，能够将非结构化的电力领域文本转换为结构化数据形式，使得电力数据中隐含的知识得以显现和整理，便于后续处理和知识图谱的构建；然后，根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息，通过在预设的电力领域信息库中进行匹配，能够为初始三元组提供更丰富的背景信息，提高了信息的关联性，确保提取出的三元组能够更好地反映电力系统中的真实关系；接下来，根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息，通过关联信息对初始三元组进行消歧、验证和修正，可以有效纠正错误、消除歧义、补充缺失信息，保证了三元组信息的准确性和完整性，进一步提升知识图谱中节点和关系的质量；最后，根据目标三元组信息，建立电力知识图谱，基于经过修正的目标三元组信息，能够构建出具有高准确性和高关联度的电力知识图谱，图谱可以系统化地展现电力系统中的各种实体及其相互关系，提升了数据的可读性和可用性，为智能化电力管理提供了基础。上述方法中，通过对电力领域的初始文档数据进行过滤、三元组提取、关联信息匹配和数据修正处理，构建出准确且高质量的电力知识图谱，提升了电力数据处理的准确性和效率。通过结构化提取三元组信息并结合领域知识库，增强了数据的关联性和背景信息的完备性。最终，有效地解决了传统电力数据处理方法在复杂环境下准确性较差的问题，实现了电力领域内数据的系统化组织和智能化应用，为电力系统的运维和管理提供了有力的支持。

在一个示例性的实施例中，上述步骤S101对初始文档数据进行过滤处理，得到目标电力文档数据，还包括：采用预训练的机器学习模型，对初始文档数据进行分类处理，得到电力相关文档数据和非电力相关文档数据；将电力相关文档数据作为目标电力文档数据。

示例性地，终端首先对初始文档数据进行预处理，包括去除格式不规范的文件、修正拼写错误和标准化术语。接着，使用自然语言处理技术对文档进行分词、词性标注和实体识别，从中提取出关键信息。然后，这些特征被输入到经过训练的机器学习模型中，该模型经过电力领域相关数据集的训练，能够识别并区分电力相关文档和非电力相关文档。通过使用分类算法（如支持向量机、随机森林或深度学习模型），终端将文档分类，并保留所有被标记为“电力相关”的文档数据，形成目标电力文档数据。

本实施例中，通过采用预训练的机器学习模型对初始文档数据进行分类，显著提高了数据过滤的效率和准确性，确保目标电力文档数据的高相关性与质量，为后续的三元组提取和知识图谱构建奠定了良好的基础，提升了电力知识管理的整体效果。

在一个示例性的实施例中，上述步骤S103根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息，还包括：采用自然语言处理模型，对目标电力文档数据进行文本分块处理，得到目标文本块；将目标文本块进行向量化处理，得到对应的文本向量；根据文本向量，从预设电力领域信息库中，匹配出与文本向量之间的相关性最高的信息，作为关联信息。

其中，目标文本块是指将目标电力文档数据划分为若干较小的、具有语义独立性和完整性的文本片段，以便于后续的分析和处理。文本向量则是通过向量化处理将文本块转换为数值表示形式，便于计算机进行相似性度量和信息检索。

示例性地，终端将目标文档数据根据特定的语义或结构特征进行切分，例如按段落、句子或特定关键字进行分割，确保每个文本块都能包含完整的信息。接下来，终端对这些目标文本块进行向量化处理，使用如Word2Vec、GloVe或BERT等预训练模型，将每个文本块转换为对应的文本向量。这些向量表示了文本块的语义特征，使其能够与信息库中的内容进行比较。然后，终端通过计算文本向量与信息库中各条目向量之间的相似度（例如使用余弦相似度或欧氏距离），终端能够识别出最相关的条目。

本实施例中，通过对目标电力文档数据进行文本分块和向量化处理，能够有效提高关联信息的检索精度和效率，不仅增强了信息匹配的相关性，还为后续的数据修正和知识图谱构建提供了更加丰富和专业的支持。

在一个示例性的实施例中，上述步骤S104根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息，还包括：根据关联信息，对初始三元组信息中的实体和实体关系进行消歧处理，得到处理后三元组信息；根据关联信息，对处理后三元组信息中的实体属性信息进行审核处理，得到目标三元组信息。

示例性地，终端利用已匹配的关联信息，识别并消除同名实体的歧义。例如，对于在多个上下文中出现的“变压器”，终端会结合关联信息确定具体指代的设备，从而生成消歧后的三元组信息。此过程可以通过比较上下文、属性及历史数据来实现，确保消歧结果的准确性。接下来，终端根据关联信息，对处理后三元组信息中的实体属性信息进行审核处理，而不是直接修改。终端会对每个实体的属性（如功率、电压、类型等）进行验证，确保它们符合电力领域的专业知识和规范。在此过程中，如果发现某个属性与关联信息不一致，终端会标记该三元组并通知用户进行人工审核。例如，如果三元组中标记的变压器功率为“300千瓦”，但关联信息表明其实际功率应为“500千瓦”，终端将该信息标记为需要确认，用户可根据实际情况进行决策。终端最终得到目标三元组信息，该信息经过消歧和审核处理，确保了其准确性和完整性，同时不干扰故障报告的有效性，为后续的知识图谱构建提供了坚实的基础。

本实施例中，通过对初始三元组信息进行消歧和审核，显著提高了三元组的质量和可信度，确保了知识图谱中每个节点和关系的准确性，有助于提升电力知识管理的整体效果，同时保持了故障信息的可靠性和用户对数据的信任。

在一个示例性的实施例中，上述步骤S102采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息，还包括：根据预设提取交互模板，生成提取交互信息；将提取交互信息和目标电力文档数据，输入预训练大语言模型中，得到预训练大语言模型返回的初始三元组信息。

其中，提取交互信息是指与预训练的大语言模型交互时所使用的具体话术和指令，以及对返回信息格式的要求。这些交互信息可以包括针对电力领域特定问题的提问，例如“请提取文档中所有与设备故障相关的三元组信息”，同时明确模型返回信息的格式，例如要求以“实体-关系-实体”或“实体-属性-属性值”的形式呈现。

示例性地，终端会将目标文档中的相关内容输入到预训练的大语言模型中，同时附加一系列的交互话术和格式要求。例如，终端可以指示模型：“请提取变压器的电压和功率参数，并以三元组形式返回结果。”这些指令有助于模型聚焦于特定内容并按预期格式进行输出。终端将提取交互信息和目标电力文档数据一并输入到大语言模型中，模型会根据输入的内容和交互指令生成初始三元组信息。返回的三元组可能会以“变压器A-故障-2023年5月1日”或“变压器A-功率-500千瓦”的格式展现。

本实施例中，通过与预训练的大语言模型进行有效交互，并明确返回信息的格式要求，能够高效地提取目标电力文档中的初始三元组信息，简化了信息提取的复杂性，提高了数据处理的效率，为后续的知识图谱构建提供了可靠的基础。

在一个示例性的实施例中，上述预训练大语言模型可以通过以下方式得到：将预设生成交互信息，输入通用大语言模型中，得到通用大语言模型返回的三元组提取训练样本集；根据三元组提取训练样本集，训练通用大语言模型，得到用于提取三元组信息的预训练大语言模型。

其中，通用大语言模型是指在广泛文本语料上进行预训练的自然语言处理模型，具有丰富的语言理解能力和生成能力，但可能缺乏特定领域的专业知识。因此，为了使模型在电力领域的数据提取任务中表现更好，需要对其进行针对性的训练。

示例性地，终端首先将预设生成交互信息输入到通用大语言模型中，以指导模型生成相关的三元组提取训练样本集。预设生成交互信息可能包括针对电力领域的具体问题和格式要求，例如：“请提取设备间的连接关系”或“识别故障描述的实体及其属性”。模型根据这些信息生成的输出将构成三元组提取训练样本集，其中每个样本都包括初始文本和对应的三元组标注。接下来，终端根据生成的三元组提取训练样本集，对通用大语言模型进行微调训练。在训练过程中，模型将学习如何根据输入的电力领域文本生成准确的三元组信息。通过不断迭代和优化，模型能够在特定领域中更准确地提取出实体、关系和属性。

本实施例中，通过将生成交互信息与通用大语言模型结合，能够有效构建出专门用于提取三元组信息的预训练大语言模型，提高了模型在电力领域数据处理任务中的表现，确保后续三元组提取的准确性和可靠性。

在另一个示例性的实施例中，如图2所示，本申请提供了一种基于大语言模型的电力知识图谱构建方法，该方法包括：

步骤S201，从电力场景中获取初始文档数据。

步骤S202，采用预训练的机器学习模型，对初始文档数据进行分类处理，得到电力相关文档数据和非电力相关文档数据。

步骤S203，将电力相关文档数据作为目标电力文档数据。

步骤S204，根据预设提取交互模板，生成提取交互信息。

步骤S205，将提取交互信息和目标电力文档数据，输入预训练大语言模型中，得到预训练大语言模型返回的初始三元组信息。

步骤S206，采用自然语言处理模型，对目标电力文档数据进行文本分块处理，得到目标文本块。

步骤S207，将目标文本块进行向量化处理，得到对应的文本向量。

步骤S208，根据文本向量，从预设电力领域信息库中，匹配出与文本向量之间的相关性最高的信息，作为关联信息。

步骤S209，根据关联信息，对初始三元组信息中的实体和实体关系进行消歧处理，得到处理后三元组信息。

步骤S210，根据关联信息，对处理后三元组信息中的实体属性信息进行审核处理，得到目标三元组信息。

步骤S211，根据目标三元组信息，建立电力知识图谱。

示例性地，由于大模型存在对于特定领域的问题缺乏相应知识，可能会在实体提取时出现幻觉现象。利用信息分类过滤处理，可以降低大型语言模型生成虚假信息的可能性，从而提高知识图谱构建的准确性。例如，假设所有的文档集合为S，在电力专业领域大模型可以较好理解的文档集合为R，可以较好完成实体识别任务的文档集合为N，显然有S>R>N。经过微调的大模型，以及匹配出关联信息，会使得R趋近于N；使用信息过滤模块，使得S趋近于R；保证进入三元组提取的文档都是和电力领域相关的文本，减少文本噪声对后续实体识别效果的影响。

对于获得到的初始文档数据，可以利用如图3所示的基于变换器的双向编码表示模型(Bert)进行信息分类过滤。

基于变换器的双向编码表示模型(Bert)的训练过程可以是：将训练数据输入进Bert模型，经过embedding（向量化），获得对应的向量化表征，并且在Bert模型后接一个全连接层，将Bert模型的输出的中间向量H表示进行进一步的二分类，分为0或1，0表示电力不相关，1表示电力相关。经过训练后，全连接层的参数会被改变。训练过程的目标为，最大化输出标签对应的对数概率，训练过程的公式总结如下：

其中，softmax为归一化指数函数，L为预测结果的标签，H为Bert模型输出的中间向量，W为此任务的参数矩阵。

训练结束后的模型，应该具有最小的损失，使用全连接层FC的计算公式总结如下：

实际运行过程中，选择概率最大的标签作为分类的结果，即电力相关和电力不相关之中的其一。

预训练大语言模型可以通过以下方式进行训练得到：

首先通过对通用大语言模型进行提问获得微调样本数据集，提问示例为：“请参考{信息提取示例}，生成三元组信息抽取的微调样本数据集”。

然后采用微调样本数据集对通用大语言模型进行微调训练，具体可以如图4所示的采用低秩矩阵微调（LoRA，Low-Rank Adaptation）方法，通过低秩分解进行权重更新的微调公式可以总结如下：

其中，表示预训练权重矩阵，r表示LoRA模块的秩，A和B是可更新的训练参数，。

步骤S204中的预设提取交互模板可以是：

“现在你是电力领域的专家，将此文本片段中的内容：{用户输入的问题}抽取出知识图谱三元组和实体对齐三元组的格式应遵循<实体，属性，属性值>或者<实体，关系，实体>的格式，回答请遵循以下格式返回：

{"sentence":s1,

"kq”:{

"relation":r1,

"entity i":e1,

"entity_j":e2}}

{"sentence":s2,

"kg":{

"attribute":a,

"entity":e,

"attribute value":y”}}”

其中，“用户输入的问题”可以是“关于变压器A的详细信息”或“变压器A的连接对象”等等。

在步骤S206至步骤S208中，可以使用一个langchain+LLM（LangChain 是一个用于构建以语言模型为基础的应用程序的框架，LLM为大语言模型），使用langchain的loader模块加载目标电力文档数据，通过使用TextSplitter模块中的RecursiveCharacterTextSplitter工具，对目标电力文档数据进行文本分割，使用chunk_size参数指定文本应该被分割成的最大块的大小。进一步地，对待处理的文本块进行向量化处理，在获取到专业知识向量库对象后，使用检索器Retriever类可以根据输入的查询问题，从文档中检索相关性高的内容并返回；其中，search_type指定为querySmilarity，指定参数k定义返回多少个文档。进一步地，在得到Retriever类之后，检索文档生成答案，采用map re-rank文件链模式，对每个文件进行初始提示，除了完成一项任务之外，而且对其答案的确定程度进行评分，得分最高的回答会被返回。

在步骤S209至步骤S210中，可以采用大语言模型对初始三元组信息进行消歧、审核处理，具体可以采用如下交互模板：

“现在你是电力领域的专家，请参考以下专业知识：{专业知识文本}，

检查下面三元组是否存在错误，并进行实体消歧。

实体消歧分为两步，第一步在实体识别和关系识别之前进行消歧，第二步生要采用关系词典和主题词典进行匹配消歧。

将实体识别、关系识别和属性抽取的结果进行消歧。

1、关系提职错误。

2、实体对应关系错误。

3、属性值错误等问题。

若无问题请返回“True”；

若有问题请返回“False“并且在后面接上错误的原因，与应该正确的表达，格式保持一致。”

对实体识别和关系抽取的结果进行审核和消歧，对于属性抽取的结果进行实体消歧。实体消歧主要解决自然语言存在的一词多义和多词一义的现象。

最后对经过实体消歧和审核的目标三元组信息，根据实体与实体间的依赖关系将目标网络的各个知识图谱节点进行匹配和串联，构建出目标电力知识图谱，也可以更新原有的电力知识图谱。另外，还可以不定时更新预设电力领域信息库，以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

本实施例中，通过对电力领域的初始文档数据进行过滤、三元组提取、关联信息匹配和数据修正处理，构建出准确且高质量的电力知识图谱，提升了电力数据处理的准确性和效率。通过结构化提取三元组信息并结合领域知识库，增强了数据的关联性和背景信息的完备性。最终，有效地解决了传统电力数据处理方法在复杂环境下准确性较差的问题，实现了电力领域内数据的系统化组织和智能化应用，为电力系统的运维和管理提供了有力的支持。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于大语言模型的电力知识图谱构建方法的基于大语言模型的电力知识图谱构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于大语言模型的电力知识图谱构建装置实施例中的具体限定可以参见上文中对于基于大语言模型的电力知识图谱构建方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种基于大语言模型的电力知识图谱构建装置，包括：数据获取模块501、信息提取模块502、信息匹配模块503、数据修正模块504和图谱建立模块505，其中：

数据获取模块501，用于从电力场景中获取初始文档数据，并对初始文档数据进行过滤处理，得到目标电力文档数据；

信息提取模块502，用于采用预训练大语言模型，从目标电力文档数据中，提取出初始三元组信息；

信息匹配模块503，用于根据目标电力文档数据，从预设电力领域信息库中，匹配出关联信息；

数据修正模块504，用于根据关联信息，对初始三元组信息进行数据修正处理，得到目标三元组信息；

图谱建立模块505，用于根据目标三元组信息，建立电力知识图谱。

在其中一个实施例中，上述数据获取模块501，还用于采用预训练的机器学习模型，对初始文档数据进行分类处理，得到电力相关文档数据和非电力相关文档数据；将电力相关文档数据作为目标电力文档数据。

在其中一个实施例中，上述信息匹配模块503，还用于采用自然语言处理模型，对目标电力文档数据进行文本分块处理，得到目标文本块；将目标文本块进行向量化处理，得到对应的文本向量；根据文本向量，从预设电力领域信息库中，匹配出与文本向量之间的相关性最高的信息，作为关联信息。

在其中一个实施例中，上述数据修正模块504，还用于根据关联信息，对初始三元组信息中的实体和实体关系进行消歧处理，得到处理后三元组信息；根据关联信息，对处理后三元组信息中的实体属性信息进行审核处理，得到目标三元组信息。

在其中一个实施例中，上述信息提取模块502，还用于根据预设提取交互模板，生成提取交互信息；将提取交互信息和目标电力文档数据，输入预训练大语言模型中，得到预训练大语言模型返回的初始三元组信息。

在其中一个实施例中，上述基于大语言模型的电力知识图谱构建装置，还用于将预设生成交互信息，输入通用大语言模型中，得到通用大语言模型返回的三元组提取训练样本集；根据三元组提取训练样本集，训练通用大语言模型，得到用于提取三元组信息的预训练大语言模型。

上述基于大语言模型的电力知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、近场通信（Near Field Communication，NFC）或其他技术实现。该计算机程序被处理器执行时以实现一种基于大语言模型的电力知识图谱构建方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性存储器和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（Resistive Random Access Memory，ReRAM）、磁变存储器（Magnetoresistive RandomAccess Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器、人工智能（Artificial Intelligence，AI）处理器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于大语言模型的电力知识图谱构建方法，其特征在于，所述方法包括：

根据所述目标三元组信息，建立电力知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始文档数据进行过滤处理，得到目标电力文档数据，包括：

将所述电力相关文档数据作为所述目标电力文档数据。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标电力文档数据，从预设电力领域信息库中，匹配出关联信息，包括：

将所述目标文本块进行向量化处理，得到对应的文本向量；

4.根据权利要求1所述的方法，其特征在于，所述根据所述关联信息，对所述初始三元组信息进行数据修正处理，得到目标三元组信息，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述采用预训练大语言模型，从所述目标电力文档数据中，提取出初始三元组信息，包括：

根据预设提取交互模板，生成提取交互信息；

6.根据权利要求5所述的方法，其特征在于，所述预训练大语言模型通过以下方式得到：

7.一种基于大语言模型的电力知识图谱构建装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。