CN121119169B

CN121119169B - 基于大模型的多智能体协同数据问答系统及方法

Info

Publication number: CN121119169B
Application number: CN202511639290.9A
Authority: CN
Inventors: 戴藜芸; 陈鸣; 李贝贝; 张琛奇; 贾珂珂
Original assignee: Pangu Cloud Chain Tianjin Digital Technology Co ltd
Current assignee: Pangu Cloud Chain Tianjin Digital Technology Co ltd
Priority date: 2025-11-11
Filing date: 2025-11-11
Publication date: 2026-02-06
Anticipated expiration: 2045-11-11
Also published as: CN121119169A

Abstract

本发明涉及人工智能技术领域，公开了基于大模型的多智能体协同数据问答系统及方法，包括：智能体集群模块，由数据问答、数据提取、分析、可视化和质量审查五个专用智能体组成，通过动态调度实现任务分解与协同执行；知识管理模块，包含业务知识库、数据元知识库和用户反馈库，采用分层知识融合技术为智能体提供领域知识支持；支撑功能模块，涵盖前端对话组件和验证与执行引擎，负责交互界面渲染和结果可靠性验证。本发明显著降低了对大模型的微调需求，通过双重验证机制有效拦截大模型幻觉，提升了问答结果的准确性与可靠性。

Description

基于大模型的多智能体协同数据问答系统及方法

技术领域

本发明涉及人工智能技术领域，尤其涉及基于大模型的多智能体协同数据问答系统及方法。

背景技术

随着大语言模型技术的飞速发展，基于大模型的数据问答系统已成为企业数据分析和决策支持的重要工具。然而，现有的实现方案多基于单一、通用的大模型构建，在实际企业级应用场景中暴露出诸多局限性。

首先，功能碎片化问题突出。现有技术方案往往专注于单一环节，如自然语言转SQL查询，或基于知识图谱的简单问答，缺乏一个端到端的集成架构。用户提出一个复杂的分析需求，需要手动在不同工具间切换，无法在一个系统中自动完成从问答、数据提取、深度分析到可视化呈现的全流程。

其次，领域适配性差，实施成本高昂。通用大语言模型缺乏特定行业的业务知识，其生成的回答或查询代码往往不符合业务逻辑。现有解决方案严重依赖针对特定场景的模型微调，这个过程需要大量的标注数据和计算资源，成本高、周期长，且难以维护。

再者，结果缺乏严谨性，存在信任危机。大模型固有的“幻觉”问题在数据问答场景中尤为致命，其可能生成语法正确但语义错误的SQL查询，或得出与真实数据严重偏离的分析结论。现有系统普遍缺乏一套严谨的、自动化的验证机制来拦截这些低置信度的输出，严重影响数据分析结果的可靠性和决策的正确性。

最后，系统扩展性和协同性不足。现有架构通常是僵化的，难以动态融入新的功能模块。各个功能模块间缺乏有效的协同机制，无法根据用户意图进行动态调度和组合，导致系统灵活性差，无法适应快速变化的业务需求。

因此，本发明提出一种基于大模型的多智能体协同数据问答系统及方法。

发明内容

本发明的目的是为了解决现有技术中存在功能割裂、适配成本高、结果严谨性不足、系统协同性差的问题而提出的基于大模型的多智能体协同数据问答系统及方法。

为了实现上述目的，本发明采用了如下技术方案：基于大模型的多智能体协同数据问答系统，包括：

智能体集群模块，包括数据问答智能体、数据提取智能体、分析智能体、可视化智能体和质量审查智能体，用于处理用户查询的全流程任务分解与协同执行，通过动态调度智能体实现端到端数据处理；

知识管理模块，包括业务知识库、数据元知识库和用户反馈库，用于集中存储并检索业务规则、数据字典和用户反馈，采用分层知识融合技术为智能体提供领域适配支持，减少对大模型的微调需求；

支撑功能模块，包括前端对话组件和验证与执行引擎，用于提供对话界面和渲染结果，并对智能体生成的查询语句和输出结果进行语法、逻辑和数据一致性校验；

所述智能体集群模块、知识管理模块和支撑功能模块通过数据总线交互，形成闭环的数据问答流程。

进一步的，基于大模型的多智能体协同数据问答方法，包括以下步骤：

步骤S1，通过前端对话组件接收用户的多模态输入，采用JWT鉴权验证用户身份并基于RBAC模型控制数据访问权限；

步骤S2，数据问答智能体解析用户查询意图，采用微调的大语言模型识别业务意图类型；

步骤S3，数据提取智能体联合检索知识管理模块中的业务知识库和数据元知识库，生成优化的SQL或NoSQL查询语句，并通过验证与执行引擎的SQL审查器进行语法、性能和安全审查；

步骤S4，分析智能体对查询结果进行归因分析和时序预测处理，并通过结果解析器验证输出结果的真实性和合理性；

步骤S5，可视化智能体将分析结果转换为可视化图表，通过数据映射优化实现字段到视觉通道的智能映射；

步骤S6，质量审查智能体对输入数据和输出结果执行异常检测，发现异常时触发自动修复流程；

步骤S7，前端对话组件渲染最终结果，并通过反馈管理单元收集用户交互数据，同步更新至用户反馈。

和现有技术相比，本发明的有益效果在于：

本发明通过采用包含多个专用智能体的集群模块，并建立动态调度机制，能够实现端到端的全流程自动化处理，有效解决了现有技术功能碎片化的问题，用户只需输入自然语言问题，系统即可自动调度并协同多个智能体完成从理解、查询、分析到呈现的完整任务，极大提升了用户体验和分析效率。

本发明通过构建包含业务知识库、数据元知识库和用户反馈库的分层知识管理模块，并采用知识融合技术，能够显著降低对通用大模型微调的依赖，通过检索领域特定的知识来增强和约束各智能体的行为，使其输出更符合业务逻辑，从而解决了领域适配性差、实施成本高昂的问题，实现了低成本的快速领域部署。

本发明通过设置独立的验证与执行引擎，对智能体生成的查询语句和输出结果进行语法、逻辑和数据一致性三重校验，能够有效拦截大模型“幻觉”和各类错误，确保了最终输出结果的严谨性和高置信度，建立了用户对系统输出结果的信任，解决了现有技术中结果不可靠的核心痛点。

本发明通过模块化设计和基于数据总线的交互方式，能够使系统具备高度的灵活性和可扩展性，新的智能体可以很方便地接入集群，现有的智能体也能根据动态调度的指令进行灵活组合，共同应对复杂的查询任务，从而解决了系统僵化、协同性不足的问题，满足了企业业务持续发展的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的系统构成示意图；

图2为本发明实施例提供的方法流程示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大模型的多智能体协同数据问答系统及方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

以下实施例仅出于说明性目的，而不是想要限制本发明的范围。

下面结合附图具体的说明本发明所提供的基于大模型的多智能体协同数据问答系统及方法的具体方案。

实施例

请参阅图1，其示出了本发明一个实施例提供的基于大模型的多智能体协同数据问答系统的系统构成示意图，包括：

一、智能体集群模块

智能体集群模块包括数据问答智能体、数据提取智能体、分析智能体、可视化智能体和质量审查智能体，用于处理用户查询的全流程任务分解与协同执行，通过动态调度智能体实现端到端数据处理。

1.数据问答智能体

数据问答智能体包括意图识别单元、对话状态管理单元、问题澄清单元和会话记忆管理单元；

意图识别单元，通过微调的大语言模型结合领域术语表识别用户查询中的业务意图，采用领域自适应预训练技术在通用大语言模型基础上注入垂直领域知识，构建业务意图分类体系，所述业务意图包括数据查询、归因分析、趋势预测、对比分析、异常检测、根因溯源、方案建议和指标计算；

对话状态管理单元，用于动态维护多轮对话上下文，通过语义相关性评估自动筛选信息，根据对话进程自适应调整记忆范围，并生成统一的对话状态表征；

问题澄清单元，用于在检测到查询歧义时生成澄清问题列表引导用户补充信息，通过分析查询语义结构识别信息缺失，并基于领域知识提供优化的问题选项；

会话记忆管理单元，用于实现历史对话信息的全生命周期管理，通过分级加密存储和基于角色的访问控制确保数据安全，采用多级存储架构和弹性扩展机制优化资源利用，构建语义关联网络支持跨会话知识复用。

需要说明的是，微调的大语言模型：指采用特定领域的数据对通用的进行额外的训练，使其掌握专业术语和行业逻辑，从而在该领域表现更专业，特定领域包括金融问答、医疗文献、电力报告，基础大模型包括GPT、LLaMA、Qwen。

领域术语表：一个结构化的词典，存储了特定领域的专有名词、缩写、同义词及其关系。

领域自适应预训练技术：一种在“微调”之前进行的、更底层的模型优化技术，不是在问答数据上训练，而是在海量的无标注领域文本上继续训练模型，使其底层语言表征更贴合领域特点，从而为后续的微调打下更好基础。

业务意图分类体系：一个预先定义好的、覆盖所有可能用户需求的分类系统，将用户的自然语言查询映射到有限的、明确的类别上，以便系统触发相应的流程，确保了系统功能的完备性和可管理性。

多轮对话上下文：指当前对话回合之前的历史问答内容。

语义相关性评估：一种算法技术，用于计算历史对话中的每一句话与当前用户最新查询之间的关联程度，通常输出一个分数，相关性低的对话片段将被视为冗余信息。

自适应调整记忆范围：指不是固定地记住前N轮对话，而是根据当前对话的复杂度和相关性动态决定需要记住多少历史信息；例如，简单查询可能只需记住前1轮，而复杂的、发散性的讨论可能需要记住前10轮中的关键信息。

对话状态表征：一个结构化的数据对象或向量，是对当前对话核心信息的标准化摘要，如已明确的参数、用户意图、待澄清的点；它作为一份“任务简报”，用于指导后续其他智能体的工作。

查询歧义：指用户查询存在多种可能解释或缺少关键信息；例如，“分析一下销量”存在歧义，分析哪个产品？哪个时间范围？而“预测收入”缺少关键信息，预测哪个部门？未来多久？

查询语义结构识别：通过自然语言处理技术解析查询的语法结构，以识别出缺失的语法成分，从而确定需要澄清的内容，自然语言处理技术如依存句法分析，语法成分包括宾语、时间状语。

基于领域知识提供优化的问题选项：指不是生成泛泛的问题，而是基于业务知识库生成具体、可操作的选择题。

全生命周期管理：涵盖了对会话记忆的生成、存储、压缩、检索、更新和失效销毁的完整管理过程。

分级加密存储：指根据对话内容的敏感级别采用不同强度的加密算法进行存储，如是否包含个人隐私、商业机密。

基于角色的访问控制：一种权限管理模型，确保只有获得授权的用户才能访问相应的历史会话记录，普通员工无法访问高密级对话。

多级存储架构：指根据会话的访问频率，将其存放在不同性能的存储介质上；例如，最新热门的会话存放在高速内存中，较早的会话存放在固态硬盘中，很久以前的会话归档到低成本的对象存储中。这是一种优化资源利用、降低成本的技术。

弹性扩展机制：指存储系统能够根据会话数据量的增长，自动地、无缝地增加存储资源，无需停机。

语义关联网络：一种高级的索引结构，它不仅仅通过关键词，而是通过会话的语义内容来关联不同的历史对话；例如，系统能自动发现“用户A上周关于某某区销售额下降的归因分析”与“用户B今天关于某某区促销计划的查询”在语义上高度相关，从而在用户B提问时，智能地推荐用户A之前的分析结论作为参考。这是实现“跨会话知识复用”的核心。

2.数据提取智能体

数据提取智能体包括查询生成单元、查询优化单元和异常处理单元；

查询生成单元，用于解析用户意图并基于业务知识图谱生成结构化查询语句，通过联合检索业务知识库的指标定义和数据元知识库的表结构信息，自动构建符合语义的SQL或NoSQL查询代码，所述业务知识图谱是通过抽取业务知识库中的实体、属性和关系构建的语义网络；

查询优化单元，用于分析生成的查询语句性能特征，根据数据元知识库中的元信息添加优化提示，所述优化提示包括查询重写、索引提示、执行计划调整、数据分区裁剪、缓存策略提示、并行度控制和资源配额分配；

异常处理单元，用于实时监测查询执行状态，在检测到语法错误时自动修正查询语句，在检测到性能超限时动态切换查询执行策略，并根据异常类型记录至用户反馈库，所述异常类型包括语法异常、性能异常、数据异常、权限异常和系统异常。

需要说明的是，业务知识图谱：指一种基于图结构的知识表示形式，通过从业务知识库中抽取关键实体、实体的属性以及实体间的业务关系构建而成；例如，在产品销售领域，实体包括“产品”、“客户”、“订单”，关系包括“购买”、“属于”，属性包括“产品价格”、“客户等级”。

联合检索：指查询生成过程中并行地访问业务知识库和数据元知识库以获取必要信息，是一种关键的知识融合技术，确保生成的查询既符合业务逻辑又符合数据结构。

业务知识库的指标定义：指预先定义的业务计算规则；例如，“毛利率”的指标定义为“利润除以销售额再乘以100%”，通过检索此定义，才能知道在查询中需要选择哪些数据库字段并进行何种计算。

数据元知识库的表结构信息：指数据库的元数据，包括表名称、字段名称、字段数据类型、主外键关系。

符合语义的SQL或NoSQL查询代码：指生成的查询代码不仅在语法上正确，更在业务含义上与用户意图高度匹配；例如，用户查询“高价值客户列表”，系统能自动将“高价值”转换为“年消费金额大于XX元”的具体查询条件。

数据元知识库中的元信息：特指用于查询优化的元数据，包括数据库索引信息、表分区策略、表数据量估算统计信息、字段取值分布直方图。

查询重写：一种优化技术，在不改变查询结果的前提下，将效率低下的查询语句转换为更高效的形式；例如，将复杂的子查询改写为表连接操作，或将多个查询合并为一个查询。

索引提示：指在生成的查询语句中显式地建议数据库查询引擎使用特定的索引来加速数据检索，避免全表扫描。

执行计划调整：数据库执行查询时会生成一个执行计划，旨在通过改变查询写法来促使数据库生成一个代价更低的执行计划。

数据分区裁剪：对于分区表，通过识别查询条件中的分区键，使查询只扫描特定的数据分区，从而极大减少数据读取量。

缓存策略提示：为查询结果添加缓存建议标记，指示系统该查询结果的可缓存性和缓存有效期，减轻数据库负载。

并行度控制：建议数据库使用多个处理器核心并行执行该查询，以加快计算速度。

资源配额分配：为查询分配特定的系统资源限制，如最大内存使用量、最长执行时间，防止单一低效查询耗尽系统资源。

查询执行状态：包括查询是否正在执行、已执行时长、返回的记录条数、数据吞吐速率、系统资源占用情况的实时指标。

语法错误时自动修正：指对由于字段名拼写错误、关键字使用错误导致的语法错误，能够基于数据元知识库进行自动校正。

性能超限时动态切换查询执行策略：指当监测到查询执行时间过长或资源消耗过大时，单元能够自动触发优化策略，例如从精确查询降级为近似查询，或改用预先计算好的汇总数据。

语法异常：查询语句不符合数据库语法规范。

性能异常：查询执行时间或资源消耗超过预设阈值。

数据异常：查询结果为空、结果量异常巨大或包含异常值。

权限异常：当前用户无权访问所查询的数据表或字段。

系统异常：包括数据库连接中断、节点故障的底层基础设施问题。

记录至用户反馈库：指将每次异常的发生、处理方式和最终结果形成案例知识存入知识库，用于迭代优化查询生成单元和异常处理单元自身的策略，实现系统的持续学习。

3.分析智能体

分析智能体包括多维归因单元和时序预测单元；

多维归因单元，用于实现业务指标变动的自动化根因分析，通过算法选择器根据指标类型动态匹配归因模型，输出具有统计显著性的影响因素，所述指标类型包括基础数值型指标、衍生计算型指标、分布特征型指标和关联关系型指标，所述影响因素包括业务维度因素、运营维度因素、外部环境因素和数据质量因素；

时序预测单元，用于自动分析输入数据的时间序列特性，基于数据元知识库中预定义的业务特征和实时计算的统计特征，选择预测算法进行执行时序预测，所述业务特征包括业务指标类型、业务关键度等级、业务周期特性和业务规则约束，所述预测算法包括统计算法、机器学习算法和深度学习方法。

需要说明的是，业务指标变动：指需要分析的关键绩效指标发生的非预期变化，例如销售额环比下降20%、用户流失率异常升高。

自动化根因分析：指无需人工干预，由系统自动完成从数据准备、因素枚举、模型计算到显著性判断的全过程，并输出分析结论。

算法选择器：一个内置的决策逻辑模块，其根据待分析指标的技术特性，自动从算法库中选择最合适的归因分析模型，而非固定使用单一模型。

基础数值型指标：指可直接从数据库原始字段获取的绝对数值，包括销售额、订单量、库存数量。

衍生计算型指标：指由基础指标通过数学运算派生出的比率或复合指标，包括毛利率、转化率、客单价。

分布特征型指标：指描述数据集合统计特性的指标，如平均值、标准差、分位数，用于分析数据的集中趋势和离散程度。

关联关系型指标：指衡量两个或多个变量之间相关性强弱的指标，包括相关系数、协方差。

归因模型：指用于量化各因素对指标变动贡献度的数学模型或算法，包括方差分析模型、夏普利值分解、基于机器学习的特征重要性排序。

统计显著性：指归因分析结果并非主观臆断，而是经过严格的统计检验，如P值检验，其结论在特定置信水平下是可靠且可接受的。

业务维度因素：指来自业务视角的分类变量，包括地区、产品线、渠道、客户分群。

运营维度因素：指与内部运营动作相关的因素，包括促销活动、价格调整、销售人员变动、网站改版。

外部环境因素：指不可控的外部变量，包括宏观经济指数、节假日、天气状况、竞争对手动态。

数据质量因素：指考虑数据本身是否存在问题导致指标异常，包括数据上报延迟、埋点错误、系统故障导致数据缺失。

时间序列特性：指时间序列数据所表现出的内在规律，包括长期趋势性、季节性周期、循环波动性以及随机噪声。

数据元知识库中预定义的业务特征：指那些无法直接从数据中统计得出，而是由业务知识决定的先验特征。

实时计算的统计特征：指通过算法对当前输入的数据进行实时分析得出的量化特征，包括平稳性检验统计量、自相关系数、波动率。

业务指标类型：如前所述，指标类型直接影响模型选择，例如对库存数量适合的模型与对市场占有率适合的模型可能不同。

业务关键度等级：指该预测结果的重要程度，高关键度的预测将触发更严谨的模型选择和验证流程。

业务周期特性：指由业务本身决定的周期，包括财务报告的季度周期、零售业的周度周期、服装行业的年度季节周期。

业务规则约束：指预测结果必须遵守的业务常识，例如库存预测结果不能为负数，市场占有率预测结果不能超过100%。

统计算法：指基于经典时间序列理论的模型，包括自回归综合移动平均模型、指数平滑法。

机器学习算法：指利用特征工程和传统机器学习模型进行预测的方法，包括梯度提升树、支持向量机，适用于具有复杂特征变量的预测场景。

深度学习方法：指利用神经网络结构捕捉复杂非线性时序依赖关系的模型，包括长短期记忆网络、时序卷积网络、Transformer架构，适用于海量数据下的长期复杂序列预测问题。

4.可视化智能体

可视化智能体包括图表推荐单元和数据映射优化单元；

图表推荐单元，根据数据提取智能体提供的查询结果数据特征和业务知识库中的业务规则，自动匹配可视化图表类型，所述数据特征包括数据结构维度、数值分布特性和关联关系强度，所述可视化图表类型包括趋势展示类图表、构成分析类图表和关系对比类图表；

数据映射优化单元，用于将查询结果字段智能映射至视觉编码通道，包括数值字段到位置、长度和面积通道的量化映射，分类字段到颜色、形状和纹理通道的分类映射，时间字段到动画、过渡效果的时序映射和地理字段到空间坐标的投影映射。

需要说明的是，查询结果数据特征：指由数据提取智能体返回的数据集本身所具备的、可用于指导图表选择的技术属性。

数据结构维度：指数据的组织方式，包括数据包含的字段数量（维度数）、字段的类型（数值型、类别型、时序型、地理空间型）以及数据记录的条数（数据量）；例如，包含一个时间字段和一个数值字段的数据适合折线图。

数值分布特性：指数值型数据的统计分布特征，包括数据是否均匀分布、是否存在偏态、是否存在多个峰值；例如，呈现双峰分布的数据可能适合用直方图来展示。

关联关系强度：指数据集中不同字段之间相关性的强弱；例如，两个数值字段相关性很强时，散点图是展示其关系的理想选择。

业务知识库中的业务规则：指从业务视角出发的图表选择偏好和禁忌，这些规则无法从数据本身推断，而是基于行业惯例和最佳实践；例如，业务规则可能规定“市场份额必须用饼图或环形图表示”，或“进度完成率推荐使用仪表盘图表”。

趋势展示类图表：主要用于展示数据随时间变化的趋势和规律，核心特征是其中一个维度为时间，包括折线图、面积图、柱状图。

构成分析类图表：主要用于展示整体中各组成部分的占比关系，包括饼图、环形图、堆叠面积图、堆叠柱状图、矩形树图。

关系对比类图表：主要用于展示多个变量之间的关系，或对不同类别项目进行数值比较，包括散点图、气泡图、雷达图、平行坐标图。

视觉编码通道：指人类视觉系统能够有效区分的图形元素的视觉属性，将数据值映射到这些通道上，是创建可视化的基本手段。

量化映射：适用于连续型的数值字段，其映射目标是让用户能感知并比较数值的大小。

位置通道：在坐标系中沿X轴或Y轴的位置，是最精确的视觉通道，例如散点图中点的位置、柱状图中柱子的高度。

长度通道：图形元素的长度，例如柱状图中柱子的高度、条形图中条形的长度。

面积通道：图形元素的面积大小，例如气泡图中气泡的面积大小。

分类映射：适用于离散型的类别字段，映射目标是让用户能清晰地区分不同类别。

颜色通道：使用不同的色相来区分类别，例如用红色、蓝色、绿色分别代表不同的产品线。

形状通道：使用不同的形状来区分类别，例如散点图中用圆形、方形、三角形代表不同的客户类型。

纹理通道：使用不同的填充纹理或图案来区分类别，例如在地图中用不同的条纹或点阵图案代表不同的区域类型。

时序映射：适用于时间字段，映射目标是动态地展示数据随时间演变的过程。

动画：让图形元素随着时间轴的推移而运动、变化或生成，直观呈现趋势。

过渡效果：在状态变化时提供平滑的图形变换动画，帮助用户保持上下文感知。

投影映射：适用于包含经纬度信息的地理空间字段。

空间坐标：将经纬度数据通过地图投影算法转换为屏幕上的平面坐标，从而在地图背景上精确地绘制图形元素，如点、线、面。

5.质量审查智能体

质量审查智能体包括规则配置单元、异常检测单元和自动修复单元；

规则配置单元，用于通过自然语言接口接收并解析数据质量规则，将数据质量规则转换为可执行的校验逻辑，所述数据质量规则包括值域范围校验规则、空值检测规则和业务逻辑合规性规则；

异常检测单元，基于校验逻辑对结构化数据执行自动化异常检测，识别违反质量规则的数据记录，支持批量检测和流式检测双模式运行，所述批量检测用于对静态数据集启动全表扫描式审查，所述流式检测用于对实时数据流实施连续质量监控；

自动修复单元，用于对检测出的数据异常执行标准化修复处理，执行修复后验证数据质量并生成审计日志，实现异常数据的自动化修正与追踪，所述标准化修复处理包括数据插补策略、异常值替换策略和问题标注策略。

需要说明的是，自然语言接口：指允许用户使用日常业务用语而非编程语言来定义质量规则的交互方式；例如，用户可输入“销售额不能为负数”或“客户年龄必须在18岁以上”，系统自动理解其意图。

数据质量规则：指用于判断数据是否满足预设质量标准的一系列条件与约束。

值域范围校验规则：规定某个数值型字段的取值必须落在合理的数值区间内；例如，毛利率字段的值必须在0到1之间，月份字段的值必须在1到12之间。

空值检测规则：规定某些关键字段不允许为空值或Null值；例如，订单编号、用户ID的主键字段必须100%填充。

业务逻辑合规性规则：规定数据必须符合复杂的业务逻辑和一致性要求；例如，订单发货日期不能早于订单创建日期，某个产品的销售总额必须等于其销售量与单价的乘积。

可执行的校验逻辑：指将用户用自然语言描述的规则，编译或转换为系统能够直接执行的标准代码或查询语句；例如，将“销售额不能为负数”转换为SQL中的查询条件。

自动化异常检测：指无需人工干预，由系统按预定计划或实时触发，自动执行全部数据质量检查任务。

批量检测模式：一种面向“at-rest”静态数据的处理模式，针对数据仓库或数据湖中的完整表或大型分区，在业务低峰期启动，执行全面的、深度的数据质量扫描，其特点是处理数据量大、审查维度全，但结果有延迟。

流式检测模式：一种实时数据的处理模式，在数据流处理的管道中嵌入质量检查点，对每秒流入的实时数据记录进行逐条或微批量的校验，特点是延迟极低，能第一时间发现并告警数据异常，适用于对数据时效性要求极高的监控场景。

标准化修复处理：指系统内置的一套预定义的、可重复使用的数据修复方法库，而非临时性的、随意的手工操作。

数据插补策略：针对空值异常的处理策略，根据业务场景，可能采用均值插补、中位数插补、基于同类数据记录的回归预测插补、或使用一个统一的默认值进行填充。

异常值替换策略：针对超出合理值域的异常值的处理策略，采用盖帽法，将超过上限的值替换为上限值，低于下限的值替换为下限值；或使用缺失值代替，交由插补策略处理。

问题标注策略：针对无法自动修复或修复风险较高的异常所采取的策略，系统不对原始数据做修改，而是为其打上问题标签，并将其路由至指定的数据治理平台或责任人进行人工处理。这是一种审慎且安全的处理方式。

修复后验证：指在执行自动修复操作后，再次启动质量规则对修复后的数据进行校验，确保修复操作本身没有引入新的数据质量问题，从而形成质量控制闭环。

审计日志：指系统自动生成的、不可篡改的操作记录，详细记录了何时、何批数据、触发了哪条规则、发现了何种异常、执行了哪种修复策略、修复前后的值分别是什么、修复验证结果如何，此日志用于满足数据合规性审计要求，并作为优化修复策略的依据。

二、知识管理模块

知识管理模块包括业务知识库、数据元知识库和用户反馈库，用于集中存储并检索业务规则、数据字典和用户反馈，采用分层知识融合技术为智能体提供领域适配支持，减少对大模型的微调需求；

业务知识库，用于存储和管理业务规则、指标定义和领域术语，所述业务规则包括数据校验规则和业务计算逻辑，所述指标定义用于明确各业务指标的计算公式、数据来源和更新周期，所述领域术语用于建立标准化定义和语义关联关系；

数据元知识库，用于管理包括表结构元数据、血缘关系图和语义标注库的数据资产元信息，所述表结构元数据记录数据表的字段信息，所述血缘关系图追踪数据加工链路，所述语义标注库存储字段的业务含义和敏感等级；

用户反馈库，用于收集和优化问答记录、审查规则、异常案例及用户偏好，所述问答记录为经人工校验的有效问答对，所述审查规则记录优化调整建议及实施效果，所述异常案例按类型归档典型处理方案，所述用户偏好分析不同角色的使用习惯和个性化需求。

需要说明的是，业务规则：指描述业务运作约束与逻辑的规范性语句集合。

数据校验规则：定义了数据必须满足的质量条件，直接服务于质量审查智能体；例如，“客户年龄字段值必须大于等于十八”。

业务计算逻辑：定义了核心业务指标的计算方法，是数据提取与分析智能体生成正确查询和分析的基础；例如，“毛利率等于销售收入减去销售成本后的差值，再除以销售收入，最终结果以百分比形式表示”。

指标定义：对业务中关键衡量标准的精确形式化描述。

计算公式：指标的确切数学表达式，如“复购率等于历史订单数大于一的客户数量除以总客户数量”。

数据来源：计算该指标所需原始数据的具体位置，精确到数据库表名和字段名。

更新周期：指标数据的更新频率，如“每日更新”。

领域术语：构成特定领域对话基础的词汇体系。

标准化定义：对同一业务概念的唯一、无歧义的文本定义，如本系统中“用户”特指“完成注册流程的账户主体”。

语义关联关系：术语之间的逻辑关系，包括同义词关系“营收”与“收入”，上下位关系“手机”属于“电子产品”，组成部分关系“发动机”是“汽车”的组成部分。

表结构元数据：描述数据库表的技术蓝图。

字段信息：包括字段名称、数据类型、长度、精度、是否允许为空、默认值约束、主键外键约束。

血缘关系图：一种有向图数据模型，可视化地追踪数据的来源、经过的加工处理环节以及最终的去向，当源头数据出错时，可快速定位受影响的下游数据和报表；也用于根源分析，当下游数据发现问题时，可追溯至问题根源。

语义标注库：为冰冷的技术元数据注入业务灵魂的注解。

业务含义：用业务语言解释字段的真实含义。

敏感等级：对数据安全性的分类标签，如“公开”、“内部”、“秘密”、“绝密”，标签直接服务于安全接入单元的权限控制策略。

问答记录：经过人工筛选与校正的高质量问答配对集合，包括原始用户问题和最终采纳的系统回答和多轮对话中成功的交互序列，为数据问答智能体提供了优秀的学习样本。

审查规则：记录了对系统原有规则的优化迭代过程。

优化调整建议：用户或管理员提出的规则新增、修改或删除的建议。

实施效果：记录了规则调整后在测试集上的表现变化，包括准确率提升、召回率变化，用于评估优化建议的有效性。

异常案例：对处理过的数据异常或系统异常进行的归档与总结，每个案例包括异常现象、根本原因、处理方法和最终结果，形成一个知识库，供异常处理单元在未来遇到类似问题时进行匹配和快速响应。

用户偏好：通过分析用户行为数据得出的个性化配置。

使用习惯：如某用户倾向于查看图表而非数字表格，某分析师经常使用特定的几个分析维度。

个性化需求：如用户自定义的常用指标、保存的特定数据视角、偏好的图表颜色主题。

三、支撑功能模块

支撑功能模块包括前端对话组件和验证与执行引擎，用于提供对话界面和渲染结果，并对智能体生成的查询语句和输出结果进行语法、逻辑和数据一致性校验。

1.前端对话组件

前端对话组件包括交互接口单元、可视化渲染单元、安全接入单元和反馈管理单元；

交互接口单元，用于提供支持文本、语音和图像输入的自然语言交互界面，通过集成ASR和OCR技术实现多模态查询的实时解析与转换；

可视化渲染单元，用于动态呈现智能体生成的分析结果，支持多种可视化形式，所述可视化形式包括趋势图、关系图和空间图；

安全接入单元，用于实现用户身份认证与数据权限控制，采用JWT鉴权进行身份验证，基于RBAC模型管理字段级访问权限，通过PostMessage机制与企业BI系统安全集成；

反馈管理单元，用于收集和同步用户交互数据，记录分析结果的标注批注、评价反馈和协作讨论内容，并将结构化反馈数据实时更新至用户反馈库。

需要说明的是，自然语言交互界面：一种允许用户使用日常语言而非编程命令或特定指令与系统进行对话的交互界面，外观通常为聊天窗口形式，模拟人类对话体验。

多模态查询：指系统支持接收并理解多种形式的信息输入，而不仅仅是文本。

ASR技术：自动语音识别技术，将用户通过麦克风输入的语音信号实时转换为对应的文本内容，是实现语音输入功能的核心。

OCR技术：光学字符识别技术，用于解析用户上传的图片文件，识别并提取出图片中包含的文字信息，从而实现基于图像内容的查询；例如，用户上传一张包含数据表格的截图，系统可提取其中文字进行查询。

动态呈现：指可视化结果并非静态图片，而是可根据用户交互操作实时更新图表内容和形态的交互式图形，交互操作包括筛选、下钻、缩放。

趋势图：主要用于展示数据指标随时间推移而变化的情况，帮助用户识别增长、下降、周期性模式，代表为折线图、面积图。

关系图：主要用于展示多个实体之间的关联、比较或分布情况，代表为散点图，用于展示相关性、雷达图，用于展示多维度比较、桑基图，用于展示流量关系。

空间图：专用于展示与地理空间位置相关的数据分布，代表为热力图、点密度图、流向图，需要在地图底板上进行渲染。

用户身份认证：验证用户所宣称身份真实性的过程，即确认“你是你所声称的那个人”。

数据权限控制：在用户身份认证通过后，根据其身份角色来决定其可以对哪些数据执行何种操作。

JWT鉴权：一种流行的跨域认证解决方案，用户登录后，服务器生成一个包含用户身份信息的令牌返回给前端，前端在后续请求中携带此令牌以证明自身合法身份，无需再次输入密码，令牌本身包含签名以防篡改。

RBAC模型：基于角色的访问控制模型，核心思想是将权限分配给角色，再将角色赋予用户，用户通过成为适当角色的成员而得到这些角色的权限，管理非常灵活；例如，赋予“财务分析师”角色访问“利润表”的权限，那么拥有此角色的用户即可访问。

字段级访问权限：一种细粒度的权限控制，控制精度达到数据库表的特定字段；例如，允许用户A查看“员工表”的“姓名”和“部门”字段，但隐藏“薪资”字段。

PostMessage机制：一种允许不同源的两个窗口或框架之间进行安全跨域通信的Web API，通过此机制，本系统的前端组件可以安全地嵌入到企业现有的第三方系统中，并与之进行数据和消息交互，实现无缝集成。

用户交互数据：泛指用户在与系统交互过程中产生的所有行为数据，包括查询内容、点击的图表、停留时间、常用功能。

标注批注：用户对特定分析结果进行的主动标记和注释；例如，在图表上圈出异常点并备注“此处数据需核查”。

评价反馈：用户对系统提供的单次服务或整体体验的直接评价，通常为简单的正面或负面评价，或文本形式的建议。

协作讨论内容：在支持多用户协作的场景下，围绕某个分析结果产生的对话和讨论内容。

结构化反馈数据：指将收集到的原始、非结构化的反馈信息，通过自然语言处理技术提取关键信息，并按照预设格式进行分类、归纳和存储后的数据，便于后续的统计分析与应用。

实时更新至用户反馈库：指反馈数据一旦产生，便立即或近实时地同步到知识管理模块的用户反馈库中，确保其他智能体能够及时利用最新的反馈信息来优化其后续表现。

2.验证与执行引擎

验证与执行引擎包括SQL审查器和结果解析器；

SQL审查器，用于实施包含语法合规性检查、性能优化验证和安全风险控制的多层次审查，通过语法树分析检测查询语句的语法错误，通过执行计划解析识别性能瓶颈，在隔离沙箱环境测试高风险查询；

结果解析器，通过字段级数据比对验证大模型输出与数据库真实数据的一致性，结合业务规则引擎校验计算逻辑合理性，当检测到逻辑矛盾时自动拦截异常结果并生成审计记录。

需要说明的是，多层次审查：指审查过程并非单一判断，而是由浅入深、从语法到安全的多层级防御体系。

语法合规性检查：最基础的审查层级，确保查询语句符合目标数据库的语法规范，不存在关键字拼写错误、结构错误或数据类型不匹配的低级错误，是通过解析查询语句生成抽象语法树并遍历检查来实现的。

性能优化验证：中级审查层级，旨在预先发现可能导致查询缓慢或资源消耗过大的潜在性能陷阱，通过模拟数据库优化器生成执行计划，分析该计划中是否存在全表扫描、不必要的复杂连接、低效的排序操作，并提供优化建议。

安全风险控制：最高级审查层级，旨在杜绝因智能体输出而引入的安全漏洞，核心是防范SQL注入攻击，即检查查询语句中是否包含未被恰当转义、可能被恶意利用的用户输入片段，同时也会检查是否访问了超出权限范围的敏感表或字段。

隔离沙箱环境：一个与生产数据库环境隔离的测试环境，对于审查中判定为高风险的查询，如包含数据删除或更新操作、访问核心敏感数据、结构异常复杂，会被强制在此环境中先行试运行，验证其行为与预期相符且无危害后，才被允许在真实环境中执行。

字段级数据比对：一种精确的验证方法，它将大模型输出结论中提到的每一个数据点，与执行查询后从数据库返回的真实结果数据进行逐字段的精确比对，计算数值偏差。

数据库真实数据：指通过执行经过SQL审查器核准的查询，从业务数据库中直接返回的、未经篡改的原始数据结果，作为验证事实的标准。

业务规则引擎：一个嵌入式的规则执行系统，加载业务知识库中预定义的计算逻辑，并使用数据库返回的真实数据重新计算一遍，以此校验大模型是否使用了正确的计算逻辑；例如，模型输出“毛利率为50%”，规则引擎会重新计算以验证其正确性。

计算逻辑合理性：指校验计算过程本身是否符合业务常识和规则，例如是否存在除以零的错误，百分比结果是否在零到一百之间。

逻辑矛盾：指发现无法通过数值偏差直接判断，但结论本身存在内在矛盾或与事实严重不符的情况；例如，大模型输出“某产品销量下降但销售额大幅上升”，却未提及价格变动因素，这与常理相悖，结果解析器会将此判定为可疑结论。

审计记录：当异常结果被拦截时，系统自动生成的详细报告，记录内容包括原始查询、数据库真实结果、大模型输出、不一致之处、触发的规则以及最终处理动作，为后续追溯和责任界定提供依据，并用于优化模型和规则。

请参阅图2，其示出了本发明一个实施例提供的基于大模型的多智能体协同数据问答方法的方法流程示意图，包括以下步骤：

需要说明的是，前端对话组件的交互接口单元接收用户发起的查询请求，请求可为文本输入、语音输入或包含数据的图像上传。

对于语音输入，集成自动语音识别技术将语音流实时转换为文本；对于图像输入，采用光学字符识别技术提取图像中的结构化文本信息；

同时，安全接入单元介入处理：系统验证请求中携带的JWT令牌的签名有效性及有效期，确认用户身份合法性。

认证通过后，基于RBAC模型中为该用户角色预定义的权限策略，校验其请求访问的数据表或字段是否在授权范围内，实现字段级权限控制。

需要说明的是，数据问答智能体的意图识别单元对清洗后的用户查询文本进行处理，其调用经过领域语料微调的大语言模型，该模型内置业务意图分类体系，模型结合业务知识库中的领域术语表，将用户自然语言表述分类映射至“归因分析”、“趋势预测”。

同时，对话状态管理单元为该会话创建上下文，关联用户历史查询，解析出的结构化意图将作为触发信号，由数据问答智能体动态唤醒并调度后续相应的专用智能体进入工作流程。

需要说明的是，数据提取智能体被激活，其查询生成单元首先联合检索知识管理模块：从业务知识库中获取相关业务指标的计算逻辑如“毛利率 = (利润 / 销售额) *100%”，同时从数据元知识库中映射物理表结构；基于此，查询生成单元生成符合语义的结构化查询代码，该代码被发送至验证与执行引擎。

SQL审查器对其进行三层审查：1) 语法层，通过解析语法树检查合规性；2) 性能层，分析执行计划避免全表扫描；3) 安全层，在沙箱环境测试以防SQL注入，审查通过后，查询方被允许执行。

需要说明的是，分析智能体接收数据库返回的原始结果集，若意图为归因分析，多维归因单元启动，其算法选择器根据指标数据类型匹配夏普利值分解模型，量化各维度对总体指标变化的贡献度；若意图为预测，时序预测单元则基于ARIMA或LSTM模型输出未来值及置信区间。

随后，结果解析器启动验证：将智能体输出的结论与数据库真实数据进行字段级比对，并调用业务规则引擎校验其计算逻辑，确保无逻辑矛盾或统计异常后方才放行。

需要说明的是，可视化智能体接管经核验的分析结果，其图表推荐单元根据数据特征及业务规则，自动选择最适配的可视化形式。

随后，数据映射优化单元执行视觉编码：将时间字段映射至X轴位置通道，将数值指标映射至Y轴位置及颜色通道，将分类字段映射至图例形状通道，最终生成交互式图表。

需要说明的是，质量审查智能体并行运作，异常检测单元基于预配置的规则对输入数据和最终输出结果进行流式扫描，若发现异常，自动修复单元根据策略库选择处理方式，执行修复后再次验证数据质量，并将整个异常事件及处理日志记入审计追踪系统。

需要说明的是，前端对话组件的可视化渲染单元将最终的可视化图表、数据摘要及自然语言结论呈现给用户。

同时，反馈管理单元在界面侧嵌入反馈入口，记录用户的隐式反馈点击、停留与显式评分、标注。

所有交互数据被结构化为标准格式，实时同步至知识管理模块的用户反馈库中，用于迭代优化智能体模型、调整业务规则及个性化推荐，从而实现系统的自我进化。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.基于大模型的多智能体协同数据问答系统，其特征在于，包括：

所述数据问答智能体包括意图识别单元，通过微调的大语言模型结合领域术语表识别用户查询中的业务意图，采用领域自适应预训练技术在通用大语言模型基础上注入垂直领域知识，构建业务意图分类体系，所述业务意图包括数据查询、归因分析、趋势预测、对比分析、异常检测、根因溯源、方案建议和指标计算；

所述数据提取智能体包括查询生成单元，通过联合检索所述业务知识库的指标定义和所述数据元知识库的表结构信息，并基于从业务知识库中抽取实体、属性和关系构建的业务知识图谱，生成结构化的SQL或NoSQL查询代码；

所述业务知识库存储有业务规则、指标定义和领域术语；

所述数据元知识库存储有表结构元数据、血缘关系图和语义标注库；

所述用户反馈库存储有问答记录、审查规则、异常案例及用户偏好数据；

所述验证与执行引擎包括SQL审查器和结果解析器；

所述SQL审查器对所述查询语句依次进行语法合规性检查、性能优化验证和安全风险控制的多层次审查；

所述结果解析器通过字段级数据比对验证大模型输出与数据库真实数据的一致性，结合业务规则引擎校验计算逻辑合理性；

2.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述数据问答智能体还包括：

3.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述数据提取智能体还包括：

4.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述分析智能体包括：

5.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述可视化智能体包括：

6.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述质量审查智能体包括：

7.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述知识管理模块中：

所述业务规则包括数据校验规则和业务计算逻辑，所述指标定义用于明确各业务指标的计算公式、数据来源和更新周期，所述领域术语用于建立标准化定义和语义关联关系；

所述表结构元数据记录数据表的字段信息，所述血缘关系图追踪数据加工链路，所述语义标注库存储字段的业务含义和敏感等级；

所述问答记录为经人工校验的有效问答对，所述审查规则记录优化调整建议及实施效果，所述异常案例按类型归档典型处理方案，所述用户偏好分析不同角色的使用习惯和个性化需求。

8.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述前端对话组件包括：

9.根据权利要求1所述的基于大模型的多智能体协同数据问答系统，其特征在于，所述验证与执行引擎中：

所述SQL审查器通过语法树分析检测查询语句的语法错误，通过执行计划解析识别性能瓶颈，在隔离沙箱环境测试高风险查询；

所述结果解析器当检测到逻辑矛盾时自动拦截异常结果并生成审计记录。

10.基于大模型的多智能体协同数据问答方法，应用于权利要求1-9任意一项所述的基于大模型的多智能体协同数据问答系统，其特征在于，包括以下步骤：