CN121009157A

CN121009157A - 一种基于自然语言的智能数据查询方法

Info

Publication number: CN121009157A
Application number: CN202511545641.XA
Authority: CN
Inventors: 李竞; 谭相银; 毕延平
Original assignee: Inspur General Software Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2025-10-28
Filing date: 2025-10-28
Publication date: 2025-11-25

Abstract

本申请提供了一种基于自然语言的智能数据查询方法，涉及智能数据处理与自然语言交互技术领域，包括：首先对企业原始数据进行规范治理，构建标准化主题数据库及数据目录与指标定义文档。基于非结构化知识提取关键语义，结合文档文本片段和用户历史提问与SQL映射关系的向量表示，融合构建领域知识向量库。接收用户自然语言问题后，调用大语言模型识别任务类型，区分知识问答、数据查询与复杂分析。针对不同类型执行相应操作：知识问答直接检索向量库生成答案；数据查询提取关键词并结合上下文生成查询请求；复杂分析则判断并执行预定义工作流或调用智能体处理，输出查询或分析需求。

Description

一种基于自然语言的智能数据查询方法

技术领域

本申请属于智能数据处理与自然语言交互技术领域，具体涉及一种基于自然语言的智能数据查询方法。

背景技术

随着国有企业规模的不断扩大和监管要求的日益严格，国有资产监督管理部门面临海量、异构、动态变化的数据分析需求。传统的商业智能（BI）系统主要依赖固定报表、预设图表和专业查询语言（如SQL），其分析流程固化、交互方式单一，难以满足监管人员对数据的灵活探索与即时决策支持需求。近年来，基于大语言模型（LLM）的自然语言交互技术被引入数据分析领域，旨在实现“对话式BI”，即通过自然语言提问直接获取数据结果。

然而，现有技术在实际应用中仍存在显著缺陷：

首先，国资监管涉及财务快报、投资监管等多类业务系统，不同企业上报的数据在字段命名、口径定义、编码规则等方面存在较大差异，导致原始数据质量参差不齐，直接用于分析将产生误导性结论；

其次，大语言模型虽然具备强大的自然语言理解与生成能力，但其训练数据多为通用语料，缺乏对国资监管领域专业知识（如政策法规、指标定义、业务流程）的深度理解，导致在处理专业问题时出现“幻觉”或生成错误SQL；

再次，现有NL2SQL（自然语言转SQL）方案在面对复杂查询时，因缺乏对数据库结构、字段语义及表间关联关系的准确理解，常出现选表错误、字段误用、逻辑混乱等问题，严重影响查询结果的准确性；

最后，传统系统缺乏透明化交互机制，用户无法了解系统生成答案的推理过程，也无法进行干预和修正，导致信任度低，且系统难以通过用户反馈实现持续优化。

因此，如何在保障数据质量的基础上，融合领域专业知识，提升大语言模型在国资监管场景下的数据分析准确性和可解释性，已成为亟待解决的技术难题。

发明内容

本申请提供了一种基于自然语言的智能数据查询方法，以解决上述技术问题之一。

本申请所采用的技术方案为：

本申请实施例提供一种基于自然语言的智能数据查询方法，包括:

将企业原始数据进行规范，得到标准化主题数据库，通过建立数据目录与指标定义，以得到数据目录和指标定义文档；

基于非结构化知识，提取关键语义，将数据目录和指标定义文档转换为文本片段，将用户历史提问与对应SQL的映射关系编码为向量，将关键语义、文本片段和向量融合构建为领域知识向量库；

基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，根据不同的任务类型执行不同的执行操作，其中，任务类型包括知识问答、数据查询和复杂分析；

若任务类型为知识问答，直接检索领域知识向量库中的领域知识生成答案，若任务类型为数据查询，提取自然语言问题中的关键词，结合上下文改写为查询请求，若任务类型为复杂分析，判断是否执行预定义工作流或调用智能体处理，以输出的查询任务或分析需求。

根据本申请的一个实施例，所述基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，还包括：

若识别意图模糊，调用对话智能体生成反问语句，补全信息后返回规划智能体。

根据本申请的一个实施例，还包括：

基于查询任务或分析需求、数据目录和指标定义文档以及领域知识向量库，通过智能选表，以生成SQL语句，通过验证，得到验证通过的SQL语句。

根据本申请的一个实施例，在所述基于查询任务或分析需求、数据目录和指标定义文档以及领域知识向量库，通过智能选表，以生成SQL语句，通过验证，得到验证通过的SQL语句之后，还包括：

将验证通过的SQL语句输入到标准化主题数据库，返回得到结构化数据结果集；

根据用户的自然语言问题，通过大语言模型基于结构化数据结果集判断最佳图表类型，调用智能图表组件生成可视化结果；

通过用户对可视化结果的评价，得到用户反馈数据。

根据本申请的一个实施例，在所述通过用户对可视化结果的评价，得到用户反馈数据之后，还包括：

基于用户反馈数据，以更新数据目录和指标定义文档、用户历史提问与对应SQL的映射关系和非结构化知识；

定期优化大语言模型的训练数据。

一种基于自然语言的智能数据查询系统，其特征在于，包括:

处理模块，用于将企业原始数据进行规范，得到标准化主题数据库，通过建立数据目录与指标定义，以得到数据目录和指标定义文档；

融合模块，用于基于非结构化知识，提取关键语义，将数据目录和指标定义文档转换为文本片段，将用户历史提问与对应SQL的映射关系编码为向量，将关键语义、文本片段和向量融合构建为领域知识向量库；

识别模块，用于基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，根据不同的任务类型执行不同的执行操作，其中，任务类型包括知识问答、数据查询和复杂分析；

执行模块，用于若任务类型为知识问答，直接检索领域知识向量库中的领域知识生成答案，若任务类型为数据查询，提取自然语言问题中的关键词，结合上下文改写为查询请求，若任务类型为复杂分析，判断是否执行预定义工作流或调用智能体处理，以输出的查询任务或分析需求。

根据本申请的一个实施例，所述识别模块，还包括：

根据本申请的一个实施例，还包括：

本申请第二方面实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如所述的方法中的步骤。

本申请第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如所述的方法中的步骤。

由于采用了上述技术方案，本申请所取得的有益效果为：

本申请通过将企业原始数据进行规范与治理，得到标准化主题数据库，通过建立数据目录与指标定义，以得到数据目录和指标定义文档，实现了对异构数据的统一治理与结构化表达。该手段有效解决了企业数据上报标准不一、字段语义混乱的问题，提升了数据质量与融合度，为后续的智能分析提供了高质量、可解释的数据基础，显著降低了数据清洗与映射的人工成本。

通过基于非结构化知识，提取关键语义，将数据目录和指标定义文档转换为文本片段，将用户历史提问与对应SQL的映射关系编码为向量，将关键语义、文本片段和向量融合构建为领域知识向量库，构建了一个融合结构化元数据与非结构化领域知识的语义化知识库。该手段使大语言模型能够通过检索机制获取准确的业务语义、指标定义、政策依据和历史查询模式，弥补了其在专业领域知识上的不足，显著提升了模型对国资监管业务的理解能力，为准确生成SQL提供了知识支撑。

通过基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，根据不同的任务类型执行不同的执行操作，实现了对用户意图的精准识别与任务分流。该手段使得系统能够区分知识问答、数据查询和复杂分析等不同场景，并执行差异化处理流程，避免了“一刀切”的处理方式，提升了系统的灵活性与响应效率，满足了监管业务中长尾需求多、分析场景多样的实际需求。

通过若任务类型为知识问答，直接检索领域知识向量库中的领域知识生成答案，实现了对政策法规、业务定义等非结构化知识的快速检索与精准回答。该手段避免了大语言模型“凭空生成”答案的“幻觉”问题，确保了知识类问题回答的权威性与准确性，提升了系统的可信度。

通过若任务类型为数据查询，提取自然语言问题中的关键词，结合上下文改写为查询请求，实现了对用户问题的结构化解析与语义补全。该手段将模糊、口语化的自然语言转化为明确、可执行的查询指令，为后续的SQL生成提供了清晰的输入，有效解决了因用户表达不完整导致的查询失败问题。

通过若任务类型为复杂分析，判断是否执行预定义工作流或调用智能体处理，以输出的查询任务或分析需求，实现了对复杂分析任务的自动化调度与智能处理。该手段将多步骤、多表关联的复杂分析任务分解为可执行的工作流或交由智能体协同处理，提升了系统对高级分析需求的支持能力，扩展了应用场景。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于自然语言的智能数据查询方法的流程示意图；

图2为本申请实施例提供的电子设备的结构示意图；

图3为本申请实施例提供的一种基于自然语言的智能数据查询方法的逻辑框架图。

附图标记：

810、处理器；820、通信接口；830、存储器；840、通信总线。

具体实施方式

为了更清楚的阐释本申请的整体构思，下面结合说明书附图以示例的方式进行详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。需要说明的是，在不冲突的情况下，本申请的实施例及各实施例中的特征可以相互结合。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。

实施例1

如图1和图3所示，一种基于自然语言的智能数据查询方法，包括：

将企业原始数据进行规范，得到标准化主题数据库，通过建立数据目录与指标定义，以得到数据目录和指标定义文档。

如上所述，首先，“将企业原始数据进行规范”是指依据统一的数据治理规范体系，对企业上传的原始业务数据（如财务报表、投资明细、资产台账等）进行标准化处理。该规范体系包括核心监管指标的强制性规范和企业个性化指标的扩展规范框架。强制性规范由监管机构统一制定，涵盖指标名称、编码、定义、计算口径、计量单位等要素，确保关键监管数据在全国范围内具有一致语义。扩展规范则允许企业在满足监管要求的前提下，自定义个性化指标，但必须通过语义映射明确其与标准指标的对应关系，防止语义歧义。

其次，“得到标准化主题数据库”是指在数据清洗、校验和映射的基础上，将分散的业务数据表整合为面向主题的宽表结构。例如，将“利润表”“资产负债表”“现金流量表”等财务数据整合为“财务主题库”，减少跨表关联查询的复杂度，提升后续SQL生成与执行效率。

最后，“建立数据目录与指标定义”是指对标准化后的数据库进行元数据管理，构建结构化的数据资产目录。该目录包括：

数据库的分层结构（如基础层、主题层、应用层）；

每张表的功能说明、业务来源、更新频率；

字段级别的属性标注（如“维度”或“指标”类型、是否为主键、枚举值范围）；

表间关联关系（如外键约束、同名字段的语义一致性说明）。

这些信息最终形成数据目录和指标定义文档，作为后续向量库构建、意图识别和SQL生成的重要输入依据，确保系统对数据结构和业务语义的准确理解。

举例说明，以某中央企业上报“利润总额”数据为例：

企业A在本地系统中使用字段名为“本年利润”的数值，单位为“万元”，计算口径为“营业利润+营业外收支净额”；

企业B使用字段名为“净利润”，单位为“元”，计算口径为“税后利润”；

而监管规范要求“利润总额”应包含“营业利润+营业外收入-营业外支出”，单位为“亿元”。

在本步骤中，系统将执行以下操作：

数据规范映射：

对企业A的数据进行单位换算（万元→亿元），并根据其计算逻辑判断其接近“营业利润”，需补充营业外收支数据；

对企业B的数据识别其为“净利润”，需反向推算税前利润，并补充营业外收支，最终映射至标准“利润总额”字段。

构建主题数据库：

将来自多家企业的“利润总额”数据统一存储至“财务主题库”的“企业经营成果表”中，形成宽表结构，包含企业编码、年份、利润总额、营业收入、成本费用等字段。

建立数据目录与指标定义文档：

在数据目录中定义“企业经营成果表”的功能为“汇总企业年度核心经营指标”；

标注“利润总额”字段为“指标”类型，单位为“亿元”，计算口径引用监管文件编号；

明确该表与“企业基本信息表”通过“企业编码”字段关联，确保后续查询可自动识别关联路径。

该文档将作为后续向量库构建和SQL生成的核心元数据输入，确保系统在用户提问“2023年央企利润总额”时，能准确识别目标字段和关联表。

需要说明的是，在具体的实施场景下，还可以在上述方案的基础上，数据规范体系支持动态更新。当监管政策调整（如新增“研发投入强度”指标）时，系统可自动推送新规范至企业端，并对历史数据进行回溯性校验与补录，确保主题数据库的时效性与合规性。

在具体的实施场景下，还可以在上述方案的基础上，在企业自定义指标映射过程中，系统可基于历史映射记录和领域知识向量库，智能推荐可能的标准指标匹配项，并提供相似度评分，辅助企业或治理人员完成映射决策，提升治理效率。

在具体的实施场景下，还可以在上述方案的基础上，数据目录可进一步细分为“物理层”“逻辑层”“业务层”，分别对应数据库表结构、主题模型和业务应用场景。例如，“业务层”目录可按“财务监管”“投资监管”“风险预警”等场景组织，便于后续根据用户角色或查询场景进行定向检索。

在具体的实施场景下，还可以在上述方案的基础上，在指标定义文档中，可记录每个指标的“数据血缘”，即其来源字段、计算过程、依赖表等信息。该血缘信息可用于SQL生成阶段的逻辑验证，也可在结果呈现时向用户展示“该数据是如何计算得出的”，增强透明度。

在具体的实施场景下，还可以在上述方案的基础上，本步骤不仅适用于结构化数据库（如Oracle、MySQL），还可通过适配器模式接入非结构化数据源（如Excel报表、PDF文档），将其内容提取并映射至标准化主题数据库，进一步扩大系统适用范围。

在具体的实施场景下，还可以在上述方案的基础上，在治理完成后，系统可对每张表、每个字段生成数据质量评分（如完整性、一致性、及时性），并在数据目录中标注。该评分可用于后续SQL生成阶段的“可信度加权”，优先选择高质量数据源生成查询。

基于非结构化知识，提取关键语义，将数据目录和指标定义文档转换为文本片段，将用户历史提问与对应SQL的映射关系编码为向量，将关键语义、文本片段和向量融合构建为领域知识向量库。

如上所述，首先，“基于非结构化知识，提取关键语义”是指从国资监管领域的政策文件、法规条文、行业标准、分析报告、会议纪要等非结构化文本中，识别并抽取与业务分析密切相关的核心语义信息。例如，从《中央企业财务决算报告管理办法》中提取“利润总额应包含营业外收入但不含少数股东损益”等规则性描述，或从行业分析报告中提取“资产负债率超过70%视为高风险”等判断标准。这些语义信息经结构化处理后，转化为可被系统理解的知识单元。

其次，“将数据目录和指标定义文档转换为文本片段”是指将前一阶段生成的元数据文档（如表说明、字段属性、指标口径等）进行语义切分，形成细粒度的文本片段。例如，将“企业经营成果表中的‘利润总额’字段：指标类型，单位为亿元，计算口径为营业利润+营业外收入-营业外支出”这一条目作为一个独立文本片段。这些片段保留了数据的结构化语义，便于后续向量化表示和检索匹配。

再次，“将用户历史提问与对应SQL的映射关系编码为向量”是指将系统积累的“自然语言问题—SQL语句”配对样本进行语义编码。例如，“2023年央企利润总额是多少？”与其对应的SQL语句“SELECT SUM(profit_total) FROM financial_table WHERE year =2023”被共同编码为一个向量。该过程不仅保留问题的语义，还隐含了用户表达习惯、常用查询模式和SQL生成逻辑，为大语言模型提供真实的业务场景训练信号。

最后，“将关键语义、文本片段和向量融合构建为领域知识向量库”是指将上述三类信息统一通过嵌入模型（如BERT、Sentence-BERT）转换为高维向量，并存储于向量数据库中。该向量库不仅支持语义相似性检索（如“利润”与“盈利”），还能在用户提问时快速召回相关指标定义、政策依据和历史查询模式，作为大语言模型生成准确回答的外部知识支撑。

举例说明，假设系统需处理用户提问：“2023年央企平均资产负债率是否超过警戒线？”

在本步骤中，系统已预先构建了如下领域知识向量库内容：

从非结构化知识中提取的关键语义：

来自《中央企业债务风险管控指引》：“资产负债率超过65%视为债务风险警戒线。”

来自年报分析报告：“央企平均资产负债率应控制在60%以内。”

从数据目录和指标定义文档转换的文本片段：

“资产负债率：指标类型，计算公式为‘总负债 / 总资产’，单位为%。”

“企业财务状况表：包含企业编码、年份、总资产、总负债、资产负债率等字段。”

从历史提问-SQL映射关系编码的向量：

问题：“近三年央企资产负债率趋势如何？” → SQL：SELECT year, AVG(debt_ratio) FROM financial_table GROUP BY year

问题：“哪些企业资产负债率超过70%？” → SQL：SELECT enterprise_name FROMfinancial_table WHERE debt_ratio>70

当用户提出上述问题时，系统通过向量库检索，可同时召回：

“警戒线为65%”的政策依据；

“资产负债率”的计算口径；

“平均值计算”的SQL模式。

这些信息作为上下文输入大语言模型，使其能够准确理解“警戒线”含义，生成包含“65%”阈值判断的SQL，并在结果呈现时引用政策依据，提升回答的权威性与可解释性。

需要说明的是，在具体的实施场景下，还可以在上述方案的基础上，除文本类非结构化知识外，还可将监管系统中的图表、流程图、数据模型图等视觉信息通过多模态模型（如CLIP）提取语义，并编码为向量，纳入领域知识向量库，增强对复杂业务逻辑的理解能力。

在具体的实施场景下，还可以在上述方案的基础上，当新政策发布或历史SQL被用户修正后，系统可自动触发向量库的增量更新，确保知识库的时效性。例如，用户手动修改某SQL并确认正确后，该“问题-修正SQL”对将被编码并替换原错误样本，实现知识库的自我优化。

在具体的实施场景下，还可以在上述方案的基础上，向量库可按语义层级组织，如“政策层”“指标层”“查询模式层”，并在检索时采用分层召回策略。例如，先匹配政策定义，再匹配指标口径，最后匹配SQL模板，提升检索效率与准确性。

在具体的实施场景下，还可以在上述方案的基础上，不同来源的知识可赋予不同权重。例如，来自正式监管文件的知识权重高于内部报告，高评分历史查询的权重高于低评分样本。在检索时，系统综合向量相似度与可信度权重进行排序，优先返回高置信度知识。

在具体的实施场景下，还可以在上述方案的基础上，在构建新业务领域（如环保监管、科技创新）的知识向量库时，可复用本方案的构建流程，仅替换非结构化知识源和历史查询样本，实现系统的快速迁移与部署。

在具体的实施场景下，还可以在上述方案的基础上，当向量库中存在语义冲突（如两份文件对同一指标定义不一致），系统可标记冲突并提示人工审核，或基于发布机构权威性自动选择优先级，确保知识一致性。

在具体的实施场景下，还可以在上述方案的基础上，在涉及跨国企业数据时，可将中文指标名称与英文术语（如“利润总额”→“Total Profit”）建立映射关系，并编码为双语向量，支持多语言自然语言查询。

基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，根据不同的任务类型执行不同的执行操作，其中，任务类型包括知识问答、数据查询和复杂分析。

如上所述，首先，“基于用户的自然语言问题”是指系统接收用户以日常语言形式提出的查询请求，如“2023年央企利润总额是多少？”或“资产负债率超过警戒线的企业有哪些？”。此类问题通常具有口语化、不完整或模糊的特点，需通过语义解析转化为结构化任务。

其次，“通过调用大语言模型分析用户问题，识别任务类型”是指利用大语言模型强大的自然语言理解能力，结合预设的分类规则和上下文信息，对问题进行意图识别。系统将问题划分为三类典型任务：

知识问答：涉及政策法规、指标定义、业务规则等非结构化知识的查询，如“什么是事项？”；

数据查询：涉及结构化数据库中的数值提取、统计汇总、条件筛选等操作，如“2023年营业收入前十的企业是哪些？”；

复杂分析：涉及多步骤、多表关联、趋势预测或预定义分析流程的任务，如“分析近三年央企利润与投资的关联性”。

最后，“根据不同的任务类型执行不同的执行操作”是指系统依据识别结果，将任务路由至相应的处理模块：

对于知识问答，系统直接检索领域知识向量库中的政策文件、指标定义等文本片段，生成权威、准确的回答；

对于数据查询，系统提取问题中的关键要素（如指标、维度、时间范围、过滤条件），并结合上下文补全语义缺失，转化为明确的查询请求，供后续SQL生成模块使用；

对于复杂分析，系统判断该任务是否对应预定义的工作流（如“风险预警分析流程”），或是否需要调用多个智能体协同处理（如一个智能体负责数据提取，另一个负责趋势建模），从而实现对高级分析需求的支持。

该步骤通过任务类型识别与分流机制，实现了对用户意图的精准理解与差异化响应，避免了“通用模型一锅煮”的低效处理模式，显著提升了系统的智能化水平与响应准确性。

举例说明，假设系统接收到以下三个用户问题：

知识问答类：“事项的决策程序是什么？”

大语言模型识别该问题属于“知识问答”类型，因其关键词“决策程序”指向政策规定；

系统检索领域知识向量库，找到《关于进一步推进决策制度落实的通知》中的相关条款；

生成回答：“事项应履行集体讨论、专家论证、风险评估、合法性审查、前置研究等程序。”

数据查询类：“2023年利润总额超过1000亿的企业有哪些？”

大语言模型识别该问题属于“数据查询”类型，因其包含明确指标（利润总额）、时间（2023年）、条件（>1000亿）；

系统提取关键词：“利润总额”“2023年”“>1000亿”，并结合数据目录确认字段来源为“财务主题库”；

将问题改写为结构化查询请求，供后续SQL生成模块使用。

复杂分析类：“请分析央企研发投入与利润增长的关系，并预测未来两年趋势。”

大语言模型识别该问题属于“复杂分析”类型，因其涉及多指标关联、趋势分析与预测；

系统判断该任务可调用预定义的“研发与效益关联分析工作流”，该工作流包含：

第一步：提取近五年“研发投入”与“利润总额”数据；

第二步：计算相关系数；

第三步：构建时间序列预测模型；

系统调用多个智能体协作完成各子任务，并整合结果生成综合分析报告。

通过上述分类与执行机制，系统能够针对不同类型问题提供精准、高效的响应。

需要说明的是，在具体的实施场景下，还可以在上述方案的基础上，在识别任务类型时，系统可结合用户历史对话记录进行上下文理解。例如，用户先问“2023年利润前十的企业”，再问“它们的研发投入如何？”，系统可自动关联前一查询结果，识别为“数据查询”并执行下钻分析。

在具体的实施场景下，还可以在上述方案的基础上，当大语言模型无法明确判断任务类型时（如“帮我看看利润情况”），可调用对话智能体生成反问语句（如“您需要查看利润总额、利润率，还是与往年的对比？”），待用户补全信息后再进行分类，提升交互友好性。

在具体的实施场景下，还可以在上述方案的基础上，除预设的三类任务外，系统可支持新增任务类型，如“数据校验”（检查数据完整性）、“异常检测”（识别异常值）、“报告生成”（自动生成分析报告）等，通过配置化方式扩展任务识别能力。

在具体的实施场景下，还可以在上述方案的基础上，系统可根据任务类型自动分配计算资源。例如，“知识问答”优先响应，“复杂分析”可异步执行并通知用户结果就绪，提升系统整体效率。

在具体的实施场景下，还可以在上述方案的基础上，系统可结合用户身份（如财务监管员、投资分析师）调整任务识别权重。例如，财务人员提问“利润”更倾向“数据查询”，而政策研究员提问“利润”可能触发“知识问答”。

在具体的实施场景下，还可以在上述方案的基础上，系统可向用户反馈“已识别为数据查询任务”，增强交互透明度，允许用户手动修正任务类型，实现人机协同优化。

在具体的实施场景下，还可以在上述方案的基础上，当用户对任务执行结果进行评价（如“这不是我想要的分析”），系统可将该样本纳入训练集，持续优化大语言模型的任务分类准确率。

如上所述，首先，当任务类型为知识问答时，系统不依赖大语言模型“生成”答案，而是通过直接检索领域知识向量库获取权威、可验证的知识片段。该方式避免了大语言模型因训练数据局限或语义偏差导致的“幻觉”问题（即编造不存在的信息），确保回答内容源自监管政策、指标定义、业务规范等可信来源。检索结果经语义排序后，选取最相关片段作为答案输出，保障回答的准确性与合规性。

其次，当任务类型为数据查询时，系统进入结构化数据访问准备阶段。此阶段的核心是语义解析与请求重构：系统从自然语言问题中提取关键要素，包括查询指标（如“利润总额”）、维度信息（如“企业名称”“年份”）、过滤条件（如“2023年”“超过1000亿”）和聚合方式（如“求和”“平均值”）。随后，结合上下文信息（如用户历史查询、当前对话主题、数据目录中的字段映射关系）对问题进行语义补全与歧义消解，最终改写为结构清晰、语义完整的查询请求。该请求作为后续SQL生成模块的输入，显著提升SQL生成的准确率。

最后，当任务类型为复杂分析时，系统需处理涉及多步骤、多表关联、动态逻辑或预测建模的高级任务。此时，系统首先判断该任务是否对应预定义工作流。预定义工作流是预先配置的标准化分析流程，如“央企债务风险评估流程”“研发投入与效益关联分析流程”，包含一系列有序的子任务（如数据提取、指标计算、阈值判断、可视化生成）。若匹配成功，则自动执行该工作流；若无匹配工作流，则调用一个或多个智能体（Agent）协同处理。每个智能体负责特定子任务（如数据提取智能体、统计建模智能体、报告生成智能体），通过任务分解与协作机制完成复杂分析，并最终输出可执行的查询任务或结构化的分析需求，供后续模块处理。

该分层处理机制实现了从“简单问答”到“复杂决策支持”的能力跃迁，提升了系统的灵活性与扩展性。

举例说明，假设系统接收到以下三类任务：

知识问答任务：

用户提问：“事项的决策主体是谁？”

系统识别为“知识问答”类型，检索领域知识向量库，找到《关于进一步推进决策制度落实的通知》中的原文：“重大事项决策必须经集体研究讨论。”

系统生成回答：“事项的决策主体是集体。”

优势：答案有据可查，避免模型“猜测”或“编造”。

数据查询任务：

用户提问：“2023年利润前十的央企是哪些？”

系统识别为“数据查询”，提取关键词：“2023年”“利润”“前十”；

结合上下文（如当前对话聚焦财务指标）和数据目录，确认“利润”对应“利润总额”字段；

将问题改写为查询请求：“请查询2023年利润总额排名前10的企业名称及利润值。”

该请求作为输入，供后续SQL生成模块转化为具体语句。

复杂分析任务：

用户提问：“评估央企海外投资的风险水平。”

系统识别为“复杂分析”，判断无完全匹配的预定义工作流，但存在“海外投资风险评估”相似模板；

系统调用多个智能体协同处理：

数据提取智能体：获取海外投资金额、所在国别、汇率波动、政治风险评级等数据；

风险计算智能体：根据预设规则（如高风险国家权重×投资额）计算综合风险分值；

阈值判断智能体：识别风险分值超过阈值的企业；

最终输出结构化分析需求：“请生成海外投资高风险企业名单及风险构成分析报告。”

需要说明的是，在具体的实施场景下，还可以在上述方案的基础上，当向量库中多个知识片段对同一问题给出不同回答时，系统可基于来源权威性（如国务院文件>企业内部规定）进行优先级排序，或提示用户存在争议，增强回答的可靠性。

在具体的实施场景下，还可以在上述方案的基础上，在改写查询请求时，系统可结合用户角色自动补全隐含条件。例如，财务监管员提问“利润情况”，系统自动添加“与去年同期对比”；投资分析师提问“投资”，自动添加“按行业分类”。

在具体的实施场景下，还可以在上述方案的基础上，系统提供图形化界面，允许管理员通过拖拽方式定义工作流节点（如“数据提取”→“指标计算”→“阈值判断”），降低配置门槛，提升系统可维护性。

在具体的实施场景下，还可以在上述方案的基础上，智能体之间可通过消息总线或任务队列进行通信，支持并行执行与结果聚合。系统可根据任务复杂度动态选择智能体组合，实现资源最优分配。

在具体的实施场景下，还可以在上述方案的基础上，对于长周期分析任务，系统可分阶段执行并反馈中间结果（如先返回数据提取进度，再返回分析结论），提升用户体验。

在具体的实施场景下，还可以在上述方案的基础上，系统记录每类任务的处理路径（如“识别为复杂分析 → 调用3个智能体 → 生成报告需求”），支持审计与优化。

在具体的实施场景下，还可以在上述方案的基础上，当用户问题同时包含知识查询与数据请求（如“什么是资产负债率？并列出超过70%的企业”），系统可自动拆解为多个子任务并并行处理，提升综合响应能力。

如上所述，当系统接收到用户的自然语言问题后，通过调用大语言模型对问题进行语义分析，以识别其所属的任务类型。在多数情况下，模型能够根据问题中的关键词、句式结构和上下文信息准确判断任务类型，如知识问答、数据查询或复杂分析。然而，在部分场景下，用户提问可能表述模糊、信息不完整或存在多种理解可能，导致大语言模型无法明确归类，此时系统进入意图澄清流程。

若识别到用户意图模糊，系统将调用对话智能体生成反问语句。该对话智能体具备自然语言生成能力，能够基于当前问题的语义边界和可能的解释方向，构造合理、简洁的反问内容，以引导用户补充必要信息。例如，当用户提问“看看利润情况”时，系统无法确定其意图是查询具体数值、进行趋势分析还是对比企业排名，此时对话智能体可生成反问语句，如“您是想了解利润总额、利润率，还是与往年的对比情况？”

该反问语句返回至用户界面，等待用户进一步输入。用户补充信息后，系统将新的输入连同上下文一并返回至规划智能体。规划智能体负责重新分析更新后的问题内容，结合历史对话信息进行综合判断，再次执行任务类型识别，直至获得明确意图。

该机制通过引入对话智能体与规划智能体的协同交互，实现了对模糊意图的主动澄清，避免了因误解用户需求而导致的错误响应，提升了系统在真实业务场景下的鲁棒性和交互准确性。同时，该流程支持多轮对话中的上下文延续，确保信息补全过程自然流畅，符合人类交流习惯。

根据本申请的一个实施例，还包括：

如上所述，在系统完成任务类型识别与处理路径规划后，若任务涉及对结构化数据的访问，将生成明确的查询任务或分析需求。为将该需求转化为可执行的数据操作指令，系统进入SQL语句生成阶段。

首先，系统结合三项核心输入信息进行语义解析与逻辑构建：

一是查询任务或分析需求，该需求由前序步骤输出，包含用户意图的结构化表达，如“查询2023年利润总额排名前10的企业名称及数值”；

二是数据目录和指标定义文档，用于明确数据库中各表的功能、字段含义、主外键关系及指标口径，例如确认“利润总额”字段位于“企业经营成果表”中，且单位为“亿元”；

三是领域知识向量库，用于补充业务规则、历史查询模式和语义关联信息，例如通过检索发现“利润总额”常与“营业收入”“成本费用”联合分析，或历史上类似问题多从“财务主题库”取数。

在上述信息支持下，系统执行智能选表过程。该过程通过语义匹配与规则推理相结合的方式，从多个候选数据表中自动选择最合适的表作为查询目标。例如，当用户查询“央企投资情况”时，系统需在“对外投资明细表”“固定资产投资表”“股权投资汇总表”等多个表中判断语义最匹配的一项。系统依据字段重合度、表名语义相似度、历史查询频率及指标定义一致性等维度进行综合评分，选择得分最高的表，并确定其别名与关联方式。

基于选定的数据表和查询需求，系统生成初步的SQL语句，包括SELECT字段、FROM表名、WHERE过滤条件、GROUP BY分组逻辑、ORDER BY排序方式等结构化语法。

生成的SQL语句随后进入验证环节。验证过程包括多个维度：

一是语法正确性检查，确保语句符合SQL标准，无拼写错误或结构缺失；

二是语义合规性校验，核对所选字段是否属于选定表，过滤条件中的值域是否合法，时间格式是否正确；

三是业务逻辑合理性判断，例如检查是否遗漏必要维度、聚合方式是否恰当、是否涉及敏感字段未授权访问等；

四是执行可行性评估，通过模拟执行或语法解析器判断是否存在笛卡尔积、全表扫描等性能风险。

若验证未通过，系统将反馈错误类型并启动修正机制，如重新选表、调整字段或补充连接条件，直至生成验证通过的SQL语句。该语句具备语法正确、语义准确、逻辑完整和执行安全的特点，可提交至数据库执行，获取最终数据结果。

该过程通过融合领域知识、元数据信息与智能推理，实现了从自然语言需求到可执行SQL的高精度转化，显著提升了复杂场景下SQL生成的准确性与可靠性。

通过用户对可视化结果的评价，得到用户反馈数据。

如上所述，将验证通过的SQL语句输入到标准化主题数据库，由数据库执行该语句，完成对底层数据的检索或计算操作，返回得到结构化数据结果集。该结果集以二维表形式组织，包含字段名和对应的数据行，反映用户所查询的指标值、维度组合或分析输出，是后续结果呈现的基础数据。

根据用户的自然语言问题，通过大语言模型对原始问题意图和结构化数据结果集的特征进行联合分析，判断最适合展示该结果的图表类型。大语言模型结合问题中的关键词（如“趋势”“对比”“占比”“分布”）、数据维度数量（如时间序列、分类变量）、指标类型（如求和值、平均值、比率）以及数据规模，推理出最优可视化方式。例如，当问题涉及“近三年利润变化趋势”且结果集包含年份与利润值时，模型判断“折线图”为最佳图表类型；当结果为各企业利润排名时，则推荐“柱状图”；当查询“各业务板块收入占比”时，推荐“饼图”或“环形图”。

在确定图表类型后，系统调用智能图表组件生成可视化结果。该组件根据选定的图表类型，自动配置坐标轴、图例、颜色方案、标签格式、交互功能（如悬停显示数值、缩放、下钻）等可视化元素，并将结构化数据结果集映射为图形化表达，输出可嵌入界面的图表对象。该过程无需人工配置，实现从数据到可视化的自动转换。

系统在输出可视化结果的同时，提供用户反馈入口，允许用户对图表的准确性、清晰度、类型选择、布局设计等方面进行评价。用户可通过点击按钮、填写评分或输入文字意见表达反馈。系统收集上述信息，形成用户反馈数据。该数据包括反馈内容、评分值、反馈时间、对应问题与图表类型等上下文信息，用于后续系统优化。

该流程实现了从SQL执行到数据呈现的自动化闭环，通过大语言模型驱动的图表推荐与智能组件生成，提升了结果展示的准确性与用户体验，并通过用户反馈机制为系统持续优化提供依据。

定期优化大语言模型的训练数据。

如上所述，基于用户反馈数据，对系统中的核心知识资产进行动态更新与优化。具体而言，当用户反馈表明图表类型选择不当、数据展示不清晰或结果与预期不符时，系统将分析反馈内容，并识别其根本原因，进而触发相关知识组件的修正与完善。

若用户反馈涉及指标理解偏差，例如指出“利润总额”未包含某类收入，或图表单位显示错误，则系统将该信息用于更新数据目录和指标定义文档，修正指标的计算口径、单位、说明文字或关联维度，确保后续查询对该指标的理解一致且准确。

若用户反馈表明生成的SQL语句存在逻辑错误或选表不当，例如应查询“合并报表”却使用了“单体报表”，或过滤条件遗漏关键维度，则系统将正确的“自然语言问题—SQL语句”配对关系补充或替换至用户历史提问与对应SQL的映射关系中，增强后续SQL生成的准确性与鲁棒性。

若用户反馈涉及政策依据或业务规则理解错误，例如指出“事项”范围应包含某类决策，或风险阈值应依据最新文件调整，则系统将相关权威文件或修正说明纳入非结构化知识库，并更新其语义提取结果，确保领域知识向量库中的规则与实际监管要求保持同步。

此外，系统定期汇总用户反馈数据及其引发的知识更新内容，用于优化大语言模型的训练数据。通过对原始训练语料进行补充、修正或加权处理，增强模型在任务类型识别、意图理解、SQL生成和图表推荐等环节的领域适应能力。例如，将高频错误问题及其正确处理路径作为微调样本，提升模型对类似问题的处理准确率。

该机制实现了系统从用户交互中持续学习的能力，使数据治理、知识管理和模型性能形成闭环优化，提升了整个智能数据查询系统的自适应性、准确性和长期可用性。

一种基于自然语言的智能数据查询系统，其特征在于，包括:

根据本申请的一个实施例，所述识别模块，还包括：

根据本申请的一个实施例，还包括：

本申请第二方面实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面任一实施例中的方法。

图2示例了一种电子设备的实体结构示意图，如图2所示，该电子设备可以包括：处理器810、通信接口820、存储器830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述第一方面任一实施例中的方法，该方法包括：

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的卷烟盒图像识别方法，该方法包括：

本申请中未述及的地方采用或借鉴已有技术即可实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于自然语言的智能数据查询方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述基于用户的自然语言问题，通过调用大语言模型分析用户问题，识别任务类型，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，在所述基于查询任务或分析需求、数据目录和指标定义文档以及领域知识向量库，通过智能选表，以生成SQL语句，通过验证，得到验证通过的SQL语句之后，还包括：

通过用户对可视化结果的评价，得到用户反馈数据。

5.根据权利要求4所述的方法，其特征在于，在所述通过用户对可视化结果的评价，得到用户反馈数据之后，还包括：

定期优化大语言模型的训练数据。

6.一种基于自然语言的智能数据查询系统，其特征在于，包括:

7.根据权利要求6所述的系统，其特征在于，所述识别模块，还包括：

8.根据权利要求6所述的系统，其特征在于，还包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述方法中的步骤。