[go: up one dir, main page]

CN121188178A - 查询语句的检索处理方法、装置、设备、介质及程序产品 - Google Patents

查询语句的检索处理方法、装置、设备、介质及程序产品

Info

Publication number
CN121188178A
CN121188178A CN202511248214.5A CN202511248214A CN121188178A CN 121188178 A CN121188178 A CN 121188178A CN 202511248214 A CN202511248214 A CN 202511248214A CN 121188178 A CN121188178 A CN 121188178A
Authority
CN
China
Prior art keywords
semantic
data
text
result set
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202511248214.5A
Other languages
English (en)
Inventor
黄兴如
刘中亮
李奕萱
王功举
胡博文
闫龙
李大中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Data Intelligence Co ltd
China United Network Communications Group Co Ltd
Original Assignee
China Unicom Data Intelligence Co ltd
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Data Intelligence Co ltd, China United Network Communications Group Co Ltd filed Critical China Unicom Data Intelligence Co ltd
Priority to CN202511248214.5A priority Critical patent/CN121188178A/zh
Publication of CN121188178A publication Critical patent/CN121188178A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种查询语句的检索处理方法、装置、设备、介质及程序产品。该方法包括:获取查询语句和多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块;对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块;对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集,为查询语句的回答语句生成提供上下文提示。以提升检索准确性。

Description

查询语句的检索处理方法、装置、设备、介质及程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种查询语句的检索处理方法、装置、设备、介质及程序产品。
背景技术
智能问答技术使计算机能够以准确、简洁的自然语言回答用户提问,以满足用户对获取信息的需求。然而,在应对特定领域进行专业化查询时,智能问答结果可能会生成不准确或虚构的内容。
为了提升智能问答结果的生成质量和准确性,现有的智能问答技术结合RAG(Retrieval-Augmented Generation,检索增强生成)技术,以向量数据库的形式存储和检索嵌入在向量库中的知识,并通过语义相似度检索相关文档作为上下文,辅助智能问答模型输出更准确的答案。然而,在面对海量、多源和异构等复杂场景下的问答时,现有的单一依赖向量检索机制,难以捕捉细粒度的语义差异和复杂概念之间的关联,容易导致检索结果相关性降低,易产生泛化偏差,造成检索精度下降。
基于此,现有技术中,存在检索精度不足的问题。
发明内容
本申请实施例提供查询语句的检索处理方法、装置、设备、介质及程序产品,用以达到提升检索精度的效果。
第一方面,本申请实施例提供一种查询语句的检索处理方法,包括:
获取查询语句;
获取多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;
根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块;
对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块;
对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,目标文档块候选集用于为查询语句的回答语句生成提供上下文提示。
在一种可能的实施方式中,基于文本结构索引包括章节主题索引和段落主题索引;
基于文本语义索引包括语义主题索引和语义问题索引;
基于文本单元索引包括语义文本关键词索引和语义文本向量索引。
在一种可能的实施方式中,在获取多层索引之前,还包括:
获取多个文本数据;其中,文本数据包括学术论文数据、技术报告数据和科普文章数据;
对文本数据进行数据预处理,以得到词汇数据;
根据词汇数据,对多个文本数据进行知识切片处理,以得到知识切片数据;其中,知识切片数据包括章节数据、段落数据和语义块数据;
根据知识切片数据,生成结构化存储信息;
根据结构化存储信息,构建多层索引。
在一种可能的实施方式中,对文本数据进行数据预处理,以得到词汇数据,包括:
对文本数据进行分词处理,以得到第一词语数据;
对第一词语数据进行词频过滤处理,以得到第二词语数据
对第二词语数据进行词干提取处理,以得到词汇数据。
在一种可能的实施方式中,根据词汇数据,对多个文本数据进行知识切片处理,以得到知识切片数据,包括:
根据词汇数据和文档解析工具,提取文本数据中的章节数据和段落数据;
根据文本数据中的标点符号,对文本数据进行切分处理,以得到切分后文本数据;
根据预训练的大语言模型,对切分后文本数据进行语义块识别处理,以得到多个语义文本块;
对语义文本块添加标识信息,以得到语义块数据。
在一种可能的实施方式中,根据知识切片数据,生成结构化存储信息,包括:
根据章节数据、段落数据和语义块数据,建立知识切片映射关系;
为知识切片映射关系添加元数据信息,以得到结构化存储信息;其中,元数据信息包括来源、时间戳和领域标签中的多个。
在一种可能的实施方式中,根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集,包括:
根据查询语句,生成查询向量;
根据查询向量和多层索引,进行语义相似度检索,以得到语义检索结果集;
根据查询语句,生成查询关键词集合;
根据查询关键词集合和多层索引,进行关键词匹配检索,以得到关键词检索结果集。
在一种可能的实施方式中,在对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集之后,还包括:
将目标文档块候选集和查询语句输入至预设的大语言模型;
根据预设的大语言模型的输出结果,确定查询语句对应的回答语句。
第二方面,本申请实施例提供一种查询语句的检索处理装置,包括:
第一获取模块,用于获取查询语句;
第二获取模块,用于获取多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;
检索模块,用于根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块;
过滤模块,用于对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块;
排名模块,用于对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,目标文档块候选集用于为查询语句的回答语句生成提供上下文提示。
第三方面,本申请实施例提供一种查询语句的检索处理设备,包括:存储器,处理器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得处理器执行如上第一方面和/或第一方面各种可能的实施方式。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。
本申请实施例提供的查询语句的检索处理方法、装置、设备、介质及程序产品,通过获取查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;语义检索结果集和关键词检索结果集中均包括多个文档块;对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块;对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集,为查询语句的回答语句生成提供上下文提示。本申请的方法,通过多层索引,从不同层面和角度细化查询内容,并融合了多维信息进行索引增强,加深了查询内容之间的关联性,并对结果进行过滤和排序,提升了检索结果的准确性和质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的一种查询语句的检索处理系统架构示意图;
图2为本申请提供的查询语句的检索处理方法的流程示意图一;
图3为本申请提供的查询语句的检索处理方法的流程示意图二;
图4为本申请提供的查询语句的检索处理方法的流程示意图三;
图5为本申请提供的查询语句的检索处理方法的流程示意图四;
图6为本申请提供的查询语句的检索处理方法的流程示意图五;
图7为本申请提供的查询语句的检索处理装置的结构示意图;
图8为本申请提供的查询语句的检索处理装置的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请所涉及的数据,均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
可选地,图1为本申请提供的一种查询语句的检索处理系统架构示意图。如图1所示,查询语句的检索处理系统架构包括数据采集设备101、处理设备102和显示设备103中至少一种。
可以理解的是,本申请实施例示意的结构并不构成对上述架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
在具体实现过程中,数据采集设备101可以包括输入/输出接口,也可以包括通信接口,数据采集设备101可以通过输入/输出接口或者是通信接口与处理设备连接,用于获取查询语句和获取多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引。
处理设备102可以用于根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块;对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块;对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,目标文档块候选集用于为查询语句的回答语句生成提供上下文提示。
显示设备103还可以是触摸显示屏或者终端设备的屏幕,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
RAG技术是一种结合信息检索与语言模型生成能力的技术框架,包括检索阶段和生成阶段,其中,检索阶段是指从外部知识库中检索与用户查询相关的文档或文本片段,生成阶段是指将检索到的上下文信息与用户查询相结合,输入至大语言模型生成答案。
通过结合RAG技术和智能问答技术,能够有效地解决大语言模型在处理特定领域或高度专业化查询时,生成内容与事实不符的问题。
然而,现有的RAG依赖单一向量检索或基于关键词进行匹配,难以同时捕捉语义相似性和进行精确关键词匹配,对于涉及低频词汇或语义边界模糊的专业术语,单一向量检索易产生泛化偏差,而关键词匹配可能会忽略上下文语义;在面对海量、多元和异构的文本数据时,对文本数据的结构化信息和语义信息的利用率不足,导致检索效率和检索精度低下。
为了解决上述技术问题,本申请的核心构思在于:通过引入多层索引体系,从不同维度捕捉文本特征,将结构化信息和语义文本块相融合,打破单一维度对检索的局限,并对检索结果进行排序,提升检索结果的准确性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请提供的查询语句的检索处理方法的流程示意图一,如图2所示,该方法包括:
S201、获取查询语句。
在本实施例中,智能问答系统的场景包括开放域问答和领域知识问答,领域知识问答包括但不限于学术、医疗、金融、法律、商业的领域知识查询语句。
举例来说,在一个智能问答系统的应用场景中,获取到的查询语句可以为“量子计算的基本原理是什么?”。
S202、获取多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引。
可选地,基于文本结构索引包括章节主题索引和段落主题索引。
在本实施例中,章节主题索引用于快速定位到相关章节内容,段落主题索引用于反映段落的核心语义,实现基于语义匹配的检索。
对于具有章节结构的文档,通过对章节标题、章节开头段落和章节结尾段落,以及出现频率高于预设的出现频率的专业词汇进行综合分析,确定章节主题;对于不具有章节结构的文档,则以整体的文本数据作为一个章节进行分析,确定章节主题;确定的章节主题通过预设的大语言模型转化为语义向量,作为章节主题索引。
运用文本排序算法为每一段落提取关键句作为段落主题,其中,文本排序算法将段落中的句子作为节点,根据句子间的语义相似度构建图结构,以边的权重表示,通过迭代计算节点重要性得分,选取得分最高的句子作为关键句;将提取的关键句转化为语义向量,构建段落主题索引。
基于文本语义索引包括语义主题索引和语义问题索引。
在本实施例中,根据预设的大语言模型的语义理解和生成能力为语料库的每一语义文本块生成一个语义主题和一个语义问题,将语义主题转化为向量,以作为语义主题索引;将语义问题转化为向量,以作为语义问题索引。
基于文本单元索引包括语义文本关键词索引和语义文本向量索引。
在本实施例中,根据知识切片映射关系,将章节主题和段落主题融合至对应的语义文本块,对融合后的语义文本块进行分词和关键词提取,采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档)算法确定关键词的重要性权重,以建立语义文本关键词索引。
进一步地,将语义文本关键词转化为语义向量,以建立对应的语义文本向量索引。
S203、根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块。
在本实施例中,采用Milvus(一种向量数据库的索引)索引计算查询向量与存储文档的余弦相似度,以捕捉查询向量与存储文档之间的深层语义联系,并结合多层索引中对应的语义向量进行相似度计算,根据计算结果进行综合筛选,返回相似度最高的预设数量个文档块,将预设数量个文档块组成集合,以得到语义检索结果集。
提取查询语句中的查询关键词,采用基于BM25(Best Match 25,最佳匹配25)的检索器和倒排索引,获取存储文档中包括查询关键词的文档块,将获取到的文档块组成集合,以得到查询关键词集合。
S204、对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块。
在本实施例中,根据语义检索结果集和关键词检索结果集中,每一文档块的唯一标识,进行重复性检查,若语义检索结果集中的文档块和关键词检索结果集中的文档块的相似度高于预设的相似度阈值,则认为该文档块为重复文档块,则对重复文档块进行过滤处理,保留过滤后的检索结果集。
S205、对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,目标文档块候选集用于为查询语句的回答语句生成提供上下文提示。
在本实施例中,采用RRF(Reciprocal Rank Fusion,倒数排序融合)算法对过滤后的检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集。
可选地,在对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集之后,还包括:
将目标文档块候选集和查询语句输入至预设的大语言模型。
在本实施例中,将目标文档块候选集和查询语句输入至预设的大语言模型,以使预设的大语言模型生成关于查询语句的回答语句。
根据预设的大语言模型的输出结果,确定查询语句对应的回答语句。
在本实施例中,将预设的大语言模型生成的回答语句输出至可视化界面,以使用户得到查询语句对应的回答语句。
本申请提供的查询语句的检索处理方法,通过引入多层索引,从不同层面和角度对查询语句相关内容进行检索,突破了单一索引的局限性,使得检索结果更全面、更具体,并对检索结果进行过滤处理和排名处理,降低了无效文档对检索结果的干扰,提升了检索结果的准确性和检索效率。
图3为本申请提供的查询语句的检索处理方法的流程示意图二,如图3所示,本实施例在图2实施例的基础上,在上述步骤S201中的在获取多层索引之前,还包括:
S301、获取多个文本数据;其中,文本数据包括学术论文数据、技术报告数据和科普文章数据。
在本实施例中,文本数据为与查询语句相关的数据,举例来说,若文本数据包括与量子计算相关的学术论文数据、技术报告数据和科普文章数据。
S302、对文本数据进行数据预处理,以得到词汇数据。
可选地,对文本数据进行数据预处理,以得到词汇数据,包括:
对文本数据进行分词处理,以得到第一词语数据。
在本实施例中,采用分词工具,将连续的文本数据分割为第一词语数据;举例来说,若连续的文本数据中的句子为:“量子计算利用量子比特的叠加态实现高效的计算工程”,则采用分词工具对此句子进行分词处理,得到的第一词语数据包括:量子计算、利用、量子比特、的、叠加态、实现、高效、的、计算、过程。
对第一词语数据进行词频过滤处理,以得到第二词语数据。
在本实施例中,通过预设的通用停用词表,以及预设的专业领域的特定停用词表,对第一词语数据进行词频过滤处理,以过滤第一词语数据中的通用停用词,和专业领域中常见的高频无关键信息词汇。
举例来说,预设的专业领域的特定停用词表为量子计算领域特定的停用词表,通用停用词表包括“的、是、在”等无实质意义的停用词,量子计算领域特定的停用词表包括“一般来说、通常情况下”等高频无关键信息词汇。
对第二词语数据进行词干提取处理,以得到词汇数据。
在本实施例中,采用波特词干提取算法,对第二词语数据进行词干提取处理,以将第二词语数据中的单词还原为对应的词干形式,以降低词汇的形态变化对检索的影响。
S303、根据词汇数据,对多个文本数据进行知识切片处理,以得到知识切片数据;其中,知识切片数据包括章节数据、段落数据和语义块数据。
可选地,根据词汇数据,对多个文本数据进行知识切片处理,以得到知识切片数据,包括:
根据词汇数据和文档解析工具,提取文本数据中的章节数据和段落数据。
在本实施例中,举例来说,若文本数据为PDF格式(Portable Document Format,便携式文档格式),则采用PyPDF2(一种用于处理PDF文档的工具包)工具,提取文本数据中的章节标题和段落内容,并结合正则表达式识别章节标题的格式,以确定章节边界,从而准确地提取文本数据中的章节数据和段落数据。
根据文本数据中的标点符号,对文本数据进行切分处理,以得到切分后文本数据。
在本实施例中,基于文本数据中的标点符号,对文本数据进行初级切分处理,其中,标点符号包括:问号、感叹号、句号、分号、冒号;得到初步文本片段序列,然后对初步文本片段序列进行切分结果消歧和修正,包括对缩写词、数字、日期、版本号的消歧,以及对引号或括号中的句子,标题和符号进行修正,使其对应的文本为一个整体文本。
根据预训练的大语言模型,对切分后文本数据进行语义块识别处理,以得到多个语义文本块。
在本实施例中,根据预训练的大语言模型,对切分后文本数据进行嵌入,以使切分后的文本数据映射至语义空间中,并采用余弦相似度聚类,将切分后的文本数据中相似度高于预设的相似阈值的语句归类为一个语义文本块,从而得到不同的多个语义文本块。
对语义文本块添加标识信息,以得到语义块数据。
在本实施例中,采用MD5(Message-Digest Algorithm 5,密码散列函数)哈希算法,对不同的语义文本块生成对应的唯一标识,从而为不同的语义文本块提供存储和检索操作。
S304、根据知识切片数据,生成结构化存储信息。
可选地,根据知识切片数据,生成结构化存储信息,包括:
根据章节数据、段落数据和语义块数据,建立知识切片映射关系。
在本实施例中,将章节数据,该章节数据下的各个段落数据,以及与段落数据对应的语义块数据进行关联存储,以建立知识切片映射关系,从而提升检索效率。
为知识切片映射关系添加元数据信息,以得到结构化存储信息;其中,元数据信息包括来源、时间戳和领域标签中的多个。
在本实施例中,来源包括文献名称、网站域名,时间戳包括文本数据的发布时间、采集时间,领域标签包括与文本数据对应的专业领域,例如“量子计算”。
S305、根据结构化存储信息,构建多层索引。
在本实施例中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引。
其中,基于文本结构索引包括章节主题索引和段落主题索引。
对于具有章节结构的文本数据,通过对章节标题、章节开头段落、章节结尾段落和高频专业词汇进行综合分析,以确定章节主题,并将章节主题转化为语义向量进行索引,从而得到章节主题索引,其中,高频专业词汇是指出现频率大于预设的频率的专业词汇。
举例来说,高频专业词汇包括量子比特、量子门、纠缠态;若文本数据的章节标题为“量子计算的核心算法”,结合章节的段落数据进行分析,确定主题为“量子计算算法原理及应用”。
对于不具有章节结构的文本数据,则将整个文本数据作为一个章节,并进行分析,以确定章节主题,并将章节主题转化为语义向量进行索引,从而得到章节主题索引。
采用文本排序算法分别提取每一段落中的关键句作为段落主题,将段落主题转化为语义向量,以得到段落主题索引。
举例来说,在一段关于量子比特的段落中,文本排序算法将“量子比特是量子计算的基本单元,它具有独特的叠加态和纠缠特性”这一句子作为段落主题,然后将段落主题转化为语义向量,以得到对应的段落主题索引。
基于文本语义索引包括语义主题索引和语义问题索引。
根据预设的大语言模型,为语义文本块生成一个语义主题和一个语义问题,分别将语义主题和语义问题转化为语义向量,以构建对应的语义主题索引和语义问题索引,例如,对于一个关于量子门操作的语义文本块,生成的语义主题为“量子门在量子计算中的作用机制”,生成的语义问题为“量子门如何实现量子比特的状态转换?”,再分别将生成的语义主题和语义问题转化为对应的语义向量,从而得到对应的语义主题索引和语义问题索引。
基于文本单元索引包括语义文本关键词索引和语义文本向量索引。
根据知识切片映射关系,将章节主题和段落主题融合至语义文本块,得到融合后的语义文本块,对融合后的语义文本块进行分词和关键词提取,采用TF-IDF算法确定关键词的重要性权重,以建立语义文本关键词索引。
举例来说,对于一个融合了量子计算算法和量子比特相关主题的语义文本块,提取出对应的关键词,其中,对应的关键词包括量子算法、量子比特、计算效率;根据关键词在文本数据中的出现频率和重要性来确定权重,选取权重最大的预设数量个关键词,作为语义文本关键词索引。
进一步地,将语义文本关键词转化为语义向量,以建立对应的语义文本向量索引。
本申请实施例提供的查询语句的检索处理,通过对获取到的文本数据进行预处理,得到词汇数据;对词汇数据进行知识切片处理,得到知识切片数据,以生成结构化存储信息,从而构建多层索引;使得检索时能够快速定位到相关内容,减少无关信息干扰,并且还能捕捉深层语义关联,提升检索的语义匹配度,且结构化存储信息支持多源异构文本整合,提升了系统的通用性和扩展性,多层索引还适用于大规模的文本数据处理,提升了在复杂场景下的检索效率和准确性。
图4为本申请提供的查询语句的检索处理方法的流程示意图三,如图4所示,本实施例在图2实施例的基础上,对上述步骤S203中的根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集进行详细说明,该方法包括:
S401、根据查询语句,生成查询向量。
在本实施例中,采用预设的大语言模型,将查询语句转化为查询向量。
S402、根据查询向量和多层索引,进行语义相似度检索,以得到语义检索结果集。
在本实施例中,采用Milvus索引计算查询向量与语义文本块转化的向量的余弦相似度,并结合多层索引中对应的语义向量进行相似度计算,根据计算结果进行综合筛选,以返回相似度最高的预设数量个文本块,将预设数量个文本块组成集合,以得到语义检索结果集。
S403、根据查询语句,生成查询关键词集合。
在本实施例中,提取查询语句中的查询关键词,例如,查询语句为“量子计算的基本原理是什么?”,则提取到的查询关键词包括:量子计算、基本原理;通过查询关键词,采用基于BM25的检索器和倒排索引,获取融合了查询关键词的语义文本块,将获取到的语义文本块组成集合,以得到查询关键词集合。
S404、根据查询关键词集合和多层索引,进行关键词匹配检索,以得到关键词检索结果集。
在本实施例中,根据查询关键词集合,灵活地选择和使用多层索引进行关键词匹配检索,得到关键词检索结果集,以提升检索效率和准确性。
可选地,可以根据查询关键词集合与多层索引中的至少一种索引进行关键词匹配检索,得到对应的关键词检索结果,并将所有的关键词检索结果组成集合,以得到对应的关键词检索结果集。
本申请提供的查询语句的检索处理方法,通过查询语句生成查询向量,并结合多层索引进行语义相似度检索,得到语义检索结果集;从查询语句中提取查询关键词,生成查询关键词集合,结合多层索引,进行关键词匹配检索,得到关键词检索结果集,提升了检索结果的准确性和召回率,增强了用户的使用体验,并保障了检索的效率和性能。
图5为本申请提供的查询语句的检索处理方法的流程示意图四,如图5所示,本实施例在图2实施例的基础上,在上述步骤S201中的获取查询语句之前,还包括构建预设的语料库,其中,构建预设的语料库,包括:
S501、获取待处理语料。
S502、对待处理语料进行数据预处理,以得到预处理后语料。
在本实施例中,预处理包括分词、去除停用词、词干提取。
举例来说,采用分词工具对待处理语料进行处理,将连续的文本分割成有意义的词语单元;根据预设的通用停用词表以及预设的专业领域的特定停用词表,去除如“的”、“是”、“在”等无实质意义的停用词和专业领域内常见的高频无关键信息词汇;采用波特词干提取算法将单词还原为其词干形式,减少词汇的形态变化对检索的影响。
S503、对预处理后语料进行知识切片处理,以得到知识单元。
在本实施例中,知识切片处理是指将大规模非结构化文档划分为可管理的知识单元,其中,知识单元包括章节、段落和语义块。
举例来说,使用文档解析工具提取预处理后语料中的章节标题和段落内容。结合正则表达式识别章节标题的格式,以确定章节边界;将待处理语料按标点符号切分为最细粒度的文本语句,然后使用预设的大语言模型对文本语句进行嵌入,将文本语句映射到语义空间中;最后基于语义相似度聚类,将相似度高于预设的相似度阈值的文本语句归为一个语义文本块,并使用哈希算法生成唯一标识,方便后续的存储和检索操作。
S504、根据知识单元,确定结构化存储数据;其中,知识单元的映射关系和知识单元的元信息。
在本实施例中,将切片后的知识单元建立相应的映射关系,其中,映射关系为章节-段落-语义块,按照映射关系,对数据进行存储,且每段数据附加元信息,其中,元信息包括来源、时间戳、领域标签,为后续的筛选和检索提供多维度的信息支持,以支持快速检索。
进一步地,本实施例所构建的预设的语料库,为本申请查询语句的检索处理方法提供了文本数据,如图6所示,通过预设的语料库构建、索引构建,以进行多路检索,最终将检索结果进行汇总排名,实现对用户问题的高效检索;其中,语料库构建包括数据预处理、知识切片和结构化存储,索引构建包括基于文本结构索引、基于文本语义索引和基于文本单元索引,多路检索包括语义向量检索和关键词检索,汇总排名包括过滤和重排。
图7为本申请提供的查询语句的检索处理装置的结构示意图,如图7所示,本实施例提供的查询语句的检索处理装置包括:
第一获取模块701,用于获取查询语句。
第二获取模块702,用于获取多层索引;其中,多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引。
可选地,基于文本结构索引包括章节主题索引和段落主题索引。
基于文本语义索引包括语义主题索引和语义问题索引。
基于文本单元索引包括语义文本关键词索引和语义文本向量索引。
检索模块703,用于根据查询语句和多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,语义检索结果集和关键词检索结果集中均包括多个文档块。
过滤模块704,用于对语义检索结果集和关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,过滤后检索结果集中包括多个过滤文档块。
排名模块705,用于对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,目标文档块候选集用于为查询语句的回答语句生成提供上下文提示。
在一种可能的实现方式中,在获取多层索引之前,查询语句的检索处理装置还包括:
第三获取模块,用于获取多个文本数据;其中,文本数据包括学术论文数据、技术报告数据和科普文章数据。
预处理模块,对文本数据进行数据预处理,以得到词汇数据。
知识切片模块,用于根据词汇数据,对多个文本数据进行知识切片处理,以得到知识切片数据;其中,知识切片数据包括章节数据、段落数据和语义块数据。
生成模块,用于根据知识切片数据,生成结构化存储信息。
构建模块,用于根据结构化存储信息,构建多层索引。
在一种可能的实现方式中,预处理模块具体还可以用于:
对文本数据进行分词处理,以得到第一词语数据;
对第一词语数据进行词频过滤处理,以得到第二词语数据;
对第二词语数据进行词干提取处理,以得到词汇数据。
在一种可能的实现方式中,知识切片模块具体还可以用于:
根据词汇数据和文档解析工具,提取文本数据中的章节数据和段落数据;
根据文本数据中的标点符号,对文本数据进行切分处理,以得到切分后文本数据;
根据预训练的大语言模型,对切分后文本数据进行语义块识别处理,以得到多个语义文本块;
对语义文本块添加标识信息,以得到语义块数据。
在一种可能的实现方式中,生成模块具体还可以用于:
根据章节数据、段落数据和语义块数据,建立知识切片映射关系;
为知识切片映射关系添加元数据信息,以得到结构化存储信息;其中,元数据信息包括来源、时间戳和领域标签中的多个。
在一种可能的实现方式中,检索模块703具体还可以用于:
根据查询语句,生成查询向量;
根据查询向量和多层索引,进行语义相似度检索,以得到语义检索结果集;
根据查询语句,生成查询关键词集合;
根据查询关键词集合和多层索引,进行关键词匹配检索,以得到关键词检索结果集。
在一种可能的实现方式中,在对过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集之后,查询语句的检索处理装置还包括:
输入模块,用于将目标文档块候选集和查询语句输入至预设的大语言模型。
确定模块,用于根据预设的大语言模型的输出结果,确定查询语句对应的回答语句。
本实施例提供的查询语句的检索处理装置,可执行上述方法实施例提供的方法,其实现原理和技术效果类似,本实施例此处不做赘述。
图8为本申请提供的查询语句的检索处理装置的结构示意图。如图8所示,本实施例提供的查询语句的检索处理装置包括:至少一个处理器801和存储器802。可选地,查询语句的检索处理装置还包括通信部件803。其中,处理器801、存储器802以及通信部件803通过总线804连接。
在具体实现过程中,至少一个处理器801执行存储器802存储的计算机执行指令,使得至少一个处理器801执行上述的方法。
处理器801的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory,NVM),例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现上述的方法。
上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段,并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种查询语句的检索处理方法,其特征在于,包括:
获取查询语句;
获取多层索引;其中,所述多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;
根据所述查询语句和所述多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,所述语义检索结果集和所述关键词检索结果集中均包括多个文档块;
对所述语义检索结果集和所述关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,所述过滤后检索结果集中包括多个过滤文档块;
对所述过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,所述目标文档块候选集用于为所述查询语句的回答语句生成提供上下文提示。
2.根据权利要求1所述的方法,其特征在于,所述基于文本结构索引包括章节主题索引和段落主题索引;
所述基于文本语义索引包括语义主题索引和语义问题索引;
所述基于文本单元索引包括语义文本关键词索引和语义文本向量索引。
3.根据权利要求2所述的方法,其特征在于,在所述获取多层索引之前,还包括:
获取多个文本数据;其中,所述文本数据包括学术论文数据、技术报告数据和科普文章数据;
对所述文本数据进行数据预处理,以得到词汇数据;
根据所述词汇数据,对所述多个文本数据进行知识切片处理,以得到知识切片数据;其中,所述知识切片数据包括章节数据、段落数据和语义块数据;
根据所述知识切片数据,生成结构化存储信息;
根据所述结构化存储信息,构建多层索引。
4.根据权利要求3所述的方法,其特征在于,所述对所述文本数据进行数据预处理,以得到词汇数据,包括:
对所述文本数据进行分词处理,以得到第一词语数据;
对所述第一词语数据进行词频过滤处理,以得到第二词语数据;
对所述第二词语数据进行词干提取处理,以得到词汇数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述词汇数据,对所述多个文本数据进行知识切片处理,以得到知识切片数据,包括:
根据所述词汇数据和文档解析工具,提取所述文本数据中的章节数据和段落数据;
根据所述文本数据中的标点符号,对所述文本数据进行切分处理,以得到切分后文本数据;
根据预训练的大语言模型,对所述切分后文本数据进行语义块识别处理,以得到多个语义文本块;
对所述语义文本块添加标识信息,以得到语义块数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述知识切片数据,生成结构化存储信息,包括:
根据所述章节数据、所述段落数据和所述语义块数据,建立知识切片映射关系;
为所述知识切片映射关系添加元数据信息,以得到结构化存储信息;其中,所述元数据信息包括来源、时间戳和领域标签中的多个。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述查询语句和所述多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集,包括:
根据所述查询语句,生成查询向量;
根据所述查询向量和所述多层索引,进行语义相似度检索,以得到语义检索结果集;
根据所述查询语句,生成查询关键词集合;
根据所述查询关键词集合和所述多层索引,进行关键词匹配检索,以得到关键词检索结果集。
8.根据权利要求1至6任一项所述的方法,其特征在于,在所述对所述过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集之后,还包括:
将所述目标文档块候选集和所述查询语句输入至预设的大语言模型;
根据所述预设的大语言模型的输出结果,确定所述查询语句对应的回答语句。
9.一种查询语句的检索处理装置,其特征在于,包括:
第一获取模块,用于获取查询语句;
第二获取模块,用于获取多层索引;其中,所述多层索引包括基于文本结构索引、基于文本语义索引和基于文本单元索引;
检索模块,用于根据所述查询语句和所述多层索引,进行语义相似度检索和关键词匹配检索,以得到语义检索结果集和关键词检索结果集;其中,所述语义检索结果集和所述关键词检索结果集中均包括多个文档块;
过滤模块,用于对所述语义检索结果集和所述关键词检索结果集进行重复文档块过滤处理,以得到过滤后检索结果集;其中,所述过滤后检索结果集中包括多个过滤文档块;
排名模块,用于对所述过滤后检索结果集中的过滤文档块进行排名处理,以得到目标文档块候选集;其中,所述目标文档块候选集用于为所述查询语句的回答语句生成提供上下文提示。
10.一种查询语句的检索处理设备,其特征在于,包括:存储器,处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。
CN202511248214.5A 2025-09-02 2025-09-02 查询语句的检索处理方法、装置、设备、介质及程序产品 Pending CN121188178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202511248214.5A CN121188178A (zh) 2025-09-02 2025-09-02 查询语句的检索处理方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202511248214.5A CN121188178A (zh) 2025-09-02 2025-09-02 查询语句的检索处理方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN121188178A true CN121188178A (zh) 2025-12-23

Family

ID=98082579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202511248214.5A Pending CN121188178A (zh) 2025-09-02 2025-09-02 查询语句的检索处理方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN121188178A (zh)

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
US8335787B2 (en) Topic word generation method and system
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法
US20160292153A1 (en) Identification of examples in documents
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
WO2019116253A1 (en) Supporting evidence retrieval for complex answers
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
CN113761125B (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
US20250061139A1 (en) Systems and methods for semantic search scoping
CN118503454B (zh) 一种数据查询方法、设备、存储介质及计算机程序产品
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN114547233B (zh) 数据查重方法、装置及电子设备
CN111753052A (zh) 提供针对知识意图问题的知识性回答
CN120508631A (zh) 文档搜索方法、装置、电子设备及存储介质
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same
US20240119547A1 (en) Generating legal research recommendations from an input data source
CN119378672A (zh) 面向专业领域的问答知识数据库构建方法、装置、设备及介质
CN121188178A (zh) 查询语句的检索处理方法、装置、设备、介质及程序产品
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination