[go: up one dir, main page]

CN117874218A - 基于大模型的摘要生成方法、装置、设备及存储介质 - Google Patents

基于大模型的摘要生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117874218A
CN117874218A CN202410014812.5A CN202410014812A CN117874218A CN 117874218 A CN117874218 A CN 117874218A CN 202410014812 A CN202410014812 A CN 202410014812A CN 117874218 A CN117874218 A CN 117874218A
Authority
CN
China
Prior art keywords
attribute
text
paragraph
large model
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410014812.5A
Other languages
English (en)
Inventor
张向征
刘红宇
魏其学
林伟家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN202410014812.5A priority Critical patent/CN117874218A/zh
Publication of CN117874218A publication Critical patent/CN117874218A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息整合技术领域,公开了一种基于大模型的摘要生成方法、装置、设备及存储介质,该方法包括:按照文本分段策略对文章文本进行分段,得到段落集合;通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。本发明通过大模型对段落集合进行属性抽取以及信息整合,生成文章文本的文本摘要,解决了信息量大,导致信息阅读获知效率低的问题,实现对大量信息的整合,提升信息处理和获知效率。

Description

基于大模型的摘要生成方法、装置、设备及存储介质
技术领域
本发明涉及信息整合技术领域,尤其涉及一种基于大模型的摘要生成方法、装置、设备及存储介质。
背景技术
在当今这个信息爆炸的时代,人们需要处理的信息量越来越大,信息阅读获知效率成为了当下关注的焦点,然而,信息量过大,会导致信息阅读获知效率低下。
发明内容
本发明的主要目的在于提供一种基于大模型的摘要生成方法、装置、设备及存储介质,旨在解决现有技术信息量大,导致信息阅读获知效率低的技术问题。
为实现上述目的,本发明提供了一种基于大模型的摘要生成方法,所述方法包括以下步骤:
按照文本分段策略对文章文本进行分段,得到段落集合;
通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
可选地,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合,包括:
通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;
基于所述属性以及对应的属性值确定属性集合。
可选地,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值,包括:
将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;
将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
可选地,所述基于所述属性以及对应的属性值确定属性集合,包括:
基于所述属性以及对应的属性值构建对应的属性-属性值关系对;
通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
可选地,所述基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要,包括:
对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;
根据所述各个属性的出现频率确定目标属性;
根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
可选地,所述根据所述各个属性的出现频率确定目标属性,包括:
根据所述各个属性的出现频率对所述属性集合中的属性进行排序,得到属性序列;
根据所述属性序列确定目标属性。
可选地,所述根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要,包括:
将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;
将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
可选地,所述按照文本分段策略对文章文本进行分段,得到段落集合,包括:
获取文章集合;
对所述文章集合中的各篇文章进行解析,得到各个文章文本;
按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
可选地,所述按照文本分段策略对文章文本进行分段,得到段落集合之前,还包括:
获取多个拆分条件;
基于所述多个拆分条件组成文本分段策略。
可选地,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合之后,还包括:
判断文章集合中的文章是否遍历完成;
在所述文章集合中的文章未遍历完成时,执行所述对所述文章集合中的各篇文章进行解析,得到各个文章文本的步骤。
此外,为实现上述目的,本发明还提出一种基于大模型的摘要生成装置,所述基于大模型的摘要生成装置包括:
分段模块,用于按照文本分段策略对文章文本进行分段,得到段落集合;
抽取模块,用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
整合模块,用于基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
可选地,所述抽取模块,还用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;
基于所述属性以及对应的属性值确定属性集合。
可选地,所述抽取模块,还用于将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;
将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
可选地,所述抽取模块,还用于基于所述属性以及对应的属性值构建对应的属性-属性值关系对;
通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
可选地,所述整合模块,还用于对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;
根据所述各个属性的出现频率确定目标属性;
根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
可选地,所述整合模块,还用于根据所述出现频率对所述属性集合中的属性进行排序,得到属性序列;
根据所述属性序列确定目标属性。
可选地,所述整合模块,还用于将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;
将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
可选地,所述分段模块,还用于获取文章集合;
对所述文章集合中的各篇文章进行解析,得到各个文章文本;
按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
此外,为实现上述目的,本发明还提出一种基于大模型的摘要生成设备,所述基于大模型的摘要生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大模型的摘要生成程序,所述基于大模型的摘要生成程序配置为实现如上文所述的基于大模型的摘要生成方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于大模型的摘要生成程序,所述基于大模型的摘要生成程序被处理器执行时实现如上文所述的基于大模型的摘要生成方法的步骤。
本发明通过按照文本分段策略对文章文本进行分段,得到段落集合;通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。通过上述方式,通过大模型对段落集合进行属性抽取以及信息整合,生成文章文本的文本摘要,解决了信息量大,导致信息阅读获知效率低的问题,实现对大量信息的整合,提升信息处理和获知效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于大模型的摘要生成设备的结构示意图;
图2为本发明基于大模型的摘要生成方法第一实施例的流程示意图;
图3为本发明基于大模型的摘要生成方法第二实施例的流程示意图;
图4为本发明基于大模型的摘要生成方法一实施例的整体流程图;
图5为本发明基于大模型的摘要生成装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于大模型的摘要生成设备结构示意图。
如图1所示,该基于大模型的摘要生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于大模型的摘要生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大模型的摘要生成程序。
在图1所示的基于大模型的摘要生成设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于大模型的摘要生成设备中的处理器1001、存储器1005可以设置在基于大模型的摘要生成设备中,所述基于大模型的摘要生成设备通过处理器1001调用存储器1005中存储的基于大模型的摘要生成程序,并执行本发明实施例提供的基于大模型的摘要生成方法。
本发明实施例提供了一种基于大模型的摘要生成方法,参照图2,图2为本发明基于大模型的摘要生成方法第一实施例的流程示意图。
本实施例中,所述基于大模型的摘要生成方法包括以下步骤:
步骤S10:按照文本分段策略对文章文本进行分段,得到段落集合。
需要说明的是,本实施例中的执行主体为基于大模型的摘要生成设备,还可以为其他功能相同或相似的设备,本实施例对此不作具体限制,本实施例以基于大模型的摘要生成设备为例进行说明。
可以理解的是,文本分段策略用于将一篇文章按照一定的规则划分成若干段落,以提高文本的可读性和理解性。文本分段策略可以根据段落的主题、时间顺序、空间关系等进行分段,也可以根据特定的关键词、标点符号等来进行分段,本实施例对此不作具体限制。
进一步地,为了提高文本处理效率,所述按照文本分段策略对文章文本进行分段,得到段落集合,包括:获取文章集合;对所述文章集合中的各篇文章进行解析,得到各个文章文本;按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
需要说明的是,段落集合即PARAGRAPH_SET集合,指的是包含多个段落的集合。段落集合中的每个元素都是一个段落,可以是从不同文章或来源中提取的文本段,段落通常是文本的逻辑单元,通常包含一个或多个句子,表达一个完整的思想或主题。
可以理解的是,解析文档内容,并按照文本分段策略进行分段,得到PARAGRAPH_SET集合;其中文本分段策略会影响到每个段的内容,进而影响到大模型实体抽取效果。
进一步地,为了提高分段准确性,所述按照文本分段策略对文章文本进行分段,得到段落集合之前,还包括:获取多个拆分条件;基于所述多个拆分条件组成文本分段策略。
需要说明的是,拆分条件,例如,限制在某些字数,200字左右为宜;分段避免分到两个自然段落,尽量保持在一个段落内;分段结束位置在一个句子中间,就将该句子包含进来,避免将一个自然句切开等,本实施例对此不作具体限制。
步骤S20:通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合。
需要说明的是,大模型指的是在机器学习和深度学习领域中参数规模庞大、能够处理大量数据的模型,例如,GPT、BERT以及其他常见大模型等,本实施例对此不作具体限制。
可以理解的是,将段落集合中的各个段落分别输入至大模型进行属性抽取,根据属性抽取结果最终生成一个属性集合。
进一步地,为了提高数据处理效率,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合,包括:通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;基于所述属性以及对应的属性值确定属性集合。
需要说明的是,属性集合即ATTRIBUTE_SET集合,包括从文本中抽取的属性及其对应的值的集合。属性可以是文本中描述的某个特征、性质或信息,而对应的值是与该属性相关联的具体数值、描述或其他信息。
可以理解的是,通过大模型可以自动分析各个段落的文本,识别关键属性及其对应的属性值,从而实现对信息的自动化提取,有助于处理大量文本数据,提高工作效率。
值得说明的是,通过将属性与对应的属性值关联起来,形成结构化的信息,使得信息更容易被理解和利用,有助于进一步的分析、可视化或存储。
进一步地,为了提高属性提取的准确性,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值,包括:将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
需要说明的是,预设实体文本是指用户指定的实体文本。预设抽取模板是指预置的抽取Prompt模版,Prompt模板指的是一种预定义的文本结构,其中包含占位符或变量,以便根据实际输入进行填充。在自然语言处理任务中,Prompt模板通常用于构建向模型提问的查询或请求。
在具体实现中,将PARAGRAPH_SET集合中每个段落结合用户指定的实体,分别填充到预置的抽取Prompt模版中,将填充后的每个段落对应Prompt,分别输入给大模型,抽取和实体相关的<属性:属性值>。
进一步地,为了优化查询,所述基于所述属性以及对应的属性值确定属性集合,包括:基于所述属性以及对应的属性值构建对应的属性-属性值关系对;通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
需要说明的是,属性-属性值关系对有助于捕捉语义关联,将相关属性值与属性关联起来,可以更有效地执行搜索和过滤操作,提高效率。
进一步地,为了提高信息提取完整性,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合之后,还包括:判断文章集合中的文章是否遍历完成;在所述文章集合中的文章未遍历完成时,执行所述对所述文章集合中的各篇文章进行解析,得到各个文章文本的步骤。
需要说明的是,判断是否处理完成文章集合中的所有文章,若未处理完成,则重新对文章集合中的各篇文章进行解析并分段,若已完成,则统计重点属性,从而生成所述文章文本的文本摘要。
步骤S30:基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
需要说明的是,文本摘要包括文章文本的重点属性,通过大模型进行信息整合,从而归纳重点属性,并根据重点属性生成一篇文本摘要,大幅度提升用户的信息获知效率。
本实施例通过按照文本分段策略对文章文本进行分段,得到段落集合;通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。通过上述方式,通过大模型对段落集合进行属性抽取以及信息整合,生成文章文本的文本摘要,解决了信息量大,导致信息阅读获知效率低的问题,实现对大量信息的整合,提升信息处理和获知效率。
参考图3,图3为本发明基于大模型的摘要生成方法第二实施例的流程示意图。
基于上述第一实施例,本实施例基于大模型的摘要生成方法中所述步骤S30,包括:
步骤S301:对所述属性集合中的各个属性进行统计,得到各个属性的出现频率。
需要说明的是,基于ATTRIBUTE_SET集合,对抽取出的属性进行统计,计算每个属性出现的频率,得到各个属性的出现频率。
在具体实现中,遍历包含属性和对应值的属性集合,对每个属性进行计数,记录出现频率。
步骤S302:根据所述各个属性的出现频率确定目标属性。
需要说明的是,目标属性即重点属性,指的是与实体相关性较高的属性,有助于了解文字的重点信息。
进一步地,为了提高属性准确性,所述根据所述各个属性的出现频率确定目标属性,包括:根据所述各个属性的出现频率对所述属性集合中的属性进行排序,得到属性序列;根据所述属性序列确定目标属性。
需要说明的是,按照出现频率对属性集合中的属性由大到小进行排序,选择TopK个属性作为重点属性,即目标属性。
步骤S303:根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
需要说明的是,将统计后TopK重点属性及其对应的属性值分别进行填充处理,并输入至大模型,从而生成文章文本的文本摘要。
进一步地,为了提高摘要生成效率,所述根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要,包括:将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
需要说明的是,使用统计后TopK重点属性及其对应的属性值,填充到预置的摘要生成Prompt模版中,即将重点属性和对应的属性值填充至摘要生成Prompt模板的占位符位置,生成填充后的摘要生成Prompt模板,将填充后的摘要生成Prompt模板输入给大模型,生成一篇摘要。
如图4所示,图4为本实施例基于大模型的摘要生成方法的整体流程图,判断是否处理完文章集合所有文章;若未处理完成,则从文字集合中获取一篇新文章,并解析文章文本内容;按照分段策略对文本分段,得到PARAGRAPH_SET集合;结合用户指定实体文本和PARAGRAPH_SET中每个段落分别填充到预置的抽取Prompt模板中;将填充每个段落Prompt,分别输入给大模型,抽取文章的属性、属性值;将当前文档抽取的属性、属性值加入到ATTRIBUTE_SET集合中;重新判断是否处理完文章集合所有文章,直至文章集合所有文章处理完成。若处理完成,则结合ATTRIBUTE_SET和文档集合统计TopK重点属性;使用TopK重要属性和属性值,填充到预置的摘要生成Prompt模板中;将填充后的摘要生成Prompt输入给大模型,生成一篇摘要。
本实施例通过对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;根据所述各个属性的出现频率确定目标属性;根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。通过上述方式,根据属性集合中属性的出现频率确定重点属性,从而生成文章文本的文本摘要,实现信息整合,提升用户获知重点信息的效率。
参照图5,图5为本发明基于大模型的摘要生成装置第一实施例的结构框图。
如图5所示,本发明实施例提出的基于大模型的摘要生成装置包括:
分段模块10,用于按照文本分段策略对文章文本进行分段,得到段落集合。
抽取模块20,用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合。
整合模块30,用于基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
本实施例通过按照文本分段策略对文章文本进行分段,得到段落集合;通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。通过上述方式,通过大模型对段落集合进行属性抽取以及信息整合,生成文章文本的文本摘要,解决了信息量大,导致信息阅读获知效率低的问题,实现对大量信息的整合,提升信息处理和获知效率。
在一实施例中,所述抽取模块20,还用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;基于所述属性以及对应的属性值确定属性集合。
在一实施例中,所述抽取模块20,还用于将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
在一实施例中,所述抽取模块20,还用于基于所述属性以及对应的属性值构建对应的属性-属性值关系对;通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
在一实施例中,所述整合模块30,还用于对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;根据所述各个属性的出现频率确定目标属性;根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
在一实施例中,所述整合模块30,还用于根据所述出现频率对所述属性集合中的属性进行排序,得到属性序列;根据所述属性序列确定目标属性。
在一实施例中,所述整合模块30,还用于将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
在一实施例中,所述分段模块30,还用于获取文章集合;对所述文章集合中的各篇文章进行解析,得到各个文章文本;按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
在一实施例中,所述分段模块30,还用于获取多个拆分条件;基于所述多个拆分条件组成文本分段策略。
在一实施例中,所述抽取模块20,还用于判断文章集合中的文章是否遍历完成;在所述文章集合中的文章未遍历完成时,执行所述对所述文章集合中的各篇文章进行解析,得到各个文章文本的步骤。
此外,为实现上述目的,本发明还提出一种基于大模型的摘要生成设备,所述基于大模型的摘要生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大模型的摘要生成程序,所述基于大模型的摘要生成程序配置为实现如上文所述的基于大模型的摘要生成方法的步骤。
由于本基于大模型的摘要生成设备采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于大模型的摘要生成程序,所述基于大模型的摘要生成程序被处理器执行时实现如上文所述的基于大模型的摘要生成方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于大模型的摘要生成方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种基于大模型的摘要生成方法,所述方法包括:
按照文本分段策略对文章文本进行分段,得到段落集合;
通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
A2、如A1所述的方法,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合,包括:
通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;
基于所述属性以及对应的属性值确定属性集合。
A3、如A2所述的方法,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值,包括:
将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;
将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
A4、如A2所述的方法,所述基于所述属性以及对应的属性值确定属性集合,包括:
基于所述属性以及对应的属性值构建对应的属性-属性值关系对;
通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
A5、如A1所述的方法,所述基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要,包括:
对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;
根据所述各个属性的出现频率确定目标属性;
根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
A6、如A5所述的方法,所述根据所述各个属性的出现频率确定目标属性,包括:
根据所述各个属性的出现频率对所述属性集合中的属性进行排序,得到属性序列;
根据所述属性序列确定目标属性。
A7、如A5所述的方法,所述根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要,包括:
将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;
将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
A8、如A1所述的方法,所述按照文本分段策略对文章文本进行分段,得到段落集合,包括:
获取文章集合;
对所述文章集合中的各篇文章进行解析,得到各个文章文本;
按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
A9、如A8所述的方法,所述按照文本分段策略对文章文本进行分段,得到段落集合之前,还包括:
获取多个拆分条件;
基于所述多个拆分条件组成文本分段策略。
A10、如A8所述的方法,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合之后,还包括:
判断文章集合中的文章是否遍历完成;
在所述文章集合中的文章未遍历完成时,执行所述对所述文章集合中的各篇文章进行解析,得到各个文章文本的步骤。
本发明公开了11、一种基于大模型的摘要生成装置,所述基于大模型的摘要生成装置包括:
分段模块,用于按照文本分段策略对文章文本进行分段,得到段落集合;
抽取模块,用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
整合模块,用于基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
12、如B11所述的装置,所述抽取模块,还用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;
基于所述属性以及对应的属性值确定属性集合。
13、如B12所述的装置,所述抽取模块,还用于将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;
将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
14、如B12所述的装置,所述抽取模块,还用于基于所述属性以及对应的属性值构建对应的属性-属性值关系对;
通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
15、如B11所述的装置,所述整合模块,还用于对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;
根据所述各个属性的出现频率确定目标属性;
根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
16、如B15所述的装置,所述整合模块,还用于根据所述出现频率对所述属性集合中的属性进行排序,得到属性序列;
根据所述属性序列确定目标属性。
17、如B15所述的装置,所述整合模块,还用于将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;
将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
18、如B11所述的装置,所述分段模块,还用于获取文章集合;
对所述文章集合中的各篇文章进行解析,得到各个文章文本;
按照所述文本分段策略对所述各个文章文本进行分段,得到段落集合。
本发明公开了19、一种基于大模型的摘要生成设备,所述基于大模型的摘要生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大模型的摘要生成程序,所述基于大模型的摘要生成程序配置为实现如上所述的基于大模型的摘要生成方法。
本发明公开了20、一种存储介质,所述存储介质上存储有基于大模型的摘要生成程序,所述基于大模型的摘要生成程序被处理器执行时实现如上所述的基于大模型的摘要生成方法。

Claims (10)

1.一种基于大模型的摘要生成方法,其特征在于,所述方法包括:
按照文本分段策略对文章文本进行分段,得到段落集合;
通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
2.如权利要求1所述的方法,其特征在于,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合,包括:
通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值;
基于所述属性以及对应的属性值确定属性集合。
3.如权利要求2所述的方法,其特征在于,所述通过大模型对所述段落集合中的各个段落分别进行属性抽取,得到属性以及对应的属性值,包括:
将所述段落集合中的各个段落和预设实体文本分别填充到预设抽取模板中,得到填充后的各个段落对应抽取模板;
将所述填充后的各个段落对应抽取模板分别输入至大模型,并接收所述大模型反馈的属性以及对应的属性值。
4.如权利要求2所述的方法,其特征在于,所述基于所述属性以及对应的属性值确定属性集合,包括:
基于所述属性以及对应的属性值构建对应的属性-属性值关系对;
通过所述属性-属性值关系对更新预设初始集合,得到属性集合。
5.如权利要求1所述的方法,其特征在于,所述基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要,包括:
对所述属性集合中的各个属性进行统计,得到各个属性的出现频率;
根据所述各个属性的出现频率确定目标属性;
根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要。
6.如权利要求5所述的方法,其特征在于,所述根据所述各个属性的出现频率确定目标属性,包括:
根据所述各个属性的出现频率对所述属性集合中的属性进行排序,得到属性序列;
根据所述属性序列确定目标属性。
7.如权利要求5所述的方法,其特征在于,所述根据所述目标属性以及对应的属性值通过所述大模型生成所述文章文本的文本摘要,包括:
将所述目标属性以及对应的属性值填充至预设摘要生成模板,得到填充后的摘要生成模板;
将所述填充后的摘要生成模板发送至所述大模型,并接收所述大模型反馈的所述文章文本的文本摘要。
8.一种基于大模型的摘要生成装置,其特征在于,所述基于大模型的摘要生成装置包括:
分段模块,用于按照文本分段策略对文章文本进行分段,得到段落集合;
抽取模块,用于通过大模型对所述段落集合中的各个段落分别进行属性抽取,生成属性集合;
整合模块,用于基于所述属性集合通过所述大模型进行信息整合,生成所述文章文本的文本摘要。
9.一种基于大模型的摘要生成设备,其特征在于,所述基于大模型的摘要生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大模型的摘要生成程序,所述基于大模型的摘要生成程序配置为实现如权利要求1至7中任一项所述的基于大模型的摘要生成方法。
10.一种存储介质,其特征在于,所述存储介质上存储有基于大模型的摘要生成程序,所述基于大模型的摘要生成程序被处理器执行时实现如权利要求1至7中任一项所述的基于大模型的摘要生成方法。
CN202410014812.5A 2024-01-04 2024-01-04 基于大模型的摘要生成方法、装置、设备及存储介质 Pending CN117874218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410014812.5A CN117874218A (zh) 2024-01-04 2024-01-04 基于大模型的摘要生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410014812.5A CN117874218A (zh) 2024-01-04 2024-01-04 基于大模型的摘要生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117874218A true CN117874218A (zh) 2024-04-12

Family

ID=90586035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410014812.5A Pending CN117874218A (zh) 2024-01-04 2024-01-04 基于大模型的摘要生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117874218A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2026002244A1 (zh) * 2024-06-28 2026-01-02 北京字跳网络技术有限公司 交互方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2026002244A1 (zh) * 2024-06-28 2026-01-02 北京字跳网络技术有限公司 交互方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN117688919B (zh) 用于srm系统的表单定义方法、装置、存储介质及设备
KR20150000566A (ko) 텍스트 입력에 따른 실시간 이미지 출력 장치 및 방법
US20200210640A1 (en) Method and apparatus for displaying textual information
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN117975934A (zh) 音频文本对的获取方法和装置、电子设备、存储介质
CN118170378A (zh) 页面生成方法、装置、电子设备、存储介质以及程序产品
CN118193733A (zh) 生成报告的方法、装置、电子设备和存储介质
CN117951272A (zh) 一种基于大语言模型的文档生成方法、系统和介质
CN117874218A (zh) 基于大模型的摘要生成方法、装置、设备及存储介质
CN110275938B (zh) 基于非结构化文档的知识提取方法及系统
CN114398138B (zh) 界面生成方法、装置、计算机设备和存储介质
CN119179775A (zh) 一种融合大模型与结构化语义的媒体摘要生成方法及装置
CN119045816A (zh) 一种基于查询sql语句的页面自动生成方法、装置、设备及介质
CN118552969A (zh) 基于大语言模型的图像检测方法、图像识别方法、装置、电子设备、存储介质和程序产品
CN118673119A (zh) 答案生成方法、装置、电子设备及存储介质
CN118626617A (zh) 基于知识图谱的大模型多文档问答方法及装置
CN118377899A (zh) 文本数据的去重方法、装置、存储介质及程序产品
CN117520483A (zh) 基于大模型的信息校验方法及装置
CN118331839A (zh) 数据测试方法、装置、设备及存储介质
CN118779411A (zh) 应答方法、装置、电子设备、系统及计算机可读存储介质
CN116185853A (zh) 代码校验方法及装置
CN117807188B (zh) 搜索信息处理方法、装置、电子设备以及存储介质
CN118643007B (zh) 接口文档的解析方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination