CN119007230B - 基于Transformer框架的电子卷宗案件要素认知方法和系统 - Google Patents
基于Transformer框架的电子卷宗案件要素认知方法和系统Info
- Publication number
- CN119007230B CN119007230B CN202410998710.1A CN202410998710A CN119007230B CN 119007230 B CN119007230 B CN 119007230B CN 202410998710 A CN202410998710 A CN 202410998710A CN 119007230 B CN119007230 B CN 119007230B
- Authority
- CN
- China
- Prior art keywords
- task
- electronic case
- encoder
- case file
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于Transformer框架的电子卷宗案件要素认知方法和系统,包括:步骤S1:对多模态电子卷宗数据进行模拟生成;步骤S2:搭建电子卷宗案件要素认知网络模型;步骤S3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;步骤S4:对电子卷宗案件要素认知网络模型进行预训练;步骤S5:使用预训练后的模型进行微调训练;步骤S6:导出微调训练好的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。本发明能够根据不同类型的数据形式以及案由提取不同的关键案件要素,具有较好的鲁棒性和较高的识别准确率。
Description
技术领域
本发明涉及计算机视觉图像处理和自然语言处理文本分析技术领域,具体地,涉及一种基于Transformer框架的电子卷宗案件要素认知方法和系统。
背景技术
随着经济社会的高速发展,电子卷宗的数目也在不断增加。对于不同类别、不同案由的电子卷宗进行整理、收纳的过程中,实现对于电子卷宗的多模态、多任务的案件要素认知方法,能够提高对于电子卷宗的数据管理效率增强对于电子卷宗的文书分类以及归纳评查工作的准确度,降低人力成本。
对于电子卷宗进行多模态、多任务的要素认知,有助于提高法院等部门对于电子卷宗进行整理、要素分类的效率,能够降低人力成本。因此,多模态、多任务的要素认知方法成为近几年研究的热点,其中处理图像形式的电子卷宗文档方法,从中完成电子卷宗的要素认知则是其中的重要一环。多模态的要素认知网络模型中一个重要环节是处理图像形式的电子卷宗文档,对于图像格式的电子卷宗数据,一般使用传统OCR技术提取图像中的文字信息,整合后对于文字信息进行要素认知提取。
基于传统OCR技术提取文字信息后进行要素认知提取的方法,常见的做法是利用OCR技术,对于输入的图片形式的电子卷宗数据进行文字提取,文字信息提取的过程包含预处理、文字框标注、文字提取、文字矫正等步骤,能够由输入的图片格式的电子卷宗数据得到输出的电子卷宗文字流数据。对于文字流数据进行要素认知方法主要是使用知识图谱方法,根据已有的知识图谱的构建过程包括:信息抽取、知识融合、知识加工等。信息抽取作为知识图谱的主要组成,从数据源中抽取出实体和实体之间的关系等结构化信息,包括对实体、关系以及事件等方面的抽取。
在现有的电子卷宗案件要素认知方法中,授权公告号为CN116011428B的专利,使用了反绎策略对民事案件信息抽取模型进行迭代更新,确定最佳的反绎修正预测拓扑图结构来提取民事案件信息。与本发明构建的多任务、多模态Transformer的电子卷宗案件要素认知网络模型有着显著的区别。
授权公告号为CN117496542B的专利公开了一种文档信息提取方法、装置、电子设备和存储介质,该方法中使用文本和词汇的编码特征向量构建图,然后利用图神经网络进行文档信息的提取。与本发明构建的多任务、多模态Transformer的电子卷宗案件要素认知网络模型有着显著的区别。
2023年于《计算机工程与设计》中发表的论文《基于机器阅读理解的案件要素识别方法》中提出了一种基于机器阅读理解的案件要素识别方法,使用案件要素标签信息构建问题,指代所要识别的案件要素类型,将问题与文本拼接输入RoBERTa模型进行编码;通过双向注意力机制从两个方向出发为上下文和问题的交互提供补充信息;经过全连接网络预测案件要素是否在。与本发明构建的多任务、多模态Transformer的电子卷宗案件要素认知网络模型有着显著的区别。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于Transformer框架的电子卷宗案件要素认知方法和系统。
根据本发明提供的基于Transformer框架的电子卷宗案件要素认知方法,包括:
步骤S1:使用法院审判全业务流程随案电子卷宗模板对多模态电子卷宗数据进行模拟生成,生成格式包括电子卷宗文本、电子卷宗扫描图像以及电子卷宗归目结构树;
步骤S2:搭建基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,其组成包括两个部分:用于提取电子卷宗特征的基于Transformer框架的多模态编码器、完成下游任务的基于Transformer框架的多任务解码器;
所述多模态编码器,包含基于Transformer架构的文本编码器,对于多模态输入中的格式文本信息进行编码处理,以及基于Swin-Transformer架构的视觉编码器,按照阅读习惯学习识别并提取图片上的文本内容进行特征编码处理;
所述多任务解码器,使用用于自然语言处理的预训练的多语言BART模型,基于该解码器微调多语言BART模型对编码文本的理解,根据不同的任务使用不同微调方向的解码器输出解码后的电子卷宗数据中的案件要素、下游任务信息;
步骤S3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;
步骤S4:使用生成的多模态电子卷宗数据,对基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型进行预训练,训练模型对于多模态的文本提取能力,将模型训练为一个多模态语言模型;
步骤S5:使用预训练后的模型进行微调训练,构建多任务提示词进行多任务学习,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查;
步骤S6:导出微调训练好的基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。
优选地,所述步骤S1中,法院审判全业务流程随案电子卷宗模板模拟生成的电子卷宗具有已经标注好的提取的要素属性列表,并根据多种不同的文书类别以及不同的罪责类别使用模板生成,同一类别文书数据下存在文本数据以及不同规整程度的文档图像数据;模拟生成的电子卷宗数据集样本按照9:1的比例分为训练集和测试集。
优选地,所述步骤S2包括:
步骤S2.1:基于Swin-Transformer的视觉编码器将输入文档信息x转换为一组嵌入向量,该编码器包含多个Swin-Transformer块,块中包含窗口化的自注意力机制模块以及移变的窗口多头自注意力机制以及降维模块;
编码器中的自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用Softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出,表达式为:
编码器中还使用前馈网络,表达式为:
FFN(X)=Relu(x·W1+b1)·W2+b2
其中,W1、W2表示学习到的权重矩阵;b1、b2是偏置向量;Relu()是激活函数;
编码器中残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行层归一化处理,表达式为:
Output=LayerNorm(x+FFN(LayerNorm(x)))
其中,LayerNorm()为归一化函数;
步骤S2.2:对于经过编码器得到的嵌入向量{z},文本数据的解码器生成一个令牌序列(yi)*mi=1,其中,yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数;
解码器同样使用自注意力机制,表示解码器内部的自注意力计算,用于自身序列的建模,表达式为:
其中,查询Q′是解码器的输出,键K′和值V′是编码器的输出;
解码器同样使用前馈网络和残差连接来在层间传递信息。
优选地,所述步骤S5中,构建多任务提示词进行多任务学习,对于输入的文档信息x,使用一个提示函数fprompt(),帮助模型回忆起自己在预训练时学习的信息x’,表达式为:
x’=fprompt(x)
该函数为包含有两个空位置的一段自然语言,分别为用于填输入的位置和用于生成答案文本的位置。
优选地,所述步骤S5中,使用字段级F1分数和基于树编辑距离的精度进行综合性能的评估;
字段级F1分数方法检查提取的字段信息不在真值中,则判定字段提取失败,反之则为提取成功;
基于树的编辑距离方法用于任何表示为树的文档,编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除,基于树的编辑距离T的计算公式为:
其中,gt、pr和φ分别代表真值、预测和空树;EditDist()为编辑距离函数;Ta,Tb为两个字串。
根据本发明提供的基于Transformer框架的电子卷宗案件要素认知系统,包括:
模块M1:使用法院审判全业务流程随案电子卷宗模板对多模态电子卷宗数据进行模拟生成,生成格式包括电子卷宗文本、电子卷宗扫描图像以及电子卷宗归目结构树;
模块M2:搭建基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,其组成包括两个部分:用于提取电子卷宗特征的基于Transformer框架的多模态编码器、完成下游任务的基于Transformer框架的多任务解码器;
所述多模态编码器,包含基于Transformer架构的文本编码器,对于多模态输入中的格式文本信息进行编码处理,以及基于Swin-Transformer架构的视觉编码器,按照阅读习惯学习识别并提取图片上的文本内容进行特征编码处理;
所述多任务解码器,使用用于自然语言处理的预训练的多语言BART模型,基于该解码器微调多语言BART模型对编码文本的理解,根据不同的任务使用不同微调方向的解码器输出解码后的电子卷宗数据中的案件要素、下游任务信息;
模块M3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;
模块M4:使用生成的多模态电子卷宗数据,对基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型进行预训练,训练模型对于多模态的文本提取能力,将模型训练为一个多模态语言模型;
模块M5:使用预训练后的模型进行微调训练,构建多任务提示词进行多任务学习,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查;
模块M6:导出微调训练好的基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。
优选地,所述模块M1中,法院审判全业务流程随案电子卷宗模板模拟生成的电子卷宗具有已经标注好的提取的要素属性列表,并根据多种不同的文书类别以及不同的罪责类别使用模板生成,同一类别文书数据下存在文本数据以及不同规整程度的文档图像数据;模拟生成的电子卷宗数据集样本按照9:1的比例分为训练集和测试集。
优选地,所述模块M2包括:
模块M2.1:基于Swin-Transformer的视觉编码器将输入文档信息x转换为一组嵌入向量,该编码器包含多个Swin-Transformer块,块中包含窗口化的自注意力机制模块以及移变的窗口多头自注意力机制以及降维模块;
编码器中的自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用Softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出,表达式为:
编码器中还使用前馈网络,表达式为:
FFN(X)=Relu(x·W1+b1)·W2+b2
其中,W1、W2表示学习到的权重矩阵;b1、b2是偏置向量;Relu()是激活函数;
编码器中残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行层归一化处理,表达式为:
Output=LayerNorm(x+FFN(LayerNorm(x)))
其中,LayerNorm))为归一化函数;
模块M2.2:对于经过编码器得到的嵌入向量{z},文本数据的解码器生成一个令牌序列(yi)*mi=1,其中,yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数;
解码器同样使用自注意力机制,表示解码器内部的自注意力计算,用于自身序列的建模,表达式为:
其中,查询Q′是解码器的输出,键K′和值V′是编码器的输出;
解码器同样使用前馈网络和残差连接来在层间传递信息。
优选地,所述模块M5中,构建多任务提示词进行多任务学习,对于输入的文档信息x,使用一个提示函数fprompt(),帮助模型回忆起自己在预训练时学习的信息x’,表达式为:
x’=fprompt(x)
该函数为包含有两个空位置的一段自然语言,分别为用于填输入的位置和用于生成答案文本的位置。
优选地,所述模块M5中,使用字段级F1分数和基于树编辑距离的精度进行综合性能的评估;
字段级F1分数方法检查提取的字段信息不在真值中,则判定字段提取失败,反之则为提取成功;
基于树的编辑距离方法用于任何表示为树的文档,编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除,基于树的编辑距离T的计算公式为:
其中,gt、pr和φ分别代表真值、预测和空树;EditDist()为编辑距离函数;Ta,Tb为两个字串。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明基于深度学习技术,构建了端到端的基于多模态、多任务Transformer的电子卷宗案件要素认知网络模型,能够根据不同类型的数据形式以及案由提取不同的关键案件要素,具有较好的鲁棒性和较高的识别准确率;同时,该方法可以在一定程度上实现并行化计算进而提升处理效率,在推理阶段需要更少的计算资源,且具有更低的时延;
(2)本发明提出的模型能够准确提取输入的多模态、多任务的电子卷宗的案件要素,根据不同的案由提取不同的案件要素关键信息,广泛支持多种电子卷宗中的案由类别,该模型具有良好的对于电子卷宗多模态、多任务数据的分析识别能力,能够应对各种复杂场景,与此同时,该模型的实现方式极易于训练和部署工作;
(3)本发明提出的模型能够同时支持包含文字、图片等形式的电子卷宗的数据输入,在保证能够保留输入数据中关键要素信息的同时,能够智能提取识别其中重要的信息,并把相关联的信息按照不同案由的内部逻辑进行整合,能够广泛部署到不同的场景和设备中。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于多模态、多任务Transformer的电子卷宗案件要素认知网络模型的整体框架图;
图2为本发明提出的基于深度学习的电子卷宗数据流处理框架示意图;
图3为本发明提出的基于深度学习的电子卷宗案件要素认知网络模型框架示意图;
图4为本发明提出的Swin-Transformer块网络结构图;
图5为本发明提出的文本编码器模块网络结构图;
图6为本发明提出的任务解码器模块网络结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明提供了一种基于Transformer的电子卷宗案件要素认知方法,包括:
步骤S1:使用法院审判全业务流程随案电子卷宗模板对电子卷宗进行模拟生成,生成格式包括文本格式、图像格式以及归目结构树等
根据不同案由下的法院审判全业务流程随案电子卷宗模板,基于已有的案件的已有文书数据信息进行模拟生成,对于电子卷宗中的不同的属性进行相关性匹配后生成,确保部分属性间根据电子卷宗的特征保持相关性,并且电子卷宗中属性符合实际条件和法律规定限制,例如某些案由罪行量刑在法律规定范围内,开始时间早于结束时间。使用模拟生成的电子卷宗可以确保电子文书的信息具有实际可靠性的前提下,保护电子卷宗的隐私性。模拟生成的电子卷宗数据包含文本和图像等形式,其中图像形式的电子卷宗数据经过包含轻微模糊、旋转等一定的数据增强操作。模拟生成的电子卷宗数据按照9:1的比例划分为训练集和测试集。
步骤S2:搭建基于多模态、多任务Transformer的电子卷宗案件要素认知网络模型,包括四个部分:
模型输入,基于Transformer使用了教师强化方案,一种使用真实值作为输入而不是模型上一时间步的输出的模型训练策略,模型在测试阶段生成一个给定提示的令牌序列,为我们的实验中的案件要素认知提取任务添加了新的特殊令牌作为提示。
编码器,基于Swin-Transformer的视觉编码器使用多个降维模块和Swin-Transformer块中的窗口多头自注意力机制对于文档图像进行编码。视觉编码器将输入文档图像x∈RH×W×C转换为一组嵌入向量{zi|zi∈Rd,1≤i≤n},其中n是特征图大小或图像块数量,d是编码器的潜在向量的维度。文本编码器中则直接使用自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出。编码器中使用前馈网络与残差连结,残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行了层归一化处理。
解码器,对于经过编码器得到的{z},文本数据的解码器会生成一个令牌序列(yi)*mi=1,其中yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数。解码器同样使用自注意力机制,表示解码器内部的自注意力计算,与编码器中的自注意力相同,但在解码器中用于自身序列的建模。此外编码器中还实现了编码器-解码器注意力机制,表示解码器与编码器之间的注意力计算。与编码器相同,解码器同样使用前馈网络和残差连接来在层间传递信息。使用公开可用的预训练的BART模型的权重来初始化解码器模型权重。
输出转换,输出的令牌序列被转换为期望的结构化格式。采用了JSON格式,添加了两个特殊的令牌,表示要提取的字段的开始和结束。如果输出令牌序列的结构错误,我们简单地将该字段视为丢失,此方法通过正则表达式实现。
步骤S3:确定多任务学习框架,设定用于优化网络参数的损失函数,包括以下步骤:
预训练中模型被训练以按阅读顺序读取图像中的所有文本。目标是通过共同条件化图像和前文上下文,最小化下一个令牌预测的交叉熵损失。
微调中解码器被训练为生成可以转换为表示所需输出信息的JSON的令牌序列,即将模型训练为将电子卷宗文书数据映射到与电子卷宗文书案件要素数据库模式一致的结构化信息形式。损失函数为解码器为生成令牌序列的交叉熵损失
步骤S4:使用步骤S1生成的多模态电子卷宗数据集中的训练集,对基于多模态、多任务Transformer的电子卷宗案件要素认知网络模型,训练模型对于多模态的文本提取能力,此阶段模型被训练为一个多模态语言模型。采用PyTorch深度学习框架搭建和训练模型;
步骤S5:使用步骤S4预训练后的模型进行微调训练,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查,训练多模态、多任务电子卷宗案件要素认知模型,使用的综合性能的评估指标包括字段级F1分数和基于树编辑距离的精度,包括以下步骤,
步骤S5.1:F1分数方法检查提取的字段信息是否在真值中,错过一个字符,分数也认为字段提取失败,反之则为提取成功。
步骤S5.2:基于树的编辑距离方法可以用于任何表示为树的文档,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除。基于树的编辑距离方法可以用于任何表示为树的文档,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除。基于树的编辑距离d计算公式为:
其中,gt、pr和分别代表真值、预测和空树,其中TED公式如下:
步骤S6:导出步骤S5微调训练好的基于多模态、多任务Transformer的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于其它系统中使用。
实施例2
本发明还提供一种基于Transformer框架的电子卷宗案件要素认知系统,所述基于Transformer框架的电子卷宗案件要素认知系统可以通过执行所述基于Transformer框架的电子卷宗案件要素认知方法的流程步骤予以实现,即本领域技术人员可以将所述基于Transformer框架的电子卷宗案件要素认知方法理解为所述基于Transformer框架的电子卷宗案件要素认知系统的优选实施方式。
如图1~图6,根据本发明提供的基于Transformer框架的电子卷宗案件要素认知系统,包括:
模块M1:使用法院审判全业务流程随案电子卷宗模板对多模态电子卷宗数据进行模拟生成,生成格式包括电子卷宗文本、电子卷宗扫描图像以及电子卷宗归目结构树;
模块M2:搭建基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,其组成包括两个部分:用于提取电子卷宗特征的基于Transformer框架的多模态编码器、完成下游任务的基于Transformer框架的多任务解码器;
所述多模态编码器,包含基于Transformer架构的文本编码器,对于多模态输入中的格式文本信息进行编码处理,以及基于Swin-Transformer架构的视觉编码器,按照阅读习惯学习识别并提取图片上的文本内容进行特征编码处理;
所述多任务解码器,使用用于自然语言处理的预训练的多语言BART模型,基于该解码器微调多语言BART模型对编码文本的理解,根据不同的任务使用不同微调方向的解码器输出解码后的电子卷宗数据中的案件要素、下游任务信息;
模块M3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;
模块M4:使用生成的多模态电子卷宗数据,对基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型进行预训练,训练模型对于多模态的文本提取能力,将模型训练为一个多模态语言模型;
模块M5:使用预训练后的模型进行微调训练,构建多任务提示词进行多任务学习,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查;
模块M6:导出微调训练好的基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。
所述模块M1中,法院审判全业务流程随案电子卷宗模板模拟生成的电子卷宗具有已经标注好的提取的要素属性列表,并根据多种不同的文书类别以及不同的罪责类别使用模板生成,同一类别文书数据下存在文本数据以及不同规整程度的文档图像数据;模拟生成的电子卷宗数据集样本按照9:1的比例分为训练集和测试集。
所述模块M2包括:
模块M2.1:基于Swin-Transformer的视觉编码器将输入文档信息x转换为一组嵌入向量,该编码器包含多个Swin-Transformer块,块中包含窗口化的自注意力机制模块以及移变的窗口多头自注意力机制以及降维模块;
编码器中的自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用Softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出,表达式为:
编码器中还使用前馈网络,表达式为:
FFN(X)=Relu(x·W1+b1)·W2+b2
其中,W1、W2表示学习到的权重矩阵;b1、b2是偏置向量;Relu()是激活函数;
编码器中残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行层归一化处理,表达式为:
Output=LayerNorm(x+FFN(LayerNorm(x)))
其中,LayerNorm({为归一化函数;
模块M2.2:对于经过编码器得到的嵌入向量{z{,文本数据的解码器生成一个令牌序列(yi)*mi=1,其中,yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数;
解码器同样使用自注意力机制,表示解码器内部的自注意力计算,用于自身序列的建模,表达式为:
其中,查询Q′是解码器的输出,键K′和值V′是编码器的输出;
解码器同样使用前馈网络和残差连接来在层间传递信息。
所述模块M5中,构建多任务提示词进行多任务学习,对于输入的文档信息x,使用一个提示函数fprompt(),帮助模型回忆起自己在预训练时学习的信息x’,表达式为:
x’=fprompt(x)
该函数为包含有两个空位置的一段自然语言,分别为用于填输入的位置和用于生成答案文本的位置。
所述模块M5中,使用字段级F1分数和基于树编辑距离的精度进行综合性能的评估;
字段级F1分数方法检查提取的字段信息不在真值中,则判定字段提取失败,反之则为提取成功;
基于树的编辑距离方法用于任何表示为树的文档,编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除,基于树的编辑距离T的计算公式为:
其中,gt、pr和φ分别代表真值、预测和空树;EditDist()为编辑距离函数;Ta,Tb为两个字串。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于Transformer框架的电子卷宗案件要素认知方法,其特征在于,包括:
步骤S1:使用法院审判全业务流程随案电子卷宗模板对多模态电子卷宗数据进行模拟生成,生成格式包括电子卷宗文本、电子卷宗扫描图像以及电子卷宗归目结构树;
步骤S2:搭建基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,其组成包括两个部分:用于提取电子卷宗特征的基于Transformer框架的多模态编码器、完成下游任务的基于Transformer框架的多任务解码器;
所述多模态编码器,包含基于Transformer架构的文本编码器,对于多模态输入中的格式文本信息进行编码处理,以及基于Swin-Transformer架构的视觉编码器,按照阅读习惯学习识别并提取图片上的文本内容进行特征编码处理;
所述多任务解码器,使用用于自然语言处理的预训练的多语言BART模型,基于该解码器微调多语言BART模型对编码文本的理解,根据不同的任务使用不同微调方向的解码器输出解码后的电子卷宗数据中的案件要素、下游任务信息;
步骤S3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;
步骤S4:使用生成的多模态电子卷宗数据,对基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型进行预训练,训练模型对于多模态的文本提取能力,将模型训练为一个多模态语言模型;
步骤S5:使用预训练后的模型进行微调训练,构建多任务提示词进行多任务学习,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查;
步骤S6:导出微调训练好的基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。
2.根据权利要求1所述的基于Transformer框架的电子卷宗案件要素认知方法,其特征在于,所述步骤S1中,法院审判全业务流程随案电子卷宗模板模拟生成的电子卷宗具有已经标注好的提取的要素属性列表,并根据多种不同的文书类别以及不同的罪责类别使用模板生成,同一类别文书数据下存在文本数据以及不同规整程度的文档图像数据;模拟生成的电子卷宗数据集样本按照9:1的比例分为训练集和测试集。
3.根据权利要求1所述的基于Transformer框架的电子卷宗案件要素认知方法,其特征在于,所述步骤S2包括:
步骤S2.1:基于Swin-Transformer的视觉编码器将输入文档信息x转换为一组嵌入向量,该编码器包含多个Swin-Transformer块,块中包含窗口化的自注意力机制模块以及移变的窗口多头自注意力机制以及降维模块;
编码器中的自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用Softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出,表达式为:
编码器中还使用前馈网络,表达式为:
FFN(X)=Relu(x·W1+b1)·W2+b2
其中,W1、W2表示学习到的权重矩阵;b1、b2是偏置向量;Relu()是激活函数;
编码器中残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行层归一化处理,表达式为:
Output=LayerNorm(x+FFN(LayerNorm(x)))
其中,LayerNorm()为归一化函数;
步骤S2.2:对于经过编码器得到的嵌入向量{z},文本数据的解码器生成一个令牌序列(yi)*mi=1,其中,yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数;
解码器同样使用自注意力机制,表示解码器内部的自注意力计算,用于自身序列的建模,表达式为:
其中,查询Q′是解码器的输出,键K′和值V′是编码器的输出;
解码器同样使用前馈网络和残差连接来在层间传递信息。
4.根据权利要求1所述的基于Transformer框架的电子卷宗案件要素认知方法,其特征在于,所述步骤S5中,构建多任务提示词进行多任务学习,对于输入的文档信息x,使用一个提示函数fprompt(),帮助模型回忆起自己在预训练时学习的信息x’,表达式为:
x’=fprompt(x)
该函数为包含有两个空位置的一段自然语言,分别为用于填输入的位置和用于生成答案文本的位置。
5.根据权利要求1所述的基于Transformer框架的电子卷宗案件要素认知方法,其特征在于,所述步骤S5中,使用字段级F1分数和基于树编辑距离的精度进行综合性能的评估;
字段级F1分数方法检查提取的字段信息不在真值中,则判定字段提取失败,反之则为提取成功;
基于树的编辑距离方法用于任何表示为树的文档,编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除,基于树的编辑距离T的计算公式为:
其中,gt、pr和φ分别代表真值、预测和空树;EditDist()为编辑距离函数;Ta,Tb为两个字串。
6.一种基于Transformer框架的电子卷宗案件要素认知系统,其特征在于,包括:
模块M1:使用法院审判全业务流程随案电子卷宗模板对多模态电子卷宗数据进行模拟生成,生成格式包括电子卷宗文本、电子卷宗扫描图像以及电子卷宗归目结构树;
模块M2:搭建基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,其组成包括两个部分:用于提取电子卷宗特征的基于Transformer框架的多模态编码器、完成下游任务的基于Transformer框架的多任务解码器;
所述多模态编码器,包含基于Transformer架构的文本编码器,对于多模态输入中的格式文本信息进行编码处理,以及基于Swin-Transformer架构的视觉编码器,按照阅读习惯学习识别并提取图片上的文本内容进行特征编码处理;
所述多任务解码器,使用用于自然语言处理的预训练的多语言BART模型,基于该解码器微调多语言BART模型对编码文本的理解,根据不同的任务使用不同微调方向的解码器输出解码后的电子卷宗数据中的案件要素、下游任务信息;
模块M3:确定多任务学习框架,设定用于优化网络参数的损失函数,对于不同的任务输出使用各自任务的损失函数以及优化目标;
模块M4:使用生成的多模态电子卷宗数据,对基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型进行预训练,训练模型对于多模态的文本提取能力,将模型训练为一个多模态语言模型;
模块M5:使用预训练后的模型进行微调训练,构建多任务提示词进行多任务学习,对于不同的下游任务采取将多任务理解为多个不同的JSON格式数据预测问题,训练目标是将每个文档映射到与要素提取数据格式相一致的数据库或对于JSON格式数据进行完整性匹配与评查;
模块M6:导出微调训练好的基于多模态、多任务Transformer框架的电子卷宗案件要素认知网络模型,通过直接部署成服务或集成于系统中使用。
7.根据权利要求6所述的基于Transformer框架的电子卷宗案件要素认知系统,其特征在于,所述模块M1中,法院审判全业务流程随案电子卷宗模板模拟生成的电子卷宗具有已经标注好的提取的要素属性列表,并根据多种不同的文书类别以及不同的罪责类别使用模板生成,同一类别文书数据下存在文本数据以及不同规整程度的文档图像数据;模拟生成的电子卷宗数据集样本按照9:1的比例分为训练集和测试集。
8.根据权利要求6所述的基于Transformer框架的电子卷宗案件要素认知系统,其特征在于,所述模块M2包括:
模块M2.1:基于Swin-Transformer的视觉编码器将输入文档信息x转换为一组嵌入向量,该编码器包含多个Swin-Transformer块,块中包含窗口化的自注意力机制模块以及移变的窗口多头自注意力机制以及降维模块;
编码器中的自注意力机制,输入都来自同一个序列,通过计算输入中的查询Q和索引K之间的点积,然后进行缩放以控制梯度大小,应用Softmax函数得到注意力权重,最后将这些权重乘以回答值V获得输出,表达式为:
编码器中还使用前馈网络,表达式为:
FFN(X)=Relu(x·W1+b1)·W2+b2
其中,W1、W2表示学习到的权重矩阵;b1、b2是偏置向量;Relu()是激活函数;
编码器中残差连接的计算过程是将前馈网络的输出与输入相加,并且在相加之前都进行层归一化处理,表达式为:
Output=LayerNorm(x+FFN(LayerNorm(x)))
其中,LayerNorm()为归一化函数;
模块M2.2:对于经过编码器得到的嵌入向量{z},文本数据的解码器生成一个令牌序列(yi)*mi=1,其中,yi∈Rv是第i个令牌的独热向量,v是令牌词汇表的大小,m是超参数;
解码器同样使用自注意力机制,表示解码器内部的自注意力计算,用于自身序列的建模,表达式为:
其中,查询Q′是解码器的输出,键K′和值V′是编码器的输出;
解码器同样使用前馈网络和残差连接来在层间传递信息。
9.根据权利要求6所述的基于Transformer框架的电子卷宗案件要素认知系统,其特征在于,所述模块M5中,构建多任务提示词进行多任务学习,对于输入的文档信息x,使用一个提示函数fprompt(),帮助模型回忆起自己在预训练时学习的信息x’,表达式为:
x’=fprompt(x)
该函数为包含有两个空位置的一段自然语言,分别为用于填输入的位置和用于生成答案文本的位置。
10.根据权利要求6所述的基于Transformer框架的电子卷宗案件要素认知系统,其特征在于,所述模块M5中,使用字段级F1分数和基于树编辑距离的精度进行综合性能的评估;
字段级F1分数方法检查提取的字段信息不在真值中,则判定字段提取失败,反之则为提取成功;
基于树的编辑距离方法用于任何表示为树的文档,编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,编辑操作包括将一个字符替换、插入或删除,基于树的编辑距离T的计算公式为:
其中,gt、pr和φ分别代表真值、预测和空树;EditDist()为编辑距离函数;Ta,Tb为两个字串。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410998710.1A CN119007230B (zh) | 2024-07-24 | 2024-07-24 | 基于Transformer框架的电子卷宗案件要素认知方法和系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410998710.1A CN119007230B (zh) | 2024-07-24 | 2024-07-24 | 基于Transformer框架的电子卷宗案件要素认知方法和系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119007230A CN119007230A (zh) | 2024-11-22 |
| CN119007230B true CN119007230B (zh) | 2025-10-31 |
Family
ID=93489127
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410998710.1A Active CN119007230B (zh) | 2024-07-24 | 2024-07-24 | 基于Transformer框架的电子卷宗案件要素认知方法和系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119007230B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
| CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3940491B2 (ja) * | 1998-02-27 | 2007-07-04 | 株式会社東芝 | 文書処理装置および文書処理方法 |
| KR102862089B1 (ko) * | 2022-07-06 | 2025-09-19 | 국민대학교산학협력단 | 텍스트와 이미지를 활용한 멀티모달 기반 스팸 리뷰 탐지 장치 및 방법 |
-
2024
- 2024-07-24 CN CN202410998710.1A patent/CN119007230B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
| CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119007230A (zh) | 2024-11-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114443899B (zh) | 视频分类方法、装置、设备及介质 | |
| CN114818721B (zh) | 一种结合序列标注的事件联合抽取模型与方法 | |
| CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
| CN111694924A (zh) | 一种事件抽取方法和系统 | |
| CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
| CN113609326A (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
| CN113505603A (zh) | 适用于司法考试主观题的多任务学习智能阅卷方法及装置 | |
| CN111158640B (zh) | 一种基于深度学习的一对多需求分析识别方法 | |
| CN118227791A (zh) | 一种基于多层次增强对比学习的慕课学习者学习成效预测方法 | |
| CN119783799B (zh) | 一种基于动态提示学习和多粒度聚合的多模态知识图谱补全方法 | |
| CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
| CN117152303A (zh) | 基于属性学习的未知场景遥感图像字幕生成方法 | |
| CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
| CN120011390A (zh) | 一种基于预训练模型的联合多任务表格语义解析方法 | |
| CN115018941A (zh) | 一种基于改进版文本解析器的文本至图像生成算法 | |
| CN117251545B (zh) | 一种多意图自然语言理解方法、系统、设备及存储介质 | |
| CN118504570A (zh) | 一种融入实体知识的多模态方面情感联合抽取方法 | |
| CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
| CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
| CN117725467A (zh) | 一种基于动态多层感知器与gpt校验器的实体细粒度标签分类方法 | |
| CN119005168B (zh) | 基于多模态大模型的pdf论文元数据结构化解析方法 | |
| CN115658905A (zh) | 一种跨篇章的事件多维画像生成方法 | |
| CN119007230B (zh) | 基于Transformer框架的电子卷宗案件要素认知方法和系统 | |
| CN120068877A (zh) | 基于多语义知识交互和动态修剪的智能装备故障信息抽取方法 | |
| CN118154987A (zh) | 动态数据分类网络的训练及分类方法、装置、介质及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |