CN117056510A - 一种多元社会矛盾纠纷信息自动归集方法 - Google Patents
一种多元社会矛盾纠纷信息自动归集方法 Download PDFInfo
- Publication number
- CN117056510A CN117056510A CN202311016472.1A CN202311016472A CN117056510A CN 117056510 A CN117056510 A CN 117056510A CN 202311016472 A CN202311016472 A CN 202311016472A CN 117056510 A CN117056510 A CN 117056510A
- Authority
- CN
- China
- Prior art keywords
- dispute
- model
- data
- segment
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据挖掘领域,具体涉及一种多元社会矛盾纠纷信息自动归集方法,该方法整合多源头、多元化矛盾纠纷数据为一份矛盾纠纷归集领域标准数据集,为建立统一的多元社会矛盾纠纷自动归集模型提供数据条件;使用BERT预训练语言模型建模具有上下文语义信息的词元与有限文本长度的特征表示;通过自注意力机制捕捉矛盾纠纷文本分片段之间的语义依赖关系,并以特定权重加权平均计算长篇幅纠纷数据的特征表示;根据归集场景定义区分十三类纠纷的线性分类器,选定损失函数与优化方式,完成模型训练。本发明构建面向多元矛盾纠纷数据的归集模型,可以实现对多源头、多元化矛盾纠纷数据的统一、精确归集,高效率辅助矛盾分析、化解工作。
Description
技术领域
本发明涉及大数据挖掘领域,具体涉及一种多元社会矛盾纠纷信息自动归集方法。
背景技术
深入推进矛盾纠纷多元化解机制是实现国家治理体系和治理能力现代化的重要手段,是推动社会公平正义、维护社会和谐稳定的必然选择。现代社会面临的矛盾纠纷类型多样化,来源渠道复杂化,无疑增加了纠纷化解的难度。在这种情况下,对多元社会矛盾纠纷信息自动归集显得尤为重要。要实现对多元社会矛盾纠纷信息的归集,首先要能有效地整合来自不同渠道的矛盾纠纷信息,将散落在各处的纠纷数据统一收集,然后还需要将对收集后的纠纷数据进行细粒度矛盾归类,从而帮助纠纷处置相关人员进行深入的分析和研判,进而实现对纠纷类型的精准识别和对纠纷事件的及时化解。实现自动化的信息归集方式能够大幅提升纠纷处理的效率,减少人工参与,降低纠纷处理的难度,高效助力矛盾纠纷的预警与源头治理。
随着人工智能技术发展,越来越多的学者及应用人员尝试采用机器学习甚至是深度学习的方式对实际应用场景问题进行建模,实现海量数据的智能处理。在矛盾纠纷领域,同样有研究人员已经做出了矛盾纠纷信息自动归集相关的努力,但在应对海量且多元的长篇幅纠纷数据的自动归集时仍然存在以下挑战:
①面向多元化的矛盾纠纷数据,实现统一的矛盾纠纷归类模型是一个难点。矛盾纠纷的数据源来源丰富,且数据结构多样,因此产出高效且精准的自动归集方法面临着两个方面的难题:如何将来自不同数据源的数据集合起来,处理为相似格式输入模型使之统一学习特征;以及面向多元异构的矛盾纠纷数据,如何实现统一的矛盾纠纷归类模型。目前已有的矛盾纠纷数据归集模型主要建立在互联网开源的纠纷数据基础上进行训练,其中多为裁判文书数据与社交平台纠纷数据,其归集能力与其数据形式高度绑定,在公安和政府等具有高度应用需求的场合中,由于此类模型缺乏相关形式的涉密数据的训练,其归集效果欠佳,与公安和政府的严谨且权威的需求相悖;
②长文本的特征学习受到模型参数的限制。在实际矛盾纠纷场景中,相关记录文本往往涵盖纠纷事件的时间、起因、人物等多种细节属性,因此矛盾纠纷数据往往具有冗长且繁杂的特点。目前流行的预训练语言模型是深度学习自然语言处理中非常重要的一种模型,它们在大规模无标签数据上预训练,可以捕获语言的一般特性,并将这些特性应用到各种任务中,因此同样适用于矛盾纠纷自动归集模型构建。然而,由于计算资源和模型结构的限制,大多数预训练模型都对输入序列的长度有一定的限制,即输入文本过长则对输出文本进行限制长度的截断,这在一定程度上限制了这些模型在处理长文本时的性能。如BERT模型的输入序列的限制长度为512。
③同时,长文本的归集模型输入带来长距离依赖问题。长距离依赖问题指的是句子中一个词的语义理解依赖于距离它很远的另一个词。当输入文本被截断后无法获取完整的特征表征,将导致被截断部分长依赖的字词发生语义缺失。在长篇幅的矛盾纠纷数据场景中,不乏存在长距离依赖现象,因此如何更加完整地表征长文本复杂的语义信息是一个难点。
因此研究能够精准捕获多元且长篇幅的矛盾纠纷文本语义信息的统一自动归集方法,是一个亟待解决的关键应用问题。
发明内容
为解决上述问题,本发明提供一种多元社会矛盾纠纷信息自动归集方法。
该方法预定义纠纷类型,构建一个归集模型,为输入的矛盾纠纷文本预测纠纷类型,归集模型的训练过程包括以下步骤:
步骤一,准备训练数据,训练数据为文本格式,每个训练数据x有纠纷标签数据y;
步骤二,将输入的训练数据分为N个片段,每个片段的长度不超过归集模型输入序列的限制长度,将第i个片段输入归集模型,提取第i个片段的具有上下文语义信息的语义特征hi;
步骤三,通过自注意力机制捕捉N个片段之间的语义依赖关系,并以特定权重加权平均计算得到输入的训练数据的全文特征表示h;
步骤四,将全文特征表示h输入分类器,得到预测的纠纷归集类型f(x);
步骤五,根据纠纷标签数据y和预测的纠纷归集类型f(x)定义归集模型的损失L(x,y);
步骤六,根据归集模型的损失L(x,y)训练归集模型,直到达到预设的训练完成条件。
进一步的,步骤一中所述准备训练数据,具体指,从地方公安处的矛盾纠纷调解数据、警情数据和互联网开源的法律裁判文书数据中提取数据。
进一步的,所述归集模型以BERT模型作为模型主干。
进一步的,步骤二中所述每个片段的长度不超过归集模型输入序列的限制长度,具体指每个片段的长度不超过512。
进一步的,步骤二中所述提取第i个片段的具有上下文语义信息的语义特征hi,具体包括:
将第i个片段的文本划分为词元,并将词元转换为其分词器所属词汇表中相应的ID,将这些ID按对应的词元在文本中的顺序组成输入序列;
初始化输入序列中的词元为词元嵌入、段落嵌入和位置嵌入,三者相加构成该词元的输入嵌入向量;
输入嵌入向量经过多个带有自注意力机制的模型层更新得到每个词元的具有上下文语义信息的嵌入表示;
使用第一位特殊词符[CLS]的最后一层所对应的嵌入表示作为矛盾纠纷文本中第i个片段的语义特征hi。
进一步的,步骤三具体包括:
对于每一个片段的语义特征hi,计算它与第j个片段语义特征的注意力得分aij,j∈[1,N],j≠i,通过结合注意力得分加权平均除第i个片段之外的所有片段的语义特征,得到第i个片段的融合语义特征h′i,公式表达为:
其中,softmax代表归一化操作,Wq、Wk和Wv是自注意力机制的参数,通过训练模型学习得到;表示矩阵乘法,T表示矩阵转置;
为第一个片段、第N个片段和中间段的融合语义特征分配不同权重以计算输入的训练数据的全文特征表示h。
进一步的,所述为第一个片段、第N个片段和中间段的融合语义特征分配不同权重以计算输入的训练数据的全文特征表示h,具体包括:
h=0.5*h′1+0.3*hM+0.2*h′N;
其中,hM表示所有中间段的融合语义特征经过加权平均后得到的一个全局特征向量,h′1代表第一个片段的融合语义特征,h′N代表最后一个片段的融合语义特征。
进一步的,步骤五具体包括:
定义归集模型的交叉熵损失函数L(x,y)为:
L(x,y)=-y*log(f(x))-(1-y)*log(1-f(x));
其中,log是自然对数函数。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
①构建面向多元矛盾纠纷数据的归集模型,可以实现对多源头、多元化矛盾纠纷数据的统一、精确归集,高效率辅助矛盾分析、化解工作。
②采用自注意力机制解决长文本之间的远距离依赖问题。本发明对长文本数据采取分段处理,在每个分片段内,BERT模型内部的自注意力机制解决每个片段内词元之间的长距离依赖问题;每个分片段之间,本发明额外采用自注意力网络捕捉片段之间的依赖关系,同时解决长文本多片段之间文本的长距离依赖问题。以上方法可以有效捕捉长文本的复杂语义信息,提高模型对矛盾纠纷长文本的理解能力。
③采用长文本特征融合技术,可以解决长文本特征表达受模型硬件参数限制的问题。通过对长文本分片段加权池化获取长文本全部特征表示,有效实现矛盾纠纷长文本特征建模,提高模型归集准确度。
附图说明
图1为本发明实施例提供的一种多元社会矛盾纠纷信息自动归集方法流程图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
针对统一矛盾纠纷自动归集模型的缺失、长文本的特征表征受限及其所带来的长距离依赖问题,本发明构建了一个归集模型,采用BERT模型作为模型主干,捕捉文本间复杂语义信息,通过整合多元的多源异构数据及设计长文本特征建模方式,完成多元化、长篇幅矛盾纠纷数据的统一归集方法。
综上所述,本发明包括四个步骤:(1)整合多源头、多元化矛盾纠纷数据为一份矛盾纠纷归集领域标准数据集,为建立统一的多元社会矛盾纠纷自动归集模型提供数据条件;(2)使用BERT预训练语言模型建模具有上下文语义信息的词元与有限文本长度的特征表示;(3)通过自注意力机制捕捉矛盾纠纷文本分片段之间的语义依赖关系,并以特定权重加权平均计算长篇幅纠纷数据的特征表示(4)根据归集场景定义区分十三类纠纷的线性分类器,选定损失函数与优化方式,完成模型训练。
本发明提出的多元社会矛盾纠纷信息自动归集方法的启发点和动机如下:
(1)现有纠纷汇集模型无法实现对多元矛盾纠纷数据的统一分类;(2)相关研究证明,BERT预训练语言模型可以建模上下文语义信息;(3)对于无法输入BERT模型的长文本数据,可以采取分段,建立片段之间关系、再融合的方式重新表达原始长文本数据。研究证明,自注意力机制可以很好处理文本之间的长距离依赖关系;而加权池化能够依据每段特征的权重,即对结果的重要程度,进行总特征的重构。
本发明提供的方法流程如图1所述,具体步骤如下:
1.多元矛盾纠纷数据汇聚与整合
本发明所接触的数据源丰富多样,主要包括地方公安处的矛盾纠纷调解数据、警情数据和互联网开源的法律裁判文书数据等。每类数据的书写格式、表达方式与字段组成不尽相同,本发明采用不同的方式将多元数据处理为统一的模型输入数据集。
基于接触的数据,本发明预定义十二类纠纷类型,并定义不能归入预定义的十二类纠纷类型的纠纷为第十三类纠纷:其他纠纷类型。
对于矛盾纠纷调解调解数据,本发明根据关键词统计和选取,为每类纠纷选取最为准确和代表性的关键词,作为标签数据依据。即在存储数据库中,以SQL语句进行每类纠纷的关键词查找,并选取适当数量的数据将其归类为关键词所代表的纠纷类型;对于警情数据,结合公安警情系统已有的分类标准及接警人员手动标注的分类信息,将分类信息归入本发明预定义的十二类纠纷类型或归为其他纠纷类型,并将纠纷类型更新为该条数据的纠纷标签数据;对于互联网开源的裁判文书数据,本发明通过数据采集技术采集开源网站中每篇文书对应的案由字段,将其初步作为相应文书的纠纷类型,再将该案由归入本发明预定义的十二类纠纷类型或归为其他纠纷类型当中,并将其更新为该条数据的纠纷标签数据。
以上重归类的过程,本发明基于合作方华东政法大学提供的十二类纠纷描述,构建关于数据原始分类和十二类纠纷之间的映射关系,完成纠纷标签的处理。
对于每一类数据,以Python脚本去除无用与干扰字段,只保留以下字段作为模型的数据集:唯一ID、纠纷文本和其对应的纠纷类型标签,其中标签字段在输入模型前经过标签字符和标签ID映射表,即由文本转换为数字。
综上实现了对多源头、多元化矛盾纠纷数据的统一模型处理,使之数据形式能够为后续归集模型训练和学习所接受。最后将整理的数据集划分训练集、验证集与测试集。其中训练集用于模型训练过程,验证集用于模型评估,测试集用于模型结果检测。训练集输入模型后,模型不断计算损失函数及参数的梯度,优化模型,减小模型预测值与真实值或称标签值之间的差距。验证集作为训练时模型未曾接触的数据,用于评估当前未训练完毕的模型的性能,作为模型训练时阶段性的能力评估;同时,根据验证集的评估结果,可以选取使模型效果最好的超参数作为最终的模型超参数以提升模型性能。测试集则直接检测训练完毕的模型的效果,可以直接反应模型拟合能力的效果。
2.基于BERT模型构建矛盾纠纷文本语义特征
矛盾纠纷文本的长度通常大于BERT模型的输入序列的限制长度512,将矛盾纠纷文本按512序列长度进行分段,分割成N个不超过512个词元的片段。将一个片段作为一条输入归集模型的数据,实现对该片段对应的纠纷文本字段的纠纷原文本数据进行建模。
2.1将矛盾纠纷文本转换成模型可接受的形式
通过使用WordPiece编码方法进行分词,将输入数据对应的文本分割成词或子词,再将这些词或子词转换为其分词器所属词汇表中相应的ID,将这些ID按对应的词或子词在文本中的顺序组成输入序列。
2.2建立模型输入数据的嵌入表示
每个输入序列中的词经过BERT初始化获得三种嵌入表示,分别是词元嵌入、段落嵌入和位置嵌入,三者相加构成该词的最终嵌入表示,即输入嵌入向量e。词元嵌入通过分词后的词汇表查找得到;段落嵌入用于区分两个句子,每个句子有一个固定的向量表示;位置嵌入表示词在句子中的位置。三种嵌入表示相加得到的输入嵌入向量e。
第三步,经过多个带有自注意力机制的模型层更新输入嵌入向量e,每个词获得具有上下文语义信息的嵌入表示
BERT的模型结构基于Transformer的Encoder设计,是一个多层的自注意力模型。在每一层中,模型计算输入词的新的嵌入表示。每层Transformer模块中的自注意力机制允许模型考虑输入序列中的所有词的上下文信息,获取输入序列中的全局依赖关系,而全连接层通过对输入隐藏状态的非线性变换,对这些依赖关系进行进一步的抽象和表示。对于在输入序列中的第a个词元其具有上下文语义信息的嵌入表示va可以表示为:
va=Attention(Qa,Ka,Va);
其中,Attention代表自注意力机制,Qa是第a个词元的查询向量,Ka是所有词元的键向量,Va是所有词元的值向量。
2.4文本特征选取
使用第一位特殊词符″[CLS]″的最后一层所对应的嵌入表示作为矛盾纠纷文本中第i个片段的语义特征hi。具体来说,自注意力机制用文本中的其它词来增强目标词的语义表示,但目标词本身的语义仍占主导部分,因此经过BERT的多层结构,每一个词的嵌入表示既融合了所有词的信息,又可以精准表示当前词本身的语义。而[CLS]位本身没有语义,经过多层计算得到的是自注意力机制后所有词的加权平均,相比其他正常词,[CLS]更加恰当地表征全部矛盾纠纷文本的语义。
3.矛盾纠纷长文本的特征建模
经过基于BERT模型构建矛盾纠纷文本语义特征这个步骤的处理,仅能获取BERT模型关于矛盾纠纷文本中一个片段的特征表达,即512序列长度的特征表达。为了表征成千甚至上万中文字符长度的纠纷文本,需要额外建模长文本的表征方式。
3.1对原文本分段,并对每个片段获取经过BERT模型的嵌入表示
将矛盾纠纷文本中所有片段输入BERT模型获取每段对应的语义特征hi(i=1,2,...,N)。
3.2使用自注意力机制处理片段文本之间的依赖关系
通过将各个文本片段的语义特征视为一个序列中的元素,使用自注意力机制来捕捉它们之间的依赖关系,更新每个文本片段对应的语义特征。具体而言,对于每一个片段的语义特征hi,计算它与第j个片段语义特征的注意力得分aij,j∈[1,N],j≠i,通过结合注意力得分加权平均除了第i个片段之外的所有片段的语义特征,得到第i个片段的融合语义特征h′i,公式表达为:
其中,softmax代表归一化操作,Wq、Wk和Wv是自注意力机制的参数,通过训练模型学习得到;表示矩阵乘法,T表示矩阵转置。因此对于每个片段的融合语义特征h′i,都考虑到了各个片段之间的语义依赖关系。
3.3加权平均所有片段特征表示得到全文特征表示
根据对矛盾纠纷数据内容分析,对于每篇纠纷数据的第一片段,选取其作为全文特征的50%占比;对于每篇纠纷数据的中间段,首先所有中间片段的平均向量表示,进而选取其作为全文特征的30%占比;对于每篇纠纷数据的结尾片段,选取其作为全文特征的20%占比。一篇纠纷数据包含N个文本片段,具有长文本片段之间依赖关系的全文特征表示h,公式表达如下:
h=0.5*h′1+0.3*hM+0.2*h′N;
其中,hM表示所有中间段的融合语义特征经过加权平均后得到的一个全局特征向量,h′1代表第一个片段的融合语义特征,h′N代表最后一个片段的融合语义特征。
4.矛盾纠纷文本归集分类
将全文特征表示h输入分类器得到预测的矛盾纠纷文本对应的纠纷归集类型f(x),x代表输入的矛盾纠纷文本。
4.1定义分类器结构
根据BERT模型的输出特征向量维度768,及分类数量十三类,定义线性分类器输入为768维,输出为十三维。分类器后接softmax函数,使预测向量转化为十三分类的概率分布,取最大概率对应位置索引即为预测分类对应ID。
4.2定义损失函数
使用交叉熵损失函数衡量真实标签值与预测值之间的差距。具体而言,对于一个训练样本(x,y),其中x是输入的矛盾纠纷文本,y是对应的纠纷标签,归集模型预测的纠纷归集类型是f(x),那么交叉熵损失函数为:
L(x,y)=-y*log(f(x))-(1-y)*log(1-f(x));
其中,log是自然对数函数。
4.3选取模型优化器
利用优化算法来最小化交叉熵损失函数,更新归集模型参数。具体通过Adam随机梯度下降最小化损失函数来训练模型,直到模型损失函数值趋于收敛。
下面结合一个具体的实施例来解释本发明。
①多元矛盾纠纷数据整合与处理:本发明汇集互联网开源矛盾纠纷数据、接警数据、矛盾调解中心数据作为归集模型训练数据。其中,选取4w条互联网开源矛盾纠纷数据,6000余条接警数据,7000余条矛盾调节中心数据作为模型训练数据。对于互联网开源矛盾纠纷数据,利用数据采集技术将含有案由信息的纠纷文本进行爬取,并将同时爬取的案由信息初步作为纠纷类型标签。对于接警数据,利用接警系统已有分类标准和人工标注分类,初步作为纠纷类型标签。对于矛盾调解中心数据,根据关键词统计和分析,选取12类纠纷中每类纠纷中出现频率最高的关键词列表,利用SQL语句搜索包含关键词的案件,并将关键词对应的纠纷作为以上案件的纠纷类型标签,不包含12类纠纷关键词列表的纠纷案件作为其他纠纷。
②统一字段构建模型数据集:由于开源数据与接警数据的标签类型与13类标签仍未进行对应,因此在进行构造数据集之前,应当对以上数据的初步标签与华东政法大学提出的12类纠纷标签及其他纠纷进行映射。对于开源数据,根据华东政法提供的专业知识文件,进行了案由字段与13类归类之间的映射;对于接警数据,根据华东政法提供的专业知识文件,进行了已有接警分类与13类归类之间的映射。完成以上重归类过程后,再对多元数据进行统一处理。对于互联网开源数据,原始数据内容包含HTML网页结构信息;对于接警数据和矛盾调解数据,原始数据内容包含相对归集模型无用字段。通过特定的脚本文件,去除以上干扰信息和字段,统一保留为有利于输入模型的JSON格式,且仅包含唯一ID、纠纷全文、纠纷类型标签三个字段作为训练数据集的内容。另外,纠纷类型标签字段经过自定义的标签索引映射表由字符转化为代表不同纠纷的数字索引。根据整理的数据集依据6∶2∶2的比例划分训练集、验证集与测试集。
③对模型输入长文本数据以512序列长度分片操作:选取每条JSON数的纠纷全文字段,以512的长度限制对纠纷全文进行切片,为了使模型分辨分片在全文所处的大概位置,设置每个分片的位置索引,即第一段分片的位置索引为0,第二段分片的位置索引为1,以此类推。
④分片片段分别经过BERT模型取特征向量:由③获取的每条数据的所有分片序列分别经过BERT模型的分词器,获取词元嵌入、位置嵌入与段落嵌入,输入到BERT模型当中,经过多个Transfomer的编码器模块获得具有特征的向量(768维)。
⑤分片的特征向量分别经过自注意力网络,更新得到具有片段依赖的特征向量:由④获取的每条数据所有分片的特征向量,输入到额外定义的自注意力网络中,自注意力网络计算所有分片之间的注意力分数,并将注意力分数作为权重,计算得到含有同一条纠纷长文本中其他所有分片注意力权重的特征表达,作为更新的特征表达(768维)。
⑥根据分片带有片段依赖的特征向量进行加权池化获取长文本全文特征向量:由⑤获得的同一数据所有分片的特征表达,以加权平均保留特征,也称加权池化的方式获得纠纷原文本的特征表达。其中,取第一段分片的50%特征,对中间分片特征平均后取30%特征,取最后一段分片的20%特征,最终构成了全文的特征向量(768维)。
⑦全文特征向量经过分类器与softmax函数获取所有类别的概率分布:由⑥获取的全文特征,进入768*13维的线性分类器,输出13维的分类向量,再将其输入softmax函数,进行归一与概率化,得到每条纠纷数据关于13类纠纷类型的概率分布(13维)。
⑧经过Max函数获得概率最大的位置索引,经过标签索引映射表获取预测分类:由⑦获得的13类纠纷概率分布列表经过max函数获得最大概率对应的位置索引,该索引经过标签索引映射表还原得到纠纷类型字符。在模型训练阶段,得到预测类型后模型会将每条数据的标签字段与预测结果进行比对,并利用交叉熵损失函数计算差距,进而计算模型每个参数的梯度,以完成参数的更新。在模型测试阶段,得到预测类型后,模型会将所有预测结果与所有数据的标签字段一一比对,完成归集准确率的计算。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (8)
1.一种多元社会矛盾纠纷信息自动归集方法,预定义纠纷类型,构建一个归集模型,为输入的矛盾纠纷文本预测纠纷类型,归集模型的训练过程包括以下步骤:
步骤一,准备训练数据,训练数据为文本格式,每个训练数据x有纠纷标签数据y;
步骤二,将输入的训练数据分为N个片段,每个片段的长度不超过归集模型输入序列的限制长度,将第i个片段输入归集模型,提取第i个片段的具有上下文语义信息的语义特征hi;
步骤三,通过自注意力机制捕捉N个片段之间的语义依赖关系,并以特定权重加权平均计算得到输入的训练数据的全文特征表示h;
步骤四,将全文特征表示h输入分类器,得到预测的纠纷归集类型f(x);
步骤五,根据纠纷标签数据y和预测的纠纷归集类型f(x)定义归集模型的损失L(x,y);
步骤六,根据归集模型的损失L(x,y)训练归集模型,直到达到预设的训练完成条件。
2.根据权利要求1所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,步骤一中所述准备训练数据,具体指,从地方公安处的矛盾纠纷调解数据、警情数据和互联网开源的法律裁判文书数据中提取数据。
3.根据权利要求1所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,所述归集模型以BERT模型作为模型主干。
4.根据权利要求3所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,步骤二中所述每个片段的长度不超过归集模型输入序列的限制长度,具体指每个片段的长度不超过512。
5.根据权利要求3所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,步骤二中所述提取第i个片段的具有上下文语义信息的语义特征hi,具体包括:
将第i个片段的文本划分为词元,并将词元转换为其分词器所属词汇表中相应的ID,将这些ID按对应的词元在文本中的顺序组成输入序列;
初始化输入序列中的词元为词元嵌入、段落嵌入和位置嵌入,三者相加构成该词元的输入嵌入向量;
输入嵌入向量经过多个带有自注意力机制的模型层更新得到每个词元的具有上下文语义信息的嵌入表示;
使用第一位特殊词符[CLS]的最后一层所对应的嵌入表示作为矛盾纠纷文本中第i个片段的语义特征hi。
6.根据权利要求5所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,步骤三具体包括:
对于每一个片段的语义特征hi,计算它与第j个片段语义特征的注意力得分aij,j∈[1,N],j≠i,通过结合注意力得分加权平均除第i个片段之外的所有片段的语义特征,得到第i个片段的融合语义特征h′i,公式表达为:
其中,softmax代表归一化操作,Wq、Wk和Wv是自注意力机制的参数,通过训练模型学习得到;表示矩阵乘法,T表示矩阵转置;
为第一个片段、第N个片段和中间段的融合语义特征分配不同权重以计算输入的训练数据的全文特征表示h。
7.根据权利要求6所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,所述为第一个片段、第N个片段和中间段的融合语义特征分配不同权重以计算输入的训练数据的全文特征表示h,具体包括:
h=0.5*h′1+0.3*hM+0.2*h′N;
其中,hM表示所有中间段的融合语义特征经过加权平均后得到的一个全局特征向量,h′1代表第一个片段的融合语义特征,h′N代表最后一个片段的融合语义特征。
8.根据权利要求3所述一种多元社会矛盾纠纷信息自动归集方法,其特征在于,步骤五具体包括:
定义归集模型的交叉熵损失函数L(x,y)为:
L(x,y)=-y*log(f(x))-(1-y)*log(1-f(x));
其中,log是自然对数函数。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311016472.1A CN117056510A (zh) | 2023-08-10 | 2023-08-10 | 一种多元社会矛盾纠纷信息自动归集方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311016472.1A CN117056510A (zh) | 2023-08-10 | 2023-08-10 | 一种多元社会矛盾纠纷信息自动归集方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117056510A true CN117056510A (zh) | 2023-11-14 |
Family
ID=88663882
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311016472.1A Pending CN117056510A (zh) | 2023-08-10 | 2023-08-10 | 一种多元社会矛盾纠纷信息自动归集方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117056510A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118467740A (zh) * | 2024-06-27 | 2024-08-09 | 中国科学技术大学 | 基于多维度心理特征建模的矛盾纠纷行为者心理检测方法 |
| CN120015035A (zh) * | 2025-02-24 | 2025-05-16 | 四川云知声智能科技有限公司 | 基于大模型的辅助调解方法、系统及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
| CN112069313A (zh) * | 2020-08-12 | 2020-12-11 | 北京工业大学 | 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 |
| CN112712120A (zh) * | 2020-12-30 | 2021-04-27 | 佛山市时爱网络科技有限公司 | 用于纠纷处置分类的分类器的训练方法 |
| CN114564943A (zh) * | 2021-12-13 | 2022-05-31 | 南京信息工程大学 | 一种基于融合特征的海事海商长文本分类方法、装置及介质 |
| CN114722798A (zh) * | 2022-01-28 | 2022-07-08 | 大连民族大学 | 一种基于卷积神经网络和注意力机制的反讽识别模型 |
-
2023
- 2023-08-10 CN CN202311016472.1A patent/CN117056510A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
| CN112069313A (zh) * | 2020-08-12 | 2020-12-11 | 北京工业大学 | 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 |
| CN112712120A (zh) * | 2020-12-30 | 2021-04-27 | 佛山市时爱网络科技有限公司 | 用于纠纷处置分类的分类器的训练方法 |
| CN114564943A (zh) * | 2021-12-13 | 2022-05-31 | 南京信息工程大学 | 一种基于融合特征的海事海商长文本分类方法、装置及介质 |
| CN114722798A (zh) * | 2022-01-28 | 2022-07-08 | 大连民族大学 | 一种基于卷积神经网络和注意力机制的反讽识别模型 |
Non-Patent Citations (2)
| Title |
|---|
| 陈洁: "BERT编码与注意力机制结合的长文本分类研究", 《计算机时代》, 31 May 2023 (2023-05-31), pages 137 * |
| 鲍闯等: "基于融合特征的长文本分类方法", 重庆理工大学学报(自然科学), vol. 36, no. 9, 30 September 2022 (2022-09-30), pages 129 - 132 * |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118467740A (zh) * | 2024-06-27 | 2024-08-09 | 中国科学技术大学 | 基于多维度心理特征建模的矛盾纠纷行为者心理检测方法 |
| CN118467740B (zh) * | 2024-06-27 | 2024-09-24 | 中国科学技术大学 | 基于多维度心理特征建模的矛盾纠纷行为者心理检测方法 |
| CN120015035A (zh) * | 2025-02-24 | 2025-05-16 | 四川云知声智能科技有限公司 | 基于大模型的辅助调解方法、系统及存储介质 |
| CN120015035B (zh) * | 2025-02-24 | 2025-11-18 | 四川云知声智能科技有限公司 | 基于大模型的辅助调解方法、系统及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN117312577B (zh) | 基于多层语义图卷积神经网络交通事件知识图谱构建方法 | |
| CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
| CN111382575A (zh) | 一种基于联合标注和实体语义信息的事件抽取方法 | |
| CN110134757A (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
| CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
| CN114860882B (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
| CN108073569A (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
| CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
| CN120234427B (zh) | 一种基于云数据的电子政务平台管理方法及系统 | |
| CN108733748A (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
| CN113869055B (zh) | 基于深度学习的电网项目特征属性识别方法 | |
| CN116842194B (zh) | 一种电力语义知识图谱系统及方法 | |
| CN114328812A (zh) | 一种基于文本聚类的社区居民事件识别方法及装置 | |
| CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
| CN119761488B (zh) | 一种城市暴雨洪涝灾害链事理图谱构建方法及系统 | |
| CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
| CN117056510A (zh) | 一种多元社会矛盾纠纷信息自动归集方法 | |
| CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
| CN118114658A (zh) | 一种面向电网复杂调控业务的数据检索意图识别方法 | |
| CN114218406B (zh) | 基于传动知识图谱的传动解决方案生成方法及系统 | |
| CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
| CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
| CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
| CN116955818A (zh) | 一种基于深度学习的推荐系统 | |
| CN116823306A (zh) | 一种融合多算法模型的竞争对手挖掘方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |