[go: up one dir, main page]

CN118862879A - 一种基于深度学习的自动化数据标注方法及系统 - Google Patents

一种基于深度学习的自动化数据标注方法及系统 Download PDF

Info

Publication number
CN118862879A
CN118862879A CN202410872145.4A CN202410872145A CN118862879A CN 118862879 A CN118862879 A CN 118862879A CN 202410872145 A CN202410872145 A CN 202410872145A CN 118862879 A CN118862879 A CN 118862879A
Authority
CN
China
Prior art keywords
data
model
labeling
text
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410872145.4A
Other languages
English (en)
Other versions
CN118862879B (zh
Inventor
马明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiajie Technology Co ltd
Original Assignee
Juming Data Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juming Data Nanjing Co ltd filed Critical Juming Data Nanjing Co ltd
Priority to CN202410872145.4A priority Critical patent/CN118862879B/zh
Publication of CN118862879A publication Critical patent/CN118862879A/zh
Application granted granted Critical
Publication of CN118862879B publication Critical patent/CN118862879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的自动化数据标注方法及系统,涉及数据标注技术领域,包括从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;将标注后的数据存储在数据库中并实施访问控制。本发明通过预处理多源数据并构建词汇共现矩阵和混合词向量模型深入提取多源数据的词向量进行融合,根据手动标注的样本构建动态提示模板并基于动态模板数据构建深度学习模型进行自动化数据标注,提供了高质量的词向量进行模型的训练有助于模型更准确的执行标注任务,提高了数据标注的自动化水平和标注数据的质量。

Description

一种基于深度学习的自动化数据标注方法及系统
技术领域
本发明涉及数据标注技术领域,特别是一种基于深度学习的自动化数据标注方法及系统。
背景技术
随着信息技术的迅速发展,数据量呈爆炸性增长,文本数据在互联网上的快速积累,数量庞大,这些文本数据来源广泛,包括社交媒体、在线新闻、学术论文等,它们成为了机器学习和数据分析不可或缺的资源,在这种背景下,自动化数据标注技术尤为关键,因为它可以为机器学习模型提供训练数据,从而支持各种自然语言处理应用,如情感分析、主题识别等,深度学习作为一种强大的学习工具,在处理这些复杂的文本数据上展示了巨大的潜力,尽管深度学习已被广泛应用,但大多数系统还是依赖于单一数据源或简单的词向量模型,这限制了模型处理多样化文本数据的能力,传统方法在多源数据环境下特征融合能力还有待提升,数据标注的准确性和一致性也有待进一步提高。
发明内容
鉴于上述现有的基于深度学习的自动化数据标注方法及系统中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于大多数系统还是依赖于单一数据源或简单的词向量模型,这限制了模型处理多样化文本数据的能力,传统方法在多源数据环境下特征融合能力还有待提升,数据标注的准确性和一致性也有待进一步提高。
为解决上述技术问题,本发明提供如下技术方案:一种基于深度学习的自动化数据标注方法,其包括,从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;将标注后的数据存储在数据库中并实施访问控制。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述从多源数据源中收集文本数据进行预处理并提取数据词向量指从各种数据源中收集文本数据,对文本数据进行预处理,规范化文本,转换所有字符为小写,删除冗余的空格和标点符号,使用Spacy将文本分解为单独的词汇单元并标记每个单词的词性;
根据预处理后的文本数据生成词汇共现矩阵,捕捉词汇之间的语义关联,选择窗口大小为5个单词,滑动窗口遍历文本数据,记录窗口内词对的共现情况,统计词对在窗口内共现的次数,生成共现矩阵;
使用图数据结构创建词汇关系图,将共现矩阵中的每个词汇作为一个节点,词汇之间的共现关系作为边,词对共现频率作为边的权重;
使用TF-IDF对边权重进行调整,计算调整后的边权重:
式中,wbc是词对vb和vc的边权重,Cbc是词对vb和vc的共现次数,f(vb)和f(vc)分别为词对vb和vc在文本中出现的频率;
构建混合词向量模型,包括GloVe模型和BERT模型,使用预训练的GloVe模型将语义关系图中每个词汇节点映射到对应的GloVe词向量,使用预训练的BERT模型将文本通过BERT的分词器处理,将语义关系图中的词汇转换成BERT理解的令牌,将处理好的令牌输入BERT模型,获取每个令牌基于上下文的嵌入输出向量;
配置两个主输入通道,一个通道处理从GloVe提取的静态词向量,另一个通道处理从BERT模型获得的动态词向量;
为GloVe通道配置线性变换层,将300维的GloVe向量转换为与BERT向量相兼容的维度,初始化线性层的权重和偏置;
为BERT通道配置全连接层,将BERT向量的维度与GloVe向量维度保持一致;
构建图神经网络,使用词汇关系图中每个节点的特征进行初始化,每个节点a的初始化节点特征为词汇在共现矩阵中的行向量,使用平均聚合方法,将每个节点的特征更新为其邻居节点特征的平均值:
式中,是第l+1层中节点pq是特征向量,N(q)是节点pq的邻居节点集合,|N(q)|是邻居节点的数量,σ是ReLU激活函数,y是q的邻居节点;
为每一层节点特征执行相同的聚合操作让信息逐层传递得到最终的节点特征,将得到的节点特征输入进MSLFN网络中,通过多尺度卷积层提取不同尺度的特征;
通过加权平均方式将多尺度特征融合,生成最终的多尺度词向量表示,将得到的综合词向量通过输出层输出;
使用预处理后的文本数据作为训练数据输入混合词向量模型中进行迭代训练,定义损失函数和Adam优化器进行模型参数迭代优化,当在连续迭代过程中混合词向量模型的损失不再明显下降则停止迭代输出模型参数更新混合词向量模型;
将需要标注的数据输入混合词向量模型中得到数据的综合词向量,基于综合词向量生成词向量集合。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述对小规模的文本数据进行初步手动标注指使用LightTag作为标注工具,从预处理后的数据中选择不同类别和主题的数据并且随机抽取1%作为标注样本,每个文本由两名标注员独立的对文本进行实体类型,情感以及分类的标注,对于标注不一致的文本进行分析与修改,统一标注结果。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述构建动态提示模板包括,
使用聚类算法对词向量进行聚类,测试聚类算法所需聚类数,确定聚类数的测试范围,逐渐增加聚类数g,使用K-means算法对每个g值进行聚类,计算每次聚类的总群内平方和;
使用数据可视化库绘制g值与对应的WSS的图表的折线图,识别WSS随g增加而下降的速度突然变缓的肘点得到g值;
应用K-means算法到词向量数据集上进行聚类,计算轮廓系数评估各聚类的质量;
轮廓系数的值范围为[-1,1],选择轮廓系数在[0.5,1]范围内的聚类进行进一步分析,从每个选定的聚类中提取出现频率高的实体和情感组合,创建动态提示模板,每个模板中包含多个实体类型和情感的组合,设置周期性的评估流程,若监测到新的数据显现出的新的实体-情感组合,则根据发现的新趋势更新现有的动态提示模板。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述基于动态提示模板构建深度学习模型进行自动化数据标注包括,
选择使用OpenAI提供的GPT-3模型,获取GPT-3的访问权限,初始化模型的基本配置;
结合小规模的手动标注数据和动态提示模板中的数据生成包含标注指示的训练样本,使用训练样本对GPT-3进行fine-tuning,调整fine-tuning超参数,包括学习率和训练轮数,定义交叉熵损失函数,通过反向传播算法计算损失函数关于每个权重的梯度,应用梯度下降更新权重,在训练过程中,实时计算模型损失,若模型损失在连续3个周期中没有下降,则停止训练得到GPT-3模型;
将训练好的GPT-3模型通过API集成到标注系统中,将未标注的文本和相关的动态提示模板数据发送至GPT-3模型中,GPT-3模型根据提供的模板内容生成相应的文本标注。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述评估标注数据的质量指从标注数据中随机选取10%作为验证集,计算验证集的准确率、精确率、召回率和F1得分评估标注的质量;
对于检查出的标注错误进行修正并分析错误类型,根据发现的错误调整模型的训练参数以及标注指南,更新动态提示模板,记录评估结果和修正措施并生成评估报告。
作为本发明所述基于深度学习的自动化数据标注方法的一种优选方案,其中:所述将标注后的数据存储在数据库中实施访问控制指选择PostgreSQL作为存储标注数据的数据库系统,建立表格结构存储各种标注数据以及错误标注数据的评估报告,标注数据包括标注的文本、标注类型、标准者信息和时间戳;
实施访问控制策略,只允许授权用户访问敏感数据,定期进行数据备份,包括全备份和增量备份。
本发明的另外一个目的是提供一种基于深度学习的自动化数据标注系统,其包括,
数据收集模块,用于从多种数据源收集文本数据并对文本数据进行初步的处理并构建混合词向量模型生成文本数据的综合词向量;
动态提示模板模块,用于对小规模文本数据进行手动标注并基于生成的综合词向量构建动态提示模板;
自动标注模块,用于构建深度学习模型中的GPT-3模型并结合手动标注数据和动态提示模板进行深度学习训练,使用训练好的模型进行自动化数据标注;
质量评估模块,用于从自动化标注的结果中抽取一部分数据进行数据质量验证并根据检查到的结果进行错误修正并生成评估报告;
数据存储模块,用于将标注的数据以及错误标注的评估报告进行存储并进行访问控制和定期备份。
一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于深度学习的自动化数据标注方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于深度学习的自动化数据标注方法的步骤。
本发明有益效果为:本发明通过预处理多源数据并构建词汇共现矩阵和混合词向量模型深入提取多源数据的词向量进行融合,根据手动标注的样本构建动态提示模板并基于动态模板数据构建深度学习模型进行自动化数据标注,提供了高质量的词向量进行模型的训练有助于模型更准确的执行标注任务,提高了数据标注的自动化水平和标注数据的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于深度学习的自动化数据标注方法的流程示意图。
图2为基于深度学习的自动化数据标注系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式作详细地说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性地与其他实施例互相排斥的实施例。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种基于深度学习的自动化数据标注方法,基于深度学习的自动化数据标注方法包括,
S1、从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;
具体的,从多源数据源中收集文本数据进行预处理并提取数据词向量指从各种数据源中收集文本数据,对文本数据进行预处理,规范化文本,转换所有字符为小写,删除冗余的空格和标点符号,使用Spacy将文本分解为单独的词汇单元并标记每个单词的词性;
根据预处理后的文本数据生成词汇共现矩阵,捕捉词汇之间的语义关联,选择窗口大小为5个单词,滑动窗口遍历文本数据,记录窗口内词对的共现情况,统计词对在窗口内共现的次数,生成共现矩阵:
式中,Cbc是词对vb和vc的共现次数,N的总窗口数,wk是第k个窗口,f(vb,vc|wk)是在第k个窗口内词对vb和vc的共现频率;
使用图数据结构创建词汇关系图,将共现矩阵中的每个词汇作为一个节点,词汇之间的共现关系作为边,词对共现频率作为边的权重;
使用TF-IDF对边权重进行调整,计算调整后的边权重:
式中,wbc是词对vb和vc的边权重,Cbc是词对vb和vc的共现次数,f(vb)和f(vc)分别为词对vb和vc在文本中出现的频率;
构建混合词向量模型,包括GloVe模型和BERT模型,使用预训练的GloVe模型将语义关系图中每个词汇节点映射到对应的GloVe词向量,使用预训练的BERT模型将文本通过BERT的分词器处理,将语义关系图中的词汇转换成BERT理解的令牌,将处理好的令牌输入BERT模型,获取每个令牌基于上下文的嵌入输出向量;
配置两个主输入通道,一个通道处理从GloVe提取的静态词向量,另一个通道处理从BERT模型获得的动态词向量;
为GloVe通道配置线性变换层,将300维的GloVe向量转换为与BERT向量相兼容的维度,初始化线性层的权重和偏置;
为BERT通道配置全连接层,将BERT向量的维度与GloVe向量维度保持一致;
构建图神经网络,使用词汇关系图中每个节点的特征进行初始化,每个节点a的初始化节点特征为词汇在共现矩阵中的行向量,使用平均聚合方法,将每个节点的特征更新为其邻居节点特征的平均值:
式中,是第l+1层中节点pq是特征向量,N(q)是节点pq的邻居节点集合,|N(q)|是邻居节点的数量,σ是ReLU激活函数,y是q的邻居节点;
为每一层节点特征执行相同的聚合操作让信息逐层传递得到最终的节点特征,将得到的节点特征输入进MSLFN网络中,通过多尺度卷积层提取不同尺度的特征:
式中,表示尺度s在位置(i,j)提取的特征,是卷积核在位置(m,n)的权重,b(s)是尺度s的偏置项,ks是卷积核大小,Xi+m-1,j+n-1是输入向量在位置(i+m-1,j+n-1)的值;
通过加权平均方式将多尺度特征融合,生成最终的多尺度词向量表示:
式中,L是融合后的特征在位置(i,j)的值,αs是在尺度s的权重,S是总的尺度数;
将得到的综合词向量通过输出层输出;
使用预处理后的文本数据作为训练数据输入混合词向量模型中进行迭代训练,定义损失函数和Adam优化器进行模型参数迭代优化,当在连续迭代过程中混合词向量模型的损失不再明显下降则停止迭代输出模型参数更新混合词向量模型;
将需要标注的数据输入混合词向量模型中得到数据的综合词向量,基于综合词向量生成词向量集合。
通过整合多源数据源,系统能够处理来自不同领域和风格的文本数据,增强模型的通用性和适应性,使用图数据结构创建词汇关系图,通过TF-IDF调整边权重,有效地突出重要的词汇关系,减小高频低信息量词汇的影响,提高图结构的表达能力,结合GloVe模型的静态词向量和BERT模型的动态词向量,形成混合词向量模型,兼具全局语义信息和上下文依赖性,提高词向量表示的丰富性和准确性,通过图神经网络聚合邻居节点信息,逐层传递和更新节点特征,结合多尺度卷积层提取不同层次的特征,最终生成多尺度词向量表示,提高特征提取的全面性和深度,使用Adam优化器和损失函数对模型进行迭代训练,确保模型参数的有效更新和优化,达到最优状态,提高模型的准确性和鲁棒性,基于混合词向量模型生成综合词向量,捕捉文本中的复杂语义关系,支持高效准确的数据标注,提高标注质量。
进一步地,对小规模的文本数据进行初步手动标注指使用LightTag作为标注工具,从预处理后的数据中选择不同类别和主题的数据并且随机抽取1%作为标注样本,每个文本由两名标注员独立的对文本进行实体类型,情感以及分类的标注,对于标注不一致的文本进行分析与修改,统一标注结果。
LightTag提供了一个高效的标注平台,支持多种标注任务,具有直观的用户界面和团队协作功能,通过使用LightTag,标注员可以快速、准确地完成标注任务,提高了标注效率和质量,通过随机抽取1%的数据进行标注,可以在保证数据代表性的前提下,减少标注工作量,降低成本,随机抽样的方法确保了所选样本的多样性和全面性,避免了偏差,每个文本由两名标注员独立进行标注,确保标注结果的准确性和一致性,当两名标注员的标注结果不一致时,通过进一步分析和讨论,统一标注结果,提高了标注质量,对标注不一致的文本进行分析与修改,统一标注结果,确保数据的一致性和准确性,这一过程不仅提高了标注质量,还帮助标注员在不断的反馈中提升技能和一致性。
更进一步地,构建动态提示模板包括,
使用聚类算法对词向量进行聚类,测试聚类算法所需聚类数,确定聚类数的测试范围,逐渐增加聚类数g,使用K-means算法对每个g值进行聚类,计算每次聚类的总群内平方和WSS:
式中,g是聚类的数量,Qd是第d个聚类,x是聚类Qd的数据点,μd是第d个聚类的中心;
使用数据可视化库绘制g值与对应的WSS的图表的折线图,识别WSS随g增加而下降的速度突然变缓的肘点得到g值;
应用K-means算法到词向量数据集上进行聚类,计算轮廓系数评估各聚类的质量:
式中,C是轮廓系数,r是同一聚类中样本间的平均距离,t是最近聚类中的样本与当前样本的平均距离;
轮廓系数的值范围为[-1,1],选择轮廓系数在[0.5,1]范围内的聚类进行进一步分析,从每个选定的聚类中提取出现频率高的实体和情感组合,创建动态提示模板,每个模板中包含多个实体类型和情感的组合,设置周期性的评估流程,若监测到新的数据显现出的新的实体-情感组合,则根据发现的新趋势更新现有的动态提示模板。
通过使用聚类算法对词向量进行聚类,可以有效地识别和分类文本数据中的语义模式,聚类算法将相似的词汇聚集在一起,有助于提取文本的主要主题和情感特征,通过测试不同的聚类数,可以确定最优的聚类数g,从而提高聚类结果的质量和准确性,采用肘部法则和轮廓系数方法进行评估,可以科学合理地选择聚类数,计算每个聚类数g对应的WSS并绘制折线图,可以直观地观察聚类效果随聚类数变化的趋势,通过识别肘点,可以确定聚类数的最佳值,轮廓系数综合考虑了聚类的凝聚度和分离度,是评估聚类质量的有效指标,通过计算轮廓系数,可以筛选出高质量的聚类结果,确保动态提示模板的准确性和可靠性,从高质量的聚类结果中提取频繁出现的实体和情感组合,创建动态提示模板,可以为后续的文本处理和分析提供结构化的指导信息,提高标注和分析的效率和准确性。
S2、基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;
具体的,基于动态提示模板构建深度学习模型进行自动化数据标注包括,
选择使用OpenAI提供的GPT-3模型,获取GPT-3的访问权限,初始化模型的基本配置;
结合小规模的手动标注数据和动态提示模板中的数据生成包含标注指示的训练样本,使用训练样本对GPT-3进行fine-tuning,调整fine-tuning超参数,包括学习率和训练轮数,定义交叉熵损失函数,通过反向传播算法计算损失函数关于每个权重的梯度,应用梯度下降更新权重,在训练过程中,实时计算模型损失,若模型损失在连续3个周期中没有下降,则停止训练得到GPT-3模型;
将训练好的GPT-3模型通过API集成到标注系统中,将未标注的文本和相关的动态提示模板数据发送至GPT-3模型中,GPT-3模型根据提供的模板内容生成相应的文本标注。
选择OpenAI提供的GPT-3模型进行自动化数据标注,可以充分利用其强大的语言生成和理解能力,提高标注的准确性和效率,GPT-3模型具有丰富的语义理解能力,能够处理复杂的文本标注任务,通过获取GPT-3的访问权限并初始化模型的基本配置,可以确保模型在最佳状态下运行,充分发挥其性能优势,初始化配置包括设置模型参数、加载预训练权重等步骤,结合小规模的手动标注数据和动态提示模板中的数据生成训练样本,可以提高训练数据的质量和多样性,增强模型的泛化能力和适应性,动态提示模板提供了结构化的指导信息,有助于模型更好地理解和处理文本数据,使用包含标注指示的训练样本对GPT-3进行fine-tuning,可以使模型更好地适应具体任务需求,进一步提高标注的准确性和可靠性,fine-tuning过程中,通过调整学习率和训练轮数等超参数,优化模型性能。
进一步地,评估标注数据的质量指从标注数据中随机选取10%作为验证集,
计算验证集的准确率、精确率、召回率和F1得分评估标注的质量;
对于检查出的标注错误进行修正并分析错误类型,根据发现的错误调整模型的训练参数以及标注指南,更新动态提示模板,记录评估结果和修正措施并生成评估报告。
从标注数据中随机抽取10%作为验证集,可以保证样本的多样性和代表性,使评估结果更加客观准确,随机抽样减少了样本选择偏差,提高了模型性能评估的可靠性,通过计算验证集的准确率、精确率、召回率和F1得分,可以全面评估标注数据的质量和模型的性能,这些指标能够揭示模型在不同方面的优劣势,指导后续的模型优化和改进,对检查出的标注错误进行修正,并分析错误类型,有助于发现标注过程中的常见问题和薄弱环节,通过分析错误类型,可以针对性地改进标注指南和模型训练,减少类似错误的发生,根据发现的标注错误,调整模型的训练参数和标注指南,可以提高模型的适应性和标注准确性,动态调整标注指南,确保标注过程始终符合最新的质量标准,根据标注错误和模型优化结果,更新动态提示模板,使其能够反映最新的标注标准和数据特征,更新动态提示模板有助于提高标注效率和质量,减少标注员的工作量。
S3、将标注后的数据存储在数据库中并实施访问控制;
具体的,将标注后的数据存储在数据库中实施访问控制指选择PostgreSQL作为存储标注数据的数据库系统,建立表格结构存储各种标注数据以及错误标注数据的评估报告,标注数据包括标注的文本、标注类型、标准者信息和时间戳;
实施访问控制策略,只允许授权用户访问敏感数据,定期进行数据备份,包括全备份和增量备份。
选择PostgreSQL作为数据库系统,利用其强大的数据处理能力和丰富的功能,可以高效地存储和管理标注数据,PostgreSQL支持复杂查询和事务处理,确保数据的一致性和完整性,通过建立表格结构,可以系统地存储和管理各种标注数据及错误标注数据的评估报告,表格结构便于数据的分类和查询,提高了数据的组织和检索效率,存储标注数据时包括详细的信息,如标注的文本、标注类型、标准者信息和时间戳,有助于全面记录和追踪标注过程,时间戳能够精确记录数据的生成和修改时间,方便历史数据的管理和查询。
实施例2
参照图2,为本发明第二个实施例,该实施例不同于上一个实施例,提供了一种基于深度学习的自动化数据标注系统,其包括,
数据收集模块,用于从多种数据源收集文本数据并对文本数据进行初步的处理并构建混合词向量模型生成文本数据的综合词向量;
动态提示模板模块,用于对小规模文本数据进行手动标注并基于生成的综合词向量构建动态提示模板;
自动标注模块,用于构建深度学习模型中的GPT-3模型并结合手动标注数据和动态提示模板进行深度学习训练,使用训练好的模型进行自动化数据标注;
质量评估模块,用于从自动化标注的结果中抽取一部分数据进行数据质量验证并根据检查到的结果进行错误修正并生成评估报告;
数据存储模块,用于将标注的数据以及错误标注的评估报告进行存储并进行访问控制和定期备份。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方案中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方案中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

Claims (10)

1.一种基于深度学习的自动化数据标注方法,其特征在于:包括,
从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;
基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;
将标注后的数据存储在数据库中并实施访问控制。
2.如权利要求1所述的基于深度学习的自动化数据标注方法,其特征在于:所述从多源数据源中收集文本数据进行预处理并提取数据词向量指从各种数据源中收集文本数据,对文本数据进行预处理,规范化文本,转换所有字符为小写,删除冗余的空格和标点符号,使用Spacy将文本分解为单独的词汇单元并标记每个单词的词性;
根据预处理后的文本数据生成词汇共现矩阵,捕捉词汇之间的语义关联,选择窗口大小为5个单词,滑动窗口遍历文本数据,记录窗口内词对的共现情况,统计词对在窗口内共现的次数,生成共现矩阵;
使用图数据结构创建词汇关系图,将共现矩阵中的每个词汇作为一个节点,词汇之间的共现关系作为边,词对共现频率作为边的权重;
使用TF-IDF对边权重进行调整,计算调整后的边权重:
式中,wbc是词对vb和vc的边权重,Cbc是词对vb和vc的共现次数,f(vb)和f(vc)分别为词对vb和vc在文本中出现的频率;
构建混合词向量模型,包括GloVe模型和BERT模型,使用预训练的GloVe模型将语义关系图中每个词汇节点映射到对应的GloVe词向量,使用预训练的BERT模型将文本通过BERT的分词器处理,将语义关系图中的词汇转换成BERT理解的令牌,将处理好的令牌输入BERT模型,获取每个令牌基于上下文的嵌入输出向量;
配置两个主输入通道,一个通道处理从GloVe提取的静态词向量,另一个通道处理从BERT模型获得的动态词向量;
为GloVe通道配置线性变换层,将300维的GloVe向量转换为与BERT向量相兼容的维度,初始化线性层的权重和偏置;
为BERT通道配置全连接层,将BERT向量的维度与GloVe向量维度保持一致;
构建图神经网络,使用词汇关系图中每个节点的特征进行初始化,每个节点a的初始化节点特征为词汇在共现矩阵中的行向量,使用平均聚合方法,将每个节点的特征更新为其邻居节点特征的平均值:
式中,是第l+1层中节点pq是特征向量,N(q)是节点pq的邻居节点集合,|N(q)|是邻居节点的数量,σ是ReLU激活函数,y是q的邻居节点;
为每一层节点特征执行相同的聚合操作让信息逐层传递得到最终的节点特征,将得到的节点特征输入进MSLFN网络中,通过多尺度卷积层提取不同尺度的特征;
通过加权平均方式将多尺度特征融合,生成最终的多尺度词向量表示,将得到的综合词向量通过输出层输出;
使用预处理后的文本数据作为训练数据输入混合词向量模型中进行迭代训练,定义损失函数和Adam优化器进行模型参数迭代优化,当在连续迭代过程中混合词向量模型的损失不再明显下降则停止迭代输出模型参数更新混合词向量模型;
将需要标注的数据输入混合词向量模型中得到数据的综合词向量,基于综合词向量生成词向量集合。
3.如权利要求2所述的基于深度学习的自动化数据标注方法,其特征在于:所述对小规模的文本数据进行初步手动标注指使用LightTag作为标注工具,从预处理后的数据中选择不同类别和主题的数据并且随机抽取1%作为标注样本,每个文本由两名标注员独立的对文本进行实体类型,情感以及分类的标注,对于标注不一致的文本进行分析与修改,统一标注结果。
4.如权利要求3所述的基于深度学习的自动化数据标注方法,其特征在于:所述构建动态提示模板包括,
使用聚类算法对词向量进行聚类,测试聚类算法所需聚类数,确定聚类数的测试范围,逐渐增加聚类数g,使用K-means算法对每个g值进行聚类,计算每次聚类的总群内平方和;
使用数据可视化库绘制g值与对应的WSS的图表的折线图,识别WSS随g增加而下降的速度突然变缓的肘点得到g值;
应用K-means算法到词向量数据集上进行聚类,计算轮廓系数评估各聚类的质量;
轮廓系数的值范围为[-1,1],选择轮廓系数在[0.5,1]范围内的聚类进行进一步分析,从每个选定的聚类中提取出现频率高的实体和情感组合,创建动态提示模板,每个模板中包含多个实体类型和情感的组合,设置周期性的评估流程,若监测到新的数据显现出的新的实体-情感组合,则根据发现的新趋势更新现有的动态提示模板。
5.如权利要求4所述的基于深度学习的自动化数据标注方法,其特征在于:所述基于动态提示模板构建深度学习模型进行自动化数据标注包括,
选择使用OpenAI提供的GPT-3模型,获取GPT-3的访问权限,初始化模型的基本配置;
结合小规模的手动标注数据和动态提示模板中的数据生成包含标注指示的训练样本,使用训练样本对GPT-3进行fine-tuning,调整fine-tuning超参数,包括学习率和训练轮数,定义交叉熵损失函数,通过反向传播算法计算损失函数关于每个权重的梯度,应用梯度下降更新权重,在训练过程中,实时计算模型损失,若模型损失在连续3个周期中没有下降,则停止训练得到GPT-3模型;
将训练好的GPT-3模型通过API集成到标注系统中,将未标注的文本和相关的动态提示模板数据发送至GPT-3模型中,GPT-3模型根据提供的模板内容生成相应的文本标注。
6.如权利要求5所述的基于深度学习的自动化数据标注方法,其特征在于:所述评估标注数据的质量指从标注数据中随机选取10%作为验证集,计算验证集的准确率、精确率、召回率和F1得分评估标注的质量;
对于检查出的标注错误进行修正并分析错误类型,根据发现的错误调整模型的训练参数以及标注指南,更新动态提示模板,记录评估结果和修正措施并生成评估报告。
7.如权利要求6所述的基于深度学习的自动化数据标注方法,其特征在于:所述将标注后的数据存储在数据库中实施访问控制指选择PostgreSQL作为存储标注数据的数据库系统,建立表格结构存储各种标注数据以及错误标注数据的评估报告,标注数据包括标注的文本、标注类型、标准者信息和时间戳;
实施访问控制策略,只允许授权用户访问敏感数据,定期进行数据备份,包括全备份和增量备份。
8.一种基于权利要求1-7任一所述的基于深度学习的自动化数据标注方法的基于深度学习的自动化数据标注系统,其特征在于:包括,
数据收集模块,用于从多种数据源收集文本数据并对文本数据进行初步的处理并构建混合词向量模型生成文本数据的综合词向量;
动态提示模板模块,用于对小规模文本数据进行手动标注并基于生成的综合词向量构建动态提示模板;
自动标注模块,用于构建深度学习模型中的GPT-3模型并结合手动标注数据和动态提示模板进行深度学习训练,使用训练好的模型进行自动化数据标注;
质量评估模块,用于从自动化标注的结果中抽取一部分数据进行数据质量验证并根据检查到的结果进行错误修正并生成评估报告;
数据存储模块,用于将标注的数据以及错误标注的评估报告进行存储并进行访问控制和定期备份。
9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于深度学习的自动化数据标注方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于深度学习的自动化数据标注方法的步骤。
CN202410872145.4A 2024-07-01 2024-07-01 一种基于深度学习的自动化数据标注方法及系统 Active CN118862879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410872145.4A CN118862879B (zh) 2024-07-01 2024-07-01 一种基于深度学习的自动化数据标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410872145.4A CN118862879B (zh) 2024-07-01 2024-07-01 一种基于深度学习的自动化数据标注方法及系统

Publications (2)

Publication Number Publication Date
CN118862879A true CN118862879A (zh) 2024-10-29
CN118862879B CN118862879B (zh) 2025-03-14

Family

ID=93157036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410872145.4A Active CN118862879B (zh) 2024-07-01 2024-07-01 一种基于深度学习的自动化数据标注方法及系统

Country Status (1)

Country Link
CN (1) CN118862879B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119149919A (zh) * 2024-11-15 2024-12-17 厦门两万里文化传媒有限公司 基于主动学习的标注数据质量评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241243A (zh) * 2020-01-13 2020-06-05 华中师范大学 面向知识测量的试题、知识、能力张量构建与标注方法
US20220051083A1 (en) * 2020-08-11 2022-02-17 Nec Laboratories America, Inc. Learning word representations via commonsense reasoning
US20230244987A1 (en) * 2022-02-01 2023-08-03 Capital One Services, Llc Accelerated data labeling with automated data profiling for training machine learning predictive models
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法
CN118069785A (zh) * 2024-02-26 2024-05-24 郑州大学 一种多特征融合冒犯性文本检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241243A (zh) * 2020-01-13 2020-06-05 华中师范大学 面向知识测量的试题、知识、能力张量构建与标注方法
US20220051083A1 (en) * 2020-08-11 2022-02-17 Nec Laboratories America, Inc. Learning word representations via commonsense reasoning
US20230244987A1 (en) * 2022-02-01 2023-08-03 Capital One Services, Llc Accelerated data labeling with automated data profiling for training machine learning predictive models
CN118069785A (zh) * 2024-02-26 2024-05-24 郑州大学 一种多特征融合冒犯性文本检测方法及装置
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YE, FAN: "Co-occurrence statistics-based global and local feature learning for graph networks", 《 SOFT COMPUTING》, 15 July 2023 (2023-07-15) *
何彬;李心宇;陈蓓蕾;夏盟;曾致中;: "基于属性关系深度挖掘的试题知识点标注模型", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) *
陈航: "面向图数据分类的正例未标注学习算法研究及系统实现", 《中国优秀硕士学位论文全文数据库》, 16 December 2022 (2022-12-16) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119149919A (zh) * 2024-11-15 2024-12-17 厦门两万里文化传媒有限公司 基于主动学习的标注数据质量评估方法

Also Published As

Publication number Publication date
CN118862879B (zh) 2025-03-14

Similar Documents

Publication Publication Date Title
Asmussen et al. Smart literature review: a practical topic modelling approach to exploratory literature review
CN114548321B (zh) 基于对比学习的自监督舆情评论观点对象分类方法
Ciurumelea et al. Suggesting comment completions for python using neural language models
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
Somogyi The application of artificial intelligence
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN119026597A (zh) 一种面向科技情报分析的科技情报源评估方法及装置
Xu et al. A GitHub-based data collection method for software defect prediction
CN119378494A (zh) 一种面向金融领域知识图谱构建的实体关系抽取方法及系统
US20250245665A1 (en) Fraud risk analysis system incorporating a large language model
CN118862879B (zh) 一种基于深度学习的自动化数据标注方法及系统
CN119942206A (zh) 影像异常状态分类方法、装置、计算机设备及存储介质
Bernhard-Harrer et al. Beyond standardization: A comprehensive review of topic modeling validation methods for computational social science research
CN120337938A (zh) 敏感信息识别方法、装置、设备、存储介质及程序产品
CN114911928A (zh) 一种长文本自动分类推荐方法及其装置
CN120216744A (zh) 一种基于知识蒸馏的烟草舆情智能监测分析方法
CN118350368B (zh) 一种基于nlp技术的大语言模型的多文档摘编方法
CN118467765B (zh) 提高跨模态图像检索模型泛化能力的方法、装置及介质
Zhu et al. Detecting authorship between generative AI models and humans: a Burrows’s Delta approach
CN117851860A (zh) 一种自动生成数据分类分级模板的方法
CN117875706A (zh) 一种基于ai的评级工艺数字化管理方法
CN117010397A (zh) 基于高效指针网络面向矛盾调解文本的命名实体识别方法
CN117332787A (zh) 一种基于文本聚类语义云的可视化文本数据分类方法
Hrín Methods for investigating the external and internal validity of machine learned signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20250221

Address after: Building C5, 11th Floor, R&D Room 2, Rongke Zhigu Industrial Project (Phase III), No. 555 Wenhua Avenue, Hongshan District, Wuhan City, Hubei Province 430074

Applicant after: Jiajie Technology Co.,Ltd.

Country or region after: China

Address before: Room 306, 3rd Floor, No. 138 Fengtai South Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Applicant before: Juming Data (Nanjing) Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 430000 Hubei Province, Wuhan City, Wuchang District, Yuntai Road No. 22, Lijiang Longcheng Building 1, 5th Floor

Patentee after: Jiajie Technology Co.,Ltd.

Country or region after: China

Address before: Building C5, 11th Floor, R&D Room 2, Rongke Zhigu Industrial Project (Phase III), No. 555 Wenhua Avenue, Hongshan District, Wuhan City, Hubei Province 430074

Patentee before: Jiajie Technology Co.,Ltd.

Country or region before: China