[go: up one dir, main page]

CN115859108A - 样本扩充方法、装置、设备、存储介质及产品 - Google Patents

样本扩充方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN115859108A
CN115859108A CN202211585069.6A CN202211585069A CN115859108A CN 115859108 A CN115859108 A CN 115859108A CN 202211585069 A CN202211585069 A CN 202211585069A CN 115859108 A CN115859108 A CN 115859108A
Authority
CN
China
Prior art keywords
sample
expanded
image
subset
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211585069.6A
Other languages
English (en)
Inventor
陈祥
李斌泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202211585069.6A priority Critical patent/CN115859108A/zh
Publication of CN115859108A publication Critical patent/CN115859108A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种样本扩充方法、装置、设备、存储介质及产品。通过获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;根据中间结果集和测试正样本子集确定待扩充样本;根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。本申请实施例的技术方案,无需在图像分类模型训练初始为其提供大量成熟数据,而是在训练过程中实现了待扩充样本的自适应确定,及样本的针对性扩充,减少了所需的原始样本数据量,降低了人工收集数据成本。

Description

样本扩充方法、装置、设备、存储介质及产品
技术领域
本申请实施例涉及机器学习技术领域,尤其涉及一种样本扩充方法、装置、设备、存储介质及产品。
背景技术
随着科学技术的发展与进步,内容安全已逐渐成为互联网生态治理的主要内容,庞大的互联网图像数据若仅依靠人工审核不仅识别效率较低,还会极大地耗费人力资源,因此在图像内容审核等风控工作中,主流的审核算法已逐渐转变为依据计算机视觉的人工智能审核。但该方法往往需要积累较大的数据量,才会保证训练得到的模型由较好的泛化能力和实际应用价值,而针对模型进行初始训练时,由于数据积累量不足,难以提供足量的训练样本。
目前,针对模型训练前期样本量不足的问题,常采用以下两种方式解决:一是通过人工收集更多数据以缓解数据不足的问题;二是通过使用基于视觉系统的生成技术,以得到更多与训练需求相关的,语义相近的样本。
然而,由于进行模型训练所需正样本在全部数据中占比极小,人工收集数据将投入极大的研发周期和时间成本,且人工标注本身存在一定的主观性,难以完全适配训练需求;而采用视觉系统的生成技术得到的训练样本,往往存在生成结果不可控,无法得到理想样本,以及与真实样本相差较大的问题,难以适配采用少量初始数据进行模型训练的需求。
发明内容
本申请实施例提供了一种样本扩充方法、装置、设备、存储介质及产品,降低了样本扩充所需时间,提升了扩充样本与实际模型训练需求的贴近度,降低了模型训练过程中数据收集和标注的时间成本与人力成本。
根据本申请的一方面,提供了一种样本扩充方法,该方法包括:
获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;
将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;
根据中间结果集和测试正样本子集确定待扩充样本;
根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。
根据本申请的另一方面,提供了一种样本扩充装置,该装置包括:
分类模型确定模块,用于获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;
中间集确定模块,用于将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;
待扩充样本确定模块,用于根据中间结果集和测试正样本子集确定待扩充样本;
扩充集确定模块,用于根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。
根据本申请的另一方面,提供了一种样本扩充设备,该设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本申请任一实施例的样本扩充方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于使处理器执行时实现本申请任一实施例的样本扩充方法。
本申请实施例中提供的样本扩充方案,通过获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;根据中间结果集和测试正样本子集确定待扩充样本;根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。通过采用上述技术方案,针对任务初始图像分类模型未经训练的情况,首先采用较少的原始样本集完成一次图像分类模型的训练,再通过将原始样本集中的测试正样本子集,输入至训练好的图像分类模型中得到中间结果集,根据测试正样本子集和中间结果集对应确定待扩充样本,进而依据确定出的待扩充样本在预设数据库中筛选得到扩充样本,将扩充样本加入至原始样本集中完成样本扩充,使得依据扩充后的扩充样本集进行训练的图像分类模型可具有更好的图像分类效果。无需在图像分类模型的训练初始即为其提供大量成熟数据,而是在训练过程中实现了待扩充样本的自适应确定,以及样本的针对性扩充,减少了所需的原始样本数据量,进以降低了人工收集数据的时间成本和人力成本,同时由于针对性的确定出需要进行扩充的待扩充样本,提升了确定出的扩充样本的精准度,使得确定出的扩充样本更符合实际模型训练的需求,进而提升了依据扩充后样本训练所得图像分类模型的图像审核识别效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种样本扩充方法的流程示意图;
图2为本申请实施例提供的另一种样本扩充方法的流程示意图;
图3为本申请实施例提供的一种将中间结果集中各预测结果向量,与各图像对应的标签进行比对,确定各预测结果向量对应的不确定度集合的流程示意图;
图4为本申请实施例提供的一种根据各不确定度集合确定待扩充样本的流程示意图;
图5为本申请实施例提供的一种基于内容的图像检索的计算过程示例图;
图6为本申请实施例提供的一种样本扩充装置的结构示意图;
图7为本申请实施例提供的一种样本扩充设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的样本扩充方法,可适用于对图像审核场景中,针对图像审核任务初始执行,所需的图像分类模型尚未进行训练的情况。由于图像分类模型在训练时,用于训练的正样本为图像审核过程中存在违规的图像,而该类正样本在实际获取的审核图像中占比极小。训练一个满足实际图像审核需求的图像分类模型所需的正样本数量,往往需要在标注数百万甚至数千万的审核图像才能够得到,需要耗费大量的时间和人力成本。本申请实施例提供了一种样本扩充方法,实现了以少量正样本为原始样本,在针对图像分类模型的训练过程中对原始样本的自适应补充,并完成对图像分类模型的训练,极大降低了构建训练样本时数据收集和标注的时间与人力成本。
图1为本申请实施例提供的一种样本扩充方法的流程示意图,本实施例可适用于对用以进行互联网图像数据审核分类的图像分类模型,进行训练验本扩充的情况,该方法可以由样本扩充装置来执行,该样本扩充装置可以采用硬件和/或软件的形式实现,该样本扩充装置可以配置在样本扩充设备中。如图1所示,该方法包括:
步骤101、获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型。
在本实施例中,原始样本集具体可理解为图像数据审核任务冷启动时,为训练用以输出图像类型的图像分类模型进行训练的,已完成标签标定的图像的集合。可选的,原始样本集中可包括训练正样本子集、训练负样本子集和测试正样本子集。图像分类模型具体可理解为一种用以对输入图像内容进行识别和分类,确定输入图像中包含属于各预设标签内容的可能性的神经网络模型,本申请实施例对图像分类模型的神经网络模型类型不进行限制。
在本实施例中,训练正样本子集具体可理解为用以对图像分类模型进行训练的,存在需被审核和标注内容的,且已对相应内容进行标签标注的图像数据的集合。训练负样本子集具体可理解为用以对图像分类模型进行训练的,符合审核规范且已对应将各标签概率均设置为零的图像数据的集合。测试正样本子集具体可理解为用以对训练完毕的图像分类模型的分类效果进行测试的,存在需被审核和标注内容的,且已对相应内容进行标签标注的图像数据的集合。
可选的,训练正样本子集和测试正样本子集中的图像数据,可为由一段历史时间内完成审核的图像数据中提取出的,已完成违规行为标签标注的一组图像数据。由于本申请实施例中主要关注图像数据中存在的违规行为,故可将上述提取出的一组图像数据按照预设比例进行划分,将其中的一部分作为用于对训练完成的图像分类模型进行测试的测试正样本子集,将剩余部分作为用于训练图像分类模型的训练正样本子集。
需要明确的是,无违规行为的图像数据占被审核图像数据中的大多数,由其中随机抽取预设数量的图像数据即可作为本申请实施例中的训练负样本子集。
具体的,由不同渠道获取存在需被审核和标注内容的,且已对相应内容进行标签标注的图像数据,以及无违规行为或不存在需被审核和标注内容的图像数据,将获取到的所有图像数据的集合确定为原始样本集。将原始样本集中无违规行为或不存在需被审核和标注内容的图像数据确定为训练负样本子集,将其中一部分存在需被审核和标注内容的,且已对相应内容进行标签标注的图像数据确定为训练正样本子集,将训练正样本子集和训练负样本子集输入至初始图像分类模型对其进行训练,直到满足预设收敛条件时得到完成训练的图像分类模型。
步骤102、将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集。
在本实施例中,中间结果集具体可理解为用以表明图像分类模型对输入其中的测试正样本中的图像进行分类后所得的,包含各测试正样本属于不同标签概率情况的结果集合。
具体的,将原始样本集中测试正样本子集中的图像输入至图像分类模型中,确定各测试正样本中的图像存在图像分类模型中各标签所对应违规行为的概率,将一个测试正样本中存在各标签对应违规行为的概率集合确定为一个中间结果,进而将各中间结果的集合确定为中间结果集。
步骤103、根据中间结果集和测试正样本子集确定待扩充样本。
在本实施例中,待扩充样本具体可理解为测试正样本子集中,基于现有样本训练所得图像分类模型中难以分类的,或存在分类错误的样本。
具体的,根据中间结果集中各中间结果与测试正样本的对应关系,确定各中间结果对应的测试正样本,且由于测试正样本中包括针对图像的标签标注情况,故可将中间结果中包含的各标签对应的输出结果,与测试正样本中对应标签的标注情况进行比对,在二者间存在较大差异时,可认为图像分类模型针对该测试正样本中某标签的分类结果存在错误,也即可认为当前图像分类模型难以对该测试正样本类型的图像进行正确分类,需提供更多与该类型相关的样本以完善对图像分类模型的训练,此时根据上述确定出的测试正样本,以及分类结果中存在错误的标签确定待扩充样本。可选的,输出结果可表示为概率值,本发明实施例对此不进行限制。
在本申请实施例中,由于中间结果集为基于原始样本集训练所得的图像分类模型当前可输出的最好结果,而测试正样本子集中包括了期望图像分类模型输出的结果,将二者进行比对即可针对性的确定出图像分类模型中存在的分类缺陷,进而可基于该缺陷确定图像分类模型需针对性加强训练的样本,增强了样本扩充的针对性和精确性,使得确定出的扩充样本更符合实际模型训练的需求,提高了扩充效率,减少了需要进行扩充样本的数量。
步骤104、根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集。
其中,扩充样本与待扩充样本的标签相同。
在本实施例中,预设数据库具体可理解为预先设置的,包含有图像审核场景中采集的多张图像的数据库,预设数据库中的每张图像均为备选图像,可用于作为对图像分类模型进行训练的样本。可选的,预设数据库中的图像可为一段预设历史时间段内图像审核场景中采集的实际图像,也可为网络环境中随机获取的图像,本申请实施例对此不进行限制。扩充样本具体可理解为需要添加至原始样本集中,以对当前图像分类模型中存在缺陷进行针对性训练的图像及标签。扩充样本集具体可理解为已完成扩充样本添加的原始样本集。
具体的,为针对图像分类模型中存在缺陷进行训练,需在现有的原始样本集中针对性增添与待扩充样本类型一致的样本数量,以实现针对该类型样本分类能力的强化,此时将预设数据库中的各备选图像分别与待扩充样本进行比对,根据二者间的相似度确定比对结果,将比对结果满足预设相似度条件的备选图像确定为扩充样本的图像,且由于确定出的扩充样本类型应与待扩充样本一致,则二者所对应的标签也应相同,也即扩充样本的标签应与待扩充样本相同。在完成对扩充样本的标签标注后,将扩充样本加入至原始样本集中,即可得到可用于对图像分类模型中缺陷进行针对性训练的扩充样本集。
本申请实施例提供的样本扩充方案,通过获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;根据中间结果集和测试正样本子集确定待扩充样本;根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。通过采用上述技术方案,针对任务初始图像分类模型未经训练的情况,首先采用较少的原始样本集完成一次图像分类模型的训练,再通过将原始样本集中的测试正样本子集,输入至训练好的图像分类模型中得到中间结果集,根据测试正样本子集和中间结果集对应确定待扩充样本,进而依据确定出的待扩充样本在预设数据库中筛选得到扩充样本,将扩充样本加入至原始样本集中完成样本扩充,使得依据扩充后的扩充样本集进行训练的图像分类模型可具有更好的图像分类效果。无需在图像分类模型的训练初始即为其提供大量成熟数据,而是在训练过程中实现了待扩充样本的自适应确定,以及样本的针对性扩充,减少了所需的原始样本数据量,进以降低了人工收集数据的时间成本和人力成本,同时由于针对性的确定出需要进行扩充的待扩充样本,提升了确定出的扩充样本的精准度,使得确定出的扩充样本更符合实际模型训练的需求,进而提升了依据扩充后样本训练所得图像分类模型的图像审核识别效果。
图2为本申请实施例提供的另一种样本扩充方法的流程示意图,本申请实施例的技术方案在上述各可选技术方案的基础上进一步优化,明确了根据中间结果集与测试正样本子集确定待扩充样本的具体确定方式。进一步地明确了在确定出扩充样本集后,将循环对图像分类模型进行训练,直到训练所得的图像分类模型满足实际应用需求的方案,保证了样本扩充的针对性和完全性。
如图2所示,本申请实施例提供的样本扩充方法,具体可包括如下步骤:
步骤201、获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型。
示例性的,图像分类模型可为基于残差网络结构(ResNet50)训练得到的模型,也可为基于循环神经网络结构(Recurrent Neural Networks,RNN)或自注意力(Transformer)网络结构训练得到的模型,本申请实施例对此不进行限制。
步骤202、将原始样本集的测试正样本子集中,各测试正样本中的图像分别输入至图像分类模型中,确定各图像对应的预测结果向量。
在本实施例中,预测结果向量具体可理解为图像分类模型输出的,对输入其中图像中包含各标签对应内容的概率进行预测后,由所得到的各预测结果构成的向量。需要明确的是,训练得到的图像分类模型可针对预设数量的标签进行分类,也即针对一个输入图像,图像分类模型将输出预设数量个预测结果,每一个预测结果代表输入图像中存在一种标签对应违规内容的概率。
示例性的,假设训练得到的图像分类模型中可划分n个类别的标签,输入至图像分类模型中的图像可表示为X,则图像分类模型输出的预测结果向量可表示为P(X)=[p1,...,pi,...,pn],其中(1,…,i,…,n)分别代表了第一个、第i个和第n个标签,pi代表输入图像X中存在第i个标签对应违规行为的概率,也即可为图像X中存在第i个标签对应违规内容的概率,其中,0≤pi≤1。
具体的,由于一个测试正样本中可包括一张图像,以及与该图像对应的标签,故在对图像分类模型进行测试时,需将测试正样本子集中各测试正样本的图像作为图像分类模型的输入,得到图像分类模型输出的,与各图像相对应的预测结果向量。
步骤203、将各预测结果向量的集合确定为中间结果集。
具体的,由于各预测结果向量分别对应测试正样本子集中的一个测试正样本,也即可认为一个预测结果向量为图像分类模型的一个输出结果,故可将各预测结果向量的集合确定为图像分类模型针对测试正样本子集输出的中间结果集。
步骤204、将中间结果集中各预测结果向量,与各图像对应的标签进行比对,确定各预测结果向量对应的不确定度集合。
在本实施例中,不确定度具体可理解为由于预测误差的存在,对被预测值不能肯定的程度,也即可认为是一个预测结果可能不准确的程度。
具体的,由于一个预测结果向量中包括了图像分类模型对输入其中的一个图像,进行所有标签概率预测后所得的预测结果。而在测试正样本中包括了图像理论上应标注标签的概率,也即一个测试正样本针对其理论上存在内容对应的标签的概率应表示为1,而针对其理论上不存在内容对应的标签的概率应表示为0。将预测结果向量中每个预测结果,与测试正样本中对应标签的理论概率进行比对,即可确定该预测结果对应的不确定度,进而可确定属于同一预测结果向量的所有不确定度,也即可确定出该预测结果向量对应的不确定度集合。
进一步地,图3为本申请实施例提供的一种将中间结果集中各预测结果向量,与各图像对应的标签进行比对,确定各预测结果向量对应的不确定度集合的流程示意图,如图3所示,具体包括如下步骤:
步骤2041、针对每个预测结果向量,确定与各标签对应的预测结果概率和标定概率。
在本实施例中,预测结果概率具体可理解为预测结果向量中,根据预测确定的用以表明图像中包含一个标签中内容的概率。标定概率具体可理解为样本中标签的取值。
具体的,针对每个预测结果向量,确定其中与图像分类模型可分类标签对应的各个预测结果的预测结果概率,同时根据预测结果向量与测试正样本间的对应关系,确定测试正样本中的图像在各标签上的取值,将上述取值确定为各标签的标定概率。
接上述示例,在针对图像X由图像分类模型输出的预测结果向量为P(X)=[p1,...,pi,...,pn]时,pi即可理解为图像分类模型分类确定图像X包括第i个标签对应内容的预测结果概率。而图像X在测试正样本中所对应的标签集合可表示为Y(X)=[I0,...,Ii,...,In],Ii即为图像X针对第i个标签的标定概率,若图像X存在第i个标签对应的违规内容时,Ii需被标记为1,且需将其他的标定概率设置为0。也即针对每个预测结果向量中的每个预测结果概率pi,均可确定出与其相对应的一个标定概率Ii
步骤2042、根据各预测结果概率与各标定概率,确定各标签对应的不确定度。
具体的,针对一组预测结果概率与标定概率,通过计算二者的使用熵和交叉熵确定不确定度,将该不确定度确定为与标定概率对应标签的不确定度。可选的,除采用使用熵和交叉熵对不确定度进行确定,也可采用其他任何可行的不确定度计算方法,本申请实施例对此不进行限制。
接上述示例,针对图像分类模型可进行标定分类的第i个标签,假设图像X对应的预测结果向量为P(X)=[p1,...,pi,...,pn],标签集合表示为Y(X)=[I0,...,Ii,...,In],则针对图像X的第i个标签,确定出的不确定度可表示为:
Figure BDA0003990328600000121
步骤2043、将各不确定度的集合确定为预测结果向量对应的不确定度集合。
在本申请实施例中,针对每一个测试正样本,对其输入至图像分类模型后每一个标签的分类情况,分别确定不确定度,明确了测试正样本中难以被正常分类的标签类型,更加针对性的确定出图像分类模型存在的分类误差,明确了图像分类模型所需进行改进的内容,进而使得确定出需要补充至原始样本集中的样本类型更加具有针对性。
步骤205、根据各不确定度集合确定待扩充样本。
具体的,由于样本的不确定度越高,则可认为该不确定度对应的样本属于图像分类模型难以正确分类识别的样本,为使得训练所得的图像分类模型可正确对该类型样本进行分类识别,需增添用以训练模型的样本数量,此时可将各不确定度集合中满足预设条件的不确定度,对应的图像及标签确定为待扩充样本。
进一步地,图4为本申请实施例提供的一种根据各不确定度集合确定待扩充样本的流程示意图,如图4所示,具体包括如下步骤:
步骤2051、将各不确定度集合中大于预设不确定度阈值的不确定度,确定为目标不确定度。
在本实施例中,预设不确定度阈值具体可理解为根据实际情况预先设置的,用以表明图像分类模型分类结果可信度低,需要对应补充样本的阈值。
具体的,在不确定度大于预设不确定度阈值时,可认为该不确定度对应的图像及标签所构成的样本,为图像分类模型未达到良好训练效果的样本,也即为需要自适应进行扩充的样本,此时将大于预设不确定度阈值的不确定度确定为目标不确定度。
步骤2052、确定与目标不确定度对应的目标标签,以及与目标不确定度对应的目标图像。
具体的,由于每一个不确定度均对应图像分类模型中的一个标签,且每一个不确定度所属的不确定度集合均对应一个测试正样本的图像,此时可将目标不确定度对应的标签确定为目标标签,对应的图像确定为目标图像。
步骤2053、将目标标签与目标图像的结合确定为待扩充样本。
具体的,为保障确定出的所需扩充样本的针对性,通过目标标签对目标图像进行对应标注,并将标注后的目标图像确定为待扩充样本。
接上述示例,假设目标图像为图像X,目标标签为图像分类模型可标注的第i个标签,则可认为生成的待扩充样本的标签集合Y(X)=[I0,...,Ii,...,In]中,仅Ii被标注为1,其余n-1个标签的标定概率均标注为0。
步骤206、将待扩充样本中图像与预设数据库中各备选图像进行比对,并将相似度超过预设相似度阈值的备选图像确定为扩充样本中的图像。
在本实施例中,预设相似度阈值具体可理解为根据实际情况预先确定的,用以判定备选图像是否可以作为扩充样本中的图像的相似度阈值。
具体的,为实现样本的自适应扩充,需在样本集中增添与待扩充样本相似度较高的样本,也即增添的样本中的图像应与待扩充样本中的图像相似度较高,在由预设数据库中筛选用于作为扩充样本的图像时,需将其中的各备选图像分别与待扩充样本中的图像进行相似度比对,在相似度大于预设相似度阈值时,可认为备选图像与待扩充样本中的图像相似度足够高,所包含的违规行为也类似,可用以作为训练图像分类模型的样本,此时将确定出的备选图像确定为扩充样本中的图像。需要明确的是,本申请实施例对相似度的确定方式不进行限制,可采用如欧氏距离及余弦距离等方式对不同图像间的相似度进行确定。
示例性的,可通过基于内容的图像检索(Content-Based Image Retrieval,CBIR)的方式,在预设数据库中实现备选图像与待扩充样本中图像的筛选比对。图5为本申请实施例提供的一种基于内容的图像检索的计算过程示例图,如图5所示,假设基于CBIR方式训练了一个resnet50网络,其倒数第二层是一个128维的向量,待扩充样本中的图像X被处理为RGB形式后,输入至该网络中可被表示为x=[x1,…,x128],其中每一个维度的数xi是一个浮点数,且满足条件
Figure BDA0003990328600000141
在确定出待扩充样本中图像的向量x后,通过已经累计的预设数据库中各备选图像的向量集合Y=[y1,…,yn]进行余弦相似比对,其中,每一个备选图像向量均可被表示为一个128的向量。若满足x与某一个yi的余弦内积的数值大于给定的预设相似度阈值∈2时,则可将满足要求的所对应的备选图像确定为可作为扩充样本的图像。
其中,余弦内积的判定公式如下所示:
Figure BDA0003990328600000151
步骤207、将待扩充样本中的标签确定为扩充样本中的标签。
具体的,由于相似图像中包含相似的违规行为,在确定出与待扩充样本中的图像相类似的扩充样本中的图像后,可认为扩充样本中的图像对应的标签,与待扩充样本的图像对应的标签相同,也即可将待扩充样本中的标签确定为扩充样本中的标签。
步骤208、确定训练正样本子集和测试正样本子集的样本数量比。
具体的,由于训练正样本子集与测试正样本子集为一组内容实质相同的,存在违规行为标签的样本集合,故在通过具有违规行为标签的扩充样本对原始样本集进行扩充时,为保障扩充平衡性,需按比例为训练正样本子集和测试正样本子集增添样本。此时应首先确定训练正样本子集中的第一样本数量,和测试正样本子集中的第二样本数量,然后将第一样本数量与第二样本数量的比值确定为扩充样本需进行划分的样本数量比。
步骤209、将扩充样本依据样本数量比进行划分,并将划分后的扩充样本分别加入至训练正样本子集和测试正样本子集中,得到扩充样本集。
具体的,将确定出的多个扩充样本依据样本数量比进行划分,分别作为训练正样本子集的扩充样本,和测试正样本子集的扩充样本添加至对应子集中,将扩充后的训练正样本子集、测试正样本子集和原训练负样本子集的集合确定为扩充样本集。
进一步地,由于一次扩充后的样本集可能仍存在样本丰富度不足的问题,进而导致依据其训练得到的图像分类模型仍难以满足实际使用需求,故在将扩充样本加入原始样本集,以得到扩充样本集之后,还包括:
将扩充样本集确定为新的原始样本集,并返回执行基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型的步骤,直到满足预设扩充要求时停止;其中,预设扩充要求为根据中间结果集和测试正样本子集确定的待扩充样本数量为零。
在本实施例中,预设扩充要求具体可理解为用以判断扩充后样本集,已足以训练出满足实际工作需求的图像分类模型的条件。可选的,在本申请实施例中,预设扩充要求为根据中间结果集和测试正样本子集确定的待扩充样本数量为零,也即不存在需要进行扩充的样本类型时,认为针对样本集的扩充已完成。
具体的,在确定出扩充样本集后,为验证扩充后的样本集是否已足够丰富,需将扩充样本集确定为新的原始样本集,并返回执行基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型的步骤,基于新的原始样本集完成图像分类模型的训练,进而通过测试正样本子集对图像分类模型中是否还存在分类不准确的样本进行验证,在确定出无待扩充样本存在时,可认为此次训练处的图像分类模型已满足实际工作需求,相应的,用以训练图像分类模型的原始样本集已无需再次扩充;否则,将继续依据确定出的待扩充样本对原始样本集进行扩充,实现了依据真实数据的样本自适应扩充。
在本申请实施例中,通过中间结果集中各预测结果向量,相对于对应测试正样本的不确定度集合,针对性的确定出无法被正确分类的测试正样本,以及该测试正样本中难以被正常分类的标签类型,进而依据上述内容确定包含对应图像与标签的待扩充样本,通过在预设数据库中筛选与待扩充样本中的图像对应的备选图像,作为扩充样本的图像,并采用与待扩充样本一致的标签对其进行标注,针对性的对待扩充样本类型的样本进行了自适应补充,提升了确定出的扩充样本的精准度,使得确定出的扩充样本具有更自然和更贴近实际分布的优势,进而使得依据扩充后的样本进行训练的图像分类模型具有更高的分类精度。进一步地,在执行样本扩充的过程中,采用迭代循环的方式对样本集进行扩充,无需人工干预,直到训练得到的图像分类模型满足实际使用需求时停止,极大的加快了迭代反馈速度,提升了依据扩充后样本训练所得图像分类模型的图像审核识别效果。
图6为本申请实施例提供的一种样本扩充装置的结构示意图,该装置可以由软件和/或硬件来实现,一般可集成在样本扩充设备中,可通过执行样本扩充方法来实现。如图6所示,该装置包括:分类模型确定模块31,中间集确定模块32,待扩充样本确定模块33和扩充集确定模块34。
其中,分类模型确定模块31,用于获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;中间集确定模块32,用于将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;待扩充样本确定模块33,用于根据中间结果集和测试正样本子集确定待扩充样本;扩充集确定模块34,用于根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。
本申请实施例的技术方案,针对任务初始图像分类模型未经训练的情况,首先采用较少的原始样本集完成一次图像分类模型的训练,再通过将原始样本集中的测试正样本子集,输入至训练好的图像分类模型中得到中间结果集,根据测试正样本子集和中间结果集对应确定待扩充样本,进而依据确定出的待扩充样本在预设数据库中筛选得到扩充样本,将扩充样本加入至原始样本集中完成样本扩充,使得依据扩充后的扩充样本集进行训练的图像分类模型可具有更好的图像分类效果。无需在图像分类模型的训练初始即为其提供大量成熟数据,而是在训练过程中实现了待扩充样本的自适应确定,以及样本的针对性扩充,减少了所需的原始样本数据量,进以降低了人工收集数据的时间成本和人力成本,同时由于针对性的确定出需要进行扩充的待扩充样本,提升了确定出的扩充样本的精准度,使得确定出的扩充样本更符合实际模型训练的需求,进而提升了依据扩充后样本训练所得图像分类模型的图像审核识别效果。
可选的,中间集确定模块32,包括:
预测向量确定单元,用于将原始样本集的测试正样本子集中,各测试正样本中的图像分别输入至图像分类模型中,确定各图像对应的预测结果向量;
中间集确定单元,用于将各预测结果向量的集合确定为中间结果集。
可选的,待扩充样本确定模块33,包括:
不确定度确定单元,用于将中间结果集中各预测结果向量,与各图像对应的标签进行比对,确定各预测结果向量对应的不确定度集合;
待扩充样本确定单元,用于根据各不确定度集合确定待扩充样本。
可选的,不确定度确定单元,具体用于:
针对每个预测结果向量,确定与各标签对应的预测结果概率和标定概率;
根据各预测结果概率与各标定概率,确定各标签对应的不确定度;
将各不确定度的集合确定为预测结果向量对应的不确定度集合。
可选的,待扩充样本确定单元,具体用于:
将各不确定度集合中大于预设不确定度阈值的不确定度,确定为目标不确定度;
确定与目标不确定度对应的目标标签,以及与目标不确定度对应的目标图像;
将目标标签与目标图像的结合确定为待扩充样本。
可选的,扩充集确定模块34,包括:
扩充样本确定单元,用于将待扩充样本中图像与预设数据库中各备选图像进行比对,并将相似度超过预设相似度阈值的备选图像确定为扩充样本中的图像;将待扩充样本中的标签确定为扩充样本中的标签。
样本集扩充单元,用于确定训练正样本子集和测试正样本子集的样本数量比;将扩充样本依据样本数量比进行划分,并将划分后的扩充样本分别加入至训练正样本子集和测试正样本子集中,得到扩充样本集。
进一步地,在将扩充样本加入原始样本集,以得到扩充样本集之后,还包括:
将扩充样本集确定为新的原始样本集,并返回执行基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型的步骤,直到满足预设扩充要求时停止;
其中,预设扩充要求为根据中间结果集和测试正样本子集确定的待扩充样本数量为零。
本发明实施例提供的样本扩充装置可执行本发明任意实施例所提供的样本扩充方法,具备执行方法相应的功能模块和有益效果。
本申请实施例提供了一种样本扩充设备,该样本扩充设备中可集成本申请实施例提供的样本扩充装置。图7为本申请实施例提供的一种样本扩充设备的结构示意图。样本扩充设备400包括处理器401,以及与处理器401通信连接的存储器402,其中,存储器402存储有可被处理器401执行的计算机程序,计算机程序被处理器401执行,以使所述处理器401能够执行本申请任一实施例所述的样本扩充方法。其中,处理器的数量可以是一个或多个,图7中以一个处理器为例。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本申请任一实施例所述的样本扩充方法。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现如本申请实施例提供的样本扩充方法。
上述实施例中提供的样本扩充装置、设备、存储介质及产品可执行本申请任意实施例所提供的样本扩充方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的样本扩充方法。
注意,上述仅为本申请的较佳实施例。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求范围决定。

Claims (12)

1.一种样本扩充方法,其特征在于,包括:
获取原始样本集,并基于所述原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;
将所述原始样本集中的测试正样本子集输入至所述图像分类模型,确定中间结果集;
根据所述中间结果集和所述测试正样本子集确定待扩充样本;
根据所述待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将所述扩充样本加入所述原始样本集,以得到扩充样本集;其中,所述扩充样本与所述待扩充样本的标签相同。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始样本集中的测试正样本子集输入至所述图像分类模型,确定中间结果集,包括:
将所述原始样本集的测试正样本子集中,各测试正样本中的图像分别输入至所述图像分类模型中,确定各所述图像对应的预测结果向量;
将各所述预测结果向量的集合确定为中间结果集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述中间结果集和所述测试正样本子集确定待扩充样本,包括:
将所述中间结果集中各预测结果向量,与各所述图像对应的标签进行比对,确定各所述预测结果向量对应的不确定度集合;
根据各所述不确定度集合确定待扩充样本。
4.根据权利要求3所述的方法,其特征在于,所述将所述中间结果集中各预测结果向量,与各所述图像对应的标签进行比对,确定各所述预测结果向量对应的不确定度集合,包括:
针对每个预测结果向量,确定与各所述标签对应的预测结果概率和标定概率;
根据各所述预测结果概率与各所述标定概率,确定各所述标签对应的不确定度;
将各所述不确定度的集合确定为所述预测结果向量对应的不确定度集合。
5.根据权利要求3所述的方法,其特征在于,所述根据各所述不确定度集合确定待扩充样本,包括:
将各所述不确定度集合中大于预设不确定度阈值的不确定度,确定为目标不确定度;
确定与所述目标不确定度对应的目标标签,以及与所述目标不确定度对应的目标图像;
将所述目标标签与所述目标图像的结合确定为待扩充样本。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,包括:
将所述待扩充样本中图像与预设数据库中各备选图像进行比对,并将相似度超过预设相似度阈值的备选图像确定为扩充样本中的图像;
将所述待扩充样本中的标签确定为所述扩充样本中的标签。
7.根据权利要求1所述的方法,其特征在于,所述将所述扩充样本加入所述原始样本集,以得到扩充样本集,包括:
确定所述训练正样本子集和所述测试正样本子集的样本数量比;
将所述扩充样本依据所述样本数量比进行划分,并将划分后的所述扩充样本分别加入至所述训练正样本子集和所述测试正样本子集中,得到扩充样本集。
8.根据权利要求1所述的方法,其特征在于,在所述将所述扩充样本加入所述原始样本集,以得到扩充样本集之后,还包括:
将所述扩充样本集确定为新的原始样本集,并返回执行所述基于所述原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型的步骤,直到满足预设扩充要求时停止;
其中,所述预设扩充要求为根据所述中间结果集和所述测试正样本子集确定的待扩充样本数量为零。
9.一种样本扩充装置,其特征在于,包括:
分类模型确定模块,用于获取原始样本集,并基于所述原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;
中间集确定模块,用于将所述原始样本集中的测试正样本子集输入至所述图像分类模型,确定中间结果集;
待扩充样本确定模块,用于根据所述中间结果集和所述测试正样本子集确定待扩充样本;
扩充集确定模块,用于根据所述待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将所述扩充样本加入所述原始样本集,以得到扩充样本集;其中,所述扩充样本与所述待扩充样本的标签相同。
10.一种样本扩充设备,其特征在于,所述样本扩充设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的样本扩充方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现权利要求1-8中任一项所述的样本扩充方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的样本扩充方法。
CN202211585069.6A 2022-12-09 2022-12-09 样本扩充方法、装置、设备、存储介质及产品 Pending CN115859108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211585069.6A CN115859108A (zh) 2022-12-09 2022-12-09 样本扩充方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211585069.6A CN115859108A (zh) 2022-12-09 2022-12-09 样本扩充方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN115859108A true CN115859108A (zh) 2023-03-28

Family

ID=85671892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211585069.6A Pending CN115859108A (zh) 2022-12-09 2022-12-09 样本扩充方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN115859108A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522222A (zh) * 2023-04-17 2023-08-01 平安科技(深圳)有限公司 预训练分类模型的训练方法、装置、设备及介质
CN116824296A (zh) * 2023-06-19 2023-09-29 广州金域医学检验中心有限公司 样本量的扩充方法及装置、设备及存储介质
CN119107088A (zh) * 2024-08-21 2024-12-10 国网湖北省电力有限公司营销服务中心(计量中心) 基于自然语言处理的供电服务风险识别方法
CN120032844A (zh) * 2025-04-21 2025-05-23 山东欣博药物研究有限公司 一种临床试验质量管控方法及系统
CN120086600A (zh) * 2025-05-06 2025-06-03 杭州海康威视数字技术股份有限公司 一种多模态数据样本的生成方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270379A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备
CN112488237A (zh) * 2020-12-07 2021-03-12 北京天融信网络安全技术有限公司 一种分类模型的训练方法及装置
CN114254146A (zh) * 2020-09-21 2022-03-29 京东方科技集团股份有限公司 图像数据的分类方法、装置和系统
CN114462465A (zh) * 2021-09-30 2022-05-10 马上消费金融股份有限公司 一种分类模型的训练方法、质检预测方法及对应装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254146A (zh) * 2020-09-21 2022-03-29 京东方科技集团股份有限公司 图像数据的分类方法、装置和系统
CN112270379A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备
CN112488237A (zh) * 2020-12-07 2021-03-12 北京天融信网络安全技术有限公司 一种分类模型的训练方法及装置
CN114462465A (zh) * 2021-09-30 2022-05-10 马上消费金融股份有限公司 一种分类模型的训练方法、质检预测方法及对应装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522222A (zh) * 2023-04-17 2023-08-01 平安科技(深圳)有限公司 预训练分类模型的训练方法、装置、设备及介质
CN116522222B (zh) * 2023-04-17 2026-02-10 平安科技(深圳)有限公司 预训练分类模型的训练方法、装置、设备及介质
CN116824296A (zh) * 2023-06-19 2023-09-29 广州金域医学检验中心有限公司 样本量的扩充方法及装置、设备及存储介质
CN119107088A (zh) * 2024-08-21 2024-12-10 国网湖北省电力有限公司营销服务中心(计量中心) 基于自然语言处理的供电服务风险识别方法
CN120032844A (zh) * 2025-04-21 2025-05-23 山东欣博药物研究有限公司 一种临床试验质量管控方法及系统
CN120086600A (zh) * 2025-05-06 2025-06-03 杭州海康威视数字技术股份有限公司 一种多模态数据样本的生成方法及电子设备

Similar Documents

Publication Publication Date Title
CN115859108A (zh) 样本扩充方法、装置、设备、存储介质及产品
CN111724083B (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
CN109583468B (zh) 训练样本获取方法,样本预测方法及对应装置
Yang et al. TLEL: A two-layer ensemble learning approach for just-in-time defect prediction
CN107004159B (zh) 主动机器学习
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN111143838B (zh) 数据库用户异常行为检测方法
CN114676435A (zh) 一种基于知识图谱的软件漏洞可利用性预测方法
Wang et al. Semi-supervised hierarchical attribute representation learning via multi-layer matrix factorization for machinery fault diagnosis
CN118860480B (zh) 一种基于大模型的代码缺陷检测和修复方法及装置
Levy et al. Roma: A method for neural network robustness measurement and assessment
CN112001484A (zh) 一种基于多任务深度学习的安全缺陷报告预测方法
CN114416998B (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN117952022B (zh) 良率多维度互动系统、方法、计算机设备和存储介质
CN119691747A (zh) 混合模型驱动的可重入漏洞检修方法、装置和计算机设备
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
CN112417147B (zh) 训练样本的选取方法与装置
CN114708470A (zh) 违规图片的识别方法、介质和计算设备
CN120257284A (zh) 一种基于掩码一致性和动态余量调整的智能合约漏洞检测方法及系统
CN117496118B (zh) 一种目标检测模型的窃取脆弱性分析方法和系统
US12462541B2 (en) Method, device, and computer program product for model comparison
CN117807322A (zh) 一种基于知识图谱检索的虚假新闻检测方法及系统
CN114722400B (zh) 一种侧信道漏洞检测的方法、系统、介质、设备及终端
CN116401637A (zh) 基于类属性肖像的访问控制策略确定方法及系统
CN114579471A (zh) 一种基于主动学习的缺陷报告严重程度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination