CN111401454A - 一种基于迁移学习的少样本目标识别方法 - Google Patents
一种基于迁移学习的少样本目标识别方法 Download PDFInfo
- Publication number
- CN111401454A CN111401454A CN202010195836.7A CN202010195836A CN111401454A CN 111401454 A CN111401454 A CN 111401454A CN 202010195836 A CN202010195836 A CN 202010195836A CN 111401454 A CN111401454 A CN 111401454A
- Authority
- CN
- China
- Prior art keywords
- target domain
- feature vector
- loss function
- initial model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迁移学习的少样本目标识别方法,包括:确定一源域模型作为目标域初始模型;目标域初始模型对输入的源域数据D1和目标域数据D2进行预测,得到关联源域数据D1的特征向量F1和关联目标域数据D2的特征向量F2;目标域初始模型分别对特征向量F1和特征向量F2进行分类,得到一分类结果;基于分类结果与真实分类结果间的差异,确定目标域初始模型的损失函数L;基于损失函数L,并通过优化算法对目标域初始模型进行模型优化,最终训练形成一目标域模型。本发明解决了现有的预测模型由于没有充足的训练样本而无法对少样本商品进行分类预测的技术问题。
Description
技术领域
本发明涉及深度学习技术领域,具体涉及一种基于迁移学习的少样本目标识别方法。
背景技术
如今,深度学习技术在各行各领域得到了广泛应用。但深度学习过程需要大量的标注数据训练预测模型,但在一些特定的应用场景中很难收集到有效的训练数据,比如在新零售领域,一些新款产品在上市前期通常不会发布产品细节图,所以很难找到这些新款产品的图片数据。但此时如果需要通过深度学习技术对新款产品进行识别,由于缺乏新款产品的图片数据,所以无法获取识别模型的训练样本,也就无法通过深度学习技术对该些新款产品进行高效率、高准确率的预测识别。这种情况下,商品识别需求方不得不通过传统的计算机视觉识别方法甚至是人工识别的方法对新款产品进行识别,这样的识别方式识别成本较高,而且识别效率低下,识别准确率也不高。
发明内容
本发明的目的在于提供一种基于迁移学习的少样本目标识别方法,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种基于迁移学习的少样本目标识别方法,包括如下步骤:
步骤S1,确定一源域模型作为目标域初始模型;
步骤S2,所述目标域初始模型对输入的源域数据D1和目标域数据D2进行预测,得到关联所述源域数据D1的特征向量F1和关联所述目标域数据D2的特征向量F2;
步骤S3,所述目标域初始模型分别对所述特征向量F1和所述特征向量F2进行分类,得到一分类结果;
步骤S4,基于所述分类结果与真实分类结果间的差异,确定所述目标域初始模型的损失函数L;
步骤S5,基于所述损失函数L,并通过优化算法对所述目标域初始模型进行模型优化;
步骤S6,重复所述步骤S2~S5,对所述目标域初始模型进行迭代更新,最终训练形成一目标域模型。
作为本发明的一种优选方案,所述步骤S4中,所述损失函数L包括第一损失函数L1和第二损失函数L2,所述第一损失函数L1为所述目标域初始模型对所述特征向量F1作出的预测类别P1与所述特征向量F1对应的真实类别Y1的交叉熵;
所述第二损失函数L2为所述目标域初始模型对所述特征向量F2作出的预测类别P2与所述特征向量F2对应的真实类别Y2的交叉熵。
作为本发明的一种优选方案,所述步骤S4中,所述损失函数L包括第三损失函数L3,所述第三损失函数L3为针对所述特征向量F1和所述特征向量F2间的距离所计算的距离值。
作为本发明的一种优选方案,所述距离为欧氏距离。
作为本发明的一种优选方案,所述步骤S5中,通过SGD随机梯度下降优化算法对所述目标域初始模型进行模型优化。
作为本发明的一种优选方案,所述源域模型包括ResNet50和ResNet101预训练模型。
本发明利用具有大量训练数据的源域模型作为目标域模型训练的起始模型,并结合源域数据与目标域数据(比如仅具有少量样本的商品的商品数据)的关联性,对目标域模型的初始模型进行训练、更新,解决了现有的预测模型由于没有充足的训练样本而无法对少样本商品进行分类预测的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的少样本目标识别方法的步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明一实施例提供的基于迁移学习的少样本识别方法,用于通过模型迁移学习技术对少样本商品进行目标识别,请参照图1,少样本识别方法具体包括如下步骤:
步骤S1,确定一源域模型作为目标域初始模型;预训练的源域模型可从可用模型中挑选出来。目前,很多研究机构都发布了基于超大数据集训练得到的模型,这些模型都可以作为源域模型的备选。
步骤S2,目标域初始模型对输入的源域数据D1和目标域数据D2进行预测,得到关联源域数据D1的特征向量F1和关联目标域数据D2的特征向量F2;源域数据D1指的是训练源域模型时使用的数据;目标域数据D2指的是本发明希望训练的目标域模型的训练数据(比如与少样本商品类别相似的商品的商品图片数据或者是少样本商品的少量图片数据,少样本商品指的是缺乏训练样本的商品)。
步骤S3,目标域初始模型分别对特征向量F1和特征向量F2进行分类,得到一分类结果(分类结果为特征向量F1对应的类别P1和特征向量F2对应的类别P1);
步骤S4,基于目标域初始模型的分类结果和真实分类结果间的差异,确定目标初始模型的损失函数L;
步骤S5,基于损失函数L,并通过优化算法对目标域初始模型进行模型优化;
步骤S6,重复步骤S2~S5,对目标域初始模型进行迭代更新,最终训练形成一目标域模型。
作为一种优选方案,通过计算目标域初始模型的分类结果与真实结果的交叉熵作为损失函数,并基于该损失函数对目标域初始模型进行模型优化。
具体而言,步骤S4中,损失函数L包括第一损失函数L1和第二损失函数L2,第一损失函数L1为目标域初始模型对特征向量F1作出的预测类别P1与特征向量F1对应的真实类别Y1的交叉熵;
第二损失函数L2为目标域初始模型对特征向量F2作出的预测类别P2与特征向量F2对应的真实类别Y2的交叉熵。
为了进一步提高目标域模型的预测准确度,更优选地,损失函数L还包括第三损失函数L3,第三损失函数L3为针对特征向量F1和特征向量F2间的距离所计算的距离值。该距离值优选为欧式距离。
步骤S5中,优选通过SGD(随机梯度下降)算法对目标域初始模型进行优化。SGD算法为现有的模型优化算法,而且SGD算法基于损失函数对模型进行优化的过程属于现有技术,所以关于SGD算法进行模型优化的具体过程在此不作阐述。
上述技术方案中,源域模型优选为ResNet50和ResNet101预训练模型。
综上,本发明利用具有大量训练数据的源域模型作为目标域模型训练的起始模型,并结合源域数据与目标域数据(比如仅具有少量样本的商品的商品数据)的关联性,对目标域模型的初始模型进行训练、更新,解决了现有的预测模型由于没有充足的训练样本而无法对少样本商品进行分类预测的技术问题。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (6)
1.一种基于迁移学习的少样本目标识别方法,其特征在于,包括如下步骤:
步骤S1,确定一源域模型作为目标域初始模型;
步骤S2,所述目标域初始模型对输入的源域数据D1和目标域数据D2进行预测,得到关联所述源域数据D1的特征向量F1和关联所述目标域数据D2的特征向量F2;
步骤S3,所述目标域初始模型分别对所述特征向量F1和所述特征向量F2进行分类,得到一分类结果;
步骤S4,基于所述分类结果与真实分类结果间的差异,确定所述目标域初始模型的损失函数L;
步骤S5,基于所述损失函数L,并通过优化算法对所述目标域初始模型进行模型优化;
步骤S6,重复所述步骤S2~S5,对所述目标域初始模型进行迭代更新,最终训练形成一目标域模型。
2.如权利要求1所述的少样本目标识别方法,其特征在于,所述步骤S4中,所述损失函数L包括第一损失函数L1和第二损失函数L2,所述第一损失函数L1为所述目标域初始模型对所述特征向量F1作出的预测类别P1与所述特征向量F1对应的真实类别Y1的交叉熵;
所述第二损失函数L2为所述目标域初始模型对所述特征向量F2作出的预测类别P2与所述特征向量F2对应的真实类别Y2的交叉熵。
3.如权利要求2所述的少样本目标识别方法,其特征在于,所述步骤S4中,所述损失函数L包括第三损失函数L3,所述第三损失函数L3为针对所述特征向量F1和所述特征向量F2间的距离所计算的距离值。
4.如权利要求3所述的少样本目标识别方法,其特征在于,所述距离为欧氏距离。
5.如权利要求1所述的少样本目标识别方法,其特征在于,所述步骤S5中,通过SGD随机梯度下降优化算法对所述目标域初始模型进行模型优化。
6.如权利要求1所述的少样本目标识别方法,其特征在于,所述源域模型包括ResNet50和ResNet101预训练模型。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010195836.7A CN111401454A (zh) | 2020-03-19 | 2020-03-19 | 一种基于迁移学习的少样本目标识别方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010195836.7A CN111401454A (zh) | 2020-03-19 | 2020-03-19 | 一种基于迁移学习的少样本目标识别方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111401454A true CN111401454A (zh) | 2020-07-10 |
Family
ID=71432664
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010195836.7A Pending CN111401454A (zh) | 2020-03-19 | 2020-03-19 | 一种基于迁移学习的少样本目标识别方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111401454A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112949752A (zh) * | 2021-03-25 | 2021-06-11 | 支付宝(杭州)信息技术有限公司 | 业务预测系统的训练方法及装置 |
| WO2022100491A1 (zh) * | 2020-11-11 | 2022-05-19 | 中兴通讯股份有限公司 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
| CN117171631A (zh) * | 2023-06-16 | 2023-12-05 | 湖州师范学院 | 脑电信号分类模型训练方法、脑电信号分类方法以及装置 |
Citations (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
| CN108182394A (zh) * | 2017-12-22 | 2018-06-19 | 浙江大华技术股份有限公司 | 卷积神经网络的训练方法、人脸识别方法及装置 |
| CN108229658A (zh) * | 2017-12-27 | 2018-06-29 | 深圳先进技术研究院 | 基于有限样本的物体检测器的实现方法及装置 |
| US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
| CN109523018A (zh) * | 2019-01-08 | 2019-03-26 | 重庆邮电大学 | 一种基于深度迁移学习的图片分类方法 |
| US20190304065A1 (en) * | 2016-12-15 | 2019-10-03 | Google Llc | Transforming source domain images into target domain images |
| CN110427875A (zh) * | 2019-07-31 | 2019-11-08 | 天津大学 | 基于深度迁移学习和极限学习机的红外图像目标检测方法 |
| CN110533070A (zh) * | 2019-07-26 | 2019-12-03 | 西安交通大学 | 一种小样本下基于迁移原形网络的机械故障智能诊断方法 |
| CN110555467A (zh) * | 2019-08-13 | 2019-12-10 | 深圳创新奇智科技有限公司 | 一种基于模型迁移的工业数据分类方法 |
| CN110555060A (zh) * | 2019-09-09 | 2019-12-10 | 山东省计算中心(国家超级计算济南中心) | 基于成对样本匹配的迁移学习方法 |
| CN110580496A (zh) * | 2019-07-11 | 2019-12-17 | 南京邮电大学 | 一种基于熵最小化的深度迁移学习系统及方法 |
| CN110705591A (zh) * | 2019-03-09 | 2020-01-17 | 华南理工大学 | 一种基于最优子空间学习的异构迁移学习方法 |
| CN110728294A (zh) * | 2019-08-30 | 2020-01-24 | 北京影谱科技股份有限公司 | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 |
| CN110837865A (zh) * | 2019-11-08 | 2020-02-25 | 北京计算机技术及应用研究所 | 一种基于表示学习和迁移学习的领域适配方法 |
-
2020
- 2020-03-19 CN CN202010195836.7A patent/CN111401454A/zh active Pending
Patent Citations (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190304065A1 (en) * | 2016-12-15 | 2019-10-03 | Google Llc | Transforming source domain images into target domain images |
| US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
| CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
| CN108182394A (zh) * | 2017-12-22 | 2018-06-19 | 浙江大华技术股份有限公司 | 卷积神经网络的训练方法、人脸识别方法及装置 |
| CN108229658A (zh) * | 2017-12-27 | 2018-06-29 | 深圳先进技术研究院 | 基于有限样本的物体检测器的实现方法及装置 |
| CN109523018A (zh) * | 2019-01-08 | 2019-03-26 | 重庆邮电大学 | 一种基于深度迁移学习的图片分类方法 |
| CN110705591A (zh) * | 2019-03-09 | 2020-01-17 | 华南理工大学 | 一种基于最优子空间学习的异构迁移学习方法 |
| CN110580496A (zh) * | 2019-07-11 | 2019-12-17 | 南京邮电大学 | 一种基于熵最小化的深度迁移学习系统及方法 |
| CN110533070A (zh) * | 2019-07-26 | 2019-12-03 | 西安交通大学 | 一种小样本下基于迁移原形网络的机械故障智能诊断方法 |
| CN110427875A (zh) * | 2019-07-31 | 2019-11-08 | 天津大学 | 基于深度迁移学习和极限学习机的红外图像目标检测方法 |
| CN110555467A (zh) * | 2019-08-13 | 2019-12-10 | 深圳创新奇智科技有限公司 | 一种基于模型迁移的工业数据分类方法 |
| CN110728294A (zh) * | 2019-08-30 | 2020-01-24 | 北京影谱科技股份有限公司 | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 |
| CN110555060A (zh) * | 2019-09-09 | 2019-12-10 | 山东省计算中心(国家超级计算济南中心) | 基于成对样本匹配的迁移学习方法 |
| CN110837865A (zh) * | 2019-11-08 | 2020-02-25 | 北京计算机技术及应用研究所 | 一种基于表示学习和迁移学习的领域适配方法 |
Non-Patent Citations (1)
| Title |
|---|
| XIAOXIA WANG: "A Hierarchical Deep Domain Adaptation Approach for Fault Diagnosis of Power Plant Thermal System" * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022100491A1 (zh) * | 2020-11-11 | 2022-05-19 | 中兴通讯股份有限公司 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
| CN112949752A (zh) * | 2021-03-25 | 2021-06-11 | 支付宝(杭州)信息技术有限公司 | 业务预测系统的训练方法及装置 |
| CN117171631A (zh) * | 2023-06-16 | 2023-12-05 | 湖州师范学院 | 脑电信号分类模型训练方法、脑电信号分类方法以及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20180268292A1 (en) | Learning efficient object detection models with knowledge distillation | |
| CN113255694A (zh) | 训练图像特征提取模型和提取图像特征的方法、装置 | |
| WO2018121690A1 (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
| CN117611932B (zh) | 基于双重伪标签细化和样本重加权的图像分类方法及系统 | |
| CN110874590B (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
| CN112668607B (zh) | 一种用于目标物体触觉属性识别的多标签学习方法 | |
| CN113947140A (zh) | 人脸特征提取模型的训练方法和人脸特征提取方法 | |
| CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
| CN111401454A (zh) | 一种基于迁移学习的少样本目标识别方法 | |
| CN114359582B (zh) | 一种基于神经网络的小样本特征提取方法及相关设备 | |
| CN114419323B (zh) | 基于跨模态学习与领域自适应rgbd图像语义分割方法 | |
| CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
| CN115362446A (zh) | 用于少样本相似性确定和分类的交叉变换器神经网络系统 | |
| CN113052295A (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
| CN115098681A (zh) | 一种基于有监督对比学习的开放服务意图检测方法 | |
| CN115344698A (zh) | 标签处理方法、装置、计算机设备、存储介质和程序产品 | |
| CN112819024A (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
| Pane et al. | A PSO-GBR solution for association rule optimization on supermarket sales | |
| CN119761483A (zh) | 一种基于大模型增强的知识图谱补全方法、装置及介质 | |
| US20240256824A1 (en) | Neural network for generating both node embeddings and edge embeddings for graphs | |
| CN110009045A (zh) | 物联网终端的识别方法和装置 | |
| CN116758360A (zh) | 土地空间用途管理方法及其系统 | |
| CN110879821A (zh) | 评分卡模型衍生标签生成方法、装置、设备及存储介质 | |
| Fernández Del Carpio | Analyzing computer vision models for detecting customers: a practical experience in a mexican retail. | |
| Suman et al. | Age gender and sentiment analysis to select relevant advertisements for a user using cnn |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |