CN116188857A - 融合cnn和深度学习变形器的目标检测方法 - Google Patents
融合cnn和深度学习变形器的目标检测方法 Download PDFInfo
- Publication number
- CN116188857A CN116188857A CN202310152193.1A CN202310152193A CN116188857A CN 116188857 A CN116188857 A CN 116188857A CN 202310152193 A CN202310152193 A CN 202310152193A CN 116188857 A CN116188857 A CN 116188857A
- Authority
- CN
- China
- Prior art keywords
- convolution
- cnn
- deep learning
- deformer
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,具体为融合CNN和深度学习变形器的目标检测方法。本发明方法包括CNN和深度学习变形器组合模型构建、组合模型参数压缩、标签分配、损失函数设计;本发明将CNN和深度学习变形器结合,利用CNN来进行局部特征增强,用于扩展特征提取范围;利用深度学习变形器建立全局上下文联系来增强级联网络,用于捕获特征地图的全局信息;特征桥促进特征信息在CNN和深度学习变形器之间流动;设计共享子层以实现相邻卷积层或交叉卷积层之间权重参数共享,减少卷积权重参数的数量,提升目标检测的预测速度;最优传输分配解决标签分配问题,提升目标检测的检测精度。通过多个方面协同大大提升目标检测效果和速度。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种融合CNN和深度学习变形器的目标检测方法。
背景技术
由于大数据和人工智能的发展,计算机视觉技术得到了空前的提高和发展。目标检测广泛应用于安防、交通、监控和医疗领域,深度卷积神经网络(CNN)由于其强大的提取局部特征信息的能力而被应用到目标检测任务中,但是缺乏对于颜色、纹理、形状等全局信息的获取。深度学习变形器(Transformer)由于其对于长短距信息的整合能力表现突出的能力,因而被广泛引用于自然语言处理,同样的,图像全局特征的信息也可以利用深度学习变形器进行提取。
孙剑等人于2016年收录于《计算机视觉和模式识别》文章超快速区域提案卷积神经网络(Faster-RCNN),提出了区域候选网络(RPN),利用输入图形进行整体卷积形成的特征图再次进行卷积来生成候选区域,且RPN的卷积层与检测网络共享,这使得Faster R-CNN的检测速度大为提升。虽然检测性能得到显著增强,但是由于仅仅依靠卷积神经网络,无法提取全局信息,对于全局信息的提取还是比较匮乏的。
Alexey等人2020年收录于《计算机视觉和模式识别》文章应用于图像识别的深度学习变形器(ViT),由于Transformer中只能输入一维信息,很难输入图像等二维信息。ViT利用patch(斑)的概念,将图像分成若干个小块信息,然后转置为一维度信息,从而输入transformer网络里,获得图像的长短距离信息。尽管ViT得到了长短距离信息,获得了图像的全局信息,但是由于没有提取局部特征,因此很难全面反应图像的特征信息。另外,ViT的参数量巨大,模型复杂,训练以及推理时间都很长。
因此,单独的CNN或者深度学习变形器(transformer)网络很难提取图像的全部特征,因此利用CNN和transformer的联合网络可以很好的获取图像的全局和局部信息,很大程度上整合图像的全部特征信息,从而为计算机视觉任务提供有用的信息支持。
深度网络的一个缺点是参数量过大,会导致训练和前向推理时间增加,CNN和深度学习变形器的结合会进一步增大网络的参数量,不利于硬件实现和实际部署。因此网络的压缩是一个必要的环节。不同的卷积层之间存在着参数依赖关系,可以通过利用参数之间的相关性减少参数冗余起到网络压缩的作用。
目标检测中的标签分布会很大程度上影响检测的准确精度,最优传输理论是一个全局优化方法,可以很好的解决供需者之间的关系。利用Sinkhorn-Knopp迭代可以优化求解此问题。
发明内容
本发明的目的在于提出一种高效、快速的结合CNN和深度学习变形器的目标检测方法。
本发明提出的结合CNN和深度学习变形器的目标检测方法,包括CNN和深度学习变形器组合模型构建、组合模型参数压缩、标签分配、损失函数设计四部分;具体为:
(1)CNN和深度学习变形器组合模型构建。如图1,组合模型主要包含CNN支路、深度学习变形器支路和特征桥三部分:
a.CNN支路:CNN支路主要包含6个卷积层,具体为1×1卷积、3×3卷积、1×1卷积、1×1卷积、3×3卷积、1×1卷积,这六个卷积层后都接有一个批归一化层。利用残差网络(resnet)结构进行特征提取,防止网络出现梯度消失或者梯度爆炸;
b.深度学习变形器支路:深度学习变形器支路包括批归一化、多头-自注意机制、层归一化和多层感知机四部分,同样的,类似于CNN支路,也采用残差网络结构进行特征提取;
c.特征桥:在CNN支路到深度学习变形器支路的信息流动中间,包含1×1卷积、下采样、层归一化操作;在深度学习变形器到CNN支路的信息流动中间,包含1×1卷积、批归一化操作。
(2)组合模型的参数压缩。就是通过设置共享子层,实现不同卷积层的参数共享。传统卷积神经网络是利用卷积核进行卷积操作。本发明把传统卷积核称为原卷积,为了减少参与卷积运算的卷积核数量,将卷积核进行分解,也就是变为卷积原子和共享子层,其中卷积原子和共享子层进行矩阵乘积可以得到原卷积。即通过共享子层的方法,减少实际参与卷积运算的参数量。设卷积核有k层,Cin为输入通道数,Cout为输出通道数,w、h为卷积核宽和高,原卷积核尺寸k×Cin×Cout×w×h。设计共享参数N,则利用矩阵乘积原理,现有网络减少k×N×w×h,其中共享参数越大,则减少的参数越多。如图2所示,S为不同卷积层的共享子层,A为卷积原子,C为原卷积。则现在进行卷积的是S,先由S进行卷积操作,然后卷积后乘积A得到卷积后的特征信息。由于S的参数量小于C的参数量,因此可以很大程度上减少参与卷积的参数量。
通过步骤(1)CNN和深度学习变形器组合模型构建,以及步骤(2)组合模型的参数压缩,可以得到模型的整体结构和参数。输入的图片经过模型可以得到特征信息。然后通过以下步骤(3)标签分配实现对于待检测目标的分类和位置回归。
(3)标签分配。将每个真值(gt)当作可以提供一定数量待检测信息标签的提供者Si,而每个分配锚(anchor)可以看作是需要唯一待检测信息标签的提供者Si,如果某个分配锚从gt那儿获得足够的测信息标签,那么这个分配锚就是此gt的一个正样本。设计提供者Si到需求者Di的传输方案:
P={p(i,j)|i=1,2,…,m;j=1,2,…,n}, (1)
则优化目标为:
Tij≥0,i=1,2,…,m,j=1,2,…,n;
其中,m,n分别为分配锚中样本数量和真值样本数量。Cij,Tij分别为每个分配过程中分配者和需求者样本信息信息量。公式(1)代指从i到j的整体分配方案。公式(2)代表最小化代价函数,也就是从每一个分配者到需求者样本信息量的信息总和最小。公式(3)指代的是Tij所代表的意义。利用Sinkhorn-Knopp迭代可以进行求解优化结果。由此可以得到目标检测过程中待检测目标的类别和回归位置。
(4)损失函数设计;
确定公式4中损失函数比例系数α的具体过程如下,首先,如图3,设置不同的α值共七组,分别取0.3,0.5,1,2,3。利用MS-COCO数据集进行100个epoch的训练,得到收敛时损失函数值最小的一组,采用0.5作为最终的比值α。
则总的损失函数L包含四部分,CNN的分类损失Ccls,CNN的回归损失Creg,transformer的分类损失Tcls,transformer的回归损失Treg:
其中,β为深度学习变形器和CNN损失函数的比例值。步骤(4)介绍模型训练过程中所需要的损失函数构成,仅在训练过程中使用,在确定好模型参数后不涉及损失函数。
确定公式(5)中损失函数比例系数β的具体过程如下,首先,如图4,设置不同的β值共七组,分别取0.25,0.33,0.5,1,2,3,4。利用MS-COCO数据集进行12个epoch的训练,得到收敛时损失函数值最小的一组,采用3作为最终的比值β。
本发明将CNN和深度学习变形器结合,利用CNN来进行局部特征增强,利用深度学习变形器建立全局上下文模块来增强级联网络。其中,局部特征增强用于增加特征提取的范围,全局上下文建模用于捕获特征地图的全局信息。特征桥促进特征信息在CNN和深度学习变形器两支之间进行流动。但是由于CNN和深度学习变形器的融合会增加模型的参数量,提升模型的复杂度,不利于模型训练和正常的预测推理过程。为了降低模型复杂性,设计共享子层以实现相邻卷积层或交叉卷积层之间的权重参数共享,从而减少卷积权重参数的数量,这样可以减少模型的复杂度,从而提升目标检测的推理预测速度。但是模型的压缩会影响模型的表达能力,影响目标检测的准确性。为了在不增加网络参数的情况下有效提高神经网络的检测性能,提出了最优传输分配方法来解决标签分配问题,通过优化标签分布过程,提升目标检测的检测精度。通过这多方面协同作用,大大提升目标检测的效果和速度。
本发明设计的结合CNN和深度学习变形器的道路图像特征信息提取模型,可以结合整体和局部的特征信息,可得到模型的更好的表现能力。同时共享参数的设计可以减少由于CNN和深度学习变形器结合的参数冗余,从而对模型进行压缩,加快模型训练和前项预测的速度。提取特征的模型确定好后,为了进一步提升目标检测的精度,利用最优传输方案优化目标检测过程中的标签分布,提升目标检测分类和位置回归的准确性。利用公开数据集MS-COCO进行测试,可以得到76.23%的平均精度值。
附图说明
图1为提出的网络结构。
图2为共享层设计结构。
图3为损失函数比例值α决定曲线。
图4为损失函数比例值β决定曲线。
图5为目标检测结果。
具体实施方式
下面结合附图,对本发明进行进一步的说明。
本发明提出了适用于目标检测的高效快速算法,结合CNN和深度学习变形器的网络提取全局和局部特征信息。共享层的设计减少网络的参数量,提升目标检测的速度。最优传输理论提升标签分布的表现,从而提升目标检测的性能。
(1)利用图1的CNN和深度学习变形器网络结构,特征桥作为搭在两支路的纽带,CNN和深度学习变形器的输入为待检测图像。特征信息在两支路间进行流动。
(2)针对步骤(1)中的CNN网络进行共享层设计,设共享系数为128,搭建类似于图2的共享层网络,从而减少网络参数量,至此,获取到用于特征提取的网络结构。
(3)输入道路摄像头拍摄的交通画面,于预先设定的网络参数进行卷积、池化、激活函数、自注意力机制等操作,在CNN和深度学习变形器两个支路分为完成网络的前向传递,以便得到输入交通画面的特征信息。
(4)利用公式(1)、(2)、(3),构建标签分布优化的目标函数,进行标签分布的优化,得到最优的匹配结果,得到目标检测的结果,包括检测的种类和位置。
利用提出的模型进行测试,得到目标物体的部分测试结果如图4,使用COCO数据集进行测试可以达到67.43%的平均检测精度(AP)值。
Claims (1)
1.一种结合CNN和深度学习变形器的目标检测方法,其特征在于,包括CNN和深度学习变形器组合模型构建、组合模型参数压缩、标签分配、损失函数设计四部分;具体为:
(1)CNN和深度学习变形器组合模型构建:
组合模型包含CNN支路、深度学习变形器支路和特征桥三部分:
a.CNN支路,包含6个卷积层,具体为1×1卷积、3×3卷积、1×1卷积、1×1卷积、3×3卷积、1×1卷积,这六个卷积层后都接有一个批归一化层;利用残差网络(结构进行特征提取,防止网络出现梯度消失或者梯度爆炸;
b.深度学习变形器支路,包括批归一化、多头-自注意机制、层归一化和多层感知机四部分,同样的,类似于CNN支路,也采用残差网络结构进行特征提取;
c.特征桥:在CNN支路到深度学习变形器支路的信息流动中间,包含1×1卷积、下采样、层归一化操作;在深度学习变形器到CNN支路的信息流动中间,包含1×1卷积、批归一化操作;
(2)组合模型的参数压缩:
通过设置共享子层,实现不同卷积层的参数共享,具体为:
称传统卷积核称为原卷积,为了减少参与卷积运算的卷积核数量,将卷积核进行分解为卷积原子和共享子层,使卷积原子和共享子层进行矩阵乘积即得到原卷积;
设S为不同卷积层的共享子层,A为卷积原子,C为原卷积;则现在进行卷积的是S,即先由S进行卷积操作,然后卷积后乘积A得到卷积后的特征信息;
(3)标签分配:
将每个真值(gt)当作提供一定数量待检测信息标签的提供者Si,而每个分配锚看作是需要唯一待检测信息标签的提供者Si,如果某个分配锚从gt那儿获得足够的待测信息标签,那么这个分配锚就是此gt的一个正样本;设计提供者Si到需求者Di的传输方案:
P={p(i,j)|i=1,2,…,m;j=1,2,…,n}, (1)
则优化目标为:
Tij≥0,i=1,2,…,m,j=1,2,…,n;
其中,m,n分别为分配锚中样本数量和真值样本数量;Cij,Tij分别为每个分配过程中分配者和需求者样本信息信息量;公式(1)代指从i到j的整体分配方案;公式(2)代表最小化代价函数,也就是从每一个分配者到需求者样本信息量的信息总和最小;公式(3)指代的是Tij所代表的意义;利用Sinkhorn-Knopp迭代进行求解优化结果;
(4)损失函数设计:
则总的损失函数L包含四部分,CNN的分类损失Ccls,CNN的回归损失Creg,transformer的分类损失Tcls,transformer的回归损失Treg:
其中,β为深度学习变形器和CNN损失函数的比例值。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310152193.1A CN116188857A (zh) | 2023-02-23 | 2023-02-23 | 融合cnn和深度学习变形器的目标检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310152193.1A CN116188857A (zh) | 2023-02-23 | 2023-02-23 | 融合cnn和深度学习变形器的目标检测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116188857A true CN116188857A (zh) | 2023-05-30 |
Family
ID=86436237
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310152193.1A Pending CN116188857A (zh) | 2023-02-23 | 2023-02-23 | 融合cnn和深度学习变形器的目标检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116188857A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119295732A (zh) * | 2024-10-07 | 2025-01-10 | 河海大学 | 基于交叉注意力和多维度量的机器人巡检缺陷检测方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
| AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
| CN113362231A (zh) * | 2021-07-23 | 2021-09-07 | 百果园技术(新加坡)有限公司 | 人脸关键点的插值方法、装置、计算机设备和存储介质 |
-
2023
- 2023-02-23 CN CN202310152193.1A patent/CN116188857A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
| AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
| CN113362231A (zh) * | 2021-07-23 | 2021-09-07 | 百果园技术(新加坡)有限公司 | 人脸关键点的插值方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
| Title |
|---|
| 李玉峰;顾曼璇;赵亮;: "采用改进Faster R-CNN的遥感图像目标检测方法", 信号处理, no. 08, 25 August 2020 (2020-08-25) * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119295732A (zh) * | 2024-10-07 | 2025-01-10 | 河海大学 | 基于交叉注意力和多维度量的机器人巡检缺陷检测方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114821164B (zh) | 基于孪生网络的高光谱图像分类方法 | |
| Jiang et al. | Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network | |
| CN110348624B (zh) | 一种基于Stacking集成策略的沙尘暴等级预测方法 | |
| Zhao et al. | High-resolution remote sensing bitemporal image change detection based on feature interaction and multitask learning | |
| CN115512162A (zh) | 基于注意力孪生网络与多模态融合特征的地物分类方法 | |
| CN111191736A (zh) | 基于深度特征交叉融合的高光谱图像分类方法 | |
| CN113392931A (zh) | 基于自监督学习及多任务学习的高光谱开放集分类方法 | |
| Chakraborty et al. | Detection of skin disease using metaheuristic supported artificial neural networks | |
| Xi et al. | MCTGCL: Mixed CNN–transformer for Mars hyperspectral image classification with graph contrastive learning | |
| CN113889234B (zh) | 基于通道混合的编解码网络的医学图像分割方法 | |
| CN117315481A (zh) | 基于光谱-空间自注意力和Transformer网络的高光谱图像分类方法 | |
| CN114170657B (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
| CN118429819A (zh) | 基于孪生残差网络的双时遥感影像语义变化检测方法 | |
| CN111047078B (zh) | 交通特征预测方法、系统及存储介质 | |
| CN116168235B (zh) | 一种基于双分支注意力网络的高光谱图像分类方法 | |
| CN112308825A (zh) | 一种基于SqueezeNet的农作物叶片病害识别方法 | |
| CN116596952A (zh) | 一种多层级病灶检出优化的病理切片图像分割检测方法 | |
| CN114170154A (zh) | 基于Transformer的遥感VHR图像变化检测方法 | |
| Wu et al. | Spectral–spatial large kernel attention network for hyperspectral image classification | |
| CN116311186A (zh) | 一种基于改进Transformer模型的植物叶片病变识别方法 | |
| CN116524265A (zh) | 一种基于多尺度混合卷积网络的高光谱图像分类方法 | |
| CN118447250A (zh) | 一种耕地遥感图像分割方法、装置、介质和设备 | |
| Tu et al. | Hyperspectral image classification based on residual dense and dilated convolution | |
| CN119107527A (zh) | 一种基于深度学习和多尺度特征融合的在轨遥感目标检测方法 | |
| Thokala et al. | Detection and Classification of Plant Stress Using Hybrid Deep Convolution Neural Networks: A Multi-Scale Vision Transformer Approach. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |