CN116246116A - 强化多尺度特征提取、复用与融合的目标检测方法 - Google Patents
强化多尺度特征提取、复用与融合的目标检测方法 Download PDFInfo
- Publication number
- CN116246116A CN116246116A CN202310286881.7A CN202310286881A CN116246116A CN 116246116 A CN116246116 A CN 116246116A CN 202310286881 A CN202310286881 A CN 202310286881A CN 116246116 A CN116246116 A CN 116246116A
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- image
- fusion
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种强化多尺度特征提取、复用与融合的目标检测方法。涉及人工智能技术领域。其中,该方法包括:响应对目标图像的识别请求,将目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,目标检测模型中至少包括:目标特征提取网络、特征融合网络以及目标预测网络,目标检测模型中包括:多个传输通道,传输通道用于传输目标图像的图像特征;将N个第一特征图像输入特征融合网络,输出M个第二特征图像;将M个第二特征图像输入目标预测网络,输出目标图像的识别结果。本发明解决了目标检测算法中的模型结构复杂、计算成本高、对显著性特征不具备针对性,导致目标检测过程中目标识别效率低的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种强化多尺度特征提取、复用与融合的目标检测方法。
背景技术
目前,目标检测技术主要分为传统的目标检测算法、两阶段目标检测算法,单阶段目标检测算法和基于关键点的目标检测算法。在2012年以前,主要以传统的目标检测算法研究为主,该阶段以Viola Jones(一种实时处理并给出目标检出率的目标检测方法)检测器、HOG(基于方向直方图特征的检测方法)检测器和DPM(一种基于组件的检测方法)检测器为代表性的作品。首先,该类算法采用选择性窗口技术对样本数据进行遍历后产生候选框;然后,利用特征提取组件对候选框内的样本数据进行特征提取;最后,使用分类器进行分类处理。但该类算法对目标的重要特征信息不具有针对性,因此,易导致窗口冗余和算法复杂度高等问题。
两阶段目标检测算法是基于候选区域的低实时性和高检测精度算法,该类算法首先对样本数据生成候选区域,然后利用卷积神经网络对候选区域的特征进行提取,最后进行分类处理。目前,该类算法主要以RCNN(一种将深度学习应用到目标检测上的算法)、SPPNet(空间金字塔池化卷积网络)、Fast RCNN、Faster RCNN、HyperNet、FPN、Mask RCNN和TridentNet等为主,其中,RCNN、SPPNet、Fast RCNN、Faster RCNN、HyperNet、FPN、MaskRCNN和TridentNet为相关技术中不同种类的两阶段目标检测算法。
单阶段目标检测算法将目标特征提取、目标分类和候选框回归过程进行了整合,从而实现了端到端的目标检测任务。目前,该类算法主要以YOLO系列、SSD系列、MobileNet系列、ShuffleNet系列、RetinaNet、EfficientDet、Swin Transformer等为主(YOLO系列、SSD系列、MobileNet系列、ShuffleNet系列、RetinaNet、EfficientDet、Swin Transformer为相关技术中不同种类的单阶段目标检测算法)。单阶段目标检测算法在实时性方面普遍优于两阶段目标检测算法,并且具有较高的检测精度,因此在诸多场合得到了广泛应用。
基于关键点的目标检测算法其本质为利用目标关键点的检测与匹配来代替候选框的生成过程,从而消除候选框带来的样本失衡等问题。该类算法首先将寻找目标中心点的过程视为目标关键点评估,然后利用关键点回归策略对目标的位置、角度和姿态等属性进行调整。目前,基于关键点的目标检测算法以CornerNet系列、CenterNet和ExtremeNet为主。但该类算法模型复杂,难以达到轻量化和实时性的要求。
当前,阻碍基于深度学习的目标检测算法进一步提升的难点主要为模型结构复杂、超参数增多、优化过程复杂和样本数据分布不均衡等。
现阶段骨干特征提取网络种类繁多,结构复杂,对骨干特征提取网络的深度和宽度进行扩张易增加算法计算量,还会导致算法模型难以部署,导致对图像中的目标进行识别分类的效率低,例如:金融机构中通过图像采集设备采集图像后,需要进行目标的识别过程,但是由于现有技术中的目标检测算法结构复杂,则会导致图像识别效率低、严重浪费系统的资源、难以快速开展金融机构的其他工作等问题。
而且相关技术中的多尺度特征融合易导致非显著性特征在颈部特征融合网络中流通,致使算法模型对梯度信息的重复利用,引起非必要性的计算资源消耗。
此外,多尺度特征融合策略对差异性较大的特征按照平均方式进行堆叠或加权融合操作,因而未能对显著性特征与非显著性特征进行有效区分,使得输入特征与输出特征存在较大差异。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种强化多尺度特征提取、复用与融合的目标检测方法,以解决目标检测算法中的模型结构复杂、计算成本高、对显著性特征不具备针对性,导致目标检测过程中目标识别效率低的技术问题。
根据本发明实施例的一个方面,提供了一种强化多尺度特征提取、复用与融合的目标检测方法,包括:响应对目标图像的识别请求,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,所述目标检测模型中至少包括:所述目标特征提取网络、特征融合网络以及目标预测网络,所述目标检测模型中包括:多个传输通道,所述传输通道用于传输所述目标图像的图像特征,N为大于1的整数;将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,其中,所述特征融合网络用于对N个所述第一特征图像进行多尺度特征融合,M为大于1的整数;将所述M个第二特征图像输入所述目标预测网络,输出所述目标图像的识别结果,其中,所述识别结果包含对所述目标图像中目标的分类结果。
进一步地,所述目标特征提取网络至少包括:多个第一特征提取模块、多个维度调整模块,每个所述维度调整模块至少包括:卷积层、批量归一化层以及激活函数层,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,包括:通过每个所述维度调整模块对所述目标图像进行维度调整,并通过每个所述第一特征提取模块对进行维度调整后的所述目标图像进行特征提取,得到M个所述第二特征图像。
进一步地,每个所述第一特征提取模块至少包括:多个维度调整子模块、残差子模块,所述残差子模块包括多个残差单元,每个所述维度调整子模块与所述维度调整模块的结构相同,通过每个所述第一特征提取模块对进行维度调整后的所述目标图像进行特征提取,得到M个所述第二特征图像,包括:通过所述第一特征提取模块接收第三特征图像,并通过第一传输通道将所述第三特征图像输入第一维度调整子模块,并将所述第一维度调整子模块输出的第四特征图像输入所述残差子模块,输出第一特征层,其中,所述第一特征提取模块为多个所述第一特征提取模块的其中之一,所述第三特征图像为经过多个所述第一特征提取模块和多个所述维度调整模块的其中一个或多个模块处理过的所述目标图像,所述第一维度调整子模块为多个所述维度调整子模块的其中之一;在所述第一传输通道中,对所述第一特征层进行卷积处理后输入堆叠单元;在第二传输通道中,对所述第三特征图像进行卷积处理后输入所述堆叠单元,并通过所述堆叠单元对所述堆叠单元接收的特征数据进行堆叠处理,得到第二特征层;对所述第二特征层进行目标处理,得到目标特征图像,其中,所述目标处理至少包括以下其中之一:归一化处理、激活函数处理,特征维度调整处理,所述目标特征图像为M个所述第二特征图像的其中之一;基于多个所述目标特征图像,确定M个所述第二特征图像。
进一步地,每个所述残差单元至少包括:多个维度调整子单元,加权子单元,将所述第一维度调整子模块输出的第四特征图像输入所述残差子模块,输出第一特征层,包括:基于第一传输子通道和多个所述维度调整子单元,对所述第四特征图像进行通道调整,得到第三特征层,并将所述第三特征层输入所述加权子单元;通过第二传输子通道将所述第四特征图像输入所述加权子单元;通过所述加权子单元对所述第三特征层和所述第四特征图像进行加权处理,输出所述第一特征层。
进一步地,所述特征融合网络至少包括:多个第二特征提取模块,多个特征融合模块,多个特征融合层,将所述第一特征提取模块中的多个残差单元替换为多个维度调整单元作为所述第二特征提取模块,N个所述第一特征图像的图像尺寸不同,将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,包括:在第一层所述特征融合层,将第一尺寸的所述第一特征图像输入第一特征融合模块,并将所述第一特征融合模块输出的结果输入第一提取模块,输出第一图像,其中,所述第一特征融合模块用于将第一特征流通路径传输的图像特征与第一尺寸的所述第一特征图像融合,所述第一特征流通路径传输图像特征的传输方向为最后一层所述特征融合层向第一层所述特征融合层,所述第一提取模块为多个所述第二特征提取模块的其中之一,所述第一提取模块用于将第一特征提取模块的输出结果经第二特征流通路径传输至最后一层特征融合层,所述第二特征流通路径的图像特征传输方向为第一层所述特征融合层向最后一层所述特征融合层;在第二层所述特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的所述第一特征图像与所述第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与所述第二特征流通路径传输的图像特征进行融合,确定第二图像;在最后一层所述特征融合层,基于第五传输通道和第六传输通道,将第三尺寸的所述第一特征图像经金字塔池化操作后与所述第二特征流通路径传输的特征进行特征融合,确定第三图像;基于所述第一图像、所述第二图像和所述第三图像,确定M个所述第二特征图像。
进一步地,在第二层所述特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的所述第一特征图像与所述第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与所述第二特征流通路径传输的图像特征进行融合,确定第二图像,包括:在第二层所述特征融合层,通过所述第三传输通道将第二尺寸的所述第一特征图像传输至第二特征融合模块,与所述第一特征流通路径传输的图像特征进行多尺度融合,得到第一融合特征;将所述第一融合特征输入第二提取模块,得到第二融合特征,其中,所述第二提取模块为多个所述第二特征提取模块的其中之一;通过第四传输通道将第二尺寸的第一特征图像传输至第三特征融合模块与所述第二特征流通路径传输的特征以及所述第二融合特征进行多尺度特征融合,确定第三融合特征;将所述第三融合特征输入第三提取模块,输出所述第二图像,其中,所述第三提取模块为多个所述第二特征提取模块的其中之一。
进一步地,在将第三尺寸的所述第一特征图像经金字塔池化操作之后,还包括:将第三尺寸的所述第一特征图像经金字塔池化操作后得到的结果,通过所述第一特征流通路径向第一层所述特征融合层进行传输。
进一步地,所述目标检测模型通过以下方式确定:获取预训练权重和训练样本,并将所述训练样本划分为训练集、验证集和测试集,其中,所述训练样本包括:多张图像,每张所述图像上标注有所述目标的标注框;基于所述预训练权重和所述训练集对初始检测模型进行训练,并在训练过程中采用交叉验证的方式,通过所述验证集验证所述初始检测模型是否收敛,其中,所述初始检测模型为未训练的模型;在所述初始检测模型达到收敛的情况下,确定所述目标检测模型,并基于权重文件和所述测试集,测试所述初始检测模型的检测精度,其中,所述权重文件用于存储所述目标检测模型的多个权重。
进一步地,强化多尺度特征提取、复用与融合的目标检测方法还包括:在对所述初始检测模型进行训练过程中,通过所述目标预测网络接收所述特征融合网络输出的融合特征图;将所述融合特征图划分为多个网格,其中,所述融合特征图上标记有所述目标的所述标注框,每个所述网格中包括多个锚框;在所述多个网格中查找所述融合特征图中的所述标注框所在的目标网格;基于所述目标网格中的每个锚框与所述目标的所述标注框的交并比,确定预测框;通过所述预测框,确定所述初始检测模型的检测结果。
进一步地,基于所述目标网格中的每个锚框与所述目标的所述标注框的交并比,确定预测框的步骤,包括:计算所述目标网格中的每个锚框与所述目标的所述标注框的交并比,得到多个比值;将所述多个比值中最大的比值关联的锚框作为目标锚框,其中,所述目标锚框用于对所述融合特征图上的所述目标进行检测;更新所述目标锚框的位置参数,得到所述预测框。
进一步地,对所述初始检测模型进行训练时采用的损失函数至少包括:分类损失函数、置信度损失函数以及定位损失函数。
根据本发明实施例的另一方面,还提供了一种强化多尺度特征提取、复用与融合的目标检测装置,包括:第一处理单元,用于响应对目标图像的识别请求,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,所述目标检测模型中至少包括:所述目标特征提取网络、特征融合网络以及目标预测网络,所述目标检测模型中包括:多个传输通道,所述传输通道用于传输所述目标图像的图像特征,N为大于1的整数;第二处理单元,用于将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,其中,所述特征融合网络用于对N个所述第一特征图像进行多尺度特征融合,M为大于1的整数;第三处理单元,用于将所述M个第二特征图像输入所述目标预测网络,输出所述目标图像的识别结果,其中,所述识别结果包含对所述目标图像中目标的分类结果。
进一步地,所述目标特征提取网络至少包括:多个第一特征提取模块、多个维度调整模块,每个所述维度调整模块至少包括:卷积层、批量归一化层以及激活函数层,第一处理单元包括:第一处理子单元,用于通过每个所述维度调整模块对所述目标图像进行维度调整,并通过每个所述第一特征提取模块对进行维度调整后的所述目标图像进行特征提取,得到M个所述第二特征图像。
进一步地,每个所述第一特征提取模块至少包括:多个维度调整子模块、残差子模块,所述残差子模块包括多个残差单元,每个所述维度调整子模块与所述维度调整模块的结构相同,处理子单元包括:第一处理模块,用于通过所述第一特征提取模块接收第三特征图像,并通过第一传输通道将所述第三特征图像输入第一维度调整子模块,并将所述第一维度调整子模块输出的第四特征图像输入所述残差子模块,输出第一特征层,其中,所述第一特征提取模块为多个所述第一特征提取模块的其中之一,所述第三特征图像为经过多个所述第一特征提取模块和多个所述维度调整模块的其中一个或多个模块处理过的所述目标图像,所述第一维度调整子模块为多个所述维度调整子模块的其中之一;第二处理模块,用于在所述第一传输通道中,对所述第一特征层进行卷积处理后输入堆叠单元;第三处理模块,用于在第二传输通道中,对所述第三特征图像进行卷积处理后输入所述堆叠单元,并通过所述堆叠单元对所述堆叠单元接收的特征数据进行堆叠处理,得到第二特征层;第四处理模块,用于对所述第二特征层进行目标处理,得到目标特征图像,其中,所述目标处理至少包括以下其中之一:归一化处理、激活函数处理,特征维度调整处理,所述目标特征图像为M个所述第二特征图像的其中之一;确定模块,用于基于多个所述目标特征图像,确定M个所述第二特征图像。
进一步地,每个所述残差单元至少包括:多个维度调整子单元,加权子单元,第一处理模块包括:调整子模块,用于基于第一传输子通道和多个所述维度调整子单元,对所述第四特征图像进行通道调整,得到第三特征层,并将所述第三特征层输入所述加权子单元;第一输入模块,用于通过第二传输子通道将所述第四特征图像输入所述加权子单元;加权模块,用于通过所述加权子单元对所述第三特征层和所述第四特征图像进行加权处理,输出所述第一特征层。
进一步地,所述特征融合网络至少包括:多个第二特征提取模块,多个特征融合模块,多个特征融合层,将所述第一特征提取模块中的多个残差单元替换为多个维度调整单元作为所述第二特征提取模块,N个所述第一特征图像的图像尺寸不同,第二处理单元包括:第二处理子单元,用于在第一层所述特征融合层,将第一尺寸的所述第一特征图像输入第一特征融合模块,并将所述第一特征融合模块输出的结果输入第一提取模块,输出第一图像,其中,所述第一特征融合模块用于将第一特征流通路径传输的图像特征与第一尺寸的所述第一特征图像融合,所述第一特征流通路径传输图像特征的传输方向为最后一层所述特征融合层向第一层所述特征融合层,所述第一提取模块为多个所述第二特征提取模块的其中之一,所述第一提取模块用于将第一特征提取模块的输出结果经第二特征流通路径传输至最后一层特征融合层,所述第二特征流通路径的图像特征传输方向为第一层所述特征融合层向最后一层所述特征融合层;第三处理子单元,用于在第二层所述特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的所述第一特征图像与所述第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与所述第二特征流通路径传输的图像特征进行融合,确定第二图像;第四处理子单元,用于在最后一层所述特征融合层,基于第五传输通道和第六传输通道,将第三尺寸的所述第一特征图像经金字塔池化操作后与所述第二特征流通路径传输的特征进行特征融合,确定第三图像;确定子单元,用于基于所述第一图像、所述第二图像和所述第三图像,确定M个所述第二特征图像。
进一步地,第三处理子单元包括:第一融合模块,用于在第二层所述特征融合层,通过所述第三传输通道将第二尺寸的所述第一特征图像传输至第二特征融合模块,与所述第一特征流通路径传输的图像特征进行多尺度融合,得到第一融合特征;输入模块,将所述第一融合特征输入第二提取模块,得到第二融合特征,其中,所述第二提取模块为多个所述第二特征提取模块的其中之一;第二融合模块,用于通过第四传输通道将第二尺寸的第一特征图像传输至第三特征融合模块与所述第二特征流通路径传输的特征以及所述第二融合特征进行多尺度特征融合,确定第三融合特征;输入输出模块,用于将所述第三融合特征输入第三提取模块,输出所述第二图像,其中,所述第三提取模块为多个所述第二特征提取模块的其中之一。
进一步地,第二处理单元还包括:传输子单元,用于在将第三尺寸的所述第一特征图像经金字塔池化操作之后,将第三尺寸的所述第一特征图像经金字塔池化操作后得到的结果,通过所述第一特征流通路径向第一层特征融合层进行传输。
进一步地,所述目标检测模型通过以下单元确定:第四处理单元,用于获取预训练权重和训练样本,并将所述训练样本划分为训练集、验证集和测试集,其中,所述训练样本包括:多张图像,每张所述图像上标注有所述目标的标注框;训练单元,用于基于所述预训练权重和所述训练集对初始检测模型进行训练,并在训练过程中采用交叉验证的方式,通过所述验证集验证所述初始检测模型是否收敛,其中,所述初始检测模型为未训练的模型;测试单元,用于在所述初始检测模型达到收敛的情况下,确定所述目标检测模型,并基于权重文件和所述测试集,测试所述初始检测模型的检测精度,其中,所述权重文件用于存储所述目标检测模型的多个权重。
进一步地,强化多尺度特征提取、复用与融合的目标检测方法还包括:接收子单元,用于在对所述初始检测模型进行训练过程中,通过所述目标预测网络接收所述特征融合网络输出的融合特征图;划分子单元,用于将所述融合特征图划分为多个网格,其中,所述融合特征图上标记有所述目标的所述标注框,每个所述网格中包括多个锚框;查找子单元,用于在所述多个网格中查找所述融合特征图中的所述标注框所在的目标网格;第一确定子单元,用于基于所述目标网格中的每个锚框与所述目标的所述标注框的交并比,确定预测框;第二确定子单元,用于通过所述预测框,确定所述初始检测模型的检测结果。
进一步地,第一确定子单元包括:计算模块,用于计算所述目标网格中的每个锚框与所述目标的所述标注框的交并比,得到多个比值;锚框处理模块,用于将所述多个比值中最大的比值关联的锚框作为目标锚框,其中,所述目标锚框用于对所述融合特征图上的所述目标进行检测;更新模块,用于更新所述目标锚框的位置参数,得到所述预测框。
进一步地,对所述初始检测模型进行训练时采用的损失函数至少包括:分类损失函数、置信度损失函数以及定位损失函数。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的强化多尺度特征提取、复用与融合的目标检测方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的强化多尺度特征提取、复用与融合的目标检测方法。
在本发明中,响应对目标图像的识别请求,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,所述目标检测模型中至少包括:所述目标特征提取网络、特征融合网络以及目标预测网络,所述目标检测模型中包括:多个传输通道,所述传输通道用于传输所述目标图像的图像特征,N为大于1的整数;将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,其中,所述特征融合网络用于对N个所述第一特征图像进行多尺度特征融合,M为大于1的整数;将所述M个第二特征图像输入所述目标预测网络,输出所述目标图像的识别结果,其中,所述识别结果包含对所述目标图像中目标的分类结果。进而解决了目标检测算法中的模型结构复杂、计算成本高、对显著性特征不具备针对性,导致目标检测过程中目标识别效率低的技术问题。在本发明中,通过包含多个传输通道的目标检测模型对目标图像中的目标进行分类识别,避免了相关技术中检测模型的结构复杂,特征流通速度慢,导致识别效率低的情况,从而提高了目标检测模型对图像中的目标进行分类识别的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的强化多尺度特征提取、复用与融合的目标检测方法的流程图;
图2是根据本发明实施例的一种可选的目标检测模型的模型结构图;
图3是根据本发明实施例的一种可选的ECSPDarkNet1-X模块的结构图;
图4是根据本发明实施例的一种可选的ECSPDarkNet2-X模块的结构图;
图5是根据本发明实施例的一种可选的颈部特征融合网络多尺度特征融合过程的流程图;
图6是根据本发明实施例的一种可选的模型训练的流程图;
图7是根据本发明实施例的一种可选的模型测试的流程图;
图8是根据本发明实施例的一种可选的采用交叉验证训练策略的三种损失函数变化曲线的流程图;
图9是根据本发明实施例的一种可选的锚框到预测框的调整过程的流程图;
图10是根据本发明实施例的一种可选的预测框回归过程的流程图;
图11是根据本发明实施例的一种可选的强化多尺度特征提取、复用与融合的目标检测装置的示意图;
图12是根据本发明实施例的一种电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据,图像特征数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本发明可以应用于各金融机构的各种软件产品、控制系统、客户端(包括但不限于:移动客户端、PC机等)控制系统进行视觉检测,以软件产品为例进行示意说明,通过移动客户端上安装的视觉检测系统,可以实现对金融机构的相关业务内容(包括但不限于:转账、理财、基金、缴费、查账、广告、推荐等业务功能)进行银行网点人流实时监控、银行访客分析、纸币防骗防伪识别、银行访客异常行为检测、银行网点监控警报系统、银行卡识别、银行访客人脸识别等。
实施例一
根据本发明实施例,提供了一种可选的强化多尺度特征提取、复用与融合的目标检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的强化多尺度特征提取、复用与融合的目标检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,响应对目标图像的识别请求,将目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,目标检测模型中至少包括:目标特征提取网络、特征融合网络以及目标预测网络,目标检测模型中包括:多个传输通道,传输通道用于传输目标图像的图像特征,N为大于1的整数。
图2是根据本发明实施例的一种可选的目标检测模型的模型结构图,如图2所示,上述的目标检测模型,可以由输入图像部分(用于接收待识别的目标图像)、骨干特征提取网络(对应于上述的目标特征提取网络)、颈部特征融合网络(对应于上述的特征融合网络)和目标预测网络四个模块构成。其中,输入的目标图像尺寸可以在预设范围内,例如:在(0.5~1.5)×(640×640)范围内,在一种可选的方式中,输入的目标图像的尺寸可以为416×416,上述的骨干特征提取网络可以用于负责多尺度浅层特征提取。
在本实施例中,通过将目标图像输入目标检测模型的目标特征提取网络,可以通过目标特征提取网络输出N个第一特征图像,为了避免相关技术中的模型结构复杂,导致在模型中特征流通效率低的情况,上述的目标检测模型中可以包括多个传输通道,对图像特征进行传输,进而提高图像特征在目标检测模型中的流通速度,以提高目标检测模型对图像中的目标进行识别分类的效率。
步骤S102,将N个第一特征图像输入特征融合网络,输出M个第二特征图像,其中,特征融合网络用于对N个第一特征图像进行多尺度特征融合,M为大于1的整数。
上述的特征融合网络可以对目标特征提取网络输出的特征图像进行多尺度融合,得到多个第二特征图像(对应于上述的M个第二特征图像)。例如:颈部特征融合网络(对应于上述的特征融合网络)可以对来自骨干特征提取网络输出的多尺度特征进行多尺度融合。
步骤S103,将M个第二特征图像输入目标预测网络,输出目标图像的识别结果,其中,识别结果包含对目标图像中目标的分类结果。
在本实施例中,可以将特征融合网络输出的M个第二特征图像输入目标预测网络中,通过目标预测网络对目标图像中的目标的属性进行预测判断,识别出目标图像中是否包括目标以及该目标的类别。
本实施例中对目标图像中强化多尺度特征提取、复用与融合的目标检测方法可以用于金融机构的图像采集设备中,可以用于对金融机构采集到的图像中的目标进行识别并分类,以提高金融机构中对图像数据的处理效率。
需要说明的是,本实施例的目标检测模型,可以应用于金融机构的视觉检测系统,如:银行视觉检测系统,以提高银行网点在线实时监控安全能力,具体的:本实施例可以应用于银行网点人流实时监控、银行访客分析、纸币防骗防伪识别、银行访客异常行为检测、银行网点监控警报系统、银行卡识别、银行访客人脸识别等场景。
在本实施例的目标检测模型中,可以通过目标几何特征统计的方式将特征信息进行整合,从而达到检测目标的效果。本实施例的目标检测模型的首要任务可以是对样本数据中的目标进行定位,然后利用特征提取与融合模块对特征信息进行处理,最后对目标信息进行分类。本实施例依托于人工智能技术,还可以在智慧金融、智能交通、智慧医疗、智能安全、目标追踪和工业检测等领域进行广泛应用。
通过上述步骤,在本实施例中,通过含有多个传输通道的目标检测模型对目标图像中目标进行分类识别,避免了相关技术中检测模型的结构复杂,特征流通速度慢,导致识别效率低的情况,从而提高了目标检测模型对图像中的目标进行分类识别的技术效果。进而解决了目标检测算法中的模型结构复杂、计算成本高、对显著性特征不具备针对性,导致目标检测过程中目标识别效率低的技术问题。
下面对本实施例中的目标检测算法中基础运算过程进行说明:
在本实施例中,可以利用普通卷积运算进行特征提取操作,如公式(1)所示。其中,x为输入特征,w为卷积核,s为输出特征。
s(t)=(x*w)(t) (1)
此外,输入特征与输出特征之间需确定特征维度,本实施例可以则采用公式(2)和公式(3)计算特征大小。
其中,P为填充,S为步长,(H,W)为输入特征的高度和宽度,(FH,FW)为卷积核的高度和宽度,(OH,OW)为输出特征的高度和宽度。在本实施例中,输入特征的尺寸可以在(0.5~1.5)×(640×640)范围内,满足网络最大下采样操作32倍即可。通常,卷积核尺寸可以为1×1、3×3。
下面对本实施例中的目标检测算法中的前向传播与反向传播过程进行说明:
前向传播本质为特征在网络中被卷积操作进行特征提取,并采用优化策略将特征进行前向流通。反向传播则是对卷积核的每个权重与偏置的梯度进行学习并更新。
下面对本实施例中的目标检测算法中的卷积层的前向传播过程进行说明:记M为第l-1输出特征图,为当前层输入特征,为当前层输出特征,卷积层的前向传播过程如公式(4)到公式(5)所示。其中,w为卷积核,b为偏置,f()为激活函数。
下面对本实施例中的目标检测算法中的卷积层的反向传播过程进行说明:
对第l层的梯度δl进行反向传播即可得到第l-1层的梯度,记为δl-1,如公式(6)所示。若反向传播过程中未使用上采样操作,则可将上采样UpSampling()忽略。
当前卷积层对w的梯度结果为该层的输入与输出的偏差梯度进行卷积运算,其余卷积核类似,如公式(7)所示。而偏置b是一个向量,为此将每个卷积核的误差梯度项进行求和,即可得到关于b的误差向量,如公式(8)所示,最后选用梯度优化算法对参数进行更新,如公式(9)所示为w的更新过程,b的更新过程类似。其中,J为目标损失函数,η为学习率。
下面对本实施例中的目标检测算法中的池化层的前向传播过程进行说明:
与卷积层类似,记第l层为池化层,其前向传播过程如公式(10)到公式(11)所示。
其中,DowmSampling()为下采样操作。
下面对本实施例中的目标检测算法中的池化层的反向传播过程进行说明:
记第l-1层池化层的梯度为δl-1,从而得到池化层的反向传播过程如公式(12)所示。
δl-1=UpSampling(δl)f'(ul-1) (12)
下面对本实施例中的目标检测算法中的模型优化算法过程进行说明:
在本实施例中,可以选用Adam梯度优化算法对参数进行更新,该梯度优化算法其重要作用是对梯度进行滑动平均和偏差纠正。其伪代码执行过程如下所示:
本实施例Adam梯度优化算法伪代码:
对学习率η、可学习参数θ0和ε进行初始化;
对m和v设置平滑常数β1和β2;
初始化m0=0,v0=0,t=0;
whileθt不收敛时do
t←t+1;
mt←β1·mt-1+(1-β1)·δt;
end while
可选地,目标特征提取网络至少包括:多个第一特征提取模块、多个维度调整模块,每个维度调整模块至少包括:卷积层、批量归一化层以及激活函数层,将目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,包括:通过每个维度调整模块对目标图像进行维度调整,并通过每个第一特征提取模块对进行维度调整后的目标图像进行特征提取,得到M个第二特征图像。
下面通过一种可选的方式对骨干特征提取网络(对应于上述的目标特征提取网络)进行说明,如图2所示,骨干特征提取网络可以包括4个ECSPDarkNet1-X模块(对应于上述的多个第一特征提取模块),如图2中ECSPDarkNet1-4、ECSPDarkNet1-9、ECSPDarkNet1-12以及ECSPDarkNet1-4,骨干特征提取网络还可以包括5个CBS模块(对应于上述的多个维度调整模块)。其中,ECSPDarkNet1-X模块可以用于加强多尺度特征提取的同时减少模型参数,而CBS模块则可以用于调整各层输入特征与输出特征之间的维度信息。如图2所示,在CBS模块中,可以包含普通卷积Conv(对应于上述的卷积层)、批量归一化BN(对应于上述的批量归一化层)和SiLU激活函数(对应于上述的激活函数层)。其中,普通卷积Conv可以用于进行通道整合,批量归一化BN可以用于均衡非线性特征流的同时加快模型训练速度,而SiLU激活函数则可以用于引入非线性特征因素,提高深度神经网络对模型的非线性特征表达能力。
如图2所示,上述的目标特征图可以在依次输入两个3×3的CBS模块后,再经过一个ECSPDarkNet1-4模块处理,然后再通过一个3×3的CBS模块处理后,输入ECSPDarkNet1-9模块,将ECSPDarkNet1-9模块输出的结果(上述M个第二特征图像的其中之一)输入颈部特征融合网络,还可以将ECSPDarkNet1-9模块输出的结果经过一个3×3的CBS模块进行处理后,输入ECSPDarkNet1-12模块,ECSPDarkNet1-12模块输出的结果(上述M个第二特征图像的其中之一)可以输入颈部特征融合网络,还可以将ECSPDarkNet1-12模块输出的结果经一个3×3的CBS模块处理后,输入另一个ECSPDarkNet1-4模块,该ECSPDarkNet1-4模块输出的结果(上述M个第二特征图像的其中之一),可以输入至颈部特征融合网络,实现了提高深度神经网络对模型的非线性特征表达能力的技术效果。
可选地,每个第一特征提取模块至少包括:多个维度调整子模块、残差子模块,残差子模块包括多个残差单元,每个维度调整子模块与维度调整模块的结构相同,通过每个第一特征提取模块对进行维度调整后的目标图像进行特征提取,得到M个第二特征图像,包括:通过第一特征提取模块接收第三特征图像,并通过第一传输通道将第三特征图像输入第一维度调整子模块,并将第一维度调整子模块输出的第四特征图像输入残差子模块,输出第一特征层,其中,第一特征提取模块为多个第一特征提取模块的其中之一,第三特征图像为经过多个第一特征提取模块和多个维度调整模块的其中一个或多个模块处理过的目标图像,第一维度调整子模块为多个维度调整子模块的其中之一;在第一传输通道中,对第一特征层进行卷积处理后输入堆叠单元;在第二传输通道中,对第三特征图像进行卷积处理后输入堆叠单元,并通过堆叠单元对堆叠单元接收的特征数据进行堆叠处理,得到第二特征层;对第二特征层进行目标处理,得到目标特征图像,其中,目标处理至少包括以下其中之一:归一化处理、激活函数处理,特征维度调整处理,目标特征图像为M个第二特征图像的其中之一;基于多个目标特征图像,确定M个第二特征图像。
图3是根据本发明实施例的一种可选的ECSPDarkNet1-X模块的结构图,如图3所示,上述的特征提取模块(如图3中的ECSPDarkNet1-X)可以包括多个维度调整子模块(如图3中的CBS)、残差子模块(如图3中的X个残差单元),还可以包括卷积模块(如图3中的Conv),堆叠模块(如图3中的Concat)、归一化模块(如图3中的BN)、激活函数模块(如图3中的LeakyReLU),每个CBS还可以包括:Conv(卷积)、BN(归一化)、SiLU(激活函数)。
首先,将各个ECSPDarkNet1-X模块(对应于上述的第一特征提取模块)的输入特征(对应于上述的第三特征图像)按通道划分为两部分。其中,x”0(对应于上述的第一传输通道)为ECSPDarkNEt1-X模块的骨干分支,首先经CBS模块(对应于上述的第一维度调整子模块)进行处理后进入ResdualUnit残差模块(对应于上述的残差子模块),ResdualUnit残差模块输出特征层(对应于上述的第一特征层)。记x'0为跨连接边(对应于上述的第二传输通道),并将x”0处理完后输出的将征层(即对第一特征层进行卷积处理后得到的特征层)与x'0传输的第三特征图像经普通卷积Conv处理后的特征层(即对第三特征图像进行卷积处理后得到的特征层)通过Concat模块(对应于上述的堆叠单元)按通道进行堆叠操作或堆叠处理,从而丰富多尺度特征信息融合,然后采用批量归一化BN操作(对应于上述的归一化处理)保证特征的一致性并采用LeakyReLU激活函数(对应于上述的激活函数处理)对特征进行非线性化,最后使用CBS模块调整特征的尺度(特征维度调整处理)并作为下一个模块的输入。
上述的卷积处理可以为普通卷积处理。如公式(13)到公式(15)所示,为ECSPDarkNet1-X模块前向前向传播过程,公式(16)到公式(18)为反向传播过程。其中,w为权重参数,x为输入特征,“*”为卷积操作,xC为特征层经过普通卷积操作Conv处理后的输出特征,(x1,x2,x3,......,xX)为X个残差模块加权后的输出特征,Concat[xC,xT+1]为特征堆叠,J为目标函数,g为梯度。
xX+1=wx*(x1,x2,x3,......,xX) (13)
xC=wC*x'0 (14)
xConcat=wconcat*Concat[xC,xX+1] (15)
w'X=J(wX,g1,......,gX-1,gX) (16)
w'C=J(wC,g'0) (17)
w'Concat=J(wconcat,gC,gX+1) (18)
如反向传播过程,x'0(第二传输通道)与x”0(第一传输通道)两条分支中各自的梯度不包含另外一条分支的梯度,即梯度不存在重复利用的现象。此外,特征被ECSPDarkNet1-X模块划分到不同网络分支中传播,在减少模型训练参数的同时缓解重复梯度注入网络,使得模型提取出更多有效特征,实现了提高目标检测模型的特征提取效率的效果。
可选地,每个残差单元至少包括:多个维度调整子单元,加权子单元,将第一维度调整子模块输出的第四特征图像输入残差子模块,输出第一特征层,包括:基于第一传输子通道和多个维度调整子单元,对第四特征图像进行通道调整,得到第三特征层,并将第三特征层输入加权子单元;通过第二传输子通道将第四特征图像输入加权子单元;通过加权子单元对第三特征层和第四特征图像进行加权处理,输出第一特征层。
如图3所示,上述的残差子模块中的每个残差单元可以包括:多个维度调整子单元(如图3中的两个CBS),加权子单元(如图3中的Add)。
在本实施例中,残差模块(即残差单元)中的第一条分支(即第一传输子通道)首先采用卷积核大小为1×1的CBS模块(维度调整子单元)进行通道调整,然后采用卷积核大小为3×3的CBS模块(维度调整子单元)加强特征提取。值得注意的是,残差模块中的另一条边可以作为残差边(即第二传输子通道),最后为了增加特征信息的同时不改变特征层的维度,可以使用Add模块(加权子单元)进行加权操作,输出第一特征层,其中,上述的第一传输子通道和第二传输子通道可以用于传输残差单元中的传输的图像特征,通过上述的第一传输子通道和上述的第二传输子通道进行特征流通,提高了目标检测模型中特征流通的效率,实现了提高目标检测模型对图像进行识别处理的处理效率的技术效果。
可选地,特征融合网络至少包括:多个第二特征提取模块,多个特征融合模块,多个特征融合层,将第一特征提取模块中的多个残差单元替换为多个维度调整单元作为第二特征提取模块,N个第一特征图像的图像尺寸不同,将N个第一特征图像输入特征融合网络,输出M个第二特征图像,包括:在第一层特征融合层,将第一尺寸的第一特征图像输入第一特征融合模块,并将第一特征融合模块输出的结果输入第一提取模块,输出第一图像,其中,第一特征融合模块用于将第一特征流通路径传输的图像特征与第一尺寸的第一特征图像融合,第一特征流通路径传输图像特征的传输方向为最后一层特征融合层向第一层特征融合层,第一提取模块为多个第二特征提取模块的其中之一,第一提取模块用于将第一特征提取模块的输出结果经第二特征流通路径传输至最后一层特征融合层,第二特征流通路径的图像特征传输方向为第一层特征融合层向最后一层特征融合层;在第二层特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的第一特征图像与第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与第二特征流通路径传输的图像特征进行融合,确定第二图像;在最后一层特征融合层,基于第五传输通道和第六传输通道,将第三尺寸的第一特征图像经金字塔池化操作后与第二特征流通路径传输的特征进行特征融合,确定第三图像;基于第一图像、第二图像和第三图像,确定M个第二特征图像。
如图2所示,ECSPDarkNet2-X模块(对应于上述的第二特征提取模块)可以应用于颈部特征融合网络(对应于上述的特征融合网络)中。在相关技术中,梯度复用是增大模型推理成本的主要原因之一。因此,在本实施例中,提出ECSPDarkNet2-X模块用于颈部特征融合网络中,在加快多尺度特征在网络中流通的同时提高多尺度特征融合效率。图4是根据本发明实施例的一种可选的ECSPDarkNet2-X模块的结构图,如图4所示,与ECSPDarkNet1-X不同的是,ECSPDarkNet2-X将残差模块(即残差单元)用X个卷积核尺寸分别为1×1和3×3的CBS(对应于上述的多个维度调整单元)进行替代,目的在于减少特征运算和加快特征流通。
与ECSPDarkNet1-X模块类似的是,本实施例为加快特征流通和减少模型参数,在ECSPDarkNet2-X模块,仍采用跨链接边操作(多个传输通道)降低模型对重复梯度的利用率。ECSPDarkNet2-X模块前向传播过程如公式(19)到(21)所示,反向传播过程如公式(22)到(24)所示。分别记x'0与x”0为跨连接边分支和骨干分支,其中,w为权重参数,x为输入特征,“*”为卷积操作,xX为X个CBS组合模块的输出特征,xC为特征层经过普通卷积操作Conv处理后的输出特征,Concat[xC,xT+1]为特征堆叠,J为目标函数,g为梯度。
xX+1=wx*xX (19)
xC=wC*x'0 (20)
xConcat=wConcat*Concat[xT,xX+1] (21)
w'X=J(wX,gX) (22)
w'C=J(wC,g'0) (23)
w'Concat=J(wConcat,gC,gX+1) (24)
从反向传播过程中可知,骨干分支与跨链接边的梯度是单独集成的,在处理梯度时只会对属于各自的梯度进行更新,即说明ECSPDarkNet2-X模块的使用可减少重复梯度阻塞网络,强化特征在颈部特征融合网络中进行自底向上、自顶向下和横向连接多尺度融合,在缓解算力消耗的同时,还可以加快特征在网络中流通。
如图5所示,为颈部特征融合网络多尺度特征融合过程。其中,颈部特征融合网络使用了4个NFPN模块(对应于上述的多个特征融合模块)和4个ECSPDarkNet2-X模块(对应于上述的多个第二特征提取模块),颈部特征融合网络中还可以包括:SPPF模块(即金字塔池化操作模块),如图2所示,上述的SPPF模块可以包括:两个CBS、Concat(堆叠模块)、一个5×5的Maxpool(最大池化模块)、一个9×9的Maxpool以及一个13×13的Maxpool组成,其中,CBS可以由一个Conv(普通卷积)、BN(归一化)、SiLU(激活函数)组成。因单条输入和无特征融合的中间操作对特征融合的作用较小,为此,在本实施例中,在颈部特征融合网络中首先可以将这些操作进行删除,然后在输入特征和输出特征之间添加跨连接边(传输通道)来降低模型算力消耗的同时,保证融合更多有效特征。此外,浅层特征与深层特征的融合是增大模型规模的主要原因之一,因此,在本实施例的颈部特征融合网络中,可以首先采用NFPN模块为每个输入特征设置可学习权重参数,让模型对特征的重要性进行学习并区分,然后在NFPN模块后使用ECSPDarkNet2-X模块来加快更有效的多尺度特征在网络中传播。
如图5,可以分别记(对应于上述的第一尺寸的第一特征图像)、(对应于上述的第二尺寸的第一特征图像)和(对应于上述的第三尺寸的第一特征图像)为来自骨干特征提取网络的三种尺度特征图,其对应的输出特征分别记为(对应于上述的第一图像)、(对应于上述的第二图像)和(对应于上述的第三图像),依次为小目标特征图、中目标特征图和大目标特征图,在本实施例中,可以将ECSPDarkNet2-X模块记为E2,NFPN模块的输出记为UpSampling为上采样操作。
如公式(25)到公式(31)所示,为小目标特征图、中目标特征图和大目标特征图生成过程。其中,w和w'为可学习权重参数,ε取0.0001防止除零操作。分析可知,NFPN可以用于对多尺度特征设置可学习参数,然后进行多尺度融合,最后经过卷积操作处理后作为下一层输入。
从图5中分析可知,为来自骨干特征提取网络的浅层特征,其分别作为自顶向下路径上传递下来的特征和颈部特征融合网络的小目标输入特征。如公式(25)到公式(26)所示,在的形成过程中NFPN模块将和颈部特征融合网络中自底向上路径(对应于上述的第一特征流通路径)上传递上来的特征进行多尺度特征融合,最后将融合后的特征经过ECSPDarkNet2-X模块(对应于上述的第一提取模块)处理后形成小目标检测特征图(即第一图像)。
从公式(27)到公式(29)分析可知,分别向自顶向下的路径和颈部特征融合网络中传递特征。其中,在自顶向下的路径下经过处理后得到而向颈部特征融合网络中传递的路径则通过两条跨连接边的横向通道(第三传输通道和第四传输通道)进行特征流通。在(对应于上述的第二图像)的形成过程中,首先依次与颈部特征融合网络中自底向上路径(对应于上述的第一特征流通路径)和自顶向下路径(对应于上述的第二特征流通路径)上传递而来的多尺度特征通过两个NFPN模块进行多尺度融合,从而依次形成和然后和分别在颈部特征融合网络中的自底向上和自顶向下路径上继续传播,最后经过ECSPDarkNet2-X模块的处理后得到中目标检测特征图
(对应于上述的第三图像)的形成过程如公式(30)到公式(31)所示,首先经过空间金字塔池化操作SPPF模块处理后,在颈部特征融合网络中依次通过自底向上路径和跨连接边通道(第五传输通道和第六传输通道)进行特征传递,然后将通过横向连接通道传递到颈部特征融合网络中,然后再与颈部特征融合网络中的自顶向下路径上传递下来的多尺度特征(对应于上述的第二特征流通路径)利用NFPN模块进行多尺度特征融合,最终将特征经过ECSPDarkNet2-X模块(第三提取模块)的处理得到大目标检测特征图(对应于上述的第三图像)
可选地,在第二层特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的第一特征图像与第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与第二特征流通路径传输的图像特征进行融合,确定第二图像,包括:在第二层特征融合层,通过第三传输通道将第二尺寸的第一特征图像传输至第二特征融合模块,与第一特征流通路径传输的图像特征进行多尺度融合,得到第一融合特征;将第一融合特征输入第二提取模块,得到第二融合特征,其中,第二提取模块为多个第二特征提取模块的其中之一;通过第四传输通道将第二尺寸的第一特征图像传输至第三特征融合模块与第二特征流通路径传输的特征以及第二融合特征进行多尺度特征融合,确定第三融合特征;将第三融合特征输入第三提取模块,输出第二图像,其中,第三提取模块为多个第二特征提取模块的其中之一。
从公式(27)到公式(29)分析可知,分别向自顶向下的路径和颈部特征融合网络中传递特征。其中,在自顶向下的路径下经过处理后得到而向颈部特征融合网络中传递的路径则通过两条跨连接边的横向通道(第三传输通道和第四传输通道)进行特征流通。在(对应于上述的第二图像)的形成过程中,首先依次与颈部特征融合网络中自底向上路径(对应于上述的第一特征流通路径)和自顶向下路径(对应于上述的第二特征流通路径)上传递而来的多尺度特征通过两个NFPN模块进行多尺度融合,从而依次形成和然后和分别在颈部特征融合网络中的自底向上路径(第一特征流通路径)和自顶向下路径(第二特征流通路径)上继续传播,最后经过ECSPDarkNet-X模块的处理后,得到中目标检测特征图实现了提高多尺度特征融合的融合效率的技术效果。
可选地,在将第三尺寸的第一特征图像经金字塔池化操作之后,还包括:将第三尺寸的第一特征图像经金字塔池化操作后得到的结果,通过第一特征流通路径向第一层特征融合层进行传输。
在本实施中,(对应于上述的第三图像)的形成过程如公式(30)到公式(31)所示,首先经过空间金字塔池化操作SPPF模块处理后在颈部特征融合网络中依次通过自底向上路径(对应于上述的第一特征流通路径)和跨连接边通道(第五传输通道和第六传输通道)进行特征传递,然后将通过横向连接通道传递到颈部特征融合网络中,然后再与颈部特征融合网络中的自顶向下路径上传递下来的多尺度特征(对应于上述的第二特征流通路径)利用NFPN模块进行多尺度特征融合,最终将特征经过ECSPDarkNet2-X模块(第三提取模块)的处理得到大目标检测特征图(对应于上述的第三图像)通过横向连接通道传递到颈部特征融合网络中第一特征流通路径中的SPPF模块,还可以通过自底向上路径进行传输,实现了提高颈部特征融合网络中的特征流通速度的技术效果。
如图5所示,颈部特征融合网络中的自底向上的路径可以为SPPF->1×1的CBS->UpSampling->NFPN->ECSDarkNet2-4->1×1的CBS->UpSampling->NFPN;颈部特征融合网络中的自顶向下的路径可以为ECSDarkNet2-4->3×3的CBS->NFPN->ECSDarkNet2-4->3×3的CBS->NFPN->ECSDarkNet2-4。
可选地,目标检测模型通过以下方式确定:获取预训练权重和训练样本,并将训练样本划分为训练集、验证集和测试集,其中,训练样本包括:多张图像,每张图像上标注有目标的标注框;基于预训练权重和训练集对初始检测模型进行训练,并在训练过程中采用交叉验证的方式,通过验证集验证初始检测模型是否收敛,其中,初始检测模型为未训练的模型;在初始检测模型达到收敛的情况下,确定目标检测模型,并基于权重文件和测试集,测试初始检测模型的检测精度,其中,权重文件用于存储目标检测模型的多个权重。
下面结合一种可选的方式对本实施例中的模型训练过程进行说明:
(1)目标检测算法(对应于上述的目标检测模型)环境搭建。
在本实施例中,可以采用Pychrm、Anaconda作为脚本编辑工具,将Python 3.7作为脚本设计语言,GPU并行计算工具为RTX 2070Super,GPU加速器可以为CUDA 10.1,可以使用Logitech Brio 500作为样本采集器。
(2)创建图像样本数据集。
在本实施例中,对目标检测算法可以采用VOC格式制作数据集。首先,可以在文件夹下创建VOC文件作为数据集存储源,然后采用LableImg工具对数据集中每张图像中的每个目标标注真实框(对应于上述的标注框),并生成对应的XML文件存储目标的源文件路径、中心点和宽高等属性,最后在VOC文件下创建Annotation文件和Image文件分别存储XML文件和被标注的图像。
当数据集(对应于上述的训练样本)制作完毕后,可以首先将数据集划分为训练集、验证集和测试集,然后在Annotation文件下创建Train-Annotation、Val-Annotation和Test-Annotation文件分别存储训练集、验证集和测试集的XML文件,最后在Image下创建Train-Image、Val-Image和Test-Image文件可以分别存储训练集、验证集和测试集的图像样本。通常训练集、验证集和测试集的随机划分比例可以为预设比例,预设比例可以为0.6:0.2:0.2。
(3)模型训练。
模型训练流程如图6所示,待环境搭建和数据集制作完毕后对模型进行训练。首先,载入预训练权重PT文件,用于缩短训练时间,提高模型检测精度,模型最终训练好的权重参数存储在PT文件中。然后,修改模型配置文件,确定目标类别个数和制定输入图像训练尺寸。最后,调整模型训练所需的超参数从而确定模型训练策略和优化策略,最终在训练过程中使用验证集进行交叉验证训练。
(4)模型测试与评估。
模型测试流程如图7所示,当模型训练结束后将生成最终的权重PT文件。首先,载入权重PT文件,并修改模型测试配置文件。然后,设置批大小并调整测试图像输入尺寸。最后,可以设置置信度阈值为0.5和IOU阈值为0.5进行预测框筛选,最终测试后将输出置信度最高的预测框作为检测结果。
为验证模型的有效性,本实施例在测试集上对模型进行评估,可以采用精确率P、召回率R、精确率均值AP和平均精确率均值mAP评价性指标对模型进行分析,最后采用可视化分析和消融实验来验证模型的有效性。
如公式(32)所示,为精确率P。其中,TP表示样本实际为正例,检测结果也为正例;FP表示样本实际为负例,但检测结果为正例;TP+FP表示模型检测出来的正例。
因此,精确率表征了模型将真正例判断出来的能力。
如公式(33)所示,为召回率R。其中,FN表示样本实际为负例,检测结果也为负例;FP+FN表示测试集中的所有正例。因此,召回率表征了模型将实际为正例检测为正例的能力。
如公式(34)所示,为精确率均值AP。其表征了召回率从0到1区间内变化时精确率的平均值,也即模型对于各种类别的检测精度。
如公式(35)所示,为平均精确率均值mAP。其中,N为所有类别中所有目标的总数,即所有类别中真实框总数。mAP则表征了模型对于所有类别的检测能力。
如图8所示,为本实施例模型采用交叉验证训练策略的三种损失函数变化曲线。其中,训练轮次为200。分析可知,本实施例模型在PASCAL VOC 2012数据集上训练平稳,最终趋于稳定值。
另外,可以本实施例模型在PASCAL VOC 2012测试集上的PR曲线。可以确定本实施例的目标检测模型在IOU为0.5的情况下,mAP可以取得最优值0.841,也即是本实施例中目标检测模型对整个PASCAL VOC 2012(一种目标检测数据集)数据集而言具有较高的检测精度。
可选地,强化多尺度特征提取、复用与融合的目标检测方法还包括:在对初始检测模型进行训练过程中,通过目标预测网络接收特征融合网络输出的融合特征图;将融合特征图划分为多个网格,其中,融合特征图上标记有目标的标注框,每个网格中包括多个锚框;在多个网格中查找融合特征图中的标注框所在的目标网格;基于目标网格中的每个锚框与目标的标注框的交并比,确定预测框;通过预测框,确定初始检测模型的检测结果。
在本实施例中,在目标预测网络中可以产生52×52×75、26×26×75和13×13×75三种特征图。这些特征图被划分为K×K个网格,每个网格会产生B个锚框,当某个目标的真实框的中心点落在某个网格点内时,则该目标由这个网格所产生的B个锚框中与真实框(对应于上述的标注框)IOU最大的锚框负责该目标的检测任务,网络通过对锚框位置参数的更新得到预测框,最终由置信度得分和NMS算法筛选出最接近于真实框的预测框作为检测结果.在本实施例中,可以将所有预测框中与真实框IOU最大的预测框作为正样本,将图像背景以及所有与真实框之间的IOU小于0.5的锚框作为负样本。
可选地,基于目标网格中的每个锚框与目标的标注框的交并比,确定预测框的步骤,包括:计算目标网格中的每个锚框与目标的标注框的交并比,得到多个比值;将多个比值中最大的比值关联的锚框作为目标锚框,其中,目标锚框用于对融合特征图上的目标进行检测;更新目标锚框的位置参数,得到预测框。
在对初始模型进行训练过程中,在目标预测网络中,本实施例可以产生52×52×75、26×26×75和13×13×75三种特征图。这些特征图可以被划分为K×K个网格,每个网格会产生B个锚框,当某个目标的真实框的中心点落在某个网格点内时,则该目标由这个网格所产生的B个锚框中与真实框(对应于上述的标注框)IOU(交并比)最大的锚框负责该目标的检测任务,网络通过对锚框位置参数的更新得到预测框,最终由置信度得分和NMS算法筛选出最接近于真实框的预测框作为检测结果。此外,本实施例中可以将所有预测框中与真实框IOU最大的预测框作为正样本,将图像背景以及所有与真实框之间的IOU(交并比)小于0.5的锚框作为负样本。
其中,75为3与25的乘积,3为每个网格产生3个锚框,25为20、4和1之和,20为PASCAL VOC数据集类别个数,4为预测框四个位置参数tx、ty、tw和th,1为置信度得分C,表示当前预测框内目标为某个类别的置信度,如公式(36)所示。其中,表示第i个网格点中第j个预测框的置信度,当网格点内包含目标时P(object)为1,否则为0,P(classi|object)表示网格点内目标是某个类别的概率,为真是框和预测框的重叠率。
如图9所示,为锚框到预测框的调整过程,具体过程体现为公式(37)到公式(40)所示。
在图9中,每个网格点宽和高都为1,虚线框为锚框,实线框为预测框。其中,锚框的宽为pw,高为ph;预测框归一化后的中心点、宽和高分别为(bx,by)、w和h;σ(x)=1/(1+e-x)为sigmoid逻辑约束函数,用来将tx和ty约束在0到1之间,因此σ(tx)和σ(ty)为预测框中心点相对于网格左上角的偏移量;(Cx,Cy)为(1,1);tx、ty、tw和th为目标预测网络中需要不断学习并更新的参数,分别为预测框相对于特征图而言的中心点、宽和高。此外,系数2和系数0.5主要是为了消除网格敏感度,并将相对偏移量固定在(-0.5,1.5)范围内。
bx=(2σ(tx)-0.5)+cx (37)
by=(2σ(ty)-0.5)+cy (38)
w=pw·(2σ(tw))2 (39)
h=ph·(2σ(th))2 (40)
通过对锚框的位置参数进行调整,确定最接近于真实框的预测,进而确定检测结果,实现了提高目标检测模型的图像识别的精准度的技术效果
可选地,对初始检测模型进行训练时采用的损失函数至少包括:分类损失函数、置信度损失函数以及定位损失函数。
本实施例中,对应的目标检测框架(或目标检测模型)的损失函数Jloss可以由分类损失函数Lclass、目标置信度损失函数Lobject(对应于上述的置信度损失函数)和定位损失函数Llocation组成,损失函数Jloss如公式(41)所示。
如公式(42)所示,分类误差可以采用二元交叉熵函数作为分类损失函数,即当第i个网格的第j个锚框负责某个目标检测时,则由这个锚框所产生的预测框负责分类损失计算。其中,特征图被划分为K×K个网格,目标类别数为c,用来判断是否为正样本,即第i个网格所产生的第j个锚框与真实框的IOU最大时,由该锚框负责目标的检测,此时否则 表示第i个网格所对应的第j个锚框中目标类别为第c类目标的概率,表示第i个网格所对应的第j个锚框中的目标是否为第c类目标,若是,此时否则
Jloss=Lclass+Lobject+Llocation (41)
如公式(43)所示,目标置信度损失函数可以由两组二元交叉熵函数组成,第一组为正样本置信度损失函数,第二组为负样本置信度损失函数,若正样本预测框的置信度越接近于1,则正样本置信度损失函数值越接近于0,即表示预测框内是某类目标的可信程度越大。其中,λnoobj用于均衡正负样本分布,表示第i个网格所对应的第j个锚框的目标是否为负样本,若是,此时否则 表示第i个网格所对应的第j个锚框是否负责目标检测,若是,此时否则 表示第i个网格所对应的第j个锚框最终形成预测框后所产生的预测值。
如公式(44)所示,定位损失函数由重叠损失函数LIOU、中心距离损失函数Ldistance和宽高损失函数Laspect组成。其中,使用重叠损失函数和中心距离损失函数来消除未考虑重叠面积和中心点距离引起的收敛速度等问题,促使损失函数往重叠面积增大的方向进行优化,分别如公式(45)和公式(46)所示。其中,为预测框与真实框的交并比,ρ(b,bgt)为预测框与真实框中心点的欧氏距离,c为预测框与真实框最小外接框的对角线长度。
Llocation=LIOU+Ldistance+Laspect (44)
LIOU=1-IOU (45)
图10根据本发明实施例的一种可选的预测框回归过程的示意图,在图10中,pred为预测框,truth为真实框,虚线框为最小外接框,(bx,by)为预测框中心点,为真实框中心点,即每张图像中目标的真实框中心点,阴影部分为预测框与真实框重叠区域,w和h分别为预测框的宽和高,wgt和hgt为真实框的宽和高,wc和hc为最小外接框的宽和高。
为防止预测框与真实框的宽和高的纵横比呈现非线性化,即为了让预测框的宽度和高度同时增大或者同时减小,本实施例采用宽高损失函数Laspect使得预测框与真实框的宽和高之间差值最小,从而加快模型收敛速度,实现更精确的定位精度,宽高损失函数Laspect如公式(47)所示。其中,ρ(w,wgt)为预测框与真实框的宽度之差,ρ(h,hgt)为预测框与真实框的高度之差。
此外,由于在训练过程中拥有图像质量较差的样本多于拥有较高质量的样本,并且图像质量较差的样本将产生更大的误差影响模型优化,导致训练过程中存在训练样本不均衡问题,为此本实施例对定位损失函数进行权值的重置,如公式(48)所示。其中,γ取0.5,最终得到定位损失函数如公式(49)所示。
Llocation←IOUγLlocation (48)
通过本实施例中的损失函数,实现了提高目标检测模型的检测精准度的技术效果。
如表1所示,本实施例中的目标检测模型与目前较为主流的目标检测算法,在PASCAL VOC 2012(目标检测数据集)测试集上进行了测试时间、帧率FPS和mAP@.5(即IOU设为0.5时,每个类别下的所有图像的平均AP(平均精度))比较。分析可知,本实施例在单张图片的测试时间上达到了最小值,帧率FPS达到了98,说明本实施例满足实时性要求。此外,mAP@.5也达到了最优值。说明了本实施例的目标检测模型的有效性。其中,表1中的YOLOV4、YOLOV3、SSD、Faster R-CNN、TridentNet、RetinaNet、CornerNet、ExtremeNet、CenterNet表示相关技术中不同类型的基于深度学习的检测模型。
表1
如表2所示,本实施例还采用消融实验来验证所提的部分策略的有效性。分析可知,在未引入三种策略的基础模型中平均精确率AP、平均召回率AR和mAP@.5达到了最低值,但第2组、第4组、第7组合和第8组实验则表明本发明专利三种策略的可行性与有效性。
表2
| ECSPDarkNet1-X | ECSPDarkNet2-X | NFPN | AP | AR | mAP@0.5 |
| × | × | × | 0.843 | 0.842 | 0.799 |
| × | × | √ | 0.844 | 0.840 | 0.812 |
| × | √ | √ | 0.867 | 0.864 | 0.819 |
| × | √ | × | 0.853 | 0.851 | 0.808 |
| √ | √ | × | 0.872 | 0.870 | 0.829 |
| √ | × | × | 0.861 | 0.854 | 0.822 |
| √ | × | √ | 0.878 | 0.869 | 0.825 |
| √ | √ | √ | 0.889 | 0.848 | 0.841 |
实施例二
本申请实施例二提供了一种可选的强化多尺度特征提取、复用与融合的目标检测装置,该识别装置中的各个实施单元对应于实施例一中的各个实施步骤。
图11是根据本发明实施例的一种可选的强化多尺度特征提取、复用与融合的目标检测装置的示意图,如图11所示,该识别装置中包括:第一处理单元111、第二处理单元112以及第三处理单元113。
具体的,第一处理单元111,用于响应对目标图像的识别请求,将目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,目标检测模型中至少包括:目标特征提取网络、特征融合网络以及目标预测网络,目标检测模型中包括:多个传输通道,传输通道用于传输目标图像的图像特征,N为大于1的整数;
第二处理单元112,用于将N个第一特征图像输入特征融合网络,输出M个第二特征图像,其中,特征融合网络用于对N个第一特征图像进行多尺度特征融合,M为大于1的整数;
第三处理单元113,用于将M个第二特征图像输入目标预测网络,输出目标图像的识别结果,其中,识别结果包含对目标图像中目标的分类结果。
在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,可以通过第一处理单元111响应对目标图像的识别请求,将目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,目标检测模型中至少包括:目标特征提取网络、特征融合网络以及目标预测网络,目标检测模型中包括:多个传输通道,传输通道用于传输目标图像的图像特征,N为大于1的整数,通过第二处理单元112将N个第一特征图像输入特征融合网络,输出M个第二特征图像,其中,特征融合网络用于对N个第一特征图像进行多尺度特征融合,M为大于1的整数,通过第三处理单元113将M个第二特征图像输入目标预测网络,输出目标图像的识别结果,其中,识别结果包含对目标图像中目标的分类结果。进而解决了目标检测算法中的模型结构复杂、计算成本高、对显著性特征不具备针对性,导致目标检测过程中目标识别效率低的技术问题。在本实施例中,通过本实施例中的通过包含多个传输通道的目标检测模型对目标图像中目标进行分类识别,避免了相关技术中检测模型的结构复杂,特征流通速度慢,导致识别效率低的情况,从而提高了目标检测模型对图像中目标进行分类识别的技术效果。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,目标特征提取网络至少包括:多个第一特征提取模块、多个维度调整模块,每个维度调整模块至少包括:卷积层、批量归一化层以及激活函数层,第一处理单元包括:第一处理子单元,用于通过每个维度调整模块对目标图像进行维度调整,并通过每个第一特征提取模块对进行维度调整后的目标图像进行特征提取,得到M个第二特征图像。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,每个第一特征提取模块至少包括:多个维度调整子模块、残差子模块,残差子模块包括多个残差单元,每个维度调整子模块与维度调整模块的结构相同,处理子单元包括:第一处理模块,用于通过第一特征提取模块接收第三特征图像,并通过第一传输通道将第三特征图像输入第一维度调整子模块,并将第一维度调整子模块输出的第四特征图像输入残差子模块,输出第一特征层,其中,第一特征提取模块为多个第一特征提取模块的其中之一,第三特征图像为经过多个第一特征提取模块和多个维度调整模块的其中一个或多个模块处理过的目标图像,第一维度调整子模块为多个维度调整子模块的其中之一;第二处理模块,用于在第一传输通道中,对第一特征层进行卷积处理后输入堆叠单元;第三处理模块,用于在第二传输通道中,对第三特征图像进行卷积处理后输入堆叠单元,并通过堆叠单元对堆叠单元接收的特征数据进行堆叠处理,得到第二特征层;第四处理模块,用于对第二特征层进行目标处理,得到目标特征图像,其中,目标处理至少包括以下其中之一:归一化处理、激活函数处理,特征维度调整处理,目标特征图像为M个第二特征图像的其中之一;确定模块,用于基于多个目标特征图像,确定M个第二特征图像。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,每个残差单元至少包括:多个维度调整子单元,加权子单元,第一处理模块包括:调整子模块,用于基于第一传输子通道和多个维度调整子单元,对第四特征图像进行通道调整,得到第三特征层,并将第三特征层输入加权子单元;第一输入模块,用于通过第二传输子通道将第四特征图像输入加权子单元;加权模块,用于通过加权子单元对第三特征层和第四特征图像进行加权处理,输出第一特征层。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,特征融合网络至少包括:多个第二特征提取模块,多个特征融合模块,多个特征融合层,将第一特征提取模块中的多个残差单元替换为多个维度调整单元作为第二特征提取模块,N个第一特征图像的图像尺寸不同,第二处理单元包括:第二处理子单元,用于在第一层特征融合层,将第一尺寸的第一特征图像输入第一特征融合模块,并将第一特征融合模块输出的结果输入第一提取模块,输出第一图像,其中,第一特征融合模块用于将第一特征流通路径传输的图像特征与第一尺寸的第一特征图像融合,第一特征流通路径传输图像特征的传输方向为最后一层特征融合层向第一层特征融合层,第一提取模块为多个第二特征提取模块的其中之一,第一提取模块用于将第一特征提取模块的输出结果经第二特征流通路径传输至最后一层特征融合层,第二特征流通路径的图像特征传输方向为第一层特征融合层向最后一层特征融合层;第三处理子单元,用于在第二层特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的第一特征图像与第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与第二特征流通路径传输的图像特征进行融合,确定第二图像;第四处理子单元,用于在最后一层特征融合层,基于第五传输通道和第六传输通道,将第三尺寸的第一特征图像经金字塔池化操作后与第二特征流通路径传输的特征进行特征融合,确定第三图像;确定子单元,用于基于第一图像、第二图像和第三图像,确定M个第二特征图像。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,第三处理子单元包括:第一融合模块,用于在第二层特征融合层,通过第三传输通道将第二尺寸的第一特征图像传输至第二特征融合模块,与第一特征流通路径传输的图像特征进行多尺度融合,得到第一融合特征;输入模块,将第一融合特征输入第二提取模块,得到第二融合特征,其中,第二提取模块为多个第二特征提取模块的其中之一;第二融合模块,用于通过第四传输通道将第二尺寸的第一特征图像传输至第三特征融合模块与第二特征流通路径传输的特征以及第二融合特征进行多尺度特征融合,确定第三融合特征;输入输出模块,用于将第三融合特征输入第三提取模块,输出第二图像,其中,第三提取模块为多个第二特征提取模块的其中之一。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,第二处理单元还包括:传输子单元,用于在将第三尺寸的第一特征图像经金字塔池化操作之后,将第三尺寸的第一特征图像经金字塔池化操作后得到的结果,通过第一特征流通路径向第一层特征融合层进行传输。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,目标检测模型通过以下单元确定:第四处理单元,用于获取预训练权重和训练样本,并将训练样本划分为训练集、验证集和测试集,其中,训练样本包括:多张图像,每张图像上标注有目标的标注框;训练单元,用于基于预训练权重和训练集对初始检测模型进行训练,并在训练过程中采用交叉验证的方式,通过验证集验证初始检测模型是否收敛,其中,初始检测模型为未训练的模型;测试单元,用于在初始检测模型达到收敛的情况下,确定目标检测模型,并基于权重文件和测试集,测试初始检测模型的检测精度,其中,权重文件用于存储目标检测模型的多个权重。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,强化多尺度特征提取、复用与融合的目标检测方法还包括:接收子单元,用于在对初始检测模型进行训练过程中,通过目标预测网络接收特征融合网络输出的融合特征图;划分子单元,用于将融合特征图划分为多个网格,其中,融合特征图上标记有目标的标注框,每个网格中包括多个锚框;查找子单元,用于在多个网格中查找融合特征图中的标注框所在的目标网格;第一确定子单元,用于基于目标网格中的每个锚框与目标的标注框的交并比,确定预测框;第二确定子单元,用于通过预测框,确定初始检测模型的检测结果。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,第一确定子单元包括:计算模块,用于计算目标网格中的每个锚框与目标的标注框的交并比,得到多个比值;锚框处理模块,用于将多个比值中最大的比值关联的锚框作为目标锚框,其中,目标锚框用于对融合特征图上的目标进行检测;更新模块,用于更新目标锚框的位置参数,得到预测框。
可选地,在本申请实施例二提供的强化多尺度特征提取、复用与融合的目标检测装置中,对初始检测模型进行训练时采用的损失函数至少包括:分类损失函数、置信度损失函数以及定位损失函数。
上述的强化多尺度特征提取、复用与融合的目标检测装置还可以包括处理器和存储器,上述的第一处理单元111、第二处理单元112以及第三处理单元113等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过包含多个传输通道的目标检测模型对目标图像中目标进行分类识别,避免了相关技术中检测模型的结构复杂,特征流通速度慢,导致目标识别效率低的情况,从而提高了目标检测模型对目标进行分类识别的技术效果。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的强化多尺度特征提取、复用与融合的目标检测方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的强化多尺度特征提取、复用与融合的目标检测方法。
图12是根据本发明实施例的一种电子设备的示意图,如图12所示,本发明实施例提供了一种电子设备120,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项的强化多尺度特征提取、复用与融合的目标检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种强化多尺度特征提取、复用与融合的目标检测方法,其特征在于,包括:
响应对目标图像的识别请求,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,所述目标检测模型中至少包括:所述目标特征提取网络、特征融合网络以及目标预测网络,所述目标检测模型中包括:多个传输通道,所述传输通道用于传输所述目标图像的图像特征,N为大于1的整数;
将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,其中,所述特征融合网络用于对N个所述第一特征图像进行多尺度特征融合,M为大于1的整数;
将所述M个第二特征图像输入所述目标预测网络,输出所述目标图像的识别结果,其中,所述识别结果包含对所述目标图像中目标的分类结果。
2.根据权利要求1所述的检测方法,其特征在于,所述目标特征提取网络至少包括:多个第一特征提取模块、多个维度调整模块,每个所述维度调整模块至少包括:卷积层、批量归一化层以及激活函数层,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,包括:
通过每个所述维度调整模块对所述目标图像进行维度调整,并通过每个所述第一特征提取模块对进行维度调整后的所述目标图像进行特征提取,得到M个所述第二特征图像。
3.根据权利要求2所述的检测方法,其特征在于,每个所述第一特征提取模块至少包括:多个维度调整子模块、残差子模块,所述残差子模块包括多个残差单元,每个所述维度调整子模块与所述维度调整模块的结构相同,通过每个所述第一特征提取模块对进行维度调整后的所述目标图像进行特征提取,得到M个所述第二特征图像,包括:
通过所述第一特征提取模块接收第三特征图像,并通过第一传输通道将所述第三特征图像输入第一维度调整子模块,并将所述第一维度调整子模块输出的第四特征图像输入所述残差子模块,输出第一特征层,其中,所述第一特征提取模块为多个所述第一特征提取模块的其中之一,所述第三特征图像为经过多个所述第一特征提取模块和多个所述维度调整模块的其中一个或多个模块处理过的所述目标图像,所述第一维度调整子模块为多个所述维度调整子模块的其中之一;
在所述第一传输通道中,对所述第一特征层进行卷积处理后输入堆叠单元;
在第二传输通道中,对所述第三特征图像进行卷积处理后输入所述堆叠单元,并通过所述堆叠单元对所述堆叠单元接收的特征数据进行堆叠处理,得到第二特征层;
对所述第二特征层进行目标处理,得到目标特征图像,其中,所述目标处理至少包括以下其中之一:归一化处理、激活函数处理,特征维度调整处理,所述目标特征图像为M个所述第二特征图像的其中之一;
基于多个所述目标特征图像,确定M个所述第二特征图像。
4.根据权利要求3所述的检测方法,其特征在于,每个所述残差单元至少包括:多个维度调整子单元,加权子单元,将所述第一维度调整子模块输出的第四特征图像输入所述残差子模块,输出第一特征层,包括:
基于第一传输子通道和多个所述维度调整子单元,对所述第四特征图像进行通道调整,得到第三特征层,并将所述第三特征层输入所述加权子单元;
通过第二传输子通道将所述第四特征图像输入所述加权子单元;
通过所述加权子单元对所述第三特征层和所述第四特征图像进行加权处理,输出所述第一特征层。
5.根据权利要求2所述的检测方法,其特征在于,所述特征融合网络至少包括:多个第二特征提取模块,多个特征融合模块,多个特征融合层,将所述第一特征提取模块中的多个残差单元替换为多个维度调整单元作为所述第二特征提取模块,N个所述第一特征图像的图像尺寸不同,将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,包括:
在第一层所述特征融合层,将第一尺寸的所述第一特征图像输入第一特征融合模块,并将所述第一特征融合模块输出的结果输入第一提取模块,输出第一图像,其中,所述第一特征融合模块用于将第一特征流通路径传输的图像特征与第一尺寸的所述第一特征图像融合,所述第一特征流通路径传输图像特征的传输方向为最后一层所述特征融合层向第一层所述特征融合层,所述第一提取模块为多个所述第二特征提取模块的其中之一,所述第一提取模块用于将第一特征提取模块的输出结果经第二特征流通路径传输至最后一层特征融合层,所述第二特征流通路径的图像特征传输方向为第一层所述特征融合层向最后一层所述特征融合层;
在第二层所述特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的所述第一特征图像与所述第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与所述第二特征流通路径传输的图像特征进行融合,确定第二图像;
在最后一层所述特征融合层,基于第五传输通道和第六传输通道,将第三尺寸的所述第一特征图像经金字塔池化操作后与所述第二特征流通路径传输的特征进行特征融合,确定第三图像;
基于所述第一图像、所述第二图像和所述第三图像,确定M个所述第二特征图像。
6.根据权利要求5所述的检测方法,其特征在于,在第二层所述特征融合层,基于第三传输通道和第四传输通道,将第二尺寸的所述第一特征图像与所述第一特征流通路径传输的图像特征进行特征融合,并将特征融合后的结果与所述第二特征流通路径传输的图像特征进行融合,确定第二图像,包括:
在第二层所述特征融合层,通过所述第三传输通道将第二尺寸的所述第一特征图像传输至第二特征融合模块,与所述第一特征流通路径传输的图像特征进行多尺度融合,得到第一融合特征;
将所述第一融合特征输入第二提取模块,得到第二融合特征,其中,所述第二提取模块为多个所述第二特征提取模块的其中之一;
通过第四传输通道将第二尺寸的第一特征图像传输至第三特征融合模块与所述第二特征流通路径传输的特征以及所述第二融合特征进行多尺度特征融合,确定第三融合特征;
将所述第三融合特征输入第三提取模块,输出所述第二图像,其中,所述第三提取模块为多个所述第二特征提取模块的其中之一。
7.根据权利要求5所述的检测方法,其特征在于,在将第三尺寸的所述第一特征图像经金字塔池化操作之后,还包括:
将第三尺寸的所述第一特征图像经金字塔池化操作后得到的结果,通过所述第一特征流通路径向第一层所述特征融合层进行传输。
8.根据权利要求1所述的检测方法,其特征在于,所述目标检测模型通过以下方式确定:
获取预训练权重和训练样本,并将所述训练样本划分为训练集、验证集和测试集,其中,所述训练样本包括:多张图像,每张所述图像上标注有所述目标的标注框;
基于所述预训练权重和所述训练集对初始检测模型进行训练,并在训练过程中采用交叉验证的方式,通过所述验证集验证所述初始检测模型是否收敛,其中,所述初始检测模型为未训练的模型;
在所述初始检测模型达到收敛的情况下,确定所述目标检测模型,并基于权重文件和所述测试集,测试所述初始检测模型的检测精度,其中,所述权重文件用于存储所述目标检测模型的多个权重。
9.根据权利要求8所述的检测方法,其特征在于,所述方法还包括:
在对所述初始检测模型进行训练过程中,通过所述目标预测网络接收所述特征融合网络输出的融合特征图;
将所述融合特征图划分为多个网格,其中,所述融合特征图上标记有所述目标的所述标注框,每个所述网格中包括多个锚框;
在所述多个网格中查找所述融合特征图中的所述标注框所在的目标网格;
基于所述目标网格中的每个锚框与所述目标的所述标注框的交并比,确定预测框;
通过所述预测框,确定所述初始检测模型的检测结果。
10.根据权利要求9所述的检测方法,其特征在于,基于所述目标网格中的每个锚框与所述目标的所述标注框的交并比,确定预测框的步骤,包括:
计算所述目标网格中的每个锚框与所述目标的所述标注框的交并比,得到多个比值;
将所述多个比值中最大的比值关联的锚框作为目标锚框,其中,所述目标锚框用于对所述融合特征图上的所述目标进行检测;
更新所述目标锚框的位置参数,得到所述预测框。
11.根据权利要求8所述的检测方法,其特征在于,对所述初始检测模型进行训练时采用的损失函数至少包括:分类损失函数、置信度损失函数以及定位损失函数。
12.一种强化多尺度特征提取、复用与融合的目标检测装置,其特征在于,包括:
第一处理单元,用于响应对目标图像的识别请求,将所述目标图像输入目标检测模型的目标特征提取网络,输出N个第一特征图像,其中,所述目标检测模型中至少包括:所述目标特征提取网络、特征融合网络以及目标预测网络,所述目标检测模型中包括:多个传输通道,所述传输通道用于传输所述目标图像的图像特征,N为大于1的整数;
第二处理单元,用于将N个所述第一特征图像输入所述特征融合网络,输出M个第二特征图像,其中,所述特征融合网络用于对N个所述第一特征图像进行多尺度特征融合,M为大于1的整数;
第三处理单元,用于将所述M个第二特征图像输入所述目标预测网络,输出所述目标图像的识别结果,其中,所述识别结果包含对所述目标图像中目标的分类结果。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的强化多尺度特征提取、复用与融合的目标检测方法。
14.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至11中任意一项所述的强化多尺度特征提取、复用与融合的目标检测方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310286881.7A CN116246116A (zh) | 2023-03-22 | 2023-03-22 | 强化多尺度特征提取、复用与融合的目标检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310286881.7A CN116246116A (zh) | 2023-03-22 | 2023-03-22 | 强化多尺度特征提取、复用与融合的目标检测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116246116A true CN116246116A (zh) | 2023-06-09 |
Family
ID=86624197
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310286881.7A Pending CN116246116A (zh) | 2023-03-22 | 2023-03-22 | 强化多尺度特征提取、复用与融合的目标检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116246116A (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116778579A (zh) * | 2023-06-15 | 2023-09-19 | 中国工商银行股份有限公司 | 多人姿态的识别方法、装置、存储介质及电子设备 |
| CN116862884A (zh) * | 2023-07-13 | 2023-10-10 | 西安理工大学 | 基于显著目标检测的混凝土塌落度检测方法 |
| CN117036774A (zh) * | 2023-06-28 | 2023-11-10 | 北京智芯半导体科技有限公司 | 配电房目标检测方法、装置和电子设备 |
| CN118710992A (zh) * | 2024-08-26 | 2024-09-27 | 杭州电子科技大学 | 颈部淋巴结识别方法以及装置 |
-
2023
- 2023-03-22 CN CN202310286881.7A patent/CN116246116A/zh active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116778579A (zh) * | 2023-06-15 | 2023-09-19 | 中国工商银行股份有限公司 | 多人姿态的识别方法、装置、存储介质及电子设备 |
| CN117036774A (zh) * | 2023-06-28 | 2023-11-10 | 北京智芯半导体科技有限公司 | 配电房目标检测方法、装置和电子设备 |
| CN116862884A (zh) * | 2023-07-13 | 2023-10-10 | 西安理工大学 | 基于显著目标检测的混凝土塌落度检测方法 |
| CN118710992A (zh) * | 2024-08-26 | 2024-09-27 | 杭州电子科技大学 | 颈部淋巴结识别方法以及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111507335B (zh) | 自动标注利用于深度学习网络的训练图像的方法和装置 | |
| CN114255403B (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
| CN116246116A (zh) | 强化多尺度特征提取、复用与融合的目标检测方法 | |
| CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
| CN113240506A (zh) | 一种基于无监督领域自适应的金融风控冷启动建模方法 | |
| CN112837315A (zh) | 一种基于深度学习的输电线路绝缘子缺陷检测方法 | |
| CN112381763A (zh) | 一种表面缺陷检测方法 | |
| CN112365451B (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
| CN111834004B (zh) | 一种基于中心化空间学习的未知疾病类别识别方法及装置 | |
| CN115359264B (zh) | 一种密集型分布的粘连细胞深度学习识别方法 | |
| CN101364263A (zh) | 对图像进行皮肤纹理检测的方法及系统 | |
| CN113723352B (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
| CN116468948B (zh) | 支持检测未知类的城市垃圾增量学习检测方法及系统 | |
| CN115937703A (zh) | 一种用于遥感图像目标检测的增强特征提取方法 | |
| CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 | |
| CN118506221A (zh) | 基于无人机架空线路自适应巡检的半监督检测方法 | |
| CN115424250A (zh) | 一种车牌识别方法及装置 | |
| CN115546581A (zh) | 一种解耦的增量目标检测方法 | |
| CN110135435A (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
| Bai et al. | A point-based method for identification and counting of tiny object insects in cotton fields | |
| CN120635457B (zh) | 一种双分割头频率解耦学习与熵变化伪标签筛选相结合的半监督分割方法 | |
| CN120563918A (zh) | 基于相邻通道分组的高光谱影像一类分类方法及系统 | |
| Cao et al. | No-reference image quality assessment by using convolutional neural networks via object detection | |
| CN117351297A (zh) | 噪声干扰图像的识别方法、装置、处理器及电子设备 | |
| Volety et al. | Wheat disease detection using YOLOv8 and GAN model |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |