CN114927236A - 一种面向多重目标图像的检测方法及系统 - Google Patents
一种面向多重目标图像的检测方法及系统 Download PDFInfo
- Publication number
- CN114927236A CN114927236A CN202210655674.XA CN202210655674A CN114927236A CN 114927236 A CN114927236 A CN 114927236A CN 202210655674 A CN202210655674 A CN 202210655674A CN 114927236 A CN114927236 A CN 114927236A
- Authority
- CN
- China
- Prior art keywords
- target area
- target
- original image
- detection
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种面向多重目标图像的检测方法及系统,涉及图像检测的技术领域,获取原始图像数据集,原始图像数据集中的每个原始图像均包括大目标区域和小目标区域,构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型,通过预处理后的原始图像数据集训练目标检测模型,得到训练好的目标检测模型,获取待检测图像,待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
Description
技术领域
本发明涉及图像检测的技术领域,更具体地,涉及一种面向多重目标图像的检测方法及系统。
背景技术
近年来,人们对检测新冠病毒的新冠试剂的需求激增,而新冠试剂的检测结果的分类与统计需要人工操作,包括对采集的新冠试剂图像中作为大目标的试剂以及作为小目标的试剂结果进行分类与统计。
目标检测指基于目标几何和统计特征的图像分割,将目标的提取和识别结合,能够在复杂场景中,对多个目标进行实时处理,自动提取和识别所需目标。
传统的目标检测方法基于深度神经网络实现,以卷积网络为基础,以分类网络为主干,由于待测图像中的小目标相对于图像的尺寸小,且卷积网络对待测图像进行若干次下采样处理,小目标在卷积网络对待测图像进行特征提取后输出的特征图中像素低,故分类网络对小目标的分类效果差,对小目标的检测效果差,为解决以上问题,现有技术提出了一种目标检测方法,基于YOLO网络模型,增大YOLO网络模型中的特征提取模块根据待测图像输出的特征图数量,降低对待测图像的下采样倍率,从而增强对小目标的检测效果,然而,在对以试剂结果检测为代表的矩形小目标的检测中一般使用分辨率较高的待测图像,YOLO网络模型无法在分辨率较高的待测图像中充分提取特征信息,并且该待测图像中小目标的数量多、小目标的尺寸差异大,YOLO网络模型对小目标的定位精度低、对小目标的特征提取效果差。
发明内容
为解决现有目标检测方法对多重大、小目标图像的定位精度低,尤其对小目标的特征提取效果差的问题,本发明提出一种面向多重目标图像的检测方法及系统,通过构建改进的目标检测模型,加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
为了达到上述技术效果,本发明的技术方案如下:
一种面向多重目标图像的检测方法,包括:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN 网络模型、PAN网络模型以及检测网络模型;
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
优选的,所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。
优选的,所述对原始图像数据集进行预处理的过程包括:
对原始图像数据集的每个原始图像进行标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集。
优选的,所述对原始图像数据集进行预处理的过程还包括:
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息;
将原始图像数据集中多个原始图像拼接为一张图像。
优选的,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。
优选的,在步骤S4中,通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
优选的,所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
优选的,大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls+λ2Lobj+λ3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
其中,B为大目标区域真实框和小目标区域真实框个数,代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,c2代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h 为预测边界框的长宽比,tan-1()为反正切函数。
本发明还提出一种面向多重目标图像的检测系统,包括:
获取单元,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元,用于构建目标检测模型,目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
优选的,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,所述训练单元具体用于通过 CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
本发明提出的面向多重目标图像的检测系统用于执行本发明提出的面向多重目标图像的检测方法。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种面向多重目标图像的检测方法及系统,构建目标检测模型时,在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型,FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息,PAN网络模型通过自底向上的结构加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
附图说明
图1表示本发明提出的面向多重目标图像的检测方法的流程示意图;
图2表示本发明提出的CSPDarkent53网络中CSP模块的示意图;
图3表示本发明提出的SPPF模块的示意图;
图4表示本发明提出的FPN网络模型及PAN网络模型的示意图;
图5表示本发明提出的损失函数参数的示意图;
图6表示本发明提出的面向多重目标图像的检测系统的示意图;
图7表示本发明提出的新冠试剂目标检测中预处理过程示例的示意图;
图8表示本发明提出的新冠试剂目标检测过程示例的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
考虑现有目标检测方法对多重大、小目标图像的定位精度低,尤其对小目标的特征提取效果差的问题,本实施例提出一种面向多重目标图像的检测方法,该方法通过构建改进的目标检测模型,加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果,以当前新冠试剂目标检测为例,结合如图1所示的流程示意图对该方法进行说明,参见图1,包括以下步骤:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
在本步骤中,原始图像数据集中的每一个原始图像是通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄所获取的,每个原始图像均包括大目标区域和小目标区域,大目标区域为原始图像中新冠试剂所在区域,小目标区域为原始图像中试剂结果所在区域,大目标与小目标的尺寸有多种,大目标与小目标共同组成多重目标,而大、小是两者之间相对而言的。
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
在本步骤中,具体的预处理过程如下:
对原始图像数据集的每个原始图像进行标注,标注方式为人工标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集,并将原始图像数据集及对应于每个原始图像的图像标注数据集划分为训练集、验证集和测试集。
可选的,训练集、验证集和测试集的划分比例为6:2:2。
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息,将原始图像数据集中多个原始图像拼接为一张图像。
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN 网络模型、PAN网络模型以及检测网络模型;
请参见图2、图3以及图4,在本步骤中,YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重, CSPDarkent53网络包括CSP模块以及Darknet53模型,CSP模块的设计思路如图2所示,SPPF模块的设计思路如图3所示,FPN网络模型、PAN网络模型的设计思路如图4所示。
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
在本步骤中,通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
本实施例在整体上,在构建目标检测模型时,在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型,FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息,PAN网络模型通过自底向上的结构加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
实施例2
本实施例在实施例1的基础之上,对实施例1中所提到的大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价。
大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls+λ2Lobj+λ3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
其中,B为大目标区域真实框和小目标区域真实框个数,代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
请参见图5,Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,如图5所示,ρ2(b,bgt)为图5 中数值d的平方,c2如图5所示,代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h为预测边界框的长宽比,tan-1()为反正切函数。
本实施例中,使用CIoU Loss损失函数对大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价,能够提升网络的性能。
实施例3
请参见图6,本实施例对本发明中的面向多重目标图像的检测系统进行描述,本实施例中面向多重目标图像的检测系统包括:
获取单元601,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元602,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元603,用于构建目标检测模型,目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元604,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元605,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,训练单元604具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
实施例4
本实施例以当前新冠试剂目标检测为例,结合如图7、图8所示的示意图对新冠试剂目标检测过程进行说明,参见图7,首先,通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄,获取原始图像数据集,对原始图像数据集进行预处理,具体为,对原始图像进行翻转操作、缩放操作以及数据增强操作,对原始图像的大目标区域以及小目标区域进行标注,大目标区域为原始图像中新冠试剂所在区域,小目标区域为原始图像中试剂结果所在区域,大目标与小目标的尺寸有多种,大目标与小目标共同组成多重目标,而大、小是两者之间相对而言的,得到预处理后的图像数据集,将预处理后的图像数据集划分为训练集、验证集和测试集,利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型,参见图7,将待检测图像输入训练好的目标检测模型,训练好的目标检测模型进行推理得到最终的检测结果,即待检测图像中大目标区域的预测边界框、小目标区域的预测边界框。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种面向多重目标图像的检测方法,其特征在于,包括:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
2.根据权利要求1所述的面向多重目标图像的检测方法,其特征在于,所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。
3.根据权利要求2所述的面向多重目标图像的检测方法,其特征在于,所述对原始图像数据集进行预处理的过程包括:
对原始图像数据集的每个原始图像进行标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集。
4.根据权利要求3所述的面向多重目标图像的检测方法,其特征在于,所述对原始图像数据集进行预处理的过程还包括:
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息;
将原始图像数据集中多个原始图像拼接为一张图像。
5.根据权利要求4所述的面向多重目标图像的检测方法,其特征在于,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。
6.根据权利要求5所述的面向多重目标图像的检测方法,其特征在于,在步骤S4中,
通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
7.根据权利要求6所述的面向多重目标图像的检测方法,其特征在于,所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
8.根据权利要求7所述的面向多重目标图像的检测方法,其特征在于,大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls+λ2Lobj+λ3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
其中,B为大目标区域真实框和小目标区域真实框个数,代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,c2代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h为预测边界框的长宽比,tan-1()为反正切函数。
9.一种面向多重目标图像的检测系统,其特征在于,包括:
获取单元,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元,用于构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
10.根据权利要求9所述的面向多重目标图像的检测系统,其特征在于,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,所述训练单元具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210655674.XA CN114927236A (zh) | 2022-06-10 | 2022-06-10 | 一种面向多重目标图像的检测方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210655674.XA CN114927236A (zh) | 2022-06-10 | 2022-06-10 | 一种面向多重目标图像的检测方法及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN114927236A true CN114927236A (zh) | 2022-08-19 |
Family
ID=82814623
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202210655674.XA Pending CN114927236A (zh) | 2022-06-10 | 2022-06-10 | 一种面向多重目标图像的检测方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114927236A (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115908344A (zh) * | 2022-11-30 | 2023-04-04 | 广东工业大学 | 一种基于MLCT-YOLO的Micro LED芯片缺陷检测方法 |
| CN115965778A (zh) * | 2022-12-26 | 2023-04-14 | 凌云光技术股份有限公司 | 一种图像中目标的检测方法及系统 |
| CN116363649A (zh) * | 2023-03-24 | 2023-06-30 | 平安科技(深圳)有限公司 | 基于人工智能的图片识别方法、装置、电子设备及介质 |
| CN116665092A (zh) * | 2023-05-17 | 2023-08-29 | 暨南大学 | 基于ia-yolov7的污水悬浮物识别方法及系统 |
| CN116994116A (zh) * | 2023-08-04 | 2023-11-03 | 北京泰策科技有限公司 | 基于自注意力模型与yolov5的目标检测方法及系统 |
| CN118196396A (zh) * | 2024-04-18 | 2024-06-14 | 广东工业大学 | 一种基于深度学习的水下目标检测方法 |
| CN118942171A (zh) * | 2024-10-15 | 2024-11-12 | 江西图揽金属科技有限公司 | 一种智能巡检方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2020101011A4 (en) * | 2019-06-26 | 2020-07-23 | Zhejiang University | Method for identifying concrete cracks based on yolov3 deep learning model |
| CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
| CN114445706A (zh) * | 2022-01-25 | 2022-05-06 | 南京工程学院 | 一种基于特征融合的输电线路目标检测与识别方法 |
-
2022
- 2022-06-10 CN CN202210655674.XA patent/CN114927236A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2020101011A4 (en) * | 2019-06-26 | 2020-07-23 | Zhejiang University | Method for identifying concrete cracks based on yolov3 deep learning model |
| CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
| CN114445706A (zh) * | 2022-01-25 | 2022-05-06 | 南京工程学院 | 一种基于特征融合的输电线路目标检测与识别方法 |
Non-Patent Citations (2)
| Title |
|---|
| BANDAR ALOTAIBI 等: "Unauthorized Unmanned Aerial Vehicle Detection using YOLOv5 and Transfer Learning", RESEARCHGATE, 15 February 2022 (2022-02-15), pages 1 - 15 * |
| JING YE等: "CAA-YOLO: Combined-Attention-Augmented YOLO for Infrared Ocean Ships Detection", SENSORS, MDPI, 16 May 2022 (2022-05-16), pages 1 - 23 * |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115908344A (zh) * | 2022-11-30 | 2023-04-04 | 广东工业大学 | 一种基于MLCT-YOLO的Micro LED芯片缺陷检测方法 |
| CN115965778A (zh) * | 2022-12-26 | 2023-04-14 | 凌云光技术股份有限公司 | 一种图像中目标的检测方法及系统 |
| CN116363649A (zh) * | 2023-03-24 | 2023-06-30 | 平安科技(深圳)有限公司 | 基于人工智能的图片识别方法、装置、电子设备及介质 |
| CN116665092A (zh) * | 2023-05-17 | 2023-08-29 | 暨南大学 | 基于ia-yolov7的污水悬浮物识别方法及系统 |
| CN116665092B (zh) * | 2023-05-17 | 2025-12-12 | 暨南大学 | 基于ia-yolov7的污水悬浮物识别方法及系统 |
| CN116994116A (zh) * | 2023-08-04 | 2023-11-03 | 北京泰策科技有限公司 | 基于自注意力模型与yolov5的目标检测方法及系统 |
| CN116994116B (zh) * | 2023-08-04 | 2024-04-16 | 北京泰策科技有限公司 | 基于自注意力模型与yolov5的目标检测方法及系统 |
| CN118196396A (zh) * | 2024-04-18 | 2024-06-14 | 广东工业大学 | 一种基于深度学习的水下目标检测方法 |
| CN118942171A (zh) * | 2024-10-15 | 2024-11-12 | 江西图揽金属科技有限公司 | 一种智能巡检方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114927236A (zh) | 一种面向多重目标图像的检测方法及系统 | |
| CN110020651B (zh) | 基于深度学习网络的车牌检测定位方法 | |
| CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
| CN111476827B (zh) | 目标跟踪方法、系统、电子装置及存储介质 | |
| CN111461134A (zh) | 一种基于生成对抗网络的低分辨率车牌识别方法 | |
| CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
| CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
| CN111310662B (zh) | 一种基于集成深度网络的火焰检测识别方法及系统 | |
| CN112465880A (zh) | 基于多源异构数据认知融合的目标检测方法 | |
| CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
| Zhang et al. | Road recognition from remote sensing imagery using incremental learning | |
| CN113743251B (zh) | 一种基于弱监督场景的目标搜索方法及装置 | |
| CN113887455B (zh) | 一种基于改进fcos的人脸口罩检测系统及方法 | |
| CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
| CN107633226A (zh) | 一种人体动作跟踪识别方法及系统 | |
| CN116740758A (zh) | 一种防止误判的鸟类图像识别方法及系统 | |
| CN112613668A (zh) | 基于人工智能的景区危险区域管控方法 | |
| CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
| CN112634329A (zh) | 一种基于时空与或图的场景目标活动预测方法及装置 | |
| CN115641288B (zh) | 绝缘子图像分割与缺陷检测方法、装置、存储介质及设备 | |
| CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
| CN112784494B (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
| CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
| CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
| CN111967527A (zh) | 一种基于人工智能牡丹品种识别方法及识别系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220819 |
|
| RJ01 | Rejection of invention patent application after publication |