[go: up one dir, main page]

CN114927236A - 一种面向多重目标图像的检测方法及系统 - Google Patents

一种面向多重目标图像的检测方法及系统 Download PDF

Info

Publication number
CN114927236A
CN114927236A CN202210655674.XA CN202210655674A CN114927236A CN 114927236 A CN114927236 A CN 114927236A CN 202210655674 A CN202210655674 A CN 202210655674A CN 114927236 A CN114927236 A CN 114927236A
Authority
CN
China
Prior art keywords
target area
target
original image
detection
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210655674.XA
Other languages
English (en)
Inventor
梁浩
费伦科
苏建澎
江巧娴
梁立斌
张诗乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210655674.XA priority Critical patent/CN114927236A/zh
Publication of CN114927236A publication Critical patent/CN114927236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种面向多重目标图像的检测方法及系统,涉及图像检测的技术领域,获取原始图像数据集,原始图像数据集中的每个原始图像均包括大目标区域和小目标区域,构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型,通过预处理后的原始图像数据集训练目标检测模型,得到训练好的目标检测模型,获取待检测图像,待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果,能够提高对小目标的定位精度以及对小目标的特征提取效果。

Description

一种面向多重目标图像的检测方法及系统
技术领域
本发明涉及图像检测的技术领域,更具体地,涉及一种面向多重目标图像的检测方法及系统。
背景技术
近年来,人们对检测新冠病毒的新冠试剂的需求激增,而新冠试剂的检测结果的分类与统计需要人工操作,包括对采集的新冠试剂图像中作为大目标的试剂以及作为小目标的试剂结果进行分类与统计。
目标检测指基于目标几何和统计特征的图像分割,将目标的提取和识别结合,能够在复杂场景中,对多个目标进行实时处理,自动提取和识别所需目标。
传统的目标检测方法基于深度神经网络实现,以卷积网络为基础,以分类网络为主干,由于待测图像中的小目标相对于图像的尺寸小,且卷积网络对待测图像进行若干次下采样处理,小目标在卷积网络对待测图像进行特征提取后输出的特征图中像素低,故分类网络对小目标的分类效果差,对小目标的检测效果差,为解决以上问题,现有技术提出了一种目标检测方法,基于YOLO网络模型,增大YOLO网络模型中的特征提取模块根据待测图像输出的特征图数量,降低对待测图像的下采样倍率,从而增强对小目标的检测效果,然而,在对以试剂结果检测为代表的矩形小目标的检测中一般使用分辨率较高的待测图像,YOLO网络模型无法在分辨率较高的待测图像中充分提取特征信息,并且该待测图像中小目标的数量多、小目标的尺寸差异大,YOLO网络模型对小目标的定位精度低、对小目标的特征提取效果差。
发明内容
为解决现有目标检测方法对多重大、小目标图像的定位精度低,尤其对小目标的特征提取效果差的问题,本发明提出一种面向多重目标图像的检测方法及系统,通过构建改进的目标检测模型,加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
为了达到上述技术效果,本发明的技术方案如下:
一种面向多重目标图像的检测方法,包括:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN 网络模型、PAN网络模型以及检测网络模型;
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
优选的,所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。
优选的,所述对原始图像数据集进行预处理的过程包括:
对原始图像数据集的每个原始图像进行标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集。
优选的,所述对原始图像数据集进行预处理的过程还包括:
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息;
将原始图像数据集中多个原始图像拼接为一张图像。
优选的,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。
优选的,在步骤S4中,通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
优选的,所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
优选的,大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls2Lobj3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
Figure BDA0003689361650000041
其中,B为大目标区域真实框和小目标区域真实框个数,
Figure BDA0003689361650000042
代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
Figure BDA0003689361650000043
Figure BDA0003689361650000044
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,c2代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h 为预测边界框的长宽比,tan-1()为反正切函数。
本发明还提出一种面向多重目标图像的检测系统,包括:
获取单元,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元,用于构建目标检测模型,目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
优选的,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,所述训练单元具体用于通过 CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
本发明提出的面向多重目标图像的检测系统用于执行本发明提出的面向多重目标图像的检测方法。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种面向多重目标图像的检测方法及系统,构建目标检测模型时,在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型,FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息,PAN网络模型通过自底向上的结构加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
附图说明
图1表示本发明提出的面向多重目标图像的检测方法的流程示意图;
图2表示本发明提出的CSPDarkent53网络中CSP模块的示意图;
图3表示本发明提出的SPPF模块的示意图;
图4表示本发明提出的FPN网络模型及PAN网络模型的示意图;
图5表示本发明提出的损失函数参数的示意图;
图6表示本发明提出的面向多重目标图像的检测系统的示意图;
图7表示本发明提出的新冠试剂目标检测中预处理过程示例的示意图;
图8表示本发明提出的新冠试剂目标检测过程示例的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
考虑现有目标检测方法对多重大、小目标图像的定位精度低,尤其对小目标的特征提取效果差的问题,本实施例提出一种面向多重目标图像的检测方法,该方法通过构建改进的目标检测模型,加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果,以当前新冠试剂目标检测为例,结合如图1所示的流程示意图对该方法进行说明,参见图1,包括以下步骤:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
在本步骤中,原始图像数据集中的每一个原始图像是通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄所获取的,每个原始图像均包括大目标区域和小目标区域,大目标区域为原始图像中新冠试剂所在区域,小目标区域为原始图像中试剂结果所在区域,大目标与小目标的尺寸有多种,大目标与小目标共同组成多重目标,而大、小是两者之间相对而言的。
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
在本步骤中,具体的预处理过程如下:
对原始图像数据集的每个原始图像进行标注,标注方式为人工标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集,并将原始图像数据集及对应于每个原始图像的图像标注数据集划分为训练集、验证集和测试集。
可选的,训练集、验证集和测试集的划分比例为6:2:2。
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息,将原始图像数据集中多个原始图像拼接为一张图像。
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN 网络模型、PAN网络模型以及检测网络模型;
请参见图2、图3以及图4,在本步骤中,YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重, CSPDarkent53网络包括CSP模块以及Darknet53模型,CSP模块的设计思路如图2所示,SPPF模块的设计思路如图3所示,FPN网络模型、PAN网络模型的设计思路如图4所示。
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
在本步骤中,通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
本实施例在整体上,在构建目标检测模型时,在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型,FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息,PAN网络模型通过自底向上的结构加强对小目标的定位效果,能够提高对小目标的定位精度以及对小目标的特征提取效果。
实施例2
本实施例在实施例1的基础之上,对实施例1中所提到的大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价。
大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls2Lobj3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
Figure BDA0003689361650000091
其中,B为大目标区域真实框和小目标区域真实框个数,
Figure BDA0003689361650000092
代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
Figure BDA0003689361650000093
Figure BDA0003689361650000094
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
请参见图5,Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,如图5所示,ρ2(b,bgt)为图5 中数值d的平方,c2如图5所示,代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h为预测边界框的长宽比,tan-1()为反正切函数。
本实施例中,使用CIoU Loss损失函数对大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价,能够提升网络的性能。
实施例3
请参见图6,本实施例对本发明中的面向多重目标图像的检测系统进行描述,本实施例中面向多重目标图像的检测系统包括:
获取单元601,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元602,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元603,用于构建目标检测模型,目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元604,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元605,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,训练单元604具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
实施例4
本实施例以当前新冠试剂目标检测为例,结合如图7、图8所示的示意图对新冠试剂目标检测过程进行说明,参见图7,首先,通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄,获取原始图像数据集,对原始图像数据集进行预处理,具体为,对原始图像进行翻转操作、缩放操作以及数据增强操作,对原始图像的大目标区域以及小目标区域进行标注,大目标区域为原始图像中新冠试剂所在区域,小目标区域为原始图像中试剂结果所在区域,大目标与小目标的尺寸有多种,大目标与小目标共同组成多重目标,而大、小是两者之间相对而言的,得到预处理后的图像数据集,将预处理后的图像数据集划分为训练集、验证集和测试集,利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型,参见图7,将待检测图像输入训练好的目标检测模型,训练好的目标检测模型进行推理得到最终的检测结果,即待检测图像中大目标区域的预测边界框、小目标区域的预测边界框。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种面向多重目标图像的检测方法,其特征在于,包括:
S1.获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
S2.对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
S3.构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
S4.利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
S5.获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
2.根据权利要求1所述的面向多重目标图像的检测方法,其特征在于,所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。
3.根据权利要求2所述的面向多重目标图像的检测方法,其特征在于,所述对原始图像数据集进行预处理的过程包括:
对原始图像数据集的每个原始图像进行标注,标注出每个原始图像中大目标区域真实框和小目标区域真实框,得到分别对应于每个原始图像的图像标注数据集。
4.根据权利要求3所述的面向多重目标图像的检测方法,其特征在于,所述对原始图像数据集进行预处理的过程还包括:
对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作,根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息,所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息;
将原始图像数据集中多个原始图像拼接为一张图像。
5.根据权利要求4所述的面向多重目标图像的检测方法,其特征在于,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。
6.根据权利要求5所述的面向多重目标图像的检测方法,其特征在于,在步骤S4中,
通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
7.根据权利要求6所述的面向多重目标图像的检测方法,其特征在于,所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注,所述预定义描框标注为自适应描框标注,自适应描框标注的自适应计算过程为:
设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高;
根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放,得到缩放后的特征图像;
引入K-means聚类算法,根据缩放后的特征图像设定K-means聚类算法的的聚类中心,所述聚类中心为矩形框;
确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积,根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果;
根据所述聚类结果更新初始描框的宽和高,得到大目标区域预测边界框,小目标区域预测边界框。
8.根据权利要求7所述的面向多重目标图像的检测方法,其特征在于,大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价,Loss的数值表示差异度大小,Loss的预设数值用以表示预设差异度,具体如下:
原始图像中大目标区域以及小目标区域内的部分设为前景,大目标区域以及小目标区域外的部分设为背景,将原始图像均分为若干网格,引入损失函数公式如下:
Loss=λ1Lcls2Lobj3Lloc (1)
其中,λ1、λ2、λ3为超参数,Lcls是判断原始图像分类所产生的误差,Lobj是判断是否为前景目标所产生的误差,Lloc是对大目标区域边界框和小目标区域边界框定位带来的误差;
Lcls的公式具体如下:
Figure FDA0003689361640000031
其中,B为大目标区域真实框和小目标区域真实框个数,
Figure FDA0003689361640000032
代表第i个网格中的第j个预测边界框是否为前景目标,若是,取值为1,否则取值为0,pi(c)为分类概率,p′i(c)=1-pi(c),log()为对数函数;
Lobj的公式具体如下:
Figure FDA0003689361640000033
Figure FDA0003689361640000034
代表第i个网格中的第j个预测边界框的是否为背景目标,若是,取值为1,若否,取值为0,ci为真实的置信度,若为前景目标则取值为1,若为背景目标则取值为0,c′i为预测的置信度,若为前景目标则取值为1,若为背景目标则取值为0;
Lloc的公式具体如下:
Lloc=LCIoU=1-CIoU (4)
CIoU=IoU-(ρ2(b,bgt)/c2+αv) (5)
a=v/(1-IoU)+v (6)
v=4/Π2(tan-1wgt/hgt-tan-1w/h) (7)
其中,IoU为真实框和预测边界框交集面积和并集面积的比值,ρ2(b,bgt)代表预测边界框和真实框的中心点的距离的平方,c2代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方,wgt/hgt为真实框的长宽比,w/h为预测边界框的长宽比,tan-1()为反正切函数。
9.一种面向多重目标图像的检测系统,其特征在于,包括:
获取单元,用于获取原始图像数据集,所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域;
预处理单元,用于对原始图像数据集进行预处理,得到预处理后的图像数据集,并将图像数据集划分为训练集、验证集和测试集;
构建单元,用于构建目标检测模型,目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型;
训练单元,用于利用训练集对目标检测模型进行训练,利用验证集对训练过程中的目标检测模型进行评估,利用测试集测试目标检测模型的有效性,得到训练好的目标检测模型;
检测单元,用于获取待检测图像,所述待检测图像包括大目标区域和小目标区域构成的多重目标区域,将待检测图像输入训练好的目标检测模型,输出待检测图像各目标区域的检测结果。
10.根据权利要求9所述的面向多重目标图像的检测系统,其特征在于,所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块,所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重,所述训练单元具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作,得到第一特征图,通过SPPF模块对第一特征图进行池化操作以及特征融合操作,得到第二特征图,将第二特征图输入FPN网络模型进行多尺度特征学习,得到第三特征图,将第三特征图输入PAN网络模型进行特征尺寸定位学习,得到第四特征图,将第四特征图输入检测网络模型,基于第四特征图,在检测网络模型处进行自动标注和分类预测,得到大目标区域的预测边界框、小目标区域的预测边界框,以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率,当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时,且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时,训练结束,得到训练好的目标检测模型。
CN202210655674.XA 2022-06-10 2022-06-10 一种面向多重目标图像的检测方法及系统 Pending CN114927236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210655674.XA CN114927236A (zh) 2022-06-10 2022-06-10 一种面向多重目标图像的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210655674.XA CN114927236A (zh) 2022-06-10 2022-06-10 一种面向多重目标图像的检测方法及系统

Publications (1)

Publication Number Publication Date
CN114927236A true CN114927236A (zh) 2022-08-19

Family

ID=82814623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210655674.XA Pending CN114927236A (zh) 2022-06-10 2022-06-10 一种面向多重目标图像的检测方法及系统

Country Status (1)

Country Link
CN (1) CN114927236A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908344A (zh) * 2022-11-30 2023-04-04 广东工业大学 一种基于MLCT-YOLO的Micro LED芯片缺陷检测方法
CN115965778A (zh) * 2022-12-26 2023-04-14 凌云光技术股份有限公司 一种图像中目标的检测方法及系统
CN116363649A (zh) * 2023-03-24 2023-06-30 平安科技(深圳)有限公司 基于人工智能的图片识别方法、装置、电子设备及介质
CN116665092A (zh) * 2023-05-17 2023-08-29 暨南大学 基于ia-yolov7的污水悬浮物识别方法及系统
CN116994116A (zh) * 2023-08-04 2023-11-03 北京泰策科技有限公司 基于自注意力模型与yolov5的目标检测方法及系统
CN118196396A (zh) * 2024-04-18 2024-06-14 广东工业大学 一种基于深度学习的水下目标检测方法
CN118942171A (zh) * 2024-10-15 2024-11-12 江西图揽金属科技有限公司 一种智能巡检方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020101011A4 (en) * 2019-06-26 2020-07-23 Zhejiang University Method for identifying concrete cracks based on yolov3 deep learning model
CN113537106A (zh) * 2021-07-23 2021-10-22 仲恺农业工程学院 一种基于YOLOv5的鱼类摄食行为识别方法
CN114445706A (zh) * 2022-01-25 2022-05-06 南京工程学院 一种基于特征融合的输电线路目标检测与识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020101011A4 (en) * 2019-06-26 2020-07-23 Zhejiang University Method for identifying concrete cracks based on yolov3 deep learning model
CN113537106A (zh) * 2021-07-23 2021-10-22 仲恺农业工程学院 一种基于YOLOv5的鱼类摄食行为识别方法
CN114445706A (zh) * 2022-01-25 2022-05-06 南京工程学院 一种基于特征融合的输电线路目标检测与识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BANDAR ALOTAIBI 等: "Unauthorized Unmanned Aerial Vehicle Detection using YOLOv5 and Transfer Learning", RESEARCHGATE, 15 February 2022 (2022-02-15), pages 1 - 15 *
JING YE等: "CAA-YOLO: Combined-Attention-Augmented YOLO for Infrared Ocean Ships Detection", SENSORS, MDPI, 16 May 2022 (2022-05-16), pages 1 - 23 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908344A (zh) * 2022-11-30 2023-04-04 广东工业大学 一种基于MLCT-YOLO的Micro LED芯片缺陷检测方法
CN115965778A (zh) * 2022-12-26 2023-04-14 凌云光技术股份有限公司 一种图像中目标的检测方法及系统
CN116363649A (zh) * 2023-03-24 2023-06-30 平安科技(深圳)有限公司 基于人工智能的图片识别方法、装置、电子设备及介质
CN116665092A (zh) * 2023-05-17 2023-08-29 暨南大学 基于ia-yolov7的污水悬浮物识别方法及系统
CN116665092B (zh) * 2023-05-17 2025-12-12 暨南大学 基于ia-yolov7的污水悬浮物识别方法及系统
CN116994116A (zh) * 2023-08-04 2023-11-03 北京泰策科技有限公司 基于自注意力模型与yolov5的目标检测方法及系统
CN116994116B (zh) * 2023-08-04 2024-04-16 北京泰策科技有限公司 基于自注意力模型与yolov5的目标检测方法及系统
CN118196396A (zh) * 2024-04-18 2024-06-14 广东工业大学 一种基于深度学习的水下目标检测方法
CN118942171A (zh) * 2024-10-15 2024-11-12 江西图揽金属科技有限公司 一种智能巡检方法及系统

Similar Documents

Publication Publication Date Title
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN110020651B (zh) 基于深度学习网络的车牌检测定位方法
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN111476827B (zh) 目标跟踪方法、系统、电子装置及存储介质
CN111461134A (zh) 一种基于生成对抗网络的低分辨率车牌识别方法
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111310662B (zh) 一种基于集成深度网络的火焰检测识别方法及系统
CN112465880A (zh) 基于多源异构数据认知融合的目标检测方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN116740758A (zh) 一种防止误判的鸟类图像识别方法及系统
CN112613668A (zh) 基于人工智能的景区危险区域管控方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN112634329A (zh) 一种基于时空与或图的场景目标活动预测方法及装置
CN115641288B (zh) 绝缘子图像分割与缺陷检测方法、装置、存储介质及设备
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN112784494B (zh) 假阳性识别模型的训练方法、目标识别方法及装置
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN111967527A (zh) 一种基于人工智能牡丹品种识别方法及识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220819

RJ01 Rejection of invention patent application after publication