CN114927236A

CN114927236A - 一种面向多重目标图像的检测方法及系统

Info

Publication number: CN114927236A
Application number: CN202210655674.XA
Authority: CN
Inventors: 梁浩; 费伦科; 苏建澎; 江巧娴; 梁立斌; 张诗乔
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-08-19

Abstract

本发明提出一种面向多重目标图像的检测方法及系统，涉及图像检测的技术领域，获取原始图像数据集，原始图像数据集中的每个原始图像均包括大目标区域和小目标区域，构建目标检测模型，目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型，通过预处理后的原始图像数据集训练目标检测模型，得到训练好的目标检测模型，获取待检测图像，待检测图像包括大目标区域和小目标区域构成的多重目标区域，将待检测图像输入训练好的目标检测模型，输出待检测图像各目标区域的检测结果，能够提高对小目标的定位精度以及对小目标的特征提取效果。

Description

一种面向多重目标图像的检测方法及系统

技术领域

本发明涉及图像检测的技术领域，更具体地，涉及一种面向多重目标图像的检测方法及系统。

背景技术

近年来，人们对检测新冠病毒的新冠试剂的需求激增，而新冠试剂的检测结果的分类与统计需要人工操作，包括对采集的新冠试剂图像中作为大目标的试剂以及作为小目标的试剂结果进行分类与统计。

目标检测指基于目标几何和统计特征的图像分割，将目标的提取和识别结合，能够在复杂场景中，对多个目标进行实时处理，自动提取和识别所需目标。

传统的目标检测方法基于深度神经网络实现，以卷积网络为基础，以分类网络为主干，由于待测图像中的小目标相对于图像的尺寸小，且卷积网络对待测图像进行若干次下采样处理，小目标在卷积网络对待测图像进行特征提取后输出的特征图中像素低，故分类网络对小目标的分类效果差，对小目标的检测效果差，为解决以上问题，现有技术提出了一种目标检测方法，基于YOLO网络模型，增大YOLO网络模型中的特征提取模块根据待测图像输出的特征图数量，降低对待测图像的下采样倍率，从而增强对小目标的检测效果，然而，在对以试剂结果检测为代表的矩形小目标的检测中一般使用分辨率较高的待测图像，YOLO网络模型无法在分辨率较高的待测图像中充分提取特征信息，并且该待测图像中小目标的数量多、小目标的尺寸差异大，YOLO网络模型对小目标的定位精度低、对小目标的特征提取效果差。

发明内容

为解决现有目标检测方法对多重大、小目标图像的定位精度低，尤其对小目标的特征提取效果差的问题，本发明提出一种面向多重目标图像的检测方法及系统，通过构建改进的目标检测模型，加强对小目标的定位效果，能够提高对小目标的定位精度以及对小目标的特征提取效果。

为了达到上述技术效果，本发明的技术方案如下：

一种面向多重目标图像的检测方法，包括：

S1.获取原始图像数据集，所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域；

S2.对原始图像数据集进行预处理，得到预处理后的图像数据集，并将图像数据集划分为训练集、验证集和测试集；

S3.构建目标检测模型，目标检测模型包括依次连接的YOLO网络模型、FPN 网络模型、PAN网络模型以及检测网络模型；

S4.利用训练集对目标检测模型进行训练，利用验证集对训练过程中的目标检测模型进行评估，利用测试集测试目标检测模型的有效性，得到训练好的目标检测模型；

S5.获取待检测图像，所述待检测图像包括大目标区域和小目标区域构成的多重目标区域，将待检测图像输入训练好的目标检测模型，输出待检测图像各目标区域的检测结果。

优选的，所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。

优选的，所述对原始图像数据集进行预处理的过程包括：

对原始图像数据集的每个原始图像进行标注，标注出每个原始图像中大目标区域真实框和小目标区域真实框，得到分别对应于每个原始图像的图像标注数据集。

优选的，所述对原始图像数据集进行预处理的过程还包括：

对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作，根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息，所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息；

将原始图像数据集中多个原始图像拼接为一张图像。

优选的，所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。

优选的，在步骤S4中，通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。

优选的，所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注，所述预定义描框标注为自适应描框标注，自适应描框标注的自适应计算过程为：

设定用于标注大目标预测区域以及小目标预测区域的初始描框的宽和高；

根据所述第四特征图中特征图像的宽和高对特征图像按预设比例进行缩放，得到缩放后的特征图像；

引入K-means聚类算法，根据缩放后的特征图像设定K-means聚类算法的的聚类中心，所述聚类中心为矩形框；

确定初始描框与聚类中心的交集面积、初始描框与聚类中心的并集面积，根据交集面积和并集面积的比值更新K-means聚类算法的聚类结果；

根据所述聚类结果更新初始描框的宽和高，得到大目标区域预测边界框，小目标区域预测边界框。

优选的，大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价，Loss的数值表示差异度大小，Loss的预设数值用以表示预设差异度，具体如下：

原始图像中大目标区域以及小目标区域内的部分设为前景，大目标区域以及小目标区域外的部分设为背景，将原始图像均分为若干网格，引入损失函数公式如下：

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc (1)

其中，λ₁、λ₂、λ₃为超参数，L_cls是判断原始图像分类所产生的误差，L_obj是判断是否为前景目标所产生的误差，L_loc是对大目标区域边界框和小目标区域边界框定位带来的误差；

L_cls的公式具体如下：

其中，B为大目标区域真实框和小目标区域真实框个数，

代表第i个网格中的第j个预测边界框是否为前景目标，若是，取值为1，否则取值为0，p_i(c)为分类概率，p′_i(c)＝1-p_i(c)，log()为对数函数；

L_obj的公式具体如下：

代表第i个网格中的第j个预测边界框的是否为背景目标，若是，取值为1，若否，取值为0，c_i为真实的置信度，若为前景目标则取值为1，若为背景目标则取值为0，c′_i为预测的置信度，若为前景目标则取值为1，若为背景目标则取值为0；

L_loc的公式具体如下：

L_loc＝L_CIoU＝1-CIoU (4)

CIoU＝IoU-(ρ²(b，b^gt)/c²+αv) (5)

a＝v/(1-IoU)+v (6)

v＝4/Π²(tan^-1w^gt/h^gt-tan^-1w/h) (7)

其中，IoU为真实框和预测边界框交集面积和并集面积的比值，ρ²(b，b^gt)代表预测边界框和真实框的中心点的距离的平方，c²代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方，w^gt/h^gt为真实框的长宽比，w/h 为预测边界框的长宽比，tan^-1()为反正切函数。

本发明还提出一种面向多重目标图像的检测系统，包括：

获取单元，用于获取原始图像数据集，所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域；

预处理单元，用于对原始图像数据集进行预处理，得到预处理后的图像数据集，并将图像数据集划分为训练集、验证集和测试集；

构建单元，用于构建目标检测模型，目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型；

训练单元，用于利用训练集对目标检测模型进行训练，利用验证集对训练过程中的目标检测模型进行评估，利用测试集测试目标检测模型的有效性，得到训练好的目标检测模型；

检测单元，用于获取待检测图像，所述待检测图像包括大目标区域和小目标区域构成的多重目标区域，将待检测图像输入训练好的目标检测模型，输出待检测图像各目标区域的检测结果。

优选的，所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF 模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重，所述训练单元具体用于通过 CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。

本发明提出的面向多重目标图像的检测系统用于执行本发明提出的面向多重目标图像的检测方法。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种面向多重目标图像的检测方法及系统，构建目标检测模型时，在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型，FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息，PAN网络模型通过自底向上的结构加强对小目标的定位效果，能够提高对小目标的定位精度以及对小目标的特征提取效果。

附图说明

图1表示本发明提出的面向多重目标图像的检测方法的流程示意图；

图2表示本发明提出的CSPDarkent53网络中CSP模块的示意图；

图3表示本发明提出的SPPF模块的示意图；

图4表示本发明提出的FPN网络模型及PAN网络模型的示意图；

图5表示本发明提出的损失函数参数的示意图；

图6表示本发明提出的面向多重目标图像的检测系统的示意图；

图7表示本发明提出的新冠试剂目标检测中预处理过程示例的示意图；

图8表示本发明提出的新冠试剂目标检测过程示例的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

考虑现有目标检测方法对多重大、小目标图像的定位精度低，尤其对小目标的特征提取效果差的问题，本实施例提出一种面向多重目标图像的检测方法，该方法通过构建改进的目标检测模型，加强对小目标的定位效果，能够提高对小目标的定位精度以及对小目标的特征提取效果，以当前新冠试剂目标检测为例，结合如图1所示的流程示意图对该方法进行说明，参见图1，包括以下步骤：

在本步骤中，原始图像数据集中的每一个原始图像是通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄所获取的，每个原始图像均包括大目标区域和小目标区域，大目标区域为原始图像中新冠试剂所在区域，小目标区域为原始图像中试剂结果所在区域，大目标与小目标的尺寸有多种，大目标与小目标共同组成多重目标，而大、小是两者之间相对而言的。

在本步骤中，具体的预处理过程如下：

对原始图像数据集的每个原始图像进行标注，标注方式为人工标注，标注出每个原始图像中大目标区域真实框和小目标区域真实框，得到分别对应于每个原始图像的图像标注数据集，并将原始图像数据集及对应于每个原始图像的图像标注数据集划分为训练集、验证集和测试集。

可选的，训练集、验证集和测试集的划分比例为6:2:2。

对原始图像数据集中的每个原始图像进行翻转操作、缩放操作以及数据增强操作，根据所述翻转操作、缩放操作以及数据增强操作更改图像标注数据集中每个与原始图像对应的图像标注数据的数值信息，所述数值信息包括大目标区域真实框在图像中的坐标信息以及小目标区域真实框在图像中的坐标信息，将原始图像数据集中多个原始图像拼接为一张图像。

请参见图2、图3以及图4，在本步骤中，YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重， CSPDarkent53网络包括CSP模块以及Darknet53模型，CSP模块的设计思路如图2所示，SPPF模块的设计思路如图3所示，FPN网络模型、PAN网络模型的设计思路如图4所示。

在本步骤中，通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。

所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注，所述预定义描框标注为自适应描框标注，自适应描框标注的自适应计算过程为：

本实施例在整体上，在构建目标检测模型时，在YOLO网络模型的基础之上增加FPN网络模型以及PAN网络模型，FPN网络模型通过自顶向下的结构学习不同尺寸的特征信息，PAN网络模型通过自底向上的结构加强对小目标的定位效果，能够提高对小目标的定位精度以及对小目标的特征提取效果。

实施例2

本实施例在实施例1的基础之上，对实施例1中所提到的大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价。

大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价，Loss的数值表示差异度大小，Loss的预设数值用以表示预设差异度，具体如下：

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc (1)

L_cls的公式具体如下：

其中，B为大目标区域真实框和小目标区域真实框个数，

L_obj的公式具体如下：

请参见图5，L_loc的公式具体如下：

L_loc＝L_CIoU＝1-CIoU (4)

CIoU＝IoU-(ρ²(b，b^gt)/c²+αv) (5)

a＝v/(1-IoU)+v (6)

v＝4/Π²(tan^-1w^gt/h^gt-tan^-1w/h) (7)

其中，IoU为真实框和预测边界框交集面积和并集面积的比值，ρ²(b，b^gt)代表预测边界框和真实框的中心点的距离的平方，如图5所示，ρ²(b，b^gt)为图5 中数值d的平方，c²如图5所示，代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方，w^gt/h^gt为真实框的长宽比，w/h为预测边界框的长宽比，tan^-1()为反正切函数。

本实施例中，使用CIoU Loss损失函数对大目标区域的预测边界框与大目标区域的真实框的差异度、小目标区域的预测边界框与小目标区域的真实框的差异度进行评价，能够提升网络的性能。

实施例3

请参见图6，本实施例对本发明中的面向多重目标图像的检测系统进行描述，本实施例中面向多重目标图像的检测系统包括：

获取单元601，用于获取原始图像数据集，所述原始图像数据集中的每个原始图像均包括大目标区域和小目标区域；

预处理单元602，用于对原始图像数据集进行预处理，得到预处理后的图像数据集，并将图像数据集划分为训练集、验证集和测试集；

构建单元603，用于构建目标检测模型，目标检测模型包括依次连接的YOLO 网络模型、FPN网络模型、PAN网络模型以及检测网络模型；

训练单元604，用于利用训练集对目标检测模型进行训练，利用验证集对训练过程中的目标检测模型进行评估，利用测试集测试目标检测模型的有效性，得到训练好的目标检测模型；

检测单元605，用于获取待检测图像，所述待检测图像包括大目标区域和小目标区域构成的多重目标区域，将待检测图像输入训练好的目标检测模型，输出待检测图像各目标区域的检测结果。

YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重，训练单元604具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。

实施例4

本实施例以当前新冠试剂目标检测为例，结合如图7、图8所示的示意图对新冠试剂目标检测过程进行说明，参见图7，首先，通过手机高清摄像头对新冠试剂以及与新冠试剂对应的试剂结果进行拍摄，获取原始图像数据集，对原始图像数据集进行预处理，具体为，对原始图像进行翻转操作、缩放操作以及数据增强操作，对原始图像的大目标区域以及小目标区域进行标注，大目标区域为原始图像中新冠试剂所在区域，小目标区域为原始图像中试剂结果所在区域，大目标与小目标的尺寸有多种，大目标与小目标共同组成多重目标，而大、小是两者之间相对而言的，得到预处理后的图像数据集，将预处理后的图像数据集划分为训练集、验证集和测试集，利用训练集对目标检测模型进行训练，利用验证集对训练过程中的目标检测模型进行评估，利用测试集测试目标检测模型的有效性，得到训练好的目标检测模型，参见图7，将待检测图像输入训练好的目标检测模型，训练好的目标检测模型进行推理得到最终的检测结果，即待检测图像中大目标区域的预测边界框、小目标区域的预测边界框。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向多重目标图像的检测方法，其特征在于，包括：

S3.构建目标检测模型，目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型；

2.根据权利要求1所述的面向多重目标图像的检测方法，其特征在于，所述原始图像数据集中的每一个原始图像是通过手机高清摄像头拍摄获取的。

3.根据权利要求2所述的面向多重目标图像的检测方法，其特征在于，所述对原始图像数据集进行预处理的过程包括：

4.根据权利要求3所述的面向多重目标图像的检测方法，其特征在于，所述对原始图像数据集进行预处理的过程还包括：

将原始图像数据集中多个原始图像拼接为一张图像。

5.根据权利要求4所述的面向多重目标图像的检测方法，其特征在于，所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重。

6.根据权利要求5所述的面向多重目标图像的检测方法，其特征在于，在步骤S4中，

通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。

7.根据权利要求6所述的面向多重目标图像的检测方法，其特征在于，所述检测网络模型通过预定义描框标注的形式对大目标预测区域以及小目标预测区域进行自动标注，所述预定义描框标注为自适应描框标注，自适应描框标注的自适应计算过程为：

8.根据权利要求7所述的面向多重目标图像的检测方法，其特征在于，大目标区域的预测边界框与大目标区域的真实框的差异度及小目标区域的预测边界框与小目标区域的真实框的差异度均通过损失函数Loss的数值进行评价，Loss的数值表示差异度大小，Loss的预设数值用以表示预设差异度，具体如下：

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc (1)

L_cls的公式具体如下：

其中，B为大目标区域真实框和小目标区域真实框个数，

L_obj的公式具体如下：

L_loc的公式具体如下：

L_loc＝L_CIoU＝1-CIoU (4)

CIoU＝IoU-(ρ²(b，b^gt)/c²+αv) (5)

a＝v/(1-IoU)+v (6)

v＝4/Π²(tan^-1w^gt/h^gt-tan^-1w/h) (7)

其中，IoU为真实框和预测边界框交集面积和并集面积的比值，ρ²(b，b^gt)代表预测边界框和真实框的中心点的距离的平方，c²代表能够同时包含预测边界框和真实框的最小闭包区域的对角线距离的平方，w^gt/h^gt为真实框的长宽比，w/h为预测边界框的长宽比，tan^-1()为反正切函数。

9.一种面向多重目标图像的检测系统，其特征在于，包括：

构建单元，用于构建目标检测模型，目标检测模型包括依次连接的YOLO网络模型、FPN网络模型、PAN网络模型以及检测网络模型；

10.根据权利要求9所述的面向多重目标图像的检测系统，其特征在于，所述YOLO网络模型包括依次连接的CSPDarkent53网络及SPPF模块，所述CSPDarkent53网络的网络参数和权重使用在通用的ImageNet图像分类数据集预训练得到的网络参数和权重，所述训练单元具体用于通过CSPDarkent53网络对预处理后的原始图像数据集进行特征提取操作，得到第一特征图，通过SPPF模块对第一特征图进行池化操作以及特征融合操作，得到第二特征图，将第二特征图输入FPN网络模型进行多尺度特征学习，得到第三特征图，将第三特征图输入PAN网络模型进行特征尺寸定位学习，得到第四特征图，将第四特征图输入检测网络模型，基于第四特征图，在检测网络模型处进行自动标注和分类预测，得到大目标区域的预测边界框、小目标区域的预测边界框，以及分别与大目标区域预测边界框、小目标区域预测边界框对应的分类概率，当大目标区域的预测边界框与大目标区域的真实框的差异度小于等于预设差异度时，且小目标区域的预测边界框与小目标区域的真实框的差异度小于等于预设差异度时，训练结束，得到训练好的目标检测模型。