CN116977844A - 一种轻量级水下目标实时检测方法 - Google Patents
一种轻量级水下目标实时检测方法 Download PDFInfo
- Publication number
- CN116977844A CN116977844A CN202311011314.7A CN202311011314A CN116977844A CN 116977844 A CN116977844 A CN 116977844A CN 202311011314 A CN202311011314 A CN 202311011314A CN 116977844 A CN116977844 A CN 116977844A
- Authority
- CN
- China
- Prior art keywords
- underwater
- model
- yolov8
- lightweight
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机图像处理技术领域,提供一种轻量级水下目标实时检测方法,该方法包括8个步骤:针对模型提取水下复杂环境特征较差的问题,提出了一种基于FasterNet的特征提取骨干网络,能够解决水下信息模糊的问题,并保持着较快的检测速度;然后,通过修改颈部部分的模型结果为BiFPN,通过去掉小目标层和更改融合方法得到更丰富的特征,并减小的模型的尺寸。最后,将C2f内的所以卷积块都替换为GSConv卷积,以获得更轻、更快的模块。通过这些方法的组合,解决了模型检测精度,速度和尺寸之间平衡的问题,并且能够在小目标缺失的情况下提取到水下复杂环境的目标特征,保证网络能提取到输入图片的浅层特征。
Description
技术领域
本发明属于计算机图像处理技术领域,特别涉及一种轻量级水下目标实时检测方法。
背景技术
水下目标检测适用于评估水下生物的生长过程和健康状态,水下目标检测方法通过轻量化的尺寸和高效的检测速度,能够嵌入到包含GPU和CPU的嵌入式设备中,水下目标检测方法可以分为两阶段方法和一阶段方法。
两阶段方法采用区域建议模块生成候选对象建议,然后对其进行进一步分类和位置回归。曾有研究人员讨论了R-CNN的不确定性建模和硬示例挖掘问题,用于低对比度和模糊物体的水下环境中的物体检测。他们通过用不正确的先验估计放大具有挑战性的样本的加权分类损失,并用准确的先验估计减少简单样本的加权类别损失,从而增强模糊图像的特征。虽然基于两阶段算法的水下检测方法具有较高的精度,但采用两阶段策略会导致检测速度慢和模型尺寸大,不适用于水下检测环境的工业要求,不能较好的投入工业使用。
基于单阶段的方法,相对于两阶段方法,有着相对较快的速度和较小的体积。曾有研究人员使用CA注意力机制加入到C3模块中,去提升YOLOv5在水下的检测精度,注意力机制相当于外接的一个网络模块,这种操作会使得模型的尺寸变大,并且检测速度也会变慢。
上述基于两阶段和单阶段的方法存在两个问题:
第一,由于水下目标检测遇到了一些关键障碍,包括小目标分辨率低、运动引起的目标模糊以及上下文信息有限。传统的目标检测方法往往过于强调背景信息,掩盖了目标自身的特征,导致精度下降。
基于二阶段方法的模型尺寸大,检测速度慢,但精度会相对较高。而基于一阶段的方法,通常采用注意力机制的方式去提升模型精度,这导致模型尺寸变大,速度变慢。如何在保证精度的前提下,拥有轻量级的模型尺寸和快的检测速度是一个现有技术中的难题。
发明内容
基于此,本发明的目的是提供一种轻量级水下目标实时检测方法,以至少解决上述技术中的不足。
一种轻量级水下目标实时检测方法,包括以下步骤:
S1:获取水下特定目标的初始数据集;
S2:对初始数据集进行增强;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNet Block层叠加的结果;
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块;
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;
S8:正负样本匹配和验证集验证;
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
进一步地,步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块。
本发明当中的一种轻量级水下目标实时检测方法,针对模型提取水下复杂环境特征较差的问题,提出了一种基于FasterNet的特征提取骨干网络,能够解决水下信息模糊的问题,并保持着较快的检测速度;然后,通过修改颈部部分的模型结果为BiFPN,通过去掉小目标层和更改融合方法得到更丰富的特征,并减小的模型的尺寸。最后,将C2f内的所以卷积块都替换为GSConv卷积,以获得更轻、更快的模块。通过这些方法的组合,解决了模型检测精度,速度和尺寸之间平衡的问题,并且能够在小目标缺失的情况下提取到水下复杂环境的目标特征,保证网络能提取到输入图片的浅层特征。
附图说明
图1为本发明一种轻量级水下目标实时检测方法的流程图;
图2为本发明一种轻量级水下目标实时检测方法的算法模块划分图;
图3为本发明FasterNet Block结构图;
图4为本发明轻量块的组成图;
图5为本发明GSConv的结构图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
请参阅图1,一种轻量级水下目标实时检测方法,其特征在于,包括以下步骤:
S1:获取水下特定目标的初始数据集:初始数据集是利用标记软件对获取的水下图像进行标记,将图像中的各种目标用特定的方框标记出来。将标记好的文件生成为txt格式,其中每一行都为一个目标,通过空格隔开,第一个数字对应着类别,后面4个数字对应着目标框在图片中的位置;
S2:对初始数据集进行增强:采用YOLOv8自带是数据增强算法,对数据集进行增强操作;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNet Block层叠加的结果;如图2所示,每个FasterNet Block有着不一样的下采样倍数,也就是可以输出不同尺度的特征信息;选择输出特征图大小为80×80、40×40和20×20的输入到颈部模块中。
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;拼接融合方式通过对通道数求和来丰富图像本身的特征数量,从而将两个特征图的通道宽度拼接起来形成新的特征图(N,C1+C2,H,W)具有以下公式:C=Concat(A,B)
其中Concat代表拼接操作,拼接融合将两个特征图A和B沿同一维度连接起来,得到新的特征C1+C2。
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块,如图3所示;GSConv组成如图4所示。该模块有着快速的检测速度和轻量化的体积,并能保证精度的准确性。
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;batchsize设置为64,学习速率为10-2。设置相应的训练次数,一般为100次,随着训练次数的增加,YOLOv8模型的损失函数曲线逐渐收敛,当损失函数曲线收敛并稳定时,YOLOv8模型训练到最优,并生成相应的权重文件;
S8:正负样本匹配和验证集验证:首先,是正负样本分配,采用的分配方法为TaskAlignedAssigner策略,其中正样本的选择是由目标分类和回归的加权值而得到,其公式如下:
t=sα×uβ
s为预测分数,u为iou值。通过预测框与标签重合的iou的加权可以得到对齐分数,对于每个标签,可以基于对齐分数直接选取最大的值为正样本。
Loss计算:Loss计算可以分为两个部分,分别为分类与回归:分类使用的是BCELoss,回归使用的是Distribution Focal Loss与Ciou过滤相结合。三个Loss采用的加权比例为:7.5:0.5:1.5。其中BCE Loss公式如下:
其中y为标签,σ为预测结果。DF Loss能使得网络能够快速聚焦到标签所在的位置,将标签所处地方的概率密度尽可能大。主要使用了交叉熵函数来优化标签左右的分布概率,DF Loss的公式如下:
L(Si,Si+1)=-((yi+1-y)log(Si)+(y-yi)log(Si+1))
其中Si为网络的sigmod激活函数输出,y为标签值。
其次,验证集验证过程:每训练一次,网络都会生成一个权重模型。通过验证集对训练好的权重模型进行验证,这将会得出一个预测精度。通过不断迭代次数,比较每次训练生成的权重文件所得出的预测精度,最终得到一个精度最高的权重,作为最后训练好的权重。
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块,如图2所示,卷积块由卷积,批量正则化(BN)和激活函数(SiLU)组成;SPPF模块是由卷积块和三个池化层融合所组成,SPPF模块是YOLOv8中使用的一个空间金字塔池化模块,其作用是在不改变特征图大小的情况下,对不同尺度的特征图进行池化操作,从而提高目标检测的准确率。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种轻量级水下目标实时检测方法,其特征在于,包括以下步骤:
S1:获取水下特定目标的初始数据集;
S2:对初始数据集进行增强;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNetBlock层叠加的结果;
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块;
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;
S8:正负样本匹配和验证集验证;
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
2.根据权利要求1所述的一种轻量级水下目标实时检测方法,其特征在于,所述步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311011314.7A CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311011314.7A CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116977844A true CN116977844A (zh) | 2023-10-31 |
Family
ID=88476576
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311011314.7A Pending CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116977844A (zh) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
| CN117764969A (zh) * | 2023-12-28 | 2024-03-26 | 广东工业大学 | 多视角成像系统及轻量化多尺度特征融合缺陷检测方法 |
| CN118015371A (zh) * | 2024-02-22 | 2024-05-10 | 中国民航大学 | 一种航空发动机损伤检测方法、装置、介质和设备 |
| CN119169404A (zh) * | 2023-12-18 | 2024-12-20 | 盐城工学院 | 基于改进CA注意力机制的YOLOv8目标检测系统 |
| CN119888640A (zh) * | 2024-12-26 | 2025-04-25 | 江苏科技大学 | 一种基于改进YOLOv8的轻量化船舶检测方法 |
| CN119992603A (zh) * | 2025-04-16 | 2025-05-13 | 佛山大学 | 基于改进YOLOv8网络的手腕图像骨折识别检测方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115063650A (zh) * | 2022-05-31 | 2022-09-16 | 中国科学院光电技术研究所 | 一种轻量型实时目标检测方法 |
| CN115147711A (zh) * | 2022-07-23 | 2022-10-04 | 河南大学 | 基于改进Retinanet的水下目标检测网络及方法 |
| CN115984681A (zh) * | 2022-12-14 | 2023-04-18 | 燕山大学 | 一种基于YOLOv5的水下目标检测方法 |
-
2023
- 2023-08-11 CN CN202311011314.7A patent/CN116977844A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115063650A (zh) * | 2022-05-31 | 2022-09-16 | 中国科学院光电技术研究所 | 一种轻量型实时目标检测方法 |
| CN115147711A (zh) * | 2022-07-23 | 2022-10-04 | 河南大学 | 基于改进Retinanet的水下目标检测网络及方法 |
| CN115984681A (zh) * | 2022-12-14 | 2023-04-18 | 燕山大学 | 一种基于YOLOv5的水下目标检测方法 |
Non-Patent Citations (2)
| Title |
|---|
| 孙同庆 等: "基于 MCA-YOLOv5s 的轻量化地铁站内行人检测", 《计算机系统应用》, 10 August 2023 (2023-08-10) * |
| 袁红春 等: "基于改进的Yolov8商业渔船电子监控数据中鱼类的检测与识别", 《大连海洋大学学报》, 30 June 2023 (2023-06-30), pages 533 - 541 * |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119169404A (zh) * | 2023-12-18 | 2024-12-20 | 盐城工学院 | 基于改进CA注意力机制的YOLOv8目标检测系统 |
| CN117764969A (zh) * | 2023-12-28 | 2024-03-26 | 广东工业大学 | 多视角成像系统及轻量化多尺度特征融合缺陷检测方法 |
| CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
| CN117593674B (zh) * | 2024-01-18 | 2024-05-03 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
| CN118015371A (zh) * | 2024-02-22 | 2024-05-10 | 中国民航大学 | 一种航空发动机损伤检测方法、装置、介质和设备 |
| CN119888640A (zh) * | 2024-12-26 | 2025-04-25 | 江苏科技大学 | 一种基于改进YOLOv8的轻量化船舶检测方法 |
| CN119992603A (zh) * | 2025-04-16 | 2025-05-13 | 佛山大学 | 基于改进YOLOv8网络的手腕图像骨折识别检测方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
| CN110598609B (zh) | 一种基于显著性引导的弱监督目标检测方法 | |
| CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
| CN113052006B (zh) | 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质 | |
| CN112434672B (zh) | 一种基于改进YOLOv3的海上人体目标检测方法 | |
| CN108334847B (zh) | 一种真实场景下的基于深度学习的人脸识别方法 | |
| CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
| CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
| CN111860494A (zh) | 图像目标检测的优化方法、装置、电子设备和存储介质 | |
| CN111144490A (zh) | 一种基于轮替知识蒸馏策略的细粒度识别方法 | |
| WO2017113232A1 (zh) | 一种基于深度学习的产品分类方法及装置 | |
| CN114743045B (zh) | 一种基于双分支区域建议网络的小样本目标检测方法 | |
| CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
| CN111881803B (zh) | 一种基于改进YOLOv3的畜脸识别方法 | |
| CN110598698A (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
| CN109033978A (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
| CN113095185B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
| CN117315752B (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
| CN115861715B (zh) | 基于知识表示增强的图像目标关系识别算法 | |
| CN112364747B (zh) | 一种有限样本下的目标检测方法 | |
| CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
| CN114998281B (zh) | 一种基于点集表示的精确缺陷检测方法和系统 | |
| CN111680705A (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
| CN114037666A (zh) | 一种数据集扩充和阴影图像分类辅助的阴影检测方法 | |
| CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |