[go: up one dir, main page]

CN117876901A - 一种基于无人机视觉感知的定点降落方法 - Google Patents

一种基于无人机视觉感知的定点降落方法 Download PDF

Info

Publication number
CN117876901A
CN117876901A CN202410055210.4A CN202410055210A CN117876901A CN 117876901 A CN117876901 A CN 117876901A CN 202410055210 A CN202410055210 A CN 202410055210A CN 117876901 A CN117876901 A CN 117876901A
Authority
CN
China
Prior art keywords
module
unmanned aerial
aerial vehicle
network
yolov5
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410055210.4A
Other languages
English (en)
Inventor
李永福
袁杰
黄鑫
黄龙旺
赵杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202410055210.4A priority Critical patent/CN117876901A/zh
Publication of CN117876901A publication Critical patent/CN117876901A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于无人机视觉与图像处理领域,涉及一种基于无人机视觉感知的定点降落方法,包括:无人机采集视频流,将视频流逐帧分解得到图像序列,并将图像序列发送给地面站;地面站对图像序列进行预处理,并根据改进的Yolov5检测模型对预处理后的图像序列进行检测,得到目标帧图像;地面站获取无人车的位置,计算目标帧图像的检测框中心点与目标帧图像中心点的偏移量,生成执行命令,并将偏移量、执行命令以及无人车的位置发送给无人机;无人机根据接收的数据执行降落,直至降落到无人车车顶;本发明通过改进的Yolov5目标检测模型,保证了无人机在执行定点降落任务过程中,在不同高度下对大、中、小目标检测模型的检测精度。

Description

一种基于无人机视觉感知的定点降落方法
技术领域
本发明属于无人机视觉与图像处理领域,涉及一种基于无人机视觉感知的定点降落方法。
背景技术
随着无人机(Unmanned aerial vehicle,UAV)的发展,搭载了视觉传感器的垂直起降(Vertical takeoff and landing,VTOL)无人机有着广泛的应用,如救援搜索、环境监测、交通流监控、物资运输等。这些应用场景无一不需要无人机具备精准定位的能力,传统的无人机定点降落方法通常依赖于全球定位系统(GPS),但不可避免的是,无人机在户外进行作业时,会出现GPS信号弱或GPS信号缺失的情况。在GPS信号失效的情况下,无人机的定位则需要依赖其他手段来实现精准定位。
随着深度学习和机器视觉的不断发展,目标检测算法作为视觉与图像处理领域中的关键技术,使得无人机实现自主定点精准降落得到了可能。无人机在动态场景下实现自主定点精准降落涉及到图像处理、通信传输、无人机控制以及机器学习等研究领域,其中通过对降落目标实现稳定、快速的检测,从而完成降落目标与无人机之间相对位置的计算和无人机控制。在智能交通系统(Intelligent Transportation System,ITS)中,巡逻无人机执行设定任务时,一方面可根据设定程序进行巡检任务;另一方面,当完成既定任务或需要续航时,利用视觉传感器获取降落平台的相对位置信息,从而实现自主精准降落至静止或移动的目标上实现回收或电能补给,可大幅度提高无人机的工作效率。
然而,经典的目标检测算法在处理多尺度变化和小目标检测时可能表现不佳,并且一些针对小目标检测的算法通常会引入大量的网络参数,影响检测速度和实时性。
发明内容
为解决以上现有问题,本发明提出了一种基于无人机视觉感知的定点降落方法,包括:
S1、无人机采集视频流,将视频流逐帧分解,得到图像序列,并将图像序列发送给地面站;
S2、地面站对图像序列进行预处理,并根据改进的Yolov5检测模型对预处理后的图像序列进行检测,得到目标帧图像;所述目标帧图像包括降落标志、降落标志的类别信息以及检测框中心点的位置信息;
S3、地面站获取无人车的位置,计算目标帧图像的检测框中心点与目标帧图像中心点的偏移量,生成执行命令,并将偏移量、执行命令以及无人车的位置发送给无人机;
S4、无人机根据偏移量、执行命令以及无人车的位置执行降落,直至降落到无人车车顶。
改进的Yolov5检测模型包括:Input层、改进的Backbone网络、改进的Neck网络以及改进的Head网络;改进的Backbone网络对原始Yolov5网络的改进包括:在原始Yolov5网络的Backbone网络的每个C3模块后添加一个CBAM模块,将原始Yolov5网络的Backbone网络的第一个卷积模块替换为Focus模块;其中,CBAM模块为卷积注意力模块。
改进的Neck网络对原始Yolov5网络的改进包括:在原始Yolov5网络的Neck网络中引入BiFPN;其中,BiFPN为双向特征金字塔网络。
原始Yolov5网络的Neck网络包括自底向上的特征融合阶段A1和自顶向下的特征融合阶段A2,自底向上的特征融合阶段A1包括:卷积模块、Upsample模块、Concat模块、C3模块;自顶向下的特征融合阶段A2包括:卷积模块、Concat模块、C3模块;
在原始Yolov5网络的Neck网络中引入BiFPN包括:A1阶段的Concat模块将A1阶段的Upsample模块的输出结果F1与Backbone网络中CBAM模块输出的与F1同尺寸的输出结果进行融合;A2阶段的最后一个Concat模块将A2阶段的卷积模块的输出结果F2和A1阶段的卷积模块输出的与F2同尺寸的输出结果进行融合,A2阶段的其余Concat模块将A2阶段的的卷积模块的输出结果F3、Backbone网络中CBAM模块输出的与F3同尺寸的输出结果以及A1阶段的卷积模块输出的与F3同尺寸的输出结果进行融合;其中,Upsample为上采样。
改进的Neck网络对原始Yolov5网络的改进还包括:将自底向上的特征融合阶段A1的卷积模块替换为DWConv模块;DWConv模块包括:DWConv层、BN层、SiLU激活层;其中,DWConv为深度可分离卷积。
改进的Yolov5检测模型对原始Yolov5网络的改进还包括:在原始Yolov5网络的Head网络中添加一个小目标检测层P2,在原始Yolov5网络的Neck网络中添加一个上采样特征融合模块,所述上采样特征融合模块包括:DWConv模块、Upsample模块、Concat模块、C3模块以及CBAM模块;上采样特征融合模块将A1阶段中最后一个C3模块输出的特征图和Backbone网络的第一个CBAM模块输出的特征图进行融合,得到160×160尺寸的输出特征图,并将输出特征图分别输入A2阶段的第一个卷积模块和小目标检测层P2;其中,A1为自底向上的特征融合,A2为自顶向下的特征融合,Upsample为上采样,DWConv为深度可分离卷积。
改进的Yolov5检测模型的训练过程包括:
S21、构建数据集,将数据集输入Input层进行预处理,得到新数据集和锚框;
S22、将新数据集中的图片输入改进的Backbone网络提取特征,得到不同尺度的特征图;
S23、将不同尺度的特征图输入改进的Neck网络进行特征融合,得到不同尺度的特征融合图;
S24、将不同尺度的特征融合图输入改进的Head网络进行预测,得到多个预测结果;
S25、根据预测结果和锚框计算损失函数值,根据损失函数值更新模型参数,当达到预先设定的最大迭代次数时,得到训练好的改进的Yolov5检测模型。
构建数据集包括:根据无人机底端部署的摄像头模组采集视频流,将视频流逐帧分解,得到图像序列;按照VOC2017数据集的格式对图像序列中的图像进行处理;使用标注工具对处理后的图像中的降落标志进行标注,得到每张图像的标注文件;将图像与标注文件进行组合,得到数据集。
Input层对数据集进行预处理包括:利用Mosaic数据增强方法对数据集进行数据增强,得到新数据集;通过k-means++算法对新数据集的标注文件进行聚类,得到锚框。
改进的Yolov5检测模型的损失函数包括:分类损失函数Lclass、矩形框损失函数LCIOU以及置信度损失函数Lobject
有益效果:
1、本发明通过在每个C3模块后引入CBAM注意力机制,由此提高网络的特征提取能力;对于低层级的CBAM模块,增强了低级特征的表达能力,提高边界框定位的准确性;对于中层级的CBAM模块,可以自适应地学习中层特征的通道关联性,将更多的注意力放在具有高语义重要性的通道上,增强语义信息的表达能力和目标检测的准确性;对于高层级的CBAM模块,则加强了全局上下文信息和目标的语义一致性;2、本发明考虑到在Neck网络增加上采样和C3操作后,小目标在特征图中信息量较少,其细节和上下文信息较模糊,因此添加的CBAM可以通过通道注意力和空间注意力机制增强小目标特征的表达能力和空间定位准确性,同时缓解小目标与背景之间的比例失衡问题;3、本发明在Neck网络中将卷积操作替换为DWConv操作,使输入网络中的图片能在不更改输出特征图大小的情况下,减少参数总数和计算复杂度,更好地保留空间信息,避免信息的模糊化,提升了网络检测的实时性;4、本发明增添了小目标检测层P2,使得网络可以在四种不同大小尺度范围对降落标志进行精准检测,以助于当无人机在高空搜索目标或进行降落的过程中,所检测跟踪到的降落标志尺度变化过大,避免目标丢失的情况;5、本发明通过在Neck网络中采用BiFPN特征金字塔网络结构,增强了模型在多个尺度上的定位能力;BiFPN增加了残差连接操作,移除没有进行融合的单边输入节点,减少了计算量的同时平衡了不同尺度的特征信息,加强了网络特征融合的能力。
附图说明
图1为本发明实施例提供的无人机定点降落方案的整体流程图;
图2为本发明实施例提供的网联无人系统空地协同信息导向流程图;
图3为本发明实施例提供的改进的Yolov5网络模型结构示意图;
图4为本发明实施例提供的Mosaic数据增强方式示意图;
图5为本发明实施例提供的初始设定的锚框示意图;
图6为本发明实施例提供的Focus结构的切片操作示意图;
图7为本发明实施例提供的模型训练完成后的损失函数以及精度曲线;
图8为本发明实施例提供的模型训练后与原网络的精度对比图;
图9为本发明实施例提供的改进模型对降落标志的检测效果;
图10为本发明实施例提供的视觉传感器图像中心点与降落标志框中心点之间的距离作为偏移量示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本方法系统总体流程包括:首先,无人机和无人车地面站进行通信连接;若连接成功后,无人机会开启视觉传感器并实时向地面站传输所拍摄到的图像,然后无人车地面站向无人机发送起飞指令,当无人机起飞后,无人车地面站再向无人机发送跟踪飞行指令,跟随无人车协同运动,当无人机接收到降落指令时,无人机将采集的视频流逐帧分解,得到图像序列,并将图像序列发送给地面站;地面站对图像序列进行预处理,并根据改进的Yolov5检测模型对预处理后的图像序列进行检测,得到目标帧图像;所述目标帧图像包括降落标志、降落标志的类别信息以及检测框中心点的位置信息;地面站获取无人车的位置,计算目标帧图像的检测框中心点与目标帧图像中心点的偏移量,生成执行命令,并通过WIFI无线传输模块将偏移量、执行命令以及无人车的位置打包发送给无人机;无人机解析地面站发送的回传数据,得到偏移量、执行命令以及无人车的位置,并根据偏移量、执行命令以及无人车的位置执行降落,直至降落到无人车车顶。
如图2所示,网联无人系统空地协同信息导向流程包括:该系统由无人车以及无人机两大系统构成,无人机和无人车通过无线通信模块进行通信,使整个系统得以稳定运行。所述无人机备有无线通信模块和视觉传感器,其中无线通信模块用于接收由无人车发送的信息,视觉传感器可在空中检测降落标志。
步骤1、制作无人机定点降落标志数据集:
本发明针对无人机自主降落目标检测技术,在无人机底端部署摄像头模组,使用无人机采集了低空拍摄的降落标志视频,并逐帧分解,将视频流转化为图像序列,共得到了4000张分辨率为1080×720图像,其中正样本(即含降落标志)有3500张,负样本(即未含降落标志)有500张,以0001.jpg、0002.jpg、0003.jpg、…、4000.jpg的方式按照顺序对所得到的图片进行命名。在得到所需的图片后,按照VOC2017数据集的格式对图片进行处理;使用Labelimg标注工具对图片中的降落标志进行标注,在打标签时遵守以下几个原则:
1、贴边原则,标注框需紧贴目标物体的边缘进行画框标注;
2、重叠原则,当多个标志物体重叠且遮挡小于一半,允许画框有重叠的部分;
3、独立原则,每一个目标物体均需要单独拉框;
4、边界原则,确保框坐标在图像边界内,防止载入数据出现越界报错;
5、目标原则,对于图像中人眼能分辨的目标物体都需进行标注;
6、不框原则,图像模糊不清、光线太暗和曝光过度的不框,不符合项目特殊规定的不框。
每标注一张图片,便会生成一份对应的标注txt文件,在完成所有图片的标注后,便得到与PASCAL VOC(The PASCAL Visual Object Classes)数据集格式相同的自制数据集,并将自制数据集按照3:1:1的比例分为训练集,验证集和测试集。
步骤2、搭建基于改进的Yolov5的目标检测网络模型。
图3是本发明所述的改进的Yolov5网络模型结构示意图。整个网络分为四个部分:Input、Backbone、Neck和Head。
在Input中引入Mosaic数据增强的方法和基于K-means++的自适应锚框计算。
如图4所示,Mosaic数据增强是通过对数据集中的任意四张原图进行随机缩放、裁剪和排布,重新拼接为一张原始大小的图,从而增加训练时的数据量;
考虑到在无人机降落过程中,目标尺度变化大,采用K-means++聚类算法对目标数据集的样本生成锚框anchor尺寸,从而生成更符合自制降落标志数据集中不同目标尺度样本的anchor;K-means++算法分为以下步骤:
S1、从数据集中随机选取一个样本作为初始聚类的中心C1
S2、对于每个样本点x,首先计算它与当前已经选择的聚类中心之间的最短距离,即与最近的一个聚类中心的欧几里得距离,用D(x)表示,Xi和Yi表示两个样本点之间的距离差值:
S3、计算每个样本被选为下一个聚类中心的概率P(x),公式如下所示,选择概率P(x)最大的样本点作为下一个聚类中心,D(x)越大的点被选为下一个聚类中心的概率越大:
S4、重复步骤S2、S3,直到找到K个聚类中心;
S5、对选择的聚类中心进行聚类;K个聚类中心被分成K个集合,每个样本被分成最近的聚类中心所属的集合;将每个集合中所有样本的平均值计算为新的聚类中心,并将每个样本细分到距离新聚类中心最近的集合中,然后,重新计算每个集合中样本的平均值;重复前面的操作,直到聚类结果收敛或达到最大迭代次数,则这K个聚类中心即为新锚框大小。
如图5所示,由于无人机从高空降落的过程中,目标的尺寸变化大,所以本发明的数据集所初始设定的锚框大小分为了四个尺寸范围,如下形式:
-[5,6,8,14,15,11]
-[10,13,16,30,33,23]
-[30,61,62,45,59,119]
-[116,90,156,198,373,326]
预设边框先大致在可能的位置“框”出目标,然后再在这些预设边框的基础上进行调整。自适应锚框计算,会通过自己设定目标宽高的初始值,回归计算目标真实宽高与初始宽高的偏移量,通过找出K-means++方法得到的初始锚框和真实框两者间的差距,反向更新,迭代网络参数,从而确定最佳锚定框尺寸;
在Backbone中利用Focus、C3、CBAM和SPPF模块的组合来提取网络输入图像的特征:
Focus模块:如图6所示,Focus对图片进行切片操作,把数据切分为4份,每份数据都是相当于2倍下采样得到的,并且4份数据互补,信息完整,拼接起来的图片相对于原先的RGB三通道模式变成了12个通道,最后将得到的新图片经过卷积操作最终得到了没有信息丢失情况下的二倍下采样特征图。
C3模块:C3模块由三个标准卷积层(Conv+BN+SiLU)以及多个Bottleneck模块组成。其中的标准卷积层对输入的特征图执行卷积、归一化、激活函数操作,并结合Bottleneck模块残差连接方式,完成特征提取的过程。
CBAM模块:CBAM模块(Convolutional Block Attention Module)是一种即插即用的,结合了空间注意力SAM(Spatial Attention Module)和通道注意力CAM(ChannelAttention Module)的注意力机制模块。本发明所述的网络在每个C3特征提取模块之后加入CBAM模块可以使得网络更加关注目标的信息,增强网络特征提取的能力。
通道注意力CAM模块将特征图分别经过宽度和长度的全局最大池化操作和全局平均池化操作,并由多层感知器(MLP,Multi-Layer Perceptron)计算注意力权重,再通过sigmoid激活操作,最终生成通道注意力从而使网络关注关键的信息,其过程如下所示:
其中,F表示输入的特征图,AvgPool表示平均池化操作,MaxPool表示最大池化操作,σ表示sigmoid函数,W0和W1表示MLP的权重尺寸,表示被平均池化的特征和被最大池化的特征。
空间注意力SAM模块在通道注意力模块输出的特征图作为输入,首先采取了基于通道的全局最大池化操作和全局平均池化操作,然后做Concat拼接操作,并采用卷积操作进行压缩,降维至一个通道channel,最后再利用激活函数进行加权求和,获得空间注意力特征图,从而重点关注空间位置信息。
其中,F表示输入的特征图,AvgPool表示平均池化操作,MaxPool表示最大池化操作,表示通道注意力权重的特征图被平均池化后的特征和被最大池化的特征,σ表示sigmoid函数,f7×7表示一个卷积核尺寸为7×7大小的卷积操作。
SPPF模块:SPPF(Spatial Pyramid Pooling-Fast)是一种空间金字塔池化操作模块;SPPF模块的作用是在不改变特征图输入大小的情况下,对不同尺度的特征图进行池化操作,从而提高检测的准确性和速度;具体而言,通过将输入特征图划分为不同尺度的子区域,并对每个子区域进行池化操作,以提取不同尺度的特征,然后再将这些特征与原始特征图按通道进行拼接操作,最终得到融合后的特征图。
在Neck中采用深度可分离卷积(Depthwise separable convolution,DWConv)替换Conv做卷积操作,DWConv由两部分卷积组成的卷积网络:深度卷积(DepthwiseConvolution)和逐点卷积(Pointwise Convolution);DWConv先将特征图进行深度卷积操作,使得每一个输入的通道之间独立进行卷积操作,保持输入特征图的通道数;此外逐点卷积使用1×1的卷积核对深度卷积的结果进行卷积操作,其目的是为了将通道间的信息进行整合和交互,从而使网络学习到不同通道之间的关联性。
同时,在Neck中采用双向特征金字塔网络(Bidirectional Feature PyramidNetwork,BiFPN)特征融合结构。该结构通过FPN将特征图的深层语义传到浅层,增强多个尺度上的语义表达,又通过PAN把浅层的定位信息传导到深层,增加残差连接操作,移除没有进行融合的单边输入节点,减少了计算量的同时加强网络特征融合的能力。
此外,在Neck部分,增加上采样操作,由此获得更大的特征图用于捕获小目标,利用Concat模块将上采样层输出的80×80像素尺寸的特征图与Backbone网络中的CBAM模块输出的同尺寸特征图进行融合,将融合后的特征图输入C3模块,再将C3模块的输出特征图输入CBAM模块,得到一个160×160尺寸大小的特征图。
最后在Head部分添加了小目标检测层来预测160×160尺寸大小的特征图,用以处理无人机在高空时采集到的目标分辨率小且尺度变化大导致的无法精准识别问题;针对Head不同尺度的检测层,设计分类损失函数(Lclass)、矩形框损失函数(LCIOU)以及置信度损失函数(Lobject)用以训练时模型的反向传播学习,对模型的权重参数进行优化,使其更好地拟合训练数据,通过不断的迭代优化损失,提升模型的检测性能。
1、对于分类损失函数采用二元交叉熵损失BCE,用于计算锚框与对应的标定分类是否匹配,如下式所示:
上式(5)、(6)中,N代表类别的总个数;xi代表当前类别的预测值;yi表示经过Sigmoid()激活函数后得到的当前类别的概率;yi *代表当前类别的真实值,大小为0或1;最后Lclass表示的是分类损失。
2、对于矩形框损失函数,采用CIOU loss来衡量所检测的目标矩形框与真实矩形框之间的损失:
上式(7)、(8)、(9)中,设某个格子预测的矩形框为(xp,yp,wp,hp),则该格子对应的目标矩形框为(xl,yl,wl,hl);υ是目标矩形框和真实矩形框的宽高比相似度,ρ是两框之间的中心点距离,c为两框的最小包围矩形的对角线长度,α是υ的影响因子,IOU则表示两框相交区域面积与相并部分面积的比值,称为交并比;由此可以得到CIOU loss的计算公式为:
3、对于置信度损失函数,与分类损失函数同理采用二元交叉熵(BCE)损失函数来表示,如下式所示:
上式(11)、(12)中,N代表类别的总个数;xp代表当前目标的置信度预测分数;yp表示经过Sigmoid()激活函数后得到的置信度的概率;yp *代表当前类别的真实值,大小为0或1;最后Lobject表示的是置信度损失。
最终模型在训练时通过上述损失函数的作用,可以最小化预测结果与真实结果之间的误差,从而使得模型能够更准确地预测未知数据的结果。
步骤3、使用VisDrone2019数据集对网络模型进行训练。
在训练过程中,网络的深度depth_multiple设置为0.33,宽度width_multiple设置为0.50,前向计算及反向传播次数epochs设置为1000,每次送入网络中训练样本的数量batch-size设置为4,初始学习率设置为10-4;输入图像均选用640×640×3的正方形图像,通过多个卷积层对原图整体状态信息学习,从而缩小图像的尺度并增加图像的通道得到特征图。通过上采样和4个尺度的变换来放大特征图,使其转化为高分辨率图像进行预测和标记。
最终的训练结果如图7所示,包括训练集、验证集、测试集的各项评价指标的结果,当完成所设定的迭代次数300后,损失函数已然收敛;其中相关Loss损失值是由步骤2中所提到的损失函数得以计算的,此外的评价指标还涉及精确率Precision、召回率Recall、平均准确率(AP,Average Precision),具体的计算公式如下:
精确率Precision:
召回率Recall:
平均准确率(AP,Average Precision):
在式(13)和式(14)中TP表示样本的真实类别是正例,且模型的预测结果也是正例;FP表示样本的真实类别是负例,但模型的预测结果是正例;FN表示样本的真实类别是负例,模型的预测结果也是负例;TP+FP则表示所有的预测样本;TP+FN表示所有的先验样本。在式(15)中,P(R)表示P-R曲线,表示不同IOU阈值下计算精度和召回率的值,AP值的大小表现为P-R曲线的面积大小。P-R(Precision-Recall)曲线是一种用于评估二分类模型性能的图形表示方法,它显示了在不同阈值下模型的精确率(Precision)和召回率(Recall)之间的关系。
将改进的模型与原Yolov5s模型进行比较,如图8所示,其中涉及到VisDrone2019数据集中的类别有pedestrian(行人)、people(人)、bicycle(自行车)、car(汽车)、van(面包车)、truck(卡车)、tricycle(三轮车)、awning-tricycle(遮阳三轮车)、bus(公交车)、motor(摩托车),最终改进的模型精度的mAP达到了40.5%,相比Yolov5s原型精度提高了5.4%,得到可用于降落标志检测的模型。
步骤4、将改进所得到的训练模型运用于空地协同实验。
本发明在空地协同实验中,首先将改进的网络用自制数据集进行重新训练,实现对特定降落标志的检测功能,具体的训练过程和参数设置与步骤三相同,最后在得到权重模型后,将该模型载入车载地面工作站,进行对降落标志的实时检测。然后获取降落点的目标框中心点与视觉传感器图像中心点之间的像素偏差,通过该像素偏差信号作为无人机PID控制算法的输入信号由此来修正自身位置,实现定位到目标点正上方并进行垂直降落,修正流程及具体的实验步骤如下:
1、将训练好的Yolov5目标检测模型加载至随车的地面站中;
2、无人机起飞后,通过socket的TCP传输协议将无人机视觉传感器所采集到的图像实时传输给地面站;
3、地面站根据训练好的Yolov5目标检测模型,对实时收到的图像进行检测,并将检测结果实时显示在地面站的控制面板上,如图9所示,左图为地面站收到的原始图像,右图为地面站对图像进行检测识别后的图像;
4、如图10所示,当无人机采集到图像中检测到降落标志后,根据位置坐标计算视觉传感器图像中心点与降落标志框中心点之间的距离作为偏移信号,同时设定偏移量阈值,当图像中心点与降落标志中心点之间的距离大于该阈值时,地面工作站向车辆发送该偏移信号;此外,无人机偏移方向由视觉传感器图像中心点与降落标志中心点的差值符号来确定的。设视觉传感器中心的坐标值为(X1,Y1),降落标志框的X轴坐标值为(X2,Y2),对于X轴而言,若X1-X2<0,则设置无人机修正路线为向右修正,若X1-X2>0,则修正路线为向左修正。同理,Y轴的偏移方向信号,Y1-Y2<0,则设置无人机修正路线为向前修正,若Y1-Y2>0,则修正路线为向后修正。
5、地面站将偏移信息封装为数据帧发送至无人机机载电脑,其中数据帧封装规则应以无人机的控制信息接口为基准。当无人机收到偏移信号后,执行定点降落的指令,通过运行机载端的控制代码,将其接收的偏差信号作为无人机速度控制接口的输入,从而来控制无人机前后左右的飞行速度,修正机身与降落标志之间的相对位置误差。
需要说明的是,无人机视频与本地主机图像处理模型的通信链接采用socket套接字方式进行图像与信息的传输,图像的socket传输协议为TCP协议,数值回传时也采用TCP协议进行精确传输。此外无人机模块采集的视频均切割成单帧图,是以图片而非视频流的形式进行通信传输的。
本说明书中的每个模块均采用顺序递进的方式进行叙述,实验参数与数据准备可作参考,具体参数优化可根据服务器以及硬件设备进行适当的调整,本领域普通技术人员可以将上述实施例的全部或者部分步骤通过集成在硬件设备上来完成,也可以通过程序指令来控制相关的硬件完成,所述程序可以存储于一种计算机可读介质中。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于无人机视觉感知的定点降落方法,其特征在于,包括:
S1、无人机采集视频流,将视频流逐帧分解,得到图像序列,并将图像序列发送给地面站;
S2、地面站对图像序列进行预处理,并根据改进的Yolov5检测模型对预处理后的图像序列进行检测,得到目标帧图像;所述目标帧图像包括降落标志、降落标志的类别信息以及检测框中心点的位置信息;
S3、地面站获取无人车的位置,计算目标帧图像的检测框中心点与目标帧图像中心点的偏移量,生成执行命令,并将偏移量、执行命令以及无人车的位置发送给无人机;
S4、无人机根据偏移量、执行命令以及无人车的位置执行降落,直至降落到无人车车顶。
2.根据权利要求1所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Yolov5检测模型包括:Input层、改进的Backbone网络、改进的Neck网络以及改进的Head网络;改进的Backbone网络对原始Yolov5网络的改进包括:在原始Yolov5网络的Backbone网络的每个C3模块后添加一个CBAM模块,将原始Yolov5网络的Backbone网络的第一个卷积模块替换为Focus模块;其中,CBAM模块为卷积注意力模块。
3.根据权利要求2所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Neck网络对原始Yolov5网络的改进包括:在原始Yolov5网络的Neck网络中引入BiFPN;其中,BiFPN为双向特征金字塔网络。
4.根据权利要求3所述的一种基于无人机视觉感知的定点降落方法,其特征在于,原始Yolov5网络的Neck网络包括自底向上的特征融合阶段A1和自顶向下的特征融合阶段A2,自底向上的特征融合阶段A1包括:卷积模块、Upsample模块、Concat模块、C3模块;自顶向下的特征融合阶段A2包括:卷积模块、Concat模块、C3模块;
在原始Yolov5网络的Neck网络中引入BiFPN包括:A1阶段的Concat模块将A1阶段的Upsample模块的输出结果F1与Backbone网络中CBAM模块输出的与F1同尺寸的输出结果进行融合;A2阶段的最后一个Concat模块将A2阶段的卷积模块的输出结果F2和A1阶段的卷积模块输出的与F2同尺寸的输出结果进行融合,A2阶段的其余Concat模块将A2阶段的的卷积模块的输出结果F3、Backbone网络中CBAM模块输出的与F3同尺寸的输出结果以及A1阶段的卷积模块输出的与F3同尺寸的输出结果进行融合;其中,Upsample为上采样。
5.根据权利要求4所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Neck网络对原始Yolov5网络的改进还包括:将自底向上的特征融合阶段A1的卷积模块替换为DWConv模块;DWConv模块包括:DWConv层、BN层、SiLU激活层;其中,DWConv为深度可分离卷积。
6.根据权利要求2所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Yolov5检测模型对原始Yolov5网络的改进还包括:在原始Yolov5网络的Head网络中添加一个小目标检测层P2,在原始Yolov5网络的Neck网络中添加一个上采样特征融合模块,所述上采样特征融合模块包括:DWConv模块、Upsample模块、Concat模块、C3模块以及CBAM模块;上采样特征融合模块将A1阶段中最后一个C3模块输出的特征图和Backbone网络的第一个CBAM模块输出的特征图进行融合,得到160×160尺寸的输出特征图,并将输出特征图分别输入A2阶段的第一个卷积模块和小目标检测层P2;其中,A1为自底向上的特征融合,A2为自顶向下的特征融合,Upsample为上采样,DWConv为深度可分离卷积。
7.根据权利要求1所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Yolov5检测模型的训练过程包括:
S21、构建数据集,将数据集输入Input层进行预处理,得到新数据集和锚框;
S22、将新数据集中的图片输入改进的Backbone网络提取特征,得到不同尺度的特征图;
S23、将不同尺度的特征图输入改进的Neck网络进行特征融合,得到不同尺度的特征融合图;
S24、将不同尺度的特征融合图输入改进的Head网络进行预测,得到多个预测结果;
S25、根据预测结果和锚框计算损失函数值,根据损失函数值更新模型参数,当达到预先设定的最大迭代次数时,得到训练好的改进的Yolov5检测模型。
8.根据权利要求7所述的一种基于无人机视觉感知的定点降落方法,其特征在于,构建数据集包括:根据无人机底端部署的摄像头模组采集视频流,将视频流逐帧分解,得到图像序列;按照VOC2017数据集的格式对图像序列中的图像进行处理;使用标注工具对处理后的图像中的降落标志进行标注,得到每张图像的标注文件;将图像与标注文件进行组合,得到数据集。
9.根据权利要求7所述的一种基于无人机视觉感知的定点降落方法,其特征在于,Input层对数据集进行预处理包括:利用Mosaic数据增强方法对数据集进行数据增强,得到新数据集;通过k-means++算法对新数据集的标注文件进行聚类,得到锚框。
10.根据权利要求7所述的一种基于无人机视觉感知的定点降落方法,其特征在于,改进的Yolov5检测模型的损失函数包括:分类损失函数Lclass、矩形框损失函数LCIOU以及置信度损失函数Lobject
CN202410055210.4A 2024-01-12 2024-01-12 一种基于无人机视觉感知的定点降落方法 Pending CN117876901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410055210.4A CN117876901A (zh) 2024-01-12 2024-01-12 一种基于无人机视觉感知的定点降落方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410055210.4A CN117876901A (zh) 2024-01-12 2024-01-12 一种基于无人机视觉感知的定点降落方法

Publications (1)

Publication Number Publication Date
CN117876901A true CN117876901A (zh) 2024-04-12

Family

ID=90589985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410055210.4A Pending CN117876901A (zh) 2024-01-12 2024-01-12 一种基于无人机视觉感知的定点降落方法

Country Status (1)

Country Link
CN (1) CN117876901A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119027639A (zh) * 2024-10-30 2024-11-26 中国科学院长春光学精密机械与物理研究所 一种红外序列图像的目标质心检测方法及系统
CN119850927A (zh) * 2025-01-07 2025-04-18 广东工业大学 一种智能侦察装备的多模态目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119027639A (zh) * 2024-10-30 2024-11-26 中国科学院长春光学精密机械与物理研究所 一种红外序列图像的目标质心检测方法及系统
CN119027639B (zh) * 2024-10-30 2025-02-18 中国科学院长春光学精密机械与物理研究所 一种红外序列图像的目标质心检测方法及系统
CN119850927A (zh) * 2025-01-07 2025-04-18 广东工业大学 一种智能侦察装备的多模态目标检测方法

Similar Documents

Publication Publication Date Title
JP7430277B2 (ja) 障害物検出方法及び装置、コンピュータデバイス、並びにコンピュータプログラム
EP3822852B1 (en) Method, apparatus, computer storage medium and program for training a trajectory planning model
CN112088380B (zh) 图像分割
EP3690744B1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
US12023812B2 (en) Systems and methods for sensor data packet processing and spatial memory updating for robotic platforms
US12259694B2 (en) Systems and methods for sensor data processing and object detection and motion prediction for robotic platforms
CN117011728B (zh) 基于改进YOLOv7的无人机航拍目标检测方法
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
US12340482B2 (en) Systems and methods for generating object detection labels using foveated image magnification for autonomous driving
CN111292366A (zh) 一种基于深度学习和边缘计算的视觉行车测距算法
CN117876901A (zh) 一种基于无人机视觉感知的定点降落方法
JP2021196632A (ja) 予測装置、予測方法、プログラムおよび車両制御システム
US20250166352A1 (en) Methods and systems of sensor fusion in cooperative perception systems
CN118107822A (zh) 一种基于无人机的复杂环境搜救方法
US12456333B2 (en) Traffic hand signal detection system and method thereof
JP2022035033A (ja) 情報処理システム、情報処理方法、プログラムおよび車両制御システム
US12079970B2 (en) Methods and systems for semantic scene completion for sparse 3D data
CN112417973A (zh) 一种基于车联网的无人驾驶系统
CN109002037A (zh) 一种基于深度学习的多机器人协同路径跟随方法
CN116909317B (zh) 基于终端车联网的无人机控制系统及方法
CN116092040A (zh) 一种车道线预测和车道线缺陷检测方法
CN119903336A (zh) 提供用于训练数据的注释的感知模型的计算机实现的方法
CN117706942A (zh) 一种环境感知与自适应驾驶辅助电子控制方法及系统
CN113449692A (zh) 一种基于无人机的地图车道信息更新方法及其系统
CN117593711A (zh) 车辆采集图像敏感信息处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination