CN120564151A - 基于协调多尺度特征增强网络的驾驶场景多任务感知方法 - Google Patents
基于协调多尺度特征增强网络的驾驶场景多任务感知方法Info
- Publication number
- CN120564151A CN120564151A CN202510690027.6A CN202510690027A CN120564151A CN 120564151 A CN120564151 A CN 120564151A CN 202510690027 A CN202510690027 A CN 202510690027A CN 120564151 A CN120564151 A CN 120564151A
- Authority
- CN
- China
- Prior art keywords
- task
- module
- layer
- features
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,构建一种基于协调多尺度特征增强网络CMFANet的多任务网络模型,首先共享骨干网络层采用混合增强策略,从输入图像中提取多层次的特征表征,然后任务颈层采用特征融合策略处理和完善提取的特征,整合多尺度特征表征,得到融合特征,最后任务头接收融合后的特征,并根据各个任务的要求生成最终输出,实现对交通场景的全面感知。本发明的方法所构建的CMFANet模型能够在资源受限的环境中同时执行交通对象检测、可驾驶区域分割和车道线分割,该模型兼顾了效率和准确性,同时满足了实时应用的要求,能够同时解决交通目标检测、可行驶区域分割和车道线检测等问题,实现对交通场景的全面感知。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法。
背景技术
随着深度学习的快速发展,计算机视觉技术在自动驾驶领域的应用日益广泛。作为自动驾驶系统的重要组成部分,全景驾驶感知系统是确保车辆安全可靠运行的基础。这些系统利用车载传感器(如激光雷达或摄像头)提取重要的环境信息,为车辆控制和决策提供支持。
由于成本低、易于部署,基于摄像头的感知系统备受关注。基于摄像头的感知系统处理车载摄像头捕捉到的图像,从而提供对周围驾驶环境的全面了解。这反过来又能为自动驾驶系统提供实时感知和决策支持。在自动驾驶中,全景驾驶感知系统主要执行三项核心任务:交通对象检测、可驾驶区域分割和车道线检测。交通物体检测可识别道路物体,支持避障和路径规划。可驾驶区域划分通过语义划分来定义当前驾驶区域和备选车道,从而优化路径选择。车道线检测可定位和跟踪车道标记,确保车辆正确对齐。这些任务相互关联,协同工作,以建立全面的环境意识,确保自动驾驶系统的安全和效率。
目前,针对每项任务都提出了许多方法。在交通对象检测方面,已经开发出了两阶段的Faster R-CNN和单阶段的YOLO系列等方法。在可驾驶区域分割方面,常用的有PSPNet和DeeplabV3+,而车道线检测方法有SCNN、AdNet、ENet-SAD、PointLaneNet和MFIALane。这些针对特定任务的方法在各自领域都取得了可喜的成果。
由于车载设备的计算资源有限,为每项任务独立设计网络显然是不可行的。因此,多任务网络成为一种更实用的解决方案。这些网络共用一个主干网络来提取语义信息,同时采用颈部网络进行特征融合,融合后的特征随后传递给特定任务的头部以完成任务。这种设计减少了计算开销,同时大大加快了推理速度,满足了现实世界的应用要求。现有技术中,YOLOP采用编码器-解码器架构,利用单个编码器进行特征提取,并利用三个独立的解码器处理不同的任务。在YOLOP设计的基础上,HybridNet采用BiFPN特征融合机制,进一步提高了模型的性能。
尽管上述方法的性能令人满意,但它们仍然存在一些局限性。例如,YOLOP和HybridNets都依赖于基于锚点的方法来检测交通对象,这不仅会增加推理时间,还会影响模型的泛化能力。此外,这些方法通常利用现有的标准化骨干网络,这些网络主要针对单一任务应用进行了优化。因此,它们很难有效地适应多任务系统中不同任务的不同要求。因此,开发一种轻便、高效、高精度且通用性更强的多任务网络已成为一个重要的研究领域。
发明内容
为解决上述技术问题,本发明提供了一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,能够同时解决交通目标检测、可行驶区域分割和车道线检测等问题,从而实现对交通场景的全面感知。
本发明采用的技术方案为:一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,具体步骤如下:
S1、构建一种基于协调多尺度特征增强网络CMFANet的多任务网络模型;
所述模型采用基于协调多尺度特征增强网-络CMFANet架构,即模型采用编码器-解码器架构。所述模型包括:一个共享的骨干网络层、三个独立的任务颈层和三个独立的任务头。
其中,编码器包括一个共享骨干网络层和三个独立的任务颈层,解码器包括三个不同的独立任务头。所述三个独立任务即交通对象检测、可驾驶区域分割和车道线检测任务。
S2、基于步骤S1构建的模型,共享骨干网络层采用混合增强策略,从输入图像中提取多层次的特征表征;
S3、基于步骤S2,三个独立的任务颈层采用特征融合策略处理和完善步骤S2提取的特征,整合多尺度特征表征,得到融合特征;
S4、基于步骤S3,三个独立的任务头接收步骤S3融合后的特征,并根据各个任务的要求生成最终输出,实现对交通场景的全面感知。
进一步地,所述步骤S2具体如下:
所述共享骨干网络层包括:1个Conv层、2个DCN层、4个混合聚合网络Manet、2个SCDown模块、1个SPPF模块和1个PSA模块。
其中,DCN层用于处理低层信息;混合聚合网络Manet即骨干网络层中的上下文通信模块;
所述DCN层包括:1个可变形卷积层、1个批归一化层和1个SiLU激活函数层。DCN层的计算过程表达式如下:
Xout=Si(BN(DConv(Xin))
其中,Xin表示输入特征,Xout表示输出特征,DConv表示可变形卷积,BN表示批归一化,Si表示SiLU激活函数。
所述混合聚合网络Manet包括三个分支,具体如下:
1)Conv分支,使用1×1标准卷积捕捉不同信道之间的相关性;
2)深度可分离卷积分支,提取空间和信道信息;
首先通过深度卷积Depthwise让每个输入通道单独用K×K卷积计算,再用逐点卷积Pointwise的1×1卷积混合所有通道并调整输出通道数。
3)C2f分支,使用C2f模块,用于增强特征的表现力;
主分支通过多个Bottleneck结构提取深层特征,同时分流支路保留部分输入特征直接传递到输出端;通过分层融合将不同Bottleneck阶段的输出特征与初始分流特征进行通道拼接,并利用1×1卷积控制通道数实现轻量化设计。
最后,将所有三个分支的输出进行合并,并通过1×1标准卷积来调整信道维度,得到高维融合特征。
其中,Manet的计算过程表达式如下:
其中,x1表示输入到Manet中的特征经过一次常规卷积层后的中间特征,Xin-Manet表示Manet输入特征,xconv表示经过Conv分支的中间特征,xDS表示经过深度可分离卷积的中间特征,xC2f表示经过C2f分支的中间特征,Xout-Manet表示Manet输出特征,DS表示深度可分离卷积分支,DWConv表示深维卷积,PWConv表示点维卷积,C2f表示C2f模块分支。
Manet中C2f分支的计算过程表达式如下:
其中,x2,x3表示x1经过按通道数划分后的特征,Bottle表示Bottle模块,表示经过第n层Bottleneck模块的中间特征;Split和Cat操作在通道维度上进行。
在处理高级语义信息时,使用SCDown模块实现快速降采样,SPPF模块整合多尺度信息,PSA模块增强特征。最后,共享骨干网络输出多层次特征。骨干网络多层特征图的生成过程表达式如下:
其中,Fin表示输入图像,P1表示经过Conv层输出特征图;Pk表示第k层输出特征图,Ma表示Manet,Opk-1表示第k-1次对应相关操作,DCN表示DCN层;SCD表示SCDown模块;SPPF表示SPPF模块;PSA表示PSA模块,P5表示经过SPPF模块、PSA模块输出的特征图。
进一步地,所述步骤S3具体如下:
所述三个独立的任务颈层包括:1个检测颈部层,2个分割颈部层。
所述检测颈部层采用动态形变增强模块DDEM,包括:动态金字塔模块DPM和可形变金字塔模块DePM;DPM和DePM分别采用自上而下和自下而上的架构设计。
DPM通过动态采样模块Dysample实现特征动态上采样,首先生成采样点,随后根据网络学习的偏移量动态调整采样位置,精确捕捉输入特征的细节特征,并将上采样后的特征图与同级特征进行拼接;DPM的具体计算流程表达式如下:
其中,表示DPM模块输出的第k层输出特征图,Dy表示动态采样模块,Pk表示对应层级的特征图。
DePM通过可变形卷积动态调整卷积核位置,且可变形卷积根据输入特征的几何形态自适应调节采样位置,DePM模块的计算流程表达式如下:
其中,P′3、P′4、P′5表示输入到检测任务头的特征,C2fCIB表示C2fCIB模块。
所述分割颈部层采用动态空间上下文融合模块DSCFM,包括:动态金字塔模块DPM和空间上下文感知模块SCAM;
其中,对于车道线检测任务,一个分割颈部层引入完整的动态金字塔模块DPM,进行精确的特征提取。对于可驾驶区域分割任务,另一个分割颈部层采用最近邻插值对高层特征进行上采样,引入SCAM优化空间上下文信息的表达。
对于车道线检测任务,所述分割颈部层中DPM的计算表达式如下:
其中,Dy表示动态采样模块。
同理可得,对于可驾驶区域分割任务,所述分割颈部层中DPM的计算表达式如下:
其中,Up表示邻域值插值法进行上采样,即当k=3或4时,可驾驶区域分割任务采用邻域值插值法进行上采样。
则SCAM的计算过程表达式如下:
其中,Xin-SCAM表示SCAM输入特征图,Max表示Maxpool,Avg表示Avgpool,Soft表示Softmax,x1-SCAM、x2-SCAM、x3-SCAM、表示中间特征,Matrix表示矩阵乘法,Hadamard表示哈达玛乘积,xout-SCAM表示SCAM输出特征图,即P′1。
进一步地,所述步骤S4具体如下:
所述三个独立的任务头包括:1个检测头和2个分割头,组成多任务头组,分别对应交通对象检测、可驾驶区域分割和车道线识别任务。
所述检测头采用无锚解耦设计,包括三个分支:预测物体位置的定位分支,确定物体类别和置信度分数的分类分支;接收来自检测颈部层的多尺度特征图,即P′3、P′4、P′5,并输出一个包括类别预测概率及其相应边界框坐标和置信度的张量。
对于车道线检测任务和可驾驶区域分割任务,2个分割头采用相同的结构设计,并在网络中独立处理相应的高级语义信息。分割头采用轻量级结构设计,接收来自分割颈部层的多尺度特征图,即P′1,并输出图像分割结果。
进一步地,所述步骤S1中,所述多任务网络模型损失函数设计具体如下:
所述损失函数包括:交通对象检测损失、车道检测任务损失和可驾驶区域分割任务损失,表达式如下:
其中,表示交通对象检测的损失函数,表示车道检测任务的损失函数,表示可驾驶区域分割任务的损失函数。
交通对象检测任务中使用的损失函数包括:二元交叉熵损失分布焦点损失完全焦点损失负责物体分类,侧重于边界框回归中的分布差异,而则测量预测边界框与地面实况边界框之间的差异。表达式如下:
其中,λ1,λ2,λ3表示相应的系数。
具体表达式如下:
其中,xn表示检测物体的预测类别,yn表示检测物体的真实类别。
表达式具体如下:
其中,变量y表示检测到的边界框坐标的基本真实值。yi+1和yi的值分别是y的上限和下限。
表达式具体如下:
其中,CIoU表示完全交并比,IoU表示交并比,b和bgt分别表示预测方框的中心点和地面实况方框的中心点。ρ表示预测点和地面实况点之间的欧氏距离,c表示两个方框最小外围矩形的对角线长度。α表示控制因子,v表示宽高比一致性惩罚项。h和w分别用表示预测方框的高度和宽度,hgt和wgt表示方框地面实况的高度和宽度。
在分割任务中,对于车道检测和可驾驶区域分割任务采用相同的通用损失函数设计,将这两个任务的损失函数和统称为则分割损失函数包括焦点损失和Tversky损失表达式具体如下:
其中,α1,α2表示相应的系数。
表达式具体如下:
其中,pt表示相关模型预测出正类的概率。αt表示一个加权系数,用于平衡正负训练样例的相对重要性。聚焦参数γ用于调整每个样本对损失函数贡献的权重。
表达式具体如下:
其中,TP表示真阳性样本,FP表示假阳性样本,FN表示假阴性样本,αTL表示控制漏检FN的惩罚强度,β表示控制误检FP的惩罚强度。
本发明的有益效果:本发明的方法构建了一种基于协调多尺度特征增强网络CMFANet的多任务网络模型,首先共享骨干网络层采用混合增强策略,从输入图像中提取多层次的特征表征,然后任务颈层采用特征融合策略处理和完善提取的特征,整合多尺度特征表征,得到融合特征,最后任务头接收融合后的特征,并根据各个任务的要求生成最终输出,实现对交通场景的全面感知。本发明的方法所构建的CMFANet模型能够在资源受限的环境中同时执行交通对象检测、可驾驶区域分割和车道线分割,该模型兼顾了效率和准确性,同时满足了实时应用的要求,所构建的结合混合增强策略的高效骨干网络,能有效地适应具有复杂几何变形的场景,并满足多任务框架内每个任务的不同要求。此外,本发明方法还针对每项任务开发了强大而高效的颈层:用于检测任务的变形增强模块和用于分割任务的动态空间上下文融合模块。这些模块进一步优化了网络的整体性能。
附图说明
图1为本发明的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法的流程图。
图2为本发明实施例中基于协调多尺度特征增强网络CMFANet的多任务网络模型结构示意图。
图3为本发明实施例中共享骨干网络层结构示意图。
图4为本发明实施例中检测颈部层结构示意图。
图5为本发明实施例中分割颈部层结构示意图。
图6为本发明实施例中不同天气情况下效果示意图。
图7为本发明实施例中日间不同天气情况下与现有先进算法的对比结果示意图。
图8为本发明实施例中夜间不同天气情况下与现有先进算法的对比结果示意图。
具体实施方式
下面结合附图与实施例对本发明的方法做进一步的说明。
如图1所示,本发明的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法流程图,具体步骤如下:
S1、构建一种基于协调多尺度特征增强网络CMFANet的多任务网络模型;
为了构建一个能够准确理解交通驾驶场景的高精度、低参数多任务感知模型,本实施例提出一种基于协调多尺度特征增强网络CMFANet的多任务网络模型,如图2所示,所述模型采用基于协调多尺度特征增强网-络CMFANet架构,即模型采用编码器-解码器架构。所述模型包括:一个共享的骨干网络层、三个独立的任务颈层和三个独立的任务头。
其中,编码器包括一个共享骨干网络层和三个独立的任务颈层,解码器包括三个不同的独立任务头。所述三个独立任务即交通对象检测、可驾驶区域分割和车道线检测任务。这种设计使模型能够同时处理三个任务,有效地提供对交通驾驶场景的全面感知。
骨干网络负责从输入图像中提取多层次的特征表征,捕捉低层次和高层次的语义信息。颈部层使用精心设计的特征融合策略进一步处理和完善这些特征,整合多尺度特征表征,以增强其表现力,为下游任务提供更丰富的信息。最后,任务头接收融合后的特征,并根据各个任务的要求生成最终输出。
S2、基于步骤S1构建的模型,共享骨干网络层采用混合增强策略,从输入图像中提取多层次的特征表征;
S3、基于步骤S2,三个独立的任务颈层采用特征融合策略处理和完善步骤S2提取的特征,整合多尺度特征表征,得到融合特征;
S4、基于步骤S3,三个独立的任务头接收步骤S3融合后的特征,并根据各个任务的要求生成最终输出,实现对交通场景的全面感知。
在本实施例中,所述步骤S2具体如下:
骨干网络作为特征提取器,可从输入图像中捕捉多层次特征。本实施例从YOLOv10中汲取灵感,将整个骨干网络模块化为一系列不同的模块。这些模块包括Conv层、DCN层、Manet、SCDown、SPPF和PSA模块,共享骨干网络层的总体结构如图3所示。则所述共享骨干网络层包括:1个Conv层、2个DCN层、4个混合聚合网络Manet、2个SCDown模块、1个SPPF模块和1个PSA模块。
其中,DCN层用于处理低层信息;混合聚合网络Manet即骨干网络层中的上下文通信模块;骨干网络采用模块化设计,由多个组件组成。在处理底层语义信息时,该网络利用DCN层集中处理目标特征,同时利用Manet建立上下文信息的连接,从而增强特征信息的表示能力。
在交通对象检测、可驾驶区域分割和车道线检测这三项任务中,每项任务所涉及的对象都具有不同的几何特征,这给检测工作带来了独特的挑战。在交通对象检测任务中,对象通常表现为轻微变形的矩形。虽然形状相对规则,但由于比例、方向和其他因素的变化,可能会出现几何变形。另一方面,可驾驶区域分割任务处理的是不规则多边形,其边界通常非常不规则且变化很大,增加了精确分割的难度。车道线检测主要侧重于窄而长的线段。这些物体的形状相对简单,但由于曲率、遮挡和透视变化等因素的影响,检测难度很大。
每项任务中的物体都具有不同的几何特征,因此检测难度和所需的特征表示方法也大相径庭。交通对象检测要求精确的边界定位和准确的类别识别。可驾驶区域分割要求有效捕捉复杂、不规则的形状并准确划分边界。车道线检测要求能够精确识别窄而弯曲的线段。
为了应对这些挑战,本实施例所述共享骨干网络,采用混合增强策略,结合DCN层和Manet,使网络能够适应复杂几何变形的环境,同时平衡不同任务的特征提取要求。
所述DCN层包括:1个可变形卷积层、1个批归一化层和1个SiLU激活函数层。与标准卷积不同,可变形卷积(deformable convolutions)通过引入偏移量来动态调整采样位置,从而有效聚焦感兴趣的区域。此外,可变形卷积还能让网络学习每个采样点的权重,从而区分有效和无效位置,减少干扰,显著增强特征提取能力。通过结合DCN层,本实施例所述共享骨干网络可以有效地适应具有复杂几何变形的环境,并在采样过程中将注意力集中在与任务相关的区域。
则DCN层的计算过程表达式如下:
Xout=Si(BN(DConv(Xin))
其中,Xin表示输入特征,Xout表示输出特征,DConv表示可变形卷积,BN表示批归一化,Si表示SiLU激活函数。
在适应了具有复杂几何变形的环境后,下一步就是平衡和增强提取的特征,以满足不同任务的需求。具体来说,需要对特征图中的空间特征信息进行校正,以确保特征图准确反映物体的几何结构。同时,必须有效提取通道特征信息,以捕捉每个任务所需的细节。为了进一步改进特征表示,有必要加强现有的空间特征,以准确定位对象的边界和细节。此外,由于不同任务之间的上下文信息具有显著的相互关系,因此在特征提取过程中必须确保上下文信息的一致性,以加强任务之间的语义关联。
本实施例采用混合聚合网络(Manet)作为骨干网络中的上下文通信模块。所述混合聚合网络Manet包括三个分支,具体如下:
1)Conv分支,使用1×1标准卷积捕捉不同信道之间的相关性;
2)深度可分离卷积分支,可有效提取空间和信道信息,同时减少计算开销;
首先通过深度卷积(Depthwise)让每个输入通道单独用K×K卷积计算(不混合通道,输出通道数=输入通道数,仅提取空间特征),再用逐点卷积(Pointwise)的1×1卷积混合所有通道并调整输出通道数。
3)C2f分支,使用C2f模块,用于增强特征的表现力;
主分支通过多个Bottleneck结构(1×1和3×3卷积组合)提取深层特征,同时分流支路保留部分输入特征直接传递到输出端(类似DenseNet的密集连接),确保浅层信息不丢失;通过分层融合将不同Bottleneck阶段的输出特征与初始分流特征进行通道拼接(Concat),并利用1×1卷积控制通道数实现轻量化设计,避免维度爆炸。
最后,将所有三个分支的输出进行合并,并通过1×1标准卷积来调整信道维度,得到高维融合特征。
其中,Manet的计算过程表达式如下:
其中,x1表示输入到Manet中的特征经过一次常规卷积层后的中间特征,Xin-Manet表示Manet输入特征,xconv表示经过Conv分支的中间特征,xDS表示经过深度可分离卷积的中间特征,xC2f表示经过C2f分支的中间特征,Xout-Manet表示Manet输出特征,DS表示深度可分离卷积分支,DWConv表示深维卷积,PWConv表示点维卷积,C2f表示C2f模块分支。
Manet中C2f分支的计算过程表达式如下:
其中,x2,x3表示x1经过按通道数划分后的特征,Bottle表示Bottle模块,表示经过第n层Bottleneck模块的中间特征;Split和Cat操作在通道维度上进行。
在处理高级语义信息时,使用SCDown模块实现快速降采样,SPPF模块整合多尺度信息,PSA模块增强特征。最后,共享骨干网络输出多层次特征。骨干网络多层特征图的生成过程表达式如下:
其中,Fin表示输入图像,P1表示经过Conv层输出特征图;Pk表示第k层输出特征图,Ma表示Manet,Opk-1表示第k-1次对应相关操作,DCN表示DCN层;SCD表示SCDown模块;SPPF表示SPPF模块;PSA表示PSA模块,P5表示经过SPPF模块、PSA模块输出的特征图。
在本实施例中,所述步骤S3具体如下:
所述三个独立的任务颈层包括:1个检测颈部层,2个分割颈部层。
如图4所示,所述检测颈部层采用动态形变增强模块DDEM,包括:动态金字塔模块DPM和可形变金字塔模块DePM;DPM和DePM分别采用自上而下和自下而上的架构设计。
DPM通过动态采样模块Dysample实现特征动态上采样,首先生成采样点,随后根据网络学习的偏移量动态调整采样位置,精确捕捉输入特征的细节特征,并将上采样后的特征图与同级特征进行拼接;DPM的具体计算流程表达式如下:
其中,表示DPM模块输出的第k层输出特征图,Dy表示动态采样模块,Pk表示对应层级的特征图。
针对交通场景中相机视角与车辆形变带来的挑战,本实施例采用可变形特征金字塔模块(DePM)。DePM通过可变形卷积动态调整卷积核位置,且可变形卷积根据输入特征的几何形态自适应调节采样位置,DePM模块的计算流程表达式如下:
其中,P′3、P′4、P′5表示输入到检测任务头的特征,C2fCIB表示C2fCIB模块。
DPM和DePM模块的集成已被证明能够有效促进多尺度特征图的融合。此外,研究还表明该设计能增强目标特征的表达能力,从而显著提升模型在交通目标检测任务中的性能。这种网络架构使其能更有效地适应复杂交通场景,并在存在显著几何形变的环境中实现更高效的检测。最终,交通目标检测的准确率与运行效率均得到同步提升。
如图5所示,所述分割颈部层采用动态空间上下文融合模块DSCFM,包括:动态金字塔模块DPM和空间上下文感知模块SCAM;
其中,对于车道线检测任务,一个分割颈部层引入完整的动态金字塔模块DPM,进行精确的特征提取。对于可驾驶区域分割任务,另一个分割颈部层采用最近邻插值对高层特征进行上采样,引入SCAM优化空间上下文信息的表达。
对于车道线检测任务,所述分割颈部层中DPM的计算表达式如下:
其中,Dy表示动态采样模块。
同理可得,对于可驾驶区域分割任务,所述分割颈部层中DPM的计算表达式如下:
其中,Up表示邻域值插值法进行上采样,即当k=3或4时,可驾驶区域分割任务采用邻域值插值法进行上采样。
则SCAM的计算过程表达式如下:
其中,Xin-SCAM表示SCAM输入特征图,Max表示Maxpool,Avg表示Avgpool,Soft表示Softmax,x1-SCAM、x2-SCAM、x3-SCAM、表示中间特征,Matrix表示矩阵乘法,Hadamard表示哈达玛乘积,xout-SCAM表示SCAM输出特征图,即P′1。
SCAM模块旨在优化上下文信息的表达,增强特征的空间相关性。SCAM以DPM处理后已显著呈现目标特征的特征为基础,进一步优化这些特征的空间上下文信息,从而有效提高分割任务的性能。
在本实施例中,所述步骤S4具体如下:
所述三个独立的任务头包括:1个检测头和2个分割头,组成多任务头组,分别对应交通对象检测、可驾驶区域分割和车道线识别任务。
为了增强通用性,所述检测头采用无锚解耦设计,包括三个分支:预测物体位置的定位分支,确定物体类别和置信度分数的分类分支;接收来自检测颈部层的多尺度特征图,即P′3、P′4、P′5,并输出一个包括类别预测概率及其相应边界框坐标和置信度的张量。
所述检测头采用创新的“解耦头”(Decoupled Head)设计,通过1×1卷积统一降维后分解为三个独立分支:分类分支(3×3卷积+1×1卷积预测类别概率)、回归分支(3×3卷积+1×1卷积预测bbox坐标)和可选置信度分支,接收来自检测颈部层的多尺度特征图并同时输出类别概率、边界框坐标和置信度,在保持实时性的同时显著提升了检测精度。
对于车道线检测任务和可驾驶区域分割任务,2个分割头采用相同的结构设计,并在网络中独立处理相应的高级语义信息。分割头采用轻量级结构设计,接收来自分割颈部层的多尺度特征图,即P′1,并输出图像分割结果。
所述分割头采用轻量化编解码结构实现实时实例分割,其核心设计为:接收来自分割颈部层的多尺度特征图并仅使用最高分辨率特征图进行掩码预测,首先通过3×3卷积将输入通道压缩至32维,接着使用转置卷积(ConvTranspose2d)将特征图放大2倍(替代插值上采样),然后经过3×3卷积进一步压缩通道至16维,最后输出最终掩码,并经Sigmoid函数归一化处理掩码概率。这种设计在保持高效计算的同时实现了精确的像素级分割能力。其中解卷积操作用于将输出恢复到原始输入图像大小。
本实施例中,所述步骤S1中所述多任务网络模型损失函数设计具体如下:
所述损失函数包括:交通对象检测损失、车道检测任务损失和可驾驶区域分割任务损失,表达式如下:
其中,表示交通对象检测的损失函数,表示车道检测任务的损失函数,表示可驾驶区域分割任务的损失函数。
交通对象检测任务中使用的损失函数包括:二元交叉熵损失分布焦点损失完全焦点损失负责物体分类,侧重于边界框回归中的分布差异,而则测量预测边界框与地面实况边界框之间的差异。表达式如下:
其中,λ1,λ2,λ3表示相应的系数。
具体表达式如下:
其中,xn表示检测物体的预测类别,yn表示检测物体的真实类别。
表达式具体如下:
其中,变量y表示检测到的边界框坐标的基本真实值。yi+1和yi的值分别是y的上限和下限。
表达式具体如下:
其中,CIoU表示完全交并比,IoU表示交并比,b和bgt分别表示预测方框的中心点和地面实况方框的中心点。ρ表示预测点和地面实况点之间的欧氏距离,c表示两个方框最小外围矩形的对角线长度。α表示控制因子,v表示宽高比一致性惩罚项。h和w分别用表示预测方框的高度和宽度,而符号hgt和wgt表示方框地面实况的高度和宽度。
在分割任务中,对于车道检测和可驾驶区域分割任务采用相同的通用损失函数设计,将这两个任务的损失函数和统称为则分割损失函数包括焦点损失和Tversky损失表达式具体如下:
其中,α1,α2表示相应的系数。
表达式具体如下:
其中,pt表示相关模型预测出正类的概率。αt表示一个加权系数,用于平衡正负训练样例的相对重要性。聚焦参数γ用于调整每个样本对损失函数贡献的权重。
表达式具体如下:
其中,TP表示真阳性样本,FP表示假阳性样本,FN表示假阴性样本,αTL表示控制漏检(FN)的惩罚强度,β表示控制误检(FP)的惩罚强度。
本实施例还进一步进行了实验验证,具体如下:
如图6所示,本发明方法的CMFANet模型在白天、雨天和夜间场景下的感知任务示意图,其中图6(a)为白天晴天场景,图6(b)为白天雨天场景,图6(c)为夜间场景,图中三项感知任务:交通目标检测(红边界框)、驾驶区域分割任务(绿分割区域)和车道线检测(蓝线)。由图6可知,本发明方法的CMFANet模型在白天、雨天和夜间场景下都取得了优异的成绩,能够有效感知复杂多变的交通环境。
通过使用比例因子来调整网络层数,本实施例构建了两个版本的CMFANet:纳米(n)和小型(s)。不同版本的比例因子设置如表1所示。
表1
其中,深度是重复模块重复次数的比例因子;宽度是模型中每层网络通道数的比例因子;最大通道数是模型中每层网络通道数的最大值,网络层中超过该值的通道数即为该值。
由表1可知,轻量化版本的参数个数仅为380万,大大低于YOLOP等现有模型。本实施例在BDD100K公开数据集上对该模型进行了评估,结果非常出色:交通对象检测的mAP50为82.5%,可驾驶区域分割的mIoU为91.5%,车道线检测的IoU为29.8%。实验证实了本发明方法的模型在实际驾驶场景中兼顾了效率、轻量级设计和准确性。
BDD100K(Berkeley DeepDrive 100K)数据集是由伯克利深度驾驶(BDD)团队发布的大规模自动驾驶数据集。本实施例中该数据集分为三个部分:由70,000张图像组成的训练集、由10,000张图像组成的验证集和由20,000张图像组成的测试集。由于测试集的注释尚未公开,本实施例在验证集上对本发明方法所提出的CMFANet模型进行了评估。与之前的研究一致,在交通目标检测任务中,只关注车辆目标,特别是汽车、公共汽车、卡车和火车。
在训练过程中,本实施例采用端到端训练方法,将所有任务模块整合到一个统一的网络框架中进行集体优化。在这种方法中,所有网络参数都是同时训练的,没有特定层的冻结,也没有交替的优化策略。这样,模型就能在训练过程中自动调整不同任务之间的权重关系,确保不同任务的学习相互补充,而不是相互冲突。端到端的优化有利于更有效地共享参数和提取不同任务之间的特征,从而改善多任务学习中资源分配问题的处理。整个网络的集体优化策略加强了任务协调,减少了中间阶段的错误传播,进一步增强了模型在复杂任务中的鲁棒性和泛化能力。在实验中,本实施例选择初始学习率(lr)为0.01、权重衰减为0.0005、动量为0.937的SGD优化器。此外,在整个训练过程中还采用了线性学习率退火策略。本实施例是在配备了24GB NVIDIAGeForce RTX 4090GPU的Ubuntu 20.04系统上进行的。
本实施例日间驾驶条件下的比较结果如图7所示,在日间场景中,本发明方法的模型始终优于YOLOP,能获得更精确的交通对象检测结果,且无误报。此外,与YOLOP相比,车道线检测和可驾驶区域分割结果更加平滑和准确。其他对比方法的误报/漏报检测结果用黄色圆圈/方框标出。
本实施例通过在BDD100k数据集上对本发明方法所提出的CMFANet模型进行了全面的性能评估,并将其与目前最先进的两个模型YOLOP和A-YOLOM进行了比较。评估结果如图7所示。为了全面展示模型在不同场景下的性能,特别选择了三种具有代表性的白天条件进行测试:阴雨天、阴天和雪天。这些场景涵盖了各种天气条件、光线变化和复杂的交通环境,共同反映了模型在实际应用中的性能。
由图7可知,YOLOP和A-YOLOM在交通物体检测任务中都表现出了不足,尤其是在检测较小物体方面。相比之下,本发明方法的模型在准确识别所有目标对象(包括那些较小和被遮挡的对象)方面表现出了显著的能力。这一发现表明,本发明方法的模型在复杂环境中表现出了卓越的鲁棒性,并能有效减少误检和漏检。在车道线检测任务中,YOLOP在识别某些由于遮挡或光线不足而难以检测到的车道线时面临挑战。相比之下,本发明方法的模型成功地检测到了这些车道线,进一步验证了其在复杂交通场景中的准确性。在可驾驶区域分割任务中,本发明方法的模型表现出色,没有出现遗漏或错误检测,而且与YOLOP和A-YOLOM相比,分割结果更加平滑自然。这一结果表明,本发明方法的模型在细粒度区域分割方面具有更高的准确性和一致性。
图8为本实施例夜间驾驶条件下的比较结果示意图,在夜间场景中,本发明方法的模型仍然比YOLOP取得了明显更好的结果。YOLOP在检测车道线时非常吃力,而本发明方法的模型却能成功识别车道线。此外,在可驾驶区域分割任务中,本发明的模型产生了更平滑的分割结果,没有漏检或误检。其他对比方法的误检/漏检结果用黄色圆圈/方框标出。
由图8可知,本实施例选择了三种具有挑战性的夜间环境进行评估:弱光环境、眩光环境和地面反射环境。在这些弱光复杂环境中,本发明方法的模型始终优于YOLOP和A-YOLOM。在弱光条件下,本发明方法的模型在检测远处的小型车辆方面表现出色,而这对YOLOP和A-YOLOM来说是一项具有挑战性的任务。此外,在车道线检测任务中,YOLOP和A-YOLOM在这种条件下很难识别清晰的车道线,而本发明方法的模型却能成功识别这些细节,进一步证明了它在夜间环境中的鲁棒性。在可驾驶区域分割任务中,该模型表现出很高的性能,即使在低光照条件和复杂背景下也能避免误检和漏检。由此产生的分割结果明显更加精细和准确。这一性能表明,本发明方法提出的模型能够可靠地执行任务,并提供可靠的决策支持。
本实施例还在BDD100k数据集上对本发明方法所提出的模型进行了定量分析。通过比较多个性能指标,评估了该模型在交通对象检测、车道线检测和可驾驶区域分割等任务中的性能,具体如下:
(1)参数和推理速度:本发明方法的模型与现有模型在参数大小和推理速度方面的比较如表2所示。表2显示了本发明方法的模型与现有模型在参数大小和推理速度上的比较。本发明方法的纳米版本模型只有3.8M个参数,明显小于现有模型。其处理速度(FPS)为131.8,大大高于其他模型。这使本发明方法的模型在效率和速度方面具有显著优势,特别是在资源有限的环境中,它可以提供更快的处理性能。
表2
(2)交通对象检测:交通对象检测的实验结果如表3所示。与之前的研究类似,本实施例使用Recall和mAP50作为评价指标,置信度阈值设为0.001,NMS阈值设为0.6。可以看出,两个版本的模型在这项任务中都表现出色,尤其是在检测准确率方面。特别是,小版本的mAP50达到了82.5%,明显高于现有对比模型的得分。这表明该模型具有出色的检测性能。纳米版本尽管在参数大小上做了进一步优化,但仍取得了80.4%的优异mAP50,超过了其他对比模型。这一结果表明,尽管纳米版本采用了轻量化设计,但其检测性能并未受到明显影响。相反,它优化了实时处理能力,以更好地满足实际应用的实时要求。这些结果不仅证明了本发明方法的模型在交通对象检测任务中的超强检测能力,还凸显了其强大的适应性和灵活性。
表3
(3)可驾驶区域分割:可驾驶区域分割的实验结果如表4所示。为了评估模型的性能,本实施例使用了mIoU作为评估指标。虽然在这项任务中没有采用专门为可驾驶区域分割设计的损失函数,但本实施例的小版本模型仍然取得了与SOTA模型YOLOP相同的mIoU分数,即91.5%。这一结果表明,即使没有有针对性的损失函数,本发明方法的模型也能在这项任务中保持出色的性能。与YOLOP相比,本发明方法的模型不仅在准确度方面表现出色,而且在通用性和推理速度方面也具有显著优势。这些优势使本发明方法的模型在实际应用中更具竞争力。
表4
(4)车道线检测:车道线检测结果如表5所示。在这项任务中,本实施例选择了像素精度和IoU作为评价指标。实验结果表明,本发明方法的模型在车道线检测中表现出色,获得了最高分,像素准确率为86.6%,IoU为29.8%,这两项指标都明显优于所有对比模型。这些结果证实了本发明方法的模型在这项任务中的优异表现。尽管本实施例进行了旨在提高推理速度和计算效率的轻量级优化,但本发明方法的模型在车道线检测中的准确率仍然保持在较高水平,这表明本发明方法的模型在复杂和具有挑战性的环境中具有强大的检测能力。
表5
(5)全时多任务感知:CMFANet(n)的全时多任务感知结果如表6所示。BDD100k数据集提供了每张图像拍摄时间段的标签信息。数据集主要分为四类:白天、夜晚、黎明/黄昏和未定义。为了全面评估模型的性能,本实施例对所有可用的时间段相关数据进行了评估。结果表明,该模型在昼间类别中表现出最佳性能。在夜间类别中,由于存在弱光条件,与交通目标检测相关的指标有所下降。不过,与车道分割和车道检测相关的性能指标保持了较高水平,从而满足了驾驶安全要求。
表6
(6)全天候多任务感知:CMFANet(n)的全天候多任务感知结果如表7所示。BDD100k数据集中的数据所处的气象条件可分为七个主要类别:晴天、阴天、雪天、多云、雨天、雾天和未定义天气。在不同天气条件下,对所提出的CMFANet(n)的性能进行了全面评估。该模型在所有天气条件下都能得出准确的结果。它能够满足雪天、多云和雨天等恶劣天气下的安全驾驶需求。然而,值得注意的是,该模型的交通目标检测指标在晴朗天气条件下并不理想,仅比大雾天气条件下有微弱改善。这是因为晴朗数据集包含大量夜间驾驶场景数据,在弱光的影响下,这种天气下的指标比预期的要低。
表7
为了验证本发明方法所设计模块的有效性,本实施例基于所提出的CMFANet-nano版本进行了一次消融实验。实验结果如表8所示。通过系统地删除和替换单个模块,能够清楚地观察到每个模块对整体性能的贡献。
表8
由表8可知,当仅使用本发明方法设计的主干网络时,交通对象检测和可驾驶区域分割任务的性能得到了显著提高。然而,车道线检测的IoU出现了大幅下降。这一现象可归因于在主干网络中引入了可变形卷积,以更好地处理低级特征信息。可变形卷积操作会使卷积核的采样点更多地集中在突出特征上,如交通对象和大规模可驾驶区域。然而,对于细长且跨度较大的车道线来说,这种操作并不能充分捕捉到相关特征,从而对车道线的检测性能产生了负面影响。引入DDEM模块后,交通对象检测的性能得到了有效改善。但是,由于该模块的设计更注重优化检测任务,因此车道线检测性能略有下降。造成这种不平衡的原因是,该模块侧重于提高检测精度,无意中影响了分割任务的特征提取和分配,从而导致性能上的折衷。同样,当只使用DSCFM时,观察到分割任务的性能显著提高,而检测任务的性能指标却有所下降。这种性能上的变化可归因于在加入本发明方法设计的模块后,模型的关注点发生了变化。最后,当完整的设计方案实施后,三项任务的性能都取得了优异的成绩。值得注意的是,与只使用DDEM模块的情况相比,交通对象检测任务的性能有所提高。这表明,本发明方法的端到端协同训练方法有效地促进了网络内各项任务的同步进行,从而使各项任务的性能更加均衡。这些结果证明,本实施例的多任务训练策略促进了任务间的高效资源共享和性能互补,从而大幅提升了模型的整体性能。
综上,本文提出了一种专为交通场景感知任务设计的轻量级、高精度多任务网络模型CMFANet。该模型能够同时执行交通对象检测、可驾驶区域分割和车道线识别三项任务,从而实现对驾驶环境的全面感知。本发明的方法采用了端到端的训练方法,而不是依靠冻结特定层来进行单任务训练。相反,通过采用多任务并行训练策略,使任务以协调的方式进行,从而提高了整体性能。为此,本发明方法设计了一个具有强大特征提取能力的模块化骨干网络,确保有效支持每个任务的不同需求。此外还为每项任务开发了针对特定任务的颈层。通过精心的任务分配和特征融合,有效地提高了每项任务的性能和准确性。最后,通过在BDD100k数据集上对本发明方法的模型进行定性和定量分析,并与当前最先进的模型进行了比较,从而验证了本发明方法的优越性。此外,本实施例还进行了消融实验,进一步证明了本发明方法所提模块的有效性。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,具体步骤如下:
S1、构建一种基于协调多尺度特征增强网络CMFANet的多任务网络模型;
所述模型采用基于协调多尺度特征增强网-络CMFANet架构,即模型采用编码器-解码器架构;所述模型包括:一个共享的骨干网络层、三个独立的任务颈层和三个独立的任务头;
其中,编码器包括一个共享骨干网络层和三个独立的任务颈层,解码器包括三个不同的独立任务头;所述三个独立任务即交通对象检测、可驾驶区域分割和车道线检测任务;
S2、基于步骤S1构建的模型,共享骨干网络层采用混合增强策略,从输入图像中提取多层次的特征表征;
S3、基于步骤S2,三个独立的任务颈层采用特征融合策略处理和完善步骤S2提取的特征,整合多尺度特征表征,得到融合特征;
S4、基于步骤S3,三个独立的任务头接收步骤S3融合后的特征,并根据各个任务的要求生成最终输出,实现对交通场景的全面感知。
2.根据权利要求1所述的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,其特征在于,所述步骤S2具体如下:
所述共享骨干网络层包括:1个Conv层、2个DCN层、4个混合聚合网络Manet、2个SCDown模块、1个SPPF模块和1个PSA模块;
其中,DCN层用于处理低层信息;混合聚合网络Manet即骨干网络层中的上下文通信模块;
所述DCN层包括:1个可变形卷积层、1个批归一化层和1个SiLU激活函数层;DCN层的计算过程表达式如下:
Xout=Si(BN(DConv(Xin))
其中,Xin表示输入特征,Xout表示输出特征,DConv表示可变形卷积,BN表示批归一化,Si表示SiLU激活函数;
所述混合聚合网络Manet包括三个分支,具体如下:
1)Conv分支,使用1×1标准卷积捕捉不同信道之间的相关性;
2)深度可分离卷积分支,提取空间和信道信息;
首先通过深度卷积Depthwise让每个输入通道单独用K×K卷积计算,再用逐点卷积Pointwise的1×1卷积混合所有通道并调整输出通道数;
3)C2f分支,使用C2f模块,用于增强特征的表现力;
主分支通过多个Bottleneck结构提取深层特征,同时分流支路保留部分输入特征直接传递到输出端;通过分层融合将不同Bottleneck阶段的输出特征与初始分流特征进行通道拼接,并利用1×1卷积控制通道数实现轻量化设计;
最后,将所有三个分支的输出进行合并,并通过1×1标准卷积来调整信道维度,得到高维融合特征;
其中,Manet的计算过程表达式如下:
其中,x1表示输入到Manet中的特征经过一次常规卷积层后的中间特征,Xin-Manet表示Manet输入特征,xconv表示经过Conv分支的中间特征,xDS表示经过深度可分离卷积的中间特征,xC2f表示经过C2f分支的中间特征,Xout-Manet表示Manet输出特征,DS表示深度可分离卷积分支,DWConv表示深维卷积,PWConv表示点维卷积,C2f表示C2f模块分支;
Manet中C2f分支的计算过程表达式如下:
其中,x2,x3表示x1经过按通道数划分后的特征,Bottle表示Bottle模块,表示经过第n层Bottleneck模块的中间特征;Split和Cat操作在通道维度上进行;
在处理高级语义信息时,使用SCDown模块实现快速降采样,SPPF模块整合多尺度信息,PSA模块增强特征;最后,共享骨干网络输出多层次特征;骨干网络多层特征图的生成过程表达式如下:
其中,Fin表示输入图像,P1表示经过Conv层输出特征图;Pk表示第k层输出特征图,Ma表示Manet,Opk-1表示第k-1次对应相关操作,DCN表示DCN层;SCD表示SCDown模块;SPPF表示SPPF模块;PSA表示PSA模块,P5表示经过SPPF模块、PSA模块输出的特征图。
3.根据权利要求1所述的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,其特征在于,所述步骤S3具体如下:
所述三个独立的任务颈层包括:1个检测颈部层,2个分割颈部层;
所述检测颈部层采用动态形变增强模块DDEM,包括:动态金字塔模块DPM和可形变金字塔模块DePM;DPM和DePM分别采用自上而下和自下而上的架构设计;
DPM通过动态采样模块Dysample实现特征动态上采样,首先生成采样点,随后根据网络学习的偏移量动态调整采样位置,精确捕捉输入特征的细节特征,并将上采样后的特征图与同级特征进行拼接;DPM的具体计算流程表达式如下:
其中,表示DPM模块输出的第k层输出特征图,Dy表示动态采样模块,Pk表示对应层级的特征图;
DePM通过可变形卷积动态调整卷积核位置,且可变形卷积根据输入特征的几何形态自适应调节采样位置,DePM模块的计算流程表达式如下:
其中,P3′、P4′、P5′表示输入到检测任务头的特征,C2fCIB表示C2fCIB模块;
所述分割颈部层采用动态空间上下文融合模块DSCFM,包括:动态金字塔模块DPM和空间上下文感知模块SCAM;
其中,对于车道线检测任务,一个分割颈部层引入完整的动态金字塔模块DPM,进行精确的特征提取;对于可驾驶区域分割任务,另一个分割颈部层采用最近邻插值对高层特征进行上采样,引入SCAM优化空间上下文信息的表达;
对于车道线检测任务,所述分割颈部层中DPM的计算表达式如下:
其中,Dy表示动态采样模块;
同理可得,对于可驾驶区域分割任务,所述分割颈部层中DPM的计算表达式如下:
其中,Up表示邻域值插值法进行上采样,即当k=3或4时,可驾驶区域分割任务采用邻域值插值法进行上采样;
则SCAM的计算过程表达式如下:
其中,Xin-SCAM表示SCAM输入特征图,Max表示Maxpool,Avg表示Avgpool,Soft表示Softmax,x1-SCAM、x2-SCAM、x3-SCAM、表示中间特征,Matrix表示矩阵乘法,Hadamard表示哈达玛乘积,xout-SCAM表示SCAM输出特征图,即P1′。
4.根据权利要求1所述的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,其特征在于,所述步骤S4具体如下:
所述三个独立的任务头包括:1个检测头和2个分割头,组成多任务头组,分别对应交通对象检测、可驾驶区域分割和车道线识别任务;
所述检测头采用无锚解耦设计,包括三个分支:预测物体位置的定位分支,确定物体类别和置信度分数的分类分支;接收来自检测颈部层的多尺度特征图,即P3′、P4′、P5′,并输出一个包括类别预测概率及其相应边界框坐标和置信度的张量;
对于车道线检测任务和可驾驶区域分割任务,2个分割头采用相同的结构设计,并在网络中独立处理相应的高级语义信息;分割头采用轻量级结构设计,接收来自分割颈部层的多尺度特征图,即P1′,并输出图像分割结果。
5.根据权利要求1所述的一种基于协调多尺度特征增强网络的驾驶场景多任务感知方法,其特征在于,所述步骤S1中,所述多任务网络模型损失函数设计具体如下:
所述损失函数包括:交通对象检测损失、车道检测任务损失和可驾驶区域分割任务损失,表达式如下:
其中,表示交通对象检测的损失函数,表示车道检测任务的损失函数,表示可驾驶区域分割任务的损失函数;
交通对象检测任务中使用的损失函数包括:二元交叉熵损失分布焦点损失完全焦点损失负责物体分类,侧重于边界框回归中的分布差异,而则测量预测边界框与地面实况边界框之间的差异;表达式如下:
其中,λ1,λ2,λ3表示相应的系数;
具体表达式如下:
其中,xn表示检测物体的预测类别,yn表示检测物体的真实类别;
表达式具体如下:
其中,变量y表示检测到的边界框坐标的基本真实值;yi+1和yi的值分别是y的上限和下限;
表达式具体如下:
其中,CIoU表示完全交并比,IoU表示交并比,b和bgt分别表示预测方框的中心点和地面实况方框的中心点;ρ表示预测点和地面实况点之间的欧氏距离,c表示两个方框最小外围矩形的对角线长度;α表示控制因子,v表示宽高比一致性惩罚项;h和w分别用表示预测方框的高度和宽度,hgt和wgt表示方框地面实况的高度和宽度;
在分割任务中,对于车道检测和可驾驶区域分割任务采用相同的通用损失函数设计,将这两个任务的损失函数和统称为则分割损失函数包括焦点损失和Tversky损失表达式具体如下:
其中,α1,α2表示相应的系数;
表达式具体如下:
其中,pt表示相关模型预测出正类的概率;αt表示一个加权系数,用于平衡正负训练样例的相对重要性;聚焦参数γ用于调整每个样本对损失函数贡献的权重;
表达式具体如下:
其中,TP表示真阳性样本,FP表示假阳性样本,FN表示假阴性样本,αTL表示控制漏检FN的惩罚强度,β表示控制误检FP的惩罚强度。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510690027.6A CN120564151A (zh) | 2025-05-27 | 2025-05-27 | 基于协调多尺度特征增强网络的驾驶场景多任务感知方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510690027.6A CN120564151A (zh) | 2025-05-27 | 2025-05-27 | 基于协调多尺度特征增强网络的驾驶场景多任务感知方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120564151A true CN120564151A (zh) | 2025-08-29 |
Family
ID=96818694
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510690027.6A Pending CN120564151A (zh) | 2025-05-27 | 2025-05-27 | 基于协调多尺度特征增强网络的驾驶场景多任务感知方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120564151A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121147231A (zh) * | 2025-11-20 | 2025-12-16 | 中国建筑第六工程局有限公司 | 基于深度学习的光伏组件el图像智能缺陷识别方法及系统、存储介质、电子终端 |
-
2025
- 2025-05-27 CN CN202510690027.6A patent/CN120564151A/zh active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121147231A (zh) * | 2025-11-20 | 2025-12-16 | 中国建筑第六工程局有限公司 | 基于深度学习的光伏组件el图像智能缺陷识别方法及系统、存储介质、电子终端 |
| CN121147231B (zh) * | 2025-11-20 | 2026-01-30 | 中国建筑第六工程局有限公司 | 基于深度学习的光伏组件el图像智能缺陷识别方法及系统、存储介质、电子终端 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
| CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
| CN117058641B (zh) | 一种基于深度学习的全景驾驶感知方法 | |
| CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
| CN116524319A (zh) | 基于改进的YOLOv5卷积神经网络的夜间车辆检测方法及系统 | |
| Bi et al. | Lane detection for autonomous driving: Comprehensive reviews, current challenges, and future predictions | |
| Pan et al. | A hybrid deep learning algorithm for the license plate detection and recognition in vehicle-to-vehicle communications | |
| CN118247684B (zh) | 多源遥感图像融合识别车辆目标方法、设备和存储介质 | |
| CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
| Rahman et al. | LVLane: deep learning for lane detection and classification in challenging conditions | |
| CN117789144A (zh) | 一种基于权重融合的交叉网络车道线检测方法及装置 | |
| CN119478739A (zh) | 一种无人机小目标检测方法、电子设备及存储介质 | |
| CN120564151A (zh) | 基于协调多尺度特征增强网络的驾驶场景多任务感知方法 | |
| CN120107313A (zh) | 一种基于YOLOv8模型和Byte Track算法的多目标追踪方法 | |
| Yuan et al. | Multi-level object detection by multi-sensor perception of traffic scenes | |
| Liang et al. | Small Target Detection Algorithm for Traffic Signs Based on Improved RT-DETR. | |
| Chen | Road target detection method based on improved YOLOv8 | |
| CN119832211A (zh) | 一种航拍场景红外小目标检测方法、电子设备及存储介质 | |
| Cao et al. | Adaptive ROI Optimization Pyramid Network: Lane Detection for FSD under Data Uncertainty. | |
| CN119942114A (zh) | 一种增强车辆边界感知和全局分割能力的三维点云语义分割系统 | |
| CN119445073A (zh) | 基于Real-ESRGAN和改进YOLOv5的道路小目标检测算法 | |
| Shi et al. | MFF-Net: Multimodal Feature Fusion Network for 3D Object Detection. | |
| Sanchez-Garcia et al. | SalsaNext+: A multimodal-based point cloud semantic segmentation with range and RGB images | |
| CN118587686A (zh) | 一种基于transformer特征增强的月面障碍识别方法 | |
| CN117409378A (zh) | 一种基于深度学习的路侧行人车辆检测方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |