CN110009679A

CN110009679A - 一种基于多尺度特征卷积神经网络的目标定位方法

Info

Publication number: CN110009679A
Application number: CN201910148554.9A
Authority: CN
Inventors: 孙俊; 周以鹏; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Uni Entropy Intelligent Technology Wuxi Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-07-12
Anticipated expiration: 2039-02-28
Also published as: CN110009679B

Abstract

本发明提供一种基于多尺度特征卷积神经网络的目标定位方法，属于计算机视觉领域。本方法针对实际应用中诸多数据集标签部分缺失、无定位标注等问题，提出了基于多尺度特征卷积神经网络的弱监督定位方法，其核心思想利用神经网络分层的特性，在多层卷积层上使用梯度加权类激活映射，生成梯度金字塔模型，并通过均值滤波计算特征质心位置，利用置信强度映射和阈值梯减模块产生连接的像素段，围绕最大边界标注进行弱监督定位。在标准测试集上的实验结果表明，算法能够在存在大量类别、多尺度图像的情况下完成目标定位，具有较高的精确度。

Description

一种基于多尺度特征卷积神经网络的目标定位方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多尺度特征卷积神经网络的目标定位方法。

背景技术

目标定位是计算机视觉领域重要的研究方向之一。目标定位的目的是确定一个目标在图像中的位置。目前常见的定位方法是利用监督学习算法，根据目标的类别和位置信息训练，在测试集中完成目标定位。在许多实际应用中，如小目标检测、交通目标、多模态目标检测、医学目标检测等任务中，数据短缺，标注缺失众多，无法满足神经网络检测检测任务的需求。并且在这些应用中，数据集类别之间差异性较大，将部分目标的标注缺失严重污染了背景特征空间，分类器难以区分出已知类别和当前目标的差异性，容易错分成背景类，从而混淆了监督模型的判断能力，这就导致模型的准确度降低。

算法的改善从两个方面出发。在特征表示层面，随着深度学习的发展，特征工程越来越庞大，面对复杂的环境和目标信息较弱的情况下，有效的目标特征，融合多维度、多尺度特征完善目标模型是十分重要的。从模型方法层面上，弱监督学习方法不依赖于目标标签，当数据集标注缺失，数据集已知检测类别但数据集规模不足以完成训练时，易于拓展到新的对象类中。研究学者在图像目标的特征表示层面进行了诸多的工作。早期在图像处理领域，对于有纹理的实例目标上，能够提取稳定丰富的特征点和相应的特征描述子，纹理物体可以基于这些特征点和特征描述子被准确识别和检测。如SIFT算法、其它判别性特征描述子PCA-SIFT算法、SURF算法。随后Dalal等人提出使用图像局部梯度方向直方图(HOG)作为特征，利用支持向量机(SVM)作为分类器进行行人检测，手工特征要求设计者拥有较多的专业领域知识。随着神经网络和深度学习的发展，Ross Girshick等人提出R-CNN、Fast-RCNN和Faster-RCNN一系列算法，使用卷积神经网络构建丰富的特征层次结构用于精确目标检测与语义分割，只使用了最后一层特征图输出，但是没有充分利用目标多尺度特征。He等人提出SPP-NET在最后一层卷积后，加入空间池化层，使得任意大小的特征图都能够转换成固定大小的特征向量。Liu等提出SSD网络使用一阶检测结构、多尺度特征图来进行预测，提高了检测精度，但是没有利用最底层特征同时缺少了不同特征图层间的相互构建。Lin等人提出了特征金字塔模型，在结合多尺度特征图的基础上，加入了底层特征图和特征图上采样融合，更加完善了目标模型。

在卷积神经网络中利用弱监督定位方法同样有许多研究，该方法仅仅使用整个图像类别标签对图像中的对象进行定位。近年来，Vinyals等人提出类激活映射方法(ClassActivation Map,CAM)，这种方法修改了图像分类的卷积神经网络架构，用卷积层和全局平均池化替换全连接层，缺点是该网络结构要求特征映射需要在分类层之前，导致在除了分类任务外可能低于一般网路结构。Lu等人使用全局最大池化和对数汇总池化研究了类似的方法。Selvaraju等人在类激活映射的基础上，引入了梯度信号组合特征映射(GradientClass Activation Map,Grad-CAM)的方法，不需要对原生网络架构进行修改，没有利用多尺度特征的梯度和特征融合。其他方法利用分类输入图像的扰动进行目标定位。Zeiler和Fergus等人通过遮挡斑块和对遮挡图像进行分类来扰动输入，当这些对象被遮挡时，通常会导致相关对象的分类分数降低。quab等人对包含一个像素的许多补丁进行分类，然后对这些补丁的分类分数进行平均，以提供像素的分类分数，运算包括多次前向和后向计算，效率较低。Zhang等人引入了对比边际获胜概率(c-MWP)，用于模拟可突出区分区域的神经分类模型的自上而下的注意力，只适用于图像分类任务，目标定位较差。

发明内容

本发明旨在提供一种基于多尺度特征卷积神经网络的目标定位方法，该方法是基于多尺度特征的端到端弱监督定位算法，充分利用深度神经网络多尺度特征，通过梯度加权类激活映射，生成梯度金字塔模型，为每一个预测类别生成梯度金字塔，并通过均值滤波计算特征质心位置，利用置信强度映射和阈值梯减模块产生连接的像素段，围绕最大边界进行弱监督定位。通过多个实验表明，算法能够在提供较少标签的情况下完成精确目标定位，性能优于其他方法。

本发明的技术方案：

一种基于多尺度特征卷积神经网络的目标定位方法，步骤如下：

步骤1、将任意大小的单尺度图像输入卷积神经网络ConNet，利用特征金字塔模型以及梯度类平均映射Grad-CAM算法，计算分类的交叉熵误差L_cross-entrop,计算相对应的引导反向传播梯度卷积神经网络ConNet每一层输出为{C₂,C₃,...,C_l}，通过主干卷积网络计算预测类别c，针对类别的得分y^c，输入图像I的大小w*h；其多层特征图与输出相对应为{F₂,F₃,...,F_l}。

步骤2、计算每一层的重要性权重在多层特征图上计算像素级空间强度并利用ReLU激活函数

步骤3、针对每层梯度金字塔，进行上采样和横向连接操作，求出叠加后的强度，即

步骤4、针对叠加后的在计算热力图后，计算全局峰值γ，以缩放因子σ进行缩放，作为局部最大阈值。对每个热力图应用最大滤波器和最小滤波器，对应计算最大均值滤波后的和最小均值滤波后的并计算差分热力图，将差异不变像素点置0，以获得具有局部最大质心的可能区域。

步骤5、经过多次膨胀，生成多个候选点，找出最佳质心，然后利用缩放后的全局峰值进行梯减。

步骤6、围绕梯减后的最大边界，选出最大矩形框的坐标[xmin,ymin,xmax,ymax]。输出所有图像的目标预测类别D_class和坐标合集D_loc。

本发明的有益效果：为了提高在数据集缺失、标注稀少，大量应用场景缺少目标定位信息问题，提出了一种基于梯度金字塔的弱监督目标定位算法。本发明利用梯度回传和神经网络结构构建梯度金字塔，在只有分类信息的基础上通过阈值梯减完成目标定位，算法有两个优点：1)充分利用多尺度深度特征信息，实现对目标浅层结构与深层语义信息的特征融合；2)通过寻找合适特征质心，以阈值梯减策略精确的完成了目标定位任务。通过在数据集上算法的比较，表明该算法可以有效的利用多尺度特征信息，提高在弱监督定位任务上性能，具有较好的泛化性。下一步的研究目标是设计基于类别的自适应阈值策略和高鲁棒的弱监督非极大值抑制，来解决无位置标签的弱监督目标定位。

附图说明

图1为基于梯度金字塔的目标弱监督定位网络框架。

图2为梯度金字塔。

图3为弱监督定位流程图。

图4为实验效果图。其中，(a-1)--(a-4)为原图预处理之后，(b-1)--(b-4)为预测类别导向回传误差图，(c-1)--(c-4)为梯度金字塔生成热力图，(d-1)--(d-4)导向的梯度金字塔，(e-1)--(e-4)弱监督预测区域回归框。

图5为实验预测框与真实标签效果图。其中，(a)-(h)分别为8种目标的实验预测框与真实标签。

图6为PASCAL VOC2012对比实验结果图。

图7为细粒度分类的目标定位效果图。其中，(a-1)--(a-3)为原图预处理之后，(b-1)--(b-3)为梯度金字塔热力图，(c-1)--(c-3)为弱监督预测区域回归框。

具体实施方式

下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。

1.数据集和评估指标

(1)ImageNet-ILSVRC2012

ImageNe数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集，其每年度创建大规模视觉识别挑战赛-ILSVRC。图像可以应用于图像分类，目标定位，目标检测，视频目标检测，场景分类等多种计算机视觉任务，图像包含目标明确的类别标注和图像中物体位置的标注。我们使用的LSVRC2012是ImageNet的2012年公布数据集，包含1000个类别，每个类别选取约1000张图片，其中有120万张训练图片，5万张验证图片和15万张测试图片。我们使用验证集进行弱监督目标定位任务的验证，实验评估指标分为Top1误差,Top5误差，具体为预测第一类和前五类目标的分类和位置误差。其中y_i为正确的样本，m为总样本数，D为样本集合。

其中，位置误差以交并比0.5为阈值判定正负样本。

其中R_pred为预测范围区域。R_gt为实际范围区域。误差其数值越低越好。

(2)PASCAL VOC2012数据集

PASCAL VOC(Visual Object Classes)竞赛数据集主要用于目标识别，其提供的数据集包含20类物体。图片像素尺寸大小不一。训练和验证集数据有11,530张图像，包含27,450个标注对象和6,929个语义分割。

2.参数设置

实验基于pytouch深度库，硬件配置为Centos操作系统，处理器为Intel Xeon E5，显卡为Nvidia-tesla-K80，内存为64G。图片预处理为224*224，通道数为3，并在三个通道上用平均值[0.485,0.456,0.406]，标准差[0.229,0.224,0.225]进行归一化。在VGG-19网络上使用第8、17、26、35层作为卷积网络的[conv2,conv3,conv4,conv5]，其输出为特征大小分别为[56*56,28*28,14*14,7*7]。ImageNet数据集阈值梯减因子设为0.85，VOC数据集设为0.75。

3.梯度金字塔

特征金字塔模型是用于在深度网络中检测不同卷积层的目标的模块。利用卷积神经网络的金字塔特征层级，其层级之间具备从低到高的语义结构，以此在整个过程中构建具备高级语义的特征金字塔。方法以任意大小的单尺度图像作为输入，并以全卷积的方式输出多层恰当大小的特征映射。过程独立于主卷积结构，金字塔结构主要包括两个方面，第一方面在前馈计算上的自下而上的路径，计算由尺度步长为2的多尺度特征映射组成的特征层级，同时，选择每个阶段的最后一层的输出作为特征映射参考集。对于ResNet网络，使用每个阶段的残差输出的特征激活。对于不同卷积层CONV2,CONV3,CONV4,CONV5，残差块的输出为{C₂,C₃,C₄,C₅}，步长分别为{S₂,S₃,S₄,S₅}个像素。第二方面是特征图上的自顶向下的路径和特征层间的横向连接。高层特征相对粗糙但是语义信息更强，通过自顶向下的路径和横向连接增强特征映射，进行更精确的定位。在空间分辨率上上采样为2倍，然后通过元素相加将上采样信息与当前层信息合并。迭代完成这个过程，直至金字塔构建。特征映射集为{P₂,P₃,P₄,P₅},对应于{C₂,C₃,C₄,C₅}，分别具有相同的大小。

4.Grad-CAM算法

梯度类平均映射算法(Grad-CAM)中，因为卷积神经网络可以捕捉到更深层次的视觉结构，其将输入网络最后一个卷积层的梯度信息来理解每个神经元对于目标决定的重要性。为了获得任意类别c的宽度u和高度ν的类别判别定位图首先计算每一个类别c的梯度得分，即y^c对于卷积层的特征图A^k的偏导，k为特征图中的每个子块，即这些梯度经过全局平均池化进行处理，获得神经元重要性权重

该权重表示了进行线性化后的神经网络结构，获取特征图k对于目标类别c对于的重要性。之后，算法利用ReLU激活函数进行特征图的加权前向激活：

经过ReLU函数，算法只关注对目标类别具有积极影响的特征，即增加了像素的强度等同于增加类别标签的判定置信度，负像素可能属于图像中的其他类别。算法提供了像素级空间梯度的可视化方法，具备细粒度特征的判别能力。另一方面，算法通过双线性差值对输入图像进行上采样，再利用逐点相乘，将导向反向传播和Grad-CAM可视化融合在一起。方法具有目标局部特征和类别的判别能力。

5.梯度金字塔模型

算法的基本架构如图1所示。为了适配在目标定位中可能存在的复杂的环境和数据条件，例如在数据信息量不多、无标注等视觉任务中。我们基于卷积网络结构的特点，其具有内在的多尺度金字塔形状，逐层计算特征层级。其方法不仅关注深层语信息，而且能够兼顾目标浅层的纹理、边缘信息，丰富特征空间。我们选择充分利用卷积网络特征层级的金字塔结构，创建在所有尺度上都具有强大语义的特征，将梯度在每一个层级特征图上进行回传，通过自顶向下的路径和横向连接相组合，构建梯度类映射金字塔模型，模型增加了不同尺度下特征的重要性强度。在本文中，我们的结构使用融合后的梯度信息来理解不同维度特征。首先计算当前图像前馈计算后的每层级输出为{C₂,C₃,...,C_l}，其中l对应着为不同卷积层，将每一级输出直接作为返回的特征图{F₂,F₃,...,F_l},因为第一层过于靠近输入图像，其网络判别信息不足，故不使用第一层。之后，网络计算预测输出类别c，求出每一个类别c的得分相对于所有特征层的梯度得分，即输出y^c对于l卷积层的特征图的偏导将偏导信息进行全局平均池化操作处理得到其中，每个特征图的对应子块k对应的池化范围为i,j，可知：

对每个层级下的不同特征图，其对应是{m,n,k},即单个特征的长宽和通道数。经过激活函数ReLU层，

获得当前梯度金字塔每层的特征得分

在每个梯度特征图我们进行两步操作。首先，将其上采样为两倍，使其与下一层梯度图形状相同。之后与下一层梯度强度图进行横向连接增强浅层特征强度与深层特征强度进行融合。每层之间的操作为：

对于最底部的梯度特征图输出，我们可以得到：

最高层特征图相对于底层特征图拥有更大的权重，因为高层特征图的语义信息更加集中，能够捕捉更多的视觉结构。图层间的横向连接，使梯度强度逐级增强。可以看出，基于梯度金字塔的特征信息更丰富，为计算机视觉任务提供更多的判断依据。

6.弱监督定位

算法将梯度金字塔结构应用弱监督定位任务上，通过网络预测目标类别，反向传播生成梯度金字塔，通过均值滤波器之后，利用过置信强度映射和阈值剔减模块，确定目标类别的有效特征区域，从而进行目标弱监督定位。

图3为弱监督定位的流程图。首先，我们经过主干卷积网络计算预测类别c。以类别得分根据梯度金字塔生成叠加后的特征强度在计算热力图后，我们选择全局峰值γ，按一定最大强度因子进行缩放，作为选择局部最大点的阈值，对于局部位置其强度足够高。最大强度因子的设置依赖于数据集的先验知识，一部分取决于数据集中目标大小占全图像素的平均比例，一部分取决于图像分类的细粒度程度。我们以平均比例当为初始值，之后作为超参数进行调节。为了选取热力图中的显著特征点，我们对每个热力图应用最大滤波器和最小滤波器，并计算差分热力图，以获得具有局部最大质心的可能区域。

对于大于图像中的阈值的所有局部最大值，我们对它们使用扩张操作以累积多个候选点，并选择累积分量的质心作为预测边界框的中心。在质心确定的基础上，我们设定阈值梯减，以缩放后的峰值γ_local取得质心点百分比区域。对于多个局部质心相相距较远点，我们利用非极大值抑制选取目标定位框。

基于梯度金字塔的弱监督网络结构不需要重新对于原生网络的训练，只依赖于原生网络的类别判断能力，速度更快。同时，模型在特征可视化的基础上具备高度的可解释性，不同于其他网络结构，对于每张图片，我们可以清晰的看到哪部分特征对于目标分类决策产生积极的影响，基于特征的强度进行目标位置决策更加可信。在梯度热力图的基础上，我们同时提供了对于细粒度类别重要性的空间可视化方法，在定位到目标区域的基础上，我们通过逐点相乘将导数的反向传播和梯度金字塔融合在一起，构建导向的梯度金字塔E^c,(GGP,GuidedGrad-Pyramid)。

E^c＝S^c⊙I (9)

其中S^c为类别c的梯度强度图，I为误差相对图像的导数反向回传。这种可视化方法既具备高分辨率，同时具有类别判别能力，图像清晰的识别出目标的细粒度特征(例如条纹、耳朵、眼睛等)，有利于我们对于模型的分类判别能力进行评估，从而指导调整模型进一步精确目标的弱监督定位工作。

7.组内对比实验

为了验证在不同卷积网络结构梯度金字塔的有效性，针对不同的网络VGG-19,ResNet50，ResNet101进行网络结构对比实验。实验是直接在网络源生网络上直接进行推断，源生网络只是分类网络，标签只使用了类别信息。所有的图片没有利用目标位置信息进行训练，整个数据集视为无位置标注数据集。

表1主干网络对比实验

表1列出了本文算法在三种主干卷积网络中的效果，实验验证了LSVRC2012中5万张图片的位置误差和分类误差。实验结果可以看出在不同的主干网络结构下，算法能够完成较好的目标定位。分类的误差依赖于网络的预训练过程。同时，实验结果表明在越深的深度网络结构下，梯度金字塔的融合效果越好。

针对梯度金字塔的改进网络结构，我们在IMAGENET数据集上利用VGG主干网络运算、梯度金字塔生成和梯度金字塔多层融合进行了相应的运算复杂度实验。

表2梯度金字塔网络结构运算时间

其中，主干网络前后向运算过程中保存了4张特征图的大小，和其他算法相比保存了中间运算过程，不额外增加运算时间。同时，在采样叠加操作上，每层特征图形状因为是固定的，梯度图形状越大，运算时间相应增多。单层采样叠加运算时间远小于梯度图运算时间。其运算的复杂度可以概括为常数主干网络时间τ与梯度金字塔生成时间O(n)，其中n为叠加次数，但因为前几层网络梯度信息不明显，一般只利用后4层作为特征图。由表2可以看出，每一层运算的平均时间。在加入预处理操作后，数据集平均运算时间为10FPS。

8.对比实验分析

为了验证梯度金字塔弱监督的性能，将我们选取了Backprop，c-MWP，Grad-CAM，3种近年来出现的算法进行对比。Backprop算法直接利用反向传播梯度进行可视化，没有加池化操作和激活；c-MWP算法利用入了对比边际获胜概率，用于模拟可突出区分区域的神经分类模型。Grad-CAM算法仅利用最后一层特征梯度进行回传。表3为各种算法在ImageNet-ILSVRC2012上的弱监督定位效果。误差分为最优类定位与分类误差，前五类定位与分类误差。数值越低越好。

表3算法对比实验

为了评估和其他算法的效果，我们采用了VGG-19网络代替了ResNet101网络。从表2可以看出，我们的算法在标准指标值上均位列第一。在最优分类误差上高于第二名Grad-CAM算法4.1个百分点，高于c-MWP算法18个百分点，体现出在主要目标上我们的算法优秀的目标定位效果，同时，在前五类位置误差上，我们的算法高于第二名算法0.8个百分点，高于c-MWP算法18个百分点，在预测多个细粒度类别时，质点位置定位更加准确。在分类误差上，因为都使用了相同的主干网络，没有进行多余的训练，所以分类误差无变化。

同时我们在VOC2012数据集上利用训练微调，微调过程只针对分类任务，没有加入目标定位信息。整个数据集视为无位置标注数据集。

在20类物体对应成为4类目标，计算预测IOU高于0.5的框数目与所有目标框数目比例，实验效果如图6：

可以算法看出在动物、室内物品、人类预测效果好于交通工具类，同时，针对4个类别，本文算法都优于其他算法表现效果。

9.实验结果分析

图4显示了算法在4类目标上的弱监督定位效果。可以看出在不同种类的目标上，我们的算法在导向回传时成功的识别了目标的轮廓和边缘细节，在梯度金字塔热力图中生成了具有强关联的深度特征，为目标任务决策提供了可靠的依据。图5显示了我们的算法与实际标签的对比效果，可以看出算法在深度特征上定位到了目标的边缘与轮廓结构，在多尺度目标上找出了目标最优位置。针对细粒度类分类，不同的类别同时，通过恰当的阈值梯减，在多种场景环境、多种类别下准确的完成了弱监督目标定位任务。图7显示了算法在细粒度类别下的目标定位效果，图中为三种都为狗类别下的子类，可以看出定位专注于目标面部具有高置信度的特征区域，四肢区域的特征贡献度较少，背景贡献度基本忽略，高置信度特征利于我们确定核心区域进行弱监督定位。

Claims

1.一种基于多尺度特征卷积神经网络的目标定位方法，其特征在于，步骤如下：

步骤1、将任意大小的单尺度图像I输入卷积神经网络ConNet，利用特征金字塔模型以及梯度类平均映射Grad-CAM算法，计算分类的交叉熵误差L_cross-entrop,计算相对应的引导反向传播梯度卷积神经网络ConNet每一层输出为{C₂,C₃,...,C_l}，通过主干卷积网络计算预测类别c，针对类别的得分y^c，输入图像I的大小w*h；其多层特征图与输出相对应为{F₂,F₃,...,F_l}；

步骤4、针对叠加后的在计算热力图后，计算全局峰值γ，以缩放因子σ进行缩放，作为局部最大阈值；对每个热力图应用最大滤波器和最小滤波器，对应计算最大均值滤波后的和最小均值滤波后的并计算差分热力图，将差异不变像素点置0，以获得具有局部最大质心的可能区域；

步骤5、经过多次膨胀，生成多个候选点，找出最佳质心，然后利用缩放后的全局峰值进行梯减；

步骤6、围绕梯减后的最大边界，选出最大矩形框的坐标[xmin,ymin,xmax,ymax]；输出所有图像的目标预测类别D_class和坐标合集D_loc。

2.根据权利要求1所述的目标定位方法，其特征在于，所述步骤1中，特征金字塔模型中金字塔结构主要包括两个方面：第一方面在前馈计算上的自下而上的路径，计算由尺度步长为2的多尺度特征映射组成的特征层级，同时，选择每个阶段的最后一层的输出作为特征映射参考集；对于ResNet网络，使用每个阶段的残差输出的特征激活；对于不同卷积层，残差块的输出为{C₂,C₃,...,C_l}，步长分别为{S₂,S₃,...,S_l}个像素；第二方面是特征图上的自顶向下的路径和特征层间的横向连接；高层特征相对粗糙但是语义信息更强，通过自顶向下的路径和横向连接增强特征映射，进行更精确的定位；在空间分辨率上上采样为2倍，然后通过元素相加将上采样信息与当前层信息合并；迭代完成这个过程，直至金字塔构建；特征映射集为{P₂,P₃,...,P_l},对应于{C₂,C₃,...,C_l}，分别具有相同的大小。

3.根据权利要求1或2所述的目标定位方法，其特征在于，所述的梯度金字塔使用融合后的梯度信息来理解不同维度特征，具体步骤如下：

(1.1)以任意大小的单尺度图像作为输入，计算当前图像前馈计算后的每层级输出为{C₂,C₃,...,C_l}，其中l为不同卷积层，将每一级输出直接作为返回的特征图{F₂,F₃,...,F_l}；

(1.2)网络计算预测输出类别c，求出每一个类别c的得分相对于所有特征层的梯度得分，即输出y^c对于卷积层l的特征图F_l ^k的偏导将偏导信息进行全局平均池化操作处理得到其中，每个特征图的对应子块k对应的池化范围为i,j，可知：

对每个层级下的不同特征图，其对应是{m,n,k}，即单个特征的长宽和通道数；经过激活函数ReLU层，

获得当前梯度金字塔每层的特征得分

在每个梯度特征图进行两步操作：首先，将其上采样为两倍，使其与下一层梯度图形状相同；之后与下一层梯度强度图进行横向连接增强浅层特征强度与深层特征强度进行融合；每层之间的操作为：

其中，表示上采样函数，图像内插值方法；

对于最底部的梯度特征图输出，得到：

其中，L表示网络层数；

最高层特征图相对于底层特征图拥有更大的权重，因为高层特征图的语义信息更加集中，能够捕捉更多的视觉结构；图层间横向连接，梯度强度逐级增强。