CN106709568A

CN106709568A - 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法

Info

Publication number: CN106709568A
Application number: CN201611168200.3A
Authority: CN
Inventors: 刘波; 邓广晖
Original assignee: Beijing University of Technology
Current assignee: Shenzhen Xiaofeng Technology Co ltd
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-05-24
Anticipated expiration: 2036-12-16
Also published as: CN106709568B

Abstract

本发明公开了基于深层卷积网络的RGB‑D图像的物体检测和语义分割方法，属于深度学习及机器视觉领域。本方法采用的技术方案中使用Faster‑RCNN替换原来缓慢的RCNN，Faster‑RCNN使用GPU不仅在提取特征方面拥有很快速度，而且在网络中能同时产生区域方案，能够实现整个训练过程是端到端的训练，同时使用FCN执行RGB‑D图像的语义分割，FCN使用GPU和深层卷积网络快速提取图像的深层特征，利用反卷积操作把图像卷积的深层特征和浅层特征进行融合，把图像的局部语义信息融入到全局语义信息中。

Description

基于深层卷积网络的RGB-D图像的物体检测和语义分割方法

技术领域

本发明属于深度学习及机器视觉领域，尤其涉及一种包含RGB-D图像的物体检测和语义分割方法，这在现实场景中具有非常广泛的应用，例如在监控视频中对行人进行检测与跟踪、无人机导航、自动驾驶等。

背景技术

物体检测和语义分割是计算机视觉的两个重要研究领域，物体检测主要用于检测图像中物体的位置以及物体的类别，物体检测的主要有两个任务，一是找出物体的区域方案(Region Proposals)，区域方案是一种预选边框，代表着一个物体在图像中的大致位置；二是对预选边框中的物体进行分类。语义分割解决的问题是对图像的每一个像素点赋以正确的标签，语义分割主要应用于场景理解并且存在很多潜在的应用。随着深层卷积神经网络的兴起，基于深层卷积神经网络的物体检测已成为目前最为盛行的检测算法，同样基于(Region Proposals)的语义分割已成为目前最为盛行的语义分割算法。

一、比较盛行的用于产生Region Proposals的方法如下。

传统的产生Region Proposals的方法有很多种，比如选择性搜索(SelectiveSearch)，根据图像的不同颜色特征(如HSV颜色空间，Lab颜色空间等)合并超像素(具有相似特征的相邻像素块)，一张图像在CPU模式下使用选择性搜索产生Region Proposals的时间为2s。多尺度组合分组(MCG)，需要在多种缩放尺度下根据轮廓特征合并超像素产生区域候选方案，然后根据区域方案的面积、周长、边界强度等二维特征进行排名。边缘边框(EdgeBoxes)，使用滑动窗口的方法产生区域方案，利用边缘信息(边框内的轮廓个数和与边框边缘重叠的轮廓个数)，对Region Proposals进行排序。上面这些方法都是在CPU模式下进行。区域方案网络(Region Proposals Network，简称RPN)能够在GPU模式下利用深层卷积神经网络提取图像特征的同时产生的Region Proposals。这使得物体检测的速度得到很大提高。

二、快速的用于物体检测的区域深层卷积神经网络如下。

随着快速的区域深层卷积神经网络在物体检测的速度和准确率上的明显提高，随后出现了很多更快的深层卷积神经网络，比如Faster-RCNN由两个网络组成，一个是RPN，用于产生Region Proposals，一个是快速的区域深层卷积神经网络，用于物体识别；YOLO把物体边框的选择与识别进行了结合，经过一次网络同步完成，但是YOLO对一幅图像产生的区域方案只有98个，导致物体边框的精确度比较低；SSD是在每一层特征图像上产生默认边框，优点是对于低分辨率的输入图像，也能产生高精确度的边框，缺点是检测系统对边框的大小很敏感，对于小物体，检测性能较差；R-FCN是一种基于FCN的物体检测网络，该网络舍弃了分类器层，把全连接层转变为卷积层，主干网络选择ResNet-101，并且提出了一种对物体位置敏感的映射方法来解决物体的平移可变性。

三、语义分割网络如下。

全卷积网络改编自卷积神经网络，它使用卷积层代替全连接层。为了实现图像的语义分割，FCN采用的方法是对深层特征图像执行一个或多个反卷积操作，使得深层特征图像的尺寸和原图像尺寸一样，然后利用Softmax分类器对每一个像素点进行分类，它实现了针对整张图片的端到端的像素到像素的语义分割，但反卷积操不能考虑到下采样过程中失真信息。SegNet不采取反卷积操作，而是对深层特征图像执行逐层上采样操作，同样使得深层特征图像的尺寸和原图像尺寸一样，然后利用Softmax分类器对每一个像素点进行分类，它考虑了图像在卷积过程因为下采样而失去的失真信息，但这样会带来很大的内存消耗。DeepLab模型在FCN之后添加一个条件随机场(Conditional Random Field，简称CRF)的后处理操作，对分割后的图像在边缘细节方面进行优化，但是这个处理过程不是端到端的处理过程，为了解决这个问题，CRFasRNN把CRF和深度学习技术进行结合，使得整个网络结构是一个端到端的可训练的网络。

以上这些研究工作主要集中在RGB彩色图像上，随着深度图像传感器的普及，例如Intel RealSense 3D Camera、Asus Xtion PRO LIVE、Microsoft Kinect，越来越多的研究者都把研究重心转移到RGB-D图像上，例如物体检测、三维重建、机器人视觉、虚拟现实、图像分割等。图像分割主要集中在语义分割、实例分割、情景标签等领域。

关于RGB-D图像的研究，其中最典型的是Gupta等人在RCNN的基础上充分使用了RGB-D图像研究物体检测，以及基于超像素特征的语义分割。物体检测过程中他们提出一种新颖的把深度图像转变为三通道图像的转变方法，并把这三通道命名为HHA，首先使用多尺度组合分组的方法产生区域方案，然后分别训练RGB和HHA的RCNN，合并这两个网络提取的特征，最后使用支持向量机对每个区域方案进行分类。语义分割过程中，基于超像素的深度特征(以地球为中心的姿态)和几何特征(大小、形状)利用支持向量机对超像素进行类别标签的预言，但是该方法非常缓慢，使用多尺度组合分组的方法产生区域方案是一种非常缓慢的过程，使用速度缓慢并且冗余的RCNN，训练分为多个流水线阶段，计算超像素的特征是一个复杂并缓慢的过程。

发明内容

为了解决上面这些问题，本方法采用的技术方案中使用Faster-RCNN替换原来缓慢的RCNN，Faster-RCNN使用GPU不仅在提取特征方面拥有很快速度，而且在网络中能同时产生区域方案，能够实现整个训练过程是端到端的训练，同时使用FCN执行RGB-D图像的语义分割，FCN使用GPU和深层卷积网络快速提取图像的深层特征，利用反卷积操作把图像卷积的深层特征和浅层特征进行融合，把图像的局部语义信息融入到全局语义信息中。

为了实现上述目的，本发明采用的技术方案为基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，关于物体检测和语义分割任务，本方法的内容在于：

S1、通过RGB图像计算灰度图像，通过灰度图像和HHA图像合并成HHG图像。如图2所示，HHA三个通道的离散傅里叶变换的光学图像中，有最明显的区别是A通道的离散傅里叶变换，其体现在直流分量即横纵坐标轴的强度很微弱，故舍去这个通道。由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈，使用RGB图像的灰度图像替换HHA图像的中的A通道图像，所以使用融合RGB图像和深度图像的三通道图像为HHG图像。

S2、使用Faster-RCNN作为HHG图像的物体检测系统。使用HHG图像作为网络的输入数据，通过Faster-RCNN中的RPN产生Region Proposals，通过Fast-RCNN提取RegionProposals的特征，然后对每一个Region Proposals进行分类，本方法的检测结果为，在HHG图像中用一个矩形框标出物体的位置和范围，并且标出该矩形框中物体的类别，如图1中物体检测图所示。

S3、改变非极大值抑制(Non-Maximum Suppression，简称NMS)保留边框的机制，把边框周围的边框数量作为评价因素。如图3所示。具体的步骤如下：

每一个边框是一个5元组(x1,y1,x2,y2,score)，其中(x1,y1)是边框左上角的坐标，(x2,y2)是边框右下角的坐标，score是边框中包含物体的置信度。边框首先按照score值对每一个元组进行升序排序。按如下公式计算边框的交比并(Intersection-over-union)重叠率。

其中，O_(i,j)表示边框i和边框j的交比并重叠率，inter_(i,j)表示边框i和边框j的重叠面积，area_(i)表示边框i的面积，area_(j)表示框j的面积。对于边框i，统计的数量Sum_i，如果Sum_i≥δ，舍去边框i，反之保留，n代表边框总数量，δ代表取舍阈值。

S4、利用HHG图像和FCN完成RGB-D图像的语义分割任务。使用HHG图像作为FCN的输入数据，通过FCN提取语义特征并分类后，输出HHG图像中每一个像素点的类别标签，用标签值作为该像素点的像素值。本方法的分割结果为HHG图像中属于同一类别的像素点显示相同的颜色如图1中语义分割图所示。

本文的物体检测和语义分割的结构框架如图1所示。

附图说明

图1 RGB-D图像的物体检测和语义分割的流程图以及效果图

图2 HHG图像和RGB图像，HHA图像对比图

图3减少边框时nms’和top2000对比图

具体实施方式

以下将结合附图和实施例对本发明作进一步详细说明。

本发明将会从以下几个方面进行阐述：RGB图像和深度图像的融合、修改过的NMS、模型的训练以及实验结果。

基于深层卷积网络的RGB-D图像的物体检测和语义分割方法包括如下步骤：

第一、按照上述方法把RGB图像和深度图像融合成HHG图像；

第二、训练物体检测系统模型；

Faster-RCNN的训练方式有三种：一是交替训练(Alternating Training)，二是近似联合训练(Approximate Joint Training)，三是非近似联合训练(Non-approximateJoint Training)。本方法使用的是交替训练方案，交替训练方案的思路是使区域方案网络和Fast-RCNN共享卷积层参数，微调属于各自网络的参数，这种方案首先训练区域方案网络，其次根据区域方案网络产生的区域方案训练Fast-RCNN模型，然后使用Fast-RCNN模型初始化区域方案网络。这个过程能够重复执行。

本方法使用的是4-步交替训练方案：第一步，使用在ImageNet数据集上预训练的模型初始化网络，训练区域方案网络；第二步，使用第一步的区域方案网络产生的区域方案作为Fast-RCNN的预检测边框，使用在ImageNet数据集上预训练的模型初始化网络，训练Fast-RCNN。第三步，使用第二步训练的网络初始化区域方案网络并训练网络，因为使用了共享卷积层参数，所以这里只微调属于区域方案网络的网络层参数。第四步，同样共享卷积层参数，使用第二步训练的网络初始化Fast-RCNN并微调只属于该网络的网络层参数。我们把第一步和第二步统称为第一阶段，第三步和第四步统称为第二阶段。

本文损失函数的计算方法参考于Faster-RCNN的多任务损失(Multi-task loss)公式，公式表达式如下：

其中，p_i表示第i个锚点边框(Anchors box)包含物体的预言概率，表示地面真值(Ground-Truth)标签，如果锚点边框是正例，如果锚点边框是反例，t_i表示预言边框i的坐标(4个参数)，表示与正例锚点边框有关联的地面真值边框。L_cls表示Softmax分类损失，表示边框回归损失，N_cls表示块大小，实验中N_cls＝256。N_reg表示锚点边框的数量，λ表示一个均衡系数，实验中取λ＝10，的计算方法参考于Fast-RCNN，公式如下：

第三、训练语义分割系统模型

全卷积的训练时，反向传播同样使用随机梯度下降(Stochastic gradientdescent，简称SGD)进行反向传播，损失是对每一个像素点的Softmax损失进行求和。全卷积的训练网络(本文中只使用Vgg-16网络)分为三种。第一种是在conv7卷积层后执行一个跨步(Stride)为32的反卷积操作(FCN-32s)；第二种是对conv7卷积层执行一个跨步为2的反卷积结果与pool4池化层结果执行一个融合(均值)，然后对这个融合结果执行一个跨步为16的反卷积操作(FCN-16s)；第三种是对三种结果进行融合，这三种结果分别为对conv7执行一个跨步为4的反卷积结果，对pool4池化层执行一个跨步为2的反卷积结果，pool3池化层。利用这个融合结果再进行一次跨步为8的反卷积操作(FCN-8s)；其中第二种和第三种方式被称为全卷积网络的跳跃框架。

全卷积网络训练过程通常是使用一个训练好的模型微调FCN-32s网络，然后FCN-16s基于FCN-32s模型微调跳跃框架的模型，最后使用FCN-16s的模型微调FCN-8s的模型。本文沿用这种训练模式，使用FCN-8s训练的模型进行测试，并作为最后的实验结果。

第四、实验结果；

使用RGB彩色图像和深度图像的融合图像---HHG图像进行实验，使用HHG图像实现物体检测的平均正确率为37.6％(表1，第6列)，比Gupta等人的结果提高5.1％。

表1：1,2,3列是Gupta等人的实验结果，4-8列是本方法的实验结果，其中nms’代表的是使用修改过的非极大值抑制后的实验。实验结果是平均准确率的百分数。

经过区域方案网络产生的边框数量约有17000个，再经过非极大值抑制处理重叠的边框，剩下2000到3000个边框，这个过程需要的平均时间为0.71s，然后再进行一次修改后的非极大值抑制让边框的数量降低到2,000(±50)，这个过程需要的平均时间为0.133s。其中关于δ的取值请参考表2。当边框数量在不同区域(2050到3000之间)时δ的取值(δ∈[8,13])有所不同，当数量低于2050时，不执行修改过的非极大值抑制，当数量大于3000时(这种情况很少出现)，取score值最高的2000个框。实验结果的平均正确率在HHG图像的基础上提高1.6％(表1，第7列)。

最后使用VGG-16网络模型作为最终的物体检测实验结果，平均正确率为43.7％(表1，第8列)，比Gupta等人的实验结果提高11.2％。

表2：第一行代表经过第一次非极大值抑制处理剩下的边框数量区间，第二行代表δ在不同区间的取值。

关于分割结果如表3所示。本方法使用HHG图像在FCN-8s网络下获得了最好的分割结果，平均交比并从Gupta等人的28.6％提高到30.9％。

表3：40种语义分割标签的IU(％)，第一行是Gupta等人的语义分割结果，第二行到第四行是我们使用HHG图像分别在FCN-32s，FCN-16s，FCN-8s网络下的语义分割结果。

Claims

1.基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：

S1、通过RGB图像计算灰度图像，通过灰度图像和HHA图像合并成HHG图像；HHA三个通道的离散傅里叶变换的光学图像中，有最明显的区别是A通道的离散傅里叶变换，其体现在直流分量即横纵坐标轴的强度很微弱，故舍去这个通道；由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈，使用RGB图像的灰度图像替换HHA图像的中的A通道图像，所以使用融合RGB图像和深度图像的三通道图像为HHG图像；

S2、使用Faster-RCNN作为HHG图像的物体检测系统；使用HHG图像作为网络的输入数据，通过Faster-RCNN中的RPN产生Region Proposals，通过Fast-RCNN提取RegionProposals的特征，然后对每一个Region Proposals进行分类，本方法的检测结果为，在HHG图像中用一个矩形框标出物体的位置和范围，并且标出该矩形框中物体的类别；

S3、改变非极大值抑制即NMS保留边框的机制，把边框周围的边框数量作为评价因素；具体的步骤如下：

每一个边框是一个5元组(x1,y1,x2,y2,score)，其中(x1,y1)是边框左上角的坐标，(x2,y2)是边框右下角的坐标，score是边框中包含物体的置信度；边框首先按照score值对每一个元组进行升序排序；按如下公式计算边框的交比并重叠率；

\underset{j = [i + 1, n]}{\underset{i = [1, n - δ]}{O_{(i, j)}}} = \frac{{inter}_{(i, j)}}{{area}_{(i)} + {area}_{(j)} - {inter}_{(i, j)}}

其中，O_(i,j)表示边框i和边框j的交比并重叠率，inter_(i,j)表示边框i和边框j的重叠面积，area_(i)表示边框i的面积，area_(j)表示框j的面积；对于边框i，统计的数量Sum_i，如果Sum_i≥δ，舍去边框i，反之保留，n代表边框总数量，δ代表取舍阈值；

S4、利用HHG图像和FCN完成RGB-D图像的语义分割任务；使用HHG图像作为FCN的输入数据，通过FCN提取语义特征并分类后，输出HHG图像中每一个像素点的类别标签，用标签值作为该像素点的像素值。

2.根据权利要求1所述的基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：

Faster-RCNN的训练方式有三种：一是交替训练，二是近似联合训练，三是非近似联合训练；本方法使用的是交替训练方案，交替训练方案的思路是使区域方案网络和Fast-RCNN共享卷积层参数，微调属于各自网络的参数，这种方案首先训练区域方案网络，其次根据区域方案网络产生的区域方案训练Fast-RCNN模型，然后使用Fast-RCNN模型初始化区域方案网络；这个过程能够重复执行。

3.根据权利要求2所述的基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：

本方法使用的是4-步交替训练方案：第一步，使用在ImageNet数据集上预训练的模型初始化网络，训练区域方案网络；第二步，使用第一步的区域方案网络产生的区域方案作为Fast-RCNN的预检测边框，使用在ImageNet数据集上预训练的模型初始化网络，训练Fast-RCNN；第三步，使用第二步训练的网络初始化区域方案网络并训练网络，因为使用了共享卷积层参数，所以这里只微调属于区域方案网络的网络层参数；第四步，同样共享卷积层参数，使用第二步训练的网络初始化Fast-RCNN并微调只属于该网络的网络层参数；我们把第一步和第二步统称为第一阶段，第三步和第四步统称为第二阶段；

本文损失函数的计算方法参考于Faster-RCNN的多任务损失公式，公式表达式如下：

L ({p_{i}}, {t_{i}}) = \frac{1}{N_{c l s}} \underset{i}{Σ} L_{c l s} (p_{i}, p_{i}^{*}) + λ \frac{1}{N_{r e g}} \underset{i}{Σ} p_{i}^{*} L_{r e g} (t_{i}, t_{i}^{*})

其中，p_i表示第i个锚点边框包含物体的预言概率，表示地面真值标签，如果锚点边框是正例，如果锚点边框是反例，t_i表示预言边框i的坐标(4个参数)，表示与正例锚点边框有关联的地面真值边框；L_cls表示Softmax分类损失，表示边框回归损失，N_cls表示块大小，实验中N_cls＝256；N_reg表示锚点边框的数量，λ表示一个均衡系数，实验中取λ＝10，的计算方法参考于Fast-RCNN，公式如下：

4.根据权利要求1所述的基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：

全卷积的训练时，反向传播同样使用随机梯度下降进行反向传播，损失是对每一个像素点的Softmax损失进行求和；全卷积的训练网络分为三种；第一种是在conv7卷积层后执行一个跨步为32的反卷积操作FCN-32s；第二种是对conv7卷积层执行一个跨步为2的反卷积结果与pool4池化层结果执行一个融合，然后对这个融合结果执行一个跨步为16的反卷积操作FCN-16s；第三种是对三种结果进行融合，这三种结果分别为对conv7执行一个跨步为4的反卷积结果，对pool4池化层执行一个跨步为2的反卷积结果，pool3池化层；利用这个融合结果再进行一次跨步为8的反卷积操作FCN-8s；其中第二种和第三种方式被称为全卷积网络的跳跃框架；

全卷积网络训练过程通常是使用一个训练好的模型微调FCN-32s网络，然后FCN-16s基于FCN-32s模型微调跳跃框架的模型，最后使用FCN-16s的模型微调FCN-8s的模型；本文沿用这种训练模式，使用FCN-8s训练的模型进行测试，并作为最后的实验结果。