CN116994005A

CN116994005A - 一种基于模态特性与分层融合的rgb-d显著性检测方法

Info

Publication number: CN116994005A
Application number: CN202311044386.1A
Authority: CN
Inventors: 谢欢; 戴蒙
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-11-03

Abstract

本发明涉及一种基于模态特性与分层融合的RGB‑D显著性检测方法，包括以下步骤：获取图像对；建立两个特征提取网络；多个层次提取RGB图与深度图特征，得到RGB特征图与对应的深度特征图；采用基于模态特性的交互方式，使用RGB引导增强模块，得到增强的深度特征图，并使用Depth引导增强模块对每一层的RGB特征图进行增强，得到增强的RGB特征图；采用分层次的重连接融合方式，得到空间特征图；将空间特征图和语义特征图最终融合，得到最终的基于模态特性与分层融合的RGB‑D显著性检测模型；输出包含显著对象的预测图像对。解决了常见显著性检测方法在复杂场景下，交互不能充分利用信息差异性、融合兼容性较差的问题。得到质量更高、细节更多的显著对象的预测图像对。

Description

一种基于模态特性与分层融合的RGB-D显著性检测方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于模态特性与分层融合的RGB-D显著性检测方法。

背景技术

显著性检测旨在检测和分割出图片中最能吸引人关注的区域或目标，可以作为图像重定向、图像压缩和AR交互等广泛计算机视觉任务领域的前置任务。目前RGB-D显著性目标检测任务通常采用卷积神经网络技术，通过大规模数据训练端到端模型，相较于传统方法，有着能捕获更多特征，以及在显著性目标检测上有更高精确度的优势。然而目前的大部分基于卷积网络的显著性检测方法无法充分利用跨模态特征信息，在面对一些RGB图与深度图中的复杂场景时，往往无法有效识别显著目标。

复杂场景下的RGB图片与深度图片分别存在如下问题：1)RGB图：由于背景杂乱，光照条件较差，显著目标检测困难，最终结果可能目标结构不完整；2)深度图：当场景布局较为复杂时，显著目标同深度位置下通常存在其他物体，会导致识别时存在歧义，最终结果可能误识别到其他物体。常规技术方案通常采用针对某个模态注意力增强或者交互融合两个模态，没有充分利用不同模态特征信息差异针对性的对两个模态进行增强，导致识别效果提升有限。此外，在特征融合生成预测图方面，一般的融合方法采用跳连接来不断还原分辨率的方式进行融合，忽略了不同阶段网络特征所含的信息特性不同，融合的兼容性较差，导致目标细节信息丢失。

发明内容

针对常见显著性检测方法在RGB图背景杂乱或者深度图布局混乱等复杂场景下，交互不能充分利用信息差异性、一般融合方法的融合兼容性较差的问题，提出了一种基于模态特性与分层融合的RGB-D显著性检测方法，充分利用不同模态的特征信息特点来跨模态交互，并分层重连接融合特征图。

本发明的技术方案为：

一种基于模态特性与分层融合的RGB-D显著性检测方法，包括以下步骤：

步骤S1：从RGB-D显著性检测任务广泛使用的基准数据集中，选取复杂场景下的图像对，每一个图像对包含一张RGB图以及其对应的深度图；

步骤S2：建立RGB-D显著性检测模型的两个特征提取网络；

在特征提取网络中，分别由低到高的多个层次提取RGB图与深度图特征，得到五层的RGB特征图与对应的深度特征图；

步骤S3：采用基于模态特性的交互方式，使用RGB引导增强模块，对特征提取网络的每一层的深度特征图进行增强，得到增强的深度特征图，并使用Depth引导增强模块对每一层的RGB特征图进行增强，得到增强的RGB特征图；

步骤S4：采用分层次的重连接融合方式，先特征图输入语义重连接融合模块，得到语义特征图，接着将特征图输入空间重连接融合模块，得到空间特征图；

步骤S5：将空间特征图和语义特征图进行最终融合，得到最终的基于模态特性与分层融合的RGB-D显著性检测模型；

步骤S6：输入的复杂场景下的图像对，通过最终的基于模态特性与分层融合的RGB-D显著性检测模型后，输出包含显著对象的预测图像对。

步骤S3中的RGB引导增强模块的具体操作为：连接深度特征图和RGB特征图，将两种模态连接后的特征图进行通道调整后,分别传入一个3×3和一个7×7的并行卷积层中；3×3卷积核提取局部特征信息,7×7卷积核提取多尺度的全局显著目标特征,得到拥有多尺度特征信息的融合特征图；然后对输入的深度特征图进行最大池化,得到深度特征图的空间特征掩码；将空间特征掩码与融合特征图进行像素级乘法运算,再与原深度特征图相加,得到增强的深度特征图。

步骤S3中的Depth引导增强模块具体操作为：深度特征图分别通过两个1×1卷积层调整通道数,并进行重排生成深度特征描述向量和深度通道描述向量；将深度通道描述向量转置后,与深度特征描述向量进行向量矩阵相乘,得到深度通道特征描述子；将深度通道特征描述子传入多层感知机进行非线性激活，得到增强的完整深度通道特征图，将RGB特征图与增强的完整深度通道特征图进行像素级相加，得到增强的RGB特征图。

步骤S4中的语义重连接融合模块具体操作为：经过特征提取网络多层提取特征后，特征提取网络后三层具有更丰富的语义信息，采用重连接能提高特征提取网络后三层特征融合的兼容性，保留更多细节特征；语义重连接融合模块具体操作为：对后三层增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过通道注意力，再与后三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到包含全面的多尺度语义信息的语义特征图。

步骤S4中的空间重连接融合模块具体操作为:特征提取网络的前三层保留更多空间信息，采用重连接能提高特征提取网络前三层特征融合的兼容性，保留更多边缘轮廓特征；空间重连接融合模块具体操作为：对前三层的增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过空间注意力，再与前三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到全面的多尺度空间信息的空间特征图。

步骤S2具体为：将两个残差网络作为特征提取网络，将这两个残差网络从输入层开始，分为由低到高的五个层次提取RGB图与深度图特征，分别得到五层RGB特征图与五层深度特征图。

得到的RGB特征图与深度特征图由低到高每层尺寸大小分别为352*352、176*176、88*88、44*44和22*22。

步骤S5具体为：

将空间特征图和语义特征图通过3*3卷积进行最终融合，得到基于模态特性与分层融合的RGB-D显著性检测模型，进行训练及验证后，得到最终的基于模态特性与分层融合的RGB-D显著性检测模型。

步骤S1具体为：从RGB-D显著性检测任务广泛使用的基准数据集NJU2K数据集与NLPR数据集中，分别选取包含其他物体干扰的复杂场景下的1485个图像对和700个图像对，经过尺寸变换为352*352后，通过随机翻转与边缘裁剪进行预处理。

本发明的有益效果在于：

1、本发明通过基于模态特性的交互方式，在输入的RGB图与深度图特征分布差距较大的情况下，更能充分利用的不同模态的信息；

2、在深度图中显著目标存在受同深度位置其他物体影响导致难以识别其中显著目标的情况下，通过RGB引导增强模块通过补充深度图中显著目标的轮廓细节信息提升深度图质量，解决低质量特征图造成污染的问题；

3、在RGB图在显著目标难以识别，容易受背景或者低光照条件影响的情况下，通过Depth引导增强模块帮助RGB特征图凸出了空间位置信息，为RGB特征图抑制背景以及复杂纹理的干扰；

4、针对不同层次特征信息差距较大的问题，通过分层次重连接融合的模式，有效地进行了特征融合，保留了更多细节信息。

附图说明

图1为本发明RGB-D显著性检测方法的流程结构示意图；

图2为本发明RGB引导增强模块流程图；

图3为本发明Depth引导增强模块流程图；

图4为本发明语义重连接融合模块流程图；

图5为本发明空间重连接融合模块流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明一种基于模态特性与分层融合的RGB-D显著性检测方法，如图1所示，包括以下步骤：

S1：从RGB-D显著性检测任务广泛使用的基准数据集NJU2K数据集与NLPR数据集中，分别选取包含如低光照，显著物旁边存在其他物体干扰等复杂场景下的1485个图像对和700个图像对，经过尺寸变换为352*352后，通过随机翻转与边缘裁剪进行预处理，并分为训练集、验证集和测试集。这些处理后的图像对将作为本发明所提基于模态特性与分层融合的RGB-D显著性检测模型的输入图像对，每一个图像对包含一张RGB图以及其对应的深度图；

S2：建立RGB-D显著性检测模型；首先将两个残差网络作为特征提取网络，将这两个残差网络从输入层开始，分别由低到高的五个层次提取RGB图与深度图特征，分别得到五层RGB特征图与五层深度特征图；

在步骤S2中，经过5层特征提取网络后，生成的RGB特征图与深度特征图由低到高每层尺寸大小分别为352*352、176*176、88*88、44*44和22*22。

S3：然后采用基于模态特性的交互方式，使用RGB引导增强模块，对特征提取网络的每一层的深度特征图进行增强，并使用Depth引导增强模块对每一层的RGB特征图进行增强；

参看图2，一种基于模态特性与分层融合的RGB-D显著性检测方法中的RGB引导增强模块，用于针对性增强深度特征图，深度特征图面对相邻的不同对象实例具有相同的深度值的情况时往往会向模型引入歧义，如面对输入深度图是对挂在墙上的画时，它们在深度特征图中表现为不可分割的对象，而利用RGB特征图的色差可以辅助区分这类场景下的显著物。RGB引导增强模块的具体操作为：连接深度特征图和RGB特征图，将深度特征图和RGB特征图(即深度特征图和RGB特征图)连接后的特征图进行通道调整后,分别传入一个3×3和一个7×7的并行卷积层中。3×3卷积核提取局部特征信息,7×7卷积核提取多尺度的全局显著目标特征,得到拥有多尺度特征信息的融合特征图，实现跨模态互补特征融合。然后对输入的深度特征图进行最大池化,得到深度特征图的空间特征掩码。将空间特征掩码与融合特征图进行像素级乘法运算,再与原深度特征图相加,得到增强的深度特征图，实现将RGB边界色差信息引入深度特征图中，帮助深度图区分显著目标的效果。

参看图3，一种基于模态特性与分层融合的RGB-D显著性检测方法中的Depth引导增强模块，用于针对性增强RGB特征图，RGB特征图在颜色纹理过于复杂或者光照条件差时，例如输入RGB图是一堆花前放的玻璃瓶或者沙发下的猫时，显著物识别往往不完整；由于深度特征图的结构和数据特性相对简单，学习到特征具有更好的显著目标定位能力，可以帮助RGB特征图抑制背景区域信息，专注捕获目标特征。Depth引导增强模块具体操作为：深度特征图分别通过两个1×1卷积层调整通道数,并进行重排生成深度特征描述向量和深度通道描述向量。将深度通道描述向量转置后,与深度特征描述向量进行向量矩阵相乘,得到深度通道特征描述子。将深度通道特征描述子传入多层感知机进行非线性激活，得到增强的完整深度通道特征图，将RGB特征图与增强的完整深度通道特征图进行像素级相加，得到增强的RGB特征图。

S4：接着采用分层次的重连接融合方式，先将第三四五层的特征图输入语义重连接融合模块，得到语义特征图，接着将第一二三层的特征图输入空间重连接融合模块，得到空间特征图；

参看图4，一种基于模态特性与分层融合的RGB-D显著性检测方法中的语义重连接融合模块，经过特征提取网络多层提取特征后，特征提取网络后三层具有更丰富的语义信息，采用重连接能提高特征提取网络后三层特征融合的兼容性，保留更多细节特征。语义重连接融合模块具体操作为：对第三四五层增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过通道注意力，再与第三四五层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到包含全面的多尺度语义信息的语义特征图。

参看图5，一种基于模态特性与分层融合的RGB-D显著性检测方法中的空间重连接融合模块，特征提取网络的前三层保留更多空间信息，采用重连接能提高特征提取网络前三层特征融合的兼容性，保留更多边缘轮廓特征。空间重连接融合模块具体操作为：对第一二三层的增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过空间注意力，再与第一二三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到全面的多尺度空间信息的空间特征图。

S5：将空间特征图和语义特征图通过3*3卷积进行最终融合，得到基于模态特性与分层融合的RGB-D显著性检测模型，进行训练及验证后，得到最终的基于模态特性与分层融合的RGB-D显著性检测模型。

S6：输入的复杂场景下的图像对，通过最终的基于模态特性与分层融合的RGB-D显著性检测模型后，输出包含显著对象的预测图像对。

以上所述实施例仅表达了本发明的1种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，包括以下步骤：

步骤S2：建立RGB-D显著性检测模型的两个特征提取网络；

2.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S3中的RGB引导增强模块的具体操作为：连接深度特征图和RGB特征图，将两种模态连接后的特征图进行通道调整后,分别传入一个3×3和一个7×7的并行卷积层中；3×3卷积核提取局部特征信息,7×7卷积核提取多尺度的全局显著目标特征,得到拥有多尺度特征信息的融合特征图；然后对输入的深度特征图进行最大池化,得到深度特征图的空间特征掩码；将空间特征掩码与融合特征图进行像素级乘法运算,再与原深度特征图相加,得到增强的深度特征图。

3.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S3中的Depth引导增强模块具体操作为：深度特征图分别通过两个1×1卷积层调整通道数,并进行重排生成深度特征描述向量和深度通道描述向量；将深度通道描述向量转置后,与深度特征描述向量进行向量矩阵相乘,得到深度通道特征描述子；将深度通道特征描述子传入多层感知机进行非线性激活，得到增强的完整深度通道特征图，将RGB特征图与增强的完整深度通道特征图进行像素级相加，得到增强的RGB特征图。

4.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S4中的语义重连接融合模块具体操作为：经过特征提取网络多层提取特征后，特征提取网络后三层具有更丰富的语义信息，采用重连接能提高特征提取网络后三层特征融合的兼容性，保留更多细节特征；语义重连接融合模块具体操作为：对后三层增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过通道注意力，再与后三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到包含全面的多尺度语义信息的语义特征图。

5.根据权利要求4所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S4中的空间重连接融合模块具体操作为:特征提取网络的前三层保留更多空间信息，采用重连接能提高特征提取网络前三层特征融合的兼容性，保留更多边缘轮廓特征；空间重连接融合模块具体操作为：对前三层的增强后的RGB特征图与深度特征图在像素级相加后，通过一个3×3卷积来初步聚合，随后将初步聚合的结果经过空间注意力，再与前三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1×1的卷积调整到3通道数，得到全面的多尺度空间信息的空间特征图。

6.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S2具体为：将两个残差网络作为特征提取网络，将这两个残差网络从输入层开始，分为由低到高的五个层次提取RGB图与深度图特征，分别得到五层RGB特征图与五层深度特征图。

7.根据权利要求6所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，得到的RGB特征图与深度特征图由低到高每层尺寸大小分别为352*352、176*176、88*88、44*44和22*22。

8.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S5具体为：

9.根据权利要求1所述的基于模态特性与分层融合的RGB-D显著性检测方法，其特征在于，步骤S1具体为：从RGB-D显著性检测任务广泛使用的基准数据集NJU2K数据集与NLPR数据集中，分别选取包含其他物体干扰的复杂场景下的1485个图像对和700个图像对，经过尺寸变换为352*352后，通过随机翻转与边缘裁剪进行预处理。