WO2020019761A1

WO2020019761A1 - 单目图像深度估计方法及装置、设备、程序及存储介质

Info

Publication number: WO2020019761A1
Application number: PCT/CN2019/082314
Authority: WO
Inventors: 甘宇康; 许翔宇; 孙文秀; 林倞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2019-04-11
Publication date: 2020-01-30
Anticipated expiration: 2021-01-27
Also published as: CN109035319B; US11443445B2; US20200226773A1; TWI766175B; TW202008308A; KR20200044108A; CN109035319A; JP6963695B2; KR102292559B1; JP2021500689A; SG11202003878TA

Abstract

本申请实施例公开了一种单目图像深度估计方法及装置、设备、计算机程序及存储介质，其中，方法包括：基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。本申请实施例可以提高单目图像深度估计的准确度。

Description

单目图像深度估计方法及装置、设备、程序及存储介质

相关申请的交叉引用

本申请基于申请号为201810845040.4、申请日为2018年07月27日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机视觉技术，尤其是一种单目图像深度估计方法及装置、电子设备、计算机程序及存储介质。

背景技术

图像的深度估计是计算机视觉领域的重要问题，目前图像的深度估计主要包括：单目图像深度估计和双目图像深度估计。其中，单目图像深度估计主要是基于单目图像来估计图像的深度信息，但由于单目图像深度估计是一个非常具有挑战性的问题，因此目前很多现有的单目图像深度估计方法预测的单目图像的深度信息的准确度仍然较差。

发明内容

本申请实施例提供一种单目图像深度估计技术方案。

根据本申请实施例的一个方面，提供一种单目图像深度估计方法，包括：

基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；

根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。

可选地，在本申请上述方法实施例中，在所述根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征之前，还包括：

将所述单目图像经第一神经网络进行特征提取，获取所述单目图像中各预设区域的特征，并将所述各预设区域的特征作为所述单目图像中各预设区域的绝对特征；

根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征。

可选地，在本申请上述任一方法实施例中，所述根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征，包括：

对所述单目图像中各预设区域的绝对特征经关联度层进行矢量运算，获得所述单目图像中各预设区域之间的相对特征。

可选地，在本申请上述任一方法实施例中，在将所述单目图像经第一神经网络进行特征提取之前，还包括：

对所述单目图像进行下采样，获得具有预设维度的单目图像；其中，所述单目图像的维度为所述预设维度的倍数。

可选地，在本申请上述任一方法实施例中，所述根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征，包括：

通过全连接层结合所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征。

可选地，在本申请上述任一方法实施例中，所述根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图，包括：

根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，通过深度估计器进行深度估计，获得所述单目图像的预测深度图。

可选地，在本申请上述任一方法实施例中，所述根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图之后，还包括：

根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图。

可选地，在本申请上述任一方法实施例中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图，包括：

根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图。

可选地，在本申请上述任一方法实施例中，所述根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图，包括：

根据所述单目图像深度信息的纵向变化规律，通过残差估计网络对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

所述根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图，包括：

对所述残差图和所述预测深度图进行逐像素叠加运算，获得所述单目图像的目标深度图。

可选地，在本申请上述任一方法实施例中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图之前，还包括：

根据所述预测深度图获取所述单目图像深度信息的纵向变化规律。

可选地，在本申请上述任一方法实施例中，所述根据所述预测深度图获取所述单目图像深度信息的纵向变化规律，包括：

通过纵向池化层对所述预测深度图进行处理，获取所述单目图像深度信息的纵向变化规律。

可选地，在本申请上述任一方法实施例中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，包括：

对所述预测深度图进行预设次数的上采样，根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律，根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图；

其中，除最末一次上采样外，其余每一次上采样获得的优化后的目标深度图作为下一次上采样的预测深度图，最末一次上采样获得的优化后的目标深度图作为所述单目图像的目标深度图，所述目标深度图的维度与所述单目图像的维度相同。

可选地，在本申请上述任一方法实施例中，其中，所述深度估计神经网络包括：关联度层、全连接层和深度估计器，利用稀疏深度图和通过双目图像立体匹配获得的稠密深度图作为标注数据对所述深度估计神经网络进行训练获得。

根据本申请实施例的另一个方面，提供一种单目图像深度估计装置，包括：

深度估计神经网络，配置为根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；以及根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。

可选地，在本申请上述装置实施例中，还包括：

第一神经网络，配置为对所述单目图像进行特征提取，获取所述单目图像中各预设区域的特征，并将所述各预设区域的特征作为所述单目图像中各预设区域的绝对特征；

所述深度估计神经网络，还用于根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征。

可选地，在本申请上述任一装置实施例中，所述深度估计神经网络，包括：

关联度层，配置为对所述单目图像中各预设区域的绝对特征进行矢量运算，获得所述单目图像中各预设区域之间的相对特征。

可选地，在本申请上述任一装置实施例中，还包括：

下采样层，配置为在对所述单目图像进行特征提取之前，对所述单目图像进行下采样，获得具有预设维度的单目图像；其中，所述单目图像的维度为所述预设维度的倍数。

全连接层，配置为结合所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征。

深度估计器，配置为根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，进行深度估计，获得所述单目图像的预测深度图。

可选地，在本申请上述任一装置实施例中，还包括：

第二神经网络，配置为根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图。

可选地，在本申请上述任一装置实施例中，所述第二神经网络，配置为根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；以及根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图。

可选地，在本申请上述任一装置实施例中，所述第二神经网络，包括：

残差估计网络，配置为根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

加法运算单元，配置为对所述残差图和所述预测深度图进行逐像素叠加运算，获得所述单目图像的目标深度图。

可选地，在本申请上述任一装置实施例中，所述第二神经网络，还用于根据所述预测深度图获取所述单目图像深度信息的纵向变化规律。

纵向池化层，配置为对所述预测深度图进行处理，获取所述单目图像深度信息的纵向变化规律。

可选地，在本申请上述任一装置实施例中，还包括：

上采样层，配置为对所述预测深度图进行预设次数的上采样；

纵向池化层，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律；

所述第二神经网络，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图；

可选地，在本申请上述任一装置实施例中，所述深度估计神经网络包括：关联度层、全连接层和深度估计器，利用稀疏深度图和通过双目图像立体匹配获得的稠密深度图作为标注数据对所述深度估计神经网络进行训练获得。

根据本申请实施例的又一个方面，提供的一种电子设备，包括上述任一实施例所述的装置。

根据本申请实施例的再一个方面，提供的一种电子设备，包括：

存储器，配置为存储可执行指令；以及

处理器，配置为执行所述可执行指令从而完成上述任一实施例所述的方法。

根据本申请实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述方法的指令。

根据本申请实施例的再一个方面，提供的一种计算机存储介质，配置为存储计算机可读指令，所述指令被执行时实现上述任一实施例所述的方法。

基于本申请上述实施例提供的单目图像深度估计方法及装置、电子设备、计算机程序及存储介质，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图，通过在单目图像深度估计中，利用图像中各预设区域的相对特征与绝对特征相互补充，提高了深度估计中相对距离预测的准确度，从而可以提高单目图像深度估计的准确度。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请一些实施例的单目图像深度估计方法的流程图；

图2为本申请另一些实施例的单目图像深度估计方法的流程图；

图3为本申请实施例采用多尺度学习进行优化时每一个尺度优化的流程图；

图4A至图4C为实现本申请一些实施例的单目图像深度估计方法的网络结构的示意图；

图5为本申请一些实施例的单目图像深度估计装置的结构示意图；

图6为本申请另一些实施例的单目图像深度估计装置的结构示意图；

图7为本申请又一些实施例的单目图像深度估计装置的结构示意图；

图8是本申请一些实施例提供的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本申请一些实施例的单目图像深度估计方法的流程图。

如图1所示，该方法包括：

102，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征。

在本实施例中，单目图像可以是从图像采集设备获取的图像，也可以是从存储装置获取的图像，例如：图像采集设备可以为照相机、摄像机、扫描仪等，存储装置可以为U盘、光盘、硬盘等，本实施例对单目图像的获取方式不作限定。其中，单目图像中各预设区域的绝对特征可以用来表示单目图像中各预设区域的局部外观，例如：它可以包括纹理特征、几何特征等。单目图像中各预设区域之间的相对特征可以用来表示单目图像中各预设区域局部外观之间的差异性，例如：它可以包括纹理差异、几何差异等。单目图像中的各预设区域可以根据图像的特征设定。本实施例的深度图是指以图像中各像素的像素值表征图像中的各像素到图像采集设备之间的距离的图像。

在一个可选的例子中，可以通过全连接层结合单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征。

104，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图。

在一个可选的例子中，可以根据单目图像的全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，通过深度估计器进行深度估计，获得单目图像的预测深度图。例如：深度估计器可以采用全卷积网络，全卷积网络主要由卷积层和反卷积层组成，它可以根据图像的几何分布信息，即图像的全局特征、图像中各预设区域的绝对特征和各预设区域之间的相对特征，回归出图像中各像素的深度值，从而获得预测深度图。

本实施例提供的单目图像深度估计方法，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图，通过在单目图像深度估计中，利用图像中各预设区域的相对特征与绝对特征相互补充，提高了深度估计中相对距离预测的准确度，从而可以提高单目图像深度估计的准确度。

可选地，在根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征之前，还可以将单目图像经第一神经网络进行特征提取，获取单目图像中各预设区域的特征，并将各预设区域的特征作为单目图像中各预设区域的绝对特征，然后根据单目图像中各预设区域的绝对特征，获取单目图像中各预设区域之间的相对特征。例如：第一神经网络可以采用由于一个卷积层和池化层组成的编码器网络，单目图像经编码器网络进行特征提取，可以获得图像的高维特征。

在一个可选的例子中，可以对单目图像中各预设区域的绝对特征经关联度层进行矢量运算，获得单目图像中各预设区域之间的相对特征。其中，图像中各预设区域之间的相对特征，可以为图像中各预设区域与其周边预设范围内的预设区域之间的相对特征，例如：可以通过对单目图像中各预设区域与其周边预设范围内的预设区域之间的特征向量，进行点积运算，获得单目图像中各预设区域之间的相对特征。

可选地，在将单目图像经第一神经网络进行特征提取之前，还可以对单目图像进行下采样，获得具有预设维度的单目图像，并以具有预设维度的单目图像作为深度估计神经网络进行深度估计的单目图像，以减少计算量，提高数据处理的速度。其中，单目图像的维度为预设维度的倍数，例如：单目图像的维度为预设维度的8倍。

通常，图像在垂直方向上的深度变化比在水平方向上的深度变化更大，例如：在驾驶场景中，图像中的道路往往是沿垂直方向延伸到距离摄像机更远的地方，可见，图像深度信息的纵向变化规律将有助于对图像绝对距离的估计。因此，我们可以将单目图像深度信息的纵向变化规律用于单目图像的深度估计，例如：可以根据单目图像深度信息的纵向变化规律对预测深度图进行优化。

在一些实施例中，如图2所示，在操作204在根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图之后，还可以包括：

206，根据单目图像深度信息的纵向变化规律对预测深度图进行优化，获得单目图像的目标深度图。

可选地，可以根据单目图像深度信息的纵向变化规律，对预测深度图进行残差估计，获得预测深度图的残差图，然后根据残差图对预测深度图进行优化，获得单目图像的目标深度图。

在一个可选的例子中，可以根据单目图像深度信息的纵向变化规律，通过残差估计网络对预测深度图进行残差估计，获得预测深度图的残差图，然后对残差图和预测深度图进行逐像素叠加运算，获得单目图像的目标深度图。

可选地，在根据单目图像深度信息的纵向变化规律对预测深度图进行优化，获得单目图像的目标深度图之前，还可以根据预测深度图获取单目图像深度信息的纵向变化规律。

在一个可选的例子中，可以通过纵向池化层对预测深度图进行处理，获取单目图像深度信息的纵向变化规律。其中，纵向池化层可以使用一个列向量作为池化核，对预测深度图进行池化处理，例如：纵向池化层可以使用大小为H×1的池化核，对预测深度图进行平均池化处理，其中H为大于1的整数。

本实施例提供的单目图像深度估计方法，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图，根据单目图像深度信息的纵向变化规律对预测深度图进行优化，获得单目图像的目标深度图，通过在单目图像深度估计中，除了利用图像中各预设区域的相对特征与绝对特征相互补充，提高了深度估计中相对距离预测的准确度，还利用图像深度信息的纵向变化规律进行优化，提高了深度估计中绝对距离预测的准确度，从而可以全面提高单目图像深度估计的准确度。

在一些实施例中，当在将单目图像经第一神经网络进行特征提取之前，对单目图像进行下采样，获得具有预设维度的单目图像，并以具有预设维度的单目图像作为深度估计神经网络进行深度估计的单目图像时，根据单目图像深度信息的纵向变化规律对预测深度图进行优化，可以采用多尺度学习的方法，以提高单目图像深度估计的准确度。

可选地，可以对预测深度图进行预设次数的上采样，根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律，根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图。其中，除最末一次上采样外，其余每一次上采样获得的优化后的目标深度图，作为下一次上采样的预测深度图，最末一次上采样获得的优化后的目标深度图，作为单目图像的目标深度图，该目标深度图的维度与单目图像的维度相同。

下面将结合图3，详细描述采用多尺度学习进行优化时每一个尺度优化的流程。

如图3所示，该方法包括：

302，对具有第一预设维度的预测深度图进行上采样，获得具有第二预设维度的预测深度图。

在本实施例中，具有第一预设维度的预测深度图可以是获取自深度估计神经网络的预测深度图，也可以是获取自上一个尺度优化流程的优化后的目标深度图。第二预设维度为第一预设维度的倍数，其中第一预设维度和第二预设维度的大小可以根据上采样的次数、频率以及单目图像的尺寸等确定。

在一个可选的例子中，可以通过上采样层对具有第一预设维度的预测深度图进行上采样，获得具有第二预设维度的预测深度图。

304，根据具有第二预设维度的预测深度图，获取对应的深度信息的纵向变化规律。

在一个可选的例子中，可以通过纵向池化层对具有第二预设维度的预测深度图进行处理，获取对应的深度信息的纵向变化规律。

306，根据对应的深度信息的纵向变化规律，对具有第二预设维度的预测深度图进行残差估计，获得对应的残差图。

在一个可选的例子中，可以根据对应的深度信息的纵向变化规律，通过残差估计网络对具有第二预设维度的预测深度图进行残差估计，获得对应的残差图。

308，根据对应的残差图对具有第二预设维度的预测深度图进行优化，获得优化后具有第二预设维度的目标深度图。

在一个可选的例子中，可以通过对对应的残差图和具有第二预设维度的预测深度图进行逐像素叠加运算，获得优化后具有第二预设维度的目标深度图。

图4A至图4C为实现本申请一些实施例的单目图像深度估计方法的网络结构的示意图。

在本实施例中，如图4A所示，实现本申请实施例单目图像深度估计方法的网络包括：卷积神经网络、深度估计神经网络和深度优化神经网络。其中，卷积神经网络包括下采样层和第一神经网络，通过下采样层对单目图像进行8倍下采样，获得维度为单目图像1/8的单目图像，然后通过第一神经网络对1/8维度的单目图像进行特征提取，获得1/8维度的单目图像中各预设区域的绝对特征。

如图4B所示，深度估计神经网络包括：关联度层、全连接层和深度估计器，其中，关联度层可以根据1/8维度的单目图像中各预设区域的绝对特征，获得1/8维度的单目图像中各预设区域之间的相对特征，全连接层可以根据1/8维度的单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取1/8维度的单目图像的全局特征，深度估计器可以根据1/8维度的图像的全局特征、1/8维度的单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得1/8维度的预测深度图。

在本实施例中，深度优化神经网络包括第一尺度优化网络、第二尺度优化网络和第三尺度优化网络，其中，每一个尺度优化网络的结构，如图4C所示，均包括：上采样层、纵向池化层、残差估计网络和加法运算单元。

其中，第一尺度优化网络的上采样层可以对1/8维度的预测深度图进行2倍上采样，获得1/4维度的预测深度图，第一尺度优化网络的纵向池化层可以根据1/4维度的预测深度图，获取对应的深度信息的纵向变化规律，第一尺度优化网络的残差估计网络可以根据1/4维度的预测深度图对应的深度信息的纵向变化规律，对1/4维度的预测深度图进行残差估计，获得对应的残差图，第一尺度优化网络的加法运算单元可以对对应的残差图和1/4维度的预测深度图进行逐像素叠加运算，获得优化后1/4维度的目标深度图，可以将该优化后1/4维度的目标深度图作为第二尺度优化网络的预测深度图。

第二尺度优化网络的上采样层可以对优化后1/4维度的目标深度图进行2倍上采样，获得1/2维度的预测深度图，第二尺度优化网络的纵向池化层可以根据1/2维度的预测深度图，获取对应的深度信息的纵向变化规律，第二尺度优化网络的残差估计网络可以根据1/2维度的预测深度图对应的深度信息的纵向变化规律，对1/2维度的预测深度图进行残差估计，获得对应的残差图，第二尺度优化网络的加法运算单元可以对对应的残差图和1/2维度的预测深度图进行逐像素叠加运算，获得优化后1/2维度的目标深度图，可以将该优化后1/2维度的目标深度图作为第三尺度优化网络的预测深度图。

第三尺度优化网络的上采样层可以对优化后1/2维度的目标深度图进行2倍上采样，获得维度与单目图像的维度相同的预测深度图，第三尺度优化网络的纵向池化层可以根据维度与单目图像的维度相同的预测深度图，获取对应的深度信息的纵向变化规律，第三尺度优化网络的残差估计网络可以根据维度与单目图像的维度相同的预测深度图对应的深度信息的纵向变化规律，对维度与单目图像的维度相同的预测深度图进行残差估计，获得对应的残差图，第三尺度优化网络的加法运算单元可以对对应的残差图和维度与单目图像的维度相同的预测深度图进行逐像素叠加，获得优化后维度与单目图像的维度相同的目标深度图，并将该优化后的深度图作为单目图像的目标深度图。

在一个可选的例子中，上述各实施例的深度估计神经网络，可以通过双目图像立体匹配获得的稠密深度图和稀疏深度图作为标注数据，进行半监督的训练获得。

在本实施例中，由于采用其它方法获得的训练数据的“标注数据”比较稀疏，即深度图中有效的像素值比较少，因此采用双目匹配获得的深度图作为训练数据的“标注数据”。

本申请实施例提供的单目图像深度估计方法可以用于场景几何结构分析、自动驾驶、辅助驾驶、目标跟踪以及机器人自主避障等领域。例如：在驾驶场景中，可以利用本申请实施例提供的单目图像深度估计方法对前车或者行人的距离进行预测。在手机拍照时，可以利用本申请实施例提供的单目图像深度估计方法预测的深度信息进行单目虚化操作；利用本申请实施例提供的单目图像深度估计方法的预测结果，可以帮助改善物体跟踪算法。

图5为本申请一些实施例的单目图像深度估计装置的结构示意图。

如图5所示，该装置包括：深度估计神经网络510。其中，

深度估计神经网络510，配置为根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征；以及根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图。

在一个可选的例子中，如图5所示，深度估计神经网络510可以包括：全连接层511，配置为结合单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征。深度估计神经网络510还可以包括：深度估计器512，配置为根据单目图像的全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，进行深度估计，获得单目图像的预测深度图。例如：深度估计器可以采用全卷积网络，全卷积网络主要由卷积层和反卷积层组成，它可以根据图像的几何分布信息，即图像的全局特征、图像中各预设区域的绝对特征和各预设区域之间的相对特征，回归出图像中各像素的深度值，从而获得预测深度图。

本实施例提供的单目图像深度估计装置，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图，通过在单目图像深度估计中，利用图像中各预设区域的相对特征与绝对特征相互补充，提高了深度估计中相对距离预测的准确度，从而可以提高单目图像深度估计的准确度。

图6为本申请另一些实施例的单目图像深度估计装置的结构示意图。

如图6所示，与图5的实施例相比，两者的不同之处在于，该装置还包括：第一神经网络620。其中，

第一神经网络620，配置为对单目图像进行特征提取，获取单目图像中各预设区域的特征，并将各预设区域的特征作为单目图像中各预设区域的绝对特征。例如：第一神经网络可以采用由于一个卷积层和池化层组成的编码器网络，单目图像经编码器网络进行特征提取，可以获得图像的高维特征。

深度估计神经网络610，还用于根据单目图像中各预设区域的绝对特征，获取单目图像中各预设区域之间的相对特征。

在一个可选的例子中，如图6所示，深度估计神经网络610还可以包括：关联度层613，配置为对单目图像中各预设区域的绝对特征经关联度层进行矢量运算，获得单目图像中各预设区域之间的相对特征。其中，图像中各预设区域之间的相对特征，可以为图像中各预设区域与其周边预设范围内的预设区域之间的相对特征，例如：可以通过对单目图像中各预设区域与其周边预设范围内的预设区域之间的特征向量，进行点积运算，获得单目图像中各预设区域之间的相对特征。

可选地，该装置还可以包括：下采样层，配置为在对单目图像进行特征提取之前，对单目图像进行下采样，获得具有预设维度的单目图像，此时深度估计神经网络610是对具有预设维度的单目图像进行深度估计，以减少计算量，提高数据处理的速度。其中，单目图像的维度为预设维度的倍数，例如：单目图像的维度为预设维度的8倍。

图7为本申请另一些实施例的单目图像深度估计装置的结构示意图。

如图7所示，与图5的实施例相比，两者的不同之处在于，该装置还包括：第二神经网络730。其中，

第二神经网络730，配置为根据单目图像深度信息的纵向变化规律对预测深度图进行优化，获得单目图像的目标深度图。

可选地，第二神经网络730，配置为根据单目图像深度信息的纵向变化规律，对预测深度图进行残差估计，获得预测深度图的残差图，然后根据残差图对预测深度图进行优化，获得单目图像的目标深度图。

在一个可选的例子中，如图7所示，第二神经网络730可以包括：残差估计网络731，配置为可以根据单目图像深度信息的纵向变化规律，通过残差估计网络对预测深度图进行残差估计，获得预测深度图的残差图；加法运算单元732，配置为对残差图和预测深度图进行逐像素叠加运算，获得单目图像的目标深度图。

可选地，第二神经网络730还用于根据预测深度图获取单目图像深度信息的纵向变化规律。

在一个可选的例子中，如图7所示，第二神经网络730还可以包括：纵向池化层733，配置为通过纵向池化层对预测深度图进行处理，获取单目图像深度信息的纵向变化规律。其中，纵向池化层可以使用一个列向量作为池化核，对预测深度图进行池化处理，例如：纵向池化层可以使用大小为H×1的池化核，对预测深度图进行平均池化处理，其中H为大于1的整数。

本实施例提供的单目图像深度估计装置，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取单目图像的全局特征，根据全局特征、单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得单目图像的预测深度图，根据单目图像深度信息的纵向变化规律对预测深度图进行优化，获得单目图像的目标深度图，通过在单目图像深度估计中，除了利用图像中各预设区域的相对特征与绝对特征相互补充，提高了深度估计中相对距离预测的准确度，还利用图像深度信息的纵向变化规律进行优化，提高了深度估计中绝对距离预测的准确度，从而可以全面提高单目图像深度估计的准确度。

在一个可选的例子中，当在将单目图像经第一神经网络进行特征提取之前，通过下采样层对单目图像进行下采样，获得具有预设维度的单目图像，并以具有预设维度的单目图像作为深度估计神经网络进行深度估计的单目图像时，根据单目图像深度信息的纵向变化规律对预测深度图进行优化，可以采用多尺度学习的方法，以提高单目图像深度估计的准确度。

可选地，该装置还可以包括：上采样层，配置为对预测深度图进行预设次数的上采样；纵向池化层，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律；第二神经网络，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图。其中，除最末一次上采样外，其余每一次上采样获得的优化后的目标深度图，作为下一次上采样的预测深度图，最末一次上采样获得的优化后的目标深度图，作为单目图像的目标深度图，该目标深度图的维度与单目图像的维度相同。

在一个可选的例子中，由于采用其它方法获得的训练数据的“标注数据”比较稀疏，即深度图中有效的像素值比较少，因此采用双目图像立体匹配获得的深度图作为训练数据的“标注数据”。本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图：如图8所示，电子设备800包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器802和/或RAM 803通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。在有RAM803 的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使中央处理单元801执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU813和CPU801可分离设置或者可将GPU813集成在CPU801上，通信部可分离设置，也可集成设置在CPU801或GPU813上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

在一个或多个可选实施方式中，本申请实施例还提供了一种计算机程序程序产品，配置为存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的图像恢复方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，该计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，该计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本申请实施例还提供了一种单目图像深度估计方法及其对应的装置、电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送单目图像深度估计指示，该指示使得第二装置执行上述任一可能的实施例中的单目图像深度估计方法；第一装置接收第二装置发送的单目图像深度估计的结果。

在一些实施例中，该单目图像深度估计指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行单目图像深度估计，相应地，响应于接收到调用指令，第二装置可以执行上述单目图像深度估计方法中的任意实施例中的步骤和/或流程。

应理解，本申请实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本申请实施例的限定。

还应理解，在本申请中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本申请中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本申请对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种单目图像深度估计方法，包括：

基于深度估计神经网络，根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；

根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。
根据权利要求1所述的方法，其中，在所述根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征之前，还包括：

将所述单目图像经第一神经网络进行特征提取，获取所述单目图像中各预设区域的特征，并将所述各预设区域的特征作为所述单目图像中各预设区域的绝对特征；

根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征。
根据权利要求2所述的方法，其中，所述根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征，包括：

对所述单目图像中各预设区域的绝对特征经关联度层进行矢量运算，获得所述单目图像中各预设区域之间的相对特征。
根据权利要求2或3所述的方法，其中，在将所述单目图像经第一神经网络进行特征提取之前，还包括：

对所述单目图像进行下采样，获得具有预设维度的单目图像；其中，所述单目图像的维度为所述预设维度的倍数。
根据权利要求1至4中任意一项所述的方法，其中，所述根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征，包括：

通过全连接层结合所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征。
根据权利要求1至5中任意一项所述的方法，其中，所述根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图，包括：

根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，通过深度估计器进行深度估计，获得所述单目图像的预测深度图。
根据权利要求1至6中任意一项所述的方法，其中，所述根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图之后，还包括：

根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图。
根据权利要求7所述的方法，其中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图，包括：

根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图。
根据权利要求8所述的方法，其中，所述根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图，包括：

根据所述单目图像深度信息的纵向变化规律，通过残差估计网络对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

所述根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图，包括：

对所述残差图和所述预测深度图进行逐像素叠加运算，获得所述单目图像的目标深度图。
根据权利要求7至9中任意一项所述的方法，其中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图之前，还包括：

根据所述预测深度图获取所述单目图像深度信息的纵向变化规律。
根据权利要求10所述的方法，其中，所述根据所述预测深度图获取所述单目图像深度信息的纵向变化规律，包括：

通过纵向池化层对所述预测深度图进行处理，获取所述单目图像深度信息的纵向变化规律。
根据权利要求7所述的方法，其中，所述根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，包括：

对所述预测深度图进行预设次数的上采样，根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律，根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图；

其中，除最末一次上采样外，其余每一次上采样获得的优化后的目标深度图作为下一次上采样的预测深度图，最末一次上采样获得的优化后的目标深度图作为所述单目图像的目标深度图，所述目标深度图的维度与所述单目图像的维度相同。
根据权利要求1至12中任意一项所述的方法，其中，所述深度估计神经网络包括：关联度层、全连接层和深度估计器，利用稀疏深度图和通过双目图像立体匹配获得的稠密深度图作为标注数据对所述深度估计神经网络进行训练获得。
一种单目图像深度估计装置，包括：

深度估计神经网络，配置为根据单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征；以及根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获得所述单目图像的预测深度图。
根据权利要求14所述的装置，其中，还包括：

第一神经网络，配置为对所述单目图像进行特征提取，获取所述单目图像中各预设区域的特征，并将所述各预设区域的特征作为所述单目图像中各预设区域的绝对特征；

所述深度估计神经网络，还用于根据所述单目图像中各预设区域的绝对特征，获取所述单目图像中各预设区域之间的相对特征。
根据权利要求15所述的装置，其中，所述深度估计神经网络，包括：

关联度层，配置为对所述单目图像中各预设区域的绝对特征进行矢量运算，获得所述单目图像中各预设区域之间的相对特征。
根据权利要求15或16所述的装置，其中，还包括：

下采样层，配置为在对所述单目图像进行特征提取之前，对所述单目图像进行下采样，获得具有预设维度的单目图像；其中，所述单目图像的维度为所述预设维度的倍数。
根据权利要求14至17中任意一项所述的装置，其中，所述深度估计神经网络，包括：

全连接层，配置为结合所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，获取所述单目图像的全局特征。
根据权利要求14至18中任意一项所述的装置，其中，所述深度估计神经网络，包括：

深度估计器，配置为根据所述全局特征、所述单目图像中各预设区域的绝对特征和各预设区域之间的相对特征，进行深度估计，获得所述单目图像的预测深度图。
根据权利要求14至19中任意一项所述的装置，其中，还包括：

第二神经网络，配置为根据所述单目图像深度信息的纵向变化规律对所述预测深度图进行优化，获得所述单目图像的目标深度图。
根据权利要求20所述的装置，其中，所述第二神经网络，配置为根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；以及根据所述残差图对所述预测深度图进行优化，获得所述单目图像的目标深度图。
根据权利要求21所述的装置，其中，所述第二神经网络，包括：

残差估计网络，配置为根据所述单目图像深度信息的纵向变化规律，对所述预测深度图进行残差估计，获得所述预测深度图的残差图；

加法运算单元，配置为对所述残差图和所述预测深度图进行逐像素叠加运算，获得所述单目图像的目标深度图。
根据权利要求20至22中任意一项所述的装置，其中，所述第二神经网络，还用于根据所述预测深度图获取所述单目图像深度信息的纵向变化规律。
根据权利要求23所述的装置，其中，所述第二神经网络，包括：

纵向池化层，配置为对所述预测深度图进行处理，获取所述单目图像深度信息的纵向变化规律。
根据权利要求20所述的装置，其中，还包括：

上采样层，配置为对所述预测深度图进行预设次数的上采样；

纵向池化层，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图获取深度信息的纵向变化规律；

所述第二神经网络，配置为根据每一次上采样获得的维度依次成倍数增大的预测深度图的深度信息的纵向变化规律，对每一次上采样获得的维度依次成倍数增大的预测深度图进行优化，获得优化后的目标深度图；

其中，除最末一次上采样外，其余每一次上采样获得的优化后的目标深度图作为下一次上采样的预测深度图，最末一次上采样获得的优化后的目标深度图作为所述单目图像的目标深度图，所述目标深度图的维度与所述单目图像的维度相同。
根据权利要求14至25中任意一项所述的装置，其中，所述深度估计神经网络包括：关联度层、全连接层和深度估计器，利用稀疏深度图和通过双目图像立体匹配获得的稠密深度图作为标注数据对所述深度估计神经网络进行训练获得。
一种电子设备，包括权利要求14至26中任意一项所述的装置。
一种电子设备，包括：

存储器，配置为存储可执行指令；以及

处理器，配置为执行所述可执行指令从而完成权利要求1至13中任意一项所述的方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至13中任意一项所述方法的指令。
一种计算机存储介质，配置为存储计算机可读取的指令，所述指令被执行时实现权利要求1至13中任意一项所述的方法。