CN114902238A

CN114902238A - 用于深度估计的系统和方法

Info

Publication number: CN114902238A
Application number: CN202080090604.3A
Authority: CN
Inventors: O.利巴; R.加格; N.瓦德瓦; J.巴隆; H.伊科马
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-12-27
Filing date: 2020-12-24
Publication date: 2022-08-12
Also published as: US12530788B2; EP4081951A1; US20230037958A1; WO2021134031A1

Abstract

一种系统包括计算设备。该计算设备被配置为执行一组功能。该组功能包括接收图像，其中该图像包括二维数据阵列。该组功能包括通过二维神经网络从二维数据阵列中提取多个二维特征。该组功能包括生成多个二维特征的线性组合以形成单个三维输入特征。该组功能包括通过三维神经网络从该单个三维输入特征中提取多个三维特征。该组功能包括确定二维深度图。二维深度图包含与多个三维特征相对应的深度信息。

Description

用于深度估计的系统和方法

相关申请的交叉引用

本申请要求于2019年12月27日提交的美国临时申请第62/954,392号的优先权，其全部内容通过引用并入本文中并用于所有目的。

背景技术

除非本文另有说明，否则本部分中描述的材料不是本申请中的权利要求书的现有技术，并且不通过包括在本部分中而被承认是现有技术。

可以使用图像(诸如红绿蓝(RGB)图像)来估计环境的深度信息。例如，可以使用立体和多镜成像系统来生成包含环境的深度信息的深度图。

在某些情况下，可以使用单个图像来估计环境的深度信息。通常，利用个体图像中的二维特征来估计深度信息。从单个图像得出的深度信息可能有时不如使用其它类型的成像系统得出的深度信息准确。

发明内容

在第一示例中，提供了一种系统。该系统包括计算设备。该计算设备被配置为执行一组功能。该组功能包括接收图像，其中图像包括二维数据阵列。该组功能包括通过二维神经网络从二维数据阵列中提取多个二维特征。该组功能包括生成多个二维特征的线性组合以形成单个三维输入特征。该组功能包括通过三维神经网络从单个三维输入特征中提取多个三维特征。该组功能包括确定二维深度图。二维深度图包含与多个三维特征相对应的深度信息。

在第二示例中，提供了一种方法。该方法包括接收图像，其中图像包括二维数据阵列。该方法包括通过二维神经网络从二维数据阵列中提取多个二维特征。该方法包括生成多个二维特征的线性组合以形成单个三维输入特征。该方法包括通过三维神经网络从单个三维输入特征中提取多个三维特征。该方法包括确定二维深度图。二维深度图包含与多个三维特征相对应的深度信息。

在第三示例中，提供一种非暂时性计算机可读介质。该非暂时性计算机可读介质存储有指令，这些指令在由处理器执行时执行一组功能。该组功能包括接收图像，其中图像包括二维数据阵列。该组功能包括通过二维神经网络从二维数据阵列中提取多个二维特征。该组功能包括生成多个二维特征的线性组合以形成单个三维输入特征。该组功能包括通过三维神经网络从单个三维输入特征中提取多个三维特征。该组功能包括确定二维深度图。二维深度图包含与多个三维特征相对应的深度信息。

对于本领域的普通技术人员来说，通过适当参照附图阅读以下详细描述，其它方面、实施例和实现方式将变得显而易见。

附图说明

图1是根据示例实施例的系统的框图。

图2是根据示例实施例的由系统实施的用于深度估计的方法的流程图。

图3图示根据示例实施例的被转换成深度估计的三维特征。

图4是根据示例实施例的方法的框图。

具体实施方式

本文描述了示例方法、设备和系统。应当理解，词语“示例”和“示例性”在本文中用于表示“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何实施例或特征不一定被解释为比其它实施例或特征更优选或更有利。在不脱离本文所呈现的主题的范围的情况下，可以利用其它实施例，并且可以作出其它改变。

因此，本文描述的示例实施例并不意味着是限制性的。如在本文中一般描述的且在附图中示出的本公开的各方面可以以多种不同的配置来布置、替换、组合、分开和设计，所有这些配置都是本文中预期的。

此外，除非上下文另有说明，否则每个附图中示出的特征可以彼此组合使用。因此，附图应该通常被视为一个或多个总体实施例的组成方面，应理解并非所有示出的特征对于每个实施例都是必要的。

关于本文描述的量或测量值的术语“大约”或“基本上”是指所述的特性、参数或值不需要精确实现，但是偏差或变化(包括例如公差、测量误差、测量精度限制和本领域技术人员公知的其它因素)可以以不妨碍该特性旨在提供的效果的量而出现。

I.概述

从单个图像确定深度图通常涉及识别从图像中提取的不同特征(例如，边缘、点和/或聚焦或散焦水平)之间的关联关系。例如，特征之间的线角度、视角和其它关系可以用于确定图像中像素之间的相对距离。作为一个简化示例，诸如桌子或盒子等矩形对象上的不同边缘可以通过边缘之间形成的相对角度并基于边缘的相对大小来指示图像的深度。更多的无定形形状也可以提供景深印象。在许多情况下，可以利用机器学习实施方式来从单目图像(即，从相对于环境的单个视角拍摄的图像)推断深度信息。然而，用于单目深度估计的现有系统可能不会准确地表示深度。例如，这种不准确性可能是由于没有感测到环境中存在的遮挡而导致的。

本文描述的示例涉及被配置为执行个体图像的深度估计的混合神经网络。具体地，所描述的实施例涉及使用二维卷积神经网络(2D CNN)处理图像以提取多个二维特征，并且基于二维特征，使用三维卷积神经网络(3DCNN)提取多个三维特征。通过对三维特征应用变换，可以确定出准确表示环境中的相对深度的深度图。如本文所使用的，术语“卷积神经网络”是指一种深度神经网络，其特征在于(i)与输入进行卷积的一个或多个滤波器(也称为“内核”)以及(ii)多个卷积层的池化。二维滤波器与2D CNN相关联，而三维滤波器与3DCNN相关联。

有利地，以这种方式使用混合神经网络产生了三维表示，该三维表示沿着深度轴检测至少部分未被其它系统检测到的对象的顺序。例如，顺序可以指深度维度上的顺序，其中一个对象可以在其它对象前面并且遮挡那些对象。如本文所使用的，术语“遮挡”是指由图像表示的、因用于捕获图像的图像捕获设备或用于处理图像的系统的特性而不容易被检测到的环境的一个方面。例如，在深度估计情况下，遮挡可以对应半透明材料(例如，玻璃)，该半透明材料具有固体表面，但是由于是相对透明的而不总是被检测为用于深度估计目的的固体。在深度估计情况下可以存在遮挡的其它示例。

在示例中，将2D CNN用作预处理的形式以从图像中提取二维特征。如本文所使用的，术语“二维特征”涉及可能由2D CNN从二维图像中提取的特征。应当理解，这些特征可以具有两个或更多个维度。2D CNN可以被训练用于对象的分类(例如，形状检测、边缘检测、面部检测等)，并且每个二维特征可以对应一个对象类别。在这种示例中，用于训练2D CNN的地面真值可以包括训练图像中的对象的正确分类。3D CNN可以接收基于2D CNN的输出的输入。3D CNN可以被训练用于从输入中识别三维特征。然而，对于3D CNN，地面真值可以涉及与输入相关联的深度估计(例如，多镜深度估计)。因此，当训练混合神经网络时，可以使用两个不同的地面真值以使每个神经网络更有效地执行其任务。即，2D CNN可以用于从场景中识别和提取二维特征，而3D CNN可以用于建立二维特征之间的空间关系。以这种方式在两个神经网络之间共享处理可以提供稳健且准确的结果，同时潜在地实现更少的处理，特别是对于3D CNN。例如，在提升二维特征时执行对象检测可以在3D CNN中实现更少的隐藏层。在示例中，可以一起训练2D CNN和3D CNN(例如，使用端到端训练)。

在示例中，从2D CNN输出的二维特征可以在被输入到3D CNN之前进行变换。例如，这可以包括形成二维特征的线性组合以形成3D CNN的单通道输入。因此，示例实现方式包括提供指示二维特征的三维表示的单通道输入，而不是向3D CNN提供若干二维特征的多通道输入。

从单目图像确定深度估计涉及确定图像中特征之间的空间关系。以本文描述的方式使用混合神经网络实现了两种或更多种不同的建立这些空间关系的方式，因此实现了稳健且可靠的深度估计方式。因此，所描述的特定神经网络架构提供了对图像处理技术的改进。

II.示例系统

图1是根据示例实施例的系统的框图。具体地，图1示出了具有计算设备102和服务器系统114的系统100。计算设备102包括处理器104、存储器106和存储在存储器106上并可由处理器104执行以执行功能的指令108。

处理器104可以包括一个或多个处理器，诸如一个或多个通用微处理器和/或一个或多个专用微处理器。例如，该一个或多个处理器可以包括专用集成电路(ASIC)或现场可编程门阵列(FPGA)。被配置为执行软件指令的其它类型的处理器、计算机或设备都是本文中预期的。

存储器106可以包括计算机可读介质，诸如非暂时性计算机可读介质，诸如但不限于只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、非易失性随机存取存储器(例如闪存)、固态驱动器(SSD)、硬盘驱动器(HDD)、压缩光盘(CD)、数字视频光盘(DVD)、数字磁带、读/写(R/W)CD、R/WDVD等。其它类型的存储设备、存储器和介质都是本文中预期的。

指令108存储在存储器106上并且可由处理器104执行以执行本文描述的功能。

计算设备102还包括用户界面110和图像捕获设备112。图像用户界面可以包括触摸屏、键盘或被配置为感测用户输入的任何其它设备。图像捕获设备112可以是被配置为捕获图像(诸如RGB图像)的任何设备。例如，图像捕获设备112可以包括摄像机。

服务器系统114通信地耦合到计算设备102。服务器系统114被配置为从计算设备102接收输入图像，并且生成由输入图像捕获到的环境的深度估计。服务器系统114包括2D神经网络116、特征提升模块118、3D神经网络120和深度估计模块122。服务器系统114的这些组件可以以硬件(例如，通过使用一个或多个专用深度神经网络计算设备)或以软件(例如，通过将处理器和/或计算设备的输出连接在一起以执行神经网络的功能)来实施。在某些实施方式中，服务器系统114可以表示与计算设备102相关联的一组云服务器。例如，计算设备102可以是连接到网络提供商的移动设备，并且网络提供商可以促进计算设备102与该组云服务器之间的通信以用于存储和/或处理目的。在其它示例中，服务器系统114可以在计算设备102本地或者与计算设备102组合。系统100的其它配置也是可能的。服务器系统114可以包括多个计算设备，该多个计算设备具有以与上面关于计算设备102所描述的方式相似的方式配置的处理器、存储器和指令。

2D神经网络116可以是2D CNN、2D平移不变神经网络(2D SINN)、2D空间不变人工神经网络(2D SIANN)、或被配置用于从图像中提取二维特征的另一种类型的神经网络。因此，虽然在即将公开的内容中一般描述了2D CNN，但是应当理解，可以预期被配置为执行相似功能的任何神经网络。2D神经网络116被配置为可能经由网络从计算设备102接收图像(例如，单目图像，诸如RGB图像)。2D神经网络116提取多个二维特征并且将它们输出作为多通道输出。例如，这可以涉及使用至少一个卷积层、池化层、以及被配置为对图像进行滤波和下采样为多个提取的二维特征的一个或多个隐藏层。

在一些实施方式中，2D神经网络116被训练为识别和分类图像中的各种对象。在这些示例中，2D神经网络可以在训练期间使用正确分类作为地面真值。所提取的二维特征可以包括图像的经过滤波和下采样的版本，其描绘了在图像中识别出的不同对象。2D神经网络116可以以硬件(例如，通过使用一个或多个专用深度神经网络计算设备)或以软件(例如，通过将处理器和/或计算设备的输出连接在一起以执行神经网络的功能)来实施。

特征提升模块118被配置用于将由2D神经网络116提取的多个二维特征转换成3D神经网络120的三维输入特征。特征提升模块通过确定二维特征的线性组合来将二维特征转换成三维特征。例如，在2D神经网络116对输入图像的各方面进行分类并且二维特征相应地涉及图像中的分类对象的示例中，线性组合可以涉及对分类对象进行分层的顺序。这些层可以组合以形成三维输入。特征提升模块118可以与2D神经网络116相关联的计算设备分开或者是其一部分。例如，特征提升模块118可以是被配置用于将多个二维特征转换成3D神经网络的三维输入的专用计算设备。

3D神经网络120可以是3D CNN、3D平移不变神经网络(3D SINN)、3D空间不变人工神经网络(3D SIANN)、或被配置用于从一个输入或多个输入中提取三维特征的另一种类型的神经网络。因此，虽然在本公开中一般地描述了3D CNN，但是应当理解，可以预期被配置为执行相似功能的任何神经网络。3D神经网络120可以被配置为接收多通道输入(诸如从2D神经网络116输出的二维特征)或单通道输入(诸如从特征提升模块118输出的三维输入)。3D神经网络120提取多个三维特征并且将它们输出作为多通道输出。例如，这可以涉及使用至少一个卷积层、池化层、以及被配置为对一个或多个输入进行滤波和下采样为多个提取的三维特征的一个或多个隐藏层。三维特征可以由体素表示。

在一些实施方式中，3D神经网络120可以被训练为确定输入的三维方面。具体地，这些3D方面可以涉及2D神经网络116提取到的二维特征之间的关系。在这些示例中，3D神经网络可以在训练期间使用正确的或基本上正确的深度估计(例如，在基于环境的多镜成像的图像中的环境的深度估计)作为地面真值。所提取的三维特征可以包括输入的经过滤波和下采样的版本，其描绘了输入图像中的深度的不同表示。3D神经网络120可以以硬件(例如，通过使用一个或多个专用深度神经网络计算设备)或以软件(例如，通过将处理器和/或计算设备的输出连接在一起以执行神经网络的功能)来实施。

深度估计模块122可以被配置为将3D神经网络提取到的多个三维特征变换成指示图像的深度估计的二维深度图，如下面进一步描述的。深度估计模块122可以与3D神经网络120相关联的计算设备分开或者是其一部分。例如，深度估计模块122可以是被配置用于将多个三维特征转换成指示图像的深度估计的二维深度图的专用计算设备。

图2是根据示例实施例的使用系统进行深度估计的方法的流程图。具体地，图2示出了方法200的简化表示。在示例中，方法200可以使用系统100或相似系统来执行。在框202处，方法200包括接收图像。例如，服务器系统114可以可能经由网络从计算设备102接收图像。图像可以是单目RGB或灰度图像，因此可以表示多通道或单通道输入，并且包括二维数据阵列。

在框204处，方法200包括使用图像作为2D CNN的输入。2D CNN由在两个方向上应用于输入图像的一个或多个二维滤波器(例如，3×3滤波器或5×5滤波器)来定义。在多个卷积和轮询层上，可以将表示不同特征的图像的不同方面提取到单独通道中，同时减少待处理的数据量。然后，可以将图像的这些方面提供给完全卷积、完全连接或部分连接的神经网络以输出二维特征。在2D CNN被训练用于对图像进行分类的示例中，不同的二维特征可以表示输入图像中的不同类型的对象。

在框206处，方法200包括从2D CNN接收多个二维特征。例如，与格式化3D CNN的数据相关联的计算设备可以从2D CNN接收二维特征。

在框208处，方法200包括基于多个二维输出特征确定3D CNN的三维输入特征。确定三维输入特征包括确定从2D CNN接收到的多个二维特征的线性组合。通过将相似特征彼此更靠近地放置，该线性组合可以促进有效的三维卷积。例如，表示由2D CNN分类的相同对象的特征可以在形成3D CNN的三维输入特征的三维阵列的相邻层中进行组合或排序。

在框210处，方法200包括使用三维输入特征作为3D CNN的输入。3DCNN由在三个方向上应用于输入图像的一个或多个三维滤波器(例如，3x3x3滤波器或5x5x5滤波器)来定义。在多个卷积和轮询层上，可以将表示不同三维特征的三维输入特征的不同方面提取到单独通道中，同时减少待处理的数据量。然后，可以将图像的这些方面提供给完全连接或部分连接的神经网络以输出多个三维特征。有利地，3D CNN被配置为在三个方向上提取特征，并且因此被配置为提取指示深度的特征。因此，组合来自2D CNN的二维特征以使相似特征(例如，表示相同对象的特征)包括在三维阵列的相邻层中允许3D CNN更有效地提取深度信息。

在框212处，方法200包括从3D CNN接收多个三维特征。例如，与生成二维深度图相关联的计算设备可以从3D CNN接收三维特征。

在框214处，方法200包括基于从3D CNN接收到的多个三维特征生成二维深度图。在这种情况下，二维深度图是指深度估计的二维阵列，其中每个深度估计对应输入图像中的一个或多个像素。下面将参考图3对关于框214的功能的其它细节进行描述。

图3示出了根据示例实施例的被转换成深度估计的三维特征。具体地，图3示出了输入到变换中的三维特征300，该变换计算深度估计阵列中的给定点的深度。变换确定由3DCNN输出的哪些体素是不透明的，并且基于图像捕获设备在捕获图像时的虚拟姿态与三维特征300中沿路径最近的不透明体素之间的路径长度来计算每个不透明体素的深度。如图所示，三维特征300是体素的三维阵列，一些体素是透明的而一些体素是不透明的。通过迭代地确定哪个不透明体素最接近图像捕获设备的位置和方位，可以将过算子变换应用于每个体素以用于计算深度的目的。图像捕获设备的姿态可以用作每个路径开始的焦点。

在本示例中，已经将对象302提取作为由3D CNN输出的三维特征的一部分。过算子变换在与像捕获设备在捕获图像时的姿态相对应的三维特征300的距离平面(也称为“第d个平面”)304中操作。将包括路径306在内的多个路径映射到深度估计308的二维阵列(例如，深度图)上。为了简单起见，将路径306描绘为仅遇到一个不透明体素，即体素310。然而，在其它示例中，路径可以与若干个不透明体素相交。为了确定最近的不透明体素，变换可以由以下等式表示，其中“d”对应如图3所示的“第d个平面”，“M”对应与路径(例如，路径306)相交的一组体素(透明的和不透明的)，并且“(1-α_i)”对应每个体素的不透明度。

通过这个求和/乘积循环的迭代为在捕获图像时最靠近摄像机的姿态的不透明体素提供了最高值。在这种情况下的“不透明”体素可以是不透明度高于阈值不透明度(例如，0.95)的体素。在本示例中，由于只有不透明体素310与路径306相交，因此将体素310用于计算深度，该深度对应在到达体素310之前路径306的长度。可以将其它变换应用于三维特征，以便确定深度图。

III.示例方法

图4是根据示例实施例的方法的框图。具体地，图4描绘了用于使用混合神经网络架构生成图像的深度估计的方法400。方法400可以根据图1、图2、图3或其组件或其描述来实施。例如，方法400的功能的各方面可以由计算设备102、服务器系统114、一个或多个计算设备或者由被配置为实施上述功能的逻辑电路来执行。

在框402处，方法400包括接收图像。例如，这可以涉及从上面参考图1描述的图像捕获设备112接收图像。图像可以包括表示图像捕获设备捕获图像的环境的二维数据阵列。例如，图像可以是灰度或RGB图像。其它类型的图像也是可能的。

在框402处，方法400包括通过二维神经网络从二维数据阵列中提取多个二维特征。例如，这可以根据上面提供的2D神经网络116的描述或根据框204和206来执行。

在框404处，方法400包括生成多个二维特征的线性组合以形成单个三维输入特征。例如，这可以根据上面提供的特征提升模块118的描述或根据框206来执行。

在框406处，方法400包括通过三维神经网络从单个三维输入特征中提取多个三维特征。例如，这可以根据上面提供的3D神经网络120的描述或根据框210和212来执行。

在框408处，方法400包括确定二维深度图。该二维深度图包含与多个三维特征相对应的深度信息。例如，这可以根据上面提供的深度估计模块122的描述、根据框212和214或根据三维特征300来执行。

在示例中，二维神经网络包括二维卷积神经网络(2D CNN)。例如，2DCNN可以如参照图2所示的框202、204和206所描述的那样操作。在这些示例中，三维神经网络可以包括三维卷积神经网络(3D CNN)。例如，3D CNN可以如参照图2所示的框208、210和212所描述的那样操作。在涉及2D CNN的示例中，提取多个二维特征可以包括使用2D CNN作为二维滤波器在二维数据阵列内的两个方向上操作以输出多个二维特征。例如，2D CNN可以使用用于提取图像中不同特征的多个滤波器(即“内核”)。

在涉及2D CNN的示例中，方法200还包括：在提取多个二维特征之前，使用表示对象的多个图像来训练2D CNN，使得二维卷积神经网络内的不同节点操作以输出与不同对象相对应的不同类型的二维特征。例如，2D CNN可以被训练为对图像进行分类，并且每个特征可以涉及图像中的分类对象。在这些示例中，生成多个二维特征的线性组合以形成单个三维输入特征包括：根据与训练二维卷积神经网络相关联的对象，对多个二维特征中的二维特征进行分类；以及基于对二维特征进行分类，生成多个二维特征的线性组合。例如，可以基于识别出的不同对象在图像中如何重叠来堆叠和/或排序多个二维特征。组合二维特征的其它方式也是可能的。

在相关示例中，可以使用与深度估计相关的地面真值基于由2D CNN提取到的多个二维特征形成的输入来训练3D CNN。例如，地面真值可以从由输入到2D CNN的图像捕获到的相同环境的多镜图像形成的深度图来生成。以这种方式，在训练2D CNN和3D CNN时，提供了使用两种不同类型的地面真值的混合神经网络配置。

在涉及3D CNN的示例中，提取多个三维特征包括使用3D CNN作为三维滤波器在三维输入特征内的三个方向上操作以输出多个三维特征。例如，3D CNN可以使用用于从单个三维输入中提取不同特征的多个滤波器(即“内核”)。

在示例中，从单个三维输入特征中提取多个三维特征包括提取多组体素，其中每个体素指示一个不透明水平。例如，这些三维特征可以与图3所示的三维特征300相似。在这些示例中，确定二维深度图包括确定多个路径长度。每个路径长度表示焦点与不透明体素之间的距离。例如，可以将过算子变换应用于多个体素以确定哪个不透明体素最靠近多个相应路径的起点。确定哪些体素是不透明的可以包括将体素与阈值不透明度(例如，0.95)进行比较。

在示例中，生成多个二维特征的线性组合以形成单个三维输入特征对应于对二维特征进行排序。在二维特征涉及图像中分类对象的示例中，线性组合可以是基于哪些特征重叠，并且相应地对二维特征进行排序。

在示例中，多个二维特征对应二维神经网络的多通道输出，并且生成多个二维特征的线性组合以形成单个三维输入特征包括将二维神经网络的多通道输出变换成三维神经网络的单通道输入。

如上所述，尽管本文描述了卷积神经网络，但是其它类型的机器学习实施方式也是可能的。然而，在这种情况下使用卷积神经网络有利地允许减少作为卷积和轮询的结果的用于处理的数据，并且还允许提取空间关系。通过组合两个不同神经网络的各方面，本文描述的示例通过使用单目图像而不是多个图像、雷达数据、光探测和测距(LIDAR)数据或其它相似数据来提供稳健且准确的深度估计，从而增加系统的灵活性。此外，通过强调2D神经网络输出的二维特征的顺序，这些操作允许改善对遮挡的感测。因此，本文描述的特定架构和相应操作通过减少确定深度图所需的数据并改善对图像中的遮挡的检测来为图像处理技术带来好处。

附图中示出的特定布置不应该被视为限制性的。应当理解，其它实施例可以包括更多或更少的在给定附图中示出的每个元件。此外，可以将所示元件中的一些元件进行组合或省略。此外，说明性实施例可以包括附图中未示出的元件。

表示信息处理的步骤或框可以对应可被配置为执行本文描述的方法或技术的特定逻辑功能的电路。可替代地或此外，表示信息处理的步骤或框可以对应模块、片段、物理计算机(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))或程序代码的一部分(包括相关数据)。程序代码可以包括可由处理器执行以实施方法或技术中的特定逻辑功能或动作的一个或多个指令。程序代码和/或相关数据可以存储在任何类型的计算机可读介质上，诸如存储设备，包括磁盘、硬盘驱动器或其它存储介质。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短期存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包括长期存储程序代码和/或数据的非暂时性计算机可读介质。因此，计算机可读介质可以包括二级或永久的长期存储，例如只读存储器(ROM)、光盘或磁盘、压缩光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其它易失性或非易失性存储系统。计算机可读介质可以被认为是例如计算机可读存储介质或有形存储设备。

虽然已经公开了各种示例和实施例，但是其它示例和实施例对于本领域技术人员来说是显而易见的。所公开的各种示例和实施例是为了说明目的，而不旨在限制，真正的范围由所附权利要求指示。

Claims

1.一种系统，包括：

计算设备，其中所述计算设备被配置为执行一组功能，所述一组功能包括：

接收图像，其中所述图像包括二维数据阵列；

通过二维神经网络从所述二维数据阵列中提取多个二维特征；

生成所述多个二维特征的线性组合以形成单个三维输入特征；

通过三维神经网络从所述单个三维输入特征中提取多个三维特征；以及

确定二维深度图，其中所述二维深度图包含与所述多个三维特征相对应的深度信息。

2.根据权利要求1所述的系统，还包括图像捕获设备，所述图像捕获设备被配置为采集所述图像。

3.根据权利要求1所述的系统，其中所述计算设备是多个计算设备中的第一计算设备，以及其中所述二维神经网络和所述三维神经网络对应所述多个计算设备中的至少一个第二计算设备。

4.根据权利要求1所述的系统，其中所述二维神经网络包括二维卷积神经网络，以及其中所述三维神经网络包括三维卷积神经网络。

5.根据权利要求4所述的系统，其中提取所述多个二维特征包括使用所述二维卷积神经网络作为二维滤波器在所述二维数据阵列内的两个方向上操作以输出所述多个二维特征。

6.根据权利要求5所述的系统，所述一组功能还包括：

在提取所述多个二维特征之前，使用表示对象的多个图像来训练所述二维卷积神经网络，使得所述二维卷积神经网络内的不同节点操作以输出与不同对象相对应的不同类型的二维特征。

7.根据权利要求6所述的方法，其中生成所述多个二维特征的线性组合以形成单个三维输入特征包括：

根据与训练所述二维卷积神经网络相关联的对象，对所述多个二维特征中的二维特征进行分类；以及

基于对所述二维特征的分类，生成所述多个二维特征的线性组合。

8.根据权利要求4所述的系统，其中提取所述多个三维特征包括使用三维卷积神经网络作为三维滤波器在所述三维输入特征内的三个方向上操作以输出所述多个三维特征。

9.根据权利要求4所述的系统，其中从所述单个三维输入特征中提取所述多个三维特征包括提取多组体素，其中每个体素指示一个不透明水平。

10.一种方法，包括：

接收图像，其中所述图像包括二维数据阵列；

11.根据权利要求10所述的方法，其中所述二维神经网络包括二维卷积神经网络，以及其中所述三维神经网络包括三维卷积神经网络。

12.根据权利要求11所述的方法，其中提取所述多个二维特征包括使用所述二维卷积神经网络作为二维滤波器在所述二维数据阵列内的两个方向上操作以输出所述多个二维特征。

13.根据权利要求12所述的方法，还包括：

14.根据权利要求13所述的方法，其中生成所述多个二维特征的线性组合以形成单个三维输入特征包括：

15.根据权利要求11所述的方法，提取所述多个三维特征包括使用三维卷积神经网络作为三维滤波器在所述三维输入特征内的三个方向上操作以输出所述多个三维特征。

16.根据权利要求10所述的方法，其中从所述单个三维输入特征中提取所述多个三维特征包括提取多组体素，其中每个体素指示一个不透明水平。

17.根据权利要求16所述的方法，其中确定所述二维深度图包括确定多个路径长度，其中每个路径长度表示焦点与不透明体素之间的距离。

18.根据权利要求10所述的方法，其中生成所述多个二维特征的线性组合以形成单个三维输入特征对应于对二维特征进行排序。

19.根据权利要求10所述的方法，其中所述多个二维特征对应所述二维神经网络的多通道输出，以及其中生成所述多个二维特征的线性组合以形成单个三维输入特征包括将所述二维神经网络的所述多通道输出转换成所述三维神经网络的单通道输入。

20.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质储存有指令，所述指令在由处理器执行时使得执行一组功能，其中所述一组功能包括：

接收图像，其中所述图像包括二维数据阵列；