CN112002008A

CN112002008A - 一种整合光学和视觉智能技术的三维物体检测装置和方法

Info

Publication number: CN112002008A
Application number: CN201910446389.5A
Authority: CN
Inventors: 李应樵; 马志雄
Original assignee: Marvel Digital Ai Ltd
Current assignee: Marvel Digital Ai Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-11-27

Abstract

本发明公开了一种整合光学和视觉智能技术的三维物体检测装置和方法，该装置包括：光场摄像模块；和视觉智能处理模块。通过该检测装置和方法，提高了三维物体检测的精确度和速度，提升了检测的实时性。同时降低了装置保有和维护成本。

Description

一种整合光学和视觉智能技术的三维物体检测装置和方法

技术领域

本发明涉及三维物体检测方法，尤其是涉及一种整合了光学和视觉智能技术的三维物体检测方法。

背景技术

三维物体检测作为智能机器人,无人车,无人机和增强现实等技术的基础，越来越受到关注，逐渐成为当前技术研究的热点。

随着部署在智能机器人、移动设备和自动驾驶车辆等设备上的3D传感器的普及，越来越多的3D数据被捕获和处理。3D搜索的计算复杂度在分辨率方面也成倍地增长，对于大型场景诸如自动驾驶的实时应用而言变得非常昂贵。

2018年，斯坦福大学Charled R Qi等在IEEE国际计算机视觉与模式识别会议上发表题为Frustum PointNets for 3D Object Detection from RGB-D Data论文，提出了一种三维物体检测方法。图1示出了现有技术中的三维物体检测方法的示意图。参见图1，以相机和激光雷达分别采集光学图像(RGB)和目标深度(D),然后把两个设备所获得的数据输入到CNN 及点云架构中，通过视锥体建议、三维实例分割和三维边界框估计等模块进行处理，得到三维物体检测结果。这种方法与以前的技术相比，计算效率高，运行速度快。

但是，这种方法仍然存在以下不足，相机拍摄的照片质量不够高，对物体检测的表现产生严重的负面影响；其次，由于所获得三维数据(RGB-D) 来自两个不同的设备，两者之间并无关联，数据采集效率容易受到影响，两台设备采集的数据不一致也将影响检测结果的准确率。再次，需要同时维持两台不同的设备，设备保有和维护成本增加。

发明内容

为加快检测的计算速度，提高检测结果准确率，本发明提供一种直接地采集、处理和分析目标的RGB-D数据进行三维物体检测的方法。利用光场摄像模块特有的信息数据采集详细的特征，巧妙地将其获得的三维图像信息进行解码、再聚焦获得高分辨率图像及其对应的深度图，再通过智能技术对该图像数据进行处理，从而快速、准确地获得物体检测结果，同时降低设备保有和维护成本。

本发明的一个目的是提供一种整合光学和视觉智能技术的三维物体检测装置，包括：光场摄像模块；和视觉智能处理模块。所述光场摄像模块具有微透镜阵列，通过该光场摄像模块获得三维图像信息。所述视觉智能处理模块包括解码模块、再聚焦模块、RGB-D数据处理模块。所述解码模块将所获得三维光场图像进行解码，获得图像重建。所述再聚焦模块将重建的光场图像结合进行再聚焦以获得高分辨率图像及其所对应的深度图(RGB-D)。所述RGB-D数据处理模块先通过实例分割模型Mask R-CNN 在RGB图像上找到2D候选区域；结合该区域的深度后得到视锥体建议；在该视锥体中使用PointNet++进行3D实例分割；利用T-Net对坐标归一，并再次使用PointNet++，回归出物体3D边界框的相关参数。

本发明的另一个目的是提供一种整合光学和视觉智能技术的三维物体检测方法，包括：通过光场摄像模块中的微透镜阵列获得三维图像信息；将所获得三维光场图像通过解码步骤获得图像重建，并将重建的光场图像结合进行再聚焦以获得高分辨率图像及其所对应的深度图(RGB-D)；输入 RGB-D数据，先通过Mask R-CNN在RGB图像上找到2D候选区域；结合该区域的深度后得到视锥体建议；在该视锥体中使用PointNet++进行3D实例分割；利用T-Net对坐标归一，并再次使用PointNet++，回归出物体 3D边界框的相关参数。

通过本发明提供的三维物体检测装置和方法，实现了以下技术效果：

(1)通过光场摄像模块获得的三维图像信息进行视觉技术处理，不仅能对合成光场图像进行高精度深度估计，还能对室内和室外光照条件的场景或目标恢复精确的局部细节和几何形状。

(2)由于该视觉智能技术是直接在原始点云中学习，能够精确估计 3D边界框，因而具有较高的实时性，检测的运行速度得到较大提高，可以更好地应用于诸如自动驾驶和增强现实等。

(3)不需要同时维护两台图像信息获取设备，降低了设备保有和维护成本。

附图说明

根据以下描述和附图，本发明已陈述的和未陈述的特征、目的和优点将变得显而易见，其中相同的附图标记表示各个视图中的相同元件，并且其中：

图1示出了现有技术中的三维物体检测方法的示意图。

图2示出了本发明光场摄像模块的工作原理。

图3示出了本发明光场摄像模块实现数字对焦的工作原理。

图4示出了本发明三维物体检测流程图。

图5示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图6(a)为本发明的一个三维物体检测系统获得的光场图像解码示例的示意图。

图6(b)和6(c)为本发明的光场成像系统的原理图。

图6(d)为本发明处理后的光场图像示例图。

图6(e)为本发明的三维物体检测系统对合成孔径图像进行数字重聚焦的原理图。

图6(f)为本发明的三维物体检测系统移动子孔径图像来计算重新聚焦的图像原理示意图。图7示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

以下阐述的是当前被认为是所要求保护的发明的优选实施例或最佳表示性示例的内容。仔细考虑了对实施例和优选实施例的将来和现在的表示或修改，在功能、目的、结构或结果方面作出实质性改变的任何变更或修改，都旨在被本专利的权利要求所涵盖。现在将参考附图仅以举例的方式描述本发明的优选实施例。

与现有技术不同，本发明创造性地采用光场摄像模块获取三维图像信息，在同一台设备获取信息的基础上，通过与其相适应的视觉智能技术，对获取的信息进行计算，从而快速、准确地获得物体3D边界框参数，确定被检测物体。

在一般相机中，以主镜头捕捉光线再聚焦在镜头后的胶片或感光器上，所有光线的总和形成相片上的小点，显示影像。与一般相机不同，光场摄像模块于主镜头和感光器之间，设置有布满上万个微型镜片的显微镜阵列，每个小镜阵列接收由主镜头进来的光线后，传送到感光器前，析出聚焦光线及将光线资料转换，以数码形式记录。通过后续处理，追踪每条光线在不同距离的影像上的落点，对其重新对焦，获得精确的图片。因此，一般相机记录的仅仅是光线最终形成的影像，而光场摄像模块可以收集进入相机所有光线的“颜色、强度、位置和方向”等多维度信息。

图2示出了本发明光场摄像模块的工作原理。如图2所示，光场摄像模块由主镜头、微透镜阵列和图像传感器组成。镜头的光瞳面(UV面)和图像传感器的光敏面(XY面)关于微透镜阵列(ST)成共轭关系。进入主镜头的光线经过每个微透镜单元会投影到图像传感器上形成小的微透镜子图像。每个微透镜子图像包含若干个像素，各像素记录所记录的光线强度就来自于一个微透镜和镜头的一个孔径区域之间所限制的细光束。通过微透镜单元的坐标ST和镜头子孔径的坐标UV就能确定每个细光束的位置和方向，获得L(u,v,s,t)分布。

图3示出了本发明光场摄像模块实现数字对焦的工作原理。如图3所示，在获得相机内的光场分布后，可以重新选择一个虚拟的像平面(如图，可以选择更远或更近的像面位置)，计算出所有的光线在这个平面上的交点位置和能量分布，从而得到一幅新像面上的图像。利用不同深度平面的图像序列，可以完成三维深度估计。

图4示出了本发明三维物体检测的流程图。首先采用光场摄像模块收集光线信息，通过解码模块对该多维度信息进行解码，获得图像重建，并通过再聚焦模块进行再聚焦，提取高分辨率图像和深度图数据(RGB-D)。该解码和再聚焦步骤是基于光场摄像模块收集信息的处理，该过程采用通用的解码和再聚焦方式，只要能够获取高分辨率图像和深度图数据。

图6(a)为本发明的三维物体检测获得的光场图像解码示例的示意图。解码过程600的目标在于将获得的光场图像601在步骤605进行图像重建，将重建的光场图像结合估计的深度图602对光场图像进行再聚焦603，并将再聚焦603的图像相结合获得所有聚焦的光场图像604。其中在步骤605 进行的图像重建为光场图像解码的关键步骤，其包括：(a)通过微透镜阵列成像获得光场图像；(b)获得子孔径图像序列(根据焦平面的距离排列)；(c)获得单个子孔径图像；(d)子孔径图像序列(根据主镜头上的位置排列)；图605(d)为本发明的相机系统获得的多视角子孔径图像阵列，其中所述多视角子孔径图像阵列是在原始复眼图像进行处理后获得的。根据上述合成孔径技术，原始复眼图像中的像素点被重投影到了各个子孔径图像中，形成了对场景不同视角的成像。可以将原始复眼图像中的光场信息进一步合成、提取，得到成像空间的多视角视图，并进一步得到数字重聚焦序列；并且进一步得到深度图。图6(e)为本发明的三维物体检测系统对合成孔径图像进行数字重聚焦的原理图,其中，对合成孔径图像利用图6(e)的原理进行数字重聚焦：

L′(u，v，x′，y′)＝L(u，v，kx′+(1-k)u，ky′+(1-k)v) (3)

I′(x′，y′)＝∫∫L(u，v，kx′+(1-k)u，ky′+(1-k)v)dudv (4)

其中，I,I’表示一次和二次成像面的坐标系；

L和L’表示一次和二次成像面的能量。

当在取得被摄物体在每个微透镜的深度数据后，便可计算出整个影像的深度图，从而拍摄出立体的3D图像。

图6(b)和6(c)显示了在CMOS传感器607前面具有微透镜阵列608 的光场成像系统的机制。图6(b)通过像素的所有光线都通过其母微透镜并通过主透镜609上的共轭方形(子光圈)。图6(c)通过子孔径的所有光线通过不同微透镜下的相应像素聚焦。这些像素形成通过该子孔径看到的照片。

光场图像I(x，y)可以由公式表示：

I(x，y)＝∫∫L_F(u，v，x，y)dudv (5)

其中(u，v，x，y)表示沿着与(u，v)处的主透镜相交的光线行进的光和(x，y)处的微透镜平面，并且使用全光圈。图6(f)为本发明的三维物体检测系统移动子孔径图像来计算重新聚焦的图像原理示意图，可以通过图6(f)所示的方式移动子孔径图像来计算重新聚焦的图像：

移位的光场函数可以表示为：

光场成像技术允许重新聚焦图像并估计场景的深度图。通过光场计算出基本的深度范围。

图6(d)为本发明处理后的光场图像的一个示例图。以芯片板应用的半导体制造为例，可以使用复眼来找出铝粘合线的最大环高度，芯片上的第一键合高度和基板上的第二键合高度。在图6(d)中，正方向上的更大数量(μm)意味着朝向物镜的更近的虚拟焦平面。物镜表面上的焦平面校准为0μm。处理后的光场图像。图6(d)的左上图像是顶部线层，图6 (d)的右上图像是中间层，图6(d)的左下图像是底部金属层，图6(d) 的右下图像是全焦点图像。将开发自动聚焦软件以捕获所有线图像，而无需命令垂直轴的任何机械运动。将开发实时AOI软件并与自动对焦软件结合使用。用户界面将显示由相机拍摄的图像和全焦点图像，将标记检测到的任何缺陷。

在RGB-D数据处理模块中，通过实例分割模型Mask R-CNN在RGB图像上找到2D候选区，结合深度图，将2D边界框提升到视锥体(具有近平面和远平面)，其定义对象的3D搜索空间。然后收集视锥体内的所有点以形成点云。

在该视锥体中使用三维深度学习网络PointNet++进行3D实例分割，在视锥体中采用点云并预测每个点的概率分数，指示该点属于感兴趣对象的可能性。而其他点可以是非相关区域(例如地面，植被)或其他遮挡或位于感兴趣对象后面的点。基于3D实例分割，能够基于残差的3D定位，即不是回归物体的绝对3D位置，其偏离光场摄像模块的偏差可能在很大的范围内变化。

点云本身是无序的，在空间上任意分布，点云在各处也往往疏密不同。 PointNet++的采样层在点云中随机选择一个点，由此定义出局部区域的中心，进行特征提取，用神经网络构建对称函数，表达点云。然后再选择离这个点最远的点作为起点，再继续迭代，直到选择出需要的个数为止。也就是在各个小区域内采用基础的PointNet网络进行特征提取，接着再重复该过程，以实现对全局的采样。

因为是在局部区域重复性的迭代使用PointNet，所以可以用局部坐标系，从而也实现平移的不变性，同时在小区域中还是使用的PointNet，对点的顺序是无关的，保证置换不变性。

进一步的，在使用PointNet++进行3D实例分割之前，先采用2D语义分割，可以实现更好的实例分割。

提取被分类为感兴趣对象的点，获得这些分割的对象点，采用空间变换网络T-Net对坐标归一，进一步标准化其坐标以增强算法的平移不变性。

T-Net是一种特殊类型的空间变换器网络，它预测特征空间变换矩阵的子网络，从输入数据中学习出与特征空间维度一致的变换矩阵，然后用这个变换矩阵与原始数据相乘，实现对输入特征空间的变换操作，使得后续的每一个点都与输入数据中的每一个点都有关系。

视锥体可以朝向许多不同的方向，这导致点云的放置的大的变化。因此，通过采用T-Net将视锥体朝向中心视图旋转来使视锥体归一化，使得视锥体的中心轴线与图像平面正交。通过T-Net来估计整个物体的真实中心，然后变换坐标，使预测的中心成为坐标原点。

归一化之后，可以旋转坐标系，旋转z轴，把z指向视锥的中心方向，简化了x的分布和学习问题，在深度上，z上有很大的分布，我们基于3D 物体分割可以找到分割后的中心，物体的点集中在原点附近，计算进一步简化。对坐标进行归一能够很好地处理旋转、平移不变性，更易于网络学习三维空间信息。

之后，再次使用PointNet++，以预测从T-Net归一后坐标原点到实际对象中心的中心残差，回归出物体3D边界框的相关参数。

在该智能视觉技术图像信息处理过程中，通过将深度图提升为3D点云并以3D工具进行处理，使得3D几何图案更加明显，使3D学习者的工作更加容易。2D检测和3D实例分割串行处理的方式，提高了检测效率，实现了逐维的精准定位，大大缩短了对点云的搜索时间。

一类是辨认，是一对多进行图像匹配对比的过程。

图5为本发明的三维物体检测系统的结构图。例如物体检测系统服务器501。该物体检测系统服务器包括处理器510，此处的处理器可以为芯片(ASIC/eASIC),FPGA,NPU等，和以存储器520形式的计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的程序代码的存储空间530。例如，用于程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个程序代码531。这些程序代码可以被读出或者写入到所述处理器510中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图7所述的便携式或者固定存储单元。该存储单元可以具有与图7的服务器中的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码531’，即可以由例如诸如510之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

本发明创造性地采用光场摄像模块收集的图像信息，结合智能视觉技术对图像信息进行处理，进一步提高了三维检测的精确度，采用与获取的图像信息相对应的特定数据处理方式，进一步提升了三维检测的实时性，有利于在自动驾驶、虚拟现实等场景中的应用。

以上描述并非旨在限制在限定本发明的以下权利要求书中使用的词语的含义或范围。而是提供了描述和说明以帮助理解实施例。预期未来在结构、功能或结果方面的修改将存在而并非实质性改变，并且权利要求书中的所有这些非实质性改变都旨在被权利要求所涵盖。因此，尽管已经说明和描述了本发明的优选实施例，但本领域技术人员将会理解，可以在不脱离要求保护的本发明的情况下做出许多改变和修改。另外，虽然术语“要求保护的发明”或“本发明”在本文中有时以单数形式使用，但将理解，存在如所描述和要求保护的多个发明。

Claims

1.一种整合光学和视觉智能技术的三维物体检测装置，包括：

光场摄像模块；和

视觉智能处理模块。

2.根据权利要求1所述的三维物体检测装置，其特征在于，所述光场摄像模块具有微透镜阵列，通过该光场摄像模块获得三维图像信息。

3.根据权利要求1所述的三维物体检测装置，其特征在于，所述视觉智能处理模块包括解码模块、再聚焦模块、RGB-D数据处理模块。

4.根据权利要求3所述的三维物体检测装置，其特征在于，所述解码模块将所获得三维光场图像进行解码，获得图像重建。

5.根据权利要求3所述的三维物体检测装置，其特征在于，所述再聚焦模块将重建的光场图像结合进行再聚焦以获得高分辨率图像及其所对应的深度图(RGB-D)。

6.根据权利要求3所述的三维物体检测装置，其特征在于，所述微RGB-D数据处理模块先通过Mask R-CNN在RGB图像上找到2D候选区域；结合该区域的深度后得到视锥体建议；在该视锥体中使用PointNet++进行3D实例分割；利用T-Net对坐标归一，并再次使用PointNet++，回归出物体3D边界框的相关参数。

7.根据权利要求6所述的三维物体检测装置，其特征在于，在使用PointNet++进行3D实例分割之前，先采用2D语义分割。

8.一种整合光学和视觉智能技术的三维物体检测方法，包括：

通过光场摄像模块获取三维图像信息；和

对所述三维图像信息进行视觉智能处理。

9.根据权利要求8所述的三维物体检测方法，其特征在于，所述光场摄像模块具有微透镜阵列。

10.根据权利要求8所述的三维物体检测方法，其特征在于，所述视觉智能处理包括解码步骤、再聚焦步骤和RGB-D数据处理步骤。

11.根据权利要求8所述的三维物体检测方法，其特征在于，所述解码步骤将所获得三维光场图像进行解码，获得图像重建。

12.根据权利要求8所述的三维物体检测方法，其特征在于，所述再聚焦步骤将重建的光场图像结合进行再聚焦以获得高分辨率图像及其所对应的深度图(RGB-D)。

13.根据权利要求8所述的三维物体检测方法，其特征在于，所述微RGB-D数据处理步骤先通过Mask R-CNN在RGB图像上找到2D候选区域；结合该区域的深度后得到视锥体建议；在该视锥体中使用PointNet++进行3D实例分割；利用T-Net对坐标归一，并再次使用PointNet++，回归出物体3D边界框的相关参数。

14.根据权利要求13所述的三维物体检测方法，其特征在于，在使用PointNet++进行3D实例分割之前，先采用2D语义分割。