CN115956256A

CN115956256A - 作为平面扫描体的替代方案的局部光场流

Info

Publication number: CN115956256A
Application number: CN202180047936.8A
Authority: CN
Inventors: G·博伊松; T·福尔克尔; B·楚波; D·杜瓦扬
Original assignee: Interactive Digital Vc Holdings France Ltd
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2020-06-09
Filing date: 2021-06-07
Publication date: 2023-04-11
Also published as: WO2021249949A1; US12073579B2; US20230215030A1; EP4162440A1

Abstract

本发明提供了一种用于图像处理的设备和方法。在一个实施方案中，该方法包括访问由至少一个参考相机捕获的多个图像，其中图像表示对应于所述同一场景的多个视图。然后从所述图像生成多个平面扫描体(PSV)切片，并且针对每个切片，从至少参考相机校准参数计算流图，并且使用该流图，生成平面扫描体的前一切片。

Description

作为平面扫描体的替代方案的局部光场流

技术领域

本公开一般涉及光场传输和处理，包括深度估计和视图合成，并且更具体地涉及使用神经网络的技术和系统。

背景技术

许多装置和系统允许通过生成场景的图像和/或视频数据来捕获场景。例如，常规相机可用于出于不同目的捕获场景的图像。一种这样的用途是提供场景几何体的3D重建。另一种是渲染场景的虚拟视图。

光场相机和全光相机提供比常规相机更多的信息。这是因为相机能够采集光场数据并且捕获从场景发出的光场。这是场景中的光的强度。一种类型的光场相机使用放置在原本常规图像传感器前面的微透镜阵列来感测强度、颜色和方向信息。这允许从提供比常规相机更多的信息的单个场景显现若干图片。

近年来，相机并且特别是光场相机已经用于深度或神经网络的越来越多的领域。深层或神经网络(DNN)是在输入层和输出层之间具有多个层的人工神经网络(ANN)。DNN找到正确的数学运算以将输入转变为输出，无论其是线性关系还是非线性关系。与大多数传统的机器学习算法不同，这些深度学习网络在没有人为干预的情况下执行自动特征提取。在一些情况下，神经网络可用于执行深度估计和视图合成以及其他任务。考虑到由基于神经网络的系统保存的大量数据，此类系统可以生成高质量3D重建和视图合成结果。虽然神经网络(例如，深度学习网络)已被证明在各种任务中是非常通用且准确的，但此类网络需要高内存带宽和高计算成本。

不管其目的(视图合成、深度估计等)如何，光场处理都需要知道下层射线几何形状。采集装置必须被校准，但是直接向算法馈送校准参数集是不方便的。一个问题是现有装置和所需校准模型的多样性(全光相机与相机装置、失真多项式等)，其导致异构(且潜在地计算复杂)处理。恢复算法中的计算均匀性的常见方式，特别是当处理卷积神经网络(CNN)时，包括预先将光场图像转变为平面扫描体(PSV)。然而，平面扫描体是冗余的，并且导致显著的内存占用。因此，需要用于图像传输和处理的改进技术，特别是由神经或深层网络提供的那些技术。

发明内容

附加特征和优点通过类似技术实现，并且其他实施方案和方面在本文中详细描述并且被认为是要求保护的发明的一部分。为了更好地理解具有优点和特征的本发明，参考说明书和附图。

提供了一种用于图像处理的设备和方法。在一个实施方案中，该方法包括访问由至少一个参考相机捕获的多个图像，其中图像表示对应于所述同一场景的多个视图。然后从所述图像生成多个平面扫描体(PSV)切片，并且针对每个切片，从至少参考相机校准参数计算流图，并且使用该流图，生成平面扫描体的前一切片。

在另一个实施方案中，提供了一种方法和设备，其中该设备具有处理器，该处理器被配置为：获得第一平面扫描体(PSV)切片及其相关联流图，并且用于确定与第一PSV相关联的相机校准参数，并且基于所述第一PSV切片和所述相机参数生成至少前一PSV切片或下一PSV切片。

附图说明

通过结合附图考虑以下具体实施方式可以容易地理解本公开的教导内容，其中：

图1是根据一个实施方案的被处理成平面扫描体(PSV)切片的光场预处理块的框图；

图2是根据一个实施方案的被扭曲到另一相机上的输入图像的图示，呈现其坐标系中的深度；

图3是根据一个实施方案的用于参考相机和另一相机的分量以及所得PSV的图示；

图4是示例性示意性PSV几何体的图示；

图5是一个实施方案的流程图图示；

图6是可以结合一个或多个实施方案的具体实施使用的装置的图示；

图7和图8是可以结合分别示出编码器和解码器的一个或多个实施方案的具体实施使用的装置的另选实施方案；

图9是另一个实施方案的流程图图示；并且

图10是示例性符号表的图示。

应当理解，附图的目的是为了说明本发明的概念，而不一定是用于说明本发明的唯一可能配置。为了便于理解，在可能的情况下，已经使用相同的附图标号来表示附图中共有的相同元件。

具体实施方式

图1是光场阵列的示例。在图1中，共同标记为110的数字提供n个视图的光场阵列，该光场阵列还包括校准参数。然后将阵列110设置成n个平面扫描体，如120处所示。实际上，来自不同视图/子孔径图像的光场样本在如120处所示的平面扫描体中被对准到同一2D坐标系上。这种重新采样极大地简化了后续处理；在这一点上，不需要考虑校准参数。然而需注意，这种简化并不是自由的：平面扫描体表现出比它们所源自的原始光场更多的冗余。这是通过预处理完成的，但是一旦执行了该步骤，数据就可以准备好进行处理，如130处所示。这是恢复算法中的计算均匀性的一种方式，特别是当处理卷积神经网络(CNN)时，包括预先将光场图像转变为平面扫描体(PSV)。

图2提供了将图像扭曲到另一相机或相机获得的数据上的示例。将输入图像重新采样到平面扫描体中包括通过该参考相机的坐标系中的固定深度处的连续平面将该图像扭曲到参考相机上(参见图2)。深度值通常以1/z在[z_min；z_max]范围中被均匀地采样。

重新参见图2，将输入图像210扭曲到另一相机220上，呈现其坐标系230的深度。如所描绘的，如果没有来自输入图像的像素映射在其上，则所得PSV切片的某部分可以保持未知。这就是平面扫描体通常呈现4个通道的原因：即RGBM，其中RGB代表红色、绿色和蓝色，并且M表示二进制占用掩码(有效/未知)。在这个意义上，平面扫描体因此通常被称为4维张量：[H，W，D，4]，其中W和H表示参考相机的宽度和高度，以像素为单位，并且D表示切片在体积中的数量(即，所考虑的固定深度平面的数量)。

图10提供了可以有助于讨论如结合图1和图2所讨论的数学和几何概念的符号表。

在许多光场应用中，为了理解所涉及的参数，以下讨论可以提供对理解的帮助。

在该示例中，向量被认为由

定义，z≠0。向量的透视投影被写为如下：

存在一种相机，该相机具有K作为其内在矩阵：

其中：

·f表示针孔-传感器距离(通常被误称为“焦距”)，以像素表示；

·

表示针孔在传感器上的投影的像素坐标(“主点”)；

·α表示像素的纵横比；

·γ：偏斜系数，以像素为单位。

使P为相机的姿态矩阵。其对相机在参考(“世界”)坐标系中的位置和取向进行拍照：

其中R是旋转矩阵：

并且T是平移向量：

相机的外在矩阵被定义为：

最后使

表示对相机的几何失真进行建模的扭曲算子。

从坐标系(CS)，可以获得另一个的计算。让我们考虑具有3D点的示例。使X_world和X_cam分别为其在世界CS和相机的CS中的坐标。然后：

并且

然后可以将该坐标系到像素的具有失真的图像投影定义为：

其中

在没有任何失真的情况下，这将变为

因此，从像素到坐标系的3D重建将从像素

变为3D空间，呈现相机的CS中的深度z：

具有失真

其中

没有失真

现在参见图4中的信息，可以使用参考相机作为示例来帮助理解该概念以示出示意性PSV几何体。在该示例中，使参考相机为由其内在矩阵K及其姿态矩阵P确定的普通针孔相机。现在考虑实际相机，也被校准为普通针孔相机，其内在矩阵和外在矩阵分别表示为K_c和Q_c。假设我们想要将由实际相机记录的图像I_c转变为平面扫描体，并且因此假设我们考虑D深度平面，位于参考相机的坐标系中的深度z₁，...，z_D处。平面扫描体的第d个切片(1≤d≤D)由以下重新采样定义：

其中内插像素位置

由以下确定：

遗憾的是，平面扫描体的主要缺点在于它们的大小，并且存在与其相关联的足够内存和成本的问题。光场图像沿着z轴被复制，从而需要分配大量内存。这是关键的，因为PSV的尺寸随着图像分辨率而三次方地增大。实际上，有效CNN通常需要PSV的两个连续切片之间的子像素视差(至多1像素视差)。如果参考相机的分辨率在宽度和高度上增大2倍，则切片的数量也必须增大2倍，并且每个PSV的总尺寸乘以8。

该数量级也是重要的。例如，如果例如存在具有1m到无限远的对象的场景，如例如室外自拍。考虑5cm基线，其对于沉浸式应用而言非常小。让我们也坚持两个PSV切片之间的1像素视差。考虑2K参考相机(2048×1088分辨率)。在标准视场的情况下，该相机应表现出焦距f≈2000像素。这产生：

以单精度浮点格式存储，一个100切片PSV需要100×1024×2048×4×4＝3.5千兆字节(这意味着7GB用于两个视图，14GB用于四个视图等等)。为了避免这一点，光场图像和PSV通常在训练期间被平铺为较小贴片(例如，[1]中的30×30)，然而为了梯度反向传播而保存在存储器中的数据量使得难以放大视图的数量和图像分辨率。

在一个实施方案中，一种替代方案将包括一次处理每一组对应d个切片(即，对应于同一深度)，依次从后到前或从前到后。然而在大多数光场应用中，处理第三维度是提取相关特征并执行所需任务的关键，因此这种替代方案具有缺点。

图3提供了根据一个实施方案的一个示例。在该实施方案中，位移分量附加到每个切片RGBM分量。该分量

捕获从当前切片到下一切片的流。因此，可一次一片地处理PSV，从而显著降低存储器要求，这实现较大批量大小和/或较高空间-角度分辨率(像素和视图)。假设PSV以1/z被均匀地采样，流自然是双向的；这意味着其适于前一切片和下一切片两者。换句话讲，考虑PSV的每个切片的位移(流)分量。如果解码器实现需要平面扫描体的光场处理，则这可以在编码光场的传输之后发生。

重新参见图3，示出了PSV的连续切片变为冗余的这种概念。该冗余可由从切片到另一切片的流捕获。在图3中，示出了参考相机310和另一相机320，并且通过虚线示出了所得PSV。

如图3的示例中所示的流直接从如下的相机参数获得：

考虑参考相机被校准为普通针孔相机并因此由其内在矩阵K确定。在下文中，“参考”坐标系将指该参考相机的坐标系。现在考虑参考坐标系中的姿态P＝(R T)的另一相机。考虑该第二相机在参考相机上的平面扫描体。现在如果T被表示为

则z切片中的像素

和另一切片z’中的其匹配

之间的位移由以下确定：

考虑z’(1/z+Δ)^-1，即，Δ是1/z的切片移位。位移由以下给出：

其中K_2×3表示K的前两行。

可观察到，如果t_z＝0，则位移不再取决于像素位置而是仅取决于1/z的移位：

否则，如果t_z≠0，则我们可以定义

第二相机在参考相机中的极线：

并且：

在示意性PSV几何体和上述公式的应用中提供了这样的示例。

对应于1/z的移位Δ的z切片中的像素

的位移由以下确定：

在这种情况下，位移是奇数Δ：改变1/z移位的符号仅改变位移的符号：

因此，对于后向扭曲前一切片和正向扭曲下一切片两者，可以双向方式使用该流。在一个实施方案中，只要传输校准参数集，就可以在解码器侧处计算光场流。需注意，仅需要的参数是另一相机在参考相机的坐标系中的相对位置：T_c ^refcs＝Q·(T_c 1)^t，以及参考相机的内在参数。z和Δ自变量由用户/解码器决定。在一个实施方案中，流可以与RGB(M)平面一起被直接馈送到算法，例如卷积神经网络。它也可以用于恢复下一切片和前一切片，使得RGB(M)切片三元组可用于后续处理。

在一个实施方案中，假设仅传输的切片被选择为使得它尽可能地被填充，该流可以用于从该单个传输的切片恢复整个平面扫描体。在平行相机的情况下，这意味着最大z值，然而对于收敛装置，收敛平面的深度应当是优选的。随后，顺序重建可以被定义为：

对于每个新的切片：

首先计算流图，

然后后向扭曲前一RGB(M)切片以获得新的切片。

在另选实施方案中，由于流在空间上非常平滑，因此如果由于某原因，也可以将其编码为子像素运动向量图，或者如果由于也不能传送校准参数的某其他原因，其解码将对于其简单的数学重建更优选。另外，假设解码器重建以1/z被均匀采样的PSV，当前流图可用于对自身进行正向扭曲并生成下一流图。

图5是一个实施方案的流程图图示。图5提供了一种方法，其中如步骤510中所提供的，访问由相机捕获的多个图像，这些图像表示对应于同一场景的多个视图。在步骤520中，生成来自图像的多个PSV切片。在步骤530中，针对每个切片，从相机的一个或多个参数计算流图。在步骤540中，生成平面扫描体的下一切片和前一切片中的至少一者。

图6至图9提供了可用于相应地适应一个或多个实施方案的功能的不同装置。例如，图6示意性地示出了根据一个或多个实施方案的编码和解码系统的一般概述。图6的系统被配置为执行一个或多个功能并且可具有预处理模块6300以准备所接收内容(包括一个或多个图像或视频)以供编码装置6400进行编码。预处理模块6300可以执行多图像采集、在公共空间中合并所采集的多个图像等、采集特定格式的全向视频以及允许准备更适合于编码的格式的其他功能。另一具体实施可以将多个图像组合到具有点云表示的公共空间中。编码装置6400以适于传输和/或存储的形式封装内容以供兼容解码装置6700恢复。一般来说，尽管并非严格要求，但编码装置6400提供一定程度的压缩，从而允许更有效地表示公共空间(即，使用较小内存用于存储和/或使用传输所需的较少带宽)。在将3D球体映射到2D帧上的情况下，2D帧实际上是可由多个图像(或视频)编解码器中的任一者编码的图像。在具有点云表示的公共空间的情况下，编码装置6400可以提供点云压缩，这是公知的，例如通过八叉树分解。在被编码之后，将数据发送到网络接口6500并且通常可被实现在任何网络接口中，例如存在于网关中。然后，可以通过通信网络6500(诸如互联网)来传输数据，但是可以预见任何其他网络。然后，经由网络接口6600接收的数据可被实现在装置中的网关中。在接收之后，将数据发送到解码装置6700。然后，经解码的数据由也可与传感器或用户输入数据通信的装置6800处理。解码器6700和装置6800可以集成在单个装置(例如，智能电话、游戏机、STB、平板电脑、计算机等)中。在另一个实施方案中，也可并入渲染装置6900。

图7和图8提供根据示例性且非限制性实施方案的包括发射器/接收器700/800(如图所示)的编码器和解码器结构的示例性架构，该示例性架构被配置为编码/解码流中的全光图像。

在图7中，发射器700可以包括一个或多个处理器7100(例如，CPU、GPU和/或DSP(数字信号处理器的英文首字母缩略词))以及内部存储器7130(例如RAM、ROM和/或EPROM)。发射器700还包括一个或多个通信接口7110，每个通信接口适于显示输出信息和/或允许用户输入命令和/或数据(例如键盘、鼠标、触控板、网络摄像头)；和可位于发射器700外部的电源7120。发射器700还可以包括一个或多个网络接口(未示出)。编码器模块7140表示可被包括在装置中以执行编码功能的模块。另外，编码器模块7140可被实现为发射器700的独立元件，或可被结合在处理器7100内作为本领域技术人员已知的硬件和软件的组合。

可以从源获得全光图像。根据不同实施方案，源可以是但不限于：本地存储器，例如视频存储器、RAM、闪存存储器、硬盘；存储接口，例如具有大容量存储装置、ROM、光盘或磁性载体的接口；通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或蓝牙接口)；和图像捕获电路(例如传感器诸如例如CCD(或电荷耦合器件)或CMOS(或互补金属氧化物半导体))。

根据不同实施方案，可将流发送到目标。例如，将流存储在远程或本地存储器中，例如视频存储器或RAM、硬盘。在一个变型中，将流发送到存储接口，例如具有大容量存储装置、ROM、闪存存储器、光盘或磁性载体的接口，并且/或者通过通信接口传输，例如到点到点链路、通信总线、点到多点链路或广播网络的接口。

根据示例性且非限制性实施方案，发射器700还包括存储在存储器7130中的计算机程序。计算机程序包括指令，这些指令在由发射器700特别是由处理器7100执行时，使得发射器700能够执行参考图1-图5描述的方法。根据另选的实施方案，计算机程序在发射器700的外部存储在非暂态数字数据载体上，例如存储在外部存储介质上，诸如HDD、CD-ROM、DVD、只读和/或DVD驱动器和/或DVD读/写驱动器，所有这些都是本领域已知的。发射器700因此包括用于读取计算机程序的机制。另外，发射器700可通过对应的USB端口(未示出)访问一个或多个通用串行总线(USB)型存储装置(例如，“记忆棒”)。

根据示例性且非限制性实施方案，发射机100可以是但不限于：移动装置；通信装置；游戏装置；平板电脑(或平板计算机)；膝上型电脑；静态图像相机；摄像机；编码芯片；静态图像服务器；和视频服务器(例如广播服务器、视频点播服务器或web服务器)。

图8表示根据示例性且非限制性实施方案的接收器800的示例性架构，该示例性架构被配置为从流解码全光图像。

接收器800包括一个或多个处理器8100(其可包括例如CPU、GPU和/或DSP(数字信号处理器的英文首字母缩略词))以及内部存储器8130(例如RAM、ROM和/或EPROM)。接收器800包括一个或多个通信接口8110，每个通信接口适于显示输出信息和/或允许用户输入命令和/或数据(例如键盘、鼠标、触控板、网络摄像头)；和可位于接收器800外部的电源8120。接收器800还可以包括一个或多个网络接口(未示出)。解码器模块8240表示可被包括在装置中以执行解码功能的模块。另外，解码器模块8140可被实现为接收器800的独立元件，或可被结合在处理器8100内作为本领域技术人员已知的硬件和软件的组合。可以从源获得该流。根据不同实施方案，源可以是但不限于：本地存储器，例如视频存储器、RAM、闪存存储器、硬盘；存储接口，例如具有大容量存储装置、ROM、光盘或磁性载体的接口；通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或蓝牙接口)；和图像捕获电路(例如传感器诸如例如CCD(或电荷耦合器件)或CMOS(或互补金属氧化物半导体))。根据不同实施方案，可将经解码全光图像发送到目标，例如显示装置。例如，将经解码全光图像存储在远程或本地存储器中，例如视频存储器或RAM、硬盘。在一个变型中，将经解码全光图像发送到存储接口，例如具有大容量存储装置、ROM、闪存存储器、光盘或磁性载体的接口，并且/或者通过通信接口传输，例如到点到点链路、通信总线、点到多点链路或广播网络的接口。

根据示例性且非限制性实施方案，接收器800还包括存储在存储器8130中的计算机程序。计算机程序包括指令，这些指令在由接收器800特别是由处理器8100执行时，使得接收器能够执行参考图1至图5和图9描述的方法。根据另一个实施方案，计算机程序可在接收器800的外部存储在非暂态数字数据载体上，例如存储在外部存储介质上，诸如HDD、CD-ROM、DVD、只读和/或DVD驱动器和/或DVD读/写驱动器，所有这些都是本领域已知的。接收器800因此包括用于读取计算机程序的机制。另外，接收器800可通过对应的USB端口(未示出)访问一个或多个通用串行总线(USB)型存储装置(例如，“记忆棒”)。

图9根据如由另选实施方案提供的另一方法提供另一流程图。在图9中，在步骤910中，生成第一PSV切片及其相关联流图。在步骤920中，确定与第一PSV相关联的相机参数，在步骤930中，基于所述第一PSV切片和所述相机参数生成至少前一PSV切片或下一PSV切片。

已描述了多个具体实施。但应理解的是，可以作出许多修改。例如，可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外，普通技术人员将理解，其他结构和过程可以被替换为所公开的那些，并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能，以实现与所公开的具体实施至少基本相同的结果。因此，这些和其他实施方案是本公开所预期且在本公开的范围内。

Claims

1.一种方法，所述方法包括：

访问由至少一个相机捕获的多个图像；其中所述图像表示对应于同一场景的多个视图；

从所述图像生成多个平面扫描体(PSV)切片，并且针对每个切片，从所述相机的一个或多个参数计算流图；

使用所述流图来生成所述平面扫描体的下一切片和前一切片中的至少一者。

2.一种设备方法，所述设备方法包括：

至少一个处理器，所述至少一个处理器被配置为：

从给定切片生成用于所述平面扫描体的下一切片和前一切片中的至少一者的对应流图。

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中用于所述下一切片的所述对应流图是不同的。

4.根据权利要求1所述的方法或根据权利要求2所述的设备，其中用于所述前一切片的所述对应流图是不同的。

5.根据权利要求1和2至4中任一项所述的方法或根据权利要求2至4中任一项所述的设备，其中为所述PSV的每个切片提供位移分量，并且所述位移分量被附加到捕获从当前切片到所述下一切片的流的每个切片。

6.根据权利要求1或3至5所述的方法或根据权利要求2至5所述的设备，其中所述图像由光场相机捕获。

7.根据权利要求6所述的方法或根据权利要求6所述的设备，其中所述场景的请求视图不被包括在接收图像中所包括的所述场景的所述多个视图中。

8.根据权利要求5至7中任一项所述的方法或根据权利要求5至7中任一项所述的设备，其中所述位移分量在与内容有关的编码光场数据的传输已经被生成和接收之后出现。

9.根据权利要求1或3至8中任一项所述的方法或根据权利要求2至8中任一项所述的设备，其中生成所述(PSV)切片还包括：

提供多个深度处的所选视图中的每个所选视图的深度信息；匹配所述所选视图的所提供的深度的像素；以及

确定所述请求视图的请求像素的深度以及所确定的深度处的所述所选视图的每个像素的颜色。

10.根据权利要求8所述的方法或根据权利要求8所述的设备，其中所述分量由具有RGBM的滤色器生成，其中RGB代表红色、绿色和蓝色，并且M表示二进制占用掩码。

11.根据权利要求9所述的方法或根据权利要求9所述的设备，其中所述平面体积切片由自动视图生成算法生成。

12.根据权利要求11所述的方法或根据权利要求11所述的设备，其中每个切片包括通过所述相机的坐标系中的固定深度处的连续平面将相应图像扭曲到所述相机上，并且与由所述相机提供的所述图像相关联的深度值以1/z在[z_min；z_max]范围中被均匀地采样。

13.一种方法，所述方法包括：

获得第一平面扫描体(PSV)切片及其相关联流图；

确定与所述第一PSV相关联的相机校准参数；

基于所述第一PSV切片和所述相机参数生成至少前一PSV切片或下一PSV切片。

14.一种设备，所述设备包括：

处理器，所述处理器被配置为获得第一平面扫描体(PSV)切片及其相关联流图；

所述处理器确定与所述第一PSV相关联的相机校准参数以及基于所述第一PSV切片和所述相机参数生成至少前一PSV切片或下一PSV切片。

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机可执行指令，所述计算机可执行指令可执行以执行根据权利要求1或3至12或13中任一项所述的方法。