CN116029919A

CN116029919A - 一种压缩三维光场显示的智能优化方法

Info

Publication number: CN116029919A
Application number: CN202211584514.7A
Authority: CN
Inventors: 杨艳; 杨有冠; 邓竣誉; 郑旭强; 廖文娟; 王子越; 王师峥
Original assignee: Fuyang Luo Research Institute Artificial Intelligence Technology Co ltd; Maoming Yueyun Information Technology Co ltd; Shanxi Luoyan Institute Artificial Intelligence Data Center Co ltd; Institute of Microelectronics of CAS
Current assignee: Fuyang Luo Research Institute Artificial Intelligence Technology Co ltd; Maoming Yueyun Information Technology Co ltd; Shanxi Luoyan Institute Artificial Intelligence Data Center Co ltd; Institute of Microelectronics of CAS
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-28

Abstract

本发明提供了一种压缩三维光场显示的智能优化方法，包括数据采集、离线训练、在线优化，数据采集步骤是指用光场相机等专用设备采集光场原图像，并对图像进行解析操作，从而得到不同场景的多视点图和深度图信息；离线训练是指找出重建质量最好时所对应的初始平面位置，将深度图信息和对应的数据作为训练集，并进行训练；在线优化是指动态寻找最优初始平面位置，具体而言，对于不同场景的光场源文件，输入模型后，能在短时间内计算出最优初始平面的重建位置，并且在光场显示器上显示，从而获得最佳显示效果。本发明可以提高压缩三维光场显示的显示质量，使得其对于给定的任意光场源文件，都可以快速得到最优的数据显示方案。

Description

一种压缩三维光场显示的智能优化方法

技术领域

本发明涉及光场显示方法技术领域，具体为一种压缩三维光场显示的智能优化方法。

背景技术

现有的图像采集和显示丢失了多个维度的视觉信息，这迫使我们只能通过二维“窗口”去观察三维世界。医生借助单摄像头内窥镜进行腹腔手术时，因无法判断肿瘤的深度位置，从而需要从多个角度多次观察才能缓慢地下刀切割；随着电子地图快速发展，传统的二维显示无法提供建筑物之间的遮挡关系，这限制了观察者对空间精度的判断；以及近年来元宇宙概念的兴起等等，使得三维显示技术的发展尤为重要，而其中采用多层空间光调制器的压缩光场显示与全息显示和体三维显示等显示技术相比，具有成本低且不损失分辨率，占用面积小等优势，使得其具有巨大的应用前景。

但目前压缩三维光场显示大都采用固定的初始平面位置，忽略了光场采集的焦平面和重建初始平面位置之间的映射关系，这可能会导致重建光场的场景失真。目前也有少数研究采用优化的方法寻找最优初始平面位置，用时很长，且并不能保证能准确找到最优的初始平面位置。整体而言，现有优化方法相对复杂，且每分析一次图片需要大量时间，难以实现实时的最优初始平面位置动态调整，难以满足更加高效准确的显示优化提升，不能满足用户需求的多样性，及压缩光场显示的推广性。为此，现提供一种压缩三维光场显示的智能优化方法，将优化的方式转变为深度学习的方式，可大大提升显示质量以及优化显示处理时间。

发明内容

本发明提出了一种压缩三维光场显示的智能优化方法，提高压缩三维光场显示的显示质量，使得其对于给定的任意光场源文件，都可以得到最优的初始平面位置，满足更高效准确的高质量的压缩光场显示图片的生成。

本发明的目的可通过下列技术方案来实现：

一种压缩三维光场显示的智能优化方法，包括如下步骤：

S1、数据采集：光场相机采集光场原图像，对图像进行解析操作，通过上述设置得到不同数量的视点图，及深度图信息；

S2、离线训练：将S1中的多视点图输入生成光场模型，得到光场张量。在S1深度图信息的深度范围内，用穷举的方法，改变初始平面位置。将光场张量和初始平面位置输入光场重建模型，并设置显示器层数，进行光场重建。一直循环改变初始平面位置，找出光场重建质量最好也就是PSANR值最大时所对应的初始平面位置，作为最优初始平面位置。将深度图信息、最优初始平面位置进行对应，打包为数据集。；

S3、在线优化：将S2中训练集作为输入，经过学习后模型会输出最优初始平面位置值，重建光场，并在光场显示器上进行显示；

优选地，S1包括如下步骤：

S11、光场采集：用光场相机等光场采集设备采集不同亮度场景、不同景别的场景、内容多样的丰富图像，并加入目前广泛使用的光场数据集；其中采集光场的过程就是将物理世界坐标系映射到相机世界坐标系的过程，如公式1所示，映射函数的数学表达式为：

(x,y,1)^T为光场图像矩阵，K为相机内参数由相机硬件决定，R表示相机旋转角度，t为相机平移参数，(X,Y,Z,1)^T为空间点由场景结构决定。

S12、光场源文件解码，也就是求解准确的(x,y,1)^T光场图像矩阵和对应的视场角，生成视点图：用光场相机等光场采集设备采集到的文件存储格式为LFR、LFP、RAW，用已有模型，对任意镜头编号的不同相机型号进行通用校准，对微图像进行尺度空间分析；用质心网络的拟合方法确定质心间距和投影映射，保证子孔径图像的精确分解；对显微图像重采样除去伪影，对像素重新排列、调整角度视图位置、考虑伽马以及颜色校正，以解码源文件得到质量较高的视点图；

S13、光场深度图生成：光场相机能够同时采集空间光线的空域以及角度域信息，根据这种特性恢复出空间场景的深度，用CNN模型可以得到光场深度图。

优选地，S2包括如下步骤：

S21、寻找最优初始平面位置：分析光场深度图得到最大深度和最小深度，将最小深度设置为初始平面位置。将每一层LCD建模为空间可控偏振旋转器，采用SART算法，设置显示器层数，对每层应用的最佳空间变化偏振态旋转进行层析求解，重建光场，并存储衡量重建光场质量好坏的PSNR值；之后取固定步长，不断增大初始平面位置的值，重建光场，直到初始平面位置值等于最大深度，找到最大PSNR值下对应的初始平面位置，定义为最优初始平面位置，本专利以三层压缩显示器为例；

重建光场模型包括光场重建和光场分解，其中光场重建如公

式2所示和光场分解过程式如公式3、4、5所示：

其中L为光场图像张量，由(x,y,1)^T光场图像矩阵和视场角组成，W为权重矩阵，A,B,C为更新前三层液晶的像素；A'B'C'为更新后的三层液晶的像素；W₍₁₎,W₍₂₎,W₍₃₎分别表示W沿第1、第2、第3维度取切片,L₍₁₎,L₍₂₎,L₍₃₎分别表示L沿第1、第2、第3维度取切片,d表示Hadamard积。

因此进行光场重建时需要输入光场图像张量L、显示层数、初始平面位置。光场图像张量L可以由S12生成的光场多视图经过生成光场模型得出。

公式6、7、8、9为穷举法联合重建光场模型寻找最优初始平面位置的具体过程。其中Mindepth为最小深度值，Maxdepth为最大深度值，Initial plane表示初始平面位置，公式6表示初始平面位置取值范围；公式7为将最小深度值赋值给初始平面位置；公式8中Initial plane*表示更新后的初始平面位置，其等于上一次的初始平面位置与步长的和；公式9表示步长的计算，LOOP为循环寻找最优初始平面位置次数，可根据所需精度设置。

Mindepth ≤ Initial plane ≤ Maxdepth 公式6

Initial plane ＝ Mindepth 公式7

Initial plane*＝ Initial plane + step 公式8

step ＝( Maxdepth-Mindepth )/LOOP 公式9

S22、数据集准备：将待显示内容的深度图和对应的最优初始平面位置打包为数据集。

优选地，S3包括如下步骤：

S31、光场数据准备：从S22数据集中，针对不同亮度场景、不同景别的场景、内容多样场景多个属性选择数据，并随机选取80％和20％的图像作为训练集和验证集；

S32、最优初始平面位置预测模型训练：基于卷积神经网络，针对图像的深度分布和图像特征与重建质量之间的关系相关性，构建多任务学习模型，并利用S31中得到的训练集进行模型训练，直到收敛且在验证集上取得较高的精度；预测模型输入S22得到的数据集，输出为预测出的最优初始平面位置。预测模型结构主要分为两个部分，第一个部分为特征提取部分，由卷积层和池化层构成，其中卷积层为三层，分别是5*5，5*5，3*3，连续的卷积层之间周期性地插入一个2*2的max池化层，可以逐渐降低数据体的空间尺寸，减少网络中参数的数量，使计算资源耗费变少，有效控制过拟合。第二个部分为全连接构成的预测部分，三层全连接层的神经元个数分别为2592，1024，256，1。

本模型选用ELU激活函数，其表达式如公式10所示：

ELU(x)＝max(0,x)+min(0,α*(exp(x)-1)) 公式10

加入激活函数可以使得神经网络可以任意逼近任何非线性函数，从而实现更好的回归，其中x为卷积层输出向量，也就是全连接层的输入向量，ELU_(x)为回归函数，多个ELU_(x)函数组合即可得到最终回归函数模型。

为了提高预测模型的精确度，MSE函数作为loss，其表达式如公式11所示：

^

其中y_m为真实最优重建初始平面位置，y_m为预测的最优重建初始平面位置，测试集Loss的值越小，说明预测出的最优重建初始平面位置越接近真实值，如果此时对应的重建图像的PSNR值也有较大的提升，一般来说模型的学习效果越好。

因为学习样本数量较小，所以本模型选用RAdam为优化器，通过自适应学习率方差来加快模型收敛。此外，每个回合我们采用指数衰减型学习率，当训练回合增加时，学习率衰减，加快模型收敛找到较优的模型。

S33、最优初始平面位置模型测试：对于给定输入图像，将其深度图像输入到S32中训练得到的最优初始平面的位置预测模型，得到预测出的最优初始平面位置，将预测出的初始平面位置输入到S21所用到的光场重建模型，重建光场后得到的PSNR值相较于其他初始平面位置重建的PSNR最大，即表示模型能够成功预测最优初始平面位置。

S34、光场显示：设定显示器层数，输入任意光场深度图进最优初始平面位置预测模型，得到最优初始平面位置；根据最优初始平面位置，和光场张量，设定显示层数，重建光场，得到每层显示器显示的图像，每层显示器显示对应生成的重建图像。

与现有技术相比，本发明提供的一种压缩三维光场显示的智能优化方法，针对不同场景的光场图，构建对应的最优初始平面位置预测模型，从而使得不同场景的光场重建质量提升更好。而利用最优初始平面位置预测模型自动高效的生成最优初始平面位置，得到最终更好的光场重建及显示结果，使得整个过程更加自动化和智能化和高效化。

附图说明

图1是本发明的流程图。

图2是本发明最优初始平面位置处理后显示图。

图3为预测最优初始平面位置模型的验证集的loss图。

图4为预测最优初始平面位置模型的测试集的loss图。

图5为固定初始平面位置和与测试出的最优初始平面位置下采集的光场数据集的光场重建图。

图6为固定初始平面位置和与测试出的最优初始平面位置下采集的MITSynthetic数据集的光场重建图。

图7为固定初始平面位置和与测试出的最优初始平面位置下采集的inria数据集的光场重建图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1、图2所示，本实施例提供一种压缩三维光场显示的智能优化方法，包括如下步骤：

S1、数据采集：光场相机或其他光场采集设备采集光场原图像，对图像进行解析操作，通过设置得到不同数量的视点图，及深度图信息；具体步骤如下：

S11、光场采集：用光场相机采集白天、夜晚、近景、远景、简单场景、复杂场景的丰富图像，并加入目前广泛使用的光场数据集；主要为inria，MIT Synthetic等，相机采集和主流光场数据集随机抽取80％作为模型的训练集，剩下20％作为验证集；其中光场采集原理，如公式1所示，映射函数的数学表达式为：

S12、光场源文件解码，也就是求解准确的(x,y,1)^T光场图像矩阵和对应的视场角，生成视点图：用光场相机采集到的文件存储格式为LFR、LFP、RAW，用已有模型，对任意镜头编号的不同相机型号进行通用校准，对微图像进行尺度空间分析；用质心网络的拟合方法确定质心间距和投影映射，质心网络Levenberg-Marquardt优化算法，以全局减小检测到的微透镜中心的最小二乘误差，同时确定质心间距和投影映射，保证子孔径图像的精确分解；对于精确的角度采样，我们提供显微图像重采样，然后去除六角形伪影，对显微图像重采样除去伪影，对像素重新排列、调整角度视图位置、考虑伽马以及颜色校正，以解码源文件得到质量较高的视点图，本发明的视点图生成模型主要借鉴了PlenoptiCam模型中的优化算法，对PlenoptiCam模型中不需要的部分渲染模块进行了裁剪，主要是为了使解码过程加快；

S2、离线训练：在S1深度图信息范围内，用穷举的方法，找出重建质量最好时所对应的初始平面位置，将深度图信息和对应的最优初始平面位置作为训练集；具体步骤如下：

S21、生成光场文件，也就是将视点图信息先压缩后再生成光场张量：以7x7张视点图为例，先将视点图分辨率降低到96x96，以便能减少生成光场和重建光场时间，再将视点图输入生成光场模型得到光场的视场角，像素等信息，生成光场张量，存储为mat文件；

S22、重建光场：根据光场显示器物理性质，在光场模型中设定好显示器层数，及层间距；分析光场深度图得到最大深度和最小深度，将最小深度设置为初始平面位置；将初始平面位置和S21生成的文件作为输入，通过重建光场模型，输出并存储衡量重建光场质量好坏的PSNR值以及对应的初始平面位置深度值；之后取固定步长，不断增大初始平面位置的值，重建光场，直到初始平面位置深度值等于最大深度，找到最大PSNR值下对应的初始平面位置，定义为最优初始平面位置；本专利以三层压缩显示器为例；

重建光场模型包括光场重建和光场分解，其中光场重建如公

式2所示和光场分解过程式如公式3、4、5所示：

公式6、7、8、9为穷举法联合重建光场模型寻找最优初始平面位置的具体过程。其中Mindepth为最小深度值，Maxdepth为最大深度值，Initial plane表示初始平面位置，公式6表示初始平面位置取值范围；公式7为将最小深度值赋值给初始平面位置；公式8中Initial plane*表示更新后的初始面位置，其等于上一次的初始平面位置与步长的和；公式9表示步长的计算，LOOP为循环寻找最优初始平面位置次数，本专利以LOOP取100为例。

Mindepth ≤ Initial plane ≤ Maxdepth 公式6

Initial plane ＝ Mindepth 公式7

Initial plane*＝ Initial plane + step 公式8

step ＝( Maxdepth-Mindepth )/LOOP 公式9

S23、数据集准备：将光场深度图和对应的最优初始平面位置打包为数据集。

S3、在线优化：将S2中训练集作为输入，经过学习后模型会输出最优重建初始平面初始位置深度；具体步骤如下：

S31、光场数据准备：从S23数据集中，针对不同亮度场景、不同景别的场景、内容多样场景多个属性选择数据，并随机选取80％和20％的图像作为训练集和验证集；

S32、最优初始平面位置预测模型训练：基于卷积神经网络，针对图像的深度分布和图像特征与重建质量之间的关系相关性，构建多任务学习模型，并利用S31中得到的训练集进行模型训练，直到收敛且在验证集上取得较高的精度；在具体实施案例中，预测模型结构主要分为两个部分，第一个部分为特征提取部分，由卷积层和池化层构成，其中卷积层为三层，分别是5*5，5*5，3*3，连续的卷积层之间周期性地插入一个2*2的max池化层，可以逐渐降低数据体的空间尺寸，减少网络中参数的数量，使计算资源耗费变少，有效控制过拟合。第二个部分为全连接构成的预测部分，三层全连接层的神经元个数分别为2592，1024，256，1。

本模型选用ELU激活函数，其表达式如公式10所示：

ELU(x)＝max(0,x)+min(0,α*(exp(x)-1)) 公式10

其中y_m为真实最优重建初始平面位置，

为预测的最优重建初始平面位置，测试集Loss的值越小，说明预测出的最优重建初始平面位置越接近真实值，本实施例的Loss如图3、4所示，横坐标为训练次数，纵坐标为loss值，可以看出loss值稳定在1.88附近，说明模型的预测性能比较好，能够准确预测出最优初始平面位置。

S33、最优初始平面位置模型测试：对于给定输入图像，将其深度图像输入到S32中训练得到的最优初始平面的位置预测模型，得到预测出的最优初始平面位置，将预测出的初始平面位置输入到S21所用到的光场重建模型，重建光场后得到的PSNR值相较于其他初始平面位置重建的PSNR最大，即表示模型能够成功预测最优初始平面位置。具体实施如图5、6、7所示，分别以采集的光场数据集，MIT Synthetic数据集，inria数据集为例，光场重建的PSNR值。纵坐标为PSNR值，横坐标为图片编号。相较于其他初始平面位置，使用预测出的最优初始平面位置PSNR值最大增加了4db，平均增加了0.7db，而PANR值增加0.3db被认为优化有效，因此足以说明本方法优化显示非常有效。

S34、光场显示：设定显示器层数，输入任意光场深度图进最优初始平面位置预测模型，得到最优初始平面位置；根据最优初始平面位置，和光场张量，设定显示层数，重建光场，得到每层显示器显示的图像，每层显示器显示对应生成的重建图像，如图2所示最优初始平面位置处理后显示图。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种压缩三维光场显示的智能优化方法，包括如下步骤：

S1、数据采集，用光场相机等专用设备采集光场原图像，并对图像进行解析操作从而得到不同场景的多视点图和深度图信息；

S2、离线训练：将S1中的多视点图输入生成光场模型，得到光场张量，在S1深度图信息的深度范围内，用穷举的方法，改变初始平面位置，将光场张量和初始平面位置输入光场重建模型，并设置显示器层数，进行光场重建，一直循环改变初始平面位置，找出光场重建质量最好也就是PSANR值最大时所对应的初始平面位置，作为最优初始平面位置；将深度图信息、最优初始平面位置进行对应，打包为数据集，

S3、在线优化：动态寻找最优的初始平面位置然后进行显示，对于不同场景的光场源文件，输入模型后，能在短时间内计算出最优初始平面位置,重建光场，并在光场显示器上进行显示。

2.根据权利要求1所述的一种压缩三维光场显示的智能优化方法，其特征在于，S1包括如下步骤：

S11、光场采集：用光场相机等光场采集设备采集不同亮度场景、不同景别的场景、内容多样的丰富图像，并加入目前广泛使用的光场数据集；其中采集光场的过程就是将物理世界坐标系映射到相机世界坐标系的过程，如公式1所示，为映射函数的数学表达式：

(x,y,1)^T为光场图像矩阵，K为相机内参数由相机硬件决定，R表示相机旋转角度，t为相机平移参数，(X,Y,Z,1)^T为空间点由场景结构决定；

S12、光场源文件解码，也就是求解准确的(x,y,1)^T光场图像矩阵和对应的视场角，生成多视点图：用光场相机等光场采集设备采集到的文件存储格式为LFR、LFP、RAW，用已有模型，对任意镜头编号的不同相机型号进行通用校准，对微图像进行尺度空间分析；用质心网络的拟合方法确定质心间距和投影映射，保证子孔径图像的精确分解；对显微图像重采样除去伪影，对像素重新排列、调整角度视图位置、考虑伽马以及颜色校正，以解码源文件得到质量较高的多视点图；

3.根据权利要求1所述的一种压缩三维光场显示的智能优化方法，其特征在于，S2包括如下步骤：

S21、寻找最优的初始平面位置：分析光场深度图得到最大深度和最小深度，将最小深度设置为初始平面位置，将每一层LCD建模为空间可控偏振旋转器，采用SART算法，设置显示器层数，对每层应用的最佳空间变化偏振态旋转进行层析求解，重建光场，并存储衡量重建光场质量好坏的PSNR值；之后取固定步长，不断增大初始平面位置的值，重建光场，直到初始平面位置值等于最大深度值，找到最大PSNR值下对应的初始平面位置值，定义为最优初始平面位置；

其中重建光场模型包括光场重建和光场分解，光场重建如公式2所示，和光场分解过程式如公式3、4、5所示：

—3—

L为光场图像张量，由(x,y,1)^T光场图像矩阵和视场角组成，W为权重矩阵，A,B,C为更新前三层液晶的像素；A'B'C'为更新后的三层液晶的像素；W₍₁₎,W₍₂₎,W₍₃₎分别表示W沿第1、第2、第3维度取切片,L₍₁₎,L₍₂₎,L₍₃₎分别表示L沿第1、第2、第3维度取切片,d表示Hadamard积；

进行光场重建时需要输入光场图像张量L、显示层数、初始平面位置；光场图像张量L可以由S12生成的光场多视图经过生成光场模型得出，

公式6、7、8、9为穷举法联合光场重建模型寻找最优初始平面位置的具体过程，其中Mindepth为最小深度值，Maxdepth为最大深度值，Initial plane表示初始平面位置，公式6表示初始平面位置取值范围；公式7为将最小深度值赋值给初始平面位置；公式8中Initialplane*表示更新后的初始平面位置，其等于上一次的初始平面位置与步长的和；公式9表示步长的计算，LOOP为循环寻找最优初始平面位置次数，可根据所需精度设置；

Mindepth ≤ Initial plane ≤ Maxdepth 公式6

Initial plane ＝ Mindepth 公式7

Initial plane*＝ Initial plane + step 公式8

step ＝( Maxdepth-Mindepth )/LOOP 公式9

4.根据权利要求1所述的一种压缩三维光场显示的智能优化方法，其特征在于，S3包括如下步骤：

S32、最优初始平面位置预测模型训练：基于卷积神经网络，针对图像的深度分布和图像特征与重建质量之间的关系相关性，构建多任务学习模型，并利用S31中得到的训练集进行模型训练，直到收敛且在验证集上取得较高的精度；预测模型输入S22得到的数据集，输出为预测出的最优初始平面位置，预测模型结构主要分为两个部分，第一个部分为特征提取部分，由卷积层和池化层构成，其中卷积层为三层，分别是5*5，5*5，3*3，连续的卷积层之间周期性地插入一个2*2的max池化层，可以逐渐降低数据体的空间尺寸，减少网络中参数的数量，使计算资源耗费变少，有效控制过拟合，第二个部分为全连接构成的预测部分，三层全连接层的神经元个数分别为2592，1024，256，1，

本模型选用ELU激活函数，其表达式如公式10所示：

ELU(x)＝max(0,x)+min(0,α*(exp(x)-1)) 公式10

加入激活函数可以使得神经网络可以任意逼近任何非线性函数，从而实现更好的回归，其中x为卷积层输出向量，也就是全连接层的输入向量，ELU_(x)为回归函数，多个ELU_(x)函数组合即可得到最终回归函数模型，

其中y_m为真实最优重建初始平面位置，

为预测的最优重建初始平面位置，测试集Loss的值越小，说明预测出的最优重建初始平面位置越接近真实值；

S33、最优初始平面位置模型测试：对于给定输入图像，将其深度图像输入到S32中训练得到的最优初始平面的位置预测模型，得到预测出的最优初始平面位置，将预测出的初始平面位置输入到S21所用到的光场重建模型，重建光场后得到的PSNR值相较于其他初始平面位置重建的PSNR最大，即表示模型能够成功预测最优初始平面位置，

S34、光场显示：输入任意光场深度图到最优初始平面位置预测模型，得到最优初始平面位置；根据最优初始平面位置，和光场张量，设定显示层数，重建光场，得到每层显示器显示的图像，每层显示器显示对应生成的重建图像。