CN101888566A

CN101888566A - 立体视频编码率失真性能估计方法

Info

Publication number: CN101888566A
Application number: CN 201010222351
Authority: CN
Inventors: 季向阳; 汪启扉; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2010-11-17
Anticipated expiration: 2030-06-30
Also published as: CN101888566B

Abstract

本发明提出一种立体视频编码率失真性能估计方法，包括以下步骤：获得多视点视频，并根据所述多视点视频获得对应的多视点深度图；分别获得多视点视频编码率失真模型和多视点深度图编码率失真模型；分别获得所述多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系；联合上述关系建立立体视频虚拟视点编码绘制率失真模型。通过本发明提出的立体视频中虚拟视点编码绘制率失真分析方法，能够准确快速地估计立体视频中虚拟视点编码绘制率失真性能，从而为立体视频编码参数的选择与码率分配等问题提供了模型指导和解决方案。

Description

立体视频编码率失真性能估计方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种针对虚拟视点绘制的立体视频编码率失真性能估计方法。

背景技术

随着多媒体技术的不断发展，传统的二维视频媒体已经不能满足人类视觉的需要，人们希望看到更具真实感和互动性的视频节目，也即具有高度立体沉浸感的三维视频。近年来逐渐兴起的三维视频技术，如多视点视频、自由视点视频以及立体视频等全新的视频媒体正逐渐成为多媒体技术重要的组成部分。所谓自由视点视频是指观看者通过自由选择观看视点来观看三维场景的视频媒体。

自由视点视频发展经历了两个主要阶段，第一阶段被称作多视点视频，即观众可以从播放的多视点视频中选择自己需要的视点来观看，通过不同视点视频之间的视差来形成立体感。第二阶段被称为立体视频，即观看者可以自由选择观看视点观看具有立体感的视频。为了获得多视点视频，就需要采用多路摄像机来采集同一场景，并将采集到的多路视频传送到客户端，以及根据观众的需要来选择对应的多视点视频进行播放。而为了获得具有自由视点的立体视频，需要在多视点视频的基础上进一步引入场景的几何信息，通过多视点视频数据和几何信息来渲染得到观众随机选择的虚拟视点，从而让观众获得更强的观看立体感。

区别于传统的单路二维视频数据，立体视频是由多路二维视频数据和场景几何信息组成，因此多视点视频的海量数据对传输带宽的需求远远大于传统的二维视频数据。此外，如何有效地压缩场景几何信息也成为立体视频编码需要面对的新挑战。因此，为了实现对立体视频的有效传输，需要针对立体视频特性来设计高效的编码技术。在早期，研究人员将传统的视频压缩技术应用于多视点视频压缩，采用传统的单路视频压缩技术将多视点视频中的每一个视点对应的视频单独进行压缩。该方案成为立体视频压缩最早的解决方案之一。

然而，多视点视频序列之间存在较强的相关性，即使是采用最高效的H.264/AVC编码技术，仍然无法有效地压缩不同视点之间的冗余。为此，研究人员设计了更加高效的多视点视频压缩方案。该方案将传统的单路视频编码技术拓展到多路视频上来，在时域预测编码的基础上加入视点间的预测编码，进一步压缩了多视点视频视点间的冗余，提高了多视点视频压缩率失真性能。此外，针对基于深度图的立体视频场景几何信息，即多视点深度图序列，研究人员同样采用多视点视频编码方案来实现对其高效压缩。随着立体视频技术的不断发展，新的立体视频压缩技术正在快速的发展。目前，实时高效的立体视频编码技术已经成为立体视频的应用走向市场的关键技术之一。

在立体视频高效编码方案的基础上，为了实现对立体视频的有效传输，需要根据网络条件调整编码参数。在传统的视频编码中，当已知网络带宽的情况下，可以根据编码的率失真模型估计解码质量，从而更好地调整编码参数。因此，针对立体视频高效编码方案的率失真模型分析是实现立体视频有效传输的重要环节。

现有技术存在的缺点是，目前还没有针对虚拟视点绘制的立体视频编码率失真性能的估计方案。

例如，在申请号为200810163801，名称为一种网络自适应的立体视频编码方法的专利申请中，仅仅给出了立体视频不同的网络带宽下的自适应编码方案，没有针对立体视频编码的率失真性能进行分析。在申请号为200810126528，名称为一种立体视频编解码方法、装置及系统的专利申请中，虽然公开了一整套完整的立体视频编码方案、装置和系统，但是同样没有给出立体视频编码率失真性能分析。在申请号为200710164747，名称为一种面向多视点视频的码率控制方法的专利申请中，虽然公布了多视点视频编码的率失真模型，但是没有针对虚拟视点绘制的立体视频编码率失真性能。

发明内容

本发明的目的旨在至少解决上述技术缺陷，提出了一种针对虚拟视点绘制的立体视频编码率失真性能估计方法。

为达到上述目的，本发明一方面提出了一种立体视频编码率失真性能估计方法，包括以下步骤：获得多视点视频，并根据所述多视点视频获得对应的多视点深度图；根据所述多视点视频和所述多视点深度图分别获得多视点视频编码率失真模型和多视点深度图编码率失真模型；根据所述多视点视频和所述多视点深度图分别获得所述多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系；根据所述多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系获得虚拟视点绘制失真与多视点视频以及多视点深度图各自的编码量化参数QP之间的关系；根据所述多视点视频编码率失真模型和多视点深度图编码率失真模型获得绘制所述虚拟视点所需要的编码码率和所述QP之间的关系；并统计不同QP下所述虚拟视点的绘制失真和绘制所述虚拟视点所需要的编码码率以得到立体视频编码中虚拟视点的率失真模型。

通过本发明提出的立体视频中虚拟视点绘制编码率失真分析方法，能够准确快速地估计立体视频中虚拟视点绘制编码率失真性能，从而为立体视频编码参数的选择与码率分配等问题提供了模型指导和解决方案，进一步提高了立体视频编码的效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的立体视频系统框图；

图2为本发明实施例提供的多视点视频编码预测结构图；

图3为本发明实施例的立体视频编码率失真性能估计方法流程图；

图4为本发明实施例提供的虚拟视点绘制原理图；

图5为本发明实施例提供的深度图四叉树分解示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

由于立体视频中，虚拟视点是通过多视点视频和场景几何信息来绘制，因此虚拟视点绘制质量与多视点视频以及场景几何信息的编码质量相关。为此，本发明通过需要建立多视点视频与场景几何信息编码联合率失真模型来获得针对虚拟视点绘制视频的编码率失真模型，从而更好地指导立体视频编码参数的选择和码率分配等问题。

本发明主要提出了一种实用的多视点视频与深度图编码联合率失真模型估计方法。该方法能够有效地估计多视点视频与深度图编码质量和虚拟视点绘制质量之间的关系，从而为给定网络带宽的条件下立体视频编码参数选择以及码率分配等问题提供了理论指导。

本发明实施例的应用环境如下：本发明实施例应用的立体视频系统框图如图1所示。其中，用于立体视频编码的视频序列采用高清格式的名字为“Breakdancer”的标准测试视频序列；该高清格式视频序列的像素为1024×768；解码器采用H.264/SVC(Multi-view Video Coding，多视点视频扩展版本)标准的参考软件JMVC(JointMulti-view Video Coding，多视点视频编码)；编码器GOP(Group of Pictures，图像组)的帧数为8；编码的时域预测编码采用Hierarchical B(层次化双向预测编码帧，简称层次化B帧)的预测结构，编码预测结构图如图2所示。

服务器端获取多视点视频，并根据多视点视频获得多视点深度图，并在立体视频编码中对多视点视频和多视点深度图进行编码并通过网络传输给客户端。客户端对接收到的多视点视频和多视点深度图编码码流进行解码，并根据观众选择的虚拟视点生成相应的虚拟视点视频并将其通过立体显示器显示给观众。

在本实施样例中，虚拟视点绘制采用与虚拟视点相邻的两路视频和深度图来绘制。具体的，本实施样例采用“Breakdancer”序列的视点4和视点6这两路视频作为多视点视频输入序列。其中视点4称为左参考视点，视点6称为右参考视点。多视点视频和多视点深度图编码量化参数QP的取值范围为0到51之间的整数。生成的虚拟视点的参数与“Breakdancer”序列中视点5的参数相同。

如图3所示，为本发明实施例的立体视频编码率失真性能估计方法流程图，在该实施例中，多视点视频编码采用基于传统视频编码标准H.264/AVC的多视点视频编码扩展版本来实现。各视点内的每一个图像组的帧内编码帧(I帧)、前向预测编码帧(P帧)以及双向预测编码帧(B帧)均采用相同的量化参数(QP)进行编码。该方法包括以下步骤：

步骤S301，建立多视点视频编码率失真模型。在给定多视点视频编码量化参数的情况下，估计多视点视频编码码率和失真。当给定编码量化参数QP的取值后，首先通过Q_step＝2^(QP-4)/6得到量化参数Q_step的取值。例如，当QP＝28时，Q_step＝2^(28-4)/6＝16。

该步骤可进一步细分为以下两步：

步骤S101，多视点视频编码的码率r_c的计算表达式为

其中，参数Q_step的计算表达式为Q_step＝2^(QP-4)/6，参数a，b，c需要根据不同视频序列具体设置。具体地，在本发明的实施例中，对于“Breakdancer”序列，由于编码码率r_c和量化参数Q_step之间的关系表达式为

因此可以通过线性回归的方法来拟合得到参数a为24.37，b为-0.303和c为0.02，也即对于左右视点其编码码率r_c和量化参数Q_step之间的关系表达式为：

例如，当Q_step＝16时，r_c＝0.096bpp。

步骤S102，多视点视频编码的失真计算表达式为PSNR_c＝q_c×QP+p_c，其中参数q_c和p_c需要根据不同视频序列具体设置。此时，在给定多视点视频编码量化参数QP的条件下，可以得到多视点视频编码码率r_c和失真PSNR_c之间的对应关系。

具体地，在本发明的实施例中，对于“Breakdancer”序列，由于多视点视频编码的失真计算表达式为PSNR_c＝q_c×QP+p_c，通过线性回归的方法来拟合得到参数q_c为-0.37和p_c为49.30，也即对于左右视点其解码质量PSNR_c和编码量化参数QP之间的关系可以表示为PSNR_c＝-0.37×QP+49.30。当QP＝28时，PSNR_c＝-0.37×28+49.30＝38.94dB。

步骤S302，建立深度图编码率失真模型。在给定多视点深度图编码量化参数的情况下，估计多视点视频深度图编码码率和失真之间的对应关系。在该步骤中，多视点深度图也采用同步骤S301中所述多视点视频编码进行编码。类似的，各视点内的每一个图像组的I帧、P帧以及B帧也均采用相同的QP进行编码。同上述步骤，当编码量化参数QP的取值为28时Q_step＝16。

该步骤可以进一步细分为以下两步：

S221、多视点深度图编码的码率r_d的计算表达式为r_d＝k/Q_step+t，其中参数Q_step的计算表达式为Q_step＝2^(QP-4)/6，参数k，t需要根据不同深度图序列具体设置。

具体地，在本发明的实施例中，对于“Breakdancer”序列，由于编码码率r_d和量化参数Q_step之间的关系表达式为r_d＝k/Q_step+t，因此可以通过线性回归的方法来拟合得到参数k为0.9996和t为0.0040，也即对于左右视点其编码码率r_c和量化参数Q_step之间的关系表达式为r_d＝0.9996/Q_step+0.0040。例如，当Q_step＝16时，r_c＝0.0665bpp。

S222、多视点视频编码的失真计算表达式为PSNR_d＝q_d×QP+p_d，其中参数q_d和p_d需要根据不同深度图序列具体设置。此时，在给定多视点深度图编码量化参数QP的条件下，可以得到多视点深度图编码码率r_d和失真PSNR_d之间的对应关系。

具体地，在本发明的实施例中，对于“Breakdancer”序列，由于多视点深度图编码的失真计算表达式为PSNR_d＝q_d×QP+p_d，通过线性回归的方法来拟合得到参数q_d为-0.65和p_d为63.75，也即对于左右视点其解码质量PSNR_d和编码量化参数QP之间的关系可以表示为PSNR_d＝-0.65×QP+63.75。当QP＝28时，PSNR_d＝-0.65×28+63.75＝45.55dB。

接下来，本发明需要建立了虚拟视点失真与多视点视频编码失真以及深度图编码失真之间的关系模型。在立体视频中，虚拟视点绘制是通过参考视点的深度图计算得到参考视点和虚拟视点间对应像素点的位置关系，然后通过多个参考视点的视频序列中对应像素点的亮度值和色度值来加权计算虚拟视点对应像素点的亮度值和色度值。因此，虚拟视点的失真是由于多视点视频编码失真和多视点深度图编码失真共同引起。因此在本发明中，为了便于建立虚拟视点失真与多视点视频和多视点深度图编码参数之间的函数关系，将首先分析在多视点深度图无失真的条件下，虚拟视点失真与多视点视频编码失真之间的关系。其次，分析在多视点视频无失真的条件下，虚拟视点失真与多视点深度图编码失真之间的关系。最后建立虚拟视点失真与多视点视频和多视点深度图编码失真的联合关系模型。

步骤S303，建立多视点视频编码失真与虚拟视点绘制失真之间的关系。在该步骤中，设多视点深度图无失真，此时虚拟视点的失真仅由多视点视频编码失真引起。此时不妨设生成虚拟视点C_V需要M个参考视点

虚拟视点绘制图像为M个参考视点通过深度图绘制的虚拟视点图像的加权平均。因此，当第i个参考视点

的视频编码失真为

时，参考视点

的视频编码失真对于虚拟视点绘制图像失真E_CW的贡献为

其中，

为第i个参考视点视频编码失真对于虚拟视点图像绘制失真贡献的加权系数。考虑到通过参考视点的视频和深度图来绘制虚拟视点视频时，会出现遮挡等现象，因此在计算虚拟视点失真时还需要将遮挡部分对应的误差减去。可以设通过参考视点

来绘制虚拟视点的过程中被遮挡的像素点的个数和参考视点整帧图像的像素点个数的比例为此时通过

绘制虚拟视点所产生的失真

的计算表达式应该修正为

因此，本发明通过M个参考视点加权绘制得到的虚拟视点图像失真可以表示为

具体地，在本发明的实施例中，如图4所示，为绘制虚拟视点的原理图。在该步骤中设多视点深度图无失真，此时虚拟视点的失真仅由多视点视频编码失真引起。假设左右参考视点视频的编码失真分别为

和

当左参考视点的视频编码参数为QP＝28时，左参考视点视频的编码失真的计算方法为

左参考视点的视频编码失真对于虚拟视点绘制图像失真E_CW的贡献为

同理，当右参考视点的视频编码参数为QP＝28时，右参考视点的视频编码失真

右参考视点的视频编码失真对于虚拟视点绘制图像失真E_CW的贡献为

由于虚拟视点到左右参考视点的距离相同，因此，加权系数w_L和w_R满足w_L＝w_R＝0.5。考虑到通过参考视点的视频和深度图来绘制虚拟视点的视频时，会出现遮挡等现象，因此在计算虚拟视点失真

时还需要将遮挡部分对应的误差减去。通过实验分析可知，对于“Breakdancer”序列，通过视点4和视点6来绘制虚拟视点的过程中被遮挡的像素点的个数和参考视点整帧图像的像素点个数的平均比例为0.15，此时由于左右参考视点编码失真所引起的虚拟视点图像失真可以表示为：

在本发明的一个实施例中，例如当QP取值为28时，E_CW＝1.25。

步骤S304，建立深度图编码失真与虚拟视点绘制失真之间的关系。在该步骤中，假设多视点视频无失真，此时虚拟视点的失真仅由多视点深度图编码失真引起。根据虚拟视点图像绘制的原理，虚拟视点绘制是通过深度信息和相机参数获得虚拟视点中的像素与参考视点中的对应像素间的映射关系。该过程等价于将求出虚拟视点中各个像素与参考视点中对应像素之间的视差。当深度图出现失真时，虚拟视点绘制过程中对应像素的位置发生偏移，也即视差出现失真。在此，可以假设深度值为D_j的深度图的失真为ΔD_j，那么视差的失真为

其中，α为与相机参数相关的一个常数。

为了更好地衡量视差失真对虚拟视点质量带来的影响，首先需要对参考视点的视频帧图像进行分解，使得分解后得到的每一个区域

中的像素点对应的深度值方差不差过预先设定的门限。为了实现上述分解，在本发明中，可将的视频帧图像对应的深度图进行四叉树分解，使得分解后每个区域B_j内深度值方差不超过预先设定的门限D_th。对于

根据给定的深度图编码量化步长可以得到该区域深度值的平均量化失真ΔD_j和平均深度D_j。然后通过ΔD_j和D_j来得到视差的平均失真||Δd_j||。在得到||Δd_j||后，由于视差失真所造成的虚拟视点绘制图像上与参考视点中

区域相对应的区域的失真记为

则

的计算表达式为其中，

的计算公式为

为参考视点视频帧图像上

区域的亮度值或色度值所组成的矩阵对应的傅立叶变换矩阵，ω＝[ω₁，ω₂]为

区域水平和垂直方向的角频率。因此，对于参考视点

其深度图量化所引入的失真

同所述步骤S303，虚拟视点C_V是通过M个参考视点加权绘制得到。通过来绘制虚拟视点的过程中，没有被遮挡的点与整帧图像全部像素个数的比例为

在生成虚拟视点图像中，

的加权系数为

所以

对应的深度图编码失真对由深度图编码失真所引起的虚拟视点失真E_DW的贡献为也即

具体地，本发明假设多视点视频无失真，此时虚拟视点的失真仅由多视点深度图编码失真引起。当深度值为D_j的深度图的失真为ΔD_j时，视差的失真为

其中，对于“Breakdancer”序列的视点4和视点6，上式中与相机参数相关的常数α为8.46。为了更好地衡量视差失真对虚拟视点质量带来的影响，首先需要对左右参考视点的视频帧图像进行分解，使得分解后得到的每一个区域中的像素点对应的深度值方差不超过预先设定的门限。为了实现上述分解，本发明中，可将左右参考视点的视频帧图像对应的深度图进行四叉树分解，使得分解后每个区域

内深度值方差不超过预先设定的门限D_th＝10，其中，N_R为每个深度图分解后的最大区域数目。如图5所示，为本发明实施例的对于深度图的四叉树分解结果。

对于

根据给定的深度图编码量化步长可以得到该区域深度值的平均量化失真ΔD_j＝2和平均深度D_j＝92。然后，通过ΔD_j和D_j可得到视差的平均失真

对于大小为8×8的区域

以其亮度为例，设其亮度矩阵为：

[\begin{matrix} 62 & 63 & 62 & 61 & 63 & 58 & 62 & 63 \\ 61 & 62 & 62 & 63 & 61 & 64 & 65 & 64 \\ 62 & 61 & 57 & 61 & 63 & 59 & 63 & 63 \\ 67 & 61 & 58 & 62 & 61 & 61 & 66 & 64 \\ 63 & 62 & 62 & 58 & 60 & 62 & 63 & 62 \\ 61 & 62 & 61 & 61 & 61 & 63 & 60 & 58 \\ 62 & 62 & 61 & 62 & 62 & 62 & 60 & 62 \\ 64 & 63 & 61 & 62 & 62 & 62 & 60 & 61 \end{matrix}] .

其傅里叶变换所对应的矩阵为

为了计算视差失真所造成的虚拟视点绘制图像上与

区域相对应区域的失真

还需要计算

的取值。由于

的计算公式为

而

区域垂直和水平方向的角频率为因此，

那么，

的值为

同理，也可以得到其他区域上由于深度图量化误差所引入的虚拟视点图像绘制失真，即，

同样，对于右参考视点中的每一个区域

区域，可以通过上述计算方法获得该区域的失真

此时，由于右参考视点其深度图量化所引入的虚拟视点量化失真为

同步骤S303一样，通过视点4和视点6来绘制虚拟视点的过程中，没有被遮挡的点与整帧图像全部像素个数的平均比例为0.15，左右参考视点的加权系数为w_L＝w_R＝0.5，所以左右参考视点的深度图编码失真对由深度图编码失真所引起的虚拟视点失真E_DW可以表示为：

E_{DW} = 0.15 \times 0.5 \times (E_{DW}^{L} + E_{DW}^{R}) = 0.15 \times 0.5 \times (32.24 + 32.16) = 4.83 .

步骤S305，联合上述关系建立立体视频虚拟视点编码率失真模型。为了建立虚拟视点的率失真模型，需要将上述四个步骤中得到的多视点视频和多视点深度图的编码码率和失真模型合并，并最终得到虚拟视点编码的率失真模型。在该步骤中，为了建立虚拟视点绘制的编码率失真模型，需要分为以下两个步骤来实现：

步骤S501，首先需要建立虚拟视点的联合失真与编码量化参数之间的关系。由于多视点视频失真主要造成虚拟视点图像上的像素点亮度及色度数值产生失真，而多视点深度图失真主要造成虚拟视点图像上的像素点位置发生偏移，因此多视点视频失真和多视点深度图失真对于虚拟视点图像分别所引起的失真相互独立，也即虚拟视点图像失真E_T可以表示为由多视点视频失真所导致的虚拟视点绘制失真E_CW和多视点深度图失真所导致的虚拟视点绘制失真E_DW的和的形式。

进一步地，通过左右两个视点的视频和深度图来生成虚拟视点的过程中，由于深度图的不连续性，在虚拟视点图像中仍然可能存在少量的空洞像素点，通过图像补绘来填补这些空洞所引起的误差用E_O来表示。由于图像具有一定的连续性，可以通过与被遮挡像素相邻的像素点获得被遮挡像素点i_O的亮度或色度值分布

该像素点由于补绘所带来的亮度或色度的误差可以表示为其中y为像素点i_O的亮度或色度可能取值范围，y_in为像素点i_O补绘时的亮度或色度取值。那么，图像补绘所带来的虚拟视点图像误差可以表示为

其中，i_O为被遮挡象素点，

为被遮挡象素点i_O的相邻像素点的亮度或色度值分布，y为像素点i_O的亮度或色度的取值范围，y_in为被遮挡象素点i_O补绘时的亮度或色度值。此时，虚拟视点绘制图像的误差E_T的计算表达式为E_T＝E_CW+E_DW+E_O。

具体地，对于本样例中的虚拟视点，E_O＝0.13。因此，虚拟视点绘制图像的误差E_T的计算表达式为E_T＝E_CW+E_DW+E_O＝1.25+4.83+0.13＝6.21，也即虚拟视点图像质量为40.2dB。

步骤S502，建立虚拟视点绘制所需要的编码码率与编码量化参数之间的关系。由于在此前定义的立体视频系统中，多视点视频和多视点深度图是由多视点视频编码器分别进行编码，其编码量化参数也是独立选取的。因此，立体视频编码所需的码率r_T为多视点视频编码码率r_C和多视点深度图编码码率r_D之和，也即r_T＝r_C+r_D。

具体地，在本发明实施例中，

当QP＝28时，r_T＝r_C+r_D＝0.0625+0.096＝0.1625bpp。

最后通过统计不同QP下虚拟视点图像绘制的失真E_T和多视点视频以及多视点深度图编码所需的总码率r_T可以得到立体视频编码中虚拟视点图像绘制的率失真模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种立体视频编码率失真性能估计方法，其特征在于，包括以下步骤：

获得多视点视频，并根据所述多视点视频获得对应的多视点深度图；

根据所述多视点视频和所述多视点深度图分别获得多视点视频编码率失真模型和多视点深度图编码率失真模型；

根据所述多视点视频和所述多视点深度图分别获得所述多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系；

根据所述多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系获得虚拟视点绘制失真与多视点视频以及多视点深度各自编码量化参数QP之间的关系；

根据所述多视点视频编码率失真模型和多视点深度图编码率失真模型获得绘制所述虚拟视点所需要的编码码率和所述QP之间的关系；统计不同QP下所述虚拟视点的绘制失真和绘制所述虚拟视点所需要的编码码率以得到立体视频编码中虚拟视点的率失真模型。

2.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，其中，多视点视频编码采用基于视频编码标准H.264/AVC的多视点视频编码扩展版本来实现。

3.如权利要求2所述的立体视频编码率失真性能估计方法，其特征在于，各视点内的每一个图像组的帧内编码帧、前向预测编码帧以及双向预测编码帧均采用相同的量化参数QP进行编码。

4.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，其中，在给定的多视点视频编码量化参数的条件下：

多视点视频编码的码率的估计方法为其中，Q_step＝2^(QP-4)/6，a，b，c为根据不同视频序列具体设置的参数；

多视点视频编码的失真的估计方法为PSNR_c＝q_c×QP+p_c，其中，q_c和p_c为根据不同视频序列具体设置的参数。

5.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，其中，在给定的多视点深度图编码量化参数的条件下：

多视点深度图编码的码率的估计方法为r_d＝k/Q_step+t，其中，Q_step＝2^(QP-4)/6，k，t为根据不同深度图序列具体设置的参数；

多视点视频编码的失真的估计方法为PSNR_d＝q_d×QP+p_d，其中，q_d和p_d为根据不同深度图序列具体设置的参数。

6.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，所述获得多视点视频编码失真与虚拟视点绘制失真之间的关系进一步包括：

假设多视点深度图编码无失真，所述虚拟视点的失真仅由所述多视点视频编码失真引起，并选择绘制虚拟视点C_v所需的M个参考视点，则虚拟视点图像失真为

其中，

其中，

为被遮挡的像素点的个数和参考视点整帧图像的像素点个数的比例，

为第i个参考视点视频编码失真对于虚拟视点图像绘制失真贡献的加权系数，

为第i个参考视点

的视频编码失真。

7.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，所述获得多视点深度图编码失真与虚拟视点绘制失真之间的关系进一步包括：

假设多视点视频编码无失真，所述虚拟视点的失真仅由所述多视点深度图编码失真引起，并选择虚拟视点C_v所需的M个参考视点，则虚拟视点图像失真为

其中，

为虚拟视点绘制图像上与参考视点中

区域相对应的区域的失真。

8.如权利要求7所述的立体视频编码率失真性能估计方法，其特征在于，其中，

其中，

的计算公式为

为参考视点视频帧上

区域的亮度值或色度值所组成的矩阵进行傅立叶变换后得到的矩阵，ω＝[ω₁，ω₂]为

区域水平和垂直方向的角频率，||Δd_j||为视差的平均失真。

9.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，所述根据多视点视频编码失真与虚拟视点绘制失真之间的关系，以及所述多视点深度图编码失真与虚拟视点绘制失真之间的关系获得虚拟视点的失真与编码量化参数QP之间的关系进一步包括：

虚拟视点绘制图像的误差E_T为E_T＝E_CW+E_DW+E_O，其中，E_O为通过图像补绘来填补空洞所引起的误差，

其中，i_O为所述被遮挡象素点，

为所述被遮挡象素点i_O相邻的像素点的亮度或色度值分布，y为所述像素点i_O的亮度或色度的取值范围，y_in为所述被遮挡象素点i_O补绘时的亮度或色度值。

10.如权利要求1所述的立体视频编码率失真性能估计方法，其特征在于，根据所述多视点视频编码率失真模型和多视点深度图编码率失真模型获得绘制所述虚拟视点所需要的编码码率和多视点视频编码码率以及多视点深度图编码码率之间的关系进一步包括：

立体视频编码所需的码率为r_T＝r_C+r_D，其中，r_C为多视点视频编码码率，r_D为多视点深度图编码码率。