CN102239506B

CN102239506B - 中间视合成和多视点数据信号的提取

Info

Publication number: CN102239506B
Application number: CN200980148452.1A
Authority: CN
Inventors: 阿尔约萨·斯莫利克; 卡斯滕·米勒; 克里斯蒂娜·迪克斯
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2008-10-02
Filing date: 2009-09-28
Publication date: 2014-07-09
Anticipated expiration: 2029-09-28
Also published as: JP5243612B2; EP2327059B1; JP2012504805A; WO2010037512A1; CN102239506A; KR20110059803A; US20110261050A1; US9214040B2; KR101468267B1; EP2327059A1

Abstract

本发明描述了一种中间视合成设备，其用于将对应于第一个视点的第一图像(14)和对应于第二视点的第二图像(16)合成为中间视点图像，所述第二视点不同于第一视点，所述第一图像和第二图像包含深度信息，其中第二图像被划分为非边界部分(16a)、和前景/背景边界区域(16b)，其中所述中间视合成设备被构造为将第一图像和第二图像投影到中间视，从而获得中间视点图像(12)，以及处理相对于非边界部分(16a)次级的前景/背景边界区域(16b)。本发明还描述了一种多视点数据信号提取设备，其用于从多视点表示中提取多视点数据信号，该多视点表示包含对应于第一视点的第一图像和对应于第二视点的第二图像，所述第二视点不同于第一视点，所述第一图像和第二图像包含深度信息。该多视点数据信号提取设备包含用于检测第二图像的前景/背景边界的装置；用于确定沿着前景/背景边界的去除左边边界部分的装置；用于将无去除左边边界部分的第二图像投影到第一视点，从而获得具有非遮挡区域的第二图像的投影变体的装置；和用于将第二图像沿着第一图像的部分插入到多视点数据信号中的装置，该第一图像的部分取决于非遮挡区域在第二图像的投影变体内的位置。

Description

中间视合成和多视点数据信号的提取

技术领域

本发明涉及中间视合成以及多视点数据信号的提取/构造。

背景技术

3D视频(3DV)可向观看者提供所观看场景的纵深感知。这也被称为立体电影，但这又是常被局限于使用2D视频的传统技术的术语。最近，3DV越来越受关注，其范围包括从移动电话到3D电影[25]的系统和应用。日臻成熟的技术覆盖从摄像系统到3D显示的整个处理链。希望体验扩展视觉效果的消费者一方的认识和兴趣在逐渐增长，企业一方包括内容供应商、设备生产商、和经销商的认识和兴趣也在增长。

产生3D深度印象(depth impression)需要观看3D显示的观众每只眼睛看到不同的景色。这些景色应该对应于从具有人眼距离的不同视点所拍的图像。换句话说，给用户提供所观看场景逼真的深度印象需要特定的3D显示技术，其确保每只眼睛同时只看到所呈现的一对立体图像中的一个图像[17]。过去，用户必须戴专用眼镜(视差图像、偏振现象、快门)。加上有限的视觉质量，这被看作是3DV系统在家庭用户环境广泛成功的主要障碍，而其他类型的应用，例如3D电影，由于其高的视觉质量，预期在未来数年内将迅速发展。更确切地说，3D显示器同时发出两个以上图像，这确保观众总是看到特定视点的一对立体图像[17]。基于视差图像、偏振现象、或快门技术的专用眼镜在过去实现这一目标是必要的，但是今天仍然适合广泛的应用。例如，成功地建立了基于眼镜的3D电影应用(例如theatres(立体电影院))。在电影院，用户坐在椅子上不太可能移动，并且通常全神贯注地观看当前播放的电影。在这种情况下佩戴眼镜被广泛接受，并且运动视差不再是个大问题。因此，利用基于眼镜的显示技术的3D电影预期在未来数年仍然是标准。预期该市场将进一步增长，并且制造越来越多的经典2D电影，和3D影院能够播放的3D形式的电影。人们预期这将扩大用户的认识和增长用户接受程度，以及创造家用3DV应用的需求。

然而，在居室环境中，用户期望是迥然不同的。戴眼镜的必要性被认为是3D视频在家庭用户环境中成功的主要障碍。现在利用多视点自动立体显示器[17]克服了该缺陷。数个图像同时发出，但是该技术确保了用户只看到特定视点的一对立体图像。目前市场上的3D显示器能够同时显示九张或更多不同的图像，其中从特定的视点只有一对立体图像是可见的。具有这个无眼镜的多用户立体感例如在居室中是可以实现的。一群人在熟悉的沙发-电视环境中无需佩戴眼镜就可享受3D电影，而且同时可以从事我们所习惯的所有社会交流互动。当走来走去时，如果适当地安排连续的图像作为立体对，则可以支持逼真的运动视差印象。

但是，从略有不同的视点传输9个以上相同3D场景的视图给家庭用户是极其低效的。该传输成本将无法证明附加价值的正确性。幸运的是，供选择的3D视频格式允许显著地降低原始数据速率。当使用该多视点视频加深度(MVD)格式时，只传输N个显示视图中的一个子集M。对那些M视频流而言，传输另外的每个像素深度数据作为补充信息。在接收端，基于深度的图像绘制(DIBR)被用于由所传输的MVD数据内插所有的N个显示视图[15]。

因此，多视点视频加深度(MVD)格式允许大幅度地降低3DV系统的原始数据速率。只传输N个显示视图中的一个子集M。此外，传输子集M的深度数据。如果有传输数据[17]，那么通过中间视图内插在接收端可产生非传输的图像。

3D系统通过同时显示多个视图而能够支持头部运动观看视差。特别地，例如具有倾斜透镜镜头技术的高分辨率LCD屏幕，9个同步视点是从飞利浦公司(Philips)商用地获得的[28]。在图10中具体说明用3D显示头部运动视差支持的原理。用户在位置1用右眼和左眼分别只看到视点视图1和视图2。另一个用户在位置3看到视点视图6和视点视图7，因此支持多用户3D观看。

假定用户从位置1移动到位置2。现在分别用右眼和左眼可看到图像2和图像3。如果V1和V2是具有适当的目距基线的一对立体图像，那么V2和V3等等也是，用户在这样的3D显示系统前移动，它将察觉到景物中物体的遮挡和非遮挡3D印象，结果取决于物体的深度。该运动视差印象不是无缝的，以及不同位置数目限制为N-1个。

更确切地说，多视点自动立体显示过程N同步了从略有不同的视点显示相同3D场景的视频信号。与正常的2D视频相比较，这极大地增加了原始数据速率。已经显示出，专用多视点视频编码(MVC)包括从邻近视点采集的视频信号的视点间(inter-view)预测，与所有视频信号的独立编码(同时播放(simulcast))相比较，其可将总比特率降低20％[20]。这意味着降低单个视频比特率的20％乘以N。对于9-视点显示MVC仍然需要7.2倍于相应的单个视频比特率。如此增加很显然阻止了成功应用3DV。进一步，在[20]中也已经显示出MVC的总比特率随N呈线性增长。因此，未来显示更多视图将要求更高的总比特率。最后，如果与MVC一样确定传输格式中的视图数，这并不能提供充足的灵活性支持当前和未来任意类型的3D显示。

对于2-视点显示器(或小数目的视点显示器)而言，展示了不同的方法，同时提供了高压缩效率以及扩展功能。代替传输一个立体视频对，使用一个视频和相关的每个像素深度图。该深度图将景深值分配给视频信号的每个像素，以及用此提供3D场景描述。该深度图可视为单色视频信号，以及使用可用的视频编解码器来编码。这种情形的视频加深度(V+D)被限定为3DV数据格式[7]。近来已经通过MPEG[11]，[12]发布了被称为MPEG-C part 3的相应标准。从解码的V+D，接收器通过DIBR可产生第二视频作为立体对。实验已经显示出，在大多数情形下可有效地压缩深度数据。相应的彩色视频必需的比特率只有大约10-20％需要进行质量让人满意的深度压缩。这意味着使用解码的深度绘制的最后的立体对是相同的视觉质量，就好像传输了2个视频信号。众所周知DIBR引入假象(artifacts)。产生虚拟视图需要将图像内容外推到一定程度。从虚拟视点来看，3D场景中落后于可用的原始视频中前景物体的遮挡部分可变得可见。如果虚拟视点接近于原始摄影位置(如，对应于图20中的V1和V2)，那么遮蔽无覆盖物的图像区域与有限的假象一起很好地运作。因此，对具有小数目视点的3D显示来说，V+D是极好的概念。但是，随着虚拟视点的距离增加，外推假象也增加。因此，概念V+D不适合于具有大量视点和在很宽的范围内支持运动视差的3DV系统。

因此，MVC和V+D都不适合于具有大量视点的先进3D显示系统。解决方法是如图20.9中示出的MVD的扩充和组合，其显示出视点视图V1-V9。MVC的直接编码是极其低效的。只传输一个具有深度图的视频例如V5+D5将导致外部图像不能接受的质量。使用MVD格式，具有深度图的M＝3图像的子集传输给接收器。通过DIBR产生中间视点视图V2-V4和V6-V8。它们足够接近于可用的原始视点视图，从而最小化外推误差。进一步，可以从2个方向(左边和右边的邻近视点视图)内插获得中间视点视图，因此，可以广泛地最小化无覆盖问题。例如，为虚拟视点视图产生的区域在左边视点视图是遮挡的，其在右边视图中极有可能是可见的。但是，仍然有可能需要外推在原始视图和最终视图中均遮挡的部分。

该先进的3DV系统概念包括许多复杂的处理步骤，其部分尚未解决，仍然需要研究。仍然需要开发采集系统并优化，其包括多级摄影系统、可能的深度采集器件、以及其他可能只支持传感器和信息源的类型，例如，光[8]，[22]。发送器一方信号处理包括很多先进的算法，例如摄像机标定、色彩校正、调整、分割以及深度估计或产生。后者对DIBR来说很重要，因为深度估计的任何误差都导致绘制的输出图像质量下降。深度估计或产生的主题在计算机视觉领域是广泛研究的，其可包括同样半自动地处理[16]，[18]，[26]，[29]。一般3DV格式的最优参数化设置仍然需要调查研究，这包括传输具有深度和设置/间距的图像数。大多数MVD数据的有效压缩仍然有待发现，特别是最优深度处理。通常应当为不同的信道考虑传输问题。最终在解码之后，从解码的MVD数据中绘制出N个输出图像。这里具有很少的高质量假象对整个概念的成功来说是至关重要的。

最终，具有最少的明显假象的高质量图像内插对3DV系统的成功来说是至关重要的。特别地沿着深度不连续性物体边缘产生内插假象。因此，内插概念允许避免沿着这样的边缘产生假象，这将是有利的。进一步，如果存储3DV数据的压缩率能够降低，而不会明显降低或完全保持可获得的3DV结果，那么这将是有利的。

发明内容

首先，本发明的目的是提供用于中间视合成和多视点数据信号提取的概念，其允许减少假象和/或提高压缩率，从而提供多视点数据。

通过分别根据权利要求1和22中的一个设备、根据权利要求35的多视点数据信号、和根据权利要求36或37的方法实现了该目的。

构成本发明基础的基本思想是当投影和融合不同视点的图像时，处理相对于非边界部分次级的前景/背景边界区域，有助于避免或减少假象，以及反过来，也可使用该认识以保证质量的方式移除多视点数据信号中的不相关信息。

因此，根据本发明的第一个方面，中间视合成用于将对应于第一视点的第一图像和对应于不同于第一视点的第二视点的第二图像合成为中间视点图像，它的执行是通过基于其深度信息检测第二图像中的前景/背景边界，确定前景/背景边界区域为沿其扩展的区域，以及使用该区域仅仅是为了填补初始的中间视点图像中的空洞，该初始的中间视点图像是通过投影和融合第二图像的剩余部分连同至少第一图像的部分而获得的。通过该方法，各自的前景/背景边界区域仅仅以相对于第二个图像的剩余部分以次级(subordinate)的方式来使用，因此不会负面影响到投影-和-融合结果，另一方面，仍有助于填补空洞，否则会产生空洞。

根据本发明的第二个方面，多视点数据信号提取用于从多视点表示中提取出多视点数据信号，此多视点表示包括对应于第一视点的第一图像和对应于不同于第一视点的第二视点的第二图像，通过检测第二图像中的前景/背景边界，确定第二图像的去除左边边界部分为沿前景/背景边界的扩展，以及将无去除左边边界部分的第二图像投影到所述第一视点，确定第二图像的去除左边边界部分，从而获得具有非遮挡区域的第二图像的投影变体。然后，第二图像连同第一个图像的部分被插入到多视点数据信号中，插入的第一图像的部分取决于非遮挡区域在第二图像的投影变体内的位置。例如，要被插入到多视点数据信号的第一图像的部分是由非遮挡区域在第二图像的投影变体内的位置来确定的。

根据本发明的实施例，前景/背景边界区域是通过检测前景/背景边界，在周围限定n-样本宽的区域，以及将该区域分别一方面分割为前景边界部分和另一方面分割为背景边界部分而获得的，此背景边界部分表示前面提及的去除左边边界部分，以及此前面提及的背景边界部分仅仅是用来填补初始的中间视点图像的空洞。

在以下将参考附图更详细地说明本发明的优选实施例。具体地，

附图说明

图1a示出了根据本发明实施例的中间视合成设备的方框图；

图1b示出了根据本发明的另一实施例的中间视合成设备的方框图；

图1c示出了根据本发明的实施例的多视点数据信号提取设备；

图2示出了根据本发明的实施例的对示例性图像的层分配，示例性的图像被分成前景边界部分(黑色)、背景边界部分(白色)、和非边界区域(灰度值)；

图3示出了根据实施例由保护和融合两个不同图像的两个非边界区域产生的中间视点视图；

图4示出了根据实施例在使用由过滤和/或空洞填补移除其之后的背景边界部分及其外观投影-和-填补步骤之后产生的不同的假象(从左到右)；

图5示出了根据实施例移除假象之后的中间视点图像；

图6示出了根据实施例的9-视点自动立体显示器的立体对距离的五个视点视图，也就是在原始摄像机位置(极左和极右)的两个视点视图，以及芭蕾舞这(上)和霹雳舞这顺序(下)的中间视点视图；

图7示出了根据实施例的中间视合成方法的一系列方法步骤的示意图；

图8a和图8b示出了根据实施例的中间视点视图，其是由一方面投影和融合两个不同视点视图和另一方面前景/背景边界区域的次级视点视图产生的；

图9示出了中间视点视图的详细部分，其是通过一方面简单融合的中间视合成和另一方面根据本发明实施例的中间视合成而产生的；

图10示出了根据本发明的实施例说明的基于LDV的3DTV概念的示意图；

图11示出了根据实施例将图像进一步划分为一方面去除左边边界部分(白色)和另一方面剩余部分(灰色)的结果；

图12示出了由中间视点视图投影到两个边视点产生的图像，其省略了去除左边边界部分；

图13示出了根据实施例从图12中图像获得的两个图像，其是通过过滤移除不希望有的1-像素-宽的深度值从而获得非遮挡区域；

图14示出了根据实施例的边视点视图和图13投影的中间视点视图之间的排除差异(exclusion difference)的结果；

图15示出了根据实施例的不同的剩余数据变体；

图16示出了根据实施例由从两个边视点视图投影产生的另一个中间视点视图；

图17示出了根据实施例的过滤后最终的视合成图像，即左边的中间视点视图加左剩余数据以及右边的中间视点视图加右剩余数据；

图18示出了中间视点视图的详细部分，此中间视点视图是一方面通过简单融合的中间视合成和另一方面根据本发明的实施例的中间视合成产生的；

图19示出了LDV和MVD的中间视合成图像之间的对比；以及

图20示出了说明基于MVD的先进3DVT概念的示意图。

具体实施方式

图1a示出了中间视合成设备10，其用于将对应于第一视点V1的第一图像14和对应于第二视点V2的第二图像16合成为中间视点图像12，此第二视点V2不同于第一视点V1，第一和第二图像包括深度信息D1和D2。第一图像14和第二图像16可具有与深度信息D1和D2相关联的单色或彩色信息V1和V2。特别地，虽然有可能深度和彩色信息的空间分辨率可以是不同的，但是两者可包含每像素的样本值。

第二图像16被划分为非边界部分16a和前景/背景边界区域，在图1a中分别用白色部分表示前者和用阴影线部分表示后者，其中中间视合成设备构造为将第一图像14和第二图像16投影和融合到中间视点，从而获得中间视点图像12，以及处理相对于非边界部分16a次级的前景/背景边界区域16b。

根据以下进一步描述的实施例，中间视合成设备10被构造为使用至少一部分前景/背景边界区域16b，仅仅来填补本将会在中间视点图像12中产生的空洞，通过使用第二图像16的与部分前景/背景边界区域16b分离的分离部分，投影和融合成中间视点图像12。

根据图1b，更详细地描述了中间视合成10的进一步实施例。根据该实施例，第二图像16的前景/背景边界区域16b划分成前景边界部分和背景边界部分，此背景边界部分形成前面提及的用来填补空洞的部分。因此，上面提及的部分可对应于背景边界区域。

图1b中的中间视合成设备10包括前景/背景边界检测器18，其作为检测第二图像16中的前景/背景边界区域16b的装置；以及细分器20，其作为将第二图像的前景/背景区域16b划分为前景边界部分16b1和背景边界部分16b2，以便于第二图像16划分为非边界部分16a、前景边界部分16b1、和背景边界部分16b2的装置。进一步，中间视合成设备10包含投影-和-融合级22，用于将第二个图像16的非边界部分16a和前景边界部分16b1连同至少第一图像14的一部分一起投影和融合到中间视点，从而获得如箭头24所示的初始的中间视点图像。

提供投影-和-填补级26用来将第二图像16的背景边界部分16b2投影到中间视点，以及通过投影的第二图像16的背景边界部分来填补初始的中间视点图像24的空洞，从而获得中间视点图像12。

比较图1a和图1b的实施例，以下变得清晰，在图1b的情形中边界区域检测和划分在设备中执行，而在图1a的实施例中，假定为已经完成此步骤，以及附近的信息诸如以边信息的形式与第二图像16b相关联。因此，根据进一步实施例，中间视合成设备10可包括用于获得层信息的装置，此层信息将第二图像的非边界部分16a、前景边界部分16b1、和背景边界部分16b2与多视点数据信号区别开，后者表示取代图1b中的模块18和20。

如图1b中通过虚线进一步说明的，中间视合成设备10还可包括前景/背景边界检测器18’和前景/背景细分器20’，前者作为检测第一图像14中的前景/背景边界区域的装置，后者作为将第一图像的前景/背景边界区域划分为前景边界部分和背景边界部分的装置。换句话说，在中间视合成设备10中，用于检测的装置18可构造为也检测第一图像14的前景/背景边界区域，装置20可构造为也将第一图像14的前景/背景区域划分为前景边界部分和背景边界部分，以便于第一图像14也被划分成非边界部分、前景边界部分和背景边界部分。在这种情形下，投影-和-融合级22可构造为将第一图像14和第二图像16的非边界部分和前景边界部分投影和融合为中间视点视图，从而获得初始的中间视点图像24，以及投影-和-填补级26也可构造为投影第一图像14和第二图像16的背景边界部分，以及通过投影的第一图像14和第二图像16的背景边界部分来填补初始的中间视点图像24中的空洞。

根据供选择的实施例，在中间视合成设备10中，用于根据多视点数据信号获得层信息的装置可获得层信息，其至少将第一图像的非边界部分和背景边界部分与多视点数据信号区别开。检测器18’和细分器20’将是不必要的。中间视合成设备10可包括刚刚提及的获得器作为替代。但是，用于投影和融合的装置22将被构造为将第二图像16的非边界部分16a和前景边界部分16b1以及第一图像14的非边界部分投影和融合到中间视点，从而获得初始的中间视点图像24，用于投影和填补的装置26将被构造为投影第一图像14和第二图像16的背景边界部分，以及通过投影的第一图像14和第二图像16的背景边界部分来填补初始的中间视点图像24中的空洞。

或者，多视点数据信号可包含，例如，作为边信息的层信息，其区别第一图像14的非边界部分、前景边界部分、和背景边界部分。因此根据该实施例的中间视合成设备10可包含获得该层信息的装置，该层信息用来区别第一图像14的非边界部分、前景边界部分和背景边界部分，其中用来投影和融合的装置22可被构造成将第一图像14和第二图像16的非边界部分和前景边界部分投影和融合到中间视点，从而获得初始的中间视点图像24，用于投影和填补的装置26被构造为投影第一图像14和第二图像16的背景边界部分，以及通过投影的第一图像14和第二图像16的背景边界部分来填补初始的中间视点图像24中的空洞。

例如，检测器18可包含边缘检测器，其用于在深度信息D2中检测边缘，边缘周围的n-样本-宽的区域表示前景/背景边界区域16b2。相应地，细分器20可被构造为将n-样本-宽的区域划分为前景边界区域和背景边界区域。例如，细分器20可被构造为通过比较前景/背景边界区域16b的样本/像素内深度信息D2的深度与阈值，从而确定样本/像素属于前景边界部分16b1还是背景边界部分16b2来进行划分。就这一点而言，细分器可被构造为通过计算诸如深度信息D2的深度值的平均数或中间值的集中趋势来获得阈值。特别地，细分器可被构造为通过由与前景/背景边界区域16b中各样本/像素邻近的样本/像素的深度信息D2的深度值计算各样本/像素的集中趋势，局部地获得阈值，例如基于属于前景/背景边界区域16b和邻近各样本/像素的邻近样本/像素。

在上述第一图像14和第二图像16同时被划为非边界区域和边界区域的实施例中，投影-和-融合级22可被构造为将第一图像14和第二个像16的非边界部分投影和融合到中间视点，从而获得非边界中间视点图像，其中非边界部分的融合包含在第一图像14和第二图像16之间取平均值，以及将第一图像14和第二图像16的前景边界部分投影和融合为非边界中间视点图像24，其中前景边界部分的融合包含在非边界中间视点图像24的样本以及投影第一图像14和第二图像16的前景边界部分产生的位于一处的样本之间选择，而不是取其平均值。

至于考虑到投影机构，投影-和-融合级22以及投影-和-填补级26可被构造为通过分别使用相关联的深度信息D1和D2将2D样本投影为3D样本从而获得3D世界点(world points)以及将3D世界点投影到中间视点，来执行到中间视点的各投影。特别地，投影-和-融合级22以及投影-和-填补级26可被构造为通过在第一视点和第二视点的投影矩阵之间内插来计算投影矩阵，以及通过使用投影矩阵执行3D世界点的投影。事实上，投影-和-融合级22与投影-和-填补级26可被构造为通过按取决于偏离中间视点的量二维地(或在像素平面内)移动样本位置来执行到中间视点的各投影。当然，平面内的移动可限制为沿着一个维度移动，例如，沿着行(row)/列(line)方向，因为，例如，使用相同的放大率、分辨率等已经采集了所有图像，同时使像素行记录到彼此的垂直方向。下文中，将使用一般术语在-像素-平面或二维移动，它们应该含有刚刚概述的可能性从而将移动限制在一个维度内。可使用进一步的二维内插将投影点/像素映射到规则的目标像素网格中，如中间视点。仅通过同时使用投影的第一视点的像素和投影的第二视点的像素就可执行融合，从而获得目标视点图像。其次，可使用内插将投影的像素融合成一个规则的目标图像的像素网格。

进一步，应当注意的是，可选择地，可以提供增强器28，其通过过滤和/或外推到中间视点图像24的剩余空洞来增强中间视点图像24。这样的增强器28可通过检测中间视点图像24的前景/背景边界区域，以及在中间视点图像24的前景/背景边界区域内进行低通滤波来增强中间视点图像。

以下，将描述前述实施例的详细例子，其中第一图像和第二图像是MVD或LDV视频的部分，以及某些例子，其中中间视合成设备是3DTV显示系统的部分。但是，在那之前，描述的另一个实施例适合于高效地编码多视点视图。

图1c示出了多视数据信号提取设备30，如箭头32所示，其用于从多视点表示(representation)中提取多视点数据信号其中多视点表示包含对应于第一视点的第一图像34和对应于第二视点的第二图像36，第二视点与第一视点不同，第一图像34和第二图像36分别包含深度信息D1和D2。多视点数据信号提取设备30包括前景/背景边界检测器38和去除左边边界部分检测器42，前者用于检测第二图像36中的前景/背景边界40，后者用于确定第二图像36沿着前景/背景边界40的去除左边边界部分44。投影器46被设置为将无去除左边部分44的第二图像36投影到第一视点，从而获得由于投影而具有非遮挡区域50的第二图像的投影变体(version)48。插入器52响应于非遮挡区域50在第二图像的投影变体48内的位置，将第二图像连同第一图像34的部分插入到多视点数据信号32，所述第一个图像的部分取决于非遮挡区域在第二图像的投影变体内的位置。

具体地，多视点数据信号提取设备30可包含确定器54，其用于根据非遮挡区域50在第二图像的投影变体48内的位置确定第一图像34的部分从第二图像的投影变体48内的非遮挡区域50的位置插入到多视点数据信号32的第一图像34的部分。就是说，确定器54可将插入到多视点数据信号32的第一个图像34的部分确定为第一个图像34的区域，分别地，第二图像的投影变体内的非遮挡区域50遍布此区域，或此区域被区域50占据。

投影器46可被构造为将无去除左边边界部分44的第二图像36也投影到图1c未示出的第三视点，但有选择地，以便于第二个视点位于第一视点和第三视点之间。通过这种方法，可获得具有非遮挡区域的第二图像的进一步投影变体，插入器52可被构造为将第二图像、第一图像34的部分、和第三图像的部分插入到多视点数据信号32中，第一图像34的部分和第三图像的部分也取决于非遮挡区域在第二图像的进一步投影变体内的位置。

插入器也可被构造为将诸如边信息形式的层信息插入到多视点数据信号32，该层信息至少区别第二图像36的非边界部分56和去除左边边界部分44。

进一步，可选择地，阶段58可有效地连接在投影器46和插入器52之间，阶段58用于填补由投影第二图像的投影48产生的小空洞和/或过滤第二图像的投影变体48。

插入器52可被构造为丢弃第一图像34的剩余部分，此部分与由例如确定器54选择的取决于非遮挡区域50在第二图像的投影变体48内的位置的部分分离，以及在多视点数据信号32中用信号表明该丢弃，例如通过将各自的像素值设定为默认值。

检测器38可被构造为通过使用在深度信息中检测边缘的边缘检测器来检测前景/背景边界40，其与上述提及的作为前景/背景边界检测器18的部件类似。相应地，检测器38可被构造为将边缘周围的n-样本-宽的区域分割为前景边界部分、和背景边界部分，利用背景边界部分定义了上述提及的去除左边部分44。这里并不关心前景部分，因此在图1c中没有示出前景部分。因此，检测器38产生的效果类似于图1b中的细分器，因此，可通过比较n-样本-宽的区域的样本的深度信息的深度与阈值来实现分割，从而确定样本属于前景边界部分还是背景边界部分，以及相应地，阈值可通过计算上面描述的n-样本-宽的区域的样本等的邻近样本的深度信息的深度值的集中趋势而获得。进一步与图1b相对应，投影器48可被构造为通过使用相关联的深度信息将2D样本投影为3D样本从而获得3D世界点，以及将3D世界点投影到中间视点，来执行到第一视点的各投影。具体地，投影器46可被构造为通过在第一视点的投影矩阵和第二视点的投影矩阵之间内插来计算投影矩阵，以及使用投影矩阵执行3D世界点的投影。一般地，投影器46可被构造为通过根据偏离中间视的量二维地(或在像素平面内)移动样本位置来执行到中间视的各投影。

由设备30获得的多视点数据信号32，一般地，包含关于对应于第一视点的第一图像34和对应于第二视点的第二图像36的数据，第二视点不同于第一视点，该第一图像34和第二图像36包含深度信息D1和D2。但是，只有第一图像34的部分包括在多视点数据信号32内，而其分离部分在多视点数据信号32中被丢弃。包括的部分取决于非遮挡区域50在第二图像36的投影变体48内的位置，投影变体48是由将无去除左边边界部分44的第二图图像36沿着第二图像36的前景/背景边界40扩展而投影到第一视点产生的。仅刚刚提及的第一图像34的部分插入到该多视点数据信号32中，该信号32可以是前文关于图1a和1b提及的第一个图像14的部分，第二图像的投影变体与其一起融合。

下文提出的用于先进的3DV系统的解决方法是如本说明书的引言部分描述的MVD的扩展和组合。在图20的例子中，示出了基于MVD的先进3DTV概念(Pos：观察点，R：右眼，L：左眼，V：视点视图/图像，D：深度)，只有M＝3的视图的子集被传输给接收器。对这些作为说明的视点而言，精确取样的深度图应该在发送器一方产生，并与视频信号一起运送。在该情形中，每个深度值被分配给每个原始视频样本。通常把深度图当作如图2示的灰度图。在接收器显示的所有其他图像都由DIBR产生。

这样的基于MVD格式的3DV系统的设计包括一些有待于研究的困难和部分未解决的难题。这包括多视点采集、深度估计/产生、系统的参数化设置(如输入视点的数目)、深度数据的有效压缩、传输和绘制。在以下实施例中，根据实施例说明目标接收器边绘制。

在引言部分呈现的3DV概念依赖于在接收器高质量中间视点视图内插算法的有效性。内插假象可导致不可接受的性质。在图20的例子中，例如从位置2只能看到虚拟视点视图。立体设置中的典型摄影距离是5cm。这表示原始视点视图V1与V5之间的跨度是20cm，这段距离用DIBR是很难处理的。特别地沿着具有巨大的深度不连续性的物理边缘会产生一些已知的假象。另一方面具有平滑深度变体的区域可非常可靠地投影到虚拟中间视点。这意味着分开处理深度不连续性和平滑深度区域。使用边缘检测算法在深度图像内可以很容易地发现深度不连续性。

因此，下文提出的内插过程由三个部分构成：层提取(边缘检测以及划分为可靠和边界区域)、层投影(划分区域的DIBR和融合)、和空洞填补&过滤(校正、清理、和过滤)。为了应用自由视点导航(navigate)在[30]中已经调查研究了对分层方法起作用的思想，其中沿着明显的深度不连续性提取了某些宽度的边界层。在以下的方法中，进一步改进了该思想。而且，在[30]中的方法使用用于绘制的几何基元(三角)操作，下面的实施例仅仅用基于图像的3D图像变换操作。因此，不需要3D图形支持和几何建模。不利的一面是，引入了某些投影假象，可以如下面描述的移除此假象。

换句话说，下文提出了多视点3D显示的视频系统，其中数据表示(representation)由多视点视频和景深构成。至多传输3个多视点视频信号，连同深度数据一起在接收器产生中间视点视图。提出了这样的中间视点视图内插方法，其沿着深度不连续性分离可靠的图像区域与不可靠的图像区域。用不同的算法处理和融合这些图像区域，从而获得最终的内插视点视图。与先前分层的方法相比较，使用了两个边界层和一个可靠层。而且，提出的技术并不依赖于3D图像支持，而使用基于图像的3D图像变换作为替代。为了产生质量增强的中间视点视图，描述了空洞填补和过滤方法。因此，提出了适用于现存的9-视点自动立体显示器的高质量中间视点视图，其证明了适用于先进3D视频(3DV)系统的方法的适合性。

在绘制方法的第一部分——层提取中，区分了原始视图中的可靠和不可靠的深度区域。一般而言，层提取对应于图1b中的模块18和20的功能。沿着物体边界的区域认为是不可靠的，因为边界样本通常具有混合的前景/背景颜色，并在投影到新的视点之后会产生假象。进一步，深度估计的误差主要使物体边界失真。因此，类似于[30]，检测明显的深度不连续性从而创建主层和边界层。为此，可使用Canny边缘检测器[2]，其对深度图像进行操作，将沿着检测边缘的7-样本-宽的区域标记为不可靠的。与[30]相比较，该区域被分割为前景边界层和背景边界层(分别如图2所示的黑色区域和白色区域)，从而允许不同的处理，如下一小节所示。换句话说，图2示出了沿着明显的深度不连续性的层分配：前景边界层(黑色)、背景边界层(白色)、和主层(灰度值)。

该第二部分——层投影是视点视图内插算法的主体，对应于图1b中的阶段22和24的功能。输入为如图2所示的左边原始图像和右边原始图像、相关联的深度图、相关联的摄像机标定信息、和相关联的标示信息。输入图像的不同标示区域分开地投影到虚拟视点位置，并遵循可靠性准则融合结果。

中间视点投影是经典的基于图像的3D图像变换：首先，使用相关联的深度值和摄像机标定信息将原始的2D视点的样本投影到3D空间。其次，作为结果的3D世界点正向投影到要产生的中间视点视图。使用位置相关参数λ∈[0...1]，根据相关的两个原始视点的矩阵内插第二步骤中限定虚拟视点位置的投影矩阵，，其中例如λ＝0.5定义了中间位置。这是使用球面线性内插[24]完成的，适用于原始摄像机之间的直线路径上的任意位置。

遵循该方法，利用相应的浮点深度数据d₁和d₂，两主层(如，根据关于图1a-c使用的措辞“非边界部分”)都投影到分离的颜色缓冲区1₁和1₂，源于以上数据创建了公共主层l_c，如下：

l_{c} = \{\begin{matrix} λ l_{2} + (1 - λ) l_{1} & , if d_{1} and d_{2} exis \tan d | d_{1} - d_{2} | < ϵ \\ l_{2} & , if d_{1} does not exist or d_{2} > d_{1} + ϵ, \\ l_{1} & , if d_{2} does not exist or d_{1} > d_{2} + ϵ \end{matrix} - - - - (1)

其中λ表示上面提及的位置相关参数，ε表示标准差(signigicancevalue)，本实验中其设定为1.0。该方法保证使用每个视点的最前方样本，或是如果两个样本具有相似的深度值，那么对这两个样本都进行λ-内插。当从一个原始摄像机视点导航到另一个视点时，内插进一步降低了原始视点视图之间可能的亮度差异，提供了平滑的过度。图3示出了投影之后作为结果的公共主层。根据(1)的内插过程还创建了公共浮点深度缓冲区。

在下一个步骤中，前景边界层(也就是图1a-c的措辞中的“前景边界部分”)被投影以及创建颜色和浮点深度的公共层，这类似于上面所述的主层方法。然后，融合公共主层和前景边界层。这里使用简单的深度测试：采用任一个层的最前方样本，其通常是前景边界样本。到现在为止，此功能对应于阶段22的功能。

在投影过程的最后一个步骤中，背景边界层，也就是图1a-c中的背景部分被投影。使用该信息仅仅是为了填补中间视点视图的剩余空洞。这对应于图10中阶段24的功能。由于公共主层已经覆盖了前景物体周围的大多数样本，如图3所示，仅仅使用很少的背景边界样本，因此原始视图的物体边界的颜色失真样本被省略。已知使用简单的3D图像变换算法在背景区域内创建象日冕(corona-like)的假象，利用2种不同的边界层的该分层方法避免了这一点。

该算法的最后一部分，空洞填补&过滤是校正、清理和过滤过程。其对应于图1b中的增强器28的功能。在该阶段的绘制图像中仍可产生两种类型的空洞：微裂纹和更大的空白区域。第一种类型的空洞是在整个图像区域内产生的微裂纹，其可由基于图像的3D图像变换的正向映射性质引入。原始图像的每个点都分别地投影到中间视点，以及一般落在浮点坐标上。该位置量化为整数样本光栅的最近邻位置。让人遗憾的是，量化可使某些未填补的样本可见，如图3中细细的黑线所示。在某些情形中，前景区域中这样的裂纹由其他原始图像的背景信息填补。这导致如图4中左边所示的假象，其中背景样本表现出来(shine through)前景物体。在图4中，顶线示出了不同的假象，而底线示出了移除假象(具体地，移除裂纹样本(左边)、填补区域(中间)和平滑边缘(右边))之后的相同部分。

这样的假象是通过查找深度值来检测的，该深度值与其在水平、垂直、或对角方向的邻近值是明显不同的。然后，假定已经校正了所分配的深度值，用中值过滤填补假象，即通过计算邻近彩色值的中间值。也在图4的左边示出这样的假象的校正。

第二种类型的空洞包括更大的空白区域。这些空洞要么是由于错误的深度值而产生的，要么是在两个原始视图中被遮挡而在中间视点视图中变得可见的区域。这样的更大空洞用可用的背景信息填补，如图4的中间所示。这里，分析沿着空洞边界的对应深度值，以便于找到背景颜色样本从而外推到空洞区域。当该方法使得很好地填补了由于深度误差引起的空白区域时，有时错误地根据前景信息填补非遮挡区域，因此显示错误的颜色。

最后，沿着边缘低通滤波前景物体从而提供逼真的外观，如图4中的右边所示。在原始视图中，由于在图像捕获期间最初的取样和过滤，物体边界样本是前景-背景的颜色混合。在本发明的分层方法所绘制的中间视点视图中，通常不包括这些混合颜色样本，为的是避免背景中出现日冕状假象。因此，某些前景-背景边界看起来锐化的不自然，就好像前景物体是人为地插入到场景中的。因此，上面提及的Canny边缘检测滤波器应用于最终的深度信息以便于识别边缘，平均低通滤波器应用于相应的颜色样本以便于提供更逼真的外观。此外，过滤有助于减少沿着深度不连续性的剩余假象。

所有处理步骤之后作为结果的中间视点视图在图5中示出，因此图5示出了过滤之后的最终中间视点内插，是图1b中的中间视点图像12的例子。这里，两个原始的摄像机之间的中间视点视图被合成，即λ＝0.5，在该情形中其对应于两个原始摄像机之间10cm的物理距离。虚拟视点视图品质优良且无可见的假象。

视点视图内插器的目的是用M个视点加深度的MVD表示为3DV系统创建N个输入视点视图。一个例子是Philips自动立体显示器，其中需要具有目距(大约5cm)的9个视点作为输入。对如图20所示的设置而言，在图6中示出了作为芭蕾舞者和霹雳舞者数据集中9个视点视图结果的五个。这些数据集的摄像机间距是20cm。在两个原始的摄像机之间已经创建了λ＝{1/4，1/2，3/4}的三个中间视点。图6中最左边和最右边的图像是原始视点视图。中间的三个图像是未显示任何假象的虚拟视点视图。成对的立体视点有效地支持运动视差和3D深度印象。换句话说，图6示出了9-视点自动立体显示器的立体对距离的五个视点视图：在原始摄像机位置(极左和极右)的两个视点视图以及芭蕾舞(顶部)和霹雳舞顺序(底部)的中间视点视图。

概述以上实施例，描述了用于先进3D视频(3DV)系统的概念，此3DV系统基于多视点和深度(MVD)表示。与基于MVC或MPEG-C Part3的可选择的概念相比，从数据速率、质量、和功能方面来说，该3DV系统具有明显的优势。特别地，高质量的中间视点视图内插算法对使该概念可行而言是决定性的。上面提出了适当的方法，其最小化所绘制视点视图中的假象。该算法仅仅以基于图像的3D图像变换为基础，并不需要3D图形支持。刚描述的实施例引入不可靠图像区域沿着深度不连续性分离的前景边界层和背景边界层。分别处理边界层和可靠层，以及遵循可靠性准则融合输出。而且，已经执行空洞填补算法产生中间视点视图中空白颜色信息。颜色样本沿着明显的深度不连续性的最终低通滤波可提供更为逼真的外观，并减少沿着边缘的剩余假象。视点视图内插可由位置相关参数来控制，此参数降低了原始视图之间亮度差异的影响。随即，已经说明了高质量的中间视点视图绘制对基于MVD的3DV概念的必要性。

以下部分描述了本发明的第二个实施例，与第一个实施例相比较更详细。此外，该实施例把重点放在日益增长的3D视频应用和系统，3D视频应用和系统迅速增长且技术日益成熟。预期多视点自动立体显示器在家庭用户环境中将扮演重要角色，因为它支持多用户3D感觉和运动视差印象。极大的数据速率不可能通过表示和诸如MVC或MPEG-C Part 3的编码格式获得有效地处理。多视点视频加深度是有效地支持这样的先进3DV系统的新格式，但是这需要高质量的中间视合成。为此，下面提出的方法沿着深度不连续性分离可靠图像区域与不可靠图像区域，这两区域被分别处理并融合为最终的内插视点视图。与先前的分层方法相比较，下面的算法使用两个边界层和一个可靠层，只执行基于图像的3D图像变换，而不依赖于3D图形支持。而且，加入了不同的空洞填补和过滤方法，从而提供了高质量的中间视点视图。因此，提出了适用于现存的9-视点自动立体显示器的高质量的中间视点视图，其证明了适用于先进3DV系统方法的适合性。该概念依赖于高质量的中间视合成算法。下面给出这样的DIBR或3D图像变换的一般表达。已知DIBR产生可察觉的假象，特别地沿着具有深度不连续性的物体边界产生所述假象。因此，下面的实施例引入了新颖的DIBR算法，其中在分层方法中处理深度不连续性，图像区域被标记为可靠和不可靠区域。然后呈现标准3D图像变换的结果和改进。最后，总结了第二个实施例。

首先，系统地阐述了基于深度的中间视合成。在3DV框架内我们假定为每个原始视点k给定以颜色数据l_k、深度数据d_k、和摄像机参数形式的输入数据。可通过l_k的捕获过程和相关联的d_k深度摄像机或深度估计过程来提供该数据。作为例子，适用于先进3DTV概念的原始视点显示在图20底部，其中k∈{1，5，9}。每个原始视点k的摄像机参数以内部矩阵K_k的内部参数(焦距、传感器缩放、主光点)，以及具有旋转矩阵R_k和平移向量t_k的外部矩阵[R_k|t_k]中的外部参数(旋转、平移)的形式给定。可通过标准的摄像机标定算法[27]、[6]、[9]获得摄像机参数。通常，外部矩阵和内部矩阵相乘从而获得投影矩阵P_k＝K_k[R_k|t_k]，其将3D世界点投影到原始视点k的平面图像。因此，原始视点由下面给出：

L_k(u_k，v_k)

D_k(u_k，v_k) (1)

P_k

在每个像素位置(u_k，v_k)

给定的框架提供了许多稀疏的原始摄像机，以(1)的形式。视合成的任务是在任意对邻近的原始摄像机之间提供稠密的中间视点。对该内推过程的数学推导而言，根据(1)给定两个原始视点k和n。对两个摄像机之间的任意虚拟视点位置而言，引入内插参数λ∈[0...1]，其中λ＝0是指第一个原始观察位置，λ＝1是指第二个观察位置和λ＝0.5例如定义了中间位置。对中间视点l_λ(u_λ，v_λ)而言，首先计算出相关联的内部矩阵和外部矩阵：

K_λ＝(1-λ)K_k+λK_n

t_λ＝(1-λ)t_k+λt_n (2)

R_λ＝slerp(R_k，R_n，λ)

这里，除了旋转矩阵中的参数之外，所有参数都是线性内插的，其中球面线性内插[24]用来保持矩阵的正交性。为此，分别内插矩阵R_k和R_n的列向量，从而获得R_λ的列向量。示出矩阵R_λ的第一列向量R_λ(i，1)的示例性计算：

R_{λ} (i, l) = slerp (R_{k} (i, l), R_{n} (i, l), λ) = \frac{\sin ((1 - λ) α_{i}) R_{k} (i, l) + \sin (λ α_{i}) R_{n} (i, l)}{\sin (α_{i})} . - - - (3)

with α_i＝arccos(R_k(i，1)·R_n(i，1))

因为a_i→0，相关联的列向量是平行的，且球面线性内插简化为普通的线性内插。因此计算其他两个列向量。相应地，由内插的内部矩阵和外部矩阵，计算出中间视点投影矩阵：P_λ＝K_λ[R_λ|t_λ]。其他方法根据基于张量空间[1]和不同缩放[5]、[19]、[23]、[3]的三个原始视点计算中间视点投影，从而标注中间视点视图中的像素位置。根据此内插，原始摄像机视点的所有颜色值l_k(u_k，v_k)和l_n(u_n，v_n)都通过投影其相关联的像素位置而投影到中间视点。

仅对视点k执行以下考虑，因为对视点视图n来说计算都是相似的：对于视点k，相关联的像素位置(u_k，v_k)首先使用逆投影矩阵投影到3D空间。该投影是不明确的，因为摄像机平面的单个2D像素点投影到穿过焦点和像素位置点的直线上。因此需要深度数据d_k(u_k，v_k)从而确定精确的3D位置。通常，提供成比例并量化形式的深度数据，以便于首先需要获得真实值z_k(u_k，v_k)。典型的缩放是利用以下函数[10]的逆深度缩放：

z_{k} (u_{k}, v_{k}) = \frac{1}{d_{k} (u_{k}, v_{k}) \cdot (\frac{1}{z_{k, near}} - \frac{1}{z_{k, far}}) + \frac{1}{z_{k, far}}}, - - - (4)

其中深度数据d_k(u_k，v_k)起初规格化为范围[0...1]，以及z_k，near和z_k，far分别是3D场景的最小深度值和最大深度值。

在下一个步骤中，3D点正向投影到中间视点。结合两个投影，点-对-点单应性可记为如下：

(\begin{matrix} u_{λ} \\ v_{λ} \\ z_{λ} (u_{λ}, v_{λ}) \end{matrix}) P_{λ} P_{k}^{- 1} (\begin{matrix} u_{k} \\ v_{k} \\ z_{k} (u_{k}, v_{k}) \end{matrix}) . - - - (5)

应当注意的是，此记法不同于一般的平面到平面的单应性表示法，因为对于2D图像平面和3D世界坐标之间的一对一映射，以(5)的方式维持深度值z_k和z_λ。视点k的所有像素位置(u_k，v_k)进行该映射。为了获得中间视点中的某些位置(u_λ，v_λ)的颜色值，采集映射到位置(u_λ，v_λ)的视点k的所有颜色值l_k(u_k，v_k)。然后，选择具有最小投影深度z_min，λ，k的最前方像素：

z_{\min, λ, k} (u_{λ}, v_{λ}) = \min_{&ForAll; u_{k}, v_{k}} {z_{λ, k, u_{k}, v_{k}} | (\begin{matrix} u_{λ} \\ v_{λ} \\ z_{λ} (u_{λ}, v_{λ}) \end{matrix}) = P_{λ} P_{k}^{- 1} (\begin{matrix} u_{k} \\ v_{k} \\ z_{k} (u_{k}, v_{k}) \end{matrix})} . - - - (6)

取决于3D场景结构，映射到位置(u_λ，v_λ)的视点k的像素数可变化，且适用于以下的情形：

-0像素：中间视点视图的非遮挡

-1像素：规则的投影内容

-2...N像素：遮挡

对于颜色投影，需要原始视点中的相关联位置(u_k，min，v_k，min)：

(u_{k, \min}, v_{k, \min}) = \underset{&ForAll; u_{k}, v_{k}}{\arg \min} {z_{λ, k, u_{k}, v_{k}} (u_{λ}, u_{λ}) | (\begin{matrix} u_{λ} \\ v_{λ} \\ z_{λ} (u_{λ}, v_{λ}) \end{matrix}) = P_{λ} P_{k}^{- 1} (\begin{matrix} u_{k} \\ v_{k} \\ z_{k} (u_{k}, v_{k}) \end{matrix})} . - - - (7)

该位置最终确定中间视点中视点k的颜色成分l_λ，k(u_λ，v_λ)：

l_λ，k(u_λ，v_λ)＝l_k(u_k，min，v_k，min)， (8)

对于视点n重复上面(5)到(8)的过程，从而获得颜色成分l_λ，n(u_λ，v_λ)：

l_λ，n(u_λ，v_λ)＝l_n(u_n，min，v_n，min)， (9)

结合全部视点的成分，可用公式表示原始视点k和n之间的一般中间视点内插：

l_λ(u_λ，v_λ)＝(1-λ)·l_k(u_k，min，v_k，min)+λ·l_n(u_n，min，v_n，min)，(10)

其中由两个投影的颜色值l_k(u_k，min，v_k，min)和l_n(u_n，min，v_n，min)内插最终的颜色值l_λ(u_λ，v_λ)，投影的颜色值具有两个视点的最小投影深度值。对于实际数据，需要提炼(refine)一般的数学描述以提出不正确的输入数据(如，错误的深度值)的理由，如段0所示。在以下分层的中间视合成的实施中，如果颜色和深度数据的所有像素位置标志(u，v)与该段所示的一般情形并无太大区别，那么为了简化起见，就省略。

在已经指定上述的一般投影过程之后，其作为上面提及的参考图1a-c的所有投影例子，这里描述了接近实际数据的自适应，如，执行分层的中间视合成。之前提出的3DV概念依赖于接收器端的高质量的中间视合成算法的有效性。先前的视合成方法集中于简单的概念，而没有充分的遮挡处理[14]、[5]、[21]、[13]或产生复杂的基于点的表示[4]。但是，内插假象可导致不可接受的质量。例如在图20的例子中，只有从位置2的虚拟视点是可见的。立体设置中的典型摄像机距离是5cm。这意指原始视点V1和V5之间的跨度是20cm，这段距离用DIBR是很难处理的。已知特别地沿着具有大的深度不连续性的物体边缘会产生严重的假象。另一方面具有平滑深度变体的区域可非常可靠地投影到虚拟中间视点。这意味着分开处理深度不连续性和平滑深度区域。使用边缘检测算法可很容易地在深度图像内发现深度不连续性。

因此，以下的视合成过程由三个部分构成：层提取(边缘检测以及分为可靠区域和边界区域)、层投影(分割DIBR的区域和融合)、和中间视增强(校正、清理&过滤)。图7中示出该过程的概况，因此其示出该合成方法的结构概况：该方法两个边视点视图的输入数据是原始颜色和每-像素深度数据，其分别标记为V1、V2、D1和D2，以便于强调与图1b的一致性。用于投影或边缘检测目的，实心箭头表示颜色处理，而虚箭头表示深度处理或深度数据。根据深度信息，沿着明显的深度不连续性提取层70，此提取对应于图1b中模块18、18’、20和20’的功能。在图7的下一个阶段，标记的颜色缓冲区的所有层都投影72到中间视点的分开的层缓冲区74a-d。首先通过融合76两个投影的主层74a和74d创建中间视点视图。然后，如以下进一步描述的添加前景边界层和背景边界层。最后，应用诸如空洞填补和边缘平滑的图像增强78，从而创建最终的中间视点视图。

为了应用自由视点导航，在[30]中已经调查研究了对分层方法起作用的思想，其中沿着明显的深度不连续性提取某些宽度的边界层。这里进一步改进该方法。而且，在[30]中的方法使用用于绘制的简单几何基元(三角)操作，而图7中的实施例仅仅使用基于图像的3D图像变换。因此，不需要3D图形支持和几何建模。不利的一面是，图7中的方法引入了某些投影假象，但是如下面进一步描述的可移除此假象。

层提取70对应于模块18、18’、20、20’的功能。在该绘制方法的第一部分中，区分了原始视图中的可靠和不可靠的深度区域。沿着物体边界的区域被认为是不可靠的，因为边界样本通常具有混合的前景/背景颜色，并在投影到新的视点之后会产生假象。进一步，深度估计的误差主要使物体边界失真。因此，类似于[30]，检测明显的深度不连续性，以便于创建主层和边界层。为此可使用Canny边缘检测器[2]，利用内容自适应的重要阈值(本实验中的110)对深度图像进行操作。沿着检测边缘的7-样本-宽的区域可被标记为不可靠的。与[30]相比较，该区域分别被分割为前景边界层和背景边界层(分别如图2所示的黑色和白色区域)，以便允许不同的处理，如下一分段中所示。

层投影72对应于图1b中的模块22和26的功能。层投影72扩展上面呈现的基于深度的中间视合成的一般表达。处理链的第二部分是视合成算法中的重要模块。输入为左边原始图像和右边原始图像、相关联的深度图、相关联的摄像机标定信息、内插参数λ∈[0...1]、所有上面提出的、以及图2所示相关联的标示信息。输入图像的不同标示区域分开地投影到虚拟视点位置，并遵循深度顺序和可靠性准则融合结果。

遵循上面提出的一般方法，使用相应的浮点实际深度数据z₁和z₂，两个主层都投影到分开的颜色或颜色缓冲区l₁和1₂。由此，通过改变一般内插公式(10)创建公共主层l_M，λ，如下：

l_{M, λ} = \{\begin{matrix} (1 - λ) l_{1} + {λl}_{2} & , if z_{λ, 1} and z_{λ, 2} exis t an d | z_{λ, 1} - z_{λ, 2} | < ϵ \\ l_{2} & , if z_{λ, 1} does not exist or z_{λ, 2} > z_{λ, 1} + ϵ \\ l_{1} & , if z_{λ, 2} does not exist or z_{λ, 1} > z_{λ, 2} + ϵ \end{matrix} - - - - (11)

其中ε表示标准差，本试验中设定为1.0，以及z_λ，1和z_λ，2表示投影的中间视点视图的深度值w.r.t。使用这些投影的深度值决定两个颜色值的深度顺序。(11)中的方法保证或是使用每个视点视图的最前方样本，或是如果两个样本具有相似的投影深度值，那么对这两个样本都进行λ-内插。当从一个原始摄像机视点导航到另一个视点时，内插进一步降低了原始视点之间可能的亮度差异，提供了平滑的过渡。图8a中示出投影之后作为结果的公共主层。内插过程(11)还创建了公共浮点深度缓冲区z_M， _λ：

z_M，λ＝min(z_λ，1，z_λ，2)， (12)

在下一个步骤中，前景边界层l_F，1和l_F，2被投影，以及类似于(12)中描述的主层方法创建了颜色l_F，λ和浮点深度z_F，λ的公共层。然后，融合公共主层和前景边界层：

这里，只使用了简单的深度测试：采用任一层的最前方样本，其主要是前景边界样本。除了新的公共颜色层l_FM，λ，类似于(12)创建相关联的深度层z_FM，λ。结果对应于图1b中的模块22的输出。

在投影过程的最后一个步骤中，背景边界层l_B，1和l_B，2被融合为l_B，λ并被投影：

从而类似于(12)创建最终的颜色或颜色1_λ和深度z_λ。使用背景层信息仅仅是为了填补中间视点视图的空洞区域，此步骤对应于图1b中的模块26。由于公共主层l_FM，λ早已覆盖前景物体周围的大多数样本，如图8a中所示，仅仅使用很少的背景边界样本，以及因此原始视点视图的物体边界的颜色失真的样本被省略。已知这些使用简单的3D图像变换算法在背景区域内创建像日冕的假象，利用2中不同的边界层的该分层方法避免了这一点。层投影之后的结果或中间视点视图在图8b中示出。

中间视增强78对应于图1b模块28的功能。该算法的最后一部分提供层投影之后的后加工处理，以及包括校正、清理、和过滤过程。在该阶段绘制的图像中仍可产生两种类型的空洞：微裂纹和更大的空白区域。第一种类型的空洞是微裂纹，其可在整个图像区域产生，由基于图像的3D图像变换的正向映射性质引入。原始图像的每个点分别投影到中间视点，以及一般落在浮点坐标上。该位置量化为整数样本光栅的最近邻位置。让人遗憾的是，量化可使某些未填补的样本可见，如图8a和图8b中细细的黑线所示。在某些情形中，前景区域的这样裂纹可由其他原始图像的背景信息填补。这导致如图4中左边所示的假象，其中背景样本表现出来前景物体。

这样的假象可通过查找深度值来检测，该深度值明显大于水平、垂直、或对角方向的邻近值：

g_hor＝2·z_λ(u_λ，v_λ)-z_λ(u_λ-1，v_λ)-z_λ(u_λ+1，v_λ)

g_ver＝2·z_λ(u_λ，v_λ)-z_λ(u_λ，v_λ-1)-z_λ(u_λ，v_λ+1)

g_diag，1＝2·z_λ(u_λ，v_λ)-z_λ(u_λ-1，v_λ-1)-z_λ(u_λ+1，v_λ+1)

g_diag，2＝2·z_λ(u_λ，v_λ)-z_λ(u_λ+1，v_λ-1)-z_λ(u_λ-1，v_λ+1)

这适用于前景区域内的背景像素。根据定向标准差，计算最大值g_max：

g_max＝max(g_hor，g_ver，g_diag，1，g_diag，2)，(16)

如果g_max超过指定阈值(实验中为40)，那么由邻近颜色值的中值替代颜色值l_λ(u_λ，v_λ)，假定邻近颜色值已经校正了分配的深度值。也在图4中的左边示出这样校正的假象。

第二种类型的空洞包括更大的空白区域。它们要么是由于错误的深度值而产生的，要么是在两个原始视图中被遮挡而在中间视点视图中变得可见的区域。这样的更大空洞一般用邻近有效的背景信息进行直线方向填补，如图4的中间所示。这里，分析两个空洞边界像素的两个相应深度值，以便于查找背景颜色样本从而外推成空洞区域。这种背景像素简单的常量-颜色(constant-color)外推与两个相应深度值之间的非受限线性内插相比产生更好的结果。通常，一个空洞边界像素属于前景物体，且其颜色值将引起颜色渗入到空洞中。该方法为由于深度误差引起的空白区域产生好的填补结果。在填补非遮挡区域的情形中，有时空洞边界像素是前景像素，以及前景颜色被错误地外推到背景空洞中。

这里，稀疏视点的视点视图内插产生了一个基本问题，就是中间视点视图的非遮挡，其中任意视点视图没有有效的原始信息。为此，不存在一般的解决方法。在某些情形中，如果前景物体已经移动足以显示需要的背景信息，那么空洞填补算法可扩展到时间维度，以便于期待先前或未来帧的额外数据。但是，由于无法预测运动程度，因此该方法有局限性，以及并不将其考虑为本实施方法。

最后，沿着边缘低通滤波前景物体从而提供逼真的外观，如图4中右边所示。在原始视图中，由于在图像捕获期间最初的取样和过滤，物体边界样本是前景-背景的颜色混合。在我们的分层方法所绘制的中间视点视图中，通常排除这些混合颜色样本，以便于避免在背景区域产生日冕状的假象。因此，某些前景-背景边界看起来锐化的不自然，就好像前景物体是人为地插入到场景中的。因此，上面提及的Canny边缘检测滤波器[2]应用于中间视点视图的最终深度信息z_λ，从而检测具有深度梯度高于Canny重要阈值η(本实验中η＝50)的边缘。然后颜色缓冲区与对应的明显深度边缘的空间方向的平均三-抽头(three-tap)低通滤波器进行卷积，从而提供跟逼真的外观：

此外，过滤有助于降低沿着深度不连续性的剩余假象。

接下来呈现视合成的例子。在分别过滤和所有的处理步骤之后，图5示出了作为结果的中间视点视图或最终的中间视合成。

这里，两个原始摄像机之间的中间视点视图被合成，即λ＝0.5，在该情形中其对应于两个原始摄像机之间10cm的物理距离。虚拟视点视图品质优良且无可见的假象。

绘制视点视图的细节如图9所示，因此其示出了用于简单融合和我们所提出方法中的中间视点视图的细节。上一行示出了在段0没有引入指定的处理步骤的标准3D图像变换的例子。在前景/背景边界会产生日冕状的伪象。某些深色的前景像素被错误地添加到浅背景区域，这导致物体周围产生典型的日冕状的额外轮廓。进一步，裂纹在前景物体内是可见的。在前景的前向映射过程中错误地留下这些开口的裂纹，以及然后用背景信息错误地填补。这样的假象是通常是不固定的而随时间变化，这导致在绘制视频范围内非常恼人的结果。这可使得整个3DV概念让人无法接受。图9中的下一行示出了使用本发明改进的3D变换处理作为引入段0相应的绘制细节。日冕假象和裂纹被普遍移动。沿着深度不连续性的低通滤波有助于平滑和增强一般图像印象。具有单个图像最少的假象，视频质量明显提高，因此本发明的视合成算法能够构成基于MVD的先进3DV的基础。

视点视图内插的目的是用M个视点视图和MVD表示的深度为3DV系统创建N个输入视点视图。一个例子是Philips自动立体显示器，其中需要具有目距(大约5cm)的9个视点作为输入。对图20中示出的设定而言，在图6中示出了作为芭蕾舞者和霹雳舞者数据集的9个视点视图结果中的五个。这些数据集的摄像机间距是20cm。在两个原始的摄像机之间已经创建了λ＝{1/4，1/2，3/4}的三个中间视点。图6中最左边和最右边图像是原始视点视图。中间的三个图像是未显示任何假象的虚拟视点视图。成对的立体视有效地支持运动视差和3D深度印象。

得出结论，上文提出了基于MVD的先进3DV系统。其有效地支持多视点立体显示器。这种类型的3D显示器能够在客厅环境实现多用户3DV感觉，而无需戴眼睛。MVD可用作该概念的3DV的一般格式，因为与基于MVC或MPEG-C Part 3的可选择概念相比，从数据速率、质量和功能的方面来说，MVD具有明显的优势。但是，该概念结合了许多复杂的处理步骤，其部分仍有待于研究。在这些步骤之中，高质量的中间视合成对使该概念可行而言是至关重要的。已知这样的算法可引入恼人的沿着深度不连续性的假象。因此基于深度图像中的边缘检测(因为这些边缘对应于深度不连续性)，这里提出的方法将输入图像分割成可靠和不可靠区域。分开地处理可靠和不可靠的图像区域，以及依赖于可靠性准则融合结果。引入指定的后加工处理算法从而进一步增强绘制视图质量。该算法包括不同的空洞填补方法，以及沿着所绘制视图的深度不连续性的最终的平滑过滤，从而减少剩余的假象。使用位置相关的混合因子加权不同输入图像的基值。所呈现的结果示出层内的处理将沿着深度不连续性的可靠性信息考虑在内，其明显地减少绘制产生的假象。使用3D图像变换经常产生的日冕状的假象可被普遍地消除。利用提出的算法产生高质量的中间视点视图。据此，所示关于MVD的先进3DV概念范围内的重要结构单元是有效的。除了进一步优化之外，未来的工作将包括改进所有其他的结构单元，例如采集、深度估计、编码、和传输、以及最终的系统集成。

以下部分描述了本发明的第三个实施例。具体地，以下仔细考虑用于多视点3D显示器的视频绘制系统，其中数据表示为分层的深度视频(LDV)。该表示由具有相关联的每-像素深度的一个完整的或中心(central)视频和额外的剩余层构成。因此，只需传输一个完整视点视图和额外的剩余数据。在接收器端使用LDV数据产生显示的所有中间视点视图。使用场景可靠性驱动方法，提出了LDV层提取以及视合成。这里，检测不可靠的图像区域，以及与先前的方法相比较，扩展剩余数据从而在绘制期间减少了不可靠区域的假象。为了提供最大数据覆盖，剩余数据留在其原始位置，而不会朝着中间视点投影。该视合成过程还使用可靠性分析，从而比先前的方法提供更高质量的中间视点视图。作为最终结果，呈现出现存9-视点自动立体显示器的高质量中间视点视图，其证明该LDV方法对先进3D视频(3DV)系统的适合性。

如在本说明书的介绍部分已经描述的，对3D视频日益增长的兴趣已经引起对3D处理链的所有阶段的技术改进，从经由格式表示和编码的捕获到显示和绘制。3D内容显示的一个最普通的方法，尤其地是记录的自然场景内容显示，是图像立体对的同步表示，从而提供逼真的深度印象[17]给用户。为了提供严格的用户环视感导航，生成的立体对应当随着用户头部运动而改变。为此，多视点自动立体显示器是有效的，当用户看到取决于显示前方视点的两个立体视图时，其呈现许多同步视点视图(在当今显示器上呈现9个以上视点)。

在显示器端的所有视点视图都必须是有效的，以便于需要传输所有视点视图(这要求极大的数据速率)或使用复杂的视点扣除(subtraction)和中间视合成方法。后一个方法的一个候选是分层深度视频(LDV)，其允许大大地降低3DV系统的原始数据速率。只传输一个中心视点视图和N个显示视点视图的子集M的剩余信息。此外，传输中间视点视图和剩余子集M的深度数据。如果给定传输数据[15]，那么通过中间视点视图内插在接收器端可产生非传输视点视图。

LDV的由来源自分层-深度图像(LDI)，此方法被认为是使用复杂的场景几何学[33]绘制3D物体的一般方法。在LDIs中，摄像机图像中的每个像素可包含沿着该像素的视线具有颜色值和深度值的多个像素。起先是为立体声录声磁带[33]，后来是为多视点设置[32]调查研究LDI的产生。层次结构的LDI方法也应用于用先进的视点相关的绘制细化的虚拟场景导航。当导航原始视点时，这些方法提供有限的遮挡和非遮挡处理，但在稀疏多视点数据中的视合成中仍表现出问题，也就是空洞填补和沿着不同深度的物体之间的边界出现的日冕状的假象。因此，我们提议使用LDV数据创建的可靠性分析，从而减少这样的假象。

以下，首先示出先进3DV系统的概念。然后，呈现基于层的具有优化的剩余表示形式的LDV数据提取过程。接下来，呈现合成过程，其中再次使用基于层的方法最小化可察觉的假象，从而提供高质量的中间视点视图。最后，示出3DV设置的绘制结果。

进一步，如上面已经描述的，通过同时显示多个视点来观看，3Dv系统能够支持头部运动视差。特别地，一个特定的例子是商用的Philips公司[www.philips.com/3Dsolutions.last visited 04/17/2008]的高分辨率LCD屏幕，其具有倾斜的双凸型透镜工艺和9个同步视点。在图10中示出了利用3D显示器支持头部运动视差的原理。用户在位置1用右眼和左眼分别只看到视点视图1和2。另一个用户在位置3看到视点视图6和7，因此支持多用户3D观看。

假定用户从位置1移动到位置2。现在分别用右眼和左边观看视点视图2和3是可见的。如果V1和V2是具有合适的人眼距离基线的立体对，然后V2和V3等等都如此，在这样的3D显示系统前移动的用户将根据物体的深度察觉到景物中的物体非遮挡和遮挡的3D印象。该运动视差印象将不是无缝的，且不同位置数限制为N-1。

另一方面，如果独立地处理所有视点视图，那么扩展功能导致数据速率大大地增加，即与2D视频相比较N倍的压缩传输比特率。包括视点间预测的多视点视频编码(MVC)通常将整体比特率降低20％，对大多数应用方案而言此降低率似乎太高了。

立体视频(如，2个视点)的有效方法是使用视频加深度(V+D)作为数据格式[7]。近来MPEG发布了已知是MPEG-C Part 3的相应标准。通过第二种视频的基于深度的图像绘制(DIBR)，接收器可从V+D中再生立体视频。在该情形中已经示出可非常有效地压缩深度数据。当提供相同的视觉质量时，V+D的结果比特率远远小于相应的立体视频的比特率。只要需要根据V+D数据(对应于图1中的V1和V2)绘制出接近有效视点视图的一个虚拟视点视图，该概念就很有效。随着距离或虚拟视点数增加，外推假象也增加。因此，V+D并不适合于具有大量视点的3DV系统。

在压缩势方面，更有效的解决方法是多视点+深度(MVD)[34]，其中只有具有深度的视点视图的子集被传输，在接收器侧进行中间视点视图合成。要求更小的数据速率的另一个解决方法是使用这里提出的分层深度视频(LDV)。在LDV中，只有中间视点视图(图10中的V5)和相关联的边视点视图的剩余视频进行传输。因此图1示出先进的基于LDV的3DTV概念(Pos：观察点，R：右眼，L：左眼，V：视点视图/图像，D：深度，RV：剩余视频层，RD：剩余深度层)。

从边视点视图(V1和V9)提取剩余层。对于中间视点视图和边视点视图，精确取样的深度图应该在发送侧产生，连同视频信号一起传播。如以下所描述的，由中间视点视图和边视点视图，产生颜色和深度的剩余信息。要显示的所有其他视点视图通过DIBR在接收器端产生。在以下描述LDV的剩余层提取和视点视图合成。

在有N个视点的多视点应用中，使用有效的所有视点视图信息可以合成中间视点视图。在LDV情形中，只有一个视点视图连同其他视点视图的额外信息的某些片段是有效的。在直接的(straight-forward)LDV提取方法中，一个摄像机视点视图将被投影到其他视点中。

假定具有3个线性平行的摄像机的摄像机系统，中间视点视图被投影到两个边视点中。然后，捕获原始视点视图和所投影的视点视图之间的差异，以便于获得的剩余信息，剩余信息由非遮挡信息构成，因此剩余信息主要集中于沿着前景物体的深度不连续性以及两个边视点的图像边界数据。下面的视合成阶段使用中间视点视图和深度数据加剩余信息的全部信息。但是，该过程导致所有合成的中间视点视图中出现日冕状的假象。为了避免这样的可见假象，提取算法使用分层方法，适用于[30]中的完全中间视合成和[34]中多视点视频+深度数据的细化。在深度缓冲区中提取层，层表明可靠的和不可靠的数据。后者在深度不连续性中出现。层提取使用Canny边缘检测滤波器[2]，并沿着深度不连续性标记7-像素宽的区域。该区域包括前景边界信息和背景边界信息。

与[34]相比较，LDV只需要背景边界层，由于只有单个前景物体留在中间视点视图中，所以LDV数据提取不需要分离的前景边界层。在图11中用绿色示出了背景边界层标记。因此，图11示出了中间视点视图中沿着的明显深度不连续性的背景层分配(白色)。

在下一个步骤中，具有颜色和深度的中间视点视图被投影到两个边视点中，省略了背景边界层，如图12所示，因此，图12示出了中间视点视图到两个边视点的投影。这对应于图1c中的模块46。

以这种方式，非遮挡区域(以图12中沿着前景物体和图像边界的白色示出，对应于图1c中50)变得更大，最终还导致边视点视图中的剩余区域更大。由于正向投影过程，小的非覆盖区域也变得可见，其可通过裂纹去除过滤(中值过滤，其对前景区域的外露层背景深度值进行操作，对照图1c中的模块58)消除。为此，识别出一个-像素-宽的未分配深度值，且由有效值包围。然后颜色值和深度值由这些邻近的有效值进行内插。该填补之后，只有保留真实的非遮挡区域(对应于图1c中的50)，如图13所示，因此图13示出了投影的中间视点视图的数据填补。

使用此信息从边视点视图中提取(或确定，如图1c中的模块54)需要的剩余信息。这里，捕获边视点视图和所投影的中间视点视图之间的排除差异从而获得信息，如图14中所示，因此图14示出两个边视点视图中的剩余数据。换句话说，图13的非遮挡区域覆盖这些边视点视图的区域被选择插入到信号32中。

那意味着，剩余数据存在，其中投影的和内插的主视点视图没有有效信息(图13中白色区域)。由于之前提及的中间视点视图中的背景边界层的扣除，剩余信息稍微大于纯非遮挡区域。因此，因为沿着物体边界的颜色假象减少，剩余数据中的额外信息是有效的。此外，该剩余数据的提取应用于颜色数据和深度数据。

这包括LDV提取过程，并给出最终的LDV数据格式(作为图1c中的信号32的例子)用于传输，其由以下构成：

-颜色和深度的完全中间视点视图

-颜色和深度的剩余边视点视图

-额外的几何参数，像摄像机参数和现实的深度范围参数

考虑到如果MVD表示，3个具有相应深度图的视点视图应被传输，以便于支持由LDV表示提供的相同功能。关于LDV，边视点视图减少为如图14所示的剩余部分，这将导致数据速率明显降低。但是，增加压缩性能的具体调查研究交给未来的研究。我们期望通过分层方法可稍微提高数据速率，因为区域略微重叠从而避免了日冕状的假象。关于提高比特率的具体成本仍需进一步调查研究。

为了查找在数据覆盖和可能的压缩方面最理想的剩余数据表示，已经调查研究了两个变体：剩余数据融合到一个缓冲区和朝着中间视点投影剩余数据。图15中左上角示出第一个变体。这里，两个边视点视图的剩余数据可任意重叠，如图15中右上角的红色区域所表明的。由于边视点视图中不同的颜色或亮度，这可导致失真，这些不同的颜色或亮度在合成视中也是可见的。换句话说，图15示出了剩余数据变体：融合的剩余颜色数据(上行)vs融合的投射颜色(下行)和相关联的重叠区域标记(下行)。

在第二个变体中，剩余信息朝着中间视点投影，以便于更好地将两个边视点视图中的剩余数据排成直线。这里，但是，由于投影产生的相当大的信息丢失会发生在单个剩余缓冲区和融合的缓冲区形式中，如图15的左下角所示：这里，与图15上行相比较，整个边界数据已经消失。如果遵循该方法，要么在视合成期间需要外推该数据，或是需要更大的剩余缓冲区，以为所有信息提供空间。此外，已经标记数据重叠以示出更多的信息重叠在该变体中，这表明合成过程中出现更多可见的假象。

接收LDV数据之后，应用视合成算法产生中间视点视图。

视合成由三部分构成，类似于[34]：层提取(边缘检测以及划分为可靠区域和边界区域)、层投影(分离DIBR的区域及融合)、和中间视增强(校正、清理、和过滤)。这些步骤类似于完全多视点+深度中间视合成，但它的实施还需要适应LDV。

再一次，首先进行层提取。为了应用自由视点导航，在[30]中已经调查研究了对分层方法起作用的思想，其中7-样本-宽的边界层区域标记为沿着检测边缘不可靠。与[30]相比较，该区域被分割为前景和背景边界层，分别如图2所示的蓝色和绿色区域，从而允许不同的处理，如下一个子段中所示。

然后进行层投影。中间视点视图和剩余信息被投影到中间视点进行合成。

中间视投影实施为标准的基于图像的3D图像变换：首先，使用具有摄像机标定和实际深度信息的相关联的深度值，将原始2D视图样本投影到3D空间。其次，将作为结果的3D世界点正向投影到要产生的中间视点。由两个相关原始视点视图的矩阵使用位置相关参数λ∈[0...1]内插第二个步骤的投影矩阵，该投影矩阵限定了虚拟视点位置，其中例如λ＝0.5定义了中间位置。这是用除了旋转参数以外的所有摄像机参数进行线性内插，旋转参数要求球面线性内插[24]保持旋转矩阵的正交性。

遵循该方法，在中间视点视图和每个边视点视图之间分别内插视点视图。通过将中间视点视图的主层投影到中间颜色缓冲区l_i和相应的浮点深度数据d_i开始进行层投影。然后，合适的边视点视图中的剩余数据也投影到中间视点，并用于填补l_i和d_i的非封闭区域。作为结果的公共(common)主层l_i在图16中示出。

在下一个步骤中，中间视点视图的前景边界层被投影并与公共主层融合。这也应用于颜色和浮点深度。关于融合，仅使用简单的测试：采用任一层的最前方样本，其主要是前景边界样本。换句话说，图16示出了投影之后的公共主层。

在最后一个步骤中，投影背景边界层。此信息仅用来填补中间视点视图的剩余空洞。由于公共主层连同前景层早已覆盖大多数样本，如图16中所示，只使用很少的背景边界样本。因此，省略原始视点视图物体边界的颜色失真样本，其引起背景区域内日冕状的假象。在本发明的LDV数据提取算法中，剩余信息被扩展，这样在失真背景边界层进行投影之前，剩余信息早已覆盖那些关键(critical)区域。

最后进行中间视增强。该算法的最后一部分类似于[34]，应用合成视的校正、清理、和过滤。这里，可产生两种类型的空洞：微裂纹和更大的空白区域。裂纹是由投影的正向图像变换性质引起的。在深度缓冲区检测裂纹，如深度缓冲区中细细的线，这些深度缓冲区与邻近深度值相比较具有相当不同的值。检测之后，在颜色缓冲区中由邻近值来填补裂纹。

第二种类型的空洞包括更大的空白区域。它们要么是由于错误的深度值而产生的，要么是在两个原始视点视图中被遮挡而在中间视点视图中变得可见的区域。这里，分析沿着空洞边界的相应深度值，以便于找到颜色样本，从而外推到空洞区域。当该方法使得很好地填补了由于深度误差引起的空白区域时，有时错误地根据前景信息填补非遮挡区域，因此显示错误的颜色。

最后，沿着边缘低通滤波前景物体，从而提供逼真的外观。在原始视点视图中，由于在图像捕获期间初始的取样和过滤，物体边界样本是前景和背景物体的颜色混合。在本发明分层方法所绘制的中间视点视图中，通常排除这些混合颜色样本，为的是避免背景中出现日冕状的假象。因此，某些前景-背景边界看起来锐化的不自然，就好像前景物体是人为地插入到场景中的。因此，上面提及的Canny边缘检测滤波器[2]应用于最终的深度信息以便于识别出边缘，平均低通滤波应用于相应的颜色样本以便于提供更逼真的外观。此外，过滤有助于减少沿着深度不连续性的剩余假象。

在图17中示出了使用中间视点视图和剩余边视点视图数据中的LDV数据重构边视点视图。换句话说，图17示出了使用中间视点视图+左剩余数据(左边)和中间视点视图+右剩余数据(右边)过滤之后的最终视点视图合成。

再生的边视点视图具有很好的质量，没有很强的可见失真(像日冕的假象)。由于提出的LDV提取过程，这些假象受到了抑制，其中剩余层数据被扩展了。该方法的优点在图18中的放大区域示出，其中具有未扩展的剩余数据的经典直接LDV方法与本发明的方法进行了比较。换句话说，图18示出了经典的LDV(左边)和我们所述具有扩展剩余层的LDV方法(右边)之间的比较。

但是，由于LDV数据只使用一个中间视点视图连同边视点视图的剩余数据的有限性质，，某些色差是可见的。LDV和完全多视点视频加深度(MVD)的视合成的直接比较在图19中示出。换句话说，图19示出了LDV(左边)和MVD(右边)的中间视合成之间的比较。

LDV的中间视点视图显示出某些色差，例如，图19中左边芭蕾舞者左边的像阴影的区域，而MVD的中间视点视图没有显示出这样的假象。

视点内插器的目的是用M个视点加深度的MVD表示为3DV系统创建N个输入视点。一个例子是Philips自动立体显示器，其中需要具有目距(大约5cm)的九个视点作为输入。对于这样的设置，在图6中示出了作为芭蕾舞者和霹雳舞者数据集中九个视点视图结果的五个。这里，示出了每个第二视点，其包括中心视点视图、以及合成的边视点视图、和中间视点视图。凭借九个视点，成对的立体视点视图有效地支持运动视差和3D深度印象。

概括第三个实施例，已经呈现了先进3D视频系统的分层-深度视频(LDV)表示格式。示出3D视频系统概念之后，用三部分摄像机设置来说明LDV数据的产生，其中连同两个边摄像机的剩余信息一起使用中心摄像机的完全图像数据。为了最少化沿着物体边界的可见假象，使用基于分层的方法获得沿着这样的边界的不可靠区域的剩余信息。因此，剩余数据略微覆盖的像素多于投影的中心视点视图和边视点视图之间仅仅是非遮挡差异将生成的像素。

对于在3D显示器的视合成，也使用基于分层的方法减少可见的假象。首先，中心视点的可靠信息被投影到所期望的中间视点视图中，接着是相关联的边视点的剩余信息，以便于创建主层。随后，中心视点视图的剩余不可靠信息被投影到前景和背景边界层，并与主层不同地融合从而减少可视的假象。最后，应用以沿着深度值明显不同的物体边界的空洞填补和低通滤波的形式的视增强，从而提高中间视点视图的外观。

用所引入的方法，基于LDV为所描述的3D视频概念示范了质量优良的中间视合成。就LDV方法在非遮挡区域的不同颜色亮度而言，MVD的对照只示出了较小的退步。

未来的工作将包括所提出的LDV格式的有效编码方法。

因此，上面实施例形式，特别地，用于基于图像绘制(IBR)环境的质量增强的算法，其中一些使用深度不连续性、空洞填补、和非遮挡处理的特定处理。这些实施例的某些可用于先进的3D视频应用中。这样的应用包括支持宽范围自动立体显示器，例如，同时支持九个以上视点以及宽范围的自由视点导航。后两个可依赖于组合多种视频和相关联的每像素深度数据的数据格式。在多视点视频加深度(MVD)格式中，可使用完全视频和完全深度图视频。在分层深度视频(LDV)格式中，仅仅使用一个完全视频、相关联的完全深度图视频、和一个以上具有背景层深度图的额外背景层。特别地，上面描述的实施例在基于深度的中间视合成中很有用，如基于图像的绘制(IBR)或基于深度的图像绘制(DIBR)。因此，实施例可用于产生任意视点视图，从而支持设想的应用。但是，上面描述的实施例能够克服这些问题，以及有效地处理这样的DIBR算法产生的必然物，无论是对MVD还是LDV。这些问题和必然物可包括由于不同原因沿着深度不连续性出现的假象，由于正向映射绘制方法而进行空洞填补产生的必然物、以及最后输入数据中无效的非遮挡区域的处理/填补。上面描述的实施例，以各种方式处理这些问题。例如，为了减少假象，将指定的边界处理用于深度不连续性。在深度图像中通过边缘检测来检测深度不连续性。图像被划分为可靠区域和不可靠区域，前者是不沿着那些深度不连续性的区域，后者是沿着那些检测的深度不连续性的区域。可靠区域使用DIBR进行处理，而不可靠区域使用指定的/不同的操作处理。进一步划分为前景不可靠区域和背景不可靠区域，这进一步提高了质量效果。所有区域被分开进行不同地处理。最后，提出了将所有经不同处理的图像区域融合为最终的输出图像的过程。此外，已经描述了指定的空洞填补算法处理正向投影问题。最后，上面已经示出了用于填补非遮挡区域的有效算法。

应当注意的是，可对上述实施例做多种修改。例如，在第二个实施例中提出的LDV提取过程可实施，以便于为V1和V9传输的信息表明划分为非边界、背景边界区域和前景边界区域。此外或可选地，LDV提取过程还可实施，以便于为V5传输的信息也表明划分为非边界、背景边界区域和前景边界区域，以便于就边缘检测和划分为背景和前景而言，不需要再次进行各自的层提取过程。同样的可应用于上面描述的MVD实施例中。进一步，根据各自的应用，上面描述的增强、校正、清理、和过滤处理可省略。例如，可以以另外的方式进行投影，那样的话不会产生裂纹。特别地，可以更简单地进行投影。这特别地适用于以下情形，例如，线性地排列视点，以及视点处于平行轴上。例如，可通过仅仅沿着基线将像素移动到中间图像中进行投影。移动量可取决于中间视点和深度/差异的偏差。因此，例如，可通过使用3D投影的投影矩阵或通过指定平行摄像机排列的简单像素移动来进行投影。进一步，可用更容易的方法来替代前景边界部分和背景边界部分的划分，根据此更简单的方法，可关于背景区域如以上所述进行处理作为整体的边界区域、或另一个沿着前景和背景的边界部分。

而且，尽管在上面的实施例中，深度信息已经分别提供给如在接收器一方的中间视合成设备，和如传输一方的多视点数据信号提取设备，例如，由闪光数计时(time-of-light)摄像机提供的，这些设备可被构造为根据视点视图估计深度信息，即像素样本表示本身的亮度和/或色度信息。这特别适用于接收器一方。可在接收器产生深度信息，而不是从多视点信号中获取该信息。相应地，多视点信号并没有深度信息。

尽管设备环境中已经描述了某些方面，很明显这些方面还表示相应方法的描述，其中模块或设备对应于方法步骤或方法步骤的特征。相似地，方法步骤环境中描述的方面还表示对应模块或物料项目或相应设备的特征。

发明的已编码的音频信号可存储在数字存储介质中，或可在传输介质中传输，例如无线传输介质或如因特网(Internet)的有线传输介质。

取决于特定的实施要求，可以硬件或软件的方式实施本发明的实施例。实施可通过使用数字存储介质来实施，例如软盘、DVD、蓝光光盘(Blue-Ray)、CD、ROM、PROM、EPROM、EEPROM或闪存，使电子可读控制信号存储在以上存储介质上，其与(或能够与)可编程计算机系统协作，一般与执行各自的方法。因此，数字存储介质可以是计算机可读的。

根据本发明某些实施例包含具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，从而执行这里描述的一个方法。

一般地，本发明的实施例可以作为具有程序代码的计算机程序产品来实施，当计算机程序产品运行在计算机时，这些程序代码有效地执行一个方法。例如程序代码可存储在机器可读载体上。

其他实施例包括存储在机器可读载体中的计算机程序，用来执行这里描述的一个方法。

换句话说，当计算机程序在计算机中运行时，发明方法的实施例因此是计算机程序，其具有执行这里描述的一个方法的计算机程序。

本发明方法的进一步实施例因此是数据载体(或数字存储介质、或计算机可读介质)，包括其上记录的计算机程序，用于执行这里描述的一个方法。

本发明方法的进一步实施例因此是数据流或一系列信号，其表示计算机程序，用于执行这里描述的一个方法。例如，数据流或一系列信号可构造为通过数据通信连接进行转移，例如通过因特网(Internet)。

进一步实施例包含处理装置，例如计算机、或可编程逻辑器件，其构造为或适用于执行这里描述的一个方法。

进一步实施例包含计算机，其上安装有计算机程序，用于执行这里描述的一个方法。

在某些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用于执行这里描述的方法的某些或所有功能。在某些实施例中，现场可编程门阵列可与微处理器协作，为的是执行这里描述的一个方法。一般地，可通过任意硬件设备优选地执行方法。

虽然本发明已经描述了一些优选的实施例，仍然存在改变、置换、和等价物，这些都在本发明的范畴内。还应当注意的是，实施方法、和本发明的构成可以有许多可选择的方式。因此为了使权利要求在本发明的实际精神和范畴内，权利要求解释为包括所有这样的改变、置换、或等价物。

参考书目

[1]S.Avidan，A.Shashua，“Novel view synthesis in tensorspace”.In Conference on Computer Vision and Pattern Recognition，pp 1034-1040，San Juan，Puerto Rico，1997.

[2]J.F.Canny，“A computational approach to edge detection”，IEEE Trans.Pattern Analysis and Machine Intelligence，Vol 8，No.6，pp.679-698，November 1986.

[3]G.-C.Chang and W.-N.Lie，“Multi-view image compressionand intermediate view synthesis for stereoscopic application”，IEEEInternational Symposium on Circuits and Systems，ISCAS 2000，pp.277-280，2000.

[4]N.L.Chang，A.Zakhor，“A multivalued representation forview synthesis”，Proc.IEEE International Conference on ImageProcessing(ICIP’99)，pp.5-5-509，Oct.1999.

[5]S.Chen，L.Williams，“View interpolation for imagesynthesis”，Computer Graphics(SIGGRAPH’93)，pp.279-288，1993.

[6]O.Faugeras，“Three-dimensional computer vision：Ageometric viewpoint”，MIT Press，Cambridge，Massachusetts，1993.

[7]C.Fehn，P.Kauff，M.Op de Beeck，F.Ernst，W.Ijsselsteijn，M.Pollefeys，L.Vangool，E.Ofek，和I.Sexton，“An Evolutionary andOptimised Approach on 3D-TV”，IBC 2002，Int.BroadcastConvention，Amsterdam，Netherlands，Sept.2002.

[8]F.Forsters，M.Lang，和B.Radig，“Real-time Range Imagingfor Dynamic Scenes using colour-edge based Structured Light”，inProc.Int.Conf.Pattern Recognition，vol.3，pp.645-628，2002.

[9]R.Hartley，A.Zisserman，“Multiple View Geometry inComputer Vision”，Cambridge University Press，2003.

[10]ISO/IEC JTC1/SC29/WG11“Description of ExplorationExperiments in 3D Video”，Doc.N9596，Antalya，Turkey，Jan.2008.

[11]ISO/IEC JTC1/SC29/WG11，“Text of ISO/IEC FDIS23002-3 Representation of Auxiliary Video and SupplementalInformation”，Doc.N8768，Marrakech，Morocco，January 2007.

[12]ISO/IEC JTC1/SC29/WG11，“Text of ISO/IEC 13818-1：2003/FDAM2 Carriage of Auxiliary Data”，Doc，N8799，Marrakech，Morocco，January 2007.

[13]Jong Dae Oh；Siwei Ma；Kuo，C.-C.J.，“Disparity Estimationand Virtual View Synthesis from Stereo Video”，IEEE IternationalSymposium on Circuits and Systems，ISCAS 2007，pp.993-996，May2007.

[14]A.Katayama，K.Tanaka，T.Oshino，和H.Tamura，“Aviewpoint dependent stereoscopic display using interpolation ofmulti-viewpoint images”，S.Fisher，J.Merritt，和B.Bolas，editors，Stereoscopic Displays and Virtual Reality Systems II，Proc，SPIE，vol.2409，pp.11-20，1995.

[15]P.Kauff，N.Atzpadin，C.Fehn，M.Muller，O.Schreer，A.Smolic，和R.Tanger，“Depth Map Creation and Image BasedRendering for Advanced 3DTV Services Providing Interoperability andScalability”，Signal Processing：Image Communication.Special Issueon 3DTV，February 2007.

[16]R.Koch，M.Pollefeys和L.Van Gool，“Multi ViewpointStereo from Uncalibrated Video Sequences”，proc.EuropeanConference on Computer Vision，ECCV’98，LNCS，Springer-Verlag，Freiburg，1998.

[17]J.Konrad and M.Halle，“3-D Display and SignalProcessing-An Answer to 3-D Ills？”，IEEE Signal ProcessingMagazine，Vol.24，No.6，November 2007.

[18]Y.Li，C.K.Tang，和H.-Y.Shum，“Efficient dense depthestimation from dense multiperspective panoramas，”in Proc.International Conference on Computer Vision(ICCV)，Vancouver，B.C.，Canada，Jul.2001，pp.119-126.

[19]J.S.McVeigh，M.Siegel，和A.Jordan，“Intermediate viewsynthesis considering occluded and ambiguously referenced imageregions”，Signal Processing：Image Communication，Vol.9，pp.21-28，1996.

[20]P.Merkle，A.Smolic，K.Mueller，和T.Wiegand，“EfficientPrediction Structures for Multiview Video Coding”，invited paper，Proc.IEEE Trans.on Circuits and Systems for Video Technology，Vol.17，No.11，November 2007.

[21]M.Morimoto，K.Fujii，“A view synthesis method based onobject coding and simple disparity model”，IEEE InternationalSymposium on Communications and Information Technology，ISCIT2004，vol.2，pp.853-856，Oct.2004.

[22]J.Salvi，J.Pages，和J.Battle，“Patter Codification Strategiesin Structured Light Systems”，Pattern Recognition，vol.37，no.4，pp.827-849，2004.

[23]D.Scharstein，“Stereo vision for view synthesis”，IEEEComputer Society Conference on Computer Vision and PatternRecognition(CVPR’96)，pp.852-857，San Francisco，California，1996.

[24]K.Shoemake，“Animating Rotation with QuaternionCurves”，ACMSIGGRAPH，San Francisco，USA，July，1985.

[25]A.Smolic，K.muller，P.Merkle，C.Fehn，P.Kauff，P.Eisert，和T.Wiegand，“3D Video and Free Viewpoint Video-Technologies，Applications and MPEG Standards”，ICME 2006，IEEE InternationalConference on Multimedia and Expo，Toronto，Ontario，Canada，July2006.

[26]C.Strecha，T.Tuytelaars，和L.Van Gool，“Dense Matching ofMultiple wide-baseline Views，”In Proc.9th IEEE InternationalConference on Computer Vision，pp.1194-1201，2003.

[27]R.Y.Tsai，“A versatile camera calibration technique forhigh-accuracy 3D machine vision metrology using off-the-shelf TVcamera and lenses”，IEEE Journal of Robotics and Automation，vol.RA-3，no.4，1987.

[28]www.philips.com/3Dsolutions.-last visited 31/03/2008.

[29]J.Woetzel和R.Koch，“Real-time multi-stereo depthestimation on GPU with approximate discontinuity handling”，1stEuropean Conference on Visual Media Production(CVMP 2004)，London，United Kingdom，March 2004.

[30]C.L.Zitnick，S.B.kang，M.Uyttendaele，S.Winder，和R.Szeliski，“High-Quality Video View Interpolation Using a LayeredRepresentation”，ACM SIGGRAPH and ACM Trans.on Graphics，LosAngeles，CA，USA，August 2004.

[31]C.Chang，G.Bishop，和A.Lastra，“LDI tree：A hierarchicalrepresentation for image-based rendering，”in Proceedings of ACMSIGGRAPH’99，Los Angeles，CA USA，1999，pp.291-298.

[32]X.Cheng，L.Sun，S.Yang，“Generation of Layered DepthImages from Multi-View Video”，Proc.IEEE International Conferenceon Image Processing(ICIP’07)，San Antonio，TX，USA，vol.5，pp：225-2228，Sept.2007.

[33]J.Shade，S.Gortler，L.Hey，和R.Szeliski，“Layered depthimages”，in Proceedings of ACM SIGGRAPH’98，Orlando，Florida，1998，pp.231-242.

[34]A.Smolic，K.Muller，K.Dix，P.Merkle，P.Kauff，和T.Wiegand，“Intermediate View Interpolation based on Multi-View plus Depth forAdvanced 3D Video System”，to be published in Proc.IEEEInternational Conference on Image Processing(ICIP’08)，San Diego，CA，USA，Oct.2008.

Claims

1.一种中间视合成设备，用于将对应于第一视点的第一图像和对应于第二视点的第二图像合成为中间视点图像，所述第二视点不同于所述第一视点，所述第一图像和第二图像包含深度信息，其中所述第二图像被划分为非边界部分和前景/背景边界区域，其中，所述第二图像的所述前景/背景边界区域包括前景边界部分和与所述前景边界部分分离的背景边界部分，以及，其中所述中间视合成设备被构造为将所述第一图像和所述第二图像投影和融合到中间视点，从而获得所述中间视点图像，其中，使用所述前景/背景边界区域的所述背景边界部分来仅填补空洞，否则所述空洞会在所述中间视点图像中产生，以及使用所述前景/背景边界区域的前景边界部分，从而投影和融合到所述中间视点，其中，所述中间视合成设备包括：

用于将所述第二图像的所述非边界部分和所述前景边界部分连同所述第一图像的至少一部分投影和融合到所述中间视点，从而获得初始的中间视点图像的装置；以及

用于将所述第二图像的所述背景边界部分投影到所述中间视点，以及通过所投影的所述第二图像的所述背景边界部分来填补所述初始的中间视点图像中的空洞的装置。

2.根据权利要求1所述的中间视合成设备，进一步包含：

用于检测所述第二图像中的所述前景/背景边界区域的装置；

用于将所述第二图像的所述前景/背景边界区域划分为所述前景边界部分和所述背景边界部分的装置，这样所述第二图像被划分为所述非边界部分、所述前景边界部分和所述背景边界部分。

3.根据权利要求1所述的中间视合成设备，其中，所述中间视合成设备被构造为从多视点数据信号获得将所述第二图像的所述非边界部分、所述前景边界部分和所述背景边界部分区别开的层信息。

4.根据权利要求2所述的中间视合成设备，其中，用于检测的所述装置被构造为还检测所述第一图像的前景/背景边界区域，用于划分的所述装置被构造为也将所述第一图像的前景/背景边界区域划分为前景边界部分和背景边界部分，这样所述第一图像也被划分为非边界部分、前景边界部分和背景边界部分，以及用于投影和融合的装置被构造为将第一和第二图像的非边界部分和前景边界部分投影和融合到所述中间视点，从而获得所述初始的中间视点图像，以及用于投影和填补的装置被构造为将所述第一和第二图像的背景边界部分投影到所述中间视点，以及通过所投影的所述第一和第二图像的背景边界部分来填补所述初始的中间视点图像中的空洞。

5.根据权利要求1所述的中间视合成设备，其中，所述中间视合成设备被构造为从多视点数据信号获得至少将所述第一图像的非边界部分和背景边界部分区别开的层信息，其中用于投影和融合的装置被构造为将所述第二图像的非边界部分和前景边界部分与所述第一图像的非边界部分投影和融合到所述中间视点，从而获得所述初始的中间视点图像，以及用于投影和填补的装置被构造为将所述第一和第二图像的背景边界部分投影到所述中间视点，以及通过所投影的所述第一和第二图像的背景边界部分来填补所述初始的中间视点图像中的空洞。

6.根据权利要求1所述的中间视合成设备，其中，所述中间视合成设备被构造为获得将所述第一图像的非边界部分、前景边界部分和背景边界部分区别开的层信息，其中，用于投影和融合的装置被构造为将所述第一和第二图像的非边界部分和前景边界部分投影和融合到中间视点，从而获得所述初始的中间视点图像，以及用于投影和填补的装置被构造为将所述第一和第二图像的背景边界部分投影到所述中间视点，以及通过所投影的所述第一和第二图像的背景边界部分来填补所述初始的中间视点图像中的空洞。

7.根据权利要求2所述的中间视合成设备，其中，用于检测前景/背景边界区域的所述装置包括用于在深度信息中检测边缘的边缘检测器。

8.根据权利要求2所述的中间视合成设备，其中，所述用于划分的装置被构造为将作为所述前景/背景边界区域的沿边缘周围的n-样本-宽的区域分割为前景边界部分和背景边界部分。

9.根据权利要求2所述的中间视合成设备，其中，所述用于划分的装置被构造为通过将前景/背景边界区域的一样本的深度信息的深度与一阈值比较来执行分割，从而确定所述样本属于前景边界部分还是属于背景边界部分。

10.根据权利要求9所述的中间视合成设备，其中，所述用于划分的装置被构造为通过计算邻近所述样本的前景/背景边界区域的样本的深度信息的深度值的集中趋势来获得所述阈值。

11.根据权利要求4所述的中间视合成设备，其中，所述用于投影和融合的装置被构造为将所述第一和第二图像的非边界部分投影和融合到中间视点，从而获得非边界中间视点图像，其中所述非边界部分的融合包括取所述第一和第二图像之间的平均值，以及将所述第一和第二图像的前景边界部分投影和融合到非边界中间视点图像中，其中所述前景边界部分的融合包括在所述非边界中间视点图像的样本和由所述第一和第二图像的前景边界部分投影产生的位于一处的样本之间选择，而不是取其平均值。

12.根据权利要求1所述的中间视合成设备，其中，所述用于投影和融合的装置与所述用于投影和填补的装置被构造为通过使用相关联的深度信息将样本从2D投影到3D，从而获得3D世界点，以及将所述3D世界点投影到中间视点来执行到所述中间视点的各投影。

13.根据权利要求12所述的中间视合成设备，其中，所述用于投影和融合的装置与所述用于投影和填补的装置被构造为通过在所述第一视点和所述第二视点的投影矩阵之间内插来计算投影矩阵，以及通过使用所述计算得到的投影矩阵执行所述3D世界点的投影。

14.根据权利要求1所述的中间视合成设备，其中，所述用于投影和融合的装置与所述用于投影和填补的装置被构造为通过在像素平面内按照取决于偏离所述中间视点的量移动样本位置来执行到所述中间视点的各投影。

15.根据权利要求1所述的中间视合成设备，进一步包括：

通过过滤和/或外推到所述中间视点图像的剩余空洞来增强所述中间视点图像的装置。

16.根据权利要求1所述的中间视合成设备，进一步包括：

通过检测所述中间视点图像的前景/背景边界，以及在所述中间视点图像的前景/背景边界区域内低通滤波来增强所述中间视点图像的装置。

17.根据权利要求1所述的中间视合成设备，其中，第一和第二图像是MVD或LDV视频的部分。

18.根据权利要求1所述的中间视合成设备，其中，第一和第二图像具有与所述深度信息相关联的颜色信息。

19.根据权利要求1所述的中间视合成设备，所述中间视合成设备是3DTV显示系统的一部分。

20.一种多视点数据信号提取设备，用于从多视点表示中提取多视点数据信号，所述多视点表示包括对应于第一视点的第一图像和对应于第二视点的第二图像，所述第二视点不同于第一视点，第一和第二图像包含深度信息，所述多视点数据信号提取设备包括：

用于检测所述第二图像的前景/背景边界的装置；

用于确定所述第二图像沿所述前景/背景边界的去除左边边界部分的装置；

用于将无所述去除左边边界部分的所述第二图像投影到所述第一视点，从而获得具有非遮挡区域的所述第二图像的投影变体的装置；以及

用于将所述第二图像连同所述第一图像的一部分插入到所述多视点数据信号中的装置，所述第一图像的部分取决于所述非遮挡区域（50）在所述第二图像（36）的投影变体（48）内的位置。

21.根据权利要求20所述的多视点数据信号提取设备，进一步包括用于将被插入到多视点数据信号中的所述第一图像的部分确定为所述第二图像的投影变体内的所述非遮挡区域所延伸覆及的所述第一图像的区域的装置。

22.根据权利要求20所述的多视点数据信号提取设备，其中，用于投影的装置被构造为将无所述去除左边边界部分的所述第二图像也投影到第三视点，从而获得具有非遮挡区域的所述第二图像的进一步投影变体，以及其中，用于插入的装置被构造为将所述第二图像、所述第一图像的所述部分和第三图像的部分插入到多视点数据信号中，所述第一图像的部分和所述第三图像的部分取决于所述非遮挡区域在所述第二图像的所述进一步投影变体内的位置，其中所述第二视点位于所述第一视点和所述第三视点之间。

23.根据权利要求22所述的多视点数据信号提取设备，其中，用于插入的装置被构造为将层信息插入到多视点数据信号中，所述层信息至少将所述第二图像的非边界部分和所述去除左边边界部分区别开。

24.根据权利要求20所述的多视点数据信号提取设备，进一步包括用于填补由于投影所述第二图像和/或过滤所述第二图像的所述投影变体而产生的微小空洞的装置。

25.根据权利要求20所述的多视点数据信号提取设备，其中，用于插入的装置被构造为丢弃所述第一图像的剩余部分，所述剩余部分与取决于所述非遮挡区域在所述第二图像的投影变体内的位置的部分分离，以及在所述多视点数据信号中以信号表明所述丢弃。

26.根据权利要求20所述的多视点数据信号提取设备，其中，用于检测前景/背景边界的装置包括用于在所述深度信息中检测边缘的边缘检测器。

27.根据权利要求26所述的多视点数据信号提取设备，其中，用于确定的装置被构造为将所述边缘的周围n-样本-宽的区域分割为前景边界部分和背景边界部分，所述背景边界部分限定所述去除左边边界部分。

28.根据权利要求27所述的多视点数据信号提取设备，其中，用于确定的装置被构造为通过将所述n-样本-宽的区域的一样本的深度信息的深度与一阈值比较来进行分割，从而确定该样本属于所述前景边界部分还是属于所述背景边界部分。

29.根据权利要求28所述的多视点数据信号提取设备，其中，用于确定的装置被构造为通过计算邻近所述样本的n-样本-宽区域的样本的深度信息的深度值的集中趋势来获得所述阈值。

30.根据权利要求20所述的多视点数据信号提取设备，其中，用于投影的装置被构造为通过使用相关联的深度信息将样本从2D投影到3D，从而获得3D世界点，并将所述3D世界点投影到中间视点，来执行到所述中间视点的各投影。

31.根据权利要求30所述的多视点数据信号提取设备，其中，所述用于投影的装置被构造为通过在所述第一视点和所述第二视点的投影矩阵之间内插来计算投影矩阵，以及通过使用所述计算得到的投影矩阵执行所述3D世界点的投影。

32.根据权利要求20所述的多视点数据信号提取设备，其中，所述用于投影的装置被构造为通过在像素平面内按照取决于偏离中间视点的量移动样本位置来执行到所述中间视点的各投影。

33.一种中间视合成方法，用于由对应于第一视点的第一图像和对应于第二视点的第二图像合成为中间视点图像，所述第二视点不同于所述第一视点，第一和第二图像包含深度信息，其中所述第二图像被划分为非边界部分和前景/背景边界区域，其中，所述第二图像的所述前景/背景边界区域包括前景边界部分和与所述前景边界部分分离的背景边界部分，以及，其中所述中间视合成方法包括：

将所述第二图像的所述非边界部分和所述前景边界部分连同所述第一图像的至少部分投影和融合到所述中间视点，从而获得初始的中间视点图像；以及

将所述第二图像的所述背景边界部分投影到所述中间视点，以及通过所投影的所述第二图像的所述背景边界部分来填补所述初始的中间视点图像中的空洞。

34.一种多视点数据信号提取方法，用于从多视点表示中提取所述多视点数据信号，所述多视点表示包含对应于第一视点的第一图像和对应于第二视点的第二图像，所述第二视点不同于所述第一视点，第一和第二图像包含深度信息，所述多视点数据信号提取方法包括：

检测所述第二图像的前景/背景边界；

确定沿着所述前景/背景边界的去除左边边界部分；

将无所述去除左边边界部分的所述第二图像投影到所述第一视点，从而获得具有非遮挡区域的所述第二图像的投影变体；以及

将所述第二图像连同所述第一图像的部分插入到所述多视点数据信号中，所述第一图像的部分取决于所述非遮挡区域在所述第二图像的投影变体内的位置。