HK1170099B

HK1170099B - 帧兼容三维传输中全分辨率图形、菜单和字幕的支持

Info

Publication number: HK1170099B
Application number: HK12110834.5A
Authority: HK
Inventors: 亚历山德罗斯．图拉皮斯; 凯文．J．斯特茨
Original assignee: Oppo广东移动通信有限公司
Priority date: 2009-07-04
Filing date: 2010-06-30
Publication date: 2016-01-22

Description

帧兼容三维传输中全分辨率图形、菜单和字幕的支持

相关申请的交叉引用

本申请要求2009年7月4日提交的美国专利临时申请61/223,027号和2009年8月26日提交的美国专利临时申请61/237,150号的优先权，这二者各自整体经引用合并于此。

技术领域

本公开涉及可伸缩的三维(3D)视频应用。更具体地，其涉及用于在可伸缩3D视频应用中嵌入字幕和/或图形覆盖的方法。

附图说明

图1示出多层3D编码系统的图。

图2示出视频图像的并排打包。

图3示出视频图像的上下打包。

图4示出在并排打包视频图像中嵌入字幕的传统方式。

图5示出在上下打包视频图像中嵌入字幕的传统方式。

图6示出在并排打包视频图像中嵌入字幕和图形覆盖二者的传统方式。

图7示出在上下打包视频图像中嵌入字幕和图形覆盖二者的传统方式。

图8示出并排帧打包排列的基础层图像。

图9示出并排帧打包排列的增强层图像。

图10示出根据本公开实施例的具有字幕的基础层。

图11示出根据本公开实施例的具有字幕的增强层。

图12示出本公开的实施例，其中，示出了可伸缩、全分辨率、帧兼容3D系统中字幕和/或图形覆盖的支持。在将数据复用到单独、左和右视图中之前，在每层中通过适当偏移量分别添加字幕和/或图形覆盖。

图13示出本公开的另一实施例，其中，通过与基础层覆盖生成器相关联的预测模块提供一个或更多增强层的覆盖生成。

图14示出具有字幕文本(再混合之后)的最终左视图。

图15示出具有字幕文本(再混合之后)的最终右视图。

具体实施方式

本公开描述支持可伸缩系统的帧兼容3D传输中全分辨率图形覆盖(例如，图片信息中的图形、菜单、箭头、按钮、标题、横幅、图片)和字幕的系统和方法。

根据第一方面，提供了用于在包括基础层和至少一个增强层的帧兼容3D视频编码系统中嵌入字幕和/或图形覆盖的方法，该方法包括：对基础层和至少一个增强层单独提供字幕和/或图形覆盖。

根据第二方面，提供了用于在包括多个层和至少一个增强层的帧兼容3D视频编码系统中嵌入字幕和/或图形覆盖的方法，该方法包括：对每一层单独提供字幕和/或图形覆盖，其中，根据一个或更多其它层提供的字幕和/或图形覆盖预测从一些层提供的字幕和/或图形覆盖。

根据第三方面，提供了用于在包括基础层和一个或更多增强层的帧兼容3D视频可伸缩系统中嵌入字幕和/或图形覆盖的系统，该系统包括：基础层字幕和/或图形覆盖生成器；以及针对各个一个或更多增强层的一个或更多增强层字幕和/或图形覆盖生成器。

根据第四方面，提供了用于在包括基础层和一个或更多增强层的帧兼容3D视频可伸缩系统中嵌入字幕和/或图形覆盖的系统，该系统包括：基础层字幕和/或图形覆盖生成器；与基础层字幕和/或图形覆盖生成器连接的预测器，该预测器处理基础层字幕和/或图形覆盖并生成一个或更多增强层的增强层字幕和/或图形覆盖。

可伸缩系统包括多个层，基础和若干(一个或更多)增强层，其中，基础层可以实现视频信号在解码时的第一表示。在此场景中，基础层表示基于两个立体视图的帧复用(例如，并排或上下(帧兼容3D))，并在给定每个立体视图的采样过程的情况下实质上分辨率为一半。在可用和被解码的情况下，附加的增强层允许进一步的质量增强和实质上这两个视图的全分辨率信号重建的进一步质量增强。在2009年7月4日提交的美国临时申请61/223,027号中描述了这种系统，其整个内容通过引用合并于此。

可以将本公开的教导应用于视频著作系统、视频编码器和解码器(诸如蓝光播放器、机顶盒、软件播放器等)、显示器以及编码器/解码器芯片。视频著作系统是允许DVD、蓝光或者其它多媒体存储格式(包括在线多媒体格式)编辑和创建的工具。编辑过程可以包括对视频和音频信号的任何修改，诸如不同转变的创建、调整、修剪等，在不同时间间隔对视频剪辑的布置，以及以不同语言对菜单、图形以及字幕的创建等。

按照本公开的实施例，可以使用包括多个层(诸如形成本申请说明书一部分的附录A中所述的基础层和一个或更多增强层)的可伸缩视频编码系统向顾客提供3D视频内容。在基础层中将来自两个单独、子采样视图的3D视频信息使用各种排列(诸如并排、隔行或者上下等)一起复用到单个帧中。

可能使用各种采样方法(诸如水平、竖直以及五点梅花形等)进行了子采样。该层中的复用帧实质上特性与2D视频帧非常相似，并可以使用诸如视频编码标准和编解码器(如，MPEG-2、MPEG-4AVC/H.264以及VC-1等)的传统方法进行编码。可以在没有任何其它硬件辅助的情况下使用单个解码器系统，并使用诸如微极化(micropolarized)显示器的适当显示设备解码该层，使得即使在减小的分辨率，观看者也能够体验3D影片。

如附录A中所示，然而，使用该系统的增强层，可以使得能够进行全分辨率3D信号的重建。实质上，一个或多个增强层包含基础层的创建期间丢失了的来自基础层的缺失信息，诸如样本或频率信息。为了效率的目的，一个或多个增强层由于在当前增强层样本与其它层样本之间存在很高的相关性所以使用基础、和/或先前编码的增强层作为预测器。该过程可以包括可以进一步增加相关性的附加机制，诸如插值滤波器、运动估算和补偿以及加权预测等。在解码器处，在增强层的重建之后，执行将基础层的该数据与增强层的数据组合的附加过程以重建全分辨率3D图像。在本申请的图1中示出了整个过程，在整体经引用并入本文的2009年7月4日提交的美国临时申请61/223,027号中也描述了它。特别是参见说明书的有关部分和图11。

虽然视频信息在该系统中的重要性最高，但其它信息也可以具有高重要性并可以影响用户的3D体验。特别是，可能期望使用可以与视频相关联的适当图形信息向用户提供视频上的图形覆盖和/或字幕信息，包括3D字幕，或加亮显示的特定内容。在要将视频内容封装在诸如DVD或蓝光盘的媒体设备上的情况下，或者甚至在互联网、线缆或者卫星系统上传输的情况下尤其如此。用户将会预期到包括用以通过适当2D和甚至3D菜单导航的能力和存在的这种功能将会在只使用基础层时或在使用所有可用层时可用。

对于基础层，提供这种功能的最简单方法是在著作过程期间，在考虑帧打包方法(例如，并排(见图2、4和6)或上下(见图3、5和7))的同时，创建图形覆盖和/或字幕。

根据本公开的实施例，内容创建器通过考虑使用的3D视频格式著作内容，并复制每个片段的该信息，其中，片段在此处表示对应于某个视图(即，左或右视图)的帧中的区域。也可以在可选地考虑允许对内容创建器进一步灵活性的深度信息的同时呈现(render)这些图形。例如，与左片段相关联的字幕文本(subtitle text)对与右片段相关联的字幕文本的不同偏移量造成文本在与视频信号中其它信息相对的不同深度水平的观看者错觉。事实上可以通过修改这种偏移量向景象内的不同对象分配不同深度。

虽然已经对诸如并排(图2和4)和上下打包(图3和5)信息的帧兼容信号进行了此内容，但按照本公开的实施例，非常期望在使用附录A中涵盖和先前讨论的多层系统时也保留同样功能。

即使在增加这种信息的一个方法会是全分辨率图像的重建之后单独图形引擎的增加的情况下，这也由于如下内容所以使得系统的设计较昂贵和较不灵活：它将会意味着在给定保存不同格式化的基础层图形信息的情况下，在视频内存在附加字幕轨迹，并且在系统中存在附加控制和处理，而使得实施这种解决方案较昂贵。再次可能太复杂的不同方法将会是重新处理基础层信息并且单独提取左和右图像的图形并将它们增加回全分辨率图像。

代替地，按照本公开的教导，提出了在不显著破坏系统设计的情况下，也实现图形信息全分辨率重建的较简单方法。

特别地，代替直接在最终、重建的左和右图像上增加图形元素，在最终视图重建过程以前单独地在基础和增强层信息这二者上增加图形元素。这意味着根据用于视频信号的打包排列在这些层的顶部再次增加图形。更具体地，如果使用并排打包排列生成视频信号，则使用同样排列创建图形，并在基础层和增强层这二者上增加图形(例如，字幕、标题等)。

对于基础层在图8中示出了实例，对于增强层在图9中示出了实例。如图10和图11中也所示，通过只在这两个图像上添加了所有图形之后执行视图重建来合成具有适当全分辨率图形(即，通过与也如何合成实际图像类似地组合基础层和增强层图形生成的图形)的最终单独视图图像。

图12中示出根据本公开的系统和方法，其中，基础层或增强层被解码之后，还创建并在视频数据的上部添加适当图形(例如，交互式图形IG和/或演示图形PG)。然后，将具有覆盖图形的新视频数据复用在一起以生成最终、单独的3D图像，如也在图14和图15中示出的。

转到图12的描述，应当注意：可以分别在图1中示出的系统的地点(1110)、(1120)、(1130)处提供覆盖生成器(710)、(720)、(730)。特别地，如图12中所示，覆盖生成器(710)、(720)、(730)在视频解码器(770)、(780)和(790)的输出处分别作用于图形平面(740)、(750)、(760)。因此，按照本公开的实施例，对基础层和至少一个增强层中的每一个单独提供字幕和/或图形覆盖。

此外，根据本公开的进一步实施例，如本公开中稍后也注意到的，可以通过对基础层数据进行插值提供一个或多个增强层的字幕和/或覆盖图形的生成。

根据本公开的实施例，也将针对基础层对增强层执行的不同采样考虑在内。特别是，对于基础层和对于并排打包，可以通过跳过从列0开始的每隔一个水平像素采样了左视图，而可以通过跳过从列-1开始的每隔一个水平像素采样了右视图。另一方面，反转增强层的采样，即，采样对于左视图从列-1开始且对于右视图从列0开始。在给定基础层和增强层的这些特性的情况下，将会期望也使用确切一样的方法对图形进行采样。

另外，在一些系统中，可以通过禁用抗混叠和/或滤波进行字幕和/或图形覆盖的采样以允许使用基础层和增强层的同样采样方法对字幕和/或图形覆盖进行采样，这将会确保图形的全分辨率重建未丢失任何信息。

在不同实施例中，将可以根据基础层的图形数据，以与视频数据类似的方式预测或重建增强层图形数据。特别是，代替需要多次发送信息，在基础层和增强层这二者中，可以只在基础层中存在数据。然而，图12的覆盖生成器(710)、(720)、(730)或基础层和增强层图形单元这二者可以在不需要执行任何附加呈现的情况下使用同样数据生成或合成图形覆盖信息，诸字幕文本。然后，分别将基础层和合成的增强层图形覆盖添加到基础和增强视频层。

在单独实施例中，增强层单元(720)、(730)可以执行附加的处理(例如，不同滤波或插值/采样)以在不需要单独呈现图形覆盖的情况下，使用基础层的图形的不同采样生成图形。例如，可以通过简单地拷贝来自基础层的数据或通过使用诸如H.264六抽头插值滤波器、双线性插值、双三次插值或lanczos插值的水平插值滤波器对基础层数据进行插值，来生成增强层图形覆盖。

在图13中示出了本公开的进一步的实施例，其中，示出了与基础层覆盖生成器(810)相连的预测模块(895)，其中，预测模块(895)作为一个或更多增强层的覆盖生成器工作。如果期望，则预测模块(895)可以执行基础层数据的插值并将插值数据提供给增强层。

根据进一步的实施例，在具有多个层的系统的情形下，可以根据某个层或某些层进行预测。换言之，生成N个层，预测M个层。对于多视图编码的情形会尤其如此。

可以添加的图形可以包括字幕信息、标题、按钮、箭头以及其它图形，但是也可以包括纹理和/或图像。这些图形可以是静止或运动的，2D和3D。在特殊情形中，这可能涉及解码器可能希望在3D视频的顶部覆盖不同节目的画中画信号的添加。在此情形中，将会需要在左和右视图这二者上恰当呈现该视频。对于基础层，这意味着信号将需要被适当地采样(即，使用用来生成视频基础层的相同采样)，并在使用的帧打包排列的左和右子图像这二者上呈现，并且该信号应当在基础层和增强层这二者的顶部上被覆盖。

除了解码器以外，本公开的实施例提供如先前章节中所讨论的允许这种适当图形信息的创建的著作(author)和编码方法和系统。这种著作方法和系统的目的可以是创建和著作诸如蓝光盘的盘存储介质，或者用于诸如广播、卫星和/或互联网的其它发布系统。

本公开的教导还应用于景象的多于两个视图可用的多视图情形。

可以在硬件、软件、固件或其组合中实施本公开中描述的方法和系统。可以一起(例如，在诸如集成逻辑器件的逻辑器件中)或单独(例如，作为单独连接的逻辑器件)实施作为块、模块或部件描述的特征。本公开方法的软件部分可以包括：包括在执行时至少部分地执行所描述方法的指令的计算机可读介质。计算机可读介质可以包括例如随机存取存储器(RAM)和/或只读存储器(ROM)。可以通过处理器(例如，数字信号处理器(DSP)、专用集成电路(ASIC)或者现场可编程逻辑阵列(FPGA))执行指令。

以上叙述的实例提供成为本领域普通技术人员给出如何做出和使用用于公开内容的帧兼容3D传输中全分辨率图形、菜单和字幕支持的方法实施例的完整公开内容和描述，并且并非旨在限制发明人视为他们公开内容的范围。用于执行公开内容的上述模式的变型可以由视频领域技术人员使用，并旨在以下权利要求的范围内。说明书中提到的所有专利和出版物可以表明公开内容所属领域技术人员的技术水平。本公开中引述的所有参考在如同每个参考各自整体经引用并入了的同样程度上经引用并入。

应该理解：公开内容不限于特定方法或系统，它们当然可以变化。还应该理解：本文中使用的术语只用于描述特定实施例的目的，并非旨在限制。如本说明书和所附权利要求中所使用的，单数形式“一”、“一个”以及“该”如非内容清楚地另作规定则包括复数指示物。术语“多个”如非内容清楚地另作规定则包括两个或更多指示物。如非另作定义，则本文中使用的所有技术和科学术语的含义与公开内容所属领域普通技术人员通常理解的一样。

描述了公开内容的大量实施例。然而，将会理解：可以在不脱离本公开精神和范围的情况下做出各种变形。相应地，其它实施例在所附权利要求的范围内。

Claims

1.一种用于在包括基础层和至少一个增强层的帧兼容3D视频编码系统中嵌入字幕和/或图形覆盖的方法，所述方法包括：

提供分别针对所述基础层和所述至少一个增强层的字幕和/或图形覆盖，其中，针对所述至少一个增强层提供的所述字幕和/或图形覆盖是根据针对所述基础层提供的字幕和/或图形覆盖，并且其中，针对所述基础层和所述至少一个增强层的所述字幕和/或图形覆盖具有较低分辨率；以及

继所述提供后，将所述基础层和所述至少一个增强层组合，以形成具有较高分辨率的所述字幕和/或图形覆盖。

2.如权利要求1所述的方法，其中，所述字幕和/或图形覆盖包括深度信息。

3.如权利要求1所述的方法，其中，根据第一采样方法对所述基础层进行采样，且根据第二采样方法对所述至少一个增强层进行采样，所述方法还包括：

根据所述第一采样方法对针对所述基础层的所述字幕和/或图形覆盖进行采样；以及

根据所述第二采样方法对针对所述至少一个增强层的所述字幕和/或图形覆盖进行采样。

4.如权利要求3所述的方法，其中，所述第一采样方法和所述第二采样方法包括禁用抗混叠和滤波中的至少之一。

5.如权利要求1所述的方法，其中，对每一层独立地提供所述字幕和/或图形覆盖。

6.如权利要求1所述的方法，其中，根据针对所述基础层提供的所述字幕和/或图形覆盖预测针对所述至少一个增强层提供的所述字幕和/或图形覆盖。

7.如权利要求6所述的方法，其中，通过插值来根据针对所述基础层提供的所述字幕和/或图形覆盖预测针对所述至少一个增强层提供的所述字幕和/或图形覆盖。

8.如权利要求1所述的方法，其中，

所述基础层和所述至少一个增强层中的每一层至少包括具有所述较低分辨率的第一视图和第二视图，

在每一层分别针对所述第一视图和所述第二视图进行所述字幕和/或图形覆盖的提供，以及

所述组合以所述较高分辨率形成所述第一视图、所述第二视图，以及所述第一视图和所述第二视图上的字幕和/或图形覆盖。

9.如权利要求1所述的方法，其中，所述方法还包括著作所述字幕和/或图形。

10.一种用于在包括多个层和至少一个增强层的帧兼容3D视频编码系统中嵌入字幕和/或图形覆盖的方法，所述方法包括：

提供分别针对每一层的字幕和/或图形覆盖，其中，根据由一个或更多其它层提供的字幕和/或图形覆盖预测从一些层提供的字幕和/或图形覆盖，并且其中，针对所述多个层和所述至少一个增强层的所述字幕和/或图形覆盖具有较低分辨率；以及

继所述提供后，将所述多个层和所述至少一个增强层组合，以形成具有较高分辨率的所述字幕和/或图形覆盖。

11.如权利要求10所述的方法，其中，

所述多个层和所述至少一个增强层中的每一层至少包括具有所述较低分辨率的第一视图和第二视图，

12.一种用于在包括基础层和一个或更多增强层的帧兼容3D视频可伸缩系统中嵌入字幕和/或图形覆盖的系统，所述系统包括：

基础层字幕和/或图形覆盖生成器，其提供针对所述基础层的具有较低分辨率的基础层字幕和/或图形覆盖；

针对相应的所述一个或更多增强层的一个或更多增强层字幕和/或图形覆盖生成器，其中，每一个增强层字幕和/或图形覆盖生成器提供针对至少一个增强层的具有较低分辨率的增强层字幕和/或图像覆盖；以及

一个或更多组合器，被配置为将所述基础层和所述一个或更多增强层组合以形成具有较高分辨率的所述字幕和/或图形覆盖，

其中，来自所述一个或更多增强层字幕和/或图形覆盖生成器的字幕和/或图形覆盖是根据来自所述基础层字幕和/或图形覆盖生成器的所述字幕和/或图形覆盖。

13.如权利要求12所述的系统，其中，所述基础层包括基础层视频解码器，且所述一个或更多增强层包括各自的增强层视频解码器，以及其中：

所述基础层字幕和/或图形覆盖生成器对所述基础层视频解码器的输出中的基础层图形平面进行操作，以及

所述一个或更多增强层的每一个增强层字幕和/或图形覆盖生成器对相应增强层视频解码器的输出中的增强层图形平面进行操作。

14.如权利要求12所述的系统，其中，所述字幕和/或图形覆盖包括深度信息。

15.如权利要求12所述的系统，其中，相对于由所述基础层字幕和/或图形覆盖生成器采用的采样，所述一个或更多增强层字幕和/或图形覆盖生成器采用不同的采样。

16.如权利要求12所述的系统，其中，

所述基础层和所述一个或更多增强层中的每一个至少包括具有所述较低分辨率的第一视图和第二视图，以及

所述一个或更多组合器被配置为组合所述基础层和所述一个或更多增强层，以用所述较高分辨率形成所述第一视图、所述第二视图，以及所述第一视图和所述第二视图上的字幕和/或图形覆盖。

17.一种用于在包括基础层和一个或更多增强层的帧兼容3D视频可伸缩系统中嵌入字幕和/或图形覆盖的系统，所述系统包括：

与所述基础层字幕和/或图形覆盖生成器连接的预测器，所述预测器处理所述基础层字幕和/或图形覆盖并生成针对所述一个或更多增强层的增强层字幕和/或图形覆盖；以及

一个或更多组合器，被配置为将所述基础层和所述一个或更多增强层组合以形成具有较高分辨率的所述字幕和/或图形覆盖。

18.如权利要求17所述的系统，其中，所述预测器通过插值来生成针对所述一个或更多增强层的增强层字幕和/或图形覆盖。

19.如权利要求17所述的系统，其中，