CN1618234A

CN1618234A - 用于使用模式而在句法上分析位流的方法以及根据其来生成位流的方法

Info

Publication number: CN1618234A
Application number: CNA028275314A
Authority: CN
Inventors: R·欧索里奥
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-11-26
Filing date: 2002-11-26
Publication date: 2005-05-18
Also published as: AU2002349188A8; EP1451722A2; WO2003046756A3; JP4040577B2; JP2005510920A; US7570180B2; US20050031031A1; WO2003046756A2; AU2002349188A1

Abstract

描述了一种用于转换编码位流的描述的方法和装置。该编码位流包括数据包，该描述用诸如BSDL的标记语言来书写。一组的一个或多个数据包在所述描述中由元素来描写，所述元素具有包含变换标签的至少一个属性。扫描该描述，以便根据预定条件来核对变换标签，并且，生成改编的描述。描述多媒体的该变换，以规定内容可量测性。该改编途径运作如下：通过使用所谓的风格纸样，来修改该位流的描述，而不是直接改编该位流。所以，可以从该修改过的描述中生成二进制形式文件。

Description

用于使用模式而在句法上分析位流的方法以及根据其来生成位流的方法

发明领域

本发明涉及多媒体方法、设备和位流，尤其涉及应用高级内容描述(例如通过使用这些所谓的位流句法描述语言，比如BSDL或其变体或派生物，的像XML一类的文档)的多媒体方法、设备和位流。本发明特别涉及图像编码技术——其中，考虑该图像的基于块的布置。该图像编码技术生成分组位流。本发明也涉及编码位流的描述、用于转换这种描述以便生成改编的描述的方法，以及用于从原始编码位流中生成改编的编码位流的方法。本发明也涉及被设计成用于执行转换描述的这种方法的电子设备。本发明还涉及包括发送器和接收器的传输系统，所述发送器具有用于执行从原始编码位流中生成改编的编码位流的这种方法的工具，以及用于将所述改编的编码位流传送到所述接收器的工具。

本发明特别在图像/视频传输领域中具有有趣的应用。

发明背景

已经在以下内容中引入“位流句法描述语言”(BSDL或类似的语言)：[“位流句法定义语言：到MPEG-21内容表示的输入”，ISO/IEC JTC1/SC29/WG11MPEG01/M7053，新加坡，2001年3月]和[Sylvain Devillers，MyriamCaprioglio，“位流句法定义语言(BSDL)”，ISO/IEC JTC1/SC29/WG11MPEG01/M7433，悉尼，2001年7月]，作为描述并改编多媒体内容的一种有效率的、平台独立的方法。基于这个XML模式的语言允许使用可以用XSLT来加以修改的并可以恢复到二进制形式的可理解的结构化方法来描述多媒体文件的该内容。从内容可量测性的观点来看，转换多媒体文件的这种可能性非常具有吸引力。

如今，流动视频很普通，而3D内容的这种流动则仍然很罕见，或者甚至不存在。当为3D内容解码并呈现它时，该消费者的平台上的工作负荷根据这些观察条件，会有几个数量级之多的变化。由于通常只有这些构造成的3D对象的一部分在任何给定的时间是可见的，因此，只流出该结构的这些可见区域并且/或者为它们解码将会减小瞬间的带宽和/或平台工作负荷。当这些观察条件发生变化时，随着这些新近可见的部分逐渐变得看得见，可以使它们流出并且/或者为它们解码。所以，用于对构造成的3D内容进行解码和呈现的该所需网络带宽以及该所需工作负荷随着时间的推移而得到扩大，同时将该察觉到的质量损失减到最小。这个过程被称作“依靠观察的结构解码”[D.Cohen-Or，Y.Mann，S.Fleishman，“用于流出结构密集动画的深度压缩”，关于计算机制图的计算机绘图专业组1999年年会会议录，第261-267页，1999年]。

在该MPEG-4多媒体压缩标准[“该MPEG-4音频-视频压缩标准，ISO/IEC14496-5/FPDAM1的文本”，ISO/IEC JTC1/SC29/WG11/MPEG99/N3309，Noordwijkerhout，2000年3月]以内]，存在用于为3D内容编码的工具。特别是，MPEG-4提供了关于结构的可升级的、基于小波的压缩工具——被称作“视觉结构编码(VTC))”[I.Sodagar，H.J.Lee，P.Hatrack，Y.Q.Zhang，“关于合成/自然混合图像的可升级的小波编码”，关于视频技术的电路和系统的IEEE会报，第9卷，编号：2，第244-254页，1999年3月]。

VTC允许生成用于定义这些数据包边界的、具有高度灵活性的分组位流。每个数据包包括被称作“结构单元(TU)”的许多基本单元。VTC中的特定情况是该多分层-树深度方式(MQ-TD)。

该MQ-TD方式中所提供的该最大粒度由小波变换层次的数目来给出。该变换中所涉及的该像素数目增加了，因为该块的尺寸是2^n_levels×2^n_levels。由于错误回弹引入某项内务操作，因此，限制该粒度可以减小该压缩图像的尺寸。几个转换空间块可以被分组在单一数据包中，而不是在每个块后面引入错误回弹记号。当只要求粗糙粒度时，这会有用。

已知的多媒体格式趋向于隐藏信息，该信息对于该多媒体内容改编过程而言会至关重要，但被嵌入该位流。

由Koninklijke Philips Electronics N.V.提交的该国际专利申请WO 02/063494中描述了一种用于转换位流的描述的方法。这个文档中所描述的该方法包括：

-使用用标记语言书写的位流的原始描述，以及一套预定义的变换，

-将所述预定义的变换之一应用于所述原始描述，以生成改编的描述，

-从所述改编的描述中生成改编的位流。

在这个文档中所描述的该方法中，必须对该原始描述进行足够详细的说明，以允许恢复执行这些变换而需要的该编码信息。这种详细的描述会相当冗长，需要更容易改编的描述。具有更加简单、简短的描述也将会有用。

发明概述

本发明的目的之一是：提议一种用于转换允许进行容易的改编的描述的方法。利用如本专利申请的权利要求1～3中所述的该方法来实现这一点。根据本发明，描写该描述中的一组数据包的该元素具有包含变换标签的属性。当转换该原始描述时，依照预定的条件来检验这些变换标签。通过除去其变换标签不满足该预定条件的这些元素，来生成该改编的描述。本发明包括(例如)被嵌入位流以便跨越信道来加以传送的描述，该描述用标记语言来书写并包含一个元素，该元素至少具有一个包含标签的属性。该描述可能是被存储在存储设备(例如，CD-ROM、DVD光盘、磁盘、磁带、计算机系统的存储器)上或被存储在电信系统的网络元件的存储器中的数据结构。该标签可能表示描述将要在信道上被加以传送的位流的层次结构的至少一部分或描述这个位流中的数据包的标识的信息。经由该变换标签，可获得变换所需要的该信息。与上述原先的技术比较，使用这类变换标签的另一个优点是：它允许提高该变换处理速度。

在本发明的第一个实施例中，该编码位流具有可升级的格式，可根据该格式来定义几个数据层，并且，所述变换标签是这组数据包所属的该数据层的指示。这些数据层可以属于层次结构(例如，不同的数据层包含涉及图像的不同的分辨率或质量的数据)。这第一个实施例允许获得内容的不同质量，(例如)以适合不同的终端(例如，不同的分辨率或带宽)。可以除去属于较高数据层的元素，以生成打算送到具有较低性能的终端(例如，移动电话的低分辨率显示器)的低质量的位流的描述。

在本发明的第二个实施例中，该变换标签是数据包标识符，并且，所述预定条件是与将要实现的特殊变换有关联的一套数据包标识符的从属关系条件。当定义几个不同的变换时，可有利地使用这第二个实施例。每个变换包括作为参数的一套数据包标识符，这些数据包标识符涉及在该变换之后将要避开位流(或将要从位流中被除去)的那些数据包。

例如，有利的是，通过使用如从BSDL中已知的风格纸样(stylesheets)，来执行变换。

本发明的另外的优点是：提供了一种更加适合用于改编多媒体内容的模式，尤其在该位流或其有关的模式实例的连续改编的情况下。模式实例是已从该模式中被生成的编码位流的描述。为了获得该位流的改编/变换，可生成改编的描述。通过使用如由Koninklijke Philips Electronics N.V.提交的该国际专利申请WO 02/069187中所描述的模式的一些方面，来有利地从该改编的描述中生成改编的位流。所以，本发明涉及一种模式、一种用于使用该模式来对位流进行句法分析的方法、以及一种用于根据所述模式来生成位流的方法，所述模式具有WO 02/069187 A1中给出的各种特点(除本发明的这些新颖的发明特点以外)。该模式描述关于位流表示中的该数据结构的格式。该模式途径被用于一种改编多媒体内容的有效率的、平台独立的方法。

以上所描述的该模式途径定义一种构架，该构架用于使用标记语言(例如，象XML一类的(例如，基于XML的或服从XML的)语言)来描述位流的该结构，并且，该模式途径提供一种关于资源改编的类属途径。在执行该改编的过程中，可以考虑用户参数选择。由于多媒体位流包括一个结构化序列的二进制符号——其结构针对该编码格式，因此，该模式途径允许描述位流的该高级结构。

为了避免隐藏对于该多媒体改编过程而言会至关重要的信息，根据本发明的另一个方面，该描述包括包含有用信息的特殊元素。要么在该内容编码过程期间生成这些元素，要么以后从该编码位流中生成这些元素。

有利的是，提供了一种模式，可以从该模式中导出这种描述。这种模式具有元素，它为这些元素描述信息的名称、类型，所述信息被嵌入该位流。因此，信息变得很明确，这要求进行用于从该位流中导出它们的复杂的计算，更具体地说，只有当为所述位流的一部分解码时，才可以获得该信息。

为图像编码技术(其中，该图像首先被分成各个块)展示了这一点。该图像编码技术生成分组位流，因此，可以在该位流内区别多个数据包。可以选择“该图像的多少个块(一个或多个)将要在一个数据包中一起被加以编码”。这暗示数据包是独立的，从而意味着：数据包之间不存在数据相关性。注意，如果在该图像上应用转换，则(例如)在比如小波变换的次能带编码技术的情况中，重叠会是必要的，从而导致一些数据相关性。

根据以上所描述的该图像编码技术，用于描述图像的该结构的该模式具有作为关于每幅图像的元素的主要头部和各个部分，每个部分与数据包有关。这些部分包含对该位流的这个有关的部分的参考，这项参考也被表示为该有效负载，并且(例如)可以用URL的形式来加以规定。

除从WO 02/069187中已知的这些元素以外，本发明还提供了一个元素，所述元素被用于描述所谓的扩展信息。

作为进一步的举例说明，为图像编码技术(其中，这些图像在差异质量层中被加以编码)提供这个扩展信息概念的运用。在这种图像编码技术中，层的质量取决于该图像的这些像素上所使用的分层以及变换层次。关于所使用的该分层的以及当使用这项图像编码技术时的该变换层次的该信息也在该位流中(例如，在与该质量层有关的第一个数据包中)被加以编码。这种信息可以是层的数目、每一层的数据包的数目和该变换层次。因此，它被隐藏在这些数据包内。虽然该信息可用，但是，它被嵌入该位流。注意，该质量层途径基于将要被包括在与那个特定层有关的该位流的那一部分中的分组信息。

该额外的元素(可以补充该主要头部)可以被用于描述关于该分层的所谓的扩展信息(比如层的数目、每一层的数据包的数目和该变换层次)。其他可能性是该位流的那个部分对某个级别的质量、分辨率级别和该各自的颜色成分或类似物的作用的标记。

以上所描述的该模式可以被用于改编多媒体内容。如果想要规定内容可量测性，则需要转换多媒体文件的这种可能性。该模式改编途径运作如下：通过使用所谓的风格纸样，来修改该位流的象该模式一类的描述，而不是直接改编该位流。所以，从该修改过的象模式一类的描述中，可生成该二进制形式(该改编的二进制结构)文件。

如果考虑基于块的图像编码技术，生成分组位流，因此可以在该位流内区别多个数据包，则会面临这个问题：在连续变换之后，该位流中的数据包的该位置不再与该图像和该质量层空间中的其有关的位置一致。通过为该位流(其中，可以发现这个位置)的各个部分解码，可以再次解决这个问题，但这要求进行复杂的计算。

根据另一个方面，按照以上所描述的该图像编码技术，用于描述图像的该结构的该模式具有作为关于每幅图像的元素的主要头部和各个部分，每个部分与数据包有关，并且，在该模式中，加入关于这些数据包的额外的属性或标签。这个额外的属性是如此，以便可以容易地导出该图像中的、这些数据包的位置。通过要么将所述位置存储在这个额外的属性中，要么使用关于该数据包的标识号，来实现这一点。这个额外的属性导致这些数据包的一种标记。

例如，本发明提供了多媒体方法和设备，从而通过使用采用这些所谓的位流句法描述语言(比如BSDL或其变体或派生物)的象XML一类的文档，来利用位流的高级内容描述，这些发明的方法和设备的特征是：为这些所使用的描述提供允许进行有效率的位流改编的格外特殊的元素和属性，例如，在可见结构编码的情况中会需要它们，尤其当考虑3-D对象和依靠观察的编码时，更是如此。

附图简述

图1是一种图像编码技术的例子的框图。

图2是一种方法的例子的框图，该方法包括：生成编码位流，生成是该编码位流的树形表示的实例，改编所述实例，生成改编的位流，以及为该改编的位流解码。

图3是另一种方法的例子的框图，该方法包括：生成编码位流，生成是该编码位流的树形表示的实例，改编所述实例，生成改编的位流，以及对包括有关区域选择的该改编的位流进行解码。

图4表现了块和数据包的图像粒度和变换。

图5表现了关于VTC MQ-TD图像的“BSDL描述”的片段。

图6表现了关于VTC MQ-TD方式的该“模式”的片段。

图7表现了这些数据包的简化描述。

图8表现了关于VTC的扩展信息元素的例子。

图9表现了被应用于Rubik的Cube-Lena图像的可量测性。

图10表现了Rubik的“立方体”测试实例——(a)关于充分解码的结构的结果、(b)关于依靠观察的解码的结果、(c)该立方体的不可见的部分。

图11表现了关于活动网络中的连续变换的标记的数据包。

图12是根据本发明的实施例的传输系统的框图。

发明的详细说明

将参照某些实施例和附图来描述本发明，但本发明不局限于此。有技能的人将会理解：本发明具有如所附权利要求书中所定义的广泛的应用。

本发明也涉及用于在句法上分析位流的方法和用于生成位流的方法，所述方法使用关于表示所述位流的文档的某种格式，所述文档是所述位流的树状表示。

(所谓的模式中所描述的)该格式定义一种或多种类型的数据，特别是与无限长度的二进制段相对应的一种类型的数据。另外，所述模式包括多个元素，它为这些元素而至少描述数据的名称和类型。

位流的该多媒体格式定义哪个信息被定位在该位流中的哪里。通过使用该模式或因此被定义的该格式，可以创立文档，从而描述该位流的该结构。除数据以外，该位流也包括关于所使用的该编码过程的信息。因此，所述信息在该位流内被加以编码。

当根据更高层次的表示(比如根据该模式来制作的该文档)来改编该位流时，所述嵌入信息为该改编过程而仍然保持隐藏状态，从而意味着：如果想要或需要利用所述信息，则需要对该位流的那个部分进行解码。

本发明的优点是：提供了一种更加适合用于改编多媒体内容的模式。由模式来实现这一点，从而允许采用用于描述该数据的该结构的格式，其中，该嵌入信息的至少一部分可以变得明确。因此，该模式具有特殊的元素，它为这些特殊的元素而描述信息的名称和类型，所述信息被嵌入该位流。

特别是，本发明涉及：

一种用于从原始位流中生成改编的位流的方法；

所述方法包括以下步骤：

接收所述原始位流；

根据某种格式而在句法上分析包含具有结构的数据的所述原始位流，所述分析步骤生成所述原始位流的树状表示，并包括以下步骤：

读取一种用于从类属上描述所述格式的模式，包括它为其而描述数据的名称和类型的多个元素，并且，特殊元素与关于该编码方法的信息有关；

在所述原始位流中搜索与所述模式中所包含的这些元素(包括所述特殊元素)相对应的该数据；

生成所述模式的实例，它包含在所述原始位流中发现的该数据，并构成所述树状表示，所述实例进一步包括明确的信息，该信息被嵌入所述原始位流；

生成所述模式的改编的实例，所述改编过程利用所述明确的信息；以及，

最后，从所述改编的实例中生成所述改编的位流。

现在为图像编码技术(100)展示这一点，其中，该图像(10)首先被分成各个块(15)。该图像编码技术生成分组位流(70)，因此，可以在该位流内区别多个数据包(75)。可以选择“该图像的多少个块(一个或多个)(例如，选择(20))在一个数据包中一起被加以编码”。

另外，不是在该原始图像上，而是在该图像的转换版本上使用该图像译码或编码技术。一种可能类型的被使用的转换是次能带转换(比如小波变换)。因此，可以在该图像编码技术内发现转换步骤(110)和为该转换图像(80)编码的步骤(120)。应用该转换步骤会产生在次能带(40)中被分解的图像(30)。

该图像编码技术通常将会作用于该图像的一个(被转换的)部分(例如，块)。在图4中，表现了图像被分成各个块。从转换层次的数目中导出该块大小。在这个例子的情况中，数据包由两个块组成。数据包是独立的——没有与其他这些数据包的数据相关性。这些数据包的尺寸确定粒度。注意，这只是对于该水平维数而言是如此，因为无法按纵列方向的方式来包装块。另外，这些图像(或其各个转换部分)在差异质量层中被加以编码，从而意味着：将含蓄地选择使用该转换部分的哪个次能带，并且将含蓄地选择这些所选择的次能带部分的各个像素上所使用的分层程度(见这些不同的位平面(60))。这些选择或分组(例如，见选择(50))定义某个质量。如果在对与那个质量层有关的该位流的该部分进行解码之后，将会显示该原始图像，则可以预期某个预定义的质量。

层的质量取决于该图像和变换层次的各个像素上所使用的该分层，尤其取决于包括哪些次能带。关于所使用的该分层的和当使用这项图像编码技术时的这些次能带的该信息也在该位流中(例如，在与该质量层有关的第一个数据包中)被加以编码。当然，可以使用本质上相同的信息的其他参数化法。

根据以上所描述的该图像编码技术，用于描述图像的该结构的该模式具有作为关于每幅图像的元素的主要头部和各个部分，每个部分与数据包有关。这些部分包含对该位流的该有关部分的参考，这个参考也被表示为该有效负载，并(例如)可以用URL的形式来加以规定。

本发明规定对以上所讨论的元素附加的特殊元素，所述元素被用于描述所谓的扩展信息。这种信息可以是层的数目、每一层的数据包的数目和所使用的次能带。因此，它被隐藏在这些数据包内。虽然该信息可用，但是，它被嵌入该位流。

参考图2，本发明生成包含在所述原始位流中发现的该数据并构成所述树状表示的所述模式的实例(500)，而不是直接作用于该位流，所述实例进一步包括明确的信息(700)，该信息被嵌入所述原始位流。

本发明规定对以上所讨论的元素(应该补充该主要头部)附加的一个元素，所述元素被用于描述由该图像编码生成的、关于该分层的所谓的扩展信息(比如层的数目、每一层的数据包的数目和该变换层次)。

该扩展信息的直接可用性虑及：利用所述扩展信息是创立改编的实例的过程(400)。从这个改编的实例中，执行该图像编码(200)的颠倒过程——具有图像解码(220)和颠倒转换(210)的子步骤。

本发明提供了一种用于从原始位流中生成改编的位流的方法，

所述原始位流是在图像的至少一个部分上应用编码方法的该结果，

所述方法包括以下步骤：

接收所述原始位流；

最后，从所述改编的实例中生成所述改编的位流。

在其实施例中，所述编码方法包括图像的一个部分的次能带转换的步骤。

在其实施例中，所述编码方法包括一个步骤：定义质量层，并选择每一质量层的、为编码而包括所述图像的所述部分的哪些次能带；并且，所述明确的信息指出所述次能带和位平面的该分组。

在其实施例中，所述编码方法包括一个步骤：定义质量层，并选择每一质量层的、正在为所述质量层而选择的该图像的这些部分上使用哪个程度的分层；并且，所述明确的信息指出所述分层程度。

该模式可以被用于改编多媒体内容。如果想要规定内容可量测性，则需要转换多媒体文件的这种可能性。该模式改编途径运作如下：通过使用所谓的风格纸样，来修改该位流的象该模式一类的描述，而不是直接改编该位流。所以，可从该修改过的象模式一类的描述中生成该二进制形式(该改编的二进制结构)文件。

如果考虑基于块的图像编码技术，生成分组位流，因此可以在该位流内区别多个数据包，则会面临这个问题：在连续变换之后，该位流中的数据包的该位置不再与它在该图像中的位置一致。

注意，万一想要显示该原始图像的特定的有关区域——该原始位流，则可以容易地选择该有关的数据包，因为该图像编码技术使用通过该图像的预定义扫描，用于生成所述原始位流。作为选择，可以根据该位流中可用的该信息来确定这个有关的数据包，但这要求进行解码，因此要求进行复杂的计算。

本发明的优点是：提供一种更加适合用于改编多媒体内容的模式，尤其在位流的连续改编的情况下(例如，在网络中)。

根据以上所描述的该图像编码技术，用于描述图像的该结构的该模式具有作为关于每幅图像的元素的主要头部和各个部分，每个部分与数据包有关，并且，在该模式中，加入关于这些数据包的额外的属性(600)。该额外的属性如此，以便可以容易地导出它在该图像中的位置。通过要么将所述位置存储在该额外的属性中，要么使用关于该数据包的标识号，来实现这一点。该额外的属性产生这些数据包的一种标记。

因此，万一想要显示该改编的图像的特定的有关区域(因而来自改编(400)后的该位流)，则在这个所要求的数据包选择步骤(300)中利用所述额外的属性，因为通过该图像的该预定义扫描因该位流上的这些修改而无法被再使用。可以使用该额外的属性来跟踪这个改编的位流中的该数据包，用于分配所述数据包，并用于确定其质量等级。注意，将使用该有关区域再次显示过程的基于模式的途径。

一种方法用于显示来自从一种模式的实例中生成的位流的图像的一个部分，所述实例构成所述数据的树状表示，并包含在位流中发现的该数据，所述位流是在图像的至少一个部分上应用编码方法和在所述结果上应用变换的该结果，所述位流进一步包括多个数据包，所述方法的特征体现在：

所述模式的所述实例包括关于所述数据包的额外的属性，所述额外的属性根据与所述编码方法有关的预定义扫描程序来指出所述数据包的该位置；以及，

所述显示包括：根据所述属性来选择至少一个数据包。

现在进一步描述本发明的特定的实现。

该国际专利申请WO 02/069187中所描述的该“位流句法描述语言”(BSDL)是用于描述并改编多媒体内容的一种有效率的、平台独立的方法。这种基于XML模式的语言允许按可理解的结构化方法来描述多媒体文件的该内容，该方法可以使用XSLT来加以修改，并可以恢复到二进制形式。从内容可量测性的观点来看，转换多媒体文件的这种可能性非常有吸引力。在MPEG-4AFX的该上下文中，正在研究错误回弹记号的使用，以允许VTC中的可量测性[见Eric Delfosse，Gauthier Lafruit，“关于依靠观察的结构解码的VTC错误回弹的使用”，ISO/IEC JTC1/SC29/WG11/MPEG2001/m7580，Pattaya，2001年12月]。

以下将加以描述的本发明的示范实施例涉及BSDL实施，该BSDL实施允许选择关于VTC文件中的任意数量的区域的不同的质量等级。这个过程的目的是：通过只传送在某个时刻解码所需要的该信息，来启用3D应用中的网络QoS。但是，本发明不局限于这个特殊的实施例。

如今，流动视频很普通，而3D内容的这种流动仍然保持罕见，或者甚至不存在。当对3D内容进行解码和呈现时，该消费者的平台上的工作负荷会根据这些观察条件而有几个数量级之多的变化[见G.Lafruit，L.Nachtergaele，K.Denolf，J.Bormans，“3D计算的适度降级”，关于MPEG-4的ISCAS-专题研究组和展览会的会议录，第III-547～III-550页，2000年5月28-31日]。

由于通常只有这些构造成的3D对象的一部分在任何给定的时间可见，因此，只流出该结构的这些可见区域并且/或者为其解码将会减小瞬间带宽和/或平台工作负荷。当这些观察条件发生变化时，随着这些新近可见的部分逐渐变得看得见，可以使它们流出并且/或者为它们解码。所以，用于对构造成的3D内容进行解码和呈现的该所需网络带宽以及该所需工作负荷随着时间的推移而得到扩大，同时将该察觉到的质量损失减到最小。这个过程被称作“依靠观察的结构解码”[见D.Cohen-Or，Y.Mann，S.Fleishman，“用于流出结构密集动画的深度压缩”，关于计算机制图的计算机绘图专业组1999年年会会议录，第261-267页，1999年]。

在该MPEG-4多媒体压缩标准[见“该MPEG-4音频-视频压缩标准，ISO/IEC14496-5/FPDAM1的文本”，ISO/IEC JTC1/SC29/WG11/MPEG99/N3309，Noordwijkerhout，2000年3月]以内，存在用于为3D内容编码的工具。特别是，MPEG-4提供了关于结构的可升级的、基于小波的压缩工具——被称作“视觉结构编码(VTC))”[见I.Sodagar，H.J.Lee，P.Hatrack，Y.Q.Zhang，“关于合成/自然混合图像的可升级的小波编码”，关于视频技术的电路和系统的IEEE会报，第9卷，编号：2，第244-254页，1999年3月]。

在本发明中，揭示了：使用错误回弹记号来允许MPEG-4 AFX的该上下文中的VTC中的可量测性。[Eric Delfosse，Gauthier Lafruit，“关于依靠观察的结构解码的VTC错误回弹的使用”，ISO/IECJTC1/SC29/WG11/MPEG2001/m7580，Pattaya，2001年12月，它被包括于此，用作参考]。

可以为依靠观察的结构解码而利用VTC的这些错误回弹特点。通过使用这些错误回弹记号，可允许生成具有高度灵活性的分组位流，用于定义这些数据包边界。每个数据包包括被称作“结构单元(TU)”的许多基本单元。每个数据包包括被称作“结构单元(TU)”的许多基本单元。我们将把焦点放在VTC中的最有趣的情况——该多分层-树深度方式(MQ-TD)上。

为该多分层-树深度方式(MQ-TD)进一步展示本发明。由小波变换层次的数目来给出该MQ-TD方式中所提供的最大粒度。该变换中所涉及的该像素数目增加了，因为该块的尺寸是2^n_levels×2^n_levels。由于错误回弹引入某项内务操作，因此，限制该粒度可以减小该压缩图像的尺寸。几个转换空间块可以被分组在单一数据包中，而不是在每个块后面引入错误回弹记号。当只要求粗糙粒度时，这会有用。

在MPEG-4 VTC中，图像被分成各个块。从该转换层次数目中导出该块大小。在这个例子的情况中，数据包由两个块组成。数据包是独立的——没有与其他这些数据包的数据相关性。这些数据包的尺寸确定粒度。注意，这只对于水平维数而言是如此，因为无法按纵列方向的方式来包装块。

另外，本发明揭示了其BSDL实施，该BSDL实施允许选择关于VTC文件中的任意数量的区域的不同的质量等级。这个过程的目的是：通过只传送在某个时刻解码所需要的该信息，来启用3D应用中的网络QoS。

可以应用该“位流句法描述语言”来描述VTC图像的该结构。图5表现了典型描述的片段。每幅图像包括主要头部和许多数据包。每个数据包包含关于哪些TU被包括在该数据包中和作为URL的有效负载的信息。从该描述中，可以生成该原始二进制文件。该模式中宣布了这些描述元素以及它们的类型定义。图6中表现了该“模式”的片段。该描述可以从VTC二进制文件中被生成，或者可以在创建该二进制文件时由该VTC编码器来生成。第一个选项使用该BintoXML分析程序和该“模式”来识别这些不同的元素。

VTC的该BSDL类型实施可以被正式地描述为使用一种用于描述图像的该结构的模式的方法，所述模式具有作为关于每幅图像的元素的主要头部和各个部分，每个部分与数据包有关。这些部分包含对该位流的这个有关部分的参考，该参考也被表示为该有效负载，并(例如)可以用URL的形式来加以规定。

由于已发现：当需要低级细节时，完整的BSDL描述会相当冗长，因此，该描述对于该目标应用而言会太详细了。所以，本发明规定将该描述减少到最有关的元素，从而获得更简单、更简短和更容易转换的描述。

可以用两种方法来获得更简短的描述：

1.数据包结构不详细。将该头部与该有效负载合并。

2.如果该结构已被编码成提供比所需要的更多的粒度，则可以对数据包进行分组。

图7中表现了这两个程序的例子。将两个数据包装配在一起，并且，改变该有效负载的各种限制，以包含它们两个。注意，该简化描述仍然符合同一种模式。

该VTC格式将关于分层的一些至关重要的信息隐藏在这些数据包内。这种信息应该存在于该文件的该主要头部中，但它被嵌入该位流。作为例子，在每个质量层的第一个数据包中为这些分层步骤编码。层的数目和每一层的数据包的数目是至关重要的信息，但要知道它们，则要求进行复杂的计算。

作为用于促进VTC中的BSDL的利用的解决方案，本发明提议在该描述中包括额外的元素，从而详述关于无法容易地获得的该结构的重要信息。可以在编码期间或直接从“BSDL描述”中(例如，利用XSLT风格纸样)生成这个新元素。该扩展信息被该XMLtoBin分析程序忽略，并且只由该XSLT风格纸样来进行处理。图8中表现了这种扩展信息的例子。

XSLT风格纸样被用来转换这些“BSDL描述”，并因而获得该内容的改编版本。变换风格纸样已被设计成：选择图像内的任意数量的区域，该图像规定关于它们中的每个的质量设置。然后，该XMLtoBin分析程序使用该“模式”来生成改编的二进制结构文件。区域限制被规定为该图像的总尺寸的百分比。该风格纸样选择最少数量的数据包来覆盖被提供该可用粒度的该区域。这个程序允许将这些结构换算为该所需的质量等级，从而提供网络QoS。该变换可以按两种不同的方式来进行。

-首先，该客户请求该结构的换算版本。这是独立的服从VTC的结构文件。

-此外，当这些显示条件发生变化时，该客户可以请求关于一些区域的额外的质量。在这种情况下，只发送一些数据包。

由于只发送必要的信息，因此，只有当需要时，才最恰当地使用该带宽。由于该VTC格式已被设计成可升级，因此，解码器QoS是可能存在的。而且，通过只传送有关的信息，网络QoS也可以存在。

图9和图10中表现了这个程序的例子。在这个测试实例中，用该Lena图像来遮蔽Rubik的“立方体”。如同不是所有的瓦片都同时可见，也并不是所有的信息都必须被传送和解码。图9表现了如何在4个不同的质量等级(范围从只有DC到无损)中传送该图像。在图10中，可以看见该“立方体”呈现。该图的部分(a)表现了使用该完美质量结构来呈现的该“立方体”。部分(b)使用图9结构，从而利用了这个机会：只有该前方的一面必须按完美的质量来加以呈现，同时，该右边的一面和顶部的一面可以按较低质量设置来加以呈现。使用该DC成分来仅仅呈现不可见的该“立方体”的那个部分(图10(c))。

在科学界有一种共识：在以后的数年中，活动网络将会脱颖而出，成为一种提高通信效率的方法。关于3D制图和BSDL的一种可能的情况如下所述：

“正在播放3D场景或电影。在该终端一方执行呈现，但这些终端的各个特征是异类的。该服务器传送使该质量适应该当前观察点的结构。该质量为高性能终端而预定，并且，该网络将会使该内容适应这些不同的终端。该服务器一方将该结构提供给这些网络节点和该BSDL代码。这样，移动电话操作者将应用进一步的变换，以便根据移动电话的这些低分辨率显示器来降低该质量。”

在这种情况中，如果应用连续变换，则该位流中的数据包的该位置不再与它在该图像中的位置一致。这样，数据包的该分配和质量等级会难以跟踪。在这种情况下，必须为数据包加标签。通过将属性或属性集包括到每个数据包，可以做到这一点。图11中表现了一个例子。

在这幅图的该顶部例子中，该描述的这些元素包括：

-第一个变换标签，它包含这组数据包所属的该数据层的指示，

-第二个和第三个变换标签，它们包含该图像中的这组数据包的该位置。

这是因为：在以上所描述的应用中，既考虑该质量层，又考虑该图像中的该位置，以决定：当生成改编的描述时，除去哪个(哪些)数据包。

当然，关于其他的应用和其他的编码格式，这些元素可能只包括包含该数据层的指示的变换标签。例如，扫描包括这类变换标签的描述，以除去所有数据包，关于该所有数据包的该数据层指示高于“1”。

在图11的该底部例子中，该描述的这些元素包括包含数据包标识符的单一变换标签。

在这种情况下，将要为每个可能的变换而定义一套数据包标识符。当应用特殊变换时，扫描该描述，并且，除去其变换标签不属于为那个特殊变换而定义的这个数据包标识符集的这些元素。(当然，也可以定义将要被除去的各个数据包标识符集，并除去其变换标签属于为那个特殊变换而定义的这个数据包标识符集的这些元素。)

将会理解：本发明的这第一个方面不局限于以上所描述的这个例子(MPEG-4VTC)。特别是，它可适用于其他的二维图像或视频编码格式。

将要注意，只有当将要通过使用如WO 02/069187中所描述的该模式来从该改编的描述中生成该改编的位流时，才必须在该描述中引入该变换标签，作为属性(因为属性被该XML-to-Bin分析程序忽略)。否则，它可以被引入，作为元素。

总之，可以说，本发明为象BSDL一类的途径提供了必要的特点(比如额外的元素和属性)，这些象BSDL一类的途径用于允许关于如为MPEG-4 VTC而展示的多媒体应用的强有力的、平台独立的内容可量测性。可以充分利用该可用粒度来执行区域和质量选择。使用BSDL的内容改编允许在该服务器、这些网络元件和该终端上分布该QoS管理。

可以按一些方法、一种方法和/或另一些方法来使用该模式的这些发明特点(额外的元素和特殊的属性)——这些方法用于生成所述模式的实例，这种方法用于生成改编的位流，这另一些方法用于显示图像的有关区域。另外，可以在用于图像编码的设备中使用所述特点，从而提供位流和这类实例；也可以在网络节点设备中使用所述特点，从而改编位流和/或图像显示终端，执行有关区域选择。

注意，这种图像译码或编码装置将包括硬件部分，该硬件部分被配置成用于为所述模式的实例编码并生成该实例。所以，所述硬件部分可以是定制的处理器或可编程的处理器或其组合。可以对网络节点设备的该硬件部分加以类似的考虑，它将用于生成改编的位流和所述模式的改编的实例。图像显示终端的该硬件部分也可以被加以定制并且/或者被加以编程，用于执行有关区域数据包选择步骤和解码。

所述设备将具有用于存储所述模式的实例的存储工具，所述存储工具(可以是任何物理存储实体)将被配置成用于存储具有至少一个特殊元素和/或至少一个属性的实例。也将预知用于存储具有特殊的元素和属性的模式的存储空间。

在实施例中，该图像编码装置将为硬件部分编码，该硬件部分被配置成用于为位流中的图像编码；并且，所述硬件部分将能够包括关于它所生成的该模式的这个实例内的某个数据包的重要的编码参数。

在该网络节点设备的实施例中，提供了用于接收或生成所述模式的实例的工具，并且，所述设备的该硬件部分将被配置如此，以便它可以利用这个所接收或生成的实例内的该明确的信息。

在该图像显示终端的实施例中，除用于指示该图像的该有关区域的工具以外，还将提供用于接收或生成所述模式的实例的工具，并且，所述设备的该硬件部分将被配置如此，以便它可以利用这个所接收或生成的实例内的这些明确的属性。

图12中表现了根据本发明的另一个方面的传输系统900。它包括发送器902和接收器904。在该发送器一方执行图像编码、描述变换和改编的位流生成，同时，在该接收器一方执行图像解码。所述发送器和接收器包括存储工具和处理工具。利用软件来执行本发明，该软件被存储在所述存储工具中并由所述处理工具来加以执行。例如，该软件可以是用C、C++或类似的语言而书写的计算机程序，并可以为特殊的微处理器而加以编译。本发明也包括存储所述程序的数据载体(例如，磁盘、CD-ROM、磁带、或电信网络中或计算设备内的存储器)。当被装载到该计算设备上时，该数据载体执行根据本发明的一种方法。

所述计算机程序执行根据本发明的一种方法，尤其当被载入微处理器(例如，由英特尔公司提供的“奔腾IV”微处理器)或被载入另一种合适的处理引擎(例如，“可编程逻辑阵列”(PLA)、“可编程阵列逻辑”(PAL)、诸如“域可编程门阵列”(FPGA)的可编程门阵列)时，所述计算机程序可执行任何所述的方法。该处理引擎可能被包括在具有存储器的合适的计算设备中，该计算设备不仅可以是(例如)个人计算机或UNIX工作站，而且可以是(例如)移动电话、“个人数字助理”(PDA)；或者，该处理引擎可能被嵌入VLSI或(例如)被嵌入适用于个人计算机或视频投影仪或其他显示设备的加速器卡。本发明也包括专用模块(例如，采取VLSI的形式)ASIC，它专门用于执行根据本发明的方法。

Claims

1.一种用于转换编码位流的描述的方法，所述编码位流包括数据包，所述描述用标记语言来书写，一组的一个或多个数据包在所述描述中由元素来描写，所述元素具有包含变换标签的至少一个属性，所述方法包括：

-扫描所述描述，以便根据预定条件来核对变换标签，以及，

-生成改编的描述，在该改编的描述中，除去这些元素，在这些元素中，变换标签不满足所述预定条件。

2.如权利要求1中所述的用于转换描述的方法，其特征在于，所述编码位流具有可升级的格式，几个数据层根据该格式来加以定义，并且，所述变换标签是这组的一个或多个数据包所属的该数据层的指示。

3.如权利要求1中所述的用于转换描述的方法，其特征在于，所述变换标签是数据包标识符，并且，所述预定条件是与将要实现的特殊变换关联的一套数据包标识符的从属关系条件。

4.一种用于从原始编码位流中生成改编的编码位流的方法，所述原始编码位流包括数据包，所述方法包括：

-通过应用如权利要求1～3中的任何权利要求中所述的用于转换描述的方法，来转换所述原始编码位流的、用标记语言书写的描述，以生成改编的描述，以及，

-从所述改编的描述中生成所述改编的位流。

5.一种包括数据包的编码位流的、用标记语言书写的描述，所述描述包括用于描述各组的一个或多个数据包的元素，所述元素具有至少一个属性，该属性包含意在被用来依照预定条件来加以检验的变换标签，以便通过除去所述元素中的一些元素，来改编所述描述。

6.如权利要求5中所述的描述，其特征在于，所述编码位流具有可升级的格式，几个数据层根据该格式来加以定义，并且，所述变换标签是这组数据包所属的该数据层的指示。

7.如权利要求5中所述的描述，其特征在于，所述变换标签是数据包标识符，并且，所述预定条件是与将要实现的特殊变换关联的一套数据包标识符的从属关系条件。

8.一种电子设备，包括存储器和处理工具，该存储器存储如权利要求5～7中的任何权利要求中所述的位流的描述，该处理工具用于执行如权利要求1～3中的任何权利要求中所述的用于转换所述描述的方法。

9.一种程序，包括指令，当所述程序由处理器来执行时，这些指令用于执行如权利要求1～3中的任何权利要求中所述的用于转换描述的方法。

10.一种传输系统，包括发送器和接收器，所述发送器具有用于执行如权利要求4中所述的用于从原始编码位流中生成改编的编码位流的方法的工具，以及用于将所述改编的编码位流传送到所述接收器的工具。

11.一种用于生成模式的实例的方法，

所述实例构成编码图像数据的树状表示，所述模式从类属上描述所述表示的该格式，并且包括多个元素，该格式为这些元素而描述数据的名称和类型，

该方法包括：

存取该图像；

根据预定的编码参数，来执行为所述图像编码的步骤，从而通过连接与所述元素相对应的、位流的各个部分，来生成该位流和所述实例；

对所述方法，其特征在于：

所述模式包括与所述编码方法的这些编码参数有关的特殊元素；以及，

所述实例包括与所述特殊元素相连接的明确的信息，所述明确的信息也被嵌入所述位流，并涉及所述编码参数。

12.一种用于从原始位流中生成改编的位流的方法，所述位流是编码图像数据，所述编码根据预定的编码参数来加以执行，

所述方法包括：

接收所述原始位流和包含在所述原始位流中发现的数据的模式的实例，该实例构成树状表示，

生成所述模式的改编的实例；以及，

从所述改编的实例中生成所述改编的位流，

对该方法，其特征在于：

所述实例包括关于所述编码参数的明确的信息；以及，

生成改编的实例的所述步骤利用所述明确的信息。

13.一种图像编码装置，包括：

用于读取图像的工具；

用于输入编码参数的工具；

硬件部分，它被配置成用于根据所述编码参数来为所述读取的图像编码，从而生成位流；以及，

编码装置，它用于生成模式的实例，

所述模式从类属上描述所述表示的该格式，并包括多个元素，该格式为这些元素而描述数据的名称和类型，

所述实例构成所述编码图像数据的树状表示，并包含具有所述元素的所述位流的各个部分之间的连接，

对所述装置，其特征在于，：

所述模式包括与所述编码参数有关的特殊元素；以及，

所述实例包括关于与所述特殊元素连接的所述编码参数的明确的信息。

14.一种终端，包括：

用于接收第一个位流的工具，所述位流是编码图像数据，所述编码根据预定的编码参数来加以执行；

用于接收或生成模式的实例的工具，该实例包含在所述第一个位流中发现的该数据，并构成树状表示；

硬件部分，它被配置成用于生成所述模式的改编的实例，并用于从所述改编的实例中生成改编的位流，

对所述终端，其特征在于：

所述实例包括关于所述编码参数的明确的信息；以及，

所述硬件部分被配置成用于：通过利用所述明确的信息，来生成改编的实例。

15.一种用于从原始位流中生成改编的位流的方法，所述方法包括：

接收所述原始位流；

根据某种格式而在句法上分析包含具有结构的数据的所述原始位流，所述分析步骤生成所述原始位流的树状表示；该方法包括：

读取一种从类属上描述所述格式的模式，所述模式包括该格式为其而描述数据的名称和类型的多个元素，以及与关于该编码方法的信息相关联的特殊元素；

在所述原始位流中搜索与这些元素相对应的该数据，这些元素包括所述模式中所包含的所述特殊元素；

生成所述模式的实例，该实例包含在所述原始位流中发现的该数据，并构成所述树状表示，所述实例进一步包括明确的信息，该信息被嵌入所述原始位流；

从所述改编的实例中生成所述改编的位流。

16.一种用于生成模式的实例的方法，构成位流的树状表示的所述实例是在图像的至少一个部分上应用编码方法的该结果，其中，可以在该位流中区别多个数据包，所述模式从类属上描述所述表示的该格式，并包括该格式为其而描述数据的名称和类型的多个元素，

该方法包括：

存取该图像；

执行为所述图像编码的步骤，

从而通过连接与所述元素相对应的、位流的各个部分，来生成该位流和所述实例；

对所述方法，其特征在于：

所述模式包括与如该编码方法所定义的数据包位置信息有关的特殊元素；以及，

所述实例包括关于所述数据包的额外的属性，所述额外的属性指出所述位流中的所述数据包的该位置，所述位置由该编码方法来定义。

17.一种图像编码装置，包括：

用于读取图像的工具；

硬件部分，它被配置成用于根据所述编码参数用于所述读取的图像编码，从而生成包括多个数据包的位流；以及，

该编码装置，它用于生成模式的实例，

所述模式从类属上描述所述表示的该格式，并包括它为其而描述数据的名称和类型的多个元素，

对所述装置，其特征在于：

所述模式包括与所述位流中的数据包位置有关的特殊元素；以及，

所述实例包括指出该位流内的所述数据包位置的、关于所述数据包的属性，所述属性与所述特殊元素连接。

18.一种用于从原始位流中生成改编的位流的方法，所述原始位流是在图像的至少一个部分上应用编码方法的该结果，其中，在所述原始位流中提供多个数据包，所述方法包括：

接收所述原始位流；

根据某种格式而在句法上分析包含具有结构的数据的所述原始位流，所述分析步骤生成所述原始位流的树状表示，并包括：

读取用于从类属上描述所述格式的模式，该模式包括它为其而描述数据的名称和类型的多个元素，以及与关于该编码方法的信息有关的特殊元素；

生成所述模式的实例，该实例包含在所述原始位流中发现的该数据，并构成所述树状表示，所述实例进一步包括关于所述数据包的额外的属性，所述额外的属性指出所述原始位流中的所述数据包的该位置；

生成所述模式的改编的实例，所述改编过程利用所述额外的属性；以及，

最后，从所述改编的实例中生成所述改编的位流。

19.一种用于显示来自从模式的实例中生成的位流的图像的一个部分的方法，该实例构成所述数据的树状表示，所述实例包含在位流中发现的该数据，所述位流是在图像的至少一个部分上应用编码方法和在所述结果上应用变换的该结果，所述位流进一步包括多个数据包，对所述方法，其特征在于：

所述模式的所述实例包括关于所述数据包的额外的属性，所述额外的属性根据与所述编码方法有关的预定义的扫描程序来指出所述数据包的该位置；以及，

所述显示包括：根据所述属性来至少选择一个数据包。

20.一种图像显示终端，包括：

图像显示器；

指示器工具，用于指出将要在所述图像显示器上显示该图像的哪个部分；

用于存取位流和模式的实例的工具，该实例构成所述位流的树状表示，所述实例包含在位流中发现的该数据，所述位流是将编码方法应用于图像的至少一个部分的该结果，所述位流进一步包括多个数据包；

硬件部分，它被配置成从所述指示器工具接收输入，对所述硬件部分，其特征在于：通过使用由所述实例提供的额外的属性，它根据来自所述位流的所述指示器工具输入来选择数据包，所述额外的属性根据与所述编码方法有关的预定义的扫描程序来指出所述位流中的所述数据包的该位置。