CN112237004A

CN112237004A - 用于发送信号通知叠层信息的系统和方法

Info

Publication number: CN112237004A
Application number: CN201980037790.1A
Authority: CN
Inventors: 萨钦·G·德施潘德
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-06-04
Filing date: 2019-05-28
Publication date: 2021-01-15
Also published as: JP2021526756A; US20210219013A1; WO2019235305A1

Abstract

本发明公开了一种可被配置为发送信号通知与全向视频相关联的叠层信息的设备。针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签。(参见段落[0075]。)发送信号通知对所述多个叠层的时变更新。(参见段落[0078]。)。

Description

用于发送信号通知叠层信息的系统和方法

技术领域

本公开涉及交互式视频分发领域，并且更具体地涉及用于在虚拟现实应用程序中发送信号通知叠层信息的技术。

背景技术

数字媒体回放功能可以结合到各种设备中，这些设备包括：数字电视(包括所谓的“智能”电视)、机顶盒、膝上型电脑或台式电脑、平板电脑、数字录音设备、数字媒体播放器、视频游戏设备、蜂窝电话(包括所谓的“智能”电话)、专用视频流设备等。数字媒体内容(例如，视频和音频编程)可以源自多个源，包括例如无线电视提供方、卫星电视提供方、有线电视提供方、在线媒体服务提供方(包括所谓的流媒体服务提供方)等。数字媒体内容可以通过分组交换网络递送，包括双向网络(诸如互联网协议(IP)网络)和单向网络(诸如数字广播网络)。

可以根据视频编码标准来对包括在数字媒体内容中的数字视频进行编码。视频编码标准可以结合视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4Visual和ITU-TH.264(也被称为ISO/IEC MPEG-4AVC)和高效视频编码(HEVC)。视频压缩技术能够减少存储和传输视频数据的数据需求。视频压缩技术可以通过利用视频序列中固有的冗余来减少数据需求。视频压缩技术可将视频序列再分成连续较小的部分(即，视频序列内的帧组、帧组内的帧、帧内的切片、切片内的编码树单元(例如，宏块)、编码树单元内的编码块等)。可以使用预测编码技术来生成待编码的单位视频数据与参考单位视频数据之间的差值。该差值可以被称为残差数据。残差数据可以被编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元。残差数据和语法元素可以包括在兼容比特流中。可以根据数据结构来格式化兼容比特流和相关联元数据。可以根据传输标准将兼容比特流和相关联元数据从源传输到接收器设备(例如，数字电视或智能电话)。传输标准的示例包括数字视频广播(DVB)标准、综合业务数字广播标准(ISDB)标准和由高级电视系统委员会(ATSC)开发的标准，包括例如ATSC 2.0标准。ATSC目前正在开发所谓的ATSC 3.0标准系列。

发明内容

在一个示例中，发送信号通知与全向视频相关联的叠层信息的方法包括：针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签；以及发送信号通知对该多个叠层的时变更新。

在一个示例中，确定与全向视频相关联的叠层信息的方法包括：针对多个叠层中的每个叠层，解析指示唯一标识符和标签的语法元素；以及基于所解析的语法元素的值渲染视频。

附图说明

图1是示出根据本公开的一种或多种技术的可被配置为传输经编码视频数据的系统的示例的框图。

图2A是示出根据本公开的一种或多种技术的经编码视频数据和对应数据结构的概念图。

图2B是示出根据本公开的一种或多种技术的经编码视频数据和对应数据结构的概念图。

图3是示出根据本公开的一种或多种技术的经编码视频数据和对应数据结构的概念图。

图4是示出根据本公开的一种或多种技术的坐标系的示例的概念图。

图5A是示出根据本公开的一种或多种技术的指定球体上的区域的示例的概念图。

图5B是示出根据本公开的一种或多种技术的指定球体上的区域的示例的概念图。

图6是示出根据本公开的一种或多种技术的可被包括在可被配置为传输经编码视频数据的系统的具体实施中的部件的示例的概念图。

图7是示出可实现本公开的一种或多种技术的接收器设备的示例的框图。

具体实施方式

一般来讲，本公开描述了用于发送信号通知与虚拟现实应用程序相关联的信息的各种技术。具体地讲，本公开描述了用于发送信号通知叠层信息的技术。应当指出的是，尽管在一些示例中，相对于传输标准描述了本公开的技术，但本文所述的技术可以是普遍适用的。例如，本文所述的技术通常适用于DVB标准、ISDB标准、ATSC标准、数字地面多媒体广播(DTMB)标准、数字多媒体广播(DMB)标准、混合广播和宽带电视(HbbTV)标准、万维网联盟(W3C)标准和通用即插即用(UPnP)标准中的任一者。此外，应当指出的是，尽管本公开的技术相对于ITU-T H.264和ITU-T H.265进行描述，但本公开的技术可普遍适用于视频编码，包括全向视频编码。例如，本文所述的编码技术可结合到视频编码系统(包括基于未来视频编码标准的视频编码系统)中，包括块结构、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或熵编码技术，不同于ITU-T H.265中包括的那些技术。因此，对ITU-T H.264和ITU-T H.265的参考用于描述性目的，并且不应将其解释为限制本文所述的技术的范围。此外，应当指出的是，将文献以引用方式并入本文不应被解释为限制或产生相对于本文所用术语的歧义。例如，在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文所用的该术语的情况下，则该术语应以广泛地包括每个相应定义的方式和/或以包括替代方案中每个特定定义的方式来解释。

在一个示例中，设备包括一个或多个处理器，该一个或多个处理器被配置为：针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签；并且发送信号通知对该多个叠层的时变更新。

在一个示例中，非暂态计算机可读存储介质包括存储在其上的指令，这些指令在被执行时使得设备的一个或多个处理器：针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签；并且发送信号通知对该多个叠层的时变更新。

在一个示例中，装置包括：用于针对多个叠层中的每个叠层发送信号通知唯一标识符和标签的装置；以及用于发送信号通知该多个叠层的时变更新的装置。

在一个示例中，设备包括一个或多个处理器，该一个或多个处理器被配置为：针对多个叠层中的每个叠层，解析指示唯一标识符和标签的语法元素；并且基于所解析的语法元素的值渲染视频。

在一个示例中，非暂态计算机可读存储介质包括存储在其上的指令，这些指令在被执行时使得设备的一个或多个处理器：针对多个叠层中的每个叠层，解析指示唯一标识符和标签的语法元素；并且基于所解析的语法元素的值渲染视频。

在一个示例中，装置包括：用于针对多个叠层中的每个叠层，解析指示唯一标识符和标签的语法元素的装置；以及用于基于所解析的语法元素的值渲染视频的装置。

在以下附图和描述中阐述了一个或多个示例的细节。其他特征、对象和优点将从描述和附图以及权利要求书中显而易见。

视频内容通常包括由一系列帧组成的视频序列。一系列帧也可以被称为一组图片(GOP)。每个视频帧或图片可以包括一个或多个切片，其中切片包括多个视频块。视频块可以被定义为可以被预测性地编码的像素值(也被称为样本)的最大阵列。视频块可以根据扫描模式(例如，光栅扫描)来排序。视频编码器对视频块及其子分区执行预测编码。ITU-TH.264指定包括16×16亮度样本的宏块。ITU-T H.265指定类似的编码树单元(CTU)结构，其中图片可以被分割成相同大小的CTU，并且每个CTU可以包括具有16×16、32×32或64×64亮度样本的编码树块(CTB)。如本文所用，术语“视频块”通常可以指图片的区域，或者可以更具体地指可以被预测性地编码的像素值的最大阵列、其子分区和/或对应结构。此外，根据ITU-T H.265，每个视频帧或图片可以被分区为包括一个或多个图块，其中图块是对应于图片的矩形区域的编码树单元序列。

在ITU-T H.265中，可以根据对应的四叉树块结构将CTU的CTB分区成编码块(CB)。根据ITU-T H.265，一个亮度CB连同两个对应的色度CB和相关联语法元素被称为编码单元(CU)。CU与对于CU定义一个或多个预测单元(PU)的预测单元(PU)结构相关联，其中PU与对应的参考样本相关联。也就是说，在ITU-T H.265中，使用帧内预测或帧间预测来对图片区域进行编码的决定是在CU级别下进行的，并且对于CU，对应于帧内预测或帧间预测的一个或多个预测可用于生成CU的CB的参考样本。在ITU-T H.265中，PU可以包括亮度和色度预测块(PB)，其中方形PB被支持用于帧内预测，并且矩形PB被支持用于帧间预测。帧内预测数据(例如，帧内预测模式语法元素)或帧间预测数据(例如，运动数据语法元素)可将PU与对应的参考样本相关联。残差数据可以包括对应于视频数据的每个分量(例如，亮度(Y)和色度(Cb和Cr))的相应差值阵列。残差数据可能在像素域中。可对像素差值应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换，以生成变换系数。应当指出的是，在ITU-T H.265中，CU可以进一步再分为变换单元(TU)。也就是说，为了生成变换系数，可以对像素差值的阵列进行再分(例如，可以将四个8×8变换应用于与16×16亮度CB对应的16×16残差值阵列)，此类子分区可以被称为变换块(TB)。可以根据量化参数(QP)来量化变换系数。可以根据熵编码技术(例如，内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间划分熵编码(PIPE)等)对量化的变换系数(可以被称为位阶值)进行熵编码。此外，也可对语法元素(诸如，指示预测模式的语法元素)进行熵编码。熵编码量化变换系数和对应的熵编码语法元素可形成可用于再现视频数据的兼容比特流。作为熵编码处理的一部分，可以对语法元素执行二值化处理。二值化是指将语法值转换为一个或多个比特的序列的过程。这些比特可以被称为“二进制位”。

虚拟现实(VR)应用程序可以包括可利用头戴式显示器渲染的视频内容，其中仅渲染对应于用户头部的取向的球形视频的区域。VR应用程序可以通过全向视频启用，该全向视频也被称为360°视频中的360°球形视频。全向视频通常由多个相机捕获，这些相机覆盖高达360°的场景。与普通视频相比，全向视频的显著特征在于，通常仅显示整个捕获视频区域的子集，即，显示对应于当前用户的视场(FOV)的区域。FOV有时也被称为视区。在其他情况下，视区可以被描述为球形视频中当前被显示并由用户查看的部分。应当指出的是，视区的尺寸可小于或等于视场。此外，应当指出的是，可以使用单视场相机或立体相机捕获全向视频。单视场相机可以包括捕获对象的单个视图的相机。立体相机可以包括捕获同一对象的多个视图(例如，使用两个镜头在略微不同的角度下捕获视图)的相机。应当指出的是，在一些情况下，视区的中心点可以被称为视点。然而，如本文所用，术语“视点”在与相机相关联时(例如，相机视点)可以指与用于捕获对象的视图的相机相关联的信息(例如，相机参数)。此外，应当指出的是，在一些情况下，可以使用超广角镜头(即，所谓的鱼眼镜头)捕获用于全向视频应用程序中的图像。在任何情况下，通常可以将用于创建360°球形视频的过程描述为将输入图像拼接在一起并将拼接在一起的输入图像投影到三维结构(例如，球体或立方体)上，这可以导致形成所谓的投影帧。此外，在一些情况下，可以对投影帧的区域进行变换、尺寸调整和重新定位，这可以得到所谓的封装帧。

传输系统可被配置为将全向视频传输到一个或多个计算设备。计算设备和/或传输系统可基于包括一个或多个抽象层的模型，其中每个抽象层的数据根据特定结构表示，例如，分组结构、调制方案等。包括已定义的抽象层的模型的示例是所谓的开放系统互连(OSI)模型。OSI模型定义了7层堆栈模型，包括应用层、呈现层、会话层、传输层、网络层、数据链路层和物理层。应当指出的是，相对于描述堆栈模型中的层，术语“上”和“下”的使用可基于作为最上层的应用程序层和作为最下层的物理层。此外，在一些情况下，术语“层1”或“L1”可以用于指物理层，术语“层2”或“L2”可以用于指链路层，并且术语“层3”或“L3”或“IP层”可以用于指网络层。

物理层通常可以指电信号形成数字数据的层。例如，物理层可以指定义调制的射频(RF)符号如何形成数字数据帧的层。数据链路层(也可以被称为链路层)可以指在发送侧的物理层处理之前以及在接收侧的物理层接收之后使用的抽象层。如本文所用，链路层可以指用于在发送侧处将数据从网络层传输到物理层并且用于在接收侧处将数据从物理层传输到网络层的抽象层。应当指出的是，发送侧和接收侧是逻辑角色，并且单个设备可以在一个实例中作为发送侧操作并且在另一个实例中作为接收侧操作。链路层可以将封装在特定分组类型(例如，运动图像专家组-传输流(MPEG-TS)分组、互联网协议第4版(IPv4)分组等)中的各种类型的数据(例如，视频、音频或应用程序文件)抽象为单个通用格式，以供物理层处理。网络层通常可以指发生逻辑寻址的层。也就是说，网络层通常可以提供寻址信息(例如，互联网协议(IP)地址)，使得数据分组可以被递送到网络内的特定节点(例如，计算设备)。如本文所用，术语“网络层”可以指链路层上方的层和/或结构中具有数据使得可以接收该数据以用于链路层处理的层。传输层、会话层、呈现层和应用程序层中的每一者均可以定义如何递送数据以供用户应用程序使用。

Wang等人，ISO/IEC JTC1/SC29/WG11 N17584，“WD 1 of ISO/IEC 23090-2 OMAF2nd edition”，2018年4月，San Diego，US，该文献以引用方式并入本文并且在本文中被称为Wang，定义了启用全向媒体应用程序的媒体应用格式。Wang指定了用于全向视频的坐标系；可用于将球形视频序列或图像分别转换成二维矩形视频序列或图像的投影和矩形区域式封装方法；使用ISO基础媒体文件格式(ISOBMFF)存储全向媒体和相关联元数据；媒体流传输系统中的全向媒体的封装、发送信号通知和流传输；以及媒体配置文件和呈现配置文件。应当指出的是，为了简洁起见，本文未提供对Wang的完整描述。然而，参考了Wang的相关部分。

Wang提供其中根据ITU-T H.265对视频进行编码的媒体配置文件。ITU-T H.265在2016年12月的ITU-T H.265建议书的高效视频编码(HEVC)中有所描述，该文献以引用方式并入本文，并且在本文中称为ITU-T H.265。如上所述，根据ITU-T H.265，每个视频帧或图片可以被分区为包括一个或多个切片，并且进一步被分区为包括一个或多个图块。图2A至图2B是示出包括切片并将图片进一步分区为图块的一组图片的示例的概念图。在图2A所示的示例中，图片4被示出为包括两个切片(即，切片₁和切片₂)，其中每个切片包括CTU序列(例如，以光栅扫描顺序排列)。在图2B所示的示例中，图片4被示出为包括六个图块(即，图块₁至图块₆)，其中每个图块是矩形的并且包括CTU序列。应当指出的是，在ITU-T H.265中，图块可以由包含在不止一个切片中的编码树单元组成，并且切片可以由包含在不止一个图块中的编码树单元组成。然而，ITU-T H.265规定应满足以下一个或两个条件：(1)切片中的所有编码树单元属于同一个图块；以及(2)图块中的所有编码树单元属于同一个切片。

360°球形视频可以包括区域。参考图3所示的示例，360°球形视频包括区域A、区域B和区域C，并且如图3所示，图块(即，图块₁至图块₆)可形成全向视频的区域。在图3所示的示例中，这些区域中的每个区域被示出为包括CTU。如上所述，CTU可形成编码视频数据的切片和/或视频数据的图块。此外，如上所述，视频编码技术可以根据视频块、其子分区和/或对应的结构对图片的区域进行编码，并且应当指出的是，视频编码技术使得视频编码参数能够在视频编码结构的各种水平上进行调整，例如，针对切片、图块、视频块和/或在子分区进行调整。在一个示例中，图3所示的360°视频可以表示体育赛事，其中区域A和区域C包括体育场的看台的视图，区域B包括运动场的视图(例如，视频是通过位于50码线处的360°相机捕获的)。

如上所述，视区可以是球形视频中当前被显示并由用户查看的部分。因此，可以根据用户的视区选择性地递送全向视频的区域，即，可以在全向视频流中启用视区相关的递送。通常，为了启用视区相关的递送，在编码之前将源内容分割成子图片序列，其中每个子图片序列覆盖全向视频内容的空间区域的子集，然后将子图片序列彼此独立地编码为单层比特流。例如，参考图3，区域A、区域B和区域C中的每者或其部分可以对应于独立编码子图片比特流。每个子图片比特流可以被封装在文件中作为其自身的轨道，并且可以基于视区信息选择性地将轨道递送到接收器设备。应当指出的是，在一些情况下，子图片可能重叠。例如，参考图3，图块₁、图块₂、图块₄和图块₅可形成子图片，并且图块₂、图块₃、图块₅和图块₆可形成子图片。因此，特定样本可以被包括在多个子图片中。Wang提供了组合对齐的样本包括轨道中的与另一个轨道相关联的样本中的一个样本的情况，该样本具有与该另一个轨道中的特定样本相同的组合时间，或者提供了当在该另一个轨道中具有相同的组合时间的样本不可用时，该样本具有相对于该另一个轨道中的特定样本的组合时间最近的先前组合时间。此外，Wang提供了组成图片包括对应于一个视图的空间帧封装立体图片的一部分的情况，或者当不使用帧封装或使用时间交织帧封装布置时，提供图片本身。

如上所述，Wang指定了用于全向视频的坐标系。在Wang中，坐标系由单位球体和三个坐标轴组成，即X(从后往前)轴、Y(侧向，从左往右)轴和Z(竖直，从下往上)轴，其中三个轴交于球体的中心。球体上的点的位置由一对球体坐标方位角

和仰角(θ)识别。图4示出了球体坐标方位角

和仰角(θ)与如在Wang中指定的X、Y和Z坐标轴的关系。应当指出的是，在Wang中，方位角的值范围是-180.0°(包括端值)至180.0°(不包括端值)，并且仰角的值范围是-90.0°至90.0°(包括端值)。Wang指定了球体上的区域可由四个大圆来指定的情况，其中大圆(也被称为黎曼圆)是球体与穿过该球体的中心点的平面的交点，其中球体的中心和大圆的中心是协同定位的。Wang还描述了球体上的区域可由两个方位角圆和两个仰角圆指定的情况，其中方位角圆是球体上的连接具有相同方位角值的所有点的圆，并且仰角圆是球体上的连接具有相同仰角值的所有点的圆。Wang中的球体区域结构形成用于发送信号通知各种类型的元数据的基础。

应当指出的是，关于本文所用的公式，可以使用以下算术运算符：

+加法

-减法(作为双参数运算符)或负数(作为一元前缀运算符)

*乘法，包括矩阵乘法

x^y求幂。将x指定为y的幂。在其他上下文中，此类符号用于上标而非旨在用于解释为求幂。

/将结果向着零截断的整数除法。例如，将7/4和-7/-4截断为1，将-7/4和7/-4截断为-1。

÷在不旨在进行截断或舍入情况下用于表示数学公式中的除法。

x/y在不旨在进行截断或舍入情况下用于表示数学公式中的除法。

x％y模量。x除以y的余数，仅针对x≥0且y>0的整数x和y定义。

应当指出的是，关于本文所用的公式，可以使用以下逻辑运算符：

x&&y x和y的布尔逻辑“和”

x||y x和y的布尔逻辑“或”

！布尔逻辑“否”

x？y:z如果x为TRUE或不等于0，则求值为y；否则，求值为z。

应当指出的是，关于本文所用的公式，可以使用以下关系运算符：

>大于

≥大于或等于

<小于

≤小于或等于

＝＝等于

！＝不等于

应当指出的是，在本文所用的语法中，unsigned int(n)是指具有n个比特的无符号整数。此外，bit(n)是指具有n个比特的比特值。

如上所述，Wang指定了如何利用国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储全向媒体和相关联元数据。Wang指定了支持元数据的文件格式的情况，该元数据指定由投影帧覆盖的球形表面的区域。具体地讲，Wang包括球体区域结构，该球体区域结构指定具有以下定义、语法和语义的球体区域：

定义

球体区域结构(SphereRegionStruct)指定球体区域。

当centre_tilt等于0时，由该结构指定的球体区域如下导出：

-如果azimuth_range和elevation_range二者均等于0，则由该结构指定的球体区域是球形表面上的点。

-否则，使用如下导出的变量centreAzimuth、centreElevation、cAzimuth1、cAzimuth、cElevation1和cElevation2来定义球体区域：

centreAzimuth＝centre_azimuth÷65536

centreElevation＝centre_elevation÷65536

cAzimuth1＝(centre_azimuth–azimuth_range÷2)÷65536

cAzimuth2＝(centre_azimuth+azimuth_range÷2)÷65536

cElevation1＝(centre_elevation–elevation_range÷2)÷65536

cElevation2＝(centre_elevation+elevation_range÷2)÷65536

参考包含SphereRegionStruct的该实例的结构的语义中指定的形状类型值来如下定义球体区域：

-当形状类型值等于0时，球体区域由四个点cAzimuth1、cAzimuth2、cElevation1、cElevation2定义的四个大圆以及centreAzimuth和centreElevation定义的中心点指定，并且如图5A所示。

-当形状类型值等于1时，球体区域由四个点cAzimuth1、cAzimuth2、cElevation1、cElevation2定义的两个方位角圆和两个仰角圆以及centreAzimuth和centreElevation定义的中心点指定，并且如图5B所示。

当centre_tilt不等于0时，首先如上导出球体区域，然后沿着源自球体原点穿过球体区域的中心点的轴线应用倾斜旋转，其中当从原点朝轴线的正方向观察时，角度值顺时针增大。最终球体区域是应用了倾斜旋转之后的那一个球体区域。

形状类型值等于0指定球体区域由四个大圆指定，如图5A中所示。

形状类型值等于1指定球体区域由两个方位角圆和两个仰角圆指定，如图5B所示。

预留大于1的形状类型值。

语法

语义

centre_azimuth和centre_elevation指定球体区域的中心。

centre_azimuth应在-180*2¹⁶至180*2¹⁶-1(包括端值)的范围内。centre_elevation应在-90*2¹⁶至90*2¹⁶(包括端值)的范围内。

centre_tilt指定球体区域的倾斜角，centre_tilt应在-180*2¹⁶至180*2¹⁶-1(包括端值)的范围内。

azimuth_range和elevation_range(当存在时)分别指定由该结构指定的球体区域的以2^-16°为单位的方位角和仰角范围。azimuth_range和elevation_range指定穿过球体区域的中心点的范围，如图5A或图5B所示。当SphereRegionStruct的该实例中不存在azimuth_range和elevation_range时，如包含SphereRegionStruct的该实例的结构的语义中所指定的那样推断它们。azimuth_range应在0至360*2¹⁶(包括端值)的范围内。elevation_range应在0至180*2¹⁶(包括端值)的范围内。

interpolate的语义由包含SphereRegionStruct的该实例的结构的语义指定。

如上所述，Wang中的球体区域结构形成用于发送信号通知各种类型的元数据的基础。关于为球体区域指定通用定时元数据轨道语法，Wang指定了样本条目和样本格式。该样本条目结构被指定为具有以下定义、语法和语义：

定义

样本条目中应只存在一个SphereRegionConfigBox。

SphereRegionConfigBox指定由样本指定的球体区域的形状。当样本中的球体区域的方位角和仰角范围不变时，可以在样本条目中指示该方位角和仰角范围。

语法

语义

shape_type等于0指定球体区域由四个大圆指定。shape_type等于1指定球体区域由两个方位角圆和两个仰角圆指定。预留大于1的shape_type值。当将描述球体区域的子句(上文提供)应用于球体区域元数据轨道的样本的语义时，shape_type的值用作形状类型值。

dynamic_range_flag等于0指定球体区域的方位角和仰角范围在参考该样本条目的所有样本中保持不变。dynamic_range_flag等于1指定在样本格式中指示球体区域的方位角和仰角范围。

static_azimuth__range和static_elevation_range分别指定参考该样本条目的每个样本的以2^-16°为单位的球体区域的方位角和仰角范围。static_azimuth_range和static_elevation_range指定穿过球体区域的中心点的范围，如图5A或图5B所示。static_azimuth_range应在0至360*2¹⁶(包括端值)的范围内。static_elevation_range应在0至180*2¹⁶(包括端值)的范围内。当static_azimuth_range和static_elevation_range存在且二者均等于0时，参考该样本条目的每个样本的球体区域是球形表面上的点。当存在static_azimuth_range和static_elevation_range时，当将描述球体区域的子句(上文提供)应用于球体区域元数据轨道的样本的语义时，推断azimuth_range和height_range的值分别等于static_azimuth_range和static_elevation_range。

num_regions指定参考该样本条目的样本中的球体区域的数量，num_regions应等于1。预留num_regions的其他值。

该样本格式结构被指定为具有以下定义、语法和语义：

定义

每个样本指定球体区域。SphereRegionSample结构可在导出的轨道格式中扩展。

语法

语义

将上文提供的球体区域结构子句应用于包含SphereRegionStruct结构的样本。

假设目标媒体样本是参考媒体轨道中的媒体样本，其组合时间大于或等于该样本的组合时间且小于下一个样本的组合时间。

interpolate等于0指定该样本中的centre_azimuth、centre_elevation、centre_tilt、azimuth_range(如果存在的话)和elevation_range(如果存在的话)的值应用于目标媒体样本，interpolate等于1指定应用于目标媒体样本的centre_azimuth、centre_elevation、centre_tilt、azimuth_range(如果存在的话)和elevation_range(如果存在的话)的值是从该样本和先前样本中的对应字段的值线性插入的。

用于同步样本、轨道的第一样本和轨道片段的第一样本的interpolate的值应等于0。

在Wang中，可基于样本条目和样本格式发送信号通知定时元数据。例如，Wang包括具有以下定义、语法和语义的初始查看取向元数据：

定义

该元数据指示当播放相关联媒体轨道或存储为图像项的单个全向图像时应当使用的初始查看取向。在该类型的元数据不存在的情况下，应推断出centre_azimuth、centre_elevation和centre_tilt均等于0。

OMAF(全向媒体格式)播放器应使用如下所示或推断的centre_azimuth、centre_elevation和centre_tilt值：

-如果OMAF播放器的取向/视区元数据是基于包括在或附接到查看设备的取向传感器获得的，则OMAF播放器应

○遵守仅centre_azimuth值，并且

○忽略centre_elevation和centre_tilt的值并使用来自取向传感器的相应值代替。

-否则，OMAF播放器应遵守全部三个centre_azimuth、centre_elevation和centre_tilt。

应使用轨道样本条目类型“初始视图定向定时元数据”。

在样本条目的SphereRegionConfigBox中，shape_type应等于0，dynamic_range_flag应等于0，static_azimuth_range应等于0，并且static_elevation_range应等于0。

注释：该元数据应用于任何视区，无论视区覆盖哪个方位角和仰角范围。因此，dynamic_range_flag、static_azimuth_range和static_elevation_range不影响该元数据涉及的视区的尺寸，从而需要等于0。当OMAF播放器遵守如上推断的centre_tilt值时，可以通过将视区的球体区域的方位角和仰角范围设置为等于实际用于显示视区的那些方位角和仰角范围来解释centre_tilt值。

语法

语义

注释1：当样本结构从SphereRegionSample扩展时，SphereRegionSample的语法元素包括在样本中。

centre_azimuth、centre_elevation和centre_tilt指定相对于全局坐标轴以2^-16°为单位的查看取向。centre_azimuth和centre_elevation指示视区的中心，centre_tilt指示视区的倾斜角。

interpolate应等于0。

refresh_flag等于0指定在从相关联媒体轨道中的时间并行样本开始回放时应使用所指示的查看取向。refresh_flag等于1指定在渲染每个相关联媒体轨道的时间并行样本(即均连续回放)时以及在从时间并行样本开始回放时应始终使用所指示的查看取向。

注释2：refresh_flag等于1使内容作者能够指示即使在连续播放视频时也推荐特定的查看取向。例如，可针对场景剪辑位置指示等于1的refresh_flag。

此外，Wang如下指定推荐视区定时元数据轨道：

推荐视区定时元数据轨道指示当用户无法控制查看取向或已释放对查看取向的控制时应显示的视区。

注释：推荐视区定时元数据轨道可用于基于导演剪辑或基于查看统计值的测量来指示推荐视区。

应使用轨道样本条目类型“rcvp”。

该样本条目类型的样本条目如下指定：

viewport_type指定如表1中列出的推荐视区的类型。

值	描述
		0	每个导演剪辑的推荐视区，即，根据内容作者或内容提供商的创意意图建议的视区
1	基于查看统计值的测量结果而选择的推荐视区
		2..239	预留
240..255	未指定(供应用程序或外部规范使用)

表1

viewport_description是提供对推荐视区的文本描述的空封端的UTF-8字符串。

应使用SphereRegionSample的样本语法。

在样本条目的SphereRegionConfigBox中，shape_type应等于0。

static_azimuth_range和static_elevation_range(当存在时)或azimuth_range和elevation_range(当存在时)分别指示推荐视区的方位角和仰角范围。

centre_azimuth和centre_elevation指示推荐视区相对于全局坐标轴的中心点。centre_tilt指示推荐视区的倾斜角。

定时文本用于为全向视频提供字幕和隐藏式字幕。在Wang中，定时文本提示可在相对于球体的某个区域上(即，仅在用户沿特定方向观看时可见)进行渲染，或者其可在当前视区上的区域中(即，始终可见，且不管查看方向如何)进行渲染，在这种情况下，文本/提示区域位置相对于当前视区。具体地讲，Wang为定时文本配置框提供了以下定义、语法和语义：

定义

框类型：“otcf”

容器：XMLSubtitleSampleEntry或WVTTSampleEntry

强制性的：是(用于与全向视频轨道相关联的定时文本轨道)

数量：一(用于与全向视频轨道相关联的定时文本轨道)

该框提供用于与全向视频一起呈现定时文本的配置信息。

语法

语义

relative_to_viewport_flag指定如何渲染定时文本提示。值1指示定时文本预期总是存在于显示屏上，即，文本提示独立于用户的查看方向是可见的。值0指示定时文本预期在球体上的某个位置处进行渲染，即，文本提示仅在用户沿渲染文本提示的方向观看时可见。

注释1：当relative_to_viewport_flag等于1时，定时文本轨道将可显示定时文本的活动区域提供为矩形区域。

relative_disparity_flag指示视差是作为一个视图的显示窗口的宽度的百分比值(当该值等于1时)还是作为像素的数量(当该值等于0时)来提供。

depth_included_flag等于1指示存在要在其上渲染定时文本的区域的深度(z值)。值0指示不存在要渲染定时文本的区域的深度(z值)。

region_count指定为其提供球体内的位置的文本区域的数量。每个区域由标识符标识。(WebVTT和TTML两者均使用唯一id来标识区域)。当包含定时文本球体元数据轨道的定时元数据轨道存在并且通过类型'cdsc'的轨道参考链接到该定时文本轨道时，region_count的值应为0。

注释2：WebVTT和TTML两者均使用唯一标识符来标识区域。

region_id提供文本区域的标识符。该标识符应等于在IMSC1或WebVTT轨道中的定时文本流中定义的对应区域的标识符。

disparity_in_percent指示视差，以2^-16为单位，作为一个视图的显示窗口宽度的一部分。该值可以是负的，在这种情况下位移方向是相反的。该值用于在左眼视图中向左移动区域，在右眼视图中向右移动区域。

disparity_in_pixels指示像素的视差。该值可以是负的，在这种情况下位移方向是相反的。该值用于在左眼视图中向左移动区域，在右眼视图中向右移动区域。

SphereRegionStruct()指示球体位置，该球体位置与其他信息一起用于确定在3D空间中放置并显示定时文本的位置。球体中心与该球体位置之间的矢量是要在其上渲染定时文本提示的渲染3D平面的法向矢量。该信息和3D平面的深度用于确定要在其上渲染定时文本提示的3D空间中渲染3D平面的位置。

当SphereRegionStruct()被包括在OmafTimedTextConfigBox中时，以下情况适用：

对于包括在OmafTimedTextConfigBox中的SphereRegionStruct()的语法和语义，shape_type、dynamic_range_flag、static_azimuth_range和static_elevation_range的值均被推断为等于0。

centre_azimuth和centre_elevation指定球体位置，该球体位置与其他信息一起用于确定在3D空间中放置并显示定时文本的位置，centre_azimuth应在-180*2¹⁶至180*2¹⁶-1(包括端值)的范围内，centre_elevation应在-90*2¹⁶至90*2¹⁶(包括端值)的范围内。

centre_tilt应等于0。

region_depth指示要在其上渲染定时文本的区域的深度(z值)。深度值是定时文本区域的法向矢量的范数。该值相对于单位球体并且以2^-16为单位。

Wang还包括用于实现打开和关闭叠层(例如徽标)的叠层结构。叠层可被定义为在360°视频内容上渲染视觉媒体。该视觉媒体可包括视频、图像和文本中的一者或多者。此外，Wang为叠层结构提供以下定义、语法和语义：

定义

OverlayStruct指定每个叠层的叠层相关元数据。

语法

语义

num_overlays指定由该结构描述的叠层的数量。预留num_overlays等于0。

num_flag_bytes指定由overlay_control_flag[i]语法元素共同分配的字节数。预留num_flag_bytes等于0。

当overlay_control_flag[i]设置为1时，表示存在由第i个overlay_control_struct[i]定义的结构。对于所有i值，OMAF播放器都应允许overlay_control_flag[i]的两个值。

overlay_control_essential_flag[i]等于0指定不需要OMAF播放器来处理由第i个overlay_control_struct[i]定义的结构。

overlay_control_essential_flag[i]等于1指定OMAF播放器应处理由第i个overlay_control_struct[i]定义的结构。当overlay_control_essential_flag[i]等于1并且OMAF播放器不能够解析或处理由第i个overlay_control_struct[i]定义的结构时，OMAF播放器既不显示由该结构指定的叠层也不显示背景视觉媒体。

byte_count[i]给出了由第i个overlay_control_struct[i]表示的结构的字节计数。

overlay_control_struct[i][byte_count[i]]定义了具有由byte_count[i]定义的字节计数的第i个结构，

Wang还提供了用于存储包含在轨道中的叠层的静态元数据的叠层配置框，如下所述：

框类型：“ovly”

容器：ProjectedOmniVideoBox

强制性的：否

数量：零或一

OverlayConfigBox被定义为存储包含在该轨道中的叠层的静态元数据。

class Overlay ConfigBox(type)extends FullBox(′ovly′，0，0}{

OverlavStruct()；

}

Wang还提供了用于存储包含在相关联图像项中的叠层的静态元数据的叠层项属性：

框类型：“ovly”

容器：ItemPropertyContainerBox

强制性的：否

数量：零或一

OverlayConfigProperty被定义为存储包含在相关联图像项中的叠层的静态元数据。

class OverlayConfigProperty(type)extends ItemFullProperty(′ovly′，0，0){

OverlayStruct()；

}

Wang中提供的叠层结构可能不太理想。具体地讲，叠层可随时间推移改变，并且Wang无法提供叠层的动态信令。此外，Wang中的信令对于多个叠层可能不太理想。根据本文的技术，对于每个叠层，可以发送信号通知用于指示多个叠层的相对顺序的叠层顺序。此外，根据本文的技术，对于每个叠层，可以发送信号通知叠层标识符。叠层标识符可用于在不同时间激活和去激活一个或多个叠层的有效动态信令。

图1是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行编码(例如，编码和/或解码)的系统的示例的框图。系统100表示可以根据本公开的一种或多种技术来封装视频数据系统的示例。如图1所示，系统100包括源设备102、通信介质110和目标设备120。在图1所示的示例中，源设备102可以包括被配置为对视频数据进行编码并将编码视频数据传输到通信介质110的任何设备。目标设备120可以包括被配置为经由通信介质110接收编码视频数据并且对编码视频数据进行解码的任何设备。源设备102和/或目标设备120可以包括配备用于进行有线和/或无线通信的计算设备，并且可以包括例如机顶盒、数字视频录像机、电视机、台式电脑、膝上型电脑或平板电脑、游戏控制台、医学成像设备和移动设备(包括例如智能电话、蜂窝电话、个人游戏设备)。

通信介质110可以包括无线和有线通信介质和/或存储设备的任意组合。通信介质110可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。通信介质110可以包括一个或多个网络。例如，通信介质110可以包括被配置为允许访问万维网例如互联网的网络。网络可以根据一个或多个电信协议的组合操作。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合服务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球移动通信系统(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气与电子工程师协会(IEEE)标准。

存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂态计算机可读介质。计算机可读介质可以包括光盘、闪存存储器、磁存储器或任何其他合适的数字存储介质。在一些示例中，存储器设备或其部分可以被描述为非易失性存储器，并且在其他示例中，存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除和可编程(EEPROM)存储器的形式。一个或多个存储设备可以包括存储卡(例如，安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。数据可以根据定义的文件格式存储在存储设备上。

图6是示出可以被包括在系统100的具体实施中的部件的示例的概念图。在图6所示的示例具体实施中，系统100包括一个或多个计算设备402A至402N、电视服务网络404、电视服务提供方站点406、广域网408、局域网410以及一个或多个内容提供方站点412A至412N。图6中所示的具体实施表示系统的示例，该系统可被配置为允许数字媒体内容(诸如电影、现场体育赛事等)和与其相关联的数据和应用程序以及媒体呈现被分发到多个计算设备(诸如计算设备402A至402N)并由该多个计算设备访问。在图6所示的示例中，计算设备402A至402N可以包括被配置为从电视服务网络404、广域网408和/或局域网410中的一者或多者接收数据的任何设备。例如，计算设备402A至402N可以配备用于有线和/或无线通信，并且可被配置为通过一个或多个数据信道接收服务，并且可以包括电视，包括所谓的智能电视、机顶盒和数字视频记录器。此外，计算设备402A至402N可以包括台式计算机、膝上型计算机或平板计算机、游戏控制台、移动设备(包括例如“智能”电话、蜂窝电话和个人游戏设备)。

电视服务网络404是被配置为允许分发可以包括电视服务的数字媒体内容的网络的示例。例如，电视服务网络404可以包括公共空中电视网络、公共或基于订阅的卫星电视服务提供方网络，以及公共或基于订阅的有线电视提供方网络和/或云上或互联网服务提供方。应当指出的是，尽管在一些示例中，电视服务网络404可以主要用于允许提供电视服务，但是电视服务网络404还可以根据本文所述的电信协议的任何组合允许提供其他类型的数据和服务。此外，应当指出的是，在一些示例中，电视服务网络404可以允许电视服务提供方站点406与计算设备402A至402N中的一个或多个之间的双向通信。电视服务网络404可以包括无线和/或有线通信媒体的任何组合。电视服务网络404可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。电视服务网络404可以根据一个或多个电信协议的组合操作。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准、有线数据服务接口规范(DOCSIS)标准、HbbTV标准、W3C标准和UPnP标准。

再次参考图6，电视服务提供方站点406可被配置为经由电视服务网络404分发电视服务。例如，电视服务提供方站点406可以包括一个或多个广播站、有线电视提供方、或卫星电视提供方、或基于互联网的电视提供方。例如，电视服务提供方站点406可被配置为通过卫星上行链路/下行链路接收传输(包括电视节目)。此外，如图6所示，电视服务提供方站点406可以与广域网408通信，并且可被配置为从内容提供方站点412A至412N接收数据。应当指出的是，在一些示例中，电视服务提供方站点406可以包括电视演播室，并且内容可以源自该电视演播室。

广域网408可以包括基于分组的网络，并且根据一个或多个电信协议的组合运营。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括全球系统移动通信(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、欧洲标准(EN)、IP标准、无线应用协议(WAP)标准、以及电气与电子工程师协会(IEEE)标准，诸如，一个或多个IEEE 802标准(例如，Wi-Fi)。广域网408可以包括无线和/或有线通信媒体的任何组合。广域网480可以包括同轴电缆、光纤电缆、双绞线电缆、以太网电缆、无线发射器和接收器、路由器、交换机、中继器、基站、或可用于促进各种设备和站点之间的通信的任何其他设备。在一个示例中，广域网408可以包括互联网。局域网410可以包括基于分组的网络，并且根据一个或多个电信协议的组合运营。可以基于访问级别和/或物理基础设施将局域网410与广域网408区分开。例如，局域网410可以包括安全家庭网络。

再次参考图6，内容提供方站点412A至412N表示可以向电视服务提供方站点406和/或计算设备402A至402N提供多媒体内容的站点的示例。例如，内容提供方站点可以包括具有一个或多个工作室内容服务器的工作室，该工作室内容服务器被配置为向电视服务提供方站点406提供多媒体文件和/或流。在一个示例中，内容提供方站点412A至412N可被配置为使用IP套件提供多媒体内容。例如，内容提供方站点可被配置为根据实时流协议(RTSP)、HTTP等向接收器设备提供多媒体内容。此外，内容提供方站点412A至412N可被配置为通过广域网408向接收机设备402A至402N和/或电视服务提供方站点406中的一个或多个提供包括基于超文本的内容等的数据。内容提供方站点412A至412N可以包括一个或多个web服务器。可以根据数据格式来定义由数据提供方站点412A至412N提供的数据。

再次参考图1，源设备102包括视频源104、视频编码器106、数据封装器107和接口108。视频源104可以包括被配置为捕获和/或存储视频数据的任何设备。例如，视频源104可以包括摄像机和可操作地与其耦接的存储设备。视频编码器106可以包括被配置为接收视频数据并生成表示视频数据的兼容比特流的任何设备。兼容比特流可以指视频解码器可以从其接收和再现视频数据的比特流。兼容比特流的各方面可根据视频编码标准来定义。当生成兼容比特流时，视频编码器106可以压缩视频数据。压缩可能是有损的(观察者可觉察的或不可觉察的)或无损的。

再次参考图1，数据封装器107可以接收编码视频数据，并根据定义的数据结构生成兼容比特流，例如，NAL单元序列。接收兼容比特流的设备可以从其再现视频数据。应当指出的是，可以使用术语符合性比特流来代替术语兼容比特流。应当指出的是，数据封装器107不必要位于与视频编码器106相同的物理设备中。例如，被描述为由视频编码器106和数据封装器107执行的功能可以分布在图6所示的设备中。在一个示例中，数据封装器107可以包括被配置为接收一个或多个媒体部件并基于DASH生成媒体呈现的数据封装器。

如上所述，Wang中提供的叠层结构可能不太理想。在一个示例中，根据本文所述的技术，数据封装器107可被配置为基于以下示例性定义、语法和语义来发送信号通知叠层信息：

定义

OverlayStruct指定每个叠层的叠层相关元数据。

语法

语义

overlay_id提供叠层的唯一标识符。任何两个叠层都不应具有相同的overlap_id。

overlay_label提供第i个叠层的空封端的UTF-8标签。

overlay_layer_order指定第i个叠层的相对层顺序。当A>B时，OMAF播放器应在具有overlay_layer_order值B的叠层顶部显示具有overlap_layer_order值A的叠层。

overlay_control_essential_flag[i]等于0指定不需要OMAF播放器来处理由第i个overlay_control_struct[i]定义的结构，overlay_control_essential_flag[i]等于1指定OMAF播放器应处理由第i个overlay_control_struct[i]定义的结构。当overlay_control_essential_flag[i]等于1并且OMAF播放器不能够解析或处理由第i个overlay_control_struct[i]定义的结构时，OMAF播放器既不显示由该结构指定的叠层也不显示背景视觉媒体。

在一个示例中，语法元素overlay_id、overlay_label、overlay_layer_order中的一个或多个可以使用与上面所示位数不同的位数。例如，overlay_id可使用8位、24位或32位。另外，overlap_layer_order可使用8位、24位或32位。而且，与上面所示的那些相比，语法元素的顺序可以改变。例如，语法元素overlay_id之后可以是语法元素overlay_layer_order，之后是语法元素overlay_label。在一个示例中，可以在结构SingleOverlayStruct内而不是在上面所示的循环中发送信号通知字段overlay_id、overlay_label、overlay_layer_order中的一者或多者。

在一个示例中，根据本文所述的技术，数据封装器107可被配置为发送信号通知叠层信息，其中标志的信令从字节变为位。这允许预留未使用的位并提供v更多未来延展性。在一个示例中，数据封装器107可被配置为基于以下示例性定义、语法和语义来发送信号通知叠层信息：

定义

OverlayStruct指定每个叠层的叠层相关元数据。

语法

语义

num_flag_bits指定由overlay_control_flag[i]语法元素共同分配的位数。预留num_flag_bits等于0。

应当注意，虽然对于该语法使用12位作为unsigned int(12)num_flag_bits。但在另一个示例中，不同位数(例如，11位、10位或14位)均可用于num_flag_bits。在这种情况下，位数可被保持预留用于字节对准。例如，可以替代地发送信号通知以下两个语法元素：unsigned int(11)num_flag_bits；

bit(5)reserved＝0；

overlay_label提供第i个叠层的空封端的UTF-8标签。

overlay_control_essential_flag[i]等于0指定不需要OMAF播放器来处理由第i个overlay_control_struct[i]定义的结构。overlay_control_essential_flag[i]等于1指定OMAF播放器应处理由第i个overlay_control_struct[i]定义的结构。当overlay_control_essential_flag[i]等于1并且OMAF播放器不能够解析或处理由第i个overlay_control_struct[i]定义的结构时，OMAF播放器既不显示由该结构指定的叠层也不显示背景视觉媒体。

overlay_control_struct[i][byte_count[i]]定义了具有由byte_count[i]定义的字节计数的第i个结构。

如上所述，可在不同时间启用和禁用各种叠层。例如，广告徽标可用作叠层，并且所显示的叠层徽标可随时间推移动态地改变。在一个示例中，对于该信令，封装的数据可被配置为使用叠层定时元数据轨道。示例性叠层定时元数据轨道的语法和语义可以如下：

概述

动态叠层定时元数据轨道指示在不同时间来自多个叠层的哪些叠层处于活动状态。根据应用程序，活动叠层(例如广告的徽标)可随时间推移改变。

样本条目

定义

应使用轨道样本条目类型“movl”。该样本条目类型的样本条目如下指定：

语法

class OverlaySamplcEntry(type)extends MetadataSampleEntry(‘movl’){

OverlayStruct()

}

样本

定义

应使用如OverlaySample所示的样本语法。

语法

num_active_overlays指定在样本条目OverlaySampleEntry中发送信号通知的OverlayStruct()结构中处于活动状态的叠层数。值0指示没有叠层处于活动状态。

active_overlay_id提供当前处于活动状态的叠层的叠层标识符。对于每个active_overlay_id，样本条目OverlaySampleEntry中的OverlayStruct()结构应包括具有匹配的overlay_id值的叠层。OMAF播放器应在任何特定时间仅显示由active_overlay_id指示的活动叠层，并且不应显示非活动叠层。

样本对特定叠层的激活导致来自先前样本的任何先前发送信号通知的叠层的去激活。

在一个示例中，可在样本中直接发送信号通知在任何特定时间处于活动状态的一个或多个叠层。在这种情况下，在一个示例中，示例性叠层定时元数据轨道的语法和语义可以如下：

概述

样本条目

定义

应使用轨道样本条目类型“dovl”。该样本条目类型的样本条目如下指定：

语法

class OverlaySampleEntry(type)extends MetadataSampleEntry(‘dovl’){

OverlayStruct()

}

样本

定义

应使用如OverlaySample所示的样本语法。

语法

aligned(8)overlaySample(){

OverlayStruct()

}

OverlayStruct()具有与先前所述相同的语法和语义。

在一个示例中，这些叠层中的一些叠层将通过参考其在样本条目中的叠层标识符而在样本中发送信号通知。另外，一些新的叠层可通过在样本条目中发送信号通知其叠层结构而被直接发送信号通知。在这种情况下，在一个示例中，示例性叠层定时元数据轨道的语法和语义可以如下：

概述

动态叠层定时元数据轨道指示在不同时间来自多个叠层的哪些叠层处于活动状态。根据应用程序，活动叠层可随时间推移改变。

样本条目

定义

应使用轨道样本条目类型“dyol”。该样本条目类型的样本条目如下指定：

语法

class OverlaySampleEntry(type)extends MetadataSampleEntry(‘dyol’){

OverlayStruct()

}

样本

定义

应使用如OverlaySample所示的样本语法。

语法

num_active_overlays_by_id指定在样本条目OverlaySampleEntry中发送信号通知的OverlayStruct()结构中处于活动状态的叠层数。

值0指示样本条目中没有叠层处于活动状态。

addl_active_overlays_flag等于1指定在样本中直接在叠层结构(OverlayStruct())中发送信号通知附加活动叠层。addl_active_overlays_flag等于0指定在样本中没有直接在叠层结构(OverlayStruct())中发送信号通知附加活动叠层。

active_overlay_id提供从样本条目发送信号通知当前处于活动状态的叠层的叠层标识符。对于每个active_overlay_id，样本条目OverlaySampleEntry中的OverlayStruct()结构应包括具有匹配的overlay_id值的叠层。

OverlayStruct()具有与先前所述相同的语法和语义。

如果有的话，由样本发送信号通知的活动叠层的总数等于OverlayStruct()中的num_active_overlays_by_id+num_overlays。OMAF播放器应在任何特定时间仅显示活动叠层，并且不应显示非活动叠层。

如上所述，在Wang中，针对定时文本信令，发送信号通知relative_to_viewport_flag。在一个示例中，数据封装器107可被配置为在某些条件下针对叠层或定时文本指定公共参考坐标中的位置。例如，在这种情况下，叠层可以设置在3D空间内，并且根据所选的视点，可以看到该叠层中的一些或全部。在一个示例中，这可用于覆盖视区。在一个示例中，数据封装器107可被配置为与SphereRegionStruct()一起发送信号通知视区，如下所示：

语法

语义

viewport_x、viewport_y和viewport_z以毫米为单位指定球体在3D空间中的位置，其中(0,0,0)作为公共参考坐标系的中心。球体的中心连同随后的SphereRegionStruct(1)指定视区的位置，该视区的位置在3D空间中放置并显示叠层的位置。

RecommendedViewportInformation()指定关于推荐视区的信息。这可包括例如进入track_ID列表的索引，该索引指定对应于推荐视区的定时元数据轨道。

SphereRegionStruct(1)指示球体位置，该球体位置与其他信息一起用于确定在3D空间中放置并显示叠层的位置。球体的中心与该球体位置之间的矢量是要在其上渲染叠层的渲染3D平面的范数。该信息和3D平面的深度用于确定要在其上渲染叠层的3D空间中渲染3D平面的位置。

在一个示例中，可以发送信号通知以(viewport x,viewport_y,viewport_z)为中心的球体的半径的附加参数：

unsigned int(16)sph_radius；

sph_radius以合适的单位指定以(viewport_x,viewport_y,viewport_z)为中心的3D空间中的球体的半径。预留值0。

在一个示例中，上述信息可对应于局部坐标系。在一个示例中，上述信息可对应于全局坐标系。在一个示例中，对于以上语义，合适的单位可以是米。在一个示例中，对于以上语义，合适单位可以是厘米。在一个示例中，对于以上语义，合适单位可以是毫米。

在一个示例中，代替有条件地发送信号通知叠层不透明度信息，数据封装器107可被配置为始终发送信号通知叠层不透明度信息。例如，该信令可以如下：

overlay_opacity指定应应用于该叠层的不透明度％。值0指示该叠层完全透明。值100指示该叠层完全不透明。该值应在0至100(包括端值)的范围内。预留值101至128。

在另一个示例中，叠层不透明度信息可以有条件地发送信号通知。例如，可以基于标志的值而发送信号通知。在这种情况下，当没有发送信号通知时，可以推断叠层的不透明度的值。在一个示例中，当没有发送信号通知时，可能推断叠层的不透明度等于100(即，完全不透明的叠层)。在一个示例中，当没有发送信号通知时，可能推断叠层的不透明度等于0(即，完全透明的叠层)。在一个示例中，当没有发送信号通知时，可能推断叠层的不透明度等于50(即，半不透明半透明的叠层)。一般来讲，当没有发送信号通知时，可以推断叠层的一些其他值。

在另一个示例中，可以修改上述语法和语义以仅在i不等于5时才发送信号通知语法元素中的一些语法元素。在一个示例中，i等于5可对应于其位置基于用户交互而被选择的叠层。如以下示例所示：

语法

OR

语义

overlay_control_essential_flag[i]等于1指定OMAF播放器应处理由第i个overlay_control_struct[i]定义的结构。当overlay_control_essential_flag[i]等于1并且OMAF播放器不能够解析或处理由第i个overlay_control_struct[i]定义的结构时，OMAF播放器既不显示由该结构指定的叠层也不显示背景视觉媒体。当i等于5时，推断overlay_control_essential_flag[i]等于0。

当i等于5时，推断byte_count[i]等于0。

这样，数据封装器107表示设备的示例，该设备被配置为：针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签；并且发送信号通知对该多个叠层的时变更新。

再次参考图1，接口108可以包括被配置为接收由数据封装器107生成的数据并且将数据传输和/或存储到通信介质的任何设备。接口108可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可以传输和/或接收信息的任何其他类型的设备。此外，接口108可以包括计算机系统接口，该计算机系统接口可以使文件能够存储在存储设备上。例如，接口108可以包括支持外围部件互连(PCI)和高速外围部件互连(PCIe)总线协议、专用总线协议、通用串行总线(USB)协议、I²C的芯片组、或可用于互连对等设备的任何其他逻辑和物理结构。

再次参考图1，目标设备120包括接口122、数据解封装器123、视频解码器124和显示器126。接口122可以包括被配置为从通信介质接收数据的任何设备。接口122可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可接收和/或发送信息的任何其他类型的设备。此外，接口122可以包括允许从存储设备检索兼容视频比特流的计算机系统接口。例如，接口122可以包括支持PCI和PCIe总线协议、专用总线协议、USB协议、I²C的芯片组，或者可用于互连对等设备的任何其他逻辑和物理结构。数据解封装器123可被配置为根据本文所述的一种或多种技术接收由数据封装器107生成的比特流并且执行子比特流提取。

视频解码器124可以包括被配置为接收比特流和/或其能够接受的变体，并且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另外的类型的显示器中的一种。显示器126可以包括高清显示器或超高清显示器。显示器126可以包括立体显示器。应当指出的是，尽管在图1所示的示例中，视频解码器124被描述为将数据输出到显示器126，但视频解码器124可以被配置为将视频数据输出到各种类型的设备和/或其子部件。例如，视频解码器124可被配置为将视频数据输出到任何通信介质，如本文所述。目标设备120可以包括接收设备。

图7是示出可实现本公开的一种或多种技术的接收器设备的示例的框图。也就是说，接收器设备600可被配置为基于上述语义来解析信号。此外，接收器设备600可被配置为根据本文所述的期望播放行为来操作。此外，接收器设备600可被配置为执行本文所述的转换技术。接收器设备600是计算设备的示例，其可被配置为从通信网络接收数据并允许用户访问多媒体内容(包括虚拟现实应用程序)。在图7所示的示例中，接收器设备600被配置为经由电视网络(例如，上述电视服务网络404)接收数据。此外，在图7所示的示例中，接收器设备600被配置为经由广域网发送和接收数据。应当指出的是，在其他示例中，接收器设备600可被配置为通过电视服务网络404简单地接收数据。本文所述的技术可以由被配置为使用通信网络的任意组合和全部组合进行通信的设备利用。

如图7中所示，接收器设备600包括中央处理单元602、系统存储器604、系统接口610、数据提取器612、音频解码器614、音频输出系统616、视频解码器618、显示系统620、I/O设备622和网络接口624。如图7所示，系统存储器604包括操作系统606和应用程序608。中央处理单元602、系统存储器604、系统接口610、数据提取器612、音频解码器614、音频输出系统616、视频解码器618、显示系统620、I/O设备622和网络接口624中的每一者可以互连(物理地、通信地和/或可操作地)用于部件间的通信，并且可以实现为各种合适的电路中的任一种，诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。应当指出的是，尽管接收器设备600被示出为具有不同的功能块，但是此类图示是出于描述的目的，并且不会将接收器设备600限制到特定的硬件构架。可以使用硬件、固件和/或软件具体实施的任意组合来实现接收器设备600的功能。

CPU 602可被配置为实现用于在接收器设备600中执行的功能和/或处理指令。CPU602可以包括单核和/或多核中央处理单元。CPU 602能够检索和处理用于实现本文所述的技术中的一种或多种的指令、代码和/或数据结构。指令可以存储在计算机可读介质诸如系统存储器604上。

系统存储器604可以被描述为非暂态或有形计算机可读存储介质。在一些示例中，系统存储器604可以提供临时和/或长期存储。在一些示例中，系统存储器604或其部分可以被描述为非易失性存储器，并且在其他示例中，系统存储器604的部分可以被描述为易失性存储器。系统存储器604可被配置为存储可在操作期间由接收器设备600使用的信息。系统存储器604可以用于存储程序指令以供CPU 602执行，并且可以由在接收器设备600上运行的程序使用以在程序执行期间临时存储信息。此外，在其中接收器设备600作为数字视频录像机的一部分被包括的示例中，系统存储器604可被配置为存储多个视频文件。

应用程序608可以包括在接收器设备600内实现或由其执行的应用程序，并且可以被实现或包含在接收器设备600的部件内，可以由该接收器设备的部件操作、执行，并且/或者可操作地/通信地耦接到该接收器设备的部件。应用程序608可以包括可使接收器设备600的CPU 602执行特定功能的指令。应用程序608可以包括在计算机编程语句中表达的算法，诸如for循环、while循环、if语句、do循环等。可以使用指定的编程语言来开发应用程序608。编程语言的示例包括Java^TM、Jini^TM、C、C++、Objective C、swift、Perl、Python、PhP、UNIX Shell、Visual Basic和Visual Basic Script。在其中接收器设备600包括智能电视的示例中，应用程序可以由电视制造商或广播公司开发。如图7所示，应用程序608可以结合操作系统606执行。也就是说，操作系统606可被配置为促进应用程序608与CPU 602以及接收器设备600的其他硬件部件的交互。操作系统606可以是被设计为安装在机顶盒、数字视频录像机、电视等上的操作系统。应当指出的是，本文所述的技术可以由被配置为使用软件架构的任意组合和全部组合进行操作的设备利用。

系统接口610可被配置为允许接收器设备600的部件之间的通信。在一个示例中，系统接口610包括使数据能够从一个对等设备传输到另一个对等设备或传输到存储介质的结构。例如，系统接口610可以包括支持基于加速图形端口(AGP)的协议、基于外围部件互连(PCI)总线的协议(诸如PCI Express^TM(PCIe)总线规范)的芯片组，其由外围部件互连专门兴趣组或者可用于互连对等设备的任何其他形式的结构(例如，专用总线协议)维护。

如上所述，接收器设备600被配置为经由电视服务网络接收并任选地发送数据。如上所述，电视服务网络可以根据电信标准操作。电信标准可定义通信属性(例如，协议层)，诸如物理信令、寻址、信道访问控制、分组属性和数据处理。在图7所示的示例中，数据提取器612可以被配置为从信号中提取视频、音频和数据。可以根据例如DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准和DOCSIS标准等方面来定义信号。

数据提取器612可被配置为从信号中提取视频、音频和数据。也就是说，数据提取器612可以与服务分发引擎互逆的方式操作。此外，数据提取器612可被配置为基于上述结构中的一者或多者的任意组合来解析链路层分组。

数据分组可以由CPU 602、音频解码器614和视频解码器618来处理。音频解码器614可被配置为接收和处理音频包。例如，音频解码器614可以包括被配置为实现音频编解码器的各方面的硬件和软件的组合。也就是说，音频解码器614可被配置为接收音频包并将音频数据提供给音频输出系统616以进行渲染。音频数据可以使用多信道格式编码，诸如由杜比和数字影院系统开发的格式。可以使用音频压缩格式对音频数据进行编码。音频压缩格式的示例包括运动图像专家组(MPEG)格式、高级音频编码(AAC)格式、DTS-HD格式和杜比数字(AC-3)格式。音频输出系统616可被配置为渲染音频数据。例如，音频输出系统616可以包括音频处理器、数字-模拟转换器、放大器和扬声器系统。扬声器系统可以包括各种扬声器系统中的任一种，诸如耳机、集成立体声扬声器系统、多扬声器系统或环绕声系统。

视频解码器618可被配置为接收和处理视频包。例如，视频解码器618可以包括用于实现视频编解码器的各方面的硬件和软件的组合。在一个示例中，视频解码器618可被配置为解码根据任何数量的视频压缩标准编码的视频数据，这些视频压缩标准诸如ITU-TH.262或ISO/IEC MPEG-2 Visual、ISO/IEC MPEG-4 Visual、ITU-T H.264(也被称为ISO/IEC MPEG-4高级视频编码(AVC))、以及高效视频编码(HEVC)。显示系统620可被配置为检索和处理视频数据以供显示。例如，显示系统620可以从视频解码器618接收像素数据并输出数据以用于视觉呈现。此外，显示系统620可被配置为结合视频数据(例如，图形用户界面)输出图形。显示系统620可以包括各种显示设备中的一者，诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器、或能够向用户呈现视频数据的其他类型的显示设备。显示设备可被配置为显示标准清晰度内容、高清晰度内容或超高清内容。

I/O设备622可被配置为在接收器设备600的操作期间接收输入并提供输出。也就是说，I/O设备622可允许用户选择要渲染的多媒体内容。可以从输入设备处生成输入，这些输入设备诸如按钮式遥控器、包括触敏屏幕的设备、基于运动的输入设备、基于音频的输入设备或被配置为接收用户输入的任何其他类型的设备。I/O设备622可以利用标准化通信协议可操作地耦接到接收器设备600，该标准化通信协议诸如通用串行总线协议(USB)、蓝牙、ZigBee或专有通信协议(诸如，专有的红外通信协议)。

网络接口624可被配置为允许接收器设备600经由局域网和/或广域网发送和接收数据。网络接口624可以包括网络接口卡，诸如以太网卡、光收发器、射频收发器或者被配置为发送和接收信息的任何其他类型的设备。网络接口624可被配置为根据网络中利用的物理和媒体访问控制(MAC)层执行物理信令、寻址和信道访问控制。接收器设备600可被配置为解析根据上文相对于图6所描述的任何技术生成的信号。这样，接收器设备600表示设备的示例，该设备被配置为：解析指示与多个相机相关联的位置、旋转和覆盖信息中的一者或多者的语法元素；并且基于所解析的语法元素的值渲染视频。

在一个或多个示例中，所述功能可以通过硬件、软件、固件或其任何组合来实现。如果以软件实现，则可将功能作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质上传输，并且由基于硬件的处理单元执行。计算机可读介质可以包括对应于有形介质诸如数据存储介质的计算机可读存储介质，或者包括例如根据通信协议促进计算机程序从一个地方传输到另一个地方的任何介质的传播介质。这样，计算机可读介质通常可以对应于：(1)非暂态的有形计算机可读存储介质，或者(2)通信介质诸如信号或载波。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

以举例而非限制的方式，此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁存储设备、闪存存储器、或者可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其他介质。而且，任何连接都被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或无线技术诸如红外线、无线电和微波从网站、服务器或其他远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或无线技术诸如红外线、无线电和微波都包含在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是针对非暂态有形存储介质。如本文所用，磁盘和光盘包括压缩光盘(CD)、激光盘、光学光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘，其中磁盘通常以磁性方式复制数据，而光盘则利用激光以光学方式复制数据。上述的组合也应该包括在计算机可读介质的范围内。

可以由一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路执行指令。因此，如本文所用的术语“处理器”可以指任何前述结构或适用于实现本文所描述的技术的任何其他结构。此外，在一些方面中，可以在被配置用于编码和解码的专用硬件和/或软件模块内提供本文所述的功能，或者将其结合到组合编解码器中。而且，这些技术可以完全在一个或多个电路或逻辑元件中实现。

本公开的技术可以在各种设备或装置包括无线手机、集成电路(IC)或一组IC(例如，芯片组)中实现。在本公开中描述了各种部件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但是不一定需要通过不同的硬件单元来实现。相反，如上所述，可以将各种单元组合在编解码器硬件单元中，或者通过互操作硬件单元包括如上所述的一个或多个处理器的集合，结合合适的软件和/或固件来提供各种单元。

此外，每个上述实施方案中所使用的基站设备和终端设备的每个功能块或各种特征可通过电路(通常为一个集成电路或多个集成电路)实施或执行。被设计为执行本说明书中所述的功能的电路可以包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)，或其他可编程逻辑设备、分立栅极或晶体管逻辑器、或分立硬件部件、或它们的组合。通用处理器可为微处理器，或另选地，该处理器可为常规处理器、控制器、微控制器或状态机。通用处理器或上述每种电路可由数字电路进行配置，或可由模拟电路进行配置。此外，当由于半导体技术的进步而出现制成取代当前集成电路的集成电路技术时，也能够使用通过该技术生产的集成电路。

已经描述了各种示例。这些示例和其他示例在以下权利要求的范围内。

<交叉引用>

本非临时申请根据《美国法典》第35卷第119节(35 U.S.C.§119)要求2018年6月4日提交的临时申请62/680,384的优先权，这两个申请的全部内容据此以引用方式并入。

Claims

1.一种发送信号通知与全向视频相关联的叠层信息的方法，所述方法包括：

针对多个叠层中的每个叠层，发送信号通知唯一标识符和标签；以及

发送信号通知对所述多个叠层的时变更新。

2.一种确定与全向视频相关联的叠层信息的方法，所述方法包括：

针对多个叠层中的每个叠层，解析指示唯一标识符和标签的语法元素；以及

基于所解析的语法元素的值渲染视频。

3.一种设备，所述设备包括被配置为执行根据权利要求1至2所述步骤的任意和全部组合的一个或多个处理器。

4.一种装置，所述装置包括用于执行根据权利要求1至2所述步骤的任意和全部组合的装置。

5.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括存储在其上的指令，所述指令在被执行时使得设备的一个或多个处理器执行根据权利要求1至2所述步骤的任意和全部组合。