[go: up one dir, main page]

CN114788267B - 沉浸式媒体处理中的等级信息 - Google Patents

沉浸式媒体处理中的等级信息 Download PDF

Info

Publication number
CN114788267B
CN114788267B CN202080085751.1A CN202080085751A CN114788267B CN 114788267 B CN114788267 B CN 114788267B CN 202080085751 A CN202080085751 A CN 202080085751A CN 114788267 B CN114788267 B CN 114788267B
Authority
CN
China
Prior art keywords
information
frame
level
sets
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080085751.1A
Other languages
English (en)
Other versions
CN114788267A (zh
Inventor
吴钊
吴平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of CN114788267A publication Critical patent/CN114788267A/zh
Application granted granted Critical
Publication of CN114788267B publication Critical patent/CN114788267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

公开了一种用于向用户提供一致的沉浸式媒体观看体验同时减少带宽消耗的方法、装置和系统。在一个示例方面中,一种用于处理多媒体内容的方法包括:针对包括多个片段的全景媒体内容的帧和全景媒体内容的帧的比特流表示之间的转换,确定与该帧相关联的多组等级信息。每组等级信息指示用于处理全景媒体内容的帧的片段的优先级级别。该方法还包括基于多个等级参数,执行该转换。

Description

沉浸式媒体处理中的等级信息
技术领域
本专利申请通常针对多媒体内容处理。
背景技术
用户喜欢以他们在现实生活中看到的方式来体验内容。随着技术的进步,沉浸式媒体带来了比以往任何时候都更真实的内容。沉浸式媒体包括由诸如360度图像和视频、虚拟现实(VR)、增强现实(AR)、混合现实(MR),以及可穿戴设备和物联网(IoT)之类的的新兴技术平台驱动的非传统格式。
发明内容
本专利申请尤其描述了向用户提供一致的观看体验,同时减少沉浸式媒体的带宽消耗的技术。
在一个示例方面中,一种用于处理多媒体内容的方法包括:针对包括多个片段的全景媒体内容的帧和全景媒体内容的帧的比特流表示之间的转换,确定与该帧相关联的多组等级信息。每组等级信息至少指示用于处理全景媒体内容帧的片段的优先级级别、质量级别或流切换。该方法还包括基于多个等级参数,执行该转换。
在另一个示例方面中,公开了一种多媒体系统中的装置。该装置包括被配置为实施上述方法的处理器。
在又一个示例方面中,公开了一种计算机程序存储介质。计算机程序存储介质包括存储在其上的代码。当由处理器执行时,该代码使处理器实施所描述的方法。
本申请对这些和其他方面进了描述。
附图说明
图1是根据本技术的用于处理多媒体内容的方法的流程图表示。
图2示出了根据本技术的具有表示等级信息的不同数值的示例全景图像。
图3示出了根据本技术的具有表示等级信息的非连续的整数值的示例全景图像。
图4示出了根据本技术的具有表示等级信息的不同字符的示例全景图像。
图5示出了根据本技术的全景图像的示例非均匀划分。
图6示出了根据本技术的全景图像的另一示例非均匀划分。
图7A示出了根据本技术的示例全景图像,其中片段的子集具有对应的等级信息。
图7B示出了根据本技术的另一示例全景图像,其中片段的子集具有对应的等级信息。
图8示出了根据本技术的等级信息的示例级联表示。
图9是根据本技术的视频编码装置的示例的框图。
图10是根据本技术的视频解码装置的示例的框图。
图11是用于实施本文所述方法的硬件平台的实施例的框图。
具体实施方式
在本申请中,章节标题仅用于提高可读性,而不是将每个章节中所公开的实施例和技术的范围仅限于该章节。所公开的技术适用于各种成像和/或视频标准,包括但不限于高效视频编码(HEVC)标准和通用视频编码(VVC)标准。
沉浸式媒体是指利用诸如音频和视频等之类的多媒体技术,为用户提供沉浸式的并且完全不同的媒体体验。当观看沉浸式媒体内容时,用户可以实时参与媒体(例如,通过佩戴虚拟现实头盔)。沉浸式媒体已成功扩展到诸如电影、游戏、新闻和/或医疗等之类的许多领域。沉浸式媒体内容不同于传统的媒体内容:视觉内容是典型的360度全景视觉数据,其覆盖了大的图像面积和宽广的视野,为用户提供了更多的基于他们自身的喜好调整内容的灵活性。全景视觉数据可以使用从多个摄像机同时收集的数据,或者通过平移和/或旋转操作来拼接来自单个摄像机的多个图像来构成。全景视觉数据也可以人工合成(例如,基于现有的传统的和/或全景图像数据)。全景视觉数据可以被表示为360度球形或映射后的矩形图像(例如,等矩形投影图像)。可替选地,全景视觉数据可以被表示为映射和重新排列之后的矩形图像(例如,立方体映射投影图像)。
与传统的媒体内容相比,显示沉浸式媒体内容需要较高的带宽。即使在移动网络快速发展的情况下,带宽需求仍然是一个问题。因此,仍然需要提供显示沉浸式媒体内容的有效的方式,同时保持合理的带宽使用。
本文公开了可在各种实施例中实施的,以向用户提供高质量的沉浸式媒体内容,而不对通信系统施加不合理的带宽要求的技术。沉浸式媒体内容为用户提供360度全景视野,但人类视觉的视野通常在任何给定时间都在120度以内。此外,用户可能希望在狭窄的视野内关注非常具体的特征。因此,不需要在整个全景内容中保持统一的视觉质量。可以根据一组优先级来处理全景媒体内容的不同区域或片段,以考虑用户偏好、场景特征和/或带宽分配,从而在提供良好用户体验的同时最小化带宽消耗。在本专利申请中,优先级被称为视觉内容的等级信息。例如,当用户观看沉浸式音乐会视频时,用户的视角主要集中在舞台上的表演者身上。因此,显示表演者的部分内容可以被给予较高的等级,以向用户提供较高的视觉质量,而外围视图被给予较低的等级。当用户的视点或表演者的位置发生改变时,媒体内容可以被相应地调整,以确保用户的观看区域被给予较高的优先级,从而提供一致的观看体验。
为了促进全景视觉数据的有效处理,等级信息可以被编码在表示全景视频内容的比特流中。对高分辨率视频日益增长的需求导致了现代技术中无处不在的图像和视频编码技术。例如,视频编解码器将未压缩的视频转换为压缩格式,反之亦然。视频质量、用于表示视频的数据量(由比特率决定)、编码和解码算法的复杂性、对数据丢失和错误的敏感性、编辑的容易程度、随机访问和端到端延迟(时延)之间存在复杂的关系。压缩格式通常符合标准视频压缩规范,例如,基于ISO/IEC的媒体文件格式、HEVC标准(也被称为H.265或MPEG-H第2部分)、VVC标准(暂时也被称为H.266或MPEG-I第3部分)或其他当前和/或未来的视频编码标准。许多编码标准使用诸如使用帧内预测和/或帧间预测编码技术之类的混合编码,以消除空间冗余和时间冗余。也就是说,使用预测编码技术编码的不同区域彼此相关。在视频编码过程中,编码器首先将图像/帧划分为一个或多个区域,然后对这些区域进行编码。为了便于并行处理,一个区域对应于图像中可以独立解码的一个单元。区域可以是H.264/AVC标准中的切片组、H.265/HEVC标准中的瓦片、H.266/VVC标准中的子图片、矩形切片或瓦片。
帧的不同区域和/或片段可以根据不同的等级进行优先级排序,以确保最佳的用户观看体验。图1是根据本技术处理多媒体内容的方法100的流程图表示。在操作110处,方法100包括:针对包括多个片段的全景媒体内容的帧和全景媒体内容的帧的比特流表示之间的转换,确定与该帧相关联的多组等级信息。每组等级信息至少指示用于处理全景媒体内容帧的片段的优先级级别、质量级别或流切换。在操作120处,方法100还包括:基于多个等级参数,执行该转换。全景媒体内容的帧与比特流表示之间的转换包括编码和/或解码过程。在编码时,等级信息可以在全景媒体内容被实时收集和/或根据内容的特征和用户偏好收集时被编码在比特流中。
在一些实施例中,每组等级信息包括一个整数,该整数指示用于处理全景媒体内容的对应片段的优先级级别。在一些实施例中,多组等级信息包括连续的整数,该连续的整数指示用于处理全景媒体内容的多个片段的优先级级别。在一些实施例中,每组等级信息包括一个或多个字符,该一个或多个字符指示用于全景媒体内容的对应片段的优先级级别。
在一些实施例中,帧内的多个片段大小相等。例如,多个片段都具有矩形形状。在一些实施例中,至少一个片段具有与帧内的另一片段不同的大小。例如,至少一个片段具有非矩形形状。
在一些实施例中,比特流表示包括指示多组等级信息的数量的参数。在一些实施例中,每组等级信息包括一个或多个参数,该一个或多个参数指示对应片段的维度。在一些实施例中,帧内的至少一个片段缺少对应的一组等级信息。
在一些实施例中,比特流表示包括指示多组等级信息何时适用于帧的定时信息。在一些实施例中,比特流表示包括指示一个或多个视点的视点信息,在该一个或多个视点处,多组等级信息可适用于该帧。
在一些实施例中,在第一优先级级别具有高于第二优先级级别的值的情况下,对应于第一优先级等级的第一片段在对应于第二优先级级别的第二片段之前被处理。在一些实施例中,仅片段的子集被处理以用于转换。片段的子集的优先级级别可以具有等于或大于预定义的阈值的值。在一些实施例中,片段的子集的优先级级别基于片段的子集在该帧内的位置被包括在比特流表示中。在一些实施例中,每组等级信息包括对应片段内多个子片段的等级信息。
在一些实施例中,该方法还包括:针对全景媒体内容的后续帧和比特流表示之间的转换,确定与全景媒体内容的后续帧相关联的附加的一组等级信息。在一些实施例中,与后续帧相关联的附加的多组等级信息包括相对于与该帧相关联的多组等级信息的值。在一些实施例中,与该帧相关联的多组等级信息中的至少一组适用于全景媒体内容的后续帧。
在一些实施例中,区域包括编码树单元、编码树块、瓦片、宏块或子图片。在一些实施例中,多组等级信息被表示在比特流表示中的补充增强信息或视频可用性信息中。在一些实施例中,全景媒体内容的比特流表示根据ISO/IEC 14496被格式化。
在一些实施例中,执行转换包括基于视频的当前块生成比特流表示。在一些实施例中,执行转换包括根据比特流表示生成视频的当前块。
在以下示例性实施例中进一步描述所公开技术的一些示例。
实施例1
等级信息可以在比特流中以不同的形式来表示。在一些实施例中,等级信息可以使用一个或多个数值来表示。图2示出了根据本技术的具有表示等级信息的不同数值的示例全景图像200。在图2中,全景图像被划分为9个矩形区域(或片段)。每个区域都被分配了范围为1到3的一个值。不同的值可以表示不同的图像质量级别和/或对应的区域的不同处理优先级。例如,1表示高图像质量,2表示中等图像质量,3表示低图像质量。作为另一示例,1表示最高处理优先级,该处理优先级指示在编码/解码处理中首先被处理的对应的区域。2表示中等处理优先级,而3表示最低处理优先级。
在一些实施例中,级别信息的值可以表示不同导演的剪辑。例如,1表示第一导演的剪辑,以及2表示第二导演的剪辑。用户可以通过选择对应于不同剪辑的不同级别值来查看不同的图片。在处理视频比特流时,解码器可以解析并确定该区域的等级信息。然后,解码器基于等级信息获取该区域的后续视频流。例如,当用户选择观看第一导演的剪辑(例如,等级值为1)时,解码器在时间T获得视频流,并获取与等级值1对应的流以显示第一导演的剪辑。当用户选择观看第二导演的剪辑(例如,等级值为2)时,解码器在时间T获得视频流,并获取与等级值2对应的后续流以显示第二导演的剪辑。
在一些实施例中,等级信息的值可以是非连续的整数。图3示出了根据本技术的具有表示等级信息的非连续的整数值的示例全景图像300。如图3所示,非连续的整数值23、26和30被用于指示全景图像中对应的区域的不同质量和/或优先级级别。
在一些实施例中,等级信息可以包括使用一个或多个字符表示的场景特征。图4示出了根据本技术的具有表示等级信息的不同字符的示例全景图像400。如图4所示,不同的字符可以表示相关联的区域的属性或场景特征。例如,字符“P”代表人,指示对应的区域显示一个或多个人。字符“C”代表汽车,指示对应的区域显示一辆或多辆汽车。类似地,字符“B”代表背景,指示对应的区域显示场景背景。在一些实施例中,还可以使用包含多个字符的字符串。
实施例2
全景图像中的区域/片段可以具有不同的大小和/或形状。如图2-4所示,在一些实施例中,全景图像可以均等地划分为多个区域/片段。在一些实施例中,全景图像可以被划分为非均匀形状的区域。图5示出了根据本技术的全景图像500的示例非均匀划分。在本示例中,区域/片段是非均匀大小的矩形区域。图6示出了根据本技术的全景图像600的另一示例非均匀划分。在本示例中,区域/片段具有非矩形形状。至少一个片段的大小和/或形状与全景图像中的另一个片段不同。
实施例3
如上所述,为了加快全景图像的处理(例如,在解码侧),等级信息可以被编码在比特流表示中,以减少额外的计算和/或处理时间。等级信息可以根据区域/片段进行组织。表1示出了根据本技术的比特流中的等级信息的示例表示。
表1等级信息的示例表示
这里,num_ranks指示等级信息的数量。该值与全景图像中的片段的数量相同。
表2示出了根据本技术的比特流中等级信息的另一示例表示。
表2等级信息的另一示例表示
这里,rank_cnt_minus1指示等级信息的数量(例如,rank_cnt_minums1+1)。该值与全景图像中的片段的数量相同。
在表1和表2中,segment_top_left_x[i]指示全景图像中第i个片段的左上像素的级别坐标。segment_top_left_y[i]指示全景图像中第i个片段的左上像素的垂直坐标。segment_width[i]指示第i个片段的像素宽度。segment_height[i]指示第i个片段的像素高度。segment_rank[i]指示第i个片段的等级值。
在一些实施例中,片段中心点的坐标可以被用作片段的定位点,而不是片段左上点的坐标可以被用作片段的定位点。在一些实施例中,可以针对360度球形全景3D坐标(例如,方位角范围、仰角范围)来调整片段的坐标和定位点。
本文公开的片段可以基于不同的标准与不同的分区单元相关联。例如,片段可以是诸如HEVC/H.265标准中的编码树单元(CTU)之类的网格单元。在HEVC/H.265标准中,编码树块(CTB)是NxN的亮度和/或色度样本块,其中N可以是16、32、64等。一个CTU包括一个亮度CTB和两个色度CTB,并且是一个独立的编码单元。VVC/H.265中的CTU与HEVC/H.265中的CTU概念一致,并且也是一个独立的编码单元。AVC/H.264标准中,网格单元也可以是宏块。宏块是16x16的亮度块及其对应的色度块。AVC/H.264标准中,宏块是的独立编码单元。
不同的标准采用不同的方式对帧进行分区。例如,在HEVC/H.265和VVC/H.266标准中,分区可以以瓦片的形式表示。瓦片将图像从水平和垂直方向划分为几个矩形区域。瓦片是图片中特定瓦片列和特定瓦片行内的CTU的矩形区域。一个或多个瓦片可以对应于图像的一个分区。在HEVC/H.265标准中,分区也可以用切片表示。一个或多个切片对应于一个分区,并包括多行CTU。在VVC/H.266标准中,分区可以用栅格扫描切片的形式表示。一个或多个栅格扫描切片对应于一个分区,并包括多行CTU。分区也可以用矩形切片表示。一个或多个矩形切片可以对应于一个分区。分区也可以用子图片表示。一个或多个子图片可以对应于一个分区。
表3示出了根据本技术的比特流中等级信息的另一示例表示。
表3等级信息的另一示例表示
表4示出了根据本技术的比特流中等级信息的另一示例表示。
表4等级信息的另一示例表示
每个片段的等级信息可以以特定的预定义的方式排列(例如,之字形扫描顺序、升序或降序)。在一些实施例中,等级信息可以以任何顺序随机排列。
在一些实施例中,等级信息可以排除关于片段的特定信息,诸如片段的定位点和/或大小。表5示出了根据本技术的比特流中等级信息的另一示例表示。如表5所示,没有关片段的特定信息被包括在RankMap中。表6示出了根据本技术的比特流中等级信息的又一示例表示。类似地,没有关于这些片段的特定信息被包括。
表5等级信息的另一示例表示
表6等级信息的另一示例表示
关于片段的特定信息可以单独定位在比特流中(例如,在等级信息之前)。在一些实施例中,默认片段可以被用于消除在比特流中包括这种信息的需要。
在一些实施例中,与等级信息相对应的片段可以是VVC/H.266标准中定义的子图片。片段位置和大小信息是子图片的位置和大小信息。在这些情况下,rank_cnt_minus1和sps_num_subpics_minus1相等。每个segment_rank[i]和sps_subpic_id[i]都有一一对应关系。
表7等级信息的另一示例表示
在一些实施例中,对应于等级信息的片段可以是H.265/HEVC标准中定义的时间运动约束的瓦片集(MCTS)。表8示出了根据本技术作为MCTS的一部分的等级信息的示例表示。
表8等级信息的另一示例表示
实施例4
在一些实施例中,等级信息仅包括用于片段的子集的特定信息。例如,如表1和表2中所示的num_ranks可以小于全景图像中的片段总数。图7A示出了根据本技术的示例全景图像700,其中片段的子集具有对应等级信息。如图7A所示,只有在全景图像的右下角的九个片段具有对应的等级信息。注意,片段的子集不需要彼此相邻。图7B示出了根据本技术的另一示例全景图像750,其中片段的子集具有对应等级信息。
在一些实施例中,默认的等级值可以被用于处理不具有特定等级信息的剩余片段。
实施例5
在一些实施例中,等级信息与时间相关联。例如,等级信息仅适用于特定持续时间内的全景图像的处理。表9示出了根据本技术的在具有对应的时间信息的比特流中的等级信息的示例表示。
表9等级信息的另一示例表示
变量time_flag等于1指示存在与等级信息相关联的时间信息。其值为0指示没有相关的时间信息。TimeInfoStruct可以包括描述等级信息的有效时间间隔的信息。例如,TimeInfoStruct可以包括绝对开始时间和结束时间。作为另一个例子,可以使用绝对开始时间和持续时间间隔。在一些实施例中,可以指示关于最后有效等级信息的相对开始/结束时间(参见下面描述的实施例7中的细节)。
如果在等级信息有效的持续时间内获取到新的等级信息,则可以根据预设规则采用新的等级信息。可替选地,可以忽略新的等级信息,直到当前等级信息的持续时间结束。表10示出了根据本技术的在具有对应的时间信息的比特流中的等级信息的示例表示。变量rank_map_info_cancel标志为1指示保留当前等级信息;其值为0指示采用了新的等级信息。变量rank_map_info_persistence_flag为0指示当前等级信息仅适用于当前帧/图像;其值为1指示当前等级信息适用于后续帧/图像。
表10等级信息的另一示例表示
实施例6
在一些实施例中,等级信息与用户的视点相关联。表11示出了根据本技术的在具有对应时间信息的比特流中的等级信息的示例表示。
表11等级信息的另一示例表示
(viewpoint_pos_x,viewpoint_pos_y,viewpoint_pos_z)是视点的位置。视点位置还可以使用GPS坐标信息(经度、纬度、高度),并且视点位置还可以是三维极坐标(偏航、俯仰、滚转)。变量rankmap_flag为1指示有等级信息;其值为0指示没有等级信息。
等级信息也可以随着视点的切换而改变。表12示出了根据本技术的在比特流中的等级信息的示例表示。
表12等级信息的另一示例表示
这里,num_viewpoint_switching指示视点切换的数量,并且destination_viewpoint_id指示目标视点的序列号。变量timeline_switching_offset_flag为1指示有切换时间信息;其值为0指示没有切换时间信息。变量rankmap_flag为1指示存在等级信息;其值为0指示不存在等级信息。ViewpointTimelineSwitchStruct指示视图切换的时间点。
在一些实施例中,等级信息可能不会在每次视点改变时都改变。如果视点切换不与特定的一组等级信息相关联,则可以使用当前有效的等级信息或默认的预定义的等级信息。
实施例7
等级信息中的等级值可以是绝对值或相对值。表13示出了根据本技术的在比特流中的等级信息的示例表示。变量rank_diff_flag可以被添加,以指示使用的是绝对值还是相对值。当值为1时,可以使用相对等级值。当该值为0时,可以使用绝对值。
表13等级信息的另一示例表示
实施例8
等级信息可以以级联形式表示。图8示出了根据本技术的等级信息的示例级联表示800。如图8所示的粗实线表示片段,而细实线表示子片段。例如,11表示片段1的1个细分。表14示出了根据本技术的比特流中的等级信息的示例表示。
表14等级信息的另一示例表示
这里,sub_segment_cnt_minus1指示子片段等级信息的数量。sub_segment_top_left_x[j]是第j个子片段左上像素在图像水平方向上的坐标。sub_segment_top_left_y[j]是图像中第j个子片段的左上像素的垂直坐标。sub_segment_width[j]是第j个子片段的像素宽度。sub_segment_height[j]是第j个子片段的像素高度。sub_segment_rank[j]是第j个子段的等级值。
在一些实施例中,该片段不具有对应的等级值(例如,segment_rank[i]信息不存在)。仅使用子片段等级值。
实施例9
在一些实施例中,等级信息被表示在视频流中的补充增强信息(SEI)中。表15示出了根据本技术的在比特流中的等级信息的示例表示。
表15等级信息的另一示例表示
在一些实施例中,等级信息被表示在视频比特流中的视频可用性信息(VUI)中。表16示出了根据本技术的在比特流中的等级信息的示例表示。变量rank_map_info_flag可以指示是否使用rank_map_info。当该值为1时,rank_map_info可以被使用。当该值为0时,rank_map_info可以被跳过。
表16等级信息的另一示例表示
实施例10
上述实施例中的媒体码流可以存储在媒体文件中,例如,基于国际标准化组织(ISO)基本媒体文件格式。
ISO基本文件格式中的所有数据都被打包在盒子里。也就是说,由MP4文件所表示的ISO基本文件格式由几个盒子组成,每个盒子都有一个类型和长度,并且可以被看做一个数据对象。一个盒子可以包含另一个盒子,被称为容器盒子。MP4文件只有一个“ftyp”类型的盒子,该“ftyp”类型盒子作为文件格式的标志,并包含有关该文件的一些信息。也只有一个“MOOV”类型的盒子(电影盒),它是容器盒子。电影盒子的子盒包括媒体的元数据信息。MP4文件的媒体数据被包括在“mdat”类型盒子(媒体数据盒)中,该盒子也是容器盒子。此外,定时元数据轨道是ISO基本媒体文件格式(ISOBMFF)中的一种机制,用于建立与特定样本相关联的定时元数据。
例如,表17显示了一个使用轨迹条目类型为“vipo”的示例视点。等级信息可以与视点信息结合(例如,定位在ViewPointPostStruct或ViewpointSwitchingStruct内)。
表17视点定义示例
图9是根据本技术的视频编码设装置900的示例的框图。装置900包括采集模块901,该采集模块901被配置为收集球形全景视频图像信息。这个模块可以包括用于从存储器或摄像机帧缓存读取视频数据的输入输出控制器电路。这个模块可以包括用于读取视频数据的处理器可执行指令。装置900包括等级信息处理模块902,该等级信息处理模块902被配置为确定与片段/区域相关联的等级信息。这个模块可以被实施为处理器可执行软件代码。装备900还包括视频编码器模块903,该视频编码器模块903被配置为根据等级信息对视频图像数据进行编码。视频编码器模块903例如可以是传统的的H.264/H.265或适合于对矩形形状的视频和图像进行编码的另一种编解码器。视频编码器模块903可以使用使用运动估计/补偿或图像内编码技术的技术。该装置还包括存储/传输模块904,该存储/传输模块904被配置为对视频编码数据或媒体数据执行存储或网络传输层编码。
上述采集设备901、等级信息处理模块902、视频编码器903和传输模块904可以通过使用专用硬件或能够结合适当软件执行处理的硬件来实施。这种硬件或专用硬件可包括专用集成电路(ASIC)、各种其他电路、各种处理器等。当由处理器实施时,功能可以由单个专用处理器、单个共享处理器或多个独立处理器提供,其中一些处理器可被共享。此外,处理器不应被理解为指能够执行软件的硬件,但可以隐式地包括但不限于数字信号处理器(DSP)硬件、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)以及非易失性存储设备。
如图9所示的装置900可以是诸如移动电话、计算机、服务器、机顶盒、便携式移动终端、数字摄像机、电视广播系统设备等之类的视频应用中的设备。
图10是根据本技术的视频解码装置1000的示例的框图。装置1000包括采集模块1001,该采集模块1001被配置为从网络或存储设备获取比特流,并从包括视频编码数据或媒体数据的网络传输层数据中执行解码,并且可以仅提出区域邻接信息数据,或者提取包括区域邻接信息的视频数据。等级信息处理模块1002被配置为解析等级信息。视频解码器1003被配置为解码视频数据信息、解码全景视频或提取感兴趣区域所在的独立解码单元以进行解码。显示设备1004被配置为生成或显示全景视频图像或选择部分相邻区域图像显示。
上述传输模块1001、区域相邻信息处理模块1002、视频解码器1003和显示设备1004可以通过使用专用硬件或能够结合适当软件执行处理的硬件来实施。这种硬件或专用硬件可包括专用集成电路(ASIC)、各种其他电路、各种处理器等。当由处理器实施时,该功能可以由单个专用处理器、单个共享处理器或多个独立处理器提供,其中一些处理器可被共享。此外,处理器不应被理解为指能够执行软件的硬件,但可以隐式地包括但不限于数字信号处理器(DSP)硬件、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)以及非易失性存储设备。
如图10所示的设备可以是诸如移动电话、计算机、服务器、机顶盒、便携式移动终端、数字视频摄像机、电视广播系统设备等之类的视频应用中的设备。
图11示出了可被用于实施本申请中描述的编码器侧或解码器侧技术的示例装置1100。装置1100包括处理器1102,该处理器1102可被配置为执行编码器侧或解码器侧技术或者两者。装置1100还可以包括用于存储处理器可执行指令和用于存储视频比特流和/或显示数据的存储器(未示出)。装置1100可以包括诸如变换电路、算术编码/解码电路等之类的视频处理电路(未示出)。该视频处理电路可以部分地被包括在处理器中和/或被部分地包括在其他专用电路中,诸如图形处理器、现场可编程门阵列(FPGA)等。
应当理解,本申请公开了可在各种实施例中实施的技术,以向用户提供一致的沉浸式内容观看体验,同时降低带宽需求。本申请中描述的所公开的媒体内容处理系统和其他实施例、模块和功能操作可以在数字电子电路中实施,或在计算机软件、固件或硬件(包括本申请中公开的结构及其结构等效物)中实施,或在它们中的一个或多个的组合中实施。所公开的实施例和其他实施例可以被实施为一个或多个计算机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个或多个模块,该一个或多个模块用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质的组合物,或者它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或多个计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播信号是一种人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成以对信息进行编码,用于传输到合适的接收机装置。
计算机程序(也被称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言)编写,并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程,或其他适合在计算环境中使用的单元。计算机程序不一定对应于文件系统中的文件。程序可以被存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、存储在专用于讨论中的程序的单个文件中,或存储在多个协同文件中(例如,存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以被部署在一台计算机上执行,也可以部署在位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。
本申请中描述的过程和逻辑流可由一个或多个可编程处理器执行,该处理器执行一个或多个计算机程序,以通过对输入数据和生成输出进行运算来执行功能。过程和逻辑流还可以由专用逻辑电路执行,并且装置也可以被实施为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或只读存储器和随机存取存储器两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括,或操作地耦合到一个或多个用于存储数据的大容量存储设备(例如,磁盘、磁光盘或光盘),以从该大容量存储设备接收数据或向该大容量存储设备传送数据,或两者兼有。然而,计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD-ROM及DVD-ROM光碟。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
尽管本专利申请包含许多细节,但这些细节不应被解释为对任何发明的范围或可被要求的内容的限制,而是被解释为对可以特定于特定发明的特定实施例的特征的描述。本专利申请中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或在任何合适的子组合中实施。此外,尽管上述特征可以被描述为在某些组合中起作用,甚至最初被要求如此保护,但在某些情况下,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除,并且所要求的组合可以针对子组合或子组合的变体。
同样地,虽然在附图中以特定顺序描述了操作,但这不应理解为要求以所示的特定顺序或先后次序执行这些操作,或者要求执行所有示出的操作,以实现期望的结果。此外,本专利申请中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。
仅描述了一些实施方式和示例,并且其他实施方式、改进和变化可以基于本专利申请中描述和说明的内容进行。

Claims (25)

1.一种用于处理多媒体内容的方法,包括:
针对包括多个片段的全景媒体内容的第一帧和全景媒体内容的比特流表示之间的第一转换,确定与所述第一帧相关联的多组等级信息,其中所述多组等级信息的每组等级信息至少指示用于处理所述全景媒体内容的第一帧的片段的优先级级别、质量级别,或流切换;
针对时域上在所述第一帧之后的全景媒体内容的第二帧和所述比特流表示之间的第二转换,确定与所述全景媒体内容的第二帧相关联的附加的一组等级信息,其中,与所述第二帧相关联的附加的一组等级信息包括相对于与所述第一帧相关联的所述多组等级信息的值;以及
基于所述多组等级信息,执行所述第一转换。
2.根据权利要求1所述的方法,其中,所述多组等级信息的每组等级信息包括一个整数,所述整数指示用于处理所述全景媒体内容的对应的片段的优先级级别。
3.根据权利要求2所述的方法,其中,所述多组等级信息包括连续的或不连续的整数,所述连续的或不连续的整数指示用于处理所述全景媒体内容的多个片段的优先级级别。
4.根据权利要求1所述的方法,其中,所述多组等级信息的每组等级信息包括一个或多个字符,所述一个或多个字符指示用于所述全景媒体内容的对应的片段的优先级级别。
5.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述第一帧内的所述多个片段的大小相等。
6.根据权利要求5所述的方法,其中,所述多个片段具有矩形形状。
7.根据权利要求1至4中的任一项权利要求所述的方法,其中,至少一个片段具有与所述第一帧内的另一个片段不同的大小。
8.根据权利要求7所述的方法,其中,所述至少一个片段具有非矩形形状。
9.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述比特流表示包括指示所述多组等级信息的数量的参数。
10.根据权利要求2至4中的任一项权利要求所述的方法,其中,所述多组等级信息的每组等级信息包括一个或多个参数,所述一个或多个参数指示所述对应的片段的维度。
11.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述第一帧内的至少一个片段缺少对应的一组等级信息。
12.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述比特流表示包括定时信息,所述定时信息指示所述多组等级信息何时适用于所述第一帧。
13.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述比特流表示包括指示一个或多个视点的视点信息,在所述一个或多个视点处,所述多组等级信息适用于所述第一帧。
14.根据权利要求1至4中的任一项权利要求所述的方法,其中,在第一优先级级别具有高于第二优先级级别的值的情况下,对应于所述第一优先级级别的第一片段在对应于所述第二优先级级别的第二片段之前被处理。
15.根据权利要求1至4中的任一项权利要求所述的方法,其中,仅片段的子集被处理以用于第一转换,并且其中,所述片段的子集的优先级级别具有等于或大于预定义的阈值的值。
16.根据权利要求1至4中的任一项权利要求所述的方法,其中,仅片段的子集被处理以用于第一转换,并且其中,所述片段的子集的优先级级别基于片段的子集在所述第一帧内的位置被包括在所述比特流表示中。
17.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述多组等级信息的每组等级信息包括对应片段内用于多个子片段的等级信息。
18.根据权利要求1所述的方法,其中,与所述第一帧相关联的多组等级信息中的至少一组适用于所述全景媒体内容的第二帧。
19.根据权利要求1至4中的任一项权利要求所述的方法,其中,区域包括编码树单元、编码树块、瓦片、宏块或子图片。
20.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述多组等级信息在所述比特流表示中的补充增强信息或视频可用性信息中表示。
21.根据权利要求1至4中的任一项权利要求所述的方法,其中,所述全景媒体内容的比特流表示根据ISO/IEC 14496被格式化。
22.根据权利要求1至4中的任一项权利要求所述的方法,其中,执行所述第一转换包括基于视频的当前块生成所述比特流表示。
23.根据权利要求1至4中的任一项权利要求所述的方法,其中,执行所述第一转换包括从所述比特流表示生成视频的当前块。
24.一种多媒体系统中的装置,包括处理器和其上有指令的非暂时性存储器,其中所述指令在由所述处理器执行时,使所述处理器实施根据权利要求1至23中的任一项权利要求所述的方法。
25.一种存储在非暂时性计算机可读介质上的计算机程序产品,所述计算机程序产品包括程序代码,所述程序代码被处理器执行时实现权利要求1至23中的任一项权利要求所述方法。
CN202080085751.1A 2020-04-10 2020-04-10 沉浸式媒体处理中的等级信息 Active CN114788267B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/084137 WO2021109397A1 (en) 2020-04-10 2020-04-10 Rank information in immersive media processing

Publications (2)

Publication Number Publication Date
CN114788267A CN114788267A (zh) 2022-07-22
CN114788267B true CN114788267B (zh) 2025-02-11

Family

ID=76222435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080085751.1A Active CN114788267B (zh) 2020-04-10 2020-04-10 沉浸式媒体处理中的等级信息

Country Status (7)

Country Link
US (1) US12100116B2 (zh)
EP (1) EP4074029A4 (zh)
JP (1) JP7443536B2 (zh)
KR (1) KR102719787B1 (zh)
CN (1) CN114788267B (zh)
AU (1) AU2020395346B2 (zh)
WO (1) WO2021109397A1 (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063277A (zh) * 2014-03-03 2016-10-26 奈克斯特Vr股份有限公司 用于对内容进行流传输的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6853466B1 (en) * 1999-11-24 2005-02-08 Canon Kabushiki Kaisha Image processing apparatus and method
ES2515967T3 (es) * 2008-10-07 2014-10-30 Telefonaktiebolaget L M Ericsson (Publ) Datos multimedia de múltiples vistas
US20160150212A1 (en) * 2014-11-26 2016-05-26 Sony Corporation Live selective adaptive bandwidth
GB2543320B (en) * 2015-10-14 2020-05-13 Sony Interactive Entertainment Inc Head-mountable display system
CN106658011A (zh) * 2016-12-09 2017-05-10 深圳市云宙多媒体技术有限公司 全景视频的编解码方法和装置
US20200112710A1 (en) * 2017-03-17 2020-04-09 Lg Electronics Inc. Method and device for transmitting and receiving 360-degree video on basis of quality
CN108810427B (zh) * 2017-05-02 2020-12-04 北京大学 基于视点的全景视频内容表示的方法及装置
JP6721631B2 (ja) 2017-07-07 2020-07-15 ノキア テクノロジーズ オーユー ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト
WO2019141907A1 (en) * 2018-01-22 2019-07-25 Nokia Technologies Oy An apparatus, a method and a computer program for omnidirectional video

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063277A (zh) * 2014-03-03 2016-10-26 奈克斯特Vr股份有限公司 用于对内容进行流传输的方法和装置

Also Published As

Publication number Publication date
US12100116B2 (en) 2024-09-24
WO2021109397A1 (en) 2021-06-10
KR102719787B1 (ko) 2024-10-18
JP7443536B2 (ja) 2024-03-05
EP4074029A4 (en) 2023-01-18
US20220343457A1 (en) 2022-10-27
CN114788267A (zh) 2022-07-22
AU2020395346B2 (en) 2024-03-21
KR20220113501A (ko) 2022-08-12
JP2023510571A (ja) 2023-03-14
EP4074029A1 (en) 2022-10-19
AU2020395346A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
JP7506077B2 (ja) 映像の符号化および復号のための装置、方法、およびコンピュータプログラム
CN113615206B (zh) 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法
US20200153885A1 (en) Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and/or a method for receiving point cloud data
JP2020014252A (ja) 復号装置および復号方法
CN113170237B (zh) 视频编码与解码方法和设备
CN113615207A (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
US11259049B2 (en) Area-based processing method and apparatus for 360-degree video
CN109963176B (zh) 视频码流处理方法、装置、网络设备和可读存储介质
CN105340271A (zh) 用于随机访问的多层视频编码方法及其装置以及用于随机访问的多层视频解码方法及其装置
KR20190020083A (ko) 인코딩 방법 및 장치 및 디코딩 방법 및 장치
WO2020057249A1 (zh) 图像处理方法、装置、系统、网络设备、终端及存储介质
CN114556931A (zh) 基于调色板模式的图像或视频编码
ES3018507T3 (es) Método y dispositivo para procesar información de imagen para la codificación de imágenes/vídeos
CN110022481B (zh) 视频码流的解码、生成方法及装置、存储介质、电子装置
CN112153391A (zh) 视频编码的方法、装置、电子设备及存储介质
CN114930812A (zh) 用于解码3d视频的方法和装置
US12328440B2 (en) Method and apparatus for encoding/decoding image on basis of CPI SEI message, and recording medium having bitstream stored therein
US12206872B2 (en) Method for processing video data stream, video decoding apparatus, and method for encoding data stream
WO2019162564A1 (en) An apparatus, a method and a computer program for volumetric video
CN113545060B (zh) 视频编码中的空瓦片编码
ES2976723T3 (es) Método y dispositivo de codificación de imagen/vídeo
CN107211173A (zh) 生成视频拼接
US20230142928A1 (en) Transform-based image coding method and device therefor
CN114788267B (zh) 沉浸式媒体处理中的等级信息
WO2021001193A1 (en) Processing a point cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant