CN111903135B - 信息处理装置、信息处理方法以及程序 - Google Patents
信息处理装置、信息处理方法以及程序 Download PDFInfo
- Publication number
- CN111903135B CN111903135B CN201880091635.3A CN201880091635A CN111903135B CN 111903135 B CN111903135 B CN 111903135B CN 201880091635 A CN201880091635 A CN 201880091635A CN 111903135 B CN111903135 B CN 111903135B
- Authority
- CN
- China
- Prior art keywords
- information
- audio data
- file
- display state
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2355—Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23614—Multiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2668—Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
Abstract
[问题]要提供一种信息处理装置、信息处理方法以及程序。[解决方案]该信息处理装置设置有:生成单元,其生成管理文件,该管理文件存储关于用于选择根据图像显示状态的对象音频数据的对象选择信息的信息;以及发送单元,其发送管理文件。
Description
技术领域
本公开涉及信息处理装置、信息处理方法以及程序。
背景技术
近年来,作为互联网上流服务的基础技术,MPEG-DASH(Moving Picture ExpertsGroup phase-Dynamic Adaptive Streaming over HTTP,运动图像专家组相位-基于HTTP的动态自适应流)越来越普遍(参见例如非专利文献1)。
在使用MPEG-DASH执行的音频内容的传送中,通过为每个对象准备音频数据(该数据将被称为“对象音频数据”)的传送服务器和根据传输路径的状况等请求最佳对象音频数据的客户端来实现自适应流传送。
此外,作为用于实现超越现有技术的5.1声道环绕再现的具有更高的现实感的再现以及多条对象音频数据的传输的编码技术,MPEG-H 3D Audio(MPEG-H 3D音频)是已知的(参见例如非专利文献2)。
引用列表
非专利文献
非专利文献1:ISO/IEC 23009-1:2014Information technology-Dynamicadaptive streaming over HTTP(DASH)
非专利文献2:ISO/IEC 23008-3:2015Information technology-Highefficiency coding and media delivery in heterogeneous environments
发明内容
技术问题
然而,在如上所述的非专利文献1中描述的MPEG-DASH的标准中,不可能针对每种显示状态选择要再现的对象音频数据。
因此,本公开提出了新的且改进的信息处理装置、信息处理方法和程序,其能够根据显示状态选择对象音频数据。
问题的解决方案
根据本公开,提供了一种信息处理装置,包括:生成单元,其被配置成生成管理文件,该管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及发送单元,其被配置成发送该管理文件。
此外,根据本公开,提供了一种要由信息处理装置执行的信息处理方法,该信息处理方法包括:生成管理文件,该管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及发送该管理文件。
此外,根据本公开,提供了一种程序,该程序使得计算机实现以下功能:生成管理文件的功能,该管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及发送该管理文件的功能。
发明的有益效果
如上所述,根据本公开,可以根据显示状态选择对象音频数据。
注意,以上效果不必然是限制性的,并且连同以上效果或代替以上效果,可以获得本说明书中描述的任何效果或者可以从本说明书中检测到的其他效果。
附图说明
图1是用于说明本公开的背景的说明图。
图2是用于说明本公开的背景的说明图。
图3是用于说明图像的显示状态与对象音频数据之间的关系的说明图。
图4A是用于说明根据第一比较方法的音频数据的传送的说明图。
图4B是用于说明根据第二比较方法的音频数据的传送的说明图。
图5是用于说明根据本公开的实施方式的所提出的方法的概述的说明图。
图6是用于说明其中即使显示状态不改变、要被利用的对象音频数据的组合也根据时间改变的示例的说明图。
图7是示出根据实施方式的信息处理系统的系统配置示例的框图。
图8是示出根据实施方式的服务器100的功能配置示例的框图。
图9是示出根据实施方式的客户端200的功能配置示例的框图。
图10A是用于说明在将解码图像原样显示在显示单元260上的情况下要被利用的对象音频数据的说明图。
图10B是用于说明在显示单元260上显示通过剪切解码图像而获得的剪切图像的情况下要被利用的对象音频数据的说明图。
图11是用于说明由于观看时的视角的差异引起的要被利用的对象音频数据的差异的说明图。
图12是示出客户端200基于对象选择信息选择和获取要被利用的对象音频数据的方法的流程图。
图13是用于说明对象之间的角度的说明图。
图14是示出客户端200基于对象选择信息选择和获取要被利用的对象音频数据的方法的流程图。
图15是示出文件化(filing)的流程的流程图。
图16是用于说明文件化的具体示例的说明图。
图17是用于说明文件化的具体示例的说明图。
图18是用于说明文件化的具体示例的说明图。
图19是示出要用信号传送的value(值)以及各个value的详细描述(description)的表。
图20是示出要由MPD文件生成单元114生成的MPD文件的示例的视图。
图21是示出图20所示出的MPD文件中的各条信息的表。
图22是示出用于选择由客户端200获取的AdaptationSet(自适应集)的方法的示例的流程图。
图23是示出要由MPD文件生成单元114生成的MPD文件的示例的视图。
图24是示出要用信号传送的value以及各个value的详细描述(description)的表。
图25是示出要由MPD文件生成单元114生成的MPD文件的示例的视图。
图26是示出图25所示出的MPD文件中的各条信息的表。
图27是示出用于选择由客户端200获取的AdaptationSet的方法的示例的流程图。
图28是示出要由MPD文件生成单元114生成的MPD文件的示例的视图。
图29是用于说明元数据文件的结构的说明图。
图30是用于说明元数据文件的结构的说明图。
图31是示出图29和图30所示的元数据文件的语法的视图。
图32是示出扩展元数据文件(extended metadata file)的示例的视图。
图33是示出扩展元数据文件的语法的视图。
图34是示出对象选择元数据文件的示例的视图。
图35是示出对象选择元数据文件的语法的视图。
图36是示出objectSelectionMetadataConfigurationBox(对象选择元数据配置框)的示例的视图。
图37是示出图36所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。
图38是示出objectSelectionMetadata(对象选择元数据)的示例的视图。
图39是示出图38所示出的objectSelectionMetadata的value以及各个value的详细描述的表。
图40是示出objectSelectionMetadata的修改示例的视图。
图41是示出图40所示出的各个value的详细描述的表。
图42是示出objectSelectionMetadataConfigurationBox的示例的视图。
图43是示出图42所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。
图44是示出objectSelectionMetadata的示例的视图。
图45是示出图44所示出的objectSelectionMetadata的value以及各个value的详细描述的表。
图46是示出objectSelectionMetadata的示例的视图。
图47是示出图46所示出的objectSelectionMetadata的value以及各个value的详细描述的表。
图48是示出objectSelectionMetadata的修改示例的视图。
图49是示出图48所示出的各个value的详细描述的表。
图50是示出objectSelectionMetadataConfigurationBox的示例的视图。
图51是示出图50所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。
图52是示出要生成的MPD文件的示例的视图。
图53是示出要生成的MPD文件的示例的视图。
图54是示出要生成的MPD文件的另一示例的视图。
图55是示出用于选择由客户端获取的文件的方法的示例的流程图。
图56是用于说明应用示例的说明图。
图57是用于说明应用示例的说明图。
图58是用于说明应用示例的说明图。
图59是示出在要被利用的对象音频数据根据观看位置而不同的情况下要生成的MPD文件的示例的视图。
图60是示出硬件配置示例的说明图。
图61是示出MHAMultiStreamBox的结构的视图。
图62是示出3da_meta_data()的结构的视图。
图63是示出DSE的结构的视图。
图64是示出要存储在DSE中的data_stream_byte中的3da_ancillary_data的结构的视图。
具体实施方式
在下文中,将参照附图详细描述本公开的优选实施方式。在本说明书和附图中,具有基本相同的功能配置的部件由相同的附图标记来表示,并且省略冗余的描述。
此外,在本说明书和附图中,在一些情况下,将通过给出跟随有不同字母的相同附图标记来区分具有基本相同的功能配置的多个部件。然而,在不需要特别区分具有基本相同的功能配置的多个部件中的每个的情况下,将仅附加相同的附图标记。
将按以下的顺序给出描述。
<<1.介绍>>
<<2.配置示例>>
<<3.对象选择信息的示例(示例1)>>
<<4.考虑显示状态的文件化的示例(示例2)>>
<<5.在对象音频数据的组合不随时间变化的情况下的信号传送的示例(示例3)>>
<<6.在对象音频数据的组合随时间变化的情况下的信号传送的示例(示例4)>>
<<7.应用示例>>
<<8.硬件配置示例>>
<<9.总结>>
<<1.介绍>>
<1-1.背景>
首先将描述本公开的背景。
MPEG-H 3D Audio(MPEG-H 3D音频)是可以处理作为针对每个对象生成的音频数据的对象音频数据的标准。音频内容由作为声源的波形数据的多条对象音频数据以及包括与对象的位置、声音的传播、各种类型的效果等有关的信息的对象元数据构成。
图1是用于说明本公开的背景的说明图。例如,如图1所示,对象元数据和多条对象音频数据(在图1中,示出了对象音频数据1至对象音频数据n)由服务器等提供给客户端。当客户端的对象渲染器(object renderer)接收对象元数据和对象音频数据时,对象渲染器基于再现环境信息(例如,扬声器的位置和数量等)执行渲染,并且通过将波形数据提供给诸如扬声器的再现环境来实现音频内容的再现。
在提供音频内容的情况下,对象音频数据被存储在音频文件中并且被发送至客户端。这里,将参照图2描述具体示例。图2是用于说明本公开的背景的说明图。在如图2中的D10所示出的那样存在对象音频数据1至对象音频数据3以及与这些数据相对应的对象元数据的情况下,如文件化示例F11至F13中所示出的,在音频文件中存在存储方面的大致三种可能的模式。
更具体地,如文件化示例F11中所示出的,所有数据可以存储在一个音频文件中,或者如文件化示例F12中所示出的,一条或两条或更多条对象音频数据以及与这些数据相对应的对象元数据可以分别存储在音频文件中。此外,如文件化示例F13中所示出的,一条对象音频数据以及与该数据相对应的对象元数据可以存储在一个音频文件中。
这里,将参照图3描述图像的显示状态与对象音频数据之间的关系。图3是用于说明图像的显示状态与对象音频数据之间的关系的说明图。
图3示出其中两位歌唱者H2和H3正在演唱的图像以两种显示状态V11和V12显示的示例。显示状态V11和显示状态V12可以通过放大和缩小而彼此转换,并且如果在显示状态V11下放大中心部分,则图像变为显示状态V12,并且如果在显示状态V12下缩小图像,则图像变为显示状态V11。注意,放大和缩小可以通过例如由客户端进行的图像剪切处理来执行。
在显示状态V11的情况下,因为两位歌唱者H2和H3紧凑地显示在中心,所以即使歌唱者之一正在演唱或者两位歌唱者都在演唱,也可以认为只要声音来自中心的一个方向就足够了。同时,在显示状态V12的情况下,因为从用户来看,两位歌唱者看起来彼此分离,并且用户可以清楚地区分各个歌唱者的位置,所以期望当左边歌唱者H2正在演唱时声音来自左方向,并且当右边歌唱者H3正在演唱时声音来自右方向。这种状态称为声音定位(soundlocalization)已知的状态。
在作为用于执行流服务的标准的MPEG-DASH中,不考虑如上所述的根据显示状态的对象音频数据的传输,并且与显示状态无关地传输对象音频数据。
例如,在使用MPEG-DASH传送包括如图3所示出的图像和音频数据的内容的情况下,可以采用以下将参照图4描述的两种方法(将分别称为第一比较方法和第二比较方法)。
图4A是用于说明根据第一比较方法的音频数据的传送的说明图。第一比较方法是根据显示状态V11传送一条对象音频数据AD1的方法。如图4A所示,根据第一比较方法,因为在显示状态V12的情况下以及在显示状态V11的情况下声音也仅来自中心的一个方向,所以不能如参照图3所描述的那样从根据各个歌唱者的位置的方向听到声音。
图4B是用于说明根据第二比较方法的音频数据的传送的说明图。第二现有方法是根据显示状态V12传送两条对象音频数据AD2和AD3的方法。如图4B所示,根据第二比较方法,虽然在显示状态V12下可以从根据各个歌唱者的位置的方向听到声音,但是在显示状态V11下,渲染两条对象音频数据,并且结果声音来自一个方向。即,利用第二比较方法,在显示状态V11的情况下,因为尽管只要声音来自一个方向就足够了、但是仍然需要两条对象音频数据,所以与第一比较方法相比需要额外的传输频带和渲染处理。
<1-2.概述>
因此,在以下将描述的本公开的实施方式中采用用于根据显示状态选择和获取要被利用的对象音频数据的方法(在下文中,称为“所提出的方法”)。所提出的方法可以通过例如以下操作来实现:服务器预先存储每个显示状态所需要的所有对象音频数据,以及客户端根据显示状态选择和获取对象音频数据。
图5是用于说明根据本公开的实施方式的所提出的方法的概述的说明图。在所提出的方法中,在显示状态V11下传送一条对象音频数据AD1,并且在显示状态V12下传送两条对象音频数据AD2和AD3。根据所提出的方法,变得可以在不引起额外的传输频带和渲染处理的情况下传送对象音频数据,使得声音来自更适当的位置。
顺便提及,如上所述,在现有的MPEG-DASH中,不考虑根据显示状态的对象音频数据的传输。因此,为了实现使用如上所述的所提出的方法的对象音频数据的传送,在本公开中,提供了下列四种机制。
第一,提供用于选择根据图像的显示状态的对象音频数据的信息,以及用于通过利用该信息选择对象音频数据的机制。例如,在图5所示出的示例中,新需要用于在显示状态V11的情况下选择对象音频数据AD1以及在显示状态V12的情况下选择对象音频数据AD2和AD3的元信息(在下文中,也称为对象选择信息)。将在<<3.对象选择信息的示例(示例1)>>中描述这种对象选择信息和使用该对象选择信息选择对象音频数据的示例。
第二,提供了用于考虑显示状态而对对象音频数据进行文件化的机制。如参照图2所述,在现有的MPEG-DASH中,对象音频数据被存储在音频文件中,并且客户端选择并获取该文件。
例如,在如图2所示的文件化示例F11中那样地对要用于每个显示状态的所有对象音频数据进行文件化以便存储在一个音频文件中的情况下,提供了只需要总是根据显示状态选择和获取一个音频文件的优点。然而,需要准备与显示状态的数量相同数量的文件,并且在存在利用共同的对象音频数据的多个显示状态的情况下,服务器需要存储包括相同对象音频数据的多个音频文件,这可能导致存储容量的浪费。
同时,在如图2所示的文件化示例F13中那样地对一条对象音频数据进行文件化以便存储在一个音频文件中的情况下,提供了服务器仅需要仅存储与需要的对象音频数据相对应的音频文件的优点。然而,因为当客户端获取文件时,需要根据显示状态获取与对象音频数据的条数相对应的数量的音频文件,所以存在HTTP连接的数量可能增加并且服务器的处理负荷可能增加的可能性。
因此,期望一种机制,其能够支持各种显示状态,并且在抑制要存储在服务器中的数据量以及要由客户端获取的文件的数量的同时对对象音频数据进行文件化。将在<<4.考虑显示状态的文件化的示例(示例2)>>中描述考虑显示状态而对对象音频数据进行文件化的这种机制的示例。
第三,在要被利用的对象音频数据的组合不随时间变化的情况下,提供了用信号传送对象选择信息的机制。在要被利用的对象音频数据的组合不随时间变化的情况下,可以在所有时间共同利用同一对象选择信息。然而,由于在现有的MPEG-DASH中没有准备这种用信号传送对象选择信息的机制,因此需要新的信号传送的机制。将在<<5.在对象音频数据的组合不随时间变化的情况下的信号传送的示例(示例3)>>中描述在要被利用的对象音频数据的组合不随时间变化的情况下用信号传送对象选择信息的机制的示例。
第四,在要被利用的对象音频数据随时间变化的情况下,提供了用信号传送对象选择信息的机制。可能存在上述对象选择信息随时间变化的情况。例如,存在即使在相同的显示状态下要被利用的对象音频数据也根据时间改变的情况。将参照图6描述这样的情况。
图6是用于说明其中即使显示状态不改变要被利用的对象音频数据的组合也根据时间改变的示例的说明图。在图6中所示的示例中,虽然从时间t1到时间t2缩放没有变化,并且在时间t1的显示状态V21与在时间t2的显示状态V22相同,但是从时间t1到时间t2,两位歌唱者H1和H2更靠近前侧。注意,在本说明书中,例如,在可以确定显示状态的诸如视角的元素不变的情况下,将状态表示为相同的显示状态。
因为两位歌唱者H1和H2在时间t1处在距离上似乎在一起,所以期望利用一条对象音频数据AD1。此外,在时间t2处,因为作为两位歌唱者H1和H2靠得更近的结果,可以清楚地区分各个歌唱者的位置,所以期望利用两条对象音频数据AD2和AD3。通过这种方式,在图像中的声源按每个时刻移动的情况下,要被利用的对象音频数据的组合可以随时间变化。此外,在图像中的声源按每个时刻改变的情况下,要被利用的对象音频数据的组合也可以随时间变化。
在要被利用的对象音频数据的组合以这种方式随时间变化的情况下,期望用信号传送按每个时刻而不同的对象选择信息。在现有的MPEG-DASH中,没有准备在文件中存储按每个时刻而不同的对象选择信息的机制以及用信号传送文件的机制。将在<<6.在对象音频数据的组合随时间变化的情况下的信号传送的示例(示例4)>>中描述在要被利用的对象音频数据的组合随时间变化的情况下按每个时刻在文件中存储对象选择信息并且用信号传送该文件的机制的示例。
以上已经描述了本公开的背景和本公开的实施方式的概述。以下将更详细地描述本公开的实施方式。
<<2.配置示例>>
<2-1.系统配置示例>
首先,将参照图7描述根据本实施方式的信息处理系统的系统配置示例。图7是示出根据本实施方式的信息处理系统的系统配置示例的框图。
参照图7,根据本实施方式的信息处理系统包括服务器100和客户端200。此外,服务器100和客户端200通过通信网络300彼此连接。
服务器100是基于MPEG-DASH将要用于音频内容的对象音频数据流(发送)到客户端200的信息处理装置(发送装置)。更具体地,服务器100针对每个对象获取要用于音频内容的音频数据,并且通过以对象为单位对数据进行编码来生成流数据。此外,服务器100通过按从几秒到大约10秒的每个时间单位(其称为“分段”)或者针对所有内容对流数据进行文件化来生成音频文件。
注意,对象是声源,并且利用例如附接至每个对象的麦克风等来获取每个对象的音频数据(对象音频数据)。对象可以是诸如固定的麦克风架的主体,或者可以是诸如人的动态主体。
此外,在本实施方式中,一个声源可以是一个对象,或者多个声源可以是一个对象。此外,可以存在多个对象以便对应于给定的声源。例如,在图5所示出的示例中,作为声源的对应于歌唱者H2的对象根据显示状态而不同,并且歌唱者H2的歌声可以包括在对象音频数据AD1和对象音频数据AD2两者中。
此外,服务器100对包括每个对象的位置信息等的对象元数据进行编码。服务器100通过以分段为单位对对象元数据的编码数据进行文件化来生成元数据文件。
此外,服务器100生成管理音频文件的管理文件。在本实施方式中,管理文件可以是在ISO/IEC 23009-1标准中定义的媒体呈现描述(MPD)文件。
此外,服务器100响应于来自客户端200的请求,将上述音频文件、元数据文件、MPD文件等发送至客户端200。
客户端200是再现音频内容的信息处理装置(接收装置)。更具体地,客户端200从服务器100获取MPD文件,并且基于该MPD文件从服务器100获取元数据文件和音频文件。然后,客户端200对从服务器100获取的音频文件进行解码,并且通过合成和输出音频文件来实现音频内容的再现。
以上已经描述了根据本实施方式的信息处理系统的系统配置示例。注意,参照图7描述的上述配置仅是示例,并且根据本实施方式的信息处理系统的配置不限于这种示例。例如,可以在客户端200或其它外部装置处提供服务器100的部分功能。例如,可以在客户端200上执行提供服务器100的部分功能的软件(例如,使用预定的应用编程接口(API)的WEB应用等)。此外,相反地,可以在服务器100或其它外部装置处提供客户端200的部分功能。根据本实施方式的信息处理系统的配置可以根据规格和操作灵活地变换。
<2-2.服务器的功能配置示例>
以上已经描述了根据本实施方式的信息处理系统的系统配置示例。随后,将参照图8描述服务器100的功能配置示例。图8是示出根据本实施方式的服务器100的功能配置示例的框图。如图8所示,服务器100包括:生成单元110、控制单元120、通信单元130以及存储单元140。
生成单元110是执行与音频内容的提供有关的处理的功能部件。如图8所示,生成单元110包括:数据获取单元111、编码处理单元112、分段文件生成单元113以及MPD文件生成单元114。
数据获取单元111获取每个对象的音频数据(换言之,获取对象音频数据)和图像。数据获取单元111可以从服务器100的内部获取图像和对象音频数据,或者可以从连接至服务器100的外部装置获取图像和对象音频数据。数据获取单元111将所获取的图像和对象音频数据提供给编码处理单元112。
编码处理单元112通过对从数据获取单元111提供的图像和每个对象的对象音频数据进行编码来生成图像流数据和音频流数据。此外,编码处理单元112对从外部输入的包括每个对象的对象位置信息等的对象元数据进行编码。编码处理单元112将图像流数据、每个对象的音频流数据以及对象元数据的编码数据提供给分段文件生成单元113。
分段文件生成单元113是生成分段文件的功能部件,该分段文件是其中数据可以作为内容被传送的单位的数据。例如,分段文件生成单元113通过以分段为单位对从编码处理单元112提供的每个对象的音频流数据进行文件化来生成音频文件。存在音频文件的生成(也将称为“文件化”)的各个方面。例如,分段文件生成单元113通过如下方式来生成音频文件:基于根据显示状态的对象音频数据的组合将一条或两条或更多条对象音频数据存储在一个音频文件中,使得同一对象音频数据不被包括在多个音频文件中。稍后将描述基于根据显示状态的对象音频数据的组合生成音频文件的细节。
此外,分段文件生成单元113还可以通过以分段为单位对从编码处理单元112提供的对象元数据的编码数据进行文件化,来生成仅存储对象元数据的元数据文件。稍后将描述生成这种元数据文件的情况。
此外,分段文件生成单元通过以分段为单位对从编码处理单元112提供的图像流数据进行文件化来生成图像文件。
MPD文件生成单元114是生成MPD文件的功能部件。在本实施方式中,MPD文件生成单元114生成包括元数据文件访问信息的MPD文件,该元数据文件访问信息用于访问包括对象选择信息的元数据文件。稍后将详细描述由MPD文件生成单元114生成的MPD文件。
控制单元120是全面控制要由服务器100执行的整体处理的功能部件。例如,控制单元120可以基于经由通信单元130接收的来自客户端200的请求信息等来控制每个部件的启动和停止。注意,控制单元120的控制内容不受特别限制。例如,控制单元120可以控制通常在通用计算机、PC、平板PC等中执行的处理。
通信单元130与客户端200进行各种类型的通信。例如,通信单元130从客户端200接收请求信息。此外,通信单元130还用作发送单元,并且作为对请求信息的响应,将MPD文件、元数据文件、音频文件、图像文件等发送到客户端200。注意,通信单元130的通信内容不限于这些。
存储单元140是存储各种类型的信息的功能部件。例如,存储单元140存储音频文件、图像文件、元数据文件、MPD文件等,或者存储服务器100的各个功能部件要使用的程序、参数等。注意,存储在存储单元140中的信息不限于这些。
以上已经描述了服务器100的功能配置示例。注意,以上使用图8描述的功能部件仅仅是示例,并且服务器100的功能配置不限于该示例。例如,服务器100不一定必须包括图8所示出的所有功能部件。此外,服务器100的功能配置可以根据规格和操作来灵活地变换。
<2-3.客户端的功能配置示例>
以上已经描述了服务器100的功能配置示例。随后,将参照图9描述客户端200的功能配置示例。图9是示出根据本实施方式的客户端200的功能配置示例的框图。如图9所示,客户端200包括:处理单元210、控制单元220、通信单元230、存储单元240、传感器单元250、显示单元260以及扬声器270。
处理单元210是执行与内容再现有关的处理的功能部件。如图9所示,处理单元210包括:MPD文件获取单元211、MPD文件处理单元212、分段文件选择单元213、分段文件获取单元214、解码处理单元215以及合成处理单元216。
MPD文件获取单元211是在内容再现之前从服务器100获取MPD文件的功能部件。更具体地,MPD文件获取单元211通过基于用户操作等生成MPD文件的请求信息,并且经由通信单元230将该请求信息提供给服务器100,来从服务器100获取MPD文件。MPD文件获取单元211将所获取的MPD文件提供给MPD文件处理单元212。
MPD文件处理单元212是执行与从MPD文件获取单元211提供的MPD文件有关的处理的功能部件。更具体地,MPD文件处理单元212基于对MPD文件的分析来识别获取音频文件、元数据文件等所需的信息(例如,URL等)。此外,根据本实施方式的MPD文件处理单元212基于对MPD文件的分析来获取对象选择信息。MPD文件处理单元212将这些类型的信息提供给分段文件选择单元213。
分段文件选择单元213是选择要获取的分段文件的功能部件。更具体地,分段文件选择单元213基于从MPD文件处理单元212提供的上述各种类型的信息来选择要获取的音频文件或元数据文件。例如,根据本实施方式的分段文件选择单元213基于对象选择信息选择要被利用的对象音频数据,并且选择包括所选择的对象音频数据的音频文件。
分段文件获取单元214是获取分段文件的功能部件。更具体地,分段文件获取单元214通过如下方式来从服务器100获取图像文件、音频文件或元数据文件:基于从分段文件选择单元213提供的各种类型的信息生成这些文件的请求信息,并且经由通信单元230将该请求信息发送到服务器100。分段文件获取单元214将获取的这些文件提供给解码处理单元215。
解码处理单元215是对从分段文件获取单元214提供的图像文件、音频文件或元数据文件中所包括的数据进行解码的功能部件。解码处理单元215将通过解码处理获得的图像(在下文中,也称为“解码图像”)提供给控制单元220。此外,解码处理单元215将通过解码处理获得的对象音频数据等提供给合成处理单元216。
合成处理单元216是合成从解码处理单元215提供的多条对象音频数据并且输出合成数据的功能部件。合成处理单元216将合成数据提供给控制单元220。
控制单元220是全面控制要由客户端200执行的整体处理的功能部件。例如,控制单元220控制显示单元260的显示。控制单元220可以使从解码处理单元215提供的解码图像被原样显示在显示单元260处,或者可以对从解码处理单元215提供的解码图像执行处理并且使经受处理的解码图像被显示在显示单元260处。例如,控制单元220可以基于从传感器单元250提供的传感器数据,执行从解码处理单元215提供的解码图像中剪切一部分区域的处理(剪切处理)。然后,控制单元220可以使通过剪切处理剪切的图像(在下文中,也称为“剪切图像”)显示在显示单元260处。注意,基于传感器数据的解码图像的剪切处理可以类似于要在例如所谓的360度图像的再现中执行的剪切处理。此外,控制单元220通过控制扬声器270并且输出从合成处理单元216提供的合成数据来向用户提供音频内容。此外,控制单元220可以基于由用户使用诸如鼠标和键盘的输入单元(未示出)执行的输入来控制各种类型的处理。注意,控制单元220的控制内容不受特别限制。例如,控制单元220可以控制通常在通用计算机、PC、平板PC等处执行的处理。
通信单元230与服务器100进行各种类型的通信。例如,通信单元230将从处理单元210提供的请求信息发送给服务器100。此外,通信单元230还用作接收单元,并且作为对请求信息的响应,接收来自服务器100的MPD文件、元数据文件、音频文件、图像文件等。注意,通信单元230的通信内容不限于这些。
存储单元240是存储各种类型的信息的功能部件。例如,存储单元140存储从服务器100获取的图像文件、音频文件、对象元数据、元数据文件、MPD文件等,或者存储客户端200的各个功能部件要使用的程序、参数等。注意,存储在存储单元240中的信息不限于这些。
传感器单元250通过感测获取关于用户的传感器数据。例如,传感器单元250可以包括诸如加速度传感器和角速度传感器的传感器,并且可以获取与用户的姿态和位置有关的传感器数据。传感器单元250将获取的传感器数据提供给控制单元220。
显示单元260根据控制单元220的控制来显示图像。注意,如上所述的那样,在显示单元260上显示的图像可以是从解码处理单元215提供的原样解码图像,或者可以是通过控制单元220的剪切处理剪切的剪切图像。
扬声器270根据控制单元220的控制执行音频输出。
以上已经描述了客户端200的功能配置示例。注意,以上使用图9描述的功能部件仅仅是示例,并且客户端200的功能配置不限于该示例。例如,客户端200不一定必须包括图9所示出的所有功能部件。此外,客户端200的功能配置可以根据规格和操作来灵活地变换。例如,图9所示出的传感器单元250、显示单元260和扬声器270的功能部件可以设置在连接至客户端200的其他装置处。
<<3.对象选择信息的示例(示例1)>>
以上已经描述了本实施方式的配置示例。随后,将描述本实施方式中与用于根据显示状态选择要被利用的对象音频数据的对象选择信息以及使用该对象选择信息的对象音频数据的选择有关的两个示例(示例1-1和示例1-2)。
<3-1.使用视角的对象选择信息的示例(示例1-1)>
首先,作为示例1-1,将描述使用视角的对象选择信息的示例。如上所述,客户端200的控制单元220可以使从处理单元210提供的解码图像在显示单元260处保持原样,或者可以使通过剪切处理剪切的剪切图像显示在显示单元260处。这里,在解码图像按原样显示的情况下和显示剪切的剪切图像的情况下,显示状态可以不同,并且要由客户端200获取的对象音频数据可以不同。将参照图10描述要通过剪切处理获取的对象音频数据中的这种差异。注意,虽然在下面的描述中将主要描述水平视角,但是对于垂直视角的描述将是类似的。
图10A是用于说明在将解码图像原样显示在显示单元260上的情况下要被利用的对象音频数据的说明图。图10A所示出的解码图像D31是基于以视角θa进行的成像的图像,并且在解码图像D31中有两位歌唱者H1和H2。
在这样的解码图像D31被原样显示并且以与成像时的视角相同的视角θa观看的情况下,两位歌唱者H2和H3紧凑地显示在中心,如在图10A所示出的显示状态V32下那样地。因此,在显示状态V32下,认为只要声音来自一个方向就足够了,在这种情况下,客户端200只需要选择和获取一条对象音频数据。
注意,图10A所示出的示例可以解释为以与成像时的视角相同的视角θa将整个解码图像剪切为剪切图像并且进行显示的示例。
图10B是用于说明在显示单元260上显示通过剪切解码图像而获得的剪切图像的情况下要被利用的对象音频数据的说明图。以与图10A所示出的解码图像D31类似的方式,图10B所示出的解码图像D33是基于以视角θa进行的成像的图像,并且在解码图像D33中有两位歌唱者H1和H2。
这里,在以视角θb从这样的解码图像D33剪切的剪切图像D331被显示并且以视角θa进行观看的情况下,对于用户,两位歌手看起来彼此分离,如在图10B所示出的显示状态V34下那样地,并且用户可以清楚地区分各个歌唱者的位置。因此,在显示状态V34下,期望声音分别来自两个方向,在这种情况下,客户端200需要选择和获取两条对象音频数据。
如上所述,在解码图像按原样显示的情况下和显示剪切的剪切图像的情况下,显示状态可以不同,并且要被利用的对象音频数据可以不同。此外,即使在显示剪切图像的情况下,显示状态和要被利用的对象音频数据也可以根据视角(例如,在图10B所示出的示例中的θb)和剪切剪切图像的方向(位置)而不同。
此外,即使在所显示的剪切图像相同的情况下,显示状态和要被利用的对象音频数据也可以根据观看时的视角(在下文中,也称为“观看视角”)而不同。将参照图11描述由于观看时的视角引起的要被利用的对象音频数据的这种差异。注意,虽然在下面的描述中将主要描述水平视角,但是对于垂直视角的描述将是类似的。
图11是用于说明由于观看时的视角的差异引起的要被利用的对象音频数据的差异的说明图。图11中所示出的显示状态V34与图10B中所示的显示状态V34相同。即,在图11所示出的显示状态V34下显示的图像是图10B所示出的剪切图像D331,并且用户以视角θa的观看视角观看图像。在这种显示状态V34下,如上所述,期望声音分别来自两个方向,并且客户端200需要选择和获取两条对象音频数据。
此外,在图11所示出的显示状态V35下显示的图像与显示状态V34下的图像相同,并且可以是图10B所示出的剪切图像D331。然而,在图11所示出的显示状态V35下,用户以小于视角θa的视角θc的观看视角观看图像。在如显示状态V35下那样以小的观看视角观看图像的情况下,从用户来看,两位歌唱者H2和H3看起来在一起,并且认为只要声音来自中心的一个方向就足够了。因此,在这种情况下,客户端200仅需要选择和获取一条对象音频数据。
综上所述,要由客户端200利用(获取)的对象音频数据的组合可以根据剪切图像的方向和视角以及观看时的视角的组合而不同。注意,即使在解码图像是所谓的360度图像的情况下,以与上述示例类似的方式,要被利用的对象音频数据的组合也可以根据从360度图像剪切的图像的方向、视角以及观看时的视角的组合而不同。在本示例中,通过使用这些类型的信息来指定显示状态,使得可以指定要被利用的对象音频数据的组合。
在本示例中,用于选择对象音频数据的对象选择信息可以包括以下信息。
-与剪切图像的方向有关的方向信息
-与剪切图像的视角有关的剪切视角信息
-与相对于显示图像的观看时的视角有关的观看视角信息
-与要被利用的对象音频数据有关的利用信息
注意,存在这样的情况,其中,在上述信息中,剪切视角信息和观看视角信息将被简单地统称为视角信息。
方向信息可以包括例如水平方向上的角度的信息和垂直方向上的角度的信息。替选地,除了水平方向上的角度的信息和垂直方向上的角度的信息之外,方向信息还可以包括相对于根据水平方向上的角度和垂直方向上的角度指定的剪切方向矢量的角度范围的信息。替选地,方向信息可以包括水平方向上的角度范围的信息和垂直方向上的角度范围的信息。
剪切视角信息可以包括例如剪切图像的水平视角范围的信息和垂直视角范围的信息。替选地,在预先将成为基准的显示状态下的剪切图像的水平视角和垂直视角确定作为基准视角的情况下,剪切视角信息可以包括相对于基准视角的倍率范围的信息。
例如,观看视角信息可以包括相对于显示图像的观看时的水平视角的范围的信息和垂直视角的范围的信息。替选地,在预先将相对于成为基准的显示状态下的显示图像的观看时的水平视角和垂直视角确定作为基准视角的情况下,观看视角信息可以包括相对于基准视角的倍率范围的信息。
利用信息可以包括指示要被利用的对象音频数据的所有类型的组合的信息。替选地,利用信息可以包括指示要被利用的对象音频数据的组合相对于预先确定的预定(默认)对象音频数据的组合的差异的信息。
注意,可以预先与利用信息是否包括预定的对象音频数据的组合无关地确定预定的对象音频数据的组合。例如,在未准备对应的对象选择信息的显示状态下,通过利用预定的对象音频数据,省略了用于准备对象选择信息以使得表示所有显示状态的时间和工作。
将参照图12描述客户端200的处理单元210基于根据上述示例的对象选择信息选择和获取要被利用的对象音频数据的方法。图12是示出客户端200基于根据本示例的对象选择信息选择和获取要被利用的对象音频数据的方法的流程图。注意,在图12所示出的示例中,假定预先确定预定的对象音频数据的组合,并且多条对象选择信息已经由客户端200获取并且例如被存储在存储单元240中。
首先,如图12所示,处理单元210获取要由客户端200显示的剪切图像的剪切方向、剪切视角和当前观看视角的信息(S102)。这里,由客户端200显示的剪切图像的剪切方向和剪切视角的信息可以由例如执行剪切处理的控制单元220确定,并且可以从控制单元220提供给处理单元210。此外,当前观看视角的信息可以由控制单元220基于由传感器单元250获取的传感器数据来指定,并且可以从控制单元220提供给处理单元210。
随后,处理单元210基于在步骤S102中获取的信息,指定存储在存储单元240中的多条对象选择信息中的与当前显示状态相对应的对象选择信息。
例如,处理单元210可以指定与在步骤S102中获取的信息匹配或将在步骤S102中获取的信息包括在范围内的一条对象选择信息。具体地,将包括在每条对象选择信息中的方向信息与所显示的剪切图像的剪切方向进行比较,并且提取具有与所显示的剪切图像的剪切方向匹配或将所显示的剪切图像的剪切方向包括在范围内的方向信息的对象选择信息。然后,处理单元210将所提取的每条对象选择信息中包括的视角信息与所显示的剪切图像的剪切视角和当前观看视角的信息进行比较。然后,处理单元210可以指定包括如下视角信息的一条对象选择信息,该视角信息包括剪切图像的剪切视角和当前观看视角。
注意,在存储在存储单元240中的对象选择信息中找不到与在步骤S102中获取的信息匹配或将在步骤S102中获取的信息包括在范围内的对象选择信息的情况下,在步骤S104中处理单元210不必指定对象选择信息。
在指定了与当前显示状态相对应的对象选择信息的情况下(S106:是),处理单元210基于包括在所指定的对象选择信息中的利用信息来选择要获取的对象音频数据的组合(S108)。例如,在指示要被利用的对象音频数据的所有类型的组合的信息作为利用信息被包括在对象选择信息中的情况下,处理单元210仅需要按原样选择由利用信息指示的对象音频数据。替选地,在指示要被利用的对象音频数据的组合相对于预定的对象音频数据的组合的差异的信息作为利用信息被包括在对象选择信息中的情况下,处理单元210仅需要基于预定的对象音频数据的组合来选择要获取的对象音频数据。
随后,处理单元210从服务器100获取在步骤S108中选择的对象音频数据。注意,稍后将详细描述用于获取所选择的对象音频数据的方法。
同时,在尚未指定与当前显示状态相对应的对象选择信息的情况下(S106:否),处理单元210获取预定的对象音频数据(S112)。
注意,在上述处理中,从步骤S104到S108的处理可以由例如分段文件选择单元213执行,并且步骤S110和S112中的处理可以由例如分段文件获取单元214执行。
<3-2.使用对象之间的角度的对象选择信息的示例(示例1-2)>
以上已经将使用视角的对象选择信息的示例作为示例1-1进行描述。随后,将把使用对象之间的角度的对象选择信息的示例作为示例1-2进行描述。在以下描述的示例1-2中,根据两个对象在观看时的位置以及用户的观看位置来计算两个对象之间的角度,并且基于对象之间的角度来选择要被利用的对象音频数据。
图13是用于说明对象之间的角度的说明图。如图13所示,在显示状态V44下,与对象音频数据AD2有关的对象(与歌唱者H2相对应的对象)和与对象音频数据AD3有关的对象(与歌唱者H3对应的对象)之间的角度是角度θd。在该角度θd如在显示状态V44下那样地较小的情况下,因为两个对象的位置之间的差异不会被用户识别,所以只要声音来自中心的一个方向就足够了。因此,在显示状态V44下,利用其中对象音频数据AD2和对象音频数据AD3被混合的对象音频数据AD1。
另一方面,如图13所示,在显示状态V45下,与对象音频数据AD2相关的对象和与对象音频数据AD3相关的对象之间的角度是角度θe(θe>θd)。在该角度θe如在显示状态V45下那样地较大的情况下,因为用户分开地识别两个对象的位置,所以期望声音分别来自两个方向。因此,在显示状态V45下,利用对象音频数据AD2和对象音频数据AD3。
如上所述,将由客户端200利用(获取)的对象音频数据的组合可以根据两个对象之间的角度的大小而不同。在本示例中,根据两个对象之间的角度的大小来指定显示状态,使得可以指定要被利用的对象音频数据的组合。
在本示例中,用于选择对象音频数据的对象选择信息可以包括以下信息。
-要计算其之间的角度的两个对象的位置信息
-与两个对象之间的角度有关的角度信息
-与要被利用的对象音频数据有关的利用信息
要计算其之间的角度的两个对象的位置信息可以是与包括在上述对象元数据中的对象的位置信息类似的信息。然而,针对每条对象选择信息确定要计算其之间的角度的两个对象,并且这两个对象的位置信息包括在对象选择信息中。
角度信息可以包括例如角度范围的信息。如稍后将描述的,角度信息可以用作阈值。
根据本示例的利用信息可以与示例1中的利用信息类似。即,利用信息可以包括指示要被利用的对象音频数据的所有类型的组合的信息。替选地,利用信息可以包括指示要被利用的对象音频数据的组合相对于预先确定的预定的对象音频数据的组合的差异的信息。
将参照图14描述客户端200的处理单元210基于根据上述示例的对象选择信息选择和获取要被利用的对象音频数据的方法。图14是示出客户端200基于根据本示例的对象选择信息选择和获取要被利用的对象音频数据的方法的流程图。注意,在图14所示出的示例中,假定预先确定预定的对象音频数据的组合,并且多条对象选择信息已经由客户端200获取,并且例如存储在存储单元240中。
首先,如图14所示,处理单元210计算对象之间的角度(S122)。在步骤S122中,处理单元210可以基于存储在存储单元240中的对象选择信息中包括的、要计算其之间的角度的两个对象的位置信息、和用户的观看位置的信息来计算对象之间的角度。此外,用户的观看位置的信息可以例如由控制单元220基于由传感器单元250获取的传感器数据来指定,并且可以从控制单元220提供给处理单元210。
随后,处理单元210基于在步骤S122中计算出的对象之间的角度,指定存储在存储单元240中的多条对象选择信息中的与当前显示状态相对应的对象选择信息。
例如,处理单元210提取包括如下角度信息的对象选择信息,该角度信息的角度范围包含步骤S122中计算出的对象之间的角度。此外,在仅提取一条对象选择信息的情况下,处理单元210可以将所提取的一条对象选择信息指定为与当前显示状态相对应的对象选择信息。在提取了多条对象选择信息的情况下,处理单元210可以在所提取的多条对象选择信息中指定如下对象选择信息,对于该对象选择信息,要获得其之间的角度的两个对象的位置最接近用户的观看方向。
注意,在不存在包括角度范围包含在步骤S122中计算出的对象之间的角度的角度信息的对象选择信息的情况下,处理单元210不必在步骤S124中指定对象选择信息。
在指定了与当前显示状态相对应的对象选择信息的情况下(S126:是),处理单元210基于包括在所指定的对象选择信息中的利用信息来选择要获取的对象音频数据的组合(S128)。例如,在指示要被利用的对象音频数据的所有类型的组合的信息作为利用信息被包括在对象选择信息中的情况下,处理单元210仅需要按原样选择由利用信息指示的对象音频数据。替选地,在指示要被利用的对象音频数据的组合相对于预定的对象音频数据的组合的差异的信息作为利用信息被包括在对象选择信息中的情况下,处理单元210仅需要基于预定的对象音频数据的组合来选择要获取的对象音频数据。
随后,处理单元210从服务器100获取在步骤S128中选择的对象音频数据。
其中,在尚未指定与当前显示状态相对应的对象选择信息的情况下(S126:否),处理单元210获取预定的对象音频数据(S120)。
注意,在上述处理中,从步骤S124到S128的处理可以由例如分段文件选择单元213执行,并且步骤S130和S132中的处理可以由例如分段文件获取单元214执行。
<<4.考虑显示状态的文件化的示例(示例2)>>
以上已经描述了两个示例(示例1-1和示例1-2)作为对象选择信息和使用对象选择信息的对象音频数据的选择的示例。随后,将描述考虑多个显示状态而对对象音频数据进行文件化的示例作为示例2。注意,以下将描述的示例2可以与上述示例任意组合,并且可以与示例1-1和示例1-2中任一者组合。
在使用MPEG-DASH的流传送中,在获取对象音频数据的情况下,针对每个音频文件获取对象音频数据。通过根据以下将描述的本示例进行文件化,变得可以针对每个音频文件获取对象音频数据,而不是针对每个对象获取对象音频数据。此外,根据本示例,可以对对象音频数据进行文件化,使得要存储在服务器100中的数据量与要由客户端200获取的文件的数量两者均被抑制。
在以下的描述中,在参照图15描述了根据本示例的文件化流程后,将参照图16至图18描述文件化的具体示例。注意,以下描述的对象音频数据的文件化由服务器100的生成单元110执行,并且例如可以由生成单元110的分段文件生成单元113执行。
图15是示出根据本实施方式的文件化流程的流程图。首先,如图15所示,分段文件生成单元113对给定的一种显示状态下的对象音频数据的组合进行分组(S202)。在步骤S202中,可以例如基于与显示状态相对应的对象选择信息来指定该显示状态下的对象音频数据的组合。
随后,分段文件生成单元113对在步骤S202中形成的组与在其它显示状态(除了在步骤S202中使用的一种显示状态之外的显示状态)下的对象音频数据的组合之间的差异进行分组(S204)。在步骤S204中,分段文件生成单元113分别单独地对当显示状态从步骤S202中使用的一种显示状态转变到各个显示状态时要新利用的对象音频数据的组合和不利用的对象音频数据的组合进行分组。
随后,分段文件生成单元113在步骤S202和S204中形成的组中选择包括最少条对象音频数据的组(S206)。注意,在存在包括最少条对象音频数据的多个组的情况下,仅需要选择多个组中的任何一个组。此外,如稍后将描述的,步骤S206中的处理可以被重复执行多次,并且在第二次和随后次执行步骤S206中的处理的情况下,分段文件生成单元113在未被选择的组中选择包括最少条对象音频数据的组。
随后,分段文件生成单元113从未被选择的组中包括的对象音频数据中移除紧接之前选择的组中包括的对象音频数据(S208)。
在存在未被选择的组的情况下(S210:是),处理返回至步骤S206,并且重复从步骤S206至S210的处理,直到选择了所有组为止。如果重复该处理直到不再存在未被选择的组(S210:否),则分段文件生成单元113按每个组对所选择的组进行文件化(S212)。在步骤S212中,分段文件生成单元113通过将包括在每个组中的一条或两条或更多条对象音频数据存储在一个音频文件中来生成音频文件。
注意,上述从步骤S202至S212的处理可以由例如分段文件生成单元113执行。
以上已经描述了根据本示例的文件化流程。随后,将描述上述文件化的具体示例。图16至图18是用于说明根据本实施方式的文件化的具体示例的说明图。
以下将描述在存在图16所示出的三种显示状态V51、V52和V53的情况下生成单元110生成文件的具体示例。如图16所示,在所有显示状态V51、V52和V53下均显示包括四位歌唱者H11至H14的图像。此外,在显示状态V51下,利用三条对象音频数据AD11、AD12和AD15。此外,在显示状态V52下,利用四条对象音频数据AD11、AD12、AD13和AD14。此外,在显示状态V53下,利用一条对象音频数据AD16。
将参照图17描述针对图16所示出的显示状态V51至V53执行图15中从步骤S202至S204的处理的情况下的操作。如果针对显示状态V51执行步骤S202中的处理,则可以如图17中的步骤S222所示的那样获得组G11。随后,如果针对从显示状态V51到显示状态V52的转变以及从显示状态V51到显示状态V53的转变执行步骤S204中的处理,则可以如图17中的步骤S224所示的那样获得组G12至G15。
将参照图18描述在针对图17所示出的五个组G11至G15执行图15中从步骤S206至S212的处理的情况下的操作。首先,在第一次执行步骤S206中的处理之前,如图18中的步骤S226所示,状态是所有组G11至G15都未被选择的状态。如果在步骤S226的状态下执行步骤S206中的处理,则例如选择组G12。此外,如果执行步骤S208中的处理,如图18中的步骤S228所示,则从组G11和G14中移除包括在紧接之前选择的组G12中的对象音频数据AD15。在步骤S228中的状态下,因为存在未选择的组,所以在步骤S210中确定为“是”,并且再次执行步骤S206中的处理。
如果在步骤S228的状态下执行步骤S206中的处理,则例如选择组G15。这里,在步骤S228的状态下,包括在组G15中的对象音频数据AD16不包括在其它组中。因此,即使执行步骤S208中的处理,如图18中的步骤S230所示,包括在每个组中的对象音频数据也没有变化。在步骤S230中的状态中,因为存在未选择的组,所以在步骤S210中确定为“是”,并且再次执行步骤S206中的处理。
如果在步骤S230的状态下执行步骤S206中的处理,则例如选择组G11。这里,在步骤S230的状态下,包括在组G11中的对象音频数据与包括在组G14中的对象音频数据相同。因此,如果执行步骤S208中的处理,如图18中的步骤S232所示,则从组G14中移除包括在紧接之前选择的组G11中的对象音频数据AD11和AD12,并且组G14消失。在步骤S232的状态下,因为存在未选择的组,所以在步骤S210中确定为“是”,并且再次执行步骤S206中的处理。
如果在步骤S232的状态下执行步骤S206中的处理,则例如选择组G13。这里,如果在步骤S230的状态下选择了组G13,则不再存在未选择的组。因此,即使执行步骤S208中的处理,如图18中的步骤S234所示,包括在每个组中的对象音频数据也没有变化。在步骤S234的状态下,因为不存在未选择的组,所以在步骤S210中确定为“否”,并且执行步骤S212中的处理。
如果在步骤S234的状态下执行步骤S212中的处理,如图18中的步骤S236所示,则生成其中存储分别包括在组G12、G15、G11和G13中的对象音频数据的音频文件AF1至AF4。
如图18所示,因为对象音频数据AD11至AD16中的每一条被存储在音频文件AF1至AF4中的任何一个中,所以服务器100不必存储多条相同的对象音频数据。因此,可以使要存储在服务器100中的对象音频数据的数据量最小化。
此外,通过如图18所示的那样对对象音频数据进行文件化,可以抑制在图16所示出的显示状态V51至V53的各个显示状态下要由客户端200获取的文件的数量。例如,在图16所示出的显示状态V51下,只需要获取音频文件AF1和音频文件AF3这两个音频文件。此外,在图16所示出的显示状态V52下,只需要获取音频文件AF3和音频文件AF4这两个音频文件。再者,在图16所示出的显示状态V53下,只需要获取音频文件AF2这一个音频文件。
其中,在一条对象音频数据被文件化以便存储在一个文件中的情况下,在显示状态V51下需要获取三个音频文件,在显示状态V52下需要获取四个音频文件以及在显示状态V51下需要获取一个音频文件。
因此,通过如图18所示的那样对对象音频数据进行文件化,与一条对象音频数据被文件化以便存储在一个文件中的情况相比,在显示状态V51和显示状态V52下要获取的音频文件的数量被抑制。
如上所述,根据本示例,可以生成音频文件,使得要存储在服务器100中的数据量与要由客户端200获取的文件的数量两者均被抑制。
<<5.在对象音频数据的组合不随时间变化的情况下用信号传送对象选择信息的示例(示例3)>>
以上已经描述了作为示例2的考虑多个显示状态对对象音频数据进行文件化的示例。随后,将描述在要被利用的对象音频数据的组合不随时间变化的情况下用信号传送对象选择信息的示例。
注意,要用信号传送的信息可以根据对象选择信息是示例1-1中描述的使用视角的信息还是示例1-2中描述的使用对象之间的角度的信息而不同。因此,在以下描述中,将顺序地描述与示例1-1相对应的示例3-1和与示例1-2相对应的示例3-2。
<3-1.用信号传送使用视角的对象选择信息的示例(示例3-1)>
首先,作为示例3-1,将描述用信号传送在示例1-1中描述的使用视角的对象选择信息的示例。在本示例中,在文件级用信号传送示例1-1中描述的利用信息,并且用MPEG-DASH实现流传送的情况下,只需要在AdaptationSet级用信号传送利用信息。
注意,以下将描述对象选择信息包括以下信息的示例。
-方向信息,包括水平方向的角度信息和垂直方向的角度信息
-剪切视角信息,包括剪切图像的水平视角范围的信息和垂直视角范围的信息
-观看视角信息,包括在相对于显示图像的观看时的水平视角范围的信息和垂直视角范围的信息
-利用信息,指示包括要被利用的对象音频数据的所有AdaptationSet
在本示例中,通过SupplementalProperty(补充属性)用信号新传送用于显示状态的信息。schemeIdUri指定“urn:mpeg:dash:objectAudio:objectSelection”,并且在以逗号隔开的情况下顺序地通过value来用信号传送“direction_azimuth,direction_elevation,clipping_azimuth_range,clipping_elevation_range,viewing_azimuth_range,viewing_elevation_range,和AdaptationSet_list”。图19是示出本示例中要用信号传送的value以及各个value的详细描述(description)的表。
在本示例中,上述对象选择信息可以存储在MPD文件中。在本示例中,将参照图20和图21描述要由服务器100的MPD文件生成单元114生成的MPD文件的示例。图20是示出本实施方式中要由MPD文件生成单元114生成的MPD文件的示例的视图。另外,图21是示出图20所示出的MPD文件中的各条信息的表。在图21的表中,示出方向信息、剪切视角信息、观看视角信息、利用信息和图20所示出的MPD文件中的对应的SupplementalProperty。
在图20的MPD文件中,如第三行所示,Preselection(预选)的preselectionComponents(预选组件)中的预定(默认)的AdaptationSet的组合是“o2 o3”。此外,在图20的MPD文件中,从第四行到第七行示出了作为与预定组合不同的组合的四种模式的SupplementalProperty。通过这种方式,通过预先确定预定的AdaptationSet的组合,只需要仅为其中要被利用的对象音频数据在各个显示状态下不同的组合准备SupplementalProperty。
在图20所示出的MPD文件的示例中,将参照图22描述客户端200的处理单元210选择要获取的AdaptationSet的方法。图22是示出用于选择由客户端200获取的AdaptationSet的方法的示例的流程图。
首先,如图22所示,处理单元210获取要由客户端200显示的剪切图像的剪切方向、剪切视角和当前观看视角的信息(S302)。
随后,处理单元210获取schemeIdUri为“urn:mpeg:dash:objectAudio:objectSelection”的Preselection的SupplementalProperty的全部(S304)。
随后,处理单元210基于在步骤S302中获取的信息,在步骤S304中获取的SupplementalProperty中指定与当前显示状态相对应的SupplementalProperty(S306)。例如,在步骤S306中指定的SupplementalProperty可以是对于其direction_azimuth和direction_elevation的值接近要由客户端200显示的剪切图像的剪切方向的SupplementalProperty。此外,在步骤S306中指定的SupplementalProperty可以是对于其要由客户端200显示的剪切图像的剪切视角被包括在clipping_azimuth_range和clipping_elevation_range中的SupplementalProperty。再者,在步骤S306中指定的SupplementalProperty可以是对于其当前观看视角被包括在viewing_azimuth_range和viewing_elevation_range中的SupplementalProperty。注意,在不存在满足上述条件的SupplementalProperty的情况下,处理单元210不必在步骤S306中指定任何SupplementalProperty。
在指定了与当前显示状态相对应的SupplementalProperty的情况下(S308:是),处理单元210选择所指定的SupplementalProperty的AdaptationSet_list中所示出的AdaptationSet(S310)。
其中,在没有指定与当前显示状态相对应的SupplementalProperty的情况下(S308:否),处理单元210选择Preselection@preselectionComponents中示出的预定(默认)的AdaptationSet(S312)。
注意,图22所示出的从步骤S302至S312的处理可以由例如分段文件选择单元213执行。
以上已经描述了根据本示例的MPD文件的示例。然而,在本示例中,要生成的MPD文件不限于图20所示出的示例。
例如,作为在使用Preselection的情况下MPD文件的修改示例,可以利用preselectionComponents来用信号传送SupplementalProperty的value的AdaptationSet_list。图23是示出修改示例中要由MPD文件生成单元114生成的MPD文件的示例的视图。在图23的MPD文件中,如第三行、第七行和第八行所示,分离出Preselection,并且将变成AdaptationSet_list的部分示出为preselectionComponents。图23所示出的MPD文件的其它部分与图20所示出的MPD文件类似。
作为另一修改示例,viewing_azimuth_range和viewing_elevation_range不必包括(设置)在MPD文件中。在这种情况下,在图22的步骤S306中,只需要仅使用direction_azimuth、direction_elevation、clipping_azimuth_range和clipping_elevation_range来选择AdaptationSet。然而,在这种情况下,由于没有考虑观看视角,因此所选择的AdaptationSet可能不是最合适的AdaptationSet。
作为又一修改示例,除了direction_azimuth和direction_elevation之外,direction_angle可以作为方向信息包括在MPD文件中。这里,direction_angle指示相对于示例1-1中描述的剪切方向矢量的角度。
作为再一修改示例,代替direction_azimuth和direction_elevation,direction_azimuth_range和direction_elevation_range可以作为方向信息包括在MPD文件中。这里,direction_azimuth_range指示在示例1-1中描述的水平方向上的角度范围,并且direction_elevation_range指示在示例1-1中描述的垂直方向上的角度范围。
作为进一步修改示例,代替clipping_azimuth_range、clipping_elevation_range、viewing_azimuth_range和viewing_elevation_range,可以包括clipping_magnification_range和viewing_magnification_range作为剪切视角信息和观看视角信息。这里,clipping_magnification_range指示在示例1-1中描述的剪切时视角的倍率范围,并且viewing_magnification_range指示在示例1-1中描述的观看视角的倍率范围。
作为更进一步修改示例,可以用与preselectionComponents的差异的列表来代替AdaptationSet_list。例如,可以用AdaptationSet_del_list和AdaptationSet_add_list来代替AdaptationSet_list。AdaptationSet_del_list是要从preselectionComponents中删除的AdaptationSet的列表,并且在通过空格隔开AdaptationSet@id的情况下描述AdaptationSet@id。此外,AdaptationSet_add_list是要向preselectionComponents中添加的AdaptationSet的列表,并且在通过空格隔开AdaptationSet@id的情况下描述AdaptationSet@id。注意,AdaptationSet_del_list和AdaptationSet_add_list与示例1-1中描述的指示要被利用的对象音频数据的组合相对于预定的对象音频数据的组合的差异的信息相对应。
作为再进一步的修改示例,可以在AdaptationSet中用信号传送SupplementalProperty。在对象音频数据的组合被存储在一个文件中的情况下(在对象音频数据未被存储在多个文件中的情况下),因为没有利用Preselection,所以通过在AdaptationSet中用信号传送SupplementalProperty,可以选择要被利用的AdaptationSet。
<5-2.用信号传送使用对象之间的角度的对象选择信息的示例(示例3-2)>
以上已经作为示例3-1描述了用信号传送使用视角的对象选择信息的示例。接下来,作为示例3-2,将描述用信号传送在示例1-2中描述的使用对象之间的角度的对象选择信息的示例。在本示例中,在文件级用信号传送示例1-2中描述的利用信息,并且用MPEG-DASH实现流传送的情况下,只需要在AdaptationSet级用信号传送利用信息。
注意,以下将描述对象选择信息包括以下信息的示例。
-要计算其之间的角度的两个对象的位置信息
-包括对象之间的角度范围的信息的角度信息,其成为阈值
-利用信息,指示包括要被利用的对象音频数据的所有AdaptationSet
在本示例中,通过SupplementalProperty用信号新传送用于显示状态的信息。schemeIdUri指定“urn:mpeg:dash:objectAudio:objectSelectionAngle”,并且在由逗号隔开的情况下通过value来顺序地用信号传送“object1_azimuth、object1_elevation、object2_azimuth、object2_elevation、threshold_range、AdaptationSet_list”。图24是示出本示例中要用信号传送的value以及各个value的详细描述的表。
在本示例中,将参照图25和图26描述要由服务器100的MPD文件生成单元114生成的MPD文件的示例。图25是示出本实施方式中要由MPD文件生成单元114生成的MPD文件的示例的视图。另外,图26是示出图25所示出的MPD文件中的各条信息的表。在图26的表中,示出第一对象的位置信息、第二对象的位置信息、角度信息、利用信息和图25所示出的MPD文件中的对应的SupplementalProperty。
在图25的MPD文件中,如第三行所示,Preselection的preselectionComponents中的预定(默认)的AdaptationSet的组合是“o2 o3”。此外,在图25的MPD文件中,从第四行到第五行示出了作为与预定组合不同的组合的两种模式的SupplementalProperty。通过这种方式,通过预先确定预定的AdaptationSet的组合,只需要仅为其中要被利用的对象音频数据在各个显示状态下不同的组合准备SupplementalProperty。
在图25所示出的MPD文件的示例中,将参照图27描述客户端200的处理单元210选择要获取的AdaptationSet的方法。图27是示出用于选择由客户端200获取的AdaptationSet的方法的示例的流程图。
首先,如图27所示,处理单元210从Preselection@preselectionComponents中获取AdaptationSet的列表(S322)。随后,处理单元210获取schemeIdUri为“urn:mpeg:dash:objectAudio:objectSelectionAngle”的Preselection的SupplementalProperty的全部(S324)。
随后,处理单元210针对在步骤S324中获取的所有SupplementalProperty计算观看时对象之间的角度(S326)。在步骤S326中,处理单元210基于每条SupplementalProperty中的object1_azimuth、object1_elevation、object2_azimuth和object2_elevation来计算观看时对象的位置,并且计算观看时对象之间的角度。
随后,处理单元210基于在步骤S326中计算出的对象之间的角度,在步骤S324中获取的SupplementalProperty中指定与当前显示状态相对应的SupplementalProperty(S328)。例如,在步骤S328中,处理单元210可以在步骤S324中获取的SupplementalProperty中指定对于其在步骤S326中计算出的对象之间的角度被包括在threshold_range中的SupplementalProperty。注意,在不存在满足上述条件的SupplementalProperty的情况下,处理单元210不必在步骤S328中指定任何SupplementalProperty。
在指定了与当前显示状态相对应的SupplementalProperty的情况下(S330:是),处理单元210选择所指定的SupplementalProperty的AdaptationSet_list中所示出的AdaptationSet(S332)。
其中,在没有指定与当前显示状态相对应的SupplementalProperty的情况下(S330:否),处理单元210选择Preselection@preselectionComponents中指示的预定(默认)的AdaptationSet(S334)。
注意,图27所示出的从步骤S322至S334的处理可以由例如分段文件选择单元213执行。
以上已经描述了根据本示例的MPD文件的示例。然而,在本示例中,要生成的MPD文件不限于图25所示出的示例。
例如,作为修改示例,可以从元数据文件获取对象的位置信息。例如,在存在仅存储包括所有对象的位置信息的对象元数据的元数据文件的情况下,可以用信号传送用于访问元数据文件的链接(元数据文件访问信息的示例)。注意,这样的元数据文件可以被解释为包括(部分)对象选择信息的元数据文件。此外,这样的元数据文件可以由例如服务器100的分段文件生成单元113生成,并且存储在服务器100的存储单元140中。
图28是示出修改示例中要由MPD文件生成单元114生成的MPD文件的示例的视图。在图28的MPD文件中,不包括object1_azimuth、object1_elevation、object2_azimuth和object2_elevation。替代地,在图28的MPD文件中,如第四行和第十四行所示,到元数据文件的链接(元数据文件访问信息的示例)被存储在AdaptationSet的SupplementalProperty中。此外,在图28的MPD文件中,如第五行和第六行所示,用元数据文件的AdaptationSet的id(标识)(object_metadata_AdaptationSet)和id中的对象元数据的两个编号(object1_num和object2_num)来指示要计算其之间的角度的两个对象。
客户端200的分段文件获取单元214基于到元数据文件的这种链接生成元数据文件的请求信息,以获得对象的位置信息,并且从服务器100获取元数据文件。然后,分段文件获取单元214从元数据文件获取对应对象的azimuth(方位)信息和elevation(海拔)信息作为位置信息。
作为另一修改示例,代替AdaptationSet_list,在MPD文件中可以包括在角度包括在threshold_range中的情况下进行替换之前的AdaptationSet的列表(before_AdaptationSet_list)以及替换之后的AdaptationSet的列表(after_AdaptationSet_list)。例如,在三条或更多条对象音频数据被集成(混合)为一条对象音频数据的情况下也可以利用该方法。
此外,虽然以上已经描述了根据两个对象的位置计算角度的示例,但是也可以通过使用包括在对象元数据中的spread(展开)信息来使用也包括spread的角度信息。在用SupplementalProperty的value执行信号传送的情况下,spread信息被添加到object1和object2中的每一个。具体地,可以在通过空格隔开spread_width、spread_height和spread_radius的情况下将spread_width、spread_height和spread_radius包括在MPD文件中。如果它们没有由空格隔开,则仅可以使用spread_width。
此外,作为threshold_range,MPD文件中可以分别包括水平方向上的阈值(threshold_azimuth_range)和垂直方向上的阈值(threshold_elevation_range)。客户端200的处理单元210可以仅利用水平方向、仅利用垂直方向或利用水平方向和垂直方向两者。此外,指定是仅利用水平方向、仅利用垂直方向还是利用水平方向和垂直方向两者的信息可以包括在MPD文件中。
<<6.在对象音频数据的组合随时间变化的情况下用信号传送对象选择信息的示例(示例4)>>
以上已经描述了在要被利用的对象音频数据的组合不随时间变化的情况下用信号传送对象选择信息的示例。随后,将描述在要被利用的对象音频数据的组合随时间变化的情况下用信号传送对象选择信息的示例。注意,例如,可以由内容的创建者适当地选择要被利用的对象音频数据的组合是否随时间变化。
在使用MPEG-DASH的流传送中,可以将各个时刻要被利用的对象音频数据的组合或需要的文件的组合存储在内容文件中并发送。这里,内容文件可以是例如其标准在ISO/IEC 14496-12中被定义的ISO基媒体文件格式(ISOBMFF)文件(MP4文件的示例)。
在要被利用的对象音频数据的组合随时间变化的情况下,客户端200仅需要预先获取该ISOBMFF文件,并且根据时间确定要获取的文件。在下面的描述中,将描述关于在对象音频数据的组合随时间变化的情况下的对象选择信息的信号传送的七个示例(示例4-1至示例4-7)。在以下描述的示例4-1至示例4-7中,将描述对象选择信息存储在ISOBMFF文件中所包括的元数据文件中的示例。
<6-1.扩展元数据文件的示例(示例4-1)>
首先,作为示例4-1,将描述分段文件生成单元113生成扩展元数据文件的示例。
首先,将参照图29和图30描述在被扩展之前的元数据文件的结构的示例。图29和30是用于说明元数据文件的结构的说明图。如图30所示,图29所示出的音频文件1(file1)包括对象音频数据1(obj1)和对象音频数据2(obj2)。在该音频文件1中,作为文件标识符的streamID存储在MHAMultiStreamBox(‘maeM’)中,并且streamID指示“1”。图29中所示出的对象音频文件2(file2)包括如图30所示出的对象音频数据3(obj3),并且streamID指示“2”。
图29中所示出的元数据文件(metadata file)包括音频文件1和音频文件2中所包括的对象元数据(metadata)。如图30所示,元数据文件(metadata file)的sampleEntry(‘a3am’)的reference_streamID指示包括对象元数据的哪个文件。在该元数据文件中,sampleEntry(sample entry)指示包括两个文件的对象元数据(num_reference_streamID=2),sample(样本)中所包括的第一对象元数据是其streamID=1(reference_streamID=1)的文件的对象元数据,并且第二对象元数据是其streamID=2(reference_streamID=2)的文件的对象元数据。图31是示出图29和图30所示出的元数据文件的语法的视图。
注意,MHAMultiStreamBox具有图61中所示出的结构,3da_meta_data()具有图62中所示出的结构,并且DSE具有图63中所示出的结构。注意,图63中所示出的DSE中的data_stream_byte中存储的3da_ancillary_data具有图64所示出的结构。然而,在3da_meta_data()的尺寸大于DSE的data_stream_byte的最大尺寸的情况下,3da_meta_data()被划分并存储在多条DSE中。
在本示例中,扩展参照图29至图31描述的元数据文件。在本示例中,分段文件生成单元113生成扩展元数据文件,在该扩展元数据文件中将存储用于选择对象音频数据的对象选择信息。以下将参照图32和图33描述在本示例中要生成的扩展元数据文件的示例。
图32是示出根据本示例的扩展元数据文件的示例的视图。另外,图33是示出根据本示例的扩展元数据文件的语法的视图。
如图32和图33所示,在扩展元数据文件中,objectSelectionMetadataConfigurationBox()被另外存储在moov框的SampleEntry(‘a3am’)中,并且objectSelectionMetadata()被另外存储在mdat的sample中。对象选择信息可以存储在这种objectSelectionMetadataConfigurationBox()和objectSelectionMetadata()中。此外,如图33所示,在扩展元数据文件中,在objectSelectionMetadata()中示出各个时刻的要被利用的对象音频数据或文件的组合。此外,如图33所示,在扩展元数据文件中,objectSelectionMetadataConfigurationBox()存储指示对象音频数据存储在哪个文件中的信息,该信息通过objectSelectionMetadata()指示。注意,稍后将描述objectSelectionMetadataConfigurationBox()和objectSelectionMetadata()的细节。
注意,对于MPEG-H 3D Audio的元数据文件,可以类似地执行参照图32和图33描述的元数据文件的扩展。
<6-2.对象选择元数据文件的示例(示例4-2)>
以上已经作为示例4-1描述了扩展元数据文件。随后,作为示例4-2,将参照图34和图35描述生成对象选择专用的元数据文件(在下文中,称为“对象选择元数据文件”)的示例。在本示例中,对象选择元数据文件可以由分段文件生成单元113生成,并且可以仅包括对象选择信息。
图34是示出根据本示例的对象选择元数据文件的示例的视图。另外,图35是示出根据本示例的对象选择元数据文件的语法的视图。
如图34和图35所示,在对象选择元数据文件中,以与上述扩展元数据文件类似的方式将objectSelectionMetadataConfigurationBox()存储在moov框的SampleEntry中。此外,如图34和图35所示,在对象选择元数据文件中,以与上述扩展元数据文件类似的方式将objectSelectionMetadata()存储在mdat的sample中。注意,稍后将描述objectSelectionMetadataConfigurationBox()和objectSelectionMetadata()的细节。
注意,在MPEG-H 3D Audio中也可以类似地生成参照图34和图35描述的对象选择元数据文件。
<6-3.使用视角的对象选择信息的存储示例(示例4-3)>
随后,作为示例4-3,将描述示例1-1中描述的使用视角的对象选择信息被存储在上述元数据文件中的示例。本示例可以与上述示例4-1和示例4-2中任一者组合。在以下描述中,将描述根据本示例的objectSelectionMetadataConfigurationBox和objectSelectionMetadata。
图36是示出根据本示例的objectSelectionMetadataConfigurationBox的示例的视图。此外,图37是示出图36所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。如图37所示,在图36所示出的objectSelectionMetadataConfigurationBox中,用stream_id指示包括在objectSelectionMetadata中示出的object_id的音频文件,并且用object_num_in_stream指示对象音频数据是什么编号的对象音频数据。在本示例中,streamID(stream_id)是用于访问其中存储了对象音频数据的音频文件的信息(在下文中,也称为“音频文件访问信息”)。此外,用default_object_id来指示要被利用的预定(默认)的对象音频数据。
图38是示出根据本示例的objectSelectionMetadata的示例的视图。另外,图39是示出图38所示出的objectSelectionMetadata的value以及各个value的详细描述的表。在图38所示出的objectSelectionMetadata中,用mixed_object_list_num指示示例3-1中的SupplementalProperty的数量。此外,关于其它参数,用对象音频数据的id(object_id)的列表(在下文中,也称为“对象列表”)来指示示出示例3-1中的AdaptationSet列表的部分。可以通过将本示例与上述示例4-1或示例4-2组合来指示要获取的对象音频数据的组合。
注意,根据本示例的objectSelectionMetadata不限于图38和图39所示出的示例。例如,作为修改示例,代替图38所示出的objectSelectionMetadata的第十四行至第十七行,可以示出与objectSelectionMetadataConfigurationBox所指示的默认对象(defaultobject)的差异。图40是示出这种objectSelectionMetadata的修改示例的视图。注意,图40仅示出了可以用图38所示出的objectSelectionMetadata的第十四行至第十七行替换的部分。另外,图41是示出图40所示出的各个value的详细描述的表。
作为另一修改示例,除了direction_azimuth和direction_elevation之外,direction_angle可以作为方向信息包括在objectSelectionMetadata中。这里,direction_angle指示相对于示例1-1中描述的剪切方向矢量的角度。
作为再进一步修改示例,作为方向信息,代替direction_azimuth和direction_elevation,可以在objectSelectionMetadata中包括min_direction_azimuth_range、max_direction_azimuth_range、min_direction_elevation_range和max_direction_elevation_range。这里,min_direction_azimuth_range和max_direction_azimuth_range指示在示例1-1中描述的水平方向上的角度范围,并且min_direction_elevation_range和max_direction_elevation_range指示在示例1-1中描述的垂直方向上的角度范围。
作为又一修改示例,作为剪切视角信息和观看视角信息,代替min_clipping_azimuth_range、max_clipping_azimuth_range、min_clipping_elevation_range、max_clipping_elevation_range、max_viewing_azimuth_range、min_viewing_elevation_range和max_viewing_elevation_range,可以在objectSelectionMetadata中包括min_clipping_magnification_range、max_clipping_magnification_range、min_viewing_magnification_range和max_viewing_magnification_range。这里,min_clipping_magnification_range和max_clipping_magnification_range指示在示例1-1中描述的剪切时视角的倍率范围,并且min_viewing_magnification_range和max_viewing_magnification_range指示在示例1-1中描述的观看视角的倍率范围。
作为进一步修改示例,在objectSelectionMetadataConfigurationBox和objectSelectionMetadata中,可以示出文件的组合而不是对象音频数据的组合。将参照图42至图45描述这样的修改示例。
图42是示出根据本示例的objectSelectionMetadataConfigurationBox的示例的视图。此外,图43是示出图42所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。在图42所示出的objectSelectionMetadataConfigurationBox中,不包括指示对象音频数据包括在哪个文件中的信息以及要被利用的预定对象音频数据的信息。于是,在图42所示出的objectSelectionMetadataConfigurationBox中,使用stream_id作为default_stream_id来指示要在预定(默认)的状态下利用的音频文件的组合。图44是示出根据本修改示例的objectSelectionMetadata的示例的视图。此外,图45是示出图44所示出的objectSelectionMetadata的value以及各个value的详细描述的表。同样在图44所示出的objectSelectionMetadata中,使用stream_id指示音频文件的组合,而不是对象音频数据的组合。同样在本示例中,stream_id是用于访问其中存储了对象音频数据的音频文件的音频文件访问信息。
根据参照图42至图45描述的本示例,提供了以下优点:客户端200不需要确定包括要获取的对象音频数据的文件。
<6-4.使用对象之间的角度的对象选择信息的存储示例(示例4-4)>
以上已经作为示例4-3描述了使用视角的对象选择信息的存储示例。随后,作为示例4-4,将描述示例1-2中描述的使用对象之间的角度的对象选择信息被存储在上述元数据文件中的示例。本示例可以与上述示例4-1和示例4-2中的任一者组合。
在本示例中,objectSelectionMetadataConfigurationBox可以类似于上述示例4-3中的objectSelectionMetadataConfigurationBox。在以下描述中,将描述根据本示例的objectSelectionMetadata。
图46是示出根据本示例的objectSelectionMetadata的示例的视图。另外,图47是示出图46所示出的objectSelectionMetadata的value以及各个value的详细描述的表。在图46所示出的objectSelectionMetadata中,用mixed_object_list_num指示示例3-2中的SupplementalProperty的数量。此外,关于其它参数,用对象音频数据的id(object_id)的列表来指示示出示例3-2中的AdaptationSet列表的部分。可以通过将本示例与上述示例4-1或示例4-2组合来指示要获取的对象音频数据的组合。
注意,根据本示例的objectSelectionMetadata不限于图46和图47所示出的示例。例如,作为修改示例,代替图46所示出的objectSelectionMetadata的第十行至第十三行,可以包括替换objectSelectionMetadataConfigurationBox中示出的默认对象之前的对象列表以及在替换默认对象之后的对象列表。图48是示出这种objectSelectionMetadata的修改示例的视图。注意,图48仅示出了可以用图46所示出的objectSelectionMetadata的第十行至第十三行替换的部分。另外,图49是示出图48所示出的各个value的详细描述的表。
作为另一修改示例,可以从对象元数据获取对象的位置信息。例如,代替object1_azimuth、object1_elevation、object2_azimuth和object2_elevation,根据本修改示例的objectSelectionMetadata可以包括object1_id和object2_id。此外,客户端200的处理单元210可以从对象元数据获取azimuth(方位)和elevation(海拔)。在对象元数据中不包括objectSelectionMetadata的情况下,仅需要扩展track reference(轨道基准),设置reference_type‘obmt’,指定对象元数据的轨道,并且执行信号传送,使得可以利用轨道上的对象元数据。
<6-5.使得能够选择对象选择信息的信号传送的示例(示例4-5)>
随后,作为示例4-5,描述可以通过在示例4-3和示例4-4中描述的objectSelectionMetadataConfigurationBox中包括附加信息来实现各种结构的示例。例如,在本示例中,可以用信号传送指示对象音频数据是用如参照图36描述的对象音频文件的列表来指示还是用如参照图42描述的文件(流)的列表来指示的信息。
图50是示出根据本示例的objectSelectionMetadataConfigurationBox的示例的视图。另外,图51是示出图50所示出的objectSelectionMetadataConfigurationBox的value以及各个value的详细描述的表。
图50所示出的objectSelectionMetadataConfigurationBox包括list_is_object和sample_type,list_is_object是指示用信号传送图36和图42中的哪种类型的objectSelectionMetadataConfigurationBox的标志,并且sample_type指示objectSelectionMetadata的结构。根据这样的配置,可以实现各种结构。
<6-6.通过MPD文件的信号传送的示例(示例4-6)>
随后,作为示例4-6将描述通过MPD文件的包括对象选择信息的ISOBMFF文件的信号传送的示例。本示例中描述的MPD文件可以由服务器100的MPD文件生成单元114生成。此外,在本示例中生成的MPD文件中,存储用于访问包括对象选择信息的元数据文件的元数据文件访问信息。
首先,将参照图52描述在对象选择信息被存储在上面作为示例4-1描述的扩展元数据文件中的情况下由服务器100的MPD文件生成单元114生成的MPD文件的示例。图52是示出根据本示例的要生成的MPD文件的示例的视图。
在图52的MPD文件中,如第三行所示,schemeIdUri在Preselection的SupplementalProperty中指定urn:mpeg:dash:objectAudio:objectMetadataFile,并且用value来指定元数据文件的AdaptationSet@id。此外,如图52中的MPD文件的第十二行所示,在包括元数据文件的AdaptationSet中,schemeIdUri在SupplementalProperty中指定urn:mpeg:dash:objectAudio:objectMetadataStreamID,使得可以指示streamID与AdaptationSet之间的关系。
接下来,将参照图53描述在对象选择信息被存储在上面作为示例4-2描述的对象选择元数据文件中的情况下由服务器100的MPD文件生成单元114生成的MPD文件的示例。图53是示出根据本示例的要生成的MPD文件的示例的视图。
在图53的MPD文件中,如第四行所示,schemeIdUri在Preselection的SupplementalProperty中指定urn:mpeg:dash:objectAudio:objectSelectionMetadataFile,并且用value来指定对象选择元数据文件的AdaptationSet@id。在图53的MPD文件中,示出了AdaptationSet@id=“m2”。在图53的MPD文件中,如第十九行所示,在对象选择元数据文件的AdaptationSet(AdaptationSet@id=“m2”)中,schemeIdUri在SupplementalProperty中用信号传送urn:mpeg:dash:objectAudio:objectMetadataFile。在objectSelectionMetadata中“存储使用显示时的两个对象之间的角度的对象选择信息”的情况下,在需要参考元数据文件来获得两个对象之间的角度的情况下,这是需要的。通过SupplementalProperty中的schemeIdUri对urn:mpeg:dash:objectAudio:objectMetadataStreamID的信号传送用于指示在对象选择元数据文件中用信号传送的stream_id指示哪个AdaptationSet的文件。
注意,通过Preselection的SupplementalProperty中的schemeIdUri对urn:mpeg:dash:objectAudio:objectSelectionMetadataFile的信号传送也可以应用于对象选择信息被存储在参照图52描述的扩展元数据文件中的情况。
此外,在对象选择元数据文件的AdaptationSet(AdaptationSet@id=“m2”)中,其中schemeIdUri在SupplementalProperty中用信号传送urn:mpeg:dash:objectAudio:objectMetadataFile的部分可以用Representation(表示)的associationId来指示。将参照图54描述这样的示例。图54是示出根据本示例的要生成的MPD文件的另一示例的视图。
在图54所示出的MPD文件中,代替图53所示出的MPD文件的第二十一行中的<Representation id=“op2”>,示出<Representation id="op2"associationId=“op1”>。在图54所示出的MPD文件中,schemeIdUri在对象选择元数据文件的AdaptationSet的SupplementalProperty(AdaptationSet@id=“m2”)中的信号传送中未利用urn:mpeg:dash:objectAudio:objectMetadataFile。
<6-7.选择要由客户端获取的文件的示例(示例4-7)>
随后,作为示例4-7将描述用于选择要由客户端200的处理单元210获取的文件的方法。图55是示出用于选择由客户端获取的文件的方法的示例的流程图。注意,图55示出了在如参照图36至图39描述的那样将对象选择信息存储在参照图32至图33描述的扩展元数据文件中并且利用参照图52描述的MPD文件执行信号传送的情况下的选择方法的示例。
首先,如图55所示,处理单元210通过schemeIdUri从MPD文件的Preselection的SupplementalProperty中的“urn:mpeg:dash:objectAudio:objectMetadataFile”的value指定元数据文件的AdaptationSet,来从服务器100获取元数据文件(S402)。随后,处理单元210获取由客户端200显示的剪切图像的剪切方向、剪切视角和当前观看视角的信息(S404)。随后,处理单元210从在步骤S402中获取的元数据文件中获取当前objectSelectionMetadata(S406)。
此外,处理单元210基于在步骤S406中获取的objectSelectionMetadata,指定与当前显示状态相对应的对象列表(S408)。例如,在步骤S408中指定的对象列表可以是如下对象列表:其中由客户端200显示的剪切图像的剪切方向接近direction_azimuth和direction_elevation的值。此外,在步骤S408中指定的对象列表可以是如下对象列表:其中由客户端200显示的剪切图像的剪切视角包括在由min_clipping_azimuth_range、max_clipping_azimuth_range、min_clipping_elevation_range和max_clipping_elevation_range指示的视角范围中。更进一步,在步骤S408中指定的对象列表可以是如下对象列表:其中当前观看视角包括在由min_viewing_azimuth_range、max_viewing_azimuth_range、min_viewing_elevation_range和max_viewing_elevation_range指示的视角范围中。注意,在不存在满足上述条件的对象列表的情况下,处理单元210不必在步骤S408中指定任何对象列表。
在指定了与当前显示状态相对应的对象列表的情况下(S410:是),处理单元210获取所指定的对象列表的object_id(S412)。其中,在没有指定与当前显示状态相对应的对象列表的情况下(S410:否),处理单元210获取sampleEntry的default_object_id(S414)。
随后,处理单元210从sampleEntry的objectSelectionMetadataConfigurationBox获取每个object_id所属的流的stream_id(S416)。此外,处理单元210基于urn:mpeg:dash:objectAudio:objectMetadataStreamID的stream_id选择要获取的AdaptationSet(文件)(S418)。
注意,图55所示出的从步骤S402至S418的处理可以由例如分段文件选择单元213执行。
<<7.应用示例>>
以上已经描述了本公开的实施方式。本公开中的上述技术(本技术)可以应用于各种类型的内容,并且例如还可以应用于可以在多个观看位置处观看的多视图(Multi View)内容。在下面的描述中,将描述在本技术应用于多视图内容的情况下的应用示例。
图56至图58是用于说明应用示例的说明图。在下面的描述中,将描述如图56所示出的那样存在三条对象音频数据AD21至AD23并且存在两个观看位置VP1和VP2的情况。
如图57所示,在观看位置VP1处观看图像的情况下,对象音频数据AD21和对象音频数据AD22看起来好像彼此交叠。因此,准备其中对象音频数据AD21和对象音频数据AD22被集成的对象音频数据AD24。然后,根据显示状态,可以存在利用三条对象音频数据AD21至AD23的情况,以及利用两条对象音频数据AD23和AD24的情况。
另一方面,如图58所示,在观看位置VP2处观看图像的情况下,对象音频数据AD22和对象音频数据AD23看起来好像彼此交叠。因此,准备其中对象音频数据AD22和对象音频数据AD23被集成的对象音频数据AD25。然后,根据显示状态,可以存在利用三条对象音频数据AD21至AD23的情况,以及利用两条对象音频数据AD22和AD25的情况。
如参照图56至图58所描述的,可以存在要被利用的对象音频数据根据观看位置而不同的情况。同样在这种情况下,以与上述实施方式类似的方式,仅需要针对每个观看位置指定要被利用的对象音频数据。将参照图59描述在这种情况下要生成的MPD文件的示例。图59是示出在要被利用的对象音频数据根据观看位置而不同的情况下要生成的MPD文件的示例的视图。注意,将在图59中描述在要被利用的对象音频数据不随时间变化的情况下要生成的MPD文件的示例。
在图59中所示出的示例中,使用Viewpoint(视点)(在多视图内容中利用的现有元素(Element))来标识观看位置。每个Viewpoint指示针对每种显示状态的AdaptationSet的组合。与观看位置VP1相对应的view1由Preselection@id=“1”指示,并且预定的对象音频数据的组合是o1、o2和o3,并且o3和o4在SupplementalProperty中被示出为其它类型的组合。与观看位置VP2相对应的view2用Preselection@id=“2”指示,并且预定的对象音频数据的组合是o1、o2和o3,并且o2和o5在SupplementalProperty中被示出为其它类型的组合。
此外,上述方法还可以应用于自由视点内容。自由视点内容是可以从给定空间内的自由位置观看的内容。首先,准备多视图内容,并且在多个观看位置处确定要被利用的对象音频数据的组合。在这种情况下,通过利用Viewpoint的value用信号传送的位置坐标等来指示每个观看位置。再现时,只需要选择包括在Viewpoint中的视点位置中最接近期望视点位置的Viewpoint的Preselection,并且根据Preselection中的元信息确定要被利用的对象。
<<8.硬件配置示例>>
上文已经描述了本公开的实施方式。最后,将参照图60描述根据本实施方式的信息处理装置的硬件配置。图60是示出根据本实施方式的信息处理装置的硬件配置的示例的框图。注意,图60所示出的信息处理装置900可以实现例如分别在图8和图9中所示出的服务器100和客户端200。通过以下所描述的软件和硬件的协作来实现由根据本实施方式的服务器100和客户端200所进行的信息处理。
如图60所示,信息处理装置900包括:中央处理单元(CPU)901、只读存储器(ROM)902、随机存取存储器(RAM)903以及主机总线904a。此外,信息处理装置900包括桥接器904、外部总线904b、接口905、输入装置906、输出装置907、存储装置908、驱动器909、连接端口911、通信装置913以及传感器915。代替CPU 901或除了CPU 901之外,信息处理装置900可以包括诸如DSP或ASIC的处理电路。
CPU 901用作算术处理单元和控制单元,并且根据各种程序控制信息处理装置900中的整体操作。此外,CPU 901可以是微处理器。ROM 902存储由CPU 901使用的程序、算术参数等。RAM 903临时存储在CPU 901的执行中使用的程序以及在该执行中适当变化的参数等。CPU 901可以形成例如生成单元110、控制单元120、处理单元210和控制单元220。
CPU 901、ROM 902和RAM 903通过包括CPU总线等的主机总线904a相互连接。主机总线904a经由桥接器904与诸如外围组件互连/接口(PCI)总线的外部总线904b连接。主机总线904a、桥接器904和外部总线904b不一定单独配置,并且这些功能可以在一个总线上实现。
例如,输入装置906由诸如鼠标、键盘、触摸面板、按钮、麦克风、开关和操纵杆的、用户向其输入信息的装置来实现。此外,输入装置906可以是例如使用红外线或其他无线电波的远程控制装置,或者可以是诸如与信息处理装置900的操作相对应的移动电话或PDA的外部连接装置。此外,输入装置906可以包括例如输入控制电路,其基于由用户使用如上所述的输入手段输入的信息来生成输入信号并且将所生成的输入信号输出至CPU 901。信息处理装置900的用户可以通过操作输入装置906来将各种数据输入到信息处理装置900并且给出关于处理操作的指令。
输出装置907由能够在视觉上或在听觉上向用户通知所获取的信息的装置形成。作为这样的装置,存在诸如CRT显示装置、液晶显示装置、等离子体显示装置、EL显示装置或灯的显示装置、诸如扬声器和耳机的声音输出装置、打印机装置等。输出装置907例如输出通过由信息处理装置900执行的各种处理获得的结果。具体地,显示装置以诸如文本、图像、表和曲线图的各种格式在视觉上显示通过由信息处理装置900执行的各种处理获得的结果。声音输出装置将由再现的音频数据、声学数据等组成的音频信号转换为模拟信号,并且在听觉上将其输出。输出装置907可以形成例如显示单元260和扬声器270。
存储装置908是用于数据存储的装置,其形成为信息处理装置900的存储单元的示例。存储装置908例如由诸如HDD的磁存储单元装置、半导体存储装置、光存储装置、磁光存储装置等来实现。存储装置908可以包括存储介质、用于在存储介质上记录数据的记录装置、用于从存储介质读取数据的读取装置、用于删除存储介质上记录的数据的删除装置等。存储装置908存储由CPU 901执行的程序和各种类型的数据、从外部获取的各种类型的数据等。存储装置908可以形成例如存储单元140和存储单元240。
驱动器909是用于存储介质的读取器/写入器,并且被构建在信息处理装置900中或者从外部附接至信息处理装置900。驱动器909读取记录在诸如安装的磁盘、光盘、磁光盘或半导体存储器的可移除存储介质中的信息,并且将信息输出至RAM 903。另外,驱动器909可以将信息写入可移除存储介质中。
例如,连接端口911是连接至外部装置的接口,并且用作到能够通过通用串行总线(USB)传输数据的外部装置的连接端口。
通信装置913是例如由用于连接至网络920的通信装置等形成的通信接口。例如,通信装置913是用于有线或无线局域网(LAN)、长期演进(LTE)LTE、蓝牙(注册商标)或无线USB(WUSB)的通信卡等。另外,通信装置913可以是用于光通信的路由器、用于非对称数字订户线路(ADSL)的路由器、各种通信调制解调器等。通信装置913可以根据诸如TCP/IP的预定协议例如在因特网上或与其他通信装置发送和接收信号等。通信装置913可以形成例如通信单元130和通信单元230。
例如,传感器915对应于各种类型的传感器,例如加速度传感器、陀螺仪传感器、地磁传感器、光传感器、声音传感器、距离测量传感器和力传感器。传感器915获取诸如信息处理装置900的壳体的姿态的与信息处理装置900的状态有关的信息以及诸如信息处理装置900周围的光度和噪音的与信息处理装置900周围的环境有关的信息。另外,传感器915可以包括接收GPS信号并且测量装置的纬度、经度和海拔的GPS传感器。传感器915可以形成例如传感器单元250。
网络920是从连接至网络920的装置发送的信息的有线或无线传输路径。例如,网络920可以包括:诸如因特网、电话电路网络或卫星通信网络的公共电路网络;包括Ethernet(以太网,注册商标)的各种局域网(LAN);广域网(),等等。网络920还可以包括专用线网络,例如因特网协议-虚拟私人网络(IP-VPN)。
如上所述,已经描述了能够实现根据本公开的本实施方式的信息处理装置900的功能的硬件配置的示例。上述部件可以使用通用构件来实现,或者可以通过专用于各个部件的功能的硬件来实现。因此,可以根据执行本公开的本实施方式时的技术水平适当地改变要使用的硬件配置。
注意,可以在PC等上准备和实现用于实现根据本公开的上述本实施方式的信息处理装置900的每个功能的计算机程序。另外,也可以提供其上存储有这样的计算机程序的计算机可读记录介质。例如,记录介质是磁盘、光盘、磁光盘、闪存等。此外,可以在不使用任何记录介质的情况下,经由例如网络来分发上述计算机程序。
<<9.总结>>
如上所述,根据本公开的实施方式,可以根据显示状态来选择对象音频数据。例如,当使用MPEG-DASH流传输对象音频数据时,可以从适合观看环境的更适当的位置听到声音。此外,在显示状态通过放大或缩小而改变的情况下,用户可以具有其中声音来自根据当时的图像的适当位置的体验。再者,可以对对象音频数据进行文件化,使得要存储在服务器中的数据量与要由客户端获取的文件的数量两者均被抑制。因此,传输量减小,使得变得可以增加例如要获取的其它数据的比特率。
尽管上面已经参照附图详细描述了本公开的优选实施方式,但是本公开的技术范围不限于这样的示例。对于本公开的领域的技术人员而言将明显的是,可以在权利要求中描述的技术理念的范围内构思出各种修改和变型,并且这样的修改和变型自然地落入本公开的技术范围内。
此外,本说明书中所描述的效果仅仅是说明性或示例性效果,而并非限制性的。即,除了上述效果之外或代替上述效果,根据本公开的技术还可以展现根据本说明书的描述对于本领域技术人员而言明显的其他效果。
注意,下列配置也在本公开的技术范围内。
(1)
一种信息处理装置,包括:
生成单元,其被配置成生成管理文件,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及
发送单元,其被配置成发送所述管理文件。
(2)
根据(1)所述的信息处理装置,其中,与所述对象选择信息有关的信息包括所述对象选择信息。
(3)
根据(1)或(2)所述的信息处理装置,其中,所述生成单元生成包括所述对象选择信息的元数据文件,以及
与所述对象选择信息有关的信息包括用于访问所生成的所述元数据文件的元数据文件访问信息。
(4)
根据(1)至(3)中任一项所述的信息处理装置,其中,所述管理文件是媒体呈现描述(MPD)文件。
(5)
根据(3)所述的信息处理装置,其中,所述管理文件是媒体呈现描述(MPD)文件,以及
所述元数据文件访问信息被存储在所述MPD文件的AdaptationSet中。
(6)
根据(5)所述的信息处理装置,其中,所述元数据文件访问信息被存储在所述AdaptationSet的SupplementalProperty中。
(7)
根据(1)至(6)中任一项所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的方向有关的方向信息。
(8)
根据(7)所述的信息处理装置,其中,所述方向信息包括水平方向上的角度的信息和垂直方向上的角度的信息。
(9)
根据(8)所述的信息处理装置,其中,所述方向信息还包括相对于剪切方向矢量的角度范围的信息。
(10)
根据(7)所述的信息处理装置,其中,所述方向信息包括水平方向上的角度范围的信息和垂直方向上的角度范围的信息。
(11)
根据(1)至(10)中任一项所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的视角或相对于显示图像的观看时的视角有关的视角信息。
(12)
根据(11)所述的信息处理装置,其中,所述视角信息包括水平视角范围的信息和垂直视角范围的信息。
(13)
根据(11)所述的信息处理装置,其中,所述视角信息包括相对于基准视角的倍率范围的信息。
(14)
根据(1)至(6)中任一项所述的信息处理装置,其中,所述对象选择信息包括要计算其之间的角度的两个对象的位置信息。
(15)
根据(14)所述的信息处理装置,其中,所述对象选择信息还包括与所述两个对象之间的角度有关的角度信息。
(16)
根据(1)至(15)中任一项所述的信息处理装置,其中,所述对象选择信息包括与要被利用的所述对象音频数据有关的信息。
(17)
根据(1)至(16)中任一项所述的信息处理装置,其中,所述生成单元基于根据所述显示状态基于的所述对象音频数据的组合来生成音频文件,使得同一对象音频数据不被包括在多个音频文件中。
(18)
一种要由信息处理装置执行的信息处理方法,所述信息处理方法包括:
生成管理文件,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及
发送所述管理文件。
(19)
一种程序,用于使计算机实现以下功能:
生成管理文件的功能,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息;以及
发送所述管理文件的功能。
(20)
一种信息处理装置,包括:接收单元,其被配置成接收管理文件,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息。
(21)
根据(20)所述的信息处理装置,其中,与所述对象选择信息有关的信息包括所述对象选择信息。
(22)
根据(20)或(21)所述的信息处理装置,其中,与所述对象选择信息有关的信息包括用于访问包括所述对象选择信息的元数据文件的元数据文件访问信息。
(23)
根据(20)至(22)中任一项所述的信息处理装置,其中,所述管理文件是媒体呈现描述(MPD)文件。
(24)
根据(22)所述的信息处理装置,其中,所述管理文件是媒体呈现描述(MPD)文件,以及
所述元数据文件访问信息被存储在所述MPD文件的AdaptationSet中。
(25)
根据(24)所述的信息处理装置,其中,所述元数据文件访问信息被存储在所述AdaptationSet的SupplementalProperty中。
(26)
根据(20)至(25)中任一项所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的方向有关的方向信息。
(27)
根据(26)所述的信息处理装置,其中,所述方向信息包括水平方向上的角度的信息和垂直方向上的角度的信息。
(28)
根据(27)所述的信息处理装置,其中,所述方向信息还包括相对于剪切方向矢量的角度范围的信息。
(29)
根据(26)所述的信息处理装置,其中,所述方向信息包括水平方向上的角度范围的信息和垂直方向上的角度范围的信息。
(30)
根据(20)至(29)中任一项所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的视角以及相对于显示图像的观看时的视角有关的视角信息。
(31)
根据(30)所述的信息处理装置,其中,所述视角信息包括水平视角范围的信息和垂直视角范围的信息。
(32)
根据(30)所述的信息处理装置,其中,所述视角信息包括相对于基准视角的倍率范围的信息。
(33)
根据(20)至(26)中任一项所述的信息处理装置,其中,所述对象选择信息包括要计算其之间的角度的两个对象的位置信息。
(34)
根据(33)所述的信息处理装置,其中,所述对象选择信息还包括与所述两个对象之间的角度有关的角度信息。
(35)
根据(20)至(34)中任一项所述的信息处理装置,其中,所述对象选择信息包括与要被利用的所述对象音频数据有关的信息。
(36)
一种要由信息处理装置执行的信息处理方法,所述信息处理方法包括接收管理文件,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息。
(37)
一种程序,用于使计算机实现以下功能:
接收管理文件的功能,所述管理文件存储与用于选择根据图像的显示状态的对象音频数据的对象选择信息有关的信息。
附图标记列表
100 服务器
110 生成单元
111 数据获取单元
112 编码处理单元
113 分段文件生成单元
114 文件生成单元
120 控制单元
130 通信单元
140 存储单元
200 客户端
210 处理单元
211 文件获取单元
212 文件处理单元
213 分段文件选择单元
214 分段文件获取单元
215 解码处理单元
216 合成处理单元
220 控制单元
230 通信单元
240 存储单元
250 传感器单元
260 显示单元
270 扬声器
Claims (20)
1.一种信息处理装置,包括:
生成单元,所述生成单元被配置成生成管理文件,所述管理文件存储与用于选择与图像的显示状态对应的对象音频数据的对象选择信息有关的信息;以及
发送单元,所述发送单元被配置成发送所述管理文件,
其中,在图像的第一显示状态下显示的对象与在所述图像的不同于所述第一显示状态下的第二显示状态下显示的对象相同的情况下,与所述第一显示状态对应的对象音频数据不同于与所述第二显示状态对应的对象音频数据。
2.根据权利要求1所述的信息处理装置,其中,与所述对象选择信息有关的信息包括所述对象选择信息。
3.根据权利要求1所述的信息处理装置,其中,所述生成单元生成包括所述对象选择信息的元数据文件,以及
与所述对象选择信息有关的信息包括用于访问所生成的所述元数据文件的元数据文件访问信息。
4.根据权利要求1所述的信息处理装置,其中,所述管理文件是媒体呈现描述MPD文件。
5.根据权利要求3所述的信息处理装置,其中,所述管理文件是媒体呈现描述MPD文件,以及
所述元数据文件访问信息被存储在所述MPD文件的AdaptationSet中。
6.根据权利要求5所述的信息处理装置,其中,所述元数据文件访问信息被存储在所述AdaptationSet的SupplementalProperty中。
7.根据权利要求1所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的方向有关的方向信息。
8.根据权利要求7所述的信息处理装置,其中,所述方向信息包括水平方向上的角度的信息和垂直方向上的角度的信息。
9.根据权利要求8所述的信息处理装置,其中,所述方向信息还包括相对于剪切方向矢量的角度范围的信息。
10.根据权利要求7所述的信息处理装置,其中,所述方向信息包括水平方向上的角度范围的信息和垂直方向上的角度范围的信息。
11.根据权利要求1所述的信息处理装置,其中,所述对象选择信息包括与剪切图像的视角或相对于显示图像的观看时的视角有关的视角信息。
12.根据权利要求11所述的信息处理装置,其中,所述视角信息包括水平视角范围的信息和垂直视角范围的信息。
13.根据权利要求11所述的信息处理装置,其中,所述视角信息包括相对于基准视角的倍率范围的信息。
14.根据权利要求1所述的信息处理装置,其中,所述对象选择信息包括要计算其之间的角度的两个对象的位置信息。
15.根据权利要求14所述的信息处理装置,其中,所述对象选择信息还包括与所述两个对象之间的角度有关的角度信息。
16.根据权利要求1所述的信息处理装置,其中,所述对象选择信息包括与要被利用的所述对象音频数据有关的信息。
17.根据权利要求1所述的信息处理装置,其中,所述生成单元基于与所述显示状态对应的所述对象音频数据的组合来生成音频文件,使得同一对象音频数据不被包括在多个音频文件中。
18.一种要由信息处理装置执行的信息处理方法,所述信息处理方法包括:
生成管理文件,所述管理文件存储与用于选择与图像的显示状态对应的对象音频数据的对象选择信息有关的信息;以及
发送所述管理文件,
其中,在图像的第一显示状态下显示的对象与在所述图像的不同于所述第一显示状态下的第二显示状态下显示的对象相同的情况下,与所述第一显示状态对应的对象音频数据不同于与所述第二显示状态对应的对象音频数据。
19.一种程序产品,用于使计算机实现以下功能:
生成管理文件的功能,所述管理文件存储与用于选择与图像的显示状态对应的对象音频数据的对象选择信息有关的信息;以及
发送所述管理文件的功能,
其中,在图像的第一显示状态下显示的对象与在所述图像的不同于所述第一显示状态下的第二显示状态下显示的对象相同的情况下,与所述第一显示状态对应的对象音频数据不同于与所述第二显示状态对应的对象音频数据。
20.一种记录有程序的可移除存储介质,所述程序用于使计算机实现以下功能:
生成管理文件的功能,所述管理文件存储与用于选择与图像的显示状态对应的对象音频数据的对象选择信息有关的信息;以及
发送所述管理文件的功能,
其中,在图像的第一显示状态下显示的对象与在所述图像的不同于所述第一显示状态下的第二显示状态下显示的对象相同的情况下,与所述第一显示状态对应的对象音频数据不同于与所述第二显示状态对应的对象音频数据。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018065012 | 2018-03-29 | ||
| JP2018-065012 | 2018-03-29 | ||
| PCT/JP2018/047835 WO2019187437A1 (ja) | 2018-03-29 | 2018-12-26 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111903135A CN111903135A (zh) | 2020-11-06 |
| CN111903135B true CN111903135B (zh) | 2024-12-06 |
Family
ID=68059782
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880091635.3A Active CN111903135B (zh) | 2018-03-29 | 2018-12-26 | 信息处理装置、信息处理方法以及程序 |
Country Status (7)
| Country | Link |
|---|---|
| US (2) | US11323757B2 (zh) |
| EP (1) | EP3780628A4 (zh) |
| JP (1) | JP7396267B2 (zh) |
| KR (1) | KR20200136393A (zh) |
| CN (1) | CN111903135B (zh) |
| TW (1) | TW201942821A (zh) |
| WO (1) | WO2019187437A1 (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11616822B2 (en) * | 2019-09-30 | 2023-03-28 | Tencent America LLC | Session-based information for dynamic adaptive streaming over HTTP |
| EP4062649A2 (en) * | 2019-11-20 | 2022-09-28 | Dolby International AB | Methods and devices for personalizing audio content |
| US11451602B2 (en) * | 2021-01-06 | 2022-09-20 | Tencent America LLC | Methods and apparatuses for dynamic adaptive streaming over HTTP |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106415711A (zh) * | 2014-05-30 | 2017-02-15 | 索尼公司 | 信息处理装置和信息处理方法 |
| CN106797499A (zh) * | 2014-10-10 | 2017-05-31 | 索尼公司 | 编码装置和方法、再现装置和方法以及程序 |
| WO2017140948A1 (en) * | 2016-02-17 | 2017-08-24 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
Family Cites Families (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7613727B2 (en) * | 2002-02-25 | 2009-11-03 | Sont Corporation | Method and apparatus for supporting advanced coding formats in media files |
| US20050198193A1 (en) * | 2004-02-12 | 2005-09-08 | Jaakko Halme | System, method, and apparatus for creating metadata enhanced media files from broadcast media |
| JP4304108B2 (ja) * | 2004-03-31 | 2009-07-29 | 株式会社東芝 | メタデータ配信装置、動画再生装置および動画再生システム |
| JP5230096B2 (ja) * | 2006-12-27 | 2013-07-10 | キヤノン株式会社 | 映像音声出力装置及び映像音声出力方法 |
| US8625607B2 (en) * | 2007-07-24 | 2014-01-07 | Time Warner Cable Enterprises Llc | Generation, distribution and use of content metadata in a network |
| KR101596504B1 (ko) * | 2008-04-23 | 2016-02-23 | 한국전자통신연구원 | 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체 |
| US9007524B2 (en) * | 2012-09-25 | 2015-04-14 | Intel Corporation | Techniques and apparatus for audio isolation in video processing |
| TWI530941B (zh) * | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
| ES2640815T3 (es) * | 2013-05-24 | 2017-11-06 | Dolby International Ab | Codificación eficiente de escenas de audio que comprenden objetos de audio |
| CN105519130B (zh) * | 2013-07-19 | 2019-03-08 | 索尼公司 | 信息处理装置和方法 |
| EP2830049A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
| EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
| CN119049485A (zh) * | 2013-07-31 | 2024-11-29 | 杜比实验室特许公司 | 用于处理音频数据的方法和装置、介质及设备 |
| KR20150068112A (ko) * | 2013-12-11 | 2015-06-19 | 삼성전자주식회사 | 오디오를 추적하기 위한 방법 및 전자 장치 |
| WO2016002495A1 (ja) * | 2014-06-30 | 2016-01-07 | ソニー株式会社 | 情報処理装置および方法 |
| WO2016002738A1 (ja) * | 2014-06-30 | 2016-01-07 | ソニー株式会社 | 情報処理装置および情報処理方法 |
| CA2967249C (en) * | 2014-11-28 | 2023-03-14 | Sony Corporation | Transmission device, transmission method, reception device, and reception method |
| KR20160093404A (ko) * | 2015-01-29 | 2016-08-08 | 한국전자통신연구원 | 캐릭터 선택적 오디오 줌인을 제공하는 멀티미디어 콘텐츠 서비스 방법 및 장치 |
| US10848795B2 (en) * | 2015-05-12 | 2020-11-24 | Lg Electronics Inc. | Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal and method for receiving broadcast signal |
| EP3723391A1 (en) * | 2015-05-18 | 2020-10-14 | Sony Corporation | Information processing device, information processing method, and program |
| US10693936B2 (en) * | 2015-08-25 | 2020-06-23 | Qualcomm Incorporated | Transporting coded audio data |
| IL307306B2 (en) * | 2016-02-04 | 2024-11-01 | Magic Leap Inc | A technique for audio direction in an augmented reality system |
| KR101798321B1 (ko) * | 2016-02-19 | 2017-11-15 | 서울과학기술대학교 산학협력단 | 자유 시점 방송의 송수신 장치 및 방법 |
| KR20170106063A (ko) * | 2016-03-11 | 2017-09-20 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
| EP3301951A1 (en) * | 2016-09-30 | 2018-04-04 | Koninklijke KPN N.V. | Audio object processing based on spatial listener information |
| GB201800918D0 (en) * | 2018-01-19 | 2018-03-07 | Nokia Technologies Oy | Associated spatial audio playback |
| US11450071B2 (en) * | 2018-05-23 | 2022-09-20 | Koninklijke Kpn N.V. | Adapting acoustic rendering to image-based object |
| GB2593117A (en) * | 2018-07-24 | 2021-09-22 | Nokia Technologies Oy | Apparatus, methods and computer programs for controlling band limited audio objects |
| WO2021053266A2 (en) * | 2019-09-17 | 2021-03-25 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
| US12081961B2 (en) * | 2019-11-13 | 2024-09-03 | Sony Group Corporation | Signal processing device and method |
| US11570378B2 (en) * | 2020-07-21 | 2023-01-31 | Gopro, Inc. | Methods and apparatus for metadata-based processing of media content |
| US11115625B1 (en) * | 2020-12-14 | 2021-09-07 | Cisco Technology, Inc. | Positional audio metadata generation |
| GB2602148A (en) * | 2020-12-21 | 2022-06-22 | Nokia Technologies Oy | Audio rendering with spatial metadata interpolation and source position information |
-
2018
- 2018-12-26 KR KR1020207026804A patent/KR20200136393A/ko not_active Withdrawn
- 2018-12-26 JP JP2020509662A patent/JP7396267B2/ja active Active
- 2018-12-26 EP EP18912755.8A patent/EP3780628A4/en not_active Withdrawn
- 2018-12-26 US US17/040,312 patent/US11323757B2/en active Active
- 2018-12-26 CN CN201880091635.3A patent/CN111903135B/zh active Active
- 2018-12-26 WO PCT/JP2018/047835 patent/WO2019187437A1/ja not_active Ceased
-
2019
- 2019-03-19 TW TW108109216A patent/TW201942821A/zh unknown
-
2022
- 2022-03-24 US US17/703,424 patent/US11743520B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106415711A (zh) * | 2014-05-30 | 2017-02-15 | 索尼公司 | 信息处理装置和信息处理方法 |
| CN106797499A (zh) * | 2014-10-10 | 2017-05-31 | 索尼公司 | 编码装置和方法、再现装置和方法以及程序 |
| WO2017140948A1 (en) * | 2016-02-17 | 2017-08-24 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3780628A1 (en) | 2021-02-17 |
| JPWO2019187437A1 (ja) | 2021-04-01 |
| US11323757B2 (en) | 2022-05-03 |
| WO2019187437A1 (ja) | 2019-10-03 |
| US20220232264A1 (en) | 2022-07-21 |
| JP7396267B2 (ja) | 2023-12-12 |
| TW201942821A (zh) | 2019-11-01 |
| US11743520B2 (en) | 2023-08-29 |
| CN111903135A (zh) | 2020-11-06 |
| EP3780628A4 (en) | 2021-02-17 |
| KR20200136393A (ko) | 2020-12-07 |
| US20210021880A1 (en) | 2021-01-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7409362B2 (ja) | 再生装置および方法、並びにプログラム | |
| US10911809B2 (en) | Communication apparatus, communication method, and program | |
| US11272224B2 (en) | Information processing device and method | |
| US11743520B2 (en) | Information processing apparatus, information processing method, and program | |
| CN111903136B (zh) | 信息处理装置、信息处理方法和计算机可读存储介质 | |
| CN115225937A (zh) | 沉浸式媒体提供方法、获取方法、装置、设备及存储介质 | |
| EP4013042A1 (en) | Information processing device, reproduction processing device, and information processing method | |
| US12495269B2 (en) | Method and apparatus for low complexity low bitrate 6DoF HOA rendering |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |