CN107004419B

CN107004419B - 发送装置、发送方法、接收装置和接收方法

Info

Publication number: CN107004419B
Application number: CN201580063452.7A
Authority: CN
Inventors: 高桥和幸; 北里直久
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-11-28
Filing date: 2015-11-09
Publication date: 2021-02-02
Anticipated expiration: 2035-11-09
Also published as: EP3226241A4; KR20170088843A; US10880597B2; EP3226241B1; CA2967249C; MX2017006581A; JPWO2016084592A1; CA2967249A1; WO2016084592A1; CN107004419A; JP6624068B2; KR102605480B1; US20180310049A1; EP3226241A1

Abstract

本发明的目的是即使在接收侧执行视图切换的情况下也能准确地执行3D音频渲染。发送装置生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流。发送装置发送预定格式的容器，容器包括第一视频流、第二视频流、音频流和位置校正信息，该位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。

Description

发送装置、发送方法、接收装置和接收方法

技术领域

本技术涉及发送装置、发送方法、接收装置和接收方法，并且更具体地涉及将具有音频数据和对象声源的位置信息的音频流连同视频流一起发送的发送装置等。

背景技术

迄今为止，作为三维(3D)音频技术，已经提出了(例如，参见专利文献1)3D音频渲染技术，以基于对象声源的位置信息将对象声源的音频数据映射到任何位置的扬声器。

引用列表

专利文献

专利文献1：JP-T-2014-520491

发明内容

本发明将要解决的问题

以上提及的对象声源的位置信息基于单视图。在其中从多个视图拍摄内容的情况下，将被使用的摄像机的位置或方向随摄像机的不同而变化。因此，在接收侧执行视图的切换的情况下，可仅在用作参考的视图中准确地执行3D音频渲染。

当前技术的目的在于使得即使在接收侧执行视图的切换的情况下，也能够进行准确的3D音频渲染。

问题解决方案

当前技术的概念在于发送装置，包括：

编码单元，被配置为生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流；以及

发送单元，被配置为发送预定格式的容器，所述容器包括第一视频流、第二视频流、音频流和位置校正信息，所述位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。

在本技术中，编码单元生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流以及音频流。音频流具有对象声源的音频数据和对象声源的基于第一视图的位置信息。

发送单元发送预定格式的容器，该容器包括第一视频流、第二视频流、音频流和位置校正信息，所述位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。例如，位置校正信息可指示第一视图以及第二视图的位置和方向的差值分量。例如，容器可以是在数字广播标准中采用的传送流(MPEG-2TS)。进一步地，例如，容器可以是用于在因特网上进行传递等的MP4的容器，或者是除了MP4以外的格式的容器。

例如，可将位置校正信息插入音频流的层中。在这种情况下，保证了对象声源的音频数据和位置信息与位置校正的同步。在这种情况下，例如，可将位置校正信息插入包括位置信息的元数据区域中。进一步的，在这种情况下，例如，可将位置校正信息插入用户数据区域中。

进一步地，在这种情况下，例如，当存在多个第二视图时，将分别对应于多个第二视图的多条位置校正信息插入音频流的层中，以及将指示分别对应于多条位置校正信息的第二视频流的信息插入容器的层中。

进一步的，例如，可将位置校正信息插入第二视频流的层中。在这种情况下，有助于位置校正信息和第二视频流之间的关联。在这种情况下，例如，可将位置校正信息插入用户数据区域中。

进一步地，例如，可将位置校正信息插入容器的层中。在这种情况下，例如，可将位置校正信息作为信令信息插入。在这种情况下，可在系统的层中在接收侧获得位置校正信息。

在这种情况下，容器可为MPEG2-TS，并且可将位置校正信息插入对应于节目映射表的第二视频流的视频基本流环中。

进一步地，在这种情况下，可插入包括位置校正信息的信息流。在这种情况下，在接收侧可容易地从独立于音频流和视频流的信息流获取位置校正信息。

因此，在本技术中，与第一视频流、第二视频流和音频流一起发送用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。因此，在接收侧将视图切换为第二视图的情况下，可以按照位置信息基于第二视图的方式使用通过位置校正信息校正的对象声源的位置信息，并且因此可准确地执行3D音频渲染。

进一步地，本技术的另一个概念在于接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流，以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息；

处理单元，被配置为处理容器中所包含的信息。

在本技术中，接收单元接收预定格式的容器，所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流，以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。

例如，处理单元可包括：解码单元，被配置为从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息；选择器，被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据；以及渲染单元，被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置。当通过选择器选择了第二视图的视频数据时，渲染单元可以以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。

因此，在本技术中，例如，当选择了第二视图的视频数据时，以位置信息基于第二视图的方式使用在位置校正信息的基础上校正的位置信息来执行渲染。因此，即使在其中执行视图切换的情况下，也可准确地执行3D音频渲染。

进一步的，本技术的另一个概念在于接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流；

获取单元，被配置为获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息；

解码单元，被配置为分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的位置信息；

选择器，被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据；以及

渲染单元，被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置，

其中，当通过选择器选择了第二视图的视频数据时，渲染单元以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。

在本技术中，接收单元接收预定格式的容器，所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流。

获取单元获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。例如，获取单元可从音频流的层、第二视频流的层或容器的层获取位置校正信息。进一步地，例如，获取单元可从网络上的服务器获取位置校正信息。

解码单元分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的位置信息。选择器选择性地输出第一视图的视频数据或第二视图的视频数据。

渲染单元在对象声源的位置信息的基础上，将对象声源的音频数据映射到任何扬声器位置。当通过选择器选择了第二视图的视频数据时，渲染单元以位置信息基于第二视图的方式使用基于位置校正信息校正的位置信息。

因此，在本技术中，当选择了第二视图的视频数据时，以位置信息基于第二视图的方式使用在位置校正信息的基础上校正的位置信息来执行渲染。因此，即使在其中执行视图切换的情况下，也可准确地执行3D音频渲染。

本发明的效果

根据本技术，即使在接收侧执行视图切换的情况下，也可准确地执行3D音频渲染。注意的是，本文描述的有利效果仅通过示例的方式示出而非限制性的，并且可提供附加的有利效果。

附图说明

图1是示出了作为实施方式的发送/接收系统的配置示例框图。

图2是示出了通过摄像机进行的视图(视频)拍摄以及通过麦克风进行的音频采集的假设状态的示例的图表。

图3是示出了视图1(View1)和对象声源之间的位置关系的图表。

图4是示了出视图2(View2)和对象声源之间的位置关系的图表.

图5是示出了用于校正(变换)关于对象声源的位置信息s(r,θ,φ)的变换的示例的图表。

图6是示出了发送装置的配置示例的框图。

图7是用于说明MPEG-H 3D音频的音频帧的结构的图表。

图8的(a)和图8的(b)是分别示出对象元数据(object_metadata())的配置示例等等的图表。

图9是示出了多视图位置信息1(multiview_Position_information1())的配置示例(语法)的图表。

图10的(a)至图10的(c)是分别示出配置信息“userdataConfig()”的配置示例的图表。

图11是示出了分量组描述符(component_group_descriptor)的结构示例的图表。

图12是差值分量VP2和VP3被插入音频流的层中的情况的传送流TS的配置示例的图表。

图13是示出视频序列(Video_sequence)的配置示例的图表。

图14的(a)至图14的(c)是每个示出用户数据的配置示例等等的图表。

图15是示出多视图位置信息2(multiview_Position_information2())的配置示例的图表。

图16的(a)到图16的(c)是每个示出MPEG4-AVC和HEVC中的用户数据SEI的配置示例等等的图表。

图17是示出了差值分量VP2和VP3被插入视频流的层中的情况的传送流TS的配置示例的图表。

图18是多视图位置信息描述符的配置示例的图表。

图19是示出了差值分量VP2和VP3作为信令被插入容器(系统)的层中的情况的传送流TS的配置示例的图表。

图20是示出了发送装置的另一个配置示例的框图。

图21是示出了位置校正信息流(基本流)的配置示例的图表。

图22是差值分量VP2和VP3作为位置校正信息流被插入的情况的传送流TS的配置示例的图表。

图23是位置校正信息的发送系统的列表。

图24是示出了接收装置的配置示例的框图。

图25是示出了接收装置的另一个配置示例的框图。

图26是示出了接收装置的又一个配置示例的框图。

具体实施方式

将在下面描述执行本发明的方式(下文中称为“实施方式”)。注意，按照以下顺序给出描述。

1.实施方式

2.变形例

<1.实施方式>

[发送/接收系统的配置示例]

图1示出了作为实施方式的发送/接收系统10的配置示例。发送/接收系统10由发送装置100和接收装置200组成。发送装置100发送在网络上的广播波或分组上携带的传送流TS。

该传送流TS包括分别具有多个视图的视频数据的多个视频流，以及具有一个或多个对象声源的音频数据和位置信息的音频流。图2示出了通过摄像机进行的视图(视频)拍摄和通过麦克风进行的音频采集的假设状态的示例。假设在该实施方式中传送流TS包括对应于该假设状态的视频流和音频流。

具体地，传送流TS包括通过摄像机11对视图进行拍摄而获得的视图1(View1)上的视频数据SV1的视频流、通过摄像机12对视图进行拍摄而获得的视图2(View2)上的视频数据SV2的视频流，以及通过摄像机13对视图进行拍摄而获得的视图3(View3)上的视频数据SV3的视频流。

进一步地，传送流TS包括一个音频流。该音频流包括通过麦克风21获得的音频数据(对象声源1(Object1)的音频数据)，以及基于麦克风21的视图1的位置信息(对象声源1的位置信息)。进一步的，该音频流包括通过麦克风22获得的音频数据(对象声源2(Object2)的音频数据)，以及基于麦克风22的视图1的位置信息(对象声源2的位置信息)。

进一步地，该传送流TS包括视图1和视图2的位置和方向的差值分量。差值分量构成用于将每个对象声源的位置信息校正为基于视图2的位置信息的位置校正信息。进一步地，传送流TS包括视图1和视图3的位置和方向的差值分量。差值分量构成用于将每个对象声源的位置信息校正为基于视图3的位置信息的位置校正信息。将差值分量插入构成第二视图的视图2或视图3的音频流的层、视频流的层，或容器的层中。

接收装置200接收从发送装置100发送并且在网络上的广播波或分组上携带的传送流TS。如上所述，该传送流TS包括三个视频流以及一个音频流，所述三个视频流分别包括视图1的视频数据、视图2的视频数据和视图3的视频数据，并且所述一个音频流具有对象声源1和对象声源2的音频数据和位置信息。

进一步的，该传送流TS包括作为用于将每个对象声源的位置信息校正为基于视图2的位置信息的位置校正信息的视图1和视图2的位置和方向的差值分量。进一步的，该传送流TS包括作为用于将每个对象声源的位置信息校正为基于视图3的位置信息的位置校正信息的视图1和视图3的位置和方向的差值分量。

接收装置200选择性地呈现对应于视图1、视图2和视图3的视频数据的图像。进一步地，接收装置200执行渲染，用于在对象声源的位置信息的基础上将对象声源的音频数据映射到任何扬声器位置，并且再现音频数据。在这种情况下，在选择了视图2和视图3的情况下，使用通过差值分量校正的位置信息，从而能够准确地执行渲染。

具体的，当选择了视图2时，使用按照位置信息基于第二视图的方式在视图1和视图2的位置和方向的差值分量的基础上校正的位置信息。进一步地，当选择了视图3时，使用按照位置信息基于第三视图的方式在视图1和视图3的位置和方向的差值分量的基础上校正的位置信息。

图3示出了视图1(View1)和对象声源之间的位置关系。对象声源的位置可在视图1的基础上通过极坐标s(r,θ,φ)表示，并且还可由正交坐标p(x,y,z)表示。在该情况下，“r”表示半径；“θ”表示仰角；以及“φ”表示方位角。

如上所述，发送装置100发送包括对象声源的音频数据和位置信息的音频流。该音频流包括3D音频的元数据。作为元数据，插入对象声源的极坐标s(r,θ,φ)的坐标值和增益值。

图4示出了视图2(View2)和对象声源之间的位置关系。对象声源的位置可在视图2的基础上通过极坐标s’(r’,θ’,φ’)表示，并且还可由正交坐标p’(x’,y’,z’)表示。在这种情况下，视图1和视图2的位置和方向的差值分量包括空间位置的差值分量(Δx、Δy、Δz)和方向的差值分量(Δθ、Δφ)。

接收装置200可通过使用这些差值分量将关于对象声源的位置信息s(r,θ,φ)校正(变换)为基于视图2的位置信息s’(r’,θ’,φ’)。图5示出了该情况下的变换的示例。注意，在该变换中，(x,y,z)对应于对象声源的正交坐标p(x,y,z)的坐标值并且(x1,y1,z1)对应于差值分量(Δx、Δy、Δz)。

注意，尽管省略了详细描述，但是视图3和对象声源之间的位置关系类似于以上描述的位置关系。

[发送装置的配置示例]

图6示出了发送装置100的配置示例。该发送装置100包括控制单元111、视频编码器112、113和114、3D音频编码器115、系统编码器116和发送单元117。控制单元111控制发送装置100的每个单元件的操作。

视频编码器112、113和114分别接收关于视图1的视频数据SV1、关于视图2的视频数据SV2以及关于视图3的视频数据SV3，并且对SV1、SV2和SV3执行编码(诸如MPEG2、MPEG4-AVC或HEVC)，从而获得视频流。3D音频编码器115接收对象声源1和2的对象数据，并且对对象数据执行编码(诸如MPEG-H 3D音频)，从而获得音频流。

在该情况下，对象声源1的对象数据由对象音频数据SA1和对象元数据META1组成。该对象元数据META1包括对象声源1的极坐标s(r,θ,φ)的坐标值以及增益值。此外，对象声源2的对象数据由对象音频数据SA2和对象元数据META2组成。该对象元数据META2包括对象声源2的极坐标s(r,θ,φ)的坐标值以及增益值。

系统编码器116将分别从视频编码器112、113和114输出的视频流以及从3D音频编码器115输出的音频流分组化为PES分组，并且进一步将分组变换为传送分组并将该分组多路复用，从而获得传送流TS作为多路复用流。发送单元117将在网络上的广播波或分组上携带的传送流TS发送到接收装置200。

在该实施方式中，在发送装置100中，将视图1和视图2的位置和方向的差值分量VP2(Δx、Δy、Δz、Δθ、Δφ)以及视图1和视图3的位置和方向的差值分量(Δx、Δy、Δz、Δθ、Δφ)插入(1)音频流的层、(2)视频流的层或(3)容器的层。在这种情况下，差值分量VP2构成位置校正信息，用于将对象声源1和2的位置信息校正为基于视图2的位置信息。进一步地，差值分量VP3构成位置校正信息，以用于将对象声源1和2的位置信息校正为基于视图3的位置信息。

“(1)其中将差值分量插入音频流的层中的情况”

将描述其中将差值分量VP2和VP3插入音频流的层中的情况。在这种情况下，3D音频编码器115将差值分量VP2和VP3作为位置校正信息插入音频流的层中。在这种情况下，将差值分量插入元数据区域或用户数据区域中。

图7示出了MPEG-H 3D音频的音频帧的结构。该音频帧由多个MPEG音频流分组组成。每个MPEG音频流分组由报头和载荷组成。

报头具有诸如分组类型、分组标签和分组长度的信息。在载荷中设置了由报头的分组类型定义的信息。在该载荷信息中，存在对应于同步起始码的“SYNC”、表示实际数据的“Frame”以及指示“Frame”的配置的“Config”。

对象声源的对象数据由如上所述的对象音频数据和对象元数据组成。这些数据段包括在“Frame”中。在这种情况下，包括作为单信道元素(SCE)的编码样本数据的对象音频数据。进一步地，包括作为扩展元素(Ext_element)的对象元数据。还可定义包括用户数据的扩展元素(Ext_element)。

在将差值分量VP2和VP3插入至元数据区域中的情况下，将差值分量VP2和VP3插入包括对象元数据的扩展元素(Ext_element)中。

图8的(a)示出了对象元数据(object_metadata())的结构示例(Syntax)。图8的(b)示出了包括在对象元数据中的对象元数据高效(object_metadata_efficient())的配置示例(Syntax)。在对象元数据高效的内编码元数据高效(object metadata efficient)(intracoded_object_metadata_efficient())中，设置具有差值分量VP2和VP3的多视图位置信息1(multiview_Position_information1())。

图9示出了多视图位置信息1(multiview_Position_information1())的配置示例(语法)。“process_multiview”的1位字段是指示多视图的标志。在多视图的情况下，存在“multiview_count”的8位字段。该字段指示视图的总数目。在图2示出的示例中，视图的总数目为“3”。

进一步地，存在对应于“总数目-1”的视图的差值分量的多个字段，即除了视图1(View1)之外的视图的差值分量的多个字段。在图2示出的示例中，存在视图2(View2)和视图3(View3)的差值分量VP2和VP3的字段。差值分量的字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。

“Δx”的字段指示Δx，即以视图1(View1)为中心作为原点的目标视图的x坐标的值。“Δy”的字段指示Δy，即以视图1(View1)为中心作为原点的目标视图的y坐标的值。“Δz”的字段指示Δz，即以视图1(View1)为中心作为原点的目标视图的z坐标的值。“Δθ”的字段指示Δθ，即θ相对于视图1(View1)的差值。“Δφ”的字段指示Δφ，即φ相对于视图1(View1)的差值。

在将差值分量VP2和VP3插入用户数据区域中的情况下，将差值分量VP2和VP3插入至包括用户数据的扩展元素(Ext_element)中。

在这种情况下，可重新定义包括作为扩展元素(Ext_element)的用户数据(user_data())的元素(Ext_userdata)。与这些一起，将关于元素(Ext_userdata)的配置信息“userdataConfig()”重新定义为“Config”。

图10的(a)示出了配置信息“userdataConfig()”的配置示例(语法)。“userdata_identifier”的32位字段通过在初步定义的序列中设置值来指示用户数据。“userdata_frame_length”的16位字段指示用户数据(user_data())的字节的数目。

图10的(b)示出了用户数据(user_data())的配置示例(语法)。通过将“0x47413934”(“GA94”)插入“userdata_data_identifier”的32位字段中，“ATSC_user_data()”包括在“user_structure()”的字段中。图10(c)示出了“ATSC_user_data()”的配置示例(语法)。

例如，通过将指示多视图位置信息1(multiview_Position_information1())的“0x07”插入至“user_data_type_code”的8位字段中，多视图位置信息1(multiview_Position_information1())(参见图9)包括在“user_data_type_structure()”的字段中。

注意，在将差值分量VP2和VP3插入如上所述的音频流的层中的情况下，系统编码器116将指示分别对应于多个差值分量的视频流的信息插入容器(系统)的层中。例如，系统编码器116通过使用分量组描述符(component_group_descriptor)将差值分量插入至对应于音频流的音频基本流环中。

图11示出了分量组描述符的配置示例(语法)。“descriptor_tag”的8位字段指示描述符类型。在这种情况下，8位字段指示分量组描述符。“descriptor_length”的8位字段指示描述符的长度(大小)，并且由随后的字节的数目指示描述符的长度。

“component_group_type”的4位字段指示分量组的类型。在这种情况下，4位字段被设置为“0”，其指示与3D音频多视图相关的视频/音频分量组。“num_video”的4位字段指示视频流(视频基本流)的数目。进一步地，“component_tag”的8位字段以for循环重复对应于视频流的数目的次数。“component_tag”的该字段指示相关视频分量的分量标签(Component_tag)的值。

在该实施方式中，顺序地描述了包括视图1(View1)的视频数据、视图2(View2)的视频数据和视图3(View3)的视频数据的视频流的分量标签的值。另外，在对应于每个视频流的视频基本流环中，设置了信息段(诸如分组标识符(PID)、分量标签(Component_tag)和流类型(Stream_Type))。利用这种配置，指定包括视图2(View2)的视频数据和视图3(View3)的视频数据的视频流。因此，指定了分别对应于将被插入音频流的层中的差值分量VP2和VP3的视频流。

“num_audio”的8位字段指示音频流(音频基本流)的数目。进一步地，“component_tag”的8位字段以for循环重复对应于音频流的数目的次数。这种“component_tag”的字段指示相关音频分量的分量标签(Component_tag)的值。

图12示出了将差值分量VP2和VP3插入至音频流的层中的情况的传送流TS的配置示例。在这种情况下，在传送流TS中存在包括视图1(View1)的视频数据的视频流的PES分组“Video PES1”、包括视图2(View2)的视频数据的视频流的PES分组“Video PES2”和包括视图3(View3)的视频数据的视频流的PES分组“Video PES3”。

进一步地，在传送流TS中，存在音频流的PES分组“Audio PES”。将以上多视图位置信息1(multiview_Position_information1())(参见图9)插入音频流的PES分组的PES载荷中。

进一步地，传送流TS包括作为节目特定信息(PSI)的节目映射表(PMT)。该PSI为指示传送流中所包括的每个基本流所属的节目的信息。在PMT中，存在描述与整个节目相关的信息的节目描述符。

进一步地，在该PMT中，存在具有与每个基本流相关的信息的基本流环。在该配置示例中，存在分别对应于三个视频流的视频基本流环(视频ES环)，并且存在对应于音频流的音频基本流环(音频ES环)。

在每个环中，设置了信息段(诸如分组标识符(PID)、分量标签(Component_tag)和流类型(Stream_Type))。进一步地，在音频基本流环中，设置了上述分量组标识符(component_group_descriptor)(参见图11)。

“(2)将差值分量插入视频流的层中的情况”

将描述将差值分量VP2和VP3插入至视频流的层中的情况。在这种情况下，视频编码器113将差值分量VP2作为位置校正信息插入至视频流的层中。进一步地，在这种情况下，视频编码器114将差值分量VP3作为位置校正信息插入视频流的层中。在这种情况下，将差值分量插入用户数据区域中。

首先，将描述执行MPEG2编码的情况。图13示出了视频序列(Video_sequence)的配置示例(语法)。在该视频序列(Video_sequence)中，存在extension_and_user_data(2)的字段。图14的(a)示出了extension_and_user_data(2)的配置示例(语法)。

在该extension_and_user_data(2)中，存在用户数据(user_data())的字段。图14的(b)示出了该用户数据的配置示例(语法)。通过将“0x47413934”("GA94")插入“user_data_identifier”的32位字段中，“ATSC_user_data()”包括在“user_structure()”的字段中。

图14的(c)示出了“ATSC_user_data()”的配置示例(语法)。例如，通过将指示多视图位置信息2(multiview_Position_information2())的“0x07”插入“user_data_type_code”的8位字段中，多视图位置信息2(multiview_Position_information2())包括在“user_data_type_structure()”的字段中。

图15示出多视图位置信息2(multiview_Position_information2())的配置示例(语法)。“process_multiview”的位字段为指示多视图的标志。在多视图的情况下，存在差值分量字段。

在被插入到包括视图2(View2)的视频数据的视频流的层中的多视图位置信息2中，存在差值分量VP2的字段。在被插入到包括视图3(View3)的视频数据的视频流的层中的多视图位置信息2中，存在差值分量VP3的字段。

差值分量字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。

接下来，将描述其中执行诸如MPEG4-AVC或HEVC的情况。图16的(a)示出用户数据SEI的配置示例(语法)。通过将“0x47413934”(“GA94”)插入“USER_identifier”的32位字段中，“ATSC1_data()”被包括在“USER_structure()”的字段中。

图16的(b)示出“ATSC1_data()”的配置示例(Syntax)。例如，通过将指示多视图位置信息2(multiview_Position_information2())的“0x07”插入“user_data_type_code”的8位字段中，多视图位置信息2(multiview_Position_information2())被包含在“user_data_type_structure()”的字段中。

图17示出了将差值分量VP2和VP3插入视频流的层中的情况的传送流TS的配置示例。在图17中，根据需要省略对应于图12中所示那些的单元件的描述。

将以上多视图位置信息2(multiview_Position_information2())(参见图15)插入包括视图2(View2)的视频数据的PES分组“Video PES2”中。进一步地，将以上多视图位置信息2(multiview_Position_information2())(参见图15)插入包括视图3(View3)的视频数据的PES分组“Video PES2”中。

注意，在将差值分量VP2和VP3插入视频流的层中的情况下，差值分量和视频流之间的关联性是清楚的。因此，在这种情况下，不需要将分量组描述符(component_group_descriptor)插入容器(系统)的层中。

“其中将差值分量插入容器(系统)的层中的情况”

将描述其中将差值分量VP2和VP3插入容器(系统)的层中的情况。在这种情况下，将差值分量作为信令信息或位置校正信息流插入。

第一，将描述将差值分量VP2和VP3作为信令插入的情况。在这种情况下，系统编码器116将多视图位置信息描述符(multiview_Position_information_descriptor)插入对应于视图2(View2)和视图3(View3)的视频流的视频基本流环中。

图18示出多视图位置信息描述符的配置示例(语法)。“descriptor_tag”的8位字段指示描述符类型。在这种情况下，8位字段指示多视图位置信息描述符。“descriptor_length”的8位字段指示描述符的长度(大小)并且描述符的长度由随后位的数目指示。

“PTS_flag”的1位字段为指示对应于对象声源的所获取的位置信息的时间信息(PTS)存在的标志信息。当1位字段指示“1”时，33位时间信息存在。进一步地，在该描述符中，存在差值分量字段。

在将被插入对应于视图2(View2)的视频流的视频基本流环中的多视图位置信息描述中，存在差值分量VP2的字段。进一步地，在将被插入对应于视图3(View3)的视频流的视频基本流环中的多视图位置信息描述中，存在差值分量VP3的字段。

图19示出了将差值分量VP2和VP3作为信令插入容器(系统)的层中的情况的传送流TS的配置示例。在图19中，根据需要省略对应于图12中所示那些的单元件的描述。

在对应于视图2(View2)的视频流的视频基本流环中，插入其中存在以上差值分量VP2的多视图位置信息描述符。进一步地，在对应于视图3(View3)的视频流的视频基本流环中，插入其中存在以上差值分量VP3的多视图位置信息描述符。

接下来，将描述其中作为位置校正信息流插入差值分量VP2和VP3的情况。图20示出在该情况下的发送装置100的配置示例。在图20中，通过相同的参考数字描述了对应于图6中示出的那些的单元件，并且根据需要省略其详细描述。

该发送装置100包括位置校正信息编码器118和119。位置校正信息编码器118对差值分量VP2执行编码，并生成位置校正信息流。进一步地，位置校正信息编码器118对差值分量VP3执行编码，并生成位置校正信息流。

系统编码器116将分别从视频编码器112、113和114输出的视频流、从3D音频编码器115输出的音频流以及从位置校正信息编码器118和119输出的位置校正信息流分组化为PES分组，并且进一步将所述分组变换为传送分组以及多路复用所述分组，从而获得传送流TS作为多路复用流。

图21示出位置校正信息流(基本流)的配置示例(语法)。“data_identifier”的8位字段是指示位置校正信息的PES数据的值。“PES_data_packet_header_length”的4位字段指示“PES_Data_private_data_byte”的字段的长度。将依赖于服务的私密数据插入“PES_Data_private_data_byte”的字段中。

进一步地，在该位置校正信息流中，存在相应视图的差值分量字段。差值分量字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。

图22示出了将差值分量VP2和VP3作为位置校正信息流插入的情况的传送流TS的配置示例。在图22中，根据需要省略对应于图12中示出的那些的单元件的描述。

在传送流TS中，存在包括与视图2(View2)相关的差值分量VP2的位置校正信息流的PES分组“Position PES1”、包括与视图3(View3)相关的差值分量VP3的位置校正信息流的PES分组“Position PES3”。进一步地，在PMT中，存在分别对应于两个位置校正信息流的位置校正信息/基本流环(位置ES环)。

图23是以上位置校正信息的发送系统的列表。(1)其中将差值分量插入音频流的层中的情况具有例如“音频校正位置信息和位置校正信息被添加到音频信号。仅从音频信号将信息发送到位置校正操作电路是足够的。由于信息被包含在相同的音频信号中，保证了这些信号的同步”的此类特征。

进一步地，(2)其中将差值分量插入视频流的层中的情况具有例如“将相应位置校正信息添加到每个视频信号。仅发送每个视频所需的信息，这阻止了额外信息(将被发送的信息量是小的)的发送。在其中在再次发送中选择了视频的情况下，直接发送位置校正信息，这消除了额外处理”的此类特征。

进一步地，(3)其中将差值分量插入容器(系统)的层中的情况具有此类特征，即，例如，当作为信令插入差值分量时，“可通过作为描述符发送信息来区分系统的层中所需的信息”；例如，当作为位置校正信息流插入差值分量时，“作为对应于每个视频信号的独立流发送位置校正信息以及时间线。在其中在再次发送中选择了视频的情况下，可选择和发送相应的位置校正信息”。

图6中简单示出了发送装置100的操作。关于视图1的视频数据SV1、关于视图2的视频数据SV2和关于视图3的视频数据SV3被分别提供给视频编码器112、113和114。视频编码器112、113和114对视频数据SV1、SV2和SV3中的每个执行编码，诸如MPEG2、MPEG4-AVC或HEVC，从而获得视频流。

将与对象声源1相关的对象数据SA1和META1以及与对象声源2相关的对象数据SA2和META2提供到3D音频编码器115。3D音频编码器115对与对象声源1和2相关的对象数据执行例如MPEG-H 3D音频编码，从而获得音频流。通过视频编码器112、113和114获得的视频流被提供给系统编码116。通过3D音频编码器115获得的音频流被提供给系统编码116。系统编码器116将从编码器提供的流分组化为PES分组，并且进一步将所述分组变换为传送分组并且多路复用所述分组，从而获得传送流作为多路复用流。

通过系统编码器116获得的传送流TS被提供给发送单元117。发送单元117将在网络上在广播波或分组上承载的传送流TS发送给接收装置200。

进一步地，在发送装置100中，视图1和视图2的位置和方向的差值分量VP2以及视图1和视图3的位置和方向的差值分量VP3被插入(1)音频流的层中、(2)视频流的层中或者(3)容器的层中，并且被发送到接收装置200。

[接收装置的配置示例]

图24示出接收装置200的配置示例。该接收装置200包括控制单元211、接收单元212、系统解码器213、选择器214、视频解码器215、显示单元216、3D音频解码器217、3D音频渲染器218和扬声器系统219。控制单元211控制接收装置200的每个单元件的操作。

接收单元212接收从发送装置100发送并且在网络上在广播波或分组上承载的传送流TS。该传送流TS包括分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流，以及具有对象声源1和对象声源2的音频数据和位置信息的音频流(参见图2)。

系统解码器213从传送流TS提取分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流的分组，并重新配置所述三个视频流。进一步地，系统解码器213从传送流TS提取音频流的分组，并重新配置音频流。

系统解码器213从传送流TS提取各种系统，诸如描述符信息，并将所述信息发送到控制单元211。各种信息包括其中将差值分量VP2和VP3作为信令插入的情况的多视图位置信息描述符(multiview_Position_information_descriptor)(参见图18)的信息。进一步地，各种信息包括其中将差值分量插入音频流的层中的情况的分量组描述符(component_group_descriptor)(参见图18)的信息。

选择器214在通过控制单元211进行的选择控制的基础上，根据用户进行的视图选择来选择地输出由系统解码器213重新配置的三个视频流中的任何一个。视频解码器215对从选择器214输出的视频流进行解码处理，并获得用户选择地视图的视频数据。

进一步地，视频解码器215提取被插入视频流的层中的各种信息，并将所述信息发送给控制单元211。各种信息包括其中将差值分量VP2和VP3插入视频流的层中的情况的多视图位置信息2(multiview_Position_information2())(参见图15)的信息。

显示单元216包括显示面板，诸如液晶显示器(LCD)或有机电致发光显示器(有机EL显示器)。显示单元216对通过视频解码器215获得的视频数据进行缩放处理、图像质量调整处理等等，从而获得显示视频数据，并在显示面板上显示对应于显示视频数据的图像。

3D音频解码器217对系统解码器213重新配置的音频流进行解码处理，并获得与对象声源1和2相关的对象数据。

在这种情况下，与对象声源1相关的对象数据由对象音频数据SA1和对象元数据META1组成，并且对象元数据META1包括对象声源1的极坐标s(r,θ,φ)的坐标值和增益值。进一步地，与对象声源2相关的对象数据由对象音频数据SA2和对象元数据META2组成，并且对象元数据META2包括对象声源2的极坐标s(r,θ,φ)的坐标值和增益值。

进一步地，3D音频解码器217提取被插入音频流的层中的各种信息，并将所述信息发送到控制单元211。各种信息包括其中将差值分量VP2和VP3插入音频流的层中的情况的多视图位置信息1(multiview_Position_information1())(参见图9)的信息。

3D音频渲染器218在与3D音频解码器217获得的对象声源1和2相关的对象数据(音频数据、位置信息)的基础上，获得与扬声器系统219兼容的预定信道的音频数据。在这种情况下，3D音频渲染器218是指扬声器设置信息，并且在位置信息的基础上将每个对象声源的音频数据映射到任何位置处的扬声器。

3D音频渲染器218包括位置校正操作单元218a。在选择了视图1的情况下，3D音频渲染器218按照其原先的样子使用被包含在对象数据(音频数据、位置信息)中的位置信息(r,θ,φ)，所述对象数据与通过3D音频解码器217获得的对象声源1和2相关。

在选择了视图2或视图3的情况下，3D音频渲染器218使用在通过位置校正操作单元218a校正被包括在对象数据(音频数据、位置信息)中的位置信息(r,θ,φ)之后获得的位置信息(r’,θ’,φ’)，所述对象数据与通过使用图5中的变换由3D音频解码器217获得的对象声源1和2相关。

在这种情况下，在其中选择了视图2的情况下，位置校正操作单元218a通过使用视图1和视图2的位置和方向的差值分量VP2(Δx,Δy,Δz,Δθ,Δφ)将基于视图1的位置信息(r,θ,φ)校正(变换)为基于视图2的位置信息(r’,θ’,φ’)。进一步地，在其中选择了视图3的情况下，位置校正操作单元218a通过使用视图1和视图3的位置和方向的差值分量VP3(Δx,Δy,Δz,Δθ,Δφ)将基于视图1的位置信息(r,θ,φ)校正(变换)为基于视图3的位置信息(r’,θ’,φ’)。

扬声器系统219在3D音频渲染器218获得的预定信道的音频数据的基础上，获得对应于显示单元216的显示图像的音频输出。

简单地示出了图24所示的接收装置200的操作。接收单元212接收从发送装置100发送并在网络上在广播波或分组上承载的传送流TS。

该传送流TS包括分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流，以及具有对象声源1和对象声源2的音频数据和位置信息的音频流。该传送流TS被提供给系统解码器213。

系统213从传送流TS提取分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流的分组，并重新配置三个视频流。进一步地，系统解码器213从传送流TS提取音频流的分组，并重新配置音频流。

进一步地，系统解码器213从传送流TS提取各种信息，诸如描述符信息，并将所述信息发送给控制单元211。各种信息还包括其中将差值分量VP2和VP3作为信令插入的情况的多视图位置信息描述符(参见图18)的信息。各种信息还包括其中将差值分量插入音频流的层中的情况的分量组描述符(参见图11)的信息。

将通过系统解码器213重新配置的三个视频流提供给选择器214。在选择器214中，在通过控制单元211进行的选择控制的基础上，根据用户进行的视图选择来选择地输出三个视频流中的任何一个。将从选择器214输出的视频流提供到视频解码器215。视频解码器215对视频流进行解码处理，并获得由用户选择地视图的视频数据。

进一步地，视频解码器215提取被插入视频流的层中的各种信息，并将所述信息发送到控制单元211。各种信息还包括其中将差值分量VP2和VP3插入视频流的层中的情况的多视图位置信息2(参见图15)的信息。

将通过视频解码器215获得的视频数据提供给显示单元216。显示单元216对通过视频解码器215获得的视频数据进行缩放处理、图像质量调整处理等等，从而获得显示视频数据，并在显示面板上显示对应于显示视频数据的图像。

进一步地，将通过系统解码器213重新配置的音频流提供给3D音频解码器217。3D音频解码器217对通过系统解码器213重新配置的音频流进行解码处理，从而获得与对象声源1和2相关的对象数据。

进一步地，3D音频解码器217提取被插入音频流的层中的各种信息，并将所述信息发送给控制单元211。各种信息还包括其中差值分量VP2和VP3被插入音频流的层中的情况的多视图位置信息1(参见图9)的信息。

将通过3D音频解码器217获得的对象声源1和2的对象数据提供给3D音频渲染器218。3D音频渲染器218在与对象声源1和2相关的对象数据(音频数据、位置信息)的基础上，获得与扬声器系统219兼容的预定信道的音频数据。在这种情况下，3D音频渲染器218是指扬声器设置信息，并且在位置信息的基础上将每个对象声源的音频数据映射到任何位置处的扬声器。

在这种情况下，在3D音频渲染器218中，在其中选择了视图2的情况下，通过从以上容器的层、视频流的层或音频流的层提取的差值分量(Δx,Δy,Δz,Δθ,Δφ)来校正并使用与通过3D音频解码器217获得的对象声源1和2相关的对象数据(音频数据、位置信息)中所包括的位置信息(r,θ,φ)。尽管省略了详细描述，但对于其中选择了视图3的情况也是适用的。

将从3D音频渲染器218输出的预定信道的音频数据提供给扬声器系统219。在扬声器系统219中，在预定信道的音频数据的基础上获得对应于显示单元216的显示图像的音频输出。

图25示出了将差值分量VP2和VP3作为位置校正信息流插入容器的层中的情况的接收装置200的配置示例。在图25中，通过相同的参考数字指示对应于图24中示出的那些的单元件，并且根据需要省略其详细描述。

系统解码器213从传送流TS获得包括差值信息VP2和VP3的两个位置校正信息流。将包括差值信息VP2的位置校正信息流提供给位置校正信息解码器221。位置校正信息解码器221对位置校正信息流进行解码，并获得差值分量VP2。进一步地，将包括差值信息VP3的位置校正信息流提供给位置校正信息解码器223。位置校正信息解码器223对位置校正信息流进行解码，并获得差值分量VP3。

这些差值分量VP2和VP3被提供给3D音频渲染器218。3D音频渲染器218是指扬声器设置信息，并且在位置信息(r,θ,φ)的基础上将每个对象声源的音频数据映射到任何位置的扬声器。在这种情况下，在其中选择了视图2和视图3的情况下，分别在差值分量VP2和VP3的基础上校正(变换)和使用关于对象声源1和2的位置信息(r’,θ’,φ’)。

如上所述，在图1中示出的发送/接收系统10中，发送装置100将位置校正信息(差值分量VP2和VP3)插入音频流的层中、视频流的层中或容器的层中，并发送所述位置校正信息，所述位置校正信息用于将基于每个对象声源的视图1的位置信息(r,θ,φ)校正(变换)为基于视图2和视图3的位置信息(r’,θ’,φ’)。因此，在接收侧执行视图2和视图3的切换的情况下，可使用对象声源的校正的位置信息，从而使得准确地执行3D音频渲染是可能的。

<2.变形例>

注意，以上描述的实施方式示出其中除了视图1以外，存在视图2和视图3以及存在对象声源1和2的示例。在本技术中，视图的数目和对象声源的数目不限于示例。

进一步地，以上描述的实施方式示出其中位置校正信息指示差值分量(Δx,Δy,Δz,Δθ,Δφ)的示例。然而，在本技术中，位置校正信息不限于差值分量(Δx,Δy,Δz,Δθ,Δφ)。

进一步地，以上描述的实施方式示出从音频流的层、视频流的层或容器的层获取差值分量VP2和VP3的接收装置200的示例。然而，还可以采用其中从连接到网络的服务器获取的差值分量的配置。在这种情况下，从发送装置100到接收装置200的访问信息可被插入音频流的层中、视频流的层中或容器的层中，并且可被发送。

图26示出该情况下的接收装置200的配置示例。在图26中，通过相同的参考数字指示对应于图24中示出的那些的单元件，并且根据需要省略其详细描述。通信接口231访问连接到网络的服务器，从而获取差值分量VP2和VP3。

将这些差值分量VP2和VP3提供到3D音频渲染器218。3D音频渲染器218是指扬声器设置信息，并且在位置信息(r,θ,φ)的基础上将每个对象声源的音频数据映射到任何位置的扬声器。在这种情况下，在其中选择了视图2和视图3的情况下，分别在差值分量VP2和VP3的基础上校正(变换)和使用关于对象声源1和2的位置信息(r’,θ’,φ’)。

进一步地，以上描述的实施方式示出其中容器为传送流(MPEG-2TS)的示例。然而，本技术还可应用于通过MP4的容器或除了MP4以外的格式的容器传递的系统。例如，本技术还可应用于基于MPEG-DASH的流传递系统、处理MPEG媒体传送(MMT)结构发送流的发送/接收系统等等。

注意，本技术还可具有以下配置：

(1)一种发送装置，包括：

发送单元，被配置为发送预定格式的容器，容器包括第一视频流、第二视频流、音频流和位置校正信息，位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。

(2)根据(1)所述的发送装置，其中，位置校正信息指示第一视图和第二视图的位置和方向的差值分量。

(3)根据(1)或(2)所述的发送装置，其中，将位置校正信息插入至音频流的层中。

(4)根据(3)所述的发送装置，其中，将位置校正信息插入至包括位置信息的元数据区域中。

(5)根据(3)所述的发送装置，其中，将位置校正信息插入至用户数据区域中。

(6)根据(3)所述的发送装置，其中，

当存在多个第二视图时，将对应于多个第二视图的多条位置校正信息插入至音频流的层中，并且

将指示多条位置校正信息分别对应的第二视频流的信息插入至容器的层中。

(7)根据(1)或(2)所述的发送装置，其中，将位置校正信息插入至第二视频流的层中。

(8)根据(1)或(2)所述的发送装置，其中，将位置校正信息插入至容器的层中。

(9)根据(8)所述的发送装置，其中，将位置校正信息作为信令信息插入。

(10)根据(9)所述的发送装置，其中，容器为MPEG2-TS，并且

将位置校正信息插入至视频基本流环中，视频基本流环对应于节目映射表的第二视频流。

(11)根据(8)所述的发送装置，其中，插入包括位置校正信息的信息流。

(12)一种发送方法，包括：

编码步骤，生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流；以及

发送步骤，通过发送单元发送预定格式的容器，容器包括第一视频流、第二视频流、音频流和位置校正信息，位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。

(13)一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流，以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息；以及

处理单元，被配置为处理在容器中包括的信息。

(14)根据(13)所述的接收装置，其中，处理单元包括：

解码单元，被配置为从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息，

选择器，被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据，

渲染单元，被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置，并且

当通过选择器选择了第二视图的视频数据时，渲染单元以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。

(15)一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流，以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息；以及

处理步骤，处理容器中包含的信息。

(16)一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流；

解码单元，被配置为分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息；

(17)根据(16)所述的接收装置，其中，获取单元从音频流的层、第二视频流的层或容器的层获取位置校正信息。

(18)根据(16)所述的接收装置，其中，获取单元从网络上的服务器获取位置校正信息。

(19)一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流；

获取步骤，获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息；

解码步骤，从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息；

选择步骤，选择性地输出第一视图的视频数据或者第二视图的视频数据；

渲染步骤，基于在对象声源的音频数据和位置信息获得与扬声器系统兼容的音频数据，

其中，在渲染步骤中，当在选择步骤中选择了第二视图的视频数据时，以位置信息基于第二视图的方式使用基于位置校正信息校正的位置信息。

参考符号列表

10 发送/接收系统

100 发送装置

111 控制单元

112、113、114 视频编码器

115 3D音频编码器

116 系统编码器

117 发送单元

118、119 位置校正信息编码器

200 接收装置

211 控制单元

212 接收单元

213 系统解码器

214 选择器

215 视频解码器

216 显示单元

217 3D音频解码器

218 3D音频渲染器

218a 位置校正操作单元

219 扬声器系统

221、222 位置校正信息解码器

231 通信接口

Claims

1.一种发送装置，包括：

编码单元，被配置为生成具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图；以及

发送单元，被配置为发送预定格式的容器，所述容器包括所述第一视频流、所述第二视频流、所述音频流以及位置校正信息，所述位置校正信息用于将所述对象声源的所述位置信息校正为基于所述第二视图的位置信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使被配置为接收所发送的容器的接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系。

2.根据权利要求1所述的发送装置，其中，所述位置校正信息指示所述第一视图和所述第二视图的位置和方向的差值分量。

3.根据权利要求1或2所述的发送装置，其中，将所述位置校正信息插入至所述音频流的层中。

4.根据权利要求3所述的发送装置，其中，将所述位置校正信息插入至包括位置信息的元数据区域中。

5.根据权利要求3所述的发送装置，其中，将所述位置校正信息插入至用户数据区域中。

6.根据权利要求3所述的发送装置，其中，

当存在多个所述第二视图时，将对应于多个所述第二视图的多条位置校正信息插入至所述音频流的层中，并且

将指示所述多条所述位置校正信息分别对应的所述第二视频流的信息插入至所述容器的层中。

7.根据权利要求1或2所述的发送装置，其中，将所述位置校正信息插入至所述第二视频流的层中。

8.根据权利要求1或2所述的发送装置，其中，将所述位置校正信息插入至所述容器的层中。

9.根据权利要求8所述的发送装置，其中，将所述位置校正信息作为信令信息插入。

10.根据权利要求9所述的发送装置，其中，

所述容器为MPEG2-TS，并且

将所述位置校正信息插入至视频基本流环中，所述视频基本流环对应于节目映射表的所述第二视频流。

11.根据权利要求8所述的发送装置，其中，插入包括所述位置校正信息的信息流。

12.一种发送方法，包括：

编码步骤，生成具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图；以及

发送步骤，通过发送单元发送预定格式的容器，所述容器包括所述第一视频流、所述第二视频流、所述音频流以及位置校正信息，所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使被配置为接收所发送的容器的接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系。

13.一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流、具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图，以及用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息的位置校正信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使所述接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系；以及

处理单元，被配置为处理包括在所述容器中的信息。

14.根据权利要求13所述的接收装置，其中，所述处理单元包括：

解码单元，被配置为从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息，

选择器，被配置为选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据，

渲染单元，被配置为基于所述对象声源的所述位置信息将所述对象声源的音频数据映射到任何扬声器位置，并且

当通过所述选择器选择了所述第二视图的视频数据时，所述渲染单元以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。

15.一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流、具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图，以及用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息的位置校正信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系；以及

处理步骤，处理在所述容器中包括的信息。

16.一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图；

获取单元，被配置为获取位置校正信息，所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使所述接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系；

解码单元，被配置为分别从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息；

选择器，被配置为选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据；以及

渲染单元，被配置为基于所述对象声源的所述位置信息将所述对象声源的所述音频数据映射到任何扬声器位置，

其中，当通过所述选择器选择了所述第二视图的视频数据时，所述渲染单元以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。

17.根据权利要求16所述的接收装置，其中，所述获取单元从所述音频流的层、所述第二视频流的层或所述容器的层获取所述位置校正信息。

18.根据权利要求16所述的接收装置，其中，所述获取单元从网络上的服务器获取所述位置校正信息。

19.一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流，以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流，所述音频数据对应于所述对象声源的所述第一视图；

获取步骤，获取位置校正信息，所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息，所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量，所述第一视图对应于捕获音频数据的第一摄像机的位置，使能够将所述位置校正信息的所述差值分量应用于所述音频流，以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系；

解码步骤，从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息；

选择步骤，选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据；

渲染步骤，基于所述对象声源的音频数据和位置信息获得与扬声器系统兼容的音频数据，

其中，在所述渲染步骤中，当在所述选择步骤中选择了所述第二视图的视频数据时，以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。