CN106576180A

CN106576180A - 全景视频

Info

Publication number: CN106576180A
Application number: CN201580043550.4A
Authority: CN
Inventors: 米卡埃尔·汉森; S·比约克隆; M·阿格维克; M·林德
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-08-15
Filing date: 2015-01-21
Publication date: 2017-04-19
Also published as: US20160050366A1; US9686467B2; WO2016023641A1; EP3180920A1

Abstract

确立位于全景视频(100)的检测器(102)的周围环境中的声音源(210)的方向。基于所确立的方向，确定全景视频(100)的预设视图(111)。全景视频(100)的播放基于所确定的预设视图。

Description

全景视频

技术领域

各种实施方式涉及处理全景视频的方法、播放全景视频的方法以及对应的装置。具体地，各种实施方式涉及基于声音源的方向确定全景视频的视图的技术。

背景技术

已知能够捕捉全景视频的检测器，全景视频即对检测器周围环境的重要部分成像的视频。

有时，会期望在诸如具有有限分辨率的传统二维(2d)显示屏这样的有限尺寸显示装置上播放全景视频。在这种情况下，会需要裁切全景视频的部分，从而从播放中省略这些部分。还可以的是全景视频在播放时被扭曲或失真以适应2d屏幕的尺寸。

这种效应限制了播放质量。进一步地，会丢失与用户有关的信息。

发明内容

因此，存在提供解决这些缺点中的至少一些的技术的需要。具体地，需要提供使得能够在有限尺寸显示装置上舒适播放全景视频的技术。

根据一个方面，提供了一种处理全景视频的方法。方法包括以下步骤：取得全景视频的视频数据。全景视频对检测器的周围环境的第一部分成像。方法还包括以下步骤：确立位于全景视频的检测器的周围环境中的声音源的方向。方法还包括以下步骤：基于声音源的方向的确立，确定指示全景视频的预设视图的控制数据。预设视图对检测器的周围环境的第二部分成像。该第一部分包括该第二部分。

根据另外的方面，提供了一种装置。装置包括：处理器，该处理器被构造成取得全景视频的视频数据。全景视频对全景视频的检测器的周围环境的第一部分成像。处理器还被构造成确立位于检测器的周围环境中的声音源的方向。处理器还被构造成基于声音源的方向的所述确立来确定指示全景视频的预设视图的控制数据。预设视图对检测器的周围环境的第二部分成像。第一部分包括第二部分。

根据另外的方面，提供了一种播放全景视频的方法。方法包括以下步骤：取得全景视频的视频数据。方法还包括以下步骤：取得指示全景视频的预设视图的控制数据。预设视图与位于全景视图的检测器的周围环境中的声音源的方向有关。方法还包括以下步骤：基于预设视图确定全景视频的视图。方法还包括以下步骤：采用所确定的视图播放全景视频。

根据另外的方面，提供了一种装置。装置包括：处理器，该处理器被构造成取得全景视频的视频数据。处理器还被构造成取得指示全景视频的预设视图的控制数据。预设视图涉及位于预设视图的检测器的周围环境中的声音源的方向。装置还被构造成基于预设视图确定全景视频的视图。处理器还被构造成采用所确定的视图播放全景视频。

根据本发明的优选实施方式，可以在全景视频的记录或捕捉期间实时地即现场直播地执行上述方法，使得因此声音源一出现在检测器的周围环境中，就调节或调整预设视图或所确定视图。

此外，根据本发明的实施方式，装置可以为移动电子装置，例如移动电话、智能电话、便携式数字照相机等。

请理解，在不偏离本发明的范围的情况下，上面提及的特征和下面仍然要说明的特征不仅可以以所指示的各组合来使用，而且还可以以其他组合或独立使用。上述方面和实施方式的特征在其他实施方式中可以彼此组合。

附图说明

本发明的前述和另外特征和优点将在连同附图一起阅读时从以下详细描述变得清楚，在附图中，同样的附图标记提及同样的元件。

图1例示了对全景视频的检测器的周围环境成像的全景视频，并且还例示了全景视频的视图。

图2A例示了具有特定视图的全景视频的播放，并且还例示了声音源。

图2B对应于声音源提供可比较高音频级时的、图2A的场景。

图3是根据各种实施方式的用于获取全景视频的检测器的示意图。

图4是包括用于播放全景视频的显示装置的便携式用户设备的示意图。

图5例示了随着时间变化的指示全景视频的视图的控制数据。

图6是根据各种实施方式的处理全景视频的方法的流程图。

图7是根据各种实施方式的播放全景视频的方法的流程图。

具体实施方式

在下文中，将参照附图详细描述本发明的实施方式。要理解，实施方式的以下描述不具有限制意义。本发明的范围不旨在受下文中描述的实施方式或受附图限制，该实施方式或附图仅被采取为例示的。

附图将被认为是示意图，并且附图中例示的元件不必等比例示出。相反，各种元件被表示为使得它们的功能和一般用途对本领域技术人员变得显而易见。附图中示出或这里所述的功能块、装置、部件或其他物理或功能单元之间的任意连接或耦合还可以由间接连接或耦合来实施。功能块可以在硬件、固件、软件或其组合中实施。

各种实施方式的特征可以彼此组合，除非另外特别注释。

在下文中，例示了处理全景视频和播放全景视频的技术。具体地，例示了采用全景视频中的声音源方向的技术。用于播放全景视频的特定视图可以基于声音源的方向来确定。

声音源可以是发出相对于高于声音源周围环境中物体或空间的信号电平的声波的物体。例如，扬声器、人或动物、机器等可以充当声音源。在全景视频中，这些声音源可以沿不同方向来定位。通常，在全景视频中可以存在一个声音源或更大数量的声音源。

方向可以在基准坐标系中表达。基准坐标系可以根据视频数据来定义；例如，零方向可以对应于显示装置的像素矩阵的、具有像素索引0,0的像素和各视频数据；这种像素可以位于像素矩阵的最上左位置处。基准坐标系还可以关于全景视频的检测器来定义；例如，基准坐标系的零方向可以对应于与检测器的正前方关联的全景视频的像素。基准坐标系可以根据笛卡尔坐标来定义。基准坐标系还可以根据极坐标来定义。例如，第一角度可以用于指定与地平线平行的方向(极角)。例如，第二角度可以用于指定与地平线垂直的方向(方位角)。基准坐标系还可以根据视频数据的像素来定义。例如，可以根据提供全景视频的视频数据的像素地址来指定方向。如可以看到的，各种基准坐标系可以是适合的。

为了确定视图，可以确定指示预设视图的控制数据。控制数据可以与全景视频的视频数据一起提供。然后，全景视频的播放基于视频数据且还基于控制数据。

预设视图可以与声音源的方向关联。例如，预设视图可以以声音源的方向为中心。还可以的是预设视图相对于所确立的方向偏移预定义量。换言之且更一般的，预设视图相对于所确立的声音源方向可以满足某一预定义几何准则。

然后，基于控制数据，可以确定视图。有时，可以优选的是视图包括声音源的方向，即，视图可以被确定为使得：当采用该视图来播放全景视频时，该声音源可见。然而，有时可以优选的是视图和声音源的方向满足不同的几何准则。因此，虽然控制数据可以指示相对于声音源的方向满足某一预定义几何准则的预设视图，但可以的是用于播放全景视频的视图基于预设视图来灵活确定。这提高了播放全景视频的灵活性；尽管如此，播放仍然将声音源的方向考虑在内。在简单场景中，预设视图和用于播放的视图可以一致。

在图1中，示意性例示了全景视频100的单个框架101。如可以从图1看到的，全景视频100对全景视频100的检测器102的周围环境的第一部分成像。在图1的场景中，由全景视频100成像的周围环境沿着方位角延伸360度。沿着极角θ，全景视频延伸大致+/-30度。通常，可以的是全景视频100对检测器102的周围环境的更大或更小部分成像。不必要的是，全景视频100对检测器102的周围环境的全360度成像。通常，还可以的是，全景视频100沿着极角θ和方位角这两者成像360度。例如，优选地更优选地例如，θ≥30°，优选地θ≥100°，更优选地θ≥240°。上面，已经鉴于方位角和极角θ指定了由全景视频100成像的周围环境的尺寸；然而，如图1指示的，同样将可以根据采用坐标x、y、z的笛卡尔坐标系指定由全景视频100成像的周围环境的尺寸；由全景视频100成像的周围环境的第一部分可以鉴于与左右方位平行的尺寸和垂直于左右方位的尺寸来指定。可以采用任意其他基准坐标系。此外，角度可以是可变的，并且可以由用户来设置或调节，例如根据他或她的需要来设置或调节。

图1中进一步例示的是对于全景视频100的播放采用的视图110。如可以从图1看到的，视图110对全景视频100的检测器102的周围环境的第二部分成像。由全景视频100成像的周围环境的第一部分大于第二部分且包括第二部分。第一部分包括第二部分。

当在具有有限尺寸的显示装置上播放全景视频100时，例如，当采用便携式电子设备的传统2d显示装置播放全景视频100时，确定小于由全景视频100成像的整个周围环境的视图110可以是方便的。通过确定视图110，可以选择与用户相关的、周围环境的特定部分；由全景视频成像的其他部分可以根据显示装置所强加的技术限制来从播放省略。

下文中，例示了使得能够基于由控制数据指示的预设视图确定全景视频100的视图110的技术细节。图2a中例示了这种场景。在图2a中，示出了全景视频100上的框架101(在图2A中，该框架映射到附图的2d平面中)。声音源210位于由全景视频100成像的、检测器102的周围环境中。这里，预设视图111包括声音源210的方向。视图110不包括声音源210的方向。为了确定预设视图111，可能需要确立声音源210的方向。然后，可以确定预设视图111，使得预设视图111满足与声音源210的所确立方向的预定几何关系。在图2A的场景中，该预定几何关系是：预设视图111以声音源210的方向为中心。

如上所述，可以确立声音源210的方向；例如，声音源210的方向可以根据上面关于图1讨论的基准坐标系中的一个或更多个来确立。通常，可以采用各种技术或技术的组合来确立声音源210的方向；例如，可以的是声音源210的方向的确立包括评估全景视频100的视频数据的多个音轨。换言之，可以的是将声音源210的方向作为对视频数据的后处理的一部分来确立。另选或另外地，可以的是声音源的方向的确立包括评估从检测器102的麦克风接收的多个音轨。例如，检测器102可以包括多个麦克风。多个麦克风的每个可以被定向为使得它面向检测器102的周围环境的不同部分。检测器102的周围环境中的音频级的方向记录变得可能。换言之，可以的是将声音源210的方向作为全景视频100的视频数据的记录的一部分来确立。

评估多个音轨使得能够确立声音源210的方向。例如，该评估可以将音轨的响度级考虑在内。例如，各种音轨的响度差可以允许推断声音源210位于面向(远离)与较大(较安静)音轨关联的方向的方向上。另选或另外地，评估还可以将多个音轨之间的声音模式的时移考虑在内。可以采用方向记录技术。

一旦已经确立声音源210的方向，则可以确定预设视图111。例如，预设视图111可以包括所确立的声音源210的方向(图2A)。可以的是预设视图111以所确立的方向为中心。

还可以确定控制数据。控制数据指示全景视频100的预设视图111。控制数据可以暗含或明确指示预设视图111。在简单场景中，控制数据通过指定声音源210的方向暗含地指示预设视图111(例如，连同预设视图111的预定义规则或参数(诸如尺寸、纵横比等))，然后可以明白地确定预设视图111。预设视图111还可以例如根据预设视图111的中心位置、缩放因子和/或纵横比由控制数据来明确指定。这种参数可以使得能够确定预设视图111的形状。控制数据例如还可以在x、y、z坐标系中指定预设视图111的垂直方位和/或水平方位；另选或另外的，控制数据可以根据方位角和/或极角θ指定预设视图111的方位。这种参数可以使得能够确定预设视图111的位置和方位。

用于确定预设视图111的处理可以可变，并且例如可以由用户根据他或她的需要(例如根据上述实施方式中的一个或其组合)来调整或选择。

在确定预设视图111之后，然后可以在存储器中存储指示预设视图的控制数据和全景视频100的视频数据。然后，当期望播放全景视频100时，可以从存储器取得控制数据和视频数据这两者以进行播放。

如将理解的，在存储器中存储全景视频100的整个框架101需要较大的存储空间。具体地，因为全景视频100对检测器102的周围环境的较大的第一部分成像，所以全景视频100的框架101的视频数据可以可比较地大于对各检测器的周围环境的显著更小的部分成像的传统2d视频的视频数据。为了降低存储要求，可以的是在存储器中仅存储预设视图111的视频数据。可以的是丢弃全景视频100的视频数据的剩余部分。即，可以的是丢弃不对检测器102的周围环境的第二部分成像的、全景视频100的视频数据的部分。

当播放全景视频100时，可以分别基于控制数据、基于预设视图111来确定对于播放采用的视图110。在图2A、图2B的场景中，这以使得在声音源210的音频级达到最大值(在图2B中用感叹号指示)时视图110与预设视图111一致的方式来进行。为此，视图110的摇摄在音频级达到最大值之前一定时间时开始。摇摄采用摇摄参数(在图2A中用水平实箭头来指示)。摇摄参数可以预定义和/或基于用户输入。还可以的是摇摄参数被包括在控制数据中。为了以受控方式提供摇摄，可以的是视图110基于视图的摇摄参数和时间演化来确定(即，基于至少一个预先确定的视图110和预设视图111来确定)。通过考虑预先确定的视图110，可以根据摇摄参数来剪裁每次视图的变化。

通常，当音频级超过阈值时，视图110可以被确定为包括声音源210。例如，阈值可以预定义并被设置为固定值。还可以的是阈值基于音频级的时间演化来确定；例如，阈值可以对应于音频级的移动平均数。从而，变得可以识别音频级的最大值。这种场景具有确保视图包括增大的音频动力学发生时的声音源210的效果。这可以确保相关信息不由于具有尺寸有限视图110的全景视频100的播放而丢失。

在另外的场景中，可以的是另外的预设视图从用户输入取得。视图110然后可以响应于用户输入的取得而被确定为另外的预设视图。换言之，可以的是用户通过指定另外的预设视图手动推翻基于预设视图111的、视图110的确定。例如，为了该目的，用户可以采用用户接口，诸如触敏显示器、鼠标、键盘等。用户例如可以采用手势输入来将视图110远离预设视图111滚动。然后，一旦用户通过输入另外的预设视图停止手动定义视图110，则可以的是视图110向后摇摄，直到视图与预设视图111一致为止。例如，可以的是视图110在取得用户输入后的预定义时间段被确定为预设视图111。该预定义的时间段可以总共达到例如10秒。基于所确立方向210确定的、用户输入与预设视图111之间的该相互影响可以以被已知为橡皮筋滚动的样式发生。这种技术启用全景视频100的用户定义播放以及基于预设视图111的受控播放这两者。

通常，可以的是控制数据指示全景视频100的多个预设视图111。可以的是全景视频的视图110的确定还基于选择多个预设视图111中的一个特定预设视图的用户输入。例如，可以的是用户借助多个预设视图111触发。例如，在取得各用户输入时，视图110可以被确定为与多个预设视图111中的下一个一致。当切换到多个预设视图111中的下一个视图时，可以对于视图110的平滑摇摄采用预定义的摇摄参数。

在图2a、图2b的场景中，可以的是控制数据还包括声音源的音频级。然后在播放全景视频100时可以如上面例示的确定视图110。

在如上所述的各种场景中，在播放全景视频100时采用特定量的决策逻辑；在播放全景视频100时确定视图110与预设视图111之间的特定几何关系。这可以基于摇摄参数、视图110的时间演化、多个预设视图111中所选的一个预设视图和/或用户输入等。然而，如上所述，在简单场景中，视图110可以与预设视图111一致。具体地，在这种场景中，可以在确定控制数据时采用决策逻辑的全部或大多数。当播放全景视频100时，然后可以不必为视图110的确定提供大量的计算资源。就此而论且更一般来说的话，控制数据的确定还可以基于声音源210的音频级；和/或预设图111的时间演化；和/或预定义的摇摄参数。具体地，在这种情况下，可以分别通过指定预设视图111的时间演化或时间序列来控制视图110的摇摄；视图110然后可以以一对一关系遵循预设视图111。

当基于视图110的时间演化和/或预设视图111的时间演化确定视图110和/或预设视图111时，可以确保平滑受控摇摄。为了该目的，可以将摇摄参数考虑在内。

通常，控制数据可以以预定义时间分辨率来确定(例如，控制数据可以对于全景视频100的多个框架101中的至少一些指示预设视图111)。控制数据指示预设视图111的、全景视频100的框架101的该分辨率可以与预定义的时间分辨率关联；例如，控制数据可以对于每一个框架101、对于每第二个框架101、对于每第三个框架101等指示预设视图111。

在图3中，更详细地示出了检测器102形式的装置。检测器102包括多个摄像头301-1至301-3。即，可以沿不同方向定向各种摄像头301-1至301-3，以对检测器102的周围环境的第一部分完全成像。检测器102还包括多个麦克风311-1至311-3，麦克风311-1至311-3可以相对于检测器102沿不同方向定向，以覆盖在检测器102的周围环境中沿各种方向定位的声音源210。检测器102还包括处理器330，该处理器330被构造成执行关于全景视频100的处理的各种任务。具体地，处理器330可以被构造成从多个摄像头301-1至301-3中的每一个取得视频数据，并且确立全景视频100的视频数据。这可以包括从摄像头301-1至301-3取得的独立视频数据的缝合技术。进一步地，处理器330被构造成确立位于检测器102的周围环境中的声音源210的方向。这可以基于评估音频级和/或基于方向记录技术。方向记录技术可以基于源于声音源210的声波行进至麦克风311-1至311-3中的每一个的时间差。处理器330还被构造成确定预设视图111和控制数据。为此，处理器330将声音源210的方向考虑在内。

进一步地，检测器102包括存储器340。存储器340可以为易失性或非易失性存储器。存储器340可以以各种方式来采用。例如，存储器340可以包括可以由处理器330执行来执行关于如上所述的视频处理的任务的控制指令。进一步地，处理器330可以被构造成在存储器340中存储全景视频100的至少预设视图111的视频数据。进一步地，处理器330可以被构造成在存储器340中存储控制数据。

可以的是检测器102包括用户接口(图3中未示出)。用户输入可以经由用户接口来接收，并且输出可以经由用户接口提供给用户。从而，变得可以允许用户手动设置如上概述的全景视频的处理的一些或全部参数。用户接口可以包括键盘、鼠标、触敏显示器、语音识别、手势识别和/或显示器等。

可以的是检测器102包括被构造成播放全景视频100的显示装置(图3中未示出)。在这种情况下，处理器330还可以被构造成基于预设视图111确定全景视频100的视图110。通常，全景视频100的记录时间与播放全景视频100之间可以存在较大的时间差。

然而，还可以的是检测器102不包括用于播放全景视频100的显示装置。在这种场景中，可以期望的是检测器102包括接口320。接口320可以被构造成输出视频数据和控制数据。

例如，全景视频100的控制数据和视频数据可以输出到便携式电子设备400(比较图4)。用于可以如这里所述配置的便携式电子设备的示例包括但不限于蜂窝电话、无绳电话、个人数字助理(PDA)、移动计算机等。便携式电子设备包括用于接收全景视频100的视频数据和用于接收控制数据的该目的的接口420。进一步地，便携式电子设备400包括可以被构造成执行关于在显示装置450上播放全景视频100的各种任务的处理器430。各控制指令可以设置在易失性或非易失性存储器440中。例如，处理器430可以被构造成基于在经由接口420取得的控制数据中指示的预设视图111来确定全景视频100的视图110。

根据由控制数据指定的特定信息，可以的是由检测器102的处理器330(便携式电子设备400的处理器430)实施更大(更小)量的决策逻辑，反之亦然。即，在检测器102的处理器340确定控制数据使得它明确确定预设视图111的场景中，可以的是便携式电子设备400的处理器430将视图110设置为与预设视图111一致。这可以不需要大量的计算资源。检测器102的处理器340可以将各种摇摄参数考虑在内，以指定预设视图111的合适时间分辨率，从而指定视图110的合适时间分辨率。在这种场景中，大多数决策逻辑驻留在检测器102中。在另外的场景中，可以的是检测器102的处理器340仅将声音源210的方向指定为控制数据的一部分，从而暗含地指示预设视图111。然后，便携式电子设备400的处理器430可以被构造成基于关于声音源210的方向的特定几何关系来确定视图111。在这种情况下，大多数决策逻辑驻留在便携式电子设备400中。

在图5中，例示了由控制数据500指定的预设视图111的参数的时间演化。在图5中，示出了控制数据明确指示预设视图111的场景。在图5中，方位角被示出为随着时间变化(图5中的实线)；方位角不随着时间显著变化。进一步地，在图5中，示出了极角θ512(图5中的虚线)；极角θ512随着时间显著变化。这可以是由于例如检测器102的方位的变化和/或声音源210的移动而产生。参数511、512指定预设视图111在各基准坐标系内的方位。

图5中进一步示出的是指定预设视图111的尺寸的参数513。例如，参数513可以指定预设视图111的缩放因子；即，缩放因子513越大(越小)，由预设视图111成像的检测器102的周围环境的第二部分越小(越大)。如可以从图5看到的，在特定时间点，缩放因子513增大。这可以是由于例如声音源210的音频级的变化而产生。例如，更小(更大)的音频级可以对应于更小(更大)的缩放因子513。

在图6中，示出了处理全景视频100的方法的流程图。首先，在步骤S1中，取得全景视频100的视频数据。这里，视频数据可以从某一存储器取得或从检测器102的摄像头301-1至301-3来取得。接着，在步骤S2中，确立声音源210的方向。步骤S2可以基于从检测器102的麦克风311-1-至311-3取得的音轨的原始音频数据而发生。还可以的是在步骤S2中将声音源210的方向作为全景视频100的预记录视频数据的音轨的后处理的一部分来确立。然后，在步骤S3中，确定指示预设视图111的控制数据500。这基于在步骤S2中确立的声音源210的方向。

通常，可以的是在步骤S2中，确立多个声音源的方向。然后可以在步骤S3中对于多个声音源210中的每一个独立确定控制数据500。例如，当播放全景视频100时，可以将视图110确定为包括多个声音源210中的一个特定声音源。例如，视图110可以被确定为使得它包括与所有声音源210的最高音频级关联的声音源210。然而，在步骤S3中还将可以通过预选多个声音源210中的一个特定声音源来确定控制数据500。例如，各种声音源210可以以固定顺序包括在预设视图111中；预设视图111可以在固定时间间隔之后从声音源210至声音源210摇摄。为此，可以基于特定摇摄参数且将时间演化预设视图111考虑在内来确定预设视图111。如可以看到的，存在将位于检测器102周围环境的不同方向上的多个声音源210考虑在内的各种方法。

在图7中，例示了根据各种实施方式的、播放全景视频100的方法的流程图。在步骤T1中，取得全景视频100的视频数据。进一步地，取得控制数据500。控制数据500指示预设视图111。

然后，在步骤T2中，基于预设视图111确定全景视频100的视图110。根据在控制数据500中指示预设视图111所用的信息的深度，执行步骤T2可以需要更多或更少的计算资源。在简单场景中，在步骤T2中，确定视图110，使得视图与预设视图111一致；这里，预设视图111可以在控制数据500中明确指示。在步骤T3中，执行全景视频100的播放。

虽然已经示出并描述了特定实施方式，但理解，本领域其他技术人员在阅读并理解该规范时想到落在所附权利要求范围内的等同物和修改例。

例如，虽然已经例示了预设视图和视图被确定为使得它们包括所确立的声音源的方向且以该方向为中心的上述场景，但通常还可以的是预设视图和/或视图相对于所确立的方向满足不同的几何关系。

例如，虽然已经例示了被采用为播放全景视频的便携式电子设备和被采用为捕捉全景视频且确定控制数据的检测器是单独装置的上述场景，但可以的是便携式电子设备和检测器被集成在单个实体中。

Claims

1.一种处理全景视频的方法，该方法包括以下步骤：

-取得全景视频(100)的视频数据，所述全景视频(100)对所述全景视频(100)的检测器(102)的周围环境的第一部分成像；

-确立位于所述检测器(102)的所述周围环境中的声音源(210)的方向；以及

-基于所述声音源(210)的所述方向的所述确立，确定指示所述全景视频(100)的预设视图(111)的控制数据，所述预设视图(111)对所述检测器(102)的所述周围环境的第二部分成像，所述第一部分包括所述第二部分。

2.根据权利要求1所述的方法，其中，所述声音源(210)的所述方向的所述确立包括：

-评估所述视频数据的多个音轨和从所述检测器(102)的麦克风(311)接收的多个音轨两者中的至少一者。

3.根据权利要求2所述的方法，其中，所述评估将所述多个音轨的响度级和所述多个音轨之间的声音模式的时移中的至少一个考虑在内。

4.根据权利要求1-3中任一项所述的方法，其中，所述预设视图(111)包括所确立的所述声音源(210)的所述方向。

5.根据权利要求1-4中任一项所述的方法，其中，所述控制数据的所述确定还基于以下内容中的至少一个：所述声音源(210)的音频级、预先确定的预设视图(111)以及预定义的摇摄参数。

6.根据权利要求1-5中任一项所述的方法，其中，所述控制数据指定所述预设视图(111)的以下参数中的至少一个：所述声音源(210)的方向；中心位置；缩放因子(513)；纵横比；垂直方位；水平方位；方位角(511)以及极角(512)。

7.根据权利要求1-6中任一项所述的方法，其中，所述控制数据指示所述声音源的音频级。

8.根据权利要求1-7中任一项所述的方法，其中，所述控制数据以预定义时间分辨率来确定。

9.根据权利要求1-8中任一项所述的方法，所述方法还包括以下步骤：

-在存储器(440)中存储所述全景视频(100)的至少所述预设视图(111)的所述视频数据，并且还存储指示所述预设视图(111)的所述控制数据。

10.根据权利要求1-9中任一项所述的方法，其中，所述方法在所述全景视频(100)的捕捉期间执行。

11.一种播放全景视频的方法，该方法包括以下步骤：

-取得全景视频(100)的视频数据；

-取得指示所述全景视频(100)的预设视图(111)的控制数据，所述预设视图(111)与位于所述全景视图(100)的检测器(102)的周围环境中的声音源(210)的方向有关；

-基于所述预设视图(111)确定所述全景视频(100)的视图；以及

-采用所确定的视图播放所述全景视频(100)。

12.根据权利要求11所述的方法，其中，所述控制数据还指示位于所述检测器(102)的周围环境中的所述声音源(210)的音频级，其中，所述视图的所述确定还基于所述音频级。

13.根据权利要求11或12所述的方法，其中，当所指示的音频级超过阈值时，所述视图被确定为包括所述声音源(210)。

14.根据权利要求11-13中任一项所述的方法，其中，所述视图还基于所述视图的时间演化且基于预定义的摇摄参数来确定。

15.根据权利要求11-14中任一项所述的方法，其中，所述方法在所述全景视频(100)的捕捉期间执行。

16.根据权利要求11-15中任一项所述的方法，所述方法还包括以下步骤：根据权利要求1至10中任一项处理所述全景视频(100)。

17.一种装置，该装置包括：

-处理器(330)，该处理器被构造成取得全景视频(100)的视频数据，所述全景视频(100)对检测器(102)的周围环境的第一部分成像，

其中，所述处理器(330)还被构造成确立位于所述检测器(102)的所述周围环境中的声音源(210)的方向，

其中，所述处理器(330)还被构造成基于所述声音源(210)的所述方向的所述确立来确定指示所述全景视频(100)的预设视图(111)的控制数据，

其中，所述预设视图(111)对所述检测器(102)的所述周围环境的第二部分成像，所述第一部分包括所述第二部分。

18.根据权利要求17所述的装置，其中，所述处理器(330)被构造成通过评估视频数据的多个音轨和从所述检测器(102)的麦克风(311)接收的多个音轨两者中的至少一者来确立所述声音源(210)的所述方向。

19.根据权利要求18所述的装置，其中，所述处理器(330)被构造成将所述多个音轨的响度级和所述多个音轨之间的声音模式的时移中的至少一个考虑在内，以进行所述评估。

20.根据权利要求17-19中任一项所述的装置，其中，所述预设视图(111)包括所确立的所述声音源(210)的方向。

21.根据权利要求17-20中任一项所述的装置，其中，所述处理器(330)还被构造成基于以下内容中的至少一个来确定所述控制数据：所述声音源(210)的音频级、预先确定的预设视图(111)以及预定义的摇摄参数。

22.根据权利要求17-21中任一项所述的装置，其中，所述控制数据指定以下参数中的至少一个：所述声音源(210)的音频级；所述声音源(210)的方向；中心位置；缩放因子(513)；纵横比；垂直方位；水平方位；方位角(511)以及极角(512)。

23.根据权利要求17-22中任一项所述的装置，其中，所述处理器(330)被构造成以预定义时间分辨率来确定所述控制数据。

24.一种用于播放全景视频的装置，该装置包括处理器(330、340)，该处理器(330、340)被构造成执行根据权利要求11-16中任一项所述的方法。