[go: up one dir, main page]

CN107004419B - 发送装置、发送方法、接收装置和接收方法 - Google Patents

发送装置、发送方法、接收装置和接收方法 Download PDF

Info

Publication number
CN107004419B
CN107004419B CN201580063452.7A CN201580063452A CN107004419B CN 107004419 B CN107004419 B CN 107004419B CN 201580063452 A CN201580063452 A CN 201580063452A CN 107004419 B CN107004419 B CN 107004419B
Authority
CN
China
Prior art keywords
view
information
stream
sound source
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580063452.7A
Other languages
English (en)
Other versions
CN107004419A (zh
Inventor
高桥和幸
北里直久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN107004419A publication Critical patent/CN107004419A/zh
Application granted granted Critical
Publication of CN107004419B publication Critical patent/CN107004419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Otolaryngology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明的目的是即使在接收侧执行视图切换的情况下也能准确地执行3D音频渲染。发送装置生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流。发送装置发送预定格式的容器,容器包括第一视频流、第二视频流、音频流和位置校正信息,该位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。

Description

发送装置、发送方法、接收装置和接收方法
技术领域
本技术涉及发送装置、发送方法、接收装置和接收方法,并且更具体地涉及将具有音频数据和对象声源的位置信息的音频流连同视频流一起发送的发送装置等。
背景技术
迄今为止,作为三维(3D)音频技术,已经提出了(例如,参见专利文献1)3D音频渲染技术,以基于对象声源的位置信息将对象声源的音频数据映射到任何位置的扬声器。
引用列表
专利文献
专利文献1:JP-T-2014-520491
发明内容
本发明将要解决的问题
以上提及的对象声源的位置信息基于单视图。在其中从多个视图拍摄内容的情况下,将被使用的摄像机的位置或方向随摄像机的不同而变化。因此,在接收侧执行视图的切换的情况下,可仅在用作参考的视图中准确地执行3D音频渲染。
当前技术的目的在于使得即使在接收侧执行视图的切换的情况下,也能够进行准确的3D音频渲染。
问题解决方案
当前技术的概念在于发送装置,包括:
编码单元,被配置为生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;以及
发送单元,被配置为发送预定格式的容器,所述容器包括第一视频流、第二视频流、音频流和位置校正信息,所述位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。
在本技术中,编码单元生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流以及音频流。音频流具有对象声源的音频数据和对象声源的基于第一视图的位置信息。
发送单元发送预定格式的容器,该容器包括第一视频流、第二视频流、音频流和位置校正信息,所述位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。例如,位置校正信息可指示第一视图以及第二视图的位置和方向的差值分量。例如,容器可以是在数字广播标准中采用的传送流(MPEG-2TS)。进一步地,例如,容器可以是用于在因特网上进行传递等的MP4的容器,或者是除了MP4以外的格式的容器。
例如,可将位置校正信息插入音频流的层中。在这种情况下,保证了对象声源的音频数据和位置信息与位置校正的同步。在这种情况下,例如,可将位置校正信息插入包括位置信息的元数据区域中。进一步的,在这种情况下,例如,可将位置校正信息插入用户数据区域中。
进一步地,在这种情况下,例如,当存在多个第二视图时,将分别对应于多个第二视图的多条位置校正信息插入音频流的层中,以及将指示分别对应于多条位置校正信息的第二视频流的信息插入容器的层中。
进一步的,例如,可将位置校正信息插入第二视频流的层中。在这种情况下,有助于位置校正信息和第二视频流之间的关联。在这种情况下,例如,可将位置校正信息插入用户数据区域中。
进一步地,例如,可将位置校正信息插入容器的层中。在这种情况下,例如,可将位置校正信息作为信令信息插入。在这种情况下,可在系统的层中在接收侧获得位置校正信息。
在这种情况下,容器可为MPEG2-TS,并且可将位置校正信息插入对应于节目映射表的第二视频流的视频基本流环中。
进一步地,在这种情况下,可插入包括位置校正信息的信息流。在这种情况下,在接收侧可容易地从独立于音频流和视频流的信息流获取位置校正信息。
因此,在本技术中,与第一视频流、第二视频流和音频流一起发送用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。因此,在接收侧将视图切换为第二视图的情况下,可以按照位置信息基于第二视图的方式使用通过位置校正信息校正的对象声源的位置信息,并且因此可准确地执行3D音频渲染。
进一步地,本技术的另一个概念在于接收装置,包括:
接收单元,被配置为接收预定格式的容器,所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流,以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;
处理单元,被配置为处理容器中所包含的信息。
在本技术中,接收单元接收预定格式的容器,所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流,以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。
例如,处理单元可包括:解码单元,被配置为从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息;选择器,被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据;以及渲染单元,被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置。当通过选择器选择了第二视图的视频数据时,渲染单元可以以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。
因此,在本技术中,例如,当选择了第二视图的视频数据时,以位置信息基于第二视图的方式使用在位置校正信息的基础上校正的位置信息来执行渲染。因此,即使在其中执行视图切换的情况下,也可准确地执行3D音频渲染。
进一步的,本技术的另一个概念在于接收装置,包括:
接收单元,被配置为接收预定格式的容器,所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;
获取单元,被配置为获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;
解码单元,被配置为分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的位置信息;
选择器,被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据;以及
渲染单元,被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置,
其中,当通过选择器选择了第二视图的视频数据时,渲染单元以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。
在本技术中,接收单元接收预定格式的容器,所述容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流。
获取单元获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息。例如,获取单元可从音频流的层、第二视频流的层或容器的层获取位置校正信息。进一步地,例如,获取单元可从网络上的服务器获取位置校正信息。
解码单元分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的位置信息。选择器选择性地输出第一视图的视频数据或第二视图的视频数据。
渲染单元在对象声源的位置信息的基础上,将对象声源的音频数据映射到任何扬声器位置。当通过选择器选择了第二视图的视频数据时,渲染单元以位置信息基于第二视图的方式使用基于位置校正信息校正的位置信息。
因此,在本技术中,当选择了第二视图的视频数据时,以位置信息基于第二视图的方式使用在位置校正信息的基础上校正的位置信息来执行渲染。因此,即使在其中执行视图切换的情况下,也可准确地执行3D音频渲染。
本发明的效果
根据本技术,即使在接收侧执行视图切换的情况下,也可准确地执行3D音频渲染。注意的是,本文描述的有利效果仅通过示例的方式示出而非限制性的,并且可提供附加的有利效果。
附图说明
图1是示出了作为实施方式的发送/接收系统的配置示例框图。
图2是示出了通过摄像机进行的视图(视频)拍摄以及通过麦克风进行的音频采集的假设状态的示例的图表。
图3是示出了视图1(View1)和对象声源之间的位置关系的图表。
图4是示了出视图2(View2)和对象声源之间的位置关系的图表.
图5是示出了用于校正(变换)关于对象声源的位置信息s(r,θ,φ)的变换的示例的图表。
图6是示出了发送装置的配置示例的框图。
图7是用于说明MPEG-H 3D音频的音频帧的结构的图表。
图8的(a)和图8的(b)是分别示出对象元数据(object_metadata())的配置示例等等的图表。
图9是示出了多视图位置信息1(multiview_Position_information1())的配置示例(语法)的图表。
图10的(a)至图10的(c)是分别示出配置信息“userdataConfig()”的配置示例的图表。
图11是示出了分量组描述符(component_group_descriptor)的结构示例的图表。
图12是差值分量VP2和VP3被插入音频流的层中的情况的传送流TS的配置示例的图表。
图13是示出视频序列(Video_sequence)的配置示例的图表。
图14的(a)至图14的(c)是每个示出用户数据的配置示例等等的图表。
图15是示出多视图位置信息2(multiview_Position_information2())的配置示例的图表。
图16的(a)到图16的(c)是每个示出MPEG4-AVC和HEVC中的用户数据SEI的配置示例等等的图表。
图17是示出了差值分量VP2和VP3被插入视频流的层中的情况的传送流TS的配置示例的图表。
图18是多视图位置信息描述符的配置示例的图表。
图19是示出了差值分量VP2和VP3作为信令被插入容器(系统)的层中的情况的传送流TS的配置示例的图表。
图20是示出了发送装置的另一个配置示例的框图。
图21是示出了位置校正信息流(基本流)的配置示例的图表。
图22是差值分量VP2和VP3作为位置校正信息流被插入的情况的传送流TS的配置示例的图表。
图23是位置校正信息的发送系统的列表。
图24是示出了接收装置的配置示例的框图。
图25是示出了接收装置的另一个配置示例的框图。
图26是示出了接收装置的又一个配置示例的框图。
具体实施方式
将在下面描述执行本发明的方式(下文中称为“实施方式”)。注意,按照以下顺序给出描述。
1.实施方式
2.变形例
<1.实施方式>
[发送/接收系统的配置示例]
图1示出了作为实施方式的发送/接收系统10的配置示例。发送/接收系统10由发送装置100和接收装置200组成。发送装置100发送在网络上的广播波或分组上携带的传送流TS。
该传送流TS包括分别具有多个视图的视频数据的多个视频流,以及具有一个或多个对象声源的音频数据和位置信息的音频流。图2示出了通过摄像机进行的视图(视频)拍摄和通过麦克风进行的音频采集的假设状态的示例。假设在该实施方式中传送流TS包括对应于该假设状态的视频流和音频流。
具体地,传送流TS包括通过摄像机11对视图进行拍摄而获得的视图1(View1)上的视频数据SV1的视频流、通过摄像机12对视图进行拍摄而获得的视图2(View2)上的视频数据SV2的视频流,以及通过摄像机13对视图进行拍摄而获得的视图3(View3)上的视频数据SV3的视频流。
进一步地,传送流TS包括一个音频流。该音频流包括通过麦克风21获得的音频数据(对象声源1(Object1)的音频数据),以及基于麦克风21的视图1的位置信息(对象声源1的位置信息)。进一步的,该音频流包括通过麦克风22获得的音频数据(对象声源2(Object2)的音频数据),以及基于麦克风22的视图1的位置信息(对象声源2的位置信息)。
进一步地,该传送流TS包括视图1和视图2的位置和方向的差值分量。差值分量构成用于将每个对象声源的位置信息校正为基于视图2的位置信息的位置校正信息。进一步地,传送流TS包括视图1和视图3的位置和方向的差值分量。差值分量构成用于将每个对象声源的位置信息校正为基于视图3的位置信息的位置校正信息。将差值分量插入构成第二视图的视图2或视图3的音频流的层、视频流的层,或容器的层中。
接收装置200接收从发送装置100发送并且在网络上的广播波或分组上携带的传送流TS。如上所述,该传送流TS包括三个视频流以及一个音频流,所述三个视频流分别包括视图1的视频数据、视图2的视频数据和视图3的视频数据,并且所述一个音频流具有对象声源1和对象声源2的音频数据和位置信息。
进一步的,该传送流TS包括作为用于将每个对象声源的位置信息校正为基于视图2的位置信息的位置校正信息的视图1和视图2的位置和方向的差值分量。进一步的,该传送流TS包括作为用于将每个对象声源的位置信息校正为基于视图3的位置信息的位置校正信息的视图1和视图3的位置和方向的差值分量。
接收装置200选择性地呈现对应于视图1、视图2和视图3的视频数据的图像。进一步地,接收装置200执行渲染,用于在对象声源的位置信息的基础上将对象声源的音频数据映射到任何扬声器位置,并且再现音频数据。在这种情况下,在选择了视图2和视图3的情况下,使用通过差值分量校正的位置信息,从而能够准确地执行渲染。
具体的,当选择了视图2时,使用按照位置信息基于第二视图的方式在视图1和视图2的位置和方向的差值分量的基础上校正的位置信息。进一步地,当选择了视图3时,使用按照位置信息基于第三视图的方式在视图1和视图3的位置和方向的差值分量的基础上校正的位置信息。
图3示出了视图1(View1)和对象声源之间的位置关系。对象声源的位置可在视图1的基础上通过极坐标s(r,θ,φ)表示,并且还可由正交坐标p(x,y,z)表示。在该情况下,“r”表示半径;“θ”表示仰角;以及“φ”表示方位角。
如上所述,发送装置100发送包括对象声源的音频数据和位置信息的音频流。该音频流包括3D音频的元数据。作为元数据,插入对象声源的极坐标s(r,θ,φ)的坐标值和增益值。
图4示出了视图2(View2)和对象声源之间的位置关系。对象声源的位置可在视图2的基础上通过极坐标s’(r’,θ’,φ’)表示,并且还可由正交坐标p’(x’,y’,z’)表示。在这种情况下,视图1和视图2的位置和方向的差值分量包括空间位置的差值分量(Δx、Δy、Δz)和方向的差值分量(Δθ、Δφ)。
接收装置200可通过使用这些差值分量将关于对象声源的位置信息s(r,θ,φ)校正(变换)为基于视图2的位置信息s’(r’,θ’,φ’)。图5示出了该情况下的变换的示例。注意,在该变换中,(x,y,z)对应于对象声源的正交坐标p(x,y,z)的坐标值并且(x1,y1,z1)对应于差值分量(Δx、Δy、Δz)。
注意,尽管省略了详细描述,但是视图3和对象声源之间的位置关系类似于以上描述的位置关系。
[发送装置的配置示例]
图6示出了发送装置100的配置示例。该发送装置100包括控制单元111、视频编码器112、113和114、3D音频编码器115、系统编码器116和发送单元117。控制单元111控制发送装置100的每个单元件的操作。
视频编码器112、113和114分别接收关于视图1的视频数据SV1、关于视图2的视频数据SV2以及关于视图3的视频数据SV3,并且对SV1、SV2和SV3执行编码(诸如MPEG2、MPEG4-AVC或HEVC),从而获得视频流。3D音频编码器115接收对象声源1和2的对象数据,并且对对象数据执行编码(诸如MPEG-H 3D音频),从而获得音频流。
在该情况下,对象声源1的对象数据由对象音频数据SA1和对象元数据META1组成。该对象元数据META1包括对象声源1的极坐标s(r,θ,φ)的坐标值以及增益值。此外,对象声源2的对象数据由对象音频数据SA2和对象元数据META2组成。该对象元数据META2包括对象声源2的极坐标s(r,θ,φ)的坐标值以及增益值。
系统编码器116将分别从视频编码器112、113和114输出的视频流以及从3D音频编码器115输出的音频流分组化为PES分组,并且进一步将分组变换为传送分组并将该分组多路复用,从而获得传送流TS作为多路复用流。发送单元117将在网络上的广播波或分组上携带的传送流TS发送到接收装置200。
在该实施方式中,在发送装置100中,将视图1和视图2的位置和方向的差值分量VP2(Δx、Δy、Δz、Δθ、Δφ)以及视图1和视图3的位置和方向的差值分量(Δx、Δy、Δz、Δθ、Δφ)插入(1)音频流的层、(2)视频流的层或(3)容器的层。在这种情况下,差值分量VP2构成位置校正信息,用于将对象声源1和2的位置信息校正为基于视图2的位置信息。进一步地,差值分量VP3构成位置校正信息,以用于将对象声源1和2的位置信息校正为基于视图3的位置信息。
“(1)其中将差值分量插入音频流的层中的情况”
将描述其中将差值分量VP2和VP3插入音频流的层中的情况。在这种情况下,3D音频编码器115将差值分量VP2和VP3作为位置校正信息插入音频流的层中。在这种情况下,将差值分量插入元数据区域或用户数据区域中。
图7示出了MPEG-H 3D音频的音频帧的结构。该音频帧由多个MPEG音频流分组组成。每个MPEG音频流分组由报头和载荷组成。
报头具有诸如分组类型、分组标签和分组长度的信息。在载荷中设置了由报头的分组类型定义的信息。在该载荷信息中,存在对应于同步起始码的“SYNC”、表示实际数据的“Frame”以及指示“Frame”的配置的“Config”。
对象声源的对象数据由如上所述的对象音频数据和对象元数据组成。这些数据段包括在“Frame”中。在这种情况下,包括作为单信道元素(SCE)的编码样本数据的对象音频数据。进一步地,包括作为扩展元素(Ext_element)的对象元数据。还可定义包括用户数据的扩展元素(Ext_element)。
在将差值分量VP2和VP3插入至元数据区域中的情况下,将差值分量VP2和VP3插入包括对象元数据的扩展元素(Ext_element)中。
图8的(a)示出了对象元数据(object_metadata())的结构示例(Syntax)。图8的(b)示出了包括在对象元数据中的对象元数据高效(object_metadata_efficient())的配置示例(Syntax)。在对象元数据高效的内编码元数据高效(object metadata efficient)(intracoded_object_metadata_efficient())中,设置具有差值分量VP2和VP3的多视图位置信息1(multiview_Position_information1())。
图9示出了多视图位置信息1(multiview_Position_information1())的配置示例(语法)。“process_multiview”的1位字段是指示多视图的标志。在多视图的情况下,存在“multiview_count”的8位字段。该字段指示视图的总数目。在图2示出的示例中,视图的总数目为“3”。
进一步地,存在对应于“总数目-1”的视图的差值分量的多个字段,即除了视图1(View1)之外的视图的差值分量的多个字段。在图2示出的示例中,存在视图2(View2)和视图3(View3)的差值分量VP2和VP3的字段。差值分量的字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。
“Δx”的字段指示Δx,即以视图1(View1)为中心作为原点的目标视图的x坐标的值。“Δy”的字段指示Δy,即以视图1(View1)为中心作为原点的目标视图的y坐标的值。“Δz”的字段指示Δz,即以视图1(View1)为中心作为原点的目标视图的z坐标的值。“Δθ”的字段指示Δθ,即θ相对于视图1(View1)的差值。“Δφ”的字段指示Δφ,即φ相对于视图1(View1)的差值。
在将差值分量VP2和VP3插入用户数据区域中的情况下,将差值分量VP2和VP3插入至包括用户数据的扩展元素(Ext_element)中。
在这种情况下,可重新定义包括作为扩展元素(Ext_element)的用户数据(user_data())的元素(Ext_userdata)。与这些一起,将关于元素(Ext_userdata)的配置信息“userdataConfig()”重新定义为“Config”。
图10的(a)示出了配置信息“userdataConfig()”的配置示例(语法)。“userdata_identifier”的32位字段通过在初步定义的序列中设置值来指示用户数据。“userdata_frame_length”的16位字段指示用户数据(user_data())的字节的数目。
图10的(b)示出了用户数据(user_data())的配置示例(语法)。通过将“0x47413934”(“GA94”)插入“userdata_data_identifier”的32位字段中,“ATSC_user_data()”包括在“user_structure()”的字段中。图10(c)示出了“ATSC_user_data()”的配置示例(语法)。
例如,通过将指示多视图位置信息1(multiview_Position_information1())的“0x07”插入至“user_data_type_code”的8位字段中,多视图位置信息1(multiview_Position_information1())(参见图9)包括在“user_data_type_structure()”的字段中。
注意,在将差值分量VP2和VP3插入如上所述的音频流的层中的情况下,系统编码器116将指示分别对应于多个差值分量的视频流的信息插入容器(系统)的层中。例如,系统编码器116通过使用分量组描述符(component_group_descriptor)将差值分量插入至对应于音频流的音频基本流环中。
图11示出了分量组描述符的配置示例(语法)。“descriptor_tag”的8位字段指示描述符类型。在这种情况下,8位字段指示分量组描述符。“descriptor_length”的8位字段指示描述符的长度(大小),并且由随后的字节的数目指示描述符的长度。
“component_group_type”的4位字段指示分量组的类型。在这种情况下,4位字段被设置为“0”,其指示与3D音频多视图相关的视频/音频分量组。“num_video”的4位字段指示视频流(视频基本流)的数目。进一步地,“component_tag”的8位字段以for循环重复对应于视频流的数目的次数。“component_tag”的该字段指示相关视频分量的分量标签(Component_tag)的值。
在该实施方式中,顺序地描述了包括视图1(View1)的视频数据、视图2(View2)的视频数据和视图3(View3)的视频数据的视频流的分量标签的值。另外,在对应于每个视频流的视频基本流环中,设置了信息段(诸如分组标识符(PID)、分量标签(Component_tag)和流类型(Stream_Type))。利用这种配置,指定包括视图2(View2)的视频数据和视图3(View3)的视频数据的视频流。因此,指定了分别对应于将被插入音频流的层中的差值分量VP2和VP3的视频流。
“num_audio”的8位字段指示音频流(音频基本流)的数目。进一步地,“component_tag”的8位字段以for循环重复对应于音频流的数目的次数。这种“component_tag”的字段指示相关音频分量的分量标签(Component_tag)的值。
图12示出了将差值分量VP2和VP3插入至音频流的层中的情况的传送流TS的配置示例。在这种情况下,在传送流TS中存在包括视图1(View1)的视频数据的视频流的PES分组“Video PES1”、包括视图2(View2)的视频数据的视频流的PES分组“Video PES2”和包括视图3(View3)的视频数据的视频流的PES分组“Video PES3”。
进一步地,在传送流TS中,存在音频流的PES分组“Audio PES”。将以上多视图位置信息1(multiview_Position_information1())(参见图9)插入音频流的PES分组的PES载荷中。
进一步地,传送流TS包括作为节目特定信息(PSI)的节目映射表(PMT)。该PSI为指示传送流中所包括的每个基本流所属的节目的信息。在PMT中,存在描述与整个节目相关的信息的节目描述符。
进一步地,在该PMT中,存在具有与每个基本流相关的信息的基本流环。在该配置示例中,存在分别对应于三个视频流的视频基本流环(视频ES环),并且存在对应于音频流的音频基本流环(音频ES环)。
在每个环中,设置了信息段(诸如分组标识符(PID)、分量标签(Component_tag)和流类型(Stream_Type))。进一步地,在音频基本流环中,设置了上述分量组标识符(component_group_descriptor)(参见图11)。
“(2)将差值分量插入视频流的层中的情况”
将描述将差值分量VP2和VP3插入至视频流的层中的情况。在这种情况下,视频编码器113将差值分量VP2作为位置校正信息插入至视频流的层中。进一步地,在这种情况下,视频编码器114将差值分量VP3作为位置校正信息插入视频流的层中。在这种情况下,将差值分量插入用户数据区域中。
首先,将描述执行MPEG2编码的情况。图13示出了视频序列(Video_sequence)的配置示例(语法)。在该视频序列(Video_sequence)中,存在extension_and_user_data(2)的字段。图14的(a)示出了extension_and_user_data(2)的配置示例(语法)。
在该extension_and_user_data(2)中,存在用户数据(user_data())的字段。图14的(b)示出了该用户数据的配置示例(语法)。通过将“0x47413934”("GA94")插入“user_data_identifier”的32位字段中,“ATSC_user_data()”包括在“user_structure()”的字段中。
图14的(c)示出了“ATSC_user_data()”的配置示例(语法)。例如,通过将指示多视图位置信息2(multiview_Position_information2())的“0x07”插入“user_data_type_code”的8位字段中,多视图位置信息2(multiview_Position_information2())包括在“user_data_type_structure()”的字段中。
图15示出多视图位置信息2(multiview_Position_information2())的配置示例(语法)。“process_multiview”的位字段为指示多视图的标志。在多视图的情况下,存在差值分量字段。
在被插入到包括视图2(View2)的视频数据的视频流的层中的多视图位置信息2中,存在差值分量VP2的字段。在被插入到包括视图3(View3)的视频数据的视频流的层中的多视图位置信息2中,存在差值分量VP3的字段。
差值分量字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。
“Δx”的字段指示Δx,即以视图1(View1)为中心作为原点的目标视图的x坐标的值。“Δy”的字段指示Δy,即以视图1(View1)为中心作为原点的目标视图的y坐标的值。“Δz”的字段指示Δz,即以视图1(View1)为中心作为原点的目标视图的z坐标的值。“Δθ”的字段指示Δθ,即θ相对于视图1(View1)的差值。“Δφ”的字段指示Δφ,即φ相对于视图1(View1)的差值。
接下来,将描述其中执行诸如MPEG4-AVC或HEVC的情况。图16的(a)示出用户数据SEI的配置示例(语法)。通过将“0x47413934”(“GA94”)插入“USER_identifier”的32位字段中,“ATSC1_data()”被包括在“USER_structure()”的字段中。
图16的(b)示出“ATSC1_data()”的配置示例(Syntax)。例如,通过将指示多视图位置信息2(multiview_Position_information2())的“0x07”插入“user_data_type_code”的8位字段中,多视图位置信息2(multiview_Position_information2())被包含在“user_data_type_structure()”的字段中。
图17示出了将差值分量VP2和VP3插入视频流的层中的情况的传送流TS的配置示例。在图17中,根据需要省略对应于图12中所示那些的单元件的描述。
将以上多视图位置信息2(multiview_Position_information2())(参见图15)插入包括视图2(View2)的视频数据的PES分组“Video PES2”中。进一步地,将以上多视图位置信息2(multiview_Position_information2())(参见图15)插入包括视图3(View3)的视频数据的PES分组“Video PES2”中。
注意,在将差值分量VP2和VP3插入视频流的层中的情况下,差值分量和视频流之间的关联性是清楚的。因此,在这种情况下,不需要将分量组描述符(component_group_descriptor)插入容器(系统)的层中。
“其中将差值分量插入容器(系统)的层中的情况”
将描述其中将差值分量VP2和VP3插入容器(系统)的层中的情况。在这种情况下,将差值分量作为信令信息或位置校正信息流插入。
第一,将描述将差值分量VP2和VP3作为信令插入的情况。在这种情况下,系统编码器116将多视图位置信息描述符(multiview_Position_information_descriptor)插入对应于视图2(View2)和视图3(View3)的视频流的视频基本流环中。
图18示出多视图位置信息描述符的配置示例(语法)。“descriptor_tag”的8位字段指示描述符类型。在这种情况下,8位字段指示多视图位置信息描述符。“descriptor_length”的8位字段指示描述符的长度(大小)并且描述符的长度由随后位的数目指示。
“PTS_flag”的1位字段为指示对应于对象声源的所获取的位置信息的时间信息(PTS)存在的标志信息。当1位字段指示“1”时,33位时间信息存在。进一步地,在该描述符中,存在差值分量字段。
在将被插入对应于视图2(View2)的视频流的视频基本流环中的多视图位置信息描述中,存在差值分量VP2的字段。进一步地,在将被插入对应于视图3(View3)的视频流的视频基本流环中的多视图位置信息描述中,存在差值分量VP3的字段。
差值分量字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。
“Δx”的字段指示Δx,即以视图1(View1)为中心作为原点的目标视图的x坐标的值。“Δy”的字段指示Δy,即以视图1(View1)为中心作为原点的目标视图的y坐标的值。“Δz”的字段指示Δz,即以视图1(View1)为中心作为原点的目标视图的z坐标的值。“Δθ”的字段指示Δθ,即θ相对于视图1(View1)的差值。“Δφ”的字段指示Δφ,即φ相对于视图1(View1)的差值。
图19示出了将差值分量VP2和VP3作为信令插入容器(系统)的层中的情况的传送流TS的配置示例。在图19中,根据需要省略对应于图12中所示那些的单元件的描述。
在对应于视图2(View2)的视频流的视频基本流环中,插入其中存在以上差值分量VP2的多视图位置信息描述符。进一步地,在对应于视图3(View3)的视频流的视频基本流环中,插入其中存在以上差值分量VP3的多视图位置信息描述符。
接下来,将描述其中作为位置校正信息流插入差值分量VP2和VP3的情况。图20示出在该情况下的发送装置100的配置示例。在图20中,通过相同的参考数字描述了对应于图6中示出的那些的单元件,并且根据需要省略其详细描述。
该发送装置100包括位置校正信息编码器118和119。位置校正信息编码器118对差值分量VP2执行编码,并生成位置校正信息流。进一步地,位置校正信息编码器118对差值分量VP3执行编码,并生成位置校正信息流。
系统编码器116将分别从视频编码器112、113和114输出的视频流、从3D音频编码器115输出的音频流以及从位置校正信息编码器118和119输出的位置校正信息流分组化为PES分组,并且进一步将所述分组变换为传送分组以及多路复用所述分组,从而获得传送流TS作为多路复用流。
图21示出位置校正信息流(基本流)的配置示例(语法)。“data_identifier”的8位字段是指示位置校正信息的PES数据的值。“PES_data_packet_header_length”的4位字段指示“PES_Data_private_data_byte”的字段的长度。将依赖于服务的私密数据插入“PES_Data_private_data_byte”的字段中。
进一步地,在该位置校正信息流中,存在相应视图的差值分量字段。差值分量字段由“Δx”的8位字段、“Δy”的8位字段、“Δz”的8位字段、“Δθ”的9位字段和“Δφ”的7位字段组成。
“Δx”的字段指示Δx,即以视图1(View1)为中心作为原点的目标视图的x坐标的值。“Δy”的字段指示Δy,即以视图1(View1)为中心作为原点的目标视图的y坐标的值。“Δz”的字段指示Δz,即以视图1(View1)为中心作为原点的目标视图的z坐标的值。“Δθ”的字段指示Δθ,即θ相对于视图1(View1)的差值。“Δφ”的字段指示Δφ,即φ相对于视图1(View1)的差值。
图22示出了将差值分量VP2和VP3作为位置校正信息流插入的情况的传送流TS的配置示例。在图22中,根据需要省略对应于图12中示出的那些的单元件的描述。
在传送流TS中,存在包括与视图2(View2)相关的差值分量VP2的位置校正信息流的PES分组“Position PES1”、包括与视图3(View3)相关的差值分量VP3的位置校正信息流的PES分组“Position PES3”。进一步地,在PMT中,存在分别对应于两个位置校正信息流的位置校正信息/基本流环(位置ES环)。
图23是以上位置校正信息的发送系统的列表。(1)其中将差值分量插入音频流的层中的情况具有例如“音频校正位置信息和位置校正信息被添加到音频信号。仅从音频信号将信息发送到位置校正操作电路是足够的。由于信息被包含在相同的音频信号中,保证了这些信号的同步”的此类特征。
进一步地,(2)其中将差值分量插入视频流的层中的情况具有例如“将相应位置校正信息添加到每个视频信号。仅发送每个视频所需的信息,这阻止了额外信息(将被发送的信息量是小的)的发送。在其中在再次发送中选择了视频的情况下,直接发送位置校正信息,这消除了额外处理”的此类特征。
进一步地,(3)其中将差值分量插入容器(系统)的层中的情况具有此类特征,即,例如,当作为信令插入差值分量时,“可通过作为描述符发送信息来区分系统的层中所需的信息”;例如,当作为位置校正信息流插入差值分量时,“作为对应于每个视频信号的独立流发送位置校正信息以及时间线。在其中在再次发送中选择了视频的情况下,可选择和发送相应的位置校正信息”。
图6中简单示出了发送装置100的操作。关于视图1的视频数据SV1、关于视图2的视频数据SV2和关于视图3的视频数据SV3被分别提供给视频编码器112、113和114。视频编码器112、113和114对视频数据SV1、SV2和SV3中的每个执行编码,诸如MPEG2、MPEG4-AVC或HEVC,从而获得视频流。
将与对象声源1相关的对象数据SA1和META1以及与对象声源2相关的对象数据SA2和META2提供到3D音频编码器115。3D音频编码器115对与对象声源1和2相关的对象数据执行例如MPEG-H 3D音频编码,从而获得音频流。通过视频编码器112、113和114获得的视频流被提供给系统编码116。通过3D音频编码器115获得的音频流被提供给系统编码116。系统编码器116将从编码器提供的流分组化为PES分组,并且进一步将所述分组变换为传送分组并且多路复用所述分组,从而获得传送流作为多路复用流。
通过系统编码器116获得的传送流TS被提供给发送单元117。发送单元117将在网络上在广播波或分组上承载的传送流TS发送给接收装置200。
进一步地,在发送装置100中,视图1和视图2的位置和方向的差值分量VP2以及视图1和视图3的位置和方向的差值分量VP3被插入(1)音频流的层中、(2)视频流的层中或者(3)容器的层中,并且被发送到接收装置200。
[接收装置的配置示例]
图24示出接收装置200的配置示例。该接收装置200包括控制单元211、接收单元212、系统解码器213、选择器214、视频解码器215、显示单元216、3D音频解码器217、3D音频渲染器218和扬声器系统219。控制单元211控制接收装置200的每个单元件的操作。
接收单元212接收从发送装置100发送并且在网络上在广播波或分组上承载的传送流TS。该传送流TS包括分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流,以及具有对象声源1和对象声源2的音频数据和位置信息的音频流(参见图2)。
系统解码器213从传送流TS提取分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流的分组,并重新配置所述三个视频流。进一步地,系统解码器213从传送流TS提取音频流的分组,并重新配置音频流。
系统解码器213从传送流TS提取各种系统,诸如描述符信息,并将所述信息发送到控制单元211。各种信息包括其中将差值分量VP2和VP3作为信令插入的情况的多视图位置信息描述符(multiview_Position_information_descriptor)(参见图18)的信息。进一步地,各种信息包括其中将差值分量插入音频流的层中的情况的分量组描述符(component_group_descriptor)(参见图18)的信息。
选择器214在通过控制单元211进行的选择控制的基础上,根据用户进行的视图选择来选择地输出由系统解码器213重新配置的三个视频流中的任何一个。视频解码器215对从选择器214输出的视频流进行解码处理,并获得用户选择地视图的视频数据。
进一步地,视频解码器215提取被插入视频流的层中的各种信息,并将所述信息发送给控制单元211。各种信息包括其中将差值分量VP2和VP3插入视频流的层中的情况的多视图位置信息2(multiview_Position_information2())(参见图15)的信息。
显示单元216包括显示面板,诸如液晶显示器(LCD)或有机电致发光显示器(有机EL显示器)。显示单元216对通过视频解码器215获得的视频数据进行缩放处理、图像质量调整处理等等,从而获得显示视频数据,并在显示面板上显示对应于显示视频数据的图像。
3D音频解码器217对系统解码器213重新配置的音频流进行解码处理,并获得与对象声源1和2相关的对象数据。
在这种情况下,与对象声源1相关的对象数据由对象音频数据SA1和对象元数据META1组成,并且对象元数据META1包括对象声源1的极坐标s(r,θ,φ)的坐标值和增益值。进一步地,与对象声源2相关的对象数据由对象音频数据SA2和对象元数据META2组成,并且对象元数据META2包括对象声源2的极坐标s(r,θ,φ)的坐标值和增益值。
进一步地,3D音频解码器217提取被插入音频流的层中的各种信息,并将所述信息发送到控制单元211。各种信息包括其中将差值分量VP2和VP3插入音频流的层中的情况的多视图位置信息1(multiview_Position_information1())(参见图9)的信息。
3D音频渲染器218在与3D音频解码器217获得的对象声源1和2相关的对象数据(音频数据、位置信息)的基础上,获得与扬声器系统219兼容的预定信道的音频数据。在这种情况下,3D音频渲染器218是指扬声器设置信息,并且在位置信息的基础上将每个对象声源的音频数据映射到任何位置处的扬声器。
3D音频渲染器218包括位置校正操作单元218a。在选择了视图1的情况下,3D音频渲染器218按照其原先的样子使用被包含在对象数据(音频数据、位置信息)中的位置信息(r,θ,φ),所述对象数据与通过3D音频解码器217获得的对象声源1和2相关。
在选择了视图2或视图3的情况下,3D音频渲染器218使用在通过位置校正操作单元218a校正被包括在对象数据(音频数据、位置信息)中的位置信息(r,θ,φ)之后获得的位置信息(r’,θ’,φ’),所述对象数据与通过使用图5中的变换由3D音频解码器217获得的对象声源1和2相关。
在这种情况下,在其中选择了视图2的情况下,位置校正操作单元218a通过使用视图1和视图2的位置和方向的差值分量VP2(Δx,Δy,Δz,Δθ,Δφ)将基于视图1的位置信息(r,θ,φ)校正(变换)为基于视图2的位置信息(r’,θ’,φ’)。进一步地,在其中选择了视图3的情况下,位置校正操作单元218a通过使用视图1和视图3的位置和方向的差值分量VP3(Δx,Δy,Δz,Δθ,Δφ)将基于视图1的位置信息(r,θ,φ)校正(变换)为基于视图3的位置信息(r’,θ’,φ’)。
扬声器系统219在3D音频渲染器218获得的预定信道的音频数据的基础上,获得对应于显示单元216的显示图像的音频输出。
简单地示出了图24所示的接收装置200的操作。接收单元212接收从发送装置100发送并在网络上在广播波或分组上承载的传送流TS。
该传送流TS包括分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流,以及具有对象声源1和对象声源2的音频数据和位置信息的音频流。该传送流TS被提供给系统解码器213。
系统213从传送流TS提取分别具有视图1的视频数据、视图2的视频数据和视图3的视频数据的三个视频流的分组,并重新配置三个视频流。进一步地,系统解码器213从传送流TS提取音频流的分组,并重新配置音频流。
进一步地,系统解码器213从传送流TS提取各种信息,诸如描述符信息,并将所述信息发送给控制单元211。各种信息还包括其中将差值分量VP2和VP3作为信令插入的情况的多视图位置信息描述符(参见图18)的信息。各种信息还包括其中将差值分量插入音频流的层中的情况的分量组描述符(参见图11)的信息。
将通过系统解码器213重新配置的三个视频流提供给选择器214。在选择器214中,在通过控制单元211进行的选择控制的基础上,根据用户进行的视图选择来选择地输出三个视频流中的任何一个。将从选择器214输出的视频流提供到视频解码器215。视频解码器215对视频流进行解码处理,并获得由用户选择地视图的视频数据。
进一步地,视频解码器215提取被插入视频流的层中的各种信息,并将所述信息发送到控制单元211。各种信息还包括其中将差值分量VP2和VP3插入视频流的层中的情况的多视图位置信息2(参见图15)的信息。
将通过视频解码器215获得的视频数据提供给显示单元216。显示单元216对通过视频解码器215获得的视频数据进行缩放处理、图像质量调整处理等等,从而获得显示视频数据,并在显示面板上显示对应于显示视频数据的图像。
进一步地,将通过系统解码器213重新配置的音频流提供给3D音频解码器217。3D音频解码器217对通过系统解码器213重新配置的音频流进行解码处理,从而获得与对象声源1和2相关的对象数据。
进一步地,3D音频解码器217提取被插入音频流的层中的各种信息,并将所述信息发送给控制单元211。各种信息还包括其中差值分量VP2和VP3被插入音频流的层中的情况的多视图位置信息1(参见图9)的信息。
将通过3D音频解码器217获得的对象声源1和2的对象数据提供给3D音频渲染器218。3D音频渲染器218在与对象声源1和2相关的对象数据(音频数据、位置信息)的基础上,获得与扬声器系统219兼容的预定信道的音频数据。在这种情况下,3D音频渲染器218是指扬声器设置信息,并且在位置信息的基础上将每个对象声源的音频数据映射到任何位置处的扬声器。
在这种情况下,在3D音频渲染器218中,在其中选择了视图2的情况下,通过从以上容器的层、视频流的层或音频流的层提取的差值分量(Δx,Δy,Δz,Δθ,Δφ)来校正并使用与通过3D音频解码器217获得的对象声源1和2相关的对象数据(音频数据、位置信息)中所包括的位置信息(r,θ,φ)。尽管省略了详细描述,但对于其中选择了视图3的情况也是适用的。
将从3D音频渲染器218输出的预定信道的音频数据提供给扬声器系统219。在扬声器系统219中,在预定信道的音频数据的基础上获得对应于显示单元216的显示图像的音频输出。
图25示出了将差值分量VP2和VP3作为位置校正信息流插入容器的层中的情况的接收装置200的配置示例。在图25中,通过相同的参考数字指示对应于图24中示出的那些的单元件,并且根据需要省略其详细描述。
系统解码器213从传送流TS获得包括差值信息VP2和VP3的两个位置校正信息流。将包括差值信息VP2的位置校正信息流提供给位置校正信息解码器221。位置校正信息解码器221对位置校正信息流进行解码,并获得差值分量VP2。进一步地,将包括差值信息VP3的位置校正信息流提供给位置校正信息解码器223。位置校正信息解码器223对位置校正信息流进行解码,并获得差值分量VP3。
这些差值分量VP2和VP3被提供给3D音频渲染器218。3D音频渲染器218是指扬声器设置信息,并且在位置信息(r,θ,φ)的基础上将每个对象声源的音频数据映射到任何位置的扬声器。在这种情况下,在其中选择了视图2和视图3的情况下,分别在差值分量VP2和VP3的基础上校正(变换)和使用关于对象声源1和2的位置信息(r’,θ’,φ’)。
如上所述,在图1中示出的发送/接收系统10中,发送装置100将位置校正信息(差值分量VP2和VP3)插入音频流的层中、视频流的层中或容器的层中,并发送所述位置校正信息,所述位置校正信息用于将基于每个对象声源的视图1的位置信息(r,θ,φ)校正(变换)为基于视图2和视图3的位置信息(r’,θ’,φ’)。因此,在接收侧执行视图2和视图3的切换的情况下,可使用对象声源的校正的位置信息,从而使得准确地执行3D音频渲染是可能的。
<2.变形例>
注意,以上描述的实施方式示出其中除了视图1以外,存在视图2和视图3以及存在对象声源1和2的示例。在本技术中,视图的数目和对象声源的数目不限于示例。
进一步地,以上描述的实施方式示出其中位置校正信息指示差值分量(Δx,Δy,Δz,Δθ,Δφ)的示例。然而,在本技术中,位置校正信息不限于差值分量(Δx,Δy,Δz,Δθ,Δφ)。
进一步地,以上描述的实施方式示出从音频流的层、视频流的层或容器的层获取差值分量VP2和VP3的接收装置200的示例。然而,还可以采用其中从连接到网络的服务器获取的差值分量的配置。在这种情况下,从发送装置100到接收装置200的访问信息可被插入音频流的层中、视频流的层中或容器的层中,并且可被发送。
图26示出该情况下的接收装置200的配置示例。在图26中,通过相同的参考数字指示对应于图24中示出的那些的单元件,并且根据需要省略其详细描述。通信接口231访问连接到网络的服务器,从而获取差值分量VP2和VP3。
将这些差值分量VP2和VP3提供到3D音频渲染器218。3D音频渲染器218是指扬声器设置信息,并且在位置信息(r,θ,φ)的基础上将每个对象声源的音频数据映射到任何位置的扬声器。在这种情况下,在其中选择了视图2和视图3的情况下,分别在差值分量VP2和VP3的基础上校正(变换)和使用关于对象声源1和2的位置信息(r’,θ’,φ’)。
进一步地,以上描述的实施方式示出其中容器为传送流(MPEG-2TS)的示例。然而,本技术还可应用于通过MP4的容器或除了MP4以外的格式的容器传递的系统。例如,本技术还可应用于基于MPEG-DASH的流传递系统、处理MPEG媒体传送(MMT)结构发送流的发送/接收系统等等。
注意,本技术还可具有以下配置:
(1)一种发送装置,包括:
编码单元,被配置为生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;以及
发送单元,被配置为发送预定格式的容器,容器包括第一视频流、第二视频流、音频流和位置校正信息,位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。
(2)根据(1)所述的发送装置,其中,位置校正信息指示第一视图和第二视图的位置和方向的差值分量。
(3)根据(1)或(2)所述的发送装置,其中,将位置校正信息插入至音频流的层中。
(4)根据(3)所述的发送装置,其中,将位置校正信息插入至包括位置信息的元数据区域中。
(5)根据(3)所述的发送装置,其中,将位置校正信息插入至用户数据区域中。
(6)根据(3)所述的发送装置,其中,
当存在多个第二视图时,将对应于多个第二视图的多条位置校正信息插入至音频流的层中,并且
将指示多条位置校正信息分别对应的第二视频流的信息插入至容器的层中。
(7)根据(1)或(2)所述的发送装置,其中,将位置校正信息插入至第二视频流的层中。
(8)根据(1)或(2)所述的发送装置,其中,将位置校正信息插入至容器的层中。
(9)根据(8)所述的发送装置,其中,将位置校正信息作为信令信息插入。
(10)根据(9)所述的发送装置,其中,容器为MPEG2-TS,并且
将位置校正信息插入至视频基本流环中,视频基本流环对应于节目映射表的第二视频流。
(11)根据(8)所述的发送装置,其中,插入包括位置校正信息的信息流。
(12)一种发送方法,包括:
编码步骤,生成具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;以及
发送步骤,通过发送单元发送预定格式的容器,容器包括第一视频流、第二视频流、音频流和位置校正信息,位置校正信息用于将对象声源的位置信息校正为基于第二视图的位置信息。
(13)一种接收装置,包括:
接收单元,被配置为接收预定格式的容器,容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流,以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;以及
处理单元,被配置为处理在容器中包括的信息。
(14)根据(13)所述的接收装置,其中,处理单元包括:
解码单元,被配置为从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息,
选择器,被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据,
渲染单元,被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置,并且
当通过选择器选择了第二视图的视频数据时,渲染单元以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。
(15)一种接收方法,包括:
接收步骤,通过接收单元接收预定格式的容器,容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流,以及用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;以及
处理步骤,处理容器中包含的信息。
(16)一种接收装置,包括:
接收单元,被配置为接收预定格式的容器,容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;
获取单元,被配置为获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;
解码单元,被配置为分别从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息;
选择器,被配置为选择性地输出第一视图的视频数据或者第二视图的视频数据;以及
渲染单元,被配置为基于对象声源的位置信息将对象声源的音频数据映射到任何扬声器位置,
其中,当通过选择器选择了第二视图的视频数据时,渲染单元以位置信息是基于第二视图的方式使用基于位置校正信息校正的位置信息。
(17)根据(16)所述的接收装置,其中,获取单元从音频流的层、第二视频流的层或容器的层获取位置校正信息。
(18)根据(16)所述的接收装置,其中,获取单元从网络上的服务器获取位置校正信息。
(19)一种接收方法,包括:
接收步骤,通过接收单元接收预定格式的容器,容器包括具有第一视图的视频数据的第一视频流、具有第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和对象声源的基于第一视图的位置信息的音频流;
获取步骤,获取用于将对象声源的位置信息校正为基于第二视图的位置信息的位置校正信息;
解码步骤,从第一视频流、第二视频流和音频流获得第一视图的视频数据、第二视图的视频数据以及对象声源的音频数据和位置信息;
选择步骤,选择性地输出第一视图的视频数据或者第二视图的视频数据;
渲染步骤,基于在对象声源的音频数据和位置信息获得与扬声器系统兼容的音频数据,
其中,在渲染步骤中,当在选择步骤中选择了第二视图的视频数据时,以位置信息基于第二视图的方式使用基于位置校正信息校正的位置信息。
参考符号列表
10 发送/接收系统
100 发送装置
111 控制单元
112、113、114 视频编码器
115 3D音频编码器
116 系统编码器
117 发送单元
118、119 位置校正信息编码器
200 接收装置
211 控制单元
212 接收单元
213 系统解码器
214 选择器
215 视频解码器
216 显示单元
217 3D音频解码器
218 3D音频渲染器
218a 位置校正操作单元
219 扬声器系统
221、222 位置校正信息解码器
231 通信接口

Claims (19)

1.一种发送装置,包括:
编码单元,被配置为生成具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图;以及
发送单元,被配置为发送预定格式的容器,所述容器包括所述第一视频流、所述第二视频流、所述音频流以及位置校正信息,所述位置校正信息用于将所述对象声源的所述位置信息校正为基于所述第二视图的位置信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使被配置为接收所发送的容器的接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系。
2.根据权利要求1所述的发送装置,其中,所述位置校正信息指示所述第一视图和所述第二视图的位置和方向的差值分量。
3.根据权利要求1或2所述的发送装置,其中,将所述位置校正信息插入至所述音频流的层中。
4.根据权利要求3所述的发送装置,其中,将所述位置校正信息插入至包括位置信息的元数据区域中。
5.根据权利要求3所述的发送装置,其中,将所述位置校正信息插入至用户数据区域中。
6.根据权利要求3所述的发送装置,其中,
当存在多个所述第二视图时,将对应于多个所述第二视图的多条位置校正信息插入至所述音频流的层中,并且
将指示所述多条所述位置校正信息分别对应的所述第二视频流的信息插入至所述容器的层中。
7.根据权利要求1或2所述的发送装置,其中,将所述位置校正信息插入至所述第二视频流的层中。
8.根据权利要求1或2所述的发送装置,其中,将所述位置校正信息插入至所述容器的层中。
9.根据权利要求8所述的发送装置,其中,将所述位置校正信息作为信令信息插入。
10.根据权利要求9所述的发送装置,其中,
所述容器为MPEG2-TS,并且
将所述位置校正信息插入至视频基本流环中,所述视频基本流环对应于节目映射表的所述第二视频流。
11.根据权利要求8所述的发送装置,其中,插入包括所述位置校正信息的信息流。
12.一种发送方法,包括:
编码步骤,生成具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图;以及
发送步骤,通过发送单元发送预定格式的容器,所述容器包括所述第一视频流、所述第二视频流、所述音频流以及位置校正信息,所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使被配置为接收所发送的容器的接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系。
13.一种接收装置,包括:
接收单元,被配置为接收预定格式的容器,所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流、具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图,以及用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息的位置校正信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使所述接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系;以及
处理单元,被配置为处理包括在所述容器中的信息。
14.根据权利要求13所述的接收装置,其中,所述处理单元包括:
解码单元,被配置为从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息,
选择器,被配置为选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据,
渲染单元,被配置为基于所述对象声源的所述位置信息将所述对象声源的音频数据映射到任何扬声器位置,并且
当通过所述选择器选择了所述第二视图的视频数据时,所述渲染单元以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。
15.一种接收方法,包括:
接收步骤,通过接收单元接收预定格式的容器,所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流、具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图,以及用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息的位置校正信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系;以及
处理步骤,处理在所述容器中包括的信息。
16.一种接收装置,包括:
接收单元,被配置为接收预定格式的容器,所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图;
获取单元,被配置为获取位置校正信息,所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使所述接收装置能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系;
解码单元,被配置为分别从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息;
选择器,被配置为选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据;以及
渲染单元,被配置为基于所述对象声源的所述位置信息将所述对象声源的所述音频数据映射到任何扬声器位置,
其中,当通过所述选择器选择了所述第二视图的视频数据时,所述渲染单元以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。
17.根据权利要求16所述的接收装置,其中,所述获取单元从所述音频流的层、所述第二视频流的层或所述容器的层获取所述位置校正信息。
18.根据权利要求16所述的接收装置,其中,所述获取单元从网络上的服务器获取所述位置校正信息。
19.一种接收方法,包括:
接收步骤,通过接收单元接收预定格式的容器,所述容器包括具有第一摄像机的第一视图的视频数据的第一视频流、具有第二摄像机的第二视图的视频数据的第二视频流,以及具有对象声源的音频数据和所述对象声源的基于所述第一视图的位置信息的音频流,所述音频数据对应于所述对象声源的所述第一视图;
获取步骤,获取位置校正信息,所述位置校正信息用于将所述对象声源的位置信息校正为基于所述第二视图的位置信息,所述位置校正信息包括指示所述第二视图的位置相对于所述第一视图的位置的差值的差值分量,所述第一视图对应于捕获音频数据的第一摄像机的位置,使能够将所述位置校正信息的所述差值分量应用于所述音频流,以修改所述音频数据从所述第一摄像机的位置到所述第二摄像机的位置的对应关系;
解码步骤,从所述第一视频流、所述第二视频流和所述音频流获得所述第一视图的视频数据、所述第二视图的视频数据以及所述对象声源的音频数据和位置信息;
选择步骤,选择性地输出所述第一视图的视频数据或者所述第二视图的视频数据;
渲染步骤,基于所述对象声源的音频数据和位置信息获得与扬声器系统兼容的音频数据,
其中,在所述渲染步骤中,当在所述选择步骤中选择了所述第二视图的视频数据时,以所述位置信息是基于所述第二视图的方式使用基于所述位置校正信息校正的位置信息。
CN201580063452.7A 2014-11-28 2015-11-09 发送装置、发送方法、接收装置和接收方法 Active CN107004419B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014-241953 2014-11-28
JP2014241953 2014-11-28
PCT/JP2015/081524 WO2016084592A1 (ja) 2014-11-28 2015-11-09 送信装置、送信方法、受信装置および受信方法

Publications (2)

Publication Number Publication Date
CN107004419A CN107004419A (zh) 2017-08-01
CN107004419B true CN107004419B (zh) 2021-02-02

Family

ID=56074162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063452.7A Active CN107004419B (zh) 2014-11-28 2015-11-09 发送装置、发送方法、接收装置和接收方法

Country Status (8)

Country Link
US (1) US10880597B2 (zh)
EP (1) EP3226241B1 (zh)
JP (1) JP6624068B2 (zh)
KR (1) KR102605480B1 (zh)
CN (1) CN107004419B (zh)
CA (1) CA2967249C (zh)
MX (1) MX2017006581A (zh)
WO (1) WO2016084592A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232458B2 (en) 2010-02-17 2022-01-25 JBF Interlude 2009 LTD System and method for data mining within interactive multimedia
US9792957B2 (en) 2014-10-08 2017-10-17 JBF Interlude 2009 LTD Systems and methods for dynamic video bookmarking
US10582265B2 (en) 2015-04-30 2020-03-03 JBF Interlude 2009 LTD Systems and methods for nonlinear video playback using linear real-time video players
US10460765B2 (en) * 2015-08-26 2019-10-29 JBF Interlude 2009 LTD Systems and methods for adaptive and responsive video
US11856271B2 (en) 2016-04-12 2023-12-26 JBF Interlude 2009 LTD Symbiotic interactive video
CN114466279B (zh) * 2016-11-25 2025-10-14 索尼公司 再现方法、装置及介质、信息处理方法及装置
US11050809B2 (en) 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10820034B2 (en) 2017-05-26 2020-10-27 At&T Intellectual Property I, L.P. Providing streaming video from mobile computing nodes
US10257578B1 (en) 2018-01-05 2019-04-09 JBF Interlude 2009 LTD Dynamic library display for interactive videos
EP3780627A4 (en) * 2018-03-29 2021-02-17 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
US11272224B2 (en) * 2018-03-29 2022-03-08 Sony Corporation Information processing device and method
CN111903135B (zh) 2018-03-29 2024-12-06 索尼公司 信息处理装置、信息处理方法以及程序
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US11601721B2 (en) 2018-06-04 2023-03-07 JBF Interlude 2009 LTD Interactive video dynamic adaptation and user profiling
JP2020005038A (ja) * 2018-06-25 2020-01-09 キヤノン株式会社 送信装置、送信方法、受信装置、受信方法、及び、プログラム
CN110858925B (zh) * 2018-08-22 2021-10-15 华为技术有限公司 一种实现视频流切换的方法、设备、系统和存储介质
US12073841B2 (en) 2019-01-25 2024-08-27 Sony Group Corporation Information processing device and information processing method
US20200296462A1 (en) 2019-03-11 2020-09-17 Wci One, Llc Media content presentation
JP7658280B2 (ja) 2020-01-09 2025-04-08 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
US12096081B2 (en) 2020-02-18 2024-09-17 JBF Interlude 2009 LTD Dynamic adaptation of interactive video players using behavioral analytics
US12047637B2 (en) 2020-07-07 2024-07-23 JBF Interlude 2009 LTD Systems and methods for seamless audio and video endpoint transitions
EP3968643A1 (en) * 2020-09-11 2022-03-16 Nokia Technologies Oy Alignment control information for aligning audio and video playback
US11882337B2 (en) 2021-05-28 2024-01-23 JBF Interlude 2009 LTD Automated platform for generating interactive videos
US12155897B2 (en) 2021-08-31 2024-11-26 JBF Interlude 2009 LTD Shader-based dynamic video manipulation
US11934477B2 (en) 2021-09-24 2024-03-19 JBF Interlude 2009 LTD Video player integration within websites

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682745A (zh) * 2008-02-04 2010-03-24 索尼株式会社 视频信号传送装置、视频信号传送方法、视频信号接收装置和视频信号接收方法
CN102884804A (zh) * 2009-12-28 2013-01-16 达贝U株式会社 音频信号和视频信号的同步误差校正方法及装置
CN104023265A (zh) * 2013-03-01 2014-09-03 联想(北京)有限公司 一种音频信息流的切换方法、装置及电子设备

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040261127A1 (en) * 1991-11-25 2004-12-23 Actv, Inc. Digital interactive system for providing full interactivity with programming events
US7448063B2 (en) * 1991-11-25 2008-11-04 Actv, Inc. Digital interactive system for providing full interactivity with live programming events
US5823786A (en) * 1993-08-24 1998-10-20 Easterbrook; Norman John System for instruction of a pupil
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5714997A (en) * 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
TW436777B (en) * 1995-09-29 2001-05-28 Matsushita Electric Industrial Co Ltd A method and an apparatus for reproducing bitstream having non-sequential system clock data seamlessly therebetween
WO1998011494A1 (en) * 1996-09-16 1998-03-19 Advanced Research Solutions, Llc Data correlation and analysis tool
US6353461B1 (en) * 1997-06-13 2002-03-05 Panavision, Inc. Multiple camera video assist control system
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6750919B1 (en) * 1998-01-23 2004-06-15 Princeton Video Image, Inc. Event linked insertion of indicia into video
KR100324512B1 (ko) * 1998-07-14 2002-06-26 구자홍 실시간데이터기록및재생장치와그제어방법
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6144375A (en) * 1998-08-14 2000-11-07 Praja Inc. Multi-perspective viewer for content-based interactivity
US6229550B1 (en) * 1998-09-04 2001-05-08 Sportvision, Inc. Blending a graphic
US6266100B1 (en) * 1998-09-04 2001-07-24 Sportvision, Inc. System for enhancing a video presentation of a live event
US6563532B1 (en) * 1999-01-05 2003-05-13 Internal Research Corporation Low attention recording unit for use by vigorously active recorder
US6466275B1 (en) * 1999-04-16 2002-10-15 Sportvision, Inc. Enhancing a video of an event at a remote location using data acquired at the event
EP1275247A2 (en) * 2000-03-31 2003-01-15 United Video Properties, Inc. Personal video recording system with home surveillance feed
US20020115047A1 (en) * 2001-02-16 2002-08-22 Golftec, Inc. Method and system for marking content for physical motion analysis
US6537076B2 (en) * 2001-02-16 2003-03-25 Golftec Enterprises Llc Method and system for presenting information for physical motion analysis
US20020170068A1 (en) * 2001-03-19 2002-11-14 Rafey Richter A. Virtual and condensed television programs
US7203693B2 (en) * 2001-06-12 2007-04-10 Lucent Technologies Inc. Instantly indexed databases for multimedia content analysis and retrieval
US20030033602A1 (en) * 2001-08-08 2003-02-13 Simon Gibbs Method and apparatus for automatic tagging and caching of highlights
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7492915B2 (en) * 2004-02-13 2009-02-17 Texas Instruments Incorporated Dynamic sound source and listener position based audio rendering
EP2408193A3 (en) * 2004-04-16 2014-01-15 James A. Aman Visible and non-visible light sensing camera for videoing and object tracking
DE102005008369A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Simulieren eines Wellenfeldsynthese-Systems
KR101088933B1 (ko) * 2005-02-25 2011-12-01 교세라 가부시키가이샤 통신 시스템
JP4669340B2 (ja) * 2005-07-28 2011-04-13 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP4683227B2 (ja) 2006-05-30 2011-05-18 日本電気株式会社 映像音声ファイルシステム
US8483410B2 (en) * 2006-12-01 2013-07-09 Lg Electronics Inc. Apparatus and method for inputting a command, method for displaying user interface of media signal, and apparatus for implementing the same, apparatus for processing mix signal and method thereof
KR101461958B1 (ko) * 2007-06-29 2014-11-14 엘지전자 주식회사 디지털 방송 시스템 및 데이터 처리 방법
JP4557035B2 (ja) * 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
CN101350931B (zh) 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
US20110052155A1 (en) * 2009-09-02 2011-03-03 Justin Desmarais Methods for producing low-cost, high-quality video excerpts using an automated sequence of camera switches
US8749609B2 (en) * 2009-09-03 2014-06-10 Samsung Electronics Co., Ltd. Apparatus, system and method for video call
US8370358B2 (en) * 2009-09-18 2013-02-05 Microsoft Corporation Tagging content with metadata pre-filtered by context
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9699431B2 (en) * 2010-02-10 2017-07-04 Satarii, Inc. Automatic tracking, recording, and teleprompting device using multimedia stream with video and digital slide
JP5555068B2 (ja) * 2010-06-16 2014-07-23 キヤノン株式会社 再生装置及びその制御方法及びプログラム
US9704393B2 (en) * 2011-01-11 2017-07-11 Videonetics Technology Private Limited Integrated intelligent server based system and method/systems adapted to facilitate fail-safe integration and/or optimized utilization of various sensory inputs
WO2012103649A1 (en) * 2011-01-31 2012-08-09 Cast Group Of Companies Inc. System and method for providing 3d sound
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
KR101958227B1 (ko) 2011-07-01 2019-03-14 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
US8867886B2 (en) * 2011-08-08 2014-10-21 Roy Feinson Surround video playback
US8917877B2 (en) * 2011-10-12 2014-12-23 Sony Corporation Distance-based rendering of media files
JP2013090016A (ja) 2011-10-13 2013-05-13 Sony Corp 送信装置、送信方法、受信装置および受信方法
US20130129304A1 (en) * 2011-11-22 2013-05-23 Roy Feinson Variable 3-d surround video playback with virtual panning and smooth transition
ES2571742T3 (es) 2012-04-05 2016-05-26 Huawei Tech Co Ltd Método de determinación de un parámetro de codificación para una señal de audio multicanal y un codificador de audio multicanal
US20140002580A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
US8929573B2 (en) * 2012-09-14 2015-01-06 Bose Corporation Powered headset accessory devices
KR20140102386A (ko) * 2013-02-13 2014-08-22 삼성전자주식회사 디스플레이장치 및 그 제어방법
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
CN106165402A (zh) * 2014-04-22 2016-11-23 索尼公司 信息再现装置、信息再现方法、信息记录装置和信息记录方法
US9693009B2 (en) * 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
US9930405B2 (en) * 2014-09-30 2018-03-27 Rovi Guides, Inc. Systems and methods for presenting user selected scenes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682745A (zh) * 2008-02-04 2010-03-24 索尼株式会社 视频信号传送装置、视频信号传送方法、视频信号接收装置和视频信号接收方法
CN102884804A (zh) * 2009-12-28 2013-01-16 达贝U株式会社 音频信号和视频信号的同步误差校正方法及装置
CN104023265A (zh) * 2013-03-01 2014-09-03 联想(北京)有限公司 一种音频信息流的切换方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Synchronization of Multiple Camera Videos Using Audio-Visual Features;Prarthana Shrestha,Mauro Barbieri,Hans Weda,and Dragan Sekulo;《IEEE TRANSACTIONS ON MULTIMEDIA》;20100131;第12卷(第1期);第79-92页 *
一种音频/视频延迟的自动校正方法;Tucker.T,戴延龄;《世界广播电视》;20010331;第15卷(第3期);第40-42页 *

Also Published As

Publication number Publication date
EP3226241A4 (en) 2018-06-20
KR20170088843A (ko) 2017-08-02
US10880597B2 (en) 2020-12-29
EP3226241B1 (en) 2022-08-17
CA2967249C (en) 2023-03-14
MX2017006581A (es) 2017-09-01
JPWO2016084592A1 (ja) 2017-09-07
CA2967249A1 (en) 2016-06-02
WO2016084592A1 (ja) 2016-06-02
CN107004419A (zh) 2017-08-01
JP6624068B2 (ja) 2019-12-25
KR102605480B1 (ko) 2023-11-24
US20180310049A1 (en) 2018-10-25
EP3226241A1 (en) 2017-10-04

Similar Documents

Publication Publication Date Title
CN107004419B (zh) 发送装置、发送方法、接收装置和接收方法
US11882320B2 (en) Transmission device, transmission method, reception device, reception method, display device, and display method
CN107148780B (zh) 发送装置、发送方法、接收装置和接收方法
CN105165001A (zh) 发送设备、发送方法、接收设备、以及接收方法
JP6834939B2 (ja) 送信装置、送信方法、受信装置および受信方法
CA2977204A1 (en) Photoelectric conversion of video data having a predetermined photoelectric conversion characteristic
CN111684823A (zh) 发送装置、发送方法、处理装置以及处理方法
US10904592B2 (en) Transmission apparatus, transmission method, image processing apparatus, image processing method, reception apparatus, and reception method
JP2021185715A (ja) 送信装置、送信方法、受信装置および受信方法
JP6969572B2 (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant