CN111903137A

CN111903137A - 基于用户的姿势混合音频

Info

Publication number: CN111903137A
Application number: CN201980022105.8A
Authority: CN
Inventors: 卢卡·普拉索
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-08
Filing date: 2019-05-06
Publication date: 2020-11-06
Anticipated expiration: 2039-05-06
Also published as: US11395089B2; EP3791597A1; CN111903137B; WO2019217320A1; US20200389754A1

Abstract

公开了一种用于利用用户的感测到的姿势来动态地控制音频轨道的混合以向用户提供诸如视频的虚拟环境的更现实、信息丰富和/或沉浸式的音频体验的系统、装置和方法。

Description

基于用户的姿势混合音频

相关申请的交叉引用

本申请要求于2018年5月8日提交的美国临时专利申请No.62/668,782的权益，其全部内容通过引用合并于此。

技术领域

本公开涉及音频混合，并且更具体地涉及根据用户与设备的交互来动态地混合在设备上播放的音频。

背景技术

计算设备(例如，智能手机、平板电脑、智能电视、膝上型电脑、虚拟助理等)可以由应用(即，app)配置以播放与虚拟环境相关联的音频。虚拟环境可以包括例如电影、导航或游戏环境。通过这些虚拟环境呈现的音频对于用户可能看起来缺乏沉浸式或交互性质量。

发明内容

在一个总体方面，本公开描述了一种用于混合音频的方法。在该方法中，接收包含未混合的音频轨道的媒体内容(例如，视频)。另外，从至少一个传感器接收信息(例如，用户的至少一个图像)。基于来自至少一个传感器的信息，然后确定用户的姿势并将其用作调整音频混合器的基础。将未混合的音频轨道应用于经调整的音频混合器，以创建用于媒体内容的混合音频，然后将其呈现给用户(例如，经由用户的设备)。

在可能的实施方式中，用户的姿势可以包括用户与用户的设备(例如，显示器)之间的相对方位或相对定向。可替代地或附加地，用户的姿势可以包括用户的表情或移动。

在一种可能的实现方式中，音频混合器可以包括用于每个未混合的音频轨道的音频通道，并且混合器的每个音频通道可以是可调整的以控制所应用的未混合的音频轨道的至少一个特性(即，在它们被合并成混合音频之前)。未混合的音频轨道的一种可能特性是音量。未混合的音频轨道的另一可能特性是频谱分布图(即，均衡器分布图、滤波器分布图)。

在可能的实施方式中，该方法被重复(即，连续地)，使得当播放媒体内容时媒体内容的混合音频(例如，实时地)对用户的姿势的变化进行响应(即，基于用户姿势的变化被更新)。

在另一方面，本公开描述了一种系统。该系统包括至少一个传感器，该传感器被配置成接收(例如，接收)与用户相对应的信息。该系统进一步包括处理器，该处理器通信地耦合到至少一个传感器并且被配置成(例如，通过软件指令)执行用于创建混合音频的方法。混合音频可以用于视频。在该方法中，未混合的音频轨道(可选地与视频相关联)被接收并将其应用于音频混合器以创建混合的音频。基于根据与至少一个传感器接收到的用户相对应的信息确定的姿势来调整音频混合器。

在可能的实施方式中，该系统进一步包括显示器和声音设备(例如，头戴式耳机、环绕声音系统、条形音箱等)，具有混合音频的视频被发送到该显示器和声音设备以呈现给用户。

可以以不同地实现至少一个传感器。在一种可能的实施方式中，至少一个传感器包括移动设备(例如，移动电话、平板电脑、膝上型计算机)的相机。在另一可能的实施方式中，至少一个传感器包括家庭安全系统的相机或智能家庭系统的相机(例如，虚拟助理)。在另一种可能的实现方式中，至少一个传感器包括用户穿戴的智能眼镜的相机。在另一种可能的实施方式中，至少一个传感器包括深度传感器(例如，结构化的光传感器、飞行时间传感器等)。

在另一方面，本公开描述了一种计算设备。该计算设备包括被耦合到声音系统(例如，头戴式耳机)的音频接口。该计算设备进一步包括显示器和被配置成捕获用户的至少一个图像的相机。该计算设备还包括处理器，该处理器通信地耦合到音频接口、显示器和相机。处理器被配置成(例如，通过软件指令)执行用于呈现具有根据用户的姿势混合的音频的视频的方法。在该方法中，接收与视频相关联的未混合的音频轨道。另外，从由相机捕获到的用户的至少一个图像确定用户的姿势。基于经确定的姿势，调整音频混合器。未混合的音频轨道将被应用于经调整的音频混合器以创建用于视频的混合音频。视频和混合音频被发送到显示器和声音系统。

姿势可以被不同地确定。在一种可能的实现方式中，确定用户的姿势包括确定用户与显示器之间的相对距离。在另一种可能的实现方式中，确定用户的姿势包括确定用户的注视相对于视频内的对象的方位的方位。

在下述的详细描述及其附图中进一步解释了本公开的前述说明性概述以及本公开的其他示例性目的和/或优点以及实现本公开的其他方式。

附图说明

图1是根据本公开的可能的实施方式的混合音频的框图。

图2描绘根据本公开的可能实施方式的与虚拟环境交互的用户。

图3示意性地描绘根据本公开的实施方式的用于基于用户的姿势来混合音频的系统。

图4以图形形式描绘根据本公开的一些可能的实施方式的用户的姿势的特性。

图5以图形形式描绘根据本公开的可能实施例的用户相对于虚拟环境中的声音发射器的感知定向。

图6A和图6B以图形形式图示根据本公开的实施方式的改变的姿势(即，用户的距离)对来自于虚拟环境中的第一对象和第二对象的音频轨道的混合的影响。

图7A和7B以图形方式图示根据本公开的实施方式的改变的姿势(即，用户的视线)对来自于虚拟环境中的第一对象和第二对象的音频轨道的混合的影响。

图8是根据本公开的实施方式的基于用户的姿势来混合音频的方法的流程图。

图9示出可以被用于实现这里描述的技术的计算机设备和移动计算机设备的示例。

在各个附图中，相似的附图标记指示相似的元件。

具体实施方式

媒体内容(例如，电视、电影和视频)通常被消费已经很多年了。导演可以拍摄/编辑视频场景并记录/混合音频，以创建媒体产品，取决于环境的不同，该媒体产品对于观看者可以是沉浸式的。对声音系统和用户将会观看媒体内容的屏幕的预知使创建者(例如，导演)可以定制音频的记录/混合以及视频的拍摄/编辑，以增强沉浸式体验。如果用户选择在不同的环境中或使用不同的设备观看内容，则可能会减弱预期的沉浸式体验。另外，现实性的程度可能受此过程所需的有关观看者的固有假设的限制。例如，媒体内容(即，媒体)可以与预混合的音频一起分发，仅当用户和音频系统处于预定的排列(诸如就坐的用户面对屏幕并被环绕声音系统中的扬声器环绕)时，其才提供最大程度的沉浸式体验。本公开描述通过基于用户(例如，用户的姿势)和用户的环境(例如，设备类型/布置)定制媒体的音频混合来增强用户消费媒体的体验的系统和方法。

图1是根据所公开技术的实施方式的用于混合音频的系统1的框图。如所示的，媒体源可以将包含未混合的音频轨道50的媒体内容提供给音频混合器20。媒体源10可以为多个用户服务。例如，媒体源可以是互联网上的视频服务器，或者可以是有线电视网络上的向不同用户提供相同的未混合音频的电视台。可替代地，媒体源可以服务于单个用户。例如，媒体源可以是计算机可读存储器(例如，硬盘驱动器、DVD等)。在任一种情况下，未混合的轨道50在音频混合器20处被接收。每个未混合的音频轨道可以代表在虚拟环境中以媒体内容表示的声源。例如，在具有两个扬声器的视频中，可以为每个扬声器包括未混合的音频轨道。

特定用户接收到的未混合的音频轨道可以由音频混合器20根据特定于用户的信息(即，用户信息40)进行(例如，实时)混合以产生混合音频60。音频混合器20可以包括用于每个未混合的音频轨道的通道(例如，CH1、CH2、CHn)，并且混合过程可以包括在将未混合的轨道50组合成混合音频60之前调整每个未混合的音频轨道的一个或多个特性(例如，音量、滤波、降噪等)。例如，每个通道可以有效地包括具有音量控制以调整特定未混合音频轨道的幅度的通道处理器21和用于调整特定未混合的音频轨道的频谱分布图的均衡器。在调整之后，可以将未混合的音频轨道50组合成混合音频60。混合音频包括来自媒体内容中的所有声源的轨道。可以以适于在特定声音系统上收听的各种格式(例如，立体声、环绕声等)来配置混合音频。

如所提及的，混合音频60组合未混合音频轨道50的经调整的(例如，放大、衰减、滤波等)版本。尽管多个用户可以从媒体源接收相同的未混合音频轨道50，每个用户的混合音频可以不同(即，定制的)。此外，针对每个用户的定制的音频混合不是静态的，并且可以在媒体内容的呈现期间改变。

在用户的设备(即，用户设备30)上将混合音频轨道60呈现给用户。用户设备可以包括用于呈现音频的设备(例如，声音系统、耳机、扬声器等)和用于呈现视频的设备(例如，显示器、投影仪、智能眼镜、VR头盔等)。在可能的实施方式中，关于用户设备30的信息可以被传递到音频混合器。例如，在一种可能的实现方式中，用户信息包括与用户设备30相对应的信息。

媒体源10、音频混合器20和用户设备30可以被体现为单个设备，或者可以构成多个设备。例如，媒体源10可以是在第一位置中操作的服务器，音频混合器20可以是在第二位置中的处理器上运行的软件，并且媒体显示器30可以是在第三位置中操作的显示器(例如，电视)。可替选地，媒体源10、音频混合器20和媒体显示器30可以体现在单个设备(例如，智能手机、平板电脑等)中，或者可以由在同一位置(例如，蓝牙^TM耦合的设备)中操作的多个设备(例如，平板电脑和耦合的耳机)体现。本公开预想基于用户信息40的一个或多个元素来实现音频(例如，音频数据)的定制混合的设备和过程的分布的任意组合。

用户信息40包括信息元素，以帮助音频混合器调整每个未混合音频轨道的特性(例如，音量、滤波等)，使得混合音频可以(i)提供更现实的和/或沉浸式音频体验和/或(ii)提供似乎由用户控制的方面。用户信息40可以包括用户的姿势。用户的姿势可以包括用户与向用户呈现媒体内容的可视部分的观看设备之间的相对方位和/或定向。姿势可以包含与用户的定向(例如，相对或绝对定向)和/或观看设备(例如，显示器)的定向相对应的信息。附加地或可替代地，姿势还可以包含与用户的移动(例如，手势)相对应的信息。附加地或可替代地，姿势可以包含与用户的表情(例如，注视)相对应的信息。姿势的全部或部分变化会导致音频混合的相应变化。

可以使用至少一个(即，一个或多个)传感器来确定用户的姿势。在一种可能的实施方式中，传感器可以具有确定姿势的处理器，而在另一种可能的实施方式中；传感器可以收集并发送原始姿势数据，以供外部处理器进行分析。在可能的实现方式中，传感器可以收集确定姿势所需要的所有数据，而在另一种可能的实现方式中；多个传感器可以均收集确定姿势所需要的一部分数据。在另一种可能的实施方式中，一个或多个传感器还可以包括重复的传感器(例如，间隔开的)。

一个或多个传感器可以包括远程传感器。远程传感器从远处观察用户和/或用户设备。在可能的实施方式中，远程传感器可以是相机(例如，RGB相机、IR相机)或深度传感器(例如，结构化光传感器、飞行时间传感器、LIDAR等)。另外地或可替代地，一个或多个传感器可以包括连续的传感器。连续的传感器在与用户接触(例如，被携带)时观察用户和/或用户设备。在可能的实施方式中，连续的传感器可以包括方位传感器(例如，X、Y和/或Z加速度计、GPS传感器等)。

一个或多个传感器可以与用户集成(例如，由用户穿戴)、与用户的设备集成或两者。例如，电视或移动设备(例如，平板电脑、智能手机等)的前置摄像头可以被用于感测用户的姿势。可替代地或附加地，一个或多个传感器可以与另一设备或系统，诸如智能家居系统的虚拟助理或其他设备(例如，智能恒温器、智能冰箱、安全摄像机等)集成(或组合)在一起。例如，家庭安全系统中的监视房间的相机可以感测用户相对于用户设备(例如，电视、扬声器等)的姿势。在另一个示例中，身体穿戴的设备(例如，智能眼镜)可以确定用户相对于用户的设备的姿势。

确定用户相对于显示设备的姿势可以帮助为所显示的虚拟环境(即，视频)创建沉浸式音频体验。在显示的虚拟环境中，各种声源在空间上排列。一旦已知相对于显示设备的用户的姿势，就可以推导用户相对于视频中声源的虚拟位置。然后可以使用该空间信息来混合音频。例如，如果用户非常靠近显示器上的声源，则混合器可以放大该声源的轨道，并衰减所有其他轨道的音量。这种混合可能会给虚拟环境带来一种真实感。在一些情况下，混合还可以有助于对虚拟环境的控制感。例如，用户的姿势(例如，从显示设备走开)可以控制音频(例如，将其关闭)。

媒体中呈现的虚拟环境可以包括由在计算设备上运行的应用产生的音频和视觉呈现。可能的应用可能包括但不限于导航、视频观看、虚拟助理、增强现实和游戏的应用。由应用创建的声音以特定的方式呈现给用户，以创建现实的、信息丰富的、以及沉浸式的体验。例如，背景声音的强度可能低于前景声音的强度。产生音频以向用户提供虚拟环境的现实的印象被称为空间混合。但是，当音频的空间混合是静态的并且不响应用户的姿势时，由空间混合产生的现实的印象可能会受到限制。因此，本公开涉及与虚拟环境相关联的音频的空间混合，该虚拟环境基于用户的姿势被动态地控制以通过产生更现实的、信息丰富的和沉浸式的音频体验来增强用户的音频体验。尽管描述了单个用户，但是可以预想，本公开可以被应用于多个用户。另外，尽管描述与视频相对应的虚拟环境，但是可以预想，本公开可以被应用于其他虚拟环境(例如，虚拟现实、增强现实)。

图2以图形形式描绘与虚拟环境交互的用户。如所示的，用户100可以经由计算设备200上的显示器230观看虚拟环境的视觉方面。用户还可以经由声音设备110听到来自虚拟环境的声音。声音设备可以体现为耳机、耳塞、扬声器等。声音设备通常需要两个或更多个声音产生元件，以向用户提供空间上混合的(例如，立体声、环绕声等)音频，以向用户提供声音从虚拟环境内的位置发出的感觉。例如，来自显示器左侧的对象(例如，虚拟演员、人物角色、大气元素等)的音频可以以与被呈现给用户的右耳的音频不同的幅度和/或定时呈现给用户的左耳。在一些情况下，来自未出现在屏幕上的对象的音频(即，背景声音)也可以呈现给用户。例如，用户可能会体验到似乎从用户背后传出的声音。

空间(音频)混合调整音频的幅度、定时和/或频率以提供这种三维体验。可以经由硬件和/或软件体现的音频混合器来实现空间混合，该音频混合器可以根据虚拟环境来调整与音频(例如，多个通道上的音频)相关联的质量。所公开的音频混合器另外对与用户的姿势以及用户在虚拟环境内的所产生的定向相对应的反馈(即，用户信息)进行响应，以基于用户的姿势来提供动态空间混合。

图3示意性地描绘图1中所示的用于混合音频的系统的实施方式。该系统可以包括计算设备200(例如，智能手机、平板电脑、虚拟助理、智能电视、计算机、膝上型计算机等)。计算设备200可以包括处理器240和存储器260。处理器240可以由存储在存储器260中的软件应用来配置，以运行向显示器230提供虚拟环境的视觉方面并向音频接口210提供虚拟环境的音频方面的应用，反之，其可以(例如，有线或无线地)连接到声音系统的声音设备110。计算设备200还可以包括一个或多个传感器220(例如，相机、深度传感器等)，其捕获与用户100(当用户观看显示器时)的姿势(例如，头部方位、眼睛方位等)相对应的信息(例如，图像、视频、深度信息等)。该系统还可以包括一个或多个传感器221，这些传感器221与计算设备200物理上分离(但通信地耦合到该计算设备200)以感测和收集用户信息。该系统还可以包括由用户拥有(例如，穿戴、携带)以感测和收集用户信息的一个或多个传感器222。

该系统还包括处理音频(即，在空间上混合音频)以创建三维(3D)效果的音频混合器250。音频混合器250可以基于对虚拟环境的变化(例如，电影中的动作)动态地(例如，实时地)调整音频的空间混合。另外，本公开公开一种音频混合器250，其基于来自一个或多个传感器220的输入(即，反馈)动态地调整音频的混合(例如，空间混合)。例如，用户在传感器的视野223内的姿势(或移动)可以被感测(例如，成像)以调整呈现给用户的声音的空间混合。该系统可以连接到网络201，可以从该网络201接收媒体内容，并且可以与该网络201交互以执行音频混合的一个或多个操作。

图4以图形形式图示可由处理器240确定(例如，基于由传感器捕获的一个或多个图像)的示例姿势特性。如所示的，用户100的姿势可以由用户头部的方位来确定。例如，头部可以围绕竖直轴线300向左或向右340转动。头部也可以相对于竖直轴线300向左或向右330倾斜。头部也可以围绕水平轴线310向上或向下320点头。另外，可以通过分析由相机捕获的一个或多个图像来检测用户的眼睛的方位340。当用户更加靠近或远离相机时，用户头部的表观尺寸可能会改变。用户与计算设备之间的这种距离变化也可以被处理器解释为姿势的变化。

在可能的实施方式中，可以基于检测到的关于所显示的虚拟环境的眼睛的方位来确定显示器的区域，该区域是用户的关注焦点。因此，可以调整空间混合以改变(例如，增大音量)与虚拟环境内的该焦点区域相对应的对象的声音(即，音频轨道)。

通常，本公开不限于图4中所示的姿势。处理器可以识别其他姿势和/或姿势的变化以调整音频的空间混合。另外，可以预想，处理器可以被配置成基于由作为用于调整空间混合的装置的相机捕获到的图像来识别用户的环境(例如，夜晚/白天、内部/外部等)。另外，音频混合器还可以使用计算设备的其他传感器来调整空间混合。例如，可以感测在导航环境中的用户的地理位置，并将其用于调整空间混合(例如，在用户的左侧呈现左转音频指示)。

图5以图形方式描绘根据用户的姿势以及所产生的相对于音频虚拟环境的所感知的定向的动态空间混合的示例。在音频虚拟环境中，用户100感知虚拟前声源410、虚拟左声源420、虚拟右声源430和虚拟后声源440。在静态空间混合中，呈现给用户的声音的空间混合独立于用户的姿势。如果用户移动，音频虚拟环境将保持不变。替代地，所公开的技术针对动态空间混合。

在动态空间混合中，确定音频虚拟环境内的用户的姿势(例如，定向)并将其用于生成/更新声音的空间混合。例如，如果处理器确定包括朝向460虚拟前声源410的移动的姿势变化，则音频混合器可以增大虚拟前声源410的幅度，同时减小其他声源的幅度。在另一示例中，如果处理器确定包括用户的头部被转动450以面对虚拟右声源430的姿势变化，则音频混合器可以改变虚拟声源的空间定向以匹配新姿势。例如，如图4中所示，在头部转动450之后，可以通过音频混合器将虚拟的前/后声源调整为似乎是从用户的左/右传出。

图6A和6B以图形方式图示示例，该示例包括用户姿势的变化对来自在计算设备200上显示给用户100的虚拟环境中的第一对象510和第二对象520的空间混合的音频信号的影响。在这样的情况下，用户的姿势与用户100与计算设备200之间的距离有关，或更具体地，与用户100与虚拟环境内的对象之间的距离有关。

如图6A中所示，用户位于距计算设备的第一距离500处。第一距离500相对较大。结果，用户100与第一对象510之间以及用户100与第二对象520之间的距离的相对差较小。因此，来自虚拟环境的音频可以在空间上被混合，使得来自第一对象510的第一音频信号511以大约与来自第二对象520的第二音频信号521相同的幅度被声音设备110发送。

如图6B中所示，用户位于距计算设备的第二距离501处，该第二距离501小于第一距离500(即，更加靠近)。在这种情况下，用户100与第一对象510之间以及在用户100与第二对象520之间的距离的相对差更为显著。因此，来自虚拟环境的音频可以在空间上被混合，使得来自第一对象的第一音频信号512由声音设备110以高于来自第二对象的第二音频信号522的幅度发送。

图7A和7B以图形方式图示示例，该示例包括用户姿势的变化对来自在计算设备200上显示给用户100的虚拟环境中的第一对象510和第二对象520的空间混合的音频信号的影响。在这样的情况下，相对于虚拟环境内的第一对象510和第二对象520的空间方位，用户的姿势与用户的眼睛的方位(即，用户的注视)有关。

如图7A中所示，用户的注视指向第一对象510。通过检测相对于虚拟环境内的第一对象510的空间方位的用户的眼睛方位，可以确定用户100正在看着第一对象510。因此，来自虚拟环境的音频可以在空间上被混合，使得来自第一对象510的第一音频信号610以比来自第二对象520的第二音频信号620更大的幅度被声音设备110发送。

如图7B中所示，用户的注视已经改变并且用户现在正在看着第二对象520。在这种情况下，来自虚拟环境的音频可以在空间上被混合，使得来自第二对象621的第二音频信号621以比来自第一对象的第一音频信号611更高的幅度被声音设备110发送。

图8是图示用于基于用户的姿势在空间上混合音频的方法700的流程图。该方法包括从监视用户的一个或多个传感器接收710与用户的姿势(例如，头部姿势)相对应的信息。然后基于该信息来确定720用户的姿势(或姿势的变化)。根据所确定的姿势并且根据对虚拟环境的知识760，可以确定730用户在虚拟环境内的虚拟定向。基于所确定的定向，可以将未混合的音频轨道745在空间上混合740并呈现750给用户。该过程700可以实时发生，以根据改变中的虚拟环境和/或用户在虚拟环境内的改变中的用户的定向来动态地改变空间混合。

图9是可以与本文描述的技术一起使用的计算机设备2000和移动计算机设备2050的示例。计算设备2000包括处理器2002、存储器2004、存储设备2006、连接到存储器2004和高速扩展端口2010的高速接口2008，以及连接到低速总线2014和存储设备2006的低速接口2012。部件2002、2004、2006、2008、2010和2012中的每一个都使用各种总线互连，并且可以被安装在通用主板上或视情况以其他方式安装。处理器2002可以处理用于在计算设备2000内执行的指令，包括存储在存储器2004或存储设备2006中的指令以在外部输入/输出设备(诸如耦合到高速接口2008的显示器2016)上显示用于GUI的图形信息。在其他实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和存储器类型。而且，可以连接多个计算设备2000，每个设备提供部分必要的操作(例如，作为服务器库、一组刀片式服务器或多处理器系统)。

存储器2004存储在计算设备2000内的信息。在一种实施方式中，存储器2004是一个或多个易失性存储单元。在另一种实施方式中，存储器2004是一个或多个非易失性存储单元。存储器2004也可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备2006能够为计算设备2000提供大容量存储。在一种实施方式中，存储设备2006可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储设备、或设备的阵列，包括存储区域网络或其他配置中的设备。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含在被执行时执行一种或多种如上所述的方法的指令。信息载体是计算机可读介质或机器可读介质，诸如存储器2004、存储设备2006或处理器2002上的存储器。

高速控制器2008管理计算设备2000的带宽密集型操作，而低速控制器2012管理较低带宽密集型操作。这种功能分配仅是示例性的。在一种实施方式中，高速控制器2008被耦合到存储器2004、显示器2016(例如，通过图形处理器或加速器)，并且被耦合到可以接受各种扩展卡(未示出)的高速扩展端口2010。在实施方式中，低速控制器2012被耦合到存储设备2006和低速扩展端口2014。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、指向设备、扫描仪或诸如交换机或路由器的联网设备。

如图所示，可以以多种不同的形式实现计算设备2000。例如，它可以被实现为标准服务器2020，或者被多次实现在一组这种服务器中。它也可以被实现为机架服务器系统2024的一部分。此外，它还可以在诸如膝上型计算机2022的个人计算机中实现。替代地，来自计算设备2000的部件可以与移动设备(未示出)中的其他部件进行组合，诸如设备2050。每个这种设备可以包含一个或多个计算设备2000、2050，并且整个系统可以由彼此通信的多个计算设备2000、2050组成。

除其他部件之外，计算设备2050包括处理器2052、存储器2064、诸如显示器2054的输入/输出设备、通信接口2066和收发器2068。还可以向设备2050提供存储设备，诸如微驱动器或其他设备，以提供附加的存储。部件2050、2052、2064、2054、2066和2068中的每个部件均使用各种总线互连，并且多个部件可以被安装在通用主板上或视情况以其他方式安装。

处理器2052可以执行计算设备2050内的指令，包括存储在存储器2064中的指令。处理器可以被实现为包括单独的以及多个模拟和数字处理器的芯片的芯片组。例如，处理器可以提供设备2050的其他部件的协调，诸如用户界面的控制、设备2050运行的应用程序以及设备2050的无线通信。

处理器2052可以通过控制接口2058和耦合到显示器2054的显示器接口2056与用户进行通信。例如，显示器2054可以是TFT LCD(薄膜晶体管液晶显示器)或者OLED(有机发光二极管)显示器，或其他适当的显示技术。显示器接口2056可以包括用于驱动显示器2054向用户呈现图形和其他信息的适当电路。控制接口2058可以从用户接收命令并且将其转换以提交给处理器2052。此外，可以提供与处理器2052通信的外部接口2062，以实现设备2050与其他设备的近区通信。例如，外部接口2062可以在一些实施方式中提供有线通信，或者在其他实施方式中提供无线通信，并且还可以使用多个接口。

存储器2064存储在计算设备2050内的信息。存储器2064可以被实现为一个或多个计算机可读介质、一个或多个易失性存储单元或者一个或多个非易失性存储单元中的一种或多种。还可以提供扩展存储器2074并且通过扩展接口2072将其连接到设备2050，例如，扩展接口2072可以包括SIMM(单列直插存储器模块)卡接口。这种扩展存储器2074可以为设备2050提供额外的存储空间，或者也可以为设备2050存储应用程序或其他信息。具体地，扩展存储器2074可以包括用于执行或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器2074可以被提供为用于设备2050的安全模块，并且可以用允许安全使用设备2050的指令进行编程。此外，可以经由SIMM卡，诸如以不可入侵的方式将识别信息放置在SIMM卡上来提供安全应用以及附加信息。

例如，存储器可以包括闪存和/或NVRAM存储器，如下所述。在一种实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含在被执行时执行一种或多种如上所述的方法的指令。信息载体是诸如存储器2064、扩展存储器2074或处理器2052上的存储器的计算机可读介质或机器可读介质，例如，其可以通过收发器2068或外部接口2062被接收。

设备2050可以通过在必要时可以包括数字信号处理电路的通信接口2066进行无线通信。通信接口2066可以提供各种模式或协议下的通信，诸如GSM语音呼叫、SMS、EMS或MMS消息传递、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。例如，这种通信可以通过射频收发器2068而发生。此外，可以进行短程通信，诸如使用蓝牙、Wi-Fi或其他这种收发器(未示出)。此外，GPS(全球定位系统)接收器模块2070可以向设备2050提供附加的导航和与位置有关的无线数据，其可以被设备2050上运行的应用程序适当地使用。

设备2050还可以使用可以从用户接收语音信息并将其转换为可用的数字信息的音频编解码器2060在听觉上进行通信。音频编解码器2060可以同样地为用户生成可听声音，诸如通过扬声器，例如在设备2050的听筒中。这种声音可以包括来自语音电话呼叫的声音，可以包括录制的声音(例如，语音消息、音乐文件等)，并且还可以包括由在设备2050上运行的应用程序生成的声音。

如图所示，计算设备2050可以以多种不同的形式实现。例如，它可以实现为蜂窝电话2080。它也可以被实现为智能电话2082、个人数字助理或其他类似的移动设备的一部分。

可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现本文描述的系统和技术的各种实施方式。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式，该程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用的或通用的，其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且被耦合以向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任意计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任意信号。

为了提供与用户的互动，本文描述的系统和技术可以在具有显示器设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以向用户显示信息以及具有用户可以通过其向计算机提供输入的键盘和指向设备(例如鼠标或轨迹球)的计算机上实现。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

本文描述的系统和技术可以在包括后端部件(例如，作为数据服务器)，或包括中间件部件(例如，应用服务器)或包括前端部件(例如，具有用户可以通过其与本文描述的系统和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机)，或这种后端、中间件或前端部件的任意组合的计算系统中实现。系统的部件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生的。

在一些实施方式中，图8中描绘的计算设备可以包括与虚拟现实(VR头戴式耳机/HMD设备2090)对接的传感器。例如，包括在图8中描绘的计算设备2050或其他计算设备上的一个或多个传感器，可以向VR头戴式耳机2090提供输入，或者通常，可以向VR空间提供输入。传感器可以包括但不限于触摸屏、加速度计、陀螺仪、压力传感器、生物特征传感器、温度传感器、湿度传感器和环境光传感器。计算设备2050可以使用传感器确定VR空间中计算设备的绝对方位和/或检测到的旋转，然后可以将其用作VR空间的输入。例如，计算设备2050可以作为诸如控制器、激光指示器、键盘、武器等的虚拟对象被并入VR空间。当用户将计算设备/虚拟对象并入VR空间时其位置可以允许用户定位计算设备以便以某种方式在VR空间中观看虚拟对象。例如，如果虚拟对象表示激光指示器，用户可以像实际的激光指示器一样操纵计算设备。用户可以左右、上下、圆圈等方式移动计算设备并且以与使用激光指示器类似的方式使用设备。

在一些实施方式中，包括在或连接到计算设备2050上的一个或多个输入设备可以被用作VR空间的输入。输入设备可以包括但不限于触摸屏、键盘、一个或多个按钮、轨迹板、触摸板、指向设备、鼠标、轨迹球、操纵杆、相机、麦克风、耳机或具有输入功能的耳塞、游戏控制器或其他可连接的输入设备。当计算设备被合并到VR空间中时，与计算设备2050上包括的输入设备进行交互的用户会使特定动作在VR空间中发生。

在一些实施方式中，计算设备2050的触摸屏可以被渲染为VR空间中的触摸板。用户可以与计算设备2050的触摸屏进行交互。例如，在VR头戴式耳机2090中，将交互渲染为在VR空间中所渲染的触摸板上的移动。所渲染的移动可以控制VR空间中的虚拟对象。

在一些实施方式中，计算设备2050上包括的一个或多个输出设备可以向VR空间中的VR头戴式耳机2090的用户提供输出和/或反馈。输出和反馈可以是视觉的、触觉的或音频的。输出和/或反馈可以包括但不限于振动、一个或多个灯或频闪灯的打开及关闭或闪烁和/或闪光、发出警报、播放铃声、播放歌曲以及播放音频文件。输出设备可以包括但不限于振动马达、振动线圈、压电设备、静电设备、发光二极管(LED)、频闪灯和扬声器。

在一些实施方式中，计算设备2050可以表现为在计算机生成的3D环境中的另一个对象。用户与计算设备2050的交互(例如，旋转、摇动、触摸触摸屏、在触摸屏上滑动手指)可以被解释为与VR空间中的对象的交互。在VR空间中的激光指示器的示例中，计算设备2050表现为在计算机生成的3D环境中的虚拟激光指示器。当用户操纵计算设备2050时，VR空间中的用户看到激光指示器的移动。用户在计算设备2050或VR头戴式耳机2090上的VR环境中从与计算设备2050的交互中接收反馈。

在一些实施方式中，计算设备2050可以包括触摸屏。例如，用户可以以可以用VR空间中发生的事情模仿触摸屏上发生的事情的特定方式与触摸屏进行交互。例如，用户可以使用捏合型运动来缩放在触摸屏上显示的内容。触摸屏上的这种捏合型运动可以导致VR空间中提供的信息被缩放。在另一示例中，计算设备可以在计算机生成的3D环境中被渲染为虚拟书。在VR空间中，可以在VR空间中显示书的页面，并且用户的手指跨触摸屏上的轻扫可以解释为转动/翻转虚拟书的页面。当转动/翻转每个页面时，除了看到页面内容变化之外，还可以向用户提供音频反馈，诸如书中翻页的声音。

在一些实施方式中，除了计算设备之外，还可以在计算机生成的3D环境中渲染一个或多个输入设备(例如，鼠标，键盘)。渲染的输入设备(例如，渲染的鼠标、渲染的键盘)可以在VR空间中渲染时使用，以控制VR空间中的对象。

计算设备2000旨在表示各种形式的数字计算机和设备，包括但不限于膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备2050旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。本文所示的部件，它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制本文中描述和/或要求保护的发明的实施方式。

已经描述了多个实施例。然而，将理解的是在不脱离本说明书的精神和范围的情况下可以进行各种修改。

此外，附图中描绘的逻辑流程不需要所示的特定顺序、或连续顺序来实现期望的结果。此外，可以从所述的流程中提供其他步骤或者去除步骤，并且可以向所描述的系统中添加其他部件或从中移除其他部件。因此，其他实施例在所附权利要求的范围内。

Claims

1.一种方法，包括：

接收包含未混合的音频轨道的媒体内容；

从至少一个传感器接收信息；

基于来自所述至少一个传感器的所述信息来确定用户的姿势；

基于所述确定的姿势来调整音频混合器；

将所述未混合的音频轨道应用于经调整的音频混合器，以创建用于所述媒体内容的混合音频；以及

向所述用户呈现所述媒体内容，所述媒体内容包括所述混合音频。

2.根据权利要求1所述的方法，其中，所述媒体内容是视频。

3.根据权利要求1或权利要求2所述的方法，其中，所述音频混合器包括用于每个未混合的音频轨道的音频通道，所述混合器的每个音频通道可调整以控制所应用的未混合的音频轨道的至少一个特性。

4.根据权利要求3所述的方法，其中，所述至少一个特性包括所应用的音频轨道的音量或频谱分布图。

5.根据前述权利要求中的任一项所述的方法，其中，来自所述至少一个传感器的所述信息包括所述用户的至少一个图像。

6.根据前述权利要求中的任一项所述的方法，其中，所述用户的姿势包括所述用户与所述用户的设备之间的相对方位或相对定向。

7.根据权利要求6所述的方法，其中，所述用户的设备是显示器。

8.根据前述权利要求中的任一项所述的方法，其中，所述用户的姿势包括所述用户的表情或移动。

9.根据前述权利要求中的任一项所述的方法，进一步包括：

重复所述确定、所述调整、所述应用和所述呈现，使得所述媒体内容的混合音频在播放所述媒体内容时对所述用户的姿势的变化进行响应。

10.一种用于混合音频的系统，包括：

至少一个传感器，所述至少一个传感器被配置成接收与用户相对应的信息；和

处理器，所述处理器通信地耦合到所述至少一个传感器，所述处理器被配置成：

接收与视频相关联的未混合的音频轨道，

根据与所述用户相对应的信息确定姿势，

基于所确定的姿势来调整音频混合器，并且

将所述未混合的音频轨道应用于经调整的音频混合器，以创建用于所述视频的混合音频。

11.根据权利要求10所述的系统，其中，所述处理器进一步被配置成将具有所述混合音频的所述视频发送到所述系统的显示器和声音设备。

12.根据权利要求11所述的系统，其中，所述声音设备是头戴式耳机。

13.根据权利要求11或12所述的系统，其中，所述用户的姿势包括所述用户与所述显示器之间的相对方位或相对定向。

14.根据权利要求10至13中的任一项所述的系统，其中，所述至少一个传感器包括移动设备的相机。

15.根据权利要求10至14中的任一项所述的系统，其中，所述至少一个传感器包括家庭安全系统的相机或智能家庭系统的相机。

16.根据权利要求10至15中的任一项所述的系统，其中，所述至少一个传感器包括由所述用户佩戴的智能眼镜的相机。

17.根据权利要求10至16中的任一项所述的系统，其中，所述至少一个传感器包括深度传感器。

18.一种计算设备，包括：

音频接口，所述音频接口被耦合到声音系统；

显示器；

相机，所述相机被配置成捕获用户的至少一个图像；以及

处理器，所述处理器通信地耦合到所述音频接口、所述显示器和所述相机，所述处理器配置成：

接收与视频相关联的未混合的音频轨道，

根据所述用户的至少一个图像确定所述用户的姿势，

基于所确定的姿势来调整音频混合器，

将所述未混合的音频轨道应用于经调整的音频混合器，以创建用于所述视频的混合音频，以及

将所述视频发送到所述显示器，并且将所述混合音频发送到所述声音系统。

19.根据权利要求18所述的计算设备，其中，根据所述用户的至少一个图像确定所述用户的姿势包括：确定所述用户与所述显示器之间的相对距离。

20.根据权利要求18或权利要求19所述的计算设备，其中，根据所述用户的至少一个图像确定所述用户的姿势包括：确定所述用户的注视相对于所述视频内的物体的方位的方位。

21.一种系统，包括一个或多个处理器，所述一个或多个处理器被配置成执行根据权利要求1至9中的任一项所述的方法。

22.一种计算机程序产品，包括计算机可执行指令，当所述程序由一个或多个处理器执行时，所述计算机可执行指令使所述一个或多个处理器执行根据权利要求1至9中的任一项所述的方法。