CN118216163A - 基于扩音器取向的渲染 - Google Patents
基于扩音器取向的渲染 Download PDFInfo
- Publication number
- CN118216163A CN118216163A CN202280074149.7A CN202280074149A CN118216163A CN 118216163 A CN118216163 A CN 118216163A CN 202280074149 A CN202280074149 A CN 202280074149A CN 118216163 A CN118216163 A CN 118216163A
- Authority
- CN
- China
- Prior art keywords
- loudspeaker
- audio
- loudspeakers
- examples
- orientation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Stereophonic System (AREA)
Abstract
一种音频处理方法可以涉及接收音频信号和相关联的空间数据、收听者位置数据、扩音器位置数据和扩音器取向数据,并且至少部分地基于所述空间数据、所述收听者位置数据、所述扩音器位置数据和所述扩音器取向数据来渲染音频数据以进行再现,从而产生经渲染的音频信号。所述渲染可以涉及至少部分地基于增大的扩音器取向角来应用倾向于减少扩音器的相对激活的扩音器取向因子。在一些示例中,所述渲染可以涉及至少部分地基于扩音器重要性指标来修改所述扩音器取向因子的效果。所述扩音器重要性指标可以对应于扩音器对在音频信号的预期感知空间位置处渲染所述音频信号的重要性。
Description
相关申请的交叉引用
本申请要求于2021年11月9日提交的美国临时申请第63/277,225号、于2022年5月6日提交的美国临时申请第63/364,322号和于2022年5月10日提交的欧洲申请第22172447.9号的优先权,所述申请中的每个申请通过引用整体并入本文。
技术领域
本公开涉及用于渲染音频数据以在音频设备上回放的设备、系统和方法。
背景技术
音频设备,包括但不限于智能音频设备,已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
符号和术语
在整个本公开中,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
在整个本公开中,包括在权利要求中,在广义上使用“对(on)”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。
在整个本公开中,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,子系统生成M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
在整个本公开中,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)成对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
贯穿本公开,包括在权利要求中,术语“耦接(couples)”或“耦接(coupled)”用于意指直接或间接连接。因此,如果第一设备耦接到第二设备,则该连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。
如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。一些著名的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出如人工智能等普适计算的一些性质的设备。
在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(TV))。例如,尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代TV运行某种操作系统,应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说,具有扬声器和麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述扬声器和麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在一定区或用户配置区域上播放音频。
一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备,尽管虚拟助理功能的其他方面可以由如一个或多个服务器等一个或多个其他设备来实施,多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,所述星座可以由一个主应用程序管理,所述主应用程序可以是(或实施)虚拟助理。
在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置成响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在这种背景下,“唤醒”表示设备进入等待(换句话说,正在收听)声音命令的状态。在一些实例中,本文中所谓的“唤醒词”可以包括多于一个词,例如,短语。
在本文中,表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或表示包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值,就会触发唤醒词事件。例如,所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在所述状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。
如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,所述信号集合的至少部分是旨在要一起听到的。示例包括音乐、电影原声、电影、电视节目、电视节目的音频部分、播客、现场语音呼叫、来自智能助手的合成语音响应等的精选。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(例如,与单一语言相对应的版本)。
发明内容
本公开的至少一些方面可以经由一种或多种音频处理方法来实施。在一些实例中,该方法可以至少部分地由控制系统和/或经由存储在一个或多个非暂态介质上的指令(例如,软件)来实施。一些这样的方法可以涉及由控制系统并且经由接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据。所述空间数据可以指示与所述一个或多个音频信号中的音频信号相对应的预期感知空间位置。例如,所述预期感知空间位置可以对应于基于声道的音频格式的声道。替代性地或另外地,所述预期感知空间位置可以对应于位置元数据,例如,对应于基于对象的音频格式的位置元数据。
在一些示例中,所述方法可以涉及由所述控制系统并且经由所述接口系统接收收听者位置数据,所述收听者位置数据指示与音频环境中的人相对应的收听者位置。根据一些示例,所述方法可以涉及由所述控制系统并且经由所述接口系统接收扩音器位置数据,所述扩音器位置数据指示所述音频环境中的多个扩音器中的每个扩音器的位置。在一些示例中,所述方法可以涉及由所述控制系统并且经由所述接口系统接收扩音器取向数据。在一些这样的示例中,所述扩音器取向数据可以指示(a)所述音频环境中的所述多个扩音器中的每个扩音器的最大声辐射的方向与(b)所述收听者位置之间的扩音器取向角。在一些这样的示例中,收听者位置可以是相对于对应扩音器的位置。根据一些示例,特定扩音器的扩音器取向角可以是以下两者之间的角度:(a)所述特定扩音器的最大声辐射的方向与(b)所述特定扩音器的位置与所述收听者位置之间的线。
根据一些示例,所述方法可以涉及由所述控制系统渲染所述音频数据,以至少经由所述音频环境中的所述多个扩音器的子集进行再现,从而产生经渲染的音频信号。在一些示例中,所述渲染可以至少部分地基于所述空间数据、所述收听者位置数据、所述扩音器位置数据和所述扩音器取向数据。在一些示例中,所述渲染可以涉及至少部分地基于增大的扩音器取向角来应用倾向于减少扩音器的相对激活的扩音器取向因子。
在一些示例中,所述方法可以涉及经由所述接口系统至少向所述音频环境中的所述多个扩音器的扩音器子集提供所述经渲染的音频信号。
根据一些示例,所述方法可以涉及至少估计所述扩音器子集的扩音器重要性指标。例如,所述方法可以涉及估计所述扩音器子集中的每个扩音器的扩音器重要性指标。在一些示例中,所述扩音器重要性指标可以对应于扩音器对在音频信号的预期感知空间位置处渲染所述音频信号的重要性。根据一些示例,每个扩音器的渲染可以至少部分地基于所述扩音器重要性指标。在一些示例中,每个扩音器的渲染可以涉及至少部分地基于所述扩音器重要性指标来修改所述扩音器取向因子的效果。根据一些示例,每个扩音器的渲染可以涉及至少部分地基于增加的扩音器重要性指标来减少所述扩音器取向因子的效果。
在一些示例中,所述方法可以涉及确定扩音器取向角是否等于或超过阈值扩音器取向角。根据一些示例,所述音频处理方法可以涉及仅当所述扩音器取向角等于或超过所述阈值扩音器取向角时才应用所述扩音器取向因子。在一些示例中,所述扩音器重要性指标可以至少部分地基于符合条件的扩音器与(a)与所述符合条件的扩音器具有最短顺时针角距离的第一扩音器和(b)与所述符合条件的扩音器具有最短逆时针角距离的第二扩音器之间的线之间的距离。在一些这样的示例中,符合条件的扩音器可以是扩音器取向角等于或超过所述阈值扩音器取向角的扩音器。在一些实例中,所述第一扩音器和所述第二扩音器可以是扩音器取向角小于所述阈值扩音器取向角的不符合条件的扩音器。
根据一些示例,所述渲染可以涉及通过优化成本来确定至少所述扩音器子集的相对激活,所述成本是以下各项的函数:当在所述音频环境中的所述扩音器子集上回放时,所述一个或多个音频信号中的音频信号的感知空间位置的模型;所述音频信号的预期感知空间位置与所述扩音器子集中的每个扩音器的位置的接近度的度量;以及一个或多个附加动态可配置功能。在一些这样的示例中,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于所述扩音器取向因子。根据一些这样的示例,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于所述扩音器重要性指标。在一些这样的示例中,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于从所述音频环境中的每个扩音器到所述音频环境中的其他扩音器的声学传输的测量或估计。
一些公开的实施方式的各方面包括一种被配置(例如,被编程)为执行一种或多种所公开的方法或其步骤的控制系统,以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如,磁盘或其他有形存储介质),所述有形非暂态计算机可读介质存储了用于执行一种或多种所公开的方法或其步骤的代码(例如,可执行以执行一种或多种所公开的方法或其步骤的代码)。例如,一些公开的实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器,所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种,包括一种或多种所公开的方法或其步骤。这种通用处理器可以是或者包括计算机系统,所述计算机系统包括输入设备、存储器和处理子系统,所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行一种或多种所公开的方法(或其步骤)。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,可以在其上存储有软件的非暂态介质中实施本公开中所描述的主题的一些创新方面。
在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。
图2示出了音频环境的示例。
图3示出了音频环境的另一示例。
图4示出了定位在单位圆的圆周上的扩音器的示例。
图5示出了图4的扩音器布置,其中,通过弦将扩音器位置连接起来。
图6示出了图5的扩音器布置,其中,省略了一个弦。
图7示出了定位在单位圆的圆周上的扩音器的替代示例。
图8和图9示出了定位在单位圆的圆周上的扩音器的替代示例。
图10和图11分别示出了本公开的等式6和7,其中,标识了每个等式的元素。
图12A和图12B是与本公开的等式6相对应的图。
图13A和图13B是与本公开的等式7相对应的图。
图13C是图示了基于扩音器取向和重要性指标的惩罚函数的一个示例的图。
图14是概述所公开的方法的示例的流程图。
图15和图16是图示了一组示例扬声器激活和对象渲染位置的图。
图17是概述了可以由如图1中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。
图18是示例实施例中的扬声器激活的图。
图19是示例实施例中的对象渲染位置的图。
图20是示例实施例中的扬声器激活的图。
图21是示例实施例中的对象渲染位置的图。
图22是示例实施例中的扬声器激活的图。
图23是示例实施例中的对象渲染位置的图。
具体实施方式
在消费者环境中回放空间音频通常与放置在指定位置的指定数量的扩音器有关。一些示例包括杜比5.1和杜比7.1环绕声。最近,引入了沉浸式、基于对象的空间音频格式,如Dolby AtmosTM,所述空间音频格式打破了音频内容与特定扩音器位置之间的这种关联。相反,内容可以被描述为单独音频对象的集合,每个音频对象可以具有相关联的时变元数据,如用于描述所述音频对象在三维空间中的期望感知位置的位置元数据。在回放时间,内容由适配回放系统中扩音器数量和位置的渲染器转换为扩音器馈送。然而,许多这样的渲染器仍将一组扩音器的位置限制为一组指定布局中的一个(例如,采用杜比全景声的杜比3.1.2、杜比5.1.2、杜比7.1.4、杜比9.1.6等)。
最近开发了“灵活渲染”方法,所述方法允许通过放置在任意位置处的任意数量的扩音器灵活地渲染基于对象的音频以及传统的基于声道的音频。这些方法通常要求渲染器了解收听空间中扩音器的数量和物理位置。为了使这种系统对普通消费者实用,期望用于定位扩音器的自动化方法。因此,最近开发了用于自动定位扩音器在收听空间(其在本文中也可以称为“音频环境”)内的位置的方法。本文提供了灵活渲染和自动音频设备定位的详细示例。
在消费者空间引入基于对象的空间音频的同时,所谓的“智能扬声器”,如AmazonEchoTM系列产品也在迅速普及。这些设备大受欢迎的原因可以归因于其通过无线连接和集成语音接口(例如,亚马逊的AlexaTM)提供的简单性和便利性,但是这些设备的声音能力通常是有限的,特别是在空间音频方面。在大多数情况下,这些设备仅限于单声道或立体声回放。然而,将上述灵活渲染和自动定位技术与多个编排的智能扬声器相结合,可以产生具有非常复杂的空间回放功能的系统,并且对于消费者来说设置起来仍然非常简单。消费者可以根据需要在方便的任何地方放置任意数量的扬声器,由于无线连接而无需铺设扬声器线缆,并且内置麦克风可以用于为相关联的灵活渲染器自动定位扬声器。
上述灵活渲染方法考虑了扩音器相对于收听位置或区域的位置,但它们未考虑扩音器相对于收听位置或区域的取向。通常,这些方法将扬声器建模为直接朝向收听位置辐射,但实际上可能并非如此。扩音器取向的指向越背离预期收听位置,几种声学性质就可能改变得越多,其中,两种最为显著。首先,在收听位置听到的总体均衡可能会改变,其中,由于大多数扩音器在更高的频率下表现出更高程度的方向性,高频通常会下降。第二,在收听位置处的直达声与反射声的比率可能减小,因为更多的声能被引导背离收听位置并在最终被听到之前与房间相互作用。
鉴于扩音器取向的潜在影响,一些公开的实施方式可以涉及以下各项中的一项或多项:
●对于扩音器的任何给定位置,扩音器的激活可以随着扩音器的取向更加背离收听位置而减少;以及
●以上减少的程度可以根据扩音器对在任何音频信号的期望感知空间位置处渲染所述音频信号的重要性的度量来降低。
下文描述了详细的示例。
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样,图1中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置150可以被配置用于执行本文公开的方法中的至少一些方法。在一些实施方式中,装置150可以是或者可以包括音频系统的一个或多个部件。例如,在一些实施方式中,装置150可以是音频设备,如智能音频设备。在其他示例中,示例、装置150可以是移动设备(如蜂窝电话)、膝上型计算机、平板计算机设备、电视、车辆或其部件、或另一类型的设备。
根据一些替代性实施方式,装置150可以是或者可以包括服务器。在一些这样的示例中,装置150可以是或者可以包括编码器。因此,在一些实例中,装置150可以是被配置用于在音频环境内使用的设备,然而在其他实例中,装置150可以是被配置用于在“云”中使用的设备,例如,服务器。
在该示例中,装置150包括接口系统155和控制系统160。在一些实施方式中,接口系统155可以被配置用于与音频环境中的一个或多个其他设备进行通信。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一种类型的环境,如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中,接口系统155可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中,控制信息和相关联的数据可以与装置150正执行的一个或多个软件应用程序有关。
在一些实施方式中,接口系统155可以被配置用于接收内容流、提供内容流、或接收和提供内容流。内容流可以包括音频数据。音频数据可以包括但可以不限于音频信号。在一些实例中,音频数据可以包括如声道数据和/或空间元数据等空间数据。例如,元数据可以由本文中可以被称为“编码器”的设备提供。在一些示例中,内容流可以包括视频数据和与视频数据相对应的音频数据。
接口系统155可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统155可以包括一个或多个无线接口。接口系统155可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扩音器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统155可以包括控制系统160与存储器系统(如图1中示出的可选存储器系统165)之间的一个或多个接口。然而,在一些实例中,控制系统160可以包括存储器系统。在一些实施方式中,接口系统155可以被配置用于从环境中的一个或多个麦克风接收输入。
例如,控制系统160可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。
在一些实施方式中,控制系统160可以驻留在多于一个设备中。例如,在一些实施方式中,控制系统160的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统160的另一部分可以驻留在环境之外的设备中,如服务器、移动设备(例如,智能电话或平板电脑)等。在其他示例中,控制系统160的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统160的另一部分可以驻留在环境的一个或多个其他设备中。例如,控制系统的功能可以跨环境的多个智能音频设备分布,或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在其他示例中,控制系统160的一部分可以驻留在实施基于云的服务的设备(如服务器)中,并且控制系统160的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中,接口系统155还可以驻留在多于一个设备中。
在一些实施方式中,控制系统160可以被配置用于至少部分地执行本文公开的方法。根据一些示例,控制系统160可以被配置为经由接口系统155接收音频数据、收听者位置数据、扩音器位置数据和扩音器取向数据。音频数据可以包括一个或多个音频信号以及相关联的空间数据,所述空间数据指示与音频信号相对应的预期感知空间位置。收听者位置数据可以指示与音频环境中的人相对应的收听者位置。扩音器位置数据可以指示音频环境中的多个扩音器中的每个扩音器的位置。扩音器取向数据可以指示(a)音频环境中的所述多个扩音器中的每个扩音器的最大声辐射的方向与(b)相对于对应扩音器的收听者位置之间的扩音器取向角。
在一些这样的示例中,控制系统160可以被配置为渲染音频数据,以至少经由音频环境中的所述多个扩音器的子集进行再现,从而产生经渲染的音频信号。根据一些这样的示例,渲染可以至少部分地基于空间数据、收听者位置数据、扩音器位置数据和扩音器取向数据。在一些这样的示例中,渲染可以涉及至少部分地基于增大的扩音器取向角来应用倾向于减少扩音器的相对激活的扩音器取向因子。
在一些示例中,控制系统160可以被配置为至少估计扩音器子集的扩音器重要性指标。扩音器重要性指标可以对应于扩音器对在音频信号的预期感知空间位置处渲染所述音频信号的重要性。在一些这样的示例中,每个扩音器的渲染可以至少部分地基于扩音器重要性指标。
本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如驻留在图1中所示的可选存储器系统165和/或控制系统160中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如,所述软件可以包括用于控制至少一个设备执行本文公开的一些或所有方法的指令。例如,软件可以由如图1的控制系统160等控制系统的一个或多个部件执行。
在一些示例中,装置150可以包括图1中示出的可选麦克风系统170。可选麦克风系统170可以包括一个或多个麦克风。根据一些示例,可选麦克风系统170可以包括麦克风阵列。在一些示例中,控制系统160可以被配置为例如根据来自麦克风阵列的信号来确定到达方向(DOA)和/或到达时间(TOA)信息。在一些实例中,麦克风阵列可以被配置用于例如根据来自控制系统160的指令来进行接收侧波束成形。在一些实施方式中,一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中,装置150可以不包括麦克风系统170。然而,在一些这样的实施方式中,装置150仍然可以被配置成经由接口系统160接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中,装置150的基于云的实施方式可以被配置成经由接口系统160从音频环境中的一个或多个麦克风接收麦克风数据或与麦克风数据相对应的数据。
根据一些实施方式,装置150可以包括图1中示出的可选扩音器系统175。可选扩音器系统175可以包括一个或多个扩音器,所述扩音器在本文中也可以被称为“扬声器”,或更通常地被称为“音频再现换能器”。在一些示例(例如,基于云的实施方式)中,装置150可以不包括扩音器系统175。
在一些实施方式中,装置150可以包括图1中示出的可选传感器系统180。可选传感器系统180可以包括一个或多个触摸传感器、手势传感器、运动检测器等。根据一些实施方式,可选传感器系统180可以包括一个或多个相机。在一些实施方式中,相机可以是独立式相机。在一些示例中,可选传感器系统180的一个或多个相机可以驻留在智能音频设备中,在一些示例中,所述智能音频设备可以被配置为至少部分地实施虚拟助理。在一些这样的示例中,可选传感器系统180的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中,装置150可以不包括传感器系统180。然而,在一些这样的实施方式中,装置150仍然可以被配置成经由接口系统160接收音频环境中的一个或多个传感器的传感器数据。
在一些实施方式中,装置150可以包括图1中示出的可选显示系统185。可选显示系统185可以包括一个或多个显示器,如一个或多个发光二极管(LED)显示器。在一些实例中,可选显示系统185可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中,可选显示系统185可以包括智能音频设备的一个或多个显示器。在其他示例中,可选显示系统185可以包括电视显示器、膝上型计算机显示器、移动设备显示器、或另一种类型的显示器。在装置150包括显示系统185的一些示例中,传感器系统180可以包括接近显示系统185的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式,控制系统160可以被配置用于控制显示系统185来呈现一个或多个图形用户界面(GUI)。
根据一些这样的示例,装置150可以是或者可以包括智能音频设备。在一些这样的实施方式中,装置150可以是或者可以包括唤醒词检测器。例如,装置150可以是或者可以包括虚拟助理。
前面提及的先前实施的灵活渲染方法考虑了扩音器相对于收听位置或区域的位置,但它们未考虑扩音器相对于收听位置或区域的取向。通常,这些方法将扬声器建模为直接朝向收听位置辐射,但实际上可能并非如此。与大多数扩音器相关联的是声能最大限度地辐射的方向,并且理想地,该方向指向收听位置或区域。对于在外壳中安装有单个扩音器驱动器的简单设备,安装扩音器的外壳一侧将被视为设备的“正面”,并且理想地,设备被定向成使得该正面面向收听位置或区域。更复杂的设备可以包含相对于设备指向不同方向的多个单独可寻址的扩音器。在这种情况下,当设置设备相对于收听位置或区域的总体取向时,可以考虑每个单独扩音器相对于收听位置或区域的取向。另外地,设备可以包含具有非零仰角(例如,从设备向上定向)的扬声器;可以简单地在三维而不是二维中考虑这些扬声器相对于收听位置的取向。
图2示出了音频环境的示例。图2描绘了扩音器相对于收听位置或区域的取向的示例。图2表示音频环境的俯视图,其中,收听位置由收听者205的头部表示。与本文提供的其他图一样,图2中示出的元素的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素、不同布置的元素等。
根据该示例,音频环境200包括音频设备210A、210B和210C。在一些示例中,音频设备210A-210C可以是图1的装置150的实例。在该示例中,音频设备210A包括单个扩音器L1,并且音频设备210B包括单个扩音器L2,而音频设备210C包含三个单独的扩音器L3、L4和L5。从每个扩音器向外指向的箭头表示与每个扩音器相关联的最大声辐射的方向。对于各自包含单个扩音器的音频设备210A和210B,这些箭头可以被视为设备的“正面”。对于音频设备210C,扩音器L3、L4和L5可以分别被认为是正面扬声器、左扬声器和右扬声器。因此,与L3相关联的箭头可以被视为音频设备210C的正面。
取决于特定的实施方式,可以以各种方式来表示每个扩音器的取向。在该示例中,每个扩音器的取向由扩音器的最大辐射方向与将其相关联设备连接到收听位置的线之间的角度来表示。该取向角可以在-180度与180度之间变化,其中,0度指示扩音器直接指向收听位置,并且-180度或180度指示扩音器的指向完全背离收听位置。L1的取向角(由图中的值q1表示)接近于零,这表明扩音器L1几乎直接朝向收听位置定向。另一方面,q2接近180度,这意味着扩音器L2几乎直接背离收听位置定向。在音频设备210C中,q3和q4具有相对较小的值(其绝对值小于90度),这表明L3和L4基本上朝向收听位置定向。然而,q5具有相对较大的值(其绝对值大于90度),这表明L5基本上背离收听位置定向。可以根据各种技术(包括但不限于本文公开的技术)来确定或至少估计一组扩音器的位置和取向。
如上所述,扩音器取向的指向越背离预期收听位置,几种声学性质就可能改变得越多,其中,两种声学性质最为突出。首先,在收听位置听到的总体均衡可能会改变,其中,高频通常会降低,因为大多数扩音器在更高的频率下具有更高程度的方向性。第二,在收听位置处的直达声与反射声的比率可能减小,因为相对更多的声能被引导背离收听位置,并在最终被听到之前与音频环境中的墙壁、地板、物体等相互作用。第一个问题通常可以通过均衡在一定程度上得到缓解,但第二个问题不能。
当出于空间再现的目的将背离预期收听位置指向的扩音器与其他扩音器组合时,该第二个问题可能特别成问题。空间混合的元素在其期望位置处的成像通常在有助于该成像的扩音器在收听位置处都具有相对较高的直达与反射比率时被最好地实现。如果特定扩音器由于所述扩音器背离收听位置定向而未如此,则成像可能会变得不准确或“模糊”。在一些示例中,将该扩音器排除在渲染过程之外以改进成像可能是有益的。然而,在一些实例中,将这样的扩音器排除在渲染过程之外对整体空间渲染造成的损害可能甚至比将所述扩音器包括在渲染过程中更大。例如,如果扩音器的指向背离收听位置,但它是收听位置左侧的唯一扩音器,则可能最好是将该扩音器保留作为渲染的一部分,而不是由于其被排除而使整个空间混合向收听位置右侧塌陷。
一些公开的示例涉及对渲染系统的这种选择进行导航,在所述渲染系统中,扩音器的位置和取向都是相对于收听位置指定的。例如,一些公开的示例涉及在一组两个或更多个扩音器上渲染一组一个或多个音频信号,每个音频信号具有相关联的期望感知空间位置。在一些这样的示例中,将一组扩音器中的每个扩音器的位置和取向(例如,相对于期望的收听位置或区域)提供给渲染器。根据一些这样的示例,每个扩音器的相对激活可以作为所述一个或多个音频信号的期望感知空间位置以及扩音器的位置和取向的函数来计算。在一些这样的示例中,对于扩音器的任何给定位置,扩音器的激活可以随着扩音器的取向更加背离收听位置而减少。根据一些这样的示例,这种减少的程度本身可以根据扩音器对在任何音频信号的期望感知空间位置处渲染所述音频信号的重要性的度量来降低。
图3示出了音频环境的另一示例。根据该示例,音频环境200包括图2的音频设备210A、210B和210C、以及附加的音频设备210D。在一些示例中,音频设备210D可以是图1的装置150的实例。在该示例中,音频设备210D包括单个扩音器L6。从扩音器L6向外指向的箭头表示与扩音器L6相关联的最大声辐射的方向,并且指示q6接近180度,这意味着扩音器L6几乎直接背离对应于收听者205的收听位置定向。
图3还示出了将本公开的一方面应用于音频设备210A-210D的示例。将本公开的该方面应用于每个扩音器所产生的行为的总结如下:
L1:取向角q1较小(在该示例中,小于30度),并且因此该扩音器被充分使用(打开)。
L2:取向角q2较大(在该示例中,接近180度),并且因此本公开的一些方面将指示该扩音器应被完全或基本上禁用(关闭)。然而,在该示例中,该扩音器对空间渲染的重要性的度量是高的,因为L2是在收听者之后的唯一扩音器。结果,在该示例中,扩音器L2未被惩罚,而是被完全启用(打开)。
L3:取向角q3相对较小(在该示例中,小于60度),并且因此该扩音器被充分使用(打开)。
L4:取向角q4相对较小(在该示例中,小于60度),并且因此该扩音器被充分使用(打开)。
L5:取向角q5相对较大(在该示例中,介于130度与150度之间),并且因此本公开的一些方面将指示该扩音器应被完全(或至少部分地)禁用。此外,在该示例中,该扩音器对空间渲染的重要性的度量是低的,因为在相同的外壳中存在紧邻的基本上指向收听位置的其他扩音器L3和L4。结果,在该示例中,扩音器L5被完全禁用(关闭)。
L6:取向角q6相对较大(在该示例中,接近180度),并且因此本公开的一些方面将指示该扩音器应被完全或至少部分地禁用。根据该示例,扩音器对空间渲染的重要性的度量相对较低,因为在不同的外壳中存在相对较近的基本上指向收听位置的其他扩音器L3和L4。结果,在该示例中,扩音器L6被完全禁用(关闭)。
以下段落公开了一种可以实现参考图3所述的结果的实施方式。下面详细描述一种灵活的渲染系统,所述渲染系统将渲染问题视为成本函数最小化之一,其中,成本函数包括两个项。第一项将实现期望的空间印象的接近程度建模为扬声器激活的函数,并且第二项分配用于激活扬声器的成本。在一些示例中,该第二项的一个目的是创建稀疏解决方案,其中,仅激活与正在渲染的音频的期望空间位置非常接近的扬声器。根据一些示例,成本函数包括用于该激活惩罚的一个或多个附加动态可配置项,从而允许响应于各种可能的控制来修改空间渲染。
在一些方面,该成本函数可以由以下等式表示:
下面详细阐述等式1的推导。在该示例中,集合表示一组M个扩音器中的每个扩音器的位置,表示音频信号的期望感知空间位置,并且g表示扬声器激活的M维矢量。成本函数的第一项由Cspatial表示,并且第二项被划分为Cproximity以及表示附加成本的项之和。这些附加成本中的每一个都可以作为通用集合的函数来计算,其中,表示正在被渲染的音频信号的一个或多个性质的集合,表示正在通过其渲染音频的扬声器的一个或多个性质的集合,并且表示一个或多个附加外部输入。换句话说,每个项返回成本作为与音频信号、扬声器和/或外部输入的一个或多个性质的组合相关的激活g的函数。应该注意,集合至少包含来自或中的任何一个的一个元素。
在一些示例中,本公开的一个或多个方面可以通过引入一个或多个附加成本项Cj来实施,所述附加成本项是表示音频环境中扩音器的性质的的函数。根据一些这样的示例,可以将成本作为每个扬声器相对于收听位置的位置和取向的函数来计算。
在一些这样的示例中,等式1的一般成本函数可以表示为矩阵二次型,如下所示:
C(g)=g*Ag+Bg+C+g*Dg+∑jg*Wjg=g*(A+D+∑jWj)g+Bg+C (2)
下面详细阐述等式2的推导。在一些示例中,附加成本项各自可以通过扬声器惩罚项的对角矩阵来参数化,例如如下所示:
本公开的一些方面可以通过将这些扬声器惩罚项wij的集合作为每个扬声器i的位置和取向的函数来计算而实施。根据一些示例,可以根据每个扩音器的能力(例如,根据每个扩音器精确地再现低频的能力)在跨频率的不同扩音器子集上计算惩罚项。
以下讨论假设在该实例中每个扩音器i相对于收听位置的位置和取向是已知的。下面阐述了确定或至少估计每个扩音器i的位置和取向的一些详细示例。一些先前公开的灵活渲染方法已经考虑了每个扩音器相对于收听位置的位置。本公开的一些灵活渲染方法还包括扩音器相对于收听位置的取向以及扩音器相对于彼此的位置。扩音器取向在本公开中已经被参数化为取向角θi。扩音器相对于彼此的位置可以反映由于扬声器的惩罚引入的对空间渲染的损害的可能性,并在本文中被参数化为αi,其在本文中也可以简称为α。因此,α在本文中可以被称为“扩音器重要性指标”。
根据一些公开的示例,扩音器名义上可以分为两类,即“符合条件”和“不符合条件”,意指根据扩音器取向符合或不符合进行惩罚的条件。在一些这样的示例中,对扩音器是符合条件还是不符合条件的确定可以至少部分地基于扩音器的取向角θi。在一些这样的示例中,对扩音器是符合条件还是不符合条件的确定可以至少部分地基于扩音器的取向角θi是否等于或超过取向角阈值Tθ。在一些这样的示例中,如果扩音器满足条件|θi|>Tθ,则扩音器根据扩音器取向符合进行惩罚的条件;否则,扩音器不符合条件。在一个示例中,取向角阈值弧度(110度)。然而,在其他示例中,取向角阈值Tθ可以大于或小于110度,例如,可以为100度、105度、115度、120度等。根据一些示例,可以相对于不符合条件或定向良好的扩音器的位置来考虑每个符合条件的扬声器的位置。在一些这样的示例中,对于符合条件的扩音器i,可以在一组不符合条件的扩音器中识别出与i具有最短顺时针和逆时针角距离φ1和φ2的扩音器i1和i2。在一些这样的示例中,扬声器之间的角距离可以通过将扩音器位置投射到单位圆上来确定,其中,收听位置在单位圆的中心处。
为了概括潜在的损害,在一些示例中,可以将扩音器重要性指标α设计为φ1和φ2的函数。在一些示例中,扩音器i的扩音器重要性指标αi对应于从扩音器i到连接扩音器i1和i1(其是与扩音器i相邻的两个扩音器)的线的单位垂直距离。以下是一个这样的示例,其中,扩音器重要性指标α被表示为φ1和φ2的函数。
图4示出了定位在单位圆的圆周上的扩音器的示例。在该示例中,扩音器i、i1和i2被定位在圆400的圆周上,其中,扩音器i被定位在扩音器i1与扩音器i2之间。根据该示例,圆400的中心405对应于收听者位置。在该示例中,扩音器i与扩音器i1之间的角距离为φ1,扩音器i与扩音器i2之间的角距离为φ2,并且扩音器i1与扩音器i2之间的角距离为φ2。圆包含2π弧度,因此φ1+φ2+φ3=2π。
图5示出了图4的扩音器布置,其中,通过弦将扩音器位置连接起来。在该示例中,弦C1连接扩音器i和扩音器i1,弦C2连接扩音器i和扩音器i2,并且弦C3连接扩音器i1和扩音器i2。根据定义,单位圆上跨角度φN的弦长CN可以表示为CN=sin(φN/2)。
内三角形505a、505b和505c中的每一个是分别具有中心角φ1、φ2和φ3的等腰三角形。任意内三角形也将是等腰的,并且具有中心角φn。三角形的内角和为π弧度。因此,任意内三角形的剩余全等角中的每一个是(π-φn)弧度的一半。一个这样的角度ξn=(π-φn/2在图5中示出。
图6示出了图5的扩音器布置,其中,省略了一个弦。在该示例中,为了更好地图示三角形605,省略了图5的弦C2,所述三角形包括垂直于弦C3并从弦C3延伸到扩音器i的边α。根据该示例,三角形605的内角a可以表示为a=ξ1+ξ2。
正弦定律定义了三角形的内角a、b和c与和每个内角相对的边的长度α、β和γ之间的关系,如下所示:
在三角形605的示例中,正弦定律指示:因此,α=C1sin a=C1sin(ξ1+ξ2)=sin(φ2/2)sin(ξ1+ξ2)。然而,因此,扩音器重要性指标α可以表示如下:
在一些实施方式中,φ1或φ2可以大于π弧度。在这样的实例中,如果α根据等式4进行计算,则α将投影到圆外。在一些这样的示例中,等式4可以被修改为α=
其是由于惩罚对应扩音器而引入的能量误差的更佳表示。
在一些示例中,如果φ1=φ2,则α可以被计算为因为当φ1和φ2相似时,该函数连续拟合到等式4中。
对于图4、图5和图6所示的扩音器布局,根据一些实施方式,无论扩音器i的扩音器取向角如何,扩音器i都不会关闭(并且在一些示例中,不会减少扩音器i的相对激活)。这是因为扩音器i与连接扩音器i1和i2的线之间的距离太大,并且因此扩音器i的对应扩音器重要性指标太大。
图7示出了定位在单位圆的圆周上的扩音器的替代示例。在该示例中,与图4、图5和图6中所示的位置相比,扩音器i、i1和i2定位在圆400的圆周上的不同位置:这里,扩音器i、i1和i2都定位在圆400的同一半中。然而,扩音器i仍定位在扩音器i1与扩音器i2之间,扩音器i与扩音器i1之间的角距离仍为φ1,扩音器i与扩音器i2之间的角距离仍为φ2,并且扩音器i1与扩音器i2之间的角距离仍为φ2。此外,关系仍然成立。可以看出,与图6相比,扩音器i与连接扩音器i1和i2的线路705之间的距离明显较小,并且因此扩音器i的对应扩音器重要性指标αi明显较小。因此,根据一些实施方式,如果扩音器取向角θi等于或超过取向角阈值Tθ,则可以关闭扩音器i,或者至少可以减少扩音器i的相对激活。
图8和图9示出了定位在单位圆的圆周上的扩音器的替代示例。在该示例中,扩音器L1、L2和L3都定位在圆400的同一半中。然而,扩音器L4定位在圆400的另一半中。从扩音器L1-L4中的每一个向外指向的箭头指示每个扩音器的最大声辐射的方向,并且因此指示每个扩音器的扩音器取向角θ。图8和图9还示出了由扩音器L1-L4形成的扩音器的凸包805。
如前所述,正在被评估的扩音器将被称为扩音器i,并且与正在被评估的扩音器相邻的扩音器将被称为扩音器i1和i2。因此,在图8中,扩音器L3被指定为扩音器i,扩音器L1被指定为扩音器i1,并且扩音器L2被指定为扩音器i2。在图8中,扩音器重要性指标αi指示扩音器L3对在音频信号的预期感知空间位置处渲染音频信号的相对重要性。在该示例中,与扩音器L3相对应的扩音器重要性指标αi远小于例如图6中与扩音器i相对应的扩音器重要性指标α。由于与扩音器L3相对应的扩音器重要性指标αi相对较小,由于惩罚扩音器L3(例如,由于具有等于或超过取向角阈值Tθ的扩音器取向角θ)引入的空间损害可能是可接受的。
在图9中,扩音器L2被指定为扩音器i,扩音器L3被指定为扩音器i1,并且扩音器L4被指定为扩音器i2。这里,扩音器重要性指标αi指示扩音器L2对在音频信号的预期感知空间位置处渲染音频信号的相对重要性。在该示例中,与扩音器L2相对应的扩音器重要性指标αi大于图8中与扩音器L3相对应的扩音器重要性指标αi。即使与扩音器L2相对应的扩音器重要性指标αi远小于图6的与扩音器i相对应的扩音器重要性指标α,但在一些实施方式中,由于惩罚扩音器L2(例如,由于具有等于或超过取向角阈值Tθ的扩音器取向角θ)引入的空间损害也可能是不可接受的。
在一些示例中,扩音器重要性指标αi可以对应于上述空间成本系统的特定行为。当目标音频对象位置位于扩音器的凸包805之外时,根据一些示例,具有最小可能误差的解决方案将音频对象放置在扬声器的凸包上。在一些这样的示例中,如果扩音器i被惩罚到其被停用的程度,则连接扩音器i1和i2的线将是扩音器的凸包805的一部分,并且因此该线将成为最小误差解决方案的一部分。例如,参考图8,如果扩音器L3被停用,则扩音器的凸包805将包括线810,而不是扩音器L1、L3和L2之间的弦。参考图9,如果扩音器L2被停用,则扩音器的凸包805将包括线815,而不是扩音器L3、L2和L4之间的弦。可以很容易地看出,扩音器重要性指标αi与由于停用对应扩音器而导致的扩音器的凸包805的尺寸减小直接相关:从所讨论的扬声器到连接相邻扩音器的线的垂直距离是在对该扩音器进行和不进行停用惩罚的解决方案之间的最大分歧点。至少出于这些原因,扩音器重要性指标αv是用于表示在惩罚扬声器时引入的空间损害的可能性的合适指标。
根据一些示例,对于基于扩音器的取向角符合进行惩罚的条件的每个该扩音器,可以计算扩音器重要性指标αi。αi的值越大,误差的可能性就越大。这在图8和图9中得到了证明:图8中的αi小于图9中的αi,并且因此,图8中的由于停用对应扩音器而引起的扩音器的凸包805明显大于图9,并且可用于音频对象平移的空间也是如此。因此,图8中由于惩罚i引入的空间损害可能是可接受的,而图9中由于惩罚i引入的空间损害可能是不可接受的。为此目的,可以为αi确定重要性指标阈值Tα。在一些这样的示例中,如果对于扩音器i,αi<Tα并且|θi|>Tθ,则可以计算(例如,根据等式3)惩罚wij,并将所述惩罚作为扩音器取向角的函数应用于扩音器。根据一些示例,重要性指标阈值Tα可以在0.1至0.35的范围内,例如,可以为0.1、0.15、0.2、0.25、0.30或0.35。在其他示例中,可以将重要性指标阈值Tα设置为更高或更低的值。
取决于成本函数优化中惩罚的相对量值,任何特定的惩罚都可以被设计为引发绝对或渐进的行为。在渲染器成本函数的情况下,足够大的惩罚将完全排除或禁用扩音器,而较小的惩罚可以使扩音器轻声而不使其静音。反正切函数tan-1x是惩罚的一种有利函数形式,因为它可以被操纵以反映这种行为。tan-1(x→±∞)实际上是阶跃函数或开关,而tan-1(x→0)实际上是线性斜坡。中间范围产生中间行为。因此,选择关于x=0的反正切范围作为惩罚的函数形式使得能够以显著的水平控制系统行为。
例如,等式3的惩罚wij通常可以被构建为αi和θi分别的单位反正切函数与精确惩罚行为的缩放因子η的乘积。等式5提供了一个这样的示例:
wij(θi,αi)=ηxy=η·fα[tan-1(αi,Tα)]·fθ[tan-1(θi,TΘ)] (5)
在一些示例中,x和y都∈[0,1]。可以构建特定的缩放因子和相应的反正切函数,以确保扩音器i被精确地和逐渐地停用,使其不能用作θi和αi的函数。在一些示例中,等
式5的反正切函数x和y可以被构建如下,在这些示例中缩放因子η=5.0:
在等式6和7中,“r”表示反正切函数调谐因子,所述因子对应于正被采样的反正切函数的一半范围。对于r=1,正被采样的反正切函数的总输出空间的长度为2。图10和图11分别示出了本公开的等式6和7,其中,标识了每个等式的元素。在这些示例中,元素1010a和1010b是分别根据阈值Tθ和Tα缩放的输入变量。根据这些示例,元素1015a和1015b允许输入变量在期望的反正切域上展开。根据这些示例,元素1020a和1020b使输入变量移位,使得中心根据需要与反正切函数对齐,例如使得x以0为中心。在这些示例中,元素1025a、1025b和1025c将等式6和7的输出缩放到[0,1]的范围内。元素1025d通过最大分子输入对函数输出进行归一化。
图12A和图12B是与本公开的等式6相对应的图。图13A和图13B是与本公开的等式7相对应的图。图12A和图13A是长度为2r的域的反正切区段。图12B和图13B分别对应于在应用惩罚且在[0,1]的范围内的输入变量的域上分别根据等式6和7进行变换的与图12A和图13A相同的反正切曲线段。
图12A至图13B图示了使反正切函数成为惩罚的有利函数形式的特征。在图12A和图12B的示例中,r=1,因此正被采样的反正切函数的总输出空间的长度为2。在这些曲线的中间部分(例如,从-0.5到0.5),函数近似于线性斜坡。在图13A和图13B的示例中,r=2,因此正被采样的反正切函数的总输出空间的长度为4。在这些示例中,显示的反正切函数的相对较小的部分近似于线性斜坡。对于在1.5至3的范围内的值,函数中的变化比对于接近零的值小得多。因此,使用反正切作为惩罚的函数形式、以及选择期望的r值使得能够以显著的水平控制系统行为。
图13C是图示了基于扩音器取向和重要性指标的惩罚函数的一个示例的图。在该示例中,图1300示出了等式5的惩罚函数wij(θi,αi)的示例。根据该示例,针对Tθ<|θi|≤π和0≤αi<Tα定义了惩罚函数wij(θi,αi)。前一种条件要求扩音器充分背离收听位置定向,而后一种条件要求扬声器充分靠近其他扬声器,使得空间图像不会因其停用或激活减少而受损。如果满足这些条件,则对扬声器i应用惩罚wij将通过灵活的渲染增强对音频对象的成像。对于图13中αi的任何特定值,惩罚wij的值随着|θi|从Tθ增加到π而增加。因此,扬声器i的激活随着其取向更加背离收听位置而减少。另外地,对于|θi|的任何固定值,惩罚wij随着αi从0增加到Tα而减少。这意味着扬声器i的激活减少的量随着重要性指标αi的增加而变小,所述重要性指标是扩音器对空间渲染的重要性的度量。
图14是概述所公开的方法的示例的流程图。在一些示例中,方法1400可以由如图1所示的装置等装置来执行。在一些示例中,方法1400可以由编排设备的控制系统来执行,所述编排设备在一些实例中可以是音频设备。与本文描述的其他方法一样,不必以所指示的顺序来执行方法1400的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。
在该示例中,框1405涉及由控制系统并且经由接口系统接收音频数据。根据该示例,音频数据包括一个或多个音频信号和相关联的空间数据。在该示例中,空间数据指示与所述一个或多个音频信号中的音频信号相对应的预期感知空间位置。在一些这样的示例中,空间数据可以是或者可以包括元数据。根据一些示例,元数据可以对应于音频对象。在一些这样的示例中,音频信号可以对应于音频对象。在一些实例中,音频数据可以是音频信号的内容流的一部分,并且在一些情况下,可以是视频信号的内容流的一部分,所述信号的至少部分是旨在要一起听到的。示例包括音乐、电影原声、电影、电视节目、电视节目的音频部分、播客、现场语音呼叫、来自智能助手的合成语音响应等的精选。在一些示例中,音频数据可以例如经由无线通信从另一装置接收。在其他实例中,可以从包括控制系统的同一装置的存储器接收或取得音频数据。
根据该示例,框1410涉及由控制系统并且经由接口系统接收收听者位置数据。在该示例中,收听者位置数据指示与音频环境中的人相对应的收听者位置。在一些实例中,收听者位置数据可以指示收听者的头部的位置。在一些实施方式中,框1410或方法1400的另一个框可以涉及接收收听者取向数据。本文公开了估计收听者位置和取向的各种方法。
在该示例中,框1415涉及由控制系统并且经由接口系统接收扩音器位置数据,所述扩音器位置数据指示音频环境中的多个扩音器中的每个扩音器的位置。在一些示例中,所述多个扩音器可以包括音频环境中的所有扩音器,而在其他示例中,所述多个扩音器可以仅包括音频环境中的扩音器总数的子集。
根据该示例,框1420涉及由控制系统并且经由接口系统接收扩音器取向数据。扩音器取向数据可以根据特定实施方式而变化。在该示例中,扩音器取向数据指示(a)音频环境中的所述多个扩音器中的每个扩音器的最大声辐射的方向与(b)相对于对应扩音器的收听者位置之间的扩音器取向角。根据一些这样的示例,特定扩音器的扩音器取向角可以是以下两者之间的角度:(a)特定扩音器的最大声辐射的方向与(b)特定扩音器的位置与收听者位置之间的线。在其他示例中,扩音器取向数据可以指示根据另一参考系(如音频环境坐标系、音频设备参考系等)的扩音器取向角。替代性地或另外地,在一些示例中,扩音器取向角可能不是根据每个扩音器的最大声辐射的方向来定义的,而是可以以另一种方式来定义,例如,通过包括扩音器的设备的取向来定义。
在该示例中,框1425涉及由控制系统渲染音频数据,以至少经由音频环境中的所述多个扩音器的子集进行再现,从而产生经渲染的音频信号。根据该示例,渲染至少部分地基于空间数据、收听者位置数据、扩音器位置数据和扩音器取向数据。在该示例中,渲染涉及至少部分地基于增大的扩音器取向角来应用倾向于减少扩音器的相对激活的扩音器取向因子。在该示例中,框1430涉及经由接口系统至少向音频环境中的所述多个扩音器的扩音器子集提供经渲染的音频信号。
在一些示例中,方法1400可以涉及至少估计扩音器子集的扩音器重要性指标。根据一些示例,扩音器重要性指标可以对应于扩音器对在音频信号的预期感知空间位置处渲染音频信号的重要性。在一些示例中,每个扩音器的渲染可以至少部分地基于扩音器重要性指标。
根据一些实施方式,每个扩音器的渲染可以涉及至少部分地基于扩音器重要性指标来修改扩音器取向因子的效果。在一些这样的示例中,每个扩音器的渲染可以涉及至少部分地基于增加的扩音器重要性指标来减少扩音器取向因子的效果。
根据一些示例,方法1400可以涉及确定扩音器取向角是否等于或超过阈值扩音器取向角。在一些这样的示例中,方法1400可以涉及仅当扩音器取向角等于或超过阈值扩音器取向角时才应用扩音器取向因子。在一些示例中,“符合条件的扩音器”可以是扩音器取向角等于或超过阈值扩音器取向角的扩音器。在该上下文中,“符合条件的扩音器”是符合进行惩罚的条件(例如,符合被调低(减少扬声器的相对激活)或关闭的条件)的扩音器。
在一些示例中,特定扩音器的扩音器重要性指标可以至少部分地基于该特定扩音器相对于一个或多个其他扩音器的位置的位置。例如,如果一个扩音器相对靠近另一个扩音器,则由于惩罚这些紧密间隔的扩音器中的任一个所引起的感知变化可以小于由于惩罚音频环境中不靠近其他扩音器的另一个扩音器所引起的感知变化。
根据一些示例,扩音器重要性指标可以至少部分地基于符合条件的扩音器与(a)与符合条件的扩音器具有最短顺时针角距离的第一扩音器和(b)与符合条件的扩音器具有最短逆时针角距离的第二扩音器之间的线之间的距离。在一些示例中,该距离可以对应于本文公开的扩音器重要性指标α。如上所述,在一些示例中,“符合条件的”扩音器是扩音器取向角等于或超过阈值扩音器取向角的扩音器。在一些示例中,第一扩音器和第二扩音器可以是扩音器取向角小于阈值扩音器取向角的不符合条件的扩音器。这些不符合条件的扩音器可能不符合进行惩罚的条件,例如,不符合被调低(减少扬声器的相对激活)或关闭的条件。
在一些示例中,框1425的渲染可以涉及通过优化成本函数来确定至少扩音器子集的相对激活。在一些这样的示例中,框1425可以涉及通过优化成本来确定至少扩音器子集的相对激活,所述成本是以下各项的函数:当在音频环境中的扩音器子集上回放时,所述一个或多个音频信号中的音频信号的感知空间位置的模型;音频信号的预期感知空间位置与扩音器子集中的每个扩音器的位置的接近度的度量;以及一个或多个附加动态可配置功能。
根据一些示例,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于扩音器取向因子。在一些示例中,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于扩音器重要性指标。根据一些示例,所述一个或多个附加动态可配置功能中的至少一个可以至少部分地基于从音频环境中的每个扩音器到音频环境中的一个或多个其他扩音器的声学传输的测量或估计。
音频设备位置和取向估计方法的示例
如图14的描述和本文其他部分所述,在一些示例中,音频处理变化(如与扩音器取向、扩音器重要性指标或两者相对应的变化)可以至少部分地基于音频设备位置和音频设备取向信息。音频环境中音频设备的位置和取向可以通过各种方法来确定或估计,所述方法包括但不限于以下段落中描述的方法。本讨论涉及音频设备的位置和取向,但是本领域技术人员将认识到,在给定关于一个或多个扩音器如何定位在对应音频设备中的信息的情况下,扩音器位置和取向可以根据音频设备的位置和取向来确定。
一些这样的方法可以涉及接收用户的直接指示,例如,使用智能电话或平板装置在平面图或环境的类似图解表示上标记或指示音频设备的大概位置。这种数字接口在管理智能家居设备的配置、分组、名称、用途和身份方面已经司空见惯。例如,这种直接指示可以通过Amazon Alexa智能电话应用程序、Sonos S2控制器应用程序或类似应用程序提供。
一些示例可以涉及使用如蓝牙、Wi-Fi、ZigBee等常见无线通信技术的所测量信号强度(有时称为接收信号强度指示或RSSI)以产生音频设备之间的物理距离的估计来解决基本的三边测量问题,例如,如在J.Yang和Y.Chen,“Indoor Localization UsingImproved RSS-Based Lateration Methods[使用改进的基于RSS的最小二乘法的室内定位]”,GLOBECOM 2009-2009IEEE Global Telecommunications Conference[全球电信会议],Honolulu,HI[夏威夷州檀香山],2009,第1-6页,doi:10.1109/GLOCOM.2009.5425237中所公开的和/或如Mardeni,R.&Othman,Shaifull&Nizam,(2010)“Node Positioning inZigBee Network Using Trilateration Method Based on the Received SignalStrength Indicator(RSSI)[ZigBee网络中使用基于接收信号强度指示符(RSSI)的三边测量方法的节点定位]”46中所公开的,所述两个文献都通过引用特此并入。
在特此通过引用并入的名称为“Automatic Discovery and LocalizationofSpeaker Locations in Surround Sound Systems[环绕声系统中的扬声器位置的自动发现和定位]”的美国专利号10,779,084中,描述了一种可以通过声学测量每个扬声器与麦克风之间的到达时间(TOA)来自动定位扩音器和麦克风在收听环境中的位置的系统。
特此通过引用并入的名称为“AUTOMATIC LOCALIZATION OF AUDIO DEVICES[音频设备的自动定位]”(“自动定位应用”)的国际申请号PCT/US21/61506和PCT/US21/61533公开了用于自动确定音频设备的位置和取向的方法、设备和系统。图4至图9B和第17-47页上的对应描述通过引用具体并入本文。自动定位应用的一些公开的示例涉及接收与由音频环境的至少第一智能音频设备发射的声音相对应的到达方向(DOA)数据。在一些实施方式中,所述第一智能音频设备可以包括第一音频发射器和第一音频接收器。在一些示例中,所述DOA数据可以与由所述音频环境中的至少第二智能音频设备接收的声音相对应。在一些实例中,所述第二智能音频设备可以包括第二音频发射器和第二音频接收器。在一些示例中,所述DOA数据还可以与由至少所述第二智能音频设备发出并由至少所述第一智能音频设备接收的声音相对应。
一些这样的方法可以涉及通过所述控制系统接收配置参数。在一些示例中,所述配置参数可以对应于所述音频环境和/或可以对应于所述音频环境中的一个或多个音频设备。一些这样的方法可以涉及:通过所述控制系统,至少部分地基于所述DOA数据和所述配置参数来最小化成本函数,以至少估计所述第一智能音频设备和所述第二智能音频设备的位置和/或取向。
根据一些示例,所述DOA数据还可以与由所述音频环境中的一个或多个无源音频接收器接收的声音相对应。在一些示例中,所述一个或多个无源音频接收器中的每一个都可以包括麦克风阵列,但在一些实例中可以没有音频发射体。在一些这样的示例中,最小化所述成本函数还可以提供所述一个或多个无源音频接收器中每一个的估计位置和取向。
在一些示例中,所述DOA数据还可以与由所述音频环境中的一个或多个音频发射体发出的声音相对应。在一些实例中,所述一个或多个音频发射体中的每一个都可以包括至少一个发声换能器,但在一些实例中可以没有麦克风阵列。在一些这样的示例中,最小化所述成本函数还可以提供所述一个或多个音频发射体中每一个的估计位置。
在一些实施方式中,所述DOA数据还可以与由所述音频环境中的第三至第N个智能音频设备发出的声音相对应,N对应于所述音频环境中智能音频设备的总数量。在一些示例中,所述DOA数据还可以与由所述第一至第N个智能音频设备中的每一个从所述音频环境中的所有其他智能音频设备接收的声音相对应。在一些这样的示例中,最小化所述成本函数可以涉及估计所述第三至第N个智能音频设备的位置和/或取向。
根据一些示例,所述配置参数可以包括所述音频环境中音频设备的数量、所述音频环境的一个或多个维度、和/或音频设备位置和/或取向的一个或多个约束。在一些实例中,所述配置参数可以包括旋转、平移和/或缩放的消歧数据。
一些方法可以涉及通过所述控制系统接收所述成本函数的种子布局。在一些示例中,所述种子布局可以指定所述音频环境中音频发射器和音频接收器的正确数量、以及所述音频环境中所述音频发射器和所述音频接收器中的每一个的任意位置和取向。
一些方法可以涉及通过所述控制系统接收与所述DOA数据的一个或多个元素相关联的权重因子。所述权重因子可以例如指示所述DOA数据的所述一个或多个元素的可用性和/或可靠性。
一些方法可以涉及:通过所述控制系统,使用波束成形方法、可控功率响应方法、到达时间差方法、结构化信号方法、或其组合来获得所述DOA数据的一个或多个元素。
一些方法可以涉及通过所述控制系统接收与由所述音频环境中的至少一个音频设备发出并由所述音频环境中的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中,成本函数可以至少部分地基于TOA数据。一些这样的方法可以涉及估计至少一个回放时延和/或估计至少一个记录时延。在一些示例中,所述成本函数可以用重新调整的位置、重新调整的时延和/或重新调整的到达时间进行操作。
根据一些示例,所述成本函数可以包括仅取决于所述DOA数据的第一项。在一些这样的示例中,所述成本函数可以包括仅取决于所述TOA数据的第二项。在一些这样的示例中,第一项可以包括第一权重因子,并且第二项可以包括第二权重因子。在一些实例中,所述第二项中的一个或多个TOA元素可以具有指示所述一个或多个TOA元素中每一个的可用性和/或可靠性的TOA元素权重因子。
在一些示例中,所述配置参数可以包括回放时延数据、记录时延数据、消歧时延对称性数据、旋转消歧数据、平移消歧数据、缩放消歧数据、和/或其一个或多个组合。
本公开的一些其他方面可以经由方法来实施。一些这样的方法可以涉及设备定位。例如,一些方法可以涉及定位音频环境中的设备。一些这样的方法可以涉及:通过控制系统获得与所述环境中第一设备的至少第一收发器的传输相对应的到达方向(DOA)数据。在一些示例中,所述第一收发器可以包括第一发射器和第一接收器。在一些实例中,所述DOA数据可以与由所述环境中第二设备的至少第二收发器接收的传输相对应。在一些示例中,所述第二收发器可以包括第二发射器和第二接收器。在一些实例中,所述DOA数据可以与由至少所述第一收发器从至少所述第二收发器接收的传输相对应。
在一些示例中,所述第一设备和所述第二设备可以是音频设备,并且所述环境可以是音频环境。根据一些这样的示例,所述第一发射器和所述第二发射器可以是音频发射器。在一些这样的示例中,第一接收器和第二接收器可以是音频接收器。在一些实施方式中,所述第一收发器和所述第二收发器可以被配置用于发射和接收电磁波。
一些这样的方法可以涉及通过所述控制系统接收配置参数。在一些实例中,所述配置参数可以对应于所述环境和/或可以对应于所述环境中的一个或多个设备。一些这样的方法可以涉及:通过所述控制系统,至少部分地基于所述DOA数据和所述配置参数来最小化成本函数,以至少估计所述第一设备和所述第二设备的位置和/或取向。
在一些示例中,所述DOA数据还可以与由所述环境中的一个或多个无源接收器接收的传输相对应。所述一个或多个无源接收器中的每一个都可以例如包括接收器阵列,但可以没有发射器。在一些这样的示例中,最小化所述成本函数还可以提供所述一个或多个无源接收器中每一个的估计位置和/或取向。
根据一些示例,DOA数据还可以与来自环境的一个或多个发射器的发射相对应。在一些实例中,所述一个或多个发射器中的每一个都可以没有接收器阵列。在一些这样的示例中,最小化所述成本函数还可以提供所述一个或多个发射器中每一个的估计位置。
在一些示例中,所述DOA数据还可以与由所述环境中第三至第N个设备的第三至第N个收发器发出的传输相对应,N对应于所述环境中收发器的总数量。在一些这样的示例中,所述DOA数据还可以与由所述第一至第N个收发器中的每一个从所述环境中的所有其他收发器接收的传输相对应。在一些这样的示例中,最小化所述成本函数可以涉及估计所述第三至第N个收发器的位置和/或取向。
特此通过引用并入的名称为“Audio Device Auto-Location[音频设备自动定位]”的国际公开号WO 2021/127286 A1公开了用于估计音频环境中的音频设备位置、收听者位置和收听者取向的方法。一些公开的方法涉及通过到达方向(DOA)数据并通过基于DOA数据确定多个三角形中的每一个的内角来估计环境中的音频设备位置。在一些示例中,每个三角形具有与音频设备位置相对应的顶点。一些公开的方法涉及确定每个三角形的每条边的边长,并执行将所述多个三角形中的每一个对齐的前向对齐过程以产生前向对齐矩阵。一些公开的方法涉及确定执行将所述多个三角形中的每一个以反向顺序对齐的反向对齐过程以产生反向对齐矩阵。每个音频设备位置的最终估计可以至少部分地基于所述前向对齐矩阵的值和所述反向对齐矩阵的值。
国际公开号WO 2021/127286 A1的其他公开的方法涉及估计收听者位置,并且在一些实例中,估计收听者位置。一些这样的方法涉及提示收听者(例如,经由来自环境中的一个或多个扩音器的音频提示)说出一个或多个话语并且根据DOA数据估计收听者位置。DOA数据可以与由环境中的多个麦克风获得的麦克风数据相对应。麦克风数据可以与由麦克风对一个或多个话语的检测相对应。至少一些麦克风可以与扩音器共同定位。根据一些示例,估计收听者位置可以涉及三角测量过程。一些这样的示例涉及通过找到通过音频设备的DOA矢量之间的交叉点来对用户的语音进行三角测量。一些公开的确定收听者取向的方法涉及提示用户识别一个或多个扩音器位置。一些这样的示例涉及通过移动到扩音器位置旁边并说出话语来提示用户识别一个或多个扩音器位置。其他示例涉及通过用手持设备(如蜂窝电话)指向所述一个或多个扩音器位置中的每一个来提示用户识别一个或多个扩音器位置,所述手持设备包括惯性传感器系统和无线接口,所述无线接口被配置用于与控制音频环境的音频设备的控制系统(如编排设备的控制系统)通信。一些公开的方法涉及通过使扩音器渲染音频对象以使得音频对象似乎围绕收听者旋转来确定收听者取向,并且当收听者感知到音频对象处于如扩音器位置、电视位置等位置时提示收听者说出话语(如“停止!”)。一些公开的方法涉及经由相机数据来确定收听者的位置和/或取向,例如,通过根据相机数据确定收听者和音频环境的一个或多个音频设备的相对位置、通过根据相机数据(例如,根据收听者正面对的方向)确定收听者相对于音频环境的一个或多个音频设备的取向等。
在特此通过引用并入的Shi,Guangi et al,Spatial Calibration of SurroundSound Systems including Listener Position Estimation,(AES137th Convention,October 2014)[Shi,Guangi等人,包括收听者位置估计的对环绕声系统的空间校准,(AES第137号公约,2014年10月)]中描述了一种系统,其中与其位置可预测的再现系统的部件(如条形音箱、前中央扬声器)相关联的单个线性麦克风阵列测量卫星扩音器和收听者两者的到达时间差(TDOA)以定位扩音器和收听者两者的位置。在这种情况下,收听取向固有地定义为连接检测到的收听位置与再现系统的包括线性麦克风阵列的部件(如与电视共同定位(放置在电视正上方或正下方)的条形音箱)的线。由于条形音箱的位置可预测地放置在视频屏幕正上方或正下方,因此可以使用简单的三角原理将所测量的距离和入射角的几何形状转换为相对于在该参考条形音箱位置前面的任何点的绝对位置。线性麦克风阵列的扩音器与麦克风之间的距离可以通过播放测试信号并测量发射扩音器与接收麦克风之间的飞行时间(TOF)来估计。所测量的脉冲响应的直接分量的时间延迟可以用于这个目的。扩音器与麦克风阵列元件之间的脉冲响应可以通过经由被分析的扩音器播放测试信号来获得。例如,最大长度序列(MLS)或啁啾信号(还被称为对数正弦扫频)可以被用作测试信号。房间脉冲响应可以通过计算所捕获的信号与MLS输入之间的循环交叉相关来获得。本参考文献的图2示出了使用MLS输入获得的回波脉冲响应。该脉冲响应被称为类似于在典型办公室或客厅中进行的测量。直接分量的延迟用于估计扩音器与麦克风阵列元件之间的距离。对于扩音器距离估计,应计算并从所测量的TOF估计移除用于回放测试信号的音频设备的任何回环时延。
估计音频环境中的人的位置和取向的示例
音频环境中的人的位置和取向可以通过各种方法来确定或估计,所述方法包括但不限于以下段落中描述的方法。
在特此通过引用并入的Hess,Wolfgang,Head-Tracking Techniques forVirtual Acoustic Applications,(AES133rd Convention,October 2012)[Hess,Wolfgang,用于虚拟声学应用的头部跟踪技术,(AES第133号公约,2012年10月)]中,提出了用于在空间音频再现系统的背景下跟踪收听者头部的位置和取向两者的许多商业上可获得的技术。所讨论的一个特定示例是微软Kinect。利用其深度传感和标准相机以及公开可用的软件(Windows软件开发工具包(SDK)),可以使用骨骼跟踪与面部识别的组合来同时跟踪空间中的多个收听者的头部的位置和取向。尽管Windows的Kinect已经停产,但实施下一代微软的深度传感器的Azure Kinect开发工具包(DK)是当前可用的。
在特此通过引用并入的名称为“Automatic Discovery and LocalizationofSpeaker Locations in Surround Sound Systems[环绕声系统中的扬声器位置的自动发现和定位]”的美国专利号10,779,084中,描述了一种可以通过声学测量每个扬声器与麦克风之间的到达时间(TOA)来自动定位扩音器和麦克风在收听环境中的位置的系统。可以通过将麦克风(例如,收听者握持的移动电话中的麦克风)放置并定位在期望的收听位置处来检测收听位置,并且可以通过将另一麦克风放置在收听者的观看方向上的点处(例如TV处)来定义相关联收听取向。替代性地,可以通过将扩音器(例如,TV上的扩音器)定位在观看方向上来定义收听取向。
特此通过引用并入的名称为“Audio Device Auto-Location[音频设备自动定位]”的国际公开号WO 2021/127286 A1公开了用于估计音频环境中的音频设备位置、收听者位置和收听者位置的方法。一些公开的方法涉及通过到达方向(DOA)数据并通过基于DOA数据确定多个三角形中的每一个的内角来估计环境中的音频设备位置。在一些示例中,每个三角形具有与音频设备位置相对应的顶点。一些公开的方法涉及确定每个三角形的每条边的边长,并执行将所述多个三角形中的每一个对齐的前向对齐过程以产生前向对齐矩阵。一些公开的方法涉及确定执行将所述多个三角形中的每一个以反向顺序对齐的反向对齐过程以产生反向对齐矩阵。每个音频设备位置的最终估计可以至少部分地基于所述前向对齐矩阵的值和所述反向对齐矩阵的值。
国际公开号WO 2021/127286 A1的其他公开的方法涉及估计收听者位置,并且在一些实例中,估计收听者位置。一些这样的方法涉及提示收听者(例如,经由来自环境中的一个或多个扩音器的音频提示)说出一个或多个话语并且根据DOA数据估计收听者位置。DOA数据可以与由环境中的多个麦克风获得的麦克风数据相对应。麦克风数据可以与由麦克风对一个或多个话语的检测相对应。至少一些麦克风可以与扩音器共同定位。根据一些示例,估计收听者位置可以涉及三角测量过程。一些这样的示例涉及通过找到通过音频设备的DOA矢量之间的交叉点来对用户的语音进行三角测量。一些公开的确定收听者取向的方法涉及提示用户识别一个或多个扩音器位置。一些这样的示例涉及通过移动到扩音器位置旁边并说出话语来提示用户识别一个或多个扩音器位置。其他示例涉及通过用手持设备(如蜂窝电话)指向所述一个或多个扩音器位置中的每一个来提示用户识别一个或多个扩音器位置,所述手持设备包括惯性传感器系统和无线接口,所述无线接口被配置用于与控制音频环境的音频设备的控制系统(如编排设备的控制系统)通信。一些公开的方法涉及通过使扩音器渲染音频对象以使得音频对象似乎围绕收听者旋转来确定收听者取向,并且当收听者感知到音频对象处于如扩音器位置、电视位置等位置时提示收听者说出话语(如“停止!”)。一些公开的方法涉及经由相机数据来确定收听者的位置和/或取向,例如,通过根据相机数据确定收听者和音频环境的一个或多个音频设备的相对位置、通过根据相机数据(例如,根据收听者正面对的方向)确定收听者相对于音频环境的一个或多个音频设备的取向等。
在特此通过引用并入的Shi,Guangi et al,Spatial Calibration of SurroundSound Systems including Listener Position Estimation,(AES137th Convention,October 2014)[Shi,Guangi等人,包括收听者位置估计的对环绕声系统的空间校准,(AES第137号公约,2014年10月)]中描述了一种系统,其中与其位置可预测的再现系统的部件(如条形音箱、前中央扬声器)相关联的单个线性麦克风阵列测量卫星扩音器和收听者两者的到达时间差(TDOA)以定位扩音器和收听者两者的位置。在这种情况下,收听取向固有地定义为连接检测到的收听位置与再现系统的包括线性麦克风阵列的部件(如与电视共同定位(放置在电视正上方或正下方)的条形音箱)的线。由于条形音箱的位置可预测地放置在视频屏幕正上方或正下方,因此可以使用简单的三角原理将所测量的距离和入射角的几何形状转换为相对于在该参考条形音箱位置前面的任何点的绝对位置。线性麦克风阵列的扩音器与麦克风之间的距离可以通过播放测试信号并测量发射扩音器与接收麦克风之间的飞行时间(TOF)来估计。所测量的脉冲响应的直接分量的时间延迟可以用于这个目的。扩音器与麦克风阵列元件之间的脉冲响应可以通过经由被分析的扩音器播放测试信号来获得。例如,最大长度序列(MLS)或啁啾信号(还被称为对数正弦扫频)可以被用作测试信号。房间脉冲响应可以通过计算所捕获的信号与MLS输入之间的循环交叉相关来获得。本参考文献的图2示出了使用MLS输入获得的回波脉冲响应。该脉冲响应被称为类似于在典型办公室或客厅中进行的测量。直接分量的延迟用于估计扩音器与麦克风阵列元件之间的距离。对于扩音器距离估计,应计算并从所测量的TOF估计移除用于回放测试信号的音频设备的任何回环时延。
涉及成本函数优化的音频处理变化的进一步示例
如本文别处所述,在各种公开的示例中,一种或多种类型的音频处理变化可以基于成本函数的优化。一些这样的示例涉及灵活渲染。
灵活渲染允许在任意数量的任意放置的扬声器上渲染空间音频。鉴于音频设备(包括但不限于家庭中的智能音频设备(例如,智能扬声器))的广泛部署,需要实现允许消费类产品执行音频的灵活渲染以及如此渲染的音频的回放的灵活渲染技术。
已经开发了若干种技术来实施灵活渲染。他们将渲染问题视为成本函数最小化之一,其中,成本函数由两个项构成:对渲染器试图实现的期望空间印象进行建模的第一项,以及分配用于激活扬声器的成本的第二项。迄今为止,该第二项专注于创建稀疏解决方案,其中,仅激活与正在渲染的音频的期望空间位置非常接近的扬声器。
在消费者环境中回放空间音频通常与放置在指定位置的指定数量的扩音器有关:例如,5.1和7.1环绕声。在这些情况下,内容是专门为相关联的扩音器编写的,并且编码为离散通道,每个扩音器一个(例如,杜比数字(Dolby Digital)或杜比数字+(Dolby DigitalPlus)等)。最近,引入了沉浸式、基于对象的空间音频格式(杜比全景声(Dolby Atmos)),其打破了内容与特定扩音器位置之间的该关联。相反,内容可以被描述为单独音频对象的集合,每个音频对象都有可能随时间变化的元数据,所述元数据描述了所述音频对象在三维空间中的期望感知位置。在回放时间,内容由适配回放系统中扩音器数量和位置的渲染器转换为扩音器馈送。然而,许多这样的渲染器仍将一组扩音器的位置限制为一组指定布局中的一个(例如,采用杜比全景声的3.1.2、5.1.2、7.1.4、9.1.6等)。
超越这种受限的渲染,已经开发出允许基于对象的音频在放置在任意位置的真正任意数量的扩音器上灵活地渲染的方法。这些方法要求渲染器了解收听空间中扩音器的数量和物理位置。为了使这种系统对普通消费者实用,期望用于定位扩音器的自动化方法。一种这样的方法依赖于使用可能与扩音器共定位的多个麦克风。通过借助扩音器播放音频信号并且用麦克风录音,估计了每个扩音器与麦克风之间的距离。从这些距离随后推导出扩音器和麦克风两者的位置。
在消费者空间引入基于对象的空间音频的同时,已经迅速采用了所谓的“智能扬声器”,如亚马逊回声(Amazon Echo)系列产品。这些设备的巨大流行可以归因于其通过无线连接和集成语音接口(例如,亚马逊的Alexa)提供的简单性和便利性,但是这些设备的声音能力通常是有限的,特别是在空间音频方面。在大多数情况下,这些设备仅限于单声道或立体声回放。然而,将上述灵活渲染和自动定位技术与多个编排的智能扬声器相结合,可以产生具有非常复杂的空间回放功能的系统,并且对于消费者来说设置起来仍然非常简单。消费者可以根据需要在方便的任何地方放置任意数量的扬声器,由于无线连接而无需铺设扬声器线缆,并且内置麦克风可以用于为相关联的灵活渲染器自动定位扬声器。
传统的灵活渲染算法旨在尽可能接近地实现特定的期望的感知空间印象。在编排的智能扬声器系统中,有时,维持该空间印象可能不是最重要的或期望的目标。例如,如果有人同时尝试对集成语音助理说话,可能期望以降低某些麦克风附近的扬声器的相对回放水平的方式暂时改变空间渲染,以增加包括检测到的言语的麦克风信号的信噪比和/或信号回声比(SER)。本文所描述的一些实施例可以被实施为对现有灵活渲染方法的修正,以允许例如出于实现一个或多个附加目标的目的而对空间渲染进行这种动态修正。
现有的灵活渲染技术包括质心振幅平移(CMAP)和灵活虚拟化(FV)。从高水平来看,这两种技术渲染一组一个或多个音频信号,每个音频信号具有相关联的期望的感知空间位置,用于在一组两个或更多个扬声器上回放,其中,该组扬声器的相对激活是通过扬声器回放的所述音频信号的感知空间位置的模型以及音频信号的期望感知空间位置与扬声器位置的接近度的函数。所述模型确保收听者在其预期空间位置附近听到音频信号,并且接近度项控制使用哪些扬声器来实现该空间印象。具体地,接近度项有利于激活靠近音频信号的期望感知空间位置的扬声器。对于CMAP和FV两者,该函数关系可以方便地从成本函数中得到,所述成本函数写为两个项的和,一个项用于空间方面并且一个项用于接近度:
此处,集合表示一组M个扩音器的位置,表示音频信号的期望感知空间位置,并且g表示扬声器激活的M维矢量。对于CMAP,矢量中的每个激活表示每个扬声器的增益,而对于FV,每个激活表示滤波器(在第二种情况下,g可以等效地被视为特定频率处的复值的矢量,并且跨多个频率计算不同的g以形成滤波器)。激活的最佳矢量是通过跨激活最小化成本函数找到的:
在成本函数的某些定义下,很难控制由上述最小化产生的最佳激活的绝对水平,尽管gopt的分量之间的相对水平是适当的。为了解决该问题,可以执行gopt的后续归一化,以便控制激活的绝对水平。例如,可以期望将矢量归一化为具有单位长度,这符合常用的恒定功率平移规则:
灵活渲染算法的确切行为取决于成本函数的Cspatial和Cproximity这两个项的特定构建。对于CMAP,Cspatial是从模型得到的,所述模型将从一组扩音器播放的音频信号的感知空间位置放置在由扩音器的相关联的激活增益gi(矢量g的元素)加权的这些扩音器的位置的质心:
然后将等式10操纵成表示期望音频位置与由激活的扩音器产生的音频位置之间的平方误差的空间成本:
对于FV,成本函数的空间项被不同地定义。目标是在收听者的左耳和右耳处产生与音频对象位置相对应的双耳响应b。概念上,b是滤波器的2×1矢量(每只耳朵一个滤波器),但更方便地将其视为特定频率下复值的2×1矢量。继续以特定频率进行该表示,可以从一组按对象位置索引的HRTF中取得期望的双耳响应:
同时,由扩音器在收听者的耳朵处产生的2×1双耳响应e被建模为2×M声学传输矩阵H乘以复扬声器激活值的M×1矢量g:
e=Hg (13)
声学传输矩阵H是基于扩音器位置的集合相对于收听者位置建模的。最后,成本函数的空间分量定义为期望的双耳响应(等式12)与扩音器产生的双耳响应(等式13)之间的平方误差:
方便地,等式11和14两者中定义的针对CMAP和FV的成本函数的空间项都可以重新布置为矩阵二次型,作为扬声器激活g的函数:
其中,A是M×M方阵,B是1×M矢量,并且C是标量。矩阵A的秩为2,并且因此当M>2时,存在无限多个空间误差项等于零的扬声器激活g。引入成本函数的第二项Cproximity去除了该不确定性,并且产生了与其他可能的解相比具有感知上有益性质的特定解。对于CMAP和FV两者,Cproximity被构建成使得位置远离期望的音频信号位置的扬声器的激活比位置接近期望位置的扬声器的激活受到更多惩罚。该构建产生了稀疏的扬声器激活最佳集合,其中,仅接近期望的音频信号的位置的扬声器才会被显著激活,并且实际上导致音频信号的空间再现,这对于在所述一组扬声器周围的收听者移动在感知上更加稳健。
为此,成本函数的第二项Cproximity可以定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式简洁地表示为:
其中,D是期望的音频位置与每个扬声器之间距离惩罚的对角矩阵:
距离惩罚函数可以采取许多形式,但以下是有用的参数化
其中,是期望的音频位置与扬声器位置之间的欧几里得距离,并且α和β是可调参数。参数α指示惩罚的全局强度;d0与距离惩罚的空间范围相对应(在大约d0距离处或更远的扩音器将受到惩罚),并且β解释了在距离d0处惩罚起始的突然性。
将等式15和16a中定义的成本函数的两个项相结合,得出总体成本函数
C(g)=g*Ag+Bg+C+g*Dg=g*(A+d)g+Bg+C (17)
将该成本函数关于g的导数设置为零并且求解g产生最佳扬声器激活解:
通常,等式18中的最优解可以产生值为负的扬声器激活。对于灵活渲染器的CMAP构建,这样的负激活可能是不期望的,并且因此等式18可以在所有激活保持为正的情况下最小化。
图15和图16是图示了一组示例扬声器激活和对象渲染位置的图。在这些示例中,扬声器激活和对象渲染位置与4、64、165、-87和-4度的扬声器位置相对应。图15示出了扬声器激活1505a、1510a、1515a、1520a和1525a,其包括针对这些特定扬声器位置的等式11的最佳解。图16将单独扬声器位置绘制为点1605、1610、1615、1620和1625,其分别与扬声器激活1505a、1510a、1515a、1520a和1525a相对应。图16还将大量可能的对象角度的理想对象位置(换句话说,要渲染音频对象的位置)示出为点1630a,并且将针对这些对象的对应实际渲染位置示出为点1635a,通过虚线1640a连接到理想对象位置。
一类实施例涉及用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如,所有或一些)进行回放的方法。例如,用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例,包括灵活渲染(根据实施例)音频以供智能音频设备中的所有或一些(即,由智能音频设备的所有或一些的扬声器)回放。考虑了与系统的许多交互,这些交互需要对渲染进行动态修正。这种修正可以但不一定专注于空间保真度。
一些实施例是用于渲染音频以供一组智能音频设备中的至少一个(例如,所有或一些)智能音频设备回放(或供另一组扬声器的至少一个(例如,所有或一些)扬声器回放)的方法。渲染可以包括成本函数的最小化,其中,成本函数包括至少一个动态扬声器激活项。这种动态扬声器激活项的示例包括(但不限于):
●扬声器与一个或多个收听者的接近度;
●扬声器与吸引力或推斥力的接近度;
●扬声器关于一些位置(例如,收听者位置或婴儿房)的可听度;
●扬声器的能力(例如,频率响应和失真);
●扬声器关于其他扬声器的同步;
●唤醒词性能;以及
●回声消除器性能。
动态扬声器激活项可以启用各种行为中的至少一种,包括将音频的空间呈现扭曲远离特定智能音频设备,使得所述特定智能音频设备的麦克风可以更好地听到说话者或者使得可以更好地从智能音频设备的扬声器听到次级音频流。
一些实施例实施渲染以供协调的(编排的)多个智能音频设备的扬声器回放。其他实施例实施渲染以供另一组扬声器的扬声器回放。
将灵活渲染方法(根据一些实施例实施)与一组无线智能扬声器(或其他智能音频设备)配对可以产生非常有能力并且易于使用的空间音频渲染系统。在考虑与这种系统的交互时,显然期望对空间渲染进行动态修正,以便针对在系统使用期间可能出现的其他目标进行优化。为了实现该目标,一类实施例增强了现有的灵活渲染算法(其中扬声器激活是先前公开的空间项和接近度项的函数),具有一个或多个附加动态可配置功能,所述附加动态可配置功能取决于正在渲染的音频信号、扬声器组和/或其他外部输入的一个或多个性质。根据一些实施例,等式1中给出的现有灵活渲染的成本函数根据以下等式增加了这些一个或多个附加依赖项
等式19对应于上面的等式1。因此,前面的讨论解释了等式1的推导以及等式19的推导。
在等式19中,项表示附加成本项,并且表示正在渲染的音频信号(例如,基于对象的音频节目)的一组一个或多个性质,表示正在渲染音频的扬声器的一组一个或多个性质,并且表示一个或多个附加外部输入。每个项返回成本作为与音频信号、扬声器和/或外部输入的一个或多个性质的组合相关的激活g的函数,一般由集合表示。应当理解,集合至少包含来自或中的任何一个的一个元素。
的示例包括但不限于:
●音频信号的期望的感知空间位置;
●音频信号的水平(可能随时间变化);和/或
●音频信号的频谱(可能随时间变化)。
的示例包括但不限于:
●扩音器在收听空间中的位置;
●扩音器的频率响应;
●扩音器的回放水平限制;
●扬声器内部动态处理算法的参数,如限制器增益;
●从每个扬声器到其他扬声器的声学传输的测量或估计;
●扬声器上回声消除器性能的测量;和/或
●扬声器关于彼此的相对同步。
的示例包括但不限于:
●回放空间中一个或多个收听者或说话者的位置;
●从每个扩音器到收听位置的声学传输的测量或估计;
●从说话者到一组扩音器的声学传输的测量或估计;
●回放空间中其他一些地标的位置;和/或
●从每个扬声器到回放空间中一些其他地标的声学传输的测量或估计;
使用等式28中定义的新成本函数,可以通过如先前在等式28a和28b中指定的关于g的最小化和可能的后归一化来找到最佳组激活。
图17是概述了可以由如图1中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文描述的其他方法一样,不必以所指示的顺序来执行方法1700的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法1700的框可以由一个或多个设备执行,所述设备可以是(或可以包括)控制系统,如图1中示出的控制系统160。
在该实施方式中,框1705涉及由控制系统并且经由接口系统接收音频数据。在该示例中,音频数据包括一个或多个音频信号和相关联的空间数据。根据该实施方式,空间数据指示与音频信号相对应的预期感知空间位置。在一些实例中,预期感知空间位置可以是明确的,例如,如由如杜比全景声位置元数据等位置元数据所指示的。在其他实例中,预期感知空间位置可以是隐式的,例如,预期感知空间位置可以是与根据杜比5.1、杜比7.1的声道或其他基于声道的音频格式相关联的假定位置。在一些示例中,框1705涉及经由接口系统接收音频数据的控制系统的渲染模块。
根据该示例,框1710涉及由控制系统渲染音频数据以经由环境的一组扩音器再现,从而产生经渲染的音频信号。在该示例中,渲染音频数据中包括的一个或多个音频信号中的每一个涉及通过优化成本函数来确定环境中一组扩音器的相对激活。根据该示例,成本是当在环境中的所述一组扩音器上回放时音频信号的感知空间位置的模型的函数。在该示例中,成本也是音频信号的预期感知空间位置与所述一组扩音器中的每个扩音器的位置的接近度的度量的函数。在该实施方式中,成本也是一个或多个附加动态可配置功能的函数。在该示例中,动态可配置功能基于以下各项中的一项或多项:扩音器与一个或多个收听者的接近度;扩音器与吸引力位置的接近度,其中,吸引力是有利于更接近吸引力位置的相对更高的扩音器激活的因素;扩音器与推斥力位置的接近度,其中,推斥力是有利于更接近推斥力位置的相对更低的扩音器激活的因素;每个扩音器相对于所述环境中的其他扩音器的能力;所述扩音器关于其他扩音器的同步;唤醒词性能;或回声消除器性能。
在该示例中,框1715涉及经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。
根据一些示例,感知空间位置的模型可以产生与收听者的左耳和右耳处的音频对象位置相对应的双耳响应。替代性地或另外地,感知空间位置的模型可以将从一组扩音器播放的音频信号的感知空间位置放置在由扩音器的相关联的激活增益加权的所述一组扩音器的位置的质心。
在一些示例中,一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的水平。在一些实例中,一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的频谱。
方法1700的一些示例涉及接收扩音器布局信息。在一些示例中,一个或多个附加动态可配置功能可以至少部分地基于每个扩音器在环境中的位置。
方法1700的一些示例涉及接收扩音器规格信息。在一些示例中,一个或多个附加动态可配置功能可以至少部分地基于每个扩音器的能力,所述能力可以包括以下各项中的一项或多项:频率响应、回放水平限制或一个或多个扩音器动态处理算法的参数。
根据一些示例,一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到其他扩音器的声学传输的测量或估计。替代性地或另外地,一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个人的收听者或扬声器位置。替代性地或另外地,一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到收听者或扬声器位置的声学传输的测量或估计。声学传输的估计可以例如至少部分地基于墙、家具或可以驻留在每个扩音器与收听者或扬声器位置之间的其他物体。
替代性地或另外地,一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个非扩音器对象或地标的对象位置。在一些这样的实施方式中,一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到对象位置或地标位置的声学传输的测量或估计。
可以通过采用一个或多个适当定义的附加成本项来实施灵活渲染以实现许多新的和有用的行为。下文列出的所有示例行为都是为了在某些被认为不期望的条件下惩罚某些扩音器。最终结果是这些扩音器在一组音频信号的空间渲染中被较少激活。在许多这些情况下,人们可能会考虑简单地调低不期望的扩音器,而不取决于对空间渲染进行任何修正,但这种策略可能会显著降低音频内容的整体平衡。例如,混音的某些分量可能变得完全听不见。另一方面,对于所公开的实施例,将这些惩罚集成到渲染的核心优化中允许渲染适应并使用剩余较少惩罚的扬声器来执行最佳可能的空间渲染。这是更优雅、更加能适应的、更有效的解决方案。
示例用例包括但不限于:
●在收听区域周围提供更平衡的空间呈现
ο已经发现,空间音频最好跨与预期收听区域距离大致相同的扩音器来呈现。可以构建成本,使得明显比扩音器到收听区域的平均距离更近或更远的扩音器被惩罚,因此减少所述扩音器的激活;
●将音频移动离开或朝向收听者或说话者
○如果系统的用户正在试图与系统的或与系统相关联的智能语音助理说话,则创建惩罚更接近说话者的扩音器的成本可能是有益的。通过该方式,这些扩音器更少激活,允许所述扩音器相关联的麦克风更好地听到说话者;
○为了为单个收听者提供更亲密的体验,最小化收听空间中针对其他人的回放水平,远离收听者的位置的扬声器可能会受到严重惩罚,以便仅最接近收听者的扬声器被最显著地激活;
●将音频移动离开或朝向地标、区或区域
○收听空间附近的某些位置可能被认为是敏感的,如婴儿房、婴儿床、办公室、阅读区域、学习区域等。在这种情况下,可以构建惩罚在该位置、区或区域附近使用扬声器的成本;
○替代性地,对于上文的相同情况(或类似情况),扬声器系统可以已经生成从每个扬声器到婴儿房中的声学传输的测量,特别是当扬声器(带有附接或关联的麦克风)之一驻留在所述婴儿房内时。在这种情况下,可以构建惩罚使用测量的到房间的声学传输高的扬声器的成本,而不是使用扬声器与婴儿房的物理接近度;和/或
●扬声器的能力的最佳使用
○不同扩音器的能力可以显著变化。例如,一款流行的智能扬声器仅包含具有有限低频能力的单个1.6”全音域驱动器。另一方面,另一个智能扬声器包含更有能力的3”低音扬声器。这些能力通常反映在扬声器的频率响应中,并且如此,可以在成本项中利用与扬声器相关联的一组响应。在特定频率下,相对于其他扬声器较弱能力的扬声器(如根据其频率响应测得的)可能会被惩罚并且因此被更少程度地激活。在一些实施方式中,这种频率响应值可以用智能扩音器存储,并且然后报告给负责优化灵活渲染的计算单元;
○许多扬声器包含超过一个驱动器,每个驱动器负责播放不同的频率范围。例如,一种流行的智能扬声器是双向设计,包含用于较低频率的低音扬声器和用于较高频率的高音扬声器。通常,这种扬声器包含用于将全音域回放音频信号划分为适当的频率范围并且发送到相应的驱动器的分频电路。替代性地,这种扬声器可以为每个单独驱动器提供灵活渲染器回放访问,以及关于每个单独驱动器的能力(如频率响应)的信息。通过应用如上文描述的成本项,在一些示例中,灵活渲染器可以基于其在不同频率下的相对能力在两个驱动器之间自动建立分频器;
○频率响应的上文描述的示例使用专注于扬声器的固有能力上,但可能没有准确地反映放置在收听环境中的扬声器的能力。在某些情况下,如在预期收听位置测得的扬声器频率响应可以通过一些校准程序获得。可以使用这种测量替代预先计算的响应以更好地优化扬声器的使用。例如,某个扬声器在特定频率下可以天生就非常有能力,但由于其放置(例如,在墙或一件家具后面)可能会在预期的收听位置产生非常有限的响应。捕获该响应并且馈送到适当成本项中的测量可以防止这种扬声器的显著激活;
○频率响应仅为扩音器的回放能力的一个方面。许多较小的扩音器开始失真,并且然后随着回放水平的增加而达到其偏移限制,特别是对于较低频率。为了减少这种失真,许多扩音器实施动态处理,所述动态处理将回放水平限制在可以随频率变化的某些限制阈值以下。在扬声器靠近或处于这些阈值而其他参与灵活渲染的扬声器没有靠近或处于这些阈值的情况下,在限制扬声器中降低信号水平并且将该能量转移到其他负担较轻的扬声器是有意义的。根据一些实施例,可以通过适当地配置相关联的成本项来自动实现这种行为。这种成本项可以涉及以下各项中的一项或多项:
■监测与扩音器的限制阈值相关的全局回放音量。例如,音量水平接近其限制阈值的扩音器可能会受到更多惩罚;
■监测与扩音器限制阈值(可能随频率变化)相关的动态信号水平(也可能随频率变化)。例如,监测的信号水平接近其限制阈值的扩音器可能会受到更多惩罚;
■直接监测扩音器的动态处理的参数,如限制增益。在一些这样的示例中,参数指示更多限制的扩音器可能会受到更多惩罚;和/或
■监测放大器向扩音器传递的实际瞬时电压、电流和功率,以确定扩音器是否在线性范围内操作。例如,更少线性地操作的扩音器可能会受到更多惩罚;
○带有集成式麦克风和交互式语音助理的智能扬声器通常采用某种类型的回声消除来降低由录音麦克风拾取的扬声器播放的音频信号水平。该降低越大,扬声器听到和理解空间中说话者的机会就越大。如果回声消除器的残差始终很高,这可以指示扬声器正在被驱动到非线性区域中,在所述非线性区域中回声路径的预测变得具有挑战性。在这种情况下,将信号能量从扬声器转移出去可以是有意义的,并且如此,考虑回声消除器性能的成本项可以是有益的。这样的成本项可以将高成本分配给其相关联的回声消除器性能不佳的扬声器;
○为了在多个扩音器上渲染空间音频时实现可预测的成像,通常需要跨越时间合理地同步在一组扩音器上的回放。对于有线扩音器来说,这是给定的,但对于大量无线扩音器来说,同步可能具有挑战性并且最终结果可变。在这种情况下,每个扩音器报告其与目标同步的相对程度可以是可能的,并且然后该程度可以馈送到同步成本项中。在一些这样的示例中,具有较低同步程度的扩音器可能会受到更多惩罚,并且因此被排除在渲染之外。另外地,某些类型的音频信号可能不需要紧密同步,例如,旨在扩散或非定向的音频混音的分量。在一些实施方式中,可以如此用元数据对分量进行标记,并且可以修正同步成本项,使得惩罚减少。
接下来描述实施例的附加示例。与等式25a和25b中定义的接近度成本类似,将每个新的成本函数项表达为扬声器激活的绝对值平方的加权和也可以是方便的,例如,如下:
其中,Wj是权重的对角矩阵,描述与激活扬声器i相关联的成本j:
等式20b对应于上面的等式3。
将等式20a和20b与等式15中给出的CMAP和FV成本函数的矩阵二次型版本相结合产生了等式19中给出的(一些实施例的)通用扩展成本函数的潜在有益的实施方式:
C(g)=g*Ag+Bg+C+g*Dg+∑jg*Wjg=g*(A+D+∑jWj)g+Bg+C (21)
等式21对应于上面的等式2。因此,前面的讨论解释了等式2的推导以及等式21的推导。
有了新成本函数项的该定义,总体成本函数仍然是矩阵二次型的,并且可以通过等式21的微分找到最佳组激活gopt以产生
将权重项wij中的每一个视为扩音器中的每一个的给定连续惩罚值 的函数是有用的。在一个示例实施例中,该惩罚值是从(将被渲染的)对象到所考虑的扩音器的距离。在另一个示例实施例中,该惩罚值表示给定扩音器无法再现一些频率。基于该惩罚值,权重项wij可以参数化为:
其中,αj表示前置因子(其考虑了权重项的全局强度),其中,τj表示惩罚阈值(约为或超过所述惩罚阈值,权重项变得显著),并且其中,fj(x)表示单调增加函数。例如,有了权重项具有以下形式:
其中,αj、βj、τj是可调参数,其分别指示惩罚的全局强度、惩罚起始的突然性和惩罚的程度。在设置这些可调值时应小心谨慎,使得成本项Cj相对于任何其他附加成本项以及Cspatial和Cproximity的相对影响适合用于实现期望的结果。例如,根据经验,如果一个人希望特定惩罚明显地支配其他惩罚,则将其强度αj设置为下一个最大惩罚强度的大约十倍可能是适当的。
如果所有扩音器都被惩罚,则通常可以方便地在后处理中从所有权重项中减去最小惩罚,使得扬声器中的至少一个不会被惩罚:
wij→w′ij=wij-mini(wij) (25)
如上所述,使用本文所描述的新成本函数项(以及根据其他实施例采用的类似的新成本函数项)可以实现许多可能的用例。接下来,用以下三个示例来描述更具体的细节:将音频移动朝向收听者或说话者、将音频移动离开收听者或说话者以及将音频移动离开地标。
在第一个示例中,在本文中将被称为“吸引力”的东西用于将音频拉动朝向某个位置,在一些示例中,所述位置可以是收听者或说话者的位置、地标位置、家具位置等。所述位置在本文中可以被称为“吸引力位置”或“吸引子位置”。如本文所使用的,“吸引力”是有利于更接近吸引力位置的相对更高的扩音器激活的因素。根据该示例,权重wij采用等式17的形式,连续惩罚值pij由第i个扬声器从固定吸引子位置的距离给出,并且阈值τj由所有扬声器的这些距离中的最大值给出:
并且 (26a)
为了说明将音频“拉动”朝向收听者或说话者的用例,特别地设置αj=20,βj=3,并且将设置为与180度(绘图的底部中心)的收听者/说话者位置相对应的矢量。αj、βj和的这些值仅为示例。在一些实施方式中,αj可以在1至100的范围内并且βj可以在1至25的范围内。图18是示例实施例中的扬声器激活的图。在该示例中,图18示出了扬声器激活1505b、1510b、1515b、1520b和1525b,其包括图15和图16中相同扬声器位置的成本函数的最佳解,加上由wij表示的吸引力。图19是示例实施例中的对象渲染位置的图。在该示例中,图19示出了针对大量可能对象角度的对应理想对象位置1630b和针对那些对象的对应实际渲染位置1635b,通过虚线1640b连接到理想对象位置1630b。实际渲染位置1635b朝向固定位置的倾斜取向说明了吸引子权重对成本函数的最佳解的影响。
在第二个和第三个示例中,“推斥力”用于将音频“推动”离开某个位置,所述位置可以是人的位置(例如,收听者位置、说话者位置等)或其他位置,如地标位置、家具位置等。在一些示例中,推斥力可以用于将音频推动离开收听环境的区域或区,如办公区域、阅读区域、床或卧室区域(例如,婴儿床或卧室)等。根据一些这样的示例,特定位置可以用作区或区域的代表。例如,表示婴儿床的位置可以是婴儿的头部的估计位置、与婴儿相对应的估计声源位置等。所述位置在本文中可以被称为“推斥力位置”或“推斥位置”。如本文所使用的,“推斥力”是有利于更接近推斥力位置的相对更低的扩音器激活的因素。根据该示例,相对于固定推斥位置定义pij和τj,类似于等式26a和26b中的吸引力:
并且(26c)
为了说明将音频推动离开收听者或说话者的用例,在一个示例中,可以特别地设置αj=5,βj=2,并且将设置为与180度(在绘图的底部中心)的收听者/说话者位置相对应的矢量。αj、βj和的这些值仅为示例。如上所述,在一些示例中,αj可以在1至100的范围内并且βj可以在1至25的范围内。图20是示例实施例中的扬声器激活的图。根据该示例,图20示出了扬声器激活1505c、1510c、1515c、1520c和1525c,其包括如先前图的相同扬声器位置的成本函数的最佳解,加上由wij表示的推斥力。图21是示例实施例中的对象渲染位置的图。在该示例中,图21示出了针对大量可能对象角度的理想对象位置1630c和针对那些对象的对应实际渲染位置1635c,通过虚线1640c连接到理想对象位置1630c。实际渲染位置1635c离开固定位置的倾斜取向说明了推斥子权重对成本函数的最佳解的影响。
第三个示例用例是将音频“推动”离开声学上敏感的地标,如通向睡着的婴儿的房间的门。与最后的示例类似,将设置为与180度的门位置(绘图的底部中心)相对应的矢量。为了实现更强的推斥力并且将声场完全倾斜到主要收听空间的前部,设置αj=20,βj=5。图22是示例实施例中的扬声器激活的图。再次,在该示例中,图22示出了扬声器激活1505d、1510d、1515d、1520d和1525d,其包括对同一组扬声器位置的最佳解,加上更强的推斥力。图23是示例实施例中的对象渲染位置的图。并且再次,在该示例中,图23示出了针对大量可能对象角度的理想对象位置1630d和针对那些对象的对应实际渲染位置1635d,通过虚线1640d连接到理想对象位置1630d。实际渲染位置1635d的倾斜取向说明了更强的推斥子权重对成本函数的最佳解的影响。
一些公开的实施方式的各方面包括一种被配置(例如,被编程)为执行一个或多个所公开的方法的系统或设备,以及一种存储用于实施一个或多个所公开的方法或其步骤的代码的有形计算机可读介质(例如,磁盘)。例如,系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器,所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种,包括一种或多种所公开的方法或其步骤。这种通用处理器可以是或者包括计算机系统,所述计算机系统包括输入设备、存储器和处理子系统,所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行一种或多种所公开的方法(或其步骤)。
一些公开的实施例被实施为可配置的(例如,可编程的)数字信号处理器(DSP),所述DSP被配置(例如,被编程的和以其他方式被配置)为对音频信号执行需要的处理,包括一个或多个公开的方法的执行。替代性地,一些实施例(或其元件)可以被实施为通用处理器(例如,个人计算机(PC)或其他计算机系统或微处理器,其可以包括输入设备和存储器),所述通用处理器被用软件或固件编程和/或以其他方式配置为执行包括一种或多种公开的方法或其步骤的各种操作中的任何一种。替代性地,一些公开的实施例的元件被实施为被配置(例如,被编程)为执行一种或多种公开的方法或其步骤的通用处理器或DSP,并且所述系统还包括其他元件(例如,一个或多个扩音器和/或一个或多个麦克风)。被配置为执行一种或多种公开的方法或其步骤的通用处理器通常将耦接到输入设备(例如,鼠标和/或键盘)、存储器和显示设备。
一些公开的实施方式的另一方面是一种计算机可读介质(例如,磁盘或其他有形存储介质),所述计算机可读介质存储用于执行一种或多种公开的方法或其步骤的任何实施例的代码(例如,可执行以执行一种或多种公开的方法或其步骤的任何实施例的编码器)。
虽然在本文中已经描述了具体实施例和应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离在本文中描述的并要求保护的材料的范围的情况下,可以对本文所述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了某些实施方式,但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。
Claims (17)
1.一种音频处理方法,包括:
由控制系统并且经由接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据,所述空间数据指示与所述一个或多个音频信号中的音频信号相对应的预期感知空间位置;
由所述控制系统并且经由所述接口系统接收收听者位置数据,所述收听者位置数据指示与音频环境中的人相对应的收听者位置;
由所述控制系统并且经由所述接口系统接收扩音器位置数据,所述扩音器位置数据指示所述音频环境中的多个扩音器中的每个扩音器的位置;
由所述控制系统并且经由所述接口系统接收扩音器取向数据,所述扩音器取向数据指示(a)所述音频环境中的所述多个扩音器中的每个扩音器的最大声辐射的方向与(b)相对于对应扩音器的所述收听者位置之间的扩音器取向角;
由所述控制系统渲染所述音频数据以至少经由所述音频环境中的所述多个扩音器的子集进行再现,从而产生经渲染的音频信号,其中,所述渲染至少部分地基于所述空间数据、所述收听者位置数据、所述扩音器位置数据和所述扩音器取向数据,并且其中,所述渲染涉及至少部分地基于增大的扩音器取向角来应用倾向于减少扩音器的相对激活的扩音器取向因子;以及
经由所述接口系统至少向所述音频环境中的所述多个扩音器的扩音器子集提供所述经渲染的音频信号。
2.如权利要求1所述的音频处理方法,还包括至少估计所述扩音器子集的扩音器重要性指标。
3.如权利要求2所述的音频处理方法,其中,所述扩音器重要性指标对应于扩音器对在音频信号的预期感知空间位置处渲染所述音频信号的重要性。
4.如权利要求2或权利要求3所述的音频处理方法,其中,每个扩音器的渲染至少部分地基于所述扩音器重要性指标。
5.如权利要求2至4中任一项所述的音频处理方法,其中,每个扩音器的渲染涉及至少部分地基于所述扩音器重要性指标来修改所述扩音器取向因子的效果。
6.如权利要求2至5中任一项所述的音频处理方法,其中,每个扩音器的渲染涉及至少部分地基于增加的扩音器重要性指标来减少所述扩音器取向因子的效果。
7.如权利要求1至6中任一项所述的音频处理方法,其中,特定扩音器的扩音器取向角是以下两者之间的角度:(a)所述特定扩音器的最大声辐射的方向与(b)所述特定扩音器的位置与所述收听者位置之间的线。
8.如权利要求1至7中任一项所述的音频处理方法,还包括确定扩音器取向角是否等于或超过阈值扩音器取向角,其中,所述音频处理方法涉及仅当所述扩音器取向角等于或超过所述阈值扩音器取向角时才应用所述扩音器取向因子。
9.如权利要求8所述的音频处理方法,其中,所述扩音器重要性指标至少部分地基于符合条件的扩音器与(a)与所述符合条件的扩音器具有最短顺时针角距离的第一扩音器和(b)与所述符合条件的扩音器具有最短逆时针角距离的第二扩音器之间的线之间的距离,符合条件的扩音器是扩音器取向角等于或超过所述阈值扩音器取向角的扩音器。
10.如权利要求9所述的音频处理方法,其中,所述第一扩音器和所述第二扩音器是扩音器取向角小于所述阈值扩音器取向角的不符合条件的扩音器。
11.如权利要求1至10中任一项所述的音频处理方法,其中,所述渲染涉及通过优化成本来确定至少所述扩音器子集的相对激活,所述成本是以下各项的函数:
当在所述音频环境中的所述扩音器子集上回放时,所述一个或多个音频信号中的音频信号的感知空间位置的模型;
所述音频信号的预期感知空间位置与所述扩音器子集中的每个扩音器的位置的接近度的度量;以及
一个或多个附加动态可配置功能,其中,所述一个或多个附加动态可配置功能中的至少一个至少部分地基于所述扩音器取向因子。
12.如权利要求11所述的音频处理方法,其中,所述一个或多个附加动态可配置功能中的至少一个至少部分地基于所述扩音器重要性指标。
13.如权利要求11或权利要求12所述的音频处理方法,其中,所述一个或多个附加动态可配置功能中的至少一个至少部分地基于从所述音频环境中的每个扩音器到所述音频环境中的其他扩音器的声学传输的测量或估计。
14.如权利要求1至13中任一项所述的音频处理方法,其中,所述预期感知空间位置对应于基于声道的音频格式的声道或位置元数据中的至少一者。
15.一种被配置为执行如权利要求1至14中任一项所述的音频处理方法的装置。
16.一种被配置为执行如权利要求1至14中任一项所述的音频处理方法的系统。
17.一种或多种非暂态介质,其上存储有软件,所述软件包括用于控制一个或多个设备执行如权利要求1至14中任一项所述的音频处理方法的指令。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US63/277,225 | 2021-11-09 | ||
| US202263364322P | 2022-05-06 | 2022-05-06 | |
| US63/364,322 | 2022-05-06 | ||
| EP22172447.9 | 2022-05-10 | ||
| PCT/US2022/049170 WO2023086303A1 (en) | 2021-11-09 | 2022-11-07 | Rendering based on loudspeaker orientation |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118216163A true CN118216163A (zh) | 2024-06-18 |
Family
ID=91452468
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202280074149.7A Pending CN118216163A (zh) | 2021-11-09 | 2022-11-07 | 基于扩音器取向的渲染 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118216163A (zh) |
-
2022
- 2022-11-07 CN CN202280074149.7A patent/CN118216163A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12003946B2 (en) | Adaptable spatial audio playback | |
| JP7714764B2 (ja) | 複数のスピーカーを通じた複数のオーディオ・ストリームの再生の管理 | |
| CN114788304B (zh) | 用于减少环境噪声补偿系统中的误差的方法 | |
| KR102877670B1 (ko) | 분산형 오디오 디바이스들을 위한 음향 반향 소거 제어 | |
| US20240422503A1 (en) | Rendering based on loudspeaker orientation | |
| JP7789915B2 (ja) | 分散型オーディオデバイスダッキング | |
| CN118216163A (zh) | 基于扩音器取向的渲染 | |
| US20240284136A1 (en) | Adaptable spatial audio playback | |
| CN118235435A (zh) | 分布式音频设备闪避 | |
| EP4684538A1 (en) | Rendering audio over multiple loudspeakers utilizing interaural cues for height virtualization | |
| CN116806431A (zh) | 通过相互设备可听性在用户位置处的可听性 | |
| HK40070650A (zh) | 用於分布式音频设备的声学回声消除控制 | |
| HK40066530A (zh) | 音频处理系统、方法和介质 | |
| HK40066530B (zh) | 音频处理系统、方法和介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |