CN112005210A - 多通道源音频的空间特性 - Google Patents
多通道源音频的空间特性 Download PDFInfo
- Publication number
- CN112005210A CN112005210A CN201880092956.5A CN201880092956A CN112005210A CN 112005210 A CN112005210 A CN 112005210A CN 201880092956 A CN201880092956 A CN 201880092956A CN 112005210 A CN112005210 A CN 112005210A
- Authority
- CN
- China
- Prior art keywords
- channel
- audio
- audio input
- source audio
- channel source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
Abstract
在一些示例中,音频控制系统可以包括第一资源集、第二资源集和控制器。第一资源集可以生成多通道源音频输入的频率能量带表示。此外,第二资源集可以至少确定表示多通道源音频输入的多个通道之间的相关强度的值。此外,音频输出控制器可以基于频率能量带表示和第一值来确定用于调谐来自音频信号生成器的声音创建的控制参数集,以反映源音频输入的空间特性集。
Description
背景技术
音频内容经常以多通道格式(例如,杜比5.1或7.1环绕声音格式)递送,以便在多通道声音系统上输出。
附图说明
在附图的各图中,以示例的方式而非限制的方式图示了本文中的公开内容,在附图中,类似的附图标记指代相似的元件,并且其中:
图1A图示了用于将多通道源音频输入重新格式化为多维音频信号的示例音频控制系统;
图1B图示了用于将多通道源音频输入重新格式化为多维音频信号的音频控制系统的另一示例;
图2图示了用于将多通道源音频输入重新格式化为多维音频信号的示例方法;以及
图3图示了可以在其上实现本文中所描述的方面的计算机系统。
贯穿附图,相同的附图标记指定相似但不一定相同的元件。各图不一定按比例,并且一些部件的大小可能被放大以更清楚地图示所示出的示例。此外,附图提供了与描述一致的示例和/或实施方式。然而,描述不限于附图中所提供的示例和/或实施方式。
具体实施方式
多通道源音频输入可以被手动重新格式化或校准为多维音频信号,该多维音频信号当由单声道或立体声音频系统呈现时,模拟由分布式或多通道声音系统产生的校准声场,否则该校准声场可以针对多通道音频源输入进行优化。示例提供了一种音频控制系统,其用于将多通道源音频输入(例如,杜比5.1或7.1环绕声音信号)自动重新格式化或校准为多维音频信号。音频控制系统可以通过生成多通道源音频输入的频带能量表示来重新格式化多通道源音频输入102。此外,音频控制系统可以确定多通道源音频输入的每个通道的相关强度。基于频带能量表示和多通道源音频输入的每个通道之间的相关强度,音频控制系统可以使用经训练的机器学习模型来调谐音频信号生成器,使得从音频信号生成器呈现的声音创建反映多通道源音频输入的空间特性。
如由各种示例所描述的,音频控制系统可以在单声道或立体声或甚至多通道音频系统上操作,以对由分布式或多通道声音系统产生的校准声场进行模拟的方式来呈现声音,否则该分布式或多通道声音系统可以针对多通道音频源输入进行优化。在这样的示例中,由音频控制系统调谐的音频信号生成器呈现的声音可以模拟来自人类操作者手动调谐的音频信号生成器的声音。除了其它益处之外,音频控制系统尤其可以将多通道音频源输入重新格式化为多维音频信号,这比手动过程更快速且更高效,诸如操作者对多通道音频源输入进行手动重新格式化或校准。
本文中所描述的示例提供由计算设备施行的方法、技术和动作是以编程方式或者作为计算机实现的方法来施行的。如所使用的以编程方式意味着通过对代码或计算机可执行指令的使用。这些指令可以存储在计算设备的存储器资源中。以编程方式施行的步骤可以是或可以不是自动的。
此外,本文中所描述的示例可以使用编程模块、引擎或组件来实现。编程模块、引擎或组件可以包括程序、子例程、程序的部分、或者能够施行所陈述任务或功能的软件组件或硬件组件。如本文中所使用的,模块或组件可以独立于其它模块或组件而存在于硬件组件上。替代地,模块或组件可以是其它模块、程序或机器的共享元素或过程。
此外,本文中所描述的示例可以利用专用计算设备,其包括处理和存储器资源。例如,所描述的示例可以全部或部分地在诸如服务器、台式计算机、蜂窝或智能电话、个人数字助理(例如,PDA)、膝上型计算机、打印机、数字相框、网络装备(例如,路由器)、可穿戴计算设备以及平板设备之类的计算设备上实现。存储器、处理和网络资源全部可以与本文中所描述的任何示例的建立、使用或施行(包括与任何方法的施行或与任何系统的实施方式)结合来使用。例如,耦合到存储计算机程序并被配置为执行该程序的数据存储设备的计算设备对应于专用计算设备。另外,说明书中提及的任何计算系统可以包括单个处理器,或者可以是采用多处理器设计以用于增加的计算能力的架构。
另外,本文中所描述的示例可以通过使用可由处理器执行的指令来实现。这些指令可以承载在计算机可读介质上。下面用各图示出或描述的机器提供了处理资源和计算机可读介质的示例,在所述处理资源和计算机可读介质上可以承载和/或执行用于实现所描述示例的指令。特别地,用所描述的示例示出的许多机器包括(一个或多个)处理器和用于保存数据和指令的各种形式的存储器。计算机可读介质的示例包括永久存储器存储设备,诸如个人计算机或服务器上的硬盘驱动。计算机存储介质的其它示例包括便携式存储单元,诸如CD或DVD单元、闪速存储器(诸如智能电话、多功能设备或平板上承载的)以及磁性存储器。计算机、终端、网络使能设备(例如,诸如手机之类的移动设备)全部是利用处理器、存储器和存储在计算机可读介质上的指令的机器和设备的示例。此外,示例可以以计算机程序或者能够承载这样的程序的计算机可用载体介质的形式来实现。
替代地,本文中所描述的示例可以通过使用由逻辑门的互连组成的专用硬件逻辑电路来实现。这样的电路通常使用诸如Verilog和VHDL之类的硬件描述语言(HDL)来被设计。这些语言包含最终定义电路布局的指令。然而,一旦电路被制造,就不存在指令。通过互连的门来施行所有处理。
系统描述
图1A图示了用于将多通道源音频输入重新格式化为多维音频信号的示例音频控制系统。如图1A中所图示的,音频控制系统100可以将多通道源音频输入102(例如,5.1或7.1环绕声音格式)重新格式化为多维音频信号。多通道源音频输入102可以由空间参数集来表征,该空间参数集最初被调谐以用于通过音频输出设备(例如,多通道音频系统)的特定配置和/或分布进行声音创建。这样的空间参数的具体示例包括电流输出、用户电平、限制器相关参数(例如,与信号电平被限制到的预确定阈值相关的参数)、国际电信联盟(ITU)输出(ITU标准环绕声音输出的参数)、ITU双耳(ITU标准双耳或立体声音输出的参数)、汤姆林森·霍尔曼(Tomlison Holman)的实验(THX)(THX认证环绕声音输出的参数)、左/右双耳、侧双耳、低频效果通道、输出、多频带动态范围压缩、前置上混合(upfront upmix)(例如,用于增加与前置通道相关的通道数量的参数)、中心上混合(例如,用于增加与中心通道相关的通道数量的参数)以及环绕上混合(例如,用于增加与环绕通道相关的通道数量的参数,以及用于滤波器的倾斜参数,以减少或增加到预确定频率以上(例如,ITU标准)。
音频控制系统100可以包括资源(例如,硬件组件,诸如集成电路或专用集成电路;和/或存储在硬件组件上的软件或逻辑,诸如存储在非暂时性计算机可读介质上的软件),其用于将多通道源音频输入102重新格式化或调整为多维音频信号,该多维音频信号保留一些或所有空间特性或参数的物理特性。例如,音频控制系统100可以包括第一资源集(能量频带资源(EFB)104),其用于生成多通道源音频输入102的频率能量带表示);第二资源集(相关器资源)106,其用于至少确定表示多通道源音频输入102之间的相关强度的值;音频输出控制器108,其用于确定用于调谐声音创建的控制参数集,以反映多通道源音频输入102的空间特性或参数集。如由一些示例所描述的,音频输出控制器108可以基于频率能量带表示和多通道源音频输入102的单独通道之间的相关强度的表示值来确定控制参数集。
在一些示例中,第一资源集(EFB资源104)可以处理多通道源音频输入102的每个通道(例如,左环绕通道、右环绕通道、左前通道、右前通道、后中心通道和/或前中心通道),以分别确定多通道源音频输入102的每个通道的频率能量带表示和多通道源音频输入102的每个单独通道之间的相关强度的表示值。
在一些示例中,第一资源集(EFB资源104)可以处理多通道源音频输入102的每个通道(例如,左环绕通道、右环绕通道、左前通道、右前通道、后中心通道和/或前中心通道),以确定多通道源音频输入102的每个通道的频率能量带表示。例如,第一资源集(EFB资源104)可以分析多通道源音频输入102的每个通道的单个或多个频带,以获得多通道源音频输入的能量表示。第一资源集(EFB资源104)可以包括一组听觉滤波器。此外,多通道源音频输入102的每个通道可以是到该听觉滤波器组的输入,以输出每个通道的预确定频率集。例如,多通道源音频输入102可以包括左环绕通道音频信号和左前通道音频信号,并且EFB资源104可以包括第一组听觉滤波器和第二组听觉滤波器。EFB资源104可以将第一组听觉滤波器应用于左环绕通道音频信号,以输出用于左环绕通道音频信号的预确定频率集。此外,EFB资源104可以将第二组听觉滤波器应用于左前通道音频信号,以输出用于左前通道音频信号的预确定频率集。在一些示例中,第一资源集(EFB资源104)可以通过利用每个通道的预确定频率集来生成多通道源音频输入102的每个通道的频率能量带表示。例如,EFB资源104可以基于用于左环绕通道音频信号的预确定频率集来生成用于左侧的左环绕通道音频信号的频带表示。此外,EFB资源104可以基于用于左前通道音频信号的预确定频率集,生成用于左前通道音频信号的频带表示。
在一些示例中,第二资源集(相关器资源106)可以处理多通道源音频输入102的每个通道,以确定多通道源音频输入102的每个单独通道之间的相关强度的表示值。例如,多通道源音频输入可以包括右环绕通道和右前通道的音频信号。此外,在这样的示例中,第二资源集(相关器资源106)可以确定右环绕通道音频信号和右前通道音频信号之间的相关强度和相关强度的表示值。
音频控制系统100可以包括音频输出控制器108,其用于确定可以重新格式化多通道源音频输入102的控制参数集。此外,音频输出控制器108基于多通道源音频输入102的每个通道的频率能量带表示和多通道源音频输入102的每个通道之间的相关强度来确定控制参数集。在一些示例中,音频控制系统100可以包括硬件组件(例如,集成电路或专用集成电路)和/或存储在硬件组件9上的软件或逻辑(例如,存储在非暂时性计算机可读介质上的软件),其用于确定可以重新格式化多通道源音频输入102的控制参数集。
音频信号生成器110可以利用来自音频输出控制器108的控制参数集来调谐来自音频信号生成器110的声音创建,以反映多通道源音频输入102的空间特性集。在一些示例中,音频信号生成器110可以包括诸如集成电路和/或专用集成电路之类的硬件组件,和/或存储在硬件组件上的软件或逻辑(例如,存储在非暂时性计算机可读介质上的软件),以基于控制参数集来调谐声音创建。
图1B图示了用于将多通道源音频输入重新格式化为多维音频信号的音频控制系统的变型的示例。类似于图1A,图1B图示了音频控制系统150,其可以将多通道源音频输入180(例如,5.1或7.1环绕声音格式)重新格式化为多维音频信号。在一些示例中,多通道源音频输入180可以包括空间参数集,其通过分布式和/或适当配置的音频系统来优化来自多通道源音频输入180的声音输出。
如图1B中所图示的,音频控制系统100可以包括一组听觉滤波器(例如,滤波器11601,..., 160n, 滤波器2 1621,..., 162n,...,滤波器N 1641,..., 164n)和对应均方根模块(例如,RMS 1 1661,..., 166n, RMS 2 1681,..., 168n,..., RMS N 1681,..., RMS168n),其用于生成多通道源音频输入180的频率能量带表示;相关器资源166,其用于至少确定表示多通道源音频输入180之间的相关强度的值;音频输出控制器172,其用于确定用于调谐声音创建的控制参数集以反映多通道源音频输入180的空间特性集;以及空间音频参数模块176,其用于利用控制参数集来将多通道源音频输入180重新格式化为多维音频信号。
此外,类似于图1A,音频控制系统152可以通过处理多通道源音频输入180的每个通道来确定多通道源音频输入180的每个通道的频率能量带表示,从而将多通道源音频输入180重新格式化为多维音频信号。音频输出控制器172可以利用频率能量带表示来确定用于调谐多通道源音频输入180的控制参数集,以确定用于调谐声音创建的控制参数集,从而反映多通道源音频输入102的空间特性或参数集。
在一些示例中,多通道源音频输入180的每个通道(例如,左环绕通道、右环绕通道、左前通道、右前通道、后中心通道和/或前中心通道)可以是到单独的听觉滤波器组的输入(例如,前中心通道音频信号可以是到滤波器1 1601,..., 160n的输入,并且右前通道音频信号可以是到滤波器2 1621,..., 162n的输入),以输出每个通道的预确定频率集。在这样的示例中,每个听觉滤波器组可以包括一组带通滤波器。在这样的示例中,带通滤波器组可以模仿人类听觉滤波器组,使得每个听觉滤波器组的输出模仿人耳如何过滤声音。带通滤波器组的示例包括1/3倍频程滤波器组、1/6倍频程滤波器组、1/12倍频程滤波器组、临界带滤波器组、等效矩形带宽以及伽马通(gammatone)滤波器组。
多通道源音频输入180的每个通道的每个预确定频率集可以由对应均方根模块(例如,RMS 1 1601,..., 160n, RMS 1 1621,..., 162n,..., RMS N 1641,..., RMS 164n)处理,以生成每个通道的频率能量带表示。例如,每个通道的每个预确定频率集可以是到对应均方根模块的输入。均方根模块可以用来生成每个通道的频率能量带表示的均方根函数的示例包括:
其中rms(k)是帧中的能量,所述帧由F表示(例如,480个样本/帧),并且X是由k =1,..., M表示的听觉滤波器组中的每个滤波器的输出。
音频输出控制器172可以利用多通道源音频输入180的每个通道(例如,第一通道154、第二通道156……N通道158)之间的相关强度来确定可以重新格式化多通道源音频输入180的控制参数集。例如,相关器资源166可以获得包括第一通道154和第二通道156的多通道源音频信号输入180。相关器资源166可以确定第一通道154和第二通道156之间的相关强度。在一些示例中,相关器资源166可以利用以下函数来确定右前通道和后中心通道之间以及多通道源音频信号180中包括的任何其它通道之间的相关强度:
其中ri,j(l)是相关强度,F是帧,l是滞后,并且xi和xj是被比较的通道。
此外,相关器资源166可以为多通道源音频输入180的通道确定去相关参数集,所述通道具有高相似性程度或具有高相关强度。在一些示例中,音频输出控制器172还可以利用去相关参数来确定可以重新格式化多通道源音频输入180的控制参数集。多通道源音频输入180的不同通道之间的相关强度可以指示不同通道的音频信号之间的相似性程度。不同通道之间的相似性程度越大,或者不同通道之间的相关性越重,可以指示强的单声道虚拟源或幻影源。例如,单声道或立体声音频系统可以输出具有如下通道的多通道源音频输入180:所述通道具有与彼此有高相似性程度的音频信号。这样,单声道或立体声音频系统可以输出具有幻影源的音频,该幻影源可以被感知为直接在听众面前,而不是多通道源音频输入180的意图环绕声音特性。
在一些示例中,相关器资源166可以使去相关参数集基于全通滤波器。全通滤波器可以应用于相关方面具有高强度的多通道源音频输入180的通道,以使它们去相关。相关方面的强度越强,可以应用于多通道源音频输入180的去相关高度相关通道的全通滤波器的阶数就越高。在一些示例中,相关器资源166可以使去相关参数基于以下示例N阶的全通滤波器对H(z)和H˜(z)以及极点系数λ而去相关这样的通道。
在一些示例中,音频输出控制器172可以基于由相关器资源166所确定的相关强度来确定全通滤波器上的去相关参数集。
在一些示例中,相关器资源166可以通过使用欧几里德范数(φ = ||ri,j (n)-δ(n - F ) ||2)来确定多通道源音频输入102的每个通道和克罗内克德尔塔函数(δ(n))之间的相关强度。此外,相关器资源166还可以利用欧几里德范数作为标量输入来确定多通道源音频输入180的每个通道之间的相关强度,其中
音频控制系统150可以包括音频输出控制器172,其用于确定可以重新格式化多通道源音频输入180的控制参数集。此外,音频输出控制器172基于多通道源音频输入180的每个通道的频率能量带表示和多通道源音频输入180的每个通道之间的相关强度来确定控制参数集。
在一些示例中,音频输出控制器172可以利用经训练的机器学习模型(例如,经训练的机器学习模型174)来调整音频信号生成器178的参数,以调谐来自音频信号生成器178的声音创建。经训练的机器学习模型(例如,经训练的机器学习模型174)的示例音频输出控制器172可以包括神经网络类型的经训练的机器学习模型。此外,音频输出控制器172可以基于多通道源音频输入180的每个通道的频率能量带表示和多通道源音频输入180的每个通道之间的相关强度,利用经训练的机器学习模型174来确定控制参数集。例如,音频输出控制器172可以利用指示多通道源音频输入102的每个通道之间的相关强度和多通道源音频输入180的每个通道的频率能量带表示的欧几里德范数的输出作为经训练的机器学习模型的输入,以确定控制参数集。在一些示例中,音频输出控制器172可以进一步使控制参数集基于由相关器资源166所确定的去相关参数集。在其它示例中,音频输出控制器172可以利用经训练的机器学习模型174来确定去相关参数集,可以进一步使控制参数集基于该去相关参数集。
可以用机器学习模型的输出来训练机器学习模型。在一些示例中,机器学习模型可以由从人类操作者获得的参数来训练。在一些示例中,机器学习模型可以基于例如多通道源音频输入180的频率能量带表示和多通道源音频输入180的每个通道之间的相关强度来调整其自身的内部参数,以最小化估计的控制参数集与期望的控制参数集之间的差异。
音频信号生成器178可以利用来自音频输出控制器172的控制参数集来调谐来自音频信号生成器178的声音创建,以反映多通道源音频输入180的空间特性集(例如,增益和ITU输出)。在一些示例中,音频信号生成器178可以包括诸如集成电路和/或专用集成电路之类的硬件组件,和/或存储在硬件组件上的软件或逻辑(例如,存储在非暂时性计算机可读介质上的软件),以基于控制参数集来调谐声音创建。
在一些示例中,音频控制系统150可以包括空间音频参数模块176。空间音频参数模块176可以基于由音频输出控制器172所确定和生成的控制参数来重新格式化多通道源音频输入180的空间参数集。在一些示例中,控制参数可以指定要被包括在重新格式化的空间参数集中的增益或去相关参数。空间音频参数模块176可以向音频信号生成器178提供重新格式化的空间参数集连同对应多通道源音频输入180。
音频信号生成器178可以利用来自空间音频参数模块176的重新格式化的空间参数集来将多通道源音频输入102重新格式化为单声道或立体声音频系统的多维音频信号。这样,从多维音频信号创建的声音反映了多通道源音频输入180的空间特性。多维音频信号可以使得单声道或立体声音频系统输出对分布式或多通道声音系统进行模拟的声音,否则该分布式或多通道声音系统可以针对多通道源音频输入102进行优化。
方法学
图2图示了用于将多通道源音频输入重新格式化为多维音频信号的示例方法。在图2的下面讨论中,出于图示用于施行如所描述的示例方法的合适组件的目的,可以对表示如关于图1A所示出和所描述的特征的参考字符进行参考。
在一些示例中,音频控制系统100可以生成多通道源音频输入(200)的频率能量带表示。例如,音频控制系统100可以包括第一资源集(EFB资源104),其用于确定和生成多通道源音频输入102的每个通道(例如,左环绕通道、右环绕通道、左前通道、右前通道、后中心通道和/或前中心通道)的频率能量带表示。
此外,音频控制系统100可以确定表示多通道源音频输入的每个通道之间的相关强度的值(202)。例如,音频控制系统100可以包括相关器资源106,其用于至少确定表示多通道源音频输入102的每个通道之间的相关强度的值。
基于表示多通道源音频输入的每个通道之间的相关强度的值和多通道源音频输入的频率能量带表示,音频控制系统100可以确定用于调谐来自音频信号生成器110的声音创建的控制参数集(204)。在一些示例中,音频控制系统100可以包括音频输出控制器108,其用于基于多通道源音频输入102的每个通道的频率能量带表示和表示多通道源音频输入102的每个通道之间的相关强度的值来确定控制参数集。在一些示例中,音频输出控制器108可以基于多通道源音频输入102的每个通道的频率能量带表示和多通道源音频输入102的每个通道之间的相关强度,利用经训练的机器学习模型来确定控制参数集。
硬件图解
图3是图示了可以在其上实现本文中所描述的示例的计算机系统的框图。在一个实施例中,计算机系统300可以对应于移动计算设备,诸如能够进行电话、传消息和数据服务的蜂窝设备。计算机系统300可以对应于由用户操作的设备。这样的设备的示例包括与蜂窝载体通信的智能电话、手机、平板设备或车载计算设备。计算机系统300包括处理器310、存储器资源320、显示组件330(例如,诸如触敏显示设备)、通信子系统340(包括无线通信系统)以及音频输出设备350(例如,扬声器)。在一些变型中,音频输出设备相对于计算机系统的外壳具有单个虚拟或物理位置。在其它变型中,与例如存在于多通道音频输入中的多个通道相比,音频输出设备350可以具有有限数量的分布点。
在一些示例中,通信子系统340可以通过(一个或多个)网络370(例如,数据通道和语音通道)发送和接收蜂窝数据。通信子系统340可以包括蜂窝收发器和一个或多个短程无线收发器。处理器310可以从例如通过(一个或多个)网络370链接到计算机系统300的音频源(图3中未图示)接收多通道音频内容,使得计算机系统300经由通信子系统340接收多通道音频输入。在其它示例中,可以从存储器资源320检索多通道音频输入,或者经由麦克风(未示出)接收多通道音频输入。
存储器资源320可以存储用于多种操作的指令。例如,如图3中所图示的,存储器资源320可以包括频率能量带指令322、相关强度指令324和控制参数指令326。此外,处理器310可以执行频率带指令322、相关强度指令324和控制参数指令326,以施行用于实现诸如与图2的示例一起描述的方法的操作。仍然进一步地,处理器310可以执行频率能量带指令322、相关强度指令324和控制参数指令326,以实现音频控制系统100、150的功能,诸如与图1A和图1B的示例一起描述的那样。处理器310可以执行指令以将多通道音频输入(例如,如经由通信子系统340所接收的)重新格式化为多维输出,该多维输出可以通过使用音频输出设备350来创建再现多通道音频输入的空间特性的声音。
尽管本文中已经图示和描述了特定示例,但是本领域的普通技术人员将理解,在不脱离本公开的范围的情况下,可以用多种替代和/或等同的实施方式来替换所示出和描述的特定示例。本申请意图覆盖本文中所讨论的特定示例的任何改写或变型。
Claims (15)
1.一种音频控制系统,包括:
第一资源集,其用于生成多通道源音频输入的频率能量带表示;
第二资源集,其用于至少确定表示多通道源音频输入的每个通道之间的相关强度的值;以及
音频输出控制器,其用于基于频率能量带表示和所述值,确定用于调谐来自音频信号生成器的声音创建的控制参数集,以反映多通道源音频输入的空间特性集。
2.根据权利要求1所述的音频控制系统,其中所述控制器利用机器学习模型来确定控制参数集。
3.根据权利要求1所述的音频控制系统,其中所述第一资源集包括一组听觉滤波器。
4.根据权利要求3所述的音频控制系统,其中所述听觉滤波器组基于基膜。
5.根据权利要求3所述的音频控制系统,其中听觉滤波器组中的每个滤波器的输出由均方根函数应用。
6.根据权利要求3所述的音频控制系统,其中所述听觉滤波器组包括要被应用于多通道源音频输入的第一通道的第一听觉滤波器集。
7.根据权利要求6所述的音频控制系统,其中所述听觉滤波器组是带通滤波器。
8.根据权利要求7所述的音频控制系统,其中所述听觉滤波器组包括1/3倍频程滤波器组、1/6倍频程滤波器组、1/12倍频程滤波器组、临界带滤波器组、等同矩形带宽和伽马通(gammatone)滤波器组中的至少一个。
9.根据权利要求1所述的音频控制系统,其中所述第二资源集进一步基于表示多通道源音频输入的多个通道之间的相关强度的值来确定去相关参数集。
10.根据权利要求1所述的音频控制系统,其中所述控制器进一步基于表示多通道源音频输入的多个通道之间的相关强度的值来确定去相关参数集。
11.根据权利要求1所述的音频控制系统,其中所述控制参数集包括用于增益的参数和用于去相关的参数。
12.根据权利要求1所述的音频控制系统,其中所述多通道源音频输入以5.1环绕声音格式。
13.根据权利要求1所述的音频控制系统,其中所述多通道源音频输入以7.1环绕声音格式。
14.一种音频设备,包括:
音频控制组件,包括:
第一资源集,其用于生成多通道源音频输入的频率能量带表示;
第二资源集,其用于至少确定表示多通道源音频输入的每个通道之间的相关强度的值;
控制器,其用于基于频率能量带表示和表示多通道源音频输入的每个通道之间的相关强度的值来确定控制参数集;以及
音频信号生成器,其用于基于控制参数集,调谐声音创建以反映多通道源音频输入的空间特性集。
15.一种方法,包括:
生成多通道源音频输入的频率能量带表示;
确定表示多通道源音频输入的每个通道之间的相关强度的第一值;以及
基于多通道源音频输入的频率能量带表示和表示多通道源音频输入的每个通道之间的相关强度的值,确定用于调谐来自音频信号生成器的声音创建的控制参数集。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/US2018/048929 WO2020046349A1 (en) | 2018-08-30 | 2018-08-30 | Spatial characteristics of multi-channel source audio |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN112005210A true CN112005210A (zh) | 2020-11-27 |
Family
ID=69645329
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880092956.5A Pending CN112005210A (zh) | 2018-08-30 | 2018-08-30 | 多通道源音频的空间特性 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11586411B2 (zh) |
| EP (1) | EP3765954A4 (zh) |
| CN (1) | CN112005210A (zh) |
| WO (1) | WO2020046349A1 (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11937065B2 (en) * | 2019-07-03 | 2024-03-19 | Qualcomm Incorporated | Adjustment of parameter settings for extended reality experiences |
| US11678111B1 (en) | 2020-07-22 | 2023-06-13 | Apple Inc. | Deep-learning based beam forming synthesis for spatial audio |
| EP4339941A1 (en) * | 2022-09-13 | 2024-03-20 | Koninklijke Philips N.V. | Generation of multichannel audio signal and data signal representing a multichannel audio signal |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101053152A (zh) * | 2005-07-29 | 2007-10-10 | 哈曼国际工业有限公司 | 音频调谐系统 |
| CN104041079A (zh) * | 2012-01-23 | 2014-09-10 | 皇家飞利浦有限公司 | 音频再现系统及其方法 |
| CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
| CN104704558A (zh) * | 2012-09-14 | 2015-06-10 | 杜比实验室特许公司 | 基于多声道音频内容分析的上混检测 |
| US20160322055A1 (en) * | 2015-03-27 | 2016-11-03 | Google Inc. | Processing multi-channel audio waveforms |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ATE284121T1 (de) * | 1994-10-06 | 2004-12-15 | Fidelix Y K | Verfahren zur wiedergabe von audiosignalen und vorrichtung dafür |
| US6285767B1 (en) | 1998-09-04 | 2001-09-04 | Srs Labs, Inc. | Low-frequency audio enhancement system |
| JP4257079B2 (ja) | 2002-07-19 | 2009-04-22 | パイオニア株式会社 | 周波数特性調整装置および周波数特性調整方法 |
| WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
| RU2472306C2 (ru) | 2007-09-26 | 2013-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды |
| US9584235B2 (en) | 2009-12-16 | 2017-02-28 | Nokia Technologies Oy | Multi-channel audio processing |
| GB201109012D0 (en) | 2011-05-27 | 2011-07-13 | Wolfson Microelectronics Plc | Digital signal routing circuit |
| US9332373B2 (en) | 2012-05-31 | 2016-05-03 | Dts, Inc. | Audio depth dynamic range enhancement |
| US9622014B2 (en) * | 2012-06-19 | 2017-04-11 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
| KR102160254B1 (ko) * | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
| GB2543275A (en) | 2015-10-12 | 2017-04-19 | Nokia Technologies Oy | Distributed audio capture and mixing |
| EP3357259B1 (en) * | 2015-09-30 | 2020-09-23 | Dolby International AB | Method and apparatus for generating 3d audio content from two-channel stereo content |
| US9961467B2 (en) * | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from channel-based audio to HOA |
| GB2549532A (en) * | 2016-04-22 | 2017-10-25 | Nokia Technologies Oy | Merging audio signals with spatial metadata |
| US10863297B2 (en) * | 2016-06-01 | 2020-12-08 | Dolby International Ab | Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position |
| GB2554447A (en) | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Gain control in spatial audio systems |
| WO2018096036A1 (en) * | 2016-11-23 | 2018-05-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for adaptive control of decorrelation filters |
| US11277705B2 (en) * | 2017-05-15 | 2022-03-15 | Dolby Laboratories Licensing Corporation | Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals |
| US10694311B2 (en) * | 2018-03-15 | 2020-06-23 | Microsoft Technology Licensing, Llc | Synchronized spatial audio presentation |
| EP3584927B1 (en) * | 2018-06-20 | 2021-03-10 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on an audio device |
-
2018
- 2018-08-30 CN CN201880092956.5A patent/CN112005210A/zh active Pending
- 2018-08-30 WO PCT/US2018/048929 patent/WO2020046349A1/en not_active Ceased
- 2018-08-30 US US17/047,333 patent/US11586411B2/en active Active
- 2018-08-30 EP EP18932131.8A patent/EP3765954A4/en not_active Withdrawn
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101053152A (zh) * | 2005-07-29 | 2007-10-10 | 哈曼国际工业有限公司 | 音频调谐系统 |
| CN104041079A (zh) * | 2012-01-23 | 2014-09-10 | 皇家飞利浦有限公司 | 音频再现系统及其方法 |
| CN104704558A (zh) * | 2012-09-14 | 2015-06-10 | 杜比实验室特许公司 | 基于多声道音频内容分析的上混检测 |
| CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
| US20160322055A1 (en) * | 2015-03-27 | 2016-11-03 | Google Inc. | Processing multi-channel audio waveforms |
Also Published As
| Publication number | Publication date |
|---|---|
| US11586411B2 (en) | 2023-02-21 |
| EP3765954A1 (en) | 2021-01-20 |
| EP3765954A4 (en) | 2021-10-27 |
| US20210191685A1 (en) | 2021-06-24 |
| WO2020046349A1 (en) | 2020-03-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10142763B2 (en) | Audio signal processing | |
| CN104581610B (zh) | 一种虚拟立体声合成方法及装置 | |
| EP3776544A1 (en) | Spatial audio parameters and associated spatial audio playback | |
| CN114203163A (zh) | 音频信号处理方法及装置 | |
| US10798511B1 (en) | Processing of audio signals for spatial audio | |
| US9838821B2 (en) | Method, apparatus, computer program code and storage medium for processing audio signals | |
| WO2018132235A1 (en) | Decoupled binaural rendering | |
| US10412226B2 (en) | Audio signal processing apparatus and method | |
| US10009704B1 (en) | Symmetric spherical harmonic HRTF rendering | |
| CN114242025B (zh) | 一种伴奏的生成方法、设备及存储介质 | |
| US20200045493A1 (en) | Matrix decomposition of audio signal processing filters for spatial rendering | |
| CN112005210A (zh) | 多通道源音频的空间特性 | |
| CN111464932A (zh) | 基于多个听音点的声场重建方法、装置、设备及存储介质 | |
| CN106535043A (zh) | 一种基于生理特征的全频段3d虚拟声定制方法及装置 | |
| CN113889135A (zh) | 一种估计声源波达方向的方法、电子设备及芯片系统 | |
| CN111798866B (zh) | 音频处理网络的训练及立体声重构方法和装置 | |
| EP3025514B1 (fr) | Spatialisation sonore avec effet de salle | |
| JP2025174906A (ja) | オーディオアップミックス方法及びオーディオ機器 | |
| WO2017121245A1 (zh) | 环绕立体声实现方法、电子设备及存储介质 | |
| CN113055809A (zh) | 一种5.1声道信号生成方法、设备及介质 | |
| US20120020483A1 (en) | System and method for robust audio spatialization using frequency separation | |
| US11272286B2 (en) | Method, apparatus and computer program for processing audio signals | |
| WO2021154211A1 (en) | Multi-channel decomposition and harmonic synthesis | |
| TW202036268A (zh) | 音訊處理方法與音訊處理系統 | |
| CN109074811B (zh) | 音频源分离 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201127 |