[go: up one dir, main page]

CN112205006B - 音频内容的自适应再混合 - Google Patents

音频内容的自适应再混合 Download PDF

Info

Publication number
CN112205006B
CN112205006B CN201980036214.5A CN201980036214A CN112205006B CN 112205006 B CN112205006 B CN 112205006B CN 201980036214 A CN201980036214 A CN 201980036214A CN 112205006 B CN112205006 B CN 112205006B
Authority
CN
China
Prior art keywords
separation
signal
evaluation
audio
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980036214.5A
Other languages
English (en)
Other versions
CN112205006A (zh
Inventor
斯特凡·乌利希
弗兰克·吉龙
迈克尔·埃嫩克尔
托马斯·肯普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN112205006A publication Critical patent/CN112205006A/zh
Application granted granted Critical
Publication of CN112205006B publication Critical patent/CN112205006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

一种电子装置,包括:音频源分离单元(201),被配置为基于音频源分离确定与输入信号(1)的分离(2);评估单元(203),被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3);以及自适应再混合/上混合单元(202),被配置为基于分离(2)并且基于评估结果(3)来确定输出信号(4)。

Description

音频内容的自适应再混合
技术领域
本公开总体上涉及音频处理领域,具体地,涉及用于音频源分离和自适应上混合/再混合的方法和设备。
背景技术
例如,存在以光盘(CD)、磁带、可从互联网下载的音频数据文件的形式,还有以例如存储在数字视频磁盘等上的视频的声轨的形式等的许多可用的音频内容。通常,例如,针对单信道或者立体声设置,音频内容已从原始音频源信号混合而无需从用于产生音频内容的原始音频源中保持原始音频源信号。然而,存在设想再混合或者上混合音频内容的情况或者应用。例如,在将在比提供的音频内容具有更多可用音频信道的设备上播放音频内容的情况,例如,要在立体声设备上播放单信道音频内容、要在具有六个音频信道的环绕声设备上播放立体声音频内容等。在其他情况下,将修正所感知的音频源的空间位置或者将修正所感知的音频源的响度。
虽然普遍存在用于再混合音频内容的技术,但是,通常期望改进用于再混合音频内容的方法和设备。
发明内容
根据第一方面,本公开提供一种电子装置,包括:音频源分离单元,被配置为基于音频源分离确定与输入信号的分离;评估单元,被配置为基于机器学习,从分离和输入信号确定音频源分离的评估结果;以及自适应再混合/上混合单元,被配置为基于分离并且基于评估结果确定输出信号。
根据又一方面,本公开提供一种方法,包括:音频源分离过程,被配置为基于音频源分离确定与输入信号的分离;评估过程,被配置为基于机器学习从分离和输入信号确定音频源分离的评估结果;以及自适应再混合/上混合过程,被配置为基于分离并且基于评估结果来确定输出信号。
根据另一方面,本公开提供一种包括指令的计算机程序,指令在处理器上执行时使得处理器:基于音频源分离确定与输入信号的分离;基于机器学习,从分离和输入信号确定音频源分离的评估结果;以及通过自适应再混合/上混合基于分离并且基于评估结果来确定输出信号。
附图说明
参照附图通过示例的方式说明实施方式,在附图中:
图1示意性地示出了通过音频源分离(BSS)进行音频上混合/再混合的通用方法;
图2示意性地示出了基于盲法评估进行自适应再混合/上混合的方法;
图3对盲法评估的过程进行可视化;
图4示意性地描述训练CNN以执行源分离过程的盲法评估的过程;
图5a、图5b对自适应信号再混合/上混合的第一实施方式进行可视化;
图6示出了对根据第一实施方式的用于自适应信号再混合/上混合的方法进行可视化的流程图;以及
图7a、图7b、图7c和图7d示出了自适应信号再混合/上混合的第二实施方式。
图8提供了应用数字化单极综合算法的系统的示意图;以及
图9示意性地描述可用作自适应再混合/上混合系统的电子系统的实施方式。
具体实施方式
在参考图1至图6给出实施方式的详细说明之前,先进行一些概要说明。
实施方式公开了一种电子装置,包括:音频源分离单元,被配置为基于音频源分离确定与输入信号的分离;评估单元,被配置为基于机器学习从分离和输入信号确定盲源分离的评估结果;以及自适应再混合/上混合单元,被配置为基于分离并且基于评估结果来确定输出信号。
在音频源分离中,包括多个源(例如,乐器、语音等)的输入信号被分解为分离。音频源分离可以是无监督的(称为“盲源分离”,BSS)或部分监督的。“盲”意味着盲源分离不一定具有关于原始源的信息。例如,可能不一定知道原始信号包含多少源或输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在不知道之前的分离的情况下分解原始信号分离。盲源分离单元可使用技术人员已知的盲源分离技术中的任一种。在(盲)源分离中,可搜索在概率意义或者信息论意义上最小相关或者最大独立的源信号,或者基于音频源信号上的非负矩阵分解结构约束可以找到源信号。用于执行(盲)源分离的方法是本领域技术人员已知的,并且基于例如主分量分析、奇异值分解、非独立(独立)分量分析技术、非负矩阵分解、人工神经网络等。
尽管一些实施方式使用盲源分离用于生成分离的音频源信号,但是本公开不限于其中没有另外的信息用于分离音频源信号的实施方式,而是在一些实施方式中,另外的信息用于生成分离的音频源信号。例如,这种另外的信息可以是关于混合处理的信息、关于输入音频内容中包括的音频源的类型的信息、关于输入音频内容中包括的音频源的空间位置的信息等。
输入信号可以是任何类型的音频信号。其可以是以模拟信号、数字信号的形式,其可以来源于光盘、数字视频磁盘等,其可以是数据文件,诸如波文件、mp3文件等,并且本公开不限于输入音频内容的具体格式。输入音频内容可以例如是具有第一信道输入音频信号和第二信道输入音频信号的立体声音频信号,而本公开不限于具有两个音频信道的输入音频内容。在其他实施方式中,输入音频内容可以包括任何数量的信道,诸如,5.1音频信号等的再混合。
输入信号可包括一个或多个源信号。具体地,输入信号可包括若干音频源。音频源可以是产生声波的任何实体,例如,音乐乐器、语音、歌声(vocals)、(例如来源于合成器的)人工生成声音等。
输入音频内容可以表示或者包括混合音频源,这意味着声音信息并不是分离地可用于输入音频内容的所有音频源,而是例如,针对不同音频源的声音信息至少部分地重叠或者混合。
由输入信号通过盲源分离而产生的分离可以例如包括歌声分离、贝斯分离、鼓分离和其他分离。在歌声分离中,可包括属于人类语音的所有声音,在贝斯分离中,可包括低于预定义阈值频率的所有噪声,在鼓分离中,可包括属于歌曲/音乐片段中的鼓的所有噪声,并且在其他分离中,可包括所有剩余的声音。
更进一步地,分离还可以包括残留。
当进行音频源分离(例如,盲源分离(BSS))和后续再混合/上混合时,评估单元评估BSS工作得有多好。在盲源分离的分离结果较差的情况下,由于语音已在不同输出信道中被错误地分离,因此最初属于一起的声音(例如,歌手的语音)会变得分裂,导致房间中的不同扬声器播放不同音节。如果发生这种情况,此外房间中的扬声器处于不同的位置(例如,在环绕系统中),则收听输出声音的用户可从来自不同方向的相同语音中听到不同音节。这会导致用户认为歌手移动了或者声音来自意想不到的奇怪的方向的效果。
在再混合/上混合中,处理从盲源分离获得的分离。在实施方式中的再混合/上混合是自适应的,因为其受到通过盲法评估提供的评估结果的影响。例如,在被认为是表示“良好”分离的估计分离的情况下,与在被认为是表示“较差”分离的估计分离的情况相比,再混合/上混合可以更广泛。本公开不限于特定数量的音频信道,可以实现所有种类的再混合、上混合和下混合。
上混合/再混合的质量可以取决于源分离的质量。源分离成乐器(诸如,“贝斯”、“鼓”、“其他”和“歌声”)的一个常见问题是“其他”和“歌声”并没有被清楚地分离。例如,长笛或合成器信号的部分可能被错误地分离成“歌声”。如果再混合/上混合系统不知道分离失败,则收听者将察觉到令人讨厌的伪迹。例如,如果“歌声”被放置在收听者的前面并且“其他”被放置在收听者的后面,则长笛/合成器可被感知为在前面与后面之间移动。
评估单元可以例如包括人工神经网络(ANN)。评估单元可以例如包括可以通过技术人员已知的所有构造方法来实现的人工神经网络。人工神经网络ANN可以例如是卷积神经网络(CNN)。可替代地,人工神经网络(ANN)可以是循环神经网络,或完全连接的神经网络等。具体地,ANN可以被实现为在CMOS(互补金属氧化物半导体)、纳米器件、GPU(图形处理单元)、晶体管等中创建的一个或多个计算器件。
评估单元可能已被训练用于评估音频源分离。例如,可以例如根据本领域技术人员已知的任何技术或方法(具体地,监督学习、非监督学习(Hebbian学习)、强化学习等)通过机器学习过程来执行评估单元的训练。
评估单元可被配置为确定估计的信号失真比(SDR)、估计的图像与空间失真比(ISR)、估计的信号干扰比(SIR)和/或估计的信号伪迹比(SAR)作为评估结果。可替换地,评估单元可被配置为确定主观质量度量(例如,人类意见得分),其为人类所感知的分离质量的估计。
自适应再混合/上混合单元可被配置为根据评估结果来确定再混合/上混合的程度。例如,下文描述的实施方式允许估计分离的程度且在其之后以不同的方式动态地驱动扬声器。在分离较差的情况下,例如,由于所有声音来自所有方向,收听系统可通过以相同音量驱动所有扬声器来减小其环绕效果,从而抑制听取来自错误方向的声音的效果。
如果对源分离进行了评估,则可以提高再混合/上混合性能。如果源分离良好,则再混合/上混合可以更积极(即,将分离进一步分开,这增大了收听者环绕感)。如果源分离较差,则再混合/上混合可以更保守。
例如,自适应再混合/上混合单元可以例如被配置为基于评估结果来确定虚拟声源的位置。再混合/上混合可以例如涉及将乐器放置到新的位置。例如,立体声歌曲可以被分成“贝斯”、“鼓”、“其他”和“歌声”并且被上混合到5.1系统,在该系统中,现在将例如包含钢琴、吉他、合成器等的“其他”放置在收听者的背面。由此,可增大所感知的听者环绕感。
自适应再混合/上混合单元可被配置为基于评估结果来确定应用于一个或多个分离的音频效果的量。
自适应再混合/上混合单元可被配置为基于评估结果确定用于渲染输出信号的输出信道的数量。
实施方式还公开了一种方法,包括:音频源分离过程,被配置为基于音频源分离确定与输入信号的分离;评估过程,被配置为基于机器学习从分离和输入信号确定音频源分离的评估结果;以及自适应再混合/上混合过程,被配置为基于分离并且基于评估结果确定输出信号。这些实施方式还包括一种方法,该方法具有以上描述的以及在以下更详细地描述的附图中的所有过程方面。
根据另一方面,本公开提供一种包括指令的计算机程序,指令在处理器上执行时使得处理器:基于音频源分离确定与输入信号的分离;基于机器学习从分离和输入信号确定音频源分离的评估结果;以及通过自适应再混合/上混合基于分离和评估结果确定输出信号。这些实施方式还包括计算机程序,该计算机程序实施以上和以下更详细描述的附图中所描述的所有过程方面。这样的程序可以在计算机、处理器、平板计算机、智能电话、hi-fi单元或技术人员想要选择的任何其他装置上运行。
如本文中使用的术语“信号”不限于任何具体格式,并且其可以是模拟信号、数字信号或存储在数据文件中的信号或任何其他格式。
现将参考附图描述实施方式。
通过盲源分离(BSS)的音频上混合/再混合
图1示意性地示出通过盲源分离(BSS)的音频上混合/再混合的通用方法。
首先,执行源分离(也称为“下混合”),源分离将包括两个信道1a、1b的立体声源音频信号1和来自多个音频源(源1、源2、……源K)(例如,乐器、语音等)的音频分解成“分离”,这里分解为源估计2a-2d,其中,K是整数,并且表示音频源的数量。由于音频源信号的分离可能是不完美的,例如,由于音频源的混合,因此除了分离的音频源信号2a,...,2d之外,还生成残留信号3(r(n))。残留信号可以例如表示输入音频内容与所有分离的音频源信号的和之间的差值。由每个音频源发射的音频信号在输入音频内容1中由其相应的记录的声波表示。对于具有超过一个音频信道的输入音频内容,诸如立体声输入音频内容或者环绕声输入音频内容,音频源的空间信息也可以包括在输入音频内容内或者通过输入音频内容表示,例如通过包括在不同音频信道中的音频源信号的比例表示。基于盲源分离或能够分离音频源的其他技术来执行将输入音频内容1分离为分离的音频源信号2a-2d和残留3。
在第二步骤中,分离2a-d和可能的残留3被再混合并且渲染为新的扬声器信号4,在此为包括5个信道4a,...,4e的信号。基于分离的音频源信号和残留信号,通过基于空间信息来混合分离的音频源信号和残留信号生成输出音频内容。在图1中示例性示出输出音频内容并且输出音频内容由参考标号4表示。
在下文中,输入音频内容的音频信道的数量被称为Min并且输出音频内容的音频信道的数量被称为Mout。由于图1的实例中的输入音频内容1具有两个信道1a和1b,并且图1的实例中的输出音频内容4具有五个信道4a,...,4e,Min=2并且Mout=5。图1中的方法通常被称为再混合,并且具体地,如果Min<Mout,则被称为上混合。在图1的实例中,输入音频内容I的音频信道的数量Min=2小于输出音频内容4的音频信道的数量Mout=5,因此,这是从立体声输入音频内容1到5.0环绕声音输出音频内容4的上混合。
基于盲法评估的自适应再混合/上混合
图2示意性地示出了基于盲法评估的自适应再混合/上混合的方法。方法包括音频源分离201的过程、盲法评估203的过程和自适应再混合/上混合202的过程。如以上关于图1所描述的,具有Min信道的输入信号被输入到源分离201,并且被分解为Msep分离。分离信号2被发送到自适应再混合/上混合202和盲法评估203。
盲法评估203被配置为接收输入信号1和分离信号2作为输入。通过将分离信号2与输入信号1进行比较,盲法评估203估计源分离过程的质量。盲法评估203的质量由估计值表示,该估计值在这里是估计的信号失真比SDR。自适应再混合/上混合202基于估计的SDR对分离的信号进行再混合/上混合以获得具有Mout信道的输出信号4。即,再混合/上混合202适应通过盲法评估203估计的源分离202的质量。即,自适应再混合/上混合202可以根据估计的SDR决定再混合/上混合的参数。图2的过程因此提供了音频再混合/上混合系统,并且该音频再混合/上混合系统是自适应的并且使用盲法评估器来确定其设置。例如,如果平均SDR(平均超过所有四个乐器)低,那么分离可以更紧密地放置在一起。此外,可以通过将混响添加到分离中来减少伪迹(例如,音乐噪声)的感知。作为另一实例,可提供再混合/上混合系统,其能够从若干源分离算法选择其使用的分离。在这种场景下,可以并行运行几种源分离算法,并且可以根据盲法评估的结果选择最好的算法。
在图2的实施方式中,盲法评估203的结果是信号失真比SDR。此外或可替代地,盲法评估203过程可确定图像与空间失真比(ISR)、信号干扰比(SIR)和/或信号伪迹比(SAR)。此外,时域或频域中的均方误差可以用作另一客观质量度量。而且,主观得分可以由评估器估计。这些机制是本领域技术人员已知的。
使用人工神经网络(ANN)的盲法评估
图3对盲法评估的过程进行可视化。对于盲法评估,使用人工神经网络(ANN)203,本文中,人工神经网络例如为卷积神经网络(CNN),因为CNN具有良好的图案识别和值估计能力。CNN 203已被训练成估计信号伪迹比(SAR)、信号失真比(SDR)、图像与空间失真比(ISR)和信号干扰比(SIR)作为评估结果3。CNN 203(从图2中的盲源分离202)接收输入信号1(混合)和分离2作为输入。分离2可以例如包括四个信号(歌声信号、鼓信号、贝斯信号和包括残留的其他信号)作为乐器。作为评估结果,CNN 203针对每个乐器输出估计的信号伪迹比SAR、估计的信号失真比SDR、估计的图像与空间失真比ISR和估计的信号干扰比SIR中的至少一个。使用盲法评估器203的输出,可以如以上在图2中描述的那样适配再混合/上混合系统。
图4示意性地描述训练CNN以执行源分离过程的盲法评估的过程。CNN 203被训练成估计盲分离过程201的结果2的信号失真比SDR 3。在训练阶段,使用信号失真比SDR 3作为盲源分离201的总体性能测量。在训练阶段期间,用大量输入信号1(混合)训练CNN 203,输入信号的真实源sij(t)是已知的。例如,通过混合204预定数量的真实源sij(t)(乐器)来生成输入信号1(混合)。对输入信号1(混合)执行盲源评估201,以获得估计分离2(估计的源信号
Figure GDA0002804404760000111
)。
基于真实源sij(t)(乐器)和估计的源信号
Figure GDA0002804404760000112
在过程205中确定盲源分离的质量,质量在此表示为信号失真比SDR 3。假设i是信道索引,并且j是乐器/源索引,则信号失真比SDR 3由下式给出:
Figure GDA0002804404760000113
其中,sij(t)和
Figure GDA0002804404760000114
是真实的和估计的源信号。Min是信道的总数量。通常Min=2,即,用于源分离的输入混合是立体声。所计算的信号失真比SDR3被馈送至盲法评估CNN 203作为训练数据。即,在训练期间,CNN 203接收输入信号1(混合)和从盲源分离201获得的估计的源信号
Figure GDA0002804404760000115
作为输入。如在以上图2和图3的实施方式中所描述的,如果使用足够的训练数据,CNN可以可靠地估计未知分离(未知
Figure GDA0002804404760000116
)的SDR值。因此,在训练阶段期间从混合信号和真实分离中了解实现盲法评估器的CNN。
当使用经训练的CNN 203进行盲法评估时,以上公式不用于盲法评估,因为在训练之后,真实源sij是未知的。
应用
图5a对自适应信号再混合/上混合的实施方式进行可视化。提供了一种具有两个虚拟声源51、52的声音系统,虚拟声源51位于用户31的前面并且虚拟声源52位于用户31的后面。在该实施方式中,定义了wo输出信道(Mout=2)。自适应再混合/上混合过程(图2中的202)将“贝斯”信道、“歌声”信道和“鼓”信道发送到用户31前面的第一声源51。此外,自适应再混合/上混合过程将“其他”信道发送到用户31后面的虚拟声源52。根据通过盲法评估(图2中的203)提供的估计的SDR值,根据图5b中所示的函数确定虚拟声源51和虚拟声源52之间的虚拟距离d。虚拟声源与用户31之间的虚拟距离d可以通过根据距离d定位各个虚拟声源来实现。虚拟声源可例如通过如下文关于图8更详细描述的3D音频渲染技术来产生。
图5b对图5a的实施方式使用的用于自适应信号再混合/上混合的函数进行可视化。该函数示出图5a的两个虚拟声源51和52的距离d作为估计的SDR的函数。对于高SDR值,选择距离d为大于低SDR值的情况下的距离。
图6示出了对根据第一实施方式的用于自适应信号再混合/上混合的方法进行可视化的流程图。在S601处,接收输入信号和从盲源分离获得的乐器/源的估计分离。在S602处,通过基于接收的输入信号和估计分离确定估计的SDR来估计盲分离结果。在S603处,根据SDR确定乐器/源的位置。在S604处,基于所计算的乐器/源的位置,再混合/上混合估计分离。在S605处,用3D声音系统渲染再混合/上混合的信号。
图7a、图7b、图7c和图7d示出了自适应信号再混合/上混合的另一实施方式。在自适应信号再混合/上混合的这个实施方式中,自适应再混合/上混合具有对通过盲法评估获得的某个SDR值作出反应的更多选项。
图7a示出良好(高)估计的SDR值的声音混合。如图7a所示,自适应再混合/上混合(图2中的202)计算输出信号,该输出信号给人的印象是声音来自四个不同方向。在这种情况下,自适应再混合/上混合使用正面的声音方向输出歌声,使用背面的方向输出贝斯和其他,同时使用横向声音方向输出鼓。在图7a的情况下,由盲法评估(图3中的203)提供的估计的SDR值高,使得可以假设在每个分离信道中基本上没有错误地归因的噪声。那么,自适应再混合/上混合决定以彼此相距较大的距离d1、d2、d3和d4放置所有四个虚拟声源。
在图7b的情况下,由盲法评估提供的估计的SDR值是低的,使得自适应再混合/上混合决定以彼此相距较小的距离d1、d2、d3和d4放置所有四个虚拟声源。
图7c示出对小的估计SDR的替代可能反应。如上所述,自适应再混合/上混合产生输出信号,该输出信号给人的印象是声音来自四个不同方向。如果所估计的SDR较小,则存在如果所有歌词声音实际上被分离成歌声分离的不确定性。在源分离较差的情况下,其他和歌声信道可以重叠,因为两者都具有相似的频率。因此,如果以低估计SDR来评估BSS,则可建议从相同的方向/虚拟声源输出其他信道和歌声信道,因为在这种情况下,可避免切换或移动声音方向的效果。如图7c中所示,自适应再混合/上混合基于盲法评估结果来决定以产生输出信号,该输出信号给人的印象是声音仅来自两个不同的方向,鼓、其他和歌声来自用户前面而且只有贝斯来自后面。
图7d示出对小SDR值的不同的可能的反应。如上所述,其他信道和歌声信道可以重叠,这可能产生这种现象,即歌手在歌唱时在舞台上移动,有时他的语音来自前面,有时来自后面。这种印象可以通过使用对歌声的混响或回响效果来减少。混响或回响向歌声添加空间,使得它们听起来更宽,并且因此使得用户更难以确定歌声到来的方向(混响给人的印象是声音来自通过反射引起的其他房间的方向)。该效果可掩盖从错误的源分离出现的特效。自适应再混合/上混合因此可以基于在盲估计中获得的估计的SDR来适配在歌声上的混响的量。
用于数字化单极合成的系统
图8提供了在整数延迟的情况下实现基于数字化单极合成算法的方法的系统的实施方式。
在专利申请US 2016/0037282 A1中更详细地描述了该系统的理论背景,该专利申请通过引证并入本文。
在US 2016/0037282 A1的实施方式中实施的技术在概念上类似于波场合成,波场合成使用有限数量的隔声罩来生成限定的声场。然而,由于合成不会试图对声场进行准确地建模而是基于最小二乘法,因此实施方式的产生原理的基本基础是特定的。
目标声场被建模为放置在定义的目标位置处的至少一个目标单极。在一个实施方式中,目标声场被建模为一个单个目标单极。在其他实施方式中,目标声场被建模为放置在相应定义的目标位置处的多个目标单极。目标单极的位置可以是移动的。例如,目标单极可适于待衰减的噪声源的移动。如果使用多个目标单极来表示目标声场,那么如下所述的基于一组定义的合成单极来合成目标单极的声音的方法可独立地应用于每个目标单极,并且可对针对每个目标单极获得的合成单极的贡献求和以重建目标声场。
源信号x(n)被馈送到由
Figure GDA0002804404760000151
标记的延迟单元和放大单元ap,其中,p=1,...,N是用于合成目标单极信号的相应合成单极的索引。根据该实施方式的延迟和放大单元可应用US 2016/0037282 A1的等式(117)来计算用于合成目标单极信号的结果信号yp(n)=sp(n)。所产生的信号sp(n)被功率放大并且被馈送到扬声器Sp
在本实施方式中,因此以源信号x的延迟和放大分量的形式执行合成。
根据该实施方式,索引为p的合成单极的延迟np对应于目标单极ro和发生器rp之间的欧氏距离r=Rp0=|rp-ro|(Euclidean distance)的声音的传播时间。
此外,根据本实施方式,放大因数
Figure GDA0002804404760000152
与距离r=Rp0成反比。
在系统的可替换实施方式中,可以使用根据US 2016/0037282 A1的等式(118)的修改的放大因数。
仍在系统的可替换实施方式中,相对于US 2016/0037282 A1的图9所描述的映射因子可用于修改放大。
实现方式
图9示意性地描述了可以实现如上所述的基于盲法评估的自适应再混合/上混合的过程的电子系统的实施方式。电子系统900包括作为处理器的CPU 901。电子系统900还包括连接至处理器901的麦克风阵列910、扬声器阵列911和卷积神经网络单元920。处理器901可以例如实现实现关于图2更详细描述的过程的盲源分离单元、自适应再混合/上混合单元和/或盲法评估单元。CNN单元可以例如是硬件中的人工神经网络,例如,GPU上的神经网络或专用于实现人工神经网络目的的任何其他硬件。如以上实施方式中所述,扬声器阵列911由分布在预定空间上并且被配置为渲染3D音频的一个或多个扬声器组成。电子系统900还包括连接到处理器901的用户接口912。该用户接口912用作人机接口,并实现管理员与电子系统之间的对话。例如,管理员可使用该用户接口912对系统进行配置。电子系统900还包括以太网接口921、蓝牙接口904和WLAN接口905。这些单元904,905用作与外部设备进行数据通信的I/O接口。例如,具有以太网、WLAN或蓝牙连接的额外扬声器、麦克风和摄像机可经由这些接口921、904和905耦合到处理器901。
电子系统900还包括数据存储器902和数据存储器903(此处为RAM)。数据存储器903被设置为临时存储或缓存数据或计算机指令以由处理器901处理。数据存储器902被设置成例如用于记录传感器数据的长期存储器,传感器数据是从麦克风阵列910获得的并且被提供给CNN单元920或从该CNN单元检索。数据存储器902还可存储表示音频消息的音频数据,该公共播报系统可将该音频消息传送给在预定义空间中移动的人。
使用卷积神经网络的盲法评估的过程可以由神经网络920实现,或者可替换地,可以利用卷积神经网络的软件实现在处理器901上实现盲法评估。人工神经网络可被实现为卷积神经网络(如在以上实施方式中所描述的),或通过神经网络(诸如,深度神经网络、循环神经网络等)来实现。
应注意,以上描述仅是示例配置。替代配置可以用附加或其他传感器、存储装置、接口等来实现。
***
应认识到,实施方式描述了具有方法步骤的示例性序列的方法。然而,方法步骤的特定序列仅仅是为了说明的目的,不应被解释为具有约束力。
应当注意,将图9的电子系统划分为单元仅用于图示的目的并且本公开不限于具体单元中的功能的任何具体划分。例如,电路的至少部分可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。
如果没有另外说明,在本说明书中所描述和权利要求中要求保护的所有单元和实体能够在例如芯片上被实施为集成电路逻辑,并且如果没有其他说明,由这些单元和实体提供的功能能够通过软件来实施。
迄今为止,以上描述的本公开的实施方式至少部分使用软件控制的数据处理装置实现,将认识到,设置这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或者其他介质设想为本公开的方面。
请注意,本技术也可以被配置为如下所述。
(1)一种电子装置,包括:
音频源分离单元(201),被配置为基于音频源分离确定与输入信号(1)的分离(2);
评估单元(203),被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3);以及
自适应再混合/上混合单元(202),被配置为基于分离(2)并且基于评估结果(3)确定输出信号(4)。
(2)根据(1)所述的电子装置,其中,评估单元(203)包括人工神经网络。
(3)根据(1)或(2)所述的电子装置,其中,评估单元(203)已被训练用于评估盲源分离。
(4)根据(1)至(3)中任一项所述的电子装置,其中,评估单元被配置为确定估计的信号失真比(SDR)、估计的图像与空间失真比(ISR)、估计的信号干扰比(SIR)和/或估计的信号伪迹比(SAR)作为评估结果(3)。
(5)根据(1)至(4)中任一项所述的电子装置,其中,评估单元被配置为估计人类意见得分作为评估结果(3)。
(6)根据(1)至(5)中任一项所述的电子装置,其中,评估结果用于从若干源分离算法中选择特定的源分离算法。
(7)根据(1)至(6)中任一项所述的电子装置,其中,所述输入信号(1)包括一个或多个源信号(sij(t)))。
(8)根据(1)至(7)中任一项所述的电子装置,其中,源信号(sij(t))包括歌声信号、贝斯信号和鼓信号中的至少一个。
(9)根据(1)至(8)中任一项所述的电子装置,其中,评估单元(203)被配置为基于以下等式确定估计的信号失真比(SDR)
Figure GDA0002804404760000191
其中,i是信道索引,j是源索引,并且sij(t)和
Figure GDA0002804404760000192
为真实估计源信号,并且Min是信道的总数量。
(10)根据(1)至(9)中任一项所述的电子装置,其中,分离(2)包括残留。
(11)根据(1)至(10)中任一项所述的电子装置,其中,自适应再混合/上混合单元(202)被配置为根据评估结果(3)来确定再混合/上混合的程度。
(12)根据(1)至(11)中任一项所述的电子装置,其中,自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定虚拟声源(51,52)的位置。
(13)根据(1)至(12)中任一项所述的电子装置,其中,自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定应用于分离(2)中的一个或多个分离的音频效果的量。
(14)根据(1)至(13)中任一项所述的电子装置,其中,自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定用于渲染输出信号(4)的输出信道的数量。
(15)根据(1)至(14)中任一项所述的电子装置,其中,音频源分离是基于盲源分离。
(16)一种方法,包括:
音频源分离过程(201),被配置为基于音频源分离确定与输入信号(1)的分离(2);
评估过程(203),被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3);以及以及
自适应再混合/上混合过程(202),被配置为基于分离(2)并且基于评估结果(3)来确定输出信号(4)。
(17)一种包括指令的计算机程序,指令在处理器上执行时使得处理器:
基于音频源分离确定与输入信号(1)的分离(2);
基于机器学习,从分离(2)和输入信号(1)确定音频源分离的评估结果(3);以及
通过自适应再混合/上混合基于分离(2)并且基于评估结果(3)来确定输出信号(4)。

Claims (16)

1.一种电子装置,包括:
音频源分离单元,被配置为基于音频源分离确定与输入信号的分离;
评估单元,被配置为基于机器学习,从所述分离和所述输入信号确定所述音频源分离的评估结果;以及
自适应再混合/上混合单元,被配置为基于所述分离并且基于所述评估结果确定输出信号;
其中,所述评估单元被配置为确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。
2.根据权利要求1所述的电子装置,其中,所述评估单元包括人工神经网络。
3.根据权利要求1所述的电子装置,其中,所述评估单元已被训练用于评估盲源分离。
4.根据权利要求1所述的电子装置,其中,所述评估单元还被配置为估计人类意见得分作为评估结果。
5.根据权利要求1所述的电子装置,其中,所述评估结果用于从若干源分离算法中选择特定的源分离算法。
6.根据权利要求1所述的电子装置,其中,所述输入信号包括一个或多个源信号。
7.根据权利要求6所述的电子装置,其中,所述源信号包括歌声信号、贝斯信号和鼓信号中的至少一个。
8.根据权利要求1所述的电子装置,其中,所述评估单元被配置为基于以下等式确定估计的信号失真比SDR
Figure FDA0003635757470000021
其中,i是信道索引,j是源索引,并且sij(t)和
Figure FDA0003635757470000022
为真实估计源信号,并且Min是信道的总数量。
9.根据权利要求1所述的电子装置,其中,所述分离包括残留。
10.根据权利要求1所述的电子装置,其中,所述自适应再混合/上混合单元被配置为根据所述评估结果来确定再混合/上混合的程度。
11.根据权利要求1所述的电子装置,其中,所述自适应再混合/上混合单元被配置为基于所述评估结果来确定虚拟声源的位置。
12.根据权利要求1所述的电子装置,其中,所述自适应再混合/上混合单元被配置为基于所述评估结果来确定应用于分离中的一个或多个分离的音频效果的量。
13.根据权利要求1所述的电子装置,其中,所述自适应再混合/上混合单元被配置为基于所述评估结果来确定用于渲染所述输出信号的输出信道的数量。
14.根据权利要求1所述的电子装置,其中,所述音频源分离是基于盲源分离。
15.一种用于音频内容的自适应再混合的方法,包括:
音频源分离过程,被配置为基于音频源分离确定与输入信号的分离;
评估过程,被配置为基于机器学习从所述分离和所述输入信号确定所述音频源分离的评估结果;以及
自适应再混合/上混合过程(202),被配置为基于所述分离并且基于所述评估结果来确定输出信号;
其中,所述评估过程被配置为确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。
16.一种存储介质,其上存储有程序,所述程序在处理器上执行时使所述处理器:
基于音频源分离确定与输入信号的分离;
基于机器学习,从所述分离和所述输入信号确定所述音频源分离的评估结果;以及
通过自适应再混合/上混合基于所述分离并且基于所述评估结果来确定输出信号;
其中,确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。
CN201980036214.5A 2018-06-01 2019-05-29 音频内容的自适应再混合 Active CN112205006B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18175645 2018-06-01
EP18175645.3 2018-06-01
PCT/EP2019/064117 WO2019229199A1 (en) 2018-06-01 2019-05-29 Adaptive remixing of audio content

Publications (2)

Publication Number Publication Date
CN112205006A CN112205006A (zh) 2021-01-08
CN112205006B true CN112205006B (zh) 2022-08-26

Family

ID=62528284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980036214.5A Active CN112205006B (zh) 2018-06-01 2019-05-29 音频内容的自适应再混合

Country Status (3)

Country Link
JP (1) JP7036234B2 (zh)
CN (1) CN112205006B (zh)
WO (1) WO2019229199A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021175460A1 (en) * 2020-03-06 2021-09-10 Algoriddim Gmbh Method, device and software for applying an audio effect, in particular pitch shifting
EP4115630A1 (en) 2020-03-06 2023-01-11 algoriddim GmbH Method, device and software for controlling timing of audio data
EP4115629A1 (en) 2020-03-06 2023-01-11 algoriddim GmbH Method, device and software for applying an audio effect to an audio signal separated from a mixed audio signal
CA3170462A1 (en) * 2020-03-06 2021-09-10 Kariem Morsy Method and device for decomposing and recombining of audio data and/or visualizing audio data
EP4115627A1 (en) 2020-03-06 2023-01-11 algoriddim GmbH Method and device for decomposing, recombining and playing audio data
KR20230017287A (ko) * 2020-08-26 2023-02-03 구글 엘엘씨 시청각 데이터를 업믹싱하기 위한 시스템 및 방법
JP7136979B2 (ja) * 2020-08-27 2022-09-13 アルゴリディム ゲー・エム・ベー・ハー オーディオエフェクトを適用するための方法、装置、およびソフトウェア
DE102021201668A1 (de) * 2021-02-22 2022-08-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Signaladaptives Neumischen von getrennten Audioquellen
US20230057082A1 (en) * 2021-08-19 2023-02-23 Sony Group Corporation Electronic device, method and computer program
US20250166653A1 (en) * 2022-02-25 2025-05-22 Sony Group Corporation Signal processing apparatus and signal processing method
CN119096121A (zh) * 2022-04-19 2024-12-06 北京字跳网络技术有限公司 声透射方法、装置和非易失性计算机可读存储介质
EP4578014A1 (en) * 2022-08-24 2025-07-02 Dolby Laboratories Licensing Corporation Audio object separation and processing audio
US20240257825A1 (en) * 2023-01-27 2024-08-01 Avago Technologies International Sales Pte. Limited Dynamic selection of appropriate far-field signal separation algorithms
CN117253472B (zh) * 2023-11-16 2024-01-26 上海交通大学宁波人工智能研究院 一种基于生成式深度神经网络的多区域声场重建控制方法
EP4564347A1 (en) * 2023-11-28 2025-06-04 Harman Becker Automotive Systems GmbH Audio system and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563402A (zh) * 2011-05-16 2014-02-05 高通股份有限公司 基于盲源分离的空间滤波
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3931237B2 (ja) 2003-09-08 2007-06-13 独立行政法人情報通信研究機構 ブラインド信号分離システム、ブラインド信号分離方法、ブラインド信号分離プログラムおよびその記録媒体
KR101210797B1 (ko) 2004-10-28 2012-12-10 디티에스 워싱턴, 엘엘씨 오디오 공간 환경 엔진
JP4952698B2 (ja) * 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9788119B2 (en) * 2013-03-20 2017-10-10 Nokia Technologies Oy Spatial audio apparatus
US9721202B2 (en) * 2014-02-21 2017-08-01 Adobe Systems Incorporated Non-negative matrix factorization regularized by recurrent neural networks for audio processing
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system
US10924849B2 (en) 2016-09-09 2021-02-16 Sony Corporation Sound source separation device and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563402A (zh) * 2011-05-16 2014-02-05 高通股份有限公司 基于盲源分离的空间滤波
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法

Also Published As

Publication number Publication date
CN112205006A (zh) 2021-01-08
JP2021526334A (ja) 2021-09-30
JP7036234B2 (ja) 2022-03-15
WO2019229199A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
CN112205006B (zh) 音频内容的自适应再混合
JP7183467B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP7139409B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
RU2569346C2 (ru) Устройство и способ генерирования выходного сигнала с применением блока разложения сигнала
AU2015295518B2 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
JP2023517720A (ja) 残響のレンダリング
CN102334348B (zh) 转换器及转换音频信号的方法
CN105900456A (zh) 声音处理装置和方法、以及程序
Farina et al. Ambiophonic principles for the recording and reproduction of surround sound for music
CN105284133B (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
CN113170271A (zh) 用于处理立体声信号的方法和装置
CN114631142B (zh) 电子设备、方法和计算机程序
CN110326310A (zh) 串扰消除的动态均衡
CN115226022B (zh) 基于内容的空间再混合
Saini et al. An end-to-end approach for blindly rendering a virtual sound source in an audio augmented reality environment
EP3613043B1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
CN113348508A (zh) 电子设备、方法和计算机程序
CN116643712A (zh) 电子设备、音频处理的系统及方法、计算机可读存储介质
Kasak et al. Hybrid binaural singing voice separation
US20250174221A1 (en) Audio system and method
Sarroff et al. Measurements of spaciousness for stereophonic music
Schörkhuber et al. Zero-Delay Spatial Audio Rendering for Immersive Networked Music Performances
JP2017163458A (ja) アップミックス装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant