CN112205006B

CN112205006B - 音频内容的自适应再混合

Info

Publication number: CN112205006B
Application number: CN201980036214.5A
Authority: CN
Inventors: 斯特凡·乌利希; 弗兰克·吉龙; 迈克尔·埃嫩克尔; 托马斯·肯普
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-06-01
Filing date: 2019-05-29
Publication date: 2022-08-26
Anticipated expiration: 2039-05-29
Also published as: CN112205006A; JP2021526334A; JP7036234B2; WO2019229199A1

Abstract

一种电子装置，包括：音频源分离单元(201)，被配置为基于音频源分离确定与输入信号(1)的分离(2)；评估单元(203)，被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3)；以及自适应再混合/上混合单元(202)，被配置为基于分离(2)并且基于评估结果(3)来确定输出信号(4)。

Description

音频内容的自适应再混合

技术领域

本公开总体上涉及音频处理领域，具体地，涉及用于音频源分离和自适应上混合/再混合的方法和设备。

背景技术

例如，存在以光盘(CD)、磁带、可从互联网下载的音频数据文件的形式，还有以例如存储在数字视频磁盘等上的视频的声轨的形式等的许多可用的音频内容。通常，例如，针对单信道或者立体声设置，音频内容已从原始音频源信号混合而无需从用于产生音频内容的原始音频源中保持原始音频源信号。然而，存在设想再混合或者上混合音频内容的情况或者应用。例如，在将在比提供的音频内容具有更多可用音频信道的设备上播放音频内容的情况，例如，要在立体声设备上播放单信道音频内容、要在具有六个音频信道的环绕声设备上播放立体声音频内容等。在其他情况下，将修正所感知的音频源的空间位置或者将修正所感知的音频源的响度。

虽然普遍存在用于再混合音频内容的技术，但是，通常期望改进用于再混合音频内容的方法和设备。

发明内容

根据第一方面，本公开提供一种电子装置，包括：音频源分离单元，被配置为基于音频源分离确定与输入信号的分离；评估单元，被配置为基于机器学习，从分离和输入信号确定音频源分离的评估结果；以及自适应再混合/上混合单元，被配置为基于分离并且基于评估结果确定输出信号。

根据又一方面，本公开提供一种方法，包括：音频源分离过程，被配置为基于音频源分离确定与输入信号的分离；评估过程，被配置为基于机器学习从分离和输入信号确定音频源分离的评估结果；以及自适应再混合/上混合过程，被配置为基于分离并且基于评估结果来确定输出信号。

根据另一方面，本公开提供一种包括指令的计算机程序，指令在处理器上执行时使得处理器：基于音频源分离确定与输入信号的分离；基于机器学习，从分离和输入信号确定音频源分离的评估结果；以及通过自适应再混合/上混合基于分离并且基于评估结果来确定输出信号。

附图说明

参照附图通过示例的方式说明实施方式，在附图中：

图1示意性地示出了通过音频源分离(BSS)进行音频上混合/再混合的通用方法；

图2示意性地示出了基于盲法评估进行自适应再混合/上混合的方法；

图3对盲法评估的过程进行可视化；

图4示意性地描述训练CNN以执行源分离过程的盲法评估的过程；

图5a、图5b对自适应信号再混合/上混合的第一实施方式进行可视化；

图6示出了对根据第一实施方式的用于自适应信号再混合/上混合的方法进行可视化的流程图；以及

图7a、图7b、图7c和图7d示出了自适应信号再混合/上混合的第二实施方式。

图8提供了应用数字化单极综合算法的系统的示意图；以及

图9示意性地描述可用作自适应再混合/上混合系统的电子系统的实施方式。

具体实施方式

在参考图1至图6给出实施方式的详细说明之前，先进行一些概要说明。

实施方式公开了一种电子装置，包括：音频源分离单元，被配置为基于音频源分离确定与输入信号的分离；评估单元，被配置为基于机器学习从分离和输入信号确定盲源分离的评估结果；以及自适应再混合/上混合单元，被配置为基于分离并且基于评估结果来确定输出信号。

在音频源分离中，包括多个源(例如，乐器、语音等)的输入信号被分解为分离。音频源分离可以是无监督的(称为“盲源分离”，BSS)或部分监督的。“盲”意味着盲源分离不一定具有关于原始源的信息。例如，可能不一定知道原始信号包含多少源或输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在不知道之前的分离的情况下分解原始信号分离。盲源分离单元可使用技术人员已知的盲源分离技术中的任一种。在(盲)源分离中，可搜索在概率意义或者信息论意义上最小相关或者最大独立的源信号，或者基于音频源信号上的非负矩阵分解结构约束可以找到源信号。用于执行(盲)源分离的方法是本领域技术人员已知的，并且基于例如主分量分析、奇异值分解、非独立(独立)分量分析技术、非负矩阵分解、人工神经网络等。

尽管一些实施方式使用盲源分离用于生成分离的音频源信号，但是本公开不限于其中没有另外的信息用于分离音频源信号的实施方式，而是在一些实施方式中，另外的信息用于生成分离的音频源信号。例如，这种另外的信息可以是关于混合处理的信息、关于输入音频内容中包括的音频源的类型的信息、关于输入音频内容中包括的音频源的空间位置的信息等。

输入信号可以是任何类型的音频信号。其可以是以模拟信号、数字信号的形式，其可以来源于光盘、数字视频磁盘等，其可以是数据文件，诸如波文件、mp3文件等，并且本公开不限于输入音频内容的具体格式。输入音频内容可以例如是具有第一信道输入音频信号和第二信道输入音频信号的立体声音频信号，而本公开不限于具有两个音频信道的输入音频内容。在其他实施方式中，输入音频内容可以包括任何数量的信道，诸如，5.1音频信号等的再混合。

输入信号可包括一个或多个源信号。具体地，输入信号可包括若干音频源。音频源可以是产生声波的任何实体，例如，音乐乐器、语音、歌声(vocals)、(例如来源于合成器的)人工生成声音等。

输入音频内容可以表示或者包括混合音频源，这意味着声音信息并不是分离地可用于输入音频内容的所有音频源，而是例如，针对不同音频源的声音信息至少部分地重叠或者混合。

由输入信号通过盲源分离而产生的分离可以例如包括歌声分离、贝斯分离、鼓分离和其他分离。在歌声分离中，可包括属于人类语音的所有声音，在贝斯分离中，可包括低于预定义阈值频率的所有噪声，在鼓分离中，可包括属于歌曲/音乐片段中的鼓的所有噪声，并且在其他分离中，可包括所有剩余的声音。

更进一步地，分离还可以包括残留。

当进行音频源分离(例如，盲源分离(BSS))和后续再混合/上混合时，评估单元评估BSS工作得有多好。在盲源分离的分离结果较差的情况下，由于语音已在不同输出信道中被错误地分离，因此最初属于一起的声音(例如，歌手的语音)会变得分裂，导致房间中的不同扬声器播放不同音节。如果发生这种情况，此外房间中的扬声器处于不同的位置(例如，在环绕系统中)，则收听输出声音的用户可从来自不同方向的相同语音中听到不同音节。这会导致用户认为歌手移动了或者声音来自意想不到的奇怪的方向的效果。

在再混合/上混合中，处理从盲源分离获得的分离。在实施方式中的再混合/上混合是自适应的，因为其受到通过盲法评估提供的评估结果的影响。例如，在被认为是表示“良好”分离的估计分离的情况下，与在被认为是表示“较差”分离的估计分离的情况相比，再混合/上混合可以更广泛。本公开不限于特定数量的音频信道，可以实现所有种类的再混合、上混合和下混合。

上混合/再混合的质量可以取决于源分离的质量。源分离成乐器(诸如，“贝斯”、“鼓”、“其他”和“歌声”)的一个常见问题是“其他”和“歌声”并没有被清楚地分离。例如，长笛或合成器信号的部分可能被错误地分离成“歌声”。如果再混合/上混合系统不知道分离失败，则收听者将察觉到令人讨厌的伪迹。例如，如果“歌声”被放置在收听者的前面并且“其他”被放置在收听者的后面，则长笛/合成器可被感知为在前面与后面之间移动。

评估单元可以例如包括人工神经网络(ANN)。评估单元可以例如包括可以通过技术人员已知的所有构造方法来实现的人工神经网络。人工神经网络ANN可以例如是卷积神经网络(CNN)。可替代地，人工神经网络(ANN)可以是循环神经网络，或完全连接的神经网络等。具体地，ANN可以被实现为在CMOS(互补金属氧化物半导体)、纳米器件、GPU(图形处理单元)、晶体管等中创建的一个或多个计算器件。

评估单元可能已被训练用于评估音频源分离。例如，可以例如根据本领域技术人员已知的任何技术或方法(具体地，监督学习、非监督学习(Hebbian学习)、强化学习等)通过机器学习过程来执行评估单元的训练。

评估单元可被配置为确定估计的信号失真比(SDR)、估计的图像与空间失真比(ISR)、估计的信号干扰比(SIR)和/或估计的信号伪迹比(SAR)作为评估结果。可替换地，评估单元可被配置为确定主观质量度量(例如，人类意见得分)，其为人类所感知的分离质量的估计。

自适应再混合/上混合单元可被配置为根据评估结果来确定再混合/上混合的程度。例如，下文描述的实施方式允许估计分离的程度且在其之后以不同的方式动态地驱动扬声器。在分离较差的情况下，例如，由于所有声音来自所有方向，收听系统可通过以相同音量驱动所有扬声器来减小其环绕效果，从而抑制听取来自错误方向的声音的效果。

如果对源分离进行了评估，则可以提高再混合/上混合性能。如果源分离良好，则再混合/上混合可以更积极(即，将分离进一步分开，这增大了收听者环绕感)。如果源分离较差，则再混合/上混合可以更保守。

例如，自适应再混合/上混合单元可以例如被配置为基于评估结果来确定虚拟声源的位置。再混合/上混合可以例如涉及将乐器放置到新的位置。例如，立体声歌曲可以被分成“贝斯”、“鼓”、“其他”和“歌声”并且被上混合到5.1系统，在该系统中，现在将例如包含钢琴、吉他、合成器等的“其他”放置在收听者的背面。由此，可增大所感知的听者环绕感。

自适应再混合/上混合单元可被配置为基于评估结果来确定应用于一个或多个分离的音频效果的量。

自适应再混合/上混合单元可被配置为基于评估结果确定用于渲染输出信号的输出信道的数量。

实施方式还公开了一种方法，包括：音频源分离过程，被配置为基于音频源分离确定与输入信号的分离；评估过程，被配置为基于机器学习从分离和输入信号确定音频源分离的评估结果；以及自适应再混合/上混合过程，被配置为基于分离并且基于评估结果确定输出信号。这些实施方式还包括一种方法，该方法具有以上描述的以及在以下更详细地描述的附图中的所有过程方面。

根据另一方面，本公开提供一种包括指令的计算机程序，指令在处理器上执行时使得处理器：基于音频源分离确定与输入信号的分离；基于机器学习从分离和输入信号确定音频源分离的评估结果；以及通过自适应再混合/上混合基于分离和评估结果确定输出信号。这些实施方式还包括计算机程序，该计算机程序实施以上和以下更详细描述的附图中所描述的所有过程方面。这样的程序可以在计算机、处理器、平板计算机、智能电话、hi-fi单元或技术人员想要选择的任何其他装置上运行。

如本文中使用的术语“信号”不限于任何具体格式，并且其可以是模拟信号、数字信号或存储在数据文件中的信号或任何其他格式。

现将参考附图描述实施方式。

通过盲源分离(BSS)的音频上混合/再混合

图1示意性地示出通过盲源分离(BSS)的音频上混合/再混合的通用方法。

首先，执行源分离(也称为“下混合”)，源分离将包括两个信道1a、1b的立体声源音频信号1和来自多个音频源(源1、源2、……源K)(例如，乐器、语音等)的音频分解成“分离”，这里分解为源估计2a-2d，其中，K是整数，并且表示音频源的数量。由于音频源信号的分离可能是不完美的，例如，由于音频源的混合，因此除了分离的音频源信号2a，...，2d之外，还生成残留信号3(r(n))。残留信号可以例如表示输入音频内容与所有分离的音频源信号的和之间的差值。由每个音频源发射的音频信号在输入音频内容1中由其相应的记录的声波表示。对于具有超过一个音频信道的输入音频内容，诸如立体声输入音频内容或者环绕声输入音频内容，音频源的空间信息也可以包括在输入音频内容内或者通过输入音频内容表示，例如通过包括在不同音频信道中的音频源信号的比例表示。基于盲源分离或能够分离音频源的其他技术来执行将输入音频内容1分离为分离的音频源信号2a-2d和残留3。

在第二步骤中，分离2a-d和可能的残留3被再混合并且渲染为新的扬声器信号4，在此为包括5个信道4a，...，4e的信号。基于分离的音频源信号和残留信号，通过基于空间信息来混合分离的音频源信号和残留信号生成输出音频内容。在图1中示例性示出输出音频内容并且输出音频内容由参考标号4表示。

在下文中，输入音频内容的音频信道的数量被称为M_in并且输出音频内容的音频信道的数量被称为M_out。由于图1的实例中的输入音频内容1具有两个信道1a和1b，并且图1的实例中的输出音频内容4具有五个信道4a，...，4e，M_in＝2并且M_out＝5。图1中的方法通常被称为再混合，并且具体地，如果M_in＜M_out，则被称为上混合。在图1的实例中，输入音频内容I的音频信道的数量M_in＝2小于输出音频内容4的音频信道的数量M_out＝5，因此，这是从立体声输入音频内容1到5.0环绕声音输出音频内容4的上混合。

基于盲法评估的自适应再混合/上混合

图2示意性地示出了基于盲法评估的自适应再混合/上混合的方法。方法包括音频源分离201的过程、盲法评估203的过程和自适应再混合/上混合202的过程。如以上关于图1所描述的，具有M_in信道的输入信号被输入到源分离201，并且被分解为M_sep分离。分离信号2被发送到自适应再混合/上混合202和盲法评估203。

盲法评估203被配置为接收输入信号1和分离信号2作为输入。通过将分离信号2与输入信号1进行比较，盲法评估203估计源分离过程的质量。盲法评估203的质量由估计值表示，该估计值在这里是估计的信号失真比SDR。自适应再混合/上混合202基于估计的SDR对分离的信号进行再混合/上混合以获得具有M_out信道的输出信号4。即，再混合/上混合202适应通过盲法评估203估计的源分离202的质量。即，自适应再混合/上混合202可以根据估计的SDR决定再混合/上混合的参数。图2的过程因此提供了音频再混合/上混合系统，并且该音频再混合/上混合系统是自适应的并且使用盲法评估器来确定其设置。例如，如果平均SDR(平均超过所有四个乐器)低，那么分离可以更紧密地放置在一起。此外，可以通过将混响添加到分离中来减少伪迹(例如，音乐噪声)的感知。作为另一实例，可提供再混合/上混合系统，其能够从若干源分离算法选择其使用的分离。在这种场景下，可以并行运行几种源分离算法，并且可以根据盲法评估的结果选择最好的算法。

在图2的实施方式中，盲法评估203的结果是信号失真比SDR。此外或可替代地，盲法评估203过程可确定图像与空间失真比(ISR)、信号干扰比(SIR)和/或信号伪迹比(SAR)。此外，时域或频域中的均方误差可以用作另一客观质量度量。而且，主观得分可以由评估器估计。这些机制是本领域技术人员已知的。

使用人工神经网络(ANN)的盲法评估

图3对盲法评估的过程进行可视化。对于盲法评估，使用人工神经网络(ANN)203，本文中，人工神经网络例如为卷积神经网络(CNN)，因为CNN具有良好的图案识别和值估计能力。CNN 203已被训练成估计信号伪迹比(SAR)、信号失真比(SDR)、图像与空间失真比(ISR)和信号干扰比(SIR)作为评估结果3。CNN 203(从图2中的盲源分离202)接收输入信号1(混合)和分离2作为输入。分离2可以例如包括四个信号(歌声信号、鼓信号、贝斯信号和包括残留的其他信号)作为乐器。作为评估结果，CNN 203针对每个乐器输出估计的信号伪迹比SAR、估计的信号失真比SDR、估计的图像与空间失真比ISR和估计的信号干扰比SIR中的至少一个。使用盲法评估器203的输出，可以如以上在图2中描述的那样适配再混合/上混合系统。

图4示意性地描述训练CNN以执行源分离过程的盲法评估的过程。CNN 203被训练成估计盲分离过程201的结果2的信号失真比SDR 3。在训练阶段，使用信号失真比SDR 3作为盲源分离201的总体性能测量。在训练阶段期间，用大量输入信号1(混合)训练CNN 203，输入信号的真实源s_ij(t)是已知的。例如，通过混合204预定数量的真实源s_ij(t)(乐器)来生成输入信号1(混合)。对输入信号1(混合)执行盲源评估201，以获得估计分离2(估计的源信号

)。

基于真实源s_ij(t)(乐器)和估计的源信号

在过程205中确定盲源分离的质量，质量在此表示为信号失真比SDR 3。假设i是信道索引，并且j是乐器/源索引，则信号失真比SDR 3由下式给出：

其中，s_ij(t)和

是真实的和估计的源信号。M_in是信道的总数量。通常M_in＝2，即，用于源分离的输入混合是立体声。所计算的信号失真比SDR3被馈送至盲法评估CNN 203作为训练数据。即，在训练期间，CNN 203接收输入信号1(混合)和从盲源分离201获得的估计的源信号

作为输入。如在以上图2和图3的实施方式中所描述的，如果使用足够的训练数据，CNN可以可靠地估计未知分离(未知

)的SDR值。因此，在训练阶段期间从混合信号和真实分离中了解实现盲法评估器的CNN。

当使用经训练的CNN 203进行盲法评估时，以上公式不用于盲法评估，因为在训练之后，真实源s_ij是未知的。

应用

图5a对自适应信号再混合/上混合的实施方式进行可视化。提供了一种具有两个虚拟声源51、52的声音系统，虚拟声源51位于用户31的前面并且虚拟声源52位于用户31的后面。在该实施方式中，定义了wo输出信道(M_out＝2)。自适应再混合/上混合过程(图2中的202)将“贝斯”信道、“歌声”信道和“鼓”信道发送到用户31前面的第一声源51。此外，自适应再混合/上混合过程将“其他”信道发送到用户31后面的虚拟声源52。根据通过盲法评估(图2中的203)提供的估计的SDR值，根据图5b中所示的函数确定虚拟声源51和虚拟声源52之间的虚拟距离d。虚拟声源与用户31之间的虚拟距离d可以通过根据距离d定位各个虚拟声源来实现。虚拟声源可例如通过如下文关于图8更详细描述的3D音频渲染技术来产生。

图5b对图5a的实施方式使用的用于自适应信号再混合/上混合的函数进行可视化。该函数示出图5a的两个虚拟声源51和52的距离d作为估计的SDR的函数。对于高SDR值，选择距离d为大于低SDR值的情况下的距离。

图6示出了对根据第一实施方式的用于自适应信号再混合/上混合的方法进行可视化的流程图。在S601处，接收输入信号和从盲源分离获得的乐器/源的估计分离。在S602处，通过基于接收的输入信号和估计分离确定估计的SDR来估计盲分离结果。在S603处，根据SDR确定乐器/源的位置。在S604处，基于所计算的乐器/源的位置，再混合/上混合估计分离。在S605处，用3D声音系统渲染再混合/上混合的信号。

图7a、图7b、图7c和图7d示出了自适应信号再混合/上混合的另一实施方式。在自适应信号再混合/上混合的这个实施方式中，自适应再混合/上混合具有对通过盲法评估获得的某个SDR值作出反应的更多选项。

图7a示出良好(高)估计的SDR值的声音混合。如图7a所示，自适应再混合/上混合(图2中的202)计算输出信号，该输出信号给人的印象是声音来自四个不同方向。在这种情况下，自适应再混合/上混合使用正面的声音方向输出歌声，使用背面的方向输出贝斯和其他，同时使用横向声音方向输出鼓。在图7a的情况下，由盲法评估(图3中的203)提供的估计的SDR值高，使得可以假设在每个分离信道中基本上没有错误地归因的噪声。那么，自适应再混合/上混合决定以彼此相距较大的距离d₁、d₂、d₃和d₄放置所有四个虚拟声源。

在图7b的情况下，由盲法评估提供的估计的SDR值是低的，使得自适应再混合/上混合决定以彼此相距较小的距离d₁、d₂、d₃和d₄放置所有四个虚拟声源。

图7c示出对小的估计SDR的替代可能反应。如上所述，自适应再混合/上混合产生输出信号，该输出信号给人的印象是声音来自四个不同方向。如果所估计的SDR较小，则存在如果所有歌词声音实际上被分离成歌声分离的不确定性。在源分离较差的情况下，其他和歌声信道可以重叠，因为两者都具有相似的频率。因此，如果以低估计SDR来评估BSS，则可建议从相同的方向/虚拟声源输出其他信道和歌声信道，因为在这种情况下，可避免切换或移动声音方向的效果。如图7c中所示，自适应再混合/上混合基于盲法评估结果来决定以产生输出信号，该输出信号给人的印象是声音仅来自两个不同的方向，鼓、其他和歌声来自用户前面而且只有贝斯来自后面。

图7d示出对小SDR值的不同的可能的反应。如上所述，其他信道和歌声信道可以重叠，这可能产生这种现象，即歌手在歌唱时在舞台上移动，有时他的语音来自前面，有时来自后面。这种印象可以通过使用对歌声的混响或回响效果来减少。混响或回响向歌声添加空间，使得它们听起来更宽，并且因此使得用户更难以确定歌声到来的方向(混响给人的印象是声音来自通过反射引起的其他房间的方向)。该效果可掩盖从错误的源分离出现的特效。自适应再混合/上混合因此可以基于在盲估计中获得的估计的SDR来适配在歌声上的混响的量。

用于数字化单极合成的系统

图8提供了在整数延迟的情况下实现基于数字化单极合成算法的方法的系统的实施方式。

在专利申请US 2016/0037282 A1中更详细地描述了该系统的理论背景，该专利申请通过引证并入本文。

在US 2016/0037282 A1的实施方式中实施的技术在概念上类似于波场合成，波场合成使用有限数量的隔声罩来生成限定的声场。然而，由于合成不会试图对声场进行准确地建模而是基于最小二乘法，因此实施方式的产生原理的基本基础是特定的。

目标声场被建模为放置在定义的目标位置处的至少一个目标单极。在一个实施方式中，目标声场被建模为一个单个目标单极。在其他实施方式中，目标声场被建模为放置在相应定义的目标位置处的多个目标单极。目标单极的位置可以是移动的。例如，目标单极可适于待衰减的噪声源的移动。如果使用多个目标单极来表示目标声场，那么如下所述的基于一组定义的合成单极来合成目标单极的声音的方法可独立地应用于每个目标单极，并且可对针对每个目标单极获得的合成单极的贡献求和以重建目标声场。

源信号x(n)被馈送到由

标记的延迟单元和放大单元a_p，其中，p＝1，...，N是用于合成目标单极信号的相应合成单极的索引。根据该实施方式的延迟和放大单元可应用US 2016/0037282 A1的等式(117)来计算用于合成目标单极信号的结果信号y_p(n)＝s_p(n)。所产生的信号s_p(n)被功率放大并且被馈送到扬声器S_p。

在本实施方式中，因此以源信号x的延迟和放大分量的形式执行合成。

根据该实施方式，索引为p的合成单极的延迟n_p对应于目标单极r_o和发生器r_p之间的欧氏距离r＝R_p0＝|r_p-r_o|(Euclidean distance)的声音的传播时间。

此外，根据本实施方式，放大因数

与距离r＝R_p0成反比。

在系统的可替换实施方式中，可以使用根据US 2016/0037282 A1的等式(118)的修改的放大因数。

仍在系统的可替换实施方式中，相对于US 2016/0037282 A1的图9所描述的映射因子可用于修改放大。

实现方式

图9示意性地描述了可以实现如上所述的基于盲法评估的自适应再混合/上混合的过程的电子系统的实施方式。电子系统900包括作为处理器的CPU 901。电子系统900还包括连接至处理器901的麦克风阵列910、扬声器阵列911和卷积神经网络单元920。处理器901可以例如实现实现关于图2更详细描述的过程的盲源分离单元、自适应再混合/上混合单元和/或盲法评估单元。CNN单元可以例如是硬件中的人工神经网络，例如，GPU上的神经网络或专用于实现人工神经网络目的的任何其他硬件。如以上实施方式中所述，扬声器阵列911由分布在预定空间上并且被配置为渲染3D音频的一个或多个扬声器组成。电子系统900还包括连接到处理器901的用户接口912。该用户接口912用作人机接口，并实现管理员与电子系统之间的对话。例如，管理员可使用该用户接口912对系统进行配置。电子系统900还包括以太网接口921、蓝牙接口904和WLAN接口905。这些单元904，905用作与外部设备进行数据通信的I/O接口。例如，具有以太网、WLAN或蓝牙连接的额外扬声器、麦克风和摄像机可经由这些接口921、904和905耦合到处理器901。

电子系统900还包括数据存储器902和数据存储器903(此处为RAM)。数据存储器903被设置为临时存储或缓存数据或计算机指令以由处理器901处理。数据存储器902被设置成例如用于记录传感器数据的长期存储器，传感器数据是从麦克风阵列910获得的并且被提供给CNN单元920或从该CNN单元检索。数据存储器902还可存储表示音频消息的音频数据，该公共播报系统可将该音频消息传送给在预定义空间中移动的人。

使用卷积神经网络的盲法评估的过程可以由神经网络920实现，或者可替换地，可以利用卷积神经网络的软件实现在处理器901上实现盲法评估。人工神经网络可被实现为卷积神经网络(如在以上实施方式中所描述的)，或通过神经网络(诸如，深度神经网络、循环神经网络等)来实现。

应注意，以上描述仅是示例配置。替代配置可以用附加或其他传感器、存储装置、接口等来实现。

***

应认识到，实施方式描述了具有方法步骤的示例性序列的方法。然而，方法步骤的特定序列仅仅是为了说明的目的，不应被解释为具有约束力。

应当注意，将图9的电子系统划分为单元仅用于图示的目的并且本公开不限于具体单元中的功能的任何具体划分。例如，电路的至少部分可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。

如果没有另外说明，在本说明书中所描述和权利要求中要求保护的所有单元和实体能够在例如芯片上被实施为集成电路逻辑，并且如果没有其他说明，由这些单元和实体提供的功能能够通过软件来实施。

迄今为止，以上描述的本公开的实施方式至少部分使用软件控制的数据处理装置实现，将认识到，设置这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或者其他介质设想为本公开的方面。

请注意，本技术也可以被配置为如下所述。

(1)一种电子装置，包括：

音频源分离单元(201)，被配置为基于音频源分离确定与输入信号(1)的分离(2)；

评估单元(203)，被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3)；以及

自适应再混合/上混合单元(202)，被配置为基于分离(2)并且基于评估结果(3)确定输出信号(4)。

(2)根据(1)所述的电子装置，其中，评估单元(203)包括人工神经网络。

(3)根据(1)或(2)所述的电子装置，其中，评估单元(203)已被训练用于评估盲源分离。

(4)根据(1)至(3)中任一项所述的电子装置，其中，评估单元被配置为确定估计的信号失真比(SDR)、估计的图像与空间失真比(ISR)、估计的信号干扰比(SIR)和/或估计的信号伪迹比(SAR)作为评估结果(3)。

(5)根据(1)至(4)中任一项所述的电子装置，其中，评估单元被配置为估计人类意见得分作为评估结果(3)。

(6)根据(1)至(5)中任一项所述的电子装置，其中，评估结果用于从若干源分离算法中选择特定的源分离算法。

(7)根据(1)至(6)中任一项所述的电子装置，其中，所述输入信号(1)包括一个或多个源信号(s_ij(t)))。

(8)根据(1)至(7)中任一项所述的电子装置，其中，源信号(s_ij(t))包括歌声信号、贝斯信号和鼓信号中的至少一个。

(9)根据(1)至(8)中任一项所述的电子装置，其中，评估单元(203)被配置为基于以下等式确定估计的信号失真比(SDR)

其中，i是信道索引，j是源索引，并且s_ij(t)和

为真实估计源信号，并且M_in是信道的总数量。

(10)根据(1)至(9)中任一项所述的电子装置，其中，分离(2)包括残留。

(11)根据(1)至(10)中任一项所述的电子装置，其中，自适应再混合/上混合单元(202)被配置为根据评估结果(3)来确定再混合/上混合的程度。

(12)根据(1)至(11)中任一项所述的电子装置，其中，自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定虚拟声源(51，52)的位置。

(13)根据(1)至(12)中任一项所述的电子装置，其中，自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定应用于分离(2)中的一个或多个分离的音频效果的量。

(14)根据(1)至(13)中任一项所述的电子装置，其中，自适应再混合/上混合单元(202)被配置为基于评估结果(3)来确定用于渲染输出信号(4)的输出信道的数量。

(15)根据(1)至(14)中任一项所述的电子装置，其中，音频源分离是基于盲源分离。

(16)一种方法，包括：

音频源分离过程(201)，被配置为基于音频源分离确定与输入信号(1)的分离(2)；

评估过程(203)，被配置为基于机器学习从分离(2)和输入信号(1)确定音频源分离的评估结果(3)；以及以及

自适应再混合/上混合过程(202)，被配置为基于分离(2)并且基于评估结果(3)来确定输出信号(4)。

(17)一种包括指令的计算机程序，指令在处理器上执行时使得处理器：

基于音频源分离确定与输入信号(1)的分离(2)；

基于机器学习，从分离(2)和输入信号(1)确定音频源分离的评估结果(3)；以及

通过自适应再混合/上混合基于分离(2)并且基于评估结果(3)来确定输出信号(4)。

Claims

1.一种电子装置，包括：

音频源分离单元，被配置为基于音频源分离确定与输入信号的分离；

评估单元，被配置为基于机器学习，从所述分离和所述输入信号确定所述音频源分离的评估结果；以及

自适应再混合/上混合单元，被配置为基于所述分离并且基于所述评估结果确定输出信号；

其中，所述评估单元被配置为确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。

2.根据权利要求1所述的电子装置，其中，所述评估单元包括人工神经网络。

3.根据权利要求1所述的电子装置，其中，所述评估单元已被训练用于评估盲源分离。

4.根据权利要求1所述的电子装置，其中，所述评估单元还被配置为估计人类意见得分作为评估结果。

5.根据权利要求1所述的电子装置，其中，所述评估结果用于从若干源分离算法中选择特定的源分离算法。

6.根据权利要求1所述的电子装置，其中，所述输入信号包括一个或多个源信号。

7.根据权利要求6所述的电子装置，其中，所述源信号包括歌声信号、贝斯信号和鼓信号中的至少一个。

8.根据权利要求1所述的电子装置，其中，所述评估单元被配置为基于以下等式确定估计的信号失真比SDR

其中，i是信道索引，j是源索引，并且s_ij(t)和

为真实估计源信号，并且M_in是信道的总数量。

9.根据权利要求1所述的电子装置，其中，所述分离包括残留。

10.根据权利要求1所述的电子装置，其中，所述自适应再混合/上混合单元被配置为根据所述评估结果来确定再混合/上混合的程度。

11.根据权利要求1所述的电子装置，其中，所述自适应再混合/上混合单元被配置为基于所述评估结果来确定虚拟声源的位置。

12.根据权利要求1所述的电子装置，其中，所述自适应再混合/上混合单元被配置为基于所述评估结果来确定应用于分离中的一个或多个分离的音频效果的量。

13.根据权利要求1所述的电子装置，其中，所述自适应再混合/上混合单元被配置为基于所述评估结果来确定用于渲染所述输出信号的输出信道的数量。

14.根据权利要求1所述的电子装置，其中，所述音频源分离是基于盲源分离。

15.一种用于音频内容的自适应再混合的方法，包括：

音频源分离过程，被配置为基于音频源分离确定与输入信号的分离；

评估过程，被配置为基于机器学习从所述分离和所述输入信号确定所述音频源分离的评估结果；以及

自适应再混合/上混合过程(202)，被配置为基于所述分离并且基于所述评估结果来确定输出信号；

其中，所述评估过程被配置为确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。

16.一种存储介质，其上存储有程序，所述程序在处理器上执行时使所述处理器：

基于音频源分离确定与输入信号的分离；

基于机器学习，从所述分离和所述输入信号确定所述音频源分离的评估结果；以及

通过自适应再混合/上混合基于所述分离并且基于所述评估结果来确定输出信号；

其中，确定估计的信号失真比SDR、估计的图像与空间失真比ISR、估计的信号干扰比SIR和/或估计的信号伪迹比SAR作为评估结果。