CN111554316A

CN111554316A - 语音处理装置、方法和介质

Info

Publication number: CN111554316A
Application number: CN201910066430.6A
Authority: CN
Inventors: 石自强; 林慧镔; 刘柳; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2020-08-18
Also published as: JP2020118967A

Abstract

公开了一种语音处理装置，包括：生成器，其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音；以及判别器，其被配置成区分所述分离的单一语音是否是所述原始单一语音，其中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。根据本公开的装置不仅旨在最大化信号与失真比来获得更好的语音质量，其还将语音分离和提高语音质量集成到单个模型中。此外，根据本公开的装置通过这个过程执行生成性对抗训练，这使得分离的语音与真实的语音难以区分。

Description

语音处理装置、方法和介质

技术领域

本公开涉及语音处理的技术领域，具体地涉及采用结合机器学习技术的语音处理装置和方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

多语音单声道语音分离具有广泛的应用。例如，在许多人讲话的家庭环境或会议环境中，人类听觉系统可以容易地从多个讲话者的混合语音中跟踪和跟随目标讲话者的语音。在这种情况下，如果要执行自动语音识别和讲话者识别，则需要将目标讲话者的干净语音信号从混合语音中分离，以完成随后的识别工作。因此，为了在语音或讲话者识别任务中实现令人满意的性能，必须解决该问题。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种有效的端到端装置来进行自动语音分离。根据本公开的装置不仅旨在最大化信号与失真比(Signal-to-DistortionRatio，SDR)来获得更好的语音质量，其还将语音分离和提高语音质量集成到单个模型中。根据本公开的技术方案通过这个过程执行生成性对抗训练，这使得分离的语音与真实的语音难以区分。

根据本公开的一方面，提供了一种语音处理装置，包括：生成器，其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音；以及判别器，其被配置成区分所述分离的单一语音是否是所述原始单一语音，其中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。

根据本公开的另一方面，提供了一种语音处理方法，包括：由生成器将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音；以及由判别器区分所述分离的单一语音是否是所述原始单一语音，其中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的语音处理方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

使用根据本公开的语音处理装置和方法能够在分离混合语音的同时提高所分离的语音的质量。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1为根据本公开的一个实施例的语音处理装置100的框图；

图2为根据本公开的一个实施例的语音处理方法的流程图；以及

图3为其中可以实现根据本公开的实施例的语音处理装置和语音处理方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

根据本公开的装置不仅旨在最大化SDR来获得更好的语音质量，其还将语音分离和提高语音质量集成到单个模型中。根据本公开的技术方案通过这个过程执行生成性对抗训练，这使得分离的语音与真实的语音难以区分。

根据本公开的一个实施例，提供了一种语音处理装置。所述语音处理装置包括生成器和判别器。所述生成器可以被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音。所述判别器可以被配置成区分所述分离的单一语音是否是所述原始单一语音。其中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。

如图1所示，根据本公开的语音处理装置100可以包括生成器101和判别器102。

生成器101可以被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音。例如，在一个甲、乙两人对话的环境中，当甲、乙两人同时讲话时，根据本公开的生成器101可以将甲、乙两人混合在一起的语音分离成甲的单一语音和乙的单一语音。这里，本领域技术人员应该清楚，上述甲、乙两人对话的环境仅是示例性的，本公开并不限于此。为了便于理解，下文将以这样的示例性环境对本公开的实施例进行详细描述。

接下来，判别器102可以被配置成区分所述分离的单一语音是否是所述原始单一语音。例如，所述判别器102可以被配置成区分所分离的甲的单一语音是否是甲的真实语音，以及区分所分离的乙的单一语音是否是乙的真实语音。

其中，可以对所述生成器101和所述判别器102进行训练，直到所述判别器102不再能够区分所述分离的单一语音是否是所述原始单一语音。例如，所述生成器101和所述判别器102可以被训练，直到所述判别器102不再能够区分所分离的甲的单一语音是否是甲的真实语音，以及不再能够区分所分离的乙的单一语音是否是乙的真实语音。

根据本公开的一个实施例，对所述生成器进行训练可以包括使分离的单一语音的信号与失真比的损失函数最小化。例如，训练所述生成器101可以包括使分离的甲的单一语音和分离的乙的单一语音的信号与失真比的损失函数最小化。

根据本公开的一个实施例，对所述生成器进行训练还可以包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积。例如，训练所述生成器101还可以包括将甲的真实语音和乙的真实语音变换到与所分离的甲的单一语音和所分离的乙的单一语音相同的映射空间中。

根据本公开的一个实施例，对所述生成器进行训练还可以包括计算所述分离的单一语音与变换的原始单一语音之间的误差。例如，训练所述生成器101还可以包括计算所分离的甲的单一语音与变换的甲的真实语音之间的误差，以及计算所分离的乙的单一语音与变换的乙的真实语音之间的误差。

例如，根据本公开的实施例，针对生成器101的损失函数，可以使用负的信号与失真比作为训练目标。而信号与失真比可以计算为：

其中，t是原始单一语音即根据本实施例的甲的真实语音或乙的真实语音，而s是生成器101所分离的单一语音即根据本实施例的所分离的甲的单一语音或所分离的乙的单一语音。这里，本领域技术人员应该清楚，上述生成器101的损失函数仅是示例性的，本公开并不限于此。

接下来，根据本公开的一个实施例，对所述判别器进行训练可以包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音。亦即，根据本公开的实施例，训练所述判别器102既使其可以最大化地区分甲的真实语音和生成器101所分离的甲的单一语音，或者最大化地区分乙的真实语音和生成器101所分离的乙的单一语音。

根据本公开的一个实施例，对所述判别器进行训练还可以包括针对所述原始单一语音，使所述判别器输出的结果接近于预定阈值；以及针对所述分离的单一语音，使所述判别器输出的结果最小化。例如，为了计算方便，这里可以设定预定阈值为1，最小化可以表示为0。亦即，根据本公开的实施例，训练所述判别器102，针对甲的真实语音或乙的真实语音，可以使所述判别器102的输出结果接近于1，而针对生成器101所分离的甲的单一语音或所分离的乙的单一语音，可以使所述判别器102输出的结果接近于0。这里，本领域技术人员应该清楚，所述预定阈值的选择仅是示例性的，本公开并不限于此，所述预定阈值的选择只要能够反映出最大化地区分原始语音与生成的单一语音即可。

根据本公开的一个实施例，对所述生成器进行训练还可以包括使所述判别器判断所述生成器分离的单一语音的结果为接近于所述预定阈值。例如，为了计算方便，这里可以设定预定阈值为1。亦即，根据本公开的实施例，训练所述生成器101可以使得所述判别器102判断所述生成器101生成的分离的甲的单一语音或分离的乙的单一语音的判决结果接近于1。同样地，本领域技术人员应该清楚，所述预定阈值的选择仅是示例性的，本公开并不限于此。

由此，针对生成性对抗训练的损失函数可以定义为：

min_DL(D)＝E[(D(t)-1)²]+E[(D(G(m)))²] (4)，

min_GL(G)＝E[(D(G(m))-1)²]+μL_SDR (5)，

其中，G表示生成器，D表示判别器，t是原始单一语音即根据本实施例的甲的真实语音或乙的真实语音，m是混合语音即根据本实施例的甲、乙的混合语音，L_SDR是生成器的损失函数，μ是平衡系数。

使用根据本公开的语音处理装置能够在分离混合语音的同时提高所分离的语音的质量。

根据本公开的一个实施例，在对所述生成器和所述判别器一起进行训练时，所述生成器的参数和所述判别器的参数可以交替更新。例如，可以使生成器的参数保持不变，训练判别器的参数m次。然后，可以使判别器的参数保持不变，训练生成器的参数k次。如此交替地训练生成器和判别器直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音为止。

根据本公开的语音处理装置通过执行生成性对抗训练，使得分离的语音与真实的语音难以区分。此外，根据本公开的语音处理装置不仅旨在最大化SDR来获得更好的语音质量，其还实现了将语音分离和提高语音质量集成到单个模型中。

下面将结合图2来描述根据本公开的实施例的语音处理方法。如图2所示，根据本公开的实施例的语音处理方法开始于步骤S210。

在步骤S210中，由生成器将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音。

接下来，在步骤S220中，由判别器区分所述分离的单一语音是否是所述原始单一语音。

接下来，在步骤S230中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。其中，当所述判别器能够区分所述分离的单一语音和所述原始单一语音(S230的判断为是)时，重复对所述生成器和所述判别器进行训练，亦即从步骤S230返回，重新执行步骤S210以及步骤S220，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音(S230的判断为否)，则结束流程。

根据本公开的一个实施例的语音处理方法，还包括使分离的单一语音的信号与失真比的损失函数最小化的步骤。

根据本公开的一个实施例的语音处理方法，还包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积的步骤。

根据本公开的一个实施例的语音处理方法，还包括计算所述分离的单一语音与变换的原始单一语音之间的误差的步骤。

根据本公开的一个实施例的语音处理方法，还包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音的步骤。

根据本公开的一个实施例的语音处理方法，还包括针对所述原始单一语音，使所述判别器输出的结果接近于预定阈值以及针对所述分离的单一语音，使所述判别器输出的结果最小化的步骤。

根据本公开的一个实施例的语音处理方法，还包括使所述判别器判断所述生成器分离的单一语音的结果为接近于所述预定阈值的步骤。

根据本公开的一个实施例的语音处理方法，在对所述生成器和所述判别器一起进行训练时，所述生成器的参数和所述判别器的参数交替更新。

根据本公开的实施例的语音处理方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的语音处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其他适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

图3为其中可以实现根据本公开的实施例的语音处理方法的通用个人计算机1300的示例性结构的框图。

如图3所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种语音处理装置，包括：

生成器，其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音；以及

判别器，其被配置成区分所述分离的单一语音是否是所述原始单一语音，

其中，对所述生成器和所述判别器进行训练，直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。

附记2.根据附记1所述的装置，其中，对所述生成器进行训练包括使分离的单一语音的信号与失真比的损失函数最小化。

附记3.根据附记2所述的装置，其中，对所述生成器进行训练还包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积。

附记4.根据附记3所述的装置，其中，对所述生成器进行训练还包括计算所述分离的单一语音与变换的原始单一语音之间的误差。

附记5.根据附记1所述的装置，其中，对所述判别器进行训练包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音。

附记6.根据附记5所述的装置，其中，对所述判别器进行训练包括针对所述原始单一语音，使所述判别器输出的结果接近于预定阈值；以及针对所述分离的单一语音，使所述判别器输出的结果最小化。

附记7.根据附记6所述的装置，其中，对所述生成器进行训练还包括使所述判别器判断所述生成器分离的单一语音的结果为接近于所述预定阈值。

附记8.根据附记1所述的装置，其中，在对所述生成器和所述判别器一起进行训练时，所述生成器的参数和所述判别器的参数交替更新。

附记9.一种语音处理方法，包括：

由生成器将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音；以及

由判别器区分所述分离的单一语音是否是所述原始单一语音，

附记10.根据附记9所述的方法，其中，对所述生成器进行训练包括使分离的单一语音的信号与失真比的损失函数最小化。

附记11.根据附记10所述的方法，其中，对所述生成器进行训练还包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积。

附记12.根据附记11所述的方法，其中，对所述生成器进行训练还包括计算所述分离的单一语音与变换的原始单一语音之间的误差。

附记13.根据附记9所述的方法，其中，对所述判别器进行训练包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音。

附记14.根据附记13所述的方法，其中，对所述判别器进行训练包括针对所述原始单一语音，使所述判别器输出的结果接近于预定阈值；以及针对所述分离的单一语音，使所述判别器输出的结果最小化。

附记15.根据附记14所述的方法，其中，对所述生成器进行训练还包括使所述判别器判断所述生成器分离的单一语音的结果为接近于所述预定阈值。

附记16.根据附记9所述的方法，其中，在对所述生成器和所述判别器一起进行训练时，所述生成器的参数和所述判别器的参数交替更新。

附记17.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记9-16中任何一项所述的方法。

Claims

1.一种语音处理装置，包括：

2.根据权利要求1所述的装置，其中，对所述生成器进行训练包括使分离的单一语音的信号与失真比的损失函数最小化。

3.根据权利要求2所述的装置，其中，对所述生成器进行训练还包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积。

4.根据权利要求3所述的装置，其中，对所述生成器进行训练还包括计算所述分离的单一语音与变换的原始单一语音之间的误差。

5.根据权利要求1所述的装置，其中，对所述判别器进行训练包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音。

6.根据权利要求5所述的装置，其中，对所述判别器进行训练包括针对所述原始单一语音，使所述判别器输出的结果接近于预定阈值；以及针对所述分离的单一语音，使所述判别器输出的结果最小化。

7.根据权利要求6所述的装置，其中，对所述生成器进行训练还包括使所述判别器判断所述生成器分离的单一语音的结果为接近于所述预定阈值。

8.根据权利要求1所述的装置，其中，在对所述生成器和所述判别器一起进行训练时，所述生成器的参数和所述判别器的参数交替更新。

9.一种语音处理方法，包括：

10.一种机器可读存储介质，其上携带有程序产品，所述程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据权利要求9所述的方法。