CN111816215A

CN111816215A - 语音端点检测模型训练和使用方法及装置

Info

Publication number: CN111816215A
Application number: CN202010725288.4A
Authority: CN
Inventors: 吴梦玥; 陈烨斐; 丁翰林; 俞凯
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-23

Abstract

本发明公开语音端点检测模型训练和使用方法及装置，其中，训练方法包括：将训练音频输入至广义上的语音端点检测模型中；经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数；以及通过控制所述损失函数优化所述广义上的语音端点检测模型。本申请实施例的方案能够把非语音的部分里面不同的类型也区分开来，可以提高分类的准确性，不容易把噪声误判为语音部分。

Description

语音端点检测模型训练和使用方法及装置

技术领域

本发明属于语言模型领域，尤其涉及语音端点检测模型训练和使用方法及装置。

背景技术

相关技术中，存在各种类型的语音端点检测模型，包括以短时能量，过零率等阈值作为语音和非语音区分标准的语音端点检测模型，以及使用神经网络等区分性模型训练的语音端点检测器。

一方面，阈值区分法主要是使用短时能量，过零率等指标作为阈值，从音频中提取声学特征之后，每一帧或每一小段计算这些指标，然后通过是否达到阈值来区分音频中的语音部分和非语音部分。

另一方面，模型区分法主要是使用深度神经网络等区分性模型，以声学特征作为输入，然后通过神经网络隐层的训练，最后输出每一帧是否为语音或者非语音的后验概率，通过比较后验概率的大小来判断语音还是非语音。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

相关技术主要的缺陷就是在带有噪声的环境下不能很好的区分语音和非语音。一些噪声自适应的技术方法需要很多的标注好的数据进行训练才能对一些特定的噪声具有鲁棒性，而这些标注好的数据往往是比较难得到的，或者数量没有那么大。

发明内容

本发明实施例提供一种语音端点检测模型训练和使用方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音端点检测模型训练方法，包括：将训练音频输入至广义上的语音端点检测模型中；经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；以及通过控制所述损失函数优化所述广义上的语音端点检测模型。

第二方面，本发明实施例提供一种语音端点检测模型使用方法，包括：经由根据第一方面所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；以及获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

第三方面，本发明实施例提供一种语音端点检测模型训练装置，包括：输入模块，配置为将训练音频输入至广义上的语音端点检测模型中；检测模块，配置为经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；输出模块，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；损失计算模块，配置为基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；以及优化模块，配置为通过控制所述损失函数优化所述广义上的语音端点检测模型。

第四方面，本发明实施例提供一种语音端点检测模型使用装置，包括：模型处理模块，配置为经由根据权利要求1-4所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；以及区分模块，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音端点检测模型训练和使用方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音端点检测模型训练和使用方法的步骤。

本申请的方法和装置提供的方案利用音频事件检测的方法来解决音频端点检测的问题，这一点是比较具有创新性的，之前没有相同的工作这样来解决这个问题，这样的做法最大的好处就是提高了带噪环境下的检测性能，因为它把原本非语音类别进行了细化，区分了静音和各种类型的噪声，这样可以减少把各种噪声误判为语音的可能性，原来的语音端点检测模型中把所有非语音归为一类，但是这一类中有很多不同类型的噪声，各自特征也完全不同，所以在训练的时候类间的相似性就会比较低，会降低模型的区分性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音端点检测模型训练方法的流程图；

图2为本发明一实施例提供的一种语音端点检测模型使用方法的流程图；

图3为本发明一实施例提供的模型的流程图；

图4示出了Aurora4(深色)和DCASE18(浅色)之间关于持续时间(左)和每个发声的段数(右)的评估数据分布；

图5示出了三个样本片段的每帧概率输出，带有可视化语音出现(方框，灰色)；

图6为本发明一实施例提供的一种语音端点检测模型训练装置的框图；

图7为本发明一实施例提供的一种语音端点检测模型使用装置的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音端点检测模型训练方法的一实施例的流程图，本实施例的语音端点检测模型训练方法可以适用于对语音端点检测模型进行训练，本申请在此没有限制。

如图1所示，在步骤101中，将训练音频输入至广义上的语音端点检测模型中；

在步骤102中，经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

在步骤103中，获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；

在步骤104中，基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；

在步骤105中，通过控制所述损失函数优化所述广义上的语音端点检测模型。

在一些可选的实施例中，所述音频事件标注为段落级别的标注。段落级别的标注是更容易获得的，而且在音频事件检测方法中使用段落级别的标注也是不影响标注效果的。

在一些可选的实施例中，在所述将训练音频输入至广义上的语音端点检测模型中之前，所述方法还包括：提取所述训练音频种的声学特征；以及使用卷积循环神经网络模型对所述声学特征进行训练分类。

在一些可选的实施例中，所述经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件包括：利用所述广义上的语音端点检测模型中的音频事件检测来识别所述训练音频中存在的多个音频事件。

请参考图2，其示出了本申请一实施例提供的一种语音端点检测模型使用方法。

如图2所示，在步骤201中，经由根据权利要求1-4所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

在步骤202中，获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

在一些可选的实施例中，获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果包括：基于所述多个音频事件加上双阈值的后处理方法得到语音和非语音的区分结果。

在一些可选的实施例中，所述基于所述多个音频事件加上双阈值的后处理方法得到语音和非语音的区分结果包括：基于所识别的多个音频事件将所述人说话事件作为语音部分，将所述静音事件和所述至少一种噪音事件作为非语音部分；以及基于所述语音部分和所述非语音部分的区分结果确定所述待检测音频的语音端点。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

本领域的技术人员，一般要解决相关技术中存在的这些缺陷，通常会采用一些降噪的方法，即对需要判断的音频进行各种噪声消除的处理，降低噪声的影响之后再进行语音和非语音的区分，或者进行一些噪声自适应的方法，就是针对一些特定的场景，使用带有噪声的数据进行训练或者提取场景噪声的一些特征加入到模型中协助区分。

发明人在实现本申请实施例的过程中发现：相关技术中存在的上述缺陷主要是由一个比较普遍的假设前提导致的，就是绝大多数的语音端点检测模型都是进行两个类别的区分，即语音和非语音，语音就是人说话的部分，然后把静音和各种噪声都归到非语音的一类中去，但其实静音段和各种不同类型的噪声特征都不相同，把它们放到同一类中会导致模型的区分性能下降。

本申请实施例中提出的方法就是使用音频事件检测的方法来帮助训练语音端点检测模型，即使用音频事件检测来对音频进行多个音频事件的检测，这些事件中包括人说话的时间，静音的事件，以及各种噪声的事件，例如鸟叫声，流水声等等，这样区分完毕之后，把人说话的事件作为语音部分，然后把其他的各种事件作为非语音的部分。这样做的好处就是把非语音的部分里面不同的类型(静音和不同类型的噪声)也区分开来，这样可以提高分类的准确性，不容易把噪声误判为语音部分。

图3是我们模型的流程图，其中灰色的部分是模型训练的部分，首先使用CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)模型对输入的声学特征进行训练分类，然后我们提出的GPVAD(General Purpose Voice Activity Detection，广义上的语音端点检测)模型就是利用音频事件检测模型来识别出输入音频中存在的音频事件(说话，猫叫，开门声等等)，不同于传统语音端点检测模型VAD-C的训练过程，GPVAD模型不需要帧级别的标注来计算损失函数，只需要更容易得到的段落级别的标注(即某段音频中各个事件是否发生的0，1序列)来计算段落级别的损失函数即可。然后在inference andevaluation(测试和评价)部分，加上Double threshold(双阈值)的后处理方法得到语音和非语音的区分结果。其中，Label表示标签，Speech表示语音，Noise表示噪声，Predication表示预测，truth表示真相。

发明人在实现本申请的过程中，还采用过一些备选方案，有一个备选方案就是利用相同的数据和标注来训练语音事件检测模型和语音端点检测模型，即都使用帧级别的标注来计算相同的损失函数，这样可以保证两个模型之间的可比性。但是缺点在于帧级别的标注不容易得到，尤其是对于音频事件的帧级别标注更难得到，而且我们要解决的问题也包括具有完整帧级别标注的数据太少这一个，所以最后没有使用完全相同的数据和标注来训练两个模型，而是使用段落级别的标注来训练音频事件检测模型，用帧级别的标注来训练音频端点检测模型。

本申请实施例提出的方法主要就是利用音频事件检测的方法来解决音频端点检测的问题，这一点是比较具有创新性的，之前没有相同的工作这样来解决这个问题，这样的做法最大的好处就是提高了带噪环境下的检测性能，因为它把原本非语音类别进行了细化，区分了静音和各种类型的噪声，这样可以减少把各种噪声误判为语音的可能性，原来的语音端点检测模型中把所有非语音归为一类，但是这一类中有很多不同类型的噪声，各自特征也完全不同，所以在训练的时候类间的相似性就会比较低，会降低模型的区分性。

以下介绍发明人的实现本申请实施例的过程，以及在该过程中的一些实验过程及相应的实验数据，以使本领域技术人员更好地理解本申请的技术方案。

传统的有监督的语音端点检测技术在干净无噪声的特定环境下可以有很好的的效果。但是在真实带噪场景下性能会有很明显的下降。一个可能的瓶颈就是在真实场景下的语音通常带有很多不可预测的噪声，因此对于传统的有监督的语音端点检测模型来说，帧级别的预测是比较困难的。我们提出一种广泛意义上的语音端点检测框架(GPVAD)，这个框架可以用半监督训练的方式比轻松的训练带噪声的数据，而且只需要段落级别的标注。我们提出了两种GPVAD模型，一种是GPV-F，是在包含527个音频事件的Audioset数据集上训练的多分类器，另一种是GPV-B，只区分语音和噪声。我们在三个不同的测试集(干净的，合成噪声的，真实场景的)上比较这两个GPV模型以及传统的基于CRNN的语音端点检测模型(VAD-C)。结果显示我们提出的GPV-F模型在干净和合成的两个测试集上的检测性能与传统的VAD-C模型相当。同时在真实场景的测试中，帧级别的评价指标和段落级别的评价指标都表明，GPV-F模型的结果比传统的VAD-C模型提升很多。在真实场景下，相对来说简单一些的GPV-B模型也获得和VAD-C模型可比的性能。

1、简介

语音端点检测(VAD)的主要目的是检测语音段并将其与非语音区分开，它是语音识别，说话者识别和说话者确认等任务的关键组件。深度学习方法已成功应用于VAD。对于复杂环境中的VAD，神经网络(NN，Neural Networks)已取得成功。与传统方法相比，深度神经网络(DNN，Deep Neural Networks)特别是卷积神经网络(CNN，Convolutional NeuralNetworks)提供了改进的建模能力，而递归(RNN)和长短期记忆(LSTM，Long Short TermMemory)网络则可以更好地建模序列输入之间的长时依赖关系。但是，尽管应用了深度学习方法，基于NN的VAD训练仍然需要帧级别的标签。因此，所利用的训练数据通常是在有或没有其他合成噪声的受控环境下进行的。这不可避免地阻止了VAD在现实世界中的应用，因为在真实场景下的语音中经常伴随着无数种具有不同特征的没有见过的噪音。

因此，本文旨在提出一种在干净无噪声的噪声环境之外检测语音的方法。

应该注意的是，由于人工标记的成本很高，因此现实生活中音频的帧级别标签是比较难获得的，并且根据隐马尔可夫模型进行的标记预测需要有关所使用语言的先验知识。在启用噪声数据训练的同时检测语音成分的任务与弱监督音频事件检测(WSSED，Weakly Supervised Sound Event Detection)有关，该事件检测并定位不同的声音，包括通过段落级监督的语音。由于WSSED系统被验证了对噪声具有鲁棒性，并且只需要段落级标签，因此这项工作集成了WSSED方法，可将VAD缩放到野外语音场景并放宽对帧标签的依赖。具体来说，我们研究两个问题：1)当前的，多类WSSED模型的性能是否可与基于DNN的VAD媲美；2)段落级别的训练是否可以代替帧级别标签的训练？因此，我们介绍了我们的框架，这是VAD的通用训练框架(GPVAD，请参见图1)。一般而言，我们指的是两个不同的方面：首先，该框架具有强大的抗噪能力，并且能够在真实的生活场景中进行部署；其次，可以在不受约束的数据上训练框架，从而可以在大量的无标签数据(如嘈杂的在线视频)中学习。

该文件的结构如下：在第2节中，我们简要回顾了WSSED的相关工作以及如何将其用于真实环境中的VAD任务。在第3节中，介绍了GPVAD方法。此外，在第4节中，我们介绍了实验设置并提供了实现细节。在第5节中介绍了结果，最后在第6节中提供了结论。

2、弱监督的音频事件检测

由于WSSED可以很好地在嘈杂的环境中检测语音而无需帧级标记，因此我们借用了这种想法以在真实环境中实现VAD。在这里，我们介绍有关音频事件检测(SED，SoundEvent Detection)的相关工作，其目的是对(音频标记)进行分类，并可能定位来自给定音频片段的多个同时发生的声音事件。在这项工作中，我们主要关注弱监督SED(WSSED)，这是一种半监督任务，该任务在训练期间只能访问段落级别的标签，而在评估过程中需要对特定事件进行分类和定位。这种弱监督的方式可以对噪声数据进行训练，而对标记方法的要求较低。弱监督的音频事件检测的最新进展，特别是声学场景和事件的检测和分类(DCASE)挑战，为预测准确的声音事件边界和事件标签带来了很大的进步。特别是最近的工作在短时不连续事件(例如语音)的检测方面显示出令人鼓舞的性能。

图3示出了本申请实施例建议的框架。利用了CRNN架构，而GPVAD利用段落级标签进行训练，而VAD-C则使用帧级别标签进行训练。每个Conv2d块表示一个批归一化，然后是用0补齐的二维卷积，其内核大小为3×3，使用带泄漏的ReLU作为激活函数，负斜率为0.1。CNN输出被馈送到具有128个隐藏单元的双向门控循环单元(GRU)。该体系结构对时间维度T进行4倍的下采样，然后再进行上采样以匹配原始输入的时间维度。对于GPV-F，事件数E设置为527，对于GPV-B和VAD-C，事件数设置为2。在后处理之后，仅保留输出事件(语音)，以进行最终评估。

3通过WSSED在嘈杂环境中使用VAD

传统上，用于嘈杂场景的VAD是按照公式(1)建模的。假设可以从观察到的语音信号x中滤除加性噪声u以获得清晰的语音s。

x＝s+u(1)

但是，直接对u建模非常棘手，因为每种类型的噪声都有其各自的特征。因此，我们旨在通过观察潜在的L个不同的非语音事件(u1...，uL)来了解s的性质。这些事件不限于背景/前景噪声，并且可以具有不同的真实世界声音(例如，猫，音乐)。

X＝{x1，...，xl，...，xL}

xl＝(s，ul)(2)

我们的方法源于多实例学习(MIL)，这意味着关于特定标签的训练集知识是不完整的(例如，从未直接观察到语音)。在这里，我们将观察到的语音数据X建模为“包”，其中包含语音和其他任何一个可能有噪声的背景/前景事件标签l∈{1，...，L}共同发生的段落，可能的事件标签L<E(等式(2))。可以这么说，我们的方法旨在在复杂的环境场景中完善模型对语音信号的信念。这种建模方法的优点是可以同时应用于帧和段落级别的训练。因此，我们的GPVAD通过允许在片段/整句级别上进行训练来放松这些限制，其中每个训练片段至少包含一个感兴趣的事件。我们提出了两种不同的模型：GPV-F，它输出E＝527个标签(L＝405)，而朴素的GPV-B，E＝2，L＝1。GPV-F可以看作是一种成熟的WSSED方法，使用最多的标签监督，因此比GPV-B对标签的要求更高，后者只需要有关包含语音的片段的知识。但是，GPV-F应该能够对每个单独的噪声事件进行建模，而不是将所有噪声聚类为一个类别(GPV-B)，因此可能会增强重噪声场景下的性能。将这两个模型与在帧级上训练的模型(又称为VAD-C)进行了比较。

所有模型都共享一个在WSSED中使用的通用主干卷积递归神经网络(CRNN)方法，该方法对短时间的不连续事件(例如语音)具有鲁棒性。对以上方法进行了以下修改：1.添加上采样操作，以使模型的时间分辨率保持恒定。2.使用Lp池化并设置默认值(p＝4)，因为它对于持续时间不变性估计是有益的。与可以使用帧级标签的VAD-C培训不同，我们的GPVAD框架分为两个不同的阶段。在训练期间，仅可访问片段/整句的标签。因此，需要时间池化函数(等式(4))。在推论过程中，需要进行后处理(第4.3节)，以将概率序列转换为二进制标签(事件的缺失/存在)，并丢弃所有预测的非语音标签。该框架如图3所示。

4、实验

在我们的工作中，深层神经网络在PyTorch中实现，前端特征提取利用librosa。代码将在线提供。

4.1数据集

表1：针对GPVAD(音频集)和VAD-C(Aurora4+)的培训数据集，以及针对干净，合成噪声和真实场景提出的三种建议测试集。持续时间代表大致的讲话时间。

图4示出了：Aurora4(深色)和DCASE18(浅色)之间关于持续时间(左)和每个句子片段数(右)的评估数据分布。彩色效果最佳。

这项工作中利用的数据集可以分为训练数据部分(在GPVAD和VAD方法之间有所不同)和评估数据，这两种方法都共享该数据。我们的主要GPVAD训练数据集是AudioSet语料库提供的“平衡”集，其中包含21100/22160(由于部分不可用)10秒的Youtube音频片段，分为527个嘈杂事件标签。在可用的21100个段落(58h)中，有5452个段落(≈15h)被标记为包含语音，但始终与L＝405个其他事件(例如，狗叫声)并排。关于GPV-B，我们替换了平衡数据集中的所有526个事件，而不是将语音作为“噪音”，因此XGPV-B＝{(s，unoise，)，unoise}。重要的是要注意，对于GPVB/V的训练，永远不会单独观察语音。

我们的VAD-C模型在Aurora4训练集上进行了训练，该训练集是在15h的Switchboard数据子集的基础上进行了扩展，从而获得了我们的Aurora4+训练子集，其中包含干净的以及合成噪声数据。附加合成噪声(Syn)是从六种不同的噪声类型(汽车，杂音，餐厅，街道，机场和火车)获得的，这些噪声在10至20dB之间随机选择SNR进行添加。表1中描述了所有利用的数据集。提出了三种不同的评估方案。首先，我们在长达40分钟的干净Aurora4测试集合上进行测试。其次，我们通过使用从5db到15db的SNR以1db为步长，从100种噪声类型中随机添加噪声，基于干净的Aurora4测试集来合成一个噪声测试集。最后，我们合并DCASE18挑战[10]本身的音频集的开发和测试集，以创建我们的实际场景的评估数据。DCASE18数据提供了十个家庭环境事件标签，我们忽略了语音以外的所有标签，但是报告了存在非语音标签的实例数量。我们的DCASE18评估集包含596个标记为“语音”的语音，414个语音(占69％)包含另一个非语音标签，114个语音(占20％)仅包含语音和68个语音(占11％)包含两个或多个非语音标签。

从图4中可以看出，DCASE18评估数据集与Aurora4数据集的不同之处在于，语音的平均持续时间(1.49s与3.31s)以及句子内的检测片段数量(3.87与2.08)。

4.2评估指标

帧级别：对于帧级别评估，我们利用帧级别宏/微平均F1分数(F1-宏，F1-micro)，曲线下面积(AUC，Area Under the Curve)和帧错误率(FER，frame error rate)。

段落级别：对于段落级别评估，我们使用基于事件的F1-Score(Event-F1)。事件F1计算开始，偏移和预测的标签是否与基本事实重叠，因此是时间一致性的度量。根据WSSED研究，我们将t-collar设置为200ms，以允许开始预测点的误差并进一步允许参考与预测之间的时长误差为20％。

4.3设定

关于特征提取，在这项工作中，所有实验都使用64维对数-梅尔功率谱图(LMS，log-Mel power spectrograms)。每个LMS样本使用Hann窗口，每20ms通过2048点傅里叶变换提取，窗口大小为40ms。在训练期间，将所有数据用0补齐到批处理中最长的样本长度，而在推理期间，将使用批处理大小为1，这意味着不填充。

真实结果y和预测

之间的所有实验的训练准则是所有样本N的交叉熵方程式(3)。线性softmax(方程式(4))用作合并帧级别的时间合并层单个向量表示y(e)∈[0,1]E的概率yt(e)∈[0,1]。

GPVAD：可用的训练数据被分为90％训练平衡标签数据和10％验证集合。由于音频集内在的固有标签失衡，因此需要进行采样，以使每批包含每个标签中分布均匀的片段。训练使用Adam优化，起始学习率为1e-4，批量大小为64，并且如果指标在验证的数据集上没有减少，则在七轮后终止。

VAD-C：VAD-C训练使用20的批量大小，而对于填充的帧，则不计算损失函数(等式(3))。学习速率设置为1e-5，并且SGD用于模型优化。训练目标标签是通过从Kaldi训练过的ASRHMM模型中进行对齐获得的。

后处理在推理过程中，需要进行后处理，以便从类概率序列(yt(e))中获得硬标签。我们在此使用双阈值后处理，该后处理使用两个阈值

5结果

我们的结果见表2。首先，我们提供的证据表明，我们的VAD-C模型能够与其他深度神经网络方法获得可以匹配的性能。将VAD-C与GPV-B/F进行比较，可以看出，鉴于我们针对干净和合成噪声数据集的指标，VAD-C确实是性能最好的模型。但是，对真实数据集的评估揭示了另外一些内容。在这里，VAD-C似乎无法对抗朴素的GPV-B方法(AUC 87.87与89.12，FER 21.92与19.65)，这表明VAD-C在存在真实噪声的情况下更有可能对语音进行错误分类。此外，在实际情况下，对于每个建议的指标，GPV-F的性能都优于VAD-C。我们提出的GPV-F方法也可以被认为是具有对噪声的鲁棒性，因为它在合成噪声和实际场景之间的性能差异很小。

即使GPV-B的平均表现不及其他两种方法，也应注意这是成本最低的系统，因为GPV-B的标签数据本质上是一个二进制问题，即是否有人听到段落中的任何语音，这是能够廉价地扩展到大数据的方法。我们得出的结论是，仅使用段落级标签训练的GPVAD模型具有与在帧级标签上训练模型的竞争能力。

定量结果

为了对模型能力进行可视化，从测试集中采样了三个片段(一个Aurora4Noisy，两个DCASE18)，并且每个帧的输出概率如图5所示。在顶部的合成Aurora4测试中，我们可以看到，我们的GPVAD模型能够对两个语音段之间的短暂停顿进行建模，而这两个停顿在VAD-C失败的情况下进行，但是两个GPVAD模型都无法正确估计第二个语音段结束。中心样本进一步展示了实际场景中的一个典型VADC问题：对于大多数语音，它无法区分前景事件(此处为Guitar)和活动语音。尤其是最下面的样本例证了这个问题：VAD-C开始预测语音，而没有语音，两个GPVAD模型都能够区分语音中的任何背景噪声。请注意，底部片段的结尾包含笑声，VAD-C将其分类为语音。在未来的工作中，我们希望通过利用更大的训练数据(例如，不平衡的AudioSet)来进一步扩展GPVAD训练的范围。

表2：在每种评估条件下获得的最佳结果。粗体字表示各个数据集的最佳结果，下划线表示次佳。其中，AUC表示曲线下面积，FER表示误帧率。

图5：三个样本片段的每帧概率输出，带有可视化语音出现(方框，灰色)。(顶部)包含来自Aurora4(B)的片段；(中)有一位弹吉他的音乐家(DCASE18)；(底部)包含有人在谈论背景噪音(DCASE18)。指示了后处理阈值

彩色效果最佳。图中，Speech表示语音。

6结论

本发明实施例介绍了一种利用弱标签进行训练的音频事件检测的鲁棒VAD方法。研究了两个GPVAD系统：仅对二进制语音和非语音对进行训练的GPV-B，以及使用所有527AudioSet标签的GPV-F。我们的测试集使用五个不同的指标将我们建议的GPVAD方法与传统VAD进行了彻底比较。结果表明，即使利用段落级别的标签对GPV-B进行训练，也可以将其用于检测语音，而无需使用干净的带有框架标签的训练数据。此外，虽然GPV-B/F在针对VAD-C的干净噪声和合成噪声场景中均有不足，但它们在针对真实场景的的稳定预测方面表现出色。具体而言，可以看出，我们提出的方法在合成噪声和现实噪声数据集的性能上都非常可靠。我们的最佳性能模型GPV-F在真实场景的上大大优于传统的监督VAD方法，最终的绝对性能提升是5.57％的F1-macro，6.45％的F1micro，3.93％的AUC，6.45％的FER和10.4％的Event-F1。

请参考图6，其示出了本发明一实施例提供的一种语音端点检测模型训练和使用装置的框图。

如图6所示，语音端点检测模型训练装置600，包括输入模块610、检测模块620、输出模块630、损失计算模块640和优化模块650。

其中，输入模块610，配置为将训练音频输入至广义上的语音端点检测模型中；检测模块620，配置为经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；输出模块630，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；损失计算模块640，配置为基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；以及优化模块650，配置为通过控制所述损失函数优化所述广义上的语音端点检测模型。

请参考图7，其示出了本发明一实施例提供的一种语音端点检测模型使用装置。

如图7所示，语音端点检测模型使用装置700包括模型处理模块710和区分模块720。

其中，模型处理模块710，配置为经由根据上述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；以及区分模块720，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

应当理解，图6和图7中记载的诸模块与参考图1和2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6和图7中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音端点检测模型训练和使用方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将训练音频输入至广义上的语音端点检测模型中；

经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；

基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；

通过控制所述损失函数优化所述广义上的语音端点检测模型。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

经由根据第一方面所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音端点检测模型训练和使用装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音端点检测模型训练和使用装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音端点检测模型训练和使用方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。语音端点检测模型训练和使用方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音端点检测模型训练和使用方法。输入装置830可接收输入的数字或字符信息，以及产生与语音端点检测模型训练和使用装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音端点检测模型训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将训练音频输入至广义上的语音端点检测模型中；

作为一种实施方式，上述电子设备应用于语音端点检测模型使用装置中，包括：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音端点检测模型训练方法，包括：

将训练音频输入至广义上的语音端点检测模型中；

2.根据权利要求1所述的方法，其中，所述音频事件标注为段落级别的标注。

3.根据权利要求1所述的方法，其中，在所述将训练音频输入至广义上的语音端点检测模型中之前，所述方法还包括：

提取所述训练音频种的声学特征；

使用卷积循环神经网络模型对所述声学特征进行训练分类。

4.根据权利要求3所述的方法，其中，所述经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件包括：

利用所述广义上的语音端点检测模型中的音频事件检测来识别所述训练音频中存在的多个音频事件。

5.一种语音端点检测模型使用方法，包括：

经由根据权利要求1-4所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

6.根据权利要求5所述的方法，其中，获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果包括：

基于所述多个音频事件加上双阈值的后处理方法得到语音和非语音的区分结果。

7.根据权利要求6所述的方法，其中，所述基于所述多个音频事件加上双阈值的后处理方法得到语音和非语音的区分结果包括：

基于所识别的多个音频事件将所述人说话事件作为语音部分，将所述静音事件和所述至少一种噪音事件作为非语音部分；

基于所述语音部分和所述非语音部分的区分结果确定所述待检测音频的语音端点。

8.一种语音端点检测模型训练装置，包括：

输入模块，配置为将训练音频输入至广义上的语音端点检测模型中；

检测模块，配置为经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

输出模块，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果；

损失计算模块，配置为基于所述训练音频的音频事件标注和所述广义上的语音端点检测模型的输出计算损失函数，其中，所述音频事件标注包括预先对所述训练音频进行音频事件的标注；

优化模块，配置为通过控制所述损失函数优化所述广义上的语音端点检测模型。

9.一种语音端点检测模型使用装置，包括：

模型处理模块，配置为经由根据权利要求1-4所述的方法训练后的广义上的语音端点检测模型检测输入音频中存在的多个音频事件，其中，所述多个音频事件包括人说话事件、静音事件以及至少一种噪音事件；

区分模块，配置为获取所述广义上的语音端点检测模型输出的所述多个音频事件的语音和非语音的区分结果。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。