CN119132337A

CN119132337A - 基于特征增强预训练模型的有效语音检测方法、装置

Info

Publication number: CN119132337A
Application number: CN202411031589.1A
Authority: CN
Inventors: 吴石松; 董召杰; 李轩昂; 梁寿愚; 卢志良; 陈柔伊; 陈骞; 赵必美; 李紫京; 苏立伟; 刘振华; 赵翔宇; 郑桦; 李成; 冯勤宇
Original assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Current assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Priority date: 2024-07-30
Filing date: 2024-07-30
Publication date: 2024-12-13
Anticipated expiration: 2044-07-30
Also published as: CN119132337B

Abstract

本申请涉及一种基于特征增强预训练模型的有效语音检测方法、装置。所述方法包括：获取包含有不同类型的噪声的待检测语音；将待检测语音输入至第一预训练模型，通过第一预训练模型提取得到待检测语音的有效语音特征；第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到；将有效语音特征输入至第二预训练模型，通过第二预训练模型进行有效语音分类，得到分类结果序列；根据分类结果序列，输出待检测语音的有效语音片段；有效语音片段为去除待检测语音中噪声的语音片段。采用本方法能够适应更多的应用场景以及噪声类型，有效提升了有效语音检测效果，改善了有效语音检测的性能以提升语音识别系统的性能。

Description

基于特征增强预训练模型的有效语音检测方法、装置

技术领域

本申请涉及语音处理技术领域，特别是涉及一种基于特征增强预训练模型的有效语音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

随着语音识别技术的发展，其在电力生产活动中的应用越来越广泛，如基于电力智能客服平台的语音分析处理。但实际应用环境的复杂性也给语音识别技术带来了严峻挑战。

相关技术中，传统的语音识别通常是基于VAD（Voice activity detection，有效语音检测）技术去除语音中包含的环境噪声。由于实际应用环境中噪声类型复杂且应用场景众多，传统的语音识别方法针对某些噪声难以完全去除，而未去除的噪声对于语音识别系统的性能影响较大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升有效语音检测效果的基于特征增强预训练模型的有效语音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于特征增强预训练模型的有效语音检测方法，包括：

获取包含有不同类型的噪声的待检测语音；

将所述待检测语音输入至第一预训练模型，通过所述第一预训练模型提取得到所述待检测语音的有效语音特征；所述第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到；

将所述有效语音特征输入至第二预训练模型，通过所述第二预训练模型进行有效语音分类，得到分类结果序列；所述第二预训练模型所采用的第二训练数据为对已标注样本语音进行数据特征增强得到；所述分类结果序列用于表征所述待检测语音中每个帧的语音是否为有效语音的概率；

根据所述分类结果序列，输出所述待检测语音的有效语音片段；所述有效语音片段为去除所述待检测语音中噪声的语音片段。

在其中一个实施例中，所述根据所述分类结果序列，输出所述待检测语音的有效语音片段，包括：

在所述分类结果序列中，确定有效语音帧的起始时间点以及结束时间点；

根据所述有效语音帧的起始时间点以及结束时间点对应的序列片段，得到所述有效语音片段。

在其中一个实施例中，所述方法还包括：

获取基于语音识别任务的无标注样本语音；

根据所述无标注样本语音转换得到梅尔频谱矩阵，通过在所述梅尔频谱矩阵的时间维度和频率维度进行处理，得到所述无标注样本语音的增强后数据特征；

将所述无标注样本语音的增强后数据特征，作为所述第一训练数据。

在其中一个实施例中，所述方法还包括：

获取基于编码器和解码器结构的第一待训练模型；

结合所述第一训练数据和第一损失函数，对所述第一待训练模型进行自监督模型训练，得到用于提取有效语音特征的所述第一预训练模型；所述第一损失函数包括对比损失和多样性损失。

在其中一个实施例中，所述方法还包括：

获取基于语音识别任务的已标注样本语音，将所述已标注样本语音的增强后数据特征，作为所述第二训练数据；

通过将所述第二训练数据输入至所述第一预训练模型进行特征提取处理，得到样本有效语音特征。

在其中一个实施例中，所述方法还包括：

获取基于神经网络的第二待训练模型；所述第二待训练模型包括有效语音分类模型；

采用所述样本有效语音特征作为输入，根据第二损失函数对所述有效语音分类模型进行训练，得到分类结果输出模型；所述第二损失函数包括交叉熵函数；

结合所述分类结果输出模型和有效语音片段输出模块，得到所述第二预训练模型。

第二方面，本申请还提供了一种基于特征增强预训练模型的有效语音检测装置，包括：

待检测语音获取模块，用于获取包含有不同类型的噪声的待检测语音；

有效语音特征提取模块，用于将所述待检测语音输入至第一预训练模型，通过所述第一预训练模型提取得到所述待检测语音的有效语音特征；所述第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到；

有效语音分类模块，用于将所述有效语音特征输入至第二预训练模型，通过所述第二预训练模型进行有效语音分类，得到分类结果序列；所述第二预训练模型所采用的第二训练数据为对已标注样本语音进行数据特征增强得到；所述分类结果序列用于表征所述待检测语音中每个帧的语音是否为有效语音的概率；

有效语音片段输出模块，用于根据所述分类结果序列，输出所述待检测语音的有效语音片段；所述有效语音片段为去除所述待检测语音中噪声的语音片段。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

上述一种基于特征增强预训练模型的有效语音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，通过获取包含有不同类型的噪声的待检测语音，然后将待检测语音输入至第一预训练模型，通过第一预训练模型提取得到待检测语音的有效语音特征，该第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到，进而将有效语音特征输入至第二预训练模型，通过第二预训练模型进行有效语音分类，得到分类结果序列，该第二预训练模型所采用的第二训练数据为对已标注样本语音进行数据特征增强得到，该分类结果序列用于表征待检测语音中每个帧的语音是否为有效语音的概率，根据分类结果序列，输出待检测语音的有效语音片段，该有效语音片段为去除待检测语音中噪声的语音片段，实现了对有效语音检测的优化，基于特征增强以预训练模型，可以增强有效语音检测模型的鲁棒性，适应更多的应用场景以及噪声类型，有效提升了有效语音检测效果，能够改善有效语音检测的性能以提升语音识别系统的性能。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对本申请实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一个实施例中基于特征增强预训练模型的有效语音检测方法的流程示意图；

图2为一个实施例中基于特征增强预训练模型的有效语音检测处理流程的示意图；

图3a为一个实施例中基于特征增强预训练模型的训练流程示意图；

图3b为一个实施例中模型结构的示意图；

图4为另一个实施例中基于特征增强预训练模型的有效语音检测方法的流程示意图；

图5为一个实施例中基于特征增强预训练模型的有效语音检测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个示例性的实施例中，如图1所示，提供了一种基于特征增强预训练模型的有效语音检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤101至步骤104。其中：

步骤101，获取包含有不同类型的噪声的待检测语音。

其中，可以基于语音识别系统获取待检测语音，该语音识别系统的语音处理过程包括有效语音检测过程，如语音识别系统可以应用于智能客服语音质检分析、智能语音会议系统和多媒体音频分析等领域。

作为一示例，不同类型的噪声可以为实际应用环境中的各种噪声，如环境音乐、环境人声、信道噪声等。

在实际应用中，如图2所示，以测试阶段为例，可以将输入的测试语音作为待检测语音，以进一步对该待检测语音基于特征增强的预训练模型进行有效语音检测处理。

步骤102，将所述待检测语音输入至第一预训练模型，通过所述第一预训练模型提取得到所述待检测语音的有效语音特征；所述第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到。

其中，第一预训练模型可以为利用特定算法进行数据增强并进行自监督预训练得到的预训练模型，通过对无标注样本语音进行数据增强处理得到第一训练数据，可以将原始特征变换为增强的特征，从而基于特征增强进行模型训练，能够有助于增强预训练模型的鲁棒性。

在具体实现中，可以将训练完成的预训练模型（即第一预训练模型）作为特征提取器，如图2中基于预训练模型的鲁棒VAD特征提取模块，通过输入待检测语音，可以采用第一预训练模型提取该待检测语音的有效语音特征。

步骤103，将所述有效语音特征输入至第二预训练模型，通过所述第二预训练模型进行有效语音分类，得到分类结果序列；所述第二预训练模型所采用的第二训练数据为对已标注样本语音进行数据特征增强得到。

其中，分类结果序列可以用于表征待检测语音中每个帧的语音是否为有效语音的概率，如可以针对待检测语音进行逐帧处理，以判断每个帧是否为有效语音。

在得到有效语音特征后，可以采用训练完成的分类器模型（即第二预训练模型）进行有效语音分类，通过将提取的该有效语音特征输入至第二预训练模型，如图2中基于神经网络分类器的鲁棒VAD特征提取模块，可以分类输出表征各帧是否为有效语音的概率序列（即分类结果序列）。

在一示例中，通过对已标注样本语音进行数据增强处理得到第二训练数据，可以采用该第二训练数据训练得到第二预训练模型；具体地，由于训练完成的预训练模型可以作为鲁棒的有效音检测特征提取器，即第一预训练模型，通过该第一预训练模型对第二训练数据进行特征提取处理以训练模型，可以训练得到非线性的神经网络分类器用于有效语音的判定。

步骤104，根据所述分类结果序列，输出所述待检测语音的有效语音片段；所述有效语音片段为去除所述待检测语音中噪声的语音片段。

在得到分类结果序列后，通过将该分类结果序列输入至第二预训练模型中的有效语音片段输出模块，可以基于分类结果序列确定出待检测语音中有效语音片段的起始束时间点以及结束时间点，进而可以得到去除待检测语音中噪声的有效语音片段。从而基于特征增强预训练模型进行有效语音检测，能够有效提升语音识别系统的性能，有助于提升语音识别效果。

上述基于特征增强预训练模型的有效语音检测方法中，通过获取包含有不同类型的噪声的待检测语音，然后将待检测语音输入至第一预训练模型，通过第一预训练模型提取得到待检测语音的有效语音特征，进而将有效语音特征输入至第二预训练模型，通过第二预训练模型进行有效语音分类，得到分类结果序列，根据分类结果序列，输出待检测语音的有效语音片段，实现了对有效语音检测的优化，基于特征增强以预训练模型，可以增强有效语音检测模型的鲁棒性，适应更多的应用场景以及噪声类型，有效提升了有效语音检测效果，能够改善有效语音检测的性能以提升语音识别系统的性能。

在一个示例性的实施例中，所述根据所述分类结果序列，输出所述待检测语音的有效语音片段，可以包括如下步骤：

在所述分类结果序列中，确定有效语音帧的起始时间点以及结束时间点；根据所述有效语音帧的起始时间点以及结束时间点对应的序列片段，得到所述有效语音片段。

在实际应用中，可以采用起尾点寻找算法以判断分类结果序列中有效语音片段的起点与尾点；示例性地，通过起点寻找算法，可以在检测到某一有效语音帧之后连续的有效语音帧超过阈值的情况下，确认该某一有效语音帧为有效语音片段的起点（即有效语音帧的起始时间点）；通过尾点寻找算法，可以在某一噪音帧之后连续的噪音帧超过阈值时，确认该某一噪音帧为有效语音片段的尾点（即有效语音帧的结束时间点）。

本实施例中，通过在分类结果序列中，确定有效语音帧的起始时间点以及结束时间点，进而根据有效语音帧的起始时间点以及结束时间点对应的序列片段，得到有效语音片段，能够有效确定出有效语音片段。

在一个示例性的实施例中，还可以包括如下步骤：

获取基于语音识别任务的无标注样本语音；根据所述无标注样本语音转换得到梅尔频谱矩阵，通过在所述梅尔频谱矩阵的时间维度和频率维度进行处理，得到所述无标注样本语音的增强后数据特征；将所述无标注样本语音的增强后数据特征，作为所述第一训练数据。

在具体实现中，如图3a所示，针对训练阶段，基于特征增强预训练模型的有效语音检测系统整体流程可以包括如下模块：基于特定算法的无标注训练数据增强模块、基于无标注数据的大模型预训练模块、基于预训练模型的鲁棒VAD特征提取模块、基于特定算法的标注数据增强模块、基于神经网络的有效语音分类器finetune（微调）模块、基于神经网络分类器的有效语音片段输出模块。

例如，可以基于历史语音识别任务，通过语音识别系统采集获取无标注样本语音，进而可以基于特定算法的无标注训练数据增强模块，对该无标注样本语音进行数据增强处理，以进一步将数据增强后无标注数据（即第一训练数据）输入大模型预训练模块进行模型训练。

在一示例中，可以采用log梅尔声谱层面的数据增强方法，通过将音频片段（即无标注样本语音）转换为梅尔频谱后的矩阵为，v表示频率维度，表示时间维度，可以采用如下步骤处理：

1、可以将梅尔频谱进行零均值归一化x-x.mean()，从而在后续进行掩码时，可以直接将掩码的位置设置为0，同时还相当于填充了矩阵的均值；

2、针对时间维度平移，可以对频谱进行水平的左右扭转；

3、针对时间维度掩码，若时间维度连续掩码的最大范围是T，可以在[0，T]范围内进行均匀采样一个t，然后可以在范围内随机确定一个点t₀，进而可以从t₀位置开始沿着时间轴连续进行t次掩码（如将矩阵数值置为0）；

4、针对频率维度掩码，若时间维度连续掩码的最大范围是F，可以在[0，F]范围内进行均匀采样一个f，在[0，v-f]范围内随机确定一个点f₀，进而可以从f₀位置开始沿着时间轴连续进行f次掩码（如将矩阵数值置为0）。

从而经过数据增强处理后，可以将原始的特征变换为增强的特征，有利于增强后续模型训练的鲁棒性。

本实施例中，通过获取基于语音识别任务的无标注样本语音，然后根据无标注样本语音转换得到梅尔频谱矩阵，通过在梅尔频谱矩阵的时间维度和频率维度进行处理，得到无标注样本语音的增强后数据特征，进而将无标注样本语音的增强后数据特征，作为第一训练数据，能够为进一步模型训练提供数据支持。

在一个示例性的实施例中，还可以包括如下步骤：

获取基于编码器和解码器结构的第一待训练模型；结合所述第一训练数据和第一损失函数，对所述第一待训练模型进行自监督模型训练，得到用于提取有效语音特征的所述第一预训练模型；所述第一损失函数包括对比损失和多样性损失。

在一示例中，可以采用数据增强后的特征（即第一训练数据）进行无监督预训练，通过利用预训练模型进行自监督预训练可以得到经过特征增强的预训练大模型，即第一预训练模型。

可选地，针对基于无标注数据特征增强的大模型预训练过程，采用的预训练大模型（即第一待训练模型）网络结构如图3b所示，其中，context网络部分使用transformer（编码器-解码器）结构，encoder网络提取的特征向量一方面可以直接输入context的transformer网络，另一方面可以由量化模块对特征向量进行量化后，用于后续的损失函数的计算（如Continuous inputs连续输入，quantized targets量化目标）。

例如，可以通过乘积量化将encoder网络输出的向量Z进行离散化，如可以将向量Z拆分为G个子空间（该一系列的子空间为码本codebook），若每个码本有V个条目，每个条目的长度为d/G，可以在每个码本内通过GUMBEL-softmax或聚类方法，寻找与输入向量最相似的条目，进而可以对每个码本输出的离散化向量进行拼接后得到一个d维的Z量化后的向量。上述量化过程的主要作用是起到了对特征向量压缩去冗的效果，同时通过在各子空间内的聚类，能够使得特征的鲁棒性更强，不易受少量扰动的影响。

在又一示例中，第一损失函数可以包括对比损失和多样性损失两个部分，最终的损失值可以由该两部分损失加权得到。

在一个可选实施例中，在应用于下游任务时（如有效语音检测任务），可以在预训练模型的后面加一个线性层进行微调处理，在微调过程中可以更新线性层的参数，并更新transformer部分的参数，encoder部分参数可以冻结保持不变。

本实施例中，通过获取基于编码器和解码器结构的第一待训练模型，进而结合第一训练数据和第一损失函数，对第一待训练模型进行自监督模型训练，得到用于提取有效语音特征的所述第一预训练模型，能够基于特征增强以预训练模型，有效增强了有效语音检测模型的鲁棒性。

在一个示例性的实施例中，还可以包括如下步骤：

获取基于语音识别任务的已标注样本语音，将所述已标注样本语音的增强后数据特征，作为所述第二训练数据；通过将所述第二训练数据输入至所述第一预训练模型进行特征提取处理，得到样本有效语音特征。

在实际应用中，如图3a所示，针对基于预训练模型的鲁棒有效语音检测特征提取过程，可以对已标注样本语音进行数据增强得到第二训练数据，并将训练完成的预训练模型作为特征提取器，针对该第二训练数据提取鲁棒性的表征向量，从而通过将训练完成的预训练模型作为具有鲁棒性的特征提取器使用，可以将经过数据增强的声学特征输入训练完成的预训练模型，所得到的输出向量（即样本有效语音特征）可以表征具有鲁棒性的有效语音检测。

本实施例中，通过获取基于语音识别任务的已标注样本语音，将已标注样本语音的增强后数据特征，作为第二训练数据，进而通过将第二训练数据输入至第一预训练模型进行特征提取处理，得到样本有效语音特征，为进一步分类器模型训练提供了数据支持。

在一个示例性的实施例中，还可以包括如下步骤：

获取基于神经网络的第二待训练模型；所述第二待训练模型包括有效语音分类模型；采用所述样本有效语音特征作为输入，根据第二损失函数对所述有效语音分类模型进行训练，得到分类结果输出模型；所述第二损失函数包括交叉熵函数；结合所述分类结果输出模型和有效语音片段输出模块，得到所述第二预训练模型。

在具体实现中，可以利用提取的样本有效语音特征训练神经网络有效语音分类器，通过采用具有有效音片段标注的标注数据训练基于神经网络的有效语音二分类模型，作为分类结果输出模型，并根据分类器输出的结果序列进行有效语音的片段判断，可以输出有效语音的起始时间以及结束时间。

在一示例中，如图3a所示，针对基于神经网络的有效语音分类器微调过程，通过将具有精确标注的数据（即已标注样本语音）输入基于预训练模型的鲁棒有效语音检测特征提取模块（即第一预训练模型），可以提取出有效语音检测特征作为输入，以输入神经网络中。该神经网络可以选取全连接神经网络、时间延迟神经网络、卷积神经网络，并可以选取交叉熵函数作为损失函数（即第二损失函数）以微调神经网络，进而可以使得神经网络对输入语音逐帧进行判断是否为有效语音。

在又一示例中，针对基于神经网络分类器的有效语音片段输出过程，在获得神经网络分类器计算的标签（如有效语音、无效语音）序列后，可以根据设定的阈值，将序列中的毛刺（如静音段中较短的语音或语音段中较短的静音）定位并去除，从而能够保证有效语音检测分段的合理性。

本实施例的技术方案基于实际应用中有效语音检测的使用场景多、噪音复杂的问题进行了针对性的改进，通过利用特定算法的数据增强和自监督预训练模型，可以得到具有鲁棒性有效语音检测特征提取能力的预训练模型，进而通过非线性分类器的训练，能够有效提升有效语音检测的性能。

本实施例中，通过获取基于神经网络的第二待训练模型，然后采用样本有效语音特征作为输入，根据第二损失函数对有效语音分类模型进行训练，得到分类结果输出模型，进而结合分类结果输出模型和有效语音片段输出模块，得到第二预训练模型，能够改善有效语音检测的性能以提升语音识别系统的性能。

在一个示例性的实施例中，如图4所示，提供了另一种基于特征增强预训练模型的有效语音检测方法的流程示意图。本实施例中，该方法包括以下步骤：

在步骤401中，获取基于语音识别任务的无标注样本语音，根据无标注样本语音转换得到梅尔频谱矩阵，通过在梅尔频谱矩阵的时间维度和频率维度进行处理，得到无标注样本语音的增强后数据特征，将无标注样本语音的增强后数据特征，作为第一训练数据。在步骤402中，获取基于编码器和解码器结构的第一待训练模型，结合第一训练数据和第一损失函数，对第一待训练模型进行自监督模型训练，得到用于提取有效语音特征的第一预训练模型。在步骤403中，获取基于语音识别任务的已标注样本语音，将已标注样本语音的增强后数据特征，作为第二训练数据，通过将第二训练数据输入至第一预训练模型进行特征提取处理，得到样本有效语音特征。在步骤404中，获取基于神经网络的第二待训练模型，采用样本有效语音特征作为输入，根据第二损失函数对有效语音分类模型进行训练，得到分类结果输出模型，结合分类结果输出模型和有效语音片段输出模块，得到第二预训练模型。在步骤405中，获取包含有不同类型的噪声的待检测语音，将待检测语音输入至第一预训练模型，通过第一预训练模型提取得到待检测语音的有效语音特征。在步骤406中，将有效语音特征输入至第二预训练模型，通过第二预训练模型进行有效语音分类，得到分类结果序列。在步骤407中，在分类结果序列中，确定有效语音帧的起始时间点以及结束时间点，根据有效语音帧的起始时间点以及结束时间点对应的序列片段，得到有效语音片段。需要说明的是，上述步骤的具体限定可以参见上文对一种基于特征增强预训练模型的有效语音检测方法的具体限定，在此不再赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于特征增强预训练模型的有效语音检测方法的基于特征增强预训练模型的有效语音检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于特征增强预训练模型的有效语音检测装置实施例中的具体限定可以参见上文中对于基于特征增强预训练模型的有效语音检测方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种基于特征增强预训练模型的有效语音检测装置，包括：

待检测语音获取模块501，用于获取包含有不同类型的噪声的待检测语音；

有效语音特征提取模块502，用于将所述待检测语音输入至第一预训练模型，通过所述第一预训练模型提取得到所述待检测语音的有效语音特征；所述第一预训练模型所采用的第一训练数据为对无标注样本语音进行数据特征增强得到；

有效语音分类模块503，用于将所述有效语音特征输入至第二预训练模型，通过所述第二预训练模型进行有效语音分类，得到分类结果序列；所述第二预训练模型所采用的第二训练数据为对已标注样本语音进行数据特征增强得到；所述分类结果序列用于表征所述待检测语音中每个帧的语音是否为有效语音的概率；

有效语音片段输出模块504，用于根据所述分类结果序列，输出所述待检测语音的有效语音片段；所述有效语音片段为去除所述待检测语音中噪声的语音片段。

在一个实施例中，所述有效语音片段输出模块504包括：

时间点确定子模块，用于在所述分类结果序列中，确定有效语音帧的起始时间点以及结束时间点；

有效语音片段得到子模块，用于根据所述有效语音帧的起始时间点以及结束时间点对应的序列片段，得到所述有效语音片段。

在一个实施例中，所述装置还包括：

无标注样本语音获取模块，用于获取基于语音识别任务的无标注样本语音；

数据特征增强模块，用于根据所述无标注样本语音转换得到梅尔频谱矩阵，通过在所述梅尔频谱矩阵的时间维度和频率维度进行处理，得到所述无标注样本语音的增强后数据特征；

第一训练数据得到模块，用于将所述无标注样本语音的增强后数据特征，作为所述第一训练数据。

在一个实施例中，所述装置还包括：

第一待训练模型获取模块，用于获取基于编码器和解码器结构的第一待训练模型；

第一预训练模型得到模块，用于结合所述第一训练数据和第一损失函数，对所述第一待训练模型进行自监督模型训练，得到用于提取有效语音特征的所述第一预训练模型；所述第一损失函数包括对比损失和多样性损失。

在一个实施例中，所述装置还包括：

第二训练数据得到模块，用于获取基于语音识别任务的已标注样本语音，将所述已标注样本语音的增强后数据特征，作为所述第二训练数据；

样本有效语音特征得到模块，用于通过将所述第二训练数据输入至所述第一预训练模型进行特征提取处理，得到样本有效语音特征。

在一个实施例中，所述装置还包括：

第二待训练模型获取模块，用于获取基于神经网络的第二待训练模型；所述第二待训练模型包括有效语音分类模型；

分类模型训练模块，用于采用所述样本有效语音特征作为输入，根据第二损失函数对所述有效语音分类模型进行训练，得到分类结果输出模型；所述第二损失函数包括交叉熵函数；

第二预训练模型得到模块，用于结合所述分类结果输出模型和有效语音片段输出模块，得到所述第二预训练模型。

上述基于特征增强预训练模型的有效语音检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、近场通信（Near Field Communication，NFC）或其他技术实现。该计算机程序被处理器执行时以实现一种基于特征增强预训练模型的有效语音检测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的基于特征增强预训练模型的有效语音检测方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的基于特征增强预训练模型的有效语音检测方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取包含有不同类型的噪声的待检测语音；

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性存储器和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（Resistive Random Access Memory，ReRAM）、磁变存储器（Magnetoresistive RandomAccess Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器、人工智能（Artificial Intelligence，AI）处理器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于特征增强预训练模型的有效语音检测方法，其特征在于，所述方法包括：

获取包含有不同类型的噪声的待检测语音；

2.根据权利要求1所述的方法，其特征在于，所述根据所述分类结果序列，输出所述待检测语音的有效语音片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取基于语音识别任务的无标注样本语音；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取基于编码器和解码器结构的第一待训练模型；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种基于特征增强预训练模型的有效语音检测装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。