CN114822560A

CN114822560A - 声纹识别模型的训练及声纹识别方法、系统、设备和介质

Info

Publication number: CN114822560A
Application number: CN202210633977.1A
Authority: CN
Inventors: 任君; 罗超; 王清; 邹宇
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-07-29

Abstract

本发明公开了一种声纹识别模型的训练及声纹识别方法、系统、设备和介质，该训练方法包括获取若干样本语音，提取样本语音的每个语音帧对应的声学频谱特征，获取声学频谱特征对应的设定数量维度的目标帧特征，基于目标帧特征处理得到样本语音对应的目标语音特征，基于目标语音特征获取样本语音对应的声纹向量，将同一样本语音对应的声学频谱特征作为输入，对应的声纹向量作为输出，训练得到声纹识别模型；实现了有针对性的提取语音中的声纹信息，对语音中每个语音帧的各个维度进行评估，计算语音帧的维度权重，以选择出重要的声纹信息，减少了声纹识别模型的参数量和计算量，加快了模型的推理时间，提高了模型声纹信息的提取精度和准确率。

Description

声纹识别模型的训练及声纹识别方法、系统、设备和介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹识别模型的训练及声纹识别方法、系统、设备和介质。

背景技术

声纹作为一种生物身份认证特征，其可以根据个人的发音习惯和语音特征来代表一个人的身份，但一句语音内容较为丰富，包含较多信息，有性别、说话人、情绪、内容等一系列信息。

语音(或称为音频)为时序数据，在声学特征提取过程中以帧为单位进行提取的，而每帧特征会有多维，常见的有40维、80维、101维，维度各不相同，每帧可表示一个向量，每个向量值代表着该帧的信息，不同位置的值代表着不同维度信息，假设第一维更多的表示性别，第二维更多的表示情绪，第三帧才更多的表示声纹。

目前在环境噪音较大的场景中，基于声纹识别的身份验证系统，仍然对噪音和录音的其他冗余信息没有较好过滤功能。目前大多采用数据增强的方式，对训练数据进行加速、加噪等方式来增加训练数据的多样性来增强声纹模型对噪音的适应性，但是其对语音维度不能剔除声纹以外的其他性别、内容等信息。

现有的声纹模型在提取声学特征时，是以帧为单位进行提取的，每帧之间具有不同的重要性，有的帧可能是静音帧或者噪音帧，有的帧才是有效帧，而每帧特征会有多个维度，每个维度代表该帧中具有的多种信息。目前针对帧的重要性，是基于神经网络并将Attention(注意力机制，一种神经网络处理技术)技术加入到现有声纹模型中，计算每帧的重要性，将每帧的所有维看似一致，最终取的所有维度的平均值，而该评估方式存在无法选择出重要的声纹信息等问题。在提取声纹信息时还伴随着文本无关、旁边人说话、环境噪声、多方通话、声道多变等因素，这些无疑对声纹识别造成了更大的困难，因此如何有针对性的提取到语音中的声纹信息，如何提高声纹模型的准确率，成为本领域急需解决的一大问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中存在声纹模型无法及时高质量地提取到语音中的声纹信息，声纹模型的参数量和计算量较大，推理时间较长，声纹模型提取声纹信息的提取精度较低，声纹模型的准确率较低等缺陷，提供一种声纹识别模型的训练及声纹识别方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，提供一种声纹识别模型的训练方法，所述训练方法包括：

获取若干样本语音；

提取所述样本语音的每个语音帧对应的声学频谱特征；

获取所述声学频谱特征对应的设定数量维度的目标帧特征；

基于所述目标帧特征处理得到所述样本语音对应的目标语音特征；

基于所述目标语音特征获取所述样本语音对应的声纹向量；

将同一所述样本语音对应的所述声学频谱特征作为输入，对应的所述声纹向量作为输出，训练得到用于识别任意对象的声纹信息的所述声纹识别模型。

较佳地，所述提取所述样本语音的每个语音帧对应的声学频谱特征的步骤具体包括：

获取所述样本语音对应的序列向量，对所述序列向量进行预设分帧操作方式处理，以得到所述样本语音的每个所述语音帧对应的所述声学频谱特征。

较佳地，所述获取所述声学频谱特征对应的设定数量维度的目标帧特征步骤具体包括：

对所述声学频谱特征进行特征提取以得到第一帧特征；

对所述第一帧特征进行通道间若干尺度信息融合以得到第二帧特征；

对所述第二帧特征进行时序还原处理以得到所述目标帧特征；

其中，所述第一帧特征与所述目标帧特征的时序和特征维度相同。

较佳地，所述声纹识别模型包括第一卷积层、Res2 block(残差模块)层和第二卷积层；

所述第一卷积层用于接收所述声学频谱特征，对所述声学频谱特征进行特征提取以得到所述第一帧特征，并将所述第一帧特征输出至所述Res2block层；

所述Res2 block层用于接收所述第一帧特征，对所述第一帧特征进行通道间若干尺度信息融合以得到所述第二帧特征，并将所述第二帧特征输出至所述第二卷积层；

所述第二卷积层用于接收所述第二帧特征，对所述第二帧特征进行时序还原处理以得到所述目标帧特征。

较佳地，所述Res2 block层包括第一Res2 block子层和第二Res2 block子层；

其中，所述第一卷积层、所述第一Res2 block子层、所述第二Res2 block子层依次连接。

较佳地，所述声纹识别模型还包括池化层；

所述池化层用于接收所述第二卷积层输出的所述目标帧特征，所述池化层基于注意力机制计算所述目标帧特征的所述设定数量的维度的维度权重信息，并将包含有所述维度权重信息的每个所述目标帧特征进行融合处理以得到所述目标语音特征。

较佳地，所述基于所述目标帧特征处理得到所述样本语音对应的目标语音特征的步骤具体包括：

获取所述目标帧特征的标准差；

基于所述目标帧特征的标准差计算得到所述目标帧特征的维度权重平均值；

基于所述目标帧特征的所述维度权重平均值计算得到所述目标帧特征的维度权重标准差；

基于所述目标帧特征的所述维度权重平均值和所述维度权重标准差拼接得到所述目标语音特征。

较佳地，所述声纹识别模型还包括全连接层；

所述全连接层用于接收所述池化层输出的所述目标语音特征，对所述目标语音特征进行全连接处理，以输出所述声纹向量；

和/或，所述声纹识别模型还包括损失计算层；

所述损失计算层采用Softmax(归一化指数)损失函数对所述声纹向量进行处理，以优化所述声纹识别模型。

第二方面，提供一种声纹识别方法，所述声纹识别方法采用上述任一所述的声纹识别模型的训练方法得到的所述声纹识别模型进行声纹识别；

所述声纹识别方法包括：

获取待识别语音，提取所述待识别语音的每个语音帧对应的待识别声学频谱特征，并将所述待识别声学频谱特征输入所述声纹识别模型；

获取所述声纹识别模型输出的所述待识别语音对应的待识别声纹向量；

计算所述待识别声纹向量和参考声纹向量之间的相似度；

将所述待识别声纹向量的所述相似度大于设定值的所述参考声纹向量对应的声纹身份作为所述待识别语音对应的目标声纹身份。

第三方面，提供一种声纹识别模型的训练系统，所述声纹识别模型的训练系统包括：

样本语音获取模块，用于获取若干样本语音；

声学频谱特征提取模块，用于提取所述样本语音的每个语音帧对应的声学频谱特征；

目标帧特征获取模块，用于获取所述声学频谱特征对应的设定数量维度的目标帧特征；

目标语音特征获取模块，用于基于所述目标帧特征处理得到所述样本语音对应的目标语音特征；

声纹向量获取模块，用于基于所述目标语音特征获取所述样本语音对应的声纹向量；

模型训练模块，用于将同一所述样本语音对应的所述声学频谱特征作为输入，对应的所述声纹向量作为输出，训练得到用于识别任意对象的声纹信息的所述声纹识别模型。

第四方面，提供一种声纹识别系统，所述声纹识别系统采用上述声纹识别模型的训练系统进行声纹识别；

所述声纹识别系统包括：

待识别语音获取模块，用于获取待识别语音，提取所述待识别语音的每个语音帧对应的待识别声学频谱特征，并将所述待识别声学频谱特征输入所述声纹识别模型；

待识别声纹向量获取模块，用于获取所述声纹识别模型输出的所述待识别语音对应的待识别声纹向量；

相似度计算模块，用于计算所述待识别声纹向量和参考声纹向量之间的相似度；

声纹匹配模块，用于将所述待识别声纹向量的所述相似度大于设定值的所述参考声纹向量对应的声纹身份作为所述待识别语音对应的目标声纹身份。

第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述任一所述的声纹识别模型的训练方法；或实现上述的声纹识别方法。

第六方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序在由处理器执行时实现上述任一所述的声纹识别模型的训练方法；或实现上述的声纹识别方法。

本发明的积极进步效果在于：

本发明的声纹识别模型的训练方法，通过获取若干样本语音；提取样本语音的每个语音帧对应的声学频谱特征；获取声学频谱特征对应的设定数量维度的目标帧特征；基于目标帧特征处理得到样本语音对应的目标语音特征；基于目标语音特征获取样本语音对应的声纹向量；将同一样本语音对应的声学频谱特征作为输入，对应的声纹向量作为输出，训练得到用于识别任意对象的声纹信息的声纹识别模型；实现了有针对性的提取语音中的声纹信息，对语音中每个语音帧的各个维度进行评估，计算语音帧的维度权重，以选择出重要的声纹信息，减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

附图说明

图1为本发明实施例1提供的声纹识别模型的训练方法的第一流程示意图；

图2为本发明实施例1提供的声纹识别模型的训练方法的第二流程示意图；

图3为本发明实施例1提供的声纹识别模型的训练方法的第三流程示意图；

图4为本发明实施例1提供的声纹识别模型中Res2 block层的结构示意图；

图5为本发明实施例1提供的现有Res2 block层的结构示意图；

图6为本发明实施例1提供的声纹识别模型的训练方法的第四流程示意图；

图7为本发明实施例2提供的声纹识别方法的流程示意图；

图8为本发明实施例3提供的声纹识别模型的训练系统的结构示意图；

图9为本发明实施例4提供的声纹识别系统的结构示意图；

图10为本发明实施例5提供的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种声纹识别模型的训练方法，图1为本实施例提供的声纹识别模型的训练方法的第一流程示意图，如图1所示，声纹识别模型的训练方法包括：

步骤101、获取若干样本语音。

语音为时序数据，在对语音进行特征提取时，通常是以帧为单位进行提取，每帧会有多个维度。

步骤102、提取样本语音的每个语音帧对应的声学频谱特征。

提取样本语音的每个语音帧对应的声学频谱特征，声学频谱特征为声纹识别模型的输入。

步骤103、获取声学频谱特征对应的设定数量维度的目标帧特征。

将声学频谱特征作为声纹识别模型的输入，进行更深层次的特征提取，以得到设定数量维度的目标帧特征。

例如，声学频谱特征对应的维度为40维、80维和101维中的任意一个，而设定数量维度的目标帧特征的维度可以为512维。

步骤104、基于目标帧特征处理得到样本语音对应的目标语音特征。

对目标帧特征处理得到样本语音对应的目标语音特征，其中，目标语音特征包含了每一帧的维度信息。

步骤105、基于目标语音特征获取样本语音对应的声纹向量。

对目标语音特征进行处理得到样本语音对应的声纹向量，声纹向量为声纹识别模型的输出。

步骤106、将同一样本语音对应的声学频谱特征作为输入，对应的声纹向量作为输出，训练得到用于识别任意对象的声纹信息的声纹识别模型。

由于样本语音具有若干个，将同一样本语音对应的声学频谱特征作为输入，对应的声纹向量作为输出，训练得到用于识别任意对象的声纹信息的声纹识别模型。

基于目标帧特征处理得到样本语音对应的目标语音特征，以优化每帧信息每个维度的重要性，来确定每帧信息对应说话人特征属性，计算语音帧的维度权重，以选择出重要的声纹信息。

本实施例的声纹识别模型的训练方法，实现了有针对性的提取语音中的声纹信息，对语音中每个语音帧的各个维度进行评估，计算语音帧的维度权重，以选择出重要的声纹信息，减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

在一可选的实施方式中，图2为本实施方式提供的声纹识别模型的训练方法的第二流程示意图；如图2所示，上述102步骤具体包括：

步骤1021、获取样本语音对应的序列向量，对序列向量进行预设分帧操作方式处理，以得到样本语音的每个语音帧对应的声学频谱特征。

将样本语音读取生成一个序列向量A，然后对该序列向量进行预设分帧操作方式处理，其中，预设分帧操作方式包括但不限于分帧、加窗和傅里叶变换，以得到声学频谱特征F。

声学频谱特征F是一个二维的矩阵，横轴表示时间，纵轴表示频率，声学频谱特征F可表示为F(T，B)，其中，T表示时间维度，B表示频率维度。

在一可选的实施方式中，图3为本实施方式提供的声纹识别模型的训练方法的第三流程示意图；如图3所示，上述103步骤具体包括：

步骤1031、对声学频谱特征进行特征提取以得到第一帧特征。

对声学频谱特征F(T，B)进行更深层次的特征提取，以得到第一帧特征H(C，T)；其中，C是表示声纹识别模型中的通道数量(即通道维度)，T表示声学频谱特征F的时间维度，例如声学频谱特征F为101*T维的特征矩阵，第一帧特征H(C，T)为512*T维的特征矩阵。

步骤1032、对第一帧特征进行通道间若干尺度信息融合以得到第二帧特征。

对第一帧特征H(C，T)进行通道间若干尺度信息融合以得到第二帧特征Y(C，T1)，其中，T1表示第二帧特征的时间维度，例如第二帧特征Y(C，T1)为512*T1维的特征矩阵，其与第一帧特征H(C，T)的区别在于经过了通道间若干尺度信息融合，经过了更多的特征提取步骤，代表了更深层次的语义信息，但是打乱了语音的时序性，即时间维度发生变化。

步骤1033、对第二帧特征进行时序还原处理以得到目标帧特征。

其中，第一帧特征与目标帧特征的时序和特征维度相同。

由于通道间若干尺度信息融合打乱了语音的时序性，因此需要对第二帧特征Y(C，T1)进行时序还原处理以得到设定数量维度的目标帧特征Q(C，T)，例如，目标帧特征Q(C，T)为512*T维的特征矩阵。

本实施方式的声纹识别模型的训练方法，通过对声学频谱特征进行多步骤提取，得到了代表更深层次语义信息的目标帧特征，以便进一步根据目标帧特征进行后续处理，实现了更深层次提取语音中的声纹信息，以得出重要的声纹信息，减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

在一可选的实施方式中，声纹识别模型包括第一卷积层、Res2 block层和第二卷积层；第一卷积层用于接收声学频谱特征，对声学频谱特征进行特征提取以得到第一帧特征，并将第一帧特征输出至Res2 block层；Res2 block层用于接收第一帧特征，对第一帧特征进行通道间若干尺度信息融合以得到第二帧特征，并将第二帧特征输出至第二卷积层；第二卷积层用于接收第二帧特征，对第二帧特征进行时序还原处理以得到目标帧特征。

上述步骤1031在第一卷积层执行，上述步骤1032在Res2 block层执行，上述步骤1033在第二卷积层执行。

例如，第一卷积层和第二卷积层均可以是单层的一维卷积层。

本发明的声纹识别模型的网络结构仍为TDNN(Time Delay Neural Network，时延神经网络)网络结构，该网络模型中使用的是一维空洞卷积，每层网络生成对应特征矩阵(或称为特征图)，给下一层作为输入。TDNN可以对长时依赖序列建模，并使用子采样来减少计算量，可以让TDNN训练时间和标准前向神经网络差不多，同时TDNN适用于从短时特征学习长时动态上下文。TDNN初始层学习较窄的上下文信息，更高层则学习到更广的上下文信息。

Res2 block层可以增强每层网络的感受野，使用若干尺度进行信息融合，将更细粒度的多个可用感受野进行信息通信。图4为本实施方式提供的声纹识别模型中Res2block层的结构示意图；如图4所示，为了实现这一目标，用了一组较小的滤波器组替换n个通道的3×3滤波器，每个滤波器组有w1个通道，在不失一般性的情况下，我们使用n＝s1×w1，图4将x分成5份，所以s1＝5，x表示该层的输入特征，y表示该层的输出特征，s1表示输入特征的分组数量；这些滤波器组以分层类似残差样式的连接，以增加输出特征的尺度。具体的说，将输入特征分成了若干组，图4中为5组，一组滤波器首先从一组输入特征图中提取要素。然后将上一组的输出特征与另一组输入特征一起发送到下一组滤波器，此过程重复几次，直到处理完所有输入特征。最后，将所有组的特征连接并送到另个1×1滤波器，以完全融合信息。沿着输入特征到输出特征任何可能路径，当通过3×3滤波器时，等效感受野都会增加，由于组合效应，得到许多等效特征尺度，实现了对第一帧特征进行通道间若干尺度信息融合以得到第二帧特征。

现有的Res2 block层使用的为3x3的卷积操作，图5为本实施方式提供的现有Res2block层的结构示意图，而本发明使用的为一个3x1和一个1x3的卷积操作，如图4所示，在感受野效果相同的情况下，本发明使用的卷积操作参数量更少，现有卷积操作参数量为3x3＝9，而本发明中参数为3+3＝6个，参数量减少了三分之一，整体结构参考了现有的Res2block层，但卷积的结构发生了改变，使用效果相同的情况下，参数量下降。

本实施方式的声纹识别模型的训练方法，通过第一卷积层接收声学频谱特征，并依次通过Res2 block层和第二卷积层进行处理，以输出设定数量维度的目标帧特征，实现了更深层次提取语音中的声纹信息，以得出重要的声纹信息，在增强感受野的同时，显著减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

在一可选的实施方式中，Res2 block层包括第一Res2 block子层和第二Res2block子层；其中，第一卷积层、第一Res2 block子层、第二Res2 block子层依次连接。

第一Res2 block子层和第二Res2 block子层构成了两层结构的Res2block层，第一Res2 block子层和第二Res2 block子层的结构如图4所示。第一Res2 block子层接收第一帧特征，对第一帧特征进行通道间若干尺度信息融合以得到融合后的第一帧特征，经融合后的第一帧特征输入第二Res2 block子层，进行通道间若干尺度信息融合以得第一帧特征，进一步增强了感受野，得到更多等效特征尺度。

本实施方式的声纹识别模型的训练方法，Res2 block层包括第一Res2block子层和第二Res2 block子层；其中，第一卷积层、第一Res2 block子层、第二Res2 block子层依次连接，实现了更深层次提取语音中的声纹信息，以得出重要的声纹信息，进一步增强了感受野，显著减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

在一可选的实施方式中，声纹识别模型还包括池化层；池化层用于接收第二卷积层输出的目标帧特征，池化层基于注意力机制计算目标帧特征的设定数量的维度的维度权重信息，并将包含有维度权重信息的每个目标帧特征进行融合处理以得到目标语音特征。

样本语音会分成很多帧，通过声纹识别模型的第二卷积层输出设定数量维度的目标帧特征，目标帧特征进入池化层，池化层的作用就是把这些目标帧特征平均，得到样本语音对应的目标语音特征。其中，目标帧特征可以称为帧级特征，当样本语音为一段语音时，目标语音特征可以称为段级特征，当样本语音为一句语音时，目标语音特征可以称为句级特征。

由于每帧数据的声学特征是高维的，假设一帧数据是101维，则每维数据的重要性也是需要评估的，因此基于注意力机制从更细粒度对每维信息进行加权，筛选掉每帧中冗余的信息，可使声纹识别模型能够更多的关注说话者的特征和说话人特定的属性。

现有常用的池化层大多使用平均池化和统计池化，使用注意力机制作用于池化层主要是针对帧与帧的特征，以得到更细粒度的每帧的维度特征，对维度特征添加注意力，得出每帧的维度权重。本发明中注意力机制作为池化层的效果更好，将注意力机制作用到每帧的维度上效果更好，粒度更细，所以聚合成目标语音特征的效果更佳明显，模型最终准确率更高。

在一可选的实施方式中，图6为本实施方式提供的声纹识别模型的训练方法的第四流程示意图；如图6所示，上述步骤104具体包括：

步骤1041、获取目标帧特征的标准差；

步骤1042、基于目标帧特征的标准差计算得到目标帧特征的维度权重平均值；

步骤1043、基于目标帧特征的维度权重平均值计算得到目标帧特征的维度权重标准差；

步骤1044、基于目标帧特征的维度权重平均值和维度权重标准差拼接得到目标语音特征。

下面具体介绍如何得到目标语音特征。

首先计算目标帧特征Q(C，T)的平均值e_t,i，

其中，t表示目标帧特征的帧数，i表示目标帧特征的维度数，ht表示第一卷积层输出的第一帧特征H(C，T)中的时间维度T的第t帧的分量特征，W是一个二维的矩阵R*C，R为注意力机制模型中设置的维度，无实际意义，C表示声纹识别模型的通道数量；b表示偏置，是一个Rx1的向量；f(.)是一个线性整流激活函数(Rectified Linear Unit，简称Relu)；

表示一个第t帧第i维的权重矩阵，其维度为Rx1，k_i为一个偏置标量，依据公式计算得目标帧特征的平均值e_t,i，接下来目标帧特征的平均值e_t,i经过Softmax激活函数，可以得到目标帧特征的维度权重值a_t,i，

权重值a_t,i反应了第t帧第i维的权重，t≤T，T表示时间维度。

基于目标帧特征的维度权重值a_t,i计算出目标帧特征的维度权重平均值μ_i，

其中，h_t,i表示第一帧特征H(C，T)中的时间维度T的第t帧第i维的分量特征。

基于目标帧特征的维度权重平均值μ_i计算目标帧特征的维度权重标准差σ_i，

然后将该i维的标准差σ_i和平均值μ_i进行拼接成一个向量[μ_i,σ_i]，假设每帧的维度为N，即N表示每帧的维度数，则最终会生成一个N*[μ_i,σ_i]维的向量D，该向量D作为目标语音特征。

本实施方式的声纹识别模型的训练方法，在池化层中基于注意力机制计算目标帧特征的设定数量维度的维度权重信息，并将包含有维度权重信息的每个目标帧特征结合相关计算公式计算得到目标语音特征，以便基于目标语音特征最终得出样本语音对应的声纹向量；实现了更深层次提取语音中的声纹信息，对语音中每个语音帧的各个维度进行评估，计算语音帧的维度权重，以选择出重要的声纹信息，进一步增强了感受野，显著减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

在一可选的实施方式中，声纹识别模型还包括全连接层，全连接层用于接收池化层输出的目标语音特征，对目标语音特征进行全连接处理，以输出声纹向量。声纹识别模型还包括损失计算层；损失计算层采用Softmax损失函数对声纹向量进行处理，以优化声纹识别模型。

全连接层将池化层输出的目标语音特征D(N*[μ_i,σ_i])中的标准差σ_i和平均值μ_i进行全连接处理，在时间维度上进行拼接，从而得到样本语音的声纹向量X。

例如，将目标语音特征经过一层全连接层，该层为一个具有192个节点的全连接层，因此声纹识别模型最终会输出一个192维的向量，该向量即为声纹向量X。

损失计算层采用Softmax损失函数对声纹向量X进行处理，具体地，使用AAM-Softmax的损失函数的结果，其对错误样本的分类加大惩罚，使其在角度原始Softmax余弦角度进行惩罚，原始Softmax函数为L，具体推导公式如下：

其中M为说话人的数量，依据样本语音数量而定，W_i表示第i个维度的矢量值，W_j表示第j个维度的矢量值，b_i为第i个维度的偏置，b_j为第j个维度的偏置，x_i为上述声纹向量X的第i个分量，x_j为上述声纹向量X的第j个分量，原始Softmax函数用L表示。

在公式中的w_ix_i＝‖w_i‖‖x_i‖cosθ_i，‖.‖为二阶范数，则AAM-Softmax是优化Softmax后的函数，首先将‖w_i‖和‖x_i‖进行规整化，因为可以看作一个标量值为s，然后在角度上加上间隔，s cos(θ_i+m)＝0，其中，θ表示样本间(声纹向量与权重向量)的夹角，θ_i表示第i维度声纹向量与权重向量的夹角，cosθ_i表示余弦夹角，s为样本语音的对象，选择值为5，m为夹角惩罚因子，在此选择值为0.3，对附加有角度惩罚因子m的夹角θ应用AAM-Softmax激活函数，AAM-Softmax激活函数用L_AAM表示；

从而得到样本语音中说话人和该样本语音对应的真实说话人的误差，优化声纹识别模型。

本实施方式中的具有惩罚因子的Softmax损失函数可以缩小类内差距，扩大类间差距，加大对Softmax损失函数中余弦值和余弦角度进行惩罚，以提高声纹向量的判别能力，整体提升了声纹识别模型的准确率，减少了模型的参数量，加快了模型的推理时间。

实施例2

本实施例提供一种声纹识别方法，本实施例的声纹识别方法采用上述实施例1中的声纹识别模型的训练方法得到的声纹识别模型进行声纹识别；图7为本实施例提供的声纹识别方法的流程示意图；如图7所示，声纹识别方法包括：

步骤201、获取待识别语音，提取待识别语音的每个语音帧对应的待识别声学频谱特征，并将待识别声学频谱特征输入声纹识别模型。

步骤202、获取声纹识别模型输出的待识别语音对应的待识别声纹向量。

步骤203、计算待识别声纹向量和参考声纹向量之间的相似度。

其中，参考声纹向量为声纹识别模型中样本语音对应的声纹向量。

相似度的计算采用但不限于余弦相似度的计算，本领域的技术人员可以参考现有技术中有关相似度的计算方法对本发明中的相似度进行计算。

步骤204、将待识别声纹向量的相似度大于设定值的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份。

相似度大于设定值的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份。例如待识别语音为V1，其对应的待识别声纹向量为X1，样本语音包括100个U0-U100，对应的参考声纹向量为R00-R100，其中，U0与R00对应，依次类推，U100与R100对应；计算X1与R00-R100的相似度，设定值为85％，若X1与R11的相似度为10％，X1与R38的相似度为50％，X1与R38的相似度为90％，X1与R38的相似度大于设定值，则R38对应的声纹身份(例如小明)即为待识别语音为V1对应的目标声纹身份。当存在多个相似度均大于预设值的情况时，取相似度数值最大的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份。

本实施例中样本语音的数量仅为示例性的，本领域的技术人员可以根据实际需要设置样本语音的数量。

本实施例的声纹识别方法，通过获取待识别语音，提取待识别语音的每个语音帧对应的待识别声学频谱特征，并将待识别声学频谱特征输入声纹识别模型，获取声纹识别模型输出的待识别语音对应的待识别声纹向量，计算待识别声纹向量和参考声纹向量之间的相似度，将待识别声纹向量的相似度大于设定值的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份；实现了对待识别语音的快速和精准识别，提高了声纹识别精度和识别效率。

实施例3

本实施例提供一种声纹识别模型的训练系统，图8为本实施例提供的声纹识别模型的训练系统的结构示意图，如图8所示，声纹识别模型的训练系统包括样本语音获取模块11，用于获取若干样本语音；声学频谱特征提取模块12，用于提取样本语音的每个语音帧对应的声学频谱特征；目标帧特征获取模块13，用于获取声学频谱特征对应的设定数量维度的目标帧特征；目标语音特征获取模块14，用于基于目标帧特征处理得到样本语音对应的目标语音特征；声纹向量获取模块15，用于基于目标语音特征获取样本语音对应的声纹向量；模型训练模块16，用于将同一样本语音对应的声学频谱特征作为输入，对应的声纹向量作为输出，训练得到用于识别任意对象的声纹信息的声纹识别模型。

本实施例的声纹识别模型的训练系统，通过各个模块之间的相互配合，实现了有针对性的提取语音中的声纹信息，对语音中每个语音帧的各个维度进行评估，计算语音帧的维度权重，以选择出重要的声纹信息，减少了声纹识别模型的参数量和计算量，加快了声纹识别模型的推理时间，提高了声纹识别模型声纹信息的提取精度和准确率。

实施例4

本实施例提供一种声纹识别系统，声纹识别系统采用上述实施例3中的声纹识别模型的训练系统进行声纹识别；图9为本实施例提供的声纹识别系统的结构示意图；如图9所示，声纹识别系统包括待识别语音获取模块21，用于获取待识别语音，提取待识别语音的每个语音帧对应的待识别声学频谱特征，并将待识别声学频谱特征输入声纹识别模型；待识别声纹向量获取模块22，用于获取声纹识别模型输出的待识别语音对应的待识别声纹向量；相似度计算模块23，用于计算待识别声纹向量和参考声纹向量之间的相似度；声纹匹配模块24，用于将待识别声纹向量的相似度大于设定值的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份。

本实施例的声纹识别系统，以实施例3中的声纹识别模型的训练系统为基础，通过各个模块之间的相互配合，进行声纹识别，通过将待识别语音基于声纹识别模型得到待识别声纹向量，计算待识别声纹向量和参考声纹向量之间的相似度，将待识别声纹向量的相似度大于设定值的参考声纹向量对应的声纹身份作为待识别语音对应的目标声纹身份；实现了对待识别语音的快速和精准识别，提高了声纹识别精度和识别效率。

实施例5

本实施例提供一种电子设备，图10为本实施例提供的电子设备的结构示意图，电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例1中的声纹识别模型的训练方法或实现上述实施例2中的声纹识别方法。图10显示的电子设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图10所示，电子设备70可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备70的组件可以包括但不限于：上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。

总线73包括数据总线、地址总线和控制总线。

存储器72可以包括易失性存储器，例如随机存取存储器(RAM)721和/或高速缓存存储器722，还可以进一步包括只读存储器(ROM)723。

存储器72还可以包括具有一组(至少一个)程序模块724的程序工具725(或实用工具)，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器71通过运行存储在存储器72中的计算机程序，从而执行各种功能应用以及数据处理，例如上述实施例1中的声纹识别模型的训练方法或实现上述实施例2中的声纹识别方法。

电子设备70也可以与一个或多个外部设备74通信。这种通信可以通过输入/输出(I/O)接口75进行。并且，模型生成的电子设备70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器76通过总线73与电子设备70的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在由处理器执行时实现上述施例1中的声纹识别模型的训练方法或实现上述实施例2中的声纹识别方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现上述实施例1中的声纹识别模型的训练方法或实现上述实施例2中的声纹识别方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种声纹识别模型的训练方法，其特征在于，所述训练方法包括：

获取若干样本语音；

提取所述样本语音的每个语音帧对应的声学频谱特征；

获取所述声学频谱特征对应的设定数量维度的目标帧特征；

基于所述目标语音特征获取所述样本语音对应的声纹向量；

2.根据权利要求1所述的训练方法，其特征在于，所述提取所述样本语音的每个语音帧对应的声学频谱特征的步骤具体包括：

3.根据权利要求1所述的训练方法，其特征在于，所述获取所述声学频谱特征对应的设定数量维度的目标帧特征步骤具体包括：

对所述声学频谱特征进行特征提取以得到第一帧特征；

4.根据权利要求3所述的训练方法，其特征在于，所述声纹识别模型包括第一卷积层、Res2 block层和第二卷积层；

所述第一卷积层用于接收所述声学频谱特征，对所述声学频谱特征进行特征提取以得到所述第一帧特征，并将所述第一帧特征输出至所述Res2 block层；

5.根据权利要求4所述的训练方法，其特征在于，所述Res2 block层包括第一Res2block子层和第二Res2 block子层；

6.根据权利要求4或5所述的训练方法，其特征在于，所述声纹识别模型还包括池化层；

7.根据权利要求6所述的训练方法，其特征在于，所述基于所述目标帧特征处理得到所述样本语音对应的目标语音特征的步骤具体包括：

获取所述目标帧特征的标准差；

8.根据权利要求6所述的训练方法，其特征在于，所述声纹识别模型还包括全连接层；

和/或，所述声纹识别模型还包括损失计算层；

所述损失计算层采用Softmax损失函数对所述声纹向量进行处理，以优化所述声纹识别模型。

9.一种声纹识别方法，其特征在于，所述声纹识别方法采用如权利要求1至8中任意一项所述的声纹识别模型的训练方法得到的所述声纹识别模型进行声纹识别；

所述声纹识别方法包括：

计算所述待识别声纹向量和参考声纹向量之间的相似度；

10.一种声纹识别模型的训练系统，其特征在于，所述声纹识别模型的训练系统包括：

样本语音获取模块，用于获取若干样本语音；

11.一种声纹识别系统，其特征在于，所述声纹识别系统采用如权利要求10所述的声纹识别模型的训练系统进行声纹识别；

所述声纹识别系统包括：

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1至8中任意一项所述的声纹识别模型的训练方法；或实现如权利要求9所述的声纹识别方法。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现如权利要求1至8中任意一项所述的声纹识别模型的训练方法；或实现如权利要求9所述的声纹识别方法。