CN111816166A

CN111816166A - 声音识别方法、装置以及存储指令的计算机可读存储介质

Info

Publication number: CN111816166A
Application number: CN202010694750.9A
Authority: CN
Inventors: 黎吉国; 许继征; 张莉; 王悦; 马思伟
Original assignee: Peking University; ByteDance Inc
Current assignee: Peking University; ByteDance Inc
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-23

Abstract

提供一种声音识别方法、装置以及存储指令的计算机可读存储介质。所述声音识别方法包括：获取输入音频的时域特征；获取所述输入音频的频域特征；将所述输入音频的时域特征和所述输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。

Description

声音识别方法、装置以及存储指令的计算机可读存储介质

技术领域

本公开涉及声音识别技术领域，具体地说，涉及一种声音识别方法和声音识别装置。

背景技术

声音识别是一种对将物体发出的声音进行分析并与声音数据库中的声音进行比较以判断该物体是哪一个物体的技术。声音识别可具有多种应用，例如，可应用于说话人识别、生物识别，性别/年龄识别等。说话人识别是一种生物识别技术，也可被称为声纹识别，其在语音处理领域具有重要的位置，原因是其可广泛地应用于生物验证、鉴证和安全领域等。目前，传统的声音识别方案的识别效果比较有限，需要进一步提高声音识别的效果。

发明内容

本公开实施例公开了一种声音识别方法，以提高声音识别的效果。

根据本公开的一方面，提供一种声音识别方法，包括：获取输入音频的时域特征；获取所述输入音频的频域特征；对所述输入音频的时域特征和所述输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。

可选地，所述对所述输入音频的时域特征和所述输入音频的频域特征进行融合可包括：对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征。

可选地，对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征可包括：将所述输入音频的时域特征和所述输入音频的频域特征拼接，得到拼接后的特征；对所述拼接后的特征执行两层全连接层变换，得到所述融合后的特征。

可选地，对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征可包括：对所述输入音频的时域特征执行一层全连接层变换，得到第一变换特征；对所述输入音频的频域特征行一层全连接层变换，得到第二变换特征；对所述第一变换特征和所述第二变换特征进行拼接，得到拼接后的特征；对所述拼接后的特征执行一层全连接层变换，得到所述融合后的特征。

可选地，对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征可包括：对所述输入音频的时域特征执行两层全连接层变换，得到第三变换特征；对所述输入音频的频域特征执行两层全连接层变换，得到第四变换特征；对所述第三变换特征和所述第四变换特征进行拼接，得到所述融合后的特征。

根据本公开的另一方面，提供一种声音识别装置，包括：时域特征获取模块，被配置为获取输入音频的时域特征；频域特征获取模块，被配置为获取所述输入音频的频域特征；声音识别模块，被配置为对所述输入音频的时域特征和所述输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。

可选地，声音识别模块可被配置为：对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征。

可选地，声音识别模块可被配置为：将所述输入音频的时域特征和所述输入音频的频域特征拼接，得到拼接后的特征；对所述拼接后的特征执行两层全连接层变换，得到所述融合后的特征。

可选地，声音识别模块可被配置为：对所述输入音频的时域特征执行一层全连接层变换，得到第一变换特征；对所述输入音频的频域特征行一层全连接层变换，得到第二变换特征；对所述第一变换特征和所述第二变换特征进行拼接，得到拼接后的特征；对所述拼接后的特征执行一层全连接层变换，得到所述融合后的特征。

可选地，声音识别模块可被配置为：对所述输入音频的时域特征执行两层全连接层变换，得到第三变换特征；对所述输入音频的频域特征执行两层全连接层变换，得到第四变换特征；对所述第三变换特征和所述第四变换特征进行拼接，得到所述融合后的特征。

根据本公开的另一方面，提供一种声音识别装置，所述声音识别装置包括至少一个计算装置和至少一个存储有计算机指令的存储装置的系统，所述计算机指令在所述至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的声音识别方法。

根据本公开的另一方面，提供一种存储有指令的计算机可读存储介质，当所述指令在至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的声音识别方法。

根据本公开的示例性实施例的声音识别方法和声音识别装置，通过融合方式利用声音信号的时域信息和频域信息共同执行声音识别，充分利用了声音信号的时间信息和频率信息，提高了声音识别的性能。例如，当将根据本公开的示例性实施例的声音识别方法和声音识别装置应用于说话人识别时，通过融合方式利用语音信号的时域信息和频域信息共同执行声纹识别，充分利用了语音信号的时间信息和频率信息，提高了说话人识别的性能。

此外，根据本公开的示例性实施例的声音识别方法和声音识别装置，通过早期融合方式来将时域特征和频域特征一起变换到分类特征空间，因此变换过程是综合时域特征和频域特征执行的，即，更全面地考虑了音频信号的所有两个域的特征，因此，可达到良好的声音识别效果。

附图说明

通过结合附图，从实施例的下面描述中，本公开这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：

图1a和图1b示出现有说话人识别模型的示意图。

图2是示出根据本公开的示例性实施例的时频网络(Time-FrequencyNetwork,TFN)模型的示意图。

图3a、图3b和图3c示出根据本公开的示例性实施例的融合方式的示意图。

图4是示出根据本公开的示例性实施例的声音识别方法的流程图。

图5示出根据本公开的示例性实施例的声音识别装置的框图。

图6a、图6b、图6c和图6d示出说话人识别系统的示意图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在声音识别领域，例如，在说话人识别应用上，根据输入数据的不同类型，目前的说话人识别模型可包括时域模型和频域模型。如图1a和图1b所示，图1a和图1b示出现有说话人识别模型的示意图。如图1a所示，时域模型使用原始语音波形(语音信号的一种时域表示)作为输入，也就是说，时域模型仅利用原始语音的时域信息来执行说话人识别。如图1b所示，频域模型使用频谱信号(语音信号的一种频域表示)作为输入，也就是说，频域模型仅利用语音信息的频域信息来执行说话人识别。因此，目前的说话人识别模型的效果都无法达到最佳。下面先分别对频域模型和时域模型进行详细的介绍。

频域模型

在使用深度神经网络(Deep Neural Network,DNN)之前，大多数说话人识别方法使用频域特征对语音信号进行分类，例如，高斯混合模型(Gaussian Mixture Model,GMM)、语音分段的i-vector特征表示。这些方法是基于手工的频域特征(例如，滤波器组(FilterBank,FBANK)或梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC))执行。随着DNN的广泛使用，DNN也被设计为用于自动提取频域特征以用于说话人识别。然而这些方法都仅处理频域信号，而忽略了时域信息。

例如，传统的频域说话人识别方法的要点可包括以下项之一：(1)将GMM超矢量与支持向量机(Support Vector Machine,SVM)结合并基于两个GMM模型之间的KL距离近似方法来推导线性核；(2)将说话人与通道可变性建模并提出新的低维语音全局表征，称为单位向量或i-vector，这是大部分说话者识别的频域方法的基础；(3)基于i-vector，使用预训练的DNN来产生帧对齐，并与传统系统相比提高了等错误率30％；(4)通过基于具有数据增强的频率特征(诸如FBANK)对DNN进行训练来引入x-vector以提取固定长度的全局向量。这些方法都是使用语音信号的频谱信号作为输入，例如，梅尔频率倒谱系数(MFCC)、感知线性预测(Perceptual Linear Predictive,PLP)分析、线性预测倒谱系数(Linear PredictiveCepstral Coeficient,LPCC)等。这些频谱虽然也包含时间信息，但是由于时频变换(诸如，短时傅立叶变换(Short-Time Fourier Transformation,STFT))，频谱的时间分辨率与原始语音信号的时间分辨率相比明显降低。具体地，基于窗口的时频变换(诸如，短时傅立叶变换)使用具有步长的窗口将信号片段变换到频域，以产生时频特征，而时间分辨率将从N下降到N/步长(其中，//表示取整操作)。因此，使用频谱作为输入的现有说话人识别方法无法很好地学习时间特征，因此无法充分利用时域信息。

时域模型

当卷积神经网络(Convolutional Neural Network,CNN)成功解决了大规模的图像分类问题并在高维数据建模方面展现了强大的能力时，CNN被用于直接在时域来解决说话人识别问题。近年来，被设计为直接从原始语音波形提取特征的端对端模型展现了比传统的仅使用频域特征的方法更佳的性能。例如，SincNet模型通过将第一层滤波器设计为可学习的带通滤波器，在说话人识别方面展现了很好的性能。

然而，最近的使用原始语音信号作为输入的基于深度学习的方法由于在框架中不应用频率优化或频率变换而无法很好地学习频率特征。具体地，深度神经网络在时间轴上学习很多小的卷积滤波器，使用模型可将语音信号分类。也就是说，现有的基于神经网络的说话者识别模型中，仅从只具有时间轴的原始语音信号学习滤波器。因此，频域信号会被忽略。这些方法可包括：(1)使用端到端方式仅提取原始语音的时域信息来基于CNN执行说话人识别，(2)将CNN与长短期记忆网络(Long Short Term Memory,LSTM)结合来从原始语音信号提取全局向量以执行说话人识别，(3)SincNet模型使用可学习带通滤波器来代替CNN的第一层来获得更佳的互操作性，以提高性能。这里，虽然SincNet模型使用可学习带通滤波器来利用了语音信号的频率信息，但其仍然仅将原始语音波形作为输入，因此，其无法充分利用频域信息。

然而，对于声音信号分析来说，频域信息和时域信息都很重要，缺少任意一个域的信息都无法达到声音信号分析的最佳效果。为了充分利用时域特征和频域信息，使用共享或非共享分支学习时域特征表示和频域特征表示，本公开提出了将原始音频波形和频谱两者作为输入的全新的时频网络(TFN)模型。具体地，本公开设计的TFN模型可包括用于提取原始音频波形的时域信息的时间分支模型、用于提取频谱信号的频域信息的频域分支模型以及将时域信息和频域信息融合以执行声音识别的融合模型，TFN模型的输出可以是对发出声音的人物的预测分布(例如，在应用于说话人识别的情况下，TFN模型的输出可以是对说话人的预测分布)。下面，将参照图2至图6d具体描述根据本公开的示例性实施例的声音识别方法和声音识别装置。

图2是示出根据本公开的示例性实施例的TFN模型的示意图。

参照图2，TFN模型200可包括三个子模型，即，时间分支模型201、频域分支模型202和融合模型203。

时间分支模型201可被设计为从输入音频的原始音频波形提取时域特征。可使用任何可用的提取输入音频的时域特征的模型来实现时间分支模型201，本公开在此对不作限制。例如，可使用多层CNN或者循环神经网络(RecurrentNeural Network,RNN)等来实现时间分支模型201以从原始音频信号中提取时域的局部特征。

根据本公开的示例性实施例，可将时间分支模型201设计为SincNet模型(也可以是其他普通的CNN模型或者RNN模型)。在这种情况下，时间分支模型201的第一层被设计为带通滤波器以对频率特征进行建模。这里，带通滤波器可被表示为下述的公式(1)。

g[n,f₁,f₂]＝2f₂sinc(2πf₂n)-2f₂sinc(2πf₁n) (1)

其中，g[]表示带通滤波器的输出，n表示带通滤波器的核的大小，f₁表示截止频率下限，f₂表示截止频率上限，sinc(x)＝sinx/x。

通过将时间分支模型201的第一层的滤波器设计为带通滤波器，可使得时间分支模型201具有更少的参数且具有更好的可解释性。

此外，时间分支模型201的其它层可以是典型的一维卷积层(Conv)以及批归一化层(Batch Normalization layer)(BN)和激活函数层(ReLU)，在经过若干卷积层、批归一化层和激活函数层之后，时间分支模型201可输出时域特征。

频域分支模型202可被设计为从输入音频的频谱提取频域特征。根据本公开的示例性实施例，可使用MFCC、PLP、LPCC等作为用于提取频域特征的频谱。也可以使用任何可用的从频谱信号提取频域特征的模型来实现频域分支模型202，本公开在此对不作限制。例如，可使用一维或二维多层CNN来实现频域分支模型202以从频谱信号提取频域特征，或者可使用任何GMM、DNN或RNN来实现频域分支模型202以从频谱信号提取频域特征。

融合模型203可被设计为对时域特征和频域特征进行融合，以基于融合后的特征执行声音识别，即输出预测分布结果。这里，融合是指将时域特征和频域特征一起变换到分类特征空间以得到分类特征(即，融合后的特征)，因此，融合处理包括特征拼接处理和变换处理。具体地说，融合模型203可对输入音频的时域特征和输入音频的频域特征执行拼接和变换处理来得到融合后的特征。例如，融合模型203可包括一层特征拼接层和多层全连接层(Fully Connected Layer)(FC层)。特征拼接层用于将两个特征向量拼接为一个特征向量，FC层用于将特征向量进行变换。本公开对融合模型203中的一层特征拼接层和多层FC层的数量和排列不作限制。

根据本公开的示例性实施例，融合模型203可包括一层特征拼接层和两层FC层。根据不同的变换类型，融合模型203可具有三种不同的实施方式，即，早期融合、中期融合和后期融合。

如图3a所示，融合模型203可采用早期融合方式。在早期融合方式中，特征拼接层被设置在第一层，两个FC层分别被设置在第二层和第三层。具体地说，融合模型203可首先在第一层将两个局部特征嵌入(即，时间分支模型201输出的时域特征和频域分支模型202输出的频域特征)拼接在一起，得到拼接后的特征(即，全局特征)，随后分别在第二层和第三层将拼接后的特征经过两个FC层以将拼接后的特征投射(变换)到分类特征空间以得到输入音频的分类特征(即，融合后的特征)，根据输入音频的分类特征执行声音识别。例如，将输入音频的分类特征经过softmax处理得到预测分类结果(即，概率分布值)。早期融合方式先将时域特征和频域特征拼接，再将拼接后的特征进行变换，因此变换过程是综合时域特征和频域特征执行的，即，更全面地考虑了音频信号的所有两个域的特征，因此，可达到良好的声音识别效果。

如图3b所示，融合模型203可采用中期融合方式。在中期融合方式中，一个FC层被设置在第一层，特征拼接层被设置在第二层，另一FC层被设置在第三层。具体地说，融合模型203可首先在第一层分别将两个局部特征嵌入(即，时间分支模型201输出的时域特征和频域分支模型202输出的频域特征)经过一个FC层，随后在第二层将两个经过FC层输出的特征拼接在一起，并最后在第三层将拼接后的全局特征经过一个FC层以将全局特征投射变换到分类特征空间以得到输入音频的分类特征(即，融合后的特征)，根据输入音频的分类特征执行声音识别。例如，将输入音频的分类特征经过softmax处理得到预测分类结果(即，概率分布值)。

如图3c所示，融合模型203可采用后期融合方式。在后期融合方式中，两个FC层被分别设置在第一层和第二层，特征拼接层被设置在第三层。具体地说，融合模型204可首先分别在第一层和第二层将两个局部特征嵌入(即，时间分支模型201输出的时域特征和频域分支模型202输出的频域特征)经过两个FC层以分别将两个局部特征投射到分类特征空间以分别得到时域特征的分类特征和频域特征的分类特征，随后在第三层将时域特征的分类特征和频域特征的分类特征拼接在一起以将两个低维分类特征空间中的分类特征拼接为高维分类特征空间中的分类特征，从而得到分类特征空间中的全局分类特征，根据全局分类特征执行声音识别。例如，将全局分类特征经过softmax处理得到预测分类结果(即，概率分布值)。

融合模型204可采用上述任何融合方式来执行输入音频的时域特征和输入音频的频域特征的融合，还可采用其它可行的任何融合方式来执行输入音频的时域特征和输入音频的频域特征的融合，例如，FC层的数量可不一定为两层，还可以为单层，或者三层以上，还可将特征拼接层设置在多个层之中的任意位置，或者可只通过对输入音频的时域特征和输入音频的频域特征执行拼接而直接得到融合后的特征来执行声音识别。

参照图4，在步骤401，获取输入音频的时域特征。具体地说，可通过从输入音频的原始音频波形提取时域特征来获取输入音频的时域特征。根据本公开的示例性实施例，可通过时间分支模型201来执行从输入音频的原始音频波形提取时域特征的步骤。根据本公开的另一示例性实施例，可从本地存储器或服务器等获取输入音频的时域特征。还可以通过其它任何可行的方式来获取输入音频的时域特征，本公开对获取的途径和来源不作限制。

根据本公开的示例性实施例，可使用多层CNN或RNN等来实现时间分支模型201。根据本公开的示例性实施例，可使用SincNet模型来实现时间分支模型201。当然，提取时域特征方式不限于此，可使用任何方式来提取时域特征，例如，可使用任何多层CNN或RNN等来提取时域特征。

在步骤402，获取输入音频的频域特征。具体地说，可通过对输入音频的原始音频信号执行时频变换(诸如，快速傅立叶变换STFT)，并从经过时频变换得到的频谱信号提取频域特征来获取输入音频的频域特征。根据本公开的另一示例性实施例，可从本地存储器或服务器等获取输入音频的频域特征。还可以通过其它任何可行的方式来获取输入音频的频域特征，本公开对获取的途径和来源不作限制。

根据本公开的示例性实施例，可使用MFCC、PLP、LPCC等作为用于提取频域特征的频谱。

根据本公开的示例性实施例，可通过频域分支模型202来执行从频谱信号提取频域特征的步骤。根据本公开的示例性实施例，可使用一维或二维多层CNN来实现频域分支模型202。当然，提取频域特征方式不限于此，可使用任何方式来提取频域特征，例如，还可使用任何GMM或DNN等来从频谱信号提取频域特征。

此外，步骤401和步骤402可顺序地、逆序地、并行地执行，本公开对步骤401和步骤402的执行顺序不作限制。

在步骤403，对输入音频的时域特征和输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。根据本公开的示例性实施例，可通过融合模块203来执行对输入音频的时域特征和输入音频的频域特征进行融合，并基于融合后的特征执行声音识别的步骤。

根据本公开的示例性实施例，可对输入音频的时域特征和输入音频的频域特征进行拼接和变换处理，得到融合后的特征。这里，当输入音频的时域特征和输入音频的频域特征经过拼接和变换处理之后，可被投射到分类特征空间，即，被变换为分类特征(即，融合后的特征)。对分类特征执行softmax处理来得到预测分类结果(即，概率分布值)，从而执行声音识别。

根据本公开的示例性实施例，可通过早期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在早期融合方式中，特征拼接层被设置在第一层，两个FC层分别被设置在第二层和第三层。具体地说，可将输入音频的时域特征和输入音频的频域特征拼接(例如，在第一层)，得到拼接后的特征，并对拼接后的特征执行两层FC层变换(例如，分别在第二层和第三层)，得到所述融合后的特征。早期融合方式先将时域特征和频域特征拼接，再将拼接后的特征进行变换，因此变换过程是综合时域特征和频域特征执行的，即，更全面地考虑了音频信号的所有两个域的特征，因此，可达到良好的声音识别效果。

根据本公开的示例性实施例，可通过中期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在中期融合方式中，一个FC层被设置在第一层，特征拼接层被设置在第二层，另一FC层被设置在第三层。具体地说，可对输入音频的时域特征执行一层FC层变换(例如，在第一层)，得到第一变换特征，对输入音频的频域特征行一层FC层变换(例如，在第一层)，得到第二变换特征(其中，对输入音频的时域特征的变换和输入音频的频域特征的变换的顺序不受限制)，对第一变换特征和第二变换特征进行拼接(例如，在第二层)，得到拼接后的特征，并对拼接后的特征执行一层FC层变换(例如，在第三层)，得到所述融合后的特征。

根据本公开的示例性实施例，可通过后期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在后期融合方式中，两个FC层被分别设置在第一层和第二层，特征拼接层被设置在第三层。具体地说，可对输入音频的时域特征执行两层全连接层变换(例如，分别在第一层和第二层)，得到第三变换特征，对输入音频的频域特征执行两层全连接层变换(例如，分别在第一层和第二层)，得到第四变换特征(其中，对输入音频的时域特征的变换和输入音频的频域特征的变换的顺序不受限制)，对第三变换特征和第四变换特征进行拼接(例如，在第三层)，得到所述融合后的特征。

当然，融合的方法不限于上述方法，还可采用其它可行的任何融合方式来将输入音频的时域特征和输入音频的频域特征一起变换到分类特征空间，例如，FC层的数量可不一定为两层，还可以为单层，或者三层以上，还可将特征拼接层设置在多个层之中的任意位置，或者可只通过对输入音频的时域特征和输入音频的频域特征执行拼接而直接得到融合后的特征来执行声音识别。

图5示出根据本公开的示例性实施例的声音识别装置的框图。

参照图5，根据本公开的示例性实施例的声音识别装置500可包括时域特征获取模块501、频域特征获取模块502和声音识别模块503。

时域特征提取模块501可获取输入音频的时域特征。具体地说，时域特征获取模块501可通过从输入音频的原始音频波形提取时域特征来获取输入音频的时域特征。或者，时域特征获取模块501可从本地存储器或服务器等获取输入音频的时域特征。时域特征获取模块501还可以通过其它任何可行的方式来获取输入音频的时域特征，本公开对获取的途径和来源不作限制。

根据本公开的示例性实施例，时域特征获取模块501可通过时间分支模型201来从输入音频的原始音频波形提取时域特征。根据本公开的示例性实施例，可使用多层CNN或RNN等来实现时间分支模型201。根据本公开的示例性实施例，可使用SincNet模型来实现时间分支模型201。当然，提取时域特征的方式不限于此，可使用任何方式来提取时域特征，例如，可使用任何多层CNN或RNN等来提取时域特征。

频域特征获取模块502可获取输入音频的频域特征。具体地说，频域特征获取模块502可通过对输入音频的原始音频信号执行时频变换(诸如，快速傅立叶变换STFT)，并从经过时频变换得到的频谱信号提取频域特征来获取输入音频的频域特征。或者，频域特征获取模块502可从本地存储器或服务器等获取输入音频的频域特征。频域特征获取模块502还可以通过其它任何可行的方式来获取输入音频的频域特征，本公开对获取的途径和来源不作限制。

根据本公开的示例性实施例，频域特征获取模块502可通过频域分支模型202来从频谱信号提取频域特征。根据本公开的示例性实施例，可使用一维或二维多层CNN来实现频域分支模型202。当然，提取频域特征的方式不限于此，可使用任何方式来提取频域特征。

声音识别模块503可对输入音频的时域特征和输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。根据本公开的示例性实施例，声音识别模块503可通过融合模块203来执行声音识别。

根据本公开的示例性实施例，声音识别模块503可对输入音频的时域特征和输入音频的频域特征进行拼接和变换处理，得到融合后的特征。这里，当输入音频的时域特征和输入音频的频域特征经过拼接和变换处理之后，可被投射到分类特征空间，即，被变换为分类特征(即，融合后的特征)。声音识别模块503可对分类特征执行softmax处理来得到预测分类结果(即，概率分布值)，从而执行声音识别。

根据本公开的示例性实施例，声音识别模块503可通过早期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在早期融合方式中，特征拼接层被设置在第一层，两个FC层分别被设置在第二层和第三层。具体地说，声音识别模块503可将输入音频的时域特征和输入音频的频域特征拼接(例如，在第一层)，得到拼接后的特征，并对拼接后的特征执行两层FC层变换(例如，分别在第二层和第三层)，得到所述融合后的特征。早期融合方式先将时域特征和频域特征拼接，再将拼接后的特征进行变换，因此变换过程是综合时域特征和频域特征执行的，即，更全面地考虑了音频信号的所有两个域的特征，因此，可达到良好的声音识别效果。

根据本公开的示例性实施例，声音识别模块503可通过中期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在中期融合方式中，一个FC层被设置在第一层，特征拼接层被设置在第二层，另一FC层被设置在第三层。具体地说，声音识别模块503可对输入音频的时域特征执行一层FC层变换(例如，在第一层)，得到第一变换特征，对输入音频的频域特征行一层FC层变换(例如，在第一层)，得到第二变换特征(其中，对输入音频的时域特征的变换和输入音频的频域特征的变换的顺序不受限制)，对第一变换特征和第二变换特征进行拼接(例如，在第二层)，得到拼接后的特征，并对拼接后的特征执行一层FC层变换(例如，在第三层)，得到所述融合后的特征。

根据本公开的示例性实施例，声音识别模块503可通过后期融合方式来对输入音频的时域特征和输入音频的频域特征进行融合。在后期融合方式中，两个FC层被分别设置在第一层和第二层，特征拼接层被设置在第三层。具体地说，声音识别模块503可对输入音频的时域特征执行两层全连接层变换(例如，分别在第一层和第二层)，得到第三变换特征，对输入音频的频域特征执行两层全连接层变换(例如，分别在第一层和第二层)，得到第四变换特征(其中，对输入音频的时域特征的变换和输入音频的频域特征的变换的顺序不受限制)，对第三变换特征和第四变换特征进行拼接(例如，在第三层)，得到所述融合后的特征。

根据本公开的示例性实施例，本公开提出的TFN模型以及根据本公开的声音识别方法和声音识别装置可应用于说话人识别。当将本公开提出的TFN模型以及根据本公开的声音识别方法和声音识别装置可应用于说话人识别时，输入音频可以是说话人的语音。

具体地说，根据不同的输出类型，说话人识别可包括说话人辨认和说话人验证。说话人辨认用于确定输入的语音属于注册人群中的哪个人并输出预测的人的索引。说话人验证用于确认输入的语音是否由该人发出并输出真或假。说话者辨认是多分类问题，说话者验证是二分类问题。多分类问题可被变换为多个二分类问题。根据本公开的声音识别方法和声音识别装置可应用于说话人辨认，也可应用于说话人验证。

根据用户是否需要与系统协作，说话人识别名可包括文本依赖说话人识别和文本无关说话人识别。文本依赖说话人识别系统需要用户基于与系统的交互说出特定内容，使得系统可避免录制后播放的语音攻击，并提供较好的鲁棒性。然而，它需要用户的协作，这使得在一些应用中受到限制，诸如在一种没有交互的场景下。文本无关说话人识别系统不需要指定输入的语音的内容，该系统需要从未知内容的语音中识别说话人，这会更加困难。同时，文本无关说话人识别系统由于其不太有交互需求而被更广泛的使用。根据本公开的声音识别方法和声音识别装置可应用于文本依赖说话人识别，也可应用于文本无关说话人识别。

图6a、图6b、图6c和图6d示出说话人识别系统的示意图。其中，图6a示出文本依赖说话人辨认系统的示意图，图6b示出文本依赖说话人验证系统的示意图，图6c示出文本无关说话人辨认系统的示意图，图6d示出文本无关说话人验证系统的示意图。

下面的表1示出本公开提出的TFN模型和传统SincNet模型基于TIMIT数据集和LibriSpeech数据集的实验数据对比结果。

[表1]

TIMIT数据集包括462个说话人，LibriSpeech数据集包括2484个说话人。通过控制分类特征空间的维度来使用特定大小的模型来进行实验。针对TIMIT数据集，模型的分类特征空间维度为1024。针对LibriSpeech数据集，模型的分类特征空间维度为2048。在本公开提出的TFN模型和SincNet模型中，带通滤波器数据针对小模型被设置为512个、针对大模型为被设置为1024个。此外，在本公开提出的TFN模型中，将MFCC用作用于提取频域特征的频谱。使用分类错误率(CER)来评价模型性能，CER越低表示模型性能越好。从表1中可看出，对于TIMIT数据集，传统SincNet模型的CER为0.85％，本公开提出的TFN模型的CER为0.65％。针对LibriSpeech数据集，传统SincNet模型的CER为0.96％，本公开提出的TFN模型的CER为0.32％。可见，本公开提出的TFN模型展现了更好的性能。

以上已参照图2至图6d描述了根据本公开示例性实施例的声音识别方法和声音识别装置。

图5所示出的各个模块可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个模块可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，安全监控模块所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图4所描述的方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储有指令的计算机可读存储介质，其中，当所述指令在至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的声音识别方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图4进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的各个模块可完全依赖计算机程序的运行来实现相应的功能，即，各个模块在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图5所示的各个模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本公开的示例性实施例的声音识别方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的声音识别方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的声音识别方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图4所描述的声音识别方法可通过包括至少一个计算装置和至少一个存储有计算机指令的存储装置的声音识别装置来实现。

根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的用于执行声音识别方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图4所描述的声音识别方法。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种声音识别方法，其特征在于，包括：

获取输入音频的时域特征；

获取所述输入音频的频域特征；

对所述输入音频的时域特征和所述输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。

2.如权利要求1所述的声音识别方法，其特征在于，所述对所述输入音频的时域特征和所述输入音频的频域特征进行融合，包括：

对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征。

3.如权利要求2所述的声音识别方法，其特征在于，所述对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征，包括：

将所述输入音频的时域特征和所述输入音频的频域特征拼接，得到拼接后的特征；

对所述拼接后的特征执行两层全连接层变换，得到所述融合后的特征。

4.如权利要求2所述的声音识别方法，其特征在于，所述对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征，包括：

对所述输入音频的时域特征执行一层全连接层变换，得到第一变换特征；

对所述输入音频的频域特征执行一层全连接层变换，得到第二变换特征；

对所述第一变换特征和所述第二变换特征进行拼接，得到拼接后的特征；

对所述拼接后的特征执行一层全连接层变换，得到所述融合后的特征。

5.如权利要求2所述的声音识别方法，其特征在于，所述对所述输入音频的时域特征和所述输入音频的频域特征进行拼接和变换处理，得到所述融合后的特征，包括：

对所述输入音频的时域特征执行两层全连接层变换，得到第三变换特征；

对所述输入音频的频域特征执行两层全连接层变换，得到第四变换特征；

对所述第三变换特征和所述第四变换特征进行拼接，得到所述融合后的特征。

6.一种声音识别装置，其特征在于，包括：

时域特征获取模块，被配置为获取输入音频的时域特征；

频域特征获取模块，被配置为获取所述输入音频的频域特征；

声音识别模块，被配置为对所述输入音频的时域特征和所述输入音频的频域特征进行融合，并基于融合后的特征执行声音识别。

7.如权利要求6所述的声音识别装置，其特征在于，声音识别模块被配置为：

8.如权利要求7所述的声音识别装置，其特征在于，声音识别模块被配置为：

9.如权利要求7所述的声音识别装置，其特征在于，声音识别模块被配置为：

对所述输入音频的频域特征行一层全连接层变换，得到第二变换特征；

对所述第一变换特征和所述第二变换特征进行拼接，得到拼接后的特征；对所述拼接后的特征执行一层全连接层变换，得到所述融合后的特征。

10.如权利要求7所述的声音识别装置，其特征在于，声音识别模块被配置为：

11.一种声音识别装置，所述声音识别装置包括至少一个计算装置和至少一个存储有计算机指令的存储装置，其特征在于，所述计算机指令在所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的声音识别方法。

12.一种存储有指令的计算机可读存储介质，其特征在于，当所述指令在至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的声音识别方法。