CN111161752A

CN111161752A - 回声消除方法和装置

Info

Publication number: CN111161752A
Application number: CN201911420690.5A
Authority: CN
Inventors: 陈国明
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111161752B

Abstract

本发明公开了回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。方法包括：获取第一音频信号和第二音频信号，第一音频信号为输入至扬声器的信号，第二音频信号为麦克风拾取的信号；通过线性自适应滤波算法对第一音频信号导致的回声信号进行估计，得到回声估计信号；提取回声估计信号的特征参数作为第一特征；提取误差信号的特征参数作为第二特征；将第一特征和第二特征输入至预先训练好的神经网络模型中，由神经网络输出用户语音信号的增益；计算误差信号和增益的乘积，以得到用户语音信号。

Description

回声消除方法和装置

技术领域

本说明书涉及声学技术，尤其涉及回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。

背景技术

音频设备的扬声器与麦克风的距离通常比较近，如果扬声器播放音频信号并且用户离开音频设备比较远，在麦克风采集到的声音信号中，由扬声器播放的声音信号导致的回声信号可能比用户的语音命令大得多，导致无法准确获取到用户的语音命令。对于智能音箱来说，这种情况会导致智能音箱的麦克风无法检测到唤醒词，也就无法被用户唤醒，给用户造成了不好的体验。

扬声器播放音频信号时会存在非线性畸变，引入非线性信号。传统的回声消除方法只能拟合回声信号中的线性部分，无法准确消除回声信号。因此，有必要提出一种新的回声消除方案。

发明内容

本说明书公开的实施例提供一种新的回声消除方案。

根据本发明说明书公开的第一方面，提供了回声消除方法，包括以下步骤：

获取第一音频信号和第二音频信号，所述第一音频信号为输入至扬声器的信号，所述第二音频信号为麦克风拾取的信号；

根据第一音频信号和误差信号，采用线性自适应滤波算法对第一音频信号导致的回声信号进行估计，得到回声估计信号；所述误差信号为第二音频信号和回声估计信号之间的差值信号；

提取回声估计信号的特征参数作为第一特征；

提取误差信号的特征参数作为第二特征；

将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中，由所述神经网络输出用户语音信号的增益；

计算误差信号和增益的乘积，以得到用户语音信号。

可选地，所述用户语音信号的增益为子带增益；所述计算误差信号和增益的乘积，以得到用户语音信号，包括：

对误差信号进行频域变换；

对经过频域变换的误差信号和子带增益进行频域相乘，对相乘的结果进行频域到时域的反变换得到用户声音信号。

可选地，所述神经网络模型的训练过程包括：

获取样本数据，所述样本数据包括回声估计样本信号、用户语音样本信号、麦克风混合样本信号，其中，所述回声估计样本信号为在第一场景下，通过所述线性自适应滤波算法估计出的回声估计信号；所述用户语音样本信号为第二场景下，通过所述麦克风拾取的信号；所述麦克风混合样本信号为第三场景下，通过所述麦克风拾取的信号；所述第一场景是测试环境中没有用户语音，只有所述扬声器播放第一测试音频信号的场景，所述第二场景是所述扬声器停止工作，测试环境中只存在第一测试用户语音的场景，所述第三场景是测试环境中存在所述第一测试用户语音，并且所述扬声器播放所述第一测试音频信号的场景；

对用户语音样本信号和麦克风混合样本信号进行频域变换，得到用户语音样本频域信号和麦克风混合样本频域信号；

对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分；

计算各个子带上的用户语音样本频域信号的能量；

计算各个子带上的麦克风混合样本频域信号的能量；

根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值，确定该子带的子带增益；

提取回声估计样本信号的特征参数；

提取用户语音样本信号的特征参数；

将回声估计样本信号的特征参数和用户语音样本信号的特征参数输入到神经网络模型中，用已经确定的子带增益作监督，对神经网络模型进行训练。

可选地，所述神经网络模型包括第一至第五网络；

所述将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中，由所述神经网络输出用户语音信号的增益，包括：

将所述第一特征和第二特征拼接出的组合特征输入至第一网络中；

将第一网络提取的特征输入至第二网络中，得到语音激活检测数据；

将所述组合特征、第一网络提取的特征、所述语音激活检测数据输入至第三网络中，得到噪声频谱估计数据；

将所述组合特征，语音激活检测数据、噪声频谱估计数据输入至第四网络中，得到增强语音数据；

将增强语音数据输入到第五网络中，得到用户语音信号的增益。

可选地，所述第一网络和所述第五网络分别采用全连接神经网络；所述全连接神经网络采用Tanh激活函数或者Relu激活函数；

所述第二至第四网络分别采用长短记忆网络或者门控循环单元神经网络。

可选地，所述线性自适应滤波算法为下列任一算法：

最小均方算滤波算法；

递归最小均方滤波算法；

归一化最小均方滤波算法。

可选地，所述回声估计信号(y_est)的特征参数，至少包括下列任一特征参数

美尔频域倒谱参数；

bark频域倒谱参数；

LPC倒谱参数。

可选地，所述误差信号(e)的特征参数，至少包括下列任一特征参数：

倒谱参数；

基音参数；

感知线性预测参数；

幅度调制谱参数。

根据本发明说明书公开的第二方面，提供了语音激活方法，包括前述任一项所述的回声消除方法；还包括：

检测所述用户语音信号是否为预设的唤醒词，如果是，则唤醒音频装置。

根据本发明说明书公开的第三方面，提供了回声消除装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。

根据本发明说明书公开的第四方面，提供了音频装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。

根据本发明说明书公开的第五方面，提供了音频装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一项所述的语音激活方法。

根据本发明说明书公开的第六方面，提供了计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现前述任一项所述的回声消除方法。

根据本发明说明书公开的第七方面，提供了计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现前述任一项所述的语音激活方法。

本发明实施例公开的回声消除方法，先采用自适应滤波算法对回声信号进行估计，再利用预先训练好神经网络模型根据回声估计信号和误差信号估算信号增益，利用信号增益得到用户语音信号，这一过程能够消除回声信号的线性部分和非线性部分的影响，准确提取出用户语音信号。

以下参照附图对本说明书的示例性实施例的详细描述，本说明书的实施例的特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例，并且连同其说明一起用于解释本说明书实施例的原理。

图1是本说明书一个实施例提供的回声消除方法的示意图；

图2是本说明书另一个实施例提供的神经网络模型的示意图。

图3是本说明书另一个实施例提供的神经网络模型的训练过程的示意图。

具体实施方式

现在将参照附图来详细描述本说明书的各种示例性实施例。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本说明书实施例及其应用或使用的任何限制。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<回声消除方法>

参见图1所示，说明本发明实施例的回声消除系统：

音频装置具有扬声器100和麦克风200。

待播放的音频信号in经过智能功放提升增益后，输出第一音频信号x，将第一音频信号x输入至扬声器100进行播放。麦克风200拾取到的信号为第二音频信号d，如果用户处于说话状态，第二音频信号d中包含扬声器播放第一音频信号x导致的回声信号y，还包含用户语音信号s。

本发明实施例的目的在于消除回声信号y的影响，从麦克风拾取到的第二音频信号d中尽可能准确提取出用户语音信号s，也就是说，希望回声消除系统经过回声消除处理以后最终输出的用户语音信号out尽可能趋近于用户语音信号s。为了达到这一目的，采用线性自适应滤波算法和预先训练好的神经网络进行回声消除，提取用户语音信号的工作。

下面说明本发明一个实施例提供的回声消除方法，对上述同时具有扬声器和麦克风的音频装置实施，该音频装置例如可以为智能音箱。该实施例提供的回声消除方法包括步骤S202-S212。

S202、获取第一音频信号x和第二音频信号d，第一音频信号x为输入至扬声器的信号，第二音频信号d为麦克风拾取的信号。

第二音频信号d中包含扬声器播放第一音频信号x导致的回声信号y，在用户说话状态下，还包含用户语音信号s。

S204、根据第一音频信号x和误差信号e，采用线性自适应滤波算法对第一音频信号x导致的回声信号y进行估计，得到回声估计信号y_est。

将第一音频信号x和误差信号e输入至线性自适应滤波器中，由线性自适应滤波器输出回声估计信号y_est，线性自适应滤波器采用线性自适应滤波算法。误差信号e为第二音频信号d和回声估计信号y_est之间的差值信号，用第二音频信号d减去线性自适应滤波器输出的回声估计信号y_est得到误差信号e，即，e＝d－y_est。

根据第一音频信号x和误差信号e求解迭代滤波器的权重系数。在一个具体的例子中，滤波器权重系数根据以下公式进行更新：

其中，w(n+1)是迭代后的权重系数，w(n)是迭代前的权重系数；x(n)是第一音频信号x的时域表达形式，x^T(n)是x(n)的共轭；e(n)是误差信号e的时域表达形式；δ为调节参数，是一小量；μ_n是调节参数，为一小量，0<μ_n<2。

由于线性自适应滤波算法只能估计出回声信号y中的线性部分，因此，误差信号e中含有回声信号y中的非线性部分，在用户说话状态下，还包含用户语音信号s。

在一个具体的例子中，线性自适应滤波器采用的线性自适应滤波算法可以为：

最小均方算滤波算法(Lest Mean Square，LMS)，

递归最小均方滤波算法(Algorithm Recursive Least Square，RLMS)，

归一化最小均方滤波算法(Algorithm Normalized LMS，NLMS)。

在一个具体的例子中，自适应滤波算法可以在时域后进行，也可以在频域进行。

S206、提取回声估计信号y_est的特征参数作为第一特征。

在一个具体的例子中，回声估计信号y_est的特征参数至少包括下列任一特征参数：

美尔频域倒谱参数(Mel frequency cepstral coefficient，MFCC)；

bark频域倒谱参数(Bark Frequency Cepstrum Coefficients，BFCC)；

线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)。

S208、提取误差信号e的特征参数作为第二特征。

在一个具体的例子中，误差信号e的特征参数至少包括下列任一特征参数：

倒谱参数；

基音参数；

感知线性预测参数(Perceptual Linear Predictive)；

幅度调制谱参数(Amplitudemodulationspectrum，AMS)。

S210、将第一特征和第二特征输入至预先训练好的神经网络模型中，由预先训练好的神经网络模型输出用户语音信号的增益g。

在一个具体的例子中，所述预先训练好的神经网络模型可以采用以下神经网络：

深度神经网络(Deep Neural Networks，DNN)；

长短期记忆神经网络(Long Short Term Memory network，LSTM)；

门控循环单元神经网络(Gated Recurrent UnitMemory network，GRU)；

卷积神经网络(Convolutional Neural Networks，CNN)。

在一个具体的例子中，将第一特征和第二特征预先拼接成组合特征，将组合特征输入至所述预先训练好的神经网络模型中，由预先训练好的神经网络模型输出用户语音信号的增益g。

参见图2所示，在一个具体的例子中，所述预先训练好的神经网络模型包括5个子神经网络，分别为第一网络至第五网络，采用以下架构：第一网络的输出端分别和第二网络的输入端、第三网络的输入端连接；第二网络的输出端分别和第三网络的输入端、第四网络的输入端连接；第三网络的输出端与第四网络的输出端连接；第四网络的输出端与第五网络的输入端连接。

第一网络和第五网络分别采用全连接神经网络，其中，所述全连接神经网络采用Tanh激活函数或者Relu激活函数。第二网络、第三网络、第四网络分别采用长短记忆网络或者门控循环单元神经网络。

将第一特征和第二特征拼接而成的组合特征输入至预先训练好的神经网络模型中，由预先训练好的神经网络模型输出用户语音信号的增益g，包括：

将组合特征输入至第一网络中。

将第一网络提取的特征输入至第二网络中，得到语音激活检测数据。该语音激活检测数据用于表征当前用户是否处于说话状态。

将组合特征、第一网络提取的特征、语音激活检测数据输入至第三网络中，得到噪声的频谱估计数据。

将组合特征、语音激活检测数据、噪声的频谱估计数据输入至第四网络中，得到增强语音数据。

将增强语音数据输入到第五网络中，得到用户语音信号的增益g。

本实施例采用的这种特殊架构的神经网络模型，相对于常规的基于深度神经网络的神经网络模型，可以节省大量计算节点，从而节省计算量和存储空间。

在一个具体的例子中，如果用户没有处于说话状态，第二音频信号d中不包含用户语音信号s，则神经网络输出的增益g趋近于0。

S212、计算误差信号e和增益g的乘积，以得到用户语音信号out。

在一个具体的例子中，用户语音信号的增益g为子带增益。在步骤S212中，对误差信号e进行频域变换；对经过频域变换的误差信号e和子带增益进行频域相乘，对相乘的结果进行频域到时域的反变换得到用户声音信号。

下面说明本发明一个实施例的神经网络的训练过程，该实施例提供的训练过程包括步骤S302-S318。

S302、获取样本数据集。样本数据集中包括多组样本数据。每组样本数据均包括回声估计样本信号y_est_sample、用户语音样本信号s__sample、麦克风混合样本信号d__sample，三者之间具有对应关系。

样本数据通过实测获得，一组样本数据对应一个完整的测试过程。预先准备测试室，音频装置位于测试室内，测试室内还设有仿真嘴。一个完整测试过程包括步骤S702-S708：

S702、预先准备好第一测试音频信号和第一测试用户语音信号。

S704、在第一场景下，也就是在仿真嘴关闭、只将第一测试音频信号输入至音频装置的扬声器播放出来的场景下，利用第一测试音频信号和音频装置的麦克风拾取的信号采用所述线性自适应滤波算法得到回声估计信号y_est_sample，这里的线性滤波算法和前述的线性滤波算法为同样的算法。

S706、在第二场景下，也就是在扬声器停止工作、只将第一测试用户语音信号用仿真嘴播放出来的场景下，将音频装置的麦克风拾取的信号作为用户语音样本信号s__sample，可知，用户语音样本信号s__sample中只含有用户语音。

S708、在第三场景下，也就是在将第一测试音频信号输入至音频装置的扬声器播放出来、并且将第一测试用户语音信号用仿真嘴播放出来的场景下，将音频装置的麦克风拾取的信号作为麦克风混合样本信号d__sample。可知，麦克风混合样本信号d__sample中含有用户语音，也含有回声信号。

S304、对用户语音样本信号s__sample和麦克风混合样本信号d__sample进行频域变换，得到用户语音样本频域信号和麦克风混合样本频域信号。

S306、对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分。在一个实施例中，将人耳可听频段预先划分成十八个子带。

S308、计算各个子带上的用户语音样本频域信号的能量。

S310、计算各个子带上的麦克风混合样本频域信号的能量。

S312、根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值，确定该子带的子带增益。

在一个具体的例子中，子带增益为该子带对应的所述比值的二分之一次方。

S314、提取回声估计样本信号y_est_sample的特征参数。

S316、提取用户语音样本信号s__sample的特征参数。

S318、参见图3所示，将回声估计样本信号y_est_sample的特征参数作为第一特征，将用户语音样本信号s__sample的特征参数作为第二特征，输入到神经网络模型中，用步骤S612确定的子带增益作监督，对神经网络模型进行训练，使得神经网络模型输出的子带增益不断接近作为监督的子带增益。当神经网络模型输出的子带增益与作为监督的子带增益之间的误差小于预设阈值时，认为训练成功。

在一个具体的例子中，还可以提取麦克风混合样本信号d__sample的特征参数作为第三特征，在步骤S618中，将回声估计样本信号y_est_sample的特征参数、用户语音样本信号s__sample的特征参数、麦克风混合样本信号d__sample的特征参数输入到神经网络模型中，用已经确定的子带增益作监督，对神经网络模型进行训练。与之对应的，在步骤S210之前，提取第二音频信号d的特征参数作为第三特征，将回声估计信号y_est的特征参数、误差信号e的特征参数、第二音频信号d的特征参数输入到至预先训练好的神经网络模型中，由预先训练好的神经网络模型输出用户语音信号的子带增益。在这一实施例中，将麦克风拾取到的信号的特征参数也输入到模型中，有利于模型的泛化，使得模型能够适用于不同信噪比的环境。

申请人对本发明实施例公开的回声消除方法进行了大量实验验证，实验结果表明，本发明实施例公开的回声消除方法可以很好地消除线性自适应滤波后的残留噪声，准确提取出用户语音信号。

<语音激活方法>

本发明实施例提供了一种语音激活方法，包括前述任一实施例所述的回声消除方法，还包括以下步骤：

本发明实施例公开的语音激活方法，在回声干扰较大的情况下，依然能够准确提取出用户语音信号来进行唤醒词识别。

<回声消除装置>

本发明实施例提供了一种回声消除装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一实施例的回声消除方法。

<音频装置>

本发明实施例提供了一种音频装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一实施例的回声消除方法。

本发明实施例提供了一种音频装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现前述任一实施例的语音激活方法。

<计算机可读存储介质>

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现前述任一实施例的回声消除方法。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现前述任一实施例的语音激活方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对装置、介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书的实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本说明书实施例的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本说明书的实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本说明书实施例的各个方面。

这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种回声消除方法，其特征在于，包括以下步骤：

获取第一音频信号(x)和第二音频信号(d)，所述第一音频信号(x)为输入至扬声器的信号，所述第二音频信号(d)为麦克风拾取的信号；

根据第一音频信号(x)和误差信号(e)，采用线性自适应滤波算法对第一音频信号(x)导致的回声信号进行估计，得到回声估计信号(y_est)；所述误差信号(e)为第二音频信号(d)和回声估计信号(y_est)之间的差值信号；

提取回声估计信号(y_est)的特征参数作为第一特征；

提取误差信号(e)的特征参数作为第二特征；

将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中，由所述神经网络输出用户语音信号的增益(g)；

计算误差信号(e)和增益(g)的乘积，以得到用户语音信号。

2.根据权利要求1所述的方法，所述用户语音信号的增益(g)为子带增益；所述计算误差信号(e)和增益(g)的乘积，以得到用户语音信号，包括：

对误差信号(e)进行频域变换；

对经过频域变换的误差信号(e)和子带增益进行频域相乘，对相乘的结果进行频域到时域的反变换得到用户声音信号。

3.根据权利要求2所述的方法，所述神经网络模型的训练过程包括：

获取样本数据，所述样本数据包括回声估计样本信号(y_est_sample)、用户语音样本信号(s__sample)、麦克风混合样本信号(d__sample)，其中，所述回声估计样本信号(y_est_sample)为在第一场景下，通过所述线性自适应滤波算法估计出的回声估计信号；所述用户语音样本信号(s__sample)为第二场景下，通过所述麦克风拾取的信号；所述麦克风混合样本信号为第三场景下，通过所述麦克风拾取的信号；所述第一场景是测试环境中没有用户语音，只有所述扬声器播放第一测试音频信号的场景，所述第二场景是所述扬声器停止工作，测试环境中只存在第一测试用户语音的场景，所述第三场景是测试环境中存在所述第一测试用户语音，并且所述扬声器播放所述第一测试音频信号的场景；

对用户语音样本信号(s__sample)和麦克风混合样本信号(d__sample)进行频域变换，得到用户语音样本频域信号和麦克风混合样本频域信号；

计算各个子带上的用户语音样本频域信号的能量；

计算各个子带上的麦克风混合样本频域信号的能量；

提取回声估计样本信号(y_est_sample)的特征参数；

提取用户语音样本信号(s__sample)的特征参数；

将回声估计样本信号(y_est_sample)的特征参数和用户语音样本信号(s__sample)的特征参数输入到神经网络模型中，用已经确定的子带增益作监督，对神经网络模型进行训练。

4.根据权利要求1所述的方法，所述神经网络模型包括第一至第五网络；

所述将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中，由所述神经网络输出用户语音信号的增益(g)，包括：

将增强语音数据输入到第五网络中，得到用户语音信号的增益(g)。

5.根据权利要求4所述的方法，所述第一网络和所述第五网络分别采用全连接神经网络；所述全连接神经网络采用Tanh激活函数或者Relu激活函数；

6.根据权利要求1所述的方法，所述线性自适应滤波算法为下列任一算法：

最小均方算滤波算法；

递归最小均方滤波算法；

归一化最小均方滤波算法。

7.根据权利要求1所述的方法，所述回声估计信号(y_est)的特征参数，至少包括下列任一特征参数

美尔频域倒谱参数；

bark频域倒谱参数；

LPC倒谱参数。

8.根据权利要求1所述的方法，所述误差信号(e)的特征参数，至少包括下列任一特征参数：

倒谱参数；

基音参数；

感知线性预测参数；

幅度调制谱参数。

9.一种语音激活方法，包括根据权利要求1-8任一项所述的回声消除方法；还包括：

10.一种回声消除装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现权利要求1-8任一项所述的方法。

11.一种音频装置，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现权利要求1-9任一项所述的方法。