CN109862200B

CN109862200B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN109862200B
Application number: CN201910134351.4A
Authority: CN
Inventors: 张晨; 董培
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2021-02-12
Anticipated expiration: 2039-02-22
Also published as: US20210375298A1; WO2020168873A1; US11587574B2; CN109862200A

Abstract

本公开提供了一种语音控制方法、装置、电子设备及存储介质，所述语音控制方式包括：检测当前通话系统的工作状态；在所述工作状态为双端讲话状态或远端讲话状态时，对后续远端语音信号进行压缩处理；通过麦克风获取近端语音信号；根据近端语音信号及压缩处理后的远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；对近端语音信号和残余回声信号进行非线性抑制处理；对抑制处理后的近端语音信号进行增益控制。本实施例中，在工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理，降低较大远端信号的播放音量，使得麦克风采集到的回声音量变小，减轻了回声的干扰，有效的抑制残余回声，提高了通话质量。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

回声的产生是由于扬声器和麦克风之间存在声学回路。也就是说，来自远端的声音信号，通过近端的扬声器放出，被麦克风采集到后传回远端，此时，远端的说话人就能听到自己的回声。从而严重的影响了通话质量。

为了提高通话质量，相关技术中，可以通过回声消除系统中的自适应滤波器模拟回声形成的反馈回路，来抵消麦克风采集进的部分回声信号。由于自适应滤波器不能完全消除回声，特别是非线性失真后的回声信号，因此，在自适应滤波器处理后的回声信号会再通过非线性处理(NLP，NoLinear Processor)模块来消除残余回声。

但是，虽然非线性处理NLP可以起到抑制残余回声的作用，但是，在实际应用中，还存在如下问题：第一，双讲状态中，NLP在抑制回声的同时也会明显消弱近端信号；第二，在通话系统中，一般在回声消除(AEC，Acoustic Echo Cancellation)后还会加上一个自动增益控制(AGC，Automatic Gain Control)来自适应放大近端信号，特别是，当NLP不能完全抑制残余回声时，残余回声也会被AGC放大，从而对通话质量造成干扰。

因此，基于现有的回声消除系统，如何在双讲状态下，有效的抑制残余回声是目前有待解决的技术问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、电子设备及存储介质，以解决在双讲状态下，不能有效的抑制残余回声，导致通话质量差的技术问题。

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

检测当前通话系统的工作状态；

在所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；

通过麦克风获取近端语音信号；

根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

对所述近端语音信号和残余回声信号进行非线性抑制处理；

对抑制处理后的所述近端语音信号进行增益控制。

可选的，在所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理，具体包括：

在所述工作状态为远端讲话状态或双端讲话状态时，按照默认的第一基准压缩阈值对接收到的后续远端语音信号进行压缩处理；或者

在所述工作状态为双端讲话状态时，将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值；

按照所述第二基准压缩阈值对接收到的后续远端语音信号进行压缩处理。

可选的，在检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时且对接收到的后续远端语音信号进行压缩处理前，所述方法还包括：

计算所述远端语音信号的能量值；

判断所述能量值是否大于所述第一基准压缩阈值，在所述能量值大于所述第一基准压缩阈值时，执行对接收到的后续远端语音信号按照所述第一基准压缩阈值进行压缩处理的步骤。

可选的，在所述工作状态为双端讲话状态时，所述方法还包括：

计算所述双端讲话状态的检测概率；

判断所述检测概率是否大于设定概率阈值；

在所述检测概率大于等于设定概率阈值时，执行将所述第一基准压缩阈值降低到第二基准压缩压缩阈值的步骤。

可选的，在将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值后，所述对抑制处理后的所述近端语音信号进行增益控制包括：

按照降低前所述第一基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，在所述工作状态为远端讲话状态时，所述对抑制处理后的所述近端语音信号进行增益控制包括：

按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，在对接收到的后续远端语音信号进行压缩处理前，所述方法还包括：

对接收到的后续远端语音信号中的低频信号进行均衡过滤处理；

所述对接收到的后续远端语音信号进行压缩处理，具体包括：对均衡过滤处理后的所述远端语音信号进行压缩处理。

根据本公开实施例的第二方面，提供一种语音处理装置，包括：

检测模块，被配置为检测当前通话系统的工作状态；

压缩处理模块，被配置为在所述检测模块检测到所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；

获取模块，被配置为通过麦克风获取近端语音信号；

回声处理模块，被配为置根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

抑制处理模块，被配置为对所述近端语音信号和残余回声信号进行非线性抑制处理；

增益控制模块，被配置为对抑制处理后的所述近端语音信号进行增益控制。

可选的，所述压缩处理模块包括：第一压缩处理模块；和/或，调整模块和第二压缩处理模块，其中，

所述第一压缩处理模块，被配置为在所述检测模块检测到所述工作状态为双端讲话状态或远端讲话状态时，按照默认的第一基准压缩阈值对接收到的后续远端语音信号进行压缩处理；

所述调整模块，被配置为在所述检测模块检测到所述工作状态为双端讲话状态时，将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值；

所述第一压缩处理模块，被配置为按照所述第二基准压缩阈值对接收到的后续远端语音信号进行压缩处理。

可选的，还包括：

第一计算模块，被配置为在所述检测模块检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时且所述第一压缩处理模块对后续的远端语音信号进行压缩处理前，计算所述远端语音信号的能量值；

第一判断模块，被配置为判断所述能量值是否大于所述第一基准压缩阈值；

所数第一压缩处理模块，还被配置为在所述第一判断模块判定大于所数第一基准压缩阈值时，对接收到的后续远端语音信号按照所述第一基准压缩阈值进行压缩处理。

可选的，还包括：

第二计算模块，被配置为在检测模块检测到所述工作状态为双端讲话状态时，计算所述双端讲话状态的检测概率；

第二判断模块，被配置为判断所述检测概率是否大于设定概率阈值；

所述调整模块，还被配置为在所述第二判断模块判定所述检测概率大于等于设定概率阈值时，将所述第一基准压缩阈值降低到第二基准压缩压缩阈值。

可选的，所述增益控制模块，还被配置为在将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值后，按照降低前的所述第一基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，所述增益控制模块，还被配置为在检测模块检测到的工作状态为远端讲话状态时，按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，还包括：

均衡过滤模块，被配置为在所述压缩处理模块对接收到的后续远端语音信号进行压缩处理前，对接收到的后续远端语音信号中的低频信号进行均衡过滤处理；

所述压缩处理模块，具体被配置为对均衡过滤处理后的所述远端语音信号进行压缩处理。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述任一种语音处理方法的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备执行上述任一种语音处理方法的步骤。

根据本公开实施例的第五方面，提供根据一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备执行上述任一种语音处理方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本示例性实施例示出的语音控制方法，在检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；然后，通过麦克风获取近端语音信号；以及根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；之后，再对残余回声信号进行非线性抑制处理；再对抑制处理后的所述近端语音信号进行增益控制，最后输出在增益控制后的近端语音信号。也就是说，本公开实施例中，在工作状态为双端讲话状态时，对接收到的后续远端语音信号进行压缩处理，降低较大远端信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，有效的抑制残余回声，提高了通话质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。

图2是根据一示例性实施例示出的一种语音处理方法的另一流程图。

图3是根据一示例性实施例示出的一种语音处理装置的结构示意图。

图4是根据一示例性实施例示出的一种语音处理装置的另一结构示意图。

图5是根据一示例性实施例示出的一种语音处理系统的结构示意图。

图6是根据一示例性实施例示出的一种电子设备的结构框图。

图7是根据一示例性实施例示出的一种电子设备的另一结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音处理方法的流程图，如图1所示，语音处理方法用于终端中，包括以下步骤：

在步骤101中，检测当前通话系统的工作状态；

该步骤中，就是检测当前系统的工作状态是否处于远端讲话状态，是否处于近端讲话状态，或者是否处于双端讲话状态，其具体的检测方式，就是检测回声消除(AEC，Acoustic Echo Cancellation)模块是否工作在近端状态时(只有近端人说话)，是否工作在远端状态(只有近端人说话)，是否工作在双端讲话状态(近端和远端人同时说话)。

在步骤102中，在所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；

该实施例中，如果此时检测到当前通话系统的工作状态是远端讲话状态或双端讲话状态，都可以按照默认的第一基准压缩阈值对接收到的后续远端语音信号进行压缩处理。即将大于所述第一基准压缩阈值的后续远端语音信号的压缩到所述第一基准压缩阈值，以降低接收到的较大远端信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，提高了通话质量。

当然，此时，在检测到当前系统的工作状态是双端讲话状态时，也可以先将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值；然后，按照所述第二基准压缩阈值对接收到的后续远端语音信号进行压缩处理。即将大于所述第二基准压缩阈值的后续远端语音信号的压缩到所述第二基准压缩阈值，以降低接收到的较大远端信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，提高了通话质量。

在步骤103中，通过麦克风获取近端语音信号；

其中，该近端语音信号中除了包括近端的语音信号，还包括线性回声信号，就是通过声学回来采集到扬声器的回声信号。也就是说，扬声器播放远端信号，会对近端产生回声信号，从而对近端信号造成干扰。

在步骤104中，根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

该步骤中，在接收到压缩处理后的远端语音信号，然后根据压缩处理后的所述远端信号估算出线性回声信号；以及在获取近端语音信号后，从所述近端语音信号中去除所述线性回声信号，得到除去后的近端语音信号和残余回声信号。

在步骤105中，对所述近端语音信号和残余回声信号进行非线性抑制处理；

该步骤中，通过非线性处理(NLP)模块，对所述近端语音信号和残余回声信号进行非线性处理，从而消除到残余回声信号。

在步骤106中，对抑制处理后的所述近端语音信号进行增益控制。

该步骤中，对于双端讲话状态，在将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值后，对抑制处理后的所述近端语音信号进行增益控制具体包括：按照降低前所述第一基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

对于远端讲话状态，所述对抑制处理后的所述近端语音信号进行增益控制包括：按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

之后，输出增益控制处理后的近端语音信号。

本示例性实施例示出的语音控制方法，在检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；然后，通过麦克风获取近端语音信号；以及根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；之后，再对残余回声信号进行非线性抑制处理；再对抑制处理后的所述近端语音信号进行增益控制，最后输出在增益控制后的近端语音信号。也就是说，本公开实施例中，在工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理，降低较大远端信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，有效的抑制残余回声，提高了通话质量。

还请参阅图2，是根据一示例性实施例示出的一种语音处理方法的另一流程图，该实施例以工作状态为双端讲话状态为例，所述方法包括：

步骤201：检测当前通话系统的工作状态；

其中，该步骤与步骤101同，具体详见上述，在此不再赘述。

步骤202：在所述工作状态为双端讲话状态或远端讲话状态时，计算所述远端语音信号的能量值；

该步骤中，其一种计算所述远端语音信号的能量值方法为：

先提取远端语音信号的多个样本(sample)，然后，根据该多个sample计算远端先语音信号的能量值(inputlevel)，其计算公式如下：

inputlevel＝10*log10(sampleData[i]*sampleData[i])

其中，i表示sample的时间序号。

步骤203：判断所述远端语音信号的能量值是否大于第一基准压缩阈值，在所述能量值大于所述第一基准压缩阈值时，执行步骤204；在小于所述第一基准压缩阈值时，执行步骤209；

其中，第一基准压缩阈值是按照经验值预先默认的基准压缩阈值。

该步骤中，将远端信号的输入能量值(inputlevel)和第一基准压缩阈值(threshold)进行比较，得到比较结果为目标能量值(outputlevel)：

在inputlevel低于threshold时，outputlevel＝inputlevel；也就是说，当能量值低于第一基准压缩阈值时，不需要对接收到的远端语音信号进行压缩处理，直接将该接收到的远端语音信号，一路输入到回声消除模块进行线性回声信号的估算，另一路通过扬声器播放。

在inputlevel高于threshold时，outputlevel＝threshold；

也就是说，当远端语音信号的输入能量值高于第一基准压缩阈值时，需要对接收到的远端语音信号进行压缩处理，即将大于第一基准压缩阈值的远端信号压缩到第一基准压缩阈值。

但是，在实际应用中，输出的目标能量值并不等于输入能量值，会存在能量误差，其二者之间的关系如下式所示：

outputlevel＝threshold+(inputlevel-threshold)/ratio

其中ratio是一个大于1的数，表示目标能量值通过inputlevel和threshold的线性插值比例。理论上ratio可以等于1，此时，outputlevel＝threshold，但实际处理中，ratio接近于1，但不可能等于1。

其中，本实施例中的threshold是一个用来控制接收到的远端信号是否需压缩的阈值。其中，阈值的大小可以根据双端讲话状态的检测概率进行调整。

当然，在另一方面，对于所述工作状态为双端讲话状态时，其具体的调整过程为：

先计算所述双端讲话状态的检测概率，然后判断所述双端讲话状的态检测概率是否大于设定概率阈值，在大于等于设定概率阈值时，执行将所述第一基准压缩阈值降低到第二基准压缩压缩阈值的步骤，也就是将第一基准压缩阈值调低一个等级，即调整到第二基准压缩压缩阈值；在小于所述设定概率阈值时，不做处理，保持原来的第一基准压缩阈值，即继续使用第一基准压缩阈值对后来解释到的远端语音信号进行从压缩处理。

也就是说，本实施例中，可以根据双端讲话状态的检测概率，来调整基准压缩阈值threshold，具体的，可以按照下述公式调整：

threshold＝threshold0–DT_prob*10

其中，threshold0是一般状态下的基准压缩阈值，DT_prob是双端讲话的检测概率，位于0～1之间；

由上述公式可以看出，当双端讲话概率比较大时，需要降低基准压缩阈值，从而进一步压缩接收到的远端语音信号。

步骤204：对接收到的后续远端语音信号按照所述第一基准压缩阈值进行压缩处理；

该步骤中，使用默认的第一基准压缩阈值对远端语音信号进行压缩。其压缩前，先通过远端语音信号目标能量值与输入能量值的差值进行增益调节值(inputGain)，其计算公式为：

inputGain＝outputlevel-inputlevel

然后，对增益调节值按照下述公式进行处理，得到平滑的增益调节值(outputGain)：

outputGain＝a1*outputGain+(1-a1)*inputgain

其中，0＜a1＜1

需要说明的是，上述过程是将远端语音信号变换到时域上进行计算的，在得到平滑的增益调节值后，还需要将远端信号的增益调节值变换到信号域上进行压缩处理，具体的，可以通过下述公式将时域上信号的增益调节值变换到信号域上增益调节值gain。

gain＝pow(10,outputGain/20)

最后，按照下述公式对远端语音信号的多个样本sample进行压缩处理：

sampleData[i]＝sampleData[i]*gain

步骤205：通过麦克风获取近端语音信号；

步骤206：根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

步骤207：对所述近端语音信号和残余回声信号进行非线性抑制处理；

该实施例中，步骤205至步骤207与步骤103至步骤105相同，具体详见上述，在此不再赘述。

步骤208：对抑制处理后的所述近端语音信号进行增益控制。

该步骤中，在工作状态在双端讲话状态时，即近端和远端的人同时说话时，自动增益控制模块会冻结增益的增长变化，即保持当前的增益不变，直到退出双端讲话状态，这样处理的目的是不会放大残余回声，从而改善了实际通话中的回声抑制效果。也就是说，如果之前增益值为N，在检测到通话系统进入双端讲话状态时，保持N不发生任何变化，直到通话系统退出双讲状态。

此外，在将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值后，按照降低前的所述第一基准压缩阈值的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

在工作状态为远端讲话状态时，即只有远端人说话时，也会逐步降低增益，即按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

也就是说，假设之前的增益值为N，如果N>1，且检测到只有远端人说话时，N就会按一定的速率逐渐趋近于1，如果N<1，则增益值不变。

当工作状态为近端状态时，即只有近端人说话时，AGC正常工作。

步骤209：不对所述远端语音信号进行压缩处理。

该处理过程为现有处理语音处理过程，在此不再赘述。

本示例性实施例示出的语音控制方法，在检测到当前通话系统的工作状态为双端讲话状态时，计算所述远端语音信号的能量值，并在判定所述远端语音信号的能量值大于基准压缩阈值时，对接收到的后续远端语音信号进行压缩处理(进一步，还可以在调低基准压缩阈值后，对后续远端语音信号进行压缩处理等)；然后，通过麦克风获取近端语音信号；以及根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；之后，再对残余回声信号进行非线性抑制处理；再对抑制处理后的所述近端语音信号进行增益控制(可以保持增益值不变，对抑制处理后的所述近端语音信号进行增益控制，或者在调低所述基准压缩阈值后，按照降低所述基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制)，最后输出在增益控制后的近端语音信号。也就是说，本公开实施例中，在工作状态为双端讲话状态时，在远端语音信号的能量值大于基准压缩阈值时，按照该基准压缩阈值对接收到的后续远端语音信号进行压缩处理，或者在调低所述基准压缩阈值后，按照调低后所述基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。降低较大远端信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，有效的抑制残余回声，提高了通话质量。

可选的，在另一实施例中，该该实施例在上述实施例的基础上，在对接收到的后续远端语音信号进行压缩处理前，所述方法还可以包括：

也就是说，该实施例中，可以在播放端加入均衡器，对接收到的远端语音信号中的低频信号(这部分低频信号一般不能播放出来)进行均衡过滤，具体可以采用预设参数的iir滤波器进行过滤，并根据反馈回路里的扬声器特性，衰减不必要的频率成分，避免产生非线性失真。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图3是根据一示例性实施例示出的一种语音处理装置的结构示意图。参照图3，该装置包括：检测模块301，压缩处理模块302、获取模块303、回声处理模块304、抑制处理模块305和增益控制模块306。

检测模块301，被配置为检测当前通话系统的工作状态；

压缩处理模块302，被配置为在所述检测模块检测到所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理；

获取模块303，被配置为被配置通过麦克风获取近端语音信号；

回声处理模块304，被配置为根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

抑制处理模块305，被配置为对所述近端语音信号和残余回声信号进行非线性抑制处理；

增益控制模块306，被配置为对抑制处理后的所述近端语音信号进行增益控制。

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述压缩处理模块包括：第一压缩处理模块；和/或，调整模块和第二压缩处理模块(图中未示)，其中，

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述装置还可以包括：第一计算模块401和第一判断模块402，其结构示意图如图4所示，其中，

第一计算模块401，被配置为在所述检测模块检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时且所述第一压缩处理模块302对后续的远端语音信号进行压缩处理前，计算所述远端语音信号的能量值；

第一判断模块402，被配置为判断所述能量值是否大于所述第一基准压缩阈值；

所述第一压缩处理模块302，还被配置为在所述第一判断模块402判定大于第一基准压缩阈值时，对接收到的后续远端语音信号按照所述第一基准压缩阈值进行压缩处理。

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述装置还可以包括：第二计算模块和调整模块(图中未示)，其中，

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述增益控制模块，还被配置为在将默认的第一基准压缩阈值降低到第二基准压缩压缩阈值后，按照降低前的所述第一基准压缩阈值前的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述增益控制模块，还被配置为在检测模块检测到的工作状态为远端讲话状态时，按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述装置还可以包括：均衡过滤模块，其中，

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

为了便于理解，还请参阅图5，是根据一示例性实施例示出的一种语音处理系统的结构示意图，如图5所示，包括接收模块(Receive)501，均衡过滤EQ模块502，压缩处理模块(compressor)503，回声消除(AEC)模块504，扬声器505、麦克风506、去除(substact)模块507，非线性处理(NLP)模块508，自动增益控制(AGC)模块509和发送模块(Send)510，其中，

接收模块501接收到远端语音信号，并将该远端语音信号发送给EQ模块502，EQ模块502过滤掉该远端语音信号中不需要的低频信号，然后，将过滤后的远端语音信号发送给compressor503，compressor503对接收到的远端语音信号进行压缩处理，其具体的压缩过程详见上述对应部分的描述，在此不再赘述，之后，把压缩后的远端语音信号分为两路，一路通过扬声器505播出远端语音信号，一路送入AEC模块504；由AEC模块504根据接收到的所述远端语音信号估算出线性回声信号，并将所述线性回声信号输入到substact模块507。

与此同时，在扬声器505播出远端语音信号时，通过麦克风506也在一直在采集近端语音信号，也采集到通过扬声器505产生的回声信号(包括线性回声信号和非线性回声信号)，即通过麦克风506可以采集到近端语音信号和回声信号，之后，将采集到的近端语音信号和回声信号输入到substact模块507，substact模块507根据接收到AEC模块504的输出线性回声信号，去除接收到的近端语音信号和回声信号中的回声信号，即与和AEC模块504的输出相减，得到近端语音信号和残留的非线性回声信号；

再后，将得到的近端语音信号和残留的非线性回声信号分为两路，一路传入AEC模块504，一路发给NLP模块508；AEC模块504在接收到两路信号(即近端信号，远端信号)以后，依次可以检测出此时通话系统的工作状态(可以是近端讲话状态，远端讲话状态，也可以是双端讲话状态等)，如果是双端讲话状态，AEC模块504就对compressor模块503发出压缩处理信号，compressor模块503可以对后续接收到的远端语音信号按照默认的基准压缩阈值进行压缩，当然，进一步，在双端讲话状态的检测概率大于概率阈值时，将基准压缩阈值降低一个等级(即将基准压缩阈值调低一个预设值)，并按照调低后的基准压缩阈值对后续接收到的远端语音信号进行压缩；

同时，AEC模块504给AGC模块509发出增益控制不变信号，AGC模块509按照接收到的增益控制不变信号，控制当前的增益不发生变化。

AEC模块504再给substract模块507发送下次需要减掉的线性回声信号，AEC模块504再给NLP模块508发送一个参考值，告知NLP模块508应该有多大的过减量。此时，substract模块507输出的另一路信号在NLP模块508中进行过减处理，即对非线性回声信号进行非线性处理，之后，将非线性处理后的近端语音信号发送给AGC模块509进行增益控制处理，然后通过发送模块510发送所述增益控制处理后的近端语音信号。

本公开实施例中，在双端讲话状态或远端讲话状态下，通过对接收到的远端语音信号进行压缩处理，降低较大远端语音信号的播放音量，从而使得麦克风采集到的回声音量变小，减轻了回声的干扰，并对非线性回声信号进行抑制处理，以及对抑制处理后的近端语音进行增益控制，有效的抑制残余回声，即解决了回声消除系统在双端讲话状态下不能有效抑制残余回声的问题，提高了通话质量。

图6是根据一示例性实施例示出的一种电子设备600的框图。电子设备可以为移动终端也可以为服务器，本公开实施例中以电子设备为移动终端为例进行说明。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。装电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1、图2中所示的语音处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述图1、图2中所示的语音处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备600的处理器620执行时，使得电子设备600执行上述图1、图2中所示的语音处理方法。

图7是根据一示例性实施例示出的一种用于语音处理的电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图7，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述图1和图2所述的语音处理方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

检测当前通话系统的工作状态；

通过麦克风获取近端语音信号；

对所述近端语音信号和残余回声信号进行非线性抑制处理；

对抑制处理后的所述近端语音信号进行增益控制。

2.根据权利要求1所述的语音处理方法，其特征在于，在所述工作状态为双端讲话状态或远端讲话状态时，对接收到的后续远端语音信号进行压缩处理，具体包括：

在所述工作状态为双端讲话状态时，将默认的第一基准压缩阈值降低到第二基准压缩阈值；

3.根据权利要求2所述的语音处理方法，其特征在于，在检测到当前通话系统的工作状态为双端讲话状态或远端讲话状态时且对接收到的后续远端语音信号进行压缩处理前，所述方法还包括：

计算所述远端语音信号的能量值；

4.根据权利要求2所述的语音处理方法，其特征在于，在所述工作状态为双端讲话状态时，所述方法还包括：

计算所述双端讲话状态的检测概率；

判断所述检测概率是否大于设定概率阈值；

在所述检测概率大于等于设定概率阈值时，执行将所述第一基准压缩阈值降低到第二基准压缩阈值的步骤。

5.根据权利要求4所述的语音处理方法，其特征在于，在将默认的第一基准压缩阈值降低到第二基准压缩阈值后，所述对抑制处理后的所述近端语音信号进行增益控制包括：

按照降低所述第一基准压缩阈值前的所述远端语音信号的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

6.根据权利要求1所述的语音处理方法，其特征在于，在所述工作状态为远端讲话状态时，所述对抑制处理后的所述近端语音信号进行增益控制包括：

7.根据权利要求1至6任一项所述的语音处理方法，其特征在于，在对接收到的后续远端语音信号进行压缩处理前，所述方法还包括：

8.一种语音处理装置，其特征在于，包括：

检测模块，被配置为检测当前通话系统的工作状态；

获取模块，被配置为通过麦克风获取近端语音信号；

回声处理模块，被配置为根据所述近端语音信号及压缩处理后的所述远端语音信号进行回声处理，得到回声处理后的近端语音信号和残余回声信号；

9.根据权利要求8所述的语音处理装置，其特征在于，所述压缩处理模块包括：第一压缩处理模块；和/或，调整模块和第二压缩处理模块，其中，

所述调整模块，被配置为在所述检测模块检测到所述工作状态为双端讲话状态时，将默认的第一基准压缩阈值降低到第二基准压缩阈值；

10.根据权利要求9所述的语音处理装置，其特征在于，还包括：

11.根据权利要求9所述的语音处理装置，其特征在于，还包括：

所述调整模块，还被配置为在所述第二判断模块判定所述检测概率大于等于设定概率阈值时，将所述第一基准压缩阈值降低到第二基准压缩阈值。

12.根据权利要求11所述的语音处理装置，其特征在于，

所述增益控制模块，还被配置为在将默认的第一基准压缩阈值降低到第二基准压缩阈值后，按照降低所述第一基准压缩阈值前的所述远端语音信号的增益增长变化，对所述抑制处理后的所述近端语音信号进行增益控制。

13.根据权利要求8所述的语音处理装置，其特征在于，

所述增益控制模块，还被配置为在检测模块检测到的工作状态为远端讲话状态时，按照预定速率逐渐降低的增益变化对所述抑制处理后的所述近端语音信号进行增益控制。

14.根据权利要求8至13任一项所述的语音处理装置，其特征在于，还包括：

15.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7中任一项所述的语音处理方法。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-7中任一项所述的语音处理方法。