CN111161752A - 回声消除方法和装置 - Google Patents
回声消除方法和装置 Download PDFInfo
- Publication number
- CN111161752A CN111161752A CN201911420690.5A CN201911420690A CN111161752A CN 111161752 A CN111161752 A CN 111161752A CN 201911420690 A CN201911420690 A CN 201911420690A CN 111161752 A CN111161752 A CN 111161752A
- Authority
- CN
- China
- Prior art keywords
- signal
- sample
- frequency domain
- neural network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 230000004913 activation Effects 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。方法包括:获取第一音频信号和第二音频信号,第一音频信号为输入至扬声器的信号,第二音频信号为麦克风拾取的信号;通过线性自适应滤波算法对第一音频信号导致的回声信号进行估计,得到回声估计信号;提取回声估计信号的特征参数作为第一特征;提取误差信号的特征参数作为第二特征;将第一特征和第二特征输入至预先训练好的神经网络模型中,由神经网络输出用户语音信号的增益;计算误差信号和增益的乘积,以得到用户语音信号。
Description
技术领域
本说明书涉及声学技术,尤其涉及回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。
背景技术
音频设备的扬声器与麦克风的距离通常比较近,如果扬声器播放音频信号并且用户离开音频设备比较远,在麦克风采集到的声音信号中,由扬声器播放的声音信号导致的回声信号可能比用户的语音命令大得多,导致无法准确获取到用户的语音命令。对于智能音箱来说,这种情况会导致智能音箱的麦克风无法检测到唤醒词,也就无法被用户唤醒,给用户造成了不好的体验。
扬声器播放音频信号时会存在非线性畸变,引入非线性信号。传统的回声消除方法只能拟合回声信号中的线性部分,无法准确消除回声信号。因此,有必要提出一种新的回声消除方案。
发明内容
本说明书公开的实施例提供一种新的回声消除方案。
根据本发明说明书公开的第一方面,提供了回声消除方法,包括以下步骤:
获取第一音频信号和第二音频信号,所述第一音频信号为输入至扬声器的信号,所述第二音频信号为麦克风拾取的信号;
根据第一音频信号和误差信号,采用线性自适应滤波算法对第一音频信号导致的回声信号进行估计,得到回声估计信号;所述误差信号为第二音频信号和回声估计信号之间的差值信号;
提取回声估计信号的特征参数作为第一特征;
提取误差信号的特征参数作为第二特征;
将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益;
计算误差信号和增益的乘积,以得到用户语音信号。
可选地,所述用户语音信号的增益为子带增益;所述计算误差信号和增益的乘积,以得到用户语音信号,包括:
对误差信号进行频域变换;
对经过频域变换的误差信号和子带增益进行频域相乘,对相乘的结果进行频域到时域的反变换得到用户声音信号。
可选地,所述神经网络模型的训练过程包括:
获取样本数据,所述样本数据包括回声估计样本信号、用户语音样本信号、麦克风混合样本信号,其中,所述回声估计样本信号为在第一场景下,通过所述线性自适应滤波算法估计出的回声估计信号;所述用户语音样本信号为第二场景下,通过所述麦克风拾取的信号;所述麦克风混合样本信号为第三场景下,通过所述麦克风拾取的信号;所述第一场景是测试环境中没有用户语音,只有所述扬声器播放第一测试音频信号的场景,所述第二场景是所述扬声器停止工作,测试环境中只存在第一测试用户语音的场景,所述第三场景是测试环境中存在所述第一测试用户语音,并且所述扬声器播放所述第一测试音频信号的场景;
对用户语音样本信号和麦克风混合样本信号进行频域变换,得到用户语音样本频域信号和麦克风混合样本频域信号;
对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分;
计算各个子带上的用户语音样本频域信号的能量;
计算各个子带上的麦克风混合样本频域信号的能量;
根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值,确定该子带的子带增益;
提取回声估计样本信号的特征参数;
提取用户语音样本信号的特征参数;
将回声估计样本信号的特征参数和用户语音样本信号的特征参数输入到神经网络模型中,用已经确定的子带增益作监督,对神经网络模型进行训练。
可选地,所述神经网络模型包括第一至第五网络;
所述将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益,包括:
将所述第一特征和第二特征拼接出的组合特征输入至第一网络中;
将第一网络提取的特征输入至第二网络中,得到语音激活检测数据;
将所述组合特征、第一网络提取的特征、所述语音激活检测数据输入至第三网络中,得到噪声频谱估计数据;
将所述组合特征,语音激活检测数据、噪声频谱估计数据输入至第四网络中,得到增强语音数据;
将增强语音数据输入到第五网络中,得到用户语音信号的增益。
可选地,所述第一网络和所述第五网络分别采用全连接神经网络;所述全连接神经网络采用Tanh激活函数或者Relu激活函数;
所述第二至第四网络分别采用长短记忆网络或者门控循环单元神经网络。
可选地,所述线性自适应滤波算法为下列任一算法:
最小均方算滤波算法;
递归最小均方滤波算法;
归一化最小均方滤波算法。
可选地,所述回声估计信号(y_est)的特征参数,至少包括下列任一特征参数
美尔频域倒谱参数;
bark频域倒谱参数;
LPC倒谱参数。
可选地,所述误差信号(e)的特征参数,至少包括下列任一特征参数:
倒谱参数;
基音参数;
感知线性预测参数;
幅度调制谱参数。
根据本发明说明书公开的第二方面,提供了语音激活方法,包括前述任一项所述的回声消除方法;还包括:
检测所述用户语音信号是否为预设的唤醒词,如果是,则唤醒音频装置。
根据本发明说明书公开的第三方面,提供了回声消除装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。
根据本发明说明书公开的第四方面,提供了音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。
根据本发明说明书公开的第五方面,提供了音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的语音激活方法。
根据本发明说明书公开的第六方面,提供了计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一项所述的回声消除方法。
根据本发明说明书公开的第七方面,提供了计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一项所述的语音激活方法。
本发明实施例公开的回声消除方法,先采用自适应滤波算法对回声信号进行估计,再利用预先训练好神经网络模型根据回声估计信号和误差信号估算信号增益,利用信号增益得到用户语音信号,这一过程能够消除回声信号的线性部分和非线性部分的影响,准确提取出用户语音信号。
以下参照附图对本说明书的示例性实施例的详细描述,本说明书的实施例的特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书实施例的原理。
图1是本说明书一个实施例提供的回声消除方法的示意图;
图2是本说明书另一个实施例提供的神经网络模型的示意图。
图3是本说明书另一个实施例提供的神经网络模型的训练过程的示意图。
具体实施方式
现在将参照附图来详细描述本说明书的各种示例性实施例。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本说明书实施例及其应用或使用的任何限制。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<回声消除方法>
参见图1所示,说明本发明实施例的回声消除系统:
音频装置具有扬声器100和麦克风200。
待播放的音频信号in经过智能功放提升增益后,输出第一音频信号x,将第一音频信号x输入至扬声器100进行播放。麦克风200拾取到的信号为第二音频信号d,如果用户处于说话状态,第二音频信号d中包含扬声器播放第一音频信号x导致的回声信号y,还包含用户语音信号s。
本发明实施例的目的在于消除回声信号y的影响,从麦克风拾取到的第二音频信号d中尽可能准确提取出用户语音信号s,也就是说,希望回声消除系统经过回声消除处理以后最终输出的用户语音信号out尽可能趋近于用户语音信号s。为了达到这一目的,采用线性自适应滤波算法和预先训练好的神经网络进行回声消除,提取用户语音信号的工作。
下面说明本发明一个实施例提供的回声消除方法,对上述同时具有扬声器和麦克风的音频装置实施,该音频装置例如可以为智能音箱。该实施例提供的回声消除方法包括步骤S202-S212。
S202、获取第一音频信号x和第二音频信号d,第一音频信号x为输入至扬声器的信号,第二音频信号d为麦克风拾取的信号。
第二音频信号d中包含扬声器播放第一音频信号x导致的回声信号y,在用户说话状态下,还包含用户语音信号s。
S204、根据第一音频信号x和误差信号e,采用线性自适应滤波算法对第一音频信号x导致的回声信号y进行估计,得到回声估计信号y_est。
将第一音频信号x和误差信号e输入至线性自适应滤波器中,由线性自适应滤波器输出回声估计信号y_est,线性自适应滤波器采用线性自适应滤波算法。误差信号e为第二音频信号d和回声估计信号y_est之间的差值信号,用第二音频信号d减去线性自适应滤波器输出的回声估计信号y_est得到误差信号e,即,e=d-y_est。
根据第一音频信号x和误差信号e求解迭代滤波器的权重系数。在一个具体的例子中,滤波器权重系数根据以下公式进行更新:
其中,w(n+1)是迭代后的权重系数,w(n)是迭代前的权重系数;x(n)是第一音频信号x的时域表达形式,xT(n)是x(n)的共轭;e(n)是误差信号e的时域表达形式;δ为调节参数,是一小量;μn是调节参数,为一小量,0<μn<2。
由于线性自适应滤波算法只能估计出回声信号y中的线性部分,因此,误差信号e中含有回声信号y中的非线性部分,在用户说话状态下,还包含用户语音信号s。
在一个具体的例子中,线性自适应滤波器采用的线性自适应滤波算法可以为:
最小均方算滤波算法(Lest Mean Square,LMS),
递归最小均方滤波算法(Algorithm Recursive Least Square,RLMS),
归一化最小均方滤波算法(Algorithm Normalized LMS,NLMS)。
在一个具体的例子中,自适应滤波算法可以在时域后进行,也可以在频域进行。
S206、提取回声估计信号y_est的特征参数作为第一特征。
在一个具体的例子中,回声估计信号y_est的特征参数至少包括下列任一特征参数:
美尔频域倒谱参数(Mel frequency cepstral coefficient,MFCC);
bark频域倒谱参数(Bark Frequency Cepstrum Coefficients,BFCC);
线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)。
S208、提取误差信号e的特征参数作为第二特征。
在一个具体的例子中,误差信号e的特征参数至少包括下列任一特征参数:
倒谱参数;
基音参数;
感知线性预测参数(Perceptual Linear Predictive);
幅度调制谱参数(Amplitudemodulationspectrum,AMS)。
S210、将第一特征和第二特征输入至预先训练好的神经网络模型中,由预先训练好的神经网络模型输出用户语音信号的增益g。
在一个具体的例子中,所述预先训练好的神经网络模型可以采用以下神经网络:
深度神经网络(Deep Neural Networks,DNN);
长短期记忆神经网络(Long Short Term Memory network,LSTM);
门控循环单元神经网络(Gated Recurrent UnitMemory network,GRU);
卷积神经网络(Convolutional Neural Networks,CNN)。
在一个具体的例子中,将第一特征和第二特征预先拼接成组合特征,将组合特征输入至所述预先训练好的神经网络模型中,由预先训练好的神经网络模型输出用户语音信号的增益g。
参见图2所示,在一个具体的例子中,所述预先训练好的神经网络模型包括5个子神经网络,分别为第一网络至第五网络,采用以下架构:第一网络的输出端分别和第二网络的输入端、第三网络的输入端连接;第二网络的输出端分别和第三网络的输入端、第四网络的输入端连接;第三网络的输出端与第四网络的输出端连接;第四网络的输出端与第五网络的输入端连接。
第一网络和第五网络分别采用全连接神经网络,其中,所述全连接神经网络采用Tanh激活函数或者Relu激活函数。第二网络、第三网络、第四网络分别采用长短记忆网络或者门控循环单元神经网络。
将第一特征和第二特征拼接而成的组合特征输入至预先训练好的神经网络模型中,由预先训练好的神经网络模型输出用户语音信号的增益g,包括:
将组合特征输入至第一网络中。
将第一网络提取的特征输入至第二网络中,得到语音激活检测数据。该语音激活检测数据用于表征当前用户是否处于说话状态。
将组合特征、第一网络提取的特征、语音激活检测数据输入至第三网络中,得到噪声的频谱估计数据。
将组合特征、语音激活检测数据、噪声的频谱估计数据输入至第四网络中,得到增强语音数据。
将增强语音数据输入到第五网络中,得到用户语音信号的增益g。
本实施例采用的这种特殊架构的神经网络模型,相对于常规的基于深度神经网络的神经网络模型,可以节省大量计算节点,从而节省计算量和存储空间。
在一个具体的例子中,如果用户没有处于说话状态,第二音频信号d中不包含用户语音信号s,则神经网络输出的增益g趋近于0。
S212、计算误差信号e和增益g的乘积,以得到用户语音信号out。
在一个具体的例子中,用户语音信号的增益g为子带增益。在步骤S212中,对误差信号e进行频域变换;对经过频域变换的误差信号e和子带增益进行频域相乘,对相乘的结果进行频域到时域的反变换得到用户声音信号。
下面说明本发明一个实施例的神经网络的训练过程,该实施例提供的训练过程包括步骤S302-S318。
S302、获取样本数据集。样本数据集中包括多组样本数据。每组样本数据均包括回声估计样本信号y_est_sample、用户语音样本信号s__sample、麦克风混合样本信号d__sample,三者之间具有对应关系。
样本数据通过实测获得,一组样本数据对应一个完整的测试过程。预先准备测试室,音频装置位于测试室内,测试室内还设有仿真嘴。一个完整测试过程包括步骤S702-S708:
S702、预先准备好第一测试音频信号和第一测试用户语音信号。
S704、在第一场景下,也就是在仿真嘴关闭、只将第一测试音频信号输入至音频装置的扬声器播放出来的场景下,利用第一测试音频信号和音频装置的麦克风拾取的信号采用所述线性自适应滤波算法得到回声估计信号y_est_sample,这里的线性滤波算法和前述的线性滤波算法为同样的算法。
S706、在第二场景下,也就是在扬声器停止工作、只将第一测试用户语音信号用仿真嘴播放出来的场景下,将音频装置的麦克风拾取的信号作为用户语音样本信号s__sample,可知,用户语音样本信号s__sample中只含有用户语音。
S708、在第三场景下,也就是在将第一测试音频信号输入至音频装置的扬声器播放出来、并且将第一测试用户语音信号用仿真嘴播放出来的场景下,将音频装置的麦克风拾取的信号作为麦克风混合样本信号d__sample。可知,麦克风混合样本信号d__sample中含有用户语音,也含有回声信号。
S304、对用户语音样本信号s__sample和麦克风混合样本信号d__sample进行频域变换,得到用户语音样本频域信号和麦克风混合样本频域信号。
S306、对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分。在一个实施例中,将人耳可听频段预先划分成十八个子带。
S308、计算各个子带上的用户语音样本频域信号的能量。
S310、计算各个子带上的麦克风混合样本频域信号的能量。
S312、根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值,确定该子带的子带增益。
在一个具体的例子中,子带增益为该子带对应的所述比值的二分之一次方。
S314、提取回声估计样本信号y_est_sample的特征参数。
S316、提取用户语音样本信号s__sample的特征参数。
S318、参见图3所示,将回声估计样本信号y_est_sample的特征参数作为第一特征,将用户语音样本信号s__sample的特征参数作为第二特征,输入到神经网络模型中,用步骤S612确定的子带增益作监督,对神经网络模型进行训练,使得神经网络模型输出的子带增益不断接近作为监督的子带增益。当神经网络模型输出的子带增益与作为监督的子带增益之间的误差小于预设阈值时,认为训练成功。
在一个具体的例子中,还可以提取麦克风混合样本信号d__sample的特征参数作为第三特征,在步骤S618中,将回声估计样本信号y_est_sample的特征参数、用户语音样本信号s__sample的特征参数、麦克风混合样本信号d__sample的特征参数输入到神经网络模型中,用已经确定的子带增益作监督,对神经网络模型进行训练。与之对应的,在步骤S210之前,提取第二音频信号d的特征参数作为第三特征,将回声估计信号y_est的特征参数、误差信号e的特征参数、第二音频信号d的特征参数输入到至预先训练好的神经网络模型中,由预先训练好的神经网络模型输出用户语音信号的子带增益。在这一实施例中,将麦克风拾取到的信号的特征参数也输入到模型中,有利于模型的泛化,使得模型能够适用于不同信噪比的环境。
本发明实施例公开的回声消除方法,先采用自适应滤波算法对回声信号进行估计,再利用预先训练好神经网络模型根据回声估计信号和误差信号估算信号增益,利用信号增益得到用户语音信号,这一过程能够消除回声信号的线性部分和非线性部分的影响,准确提取出用户语音信号。
申请人对本发明实施例公开的回声消除方法进行了大量实验验证,实验结果表明,本发明实施例公开的回声消除方法可以很好地消除线性自适应滤波后的残留噪声,准确提取出用户语音信号。
<语音激活方法>
本发明实施例提供了一种语音激活方法,包括前述任一实施例所述的回声消除方法,还包括以下步骤:
检测所述用户语音信号是否为预设的唤醒词,如果是,则唤醒音频装置。
本发明实施例公开的语音激活方法,在回声干扰较大的情况下,依然能够准确提取出用户语音信号来进行唤醒词识别。
<回声消除装置>
本发明实施例提供了一种回声消除装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一实施例的回声消除方法。
<音频装置>
本发明实施例提供了一种音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一实施例的回声消除方法。
本发明实施例提供了一种音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一实施例的语音激活方法。
<计算机可读存储介质>
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一实施例的回声消除方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一实施例的语音激活方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对装置、介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书的实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本说明书实施例的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本说明书的实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本说明书实施例的各个方面。
这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本说明书的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (12)
1.一种回声消除方法,其特征在于,包括以下步骤:
获取第一音频信号(x)和第二音频信号(d),所述第一音频信号(x)为输入至扬声器的信号,所述第二音频信号(d)为麦克风拾取的信号;
根据第一音频信号(x)和误差信号(e),采用线性自适应滤波算法对第一音频信号(x)导致的回声信号进行估计,得到回声估计信号(y_est);所述误差信号(e)为第二音频信号(d)和回声估计信号(y_est)之间的差值信号;
提取回声估计信号(y_est)的特征参数作为第一特征;
提取误差信号(e)的特征参数作为第二特征;
将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益(g);
计算误差信号(e)和增益(g)的乘积,以得到用户语音信号。
2.根据权利要求1所述的方法,所述用户语音信号的增益(g)为子带增益;所述计算误差信号(e)和增益(g)的乘积,以得到用户语音信号,包括:
对误差信号(e)进行频域变换;
对经过频域变换的误差信号(e)和子带增益进行频域相乘,对相乘的结果进行频域到时域的反变换得到用户声音信号。
3.根据权利要求2所述的方法,所述神经网络模型的训练过程包括:
获取样本数据,所述样本数据包括回声估计样本信号(y_est_sample)、用户语音样本信号(s__sample)、麦克风混合样本信号(d__sample),其中,所述回声估计样本信号(y_est_sample)为在第一场景下,通过所述线性自适应滤波算法估计出的回声估计信号;所述用户语音样本信号(s__sample)为第二场景下,通过所述麦克风拾取的信号;所述麦克风混合样本信号为第三场景下,通过所述麦克风拾取的信号;所述第一场景是测试环境中没有用户语音,只有所述扬声器播放第一测试音频信号的场景,所述第二场景是所述扬声器停止工作,测试环境中只存在第一测试用户语音的场景,所述第三场景是测试环境中存在所述第一测试用户语音,并且所述扬声器播放所述第一测试音频信号的场景;
对用户语音样本信号(s__sample)和麦克风混合样本信号(d__sample)进行频域变换,得到用户语音样本频域信号和麦克风混合样本频域信号;
对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分;
计算各个子带上的用户语音样本频域信号的能量;
计算各个子带上的麦克风混合样本频域信号的能量;
根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值,确定该子带的子带增益;
提取回声估计样本信号(y_est_sample)的特征参数;
提取用户语音样本信号(s__sample)的特征参数;
将回声估计样本信号(y_est_sample)的特征参数和用户语音样本信号(s__sample)的特征参数输入到神经网络模型中,用已经确定的子带增益作监督,对神经网络模型进行训练。
4.根据权利要求1所述的方法,所述神经网络模型包括第一至第五网络;
所述将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益(g),包括:
将所述第一特征和第二特征拼接出的组合特征输入至第一网络中;
将第一网络提取的特征输入至第二网络中,得到语音激活检测数据;
将所述组合特征、第一网络提取的特征、所述语音激活检测数据输入至第三网络中,得到噪声频谱估计数据;
将所述组合特征,语音激活检测数据、噪声频谱估计数据输入至第四网络中,得到增强语音数据;
将增强语音数据输入到第五网络中,得到用户语音信号的增益(g)。
5.根据权利要求4所述的方法,所述第一网络和所述第五网络分别采用全连接神经网络;所述全连接神经网络采用Tanh激活函数或者Relu激活函数;
所述第二至第四网络分别采用长短记忆网络或者门控循环单元神经网络。
6.根据权利要求1所述的方法,所述线性自适应滤波算法为下列任一算法:
最小均方算滤波算法;
递归最小均方滤波算法;
归一化最小均方滤波算法。
7.根据权利要求1所述的方法,所述回声估计信号(y_est)的特征参数,至少包括下列任一特征参数
美尔频域倒谱参数;
bark频域倒谱参数;
LPC倒谱参数。
8.根据权利要求1所述的方法,所述误差信号(e)的特征参数,至少包括下列任一特征参数:
倒谱参数;
基音参数;
感知线性预测参数;
幅度调制谱参数。
9.一种语音激活方法,包括根据权利要求1-8任一项所述的回声消除方法;还包括:
检测所述用户语音信号是否为预设的唤醒词,如果是,则唤醒音频装置。
10.一种回声消除装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现权利要求1-8任一项所述的方法。
11.一种音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现权利要求1-9任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911420690.5A CN111161752B (zh) | 2019-12-31 | 2019-12-31 | 回声消除方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911420690.5A CN111161752B (zh) | 2019-12-31 | 2019-12-31 | 回声消除方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111161752A true CN111161752A (zh) | 2020-05-15 |
| CN111161752B CN111161752B (zh) | 2022-10-14 |
Family
ID=70560487
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911420690.5A Active CN111161752B (zh) | 2019-12-31 | 2019-12-31 | 回声消除方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111161752B (zh) |
Cited By (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111726464A (zh) * | 2020-06-29 | 2020-09-29 | 珠海全志科技股份有限公司 | 一种多通道回声滤除方法、滤除装置和可读存储介质 |
| CN111816177A (zh) * | 2020-07-03 | 2020-10-23 | 北京声智科技有限公司 | 电梯的语音打断控制方法、装置及电梯 |
| CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
| CN111883154A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
| CN111883155A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法、装置及存储介质 |
| CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
| CN112614502A (zh) * | 2020-12-10 | 2021-04-06 | 四川长虹电器股份有限公司 | 基于双lstm神经网络的回声消除方法 |
| CN112634923A (zh) * | 2020-12-14 | 2021-04-09 | 广州智讯通信系统有限公司 | 基于指挥调度系统的音频回声消除方法、设备、存储介质 |
| CN112634933A (zh) * | 2021-03-10 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种回声消除方法、装置、电子设备和可读存储介质 |
| CN112712816A (zh) * | 2020-12-23 | 2021-04-27 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
| CN112750449A (zh) * | 2020-09-14 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、终端、服务器及存储介质 |
| CN112863535A (zh) * | 2021-01-05 | 2021-05-28 | 中国科学院声学研究所 | 一种残余回声及噪声消除方法及装置 |
| CN113077812A (zh) * | 2021-03-19 | 2021-07-06 | 北京声智科技有限公司 | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
| CN113257267A (zh) * | 2021-05-31 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 干扰信号消除模型的训练方法和干扰信号消除方法及设备 |
| CN113362819A (zh) * | 2021-05-14 | 2021-09-07 | 歌尔股份有限公司 | 语音提取方法、装置、设备、系统及存储介质 |
| CN113421579A (zh) * | 2021-06-30 | 2021-09-21 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
| CN113707166A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、计算机设备和存储介质 |
| CN113763977A (zh) * | 2021-04-16 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 消除回声信号的方法、装置、计算设备和存储介质 |
| CN113823304A (zh) * | 2021-07-12 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法、装置、电子设备及可读存储介质 |
| CN114171049A (zh) * | 2021-12-24 | 2022-03-11 | 上海领世通信技术发展有限公司 | 回声抵消方法及装置、电子设备及存储介质 |
| CN114242106A (zh) * | 2020-09-09 | 2022-03-25 | 中车株洲电力机车研究所有限公司 | 一种语音处理方法及其装置 |
| CN114758669A (zh) * | 2022-06-13 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
| CN115762552A (zh) * | 2023-01-10 | 2023-03-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 训练回声消除模型的方法、回声消除方法及对应装置 |
| CN118972744A (zh) * | 2024-07-01 | 2024-11-15 | 浙江未来精灵人工智能科技有限公司 | 一种音频信号的处理方法、装置、系统和智能音箱设备 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
| CN108665895A (zh) * | 2018-05-03 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法、装置和系统 |
| EP3474280A1 (en) * | 2017-10-19 | 2019-04-24 | Nxp B.V. | Signal processor for signal enhancement and associated methods |
| US20190132452A1 (en) * | 2017-10-31 | 2019-05-02 | Cisco Technology, Inc. | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications |
| CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
-
2019
- 2019-12-31 CN CN201911420690.5A patent/CN111161752B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
| EP3474280A1 (en) * | 2017-10-19 | 2019-04-24 | Nxp B.V. | Signal processor for signal enhancement and associated methods |
| US20190132452A1 (en) * | 2017-10-31 | 2019-05-02 | Cisco Technology, Inc. | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications |
| CN108665895A (zh) * | 2018-05-03 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法、装置和系统 |
| CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
Non-Patent Citations (2)
| Title |
|---|
| ZIYUE ZHAO 等: ""Nonlinear Prediction of Speech by Echo State Networks"", 《2018 26TH EUROPEAN SIGNAL PROCESSING CONFERENCE 》 * |
| 陈林: ""会议电话中的实时回声消除算法研究与实现"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111726464A (zh) * | 2020-06-29 | 2020-09-29 | 珠海全志科技股份有限公司 | 一种多通道回声滤除方法、滤除装置和可读存储介质 |
| CN111816177A (zh) * | 2020-07-03 | 2020-10-23 | 北京声智科技有限公司 | 电梯的语音打断控制方法、装置及电梯 |
| CN111883155B (zh) * | 2020-07-17 | 2023-10-27 | 海尔优家智能科技(北京)有限公司 | 回声消除方法、装置及存储介质 |
| CN111883155A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法、装置及存储介质 |
| CN111883154A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
| CN111883154B (zh) * | 2020-07-17 | 2023-11-28 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
| CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
| CN111885275B (zh) * | 2020-07-23 | 2021-11-26 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
| CN111833896B (zh) * | 2020-07-24 | 2023-08-01 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
| CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
| CN114242106A (zh) * | 2020-09-09 | 2022-03-25 | 中车株洲电力机车研究所有限公司 | 一种语音处理方法及其装置 |
| CN112750449B (zh) * | 2020-09-14 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、终端、服务器及存储介质 |
| CN112750449A (zh) * | 2020-09-14 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、终端、服务器及存储介质 |
| CN112614502A (zh) * | 2020-12-10 | 2021-04-06 | 四川长虹电器股份有限公司 | 基于双lstm神经网络的回声消除方法 |
| CN112614502B (zh) * | 2020-12-10 | 2022-01-28 | 四川长虹电器股份有限公司 | 基于双lstm神经网络的回声消除方法 |
| CN112634923B (zh) * | 2020-12-14 | 2021-11-19 | 广州智讯通信系统有限公司 | 基于指挥调度系统的音频回声消除方法、设备、存储介质 |
| CN112634923A (zh) * | 2020-12-14 | 2021-04-09 | 广州智讯通信系统有限公司 | 基于指挥调度系统的音频回声消除方法、设备、存储介质 |
| CN112712816A (zh) * | 2020-12-23 | 2021-04-27 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
| CN112712816B (zh) * | 2020-12-23 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
| CN112863535A (zh) * | 2021-01-05 | 2021-05-28 | 中国科学院声学研究所 | 一种残余回声及噪声消除方法及装置 |
| CN112634933A (zh) * | 2021-03-10 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种回声消除方法、装置、电子设备和可读存储介质 |
| CN112634933B (zh) * | 2021-03-10 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 一种回声消除方法、装置、电子设备和可读存储介质 |
| CN113077812A (zh) * | 2021-03-19 | 2021-07-06 | 北京声智科技有限公司 | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
| CN113707166A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、计算机设备和存储介质 |
| CN113707166B (zh) * | 2021-04-07 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、计算机设备和存储介质 |
| CN113763977A (zh) * | 2021-04-16 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 消除回声信号的方法、装置、计算设备和存储介质 |
| CN113362819A (zh) * | 2021-05-14 | 2021-09-07 | 歌尔股份有限公司 | 语音提取方法、装置、设备、系统及存储介质 |
| CN113257267A (zh) * | 2021-05-31 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 干扰信号消除模型的训练方法和干扰信号消除方法及设备 |
| CN113421579A (zh) * | 2021-06-30 | 2021-09-21 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
| CN113421579B (zh) * | 2021-06-30 | 2024-06-07 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
| CN113823304A (zh) * | 2021-07-12 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法、装置、电子设备及可读存储介质 |
| CN114171049A (zh) * | 2021-12-24 | 2022-03-11 | 上海领世通信技术发展有限公司 | 回声抵消方法及装置、电子设备及存储介质 |
| CN114171049B (zh) * | 2021-12-24 | 2024-09-17 | 上海领世通信技术发展有限公司 | 回声抵消方法及装置、电子设备及存储介质 |
| CN114758669B (zh) * | 2022-06-13 | 2022-09-02 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
| CN114758669A (zh) * | 2022-06-13 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
| CN115762552A (zh) * | 2023-01-10 | 2023-03-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 训练回声消除模型的方法、回声消除方法及对应装置 |
| CN118972744A (zh) * | 2024-07-01 | 2024-11-15 | 浙江未来精灵人工智能科技有限公司 | 一种音频信号的处理方法、装置、系统和智能音箱设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111161752B (zh) | 2022-10-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111161752B (zh) | 回声消除方法和装置 | |
| CN112700786B (zh) | 语音增强方法、装置、电子设备和存储介质 | |
| CN107481728B (zh) | 背景声消除方法、装置及终端设备 | |
| CN106409289B (zh) | 语音识别的环境自适应方法、语音识别装置和家用电器 | |
| JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
| CN111477238B (zh) | 一种回声消除方法、装置及电子设备 | |
| CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
| CN108899047A (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
| CN113990343B (zh) | 语音降噪模型的训练方法和装置及语音降噪方法和装置 | |
| CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
| Eklund | Data augmentation techniques for robust audio analysis | |
| CN110931040B (zh) | 过滤由语音识别系统获取的声音信号 | |
| CN114333874B (zh) | 处理音频信号的方法 | |
| EP4350695A1 (en) | Apparatus, methods and computer programs for audio signal enhancement using a dataset | |
| Chen et al. | CITISEN: A deep learning-based speech signal-processing mobile application | |
| WO2021152566A1 (en) | System and method for shielding speaker voice print in audio signals | |
| CN109741761B (zh) | 声音处理方法和装置 | |
| CN105529034A (zh) | 一种基于混响的语音识别方法和装置 | |
| JP2019035862A (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
| Singh | pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling. | |
| Han et al. | Reverberation and noise robust feature compensation based on IMM | |
| JP2015049406A (ja) | 音響信号解析装置、方法、及びプログラム | |
| Berdibayeva et al. | Features of speech commands recognition using an artificial neural network | |
| Kamarudin et al. | Acoustic echo cancellation using adaptive filtering algorithms for Quranic accents (Qiraat) identification | |
| JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |