CN102347028A

CN102347028A - 双麦克风语音增强装置及方法

Info

Publication number: CN102347028A
Application number: CN201110196850XA
Authority: CN
Inventors: 叶利剑
Original assignee: Ruisheng Acoustic Technology Changzhou Co ltd; AAC Acoustic Technologies Shenzhen Co Ltd; AAC Acoustic Technologies Nanjing Co Ltd
Current assignee: Ruisheng Acoustic Technology Changzhou Co ltd; AAC Technologies Holdings Shenzhen Co Ltd; AAC Technologies Holdings Nanjing Co Ltd
Priority date: 2011-07-14
Filing date: 2011-07-14
Publication date: 2012-02-08

Abstract

本发明提供了一种双麦克风语音增强装置，包括双麦克风阵列模块、时延补偿模块、倒谱域去混响模块、语音增强处理模块及输出模块，其中，倒谱域去混响模块起到了去除混响的效果。本发明还提供了一种基于双麦克风语音增强装置的语音增强方法。本发明采用倒谱域模块进行波束形成和低通滤波，能较好地消除房间混响的影响，同时使用语音增强算法，则可以进一步抑制背景噪声。

Description

双麦克风语音增强装置及方法

【技术领域】

本发明涉及一种语音增强装置及方法，尤其涉及一种基于双麦克风语音增强装置及方法。

【背景技术】

随着通讯技术的发展，用户对通信设备的要求已不仅满足于通话，而且要能够提供高质量的通话效果，尤其是目前可视化技术的发展，电话的通话质量更显重要。通过各种语音增强方法提高通话质量，已经是通信设备中必不可少的组成部分。

近年来，电话会议在人们工作中的比重急剧上升，越发重要。然而，在电话会议的房间中，虽然室内安静，噪声不大，但房间混响则是一直存在且对电话会议有很大干扰的。相关技术的语音增强装置通常采用一个或两个一致性较好的麦克风，相互间距一定情况下，形成指向性拾音波束，抑制波束外噪声，再通过语音增强处理进一步消除背景噪声。这仅采用加性噪声的信号模型，没有考虑房间混响效应

因此，有必要提供一种新的语音增强装置及方法来克服上诉问题。

【发明内容】

本发明需解决的技术问题是提供一种能消除房间混响噪声的双麦克风阵列语音增强装置及方法。

本发明的技术方案如下：。

一种基于双麦克风语音增强装置，其中，该装置包括：

麦克风阵列模块，设有用于接收时域带噪语音信号，并将该时域带噪语音信号经过模数转换生成数字信号，以将其输出的第一麦克风和第二麦克风；

时延补偿模块，用于接收所述麦克风阵列模块输出的时域带噪语音数字信号，通过广义互相关发估计两个麦克风信号的相对时延，并对接收到的信号进行补偿；

倒谱域去混响模块，用于接收所述时延补偿模块输出的时延补偿后的时域带噪语音信号，将接收到的上述时域带噪语音信号在倒谱域进行波束合成低通滤波，以去除信号中的混响，并获得初步降噪的信号；

语音增强处理模块，用于接收倒谱域去混响模块输出的初步降噪的信号并将该初步降噪的信号进行语音增强处理，以得到进一步加强的语音信号；

输出模块，用于接收语音增强处理模块输出的进一步加强的语音信号并输出。

作为本发明的一种改进，所述麦克风阵列模块中经模数转换输出的数字信号的采样率为16kHz，分辨率为16bit。

作为本发明的一种改进，所述麦克风阵列模块中的第一麦克风和第二麦克风是全指向麦克风。

作为本发明的一种改进，该方法包括如下步骤：

步骤S001：第一麦克风和第二麦克风接收到时域带噪语音信号分别为x1、x2，经过模数转换将时域带噪语音信号x1、x2变为时域带噪语音数字信号传送给时延补偿模块，并由延补偿模块对接收到的时域带噪语音数字信号进行时延估计和补偿，得到同步信号x′₁，x′₂；

步骤S002：由倒谱域去混响模块接受时延补偿模块输出的同步信号x′₁，x′₂，并对该信号在倒谱域上进行波束合成低通滤波，去除信号中的混响，获得初步降噪的信号，并对所述初步降噪的信号分为m帧、进行预加重处理，傅里叶变换成频域信号X₁，X₂，

计算两路信号的复倒谱

并分解求得各自的最小相位分量

将两路信号的倒谱域最小相位分量进行波束形成，得到

并经过低通滤波，得到倒谱域的去除混响后的信号

结合由第一麦克风得到的相位信息Φ₁(m，k)，计算频域的去除混响初步降噪信号Y；

步骤S003：语音增强处理模块接收倒谱域去混响模块输出的去除混响的初步降噪频域信号Y，并将频域信号划分为若干频带k，计算各个频带的能量Y_E(m，k)，其中m表示帧数，k为频带数；

设初始的噪声能量估计值V(0，k)＝0，初始的先验信噪比估计值

S \hat{N} R_{prior} (0, k) = 0;

由各频带的能量Y_E(m，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比SNR_post(m，k)，并由前一帧的先验信噪比估计值

得到当前帧的先验信噪比估计值

采用计权噪声估计法对当前帧的先验信噪比进行修正，得到修正先验信噪比估计值

根据得到的修正先验信噪比估计值

计算各个频带的衰减增益系数q(m，k)；

采用门限判决对所述衰减增益系数进行调整；

用得到的调整后的衰减增益系数q′(m，k)，对初步降噪后信号Y(m，k)的频谱进行处理；

由修正的先验信噪比估计值

对当前帧进行判断，判断当前帧是否是噪声；

根据噪声判决结果对各频带的噪声能量估计值V(m，k)进行更新，如果判断为噪声，则噪声能量估计值等于前一帧的值：V(m，k)＝V(m-1，k)，否则采用频带能量Y_E(m，k)，对噪声能量估计值V(m，k)进行更新；

将经上述过程处理后的频域信号变换成时域信号，对该时域信号进行去加重处理，并输出；

步骤S004：将上述经去加重处理的时域信号输出。

作为本发明的一种改进，步骤S001中，由时延补偿模块对第一麦克风和第二麦克风分别接收的外界时域带噪语音信号分别经过延时补偿，

将两路信号x₁(n)，x₂(n)进行傅里叶变换到频域X₁(ω)，X₂(ω)，两个麦克风的相对时延τ通过广义互相关得到，

R_{12} (τ) = {&Integral;}_{0}^{π} ψ_{12} (ω) X_{1} (ω) X_{2}^{*} (ω) e^{- jωπ} dω

其中加权函数

ψ_{12} (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |},

求解出时相对时延τ，可得到延补偿后的信号x′₁(t)＝x1(t)，x′₂(t)＝x2(t+τ)作为本发明的一种改进，步骤S002中，对两路经过时延补偿的信号进行分帧，预加重，并转换到频域。

语音增强处理模块对所述两路时延补偿后的信号x′₁(t)，x′₂(t)进行分帧后的信号为x′_i(m，n)i＝1，2，m表示帧数，经过一个高通滤波器，作为预加重处理，高通滤波器其形式如下：

H(z)＝1-αz^-1

其中常数α＝0.9325，z代表

短时傅里叶变换如下

X_{i} (f, m) = \frac{2}{M} Σ_{n = 0}^{M - 1} win (n - m) \times x_{i} (m) e^{- 2 πif \frac{n}{M}}

0≤k1≤M-1

其中，M为短时傅利叶变换的计算长度，m表示第m帧信号，f表示频率值，X表示频域信号，x表示时域信号；

汉明窗函数定义如下：

win(n)＝{

0.54-0.46cos(2*π*n/M) 0≤n≤M-1

0 其余n

}

计算信号的复倒谱

复倒谱的计算定义为

k＝2πf/c

接着求两路信号各自的最小相位分量。

其中Φ_Min(m，n)是

的希尔伯特变换。

将两路信号的倒谱域最小相位分量进行波束形成，这里采用比较简单的固定波束形成。

并对其进行低通滤波，去除混响。

其中H(n)为低通滤波器，其滤波器系数需根据实际情况确定。

变换到频域

由于人耳对语音相位不敏感，可以用一路麦克风采集到信号的相位Φ₁(m，ω)，代替波束形成后信号的相位信息。

Φ_{1} (m, ω) = \arg [\frac{Real [X (m, ω)]}{Imag [X (m, ω)]}]

将两者结合，得到初步降噪的频域信号Y，并输出

Y(m，ω)＝|X′_min(m，ω)]|∠Φ₁(m，ω)

作为本发明的一种改进，步骤S003中，采用如下方法计算每个频带的能量并进行平滑：

E(m，k)＝|Y(m，k)|² 0≤k≤N-1

Y_E(m，k)＝αY_E(m-1，k)+(1-α)E(m，k) 0≤k≤N-1

其中，Y_E(m，k)表示经平滑后的每个频带区间的能量，m表示当前帧的序号，k表示当前的子带的序号，α＝0.75表示平滑因子；N为选取的频带总数，E(m，k)表示频带能量值，X(m，k)表示第m帧第k个频带的频域信号；

S \hat{N} R_{prior} (0, k) = 0;

由各频带的能量Y_E(m，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比

并由前一帧的先验信噪比估计值

得到当前帧的先验信噪比估计值；

表示前一帧最后得到的降噪后语音信号，E{[V(m，k)|²}表示噪声能量估计值，，α为平滑系数；

采用计权噪声估计法对先验信噪比估计值进行修正；

先验信噪比估计值

乘以计权因子去q_θ，得到修正先验信噪比估计值

计权因子计算如下

其中γ₁取1.5左右，γ₂取200，θ_z取20；

根据得到的修正先验信噪比估计值

计算各个频带的衰减增益q(m，k)；

其具体方法为

其中，对于不同频带，a为不同的常数；

采用门限判决对所述衰减增益进行调整；

首先以当前帧先验信噪比为判断，小于某一阈值频带的增益系数均乘以某一调整值q_mod，这样做可以进一步抑制噪声，

接着将所有小于某阀值的增益系数调整到门限值q_floor，这样做可以避免一定的语音失真；

方法如下：

其中q_mod＝0.1，θ_G＝1.2，q_floor＝0.01

将当前帧的各频带的带噪语音信号Y(m，k)，乘以前面得到的相应频带的衰减增益，得到的就是该频带的增强后的语音信号

\hat{S} (m, k) = q (m, k) * Y (m, k)

0≤k≤N-1

由修正的先验信噪比估计值

对当前帧进行判断，判断当前帧是否是噪声；

根据噪声判决结果对各频带的噪声能量估计值进行更新，如果判断为噪声，则噪声能量估计值等于前一帧的值V(m，k)＝V(m-1，k)，否则采用频带能量Y_E(m，k)，对噪声能量估计值V(m，k)进行更新；

V(m，k)＝μV(m-1，k)+(1-μ)E(m，k)

μ表示平滑系数。

将经上述过程处理后的频域信号用前面所述短时傅里叶变换变换成时域信号，将该时域信号经过低通滤波器，H(z)＝1+αz^-1进行去加重处理，并输出。

本发明采用双麦克风阵列，首先将采集到的信号经过时延补偿后，变换到倒谱域，采用广义旁瓣抵消器，在倒谱域进行波束形成，滤除混响的影响，并初步抑制非相关噪声，接着通过单通道语音增强算法，进一步衰减各类型的背景噪声。大大提高了对噪声的衰减，保证了语音清晰度。

【附图说明】

图1是本发明双麦克风语音增强方法的流程示意图的前半部分；

图2是本发明双麦克风语音增强方法的流程示意图的后半部分，图1和图2的结合是本发明双麦克风语音增强方法的总流程示意图；

图3是本发明提供的倒谱分析的双麦克风语音增强装置的结构框图；

图4是非线性计权曲线。

【具体实施方式】

下面结合附图和实施方式对本发明作进一步说明。

如图1至图4所示，本发明的双麦克风的语音增强装置包括：

其中，麦克风阵列模块中经模数转换输出的数字信号的采样率为16kHz，分辨率为16bit。所述麦克风阵列模块中的第一麦克风和第二麦克风是全指向麦克风。

本发明中的降噪算法基本步骤如下：

1.对双麦克风接收到的两路信号经过时延补偿后，分帧，预加重处理后转换到倒谱域；

2.在倒谱域求出信号的最小相位分量；

3.在倒谱域进行波束形成，再经过低通滤波处理，滤除混响成分，得到去除混响的初步降噪频域信号；

4.将去除混响的初步降噪频域信号划分为若干频带，计算各个频带能量并进行平滑，得到经平滑后的每个频带内的信号能量；

5.通过信号能量及噪声能量估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值；

6.对得到的先验信噪比估计值，采用计权噪声估计法进行修正；

7.根据得到的修正先验信噪比估计值，计算各个频带的衰减增益因子；

8.采用门限判决对增益系数进行调整；

9.用得到的衰减增益，对划分到个频带的信号频谱进行处理；

10.由修正的先验信噪比估计值对当前帧进行判决，判断是否是噪声；

11.根据噪声判决结果对各频带的噪声估计值进行更新；

12.将处理后的频域信号变换到时间域，进行去加重处理，变成输出信号。

下面具体的实例介绍中，语音增强系统输入的噪语音信号的采样率为16kHZ，分辨率为16位。

首先输入的两路信号，经过时延估计及补偿，使传到两个麦克风的信号有相同幅度与相位，时延估计采用广义互相关法。

将两路信号x₁(n)，x₂(n)进行傅里叶变换到频域X₁(ω)，X₂(ω)，两个麦克风的相对时延τ，则x₁(n)，x₂(n)的广义互相关为，

R_{12} (τ) = {&Integral;}_{0}^{π} ψ_{12} (ω) X_{1} (ω) X_{2}^{*} (ω) e^{- jωπ} dω

其中加权函数

ψ_{12} (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |} .

求解出时相对时延τ，可得到延补偿后的信号

其中，x′₁(t)＝x1(t)，x′₂(t)＝x2(t+τ)

对进行时延补偿后的信号x′₁(t)，x′₂(t)进行分帧。是指将带噪语音信号以帧为单位等分成若干带噪信号单元。所述带噪信号单元由采样点组成，本发明中选取了16kHz的采样频率，根据短时谱分析的需要，帧长一般设定成10～35ms之间，本实施方式以16ms分帧，即一帧带噪信号单元设有256个采样点，自然地，任意一帧带噪信号单元具有一定的帧长，本发明中任意帧的帧长为256。

为了防止相邻两帧的带噪信号单元间的块效应，在分帧时要使相邻两帧的带噪信号单元之间有一定的混叠部分，即，本帧数据中有D个数据为前一帧数据的部分数据，其中混叠部分描述如下：

s_i(n)＝x’_i(m，D+n) 0≤n＜L，i＝1，2

其中s_i表示输入带噪语音信号，i取1和2分别表示两路信号

x’_i(m，n)＝x’_i(m-1，L+n) 0≤n＜D

其中，d_i表示当前帧的256点采样信号，因为任意一帧的长度为256，重叠率为75％，所以重叠部分的采样点个数D＝192。相邻帧的带噪信号单元的第一个采样点相隔的距离L＝256-192＝64。

本发明相邻两帧的带噪信号单元之间可以具有50％～75％的重叠率。本实施方式选取相邻两帧的带噪信号单元之间具有75％的重叠率，即以本帧的前75％(192点)的带噪信号单元和前一帧后75％(192点)的带噪语音信号单元一致。

分帧后的信号，经过一个高通滤波器，作为预加重处理。由于语音信号中背景噪声在低频部分能量一般较大，所以使用所述高通滤波器可以衰减低频部分的分量，使增强效果更好。其形式如下：

H(z)＝1-αz^-1

α一般取值在0.75-0.95之间，这里α＝0.9，可以取得较好的效果。

由于语音信号是短时平稳的，所以对信号进行分帧处理是可行的，但分帧又会带来帧信号边界处的不连续造成的频率泄露。所以这里要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时，减少帧信号边界处的不连续造成的频率泄露。这里使用了一个长度等于帧长256点的汉明窗，它可以有效的降低吉布斯效应的震荡程度。

汉明窗函数定义如下：

win(n)＝{

0.54-0.46cos(2*π*n/M) 0≤n≤M-1

0 其余n

}

则短时傅里叶变换如下

X_{i} (f, m) = \frac{2}{M} Σ_{n = 0}^{M - 1} win (n - m) \times x_{i} (m) e^{- 2 πif \frac{n}{M}}

0≤k1≤M-1

其中，M＝256，为短时傅利叶变换的计算长度。m表示第m帧信号。

这样就将当前帧的带噪语音信号x_i从时域变换到为频域信号X_i。

接着计算两路信号的复倒谱。复倒谱是指时域信号做傅里叶变换后，取对数再做逆傅里叶变换。如下，

k＝2πf/c

其中，^表示倒谱算子，F^-1是逆傅里叶变换算子。

接着求两路信号各自的最小相位分量。

其中

是最小相位分量，

是全通分量。

Φ_Min(m，n)是

的希尔伯特变换。

并对其进行低通滤波，去除混响。

其中H(n)为低通滤波器，其滤波器系数需根据实际情况确定。

变换到频域

由于人耳对语音相位不敏感，可以用一路麦克风采集到信号的相位Φ₁(m，ω)，代替信号全通分量的相位信息。

Φ_{1} (m, ω) = \arg [\frac{Real [X (m, ω)]}{Imag [X (m, ω)]}]

将两者结合，得到初步降噪的频域信号Y

Y(m，ω)＝|X′min(m，ω)]|∠Φ1(m，ω)

F为傅里叶变换算子。

变换到频域后的初步降噪语音信号包括语音信号和部分环境噪声信号，将该信号划分为若干频带，之后操作针对不同频带有不同的策略。

对16kHz以下信号进行频带划分，之后的信号处理均在各个频带中进行，这样既可以减少运算复杂度，又可以针对不同的频带做不同的处理，得到更好的效果。

本发明中的信号共划分为30个频带。具体见表1。

表123个频带划分

频带数	起始频率(Hz)	截止频率(Hz)
			1	62.5	93.75
2	125	156.25
			3	187.5	218.75
4	250	281.25
			5	312.5	343.75
6	375	406.25
			7	437.5	468.75
8	500	531.25
			9	562.5	593.75
10	625	656.25
			11	687.5	718.75
12	750	781.25
			13	812.5	906.25
14	937.5	1062.5
			15	1093.75	1250
16	1281.25	1468.75
			17	1500	1718.75
18	1750	2000
			19	2031.25	2312.5
20	2343.75	2687.5
			21	2718.75	3125
22	3156.25	3687.5
			23	3718.75	3968.75
24	4000	4312.5
			25	4343.75	4687.5
26	4718.75	5156.5
			27	5187.5	5718.75
28	5750	6250
			29	6281.25	6875
30	6936.25	7968.75

频带能量估计，用如下公式计算每个子区间的能量并进行平滑：

E(m，k)＝|Y(m，k)|² 0≤k≤N-1

Y_E(m，k)＝αY_E(m-1，k)+(1-α)E(m，k) 0≤k≤N-1

其中，Y(m，k)表示经平滑后的每个频带区间的能量，m表示当前帧的序号，k表示当前的子带的序号，α＝0.75表示平滑因子。N为选取的频带总数，即30。

经平滑后的每个子带区间的能量包括语音能量和噪声能量。

接着，计算当前帧信号的后验信噪比，如下

{SNR}_{post} (m, k) = \frac{Y_{E} (m, k)}{V (k)}

其中V(k)表示当前估计的噪声信号能量，这个值会在每帧数据处理的最后进行判决更新。

然后基于Ephraim-Malah(伊弗雷-马拉)的先验信噪比估计公式，计算当前帧的先验信噪比估计值

基于Ephraim-Malah(伊弗雷-马拉)的先验信噪比估计值，会出现对噪声的过估计，即对于高信噪比的情况下，得到的信噪比估计值偏高，造成增强后的语音失真，这里采用计权噪声估计方法进行修正。

以之前得到的后验信噪比为判断值，参照如图3的非线性函数，得到计权因子，对先验信噪比估计值进行加权处理。

其中γ₁取1.5左右，γ₂取200，θ_z取20。

接下来，进行衰减增益因子的计算。这里基于前面计算得出的先验信噪比估计值，采用频谱相减的方法得到衰减因子。其具体公式如下。

其中，对于不同频带，a为不同的常数。

这里考虑到，噪声主要集中在较低的频带，因此对于中低频段和高频，取不同的a。

本发明中对于k≤14的频带，即1.2kHz以下的信号，a＝8.89

对于14＜k≤18的频带，即1.2～2kHz之间的信号，a＝6.44

对于18＜k≤23的频带，即2～4kHz以上的信号，a＝6.21

对于k＞23的频带，即4kHz以上的信号，a＝5.37

接着，对得到的增益系数进行调整，首先以当前帧先验信噪比为判断，小于某一阈值频带的增益系数均乘以某一调整值q_mod，这样做可以进一步抑制残余噪声。

接着将所有小于某阀值的增益系数调整到门限值q_floor，这样做可以避免一定的语音失真。

可以表示为如下公式：

q^{'} (k) = \{\begin{matrix} q_{\mod} q (k), & ξ (k) < θ_{G} \\ q (k), & otherwise \end{matrix}

q^{'} (k) = \{\begin{matrix} q (k), & q (k) > q_{floor} \\ q_{floor}, & otherwise \end{matrix}

其中q_mod＝0.1，θ_G＝1.2，q_floor＝0.01

将当前帧的各频带的带噪语音信号Y(m，k)，乘以前面得到的相应频带的衰减增益因子，得到的就是该频带的增强后的语音信号。

\hat{S} (k) = q (k) * Y (k)

0≤k≤N-1

其中，N＝30为频带总数，

为第k个频带增强后的语音信号估计值。

本发明中，每个频带的噪声能量的判决与更新采用了基于先验信噪比的语音激活检测(VAD)方法。首先判断当前帧是否是纯噪声信号。

VAD (m) = Σ_{k = 1}^{N} [\frac{γ (m, k) ζ (m, k)}{1 + ζ (m, k)} - \lg (1 + ζ (m, k))]

其中γ(m，k)＝min[SNR_post(m，k)，40]，

对VAD(m)进行判断，并进行噪声更新，如下：

V (m, k) = \{\begin{matrix} μV (m - 1, k) + (1 - μ) E (m,, k) & VAD (m) < η \\ V (m - 1, k) & VAD (m) &GreaterEqual; η \end{matrix}

其中η为噪声更新判决因子，本发明中取η＝0.01。

μ为平滑因子，这里取μ＝0.9。

最后的时域变换及输出部分进行的操作有：

第一步：逆快速傅里叶变换(FFT)，把频域的语音谱变换到时间域，得到增强后的时域语音信号。

时域的变换用通用的逆离散傅利叶变换(IDFT)实现。

s (m, n) = \frac{1}{2} * Σ_{n = 0}^{M - 1} \hat{S} (f) e^{j 2 πnf / M}

0≤k≤M-1

其中，M＝256，为帧长。s为变换到时域后的全频带增强后的语音信号。

第二步：进行去加重处理。

和前面的预加重处理相反，这里将信号通过一个低通滤波器，最大程度的还原原有的信号。滤波器的频响如下；

H(z)＝1+αz^-1

这里的系数与前面预加重处理相对应，取α＝0.9。

第三步：将增强后的语音信号的相邻帧的重叠部分进行相加操作。

具体的重叠部分相加可以用如下的方法来表示。

s^{'} (n) = \{\begin{matrix} s (m, n) + s (m - 1, n + L) & 0 \leq n < M - L \\ s (m, n) & M - L \leq n < M \end{matrix}

L＝64为相邻的帧信号开始处的距离，M＝256，为帧长。s’代表完成相加操作后的最终输出信号。

与相关技术比较，本发明降噪的方法与现有的算法相比，使用双麦克风阵列，采用广义旁瓣抵消器，波束形成初步抑制非相关噪声，并通过从语音增强算法，进一步衰减各类型的背景噪声。与现有技术相比，大大提高了对残余噪声的衰减，保证了语音可懂度。经主客观测试，性能优于现有单通道语音增强算法。

本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种双麦克风语音增强装置，其特征在于：该装置包括：

麦克风阵列模块，设有用于接收时域带噪语音信号，并将该时域带噪语音信号经过模数转换生成数字信号，以将该数字信号输出的第一麦克风和第二麦克风；

倒谱域去混响模块，用于接收所述时延补偿模块输出的时延补偿后的时域带噪语音数字信号，将接收到的上述时域带噪语音信号在倒谱域进行波束合成低通滤波，以去除信号中的混响，并获得初步降噪的信号；

2.根据权利要求1所述的双麦克风语音增强装置，其特征在于：所述麦克风阵列模块中经模数转换输出的数字信号的采样率为16kHz，分辨率为16bit。

3.根据权利要求2所述的双麦克风语音增强装置，其特征在于：所述麦克风阵列模块中的第一麦克风和第二麦克风是全指向麦克风。

4.一种基于权利要求1所述的双麦克风语音增强方法，其特征在于：该方法包括如下步骤：

计算两路信号的复倒谱

并分解求得各自的最小相位分量

将两路信号的倒谱域最小相位分量进行波束形成，得到

并经过低通滤波，得到倒谱域的去除混响后的信号

S \hat{N} R_{prior} (0, k) = 0;

得到当前帧的先验信噪比估计值

根据得到的修正先验信噪比估计值

计算各个频带的衰减增益系数q(m，k)；

采用门限判决对所述衰减增益系数进行调整；

由修正的先验信噪比估计值对当前帧进行判断，判断当前帧是否是噪声；

步骤S004：将上述经去加重处理的时域信号输出。

5.根据权利要求4所述的双麦克风语音增强方法，其特征在于：

步骤S001中，由时延补偿模块对第一麦克风和第二麦克风分别接收的外界时域带噪语音信号分别经过延时补偿，

R_{12} (τ) = {&Integral;}_{0}^{π} ψ_{12} (ω) X_{1} (ω) X_{2}^{*} (ω) e^{- jωπ} dω

其中加权函数

ψ_{12} (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |},

求解出时相对时延τ，可得到延补偿后的信号x′₁(t)＝x1(t)，x′₂(t)＝x2(t+τ)

6.根据权利要求4所述的双麦克风语音增强方法，其特征在于：步骤S002中，对两路经过时延补偿的信号进行分帧，预加重，并转换到频域。

H(z)＝1-αz^-1

其中常数α＝0.9325，z代表

短时傅里叶变换如下

X_{i} (f, m) = \frac{2}{M} Σ_{n = 0}^{M - 1} win (n - m) \times x_{i} (m) e^{- 2 πif \frac{n}{M}}

0≤k1≤M-1

汉明窗函数定义如下：

win(n)＝{

0.54-0.46cos(2*π*n/M) 0≤n≤M-1

0 其余n

}

计算信号的复倒谱

复倒谱的计算定义为

k＝2πf/c

接着求两路信号各自的最小相位分量。

其中Φ_Min(m，n)是

的希尔伯特变换。

并对其进行低通滤波，去除混响。

其中H(n)为低通滤波器，其滤波器系数需根据实际情况确定。

变换到频域

Φ_{1} (m, ω) = \arg [\frac{Real [X (m, ω)]}{Imag [X (m, ω)]}]

将两者结合，得到初步降噪的频域信号Y，并输出

Y(m，ω)＝|X′_min(m，ω)]|∠Φ₁(m，ω)

7.根据权利要求4所述的双麦克风语音增强方法，其特征在于：步骤S003中，采用如下方法计算每个频带的能量并进行平滑：

E(m，k)＝|Y(m，k)|² 0≤k≤N-1

Y_E(m，k)＝αY_E(m-1，k)+(1-α)E(m，k) 0≤k≤N-1

S \hat{N} R_{prior} (0, k) = 0;

并由前一帧的先验信噪比估计值

得到当前帧的先验信噪比估计值；

表示前一帧最后得到的降噪后语音信号，E{|V(m，k)|²}表示噪声能量估计值，，α为平滑系数；

采用计权噪声估计法对先验信噪比估计值进行修正；

先验信噪比估计值

乘以计权因子去q_θ，得到修正先验信噪比估计值

计权因子计算如下

其中γ₁取1.5左右，γ₂取200，θ_z取20；

根据得到的修正先验信噪比估计值

计算各个频带的衰减增益q(m，k)；

其具体方法为

其中，对于不同频带，a为不同的常数；

采用门限判决对所述衰减增益进行调整；

方法如下：

其中q_mod＝0.1，θ_G＝1.2，q_floor＝0.01

\hat{S} (m, k) = q (m, k) * Y (m, k)

0≤k≤N-1

由修正的先验信噪比估计值

对当前帧进行判断，判断当前帧是否是噪声；

V(m，k)＝μV(m-1，k)+(1-μ)E(m，k)

μ表示平滑系数。