CN104008751A

CN104008751A - 一种基于bp神经网络的说话人识别方法

Info

Publication number: CN104008751A
Application number: CN201410270239.0A
Authority: CN
Inventors: 周婷婷; 李燕萍
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2014-08-27

Abstract

本发明一种基于BP神经网络的说话人识别方法，其步骤是：分为语音训练阶段和语音识别阶段两个步骤。其特征在于：所述语音训练阶段的步骤是：首先对说话人语音进行语音训练，得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取，然后采用PSO-BP神经网络进行模型训练，经过训练后的模型，建立和优化PSO-BP神经网络模型库。语音识别阶段时，采用和语音训练阶段时一样的方法。在BP神经网络中输入上述特征参数，并由pso-BP流程算法计算输出结果，将输出的结果与数据库中的期望识别身份逐一进行比较，将识别误差最小的那个身份作为最后的识别结果。

Description

一种基于BP神经网络的说话人识别方法

技术领域

本发明涉及说话人识别技术，特别是涉及一种基于BP神经网络的说话人识别方法。

背景技术

说话人识别(Speaker Recognition，SR)又称话者识别，是指通过对说话人语音信号的分析处理，自动确认说话人的技术。其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题，以独特的方便性、经济性和准确性等优势，在相关领域内发挥着重要作用，并有着广阔的市场背景。说话人识别的基本原理，是利用说话人的语音为每个说话人建立一个能够描述此说话人特点的模型，作为此说话人语音特征参数的标准模板，然后针对测试的语音信号进行比对，实现判别说话人身份的目的。

说话人的个性特征一定程度上体现在说话人的发音声道变化上，即声道特征可以更好地对说话人进行识别。基于声道的特征主要有：(1)美尔倒谱系数(Mel-frequency CepstralCoefficients，MFCC)，是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数。它能够比较充分利用人耳这种特殊的感知特性，这种特征具有比较强的鲁棒性，得到了广泛应用。(2)线性预测倒谱系数(LinearPredictionCepstrum Coefficient，LPCC)，1947年维纳首次提出了线性预测这一术语，而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。LPCC是最早被应用到语音识别中的一种倒谱参数，其主要优点是比较彻底地去掉了语音产生过程中的激励信息，主要反映声道响应，计算量小，并且对元音有较好地描述能力，而且往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性，因此在说话人识别中得到了良好的应用。

在语音技术研究及应用领域，语音信号的识别算法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方面的研究虽然起步较早，但由于其复杂性，现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔科夫(HMM)理论、矢量量化(VQ)技术，这些算法在噪声环境下干扰能力差，不能达到良好的识别效果。人工神经网络方法具有自适应性、并进行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入-输出映射能力在语音识别中都极具吸引力。

反向传播(BackPropagation，BP)网络是一种误差逆向传播算法训练的多层前馈网络，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力及原理简单、容易实现等优点。但其也存在固有的缺陷：容易陷入局部极小，收敛速度慢，网络泛化能力较弱。而遗传算法作为一种全局优化算法，可以快速的搜索出解空间中的全体，而不会出现落入局部最优解的下降陷阱，同时由于遗传算法具有分布式计算的特点，在实际求解时可以加快速度，且比传统的BP神经网络具有较强的预测精度。并且预测的均方误差也较小。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BP神经网络的说话人识别方法。

本发明的目的可以通过以下技术方案来实现：一种基于BP神经网络的说话人识别方法，其步骤是：分为语音训练阶段和语音识别阶段两个步骤；其特征在于：所述语音训练阶段的步骤是：首先对说话人语音进行语音训练，获取说话人语音信号，并得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取，求得说话人的特征参数；然后采用PSO-BP神经网络进行模型训练，经过训练后的模型，建立和优化PSO-BP神经网络模型库。2.语音识别时，采用和语音训练阶段时一样的方法，从待识别的语音中提取出语音特征。在BP神经网络中输入上述特征参数，然后分别调用模型库中每个人已保存好的网络权值；并由pso-BP流程算法计算输出结果，将输出的结果与数据库中的期望识别身份逐一进行比较，将识别误差最小的那个身份作为最后的识别结果。

本发明的有益效果是：本发明利用MFCC和BP神经网络相结合，本发明公开的说话人识别方法能够更有效的识别说话人，本发明以标准反向传播算法(BackPropagation)BP神经网络作为参考对象，通过使用粒子群算法来优化BP神经网络以减小异常声音的误判，比传统BP神经网络具有更强的预测精度，并且预测的均方误差也较小，具有广泛的应用前景。

附图说明

图1是本发明语音识别过程示意图。

图2是本发明MFCC语音参数提取示意图。

图3是本发明pso-BP流程算法示意图。

图4是本发明PSO-BP神经网络示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

根据图1、图2、图3、图4所示的一种基于BP神经网络的说话人识别方法，其步骤是：分为语音训练阶段和语音识别阶段两个步骤；其特征在于：所述语音训练阶段的步骤是：首先对说话人语音进行语音训练，获取说话人语音信号，并得到语音预处理信号。即：语音信号预处理，包括：由预加重、端点检测、分帧和加窗分为四个部分。

1.预加重

由于语音信号的高频端呈现快衰落，频率越高的语音信号频谱相应的信号成分越小，为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升，使信号的频谱变得平坦，保持在低频到高频的整个频带内，能用同样的信噪比求频谱，以便于进行频谱分析或声道参数分析。预加重的传递函数为：H(s)＝1-μs^-1，其中μ为预加重系数，可取为1或比1稍小的值，一般取，μ＝0.95。

2.端点检测

端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端点检测不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能。

端点检测技术大都是基于语音信号的时域特征来进行的，本文采用两种时域特征：短时能量和短时过零率，通过设定它们的门限来进行检测。短时能量定义为：

E_{n} = Σ_{m = 0}^{N - 1} {[X (m) W (n - m)]}^{2},

令h(n)＝w²(n)，则有：

E_{n} = Σ_{m = 0}^{N - 1} X {(m)}^{2} \cdot h (n - m) .

语音信号的短时平均幅度为：

E_n和M_n都反映信号强度。语音信号X(n)的短时平均过零率定义为：

Z_{n} = Σ_{m = - \infty}^{\infty} | sgn [x (m)] - sgn [x (m - 1)] | w (n - m),

其中：

sgn [x (m)] = \{\begin{matrix} 1, x (n) &GreaterEqual; 0, \\ - 1, x (n) < 0 \end{matrix}

w(n)为窗口函数，其作用与求短时平均能量时一样。一般取

w (n) = \{\begin{matrix} \frac{1}{2 N}, 0 \leq n \leq N - 1, \\ 0, else \end{matrix}

3.分帧

把一定长度的语音分为许多帧来分析，可以用对平稳过程的分析方法进行分析，因此本发明将语音信号划分为一个一个的短时段，每一个短时段称为一帧，每一帧的长度大概为10-30ms。为了使帧与帧之间平滑过渡，使其保持连贯性，采用了交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重叠的。

4.加窗

为了减小语音帧的截断效应，降低帧两端的坡度，使语音帧的两端不引起急剧变化而平滑过渡到零，就要让语音帧乘以一个窗函数。设帧信号为x(n)，窗函数为y(n)，每帧的取样点数N，则加窗后的信号y(n)为：

y(n)＝x(n)w(n)，0≤n≤N-1

本发明采用窗函数为汉明窗，其表达式如

w (n) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πn / (N - 1)], 0 \leq n \leq (N - 1) \\ 0, else \end{matrix}

波形乘以汉明窗时，压缩了接近函数两端的部分波形，这等效于分析用的区间缩短了40％左右，以此频率分辨率也随之下降了40％左右。所以即使在周期性明显的浊音频谱分析中，乘以适合的窗函数，也能抑制基音周期分析区间的相对相位关系的变化影响，从而可以得到稳定的频谱。

5.语音去噪

语音信号在传输之前要尽可能得到净化，可以提高语音通信质量是非常关键的。本发明利用小波变换来实现信号的去噪，具有较好的净化语音效果。

假设带噪语音信号为f(t)＝s(t)+n(t)式中：s(t)是纯语音信号，n(t)是方差为σ²的高斯白噪声。

对式(1)作离散小波变换，得：

w_{j, k} (f) = &Integral; f (t) \overset{&OverBar;}{ψ_{j, k} (t)} dt, j = 0,1,2 . . . N; k = 0,1, . . . N

式中：

ψ_{j, k} (k) = 2^{\frac{1}{2}} ψ (2^{j} t - k)

Wj，k(f)为小波系数，记为cd j.k。首先对被噪声污染的语音信号进行离散序列小波变换，得到带有噪声的小波系数；然后用设定的阈值λ，作为门限对小波系数进行处理，对低于λ的小波系数作为由噪声引起的，仅让超过λ的那些显著的小波系数用来重构语音信号。

采用MFCC语音参数提取法对语音预处理信号进行特征提取，求得说话人的特征参数；即：MFCC语音参数提取示方法如下：

1.经过预处理的语音信号X(n，ω_k)的幅度将被Mel刻度滤波器组的频率响应加权。Mel刻度滤波器组的中心频率按Mel频率均匀排列，每个三角滤波器的两个底点是相邻滤波器的中心，这些滤波器的中心频率和带宽与听觉临界边带滤波器组大体一致。在系统中Mel刻度滤波器个数取值为28.

2.该步计算经Mel刻度滤波器频响加权后的能量值，表示第一个滤波器Vl(ω)的频率响应。时刻n的语音帧的第1个Mel刻度滤波器输出的能量为Emel(n，1)，计算公式其中U1和L1表示各滤波器在非零区间最高和最低频率。

其中的作用是根据滤波器的带宽对滤波器进行归一化处理。使得对于有着平坦频谱的输入，各滤波器将输出相等的能量。

(3)根据Emel(n，l)，将滤波器组的输出取对数，然后对它做离散余弦变换(DCT)，得到位于时刻n的语音帧的Mel倒谱系数，计算如下

C_{mel} [n, m] = \frac{L}{R} Σ_{l = 0}^{R - 1} \log {E_{mel} (n, l)} \cos (\frac{2 π}{R} lm)

然后采用PSO-BP神经网络进行模型训练，经过训练后的模型，建立和优化PSO-BP神经网络模型库。即：PSO-BP神经网络的建立和优化的模型库方法如下：

步骤1：初始化

初始化BP网络结构，包括设定网络的输入层、隐含层、输出层的神经元个数和学习率、及训练样本的输入和输出。

初始化粒子群，包括粒子的规模N及每个粒子的位置向量及速度向量、每个粒子的个体极值和全局最优值、迭代误差精度、常系数c1和c2、最大惯性权值max、最小惯性权值min、最大速度Vmax及最大迭代次数等。

步骤2：迭代更新

1.更新每个粒子的速度，并判断更新后的速度是否大于最大速度Vmax，若大于最大速度vmax，则更新后的速度就取值为最大速度v，否则，保持不变。

2.更新每个粒子的位置。

3.计算各个粒子的适应度值。

4.计算粒子群的全局最小适应值fg＝min{f1，f2，…，fN}；若当前迭代次数达到最大迭代次数或fg<网络的训练误差达到精度要求，则迭代停止，转到步骤3；否则，计算各个粒子的个体极值Pi和全局极值Pg位置，转到迭代更新的步骤1继续更新粒子的速度和位置。

步骤3：输出全局极值P的位置所确定的网络权值和阈值，算法结束。

四.语音识别阶段。

语音识别时，采用和语音训练阶段时一样的方法，从待识别的语音中提取出语音特征。在BP神经网络中输入上述特征参数，然后分别调用模型库中每个人已保存好的网络权值；并由pso-BP流程算法计算输出结果，将输出的结果与数据库中的期望识别身份逐一进行比较，将识别误差最小的那个身份作为最后的识别结果。

以上所述仅为本发明的具有代表性的实施例，不以任何方式限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BP神经网络的说话人识别方法，其步骤是：分为语音训练阶段和语音识别阶段两个步骤；其特征在于：所述语音训练阶段的步骤是：首先对说话人语音进行语音训练，获取说话人语音信号，并得到语音预处理信号；即：语音信号预处理，包括预加重、端点检测、分帧和加窗。

2.根据权利要求1所述一种基于BP神经网络的说话人识别方法，其特征在于：所述MFCC语音参数提取法对语音预处理信号进行特征提取，求得说话人的特征参数；即：MFCC语音参数提取示方法如下：

(1)经过预处理的语音信号X(n，ω_k)的幅度将被Mel刻度滤波器组的频率响应加权。Mel刻度滤波器组的中心频率按Mel频率均匀排列，每个三角滤波器的两个底点是相邻滤波器的中心，这些滤波器的中心频率和带宽与听觉临界边带滤波器组大体一致；在系统中Mel刻度滤波器个数取值为28；

(2)该步计算经Mel刻度滤波器频响加权后的能量值，表示第一个滤波器Vl(ω)的频率响应；时刻n的语音帧的第l个Mel刻度滤波器输出的能量为Emel(n，l)，计算公式其中U1和L1表示各滤波器在非零区间最高和最低频率；

其中的作用是根据滤波器的带宽对滤波器进行归一化处理；使得对于有着平坦频谱的输入，各滤波器将输出相等的能量；

C_{mel} [n, m] = \frac{L}{R} Σ_{l = 0}^{R - 1} \log {E_{mel} (n, l)} \cos (\frac{2 π}{R} lm) .

3.根据权利要求2所述一种基于BP神经网络的说话人识别方法，其特征在于：所述PSO-BP神经网络进行模型训练，经过训练后的模型，建立和优化PSO-BP神经网络模型库；即：PSO-BP神经网络的建立和优化的模型库如下：

步骤1：初始化

初始化BP网络结构，包括设定网络的输入层、隐含层、输出层的神经元个数和学习率、及训练样本的输入和输出；

初始化粒子群，包括粒子的规模N及每个粒子的位置向量及速度向量、每个粒子的个体极值和全局最优值、迭代误差精度、常系数c1和c2、最大惯性权值max、最小惯性权值min、最大速度Vmax及最大迭代次数等；

步骤2：迭代更新

(1)更新每个粒子的速度，并判断更新后的速度是否大于最大速度Vmax，若大于最大速度vmax，则更新后的速度就取值为最大速度v，否则，保持不变；

(2)更新每个粒子的位置；

(3)计算各个粒子的适应度值；

(4)计算粒子群的全局最小适应值fg＝min{f1，f2，…，fN}；若当前迭代次数达到最大迭代次数或fg〈网络的训练误差达到精度要求，则迭代停止，转到步骤(3)；否则，计算各个粒子的个体极值Pi和全局极值Pg位置，转到迭代更新的步骤(1)继续更新粒子的速度和位置；

4.根据权利要求1所述一种基于BP神经网络的说话人识别方法，其特征在于：所述语音识别阶段采用和语音训练阶段时一样的方法，从待识别的语音中提取出语音特征；在BP神经网络中输入上述特征参数，然后分别调用模型库中每个人已保存好的网络权值；并由pso-BP流程算法计算输出结果，将输出的结果与数据库中的期望识别身份逐一进行比较，将识别误差最小的那个身份作为最后的识别结果。