CN104538036A

CN104538036A - 一种基于语义细胞混合模型的说话人识别方法

Info

Publication number: CN104538036A
Application number: CN201510026239.0A
Authority: CN
Inventors: 孙凌云; 何博伟; 尤伟涛; 李彦; 郑楷洪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-01-20
Filing date: 2015-01-20
Publication date: 2015-04-22

Abstract

本发明公开了一种基于语义细胞混合模型的说话人识别方法，包括以下步骤：(1)构建语音库，语音库中包括多个说话人的多条语音信号；(2)将语音库中每条语音信号进行预处理，提取语音特征，得到每个人的各个特征向量；(3)基于语义细胞的特征选择法，特征向量进行降维得到降维特征向量，并训练语义细胞混合模型；(4)使用基于语义细胞混合模型的核函数构造各说话人的SVM分类器，并训练SVM分类器的识别模型；(5)利用识别模型识别未知说话人。本发明能解决现有SVM模型的核函数对特定说话人无针对性优化的问题，在选取用于训练分类器的语音特征时，较目前常见方法更有针对性，且能因此减小模型存储所需空间。

Description

一种基于语义细胞混合模型的说话人识别方法

技术领域

本发明涉及信号处理和模式识别领域，尤其涉及一种基于语义细胞混合模型的说话人识别方法。

背景技术

说话人识别(Speaker Recognition)又称话者识别，指通过对未知说话人产生的语音信号进行特征提取等分析，自动确定说话人是否在已登记的说话人集合中，并辨别具体说话人的过程。由于个体声道、喉部及其他发生器官的形状大小各不相同，任意两个个体的语音特征都不相同(见Kinnunen T,Li H.An overview of text-independent speaker recognition:fromfeatures to supervectors.Speech communication,2010,52(1):12-40.)。该项技术可用于电话银行、语音门禁、电话购物等需对操作者进行鉴别的过程。

目前的说话人识别方法通常包括以下两个操作步骤：1.利用语料库中的说话人数据集训练给定的分类器模型。当前应用较为广泛的有模板模型、高斯混合模型(GMM)、隐马尔科夫模型(HMM)、支持向量机(SVM)等。2.将未知说话人的语音输入识别系统，与已知说话人的模型进行匹配并做出决策，判断该未知说话人是否在已登记的说话人集合中。

其中步骤1需要对音频信号进行特征提取步骤，目前常用的流程为：1.对采样的语音信号(波形信号)进行预加重(pre-emphasis)、分帧(framing)、加窗(windowing)操作，称为预处理；2.进行特征提取，目前一般对预处理过的信号提取Mel频率倒谱系数(Mel-frequency CepstralCoefficients,MFCC)、线性预测倒谱系数(Linear Prediction CepstralCoefficients,LPCC)等，这些特征是基于声道的特征，主要特点是鲁棒性强，描述能力好，且易于实施。

语义细胞(Information Cell)理论由汤永川和Lawry J.共同提出(见TANG Y,LAWRY J.Information Cell Mixture Models:The CognitiveRepresentations of Vague Concepts[C]//Integrated Uncertainty Managementand Applications.Heidelberg,Berlin:Springer,2010:371-382)，其基础是模糊计算和原型理论，主要思想是：概念并不由形式规则或映射来表示，而是由其原型来表示，概念范畴基于同原型的相似性来判定。该理论已被应用于预测Mackey-Glass时间序列及太阳黑子问题，其性能优于Kim&Kim、自回归模型算法。

语义细胞具有透明的认知结构，符合人类学习概念的认知过程，有坚实的认知心理学基础与严格的数学定义，具备描述模糊概念的先天优势。说话人识别是模糊概念领域中的典型问题，根据当前的研究现状，说话人的声音特性是一种模糊概念，目前难以凭借具体规则进行界定。而通过原型表达概念的语义细胞因为其不依赖具体分类规则的特点，适合于说话人识别。

公开号为CN104200814A的专利申请公开了一种基于语义细胞的语音情感识别方法，包括：构建语音库，对语音库中的每一条语音信号，进行预处理和进行情感特征提取，根据提取结果计算每条语音信号的特征向量，利用特征向量训练得到基于语义细胞的混合模型作为分类器的识别模型，利用该识别模型识别待识别语音信号所属的情感类别。该发明的语音情感识别方法基于双层语义细胞的识别法，采用构建识别说话人、说话人情感的二层语义细胞的混合模型对对语音情感建立识别模型，利用该方法建立的识别模型进行语音情感识别时精准度高，且在保证与SVM算法相同识别准确度的前提下，仍然有效地降低存储识别模型所需的数据量，在空间复杂度及识别准确度上均具备优势。该发明的缺点是使用主成分分析法从统计学角度对特征向量进行降维，针对性不强。另外，该发明将语义细胞混合模型作为分类器的识别模型，所述方法在用于说话人识别时准确率有限。

发明内容

本发明提供了一种基于语义细胞混合模型的说话人识别方法。本发明采用基于语义细胞混合模型的核函数构造SVM的分类器，通过SVM分类器的识别模型达到区分说话人的目的。

一种基于语义细胞混合模型的说话人识别方法，包括以下步骤：

(1)构建语音库，所述语音库中包括多个说话人的多条语音信号；

(2)将语音库中每个说话人的每条语音信号进行预处理，提取语音特征，得到每个说话人的各个特征向量；

(3)基于语义细胞的特征选择法，对步骤(2)生成的各特征向量进行降维得到降维特征向量，并训练每个说话人的语义细胞混合模型；

(4)使用基于语义细胞混合模型的核函数构造每个说话人的SVM分类器，并训练SVM分类器的识别模型；

(5)利用SVM分类器的识别模型识别未知说话人。

步骤(2)对每条语音信号进行预处理得到相应的特征向量，每个说话人有多条语音信号，经预处理后得到每个说话人的各个特征向量。

步骤(2)所述预处理包括预加重、分帧和加窗。

(2-1)使用传递函数为H(z)＝1-0.97z^-1进行预加重滤波；

(2-2)将语音信号划分为若干短时段，每一个短时段称为一帧，每一帧的长度大概为10-30ms；

(2-3)使用汉明窗函数对语音帧加窗；

(2-4)提取当前语音信号中每一帧的特征：所述特征为1至12阶Mel频率倒谱(MFCC)系数的下列9项统计值：最大值、最小值、最大值所在帧位置、最小值所在帧位置、算数平均值、线性回归系数(斜率、截距)、偏度系数和峰度系数；

(2-5)根据各项特征的统计值构建得到当前语音信号的特征向量；

(2-6)使用标准分(z-score)将特征向量归一化，获得待选的特征集合。

步骤(3)基于语义细胞的特征选择法对特征向量进行降维，较目前常见降维方法更有针对性，且能因此减小模型存储所需空间。

步骤(3)所述降维过程是：从每个说话人的各个特征向量中挑选预定数量的特征，每次挑选时，逐个选取每个说话人的各个特征向量中的特征，构成中间向量，结合已挑选出的以中间向量形式表达的所有特征作为训练集，训练语义细胞混合模型，并挑选出语义细胞混合模型的覆盖率最大的特征加入降维特征向量，重复此步骤直至降维特征向量的特征达到预定数量。

挑选预定数量的特征，预定数量较少时，模型训练、识别速度快；预定数量较大时，准确率较高，但模型训练、识别速度缓慢。

优选地，所述预定数量为总特征量的30％～50％。

步骤(3)所述的训练语义细胞混合模型的步骤如下：

(3-1)对训练集中的中间向量进行聚类得到多个聚类中心，并作为各个语义细胞的中心，一个语义细胞混合模型由n个语义细胞组成，包含n个具有不同权重的聚类中心；

语义细胞个数n的取值影响识别结果及性能：当n较小时，对复杂概念的语义概括可能出现不清晰的情况，但模型训练、识别速度快；n较大时，能较好地概括复杂概念的语义，但模型训练、识别速度缓慢。

优选地，n为3～10。

(3-2)计算参数初始值：针对每一个语义细胞，利用训练集中各个中间向量到该语义细胞的中心的距离计算语义细胞的位置参数和尺度参数，并设定各个语义细胞对混合模型的贡献度参数；其中，第i个语义细胞的位置参数、尺度参数和贡献度参数的初始值分别记为c_i(0)、σ_i(0)和Pr(L_i(0))，各个语义细胞的参数构成语义细胞混合模型的参数。

设定各个语义细胞对语义细胞混合模型的贡献程度参数相等，即

Pr(L_i(0))＝1/n；

其中，第k个中间向量与第i个语义细胞的中心的距离ε_ik，根据如下公式计算：

ε_ik＝d_i(X_K,P_i)＝||X_K-P_i||

P_i为第i个语义细胞的中心；

X_k为训练集中第k个中间向量，i＝1,2，……n，k＝1,2，……N；

N为训练集中中间向量的个数；

c_{i} (0) = \frac{1}{N} Σ_{K = 1}^{N} ϵ_{ik}

{(σ_{i} (0))}^{2} = \frac{1}{N} Σ_{K = 1}^{N} {(ϵ_{ik} - c_{i} (0))}^{2}

(3-3)得到语义细胞混合模型的各参数初始值后，设定阈值，采用循环迭代法更新语义细胞混合模型，第t次循环迭代的目标函数为：

J_{LP} (t) = Σ_{K = 1}^{N} \ln (Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) \Pr (L_{i} (t)))

δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f (ϵ_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{+ \infty} f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) d ϵ_{ik}}

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π {(σ_{i} (t))}^{2}}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}}

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) ϵ_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)}

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {(ϵ_{ik} - c_{i} (t))}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)}

q_{ik} (t - 1) = \frac{δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1)

其中，t＝1,2，……为迭代次数；

n为语义细胞的个数；

N为训练集中特征向量的个数；

q_ik(t)是语义细胞中心距离的权重值；

c_i(t)为位置参数；

σ_i(t)为尺度参数；

Pr(L_i(t))为贡献度参数；

直至相邻两次循环迭代得到的目标函数的值之差的绝对值|J_LP(t)-J_LP(t-1)|小于设定的阈值时停止。

循环迭代时设定的阈值越大，收敛越快，训练消耗的时间短，但是建立的识别模型不准确，识别率低。相反，阈值越小，收敛越慢，且可能存在不收敛的情况，训练消耗的时间长，但是建立的识别模型准确，识别率高。因此需要设定合理的阈值，阈值的取值可根据实际应用需求进行调整。

优选地，设定的阈值为0.001～0.010。

步骤(3)中语义细胞混合模型的覆盖率计算公式为：

| LP | = Σ_{i = 1}^{n} | L_{i} | \cdot \Pr (L_{i}); | L_{i} | = Σ_{k = 1}^{N} μ_{L_{i}} (X_{k})

|LP|表示语义细胞混合模型LP的覆盖率；

|L_i|表示第i语义细胞Li覆盖对应训练集的覆盖率；

N为训练集中中间向量的个数；

X_k为训练集中第k个中间向量；

表示给定特征向量X_k对L_i的隶属度；

步骤(4)基于语义细胞混合模型的核函数：

K (X, Z) = \exp (- | | Σ_{i = 1}^{n} μ_{L_{i}} (X) \Pr (L_{i}) - Σ_{i = 1}^{n} μ_{L_{i}} (Z) \Pr (L_{i}) | |)

其中L_i表示第i个语义细胞；

表示给定特征向量X对L_i的隶属度；

表示给定特征向量Z对L_i的隶属度；

X、Z表示计算SVM过程中用于比较的某两条语音对应的降维特征向量；

利用该核函数构造每个说话人的SVM分类器；

以降维特征向量中相应的特征向量和语义细胞混合模型的参数作为输入，对SVM分类器的识别模型进行训练。

训练的SVM分类器所用的模型为一对其他(OVR)型，即在训练中，属于该说话人的例视为正例，不属于该说话人的视为反例。

步骤(5)识别未知说话人过程具体如下：

(5-1)对输入的未知说话人的语音信号提取特征，生成特征向量，并挑选与步骤(3)降维特征向量中相同的特征作为降维特征向量a；

(5-1)可以是生成特征向量a进行归一化处理得到降维特征向量，也可以得到降维特征向量a后再进行归一化处理。

步骤(5-1)得到降维特征向量a后，采用标准分对其进行归一化处理，得到降维特征向量a后再进行归一化处理能够提高运算性能，节约运算时间及存储空间。

所述的归一化处理使用与步骤(2)预处理过程相同的平均值μ、标准差σ'按列(特征)计算标准化后的特征值，即

x^{'} = \frac{x - μ_{j}}{{σ^{'}}_{j}},

其中x、x’分别为标准化前、后的特征值；μ_j与σ′_j分别为x对应的特征j在步骤(2)计算标准分时得到的平均值与标准差。

(5-2)将得到的降维特征向量输入至各个说话人对应的SVM分类器中，计算SVM分类的后验概率P_j,j＝1,...,W，W为说话人数量，所述后验概率P_j的值域为[-1,+1],反映其接近负例(-1)或正例(+1)的估计值。

(5-3)选取所有说话人后验概率值最大的作为判断结果，具体如下：

判定的说话人序号

kk = \{\begin{matrix} \underset{j}{\arg \max} P_{j} & , if (\max P_{j} > T) \\ 0 & , else \end{matrix},

其中kk＝0表示该说话人不属于原有说话人集合中的一员，T为判定阈值。

判定阈值提高将导致系统识别的准确率(precision)升高但召回率(recall)降低(即使更多被测语段的说话人被归类在集合之外)；反之亦然。

优选地，判定阈值T为0.01～0.10。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用一种基于语义细胞的说话人识别方法，能解决现有SVM模型的核函数对特定说话人无针对性优化的问题。

2、本发明使用一种基于语义细胞的说话人识别方法，在选取用于训练分类器的语音特征时，采用的是基于语义细胞的特征选择法，较目前常见方法更有针对性，且能因此减小模型存储所需空间。

3、本发明构造的SVM分类器识别模型，准确率较高。

附图说明

图1为本发明基于语义细胞的说话人识别方法流程图。

图2为本发明语义细胞混合模型更新及说话人识别流程图。

具体实施方式

下面结合图1和2对本发明作进一步描述。本发明的实施方法包括五步。

步骤(1)构建语音库：要求输入的语音信号必须包含说话人的标示符，如姓名。

本实施例构建的语音库包含138名说话人(106男、32女)，每人10条语音，语音数据共1380条。

步骤(2)所述预处理包括预加重、分帧和加窗处理，具体过程可参考公开号为CN104200814A的专利申请。

(2-1)语音信号的功率谱随频率的增加而减小，其大部分能量集中在低频范围内。这就造成语音信号高频端的信噪比可能降到不能容许的程度。但是由于语音信号中较高频率分量的能量小，很少有足以产生最大频偏的幅度，因此产生最大频偏的信号幅度多数是由信号的低频分量引起，通常幅度较小的高频分量产生的频偏小得多。通过预加重处理人为地加重(提升)发射机输入调制信号的高频分量能够有效地提高语音信号的信噪比。作为优选，使用传递函数为H(z)＝1-0.97z^-1进行预加重滤波；

(2-2)把一定长度的语音分为许多帧来分析，可以用对平稳过程的分析方法进行分析，因此本发明将语音信号划分为一个一个的短时段，每一个短时段称为一帧，每一帧的长度大概为10-30ms。为了使帧与帧之间平滑过渡，使其保持连贯性，采用了交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重叠的。

(2-3)为了减小语音帧的截断效应，降低帧两端的坡度，使语音帧的两端不引起急剧变化而平滑过渡到零，就要让语音帧乘以一个窗函数，本发明可使用任何有限脉冲响应(Finite Impulse Response,FIR)滤波窗函数。通过分帧加窗将每条语音信号划分为若干个短时的语音段，一个短时的语音段称为一帧，且各帧按照时间顺序都具有相应的编号(即帧序号)。

上述步骤(2-2)分帧与(2-3)加窗的操作同时进行，即在加窗的过程中对语音进行分帧。即使在周期性明显的浊音频谱分析中，乘以适合的窗函数，也能抑制基音周期分析区间的相对相位关系的变化影响，从而可以得到稳定的频谱。

语音帧上的特征提取经由如下步骤实现：

(2-4)提取当前语音信号中每一帧的特征值。所述的语音特征为1至12阶Mel频率倒谱(MFCC)系数的下列9项统计值(样本为按帧提取的数据)：

最大值、最小值、最大值所在帧位置、最小值所在帧位置、算数平均值、线性回归系数(斜率、截距)、偏度系数(skewness)、峰度系数(kurtosis)。

(2-5)根据各项声学特征的统计值构建得到当前语音信号的特征向量。

步骤(2-5)中直接将当前语音信号对应的所有语音特征，以及相应的一阶差分系数的统计值排列成行向量即得到当前语音信号的特征向量。排列成行向量时可以按照任意顺序进行，但是对于所有的语音信号而言，各个统计值应该按照相同的顺序排列。对于每一条语音信号，得到特征向量为108维，即有108个特征。

(2-6)特征向量归一化。由于语义细胞模型需要使用距离函数度量原形(语义细胞核)到任意特征向量的隶属度，因此有必要对得到的特征向量按列进行归一化，从而避免各特征之间的尺度不同对模型计算结果的影响。

所述步骤(3)使用基于语义细胞的特征选择法，对(2)生成的特征向量进行降维通过如下步骤实现。下述步骤需对每个说话人各施行一遍，即每个说话人经过步骤(3)后都拥有针对自身优化后的特征集合。

(3-1)设定挑选特征的数量(特征向量维数)D＝36；

初始特征数量k＝0，初始特征的集合(空集)，S中放置以中间向量形式表达的特征；说话人特征的集合M＝{m₁,…,m_dd}；如表1所示，表1为每个说话人的特征的集合，sp₁～sp_h表示每个人的每条语音信号，所在列为该语音信号的特征向量；m₁～m_dd表示每条语音信号的特征，所在行表示特征构成的中间向量，dd每条语音信号特征的个数，dd＝108；h为语音信号条数，h＝10。

(3-2)对任意特征m_v∈M，m_v所在的行特征构成中间向量，使用S∪{m_v}的特征，作为训练集训练语义细胞混合模型。

表1

语义细胞混合模型训练的过程具体如下：

(3-2-1)对训练集中的所有中间向量进行聚类得到多个聚类中心，并作为各个语义细胞的中心。聚类中心称为语义细胞核，其数量一般为3至10个，记作n，本实施例中n＝5；

(3-2-2)计算参数初始值：

令各个语义细胞对混合模型的贡献程度参数初始值Pr(L_i(0))＝1/n；

针对每一个语义细胞，利用训练集中各个中间向量到该语义细胞的中心的距离计算语义细胞的位置参数和尺度参数，其中第i个语义细胞的混合模型的位置参数、尺度参数和贡献度参数的初始值分别记为c_i(0)、σ_i(0)和Pr(L_i(0))。

ε_ik＝d_i(X_K,P_i)＝||X_K-P_i||

P_i为第i个语义细胞的中心，X_k为训练集中第k个中间向量，i＝1,2，……n，k＝1,2，……N，

c_{i} (0) = \frac{1}{N} Σ_{K = 1}^{N} ϵ_{ik},

{(σ_{i} (0))}^{2} = \frac{1}{N} Σ_{K = 1}^{N} {(ϵ_{ik} - c_{i} (0))}^{2},

(3-2-3)得到各个语义细胞的参数后，设定阈值，采用循环迭代法更新所述的混合模型，第t次循环迭代的目标函数为：

J_{LP} (t) = Σ_{K = 1}^{N} \ln (Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) \Pr (L_{i} (t)))

直至相邻两次循环迭代得到的目标函数的值之差的绝对值|J_LP(t)-J_LP(t-1)|小于设定的阈值时停止；本实施例中设定的阈值为0.005。

其中，t＝1,2，……为迭代次数；

N为训练集中中间向量的个数；

n为语义细胞的个数；

δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f (ϵ_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{+ \infty} f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) d ϵ_{ik}},

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π {(σ_{i} (t))}^{2}}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}},

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) ϵ_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {(ϵ_{ik} - c_{i} (t))}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)}

q_{ik} (t - 1) = \frac{δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))};

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1)

q_ik(t)以及类似的q是语义细胞中心距离的权重值，

(3-3)计算上一步骤获得的各个语义细胞混合模型的覆盖率。

第v个特征增加后，对应的语义细胞混合的覆盖率计算方法如下：

{| LP |}_{v} = Σ_{i = 1}^{n} | L_{i} | \cdot \Pr (L_{i});

其中

| L_{i} | = Σ_{k = 1}^{N} μ_{L_{i}} (X_{k})

|LP|_v表示第v个特征增加后对应的语义细胞混合模型的覆盖率，该特征以中间向量形式表达；

是给定特征向量X_k与某个语义细胞L_i的隶属度；

|L_i|表示语义细胞L_i覆盖训练集的覆盖率；

选取出其中覆盖率最大的特征m_k，即

(3-4)将特征m_k移出集合M：M←M-{m_k}，并加入集合S：S←S∪{m_k}，k←k+1。

(3-5)当k<D时，跳至步骤(3-2)；否则结束步骤(3)。

步骤(4)根据模式识别理论，低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分，但如果直接采用这种技术在高维空间进行分类或回归，则存在确定非线性映射函数的形式和参数、特征空间维数等问题，而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。

基于语义细胞混合模型的核函数为：

K (X, Z) = \exp (- | | Σ_{i = 1}^{n} μ_{L_{i}} (X) \Pr (L_{i}) - Σ_{i = 1}^{n} μ_{L_{i}} (Z) \Pr (L_{i}) | |),

其中式中δ(ε|c_i,σ_i)的计算方法同步骤(3-2-3)。

根据上述核函数，若X和Z与语义细胞的原型都很相近，那么核函数值为1；反之，核函数值约等于0。

利用该核函数构造每个说话人的SVM分类器；

以降维特征向量中相应的特征向量和语义细胞混合模型的参数作为输入，对SVM分类器的识别模型进行训练。训练的分类器模型为一对其他(OVR)型，即在训练中，属于该说话人的例视为正例，不属于该说话人的视为反例。

由于SVM分类器模型在本领域的使用非常普遍，其计算方法在很多文献都有详细描述(例如可参考Chih-chung Chang和Chih-Jen Lin的“LIBSVM：a Library for Support Vector Machines”)，这里不再详细描述。

步骤(5)识别未知说话人过程具体如下：

(5-1)对输入的未知说话人的语音信号提取特征特征，得到特征向量，并挑选与步骤(3)降维特征向量中相同的特征得到降维特征向量a，然后计算标准分时，用与执行步骤(2)相同的平均值μ、标准差σ'进行计算。

(5-2)将(5-1)得到的降维特征向量a输入至各个说话人对应的SVM分类器中，计算SVM分类的后验概率P_j,j＝1,...,W(W为说话人数量)，所述后验概率P_j的值域为[-1,+1],反映其接近负例(-1)或正例(+1)的估计值。

判定的说话人序号

kk = \{\begin{matrix} \underset{j}{\arg \max} P_{j} & , if (\max P_{j} > T) \\ 0 & , else \end{matrix},

其中kk＝0表示该说话人不属于原有说话人集合中的一员，T为判定阈值，本实施例中判定阈值T＝0.100。

本发明方法与另外两种算法进行对比，具体如下：

(1)基于语义细胞的识别法。使用申请号：201410402937.1的发明中第一层语义细胞的算法，使用主成分分析法(PCA)将特征向量降至36维；

(2)基于径向基(RBM)核函数的支持向量机(SVM)。使用一对其他(OVR)法处理多分类问题；

表2

表2显示了三种方法的实验结果，训练集、测试集数据根据5倍交叉验证(cross-validation)法分出。

Claims

1.一种基于语义细胞混合模型的说话人识别方法，包括以下步骤：

(3)基于语义细胞的特征选择法，对步骤(2)得到的各特征向量进行降维得到相应的降维特征向量，并训练每个说话人的语义细胞混合模型；

(5)利用SVM分类器的识别模型识别未知说话人。

2.根据权利要求1所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(3)所述降维过程是：从每个说话人的各个特征向量中挑选预定数量的特征，每次挑选时，逐个选取每个说话人的各个特征向量中的特征，构成中间向量，结合已挑选出的以中间向量形式表达的所有特征作为训练集，训练语义细胞混合模型，并挑选出语义细胞混合模型的覆盖率最大的特征加入降维特征向量，重复此步骤直至降维特征向量的特征达到预定数量。

3.根据权利要求2所述的基于语义细胞混合模型的说话人识别方法，其特征在于，训练语义细胞混合模型的步骤如下：

(3-2)计算参数初始值：针对每一个语义细胞，利用训练集中各个中间向量到该语义细胞的中心的距离计算语义细胞的位置参数和尺度参数，并设定各个语义细胞对语义细胞混合模型的贡献度参数；其中，第i个语义细胞的位置参数、尺度参数和贡献度参数的初始值分别记为c_i(0)、σ_i(0)和Pr(L_i(0))，各个语义细胞的参数构成语义细胞混合模型的参数；

ε_ik＝d_i(X_k,P_i)＝||X_k-P_i||

c_{i} (0) = \frac{1}{N} Σ_{K = 1}^{N} ϵ_{ik}

{(σ_{i} (0))}^{2} = \frac{1}{N} Σ_{K = 1}^{N} {(ϵ_{ik} - c_{i} (0))}^{2}

d_i表示X_k到P_i的距离；

P_i为第i个语义细胞的中心；

N为训练集中中间向量的个数；

设定各个语义细胞对混合模型的贡献度参数的初始值为：

Pr(L_i(0))＝1/n；

J_{LP} (t) = Σ_{K = 1}^{N} \ln (Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) \Pr (L_{i} (t))) .

δ (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f (ϵ_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{- \infty} f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) {dϵ}_{ik}}

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π {(σ_{i} (t))}^{2}}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}}

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) ϵ_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)}

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {(ϵ_{ik} - c_{i})}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)}

q_{ik} (t - 1) = \frac{δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ (ϵ_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1)

t＝1,2，……为迭代次数；

n为语义细胞的个数；

q_ik(t)是语义细胞中心距离的权重值；

c_i(t)为位置参数；

σ_i(t)为尺度参数；

Pr(L_i(t))为贡献度参数；

4.根据权利要求3所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(3-1)中n为3～10。

5.根据权利要求3所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(3-3)中设定的阈值为0.001～0.010。

6.根据权利要求2所述的基于语义细胞混合模型的说话人识别方法，其特征在于，语义细胞混合模型的覆盖率计算公式为：

| LP | = Σ_{i = 1}^{n} | L_{i} | \cdot \Pr (L_{i}); | L_{i} | = Σ_{k = 1}^{N} μ_{L_{i}} (X_{k})

|LP|表示语义细胞混合模型的覆盖率；

|L_i|表示第i语义细胞L_i覆盖对应训练集的覆盖率；

(X_k)表示特征向量X_k对L_i的隶属度；

Pr(L_i)表示表示语义细胞混合模型中语义细胞L_i的权重参数。

7.根据权利要求1所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(4)基于语义细胞混合模型的核函数为：

K (X, Z) = \exp (- | | Σ_{i = 1}^{n} μ_{L_{i}} (X) \Pr (L_{i}) - Σ_{i = 1}^{n} μ_{L_{i}} (Z) \Pr (L_{i}) | |)

L_i表示第i个语义细胞；

(X)表示给定特征向量X对L_i的隶属度；

(Z)表示给定特征向量Z对L_i的隶属度；

X、Z表示用于比较的某两条语音对应的降维后的特征向量；

利用该核函数构造每个说话人的SVM分类器；

以降维特征向量和语义细胞混合模型的参数作为输入，对SVM分类器的识别模型进行训练；

SVM分类器的识别模型为一对其他型，即在训练中，属于该说话人的视为正例，不属于该说话人的视为反例。

8.根据权利要求1所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(5)识别未知说话人过程具体如下：

(5-1)对输入的未知说话人的语音信号提取特征，生成特征向量，并挑选与步骤(3)降维特征向量中相同的特征得到降维特征向量a；

(5-2)将得到的降维特征向量a输入至各个说话人对应的SVM分类器中，计算SVM分类的后验概率P_j,j＝1,...,W，W为说话人数量，所述后验概率P_j的值域为[-1,+1]；

(5-3)选取所有说话人后验概率值最大的作为判断结果，具体如下：判定的说话人序号

kk = \{\begin{matrix} \underset{j}{\arg \max P_{j}} & , if (\max P_{j} > T) \\ 0 & , else \end{matrix},

9.根据权利要求8所述的基于语义细胞混合模型的说话人识别方法，其特征在于，判定阈值T为0.01～0.10。

10.根据权利要求8所述的基于语义细胞混合模型的说话人识别方法，其特征在于，步骤(5-1)得到降维特征向量a后，采用标准分对其进行归一化处理。