[go: up one dir, main page]

CN104008751A - 一种基于bp神经网络的说话人识别方法 - Google Patents

一种基于bp神经网络的说话人识别方法 Download PDF

Info

Publication number
CN104008751A
CN104008751A CN201410270239.0A CN201410270239A CN104008751A CN 104008751 A CN104008751 A CN 104008751A CN 201410270239 A CN201410270239 A CN 201410270239A CN 104008751 A CN104008751 A CN 104008751A
Authority
CN
China
Prior art keywords
neural network
speech
voice
training
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410270239.0A
Other languages
English (en)
Inventor
周婷婷
李燕萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410270239.0A priority Critical patent/CN104008751A/zh
Publication of CN104008751A publication Critical patent/CN104008751A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤。其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取,然后采用PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库。语音识别阶段时,采用和语音训练阶段时一样的方法。在BP神经网络中输入上述特征参数,并由pso-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。

Description

一种基于BP神经网络的说话人识别方法
技术领域
本发明涉及说话人识别技术,特别是涉及一种基于BP神经网络的说话人识别方法。
背景技术
说话人识别(Speaker Recognition,SR)又称话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人的技术。其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场背景。说话人识别的基本原理,是利用说话人的语音为每个说话人建立一个能够描述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对测试的语音信号进行比对,实现判别说话人身份的目的。
说话人的个性特征一定程度上体现在说话人的发音声道变化上,即声道特征可以更好地对说话人进行识别。基于声道的特征主要有:(1)美尔倒谱系数(Mel-frequency CepstralCoefficients,MFCC),是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数。它能够比较充分利用人耳这种特殊的感知特性,这种特征具有比较强的鲁棒性,得到了广泛应用。(2)线性预测倒谱系数(LinearPredictionCepstrum Coefficient,LPCC),1947年维纳首次提出了线性预测这一术语,而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。LPCC是最早被应用到语音识别中的一种倒谱参数,其主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,计算量小,并且对元音有较好地描述能力,而且往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性,因此在说话人识别中得到了良好的应用。
在语音技术研究及应用领域,语音信号的识别算法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方面的研究虽然起步较早,但由于其复杂性,现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔科夫(HMM)理论、矢量量化(VQ)技术,这些算法在噪声环境下干扰能力差,不能达到良好的识别效果。人工神经网络方法具有自适应性、并进行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入-输出映射能力在语音识别中都极具吸引力。
反向传播(BackPropagation,BP)网络是一种误差逆向传播算法训练的多层前馈网络,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力及原理简单、容易实现等优点。但其也存在固有的缺陷:容易陷入局部极小,收敛速度慢,网络泛化能力较弱。而遗传算法作为一种全局优化算法,可以快速的搜索出解空间中的全体,而不会出现落入局部最优解的下降陷阱,同时由于遗传算法具有分布式计算的特点,在实际求解时可以加快速度,且比传统的BP神经网络具有较强的预测精度。并且预测的均方误差也较小。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BP神经网络的说话人识别方法。
本发明的目的可以通过以下技术方案来实现:一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取,求得说话人的特征参数;然后采用PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库。2.语音识别时,采用和语音训练阶段时一样的方法,从待识别的语音中提取出语音特征。在BP神经网络中输入上述特征参数,然后分别调用模型库中每个人已保存好的网络权值;并由pso-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。
本发明的有益效果是:本发明利用MFCC和BP神经网络相结合,本发明公开的说话人识别方法能够更有效的识别说话人,本发明以标准反向传播算法(BackPropagation)BP神经网络作为参考对象,通过使用粒子群算法来优化BP神经网络以减小异常声音的误判,比传统BP神经网络具有更强的预测精度,并且预测的均方误差也较小,具有广泛的应用前景。
附图说明
图1是本发明语音识别过程示意图。
图2是本发明MFCC语音参数提取示意图。
图3是本发明pso-BP流程算法示意图。
图4是本发明PSO-BP神经网络示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
根据图1、图2、图3、图4所示的一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号。即:语音信号预处理,包括:由预加重、端点检测、分帧和加窗分为四个部分。
1.预加重
由于语音信号的高频端呈现快衰落,频率越高的语音信号频谱相应的信号成分越小,为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重的传递函数为:H(s)=1-μs-1,其中μ为预加重系数,可取为1或比1稍小的值,一般取,μ=0.95。
2.端点检测
端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
端点检测技术大都是基于语音信号的时域特征来进行的,本文采用两种时域特征:短时能量和短时过零率,通过设定它们的门限来进行检测。短时能量定义为: E n = Σ m = 0 N - 1 [ X ( m ) W ( n - m ) ] 2 , 令h(n)=w2(n),则有: E n = Σ m = 0 N - 1 X ( m ) 2 · h ( n - m ) . 语音信号的短时平均幅度为:
En和Mn都反映信号强度。语音信号X(n)的短时平均过零率定义为:
Z n = &Sigma; m = - &infin; &infin; | sgn [ x ( m ) ] - sgn [ x ( m - 1 ) ] | w ( n - m ) , 其中: sgn [ x ( m ) ] = 1 , x ( n ) &GreaterEqual; 0 , - 1 , x ( n ) < 0
w(n)为窗口函数,其作用与求短时平均能量时一样。一般取
w ( n ) = 1 2 N , 0 &le; n &le; N - 1 , 0 , else
3.分帧
把一定长度的语音分为许多帧来分析,可以用对平稳过程的分析方法进行分析,因此本发明将语音信号划分为一个一个的短时段,每一个短时段称为一帧,每一帧的长度大概为10-30ms。为了使帧与帧之间平滑过渡,使其保持连贯性,采用了交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的。
4.加窗
为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡到零,就要让语音帧乘以一个窗函数。设帧信号为x(n),窗函数为y(n),每帧的取样点数N,则加窗后的信号y(n)为:
y(n)=x(n)w(n),0≤n≤N-1
本发明采用窗函数为汉明窗,其表达式如
w ( n ) = 0.54 - 0.46 cos [ 2 &pi;n / ( N - 1 ) ] , 0 &le; n &le; ( N - 1 ) 0 , else
波形乘以汉明窗时,压缩了接近函数两端的部分波形,这等效于分析用的区间缩短了40%左右,以此频率分辨率也随之下降了40%左右。所以即使在周期性明显的浊音频谱分析中,乘以适合的窗函数,也能抑制基音周期分析区间的相对相位关系的变化影响,从而可以得到稳定的频谱。
5.语音去噪
语音信号在传输之前要尽可能得到净化,可以提高语音通信质量是非常关键的。本发明利用小波变换来实现信号的去噪,具有较好的净化语音效果。
假设带噪语音信号为f(t)=s(t)+n(t)式中:s(t)是纯语音信号,n(t)是方差为σ2的高斯白噪声。
对式(1)作离散小波变换,得: w j , k ( f ) = &Integral; f ( t ) &psi; j , k ( t ) &OverBar; dt , j = 0,1,2 . . . N ; k = 0,1 , . . . N
式中: &psi; j , k ( k ) = 2 1 2 &psi; ( 2 j t - k )
Wj,k(f)为小波系数,记为cd j.k。首先对被噪声污染的语音信号进行离散序列小波变换,得到带有噪声的小波系数;然后用设定的阈值λ,作为门限对小波系数进行处理,对低于λ的小波系数作为由噪声引起的,仅让超过λ的那些显著的小波系数用来重构语音信号。
采用MFCC语音参数提取法对语音预处理信号进行特征提取,求得说话人的特征参数;即:MFCC语音参数提取示方法如下:
1.经过预处理的语音信号X(n,ωk)的幅度将被Mel刻度滤波器组的频率响应加权。Mel刻度滤波器组的中心频率按Mel频率均匀排列,每个三角滤波器的两个底点是相邻滤波器的中心,这些滤波器的中心频率和带宽与听觉临界边带滤波器组大体一致。在系统中Mel刻度滤波器个数取值为28.
2.该步计算经Mel刻度滤波器频响加权后的能量值,表示第一个滤波器Vl(ω)的频率响应。时刻n的语音帧的第1个Mel刻度滤波器输出的能量为Emel(n,1),计算公式其中U1和L1表示各滤波器在非零区间最高和最低频率。
其中的作用是根据滤波器的带宽对滤波器进行归一化处理。使得对于有着平坦频谱的输入,各滤波器将输出相等的能量。
(3)根据Emel(n,l),将滤波器组的输出取对数,然后对它做离散余弦变换(DCT),得到位于时刻n的语音帧的Mel倒谱系数,计算如下
C mel [ n , m ] = L R &Sigma; l = 0 R - 1 log { E mel ( n , l ) } cos ( 2 &pi; R lm )
然后采用PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库。即:PSO-BP神经网络的建立和优化的模型库方法如下:
步骤1:初始化
初始化BP网络结构,包括设定网络的输入层、隐含层、输出层的神经元个数和学习率、及训练样本的输入和输出。
初始化粒子群,包括粒子的规模N及每个粒子的位置向量及速度向量、每个粒子的个体极值和全局最优值、迭代误差精度、常系数c1和c2、最大惯性权值max、最小惯性权值min、最大速度Vmax及最大迭代次数等。
步骤2:迭代更新
1.更新每个粒子的速度,并判断更新后的速度是否大于最大速度Vmax,若大于最大速度vmax,则更新后的速度就取值为最大速度v,否则,保持不变。
2.更新每个粒子的位置。
3.计算各个粒子的适应度值。
4.计算粒子群的全局最小适应值fg=min{f1,f2,…,fN};若当前迭代次数达到最大迭代次数或fg<网络的训练误差达到精度要求,则迭代停止,转到步骤3;否则,计算各个粒子的个体极值Pi和全局极值Pg位置,转到迭代更新的步骤1继续更新粒子的速度和位置。
步骤3:输出全局极值P的位置所确定的网络权值和阈值,算法结束。
四.语音识别阶段。
语音识别时,采用和语音训练阶段时一样的方法,从待识别的语音中提取出语音特征。在BP神经网络中输入上述特征参数,然后分别调用模型库中每个人已保存好的网络权值;并由pso-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。
以上所述仅为本发明的具有代表性的实施例,不以任何方式限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号;即:语音信号预处理,包括预加重、端点检测、分帧和加窗。
2.根据权利要求1所述一种基于BP神经网络的说话人识别方法,其特征在于:所述MFCC语音参数提取法对语音预处理信号进行特征提取,求得说话人的特征参数;即:MFCC语音参数提取示方法如下:
(1)经过预处理的语音信号X(n,ωk)的幅度将被Mel刻度滤波器组的频率响应加权。Mel刻度滤波器组的中心频率按Mel频率均匀排列,每个三角滤波器的两个底点是相邻滤波器的中心,这些滤波器的中心频率和带宽与听觉临界边带滤波器组大体一致;在系统中Mel刻度滤波器个数取值为28;
(2)该步计算经Mel刻度滤波器频响加权后的能量值,表示第一个滤波器Vl(ω)的频率响应;时刻n的语音帧的第l个Mel刻度滤波器输出的能量为Emel(n,l),计算公式其中U1和L1表示各滤波器在非零区间最高和最低频率;
其中的作用是根据滤波器的带宽对滤波器进行归一化处理;使得对于有着平坦频谱的输入,各滤波器将输出相等的能量;
(3)根据Emel(n,l),将滤波器组的输出取对数,然后对它做离散余弦变换(DCT),得到位于时刻n的语音帧的Mel倒谱系数,计算如下
C mel [ n , m ] = L R &Sigma; l = 0 R - 1 log { E mel ( n , l ) } cos ( 2 &pi; R lm ) .
3.根据权利要求2所述一种基于BP神经网络的说话人识别方法,其特征在于:所述PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库;即:PSO-BP神经网络的建立和优化的模型库如下:
步骤1:初始化
初始化BP网络结构,包括设定网络的输入层、隐含层、输出层的神经元个数和学习率、及训练样本的输入和输出;
初始化粒子群,包括粒子的规模N及每个粒子的位置向量及速度向量、每个粒子的个体极值和全局最优值、迭代误差精度、常系数c1和c2、最大惯性权值max、最小惯性权值min、最大速度Vmax及最大迭代次数等;
步骤2:迭代更新
(1)更新每个粒子的速度,并判断更新后的速度是否大于最大速度Vmax,若大于最大速度vmax,则更新后的速度就取值为最大速度v,否则,保持不变;
(2)更新每个粒子的位置;
(3)计算各个粒子的适应度值;
(4)计算粒子群的全局最小适应值fg=min{f1,f2,…,fN};若当前迭代次数达到最大迭代次数或fg〈网络的训练误差达到精度要求,则迭代停止,转到步骤(3);否则,计算各个粒子的个体极值Pi和全局极值Pg位置,转到迭代更新的步骤(1)继续更新粒子的速度和位置;
步骤3:输出全局极值P的位置所确定的网络权值和阈值,算法结束。
4.根据权利要求1所述一种基于BP神经网络的说话人识别方法,其特征在于:所述语音识别阶段采用和语音训练阶段时一样的方法,从待识别的语音中提取出语音特征;在BP神经网络中输入上述特征参数,然后分别调用模型库中每个人已保存好的网络权值;并由pso-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。
CN201410270239.0A 2014-06-18 2014-06-18 一种基于bp神经网络的说话人识别方法 Pending CN104008751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410270239.0A CN104008751A (zh) 2014-06-18 2014-06-18 一种基于bp神经网络的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410270239.0A CN104008751A (zh) 2014-06-18 2014-06-18 一种基于bp神经网络的说话人识别方法

Publications (1)

Publication Number Publication Date
CN104008751A true CN104008751A (zh) 2014-08-27

Family

ID=51369378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410270239.0A Pending CN104008751A (zh) 2014-06-18 2014-06-18 一种基于bp神经网络的说话人识别方法

Country Status (1)

Country Link
CN (1) CN104008751A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104569035A (zh) * 2015-02-04 2015-04-29 神华集团有限责任公司 用于煤液化油临界性质参数的获取方法
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105323700A (zh) * 2015-12-02 2016-02-10 逢甲大学 客制化入耳式耳机制作方法
CN106157953A (zh) * 2015-04-16 2016-11-23 科大讯飞股份有限公司 连续语音识别方法及系统
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106448680A (zh) * 2016-03-01 2017-02-22 常熟苏大低碳应用技术研究院有限公司 一种采用感知听觉场景分析的缺失数据特征说话人识别方法
CN106601240A (zh) * 2015-10-16 2017-04-26 三星电子株式会社 归一化声学模型的输入数据的设备和方法和语音识别设备
CN106611598A (zh) * 2016-12-28 2017-05-03 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108590244A (zh) * 2018-07-12 2018-09-28 吉林工程技术师范学院 一种用于阅读新闻出版物的图书驿站
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN108847245A (zh) * 2018-08-06 2018-11-20 北京海天瑞声科技股份有限公司 语音检测方法和装置
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN109036385A (zh) * 2018-10-19 2018-12-18 北京旋极信息技术股份有限公司 一种语音指令识别方法、装置及计算机存储介质
CN109119085A (zh) * 2018-08-24 2019-01-01 深圳竹云科技有限公司 一种基于小波分析和超级向量的非对称文本相关的语音识别方法
CN109394472A (zh) * 2018-09-19 2019-03-01 宁波杰曼智能科技有限公司 一种基于神经网络分类器的康复机器人运动意图识别方法
CN110232372A (zh) * 2019-06-26 2019-09-13 电子科技大学成都学院 基于粒子群优化bp神经网络的步态识别方法
CN110914899A (zh) * 2017-07-19 2020-03-24 日本电信电话株式会社 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
CN111259750A (zh) * 2020-01-10 2020-06-09 西北工业大学 一种基于遗传算法优化bp神经网络的水声目标识别方法
CN111341327A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN111524520A (zh) * 2020-04-22 2020-08-11 星际(重庆)智能装备技术研究院有限公司 一种基于误差逆向传播神经网络的声纹识别方法
CN112053680A (zh) * 2020-09-11 2020-12-08 中航华东光电(上海)有限公司 一种适合盲人使用的语音空调控制装置
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
CN113053398A (zh) * 2021-03-11 2021-06-29 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104569035A (zh) * 2015-02-04 2015-04-29 神华集团有限责任公司 用于煤液化油临界性质参数的获取方法
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
CN106157953A (zh) * 2015-04-16 2016-11-23 科大讯飞股份有限公司 连续语音识别方法及系统
CN106601240A (zh) * 2015-10-16 2017-04-26 三星电子株式会社 归一化声学模型的输入数据的设备和方法和语音识别设备
CN106601240B (zh) * 2015-10-16 2021-10-01 三星电子株式会社 归一化声学模型的输入数据的设备和方法和语音识别设备
CN105323700A (zh) * 2015-12-02 2016-02-10 逢甲大学 客制化入耳式耳机制作方法
CN106448680A (zh) * 2016-03-01 2017-02-22 常熟苏大低碳应用技术研究院有限公司 一种采用感知听觉场景分析的缺失数据特征说话人识别方法
CN108140386B (zh) * 2016-07-15 2021-11-23 谷歌有限责任公司 说话者验证
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN106611598A (zh) * 2016-12-28 2017-05-03 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN106611598B (zh) * 2016-12-28 2019-08-02 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN110914899B (zh) * 2017-07-19 2023-10-24 日本电信电话株式会社 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
CN110914899A (zh) * 2017-07-19 2020-03-24 日本电信电话株式会社 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN108590244B (zh) * 2018-07-12 2024-02-09 吉林工程技术师范学院 一种用于阅读新闻出版物的图书驿站
CN108590244A (zh) * 2018-07-12 2018-09-28 吉林工程技术师范学院 一种用于阅读新闻出版物的图书驿站
CN108847245A (zh) * 2018-08-06 2018-11-20 北京海天瑞声科技股份有限公司 语音检测方法和装置
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN109119085A (zh) * 2018-08-24 2019-01-01 深圳竹云科技有限公司 一种基于小波分析和超级向量的非对称文本相关的语音识别方法
CN109394472A (zh) * 2018-09-19 2019-03-01 宁波杰曼智能科技有限公司 一种基于神经网络分类器的康复机器人运动意图识别方法
CN109036385A (zh) * 2018-10-19 2018-12-18 北京旋极信息技术股份有限公司 一种语音指令识别方法、装置及计算机存储介质
CN110232372A (zh) * 2019-06-26 2019-09-13 电子科技大学成都学院 基于粒子群优化bp神经网络的步态识别方法
CN111259750A (zh) * 2020-01-10 2020-06-09 西北工业大学 一种基于遗传算法优化bp神经网络的水声目标识别方法
CN111341327A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN111524520A (zh) * 2020-04-22 2020-08-11 星际(重庆)智能装备技术研究院有限公司 一种基于误差逆向传播神经网络的声纹识别方法
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法
CN112053680A (zh) * 2020-09-11 2020-12-08 中航华东光电(上海)有限公司 一种适合盲人使用的语音空调控制装置
CN113053398A (zh) * 2021-03-11 2021-06-29 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN113053398B (zh) * 2021-03-11 2022-09-27 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法

Similar Documents

Publication Publication Date Title
CN104008751A (zh) 一种基于bp神经网络的说话人识别方法
CN107146601B (zh) 一种用于说话人识别系统的后端i-vector增强方法
US20200074997A1 (en) Method and system for detecting voice activity in noisy conditions
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
Chang et al. Robust CNN-based speech recognition with Gabor filter kernels
CN109192200B (zh) 一种语音识别方法
WO2019023877A1 (zh) 特定声音识别方法、设备和存储介质
CN103236260A (zh) 语音识别系统
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102800316A (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN110853656A (zh) 基于改进神经网络的音频篡改识别算法
Yusnita et al. Automatic gender recognition using linear prediction coefficients and artificial neural network on speech signal
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
Nawas et al. Speaker recognition using random forest
CN113628639A (zh) 一种基于多头注意力机制的语音情感识别方法
CN107424625A (zh) 一种基于向量机框架的多通道语音活动检测方法
CN118016106A (zh) 老年人情感健康分析与支持系统
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Song et al. Research on scattering transform of urban sound events detection based on self-attention mechanism
Zeng et al. Multi-feature fusion speech emotion recognition based on SVM
Sankavi et al. Deep learning based automatic noisy speech classification for enhanced speech analysis
CN206781702U (zh) 一种基于量子神经网络的语音识别汽车防盗系统
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition
Khan et al. Hybrid BiLSTM-HMM based event detection and classification system for food intake recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Zhou Tingting

Document name: Notification of Passing Preliminary Examination of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Zhou Tingting

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Zhou Tingting

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Zhou Tingting

Document name: Notification that Application Deemed to be Withdrawn

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140827

WD01 Invention patent application deemed withdrawn after publication