[go: up one dir, main page]

CN109036458A - 一种基于音频特征参数的多语种场景分析方法 - Google Patents

一种基于音频特征参数的多语种场景分析方法 Download PDF

Info

Publication number
CN109036458A
CN109036458A CN201810962497.3A CN201810962497A CN109036458A CN 109036458 A CN109036458 A CN 109036458A CN 201810962497 A CN201810962497 A CN 201810962497A CN 109036458 A CN109036458 A CN 109036458A
Authority
CN
China
Prior art keywords
short
term
signal
extract
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810962497.3A
Other languages
English (en)
Inventor
龙华
周金傲
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810962497.3A priority Critical patent/CN109036458A/zh
Publication of CN109036458A publication Critical patent/CN109036458A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于音频特征参数的多语种场景分析方法,属于音频信号处理技术领域。针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。

Description

一种基于音频特征参数的多语种场景分析方法
技术领域
本发明涉及一种基于音频特征参数的多语种场景分析方法,属于音频信号处理技术领域。
背景技术
随着时代的进步,世界的发展,各国的交流越来越频繁,语言是阻碍每个国家之间交流的重要原因,因此对于各国多语种的语音识别显得尤为重要,每种语言都有它们的特点,利用改进的音频提取方法可以更好将它们分类,得到它们各自的特征参数,进而实现多语种的场景分析。
发明内容
本发明要解决的技术问题是提供一种基于音频特征参数的多语种场景分析方法,对多个语种进行音频特征参数的提取,并对不同特征参数计算的结果进行分类总结,得出不同语种的特点和差异。
本发明的技术方案是:一种基于音频特征参数的多语种场景分析方法:
(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;
(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;
(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;然后对提取到的参数进行时域特征分析,如若可以得出差异,则频域分析和倒谱分析就不再有必要;如若不能得出差异,则对语音样本进行频域分析;如若还不能得出差异,则对语音样本进行倒谱分析。提取顺序为时域分析、频域分析、倒谱分析。
把音频信号进行时域、频域、倒谱分析后,两两对比,分别比对两个语种信号之间特征参数的差异。
(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。
所述预处理包括四个步骤:A/D转换、预加重处理、分帧处理、加窗函数;
(1)A/D转换:将数字信号转化为模拟信号;
AD转换就是模数转换,把模拟信号转换成数字信,经过A/D转换,得出数字信号,得到更有益于我们分析和参数提取的信号样本。
(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。
(3)分帧处理:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。
利用语音信号的短时分析将信号分割成若干个语音段,一段为一帧,每段在10-30ms,让帧与帧之间有部分重叠,使帧与帧之间平滑过渡,得到重叠的部分为帧移,取帧长的1/2。
语音信号是个准稳态信号,把它分成较短的帧,将其看成稳态信号,用处理稳态信号的方法去处理。
(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗。减弱了频域中的泄漏。
所述时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度;
所述频域特征参数是短时功率谱密度函数;
所述倒谱域特征参数包括梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。根据现有的特征并加以改进。
所述多语种场景分析是针对多组不同内容的文字,对它们进行多种语种的录制。音频格式为WAV格式,时间一定,然后对它们分别进行音频特征的提取:短时平均过零率、短时能量、短时互相关函数、短时平均幅度、高过零率帧的比重、低能量帧的比重、短时功率谱密度函数、改进的梅尔频率倒谱系数、改进的线性预测倒谱系数。得到它们的音频特征参数后,将它们进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。
包括以下步骤:
(1)短时平均过零率:提取语音信号的短时平均过零率,得到待测语音信号的短时平均过零率参数;
(2)短时能量:提取语音信号的短时能量,得到待测语音信号的短时能量参数;
(3)短时互相关函数:提取两种语音信号的短时互相关函数,得到两个语音信号的相关程度;
(4)短时平均幅度:提取语音信号的短时平均幅度,得到待测语音信号的短时平均幅度参数;
(5)高过零率帧的比重:提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数;
(6)低能量帧的比重:提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数;
(7)短时功率谱密度函数:提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数;
(8)梅尔频率倒谱系数:提取语音样本优化过的梅尔频率倒谱系数,得到待测语音信号的梅尔频率倒谱系数参数;
(9)线性预测倒谱系数:提取语音样本的线性预测倒谱系数,得到待测语音信号的线性预测倒谱系数参数;
(10)强得到的参数进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。
本发明的有益效果是:通过利用时域、频域、倒谱三个层次,能更好的判断多语种的场景属性,得出不同语种的特点和差异,具有很高的使用价值。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于音频特征参数的多语种场景分析方法,包括以下步骤:
1、首先进行语音信号的录制:
利用百度翻译进行多种语种的语音信号录制,针对40段不同内容的文字,分别对每个语种进行相同时间的录制,录制软件为GoldWave,格式为Wav,录制后得到每种语种的40段对比语音信号。
2、预处理:预处理包括A/D转换,预加重,分帧,加窗。
(1)A/D转换:将数字信号转化为模拟信号,更好的进行之后的信号处理。
(2)预加重:将语音信号通过一个高通滤波器,频谱变得更平坦。
(3)分帧:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。
(4)加窗:给每一帧的信号加上汉明窗或汉宁窗,减少频域的泄露。
录制的多语种语音信号经过预处理后,帧长为256点,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧。
3、从预处理过的语音信号中分别提取时域特征参数,频域特征参数以及倒谱特征参数。
3.1、时域特征参数
时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度。
(1)短时平均过零率
定义:在离散时间语音信号的情况下,如果相邻的采样具有不同的代数符号就称其为发生了过零。单位时间内过零的次数就称为短时平均过零率。
短时过零率的公式为:
其中,sgn()函数是符号函数,即
N为一帧的长度,n为对应的帧数,按帧处理。
(2)短时能量
语音一般分为无声段,清音段和浊音段。虽然信号是一个非平稳态过程,但是在相对短时间内,如10-30ms的范围,其特性可以看做一个准稳态过程。由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况。定义n时刻某语音信号的短时平均能量E为:
短时平均能量用途:可以作为区分清音和浊音的特征参数;信噪比比较高的情况下,短时能量可以作为区分有声和无声的依据;可以作为辅助的特征参数用于语音识别中。
语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开,除此之外,用基于能量的算法来检测浊音通常效果也是比较理想的,因为浊音的能量值比清音大得多,可以判断浊音和清音之间过渡的时刻,但对清音来说,效果不是很好,还需要借助短时过零率来表征。
(3)短时自相关函数
语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号,做自相关计算所得的结果。式中,n表示窗函数是从第n点开始加入。
Rk=∑x(n)x(n-k)(4)
因为音频信号用时域幅值计算互相关函数来比较信号的相似性,准确度不高(时域特征的信息量不大,可利用信息不多),所以用信号在频率域的幅值的互相关函数来比较信号的相似性。
在本发明中,用到了xcorr函数用来计算两个信号的相似度。一般来说选择归一化进行互相关运算后,得到结果绝对值越大,两组数据相关程度就越高。
当小于0.1时,没有相关性;当处于0.1-0.3,弱相关;当处于0.3-0.5,中等相关;当处于0.5-0.8,显著相关;当处于0.8-1,强相关。
互相关函数是信号分析里的概念,表示的是两个时间序列之间的相关程度,即互相关函数是描述随机信号x(t),y(t)在任意两个不同时刻t1,t2的取值之间的相关程度。描述两个不同的信号之间的相关性的函数,这两个信号不一定是随机信号。因为一个人的语音在相同的频率上由于声带发声的原因就会很相似,即使不同内容频谱做互相关函数,比较也很相似,因此做频谱的互相关函数就不适合于比较一个人长时间语音信号的相似度的比较。但是可以比较不同发生物体的相似性,比如不同的人说话,或是人说话和动物的发音的比较。
(4)短时平均幅度
短时能量的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个短时平均幅度函数来衡量语音幅度的变化:
与短时能量比较,短时平均幅度相当于用绝对值之后代替了平方和,简化了运算。
(5)高过零率帧的比重
高过零率帧的比重即一段窗内高于帧的平均过零率的1.5倍的帧所占的比重。提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数。
由于语音信号中交替包含着清音和浊音,清音和浊音分别具有较高和较低的过零率,而音乐信号比较平稳单调,这决定了语音信号的过零率的变化要比音乐信号快,从统计意义上来讲,就是方差较大,高过零率帧的比率会较高,从而一定程度上可以区分音乐和语音。
(6)低能量帧的比率
低能量帧的比率即一段窗内低于帧的平均短时能量的0.5倍的帧所占的比重。提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数。公式如下:
(7)短时功率谱密度函数
短时功率谱密度函数反映相关函数在时域内表达随机信号自身与其他信号在不同时刻的内在联系。提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数。
功率谱针对能量无限的功率信号,功率信号不满足傅里叶变换的绝对可积的条件,其付里叶变换是不存在的,如正弦函数的付里叶变换是不存在,只有引入了冲激函数才求得其付里叶变换。功率谱不能直接进行傅立叶变换,通常使用短截函数进行截取后。
3.2、频域特征量及倒谱特征量
频域特征量包括mfcc系数和lpcc系数。
(1)改进的梅尔频率倒谱系数(MFCC_E)
对MFCC的提取步骤进行优化,对每一个步骤进行改进,可以更准确的提取MFCC参数。提取语音信号的MFCC_E,得到待测语音信号的MFCC_E参数。
MFCC是Mel-Frequency Cepstral Coefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。基本流程有预加重,加窗,频域转换,使用梅尔刻度滤波器过滤,能量值取log,离散余弦变换,差分。在这里,利用mfcc倒谱系数可以很好的对多语种进行场景判断和分析。
(2)改进的线性预测倒谱系数(LPCC_E)
对LPCC的提取步骤进行优化,提高语音信号的识别率。提取语音信号的LPCC_E,得到待测语音信号的LPCC参数。流程主要有预加重,分帧,加窗,自相关即lpc分析,lpc系数转换,得到lpc倒谱系数。
4、得到参数后就要进行多语种之间的比对,下面讲一下多语种场景判断的流程。
(1)分别提取每个待测语种的特征量,用matlab仿真得到每个语种的特征量并用Exel表导出。
(2)得到Exel后,再两两比对,得到两个语种的差异和特点。
(3)根据前两步的步骤,可以得到每个语种的特点及特征量的值的范围。
(4)利用matlab平台,输入任意一段待测语种信号,得到最匹配的语种,输出结果。
经过这四个步骤,就可以实现多语种的场景分析和判断。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于音频特征参数的多语种场景分析方法,其特征在于:
(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;
(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;
(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;
(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。
2.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述预处理包括四个步骤:A/D转换、预加重处理、分帧处理、加窗函数;
(1)A/D转换:将数字信号转化为模拟信号;
(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。
(3)分帧处理:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。
(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗。
3.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:
所述时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度;
所述频域特征参数是短时功率谱密度函数;
所述倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数。
4.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述多语种场景分析包括以下步骤:
(1)短时平均过零率:提取语音信号的短时平均过零率,得到待测语音信号的短时平均过零率参数;
(2)短时能量:提取语音信号的短时能量,得到待测语音信号的短时能量参数;
(3)短时互相关函数:提取两种语音信号的短时互相关函数,得到两个语音信号的相关程度;
(4)短时平均幅度:提取语音信号的短时平均幅度,得到待测语音信号的短时平均幅度参数;
(5)高过零率帧的比重:提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数;
(6)低能量帧的比重:提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数;
(7)短时功率谱密度函数:提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数;
(8)梅尔频率倒谱系数:提取语音样本优化过的梅尔频率倒谱系数,得到待测语音信号的梅尔频率倒谱系数参数;
(9)线性预测倒谱系数:提取语音样本的线性预测倒谱系数,得到待测语音信号的线性预测倒谱系数参数;
(10)强得到的参数进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。
CN201810962497.3A 2018-08-22 2018-08-22 一种基于音频特征参数的多语种场景分析方法 Pending CN109036458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810962497.3A CN109036458A (zh) 2018-08-22 2018-08-22 一种基于音频特征参数的多语种场景分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810962497.3A CN109036458A (zh) 2018-08-22 2018-08-22 一种基于音频特征参数的多语种场景分析方法

Publications (1)

Publication Number Publication Date
CN109036458A true CN109036458A (zh) 2018-12-18

Family

ID=64627968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810962497.3A Pending CN109036458A (zh) 2018-08-22 2018-08-22 一种基于音频特征参数的多语种场景分析方法

Country Status (1)

Country Link
CN (1) CN109036458A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及系统
CN109949829A (zh) * 2019-02-02 2019-06-28 北京奇艺世纪科技有限公司 音频数据的处理方法、装置及计算机程序产品和存储介质
CN110827822A (zh) * 2019-12-06 2020-02-21 广州易来特自动驾驶科技有限公司 一种智能语音交互方法、装置、出行终端、设备及介质
CN111009240A (zh) * 2019-12-06 2020-04-14 广州易来特自动驾驶科技有限公司 一种语音关键词筛选方法、装置、出行终端、设备及介质
CN111599345A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 语音识别算法评估方法、系统、移动终端及存储介质
CN112712814A (zh) * 2020-12-04 2021-04-27 中国南方电网有限责任公司 一种基于深度学习算法的声纹识别方法
CN112863546A (zh) * 2021-01-21 2021-05-28 安徽理工大学 音频特征决策的带式运输机健康分析方法
CN113160836A (zh) * 2021-03-29 2021-07-23 安徽理工大学 矿用排水泵噪声多时域特征联合分析方法
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN115019775A (zh) * 2022-01-26 2022-09-06 昆明理工大学 一种基于音素的语种区分性特征的语种识别方法
CN115691537A (zh) * 2022-12-28 2023-02-03 江苏米笛声学科技有限公司 一种耳机音频信号的分析与处理系统
CN116543751A (zh) * 2022-01-25 2023-08-04 中国农业大学 语音特征提取方法、装置、电子设备及存储介质
CN118411982A (zh) * 2024-04-23 2024-07-30 山西警察学院 一种基于人工智能的英语语音信号处理的识别方法
CN119815644A (zh) * 2025-03-11 2025-04-11 广东中诚科技有限公司 一种墙廊灯光控制方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN105336324A (zh) * 2015-11-17 2016-02-17 百度在线网络技术(北京)有限公司 一种语种识别方法及装置
CN105895083A (zh) * 2016-05-30 2016-08-24 珠海市魅族科技有限公司 一种信息处理方法及装置
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN107610715A (zh) * 2017-10-10 2018-01-19 昆明理工大学 一种基于多种声音特征的相似度计算方法
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN105336324A (zh) * 2015-11-17 2016-02-17 百度在线网络技术(北京)有限公司 一种语种识别方法及装置
CN105895083A (zh) * 2016-05-30 2016-08-24 珠海市魅族科技有限公司 一种信息处理方法及装置
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN107610715A (zh) * 2017-10-10 2018-01-19 昆明理工大学 一种基于多种声音特征的相似度计算方法
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘双君: "基于韵律的朝鲜语方言辨识方法的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
周金傲: "基于音频特征参数的多语种分类算法", 《通信技术》 *
夏玉果: "多信息融合的汉语方言辨识", 《电脑与信息技术》 *
贺菁菁: "基于深度置信网络的音频语种识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
赵琰: "音频内容综合处理技术在海外广播监测网的测试", 《山西广播电视大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及系统
CN109949829A (zh) * 2019-02-02 2019-06-28 北京奇艺世纪科技有限公司 音频数据的处理方法、装置及计算机程序产品和存储介质
CN110827822A (zh) * 2019-12-06 2020-02-21 广州易来特自动驾驶科技有限公司 一种智能语音交互方法、装置、出行终端、设备及介质
CN111009240A (zh) * 2019-12-06 2020-04-14 广州易来特自动驾驶科技有限公司 一种语音关键词筛选方法、装置、出行终端、设备及介质
CN111599345A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 语音识别算法评估方法、系统、移动终端及存储介质
CN112712814A (zh) * 2020-12-04 2021-04-27 中国南方电网有限责任公司 一种基于深度学习算法的声纹识别方法
CN112863546A (zh) * 2021-01-21 2021-05-28 安徽理工大学 音频特征决策的带式运输机健康分析方法
CN113160836A (zh) * 2021-03-29 2021-07-23 安徽理工大学 矿用排水泵噪声多时域特征联合分析方法
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN116543751A (zh) * 2022-01-25 2023-08-04 中国农业大学 语音特征提取方法、装置、电子设备及存储介质
CN115019775A (zh) * 2022-01-26 2022-09-06 昆明理工大学 一种基于音素的语种区分性特征的语种识别方法
CN115691537A (zh) * 2022-12-28 2023-02-03 江苏米笛声学科技有限公司 一种耳机音频信号的分析与处理系统
CN118411982A (zh) * 2024-04-23 2024-07-30 山西警察学院 一种基于人工智能的英语语音信号处理的识别方法
CN118411982B (zh) * 2024-04-23 2024-10-29 山西警察学院 一种基于人工智能的英语语音信号处理的识别方法
CN119815644A (zh) * 2025-03-11 2025-04-11 广东中诚科技有限公司 一种墙廊灯光控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109036458A (zh) 一种基于音频特征参数的多语种场景分析方法
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
Reddy et al. A comparison of cepstral features in the detection of pathological voices by varying the input and filterbank of the cepstrum computation
Huang et al. Singing-voice separation from monaural recordings using robust principal component analysis
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
Hu et al. Pitch‐based gender identification with two‐stage classification
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
CN101996635B (zh) 基于重音突显度的英语发音质量评价方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN108682432B (zh) 语音情感识别装置
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
CN1979491A (zh) 对音乐文件分类的方法及其系统
Wang et al. Study on the MFCC similarity-based voice activity detection algorithm
CN110516102B (zh) 一种基于语谱图识别的歌词时间戳生成方法
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Loni et al. Formant estimation of speech and singing voice by combining wavelet with LPC and Cepstrum techniques
Sapijaszko et al. An overview of recent window based feature extraction algorithms for speaker recognition
CN102201230B (zh) 一种突发事件语音检测方法
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
CN107871498A (zh) 一种基于Fisher准则以提高语音识别率的混合特征组合算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication