CN109036458A

CN109036458A - 一种基于音频特征参数的多语种场景分析方法

Info

Publication number: CN109036458A
Application number: CN201810962497.3A
Authority: CN
Inventors: 龙华; 周金傲; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2018-12-18

Abstract

本发明涉及一种基于音频特征参数的多语种场景分析方法，属于音频信号处理技术领域。针对多段不同内容的样本，对各种语种进行语音信号录制，分别对每个语种进行相同时间的录制，时间一定，录制软件为GoldWave，格式为Wav，录制后得到每种语种的多段对比语音信号；先进行A/D转换，然后预加重处理，再进行分帧处理，最后对语音信号进行加窗函数处理；用时域分析方法提取待测的多语种音频信号信息的时域特征参数；用频域分析方法提取待测的多语种音频信号信息的频域特征参数；用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数；利用提取的各个语种的特征量，分析各语种之间的差异，进行多语种的场景分析和判别。

Description

一种基于音频特征参数的多语种场景分析方法

技术领域

本发明涉及一种基于音频特征参数的多语种场景分析方法，属于音频信号处理技术领域。

背景技术

随着时代的进步，世界的发展，各国的交流越来越频繁，语言是阻碍每个国家之间交流的重要原因，因此对于各国多语种的语音识别显得尤为重要，每种语言都有它们的特点，利用改进的音频提取方法可以更好将它们分类，得到它们各自的特征参数，进而实现多语种的场景分析。

发明内容

本发明要解决的技术问题是提供一种基于音频特征参数的多语种场景分析方法，对多个语种进行音频特征参数的提取，并对不同特征参数计算的结果进行分类总结，得出不同语种的特点和差异。

本发明的技术方案是：一种基于音频特征参数的多语种场景分析方法：

(1)录制样本：针对多段不同内容的样本，对各种语种进行语音信号录制，分别对每个语种进行相同时间的录制，时间一定，录制软件为GoldWave，格式为Wav，录制后得到每种语种的多段对比语音信号；

(2)预处理：先进行A/D转换，然后预加重处理，再进行分帧处理，最后对语音信号进行加窗函数处理；

(3)提取特征参数：用时域分析方法提取待测的多语种音频信号信息的时域特征参数；用频域分析方法提取待测的多语种音频信号信息的频域特征参数；用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数；然后对提取到的参数进行时域特征分析，如若可以得出差异，则频域分析和倒谱分析就不再有必要；如若不能得出差异，则对语音样本进行频域分析；如若还不能得出差异，则对语音样本进行倒谱分析。提取顺序为时域分析、频域分析、倒谱分析。

把音频信号进行时域、频域、倒谱分析后，两两对比，分别比对两个语种信号之间特征参数的差异。

(4)利用提取的各个语种的特征量，分析各语种之间的差异，进行多语种的场景分析和判别。

所述预处理包括四个步骤：A/D转换、预加重处理、分帧处理、加窗函数；

(1)A/D转换：将数字信号转化为模拟信号；

AD转换就是模数转换，把模拟信号转换成数字信，经过A/D转换，得出数字信号，得到更有益于我们分析和参数提取的信号样本。

(2)预加重处理：将语音信号通过一个高通滤波器，采用数字电路的方式提升语音中的高频部分，得到利于频谱处理的信号样本。

(3)分帧处理：将信号分为较短的帧，视为可被处理的稳态信号，令帧与帧之间有帧移，取帧长的1/2。

利用语音信号的短时分析将信号分割成若干个语音段，一段为一帧，每段在10-30ms，让帧与帧之间有部分重叠，使帧与帧之间平滑过渡，得到重叠的部分为帧移，取帧长的1/2。

语音信号是个准稳态信号，把它分成较短的帧，将其看成稳态信号，用处理稳态信号的方法去处理。

(4)加窗函数：对分帧过的语音样本进行加窗函数处理，得到的每一帧语音乘以汉明窗或海宁窗。减弱了频域中的泄漏。

所述时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度；

所述频域特征参数是短时功率谱密度函数；

所述倒谱域特征参数包括梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。根据现有的特征并加以改进。

所述多语种场景分析是针对多组不同内容的文字，对它们进行多种语种的录制。音频格式为WAV格式，时间一定，然后对它们分别进行音频特征的提取：短时平均过零率、短时能量、短时互相关函数、短时平均幅度、高过零率帧的比重、低能量帧的比重、短时功率谱密度函数、改进的梅尔频率倒谱系数、改进的线性预测倒谱系数。得到它们的音频特征参数后，将它们进行音频特征参数比对和场景分析，利用matlab得到每种语种的特点，从而识别出不同语种。

包括以下步骤：

(1)短时平均过零率：提取语音信号的短时平均过零率，得到待测语音信号的短时平均过零率参数；

(2)短时能量：提取语音信号的短时能量，得到待测语音信号的短时能量参数；

(3)短时互相关函数：提取两种语音信号的短时互相关函数，得到两个语音信号的相关程度；

(4)短时平均幅度：提取语音信号的短时平均幅度，得到待测语音信号的短时平均幅度参数；

(5)高过零率帧的比重：提取语音信号的高过零率帧的比重，得到待测语音信号的高过零率帧的比重参数；

(6)低能量帧的比重：提取语音信号的低能量帧的比重，得到待测语音信号的低能量帧的比重参数；

(7)短时功率谱密度函数：提取语音信号的短时功率谱密度函数，得到待测语音信号的短时功率谱密度函数参数；

(8)梅尔频率倒谱系数：提取语音样本优化过的梅尔频率倒谱系数，得到待测语音信号的梅尔频率倒谱系数参数；

(9)线性预测倒谱系数：提取语音样本的线性预测倒谱系数，得到待测语音信号的线性预测倒谱系数参数；

(10)强得到的参数进行音频特征参数比对和场景分析，利用matlab得到每种语种的特点，从而识别出不同语种。

本发明的有益效果是：通过利用时域、频域、倒谱三个层次，能更好的判断多语种的场景属性，得出不同语种的特点和差异，具有很高的使用价值。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于音频特征参数的多语种场景分析方法，包括以下步骤：

1、首先进行语音信号的录制：

利用百度翻译进行多种语种的语音信号录制，针对40段不同内容的文字，分别对每个语种进行相同时间的录制，录制软件为GoldWave，格式为Wav，录制后得到每种语种的40段对比语音信号。

2、预处理：预处理包括A/D转换，预加重，分帧，加窗。

(1)A/D转换：将数字信号转化为模拟信号，更好的进行之后的信号处理。

(2)预加重：将语音信号通过一个高通滤波器，频谱变得更平坦。

(3)分帧：将信号分为较短的帧，视为可被处理的稳态信号，令帧与帧之间有帧移，取帧长的1/2。

(4)加窗：给每一帧的信号加上汉明窗或汉宁窗，减少频域的泄露。

录制的多语种语音信号经过预处理后，帧长为256点，帧移128点，音频信号的采样率为44.1KHz，待测音频信号均分为m帧。

3、从预处理过的语音信号中分别提取时域特征参数，频域特征参数以及倒谱特征参数。

3.1、时域特征参数

时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度。

(1)短时平均过零率

定义：在离散时间语音信号的情况下，如果相邻的采样具有不同的代数符号就称其为发生了过零。单位时间内过零的次数就称为短时平均过零率。

短时过零率的公式为：

其中，sgn()函数是符号函数，即

N为一帧的长度，n为对应的帧数，按帧处理。

(2)短时能量

语音一般分为无声段，清音段和浊音段。虽然信号是一个非平稳态过程，但是在相对短时间内，如10-30ms的范围，其特性可以看做一个准稳态过程。由于语音信号的能量随时间而变化，清音和浊音之间的能量差别相当显著，因此对短时能量和短时平均幅度进行分析，可以描述语音的这种特征变换情况。定义n时刻某语音信号的短时平均能量E为：

短时平均能量用途：可以作为区分清音和浊音的特征参数；信噪比比较高的情况下，短时能量可以作为区分有声和无声的依据；可以作为辅助的特征参数用于语音识别中。

语音和噪声的区别可以体现在他们的能量上，语音段的能量比噪声段的能量大，如果环境噪声和系统输入的噪声比较小，只要计算输入信号的短时能量就能够把语音段和噪声背景区分开，除此之外，用基于能量的算法来检测浊音通常效果也是比较理想的，因为浊音的能量值比清音大得多，可以判断浊音和清音之间过渡的时刻，但对清音来说，效果不是很好，还需要借助短时过零率来表征。

(3)短时自相关函数

语音信号是非平稳的信号，所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号，做自相关计算所得的结果。式中，n表示窗函数是从第n点开始加入。

Rk＝∑x(n)x(n-k)(4)

因为音频信号用时域幅值计算互相关函数来比较信号的相似性，准确度不高(时域特征的信息量不大，可利用信息不多)，所以用信号在频率域的幅值的互相关函数来比较信号的相似性。

在本发明中，用到了xcorr函数用来计算两个信号的相似度。一般来说选择归一化进行互相关运算后，得到结果绝对值越大，两组数据相关程度就越高。

当小于0.1时，没有相关性；当处于0.1-0.3，弱相关；当处于0.3-0.5，中等相关；当处于0.5-0.8，显著相关；当处于0.8-1，强相关。

互相关函数是信号分析里的概念，表示的是两个时间序列之间的相关程度，即互相关函数是描述随机信号x(t),y(t)在任意两个不同时刻t1，t2的取值之间的相关程度。描述两个不同的信号之间的相关性的函数，这两个信号不一定是随机信号。因为一个人的语音在相同的频率上由于声带发声的原因就会很相似，即使不同内容频谱做互相关函数，比较也很相似，因此做频谱的互相关函数就不适合于比较一个人长时间语音信号的相似度的比较。但是可以比较不同发生物体的相似性，比如不同的人说话，或是人说话和动物的发音的比较。

(4)短时平均幅度

短时能量的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和，在定点实现时很容易产生溢出。为了克服这个缺点，可以定义一个短时平均幅度函数来衡量语音幅度的变化：

与短时能量比较，短时平均幅度相当于用绝对值之后代替了平方和，简化了运算。

(5)高过零率帧的比重

高过零率帧的比重即一段窗内高于帧的平均过零率的1.5倍的帧所占的比重。提取语音信号的高过零率帧的比重，得到待测语音信号的高过零率帧的比重参数。

由于语音信号中交替包含着清音和浊音，清音和浊音分别具有较高和较低的过零率，而音乐信号比较平稳单调，这决定了语音信号的过零率的变化要比音乐信号快，从统计意义上来讲，就是方差较大，高过零率帧的比率会较高，从而一定程度上可以区分音乐和语音。

(6)低能量帧的比率

低能量帧的比率即一段窗内低于帧的平均短时能量的0.5倍的帧所占的比重。提取语音信号的低能量帧的比重，得到待测语音信号的低能量帧的比重参数。公式如下：

(7)短时功率谱密度函数

短时功率谱密度函数反映相关函数在时域内表达随机信号自身与其他信号在不同时刻的内在联系。提取语音信号的短时功率谱密度函数，得到待测语音信号的短时功率谱密度函数参数。

功率谱针对能量无限的功率信号，功率信号不满足傅里叶变换的绝对可积的条件，其付里叶变换是不存在的，如正弦函数的付里叶变换是不存在，只有引入了冲激函数才求得其付里叶变换。功率谱不能直接进行傅立叶变换，通常使用短截函数进行截取后。

3.2、频域特征量及倒谱特征量

频域特征量包括mfcc系数和lpcc系数。

(1)改进的梅尔频率倒谱系数(MFCC_E)

对MFCC的提取步骤进行优化，对每一个步骤进行改进，可以更准确的提取MFCC参数。提取语音信号的MFCC_E，得到待测语音信号的MFCC_E参数。

MFCC是Mel-Frequency Cepstral Coefficients的缩写，顾名思义MFCC特征提取包含两个关键步骤：转化到梅尔频率，然后进行倒谱分析。基本流程有预加重，加窗，频域转换，使用梅尔刻度滤波器过滤，能量值取log，离散余弦变换，差分。在这里，利用mfcc倒谱系数可以很好的对多语种进行场景判断和分析。

(2)改进的线性预测倒谱系数(LPCC_E)

对LPCC的提取步骤进行优化，提高语音信号的识别率。提取语音信号的LPCC_E，得到待测语音信号的LPCC参数。流程主要有预加重，分帧，加窗，自相关即lpc分析，lpc系数转换，得到lpc倒谱系数。

4、得到参数后就要进行多语种之间的比对，下面讲一下多语种场景判断的流程。

(1)分别提取每个待测语种的特征量，用matlab仿真得到每个语种的特征量并用Exel表导出。

(2)得到Exel后，再两两比对，得到两个语种的差异和特点。

(3)根据前两步的步骤，可以得到每个语种的特点及特征量的值的范围。

(4)利用matlab平台，输入任意一段待测语种信号，得到最匹配的语种，输出结果。

经过这四个步骤，就可以实现多语种的场景分析和判断。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于音频特征参数的多语种场景分析方法，其特征在于：

(3)提取特征参数：用时域分析方法提取待测的多语种音频信号信息的时域特征参数；用频域分析方法提取待测的多语种音频信号信息的频域特征参数；用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数；

2.根据权利要求1所述的基于音频特征参数的多语种场景分析方法，其特征在于：所述预处理包括四个步骤：A/D转换、预加重处理、分帧处理、加窗函数；

(1)A/D转换：将数字信号转化为模拟信号；

(4)加窗函数：对分帧过的语音样本进行加窗函数处理，得到的每一帧语音乘以汉明窗或海宁窗。

3.根据权利要求1所述的基于音频特征参数的多语种场景分析方法，其特征在于：

所述频域特征参数是短时功率谱密度函数；

所述倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数。

4.根据权利要求1所述的基于音频特征参数的多语种场景分析方法，其特征在于：所述多语种场景分析包括以下步骤：