CN106816158B

CN106816158B - 一种语音质量评估方法、装置及设备

Info

Publication number: CN106816158B
Application number: CN201510859464.2A
Authority: CN
Inventors: 肖玮; 李素华; 杨付正
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2020-08-07
Anticipated expiration: 2035-11-30
Also published as: EP3316255A4; EP3316255A1; WO2017092216A1; US10497383B2; CN106816158A; US20180082704A1

Abstract

本发明实施例公开了一种语音质量评估方法、装置及设备，用于缓解现有信号域评估方案复杂度高、资源消耗严重的问题。本发明实施例方法包括：获取语音信号的时域包络；对时域包络进行时频变换得到包络频谱；对包络频谱进行特征提取获得特征参数；根据特征参数进行通信语音质量评价获得语音信号的第一语音质量参数，根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数。因为本发明实施例在没有基于高复杂度的耳蜗滤波器来模仿听觉感知的情况下来评估语音信号的质量，因而降低了计算复杂度，降低了资源消耗。

Description

一种语音质量评估方法、装置及设备

技术领域

本发明涉及音频技术领域，尤其涉及一种语音质量评估方法、装置及设备。

背景技术

近年来，随着通信网络的快速发展，网络语音通信成为社会交流的重要方面。在当前大数据环境下，对语音通信网络性能与质量的监测显得倍加重要。

目前，关于通信语音质量信号域客观评价模型尚未出现简洁有效的低复杂度算法，业界仍偏重研究影响通信语音质量的大量因素，较少研究能够给出低复杂度的信号域评价模型。

现有的一种语音质量信号域客观评估技术是根据人体听觉系统对语音信号的感知过程来使用数学信号模型模拟此过程。该技术以耳蜗滤波器来模仿听觉感知，进而对经过耳蜗滤波器组输出的N路子信号包络进行时间-频率转换，并通过人体发音系统分析对N路信号包络频谱进行处理得到语音信号的质量分数值。

在现有技术中，1)通过耳蜗滤波器模拟人体听觉系统来感知语音信号相对显得粗糙，因为：一方面，人体感知语音信号的机理复杂，不仅仅在于听觉系统，也在于脑部皮层处理，人体神经处理，生活先验知识，是一个多方位，主客观结合的综合认知判断过程；另一方面，不同个体，不同时期所测量人群他们的耳蜗对语音信号频率的响应不完全一致。2)由于耳蜗滤波器对语音信号整个频谱段分为很多个关键频带处理，每一个关键频带都须对语音信号进行相应的卷积运算处理，该过程计算复杂，耗费资源较大，对庞大复杂的通信网络监测凸显不足。

因此，现有基于信号域的语音质量评估方案，计算复杂度高，资源耗费严重，对庞大复杂的语音通信网络监测能力不足。

发明内容

本发明实施例提供了一种语音质量评估方法、装置及设备，通过低复杂度的信号域评价模型来缓解现有信号域评估方案复杂度高、资源消耗严重的问题。

第一方面，本发明实施例提供了一种语音质量评估方法，包括：

获取语音信号的时域包络；对时域包络进行时频变换得到包络频谱；对包络频谱进行特征提取获得特征参数；根据特征参数计算语音信号的第一语音质量参数；通过网络参数评估模型计算语音信号的第二语音质量参数；根据第一语音质量参数和第二语音质量参数进行分析获得语音信号的质量评估参数。

本发明实施例提供的语音质量评估方法并没有基于高复杂度的耳蜗滤波器来模仿听觉感知，而是直接获取输入的语音信号的时域包络，对时域包络进行时频变换得到包络频谱，对包络频谱进行特征提取获得发音特征参数，之后，根据发音特征参数获得该段输入的语音信号的第一语音质量参数，且根据网络参数评估模型进行计算获得第二语音质量参数，根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数。因此，本发明实施例在涵盖了影响通信语音质量的主要影响因素的基础上，能够降低计算复杂度，减少占用的资源。

结合第一方面，在第一方面的第一种可能的实现方式中，对包络频谱进行特征提取获得特征参数包括：确定包络频谱中的发音功率频段和不发音功率频段，所述特征参数为发音功率频段的功率与不发音功率频段的功率的比值。其中，所述发音功率频段为所述包络频谱中频率点为2至30Hz的频段，所述不发音功率频段为所述包络频谱中频率点大于30Hz的频段。

如此，基于发音系统的发音分析，从包络频谱中提取发音功率频段和不发音功率频段，将发音功率频段功率和不发音功率频段功率的比值作为衡量语音感知质量的重要参量，根据人体发声系统的原理定义发音功率段与非发音功率段，符合人体的发音心理听觉理论。

结合第一方面的第一种可能的实现，在第一方面的第二种可能的实现方式中，根据特征参数计算语音信号的第一语音质量参数包括：通过如下函数计算语音信号的第一语音质量参数：

y＝ax^b；

其中，x为所述发音功率频段的功率和不发音功率频段的功率的比值，a和b为预设的模型参数，均为有理数。一组可用的模型参数为a＝18，b＝0.72。

结合第一方面的第一种可能的实现，在第一方面的第三种可能的实现方式中，根据特征参数计算语音信号的第一语音质量参数包括：通过如下函数计算所述语音信号的第一语音质量参数：。

y＝aln(x)+b

其中，x为发音功率频段的功率和不发音功率频段的功率的比值，a和b为预设的模型参数，均为有理数，一组可用的模型参数为a＝4.9828，b＝15.098。

结合第一方面，在第一方面的第四种可能的实现方式中，对时域包络进行时频变换得到包络频谱包括：对时域包络进行离散小波变换获得N+1个子带信号，N+1个子带信号为包络频谱，所述N为正整数；对包括频谱进行特征提取获得特征参数包括：分别计算N+1个子带信号对应的平均能量得到N+1个平均能量值，N+1个平均能量值为特征参数。如此，可以获得更多的特征参数，有利于语音信号质量分析的准确性。

结合第一方面的第四种可能的实现，在第一方面的第五种可能的实现方式中，根据特征参数计算语音信号的第一语音质量参数包括：将N+1个平均能量值作为神经网络的输入层变量，通过第一映射函数获得N_H个隐层变量，再将所述N_H个隐层变量通过第二映射函数映射获得输出变量，根据输出变量获得语音信号的第一语音质量参数，所述N_H小于N+1。

结合第一方面，第一方面的第一种可能的实现方式至第一方面的第五种可能的实现方式中的任一种可能的实现方式，在第一方面的第六种可能的实现方式中，网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个评估模型；

通过网络参数评估模型计算语音信号的第二语音质量参数包括：

通过码率评估模型计算语音信号以码率度量的语音质量参数；

和/或，

通过丢包率评估模型计算语音信号以丢包率度量的语音质量参数。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，通过码率评估模型计算语音信号以码率度量的语音质量参数包括：

通过如下公式计算语音信号以码率度量的语音质量参数：

其中，Q₁为以码率度量的语音质量参数，B为语音信号的编码码率，c、d和e为预设模型参数，均为有理数。

结合第一方面的第六种可能的实现方式，在第一方面的第八种可能的实现方式中，通过丢包率评估模型计算语音信号以丢包率度量的语音质量参数包括：

通过如下公式计算语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P

其中，Q₂为以丢包率度量的语音质量参数，P为语音信号的编码码率，e、f和g为预设模型参数，均为有理数。

结合第一方面，第一方面的第一种可能的实现方式至第一方面的第八种可能的实现方式中的任一种可能的实现方式，在第一方面的第九种可能的实现方式中，根据第一语音质量参数和第二语音质量参数进行分析获得语音信号的质量评估参数包括：将第一语音质量参数与第二语音质量参数相加获得语音信号的质量评估参数。

第二方面，本发明实施例还提供了一种语音质量评估装置，包括：

获取模块，用于获取语音信号的时域包络；时频变换模块，用于对时域包络进行时频变换得到包络频谱；特征提取模块，用于对包络频谱进行特征提取获得特征参数；第一计算模块，用于根据所述特征参数计算所述语音信号的第一语音质量参数；第二计算模块，用于通过网络参数评估模型计算所述语音信号的第二语音质量参数；质量评估模块，用于根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数。

结合第二方面，在第二方面的第一种可能的实现方式中，特征提取模块，具体用于确定包络频谱中的发音功率频段和不发音功率频段，所述特征参数为发音功率频段的功率与不发音功率频段的功率的比值。其中，所述发音功率频段为所述包络频谱中频率点为2至30Hz的频段，所述不发音功率频段为所述包络频谱中频率点大于30Hz的频段。

结合第二方面的第一种可能的实现，在第二方面的第二种可能的实现方式中，第一计算模块，具体用于通过如下函数计算语音信号的第一语音质量参数：

y＝ax^b；

其中，x为发音功率频段的功率和不发音功率频段的功率的比值，a和b为预设的模型参数，均为有理数。

结合第二方面的第一种可能的实现，在第二方面的第三种可能的实现方式中，第一计算模块，具体用于通过如下函数计算所述语音信号的第一语音质量参数：

y＝aln(x)+b；

其中，x为所述发音功率频段的功率和不发音功率频段的功率的比值，a和b为预设的模型参数，均为有理数。

结合第二方面，在第二方面的第四种可能的实现方式中，时频变换模块，具体用于对时域包络进行离散小波变换获得N+1个子带信号，N+1个子带信号为包络频谱。特征提取模块，具体用于分别计算N+1个子带信号对应的平均能量得到N+1个平均能量值，N+1个平均能量值为特征参数，所述N为正整数。

结合第二方面的第四种可能的实现，在第二方面的第五种可能的实现方式中，第一计算模块，具体用于将N+1个平均能量值作为神经网络的输入层变量，通过第一映射函数获得N_H个隐层变量，再将所述N_H个隐层变量通过第二映射函数映射获得输出变量，根据输出变量获得语音信号的第一语音质量参数，所述N_H小于N+1。

结合第二方面，第二方面的第一种可能的实现方式至第二方面的第五种可能的实现方式中的任一种可能的实现方式，在第二方面的第六种可能的实现方式中，网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个；

第二计算模块，具体用于：

和/或，

结合第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，第二计算模块具体用于：

通过如下公式计算语音信号以码率度量的语音质量参数：

结合第二方面的第六种可能的实现方式，在第二方面的第八种可能的实现方式中，第二计算模块具体用于：

通过如下公式计算语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P

结合第二方面，第二方面的第一种可能的实现方式至第二方面的第八种可能的实现方式中的任一种可能的实现方式，在第二方面的第九种可能的实现方式中，质量评估模块具体用于：

将第一语音质量参数与第二语音质量参数相加获得语音信号的质量评估参数。

第三方面，本发明实施例还提供了一种语音质量评估设备，包括存储器和处理器，存储器用于存储应用程序；处理器用于执行应用程序以用于执行上述第一方面的一种语音质量评估方法中的全部或部分步骤。

第四方面，本发明还提供一种计算机存储介质，该介质存储有程序，该程序执行上述第一方面的一种语音质量评估方法中的部分或者全部步骤。

从以上技术方案可以看出，本发明实施例的方案具有如下有益效果：

本发明实施例提供的语音质量评估方法直接获取输入的语音信号的时域包络，对时域包络进行时频变换得到包络频谱，对包络频谱进行特征提取获得发音特征参数，之后，根据发音特征参数获得该段输入的第一语音质量参数，且根据网络参数评估模型进行计算获得第二语音质量参数，根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数。本方案在没有基于高复杂度的耳蜗滤波器来模仿听觉感知的条件下，提取影响通信语音质量的主要影响因素，实现对语音信号的质量评估，从而降低了计算复杂度，避免资源的消耗。

附图说明

图1为本发明实施例中语音质量评估方法的一种流程图；

图2为本发明实施例中语音质量评估方法的另一种流程图；

图3为本发明实施例中经离散小波变换得到的子带信号示意图；

图4为本发明实施例中语音质量评估方法的另一种流程图；

图5为本发明实施例中基于神经网络的语音质量评估示意图；

图6为本发明实施例中语音质量评估装置的功能模块示意图；

图7为本发明实施例中语音质量评估设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例的语音质量评估方法可以应用于各种应用场景，典型的应用场景包括终端侧和网络侧的语音质量检测。

其中，应用到终端侧的语音质量检测的典型应用场景是将使用本发明实施例技术方案的装置嵌入到移动电话中、或移动电话使用本发明实施例的技术方案，对通话中的语音质量进行评估。具体地，对于通话中的一侧移动电话，其接收到码流后通过解码，可以重构出语音文件；将该语音文件作为本发明实施例的输入的语音信号，可以获得接收到的语音的质量；该语音质量基本反映出用户真实听到的语音质量。因此，通过在移动电话中使用本发明实施例所涉及的技术方案，可以有效地评估出用户听到的真实的语音质量。

此外一般地，语音数据需要通过网络中的若干节点后，才能传递到接收方。由于一些因素影响，在经过网络传递后，语音质量有可能下降。因此，检测网络侧各节点的语音质量是非常有意义的。然而，现有很多方法更多地反映了传输层面的质量，并不一一对应于人的真实感受。因此，可以考虑将本发明实施例所述的技术方案应用到各网络节点，同步地进行质量预测，找到质量瓶颈。例如：对于任意网络结果，我们通过分析码流，选择特定的解码器，对码流进行本地解码，重构出语音文件；将该语音文件作为本发明实施例的输入的语音信号，可以获得该节点的语音质量；通过对比不同节点的语音质量，我们可以定位出质量需要改进的节点。因此，此应用对于运营商进行网优可以起到重要的辅助作用。

图1是本发明实施例的语音质量评估方法的流程图，该方法可以由语音质量评估装置执行，如图1所示，该方法包括：

101、获取语音信号的时域包络；

一般语音质量评估是实时的，每接收到一个时间分段的语音信号就进行语音质量评估的流程处理。这里的语音信号可以是以帧为单位，即接收到一个语音信号帧就进行语音质量评估的流程，此处语音信号帧代表的是一定时长的语音信号，其时长可以由用户根据需要设定。

有关研究表明，语音信号包络携带着有关语音认知理解的重要信息。因此，语音质量评估装置每接收到的一个时间分段的语音信号，就获取该时间分段的语音信号的时域包络。

可选的，本发明利用希尔伯特变换理论，构造相应的解析信号，由原始语音信号与该信号的希尔伯特变换信号来获取该语音信号的时域包络。例如可以构造解析信号z(n)＝x(n)+jx(n)，其中，n表示信号编号，x(n)为原始信号，x(n)为原始信号x(n)的希尔伯特变换，j是虚数部分。则原始信号x(n)的包络可以表示为原始信号与其调和信号求平方求和再开方：

102、对时域包络进行时频变换得到包络频谱；

经过前期大量实验以及语音学和生理学的相关研究表明：信号域中表征语音质量的重要因素就是语音信号包络频谱内容在频谱域内的分布，因此，在获取了一个时间分段的语音信号的时域包络后，对该时域包络进行时间-频率的变换得到包络频谱。

可选的，在实际应用中，对时域包络进行时频变换的方式有多种，可以采用短时傅里叶变换，小波变换等信号处理方式。

短时傅里叶变换其实质是在做傅里叶变换前，加一个时间窗函数(一般时间跨度较短)。当明确突变信号的时间分辨率需求时，选择重写长度的短时傅里叶变换，可以获得满意的效果。然而，短时傅里叶变换的时间或者频率分辨率取决于窗长，并且窗长一旦确定，无法更改。

小波变换可通过设定尺度，确定时间-频率分辨率。每一个尺度对应着待定的时间-频率分辨率的折衷。因此，通过变化尺度，可自适应地获得合适的时间-频率分辨率，换言之，能够根据实际情况，在时间分辨率和频域分辨率间取得一个适宜的折衷，以进行其他后续的处理。

103、对包络频谱进行特征提取获得特征参数；

在对时域包括进行时频变换得到包络频谱后，通过发音分析对语音信号的包络频谱进行分析，提取包络频谱中的特征参数。

104、根据特征参数计算语音信号的第一语音质量参数。

在获得了发音特征参数后，根据发音特征参数计算语音信号的第一语音质量参数。语音信号的质量参数可以通过平均意见分(MOS，Mean Opinion Score)来表征，MOS的取值范围为1至5分。

105、通过网络参数评估模型计算语音信号的第二语音质量参数；

在语音质量评估的过程中，考虑到语音通信网络中信号中断，静默等也会影响用户的语音感知质量，因此本发明考虑语音通信网络中影响语音信号质量的信号域因素：中断、静默等网络环境对语音质量的影响，引入网络传输层面的参数评估模型对语音信号进行语音质量的评估。

通过网络参数评估模型对输入的语音信号进行质量评估得到以网络参数度量的语音质量，此处根据网络参数度量的语音质量为第二语音质量参数。

具体的，语音通信网络中影响语音信号质量的网络参数包括但不限于：编码器、编码码率、丢包率、网络延时等参数。不同的网络参数可以通过不同的网络参数评估模型来获得语音信号的语音质量参数，下面以基于编码码率评估模型和基于丢包率评估模型来举例进行说明。

可选的，通过如下公式计算语音信号以码率度量的语音质量参数：

其中，Q₁为以码率度量的语音质量参数，可以用Mos分来表征，Mos分的取值范围为1至5。B为语音信号的编码码率，c、d和e为预设模型参数，这些参数可借助语音主观数据库的样本训练获得，c、d和e均为有理数，其中c和d的取值不为0。一组可行的经验值如下：

参数	c	d	e
				值	1.377	2.659	1.386

可选的，通过如下公式计算语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P

其中，Q₂为以丢包率度量的语音质量参数，可以用Mos分来表征，Mos分的取值范围为1至5分。P为语音信号的编码码率，e、f和g为预设模型参数，这些参数可借助语音主观数据库的样本训练获得，e、f和g均为有理数，其中f的取值不为0。一组可行的经验值如下：

参数	e	f	g
				值	1.386	1.42	0.1256

需要说明的是，第二语音质量参数可以是通过多个网络参数评估模型获得的多个语音质量参数，例如：第二语音质量参数可以是上述以码率度量的语音质量参数和以丢包率度量的语音质量参数。

106、根据第一语音质量参数和第二语音质量参数进行分析获得语音信号的质量评估参数。

将步骤104中根据特征参数获得的第一语音质量参数和步骤105中根据网络参数评估模型计算的第二语音质量参数进行联合分析，从而获得语音信号的语音质量评估参数。

可选的，一种可行的方式是将第一语音质量参数与第二语音质量参数相加获得语音信号的质量评估参数。

例如：如果步骤105中根据网络参数评估模型计算的第二语音质量参数有以码率度量的语音质量参数Q₁和以丢包率度量的语音质量参数Q₂，步骤104中根据特征参数获得的第一语音质量参数，则最终语音信号的质量评估参数为：

Q＝Q₁+Q₂+Q₃。

一般，最终的质量评估参数采取ITU-T P.800的测试方法，输出的MOS值是1～5分。

本发明实施例提供的语音质量评估方法并没有基于高复杂度的耳蜗滤波器来模仿听觉感知，而是直接获取输入的语音信号的时域包络，对时域包络进行时频变换得到包络频谱，对包络频谱进行特征提取获得发音特征参数，之后，根据发音特征参数获得该段输入的语音信号的第一语音质量参数，且根据网络参数评估模型进行计算获得第二语音质量参数，根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数。从而降低了计算复杂度，占用资源少，且涵盖了影响通信语音质量的主要影响因素。

在实际应用中，对包络频谱进行特征提取的方式有多种，其中一种为通过确定发音功率段功率与非发音功率段功率的比值，通过该比值来获取第一语音质量参数，下面结合图2进行详细介绍。

201、获取语音信号的时域包络；

获取输入信号的时域包络，具体获取时域包络的方式与图1所示的实施例中的步骤101相同。

202、对时域包络加汉明窗执行离散傅里叶变换得到包络频谱；

通过对时域包络加相应汉明窗执行离散傅里叶变换来进行时频变换，获得该时域包络的包络频谱。该包络频谱为A(f)＝FFT(γ(n).Ham min gWindow)，在本发明实施例中，为了提高傅里叶变换的效率，使用其快速算法FFT。

203、确定包络频谱中发音功率频段的功率与不发音功率频段的功率的比值；

发音分析对语音信号的包络频谱进行分析，提取包络频谱中与人体发声系统相关联的频谱段和与人体发声系统不相关联的频谱段作为发音特征参数。其中，与人体发声系统相关联的频谱段定义为发音功率段，与人体发声系统不相关联的频谱段定义为不发音功率段。

优选的，本发明实施例根据人体发声系统的原理定义发音功率段与非发音功率段。人体声带振动大致频率为30Hz以下，而人体听觉系统所能感受到的失真，来自于30Hz以上频谱段。因此，将语音包络频谱2-30Hz频段关联为发音功率频段，；将30Hz以上频谱段关联为不发音功率频段。

因为发音功率段功率反应与自然的人的语音有关的信号分量，非发音功率段功率反应以超出人的发音系统的速度的速率产生的在感觉上的失真。因为，确定发音功率段功率(articulation)P_A与不发音功率段功率(non-articulation)P_NA的比值

以发音功率段功率和不发音功率段功率比值

作为衡量语音感知质量的重要参量，利用该比值给出语音质量评估。

具体是2-30Hz频段功率为发音功率段功率P_A；将30Hz以上频谱段的功率为不发音功率段功率P_NA。

204、根据发音功率频段的功率与不发音功率频段的功率比值确定语音信号的第一语音质量参数。

在获得发音特征参数—发音功率段功率与不发音功率段功率比值ANR后，通信语音质量参数可表示为ANR的函数：

y＝f(ANR)

其中，y代表由发音功率和不发音功率比值决定的通信语音质量参数。ANR为发音功率和不发音功率的比值。

在一种可能的实现方式中，y＝ax^b，其中x为发音功率频段的功率和不发音功率频段的功率的比值ANR，a和b为通过样本数据训练出来的模型参数，a和b的取值依赖于训练数据的分布，其中，a和b均为有理数，a的取值不能为0。一组可用的模型参数为a＝18，b＝0.72。当用Mos分来表征语音质量参数时，y的取值范围为1至5。

在一种可能的实现方式中，y＝a ln(x)+b，其中，x为发音功率频段的功率和不发音功率频段的功率的比值ANR，a和b为通过样本数据训练出来的模型参数，a和b的取值依赖于训练数据的分布，其中，a和b均为有理数，其中，a的取值不能为0，一组可用的模型参数为a＝4.9828，b＝15.098。当用Mos分来表征语音质量参数时，y的取值范围为1至5。

需要说明的是，发音功率频谱不应当仅限于人的发音频率范围或上述2-30Hz的频率范围；同样的，非发音功率频谱不应当仅限于大于与发音功率有关的频率范围。非发音功率频谱可以与发音功率频谱范围重叠或相邻，或可以不与发音功率范围的重叠或相邻，若重叠，则重叠部分可以被认为是发音功率频段，也可以被认为是非发音功率频段。

本发明实施例中，通过对语音信号的时域包络进行时频变换得到包络频谱，从包络频谱中提取发音功率频段和不发音功率频段，将发音功率频段功率和不发音功率频段功率的比值作为发音特征参数，将该比值作为衡量语音感知质量的重要参量，利用该比值计算第一语音质量参数。该方案计算复杂度低，资源消耗少，简洁有效的特性可以应用于语音通信网络通信质量的评估和监测。

另一种对包络频谱进行特征提取的方式为对包络进行小波变换后，求每个子带信号的平均能量，下面进行详细介绍。

虽然根据心理听觉理论，我们可以以30Hz作为人体发声系统发音功率段和不发音功率段分段点，并且分别对低带和高带两部分，进行特征提取；然而，对于30Hz以上频带，上述实施例对声音质量的贡献没有做更为具体的分析。因此，本发明实施例提供了另一种提取更多的发音特征参数的方法，具体是对语音信号进行小波离散变换得到的N+1个带子信号，计算N+1个子带信号的平均能量，通过N+1个子带信号的平均能量来计算语音质量参数。下面进行详细介绍。

以窄带语音为例，对于采样率为8kHz的语音信号，经过离散小波变换，可以得到若干子带信号。如图3所示，我们可以对输入的语音信号进行分解，如果分解级数为8，我们可以获得一系列子带信号{a₈,d₈,d₇,d₆,d₅,d₄,d₃,d₂,d₁}。按照小波理论，a表示小波分解的估计部分子带信号，d表示小波分解的细节部分子带信号；并且，基于上述子带信号，我们可以完全重构语音信号。与此同时，我们也给出了不同子带信号涉及的频率范围；特别地，a₈和d₈涉及30Hz以下的发音功率段，d₇…d₁涉及30Hz以上的不发音功率段。

本实施例的实质，基于上述子带信号的能量作为输入，决定通信语音的质量参数。具体如下：

401、获取语音信号的时域包络；

402、对时域包络进行离散小波变换得到N+1个子带信号；

对信号时域包络进行离散小波变换，根据采样率，确定分解级数N，确保a_N和d_N涉及30Hz以下的发音功率段。例如：对于8kHz采样率的语音信号，N＝8；对于16kHz采样率的语音信号，N＝9；以此类推，本实施例可以适用于其它不同采样率的语音信号。在对信号时域包括进行离散小波变换后，可获得N+1个子带信号。

403、分别计算N+1个子带信号的平均能量作为对应子带信号的特征参数；

将离散小波阶段获得的N+1个子带信号，分别通过如下公式计算对应的平均能量，作为对应子带信号的特征值，即特征参数：

其中，a和d分别表示小波分解的估计部分和细节部分，如图3所示，a1至a8表示小波分解的估计部分的子带信号，d1至d8表示小波分解的细分部分的子带信号，W_i ^(a)和W_i ^(d)分别表示估计部分的子带信号的平均能量值和细节部分的子带信号的平均能量值；S_i表示具体的子带信号，i是子带信号的索引，i的上界为N，N是分解级数，例如：如图3所示，对于8kHz的语音信号，N＝8；j是对应子带下的估计或者细节部分的子带信号的索引，j的上界是M，M是子带信号长度，M_i ^(a)和M_i ^(d)分别表示估计部分子带信号的长度和细节部分子带信号的长度。

404、根据N+1个子带信号的平均能量，通过神经网络获得语音信号的第一语音质量参数。

在通过上述公式计算得到N+1个子带信号的特征参数后，通过神经网络或机器学习方法对语音信号进行评估。

目前，在语音处理方面，大量的使用神经网络或者机器学习方法，比如语音识别。通过一定学习的过程，可以获得稳定的系统；从而输入新的样本时，可以准确预测出输出值。图5就是典型的一种神经网络的结构，对于N_I个输入变量(本发明实施例中N_I＝N+1)，通过映射函数获得N_H个隐层变量；再通过映射函数映射为1个输出变量，其中N_H小于N+1。

具体地，针对语音质量评价，在经过前面步骤获得N+1个特征参数后，调用下面的映射函数，即可获得语音质量参数。

上述映射函数定义如下：

步骤404中的三个映射函数是神经网络里经典的Sigmoid函数的形式。其中，a为映射函数的斜率，a为有理数，取值不能为0，可选的取值为a＝0.3。G₁(x)和G₂(x)的值域根据实际场景，可以做限定。比如说，如果我们的预测模型的结果是失真，那值域为[0,1.0]。p_jk和p_j分别用于将输入层变量映射到隐层变量、以及将隐层变量映射到输出变量，p_jk和p_j是根据训练集的数据分布训练获得的有理数。需要说明的是，上述参数值，可以参考一般的神经网络训练方法，选择一定数量主观数据库训练获得。

优选的，实际应用中，通常用MOS来表征语音质量，MOS的取值范围为1至5分。因此，需要将上式中获得y进行一个如下的映射，获得MOS分：

MOS＝-4.y+5。

本发明实施例中，通过本发明实施例提供了另一种提取更多的发音特征参数的方法，通过对语音信号进行小波离散变换得到的N+1个带子信号，计算N+1个子带信号的平均能量，将N+1个子带信号的平均能量作为神经网络模型的输入变量，从而得出神经网络的输出变量，再进行映射得到表征该语音信号质量的MOS分值，从而获得第一语音质量参数。因此，能够通过提取更多特征参数，通过低复杂度的计算来进行语音质量的评估。

可选的，一般语音质量评估是实时的，每接收到一个时间分段的语音信号就进行语音质量评估的流程处理。对于当前时间分段的语音信号的语音质量评估的结果，可以看成是短时的语音质量评估的结果。为了更加客观，对该语音信号的语音质量评估的结果与至少一个历史语音信号的语音质量评估的结果进行合并，获得综合语音质量评估结果。

例如：一般待评估的语音数据长达5秒甚至更长。为了处理的方面，我们一般要把语音数据分解成若干帧，各帧帧长一致(比如64毫秒)。我们可以对每帧作为待评估的语音信号，调用本发明实施例中的方法来计算帧级的语音质量参数；然后，将各帧的语音质量参数进行合并(优选的，计算各帧级语音质量参数的平均值)，获得整个语音数据的质量参数。

上面是对语音质量评估方法进行介绍，下面从功能模块实现角度对本发明实施例中的语音质量评估装置进行介绍。

该语音质量评估装置可以嵌入到移动电话中对通话中的语音质量进行评估；还可以位于网络中作为一个网络节点，或嵌入在网络中的其他网络设备中，同步地进行质量预测。具体的应用方式此处不做限定。

结合图6，本发明实施例提供了一种语音质量评估装置6，包括：

获取模块601，用于获取语音信号的时域包络；

时频变换模块602，用于对时域包络进行时频变换得到包络频谱；

特征提取模块603，用于对包络频谱进行特征提取获得特征参数；

第一计算模块604，用于根据所述特征参数计算所述语音信号的第一语音质量参数；

第二计算模块605，用于通过网络参数评估模型计算所述语音信号的第二语音质量参数；

质量评估模块606，用于根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数。

本发明实施例中语音质量评估装置6的各功能模块之间的交互过程可以参阅前述图1所示的实施例中的交互过程，具体此处不再赘述。

本发明实施例提供的语音质量装置6并没有基于高复杂度的耳蜗滤波器来模仿听觉感知，而是通过获取模块601直接获取输入的语音信号的时域包络，时频变换模块602对时域包络进行时频变换得到包络频谱，特征提取模块603对包络频谱进行特征提取获得发音特征参数，之后，第一计算模块604根据发音特征参数获得该段输入的语音信号的第一语音质量参数，第二计算模块605根据网络参数评估模型进行计算获得第二语音质量参数，质量评估模块606根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数。因此，本发明实施例在涵盖了影响通信语音质量的主要影响因素的基础上，能够降低计算复杂度，减少占用的资源。

在一些具体的实施中，获取模块601，具体用于通过对语音信号进行希尔波特变换得到语音信号的希尔伯特变换信号，再根据语音信号与语音信号的希尔波特变换信号获取语音信号的时域包络。

在一些具体的实施中，时频变换模块602，具体用于对时域包络加汉明窗执行离散傅里叶变换得到包络频谱。

在一些具体的实施中，特征提取模块603，具体用于确定包络频谱中的发音功率频段和不发音功率频段，所述特征参数为发音功率频段的功率与不发音功率频段的功率的比值。

第一计算模块604，具体用于通过如下函数计算语音信号的第一语音质量：

y＝ax^b；

其中，x为发音功率频段的功率和不发音功率频段的功率的比值，a和b为通过样本实验测试得出模型参数，其中，a的取值不能为0，当用Mos分来表征语音质量参数时，y的取值范围为1至5。一组可用的模型参数为a＝18，b＝0.72。

第一计算模块604，具体用于通过如下函数计算所述语音信号的第一语音质量参数：

y＝a ln(x)+b；

其中，x为所述发音功率频段的功率和不发音功率频段的功率的比值，a和b为模型参数，通过样本实验测试得出，其中，a的取值不能为0，当用Mos分来表征语音质量参数时，y的取值范围为1至5。一组可用的模型参数为a＝4.9828，b＝15.098。

在一些具体的实施中，发音功率频段为包络频谱中频率点为2至30Hz的频段，不发音功率频段为包络频谱中频率点大于30Hz的频段。如此，本发明实施例根据人体发声系统的原理定义发音功率段与非发音功率段，符合人体的发音心理听觉理论。

以上具体实施中的各功能模块之间的交互过程可以参阅前述图2所示的实施例中的交互过程，具体此处不再赘述。

在一些具体的实施中，时频变换模块602，具体用于对时域包络进行离散小波变换获得N+1个子带信号，N+1个子带信号为包络频谱。特征提取模块603，具体用于分别计算N+1个子带信号对应的平均能量得到N+1个平均能量值，N+1个平均能量值为特征参数，其中N为正整数。

在一些具体的实施中，第一计算模块604，具体用于将N+1个平均能量值作为神经网络的输入层变量，通过第一映射函数获得N_H个隐层变量，再将所述N_H个隐层变量通过第二映射函数映射获得输出变量，根据输出变量获得语音信号的第一语音质量参数，所述N_H小于N+1。

以上具体实施中的各功能模块之间的交互过程可以参阅前述图4所示的实施例中的交互过程，具体此处不再赘述。

在一些具体的实施中，网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个；第二计算模块605，具体用于：

和/或，

在一些具体的实施中，第二计算模块605具体用于：

通过如下公式计算语音信号以码率度量的语音质量参数：

其中，Q₁为以码率度量的语音质量参数，可以用Mos分来表征，Mos分的取值范围为1至5分。B为语音信号的编码码率，c、d和e为预设模型参数，这些参数可借助语音主观数据库的样本训练获得，c、d和e均为有理数，其中c和d的取值不为0。

在一些具体的实施中，第二计算模块605具体用于：

通过如下公式计算语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P

其中，Q₂为以丢包率度量的语音质量参数，可以用Mos分来表征，Mos分的取值范围为1至5分。P为语音信号的编码码率，e、f和g为预设模型参数，这些参数可借助语音主观数据库的样本训练获得，e、f和g均为有理数，其中f的取值不为0。

在一些具体的实施中，质量评估模块606具体用于：

在一些具体的实施中，质量评估模块606，还用于计算语音信号的语音质量与至少一个先前的语音信号的语音质量的平均值，获得综合语音质量。

下面从硬件结构角度对本发明实施例中的语音质量评估设备7进行介绍。

图7为本发明实施例提供了一种语音质量评估设备的示意图，在实际应用中，该设备可以是具有语音质量评估功能的移动电话；还可以在网络中的一个具有语音评估功能的设备，具体的物理实体呈现此处不做具体的限定。

该语音质量评估设备7至少包括一个存储器701和处理器702。

其中，存储器701可以包括只读存储器和随机存取存储器，并向处理器702提供指令和数据，存储器701的一部分还可以包括可能包含高速随机存取存储器(RAM，RandomAccess Memory)，也可能还包括非不稳定的存储器(non-volatile memory)。

存储器701存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器702用于执行应用程序以用于执行图1、图2或图4所示的实施例中的语音质量评估方法中的全部或部分步骤。

另外，本发明还提供一种计算机存储介质，该介质存储有程序，该程序执行图1、图2或图4所示实施例中的一种语音质量评估方法中的部分或者全部步骤。

需要说明的是，本发明的说明书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音质量评估方法，其特征在于，包括：

获取语音信号的时域包络；

对所述时域包络进行时频变换得到包络频谱；

对所述包络频谱进行特征提取获得特征参数；

根据所述特征参数计算所述语音信号的第一语音质量参数；

通过网络参数评估模型计算所述语音信号的第二语音质量参数；

根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数；

所述网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个评估模型；

通过网络参数评估模型计算所述语音信号的第二语音质量参数包括：

通过所述码率评估模型计算所述语音信号以码率度量的语音质量参数；

通过所述丢包率评估模型计算所述语音信号以丢包率度量的语音质量参数；

所述通过所述码率评估模型计算所述语音信号以码率度量的语音质量参数包括：

通过如下公式计算所述语音信号以码率度量的语音质量参数：

其中，所述Q₁为所述以码率度量的语音质量参数，所述B为所述语音信号的编码码率，所述c、d和e为预设模型参数，均为有理数；

所述通过所述丢包率评估模型计算所述语音信号以丢包率度量的语音质量参数包括：

通过如下公式计算所述语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P

其中，所述Q₂为以丢包率度量的语音质量参数，所述P为所述语音信号的编码码率，所述e、f和g为预设模型参数，均为有理数。

2.根据权利要求1所述的方法，其特征在于，所述对所述包络频谱进行特征提取获得特征参数包括：

确定所述包络频谱中的发音功率频段和不发音功率频段，所述特征参数为所述发音功率频段的功率与所述不发音功率频段的功率的比值；其中，所述发音功率频段为所述包络频谱中频率点为2至30Hz的频段，所述不发音功率频段为所述包络频谱中频率点大于30Hz的频段。

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征参数计算所述语音信号的第一语音质量参数包括：

通过如下函数计算所述语音信号的第一语音质量参数：

y＝ax^b

4.根据权利要求2所述的方法，其特征在于，所述根据所述特征参数计算所述语音信号的第一语音质量参数包括：

通过如下函数计算所述语音信号的第一语音质量参数：

y＝aln(x)+b

5.根据权利要求1所述的方法，其特征在于，所述对所述时域包络进行时频变换得到包络频谱包括：

对所述时域包络进行离散小波变换获得N+1个子带信号，所述N为正整数；

所述对所述包括频谱进行特征提取获得特征参数包括：

分别计算所述N+1个子带信号对应的平均能量得到N+1个平均能量值，所述N+1个平均能量值为所述特征参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述特征参数计算所述语音信号的第一语音质量参数包括：

将所述N+1个平均能量值作为神经网络的输入层变量，通过第一映射函数获得N_H个隐层变量，将所述N_H个隐层变量通过第二映射函数映射获得输出变量，根据所述输出变量获得所述语音信号的第一语音质量参数，所述N_H小于N+1。

7.根据权利要求1至6中任一项所述的方法，其特征在于，根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数包括：

将所述第一语音质量参数与所述第二语音质量参数相加获得所述语音信号的质量评估参数。

8.一种语音质量评估装置，其特征在于，包括：

获取模块，用于获取语音信号的时域包络；

时频变换模块，用于对所述时域包络进行时频变换得到包络频谱；

特征提取模块，用于对所述包络频谱进行特征提取获得特征参数；

第一计算模块，用于根据所述特征参数计算所述语音信号的第一语音质量参数；

第二计算模块，用于通过网络参数评估模型计算所述语音信号的第二语音质量参数；

质量评估模块，用于根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数；

所述网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个；

所述第二计算模块，具体用于：

所述第二计算模块具体用于：

所述第二计算模块具体用于：

Q₂＝fe^-g.P

9.根据权利要求8所述的装置，其特征在于：

所述特征提取模块，具体用于确定所述包络频谱中的发音功率频段和不发音功率频段，所述特征参数为所述发音功率频段的功率与所述不发音功率频段的功率的比值；其中，所述发音功率频段为所述包络频谱中频率点为2至30Hz的频段，所述不发音功率频段为所述包络频谱中频率点大于30Hz的频段。

10.根据权利要求9所述的装置，其特征在于：

所述第一计算模块，具体用于通过如下函数计算所述语音信号的第一语音质量参数：

y＝ax^b；

11.根据权利要求9所述的装置，其特征在于：

y＝aln(x)+b；

12.根据权利要求8所述的装置，其特征在于：

所述时频变换模块，具体用于对所述时域包络进行离散小波变换获得N+1个子带信号，所述N+1个子带信号为所述包络频谱，所述N为正整数；

所述特征提取模块，具体用于分别计算所述N+1个子带信号对应的平均能量得到N+1个平均能量值，所述N+1个平均能量值为所述特征参数。

13.根据权利要求12所述的装置，其特征在于：

第一计算模块，具体用于将所述N+1个平均能量值作为神经网络的输入层变量，通过第一映射函数获得N_H个隐层变量，将所述N_H个隐层变量通过第二映射函数映射获得输出变量，根据所述输出变量获得所述语音信号的第一语音质量参数，所述N_H小于N+1。

14.根据权利要求8至13中任一项所述的装置，其特征在于，所述质量评估模块具体用于：

15.一种语音质量评估设备，其特征在于，包括存储器和处理器，其中：

存储器用于存储应用程序；

处理器用于执行所述应用程序以用于：

获取语音信号的时域包络，对所述时域包络进行时频变换得到包络频谱，对所述包络频谱进行特征提取获得特征参数，根据所述特征参数计算所述语音信号的第一语音质量参数；通过网络参数评估模型计算所述语音信号的第二语音质量参数；根据所述第一语音质量参数和所述第二语音质量参数进行分析获得所述语音信号的质量评估参数；所述网络参数评估模型包括码率评估模型和丢包率评估模型中的至少一个评估模型；

通过网络参数评估模型计算所述语音信号的第二语音质量参数包括：通过所述码率评估模型计算所述语音信号以码率度量的语音质量参数；

所述通过所述码率评估模型计算所述语音信号以码率度量的语音质量参数包括：通过如下公式计算所述语音信号以码率度量的语音质量参数：

所述通过所述丢包率评估模型计算所述语音信号以丢包率度量的语音质量参数包括：通过如下公式计算所述语音信号以丢包率度量的语音质量参数：

Q₂＝fe^-g.P