CN111210834A

CN111210834A - 语音夸张系统

Info

Publication number: CN111210834A
Application number: CN201811386157.7A
Authority: CN
Inventors: 骆成品; 钟建生; 李坤; 孙立发
Original assignee: Speechx Ltd
Current assignee: Speechx Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-05-29

Abstract

本发明公开了一种语音夸张系统，包括语音输入模块，在语音夸张模型建立前获取正常语音和夸张语音，并于语音夸张模型建立后获取所需夸张的语音，分别传输至语音夸张模块；语音夸张模块，利用深度神经网络得出夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数，根据夸张参数建立语音夸张模型，采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理，输出夸张后的语音。本发明通过夸张正确读音来增强学习者对正确读音的感知，助力语言学习，另外可以应用于语音合成(TTS)等领域。

Description

语音夸张系统

技术领域

本发明涉及一种语音夸张系统。

背景技术

非母语学习过程中，听力和口语是学习的重点，能够将非母语听正确并且说明白才算真正的掌握了非母语，听力是口语的基础，只有听到正确读音，才能说出正确的读音。现有的语言辅助学习装置只能重复播放正确语音，不能夸张正确读音来增强学习者对正确读音的感知。

发明内容

本发明提出一种语音夸张系统，解决了现有技术中不能夸张正确读音来增强学习者对正确读音的感知的问题。

本发明的技术方案是这样实现的：

一种语音夸张系统，包括

语音输入模块，在语音夸张模型建立前获取正常语音和夸张语音，并于语音夸张模型建立后获取所需夸张的语音，分别传输至语音夸张模块；

语音夸张模块，利用深度神经网络得出夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数，根据夸张参数建立语音夸张模型，采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理，输出夸张后的语音。

优选的，正常语音和夸张语音包含若干音素，提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级，与当前夸张音素的ID组成输入特征向量，将输入特征向量输入深度神经网络，训练出夸张参数，获取输出特征向量。

优选的，将当前夸张音素分为五帧，分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值，构成输出特征向量。

优选的，输出特征向量为1*15矩阵。

优选的，夸张程度由2位二进制数构成，夸张音素的ID由6位二进制数构成，输入特征向量为1*20矩阵。

优选的，夸张程度为无夸张、弱夸张和强夸张。

本发明的有益效果在于：通过夸张正确读音来增强学习者对正确读音的感知，助力语言学习，另外可以应用于语音合成(TTS)等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种语音夸张系统一个实施例的功能框图。

图中，1-语音输入模块；2-语音夸张模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种语音夸张系统，包括

语音输入模块1，在语音夸张模型建立前获取正常语音和不同夸张程度的夸张语音，并于语音夸张模型建立后获取所需夸张的语音，分别传输至语音夸张模块2；

语音夸张模块2，利用深度神经网络得出不同夸张程度的夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数，根据夸张参数建立语音夸张模型，采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理，输出夸张后的语音。

本发明主要从三个方面来夸张语音，音高(pitch)、音长(duration)和音量(intensity)；音高主要指声音的基频，如女性的音高较高，而男性的音高较低，单位：半音程；音长主要指声音持续的时间，单位：s；音量从听觉上反应声音的大小，单位：dB。

正常语音和夸张语音包含若干音素，提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级，与当前夸张音素的ID组成输入特征向量，将输入特征向量输入深度神经网络，训练出夸张参数，获取输出特征向量。

将当前夸张音素分为五帧，分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值，构成输出特征向量。输出特征向量为1*15矩阵。

夸张程度由2位二进制数构成，夸张音素的ID由6位二进制数构成，输入特征向量为1*20矩阵。所述夸张语音的夸张程度为无夸张、弱夸张和强夸张。

将夸张的音素分为无夸张(0，0)、弱夸张(0，1)和强夸张(1，0)三个等级，将当前夸张音素及前后各三个音素的夸张等级，另外加上当前夸张语音中的夸张的音素的id(6位二进制数)，组成一个1x20的特征向量。

将所需要夸张的音素输入神经网络，得到所需要夸张的音素和正常音素的三个参数的差值。假设原来的值为音高P₁，音长D₁，音量I₁，则夸张后的值为音高P₂，音长D₂，音量I₂，其各自的单位依次为半音程、s和dB。

P₂＝P₁+ΔP

D₂＝D₁+ΔD

I₂＝I₁+ΔI

△P为音高差值，△D为音长差值，△I为音量差值。

以音量的调整为例，对分成的五帧音素分别进行处理。假设五帧提高的音量分别为5dB，4dB，3dB，4dB，5dB，每帧音素中从0.1倍时间长度到0.9倍时间长度，处于恒定的状态。比如第一帧有100ms，则第10ms到90ms，音压p₂为：

p₂＝p₁*10^5/20

音压p₂和音压p₁的单位为Pa。音压p₁是一个标准压强，为0.02Pa。

而从0ms到10ms，以及90ms到110ms则有一个线性的过渡。以0ms到10ms的过渡为例：

b＝I₂-k₁*x＝5-0.5*10＝0

I＝I₁*10^(k1*x+b)/20，0＜x＜10ms

当调整的量为音量时，k₁代表了音量I过渡的速度的快慢即斜率，单位为dB/ms。b代表过渡开始时音量的大小，单位为dB

对于半音程，假设两个音高的半音程的差为Δsemitone，两个音高以Hz为单位时分别为F1和F2，则有转换公式：

上述技术方案公开了本发明的改进点，未详细公开的技术内容，可由本领域技术人员通过现有技术实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音夸张系统，其特征在于：包括

2.根据权利要求1所述的语音夸张系统，其特征在于：正常语音和夸张语音包含若干音素，提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级，与当前夸张音素的ID组成输入特征向量，将输入特征向量输入深度神经网络，训练出夸张参数，获取输出特征向量。

3.根据权利要求2所述的语音夸张系统，其特征在于：将当前夸张音素分为五帧，分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值，构成输出特征向量。

4.根据权利要求3所述的语音夸张系统，其特征在于：输出特征向量为1*15矩阵。

5.根据权利要求2所述的语音夸张系统，其特征在于：夸张程度由2位二进制数构成，夸张音素的ID由6位二进制数构成，输入特征向量为1*20矩阵。

6.根据权利要求2或5所述的语音夸张系统，其特征在于：夸张程度为无夸张、弱夸张和强夸张。