CN111210834A - 语音夸张系统 - Google Patents
语音夸张系统 Download PDFInfo
- Publication number
- CN111210834A CN111210834A CN201811386157.7A CN201811386157A CN111210834A CN 111210834 A CN111210834 A CN 111210834A CN 201811386157 A CN201811386157 A CN 201811386157A CN 111210834 A CN111210834 A CN 111210834A
- Authority
- CN
- China
- Prior art keywords
- exaggeration
- voice
- exaggerated
- phoneme
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音夸张系统,包括语音输入模块,在语音夸张模型建立前获取正常语音和夸张语音,并于语音夸张模型建立后获取所需夸张的语音,分别传输至语音夸张模块;语音夸张模块,利用深度神经网络得出夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数,根据夸张参数建立语音夸张模型,采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理,输出夸张后的语音。本发明通过夸张正确读音来增强学习者对正确读音的感知,助力语言学习,另外可以应用于语音合成(TTS)等领域。
Description
技术领域
本发明涉及一种语音夸张系统。
背景技术
非母语学习过程中,听力和口语是学习的重点,能够将非母语听正确并且说明白才算真正的掌握了非母语,听力是口语的基础,只有听到正确读音,才能说出正确的读音。现有的语言辅助学习装置只能重复播放正确语音,不能夸张正确读音来增强学习者对正确读音的感知。
发明内容
本发明提出一种语音夸张系统,解决了现有技术中不能夸张正确读音来增强学习者对正确读音的感知的问题。
本发明的技术方案是这样实现的:
一种语音夸张系统,包括
语音输入模块,在语音夸张模型建立前获取正常语音和夸张语音,并于语音夸张模型建立后获取所需夸张的语音,分别传输至语音夸张模块;
语音夸张模块,利用深度神经网络得出夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数,根据夸张参数建立语音夸张模型,采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理,输出夸张后的语音。
优选的,正常语音和夸张语音包含若干音素,提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级,与当前夸张音素的ID组成输入特征向量,将输入特征向量输入深度神经网络,训练出夸张参数,获取输出特征向量。
优选的,将当前夸张音素分为五帧,分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值,构成输出特征向量。
优选的,输出特征向量为1*15矩阵。
优选的,夸张程度由2位二进制数构成,夸张音素的ID由6位二进制数构成,输入特征向量为1*20矩阵。
优选的,夸张程度为无夸张、弱夸张和强夸张。
本发明的有益效果在于:通过夸张正确读音来增强学习者对正确读音的感知,助力语言学习,另外可以应用于语音合成(TTS)等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种语音夸张系统一个实施例的功能框图。
图中,1-语音输入模块;2-语音夸张模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种语音夸张系统,包括
语音输入模块1,在语音夸张模型建立前获取正常语音和不同夸张程度的夸张语音,并于语音夸张模型建立后获取所需夸张的语音,分别传输至语音夸张模块2;
语音夸张模块2,利用深度神经网络得出不同夸张程度的夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数,根据夸张参数建立语音夸张模型,采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理,输出夸张后的语音。
本发明主要从三个方面来夸张语音,音高(pitch)、音长(duration)和音量(intensity);音高主要指声音的基频,如女性的音高较高,而男性的音高较低,单位:半音程;音长主要指声音持续的时间,单位:s;音量从听觉上反应声音的大小,单位:dB。
正常语音和夸张语音包含若干音素,提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级,与当前夸张音素的ID组成输入特征向量,将输入特征向量输入深度神经网络,训练出夸张参数,获取输出特征向量。
将当前夸张音素分为五帧,分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值,构成输出特征向量。输出特征向量为1*15矩阵。
夸张程度由2位二进制数构成,夸张音素的ID由6位二进制数构成,输入特征向量为1*20矩阵。所述夸张语音的夸张程度为无夸张、弱夸张和强夸张。
将夸张的音素分为无夸张(0,0)、弱夸张(0,1)和强夸张(1,0)三个等级,将当前夸张音素及前后各三个音素的夸张等级,另外加上当前夸张语音中的夸张的音素的id(6位二进制数),组成一个1x20的特征向量。
将所需要夸张的音素输入神经网络,得到所需要夸张的音素和正常音素的三个参数的差值。假设原来的值为音高P1,音长D1,音量I1,则夸张后的值为音高P2,音长D2,音量I2,其各自的单位依次为半音程、s和dB。
P2=P1+ΔP
D2=D1+ΔD
I2=I1+ΔI
△P为音高差值,△D为音长差值,△I为音量差值。
以音量的调整为例,对分成的五帧音素分别进行处理。假设五帧提高的音量分别为5dB,4dB,3dB,4dB,5dB,每帧音素中从0.1倍时间长度到0.9倍时间长度,处于恒定的状态。比如第一帧有100ms,则第10ms到90ms,音压p2为:
p2=p1*105/20
音压p2和音压p1的单位为Pa。音压p1是一个标准压强,为0.02Pa。
而从0ms到10ms,以及90ms到110ms则有一个线性的过渡。以0ms到10ms的过渡为例:
b=I2-k1*x=5-0.5*10=0
I=I1*10(k1*x+b)/20,0<x<10ms
当调整的量为音量时,k1代表了音量I过渡的速度的快慢即斜率,单位为dB/ms。b代表过渡开始时音量的大小,单位为dB
对于半音程,假设两个音高的半音程的差为Δsemitone,两个音高以Hz为单位时分别为F1和F2,则有转换公式:
本发明的有益效果在于:通过夸张正确读音来增强学习者对正确读音的感知,助力语言学习,另外可以应用于语音合成(TTS)等领域。
上述技术方案公开了本发明的改进点,未详细公开的技术内容,可由本领域技术人员通过现有技术实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种语音夸张系统,其特征在于:包括
语音输入模块,在语音夸张模型建立前获取正常语音和夸张语音,并于语音夸张模型建立后获取所需夸张的语音,分别传输至语音夸张模块;
语音夸张模块,利用深度神经网络得出夸张语音较正常语音在音高、音长和音量三方面对应的夸张参数,根据夸张参数建立语音夸张模型,采用语音夸张模型对已标注所需夸张程度的所需夸张的语音进行处理,输出夸张后的语音。
2.根据权利要求1所述的语音夸张系统,其特征在于:正常语音和夸张语音包含若干音素,提取夸张语音中的当前夸张音素及其前三、后三个夸张音素的夸张等级,与当前夸张音素的ID组成输入特征向量,将输入特征向量输入深度神经网络,训练出夸张参数,获取输出特征向量。
3.根据权利要求2所述的语音夸张系统,其特征在于:将当前夸张音素分为五帧,分别提取每帧与正常语音的音素对应的音高差值、音长差值和音量差值,构成输出特征向量。
4.根据权利要求3所述的语音夸张系统,其特征在于:输出特征向量为1*15矩阵。
5.根据权利要求2所述的语音夸张系统,其特征在于:夸张程度由2位二进制数构成,夸张音素的ID由6位二进制数构成,输入特征向量为1*20矩阵。
6.根据权利要求2或5所述的语音夸张系统,其特征在于:夸张程度为无夸张、弱夸张和强夸张。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811386157.7A CN111210834A (zh) | 2018-11-20 | 2018-11-20 | 语音夸张系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811386157.7A CN111210834A (zh) | 2018-11-20 | 2018-11-20 | 语音夸张系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111210834A true CN111210834A (zh) | 2020-05-29 |
Family
ID=70786365
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811386157.7A Pending CN111210834A (zh) | 2018-11-20 | 2018-11-20 | 语音夸张系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111210834A (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1118493A (zh) * | 1994-08-01 | 1996-03-13 | 中国科学院声学研究所 | 基音同步波形叠加汉语文语转换系统 |
| CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
| CN106203626A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇虎科技有限公司 | 汽车驾驶行为检测方法及装置、汽车 |
| CN107682561A (zh) * | 2017-11-10 | 2018-02-09 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端及存储介质 |
-
2018
- 2018-11-20 CN CN201811386157.7A patent/CN111210834A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1118493A (zh) * | 1994-08-01 | 1996-03-13 | 中国科学院声学研究所 | 基音同步波形叠加汉语文语转换系统 |
| CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
| CN106203626A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇虎科技有限公司 | 汽车驾驶行为检测方法及装置、汽车 |
| CN107682561A (zh) * | 2017-11-10 | 2018-02-09 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
| CN108831463B (zh) | 唇语合成方法、装置、电子设备及存储介质 | |
| Aryal et al. | Foreign accent conversion through voice morphing. | |
| KR20150076125A (ko) | 3차원 파노라마 멀티 앵글 투시 영상 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 | |
| CN109493846B (zh) | 一种英语口音识别系统 | |
| Sparks et al. | Investigating the MESA (multipoint electrotactile speech aid): The transmission of connected discourse | |
| TW202036535A (zh) | 改善構音異常語音理解度之系統與方法 | |
| US20160210982A1 (en) | Method and Apparatus to Enhance Speech Understanding | |
| Zetterholm et al. | A comparison between human perception and a speaker verification system score of a voice imitation | |
| US11783813B1 (en) | Methods and systems for improving word discrimination with phonologically-trained machine learning models | |
| CN111210834A (zh) | 语音夸张系统 | |
| Das et al. | Understanding the effect of voice quality and accent on talker similarity | |
| Razak et al. | Emotion pitch variation analysis in Malay and English voice samples | |
| CN117252213B (zh) | 使用合成语音作为监督信息的端到端语音翻译方法 | |
| JP4517457B2 (ja) | 音声認識装置、及び音声認識方法 | |
| Yakcoub et al. | Speech assistive technology to improve the interaction of dysarthric speakers with machines | |
| Tamura et al. | Audio-visual Voice Conversion Using Deep Canonical Correlation Analysis for Deep Bottleneck Features. | |
| Koster | Acoustic-phonetic characteristics of hyperarticulated speech for different speaking styles | |
| Pickett | Sound patterns of speech: An introductory sketch | |
| Kawai et al. | A system for learning the pronunciation of Japanese pitch accent. | |
| Li et al. | An unsupervised two-talker speech separation system based on CASA | |
| CN109346058B (zh) | 一种语音声学特征扩大系统 | |
| Xue | Measuring the intelligibility of pathological speech through subjective and objective procedures | |
| JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
| Weirich | Articulatory and acoustic inter-speaker variability in the production of German vowels |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200529 |
|
| WD01 | Invention patent application deemed withdrawn after publication |