CN108831436A - 一种模拟说话者情绪优化翻译后文本语音合成的方法 - Google Patents
一种模拟说话者情绪优化翻译后文本语音合成的方法 Download PDFInfo
- Publication number
- CN108831436A CN108831436A CN201810601584.6A CN201810601584A CN108831436A CN 108831436 A CN108831436 A CN 108831436A CN 201810601584 A CN201810601584 A CN 201810601584A CN 108831436 A CN108831436 A CN 108831436A
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- obtains
- interface
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种模拟说话者情绪优化翻译后文本语音合成的方法,首先获取用户的语音信息;后台对音频文件进行分析,得到频率、语速参数;后台通过导入到声纹识别系统,得到性别、年龄等参数;将语音通过语音识别得到文本信息;通过文本的语法,用词,通过文本语句分析,得出情绪参数;结合频率、语速、性别、年龄、情绪多个特征,设定每个特征的特征值;通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置。从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,使得最终语音翻译合成播报如实反映当前说话者的情绪。
Description
技术领域
本发明涉及一种语音合成的方法,特别涉及一种模拟说话者情绪优化翻译后文本语音合成的方法,属于语音翻译技术领域。
背景技术
目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪。本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
发明内容
本发明要解决的技术问题是克服目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪的缺陷,提供一种模拟说话者情绪优化翻译后文本语音合成的方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
作为本发明的一种优选技术方案,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的结构示意图;
图2是本发明的正视图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
如图1-2所示,本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
具体的,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,其特征在于,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
2.根据权利要求1所述的一种模拟说话者情绪优化翻译后文本语音合成的方法,其特征在于,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810601584.6A CN108831436A (zh) | 2018-06-12 | 2018-06-12 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810601584.6A CN108831436A (zh) | 2018-06-12 | 2018-06-12 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN108831436A true CN108831436A (zh) | 2018-11-16 |
Family
ID=64144893
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810601584.6A Pending CN108831436A (zh) | 2018-06-12 | 2018-06-12 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN108831436A (zh) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109584858A (zh) * | 2019-01-08 | 2019-04-05 | 武汉西山艺创文化有限公司 | 一种基于ai人工智能的虚拟配音方法及其装置 |
| CN109658917A (zh) * | 2019-01-17 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 电子书诵读方法、装置、计算机设备及存储介质 |
| CN109712646A (zh) * | 2019-02-20 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和终端 |
| CN109934091A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 基于图像识别的辅助发音方法、装置、计算机设备及存储介质 |
| CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
| CN110930977A (zh) * | 2019-11-12 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
| CN111508469A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种文语转换方法及装置 |
| CN111986647A (zh) * | 2020-08-26 | 2020-11-24 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
| CN112151064A (zh) * | 2020-09-25 | 2020-12-29 | 北京捷通华声科技股份有限公司 | 话术播报方法、装置、计算机可读存储介质和处理器 |
| CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
| CN112509567A (zh) * | 2020-12-25 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备、存储介质及程序产品 |
| WO2021051588A1 (zh) * | 2019-09-19 | 2021-03-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
| WO2021134592A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市欢太科技有限公司 | 语音处理方法、装置、设备以及存储介质 |
| WO2021217433A1 (zh) * | 2020-04-28 | 2021-11-04 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
| CN115148184A (zh) * | 2021-03-31 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 语音合成及播报方法、教学方法、直播方法及装置 |
| CN118862906A (zh) * | 2024-07-03 | 2024-10-29 | 深圳市东象科技有限公司 | 一种基于ai人工智能的智能语音翻译机 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102122297A (zh) * | 2011-03-04 | 2011-07-13 | 北京航空航天大学 | 一种基于语义的汉语网络文本情感提取方法 |
| US20120078607A1 (en) * | 2010-09-29 | 2012-03-29 | Kabushiki Kaisha Toshiba | Speech translation apparatus, method and program |
| CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
| CN107315742A (zh) * | 2017-07-03 | 2017-11-03 | 中国科学院自动化研究所 | 具有人机对话功能的拟人化口语翻译方法及系统 |
| CN107731232A (zh) * | 2017-10-17 | 2018-02-23 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
| CN107944008A (zh) * | 2017-12-08 | 2018-04-20 | 神思电子技术股份有限公司 | 一种针对自然语言进行情绪识别的方法 |
-
2018
- 2018-06-12 CN CN201810601584.6A patent/CN108831436A/zh active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120078607A1 (en) * | 2010-09-29 | 2012-03-29 | Kabushiki Kaisha Toshiba | Speech translation apparatus, method and program |
| CN102122297A (zh) * | 2011-03-04 | 2011-07-13 | 北京航空航天大学 | 一种基于语义的汉语网络文本情感提取方法 |
| CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
| CN107315742A (zh) * | 2017-07-03 | 2017-11-03 | 中国科学院自动化研究所 | 具有人机对话功能的拟人化口语翻译方法及系统 |
| CN107731232A (zh) * | 2017-10-17 | 2018-02-23 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
| CN107944008A (zh) * | 2017-12-08 | 2018-04-20 | 神思电子技术股份有限公司 | 一种针对自然语言进行情绪识别的方法 |
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109584858A (zh) * | 2019-01-08 | 2019-04-05 | 武汉西山艺创文化有限公司 | 一种基于ai人工智能的虚拟配音方法及其装置 |
| CN109658917A (zh) * | 2019-01-17 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 电子书诵读方法、装置、计算机设备及存储介质 |
| CN109934091A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 基于图像识别的辅助发音方法、装置、计算机设备及存储介质 |
| CN109712646A (zh) * | 2019-02-20 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和终端 |
| CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
| CN110008481B (zh) * | 2019-04-10 | 2023-04-28 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
| WO2021051588A1 (zh) * | 2019-09-19 | 2021-03-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
| CN110930977A (zh) * | 2019-11-12 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
| WO2021134592A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市欢太科技有限公司 | 语音处理方法、装置、设备以及存储介质 |
| CN111508469A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种文语转换方法及装置 |
| WO2021217433A1 (zh) * | 2020-04-28 | 2021-11-04 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
| CN113940049A (zh) * | 2020-04-28 | 2022-01-14 | 青岛海信传媒网络技术有限公司 | 基于内容的语音播放方法及显示设备 |
| CN113940049B (zh) * | 2020-04-28 | 2023-10-31 | Vidaa(荷兰)国际控股有限公司 | 基于内容的语音播放方法及显示设备 |
| CN111986647A (zh) * | 2020-08-26 | 2020-11-24 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
| CN112151064A (zh) * | 2020-09-25 | 2020-12-29 | 北京捷通华声科技股份有限公司 | 话术播报方法、装置、计算机可读存储介质和处理器 |
| CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
| CN112509567A (zh) * | 2020-12-25 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备、存储介质及程序产品 |
| CN112509567B (zh) * | 2020-12-25 | 2024-05-10 | 阿波罗智联(北京)科技有限公司 | 语音数据处理的方法、装置、设备、存储介质及程序产品 |
| CN115148184A (zh) * | 2021-03-31 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 语音合成及播报方法、教学方法、直播方法及装置 |
| CN115148184B (zh) * | 2021-03-31 | 2025-07-25 | 阿里巴巴创新公司 | 语音合成及播报方法、教学方法、直播方法及装置 |
| CN118862906A (zh) * | 2024-07-03 | 2024-10-29 | 深圳市东象科技有限公司 | 一种基于ai人工智能的智能语音翻译机 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108831436A (zh) | 一种模拟说话者情绪优化翻译后文本语音合成的方法 | |
| CN101030368B (zh) | 在保持情感的同时跨通道进行通信的方法和系统 | |
| US9368104B2 (en) | System and method for synthesizing human speech using multiple speakers and context | |
| US20160365087A1 (en) | High end speech synthesis | |
| JP5507260B2 (ja) | 発話音声プロンプトを作成するシステム及び技法 | |
| US20110313762A1 (en) | Speech output with confidence indication | |
| US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
| US11361780B2 (en) | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore | |
| Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
| CN106653002A (zh) | 一种文字直播方法及平台 | |
| KR20150105075A (ko) | 자동 통역 장치 및 방법 | |
| CN117854478B (zh) | 基于可控文本的语音合成方法、装置和系统 | |
| Onaolapo et al. | A simplified overview of text-to-speech synthesis | |
| US11501091B2 (en) | Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore | |
| US11783813B1 (en) | Methods and systems for improving word discrimination with phonologically-trained machine learning models | |
| CN116798404A (zh) | 一种藏语安多方言语音合成语料库的构建方法及系统 | |
| Hirose et al. | Temporal rate change of dialogue speech in prosodic units as compared to read speech | |
| CN110767233A (zh) | 一种语音转换系统及方法 | |
| TW201322250A (zh) | 多語言語音合成方法 | |
| Vijayalakshmi et al. | A multilingual to polyglot speech synthesizer for indian languages using a voice-converted polyglot speech corpus | |
| CN118053415A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
| Jaiswal et al. | Concatenative text-to-speech synthesis system for communication recognition | |
| Frödrich | Functions of'Uptalk'in Australian English | |
| Miller | Individuation of postlexical phonology for speech synthesis | |
| Manoj et al. | Emotionally Enhanced Audiobook Reader with Character Voice Differentiation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181116 |