[go: up one dir, main page]

CN108831436A - 一种模拟说话者情绪优化翻译后文本语音合成的方法 - Google Patents

一种模拟说话者情绪优化翻译后文本语音合成的方法 Download PDF

Info

Publication number
CN108831436A
CN108831436A CN201810601584.6A CN201810601584A CN108831436A CN 108831436 A CN108831436 A CN 108831436A CN 201810601584 A CN201810601584 A CN 201810601584A CN 108831436 A CN108831436 A CN 108831436A
Authority
CN
China
Prior art keywords
text
translation
obtains
interface
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810601584.6A
Other languages
English (en)
Inventor
张岩
林彦
熊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Heyan Mdt Infotech Ltd
Original Assignee
Shenzhen Heyan Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Heyan Mdt Infotech Ltd filed Critical Shenzhen Heyan Mdt Infotech Ltd
Priority to CN201810601584.6A priority Critical patent/CN108831436A/zh
Publication of CN108831436A publication Critical patent/CN108831436A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种模拟说话者情绪优化翻译后文本语音合成的方法,首先获取用户的语音信息;后台对音频文件进行分析,得到频率、语速参数;后台通过导入到声纹识别系统,得到性别、年龄等参数;将语音通过语音识别得到文本信息;通过文本的语法,用词,通过文本语句分析,得出情绪参数;结合频率、语速、性别、年龄、情绪多个特征,设定每个特征的特征值;通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置。从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,使得最终语音翻译合成播报如实反映当前说话者的情绪。

Description

一种模拟说话者情绪优化翻译后文本语音合成的方法
技术领域
本发明涉及一种语音合成的方法,特别涉及一种模拟说话者情绪优化翻译后文本语音合成的方法,属于语音翻译技术领域。
背景技术
目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪。本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
发明内容
本发明要解决的技术问题是克服目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪的缺陷,提供一种模拟说话者情绪优化翻译后文本语音合成的方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
作为本发明的一种优选技术方案,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的结构示意图;
图2是本发明的正视图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
如图1-2所示,本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
具体的,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,其特征在于,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
2.根据权利要求1所述的一种模拟说话者情绪优化翻译后文本语音合成的方法,其特征在于,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到WAV格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成SSML语法,对合成语音的SSML语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
CN201810601584.6A 2018-06-12 2018-06-12 一种模拟说话者情绪优化翻译后文本语音合成的方法 Pending CN108831436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810601584.6A CN108831436A (zh) 2018-06-12 2018-06-12 一种模拟说话者情绪优化翻译后文本语音合成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810601584.6A CN108831436A (zh) 2018-06-12 2018-06-12 一种模拟说话者情绪优化翻译后文本语音合成的方法

Publications (1)

Publication Number Publication Date
CN108831436A true CN108831436A (zh) 2018-11-16

Family

ID=64144893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810601584.6A Pending CN108831436A (zh) 2018-06-12 2018-06-12 一种模拟说话者情绪优化翻译后文本语音合成的方法

Country Status (1)

Country Link
CN (1) CN108831436A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584858A (zh) * 2019-01-08 2019-04-05 武汉西山艺创文化有限公司 一种基于ai人工智能的虚拟配音方法及其装置
CN109658917A (zh) * 2019-01-17 2019-04-19 深圳壹账通智能科技有限公司 电子书诵读方法、装置、计算机设备及存储介质
CN109712646A (zh) * 2019-02-20 2019-05-03 百度在线网络技术(北京)有限公司 语音播报方法、装置和终端
CN109934091A (zh) * 2019-01-17 2019-06-25 深圳壹账通智能科技有限公司 基于图像识别的辅助发音方法、装置、计算机设备及存储介质
CN110008481A (zh) * 2019-04-10 2019-07-12 南京魔盒信息科技有限公司 翻译语音生成方法、装置、计算机设备和存储介质
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111508469A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种文语转换方法及装置
CN111986647A (zh) * 2020-08-26 2020-11-24 北京声智科技有限公司 一种语音合成方法及装置
CN112151064A (zh) * 2020-09-25 2020-12-29 北京捷通华声科技股份有限公司 话术播报方法、装置、计算机可读存储介质和处理器
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质
CN112509567A (zh) * 2020-12-25 2021-03-16 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
WO2021051588A1 (zh) * 2019-09-19 2021-03-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
WO2021134592A1 (zh) * 2019-12-31 2021-07-08 深圳市欢太科技有限公司 语音处理方法、装置、设备以及存储介质
WO2021217433A1 (zh) * 2020-04-28 2021-11-04 青岛海信传媒网络技术有限公司 基于内容的语音播放方法及显示设备
CN115148184A (zh) * 2021-03-31 2022-10-04 阿里巴巴新加坡控股有限公司 语音合成及播报方法、教学方法、直播方法及装置
CN118862906A (zh) * 2024-07-03 2024-10-29 深圳市东象科技有限公司 一种基于ai人工智能的智能语音翻译机

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
CN107731232A (zh) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
CN107731232A (zh) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584858A (zh) * 2019-01-08 2019-04-05 武汉西山艺创文化有限公司 一种基于ai人工智能的虚拟配音方法及其装置
CN109658917A (zh) * 2019-01-17 2019-04-19 深圳壹账通智能科技有限公司 电子书诵读方法、装置、计算机设备及存储介质
CN109934091A (zh) * 2019-01-17 2019-06-25 深圳壹账通智能科技有限公司 基于图像识别的辅助发音方法、装置、计算机设备及存储介质
CN109712646A (zh) * 2019-02-20 2019-05-03 百度在线网络技术(北京)有限公司 语音播报方法、装置和终端
CN110008481A (zh) * 2019-04-10 2019-07-12 南京魔盒信息科技有限公司 翻译语音生成方法、装置、计算机设备和存储介质
CN110008481B (zh) * 2019-04-10 2023-04-28 南京魔盒信息科技有限公司 翻译语音生成方法、装置、计算机设备和存储介质
WO2021051588A1 (zh) * 2019-09-19 2021-03-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
WO2021134592A1 (zh) * 2019-12-31 2021-07-08 深圳市欢太科技有限公司 语音处理方法、装置、设备以及存储介质
CN111508469A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种文语转换方法及装置
WO2021217433A1 (zh) * 2020-04-28 2021-11-04 青岛海信传媒网络技术有限公司 基于内容的语音播放方法及显示设备
CN113940049A (zh) * 2020-04-28 2022-01-14 青岛海信传媒网络技术有限公司 基于内容的语音播放方法及显示设备
CN113940049B (zh) * 2020-04-28 2023-10-31 Vidaa(荷兰)国际控股有限公司 基于内容的语音播放方法及显示设备
CN111986647A (zh) * 2020-08-26 2020-11-24 北京声智科技有限公司 一种语音合成方法及装置
CN112151064A (zh) * 2020-09-25 2020-12-29 北京捷通华声科技股份有限公司 话术播报方法、装置、计算机可读存储介质和处理器
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质
CN112509567A (zh) * 2020-12-25 2021-03-16 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN112509567B (zh) * 2020-12-25 2024-05-10 阿波罗智联(北京)科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN115148184A (zh) * 2021-03-31 2022-10-04 阿里巴巴新加坡控股有限公司 语音合成及播报方法、教学方法、直播方法及装置
CN115148184B (zh) * 2021-03-31 2025-07-25 阿里巴巴创新公司 语音合成及播报方法、教学方法、直播方法及装置
CN118862906A (zh) * 2024-07-03 2024-10-29 深圳市东象科技有限公司 一种基于ai人工智能的智能语音翻译机

Similar Documents

Publication Publication Date Title
CN108831436A (zh) 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
US9368104B2 (en) System and method for synthesizing human speech using multiple speakers and context
US20160365087A1 (en) High end speech synthesis
JP5507260B2 (ja) 発話音声プロンプトを作成するシステム及び技法
US20110313762A1 (en) Speech output with confidence indication
US9508338B1 (en) Inserting breath sounds into text-to-speech output
US11361780B2 (en) Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore
Abushariah et al. Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems
CN106653002A (zh) 一种文字直播方法及平台
KR20150105075A (ko) 자동 통역 장치 및 방법
CN117854478B (zh) 基于可控文本的语音合成方法、装置和系统
Onaolapo et al. A simplified overview of text-to-speech synthesis
US11501091B2 (en) Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore
US11783813B1 (en) Methods and systems for improving word discrimination with phonologically-trained machine learning models
CN116798404A (zh) 一种藏语安多方言语音合成语料库的构建方法及系统
Hirose et al. Temporal rate change of dialogue speech in prosodic units as compared to read speech
CN110767233A (zh) 一种语音转换系统及方法
TW201322250A (zh) 多語言語音合成方法
Vijayalakshmi et al. A multilingual to polyglot speech synthesizer for indian languages using a voice-converted polyglot speech corpus
CN118053415A (zh) 语音合成方法及装置、电子设备及存储介质
Jaiswal et al. Concatenative text-to-speech synthesis system for communication recognition
Frödrich Functions of'Uptalk'in Australian English
Miller Individuation of postlexical phonology for speech synthesis
Manoj et al. Emotionally Enhanced Audiobook Reader with Character Voice Differentiation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116