[go: up one dir, main page]

CN111105776A - 有声播放装置及其播放方法 - Google Patents

有声播放装置及其播放方法 Download PDF

Info

Publication number
CN111105776A
CN111105776A CN201811324524.0A CN201811324524A CN111105776A CN 111105776 A CN111105776 A CN 111105776A CN 201811324524 A CN201811324524 A CN 201811324524A CN 111105776 A CN111105776 A CN 111105776A
Authority
CN
China
Prior art keywords
sound
audio
text
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811324524.0A
Other languages
English (en)
Inventor
邓广丰
蔡政宏
谷圳
朱志国
刘瀚文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN111105776A publication Critical patent/CN111105776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F27/00Combined visual and audible advertising or displaying, e.g. for public address
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种有声播放装置以及用于该有声播放装置的播放方法被公开于此。该有声播放装置接收来自一用户的一用户指令,以自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色。该有声播放装置还将一文本转换为一语音,且在该转换的过程中,根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音。

Description

有声播放装置及其播放方法
技术领域
本发明与有声播放装置及用于该有声播放装置的播放方法有关。更具体而言,本发明与能够将一文本中一目标角色的语句转换成用户所指定的语音呈现的有声播放装置及用于该有声播放装置的播放方法有关。
背景技术
传统主要用来播放故事或内容的有声播放装置(例如:有声书、说故事机)仅能够采用固定的语音播放模式来将一文本(例如:一故事、一小说、一散文、一诗集等)转换为语音。举例而言,传统的有声播放装置会针对该文本存储一声音文件,并播放该声音文件来叙述该文本的内容,其中该声音文件大多是通过配音员或是计算器装置预先针对该文本中的语句录制相对应的声音而形成的。由于传统的有声播放装置的语音呈现是固定、单调、且不可变的,故容易削弱用户的新鲜感,从而无法吸引用户长期使用。有鉴于此,如何改善传统的有声播放装置使其不受限于单一的语音呈现,对本发明所属技术领域而言是相当重要的。
发明内容
为了至少解决上述的问题,本发明提供一种有声播放装置。该有声播放装置可包含一存储器、一输入装置、分别与该处理器及该输入装置电性连接的一处理器以及与该处理器电性连接的一输出装置。该存储器可用以存储一文本。该输入装置可用以接收来自一用户的一用户指令。该处理器可用以根据该第一指令自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色。该处理器还可用以将该文本转换为一语音,且该输出装置可用以输出该语音,其中该语音包含一目标角色语音。在将该文本转换为该语音的过程中,该处理器根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。
为了至少解决上述的问题,本发明还提供一种用于一有声播放装置的播放方法。该用于该有声播放装置的播放方法可包含:由该有声播放装置接收来自一用户的一用户指令;由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色;由该有声播放装置将一文本转换为一语音,其中该语音包含一目标角色语音;以及由该有声播放装置输出该语音;其中,在该有声播放装置将该文本转换为该语音的过程中还包含:由该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。
综上所述,通过本发明提供的有声播放装置及其播放方法,用户可依自身喜好从多个不同的声音模型中选出一个声音模型来为一文本中的任一角色的语句产生相对应的语音。由于本发明提供的有声播放装置及其播放方法能够提供多种客制化的语音呈现,故有效地解决了传统的有声播放装置对故事或内容文本只能提供单一的语音呈现的上述问题。
附图说明
图1例示了在本发明的一或多个实施例中的一种有声播放系统的示意图。
图2例示了在本发明的一或多个实施例中声音模型、文本中的角色与语句、以及语音的关系的示意图。
图3A例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户界面的示意图。
图3B例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户界面的另一示意图。
图4例示了在本发明的一或多个实施例中的一种用于一有声播放装置的播放方法的示意图。
附图标记:
1:有声播放系统
11:有声播放装置
13:云端服务器
111:处理器
113:存储器
115:输入装置
117:输出装置
119:收发器
3A、3B:用户界面页面
4:用于有声播放装置的播放方法
401、403、405、407:步骤
AUD:语音
INS_1:第一指令
INS_2:第二指令
INS_3:第三指令
DEF:预设数据
OC:其他角色
OCS:其他角色语音
PV_1、PV_2、PV_3、PV_4、PV_5、PV_6:试听声音文件
TC:目标角色
TCS:目标角色语音
TVM:目标声音模型
TXT:文本
VM_1、VM_2、VM_3、VM_4、VM_5、VM_6:声音模型
具体实施方式
以下所述各种实施例并非用以限制本发明只能在所述的环境、应用、结构、流程或步骤方能实施。于附图中,与本发明的实施例非直接相关的组件皆已省略。于附图中,各组件的尺寸以及各组件之间的比例仅是范例,而非用以限制本发明。除了特别说明之外,在以下内容中,相同(或相近)的组件符号可对应至相同(或相近)的组件。在可被实现的情况下,如未特别说明,以下所述的每一个组件的数量是指一个或多个。
图1例示了在本发明的一或多个实施例中的一种有声播放系统的示意图。然而,图1所示内容仅是为了说明本发明的实施例,而非为了限制本发明。
参照图1,一有声播放系统1可包含一有声播放装置11以及一云端服务器13。有声播放装置11可包含一处理器111以及皆各自与处理器111电性连接的一存储器113、一输入装置115、一输出装置117、以及一收发器119。收发器119与云端服务器13耦合,以与云端服务器13进行通讯。于某些实施例中,有声播放系统1不包含云端服务器13,且有声播放装置11不包含收发器119。
存储器113可用以存储有声播放装置11所产生的数据、外部装置云端服务器13传入的数据、或用户自行输入的数据。存储器113可包含第一级存储器(又称主存储器或内部存储器),且处理器111可直接读取存储在第一级存储器内的指令集,并在需要时执行这些指令集。存储器113可选择性地包含第二级存储器(又称外部存储器或辅助存储器),且此存储器可通过数据缓冲器将存储的数据传送至第一级存储器。举例而言,第二级存储器可以是但不限于:硬盘、光盘等。存储器113可选择性地包含第三级存储器,亦即,可直接插入或自计算机拔除的存储装置,例如随身硬盘。
在某些实施例中,存储器113可存储一文本TXT。文本TXT可以是各种文本文件。举例而言,文本TXT可以是例如但不限于关于一故事、一小说、一散文、一诗集的一文本文件。文本TXT中可包含至少一角色以及与该至少一角色相对应的至少一语句。举例而言,当文本TXT为一童话故事时,其可包含国王、皇后、王子、公主、旁白等角色及与该多个角色相对应的对白、独白、或台词等语句。
输入装置115可为独立的一键盘、一鼠标,或者是键盘、鼠标与一显示器的组合、一声控装置与一显示器的组合、或一触控屏幕等可用以让用户输入各种指令至有声播放装置11的装置。输出装置117可为用以播放声音的各种装置,例如一扬声器或一耳机等。于某些实施例中,输入装置115与输出装置117可以整合为单一装置。
收发器119与云端服务器13连接,且二者可用以进行无线通讯及/或有线通讯。收发器119可包含一传送器(transmitter)和一接收器(receiver)。以无线通讯为例,收发器119可包含但不限于:天线、放大器、调变器、解调变器、侦测器、模拟至数字转换器、数字至模拟转换器等通讯组件。以有线通讯为例,收发器119可以是例如但不限于:一千兆位以太网络收发器(gigabit Ethernet transceiver)、一千兆位以太网络接口转换器(gigabitinterface converter,GBIC)、一小封装可插拔收发器(small form-factor pluggable(SFP)transceiver)、一百亿位小封装可插拔收发器(ten gigabit small form-factorpluggable(XFP)transceiver)等。
云端服务器13可为一计算器装置或一网络服务器等具备计算、存储,且能够在有线网络或无线网络中传输数据等功能的装置。
处理器111可以是具备信号处理功能的微处理器(microprocessor)或微控制器(microcontroller)等。微处理器或微控制器是一种可程序化的特殊集成电路,其具有运算、存储、输出/输入等能力,且可接受并处理各种编码指令,藉以进行各种逻辑运算与算术运算,并输出相应的运算结果。处理器111可被编程以在有声播放装置11中执行各种运算或程序。举例而言,处理器111可被编程以将文本TXT转换为一语音AUD。
图2例示了在本发明的一或多个实施例中声音模型、文本中的角色与语句、以及语音的关系的示意图。然而,图2所示内容仅是为了说明本发明的实施例,而非为了限制本发明。
同时参照图1与图2。在某些实施例中,用户可通过输入装置115传送第一指令INS_1至处理器111,而处理器111可根据第一指令INS_1自多个声音模型(例如,VM_1、VM_2、VM_3、VM_4、…)中选择一目标声音模型TVM,并将目标声音模型TVM指定于文本TXT中的一目标角色TC。随后,处理器111可根据目标声音模型TVM将文本TXT中属于目标角色TC的语句转换成一目标角色语音TCS。
在某些实施例中,除了文本TXT之外,存储器113还可存储一预设数据DEF。预设数据DEF可用以记录文本TXT中的一或多个其他角色OC及与该多个其他角色OC对应的多个其他声音模型(例如,声音模型VM_2、VM_3、VM_4、…)。另外,处理器111可根据预设数据DEF,通过与文本TXT中该多个其他角色OC对应的该多个其他声音模型将文本TXT中属于该多个其他角色OC的语句转换成一其他角色语音OCS。在产生目标角色语音TCS及其他角色语音OCS之后,处理器111即可将二者合成为一语音AUD,并可通过输出装置117输出语音AUD。
举例而言,如图2所示,假设文本TXT为一童话故事“国王的新衣”,其中包含多个角色如国王、裁缝师、大臣等,且预设地,声音模型VM_1、VM_2、VM_3分别被指定到文本TXT中的角色国王、裁缝师、大臣。若处理器111根据来自用户的第一指令INS_1而得知用户欲指定声音模型VM_4来为目标角色TC的“国王”进行配音(预设是指定声音模型VM_1来为“国王”进行配音),则处理器111可自多个声音模型中选择声音模型VM_4来作为目标声音模型TVM,并将其指定于作为目标角色TC的国王。随后,处理器111可根据声音模型VM_4,通过一文字到语音转换引擎(text-to-speech engine,TTS engine)将文本TXT中属于国王的语句转换成国王的语音,并作为目标角色语音TCS。此外,处理器111还可根据预设数据DEF,得知文本TXT中除了国王以外的其他角色OC(例如:裁缝师与大臣)的预设他声音模型,即声音模型VM_2与声音模型VM_3,并且分别根据声音模型VM_2与声音模型VM_3,通过该文字到语音转换引擎,将文本TXT中属于裁缝师与大臣的语句转换为裁缝师的语音与大臣的语音,以形成其他角色语音OCS。最后,处理器111可将目标角色语音TCS与其他角色语音OCS合成为语音AUD,并通过输出装置117播放语音AUD。
图3A例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户接口的示意图。图3B例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户接口的另一示意图。然而,图3A与图3B所示内容仅是为了说明本发明的实施例,而非为了限制本发明。
同时参照图1、图2、图3A以及图3B。在某些实施例中,处理器111可提供一用户接口(例如但不限于一图形用户界面(graphic user interface,GUI)),使得用户通过输入装置115传送各种指令至处理器111。具体而言,用户可于一用户界面页面3A中浏览关于多个声音模型VM_1、VM_2、…、VM_6等的多个试听文件PV_1、PV_2、…、PV_6,并可通过点击用户界面页面3A选择该多个试听文件PV_1、PV_2、…、PV_6中的任一者以传送一第三指令INS_3至输入装置115,同时进入一用户界面页面3B以试听该多个试听文件PV_1、PV_2、…、PV_6中的任一者。举例而言,假设文本TXT仍为童话故事“国王的新衣”,且用户正针对作为目标角色TC的“国王”进行配音内容的浏览。在用户界面页面3A中,用户可通过点击任一试听文件,以进入用户界面页面3B中进行试听。举例而言,用户可点击对应至声音模型VM_4的一试听文件PV_4以传送第三指令INS_3至输入装置115,同时进入用户界面页面3B中,而输出装置117可接着根据第三指令INS_3播放试听文件PV_4给用户试听。在此范例中,声音模型VM_1、VM_2、VM_3均是对应到“国王的新衣”这个故事文本中的角色的声音模型。另外,声音模型VM_4、VM_5、VM_6都不是对应到“国王的新衣”中的角色的声音模型,其中声音模型VM_4可以是对应到另一个故事文本如“白雪公主”这个故事中的“白雪公主”的声音模型,而声音模型VM_5、与VM_6是分别对应到真实的人物如用户的爸爸与妈妈的声音模型。
在用户界面页面3B中,用户可根据其对试听文件PV_4的满意程度,决定是否使用试听声音文件PV_4所对应的声音模型VM_4作为目标声音模型TVM来为目标角色TC进行配音。若用户决定使用试听声音文件PV_4所对应的声音模型VM_4作为目标声音模型TVM来为目标角色TC进行配音,则可通过点击用户界面页面3B中的“确定”键以传送第一指令INS_1至处理器111。若用户想要收藏与试听文件PV_4相对应的声音模型VM_4,则可通过点击用户界面页面3B中的“收藏”键以传送一第二指令INS_2至处理器111。
上述用户界面页面3A与用户界面页面3B的呈现方式仅为本发明诸多实施例当中的一个态样,而不是一个限制。
在某些实施例中,处理器111或云端服务器13可针对某一特定性格,建立相应的一声音参数调整模式,以得知当欲建立对应至各种性格的声音模型时该如何相应地调整声音参数。该特定性格可以是例如但不限于:开朗型、自恋型、喜怒无常型、随和型、神经质型、...等。
上述多个声音模型VM_1、VM_2、VM_3、…的每一者可以是由有声播放装置11的处理器111或云端服务器13从一声音文件中萃取该多个声音特征,并且根据该声音文件中的声音(例如:一自恋狂的声音)已知的性格(例如:一自恋型性格)来建立,或者是由有声播放装置11的处理器111或云端服务器13从该声音文件中萃取该多个声音特征,并且根据该特定性格调整该多个声音特征而建立的。也因此,根据不同的需求,该多个声音模型可存储于有声播放装置11的存储器113之中,或者存储于云端服务器13之中。
举例而言,该多个声音特征可包含该声音文件的一音高特征、一语速特征、一音频特征以及一音量特征;其中,该音高特征与基频范围(F0range)及/或基频均值(F0mean)有关,该语速特征与声音的时长(tempo)有关,该音频特征与“频谱参数(spectrumparameter)”有关,而该音量特征则与声音的大小(loudness)有关。有关音高特征、语速特征、音频特征以及音量特征的叙述仅是举例而非限制。
处理器111或云端服务器13在萃取某一声音文件中的音高特征、语速特征、音频特征以及音量特征后,即可依据该声音的音高特征、语速特征、音频特征以及音量特征来判断对应于哪一种性格,并基于该性格所对应的该声音参数调整模式来针对该多个声音特征所对应的音高参数、语速参数、音频参数以及音量参数进行调整,或者是根据某一特定性格所对应的该声音参数调整模式来针对该多个声音特征所对应的音高参数、语速参数、音频参数以及音量参数进行调整,以建立对应于不同性格的该多个声音模型其中之一者。于某些实施例中,处理器111或云端服务器13可分析每一文本TXT的内容以确定该文本TXT中的每一个角色的性格,以取得多个特定性格。举例而言,处理器111或云端服务器13可藉由分析“国王的新衣”这个文本TXT中“国王”这个角色的语句(或特征词)而得知“国王”这个角色的特定性格为“自大型”,然后可进一步从该多个声音模型中找出对应至自大型性格或是相近于自大型性格的声音模型来进行配音。
更进一步而言,处理器111或云端服务器13可事先收录和分析用户或其父母、家人的声音,并分别建立其声音模型,该多个声音模型中的每一个可包含一音色子模型,且该音色子模型可包含一音高参数、一语速参数、一音频参数以及一音量参数,以在经调整后可对应至不同的性格。也就是说,处理器111或云端服务器13可分别根据不同的特定性格,调整该多个音色子模型所包含的音高参数、语速参数、音频参数以及音量参数,以建立多个符合不同特定性格的声音模型。举例而言,当欲将某一声音模型调整为符合“浪漫甜美型”的性格时,处理器111或云端服务器13可调整该声音模型的音色子模型,使其音高参数上调百分之五十,语速参数下调百分之十,将音频参数上调百分之十五,并将音量参数上调百分之五。
于某些实施例中,处理器111或云端服务器13可分析每一文本TXT的内容以确定该文本TXT中的每一个角色的性格,然后为每一角色指派一个预设的声音模型。举例而言,处理器111或云端服务器13可藉由分析“国王的新衣”这个文本TXT中“国王”这个角色的语句(或特征词)而得知“国王”这个角色的特定性格,例如“自大型”,然后将对应至“自大型”的声音模型指派给“国王”这个角色。
在某些实施例中,除了音色子模型之外,每一个声音模型还可以包含一情绪子模型。每一个情绪子模型可具备不同的情绪转换参数,例如但不限于:“开心”、“生气”、“疑问”、“难过”等。每一个情绪转换参数可用以调整音色子模型中的音高参数、语速参数、音频参数、以及音量参数。另外,处理器111可根据文本TXT中任一角色的语句中的情绪特征词,使用相对应的声音模型中的情绪子模型来调整音色子模型。举例而言,如图2所示,假设处理器111根据文本TXT中作为目标角色TC的“国王”的语句中的情绪特征词如“大笑”、“怒斥”、“质问”而分别辨识出国王的情绪为“开心”、“生气”及“疑问”,则在将作为目标角色TC的“国王”的语句转换为语音的过程中,处理器111可进一步根据“开心”、“生气”及“疑问”的情绪,使用被指定的声音模型VM_4所包含的情绪子模型来调整被指定的声音模型VM_4所包含的音色子模型的音高参数、语速参数、音频参数、以及音量参数。藉此,因应于不同情绪的“国王”语句,输出装置117可输出不同情绪的“国王”语音。
在某些实施例中,一声音文件可以是由一人员录音所产生的一真人录音文件。举例而言,该声音文件可以是由用户、用户的亲友或一专业配音员通过对录音装置覆诵预设的多个(例如:一百句)语料所建立。
在某些实施例中,该声音文件可以是从一影片音轨、一广播、一音乐剧等包含人物声音的来源所获得。举例而言,该声音文件可以是自一英雄电影中撷取关于超级英雄的语句所组成的音轨文件。
在某些实施例中,目标角色TC的数量可不仅限于一个,且因本发明所属技术领域中的技术人员能够藉由上述说明得知目标角色TC的数量多于一个时的相应流程,故于此不再赘述。
图4例示了在本发明的一或多个实施例中的一种用于一有声播放装置的播放方法的示意图。然而,图4所示内容仅是为了说明本发明的实施例,而非为了限制本发明。
参照图4,一种用于一有声播放装置的播放方法4可包含以下步骤:
由该有声播放装置接收来自一用户的一第一指令(标示为步骤401);
由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于一文本中的一目标角色(标示为步骤403);
由该有声播放装置将该文本转换为一语音,其中,在将该文本被转换为该语音的过程中,该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音(标示为步骤405);以及
由该有声播放装置输出该语音(标示为步骤407)。
图4所示的步骤401~步骤407的顺序并非限制。在可实施的情况下,图4所示的步骤401~步骤407的顺序可以被任意调整。
在某些实施例中,用于该有声播放装置的播放方法4还可包含以下步骤:
由该有声播放装置存储一预设数据,其中该预设数据用以记录该文本中的多个其他角色及该多个其他角色对应的多个其他声音模型,且该多个其他角色的每一者所分别对应的该多个其他声音模型其中之一为该多个声音模型其中之一;以及
由该有声播放装置在将该文本转换为该语音的过程中,根据该预设数据中的该多个其他角色分别对应的该多个其他声音模型将该文本中属于该多个其他角色的语句转换成一其他角色语音,且该语音包含该目标角色语音及该其他角色语音。
在某些实施例中,该多个声音模型的每一者可以是由该有声播放装置或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征,并根据一特定性格而建立的,且该多个声音特征可包含该声音文件的一音高特征、一语速特征以及一音频特征。非限制地,该声音文件可以是一真人录音文件。
在某些实施例中,用于该有声播放装置的播放方法4还可包含以下步骤:
由该有声播放装置接收该用户的一第二指令;以及
由该有声播放装置根据该第二指令,标记该多个声音模型的其中之一为一收藏声音模型。
在某些实施例中,用于该有声播放装置的播放方法4还可包含以下步骤:
由该有声播放装置接收来自于该用户的一第三指令;以及
由该有声播放装置根据该第三指令播放该多个声音模型所各自转换出的多个试听声音文件,以让该用户基于该多个试听声音文件选择该多个声音模型中的其中一者作为该目标声音模型。
在某些实施例中,该多个声音模型中的每一个可包含一音色子模型,且该音色子模型可包含一音高参数、一语速参数以及一音频参数。
在某些实施例中,该多个声音模型中的每一个可包含一音色子模型,且该音色子模型可包含一音高参数、一语速参数以及一音频参数。另外,该多个声音模型中的每一个还可包含一情绪子模型,且用于该有声播放装置的播放方法4还可包含:由该有声播放装置根据该文本中的语句情绪,使用该情绪子模型调整该音色子模型,其中该语句情绪可包含疑问、开心、生气、难过。
在某些实施例中,该多个声音模型中的每一个可包含一音色子模型,且该音色子模型可包含一音高参数、一语速参数以及一音频参数。另外,该多个声音模型中的每一个还可包含一情绪子模型,且用于该有声播放装置的播放方法4还可包含:由该有声播放装置根据该文本中的语句情绪,使用该情绪子模型调整该音色子模型,其中该语句情绪可包含疑问、开心、生气、难过;以及:由该有声书装置辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。非限制地,该目标角色的语句中的语句情绪可以是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。
在某些实施例中,用于该有声播放装置的播放方法4的上述全部步骤可以由有声播放装置11单独执行,或由有声播放装置11及云端服务器13所共同执行。除了上述步骤之外,用于该有声播放装置的播放方法4还可以包含与有声播放装置11及云端服务器13的上述所有实施例相对应的其他步骤。因本发明所属技术领域中的技术人员可根据上文针对有声播放装置11及云端服务器13的说明而了解这些其他步骤,于此不再赘述。
虽然本文公开了多个实施例,但该多个实施例并非用以限制本发明,且在不脱离本发明的精神和范围的情况下,该多个实施例的等效物或方法(例如,对上述实施例进行修改及/或合并)亦是本发明的一部分。本发明的范围以权利要求书所界定的内容为准。

Claims (20)

1.一种有声播放装置,其特征在于,包含:
一存储器,用以存储一文本;
一输入装置,用以接收来自一用户的一第一指令;
一处理器,与该输入装置及该存储器电性连接,用以将该文本转换为一语音,其中该语音包含一目标角色语音;以及
一输出装置,与该处理器电性连接,用以输出该语音;
其中该处理器还用以:
根据该第一指令自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色;以及
在将该文本转换为该语音的过程中,根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。
2.如权利要求1所述的有声播放装置,其特征在于:
该存储器还用以存储一预设数据,该预设数据用以记录该文本中的多个其他角色及该多个其他角色对应的多个其他声音模型,且该多个其他声音模型其中之一为该多个声音模型其中之一;以及
该处理器还用以在将该文本转换为该语音的过程中,根据该多个其他声音模型将该文本中属于该多个其他角色的语句转换成多个其他角色语音,且该语音包含该目标角色语音及该多个其他角色语音。
3.如权利要求1所述的有声播放装置,其特征在于,该多个声音模型的每一者是由该处理器或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征,并根据一特定性格而建立的,且该多个声音特征包含该声音文件的一音高特征、一语速特征以及一音频特征。
4.如权利要求3所述的有声播放装置,其特征在于,该声音文件是一真人录音文件。
5.如权利要求1所述的有声播放装置,其特征在于:
该输入装置还用以接收来自该用户的一第二指令;以及
该处理器还用以根据该第二指令,标记该多个声音模型的其中之一为一收藏声音模型。
6.如权利要求1所述的有声播放装置,其特征在于:
该输入装置还用以接收来自于该用户的一第三指令;以及
该输出装置还用以根据该第三指令播放该多个声音模型所各自转换出的多个试听声音文件,以让该用户基于该多个试听声音文件选择该多个声音模型中的其中一者作为该目标声音模型。
7.如权利要求1所述的有声播放装置,其特征在于,该多个声音模型中的每一个包含一音色子模型,且该音色子模型包含一音高参数、一语速参数以及一音频参数。
8.如权利要求7所述的有声播放装置,其特征在于,该多个声音模型中的每一个还包含一情绪子模型,且该处理器还用以根据该文本中的语句情绪,使用该情绪子模型调整该音色子模型,且该语句情绪包含疑问、开心、生气、难过。
9.如权利要求8所述的有声播放装置,其特征在于,该处理器还用以辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。
10.如权利要求9所述的有声播放装置,其特征在于,该目标角色的语句中的语句情绪是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。
11.一种用于一有声播放装置的播放方法,其特征在于,包含:
由该有声播放装置接收来自一用户的一第一指令;
由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色;
由该有声播放装置将一文本转换为一语音,其中该语音包含一目标角色语音;以及
由该有声播放装置输出该语音;
其中,在该有声播放装置将该文本转换为该语音的过程中还包含:
由该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。
12.如权利要求11所述用于该有声播放装置的播放方法,其特征在于,所述播放方法还包含:
由该有声播放装置存储一预设数据,其中该预设数据用以记录该文本中的多个其他角色及该多个其他角色对应的多个其他声音模型,且该多个其他角色的每一者所分别对应的该多个其他声音模型其中之一为该多个声音模型其中之一;以及
由该有声播放装置在将该文本转换为该语音的过程中,根据该预设数据中的该多个其他角色分别对应的该多个其他声音模型将该文本中属于该多个其他角色的语句转换成一其他角色语音,且该语音包含该目标角色语音及该其他角色语音。
13.如权利要求11所述用于该有声播放装置的播放方法,其特征在于,该多个声音模型的每一者是由该有声播放装置或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征,并根据一特定性格而建立的,且该多个声音特征包含该声音文件的一音高特征、一语速特征以及一音频特征。
14.如权利要求13所述用于该有声播放装置的播放方法,其特征在于,该声音文件是一真人录音文件。
15.如权利要求11所述用于该有声播放装置的播放方法,其特征在于,所述播放方法还包含:
由该有声播放装置接收该用户的一第二指令;以及
由该有声播放装置根据该第二指令,标记该多个声音模型的其中之一为一收藏声音模型。
16.如权利要求11所述用于该有声播放装置的播放方法,其特征在于,所述播放方法还包含:
由该有声播放装置接收来自于该用户的一第三指令;以及
由该有声播放装置根据该第三指令播放该多个声音模型所各自转换出的多个试听声音文件,以让该用户基于该多个试听声音文件选择该多个声音模型中的其中一者作为该目标声音模型。
17.如权利要求11所述用于该有声播放装置的播放方法,其特征在于,该多个声音模型中的每一个包含一音色子模型,且该音色子模型包含一音高参数、一语速参数以及一音频参数。
18.如权利要求17所述用于该有声播放装置的播放方法,其特征在于,该多个声音模型中的每一个还包含一情绪子模型,且该用于该有声播放装置的播放方法还包含:由该有声播放装置根据该文本中的语句情绪,使用该情绪子模型调整该音色子模型,且该语句情绪包含疑问、开心、生气、难过。
19.如权利要求18所述用于该有声播放装置的播放方法,其特征在于,所述播放方法还包含:由该有声书装置辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。
20.如权利要求19所述用于该有声播放装置的播放方法,其特征在于,该目标角色的语句中的语句情绪是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。
CN201811324524.0A 2018-10-26 2018-11-08 有声播放装置及其播放方法 Pending CN111105776A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107138001 2018-10-26
TW107138001A TWI685835B (zh) 2018-10-26 2018-10-26 有聲播放裝置及其播放方法

Publications (1)

Publication Number Publication Date
CN111105776A true CN111105776A (zh) 2020-05-05

Family

ID=70327123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811324524.0A Pending CN111105776A (zh) 2018-10-26 2018-11-08 有声播放装置及其播放方法

Country Status (3)

Country Link
US (1) US11049490B2 (zh)
CN (1) CN111105776A (zh)
TW (1) TWI685835B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010138A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113628609A (zh) * 2020-05-09 2021-11-09 微软技术许可有限责任公司 自动音频内容生成

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883100B (zh) * 2020-07-22 2021-11-09 马上消费金融股份有限公司 语音转换方法、装置及服务器
TWI777771B (zh) * 2021-09-15 2022-09-11 英業達股份有限公司 行動影音裝置及影音播放控制方法
CN116434732B (zh) * 2023-02-07 2025-07-18 华中科技大学 基于可插拔模块的深度学习语音辅助文字识别方法与装置
US20250030685A1 (en) * 2023-07-18 2025-01-23 Mcafee, Llc Methods and apparatus for voice transformation, authentication, and metadata communication

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
CN102479506A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 用于网络游戏的语音合成系统及其实现方法
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104298659A (zh) * 2014-11-12 2015-01-21 广州出益信息科技有限公司 一种语义识别方法及装置
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与系统
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027568B1 (en) * 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
KR101274961B1 (ko) 2011-04-28 2013-06-13 (주)티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
US9978359B1 (en) * 2013-12-06 2018-05-22 Amazon Technologies, Inc. Iterative text-to-speech with user feedback
US9397972B2 (en) * 2014-01-24 2016-07-19 Mitii, Inc. Animated delivery of electronic messages
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN107481735A (zh) * 2017-08-28 2017-12-15 中国移动通信集团公司 一种转换音频发声的方法、服务器及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
CN102479506A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 用于网络游戏的语音合成系统及其实现方法
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与系统
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104298659A (zh) * 2014-11-12 2015-01-21 广州出益信息科技有限公司 一种语义识别方法及装置
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628609A (zh) * 2020-05-09 2021-11-09 微软技术许可有限责任公司 自动音频内容生成
CN113010138A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
TW202016922A (zh) 2020-05-01
US11049490B2 (en) 2021-06-29
US20200135169A1 (en) 2020-04-30
TWI685835B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN106373580B (zh) 基于人工智能的合成歌声的方法和装置
CN111105776A (zh) 有声播放装置及其播放方法
JP6876752B2 (ja) 応答方法及び装置
US10861210B2 (en) Techniques for providing audio and video effects
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
Collins Introduction to computer music
EP3824461B1 (en) Method and system for creating object-based audio content
KR20250033180A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
CN110675886A (zh) 音频信号处理方法、装置、电子设备及存储介质
JP2014501941A (ja) クライアント端末機を用いた音楽コンテンツ製作システム
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
TW201434600A (zh) 具有可因應不同聲音信號產生相對應肢體動作之機器人
CN112799630A (zh) 使用网络可寻址设备创建电影化的讲故事体验
Mitra Introduction to multimedia systems
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN114154636A (zh) 数据处理方法、电子设备及计算机程序产品
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
US11195511B2 (en) Method and system for creating object-based audio content
CN101379549A (zh) 声音合成装置、声音合成方法和程序
CN112382269B (zh) 音频合成方法、装置、设备以及存储介质
US12315490B2 (en) Text-to-speech and speech recognition for noisy environments
CN114822486A (zh) 语音合成配音系统
CN120279868A (zh) 音乐生成方法、音乐生成装置、电子设备和存储介质
TWI725608B (zh) 語音合成系統、方法及非暫態電腦可讀取媒體
CN119446161A (zh) 一种音频信号处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200505