CN111105776A

CN111105776A - 有声播放装置及其播放方法

Info

Publication number: CN111105776A
Application number: CN201811324524.0A
Authority: CN
Inventors: 邓广丰; 蔡政宏; 谷圳; 朱志国; 刘瀚文
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2018-10-26
Filing date: 2018-11-08
Publication date: 2020-05-05
Also published as: TW202016922A; US11049490B2; US20200135169A1; TWI685835B

Abstract

一种有声播放装置以及用于该有声播放装置的播放方法被公开于此。该有声播放装置接收来自一用户的一用户指令，以自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于该文本中的一目标角色。该有声播放装置还将一文本转换为一语音，且在该转换的过程中，根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音。

Description

有声播放装置及其播放方法

技术领域

本发明与有声播放装置及用于该有声播放装置的播放方法有关。更具体而言，本发明与能够将一文本中一目标角色的语句转换成用户所指定的语音呈现的有声播放装置及用于该有声播放装置的播放方法有关。

背景技术

传统主要用来播放故事或内容的有声播放装置(例如：有声书、说故事机)仅能够采用固定的语音播放模式来将一文本(例如：一故事、一小说、一散文、一诗集等)转换为语音。举例而言，传统的有声播放装置会针对该文本存储一声音文件，并播放该声音文件来叙述该文本的内容，其中该声音文件大多是通过配音员或是计算器装置预先针对该文本中的语句录制相对应的声音而形成的。由于传统的有声播放装置的语音呈现是固定、单调、且不可变的，故容易削弱用户的新鲜感，从而无法吸引用户长期使用。有鉴于此，如何改善传统的有声播放装置使其不受限于单一的语音呈现，对本发明所属技术领域而言是相当重要的。

发明内容

为了至少解决上述的问题，本发明提供一种有声播放装置。该有声播放装置可包含一存储器、一输入装置、分别与该处理器及该输入装置电性连接的一处理器以及与该处理器电性连接的一输出装置。该存储器可用以存储一文本。该输入装置可用以接收来自一用户的一用户指令。该处理器可用以根据该第一指令自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于该文本中的一目标角色。该处理器还可用以将该文本转换为一语音，且该输出装置可用以输出该语音，其中该语音包含一目标角色语音。在将该文本转换为该语音的过程中，该处理器根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。

为了至少解决上述的问题，本发明还提供一种用于一有声播放装置的播放方法。该用于该有声播放装置的播放方法可包含：由该有声播放装置接收来自一用户的一用户指令；由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于该文本中的一目标角色；由该有声播放装置将一文本转换为一语音，其中该语音包含一目标角色语音；以及由该有声播放装置输出该语音；其中，在该有声播放装置将该文本转换为该语音的过程中还包含：由该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。

综上所述，通过本发明提供的有声播放装置及其播放方法，用户可依自身喜好从多个不同的声音模型中选出一个声音模型来为一文本中的任一角色的语句产生相对应的语音。由于本发明提供的有声播放装置及其播放方法能够提供多种客制化的语音呈现，故有效地解决了传统的有声播放装置对故事或内容文本只能提供单一的语音呈现的上述问题。

附图说明

图1例示了在本发明的一或多个实施例中的一种有声播放系统的示意图。

图2例示了在本发明的一或多个实施例中声音模型、文本中的角色与语句、以及语音的关系的示意图。

图3A例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户界面的示意图。

图3B例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户界面的另一示意图。

图4例示了在本发明的一或多个实施例中的一种用于一有声播放装置的播放方法的示意图。

附图标记：

1：有声播放系统

11：有声播放装置

13：云端服务器

111：处理器

113：存储器

115：输入装置

117：输出装置

119：收发器

3A、3B：用户界面页面

4：用于有声播放装置的播放方法

401、403、405、407：步骤

AUD：语音

INS_1：第一指令

INS_2：第二指令

INS_3：第三指令

DEF：预设数据

OC：其他角色

OCS：其他角色语音

PV_1、PV_2、PV_3、PV_4、PV_5、PV_6：试听声音文件

TC：目标角色

TCS：目标角色语音

TVM：目标声音模型

TXT：文本

VM_1、VM_2、VM_3、VM_4、VM_5、VM_6：声音模型

具体实施方式

以下所述各种实施例并非用以限制本发明只能在所述的环境、应用、结构、流程或步骤方能实施。于附图中，与本发明的实施例非直接相关的组件皆已省略。于附图中，各组件的尺寸以及各组件之间的比例仅是范例，而非用以限制本发明。除了特别说明之外，在以下内容中，相同(或相近)的组件符号可对应至相同(或相近)的组件。在可被实现的情况下，如未特别说明，以下所述的每一个组件的数量是指一个或多个。

图1例示了在本发明的一或多个实施例中的一种有声播放系统的示意图。然而，图1所示内容仅是为了说明本发明的实施例，而非为了限制本发明。

参照图1，一有声播放系统1可包含一有声播放装置11以及一云端服务器13。有声播放装置11可包含一处理器111以及皆各自与处理器111电性连接的一存储器113、一输入装置115、一输出装置117、以及一收发器119。收发器119与云端服务器13耦合，以与云端服务器13进行通讯。于某些实施例中，有声播放系统1不包含云端服务器13，且有声播放装置11不包含收发器119。

存储器113可用以存储有声播放装置11所产生的数据、外部装置云端服务器13传入的数据、或用户自行输入的数据。存储器113可包含第一级存储器(又称主存储器或内部存储器)，且处理器111可直接读取存储在第一级存储器内的指令集，并在需要时执行这些指令集。存储器113可选择性地包含第二级存储器(又称外部存储器或辅助存储器)，且此存储器可通过数据缓冲器将存储的数据传送至第一级存储器。举例而言，第二级存储器可以是但不限于：硬盘、光盘等。存储器113可选择性地包含第三级存储器，亦即，可直接插入或自计算机拔除的存储装置，例如随身硬盘。

在某些实施例中，存储器113可存储一文本TXT。文本TXT可以是各种文本文件。举例而言，文本TXT可以是例如但不限于关于一故事、一小说、一散文、一诗集的一文本文件。文本TXT中可包含至少一角色以及与该至少一角色相对应的至少一语句。举例而言，当文本TXT为一童话故事时，其可包含国王、皇后、王子、公主、旁白等角色及与该多个角色相对应的对白、独白、或台词等语句。

输入装置115可为独立的一键盘、一鼠标，或者是键盘、鼠标与一显示器的组合、一声控装置与一显示器的组合、或一触控屏幕等可用以让用户输入各种指令至有声播放装置11的装置。输出装置117可为用以播放声音的各种装置，例如一扬声器或一耳机等。于某些实施例中，输入装置115与输出装置117可以整合为单一装置。

收发器119与云端服务器13连接，且二者可用以进行无线通讯及/或有线通讯。收发器119可包含一传送器(transmitter)和一接收器(receiver)。以无线通讯为例，收发器119可包含但不限于：天线、放大器、调变器、解调变器、侦测器、模拟至数字转换器、数字至模拟转换器等通讯组件。以有线通讯为例，收发器119可以是例如但不限于：一千兆位以太网络收发器(gigabit Ethernet transceiver)、一千兆位以太网络接口转换器(gigabitinterface converter，GBIC)、一小封装可插拔收发器(small form-factor pluggable(SFP)transceiver)、一百亿位小封装可插拔收发器(ten gigabit small form-factorpluggable(XFP)transceiver)等。

云端服务器13可为一计算器装置或一网络服务器等具备计算、存储，且能够在有线网络或无线网络中传输数据等功能的装置。

处理器111可以是具备信号处理功能的微处理器(microprocessor)或微控制器(microcontroller)等。微处理器或微控制器是一种可程序化的特殊集成电路，其具有运算、存储、输出/输入等能力，且可接受并处理各种编码指令，藉以进行各种逻辑运算与算术运算，并输出相应的运算结果。处理器111可被编程以在有声播放装置11中执行各种运算或程序。举例而言，处理器111可被编程以将文本TXT转换为一语音AUD。

图2例示了在本发明的一或多个实施例中声音模型、文本中的角色与语句、以及语音的关系的示意图。然而，图2所示内容仅是为了说明本发明的实施例，而非为了限制本发明。

同时参照图1与图2。在某些实施例中，用户可通过输入装置115传送第一指令INS_1至处理器111，而处理器111可根据第一指令INS_1自多个声音模型(例如，VM_1、VM_2、VM_3、VM_4、…)中选择一目标声音模型TVM，并将目标声音模型TVM指定于文本TXT中的一目标角色TC。随后，处理器111可根据目标声音模型TVM将文本TXT中属于目标角色TC的语句转换成一目标角色语音TCS。

在某些实施例中，除了文本TXT之外，存储器113还可存储一预设数据DEF。预设数据DEF可用以记录文本TXT中的一或多个其他角色OC及与该多个其他角色OC对应的多个其他声音模型(例如，声音模型VM_2、VM_3、VM_4、…)。另外，处理器111可根据预设数据DEF，通过与文本TXT中该多个其他角色OC对应的该多个其他声音模型将文本TXT中属于该多个其他角色OC的语句转换成一其他角色语音OCS。在产生目标角色语音TCS及其他角色语音OCS之后，处理器111即可将二者合成为一语音AUD，并可通过输出装置117输出语音AUD。

举例而言，如图2所示，假设文本TXT为一童话故事“国王的新衣”，其中包含多个角色如国王、裁缝师、大臣等，且预设地，声音模型VM_1、VM_2、VM_3分别被指定到文本TXT中的角色国王、裁缝师、大臣。若处理器111根据来自用户的第一指令INS_1而得知用户欲指定声音模型VM_4来为目标角色TC的“国王”进行配音(预设是指定声音模型VM_1来为“国王”进行配音)，则处理器111可自多个声音模型中选择声音模型VM_4来作为目标声音模型TVM，并将其指定于作为目标角色TC的国王。随后，处理器111可根据声音模型VM_4，通过一文字到语音转换引擎(text-to-speech engine，TTS engine)将文本TXT中属于国王的语句转换成国王的语音，并作为目标角色语音TCS。此外，处理器111还可根据预设数据DEF，得知文本TXT中除了国王以外的其他角色OC(例如：裁缝师与大臣)的预设他声音模型，即声音模型VM_2与声音模型VM_3，并且分别根据声音模型VM_2与声音模型VM_3，通过该文字到语音转换引擎，将文本TXT中属于裁缝师与大臣的语句转换为裁缝师的语音与大臣的语音，以形成其他角色语音OCS。最后，处理器111可将目标角色语音TCS与其他角色语音OCS合成为语音AUD，并通过输出装置117播放语音AUD。

图3A例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户接口的示意图。图3B例示了在本发明的一或多个实施例中的一有声播放装置所提供的用户接口的另一示意图。然而，图3A与图3B所示内容仅是为了说明本发明的实施例，而非为了限制本发明。

同时参照图1、图2、图3A以及图3B。在某些实施例中，处理器111可提供一用户接口(例如但不限于一图形用户界面(graphic user interface，GUI))，使得用户通过输入装置115传送各种指令至处理器111。具体而言，用户可于一用户界面页面3A中浏览关于多个声音模型VM_1、VM_2、…、VM_6等的多个试听文件PV_1、PV_2、…、PV_6，并可通过点击用户界面页面3A选择该多个试听文件PV_1、PV_2、…、PV_6中的任一者以传送一第三指令INS_3至输入装置115，同时进入一用户界面页面3B以试听该多个试听文件PV_1、PV_2、…、PV_6中的任一者。举例而言，假设文本TXT仍为童话故事“国王的新衣”，且用户正针对作为目标角色TC的“国王”进行配音内容的浏览。在用户界面页面3A中，用户可通过点击任一试听文件，以进入用户界面页面3B中进行试听。举例而言，用户可点击对应至声音模型VM_4的一试听文件PV_4以传送第三指令INS_3至输入装置115，同时进入用户界面页面3B中，而输出装置117可接着根据第三指令INS_3播放试听文件PV_4给用户试听。在此范例中，声音模型VM_1、VM_2、VM_3均是对应到“国王的新衣”这个故事文本中的角色的声音模型。另外，声音模型VM_4、VM_5、VM_6都不是对应到“国王的新衣”中的角色的声音模型，其中声音模型VM_4可以是对应到另一个故事文本如“白雪公主”这个故事中的“白雪公主”的声音模型，而声音模型VM_5、与VM_6是分别对应到真实的人物如用户的爸爸与妈妈的声音模型。

在用户界面页面3B中，用户可根据其对试听文件PV_4的满意程度，决定是否使用试听声音文件PV_4所对应的声音模型VM_4作为目标声音模型TVM来为目标角色TC进行配音。若用户决定使用试听声音文件PV_4所对应的声音模型VM_4作为目标声音模型TVM来为目标角色TC进行配音，则可通过点击用户界面页面3B中的“确定”键以传送第一指令INS_1至处理器111。若用户想要收藏与试听文件PV_4相对应的声音模型VM_4，则可通过点击用户界面页面3B中的“收藏”键以传送一第二指令INS_2至处理器111。

上述用户界面页面3A与用户界面页面3B的呈现方式仅为本发明诸多实施例当中的一个态样，而不是一个限制。

在某些实施例中，处理器111或云端服务器13可针对某一特定性格，建立相应的一声音参数调整模式，以得知当欲建立对应至各种性格的声音模型时该如何相应地调整声音参数。该特定性格可以是例如但不限于：开朗型、自恋型、喜怒无常型、随和型、神经质型、...等。

上述多个声音模型VM_1、VM_2、VM_3、…的每一者可以是由有声播放装置11的处理器111或云端服务器13从一声音文件中萃取该多个声音特征，并且根据该声音文件中的声音(例如：一自恋狂的声音)已知的性格(例如：一自恋型性格)来建立，或者是由有声播放装置11的处理器111或云端服务器13从该声音文件中萃取该多个声音特征，并且根据该特定性格调整该多个声音特征而建立的。也因此，根据不同的需求，该多个声音模型可存储于有声播放装置11的存储器113之中，或者存储于云端服务器13之中。

举例而言，该多个声音特征可包含该声音文件的一音高特征、一语速特征、一音频特征以及一音量特征；其中，该音高特征与基频范围(F0range)及/或基频均值(F0mean)有关，该语速特征与声音的时长(tempo)有关，该音频特征与“频谱参数(spectrumparameter)”有关，而该音量特征则与声音的大小(loudness)有关。有关音高特征、语速特征、音频特征以及音量特征的叙述仅是举例而非限制。

处理器111或云端服务器13在萃取某一声音文件中的音高特征、语速特征、音频特征以及音量特征后，即可依据该声音的音高特征、语速特征、音频特征以及音量特征来判断对应于哪一种性格，并基于该性格所对应的该声音参数调整模式来针对该多个声音特征所对应的音高参数、语速参数、音频参数以及音量参数进行调整，或者是根据某一特定性格所对应的该声音参数调整模式来针对该多个声音特征所对应的音高参数、语速参数、音频参数以及音量参数进行调整，以建立对应于不同性格的该多个声音模型其中之一者。于某些实施例中，处理器111或云端服务器13可分析每一文本TXT的内容以确定该文本TXT中的每一个角色的性格，以取得多个特定性格。举例而言，处理器111或云端服务器13可藉由分析“国王的新衣”这个文本TXT中“国王”这个角色的语句(或特征词)而得知“国王”这个角色的特定性格为“自大型”，然后可进一步从该多个声音模型中找出对应至自大型性格或是相近于自大型性格的声音模型来进行配音。

更进一步而言，处理器111或云端服务器13可事先收录和分析用户或其父母、家人的声音，并分别建立其声音模型，该多个声音模型中的每一个可包含一音色子模型，且该音色子模型可包含一音高参数、一语速参数、一音频参数以及一音量参数，以在经调整后可对应至不同的性格。也就是说，处理器111或云端服务器13可分别根据不同的特定性格，调整该多个音色子模型所包含的音高参数、语速参数、音频参数以及音量参数，以建立多个符合不同特定性格的声音模型。举例而言，当欲将某一声音模型调整为符合“浪漫甜美型”的性格时，处理器111或云端服务器13可调整该声音模型的音色子模型，使其音高参数上调百分之五十，语速参数下调百分之十，将音频参数上调百分之十五，并将音量参数上调百分之五。

于某些实施例中，处理器111或云端服务器13可分析每一文本TXT的内容以确定该文本TXT中的每一个角色的性格，然后为每一角色指派一个预设的声音模型。举例而言，处理器111或云端服务器13可藉由分析“国王的新衣”这个文本TXT中“国王”这个角色的语句(或特征词)而得知“国王”这个角色的特定性格，例如“自大型”，然后将对应至“自大型”的声音模型指派给“国王”这个角色。

在某些实施例中，除了音色子模型之外，每一个声音模型还可以包含一情绪子模型。每一个情绪子模型可具备不同的情绪转换参数，例如但不限于：“开心”、“生气”、“疑问”、“难过”等。每一个情绪转换参数可用以调整音色子模型中的音高参数、语速参数、音频参数、以及音量参数。另外，处理器111可根据文本TXT中任一角色的语句中的情绪特征词，使用相对应的声音模型中的情绪子模型来调整音色子模型。举例而言，如图2所示，假设处理器111根据文本TXT中作为目标角色TC的“国王”的语句中的情绪特征词如“大笑”、“怒斥”、“质问”而分别辨识出国王的情绪为“开心”、“生气”及“疑问”，则在将作为目标角色TC的“国王”的语句转换为语音的过程中，处理器111可进一步根据“开心”、“生气”及“疑问”的情绪，使用被指定的声音模型VM_4所包含的情绪子模型来调整被指定的声音模型VM_4所包含的音色子模型的音高参数、语速参数、音频参数、以及音量参数。藉此，因应于不同情绪的“国王”语句，输出装置117可输出不同情绪的“国王”语音。

在某些实施例中，一声音文件可以是由一人员录音所产生的一真人录音文件。举例而言，该声音文件可以是由用户、用户的亲友或一专业配音员通过对录音装置覆诵预设的多个(例如：一百句)语料所建立。

在某些实施例中，该声音文件可以是从一影片音轨、一广播、一音乐剧等包含人物声音的来源所获得。举例而言，该声音文件可以是自一英雄电影中撷取关于超级英雄的语句所组成的音轨文件。

在某些实施例中，目标角色TC的数量可不仅限于一个，且因本发明所属技术领域中的技术人员能够藉由上述说明得知目标角色TC的数量多于一个时的相应流程，故于此不再赘述。

图4例示了在本发明的一或多个实施例中的一种用于一有声播放装置的播放方法的示意图。然而，图4所示内容仅是为了说明本发明的实施例，而非为了限制本发明。

参照图4，一种用于一有声播放装置的播放方法4可包含以下步骤：

由该有声播放装置接收来自一用户的一第一指令(标示为步骤401)；

由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于一文本中的一目标角色(标示为步骤403)；

由该有声播放装置将该文本转换为一语音，其中，在将该文本被转换为该语音的过程中，该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音(标示为步骤405)；以及

由该有声播放装置输出该语音(标示为步骤407)。

图4所示的步骤401～步骤407的顺序并非限制。在可实施的情况下，图4所示的步骤401～步骤407的顺序可以被任意调整。

在某些实施例中，用于该有声播放装置的播放方法4还可包含以下步骤：

由该有声播放装置存储一预设数据，其中该预设数据用以记录该文本中的多个其他角色及该多个其他角色对应的多个其他声音模型，且该多个其他角色的每一者所分别对应的该多个其他声音模型其中之一为该多个声音模型其中之一；以及

由该有声播放装置在将该文本转换为该语音的过程中，根据该预设数据中的该多个其他角色分别对应的该多个其他声音模型将该文本中属于该多个其他角色的语句转换成一其他角色语音，且该语音包含该目标角色语音及该其他角色语音。

在某些实施例中，该多个声音模型的每一者可以是由该有声播放装置或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征，并根据一特定性格而建立的，且该多个声音特征可包含该声音文件的一音高特征、一语速特征以及一音频特征。非限制地，该声音文件可以是一真人录音文件。

由该有声播放装置接收该用户的一第二指令；以及

由该有声播放装置根据该第二指令，标记该多个声音模型的其中之一为一收藏声音模型。

由该有声播放装置接收来自于该用户的一第三指令；以及

由该有声播放装置根据该第三指令播放该多个声音模型所各自转换出的多个试听声音文件，以让该用户基于该多个试听声音文件选择该多个声音模型中的其中一者作为该目标声音模型。

在某些实施例中，该多个声音模型中的每一个可包含一音色子模型，且该音色子模型可包含一音高参数、一语速参数以及一音频参数。

在某些实施例中，该多个声音模型中的每一个可包含一音色子模型，且该音色子模型可包含一音高参数、一语速参数以及一音频参数。另外，该多个声音模型中的每一个还可包含一情绪子模型，且用于该有声播放装置的播放方法4还可包含：由该有声播放装置根据该文本中的语句情绪，使用该情绪子模型调整该音色子模型，其中该语句情绪可包含疑问、开心、生气、难过。

在某些实施例中，该多个声音模型中的每一个可包含一音色子模型，且该音色子模型可包含一音高参数、一语速参数以及一音频参数。另外，该多个声音模型中的每一个还可包含一情绪子模型，且用于该有声播放装置的播放方法4还可包含：由该有声播放装置根据该文本中的语句情绪，使用该情绪子模型调整该音色子模型，其中该语句情绪可包含疑问、开心、生气、难过；以及：由该有声书装置辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。非限制地，该目标角色的语句中的语句情绪可以是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。

在某些实施例中，用于该有声播放装置的播放方法4的上述全部步骤可以由有声播放装置11单独执行，或由有声播放装置11及云端服务器13所共同执行。除了上述步骤之外，用于该有声播放装置的播放方法4还可以包含与有声播放装置11及云端服务器13的上述所有实施例相对应的其他步骤。因本发明所属技术领域中的技术人员可根据上文针对有声播放装置11及云端服务器13的说明而了解这些其他步骤，于此不再赘述。

虽然本文公开了多个实施例，但该多个实施例并非用以限制本发明，且在不脱离本发明的精神和范围的情况下，该多个实施例的等效物或方法(例如，对上述实施例进行修改及/或合并)亦是本发明的一部分。本发明的范围以权利要求书所界定的内容为准。

Claims

1.一种有声播放装置，其特征在于，包含：

一存储器，用以存储一文本；

一输入装置，用以接收来自一用户的一第一指令；

一处理器，与该输入装置及该存储器电性连接，用以将该文本转换为一语音，其中该语音包含一目标角色语音；以及

一输出装置，与该处理器电性连接，用以输出该语音；

其中该处理器还用以：

根据该第一指令自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于该文本中的一目标角色；以及

在将该文本转换为该语音的过程中，根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。

2.如权利要求1所述的有声播放装置，其特征在于：

该存储器还用以存储一预设数据，该预设数据用以记录该文本中的多个其他角色及该多个其他角色对应的多个其他声音模型，且该多个其他声音模型其中之一为该多个声音模型其中之一；以及

该处理器还用以在将该文本转换为该语音的过程中，根据该多个其他声音模型将该文本中属于该多个其他角色的语句转换成多个其他角色语音，且该语音包含该目标角色语音及该多个其他角色语音。

3.如权利要求1所述的有声播放装置，其特征在于，该多个声音模型的每一者是由该处理器或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征，并根据一特定性格而建立的，且该多个声音特征包含该声音文件的一音高特征、一语速特征以及一音频特征。

4.如权利要求3所述的有声播放装置，其特征在于，该声音文件是一真人录音文件。

5.如权利要求1所述的有声播放装置，其特征在于：

该输入装置还用以接收来自该用户的一第二指令；以及

该处理器还用以根据该第二指令，标记该多个声音模型的其中之一为一收藏声音模型。

6.如权利要求1所述的有声播放装置，其特征在于：

该输入装置还用以接收来自于该用户的一第三指令；以及

该输出装置还用以根据该第三指令播放该多个声音模型所各自转换出的多个试听声音文件，以让该用户基于该多个试听声音文件选择该多个声音模型中的其中一者作为该目标声音模型。

7.如权利要求1所述的有声播放装置，其特征在于，该多个声音模型中的每一个包含一音色子模型，且该音色子模型包含一音高参数、一语速参数以及一音频参数。

8.如权利要求7所述的有声播放装置，其特征在于，该多个声音模型中的每一个还包含一情绪子模型，且该处理器还用以根据该文本中的语句情绪，使用该情绪子模型调整该音色子模型，且该语句情绪包含疑问、开心、生气、难过。

9.如权利要求8所述的有声播放装置，其特征在于，该处理器还用以辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。

10.如权利要求9所述的有声播放装置，其特征在于，该目标角色的语句中的语句情绪是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。

11.一种用于一有声播放装置的播放方法，其特征在于，包含：

由该有声播放装置接收来自一用户的一第一指令；

由该有声播放装置根据该第一指令自多个声音模型中选择一目标声音模型，并将该目标声音模型指定于该文本中的一目标角色；

由该有声播放装置将一文本转换为一语音，其中该语音包含一目标角色语音；以及

由该有声播放装置输出该语音；

其中，在该有声播放装置将该文本转换为该语音的过程中还包含：

由该有声播放装置根据该目标声音模型将该文本中属于该目标角色的语句转换成该目标角色语音。

12.如权利要求11所述用于该有声播放装置的播放方法，其特征在于，所述播放方法还包含：

13.如权利要求11所述用于该有声播放装置的播放方法，其特征在于，该多个声音模型的每一者是由该有声播放装置或与该有声播放装置耦合的一云端服务器从一声音文件中萃取多个声音特征，并根据一特定性格而建立的，且该多个声音特征包含该声音文件的一音高特征、一语速特征以及一音频特征。

14.如权利要求13所述用于该有声播放装置的播放方法，其特征在于，该声音文件是一真人录音文件。

15.如权利要求11所述用于该有声播放装置的播放方法，其特征在于，所述播放方法还包含：

由该有声播放装置接收该用户的一第二指令；以及

16.如权利要求11所述用于该有声播放装置的播放方法，其特征在于，所述播放方法还包含：

由该有声播放装置接收来自于该用户的一第三指令；以及

17.如权利要求11所述用于该有声播放装置的播放方法，其特征在于，该多个声音模型中的每一个包含一音色子模型，且该音色子模型包含一音高参数、一语速参数以及一音频参数。

18.如权利要求17所述用于该有声播放装置的播放方法，其特征在于，该多个声音模型中的每一个还包含一情绪子模型，且该用于该有声播放装置的播放方法还包含：由该有声播放装置根据该文本中的语句情绪，使用该情绪子模型调整该音色子模型，且该语句情绪包含疑问、开心、生气、难过。

19.如权利要求18所述用于该有声播放装置的播放方法，其特征在于，所述播放方法还包含：由该有声书装置辨识该文本中的该目标角色以及属于该目标角色的语句中的语句情绪。

20.如权利要求19所述用于该有声播放装置的播放方法，其特征在于，该目标角色的语句中的语句情绪是由该处理器根据该文本中的该目标角色的语句中的至少一情绪特征词而确认的。