CN109036374A

CN109036374A - 数据处理方法和装置

Info

Publication number: CN109036374A
Application number: CN201810720403.1A
Authority: CN
Inventors: 于丽娜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-12-18
Anticipated expiration: 2038-07-03
Also published as: CN109036374B

Abstract

本申请实施例提供一种数据处理方法和装置，该方法包括：接收用户输入的播放请求，所述播放请求中包括待播放内容的信息和播放请求的类型；采用与播放请求的类型对应的语音合成模型，将待播放内容进行语音转换，得到语音；语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型；对语音进行播放。本申请通过获取不同播放请求类型对应的家庭成员的语音合成模型，又因为不同的播放请求对应不同的场景，因此可以将待播放的内容转化成家庭成员的且符合当时场景的声音，可以应用于亲子互动，亲子阅读。

Description

数据处理方法和装置

技术领域

本申请实施例涉及计算机技术，尤其涉及一种数据处理方法和装置。

背景技术

近两年，随着人工智能交互技术的普及，智能机器人产品得以迅速发展。其中，家用型的服务机器人大火，尤其是针对儿童的陪伴型机器人，如雨后春笋般相继推出。

现有的陪伴型机器人，并不能发出和家庭成员一样或类似的声音，也不能根据不同场景下的用户请求发出符合场景的声音。

发明内容

本申请实施例提供一种数据处理方法和装置，以克服现有技术中不能发出和家庭成员一样的且符合场景的声音的技术问题。

第一方面，本申请实施例提供一种数据处理方法，包括：

接收用户输入的播放请求，所述播放请求中包括待播放内容的信息和所述播放请求的类型；

采用与所述播放请求的类型对应的语音合成模型，将所述待播放内容进行语音转换，得到语音；所述语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型，所述声音数据为家庭成员在与所述播放请求的类型对应的场景下的声音数据；

对所述语音进行播放。

在一种可能的设计中，所述播放请求的类型为故事播放请求，则所述待播放内容的信息包括所需播放的故事信息；

所述采用与所述播放请求的类型对应的语音合成模型将所述内容进行语音转换，得到语音，包括：

采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音，其中，所述第一语音合成模型是对收集到的儿童的家庭成员的第一声音数据进行分析训练所建立的音频模型；所述第一声音数据为家庭成员声音在为儿童讲故事场景下的声音数据；

对所述语音进行播放，包括：

对所述故事语音进行播放。

在一种可能的设计中，所述采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音，包括：

采用本地存储的第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音；

相应的，所述接收用户输入的播放请求之前，还包括：

接收云端服务器发送的所述第一语音合成模型。

将所述故事信息所对应的故事内容发送到云端服务器，以使所述云端服务器采用第一语音合成模型对所述故事内容进行语音转换，得到故事语音；

接收所述云端服务器发送的所述故事语音。

在一种可能的设计中，所述所需播放的故事信息，包括：所需播放的故事的标识信息；

或者，所需播放的故事的文本信息。

在一种可能的设计中，所述播放请求中还包括：对儿童的各个家庭成员对应的第一语音合成模型的选择信息；

相应的，所述采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，包括：

采用与选择信息对应的第一语音合成模型，对所述故事信息所对应的故事内容进行语音转换。

在一种可能的设计中，所述播放请求中还包括：对于所述父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型的选择信息；

在一种可能的设计中，所述播放请求的类型为日常语音播放请求，所述待播放内容的信息包括待播放的文本；

所述采用与所述播放请求的类型对应的语音合成模型，将所述待播放内容进行语音转换，得到语音，包括：

采用第二语音合成模型对所述文本进行语音转换，得到日常语音，其中，所述第二语音合成模型是对收集到的儿童的家庭成员的第二声音数据进行分析训练所建立的音频模型；所述第二声音数据为家庭成员在普通对话场景下的第二声音数据；

对所述语音进行播放，包括：

对所述日常语音进行播放。

在一种可能的设计中，所述采用与所述类型对应的语音合成模型将所述内容进行语音转换，得到语音之前，还包括：

收集所述儿童的家庭成员在普通对话场景下的第三声音数据以及所述儿童的各个家庭成员在为所述儿童讲故事场景下的第一声音数据；

将所述第一声音数据和第二声音数据发送给云端服务器，以使所述云端服务器：对所述第三声音数据进行聚类分析，得到与各家庭成员分别对应的第二声音数据，建立与各家庭成员分别对应的通用声音数据库，建立与各家庭成员分别对应的个性化声音数据库；并且对于每个家庭成员，对所述家庭成员对应的通用声音数据库包括的第二声音数据进行训练，得到所述家庭成员的第二语音合成模型，对所述家庭成员对应的个性化声音数据库包括的第一声音数据进行训练，得到所述家庭成员的第一语音合成模型。

第二方面，本申请实施例提供一种数据处理的装置，包括：

接收模块，用于接收用户输入的播放请求，所述播放请求中包括待播放内容的信息和所述播放请求的类型；

文语转换模块，用于采用与所述播放请求的类型对应的语音合成模型，将所述待播放内容进行语音转换，得到语音；所述语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型，所述声音数据为家庭成员在与所述播放请求的类型对应的场景下的声音数据；

播放模块，用于对所述语音进行播放。

在一种可能的设计中，述播放请求的类型为故事播放请求，则所述待播放内容的信息包括所需播放的故事信息；

所述文语转换模块具体用于：

所述播放模块，具体用于：

对所述故事语音进行播放。

在一种可能的设计中，所述文语转换模块具体用于：

所述接收模块，还用于：接收云端服务器发送的所述第一语音合成模型。

在一种可能的设计中，还包括：发送模块，用于：将所述故事信息所对应的故事内容发送到云端服务器，以使所述云端服务器采用第一语音合成模型对所述故事内容进行语音转换，得到故事语音；

所述接收模块，还用于：接收所述云端服务器发送的所述故事语音。

或者，所需播放的故事的文本信息。

相应的，所述文语转换模块具体用于：

在一种可能的设计中，其特征在于，所述播放请求中还包括：对于所述父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型的选择信息；

相应的，所述文语转换模块具体用于：

所述文语转换模块具体用于：

所述播放模块，具体用于：

对所述日常语音进行播放。

在一种可能的设计中，还包括：

收集模块，用于在所述文语转换模块采用与所述类型对应的语音合成模型将所述内容进行语音转换，得到语音之前，收集所述儿童的家庭成员在普通对话场景下的第三声音数据以及所述儿童的各个家庭成员在为所述儿童讲故事场景下的第一声音数据；

发送模块，用于将所述第一声音数据和第二声音数据发送给云端服务器，以使所述云端服务器：对所述第三声音数据进行聚类分析，得到与各家庭成员分别对应的第二声音数据，建立与各家庭成员分别对应的通用声音数据库，建立与各家庭成员分别对应的个性化声音数据库；并且对于每个家庭成员，对所述家庭成员对应的通用声音数据库包括的第二声音数据进行训练，得到所述家庭成员的第二语音合成模型，对所述家庭成员对应的个性化声音数据库包括的第一声音数据进行训练，得到所述家庭成员的第一语音合成模型。

第三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行第一方面以及第一方面任一可能的设计中所述的方法。

第四方面，本申请实施例一种数据处理的装置，包括处理器和存储器，其中，

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行第一方面以及第一方面任一可能的设计中所述的方法。

本申请中针对不同的场景收集了用户在不同场景下的声音数据，对每个场景下的语音数据进行训练，得到每个场景对应的语音合成模型。这样，在用户通过终端设备输入不同场景下对应的类型的播放请求时(不同类型的播放请求对应的不同的场景)，就可采用与播放请求的类型对应的语音合成模型将待播放内容转化成语音播放。也就是说，本申请的数据处理方法，可以将待播放的内容转化成符合当时场景的声音。

且语音合成模型为家庭成员对应的语音合成模型，则本实施例的数据处理方法，可以将待播放的内容转化成家庭成员的且符合当时场景的声音，可以应用于亲子互动，亲子阅读。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的系统架构图；

图2为本申请实施例提供的数据处理方法的流程图一；

图3为本申请实施例提供的数据处理方法的流程图二；

图4为本申请实施例提供的数据处理方法的流程图三；

图5为本申请实施例提供的数据处理的装置的结构示意图一；

图6为本申请实施例提供的数据处理的装置的结构示意图二；

图7为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的系统架构图，参见图1，本实施例的系统架构包括：终端设备11和云端服务器12。

其中，终端设备用于接收用户的请播放求以及收集用户的语音数据，云端服务器12用于根据用户的语音数据训练并存储语音合成模型。

云端服务器12得到语音合成模型后还可将语音合成模型发送至终端设备11。

下面采用具体的实施例对本申请实施例的数据处理方法进行详细说明。

图2为本申请实施例提供的数据处理方法的流程图一，如图2所示，本实施例的方法可以包括：

步骤S101、接收用户输入的播放请求，播放请求中包括待播放内容的信息和播放请求的类型；

步骤S102、采用与播放请求的类型对应的语音合成模型，将待播放内容进行语音转换，得到语音；该语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型，声音数据为家庭成员在与播放请求的类型对应的场景下的声音数据；

步骤S103、对该语音进行播放。

具体地，本实施例的执行主体可为终端设备，终端设备可为儿童故事机。

对应步骤S101、用户输入的播放请求可包括：故事播放请求，日常语音播放请求；可以理解的是，若用户想听故事，则输入故事播放请求；若其它用户通过自身的终端设备发送至终端设备一段文本(该文本可称为待播放的文本)，则在用户确定播放该文本时，相当于用户输入了日常语音播放请求。

日常语音播放请求是指请求采用普通对话场景下的声音特征播放转化后的语音。

即故事播放请求和日常语音播放请求是两种不同类型的播放请求，每种类型的播放类型对应一种场景。

对于步骤S102～步骤S103、采用与播放请求的类型对应的语音合成模型，将待播放内容进行语音转换，得到语音，并对语音进行播放。

具体地，由于将故事和普通对话时对应的声音特征是不一样的。比如讲故事需要带有故事对应的场景的情感，且语速较慢，而普通对话则不需要过多的情感，语速正常；若无论是对于故事播放请求，还是对于日常语音播放请求，都采用同一语音合成模型将待播放内容转化成语音的话，则得到的语音会不符合其中的一个播放请求对应的场景：讲故事场景或者普通对话场景。

因此，本实施例中根据播放请求中包括的播放请求的类型，采用与播放请求的类型对应的语音合成模型，将待播放内容进行语音转换，得到语音。

比如，若播放请求的类型为故事播放请求，则采用与故事播放请求对应的第一语音合成模型，将待播放内容进行语音转换，得到故事语音，播放该故事语音；

若播放请求的类型为日常语音播放请求，则采用与日常语音播放请求对应的第二语音合成模型，将待播放内容进行语音转换，得到日常语音，播放该日常语音。

这样得到的语音，便可符合播放请求对应的场景，提升了用户的体验。

其中，终端设备可以收集人A在讲故事场景下的足够多的第一声音数据，将该第一声音数据发送至云端服务器，云端服务器建立人A对应的个性化数据库，云端服务器对人A对应的个性化数据库包括的第一声音数据进行分析训练得到人A对应的第一语音合成模型。

终端设备可以收集人B在讲故事场景下的足够多的该第一声音数据，将该第一声音数据发送至云端服务器，云端服务器建立人B对应的个性化数据库，云端服务器对人B对应的个性化数据库包括的第一声音数据进行分析训练得到人B对应的第一语音合成模型。

也就是说，可以根据需求获取一个或多个人各自对应的第一语音合成模型，若云端服务器获取到多个人各自对应的第一语音合成模型，且播放请求为故事播放请求，则播放请求中还包括：第一语音合成模型的选择信息；即用户通过终端设备输入选择信息，若用户想听A讲故事，则选择信息中包括A的标识。在播放故事时，终端设备或者云端服务器采用与选择信息对应的第一语音合成模型将故事文本转换至语音，即选择与A对应的第一语音合成模型将故事文本转换至语音。

可以理解的是，对于儿童故事机而言，用户一般为小孩，为了使得在父母或者其它家庭成员不在时，小孩仍然可以听到家庭成员的声音，或者说故事机采用家庭成员的声音讲故事，则对于每个家庭成员，终端设备可以收集家庭人员在讲故事场景下的足够多的第一声音数据，将该第一声音数据发送至云端服务器，云端服务器建立家庭成员的个性化声音数据库，云端服务器对该第一声音数据进行分析训练得到家庭人员的第一语音合成模型。也就是，每个家庭成员对应一个第一语音合成模型。

对于第二语音合成模型的获取，终端设备收集家庭成员在普通对话场景下的足够多的第三声音数据；对该第三声音数据进行聚类分析，得到与各家庭成员分别对应的第二声音数据，并建立与各家庭成员分别对应的通用声音数据库，也就是每个家庭成员对应一个通用声音数据库，对于每个家庭成员，对家庭成员对应的通用声音数据库包括的第二声音数据进行训练，得到家庭成员的第二语音合成模型。也就是，每个家庭成员对应一个第二语音合成模型。

若云端服务器获取到多个家庭成员各自对应的第二语音合成模型，播放请求为日常语音播放请求，则播放请求中还包括第二语音合成模型的选择信息；即用户通过终端设备输入选择信息，若用户想听A的声音，则选择信息中包括A的标识，终端设备或者云端服务器采用与选择信息对应的第二语音合成模型将待播放文本转换至语音，即选择与A对应的第二语音合成模型将待播放文本转换至日常语音。

其中，聚类分析可采用聚类算法，比如K-means聚类算法。

云端服务器根据将第三声音数据进行聚类分析后，得到会得到多个通用语音集，每个通用语音集对应一个家庭成员，可采用如下的方式为每个通用语音集添加相应家庭成员的标识：

一种可实现的方式为：对于每个通用语言集，云端服务器将通用语言集的一段语音发送至终端设备，供用户根据这段语音识别是哪个家庭成员，识别后，用户通过终端设备输入该通用语音集的标识，云端服务器接收终端设备发送的通用语音集的标识。

另一种可实现的方式为：对于每个通用语言集，云端服务器为通用语音集添加预选标识，将预选标识以及相应通用语音集中的一段语音数据发送至终端设备显示，供用户判断预选标识是否正确，若不正确，则接收用户设备输入的正确的标识，并将正确的标识发送至云端服务器，若正确，则输入确认指令。

可以理解的是，在收集预设时长的第三语音数据后，云端服务器就可以对第三语音数据进行聚类分析；在通过上述方法为每个通用语音集添加家庭成员的标识后，终端设备会继续收集第三语音数据，采用聚类分析将第三语音数据中包括的不同家庭成员的第二语音数据归类到相应的通用语音集中。

云端服务器会为每个家庭成员建立通用语音数据库，每个家庭成员的通用语音集中的声音数据均存储在相应的通用语音数据库中，通用语音数据库中的标识就是相应家庭成员的标识。

本实施例中针对不同的场景收集了用户在不同场景下的声音数据，对每个场景下的语音数据进行训练，得到每个场景对应的语音合成模型。这样，在用户通过终端设备输入不同场景下对应的类型的播放请求时(不同类型的播放请求对应的不同的场景)，就可采用与播放请求的类型对应的语音合成模型将待播放内容转化成语音播放。也就是说，本实施例的数据处理方法，可以将待播放的内容转化成符合当时场景的声音。

下面采用具体的实施例对不同类型的播放请求对应的数据处理方法进行说明。

图3为本申请实施例提供的数据处理方法的流程图二，参见图3，本实施例的方法，包括：

步骤S201、接收用户输入的故事播放请求，故事播放请求中包括所需播放的故事信息；

步骤S202、采用第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音，其中，第一语音合成模型是对收集到的儿童的家庭成员的第一声音数据进行分析训练所建立的音频模型；第一声音数据为家庭成员声音在为儿童讲故事场景下的声音数据；

步骤S203，对故事语音进行播放。

具体地，本实施例的执行主体可为终端设备，终端设备可为陪伴型机器人，比如儿童故事机。

对于步骤S201、用户通过终端设备输入故事播放请求，包括：

接收用户输入的故事播放请求，故事播放请求中包含所需播放的故事的标识信息；或者，

接收用户输入的故事播放请求，故事播放请求中包含所需播放的故事的文本信息。

其中，当终端设备为儿童故事机时，用户输入故事播放请求的方式具有如下几种，但不限于以下几种：

第一种方式为：用户直接点击故事机上的播放故事的按钮输入故事播放请求，此时，故事机按照故事机预设的顺序当前应该播放的故事即为所需播放的故事。

第二种方式为：故事机的显示屏上显示有故事列表，用户通过选中故事列表中所需播放的故事，输入故事播放请求，此时故事播放请求中包含所需播放的故事的标识信息。

第三种方式为：故事机的显示屏上显示输入框，用户通过输入框输入所所需播放的故事的名字而输入故事播放请求，此时故事播放请求中包含所需播放的故事的标识信息。

第四种方式为：故事机的显示屏上显示输入框，用户通过输入框输入所所需播放的故事的文本信息，此时故事播放请求中包含所需播放的故事的文本信息。

第五种方式为：故事机具有扫一扫功能，通过扫描所需播放的故事对应的文本，获取所需播放的故事的文本信息，即输入了故事播放请求。此时故事播放请求中包含所需播放的故事的文本信息。

第六种方式为：用户采用语音输入故事播放请求，比如，用户输入语音“拔萝卜”，此时故事播放请求中包含所需播放的故事的标识信息。

进一步地，若云端服务器获取了多个家庭成员对应的第一语音合成模型，则故事播放请求中还包括：对于各家庭成员对应的第一语音合成模型的选择信息。可以理解的是，选择了哪个家庭成员对应的第一语音合成模型将故事信息对应的故事内容转化成语音，就会播放出谁讲故事的声音。

比如，若云端服务器获取了与父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型，则故事播放请求中包括：对于父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型的选择信息。

可以理解是，此时，用户输入故事播放请求的方式具有如下几种，但不限于以下几种：

第一种方式为：故事机的显示屏上显示有故事列表，用户先通过选中故事列表中所需播放的故事，再通过选中家庭成员选择列表中的某一家庭成员，从而输入故事播放请求，此时故事播放请求中包含所需播放的故事的标识信息，以及对家庭成员的选择信息(或者说对第一语音合成模型的选择信息)。

第二种方式为：故事机的显示屏上显示有至少两个输入框，用户通过第一输入框输入所需播放的故事的名字，通过第二输入框输入家庭成员的称呼，从而输入故事播放请求；其中，称呼也就是相应家庭成员对应的个性化声音数据库的标识。此时故事播放请求中包含所需播放的故事的标识信息，以及对第一语音合成模型的选择信息。

第三种方式为：故事机的显示屏上显示有至少两个输入框，用户通过第一输入框输入所所需播放的故事的文本信息，通过第二输入框输入家庭成员的称呼，从而输入故事播放请求；此时故事播放请求中包含所需播放的故事的文本信息，以及对第一语音合成模型的选择信息。

第四种方式为：故事机具有扫一扫功能，通过扫描所需播放的故事对应的文本，获取所需播放的故文本信息，通过输入框输入家庭成员的称呼，从而输入故事播放请求；此时故事播放请求中包含所需播放的故事的文本信息，以及对第一语音合成模型的选择信息。

第五种方式为：用户采用语音输入故事播放请求，比如，用户输入语音“听爸爸讲拔萝卜”，此时故事播放请求中包含所需播放的故事的标识信息，以及对第一语音合成模型的选择信息

对应步骤S202：采用第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音，在一种可能的实施方式中，包括：

采用本地存储的第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音；

在该实施方式中，在接收用户输入的故事播放请求之前，还包括：

接收云端服务器发送的第一语音合成模型，也就是云端服务器中将得到的各第一语音合成模型发送至终端设备，在终端设备处存储。终端设备接收到故事播放请求后，根据故事播放请求中携带的所需播放的故事的标识信息或者文本信息，获取所需播放的故事的内容(也就是故事信息对应的故事的内容)，然后直接采用存储在本地的语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音。

若故事播放请求中包括“对于各家庭成员对应的第一语音合成模型的选择信息”，则采用本地存储的第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音，包括：

则采用本地存储的与选择信息对应的第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音。

在另一种可能的实施方式，采用第一语音合成模型对故事信息所对应的故事内容进行语音转换，得到故事语音，包括：

将故事信息所对应的故事内容发送到云端服务器，以使云端服务器采用第一语音合成模型对该故事内容进行语音转换，得到故事语音；

接收云端服务器发送的故事语音。

在该实施方式中，终端设备会根据用户输入的故事播放请求中携带的所需播放的故事的标识信息或者文本信息，获取所需播放的故事的内容(也就是故事信息对应的故事的内容)；接着，将故事信息所对应的故事内容发送到云端服务器，以使云端服务器采用第一语音合成模型对该故事内容进行语音转换，得到故事语音。

若故事播放请求中包括“对于各家庭成员对应的第一语音合成模型的选择信息”，则接收云端服务器发送的故事语音，包括：

接收云端服务器采用与选择信息对应的第一语音合成模型对该故事内容进行语音转换，得到的故事语音。

本实施例中，在播放请求的类型为故事播放请求的类型时，采用与该类型对应的故事播放场景对应的第一语音合成模型对故事内容进行语音转换，得到的故事语音，符合当前的故事播放的场景，且得到的故事语音为家庭成员的声音，实现了亲子阅读，提升了用户使用故事机的体验。

图4为本申请实施例提供的数据处理方法的流程图三，参见图4，本实施例的方法，包括：

步骤S301、接收用户输入的日常语音播放请求，日常语音播放请求中包括待播放的文本；

步骤S302、采用第二语音合成模型对该文本进行语音转换，得到日常语音，其中，第二语音合成模型是对收集到的儿童的家庭成员的第二声音数据进行分析训练所建立的音频模型；第二声音数据为家庭成员声音在普通对话场景下的声音数据；

步骤S303，对日常语音进行播放。

具体地，当本实施例的执行主体为故事机时，对于步骤S301、当某个家庭成员采用自己的终端设备发送一段文本至故事机后，故事机会显示或发出提示信息，提示信息指示接收到文本，是否需要播放，若用户同意播放，则用户会通过故事机输入日常语音播放请求。

进一步地，若云端服务器获取了多个家庭成员对应的第二语音合成模型，则日常语音播放请求中还包括：对于各家庭成员对应的第二语音合成模型的选择信息。可以理解的是，选择了哪个家庭成员对应的第二语音合成模型，就会采用谁的声音播放该文本。

比如，若云端服务器获取了与父亲对应的第二语音合成模型以及与母亲对应的第二语音合成模型，则日常语音播放请求中还包括：对于父亲对应的第二语音合成模型以及与母亲对应的第二语音合成模型的选择信息。

对于步骤S302：采用第二语音合成模型对该文本进行语音转换，得到日常语音，在一种可能的实施方式中，包括：

采用本地存储的第二语音合成模型对该文本进行语音转换，得到日常语音；

在该实施方式中，在接收用户输入的日常语音播放请求之前，还包括：

接收云端服务器发送的第二语音合成模型，也就是云端服务器将得到的各第二语音合成模型发送至终端设备，在终端设备处存储。终端设备接收到日常语音播放请求后直接采用存储在本地的第二语音合成模型对待播放的文本进行语音转换，得到日常语音。

若日常语音播放请求中包括“对于各家庭成员对应的第二语音合成模型的选择信息”，则采用本地存储的第二语音合成模型对待播放的文本进行语音转换，得到日常语音，包括：

则采用本地存储的与选择信息对应的第二语音合成模型对待播放的文本进行语音转换，得到日常语音。

在另一种可能的实施方式，采用第二语音合成模型对待播放的文本进行语音转换，得到日常语音，包括：

将待播放的文本发送到云端服务器，以使云端服务器采用第二语音合成模型对待播放的文本进行语音转换，得到日常语音；

接收云端服务器发送的日常语音。

在该实施方式中，终端设备会将待播放的文本发送到云端服务器，以使云端服务器采用第二语音合成模型对待播放的文本进行语音转换，得到日常语音。

若日常语音播放请求中包括“对于各家庭成员对应的第一语音合成模型的选择信息”，则接收云端服务器发送的日常语音，包括：

接收云端服务器采用与选择信息对应的第二语音合成模型对待播放的文本进行语音转换，得到的日常语音。

本实施例中，在日常语音播放请求这一播放请求的类型下，采用该类型对应的日常语音场景对应的第二语音合成模型对待播放文本进行语音转换，得到的日常语音，符合当前的日常语音或者普通对话的场景，且得到的日常语音为家庭成员的声音，实现了亲子互动，提升了用户使用故事机的体验。

图5为本申请实施例提供的数据处理的装置的结构示意图一，如图5所示，本实施例的装置可以包括：接收模块41、文语转换模块42和播放模块43；

接收模块41，用于接收用户输入的播放请求，所述播放请求中包括待播放内容的信息和所述播放请求的类型；

文语转换模块42，用于采用与所述播放请求的类型对应的语音合成模型，将所述待播放内容进行语音转换，得到语音；所述语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型，所述声音数据为家庭成员在与所述播放请求的类型对应的场景下的声音数据；

播放模块43，用于对所述语音进行播放。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

所述文语转换模块42具体用于：

所述播放模块43，具体用于：

对所述故事语音进行播放。

在一种可能的设计中，所述文语转换模块42具体用于：

所述接收模块41，还用于：接收云端服务器发送的所述第一语音合成模型。

或者，所需播放的故事的文本信息。

相应的，所述文语转换模块42具体用于：

所述文语转换模块42具体用于：

所述播放模块43，具体用于：

对所述日常语音进行播放。

图6为本申请实施例提供的数据处理的装置的结构示意图二，如图6所示，本实施例的装置在图5所示装置结构的基础上，进一步地，还可以包括：发送模块44，收集模块45；

收集模块45，用于在所述文语转换模块采用与所述类型对应的语音合成模型将所述内容进行语音转换，得到语音之前，收集所述儿童的家庭成员在普通对话场景下的第三声音数据以及所述儿童的各个家庭成员在为所述儿童讲故事场景下的第一声音数据；

发送模块44，用于将所述第一声音数据和第二声音数据发送给云端服务器，以使所述云端服务器：对所述第三声音数据进行聚类分析，得到与各家庭成员分别对应的第二声音数据，建立与各家庭成员分别对应的通用声音数据库，建立与各家庭成员分别对应的个性化声音数据库；并且对于每个家庭成员，对所述家庭成员对应的通用声音数据库包括的第二声音数据进行训练，得到所述家庭成员的第二语音合成模型，对所述家庭成员对应的个性化声音数据库包括的第一声音数据进行训练，得到所述家庭成员的第一语音合成模型。

发送模块45，还用于：将所述故事信息所对应的故事内容发送到云端服务器，以使所述云端服务器采用第一语音合成模型对所述故事内容进行语音转换，得到故事语音；

相应地，所述接收模块41还用于：接收所述云端服务器发送的所述故事语音。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行上述方法实施例中的方法。

图7为本申请实施例提供的终端设备的结构示意图，参见图7，本实施的装置包括处理器71、存储器72和通信总线73，通信总线73用于个电子器件的连接，其中，

存储器71，用于存储程序；

处理器72，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行上述方法实施例中的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

采用与所述播放请求的类型对应的语音合成模型，将所述待播放内容进行语音转换，得到语音；所述语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型；所述声音数据为家庭成员在与所述播放请求的类型对应的场景下的声音数据；

对所述语音进行播放。

2.根据权利要求1所述的方法，其特征在于，

所述播放请求的类型为故事播放请求，则所述待播放内容的信息包括所需播放的故事信息；

采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音，其中，所述第一语音合成模型是对收集到的所述儿童的家庭成员的第一声音数据进行分析训练所建立的音频模型；所述第一声音数据为家庭成员在为儿童讲故事场景下的声音数据；

对所述语音进行播放，包括：

对所述故事语音进行播放。

3.根据权利要求2所述的方法，其特征在于，所述采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音，包括：

相应的，所述接收用户输入的播放请求之前，还包括：

接收云端服务器发送的所述第一语音合成模型。

4.根据权利要求2所述的方法，其特征在于，所述采用第一语音合成模型对所述故事信息所对应的故事内容进行语音转换，得到故事语音，包括：

接收所述云端服务器发送的所述故事语音。

5.根据权利要求2～4中任一项所述的方法，其特征在于，所述所需播放的故事信息，包括：所需播放的故事的标识信息；

或者，所需播放的故事的文本信息。

6.根据权利要求2～4中任一项所述的方法，其特征在于，所述播放请求中还包括：对所述儿童的各个家庭成员对应的第一语音合成模型的选择信息；

7.根据权利要求2～4中任一项所述的方法，其特征在于，所述播放请求中还包括：对于所述父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型的选择信息；

8.根据权利要求1所述的方法，其特征在于，

所述播放请求的类型为日常语音播放请求，所述待播放内容的信息包括待播放的文本；

采用第二语音合成模型对所述待播放的文本进行语音转换，得到日常语音，其中，所述第二语音合成模型是对收集到的儿童的家庭成员的第二声音数据进行分析训练所建立的音频模型；所述第二声音数据为家庭成员在普通对话场景下的第二声音数据；

对所述语音进行播放，包括：

对所述日常语音进行播放。

9.根据权利要求1～4、8中任一项所述的方法，其特征在于，所述采用与所述类型对应的语音合成模型将所述内容进行语音转换，得到语音之前，还包括：

10.一种数据处理的装置，其特征在于，包括：

播放模块，用于对所述语音进行播放。

11.根据权利要求10所述的装置，其特征在于，

所述文语转换模块具体用于：

所述播放模块，具体用于：

对所述故事语音进行播放。

12.根据权利要求11所述的装置，其特征在于，所述文语转换模块具体用于：

13.根据权利要求11所述的装置，其特征在于，还包括：发送模块，用于：将所述故事信息所对应的故事内容发送到云端服务器，以使所述云端服务器采用第一语音合成模型对所述故事内容进行语音转换，得到故事语音；

14.根据权利要求11～13中任一项所述的装置，其特征在于，所述所需播放的故事信息，包括：所需播放的故事的标识信息；

或者，所需播放的故事的文本信息。

15.根据权利要求11～13中任一项所述的装置，其特征在于，所述播放请求中还包括：对儿童的各个家庭成员对应的第一语音合成模型的选择信息；

相应的，所述文语转换模块具体用于：

16.根据权利要求11～13中任一项所述的装置，其特征在于，所述播放请求中还包括：对于所述父亲对应的第一语音合成模型以及与母亲对应的第一语音合成模型的选择信息；

相应的，所述文语转换模块具体用于：

17.根据权利要求10所述的装置，其特征在于，

所述文语转换模块具体用于：

所述播放模块，具体用于：

对所述日常语音进行播放。

18.根据权利要求10～13,17所述的装置，其特征在于，还包括：

19.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1至9中任一项所述的方法。

20.一种数据处理的装置，其特征在于，包括处理器和存储器，其中，

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行权利要求1至9中任一所述的方法。