CN107886939B

CN107886939B - 一种在客户端的中止-接续式文本语音播放方法和装置

Info

Publication number: CN107886939B
Application number: CN201610871990.5A
Authority: CN
Inventors: 熊健南; 莫文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2021-03-30
Anticipated expiration: 2036-09-30
Also published as: CN107886939A

Abstract

本发明提供一种在客户端的中止‑接续式文本语音播放方法和装置，能解决数字文档语音播放时加载速度过慢的问题，缩短用户等待时间，提高用户体验。本发明的在客户端的中止‑接续式文本语音播放方法包括：接收用户对文本的语音播放命令；从服务器的对应数字文档中获取文本，同时播放中止点语音文件；完成文本的获取后，检查中止点语音文件是否播放完毕，若播放完毕，从文本中与中止点语音文件结尾对应的位置开始语音生成和播放；当用户发出中止文本的语音播放的命令时，记录文本中当前播放中止的位置并利用该位置更新中止点，生成文本中当前中止点前后的设定长度的文本段所对应的语音文件并替换中止点语音文件。

Description

一种在客户端的中止-接续式文本语音播放方法和装置

技术领域

本发明涉及计算机及其软件技术领域，特别地涉及一种在客户端的中止-接续式文本语音播放方法和装置。

背景技术

随着移动互联网的发展，对语音技术的利用越来越多，对数字文档的语音朗读也越来越普及。在很多场景下，例如在开车时或在拥挤的交通工具中等场景下，进行视觉阅读不是很方便。因此，在移动设备中，快速地对文本文件进行加载并解析并进行语音朗读，成为一种受欢迎的应用。

目前对数字文档进行朗读的方案主要是先读取数字文档文件并进行解析，然后提取数字文档中的文本内容，最后调用语音模块来进行朗读。具体流程如图1所示，根据图1，现有的数字文档朗读的总体流程主要包括：

S11：读取特定路径下的数字文档，加载到内存中；

S12：对已经加载到内存中的数字文档文件，解析其结构以得到内部中的信息；

其中，对于PDF文档，主要是解析其中的每个页面，以及这些页面相关的对象(这些对象中含文字信息)；对于ePub文件，主要是解析其中的文件清单以及对应的章节顺序文件得到每个章节文件(HTML文件)，对于文本类型(txt)的文件，则直接得到文本。

S13：提取数字文档中的文本内容；

其中，对于PDF文档，从每一页的内容对象中，取出文本类型的对象；对于ePub文件，解析章节文件，得到其中每个段落，然后只取段落其中的文本；对于文本类型的文件，直接使用上一步骤(S12步骤)的结果。

S14：将文档提交给语音朗读模块进行朗读。

上述的方案存在一定的缺陷，主要体现在解析文档的速度不够快，而且需要在解析完文档且需要提取完文本时才能开始朗读(播放)，造成用户等待时间过长，影响用户体验。

发明内容

有鉴于此，本发明提供一种在客户端的中止-接续式文本语音播放方法和装置，能够解决数字文档语音播放时加载速度过慢的问题，缩短用户等待时间，提高用户体验。

为实现上述目的，根据本发明的一个方面，提供了一种在客户端的中止-接续式文本语音播放方法。

一种在客户端的中止-接续式文本语音播放方法，所述文本与一个中止点相关联，该中止点是所述文本中前次语音播放的中止的位置，并且所述中止点对应在所述客户端保存的中止点语音文件，所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且所述中止点语音文件包含预定的语音提示，所述方法包括：接收用户对所述文本的语音播放命令；从服务器的对应数字文档中获取所述文本，同时播放所述中止点语音文件；当完成所述文本的获取后，检查所述中止点语音文件是否播放完毕，并且当所述中止点语音文件播放完毕时，调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放；当用户发出中止所述文本的语音播放的命令时，记录所述文本中当前播放中止的位置并利用该位置更新所述中止点，以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换所述中止点语音文件。

可选地，其中，获取所述文本的步骤包括：读取所述数字文档并加载到本地存储器；根据所述数字文档的格式解析所述数字文档以识别其中的文本内容；提取出所述数字文档中的文本内容并形成所述文本。

可选地，其中，获取所述文本还包括利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长，并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度，使得所述中止点语音文件完成播放所需的时间大于所述时长。

可选地，生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件的步骤，包括：在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段；并记录该文本段的结束位置；以及利用所述语音合成器根据该文本段生成所述语音文件。

可选地，所述设定规则包括：在当前中止点的前后按照给定的比例截取所述设定长度的文本段。

可选地，所述数字文档的格式的类型包括PDF、ePub、txt。

根据本发明的另一方面，提供了一种在客户端的中止-接续式文本语音播放装置。

一种在客户端的中止-接续式文本语音播放装置，所述文本与一个中止点相关联，该中止点是所述文本中前次语音播放的中止的位置，并且所述中止点对应在所述客户端保存的中止点语音文件，所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且所述中止点语音文件包含预定的语音提示，所述装置包括命令接收模块、文本获取模块、语音播放模块和文件生成模块，其中：所述命令接收模块用于接收用户对所述文本的语音播放命令；所述文本获取模块用于从服务器的对应数字文档中获取所述文本，同时由所述语音播放模块播放所述中止点语音文件；所述语音播放模块用于当所述文本获取模块完成所述文本的获取后，检查所述中止点语音文件是否播放完毕，并且当所述中止点语音文件播放完毕时，调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放；所述文件生成模块用于当用户发出中止所述文本的语音播放的命令时，记录所述文本中当前播放中止的位置并利用该位置更新所述中止点，以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换所述中止点语音文件。

可选地，其中，所述文本获取模块还用于：读取所述数字文档并加载到本地存储器；根据所述数字文档的格式解析所述数字文档以识别其中的文本内容；提取出所述数字文档中的文本内容并形成所述文本。

可选地，其中，所述文本获取模块还用于：利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长，并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度，使得所述中止点语音文件完成播放所需的时间大于所述时长。

可选地，所述文件生成模块还用于：在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段；并记录该文本段的结束位置；以及利用所述语音合成器根据该文本段生成所述语音文件。

可选地，所述数字文档的格式的类型包括PDF、ePub、txt。

根据本发明的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现在客户端的中止-接续式文本语音播放方法。

根据本发明的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现在客户端的中止-接续式文本语音播放方法。

根据本发明的技术方案，接收用户对文本的语音播放命令，从服务器的对应数字文档中获取文本，同时播放保存的文本中前次语音播放的中止点对应的中止点语音文件；当完成文本获取后，检查中止点语音文件是否播放完毕，若播放完毕，从文本中与中止点语音文件结尾对应的位置开始语音生成和播放；当用户发出中止文本的语音播放的命令时，记录文本中当前播放中止的位置并利用该位置更新中止点，以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换中止点语音文件。使用本发明的技术方案，能够解决数字文档语音播放时加载速度过慢的问题，缩短用户等待时间，提高用户体验。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是现有技术的数字文档朗读的总体流程示意图；

图2是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的主要步骤示意图；

图3是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的优选流程示意图；

图4是根据本发明实施例的在客户端的中止-接续式文本语音播放装置的主要模块示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图2是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的主要步骤示意图。

如图2所示，本发明实施例的在客户端的中止-接续式文本语音播放方法主要包括如下的步骤S21至步骤S24。

本实施例中的文本与一个中止点相关联，该中止点是该文本中前次语音播放的中止的位置，并且中止点对应在客户端保存的中止点语音文件，中止点语音文件对应文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且中止点语音文件包含预定的语音提示。本发明实施例的客户端可以为移动设备，如手机、Pad、电子书等嵌入式设备，也可以为台式计算机等固定设备。

步骤S21：接收用户对文本的语音播放命令。

步骤S22：从服务器的对应数字文档中获取文本，同时播放中止点语音文件。

数字文档的格式的类型可以包括PDF、ePub、txt，也可以为其他类型的数字文档。

其中，获取文本的步骤具体包括：读取数字文档并加载到本地存储器；根据数字文档的格式解析数字文档以识别其中的文本内容；提取出数字文档中的文本内容并形成文本。

获取文本还包括利用计时器对获取文本的时间进行计时以确定获取文本所需的时长，并据此确定中止点语音文件对应的文本段的长度作为设定长度，使得中止点语音文件完成播放所需的时间大于上述时长。

步骤S23：当完成文本获取后，检查中止点语音文件是否播放完毕，并且当中止点语音文件播放完毕时，调用相应语音合成器从文本中与中止点语音文件结尾对应的位置开始语音生成和播放。

步骤S24：当用户发出中止文本的语音播放的命令时，记录文本中当前播放中止的位置并利用该位置更新中止点，以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换中止点语音文件。

生成文本中当前中止点前后的设定长度的文本段所对应的语音文件，主要是在文本的当前中止点前后按照设定规则截取设定长度的文本段；并记录该文本段的结束位置；以及利用语音合成器根据该文本段生成语音文件。

其中，设定规则可以包括：在当前中止点的前后按照给定的比例截取设定长度的文本段。

图3示出了本发明实施例的在客户端的中止-接续式文本语音播放方法的优选流程示意图。其中：

在客户端接收到用户对文本的语音播放命令之后，首先检查本地缓存中是否存有中止点语音文件，若是，则通过语音播放模块播放缓存中的中止点语音文件，否则，播放预定的语音提示(图中未示出)。其中，中止点即上一次语音播放该文本中止时所对应的位置，用户在上一次中止语音播放该文本时保存了该中止点前后的设定长度的文本段，并根据该文本段生成语音文件并保存在客户端的本地缓存中。如果当前是首次对该文本进行语音播放，则播放预定的语音提示，例如“当前文档正在加载”等语音，并且该语音提示可循环播放。

客户端在语音播放模块播放中止点语音文件或预定的语音提示的同时，从服务器的对应数字文档中获取文本，具体过程包括：一、读取数字文档：通过数字文档存储路径从服务器读取数字文档，并加载到本地存储器；二、解析数字文档：对已经加载到本地存储器中的数字文档，根据文档格式对数字文档进行结构解析，以识别其中的文本内容，例如，对于PDF文档，主要是解析其中的每个页面，以及这些页面相关的对象(这些对象中含文字信息)，对于ePub文件，主要是解析其中的文件清单以及对应的章节顺序文件，以得到每个章节文件(HTML文件)，对于文本类型的文件(txt文件)，则直接得到文本；三、提取数字文档中的文本内容并形成文本：其中，对于PDF文档，主要是从每一页的内容对象中，提取出文本类型的对象，对于ePub文件，主要是解析章节文件，得到其中的每一个段落，然后只提取段落中的文本，对于文本类型的文件(txt文件)，由于可通过解析直接得到文本，则直接使用解析得到的文本即可；四、记录获取文本所需的时长：即利用计时器对获取文本的时间进行计时，以确定获取文本所需的时长，并据此确定在播放中止时用于生成语音文件的文本段的长度，该文本段为播放的中止点前后的设定长度的文本段，并且生成的语音文件被作为中止点语音文件保存在客户端的本地缓存中，具体地，可通过该时长与预设的播放语速进行计算来确定该设定长度的数值，例如，播放语速为120字/分钟，获取文本所需的时长为5秒，则将二者的乘积与一个预设的系数A相乘即可得出文本段的长度，该预设的系数A可以自行设置，例如可以设置为12，那么，时长*播放语速*预设系数A＝120字。这样，在120字/分钟的播放语速下，播放根据该长度的文本段生成的中止点语音文件的播放完成时间为1分钟。理论上，每次进行语音播放时，获取文本所需的时长是相同的，因此，在相同的播放语速和预设系数值的情况下，每次进行语音播放时中止点语音文件的播放完成时间也是相同的。但是考虑到每次使用的客户端的CPU、内存等因素的影响，可能造成每次获取文本所需的时长存在差异，因此，在设置预设的系数A的具体数值时，应使得计算得到的文本段长度满足中止点语音文件的播放完成时间长于通常获取文本的时长(为不考虑客户端的CPU、内存等因素影响下的时长)，即假设通常获取文本所需的时长为5秒，那么，通过如下计算：时长*播放语速*预设系数A确定的文本段长度，并生成的语音文件的播放完成时间应长于5秒，例如，设置系数A＝12，使得在120字/分钟的播放语速下，中止点语音文件的播放完成时间为1分钟。这样避免了下次进行语音播放时，受到客户端的CPU、内存等因素影响，中止点语音文件完成播放时文本还未获取完毕的情况出现。

当客户端完成文本的获取后，语音播放模块检查中止点语音文件是否播放完毕，并且当中止点语音文件播放完毕时，从文本中与中止点语音文件结尾对应的位置开始语音生成和播放。语音播放模块具体可为语音朗读SDK。

当接收到用户发出的中止文本的语音播放的命令时，记录文本中当前播放中止的位置，并生成文本中该位置前后的设定长度的文本段所对应的语音文件，并在本地缓存中保存所生成的语音文件以替换当前本地缓存的中止点语音文件，以便下次进行语音播放时在获取文本的同时播放本次生成的中止点语音文件。可以按照设定规则来截取设定长度的文本段，具体地，可在当前中止点的前后按照给定的比例来进行截取，例如，该比例可以设置为1:3，假设通过如下计算：获取文本所需的时长*播放语速*预设系数A＝120字，那么可以在当前播放中止的位置之前截取120字*1/4＝30字，在当前播放中止的位置之后截取120字*3/4＝90字。然后，记录所截取的文本段的结束位置，例如记录结束位置所在的章节、段落、字符等信息，并利用语音合成器根据该文本段生成语音文件。

将生成的语音文件保存在本地缓存，作为下次在进行语音播放时的中止点语音文件。

图4是根据本发明实施例的在客户端的中止-接续式文本语音播放装置的主要模块示意图。其中，本发明实施例的文本与一个中止点相关联，该中止点是文本中前次语音播放的中止的位置，并且中止点对应在客户端保存的中止点语音文件，中止点语音文件对应文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且中止点语音文件包含预定的语音提示。

根据本发明实施例的在客户端的中止-接续式文本语音播放装置40主要包括：命令接收模块41、文本获取模块42、语音播放模块43和文件生成模块44。

其中：命令接收模块41用于接收用户对文本的语音播放命令；文本获取模块42用于从服务器的对应数字文档中获取文本，同时由语音播放模块43播放中止点语音文件；语音播放模块43用于当文本获取模块42完成文本的获取后，检查中止点语音文件是否播放完毕，并且当中止点语音文件播放完毕时，调用相应的语音合成器从文本中与中止点语音文件结尾对应的位置开始语音生成和播放；文件生成模块44用于当用户发出中止文本的语音播放的命令时，记录文本中当前播放中止的位置并利用该位置更新中止点，以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换中止点语音文件。

文本获取模块42还可以用于读取数字文档并加载到本地存储器；根据数字文档的格式解析数字文档以识别其中的文本内容；提取出数字文档中的文本内容并形成文本。

此外，文本获取模块42还可以用于：利用计时器对获取文本的时间进行计时以确定获取文本所需的时长，并据此确定中止点语音文件对应的文本段的长度作为设定长度，使得中止点语音文件完成播放所需的时间大于该时长。

文件生成模块44还可以用于：在文本的当前中止点前后按照设定规则截取设定长度的文本段；并记录该文本段的结束位置；以及利用语音合成器根据该文本段生成语音文件。其中，设定规则具体可以包括：在当前中止点的前后按照给定的比例截取设定长度的文本段。

数字文档的格式的类型包括但不限于PDF、ePub、txt。

根据本发明实施例的技术方案，接收用户对文本的语音播放命令，从服务器的对应数字文档中获取文本，同时播放保存的文本中前次语音播放的中止点对应的中止点语音文件；当完成文本获取后，检查中止点语音文件是否播放完毕，若播放完毕，从文本中与中止点语音文件结尾对应的位置开始语音生成和播放；当用户发出中止文本的语音播放的命令时，记录文本中当前播放中止的位置并利用该位置更新中止点，以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换中止点语音文件。使用本发明实施例的技术方案，能够解决数字文档语音播放时加载速度过慢的问题，缩短用户等待时间，提高用户体验。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种在客户端的中止-接续式文本语音播放方法，其特征在于，所述文本与一个中止点相关联，该中止点是所述文本中前次语音播放的中止的位置，并且所述中止点对应在所述客户端保存的中止点语音文件，所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且所述中止点语音文件包含预定的语音提示，所述方法包括：

接收用户对所述文本的语音播放命令；

从服务器的对应数字文档中获取所述文本，同时播放所述中止点语音文件；

当完成所述文本的获取后，检查所述中止点语音文件是否播放完毕，并且当所述中止点语音文件播放完毕时，调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放；

当用户发出中止所述文本的语音播放的命令时，记录所述文本中当前播放中止的位置并利用该位置更新所述中止点，以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换所述中止点语音文件。

2.根据权利要求1所述的方法，其特征在于，其中，获取所述文本的步骤包括：

读取所述数字文档并加载到本地存储器；

根据所述数字文档的格式解析所述数字文档以识别其中的文本内容；

提取出所述数字文档中的文本内容并形成所述文本。

3.根据权利要求1所述的方法，其特征在于，其中，获取所述文本还包括利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长，并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度，使得所述中止点语音文件完成播放所需的时间大于所述时长。

4.根据权利要求1所述的方法，其特征在于，生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件的步骤，包括：

在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段；

并记录该文本段的结束位置；以及

利用所述语音合成器根据该文本段生成所述语音文件。

5.根据权利要求4所述的方法，其特征在于，所述设定规则包括：

在当前中止点的前后按照给定的比例截取所述设定长度的文本段。

6.根据权利要求1所述的方法，其特征在于，所述数字文档的格式的类型包括PDF、ePub、txt。

7.一种在客户端的中止-接续式文本语音播放装置，其特征在于，所述文本与一个中止点相关联，该中止点是所述文本中前次语音播放的中止的位置，并且所述中止点对应在所述客户端保存的中止点语音文件，所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段，其中，当本次播放是该文本的第一次播放时，该中止点是该文本的起点，并且所述中止点语音文件包含预定的语音提示，所述装置包括命令接收模块、文本获取模块、语音播放模块和文件生成模块，其中：

所述命令接收模块，用于接收用户对所述文本的语音播放命令；

所述文本获取模块，用于从服务器的对应数字文档中获取所述文本，同时由所述语音播放模块播放所述中止点语音文件；

所述语音播放模块，用于当所述文本获取模块完成所述文本的获取后，检查所述中止点语音文件是否播放完毕，并且当所述中止点语音文件播放完毕时，调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放；

所述文件生成模块，用于当用户发出中止所述文本的语音播放的命令时，记录所述文本中当前播放中止的位置并利用该位置更新所述中止点，以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件，并用所生成的语音文件替换所述中止点语音文件。

8.根据权利要求7所述的装置，其特征在于，其中，所述文本获取模块还用于：

读取所述数字文档并加载到本地存储器；

提取出所述数字文档中的文本内容并形成所述文本。

9.根据权利要求7所述的装置，其特征在于，其中，所述文本获取模块还用于：

利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长，并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度，使得所述中止点语音文件完成播放所需的时间大于所述时长。

10.根据权利要求7所述的装置，其特征在于，所述文件生成模块还用于：

并记录该文本段的结束位置；以及

利用所述语音合成器根据该文本段生成所述语音文件。

11.根据权利要求10所述的装置，其特征在于，所述设定规则包括：

12.根据权利要求7所述的装置，其特征在于，所述数字文档的格式的类型包括PDF、ePub、txt。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。