[go: up one dir, main page]

CN107886939B - 一种在客户端的中止-接续式文本语音播放方法和装置 - Google Patents

一种在客户端的中止-接续式文本语音播放方法和装置 Download PDF

Info

Publication number
CN107886939B
CN107886939B CN201610871990.5A CN201610871990A CN107886939B CN 107886939 B CN107886939 B CN 107886939B CN 201610871990 A CN201610871990 A CN 201610871990A CN 107886939 B CN107886939 B CN 107886939B
Authority
CN
China
Prior art keywords
text
voice
point
playing
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610871990.5A
Other languages
English (en)
Other versions
CN107886939A (zh
Inventor
熊健南
莫文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610871990.5A priority Critical patent/CN107886939B/zh
Publication of CN107886939A publication Critical patent/CN107886939A/zh
Application granted granted Critical
Publication of CN107886939B publication Critical patent/CN107886939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种在客户端的中止‑接续式文本语音播放方法和装置,能解决数字文档语音播放时加载速度过慢的问题,缩短用户等待时间,提高用户体验。本发明的在客户端的中止‑接续式文本语音播放方法包括:接收用户对文本的语音播放命令;从服务器的对应数字文档中获取文本,同时播放中止点语音文件;完成文本的获取后,检查中止点语音文件是否播放完毕,若播放完毕,从文本中与中止点语音文件结尾对应的位置开始语音生成和播放;当用户发出中止文本的语音播放的命令时,记录文本中当前播放中止的位置并利用该位置更新中止点,生成文本中当前中止点前后的设定长度的文本段所对应的语音文件并替换中止点语音文件。

Description

一种在客户端的中止-接续式文本语音播放方法和装置
技术领域
本发明涉及计算机及其软件技术领域,特别地涉及一种在客户端的中止-接续式文本语音播放方法和装置。
背景技术
随着移动互联网的发展,对语音技术的利用越来越多,对数字文档的语音朗读也越来越普及。在很多场景下,例如在开车时或在拥挤的交通工具中等场景下,进行视觉阅读不是很方便。因此,在移动设备中,快速地对文本文件进行加载并解析并进行语音朗读,成为一种受欢迎的应用。
目前对数字文档进行朗读的方案主要是先读取数字文档文件并进行解析,然后提取数字文档中的文本内容,最后调用语音模块来进行朗读。具体流程如图1所示,根据图1,现有的数字文档朗读的总体流程主要包括:
S11:读取特定路径下的数字文档,加载到内存中;
S12:对已经加载到内存中的数字文档文件,解析其结构以得到内部中的信息;
其中,对于PDF文档,主要是解析其中的每个页面,以及这些页面相关的对象(这些对象中含文字信息);对于ePub文件,主要是解析其中的文件清单以及对应的章节顺序文件得到每个章节文件(HTML文件),对于文本类型(txt)的文件,则直接得到文本。
S13:提取数字文档中的文本内容;
其中,对于PDF文档,从每一页的内容对象中,取出文本类型的对象;对于ePub文件,解析章节文件,得到其中每个段落,然后只取段落其中的文本;对于文本类型的文件,直接使用上一步骤(S12步骤)的结果。
S14:将文档提交给语音朗读模块进行朗读。
上述的方案存在一定的缺陷,主要体现在解析文档的速度不够快,而且需要在解析完文档且需要提取完文本时才能开始朗读(播放),造成用户等待时间过长,影响用户体验。
发明内容
有鉴于此,本发明提供一种在客户端的中止-接续式文本语音播放方法和装置,能够解决数字文档语音播放时加载速度过慢的问题,缩短用户等待时间,提高用户体验。
为实现上述目的,根据本发明的一个方面,提供了一种在客户端的中止-接续式文本语音播放方法。
一种在客户端的中止-接续式文本语音播放方法,所述文本与一个中止点相关联,该中止点是所述文本中前次语音播放的中止的位置,并且所述中止点对应在所述客户端保存的中止点语音文件,所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且所述中止点语音文件包含预定的语音提示,所述方法包括:接收用户对所述文本的语音播放命令;从服务器的对应数字文档中获取所述文本,同时播放所述中止点语音文件;当完成所述文本的获取后,检查所述中止点语音文件是否播放完毕,并且当所述中止点语音文件播放完毕时,调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放;当用户发出中止所述文本的语音播放的命令时,记录所述文本中当前播放中止的位置并利用该位置更新所述中止点,以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换所述中止点语音文件。
可选地,其中,获取所述文本的步骤包括:读取所述数字文档并加载到本地存储器;根据所述数字文档的格式解析所述数字文档以识别其中的文本内容;提取出所述数字文档中的文本内容并形成所述文本。
可选地,其中,获取所述文本还包括利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长,并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度,使得所述中止点语音文件完成播放所需的时间大于所述时长。
可选地,生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件的步骤,包括:在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段;并记录该文本段的结束位置;以及利用所述语音合成器根据该文本段生成所述语音文件。
可选地,所述设定规则包括:在当前中止点的前后按照给定的比例截取所述设定长度的文本段。
可选地,所述数字文档的格式的类型包括PDF、ePub、txt。
根据本发明的另一方面,提供了一种在客户端的中止-接续式文本语音播放装置。
一种在客户端的中止-接续式文本语音播放装置,所述文本与一个中止点相关联,该中止点是所述文本中前次语音播放的中止的位置,并且所述中止点对应在所述客户端保存的中止点语音文件,所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且所述中止点语音文件包含预定的语音提示,所述装置包括命令接收模块、文本获取模块、语音播放模块和文件生成模块,其中:所述命令接收模块用于接收用户对所述文本的语音播放命令;所述文本获取模块用于从服务器的对应数字文档中获取所述文本,同时由所述语音播放模块播放所述中止点语音文件;所述语音播放模块用于当所述文本获取模块完成所述文本的获取后,检查所述中止点语音文件是否播放完毕,并且当所述中止点语音文件播放完毕时,调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放;所述文件生成模块用于当用户发出中止所述文本的语音播放的命令时,记录所述文本中当前播放中止的位置并利用该位置更新所述中止点,以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换所述中止点语音文件。
可选地,其中,所述文本获取模块还用于:读取所述数字文档并加载到本地存储器;根据所述数字文档的格式解析所述数字文档以识别其中的文本内容;提取出所述数字文档中的文本内容并形成所述文本。
可选地,其中,所述文本获取模块还用于:利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长,并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度,使得所述中止点语音文件完成播放所需的时间大于所述时长。
可选地,所述文件生成模块还用于:在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段;并记录该文本段的结束位置;以及利用所述语音合成器根据该文本段生成所述语音文件。
可选地,所述设定规则包括:在当前中止点的前后按照给定的比例截取所述设定长度的文本段。
可选地,所述数字文档的格式的类型包括PDF、ePub、txt。
根据本发明的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现在客户端的中止-接续式文本语音播放方法。
根据本发明的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现在客户端的中止-接续式文本语音播放方法。
根据本发明的技术方案,接收用户对文本的语音播放命令,从服务器的对应数字文档中获取文本,同时播放保存的文本中前次语音播放的中止点对应的中止点语音文件;当完成文本获取后,检查中止点语音文件是否播放完毕,若播放完毕,从文本中与中止点语音文件结尾对应的位置开始语音生成和播放;当用户发出中止文本的语音播放的命令时,记录文本中当前播放中止的位置并利用该位置更新中止点,以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换中止点语音文件。使用本发明的技术方案,能够解决数字文档语音播放时加载速度过慢的问题,缩短用户等待时间,提高用户体验。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是现有技术的数字文档朗读的总体流程示意图;
图2是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的主要步骤示意图;
图3是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的优选流程示意图;
图4是根据本发明实施例的在客户端的中止-接续式文本语音播放装置的主要模块示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图2是根据本发明实施例的在客户端的中止-接续式文本语音播放方法的主要步骤示意图。
如图2所示,本发明实施例的在客户端的中止-接续式文本语音播放方法主要包括如下的步骤S21至步骤S24。
本实施例中的文本与一个中止点相关联,该中止点是该文本中前次语音播放的中止的位置,并且中止点对应在客户端保存的中止点语音文件,中止点语音文件对应文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且中止点语音文件包含预定的语音提示。本发明实施例的客户端可以为移动设备,如手机、Pad、电子书等嵌入式设备,也可以为台式计算机等固定设备。
步骤S21:接收用户对文本的语音播放命令。
步骤S22:从服务器的对应数字文档中获取文本,同时播放中止点语音文件。
数字文档的格式的类型可以包括PDF、ePub、txt,也可以为其他类型的数字文档。
其中,获取文本的步骤具体包括:读取数字文档并加载到本地存储器;根据数字文档的格式解析数字文档以识别其中的文本内容;提取出数字文档中的文本内容并形成文本。
获取文本还包括利用计时器对获取文本的时间进行计时以确定获取文本所需的时长,并据此确定中止点语音文件对应的文本段的长度作为设定长度,使得中止点语音文件完成播放所需的时间大于上述时长。
步骤S23:当完成文本获取后,检查中止点语音文件是否播放完毕,并且当中止点语音文件播放完毕时,调用相应语音合成器从文本中与中止点语音文件结尾对应的位置开始语音生成和播放。
步骤S24:当用户发出中止文本的语音播放的命令时,记录文本中当前播放中止的位置并利用该位置更新中止点,以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换中止点语音文件。
生成文本中当前中止点前后的设定长度的文本段所对应的语音文件,主要是在文本的当前中止点前后按照设定规则截取设定长度的文本段;并记录该文本段的结束位置;以及利用语音合成器根据该文本段生成语音文件。
其中,设定规则可以包括:在当前中止点的前后按照给定的比例截取设定长度的文本段。
图3示出了本发明实施例的在客户端的中止-接续式文本语音播放方法的优选流程示意图。其中:
在客户端接收到用户对文本的语音播放命令之后,首先检查本地缓存中是否存有中止点语音文件,若是,则通过语音播放模块播放缓存中的中止点语音文件,否则,播放预定的语音提示(图中未示出)。其中,中止点即上一次语音播放该文本中止时所对应的位置,用户在上一次中止语音播放该文本时保存了该中止点前后的设定长度的文本段,并根据该文本段生成语音文件并保存在客户端的本地缓存中。如果当前是首次对该文本进行语音播放,则播放预定的语音提示,例如“当前文档正在加载”等语音,并且该语音提示可循环播放。
客户端在语音播放模块播放中止点语音文件或预定的语音提示的同时,从服务器的对应数字文档中获取文本,具体过程包括:一、读取数字文档:通过数字文档存储路径从服务器读取数字文档,并加载到本地存储器;二、解析数字文档:对已经加载到本地存储器中的数字文档,根据文档格式对数字文档进行结构解析,以识别其中的文本内容,例如,对于PDF文档,主要是解析其中的每个页面,以及这些页面相关的对象(这些对象中含文字信息),对于ePub文件,主要是解析其中的文件清单以及对应的章节顺序文件,以得到每个章节文件(HTML文件),对于文本类型的文件(txt文件),则直接得到文本;三、提取数字文档中的文本内容并形成文本:其中,对于PDF文档,主要是从每一页的内容对象中,提取出文本类型的对象,对于ePub文件,主要是解析章节文件,得到其中的每一个段落,然后只提取段落中的文本,对于文本类型的文件(txt文件),由于可通过解析直接得到文本,则直接使用解析得到的文本即可;四、记录获取文本所需的时长:即利用计时器对获取文本的时间进行计时,以确定获取文本所需的时长,并据此确定在播放中止时用于生成语音文件的文本段的长度,该文本段为播放的中止点前后的设定长度的文本段,并且生成的语音文件被作为中止点语音文件保存在客户端的本地缓存中,具体地,可通过该时长与预设的播放语速进行计算来确定该设定长度的数值,例如,播放语速为120字/分钟,获取文本所需的时长为5秒,则将二者的乘积与一个预设的系数A相乘即可得出文本段的长度,该预设的系数A可以自行设置,例如可以设置为12,那么,时长*播放语速*预设系数A=120字。这样,在120字/分钟的播放语速下,播放根据该长度的文本段生成的中止点语音文件的播放完成时间为1分钟。理论上,每次进行语音播放时,获取文本所需的时长是相同的,因此,在相同的播放语速和预设系数值的情况下,每次进行语音播放时中止点语音文件的播放完成时间也是相同的。但是考虑到每次使用的客户端的CPU、内存等因素的影响,可能造成每次获取文本所需的时长存在差异,因此,在设置预设的系数A的具体数值时,应使得计算得到的文本段长度满足中止点语音文件的播放完成时间长于通常获取文本的时长(为不考虑客户端的CPU、内存等因素影响下的时长),即假设通常获取文本所需的时长为5秒,那么,通过如下计算:时长*播放语速*预设系数A确定的文本段长度,并生成的语音文件的播放完成时间应长于5秒,例如,设置系数A=12,使得在120字/分钟的播放语速下,中止点语音文件的播放完成时间为1分钟。这样避免了下次进行语音播放时,受到客户端的CPU、内存等因素影响,中止点语音文件完成播放时文本还未获取完毕的情况出现。
当客户端完成文本的获取后,语音播放模块检查中止点语音文件是否播放完毕,并且当中止点语音文件播放完毕时,从文本中与中止点语音文件结尾对应的位置开始语音生成和播放。语音播放模块具体可为语音朗读SDK。
当接收到用户发出的中止文本的语音播放的命令时,记录文本中当前播放中止的位置,并生成文本中该位置前后的设定长度的文本段所对应的语音文件,并在本地缓存中保存所生成的语音文件以替换当前本地缓存的中止点语音文件,以便下次进行语音播放时在获取文本的同时播放本次生成的中止点语音文件。可以按照设定规则来截取设定长度的文本段,具体地,可在当前中止点的前后按照给定的比例来进行截取,例如,该比例可以设置为1:3,假设通过如下计算:获取文本所需的时长*播放语速*预设系数A=120字,那么可以在当前播放中止的位置之前截取120字*1/4=30字,在当前播放中止的位置之后截取120字*3/4=90字。然后,记录所截取的文本段的结束位置,例如记录结束位置所在的章节、段落、字符等信息,并利用语音合成器根据该文本段生成语音文件。
将生成的语音文件保存在本地缓存,作为下次在进行语音播放时的中止点语音文件。
图4是根据本发明实施例的在客户端的中止-接续式文本语音播放装置的主要模块示意图。其中,本发明实施例的文本与一个中止点相关联,该中止点是文本中前次语音播放的中止的位置,并且中止点对应在客户端保存的中止点语音文件,中止点语音文件对应文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且中止点语音文件包含预定的语音提示。
根据本发明实施例的在客户端的中止-接续式文本语音播放装置40主要包括:命令接收模块41、文本获取模块42、语音播放模块43和文件生成模块44。
其中:命令接收模块41用于接收用户对文本的语音播放命令;文本获取模块42用于从服务器的对应数字文档中获取文本,同时由语音播放模块43播放中止点语音文件;语音播放模块43用于当文本获取模块42完成文本的获取后,检查中止点语音文件是否播放完毕,并且当中止点语音文件播放完毕时,调用相应的语音合成器从文本中与中止点语音文件结尾对应的位置开始语音生成和播放;文件生成模块44用于当用户发出中止文本的语音播放的命令时,记录文本中当前播放中止的位置并利用该位置更新中止点,以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换中止点语音文件。
文本获取模块42还可以用于读取数字文档并加载到本地存储器;根据数字文档的格式解析数字文档以识别其中的文本内容;提取出数字文档中的文本内容并形成文本。
此外,文本获取模块42还可以用于:利用计时器对获取文本的时间进行计时以确定获取文本所需的时长,并据此确定中止点语音文件对应的文本段的长度作为设定长度,使得中止点语音文件完成播放所需的时间大于该时长。
文件生成模块44还可以用于:在文本的当前中止点前后按照设定规则截取设定长度的文本段;并记录该文本段的结束位置;以及利用语音合成器根据该文本段生成语音文件。其中,设定规则具体可以包括:在当前中止点的前后按照给定的比例截取设定长度的文本段。
数字文档的格式的类型包括但不限于PDF、ePub、txt。
根据本发明实施例的技术方案,接收用户对文本的语音播放命令,从服务器的对应数字文档中获取文本,同时播放保存的文本中前次语音播放的中止点对应的中止点语音文件;当完成文本获取后,检查中止点语音文件是否播放完毕,若播放完毕,从文本中与中止点语音文件结尾对应的位置开始语音生成和播放;当用户发出中止文本的语音播放的命令时,记录文本中当前播放中止的位置并利用该位置更新中止点,以及生成文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换中止点语音文件。使用本发明实施例的技术方案,能够解决数字文档语音播放时加载速度过慢的问题,缩短用户等待时间,提高用户体验。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种在客户端的中止-接续式文本语音播放方法,其特征在于,所述文本与一个中止点相关联,该中止点是所述文本中前次语音播放的中止的位置,并且所述中止点对应在所述客户端保存的中止点语音文件,所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且所述中止点语音文件包含预定的语音提示,所述方法包括:
接收用户对所述文本的语音播放命令;
从服务器的对应数字文档中获取所述文本,同时播放所述中止点语音文件;
当完成所述文本的获取后,检查所述中止点语音文件是否播放完毕,并且当所述中止点语音文件播放完毕时,调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放;
当用户发出中止所述文本的语音播放的命令时,记录所述文本中当前播放中止的位置并利用该位置更新所述中止点,以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换所述中止点语音文件。
2.根据权利要求1所述的方法,其特征在于,其中,获取所述文本的步骤包括:
读取所述数字文档并加载到本地存储器;
根据所述数字文档的格式解析所述数字文档以识别其中的文本内容;
提取出所述数字文档中的文本内容并形成所述文本。
3.根据权利要求1所述的方法,其特征在于,其中,获取所述文本还包括利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长,并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度,使得所述中止点语音文件完成播放所需的时间大于所述时长。
4.根据权利要求1所述的方法,其特征在于,生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件的步骤,包括:
在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段;
并记录该文本段的结束位置;以及
利用所述语音合成器根据该文本段生成所述语音文件。
5.根据权利要求4所述的方法,其特征在于,所述设定规则包括:
在当前中止点的前后按照给定的比例截取所述设定长度的文本段。
6.根据权利要求1所述的方法,其特征在于,所述数字文档的格式的类型包括PDF、ePub、txt。
7.一种在客户端的中止-接续式文本语音播放装置,其特征在于,所述文本与一个中止点相关联,该中止点是所述文本中前次语音播放的中止的位置,并且所述中止点对应在所述客户端保存的中止点语音文件,所述中止点语音文件对应所述文本中该中止点前后的设定长度的文本段,其中,当本次播放是该文本的第一次播放时,该中止点是该文本的起点,并且所述中止点语音文件包含预定的语音提示,所述装置包括命令接收模块、文本获取模块、语音播放模块和文件生成模块,其中:
所述命令接收模块,用于接收用户对所述文本的语音播放命令;
所述文本获取模块,用于从服务器的对应数字文档中获取所述文本,同时由所述语音播放模块播放所述中止点语音文件;
所述语音播放模块,用于当所述文本获取模块完成所述文本的获取后,检查所述中止点语音文件是否播放完毕,并且当所述中止点语音文件播放完毕时,调用相应的语音合成器从所述文本中与所述中止点语音文件结尾对应的位置开始语音生成和播放;
所述文件生成模块,用于当用户发出中止所述文本的语音播放的命令时,记录所述文本中当前播放中止的位置并利用该位置更新所述中止点,以及生成所述文本中当前中止点前后的设定长度的文本段所对应的语音文件,并用所生成的语音文件替换所述中止点语音文件。
8.根据权利要求7所述的装置,其特征在于,其中,所述文本获取模块还用于:
读取所述数字文档并加载到本地存储器;
根据所述数字文档的格式解析所述数字文档以识别其中的文本内容;
提取出所述数字文档中的文本内容并形成所述文本。
9.根据权利要求7所述的装置,其特征在于,其中,所述文本获取模块还用于:
利用计时器对获取所述文本的时间进行计时以确定获取所述文本所需的时长,并据此确定所述中止点语音文件对应的文本段的长度作为所述设定长度,使得所述中止点语音文件完成播放所需的时间大于所述时长。
10.根据权利要求7所述的装置,其特征在于,所述文件生成模块还用于:
在所述文本的当前中止点前后按照设定规则截取所述设定长度的文本段;
并记录该文本段的结束位置;以及
利用所述语音合成器根据该文本段生成所述语音文件。
11.根据权利要求10所述的装置,其特征在于,所述设定规则包括:
在当前中止点的前后按照给定的比例截取所述设定长度的文本段。
12.根据权利要求7所述的装置,其特征在于,所述数字文档的格式的类型包括PDF、ePub、txt。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201610871990.5A 2016-09-30 2016-09-30 一种在客户端的中止-接续式文本语音播放方法和装置 Active CN107886939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610871990.5A CN107886939B (zh) 2016-09-30 2016-09-30 一种在客户端的中止-接续式文本语音播放方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610871990.5A CN107886939B (zh) 2016-09-30 2016-09-30 一种在客户端的中止-接续式文本语音播放方法和装置

Publications (2)

Publication Number Publication Date
CN107886939A CN107886939A (zh) 2018-04-06
CN107886939B true CN107886939B (zh) 2021-03-30

Family

ID=61768922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610871990.5A Active CN107886939B (zh) 2016-09-30 2016-09-30 一种在客户端的中止-接续式文本语音播放方法和装置

Country Status (1)

Country Link
CN (1) CN107886939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611313B (zh) * 2021-08-20 2025-10-10 深圳前海微众银行股份有限公司 语音处理方法、装置、设备、存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916907A (zh) * 2005-08-17 2007-02-21 株式会社东芝 信息处理设备和信息处理方法
CN1956530A (zh) * 2005-10-24 2007-05-02 三星电子株式会社 产生运动图像剪辑和/或显示内容文件列表的方法和装置
CN101127870A (zh) * 2007-09-13 2008-02-20 深圳市融合视讯科技有限公司 一种视频流媒体书签的创建及使用方法
CN101867780A (zh) * 2010-04-30 2010-10-20 中山大学 一种数字电视断点续播方法及数字电视机
CN102196313A (zh) * 2010-03-08 2011-09-21 华为技术有限公司 一种跨平台断点续播的方法和装置、断点续播方法和装置
CN102724566A (zh) * 2011-02-11 2012-10-10 索尼公司 用于使用多个iptv设备进行内容重放的方法和装置
CN103167358A (zh) * 2011-12-09 2013-06-19 深圳市快播科技有限公司 一种机顶盒、媒体播放处理及媒体恢复播放方法
CN104038827A (zh) * 2014-06-06 2014-09-10 小米科技有限责任公司 多媒体播放方法及装置
US8978076B2 (en) * 2012-11-05 2015-03-10 Comcast Cable Communications, Llc Methods and systems for content control
CN104954866A (zh) * 2015-06-19 2015-09-30 杭州施强网络科技有限公司 一种流媒体数据直播中播放点动态控制方法
CN105095321A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种电子书签的实现方法、装置及电子设备
CN105100912A (zh) * 2014-05-12 2015-11-25 联想(北京)有限公司 流媒体处理方法和流媒体处理装置
CN105530547A (zh) * 2014-09-30 2016-04-27 中兴通讯股份有限公司 一种网络电视点播内容的书签显示方法、装置及机顶盒
CN105704512A (zh) * 2014-10-06 2016-06-22 财团法人资讯工业策进会 视频撷取系统及其视频撷取方法
CN105828192A (zh) * 2016-03-22 2016-08-03 乐视网信息技术(北京)股份有限公司 一种多终端视频续播方法和装置
CN105898583A (zh) * 2015-01-26 2016-08-24 北京搜狗科技发展有限公司 一种图像推荐方法及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124082B2 (en) * 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US20060106618A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation System and method for converting text to speech
WO2007023436A1 (en) * 2005-08-26 2007-03-01 Koninklijke Philips Electronics N.V. System and method for synchronizing sound and manually transcribed text
US8000969B2 (en) * 2006-12-19 2011-08-16 Nuance Communications, Inc. Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
US8392192B2 (en) * 2007-09-18 2013-03-05 Samuel Seungmin Cho Method and apparatus for improving transaction success rates for voice reminder applications in E-commerce
US20090313020A1 (en) * 2008-06-12 2009-12-17 Nokia Corporation Text-to-speech user interface control
CN102543068A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 语音播放文本信息的方法和装置
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105609096A (zh) * 2015-12-30 2016-05-25 小米科技有限责任公司 文本数据输出方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916907A (zh) * 2005-08-17 2007-02-21 株式会社东芝 信息处理设备和信息处理方法
CN1956530A (zh) * 2005-10-24 2007-05-02 三星电子株式会社 产生运动图像剪辑和/或显示内容文件列表的方法和装置
CN101127870A (zh) * 2007-09-13 2008-02-20 深圳市融合视讯科技有限公司 一种视频流媒体书签的创建及使用方法
CN102196313A (zh) * 2010-03-08 2011-09-21 华为技术有限公司 一种跨平台断点续播的方法和装置、断点续播方法和装置
CN101867780A (zh) * 2010-04-30 2010-10-20 中山大学 一种数字电视断点续播方法及数字电视机
CN102724566A (zh) * 2011-02-11 2012-10-10 索尼公司 用于使用多个iptv设备进行内容重放的方法和装置
CN103167358A (zh) * 2011-12-09 2013-06-19 深圳市快播科技有限公司 一种机顶盒、媒体播放处理及媒体恢复播放方法
US8978076B2 (en) * 2012-11-05 2015-03-10 Comcast Cable Communications, Llc Methods and systems for content control
CN105100912A (zh) * 2014-05-12 2015-11-25 联想(北京)有限公司 流媒体处理方法和流媒体处理装置
CN105095321A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种电子书签的实现方法、装置及电子设备
CN104038827A (zh) * 2014-06-06 2014-09-10 小米科技有限责任公司 多媒体播放方法及装置
CN105530547A (zh) * 2014-09-30 2016-04-27 中兴通讯股份有限公司 一种网络电视点播内容的书签显示方法、装置及机顶盒
CN105704512A (zh) * 2014-10-06 2016-06-22 财团法人资讯工业策进会 视频撷取系统及其视频撷取方法
CN105898583A (zh) * 2015-01-26 2016-08-24 北京搜狗科技发展有限公司 一种图像推荐方法及电子设备
CN104954866A (zh) * 2015-06-19 2015-09-30 杭州施强网络科技有限公司 一种流媒体数据直播中播放点动态控制方法
CN105828192A (zh) * 2016-03-22 2016-08-03 乐视网信息技术(北京)股份有限公司 一种多终端视频续播方法和装置

Also Published As

Publication number Publication date
CN107886939A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
US11720200B2 (en) Systems and methods for identifying a set of characters in a media file
CN104598020B (zh) 保留用户输入的情感的方法和装置
CN112700769B (zh) 一种语义理解方法、装置、设备以及计算机可读存储介质
CN106960051B (zh) 基于电子书的音频播放方法、装置和终端设备
US9754591B1 (en) Dialog management context sharing
US11164584B2 (en) System and method for uninterrupted application awakening and speech recognition
WO2016091034A1 (zh) 一种提供应用渠道包的方法和装置
US10878835B1 (en) System for shortening audio playback times
US8670984B2 (en) Automatically generating audible representations of data content based on user preferences
CN104301771A (zh) 视频文件播放进度的调整方法及装置
CN113095202A (zh) 双录数据质检中的数据分段方法及装置
CN107680584B (zh) 用于切分音频的方法和装置
CN110060656B (zh) 模型管理和语音合成方法、装置和系统及存储介质
US20200218760A1 (en) Music search method and device, server and computer-readable storage medium
CN103605514A (zh) 一种前端模板的处理方法及装置
CN108831444B (zh) 用于语音对话平台的语义资源训练方法及系统
CN107886939B (zh) 一种在客户端的中止-接续式文本语音播放方法和装置
CN109902454A (zh) 应用敏感信息提取方法、装置、设备及可读存储介质
CN104216868A (zh) 一种文档显示格式的适配方法及装置
CN113763921B (zh) 用于纠正文本的方法和装置
CN116469367A (zh) 声音合成训练数据的采集方法、装置、服务器及存储介质
CN109509464B (zh) 一种把文本朗读录制为音频的方法及装置
CN113268617A (zh) 论文元数据的检测方法及装置
JP6590617B2 (ja) 情報処理方法及び装置
KR20130138622A (ko) 음성대화인터페이스 이용 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant