[go: up one dir, main page]

CN115023758A - 具有多模式混合的语音合成器 - Google Patents

具有多模式混合的语音合成器 Download PDF

Info

Publication number
CN115023758A
CN115023758A CN202080092173.4A CN202080092173A CN115023758A CN 115023758 A CN115023758 A CN 115023758A CN 202080092173 A CN202080092173 A CN 202080092173A CN 115023758 A CN115023758 A CN 115023758A
Authority
CN
China
Prior art keywords
audio file
word
drag
speed
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080092173.4A
Other languages
English (en)
Inventor
韦拉·布劳-麦坎德利斯
黛比·海莫威茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowledge Founder Co ltd
Original Assignee
Knowledge Founder Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowledge Founder Co ltd filed Critical Knowledge Founder Co ltd
Publication of CN115023758A publication Critical patent/CN115023758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B17/00Teaching reading
    • G09B17/003Teaching reading electrically operated apparatus or devices
    • G09B17/006Teaching reading electrically operated apparatus or devices with audible presentation of the material to be studied
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

机器呈现图形用户界面,图形用户界面图示了包括第一字母和第二字母的单词。机器检测触敏显示屏上的触摸输入的拖动速度,以及确定拖动速度落入拖动速度的多个范围中的拖动速度的第一范围。基于落入拖动速度的第一范围,机器选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对单词发音,其中,第一音频文件记录第一字母的第一音素,第二音频文件记录第二字母的第二音素。因此,该机器提供了语音合成器,该语音合成器以基于拖动速度的发音速度对单词发音,在较低速度时具有增强的清晰度,以及在较高速度时具有增强的平滑度。

Description

具有多模式混合的语音合成器
相关申请
本申请要求2019年11月7日提交并且标题为“SPEECH SYNTHESIZER WITHMULTIMODALBLENDING”的美国临时专利申请第62/931,940号的优先权权益,其全部内容通过引用并入本文中。
技术领域
本文中公开的主题总体上涉及促进语音合成的专用机器(包括这样的专用机器的软件配置的计算机化变型以及对这样的变型的改进)的技术领域,并且本文中公开的主题涉及以下技术:通过该技术,与促进语音合成的其他专用机器相比,这样的专用机器得到改进。特别地,本公开内容提出了提供语音合成器的系统和方法。
背景技术
机器可以被配置成通过向一个或更多个用户呈现教导一种或更多种阅读技能的练习或者以其他方式引导一个或更多个用户完成对一种或更多种阅读技能的实践来与机器(例如,计算机或其他装置)的一个或更多个用户交互。例如,机器可以在图形用户界面(GUI)内呈现字母(例如,字母“A”或字母“B”)、通过播放对所呈现的字母进行发音的角色的音频或视频记录来合成语音,并且然后提示用户(例如,学习阅读的儿童)也对所呈现的字母进行发音。
附图说明
在附图的各个图中通过示例而非限制的方式示出了一些实施方式。
图1至图5是根据一些示例实施方式的具有在其上呈现适合于语音合成的GUI的触敏显示屏的机器(例如,设备)的正视图。
图6是示出根据一些示例实施方式的机器的部件的框图。
图7至图9是示出根据一些示例实施方式的机器在执行语音合成的方法时的操作的流程图。
图10是示出根据一些示例实施方式的能够从机器可读介质读取指令并且执行本文中讨论的任何一种或更多种方法的机器的部件的框图。
具体实施方式
示例方法(例如,算法)促进语音合成,并且示例系统(例如,由专用软件配置的专用机器)被配置成促进语音合成。示例仅代表可能的变型。除非另有明确说明,否则结构(例如,诸如模块的结构性部件)是可选的,并且可以被组合或再分,并且操作(例如,在过程、算法或其他功能中)可以在顺序上变化或被组合或再分。在以下描述中,出于说明的目的,阐述了多个具体细节以提供对各种示例实施方式的透彻理解。然而,对于本领域技术人员将明显的是,可以在没有这些特定细节的情况下实践本主题。
机器(例如,移动设备或其他计算机器)可以被专门配置成(例如,通过合适的硬件模块、软件模块或两者的组合)表现为或以其他方式用作语音合成器,例如具有多模式混合的语音合成器。根据本文中所述的系统和方法的示例,机器在触敏显示屏(例如,由移动设备控制或以其他方式与移动设备进行通信)上呈现GUI。GUI图示了要发音的单词(例如,“nap”、“cat”或“tap”)(例如,作为发音教学游戏或其他应用的一部分)。图示的单词包括按顺序第一字母(例如,“n”)和按顺序第二字母(例如,“a”)。然后,机器检测在触敏显示屏上触摸输入的拖动速度,并确定检测到的触摸输入的拖动速度落入拖动速度的许多范围中的拖动速度的第一范围中。基于(例如,响应于)检测到的拖动速度落入拖动速度的第一范围中,机器选择(例如,选定或以其他方式确定)是否要通过按顺序播放至少第一音频文件和第二音频文件来对单词进行发音,其中第一音频文件表示对单词的按顺序第一字母进行发音的第一音素,并且第二音频文件表示对单词的按顺序第二字母进行发音的第二音素。
拖动速度的许多范围(例如,拖动速度的多个范围)中的每个范围可以与相应组(例如,存储库)的音频文件相关联。许多范围将触摸输入的可能拖动速度再分(例如,拆分)为如由一个或更多个阈值拖动速度所定义的两个或更多个分类(例如,类别或类),其中每个阈值拖动速度标记两个相邻的范围中的一个或两个。例如,如果触摸输入被检测为具有慢拖动速度,则机器标识第一(例如,慢速度)组音频文件,并且从该第一组中获得一个或更多个音频文件以进行播放。作为另一个示例,如果触摸输入被检测为具有快拖动速度,则机器标识第二(例如,非慢速度)组音频文件,并且从其中获得音频文件以进行播放。
在一些示例实施方式中,实现了三个分类:慢拖动速度、中拖动速度和快拖动速度,慢拖动速度、中拖动速度和快拖动速度分别对应于三组音频文件。例如,针对慢拖动速度的第一组音频文件可以包含以正常速度说出的各个记录音素的各个音频文件;针对中拖动速度的第二组音频文件可以包含以慢速度(例如,在表达每个组成音素时过度发音)说出的整个记录单词的音频文件;并且针对快拖动速度的第三组音频文件可以包含而是以正常速度(例如,没有过度发音)或比慢速度更快的其他速度说出的相同的整个记录单词的音频文件。
由机器选择的一组音频文件可以部分或全部取决于触摸输入的拖动速度。根据本文中讨论的系统和方法,拖动速度(例如,拖动速度的第一范围)的一个可用分类(例如,类别)对应于各个音频文件的按顺序播放以对单词进行发音,其中按顺序播放的音频文件中的每个对应于单词的单个音素。如上所述,这些单音素音频文件中记录的音素可以以正常速度说出。在一些示例实施方式中,拖动速度(例如,拖动速度的第二范围)的可用分类对应于单个音频文件的播放以对单词进行发音,其中整个单词的多个音素被记录在单个音频文件中。如上所述,该单个音频文件中记录的单词的多个音素可以以慢速度(例如,比正常速度更慢)说出。在某些示例实施方式中,拖动速度(例如,拖动速度的第三范围)的可用分类对应于替选的单个音频文件的播放以对单词进行发音。该替选的单个音频文件中的整个单词的多个音素可以以正常速度而不是以慢速度说出。在各种示例实施方式中,该单个音频文件或其他替选的单个音频文件中的单词的多个音素以快速度(例如,比正常速度更快)说出。
在呈现的GUI中,第一字母具有相应区域(例如,第一子区域),该区域被配置成用于检测触摸输入的拖动速度(例如,基于其在相应区域中发生的第一部分)。检测到的拖动速度可能适用于整个单词,或仅其对应于第一字母的部分。同样,第二字母可以具有相应区域(例如,第二子区域),该区域被配置成用于检测或更新触摸输入的拖动速度(例如,基于其在相应区域中发生的第二部分),并且检测到或更新的拖动速度可能适用于整个单词的其余部分,或仅其与第二字母相对应的部分。
在一些示例实施方式中,GUI包括滑块条(例如,在单词下方或以其他方式与单词视觉接近布置),并且滑块条沿着要阅读单词的方向(例如,单词的阅读方向,如GUI中图示的)移动。滑块条的移动可以基于可能表示用户手指的移动的触摸输入。此外,GUI可以包括视觉指示器,该视觉指示器基于触摸输入的部件(例如,输入部件或平行于单词的阅读方向的其他投影部件)在要阅读单词的方向上移动,并且以基于触摸输入的拖动速度(例如,与触摸输入的拖动速度成比例)的速度移动。视觉指示器还可以与由机器选择的一个或更多个音频文件的播放同时移动以对单词进行发音。
图1至图5是根据一些示例实施方式的具有显示屏101的机器100(例如,诸如移动装置的装置)的正视图,在显示屏101上呈现适合于语音合成的GUI 110。如图1所示,显示屏101是触敏的并且被配置成接受来自用户的一个或更多个手指的一个或更多个触摸输入(例如,儿童通过玩发音教学游戏学习发音),并且作为示例,手指140被示出为触摸机器100的显示屏101。
GUI 110呈现在显示屏101上并且图示(例如,在其他方面)要由机器100(例如,暂时或永久用作语音合成器),由用户或两者发音的单词120(例如,如图示的,“nap”,或替选地“dog”、“mom”、“dad”、“baby”、“apple”、“school”或“backpack”)。GUI 110还被示出为包括滑块控件130(例如,滑块条或GUI 110的其他控件区域)。滑块控件130可以视觉上与单词120对齐。例如,滑块控件130和单词120两者均可以沿着同一直线(例如,在要阅读单词120的方向上)或者沿着两条平行线(例如,两者均在要阅读单词120的方向上)。作为另一示例,滑块控件130和单词120两者均可以沿着同一曲线或者沿着相隔恒定距离的两条曲线。
如图1所示,滑块控件130可以包括滑动元件131,例如,指示对单词120、其构成字母、其音素或其任何合适的组合进行发音的进展的位置指示条或其他视觉指示器(例如,光标或其他标记)。还如图1所示,单词120包括一个或更多个字母,并且因此可以包括(例如,除其他文本字符之外)按顺序第一字母121(例如,“n”)和按顺序第二字母122(例如,“A”)。单词120还可以包括第三字母123(例如,“p”)。例如,单词120可以是辅音-元音-辅音(CVC)单词,例如“nap”或“cat”,并且因此,单词120包括都在要阅读单词120的方向上排列和对齐的按顺序第一字母121、按顺序第二字母122和按顺序第三字母123。
滑块控件130的不同子区域可以对应于单词120的不同字母,并且可以用于检测或更新在滑块控件130内滑动的触摸输入的拖动速度。滑块控件130的每个子区域可以在视觉上与单词120的对应字母对齐。因此,参照图1,滑块控件130的第一子区域可以对应于按顺序第一字母121(例如“n”),并且可以在视觉上与按顺序第一字母121对齐,并且滑块控件130的第二子区域可以对应于按顺序第二字母122(例如,“A”),并且可以在视觉上与按顺序第二字母122对齐。类似地,滑块控件130的第三子区域可以对应于按顺序第三字母123(例如,“p”),并且可以在视觉上与按顺序第三字母123对齐。
另外,GUI 110可以包括在阅读单词120、对单词120进行发音或两者中的进展的视觉指示器150,并且视觉指示器150可以是或包括表示阅读单词120或对单词120进行发音的程度的一个或更多个视觉元件。如图1至图5中所示,视觉指示器150是垂直线。然而,在各种示例实施方式中,视觉指示器150可以包括颜色变化、亮度变化、填充图案变化、大小变化、位置变化(例如,垂直于要阅读单词120的方向的垂直位移)、视觉元件(例如,箭头)或其任何合适的组合。
如图1中所示,手指140正在显示屏101上执行触摸输入(例如,滑动手势或其他触摸和拖动输入)。为了启动触摸输入,手指140在滑块控件130内的某个位置(例如,第一位置,其可能位于滑块控件130的第一子区域内)处触摸显示屏101,并且显示屏101检测到手指140在该位置处触摸显示屏101。因此,触摸输入在滑块控件130内开始(例如,触及)。响应于检测到手指140触摸GUI 110内的示出位置,GUI 110在同一位置处呈现滑动元件131。
响应于触摸输入的一部分(例如,第一部分)出现在滑块控件130的第一子区域内,机器100检测触摸输入的拖动速度。滑块控件130的第一子区域可以对应于单词120的按顺序第一字母121。然后,机器100对检测到的拖动速度进行分类,并且基于此,确定要使用哪种混合模式对单词120进行发音。例如,机器100可以选择是否要通过按顺序播放各个音频文件(其中音频文件存储了与单词120的按顺序第一字母121、按顺序第二字母122和按顺序第三字母123相对应的音素的记录)来对单词120进行发音,或者是否要使用某种替选混合模式对单词120进行发音(例如,通过播放存储正在整体说出的单词120的记录的单个音频文件)。
如图2中所示,手指140在显示屏101上继续执行触摸输入。在示出的点处,手指140在滑块控件130内的某个位置(例如,第二位置)处触摸显示屏101,并且显示屏101检测到手指140在该位置处触摸显示屏101。因此,触摸输入继续其在滑块控件130内的移动。响应于检测到手指140触摸GUI 110内的示出位置,GUI 110在同一位置处呈现滑动元件131。如上所述,滑动元件131、视觉指示器150或两者可以指示在对单词120进行发音中取得的进展程度(例如,进展到与第一按顺序字母121相对应的音素发音,如图2中所示)。
根据一些示例实施方式,响应于在滑块控件130的第二子区域内发生的触摸输入的一部分(例如,第二部分),机器100检测或更新触摸输入的拖动速度。滑块控件130的第二子区域可以对应于单词120的按顺序第二字母122。然后,机器100可以对检测到的或更新的拖动速度进行分类,并在此基础上确定将使用何种混合模式对单词120的其余部分(例如,从按顺序第二字母122向前,或者除此之外在没有与滑块控件130的第一子区域对应的按顺序第一字母121的情况下)发音。例如,机器100可以选择是否通过按顺序播放单独音频文件来对单词120的其余部分发音,其中音频文件存储与单词120的按顺序第二字母122和按顺序第三字母123对应的音素的记录,或者是否将使用某种替代混合模式(例如,通过播放存储被完整说出的单词120的记录的单独音频文件的至少一部分)来对单词120的其余部分进行发音。
如图3所示,手指140继续在显示屏101上执行触摸输入。在所示的点处,手指140正在滑块控件130内的位置(例如,第三位置)处触摸显示屏101,并且显示屏101检测到手指140正在该位置处触摸显示屏101。因此,触摸输入继续其在滑块控件130内的移动。响应于检测到手指140触摸GUI 110内的所示位置,GUI 110在同一位置处呈现滑动元件131。如上所述,滑动元件131、视觉指示器150或两者可以指示在对单词120发音时所达到的进展程度(例如,如图3所示,直到与第二顺序字母122对应的音素的发音的进展)。
根据某些示例实施方式,响应于滑动控件130的第三子区域内发生的触摸输入的一部分(例如,第三部分),机器100检测或更新触摸输入的拖动速度。滑块控件130的第三子区域可以对应于单词120的按顺序第三字母123。然后,机器100可以对检测到的或更新的拖动速度进行分类,并基于此确定将使用何种混合模式来对单词120的其他其余部分(例如,从按顺序第三字母123向前,或者除此之外没有与滑块控件130的第一子区域和第二子区域对应的按顺序第一字母121和第二字母122)发音。例如,机器100可以选择是通过按顺序播放一个或更多个单独音频文件来对单词120的其他其余部分发音(其中一个或更多个音频文件存储与单词120的(例如,其他字母之中的)按顺序第三字母123对应的一个或更多个音素的记录),还是将使用某种替选混合模式(例如,通过播放存储整个被说出的单词120的记录的单个音频文件的至少一部分)来对单词120的其他其余部分发音。
如图4所示,手指140继续在显示屏101上执行触摸输入。在所示的点处,手指140正在滑块控件130内的位置(例如,第四位置)处触摸显示屏101,并且显示屏101检测到手指140正在该位置处触摸显示屏101。因此,触摸输入继续其在滑块控件130内的移动。响应于检测到手指140触摸GUI 110内的所示位置,GUI 110在同一位置处呈现滑动元件131。如上所述,滑动元件131、视觉指示器150或两者可以指示在对单词120发音时所达到的进展程度(例如,如图4所示,直到与第三顺序字母123对应的音素的发音的进展)。
如图5所示,手指140通过仅在滑块控件130内的位置(例如,第五位置)处抬离显示屏101而结束显示屏101上的触摸输入,并且显示屏101检测到手指140已经移动至显示屏101上的该位置并且然后停止触摸显示屏101。因此,触摸输入结束其在滑块控件130内的移动。响应于检测到手指140在GUI 110内的所示位置处抬离显示屏101,GUI 110在相同位置处呈现滑动元件131。如上所述,滑动元件131、视觉指示器150或两者指示在对单词120发音时所达到的进展程度(例如,如图5所示,进展到完成)。
图6是示出根据一些示例实施方式的机器100(例如,诸如移动装置的装置)的部件的框图。机器100被示为包括GUI生成器610、触摸输入检测器620、拖动速度分类器630、语音合成器640和显示屏101,它们全部都被配置成彼此通信(例如,经由总线、共享存储器或开关)。GUI生成器610可以是或包括用于生成GUI 110的GUI模块或类似地适合的软件代码。触摸输入检测器620可以是或包括触摸输入模块或类似地适合的软件代码,该触摸输入模块或类似地适合的软件代码用于检测在显示屏101上发生的一个或更多个触摸输入(例如,触摸与拖动输入或轻扫输入)。拖动速度分类器630可以是或包括用于检测、更新或以其他方式确定触摸输入的拖动速度的速度分类器模块或类似地适合的软件代码。语音合成器640可以是或包括用于对单词120发音(例如,经由机器100或其任何部分,包括经由GUI 110、经由机器100的音频回放子系统或经由这两者)的语音模块或类似地适合的软件代码。
如图6所示,GUI生成器610、触摸输入检测器620、拖动速度分类器630、语音合成器640或其任何合适的组合可以形成存储(例如,安装)在机器100上的app(应用)600(例如,移动app)的全部或部分(例如,响应于或以其他方式作为经由网络从一个或更多个服务器机器接收到数据的结果)。此外,一个或更多个处理器699(例如,硬件处理器、数字处理器或其任何合适的组合)可以被包括(例如,临时地或永久地)在app 600、GUI生成器610、触摸输入检测器620、拖动速度分类器630、语音合成器640或其任何合适的组合中。
可以单独使用硬件(例如,处理器699中的一个或更多个)或硬件和软件的组合来实现本文中描述的部件(例如,模块)中的任何一个或更多个。例如,本文中描述的任何部件可以物理地包括被配置成执行本文中针对该部件所描述的操作的处理器699中的一个或更多个的布置(例如,处理器699的子集或处理器699之中的处理器)。作为另一示例,本文中描述的任何部件可以包括软件、硬件或这两者,其将处理器699中的一个或更多个的布置配置成执行本文中针对该部件所描述的操作。因此,本文中描述的不同部件可以包括并且配置在不同时间点处的处理器699的不同布置或者在不同时间点处的处理器699的单个布置。本文中所描述的每个部件(例如,模块)是用于执行本文中针对该部件所描述的操作的装置的示例。此外,本文中所描述的任何两个或更多个部件可以组合成单个部件,并且本文中针对单个部件所描述的功能可以在多个部件之间细分。此外,根据各种示例实施方式,本文中描述为在单个系统或机器(例如,单个装置)内实现的部件可以跨多个系统或机器(例如,多个装置)分布。
机器100可以是、包括或以其他方式实现在专用(例如,专门的或其他非常规和非通用)计算机中,该专用计算机已经被修改以执行本文中所描述的功能中的一个或更多个(例如,由专用软件例如专用应用、操作系统、固件、中间件或其他软件程序的一个或更多个软件模块配置或编程)。例如,下面关于图10讨论能够实现本文中所描述的任何一种或更多种方法的专用计算机系统,并且因此这样的专用计算机可以是用于执行本文中所讨论的任何一种或更多种方法的装置。在这样的专用计算机的技术领域内,与缺少本文中讨论的结构或以其他方式不能执行本文中讨论的功能的其他专用计算机相比,已经由本文中讨论的结构特别修改(例如,由专用软件配置)以执行本文中讨论的功能的专用计算机在技术上得到改进。因此,根据本文所讨论的系统和方法配置的专用机器提供了对类似专用机器的技术的改进。
因此,如下面关于图10所描述的,机器100可以全部或部分地在专用(例如,专门)计算机系统中实现。根据各种示例实施方式,机器100可以是或包括台式计算机、车载计算机、家庭媒体系统(例如,家庭影院系统或其他家庭娱乐系统)、平板计算机、导航装置、便携式媒体装置、智能电话或可穿戴装置(例如,智能手表、智能眼镜、智能服装或智能首饰)。
图7至图9是示出根据一些示例实施方式的机器100在执行语音合成的方法700时的操作的流程图。可以由机器100使用以上关于图6描述的部件(例如,模块)、使用一个或更多个处理器(例如,微处理器或其他硬件处理器)或者使用其任何合适的组合来执行方法700中的操作。如图7所示,方法700包括操作710、操作720、操作730和操作740。
在操作710中,GUI生成器610生成GUI 110并将GUI 110呈现在显示屏101上,或者以其他方式使GUI 110呈现在显示屏101上。操作710的执行可以使GUI 110如图1所示表现。
在操作720中,触摸输入检测器620基于其至少一部分(例如,经由、使用、结合或以其他方式基于显示屏101)检测触摸输入的拖动速度(例如,检测触摸输入在显示屏101上拖动或以其他方式移动的速度)。可以通过测量触摸输入的拖动速度(例如,以每秒的像素、每秒的英寸或其他合适的速度单位测量)来执行检测。操作710的执行可以使GUI 110如图2所示表现。
在操作730中,拖动速度分类器630确定操作720中检测到的拖动速度所落入的拖动速度范围。这具有将拖动速度分类到可用拖动速度的多个范围之中的拖动速度范围(例如,第一范围)的效果。例如,拖动速度分类器630可以确定检测到的拖动速度落入两个或更多个范围(例如,对于慢拖动速度和对于一个或更多个类别的非慢拖动速度)之中的第一范围(例如,对于慢拖动速度)中。
在操作740中,基于操作730中确定的范围(例如,拖动速度分类),语音合成器640选择(例如,选择或以其他方式确定)是否通过顺序播放各个音素的音频文件来对单词120发音(例如,播放至少第一音频文件和第二音频文件,其中第一音频文件表示对单词120的按顺序第一字母121发音的第一音素,并且其中第二音频文件表示对单词120的按顺序第二字母122发音的第二音素),这与通过替选过程(例如,播放表示整个单词120的多个顺序字母121至123的多个音素的单个音频文件)对单词120发音形成对比。
如图8所示,除了先前描述的操作中的任何一个或更多个之外,方法700还可以包括操作820、操作822、操作830、操作840、操作850和操作860中的一个或更多个。操作820可以作为操作720的一部分(例如,前导任务、子例程或部分)来执行,其中触摸输入检测器620检测触摸输入的拖动速度。在操作820中,触摸输入检测器620基于触摸输入的第一部分来检测触摸输入的拖动速度。例如,触摸输入的第一部分可以出现在滑块控件130的第一子区域内,并且触摸输入检测器620可以基于出现在第一子区域内的第一部分来检测拖动速度。如GUI 110中呈现的,第一子区域可以对应于单词120的按顺序第一字母121。
在一些示例实施方式中,触摸输入的拖动速度因各部分而不同,并且因此可以针对滑块控件130的附加子区域重复操作720。在这样的示例实施方式中,操作822可以作为操作720的重复实例的一部分来执行。在操作822中,触摸输入检测器620基于触摸输入的第二部分来检测或更新触摸输入的拖动速度。例如,触摸输入的第二部分可以出现在滑块控件130的第二子区域内,并且触摸输入检测器620可以基于出现在第二子区域内的第二部分来检测拖动速度。如GUI 110中呈现的,第二子区域可以对应于单词120的按顺序第二字母122。
操作830可以作为操作730的一部分来执行,其中拖动速度分类器630确定拖动速度所落入的拖动速度范围。在操作830中,拖动速度分类器630将拖动速度与一个或更多个阈值速度(例如,区别或以其他方式限定可用拖动速度的多个范围的一个或更多个阈值拖动速度)进行比较。例如,第一阈值拖动速度可以限定与拖动速度的第一分类(例如,慢)对应的第一范围的上限。类似地,第二阈值拖动速度可以限定与第二分类(例如,中等或快)对应的第二范围的上限,并且第二范围可以与第一范围相邻。
操作840可以作为操作740的一部分来执行,其中语音合成器640选择是否要通过顺序播放各个音素的音频文件对单词120发音。该选择动作是基于(例如,响应于)检测到的触摸输入的拖动速度所落入的确定范围来进行的。一个可能的结果是语音合成器640选择确实要通过顺序播放各个音素的音频文件对单词120发音,并且在操作840中执行对用于对单词120发音的该过程的选择。
在操作740包括操作840的示例实施方式中,可以在操作740之后执行操作850。在操作850中,语音合成器640按顺序播放或以其他方式导致顺序播放各个音素的各个音频文件(例如,一个接一个地)以对单词120发音。例如,语音合成器640可以导致顺序播放至少第一音频文件和第二音频文件,其中第一音频文件记录对单词120的按顺序第一字母121发音的第一音素,并且其中第二音频文件记录对单词120的按顺序第二字母122发音的第二音素。
在操作860中,GUI生成器610沿要阅读单词120的方向移动视觉指示器150。视觉指示器150可以与触摸输入、与顺序播放各个音素的音频文件、与语音合成器640对单词120发音、或与其任何合适的组合同时移动。
如图9所示,除了先前描述的操作中的任何一个或更多个之外,方法700还可以包括操作940和操作950中的一个或更多个。在一些示例实施方式中,操作940包括操作942,并且操作950包括操作952。在替选示例实施方式中,操作940包括操作944,并且操作950包括操作954。
操作940可以作为操作740的一部分来执行,其中语音合成器640选择是否要通过顺序播放各个音素的音频文件对单词120发音。如上所述,该选择动作是基于(例如,响应于)检测到的触摸输入的拖动速度所落入的确定范围来进行的。一个可能的结果是语音合成器640选择要通过播放记录整个单词120的多个音素(例如,所有音素)的单个音频文件对单词120发音,而不是按顺序播放各个音素的单独音频文件,并且在操作940中执行对用于对单词120发音的该替选过程的选择。
在操作740包括操作940的示例实施方式中,可以在操作740之后执行操作950。在操作950中,语音合成器640播放或以其他方式导致播放这样的单个音频文件以对单词120发音。
如上所述,在一些示例实施方式中,操作940包括操作942,并且操作950包括操作952。在操作942中,作为选择将通过播放单个音频文件对单词120发音的一部分,语音合成器640选择第三音频文件进行播放以对单词120发音,其中第三音频文件表示(例如,记录)与以缓慢速度(例如,低于正常说话速度的说话速度)说出的单词120的顺序字母121至123对应的音素。在对应的操作952中,语音合成器640播放或导致播放在操作942中选择的第三音频文件,以对单词120发音。
还如上所述,在某些示例实施方式中,操作940包括操作944,并且操作950包括操作954。在操作944中,作为选择将通过播放单个音频文件对单词120发音的一部分,语音合成器640选择第四音频文件进行播放以对单词120发音,其中第四音频文件表示(例如,记录)与以正常速度或以快于第三音频文件的缓慢说话速度的说话速度说出的单词120的顺序字母121至123对应的音素。在对应的操作954中,语音合成器640播放或导致播放在操作944中选择的第四音频文件,以对单词120发音。
根据各种示例实施方式,本文中描述的方法中的一种或更多种可以有利于提供具有用于将音素混合在一起以对单词发音的多种模式的语音合成器。此外,本文中描述的方法中的一种或更多种可以有利于提供用户友好的体验,其中触摸输入的拖动速度完全地或部分地控制由语音合成器选择哪种混合模式。特别地,与用于对单词发音的一些其他过程相反,触摸输入的拖动速度是确定是否要播放各个音素的各个音频文件的基础。因此,与预先存在的系统和方法的能力相比,本文中描述的方法中的一种或更多种可以有利于以用户期望的速度对单词发音,其中在较慢速度下具有增强的清晰度,并且其中在较高速度下具有增强的平滑度,以及有利于提供朝向完成对单词发音(例如,在其阅读方向上)的进展的至少一个视觉指示器。
当这些影响被综合考虑时,本文中描述的方法中的一种或更多种可以消除对否则在提供语音合成器时将涉及的某些工作或资源的需要。可以通过使用(例如,依赖于)实现本文中描述的方法中的一种或更多种的专用机器来减少用户在提供具有多模态混合的动态自适应语音合成器时所花费的努力。可以类似地减少由一个或更多个系统或机器(例如,网络环境内)使用的计算资源(例如,与缺少本文中讨论的结构或以其他方式不能执行本文中讨论的功能的系统或机器相比)。这样的计算资源的示例包括处理器周期、网络业务、计算能力、主存储器使用、图形呈现能力、图形存储器使用、数据存储能力、功耗和冷却能力。
图10是示出根据一些示例实施方式的能够从机器可读介质1022(例如,非暂态机器可读介质、机器可读存储介质、计算机可读存储介质或其任何合适的组合)读取指令1024并且整体地或部分地执行本文中讨论的方法中的任意一种或更多种的机器1000的部件的框图。具体地,图10示出了呈计算机系统(例如,计算机)的示例形式的机器1000,在机器1000中可以整体地或部分地执行用于使机器1000执行本文中讨论的方法中的任意一种或更多种的指令1024(例如,软件、程序、应用、小应用、app或其他可执行代码)。
在替选实施方式中,机器1000作为独立装置操作或者可以通信地耦接(例如,联网)至其他机器。在联网部署中,机器1000可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作,或者在分布式(例如,对等)网络环境中作为对等机器操作。机器1000可以是服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、蜂窝电话、智能电话、机顶盒(STB)、个人数字助理(PDA)、web设备、网络路由器、网络交换机、网桥或者能够按顺序或以其他方式执行指定要由该机器采取的动作的指令1024的任何机器。此外,虽然示出了仅单个机器,但是术语“机器”也应当被认为包括单独地或联合地执行指令1024以执行本文中讨论的方法中的任意一种或更多种中的全部或部分方法的机器的任何集合。
机器1000包括处理器1002(例如,一个或更多个中央处理单元(CPU)、一个或更多个图形处理单元(GPU)、一个或更多个数字信号处理器(DSP)、一个或更多个专用集成电路(ASIC)、一个或更多个射频集成电路(RFIC)或其任何合适的组合)、主存储器1004和静态存储器1006,它们被配置成经由总线1008彼此通信。处理器1002包含固态数字微电路(例如,电子、光学或两者),其可以由指令1024中的一些或全部临时地或永久地配置,使得处理器1002能够被配置成整体地或部分地执行本文中描述的方法中的任意一种或更多种。例如,一组处理器1002的一个或更多个微电路可以被配置成执行本文中描述的一个或更多个模块(例如,软件模块)。在一些示例实施方式中,处理器1002是多核CPU(例如,双核CPU、四核CPU、8核CPU或128核CPU),其中多个核中的每一个充当能够整体地或部分地执行本文中讨论的方法中的任意一种或更多种的单独处理器。尽管本文中所述的有益效果可以由至少具有处理器1002的机器1000提供,但是如果不包含处理器的不同类型的机器(例如,纯机械系统、纯液压系统或混合机械-液压系统)被配置成执行本文中描述的方法中的一种或更多种,则这些相同的有益效果可以由这样的无处理器的机器来提供。
机器1000还可以包括图形显示器1010(例如,等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪、阴极射线管(CRT)或者能够显示图形或视频的任何其他显示器)。机器1000还可以包括字母数字输入装置1012(例如,键盘或小键盘)、指针输入装置1014(例如,鼠标、触摸板、触摸屏、轨迹球、操纵杆、指示笔、运动传感器、眼睛跟踪装置、数据手套或其他指向仪器)、数据存储区1016、音频生成装置1018(例如,声卡、放大器、扬声器、耳机插孔或其任何合适的组合)以及网络接口装置1020。
数据存储区1016(例如,数据存储装置)包括机器可读介质1022(例如,有形和非暂态机器可读存储介质),在其上存储有体现本文中描述的方法或功能中的任意一种或更多种的指令1024。指令1024还可以在其由机器1000执行之前或期间完全地或至少部分地驻留在主存储器1004内、静态存储器1006内、处理器1002内(例如,处理器的高速缓冲存储器内)或其任何合适的组合内。因此,主存储器1004、静态存储器1006和处理器1002可以被视为机器可读介质(例如,有形且非暂态机器可读介质)。可以经由网络接口装置1020通过网络1090发送或接收指令1024。例如,网络接口装置1020可以使用任意一种或更多种传输协议(例如,超文本传输协议(HTTP))来传送指令1024。
在一些示例实施方式中,机器1000可以是便携式计算装置(例如,智能电话、平板计算机或可穿戴装置)并且可以具有一个或更多个附加输入部件1030(例如,传感器或计量器)。这样的输入部件1030的示例包括图像输入部件(例如,一个或更多个摄像装置)、音频输入部件(例如,一个或更多个麦克风)、方向输入部件(例如,罗盘)、位置输入部件(例如,全球定位系统(GPS)接收器)、取向部件(例如,陀螺仪)、运动检测部件(例如,一个或更多个加速计)、海拔检测部件(例如,高度计)、温度输入部件(例如,温度计)、以及气体检测部件(例如,气体传感器)。由这些输入部件1030中的任意一个或更多个收集的输入数据可以是可访问的并且可用于由本文中描述的模块中的任何模块使用(例如,具有适当的隐私通知和保护,诸如选择加入同意或选择退出同意,根据用户偏好、适用的规则或其任何适当的组合来实现)。
如本文中所使用的,术语“存储器”是指能够临时地或永久地存储数据的机器可读介质,并且可以被认为包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存和高速缓冲存储器。虽然机器可读介质1022在示例实施方式中被示出为单个介质,但是术语“机器可读介质”应当被认为包括能够存储指令的单个介质或多个介质(例如,集中式数据库或分布式数据库,或相关联的高速缓存和服务器)。术语“机器可读介质”还应当被认为包括能够携载(例如,存储或传送)用于由机器1000执行的指令1024的任何介质或多个介质的组合,使得指令1024在由机器1000的一个或更多个处理器(例如,处理器1002)执行时使机器1000整体地或部分地执行本文中描述的方法中的任意一种或更多种。因此,“机器可读介质”是指单个存储设备或装置,以及包括多个存储设备或装置的基于云的存储系统或存储网络。因此,术语“机器可读介质”应当被认为包括但不限于呈固态存储器芯片、光盘、磁盘或其任何合适的组合的示例形式的一个或更多个有形且非暂态数据储存库(例如,数据卷(data volume))。
本文中所使用的“非暂态”机器可读介质特别地排除传播信号本身。根据各种示例实施方式,用于由机器1000执行的指令1024可以经由载体介质(例如,机器可读载体介质)来传送。这样的载体介质的示例包括非瞬态载体介质(例如,非瞬态机器可读存储介质,诸如可从一个位置物理地移动至另一位置的固态存储器)和瞬态载体介质(例如,传送指令1024的载波或其他传播信号)。
某些示例实施方式在本文中被描述为包括模块。模块可以构成软件模块(例如,存储或以其他方式在机器可读介质或传输介质中体现的代码)、硬件模块或其任何合适的组合。“硬件模块”是能够执行某些操作的有形(例如,非暂态)物理部件(例如,一个或更多个处理器的集合),并且可以以某种物理方式被配置或布置。在各种示例实施方式中,可以通过软件(例如,应用或其一部分)将一个或更多个计算机系统或者其一个或更多个硬件模块配置为硬件模块,该硬件模块进行操作以执行本文中针对该模块描述的操作。
在一些示例实施方式中,硬件模块可以机械地、电子地、液压地或其任何合适的组合来实现。例如,硬件模块可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件模块可以是专用处理器或包括专用处理器,例如现场可编程门阵列(FPGA)或ASIC。硬件模块还可以包括由软件临时地配置成执行某些操作的可编程逻辑或电路系统。作为示例,硬件模块可以包括CPU或其他可编程处理器内所包含的软件。将认识到,可以根据成本和时间考虑来驱动机械地、液压地、在专用和永久地配置的电路系统中或者在临时地配置的电路系统(例如,由软件配置)中实现硬件模块的决定。
相应地,短语“硬件模块”应当被理解成包含有形实体,该有形实体可以是被物理地构造的、永久地配置的(例如,硬连线的)或临时地配置的(例如,编程的)而以特定方式操作或者执行本文中描述的某些操作。此外,如本文中所使用的,短语“硬件实现的模块”是指硬件模块。考虑其中硬件模块被临时地配置的(例如,编程的)示例实施方式,硬件模块中的每一个无需在任一时刻处均被配置或实例化。例如,在硬件模块包括由软件配置成为专用处理器的CPU的情况下,CPU可以在不同时间被配置为各自不同的专用处理器(例如,各自被包括在不同的硬件模块中)。软件(例如,软件模块)可以相应地将一个或更多个处理器配置成例如在一个时刻成为或以其他方式构成特定硬件模块并且在不同时刻成为或以其他方式构成不同的硬件模块。
硬件模块可以向其他硬件模块提供信息以及可以从其他硬件模块接收信息。因此,所描述的硬件模块可以被视为被通信地耦接。在同时存在多个硬件模块的情况下,可以通过硬件模块中的两个或更多个硬件模块之间或者两个或更多个硬件模块之中的信号传输(例如,通过电路和总线)来实现通信。在其中多个硬件模块在不同时间被配置或实例化的实施方式中,例如,可以通过将信息存储在多个硬件模块访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件模块之间的通信。例如,一个硬件模块可以执行操作,并且将该操作的输出存储在其通信地耦接至的存储器(例如,存储器装置)中。然后,另外的硬件模块可以在随后的时间访问存储器,以检索和处理所存储的输出。硬件模块还可以发起与输入或输出装置的通信,并且可以对资源进行操作(例如,对来自计算资源的信息进行收集)。
在本文中描述的示例方法的各种操作可以至少部分地由临时地配置(例如,由软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是临时地还是永久地配置,这样的处理器均可以构成处理器实现的模块,所述处理器实现的模块操作为执行本文中描述的一个或更多个操作或功能。如本文中所使用的,“处理器实现的模块”是指硬件模块,其中硬件包括一个或更多个处理器。相应地,由于处理器是硬件的示例,因此本文中描述的操作可以至少部分地是处理器实现的、硬件实现的或两者实现的,并且本文中讨论的方法中的任意一种或更多种内的至少一些操作可以由一个或更多个处理器实现的模块、硬件实现的模块或其任何合适的组合来执行。
此外,这样的一个或更多个处理器可以在“云计算”环境中或作为服务(例如,在“软件即服务”(SaaS)实现方式内)执行操作。例如,本文中讨论的方法中的任意一种或更多种内的至少一些操作可以由一组计算机(例如,作为包括处理器的机器的示例)执行,这些操作能够经由网络(例如,因特网)以及经由一个或更多个适当的接口(例如,应用程序接口(API))来访问。某些操作的执行可以分布在一个或更多个处理器中,无论是仅驻留在单个机器内还是跨多个机器部署。在一些示例实施方式中,一个或更多个处理器或硬件模块(例如,处理器实现的模块)可以位于单个地理位置中(例如,在家庭环境、办公环境或服务器场内)。在其他示例实施方式中,一个或更多个处理器或硬件模块可以跨多个地理位置分布。
贯穿本说明书,多个实例可以实现被描述为单个实例的部件、操作或结构。尽管一个或更多个方法的各个操作被示出和描述为单独的操作,但是各个操作中的一个或更多个可以同时执行并且不要求以示出的顺序执行操作。在示例配置中作为单独的部件和功能呈现的结构及其功能可以被实现为具有组合功能的组合结构或部件。类似地,作为单个部件呈现的结构和功能可以被实现为单独的部件和功能。这些和其他变型、修改、添加和改进落入本文中的主题的范围内。
本文中讨论的主题的一些部分可以以对作为位或二进制数字信号存储在存储器(例如,计算机存储器或其他存储器)内的数据的操作的算法或符号表示的方式来呈现。这样的算法或符号表示是数据处理领域的普通技术人员用于将他们工作的实质传达给该领域的其他技术人员的技术的示例。如本文中所使用的,“算法”是导致期望结果的操作或者类似处理的自洽序列。在该上下文中,算法和操作涉及对物理量的物理操纵。典型地,但不是必须地,这样的量可以采用能够由机器存储、访问、传输、组合、比较或者以其他方式操纵的电信号、磁信号或光信号的形式。有时,主要出于通用原因,使用诸如“数据”、“内容”、“位”、“值”、“元素”、“符号”、“字符”、“项”、“号码”、“数字”等词汇来指代这样的信号较便捷。然而,这些词汇仅是便捷标签,并且将与适当的物理量相关联。
除非另有明确说明,否则本文中使用诸如“访问”、“处理”、“检测”、“计算”、“运算”、“确定”、“生成”、“呈现”、“显示”等词汇的讨论指代机器(例如,计算机)可执行的动作或处理,所述机器操纵或变换被表示为一个或更多个存储器(例如,易失性存储器、非易失性存储器或其任何合适的组合)、寄存器或者接收、存储、发送或显示信息的其他机器部件内的物理(例如,电子的、磁的或光的)量的数据。此外,除非另外特别说明,否则如在专利文献中常见的,在本文中使用无量词修饰的术语,以包括一个或多于一个实例。最后,除非另有明确说明,否则如本文中所使用的,连词“或”是指非排他性的“或”。
以下列举的描述描述了本文中讨论的方法、机器可读介质和系统(例如,机器、装置或其他设备)的各种示例。
第一示例提供了一种方法,包括:
通过机器的一个或更多个处理器在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
通过所述机器的一个或更多个处理器检测所述触敏显示屏上的触摸输入的拖动速度;
通过所述机器的一个或更多个处理器确定检测到的所述触摸输入的拖动速度落入的拖动速度的多个范围中的拖动速度的第一范围;以及
通过所述机器的一个或更多个处理器并且基于检测到的拖动速度落入所述拖动速度的第一范围,选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的按顺序第二字母发音的第二音素。
第二示例提供了根据第一示例所述的方法,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述方法还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放以对所述单词发音。
第三示例提供了根据第一示例所述的方法,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对单词发音包括:选择要通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;以及
所述方法还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
第四示例提供了根据第一示例至第三示例中任一示例所述的方法,其中:
所述GUI指示被配置成接收所述触摸输入的区域,所述区域包括被配置成基于所述触摸输入的部分来检测所述触摸输入的拖动速度的子区域,所述部分出现在所述GUI的所述区域的所述子区域内;以及
确定检测到的拖动速度落入所述拖动速度的第一范围基于所述触摸输入的在所述GUI的所述区域的所述子区域内的所述部分。
第五示例提供了根据第一示例至第四示例中任一示例所述的方法,其中:
所述拖动速度的多个范围中的拖动速度的第二范围与所述拖动速度的第一范围相邻;以及
确定检测到的所述触摸输入的拖动速度落入所述拖动速度的第一范围包括将检测到的拖动速度与阈值拖动速度进行比较,所述阈值拖动速度划定所述拖动速度的第一范围或所述拖动速度的第二范围中的至少一者。
第六示例提供了根据第一示例至第五示例中任一示例所述的方法,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
第七示例提供了根据第六示例所述的方法,其中:
所述第一音频文件表示以与在所述第三音频文件记录所述单词所用的第二发音速度不同的第一发音速度记录的所述第一音素;以及
所述第二音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述第二音素。
第八示例提供了根据第七示例所述的方法,其中:
所述拖动速度的多个范围中的拖动速度的第三范围对应于第四音频文件的播放,所述第四音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述单词的多个音素。
第九示例提供了根据第一示例至第八示例中任一示例所述的方法,其中:
所述GUI中图示的所述单词具有阅读所述单词的方向;
所述触摸输入具有与阅读所述单词的所述方向平行的输入分量;以及
所述GUI包括视觉指示器,所述视觉指示器基于所述触摸输入的所述输入分量在阅读所述单词的所述方向上移动。
第十示例提供了根据第一示例至第九示例中任一示例所述的方法,其中:
所述GUI指示被配置成接收所述触摸输入的区域,所述区域包括第一子区域,所述第一子区域被配置成基于所述触摸输入的第一部分来检测所述触摸输入的拖动速度,所述第一部分出现在所述第一子区域内并且对应于所述单词的按顺序第一字母,所述区域还包括第二子区域,所述第二子区域被配置成基于所述触摸输入的第二部分来更新所述触摸输入的拖动速度,所述第二部分出现在所述第二子区域内并且对应于所述单词的按顺序第二字母;
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音基于检测到的所述触摸输入的第一部分的拖动速度;以及
所述方法还包括:
基于更新后的所述触摸输入的第二部分的拖动速度,选择是否要通过按顺序播放至少所述第二音频文件来对所述单词的其余部分发音。
第十一示例提供了一种机器可读介质(例如,非暂态机器可读存储介质),所述机器可读介质包括指令,所述指令在由机器的一个或更多个处理器执行时使所述机器执行操作,所述操作包括:
在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
检测所述触敏显示屏上的触摸输入的拖动速度;
确定检测到的所述触摸输入的拖动速度落入拖动速度的多个范围中的拖动速度的第一范围;以及
基于检测到的拖动速度落入所述拖动速度的第一范围,选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的按顺序第二字母发音的第二音素。
第十二示例提供了根据第十一示例所述的机器可读介质,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述操作还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放以对所述单词发音。
第十三示例提供了根据第十一示例所述的机器可读介质,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对单词发音包括:选择通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;以及
所述操作还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
第十四示例提供了根据第十一示例至第十三示例中任一项所述的机器可读介质,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
第十五示例提供了根据第十四示例所述的机器可读介质,其中:
所述拖动速度的多个范围中的拖动速度的第三范围对应于第四音频文件的播放,所述第四音频文件表示以与在所述第三音频文件中记录所述单词所用的第二发音速度不同的第一发音速度记录的所述单词的所述多个音素。
第十六示例提供了一种系统(例如,计算机系统),所述系统包括:
一个或更多个处理器;以及
存储指令的存储器,所述指令在由所述一个或更多个处理器中的至少一个处理器执行时使所述系统执行操作,所述操作包括:
在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
检测所述触敏显示屏上的触摸输入的拖动速度;
确定检测到的所述触摸输入的拖动速度落入拖动速度的多个范围中的拖动速度的第一范围;以及
基于检测到的拖动速度落入所述拖动速度的第一范围,选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的按顺序第二字母发音的第二音素。
第十七示例提供了根据第十六示例所述的系统,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述操作还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放以对所述单词发音。
第十八示例提供了根据第十六示例所述的系统,其中:
选择是否通过按顺序播放至少所述第一音频文件和所述第二音频文件来对单词发音包括:选择通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;以及
所述操作还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
第十九示例提供了根据第十六示例至第十八示例中任一示例所述的系统,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
第二十示例提供了根据第十九示例所述的系统,其中:
所述第一音频文件表示以与在所述第三音频文件中记录所述单词所用的第二发音速度不同的第一发音速度记录的所述第一音素;以及
所述第二音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述第二音素。
第二十一示例提供了一种承载机器可读指令的载体介质,所述机器可读指令用于控制机器执行在前述示例中的任一示例中执行的所述操作(例如,方法操作)。

Claims (20)

1.一种方法,包括:
通过机器的一个或更多个处理器在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
通过所述机器的一个或更多个处理器检测所述触敏显示屏上的触摸输入的拖动速度;
通过所述机器的一个或更多个处理器确定检测到的所述触摸输入的拖动速度落入拖动速度的多个范围中的拖动速度的第一范围;以及
通过所述机器的一个或更多个处理器并且基于检测到的所述拖动速度落入所述拖动速度的第一范围来选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的所述按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的所述按顺序第二字母发音的第二音素。
2.根据权利要求1所述的方法,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述方法还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放以对所述单词发音。
3.根据权利要求1所述的方法,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;以及
所述方法还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
4.根据权利要求1所述的方法,其中:
所述GUI指示被配置成接收所述触摸输入的区域,所述区域包括被配置成基于所述触摸输入的部分来检测所述触摸输入的拖动速度的子区域,所述部分出现在所述GUI的所述区域的所述子区域内;并且
确定检测到的拖动速度落入所述拖动速度的第一范围基于所述触摸输入的在所述GUI的所述区域的所述子区域内的所述部分。
5.根据权利要求1所述的方法,其中:
所述拖动速度的多个范围中的拖动速度的第二范围与所述拖动速度的第一范围相邻;以及
确定检测到的触摸输入的拖动速度落入所述拖动速度的第一范围包括将检测到的拖动速度与阈值拖动速度进行比较,所述阈值拖动速度划定所述拖动速度的第一范围或所述拖动速度的第二范围中的至少一者。
6.根据权利要求1所述的方法,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的所述拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
7.根据权利要求6所述的方法,其中:
所述第一音频文件表示以与在所述第三音频文件中记录所述单词所用的第二发音速度不同的第一发音速度记录的所述第一音素;以及
所述第二音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述第二音素。
8.根据权利要求7所述的方法,其中:
所述拖动速度的多个范围中的拖动速度的第三范围对应于第四音频文件的播放,所述第四音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述单词的所述多个音素。
9.根据权利要求1所述的方法,其中:
所述GUI中图示的所述单词具有阅读所述单词的方向;
所述触摸输入具有与阅读所述单词的所述方向平行的输入分量;以及
所述GUI包括视觉指示器,所述视觉指示器基于所述触摸输入的所述输入分量在阅读所述单词的所述方向上移动。
10.根据权利要求1所述的方法,其中:
所述GUI指示被配置成接收所述触摸输入的区域,所述区域包括第一子区域,所述第一子区域被配置成基于所述触摸输入的第一部分来检测所述触摸输入的拖动速度,所述第一部分出现在所述第一子区域内并且对应于所述单词的所述按顺序第一字母,所述区域还包括第二子区域,所述第二子区域被配置成基于所述触摸输入的第二部分来更新所述触摸输入的拖动速度,所述第二部分出现在所述第二子区域内并且对应于所述单词的所述按顺序第二字母;
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音基于检测到的所述触摸输入的所述第一部分的拖动速度;以及
所述方法还包括:
基于更新后的所述触摸输入的所述第二部分的拖动速度,选择是否要通过按顺序播放至少所述第二音频文件来对所述单词的其余部分发音。
11.一种机器可读介质,所述机器可读介质包括指令,所述指令在由机器的一个或更多个处理器执行时使所述机器执行操作,所述操作包括:
在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
检测所述触敏显示屏上的触摸输入的拖动速度;
确定检测到的所述触摸输入的拖动速度落入拖动速度的多个范围中的拖动速度的第一范围;以及
基于检测到的拖动速度落入所述拖动速度的第一范围,选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的所述按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的所述按顺序第二字母发音的第二音素。
12.根据权利要求11所述的机器可读介质,其中:
选择是否要通过顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述操作还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放来对所述单词发音。
13.根据权利要求11所述的机器可读介质,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;以及
所述操作还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
14.根据权利要求11所述的机器可读介质,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的所述拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
15.根据权利要求14所述的机器可读介质,其中:
所述拖动速度的多个范围中的拖动速度的第三范围对应于第四音频文件的播放,所述第四音频文件表示以与在所述第三音频文件记录所述单词所用的第二发音速度不同的第一发音速度记录的所述单词的多个音素。
16.一种系统,包括:
一个或更多个处理器;以及
存储指令的存储器,所述指令在由所述一个或更多个处理器中的至少一个处理器执行时使所述系统执行操作,所述操作包括:
在触敏显示屏上呈现图形用户界面(GUI),所述GUI图示要发音的单词,所述单词包括按顺序第一字母和按顺序第二字母;
检测所述触敏显示屏上的触摸输入的拖动速度;
确定检测到的所述触摸输入的拖动速度落入拖动速度的多个范围中的拖动速度的第一范围;以及
基于检测到的拖动速度落入所述拖动速度的第一范围,选择是否要通过按顺序播放至少第一音频文件和第二音频文件来对所述单词发音,所述第一音频文件表示对所述单词的所述按顺序第一字母发音的第一音素,所述第二音频文件表示对所述单词的所述按顺序第二字母发音的第二音素。
17.根据权利要求16所述的系统,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音;以及
所述操作还包括:
使至少所述第一音频文件和所述第二音频文件进行顺序播放以对所述单词发音。
18.根据权利要求16所述的系统,其中:
选择是否要通过按顺序播放至少所述第一音频文件和所述第二音频文件来对所述单词发音包括:选择要通过播放表示所述单词的多个音素的第三音频文件并且在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下对所述单词发音;并且
所述操作还包括:
在没有对所述第一音频文件和所述第二音频文件进行按顺序播放的情况下使所述第三音频文件进行播放以对所述单词发音。
19.根据权利要求16所述的系统,其中:
所述拖动速度的多个范围中的所述拖动速度的第一范围对应于至少所述第一音频文件和所述第二音频文件的顺序播放;以及
所述拖动速度的多个范围中的所述拖动速度的第二范围对应于表示所述单词的多个音素的第三音频文件的播放。
20.根据权利要求19所述的系统,其中:
所述第一音频文件表示以与在所述第三音频文件记录所述单词所用的第二发音速度不同的第一发音速度记录的所述第一音素;并且
所述第二音频文件表示以与在所述第三音频文件中记录所述单词所用的所述第二发音速度不同的所述第一发音速度记录的所述第二音素。
CN202080092173.4A 2019-11-07 2020-10-21 具有多模式混合的语音合成器 Pending CN115023758A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962931940P 2019-11-07 2019-11-07
US62/931,940 2019-11-07
PCT/US2020/056646 WO2021091692A1 (en) 2019-11-07 2020-10-21 Speech synthesizer with multimodal blending

Publications (1)

Publication Number Publication Date
CN115023758A true CN115023758A (zh) 2022-09-06

Family

ID=75849321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080092173.4A Pending CN115023758A (zh) 2019-11-07 2020-10-21 具有多模式混合的语音合成器

Country Status (5)

Country Link
US (1) US20220383769A1 (zh)
JP (1) JP7686217B2 (zh)
CN (1) CN115023758A (zh)
CA (1) CA3157612A1 (zh)
WO (1) WO2021091692A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD1098186S1 (en) 2018-08-28 2025-10-14 Read TwoGether Ltd. Display screen with graphical user interface
USD1091589S1 (en) * 2018-08-28 2025-09-02 Read Twogether Ltd Display screen with graphical user interface

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148727A (ja) * 2003-10-23 2005-06-09 Ihot Ltd 学習支援装置
KR20120044646A (ko) * 2010-10-28 2012-05-08 에스케이텔레콤 주식회사 통합 어학 학습 운용 시스템, 통합 어학 학습 단말기 및 통합 어학 학습 운용 방법
US20130036388A1 (en) * 2011-05-27 2013-02-07 Google Inc. Moving a graphical selector
CN103885715A (zh) * 2014-04-04 2014-06-25 广东小天才科技有限公司 一种滑动操控文本语音的播放速度的方法和装置
US8768704B1 (en) * 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
US20150243294A1 (en) * 2012-10-31 2015-08-27 Nec Casio Mobile Communications, Ltd. Playback apparatus, setting apparatus, playback method, and program
KR102062552B1 (ko) * 2019-06-13 2020-01-06 김성수 영어 감각훈련에 기반한 영어 학습 어플리케이션을 포함하는 단말기
US20200193975A1 (en) * 2018-12-13 2020-06-18 Square Panda Inc. Variable-speed phonetic pronunciation machine

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996018184A1 (en) * 1994-12-08 1996-06-13 The Regents Of The University Of California Method and device for enhancing the recognition of speech among speech-impaired individuals
EP1220130A3 (en) * 2000-12-14 2002-10-09 Readingvillage. Com, Inc. Method for enabling non-readers to communicate with electronic messages
JP3838193B2 (ja) * 2002-11-27 2006-10-25 ブラザー工業株式会社 文章読み上げ装置、同装置のためのプログラム及び記録媒体
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
WO2012129445A2 (en) * 2011-03-23 2012-09-27 Audible, Inc. Managing playback of synchronized content
KR101886753B1 (ko) * 2012-04-05 2018-08-08 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
JP6752046B2 (ja) * 2016-04-20 2020-09-09 シャープ株式会社 電子機器、その制御方法および制御プログラム
US10303715B2 (en) * 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148727A (ja) * 2003-10-23 2005-06-09 Ihot Ltd 学習支援装置
KR20120044646A (ko) * 2010-10-28 2012-05-08 에스케이텔레콤 주식회사 통합 어학 학습 운용 시스템, 통합 어학 학습 단말기 및 통합 어학 학습 운용 방법
US20130036388A1 (en) * 2011-05-27 2013-02-07 Google Inc. Moving a graphical selector
US20150243294A1 (en) * 2012-10-31 2015-08-27 Nec Casio Mobile Communications, Ltd. Playback apparatus, setting apparatus, playback method, and program
US8768704B1 (en) * 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
CN103885715A (zh) * 2014-04-04 2014-06-25 广东小天才科技有限公司 一种滑动操控文本语音的播放速度的方法和装置
US20200193975A1 (en) * 2018-12-13 2020-06-18 Square Panda Inc. Variable-speed phonetic pronunciation machine
KR102062552B1 (ko) * 2019-06-13 2020-01-06 김성수 영어 감각훈련에 기반한 영어 학습 어플리케이션을 포함하는 단말기

Also Published As

Publication number Publication date
WO2021091692A1 (en) 2021-05-14
CA3157612A1 (en) 2021-05-14
US20220383769A1 (en) 2022-12-01
JP7686217B2 (ja) 2025-06-02
JP2023501404A (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
US11694680B2 (en) Variable-speed phonetic pronunciation machine
US8751971B2 (en) Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
US10528249B2 (en) Method and device for reproducing partial handwritten content
WO2019214365A1 (zh) 翻译模型训练的方法、语句翻译的方法、设备及存储介质
US20180196854A1 (en) Application extension for generating automatic search queries
US8914740B1 (en) Aligning segments of bar graphs for comparative analysis
US12061873B2 (en) Determining lexical difficulty in textual content
US8640046B1 (en) Jump scrolling
US10403238B2 (en) Presentation of representations of input with contours having a width based on the size of the input
CN115552433A (zh) 基于技能简档的自定义文本生成
CN115023758A (zh) 具有多模式混合的语音合成器
CN111936970A (zh) 交叉应用特征链接和教育消息传送
US20210390138A1 (en) VideoChat
CN111261174B (zh) 音频的分类方法、装置、终端及计算机可读存储介质
EP3574397B1 (en) Redrawing a user interface based on pen proximity
US11010046B2 (en) Method and apparatus for executing function on a plurality of items on list
US20180350121A1 (en) Global annotations across contents
KR20170017166A (ko) 전자 장치, 전자 장치의 문자 입력 방법
KR101646688B1 (ko) 소형 스마트 디바이스를 위한 키보드 입력 시스템 및 방법 그리고 이를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN104048665A (zh) 显示控制装置及其方法、以及计算机可读记录媒体
US20250363815A1 (en) Method and device for detecting text in image
KR20230116526A (ko) 디스플레이 장치 및 그 제어 방법
KR20230173491A (ko) 중국어 학습 콘텐츠 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220906

WD01 Invention patent application deemed withdrawn after publication