CN101803214A - 用于个人通信设备的语音到文本转录 - Google Patents
用于个人通信设备的语音到文本转录 Download PDFInfo
- Publication number
- CN101803214A CN101803214A CN200880107047A CN200880107047A CN101803214A CN 101803214 A CN101803214 A CN 101803214A CN 200880107047 A CN200880107047 A CN 200880107047A CN 200880107047 A CN200880107047 A CN 200880107047A CN 101803214 A CN101803214 A CN 101803214A
- Authority
- CN
- China
- Prior art keywords
- speech
- personal communication
- communication device
- text
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Telephone Function (AREA)
Abstract
将用于个人通信设备(PCD)的语音到文本转录系统容纳在通信耦合到一个或多个PCD的通信服务器中。PCD的用户将例如向PCD口述电子邮件。PCD将用户的语音转换成被传送到位于服务器中的语音到文本转录系统的语音信号。语音到文本转录系统将语音信号转录成文本消息。该文本消息随后由服务器传送到PCD。在接收到该文本消息后,用户在各应用中使用该文本消息之前在被错误转录的词上进行纠正。
Description
技术领域
本技术领域一般涉及个人通信设备并具体地涉及由服务器资源代表个人通信设备进行的语音到文本转录。
背景
诸如蜂窝电话或个人数字助理(PDA)等个人通信设备的用户受限于使用在尺寸以及功能上受限的键区和其它文本输入机制来输入文本,进而导致很大程度上的不便以及低效率。例如,蜂窝电话的键区通常包含作为多功能键的若干键。具体而言,使用单个键来输入诸如A、B、或C等三个字母之一。个人数字助理(PDA)的键区通过结合其中单独键用于单独字母的QWERYT键盘来提供一些改善。然而,键的微型尺寸被证明为对某些用户是不便的且对其它人是严重的阻碍。
作为这些阻碍的结果,介绍了用于将信息输入到个人通信设备中的各种替换解决方案。例如,将语音识别系统嵌入到蜂窝电话以启用经由语音的输入。此方法提供了某些好处,如使用口头命令来拨打电话号码。然而,由于涉及成本和移动设备中的硬件/软件限制的各种因素,其不能满足诸如电子邮件文本输入等更复杂的任务的需要。
概述
提供本概述以便以简化的形式介绍将在以下说明性实施例的详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
在一个用于生成文本的示例性方法中,通过将电子邮件的一部分读到例如个人通信设备(PCD)中来创建语音信号。将所生成的语音信号传送到服务器。该服务器容纳语音到文本转录系统,该系统将语音信号转录成被返回给PCD的文本消息。在PCD上编辑该文本消息以纠正任何转录错误并随后将其用于各种应用。在一个示例性应用中,以电子邮件格式将所编辑的文本传送给电子邮件接收者。
在用于生成文本的另一示例性方法中,在服务器中接收由PCD生成的语音信号。通过使用位于该服务器中的语音到文本转录系统将语音信号转录成文本消息。随后将该文本消息传送到PCD。此外,在一个其它示例中,转录过程包括生成用于说出的词的语音识别的备择候选的列表。此备择候选的列表与被转录的词一起由服务器传送到PCD。
附图简述
以上概述以及以下详细描述在结合附图阅读时可被更好地理解。出于说明用于个人通信设备的语音到文本转录的目的,在附图中示出了其示例性构造;然而,用于个人通信设备的语音到文本转录不限于所公开的具体方法和手段。
图1示出结合用于个人通信设备的语音到文本转录系统的示例性通信系统100。
图2示出用于使用语音到文本转录来生成文本的步骤的示例性序列,该方法在图1的通信系统上实现。
图3是用于实现用于个人通信设备的语音到文本转录的示例性处理器的图示。
图4是其中可实现用于个人通信设备的语音到文本转录的合适计算环境的描绘。
说明性实施例的详细描述
在下文所述的各示例性实施例中,用于个人通信设备的语音到文本转录系统被容纳在通信耦合到一个或多个移动设备的通信服务器中。不同于被容纳在移动设备中的语音识别系统,由于服务器中广泛的可用性、成本有效的存储容量和计算能力,位于服务器中的语音到文本转录系统是具有丰富特征且高效的。在此处被称为个人通信设备(PCD)的移动设备的用户将例如电子邮件的音频口述到PCD中。PCD将用户的语音转换成被传送到位于服务器中的语音到文本转录系统的语音信号。语音到文本转录系统通过使用语音识别技术将语音信号转录成文本消息。该文本消息随后由服务器传送到PCD。在接收到该文本消息后,用户在利用文本的各应用中使用该文本消息之前对被错误转录的词进行纠正。
在一示例性应用中,所编辑的文本消息用于形成例如随后被发送给电子邮件接收者的电子邮件的正文部分。在一替换应用中,在诸如Microsoft WORDTM等实用程序中使用所编辑的文本消息。在又一应用中,将所编辑的文本插入到备忘录中。其中使用文本的这些和其它此类示例将被本领域的普通技术人员理解,因此,本发明的范围旨在涵盖所有此类区域。
上文所述的安排提供若干优点。例如,位于服务器中的语音到文本转录系统结合成本有效语音识别系统,该系统与被容纳在PCD内的更受限的语音识别系统相比提供较高的词识别准确性(通常在中到高90%范围中)。
此外,使用PCD的键区以编辑由语音到文本转录生成的文本消息中的几个不正确的词与通过手动按下PCD的键区上的键对输入电子邮件消息的整个文本相比是更高效且更优选的。使用良好的语音到文本转录系统的情况下,不正确的词通常将少于所转录的文本消息中的词总数的10%。
图1示出结合容纳在位于蜂窝基站120中的服务器125中的语音到文本转录系统130的示例性通信系统100。如在本领域中公知的,蜂窝基站120向各PCD提供蜂窝通信服务。出于访问语音到文本转录系统130的目的,这些PCD中的每一个在按需基础上或在连续基础上通信耦合到服务器125。
PCD的几个非穷尽性示例包括作为智能电话的PCD 105、作为个人数字助理(PDA)的PCD 110、以及作为具有文本输入工具的蜂窝电话的PCD 115。PCD 105(智能电话)结合蜂窝电话与计算机,进而提供语音以及包括电子邮件的数据通信特征。PCD 110(PDA)结合用于数据通信的计算机、用于语音通信的蜂窝电话、以及用于存储诸如地址、约会、日历、以及备忘录等个人信息的数据库。PCD 115(蜂窝电话)提供语音通信以及诸如短消息服务(SMS)等特定文本输入工具。
在一个具体示例性实施例中,除容纳语音到文本转录系统130之外,蜂窝基站120还包括向各PCD提供电子邮件服务的电子邮件服务器145。蜂窝基站120还通信耦合到诸如公共交换电话网中心局(PSTN CO)140等其它网络元素,且可任选地通信耦合到因特网服务供应商(ISP)150。蜂窝基站120、电子邮件服务器145、ISP 150、以及PSTN CO 140的操作的细节将不在此处提供以将焦点保持在用于PCD的语音到文本转录系统的相关方面上,而避免由对本领域的普通技术人员公知的主题引起的任何注意力转移。在一示例配置中,ISP 150耦合到包括用于处理电子邮件和转录功能的电子邮件服务器162和语音到文本转录系统130的企业152。
可将语音到文本转录系统130容纳在通信网络100中的若干替换位置。例如,在第一示例性实施例中,将语音到文本转录系统130容纳在位于蜂窝基站120中的辅助服务器135中。辅助服务器135通信耦合到服务器125,该服务器125在此配置中作为主要服务器操作。在第二示例性实施例中,将语音到文本转录系统130容纳在位于PSTN CO 140中的服务器155中。在第三示例性实施例中,将语音到文本转录系统130容纳在位于ISP 150的工具中的服务器160中。
通常,如上所述,语音到文本转录系统130包括语音识别系统。语音识别系统可以是独立于说话者的系统或依赖于说话者的系统。在依赖于说话者时,语音到文本转录系统130包括其中提示PCD用户以个别词的形式或以指定段落的形式来说出若干词的训练特征。将这些词作为词的定制模板存储以供由此PCD用户使用。此外,语音到文本转录系统130还可按与每一各个PCD用户相关联的一个或多个数据库的形式包括以下各项中的一个或多个:用户偏好并常说的词汇表词的定制列表、由用户使用的电子邮件地址的列表、以及具有用户的一个或多个联系人的个人信息的联系人列表。
图2示出用于使用语音到文本转录来生成文本的步骤的示例性序列,该方法在通信系统100上实现。在此具体示例中,语音到文本转录用于经由电子邮件服务器145传送电子邮件。位于蜂窝基站120中的服务器125包含语音到文本转录系统130。代替使用两个单独的服务器,可任选地使用单个集成服务器210以结合服务器125以及电子邮件服务器145的功能。结果,在此类配置中,集成服务器210通过使用共享资源来执行与语音到文本转录以及电子邮件服务相关联的操作。
可任选步骤的序列开始于步骤1,其中PCD用户向PCD 105口述电子邮件。该口述音频可以是关于电子邮件的若干替换材料之一。此类材料的几个非穷尽性示例包括:电子邮件的正文的一部分、电子邮件的正文全体、主题行文本、以及一个或多个电子邮件地址。该口述音频在PCD 105中被转换成电子语音信号、被合适地编码以供无线传送、并随后被传送到蜂窝基站120,在那里将该电子语音信号路由到语音到文本转录系统130。
通常可包括语音识别系统(未示出)和文本生成器(未示出)的语音到文本转录系统130将语音信号转录成文本数据。合适地编码该文本数据以供无线传送并在步骤2将其传送回到PCD 105。步骤2可按自动过程来实现,其中在没有由PCD 105的用户执行的任何动作的情况下文本消息被自动发送到PCD105。在替换过程中,PCD用户必须通过激活特定键来手动操作PCD 105以例如将文本消息从语音到文本转录系统130下载到PCD 105中。不向PCD 105传送该文本消息,直到此下载请求由PCD用户作出。
在步骤3,PCD用户编辑文本消息并适当地将其格式化成电子邮件消息。一旦电子邮件被适当地格式化,在步骤4,PCD用户即激活电子邮件“发送”按钮且该电子邮件被无线地传送到电子邮件服务器145,从电子邮件服务器145电子邮件耦合到因特网(未示出)以供转发到合适的电子邮件接收者。
使用作为示例的若干替换操作模式,上述四个步骤现在将以更一般的方式(不限于电子邮件)更详细地描述。
延迟传送模式
在此操作模式中,PCD用户阐述需要从语音转录成文本的材料。将所阐述的文本存储在PCD中的合适存储缓冲区中。这可例如通过使用用于数字化说话者的语音的模拟到数字编码器,之后将数字化数据存储在数字存储器芯片中来执行。执行数字化和存储过程直到PCD用户完成阐述整个材料。在此任务完成后,PCD用户激活PCD上的“转录”键以在用于无线传送的合适格式化之后将数字化数据按数据信号的形式传送到蜂窝基站120。可将转录键实现为硬键或软键,软键例如以图标的形式在PCD的显示器上显示。
零碎传送模式
在此操作模式中,PCD用户阐述以数据形式从PCD 105频繁并周期性地传送到蜂窝基站120的材料。例如,只要PCD用户在其对PCD说话期间暂停,就可将所阐述的材料作为语音信号的一部分来传送。此类暂停可发生在例如句子的结尾处。甚至在PCD用户正在说下一句子时,语音到文本转录系统130也可转录此语音信号的特定部分并返回对应文本消息。因此,转录过程在此零碎传送模式中可执行得比在其中用户必须完全完成说出整个材料的延迟传送模式中快。
在一个替换实现中,可选择性地将零碎传送模式与延迟传送模式结合。在此类组合模式中,在PCD 105中的间断传送之前,使用临时缓冲存储来存储所阐述的材料的特定部分(例如大于一句子)。此类实现所需的缓冲存储与用于其中必须在传送之前存储整个材料的延迟传送模式相比更节制。
实况传送模式
在此操作模式中,PCD用户激活PCD上的“转录请求”键。可将转录请求键实现为硬键或软键,软键例如以图标的形式在PCD的显示器上显示。在激活此键后,使用例如以传输控制格式(TCP/IP)嵌入的网际协议(IP)数据在PCD 105与服务器125(其容纳语音到文本转录系统130)之间设置通信链接。被称为分组传送链接的此类通信链接在本领域中公知且通常用于传输因特网相关的数据分组。在示例实施例中,在激活转录请求键后,代替IP呼叫,经由蜂窝基站120向服务器125提供诸如电路交换呼叫(例如,标准电话呼叫)等电话呼叫。
分组传送链接由服务器105使用以向PCD 105确认服务器125准备好从PCD 105接收IP数据分组。携带根据由用户阐述的材料数字化的数字数据的IP数据分组在服务器125被接收并在耦合到语音到文本转录系统130以转录之前被合适地解码。可按延迟传送模式或零碎传送模式向PCD传播被转录的文本消息(同样以IP数据分组的形式)。
语音到文本转录
如上所述,通常通过使用语音识别系统在语音到文本转录系统130中执行语音到文本转录。在用于语音识别的备择候选存在时,语音识别系统通过委托若干备择候选中的每一个的置信度因素来识别各个词。例如,说出的词“taut(拉紧)”可具有诸如“taught(教)”、“thought(想)”、“tote(拉)”、以及“taut”等用于语音识别的若干备择候选。语音识别系统将这些备择候选中的每一个与识别准确性的置信度因素相关联。在此具体示例中,taught、thought、tote、以及taut的置信度因素分别可以是75%、50%、25%、以及10%。语音识别系统选择具有最高置信度因素的候选并将此候选用于将说出的词转录成文本。因此,在此示例中,语音到文本转录系统130将说出的词“taut”转录成文本词“taught”。
在图2的步骤2作为被转录的文本的一部分从蜂窝基站105被传送到PCD105的该被转录的词显然是不正确的。在一个示例性应用中,PCD用户在其PCD105上观察到该出错的词并通过删除“taught”并以“taut”替换它来手动地编辑该词,这在此实例中通过在PCD 105的键盘上键入词“taut”来执行。在另一示例性应用中,备择候选词(thought、tote、以及taut)中的一个或多个由语音到文本转录系统130链接到被转录的词“taught”。在此第二种情况下,PCD用户观察到出错的词并从菜单中选择备择候选词而不是手动地键入替换词。可例如通过将光标放置在被不正确地转录的词“taught”上来将菜单作为下拉菜单显示。在将光标放置在被转录的词上时可自动地显示备择词,或其可通过在将光标放置在被不正确转录的词上之后激活PCD 105的合适硬键或软键来显示。在一示例实施例中,可自动显示词(短语)的备择序列,且用户可选择合适的短语。例如,在选择词“taught”后,可显示短语“Rob taught”、“rope(绳子)taught”、“Rob taut”、以及“rope taut”,且用户可选择合适的短语。在又一示例实施例中,合适的短语可根据置信度水平自动显示或从显示中消去。例如,基于英语使用的一般模式,系统可能对短语“Rob taut”和“rope taught”是正确的具有低置信度,并可避免显示这些短语。在其它示例实施例中,系统可从之前的选择学习。例如,系统可学习字典词、字典短语、联系人名称、电话号码等。此外,可基于之前的行为来预测文本。例如,系统可“听到”之后是混淆语音的以“42”开始的电话号码。基于系统中的之前信息(例如,所学习的信息或种子信息),该系统可推断该区域码是425。因此,可显示具有425的号码的各种组合。例如,可显示“425-XXX-XXXX”。可显示该区域和前缀的各种组合。例如,如果存储在系统中具有425区域码的仅有的号码具有707或606前缀,则可显示“425-707-XXXX”和“425-606-XXXX”。随着用户选择所显示的号码之一,可显示额外号码。例如,如果选择了“425-606-XXXX”,则可显示以425-606开始的所有号码。
作为对上文所述的菜单驱动纠正特征的补充和替换,语音到文本转录系统130可通过以特定方式(例如,通过以红线对有疑问的词加下划线、或通过以红色对有疑问的词的文本着色)突出显示有疑问地转录的的词来提供词纠正工具。在替换示例实施例中,PCD可通过以特定方式(例如,通过以红线对有有疑问的词加下划线、或通过以红色对有疑问的词的文本着色)突出显示有疑问地转录的词来提供词纠正工具。
上文所述的纠正过程还可用于生成词汇词的定制列表或用于创建定制词的字典。可将定制列表和字典中的任一或两者存储在语音到文本转录系统130和PCD 105中的任一或两者中。词汇表词的定制列表可用于存储对具体用户唯一的某些词。例如,此类词可包括个人的名字或外语词。可在例如PCD用户指示某一被转录的词必须在未来被由该PCD用户提供的替换词自动纠正时创建定制字典。
图3是用于实现语音到文本转录130的示例性处理器300的图示。处理器300包括处理部分305、存储器部分350和输入/输出部分360。处理部分305、存储器部分350和输入/输出部分360被耦合在一起(耦合未在图3中示出)以允许它们之间的通信。输入/输出部分360能够提供和/或接收用于执行如上所述的语音到文本转录的组件。例如,输入/输出部分360能够提供蜂窝基站与语音到文本转录130之间的通信耦合和/或服务器与语音到文本转录130之间的通信耦合。
处理器300可被实现为客户机处理器、服务器处理器、和/或分布式处理器。在一基本配置中,处理器300可包括至少一个处理部分305和存储器部分350。存储器部分350可存储结合语音到文本转录使用的任何信息。取决于处理器的精确配置和类型,存储器部分350可以是易失性的(如RAM)325、非易失性的(如ROM、闪存等)330、或其组合。处理器300可以具有附加特征/功能。例如,处理器300可以包括附加存储(可移动存储310和/或不可移动存储320),包括但不限于,磁盘或光盘、磁带、闪存、智能卡或其组合。诸如存储器部分310、320、325、以及330等计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、兼容通用串行总线(USB)的存储器、智能卡、或能用于存储所需信息且可以由处理器300访问的任何其它介质。任何这样的计算机存储介质都可以是处理器300的一部分。
处理器300还可包含允许处理器300与诸如例如其它调制解调器等其它设备进行通信的通信连接345。通信连接345是通信介质的一个示例。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。处理器300也可具有输入设备340,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可包括输出设备335,如显示器、扬声器、打印机等。
虽然在图3中被示为一个集成框,应该理解,处理器300可被实现为具有例如被作为多中央处理单元(CPU)实现的处理部分305的分布式单元。在一个此类实现中,处理器300的第一部分可位于PCD 105中,第二部分可位于语音到文本转录系统130中,而第三部分可位于服务器125中。各部分被配置成实现与用于PCD的语音到文本转录相关联的各种功能。第一部分可用于例如在PCD 105上提供下拉菜单显示并在PCD 105的显示上提供诸如“转录”键和“转录请求”键等特定软键。第二部分可用于例如执行语音识别并用于将替换候选附连到被转录的词。第三部分可用于例如将位于服务器125中的调制解调器耦合到语音到文本转录系统130。
图4和以下讨论提供其中可实现用于个人通信设备的语音到文本转录的合适计算环境的简要概括描述。虽然不是必需,但语音到文本转录的各方面能在诸如由客户机工作站或服务器等计算机上执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此外,用于个人通信设备的语音到文本转录的实现可用其它计算机系统配置来实施,包括手持设备、多处理器系统、基于微处理器的系统或可编程消费电子设备、网络PC、小型机、大型计算机等。此外,用于个人通信设备的语音到文本转录也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
计算机系统可被大致分为三个组件组:硬件组件、硬件/软件接口系统组件、以及应用程序组件(也被称为“用户组件”或“软件组件”)。在计算机系统的各实施例中,硬件组件可包括中央处理单元(CPU)421;存储器(ROM464和RAM 425两者);基本输入/输出系统(BIOS)466;以及诸如键盘440、鼠标442、监视器447和/或打印机(未示出)等各种输入/输出(I/O)设备。硬件组件包括计算机系统的基本物理基础结构。
应用程序组件包括各种软件程序,包括但不限于编译器、数据库系统、文字处理程序、业务程序、视频游戏等。应用程序提供用于利用计算机资源来解决问题、提供解决方案、及处理各种用户(机器、其它计算机系统和/或最终用户)的数据的手段。在一示例实施例中,如上所述,应用程序执行与用于个人通信设备的语音到文本转录相关联的功能。
硬件/软件接口系统组件包括(并且在某些实施例中只包括)操作系统,其本身在大多数情况下包括外壳和内核。“操作系统”(OS)是担当应用程序和计算机硬件之间的中介的特殊程序。硬件/软件接口系统组件还可以包括虚拟机管理器(VMM)、公共语言运行库(CLR)或其功能等效物、Java虚拟机(JVM)或其功能等效物、或者作为对计算机系统中的操作系统的替换或补充的其它这样的软件组件。硬件/软件接口系统的目的在于提供用户可在其中执行应用程序的环境。
硬件/软件接口系统通常在启动时被加载到计算机系统中,并且之后管理计算机系统中的所有应用程序。应用程序通过经由应用程序接口(API)请求服务来与硬件/软件接口系统交互。某些应用程序使得最终用户能够经由诸如命令语言或图形用户界面(GUI)等用户界面来与硬件/软件接口系统交互。
硬件/软件接口系统传统上执行用于应用程序的各种服务。在其中多个程序可同时运行的多任务硬件/软件接口系统中,硬件/软件接口系统确定各应用程序应该以何种次序运行以及在为轮换而切换至另一应用程序之前应该允许每一个应用程序多长时间。硬件/软件接口系统还管理多个应用程序之间的内部存储器的共享,并且处理来自诸如硬盘、打印机和拨号端口等附连硬件设备的输入以及对其的输出。硬件/软件接口系统还将关于操作的状态和可能已发生的任何错误的消息发送给每一个应用程序(并且在某些情况下发送给最终用户)。硬件/软件接口系统还可卸载批作业(例如,打印)的管理以使得启动应用程序免除该工作并能够继续执行其它处理和/或操作。在能提供并行处理的计算机上,硬件/软件接口系统还管理划分程序以使其同时在多于一个的处理器上运行。
硬件/软件接口系统外壳(被称为“外壳”)是对硬件/软件接口系统的交互式最终用户接口。(外壳也称为“命令解释程序”,或在操作系统中被称为“操作系统外壳”)。外壳是可直接由应用程序和/或最终用户访问的硬件/软件接口系统的外层。与外壳相反,内核是直接与硬件组件交互的硬件/软件接口系统的最内层。
如图4所示,示例性通用计算系统包括常规计算设备460等,其包括中央处理单元421、系统存储器462和将包括系统存储器的各种系统组件耦合到处理单元421的系统总线423。系统总线423可以是几种类型的总线结构中的任何一种,包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。系统存储器包括只读存储器(ROM)464和随机存取存储器(RAM)425。基本输入/输出系统(BIOS)466被存储在ROM 464中,它包含帮助在诸如启动期间在计算设备460内的元件之间传递信息的基本例程。计算设备460还可包括对硬盘(硬盘未示出)读写的硬盘驱动器427、对可移动磁盘429(例如,软盘、移动存储)读写的磁盘驱动器428(例如,软盘驱动器)、以及对诸如CD-ROM或其它光学介质等可移动光盘431读写的光盘驱动器430。硬盘驱动器427、磁盘驱动器428和光盘驱动器430分别通过硬盘驱动器接口432、磁盘驱动器接口433和光盘驱动器接口434来连接到系统总线423。驱动器及其相关联的计算机可读介质为计算设备460提供了对计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。虽然此处所描述的示例性环境采用了硬盘、可移动磁盘429和可移动光盘431,但本领域的技术人员可以理解,在示例性操作环境中也可以使用可储存可由计算机访问的数据的其它类型的计算机可读介质,如磁带盒、闪存卡、数字视频盘、贝努利盒式磁带、随机存取存储器(RAM)、只读存储器(ROM)等等。同样,示例性环境还可包括诸如热传感器和安全或火警系统等许多类型的监控设备,以及其它信息源。
多个程序模块可被储存在硬盘427、磁盘429、光盘431、ROM 464、或RAM 425上,包括操作系统435、一个或多个应用程序436、其它程序模块437、以及程序数据438。用户可通过诸如键盘440和定点设备442(例如,鼠标)等输入设备将命令和信息输入到计算设备460中。其它输入设备(未示出)可以包括话筒、操纵杆、游戏键盘、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的串行端口接口446连接至处理单元421,但也可以由其它接口,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器447或其它类型的显示设备也经由接口,诸如视频适配器448连接至系统总线423。除监视器447之外,计算机通常包括其它外围输出设备(未示出),诸如扬声器或打印机等。图4的示例性环境还包括主机适配器455、小型计算机系统接口(SCSI)总线456和连接到SCSI总线456的外部存储设备462。
计算设备460可使用至诸如远程计算机449等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机449可以是另一计算设备(例如,个人计算机)、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且通常包括上文相对于计算设备460描述的许多或所有元件,尽管在图4中只示出了存储器存储设备450(软盘驱动器)。图4所描绘的逻辑连接包括局域网(LAN)451和广域网(WAN)452。这样的网络环境常见于办公室、企业范围计算机网络、内联网和因特网。
当在LAN联网环境中使用时,计算设备460通过网络接口或适配器453连接至LAN 451。当在WAN联网环境中使用时,计算设备460可包括调制解调器454或用于通过诸如因特网等广域网452来建立通信的其它装置。或为内置或为外置的调制解调器454经由串行端口接口446连接到系统总线423。在网络化环境中,相对于计算设备460描绘的程序模块或其部分可被储存在远程存储器存储设备中。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
虽然可以想像用于个人通信设备的语音到文本转录的多个实施例尤其适用于计算机化系统,然而在本说明中不旨在将用于个人通信设备的语音到文本转录限于此类实施例。相反,此处所使用的术语“计算机系统”旨在包括能够存储和处理信息和/或能够使用所存储的信息来控制设备本身的行为或执行的任何及所有设备,而不管那些设备本质上是否为电子的、机械的、逻辑的、或虚拟的。
此处所述的各种技术可结合硬件或软件,或在适当时以其组合来实现。因此,用于实现用于个人通信设备的语音到文本转录的方法和装置或其某些方面或部分,可以采取包含在诸如软盘、CD-ROM、硬盘驱动器或任何其它机器可读存储介质等有形介质中的程序代码(即,指令)的形式,其中,当程序代码被加载至诸如计算机等机器并由其运行时,该机器成为用于实现用于个人通信设备的语音到文本转录的装置。
如果需要,程序可以用汇编语言或机器语言来实现。在任何情况下,语言可以是编译的或解释的语言,且与硬件实现相结合。用于实现用于个人通信设备的语音到文本转录的方法和装置也可以经由以通过某种传输介质传输的程序代码的形式体现的通信来实现,传输介质比如通过电线或电缆、通过光纤或经由任何其它传输形式,其中,当程序代码由诸如EPROM、门阵列、可编程逻辑器件(PLD)、客户计算机等机器接收、加载并执行时。当在通用处理器上实现时,程序代码与处理器相结合来提供一种用于调用用于个人通信设备的语音到文本转录的功能的独特装置。另外,结合用于个人通信设备的语音到文本转录所使用的任何存储技术总是可以是硬件和软件的组合。
尽管结合各附图的示例实施例描述了用于个人通信设备的语音到文本转录,但是可以理解,可以使用其它类似的实施例,或可以对所述实施例进行修改或添加来执行用于个人通信设备的语音到文本转录的相同功能而不背离用于个人通信设备的语音到文本转录。因此,此处所述的用于个人通信设备的语音到文本转录不应限于任何单个实施例,而是应该根据所附权利要求书的广度和范围来解释。
Claims (20)
1.一种用于生成文本的方法,包括:
通过对个人通信设备(105)说话生成语音信号;
传送所生成的语音信号;以及
在所述个人通信设备(105)中响应于所述传送接收文本消息,所述文本消息是通过使用位于所述个人通信设备(105)外部的语音到文本转录系统(130)转录所述语音信号来生成的。
2.如权利要求1所述的方法,其特征在于,所述语音信号是作为说出电子邮件、主题行文本、或电子邮件消息的正文的至少一部分中的至少一个的结果而生成的。
3.如权利要求1所述的方法,其特征在于:
生成所述语音信号包括将所述语音信号的至少一部分存储在所述个人通信设备中;以及
传送所生成的语音信号包括在所述个人通信设备上按下按钮以按延迟传送模式来传送所存储的语音信号。
4.如权利要求1所述的方法,其特征在于:
生成所述语音信号包括在所述个人通信设备上按下按钮以请求转录;以及
传送所生成的语音信号包括:
在所述个人通信设备处接收确认;以及
按实况传送模式来传送所述语音信号。
5.如权利要求1所述的方法,其特征在于,传送所生成的语音信号包括按零碎传送模式来传送所述语音信号。
6.如权利要求1所述的方法,其特征在于,传送所生成的语音信号包括以下至少其中之一:
按数字格式传送所述语音信号;或
将所述语音信号作为电话呼叫传送。
7.如权利要求6所述的方法,其特征在于,所述数字格式包括网际协议(IP)数字格式。
8.如权利要求1所述的方法,其特征在于,还包括:
编辑所述文本消息;以及
按电子邮件格式传送所述文本消息。
9.如权利要求8所述的方法,其特征在于,编辑所述文本消息包括:
使用备择词替换所述文本消息中的至少一个词,所述替换通过手动键入所述备择词或从由所述语音到文本转录系统提供的备择词的菜单中选择所述备择词中来执行。
10.一种用于生成文本的方法,包括:
在第一服务器(210)中接收由个人通信设备(105)生成的语音信号;
通过使用位于第二服务器(125)的语音到文本转录系统(130)将所接收的语音信号转录成文本消息;以及
将所生成的文本消息传送到所述个人通信设备(105)。
11.如权利要求10所述的方法,其特征在于,所述第一服务器与所述第二服务器相同。
12.如权利要求10所述的方法,其特征在于,还包括:
在所述第一服务器中接收来自所述个人通信设备的转录请求;以及
响应于所述转录请求设置所述第一服务器与所述个人通信设备之间的数据分组通信链接以用于按数字数据分组的形式将所述语音信号从所述个人通信设备传输到所述第一服务器。
13.如权利要求10所述的方法,其特征在于,使用语音到文本转录系统包括:
生成用于说出的词的语音识别的备择候选的列表,其中每一备择候选具有识别准确性的关联置信度因素。
14.如权利要求13所述的方法,其特征在于,还包括:
从所述第一服务器向所述个人通信设备以链接到被转录的词的下拉菜单格式传送所述备择候选的列表。
15.一种具有存储在其上的计算机可读指令的计算机可读存储介质,所述计算机可读指令用于执行以下步骤:
将服务器(210、215)通信耦合到个人通信设备(105)
在所述服务器(210、215)中接收在所述个人通信设备(105)中生成的语音信号;
通过使用位于所述服务器(210、125)中的语音到文本转录系统(130)将所接收的语音信号转录成文本消息;以及
将所生成的文本消息传送到所述个人通信设备(105)。
16.如权利要求15所述的计算机可读介质,其特征在于,使用所述语音到文本转录系统包括:
生成用于说出的词的语音识别的备择候选的列表,其中每一备择候选具有
识别准确性的关联置信度因素;
通过使用具有最高置信度因素的所述备择候选之一来从所述说出的词创建被转录的词;以及
将所述备择候选的列表追加到所转录的词。
17.如权利要求16所述的计算机可读介质,其特征在于,将所生成的文本消息传送到所述个人通信设备包括将所转录的词与所追加的备择候选的列表一起传送到所述个人通信设备。
18.如权利要求17所述的计算机可读介质,其特征在于,将所述备择候选的列表按下拉菜单格式追加到所转录的词。
19.如权利要求15所述的计算机可读介质,其特征在于,还包括生成包含偏好词汇表或一组语音识别训练词中的至少一个的数据库。
20.如权利要求19所述的计算机可读介质,其特征在于,还包括用于执行以下步骤的计算机可读指令:
在所述个人通信设备中编辑所生成的文本消息;以及
按电子邮件格式从所述个人通信设备传送所述文本消息。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11/854,523 US20090070109A1 (en) | 2007-09-12 | 2007-09-12 | Speech-to-Text Transcription for Personal Communication Devices |
| US11/854,523 | 2007-09-12 | ||
| PCT/US2008/074164 WO2009035842A1 (en) | 2007-09-12 | 2008-08-25 | Speech-to-text transcription for personal communication devices |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN101803214A true CN101803214A (zh) | 2010-08-11 |
Family
ID=40432828
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN200880107047A Pending CN101803214A (zh) | 2007-09-12 | 2008-08-25 | 用于个人通信设备的语音到文本转录 |
Country Status (8)
| Country | Link |
|---|---|
| US (1) | US20090070109A1 (zh) |
| EP (1) | EP2198527A4 (zh) |
| JP (1) | JP2011504304A (zh) |
| KR (1) | KR20100065317A (zh) |
| CN (1) | CN101803214A (zh) |
| BR (1) | BRPI0814418A2 (zh) |
| RU (1) | RU2010109071A (zh) |
| WO (1) | WO2009035842A1 (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102541505A (zh) * | 2011-01-04 | 2012-07-04 | 中国移动通信集团公司 | 语音输入方法及其系统 |
| CN104735634A (zh) * | 2013-12-24 | 2015-06-24 | 腾讯科技(深圳)有限公司 | 一种关联支付账号管理方法、移动终端、服务器以及系统 |
| CN105374356A (zh) * | 2014-08-29 | 2016-03-02 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 |
| CN108431889A (zh) * | 2015-11-17 | 2018-08-21 | 优步格拉佩股份有限公司 | 基于文本的消息中的异步语音行为检测 |
| CN109213971A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 庭审笔录的生成方法及装置 |
| CN113490959A (zh) * | 2018-12-23 | 2021-10-08 | 微软技术许可有限责任公司 | 数字图像转录和操纵 |
| CN116057534A (zh) * | 2021-06-15 | 2023-05-02 | 微软技术许可有限责任公司 | 用于自动语音识别(asr)的上下文拼写校正(csc) |
Families Citing this family (168)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US20170169700A9 (en) * | 2005-09-01 | 2017-06-15 | Simplexgrinnell Lp | System and method for emergency message preview and transmission |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| WO2009073768A1 (en) * | 2007-12-04 | 2009-06-11 | Vovision, Llc | Correcting transcribed audio files with an email-client interface |
| GB2451371B (en) | 2006-04-17 | 2011-02-23 | Vovision Llc | Method and systems for correcting transcribed audio files |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
| US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
| US20090234635A1 (en) * | 2007-06-29 | 2009-09-17 | Vipul Bhatt | Voice Entry Controller operative with one or more Translation Resources |
| US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US8856003B2 (en) * | 2008-04-30 | 2014-10-07 | Motorola Solutions, Inc. | Method for dual channel monitoring on a radio device |
| US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8483679B2 (en) * | 2008-09-09 | 2013-07-09 | Avaya Inc. | Sharing of electromagnetic-signal measurements for providing feedback about transmit-path signal quality |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
| EP2427865A4 (en) | 2009-05-05 | 2014-01-08 | Notevault Inc | SYSTEM AND METHOD FOR MULTILINGUAL TRANSLATION SERVICE WITH AUTOMATED NOTIFICATION SERVICES |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8224654B1 (en) | 2010-08-06 | 2012-07-17 | Google Inc. | Editing voice input |
| KR101208166B1 (ko) * | 2010-12-16 | 2012-12-04 | 엔에이치엔(주) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 |
| KR101795574B1 (ko) | 2011-01-06 | 2017-11-13 | 삼성전자주식회사 | 모션에 의해 제어되는 전자기기 및 그 제어 방법 |
| KR101858531B1 (ko) | 2011-01-06 | 2018-05-17 | 삼성전자주식회사 | 모션에 의해 제어되는 디스플레이 장치 및 그 모션 제어 방법 |
| US8489398B1 (en) * | 2011-01-14 | 2013-07-16 | Google Inc. | Disambiguation of spoken proper names |
| US9037459B2 (en) * | 2011-03-14 | 2015-05-19 | Apple Inc. | Selection of text prediction results by an accessory |
| AU2014200860B2 (en) * | 2011-03-14 | 2016-05-26 | Apple Inc. | Selection of text prediction results by an accessory |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8417233B2 (en) | 2011-06-13 | 2013-04-09 | Mercury Mobile, Llc | Automated notation techniques implemented via mobile devices and/or computer networks |
| KR101457116B1 (ko) * | 2011-11-07 | 2014-11-04 | 삼성전자주식회사 | 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법 |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| JP5887253B2 (ja) * | 2012-11-16 | 2016-03-16 | 本田技研工業株式会社 | メッセージ処理装置 |
| JP2016508007A (ja) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | デジタルアシスタントのためのボイストリガ |
| WO2014125356A1 (en) * | 2013-02-13 | 2014-08-21 | Help With Listening | Methodology of improving the understanding of spoken words |
| WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1223708A1 (zh) | 2013-06-09 | 2017-08-04 | Apple Inc. | 用於实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
| US9305551B1 (en) * | 2013-08-06 | 2016-04-05 | Timothy A. Johns | Scribe system for transmitting an audio recording from a recording device to a server |
| KR20150024188A (ko) * | 2013-08-26 | 2015-03-06 | 삼성전자주식회사 | 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치 |
| US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| KR102357321B1 (ko) * | 2014-08-27 | 2022-02-03 | 삼성전자주식회사 | 음성 인식이 가능한 디스플레이 장치 및 방법 |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
| EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
| CA2869245A1 (en) | 2014-10-27 | 2016-04-27 | MYLE Electronics Corp. | Mobile thought catcher system |
| US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
| US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
| US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| CN105869654B (zh) | 2016-03-29 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 音频消息的处理方法及装置 |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
| US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US20180143956A1 (en) * | 2016-11-18 | 2018-05-24 | Microsoft Technology Licensing, Llc | Real-time caption correction by audience |
| US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
| DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
| US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
| US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
| DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
| US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
| US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
| DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
| US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
| US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
| US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
| US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
| US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
| US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
| US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
| US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
| US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
| US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
| US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
| US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
| DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
| DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
| US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
| US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
| US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
| US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
| US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
| US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| US11126794B2 (en) * | 2019-04-11 | 2021-09-21 | Microsoft Technology Licensing, Llc | Targeted rewrites |
| US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
| DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
| US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
| US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
| US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
| DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
| US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
| US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
| US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
| US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
| US11386890B1 (en) * | 2020-02-11 | 2022-07-12 | Amazon Technologies, Inc. | Natural language understanding |
| US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
| US11657803B1 (en) * | 2022-11-02 | 2023-05-23 | Actionpower Corp. | Method for speech recognition by using feedback information |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
| GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
| US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
| US6178403B1 (en) * | 1998-12-16 | 2001-01-23 | Sharp Laboratories Of America, Inc. | Distributed voice capture and recognition system |
| JP3795692B2 (ja) * | 1999-02-12 | 2006-07-12 | マイクロソフト コーポレーション | 文字処理装置および方法 |
| US6259657B1 (en) * | 1999-06-28 | 2001-07-10 | Robert S. Swinney | Dictation system capable of processing audio information at a remote location |
| US6789060B1 (en) * | 1999-11-01 | 2004-09-07 | Gene J. Wolfe | Network based speech transcription that maintains dynamic templates |
| US6532446B1 (en) * | 1999-11-24 | 2003-03-11 | Openwave Systems Inc. | Server based speech recognition user interface for wireless devices |
| US7035804B2 (en) * | 2001-04-26 | 2006-04-25 | Stenograph, L.L.C. | Systems and methods for automated audio transcription, translation, and transfer |
| US6901364B2 (en) * | 2001-09-13 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Focused language models for improved speech input of structured documents |
| KR20030097347A (ko) * | 2002-06-20 | 2003-12-31 | 삼성전자주식회사 | 휴대용 단말기의 음성인식을 이용한 문자메시지 전송 방법 |
| ATE417346T1 (de) * | 2003-03-26 | 2008-12-15 | Koninkl Philips Electronics Nv | Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen |
| TWI232431B (en) * | 2004-01-13 | 2005-05-11 | Benq Corp | Method of speech transformation |
| US7130401B2 (en) * | 2004-03-09 | 2006-10-31 | Discernix, Incorporated | Speech to text conversion system |
| KR100625662B1 (ko) * | 2004-06-30 | 2006-09-20 | 에스케이 텔레콤주식회사 | 메시지 서비스 시스템 및 방법 |
| KR100642577B1 (ko) * | 2004-12-14 | 2006-11-08 | 주식회사 케이티프리텔 | 음성 메시지를 문자 메시지로 변환하여 전송하는 방법 및장치 |
| US7917178B2 (en) * | 2005-03-22 | 2011-03-29 | Sony Ericsson Mobile Communications Ab | Wireless communications device with voice-to-text conversion |
| GB2427500A (en) * | 2005-06-22 | 2006-12-27 | Symbian Software Ltd | Mobile telephone text entry employing remote speech to text conversion |
| CA2527813A1 (en) * | 2005-11-24 | 2007-05-24 | 9160-8083 Quebec Inc. | System, method and computer program for sending an email message from a mobile communication device based on voice input |
| GB2451371B (en) * | 2006-04-17 | 2011-02-23 | Vovision Llc | Method and systems for correcting transcribed audio files |
-
2007
- 2007-09-12 US US11/854,523 patent/US20090070109A1/en not_active Abandoned
-
2008
- 2008-08-25 CN CN200880107047A patent/CN101803214A/zh active Pending
- 2008-08-25 EP EP08798590A patent/EP2198527A4/en not_active Withdrawn
- 2008-08-25 JP JP2010524907A patent/JP2011504304A/ja active Pending
- 2008-08-25 WO PCT/US2008/074164 patent/WO2009035842A1/en not_active Ceased
- 2008-08-25 KR KR1020107004918A patent/KR20100065317A/ko not_active Withdrawn
- 2008-08-25 RU RU2010109071/07A patent/RU2010109071A/ru not_active Application Discontinuation
- 2008-08-25 BR BRPI0814418-4A2A patent/BRPI0814418A2/pt not_active IP Right Cessation
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102541505A (zh) * | 2011-01-04 | 2012-07-04 | 中国移动通信集团公司 | 语音输入方法及其系统 |
| CN104735634A (zh) * | 2013-12-24 | 2015-06-24 | 腾讯科技(深圳)有限公司 | 一种关联支付账号管理方法、移动终端、服务器以及系统 |
| CN105374356A (zh) * | 2014-08-29 | 2016-03-02 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 |
| CN108431889A (zh) * | 2015-11-17 | 2018-08-21 | 优步格拉佩股份有限公司 | 基于文本的消息中的异步语音行为检测 |
| CN109213971A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 庭审笔录的生成方法及装置 |
| CN113490959A (zh) * | 2018-12-23 | 2021-10-08 | 微软技术许可有限责任公司 | 数字图像转录和操纵 |
| CN116057534A (zh) * | 2021-06-15 | 2023-05-02 | 微软技术许可有限责任公司 | 用于自动语音识别(asr)的上下文拼写校正(csc) |
Also Published As
| Publication number | Publication date |
|---|---|
| EP2198527A4 (en) | 2011-09-28 |
| RU2010109071A (ru) | 2011-09-20 |
| WO2009035842A1 (en) | 2009-03-19 |
| US20090070109A1 (en) | 2009-03-12 |
| EP2198527A1 (en) | 2010-06-23 |
| BRPI0814418A2 (pt) | 2015-01-20 |
| KR20100065317A (ko) | 2010-06-16 |
| JP2011504304A (ja) | 2011-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101803214A (zh) | 用于个人通信设备的语音到文本转录 | |
| US7962344B2 (en) | Depicting a speech user interface via graphical elements | |
| CN1329862C (zh) | 便携式装置和信息输入方法 | |
| US8019606B2 (en) | Identification and selection of a software application via speech | |
| CN110110319B (zh) | 语音输入的字词级纠正 | |
| CN1326373C (zh) | 电子邮件的处理系统以及处理装置 | |
| US7818166B2 (en) | Method and apparatus for intention based communications for mobile communication devices | |
| CN102047647B (zh) | 用于将电话通话转录为文本的方法和系统 | |
| CN100580664C (zh) | 用于对消息应用中收到的文本消息编写回复的方法和系统 | |
| US20100299150A1 (en) | Language Translation System | |
| CN101248407B (zh) | 对消息上下文中文本输入的自动语言选择 | |
| US7970841B2 (en) | Converting displayable portions of a text message into images | |
| CN102984666B (zh) | 一种通话过程中的通讯录语音信息处理方法及系统 | |
| CN1791140A (zh) | 便携式信息终端 | |
| JP2006221673A (ja) | 電子メールリーダ | |
| EP1901534A1 (en) | Method of managing a language information for a text input and method of inputting a text and a mobile terminal | |
| JP4891438B2 (ja) | キーパッドテキスト入力の多義性解消 | |
| US20060282583A1 (en) | Phonetic input using a keypad | |
| CN103003874A (zh) | 基于语言属性到联系人条目的分配而提供文本服务 | |
| US8311586B2 (en) | Method of processing information inputted while a mobile communication terminal is in an active communications state | |
| KR101251697B1 (ko) | 다이얼로그 작성 및 실행 프레임워크 | |
| JPH1027141A (ja) | 電子メールシステム | |
| US20230040219A1 (en) | System and method for hands-free multi-lingual online communication | |
| US20060019704A1 (en) | Integrating wireless telephone with external call processor | |
| US20070224972A1 (en) | System and method to reduce key presses for sending messages |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100811 |