CN101803214A

CN101803214A - 用于个人通信设备的语音到文本转录

Info

Publication number: CN101803214A
Application number: CN200880107047A
Authority: CN
Inventors: C·N·迪德库克; T·W·米利特
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2007-09-12
Filing date: 2008-08-25
Publication date: 2010-08-11
Also published as: EP2198527A4; RU2010109071A; WO2009035842A1; US20090070109A1; EP2198527A1; BRPI0814418A2; KR20100065317A; JP2011504304A

Abstract

将用于个人通信设备(PCD)的语音到文本转录系统容纳在通信耦合到一个或多个PCD的通信服务器中。PCD的用户将例如向PCD口述电子邮件。PCD将用户的语音转换成被传送到位于服务器中的语音到文本转录系统的语音信号。语音到文本转录系统将语音信号转录成文本消息。该文本消息随后由服务器传送到PCD。在接收到该文本消息后，用户在各应用中使用该文本消息之前在被错误转录的词上进行纠正。

Description

用于个人通信设备的语音到文本转录

技术领域

本技术领域一般涉及个人通信设备并具体地涉及由服务器资源代表个人通信设备进行的语音到文本转录。

背景

诸如蜂窝电话或个人数字助理(PDA)等个人通信设备的用户受限于使用在尺寸以及功能上受限的键区和其它文本输入机制来输入文本，进而导致很大程度上的不便以及低效率。例如，蜂窝电话的键区通常包含作为多功能键的若干键。具体而言，使用单个键来输入诸如A、B、或C等三个字母之一。个人数字助理(PDA)的键区通过结合其中单独键用于单独字母的QWERYT键盘来提供一些改善。然而，键的微型尺寸被证明为对某些用户是不便的且对其它人是严重的阻碍。

作为这些阻碍的结果，介绍了用于将信息输入到个人通信设备中的各种替换解决方案。例如，将语音识别系统嵌入到蜂窝电话以启用经由语音的输入。此方法提供了某些好处，如使用口头命令来拨打电话号码。然而，由于涉及成本和移动设备中的硬件/软件限制的各种因素，其不能满足诸如电子邮件文本输入等更复杂的任务的需要。

概述

提供本概述以便以简化的形式介绍将在以下说明性实施例的详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。

在一个用于生成文本的示例性方法中，通过将电子邮件的一部分读到例如个人通信设备(PCD)中来创建语音信号。将所生成的语音信号传送到服务器。该服务器容纳语音到文本转录系统，该系统将语音信号转录成被返回给PCD的文本消息。在PCD上编辑该文本消息以纠正任何转录错误并随后将其用于各种应用。在一个示例性应用中，以电子邮件格式将所编辑的文本传送给电子邮件接收者。

在用于生成文本的另一示例性方法中，在服务器中接收由PCD生成的语音信号。通过使用位于该服务器中的语音到文本转录系统将语音信号转录成文本消息。随后将该文本消息传送到PCD。此外，在一个其它示例中，转录过程包括生成用于说出的词的语音识别的备择候选的列表。此备择候选的列表与被转录的词一起由服务器传送到PCD。

附图简述

以上概述以及以下详细描述在结合附图阅读时可被更好地理解。出于说明用于个人通信设备的语音到文本转录的目的，在附图中示出了其示例性构造；然而，用于个人通信设备的语音到文本转录不限于所公开的具体方法和手段。

图1示出结合用于个人通信设备的语音到文本转录系统的示例性通信系统100。

图2示出用于使用语音到文本转录来生成文本的步骤的示例性序列，该方法在图1的通信系统上实现。

图3是用于实现用于个人通信设备的语音到文本转录的示例性处理器的图示。

图4是其中可实现用于个人通信设备的语音到文本转录的合适计算环境的描绘。

说明性实施例的详细描述

在下文所述的各示例性实施例中，用于个人通信设备的语音到文本转录系统被容纳在通信耦合到一个或多个移动设备的通信服务器中。不同于被容纳在移动设备中的语音识别系统，由于服务器中广泛的可用性、成本有效的存储容量和计算能力，位于服务器中的语音到文本转录系统是具有丰富特征且高效的。在此处被称为个人通信设备(PCD)的移动设备的用户将例如电子邮件的音频口述到PCD中。PCD将用户的语音转换成被传送到位于服务器中的语音到文本转录系统的语音信号。语音到文本转录系统通过使用语音识别技术将语音信号转录成文本消息。该文本消息随后由服务器传送到PCD。在接收到该文本消息后，用户在利用文本的各应用中使用该文本消息之前对被错误转录的词进行纠正。

在一示例性应用中，所编辑的文本消息用于形成例如随后被发送给电子邮件接收者的电子邮件的正文部分。在一替换应用中，在诸如Microsoft WORD^TM等实用程序中使用所编辑的文本消息。在又一应用中，将所编辑的文本插入到备忘录中。其中使用文本的这些和其它此类示例将被本领域的普通技术人员理解，因此，本发明的范围旨在涵盖所有此类区域。

上文所述的安排提供若干优点。例如，位于服务器中的语音到文本转录系统结合成本有效语音识别系统，该系统与被容纳在PCD内的更受限的语音识别系统相比提供较高的词识别准确性(通常在中到高90％范围中)。

此外，使用PCD的键区以编辑由语音到文本转录生成的文本消息中的几个不正确的词与通过手动按下PCD的键区上的键对输入电子邮件消息的整个文本相比是更高效且更优选的。使用良好的语音到文本转录系统的情况下，不正确的词通常将少于所转录的文本消息中的词总数的10％。

图1示出结合容纳在位于蜂窝基站120中的服务器125中的语音到文本转录系统130的示例性通信系统100。如在本领域中公知的，蜂窝基站120向各PCD提供蜂窝通信服务。出于访问语音到文本转录系统130的目的，这些PCD中的每一个在按需基础上或在连续基础上通信耦合到服务器125。

PCD的几个非穷尽性示例包括作为智能电话的PCD 105、作为个人数字助理(PDA)的PCD 110、以及作为具有文本输入工具的蜂窝电话的PCD 115。PCD 105(智能电话)结合蜂窝电话与计算机，进而提供语音以及包括电子邮件的数据通信特征。PCD 110(PDA)结合用于数据通信的计算机、用于语音通信的蜂窝电话、以及用于存储诸如地址、约会、日历、以及备忘录等个人信息的数据库。PCD 115(蜂窝电话)提供语音通信以及诸如短消息服务(SMS)等特定文本输入工具。

在一个具体示例性实施例中，除容纳语音到文本转录系统130之外，蜂窝基站120还包括向各PCD提供电子邮件服务的电子邮件服务器145。蜂窝基站120还通信耦合到诸如公共交换电话网中心局(PSTN CO)140等其它网络元素，且可任选地通信耦合到因特网服务供应商(ISP)150。蜂窝基站120、电子邮件服务器145、ISP 150、以及PSTN CO 140的操作的细节将不在此处提供以将焦点保持在用于PCD的语音到文本转录系统的相关方面上，而避免由对本领域的普通技术人员公知的主题引起的任何注意力转移。在一示例配置中，ISP 150耦合到包括用于处理电子邮件和转录功能的电子邮件服务器162和语音到文本转录系统130的企业152。

可将语音到文本转录系统130容纳在通信网络100中的若干替换位置。例如，在第一示例性实施例中，将语音到文本转录系统130容纳在位于蜂窝基站120中的辅助服务器135中。辅助服务器135通信耦合到服务器125，该服务器125在此配置中作为主要服务器操作。在第二示例性实施例中，将语音到文本转录系统130容纳在位于PSTN CO 140中的服务器155中。在第三示例性实施例中，将语音到文本转录系统130容纳在位于ISP 150的工具中的服务器160中。

通常，如上所述，语音到文本转录系统130包括语音识别系统。语音识别系统可以是独立于说话者的系统或依赖于说话者的系统。在依赖于说话者时，语音到文本转录系统130包括其中提示PCD用户以个别词的形式或以指定段落的形式来说出若干词的训练特征。将这些词作为词的定制模板存储以供由此PCD用户使用。此外，语音到文本转录系统130还可按与每一各个PCD用户相关联的一个或多个数据库的形式包括以下各项中的一个或多个：用户偏好并常说的词汇表词的定制列表、由用户使用的电子邮件地址的列表、以及具有用户的一个或多个联系人的个人信息的联系人列表。

图2示出用于使用语音到文本转录来生成文本的步骤的示例性序列，该方法在通信系统100上实现。在此具体示例中，语音到文本转录用于经由电子邮件服务器145传送电子邮件。位于蜂窝基站120中的服务器125包含语音到文本转录系统130。代替使用两个单独的服务器，可任选地使用单个集成服务器210以结合服务器125以及电子邮件服务器145的功能。结果，在此类配置中，集成服务器210通过使用共享资源来执行与语音到文本转录以及电子邮件服务相关联的操作。

可任选步骤的序列开始于步骤1，其中PCD用户向PCD 105口述电子邮件。该口述音频可以是关于电子邮件的若干替换材料之一。此类材料的几个非穷尽性示例包括：电子邮件的正文的一部分、电子邮件的正文全体、主题行文本、以及一个或多个电子邮件地址。该口述音频在PCD 105中被转换成电子语音信号、被合适地编码以供无线传送、并随后被传送到蜂窝基站120，在那里将该电子语音信号路由到语音到文本转录系统130。

通常可包括语音识别系统(未示出)和文本生成器(未示出)的语音到文本转录系统130将语音信号转录成文本数据。合适地编码该文本数据以供无线传送并在步骤2将其传送回到PCD 105。步骤2可按自动过程来实现，其中在没有由PCD 105的用户执行的任何动作的情况下文本消息被自动发送到PCD105。在替换过程中，PCD用户必须通过激活特定键来手动操作PCD 105以例如将文本消息从语音到文本转录系统130下载到PCD 105中。不向PCD 105传送该文本消息，直到此下载请求由PCD用户作出。

在步骤3，PCD用户编辑文本消息并适当地将其格式化成电子邮件消息。一旦电子邮件被适当地格式化，在步骤4，PCD用户即激活电子邮件“发送”按钮且该电子邮件被无线地传送到电子邮件服务器145，从电子邮件服务器145电子邮件耦合到因特网(未示出)以供转发到合适的电子邮件接收者。

使用作为示例的若干替换操作模式，上述四个步骤现在将以更一般的方式(不限于电子邮件)更详细地描述。

延迟传送模式

在此操作模式中，PCD用户阐述需要从语音转录成文本的材料。将所阐述的文本存储在PCD中的合适存储缓冲区中。这可例如通过使用用于数字化说话者的语音的模拟到数字编码器，之后将数字化数据存储在数字存储器芯片中来执行。执行数字化和存储过程直到PCD用户完成阐述整个材料。在此任务完成后，PCD用户激活PCD上的“转录”键以在用于无线传送的合适格式化之后将数字化数据按数据信号的形式传送到蜂窝基站120。可将转录键实现为硬键或软键，软键例如以图标的形式在PCD的显示器上显示。

零碎传送模式

在此操作模式中，PCD用户阐述以数据形式从PCD 105频繁并周期性地传送到蜂窝基站120的材料。例如，只要PCD用户在其对PCD说话期间暂停，就可将所阐述的材料作为语音信号的一部分来传送。此类暂停可发生在例如句子的结尾处。甚至在PCD用户正在说下一句子时，语音到文本转录系统130也可转录此语音信号的特定部分并返回对应文本消息。因此，转录过程在此零碎传送模式中可执行得比在其中用户必须完全完成说出整个材料的延迟传送模式中快。

在一个替换实现中，可选择性地将零碎传送模式与延迟传送模式结合。在此类组合模式中，在PCD 105中的间断传送之前，使用临时缓冲存储来存储所阐述的材料的特定部分(例如大于一句子)。此类实现所需的缓冲存储与用于其中必须在传送之前存储整个材料的延迟传送模式相比更节制。

实况传送模式

在此操作模式中，PCD用户激活PCD上的“转录请求”键。可将转录请求键实现为硬键或软键，软键例如以图标的形式在PCD的显示器上显示。在激活此键后，使用例如以传输控制格式(TCP/IP)嵌入的网际协议(IP)数据在PCD 105与服务器125(其容纳语音到文本转录系统130)之间设置通信链接。被称为分组传送链接的此类通信链接在本领域中公知且通常用于传输因特网相关的数据分组。在示例实施例中，在激活转录请求键后，代替IP呼叫，经由蜂窝基站120向服务器125提供诸如电路交换呼叫(例如，标准电话呼叫)等电话呼叫。

分组传送链接由服务器105使用以向PCD 105确认服务器125准备好从PCD 105接收IP数据分组。携带根据由用户阐述的材料数字化的数字数据的IP数据分组在服务器125被接收并在耦合到语音到文本转录系统130以转录之前被合适地解码。可按延迟传送模式或零碎传送模式向PCD传播被转录的文本消息(同样以IP数据分组的形式)。

语音到文本转录

如上所述，通常通过使用语音识别系统在语音到文本转录系统130中执行语音到文本转录。在用于语音识别的备择候选存在时，语音识别系统通过委托若干备择候选中的每一个的置信度因素来识别各个词。例如，说出的词“taut(拉紧)”可具有诸如“taught(教)”、“thought(想)”、“tote(拉)”、以及“taut”等用于语音识别的若干备择候选。语音识别系统将这些备择候选中的每一个与识别准确性的置信度因素相关联。在此具体示例中，taught、thought、tote、以及taut的置信度因素分别可以是75％、50％、25％、以及10％。语音识别系统选择具有最高置信度因素的候选并将此候选用于将说出的词转录成文本。因此，在此示例中，语音到文本转录系统130将说出的词“taut”转录成文本词“taught”。

在图2的步骤2作为被转录的文本的一部分从蜂窝基站105被传送到PCD105的该被转录的词显然是不正确的。在一个示例性应用中，PCD用户在其PCD105上观察到该出错的词并通过删除“taught”并以“taut”替换它来手动地编辑该词，这在此实例中通过在PCD 105的键盘上键入词“taut”来执行。在另一示例性应用中，备择候选词(thought、tote、以及taut)中的一个或多个由语音到文本转录系统130链接到被转录的词“taught”。在此第二种情况下，PCD用户观察到出错的词并从菜单中选择备择候选词而不是手动地键入替换词。可例如通过将光标放置在被不正确地转录的词“taught”上来将菜单作为下拉菜单显示。在将光标放置在被转录的词上时可自动地显示备择词，或其可通过在将光标放置在被不正确转录的词上之后激活PCD 105的合适硬键或软键来显示。在一示例实施例中，可自动显示词(短语)的备择序列，且用户可选择合适的短语。例如，在选择词“taught”后，可显示短语“Rob taught”、“rope(绳子)taught”、“Rob taut”、以及“rope taut”，且用户可选择合适的短语。在又一示例实施例中，合适的短语可根据置信度水平自动显示或从显示中消去。例如，基于英语使用的一般模式，系统可能对短语“Rob taut”和“rope taught”是正确的具有低置信度，并可避免显示这些短语。在其它示例实施例中，系统可从之前的选择学习。例如，系统可学习字典词、字典短语、联系人名称、电话号码等。此外，可基于之前的行为来预测文本。例如，系统可“听到”之后是混淆语音的以“42”开始的电话号码。基于系统中的之前信息(例如，所学习的信息或种子信息)，该系统可推断该区域码是425。因此，可显示具有425的号码的各种组合。例如，可显示“425-XXX-XXXX”。可显示该区域和前缀的各种组合。例如，如果存储在系统中具有425区域码的仅有的号码具有707或606前缀，则可显示“425-707-XXXX”和“425-606-XXXX”。随着用户选择所显示的号码之一，可显示额外号码。例如，如果选择了“425-606-XXXX”，则可显示以425-606开始的所有号码。

作为对上文所述的菜单驱动纠正特征的补充和替换，语音到文本转录系统130可通过以特定方式(例如，通过以红线对有疑问的词加下划线、或通过以红色对有疑问的词的文本着色)突出显示有疑问地转录的的词来提供词纠正工具。在替换示例实施例中，PCD可通过以特定方式(例如，通过以红线对有有疑问的词加下划线、或通过以红色对有疑问的词的文本着色)突出显示有疑问地转录的词来提供词纠正工具。

上文所述的纠正过程还可用于生成词汇词的定制列表或用于创建定制词的字典。可将定制列表和字典中的任一或两者存储在语音到文本转录系统130和PCD 105中的任一或两者中。词汇表词的定制列表可用于存储对具体用户唯一的某些词。例如，此类词可包括个人的名字或外语词。可在例如PCD用户指示某一被转录的词必须在未来被由该PCD用户提供的替换词自动纠正时创建定制字典。

图3是用于实现语音到文本转录130的示例性处理器300的图示。处理器300包括处理部分305、存储器部分350和输入/输出部分360。处理部分305、存储器部分350和输入/输出部分360被耦合在一起(耦合未在图3中示出)以允许它们之间的通信。输入/输出部分360能够提供和/或接收用于执行如上所述的语音到文本转录的组件。例如，输入/输出部分360能够提供蜂窝基站与语音到文本转录130之间的通信耦合和/或服务器与语音到文本转录130之间的通信耦合。

处理器300可被实现为客户机处理器、服务器处理器、和/或分布式处理器。在一基本配置中，处理器300可包括至少一个处理部分305和存储器部分350。存储器部分350可存储结合语音到文本转录使用的任何信息。取决于处理器的精确配置和类型，存储器部分350可以是易失性的(如RAM)325、非易失性的(如ROM、闪存等)330、或其组合。处理器300可以具有附加特征/功能。例如，处理器300可以包括附加存储(可移动存储310和/或不可移动存储320)，包括但不限于，磁盘或光盘、磁带、闪存、智能卡或其组合。诸如存储器部分310、320、325、以及330等计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、兼容通用串行总线(USB)的存储器、智能卡、或能用于存储所需信息且可以由处理器300访问的任何其它介质。任何这样的计算机存储介质都可以是处理器300的一部分。

处理器300还可包含允许处理器300与诸如例如其它调制解调器等其它设备进行通信的通信连接345。通信连接345是通信介质的一个示例。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，且包含任何信息传递介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。处理器300也可具有输入设备340，诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可包括输出设备335，如显示器、扬声器、打印机等。

虽然在图3中被示为一个集成框，应该理解，处理器300可被实现为具有例如被作为多中央处理单元(CPU)实现的处理部分305的分布式单元。在一个此类实现中，处理器300的第一部分可位于PCD 105中，第二部分可位于语音到文本转录系统130中，而第三部分可位于服务器125中。各部分被配置成实现与用于PCD的语音到文本转录相关联的各种功能。第一部分可用于例如在PCD 105上提供下拉菜单显示并在PCD 105的显示上提供诸如“转录”键和“转录请求”键等特定软键。第二部分可用于例如执行语音识别并用于将替换候选附连到被转录的词。第三部分可用于例如将位于服务器125中的调制解调器耦合到语音到文本转录系统130。

图4和以下讨论提供其中可实现用于个人通信设备的语音到文本转录的合适计算环境的简要概括描述。虽然不是必需，但语音到文本转录的各方面能在诸如由客户机工作站或服务器等计算机上执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此外，用于个人通信设备的语音到文本转录的实现可用其它计算机系统配置来实施，包括手持设备、多处理器系统、基于微处理器的系统或可编程消费电子设备、网络PC、小型机、大型计算机等。此外，用于个人通信设备的语音到文本转录也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

计算机系统可被大致分为三个组件组：硬件组件、硬件/软件接口系统组件、以及应用程序组件(也被称为“用户组件”或“软件组件”)。在计算机系统的各实施例中，硬件组件可包括中央处理单元(CPU)421；存储器(ROM464和RAM 425两者)；基本输入/输出系统(BIOS)466；以及诸如键盘440、鼠标442、监视器447和/或打印机(未示出)等各种输入/输出(I/O)设备。硬件组件包括计算机系统的基本物理基础结构。

应用程序组件包括各种软件程序，包括但不限于编译器、数据库系统、文字处理程序、业务程序、视频游戏等。应用程序提供用于利用计算机资源来解决问题、提供解决方案、及处理各种用户(机器、其它计算机系统和/或最终用户)的数据的手段。在一示例实施例中，如上所述，应用程序执行与用于个人通信设备的语音到文本转录相关联的功能。

硬件/软件接口系统组件包括(并且在某些实施例中只包括)操作系统，其本身在大多数情况下包括外壳和内核。“操作系统”(OS)是担当应用程序和计算机硬件之间的中介的特殊程序。硬件/软件接口系统组件还可以包括虚拟机管理器(VMM)、公共语言运行库(CLR)或其功能等效物、Java虚拟机(JVM)或其功能等效物、或者作为对计算机系统中的操作系统的替换或补充的其它这样的软件组件。硬件/软件接口系统的目的在于提供用户可在其中执行应用程序的环境。

硬件/软件接口系统通常在启动时被加载到计算机系统中，并且之后管理计算机系统中的所有应用程序。应用程序通过经由应用程序接口(API)请求服务来与硬件/软件接口系统交互。某些应用程序使得最终用户能够经由诸如命令语言或图形用户界面(GUI)等用户界面来与硬件/软件接口系统交互。

硬件/软件接口系统传统上执行用于应用程序的各种服务。在其中多个程序可同时运行的多任务硬件/软件接口系统中，硬件/软件接口系统确定各应用程序应该以何种次序运行以及在为轮换而切换至另一应用程序之前应该允许每一个应用程序多长时间。硬件/软件接口系统还管理多个应用程序之间的内部存储器的共享，并且处理来自诸如硬盘、打印机和拨号端口等附连硬件设备的输入以及对其的输出。硬件/软件接口系统还将关于操作的状态和可能已发生的任何错误的消息发送给每一个应用程序(并且在某些情况下发送给最终用户)。硬件/软件接口系统还可卸载批作业(例如，打印)的管理以使得启动应用程序免除该工作并能够继续执行其它处理和/或操作。在能提供并行处理的计算机上，硬件/软件接口系统还管理划分程序以使其同时在多于一个的处理器上运行。

硬件/软件接口系统外壳(被称为“外壳”)是对硬件/软件接口系统的交互式最终用户接口。(外壳也称为“命令解释程序”，或在操作系统中被称为“操作系统外壳”)。外壳是可直接由应用程序和/或最终用户访问的硬件/软件接口系统的外层。与外壳相反，内核是直接与硬件组件交互的硬件/软件接口系统的最内层。

如图4所示，示例性通用计算系统包括常规计算设备460等，其包括中央处理单元421、系统存储器462和将包括系统存储器的各种系统组件耦合到处理单元421的系统总线423。系统总线423可以是几种类型的总线结构中的任何一种，包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。系统存储器包括只读存储器(ROM)464和随机存取存储器(RAM)425。基本输入/输出系统(BIOS)466被存储在ROM 464中，它包含帮助在诸如启动期间在计算设备460内的元件之间传递信息的基本例程。计算设备460还可包括对硬盘(硬盘未示出)读写的硬盘驱动器427、对可移动磁盘429(例如，软盘、移动存储)读写的磁盘驱动器428(例如，软盘驱动器)、以及对诸如CD-ROM或其它光学介质等可移动光盘431读写的光盘驱动器430。硬盘驱动器427、磁盘驱动器428和光盘驱动器430分别通过硬盘驱动器接口432、磁盘驱动器接口433和光盘驱动器接口434来连接到系统总线423。驱动器及其相关联的计算机可读介质为计算设备460提供了对计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。虽然此处所描述的示例性环境采用了硬盘、可移动磁盘429和可移动光盘431，但本领域的技术人员可以理解，在示例性操作环境中也可以使用可储存可由计算机访问的数据的其它类型的计算机可读介质，如磁带盒、闪存卡、数字视频盘、贝努利盒式磁带、随机存取存储器(RAM)、只读存储器(ROM)等等。同样，示例性环境还可包括诸如热传感器和安全或火警系统等许多类型的监控设备，以及其它信息源。

多个程序模块可被储存在硬盘427、磁盘429、光盘431、ROM 464、或RAM 425上，包括操作系统435、一个或多个应用程序436、其它程序模块437、以及程序数据438。用户可通过诸如键盘440和定点设备442(例如，鼠标)等输入设备将命令和信息输入到计算设备460中。其它输入设备(未示出)可以包括话筒、操纵杆、游戏键盘、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的串行端口接口446连接至处理单元421，但也可以由其它接口，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器447或其它类型的显示设备也经由接口，诸如视频适配器448连接至系统总线423。除监视器447之外，计算机通常包括其它外围输出设备(未示出)，诸如扬声器或打印机等。图4的示例性环境还包括主机适配器455、小型计算机系统接口(SCSI)总线456和连接到SCSI总线456的外部存储设备462。

计算设备460可使用至诸如远程计算机449等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机449可以是另一计算设备(例如，个人计算机)、服务器、路由器、网络PC、对等设备或其它常见的网络节点，且通常包括上文相对于计算设备460描述的许多或所有元件，尽管在图4中只示出了存储器存储设备450(软盘驱动器)。图4所描绘的逻辑连接包括局域网(LAN)451和广域网(WAN)452。这样的网络环境常见于办公室、企业范围计算机网络、内联网和因特网。

当在LAN联网环境中使用时，计算设备460通过网络接口或适配器453连接至LAN 451。当在WAN联网环境中使用时，计算设备460可包括调制解调器454或用于通过诸如因特网等广域网452来建立通信的其它装置。或为内置或为外置的调制解调器454经由串行端口接口446连接到系统总线423。在网络化环境中，相对于计算设备460描绘的程序模块或其部分可被储存在远程存储器存储设备中。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其它手段。

虽然可以想像用于个人通信设备的语音到文本转录的多个实施例尤其适用于计算机化系统，然而在本说明中不旨在将用于个人通信设备的语音到文本转录限于此类实施例。相反，此处所使用的术语“计算机系统”旨在包括能够存储和处理信息和/或能够使用所存储的信息来控制设备本身的行为或执行的任何及所有设备，而不管那些设备本质上是否为电子的、机械的、逻辑的、或虚拟的。

此处所述的各种技术可结合硬件或软件，或在适当时以其组合来实现。因此，用于实现用于个人通信设备的语音到文本转录的方法和装置或其某些方面或部分，可以采取包含在诸如软盘、CD-ROM、硬盘驱动器或任何其它机器可读存储介质等有形介质中的程序代码(即，指令)的形式，其中，当程序代码被加载至诸如计算机等机器并由其运行时，该机器成为用于实现用于个人通信设备的语音到文本转录的装置。

如果需要，程序可以用汇编语言或机器语言来实现。在任何情况下，语言可以是编译的或解释的语言，且与硬件实现相结合。用于实现用于个人通信设备的语音到文本转录的方法和装置也可以经由以通过某种传输介质传输的程序代码的形式体现的通信来实现，传输介质比如通过电线或电缆、通过光纤或经由任何其它传输形式，其中，当程序代码由诸如EPROM、门阵列、可编程逻辑器件(PLD)、客户计算机等机器接收、加载并执行时。当在通用处理器上实现时，程序代码与处理器相结合来提供一种用于调用用于个人通信设备的语音到文本转录的功能的独特装置。另外，结合用于个人通信设备的语音到文本转录所使用的任何存储技术总是可以是硬件和软件的组合。

尽管结合各附图的示例实施例描述了用于个人通信设备的语音到文本转录，但是可以理解，可以使用其它类似的实施例，或可以对所述实施例进行修改或添加来执行用于个人通信设备的语音到文本转录的相同功能而不背离用于个人通信设备的语音到文本转录。因此，此处所述的用于个人通信设备的语音到文本转录不应限于任何单个实施例，而是应该根据所附权利要求书的广度和范围来解释。

Claims

1.一种用于生成文本的方法，包括：

通过对个人通信设备(105)说话生成语音信号；

传送所生成的语音信号；以及

在所述个人通信设备(105)中响应于所述传送接收文本消息，所述文本消息是通过使用位于所述个人通信设备(105)外部的语音到文本转录系统(130)转录所述语音信号来生成的。

2.如权利要求1所述的方法，其特征在于，所述语音信号是作为说出电子邮件、主题行文本、或电子邮件消息的正文的至少一部分中的至少一个的结果而生成的。

3.如权利要求1所述的方法，其特征在于：

生成所述语音信号包括将所述语音信号的至少一部分存储在所述个人通信设备中；以及

传送所生成的语音信号包括在所述个人通信设备上按下按钮以按延迟传送模式来传送所存储的语音信号。

4.如权利要求1所述的方法，其特征在于：

生成所述语音信号包括在所述个人通信设备上按下按钮以请求转录；以及

传送所生成的语音信号包括：

在所述个人通信设备处接收确认；以及

按实况传送模式来传送所述语音信号。

5.如权利要求1所述的方法，其特征在于，传送所生成的语音信号包括按零碎传送模式来传送所述语音信号。

6.如权利要求1所述的方法，其特征在于，传送所生成的语音信号包括以下至少其中之一：

按数字格式传送所述语音信号；或

将所述语音信号作为电话呼叫传送。

7.如权利要求6所述的方法，其特征在于，所述数字格式包括网际协议(IP)数字格式。

8.如权利要求1所述的方法，其特征在于，还包括：

编辑所述文本消息；以及

按电子邮件格式传送所述文本消息。

9.如权利要求8所述的方法，其特征在于，编辑所述文本消息包括：

使用备择词替换所述文本消息中的至少一个词，所述替换通过手动键入所述备择词或从由所述语音到文本转录系统提供的备择词的菜单中选择所述备择词中来执行。

10.一种用于生成文本的方法，包括：

在第一服务器(210)中接收由个人通信设备(105)生成的语音信号；

通过使用位于第二服务器(125)的语音到文本转录系统(130)将所接收的语音信号转录成文本消息；以及

将所生成的文本消息传送到所述个人通信设备(105)。

11.如权利要求10所述的方法，其特征在于，所述第一服务器与所述第二服务器相同。

12.如权利要求10所述的方法，其特征在于，还包括：

在所述第一服务器中接收来自所述个人通信设备的转录请求；以及

响应于所述转录请求设置所述第一服务器与所述个人通信设备之间的数据分组通信链接以用于按数字数据分组的形式将所述语音信号从所述个人通信设备传输到所述第一服务器。

13.如权利要求10所述的方法，其特征在于，使用语音到文本转录系统包括：

生成用于说出的词的语音识别的备择候选的列表，其中每一备择候选具有识别准确性的关联置信度因素。

14.如权利要求13所述的方法，其特征在于，还包括：

从所述第一服务器向所述个人通信设备以链接到被转录的词的下拉菜单格式传送所述备择候选的列表。

15.一种具有存储在其上的计算机可读指令的计算机可读存储介质，所述计算机可读指令用于执行以下步骤：

将服务器(210、215)通信耦合到个人通信设备(105)

在所述服务器(210、215)中接收在所述个人通信设备(105)中生成的语音信号；

通过使用位于所述服务器(210、125)中的语音到文本转录系统(130)将所接收的语音信号转录成文本消息；以及

将所生成的文本消息传送到所述个人通信设备(105)。

16.如权利要求15所述的计算机可读介质，其特征在于，使用所述语音到文本转录系统包括：

生成用于说出的词的语音识别的备择候选的列表，其中每一备择候选具有

识别准确性的关联置信度因素；

通过使用具有最高置信度因素的所述备择候选之一来从所述说出的词创建被转录的词；以及

将所述备择候选的列表追加到所转录的词。

17.如权利要求16所述的计算机可读介质，其特征在于，将所生成的文本消息传送到所述个人通信设备包括将所转录的词与所追加的备择候选的列表一起传送到所述个人通信设备。

18.如权利要求17所述的计算机可读介质，其特征在于，将所述备择候选的列表按下拉菜单格式追加到所转录的词。

19.如权利要求15所述的计算机可读介质，其特征在于，还包括生成包含偏好词汇表或一组语音识别训练词中的至少一个的数据库。

20.如权利要求19所述的计算机可读介质，其特征在于，还包括用于执行以下步骤的计算机可读指令：

在所述个人通信设备中编辑所生成的文本消息；以及

按电子邮件格式从所述个人通信设备传送所述文本消息。