CN107660303A

CN107660303A - 使用远程源对本地语音识别系统的语言模型修改

Info

Publication number: CN107660303A
Application number: CN201680030321.3A
Authority: CN
Inventors: M·戴舍尔; G·施特默尔
Original assignee: Intel Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2015-06-26
Filing date: 2016-05-20
Publication date: 2018-02-02
Anticipated expiration: 2036-05-20
Also published as: US20160379626A1; CN107660303B; US10325590B2; WO2016209444A1

Abstract

使用远程语音识别源修改本地语音识别系统的语言模型。在一个示例中，接收语音话语。将语音话语发送给至少一个远程语音识别系统。从远程语音识别系统接收与话语相对应的文本结果。使用本地词汇表来生成本地文本结果。将接收到的文本结果和所生成的文本结果相比较以确定在本地词汇表之外的词语，并且使用词汇表外词语来更新本地词汇表。

Description

使用远程源对本地语音识别系统的语言模型修改

领域

本说明书涉及用于连接的设备的语音识别，且具体地涉及使用本地和远程资源两者的语音识别。

背景

蜂窝电话和机动车已经长久提供了语音识别系统以用于免手操作、导航、以及控制娱乐系统。这些系统遭受理解多种语言、方言、词汇表、以及发音风格的困难。不良发音(diction)和背景噪声使得语音识别愈加困难。一些设备通过只识别几个语句而操作良好。在一些情形中，可能语句的列表被系统显示在屏幕上或可听地朗诵给用户。用户说出这些语句之一并随后设备重复该语句以供确认。

随着用于智能电话的数据连通性和物联网的出现，耦合到大量数据库的大型且强大的服务器可用于连接的设备。这允许针对更多语言和更多词语的好得多的识别。较新产品允许用户不仅向他们的智能电话、电视机、以及游戏控制台讲话，还向手表、健康传感器、眼镜以及其他便携式和可穿戴设备讲话。

随着手持式和可穿戴通信设备的使用以及种类的增加，语音理解和音频质量已变得日益重要。许多手持式和可穿戴设备接收语音和其他音频并将捕获到的音频发送给远程服务器。远程服务器将该语音转换成文本或命令并将它发送回连接的设备。这允许该语音被用于语音命令。云语音识别系统被设计成提供与用户的声学、词汇表、和语法无关的良好准确性。在云中实现的系统可以使用非常大的声学和语言模型来满足这一目标，并且可以频繁地更新模型。

附图说明

各实施例作为示例而非限制在所附附图中示出，在附图中，同样的参考编号指代同样的元件。

图1是根据一实施例的具有对远程资源的接入的连接的设备的系统的框图。

图2是根据一实施例的图1的连接的设备的操作的框图。

图3是根据一实施例的识别语音并更新本地语音识别系统的过程流程图。

图4是根据一实施例的在本地语音识别系统处标识词汇表外词语的过程流程图。

图5是根据一实施例的在本地语音识别系统处标识词汇表外词语的替换方案的过程流程图。

图6是根据一实施例的包括语音识别和本地语音识别增强的计算设备的框图。

详细描述

尽管有远程连接的可用性，但基于服务器的自动语音识别系统具有至少四个缺点。第一，网络可能不总是可用。第二，网络无线电装置(诸如Wi-Fi或蜂窝)使用功率，从而降低便携式设备的电池寿命。第三，一些用户可能出于隐私原因而想要避免向服务器发送文本、命令、日历以及联系人信息。第四，介入双向通信和服务器处理可能减慢用户界面。然而，在该设备没有使用强大的服务器系统时，语音识别用户体验被降级。这是因为客户端设备上的有限本地资源。这包括有限客户端处理能力和存储器限制。

云语音识别系统可以使用非常大的声学和语言模型，频繁地更新模型。具有大型客户端数据库的大型服务器系统还可使用预测系统来在语音话语完成之前开始处理它。非常常见的问题可被非常快速地回答。即使不常见的问题花费较长时间，用户体验通常也被改进。对于客户端系统，向讲单种语言和方言且具有类似发音和措辞风格的单个用户提供良好准确度通常就足够了。这一降低的多样性允许使用较小量的存储器来构造紧凑客户端模型，与云中的大型用户无关的模型相比，该紧凑客户端模型对于单个或几个用户执行得同样好或更好。甚至在设备具有多个用户时，因为他们通常因地理位置、工作场所、或家庭而相关，所以客户端模型仍然可保持非常小。

“云”中的一个或多个ASR(自动语音识别)系统可被使用来改进客户端语音识别系统的准确度。云语音识别可以与客户端语音识别并行地完成，并且结果可被比较。客户端设备的词汇表外(OOV)词语可由云ASR标识并添加到客户端词典。这可使用动态词汇表机制或使用机会主义式模型重建来完成。

客户端系统可通过置信度机制来进一步增强。响应于云识别结果的用户行为可被使用来估计特定云语音识别系统的准确度的置信度。客户端设备的本地语言模型n元频率或神经网络权重可被更新以反映高置信度用户话语。另外，语言模型可基于这些经更新的权重被修剪和生长。这允许本地存储器越来越好地针对设备的实际用户来定制。语言模型随后可保持在客户端设备的存储器大小约束内。另外，本地处理器能够使用更紧凑和相关的语言模型来提供更快结果。

图1是其中各种不同用户设备通过云与各种服务器和服务提供者进行通信的连接的设备系统的示图。在客户端设备侧，存在可穿戴设备，诸如眼镜或头戴式装置102，手表104，鞋、皮带或其他衣物106中的可穿戴健康传感器，计算平板108，以及便携式手持机110(诸如智能电话、导航设备、健康设备，等等)。客户端侧还可包括媒体播放器、电视机、机顶盒、游戏设备、计算机、工作站以及其他设备。这些设备全部可使用本地联网系统(诸如Wi-Fi、蓝牙、或另一有线或无线协议)彼此通信(如箭头所暗示的)。各设备还通过更广域网络112(诸如，WAN(广域网)、MAN(城域网)、LAN(局域网)、因特网或任何其他合适的通信系统)直接通信或通过这些设备中的另一者来通信。

在服务侧，可存在一个或多个自动语音识别系统122、124、126或其他类似语音识别和命令系统。还可存在多个服务提供者128。这些服务提供者可通过买票或其他物品、更新基于云或本地设备调度、日历或其他存储系统、将通信发送给其他用户、以及以其他方式来服务。

图2是与一个或多个ASR或类似服务合作的图1的客户端设备中的任何一者或多者的操作的示图。在图2的示例中，客户端设备具有话筒202。话筒接收来自用户(未示出)的话语。通常，话筒将话语转换成数字形式传输到其他设备并通过网络传输，然而这不是必需的。存在从话筒到客户端应用206的直接路径204。这一路径可以在单个客户端设备内，例如从头戴式装置或手表上的内置话筒到同一设备上的处理器，或者它可以从一个客户端设备到另一个客户端设备。客户端应用206访问客户端设备自动语音识别(ASR)系统208以分析该话语。ASR可以是客户端应用206的一部分或者它可以是使用应用编程接口、操作系统调用、或以任何其他所需方式访问的分开模块。

语音话语还通过网络路径222从话筒传递给耦合到对应远程ASR 226(诸如云ASR)的一个或多个远程短听写应用224。网络路径可以通过同一或另一客户端设备。作为示例，手表可以将语音命令发送给智能电话，智能电话可以通过到因特网的蜂窝或Wi-Fi链路将捕获的话语发送给各服务器。头戴式装置可以这样做或将命令发送给连接到至远程服务器的有线因特网连接的固定游戏系统。各种不同路径可被使用。在一些情形，可穿戴和其他设备具有到远程网络或服务器的内置连接并且这些连接可被直接使用。

客户端ASR 208可连接到并访问各种不同资源，诸如声学模型210和语言模型212。语言模型可连接到并访问N元计数(包括二元、三元以及更高计数的元)的数据库214以及词典216。取决于特定实现，语言模型可具有许多附加资源。客户端设备ASR使用这些工具来生成与在话筒处接收到的话语相对应的文本结果。这一话语随后可由客户端应用用作命令或信息。这些命令可以用于存储数据，添加或改变联系人、日历、笔记或其他系统中的记录。这些命令可以用于将消息发送给其他用户或执行其他系统上的事务。这些命令还可用于操作客户端设备或另一连接的设备的组件。

云ASR还可连接到并访问声学模型228和语言模型230以生成该话语的文本结果。一般而言，该声学模型和语言模型显著地更大且能够解释来自更多不同用户的显著更多的不同话语。所生成的文本结果通过同一或另一网络路径234被发送回客户端设备。如图所示，这一结果在客户端设备ASR处直接接收以用于使用本地生成的文本和远程生成的文本结果两者来作出最终文本结果的确定。该结果可由容纳该ASR的同一设备、由另一连接的设备、或以任何其他方式接收。文本结果将通过识别活动的客户端应用206的软件栈被传送给客户端设备ASR。客户端应用将从本地ASR接收该话语的最终所选择的文本结果。

客户端ASR组件将接收到的文本结果与所生成的文本结果相比较以确定最终结果并随后将该最终结果提供给客户端应用。客户端应用随后基于最终文本结果来执行动作。这可以是由客户端设备执行的动作，或该动作可以是将最终文本结果发送给另一应用、模块或设备。尽管出于简明仅示出了一个远程ASR，但超过一个远程ASR可被使用并且客户端ASR可以将这些远程ASR组合以获得更好、更快或更准确的结果。客户端ASR还可将各结果相比较以确定哪一些远程ASR提供最佳结果并随后优先于提供较差结果的其他ASR选择这些远程ASR。

使用若干云ASR系统将增加本地功耗并且可增加最终用户体验到的延迟。这将使该设备对任何所讲话语更慢地作出响应。在一些实施例中，本地设备直接使用来自云ASR的结果而没有任何比较或本地ASR。以用于远程通信的一定延迟为代价，这可提供更高准确度。在一些实施例中，该设备只使用本地生成的结果。这提供更快的响应。在这样的情形中，云ASR结果可被用于改进客户端ASR，代替用于对用户语音话语作出响应。本文所描述的改进客户端ASR的过程可以使用超出对话语作出响应所需功率的附加功率。结果，在设备处于功率节省模式时、是否节省功率或在电池电平为低时，这一过程可被关闭。作为进一步功率节省措施，甚至在远程连接可用时，远程云接入也可被关闭。

图3是根据一实施例的识别语音话语并更新本地语音识别系统的过程流程图。这样的过程可以使用图2的硬件及其各变型以及其他来实现。在302，接收语音话语。这通常是来自本地话筒的数字化音频的形式。然而，语音话语可以按其他方式接收。语音话语可被打包并通过音频处理流水线提供给缓冲区。话语的音频可被记录到缓冲区或本地设备处的更长期存储器以供进一步分析。在缓冲区处，它可供用于主处理器或分开的语音识别系统。为了解释语音话语，该系统将使用一个或多个自动语音识别系统。

在308，将语音话语的音频发送给本地ASR。这一操作可每次对于任何语音话语来执行以使用本地结果。然而，如果云ASR可用，则可改为使用云ASR并且这一操作可被跳过。

在304，该系统确定它是否连接到网络。该系统可能因为没有网络可用或因为网络接口不可用而没有连接。网络接口可被关闭以节省功率或阻止由传输造成的干扰，诸如在“飞行”模式中或出于任何其他原因。如果没有网络连接，则该系统执行本地ASR并在330处等待本地ASR完成。在本地ASR完成之后，则在332，这一结果被本地地应用到适当的应用。该系统使用可用本地ASR自主地操作。

如果存在网络连接，则该系统在继续评估连接和远程ASR操作时，仍然在330执行本地ASR。作为替换，该系统可被配置成在远程ASR可用的情况下只使用远程ASR。作为另一替换，该系统总是在330执行本地ASR并且在332将该结果用于应用。云结果(如果有的话)只在326被用于更新本地ASR。

类似地，在306，该系统确定是否存在用于约束网络连接的任何用户设置。该系统可被设置成即使在网络连接可用时也不使用这样的连接。这可以出于隐私目的、以减少数据传输、以节省电池功率、或出于任何其他原因。在一些实施例中，该系统被配置成在用户设置约束中主要依赖于本地ASR。云ASR只被用于某些指定情形。在一个示例中，该系统可被设置成只使用Wi-Fi连接并且不使用蜂窝电话连接以降低数据成本。另选地，该系统可被设置成出于安全或隐私目的而不使用Wi-Fi连接。如果存在对数据网络的使用约束，则该系统在330执行本地ASR并且在332将该结果用于活动的应用。本地ASR将语音话语转换成文本，并且取决于性质或活动的应用，这一文本由活动的应用使用作为数据、命令或以任何其他方式使用。

如果网络连接可用且没有对网络的使用的约束，则在310，该系统将音频发送给一个或多个网络连接的ASR。这些系统将被称为云ASR，然而，它们可通过各种不同类型的网络连接中的任一者来访问并且可以是网络或其他系统的内部或外部资源。云ASR(与本地ASR一样)分析作为一个或多个数字化音频样本的语音话语并随后生成某一类型的机器可识别数据。通常，该数据是文本序列，但可以是各种其他形式中的任一者。

可基于预定参数、用户选择或基于过去性能来选择远程语音识别系统。可返回提供最佳结果的ASR系统以用于稍后话语。以此方式，本地设备针对特定用户以及可能随时间改变的可用资源而被优化。

云ASR交互可以使用不同测试来管理。首先，在312，存在定时器。在定时器超时时，则该系统在316确定云ASR结果是否全部可用。如果云ASR结果全部可用，则在318该系统确定云ASR结果是否全部匹配。如果云结果全部匹配，则该系统前进至330以等待本地ASR结果。在接收到这些结果之后，则在332，该应用使用本地ASR生成的文本并且语音识别过程结束。如果结果不匹配，则该系统在334检索本地ASR结果并随后在320选择最佳文本。

如果定时器没有超时，则该系统可仍然在316确定是否接收到所有云ASR结果。如果它们全被接收，则该系统可前进以在318确定它们是否全部匹配。如果在316尚未接收到全部结果且在312定时器没有期满，则该系统在对云ASR结果操作之前继续等待直至定时器期满。

在312处定时器期满之后或者如果在316已接收到所有结果，则在318可以比较已接收到的所有云ASR结果。从远程语音识别系统接收到的文本结果与原始用户语音话语相对应。在所选远程ASR正在工作时，在334，本地ASR也可生成与话语相对应的文本结果。本地ASR随后将接收到的文本结果与所生成的文本结果相比较。在320，这些结果可基于该比较被组合以确定话语的最终文本结果。在322处，最终结果随后可由客户端应用使用作为命令、数据、或以各种其他方式来使用。

另外，在326，最终结果可被用来更新本地声学模型和本地语言模型。在接收到的远程ASR结果不匹配时，则在320，使用声学置信度加权或以某一其他方式选择或创建最佳文本串。在一些情形中，如果本地语音识别结果置信度为高，则无论云ASR结果匹配与否，远程接收到的文本结果都可以或不可以被客户端应用使用。另外，没有远程文本结果，除非客户端设备处的隐私许可允许在每一特定上下文中发送语音话语。如果本地和远程云语音识别结果不同，则分析该差异。这可以在本地音素识别点阵或对本地ASR可用的任何其他分析系统中完成。

在320，如果云ASR结果要被该应用使用，则选择云ASR与本地ASR结果之间的最佳文本串。这可以用声学置信度加权或任何其他所需类型的打分来完成。在一些情形中，为了提供更快响应，使用本地ASR结果，而不管云ASR结果。在322，一旦文本结果被选择，则这一结果被应用于活动的应用。

在324，给定本地ASR和云ASR结果，标识词汇表外(OOV)词语。即，该系统检查本地和云结果以确定云ASR结果中是否存在不在本地ASR中的任何词语。在326，如果找到任何OOV词语，则在326在适当时使用所标识的OOV词语更新本地ASR。该系统随后在328结束该过程，直至在302接收到另一语音话语。

图4是根据一些实施例的可如何标识OOV词语的过程流程图。图4示出了可如何执行324处的操作的示例。通过将OOV词语添加到本地ASR，本地ASR所产生的结果的质量可使用远程资源来被改进。本地ASR的语言模型、声学模型、n元计数、以及词典、以及任何其他适当的资源可通过云ASR结果来被扩充。本地ASR的改进可以在ASR结果被提供给活动的应用之后在后台进程中完成。该改进也可以只在存在足够电池功率时完成。这一改进过程只在远程ASR结果可用时完成。如上所述，远程ASR结果可以或可以不被用在语音识别过程中。该系统可以将本地ASR用于语音识别，并随后通过添加OOV词语和任何其他所需数据而只将远程结果用来改进本地ASR。

取决于情形，不同过程可被使用。如果只有一个云ASR系统可供用于结果，则来自该一个云系统的结果可被假定为单个最佳假设。取决于设置和延迟，这一假设也可被应用于活动的应用。如果存在超过一个云ASR结果可用，则投票或其他方法可被使用来选择结果之一或者根据接收到的各结果构建一个单个最佳假设。可使用结果的组合来构建多个候选文本串以随后选择最佳单个文本串。

参考图4，在402，评估接收到的语音话语以确定声学置信度水平。这一测试可被用作选通测试以确定话语是否应当被用于增强本地ASR。各种不同声学置信度打分技术中的任一者可被使用，诸如归一化声学似然、后验概率、n最佳分数的扩散，等等。如果声学置信度过低，则接收到的话语中可能存在归因于噪声、干扰或某一其他消声或阻挡效果的差错。在一些情形中，接收到的声学可能被清楚地接收，然而语言模型中没有合适的匹配。这样的声学置信度分数也可被用在ASR系统中以拒绝用户语音话语，并在执行任何进一步语音识别处理之前请求用户重复该话语。在这样的情形中，要求用户重复该话语所需的置信度可能远低于使用该话语来确定OOV词语所需的置信度。

如果声学置信度对于本地ASR增强而言过低，则该过程在418结束。如果声学置信度足够高，则在404，将选择准则应用于所有云结果以选择最佳结果。如果只有一个云ASR结果，则这一结果被使用并选择为最佳。对于来自云ASR的多个接收到的文本串，评估可包括投票、神经网络以及其他评估系统。

可使用一个或多个阈值来完成高或低的确定。可存在低阈值，使得如果结果低于该阈值则该结果被拒绝。可存在高阈值，使得如果结果高于或超过该高阈值则结果被使用以可能更新本地ASR。如果声学置信度在诸阈值之间，则该系统可返回语音识别结果但不修改本地ASR。取决于特定实现，可以使用不同阈值配置和应用系统。

在406，将所选云文本串与本地ASR文本串相比较以确定云文本串中是否存在不在本地文本串中的任何词语。在一些音频语音样本中，并不总是清楚一个词语在何处结束以及下一词语在何处开始。出于这一以及其他原因，云和本地文本串之间的差异可能不是归因于词典差异，而是归因于将话语解释为各词语时的差异。串匹配算法以及其他技术可被用来标识两个文本串之间的词语中的差异。这可使用标准插入或替换标识算法来完成，诸如NIST(国家标准和技术研究所)sctk(打分工具包)或各种其他技术。从云串到本地串的正确替换可被标识为本地ASR中的OOV词语。

在一些实施例中，所标识的OOV词语不能被直接添加到词典，因为它们的真实发音不是已知的。在408，为所标识的OOV词语生成发音。这可以使用字素到音素(G2P)算法来完成，或者可以在词典中查找发音。这些发音可被插入本地音素点阵。在412，随后可使用经替换词语再次对经修订音素点阵打分。这是另一声学打分，其中将从该文本串构建的本地音素点阵与从用户接收到的音频相比较。

如果新文本串的声学分数为低，则结果被拒绝。在一些实施例中，该过程如图所示地结束。在其他实施例中，本地音素识别点阵被使用来解决发音歧义。来自远程文本串的不同词语可被替换到本地文本串以生成不同候选文本串。本地文本串的这些可能性被打分并且具有最高分数的那一个被选择。如果声学置信度仍然过低，则该过程结束。本地ASR没有改变。

另一方面，如果声学置信度分数为高，无论是单个文本串还是从多个候选中选择的一个，则本地ASR可被改进。取决于本地ASR的性质和特定实现，本地ASR的不同方面可被修改。在一些实施例中，如在416所示，通过添加来自新文本串的新标识的OOV词语来增强n元计数和本地词典。n元计数可被用于将来语言模型更新以及其他目的。

在一些实施例中，本地ASR的更新可被推迟。更新可以在资源允许时在客户端处完成，或者更新可以在云服务处完成。云服务更新可能是需要的，例如在本地设备简单地过小或功率过低而不能执行更新或提供中央控制时。在一个实施例中，为了在云中执行本地语言模型的更新，OOV列表、n元计数、任何其他所需数据可被发送给云服务。云服务随后可以生成新模型并随后在网络允许时将它们传送给客户端。以此方式，本地设备只将新数据写入其存储器，代替作出该新数据的正确值的确定。

图5是用于标识OOV词语并随后使用所标识的词语扩充本地ASR的替换过程。在图5的示例中，超过一个远程或云ASR提供了文本结果并且结果至少在一些情形中彼此不同。如在先前示例中，在502，评估原始语音话语的声学置信度。如果置信度过低，则该过程在518结束。如果置信度足够高，则在504，串匹配算法被使用来标识每一文本串中可能是OOV词语的词语。如上所述，高还是低可以使用数字阈值或以任何其他所需方式来评估。取决于特定实现，可以存在一个或多个阈值。

因为存在多个不同文本串，所以存在要考虑的更多候选词语。串匹配和其他类型的技术可被使用来标识各串之间的差异。每一云文本串中的所插入的或替换的词语随后可被标识为可能的OOV词语。

在506，可为这些所标识的OOV词语生成发音。如上所述，这可以使用G2P或词典或以任何其他所需方式来完成。在508，来自云ASR的每一不同文本串或假设可通过点阵重新打分或以各种其他方式中的任一者来被测试。来自各云文本串的OOV词语在本地文本串中的替换或插入可被使用来形成多个候选文本串。在一些实施例中，这可以用包括所有可能变型的音素点阵来完成。可以通过在本地音素点阵中替换或插入OOV词语发音来使用音素点阵以修改本地音素点阵以生成多个云假设。

在510，针对点阵内的每一变型，对新修改的本地音素点阵重新打分。另选地，通过替换来生成各候选并且使用声学置信度分数来对每一者打分。另选地，基于这一打分，文本串可被选择为最佳候选。这可以是从云接收到的特定文本串，或者它可以是从不同云ASR接收到的不同文本串的组合。

在512，选择具有最高分数的文本串假设。使用本地音素点阵，经修改本地音素点阵的每一假设将对照实际话语来通过打分被测试，且具有最高分数的假设将被选择。在一个实施例中，云ASR只被用于使用来自云ASR的词语来替换本地ASR结果中的低得分词语。在另一实施例中，只有云ASR被用来形成假设。音素点阵允许许多不同假设通过单个点阵结构被测试。

在514，评估最高得分候选文本串的声学置信度。如果置信度过低，则该过程结束且本地ASR不被改变。如果置信度足够高，则在516，本地ASR可针对OOV词语被更新，如上所述。这可包括更新n元计数以用于稍后语言模型更新、更新OOV列表以用于稍后词典更新、以及更新其他特征。

在416或516处更新本地ASR时，各种不同技术可被使用。任一过程中的最终结果使得一个或多个OOV词语被标识。这些最终结果可被用来更新本地声学模型和本地语言模型以及其他。如以上参考416所述，基于功率或其他系统使用，更新可被推迟。也可使用云服务来执行更新以主动地确定更新。

在一些实施例中，本地声学模型210和本地语言模型212是针对每一市场预安装的并且除了其他一般更新外从不改变。在一些实施例中，使用从远程ASR接收到的文本结果来更新包括词典的声学模型和语言模型。以此方式，原始数据被基于新数据和结果来更新。

可使用经高速缓存的语言模型技术或通过内插来扩充客户端词典和语言模型。词典可被直接更新，例如通过在基于WFST(加权有限状态变换器)的系统中重建HCL(隐马尔科夫模型上下文模型词典语法)。在一些实施例中，使用动态词汇表机制来间接地更新词典。

除了更新词典之外，也可使用来自最终文本结果的因用户而异的客户端数据(例如，n元计数)重建语言模型。这可以在ASR资源未被用于语音识别时的其他时间完成，以便不干扰感知到的速度。另外，在更新了语言模型之后，在资源可用时也可使用使用经更新语言模型产生的对准来重建声学模型。

使用远程地接收到的这些OOV词语来更新本地词典。n元频率也被更新。在某一使用之后，如果存在未被设备用户使用或只被不频繁地使用的一些词语，则这些词语也可以从本地词典和语言模型移除。

图6是根据一个实现的计算设备100的框图。计算设备100容纳系统板2。板2可包括多个组件，包括但不限于处理器4和至少一个通信封装6。通信封装被耦合到一个或多个天线16。处理器4物理地且电气地耦合至板2。

取决于其应用，计算设备100可包括可物理耦合以及电耦合到PCB 2或者可不物理耦合以及不电耦合到板2的其他组件。这些其他组件可包括但不限于易失性存储器(例如DRAM)8、非易失性存储器(例如ROM)9、闪存(未示出)、图形处理器12、数字信号处理器(未示出)、加密处理器(未示出)、芯片组14、天线16、显示器18(诸如触摸屏显示器)、触摸屏控制器20、电池22、音频编码解码器(未示出)、视频编码解码器(未示出)、功率放大器24、全球定位系统(GPS)装置26、指南针28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、相机32、话筒阵列34、以及大容量存储装置(诸如硬盘驱动器)10、紧凑盘(CD)(未示出)、数字多功能盘(DVD)(未示出)等等)。这些组件可耦合到系统板2、安装到系统板、或与其他组件中的任一者相组合。

通信封装6可使有线和/或无线通信能用于去往以及来自计算设备100的数据传递。术语“无线”及其衍生词可用于描述电路、设备、系统、方法、技术、通信信道等，其可通过使用经调制的电磁辐射，通过非固态介质来传播数据。尽管相关联的设备在一些实施例中可能不包含任何线，但是该术语并不暗示相关联的设备不包含任何线。通信封装6可实现多种无线或有线标准或协议中的任一种，包括但不限于Wi-Fi(IEEE 802.11系列)、WiMAX(IEEE 802.16系列)、IEEE 802.20、长期演进(LTE)、EV-DO、HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、DECT、蓝牙及其以太网衍生物以及称为3G、4G、5G以及更高的任何其它无线和有线协议。计算设备100可包括多个通信封装6。例如，第一通信封装6可专用于较短程的无线通信，如，Wi-Fi和蓝牙；第二通信封装6可专用于较长程的无线通信，如，GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO等。

话筒34和扬声器30耦合到用于执行如本文描述的数字转换、编码和解码以及降噪的音频前端36。处理器4耦合到音频前端以使用中断驱动该过程，设置参数，以及控制音频前端的操作。语音识别处理可以在通信封装6、处理器4或任何其他设备中执行。

在多个实现中，计算设备100可以是眼镜、膝上型设备、上网本、笔记本、超极本、智能手机、平板、个人数字助理(PDA)、超移动PC、移动电话、桌面计算机、服务器、机顶盒、娱乐控制单元、数字照相机、便携式音乐播放器或数字视频记录仪。计算设备可以是固定的、便携式的或可穿戴的。在进一步的实现中，计算设备100可以是处理数据的任何其他电子设备。

各实施例可被实现为一个或多个存储器芯片、控制器、CPU(中央处理单元)、微芯片或使用母板互连的集成电路、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)的一部分。

对“一个实施例”、“实施例”、“示例实施例”、“各实施例”等等的引用指示如此描述的各实施例可包括特定特征、结构或特性，但是，不是每一个实施例都必定包括该特定特征、结构或特征。此外，一些实施例可以具有针对其他实施例所描述的特征中的一些或全部，或完全不具有这些特征。

在所附描述以及权利要求书中，可以使用术语“耦合”及其派生词。“耦合”被用来指示两个或更多元件彼此协作或进行交互，但是，它们之间可以具有或可以不具有介于中间物理组件或电组件。

如权利要求中所使用，除非明确说明，否则用于描述普通元件的序数词“第一”、“第二”、“第三”等仅仅指示参照类似元件的不同实例，且不旨在暗示如此描述的这些元件必须在时间、空间、按等级或按任意其它方式在给定序列中。

附图以及前述描述给出了诸实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以合并成单个功能元件。或者，某些元件可以被拆分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例中。例如，本文中所描述的过程的顺序可以改变，并且不限于本文中所描述的方式。此外，任何流程图的动作都不一定以图示的顺序来实现；也不一定需要执行所有这些动作。此外，不依赖于其他动作的那些动作也可以与其他动作并行地执行。各实施例的范围绝非由这些特定示例限制。众多变型(无论是否在说明书中显式地给出)，诸如结构、尺寸以及材料的使用方面的差异是可能的。诸实施例的范围至少与由所附权利要求书给出的范围一样广泛。

以下示例关于进一步的实施例。能以各种方式将不同的实施例的各种特征所包括的某些特征及被排除的其特征相结合以适应各种不同的应用。一些实施例涉及一种方法，其包括：在本地设备处接收语音话语；将所述语音话语发送给至少一个远程语音识别系统；从所述远程语音识别系统接收与所述话语相对应的文本结果；在所述本地设备处使用在本地词典中包括本地词汇表的本地语言模型生成与所述话语相对应的文本结果；将接收到的文本结果与所生成的文本结果相比较以确定在所述本地词汇表之外的词语；以及使用所述词汇表外词语来更新所述本地语言模型。

又一些实施例包括基于所述比较将所生成的和接收到的文本结果相组合以确定所述话语的最终文本结果，并且使用所述最终文本结果来确定所述词汇表外词语。

在又一些实施例中，组合包括在所生成的和接收到的文本结果不同的情况下使用所述本地设备上的音素点阵。

在又一些实施例中，比较包括应用神经网络。

又一些实施例包括在所述本地设备处确定所生成的文本结果的声学置信度值，以及如果所述声学置信度值超过阈值，将投票应用于所生成的和接收到的文本结果，以确定每一词语的文本候选。

在又一些实施例中，组合所生成的和接收到的文本结果包括从所述客户端设备词典选择词语，除非相应词语在所述客户端设备词典中不可用。

在又一些实施例中，比较包括对所生成的和接收到的文本结果中的词语打分，并且基于所述分数将来自接收到的文本结果的词语替换到所生成的文本结果。

在又一些实施例中，比较包括将来自多个接收到的远程云文本串的不同词语插入音素点阵，并针对每一组合对所述音素点阵打分。

在又一些实施例中，更新语言模型包括使用接收到的文本结果来更新客户端设备词典。

在又一些实施例中，更新所述本地语言模型包括使用来自最终文本话语的词汇表外词语来进行更新。

在又一些实施例中，更新所述本地语言模型进一步包括更新所述本地语言模型的n元计数。

又一些实施例包括确定接收到的文本结果的语音识别置信度值，将所述语音识别置信度值与阈值相比较，并且如果接收到的文本结果的所述语音识别置信度值不超过所述阈值则不更新所述本地词汇表。

又一些实施例包括在所述客户端设备处确定该设备是否连接到远程网络，并且其中只在所述设备连接到远程网络的情况下才执行发送所述音频话语。

又一些实施例包括基于所述本地设备的用户隐私许可将所述音频话语有条件地发送给远程语音识别系统。

一些实施例涉及一种装置，其包括：用于接收和记录语音话语的本地设备的缓冲区；网络接口，其用于将所述语音话语发送给至少一个远程语音识别系统并从所述远程语音识别系统接收与所述话语相对应的文本结果；处理器，其用于：在所述本地设备处使用在本地词典中包括本地词汇表的本地语言模型生成与所述话语相对应的文本结果；将接收到的文本结果与所生成的文本结果相比较以确定在所述本地词汇表之外的词语；以及使用所述词汇表外词语来更新所述本地语言模型。

在又一些实施例中，更新所述本地语言模型包括使用接收到的文本结果更新所述本地语言模型的所述本地词典和n元计数。

在又一些实施例中，处理器还用于：在所述本地设备处确定所生成的文本结果的声学置信度值；以及如果所述声学置信度值超过阈值，则将投票应用于所生成的和接收到的文本结果，以确定每一词语的文本候选。

一些实施例涉及一种计算系统，其包括：话筒；用于从所述话筒接收和记录语音话语的本地设备的缓冲区；用于使用在本地词典中包括本地词汇表的本地语言模型将所述语音话语转换成文本结果的本地语音识别系统；用于接收所述文本结果作为命令的客户端应用；网络接口，其用于：将所述语音话语发送给至少一个远程语音识别系统；以及从所述远程语音识别系统接收与所述话语相对应的文本结果；处理器，其用于将接收到的文本结果与所述本地文本结果相比较以确定在所述本地词汇表之外的词语；以及使用所述词汇表外词语来更新所述本地语言模型。

在又一些实施例中，比较包括将来自多个接收到的远程云文本串的不同词语插入音素点阵并针对每一组合对所述音素点阵打分，以及基于所述分数将来自接收到的文本结果的词语替换到所生成的文本结果。

Claims

1.一种方法，包括：

在本地设备处接收语音话语；

将所述语音话语发送给至少一个远程语音识别系统；

从所述远程语音识别系统接收与所述话语相对应的文本结果；

在所述本地设备处使用在本地词典中包括本地词汇表的本地语言模型生成与所述话语相对应的文本结果；

将接收到的文本结果与所生成的文本结果相比较以确定在所述本地词汇表之外的词语；以及

使用词汇表外词语来更新所述本地语言模型。

2.如权利要求1所述的方法，其特征在于，进一步包括基于所述比较将所生成的和接收到的文本结果相组合以确定所述话语的最终文本结果，并且使用所述最终文本结果来确定所述词汇表外词语。

3.如权利要求2所述的方法，其特征在于，组合包括如果所生成的和接收到的文本结果不同则使用所述本地设备上的音素点阵。

4.如权利要求3所述的方法，其特征在于，比较包括应用神经网络。

5.如权利要求2-4中的任一项所述的方法，进一步包括：

在所述本地设备处确定所生成的文本结果的声学置信度值；以及

如果所述声学置信度值超过阈值，则将投票应用于所生成的和接收到的文本结果，以确定每一词语的文本候选。

6.如权利要求5所述的方法，其特征在于，组合所生成的和接收到的文本结果包括从所述客户端设备词典选择词语，除非相应词语在所述客户端设备词典中不可用。

7.如权利要求2-6中的任一项所述的方法，其特征在于，比较包括对所生成的和接收到的文本结果中的词语打分，并且基于分数将来自接收到的文本结果的词语替换到所生成的文本结果。

8.如权利要求3所述的方法，其特征在于，比较包括将来自多个接收到的远程云文本串的不同词语插入音素点阵，并针对每一组合对所述音素点阵打分。

9.如上述权利要求中的任何一者或多者所述的方法，其特征在于，更新所述语言模型包括使用接收到的文本结果来更新所述客户端设备词典。

10.如权利要求7所述的方法，其特征在于，更新所述本地语言模型包括使用来自最终文本话语的词汇表外词语来进行更新。

11.如上述权利要求中的任何一者或多者所述的方法，其特征在于，更新所述本地语言模型进一步包括更新所述本地语言模型的n元计数。

12.如上述权利要求中的任何一者或多者所述的方法，其特征在于，进一步包括确定接收到的文本结果的语音识别置信度值，将所述语音识别置信度值与阈值相比较，并且如果接收到的文本结果的所述语音识别置信度值不超过所述阈值则不更新所述本地词汇表。

13.如上述权利要求中的任何一者或多者所述的方法，其特征在于，进一步包括在所述客户端设备处确定所述设备是否连接到远程网络，并且其中只有在所述设备连接到远程网络的情况下才执行发送所述音频话语。

14.如上述权利要求中的任何一者或多者所述的方法，其特征在于，进一步包括基于所述本地设备的用户隐私许可将所述语音话语有条件地发送到远程语音识别系统。

15.一种装置，包括：

本地设备的缓冲区，其用于接收和记录语音话语；

网络接口，其用于将所述语音话语发送给至少一个远程语音识别系统并从所述远程语音识别系统接收与所述话语相对应的文本结果；以及

处理器，其用于在所述本地设备处使用在本地词典中包括本地词汇表的本地语言模型生成与所述话语相对应的文本结果；将接收到的文本结果与所生成的文本结果相比较以确定在所述本地词汇表之外的词语；以及使用词汇表外词语来更新所述本地语言模型。

16.如权利要求15所述的装置，其特征在于，更新所述本地语言模型包括使用接收到的文本结果更新所述本地语言模型的所述本地词典和n元计数。

17.如权利要求15或16所述的装置，其特征在于，所述处理器进一步用于：在所述本地设备处确定所生成的文本结果的声学置信度值；以及如果所述声学置信度值超过阈值，则将投票应用于所生成的和接收到的文本结果，以确定每一词语的文本候选。

18.一种计算系统，包括：

话筒；

用于从所述话筒接收和记录语音话语的本地设备的缓冲区；

用于使用在本地词典中包括本地词汇表的本地语言模型将所述语音话语转换成文本结果的本地语音识别系统；

用于接收所述文本结果作为命令的客户端应用；

处理器，其用于：将接收到的文本结果与所述本地文本结果相比较以确定在所述本地词汇表之外的词语；以及使用词汇表外词语来更新所述本地语言模型。

19.如权利要求18所述的系统，其特征在于，进一步包括基于所述比较将所生成的和接收到的文本结果相组合以确定所述话语的最终文本结果，并且使用所述最终文本结果来确定所述词汇表外词语。

20.如权利要求18或19所述的系统，其特征在于，比较包括：将来自多个接收到的远程云文本串的不同词语插入音素点阵并针对每一组合对所述音素点阵打分，以及基于所述分数将来自接收到的文本结果的词语替换到所生成的文本结果。