CN1692407A

CN1692407A - 改善移动设备的语音识别

Info

Publication number: CN1692407A
Application number: CNA038141922A
Authority: CN
Inventors: M·戴谢尔; R·克瑙尔哈斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2002-06-20
Filing date: 2003-06-10
Publication date: 2005-11-02
Anticipated expiration: 2023-06-10
Also published as: KR20050007429A; EP1514259B1; AU2003245443A1; WO2004001719A1; KR100830251B1; US7224981B2; KR20070065893A; TWI229984B; EP1514259A1; TW200412730A; ATE465485T1; US20030236099A1; CN1692407B; DE60332236D1

Abstract

通过使用位置信息可改善基于处理器的移动设备(14)中的语音识别。可以从插件板上的硬件(26)或者远程提供的信息中得到位置信息。位置信息以各种方式辅助改善语音识别。例如，通过位置信息可增强适应于包括回响和噪声特征的本地周围环境条件的能力。在某些实施例中，可从远程服务器(12)为给定位置提供预先开发的模型或环境信息。

Description

改善移动设备的语音识别

技术领域

本发明通常涉及基于处理器的具备语音识别能力的移动系统。

背景技术

提及到若干实例，基于处理器的移动系统包括诸如手持设备、个人数字助理、数码相机、膝上型电脑、数据输入设备、数据采集设备、远程控制单元、声音记录设备、以及蜂窝电话等等的设备。这些设备中的许多设备可具备语音识别能力。

利用语音识别，用户所说的话可被转换为文本。作为另一个实例，可将所说的话作为指令接收，该指令能够选择和操作基于处理器的系统的能力。

在大量的例子中，给定设备识别语音或标识一个说话者的能力是相对有限的。各种周围环境条件可能负面地影响语音识别或说话者识别的质量。由于周围条件可能会不可预测地发生变化，因此消除周围环境对移动语音识别平台的影响更加困难。

因而，需要一种更好的方式来实现基于处理器的移动系统的语音识别。

附图说明

图1示意性描述了本发明的一个实施例；

图2为根据本发明一个实施例的在图1所示实施例中有利使用的流程图；以及

图3为根据本发明一个实施例的在图1所示实施例中有利使用的流程图。

具体实施方式

参考图1，具备语音功能的基于处理器的移动系统14可以为任何一种通常利用电池供电的基于处理器的移动系统。这些设备的一些实例包括膝上型电脑、个人数字助理、蜂窝电话、数码相机、数据输入设备、数据采集设备、器具以及声音记录设备等等，以提及若干的实例。

通过在设备14内包含位置检测能力，在各种环境或周围条件下可改善识别所说话语的能力。因此，设备14可包括一个位置检测器或基于定位的服务(LBS)的客户机26。使用各种技术、诸如全球定位卫星、热点检测、小区检测、无线电三角测量或其他技术等可实现位置检测。

位置的各个方面可用于改善语音识别。系统14的物理位置可提供有关周围空间的声学特征的信息。这些特征可以包括房间的大小、诸如通风道或外部窗户之类的噪声源，以及回响特征。

在网络基础设施、诸如基于位置的服务(LBS)的服务器12中能够存储该数据。对于被频繁访问的位置，可将这些特征存储在系统14的数据存储器28自身中。在本发明的一个实施例中，服务器12可通过无线网络18耦合到系统14。

位置的其他方面包括在附近使用可比拟系统14的说话者的物理位置，这些方面可产生改善语音识别的杠杆作用。所述说话者可能为潜在的干扰源，并且能够基于其与系统14的用户的接近程度识别这些说话者。另外，可通过预订他们的存在信息或尤其通过发现同等层推断出附近携带可比拟系统14的人的身份。而且，可以确定系统14的方位，这可能为改善语音识别提供有用的信息。

系统14包括耦合到位置检测器/基于位置的服务的客户机26的语音环境(context)管理器24、语音识别器22、和噪声减少语音预处理器20。

根据本发明的一个实施例，当系统14试图进行语音识别时，语音环境管理器24从服务器12检索当前的环境。根据周围空间的大小，环境管理器24调整识别器22的声学模型以计算回响。

可以用包括使用诸如已知目标的最大似然线性回归等模型自适应方法的各种方式完成这种调整。该目标转换可能已经在该位置上在先前遇到时被估计，或可以从与该空间相关的回响时间推断得出。也可以通过从一组先前训练的声学模型中选择来完成该调整，该声学模型匹配用户所典型遇到的各种声学空间。

作为另一种替换，环境管理器24可选自特征提取和噪声降低算法，这些算法抑制基于声学空间大小的回响。还可以修改该声学模型以匹配所选择的前端噪声降低和特征提取。模型还可以根据附近人的身份进行调整，如果存在模型的话，则检索并载入用于每个人的依赖于说话者的声学模型。在本发明的一个实施例中，这些模型还用于走廊讨论的自动录音。

如果先前已经遇到了该声学空间，则另一种可完成调整的方式是通过初始化并调整一个新的声学模型。一旦对该位置充分地进行模拟，系统14就可以发送信息到服务器12并将其存储在远程数据存储器16中，以用于将来的访问者访问相同的位置。

作为另一个根据附近说话者的身份进行调整的实例，系统14可辅助用户将他们识别为录音源。录音源为应该录音其语音的人。用户周围的潜在源列表可提供给该用户。在一个实施例中，用户可从列表中选择想要的录音源。

作为另一个基于系统10的方位、邻近的人们的位置和将其指定为录音源的实例，预处理器20所控制的麦克风阵列可配置成在不是录音源的最近的人的方向上置零。由于该方向可能不是特别精确并易遭受突然的变化，因此这种方法不可能通过麦克风阵列代替干扰者跟踪。但是，它可提供一种当干扰者不说话时置零的机制，借此显著地改善了当干扰者讲话人开始说话时的性能。

参考图2，根据本发明的一个实施例，语音环境管理器24可为基于处理器的设备，包括处理器和存储将在处理器上执行的指令的存储器。因此，语音环境管理器24可以为软件或者是硬件。一开始，如方框30所示，语音环境管理器24从服务器12检索当前的环境。然后，如方框32所示，环境管理器24可以确定接近于设备14的周围空间的大小。如方框34所示，设备14可调整识别器的声学模型以计算本地回响。

然后，如方框36所示，可根据对本地环境的认识选择特征提取和噪声减少算法。另外，如方框38所示，可检索和载入用于附近说话者的依赖于说话者的声学模型。在一个实施例中，可从服务器12检索这些模型。

如方框40所示，根据如位置检测器/LBS客户机26检测到的系统14的位置可开发新的声学模型。如方框42所示，与位置坐标链接的新模型可通过无线网络18发送到服务器12，以用于潜在的未来使用。在某些实施例中，可从服务器12获取该模型，以及在其他情况下，可通过系统14独立地或与服务器12合作来开发这些模型以用于即时动态使用。

如方框44所示，可以识别其语音应该被识别的任何说话者。如方框46所示，可配置麦克风阵列预处理器20。然后，如方框48所示，实现已获得位置信息的好处的语音识别。

参考图3，根据本发明的一个实施例，LBS服务器12可通过软件50来实现。软件50可存储在服务器12上的合适的存储器中。一开始，如方框52所确定，服务器12从系统14接收一个环境信息的请求。如方框54所示，一旦接收了请求，服务器12则从系统14获取该位置信息。然后，如方框56所示，可将该位置信息与数据存储器16中可用的模型相关联。如方框58所示，一旦识别了合适的模型，可通过无线网络将环境发送到设备14。

尽管已经参考有限数量的实施例描述了本发明，但是本领域的普通技术人员将会理解可以对本发明作出各种修改和变型。意图在于所附的权利要求覆盖落入本发明实质精神和范围内的全部的这些修改和变型。

Claims

1、一种方法，包括：

获取有关移动设备位置的信息；以及

使用所述位置信息提供语音识别。

2、根据权利要求1所述的方法，包括获取链接到特定位置的声学模型，以便用于改善语音识别。

3、根据权利要求2所述的方法，包括通过无线网络从远程服务器接收所述模型。

4、根据权利要求2所述的方法，包括根据本地特征设计(tailor)声学模型。

5、根据权利要求4所述的方法，包括将所述模型和位置坐标一起发送到远程服务器。

6、根据权利要求1所述的方法，其中，获取信息包括获取有关周围空间大小的信息。

7、根据权利要求1所述的方法，其中，获取信息包括调整声学模型以考虑回响。

8、根据权利要求1所述的方法，其中，获取信息包括选择特征提取或噪声降低算法。

9、根据权利要求1所述的方法，其中，获取信息包括获取有关附近说话者的信息。

10、根据权利要求1所述的方法，其中，获取信息包括获取有关周围空间大小的信息，获取有关回响的信息，选择噪声降低算法，以及获取有关附近说话者的信息，以便开发出用于当前位置的新声学模型。

11、根据权利要求1所述的方法，包括根据不必识别其语音的附近说话者的位置配置一个麦克风阵列。

12、一种包括存储指令的介质的产品，如果执行该指令，则使基于处理器的系统能够执行以下步骤：

获取有关移动设备位置的信息；以及

使用所述位置信息提供语音识别。

13、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行以下步骤，即获取链接到特定位置的声学模型以便用于改善语音识别。

14、根据权利要求13的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行通过无线网络从远程服务器接收所述模型的步骤。

15、根据权利要求13的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行根据本地特征设计声学模型的步骤。

16、根据权利要求15的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行将所述模型与位置坐标一起发送到远程服务器的步骤。

17、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行获取信息的步骤，它包括获取有关周围空间大小的信息。

18、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行获取信息的步骤，它包括调整声学模型以考虑回响。

19、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行获取信息的步骤，它包括选择特征提取或噪声降低算法。

20、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行获取信息的步骤，它包括获取有关附近说话者的信息。

21、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行获取信息的步骤，它包括获取有关周围空间大小的信息，获取有关回响的信息，选择噪声降低算法，以及获取有关附近说话者的信息，以便开发出用于当前位置的新声学模型。

22、根据权利要求12的产品，还存储以下指令，如果执行该指令，则使基于处理器的系统能够执行根据不必识别其语音的附近说话者的位置而配置一个麦克风阵列的步骤。

23、一种系统，包括：

处理器；

耦合到所述处理器的位置确定设备；以及

耦合到所述处理器的存储器，该存储器存储有使处理器能够使用位置信息来提供语音识别的指令。

24、根据权利要求23所述的系统，其中，所述位置确定设备为全球定位卫星设备。

25、根据权利要求23所述的系统，其中，所述存储器存储有使处理器能够获取链接到特定位置的声学模型以便用于改善语音识别的指令。

26、根据权利要求25所述的系统，其中，所述存储器存储用于通过无线网络从远程服务器接收模型的指令。

27、根据权利要求24所述的系统，其中，所述系统自动地为特定位置设计一种声学模型并将该模型与位置坐标一起发送到远程服务器。

28、根据权利要求23所述的系统，其中，所述系统自动获取有关所述系统周围空间大小的信息。

29、根据权利要求23所述的系统，其中，所述系统自动获取有关附近说话者的信息。

30、根据权利要求29所述的系统，其中，所述系统包括一个麦克风阵列，并根据附近说话者的位置来自动地配置所述麦克风阵列。