CN1639768B

CN1639768B - 自动语音识别方法及装置

Info

Publication number: CN1639768B
Application number: CN02829378.9A
Authority: CN
Inventors: R·施莱弗; A·基伊斯林格; H·-G·希斯奇
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2002-08-01
Filing date: 2002-08-01
Publication date: 2010-05-26
Anticipated expiration: 2022-08-01
Also published as: US20050273334A1; DE60212725T2; JP2005534983A; WO2004015686A1; CN1639768A; JP4246703B2; EP1525577B1; EP1525577A1; DE60212725D1; AU2002325930A1

Abstract

一种根据至少一个关键字模型和多个垃圾模型识别话语中的关键字的方法。随后，如果一部分话语与该关键字模型或某个垃圾序列模型最匹配，则将该部分话语评定为待识别关键字。这里，垃圾序列模型是来自所述多个垃圾模型的一系列连续垃圾模型。

Description

自动语音识别方法及装置

技术领域

本发明涉及一种自动识别语音的方法。具体地说，本发明涉及一种从话语中识别关键字的方法。

背景技术

自动语音识别方法，即识别话语中一个或多个关键字的方法，通常成为关键字定位(keyword spotting)。对于待识别的每个关键字，训练并存储关键字模型。每个关键字模型是为与讲话者相关的语音识别或与讲话者无关的语音识别而训练的，它表示例如一个单词或一个词组。当话语本身或其中一部分与任何之前创建并存储的关键字模型最匹配时，就找到该话语中的一个关键字。

近年来，这种语音识别方法已用于移动设备中，例如用于移动电话中。采用这种技术，移动设备可以部分或全部通过语音命令来加以控制，而不是使用键盘。这种方法最适用于禁用键盘处理电话的车载免提设备。由此，一从话语中识别出关键字，就立刻激活移动电话。随后，移动电话监听其它话语，并在其中某部分与任一存储的关键字模型最匹配时将其评定为待识别的关键字。

关键字识别的正确程度随使用移动设备的声音环境或用户特性如发音而不同。例如，如果话语的某部分与存储的关键字模型之一匹配，但却不是所需要的待识别关键字时，则评定可能是错误的。因此，相对于话语关键字总数的正确识别的关键字数量，即命中率极其依赖于声音环境和用户特性。

从现有技术已知的自动语音识别方法经常采用所谓的垃圾模型及关键字模型(参见Jean Marc Boite所著的“一种新的关键字定位方法”(an new approach towards Keyword Spotting，Jean Marc Boite，EUROSPEFCH Berlin，1993，pp.1273-1276))。为此，创建了多个垃圾模型。一些垃圾模型表示例如非关键字语音，如咂嘴声、呼吸声或补白单词“aeh”或“em”。其它垃圾模型创建来表示背景噪声。垃圾模型例如有音素、音素覆盖类(phoneme cover class)或完整的单词。利用这些垃圾模型，降低了每时间单位错误识别的关键字数量，即虚警率。这是因为可以直接将包括非关键字语音的话语的若干部分映射到存储的垃圾模型之一。但采用这种方法时，命中率下降了，因为部分话语可能与一个或多个垃圾模型的匹配程度比关键字模型本身的匹配程度高。例如，如果语音识别过程中声音环境差，则部分话语可能与表示这种声音环境的垃圾模型匹配。因此，将该部分评定为非关键字语音，这当然是不希望的结果。

发明内容

因此，本发明的目的是提供一种语音识别方法，这种方法可提高命中率，并避免已知现有技术的缺点。

此目的是通过权利要求1的方法来解决的。根据本发明，提供了一种利用至少一个关键字模型和多个垃圾模型识别话语中的关键字的方法，其中：如果一部分话语与所述关键字模型或某个垃圾序列模型最匹配，则将该部分话语评定为待识别的关键字；并且所述垃圾序列模型是来自所述多个垃圾模型的一系列连续垃圾模型。

本质上，本发明的方法还在一部分话语与所述垃圾序列模型最匹配时将该部分话语评定为待识别的关键字。于是，作为本发明的优点，提高了命中率。这是因为采用两个模型，即关键字模型和垃圾序列模型来从话语中识别关键字。这里，在本发明上下文中，部分话语是任意时间间隔的输入话语。时间间隔的长度可以是完整的话语或只是其中的一小段序列。

有利的是，根据本发明的方法在存在比关键字模型本身更匹配话语的多个连续垃圾模型时避免命中率下降。因此，本自动语音识别方法比已知的现有技术语音识别方法更稳健。

最好这样确定所述垃圾序列模型：将表示待识别关键字的关键字话语与所述多个垃圾模型进行比较，并检测与所述关键字最匹配的连续垃圾模型序列。采用这种方法可根据已用于现有技术语音识别方法的现有垃圾模型容易地创建所述垃圾序列模型。所述现有技术方法例如基于有限状态语法，其中，将一个或多个关键字模型和多个垃圾模型用于识别任何话语中的关键字。于是根据本发明，用有限状态语法创建垃圾序列模型，此垃圾序列模型只包括多个垃圾模型，而不包括关键字模型。将作为关键字话语且表示关键字的输入话语与存储的多个垃圾模型进行比较。然后，将来自所述多个垃圾模型的一系列连续垃圾模型确定为最适合表示所述关键字的垃圾序列模型。根据本发明，随后将此垃圾序列模型用于识别话语中的关键字，条件是所述话语的所述部分与关键字模型或该垃圾序列模型匹配。

根据本发明的方法，所确定的垃圾序列模型享有相对于通过所述多个垃圾模型的任何其它路径的特权。本质上，所确定的垃圾序列模型享有相对于任何包括相同连续垃圾模型序列的路径的特权。这就规定将所述话语中的该部分评定为待识别关键字，即便存在通过所述多个垃圾模型的类似路径。因此，命中率得以提高，因为，将所述话语的所述部分评定为待识别关键字更可取。

根据本发明的第一方面，本发明还包括：确定亦表示待识别关键字的若干个其它垃圾序列模型；并且如果所述话语的该部分与所述若干个垃圾序列模型中的任何一个序列模型最匹配，则将所述部分话语评定为待识别关键字。随后将所有垃圾序列模型和关键字模型用于识别所述关键字。采用这种方法便可提高命中率，因为质量稍差的话语也可能与任一所述其它垃圾序列模型匹配，并因此而被评定为关键字。

最好通过如下方式来确定所有垃圾序列模型：计算每个垃圾序列模型所对应的概率值；并选择其概率值高于阈值的那些垃圾序列模型，从而得到所有垃圾序列模型。计算模型概率值的这种计算是常用的。因此，以经验方式确定这里用于将垃圾序列模型分类为表示关键字或不表示关键字的模型的预定义概率值。

根据本发明的第二方面，还包括：

-检测与所述话语的部分最匹配的通过所述多个垃圾模型的路径，

-计算所述垃圾序列模型包含在该路径中的概率值；并且

-为将所述话语的所述部分评定为待识别关键字，在所述概率值高于阈值时，将通过所述多个垃圾模型的该路径假定为所述垃圾序列模型。

为此，需要一个垃圾序列模型，它最适合表示所述关键字。在识别阶段之前事先确定并存储此垃圾序列模型。如果在识别阶段，检测到通过所述多个垃圾模型且与所述话语的部分最匹配的路径，则执行后续处理步骤。在后续处理步骤中，确定所述预定义垃圾序列模型包含在该路径中的概率值。如果该概率值高于阈值，则假定该路径或其中一部分为所述垃圾序列模型。利用该假设，将所述话语的所述部分评定为待识别关键字。因为仅需存储一个垃圾序列模型，因此根据本发明的识别方法所需要的存储器容量较小，并因此可在存储器容量受限时，例如在移动电话中得到利用。有利的是，因为可以随时根据需要调整阈值，因此根据所述第二方面的识别方法还具有很高的灵活性。

最好根据所确定的垃圾序列模型、检测到的通过所述多个垃圾模型的路径和垃圾模型混淆矩阵来计算所述概率，其中，所述垃圾模型混淆矩阵包含假定垃圾模型j给定时识别出垃圾模型i的概率P(i|j)。

有利的是，所述至少一个垃圾序列模型是在创建针对待识别新关键字的关键字模型时被确定的。因此，根据本发明第一和第二方面的语音识别方法是灵活的，因为只要一创建新关键字便可确定垃圾序列模型。这是与讲话者相关的识别方法的优点，其中，根据一个讲话者(通常为用户)发出的一段或多端话语创建关键字。于是，一由用户创建了关键字便可应用本方法。

本发明的另一方面涉及一种含程序代码组件的计算机程序产品，当所述产品在计算装置中运行时所述程序代码组件用于执行根据本发明的识别方法。

所述计算机程序产品最好存储在计算机可读记录介质上。

本发明提供一种用于识别话语中的关键字的方法，其中所述话语与至少一个关键字模型和多个垃圾模型比较；以及如果一部分话语与所述关键字模型最匹配，则将该部分话语评定为待识别的所述关键字，其特征在于：如果一部分话语与某个垃圾序列模型最匹配，则也将该部分话语评定为待识别的所述关键字，所述垃圾序列模型包括来自所述多个垃圾模型的一系列连续垃圾模型，其中，所述垃圾序列模型通过下列步骤来确定：-将表示待识别的所述关键字的关键字话语与所述多个垃圾模型进行比较；以及-检测所述多个垃圾模型中与待识别的所述关键字最匹配的所述系列的连续垃圾模型。

本发明还提供一种实施本发明方法的自动语音识别装置，包括：-预处理部分，其中，可以将来自话语的数字信号转换成参数描述，所述话语送入麦克风并在模数转换器中进行转换；-存储器部分，其中，关键字模型、SIL模型、垃圾模型和垃圾序列模型是可存储的；-模式匹配器，其中，所述话语的参数描述可与所存储的关键字模型、SIL模型、垃圾模型和垃圾序列模型进行比较；-控制器部分，其中，结合所述模式匹配器和所述存储器部分，可执行用于识别关键字的方法。

本发明还提供一种具有上述自动语音识别装置的移动设备，其中所述移动设备是移动电话。

附图说明

通过结合附图阅读如下优选实施例的详细说明，便可清楚本发明的各种优点，附图中：

图1说明根据本发明第一方面，用于关键字定位的有限状态语法；

图2说明根据本发明的用于确定垃圾序列模型的有限状态语法；

图3说明根据本发明的第二方面，一条通过多个垃圾模型的路径到一个垃圾序列模型的映射；

图4说明用于现有技术关键字定位的有限状态语法；

图5显示移动设备中自动语音识别装置的方框图。

具体实施方式

自动语音识别用于识别一段话语中的关键字。因此，所用的识别方法表示成有限状态语法。图4说明用于识别一个关键字的现有技术有限状态语法。这种有限状态语法将输入话语的任何部分与表示待识别关键字的模型进行比较。在图4中，为待识别关键字创建的关键字模型表示为一条路径。还显示了多个垃圾模型gi，其中i是整数。例如，一些垃圾模型表示语音事件，如补白的暂停音“em”或咂嘴声。其它垃圾模型表示其它非语音事件，如背景噪声。为了预定义垃圾模型gi，重要的是要知道关键字集、采用语音识别的声环境以及所述垃圾模型所涵盖的语音事件。此外，所示有限状态语法中还包括另一条路径，它被命名为SIL模型，表示典型的静音期。只要一激活识别，便会将每段输入话语或输入话语的任何部分与有限状态语法中的存储模型进行比较。为此，在有限状态语法中，要确定一条通过任一预定义关键字模型、SIL模型和垃圾模型且与输入话语最匹配的路径。这里，一条路径可只包括所述模型之一或一系列所述模型。如果关键字模型本身包括在该路径中，则识别出关键字。

根据本发明的原理，创建亦表示关键字的垃圾序列模型。随后利用此垃圾序列模型语音将输入话语或其一部分评定为待识别关键字，条计是该垃圾序列模型与输入话语或其一部分最匹配。所述垃圾序列模型在本发明中定义为一系列连续垃圾模型gi。这种垃圾序列模型最好根据如图2所述的有限状态语法来创建。这里，用于确定垃圾序列模型的有限状态语法只包括一个SIL模型和多个垃圾模型gi。SIL模型是可选的。垃圾模型gi与正常识别过程中有限状态语法中所用的一样。为了确定垃圾序列模型，将图2所示的有限状态语法应用于表示待识别关键字的关键字话语。然后选择通过多个垃圾模型gi且与该关键字话语最匹配的那条路径。所确定的这一路径是一系列连续垃圾模型gi，它随后在语音识别过程中用于将话语中的任何部分识别为待识别关键字。根据本发明的垃圾序列模型创建方式可用于与讲话者相关和与讲话者无关的语音识别。对于与讲话者相关的语音识别，表示所需关键字的关键字话语是从一个讲话者那里收集的语音。该讲话者通常是其中实现了语音识别方法的移动设备的用户。对于与讲话者无关的语音识别，关键字话语是从若干讲话者中抽取的样本那里收集的语音。或者，关键字语音可以是已训练好并已存储的参考模型。

现在通过如图1所示的示例描述根据本发明第一方面的方法。这里，有限状态语法具有一个关键字模型、一个SIL模型(静音模型)和多个垃圾模型gi。同样地，只采用了一个根据本发明创建的垃圾序列模型。在本示例中，垃圾序列模型由一系列连续垃圾模型：g7-g3-g0-g2-g1-g5构成，这些垃圾模型是根据图2所示的语法确定的。随后将如图1所示的有限状态语法应用到输入话语上。利用这种方法，提高了命中率，因为可在话语的某部分与关键字模型或所确定的垃圾序列模型最匹配时识别出关键字。虽然根据本发明第一方面的方法是根据如图1所示的有限状态语法(其中只有一个垃圾序列模型)来描述的，但本发明不限于该示例。当然，对应每个待识别关键字，可以存在其它N个垃圾序列模型。利用这其它N个垃圾序列模型及首先确定的垃圾序列模型，可进一步提高命中率。根据N+1个垃圾序列模型中的每个垃圾序列模型表示关键字的概率，总数N是有限的。因此，针对所确定的每个垃圾序列模型，计算一个概率值。然后，选择其概率值高于某个阈值的那些垃圾序列模型，从而得到总共N+1个垃圾序列模型。典型的阈值假设为90％的最大可得概率值，其中，最大可得概率值是最佳垃圾序列模型的概率值。为了将垃圾序列模型的总数N+1限制为某个可用数量，应该限制所用垃圾序列模型的总数最大为10。

有利的是，所确定的垃圾序列模型享有相对于通过所述多个垃圾模型的任何路径的特权。具体地说，确定该垃圾序列模型的连续垃圾模型序列的权重总是高于来自所述多个垃圾模型的相同系列的连续垃圾模型。于是命中率提高了，因为只要某一系列的连续垃圾模型与话语的某部分最匹配，便选定了垃圾序列模型，并将该话语部分评定为待识别关键字。虽然本发明是基于一个关键字的有限状态语法来进行说明的，但本发明适用于一个以上的关键字。为了使该垃圾序列模型享有特权，针对来自所述多个垃圾模型的垃圾模型定义了罚分(penalty)。这会导致该垃圾序列模型比通过所述多个垃圾模型的完全相同的系列具有更高的概率。

图3说明由一条通过多个垃圾模型的路径到预定义的垃圾序列模型的映射。这里，在横坐标上，显示了所确定的与关键字模型最匹配的垃圾序列模型g7-g3-g0-g2-g1-g5。时间轴t上显示了一条检测到的通过所述多个垃圾模型的路径，它与输入话语的所示部分最匹配。所确定的垃圾序列模型已经预先定义好，这是根据例如图2所示的有限状态语法来完成的。但与根据第一方面的方法相反，该垃圾序列模型不直接用于将话语的一部分评定为待识别关键字。而是为了识别目的，采用类似图4所示的现有技术有限状态语法。在第一步骤中，检测通过所述多个垃圾模型的与话语最匹配的一条路径。然后，在后处理步骤中，将该检测到的路径与预定义的垃圾序列模型进行比较。由此计算出预定义垃圾序列模型包含在该检测路径中的概率。最后，当此概率高于某个阈值时将该路径假定为垃圾序列模型。当把该路径假定为垃圾序列模型时，随之将该话语的相应部分评定为待识别的关键字。此外，根据本发明第二方面的方法提高了命中率。与根据第一方面的方法相反，此方法更灵活，但需要更多的计算工作。这里，对于每个关键字模型，只需存储一个垃圾序列模型，并且识别处理是后处理计算。现在根据图3更详细地描述评定关键字的后处理计算。可通过计算垃圾序列模型包含在检测到的通过所述多个垃圾模型的路径中的概率来进行软比较。这种概率例如可通过采用动态编程方法[参见Dynamicprogramming；BELLman，R.E.；Princeton University Press；1972]和垃圾模型混淆矩阵来计算。在图3所示的每个网格点，计算描述所确定的路径与预定垃圾序列模型匹配的可能性的概率。因此，将从垃圾混淆矩阵得知的概率P(i|j)(其中，i≠j且均为整数)用作发射概率(emission probability)。或者，也可以采用更高阶的统计模型。由时刻t的垃圾模型g_i转移到离散时刻t+1的垃圾模型g_j的转移概率对所有i、j、t为常数，因此在搜索中不必考虑。而且，允许垃圾序列模型在从t到t+1时保留在同一垃圾模型中，或者转移到下一个垃圾模型，或者跳过某个垃圾模型。因此，如果未正好在该路径中找到垃圾序列模型，则动态编程搜索会给出从t₀到(t₀+M)的时间间隔中垃圾序列的最好概率，如图3所示。在后处理步骤中，计算通过格型网的所有可能路径，然后将具有最高概率的路径用于评定步骤。在最后一个步骤中，如果动态编程给出比预定义阈值高的概率，则将话语的该部分判定为待识别关键字。同样，根据本发明第二方面的方法不限于只识别一个关键字。对于一个以上的关键字，本方法适用于多个关键字中的每一个。

根据本发明原理的方法提高了命中率。利用所述的本发明的两个方面，还可进一步提高命中率。根据本发明第一方面的方法容易实现，需要较少的计算。而根据本发明第二方面的方法则更灵活。当应用结合了本发明的第一和第二方面特征的方法时，还可以进一步提高命中率。于是，当根据第一方面，路径直接与一个或多个预定义的垃圾序列模型最匹配时，将话语的相应部分评定为关键字；或者当根据第二方面，假定路径为垃圾序列模型时，将话语的相应部分评定为关键字。这样，本发明的语音识别方法具有灵活性，且可适应移动设备的局限性，例如实施所述方法的移动设备的有限存储器容量。

图5显示了移动设备如移动电话中的自动语音识别装置100的方框图。语音识别装置100配置成几个部分(如图所示)或一个中心部分，其主要部分为：模式匹配器120、存储器部分130和控制器部分140。模式匹配器120与存储器部分130相连，存储器部分130可存储关键字模型、垃圾模型、SIL模型和垃圾序列模型。根据熟知的现有技术创建关键字模型、SIL模型和垃圾模型。如上所述根据本发明确定垃圾序列模型。控制器部分140连接到模式匹配器120和存储器部分130。控制器部分140、模式匹配器120和存储器部分130是主要部分，它们执行本发明的任何一种自动语音识别方法。移动设备用户讲出的话语经麦克风210转换成模拟信号。此模拟信号随后由模数转换器220转换成数字信号。此数字信号随后由预处理器部分110转换成参数描述。预处理器部分110连接到控制器部分140和模式匹配器120。基于根据本发明的有限状态语法，模式匹配器120将该话语的参数描述与存储在存储器部分130中的模型进行比较。如果该话语的至少一部分的参数模型与存储在存储器部分130中的存储模型之一匹配，则向用户提供所评定的识别结果指示。所指示的识别结果通过移动设备的扬声器300或显示屏(未显示)传递给用户。

与根据现有技术的已知语音识别装置相反，根据本发明的自动语音识别装置还在话语的任何部分与所确定的存储在存储器部分中的垃圾序列模型中的至少一个最匹配时将该部分判定为待识别关键字。于是，提高了命中率。

Claims

1.一种用于识别话语中的关键字的方法，其中所述话语与至少一个关键字模型和多个垃圾模型比较；以及

如果一部分话语与所述关键字模型最匹配，则将该部分话语评定为待识别的所述关键字，

其特征在于：如果一部分话语与某个垃圾序列模型最匹配，则也将该部分话语评定为待识别的所述关键字，所述垃圾序列模型包括来自所述多个垃圾模型的一系列连续垃圾模型，

其中，所述垃圾序列模型通过下列步骤来确定：

-将表示待识别的所述关键字的关键字话语与所述多个垃圾模型进行比较；以及

-检测所述多个垃圾模型中与待识别的所述关键字最匹配的所述系列的连续垃圾模型。

2.如权利要求1所述的方法，其特征在于：

-确定的所述垃圾序列模型享有相对于通过所述多个垃圾模型的任何路径的特权。

3.如权利要求1或2中任意一项所述的方法，其特征在于还包括：

-确定亦表示待识别的所述关键字的若干个其它垃圾序列模型；以及

-如果所述一部分话语与所述若干个垃圾序列模型中的任何一个最匹配，则将所述部分话语评定为待识别的所述关键字。

4.如权利要求3所述的方法，其特征在于：按下述方式确定垃圾序列模型的总数：

-对每个垃圾序列模型计算概率值；并且

-选择其概率值高于阈值的那些垃圾序列模型作为所述垃圾序列模型的总数。

5.如权利要求1所述的方法，其特征在于还包括：

-检测通过所述多个垃圾模型的与所述话语最匹配的路径，

-针对该路径，计算所述垃圾序列模型包含在该路径中的概率值，以及

-为将所述话语的一部分评定为待识别的所述关键字，在所述概率高于阈值时，将通过所述多个垃圾模型的该路径假定为所述垃圾序列模型。

6.如权利要求5所述的方法，其特征在于：

-所述概率是根据所确定的垃圾序列模型和所检测到的通过所述多个垃圾模型的路径以及垃圾模型混淆矩阵来计算的，以及

-所述垃圾模型混淆矩阵包含假定垃圾模型j给定时识别出垃圾模型i的概率P(i|j)。

7.如权利要求6所述的方法，其特征在于：所述概率是用动态编程技术来计算的。

8.如权利要求1所述的方法，其特征在于：至少一个所述垃圾序列模型是在针对待识别的新关键字创建关键字模型时被确定的。

9.如权利要求1所述的方法，其特征在于：所述关键字话语是从一个讲话者那里收集的语音。

10.如权利要求1所述的方法，其特征在于：所述关键字话语是从若干讲话者抽取的样本中收集的语音。

11.如权利要求1所述的方法，其特征在于：所述关键字话语是参考模型。

12.一种实施如权利要求1-11中任意一项所述方法的自动语音识别装置(100)，包括：

-预处理部分(110)，其中，可以将来自话语的数字信号转换成参数描述，所述话语送入麦克风(210)并在模-数转换器(220)中进行转换；

-存储器部分(130)，其中存储了关键字模型、SIL模型、垃圾模型和垃圾序列模型；

-模式匹配器(120)，其中，所述话语的参数描述可与所存储的关键字模型、SIL模型、垃圾模型和垃圾序列模型进行比较；

-控制器部分(140)，其中，结合所述模式匹配器(120)和所述存储器部分(130)，可执行用于识别关键字的方法。

13.一种具有如权利要求12所述的自动语音识别装置的移动设备，其中所述移动设备是移动电话。