CN1209743C

CN1209743C - 使用音调建模的话音识别系统和方法

Info

Publication number: CN1209743C
Application number: CNB008185468A
Authority: CN
Inventors: G·钟; 梁康忠; 黄淑卿
Original assignee: Infotalk Corp Ltd
Current assignee: Creative Technology Ltd
Priority date: 1999-11-23
Filing date: 2000-11-22
Publication date: 2005-07-06
Anticipated expiration: 2020-11-22
Also published as: CN1425176A; AU1928001A; WO2001039179A1

Abstract

本发明提供了一种独立于说话者的话音识别系统和方法，它在顺序结构中综合了频谱和音调分析。该系统分析说话音节(或音节组)的频谱含量，并产生多个预测音节中每一个的频谱记录。然后，预测音节的时间对准信息(36)顺序通过音调建模模块(14)，该模块执行说话音节的迭代基频(F0)轮廓估计。然后用邻近音节的音调和音调信息的变化速率产生多个预测音节中每一个的音调记录。然后，音调记录(34)与频谱记录(32)算术组合(40)，以产生输出预测。

Description

使用音调建模的话音识别系统和方法

技术领域

本发明涉及话音识别领域。尤其，本发明提供了一种独立于说话者的话音识别系统和方法，用于组合频谱记录的音调语言，从而用音调记录得到说话音节的最佳预测。

背景技术

近来，话音识别系统有很大的进展。然而，开发的大部分这些系统都用于无音调的西方语言，如英语，区别于很多有音调的东方语言，如汉语。在音调语言中，话音的音调与意思有关，因此像分析无音调语言那样只分析说话音节的频谱含量是不够的。音调语言通常通常具有四种或九种音调。例如在具有四声的汉语普通话中，这些音调被分为“阴平”、“阳平”、“上声”、“去声”。然而清楚地识别这些音调很困难，因为不同的说话者有不同的说话特征。在诸如汉语的语言中，音调用某些特征表征，如基频(F0)值和相应的轮廓形状。由于F0的绝对值在不同说话者间变化很大，所以很难捕获并适当分析这些值和形状，用于独立于说话者的识别。例如，低音调说话者的高音可能和高音调说话者的低音相同或类似。

CN 1122936，US 5787230，CN 1107981，CN 1127898，US 5680510，WO 97/40491，WO 96/10248和US 5694520中描述了几种已知的用于音调语言的话音识别系统。然而，很多这种系统依赖于音节基频(F0)的绝对值，以确定适当的音调，因此在具有不同音调特征的说话者之间不能作适当地区别。这些系统在正常工作之前通常受一特定说话者的“训练”。此外，每个这种系统都使用并行处理结构，阻止了频谱和音调信息的综合分析，因此进一步限制了它们在独立于说话者应用中的作用。

发明内容

本发明提供了独立于说话者的话音识别系统和方法，它以顺序结构方式综合频谱和音调分析。该系统分析说话音节(或音节组)的频谱含量，并产生多个预测音节中每一个的频谱记录。然后，预测音节的时间对准信息顺序通过音调建模模块，该模块执行说话音节的迭代基频(F0)轮廓估计。然后用邻近音节的音调和音调信息的变化速率产生多个预测音节中每一个的音调记录。随后，音调记录与频谱记录算术组合，以产生输出预测。

本发明的一方面提供了一种话音识别方法，它包括以下步骤：(a)接收话音波形；(b)执行话音波形的频谱分析并产生一组音节预测，每个音节预测包括一个或多个预测音节，其中该组音节预测包括频谱记录和一个或多个预测音节的时间对准信息；(c)使用时间对准信息顺序执行输入话音波形的音调分析，并产生每个音节预测的音调记录；和(d)对于每个音节预测组合频谱记录和音调记录，以产生一输出预测。

本发明的另一方面提供了一种话音识别系统，它包括几种软件和/或硬件实现的模块，包括：(a)频谱建模模块，它分析话音波形，并根据话音波形的频谱含量产生多个预测音节，其中每个预测音节包括一关联的频谱记录和表示音节持续时间的时间对准信息；(b)音调建模模块，它用来自频谱建模模块的时间对准信息顺序分析话音波形，并对于每个预测音节根据话音波形的音调含量产生多个音调记录；(c)组合模块，用于组合频谱记录和音调记录，以产生最可能音节的输出预测。

本发明的又一方面提供了一种分析话音波形的系统。该系统最好包括用于产生频谱记录的频谱建模部分，和用于产生音调记录的音调模块部分。频谱建模部分产生表示话音波形中多个音节的开始和结束点的时间对准信息，并将该时间对准信息提供给音调模块部分，以顺序分析话音波形。

根据本发明的另一方法提供了一种分析携带多个音节的话音波形的方法。该方法最好包括以下步骤：(a)在话音波形上执行频谱分析，并产生每个音节的一个或多个频谱记录；(b)在话音波形上执行音调分析并产生每个音节的一个或多个音调记录，其中通过比较两个或多个邻近音节的基频产生音调记录；(c)组合频谱记录和音调记录，以产生输出预测。

根据本发明的又一更特殊的方法提供了一种识别话音波形中音调信息的方法。该方法最好包括以下步骤：(a)产生话音波形中多个音节的时间对准信息；(b)用时间对准信息指定的开始和结束点确定话音波形中每个音节的中心点；(c)确定音节在中心点处的能量；(d)产生每个音节的分析窗口，其中分析窗口以中心点为中心，以中心点两侧音节能量减小到中心点处能量的第一预定百分比的点为边界；(e)计算分析窗口中的基频轮廓；(f)从基频轮廓中提取一个或多个音调特征；(g)根据一个或多个提取的音调特征产生每个音节的多个音调记录。

根据阅读以下的附图描述，以上没有特别示出的本发明的其它方面对本领域熟练的技术人员将是明显的。

附图说明

图1是根据本发明独立于说话者的话音识别系统的框图。

图2是根据本发明描述一系列F0轮廓估计步骤的流程图。

图3是用本发明方法产生的描述三个说话音节的示例F0轮廓曲线图。

图4是描述包括音调信息的三个说话音节的时间图。

具体实施方式

参考附图，图1是估计本发明独立于说话者的话音识别系统的框图。该系统包括两个部分(支路)，一个上部分12执行输入波形的频谱建模并产生频谱记录32，一个下部分14根据输入波形和从上部分12接收到的信息执行音调建模并产生音调记录34。然后组合模块组合频谱记录32和音调记录34，以产生说话音节的最佳输出预测42。在这种情况下，本发明提供了用于话音识别的顺序结构，其中来自频谱分析的信息用于音调分析，以提供更稳健的结果。

图1中未清楚示出用于产生输入波形16的前端硬件(或软件)和用于输出预测42的后端硬件(或软件)。根据系统的应用，该前端硬件可包括话筒、模数转换器和数字信号处理器(DSP)。例如，系统10可集成入各种应用中，如通用话音识别程序、电话、蜂窝电话或其它类型的电子设备，或任何其它类型的需要独立于说话者的话音识别能力的应用软件或电子设备。然而较佳的是，输入波形16是数字波形。

频谱建模部分12包括频谱分析模块18、特征提取模块20、和模型记录模块22和N最佳搜索模块24。模型记录模块22接收来自模型数据库46的信息，N最佳搜索模块24接收来自词汇数据库48的信息。

频谱分析模块18接收输入波形16并执行说话(多)音节的频域频谱分析。示例频谱分析可包括快速傅里叶变换(FFT)，或唛(me1)频率倒频谱系数分析(MFCC)，或线性保护系数分析(LPC)。不管所执行频谱分析的确切类型，频谱分析模块18产生包括多维矢量的序列帧，多维矢量描述输入波形16的频谱含量。

然后将来自频谱分析模块18的帧序列提供给特征提取模块20。特征提取模块分析帧序列中的多维矢量数据，并产生进一步描述输入波形16某些特征的附加维数数据。例如，特征提取模块20可计算矢量中每一维的两个邻近帧之间的差别，然后计算所计算出差别的差别，或者它可以计算能量或某些其它相关计算。这些计算与说话音节的某些特征有关，模型记录模块22可进一步使用这些特征，以适当地预测实际话音。

然后，来自频谱分析模块18的多维矢量数据和来自特征提取模块20的附加计算(统称为特征矢量)被提供给模型记录模块22。模型记录模块可使用高斯分布函数计算使特征矢量对应于某些音节的特定频谱模型的概率结果。这时，重要的是要注意到这里描述的系统可以各种粒度等级构造。因此，可将系统构造成每次分析一个字母，或每次一个音节，或每次一组音节，或每次分析整个单词。然而，不管分析的粒度，描述的基本步骤和功能是相同的。

模型记录模块22用来自模型数据库46的数据计算其在特定输入数据组(特征矢量)中的概率。模型数据库最好包括隐马尔可夫模型(HMM)，虽然也可以使用其它类型的模型。关于HMM的更多信息，参见Hisashi Wakita的Robustness in Automatic Speech Recognition，pp.90-120。使用来自频谱分析模块18和特征提取模块20的输入数据，模型记录模块研究模型数据库中每个条目的预测(或记录)。较高的记录与可能性较大的频谱模型关联，较低的记录与可能性较小的模型关联。

然后，将来自模型记录模块22的每个模型的记录传递到N最佳搜索模块24，该模块将这些记录与存储在词汇数据库中的数据比较，以得出可能性最大的说话音节(根据应用或是字母，或单词)的一组预测值。通常将词汇数据库组织成包括与这些音节相关的音节和音调的一系列单词，虽然其它词汇组织也是可能的。如果词汇是单词等级的，那么N最佳搜索模块24就在与词汇数据库48中的数据比较之前在帧等级(或音节等级)上组合记录。

N最佳搜索模块24提供两个输出32、36。第一输出是通过将模型记录信息与词汇数据库48中存储的数据比较而确定的可能性最大的音节(或单词或句子)的一组频谱记录32。这些频谱记录32最好用概率值描述，然后提供给组合模块40，与音调记录34组合。

对于该组可能性最大的音节中的每一个，N最佳搜索模块24还将时间对准信息36提供给音调分析部分14的F0估计模块26。时间对准信息36包括关于特定音节何时开始和结束的信息。信息36还包括预测音节(及其关联音调)的标识符，这是由N最佳搜索模块24确定的。因此，例如如果将N最佳搜索模块构造成预测三个最可能的说话音节，那么传递到F0估计模块26的时间对准信息36应包括三个音节中每一个的开始和结束时间信息，音节的标识符及其音调。

在音调建模部分14中，F0估计模块26、特征提取模块28和模型记录模块30分析输入话音波形16。在以下描述中，示出测试图1和图2，图2是根据本发明描述F0轮廓估计26的一系列步骤的流程图。

音调分析部分14的一般工作如下。输入波形16输入到基频(F0)估计模块26，该模块还接收来自N最佳搜索模块24的时间对准信息36。F0估计模块26使用输入波形和时间对准信息，以输出F0轮廓44，以下将进一步描述。F0波形44的确定最好基于平均幅度差函数算法。F0轮廓确定之后，然后系统使用特征提取模块28从输入波形的F0轮廓中提取多个特征，如邻近音节对的平均F0频率与F0轮廓的一阶最小二乘回归线斜率的比值。然后将这些特征输入统计模型30，该模型最好使用二维完全协方差高斯分布，对于来自N最佳搜索模块24的每个预测音节产生多个音调记录34。对于每个预测音节，音调记录34与来自频谱分析部分12的频谱记录32组合(最好是线性组合)，以获得一组对应于输出预测42的最终记录。

现在更详细地描述音调建模部分14。

1. F0估计算法

图2是根据本发明描述F0轮廓估计26的一系列步骤的流程图。F0估计算法涉及初始二阶低通滤波运算110，之后是基于AMDF算法的方法。基本描述如下：

1.1 低通滤波

输入波形16的二阶低通滤波步骤110最好用以下传递函数描述：

H (z) = \frac{1}{1 - {1.6 z}^{- 1} + {0.64 z}^{- 2}}

该运算可消除输入信号中的高频噪声。该方法的这一阶段还可执行其它传递函数和其它类型的滤波运算。

1.2 对准

低通滤波步骤110之后，在步骤112中F0估计模块26接收来自频谱建模部分12中N最佳搜索模块24的时间对准信息36。如上所述，该信息36包括来自频谱分析的每个预测音节的开始和结束时间信息，还包括预测音节及其对应音调的标识符。音调建模模块的主要目的是预测这些频谱预测值中的哪一个最可能给出实际输入波形16的音调信息分析。然后，通过确定音节中的最大能量点可识别每个音节的中心点。

1.3 AMDF

步骤112之后，在步骤114中F0估计模块26用AMDF算法计算整个帧的基频轮廓，该帧对应于特定预测值(如上所述可以是字母、音节、单词或句子)。该步骤还计算整个数据帧的平均频率F_AV。AMDF算法用对应于预测类型的低通滤波波形16的N数据点长度窗口产生基频的估计值。该方法中，在需要基本值的每个帧处计算差函数。差函数的公式如下：

y_{n} (k) = Σ_{m = 0}^{N} x (n + m) - x (n + m - k)

其中y_n(k)在k＝P，2P，...处尖锐地下沉，其中P是基本周期。由于周期是频率的倒数，通过确定波形的周期可得出基频。

因此，该差函数的每个局部最小值与基本周期的倍数关联。一般，在N点窗口中发生全局最小值的点处识别基本周期。然而，由于话音波形的各种失真和诸如喉音化的影响，这通常不正确。实际上，尤其在元音-辅音转换边界处，全局最小值会发生在基本周期的一半或整数倍数处，因此，轮廓的估计更容易发生误差。这些减半或加倍的误差显示出基本轮廓中的较大偏离，而实际上正确的轮廓是光滑的，只有很小的等级变化。所以，为了改进这种误差，必须使用其它方式选择表示基本周期的正确的局部最小值。在该算法中，之后引导多个通道通过波形，以选择对应于基本周期的正确最小值。以下参考步骤116-122描述这些附加步骤。

1.4 迭代F0重新估计

图3所示的实际F0轮廓估计包括多轮通过整个说话(即输入波形16中呈现的所有数据)。这是为了减少减半或加倍误差数。这些误差在元音边缘处更明显，即在辅音-元音转换边界处。此外，如果没有声音，F0的估计值就没有意义，而应该忽略F0的值。在元音-辅音边界没有精确对准时，F0估计算法中必须结合自动声音检测。

1.4.1 可靠性岛

为了减少这些减半和加倍误差，本发明引入“可靠性岛”的概念。首先，在较佳方法的步骤116中计算这些可靠性岛，该方法使用步骤112接收到的时间对准信息36。之前在步骤112中，从频谱分析部分提供的对准中获得每个音节中心附近的最大能量点。然后在步骤116中，将能量保持在最大值的P％以上话音片段标记为“可靠性岛”。这里，“P”值是预定量，随应用而变化。可靠性岛的概念提供基本F0估计器或AMDF算法产生相当可靠结果的话音片段。图3示出每个音节的初始可靠性岛如208所示的三个话音音节202、204、206的部分F0轮廓200。

对于第一轮通过，只要帧落入可靠性岛内，就以固定的帧间隔上述的计算差函数。将该帧的基本周期选成差函数的全局最小值。在这一处理阶段忽略任何局部最小值。然后，从计算出的这些值中计算总的平均F0。这就形成了指示说话者声音平均音调F_AV的初始估计，最终的基频轮廓应该在这附近。

1.4.2 F0估计

当第二轮通过波形时，在可靠性岛内建立F0轮廓，但这时要考虑全局和局部最小值。再次计算这些岛内所有帧的差函数。现在，为了确定真正的音调轮廓，使用两个来源执行上述差函数y_n(k)的每个估计。该算法搜索(1)差函数的全局最小值K_G和(ii)与以上第一轮通过相比最接近平均基本周期F_AV的局部最小值K_L。如果(i)中的全局最小值K_G比其它局部最小值(ii)小某个预定阈值比例的值，则总是选择(i)中的全局最小值K_G。否则，选择(ii)中的K_L。因此，

用这种方式，在标记的可靠性岛中从说话的左到右预测F0轮廓。选择K_L而不选K_G，除非K_G远小于其它局部最小值，其原因是通常说话者的音调不会变化得很快，因此正确的F0更可能基于最接近整个数据帧平均基频的局部最小值。

1.4.3 岛扩展

通过话音数据的下一轮通过涉及确定F0轮廓，从初始可靠性岛的每个边界到波形能量下降到低于岛内最大能量的R％的岛两侧的点。在该通过120中，确定元音声音中断的边界，这通过测试初始岛边界左边或右边数据帧，然后假设当数据帧中的能量降到低于初始可靠性岛元音中心处最大值的R％时，F0估值就不再可靠。这是因为没有声音，因此忽略超出该截断点的F0值。用这种方式，初始可靠性岛扩展到初始边界的左边和右边。图3示出三个说话音节202、204、206的一部分F0轮廓200，其中每个音节的初始可靠性岛如图208所示，每个音节的扩展可靠性岛如210所示。

然后在步骤122，重新计算扩展可靠性岛上的基频轮廓F0。对于每个可靠性岛208右边的F0轮廓，从左到右估计轮廓，对于每个岛左边的F0轮廓反之亦然。对于每个时刻再次计算差函数，标记两个特定位置。该方法搜索(i)全局最小值K_G和(ii)直接在当前估计值左边最接近基本周期值发生的局部最小值K_L。如果全局最小值K_G比其它局部最小值(ii)小某个预定阈值δ小得多，则总是选择(i)中的全局最小值。否则，选择(ii)中的K_L作为基本周期。

这些步骤120，122相当类似于步骤118中可靠性岛中的F0估计。用类似的方式，该程序连续从右到左估计到可靠性岛左边的基频值，从这些岛中每个的左边界开始并在能量低于音节中最大能量的R％时结束。

该方法使用差函数y_n(k)的全局最小值作为基本周期的估计值，如果该值不是远离音调轮廓的先前估计值。在很多情况下，(i)和(ii)中的最小值计算在同一点处相符合，而不管基本周期发生在哪里。目的是产生间断最少的尽可能光滑的基本轮廓，而突变可能更接近于真实轮廓。

1.5 中值滤波

作为产生更光滑轮廓的附加测量，步骤124中应用五点中值滤波。该操作用于平滑轮廓数据，并产生F0轮廓输出44，然后将它提供给音调分析部分14的特征提取模块28。

2. 音调特征提取和建模算法

在计算F0轮廓之后，提取关于音调信息的特征，以产生音调记录，该记录最终与频谱记录组合，以达到最终输出预测42。特征提取模块28和建模记录模块30执行这些步骤。音调模型最好基于二维完全协方差高斯模型，虽然也可以使用其它音调模型。在这类模型的训练期间，为音调对的每个唯一的组合构造分离的子模型。词汇数据库48中的每个音节与其本身的音调关联。因此，对于N音节的词汇，总共有N平方个子模型。提供包括多个子模型的音调模型，子模型描述一组可能的邻近音调；然后比较音调特征和多个子模型，以产生音调记录。

音调模型最好包括二维：(1)音节的平均音调频率与下一音节的平均音调频率的比值(用于比较音调对)；和(2)用一个音节的回归线估计的基频F0的斜率。在(1)中，通过平均每个音节的F0频率来估计音调频率，然后获得邻近音节的比值。在(2)中，用一阶最小二乘线性回归线估计音节轮廓的斜率。这两个特征由特征提取模块28提供，该模块28对来自F0估计模块26的输出F0轮廓44操作，然后将这两个特征提供给模型记录模块，该模块得出每个邻近音节对的高斯记录34。通过记录基于邻近音调的音调信息，本发明克服了已知系统的主要缺点，已知系统只得出基于基频F0轮廓绝对值的音调信息，而不考虑邻近音调。本发明的优点是能用于独立于说话者的环境。

计算了来自频谱部分12的特定预测音节组的频谱记录32，并计算了来自音调部分14的同一预测音节组的对应音调记录34之后，图1所示的系统在组合模块40中组合这些记录，如下所述，以得出最终输出预测42。

组合模块40只需要考虑对应于某些音节的音调记录，这些音节的假设预测与任何N个假设中同一位置中的不同。换句话说，如果对于所有的N假设，假设所讨论的音节对在各种情况下都相同，并因而产生相同的音调记录，则忽略该记录。有效地是组合模块40只考虑在至少一个保留的N假设中假设不同的音调记录。在每个假设处，对多个音调记录非零的音节对平均这些音调记录，以形成音调记录S_t。例如，在下面实例中，假设数目N＝3，αi是具有五音节说话中的假设音节：

Hyp1：α1α2α3α4α5^-

Hyp2：α6α7α3α4α5

Hyp3：α6α7α3α4α6

在三个假设的假设标签中只有前两个和最后一个音节是不同的，其余是相同的。因此，如果s(αi αj)表示音节对αi和αj的音调记录34，那么对于hyp1St＝(s(α1α2)+s(α2α3)+s(α4α5))/3，对于hyp2 St＝(s(α6α7)+s(α7α3)+s(α4α5))/3，而对于hyp3 St＝(s(α6α7)+s(α7α3)+s(α4α6))/3。最后，St乘以预定比例系数β，之后与说话的频谱记录Ss组合，以形成最终记录S_TOTAL。

S_TOTAL＝St+βSs

然后，最终记录用于重新排列假设，以产生新的N最佳列表，作为最终输出预测42。

图4是描述含音调信息的三个说话音节的时间图。该图示出一系列三个音节：x(3)、y(1)和z(2)，其中x、y和z指示音节，圆括号内的数字(3)、(1)和(2)指示各个音节的音调。当本发明的音调识别部件计算音调3在t1和t2之间而音调1在t2和t3之间的概率时，它使用了t1和t3之间的音调信息。该策略具有两个优点：(1)它减小识别软件对说话者不同说话特征的敏感性；(2)它捕获两个邻近音节和音调的协同发音影响。

通过详细描述本发明的较佳实施例，包括较佳的操作方法，可以理解该操作可用不同的元件和步骤实现。该较佳实施例只是作为实例呈现，而不限制本发明的范围，本发明的范围由以下权利要求书定义。

Claims

1.一种话音识别方法，其特征在于，包括以下步骤；

接收话音波形；

执行话音波形的频谱分析，并产生一组音节预测，每个音节预测包括一个或多个预测音节，其中该组音节预测包括一个或多个预测音节的频谱记录和时间对准信息；

用时间对准信息顺序执行输入话音波形的音调分析，并产生每个音节预测的音调记录：

组合每个音节预测的频谱记录和音调记录，以产生输出预测。

2.如权利要求1所述的方法，其特征在于，使用快速傅里叶变换算法执行频谱分析步骤。

3.如权利要求1所述的方法，其特征在于，使用唛频率倒频谱系数算法执行频谱分析步骤。

4.如权利要求1所述的方法，其特征在于，使用线性保护系数算法执行频谱分析步骤。

5.如权利要求1所述的方法，其特征在于，频谱分析步骤产生一系列数据帧，数据帧包括描述话音波形频谱含量的多维矢量。

6.如权利要求5所述的方法，其特征在于，频谱分析步骤还包括以下步骤：

分析数据帧序列中的多维矢量，并产生每个数据帧的特征矢量，特征矢量包括多维矢量和一个或多个描述话音波形频谱特征的附加维矢量。

7.如权利要求6所述的方法，其特征在于，频谱特征是话音波形的能量。

8.如权利要求6所述的方法，其特征在于，频谱特征是话音波形的微分计算。

9.如权利要求6所述的方法，其特征在于，还包括以下步骤：

比较特征矢量和频谱模型，并计算一组概率结果。

10.如权利要求9所述的方法，其特征在于，频谱模型是隐马尔可夫模型。

11.如权利要求9所述的方法，其特征在于，频谱分析步骤还包括以下步骤：

比较该组概率结果与词汇表，以产生该组音节预测。

12.如权利要求1所述的方法，其特征在于，音调分析步骤还包括：

使用来自频谱分析步骤的时间对准信息产生话音波形的基频轮廓；

从基频轮廓中提取一个或多个音调特征；和

根据一个或多个提取的音调特征产生音调记录。

13.如权利要求12所述的方法，其特征在于，一个或多个音调特征包括话音波形中两个邻近音节的基频的比值。

14.如权利要求12所述的方法，其特征在于，一个或多个音调特征包括基频轮廓的斜率测量值。

15.如权利要求12所述的方法，其特征在于，音调特征包括话音波形中两个邻近音节的基频的比值和基频轮廓的斜率测量值。

16.如权利要求12所述的方法，其特征在于，产生音调记录的步骤还包括以下步骤：

提供包括多个子模型的音调模型，子模型描述一组可能的邻近音调；和

比较音调特征和多个子模型，以产生音调记录。

17.如权利要求12所述的方法，其特征在于，产生基频轮廓的步骤还包括以下步骤：

用时间对准信息指定的开始点和结束点来确定话音波形的每个音节中的中心点。

确定中心点处音节的能量；

产生每个音节的分析窗口，其中分析窗口以中心点为中心，以中心点两侧音节能量减小到中心点处能量的第一预定百分比的点为边界；和

计算分析窗口中的基频。

18.如权利要求17所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

计算分析窗口中的差函数，以产生至少一个全局最小值和一个或多个局部最小值，其中全局最小值小于所有的局部最小值；和

选择全局最小值，以计算基频。

19.如权利要求18所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

用从选择的全局最小值计算出的基频来计算多个邻近音节中的平均频率；

在每个分析窗口中，

选择最接近于平均频率的局部最小值，

如果全局最小值比选择的局部最小值小预定的阈值等级，则使用全局最小值的差函数计算基频，否则使用选择的局部最小值的差函数计算基频。

20.如权利要求19所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

将每个音节的分析窗口扩展到音节能量降低到中心点处能量的第二预定百分比的点；和

计算扩展分析窗口中的基频。

21.如权利要求20所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

计算扩展分析窗口中的差函数，以产生至少一个全局最小值和一个或多个局部最小值，其中全局最小值小于所有的局部最小值；和

选择全局最小值，以计算基频。

22.如权利要求21所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

用从选择的全局最小值计算出的基频来计算多个邻近音节的平均频率；

在每个扩展的分析窗口中，

选择最接近于平均频率的局部最小值，

23.一种话音识别系统，其特征在于，它包括：

频谱建模模块，它分析话音波形，并根据话音波形的频谱含量产生多个预测音节，其中每个预测音节包括一关联的频谱记录和表示音节持续时间的时间对准信息；

音调建模模块，它用来自频谱建模模块的时间对准信息顺序分析话音波形，并对于每个预测音节根据话音波形的音调含量产生多个音调记录；和

组合模块，用于组合频谱记录和音调记录，以产生最可能音节的输出预测。

24.如权利要求23所述的话音识别系统，其特征在于，频谱建模模块还包括：

频谱分析器，用于执行话音波形的频谱分析，并产生描述话音波形频谱含量的多维矢量。

25.如权利要求24所述的话音识别系统，其特征在于，频谱分析使用快速傅里叶变换算法。

26.如权利要求24所述的话音识别系统，其特征在于，频谱分析使用唛频率倒频谱系数算法。

27.如权利要求24所述的话音识别系统，其特征在于，频谱分析使用线性保护系数算法。

28.如权利要求24所述的话音识别系统，其特征在于，频谱建模模块还包括：

特征提取模块，用于分析多维矢量，并产生特征矢量，其中特征矢量包括多维矢量和一个或多个描述话音波形频谱特征的附加维矢量。

29.如权利要求28所述的话音识别系统，其特征在于，频谱特征是话音波形的能量。

30.如权利要求28所述的话音识别系统，其特征在于，频谱特征是话音波形的微分计算。

31.如权利要求28所述的话音识别系统，其特征在于，频谱建模模块还包括：

模型记录模块，用于比较特征矢量和频谱模型，并计算一组概率值；和

模型数据库，用于存储频谱模型。

32.如权利要求31所述的话音识别系统，其特征在于，频谱模型是隐马尔可夫模型。

33.如权利要求31所述的话音识别系统，其特征在于，频谱建模模块还包括：

最佳搜索模块，用于比较该组概率值与词汇表，并选择一组最可能的预测音节；和

词汇数据库，用于存储词汇。

34.如权利要求23所述的话音识别系统，其特征在于，音调建模模块还包括：

基频估计模块，用于使用来自频谱建模模块的时间对准信息产生话音波形的基频轮廓；

特征提取模块，用于从基频轮廓中提取一个或多个音调特征；和

模型记录模块，用于根据一个或多个提取的音调特征产生多个音调记录。

35.如权利要求34所述的话音识别系统，其特征在于，一个或多个音调特征包括话音波形中两个邻近音节的基频的比值。

36.如权利要求34所述的话音识别系统，其特征在于，一个或多个音调特征包括基频轮廓的斜率测量值。

37.如权利要求34所述的话音识别系统，其特征在于，音调特征包括话音波形中两个邻近音节的基频的比值和基频轮廓的斜率测量值。

38.一种分析话音波形的系统，其特征在于，它包括：

频谱建模部分，用于产生频谱记录；和

音调建模部分，用于产生音调记录；

其中频谱建模部分产生时间对准信息，该信息指示话音波形中多个音节的开始点和结束点，并将该时间对准信息提供给音调建模部分，用于顺序分析话音波形。

39.一种分析携带多个音节的话音波形的方法，其特征在于，该方法包括以下步骤：

对话音波形执行频谱分析，并产生每个音节的一个或多个频谱记录；

对话音波形执行音调分析，并产生每个音节的一个或多个音调记录，其中通过比较两个或多个邻近音节的基频产生音调记录；和

组合频谱记录和音调记录，以产生输出预测。

40.一种识别话音波形中音调信息的方法，其特征在于，该方法包括以下步骤：

产生话音波形中多个音节的时间对准信息；

用时间对准信息指定的开始点和结束点确定话音波形中每个音节的中心点；

确定中心点处音节的能量；

产生每个音节的分析窗口，其中分析窗口以中心点为中心，以中心点两侧音节能量减小到中心点处能量的第一预定百分比的点为边界；

计算分析窗口中的基频轮廓；

从基频轮廓中提取一个或多个音调特征；和

根据一个或多个提取的音调特征产生每个音节的多个音调记录。

41.如权利要求40所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

选择全局最小值，以计算基频。

42.如权利要求41所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

在每个分析窗口中，

选择最接近于平均频率的局部最小值，

43.如权利要求42所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

计算扩展分析窗口中的基频。

44.如权利要求43所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

选择全局最小值，以计算基频。

45.如权利要求44所述的方法，其特征在于，计算基频的步骤还包括以下步骤：

在每个扩展的分析窗口中，

选择最接近于平均频率的局部最小值，