CN1742321B

CN1742321B - 韵律模仿合成方法和装置

Info

Publication number: CN1742321B
Application number: CN2004800026542A
Authority: CN
Inventors: 乔丹·克恩; 丹尼尔·L·罗斯; 伊格·兹罗卡尼克
Original assignee: Voice Signal Technologies Inc
Current assignee: Voice Signal Technologies Inc
Priority date: 2003-01-24
Filing date: 2004-01-21
Publication date: 2010-08-18
Anticipated expiration: 2024-01-21
Also published as: US20040148172A1; DE112004000187T5; WO2004068466A1; CN1742321A; US8768701B2; JP2006517037A

Abstract

一种合成可听短语(单词)的方法和装置，包括捕捉发声，所述发声可以是一个单词，并从所述发声提取韵律信息(参数)，然后将所述韵律参数应用到合成(标称)单词以产生与发声和标称单词相对应的韵律模仿单词。

Description

韵律模仿合成方法和装置

技术领域

本发明涉及语音使能通信系统。

背景技术

许多移动电话(这里指的是包括至少能够执行电话或语音通信功能的数据处理和通信设备)配备语音辅助接口特征，其能够使用户通过说出词句访问一个功能从而调用该功能。一个熟悉的例子就是语音拨号，借此用户向电话说出一个名字或其他预存的词句，那么该电话就通过拨与该名字相关联的号码作出响应。

为了验证要被拨的号码或要被调用的功能确实是用户想要的，移动电话可以向用户显示一个确认消息，如果是正确的就允许用户继续进行，或者如果是错误的话就允许用户放弃。可听和/或可视用户接口存在用来与移动电话设备交互。与可视确认和接口相比，可听确认和用户接口允许更加不用手的操作，例如司机可以需要其来希望将他或她的眼睛保持盯着路面而不是看着电话设备。

语音识别被用在移动电话中以识别由电话用户说出的短语、单词、声音(这里通常指的是发声)。因此语音识别有时被用在电话本应用中。在一个例子中，电话使用可听确认响应被识别的说出的名字，通过电话扬声器输出再现。该用户在听到重放时接受或拒绝该电话的识别结果。

在人类语音中，每个发音具有某些可以被量化的性质，被称为韵律(prosodic)参数，其确定该发音像什么。这些通常被考虑的是音高或音调，语音的元素定时，和重音，通称被表示成能量。语音识别系统使用语音的其他特征，诸如声道(vocal tract)形状，其是非韵律的但是有助于确定说了什么。人类收听者习惯于部分基于语音的韵律参数辨别语音质量。此外，人类说话者在语音中使用韵律以帮助整体交流并用来将他们的语音和其他说话者的语音相区别。因此人类自然地敏感于韵律，并能轻易地确定“真实”人类语音与由机器“合成”语音(语音合成器)的差别。实际上，使用差的韵律规则的合成语音对于人类耳朵来说难以理解的。

发明内容

一般地，本发明的各个方面特征在于用于合成可听短语(单词)的方法和系统，其包括捕捉发声，该发声可以是一个单词，并且从其提取韵律的和非韵律的信息(参数)，识别该单词，然后将韵律参数应用到所述单词的合成的(标称，nominal)形式以产生与所述发声和所述标称单词对应的韵律模仿的短语。

本发明的一个方面特征在于用于一种语音合成的方法，包括接收发声；从所述发声中提取一个或多个韵律参数；对发声解码以提供识别的单词；合成与识别的单词对应的标称单词；以及使用所述标称单词和所述韵律参数产生韵律模仿单词。

本发明的另一方面特征在于用于语音合成的系统，包括接收发声的音频输入设备；检测所述发声的音高的音高检测器；确定所述发声的韵律参数的信号处理器；识别所述发声并提供对应的识别单词的解码器；合成对应于识别的单词的标称单词的语音合成器；和接收标称单词和韵律参数并产生韵律模仿单词的韵律模仿产生器。

本发明的另一个方面特征在于已经存储了适于在处理器上执行的指令的计算机可读介质，包括接收发声的指令；从所述发声中提取一个或多个韵律参数的指令；对发声解码以提供识别的单词的指令；合成对应于识别的单词的标称单词的指令；以及使用所述标称单词和所述韵律参数产生韵律模仿单词的指令。

本发明的这些和其他方面提供改进的语音合成，尤其在小的移动设备中，诸如带有语音激活命令和用户接口的移动电话。在一个方面，具有可听确认消息的更好的合成的能力，该可听确认消息具有与用户的韵律特征类似的韵律特征。更好的语音合成对于人类来说听起来更加自然和可理解，因此本发明改善了可听用户接口的有用性和可理解性。

本发明的各种特征和优点将从下面的描述和权利要求中更清楚。

附图说明

为了根据充分地理解本发明的特征和目的，参考以下与附图相关联的描述，其中相同的标号用来表示相同的或相似的部分，其中：

图1是具有语音接口系统的移动电话设备的框图。

图2是使用完整单词模型合成语音的过程的框图。

图3是使用音素级别模型合成语音的过程的框图。

具体实施方式

如上简述，人类语音不仅仅包括实质内容(产生什么单词和声音)，还包括如何产生单词和声音的信息。通常，一组参数(韵律参数)至少部分地描述了如何讲出单词或声音以及听起来像什么。韵律参数的例子如音高、能量和定时。更好的使用韵律内容能够产生更自然的和更易理解的合成语音，这是在诸如使用合成音频接口的移动电话的现代通信系统中是有用的特征。

根据本发明的电话设备使用语音合成电路、逻辑和可执行编码指令以产生通过其扬声器输出端提供的可听信号。通过提取和使用用户说出的单词的韵律特征来合成和产生可听输出，该电话设备合成听起来像用户声音的高质量真实发声的语音。一个特殊的应用是用于改善用于确认移动电话用户说出的命令的合成语音消息的质量和可理解性。

图1是移动电话设备10的框图，该移动电话设备10具有语音用户接口。该系统包括输入、输出、处理和存储部件。

音频输入设备1000接收发声。该音频输入设备是麦克风，更特别地是，是用于在移动电话设备10上通信的同一个麦克风。

音频输入设备1000提供所述接收到的音频输入信号到音高检测器2100和唛耳倒频谱压缩(MFCC)信号处理器2200，其从接收到的音频信号提取韵律的和非韵律的参数信息。

解码器/语音识别引擎2300识别发声并提供被识别的单词到语音合成器2400。该识别的单词也被作为文本提供到视觉显示设备(未示出)。

语音合成器2400使用被预先编程到系统的并且不依赖于发声的韵律参数的规则合成被识别单词的标称(缺省)形式。

为了产生韵律模仿的单词，韵律模仿发生器2600作用于所述标称合成单词上并将所述音高、定时或其他韵律参数应用到所述标称合成单词。该韵律模仿发生器2600通过时间上拉伸或压缩单词来调整产生的韵律模仿单词的长度。在图2的完整单词模型中，完整单词的开始和结束起到暂时参考点的作用，但是在音素级别模型中，单独的音素起到时间参考点的作用。

一旦韵律模仿短语被产生，其就被转换成适于可听输出的形式。音频转换器2700接收所述韵律模仿短语并执行所需的转换成电信号的转换，以由音频输出设备2800播放。

图1所示的实施例实现处理器20中除了输入/输出和记忆存储组件的所有组件。当然，可以使用不止一个处理器来获得相同的结果。这包括使用多个专用处理器，诸如数字信号处理器(DSP)实施例。

存储设备30是记忆组件，其包括装有编程软件指令的机器可读介质。该机器是读取和处理指令的数据处理器。该指令在处理器20或在它的组件中执行以执行系统的功能。操作系统被安装在系统中以有利于执行被存储指令以执行语音识别、处理、韵律参数提取、语音合成和模仿单词产生。存储设备30，由这里描述的软件指令共享，也由属于其他程序的其他程序指令共享。例如，用于控制铃声、显示图形和移动电话设备其他特征的编程指令也能够驻留在存储设备30中为这些指令分配的存储空间中。

图2是通过使用韵律信息从接收到的说出的单词中产生合成发音的过程的框图。该框图的功能块对应于物理组件，如图1所示，其执行功能块的功能。发音被分割为帧。帧的长度影响语音合成的质量。图2所示的实施例以逐帧为基础处理发音，而帧是预定义时间段。对于语音应用，太长的帧长会导致不精确和低质量语音合成，而太短的帧长需要更多的计算资源(处理、存储等等)。在所描述的实施例中，帧长持续了大约10-20毫秒。

输入设备，诸如麦克风，在步骤100中捕捉发声102(例如，短语“CALL HOME”(呼叫家))。发声102对应于由移动电话设备采取的行动，这里为呼叫用户的家电话。在这个例子中，电话查找并拨打被说出名字的电话号码(HOME，家)。

系统分析发声102的韵律参数并提取韵律参数的值。例如，系统提取发声的音高。音高通常指的是语音的整个频率成分。步骤110描述了音高检测。

系统在步骤120中还提取频谱内容，例如唛耳倒谱和发声102的能量成分。MFCC分析器测量发声102的MFCC倒谱。MFCC分析器在步骤122中输出韵律参数的帧。

解码器或语音识别引擎在步骤130中解码或识别发声。解码器使用硬件和软件从一组可能的已知的单词中选择被识别的单词。解码器识别对应于发声的被识别单词，并提供该单词作为文本输出132以可视地显示解码的结果。移动电话的显示设备向用户显示该文本输出132。

解码器还将识别的单词134提供给语音合成器，该语音合成器在步骤140中使用识别的单词和一组缺省编程(标称的)合成规则来产生合成的标称的单词帧。在该实施例中，解码器使用完整单词模型，并且合成在单词级别上进行。

韵律模仿发生器使用识别的单词的标称合成帧142、在每帧112的音高中提供的被捕获的韵律参数和真实的帧124产生韵律模仿短语。韵律模仿发生器以逐帧为基础将韵律参数应用到标称帧142。另外，在步骤150，韵律模仿发生器在完整单词级别上将产生的模仿单词与标称单词在时间上对准。换句话说，识别的单词134通过强制标称单词的开始和结束点对应于发声的开始和结束点在时间上与相应的被捕获的说出的单词对准。

该韵律模仿发生器将诸如音高这样的被捕获的韵律参数应用到标称单词，由此模仿发声102的韵律。该韵律模仿发生器还通过拉伸和压缩该短语调整产生的短语的长度以获得所需的长度。韵律模仿短语的拉伸和压缩通过分别从短语增加和删除帧来实现，为了将短语长度和发声的短语长度相匹配。结果是合成的韵律模仿短语，由于其自己的韵律，在其内容和声音上模仿真实的原始发声。

音频转换器接收产生的韵律模仿短语并使用被采用的实际定时和音高152将标称帧转换成音频信号以在移动电话的扬声器中播放(步骤160)。扬声器是用户听取普通电话通信输出的同一个扬声器。

上述过程的最终结果是类似于原始发声102的自然发声可听短语。该合成的模仿短语被用作回放给移动电话用户的可听确认消息以确认该命令被执行或是要被拨号的名字。

图3显示了使用音素级别模型的处理，根据该处理，单词以比完整单词模型完成的更精细的级别的细节被合成。通常，音素是语音的声音成分。说出的语言包括一组用于形成说出语言声音的音素。例如，“HOME”包括3个音素：“H”，“O”和“M”。如果语音在音素级别而不是在完整单词级别处理的话可以改进语音合成的质量和精确度。

诸如麦克风的输入设备在步骤100中捕捉发声，如前所述。一个或多个信号处理器和音高检测器从发声102中提取韵律参数(音高、能量和/或定时)。音高检测器在步骤110中检测发声的音高，MFCC分析器在步骤220提取唛耳倒谱和定时参数。一些定时信息可以来自解码器，其可以是语音识别系统的一部分。

解码器在步骤230中识别语音。解码器输出被选择的识别的单词232到可视显示单元，而且还输出识别的单词的各个音素234和对准信息到语音合成器。该解码器提供对准信息236以用于随后的韵律模仿短语的产生。

语音合成器从解码步骤230得到音素和对准输出并在步骤240中执行被识别单词的音素级别的合成。语音合成器输出来自语音合成242的帧。

参数查找表250基于标称帧音素，并提供标称帧和标称对准信息252。

韵律模仿发生器在步骤260接收标称帧，还接收被捕捉的实际帧224、对准信息236、每帧音高数据212和具有标称对准的标称帧252。韵律模仿发生器输出从输入发声短语102得到的一组具有定时、能量和音高的标称帧。这是韵律模仿短语262。

如图2较早的实施例所述，使用从讲出的单词中获得的被提取的韵律参数来合成该标称选择。然而，在这个实施例中，不是将标称单词与讲出的单词时间对准，而是将组成音素用作描述标称到说出对准过程的时间的索引点或边界记号。换句话说，图3的实施例在单词中对准音素以及单词自身，由此在整个时间对准过程中施加更强的约束。

如上所述，音频转换器在步骤270中将韵律模仿单词262转换成音频信号。音频输出设备在步骤280中将可听信号提供给电话用户。数模转换器将数字韵律模仿单词信号转换成可以在电话设备的扬声器上播放的信号。

上述的概念不是限制在提供的示例性实施例中所述的使用中，而是可以扩展到其他系统和环境中。例如，该技术和设备的应用可以扩展到任何语音驱动的电子设备，包括个人计划器、玩具、自动导航装置、家用电器、家用工具和通常的计算设备。

本发明系统和方法不限制于单词，而可以是单词的任何部分或任何口语中的单词、短语、句子、可听觉姿势等等的组合。因此，我们将它们的任何和全部称为发声。

这些概念可以与其他人机接口相结合使用。例如，不仅仅是移动电话向其用户提供可听和/或可视反馈以确定命令或要拨的数字，还需要用户方的动作以实现这样的命令。该用户会需要来在移动电话上按下确认按钮以表示同意被识别的和合成的单词，或者用户可以被需要来说出“YES”或“OK”以作出合成可听消息的最后接受。

通过阅读本说明书和实施例，本领域的普通技术人员将理解在实现本发明时可以进行修改和等效替换而不背离本发明的本质。因此，本发明不是由上面明确描述的实施例所限制，而它应该由下面的权利要求的范围解释。

Claims

1.一种用于语音合成的方法，所述方法在语音驱动的电子设备上实施并且包括：

接收发声；

响应于接收发声：

从所述发声中提取一个或多个韵律参数；

对所述发声解码执行语音识别以产生识别的单词；

从由语音识别所产生的识别的单词，合成标称单词；以及

从合成的标称单词和提取的一个或多个韵律参数产生韵律模仿单词，其中产生韵律模仿单词还包含将所述合成的标称单词和所述发声时间对准；

在所述电子设备上执行响应于识别的单词的功能。

2.如权利要求1所述的方法，其中所述一个或多个韵律参数包括音高。

3.如权利要求1所述的方法，其中所述一个或多个韵律参数包括定时。

4.如权利要求1所述的方法，其中所述一个或多个韵律参数包括能量。

5.如权利要求1所述的方法，还包括将所述发声的音素和所述标称单词的音素时间对准。

6.如权利要求1所述的方法，还包括将所述韵律模仿单词转换成相应的音频信号。

7.如权利要求1所述的方法，其中所述发声由电话输入设备接收并且所述韵律模仿单词被提供给电话输出设备。

8.一种用于语音合成的语音驱动的电子设备，所述设备包括：

能够接收发声的音频输入设备；

响应于接收发声，确定所述发声的一个或多个韵律参数的信号处理器；

响应于接收发声，识别所述发声并产生对应的识别的单词的语音识别引擎；

从所述识别的单词合成标称单词的语音合成器；

接收所合成的标称单词和所述一个或多个韵律参数，并从中产生韵律模仿单词的韵律模仿产生器，所述韵律模仿产生器还将所述韵律模仿单词和所述发声时间对准；以及

执行响应于所识别的单词的功能的处理器。

9.如权利要求8所述的设备，其中所述系统被布置在移动电话设备上。

10.如权利要求8所述的设备，还包括存储设备，该存储设备包括用于语音分析和处理的可执行指令。