CN103165126A

CN103165126A - 一种手机文本短信的语音播放的方法

Info

Publication number: CN103165126A
Application number: CN2011104243757A
Authority: CN
Inventors: 卢晓鹏
Original assignee: Wuxi Vimicro Corp
Current assignee: Wuxi Vimicro Corp
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-19

Abstract

本发明公开了一种手机文本短信的语音播放的方法，手机接收到文本形式的短信后，对该短信的文本字串经文本分析，获得相对应的语音波形，从而形成合成语音并播放。本发明具有即时语音合成，即时文本语音转换，节省时间，保证用户行车安全，方便老年用户视力差的优点。

Description

一种手机文本短信的语音播放的方法

技术领域

本发明涉及移动通信领域，特别是一种可实时语音播放短信的方法。

背景技术

随着越来越多的手机类PDA设备的普及，人们在生活或工作中得到了许多的方便，可以及时方便的与朋友和家人进行交流。但是，许多使用者在驾驶车辆的时候收到短信，不能及时查阅，如果强行查阅，又容易引发交通事故；再者，对于老年手机用户，因为屏幕字体的大小和其视力程度不符，使用中也造成许多困难。因此，寻求一种语音合成技术，将手机接收到的文本短信及时通过语音的方式播放出来，成为手机的一个十分有用的功能。

发明内容

为解决上述技术难题，本发明旨在提供一种可实时语音播放短信的方法，手机接收到文本形式的短信后，对该短信的文本字串经文本分析，获得相对应的语音波形，从而形成合成语音并播放。

其包括文本规范化处理和符号转化步骤，用于将所获得的短信的文本字符串中的特殊符号、缩写、英文单词以及计量单位转换为可识别的发声单元标识。

包括分词模型处理步骤，用于对对输入的文本按预置的分词规律进行单词的划分，确定句子的韵律结构以及多音字的发音。

还包括韵律预测步骤、协同发音步骤、和选词步骤，其中韵律预测步骤决定各词发音，协同发音决定了各词之间的连接关系，选词步骤按照韵律要求及词的发音在词库中选择最优的发音。

在选择声学单元构造语音库时，利用损失度函数来描述具有相同大小语音库的合成能力，损失度函数可以表达为：

ζ(f，d，c)＝cf/d

其中f为当前声学单元的词频，d为声学单元的预测时长，c为该单元中所包含的音素之间协同发音的大小，在不考虑韵律条件下，构造由声学单元组成的语音库时，使损失度函在该语音库上的取值最小为目标。

采用基频参数化模型来控制韵律的生成。

本发明提供的手机文本短信的语音播放方法，在手机同时安装文本语音翻译系统，自动完成语音合成并通过扬声器进行播放，本发明具有即时语音合成，即时文本语音转换，节省时间，保证用户行车安全，方便老年用户视力差的优点。通过用户设定和语音库定制，可以更换男女生，或者卡通形象声音。手机也可根据预先设定的发信者性别，自动调用该性别语音库。

附图说明

图1为本发明实施例中方法流程图；

图2为本发明的一种具体实施例的流程图。

具体实施方式

参考图1，本发明一种可实时语音播放短信的方法包括以下步骤：

步骤一、短信接收

短信接收是利用手机通过其射频模块从基站接收到一个或多个文本形式的短信并暂时存储于手机的内存中。

步骤二、文语转换

采用文语转换模块(Text-To-Speech model，TTS Model)，即一个以文字串为输入的语音合成模块。其输入的是通常的文本字串，模块中的文本分析器首先根据发音字典，将输入的文字串分解为带有属性标记的词及其读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定重音等级和语句结构及语调，以及各种停顿等。这样文字串就转变为符号代码串。根据前面分析的结果，生成目标语音的韵律特征，然后进行语音结合，合成出输出语音。

本发明将手机中的短信数据以语音的形式即时播报出来，相应的用户只需被动收听即可，这里，对语音合成系统的要求是响应速度快，计算复杂度和存储空间复杂度低，具有良好的可扩展性和合成语音清晰度、可懂性强，适于日常生活或某些专业领域的交流等。

本发明在选择声学单元构造语音库时，利用损失度函数来描述具有相同大小语音库的合成能力。损失度函数可以表达为：

ζ(f，d，c)＝cf/d

其中f为当前声学单元的词频，d为声学单元的预测时长，c为该单元中所包含的音素之间协同发音的大小。在不考虑韵律条件下，构造由声学单元组成的语音库时，应使损失度函在该语音库上的取值最小为目标。

本发明采用Fujisaki模型来控制韵律的生成，它是一种广泛使用的基频参数化模型，主要通过模拟人的发音机理来预测基频的变化，控制合成语音的节奏、语气语调、情感；

本发明的适用了所有使用者不方便直接用眼睛去看短信的情况。

通过用户设定和语音库定制，可以更换男女生，或者卡通形象声音。

手机也可根据预先设定的发信者性别，自动调用该性别语音库。

参考图2，，输入的文本主要通过规范化处理和符号转化，将其中的特殊符号、缩写、英文单词以及计量单位等转换为可识别的发声单元标识。在分词模型中，对输入的文本按预置的分词规律进行单词的划分，通过分词处理就基本确定了句子的韵律结构以及多音字的发音。韵律预测决定各词发音；协同发音决定了各词之间的连接关系。选词模块按照韵律要求及词的发音在词库中选择最优的发音，经过语音重构将波形恢复出来。各词的语音波形经过拼接模块在拼接参数的控制下完成最终语句的合成。

1、声学单元选择和生成

为使合成语音具有较高的清晰度、可懂度以及自然度，通常采取基于波形的语音合成技术。波形拼接语音合成中的合成单元是从原始自然语音中切分出来的，保留了自然语音的一些韵律特征。根据自然语言的语音和韵律规律，存储适当的语音基元，使这些单元在确定的存贮容量下具有最大的语音和韵律覆盖率。合成时经过声学单元选择、波形拼接、平滑处理等步骤后输出语音。通过精心设计语料库，并根据语音和韵律规则从音库中挑出最适合的声学单元，使系统输出高质量的语音。

常见的语音单元候选可以有词组、音节、音素和双音素等。在构造波形拼接所需要的语料库时，可以结合不同类型样本的优缺点，例如对于自然语流中经常出现的一些协同发音强的音素、音节组合，在通过波形拼接形成目标语音时，应该尽量避免在这些协同发音影响大的音素组合之间进行拼接，否则单元挑选的稍有不合适，就会造成听觉上的难以接受。所以在构造实用合成系统时所采取的声学单元的类型和长度都将是不固定的。

在选择声学单元构造语音库时，通常利用某种损失度函数来描述具有相同大小语音库的合成能力。一个典型的损失度函数可以表达为：

ζ(f，d，c)＝cf/d (1)

其中f为当前声学单元的词频，d为声学单元的预测时长，c为该单元中所包含的音素之间协同发音的大小。在不考虑韵律条件下，构造由声学单元组成的语音库时，应使由(1)表示的损失度函在该语音库上的取值最小为目标。

用于拼接的声学单元通常由连续语流中切分获得。将生活中常用语句通过统计可以得到词频信息，并在词频信息的指导下挑选句子，使得选出的句子对高频词具有较好的覆盖，这些挑选出来的句子成为稍后需要录制的脚本。

挑选合适的播音员，对照脚本进行合理朗读，并且录音。将录音所得的语音波形数据按脚本以及声学单元的划分进行切分，通常对于汉语可以切分为词、字(CV结构)而英文通常需要切分到词以及少量音素或双音素，从而构成发声单元库。对切分得到的声学单元按其在原句子中的位置(前中后)以及前后相连的字词进行标注。这些标注信息对选词模块的判决提供依据

2、韵律的生成

韵律参数对于控制合成语音的节奏、语气语调、情感等具有重要意义，而对汉谱普通话，基频是和声调直接相关的物理参数。汉语的构成原则可归结如下：由音素构成声母或韵母，韵母带上声调后成为调母，由单个调母或由声母与调母拼接成为音节。汉语有阴平、阳平、上声、去声、轻声5个调，1200多个有调音节。一个音节就是一个字的音，即音节字。由音节字构成词，最后再由词构成句子。

基于机器学习的韵律生成。虽然目前已经得到了许多关于韵律的规则，但这些规则对于形成非常贴近自然的韵律还相差很远。为能够发觉隐藏而且难以描述的韵律规则通常利用机器学习的方法来实现韵律的生成。常用的算法模型有隐马尔可夫模型(HMM)、人工神经网络(ANN)、支持向量机(SVM)以及决策树等。

基于参数化模型的韵律生成。基于机器学习的韵律模型提取一些人工无法分析的细则，大人降低人工参与分析的工作量，但这种方法同时也存在如下问题：首先，一般的学习算法都要求比较多的数据资源，特别是属性特征比较多的时候；其次，如果已有数据资源分布不均匀，将造成训练的整体偏差，影响分析结果；再次，专家知识没有很好的结合利用进来，是一种信息浪费；第四，训练模型没有和语言特征和人的感知挂钩，无法进行转移和调整。基频和时长是影响人的韵律听感的直接声学参数，两者都是随时间变化和环境变化的。参数模型利用先验知识，先分析基频时长和语言特征、人的听感的关系，对此关系建摸，提取基频时长和语言特征及人的听感直接相关的参数。这样的模型有效利用了专家知识，就可以用不多的数据训练出文本语言特征和参数的关系，同时通过调整模型参数就可以达到改变听感的韵律特征的目的。

Fujisaki模型是一种广泛使用的基频参数化模型，它主要通过模拟人的发音机理来预测基频的变化。Fujisaki认为基频的改变主要有两个原因：韵律短语边界(Phrase)的影响和音节调(Accent)的影响。基频曲线的产生是按照声带振动的机理，以Phrase和Accent作为预测系统的输入，以基频曲线作为系统的输入，其中以脉冲信号的形式产生Phrase形状，以阶梯函数产生Accent形状。在该模型下基频曲线可以表示为：

\ln [F_{0} (t)] - \ln [F_{\min}] + Σ_{i = 1}^{l} A_{pi} G_{pi} (t - T_{0 i}) + Σ_{j = 1}^{J} A_{aj} [G_{aj} (t - T_{1 j}) - G_{aj} (t - T_{2 j})] - - - (2)

其中，

G_{pi} (t) = \{\begin{matrix} q_{i} texp (- a_{i} t) & t > 0 \\ 0 \end{matrix} - - - (3)

G_{aj} (t) = \{\begin{matrix} \min [1 - (1 + βt) \exp (- βt), θ] & t \leq 0 \\ 0 & else \end{matrix}

式中的其他参数如下：Fmin，基频最小值；a_i，第i个Phrase命令控制系数；I，Phrase元素数量；β_j，第j个Accent命令控制系数；J，Accent元素数量；θ，Accent命令最大值参数；T_0i，第i个Phrase命令的时间标记；A_pi，第i个Phrase命令幅度；T_1j，第j个Accent命令开始时间；A_aj，第j个Accent命令幅度；T_2j，第j个Accent命令结束时间。

Fujisaki模型的机理很简单，对于每个phrase命令，就是以一个脉冲信号通过phrase滤波器，相应的基频值上升到最大点，然后逐渐衰减。对于连续的phrase命令，基频曲线则产生连续的波动。Accent命令由一个阶梯函数初始化，因为accent滤波器的参数α远大于β，使得Accent元素很快达到其最大值，然后迅速衰减。

本发明的有益效果：

本发明具有即时语音合成，即时文本语音转换，系统效率高、稳定性；

本发明提出的文本语音转换模块结构清晰，各部分分工明确，独立性强；

本发明方便老年用户使用，彻底摆脱老花镜；

本发明用户在行车时使用，保证用户行车安全。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种手机文本短信的语音播放的方法，手机接收到文本形式的短信后，对该短信的文本字串经文本分析，获得相对应的语音波形，从而形成合成语音并播放。

2.如权利要求1所述方法，其特征在于：包括文本规范化处理和符号转化步骤，用于将所获得的短信的文本字符串中的特殊符号、缩写、英文单词以及计量单位转换为可识别的发声单元标识。

3.如权利要求2所述方法，其特征在于：包括分词模型处理步骤，用于对对输入的文本按预置的分词规律进行单词的划分，确定句子的韵律结构以及多音字的发音。

4.如权利要求3所述方法，其特征在于：还包括韵律预测步骤、协同发音步骤、和选词步骤，其中韵律预测步骤决定各词发音，协同发音决定了各词之间的连接关系，选词步骤按照韵律要求及词的发音在词库中选择最优的发音。

5.如权利要求1所述方法，其特征在于：在选择声学单元构造语音库时，利用损失度函数来描述具有相同大小语音库的合成能力，损失度函数可以表达为：

ζ(f，d，c)＝cf/d

6.如权利要求1所述方法，其特征在于：采用基频参数化模型来控制韵律的生成。