CN102237088B

CN102237088B - 语音识别多信息文本获取装置及方法

Info

Publication number: CN102237088B
Application number: CN2011101651010A
Authority: CN
Inventors: 张峰; 黄伟
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: SHANGHAI GEAK ELECTRONICS Co.,Ltd.
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2013-10-23
Anticipated expiration: 2031-06-17
Also published as: CN102237088A

Abstract

本发明提供一种语音识别多信息文本获取装置及方法，在通过语音识别将语音音频转换为纯文本信息之后，还将语音音频中的单字发音语速、单字发音强度、单字发音语调通过一定表现方式整合至初始生成的纯文本信息中生成多信息的文本信息。本发明的语音识别多信息文本获取装置及方法可广泛应用于微博、短信和签名档等信息发布平台。

Description

语音识别多信息文本获取装置及方法

技术领域

本发明涉及计算机语音识别技术领域，特别涉及一种语音识别多信息文本获取装置及方法。

背景技术

近二十年来，语音识别技术取得显著进步，已经获得越来越广泛的应用。预计在未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

所谓语音识别，是指计算机或机械等自动理解人的语音。例如，通过利用语音识别，使计算机或机械能够根据人的语音进行动作，或者能够使人的语音变换为文字。语音识别中主要采用的方法是，抽取发出的语音所具有的频谱等物理特征，与预先存储的母音、子音或单词的物理特征模型进行比较，最终得到同人的语音内容相同的表达信息。但现有技术中，通过语音识别技术获取的文本信息通常只能是纯文本信息，所述纯文本信息是指文字大小格式统一、除标点符号外没有特殊符号的文本信息，说明书中所有提及纯文本信息之处均指此意。因此语音中的很多有价值的信息，例如说话人的语速、重音、音调等信息，无法在语音识别后的纯文本信息中表现出来。

发明内容

本发明要解决的技术问题是提供一种语音识别多信息文本获取装置及方法，以解决现有技术中通过语音识别技术获取的文本信息通常只能是纯文本信息，语音中的很多有价值的信息无法在语音识别后的文本信息中变现出来的问题。

为解决上述技术问题，本发明提供一种语言识别多信息文本获取装置，包括：

纯文本信息及单字发音时间生成模块，用于通过语音识别将语音音频转换为纯文本信息，同时用于获得语音音频中的单字发音时间，通过所述单字发音时间的长短确定单字发音语速；

多信息文本生成模块，用于将所述纯文本信息生成多信息的文本信息。

可选的，还包括单字发音强度计算模块，用于依据所述单字发音时间计算得到单字发音强度。

可选的，所述多信息文本生成模块用于在所述纯文本信息中整合所述单字发音语速和/或所述单字发音强度的信息生成多信息的文本信息。

可选的，还包括单字语调计算模块，用于依据所述单字发音时间计算得到单字发音语调。

可选的，所述多信息文本生成模块用于在所述纯文本信息中整合所述单字发音语速和/或所述单字发音强度和/或单字发音语调的信息生成多信息的文本信息。

本发明还提供一种语音识别多信息文本获取方法，包括以下步骤：

步骤一，通过语音识别将语音音频转换为纯文本信息，同时获得语音音频中的单字发音时间，进而通过所述单字发音时间的长短确定单字发音语速；

步骤二，将所述纯文本信息生成多信息的文本信息。

可选的，所述步骤二中，在所述纯文本信息中整合所述单字发音语速的信息生成多信息的文本信息。

可选的，在所述步骤一和步骤二之间还包括依据所述单字发音时间计算得到单字发音强度和/或单字发音语调的步骤。

可选的，所述步骤二中，在所述纯文本信息中整合所述单字发音语速和/或所述单字发音强度和/或所述单字发音语调的信息生成多信息的文本信息。

可选的，所述单字发音语调利用所述单字发音时间通过基频提取技术计算得到。

可选的，所述单字发音强度通过计算所述单字发音时间内发音强度的均值而得到。

本发明的语音识别多信息文本获取装置及方法在通过语音识别将语音音频转换为纯文本信息之后，还将语音音频中的单字发音语速、单字发音强度、单字发音语调通过一定表现方式整合至初始生成的纯文本信息中生成多信息的文本信息。本发明的语音识别多信息文本获取装置及方法可广泛应用于微博、短信和签名档等信息发布平台。

附图说明

图1为本发明的语音识别多信息文本获取装置的一实施例架构示意图；

图2为本发明的语音识别多信息文本获取装置的另一实施例架构示意图；

图3为本发明的语音识别多信息文本获取方法一实施例流程示意图；

图4为本发明的语音识别多信息文本获取方法另一实施例流程示意图；

图5为本发明的一种多信息的文本信息的示意图；

图6为本发明的另一种多信息的文本信息的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面对本发明的具体实施方式做详细的说明。

本发明所述的多信息的文本信息表示系统及方法可利用多种替换方式实现，下面是通过较佳的实施例来加以说明，当然本发明并不局限于该具体实施例，本领域内的普通技术人员所熟知的一般的替换无疑涵盖在本发明的保护范围内。

本发明提供一种语言识别多信息文本获取装置。

实施例一

请参看图1，图1为本发明的语音识别多信息文本获取装置的一实施例架构示意图。如图1所示，本发明的语音识别多信息文本获取装置包括：

纯文本信息及单字发音时间生成模块，用于通过语音识别将语音音频转换为纯文本信息，同时用于获得语音音频中的单字发音时间，即单字发音的开始时间和结束时间，进而通过所述单字发音时间的长短确定单字发音语速。所述单字发音时间在语音识别的过程中随着将语音音频转换为纯文本信息的同时自动得到。

多信息文本生成模块，用于在所述纯文本信息中整合单字发音语速的信息生成多信息的文本信息。

依据得到的单字发音语速，通过变化纯文本信息中的文字间距或文字宽度来表示语速，或者通过加入符号来表示语速，或者以上几种方法的结合。

例如，通过所述语音识别纯文本信息生成模块的生成得到的纯文本信息为：好爽啊，抽奖抽到手机了。

通过变化纯文本信息的文字间距表示语速，得到多信息的文本信息：好爽啊，抽奖抽到手机了。

通过变化纯文本信息的文字宽度表示语速，得到多信息的文本信息：好爽啊，抽奖抽到手机了。

通过在纯文本信息中加入符号来表示语速，得到多信息的文本信息：好～～爽啊，抽奖～抽到手机～～了。

实施例二

请参看图2，图2为本发明的语音识别多信息文本获取装置的另一实施例架构示意图。如图2所示，本发明的语音识别多信息文本获取装置包括：

单字发音强度计算模块，用于依据得到的单字发音时间计算得到单字发音强度。利用获得的所述单字发音时间，计算单字发音时间段内发音强度的均值，可以得到每个字的发音强度。

单字语调计算模块，用于依据得到的单字发音时间计算得到单字发音语调。所述单字发音语调通过基频提取技术得到。基频提取技术中的基频是指发音过程中发浊音时声带振动的频率。现有技术中已有多种基频提取算法，主要有时域的自相关法、频域的倒谱法等等。

多信息文本生成模块，用于在所述纯文本信息中整合单字发音语速、和/或单字发音强度、和/或单字发音语调的信息生成多信息的文本信息。所述多信息的文本信息为包含有表示发音语速和/或发音语调和/或发音强度含义内容的文本信息。

1)依据得到的单字发音语速，通过变化纯文本信息中的文字间距或文字宽度来表示语速，或者通过加入符号来表示语速，或者以上几种方法的结合。

2)依据得到的单字发音强度，通过变化纯文本信息中的文字大小或文字颜色或文字字体粗细来表示发音强度，或者以上方法的结合。

例如，通过所述语音识别纯文本信息生成模块的处理后得到的纯文本信息为：好爽啊，抽奖抽到手机了。

通过变化纯文本信息的文字大小表示发音强度，得到多信息的文本信息：好爽啊，抽奖抽到手机了。

通过变化纯文本信息的文字颜色表示发音强度，得到多信息的文本信息：好(红色)爽啊(蓝色)，抽(棕色)奖抽(红色)到手机(红色)了。

通过变化纯文本信息的文字字体粗细表示发音强度，得到多信息的文本信息：好爽啊，抽奖抽到手机了。

3)依据得到的单字发音语调，通过在纯文本信息中的每个字的上部或下部加入曲线表示发音语调。

通过在纯文本信息中文字上部或下部加入代表发音语调的曲线，得到如图5所示的多信息的文本信息。

4)同时使用上述1)至3)中描述的方法，将单字发音语速、单字发音强度和单字发音语调都整合至纯文本信息中生成多信息的文本信息。

最终生成如图6所示的多信息文本信息。

本发明还提供一种语音识别多信息文本获取方法。

实施例三

请参看图3，图3为本发明的语音识别多信息文本获取方法一实施例流程示意图。如图3所示，本发明提供一种语音识别多信息文本获取方法，包括以下步骤：

步骤一，通过语音识别将语音音频转换为纯文本信息，同时获得语音音频中的单字发音时间，即单字发音的开始时间和结束时间，进而通过所述单字发音时间的长短确定单字发音的语速。所述单字发音时间在语音识别的过程中随着将语音音频转换为纯文本信息的同时自动得到。

步骤二，在所述纯文本信息中整合单字发音语速的信息生成多信息的文本信息。

实施例四

请参看图4，图4为本发明的语音识别多信息文本获取方法另一实施例流程示意图。如图4所示，本发明提供一种语音识别多信息文本获取方法，包括以下步骤：

步骤二，依据得到的单字发音时间计算得到单字发音强度和/或单字发音语调。

计算所述单字发音强度时，利用获得的所述单字发音时间，计算单字发音时间段内发音强度的均值，可以得到每个字的发音强度。

所述单字发音语调通过基频提取技术计算得到。

步骤三，在所述纯文本信息中整合单字发音语速、和/或单字发音强度、和/或单字发音语调的信息生成多信息的文本信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语言识别多信息文本获取装置，其特征在于，包括：

纯文本信息及单字发音时间生成模块，用于通过语音识别将语音音频转换为纯文本信息，同时用于获得所述语音音频中的单字发音时间，通过所述单字发音时间的长短确定单字发音语速；

多信息文本生成模块，用于将所述纯文本信息生成多信息的文本信息，即在所述纯文本信息中整合所述单字发音语速和/或单字发音强度和/或单字发音语调的信息生成多信息的文本信息；

单字语调计算模块，用于依据所述单字发音时间计算得到单字发音语调。

2.如权利要求1所述的语言识别多信息文本获取装置，其特征在于，还包括单字发音强度计算模块，用于依据所述单字发音时间计算得到单字发音强度。

3.如权利要求2所述的语言识别多信息文本获取装置，其特征在于，所述多信息文本生成模块用于在所述纯文本信息中整合所述单字发音语速和/或所述单字发音强度的信息生成多信息的文本信息。

4.一种语音识别多信息文本获取方法，其特征在于，包括以下步骤：

步骤二，将所述纯文本信息生成多信息的文本信息；

在所述步骤一和步骤二之间还包括依据所述单字发音时间计算得到单字发音强度和/或单字发音语调的步骤；

所述步骤二中，在所述纯文本信息中整合所述单字发音语速和/或所述单字发音强度和/或所述单字发音语调的信息生成多信息的文本信息。

5.如权利要求4所述的语音识别多信息文本获取方法，其特征在于，所述步骤二中，在所述纯文本信息中整合所述单字发音语速的信息生成多信息的文本信息。

6.如权利要求4所述的语音识别多信息文本获取方法，其特征在于，所述单字发音语调利用所述单字发音时间通过基频提取技术计算得到。

7.如权利要求4所述的语音识别多信息文本获取方法，其特征在于，所述单字发音强度通过计算所述单字发音时间内发音强度的均值而得到。