CN111276149A

CN111276149A - 语音识别方法、装置、设备及可读存储介质

Info

Publication number: CN111276149A
Application number: CN202010058833.9A
Authority: CN
Inventors: 吴嘉嘉; 殷兵; 胡金水; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111276149B

Abstract

本申请公开了一种语音识别方法、装置、设备及可读存储介质，本申请获取与待识别语音相关的材料数据；确定所述材料数据包含的内容信息，并至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；基于所述初步参考文本，确定所述待识别语音对应的参考文本集；结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果，由于本申请借助待识别语音相关的材料数据确定出能够辅助语音识别的参考文本集，因此能够提前获取例如专业术语等文本信息作为先验信息，辅助对待识别语音进行识别，显然能够大大提升语音识别结果的准确度。

Description

语音识别方法、装置、设备及可读存储介质

技术领域

本申请涉及语音识别技术领域，更具体的说，是涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术

语音识别即将语音转成文本的过程。近年来，随着语音识别技术的成熟，已成功应用于各行各业中，尤其是针对特定领域的语音识别技术，如针对会议的录音数据进行语音识别，将接收的语音数据直接转换为会议的文本内容，大大方便了会议秘书整理会议纪要。

然而，在某些场合下，语音识别经常会遇到一些不常见的词汇，如一些专业词汇等，导致语音识别的准确率不高。

发明内容

鉴于上述问题，提出了本申请以便提供一种语音识别方法、装置、设备及可读存储介质。具体方案如下：

一种语音识别方法，包括：

获取与待识别语音相关的材料数据；

确定所述材料数据包含的内容信息，并至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；

基于所述初步参考文本，确定所述待识别语音对应的参考文本集；

结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果。

优选地，所述至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本，包括：

基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；

或，

基于所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征，确定所述材料数据对应的初步参考文本。

优选地，

所述内容信息在所述材料数据中的视觉表现特征包括以下任意一项或多项的组合：

内容信息在所述材料数据中的格式、排版、位置；

所述材料数据的属性特征包括以下任意一项或多项的组合：

材料数据的类型、材料数据的风格、材料数据的编著人属性信息。

优选地，所述基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本，包括：

确定所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征；

将所述语义特征及所述视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本，其中：

所述关键信息确定模型以训练数据所包含的内容信息的语义特征及内容信息在训练数据中的视觉表现特征为训练样本，以标注的与训练数据对应的关键信息为样本标签训练得到。

优选地，确定所述内容信息的语义特征的过程，包括：

若所述内容信息为文本信息，则对所述文本信息进行分词，并确定每一分词的词向量作为分词的语义特征；

若所述内容信息为多媒体信息，则以所述多媒体信息为检索条件，检索相关文本信息，并对所述相关文本信息进行分词，确定每一分词的词向量作为分词的语义特征。

优选地，确定所述内容信息在所述材料数据中的视觉表现特征的过程，包括：

若所述内容信息为文本信息，则对所述文本信息进行分词，并确定每一分词在所述材料数据中所处的图像区域，基于所述图像区域确定每一分词的视觉表现特征；

若所述内容信息为多媒体信息，确定所述多媒体信息在所述材料数据中所处的图像区域，基于所述图像区域确定所述多媒体信息的视觉表现特征。

优选地，所述关键信息确定模型包括特征拼接层和分类判别层；

所述将所述语义特征及所述视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息，包括：

利用所述特征拼接层，将所述语义特征及所述视觉表现特征拼接，得到拼接特征；

利用所述分类判别层，基于所述拼接特征来判别对应的内容信息是否为关键信息，并输出判别后的关键信息。

优选地，所述基于所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征，确定所述材料数据对应的初步参考文本，包括：

确定所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征；

将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本，其中：

所述关键信息确定模型以训练数据所包含的内容信息的语义特征、内容信息在训练数据中的视觉表现特征及训练数据的属性特征为训练样本，以标注的与训练数据对应的关键信息为样本标签训练得到。

所述将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键词确定模型，得到模型输出的关键信息，包括：

利用所述特征拼接层，将所述语义特征、所述视觉表现特征和所述属性特征拼接，得到拼接特征；

优选地，所述基于所述初步参考文本，确定所述待识别语音对应的参考文本集，包括：

将所述初步参考文本组合成所述待识别语音对应的参考文本集；

或，

基于所述初步参考文本进行知识图谱扩展，得到扩展后参考文本，由所述初步参考文本和所述扩展后参考文本组成所述待识别语音对应的参考文本集。

优选地，所述结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果，包括：

使用语音识别模型对所述待识别语音进行识别，并在识别过程中对所述参考文本集中的参考文本进行正向激励，以得到语音识别结果；

或，

使用语音识别模型对所述待识别语音进行识别，得到初步语音识别结果；

利用所述参考文本集中的参考文本，对所述初步语音识别结果进行修正，得到修正后的语音识别结果。

优选地，所述材料数据包括图片格式和/或非图片格式的材料数据；

所述确定所述材料数据包含的内容信息，包括：

若所述材料数据为图片格式，则对图片格式的材料数据进行OCR识别，以得到材料数据包含的内容信息。

一种语音识别装置，包括：

材料数据获取单元，用于获取与待识别语音相关的材料数据；

内容信息确定单元，用于确定所述材料数据包含的内容信息；

初步参考文本确定单元，用于至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；

参考文本集确定单元，用于基于所述初步参考文本，确定所述待识别语音对应的参考文本集；

语音识别单元，用于结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果。

优选地，所述初步参考文本确定单元包括：

第一初步参考文本确定子单元，用于基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；

或，

第二初步参考文本确定子单元，用于基于所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征，确定所述材料数据对应的初步参考文本。

优选地，所述第一初步参考文本确定子单元包括：

第一特征确定单元，用于确定所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征；

第一模型确定单元，用于将所述语义特征及所述视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本，其中：

优选地，所述第一特征确定单元确定所述内容信息的语义特征的过程，包括：

优选地，所述第一特征确定单元确定所述内容信息在所述材料数据中的视觉表现特征的过程，包括：

优选地，所述关键信息确定模型可以包括特征拼接层和分类判别层，基于此，第一模型确定单元将语义特征及视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息的过程，包括：

优选地，所述第二初步参考文本确定子单元包括：

第二特征确定单元，用于确定所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征；

第二模型确定单元，用于将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本，其中：

优选地，所述关键信息确定模型可以包括特征拼接层和分类判别层，基于此，第二模型确定单元将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键词确定模型，得到模型输出的关键信息的过程，包括：

优选地，所述参考文本集确定单元包括：

第一参考文本集确定子单元，用于将所述初步参考文本组合成所述待识别语音对应的参考文本集；

或，

第二参考文本集确定子单元，用于基于所述初步参考文本进行知识图谱扩展，得到扩展后参考文本，由所述初步参考文本和所述扩展后参考文本组成所述待识别语音对应的参考文本集。

优选地，所述语音识别单元包括：

第一语音识别子单元，用于使用语音识别模型对所述待识别语音进行识别，并在识别过程中对所述参考文本集中的参考文本进行正向激励，以得到语音识别结果；

或，

第二语音识别子单元，用于使用语音识别模型对所述待识别语音进行识别，得到初步语音识别结果；利用所述参考文本集中的参考文本，对所述初步语音识别结果进行修正，得到修正后的语音识别结果。

优选地，所述材料数据包括图片格式和/或非图片格式的材料数据，基于此，所述内容信息确定单元确定所述材料数据包含的内容信息的过程，包括：

一种语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音识别方法的各个步骤。

借由上述技术方案，本申请的语音识别方法能够获取到待识别语音相关的材料数据，由于这些材料数据与待识别语音相关，如待识别语音为演讲语音时，材料数据可以是演讲稿等，因此本申请可以进一步从材料数据中确定出包含的内容信息，这些内容信息中包含有待识别语音相关的信息，本申请可以基于内容信息的语义特征及其在材料数据中的视觉表现特征，确定出能够辅助进行语音识别的初步参考文本，如从演讲稿中确定出专业词汇、表述等，进一步可以基于初步参考文本来确定待识别语音对应的参考文本集，结合参考文本集对待识别语音进行语音识别，由于本申请借助待识别语音相关的材料数据确定出能够辅助语音识别的参考文本集，因此能够提前获取例如专业术语等文本信息作为先验信息，辅助对待识别语音进行识别，显然能够大大提升语音识别结果的准确度。

进一步的，考虑到能够辅助进行语音识别的参考文本一般都是比较关键的信息，这些关键的信息在材料数据中的视觉表现一般也会异于其它信息，因此本申请在确定初步参考文本过程，同时考虑了内容信息的语义特征及其在材料数据中的视觉表现特征，基于此确定的初步参考文本以及参考文本集合也会包含更多的关键信息，进而能够更好的辅助进行语音识别，也即进一步提升了语音识别结果的准确度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的语音识别方法的一流程示意图；

图2为本申请实施例示例的一种PPT演讲稿示意图；

图3示例了一种关键信息确定模型确定内容信息对应的关键信息的示意图；

图4示例了另一种关键信息确定模型确定内容信息对应的关键信息的示意图；

图5为本申请实施例提供的一种语音识别装置结构示意图；

图6为本申请实施例提供的语音识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种语音识别方案，该方案可以应用于语音识别设备中，语音识别设备能够具备语音数据识别处理能力。一般性的，该语音识别设备可以是常见的具备数据处理能力的电子设备，如手机、电脑、IPAD、服务器、云等。

一种可选的适用场景如，在学术报告会议或演讲场合下，需要对演讲人说的话进行语音识别，整理成文本形式的会议纪要，或者，基于语音识别结果，进而进行语种翻译，这些需求都是建立在高准确度的语音识别结果的基础上。但是，某些场合下演讲人可能会说一些比较专业的术语，而通用的语音识别模型对于此类专业术语的识别准确度并不高。如演讲人在介绍“阿尔法狗”和“李在石”的围棋比赛时，可能会说出“投子”这一术语，而通用的语音识别模型可能会识别为“投资”，导致语音识别错误。

为此，本申请提供了一种语音识别方法，旨在解决此类问题，提高语音识别的准确度。

结合图1所述，本申请的语音识别方法可以包括如下步骤：

步骤S100、获取与待识别语音相关的材料数据。

具体的，材料数据与待识别语音相关，其可以包括与待识别语音相关的演讲文稿如PPT或word文档、演讲人信息、会议主题、主办方或用户根据会议需求而自己添加的会议关键信息等材料数据。

材料数据可以是在对待识别语音进行语音识别之前预先获取到的。示例如，在会议之前，由主讲人提前提供演讲文稿。

此外，材料数据还可以是在对待识别语音进行语音识别过程中获取到的。示例如，某些场景下，无法提前获取到演讲文稿，演讲文稿只能在演讲开始时才通过屏幕播放。则本申请可以在能够看到演讲文稿时通过相应摄影设备获取到演讲文稿的图片，作为与待识别语音相关的材料数据。

可以理解的是，待识别语音相关的材料数据，可以是图片格式的，如对纸质文档或播放有材料数据的显示屏进行拍摄得到，或者材料数据本身即是图片格式的电子数据。此外，待识别语音相关的材料数据还可以是非图片格式，如可以是电子形式的word文档等。

对于材料数据的格式本申请不做严格限定。

步骤S110、确定所述材料数据包含的内容信息，并至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本。

具体的，材料数据中包含的内容信息可以是多种类型，如文本内容信息、多媒体内容信息等，其中多媒体内容信息如图像内容、音视频内容。示例性的一种场景如演讲过程中，需要对演讲人说的话进行语音识别，则可以获取演讲人的演讲稿PPT作为材料数据，PPT中可能包含有文字信息、图像信息、音视频信息等，这些信息都可以从材料数据中确定出。

可以理解的是，根据材料数据的格式不同，确定其包含的内容信息的方式也可能不同，如当材料数据是图片格式时，则可以对图片格式的材料数据进行OCR(OpticalCharacter Recognition，光学字符识别)识别，以得到材料数据包含的内容信息。当材料数据是非图片格式时，则可以直接获取电子形式的材料数据中所包含的内容信息，如对于电子形式的word文档，可以直接获取word文档中记录的内容信息。

进一步的，考虑到能够辅助进行语音识别的参考文本一般都是比较关键的信息，通过语义特征可以了分析内容信息的重要性，也即分析内容信息是否为关键信息。在此基础上，关键信息在材料数据中的视觉表现一般也会异于其它信息，如演讲人会对演讲文稿中重要的信息进行加粗、字体颜色标记、字体位置比较醒目等，使得关键信息在视觉表现上异于其它信息。因此，本申请在确定初步参考文本过程，同时考虑了内容信息的语义特征及其在材料数据中的视觉表现特征，基于此确定的初步参考文本也会包含更多的关键信息，进而能够更好的辅助进行语音识别。

步骤S120、基于所述初步参考文本，确定所述待识别语音对应的参考文本集。

具体地，上一步骤在基于材料数据确定了对应的初步参考文本之后，可以进一步基于该初步参考文本来确定待识别语音对应的参考文本集。

其中，参考文本集中的参考文本可以包括初步参考文本。

待识别语音对应的参考文本集中的参考文本，用于辅助对待识别语音进行语音识别。

步骤S130、结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果。

可以理解的，参考文本集中的参考文本是基于待识别语音相关的材料数据所确定的，其是用于辅助对待识别语音进行语音识别的，因此可以结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果。

本申请的语音识别方法能够获取到待识别语音相关的材料数据，由于这些材料数据与待识别语音相关，如待识别语音为演讲语音时，材料数据可以是演讲稿等，因此本申请可以进一步从材料数据中确定出包含的内容信息，这些内容信息中包含有待识别语音相关的信息，本申请可以基于内容信息的语义特征及其在材料数据中的视觉表现特征，确定出能够辅助进行语音识别的初步参考文本，如从演讲稿中确定出专业词汇、表述等，进一步可以基于初步参考文本来确定待识别语音对应的参考文本集，结合参考文本集对待识别语音进行语音识别，由于本申请借助待识别语音相关的材料数据确定出能够辅助语音识别的参考文本集，因此能够提前获取例如专业术语等文本信息作为先验信息，辅助对待识别语音进行识别，显然能够大大提升语音识别结果的准确度。

可选的，对于上述实施例中内容信息的语义特征，其从语义层次对内容信息进行了表示，能够携带内容信息的语义层次的特征。可选的，语义特征可以是能够表示内容信息语义的特征向量，如通过现有的对内容信息进行处理的神经网络模型的隐层特征来表示内容信息的语义特征向量。

进一步可选的，对于上述实施例中内容信息在材料数据中的视觉表现特征，其从视觉层次对内容信息进行了表示，能够携带内容信息的视觉层次的特征。其中，视觉表现特征可以包括以下任意一项或多项的组合：

内容信息在材料数据中的格式、排版、位置等。

其中，格式可以包括字体大小、类型、有无加粗、下划线、间隔大小等等。排版则表示了内容信息在材料数据中的排版方式。位置则表示了内容信息在材料数据中的位置信息。

一种可选的方式下，若内容信息同时包含文本信息和多媒体信息，则通常情况下位于多媒体信息周围的部分文本信息(如与多媒体信息位置距离处于设定距离范围之内的部分文本信息)，相比于远离多媒体信息的另外部分文本信息(如与多媒体信息位置距离未处于设定距离范围之内的部分文本信息)，其属于关键信息的权重应该会更高，也即属于关键信息的概率更大，更有可能成为初步参考文本。可以理解的是，根据内容信息的排版方式，不同位置处的文本信息，其在材料数据中的视觉表现特征也不同，位于多媒体信息周围的部分文本信息在材料数据中的视觉表现特征，也更能体现该部分文本信息的关键性，后续基于语义特征及视觉表现特征，也更能够确定出该部分文本信息属于初步参考文本。

参见图2，其示例了一种演讲稿PPT示意图。在以图2示例的PPT作为材料数据时，可以获取PPT中的内容信息，包括文本及图像。

对于其中的文本，可以看出“专利意义及其作用”进行了加粗、倾斜，且其字体大小也比其它文本要更大。并且，其位置位于PPT页面头部，比较重要。

进一步，对于PPT中“利于企业长远发展”，其设置了底纹，并且可以看出其位于图像周围，由此可见也属于比较重要的信息。

再进一步，对于PPT中“A公司”、“B公司”也进行了加粗显示，由此可见也属于比较重要的信息。

在本申请的另一个实施例中，对上述步骤S110中，至少基于内容信息的语义特征及其在材料数据中的视觉表现特征，确定材料数据对应的初步参考文本的过程进行介绍。

上文已经说明过，内容信息的语义特征及其视觉表现特征，对于确认该内容信息是否为关键信息，是否能够辅助提高语音识别准确度有很大影响。因此，对于步骤S110本申请提供了两种可选实施方式，分别如下：

第一种、

本申请可以基于内容信息的语义特征及其在材料数据中的视觉表现特征，确定材料数据对应的初步参考文本。

也即，可以仅参考内容信息的语义特征和视觉表现特征，来确定材料数据对应的初步参考文本。

第二种、

本案申请人研究发现，材料数据的属性特征，对于确定材料数据对应的初步参考文本也有很大的影响。以材料数据为PPT演讲稿为例进行说明，PPT演讲稿可以有多种不同的风格，而不同风格的PPT演讲稿中，对于一些关键信息的显示位置、方式等都会存在不同。

为此，本申请可以在参考内容信息的语义特征和视觉表现特征的基础上，进一步参考材料数据的属性特征，来确定材料数据对应的初步参考文本。

其中，材料数据的属性特征可以包括多种，如下述介绍的任意一项或多项的组合：

其中，材料数据的类型可以包括图片类型、word文档类型、excel文档类型、PPT演讲稿类型等。材料数据的风格可以基于不同类型的材料数据进一步细分，如针对PPT演讲稿，可以有商务风格、休闲风格等。材料数据的编著人属性信息主要包含编写材料数据的作者的属性信息，如作者的职业、性别、背景、写作偏好等，这些属性信息均会材料数据中关键信息的视觉表现产生影响。示例如，对于从事商业工作的作者，其在材料数据中可能会更多提及商务术语，如“B2B”。对于从事人工智能研究的作者，其在材料数据中可能会更多提及人工智能领域的术语，如“机器学习”、“人工智能”等。

在本申请的另一个实施例中，首先对上述介绍的第一种确定初步参考文本的方式进行说明。

第一种确定初步参考文本的过程可以包括如下步骤：

S1、确定所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征。

具体的，对于内容信息的语义特征的确定过程，可以根据内容信息的类型而配置对应的确定方式。

内容信息可以包括文本信息类型和多媒体信息类型。则对应的语义特征确定方式分别如下：

1、若所述内容信息为文本信息，则对所述文本信息进行分词，并确定每一分词的词向量作为分词的语义特征。

对于确定出的内容信息，若其问文本信息，则可以先对文本信息进行分词处理，得到分词后的若干分词。进一步，可以确定每一分词的词向量，作为分词的语义特征。

仍以图2示例的材料数据为例，可以从中确定出的内容信息包括文本信息：“专利意义及作用”。

则可以首先对该文本信息进行分词，得到的分词包括：“专利”、“意义”、“及”、“作用”。进一步可以确定每一分词的词向量，作为对应分词的语义特征。

2、若所述内容信息为多媒体信息，则以所述多媒体信息为检索条件，检索相关文本信息，并对所述相关文本信息进行分词，确定每一分词的词向量作为分词的语义特征。

具体的，若内容信息为多媒体信息，如音频、视频、图像，则可以以多媒体信息为检索条件，在数据库检索相关的文本信息。这里的数据库可以是互联网数据库，也可以是企业自身的数据库。

以图2示例的材料数据为例，可以从中确定出的内容信息包括图2中的漫画图像。则可以基于该漫画图像检索相关文本信息，如能够检索得到一篇主题为“知识产权国际化中企业专利布局管理”的文章。

在检索得到相关文本信息之后，可以对相关文本进行分词，确定分词词向量，该过程与上述类似，此处不再赘述。

进一步的，对于内容信息在材料数据中的视觉表现特征，也可以根据内容信息的类型而配置对应的确定方式。

内容信息可以包括文本信息类型和多媒体信息类型。则对应的视觉表现特征确定方式分别如下：

1、若内容信息为文本信息，则对文本信息进行分词，并确定每一分词在材料数据中所处的图像区域，基于所述图像区域确定每一分词的视觉表现特征。

其中，对于文本信息的分词处理操作，可以参照上文介绍。

可以理解的是，无论是图片格式的材料数据，还是电子格式的材料数据，文本信息在材料数据中均会存在一定的排版布局，将材料数据看作一整个图像时，其内的每一分词均会占据不同的图像区域。因此，本步骤中可以确定每一分词在材料数据中所处的图像区域，进而基于分词对应的图像区域，确定分词的视觉表现特征。

具体地，可以利用OCR识别模型来确定分词的视觉表现特征，也即将分词对应的图像区域输入OCR识别模型，OCR识别模型会基于该图像区域提取隐层特征，并基于隐层特征进行分类识别，以输出识别后的图像区域对应的分词。本实施例中，获取OCR识别模型所提取的隐层特征，作为对应分词的视觉表现特征。

2、若内容信息为多媒体信息，确定多媒体信息在材料数据中所处的图像区域，基于所述图像区域确定多媒体信息的视觉表现特征。

对于多媒体信息，可以将多媒体信息看作一个整体，确定其在材料数据中所处的图像区域，基于该图像区域确定多媒体信息的视觉表现特征。

类似的，可以利用图像识别模型来确定多媒体信息的视觉表现特征，也即将多媒体信息对应的图像区域输入图像识别模型，该模型会基于图像区域提取隐层特征，并基于隐层特征进行图像分类识别，以输出识别后的图像区域对应的图像分类识别结果。本实施例中，获取图像识别模型所提取的隐层特征，作为多媒体信息的视觉表现特征。

上述已经介绍了多媒体信息的语义特征的确定过程，即得到多媒体信息的相关文本信息的分词结果，以及各分词的语义特征。因此，本步骤中，基于图像区域所确定的多媒体信息的视觉表现特征，可以作为该多媒体信息的相关文本信息的各分词的视觉表现特征。

由此可知，无论内容信息是文本信息还是多媒体信息，最终都可以得到若干分词的语义特征和视觉表现特征。

S2、将所述语义特征及所述视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本。

具体的，对于前述所得到的每个分词的语义特征和视觉表现特征，可以输入到关键信息确定模型，由该模型输出对应分词是否为关键信息。最终，将模型输出的关键信息作为材料数据对应的初步参考文本。

其中，关键信息确定模型训练过程，可以是以训练数据所包含的内容信息的语义特征及内容信息在训练数据中的视觉表现特征为训练样本，以标注的与训练数据对应的关键信息为样本标签训练得到。

接下来，本实施例中对关键信息确定模型的结构进行说明。

关键信息确定模型可以包括特征拼接层和分类判别层。基于此，在将内容信息的语义特征及视觉表现特征输入关键信息确定模型之后，由模型的特征拼接层对输入的语义特征和视觉表现特征进行特征拼接，进一步由分类判别层基于拼接特征来判别对应的内容信息是否为关键信息，并输出判别后的关键信息。

参见图3，图3示例了一种关键信息确定模型确定内容信息对应的关键信息的示意图。

图3中示例了对“B公司”这一文本内容确定是否为关键信息的过程。首先，需要确定“B公司”的语义特征及其视觉表现特征。进一步，将语义特征及其视觉表现特征输入关键信息确定模型，由模型的特征拼接层对语义特征和视觉表现特征进行特征拼接，得到拼接特征并传输至分类判别层，利用分类判别层，基于拼接特征来判别“B公司”这一文本内容是否为关键信息，并输出判别后的关键信息。

在本申请的又一个实施例中，进一步对上述介绍的第二种确定初步参考文本的方式进行说明。

第二种确定初步参考文本的过程可以包括如下步骤：

S1、确定所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征。

其中，关于内容信息的语义特征、视觉表现特征的确定过程，可以参照前文相关介绍，此处不再赘述。

与上文介绍的第一种确定初步参考文本过程相区别的，本实施例中进一步增加了确定材料数据的属性特征的过程。

S2、将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键信息确定模型，得到模型输出的关键信息，作为材料数据对应的初步参考文本。

与上文介绍的第一种确定初步参考文本过程所提及的关键信息确定模型不同的是，本实施例中的关键信息确定模型在训练过程中，可以是以训练数据所包含的内容信息的语义特征、内容信息在训练数据中的视觉表现特征及训练数据的属性特征为训练样本，以标注的与训练数据对应的关键信息为样本标签训练得到。

也即，本实施例中关键信息确定模型训练过程的训练样本增加了训练数据的属性特征。

显然，通过增加训练数据的属性特征这一训练样本，训练所得到的关键信息确定模型对关键信息的识别确认准确度会更高。

进一步的，对本实施例中的关键信息确定模型的结构进行说明。

关键信息确定模型可以包括特征拼接层和分类判别层。基于此，在将内容信息的语义特征、视觉表现特征及训练数据的属性特征输入关键信息确定模型之后，由模型的特征拼接层对输入的语义特征、视觉表现特征和训练数据的属性特征进行特征拼接，进一步由分类判别层基于拼接特征来判别对应的内容信息是否为关键信息，并输出判别后的关键信息。

参见图4，图4示例了另一种关键信息确定模型确定内容信息对应的关键信息的示意图。

图4中示例了对作为材料数据的PPT演讲稿中的“B公司”这一文本内容确定是否为关键信息的过程。首先，需要确定“B公司”的语义特征及其视觉表现特征。同时，还需要确定PPT演讲稿的属性特征。进一步，将语义特征、视觉表现特征及属性特征输入关键信息确定模型，由模型的特征拼接层对语义特征、视觉表现特征和属性特征进行特征拼接，得到拼接特征并传输至分类判别层，利用分类判别层，基于拼接特征来判别“B公司”这一文本内容是否为关键信息，并输出判别后的关键信息。

在本申请的又一个实施例中，对上述步骤S120，基于所述初步参考文本，确定所述待识别语音对应的参考文本集的过程进行介绍。

可以理解的是，可以直接将初步参考文本组合成待识别语音对应的参考文本集，也即，参考文本集中的参考文本即为初步参考文本。

进一步的，考虑到某些场景下，确定的初步参考文本可能并不全面，例如演讲者讲述的是与“阿尔法狗与李在石围棋比赛”相关的内容，该演讲者提供的演讲稿中仅记录了“阿尔法狗”和“李在石”这两个关键词，按照本申请方案基于演讲稿能够将“阿尔法狗”和“李在石”这两个关键词确定为初步参考文本。

但是在演讲过程中，演讲者口述提及了“投子”这一术语。单纯按照初步参考文本无法覆盖到“投子”这一术语，因此在进行语音识别时，很有可能会错误的识别为“投资”。

为此，本实施例中，可以基于初步参考文本进行知识图谱扩展，得到扩展后参考文本，该扩展后参考文本可以是由初步参考文本所扩展出的相关的文本。进而，可以由初步参考文本和扩展后参考文本组成待识别语音对应的参考文本集。也即，参考文本集中的参考文本由初步参考文本和扩展后参考文本共同组成。

仍以上述例子进行说明：

在得到初步参考文本“阿尔法狗”和“李在石”之后，可以基于“阿尔法狗”和“李在石”这两个词进行相关性搜索。由于“阿尔法狗”和“李在石”是与围棋比赛相关的，而围棋比赛中会出现“投子”这一术语，因此本实施例中可以扩展得到“投子”这一扩展后参考文本。

接下来的实施例中，介绍一种基于初步参考文本进行知识图谱扩展的可选实施方式。

具体的，本申请实施例中可以预先收集获取各领域场景下的关键信息，如热词、专业术语表达等，组成关键信息表。进一步的，对于关键信息表中的每个关键信息，确定能够表征其语义特征的语义向量。

在得到初步参考文本之后，首先确定能够表征初步参考文本的语义特征的语义向量，进而计算初步参考文本与关键信息表中每个关键信息的语义向量间距离，并选取距离小于距离阈值(距离阈值可以根据实验确定)的关键信息，作为扩展后参考文本。

当然，除此之外还可以采用其它方式来对初步参考文本进行知识图谱的扩展。例如，检索包含初步参考文本的材料文本，并计算初步参考文本与材料文本中每个词的共现次数，选取共现次数超过次数阈值的词作为扩展后参考文本，等等其它多种可选方式。

在本申请的又一个实施例中，对上述步骤S130，结合参考文本集对待识别语音进行语音识别，得到语音识别结果的过程进行介绍。

一种可选的方式下，由于参考文本集中的参考文本很可能就是待识别语音对应识别结果中包含的文本，因此可以将参考文本集作为先验信息，使用语音识别模型对待识别语音进行识别，并且在识别过程中对参考文本集中的参考文本进行正向激励，也即在识别过程中，若发现参考文本作为候选识别结果，则可以对该参考文本的得分进行正向激励，从而提升该参考文本作为最终识别结果的概率，最终得到语音识别结果。

这里在进行语音识别过程所使用的语音识别模型，可以是通用的语音识别模型，也可以是针对特定场景所定制的语音识别模型，本申请对此不作严格限定。

一种示例场景如下：

参考文本集中包含：“罗辑思维”。待识别语音对应的文本为：“2020罗辑思维罗振宇上海跨年演讲门票演出信息详情介绍”。

在对待识别语音进行识别过程，当识别到“罗辑思维”对应的语音片段时，语音识别模型识别过程会识别出“逻辑思维”、“罗辑思维”两个候选识别结果。

按照现有技术，由于“逻辑思维”相比“罗辑思维”出现的频率更高，因此前者的得分会比后者高，最终得到的识别结果为“逻辑思维”，而显然该结果并非正确的识别结果。

本实施例中在识别过程发现“罗辑思维”属于参考文本，因此会对其得分进行正向激励，这样激励后的得分可能就会超过“逻辑思维”，因此最终能够正确识别出该语音片段对应的是“罗辑思维”。

另一种可选的方式下，首先可以使用语音识别模型对待识别语音进行识别，得到初步语音识别结果。进一步的，利用参考文本集中的参考文本，对初步语音识别结果进行修正，得到修正后的语音识别结果。

可以理解的是，初步语音识别结果由于没有使用任何参考文本进行辅助，因此可能包含错误的识别文本。因此，可以利用参考文本集中的参考文本对初步语音识别结果进行修正。

一种可选的修正方式如，将参考文本在初步语音识别结果中进行匹配，判断初步语音识别结果中是否存在匹配度超过设定匹配度阈值的目标文本单元，若存在，则利用参考文本替换初步语音识别结果中的目标文本单元。

仍以上述示例场景进行说明：

由于“逻辑思维”相比“罗辑思维”出现的频率更高，因此前者的得分会比后者高，最终得到的初步识别结果是“2020逻辑思维罗振宇上海跨年演讲门票演出信息详情介绍”，而显然该初步结果并非正确的识别结果。

在此基础上，本实施例进一步采用参考文本“罗辑思维”对上述初步识别结果进行修正，如将参考文本“罗辑思维”在初步识别结果中进行匹配，发现初步识别结果中“逻辑思维”与参考文本“罗辑思维”的匹配度达到了75％，超过设定阈值，因此直接将参考文本“罗辑思维”替换掉初步识别结果中的“逻辑思维”，得到最终的识别结果为：“2020罗辑思维罗振宇上海跨年演讲门票演出信息详情介绍”，显然该最终识别结果是正确的。

当然，上述仅仅示例了一种可选的利用参考文本集对初步语音识别结果进行修正的实施方式，除此之外还可以采用其它方式来实现。

下面对本申请实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种语音识别装置结构示意图。

如图5所示，该装置可以包括：

材料数据获取单元11，用于获取与待识别语音相关的材料数据；

内容信息确定单元12，用于确定所述材料数据包含的内容信息；

初步参考文本确定单元13，用于至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本；

参考文本集确定单元14，用于基于所述初步参考文本，确定所述待识别语音对应的参考文本集；

语音识别单元15，用于结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果。

可选的，上述初步参考文本确定单元13可以包括：

或，

可选的，上述第一初步参考文本确定子单元可以包括：

可选的，上述第一特征确定单元确定所述内容信息的语义特征的过程，可以包括：

可选的，上述第一特征确定单元确定所述内容信息在所述材料数据中的视觉表现特征的过程，可以包括：

可选的，上述关键信息确定模型可以包括特征拼接层和分类判别层。基于此，第一模型确定单元将语义特征及视觉表现特征输入配置的关键信息确定模型，得到模型输出的关键信息的过程，可以包括：

可选的，上述第二初步参考文本确定子单元可以包括：

可选的，上述关键信息确定模型可以包括特征拼接层和分类判别层。基于此，第二模型确定单元将所述语义特征、所述视觉表现特征及所述属性特征输入配置的关键词确定模型，得到模型输出的关键信息的过程，可以包括：

可选的，上述参考文本集确定单元14可以包括：

或，

可选的，上述语音识别单元15可以包括：

或，

可选的，上述材料数据可以包括图片格式和/或非图片格式的材料数据。基于此，上述内容信息确定单元12确定所述材料数据包含的内容信息的过程，可以包括：

本申请实施例提供的语音识别装置可应用于语音识别设备，如手机、电脑等。可选的，图6示出了语音识别设备的硬件结构框图，参照图6，语音识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取与待识别语音相关的材料数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取与待识别语音相关的材料数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取与待识别语音相关的材料数据；

2.根据权利要求1所述的方法，其特征在于，所述至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本，包括：

或，

3.根据权利要求2所述的方法，其特征在于，

内容信息在所述材料数据中的格式、排版、位置；

所述材料数据的属性特征包括以下任意一项或多项的组合：

4.根据权利要求2所述的方法，其特征在于，所述基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征，确定所述材料数据对应的初步参考文本，包括：

5.根据权利要求4所述的方法，其特征在于，确定所述内容信息的语义特征的过程，包括：

6.根据权利要求4所述的方法，其特征在于，确定所述内容信息在所述材料数据中的视觉表现特征的过程，包括：

7.根据权利要求4所述的方法，其特征在于，所述关键信息确定模型包括特征拼接层和分类判别层；

8.根据权利要求2所述的方法，其特征在于，所述基于所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征，确定所述材料数据对应的初步参考文本，包括：

9.根据权利要求8所述的方法，其特征在于，所述关键信息确定模型包括特征拼接层和分类判别层；

10.根据权利要求1所述的方法，其特征在于，所述基于所述初步参考文本，确定所述待识别语音对应的参考文本集，包括：

或，

11.根据权利要求1所述的方法，其特征在于，所述结合所述参考文本集对所述待识别语音进行语音识别，得到语音识别结果，包括：

或，

12.根据权利要求1所述的方法，其特征在于，所述材料数据包括图片格式和/或非图片格式的材料数据；

所述确定所述材料数据包含的内容信息，包括：

13.一种语音识别装置，其特征在于，包括：

14.一种语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～12中任一项所述的语音识别方法的各个步骤。

15.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～12中任一项所述的语音识别方法的各个步骤。