CN106157956A

CN106157956A - 语音识别的方法及装置

Info

Publication number: CN106157956A
Application number: CN201510130636.2A
Authority: CN
Inventors: 罗炜; 贾鑫
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2016-11-23
Also published as: WO2016150001A1

Abstract

本发明公开了一种语音识别的方法及装置，其中，该方法获取用户当前语音的语音识别信息，以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。通过本发明解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题，进而提高了语音识别的准确性。

Description

语音识别的方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别的方法及装置。

背景技术

语音识别技术随着计算机和相关软硬件技术的发展，已越来越多的应用在各个领域，其识别率也在不断的提高。在环境安静、发音标准等特定条件下，目前应用在语音识别输入文字系统的识别率已经达到95％以上。常规语音识别技术已比较成熟，针对移动终端的语音识别，由于语音质量相对于普通语音识别场景相对较差，因此语音识别效果受到限制。这里语音质量很差包括如下的原因，例如客户端有背景噪声、客户端语音采集设备、通话设备的噪声、通信线路的噪声和干扰、还有本身说话带有口音或者使用了方言、说话人本身的说话含糊或者不清楚等。所有这些因素都可能造成语音识别效果变差。其识别率受到很多因素的影响，针对相关技术中语音识别率低而导致的用户体验度差的问题，目前尚未提出有效的解决方案。在车上或噪声较大、发音不标准的情况下，其识别率将大打折扣，以至于无法达到真正实用目的。其正确识别率低，影响精确操控，效果不够理想。若能采用其它方法来辅助判断以提高其语音识别的准确率，那么语音识别的实用性将显著提高。

人类的语言认知过程是一个多通道的感知过程。在人与人日常交流的过程中，通过声音来感知他人讲话的内容，在喧闹的环境或对方发音模糊不清时，还需要眼睛观察其口型，表情等的变化，才能准确地理解对方所讲的内容。现行的语音识别系统忽略了语言感知的视觉特性这一面，仅仅利用了单一的听觉特性，使得现有的语音识别系统在噪声环境或多话者条件下，其识别率都显著下降，降低了语音识别的实用性，应用范围也受限制。

针对相关技术中，仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题，还未提出有效的解决方案。

发明内容

本发明提供了一种语音识别的方法及装置，以至少解决相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题。

根据本发明的一个方面，提供了一种语音识别的方法，包括：获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

进一步地，根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果包括：根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇；根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果；或者，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。

进一步地，根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果包括：从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇，将所述第一特定词汇作为所述用户当前语音的最终识别结果。

进一步地，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果包括：从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇，将所述第二特定词汇作为所述用户当前语音的最终识别结果。

进一步地，基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息包括：获取用于指示所述用户当前状态的图像；根据所述图像获取图像特征信息；根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。

进一步地，根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇包括：在预定的图像库中查找与所述图像特征信息相似度最高的特定图像；根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。

进一步地，所述用户当前状态包括以下至少之一：所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。

进一步地，获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息之前包括：判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。

根据本发明的另一个方面，提供了一种语音识别的装置，所述装置包括：获取模块，用于获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；确定模块，用于根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

进一步地，所述确定模块包括：第一获取单元，用于根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇；第二获取单元，用于根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；确定单元，用于根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果；或者，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。

进一步地，所述确定单元还用于从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇，将所述第一特定词汇作为所述用户当前语音的最终识别结果。

进一步地，所述确定单元还用于从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇，将所述第二特定词汇作为所述用户当前语音的最终识别结果。

进一步地，所述获取模块还包括：第三获取单元，用于获取用于指示所述用户当前状态的图像；第四获取单元，用于根据所述图像获取图像特征信息；第五获取单元，用于根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。

进一步地，所述第五获取单元还包括：查找子单元，用于在预定的图像库中查找与所述图像特征信息相似度最高的特定图像；获取子单元，用于根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。

进一步地，所述装置还包括：判定模块，用于判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。

根据本发明的另一个方面，还提供了一种终端，包括处理器，所述处理器用于获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

通过本发明，获取用户当前语音的语音识别信息，以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题，进而提高了语音识别的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音识别方法的流程图；

图2是根据本发明实施例的语音识别装置的结构框图；

图3是根据本发明实施例的语音识别装置的结构框图(一)；

图4是根据本发明实施例的语音识别装置的结构框图(二)；

图5是根据本发明实施例的语音识别装置的结构框图(三)；

图6是根据本发明实施例的语音识别装置的结构框图(四)；

图7是根据本发明实施例的语音识别处理方法的流程图；

图8根据本发明实施例的语音识别处理装置的结构框图；

图9是根据本发明实施例的语音识别处理流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种语音识别的方法，图1是根据本发明实施例的语音识别方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取用户当前语音的语音识别信息，以及基于与该用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；

步骤S104，根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。

通过上述步骤，获取用户当前语音的语音识别信息，并且获取用户在发出语音时的状态特征信息，将用户在发出语音时的状态特征信息作为识别当前语音的辅助信息，相比于现有技术中仅通过用户的当前语音进行语音的识别准确率较低，上述步骤解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题，进而提高了语音识别的准确性。

上述步骤S104中涉及根据语音识别信息和辅助识别信息确定该用户当前语音的最终识别结果，在一个可选实施例中，根据语音识别信息获取用户当前语音对应的一个或者多个第一候选词汇；根据辅助识别信息获取该用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；根据一个或者多个第一候选词汇和该词汇类型确定该用户当前语音的最终识别结果；或者，根据一个或者多个第一候选词汇和一个或者多个第二候选词汇确定用户当前语音的最终识别结果。

根据一个或者多个第一候选词汇和词汇类型确定该用户当前语音的最终识别结果的方式可以有很多种，在一个可选实施例中，从一个或者多个第一候选词汇中选择符合词汇类别的第一特定词汇，将第一特定词汇作为该用户当前语音的最终识别结果。在另一个可选实施例中，从一个或者多个第二候选词汇中选择与一个或者多个第一候选词汇相似度高的第二特定词汇，将第二特定词汇作为用户当前语音的最终识别结果。

上述在根据一个或者多个第一候选词汇和一个或者多个第二候选词汇确定该用户当前语音的最终识别结果的过程中，在一个可选实施例中，首先获取用于指示该用户当前状态的图像，然后根据该图像获取图像特征信息，再根据该图像特征信息获取与该图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将该词汇类别和/或该一个或者多个候选词汇作为该辅助识别信息。

在一个可选实施例中，在预定的图像库中查找与该图像特征信息相似度最高的特定图像，根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与该特定图像对应的词汇类别或者一个或者多个候选词汇。从而根据图像特征信息获取到了与该图像特征信息对应的词汇类别和/或一个或者多个候选词汇。

用户当前状态可以包括多种，下面对此进行举例说明。在一个可选实施例中，该用户的唇形运动状态、该用户的喉部振动状态、该用户的脸部运动状态、该用户的手势运动状态。上述用户的当前状态特征所包括的信息仅作为举例说明，对此不作限制。例如在现实生活中，仅可以通过唇语即可识别说话者所说的内容。因此，唇语是识别语音的重要的辅助因素。

在一个可选实施例中，获取用户当前语音的语音识别信息，以及基于与该用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息之前，判定基于该语音识别信息确定该用户当前语音的最终识别结果的正确率小于预定阈值。

在本实施例中还提供了一种语音识别的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的语音识别装置的结构框图，如图2所示，该装置包括：获取模块22，用于获取用户当前语音的语音识别信息，以及基于与该用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；确定模块24，用于根据该语音识别信息和该辅助识别信息确定该用户当前语音的最终识别结果。

图3是根据本发明实施例的语音识别装置的结构框图(一)，如图3所示，确定模块24包括：第一获取单元242，用于根据该语音识别信息获取该用户当前语音对应的一个或者多个第一候选词汇；第二获取单元244，用于根据该辅助识别信息获取该用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；确定单元246，用于根据该一个或者多个第一候选词汇和该词汇类型确定该用户当前语音的最终识别结果；或者，根据该一个或者多个第一候选词汇和该一个或者多个第二候选词汇确定该用户当前语音的最终识别结果。

可选地，确定单元246还用于从该一个或者多个第一候选词汇中选择符合该词汇类别的第一特定词汇，将该第一特定词汇作为该用户当前语音的最终识别结果。

可选地，确定单元246还用于从该一个或者多个第二候选词汇中选择与该一个或者多个第一候选词汇相似度高的第二特定词汇，将该第二特定词汇作为该用户当前语音的最终识别结果。

图4是根据本发明实施例的语音识别装置的结构框图(二)，如图4所述，获取模块22还包括：第三获取单元222，用于获取用于指示该用户当前状态的图像；第四获取单元224，用于根据该图像获取图像特征信息；第五获取单元226，用于根据该图像特征信息获取与该图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将该词汇类别和/或该一个或者多个候选词汇作为该辅助识别信息。

图5是根据本发明实施例的语音识别装置的结构框图(三)，如图5所示，第五获取单元226还包括：查找子单元2262，用于在预定的图像库中查找与该图像特征信息相似度最高的特定图像；获取子单元2264，用于根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与该特定图像对应的词汇类别或者一个或者多个候选词汇。

可选地，用户当前状态包括以下至少之一：该用户的唇形运动状态、该用户的喉部振动状态、该用户的脸部运动状态、该用户的手势运动状态。

图6是根据本发明实施例的语音识别装置的结构框图(四)，如图6所示，该装置还包括：判定模块26，用于判定基于该语音识别信息确定该用户当前语音的最终识别结果的正确率小于预定阈值。

根据本发明的另一个方面，还提供了一种终端，包括处理器，该处理器用于获取用户当前语音的语音识别信息，以及基于与该用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；根据该语音识别信息和该辅助识别信息确定该用户当前语音的最终识别结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述各个模块均位于同一处理器中；或者，上述各个模块分别位于第一处理器、第二处理器和第三处理器…中。

针对相关技术中存在的上述问题，下面结合具体的可选实施例进行说明，在下述可选实施例中结合了上述可选实施例及其可选实施方式。

本可选实施例提供了一种语音识别处理方法及装置，以解决相关技术中语音识别率低而导致的用户体验度差的问题。为了克服现有技术的上述缺点与不足，本可选实施例的目的在于提供一种基于辅助交互方式的智能语音识别方法和装置，在语音识别的基础上，作为基本信号，配合使用唇形识别、人脸识别、手势识别、喉部振动识别等，作为辅助信号。利用各技术在其应用领域的优势，取长补短，各技术模块相对独立又相互融合，大大提高语音处理识别率，优选的，辅助信号识别的增加可以由语音识别结果决定，当语音识别结果可能性小于阈值则增加辅助数据。符合人类的语言认知过程是一个多通道的感知过程。让终端基于通过声音来感知讲话的内容，配合识别其口型，面部变化等准确地理解所讲的内容。

根据本可选实施例的一个方面，提供了一种语音识别处理方法，通过音频传感器获取音频数据作为基本信号进行语音识别的基础上，通过终端设备摄像头或者外置的传感器采集人体的运动图像，包括手势运动、面部运动、喉部振动，唇形识别等，并通过集成的图像算法和动作处理芯片进行解析，作为语音识别的辅助信号，基本信号和辅助信号识别结果由终端综合处理并执行相应操作。将辅助信号识别结果与语音识别基本信号结果进行累加处理形成统一的识别结果，对语音识别起辅助作用，提高语音识别率。

将手势运动、面部运动、喉部振动，唇形识别综合起来、每种方式都通过特征提取、模板训练、模板分类、判决过程有机的结合起来，运用先语音识别作为基本信号进行分析确认、后辅助信号进行辅助判断的逻辑判断序列、有效的降低因噪声和外界声音干扰产生识别错误的几率。在辅助信号识别过程中，通过传感器和摄像头采集特征数据，进行特征数据提取，与预置的模板库数据进行一系列匹配判断识别，再与相应的识别特征结果进行比对，识别出在语音识别模型词库中可能的候选词词汇。

可选地，上述唇形识别通过摄像头采集说话者的唇形图像，对唇形图像进行图像处理，实时动态提取唇形特征，然后用唇形模式识别算法确定说话内容。采用唇形和唇色相结合的判断方法，准确定位口唇位置。采用适当的唇形匹配算法进行识别。

可选地，上述唇形识别对预处理后的视频数据取出唇形图像的特征，利用唇形图像的特征识别当前用户的嘴型变化；探测用户嘴部运动来实现唇形的识别，提高识别效率和准确率。对上述嘴部运动特征图进行分类，获得分类信息，将上述嘴部运动特征图进行归类，每种特征类型的嘴部运动特征图都对应有若干词汇类别。上述唇形识别获取信息，经过去噪、模数(A/D)转换等一系列处理后，分别与预设在图像/语音识别处理模块中的模板库数据比对，比较上述唇形识别信息的与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的若干词汇类别。

可选地，上述喉部振动识别通过外置传感器采集说话者的喉部振动形态，对振动形态进行处理，实时动态提取振动形态特征，然后用振动形态模式识别算法确定说话内容。

可选地，在对用户进行喉部振动识别之前，需先对用户的喉部振动运动特征图进行采样，对不同用户建立不同的喉部振动运动特征档案。在预先采样用户的喉部振动运动特征图时，可对用户发出一个音节的喉部振动运动特征图进行采样，也可对用户发出一个单词的喉部振动运动特征图进行采样。对于发音不同的语音事件，喉部振动运动不同，由于用户发出的每个语音事件之间是相关的，在完成对喉部振动的识别后，通过使用上下文的纠错技术，对识别的喉部振动进行验证，减少同类别喉部振动运动特征图的识别错误，进一步提高喉部振动识别的准确率。

可选地，上述喉部振动识别对预处理后的振动数据取出喉部振动图像的特征，利用喉部振动图像的特征识别当前用户的喉部振动变化；探测用户喉部振动运动来实现喉部振动的识别，提高识别效率和准确率。对上述喉部振动运动特征图进行分类，获得分类信息，将上述喉部振动运动特征图进行归类，每种特征类型的喉部振动运动特征都对应有若干词汇类别。上述喉部振动识别获取信息，分别与预设在图像/语音识别处理模块中的模板库数据比对，比较上述喉部振动识别信息的与预先采样的所有喉部振动运动特征图的相似度，读取相似度最高的喉部振动运动特征图所对应的若干词汇类别。

上述人脸识别用于对视频数据中用户脸部特征进行提取，对用户的身份和位置进行确定；说话时面部肌肉也对应着不同的运动模式，通过采集面部肌肉的动作，完全可以从信号特征中识别对应的肌肉动作模式，进而辅助进行识别语音信息。

根据本可选实施例的一个方面，还提供了一种语音识别处理装置，包括：基本信号模块。辅助信号模块、信号处理模块。

基本信号模块，为传统的语音识别模块，上述语音识别模块通过音频传感器用于对预处理后的音频数据进行识别；语音识别模块的识别对象包括孤立词汇的语音识别和连续大词汇量的语音识别，前者主要用来确定控制指令，后者主要用于文本的输入。在本发明中主要以孤立词汇的识别为例进行说明，连续大词汇量的识别采用相同的处理方式。

可选地，音频传感器为麦克风阵列或指向性麦克风。由于环境中存在各种形式的噪声干扰，而现有基于普通麦克风的音频获取方式对于用户语音及环境噪声具有相同的灵敏度，没有区别语音与噪声的能力，因此容易造成用户语音识别指令操作正确率的下降。使用麦克风阵列或指向性麦克风可以克服上述问题，使用声源定位与语音增强算法跟踪操作用户的声音并对其声音信号进行增强，抑制周围环境噪声及人声干扰的影响，提高系统语音音频输入的信噪比，保证后端算法获取数据质量的可靠。

辅助信号模块，包括前端摄像头、音频传感器、喉部振动传感器；用于获取视频数据、音频数据和动作数据；

可选地，喉部振动传感器集成于可穿戴设备，位置和用户喉部接触，检测用户产生的语音振动，一个温度传感器放置于可穿戴设备内侧，一个温度传感器放置于可穿戴设备的外侧，微处理器通过比较两个传感器检测的温度，判断可穿戴设备是否被用户穿戴,可穿戴设备在不被穿戴的状况下，将自动进入到休眠模式，降低可穿戴设备整体功耗。微处理器将检测振动传感器状态判断并识别用户发出的语音指令，并将语音指令通过蓝牙设备发送到需要控制的设备，执行语音识别指令。

信号处理单元，包括唇形识别模块、人脸识别模块、振动识别模块、手势识别模块、语音识别模块和分调整模块；用于对基本信号(语音信号)和辅助信号进行识别，选择基本信号作为主要的语音信息，将辅助信号作为辅助语音信息；

运用先基本信号(语音信号)作为基本信号进行分析确认、后辅助信号进行辅助判断的逻辑判断序列，具体识别过程中，选择语音信号识别得出的可能性分值最高的若干个词作为候选词，用于对于每个候选词，根据预定的词表生成多级相关词集合。辅助信号产生的辅助语音信息用于提高语音识别模型中候选词和相关词集合中的相关词在语音别模型词库中的分值。当基本信号和辅助信号全部处理完毕后，选择分值最高的候选词或相关词作为识别结果。

上述唇形识别模块用于对预处理后的视频数据取出唇形图像的特征，利用唇形信息识别当前用户的嘴型变化；

上述人脸识别模块用于对视频数据中用户脸部特征进行提取，对用户的身份和位置进行确定，识别出不同注册用户的身份主要是有利于整个装置个性化操作的定制，如不同控制权的授予，用户的位置信息可以用于辅助手势识别确定用户手的操作区域、确定用户进行语音操作时的方位，以提高麦克风用户方位的音频输入增益；当有多个可能的用户时，此模块能够识别出所有人脸的位置，并对所有用户身份进行判断，并分别进行处理。问用户哪位摄像头视野中的用户将被授予控制权；

上述手势识别模块用于对预处理后的视频数据中手势信息进行提取，确定手型、手的运动轨迹、手在图像中的坐标信息，进而对任意手型进行跟踪，对手在图像中的轮廓进行分析，用户通过特定的手势或动作以获得整个终端的启动和控制权。

通过可选实施例，对现有的各种形式的人机交互技术，包括手势识别、喉部振动识别、语音识别、人脸识别、唇形识别技术等进行融合，语音识别作为基本信号，配合使用唇形识别、人脸识别、手势识别、喉部振动识别等作为辅助信号进行语音识别候选词的分调整。运用先基本信号(语音信号)作为基本信号进行分析确认、后辅助信号进行辅助判断的逻辑判断序列，利用各技术在其应用领域的优势，取长补短，各技术模块相对独立又相互融合，利用唇形信息识别当前用户的嘴型变化，以此为依据降低用户进行语音识别操作时的误判率，以保证在噪声环境中语音操作也能正常识别；人脸识别模块识别出用户的位置信息，可以用于辅助手势识别确定用户手的操作区域、确定用户进行语音操作时的方位，以提高麦克风用户方位的音频输入增益。从而克服噪音的影响，显著提高了语音识别率，再把结果转化成相关指令。很好地做到了提升终端语音识别稳定与操作的舒适。

在附图的流程图示出的步骤可以在用户终端诸如智能手机、平板电脑等中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例提供了一种语音识别处理方法，图7是根据本发明实施例的语音识别处理方法的流程图，如图7所示，该流程包括：

步骤S702，将音频传感器获取的语音信息作为基本信号进行识别处理；

步骤S704，将唇形识别、人脸识别、振动识别、手势识别作为辅助信号进行识别处理，并对基本信号的识别结果进行分调整。

语音识别对象包括孤立词汇的语音识别和连续大词汇量的语音识别，前者主要用来确定控制指令，后者主要用于文本的输入。在本实施例中以孤立词汇的识别为例进行说明，连续大词汇量的识别采用相同的处理方式。通过上述各个步骤，采用先基本信号(语音信号)作为基本信号进行分析确认、后辅助信号进行辅助判断的逻辑判断序列，选择语音信号识别得出的可能性分值最高的若干个词作为候选词，用于对于每个候选词，根据预定的词表生成多级相关词集合。辅助信号识别产生的可能性分值最高的候选词类别作为辅助信息，依次判断基本信号识别出的若干个候选词，如果符合辅助信号识别出的候选词类别，则提高该候选词和相关词集合中的相关词在语音别模型词库中的分值。当基本信号和辅助信号全部处理完毕后，选择分值最高的候选词或相关词作为识别结果。

在具体实施过程中，唇形识别、人脸识别、振动识别、手势识别作为辅助信号进行识别处理，各种识别方式是相互独立的，可以同时使用一个或多个识别方式作为辅助信号输入。

在实施例中还提供了一种装置，该装置与上述实施例中的方法相对应，已经进行过说明的在此不再赘述。该装置中的模块或单元可以是存储在存储器或用户终端中并可以被处理器运行的代码，也可以用其他方式实现，在此不再一一举例。

根据本发明的一个方面，还提供了一种语音识别处理装置，图8是根据本发明实施例的语音识别处理装置的结构框图，如图8所示，该装置包括：

基本信号模块，包括音频传感器、为传统的语音识别模块，上述语音识别模块通过音频传感器用于对预处理后的音频数据进行识别；

辅助信号模块，包括前端摄像头、喉部振动传感器；用于获取视频数据、音频数据和动作数据，包括唇形识别、人脸识别、喉部振动识别、手势识别等；

信号处理模块，包括唇形识别模块、人脸识别模块、振动识别模块、手势识别模块、语音识别模块和分调整模块；用于对基本信号(语音信号)和辅助信号进行识别，选择基本信号作为主要的语音信息，将辅助信号作为辅助信息进行分调整；

上述人脸识别模块用于对视频数据中用户脸部特征进行提取，对用户的身份和位置进行确定，识别出不同注册用户的身份主要是有利于整个装置个性化操作的定制，如不同控制权的授予；

上述手势识别模块用于对预处理后的视频数据中手势信息进行提取，确定手型、手的运动轨迹、手在图像中的坐标信息，进而对任意手型进行跟踪，对手在图像中的轮廓进行分析，用户通过特定的手势或动作以获得整个终端的启动和控制权；

图9是根据本发明语音识别处理方法的流程图，如图9所示，该实施例的语音识别方法如下：

步骤S902，从音频传感器获取的语音信息，从前端摄像头、喉部振动传感器获取视频数据、动作数据，包括唇形识别、人脸识别、喉部振动识别、手势识别等信息；

步骤S904，以孤立词汇的语音识别为例，对语音信号作为基本信号进行识别确认，识别该孤立词汇得到该可能性最大的若干个词作为候选词；

步骤S906，对终端设备摄像头或者外置的传感器采集人体的运动图像，包括手势运动、面部运动、喉部振动，唇形识别等作为辅助信号，进行分析确认，得到可能性分值最高的候选词类别；

步骤S908，依次判断基本信号识别出的若干个候选词，如果符合辅助信号识别出的候选词类别，则提高该候选词在语音别模型词库中的分值；

步骤S910，当基本信号和辅助信号全部处理完毕后，选择分值最高的候选词作为识别结果。

下面以一个具体示例对本可选实施例进行说明。例如通过对机主的语音进行识别，得到以下结果：

“请(0.6)名片夹(0.9)呼叫(0.9)浏览器(0.7)，其中括号中的数值为可能性分值值，代表可能性大小，分值越大可能性越大。选择可能性分值最高的词为候选词，例如选择如下的候选词：名片夹(0.9)呼叫(0.9)作为语音识别结果。

同时进行的手势运动、面部运动、喉部振动，唇形识别等多种方式组合或者只使用其中一种或多种方式作为辅助信号进行识别，得到可能性分值最高的候选词类别。

依次判断语音信号识别出的名片夹(0.9)呼叫(0.9)，判断是否符合辅助信号识别出的候选词类别。假设名片夹符合候选词类别。则提高名片夹的可能性分值，例如更新为名片夹(1.0)呼叫(0.9)。

当语音基本信号和辅助信号全部处理完毕后，选择分值最高的候选词名片夹(1.0)作为识别结果。

作为本实施例的可选实施例，可以运用先辅助信号识别确定候选词类别，后通过语音信号作为基本信号进行分析确认的逻辑判断序列。先通过手势运动、面部运动、喉部振动，唇形识别等多种方式组合或者只使用其中一种或多种方式作为辅助信号进行识别，当使用多种方式进行识别时，每种方式的识别结果累加处理，得到可能性分值最高的候选词类别，在此的基础上结合语音识别结果，从中选择可能性分值最高的词为最终识别结果。下面以一个具体示例对本方案进行说明。例如通过对机主的语音进行识别，得到以下结果：

“请(0.6)名片夹(0.9)呼叫(0.9)浏览器(0.7)，其中括号中的数值为可能性分值。选择可能性分值最高的词为候选词，例如选择如下的候选词：名片夹(0.9)呼叫(0.9)作为语音识别结果。

同时进行的喉部振动和唇形识别两种方式组合作为辅助信号进行识别，假设首先是喉部振动识别，依次判断基本信号识别出的名片夹(0.9)呼叫(0.9)，判断是否符合喉部振动识别识别出的候选词类别。假设名片夹符合喉部振动识别的类别，则提高名片夹的可能性分值，例如更新为名片夹(1.0)呼叫(0.9)。在上一次识别结果的基础上继续进行唇形识别判断，依次判断名片夹(1.0)呼叫(0.9)，判断是否符合唇形识别的候选词类别。假设名片夹符合唇形识别的类别，则提高名片夹的可能性分值，例如更新为名片夹(1.1)呼叫(0.9)。两种方式的识别结果进行了累加处理。

当语音基本信号和辅助信号全部处理完毕后，选择分值最高的候选词名片夹(1.1)作为识别结果。

作为本实施例的可选实施例，进一步筛选的过程是通过分调整来完成，即可以增加符合辅助信号识别的候选词的分值，也可以减小不符合辅助信号识别的候选词的分值，当基本信号和辅助信号全部处理完毕后，选择分值最高的候选词作为识别结果。

作为本实施例的可选实施例，为了提高语音识别准确率加入的利用辅助信息对识别结果进行确认对用户是可选的，语音识别器根据输入语音确定识别结果。为上述识别结果计算出一个可能性度量值。如果该可能性度量值小于阈值，则向用户提示是否输入辅助数据或者自动开启辅助数据识别。如果该可能性度量值大于阈值，则向用户提示是否关闭辅助数据或者自动关闭辅助数据识别。阈值的具体数值不进行限定，由经验值得出或者根据用户体验得出。

基于本上述实施例提高的语音识别方法，对现有的各种形式的人机交互技术，包括手势识别、喉部振动识别、语音识别、人脸识别、唇形识别技术等进行融合，语音识别作为基本信号，配合使用唇形识别、人脸识别、手势识别、喉部振动识别等作为辅助信号进行语音识别候选词的分调整。运用先基本信号(语音信号)作为基本信号进行分析确认、后辅助信号进行辅助判断的逻辑判断序列，利很好地做到了提升终端语音识别稳定与操作的舒适。

综上所述，通过本发明提供的一种语音识别处理方法及装置，在语音识别的基础上，作为基本信号，配合使用唇形识别、人脸识别、手势识别、喉部振动识别等作为辅助信号。解决了相关技术中语音识别率低而导致的用户体验度差的问题。利用各技术在其应用领域的优势，取长补短，各技术模块相对独立又相互融合，大大提高语音处理识别率。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；

根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

2.根据权利要求1所述的方法，其特征在于，根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果包括：

根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇；

根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；

根据所述一个或者多个第一候选词汇和所述词汇类别确定所述用户当前语音的最终识别结果；或者，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。

3.根据权利要求2所述的方法，其特征在于，根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果包括：

从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇，将所述第一特定词汇作为所述用户当前语音的最终识别结果。

4.根据权利要求2所述的方法，其特征在于，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果包括：

从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇，将所述第二特定词汇作为所述用户当前语音的最终识别结果。

5.根据权利要求1所述的方法，其特征在于，基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息包括：

获取用于指示所述用户当前状态的图像；

根据所述图像获取图像特征信息；

根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。

6.根据权利要求5所述的方法，其特征在于，根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇包括：

在预定的图像库中查找与所述图像特征信息相似度最高的特定图像；

根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述用户当前状态包括以下至少之一：所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。

8.根据权利要求1至7中任一项所述的方法，其特征在于，获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息之前包括：

判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。

9.一种语音识别的装置，其特征在于，所述装置包括：

获取模块，用于获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；

确定模块，用于根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

10.根据权利要求9所述的装置，其特征在于，所述确定模块包括：

第一获取单元，用于根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇；

第二获取单元，用于根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇；

确定单元，用于根据所述一个或者多个第一候选词汇和所述词汇类别确定所述用户当前语音的最终识别结果；或者，根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。

11.根据权利要求10所述的装置，其特征在于，所述确定单元还用于从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇，将所述第一特定词汇作为所述用户当前语音的最终识别结果。

12.根据权利要求10所述的装置，其特征在于，所述确定单元还用于从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇，将所述第二特定词汇作为所述用户当前语音的最终识别结果。

13.根据权利要求9所述的装置，其特征在于，所述获取模块还包括：

第三获取单元，用于获取用于指示所述用户当前状态的图像；

第四获取单元，用于根据所述图像获取图像特征信息；

第五获取单元，用于根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇，将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。

14.根据权利要求13所述的装置，其特征在于，所述第五获取单元还包括：

查找子单元，用于在预定的图像库中查找与所述图像特征信息相似度最高的特定图像；

获取子单元，用于根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系，获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。

15.根据权利要求9至14中任一项所述的装置，其特征在于，所述用户当前状态包括以下至少之一：所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。

16.根据权利要求9至15中任一项所述的装置，其特征在于，所述装置还包括：

判定模块，用于判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。

17.一种终端，包括处理器，其特征在于，所述处理器用于获取用户当前语音的语音识别信息，以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息；根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。