CN111199730B

CN111199730B - 语音识别方法、装置、终端及存储介质

Info

Publication number: CN111199730B
Application number: CN202010019444.5A
Authority: CN
Inventors: 孙天炜; 马百鸣; 高璐宇
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-02-03
Anticipated expiration: 2040-01-08
Also published as: CN111199730A

Abstract

本公开是关于一种语音识别方法、装置、终端及存储介质，所述方法包括：接收到第一语音信息；将所述第一语音信息与当前用户的语料库中存储的信息进行比对；响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。本实施例是基于语料库中预先存储的信息，将所述第一语音信息与存储的信息比对，在存在与所述第一语音信息满足第一相似度条件的第二语音信息的情况下，能够基于所述第二语音信息当前的正确识别结果，输出第一语音信息的回应信息，从而能够提高语音识别的准确性。

Description

语音识别方法、装置、终端及存储介质

技术领域

本公开涉及终端技术领域，尤其涉及语音识别方法、装置、终端及存储介质。

背景技术

终端作为语音识别设备已经应用于各个领域，例如应用在智能家居、车载等。通过终端的语音识别实现智能语音助手。然而，相关技术中，在进行语音识别过程中，往往要求用户使用标准的语言才能识别准确，基于此，如何提高语音识别的准确性成为亟需解决的技术问题。

发明内容

根据本公开实施例的第一方面，提供一种语音识别方法，包括：

接收到第一语音信息；

将所述第一语音信息与当前用户的语料库中存储的信息进行比对；

响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。

可选地，所述方法还包括：

将所述第一语音信息进行语音识别，得到第一文本信息；

所述将所述第一语音信息与当前用户的语料库中存储的信息进行比对，包括：

将所述第一文本信息与当前用户的所述语料库中存储的历史文本信息进行比对；

所述响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息，包括：

响应于所述语料库中存在与所述第一文本信息满足第一相似度条件的、表征所述第二语音信息当前的正确识别结果的第二文本信息，基于所述第二文本信息，输出所述第一语音信息的回应信息

可选地，所述方法还包括：

响应于所述语料库中不存在与所述第一语音信息满足第一相似度条件的第二语音信息，识别所述第一语音信息；

基于所述第一语音信息识别得到的第三文本信息，输出所述第一语音信息的回应信息。

可选地，所述方法还包括：

获取到基于所述回应信息的反馈信息；

响应于所述反馈信息表征所述第三文本信息识别正确，则将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。

可选地，所述方法还包括：

在第一预定时间内接收到多条第一语音信息；

确定所述多条第一语音信息之间的相似度；

获取所述多条第一语音信息分别对应的反馈信息；

所述响应于所述反馈信息表征所述第三文本信息识别正确，将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中，包括：

响应于所述多条第一语音信息之间的相似度满足第二相似度条件，且所述多条第一语音信息分别对应的反馈信息中存在至少一条反馈信息表征对应的第一语音信息识别正确，

将识别正确的第一语音信息对应的第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

可选地，所述获取到基于所述回应信息的反馈信息包括以下至少之一：

获取在所述回应信息输出第二预定时间内接收到的确认信息；

获取在所述回应信息输出第二预定时间内接收到的否认信息；

在确定所述回应信息输出第二预定时间内未接收到用户反馈，生成指示所述第三文本信息识别正确的反馈信息；

在确定所述回应信息输出第二预定时间内接收到满足第二相似度条件的下一条第一语音信息，生成指示所述第三文本信息识别错误的反馈信息。

可选地，所述方法还包括：

在第三预定时间内接收到多条第一语音信息；

确定所述多条第一语音信息之间的相似度；

响应于所述多条第一语音信息之间的相似度满足第二相似度条件，将所述多条第一语音信息中的最后一条件第一语音信息所对应的第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：

第一接收模块，被配置为接收到第一语音信息；

比对模块，被配置为将所述第一语音信息与当前用户的语料库中存储的信息进行比对；

第一输出模块，被配置为响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。

可选地，所述装置还包括：

第一识别模块，被配置为将所述第一语音信息进行语音识别，得到第一文本信息；

所述比对模块，还被配置为：

第一输出模块，还被配置为：

响应于所述语料库中存在与所述第一文本信息满足第一相似度条件的、表征所述第二语音信息当前的正确识别结果的第二文本信息，基于所述第二文本信息，输出所述第一语音信息的回应信息。

可选地，所述装置还包括：

第二识别模块，被配置为响应于所述语料库中不存在与所述第一语音信息满足第一相似度条件的第二语音信息，识别所述第一语音信息；

第二输出模块，被配置为基于所述第一语音信息识别得到的第三文本信息，输出所述第一语音信息的回应信息。

可选地，所述装置还包括：

获取模块，被配置为获取到基于所述回应信息的反馈信息；

存储模块，被配置为响应于所述反馈信息表征所述第三文本信息识别正确，则将所述第三文信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。

可选地，所述装置还包括：

第二接收模块，被配置为在第一预定时间内接收到多条第一语音信息；

第一确定模块，被配置为获取所述多条第一语音信息分别对应的反馈信息；

所述存储模块，还被配置为：

将识别正确的第一语音信息对应的所述第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

可选地，所述获取模块，还被配置为以下至少之一：

在确定所述回应信息输出第二预定时间内接收到信息满足第二相似度条件的下一条第一语音信息，生成指示所述第三文本信息识别错误的反馈信息。

可选地，所述装置还包括：

第三接收模块，被配置为在第三预定时间内接收多条第一语音信息；

第四确定模块，被配置为确定所述多条第一语音信息之间的相似度；

所述存储模块，还被配置为：

响应于所述多条第一语音信息之间的相似度满足第二相似度条件，将所述多条第一语音信息中的最后一条第一语音信息所对应的第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：执行时实现上述任意实施例所述的语音识别方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任意所述的方法步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，通过接收到第一语音信息；将所述第一语音信息与当前用户的语料库中存储的信息进行比对，响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。也就是说，在本实施例中，终端不会直接基于第一语音信息输出所述第一语音信息的回应信息，而是会在语料库中找到与所述第一语音信息满足第一相似度条件的第二语音信息，基于这一与所述第一语音信息满足第一相似度条件的第二语音信息的当前正确识别结果来输出的语音请求的回应信息。如此一来，由于语料库中可以存储针对用户的个人发音习惯或发音特点等的信息，因此，本实施例可以通过响应于所述语料库中存在与第一语音信息满足第一相似度条件的第二语音信息，并基于所述第二语音信息当前的正确识别结果，来识别所述第一语音信息，故，不需要第一语音信息以标准的发音特征，可以满足语音识别过程中的个性化识别。也就是说，本实施例的语音识别可以允许用户口音的存在，即使用户使用非标准的发音特点，也能做出准确地识别，提高了语音识别的准确性。同时也由于能够直接从语料库中获取到与第一语音信息满足第一相似度条件的第二语音信息当前的正确识别结果，因此，还能提高语音识别的效率，最终提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别方法的流程图；

图2是根据一示例性实施例示出的一种语音识别方法的另一流程图；

图3是根据一示例性实施例示出的一种语音识别方法的又一流程图；

图4是根据一示例性实施例示出的一种语音识别方法的再一流程图；

图5是根据一示例性实施例示出的一种语音识别装置的框图；

图6是根据一示例性实施例示出的一种用于终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101：接收到第一语音信息。

本实施例的方法应用于终端，所述终端可以是手机、平板电脑、笔记本电脑和智能设备中的至少一种。这里，所述智能设备可以是智能音响、智能电视或智能冰箱等。需要说明的是，所述智能音响可以是应用于车载智能音响，也可以是家居智能音响。

这里，所述第一语音信息包含用户的语音请求，所述语音请求可以是用于语音控制的语音请求，例如，用于控制终端设备执行某种操作的语音控制，如开启音乐播放的语音控制。在另一些实施例中，所述语音请求还可以是用于语音对话的语音请求，例如，用于与智能语音机器人对话的语音提问等。

步骤102：将所述第一语音信息与当前用户的语料库中存储的信息进行比对。

这里，当前用户的语料库中存储的信息，可以包括：基于历史语音信息识别得到的与所述历史语音信息对应的历史文本信息。例如，根据历史语音信息“请播放歌曲山”，识别得到的历史语音信息“请播放歌曲山”的历史文本信息。

在另一些实施例中，当前用户的语料库中存储的信息，还可以包括：用户的历史语音信息。

需要补充的是，当前用户的语料库不仅存储了历史语音信息识别得到的历史文本信息，还存储了所述历史语义信息识别得到的历史文本信息所对应的正确识别结果。例如，上述“请播放歌曲山”的历史文本信息对应的正确识别结果为“请播放歌曲三”。

或者，当前用户的语料库中不仅存储了用户的历史语音信息，还存储了用户的历史语音信息所对应的正确识别结果。例如，上述“请播放歌曲山”的历史语音信息对应的正确识别结果为“请播放歌曲三”。

步骤103：响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。

这里，所述第一相似度条件可以包括：第一语音信息与第二语音信息的匹配度大于匹配度阈值。也就是说，与第一语音信息的匹配度大于所述匹配度阈值的第二语音信息，则为与所述第一语音信息满足第一相似度条件的第二语音信息。

这里，所述第二语音信息实际上可以包括历史语音信息和/或所述历史语音信息识别得到的历史文本信息。

实际上，当用户的语料库中存储的信息包括的是用户的历史语音信息的情况下，所述第一语音信息与第二语音信息的匹配度大于匹配度阈值，可以包括：第一语音信息与第二语音信息中的超过预定比例的发音特征相同或相似，则认为所述第一语音信息与第二语音信息的匹配度大于匹配度阈值。例如，“播放歌曲山”和“播放歌曲三”这两条语音信息中，有超过80％的发音特征相同，则认为“播放歌曲山”和“播放歌曲三”的匹配度大于匹配度阈值。

在另一些实施例中，当用户的语料库中存储的信息包含的是用户的历史语音信息识别得到的历史文本信息的情况下，所述方法还包括：将所述第一语音信息进行语音识别，得到第一文本信息；

响应于所述语料库中存在与所述第一文本信息满足第一相似度条件的、表征所述第二语音信息当前正确识别结果的第二文本信息，基于所述第二文本信息，输出所述第一语音信息的回应信息。

这里，所述第一语音信息与第二语音信息的匹配度大于匹配度阈值，可以包括：第一语音信息识别得到的第一文本信息与历史文本信息之间的超过预定比例的字词相同，则认为所述第一语音信息识别得到的第一文本信息与历史文本信息的匹配度大于匹配度阈值。例如“小爱、小爱，请关闭音乐”的第一文本信息，与“小爱、小爱，请关闭歌曲”的历史文本信息，有超过80％的字词相同，则认为“小爱、小爱，请关闭音乐”与“小爱、小爱，请关闭歌曲”的匹配度大于匹配度阈值。

相反，若所述匹配度小于或等于匹配度阈值，则表明所述语料库中并不存在与所述第一语音信息满足第一相似度条件的第二语音信息。

在本实施例中，通过将匹配度至少大于匹配度阈值作为满足第一相似度条件，也作为确定是否存在有与第一语音信息满足第一相似度条件的第二语音信息的基本条件，排除了与那些匹配度小于或等于阈值的第二语音信息，减少了盲目利用语料库，也就是利用语料库中那些匹配度小于或等于阈值的第二语音信息进行语音识别，导致的语音识别错误的现象。

进一步地，为了能够更精确的识别，在一些实施例中，终端将所述第一语音信息与所述语料库中的多个所述第二语音信息进行匹配，以得到多个匹配度；若匹配度大于匹配度阈值，且为多个所述匹配度中的最高匹配度，则确定满足所述第一相似度条件。

这里，终端会将所述匹配度满足匹配度阈值，且匹配度最高的第二语音信息作为与所述第一语音信息满足第一相似条件的语音信息，如此来提高语音识别的精确度。

在另一些实施例中，所述将所述第一语音信息与所述语料库中多个所述第二语音信息进行匹配，以得到多个匹配度，包括：

将所述第一语音信息转换成第一语音向量，以及将所述第二语音信息转换成第二语音向量；

将所述第一语音向量与多个所述第二语音向量进行匹配，以得到多个所述匹配度。

这里，通过将语音信息转换成语音向量，可以理解的是，将语音信息以语音向量的形式表达出来。具体地，将语音信息中的各个发音特征用语音向量表达，例如，根据语音信息的发音音调或发音音频等特点构建语音向量。

所述语音向量包括所述第一语音信息中一个或多个发音元素的发音特点，该发音特点可为一个或多个。

其中，针对不同的人，对于同一发音元素“H”的发音特点也有不同，有些人会将“H”的发音发成类似“F”的音，而有些人可能会将“H”发成其他的音。总之，同一发音元素也可以有多个发音特点。

这里，需要说明的是，不同的字词对应的发音特点不同，例如，“p”与“a”的发音特点不同。

如此，本实施例通过第一语音向量与第二语音向量之间的匹配，可以简化语音信息匹配的计算量，提高语音信息匹配的效率。

进一步地，所述将所述第一语音信息转换成第一语音向量以及将所述第二语音信息转换成第二语音向量，包括：

将所述第一语音信息转换成第一拼音信息，将所述第一拼音信息转换成所述第一语音向量；以及，

将所述第二语音信息转换成第二拼音信息，将所述第二拼音信息转换成所述第二语音向量。

可以理解的是，先将语音信息转换成拼音信息，再将拼音信息转换成语音向量，相比较直接将语音信息转换成语音向量而言，可以扩大语音信息的表达范围，从而得到更准确的语音向量表达。例如，一条语音信息为“明天下余吗”，这里，由于有些口音的存在在语音信息转换成语音向量时由于音调中声调的不同而导致转换的局限性，从而造成匹配度降低，进而导致匹配不准确的现象。而如果将语音信息“明天下余吗”先转换成拼音信息“mingtian xia yu ma”后，能够完全匹配到“明天下雨吗”，从而可以提高匹配的准确性，最终提高语音识别的准确性。

当然，在另一些实施例中，若第二语音信息包括的是历史语音信息识别得到的历史文本信息，所述方法还包括：

将所述第一语音信息进行识别，得到第一文本信息；

所述将所述第一语音信息与所述语料库中多个所述第二语音信息进行匹配，以得到多个匹配度，包括：

将所述第一文本信息转换成第一词向量，以及将所述历史文本信息转换成第二词信息；

将所述第一词向量与多个所述第二词向量进行匹配，以得到多个所述匹配度。

这里，通过将文本信息转换成词向量，可以理解为，将文本信息进行向量化的表达。例如，根据文本信息中字词的含义等特点构建的词向量。

需要理解的是，在所述语料库中存储有多个历史语音信息的正确识别结果，或者，存储有多个历史语音信息识别得到的历史文本信息对应的正确识别结果，这个正确的识别结果是经过验证后认为识别正确的结果。例如，第二语音信息识别得到的历史文本信息为“请播放歌曲山”，而该第二语音信息当前正确的识别结果的第二文本信息为“请播放歌曲三”。意味着，第二文本信息实际上是对第二语音信息进行过校准后的正确的识别结果，因此即使用户的“三”字发音并不标准，但是如果利用第二语音信息对应的第二文本信息进行识别，得到的识别结果仍然是一个正确的识别结果。

因此，相比直接利用第一语音信息进行语音识别而言，本实施例中，通过若所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，则基于表征所述第二语音信息当前的正确识别结果的第二文本信息，输出语音请求的回应信息，可以减少由于第一语音信息中可能存在的非标准的发音特点导致的语音识别不准确现象。

需要说明的是，不同的用户可以设置不同的语料库，例如，张三与李四分别具有不同的口音，针对一些特定的字词都有自己独特的发音，因此，张三的语料库与李四的语料库不同。也就是说，通过不同的语料库可以针对不同用户提供准确的语音识别结果。本实施例中，通过与所述语料库中存储的信息比对，得到与第一文本信息满足第一相似度条件的、表征所述第二语音信息当前的正确的识别结果，可以提高针对个人的语音识别的准确性，从而有利于终端在语音识别方面的个性化。

需要补充的是，在一些实施例中，所述语料库是存储在终端设备中。如此，当需要进行语音识别时，可以直接从本地调取语料库，识别出与第一语音信息满足第一相似度条件的第二语音信息的第一文本信息，从而识别出第一语音信息，得到语音识别结果。

本实施例中，调取语料库的操作不需要依赖网络，可以直接基于本地的语料库来进行语音识别。

在另一些实施例中，所述语料库存储在服务器中，当需要进行语音识别时，基于终端标识信息，从服务器中调取与所述标识信息对应的所述语料库。如此，可以节省终端设备的存储空间，提高终端设备的性能。

在另一些实施例中，为了减少用户操作，用户不需要提前设置完全针对自己语音的语料库。服务器中可以存储针对不同地区的用户语料库。当需要进行语音识别时，基于终端的位置信息，从服务器中调取与所述位置信息对应的所述语料库。例如，东北地区的语料库与湖南地区的语料库不同，也与福建广东等地区的语料库不同。如此，用户可以不需要预先设置语料库，减少了用户操作。

这里，所述地理位置信息可以是终端当前所在的地理位置信息，还可以是终端设置的地理位置信息，在此不做任何限制。

因此，本实施例中，还由于终端可以基于语料库会对第一语音信息进行矫正，不需要用户具有标准的语音发音也能被正确识别，且可以适应各类人群，允许各类口音的存在，有利于终端针对语音识别的个性化；且不直接利用语料库进行识别，提高了语音识别效率。

作为一可选的实施例，请参阅图2，图2是根据一示例性实施例示出的一种语音识别的另一流程图，如图2所示，所述方法还包括：

步骤201：响应于所述语料库中不存在与所述第一语音信息满足第一相似度条件的第二语音信息，识别所述第一语音信息；

步骤202：基于所述第一语音信息识别得到的第三文本信息，输出所述第一语音信息的回应信息。

这里，当所述语料库中不存在与所述第一语音信息满足第一相似度条件的第二语音信息时，会采用ASR(Automatic Speech Recognition，自动语音识别)对第一语音信息进行识别，从而得到第一语音信息对应的第三文本信息，输出所述第一语音信息的回应信息。

本实施例中，在不存在与所述第一语音信息满足第一相似度条件的第二语音信息的情况下，终端会基于ASR自动识别所述第一语音信息识别得到的第三文本信息，得到第一语音信息的回应信息。如此一来，可以减少因为语料库中没有存储与第一语音信息满足第一相似度条件的第二语音信息时，无法响应所述语音请求的现象。

作为另一可选的实施例，请参阅图3，图3是根据一示例性实施例示出的一种语音识别的又一流程图，如图3所示，所述方法还包括：

步骤301：获取到基于所述回应信息的反馈信息；

步骤302：响应于所述反馈信息表征所述第三文本信息识别正确，将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。

这里，终端基于所述回应信息接收到反馈信息，基于反馈信息确定所述第三文本信息识别是否正确，若所述反馈信息表征所述第三文本信息识别正确，将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。如此一来，可以方便下一次语音识别时，直接从语料库中找到该正确识别结果，基于所述正确识别结果进行语音识别，提高语音识别的准确度和语音识别的效率。

作为一个可选的实施例，所述方法还包括：

在第一预定时间内接收到多条第一语音信息；

所述获取到基于所述回应信息的反馈信息，包括：

获取所述多条第一语音信息分别对应的反馈信息；

这里，所述第二相似度条件可以包括：多条所述第一语音信息的匹配程度大于预设值，例如，多条所述第一语音信息分别对应的多个第三文本信息中，超过预定占比的字词相同，可以认为所述多条第一语音信息的匹配程度大于预设值。

需要说明的是，所述第二相似度与所述第一相似度可以相同也可以不同。

在实际应用中，为了保证语音识别的准确性，也为了增加语料库中存储的信息的丰富度，所述第一相似度大于所述第二相似度。

实际上，这里的预定程度实际上可以设置的很低，甚至只要在第一预定时间内的连续语音信息都可以被归纳为满足第二相似度的第一语音信息，从而确保语料库中存储的信息的丰富度。

具体地，终端在第一预定时间内接收到满足第二相似度条件的多条第一语音信息，表明用户正在针对同一需求发出多次的语音请求，可见多次的语音请求时有一些语音请求得到的回应信息并非是正确的回应信息，而只有当至少有一条所述第一语音信息被识别正确时，才会需要将这一条被识别正确的第一语音信息对应的第三文本信息作为当前的正确识别结果被利用起来。

例如，终端在第一预定时间内接收到“播放歌曲山”、“播放歌曲商”以及“播放歌曲三”的三条满足第二相似度条件的第一语音信息，只有“播放歌曲三”这一条第一语音信息被识别正确。

本实施例中，终端能够将满足第二相似度条件的多条第一语音信息分别对应的文本信息，与确定出被识别正确的所述第一语音信息对应的所述第三文本信息存储在所述语料库中，也就是说，会将“播放歌曲山”、“播放歌曲商”以及“播放歌曲三”这三条满足第二相似度条件的第一语音信息对应的识别正确的“播放歌曲三”的第三文本信息存储在语料库中。这样的话，用户在下次以“播放歌曲山”作为第一语音信息的语音请求时，仍可以正确识别到“播放歌曲三”这一文本信息进行识别，从而保证了语音识别的准确性。并且，基于多条第一语音信息的识别正确的第三文本信息，可以让用户在下次识别时不用按照标准的语音发音也可以正确识别出来，具有整个该用户的个性化识别功能，提高了用户体验。

进一步地，在另一些实施例中，用户还可以将“歌曲山”这一简短的语音信息也作为N条满足第二相似度条件的其中一条第一语音信息。如此一来，下次识别时，用户只需要用这一简短的语音请求也能识别出“播放歌曲三”来，提高了用户体验。

作为另一个可选的实施例，所述步骤301，就是所述获取到基于所述回应信息的反馈信息包括以下至少之一：

这里，所述第二预定时间与所述第一预定时间不同，所述第二预定时间可包括：终端在历史输出回应信息后与历史基于所述回应信息接收到反馈信息之间的平均时间，或最长时间。

而上述的第一预定时间可以是包含连续N条所述第一语音信息的反馈时间，也就是说，第一预定时间至少包含了N-1个所述第二预定时间。

这里，所述获取在所述回应信息输出第二预定时间内接收到的确认信息，可以包括：终端获取在回应信息输出第二预定时间内接收到的表征确认的语音回复信息。

举个例子来说，终端在回应信息输出第二预定时间内接收到“OK”、“谢谢”或者“可以”等表征确认的语音回复信息时，表明用户针对回应信息的确认。这个确认是肯定的确认，那么，所述回应信息的反馈信息能够表明第三文本信息识别正确。

在另一些实施例中，所述终端在所述回应信息输出第二预定时间内接收到的确认信息，还可以包括：终端获取在回应信息输出第二预定时间内接收到的第一操作信息，其中，所述第一操作信息能够表明用户针对回应信息的确认。

举个例子来说，终端在回应信息输出第二预定时间内接收到“确认控件”上的第一操作，表明用户针对回应信息进行了确认。这个确认是肯定的确认，那么，所述回应信息的反馈信息能够表明第三文本信息识别正确。

这里，所述获取所述回应信息输出第二预定时间内接收到的否认信息，可以包括：终端获取在回应信息输出第二预定时间内接收到的表征否认的语音回复信息。

举个例子来说，终端在回应信息输出第二预定时间内接收到“不对”或“请重试”等表征否认的语音回复信息时，表明用户针对回应信息的否认，这个否认表明了第三文本信息识别错误，也就是所述回应信息的反馈信息表明第三文本信息识别错误。

在另一些实施例中，所述获取所述回应信息输出第二预定时间内接收到的否认信息，还可以包括：终端获取在回应信息输出第二预定时间内接收到的第二操作信息，其中，所述第二操作信息能够表明用户针对回应信息的否认。

举个例子来说，终端在回应信息输出第二预定时间内接收到“否认控件”上的第二操作，表明用户针对回应信息进行了否认。也就是所述回应信息的反馈信息表明第三文本信息识别错误。

所述在确定所述回应信息输出第二预定时间内未接收到用户反馈，生成指示所述第三文本信息识别正确的反馈信息，可以理解为，在确定所述回应信息输出第二预定时间内未接收到用户反馈，表明回应信息是正确的，用户没有再进行语音请求或输入其他的反馈信息，此时，生成指示所述第三文本信息识别正确的反馈信息，来表明语音识别正确。

举个例子来说，对于智能音响而言，若用户发起的语音请求是请求播放一个英文歌曲，此时智能音响基于所述语音请求做出的回应正是播放英文歌曲，因此，用户不会再基于这一回应信息进行其他的反馈，如此一来，在预定时间内终端未接收到用户反馈，实际上可以表明，终端的回应信息正是用户想要的回应信息，因此，会生成指示所述第三文本信息识别正确的反馈信息，以表明语音识别正确。

所述在确定所述回应信息输出第二预定时间内接收到满足第二相似度条件的下一条第一语音信息，生成指示所述第三文本信息识别错误的反馈信息，可以理解为，在确定所述回应信息输出第二预定时间内接收到满足第二相似度条件的下一条第一语音信息，表明针对此条所述第一语音信息的回应信息是错误的，因此用户会及时再输入下一条与所述第一语音信息相似的第一语音信息，重新发出语音请求，此时，此条所述第一语音信息生成指示所述第三文本信息识别错误的反馈信息，来表明语音识别错误。

仍以用户发起的语音请求是请求播放一个英文歌曲为例，假设用户因为某些原因没有将该语音请求表达完整，或者表达的有所偏差，智能音响基于这一语音请求做出的回应并不是播放英文歌曲，因此，用户会根据这个错误的回应信息，及时发出第二次的语音请求，即终端会再次接收到满足第二相似度条件的下一条所述第一语音信息，如此一来，可以确定当前的所述第一语音信息所识别的第三文本信息是错误的，此时，生成指示所述第三文本信息识别错误的反馈信息，以表明语音识别错误。

作为另一个可选的实施例，所述方法还包括：

终端在第三预定时间内接收到多条所述第一语音信息；

确定所述多条第一语音信息之间的相似度；

响应于所述多条所述第一语音信息之间的相似度满足第二相似度条件，将所述多条第一语音信息中的最后一条第一语音信息所对应的第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

可以理解的是，当终端在第三预定时间内接收到多条第一语音信息时，在最后一条所述第一语音信息发出之后，因为没有再发出新的第一语音信息，那么不论是否接收到基于最后一条第一语音信息的回应信息的反馈信息，都可以默认为最后一条所述第一语音信息所对应的第三文本信息识别正确。

这里，所述第三预定时间与所述第一预定时间可以相同，也可以不同。

进一步地，本公开提供了一个具体实施例，以进一步理解本公开实施例所提供的语音识别方法。

需要说明的是，ASR的语音识别原理通常是分析已识别出的句子的一些通用特征是否符合已经训练好的语音模型来对句子中可能出现的错误做纠正。首先使用大量的语音做模型训练，得到通用的语音模型，再对识别出的句子做分词、断句等预处理操作，通过模型计算句子的整体概率及各个分词出现在句子中的概率，当出现概率小于指定阈值时即认为可能包含错误，再使用拼音相似度、编辑距离等方式在备选词集中选择出可能正确的候选词集，最后通过一定的打分策略选择最佳的候选词做替换矫正。虽然，现有的ASR能很好的解决语音识别，用户音频包含的噪声等问题，但是这是一种通用的方法，所训练的模型也是符合整体人类习惯的，没有考虑到用户个人的语音习惯，例如口音等信息。

请参阅图4，图4是根据一示例性实施例示出的一种语音识别方法的再一流程图，如图4所示，所述方法包括：

步骤401：接收第一语音信息；

这里，所述步骤401可以理解为上述实施例所述的步骤101。

步骤402：调取个人语料库；

这里，步骤402可以理解的是，从终端本地或服务器中调取个人语料库，这里，所述个人语料库可以理解为上述实施例所述语料库。

在一些实施例中，终端会预先构建用户的个人语料库，在个人语料库中包含了用户的历史语音语音信息识别得到的历史文本信息。这里，用户的历史语音信息可以理解上述实施例所述的第二语音信息。

步骤403：计算第一语音信息识别得到第一文本信息与个人语料库中历史文本信息的相似度；

步骤403，实际上可以理解为，上述实施例所述的终端将所述第一语音信息识别得到的第一文本信息与所述个人语料库中的多个第二语音信息进行匹配，以得到多个匹配度。这里的相似度可以理解为上述实施例所述的匹配度。

步骤404：判断相似度是否大于阈值，若是则执行步骤405，若否，则执行步骤407；

步骤405：选取最大相似度的历史文本信息；

这里，所选择的最大相似度的历史文本信息，可以理解为上述实施例选取与第一语音信息识别得到的第一文本信息满足第一相似度条件的历史文本信息，也就是满足所述匹配度大于匹配度阈值，且为多个所述匹配度中的最高匹配对应的历史文本信息。

步骤406：输出第一语音识别结果；

在步骤406中，实际上是基于所选择的最大相似度的、表征所述第二语音信息当前识别正确的第二文本信息，输出第一语音信息的第一语音识别结果。

步骤407：基于第一语音信息，输出第二语音识别结果。

所述步骤407，可以理解为，若相似度不大于阈值，则基于第一语音信息，输出第一语音信息的第二语音识别结果。也就是说，如果相似度不大于阈值，表明在个人语料库中并未存在有与第一语音信息相似的第二语音信息，因此，此时直接根据第一语音信息利用ASR识别方法进行语音识别即可。

步骤408：将第一语音信息识别正确的第三文本信息更新到个人语料库中。

这里，所述步骤408可以理解为，如果第二语音识别结果经反馈信息表明其识别正确，那么可以将第一语音信息识别得到的第三文本信息存储到个人语料库中。

在一些实施例中，对于用户连续多次相似度很高的语音请求，也就是终端在第一预定时间内连续接收到多个满足第二相似度条件的第一语音信息，可以认为最后一次语音请求对应的第一语音信息识别得到的第三文本信息是识别正确的第三文本信息，因此，这里，终端会将最后一次的第一语音信息所对应的第三文本信息与连续多次相似度很高的语音请求对应的第一语音信息更新至个人语料库中。

本实施例中，通过构建的个人语料库，利用个人语料库中已经校正好的第二语音信息对应当前的正确识别结果，来识别用户的第一语音信息，能够充分利用用户个人的语言习惯，即提高了纠正速度，又提高了纠正准确性。

图5是根据一示例性实施例示出的一种语音识别装置的框图。参照图5，该装置包括第一接收模块51、比对模块52和第一输出模块53；其中，

所述第一接收模块51，被配置为接收到第一语音信息；

所述比对模块52，被配置为将所述第一语音信息与当前用户的语料库中存储的信息进行比对；

所述第一输出模块53，被配置为响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息。

在一些实施例中，所述装置还包括：

所述比对模块，还被配置为：

所述第一输出模块，还被配置为：

在一些实施例中，所述装置还包括：

第二输出模块，基于所述第一语音信息识别得到的第三文本信息，输出所述第一语音信息的回应信息。

在一些实施例中，所述装置还包括：

获取模块，被配置为获取到基于所述回应信息的反馈信息；

存储模块，被配置为响应于所述反馈信息表征所述第三文本信息识别正确，则将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。

在一些实施例中，所述装置还包括：

第一确定模块，被配置为确定所述多条第一语音信息之间的相似度；

所述获取模块，还被配置为获取所述多条第一语音信息分别对应的反馈信息；

所述存储模块，还被配置为：

在一些实施例中，所述获取模块，还被配置为以下至少之一：

在一些实施例中，所述装置还包括：

第三接收模块，被配置为在第三预定时间内接收到多条第一语音信息；

所述存储模块，还被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于终端600的框图。例如，终端600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，终端600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制终端600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为终端600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为终端600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述终端600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当终端600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为终端600提供各个方面的状态评估。例如，传感器组件614可以检测到终端600的打开/关闭状态，组件的相对定位，例如所述组件为终端600的显示器和小键盘，传感器组件614还可以检测终端600或终端600一个组件的位置改变，用户与终端600接触的存在或不存在，终端600方位或加速/减速和终端600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于终端600和其他终端之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由终端600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行上述各实施例所述的语音识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

接收到第一语音信息；

将所述第一语音信息与当前用户的语料库中存储的信息进行比对；当前用户的语料库中存储的信息包括：用户的历史语音信息；

响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息；所述第一相似度条件包括：所述第一语音信息与所述第二语音信息中超过预定比例的发音特征相同或相似。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一语音信息进行语音识别，得到第一文本信息；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取到基于所述回应信息的反馈信息；

响应于所述反馈信息表征所述第三文本信息识别正确，将所述第三文本信息作为所述第一语音信息当前的正确识别结果存储到所述语料库中。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在第一预定时间内接收到多条第一语音信息；

确定所述多条第一语音信息之间的相似度；

所述获取到基于所述回应信息的反馈信息，包括：

获取所述多条第一语音信息分别对应的反馈信息；

响应于所述多条第一语音信息之间的相似度满足第二相似度条件，且所述多条第一语音信息分别对应的反馈信息中存在至少一条反馈信息表征对应的第一语音信息识别正确，将识别正确的第一语音信息对应的第三文本信息作为所述多条第一语音信息当前的正确识别结果存储到所述语料库中。

6.根据权利要求4或5所述的方法，其特征在于，所述获取到基于所述回应信息的反馈信息包括以下至少之一：

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在第三预定时间内接收到多条第一语音信息；

确定所述多条第一语音信息之间的相似度；

8.一种语音识别装置，其特征在于，包括：

第一接收模块，被配置为接收到第一语音信息；

比对模块，被配置为将所述第一语音信息与当前用户的语料库中存储的信息进行比对；当前用户的语料库中存储的信息包括：用户的历史语音信息；

第一输出模块，被配置为响应于所述语料库中存在与所述第一语音信息满足第一相似度条件的第二语音信息，基于所述第二语音信息当前的正确识别结果，输出所述第一语音信息的回应信息；所述第一相似度条件包括：所述第一语音信息与所述第二语音信息中超过预定比例的发音特征相同或相似。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述比对模块，还被配置为：

第一输出模块，还被配置为：

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

获取模块，被配置为获取到基于所述回应信息的反馈信息；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述存储模块，还被配置为：

13.根据权利要求11或12所述的装置，所述获取模块，还被配置为以下至少之一：

14.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述存储模块，还被配置为：

15.一种终端，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：执行时实现上述权利要求1至7任一项所述的语音识别方法。

16.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现权利要求1至7中任一项所述的方法步骤。