CN111312222B

CN111312222B - 一种唤醒、语音识别模型训练方法及装置

Info

Publication number: CN111312222B
Application number: CN202010091382.9A
Authority: CN
Inventors: 陈天峰; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2023-09-12
Anticipated expiration: 2040-02-13
Also published as: CN111312222A

Abstract

本申请涉及计算机技术领域，尤其涉及一种唤醒、语音识别模型训练方法及装置，获取唤醒语音；根据已训练的语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的概率得分，其中，所述语音识别模型为根据语音样本集通过迭代训练获得的，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒，这样，能够提高目标用户对智能设备唤醒的效果。

Description

一种唤醒、语音识别模型训练方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种唤醒、语音识别模型训练方法及装置。

背景技术

目前，随着人工智能技术的不断发展，越来越多的智能设备出现，例如，智能音箱等，当用户需要使用智能设备时，需要将智能设备从休眠状态中唤醒，才能继续使用智能设备，由于现有的智能设备的唤醒效果主要针对大多数人群，因此，当某个特定的人的音调或音色非常特殊时，可能会出现无法唤醒智能设备，或者需要多次输入唤醒语音，才能够唤醒智能设备的情况，这样，非常影响用户体验，因此，如何提高目标用户唤醒智能设备的效果，成为了一个亟待解决的问题。

发明内容

本申请实施例提供一种唤醒、语音识别模型训练方法及装置，以提高目标用户对智能设备的唤醒效果。

本申请实施例提供的具体技术方案如下：

一种唤醒方法，包括：

获取唤醒语音；

根据已训练的语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的概率得分，其中，所述语音识别模型为根据语音样本集通过迭代训练获得的，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒。

可选的，所述语音识别模型为以下一种或组合：第一语音识别模型、第二语音识别模型；

若所述语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集，则所述语音识别模型为所述第一语音识别模型，所述通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，所述目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本；

若所述语音样本集为目标唤醒词语音样本集，则所述语音识别模型为所述第二语音识别模型。

可选的，获得所述唤醒语音中是否包含预设唤醒词的概率得分，具体包括：

根据已训练的第一语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的第一概率得分；

根据已训练的第二语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的第二概率得分；

根据所述第一概率得分与所述第二概率得分，获得所述唤醒语音中是否包含预设唤醒词的概率得分。

一种语音识别模型训练方法，包括：

获取语音样本集，其中，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

将所述语音样本集输入到语音识别模型进行训练，输出为识别出的是否包含预设唤醒词的概率得分，直至所述语音识别模型的目标函数收敛，获得训练完成的语音识别模型，其中，所述目标函数为是否包含预设唤醒词的概率得分的识别结果的交叉熵函数最小化。

可选的，所述语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集；所述通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，所述目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本；或，所述语音样本集为目标唤醒词语音样本集。

可选的，所述目标唤醒词语音样本集是根据将获得的各目标语音唤醒词语音样本通过预设数据模拟方式进行数据模拟后获得的，所述数据模拟方式至少包括以下一种或任意组合：变换语速、变换语调、添加噪音。

一种唤醒装置，包括：

获取模块，用于获取唤醒语音；

处理模块，用于根据已训练的语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的概率得分，其中，所述语音识别模型为根据语音样本集通过迭代训练获得的，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

确定模块，用于若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒。

可选的，获得所述唤醒语音中是否包含预设唤醒词的概率得分时，确定模块具体用于：

一种语音识别模型训练装置，包括：

获取模块，用于获取语音样本集，其中，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

训练模块，用于将所述语音样本集输入到语音识别模型进行训练，输出为识别出的是否包含预设唤醒词的概率得分，直至所述语音识别模型的目标函数收敛，获得训练完成的语音识别模型，其中，所述目标函数为是否包含预设唤醒词的概率得分的识别结果的交叉熵函数最小化。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述唤醒方法或语音识别模型训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别模型训练方法的步骤。

本申请实施例中，获取唤醒语音，根据通过语音样本集迭代训练得到的语音识别模型，语音样本集中至少包括目标用户的目标唤醒词语音样本，然后以唤醒语音为输入参数，输入到语音识别模型中，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的概率得分，若确定概率得分大于或等于预设概率阈值，则确定唤醒，这样，由于语音样本集中至少包括目标用户的目标唤醒词语音样本，当目标用户输入唤醒语音时，可以提高目标用户输入的唤醒语音的概率得分，使得目标用户更加容易唤醒智能设备，大大提高了目标用户对智能设备的唤醒效果。

附图说明

图1为本申请实施例中一种智能设备唤醒方法的流程图；

图2为本申请实施例中一种语音识别模型训练方法的流程；

图3为本申请实施例中唤醒装置的结构示意图；

图4为本申请实施例中语音识别模型训练装置的结构示意图；

图5为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，随着人工智能技术的不断发展，越来越多的智能设备出现，例如，智能音箱等，当用户需要使用智能设备时，需要将智能设备从休眠状态中唤醒，才能继续使用智能设备，但是，由于现有技术中的智能设备的唤醒效果主要针对大多数人群，也就是说，例如，在100个人中，当输入唤醒语音后，99个人都可以轻松唤醒智能设备，然而，当某个特定的人的音调或音色特殊时，可能会出现无法唤醒智能设备，或者需要多次输入唤醒语音，才能够唤醒智能设备的情况，这样，该智能设备对特定用户的唤醒效果非常差，非常影响用户体验，因此，如何提高目标用户对智能设备的唤醒效果，成为了一个亟待解决的问题。

本申请实施例中，获取唤醒语音，根据通过语音样本集进行迭代训练后的语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，并获得唤醒语音中是否包含预设唤醒词的概率得分，其中，语音样本集中至少包括目标用户的目标唤醒词语音样本，若确定概率得分大于或等于预设概率得分阈值，则确定唤醒，这样，通过至少包括目标用户的目标唤醒词语音样本的语音样本集，训练得到的语音识别模型，可以使得当目标用户输入唤醒语音时，获得的概率得分大大提高，对于目标用户来说，能够更容易唤醒智能设备。

基于上述实施例，参阅图1所示，为本申请实施例中一种唤醒方法的流程图，本申请实施例中的唤醒方法的执行主体并不进行限定，例如可以应用于智能设备、服务器等，下面以应用于智能设备为例，唤醒方法具体包括：

步骤100：获取唤醒语音。

本申请实施例中，在获取唤醒语音时，可以通过智能设备上的麦克风获取用户的唤醒语音，本申请实施例中对此并不进行限制。

其中，麦克风例如可以采用单麦克风、双麦克风或多个麦克风等，并且，多个麦克风还可以构成不同的麦克风阵列，例如可以构成线型、环型、L型的麦克风阵列，本申请实施例中对此并不进行限制。

用户的唤醒语音例如可以是“开机”、“HELLO”，本申请实施例中对此并不进行限制。

智能设备例如可以是智能音箱、智能空调等，本申请实施例中并不进行限制。

步骤110：根据已训练的语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的概率得分。

其中，语音识别模型为根据语音样本集通过迭代训练获得的，语音样本集中至少包括目标用户的目标唤醒词语音样本，目标用户为VIP用户。

也就是说，本申请实施例中是将用户输入的唤醒语音输入到已训练的语音识别模型中，即，以唤醒语音为输入参数，并识别唤醒语音中是否包含预设唤醒词，输出参数为唤醒语音中是否包含预设唤醒词的概率得分。

例如，假设已训练的语音识别模型中的预设唤醒词为“开机”，当用户输入的唤醒语音为“开机”时，则将“开机”输入到已训练的语音识别模型中，识别“开机”中是否包含预设唤醒词，此时，由于已训练的语音识别模型中的预设唤醒词为“开机”，则能够识别到唤醒语音中包含预设唤醒词，即“开机”，并获得唤醒语音中是否包含预设唤醒词的概率得分为78分。

本申请实施例中对预设唤醒词并不进行限定，并且，对唤醒语音中是否包含预设唤醒词的概率得分也不进行限定。

步骤120：若确定概率得分大于或等于预设概率得分阈值，则确定唤醒。

具体地，当获得用户的唤醒语音后，则根据已训练的语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，并获得唤醒语音中是否包含预设唤醒词的概率得分，进而根据获得的概率得分判断是否唤醒。

本申请实施例中，在执行步骤120之前，首先需要获得唤醒语音的概率得分，才能够根据概率得分确定是否唤醒智能设备。

现有技术中的唤醒设备效果指标主要针对的是大多数人群，也就是说，例如，当100个用户唤醒该智能设备时，唤醒智能设备的概率可能高达99％，而对于一个特定用户可能效果不好，例如，该特定用户需要多次输入唤醒语音才能够将智能设备唤醒。

例如，该特定用户在第一次输入唤醒语音“开机”时，智能设备没有唤醒，这就意味着，当该特定用户在第一次输入唤醒语音“开机”时，根据已训练的语音识别模型，以唤醒语音为输入参数时，识别唤醒语音中是否包含预设唤醒词“开机”，并获得唤醒语音中是否包含预设唤醒词的概率得分没有超过预设概率得分阈值，然后，当该特定用户在第二次输入唤醒语音“开机”时，可能会出现还是无法唤醒的情况，当该特定用户在第三次输入唤醒语音“开机”时，若此时唤醒语音的概率得分大于或等于预设概率得分阈值，则确定唤醒。

也就是说，在现有技术中，由于不同用户的语调、语速、音色的不同，唤醒设备对于某些用户的唤醒效果没有那么好，因此，本申请实施例中，提供了一种唤醒方法，能够使得唤醒设备对于目标用户来说唤醒效果更好，例如，一个家庭的人数不超过10人，唤醒设备的真实需要就是在这特定的10人汇总取得最优的效果，因此，需要通过本申请实施例中的唤醒方法，使得智能设备具备一定的个性化，对于VIP用户唤醒智能设备时有很好的效果，而对于非目标用户还是可以保持相同的效果。

由于语音识别模型为根据语音样本集通过迭代训练获得的，语音样本集中至少包括目标用户的目标唤醒词语音样本，也就是说，该语音样本集中至少包括目标用户的目标唤醒词语音样本，例如，语音样本集中包括目标用户的目标唤醒词语音样本“开机”，此时，当目标用户输入到语音识别模型中的唤醒语音为“开机”时，由于该语音识别模型中的语音样本中至少包括该目标用户的目标唤醒词语音样本，因此，此时获得的唤醒语音中是否包含预设唤醒词的概率得分会相比于现有技术中的唤醒方法较高，这样，唤醒设备确定唤醒。

进一步地，由于本申请实施例中的语音识别模型为根据语音样本集通过迭代训练以后获得的，语音样本集中至少包括目标用户的目标唤醒词语音样本，进而可以将语音识别模型至少分为以下二种：

第一种：语音识别模型为第一语音识别模型。

若语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集，则语音识别模型为第一语音识别模型。

其中，通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

本申请实施例中，第一语音识别模型的语音样本集中包括通用唤醒词语音样本集和目标唤醒词语音样本集。

其中，通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，通用唤醒词语音样本集中至少包括多个唤醒词语音样本，例如，“开机”、“今天天气怎么样”等，本申请实施例中对此并不进行限制。

并且，各唤醒词样本中包括多个非目标用户的语音样本，例如，假设唤醒词为“开机”，则通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，例如，包括10岁男童、7岁女童、34岁女性、56岁男性的通用唤醒词语音样本“开机”，本申请实施例中对此并不进行限制。

目标用户可以为一个目标用户，也可以为多个目标用户，本申请实施例中对此并不进行限制。

目标唤醒词语音样本集中包括多个目标用户的目标语音唤醒词语音样本，也就是说，目标唤醒词语音样本集中至少包括多个目标用户的目标语音唤醒词，例如，“开机”、“今天天气怎么样”，本申请实施例中对此并不进行限制。

并且，各目标语音唤醒词还包括多个目标用户的语音样本，例如，假设唤醒词为“开机”，则至少包括多个目标用户的目标语音唤醒词，也就是说，包括该目标用户输入的多个“开机”。

当语音识别模型为第一语音识别模型时，在执行步骤“获得唤醒语音中是否包含预设唤醒词的概率得分”时，具体包括：

S1：根据已训练的第一语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的第一概率得分。

其中，第一语音识别模型的语音样本集中包括通用唤醒词语音样本集和目标唤醒词语音样本集，通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

具体地，根据已训练的第一语音识别模型，将接收到的用户的唤醒语音为第一语音识别模型的输入参数，通过已训练的第一语音识别模型识别唤醒语音中是否包含预设唤醒词，并获得唤醒语音中是否包含预设唤醒词的第一概率得分。

例如，假设预设唤醒词为“小A快开机”，目标用户输入到智能设备中的唤醒语音为“小A快开机”，则智能设备将接收到的用户的唤醒语音“小A快开机”作为第一语音识别模型的输入参数，通过已训练的第一语音识别模型识别唤醒词“小A快开机”，并获得唤醒语音中是否包含预设唤醒词的第一概率得分为89分，本申请实施例中对此并不进行限制。

并且，本申请实施例中，当语音识别模型为第一语音识别模型时，由于语音样本集中包括通用唤醒词语音样本集和目标唤醒词语音样本集，因此，不仅能够提高对于目标用户的唤醒效果，还能够保持对于非目标用户的唤醒效果。

S2：根据已训练的第二语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的第二概率得分。

其中，第二语音识别模型的语音样本集中至少包括目标唤醒词语音样本集，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

具体地，根据已训练的第二语音识别模型，将接收到的用户的唤醒语音为第二语音识别模型的输入参数，通过已训练的第二语音识别模型识别唤醒语音中是否包含预设唤醒词，并获得唤醒语音中是否包含预设唤醒词的第二概率得分。

例如，假设预设唤醒词为“小A快开机”，目标用户输入到智能设备中的唤醒语音为“小A快开机”，则智能设备将接收到的用户的唤醒语音“小A快开机”作为第二语音识别模型的输入参数，通过已训练的第二语音识别模型识别唤醒词“小A快开机”，并获得唤醒语音中是否包含预设唤醒词的第二概率得分为93分，本申请实施例中对此并不进行限制。

S3：根据第一概率得分与第二概率得分，获得唤醒语音中是否包含预设唤醒词的概率得分。

具体地，执行步骤S3时，可以分为以下两种不同的方式，这两种方式为本申请中的示例，本申请实施例中还可以采用其它方式获得唤醒语音中是否包含预设唤醒词的概率得分，本申请实施例中并不进行限制。

第一种方式：根据第一概率得分与第二概率得分之和获得唤醒语音中是否包含预设唤醒词的概率得分。

则执行步骤S3时，具体包括：

将第一概率得分与第二概率得分相加，获得唤醒语音中是否包含预设唤醒词的概率得分。

例如，假设第一概率得分为89分，第二概率得分为93分，则获得唤醒语音中是否包含预设唤醒词的概率得分为182分，本申请实施例中对此并不进行限制。

第二种方式：根据权重获得概率得分。

则执行步骤S3时，具体包括：

根据第一概率得分、第二概率得分、以及第一概率得分与第二概率得分的权重，获得唤醒语音中是否包含预设唤醒词的概率得分。

例如，假设第一概率得分为89分，第二概率得分为93分，第一概率得分的权重为0.4，第二概率得分的权重为0.6，则可以获得唤醒语音中是否包含预设唤醒词的概率得分为89×0.4+93×0.6＝91.4分，即唤醒语音中是否包含预设唤醒词的概率得分为91.4分，本申请实施例中对此并不进行限制。

第二种：语音识别模型为第二语音识别模型。

若语音样本集为目标唤醒词语音样本集，则语音识别模型为第二语音识别模型。

其中，第二语音识别模型中包括目标唤醒词语音样本集，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

本申请实施例中，当语音识别模型为第二语音识别模型时，可直接获得唤醒语音中是否包含预设唤醒词的概率得分。

例如，假设预设唤醒词为“今天天气怎么样”，目标用户输入到智能设备中的唤醒语音为“今天天气怎么样”，则智能设备将接收到的用户的唤醒语音“今天天气怎么样”作为第二语音识别模型的输入参数，通过已训练的第二语音识别模型识别唤醒词“今天天气怎么样”，并获得唤醒语音中是否包含预设唤醒词的概率得分为87分，本申请实施例中对此并不进行限制。

进一步地，若本申请实施例中的唤醒方法的执行主体为服务器，则本申请实施例中的唤醒方法具体包括：

S1：智能设备通过麦克风获取用户输入的语音数据。

S2：智能设备将语音数据发送给服务器。

S3：服务器根据已训练的语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的概率得分。

S4：服务器判断该概率得分是否大于或等于预设概率阈值。

S5：服务器若确定大于或等于预设概率得分阈值，则生成唤醒指令。

S6：服务器将唤醒指令发送给智能设备。

S7：智能设备根据接收到的唤醒指令唤醒。

本申请实施例中，当唤醒方法的执行主体为服务器时，则本申请实施例中对执行主体并不进行限制。

当获得唤醒语音中是否包含预设唤醒词的概率得分之后，判断概率得分是否大于或等于预设概率得分阈值，具体包括以下两种不同的情况。

第一种情况：概率得分大于或等于预设概率得分阈值。

若确定概率得分大于或等于预设概率得分阈值，则确定唤醒。

本申请实施例中，可以在智能设备或者服务器中预先设置概率得分阈值，当获得的概率得分大于或等于预设概率得分阈值时，则确定唤醒。

例如，预设的概率得分阈值为80分，假设此时获得的概率得分为93分，则确定概率得分大于预设概率得分阈值，并确定唤醒智能设备，本申请实施例中对预设概率得分阈值并不进行限制。

第二种情况：概率得分小于预设概率得分阈值。

若确定概率得分小于预设概率得分阈值，则按照预设提示方式提示用户重新输入唤醒语音。

例如，预设的概率得分阈值为80分，假设此时获得的概率得分为50分，则确定概率得分小于预设概率得分阈值，无法唤醒智能设备，则智能设备可以按照预设提示方式提示用户重新输入唤醒语音。

其中，预设提示方式可预先设置在智能设备中，例如，通过语音或文字提示用户重新输入语音，本申请实施例中对此并不进行限制。

本申请实施例中，获得唤醒语音，并将唤醒语音作为已训练的语音识别模型的输入参数，该语音识别模型为根据语音样本集通过迭代训练获得的，语音样本集中至少包括目标用户的目标唤醒词语音样本，然后，通过语音识别模型识别唤醒语音中是否包含预设唤醒词，并获得唤醒语音中是否包含预设唤醒词的概率得分，若确定概率得分大于或等于预设概率得分阈值，则确定唤醒，这样，通过目标用户的目标唤醒词语音样本的语音样本集训练获得语音识别模型，可以使得在语音识别模型输出概率得分时，能够提高目标用户的概率得分，进而能够使得目标用户更容易唤醒智能设备，大大提高了目标用户唤醒智能设备的效果。

基于上述实施例，下面对语音识别模型的训练过程进行详细阐述，参阅图2所示，为本申请实施例中一种语音识别模型训练方法的流程。

步骤200：获取语音样本集。

其中，语音样本集中至少包括目标用户的目标唤醒词语音样本，目标用户为VIP用户。

步骤210：将语音样本集输入到语音识别模型进行训练，输出为识别出的是否包含预设唤醒词的概率得分，直至语音识别模型的目标函数收敛，获得训练完成的语音识别模型。

其中，目标函数为是否包含预设唤醒词的概率得分的识别结果的交叉熵函数最小化。

本申请实施例中的语音样本集可以分为以下两种不同的情况。

第一种情况：语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集。

语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集，通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

其中，目标唤醒词语音样本集是根据将获得的各目标语音唤醒词语音样本通过预设数据模拟方式进行数据模拟后获得的，数据模拟方式至少包括以下一种或任意组合：变换语速、变换语调、添加噪音。

本申请实施例中，在训练语音识别模型时，目标用户可向语音识别模型中输入多次目标唤醒词语音，例如，目标用户向智能设备输入20次“开机”，本申请实施例中对目标唤醒词的内容和次数并不进行限制。这样，语音识别模型的语音样本集中至少包括由少量目标用户的目标唤醒词语音样本。

但是，由于目标用户输入的目标唤醒词语音不会太多，可能只有几十条，仅有这些唤醒词语音数据很难对语音识别模型进行优化，也就是说，仅根据目标用户输入的目标唤醒词语音训练语音识别模型后，训练后的语音识别模型对于目标用户的唤醒效果并不会太好。

因此，需要通过数据模拟将目标用户输入的目标唤醒词语音进行数据模拟，数据模拟方式至少包括以下一种或任意组合：变换语速、变换语调、添加噪音，这样，就可以获得大量的目标用户的目标唤醒词语音样本，并将获得的目标唤醒词语音样本生成目标唤醒词样本集，进而使用目标唤醒词语音样本集训练语音识别模型，直至语音识别模型的目标函数收敛，获得训练完成的语音识别模型，进而，根据已训练的语音识别模型，以唤醒语音为输入参数，识别唤醒语音中是否包含预设唤醒词，获得唤醒语音中是否包含预设唤醒词的概率得分，能够获得更高的概率得分，因此，可以更好地唤醒智能设备。

并且，若语音样本集中不仅包括目标唤醒词语音样本集，还包括通用唤醒词语音样本集时，则该语音识别模型可以是在通用唤醒语音样本集迭代训练后，然后根据目标唤醒词样本集再次进行迭代训练，获得优化后的语音识别模型。

进一步地，由于在目标用户使用智能设备时，还会输入唤醒语音，也就是说，随着用户使用智能设备的次数越来越多，语音样本集中的目标唤醒词语音样本会越来越多，这样，可以优化语音识别模型，对于VIP用户来说，智能设备的唤醒效果会随着使用次数越来越好。

第二种情况：语音样本集为目标唤醒词语音样本集。

语音样本集包括目标唤醒词语音样本集，目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本。

本申请实施例中，当语音样本集为目标唤醒词语音样本集时，训练方式和第一种情况下的语音样本集的训练方式相同，在此并不过多赘述。

本申请实施例中，由于获取到的语音样本集中至少包括目标用户的目标唤醒词语音样本，进而可以获得针对目标用户训练完成的语音识别模型中，因此，当目标用户输入唤醒语音时，可以提高目标用户输入的唤醒语音的概率得分，使得目标用户能够更容易唤醒智能设备，大大提高了智能设备的唤醒效果。

基于同一发明构思，本申请实施例中提供了唤醒装置，该唤醒装置例如可以是前述实施例中的智能设备，也可以是服务器，本申请实施例中对此并不进行限定，该唤醒装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图3所示，为本申请实施例中唤醒装置的结构示意图，具体包括：

获取模块300，用于获取唤醒语音；

处理模块310，用于根据已训练的语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的概率得分，其中，所述语音识别模型为根据语音样本集通过迭代训练获得的，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

确定模块320，用于若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒。

可选的，获得所述唤醒语音中是否包含预设唤醒词的概率得分时，确定模块320具体用于：

根据所述第一概率得分与所述第二概率，获得所述唤醒语音中是否包含预设唤醒词的概率得分。

基于同一发明构思，本申请实施例中提供了语音识别模型训练装置，该语音识别模型训练装置例如可以是服务器，也可以是智能设备，本申请实施例中对此并不进行限定，该语音识别模型训练装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图4所示，为本申请实施例中语音识别模型训练装置的结构示意图，具体包括：

获取模块400，用于获取语音样本集，其中，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；

训练模块410，用于将所述语音样本集输入到语音识别模型进行训练，输出为识别出的是否包含预设唤醒词的概率得分，直至所述语音识别模型的目标函数收敛，获得训练完成的语音识别模型，其中，所述目标函数为是否包含预设唤醒词的概率得分的识别结果的交叉熵函数最小化。

基于上述实施例，参阅图5所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器510(CenterProcessing Unit，CPU)、存储器520、输入设备530和输出设备540等，输入设备530可以包括键盘、鼠标、触摸屏等，输出设备540可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器520可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器510提供存储器520中存储的程序指令和数据。在本申请实施例中，存储器520可以用于存储本申请实施例中任一种唤醒方法或任一种语音识别模型训练方法的程序。

处理器510通过调用存储器520存储的程序指令，处理器510用于按照获得的程序指令执行本申请实施例中任一种唤醒方法或任一种语音识别模型训练方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的唤醒方法或语音识别模型训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种唤醒方法，其特征在于，包括：

获取唤醒语音；

若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒；

其中，获得所述唤醒语音中是否包含预设唤醒词的概率得分，具体包括：

根据已训练的第一语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的第一概率得分；并根据已训练的第二语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的第二概率得分；其中，所述第一语音识别模型的语音样本集中包括通用唤醒词语音样本集以及目标唤醒词语音样本集，所述通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，所述目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本；所述第二语音识别模型的语音样本集中包括目标唤醒词语音样本集；

2.如权利要求1所述的方法，其特征在于，所述语音识别模型为以下一种或组合：第一语音识别模型、第二语音识别模型；

3.一种基于权利要求1-2任一所述的唤醒方法的语音识别模型训练方法，其特征在于，包括：

4.如权利要求3所述的方法，其特征在于，所述语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集；所述通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，所述目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本；或，

所述语音样本集为目标唤醒词语音样本集。

5.如权利要求4所述的方法，其特征在于，所述目标唤醒词语音样本集是根据将获得的各目标语音唤醒词语音样本通过预设数据模拟方式进行数据模拟后获得的，所述数据模拟方式至少包括以下一种或任意组合：变换语速、变换语调、添加噪音。

6.一种唤醒装置，其特征在于，包括：

获取模块，用于获取唤醒语音；

确定模块，用于若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒；

其中，获得所述唤醒语音中是否包含预设唤醒词的概率得分时，确定模块具体用于：

7.如权利要求6所述的装置，其特征在于，所述语音识别模型为以下一种或组合：第一语音识别模型、第二语音识别模型；

8.一种基于权利要求1-2任一所述的唤醒方法的语音识别模型训练装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述语音样本集包括通用唤醒词语音样本集和目标唤醒词语音样本集；所述通用唤醒词语音样本集中包括多个非目标用户的通用唤醒词语音样本，所述目标唤醒词样本集中包括多个目标用户的目标唤醒词语音样本；或，

所述语音样本集为目标唤醒词语音样本集。

10.如权利要求8所述的装置，其特征在于，所述目标唤醒词语音样本集是根据将获得的各目标语音唤醒词语音样本通过预设数据模拟方式进行数据模拟后获得的，所述数据模拟方式至少包括以下一种或任意组合：变换语速、变换语调、添加噪音。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-2或3-5任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-2或3-5任一项所述方法的步骤。