CN115132212A

CN115132212A - 一种语音控制方法和装置

Info

Publication number: CN115132212A
Application number: CN202110313304.3A
Authority: CN
Inventors: 徐嘉明; 郎玥; 萨出荣贵
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-09-30
Also published as: EP4297023A1; US12462804B2; JP2024510779A; JP7794374B2; US20240013789A1; WO2022199405A1; EP4297023A4

Abstract

本申请提供了一种语音控制方法、装置、可穿戴设备及终端，能够在用户使用语音控制装置时提升声纹采集的效果和声纹识别的准确度。该方法包括：获取用户的语音信息；根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到用户的身份信息，其中，第一语音分量是由可穿戴设备的耳内语音传感器采集到的，第二语音分量是由可穿戴设备的耳外语音传感器采集到的，第三语音分量是由可穿戴设备的骨振动传感器采集到的；当用户的身份信息与预设的信息匹配时，执行操作指令。

Description

一种语音控制方法和装置

技术领域

本申请涉及音频处理技术领域，尤其涉及一种语音控制方法和装置。

背景技术

现有技术通常采用两个语音传感器采集两路声音信号进行声纹识别，从而对发声用户进行身份鉴权。即需要两路语音分量的声纹识别结果都为匹配才会判定为预设用户。骨振动传感器是一种常见的语音传感器，声音在骨头中传播时会引起骨头的振动，骨振动传感器感应骨头的振动，并将振动信号转换为电信号来实现声音的收集。

如果两个语音传感器中有一路使用了骨振动传感器，由于当前的骨振动传感器，往往只能采集到说话人发音信号的低频成分(通常1KHz以下)，高频成分会损失掉，这对声纹识别是不利的，会导致声纹识别不准确的问题。

发明内容

本申请提供一种语音控制方法及装置，可能够解决当使用骨振动传感器时，高频成分会损失掉，导致声纹识别不准确的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种语音控制方法，包括：获取用户的语音信息，该语音信息包括第一语音分量，第二语音分量和第三语音分量，第一语音分量是由耳内语音传感器采集到的，第二语音分量是由耳外语音传感器采集到的，第三语音分量是由骨振动传感器采集到的；分别对第一语音分量，第二语音分量和第三语音分量进行声纹识别；根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到用户的身份信息；当用户的身份信息与预设的信息匹配时，执行操作指令，其中，操作指令是根据语音信息确定的。

其中，由于当用户佩戴可穿戴设备之后外耳道与中耳道会形成一个封闭的腔室，声音在腔室里有一定的放大作用，即空腔效应，因此，耳内语音传感器采集到的声音会更加清晰，尤其对于高频声音信号具有明显的增强作用。由于可穿戴设备在采集声音时用到了耳内语音传感器，能够弥补骨振动传感器在采集语音信息时，会丢失部分语音信息的高频信号分量所造成的失真问题，因此能够提升可穿戴设备整体的声纹采集效果和声纹识别的准确度，从而提升用户体验。

在进行声纹识别之前，需要先分别获取语音分量，多路语音分量的获取，能够提升声纹识别的准确性与抗干扰能力。

在一种可能的实现方式中，对第一语音分量、第二语音分量和第三语音分量进行声纹识别之前，还包括：对语音信息进行关键词检测，或者，对用户输入进行检测。可选的，当语音信息中包括预设的关键词时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；或者，当接收到用户输入的预设操作时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别。否则，说明用户此时没有进行声纹识别的需求，则终端或可穿戴设备无需开启声纹识别功能，从而降低终端或可穿戴设备的功耗。

在一种可能的实现方式中，对语音信息进行关键词检测或者对用户输入进行检测之前，还包括：获取穿戴设备的佩戴状态检测结果。可选的，当佩戴状态检测结果通过时，对语音信息进行关键词检测，或者，对用户输入进行检测。否则，说明用户此时没有佩戴可穿戴设备，当然也就没有进行声纹识别的需求，则终端或可穿戴设备无需开启关键词检测功能，从而降低终端或可穿戴设备的功耗。

在一种可能的实现方式中，对第一语音分量进行声纹识别的具体过程为：

对第一语音分量进行特征提取，得到第一声纹特征，计算第一声纹特征与用户的第一注册声纹特征的第一相似度，第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，对第二语音分量进行声纹识别的具体过程为：

对第二语音分量进行特征提取，得到第二声纹特征，计算第二声纹特征与用户的第二注册声纹特征的第二相似度，第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，对第三语音分量进行声纹识别的具体过程为：

对第三语音分量进行特征提取，得到第三声纹特征，计算第三声纹特征与用户的第三注册声纹特征的第三相似度，第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到所述用户的身份信息，具体可以通过动态融合系数的方式，融合各个声纹识别结果，来得到所述用户的身份信息，具体可以为：

确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分，若融合相似度得分大于第一阈值，则确定该用户的身份信息与预设身份信息匹配。通过融合多个相似度得到融合相似度得分并进行判断的方法，能够有效提升声纹识别的准确性。

在一种可能的实现方式中，确定第一融合系数、第二融合系数和第三融合系数，具体可以根据声压传感器得到环境声的分贝数；根据扬声器的播放信号，确定播放音量；根据环境声的分贝数和播放音量，分别确定第一融合系数、第二融合系数和第三融合系数，其中：第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。可选的，上述声压传感器和扬声器为可穿戴设备的声压传感器和扬声器。

由于本申请实施例在相似度融合时采用了动态融合系数，针对不同的应用环境，采用动态的融合系数对具有不同属性的语音信号获得的声纹识别结果进行融合，利用这些不同属性的语音信号的互补性可以提升声纹识别的鲁棒性和准确率。例如，在噪声环境较大或耳机播放音乐的情况下能够显著提升的识别准确率。其中，不同属性的语音信号也可以理解为通过不同的传感器(耳内语音传感器、耳外语音传感器、骨振动传感器)获取到的语音信号。

在一种可能的实现方式中，操作指令包括解锁指令、支付指令、关机指令、打开应用程序指令或呼叫指令。这样，用户只需要输入一次语音信息即可完成用户身份鉴权、以及执行某一功能等一些列操作，从而大大提高了用户的操控效率和用户体验。

第二方面，本申请提供一种语音控制方法，该语音控制方法应用于可穿戴设备，换句话说，该语音控制方法的执行主体为可穿戴设备，该方法具体如下：包括：可穿戴设备获取用户语音信息，该语音信息包括第一语音分量，第二语音分量和第三语音分量，第一语音分量是由耳内语音传感器采集到的，第二语音分量是由耳外语音传感器采集到的，第三语音分量是由骨振动传感器采集到的；分别对第一语音分量，第二语音分量和第三语音分量进行声纹识别；可穿戴设备根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到用户的身份信息；当用户的身份信息与预设的信息匹配时，执行操作指令，其中，操作指令是根据语音信息确定的。

在可穿戴设备进行声纹识别之前，可穿戴设备需要先分别获取语音分量，可穿戴设备通过耳内语音传感器、耳外语音传感器和骨振动传感器这种不同的传感器获取三路语音分量，能够提升声纹识别的准确性与抗干扰能力。

在一种可能的实现方式中，可穿戴设备对第一语音分量、第二语音分量和第三语音分量进行声纹识别之前，还包括：可穿戴设备对语音信息进行关键词检测，或者，对用户输入进行检测。可选的，当语音信息中包括预设的关键词时，可穿戴设备分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；或者，当接收到用户输入的预设操作时，可穿戴设备分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别。否则，说明用户此时没有进行声纹识别的需求，则可穿戴设备无需开启声纹识别功能，从而降低了可穿戴设备的功耗。

在一种可能的实现方式中，可穿戴设备对语音信息进行关键词检测或者对用户输入进行检测之前，还包括：获取可穿戴设备的佩戴状态检测结果。可选的，当佩戴状态检测结果通过时，对语音信息进行关键词检测，或者，对用户输入进行检测。否则，说明用户此时没有佩戴可穿戴设备，当然也就没有进行声纹识别的需求，则可穿戴设备无需开启关键词检测功能，从而降低了可穿戴设备的功耗。

在一种可能的实现方式中，可穿戴设备对第一语音分量进行声纹识别的具体过程为：

可穿戴设备对第一语音分量进行特征提取，得到第一声纹特征，可穿戴设备计算第一声纹特征与用户的第一注册声纹特征的第一相似度，第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，可穿戴设备对第二语音分量进行声纹识别的具体过程为：

可穿戴设备对第二语音分量进行特征提取，得到第二声纹特征，可穿戴设备计算第二声纹特征与用户的第二注册声纹特征的第二相似度，第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，可穿戴设备对第三语音分量进行声纹识别的具体过程为：

可穿戴设备对第三语音分量进行特征提取，得到第三声纹特征，可穿戴设备计算第三声纹特征与用户的第三注册声纹特征的第三相似度，第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，可穿戴设备根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到所述用户的身份信息，具体可以通过动态融合系数的方式，融合各个声纹识别结果，来得到所述用户的身份信息，具体可以为：

可穿戴设备确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；可穿戴设备根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分，若融合相似度得分大于第一阈值，则确定该用户的身份信息与预设身份信息匹配。通过融合多个相似度得到融合相似度得分并进行判断的方法，能够有效提升声纹识别的准确性。

在一种可能的实现方式中，可穿戴设备确定第一融合系数、第二融合系数和第三融合系数，具体可以根据声压传感器得到环境声的分贝数；根据扬声器的播放信号，确定播放音量；根据环境声的分贝数和播放音量，分别确定第一融合系数、第二融合系数和第三融合系数，其中：第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。可选的，上述声压传感器和扬声器为可穿戴设备的声压传感器和扬声器。

在一种可能的实现方式中，可穿戴设备发送指示指令给终端，终端执行与语音信息对应的操作指令，操作指令包括解锁指令、支付指令、关机指令、打开应用程序指令或呼叫指令。这样，用户只需要输入一次语音信息即可完成用户身份鉴权、以及执行某一功能等一些列操作，从而大大提高了用户对可穿戴设备的操控效率和用户体验。

第三方面，本申请提供一种语音控制方法，该语音控制方法应用于终端，换句话说，该语音控制方法的执行主体为终端，该方法具体如下：包括：获取用户语音信息，该语音信息包括第一语音分量，第二语音分量和第三语音分量，第一语音分量是由耳内语音传感器采集到的，第二语音分量是由耳外语音传感器采集到的，第三语音分量是由骨振动传感器采集到的；终端分别对第一语音分量，第二语音分量和第三语音分量进行声纹识别；终端根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到用户的身份信息；当用户的身份信息与预设的信息匹配时，终端执行操作指令，其中，操作指令是根据语音信息确定的。

其中，由于当用户佩戴可穿戴设备之后外耳道与中耳道会形成一个封闭的腔室，声音在腔室里有一定的放大作用，即空腔效应，因此，耳内语音传感器采集到的声音会更加清晰，尤其对于高频声音信号具有明显的增强作用。由于可穿戴设备在采集声音时用到了耳内语音传感器，能够弥补骨振动传感器在采集语音信息时，会丢失部分语音信息的高频信号分量所造成的失真问题，因此能够提升终端整体的声纹采集效果和声纹识别的准确度，从而提升用户体验。

在一种可能的实现方式中，可穿戴设备获取用户输入的语音信息后，会发送该语音信息对应的语音分量给终端，以使得终端根据语音分量进行声纹识别。在终端侧执行该语音控制方法，能够有效利用终端算力，在可穿戴设备算力不够的情况下，依然能够保障身份鉴权的准确性。

在终端进行声纹识别之前，终端需要先分别获取语音分量，可穿戴设备通过耳内语音传感器、耳外语音传感器和骨振动传感器这种不同的传感器获取三路语音分量并发送给终端，能够提升终端声纹识别的准确性与抗干扰能力。

在一种可能的实现方式中，终端对第一语音分量、第二语音分量和第三语音分量进行声纹识别之前，还包括：对语音信息进行关键词检测，或者，对用户输入进行检测。可选的，当语音信息中包括预设的关键词时，可穿戴设备会发送该语音信息对应的语音分量给终端，终端分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；或者，当接收到用户输入的预设操作时，终端分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别。否则，说明用户此时没有进行声纹识别的需求，则可穿戴设备无需开启声纹识别功能，从而降低了终端的功耗。

在一种可能的实现方式中，终端对第一语音分量进行声纹识别的具体过程为：

终端对第一语音分量进行特征提取，得到第一声纹特征，终端计算第一声纹特征与用户的第一注册声纹特征的第一相似度，第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，终端对第二语音分量进行声纹识别的具体过程为：

终端对第二语音分量进行特征提取，得到第二声纹特征，终端计算第二声纹特征与用户的第二注册声纹特征的第二相似度，第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，终端对第三语音分量进行声纹识别的具体过程为：

终端对第三语音分量进行特征提取，得到第三声纹特征，终端计算第三声纹特征与用户的第三注册声纹特征的第三相似度，第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，终端根据语音信息中第一语音分量的第一声纹识别结果、语音信息中第二语音分量的第二声纹识别结果和语音信息中第三语音分量的第三声纹识别结果，得到所述用户的身份信息，具体可以通过动态融合系数的方式，融合各个声纹识别结果，来得到所述用户的身份信息，具体可以为：

终端确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；终端根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分，若融合相似度得分大于第一阈值，则确定该用户的身份信息与预设身份信息匹配。通过融合多个相似度得到融合相似度得分并进行判断的方法，能够有效提升声纹识别的准确性。

在一种可能的实现方式中，终端确定第一融合系数、第二融合系数和第三融合系数，具体可以根据声压传感器得到环境声的分贝数；根据扬声器的播放信号，确定播放音量；可穿戴设备检测到环境声的分贝数和播放音量后将数据发送给终端，终端根据环境声的分贝数和播放音量，分别确定第一融合系数、第二融合系数和第三融合系数，其中：第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。可选的，上述声压传感器和扬声器为可穿戴设备的声压传感器和扬声器。

在一种可能的实现方式，终端执行与语音信息对应的操作指令，操作指令包括解锁指令、支付指令、关机指令、打开应用程序指令或呼叫指令。这样，用户只需要输入一次语音信息即可完成用户身份鉴权、以及执行可穿戴设备的某一功能等一些列操作，从而大大提高了用户对可终端的操控效率和用户体验。

第四方面，本申请提供一种语音控制装置，包括：语音信息获取单元，语音信息获取单元用于获取用户的语音信息，语音信息包括第一语音分量，第二语音分量和第三语音分量，第一语音分量是由耳内语音传感器采集到的，第二语音分量是由耳外语音传感器采集到的，第三语音分量是由骨振动传感器采集到的；识别单元，识别单元用于分别对第一语音分量，第二语音分量和第三语音分量进行声纹识别；身份信息获取单元，身份信息获取单元用于根据第一语音分量的声纹识别结果、第二语音分量的声纹识别结果和第三语音分量的声纹识别结果，得到用户的身份信息；执行单元，执行单元用于当用户的身份信息与预设的信息匹配时，执行操作指令，其中，操作指令是根据语音信息确定的。

其中，由于当用户佩戴可穿戴设备之后外耳道与中耳道会形成一个封闭的腔室，声音在腔室里有一定的放大作用，即空腔效应，因此，耳内语音传感器采集到的声音会更加清晰，尤其对于高频声音信号具有明显的增强作用。由于可穿戴设备在采集声音时用到了耳内语音传感器，能够弥补骨振动传感器在采集语音信息时，会丢失部分语音信息的高频信号分量所造成的失真问题，因此能够提升可穿戴设备整体的声纹采集效果和声纹识别的准确度，从而提升用户体验。在获取声纹识别结果之前，需要先分别获取语音分量，多路语音分量的获取，能够提升声纹识别的准确性与抗干扰能力。

在一种可能的实现方式中，语音信息获取单元还用于：对语音信息进行关键词检测，或者，对用户输入进行检测。可选的，当语音信息中包括预设的关键词时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；当接收到用户输入的预设操作时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别。否则，说明用户此时没有进行声纹识别的需求，则终端或可穿戴设备无需开启声纹识别功能，从而降低终端或可穿戴设备的功耗。

在一种可能的实现方式中，语音信息获取单元还用于：获取可穿戴设备的佩戴状态检测结果。可选的，当佩戴状态检测结果通过时，对语音信息进行关键词检测，或者，对用户输入进行检测。否则，说明用户此时没有佩戴可穿戴设备，当然也就没有进行声纹识别的需求，则终端或可穿戴设备无需开启关键词检测功能，从而降低终端或可穿戴设备的功耗。

在一种可能的实现方式中，识别单元具体用于：对第一语音分量进行特征提取，得到第一声纹特征，计算第一声纹特征与用户的第一注册声纹特征的第一相似度，第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的用户的预设音频特征；对第二语音分量进行特征提取，得到第二声纹特征，计算第二声纹特征与用户的第二注册声纹特征的第二相似度，第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的用户的预设音频特征；对第三语音分量进行特征提取，得到第三声纹特征，计算第三声纹特征与用户的第三注册声纹特征的第三相似度，第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的用户的预设音频特征。通过计算相似度的方法来进行声纹识别，能够提升声纹识别的准确性。

在一种可能的实现方式中，身份信息获取单元可以通过动态融合系数的方式获取身份信息，身份信息获取单元具体用于：确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分，若融合相似度得分大于第一阈值，则确定用户的身份信息与预设身份信息匹配。通过融合多个相似度得到融合相似度得分并进行判断的方法，能够有效提升声纹识别的准确性。

在一种可能的实现方式中，身份信息获取单元具体用于：根据声压传感器得到环境声的分贝数；根据扬声器的播放信号，确定播放音量；根据环境声的分贝数和播放音量，分别确定第一融合系数、第二融合系数和第三融合系数，其中：第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。

在一种可能的实现方式中，若该用户为预设用户，则执行单元具体用于：执行与语音信息对应的操作指令，操作指令包括解锁指令、支付指令、关机指令、打开应用程序指令或呼叫指令。这样，用户只需要输入一次语音信息即可完成用户身份鉴权、以及执行某一功能等一些列操作，从而大大提高了用户的操控效率和用户体验。

可以理解的是，本申请第四方面提供的语音控制装置，可以理解为终端或可穿戴设备，具体视语音控制方法的执行主体而定，本申请对此不做限制。

第五方面，本申请提供一种可穿戴设备，包括：耳内语音传感器，耳外语音传感器，骨振动传感器，存储器和处理器；耳内语音传感器用于采集语音信息的第一语音分量，耳外语音传感器用于采集语音信息的第二语音分量，骨振动传感器用于采集语音信息的第三语音分量；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令；当处理器执行计算机指令时，可穿戴设备执行上述第一方面或第一方面的可能的实现方式或第三方面或第三方面的可能的实现方式中任一项的语音控制方法。

第六方面，本申请提供一种终端，包括：包括存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令；当处理器执行计算机指令时，终端执行上述第一方面或第一方面的可能的实现方式或第三方面或第三方面的可能的实现方式中任一项的语音控制方法。

第七方面，本申请提供一种芯片系统，芯片系统应用于电子设备；芯片系统包括一个或多个接口电路，以及一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，电子设备执行上述第一方面或第一方面的可能的实现方式中任一项的语音控制方法。

第八方面，本申请提供一种计算机存储介质，包括计算机指令，当计算机指令在语音控制装置上运行时，使得该语音控制装置执行如第一方面或第一方面的可能的实现方式中任一项的语音控制方法。

第九方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在语音控制装置上运行时，使得语音控制装置执行如第一方面或第一方面的可能的实现方式中任一项的语音控制方法。

可以理解地，上述提供的第五方面的可穿戴设备、第六方面的终端、第七方面的芯片系统、第八方面的计算机存储介质，以及第九方面的计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种手机硬件结构示意图；

图2为本申请实施例提供的一种手机软件结构示意图；

图3为本申请实施例提供的一种可穿戴设备结构示意图；

图4为本申请实施例提供的一种语音控制系统示意图；

图5为本申请实施例提供的一种服务器的结构示意图；

图6为本申请实施例提供的一种声纹识别流程示意图；

图7为本申请实施例提供的一种语音控制方法示意图；

图8为本申请实施例提供的一种传感器设置区域示意图；

图9是本申请实施例提供的一种支付界面示意图；

图10是本申请实施例提供的另一种语音控制方法示意图；

图11为本申请实施例提供的一种手机设置界面示意图；

图12为本申请实施例提供的一种语音控制装置示意图；

图13为本申请实施例提供的一种可穿戴设备示意图；

图14为本申请实施例提供的一种终端示意图；

图15是本申请实施例提供的一种芯片系统示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

随着音频处理技术的日益发展，声纹识别方法在音频处理领域中已成为一个重要的热点问题。声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。声纹具有稳定性、可测量性、唯一性等特点。成年以后，人的声音可保持长期相对稳定不变。人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，不同人的声音在语谱图中共振峰的分布情况不同。声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

声纹识别(VR)作为生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：说话人辨认(SI，SpeakerIdentification)：用以判断某段语音是若干人中的哪一个人所说的，是“多选一”问题。说话人确认(SV，Speaker Verification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。本申请主要涉及说话人确认技术。

声纹识别技术可以应用于终端用户识别场景中，也可以应用于家庭安防的户主识别场景中，本申请对此不做限制。

通常的声纹识别技术通过一路或两路语音信号的采集，进行声纹识别，即需要两路语音分量的声纹识别结果都为匹配才会判定为预设用户。但是会存在两个问题，其一，面对多人说话场景或者强干扰环境噪音的背景下采集的语音分量会对声纹识别结果进行干扰，导致身份鉴权不准确甚至错误。只要有任意一路语音分量的采集在上述干扰环境下完成，会导致声纹识别性能下降，使身份鉴权结果出现误判。即现有声纹识别技术无法很好地对来自各个方向的噪声进行抑制，降低了声纹识别准确性。

其二，如果两个语音传感器中有一路使用了骨振动传感器，由于当前的骨振动传感器，往往只能采集到说话人发音信号的低频成分(通常1KHz以下)，高频成分会损失掉，这对声纹识别是不利的，会导致声纹识别不准确甚至错误，因为声纹识别需要描述说话人在各个频带的发音特性。

有鉴于此，本申请实施例提供了一种语音控制方法，可以理解的是，执行本实施例方法的主体可以是终端，该终端与可穿戴设备建立连接，能够获取到可穿戴设备采集到的语音信息，并对语音信息进行声纹识别。执行本实施例方法的主体也可以是可穿戴设备本身，该可穿戴设备本身包括具备计算能力的处理器，能够直接对采集到的语音信息进行声纹识别。执行本实施例方法的主体也可以是服务器，该服务器与可穿戴设备建立连接，能够获取到可穿戴设备采集到的语音信息，并对语音信息进行声纹识别。在实际应用过程中，可以根据可穿戴设备芯片的算力来决定执行本实施例方法的主体。例如，在可穿戴设备芯片的算力较高的情况下，可以由可穿戴设备来执行本实施例方法；在可穿戴设备芯片算力较低的情况下，则可以由与可穿戴设备连接的终端设备来执行本实施例方法，或者，可以由与可穿戴设备连接的服务器来执行本实施例方法。为便于叙述，以下将分别以与可穿戴设备连接的终端为本实施例方法的执行主体为例，以可穿戴设备为本实施例方法的执行主体为例，以与可穿戴设备连接的服务器为本实施例方法的执行主体为例对本申请实施例进行详细介绍。

其中，终端设备又称之为用户设备(user equipment，UE)、移动台(mobilestation，MS)、移动终端(mobile terminal，MT)等，是一种能够与可穿戴设备进行有线连接或无线连接，以向用户提供语音和/或数据连通性的设备。例如，无线连接功能允许的手持式设备、车载设备等。目前，一些终端设备的举例为：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等，本申请实施例对此不做任何限制。

当上述语音控制方法为终端时，所述语音控制方法可以通过安装在终端上的用于识别声纹的应用程序实现。

上述用于识别声纹的应用程序可以是安装在终端中的嵌入式应用程序(即终端的系统应用)或者可下载应用程序。其中，嵌入式应用程序是作为终端(如手机)实现的一部分提供的应用程序。可下载应用程序是一个可以提供自己的因特网协议多媒体子系统(internet protocol multimedia subsystem，IMS)连接的应用程序，该可下载应用程序是可以预先安装在终端中的应用或可以由用户下载并安装在终端中的第三方应用。

为了便于理解，以下先介绍本申请实施例方法应用的终端、可穿戴设备和服务器。请参考图1，以终端是手机为例，图1示出了手机的一种硬件结构。如图1所示，手机10可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对手机的具体限定。在本申请另一些实施例中，手机可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110能够执行本申请实施例提供的声纹识别算法。

其中，控制器可以是手机的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。终端可以通过接口与可穿戴设备建立有线通信连接。终端可以通过接口获取穿戴设备分别通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。I2S接口可以用于音频通信。PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serialinterface，DSI)等。GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，MicroUSB接口，USB Type C接口等。USB接口130可以用于连接充电器为手机充电，也可以用于手机与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对手机的结构限定。在本申请另一些实施例中，手机也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。

手机的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。手机中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。调制解调处理器可以包括调制器和解调器。

无线通信模块160可以提供应用在手机上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，GNSS，调频(frequency modulation，FM)，近距离无线通信技术(near fieldcommunication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。终端可以通过无线通信模块160与可穿戴设备建立通信连接。终端可以无线通信模块160获取穿戴设备分别通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量。

示例性的，本申请实施例中的GNSS可以包括：GPS，GLONASS，BDS，QZSS，SBAS，和/或GALILEO等。

手机通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。显示屏194用于显示图像，视频等。显示屏194包括显示面板。

手机可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。ISP用于处理摄像头193反馈的数据。摄像头193用于获取静态图像或视频。物体通过镜头生成光学图像投射到感光元件。数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。视频编解码器用于对数字视频压缩或解压缩。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现手机的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展手机的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行手机的各种功能应用以及数据处理。内部存储器121存储的代码可执行本申请实施例提供的一种语音控制方法，比如：当用户向可穿戴设备输入语音信息时，可穿戴设备通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量，手机通过通信连接从可穿戴设备获取第一语音分量、第二语音分量和第三语音分量，并分别进行声纹识别；根据第一语音分量的第一声纹识别结果、第二语音分量的第二声纹识别结果和第三语音分量的第三声纹识别结果，对用户进行身份鉴权；若用户的身份鉴权结果为预设用户，则手机执行与语音信息对应的操作指令。

手机可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。终端可以通过无线通信模块160与可穿戴设备建立通信连接。终端可以无线通信模块160获取穿戴设备分别通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.2mm的开放移动电子设备平台(open mobile terminalplatform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunicationsindustry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。手机可以接收按键输入，产生与手机的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和手机的接触和分离。手机可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。

尽管图1未示出，手机100还可以包括摄像头、闪光灯、微型投影装置、近场通信(near field communication，NFC)装置等，在此不予赘述。

手机的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的安卓(Android)系统为例，示例性说明手机的软件结构。

图2是本申请实施例的手机的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为：应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。还可以包括用于声纹识别的应用程序，该用于声纹识别应用程序可以是终端内置的，也可以是通过外部网站下载的。

应用程序框架层为应用程序层中的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。

应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供手机的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明手机软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

本申请实施例的语音控制方法可以应用于可穿戴设备，换句话说，可穿戴设备可以作为本申请实施例语音控制方法的执行主体。其中，可穿戴设备可以是无线耳机、有线耳机、智能眼镜、智能头盔或者智能腕表等具有语音采集功能的设备，本申请实施例对此不做任何限制。

例如，本申请实施例提供的可穿戴设备可以是TWS(True Wireless Stereo，真正无线立体声)耳机，TWS技术基于蓝牙芯片技术的发展。按其工作原理来说是指手机通过连接主耳机，再由主耳机通过无线方式快速连接副耳机，实现真正的蓝牙左右声道无线分离使用。

随着TWS技术和人工智能技术的发展，TWS智能耳机开始在无线连接、语音交互、智能降噪、健康监测和听力增强/保护等领域发挥作用。而降噪、听力保护、智能翻译、健康监测、骨振动ID、防丢等将是TWS耳机关键技术的趋势。

请参考图3，图3示出了可穿戴设备的一种结构图，可穿戴设备30具体可以包括耳内语音传感器301，耳外语音传感器302和骨振动传感器303。上述耳内语音传感器301和耳外语音传感器可以是气传导麦克风，上述骨振动传感器可以是骨传导麦克风、光学振动传感器、加速度传感器或气传导麦克风等能够采集用户发声时产生的振动信号的传感器。其中，气传导麦克风采集语音信息的方式是通过空气将发生时的振动信号传至麦克风，继而将声音信号收集起来转为电信号；骨传导麦克风采集语音信息的方式是利用人讲话时引起的头颈部骨骼的轻微振动，通过骨头将发声时的振动信号传至麦克风，继而将声音信号收集起来转为电信号。

可以理解的是，本申请实施例提供的语音控制方法需要应用于具有声纹识别功能的可穿戴设备，换句话说，可穿戴设备30需要具备声纹识别功能。

本申请实施例提供的可穿戴设备30的耳内语音传感器301指的是，当该可穿戴设备处于被用户使用的状态时，该耳内语音传感器位于用户的耳道内部，或者说，该耳内语音传感器的声音侦测方向为耳道内部。该耳内语音传感器用于采集用户发声时经过外界空气和耳道内空气的振动传播的声音，该声音为耳内语音信号分量。耳外语音传感器302指的是，当该可穿戴设备处于被用户使用的状态时，该耳外语音传感器位于用户的耳道外部，或者说，该耳外语音传感器的声音侦测方向为除耳道内部的其他方向，即整个外部空气方向。该耳外语音传感器暴露于环境中，用于采集用户发出的经过外界空气的振动传播的声音，该声音为耳外语音信号分量或环境声分量。骨振动传感器303指的是，当该可穿戴设备处于被用户使用的状态时，该骨振动传感器与用户的皮肤接触，用于采集用户骨头传递的振动信号，或者说，用于采集用户某次发声时，通过骨头振动所传递的语音信息分量。可选的，耳内麦克风和耳外麦克风均可以根据麦克风的位置，可以选择不同方向性的麦克风，如心型、全向型、8字型等，从而获取不同方向的语音信号。

其中，由于当用户佩戴耳机之后外耳道与中耳道会形成一个封闭的腔室，声音在腔室里有一定的放大作用，即空腔效应，因此，耳内语音传感器采集到的声音会更加清晰，尤其对于高频声音信号具有明显的增强作用，能够弥补骨振动传感器在采集语音信息时，会丢失部分语音信息的高频信号分量所造成的失真问题，提升耳机整体的声纹采集效果和声纹识别的准确度，从而提升用户体验。

可以理解的是，耳内语音传感器301在拾取耳内语音信号时，通常伴有耳内残余噪声，耳外语音传感器302在拾取耳外语音信号时，通常伴有耳外噪声。

在本申请实施例中，用户佩戴可穿戴设备30说话时，可穿戴设备30既可以通过耳内语音传感器301和耳外语音传感器302采集经空气传播后用户发出的语音信息，还可以通过骨振动传感器303采集经骨头传播后用户发出的语音信息。

可以理解的是，可穿戴设备30中的耳内语音传感器301、耳外语音传感器302和骨振动传感器303均可以有多个，本申请对此不做限制。耳内语音传感器301、耳外语音传感器302和骨振动传感器303可以是内置于可穿戴设备30中的。

仍如图3所示，可穿戴设备30中还可以包括通信模块304、扬声器305、计算模块306、存储模块307以及电源309等部件。

当终端或服务器作为本申请实施例语音控制方法的执行主体时，通信模块304能够与终端或服务器建立通信连接。其中，通信模块304可以包括通信接口，通信接口有线或无线的方式，无线方式可以是通过蓝牙或者wifi方式。通信模块304可以用于将可穿戴设备30分别通过耳内语音传感器301采集第一语音分量，通过耳外语音传感器302采集第二语音分量，通过骨振动传感器303采集第三语音分量，传送给终端或服务器。

当可穿戴设备30作为本申请实施例语音控制方法的执行主体时，计算模块306能够执行本申请实施例提供的语音控制方法，当用户向可穿戴设备输入语音信息时，可穿戴设备30通过耳内语音传感器301采集第一语音分量，通过耳外语音传感器302采集第二语音分量，通过骨振动传感器303采集第三语音分量，分别进行声纹识别；根据第一语音分量的第一声纹识别结果、第二语音分量的第二声纹识别结果和第三语音分量的第三声纹识别结果，对用户进行身份鉴权；若用户的身份鉴权结果为预设用户，则可穿戴设备执行与语音信息对应的操作指令。

其中，存储模块307用于存储执行本申请实施例方法的应用程序代码，并由计算模块306来控制执行。

存储模块307存储的代码可执行本申请实施例提供的一种语音控制方法，比如：当用户向可穿戴设备输入语音信息时，可穿戴设备30通过耳内语音传感器301采集第一语音分量，通过耳外语音传感器302采集第二语音分量，通过骨振动传感器303采集第三语音分量，分别进行声纹识别；根据第一语音分量的第一声纹识别结果、第二语音分量的第二声纹识别结果和第三语音分量的第三声纹识别结果，对用户进行身份鉴权；若用户的身份鉴权结果为预设用户，则可穿戴设备执行与语音信息对应的操作指令。

可以理解的是，麦克风和骨振动传感器可以任意组合。上述可穿戴设备30还可以包括压力传感器、加速度传感器、光学传感器等，可穿戴设备30还可以具有比图3中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图3中所示出的各种部件可以在包括一个或多个信号处理或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

本申请实施例提供的一种语音控制方法可以应用于可穿戴设备30与终端10组成的语音控制系统中，该语音控制系统如图4所示。在该语音控制系统中，当用户向可穿戴设备输入语音信息时，可穿戴设备30可以分别通过耳内语音传感器301采集第一语音分量，通过耳外语音传感器302采集第二语音分量，通过骨振动传感器303采集第三语音分量，终端10从所述可穿戴设备获取所述第一语音分量、所述第二语音分量和所述第三语音分量，继而分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；根据第一语音分量的第一声纹识别结果、第二语音分量的第二声纹识别结果和第三语音分量的第三声纹识别结果，对用户进行身份鉴权；若用户的身份鉴权结果为预设用户，则终端10执行与语音信息对应的操作指令。

本申请实施例的语音控制方法可以还可以应用于服务器，换句话说，服务器可以作为本申请实施例语音控制方法的执行主体。

服务器可以为台式服务器、机架式服务器、机柜式服务器、刀片式服务器或者其他类型的服务器，服务器还可以为公用云、私有云等云端服务器，本申请实施例对此不做任何限制。

请参考图5，图5示出了服务器的一种结构图，该服务器50包括至少一个处理器501，至少一个存储器502以及至少一个通信接口503。处理器501、存储器502、和通信接口503通过通信总线504连接并完成相互间的通信。

处理器501可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

存储器502可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器502用于存储执行本申请实施例方法的应用程序代码，并由处理器501来控制执行。

存储器502存储的代码可执行本申请实施例提供的一种语音控制方法，比如：当用户向可穿戴设备输入语音信息时，可穿戴设备通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量，服务器通过通信连接从可穿戴设备获取第一语音分量、第二语音分量和第三语音分量，并分别进行声纹识别；根据第一语音分量的第一声纹识别结果、第二语音分量的第二声纹识别结果和第三语音分量的第三声纹识别结果，对用户进行身份鉴权；若用户的身份鉴权结果为预设用户，则服务器执行与语音信息对应的操作指令。

通信接口503，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

结合上述图1-图5，以可穿戴设备为蓝牙耳机、终端为手机举例，概述本申请的语音控制方法应用于终端时的具体实施方式。该方法首先获取用户的语音信息，语音信息包括第一语音分量，第二语音分量和第三语音分量，在本申请实施例中，用户可在佩戴蓝牙耳机时向蓝牙耳机输入语音信息，此时，蓝牙耳机可以基于用户输入的语音信息，通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量。

蓝牙耳机从所述语音信息中获取所述第一语音分量、所述第二语音分量和所述第三语音分量，手机通过与蓝牙耳机的蓝牙连接，从蓝牙耳机获取第一语音分量、第二语音分量和第三语音分量。在一种可能的实现方式中，手机可以对用户向蓝牙耳机输入的语音信息进行关键词检测，或者，手机可以对用户输入进行检测。可选的，当语音信息中包括预设的关键词时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别。当接收到用户输入的预设操作时，分别对所述第一语音分量、所述第二语音分量和所述第三语音分量进行声纹识别。用户输入可以为用户通过触摸屏或按键对手机的输入，例如，用户点击手机的解锁键。可选的，手机对语音信息进行关键词检测或者对用户输入进行检测之前，还可以从蓝牙耳机获取佩戴状态检测结果。可选的，当佩戴状态检测结果通过时，手机对语音信息进行关键词检测，或者，对用户输入进行检测。

手机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别后得到与第一语音分量对应的第一声纹识别结果、与第二语音分量对应的第二声纹识别结果以及与第三语音分量对应的第三声纹识别结果。

当上述第一声纹特征与第一注册声纹特征匹配，第二声纹特征与第二注册声纹特征匹配，且第三声纹特征与第三注册声纹特征匹配时，说明蓝牙耳机此时采集到的语音信息为预设用户输入的。例如，手机可通过一定算法计算第一声纹特征与第一注册声纹特征的第一匹配度，第二声纹特征与第二注册声纹特征的第二匹配度，以及第三声纹特征与第三注册声纹特征的第三匹配度。当匹配度越高时，说明该声纹特征与对应的注册声纹特征越吻合，此时发声用户为预设用户的可能性越高。例如，当第一匹配度、第二匹配度与第三匹配度的平均值大于80分时，手机可确定第一声纹特征与第一注册声纹特征匹配，第二声纹特征与第二注册声纹特征匹配，且第三声纹特征与第三注册声纹特征匹配。又或者，当第一匹配度、第二匹配度与第三匹配度分别大于85分时，手机可确定第一声纹特征与第一注册声纹特征匹配，第二声纹特征与第二注册声纹特征匹配，且第三声纹特征与第三注册声纹特征匹配。其中，第一注册声纹特征是通过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的预设用户的声纹特征；第二注册声纹特征是通过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的所述预设用户的声纹特征；第三注册声纹特征是通过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的所述预设用户的声纹特征。

可以理解的是，这里的算法类型不限，判断条件不限，只要能达到本申请实施例的技术效果即可。进而，手机可以执行与该语音信息对应的操作指令，例如，解锁指令、支付指令、关机指令、打开应用程序指令或者呼叫等指令。使得手机可以根据该操作指令执行对应的操作，实现用户通过语音操控手机的功能。可以理解的是，身份鉴权的条件不做限制，例如，当第一匹配度、第二匹配度与第三匹配度均大于某一阈值的时候，可以认为身份鉴权通过，发声用户为预设用户；或者，当第一匹配度、第二匹配度与第三匹配度以一定方式进行匹配度融合得到的融合匹配度大于某一阈值的时候，可以认为身份鉴权通过，发声用户为预设用户。本申请实施例中的身份鉴权，指的是通过获得用户的身份信息，判断该身份信息与预设的身份信息是否匹配，若匹配，则认为鉴权通过，若不匹配，则认为鉴权不通过。

其中，上述预设用户是指能够通过手机预设的身份认证措施的用户，例如，终端预设的身份认证措施为输入密码、指纹识别和声纹识别，那么，通过密码输入或者预先在终端内存储有经过用户身份认证的指纹信息和注册声纹特征的用户可认为是该终端的预设用户。当然，一个终端的预设用户可以包括一个或多个，除预设用户之外的任意用户都可以视为该终端的非法用户。非法用户通过一定的身份认证措施后也可转变为预设用户，本申请实施例对此不做任何限制。

在一种可能的实现方式中，第一注册声纹特征是通过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的预设用户的声纹特征；第二注册声纹特征是通过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的所述预设用户的声纹特征；第三注册声纹特征是通过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的所述预设用户的声纹特征。

在一种可能的实现方式中，上述计算匹配度的算法可以为计算相似度。手机对第一语音分量进行特征提取，得到第一声纹特征，分别计算第一声纹特征与预先存储的预设用户的第一注册声纹特征的第一相似度，第二声纹特征与预先存储的预设用户的第二注册声纹特征的第二相似度，第三声纹特征与预先存储的预设用户的第三注册声纹特征的第三相似度，基于第一相似度、第二相似度和第三相似度，对用户进行身份鉴权。

在一种可能的实现方式中，对用户进行身份鉴权的方式可以为手机根据环境声的分贝数和可穿戴设备的播放音量，分别确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分。若融合相似度得分大于第一阈值，则手机确定向蓝牙耳机输入语音信息的用户为预设用户。

在一种可能的实现方式中，环境声的分贝数是蓝牙耳机的声压传感器检测得到的并发送给手机的，播放音量可以是蓝牙耳机的扬声器检测播放信号得到的并发送给手机的，也可以是手机本身调用自身数据得到的，即通过底层系统的音量接口程序接口获得。

在一种可能的实现方式中，第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。也就是说，在第一融合系数、第二融合系数和第三融合系数的和为预设的固定值的情况下，环境声的分贝数越大，第二融合系数越小，此时，相应的，第一融合系数和第三融合系数会适应性增大，以维持在第一融合系数、第二融合系数和第三融合系数的和不变化；播放音量越大，第一融合系数和第三融合系数越小，此时，相应的，第二融合系数会适应性增大，以维持在第一融合系数、第二融合系数和第三融合系数的和不变化。可以理解的是，上述可变的融合系数能够兼顾不同的应用场景(噪声环境较大或耳机播放音乐的情况下)下的识别准确率。

当手机确定向蓝牙耳机输入语音信息的用户为预设用户后，手机可以自动执行与所述语音信息对应的操作指令，例如，手机解锁操作或者确认支付操作。

可以看出，在本申请实施例中，当用户通过向可穿戴设备输入语音信息以达到控制终端的目的时，可穿戴设备可采集用户发声时在耳道内产生的语音信息、在耳道外产生的语音信息以及骨振动信息，此时可穿戴设备内产生了三路语音信息(即上述第一语音分量、第二语音分量和第三语音分量)。这样，终端(或可穿戴设备本身，或服务器)可针对这三路语音信息分别进行声纹识别，当这三路语音信息的声纹识别结果均与预设用户的注册声纹特征匹配时，可确认此时输入语音信息的用户为预设用户，或者，当这三路语音信息的声纹识别结果进行加权融合后的融合结果大于某一阈值时，可确认此时输入语音信息的用户为预设用户。显然，这种三路语音信息的三重声纹识别过程相比于一路语音信息的声纹识别过程或两路语音信息的声纹识别过程，能够显著提高用户身份鉴权时的准确性和安全性。尤其是在耳内增加一个麦克风可以解决，在耳外语音传感器和骨振动传感器两路语音信息的声纹识别过程中，骨振动传感器采集的语音信号的高频信号丢失的问题。

并且，由于用户必须佩戴该可穿戴设备后，可穿戴设备才能通过骨传导这种方式采集到用户输入的语音信息，因此，当可穿戴设备通过骨传导这种方式采集到的语音信息能够通过声纹识别时，也说明了上述语音信息的来源是佩戴可穿戴设备的预设用户发声产生的，从而避免非法用户使用预设用户的录音恶意控制预设用户的终端的情况。

为了便于理解，以下结合附图对本申请实施例提供的一种语音控制方法进行具体介绍。以下实施例中均以手机作为终端，以蓝牙耳机作为可穿戴设备举例说明。

首先对声纹识别技术进行简单介绍。

声纹识别技术实际应用中一般分注册和验证两个流程，一般的声纹识别应用流程如图6所示，在注册流程部分中，首先采集注册语音601，经过预处理模块602预处理后，输入到预先训练好的声纹模型603进行特征提取后，得到注册语音声纹特征604，该注册语音声纹特征也可以理解为预设用户注册声纹特征。可以理解的是，注册语音可以被不同类型的传感器提取，例如，耳外语音传感器，耳内语音传感器或骨振动传感器。其中，声纹模型603是预先通过训练数据训练得到的。声纹模型603可以是终端出厂前内置的，也可以是通过应用程序指导用户训练的，训练方法可以利用现有技术的方法，本申请对此不做限制。在验证流程部分中，首先采集在某一次声纹识别过程中发声用户的测试语音605，经过预处理模块606预处理后，输入到预先训练好的声纹模型607进行特征提取后，得到测试语音声纹特征608，该测试语音声纹特征也可以理解为预设用户注册声纹特征。通过对基于注册语音声纹特征604和测试语音声纹特征608进行声纹识别来进行身份鉴权609后，基于声纹识别结果得到身份鉴权通过6010和身份鉴权不通过6011，身份鉴权通过6010指的是测试语音605的发声用户与注册语音601的发声用户为同一人，换句话说，测试语音605的发声用户为预设用户；身份鉴权不通过6011指的是测试语音605的发声用户与注册语音601的发声用户不为同一人，换句话说，测试语音605的发声用户为非法用户。可以理解的是，根据不同应用场景，声音的预处理、特征提取、以及声纹模型的训练过程会存在不同程度的差异，并且，预处理模块为可选的模块，预处理包括对语音信号的滤波、降噪或增强，本申请对此不做限制。

图7以终端是手机，可穿戴设备是蓝牙耳机为例，展示了本申请实施例提供的一种语音控制方法的流程示意图。其中，该蓝牙耳机包括耳内语音传感器，耳外语音传感器和骨振动传感器。如图7所示，该语音控制方法可以包括：

S701、手机与蓝牙耳机建立连接。

连接的方式可以为蓝牙连接、wifi连接或有线连接。手机与蓝牙耳机建立蓝牙连接的情况下，当用户希望使用蓝牙耳机时，可打开蓝牙耳机的蓝牙功能。此时，蓝牙耳机可对外发送配对广播。如果手机未打开蓝牙功能，则用户需要打开手机的蓝牙功能，如果手机已经打开蓝牙功能，则手机可以接收到该配对广播并提示用户已经扫描到相关的蓝牙设备。当用户在手机上选中蓝牙耳机后，手机可与蓝牙耳机进行配对并建立蓝牙连接。后续，手机与蓝牙耳机之间可通过该蓝牙连接进行通信。当然，如果手机与蓝牙耳机在建立本次蓝牙连接之前已经成功配对，则手机可自动与扫描到的蓝牙耳机建立蓝牙连接。

另外，如果用户希望使用的耳机具有Wi-Fi功能，用户也可操作手机与该耳机建立Wi-Fi连接。又或者，如果用户希望使用的耳机为有线耳机，用户也将耳机线的插头插入手机相应的耳机接口中建立有线连接，本申请实施例对此不做任何限制。

S702(可选的)、蓝牙耳机检测是否处于佩戴状态。

佩戴检测方法可以通过光电探测的方式，利用光学感应原理感知用户的佩戴状态。当用户佩戴耳机时，耳机内部光电传感器检测到的光被遮挡，输出一个开关控制信号，从而判断用户处于佩戴耳机状态。

具体的，蓝牙耳机中可设置接近光传感器和加速度传感器，其中，接近光传感器设置在用户佩戴时与用户接触的一侧。该接近光传感器和加速度传感器可定期启动以获取当前检测到的测量值。

由于用户佩戴蓝牙耳机后会挡住射入接近光传感器的光线，因此，当接近光传感器检测到的光强小于预设的光强阈值时，蓝牙耳机可确定此时自身处于佩戴状态。又因为，用户佩戴蓝牙耳机后蓝牙耳机会随用户一起运动，因此，当加速度传感器检测到的加速度值大于预设的加速度阈值时，蓝牙耳机可确定此时自身处于佩戴状态。或者，当接近光传感器检测到的光强小于预设的光强阈值时，如果检测到此时加速度传感器检测到的加速度值是否大于预设的加速度阈值，则蓝牙耳机可确定此时自身处于佩戴状态。

进一步地，由于蓝牙耳机内还设置有通过骨传导的方式采集语音信息的传感器，例如骨振动传感器或光学振动传感器等，因此，在一种可能的实现方式中，蓝牙耳机可进一步通过骨振动传感器采集当前环境中产生的振动信号。当蓝牙耳机处于佩戴状态时与用户直接接触，因此骨振动传感器采集到的振动信号相较于未佩戴状态下较为强烈，那么，如果骨振动传感器采集到的振动信号的能量大于能量阈值，则蓝牙耳机可确定出自身处于佩戴状态。又或者，由于用户佩戴蓝牙耳机时采集到的振动信号中的谐波、共振等频谱特征与蓝牙耳机未被佩戴时采集到的频谱特征具有显著区别，因此，如果骨振动传感器采集到的振动信号满足预设频谱特征，则蓝牙耳机可确定出自身处于佩戴状态。上述两种情况均可以理解为用户的佩戴状态检测结果通过。这样可以减少用户将蓝牙耳机放入口袋等场景下，蓝牙耳机无法通过接近光传感器或加速度传感器准确检测佩戴状态的几率。

其中，上述能量阈值或者预设频谱特征可以是通过抓取大量用户佩戴蓝牙耳机后发声或者运动等方式产生的各种振动信号后统计得到的，与用户没有佩戴蓝牙耳机时骨振动传感器检测到的语音信号的能量或频谱特征具有明显差异。另外，由于蓝牙耳机外部的语音传感器(例如气传导麦克风)的功耗一般较大，因此，在蓝牙耳机检测出当前处于佩戴状态之前，无需开启耳内语音传感器、耳外语音传感器和/或骨振动传感器。当蓝牙耳机检测出当前处于佩戴状态后，可开启耳内语音传感器、耳外语音传感器和/或骨振动传感器采集用户发声时产生的语音信息，以降低蓝牙耳机的功耗。

当蓝牙耳机检测出当前处于佩戴状态后，或者说，佩戴状态检测结果通过后，可继续执行下述步骤S703-S707；否则，蓝牙耳机可进入休眠状态，直到检测出当前处于佩戴状态后继续执行下述步骤S703-S707。也就是说，蓝牙耳机可在检测出用户佩戴了蓝牙耳机，即用户对蓝牙耳机具有使用意图时，才会触发蓝牙耳机采集从而获取用户输入的语音信息以及声纹识别等过程，从而降低蓝牙耳机的功耗。当然，上述步骤S702为可选步骤，即无论用户是否佩戴了蓝牙耳机，蓝牙耳机均可续执行下述步骤S703-S707，本申请实施例对此不做任何限制。

在一种可能的实现方式中，若蓝牙耳机检测是否处于佩戴状态前已经采集了语音信号，这种情况下，当蓝牙耳机检测出当前处于佩戴状态后，或者说，佩戴状态检测结果通过后，蓝牙耳机采集的语音信号存储并继续执行下述步骤S703-S707；当蓝牙耳机没有检测出当前处于佩戴状态，或者说，佩戴状态检测结果不通过后，则蓝牙耳机删除刚刚采集的语音信号。

S703、若处于佩戴状态，则蓝牙耳机通过耳内语音传感器采集从而获取用户输入的语音信息中的第一语音分量，通过耳外语音传感器采集上述语音信息中的第二语音分量，并通过骨振动传感器采集上述语音信息中的第三语音分量。

当确定出蓝牙耳机处于佩戴状态时，蓝牙耳机可启动语音检测模块，分别使用上述耳内语音传感器、耳外语音传感器和骨振动传感器采集从而获取用户输入的语音信息，得到该语音信息中的第一语音分量、第二语音分量和第三语音分量。以耳内语音传感器和耳外语音传感器为气传导麦克风，骨振动传感器为骨传导麦克风举例，用户在使用蓝牙耳机的过程中可以输入语音信息“小E，使用微信支付”。此时，由于气传导麦克风暴露在空气中，因此，蓝牙耳机可使用气传导麦克风接收用户发声后由空气振动产生的振动信号(即上述语音信息中的第一语音分量、第二语音分量和第三语音分量)。同时，由于骨传导麦克风能够通过皮肤与用户耳骨接触，因此，蓝牙耳机可使用骨传导麦克风接收用户发声后由耳骨和皮肤振动产生的振动信号(即上述语音信息中的第三语音分量)。

如图8所示为传感器设置区域示意图，本申请实施例提供的蓝牙耳机包括耳内语音传感器、耳外语音传感器和骨振动传感器。其中，耳内语音传感器指的是，当该耳机处于被用户使用的状态时，该耳内语音传感器位于用户的耳道内部，或者说，该耳内语音传感器的声音侦测方向为耳道内部，该耳内语音传感器的设置于耳内语音传感器设置区域801。该耳内语音传感器用于采集用户发声时经过外界空气和耳道内空气的振动传播的声音，该声音为耳内语音信号分量。耳外语音传感器指的是，当该耳机处于被用户使用的状态时，该耳外语音传感器位于用户的耳道外部，或者说，该耳外语音传感器的声音侦测方向为除耳道内部的其他方向，即整个外部空气方向，该耳外语音传感器的设置于耳外语音传感器设置区域802。该耳外语音传感器暴露于环境中，用于采集用户发出的经过外界空气的振动传播的声音，该声音为耳外语音信号分量或环境声分量。骨振动传感器指的是，当该耳机处于被用户使用的状态时，该骨振动传感器与用户的皮肤接触，用于采集用户骨头传递的振动信号，或者说，用于采集用户某次发声时，通过骨头振动所传递的语音信息分量。该骨振动传感器的设置区域不做限定，只要在用户佩戴该耳机时，能够检测到用户的骨骼振动即可。可以理解的是，耳内语音传感器可以设置于区域801中的任意位置，耳外语音传感器可以设置于区域802中的任意位置，本申请对此不做限制。需要注意的是，图8中的区域划分方式只是一种实例，实际上，耳内语音传感器的设置位置能够侦测到耳道内部的声音即可，耳外语音传感器的设置位置能够侦测到外部空气方向的声音即可。

在本申请的一些实施例中，当蓝牙耳机检测到用户输入的语音信息后，还可以通过VAD(voice activity detection，语音活动检测)算法区分上述语音信息中的语音信号和背景噪音。具体的，蓝牙耳机可以分别将上述语音信息中的第一语音分量、第二语音分量和第三语音分量输入至相应的VAD算法中，得到与第一语音分量对应的第一VAD取值、与第二语音分量对应的第二VAD取值以及与第三语音分量对应的第三VAD取值。其中，VAD取值可用于反映上述语音信息是说话人正常的语音信号还是噪音信号。例如，可将VAD取值范围设置在0至100的区间内，当VAD取值大于某一VAD阈值时可说明该语音信息是说话人正常的语音信号，当VAD取值小于某一VAD阈值时可说明该语音信息是噪音信号。又例如，可将VAD取值设置为0或1，当VAD取值为1时，说明该语音信息是说话人正常的语音信号，当VAD取值为0时，说明该语音信息是噪音信号。

那么，蓝牙耳机可结合上述第一VAD取值、第二VAD取值和第三VAD取值这三个VAD取值确定上述语音信息是否为噪音信号。例如，当第一VAD取值、第二VAD取值和第三VAD取值均为1时，蓝牙耳机可确定上述语音信息不是噪音信号，而是说话人正常的语音信号。又例如，当第一VAD取值、第二VAD取值和第三VAD取值分别大于预设取值时，蓝牙耳机可确定上述语音信息不是噪音信号，而是说话人正常的语音信号。

另外，当第三VAD取值为1或者第三VAD取值大于预设取值时，可一定程度上说明此时采集到的语音信息为活体用户发出的，因此，蓝牙耳机也可以仅根据第三VAD取值确定上述语音信息是否为噪音信号。可以理解的是，在一些情况下，蓝牙耳机也可以仅根据第一VAD取值或第二VAD取值确定上述语音信息是否为噪音信号，蓝牙耳机也可以根据第一VAD取值、第二VAD取值和第三VAD取值中的任意两个确定上述语音信息是否为噪音信号。

通过对上述第一语音分量、第二语音分量和第三语音分量分别进行语音活动检测，如果蓝牙耳机确定出上述语音信息是噪音信号，则蓝牙耳机可丢弃该语音信息；如果蓝牙耳机确定出上述语音信息不是噪音信号，则蓝牙耳机可继续执行下述步骤S704-S707。即用户向蓝牙耳机输入有效的语音信息时，才会触发蓝牙耳机进行后续声纹识别等过程，从而降低蓝牙耳机的功耗。

另外，当蓝牙耳机获取到与第一语音分量、第二语音分量和第三语音分量分别对应的第一VAD取值、第二VAD取值和第三VAD取值后，还可以使用噪声估计算法(例如，最小值统计算法或最小值控制递归平均算法等)分别测算上述语音信息中的噪声值。例如，蓝牙耳机可以设置专门用于存储噪声值的存储空间，蓝牙耳机每次计算出新的噪声值后，可以将新的噪声值更新在上述存储空间中。即该存储空间中一直保存有最近测算出的噪声值。

这样，蓝牙耳机通过上述VAD算法确定出上述语音信息为有效的语音信息后，可使用上述存储空间中的噪声值分别对上述第一语音分量、第二语音分量和第三语音分量进行降噪处理，使得后续蓝牙耳机(或手机)分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别时的识别结果更加准确。

S704、蓝牙耳机通过蓝牙连接向手机发送第一语音分量、第二语音分量和第三语音分量。

蓝牙耳机获取到上述第一语音分量、第二语音分量和第三语音分量后，可将第一语音分量、第二语音分量和第三语音分量发送给手机，进而由手机执行下述步骤S705-S707，以实现对用户输入的语音信息的声纹识别、用户身份鉴权等操作。

S705、手机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果、与第二语音分量对应的第二声纹识别结果以及与第三语音分量对应的第三声纹识别结果。

声纹识别的原理是通过比对预设用户的注册声纹特征与从用户输入的语音信息中提取到的声纹特征，通过一定的算法进行判断，判断的结果即为声纹识别结果。

具体的，手机内可预先存储一个或多个预设用户的注册声纹特征。其中，每个预设用户均具有三个注册声纹特征，一个是根据耳内语音传感器工作时采集到的用户的第一注册语音进行特征提取得到的第一注册声纹特征，一个是根据耳外语音传感器工作时采集到的用户的第二注册语音进行特征提取得到的第二注册声纹特征，还有一个是根据骨传导麦克风工作时采集到的用户的第三注册语音进行特征提取得到的第三注册声纹特征。

其中，第一注册声纹特征、第二注册声纹特征和第三注册声纹特征的获取需要经过两个阶段。第一阶段是背景模型训练阶段。在第一阶段中，开发人员可采集大量说话人佩戴上述蓝牙耳机发声时产生的相关文本的语音(例如，“你好，小E”等)。进而，手机可对这些相关文本的语音进行预处理(例如滤波、降噪等)后可提取语音中的声纹特征。其中，声纹特征具体可以为spectrogram(时频语谱图)，fbank(filter banks,基于滤波器组的特征)，mfcc(mel-frequency cepstral coefficients,梅尔频率倒谱系数)，plp(PerceptualLinear Prediction,感知线性预测)或CQCC(Constant Q Cepstral Coefficients,常数Q倒谱系数)等。手机提取的声纹特征除了直接提取上述声纹特征以外，还可以提取两个或两个以上的上述声纹特征，并通过拼接等方式获得融合后的声纹特征。手机提起到声纹特征后，使用GMM(gaussian mixed model，高斯混合模型)、SVM(support vector machines，支持向量机)或者深度神经网络类框架等机器学习算法建立声纹识别的背景模型，其中，上述机器学习算法包括但不限于DNN(deep neural network，深度神经网络)算法，RNN(recurrent neural network，循环神经网络)算法，LSTM(long short term memory，长短时记忆)算法，TDNN(Time Delay Neural Network，时延神经网络)，Resnet(深度残差网络)等。可以理解为，上述步骤是通过大量训练语音构建的UBM(Universal Background Model,通用背景模型)，其中，UBM本身是可以自适应进行训练的，UBM的参数是可以根据不同的厂商需求或用户需求进行调整的。

手机在得到背景模型后将得到的背景模型进行存储，可以理解的是，根据该方法的执行主体的不同，存储的位置可以是手机、可穿戴设备或服务器。需要说明的是，可以存储单个或多个背景模型，存储的多个背景模型可以用相同或不同的算法得到。存储的多个背景模型可以实现声纹模型层面的融合。例如，可以使用Resnet(即深度残差网络)来训练得到第一背景说话人声纹模型，使用TDNN(即时延神经网络)来训练得到第二背景说话人声纹模型，使用RNN(即循环神经网络)来训练得到第三背景说话人声纹模型。可以理解的是，本申请实施例可以对空气麦克风和骨振动麦克风分别建模，并进行多模型融合。手机或蓝牙耳机可基于这些背景模型，结合与该手机相连接的可穿戴设备中，不同的语音传感器的特性，分别建立多个声纹模型。例如，建立与蓝牙耳机的耳内语音传感器对应的第一声纹模型、与蓝牙耳机的耳外语音传感器对应第二声纹模型和与蓝牙耳机的骨振动传感器对应第三声纹模型。手机可以将第一声纹模型、第二声纹模型和第三声纹模型保存在手机本地，也可以将第一声纹模型、第二声纹模型和第三声纹模型发送给蓝牙耳机进行保存。

第二阶段是用户在手机上首次使用声纹识别功能时，通过输入注册语音，手机分别通过与手机相连接的蓝牙耳机的耳内语音传感器、耳外语音传感器和骨振动传感器，提取到该用户的第一注册声纹特征、第二注册声纹特征和第三注册声纹特征的过程。该阶段可以通过手机系统内置的设备生物识别功能中的声纹识别选项进行注册过程，也可以通过下载的APP调用系统程序进行注册过程。例如，预设用户1首次使用手机内安装的语音助手APP时，语音助手APP可提示用户佩戴蓝牙耳机并说出“你好，小E”的注册语音。同样，由于蓝牙耳机上包括耳内语音传感器、耳外语音语音传感器和骨振动传感器，因此，蓝牙耳机可获取到该注册语音中通过耳内语音传感器采集到的第一注册语音分量、通过耳外语音传感器采集到的第二注册语音分量以及通过骨振动传感器采集到的第三注册语音分量。进而，蓝牙耳机将第一注册语音分量、第二注册语音分量和第三注册语音分量发送给手机后，手机可分别通过第一声纹模型对第一注册语音分量进行特征提取得到第一注册声纹特征，通过第二声纹模型对第二注册语音分量进行特征提取得到第二注册声纹特征，通过第三声纹模型对第三注册语音分量进行特征提取得到第三注册声纹特征。手机可以将预设用户1的第一注册声纹特征、第二注册声纹特征和第三注册声纹特征保存在手机本地，也可以将预设用户1的第一注册声纹特征、第二注册声纹特征和第三注册声纹特征发送给蓝牙耳机进行保存。

可选地，在提取预设用户1的第一注册声纹特征、第二注册声纹特征和第三注册声纹特征时，手机还可以将此时连接的蓝牙耳机作为预设蓝牙设备。例如，手机可以将该预设蓝牙设备的标识(例如蓝牙耳机的MAC地址等)保存在手机本地。这样，手机可以接收和执行预设蓝牙设备发来的相关操作指令，而当非法蓝牙设备向手机发送操作指令时，手机可丢弃该操作指令以提高安全性。一个手机可以管理一个或多个预设蓝牙设备。如图11中的(a)所示，用户可以从设置功能中进入声纹识别功能的设置界面1101，用户点击设置按钮1105后可进入如图11中的(b)所示的预设设备管理界面1106。用户在预设设备管理界面1106中可以添加或删除预设蓝牙设备。

在步骤S705中，手机获取到上述语音信息中的第一语音分量、第二语音分量和第三语音分量后，可分别提取第一语音分量声纹特征得到第一声纹特征、提取第二语音分量声纹特征得到第二声纹特征以及提取第三语音分量声纹特征得到第三声纹特征，进而使用预设用户1的第一注册声纹特征与第一声纹特征进行匹配，使用预设用户1的第二注册声纹特征与第二声纹特征进行匹配，使用预设用户1的第三注册声纹特征与第三声纹特征进行匹配。例如，手机可通过一定算法计算上述第一注册声纹特征与第一语音分量的第一匹配度(即第一声纹识别结果)，上述第二注册声纹特征与第二语音分量的第二匹配度(即第二声纹识别结果)以及上述第三注册声纹特征与第三语音分量的第三匹配度(即第三声纹识别结果)。一般，当匹配度越高时，说明上述语音信息中的声纹特征与预设用户1的声纹特征越相似，输入该语音信息的用户是预设用户1的概率越高。

例如，当第一匹配度、第二匹配度与第三匹配度的平均值大于80分时，手机可确定第一声纹特征与第一注册声纹特征匹配，第二声纹特征与第二注册声纹特征匹配，且第三声纹特征与第三注册声纹特征匹配。又或者，当第一匹配度、第二匹配度与第三匹配度分别大于85分时，手机可确定第一声纹特征与第一注册声纹特征匹配，第二声纹特征与第二注册声纹特征匹配，且第三声纹特征与第三注册声纹特征匹配。

其中，第一注册声纹特征是通过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的预设用户的声纹特征；第二注册声纹特征是通过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的所述预设用户的声纹特征；第三注册声纹特征是通过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的所述预设用户的声纹特征。可以理解的是，声纹模型的功能是提取输入语音的声纹特征，输入语音为注册语音时，声纹模型能够提取注册语音的注册声纹特征，输入语音为用户某次说话的语音时，声纹模型能够提取该语音的声纹特征。可选地，声纹特征的获取方式还可以为融合方式，包括声纹模型融合方式和声纹特征层面的融合方式。

在一种可能的实现方式中，上述计算匹配度的算法可以为计算相似度。手机对第一语音分量进行特征提取，得到第一声纹特征，分别计算第一声纹特征与预先存储的预设用户的第一注册声纹特征的第一相似度，第二声纹特征与预先存储的预设用户的第二注册声纹特征的第二相似度，第三声纹特征与预先存储的预设用户的第三注册声纹特征的第三相似度。

如果手机内存储有多个预设用户的注册声纹特征，则手机还可以按照上述方法逐一计算上述第一语音分量与其他预设用户(例如预设用户2、预设用户3)的第一匹配度，以及上述第二语音分量与其他预设用户的第二匹配度。进而，蓝牙耳机可以将匹配度最高的预设用户(例如预设用户A)确定为此时的发声用户。

另外，在手机对第一语音分量、第二语音分量和第三语音分量进行声纹识别之前，还可以先判断是否需要对第一语音分量、第二语音分量和第三语音分量进行声纹识别。判断的方式可以为对语音信息进行关键词检测，当语音信息中包括预设的关键词时，手机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；或者；判断的方式还可以为对用户输入进行检测，当接收到用户输入的预设操作时，手机分别对所述第一语音分量、所述第二语音分量和所述第三语音分量进行声纹识别。其中，关键词检测的具体方式可以为对于关键词进行语音识别后相似度大于预设阈值，则认为关键词检测通过。

在一种可能的实现方式中，如果蓝牙耳机或者手机可以从用户输入的语音信息中识别出预设的关键词，例如，“转账”、“支付”、“**银行”或者“聊天记录”等涉及用户隐私或资金行为的关键词，说明用户此时通过语音控制手机所需的安全需求较高，因此，手机可执行步骤S705进行声纹识别。又例如，如果蓝牙耳机检测接收到用户输入所执行的预先设置的用于开启声纹识别功能的操作，例如，敲击蓝牙耳机或者同时按下音量+和音量－按键等操作，说明用户此时需要通过声纹识别验证用户身份，因此，蓝牙耳机可通知手机执行步骤S705进行声纹识别。

又或者，还可以在手机内预先设置与不同安全等级对应的关键词。例如，安全等级最高的关键词包括“支付”、“付款”等，安全等级较高的关键词包括“拍照”、“打电话”等，安全等级最低的关键词包括“听歌”、“导航”等。这样，当检测到上述采集到的语音信息中包含安全等级最高的关键词时，可触发手机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别，即对采集到的三路音源均进行声纹识别以提高语音控制手机时的安全性。当检测到上述采集到的语音信息中包含安全等级较高的关键词时，由于此时用户通过语音控制手机的安全性需求一般，因此可触发手机仅对第一语音分量、第二语音分量或第三语音分量进行声纹识别。当检测到上述采集到的语音信息中包含安全等级最低的关键词时，手机无需对第一语音分量、第二语音分量和第三语音分量进行声纹识别。

当然，如果蓝牙耳机采集到的语音信息中没有包含关键词，说明此时采集到的语音信息可能只是用户在正常交谈时发出的语音信息，因此，手机无需对第一语音分量、第二语音分量和第三语音分量进行声纹识别，从而可降低手机的功耗。

又或者，手机还可以预先设置一个或多个唤醒词用于唤醒手机打开声纹识别功能。例如，该唤醒词可以为“你好，小E”。当用户向蓝牙耳机输入语音信息后，蓝牙耳机或手机可识别该语音信息是否是包含唤醒词的唤醒语音。例如，蓝牙耳机可将采集到的语音信息中的第一语音分量、第二语音分量和第三语音分量发送给手机，如果手机进一步识别出该语音信息中包含上述唤醒词，则手机可打开声纹识别功能(例如为声纹识别芯片上电)。后续如果蓝牙耳机采集到的语音信息中包含上述关键词，则手机可使用已开启的声纹识别功能按照步骤S705的方法进行声纹识别。

又例如，蓝牙耳机采集到语音信息后也可进一步识别该语音信息中是否包含上述唤醒词。如果包含上述唤醒词，则说明后续用户可能需要使用声纹识别功能，那么，蓝牙耳机可向手机发送启动指令，使得手机响应于该启动指令打开声纹识别功能。

S706、手机根据第一声纹识别结果、第二声纹识别结果和第三声纹识别结果对用户身份鉴权。

在步骤S706中，手机通过声纹识别得到与第一语音分量对应的第一声纹识别结果、与第二语音分量对应的第二声纹识别结果以及与第三语音分量对应的第三声纹识别结果后，可综合这三个声纹识别结果对输入上述语音信息的用户身份鉴权，从而提高用户身份鉴权时的准确性和安全性。

示例性的，预设用户的第一注册声纹特征与上述第一声纹特征的第一匹配度为第一声纹识别结果，预设用户的第二注册声纹特征与上述第二声纹特征的第二匹配度为第二声纹识别结果，预设用户的第三注册声纹特征与上述第三声纹特征的第三匹配度为第三声纹识别结果。在对用户身份鉴权时，如果上述第一匹配度、第二匹配度和第三匹配度满足预设的鉴权策略，例如，鉴权策略为当上述第一匹配度大于第一阈值、上述第二匹配度大于第二阈值且上述第三匹配度大于第三阈值时(第三阈值、第二阈值与第一阈值互相可以相同或不同)，手机确定发出该第一语音分量、第二语音分量和第三语音分量的用户为预设用户；否则，手机可确定发出该第一语音分量、第二语音分量和第三语音分量的用户为非法用户。

又例如，手机可计算上述第一匹配度和第二匹配度的加权平均值，当该加权平均值大于预设阈值时，手机可确定发出该第一语音分量、第二语音分量和第三语音分量的用户为预设用户；否则，手机可确定发出上述第一语音分量、第二语音分量和第三语音分量的用户为非法用户。

又或者，手机可以在不同的声纹识别场景下使用不同的鉴权策略。例如，当采集到的语音信息中包含安全等级最高的关键词时，手机可将上述第一阈值、第二阈值和第三阈值均设置为99分。这样，只有当第一匹配度、第二匹配度和第三匹配度均大于99分时，手机确定当前的发声用户为预设用户。而当采集到的语音信息中包含安全等级较低的关键词时，手机可将上述第一阈值、第二阈值和第三阈值均设置为85分。这样，当第一匹配度、第二匹配度和第三匹配度均大于85分时，手机便可确定当前的发声用户为预设用户。也就是说，对于不同安全等级的声纹识别场景，手机可使用不同安全等级的鉴权策略对用户身份鉴权。

另外，如果手机内存储有或多个预设用户的声纹模型，例如，手机内存储有预设用户A、预设用户B和预设用户C的注册声纹特征，每个预设用户的注册声纹特征均包括第一注册声纹特征、第二注册声纹特征和第三注册声纹特征。那么，手机可以按照上述方法将采集到的第一语音分量、第二语音分量和第三语音分量分别与每个预设用户的注册声纹特征进行匹配。进而，手机可以将满足上述鉴权策略，且匹配度最高的预设用户(例如预设用户A)确定为此时的发声用户。

这样，手机接收到蓝牙耳机发送的语音信息中的第一语音分量、第二语音分量和第三语音分量后，可将第一语音分量、第二语音分量和第三语音分量融合后进行声纹识别，例如，计算第一语音分量、第二语音分量和第三语音分量融合后与预设用户的声纹模型之间的匹配度。进而，手机根据该匹配度也能够对用户身份鉴权。由于这种身份鉴权方法中预设用户的声纹模型被融合为一个，因此声纹模型的复杂度和所需的存储空间都相应降低，同时由于利用了第二语音分量的声纹特征信息所以也具有双重声纹保障和活体检测功能。

又例如，上述计算匹配度的算法可以为计算相似度。手机对第一语音分量进行特征提取，得到第一声纹特征，分别计算第一声纹特征与预先存储的预设用户的第一注册声纹特征的第一相似度，第二声纹特征与预先存储的预设用户的第二注册声纹特征的第二相似度，第三声纹特征与预先存储的预设用户的第三注册声纹特征的第三相似度，基于第一相似度、第二相似度和第三相似度，对用户进行身份鉴权。相似度计算的方法包括：欧氏距离(Euclidean Distance)、余弦相似度(Cosine)、皮尔逊相关系数(Pearson)、修正余弦相似度(Adjusted Cosine)、汉明距离(Hamming Distance)、曼哈顿距离(ManhattanDistance)等,本申请对此不作限制。

对用户进行身份鉴权的方式可以为手机根据环境声的分贝数和蓝牙耳机的播放音量，分别确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分。若融合相似度得分大于第一阈值，则手机确定向蓝牙耳机输入语音信息的用户为预设用户。

在一种可能的实现方式中，环境声的分贝数是蓝牙耳机的声压传感器检测得到的并发送给手机的，播放音量可以是蓝牙耳机的扬声器检测播放信号得到的并发送给手机的，也可以是手机本身调用自身数据得到的。

在一种可能的实现方式中，第二融合系数与环境声的分贝数呈负相关，第一融合系数、第三融合系数分别与播放音量的分贝数呈负相关，第一融合系数、第二融合系数和第三融合系数的和为固定值。也就是说，在第一融合系数、第二融合系数和第三融合系数的和为预设的固定值的情况下，环境声的分贝数越大，第二融合系数越小，此时，相应的，第一融合系数和第三融合系数会适应性增大，以维持在第一融合系数、第二融合系数和第三融合系数的和不变化；播放音量越大，第一融合系数和第三融合系数越小，此时，相应的，第二融合系数会适应性增大，以维持在第一融合系数、第二融合系数和第三融合系数的和不变化。该实现方式中的融合系数可以理解为动态的，换句话说，融合系数是根据环境声和播放音量动态变化的，根据麦克风检测到的周围环境声音的分贝数、耳内传感器检测到的播放音量来动态决定融合系数。若环境声的分贝数较高，说明环境噪声水平较高，可以认为蓝牙耳机受环境噪声影响较大，因此本申请提供的语音控制方法需要降低蓝牙耳机耳外传感器和骨振动传感器对应的融合系数，融合相似度得分的结果更加依赖受环境噪声影响比较小的耳内传感器；反之，若播放音量较大，说明在耳道内的播放声音的噪声水平较高，可以认为蓝牙耳机的耳内传感器受播放声音的影响较大，因此本申请提供的语音控制方法需要降低耳内传感器对应的融合系数，融合相似度得分的结果更加依赖受播放声音影响比较小的耳外传感器和骨振动传感器。

具体的，在系统设计时可以根据以上原则设置查找表，在具体使用时，可以根据监测到的自身音量和环境声分贝数，通过查表的方式，确定融合系数。例如，表1-1所示为一个示例。其中耳内语音传感器和骨振动传感器采集的语音信号的相似度得分的融合系数分别用a1和a2表示，耳外语音传感器采集的语音信号得到的相似度得分的融合系数用b1表示。当环境音超过60dB的时候，此时的外界环境可以认为比较嘈杂，耳外语音传感器采集的语音信号会夹杂较多的环境噪音，耳外语音传感器采集的语音信号对应的融合系数可以使用较低数值或者直接置成0。耳机内部扬声器播放音量超过总音量的80％时，可以认为耳机内部的音量过大，耳内语音传感器采集的语音信号对应的融合系数可以使用较低数值或者直接置成0。当外界环境噪声过大(例如，环境音超过60dB)并且扬声器音量过高(例如，耳机扬声器音量超过总音量的60％)时，采集到的语音信号干扰太大，声纹识别失效。可以理解的是，具体应用中，“音量20％”、“音量40％”和“环境音20dB”、“环境音40dB”可以代表一个范围，例如，“音量20％”指的是“音量10％-30％”，音量40％”指的是“音量30％-50％”；“环境音20dB”指的是“环境音10dB-30dB”，“环境音40dB”指的是“环境音30dB-50dB”。

表1-1

可以理解的是，上述具体设计仅为一种实例，具体的参数设置、阈值设置以及不同的环境音分贝数和扬声器音量对应怎样的系数，可以根据实际情况进行设计和更改，本申请对此不做限制。需要注意的是，本申请实施例提供的融合系数可以理解为“动态融合系数”，即融合系数可以根据不同的环境音分贝数和扬声器音量进行动态调整。

示例性的，在另一种可能的实现方式中，S706中基于第一声纹识别结果、第二声纹识别结果和第三声纹识别结果进行融合来对用户进行身份鉴权的策略，可以变更为直接对音频特征进行融合，基于融合音频特征和声纹模型提取得到声纹特征，计算该声纹特征与预先存储的预设用户的注册声纹特征的相似度，继而进行身份鉴权。具体的，从耳内语音传感器和耳外语音传感器采集的当前用户的语音信号中提取各帧的音频特征feaE1,feaE2。从骨声纹传感器采集的当前用户的语音信号中提取各帧的音频特征feaB1。对上述音频特征feaE1,feaE2，feaB1进行融合，包括但不限于下述方法：对feaE1,feaE2和feaB1进行归一化处理得到feaE1’,feaE2’和feaB1’，然后拼接成一个特征矢量fea＝[feaE1’，feaE2’，feaB1’]。将特征矢量fea通过声纹模型进行声纹特征提取，获得当前用户的声纹特征。同理，注册用户的注册语音可以参照上述方法获得注册用户的声纹特征。将当前用户的声纹特征和注册用户的声纹特征进行相似度比对，从而得到相似度得分，判断相似度得分与预设阈值的关系，从而获得鉴权结果。

示例性的，在另一种可能的实现方式中，S706中基于第一相似度、第二相似度和第三相似度进行融合来对用户进行身份鉴权的策略，可以变更为对第一声纹特征，第二声纹特征和第三声纹特征进行融合得到融合声纹特征，计算融合声纹特征与预先存储的预设用户的注册融合声纹特征的相似度，继而进行身份鉴权。具体的，将从耳内语音传感器和耳外语音传感器采集的当前用户的语音信号通过声纹模型进行特征提取，得到声纹特征e1、e2。将从骨声纹传感器采集的当前用户的语音信号通过声纹模型进行特征提取，得到声纹特征b1。对上述声纹特征e1、e2、b1进行拼接融合，得到拼接后的当前用户的声纹特征m1＝[e1,e2,b1]。同理，注册用户的注册语音可以参照上述方法获得拼接后的注册用户的声纹特征。将拼接后的当前用户的声纹特征和拼接后的注册用户的声纹特征进行相似度比对，从而得到相似度得分，判断相似度得分与预设阈值的关系，从而获得鉴权结果。

S707、若上述用户为预设用户，则手机执行与上述语音信息对应的操作指令。

通过上述步骤S706的鉴权过程，如果鉴权通过，手机确定出步骤S702中输入语音信息的发声用户为预设用户，则手机可执行与上述语音信息对应的操作指令，若鉴权不通过，则不执行后续的操作指令。可以理解的是，操作指令包括但不限于手机解锁操作或者确认支付操作。例如，当上述语音信息为“小E，使用微信支付”时，与其对应的操作指令为打开微信APP的支付界面。这样，手机生成打开微信APP中支付界面的操作指令后，可自动打开微信APP，并显示微信APP中的支付界面。

另外，由于手机已经确定出上述用户为预设用户，因此，如图9所示，如果当前手机处于锁定状态，手机还可以先解锁屏幕，再执行打开微信APP中支付界面的操作指令，显示显示微信APP中的支付界面901。

示例性的，上述步骤S701-S707提供的语音控制方法可以是语音助手APP提供的一项功能。蓝牙耳机与手机交互时，如果通过声纹识别确定此时的发声用户为预设用户，手机可将生成的操作指令或语音信息等数据发送给应用程序层运行的语音助手APP。进而，由语音助手APP调用应用程序框架层的相关接口或服务执行与上述语音信息对应的操作指令。

可以看出，本申请实施例中提供的语音控制方法可以在利用声纹识别用户身份的同时，对手机解锁并执行语音信息中的相关操作指令。即用户只需要输入一次语音信息即可完成用户身份鉴权、手机解锁以及打开手机某一功能等一些列操作，从而大大提高了用户对手机的操控效率和用户体验。

在上述步骤S701-S707中，是以手机作为执行主体进行声纹识别以及用户身份鉴权等操作。可以理解的是，上述步骤S701-S707中的部分或全部内容也可以由蓝牙耳机完成，这可以降低手机的实现复杂度以及手机的功耗。如图10所示，该语音控制方法可以包括：

S1001、手机与蓝牙耳机建立蓝牙连接。

S1002(可选的)、蓝牙耳机检测是否处于佩戴状态。

S1003、若处于佩戴状态，则蓝牙耳机通过第一语音传感器采集从而获取用户输入的语音信息中的第一语音分量，通过第二语音传感器采集上述语音信息中的第二语音分量，并通过骨振动传感器采集上述语音信息中的第三语音分量。

其中，步骤S1001-S1003中蓝牙耳机与手机建立蓝牙连接，检测蓝牙耳机是否处于佩戴状态，以及检测语音信息中的第一语音分量、第二语音分量和第三语音分量的具体方法可参见上述步骤S701-S703的相关描述，故此处不再赘述。

需要说明的时，蓝牙耳机获取到上述第一语音分量、第二语音分量和第三语音分量后，还可以对检测到的第一语音分量和第二语音分量进行增强、降噪或滤波等操作，本申请实施例对此不做任何限制。

在本申请的一些实施例中，由于蓝牙耳机具有音频播放功能，而当蓝牙耳机的扬声器在工作时，蓝牙耳机上的气传导麦克风和骨传导麦克风可能会接收到扬声器所播放的音源的回声信号。因此，当蓝牙耳机获取到上述第一语音分量和第二语音分量后，还可以使用回声消除算法(adaptive echo cancellation，AEC)消除第一语音分量和第二语音分量中的回声信号，以提高后续声纹识别的准确性。

S1004、蓝牙耳机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果，与第二语音分量对应的第二声纹识别结果以及与第三语音分量对应的第三声纹识别结果。

与上述步骤S701-S707不同的是，在步骤S1004中，蓝牙耳机内可预先存储一个或多个声纹模型和预设用户的注册声纹特征。这样，蓝牙耳机获取到上述第一语音分量、第二语音分量和第三语音分量后，可使用蓝牙耳机本地存储的声纹模型对第一语音分量、第二语音分量和第三语音分量进行声纹识别以分别获取语音分量对应的声纹特征，将获取到的语音分量对应的声纹特征与对应的注册声纹特征进行比对。从而进行声纹识别。其中，蓝牙耳机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别的具体方法，可参见上述步骤S705中手机分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别的具体方法，故此处不再赘述。

S1005、蓝牙耳机根据第一声纹识别结果、第二声纹识别结果和第三声纹识别结果对用户身份鉴权。

其中，蓝牙耳机根据第一声纹识别结果、第二声纹识别结果和第三声纹识别结果对用户身份鉴权的过程可参见上述步骤S706中手机根据第一声纹识别结果、第二声纹识别结果和第三声纹识别结果对用户身份鉴权的相关描述，故此处不再赘述。

S1006、若上述用户为预设用户，则蓝牙耳机通过蓝牙连接向手机发送与上述语音信息对应的操作指令。

S1007、手机执行上述操作指令。

如果蓝牙耳机确定出输入上述语音信息的发声用户为预设用户，则蓝牙耳机可生成与上述语音信息对应的操作指令。操作指令可以参加上述步骤S707中手机的操作指令例子，此处不再赘述。

另外，由于蓝牙耳机已经确定出上述用户为预设用户，因此，当手机处于锁定状态时，蓝牙耳机还可以向手机发送用户身份鉴权通过的消息或者解锁指令，使得手机可以先解锁屏幕，再执行与上述语音信息对应的操作指令。当然，蓝牙耳机也可以将采集到的语音信息发送给手机，由手机根据该语音信息生成对应的操作指令，并执行该操作指令。

在本申请的一些实施例中，蓝牙耳机向手机发送上述语音信息或对应的操作指令时，还可以将自身的设备标识(例如MAC地址)发送给手机。由于手机内存储有已经通过鉴权的预设蓝牙设备的标识，因此，手机可根据接收到的设备标识确定当前连接的蓝牙耳机是否为预设蓝牙设备。如果该蓝牙耳机是预设蓝牙设备，则手机可进一步执行该蓝牙耳机发送来的操作指令，或者对该蓝牙耳机发送来的语音信息进行语音识别等操作，否则，手机可丢弃该蓝牙耳机发来的操作指令，从而避免非法蓝牙设备恶意操控手机导致的安全性问题。

或者，手机与预设蓝牙设备可以预先约定传输上述操作指令时的口令或密码。这样，蓝牙耳机向手机发送上述语音信息或对应的操作指令时，还可以向手机发送预先约定的口令或密码，使得手机确定当前连接的蓝牙耳机是否为预设蓝牙设备。

又或者，手机与预设蓝牙设备可以预先约定传输上述操作指令时使用的加密和解密算法。这样，蓝牙耳机向手机发送上述语音信息或对应的操作指令前，可使用约定的加密算法对该操作指令进行加密。手机接收到加密后的操作指令后，如果使用约定的解密算法能够解密出上述操作指令，则说明当前连接的蓝牙耳机为预设蓝牙设备，则手机可进一步执行该蓝牙耳机发送来的操作指令；否则，说明当前连接的蓝牙耳机为非法蓝牙设备，手机可丢弃该蓝牙耳机发来的操作指令。

需要说明的是，上述步骤S701-S707以及步骤S1001-S1007仅为在本申请提供的语音控制方法的两种实现方式。可以理解的是，本领域技术人员可以根据实际应用场景或实际经验设置上述实施例中哪些步骤由蓝牙耳机执行，哪些步骤由手机执行，本申请实施例对此不做任何限制。另外，本申请提供的语音控制方法还可以以服务器作为执行主体，即蓝牙耳机与服务器建立连接，服务器实现上述实施例中手机的功能，具体过程此处不再赘述。

例如，蓝牙耳机也可以在对第一语音分量、第二语音分量和第三语音分量进行声纹识别之后，将得到的第一声纹识别结果、第二声纹识别结果和第三声纹识别结果发送给手机，后续由手机根据该声纹识别结果进行用户身份鉴权等操作。

又例如，蓝牙耳机也可以在获取到上述第一语音分量、第二语音分量和第三语音分量后，先判断是否需要对第一语音分量、第二语音分量和第三语音分量进行声纹识别。如果需要对第一语音分量、第二语音分量和第三语音分量进行声纹识别，则蓝牙耳机可向手机发送该第一语音分量、第二语音分量和第三语音分量，进而由手机完成后续声纹识别、用户身份鉴权等操作；否则，蓝牙耳机无需向手机发送该第一语音分量、第二语音分量和第三语音分量，避免增加手机处理该第一语音分量、第二语音分量和第三语音分量的功耗。

另外，如图11中的(a)所示，用户还可以进入手机的设置界面1101中开启或关闭上述语音控制控能。如果用户开启上述语音控制控能，用户可通过设置按钮1102设置触发该语音控制的关键词，例如“小E”、“支付”等，用户也可以通过设置按钮1103管理预设用户的声纹模型，例如添加或删除预设用户的声纹模型，用户还可以通过设置按钮1104设置语音助手能够支持的操作指令，例如支付、拨打电话、订餐等。这样，用户可以获得定制化的语音控制体验。

在本申请的一些实施例中，本申请实施例公开了一种语音控制装置，如图12所示，该语音控制装置包括语音信息获取单元1201、识别单元1202、身份信息获取单元1203以及执行单元1204。可以理解的是，该语音控制装置本身可以为一个终端或者可穿戴设备，该语音控制装置可以全部集成于可穿戴设备中，也可以将可穿戴设备与终端组成一套语音控制系统，即部分单元位于可穿戴设备中，部分单元位于终端中。

在一种可能的实现方式中，以该语音控制装置可以全部集成于蓝牙耳机中为例。其中，语音信息获取单元1201用于获取用户的语音信息，在本申请实施例中，用户可在佩戴蓝牙耳机时向蓝牙耳机输入语音信息，此时，蓝牙耳机可以基于用户输入的语音信息，通过耳内语音传感器采集第一语音分量，通过耳外语音传感器采集第二语音分量，通过骨振动传感器采集第三语音分量。

识别单元1202用于分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果、与第二语音分量对应的第二声纹识别结果以及与第三语音分量对应的第三声纹识别结果。

在一种可能的实现方式中，识别单元1202还可以用于对用户向蓝牙耳机输入的语音信息进行关键词检测，当语音信息中包括预设的关键词时，分别对第一语音分量、第二语音分量和第三语音分量进行声纹识别；或者；识别单元1202可以用于对用户输入进行检测，当接收到用户输入的预设操作时，分别对所述第一语音分量、所述第二语音分量和所述第三语音分量进行声纹识别。用户输入可以为用户通过触摸屏或按键对蓝牙耳机的输入，例如，用户点击蓝牙耳机的解锁键。可选的，识别单元1202对语音信息进行关键词检测或者对用户输入进行检测之前，获取单元1201还可以获取佩戴状态检测结果，当佩戴状态检测结果通过时，识别单元1202对语音信息进行关键词检测，或者，对用户输入进行检测。

在一种可能的实现方式中，识别单元1202具体用于：对第一语音分量进行特征提取，得到第一声纹特征，计算第一声纹特征与预设用户的第一注册声纹特征的第一相似度，第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，第一注册声纹特征用于反映耳内语音传感器采集到的预设用户的音频特征；对第二语音分量进行特征提取，得到第二声纹特征，计算第二声纹特征与预设用户的第二注册声纹特征的第二相似度，第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，第二注册声纹特征用于反映耳外语音传感器采集到的预设用户的音频特征；对第三语音分量进行特征提取，得到第三声纹特征，计算第三声纹特征与预设用户的第三注册声纹特征的第三相似度，第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，第三注册声纹特征用于反映骨振动传感器采集到的预设用户的音频特征。

身份信息获取单元1203用于进行获取用户身份信息以进行用户身份鉴权，具体地，根据环境声的分贝数和播放音量，分别确定第一相似度对应的第一融合系数，第二相似度对应的第二融合系数，第三相似度对应的第三融合系数；根据第一融合系数、第二融合系数和第三融合系数融合第一相似度、第二相似度和第三相似度，得到融合相似度得分。若融合相似度得分大于第一阈值，则手机确定向蓝牙耳机输入语音信息的用户为预设用户。其中，环境声的分贝数是蓝牙耳机的声压传感器检测得到的，播放音量可以是蓝牙耳机的扬声器检测播放信号得到的。

当手机确定向蓝牙耳机输入语音信息的用户为预设用户后，或者说，鉴权通过后，执行单元1204用于执行与所述语音信息对应的操作指令，所述操作指令包括解锁指令、支付指令、关机指令、打开应用程序指令或呼叫指令。

上述本申请实施例提供的语音控制方法，由于相比于现有技术，增加了通过耳内语音传感器采集声纹特征的方法，当用户佩戴包括耳内语音传感器的耳机之后，用户的外耳道与中耳道会形成一个封闭的腔室，声音在腔室里有一定的放大作用，即空腔效应，因此，耳内语音传感器采集到的声音会更加清晰，尤其对于高频声音信号具有明显的增强作用，能够弥补骨振动传感器在采集语音信息时，会丢失部分语音信息的高频信号分量所造成的失真问题，提升耳机整体的声纹采集效果和声纹识别的准确度，从而提升用户体验。并且，由于本申请实施例在相似度融合时采用了动态融合系数，针对不同的应用环境和应用场景，采用动态的融合系数对具有不同属性的语音信号获得的声纹识别结果进行融合，利用这些不同属性的语音信号的互补性可以提升声纹识别的鲁棒性和准确率。例如，在噪声环境较大或耳机播放音乐的情况下能够显著提升的识别准确率和准确率。其中，不同属性的语音信号也可以理解为通过不同的传感器(耳内语音传感器、耳外语音传感器、骨振动传感器)获取到的语音信号。

本申请另一实施例还提供一种可穿戴设备，图13是本申请实施例提供的一种可穿戴设备130的示意图。图13所示的可穿戴设备包括存储器1301、处理器1302、通信接口1303、总线1304、耳内语音传感器1305，耳外语音传感器1306，骨振动传感器1307。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。存储器1301和处理器1302耦合，存储器801用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器802执行该计算机指令时，能够使可穿戴设备执行上述实施例中描述的语音控制方法。

耳内语音传感器1305用于采集语音信息的第一语音分量，耳外语音传感器1306用于采集语音信息的第二语音分量，骨振动传感器1307用于采集语音信息的第三语音分量。

存储器1301可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的语音控制方法的各个步骤。

处理器1302可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音控制装置中的单元所需执行的功能，或者执行本申请方法实施例的语音控制方法。

处理器1302还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的语音控制方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1302读取存储器1301中的信息，结合其硬件完成本申请实施例的语音控制装置中包括的单元所需执行的功能，或者执行本申请方法实施例的语音控制方法。

通信接口1303使用例如但不限于收发器一类的收发装置，能够进行有线通信或无线通信，从而实现可穿戴设备1300与其他设备或通信网络之间的通信。例如，可穿戴设备可以通过通信接口1303与终端设备建立通信连接。

总线1304可包括在装置1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

本申请另一实施例还提供一种终端，图14是本申请实施例提供的一种终端示意图。图14所示的终端包括触摸屏1401、处理器1402、存储器1403、一个或多个计算机程序1404、总线1405、通信接口1408。其中，触摸屏1401包括触敏表面1406和显示屏1407，该终端还可以包括一个或多个应用程序(未示出)。上述各器件可以通过一个或多个通信总线1405连接。

存储器1403和处理器1402耦合，存储器1403用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器1402执行该计算机指令时，能够使终端执行上述实施例中描述的语音控制方法。

触摸屏1401用于与用户进行交互，能够接收到用户的输入信息。用户通过触敏表面1406对手机进行输入，例如，用户点击手机触敏表面1406上显示的解锁键。

存储器1403可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1403可以存储程序，当存储器1403中存储的程序被处理器1402执行时，处理器1402和通信接口1403用于执行本申请实施例的语音控制方法的各个步骤。

处理器1402可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音控制装置中的单元所需执行的功能，或者执行本申请方法实施例的语音控制方法。

处理器1402还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的语音控制方法的各个步骤可以通过处理器1402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1402还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1403，处理器1402读取存储器1403中的信息，结合其硬件完成本申请实施例的语音控制装置中包括的单元所需执行的功能，或者执行本申请方法实施例的语音控制方法。

通信接口1408使用例如但不限于收发器一类的收发装置，能够进行有线通信或无线通信，从而实现终端1400与其他设备或通信网络之间的通信。例如，终端可以通过通信接口1408与可穿戴设备建立通信连接。

总线1405可包括在装置1400各个部件(例如，触摸屏1401、存储器1403、处理器1402、通信接口1408)之间传送信息的通路。

应注意，尽管图13和图14所示的可穿戴设备1300和终端1400仅仅示出了存储器、处理器、通信接口等，但是在具体实现过程中，本领域的技术人员应当理解，可穿戴设备1300和终端1400还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，可穿戴设备1300和终端1400还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，可穿戴设备1300和终端1400也可仅仅包括实现本申请实施例所必须的器件，而不必包括图13或图14中所示的全部器件。

本申请另一实施例还提供一种芯片系统，如图15所示为该芯片系统示意图，该芯片系统包括至少一个处理器1501、至少一个接口电路1502和总线1503。处理器1501和接口电路1502可通过线路互联。例如，接口电路1502可用于从其它装置(例如语音控制装置的存储器)接收信号。又例如，接口电路1502可用于向其它装置(例如处理器1501)发送信号。示例性的，接口电路1502可读取存储器中存储的指令，并将该指令发送给处理器1501。当所述指令被处理器1501执行时，可使得语音控制装置执行上述实施例中的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在语音控制装置上运行时，该语音控制装置执行上述方法实施例所示的方法流程中识别装置执行的各个步骤。

本申请另一实施例还提供一种计算机程序产品，该计算机程序产品中存储有计算机指令，当指令在语音控制装置上的识别装置上运行时，该识别装置执行上述方法实施例所示的方法流程中识别装置执行的各个步骤。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

在一个实施例中，计算机程序产品是使用信号承载介质来提供的。所述信号承载介质可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以实现本申请实施例的语音控制方法的功能。因此，例如，参考图7中S701～S707的一个或多个特征可以由与信号承载介质相关联的一个或多个指令来承担。

在一些示例中，信号承载介质可以包含计算机可读介质，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质可以包含计算机可记录介质，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质可以包含通信介质，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质可以由无线形式的通信介质(例如，遵守IEEE 802.16标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音控制方法，其特征在于，包括：

获取用户的语音信息,所述语音信息包括第一语音分量，第二语音分量和第三语音分量，所述第一语音分量是由耳内语音传感器采集到的，所述第二语音分量是由耳外语音传感器采集到的，所述第三语音分量是由骨振动传感器采集到的；

分别对所述第一语音分量，所述第二语音分量和所述第三语音分量进行声纹识别；

根据所述第一语音分量的声纹识别结果、所述第二语音分量的声纹识别结果和所述第三语音分量的声纹识别结果，得到所述用户的身份信息；

当所述用户的身份信息与预设的信息匹配时，执行操作指令，其中，所述操作指令是根据所述语音信息确定的。

2.根据权利要求1所述的语音控制方法，其特征在于，所述对所述第一语音分量、所述第二语音分量和所述第三语音分量进行声纹识别之前，还包括：

对所述语音信息进行关键词检测，或者，对用户输入进行检测。

3.根据权利要求2所述的语音控制方法，其特征在于，所述对所述语音信息进行关键词检测或者对用户输入进行检测之前，还包括：

获取所述可穿戴设备的佩戴状态检测结果。

4.根据权利要求1-3任一所述的语音控制方法，其特征在于，所述对所述第一语音分量进行声纹识别，具体包括：

对所述第一语音分量进行特征提取，得到第一声纹特征，计算所述第一声纹特征与所述用户的第一注册声纹特征的第一相似度，所述第一注册声纹特征是第一注册语音经过第一声纹模型进行特征提取得到的，所述第一注册声纹特征用于反映所述耳内语音传感器采集到的所述用户的预设音频特征。

5.根据权利要求1-3任一所述的语音控制方法，其特征在于，所述对所述第二语音分量进行声纹识别，具体包括：

对所述第二语音分量进行特征提取，得到第二声纹特征，计算所述第二声纹特征与所述用户的第二注册声纹特征的第二相似度，所述第二注册声纹特征是第二注册语音经过第二声纹模型进行特征提取得到的，所述第二注册声纹特征用于反映所述耳外语音传感器采集到的所述用户的预设音频特征。

6.根据权利要求1-3任一所述的语音控制方法，其特征在于，所述对所述第三语音分量进行声纹识别，具体包括：

对所述第三语音分量进行特征提取，得到第三声纹特征，计算所述第三声纹特征与所述用户的第三注册声纹特征的第三相似度，所述第三注册声纹特征是第三注册语音经过第三声纹模型进行特征提取得到的，所述第三注册声纹特征用于反映所述骨振动传感器采集到的所述用户的预设音频特征。

7.根据权利要求1-6任一所述的语音控制方法，其特征在于，所述根据所述第一语音分量的声纹识别结果、所述第二语音分量的声纹识别结果和所述第三语音分量的声纹识别结果，得到所述用户的身份信息，具体包括：

确定所述第一相似度对应的第一融合系数，所述第二相似度对应的第二融合系数，所述第三相似度对应的第三融合系数；

根据所述第一融合系数、所述第二融合系数和所述第三融合系数融合所述第一相似度、第二相似度和第三相似度，得到融合相似度得分，若所述融合相似度得分大于第一阈值，则确定所述用户的身份信息与预设身份信息匹配。

8.根据权利要求7所述的语音控制方法，其特征在于，确定所述第一融合系数、所述第二融合系数和所述第三融合系数，具体包括：

根据声压传感器得到环境声的分贝数；

根据扬声器的播放信号，确定播放音量；

根据所述环境声的分贝数和所述播放音量，分别确定所述第一融合系数、所述第二融合系数和所述第三融合系数，其中：

所述第二融合系数与所述环境声的分贝数呈负相关，所述第一融合系数、所述第三融合系数分别与所述播放音量的分贝数呈负相关，所述第一融合系数、第二融合系数和第三融合系数的和为固定值。

9.根据权利要求1-8中任一项所述的语音控制方法，其特征在于，所述操作指令包括解锁指令、支付指令、关机指令、打开应用程序应用程序指令或呼叫呼叫指令。

10.一种语音控制装置，其特征在于，包括：

语音信息获取单元，所述语音信息获取单元用于获取用户的语音信息，所述语音信息包括第一语音分量，第二语音分量和第三语音分量，所述第一语音分量是由耳内语音传感器采集到的，所述第二语音分量是由耳外语音传感器采集到的，所述第三语音分量是由骨振动传感器采集到的；

识别单元，所述识别单元用于分别对所述第一语音分量，所述第二语音分量和所述第三语音分量进行声纹识别；

身份信息获取单元，所述身份信息获取单元用于根据所述第一语音分量的声纹识别结果、所述第二语音分量的声纹识别结果和所述第三语音分量的声纹识别结果，得到所述用户的身份信息；

执行单元，所述执行单元用于当所述用户的身份信息与预设的信息匹配时，执行操作指令，其中，所述操作指令是根据所述语音信息确定的。

11.根据权利要求10所述的语音控制装置，其特征在于，所述语音信息获取单元还用于：

12.根据权利要求11所述的语音控制装置，其特征在于，所述语音信息获取单元还用于：

获取所述可穿戴设备的佩戴状态检测结果。

13.根据权利要10-12任一所述的语音控制装置，其特征在于，所述识别单元具体用于：

14.根据权利要求10-12任一所述的语音控制装置，其特征在于，所述识别单元具体用于：

15.根据权利要求10-12任一所述的语音控制装置，其特征在于，所述识别单元具体用于：

16.根据权利要求10-15任一所述的语音控制装置，其特征在于，所述身份信息获取单元具体用于：

17.根据权利要求16所述的语音控制装置，其特征在于，所述身份信息获取单元具体用于：

根据声压传感器得到环境声的分贝数；

根据扬声器的播放信号，确定播放音量；

18.根据权利要求10-17中任一项所述的语音控制装置，其特征在于，

所述操作指令包括解锁指令、支付指令、关机指令、打开应用程序应用程序指令或呼叫呼叫指令。

19.一种可穿戴设备，其特征在于，所述可穿戴设备包括耳内语音传感器，耳外语音传感器，骨振动传感器，存储器和处理器；

所述耳内语音传感器用于采集语音信息的第一语音分量，所述耳外语音传感器用于采集语音信息的第二语音分量，所述骨振动传感器用于采集语音信息的第三语音分量；

所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述处理器执行所述计算机指令时，所述可穿戴设备执行如权利要求1-9中任意一项所述的语音控制方法。

20.一种终端，其特征在于，所述终端包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述处理器执行所述计算机指令时，所述终端执行如权利要求1-9中任意一项所述的语音控制方法。

21.一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1-9中任意一项所述的语音控制方法。

22.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在语音控制装置上运行时，使得所述语音控制装置执行如权利要求1-9中任意一项所述的语音控制方法。

23.一种计算机程序产品，其特征在于，包括计算机指令，当所述计算机指令在语音控制装置上运行时，使得所述语音控制装置执行如权利要求1-9中任意一项所述的语音控制方法。