CN104820556A

CN104820556A - 唤醒语音助手的方法及装置

Info

Publication number: CN104820556A
Application number: CN201510227622.2A
Authority: CN
Inventors: 张绍儒
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2015-08-05

Abstract

本发明涉及一种唤醒语音助手的方法及装置。所述方法包括步骤：获取人脸图像以及对应的环境声音；检测所述人脸图像是否满足第一预设条件；若所述人脸图像满足第一预设条件，检测所述环境声音是否满足第二预设条件；若所述环境声音满足第二预设条件，则唤醒语音助手，并将所述环境声音作为语音操作指令输入语音助手。本发明在人脸图像和环境声音满足相应的预设条件时，自动唤醒语音助手，并同时将所述环境声音作为语音操作指令输入语音助手，也即是用户可以直接下发操作指令，免去了语音触发的冗余步骤，实现了通信的简化，并节省了安装有语音助手的设备的电量。

Description

唤醒语音助手的方法及装置

技术领域

本发明涉及通信技术领域，特别是涉及一种唤醒语音助手的方法、唤醒语音助手的装置。

背景技术

语音识别技术从20世纪50年代开始出现，刚开始发展比较缓慢，只能识别少量的孤立的词汇，直至90年代，这项技术开始在应用和产品化方面取得了比较大的突破，成为了技术研究的重点，其中应用较广泛的有苹果公司的Siri(苹果智能语音助手)，国内的科大讯飞、百度语音、搜狗语音助手等。

在现有的各语音助手中，一般需要输入特定的语音完成触发，从而使语音助手处于语音待输入状态。例如在接电源的情况下，只要对着带Siri的ios(苹果公司的移动操作系统)设备说一声Hey Siri，就会唤醒Siri服务。语音触发作为语音输入的开启动作，不需要接触设备，很好地解决了在特定环境下进行语音输入的问题。

但是，现有的语音助手在使用时需要特定语音唤醒，而长时间开启语音唤醒功能会消耗较多的电量，并且用户需要先通过特定语音唤醒语音助手，然后再向语音助手输入相应的语音操作指令，过程较为冗余。

发明内容

基于此，有必要针对上述问题，提供一种操作简单的唤醒语音助手的方法及装置。

一种唤醒语音助手的方法，包括步骤：

获取人脸图像以及对应的环境声音；

检测所述人脸图像是否满足第一预设条件；

若所述人脸图像满足第一预设条件，检测所述环境声音是否满足第二预设条件；

若所述环境声音满足第二预设条件，则唤醒语音助手，并将所述环境声音作为语音操作指令输入语音助手。

一种唤醒语音助手的装置，包括：

人脸图像获取模块，用于获取人脸图像；

环境声音获取模块，用于获取与人脸图像对应的环境声音；

人脸图像检测模块，用于检测所述人脸图像是否满足第一预设条件；

环境声音检测模块，用于在所述人脸图像满足第一预设条件时，检测所述环境声音是否满足第二预设条件；

唤醒模块，用于在所述环境声音满足第二预设条件时，唤醒语音助手，并将所述环境声音作为语音操作指令输入语音助手。

本发明唤醒语音助手的方法及装置，在人脸图像和环境声音满足相应的预设条件时，自动唤醒语音助手，并同时将所述环境声音作为语音操作指令输入语音助手，也即是用户可以直接下发操作指令，免去了语音触发的冗余步骤，实现了通信的简化，并节省了安装有语音助手的设备的电量。

附图说明

图1为本发明方法实施例的流程示意图；

图2为本发明步骤S120具体实施例的流程示意图；

图3为本发明步骤S130具体实施例的流程示意图；

图4为本发明装置实施例的结构示意图；

图5为本发明人脸图像检测模块实施例的结构示意图；

图6为本发明第一判断单元实施例的结构示意图；

图7为本发明环境声音检测模块实施例的结构示意图。

具体实施方式

下面结合附图对本发明唤醒语音助手的方法的具体实施方式做详细描述。

如图1所示，一种唤醒语音助手的方法，包括步骤：

S110、获取人脸图像以及对应的环境声音；

S120、检测所述人脸图像是否满足第一预设条件；

S130、若所述人脸图像满足第一预设条件，检测所述环境声音是否满足第二预设条件；

S140、若所述环境声音满足第二预设条件，则唤醒语音助手，并将所述环境声音作为语音操作指令输入语音助手。

人脸图像可以根据摄像头获取，环境声音可以根据麦克风等获取。获取的摄像头图像和环境声音需进行存储，以便后续的条件检测。为了节省存储空间，可以设置人脸图像和环境声音的保留存储时间，以便一次操作完成后，无用的数据及时清除，腾出存储空间。

获取人脸图像和环境声音后，可以先检测人脸图像是否满足第一预设条件，其中第一预设条件可以根据用户需要设置为各种具体形式。例如，如图2所示，步骤S120可以包括步骤：

S1201、判断人脸图像是否为正面人脸图像，若是，进入步骤S1202，否则返回步骤S110；

S1202、判断人脸图像中的嘴部是否有动作，若有动作，进入步骤S1203，否则返回步骤S110；

S1203、判定所述人脸图像满足第一预设条件。

用户在使用语音助手时，一般正面面对智能手机或平板等，然后通过嘴部发出语音指令，也即是摄像头捕捉到的人脸图像是正面人脸图像，且检测到嘴部有动作时，按照经验，一般使用语音助手的可能性较大。判断人脸图像是否为正面人脸图像的方式有很多种，例如，步骤S1201包括步骤：

获取人脸图像中双眼的距离；

判断双眼的距离是否在预设范围内；

若是，则判定人脸图像是正面人脸图像，否则判定人脸图像不是正面人脸图像。

由于现实中使用语音助手时，用户不可能完全正向摄像头，所以本发明检测时允许一定的偏值，即本发明不限制于确定人脸图像是正面人脸图像，也可以判断人脸图像是不是近似正面人脸图像。同时确定人脸图像是不是正面人脸图像也不仅仅限制于上述提供的方法，还可以根据现有技术中其它方式实现。

嘴部是人的主要声音源，当需要向语音助手发出语音指令时，会伴随着嘴部的动作。所以在判定人脸图像是正面人脸图像后，加入嘴部动作特征的判定，能够提高准确性。根据获取的人脸图像判断嘴部是否有动作可以根据现有技术中已有的方式实现。

在检测到人脸图像时正面人脸图像且嘴部有动作时，即可以进入环境声音的检测步骤。当然用户可以根据需要添加其它的面部验证条件，从而进一步提高准确性，本发明在此不予详述。

如图3所示，步骤S130可以包括步骤：

S1301、判断所述环境声音的音量是否在预设范围内；

S1302、判断与所述环境声音的声源的距离是否小于预设阈值；

S1303、若所述音量在预设范围内且与所述声源的距离小于预设阈值，则判定所述环境声音满足第二预设条件，否则返回步骤S110。

一般用户使用语音助手时，声音的音量不会太大或者太小，而且距离设备的距离不会太大，所以本发明加入了音量大小以及距离的判断。音量可以根据现有技术中的音量检测仪等得到，设备距离声源的距离可以根据声音在空气中的定性的衰减公式确定。在根据环境声音得到音量和距离后，即可以判断音量是否在预设范围内，距离是否小于预设阈值，从而确定环境声音是否满足第二预设条件，其中预设范围和预设阈值均可以根据经验自行设定。

在环境声音满足第二预设条件时，确定用户需要对智能设备进行语音输入，唤醒语音助手，并同时将环境声音作为语音操作指令输入语音助手，语音助手直接执行相应的操作，免去了特定语音唤醒语音助手的步骤，用户操作简单。

需要说明的是，本发明并不对人脸图像及环境声音的检测顺序加以限定，另外，用户可以根据实际情况进行其他对话特征的排查，例如检测到用户是在哼歌或自言自语时认为不满足第二预设条件等，本发明并不对判定条件加以限定。

为了更好的理解本发明的实施过程，下面结合一个具体应用场景进行说明。

在厨房中做菜时，我们想借助平板电脑进行菜谱展示，从而按照上面的步骤完成一道自己不熟悉的菜式。当做完一道工序之后我们希望平板电脑中的软件能够展示下一道工序，这时候便要向它输入指令，但是这时候有可能双手都在忙或者沾上油渍不方便触碰平板电脑，这时我们只需要脸转向平板电脑说一声“下一步”，然后本发明提供的语音唤醒软件判断出我们是在向平板电脑的语音助手输入指令，而不是对别的人说话，这样便直接完成了语音助手的唤醒步骤，并且语音助手可以立即将语音解析出来，并使菜谱软件的展示翻到下一步。

基于同一发明构思，本发明还提供一种唤醒语音助手的装置，下面结合附图对本发明装置的具体实施方式做详细描述。

如图4所示，一种唤醒语音助手的装置，包括：

人脸图像获取模块410，用于获取人脸图像；

环境声音获取模块420，用于获取与人脸图像对应的环境声音；

人脸图像检测模块430，用于检测所述人脸图像是否满足第一预设条件；

环境声音检测模块440，用于在所述人脸图像满足第一预设条件时，检测所述环境声音是否满足第二预设条件；

唤醒模块450，用于在所述环境声音满足第二预设条件时，唤醒语音助手，并将所述环境声音作为语音操作指令输入语音助手。

人脸图像获取模块410可以根据摄像头获取人脸图像，环境声音获取模块420可以根据麦克风等获取环境声音。人脸图像获取模块410和环境声音获取模块420获取的摄像头图像和环境声音需进行存储，以便后续的条件检测。为了节省存储空间，可以设置人脸图像和环境声音的保留存储时间，以便一次操作完成后，无用的数据及时清除，腾出存储空间。

获取人脸图像和环境声音后，人脸图像检测模块430检测人脸图像是否满足第一预设条件，其中第一预设条件可以根据用户需要设置为各种具体形式。例如，如图5所示，所述人脸图像检测模块430可以包括：

第一判断单元4301，用于判断人脸图像是否为正面人脸图像；

第二判断单元4302，用于在人脸图像时正面人脸图像时，判断人脸图像中的嘴部是否有动作；

判定单元4303，用于在嘴部有动作时，判定所述人脸图像满足第一预设条件。

第一判断单元4301判断人脸图像是否为正面人脸图像的方式有很多种，例如，如图6所示，所述第一判断单元4301可以包括：

双眼距离获取单元43011，用于获取人脸图像中双眼的距离；

双眼距离判断单元43012，用于判断双眼的距离是否在预设范围内；

人脸图像判定单元43013，用于在双眼的距离在预设范围内时，判定人脸图像是正面人脸图像，否则判定人脸图像不是正面人脸图像。

第一判断单元4301不限制于确定人脸图像是正面人脸图像，也可以判断人脸图像是不是近似正面人脸图像。同时第一判断单元4301确定人脸图像是不是正面人脸图像也不仅仅限制于如图6所示的方式，还可以根据现有技术中其它方式实现。在判定人脸图像是正面人脸图像后，第二判断单元4302加入嘴部动作特征的判定，能够提高准确性，其中第二判断单元4302根据获取的人脸图像判断嘴部是否有动作可以根据现有技术中已有的方式实现。

环境声音检测模块440在人脸图像满足第一预设条件时，检测环境声音是否满足第二预设条件。需要说明的是，本发明并不对环境声音检测模块440和人脸图像检测模块430的执行顺序加以限定。环境声音检测模块440的实现方式有很多种，例如，如图7所示，所述环境声音检测模块440可以包括：

音量判断单元4401，用于判断所述环境声音的音量是否在预设范围内，其中音量可以根据现有技术中的音量检测仪等得到；

距离判断单元4402，用于判断与所述环境声音的声源的距离是否小于预设阈值，其中距离判断单元4402可以根据声音在空气中的定性的衰减公式确定与声源的距离；

声音判定单元4403，用于在所述音量在预设范围内且与所述声源的距离小于预设阈值时，判定所述环境声音满足第二预设条件，否则人脸图像获取模块410和环境声音获取模块420重新获取的摄像头图像和环境声音，其中预设范围和预设阈值均可以根据经验自行设定。

唤醒模块450在环境声音满足第二预设条件时，确定用户需要对智能设备进行语音输入，唤醒语音助手，并同时将环境声音作为语音操作指令输入语音助手，语音助手直接执行相应的操作，免去了特定语音唤醒语音助手的步骤，用户操作简单。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种唤醒语音助手的方法，其特征在于，包括步骤：

获取人脸图像以及对应的环境声音；

检测所述人脸图像是否满足第一预设条件；

2.根据权利要求1所述的唤醒语音助手的方法，其特征在于，检测所述人脸图像是否满足第一预设条件的步骤包括：

判断人脸图像是否为正面人脸图像；

若人脸图像为正面人脸图像，判断人脸图像中的嘴部是否有动作，若人脸图像不是正面人脸图像，则返回获取人脸图像以及对应的环境声音的步骤；

若有动作，则判定所述人脸图像满足第一预设条件，否则返回获取人脸图像以及对应的环境声音的步骤。

3.根据权利要求2所述的唤醒语音助手的方法，其特征在于，判断人脸图像是否为正面人脸图像的步骤包括：

获取人脸图像中双眼的距离；

判断双眼的距离是否在预设范围内；

4.根据权利要求1所述的唤醒语音助手的方法，其特征在于，检测所述环境声音是否满足第二预设条件的步骤包括：

判断所述环境声音的音量是否在预设范围内；

判断与所述环境声音的声源的距离是否小于预设阈值；

若所述音量在预设范围内且与所述声源的距离小于预设阈值，则判定所述环境声音满足第二预设条件，否则返回获取人脸图像以及对应的环境声音的步骤。

5.根据权利要求4所述的唤醒语音助手的方法，其特征在于，与所述声源的距离根据声音在空气中的衰减公式确定。

6.一种唤醒语音助手的装置，其特征在于，包括：

人脸图像获取模块，用于获取人脸图像；

环境声音获取模块，用于获取与人脸图像对应的环境声音；

7.根据权利要求6所述的唤醒语音助手的装置，其特征在于，所述人脸图像检测模块包括：

第一判断单元，用于判断人脸图像是否为正面人脸图像；

第二判断单元，用于在人脸图像是正面人脸图像时，判断人脸图像中的嘴部是否有动作；

判定单元，用于在嘴部有动作时，判定所述人脸图像满足第一预设条件。

8.根据权利要求7所述的唤醒语音助手的装置，其特征在于，所述第一判断单元包括：

双眼距离获取单元，用于获取人脸图像中双眼的距离；

双眼距离判断单元，用于判断双眼的距离是否在预设范围内；

人脸图像判定单元，用于在双眼的距离在预设范围内时，判定人脸图像是正面人脸图像，否则判定人脸图像不是正面人脸图像。

9.根据权利要求6所述的唤醒语音助手的装置，其特征在于，所述环境声音检测模块包括：

音量判断单元，用于判断所述环境声音的音量是否在预设范围内；

距离判断单元，用于判断与所述环境声音的声源的距离是否小于预设阈值；

声音判定单元，用于在所述音量在预设范围内且与所述声源的距离小于预设阈值时，判定所述环境声音满足第二预设条件。

10.根据权利要求9所述的唤醒语音助手的装置，其特征在于，所述距离判断单元根据声音在空气中的衰减公式确定与所述声源的距离。