CN111816192A - 语音设备及其控制方法、装置和设备 - Google Patents
语音设备及其控制方法、装置和设备 Download PDFInfo
- Publication number
- CN111816192A CN111816192A CN202010648687.5A CN202010648687A CN111816192A CN 111816192 A CN111816192 A CN 111816192A CN 202010648687 A CN202010648687 A CN 202010648687A CN 111816192 A CN111816192 A CN 111816192A
- Authority
- CN
- China
- Prior art keywords
- wake
- control instruction
- free control
- voice
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims description 14
- 230000002265 prevention Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 12
- 238000012795 verification Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Selective Calling Equipment (AREA)
Abstract
本发明提供一种语音设备及其控制方法、装置和设备,方法包括:监听用于控制语音设备免唤醒控制指令;根据预设的免唤醒控制指令与声纹的关联关系,检测所述免唤醒控制指令相关联的声纹与所述免唤醒控制指令携带的所述施令人员的声纹是否相匹配;若所述免唤醒控制指令相关联的声纹与所述施令人员的声纹相匹配,控制所述语音设备响应所述免唤醒控制指令。本发明实现了在设置较多数量的免唤醒控制指令的情况下,对监听到的免唤醒控制指令所对应的身份进行验证,从而降低了由外界因素引起的误触发率,进而提高了语音设备的“免唤醒语音交互”性能。
Description
技术领域
本发明涉及语音设备技术领域,尤其涉及一种语音设备及其控制方法、装置和设备。
背景技术
现在的语音设备,用户在使用的时候语音设备必须先进行唤醒,接下来用户才能下达语音指令。即通过定制的命令词,启动语音设备的识别功能来进行后续的交互,例如,“小度小度”,设备反馈“我在”,然后用户再继续说“我要看电影”,其中“小度小度”就是唤醒词,设备接受指令并执行后,会关闭交互,等待下一次唤醒。
用唤醒词唤醒作为重要的开始步骤,使得用户与语音设备的交互较为繁琐,尤其是需要下达多个指令时影响了很多远场语音交互的体验。因此,现有技术中,通常会设置少量的免唤醒控制指令,比如“暂停播放”“继续播放”,满足用户快捷控制的需要。即用户在不唤醒语音设备的情况下,若发出“暂停播放”,语音设备可以直接响应“暂停播放”的控制指令。
但是,由于免唤醒控制指令数量的增加会导致误唤醒的概率大大提高,为了避免语音设备的误唤醒给用户带来打扰,现有技术只能增加极少量的免唤醒控制指令,不能覆盖用户最基本的常用语音指令,导致语音设备的“免唤醒语音交互”性能较差。
发明内容
有鉴于此,本发明的目的在于提出一种语音设备及其控制方法、装置、设备和存储介质,以解决语音设备的“免唤醒语音交互”性能较差的问题。
基于上述目的,本发明提供了一种语音设备的控制方法,包括:
监听免唤醒控制指令;所述免唤醒控制指令用于控制语音设备,且所述免唤醒携带发出所述免唤醒控制指令的施令人员的声纹;
根据预设的免唤醒控制指令与声纹的关联关系,检测所述免唤醒控制指令相关联的声纹与所述施令人员的声纹是否相匹配;
若所述免唤醒控制指令相关联的声纹与所述施令人员的声纹相匹配,控制所述语音设备响应所述免唤醒控制指令。
进一步地,上述所述的语音设备的控制方法中,所述监听免唤醒控制指令,包括:
若采集到施令人员的语音数据,将所述语音数据转换成文本信息;
提取所述文本信息中的关键信息;
检测预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;
若所述已存储免唤醒控制指令与所述关键信息相匹配,确定监听到所述免唤醒控制指令。
进一步地,上述所述的语音设备的控制方法中,控制所述语音设备响应所述免唤醒控制指令之后,还包括:
检测历史时间段内是否存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据;所述历史时间段的终止时间为采集到施令人员的语音数据的第一时刻;所述历史时间段的起始时间为所述第一时刻与预设时长的差值所对应的第二时刻;
若历史时间段内存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据,根据所述历史语音数据,确定所述施令人员的意图;
判断所述意图是否与所述免唤醒控制指令相匹配;
若所述意图与所述免唤醒控制指令相匹配,将所述历史语音数据与所述免唤醒控制指令相关联。
进一步地,上述所述的语音设备的控制方法中,所述将所述历史语音数据与所述免唤醒控制指令相关联,包括:
输出关联提示信息,以便接收所述施令人员针对所述关联提示信息的反馈信息;
若所述反馈信息表示禁止关联,禁止执行所述历史语音数据与所述免唤醒控制指令的关联动作;
若反馈信息表示允许关联,执行所述历史语音数据与所述免唤醒控制指令的关联动作。
本发明还提供一种语音设备的控制装置,包括:
监听模块,用于监听免唤醒控制指令;所述免唤醒控制指令用于控制语音设备,且所述免唤醒携带发出所述免唤醒控制指令的施令人员的声纹;
检测模块,用于根据预设的免唤醒控制指令与声纹的关联关系,检测所述免唤醒控制指令相关联的声纹与所述施令人员的声纹是否相匹配;
控制模块,用于若所述免唤醒控制指令相关联的声纹与所述施令人员的声纹相匹配,控制所述语音设备响应所述免唤醒控制指令。
进一步地,上述所述的语音设备的控制装置中,所述监听模块,具体用于:
若采集到施令人员的语音数据,将所述语音数据转换成文本信息;
提取所述文本信息中的关键信息;
检测预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;
若所述已存储免唤醒控制指令与所述关键信息相匹配,确定监听到所述免唤醒控制指令。
进一步地,上述所述的语音设备的控制装置中,所述控制模块,还用于:
检测历史时间段内是否存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据;所述历史时间段的终止时间为采集到施令人员的语音数据的第一时刻;所述历史时间段的起始时间为所述第一时刻与预设时长的差值所对应的第二时刻;
若历史时间段内存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据,根据所述历史语音数据,确定所述施令人员的意图;
判断所述意图是否与所述免唤醒控制指令相匹配;
若所述意图与所述免唤醒控制指令相匹配,将所述历史语音数据与所述免唤醒控制指令相关联。
进一步地,上述所述的语音设备的控制装置中,所述控制模块,还用于:
输出关联提示信息,以便接收所述施令人员针对所述关联提示信息的反馈信息;
若所述反馈信息表示禁止关联,禁止执行所述历史语音数据与所述免唤醒控制指令的关联动作;
若反馈信息表示允许关联,执行所述历史语音数据与所述免唤醒控制指令的关联动作。
本发明还提供一种语音设备的控制设备,包括存储器、控制器及存储在存储器上并可在控制器上运行的计算机程序,其特征在于,所述控制器执行所述程序时实现如上任意一项所述的方法。
本发明还提供一种语音设备,设置有上述所述的语音设备的控制设备。
从上面所述可以看出,本发明提供的语音设备及其控制方法、装置和设备,通过监听用于控制语音设备的免唤醒控制指令;根据预设的免唤醒控制指令与声纹的关联关系,检测监听到的免唤醒控制指令相关联的声纹与语音设备的免唤醒控制指令携带的施令人员的声纹是否相匹配,实现了在设置较多数量的免唤醒控制指令的情况下,对监听到的免唤醒控制指令所对应的身份进行验证,以便并在监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配时,控制语音设备响应监听到的免唤醒控制指令,从而降低了由外界因素引起的误触发率,进而提高了语音设备的“免唤醒语音交互”性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音设备的控制方法实施例一的流程图;
图2为本发明的语音设备的控制方法实施例二的流程图;
图3为本发明的语音设备的控制装置实施例的结构示意图;
图4为本发明的语音设备的控制设备实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
现有技术中,由于免唤醒控制指令数量的增加,可能会因为外界因素(比如噪音、音乐、电视人声等)的误触发给用户带来打扰,因此,为了解决上述技术问题,本发明可以在录入免唤醒控制指令时,将录入的免唤醒控制指令与相应用户的声纹进行绑定,从而得到预设的免唤醒控制指令与声纹的关联关系,这样,利用用户的声纹对语音设备接收到的免唤醒控制指令的身份信息进行验证,以降低由外界因素引起的误触发率。具体地,可以参照如下实施例:
图1为本发明的语音设备的控制方法实施例一的流程图,如图1所示,本实施例的语音设备的控制方法,具体可以包括如下步骤:
100、监听免唤醒控制指令;
具体地,可以利用语音设备的麦克风阵列采集施令人员发出的语音数据,并在采集到施令人员的语音数据后,提取施令人员的声纹,并将施令人员的语语音数据转换成文本信息;提取该文本信息中的关键信息;如,关键字、关键词等。在提取到关键信息后,可以检测关键信息是否与预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;若关键信息与已存储免唤醒控制指令相匹配,确定监听到语音设备的免唤醒控制指令,且该免唤醒控制指令携带发出免唤醒控制指令的施令人员的声纹。若关键信息与已存储免唤醒控制指令不匹配,确定未监听到语音设备的免唤醒控制指令。
101、根据预设的免唤醒控制指令与声纹的关联关系,检测语音设备的免唤醒控制指令相关联的声纹与施令人员的声纹是否相匹配;
本实施例中,在监听到免唤醒控制指令后,可以根据预设的免唤醒控制指令与声纹的关联关系,将监听到的免唤醒控制指令相关联的声纹与施令人员的声纹进行比对,以便检测监听到的免唤醒控制指令相关联的声纹与施令人员的声纹是否相匹配。
102、若监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配,控制语音设备响应监听到的免唤醒控制指令。
本实施例中,若检测到监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配,则说明监听到的免唤醒控制指令是特定用户触发的,而不是由外界因素(比如噪音、音乐、电视人声等)的误触发,此时,可以控制语音设备响应监听到的免唤醒控制指令,并执行监听到的免唤醒控制指令相对应的动作。这样,就可以在保持较低的误唤醒率的情况下,增加很多免唤醒指令,比如“播放音乐”“打开灯光”“空调制冷”“空调25度”“天气预报”等,不需要先唤醒设备再下达指令,做到了真正的“免唤醒语音交互”,极大的方便了用户的日常使用。
本发明的语音设备的控制方法,通过监听用于控制语音设备的免唤醒控制指令;根据预设的免唤醒控制指令与声纹的关联关系,检测监听到的免唤醒控制指令相关联的声纹与语音设备的免唤醒控制指令携带的施令人员的声纹是否相匹配,实现了在设置较多数量的免唤醒控制指令的情况下,对监听到的免唤醒控制指令所对应的身份进行验证,以便并在监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配时,控制语音设备响应监听到的免唤醒控制指令,从而降低了由外界因素引起的误触发率,进而提高了语音设备的“免唤醒语音交互”性能。
在实际应用中,为了能够快速响应免唤醒控制指令,在监听免唤醒控制指令时,通常个只是对施令人员的语音数据对应的关键信息与存储免唤醒控制指令进行文字比对即可,例如,免唤醒控制指令为“暂停播放”,此时需要识别到施令人员的语音数据存在“暂停”、“停止播放”等关键信息,才会认为监听到免唤醒控制指令。而同一施令人员在需要出发免唤醒控制指令时,可能会因为各种原因,采用不同的表达方式,这样,则会采集到其他的关键信息,导致不会认为监听到免唤醒控制指令。例如,施令人员不想播放音乐时,可能会发出“听着音乐怎么这么烦呢”,此时并无法提取到“暂停”、“停止播放”等关键信息,因此,语音设备是不会动作的。施令人员需要再次发出“暂停播放”的语音数据,给用户带来不好的体验。施令人员若想利用不同的语音数据作为同一免唤醒控制指令通常需要用户自己设置,该过程比较繁琐,给用户带来麻烦,因此,为了解决上述技术问题,本发明还提供了以下实施。
具体地,图2为本发明的语音设备的控制方法实施例二的流程图,如图2所示,本实施例的语音设备的控制方法,具体可以包括如下步骤:
200、监听免唤醒控制指令;
具体地,可以利用语音设备的麦克风阵列采集施令人员发出的语音数据,并在采集到施令人员的语音数据后,提取施令人员的声纹,并将施令人员的语语音数据转换成文本信息;提取该文本信息中的关键信息;如,关键字、关键词等。在提取到关键信息后,可以检测关键信息是否与预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;若关键信息与已存储免唤醒控制指令相匹配,确定监听到语音设备的免唤醒控制指令,且该免唤醒控制指令携带发出免唤醒控制指令的施令人员的声纹。若关键信息与已存储免唤醒控制指令不匹配,确定未监听到语音设备的免唤醒控制指令,但是,可以将采集的施令人员的语音数据进行临时存储,以便后续确定是否将采集的施令人员的语音数据作为控制语音设备的免唤醒控制指令。
201、根据预设的免唤醒控制指令与声纹的关联关系,检测语音设备的免唤醒控制指令相关联的声纹与施令人员的声纹是否相匹配;若是,执行步骤202,若否,结束;
202、控制语音设备响应监听到的免唤醒控制指令;
若监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配,可以控制语音设备响应监听到的免唤醒控制指令。
203、检测历史时间段内是否存在施令人员对语音设备免唤醒控制失败的历史语音数据;若是,执行步骤204,若否,结束;
本实施例中,当控制语音设备响应监听到的免唤醒控制指令后,可以获取历史时间段内语音设备采集到的多个语音数据,并根据每个语音数据对应的声纹和施令人员的声纹,检测历史时间段内是否存在施令人员对语音设备免唤醒控制失败的历史语音数据,例如,历史时间段内存在采集到的施令人员的历史语音数据,但是该历史语音数据并未直接控制语音设备运行,说明历史时间段内存在施令人员对语音设备免唤醒控制失败的历史语音数据。如,施令人员发出“听着音乐怎么这么烦呢”,此时,语音设备并未执行暂停播放的动作,也就是说施令人员对语音设备控制失败,执行步骤204,否则,结束。
本实施例中,历史时间段的终止时间优选为采集到施令人员的语音数据的第一时刻;历史时间段的起始时间优选为第一时刻与预设时长的差值所对应的第二时刻,其中,由于施令人员控制语音设备执行免唤醒控制指令对应的动作时,施令人员如果控制失败,会马上进行下一次控制,因此,本实施例中预设时长不适宜较大,优选为3s。
204、根据历史语音数据,确定施令人员的意图;
若历史时间段内存在施令人员对语音设备免唤醒控制失败的历史语音数据,可以将历史语音数据导入预设的意图训练模型中进行识别,以便得到施令人员的意图,例如,施令人员发出“听着音乐怎么这么烦呢”,可以确定施令人员的意图为“暂停播放”。
205、判断施令人员的意图是否与免唤醒控制指令相匹配;若是,执行步骤206,若否,结束;
具体地,施令人员通过“暂停播放”的免唤醒控制指令,对语音设备进行了控制,这样,在根据施令人员的历史语音数据得到施令人员的意图后,可以判断施令人员的意图是否与对语音设备进行控制的免唤醒控制指令相匹配,若判断出施令人员的意图与免唤醒控制指令相匹配,执行步骤206,若判断出施令人员的意图与免唤醒控制指令不匹配,则结束。例如,若施令人员发出“听着音乐怎么这么烦呢”,可以确定施令人员的意图为“暂停播放”,与监听到的施令人员的免唤醒控制指令相匹配,执行步骤206,否则,若施令人员发出“播放其他音乐”,确定的施令人员的意图是“切换音乐”,与监听到的施令人员的免唤醒控制指令不匹配,则结束。
206、将历史语音数据与免唤醒控制指令相关联。
若判断出施令人员的意图与免唤醒控制指令相匹配,说明施令人员在发出正确的免唤醒控制指令之前,可能存在使用其他语音数据来表达正确的免唤醒控制指令,但是因为其他语音数据并未进行存储,导致控制失败,因此,本实施例中,可以将历史语音数据与免唤醒控制指令相关联,以便在后续使用语音设备的过程中,若监听到与历史语音数据相同的语音数据时,也可以监听到免唤醒控制指令。即若监听到施令人员发出“听着音乐怎么这么烦呢”,此时,可以确定监听到“暂停播放”。这样,施令人员无需针对同一免唤醒控制指令设置各种语音数据,而是在施令人员利用正确的免唤醒控制指令对语音设备控制后,由语音控制设备再判断临时存储的施令人员的历史语音数据也是想达到免唤醒控制指令的意图,自动将施令人员的历史语音数据与免唤醒控制指令关联即可。另外,由于在施令人员利用正确的免唤醒控制指令对语音设备控制后,将将施令人员的历史语音数据与免唤醒控制指令关联,而不是在施令人员利用正确的免唤醒控制指令对语音设备控制之前,进行意图判断,防止了施令人员再次发出免唤醒控制指令时,语音设备因为进行意图判断,而无法对免唤醒控制指令及时响应,影响用户的体验。
在一个具体实现过程中,可能出现意图判断错误的情况,此时,若将历史语音数据与免唤醒控制指令相关联,会导致后期语音设备被误唤醒的概率增大,因此,本实施例中,在执行步骤206“将历史语音数据与免唤醒控制指令相关联”时,可以输出关联提示信息,该提示信息包括施令人员的意图,以便施令人员根据该关联提示信息确定是否可以关联,并将反馈信息发送给语音设备,这样,在接收到施令人员针对关联提示信息的反馈信息后,若得到的反馈信息表示禁止关联,说明得到的意图信息可能为错误的,此时,可以禁止执行历史语音数据与免唤醒控制指令的关联动作;若得到的反馈信息表示允许关联,说明得到的意图信息为准确的,此时,可以执行历史语音数据与免唤醒控制指令的关联动作。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
图3为本发明的语音设备的控制装置实施例的结构示意图,如图2所示,本实施例的通行装置包括监听模块30、检测模块31和控制模块32。
监听模块30,用于监听免唤醒控制指令;免唤醒控制指令用于控制语音设备,且免唤醒携带发出免唤醒控制指令的施令人员的声纹;
具体地,监听模块30可以若采集到施令人员的语音数据,将语音数据转换成文本信息;提取文本信息中的关键信息;检测预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与关键信息是否相匹配;若已存储免唤醒控制指令与关键信息相匹配,确定监听到免唤醒控制指令。
检测模块31,用于根据预设的免唤醒控制指令与声纹的关联关系,检测免唤醒控制指令相关联的声纹与施令人员的声纹是否相匹配;
控制模块32,用于若免唤醒控制指令相关联的声纹与施令人员的声纹相匹配,控制语音设备响应免唤醒控制指令。
本发明的语音设备的控制装置,通过监听用于控制语音设备的免唤醒控制指令;根据预设的免唤醒控制指令与声纹的关联关系,检测监听到的免唤醒控制指令相关联的声纹与语音设备的免唤醒控制指令携带的施令人员的声纹是否相匹配,实现了在设置较多数量的免唤醒控制指令的情况下,对监听到的免唤醒控制指令所对应的身份进行验证,以便并在监听到的免唤醒控制指令相关联的声纹与施令人员的声纹相匹配时,控制语音设备响应监听到的免唤醒控制指令,从而降低了由外界因素引起的误触发率,进而提高了语音设备的“免唤醒语音交互”性能。
在一个具体实现过程中,控制模块32,还用于:
检测历史时间段内是否存在施令人员对语音设备免唤醒控制失败的历史语音数据;历史时间段的终止时间为采集到施令人员的语音数据的第一时刻;历史时间段的起始时间为第一时刻与预设时长的差值所对应的第二时刻;
若历史时间段内存在施令人员对语音设备免唤醒控制失败的历史语音数据,根据历史语音数据,确定施令人员的意图;
判断意图是否与免唤醒控制指令相匹配;
若意图与免唤醒控制指令相匹配,将历史语音数据与免唤醒控制指令相关联。
进一步地,上述实施例中,控制模块32,还用于:
输出关联提示信息,以便接收施令人员针对关联提示信息的反馈信息;
若反馈信息表示禁止关联,禁止执行历史语音数据与免唤醒控制指令的关联动作;
若反馈信息表示允许关联,执行历史语音数据与免唤醒控制指令的关联动作。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4为本发明的语音设备的控制设备实施例的结构示意图,如图3所示,本实施例的语音设备的控制设备可以包括:处理器1010和存储器1020。本领域技术人员可知的,语音设备的控制设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明还提供一种语音设备,该语音设备设置有上述实施例的语音设备的控制设备。
本发明还提供一种存储介质,所述存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例的语音设备的控制方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音设备的控制方法,其特征在于,包括:
监听免唤醒控制指令;所述免唤醒控制指令用于控制语音设备,且所述免唤醒携带发出所述免唤醒控制指令的施令人员的声纹;
根据预设的免唤醒控制指令与声纹的关联关系,检测所述免唤醒控制指令相关联的声纹与所述施令人员的声纹是否相匹配;
若所述免唤醒控制指令相关联的声纹与所述施令人员的声纹相匹配,控制所述语音设备响应所述免唤醒控制指令。
2.根据权利要求1所述的语音设备的控制方法,其特征在于,所述监听免唤醒控制指令,包括:
若采集到施令人员的语音数据,将所述语音数据转换成文本信息;
提取所述文本信息中的关键信息;
检测预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;
若所述已存储免唤醒控制指令与所述关键信息相匹配,确定监听到所述免唤醒控制指令。
3.根据权利要求1所述的语音设备的控制方法,其特征在于,控制所述语音设备响应所述免唤醒控制指令之后,还包括:
检测历史时间段内是否存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据;所述历史时间段的终止时间为采集到施令人员的语音数据的第一时刻;所述历史时间段的起始时间为所述第一时刻与预设时长的差值所对应的第二时刻;
若历史时间段内存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据,根据所述历史语音数据,确定所述施令人员的意图;
判断所述意图是否与所述免唤醒控制指令相匹配;
若所述意图与所述免唤醒控制指令相匹配,将所述历史语音数据与所述免唤醒控制指令相关联。
4.根据权利要求3所述的语音设备的控制方法,其特征在于,所述将所述历史语音数据与所述免唤醒控制指令相关联,包括:
输出关联提示信息,以便接收所述施令人员针对所述关联提示信息的反馈信息;
若所述反馈信息表示禁止关联,禁止执行所述历史语音数据与所述免唤醒控制指令的关联动作;
若反馈信息表示允许关联,执行所述历史语音数据与所述免唤醒控制指令的关联动作。
5.一种语音设备的控制装置,其特征在于,包括:
监听模块,用于监听免唤醒控制指令;所述免唤醒控制指令用于控制语音设备,且所述免唤醒携带发出所述免唤醒控制指令的施令人员的声纹;
检测模块,用于根据预设的免唤醒控制指令与声纹的关联关系,检测所述免唤醒控制指令相关联的声纹与所述施令人员的声纹是否相匹配;
控制模块,用于若所述免唤醒控制指令相关联的声纹与所述施令人员的声纹相匹配,控制所述语音设备响应所述免唤醒控制指令。
6.根据权利要求5所述的语音设备的控制装置,其特征在于,所述监听模块,具体用于:
若采集到施令人员的语音数据,将所述语音数据转换成文本信息;
提取所述文本信息中的关键信息;
检测预设的免唤醒控制指令与声纹的关联关系中的已存储免唤醒控制指令与所述关键信息是否相匹配;
若所述已存储免唤醒控制指令与所述关键信息相匹配,确定监听到所述免唤醒控制指令。
7.根据权利要求5所述的语音设备的控制装置,其特征在于,所述控制模块,还用于:
检测历史时间段内是否存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据;所述历史时间段的终止时间为采集到施令人员的语音数据的第一时刻;所述历史时间段的起始时间为所述第一时刻与预设时长的差值所对应的第二时刻;
若历史时间段内存在所述施令人员对所述语音设备免唤醒控制失败的历史语音数据,根据所述历史语音数据,确定所述施令人员的意图;
判断所述意图是否与所述免唤醒控制指令相匹配;
若所述意图与所述免唤醒控制指令相匹配,将所述历史语音数据与所述免唤醒控制指令相关联。
8.根据权利要求5所述的语音设备的控制装置,其特征在于,所述控制模块,还用于:
输出关联提示信息,以便接收所述施令人员针对所述关联提示信息的反馈信息;
若所述反馈信息表示禁止关联,禁止执行所述历史语音数据与所述免唤醒控制指令的关联动作;
若反馈信息表示允许关联,执行所述历史语音数据与所述免唤醒控制指令的关联动作。
9.一种语音设备的控制设备,包括存储器、控制器及存储在存储器上并可在控制器上运行的计算机程序,其特征在于,所述控制器执行所述程序时实现如权利要求1至4任意一项所述的方法。
10.一种语音设备,其特征在于,设置有权利要求9所述的语音设备的控制设备。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010648687.5A CN111816192A (zh) | 2020-07-07 | 2020-07-07 | 语音设备及其控制方法、装置和设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010648687.5A CN111816192A (zh) | 2020-07-07 | 2020-07-07 | 语音设备及其控制方法、装置和设备 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111816192A true CN111816192A (zh) | 2020-10-23 |
Family
ID=72841890
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010648687.5A Pending CN111816192A (zh) | 2020-07-07 | 2020-07-07 | 语音设备及其控制方法、装置和设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111816192A (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112201246A (zh) * | 2020-11-19 | 2021-01-08 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能控制方法、装置、电子设备及存储介质 |
| CN114121042A (zh) * | 2021-11-30 | 2022-03-01 | 北京声智科技有限公司 | 免唤醒场景下的语音检测方法、装置及电子设备 |
| CN115249473A (zh) * | 2021-04-25 | 2022-10-28 | 广东粤港澳大湾区硬科技创新研究院 | 使用自然的、智能语音进行ai交互的方法及装置 |
| WO2023273321A1 (zh) * | 2021-06-29 | 2023-01-05 | 荣耀终端有限公司 | 一种语音控制方法及电子设备 |
| CN115862613A (zh) * | 2022-09-28 | 2023-03-28 | 平安科技(深圳)有限公司 | 一种语音交互的方法、系统、装置及存储介质 |
| CN116074150A (zh) * | 2023-03-02 | 2023-05-05 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
| CN116416987A (zh) * | 2023-03-31 | 2023-07-11 | 海信视像科技股份有限公司 | 服务器、终端设备、语音唤醒方法及介质 |
| WO2024051611A1 (zh) * | 2022-09-05 | 2024-03-14 | 华为技术有限公司 | 人机交互方法及相关装置 |
| CN116416987B (zh) * | 2023-03-31 | 2026-02-06 | 海信视像科技股份有限公司 | 服务器、终端设备、语音唤醒方法及介质 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107665710A (zh) * | 2016-07-27 | 2018-02-06 | 上海博泰悦臻网络技术服务有限公司 | 移动终端语音数据处理方法及装置 |
| US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
| US20180301151A1 (en) * | 2017-04-12 | 2018-10-18 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
| CN109410952A (zh) * | 2018-10-26 | 2019-03-01 | 北京蓦然认知科技有限公司 | 一种语音唤醒方法、装置及系统 |
| CN110246498A (zh) * | 2019-07-15 | 2019-09-17 | 广东美的制冷设备有限公司 | 语音处理方法、装置和家电设备 |
| CN111354360A (zh) * | 2020-03-17 | 2020-06-30 | 北京百度网讯科技有限公司 | 语音交互处理方法、装置和电子设备 |
| CN113393834A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
-
2020
- 2020-07-07 CN CN202010648687.5A patent/CN111816192A/zh active Pending
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107665710A (zh) * | 2016-07-27 | 2018-02-06 | 上海博泰悦臻网络技术服务有限公司 | 移动终端语音数据处理方法及装置 |
| US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
| US20180301151A1 (en) * | 2017-04-12 | 2018-10-18 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
| CN108847226A (zh) * | 2017-04-12 | 2018-11-20 | 声音猎手公司 | 管理人机对话中的代理参与 |
| CN109410952A (zh) * | 2018-10-26 | 2019-03-01 | 北京蓦然认知科技有限公司 | 一种语音唤醒方法、装置及系统 |
| CN110246498A (zh) * | 2019-07-15 | 2019-09-17 | 广东美的制冷设备有限公司 | 语音处理方法、装置和家电设备 |
| CN113393834A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
| CN111354360A (zh) * | 2020-03-17 | 2020-06-30 | 北京百度网讯科技有限公司 | 语音交互处理方法、装置和电子设备 |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112201246B (zh) * | 2020-11-19 | 2023-11-28 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能控制方法、装置、电子设备及存储介质 |
| CN112201246A (zh) * | 2020-11-19 | 2021-01-08 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能控制方法、装置、电子设备及存储介质 |
| CN115249473A (zh) * | 2021-04-25 | 2022-10-28 | 广东粤港澳大湾区硬科技创新研究院 | 使用自然的、智能语音进行ai交互的方法及装置 |
| WO2023273321A1 (zh) * | 2021-06-29 | 2023-01-05 | 荣耀终端有限公司 | 一种语音控制方法及电子设备 |
| CN114121042A (zh) * | 2021-11-30 | 2022-03-01 | 北京声智科技有限公司 | 免唤醒场景下的语音检测方法、装置及电子设备 |
| CN114121042B (zh) * | 2021-11-30 | 2025-10-28 | 北京声智科技有限公司 | 免唤醒场景下的语音检测方法、装置及电子设备 |
| WO2024051611A1 (zh) * | 2022-09-05 | 2024-03-14 | 华为技术有限公司 | 人机交互方法及相关装置 |
| CN115862613A (zh) * | 2022-09-28 | 2023-03-28 | 平安科技(深圳)有限公司 | 一种语音交互的方法、系统、装置及存储介质 |
| CN115862613B (zh) * | 2022-09-28 | 2025-11-25 | 平安科技(深圳)有限公司 | 一种语音交互的方法、系统、装置及存储介质 |
| CN116074150B (zh) * | 2023-03-02 | 2023-06-09 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
| CN116074150A (zh) * | 2023-03-02 | 2023-05-05 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
| CN116416987A (zh) * | 2023-03-31 | 2023-07-11 | 海信视像科技股份有限公司 | 服务器、终端设备、语音唤醒方法及介质 |
| CN116416987B (zh) * | 2023-03-31 | 2026-02-06 | 海信视像科技股份有限公司 | 服务器、终端设备、语音唤醒方法及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111816192A (zh) | 语音设备及其控制方法、装置和设备 | |
| US12230279B1 (en) | User authentication for voice-input devices | |
| US11984119B2 (en) | Electronic device and voice recognition method thereof | |
| CN111816178B (zh) | 语音设备的控制方法、装置和设备 | |
| US9966076B2 (en) | Voice control system and method | |
| US11256793B2 (en) | Method and device for identity authentication | |
| KR102444061B1 (ko) | 음성 인식이 가능한 전자 장치 및 방법 | |
| US20170193212A1 (en) | Screen Interface Unlocking Method And Screen Interface Unlocking Device | |
| EP4302210A1 (en) | Adaptive biometric authentication | |
| US20180285068A1 (en) | Processing method of audio control and electronic device thereof | |
| US20140189338A1 (en) | Electronic device and method for detecting booting time period for electronic device | |
| CN110769319A (zh) | 待机唤醒交互方法和装置 | |
| CN109032345B (zh) | 设备控制方法、装置、设备、服务端和存储介质 | |
| CN110942768A (zh) | 设备唤醒的测试方法、装置、移动终端和存储介质 | |
| US20120053937A1 (en) | Generalizing text content summary from speech content | |
| KR102501083B1 (ko) | 음성 인식 방법 및 이를 사용하는 전자 장치 | |
| CN109101517B (zh) | 信息处理方法、信息处理设备以及介质 | |
| CN111341315A (zh) | 语音控制方法、装置、计算机设备和存储介质 | |
| CN112017663A (zh) | 一种语音泛化方法、装置及计算机存储介质 | |
| US9756141B2 (en) | Media content consumption analytics | |
| CN111862965A (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
| US9450554B2 (en) | Electronic device and method for adjusting volume | |
| US20190362709A1 (en) | Offline Voice Enrollment | |
| US10950221B2 (en) | Keyword confirmation method and apparatus | |
| CN111612482A (zh) | 对话管理方法、装置和设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201023 |