CN115461812A - 认证所接收的语音 - Google Patents
认证所接收的语音 Download PDFInfo
- Publication number
- CN115461812A CN115461812A CN202180030771.3A CN202180030771A CN115461812A CN 115461812 A CN115461812 A CN 115461812A CN 202180030771 A CN202180030771 A CN 202180030771A CN 115461812 A CN115461812 A CN 115461812A
- Authority
- CN
- China
- Prior art keywords
- correlation
- transducer
- signal
- microphone
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
语音信号由包括第一换能器和第二换能器的装置接收,并且第一换能器包括传声器。一种方法包括对包含在由传声器接收的信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音。确定由传声器接收的信号的所述第一部分与由第二换能器接收的信号的对应部分之间的第一相关性。确定由传声器接收的信号的所述第二部分与由第二换能器接收的信号的对应部分之间的第二相关性。然后确定第一相关性和第二相关性是否满足预定条件。如果确定包含在所接收的信号的第一部分中的语音是注册用户的语音,并且第一相关性和第二相关性满足预定条件,则认证所接收的语音信号。
Description
技术领域
本文描述的实施方案涉及用于认证所接收的语音信号的方法和装置。
背景技术
语音识别系统是已知的,其允许用户使用口头命令来控制装置或系统。通常将说话者识别系统与语音识别系统结合使用。说话者识别系统可以用于验证正在说话的人的身份,并且这可以用于控制语音识别系统的操作。
作为对此的说明,口头命令可能与说话者的个人品味有关。例如,口头命令可以是“播放我最喜欢的音乐”,在这种情况下,在有可能确定应该播放哪首音乐之前,有必要知道说话者的身份。
作为另一个说明,口头命令可能与金融交易有关。例如,口头命令可以是涉及向特定接收者转账的指令。在这种情况下,在对口头命令采取行动之前,有必要高度确信所述命令是由假定的说话者说出的。
说话者识别系统通常使用语音生物识别,其中将所接收的语音与某人在系统中注册时生成的模型进行比较。
许多语音激活装置要求用户说出预定触发短语,以便将系统从低功耗模式唤醒,从而可以执行语音识别。有可能对对应于预定触发短语的语音信号执行说话者识别,并且这个说话者识别过程相对可靠,因为用户在注册过程中通常需要说出预定触发短语。这被称为文本依赖说话者识别过程。因此,当用户说出预定触发短语以唤醒系统时,可以预期所述语音将非常类似于注册期间的语音。
然而,对预定触发短语之后的命令执行说话者识别更加困难,因为用户通常会说出在注册过程期间未曾说出的短语。这被称为文本独立说话者识别过程。
发明内容
根据本发明的第一方面,提供了一种认证由包括第一换能器和第二换能器的装置接收的语音信号的方法,其中所述第一换能器包括传声器。所述方法包括:对包含在由所述传声器接收的信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音;确定由所述传声器接收的所述信号的所述第一部分与由所述第二换能器接收的所述信号的对应部分之间的第一相关性;确定由所述传声器接收的所述信号的所述第二部分与由所述第二换能器接收的所述信号的所述对应部分之间的第二相关性;以及确定所述第一相关性和所述第二相关性是否满足预定条件;并且如果确定包含在所接收的信号的所述第一部分中的所述语音是注册用户的语音,并且所述第一相关性和所述第二相关性满足所述预定条件,则认证所接收的语音信号。
根据本发明的第二方面,提供了一种用于认证由包括第一换能器和第二换能器的装置接收的语音信号的系统,其中所述第一换能器包括传声器。所述系统包括:至少一个输入端,所述至少一个输入端用于接收由所述传声器并且由所述第二换能器生成的信号;以及处理器,所述处理器被配置用于执行方法,所述方法包括:对包含在由所述传声器生成的所述信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音;确定由所述传声器生成的所述信号的所述第一部分与由所述第二换能器生成的所述信号的对应部分之间的第一相关性;确定由所述传声器生成的所述信号的所述第二部分与由所述第二换能器生成的所述信号的所述对应部分之间的第二相关性;以及确定所述第一相关性和所述第二相关性是否满足预定条件;并且如果确定包含在所接收的信号的所述第一部分中的所述语音是注册用户的语音,并且所述第一相关性和所述第二相关性满足所述预定条件,则认证所接收的语音信号。
根据本发明的第三方面,提供了一种计算机程序产品,所述计算机程序产品包括机器可读代码,所述代码包括用于致使音频处理电路执行根据第一方面的方法的指令。
附图说明
为了更好地理解本发明,并示出如何实施本发明,现在将参考附图,在附图中:
图1示出了由用户佩戴的装置的示例;
图2是示出主机装置的形式的示意图;
图3更详细地示出了图1的装置的一部分;
图4示出了对语音激活装置的攻击的示例;
图5示出了对语音激活装置的攻击的另一个示例;
图6是示出根据本公开的方法的流程图;
图7是示出用于执行图6的方法的系统的框图;
图8是示出图7的系统的操作的时序图;
图9示出了图7的系统的一部分的操作;
图10示出了图7的系统的一部分的操作;
图11示出了图7的系统的一部分的操作;
图12示出了在一个示例中在图7的系统中生成的信号;
图13示出了图7的系统的一部分的操作;
图14示出了图7的系统的一部分的操作;并且
图15示出了图7的系统的一部分的操作。
具体实施方式
以下描述阐述了根据本公开的示例性实施方案。另外的示例性实施方案和实现方式对于本领域普通技术人员而言将是明显的。此外,本领域普通技术人员将认识到,可以代替或结合以下论述的实施方案应用各种等效技术,并且所有此类等效物应视为被包括在本公开中。
本文描述的方法可以在广泛多种装置和系统中实现。然而,为了便于解释一个实施方案,将描述说明性示例,其中实现方式发生在与可佩戴配件一起使用的主机装置中。然而,在其他实施方案中,所述实现方式可以发生在诸如耳机的可佩戴装置中。
图1示出了由用户佩戴的装置的示例。
具体地,图1示出了佩戴耳机的人。更具体地,图1示出了人10,其在每只耳朵16、18中佩戴一个无线耳塞12、14。尽管这示出了佩戴两个耳塞的人,但是在只佩戴一个耳塞的情况下,所述方法也适用。
此外,尽管图1示出了佩戴无线耳塞的人,但是所述方法可应用于任何有线或无线耳塞或耳机,例如入耳式耳机、耳挂式耳机或耳甲式耳机。
此外,所述方法适用于任何可佩戴装置,诸如智能眼镜。
图2是示出主机装置20的形式的示意图。
主机装置20可以例如采取智能手机、膝上型计算机或平板计算机、智能扬声器、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器或任何其他合适装置的形式。
具体地,图2示出了主机装置20的各种互连部件。应当理解,主机装置20实际上将包含许多其他部件,但是以下描述足以理解本公开的实施方案。
因此,图2示出了收发器22,其被提供用于允许主机装置20与其他装置通信。具体地,收发器22可以包括用于通过短程无线链路与配件(诸如图1所示的配件10)通信的电路。此外,收发器22可以包括用于通过WiFi局域网或通过蜂窝网络建立互联网连接的电路。
图2还示出了存储器24,其实际上可以作为单个部件或多个部件来提供。提供存储器24用于存储数据和程序指令。
图2还示出了处理器26,其实际上同样可以作为单个部件或多个部件来提供。例如,当主机装置20是智能手机时,处理器26的一个部件可以是应用处理器。
图2还示出了音频处理电路28,用于根据需要对所接收的音频信号执行操作。例如,音频处理电路28可以过滤音频信号或者执行其他信号处理操作。
在这个实施方案中,主机装置20被提供有语音生物识别功能和控制功能。因此,装置20能够响应于来自注册用户的口头命令来执行各种功能。生物识别功能能够区分来自注册用户的口头命令和由不同的人说出的相同命令。因此,本公开的某些实施方案涉及智能手机或具有某种语音可操作性的另一便携式电子主机装置的操作,其中在旨在执行口头命令的主机装置中执行语音生物识别功能。某些其他实施方案涉及在智能手机或其他主机装置上执行语音生物识别功能的系统,如果语音生物识别功能能够确认说话者是注册用户,则所述智能手机或其他主机装置将命令传输到单独的装置。
在一些实施方案中,当在主机装置20或位于用户附近的其他装置上执行语音生物识别功能时,使用收发器22将口头命令传输到远程语音识别系统,所述远程语音识别系统确定口头命令的含义。例如,语音识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口头命令的含义的信号被返回到主机装置20或其他本地装置。
在其他实施方案中,语音生物识别功能的第一部分在主机装置20或位于用户附近的其他装置上执行。然后,如下面更详细描述的,可以使用收发器22将信号传输到远程系统,所述远程系统执行语音生物识别功能的第二部分。
图3更详细地示出了图1的装置的一部分。
具体地,图3示出了一个示例,其中配件装置是正被佩戴的耳机。更具体地,图3示出了位于佩戴者耳道32入口处的耳塞30。
一般来说,耳机包括第一换能器和第二换能器。当人佩戴耳机时,第一换能器位于耳机的面向外的部分上,并且第二换能器位于耳机的面向人的耳道的部分上。
在图3所示的实施方案中,第一换能器包括传声器34,所述传声器被定位成使得其可以检测耳塞30附近的环境声音。
在图3所示的实施方案中,耳塞30还包括第二传声器36,所述第二传声器被定位成使得其可以检测佩戴者耳道32中的声音。耳塞30还包括加速度计38,所述加速度计位于耳塞30上,使得所述加速度计可以检测由声音通过佩戴者头部的传输而引起的佩戴者耳道32表面中的振动。上面提到的第二换能器可以是第二传声器36,或者可以是加速度计38。
如上所述,配件装置可以是任何合适的可佩戴装置,例如智能眼镜,所述可佩戴装置设置有用于检测已经行进通过空气的声音的传声器,并且还设置有诸如加速度计的第二换能器,所述第二换能器安装在当佩戴眼镜时与佩戴者的头部接触的位置,使得加速度计可以检测由声音传输通过佩戴者头部而引起的振动。
具体地,本文描述的实施方案通过比较由第一换能器和第二换能器检测到的信号来获得关于穿过佩戴者头部的声音传导路径的信息。更具体地,本文描述的实施方案通过比较在佩戴者说话时由第一换能器和第二换能器检测到的信号来获得关于穿过佩戴者头部的声音传导路径的信息。
因此,如图3所示,当佩戴者说话并产生声音S时,所述声音在被外部传声器34检测到之前由穿过空气的第一传递函数T空气修改,并且所述声音在被内部换能器36或38检测到之前由穿过佩戴者头部的骨骼和软组织的第二传递函数T骨骼修改。
由外部传声器34并且由一个或多个内部换能器36、38生成的信号的处理可以在设置在耳塞30本身内的电路中执行。然而,在本文描述的实施方案中,由外部传声器34并且由一个或多个内部换能器36、38生成的信号可以通过合适的有线或无线连接传输到主机装置20,在所述主机装置中进行信号处理,如下面更详细描述的。
图4示出了对语音激活装置的攻击的示例。
图4示出了语音激活装置的操作,所述语音激活装置为了降低其功耗而通常处于低功耗睡眠模式,并且要求注册用户说出预定触发短语,以便将系统从低功耗模式唤醒,从而可以执行语音识别。
因此,如在42处所示,用户说出用于激活语音识别功能的预定触发短语,在这种情况下是“嗨手机”。
然而,在用户可以说出命令之前,另一个人说话了,如在44处所示,并且说出了可能被解释为命令的内容,即,在这个说明性示例中是“给我点一份比萨”。
如果说话者识别系统无法识别出说出词语“给我点一份比萨”的人不是注册用户,那么系统可能会按照所述命令行动,这可能违背注册用户的意愿。
这被称为竞争命令。
图5示出了对语音激活装置的攻击的另一个示例。
图5再次示出了语音激活装置的操作,所述语音激活装置要求注册用户说出预定触发短语,以便将系统从低功耗模式唤醒。
因此,如在52处所示,用户说出用于激活语音识别功能的预定触发短语,在这种情况下是“嗨手机”。
此外,用户说出命令,即,在这个说明性示例中是“给我点一份比萨”。如果说话者识别系统能够识别出说出词语“给我点一份比萨”的人是注册用户,那么系统将按照所述命令行动,并满足注册用户的意愿。
然而,如在54处所示,然后另一个人说话了,并且说出了可能被解释为同一命令的一部分的内容,即,在这个说明性示例中是“另加凤尾鱼”。
如果说话者识别系统无法识别出说出词语“另加凤尾鱼”的人不是注册用户,即,不是说“给我点一份比萨”的人,那么系统可能按照整个命令“给我点一份比萨,另加凤尾鱼”行动,这可能违背注册用户的意愿。
这被称为对系统的尾随攻击。
因此,如参考图4和图5所示,如果说话者识别系统能够识别所接收的信号的第一部分已经由注册用户说出,但是所接收的信号的后续部分已经由不同的人说出,则是有利的。
有可能以相对可靠的方式对对应于预定触发短语的语音信号执行说话者识别,因为用户在注册过程中通常已被要求说出预定触发短语。这被称为文本依赖说话者识别过程。因此,当用户说出预定触发短语以唤醒系统时,可以预期所述语音将非常类似于注册期间的语音。
然而,确认注册用户已经说出命令所需的文本独立说话者识别过程更加困难,至少就计算量更大而言是如此,并且通常不太可靠。
因此,本文公开的方法从以下认识开始:当说话者佩戴可佩戴配件时,存在用于确定触发短语之后的语音是否由与触发短语相同的人说出的机制。如果语音生物识别过程可以用于确定触发短语是由注册用户说出的,则这个额外信息可以用于确认触发短语之后的语音是否由注册用户说出。
图6是示出根据本公开的方法的流程图。
具体地,图6示出了认证由包括第一换能器和第二换能器的装置接收的语音信号的方法,其中第一换能器包括传声器。
在步骤62中,对包含在由传声器接收的信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音。例如,第一语音生物识别过程可以是文本依赖语音生物识别过程。
在步骤63中,确定由传声器接收的信号的第一部分与由第二换能器接收的信号的对应部分之间的第一相关性。
在步骤64中,确定由传声器接收的信号的第二部分与由第二换能器接收的信号的对应部分之间的第二相关性。
在步骤65中,确定第一相关性和第二相关性是否满足预定条件。
在步骤66中,如果确定包含在所接收的信号的第一部分中的语音是注册用户的语音,并且第一相关性和第二相关性满足预定条件,则认证所接收的语音信号。
如上所述,在一个示例中,第一语音生物识别过程可以是文本依赖语音生物识别过程。然而,在另一个示例中,第一生物识别过程可以是文本独立语音生物识别过程。良好的文本独立生物识别过程通常具有高功耗,因此由所述方法实现的一种可能性是针对所接收的信号的第一部分运行第一生物识别过程,所述第一生物识别过程持续相对短的时间段(例如,大约1秒),然后禁用第一生物识别过程,从而依赖于上述相关性来确认同一个人正在说话并认证整个所接收的语音信号。
图7是示出用于执行图6的方法的系统的框图。
如参考图3所描述,从呈传声器70形式的第一换能器接收第一输入信号SAC,所述第一换能器被定位成使得其可以检测可佩戴配件装置附近的环境声音。
从第二换能器72接收第二输入信号SBC,所述第二换能器被定位成使得其可以检测由声音传输通过佩戴者身体而引起的振动。如前所述,当可佩戴配件是耳机时,第二换能器可以采取传声器的形式,所述传声器被定位成使得其可以检测佩戴者耳道32中的声音,或者可以采取加速度计的形式,所述加速度计位于用户耳道或其他地方,使得所述加速度计可以检测由声音传输通过佩戴者头部而引起的佩戴者耳道表面中的振动。当可佩戴配件包括智能眼镜时,第二换能器可以采取加速度计的形式,所述加速度计保持在抵靠用户头部的位置,使得所述加速度计可以检测由声音传输通过佩戴者头部而引起的振动。
从第一换能器70接收的信号SAC和从第二换能器72接收的信号SBC被传送到缓冲器74,在所述缓冲器中,所述信号可以被存储一小段时间,以便根据需要进行进一步处理。
一般来说,人头部的骨骼和软组织能够在合理的程度上传输浊音的声音,但是不能在任何显著的程度上传输清音的声音。因此,当佩戴如本文所述的可佩戴配件的人在说话时,在浊音时段期间,从第一换能器70接收的信号SAC与从第二换能器72接收的信号SBC之间通常存在良好的相关性,而在清音时段期间则没有。
因此,所接收的信号SAC和SBC被传送到声学类别检测块76,所述声学类别检测块检测所接收的语音的声学类别,并且特别是区分浊音和清音。众所周知,浊音的存在可以通过检查基音周期(F0),例如通过考虑倒谱或谐波乘积谱(HPS)来检测。在大多数情况下,可以根据从第一换能器70接收的信号SAC令人满意地确定所接收的语音的声学类别,因此从第二换能器72接收到的信号SBC不必被传送到声学类别检测块76。然而,特别是当信噪比低时,除了从第一换能器70接收的信号SAC之外或作为所述信号的替代,声学类别检测块76能够使用从第二换能器72接收的信号SBC是有用的。
从传声器70接收的信号SAC也被传送到语音触发检测块78,所述语音触发检测块识别所接收的信号中的语音何时表示预定触发短语。
从传声器70接收的表示预定触发短语的信号SAC的部分也被传送到语音生物识别块80,所述语音生物识别块对所接收的信号执行生物识别处理。例如,语音生物识别块80可以从所接收的信号中提取特征,并将所提取的特征与在注册过程期间生成并存储在数据库82中的注册用户的语音模型进行比较。例如,因为语音生物识别块80旨在对预定触发短语执行说话者识别过程,所以它可以采取文本依赖说话者识别过程的形式。然而,在其他实施方案中,语音生物识别块80可以根据需要对预定触发短语或所接收的信号的任何部分执行文本独立说话者识别过程。
当语音触发检测块78确定所接收的信号中的语音表示预定触发短语时,控制信号被发送到缓冲器74,并且所存储的信号SAC和SBC被发送到相关块84。具体地,从语音触发检测块78确定已经说出预定触发短语之前的时间点开始的信号被发送到相关块84。选择足够早的时间点,使得发送到相关块84的信号包括对应于预定触发短语本身的信号。例如,发送到相关块84的信号可以从在语音触发检测块78确定已经说出预定触发短语的时间点之前1秒的时间点开始。
相关块84的操作将在下面更详细地描述。
然后组合语音生物识别块80的输出和相关块84的输出以提供最终的认证输出。语音生物识别块80提供指示预定触发短语是否由注册用户说出的输出。相关块84提供指示在所接收的信号的第一部分期间说话的人是否是在所接收的信号的整个持续时间内继续说话的同一个人的输出。
如果这两个条件都满足,则可以假定注册用户在所接收的信号的整个持续时间内都在说话,并且相关块可以提供合适的输出。
图7示出了语音生物识别块80的输出被提供给相关块84,并且相关块84提供组合输出。在其他实施方案中,语音生物识别块80和相关块84可以提供单独的输出,所述输出然后可以组合。
如上所述,提供给相关块84的信号SAC和SBC预期是相对较好地相关的,前提是佩戴配件的人在说话,并且前提是语音是浊音。
声学类别检测块76的输出因此被用作相关块84的控制输入。相关块84在信号SAC和SBC表示浊音的时段期间检查所述信号之间的相关性。
在这个示例性实施方案中,相关块84通过从SAC形成SBC的预测或估计(这里称为SBC*),然后确定实际信号SBC是否与估计SBC*匹配来检查信号SAC与SBC之间的相关性。
形成这个估计的基础在图3中示出,其中可以看出,信号SAC是由对原始生成的声音S应用第一传递函数T空气而产生的,而信号SBC是由对声音S应用第二传递函数T骨骼而产生的。
因此,SAC=S.T空气,并且SBC=S.T骨骼,
并且因此:
S=SAC/T空气=SBC/T骨骼
因此:
SBC=T.SAC,其中:
T=T骨骼/T空气
由于可以有效地忽略T空气,因此合理地假设:
SBC=T骨骼.SAC。
图8是示出用于从SAC形成估计SBC*的过程的框图。
如图8所示,所接收的信号SAC被传送到第一块90,所述第一块确定在所述特定时间,信号SAC是否表示浊音。这个确定是基于从声学类别检测块76接收的控制信号C做出的。
在信号SAC表示浊音的时段期间,所述信号被传送到滤波器92,所述滤波器将信号SAC乘以传递函数T骨骼的估计值(参考图3描述的),以便得到估计SBC*。
在图8中,滤波器92可以是固定滤波器,或者可以是自适应滤波器。
例如,T骨骼可以由截止频率为800Hz的固定低阶低通滤波器可接受地近似。然而,在这种情况下,信号SAC与SBC之间将存在未知的增益偏移。可以使用自适应滤波器来确定对此进行补偿所需的增益G。
图9示出了系统的这部分的操作。
信号SBC被施加到自适应增益块100,所述自适应增益块将所述信号乘以增益值G。相乘后的信号被施加到减法器102的一个输入端。
SBC的估计SBC*被施加到减法器102的第二输入端。
因此,减法器102的输出是误差信号ε,所述误差信号用于控制由自适应增益块100施加的增益值G,使得ε的值最小化。
得到的最终增益值G可以在系统中任何方便的点应用于信号SBC。
如上所述,图8所示的滤波器92可以替代地是自适应滤波器。
图10示出了在这种情况下用于确定滤波器92的所需形式的机制。
信号SAC被施加到自适应滤波器110,所述自适应滤波器将所述信号乘以滤波函数T骨骼。相乘后的信号被施加到减法器112的一个输入端。
第二信号SBC被施加到减法器112的第二输入端。
因此,减法器112的输出是误差信号ε,所述误差信号用于控制由自适应滤波器110应用的滤波函数T骨骼,使得ε的值最小化。因此,系统执行最小均方(LMS)自适应方法。
滤波函数的适配应当足够缓慢地进行,使得噪声对信号SAC的影响被平均掉,并且因此块110的滤波函数变得等于需要应用于信号SAC的传递函数,以使所述滤波函数等于信号SBC,即上面等式中的传递函数T骨骼。
因此,当系统已经稳定时,得到的滤波函数T骨骼是可以用作图8中的自适应滤波器92的滤波器形式。
图11示出了在一个示例中在图7的系统中生成的信号。
具体地,图11示出了在一个示例中作为时间的函数的信号SAC、作为SBC的估计从SAC导出的信号SBC*,以及信号SBC。
确定信号之间相关性的下一个步骤是提取信号的能量。
图12示出了下一个步骤。
具体地,图12示出了信号SAC被施加到块120,所述块确定信号SBC的估计SBC*,如参考图8所述。
然后将估计SBC*施加到第一能量计算块122,所述第一能量计算块计算估计SBC*的能量EBC*。
同时,信号SBC被施加到第二能量计算块124,所述第二能量计算块计算信号SBC的能量EBC。
能量计算块122、124可以例如通过对信号求平方然后对所述信号进行低通滤波来操作,或者通过应用Teager Kaiser算子来操作,但是存在其他可能性。
两个能量计算块122、124的输出被传送到比较块126,所述比较块对所述输出进行比较,并确定所述输出是否足够相似以满足相似性阈值。例如,比较块126可以确定两个能量计算块122、124的输出之间的皮尔逊(Pearson)相关系数、余弦相似性、欧几里德(Euclidian)距离或任何其他统计距离度量,例如Bhattacharya或Mahalanobis,或任何其他相似性度量。
图13示出了图7的系统的这部分的操作。
具体地,图13(a)在说话的人是佩戴可佩戴配件的人的情况下,并且在固定滤波器被用作图8中的滤波器92的情况下,用线130示出了第一能量计算块122的输出EBC*,并且用线132示出了第二能量计算块124的输出EBC。
图13(a)还示出了输出130与132之间的差的幅度134。
图13(b)在说话的人是佩戴可佩戴配件的人的情况下,并且在自适应滤波器被用作图8中的滤波器92的情况下,用线140示出了第一能量计算块122的输出EBC*,并且用线140示出了第二能量计算块124的输出EBC。
图13(b)还示出了输出140与142之间的差的幅度144。
在图13(a)和图13(b)中,可以看出两个能量计算块的输出非常相似,因此差信号的幅度134、144非常小。
这意味着信号SAC可以用于形成信号SBC的良好估计SBC*,并且因此可以用作说话的人是佩戴可佩戴配件的人的可靠指示符。
图13(c)在说话的人不是佩戴可佩戴配件的人的情况下,用线150示出了第一能量计算块122的输出EBC*,并且用线152示出了第二能量计算块124的输出EBC。
图13(c)还示出了输出150与152之间的差的幅度154。
在图13(c)中,可以看出两个能量计算块的输出非常不同,因此差信号的幅度154相当大。
这意味着信号SAC不能用于形成信号SBC的良好估计SBC*,并且因此这可以用作说话的人不是佩戴可佩戴配件的人的可靠指示符。
事实上,在这种所示情况下,由第二换能器(即,位于佩戴者耳道中的换能器)检测到的信号的能量EBC非常小,这本身就是佩戴可佩戴配件的人没有说话的良好指示。
因此,如参考图6所述,上述相关过程用于确定由传声器接收的信号SAC的第一部分与由第二换能器接收的信号SBC的对应部分之间的第一相关性,其中信号的第一部分可以对应于预定触发短语。所述第一部分与所述对应部分之间的相关度可以由第一相关值表示。相关过程还用于确定由传声器接收的信号SAC的第二部分与由第二换能器接收的信号SBC的对应部分之间的第二相关性,其中信号的第二部分可以对应于触发短语之后的时段。所述第二部分与所述对应部分之间的相关度可以由第二相关值表示。
然后确定第一相关性和第二相关性是否满足预定条件。预定条件可以例如与第一相关值与第二相关值之间的特定关系有关。例如,预定条件可以是第一和第二相关值足够相似,从而可以假设在信号的第一和第二部分期间说话的人是同一个人。
在其他实施方案中,预定条件可以是第一和第二相关值高于相应阈值。在这个确定中使用的两个阈值可以相同,也可以不同。当信号的第一部分表示触发短语,即信号的第一部分的语音内容已知时,相关度可能较高,因为可以设置具有高置信度的有用阈值,而更难以设置用于信号的第二部分的阈值,因为语音内容是未知的并且也具有未知长度,并且相关度可能较低。
可以使用决策成本函数(DCF)方法或内曼-皮尔逊(Neyman-Pearso n)方法来计算阈值。如上所述,阈值可以不同,但是作为示例,两个阈值都可以被设置为使得相关因子应该超过0.8。
在上面公开的实施方案中,第一和第二相关值是通过在相关时间段期间检查相应信号的能量而获得的。在替代实施方案中,通过计算信号SAC的相关部分与信号SBC的对应部分之间的皮尔逊相关系数来获得第一和第二相关值。
图14示出了图7的系统的操作。
具体地,图14是示出图7的系统的操作的时序图。
图14的顶线160示出了正在被说出并由传声器检测到的词语。具体地,如在162处所示,图14示出了由第一个人说出的词语“嗨手机,给我点一份比萨”,所述第一个人是可佩戴配件的佩戴者。此外,在164处,另一个人接着说话,并且说“另加凤尾鱼”。
线166示出了图7中的语音触发检测块78的输出。因此,语音触发检测块78在预定触发短语已经说出后不久的时间t1生成输出。
事实上,所接收的信号的后续处理仅在确定已经说出预定触发短语时才开始,并且从缓冲器74中检索所存储的信号。然而,为了便于参考,下面的步骤将被描述为好像它们是直接对所接收的信号执行的,而不是在短时间延迟之后执行的。
线168示出了图7中的语音生物识别块80的输出。因此,语音生物识别块80也在已经说出预定触发短语后不久生成输出。在这个所示出示例中,假设这是正输出,从而指示说话者是注册用户。
此外,当已经说出预定触发短语,并且从缓冲器中检索到所存储的信号时,相关块84被激活。线170示出了相关块84的输出。如上所述,相关块84产生作为比较两个相关值的结果的输出,一个相关值从预定触发短语获得,并且一个相关值从后续语音获得。
因此,在时间t2,在预定触发短语已经完成并且已经开始说出词语“给我点一份比萨”后不久,相关块84能够产生输出。在这种情况下,所述相关块产生正输出,从而指示说话者与说出预定触发短语的人是同一个人。
然而,在时间t3,在原始说话者已经结束说话并且另一个人已经开始说出词语“另加凤尾鱼”后不久,相关块84识别出现在说话的人不是之前说话的同一个人。
图15示出了在这个过程期间相关块84的操作。
具体地,图15用线180示出了第一能量计算块122的输出EBC*,并且用线182示出了第二能量计算块124的输出EBC。
图15还示出了输出180与182之间的差的幅度184。
因此,可以看出,直到图15中大约3000个样本的时间,第一能量计算块122的输出EBC*是第二能量计算块124的输出EBC的良好估计,并且误差信号184具有非常小的幅度。
然而,对于随后的时间,第二能量计算块124的输出EBC本身具有非常小的幅度,因此第一能量计算块122的输出EBC*不是第二能量计算块124的输出EBC的良好估计,并且误差信号184具有较大幅度。
因此,相关块84能够产生输出,所述输出确认最初的说话者是注册用户,但是词语“另加凤尾鱼”不是由注册用户说出的。
这意味着,实际上可以执行说话者识别,但这是以可靠的方式实现的,而不需要密集处理。
技术人员将认识到,上述设备和方法的一些方面可被体现为例如在非易失性载体介质(诸如盘、CD-或DVD-ROM)、编程存储器(诸如只读存储器(固件))或数据载体(诸如光或电信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上实现。因此,代码可包括常规的程序代码或微代码,或者例如用于设置或控制ASIC或FPGA的代码。代码还可包括用于动态地配置可再配置设备(诸如可再编程逻辑门阵列)的代码。类似地,代码可包括用于硬件描述语言(诸如Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。如技术人员将理解的,代码可以分布在彼此通信的多个耦合部件之间。在适当的情况下,还可以使用在现场可(再)编程模拟阵列或类似装置上运行的代码来实现实施方案,以便配置模拟硬件。
应当注意,如本文所使用的,术语模块应用于指代可以至少部分地由专用硬件部件(诸如自定义电路)实现和/或至少部分地由一个或多个软件处理器或在合适的通用处理器上运行的适当代码等实现的功能单元或块。模块本身可以包括其他模块或功能单元。模块可以由无需位于相同地方的多个部件或子模块来提供,并且可以设置在不同的集成电路上和/或在不同的处理器上运行。
实施方案可以在主机装置中实现,尤其是便携式和/或电池供电的主机装置,诸如移动计算装置(例如膝上型计算机或平板计算机)、游戏控制台、远程控制装置、包括家庭温度或照明控制系统的家庭自动化控制器或家庭用具、玩具、机器(诸如机器人)、音频播放器、视频播放器或移动电话(例如智能手机)。
应当注意,上述实施方案说明而非限制本发明,并且本领域技术人员将能够在不脱离所附权利要求的范围的情况下设计许多替代实施方案。词语“包括”不排除权利要求中列出的元件或步骤之外的元件或步骤的存在,“一个”或“一种”不排除多个/种,并且单个特征或其他单元可以实现权利要求中所述的若干单元的功能。权利要求中的任何附图标记或标号不应解释为限制权利要求的范围。
Claims (20)
1.一种认证由包括第一换能器和第二换能器的装置接收的语音信号的方法,其中所述第一换能器包括传声器,所述方法包括:
对包含在由所述传声器接收的信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音;
确定由所述传声器接收的所述信号的所述第一部分与由所述第二换能器接收的所述信号的对应部分之间的第一相关性;
确定由所述传声器接收的所述信号的所述第二部分与由所述第二换能器接收的所述信号的所述对应部分之间的第二相关性;以及
确定所述第一相关性和所述第二相关性是否满足预定条件;并且
如果确定包含在所接收的信号的所述第一部分中的所述语音是注册用户的所述语音,并且所述第一相关性和所述第二相关性满足所述预定条件,则认证所接收的语音信号。
2.如权利要求1所述的方法,其中所述第二换能器以机械方式联接到佩戴所述装置的人。
3.如权利要求2所述的方法,其中所述第二换能器包括传声器,所述传声器被定位成检测佩戴所述装置的所述人的耳道中的声音。
4.如权利要求2所述的方法,其中所述第二换能器包括加速度计,所述加速度计被定位成检测由佩戴所述装置的所述人的语音引起的振动。
5.如权利要求1至4中的一项所述的方法,其中所述装置包括耳机。
6.如权利要求1至4中的一项所述的方法,其中所述装置包括一副智能眼镜。
7.如权利要求1至6中的一项所述的方法,其中确定所述第一相关性和所述第二相关性的步骤包括:
识别由所述传声器接收的所述信号的相应部分和由所述第二换能器接收的所述信号的所述对应部分在至少一个声学类别中的片段;
将滤波器应用于所述片段中的至少一个片段;以及
在应用所述滤波器之后,确定由所述传声器接收的所述信号的所述相应部分的所述片段与由所述第二换能器接收的所述信号的所述对应部分的所述片段之间的相关度。
8.如权利要求7所述的方法,其中确定由所述传声器接收的所述信号的所述相应部分的所述片段与由所述第二换能器接收的所述信号的所述对应部分的所述片段之间的相关度的步骤包括:
计算所述片段的多个帧中的能量;以及
确定所计算的能量之间的差是否低于阈值水平。
9.如权利要求7所述的方法,其中确定由所述传声器接收的所述信号的所述相应部分的所述片段与由所述第二换能器接收的所述信号的所述对应部分的所述片段之间的相关度的所述步骤包括计算所述片段之间的相关系数。
10.如权利要求7或8所述的方法,其中所述至少一个声学类别包括浊音。
11.如权利要求7、8、9或10所述的方法,其中所述滤波器包括固定滤波器。
12.如权利要求11所述的方法,其中所述滤波器还包括自适应增益。
13.如权利要求7至12中任一项所述的方法,其中所述滤波器是自适应滤波器,并且其中确定所述自适应滤波器的滤波器特性。
14.如权利要求1至13中任一项所述的方法,其中所述第一生物识别过程是文本依赖生物识别过程。
15.如权利要求1至14中任一项所述的方法,其中确定所述第一相关性和所述第二相关性是否满足预定条件包括确定所述第一相关性和所述第二相关性是否具有预定关系。
16.如权利要求15所述的方法,其中确定所述第一相关性和所述第二相关性是否满足预定条件包括确定所述第一相关性和所述第二相关性是否足够相似。
17.如权利要求1至14中任一项所述的方法,其中确定所述第一相关性和所述第二相关性是否满足预定条件包括确定所述第一相关性和所述第二相关性是否都超过相应阈值。
18.如权利要求17所述的方法,其中所述相应阈值是不同的。
19.一种用于认证由包括第一换能器和第二换能器的装置接收的语音信号的系统,其中所述第一换能器包括传声器,所述系统包括:
至少一个输入端,所述至少一个输入端用于接收由所述传声器并且由所述第二换能器生成的信号;以及
处理器,所述处理器被配置用于执行方法,所述方法包括:
对包含在由所述传声器生成的所述信号的第一部分中的语音执行第一语音生物识别过程,以便确定所述语音是否是注册用户的语音;
确定由所述传声器生成的所述信号的所述第一部分与由所述第二换能器生成的所述信号的对应部分之间的第一相关性;
确定由所述传声器生成的所述信号的所述第二部分与由所述第二换能器生成的所述信号的所述对应部分之间的第二相关性;以及
确定所述第一相关性和所述第二相关性是否满足预定条件;并且
如果确定包含在所接收的信号的所述第一部分中的所述语音是注册用户的所述语音,并且所述第一相关性和所述第二相关性满足所述预定条件,则认证所接收的语音信号。
20.一种计算机程序产品,所述计算机程序产品包括非暂时性机器可读代码,所述代码包含用于致使音频处理电路执行根据权利要求1至18中任一项所述的方法的指令。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/880,066 | 2020-05-21 | ||
| US16/880,066 US11341974B2 (en) | 2020-05-21 | 2020-05-21 | Authenticating received speech |
| PCT/GB2021/050908 WO2021234342A1 (en) | 2020-05-21 | 2021-04-16 | Authenticating received speech |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN115461812A true CN115461812A (zh) | 2022-12-09 |
Family
ID=75660068
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202180030771.3A Pending CN115461812A (zh) | 2020-05-21 | 2021-04-16 | 认证所接收的语音 |
Country Status (4)
| Country | Link |
|---|---|
| US (2) | US11341974B2 (zh) |
| CN (1) | CN115461812A (zh) |
| GB (1) | GB2608568B (zh) |
| WO (1) | WO2021234342A1 (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11341974B2 (en) * | 2020-05-21 | 2022-05-24 | Cirrus Logic, Inc. | Authenticating received speech |
| US20240211563A1 (en) * | 2022-01-25 | 2024-06-27 | Meta Platforms Technologies, Llc | User authentication using combination of vocalization and skin vibration |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
| DE102008058883B4 (de) * | 2008-11-26 | 2023-07-27 | Lumenvox Corporation | Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs |
| US20110096915A1 (en) * | 2009-10-23 | 2011-04-28 | Broadcom Corporation | Audio spatialization for conference calls with multiple and moving talkers |
| US20180233129A1 (en) * | 2015-07-26 | 2018-08-16 | Vocalzoom Systems Ltd. | Enhanced automatic speech recognition |
| US9838646B2 (en) * | 2015-09-24 | 2017-12-05 | Cisco Technology, Inc. | Attenuation of loudspeaker in microphone array |
| US10313782B2 (en) * | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
| EP3625718B1 (en) * | 2017-05-19 | 2021-09-08 | Plantronics, Inc. | Headset for acoustic authentication of a user |
| US10580411B2 (en) * | 2017-09-25 | 2020-03-03 | Cirrus Logic, Inc. | Talker change detection |
| GB201803570D0 (en) * | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
| GB201804843D0 (en) * | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
| GB2583420B (en) | 2018-01-23 | 2022-09-14 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
| US10878825B2 (en) * | 2018-03-21 | 2020-12-29 | Cirrus Logic, Inc. | Biometric processes |
| US10692490B2 (en) * | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
| US11037574B2 (en) * | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
| US11900730B2 (en) | 2019-12-18 | 2024-02-13 | Cirrus Logic Inc. | Biometric identification |
| US11341974B2 (en) * | 2020-05-21 | 2022-05-24 | Cirrus Logic, Inc. | Authenticating received speech |
| WO2022225912A1 (en) * | 2021-04-21 | 2022-10-27 | Hourglass Medical Llc | Methods for voice blanking muscle movement controlled systems |
-
2020
- 2020-05-21 US US16/880,066 patent/US11341974B2/en active Active
-
2021
- 2021-04-16 CN CN202180030771.3A patent/CN115461812A/zh active Pending
- 2021-04-16 GB GB2215008.0A patent/GB2608568B/en active Active
- 2021-04-16 WO PCT/GB2021/050908 patent/WO2021234342A1/en not_active Ceased
-
2022
- 2022-04-15 US US17/721,698 patent/US11894000B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| GB2608568A (en) | 2023-01-04 |
| WO2021234342A1 (en) | 2021-11-25 |
| US20220238121A1 (en) | 2022-07-28 |
| GB2608568B (en) | 2025-08-13 |
| US11341974B2 (en) | 2022-05-24 |
| US20210366492A1 (en) | 2021-11-25 |
| GB202215008D0 (en) | 2022-11-23 |
| US11894000B2 (en) | 2024-02-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12135774B2 (en) | Methods, apparatus and systems for biometric processes | |
| US11748462B2 (en) | Biometric authentication | |
| CN111903112B (zh) | 耳朵接近度检测 | |
| US11735189B2 (en) | Speaker identification | |
| US11475899B2 (en) | Speaker identification | |
| US10984083B2 (en) | Authentication of user using ear biometric data | |
| GB2584495A (en) | Methods, apparatus and systems for authentication | |
| US11900730B2 (en) | Biometric identification | |
| GB2609093A (en) | Speaker identification | |
| US11842725B2 (en) | Detection of speech | |
| US11894000B2 (en) | Authenticating received speech | |
| US11710475B2 (en) | Methods and apparatus for obtaining biometric data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20221209 |
|
| WD01 | Invention patent application deemed withdrawn after publication |