CN109218269A

CN109218269A - 身份认证的方法、装置、设备及数据处理方法

Info

Publication number: CN109218269A
Application number: CN201710542605.7A
Authority: CN
Inventors: 冯雪涛; 王炎
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2019-01-15
Also published as: WO2019010054A1; TW201907330A; US20190013026A1

Abstract

本申请公开了一种身份认证的方法、装置、设备及数据处理方法。其中，该方法包括：获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。本申请解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

Description

身份认证的方法、装置、设备及数据处理方法

技术领域

本申请涉及计算机互联网领域，具体而言，涉及一种身份认证的方法、装置、设备及数据处理方法。

背景技术

随着计算机互联网技术的发展，网络安全越来越受到人们的高度重视，传统基于“用户名和密码”的身份认证方式已无法满足当今用户对网络安全的要求。因而，基于生物特征识别技术的身份认证系统被广泛应用于各种各样的互联网应用(例如，手机客户端上金融、购物类产品的支付功能和远程开户，企业人力资源管理类软件中的考勤签到和权限管理，社交和个人数据管理类软件的登录和访问许可等)中，常见的生物特征识别有人脸识别、指纹识别、虹膜识别和声纹识别等。在基于生物特征识别的身份认证系统给人们的生产生活带来效率提升和巨大便利的同时，伴随着生物特征识别技术的应用而出现的身份欺诈问题也引起了越来越多的关注。在这种背景下，以验证使用者真实存在性为目的的活体检测技术就成为了此类产品中必不可少的组成部分，也成为了近年来安全领域关注度最高的话题之一。

活体检测是指用户需要按照系统指示做出相应的动作(例如，眨眼)，通过动作变化来避免攻击者使用用户的照片或人体三维模型等完成验证，以确保用户的真实性。目前，常用的三类基于活体检测的身份认证方式为：

(1)基于面部动作的活体检测方法：在进行活体认证过程中，终端设备(例如，手机)上的应用程序会提示使用者做出某种动作，如点头、摇头、张嘴、眨眼等。同时，终端设备(例如，手机)上的应用程序使用摄像头拍摄下使用者的动作视频，使用专门的算法进行自动识别，判断动作类型是否与提示相符，从而判断使用者是否是真人。这种方式广泛应用于需要进行人脸识别的软件中。

(2)基于声音内容的活体检测方法：在进行活体认证过程中，终端设备(例如，手机)上的应用程序会提示使用者念出某些字符，如文字、字母、数字等。同时，终端设备(例如，手机)上的应用程序使用话筒等语音输入设备记录下使用者的语音，使用专门的算法进行自动识别，判断语音内容是否与提示相符，从而判断使用者是否是真人。这种方式常常与声纹识别同时使用。

(3)结合语音和唇形的活体检测方法：在进行活体认证过程中，终端设备(例如，手机)上的应用程序会提示使用者念出某些字符，如文字、字母、数字等。同时，终端设备(例如，手机)上的应用程序使用摄像头拍摄下使用者嘴部视频，使用专门的算法进行自动识别，判断嘴部运动、形状变化等特征是否与提示的字符相符，从而判断使用者是否是真人。在有些应用程序中，还同时使用话筒等语音输入设备记录下使用者的语音，使用专门的算法进行自动识别，判断语音内容是否与提示相符，同时从声音内容和唇形这两个方面判断使用者是否是真人。这种方式广泛应用于需要进行人脸识别或声纹识别的软件中。

但是，随着软件技术水平的提高，很多软件工具可以通过预先获取的用户的图像或声音合成当前认证所需要的视频信息或语音内容，从而实现对基于声纹识别的身份认证产品的欺骗。

针对上述现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种身份认证的方法、装置、设备及数据处理方法，以至少解决现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

根据本发明实施例的一个方面，提供了一种身份认证的方法，包括：获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种身份认证的装置，包括：第一获取单元，用于获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；第一识别单元，用于从语音信息中识别得到待测试的朗读方式；第一验证单元，用于在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种身份认证的方法，包括：显示界面中显示朗读方式和预定内容；接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种身份认证的装置，包括：显示模块，用于显示朗读方式和预定内容；接收模块，用于接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；识别模块，用于从语音信息中识别得到待测试的朗读方式；验证模块，用于在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种身份认证的设备，包括：显示器，用于在显示界面中显示朗读方式和预定内容；语音输入装置，用于接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；处理器，用于从语音信息中识别得到待测试的朗读方式，并在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序执行上述的身份认证的方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的身份认证的方法。

根据本发明实施例的另一方面，还提供了一种系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：步骤302，获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；步骤304，从语音信息中识别得到待测试的朗读方式；步骤306，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

根据本发明实施例的另一方面，还提供了一种数据处理方法，包括：获取音频信息，其中，音频信息的内容包括可发音字符，音频信息来自用户输入；获取音频信息对应的发音特征，其中，发音特征为用户的发音特征；基于发音特征，验证用户的身份。

在本发明实施例中，通过获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种身份认证的设备示意图；

图2是根据本申请实施例的一种可选的身份认证的设备示意图；

图3是根据本申请实施例的一种身份认证的方法流程图；

图4是根据本申请实施例的一种可选的身份认证的方法流程图；

图5是根据本申请实施例的一种可选的身份认证的方法流程图；

图6是根据本申请实施例的一种可选的身份认证的方法流程图；

图7是根据本申请实施例的一种可选的身份认证的方法流程图；

图8是根据本申请实施例的一种可选的身份认证的方法流程图；

图9是根据本申请实施例的一种可选的身份认证的方法流程图；

图10是根据本申请实施例的一种可选的识别朗读方式的方法流程图；

图11是根据本申请实施例的一种身份认证的装置示意图；

图12是根据本申请实施例的一种身份认证的方法流程图；

图13是根据本申请实施例的一种身份认证的装置示意图；

图14是根据本申请实施例的一种计算机终端的硬件结构框图；以及

图15是根据本申请实施例的一种数据处理方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

生物特征识别技术，是指使用计算机及相关设备，利用人体本身特有的行为特征或生理特征，通过模式识别和图像处理的方法进行身份识别。

活体检测，是指用户需要按照系统指示做出相应的动作(例如，眨眼)，通过动作变化来避免攻击者使用用户的照片或人体三维模型等完成验证，以确保用户的真实性。

实施例1

根据本申请实施例，提供了一种身份认证的设备实施例，需要说明的是，本实施例可以应用但不限于注册或登录网站、网上支付、消费刷卡、门禁、ATM机取钱、考勤等场景，该设备可以是计算机、笔记本电脑、平板电脑、手机等智能终端设备，也可以是考勤机、ATM取款机等需要进行身份识别的终端设备。

随着电子、计算机、网络和通讯技术的快速发展，电子信息的安全性越来越受到人们的重视，传统使用密码、口令、钥匙、智能卡或证件的身份验证方式，存在丢失、被盗用和易复制的问题。由于人的生物特征具有唯一性和稳定性等特点，被广泛应用各种各样需要进行身份认证的应用系统中。

生物特征识别技术是使用计算或相关设备，利用人体本身特有的生理特征或行为特征，通过模式识别和图像处理的方法进行身份识别。其中，生理特征是人体器官本身固有的特征，利用人体生理特征识别技术主要有人脸识别、人耳识别、虹膜识别、指纹识别、手掌识别和视网膜识别等；行为特征是人的动作特征，是人们在长期生活过程中养成的行为习惯，利用人体行为特征识别的技术有声音识别、笔记识别、步态识别、击键识别和节奏识别等。

为了防止当前使用认证产品的使用者利用用户的照片、视频或三维模型来完成合法用户的认证，活体检测技术应运而生。活体检测技术和生物特征识别(例如，人脸、指纹、虹膜、声纹等)技术的结合可以确保当前输入到身份认证或识别产品的生物特征数据来自于正在使用这一产品的人，而不是来自于伪造、盗窃或事先采集的或合成的图片或视频资源，例如，使用他人的照片或视频欺骗人脸认证产品，使用复制的指纹模型欺骗指纹识别产品，使用录制或合成的声音欺骗声纹识别产品等。

但是，如果要实现效果较好的活体检测功能，需要设计专门的硬件和软件系统。例如，在一些人脸识别产品中，使用了可以获得被拍摄对象深度信息的光学装置，有效地阻止了使用平面照片、显示器实现的攻击行为。然而，出于方便性或成本的考虑，大量身份认证系统是基于普通的手机设备实现的，缺少专门设计的硬件装置，这就需要基于手机上已有的传感设备，设计较复杂的算法和使用流程来实现活体检测功能。实际应用中，常用的活体检测技术(如本申请背景部分介绍的)主要有如下三种：①基于面部动作的活体检测方法；②基于声音内容的活体检测方法；③结合语音和唇形的活体检测方法。然而，随着图像处理技术和软件合成技术的提高，市场上存在很多种合法销售、传播的计算机、手机软件，可以对上述三种认证方法造成攻击，具体如下：

针对上述基于面部动作的活体检测方法，可以根据输入的一张、多张人脸图片或一段人脸视频，合成出含有各种面部动作的人脸视频，或者产生具有很高视觉真实感和身份相似性的三维人脸模型，进而渲染出含有各种面部动作的人脸视频。视频中的人脸动作可以根据使用者使用鼠标、键盘进行的输入而实时产生，显示在屏幕上，供活体检测软件拍摄后实现对其的欺骗。同时，由于合成出的视频人脸具有与输入人脸相同的外观，进而可以实现对基于人脸识别的身份认证产品的欺骗。

针对上述基于声音内容的活体检测方法，可以根据输入事先录制的一个人的一段声音，实时地合成出具有相同音色的任意指定内容的语音，从而实现对这类活体检测方法的欺骗。同时，由于合成出的声音具有与输入声音相同的身份特征，进而可以实现对基于声纹识别的身份认证产品的欺骗。

针对上述结合语音和唇形的活体检测方法，可以在实时合成的人脸视频中，让人脸开口说出指定的内容，嘴形与说话的内容保持一致，从而实现对这类活体检测方法的欺骗。结合前面提到的声音合成方式，就可以同时实现对人类识别和声纹识别的欺骗。

在上述业务场景下，为了避免有经验的攻击者使用各种软件合成工具伪造认证信息，申请人经研究发现，针对基于声音内容的活体检测方法，以及结合语音和唇形的活体检测方法，提出了一种基于朗读声音的方式进行活体检测的方案，在认证产品为使用者提供朗读内容的提示时，除了给出文字内容外，还同时给出对朗读方式的要求(例如，不同字符被朗读时的长度、强度、音高等)，使用算法对使用者是否按照要求的方式进行朗读进行判断，从而根据判断结果确定当前的使用者是否为合法用户本人。由于目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具，所以本方案可以使得上述提到的针对活体检测的各种欺骗方法失效，从而显著提高身份认证系统的攻击难度，增强各种身份认证产品或服务的安全性。

基于上述基于朗读声音的方式进行活体检测的方案，作为一种可选的实施例，图1是根据本申请实施例的一种身份认证的设备示意图，如图1所示，该设备包括：显示器101、语音输入装置103和处理器105。

其中，显示器101，用于在显示界面中显示朗读方式和预定内容；

语音输入装置103，用于接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；

处理器105，用于从语音信息中识别得到待测试的朗读方式，并在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

具体地，上述身份认证的设备可以是安装有金融(例如，用于登录各个网上银行的客户端或第三方理财产品)、网购(例如，京东、全球购)、社交(例如，微信、QQ)等需要进行安全认证的应用程序的智能终端设备，包括但不限于手机、平板电脑、笔记本电脑、计算机；也可以是企业为了进行人力资源管理而设置的考勤设备、各个银行的ATM取款机、一些重要场所的门禁设备等。上述显示器101与语音输入装置103分别与处理器105连接，在基于朗读声音的方式进行身份认证过程中，显示器101用于显示需要用户(设备使用者)朗读的内容以及朗读该内容的朗读方式，在接收到用户通过语音输入装置103输入的语音信息后，处理器105从接收到的语音信息中识别得到当前使用者朗读预定内容的朗读方式(即待测试的朗读方式)，并将当前使用者朗读预定内容的朗读方式与设备上显示的朗读方式进行比对，在当前使用者朗读预定内容的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，确定当前使用者为合法用户本人。

可选地，上述显示器101可以触摸屏。

可选地，上述语音输入装置103可以是但不限于麦克风或话筒。

由上可知，在本申请上述实施例中，在对目标对象的身份进行认证的过程中，通过显示器101显示目标对象需要朗读的预定内容和朗读该预定内容的朗读方式，通过语音输入装置103接收目标对象按照该朗读方式朗读该预定内容的语音信号，并获取目标对象按照该朗读方式朗读该预定内容的语音信息，通过处理器105从该语音信息中识别目标对象朗读预定内容的实际朗读方式(即待测试的朗读方式)，将待测试的朗读方式与预定的朗读方式进行比对，根据比对结果验证目标对象的身份，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。容易注意的是，目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具。

通过本申请上述实施例1提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果。

此处需要说明的是，作为一种可选的实施方式，上述预定内容可以是从候选字符集合中选择的内容，可以包含一个或多个字符，每个字符可以是但不限于文字、字母和数字等；上述预定的朗读方式可以包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

为了从语音信息中识别得到待测试的朗读方式，一种可选的实施例中，通过语音输入装置103接收到目标对象输入的语音信息后，上述处理器105还用于通过分析语音输入装置103接收到的语音信息，得到待测试的朗读方式，其中，待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

具体地，在通过语音输入装置103接收到目标对象输入的语音信息后，处理器105首先对语音输入装置103接收到的语音信息进行预处理，得到去除了噪声的语音信息；然后将去除了噪声的语音信息划分为多个语音段，并从多个语音段中提取参数特征，获取每段语音段与相邻语音段之间的向量语音段的差别的量度(用于表征语音段之间的相似度)，然后获取每个语音段中每个字符上识别得到的属性特征，并通过对识别得到的属性特征进行分类，得到当前目标对象朗读显示器101上显示的预定内容的朗读方式。

基于上述实施例，当处理器105从语音输入装置103接收到的语音信息中识别得到待测试的朗读方式后，为了验证目标对象是否为合法用户，处理器105将待测试的朗读方式与显示器101上显示的朗读方式进行比对，并判断待测试的朗读方式与预定的朗读方式的比对结果是否满足预定条件，具体地，可以通过如下任意一种方式来判断比对结果是否满足预定条件：

第一种可选的实施方式，处理器105将待测试的朗读方式与显示器101上显示的朗读方式进行比对后，判断待测试的朗读方式与预定的朗读方式是否一致，如果比对结果为待测试的朗读方式与预定的朗读方式一致，则成功验证目标对象的身份；反之，验证失败。

第二种可选的实施方式，在预定内容包括多个字符的情况下，处理器105将待测试的朗读方式与显示器101上显示的朗读方式进行比对后，判断待测试的朗读方式与预定的朗读方式一致的字符的个数是否超过第一阈值，如果比对结果为待测试的朗读方式与预定的朗读方式一致的字符的个数超过第一阈值，则成功验证目标对象的身份；反之，验证失败。

作为一种可选的实施例，在通过语音输入装置103接收到目标对象输入的语音信息后，上述处理器105可以通过如下任意一种方式来验证目标对象的身份：

第一种可选的实施方式，处理器105判断语音输入装置103接收到的语音信息中的语音内容是否与显示器101上显示的预定内容一致，如果一致，则成功验证目标对象的身份；反之，验证失败。

第二种可选的实施方式，在预定内容包括多个字符的情况下，处理器105检测语音输入装置103接收到的语音信息中的语音内容中与预定内容一致的字符的个数是否超过第二阈值，如果语音信息中的语音内容中与预定内容一致的字符的个数超过第二阈值，则成功验证目标对象的身份；反之，验证失败。

一种可选的实施例中，如图2所示，上述身份认证的设备还可以包括：摄像头107，与处理器105连接，用于获取目标对象的图像或视频信息。

基于上述实施例，作为一种可选的实施方式，通过摄像头107获取目标对象按照预定的动作信息朗读预定内容所产生的视频信息后，上述处理器105还用于从视频信息中识别得到待测试的动作信息，并将识别得到待测试的动作信息与预定的动作信息进行比对，在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选地，上述待测试的动作信息可以包括：目标对象在朗读预定内容时目标对象的生物特征的位置和/或移动轨迹。

需要说明的是，上述预定的动作信息为提示目标对象在朗读预定内容时需要做出的动作。

作为一种可选的实施例，在通过语音输入装置103接收到目标对象输入的语音信息，并通过摄像头107获取目标对象按照预定的动作信息朗读预定内容所产生的视频信息后，上述处理器105还可以通过如下任意一种方式来验证目标对象的身份：

第一种可选的实施方式，处理器105判断待测试的动作信息是否与预定的动作信息一致，如果一致，则成功验证目标对象的身份；反之，验证失败。

第二种可选的实施方式，在预定内容包括多个字符的情况下，处理器105判断待测试的动作信息中与预定的动作信息一致的动作个数是否超过第三阈值，如果待测试的动作信息中与预定的动作信息一致的动作个数超过第三阈值，则成功验证目标对象的身份；反之，验证失败。

实施例2

根据本申请实施例，还提供了一种身份认证的方法实施例，本实施例提供的身份认证的方法可以应用于任何需要进行身份认证的软硬件产品或系统中，作为一种可选的实施方式，可以应用于各种应用程序或基于Web的服务中在服务器上进行的身份认证。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

由于现有基于生物特征的活体检测方案，通过提示用户做出一些面部动作或者提示用户输入一段语音内容来对用户的身份进行验证，随着各种图像或语音处理软件的出现，攻击者会通过预先从网络上获取到的用户的图像或视频信息来合成当前需要输入的面部动作或语音内容，进而完成身份的认证，存在安全隐患。

在上述应用环境下，本申请提供了图3所示的一种身份认证的方法，在认证产品为使用者提供朗读内容的提示时，除了给出文字内容外，还同时给出对朗读方式的要求，进而可以根据使用者是否按照预定的朗读方式进行朗读来验证当前的使用者的身份信息，图3是根据本申请实施例的一种身份认证的方法流程图，如图3所示，包括如下步骤：

步骤S302，获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息。

具体地，在上述步骤中，目标对象可以为使用身份认证产品或服务的使用者，其中，身份认证产品可以是安装有各种需要进行身份认证的应用程序(例如，微信、QQ等)或网络服务(例如，百度贴吧等)的终端设备，还可以是考勤机或ATM机等；上述语音信息可以是目标对象按照预定的朗读方式朗读预定内容所产生的声音信号，作为一种可选的实施方式，可以通过麦克风或话筒等语音输入装置或者声音检测传感器获取当前使用认证产品或服务的使用者的语音信息。

此处需要说明的是，上述朗读的预定内容包括但不限于文字内容，还可以是图片内容(例如，各种水果或动物的图片，提示用户读出图片上显示的水果或动物的名称)。

可选地，上述预定内容为从候选字符集合中选择的内容，包括如下至少之一：文字、字母和数字。其中，从候选字符集合中选择朗读内容的方式可以是随机选择的，也可以是按预先设计的方式选择的。

可选地，上述预定的朗读方式包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

具体地，朗读的方式可以包括某个字符或由多个字符组成字符组的发音的时间、持续长度、强度、音高、一个字符发音过程中的强度变化、相邻字符或字符组之间发音间隔的长短等，这些朗读方式可以从候选方式集合中随机选择，也可以按预先设计的方式选择。提示的方法包括，在屏幕上直接用文字进行标注，如“长”、“短”、“强”、“弱”、“高”、“低”、“由强变弱”、“由弱变强”、“长间隔”、“短间隔”等，或在屏幕中用图形、符号标注，或者先由程序朗读一遍，再要求使用者按照相同的方式朗读，或者在使用者朗读的过程中以文字、图形或符号的方式给出提示，或者以被朗读内容字符或字符组本身出现的时间、位置、尺寸、颜色、字体作为朗读方式的提示。

步骤S304，从语音信息中识别得到待测试的朗读方式。

具体地，在上述步骤中，在获取到目标对象按照预定的朗读方式朗读预定内容所产生的语音信息后，可以识别目标对象朗读该语音信息的朗读方式(即待测试的朗读方式)。

作为一种可选的实施方式，可以通过各种语音信号处理算法，对获取到的语音信息进行分析、处理，进而识别出目标对象朗读该语音信息的朗读方式。

步骤S306，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

具体地，在上述步骤中，当从目标对象的语音信息中识别得到目标对象朗读预定内容的朗读方式后，将目标对象朗读该语音信息的朗读方式是否与预定的朗读方式进行比对，得到比对结果，判断比对结果是否满足预定条件，根据判断结果，确定目标对象的身份是否验证成功，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份，可选地，还可以输出验证成功信息；在待测试的朗读方式与预定的朗读方式的比对结果不满足预定条件的情况下，输出验证失败信息。

此处需要说明的是，上述朗读方式包括但不限于如下几种方式：语音信息中某个字符或字符组出现的相对时间；某个字符或字符组在全部内容中的长度(长度类别为长或短或排序后的位置)；某个字符或字符组的强度(强度类别为强或弱或排序后的位置)；某个字符或字符组音高(高低类别为高或低或排序后的位置)；语音是否具有由强变弱或由弱变强属性，或者某个相邻字符或字符组的间隔在全部间隔中的长度(长度类别为长或短或排序后的位置)，或者上述结果的子集。

由上可知，在本申请上述实施例中，在对目标对象的身份进行认证的过程中，提示目标对象需要朗读的预定内容和朗读该预定内容的朗读方式，获取目标对象按照该朗读方式朗读该预定内容的语音信息，在获取到目标对象按照该朗读方式朗读该预定内容的语音信息后，从该语音信息中识别目标对象朗读预定内容的实际朗读方式(即待测试的朗读方式)，将待测试的朗读方式与预定的朗读方式进行比对，根据比对结果验证目标对象的身份，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。容易注意的是，目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具。

通过本申请上述实施例2提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

在一种可选的实施例中，如图4所示，从语音信息中识别得到待测试的朗读方式，可以包括如下步骤：

步骤S402，分析语音信息，得到待测试的朗读方式，其中，待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

具体地，在上述步骤中，在获取目标对象按照该朗读方式朗读该预定内容的语音信息后，可以通过分析该语音信息，得到该语音信息的朗读方式，包括但不限于确定目标对象朗读预定内容的语音信息中任意一个字符或字符组的发音时间、发音强弱变化和高低变化等。

具体地，基于上述实施例，一种可选的实施例中，如图4所示，分析语音信息，得到待测试的朗读方式，可以包括如下步骤：

步骤S4021，对语音信息进行预处理，得到去除了噪声的语音信息；

步骤S4023，将去除了噪声的语音信息划分为多个语音段；

步骤S4025，从多个语音段中提取参数特征，并获取每段语音段与相邻语音段之间的向量语音段的差别的量度；

步骤S4027，获取每个语音段中每个字符上识别得到的属性特征；

步骤S4029，通过对识别得到的属性特征进行分类，得到朗读方式。

具体地，在上述步骤中，在获取目标对象按照该朗读方式朗读该预定内容的语音信息后，首先对语音信号(即语音信息)进行去噪等预处理，然后将语音信号按照预先定义的长度划分为多个语音段，并利用短时能量特征进行间隔段去除，然后利用语音信号的帧间特征相似性进行字符分割，由于在朗读的字符变化时，段间距离变大，因而可以根据段间距离的幅度确定字符分割位置。通过对每个语音段中每个字符的属性特征进行分类，可以得到目标对象按照该朗读方式朗读该预定内容的实际朗读方式。

此处需要说明的是，语音属性可以包括但不限于每个字符的发音相对时间、长度和间隔长度、发音强度、音高、发音过程中的强度变化等；对于每个字符的发音相对时间，对应的属性特征即为字符信号的起始时间与第一个字符信号起始时间的差值；对于每个字符的长度和间隔长度，对应的属性特征为持续时间；对于每个字符的发音强度，对应的属性特征为短时能量或短时平均幅度均值；对于每个字符的音高，对应的属性特征为基频频率；对于一个字符发音过程中的强度变化，对应的属性特征为前后半段的短时能量或短时平均幅度均值之差。

此处还需要说明的是，对所有字符的上述属性特征进行分类(例如，对于相对发音时间和强度变化)的过程中，可以比较特征与预定阈值之间的大小关系，据此判断是否符合提示的发音方式。对于长度、间隔长度、强度、音高，可以对所有字符的相应特征进行排序，按照排序后的位置进行分类。

作为一种可选的实施方式，可以对每段中的信号帧提取线性梅尔倒谱参数特征(MFCC-LPC)，利用每段中的全部信号帧与相邻段中的全部信号帧的特征向量距离的总和，作为向量语音段间差别的量度。

可选地，对输入的音频信号进行去除噪声的预处理算法包括但不限于独立成分分析法、自适应滤波器、小波变换等。

通过上述实施例，可以识别出目标对象按照预定的朗读方式朗读预定内容的实际朗读方式，以便确定目标对象当前的朗读方式是否符合预定的发音方式。

在一种可选的实施例中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份，可以包括如下任意一个步骤：

步骤S306a，如果比对结果为待测试的朗读方式与预定的朗读方式一致，则成功验证目标对象的身份；

步骤S306b，在预定内容包括多个字符的情况下，如果比对结果为朗读方式与预定的朗读方式一致的字符的个数超过第一阈值，则成功验证目标对象的身份。

具体地，在上述步骤中，在根据待测试的朗读方式与预定的朗读方式的比对结果验证目标对象的身份的过程中，作为一种可选的实施方式，可以通过判断目标对象按照预定的朗读方式朗读预定内容的实际朗读方式与预定的朗读方式是否一致来对目标对象的身份进行验证；作为另一种可选的实施方式，可以判断目标对象按照预定的朗读方式朗读预定内容的实际朗读方式与预定的朗读方式一致的字符的个数(或者一致的字符的个数占所有字符的比值)是否超过预设阈值来对目标对象的身份进行验证。

通过上述实施例，提供了两种根据朗读方式对目标对象的身份进行验证的方法。

在一种可选的实施例中，在成功验证目标对象的身份之前，上述方法还可以包括如下任意一个步骤：

步骤S305a，检测语音信息中的语音内容是否与预定内容一致，如果一致，则成功验证目标对象的身份；

步骤S305b，在预定内容包括多个字符的情况下，如果语音信息中的语音内容中与预定内容一致的字符的个数超过第二阈值，则成功验证目标对象的身份。

具体地，在上述步骤中，在获取到目标对象按照预定的朗读方式朗读预定内容的语音信息后，作为一种可选的实施方式，通过检测语音信息中的语音内容是否与预定内容一致来对目标对象的身份进行验证；作为另一种可选的实施方式，通过检测语音信息中语音内容中与预定内容一致的字符的个数(或者一致的字符的个数占所有字符的比值)是否超过第二阈值来对目标对象的身份进行验证。

通过上述实施例，实现了两种根据朗读内容对目标对象的身份进行验证的方法。

在一种可选的实施例中，如图5所示，在成功验证目标对象的身份之前，上述方法还可以包括如下步骤：

步骤S502，获取视频信息，其中，视频信息为目标对象按照预定的动作信息朗读预定内容所产生的信息；

步骤S504，从视频信息中识别得到待测试的动作信息；

步骤S506，在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

具体地，在上述步骤中，在获取到目标对象按照预定的朗读方式朗读预定内容的语音信息的同时，还可以获取目标对象按照预定的动作信息朗读预定内容所产生的视频信息，并从视频信息中识别得到待测试的动作信息(例如，唇部口形变化信息或面部表情变化信息)，判断该动作信息与预定的动作信息的比对结果是否满足预定条件，来验证目标对象的身份，其中，在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选地，上述待测试的动作信息包括：目标对象在朗读预定内容时，目标对象的生物特征的位置和/或移动轨迹。

可选地，上述预定的动作信息为提示目标对象在朗读预定内容时需要做出的动作。

通过上述实施例，实现了根据目标对象朗读预定内容的视频信息中的动作信息来验证目标对象的身份，进一步提高了身份认证系统的攻击难度。

基于上述实施例，在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份，可以包括如下任意一个步骤：

步骤S506a，检测待测试的动作信息是否与预定的动作信息一致，如果一致，则成功验证目标对象的身份；

步骤S506b，在预定内容包括多个字符的情况下，如果待测试的动作信息中与预定的动作信息一致的动作个数超过第三阈值，则成功验证目标对象的身份。

具体地，在上述步骤中，在判断目标对象在朗读预定内容时做出的动作信息与预定的动作信息的比对结果是否满足预定条件的过程中，作为一种可选的实施方式，通过检测目标对象在朗读预定内容时做出的动作信息是否与预定的动作信息一致来验证验证目标对象的身份；作为另一种可选的实施方式，通过检测目标对象在朗读预定内容时做出的动作信息中与预定的动作信息一致的动作个数(或者一致的字符的个数占所有字符的比值)是否超过第三阈值来验证验证目标对象的身份。

通过上述实施例，提供了两种根据目标对象朗读预定内容的视频信息中的动作信息来验证目标对象的身份的方法。

作为一种可选的实施方式，图6是根据本申请实施例的一种可选的身份认证的方法流程图，如图6所示，首先提示待认证的目标对象要朗读的内容和方式，然后记录目标对象的声音信号，根据该声音信号识别目标对象朗读的朗读方式，判断目标对象朗读的朗读方式与提示的朗读方式是否一致，如果目标对象朗读的朗读方式与提示的朗读方式一致，则输出活体检测成功；如果目标对象朗读的朗读方式与提示的朗读方式不一致，则输出活体检测失败。

通过上述实施例，实现了根据朗读方式认证用户身份信息的目的。

作为一种可选的实施方式，图7是根据本申请实施例的一种可选的身份认证的方法流程图，如图7所示，在提示待认证的目标对象要朗读的内容和方式后，记录目标对象的声音信号，根据该声音信号识别目标对象朗读的声音内容，判断该声音内容与提示的朗读内容是否一致，如果目标对象的声音内容与提示的朗读内容不一致，则输出活体检测失败；如果目标对象的声音内容与提示的朗读内容一致，则继续判断目标对象朗读的朗读方式与提示的朗读方式是否一致，如果目标对象朗读的朗读方式与提示的朗读方式一致，则输出活体检测成功；如果目标对象朗读的朗读方式与提示的朗读方式不一致，则输出活体检测失败。

通过上述实施例，实现了根据朗读内容和朗读方式认证用户身份信息的目的，进一步提高了身份认证系统的攻击难度。

作为一种可选的实施方式，图8是根据本申请实施例的一种可选的身份认证的方法流程图，如图8所示，在提示待认证的目标对象要朗读的内容和方式后，记录目标对象的声音信号和视频信号，根据该声音信号识别目标对象朗读的朗读方式，判断目标对象朗读的朗读方式与提示的朗读方式是否一致，如果目标对象朗读的朗读方式与提示的朗读方式不一致，则输出活体检测失败；如果目标对象朗读的朗读方式与提示的朗读方式一致，则进一步定位和跟踪目标对象的嘴部变化，判断目标对象按照提示的朗读方式朗读过程中的嘴部变化(例如，口形)与预定的嘴部变化是否一致，如果目标对象朗读过程中的嘴部变化与预定的嘴部变化一致，则输出活体检测成功；如果朗读过程中的嘴部变化与预定的嘴部变化不一致，则输出活体检测失败。

通过上述实施例，实现了根据朗读方式和朗读过程中的动作信息认证用户身份信息的目的，进一步提高了身份认证系统的攻击难度。

作为一种可选的实施方式，图9是根据本申请实施例的一种可选的身份认证的方法流程图，如图9所示，在提示待认证的目标对象要朗读的内容和方式后，记录目标对象的声音信号和视频信号，根据该声音信号识别目标对象朗读的声音内容，判断该声音内容与提示的朗读内容是否一致，如果目标对象的声音内容与提示的朗读内容不一致，则输出活体检测失败；如果目标对象的声音内容与提示的朗读内容一致，则继续判断目标对象朗读的朗读方式与提示的朗读方式是否一致，如果目标对象朗读的朗读方式与提示的朗读方式不一致，则输出活体检测失败；如果目标对象朗读的朗读方式与提示的朗读方式一致，则进一步定位和跟踪目标对象的嘴部变化，判断目标对象按照提示的朗读方式朗读过程中的嘴部变化(例如，口形)与预定的嘴部变化是否一致，如果目标对象朗读过程中的嘴部变化与预定的嘴部变化一致，则输出活体检测成功；如果朗读过程中的嘴部变化与预定的嘴部变化不一致，则输出活体检测失败。

通过上述实施例，实现了根据朗读内容、朗读方式，以及朗读过程中的动作信息认证用户身份信息的目的，大大提高了身份认证系统的攻击难度。

在上述图6至图9示出的任意一种身份认证的实施方式中，在获取到目标对象按照提示的朗读方式朗读的声音信号后，根据声音信号识别目标对象朗读的朗读方式的过程可以如图10所示，图10是根据本申请实施例的一种可选的识别朗读方式的方法流程图，如图10所示，对输入的音频信号进行预处理，目的是去除语音信号中的背景噪声，然后，利用短时能量特征进行间隔段去除和利用语音信号的帧间特征相似性进行字符分割，接下来，计算每个字符上，与要识别的属性相关的特征；最后，对所有字符的上述特征进行分类。

实施例3

根据本申请实施例，还提供了一种用于实现上述身份认证的方法的装置实施例，图11是根据本申请实施例的一种身份认证的装置示意图，如图11所示，该装置包括：第一获取单元111、第一识别单元113和第一验证单元115。

其中，第一获取单元111，用于获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；

第一识别单元113，用于从语音信息中识别得到待测试的朗读方式；

第一验证单元115，用于在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

此处需要说明的是，上述第一获取单元111、第一识别单元113和第一验证单元115对应于实施例2中的步骤S302至S306，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，在本申请上述实施例中，在对目标对象的身份进行认证的过程中，提示目标对象需要朗读的预定内容和朗读该预定内容的朗读方式，通过第一获取单元111获取目标对象按照该朗读方式朗读该预定内容的语音信息，在获取到目标对象按照该朗读方式朗读该预定内容的语音信息后，通过第一识别单元113从该语音信息中识别目标对象朗读预定内容的实际朗读方式(即待测试的朗读方式)，通过第一验证单元115将待测试的朗读方式与预定的朗读方式进行比对，根据比对结果验证目标对象的身份，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。容易注意的是，目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具。

通过本申请上述实施例3提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

在一种可选的实施例中，上述预定内容为从候选字符集合中选择的内容，包括如下至少之一：文字、字母和数字。

在一种可选的实施例中，上述预定的朗读方式包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

在一种可选的实施例中，上述第一识别单元包括：分析单元，用于分析语音信息，得到待测试的朗读方式，其中，待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

此处需要说明的是，上述分析单元对应于实施例2中的步骤S402，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，上述分析单元包括：处理单元，用于对语音信息进行预处理，得到去除了噪声的语音信息；划分单元，用于将去除了噪声的语音信息划分为多个语音段；提取单元，用于从多个语音段中提取参数特征，并获取每段语音段与相邻语音段之间的向量语音段的差别的量度；第二获取单元，用于获取每个语音段中每个字符上识别得到的属性特征；分类单元，用于通过对识别得到的属性特征进行分类，得到朗读方式。

此处需要说明的是，上述处理单元、划分单元、提取单元、第二获取单元和分类单元对应于实施例2中的步骤S4021至S4029，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，上述第一验证单元包括如下任意之一：第一执行单元，用于如果比对结果为待测试的朗读方式与预定的朗读方式一致，则成功验证目标对象的身份；或，第二执行单元，用于在预定内容包括多个字符的情况下，如果比对结果为朗读方式与预定的朗读方式一致的字符的个数超过第一阈值，则成功验证目标对象的身份。

此处需要说明的是，上述第一执行单元和第二执行单元对应于实施例2中的步骤S306a和步骤S306b，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，上述装置还包括：

第一检测单元，用于检测语音信息中的语音内容是否与预定内容一致，如果一致，则成功验证目标对象的身份；或，

第二验证单元，用于在预定内容包括多个字符的情况下，如果语音信息中的语音内容中与预定内容一致的字符的个数超过第二阈值，则成功验证目标对象的身份。

此处需要说明的是，上述第一检测单元和第二验证单元对应于实施例2中的步骤S305a和步骤S305b，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，上述装置还包括：第三获取单元，用于获取视频信息，其中，视频信息为目标对象按照预定的动作信息朗读预定内容所产生的信息；第二识别单元，用于从视频信息中识别得到待测试的动作信息；第三验证单元，用于在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

此处需要说明的是，上述第三获取单元、第二识别单元和第三验证单元对应于实施例2中的步骤S502至S506，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，上述待测试的动作信息包括：目标对象在朗读预定内容时，目标对象的生物特征的位置和/或移动轨迹。

在一种可选的实施例中，上述预定的动作信息为提示目标对象在朗读预定内容时需要做出的动作。

在一种可选的实施例中，上述第三验证单元还包括如下任意之一：第二检测单元，用于检测待测试的动作信息是否与预定的动作信息一致，如果一致，则成功验证目标对象的身份；或，第四验证单元，用于在预定内容包括多个字符的情况下，如果待测试的动作信息中与预定的动作信息一致的动作个数超过第三阈值，则成功验证目标对象的身份。

此处需要说明的是，上述第一检测单元和第二验证单元对应于实施例2中的步骤S506a和步骤S506b，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例4

图12是根据本申请实施例的一种身份认证的方法流程图，如图12所示，包括如下步骤：

步骤S122，显示界面中显示朗读方式和预定内容；

步骤S124，接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；

步骤S126，从语音信息中识别得到待测试的朗读方式；

步骤S128，在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

具体地，在上述步骤中，上述显示界面可以是任意一种需要身份认证的应用程序或基于网页的应用服务中用于认证身份信息的界面，例如，QQ的登录界面，微信的支付界面，百度贴吧的发帖界面中。可选地，还可以是考勤设备的考勤界面，或者ATM机的取款界面。通过显示界面显示需要用户(设备使用者)朗读的内容以及朗读该内容的朗读方式，在接收到当前使用者(即目标对象)输入的语音信息后，从接收到的语音信息中识别得到当前使用者朗读预定内容的朗读方式(即待测试的朗读方式)，并将当前使用者朗读预定内容的朗读方式与显示界面上显示的朗读方式进行比对，在当前使用者朗读预定内容的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，确定当前使用者为合法用户本人。

由上可知，在本申请上述实施例中，在对目标对象的身份进行认证的过程中，通过显示界面显示目标对象需要朗读的预定内容和朗读该预定内容的朗读方式，接收目标对象按照该朗读方式朗读该预定内容的语音信号，并获取目标对象按照该朗读方式朗读该预定内容的语音信息，从该语音信息中识别目标对象朗读预定内容的实际朗读方式(即待测试的朗读方式)，将待测试的朗读方式与预定的朗读方式进行比对，根据比对结果验证目标对象的身份，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。容易注意的是，目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具。

通过本申请上述实施例4提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

实施例5

根据本申请实施例，还提供了一种用于实现上述身份认证的方法的装置实施例，图13是根据本申请实施例的一种身份认证的装置示意图，如图13所示，该装置包括：显示模块131、接收模块133、识别模块135和验证模块137。

其中，显示模块131，用于显示朗读方式和预定内容；

接收模块133，用于接收目标对象输入的语音信息，其中，语音信息为目标对象按照显示的朗读方式朗读预定内容所产生的信息；

识别模块135，用于从语音信息中识别得到待测试的朗读方式；

验证模块137，用于在待测试的朗读方式与显示的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

此处需要说明的是，上述显示模块131、接收模块133、识别模块135和验证模块137对应于实施例4中的步骤S122至S128，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例4所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，在本申请上述实施例中，在对目标对象的身份进行认证的过程中，通过显示模块131显示目标对象需要朗读的预定内容和朗读该预定内容的朗读方式，通过接收模块133接收目标对象按照该朗读方式朗读该预定内容的语音信息，在获取到目标对象按照该朗读方式朗读该预定内容的语音信息后，通过识别模块135从该语音信息中识别目标对象朗读预定内容的实际朗读方式(即待测试的朗读方式)，通过验证模块137将待测试的朗读方式与预定的朗读方式进行比对，根据比对结果验证目标对象的身份，其中，在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。容易注意的是，目前不存在语音、人脸动作合成软件，即不存在直接指定文字内容并对被合成的语音、视频中每个字符的发音属性进行设定的软件工具。

通过本申请上述实施例5提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

实施例6

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个访问设备。

图14示出了一种计算机终端的硬件结构框图。如图14所示，计算机终端14可以包括一个或多个(图中采用142a、142b，……，142n来示出)处理器142(处理器142可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器144、以及用于通信功能的传输装置146。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图14所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端14还可包括比图14中所示更多或者更少的组件，或者具有与图14所示不同的配置。

应当注意到的是上述一个或多个处理器142和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端14中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

处理器142可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取至少两种类型的验证数据，其中，验证数据的类型包括至少如下之一：文字、图片、动画和字符；获取由至少两种类型的验证数据组合得到的验证码；将验证码传输至前端设备进行显示，其中，不同类型的验证数据的显示区域相互重叠。

存储器144可用于存储应用软件的软件程序以及模块，如本申请实施例中的身份认证的方法对应的程序指令/数据存储装置，处理器142通过运行存储在存储器144内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的身份认证的方法。存储器144可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器144可进一步包括相对于处理器142远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端14。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置146用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端14的通信供应商提供的无线网络。在一个实例中，传输装置146包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置146可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端14的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图14所示的计算机终端14可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图14仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机终端14中的部件的类型。

此处需要说明的是，在一些实施例中，上述图14所示的计算机终端具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在一些实施例中，上述图14所示的计算机设备(或移动设备)具有图像用户界面(GUI)，用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

在本实施例中，上述计算机终端14可以执行应用程序的身份认证的方法中以下步骤的程序代码：获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选的，预定内容为从候选字符集合中选择的内容，包括如下至少之一：文字、字母和数字。

可选的，预定的朗读方式包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

可选的，上述处理器还可以执行如下步骤的程序代码：分析语音信息，得到待测试的朗读方式，其中，待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

可选的，上述处理器还可以执行如下步骤的程序代码：对语音信息进行预处理，得到去除了噪声的语音信息；将去除了噪声的语音信息划分为多个语音段；从多个语音段中提取参数特征，并获取每段语音段与相邻语音段之间的向量语音段的差别的量度；获取每个语音段中每个字符上识别得到的属性特征；通过对识别得到的属性特征进行分类，得到朗读方式。

可选的，上述处理器还可以执行如下步骤的程序代码：如果比对结果为待测试的朗读方式与预定的朗读方式一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果比对结果为朗读方式与预定的朗读方式一致的字符的个数超过第一阈值，则成功验证目标对象的身份。

可选的，上述处理器还可以执行如下步骤的程序代码：检测语音信息中的语音内容是否与预定内容一致，如果一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果语音信息中的语音内容中与预定内容一致的字符的个数超过第二阈值，则成功验证目标对象的身份。

可选的，上述处理器还可以执行如下步骤的程序代码：获取视频信息，其中，视频信息为目标对象按照预定的动作信息朗读预定内容所产生的信息；从视频信息中识别得到待测试的动作信息；在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选的，上述待测试的动作信息包括：目标对象在朗读预定内容时，目标对象的生物特征的位置和/或移动轨迹。

可选的，上述预定的动作信息为提示目标对象在朗读预定内容时需要做出的动作。

可选的，上述处理器还可以执行如下步骤的程序代码：检测待测试的动作信息是否与预定的动作信息一致，如果一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果待测试的动作信息中与预定的动作信息一致的动作个数超过第三阈值，则成功验证目标对象的身份。

本领域普通技术人员可以理解，图14所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如，计算机终端14还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图14所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

根据本申请实施例，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例2所提供的身份认证的方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；从语音信息中识别得到待测试的朗读方式；在待测试的朗读方式与预定的朗读方式的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选地，预定内容为从候选字符集合中选择的内容，包括如下至少之一：文字、字母和数字。

可选地，预定的朗读方式包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：分析语音信息，得到待测试的朗读方式，其中，待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对语音信息进行预处理，得到去除了噪声的语音信息；将去除了噪声的语音信息划分为多个语音段；从多个语音段中提取参数特征，并获取每段语音段与相邻语音段之间的向量语音段的差别的量度；获取每个语音段中每个字符上识别得到的属性特征；通过对识别得到的属性特征进行分类，得到朗读方式。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：如果比对结果为待测试的朗读方式与预定的朗读方式一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果比对结果为朗读方式与预定的朗读方式一致的字符的个数超过第一阈值，则成功验证目标对象的身份。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：检测语音信息中的语音内容是否与预定内容一致，如果一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果语音信息中的语音内容中与预定内容一致的字符的个数超过第二阈值，则成功验证目标对象的身份。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频信息，其中，视频信息为目标对象按照预定的动作信息朗读预定内容所产生的信息；从视频信息中识别得到待测试的动作信息；在待测试的动作信息与预定的动作信息的比对结果满足预定条件的情况下，成功验证目标对象的身份。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：检测待测试的动作信息是否与预定的动作信息一致，如果一致，则成功验证目标对象的身份；或，在预定内容包括多个字符的情况下，如果待测试的动作信息中与预定的动作信息一致的动作个数超过第三阈值，则成功验证目标对象的身份。

实施例8

根据本申请实施例，还提供了一种系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：

步骤S302，获取语音信息，其中，语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；

步骤S304，从语音信息中识别得到待测试的朗读方式；

通过本申请上述实施例8提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

实施例9

根据本申请实施例，还提供了一种数据处理方法实施例。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图15是根据本申请实施例的一种数据处理方法流程图，如图15所示，包括如下步骤：

步骤S152，获取音频信息，其中，音频信息的内容包括可发音字符，音频信息来自用户输入；

步骤S154，获取音频信息对应的发音特征，其中，发音特征为用户的发音特征；

步骤S156，基于发音特征，验证用户的身份。

具体地，在上述步骤中，上述音频信息可以是根据用户输入的语音信号提取到的语音信息，也可以是用户直接输入的文字信息；上述发音特征可以包括至少一个用户在发音过程中的语音特征、表情特征和行为特征；在获取到用户输入的音频信息后，根据该音频信息获取对应的发音特征，并根据该发音特征，验证当前用户的身份。

由上可知，在本申请上述实施例中，在对用户的身份进行认证的过程中，根据用户输入的音频信息获取该用户对应的发音特征，并根据该用户的发音特征对用户的身份进行验证。容易注意的是，上述发音特征包括但不限于发音的语音特征、朗读方式、表情特征(例如，嘴型或眼睛变化等)和发音相关的其他行为特征(例如，发音过程中所作的手势等)。

通过本申请上述实施例9提供的方案，达到了提高身份认证系统的攻击难度的目的，从而实现了增强各种身份认证产品或服务的安全性的技术效果，进而解决了现有的活体检测方案中用户信息容易被模仿导致认证系统安全性存在隐患的技术问题。

在一种可选的实施例中，上述可发音字符包括如下至少之一：文字、字母和数字。

在一种可选的实施例中，上述发音特征包括如下至少之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化、发音相关的行为信息。

在一种可选的实施例中，基于发音特征，验证用户的身份，可以包括：判断发音特征是否与该用户的预存发音特征相匹配，若匹配，该用户的身份验证通过。

具体地，在上述实施例中，发音特征包括但不限于语音特征、表情特征和行为特征，作为一种可选的实施方式，在基于发音特征验证用户的身份的过程中，可以根据用户至少两种以上的发音特征来验证当前用户的身份信息，可以提高身份认证系统的攻击难度。例如，一种可选的实施方案中，可以根据用户的语音特征和行为特征来验证用户的身份信息；另一种可选的实施方案中，可以根据用户的语音特征和表情特征来验证用户的身份信息。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种身份认证的设备，其特征在于，包括：

显示器，用于在显示界面中显示朗读方式和预定内容；

语音输入装置，用于接收目标对象输入的语音信息，其中，所述语音信息为所述目标对象按照所述显示的朗读方式朗读所述预定内容所产生的信息；

处理器，用于从所述语音信息中识别得到待测试的朗读方式，并在所述待测试的朗读方式与所述显示的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

2.一种身份认证的方法，其特征在于，包括：

获取语音信息，其中，所述语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；

从所述语音信息中识别得到待测试的朗读方式；

在所述待测试的朗读方式与所述预定的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

3.根据权利要求2所述的方法，其特征在于，所述预定内容为从候选字符集合中选择的内容，包括如下至少之一：文字、字母和数字。

4.根据权利要求2所述的方法，其特征在于，所述预定的朗读方式包括如下至少之一：发音的持续时长、多个字符之间的间隔时长、音调高低、发音强度、发音的强度变化、高低变化。

5.根据权利要求2所述的方法，其特征在于，从所述语音信息中识别得到待测试的朗读方式，包括：

分析所述语音信息，得到所述待测试的朗读方式，其中，所述待测试的朗读方式包括至少如下之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化。

6.根据权利要求5所述的方法，其特征在于，分析所述语音信息，得到所述待测试的朗读方式，包括：

对所述语音信息进行预处理，得到去除了噪声的语音信息；

将去除了噪声的语音信息划分为多个语音段；

从所述多个语音段中提取参数特征，并获取每段语音段与相邻语音段之间的向量语音段的差别的量度；

获取每个语音段中每个字符上识别得到的属性特征；

通过对所述识别得到的属性特征进行分类，得到所述朗读方式。

7.根据权利要求2所述的方法，其特征在于，在所述待测试的朗读方式与所述预定的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份，包括：

如果所述比对结果为所述待测试的朗读方式与所述预定的朗读方式一致，则成功验证所述目标对象的身份；或，

在所述预定内容包括多个字符的情况下，如果所述比对结果为朗读方式与所述预定的朗读方式一致的字符的个数超过第一阈值，则成功验证所述目标对象的身份。

8.根据权利要求2至7中任意一项所述的方法，其特征在于，在成功验证所述目标对象的身份之前，所述方法还包括：

检测所述语音信息中的语音内容是否与所述预定内容一致，如果一致，则成功验证所述目标对象的身份；或，

在所述预定内容包括多个字符的情况下，如果所述语音信息中的语音内容中与所述预定内容一致的字符的个数超过第二阈值，则成功验证所述目标对象的身份。

9.根据权利要求2至7中任意一项所述的方法，其特征在于，在成功验证所述目标对象的身份之前，所述方法还包括：

获取视频信息，其中，所述视频信息为目标对象按照预定的动作信息朗读预定内容所产生的信息；

从所述视频信息中识别得到待测试的动作信息；

在所述待测试的动作信息与所述预定的动作信息的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

10.根据权利要求9中任意一项所述的方法，其特征在于，所述待测试的动作信息包括：所述目标对象在朗读所述预定内容时，所述目标对象的生物特征的位置和/或移动轨迹。

11.根据权利要求9中任意一项所述的方法，其特征在于，所述预定的动作信息为提示所述目标对象在朗读所述预定内容时需要做出的动作。

12.根据权利要求9所述的方法，其特征在于，

检测所述待测试的动作信息是否与所述预定的动作信息一致，如果一致，则成功验证所述目标对象的身份；或，

在所述预定内容包括多个字符的情况下，如果所述待测试的动作信息中与所述预定的动作信息一致的动作个数超过第三阈值，则成功验证所述目标对象的身份。

13.一种身份认证的装置，其特征在于，包括：

第一获取单元，用于获取语音信息，其中，所述语音信息为目标对象按照预定的朗读方式朗读预定内容所产生的信息；

第一识别单元，用于从所述语音信息中识别得到待测试的朗读方式；

第一验证单元，用于在所述待测试的朗读方式与所述预定的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

14.一种身份认证的方法，其特征在于，包括：

显示界面中显示朗读方式和预定内容；

接收目标对象输入的语音信息，其中，所述语音信息为所述目标对象按照所述显示的朗读方式朗读所述预定内容所产生的信息；

从所述语音信息中识别得到待测试的朗读方式；

在所述待测试的朗读方式与所述显示的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

15.一种身份认证的装置，其特征在于，包括：

显示模块，用于显示朗读方式和预定内容；

接收模块，用于接收目标对象输入的语音信息，其中，所述语音信息为所述目标对象按照所述显示的朗读方式朗读所述预定内容所产生的信息；

识别模块，用于从所述语音信息中识别得到待测试的朗读方式；

验证模块，用于在所述待测试的朗读方式与所述显示的朗读方式的比对结果满足预定条件的情况下，成功验证所述目标对象的身份。

16.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求2至12中任意一项所述的身份认证的方法。

17.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求2至12中任意一项所述的身份认证的方法。

18.一种系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

从所述语音信息中识别得到待测试的朗读方式；

19.一种数据处理方法，其特征在于，包括：

获取音频信息，其中，所述音频信息的内容包括可发音字符，所述音频信息来自用户输入；

获取所述音频信息对应的发音特征，其中，所述发音特征为所述用户的发音特征；

基于所述发音特征，验证所述用户的身份。

20.根据权利要求19所述的方法，其特征在于，所述可发音字符包括如下至少之一：文字、字母和数字。

21.根据权利要求19所述的方法，其特征在于，所述发音特征包括如下至少之一：任意一个字符或字符组的发音时间、发音强弱变化和高低变化、发音相关的行为信息。

22.根据权利要求19所述的方法，其特征在于，基于所述发音特征，验证所述用户的身份包括：

判断所述发音特征是否与该用户的预存发音特征相匹配，若匹配，该用户的身份验证通过。