CN116129484A

CN116129484A - 模型训练和活体检测的方法、装置、电子设备及存储介质

Info

Publication number: CN116129484A
Application number: CN202210879965.7A
Authority: CN
Inventors: 高亮; 周迅溢; 曾定衡
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2023-05-16

Abstract

本申请提供一种模型训练和活体检测的方法、装置、电子设备及存储介质，包括：获取已标注的图像训练样本集，图像训练样本的训练标签包括：人脸区域标签，用于表征假体攻击图像样本的人脸区域特征；假体边框区域标签，用于表征假体攻击图像样本的假体边框区域特征；真伪标签，用于表征假体攻击图像样本的真伪分类；利用图像训练样本集对初始的活体检测模型进行训练；活体检测模型包括：编码网络，用于对假体攻击图像样本的人脸区域和假体边框区域进行编码；感知网络，用于对假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行融合；分类网络，用于对假体攻击图像样本的融合特征进行真伪识别，得到假体攻击图像样本对应的真伪识别结果。

Description

模型训练和活体检测的方法、装置、电子设备及存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种模型训练和活体检测的方法、装置、电子设备及存储介质。

背景技术

随着生物识别技术和人工智能技术的不断发展，人脸识别技术得到了广泛的应用，极大简化了支付、门禁、安检等身份认证的流程。而在实际应用中，人脸作为开放的生物特征，容易被恶意者利用，以假体介质呈现合法用户的人脸图像，从而冒充合法用户发起人脸识别。这种以假体介质冒充其他用户身份进行识别的行为被称为假体攻击。

为此，如何能够通过机器自动、高效地识别人脸图像的假体攻击，已成为业内迫切需要解决的问题。

发明内容

本申请目的是提供一种模型训练和活体检测的方法、装置、电子设备及存储介质，能够基于机器对人脸图像进行活体检测，可用于人脸识别系统抵抗假体攻击。

为了实现上述目的，本申请实施例是这样实现的：

第一方面，提供一种模型训练方法，包括：

获取图像训练样本集，所述图像训练样本包括多个假体攻击图像样本和对应的训练标签，所述训练标签包括人脸区域标签、假体边框区域标签和真伪标签，所述人脸区域标签用于表征对应的假体攻击图像样本的人脸区域特征，所述假体边框区域标签用于表征对应的假体攻击图像样本的假体边框区域特征，所述真伪标签用于表征对应的假体攻击图像样本的真伪分类；

利用所述图像训练样本集对初始活体检测模型进行训练，得到活体检测模型；

其中，所述活体检测模型包括编码网络、感知网络和分类网络；所述编码网络用于对所述多个假体攻击图像样本中每个假体攻击图像样本的人脸区域和假体边框区域进行编码，得到所述每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征；所述感知网络用于对所述每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行融合，得到所述每个假体攻击图像样本对应的融合特征；所述分类网络用于对所述每个假体攻击图像样本的融合特征进行真伪识别，得到每个假体攻击图像样本对应的真伪识别结果。

第二方面，提供一种活体检测方法，包括：

响应于目标用户发起的活体检测请求，获取目标用户的人脸拍摄图像；

将所述目标用户的人脸拍摄图像输入至活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果；其中，所述活体检测模型基于第一方面所述方法训练得到的；所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

第三方面，提供一种活体检测装置，包括：

拍摄图像获取模块，响应于目标用户发起的活体检测请求，获取目标用户的人脸拍摄图像；

真伪识别模块，将所述目标用户的人脸拍摄图像输入至活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果；其中，所述活体检测模型基于第一方面所述的方法训练得到的；所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

第四方面，提供一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器以执行第一方面或第二方面所述的方法。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现行上述第一方面或第二方面的方法。

本申请的方案中，用于训练活体检测模型的假体攻击图像样本标注出三种标签，包括用于表征假体攻击图像样本真伪分类的真伪标签、用于表征假体攻击图像样本中的假体边框区域特征的假体边框区域标签以及用于表征假体攻击图像样本中的人脸区域特征的人脸区域标签。训练过程中，活体检测模型的编码网络在假体边框区域标签和人脸区域标签的监督下，可以有目的性地学习到人脸和假体各自的特征知识，从而具备精确提取假体攻击图像中人脸和假体各自特征的能力。此外，活体检测模型的感知网络能够将假体攻击图像中人脸和假体各自的特征融合后提交至活体检测模型的分类网络，由分类网络在真伪标签的监督下，学习如何结合人脸和假体各自的特征进行活体检测的真伪分析。由于本申请的方案可以使活体检测模型能够更有目的性地学习到人脸和假体的本质特征并以此作为要素进行活体检测的分析，因此活体检测模型的准确定率得到大幅提高，在训练阶段和投用阶段均具有较好的效果，可辅助人脸识别系统更有效地防范非法用户的假体攻击。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为支付系统处理人脸识别的交易请求的流程示意图。

图2为本申请实施例提供的模型训练方法的第一种流程示意图。

图3为假体攻击人脸图像中的假体边框区域呈现出不同于人脸区域的特征的示意图。

图4本申请实施例的模型训练方法分别对假体攻击人脸图像样本中的假体边框区域和人脸区域进行编码的第一种示意图。

图5本申请实施例的模型训练方法分别对假体攻击人脸图像样本中的假体边框区域和人脸区域进行编码的第二种示意图。

图6本申请实施例的活体检测模型的结构示意图。

图7本申请实施例的活体检测方法的第一种流程示意图。

图8本申请实施例的活体检测方法的第二种流程示意图。

图9本申请实施例的模型训练装置的结构示意图。

图10本申请实施例的活体检测装置的结构示意图。

图11本申请实施例的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

随着人脸识别技术的广泛应用，并向着自动化、无人监督化的趋势发展，如何能够通过机器自动、有效地识别人脸图像的假体攻击，已成为业内迫切需要解决的问题。

其中，图1示例支付系统基于人脸识别成功完成支付交易的流程示意图，具体包括如下步骤：

1)用户向支付系统发起交易请求。

2)支付系统响应用户的交易请求，调用用户终端的摄像头尝试采集用户的人脸图像。

3)支付系统对采集到的人脸图像执行人脸识别。

4)支付系统在人脸识别通过后，执行交易请求对应的交易操作。

6)支付系统向用户反馈交易结果。

从上述流程可以看出，在人脸拍摄图像的采集阶段，如果不法用户使用头模、面具、照片和电子屏幕等假体呈现合法用户的人脸图像，则可能导致支付系统发生误判通过人脸识别，并最终受理不法用户的交易请求，给合法用户和支付系统双方造成损失。

为此，在进行人脸识别前，需要对人脸图像进行活体检测，以抵御使用假体冒充合法用户人脸图像进行识别的攻击。

其中，活体检测是在身份验证场景确定对象真实生理特征的方法。现阶段主流的基于人工智能技术完成活体检测的方式是使用真实人脸样本和假体人脸样本训练深度学习模型，从而使深度学习模型具备识别人脸图像是真实人脸图像还是假体人脸图像的能力。该方式下，人脸样本只标注出真实人脸样本和假体人脸样本，而以冒充为目的的假体人脸样本本身在机器视觉上就与真实人脸样本十分接近，如果没有更为精确的标注，模型并不知道两者人脸样本中，哪些是人脸特有的特征，哪些是假体特有的特征，导致训练的可解释性较差，模型虽然在训练集上具有较为不错的识别准确率，但实际上并没有学习到人脸和假体两者本质的特征知识，进而无法有效地基于人脸和假体的特征知识进行活体检测的分析。采用这类方式训练出的深度学习模型往往在投用后准确率大幅下降，而无法支撑业务要求，这也是业内常说的过拟合问题。

鉴于此，本申请旨在提出一种能够对人脸和假体各自特征进行强监督学习的模型训练方案，可以使活体检测模型能够有目的性地学习人脸和假体的特征知识，从而提高活体检测的准确率。本申请中，活体检测模型包括编码网络、感知网络和分类网络，训练使用标注有人脸区域标签、假体边框区域标签和真伪标签的假体攻击图像样本，流程包括：基于活体检测模型的编码网络，将假体攻击图像样本的人脸区域和假体边框区域编码为对应的人脸区域特征和假体边框区域特征；基于活体检测模型的感知网络，将各假体攻击图像样本的人脸区域特征和假体边框区域特征融合为融合特征；基于活体检测模型的分类网络，确定各假体攻击图像样本的真伪识别结果；最后，基于各假体攻击图像样本的人脸区域特征与人脸区域标签之间的差异、假体边框区域特征与假体边框区域标签间的差异和真伪识别结果与真伪标签间的差异，训练编码网络、感知网络和分类网络。

可以看出，在本申请的方案中，用于训练活体检测模型的假体攻击图像样本标注出三种标签，包括用于表征假体攻击图像样本真伪分类的真伪标签、用于表征假体攻击图像样本中的假体边框区域特征的假体边框区域标签以及用于表征假体攻击图像样本中的人脸区域特征的人脸区域标签。训练过程中，活体检测模型的编码网络在假体边框区域标签和人脸区域标签的监督下，可以有目的性地学习到人脸和假体各自的特征知识，从而具备精确提取假体攻击图像中人脸和假体各自特征的能力。此外，活体检测模型的感知网络能够将假体攻击图像中人脸和假体各自的特征融合后提交至活体检测模型的分类网络，由分类网络在真伪标签的监督下，学习如何结合人脸和假体各自的特征进行活体检测的真伪分析。由于本申请的方案可以使活体检测模型能够更有目的性地学习到人脸和假体的本质特征并以此作为要素进行活体检测的分析，因此活体检测模型的准确定率得到大幅提高，在训练阶段和投用阶段均具有较好的效果，可辅助人脸识别系统更有效地防范非法用户的假体攻击。

本申请的模型训练方案可由电子设备执行，具体可以由电子设备的处理器执行。所谓的电子设备可以包括终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等；或者，电子设备还可以包括服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

基于前述，本申请实施例提供一种模型训练方法。参见图2，图2是本申请实施例提供的模型训练方法的流程图示意，具体包括如下步骤：

S202，获取图像训练样本集，图像训练样本包括多个假体攻击图像样本和对应的训练标签，训练标签包括人脸区域标签、假体边框区域标签和真伪标签，人脸区域标签用于表征对应的假体攻击图像样本的人脸区域特征，假体边框区域标签用于表征对应的假体攻击图像样本的假体边框区域特征，真伪标签用于表征对应的假体攻击图像样本的真伪分类。

假体攻击图像可以是指使用头模、面具、照片和电子屏幕等类型的假体介质所呈现的人脸图像。在本申请实施的准备阶段，可以使用上述任意类型的假体呈现人脸图像后进行拍摄，从而获得假体攻击图像。拍摄得到的假体攻击图像可以用作训练模型的样本，即文本所述的假体攻击图像样本。

其中，图3为电子屏幕、照片和面具这三种假体介质冒充人脸图像的示意图，可以看出电子屏幕、照片和面具这些假体在人脸图像的外轮廓区域呈现了特有的类似边框的特征，这是目前常见的假体攻击所特有且不可避免的特征。为此本申请旨在使活体检测模型有目的性地学习假体攻击图像样本中假体边框区域和人脸区域的特征知识，从而结合两者的特征知识，进行活体检测的真伪分析。

这里，为了使活体检测模型在训练阶段能够从假体攻击图像样本中确定出，哪些是人脸特有的特征，哪些是假体边框特有的特征，本申请分别使用人脸区域标签和假体边框区域标签对应标注出假体攻击图像样本中的人脸区域和假体边框区域各自的特征。

其中，针对人脸区域的标注，本申请采用第一黑白二值规则来将假体攻击图像样本准换为黑白二值图像。在第一黑白二值规则下，人脸区域的像素采用第一灰度值，非人脸区域采用第二灰度值。其中，第一灰度值不同于第二灰度值，也就是说基于第一黑白二值规则所生成的黑白二值图像，人脸区域的像素以高亮表示，而其余区域的像素以低亮表示；或者，人脸区域的像素以低量表示，而其余区域的像素则以高亮表示。通过这种亮度的反差，黑白二值图像可以凸显出人脸区域，而将突出人脸区域的黑白二值图像转换为代表图像亮度的灰度矩阵，相当于是以机器语言的方式，完成了针对人脸区域特征的标注，即本文所述的人脸区域标签。

这里为便理解，简单举例介绍：假设本申请的第一灰度值取最大灰度值(最大灰度值为255)，第二灰度值取最小灰度值(最小灰度值为0)，按照第一黑白二值规则，可以将各类型的假体攻击图像样本转换为图4所示的体现人脸区域的黑边二值图像。从图4可以看出，体现人脸区域的黑白二值图像以最大灰度值高亮表示出人脸区域的轮廓，对于假体攻击图像样本而言，人脸区域标签是假体攻击图像按照第一黑白二值规则所生成的黑白二值图像的灰度矩阵。

同理，针对假体边框区域的标注，本申请采用第二黑白二值规则来将假体攻击图像样本准换为黑白二值图像。在该第二黑白二值规则下，假体边框区域的像素采用第三灰度值，非假体边框采用第四灰度值。这里第三灰度值不同于第四灰度值，以体现区别。作为优选方案，第三灰度值取最大灰度值(灰度值为255)，第四灰度值取最小灰度值(灰度值为0)，基于第二黑白二值规则，可以将各类型的假体攻击图像样本转换为图4所示的体现假体边框区域的黑边二值图像。从图4可以看出，体现假体边框区域的黑白二值图像以最大灰度值高亮表示出假体的轮廓，对于假体攻击图像样本而言，假体边框区域标签是假体攻击图像按照第二黑白二值规则所生成的黑白二值图像的灰度矩阵。

应理解，基于上述黑白二值的标注方式，本申请能够以机器语言标注出假体攻击图像样本中的假体边框区域特征和人脸区域特征。

在实际应用中，假体攻击图像样本进一步细分为正例样本和反例样本。正例样本是指使用假体介质所呈现的人脸图像，用于正向思维角度训练模型学习假体攻击图像中的假体边框区域特征和人脸区域特征，从而具备基于假体攻击图像的假体边框区域特征和人脸区域特征，识别假体攻击图像的能力；反例样本是指使用真实活体的人脸图像所冒充假体攻击图像的样本，用于反向思维角度训练模型学习不是假体攻击图像的图像特征，从而避免以不是假体攻击图像所特有的图像特征，进行假体攻击图像识别。

应理解，基于上述正例样本和反例样本训练模型，可以使模型能够更加准确地区分出假体攻击图像和非假体攻击图像(真实人脸图像)。对应地，本申请将正例样本的真伪标签标注为“伪”，将反例样本的真伪标签标注为“真”，在真伪标签的监督下，模型可以将正例样本的假体攻击图像判定为“伪”，并将反例样本冒充的假体攻击图像(也就是真实活体的人脸图像)判定为真，从而具备活体检测的真伪判断能力。

需要说明的是，本申请使用真实活体的人脸图像来作为反例样本，而反例样本图像中不存在假体介质，因此不具有假体边框区域特征。为此，可以使用全部像素取值相同的灰度矩阵来作为反例样本的假体边框区域标签。这里以全部像素取值为0示例，参考图5所示，反例样本对应的假体边框区域标签为全部像素取值为0的灰度矩阵，在视觉上会呈现出全黑图像。而一个全黑图像体现不出任何信息，这就使得假体边框区域标签能够在机器语言上解释出反例样本不存在假体介质，从而在训练过程中，可使模型不用刻意在反例样本中寻找假体边框区域的图像特征进行学习。

此外，由于本申请的出发点是精确结合假体边框区域特征和人脸区域特征来识别假体攻击图像。对于反例样本而言，在不存在假体边框区域特征的情况下，也就没有必要在刻意标注出人脸区域的位置，对应地，反例样本的人脸区域标签也可以采用全部像素取值相同的灰度矩阵来进行标注。例如图5所示，反例样本对应的人脸区域标签为全部像素取值为0的灰度矩阵，在视觉上呈现出全黑图像。

S204，利用图像训练样本集对初始活体检测模型进行训练，得到活体检测模型。其中，活体检测模型包括编码网络、感知网络和分类网络；编码网络用于对多个假体攻击图像样本中每个假体攻击图像样本的人脸区域和假体边框区域进行编码，得到每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征；感知网络用于对每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行融合，得到每个假体攻击图像样本对应的融合特征；分类网络用于对所述每个假体攻击图像样本的融合特征进行真伪识别，得到每个假体攻击图像样本对应的真伪识别结果。

本申请中，编码网络对假体攻击图像样本的人脸区域和假体边框区域进行编码是指：编码网络按照上文所述的第一黑白二值规则，对假体攻击图像样本的像素进行基于灰度矩阵的编码，得到对应的人脸区域特征；以及，按照上文所述的第二黑白二值规则，对假体攻击图像样本的像素进行基于灰度矩阵的编码，得到对应的假体区域特征。

作为示例性介绍，本申请的编码网络具体包括有嵌入层和编码器，其中，嵌入层用于以向量方式还是提取假体攻击图像样本中人脸区域和假体边框区域的灰度信息向量；编码器用于将人脸区域和假体边框区域的灰度信息向量按照对应的黑白二值规则编码为灰度矩阵，即人脸区域特征和假体边框区域特征。

本申请中，感知网络对假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行融合是指：对假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行非线性组合的全连接计算，从而得到包含人脸区域特征和假体边框区域特征两种特征维度的全新表达的特征，即融合特征。

作为示例性介绍，本申请的感知网络可以是卷积神经网络，具体包括有卷积层、池化层和全连接层。其中，卷积层用于将人脸区域特征和假体边框区域特征在转换为相同空间进行以向量的方式进行表示，池化层用于将向量表达的脸区域特征和假体边框区域特征进行适当的信息降维，加快后续计算速度；全连接层用于将降维后向量表达的人脸区域特征和假体边框区域特征进行非线性融合，得到对应的融合特征。

本申请中，分类网络对假体攻击图像样本的融合特征进行真伪识别是指：基于假体攻击图像样本的融合特征，计算假体攻击图像样本是真实活体的概率，以及是假体冒充的的概率，并选取最大概率的一者分类作为真伪识别结果。比如，某一假体攻击图像样本在分类网络侧计算得到的真实活体的概率为10％，假体冒充的概率为90％，则最终对应的真伪识别结果为假体伪造的人脸图像。

作为示例性介绍，本申请的分类网络可以但不限于是目前比较常用的支持分类计算的分类器，如逻辑回归(logistics)模型，softmax函数模型、支持向量机(SupportVector Machine,SVM)等，这里本文不作具体限定。

基于上述所介绍的活体检测模型结构，本申请训练原理是基于每个假体攻击图像样本对应的人脸区域特征与人脸区域标签之间的差异、假体边框区域特征与假体边框区域标签之间的差异以及真伪识别结果与真伪标签之间的差异，确定活体检测模型的训练梯度，并按照训练梯度对活体检测模型的编码网络、感知网络和分类网络进行训练。

具体地，本步骤可以针对编码网络和分类网络设置不同的损失函数。其中，编码网络的损失函数用于体现编码网络的编码误差，编码误差包括每个假体攻击图像样本对应的人脸区域特征与人脸区域标签之间的差异，以及，每个假体攻击图像样本对应的假体边框区域特征与假体边框区域标签之间的差异。分类网络的损失函数用于体现分类网络的分类计算误差，分类计算误差包括：每个假体攻击图像样本对应的真伪识别结果与真伪标签之间的差异。

本申请基于编码网络和分类网络的损失函数可以确定活体检测模型的总损失函数，该总损失函数综合体现出活体检测模型的总误差，总误差包括编码网络的编码误差和分类器网络的误差，并以降低总误差为训练梯度的方向，对活体检测模型的编码网络、感知网络和分类网络的网络参数进行调整，从而使编码网络的编码能力、感知网络非线性的特征融合能力以及分类网络的分类计算能力得到提升。

下面对本申请活体检测模型的训练进行详细介绍。

参考图6，图6是本申请活体检测模型的示意图，其中，编码网络具体包括第一编码子网络和第二编码子网络。在假体攻击图像输入至活体检测模型后，一方面经第一编码子网对假体攻击图像样本的像素进行基于灰度矩阵的编码，得到对应的人脸区域特征，另一方面经第二编码子网络对假体攻击图像样本的像素进行基于灰度矩阵的编码。之后，第一编码子网络输出的人脸区域特征和第二编码子网络输出的假体边框区域特征输入至感知网络，由感知网络融合为融合特征。最后，感知网络输出的融合特征进一步输入至分类网络，由分类网络完成真伪的分类计算，得假体攻击图像样本对应的真伪识别结果。

本申请中，第一编码子网络和第二编码子网络分别采用均方误差(Mean SquaredError，MSE)损失函数。其中，MSE损失函数的公式如下：

上式中，n表示假体攻击图像样本的数量；y_i表示第i个假体攻击图像样本的实际输出，在第一编码子网络中对应为人脸区域特征，在第二编码网络中对应为假体边框区域特征；

表示第i个假体攻击图像样本对应的期望值，在第一编码子网络中具体对应为人脸区域标签，在第二编码网络中具体对应为假体边框区域标签。应理解的是，第一编码子网络的MSE损失函数相当于是计算了每个假体攻击图像样本中的人脸区域特征与人脸区域标签之间的平均差异；第二编码子网络的MSE损失函数相当于是计算了每个假体攻击图像样本中的假体边框区域特征与假体边框区域标签之间的平均差异。

对应地，分类网络则采用交叉商(Cross Entropy Loss Function，CELF)损失函数。其中，CELF损失函数的公式如下：

表示第i个假体攻击图像样本对应的期望值，在第一编码子网络中具体对应为人脸区域标签，在第二编码网络中具体对应为假体边框区域标签。对于分类网络的CELF损失函数，相当于是计算假体攻击图像样本实际输出概率与期望输出概率之间的距离，该距离即交叉熵，交叉熵的取值越小,实际输出概率与期望输出的分布就越接近。

针对活体检测模型整体而言，总损失函数为：

Loss＝MSE₁+MSE₂+CELF

其中，Loss表示总损失函数；MSE₁表示第一编码子网络的MSE损失函数；MSE₂表示第二编码子网络的MSE损失函数，CELF表示分类网络的CELF损失函数。

这里，本申请可以按照总损失函数Loss取值越小越好的训练梯度方向，来对活体检测模型的第一编码子网络、第二编码子网络、感知网络和分类网络的网络参数进行调整。

通过这种练梯度的调整方式进行多轮迭代，可以逐渐使第一编码子网络针对假体攻击图像样本所编码的人脸区域特征向对应的人脸区域标签上收敛，第二编码子网络针对假体攻击图像样本所编码的假体边框区域特征向对应的假体边框标签上收敛，编码网络针对人脸区域特征和假体边框区域特征所融合得到的融合特征逐渐向适用于分类网络进行分类计算的方向上收敛，分类网络基于编码网络提供的融合特征分类计算得到的真伪识别结果向对应的真伪标签上收敛。

基于上述收敛原理，在完成有监督的训练后，第一编码子网络最终具备从假体攻击图像中提取人脸区域特征的能力；第二编码子网络最终具备从假体攻击图像中提取假体边框区域特征的能力；感知网络最终具备将人脸区域特征和假体边框区域特征融合为适用于分类计算的融合特征的能力；分类网络最终具备基于融合特征(结合了人脸区域特征和假体边框区域特征)对假体攻击图像进行真伪识别的分类计算能力。

应理解的是，本申请使用训练完成的活体检测模型可以对人脸图像进行有效的活体检测。即，活体检测模型输出的真伪识别结果指示人脸图像为假体伪造的人脸图像时，表示活体检测未通过；反之，活体检测模型输出的真伪识别结果指示人脸图像为真实活体的人脸图像时，表示活体检测通过。

显然，通过本申请图1所示方法训练得到的活体检测模型，可以自动化完成针对人脸图像的活体检测。

基于此，申请实施例还提供了一种基于上述活体检测模型执行的活体检测方法。图7是该活体检测方法的流程示意图，具体包括如下步骤：

S702，响应于目标用户发起的活体检测请求，获取目标用户的人脸拍摄图像。

本申请中，目标用户在通过终端发起人脸验证时，顺带发起活体检测请求。在人脸验证阶段，终端开启拍摄设备对目标用户进行拍摄，本步骤可以从拍摄画面中获取目标用户的人脸拍摄图像。

S704，将目标用户的人脸拍摄图像输入至活体检测模型，得到目标用户的人脸拍摄图像对应的真伪识别结果，其中，活体检测模型用于将人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将人脸区域特征和假体边框区域特征融合为融合特征后，基于融合特征对人脸拍摄图像进行真伪识别。

应理解，本步骤所述的活体检测模型是基于图2所示的模型训练方法训练得到的，这里不再对活体检测模型的原理进行赘述。

在本申请中，若真伪识别结果指示人脸拍摄图像为真实人脸图像，则判定通过活体检测，否则，判定未通过活体检测。

具体地，如果活体检测是由用户在请求人脸验证时所发起的，则当确定人脸拍摄图像未通过活体检测后，本步骤还可以进一步判定人脸验证失败，并结束人脸验证流程；如果人脸拍摄图像通过活体检测，则本步骤可以基于现有的人脸验证技术，对人脸拍摄图像执行人脸验证流程。

可以看出，本申请实施例的活体检测方法在对目标用户进行活体检测时，可以从目标用户的人脸拍摄图像中有针对性性地尝试提取人脸和假体各自的特征，并结合人脸和假体各自的特征，来进行人脸拍摄图像的真伪分析，即确定人脸拍摄图像是真实活体的人脸图像，还是使用假体冒充的人脸图像，从而基于真伪识别结果来判定活体检测是否通过，从而起到针对假体攻击的防范效果。

下面以活体检测模型投用在电子支付的支付系统为示例，对本申请实施例的活体检测方法的应用进行介绍。

本申请将基于活体检测模型进行活体检测的执行脚本部署在的电子支付的支付系统中，使得支付系统在接收到用户发起的需要人脸验证的支付交易时，调用活体检测的执行脚本，先对用户进行活体检测；之后，再根据活体检测结果，来决策是否需要进一步执行人脸验证。

这里假设本示例为非法用户使用假体来冒充合法用户的人脸图像进行人脸识别，对应地，活体检测方法的流程如图8所示，具体包括如下步骤：

非法用户使用移动终端的支付APP，向支付系统发起用于支付的交易请求。

支付系统响应于非法用户的交易请求，通过非法用户侧的支付APP，调用移动终端的摄像头尝试采集非法用户的人脸拍摄图像。

非法用户在人脸拍摄图像的采集阶段，使用假体呈现合法用户的人脸图像，以冒充合法用户进行人脸识别。

支付系统通过支付APP获取到非法用户终端上传的人脸拍摄图像后，调用活体检测的执行脚本，运行其中的活体检测模型的代码，以对该人脸拍摄图像执行下述活体检测流程：

1)对人脸拍摄图像的人脸区域和假体边框区域进行编码，得到人脸拍摄图像所对应的人脸区域特征和假体边框区域特征。

2)将人脸区域特征和假体边框区域特征进行融合，得到到人脸拍摄图像所对应的融合特征。

3)基于人脸拍摄图像所对应的融合特征，进行人脸图像真伪的分类计算，确定人脸拍摄图像对应的真伪识别结果。

4)在识别出人脸拍摄图像为假体冒充的伪造人脸图像后，判定活体检测未通过。

之后，电子支付APP在活体检测结果指示为未通过后，直接拒绝非法用户的交易请求，从而实现了针对非法用户假体攻击的有效防范。

与上述图2所示方法相对应地，本发明实施例还提供一种模型训练装置。图9是该模型训练装置900的结构示意图，包括：

样本获取模块910，用于获取图像训练样本集，所述图像训练样本包括多个假体攻击图像样本和对应的训练标签，所述训练标签包括人脸区域标签、假体边框区域标签和真伪标签，所述人脸区域标签用于表征对应的假体攻击图像样本的人脸区域特征，所述假体边框区域标签用于表征对应的假体攻击图像样本的假体边框区域特征，所述真伪标签用于表征对应的假体攻击图像样本的真伪分类。

训练模块920，用于利用所述图像训练样本集对初始活体检测模型进行训练，得到活体检测模型。其中，所述活体检测模型包括编码网络、感知网络和分类网络；所述编码网络用于对所述多个假体攻击图像样本中每个假体攻击图像样本的人脸区域和假体边框区域进行编码，得到所述每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征；所述感知网络用于对所述每个假体攻击图像样本对应的人脸区域特征和假体边框区域特征进行融合，得到所述每个假体攻击图像样本对应的融合特征；所述分类网络用于对所述每个假体攻击图像样本的融合特征进行真伪识别，得到每个假体攻击图像样本对应的真伪识别结果。

可选地，所述活体检测模型的编码网络包括第一编码子网络、第二编码子网络，所述第一编码子网络用于对假体攻击图像样本的人脸区域进行编码，得到对应的人脸区域特征，所述第二编码子网络用于对假体攻击图像样本的假体边框区域进行编码，得到对应的假体边框区域特征。

其中，所述人脸区域标签为所属假体攻击图像样本对应第一黑白二值规则的灰度矩阵，所述第一黑白二值规则中，人脸区域的像素采用第一灰度值，非人脸区域采用第二灰度值；所述第一编码子网络具体用于根据所述第一黑白二值规则，对所述假体攻击图像样本进行灰度矩阵的编码，得到对应的人脸区域特征。

其中，所述假体边框区域标签为所属假体攻击图像样本对应第二黑白二值规则的灰度矩阵，所述第二黑白二值规则中，假体边框区域的像素采用第三灰度值，非假体边框区域采用第四灰度值；所述第二编码子网络具体用于根据所述第二黑白二值规则，对假体攻击图像样本进行灰度矩阵的编码，得到对应的假体边框区域特征。

可选地，训练模块920具体用于：基于所述每个假体攻击图像样本对应的人脸区域特征与人脸区域标签之间的差异，确定所述第一编码子网络的损失函数；以及，基于所述每个假体攻击图像样本对应的假体边框区域特征与假体边框区域标签之间的差异以及真伪识别结果与真伪标签之间的差异，确定所述第二编码子网络的损失函数；以及，基于所述每个假体攻击图像样本对应的真伪识别结果与真伪标签之间的差异，确定所述分类网络的损失函数；基于所述第一编码子网络、所述第二编码子网络和所述分类网络的损失函数，确定所述活体检测模型的总损失函数；基于所述活体检测模型的总损失函数，确定所述活体检测模型的训练梯度。

可选地，所述第一编码子网络和所述第二编码子网络的损失函数为均方误差损失函数，所述分类网络的损失函数为交叉商损失函数。

可选地，多个假体攻击图像样本包括：基于头模、图片和面具中至少一者假体的假体攻击图像样本。

根据本申请的另一个实施例，图9所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的模型训练装置，以及来实现本申请实施例模型训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于数据处理设备中，并在其中运行。

基于本申请的模型训练装置可知，用于训练活体检测模型的假体攻击图像样本标注出三种标签，包括用于表征假体攻击图像样本真伪分类的真伪标签、用于表征假体攻击图像样本中的假体边框区域特征的假体边框区域标签以及用于表征假体攻击图像样本中的人脸区域特征的人脸区域标签。训练过程中，活体检测模型的编码网络在假体边框区域标签和人脸区域标签的监督下，可以有目的性地学习到人脸和假体各自的特征知识，从而具备精确提取假体攻击图像中人脸和假体各自特征的能力。此外，活体检测模型的感知网络能够将假体攻击图像中人脸和假体各自的特征融合后提交至活体检测模型的分类网络，由分类网络在真伪标签的监督下，学习如何结合人脸和假体各自的特征进行活体检测的真伪分析。由于本申请的方案可以使活体检测模型能够更有目的性地学习到人脸和假体的本质特征并以此作为要素进行活体检测的分析，因此活体检测模型的准确定率得到大幅提高，在训练阶段和投用阶段均具有较好的效果，可辅助人脸识别系统更有效地防范非法用户的假体攻击。

与上述图7所示方法相对应地，本发明实施例还提供一种活体检测装置。图10是该活体检测装置1000的结构示意图，包括：

拍摄图像获取模块1010，响应于目标用户发起的活体检测请求，获取目标用户的人脸拍摄图像。

真伪识别模块1020，将所述目标用户的人脸拍摄图像输入至基于图1所述的方法训练得到的活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果，其中，所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

根据本申请的另一个实施例，图10所示的活体检测装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图7所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图10中所示的活体检测装置，以及来实现本申请实施例模型训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于数据处理设备中，并在其中运行。

本申请实施例的活体检测装置在对目标用户进行活体检测时，可以从目标用户的人脸拍摄图像中有针对性性地尝试提取人脸和假体各自的特征，并结合人脸和假体各自的特征，来进行人脸拍摄图像的真伪分析，即确定人脸拍摄图像是真实活体的人脸图像，还是使用假体冒充的人脸图像，从而基于真伪识别结果来判定活体检测是否通过，从而起到针对假体攻击的防范效果。

图11是本说明书的一个实施例电子设备的结构示意图。请参考图11，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放计算机程序程序。具体地，计算机程序程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

可选地，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述图9所示的模型训练装置。对应地，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取图像训练样本集，所述图像训练样本包括多个假体攻击图像样本和对应的训练标签，所述训练标签包括人脸区域标签、假体边框区域标签和真伪标签，所述人脸区域标签用于表征对应的假体攻击图像样本的人脸区域特征，所述假体边框区域标签用于表征对应的假体攻击图像样本的假体边框区域特征，所述真伪标签用于表征对应的假体攻击图像样本的真伪分类。

利用所述图像训练样本集对初始活体检测模型进行训练，得到活体检测模型。

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述图10所示的活体检测装置。对应地，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

响应于目标用户发起的活体检测请求，获取目标用户的人脸拍摄图像。

将所述目标用户的人脸拍摄图像输入至活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果；其中，所述活体检测模型基于图1所示方法训练得到的；所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

上述如本说明书所示实施例揭示的模型训练方法或者活体检测方法可以应用于处理器中，由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

此外，本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令。

可选地，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2所示方法的步骤，包括：

或者，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图7所示方法的步骤，包括：

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。此外，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述编码网络包括第一编码子网络以及第二编码子网络，所述第一编码子网络用于对假体攻击图像样本的人脸区域进行编码，得到对应的人脸区域特征，所述第二编码子网络用于对假体攻击图像样本的假体边框区域进行编码，得到对应的假体边框区域特征。

3.根据权利要求2所述的方法，其特征在于，

所述人脸区域标签为所属假体攻击图像样本对应第一黑白二值规则的灰度矩阵，所述第一黑白二值规则中，人脸区域的像素采用第一灰度值，非人脸区域采用第二灰度值；所述第一编码子网络具体用于根据所述第一黑白二值规则，对所述假体攻击图像样本进行灰度矩阵的编码，得到对应的人脸区域特征。

4.根据权利要求2所述的方法，其特征在于，

所述假体边框区域标签为所属假体攻击图像样本对应第二黑白二值规则的灰度矩阵，所述第二黑白二值规则中，假体边框区域的像素采用第三灰度值，非假体边框区域采用第四灰度值；所述第二编码子网络具体用于根据所述第二黑白二值规则，对假体攻击图像样本进行灰度矩阵的编码，得到对应的假体边框区域特征。

5.根据权利要求2所述的方法，其特征在于，

所述利用所述图像训练样本集对初始活体检测模型进行训练，包括：

基于所述每个假体攻击图像样本对应的人脸区域特征与人脸区域标签之间的差异，确定所述第一编码子网络的损失函数；以及，

基于所述每个假体攻击图像样本对应的假体边框区域特征与假体边框区域标签之间的差异以及真伪识别结果与真伪标签之间的差异，确定所述第二编码子网络的损失函数；以及，

基于所述每个假体攻击图像样本对应的真伪识别结果与真伪标签之间的差异，确定所述分类网络的损失函数；

基于所述第一编码子网络、所述第二编码子网络和所述分类网络的损失函数，确定所述活体检测模型的总损失函数；

基于所述活体检测模型的总损失函数，确定所述活体检测模型的训练梯度。

6.根据权利要求5所述的方法，其特征在于，

所述第一编码子网络和所述第二编码子网络的损失函数为均方误差损失函数，所述分类网络的损失函数为交叉商损失函数。

7.一种活体检测方法，其特征在于，包括：

将所述目标用户的人脸拍摄图像输入至活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果；其中，所述活体检测模型基于权利要求1-7任一项所述的方法训练得到的；所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

8.一种活体检测装置，其特征在于，包括：

真伪识别模块，将所述目标用户的人脸拍摄图像输入至活体检测模型，得到所述目标用户的人脸拍摄图像对应的真伪识别结果；其中，所述活体检测模型基于权利要求1-6任一项所述的方法训练得到的；所述活体检测模型用于将所述人脸拍摄图像编码为对应的人脸区域特征和假体边框区域特征，并将所述人脸区域特征和所述假体边框区域特征融合为融合特征后，基于所述融合特征对所述人脸拍摄图像进行真伪识别。

9.一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器以执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。