CN111967289B

CN111967289B - 一种非配合式人脸活体检测方法及计算机存储介质

Info

Publication number: CN111967289B
Application number: CN201910420108.9A
Authority: CN
Inventors: 毛亮; 张宇聪; 张�杰; 朱婷婷; 林焕凯; 郝鹏; 刘昕; 山世光; 黄仝宇; 汪刚; 宋一兵; 侯玉清; 刘双广
Original assignee: Seetatech Beijing Technology Co ltd; Gosuncn Technology Group Co Ltd
Current assignee: Seetatech Beijing Technology Co ltd; Gosuncn Technology Group Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2025-04-18
Anticipated expiration: 2039-05-20
Also published as: CN111967289A

Abstract

本发明提供一种非配合式人脸活体检测方法及计算机存储介质，所述方法包括以下步骤：S1、获取模型训练用活体检测图像集合，并对所述图像集合进行处理；S2、设计Inception Net分类网络；S3、设计SSD检测网络；S4、通过所述Inception Net分类网络和所述SSD检测网络对所述图像集合进行模型训练；S5、获取实时图像，根据模型训练的结果预测所述实时图像是否为人脸活体。根据本发明实施例的非配合式人脸活体检测方法，不需要增添摄像头以外的硬件设备，且不需要待测人员配合，能够达到超实时的人脸活体检测速度，成本低廉，使用方便。

Description

一种非配合式人脸活体检测方法及计算机存储介质

技术领域

本发明涉及人脸检测领域，更具体地，涉及一种非配合式人脸活体检测方法及计算机存储介质。

背景技术

人脸识别以其快速性、有效性、用户友好性，逐渐成为了一种重要的加解密方式，但是目前许多人脸识别系统无法辨别人脸的真伪，因此，在人脸识别系统中引入活体检测方法有助于提高人脸识别的实用性与安全性。目前人脸活体检测的方法主要有以下几种：

1)基于视频流交互式的主动活体检测。主要技术手段：首先系统进行人脸检测及人脸关键点定位，如果视频中存在人脸，则随机生成若干个动作，如果测试人员在规定时间内完成指定动作，则系统判定测试人员为活体，反之则判定为非活体。该方法存在的问题和缺陷为：需要用户配合，且用时较长。

2)基于亮瞳效应的人脸活体检测方法。主要技术手段：通过检测人脸的眼睛区域是否存在亮瞳效应来区分活体人脸与非活体人脸。该方法存在的问题和缺陷为：需要增加额外的光源设备，造价较高，且操作繁琐。

3)具有图像失真分析的人脸活体检测方法。主要技术手段：首先系统进行人脸检测及人脸关键点定位，如果图片中存在人脸，则提取图片中的4种特征(镜面反射特征、模糊程度特征、矩特征、颜色多样性特征),应用支持向量机进行训练和预测。存在的问题和缺陷为：该方法提取的特征相对简单，判别能力不强且泛化能力不强，不能很好的在现实场景中应用。

因此，基于现有技术尚存在以上问题有待解决，亟需开发一种新型的非配合式人脸活体检测方法。

发明内容

有鉴于此，本发明提供一种非配合式人脸活体检测方法及计算机存储介质，能够有效提高人脸活体检测的精确度与速度。

为解决上述技术问题，一方面，本发明提供一种非配合式人脸活体检测方法，所述方法包括以下步骤：S1、获取模型训练用活体检测图像集合，并对所述图像集合进行处理；S2、设计Inception Net分类网络；S3、设计SSD检测网络；S4、通过所述Inception Net分类网络和所述SSD检测网络对所述图像集合进行模型训练；S5、获取实时图像，根据模型训练的结果预测所述实时图像是否为人脸活体。

根据本发明实施例的非配合式人脸活体检测方法，通过将Inception Net分类网络与SSD检测网络配合使用，极大地提高了人脸活体检测的精确度与速度，利用SSD检测网络可以适应多种尺度的电子设备边框的训练和检测任务，并且能够实时高精度的检测目标。本发明使用的活体检测方法不需要增添摄像头以外的硬件设备，且不需要待测人员配合，能够达到超实时的人脸活体检测速度，成本低廉，使用方便。

根据本发明的一些实施例，步骤S1包括：S11、通过摄像设备批量保存活体检测图像集合Q；S12、对所述图像集合Q中的第一集合的图像进行边框标注，获取有边框标注信息的图像G和不带标注信息的图像P，其中所述第一集合图像是所述图像集合Q的子集。

根据本发明的一些实施例，在步骤S2中，将设计的所述Inception Net分类网络记为M，所述Inception Net分类网络包括深度神经网络A和3组Inception结构C，所述Inception结构C包括四个分支，每个所述分支分别由1*1卷积、3*3卷积、5*5卷积、3*3最大池化组成。

根据本发明的一些实施例，在步骤S3中，将设计的所述SSD检测网络记为S，所述SSD检测网络的主网络为卷积层增加4个卷积层的VGG16模型。

根据本发明的一些实施例，步骤S3还包括：对5个不同的所述卷积层的输出分别用两个3*3的卷积核进行卷积，其中一个卷积核输出为分类置信度，每个default box生成3个置信度，分别对应活体检测任务中的背景、真人、非活体人脸，另一个卷积核输出为目标位置的定位，每个default box生成x，y，w，h 4个坐标值；5个卷积层经过priorBox层生成default box；将上述三个计算结果分别合并后传递给损失层。

根据本发明的一些实施例，步骤S4包括：

S41、将所述图像集合Q分为训练集T和校验集V，使训练集T和校验集V中均含有带边框标注信息的图像G和不带标注信息的图像P；

S42、通过Inception Net分类网络M对训练集T中的部分人脸图像P进行前向计算，经过模型的各层后输出识别结果，根据当前网络输出与输入特征的标签差异应用批次随机梯度下降算法进行模型训练，不断调整Inception Net分类网络M中各个权值；

S43、利用校验集V中不带标注信息的图像P验证模型训练效果，当模型M在校验集V上准确率不能随着训练时间继续提升时，模型停止训练，获得模型M’；

S44、通过SSD检测网络S对训练集T中的部分带有边框标注信息的图像G进行前向计算，经过模型的各层后输出模型检测到的目标边框，以及每个边框对应的类别；

S45、根据当前网络输出的结果与目标的标注信息进行对比，分别计算出定位损失L_loc与置信度损失L_conf；网络总体的目标损失函数L(x，c，l，g)是L_loc与L_conf的加权和，如公式(1)所示：

其中，x表示先验框与标注信息的相匹配情况；c为模型输出预测边框的置信度，l是模型的预测边框，g是标注的边框位置，a是用于调整置信度损失和定位损失之间比例的参数，N是与标注的边框信息相匹配的预测边框个数；应用批次随机梯度下降方法算法对公式(1)中的目标函数进行模型训练，不断调整SSD检测网络S中各个权值；

S46、利用校验集V中带边框标注信息的图像G验证模型训练效果，当模型S在校验集V上准确率不能随着训练时间继续提升时，模型停止训练，获得模型S’；

S47、当图片经过M’和S’后，将两个模型输入真人类别的置信度相加，记为模型D的置信度得分。

根据本发明的一些实施例，步骤S5包括：S51、通过摄像设备获取实时RGB图像A，将图像A输入到级联卷积神经网络模型中，进行人脸检测；若检测到人脸，则对人脸进行归一化，得到归一化人脸图像B；并且记录人脸在图像A中的位置k；S52、将图像A输入步骤S4获得的模型M’，得到结果x；S53、将图片B输入步骤S4获得的模型S’，得到边框集合Y；S54、判断人脸位置k与边框集合Y中各个边框的重合率；如果存在重合率超过设定值的边框，则记录该边框的置信度u；在所有符合条件的u中，选取最大值v；S55、将结果x与置信度最大值v输入给步骤S4所得的融合模型D，通过融合模型D给出图像A的人脸活体检测预测结果。

根据本发明的一些实施例，在步骤S51中，对人脸进行归一化的步骤为：将图像A中的人脸区域图片输入给人脸关键点检测模型进行人脸关键点定位，并通过计算关键点到标准关键点的仿射变换，将不同姿态下的人脸图片变换到标准姿态下的人脸图片，获得归一化人脸图像B。

根据本发明的一些实施例，在步骤S53中，通过非极大值抑制算法，去除掉重叠或错误的预测边框，得到边框集合W，并通过边框集合W进行后续操作。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

附图说明

图1为本发明实施例的非配合式人脸活体检测方法的总流程图；

图2为本发明实施例的非配合式人脸活体检测方法中Inception结构C的组成结构示意图；

图3为本发明实施例的非配合式人脸活体检测方法中实时预测的流程图；

图4为本发明实施例的电子设备的示意图。

附图标记：

非配合式人脸活体检测方法100；

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先结合附图具体描述根据本发明实施例的非配合式人脸活体检测方法100。

如图1所示，根据本发明实施例的非配合式人脸活体检测方法包括以下步骤：

S1、获取模型训练用活体检测图像集合，并对所述图像集合进行处理。

S2、设计Inception Net分类网络。

S3、设计SSD检测网络。

S4、通过所述Inception Net分类网络和所述SSD检测网络对所述图像集合进行模型训练。

S5、获取实时图像，根据模型训练的结果预测所述实时图像是否为人脸活体。

换言之，根据本发明实施例的非配合式人脸活体检测方法在获取人脸的实时图像之前，先收集模型训练用活体检测图像集合，并且对这些图像集合进行标记处理，然后设计Inception Net分类网络和SSD检测网络，并且通过Inception Net分类网络和SSD检测网络对图像集合进行模型训练，在经过模型训练的基础上，再获取实时图像，根据模型训练的融合模型，预测判断实时图像是否为活体人脸。

该方法利用SSD检测网络与人脸Inception net分类网络相融合的分类器对人脸的真实性进行分类，采用该方法的技术优势为：利用SSD检测网络检测人脸的环境信息，利用人脸Inception net对人脸部分内容进行分类，两个模型融合相对于单一分类器或检测器具有更好的活体检测效果。

由此，根据本发明实施例的非配合式人脸活体检测方法，通过将Inception Net分类网络与SSD检测网络配合使用，极大地提高了人脸活体检测的精确度与速度，利用SSD检测网络可以适应多种尺度的电子设备边框的训练和检测任务，并且能够实时高精度的检测目标。本发明使用的活体检测方法不需要增添摄像头以外的硬件设备，且不需要待测人员配合，能够达到超实时的人脸活体检测速度，成本低廉，使用方便。

下面具体描述根据本发明实施例的非配合式人脸活体检测方法的各步骤。

在本发明的一些具体实施例中，步骤S1包括：

S11、通过摄像设备批量保存活体检测图像集合Q。

S12、对所述图像集合Q中的第一集合的图像进行边框标注，获取有边框标注信息的图像G和不带标注信息的图像P，其中所述第一集合图像是所述图像集合Q的子集。

具体地，可以通过人工对所述图像集合Q中的部分图像进行边框标注，其中，可以将带有边框标注信息的图像记为G，将不带标注信息的图像记为P。

由此，通过对批量保存的活体检测图像集合进行分类标记，可以对人脸的真实性进行分类。

根据本发明的一个实施例，在步骤S2中，将设计的所述Inception Net分类网络记为M，所述Inception Net分类网络包括深度神经网络A和3组Inception结构C，所述Inception结构C包括四个分支，每个所述分支分别由1*1卷积、3*3卷积、5*5卷积、3*3最大池化组成。

具体地，Inception Net网络结构又称google Net，是一种比VGG深度学习卷积网络更深的网络结构，但参数更少、计算效率更高。将新设计的Inception Net分类网络记为M，包括深度神经网络A(8层卷积神经网络)和3组Inception结构C相结合；所述Inception结构C采用四个分支，每个分支分别由1*1卷积、3*3卷积、5*5卷积、3*3最大池化组成；前一层的特征图经过四个分支后产生四个输出，这四个分支的输出在通道维度上叠加，作为下一层的输入。

在深度神经网络A的最后一个卷积层后增加多个Inception结构C，既增加了网络的宽度，也增加了网络对不同尺度的适应性，因此相比于深度神经网络A，Inception Net分类网络M具有更好的人脸活体分类器的分类效果。

一般来说，提升深度神经网络A网络性能最直接的办法就是增加网络深度和宽度，但这也就意味着参数的巨量化，巨量参数容易产生过拟合，并且大大增加计算量。本发明中，如图2所示，Inception结构C可以对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图。因为1*1、3*3或5*5等不同的卷积运算与池化操作可以获得输入图像的不同信息，并行处理这些运算并结合所有结果将获得更好的图像表征。因此，新设计的Inception Net分类网络既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能，从而提高了训练效果。

由此，根据本发明实施例的非配合式人脸活体检测方法，人脸Inception net分类网络在传统卷积神经网络的基础上，增加了Inception结构，该方法的技术优势为：可以大幅度提升人脸活体分类器的分类效果。

可选地，在本发明的一些具体实施例中，在步骤S3中，将设计的所述SSD检测网络记为S，所述SSD检测网络的主网络为卷积层增加4个卷积层的VGG16模型。

进一步地，步骤S3还包括：

对5个不同的所述卷积层的输出分别用两个3*3的卷积核进行卷积，其中一个卷积核输出为分类置信度，每个default box生成3个置信度，分别对应活体检测任务中的背景、真人、非活体人脸，另一个卷积核输出为目标位置的定位，每个default box生成x，y，w，h 4个坐标值。

5个卷积层经过priorBox层生成default box。

将上述三个计算结果分别合并后传递给损失层。

换句话说，SSD(Single-Shot MultiBox Detector)检测网络是一种直接预测边框的坐标与类别的目标检测算法，没有生成候选区域的过程。针对不同大小的物体检测，传统的做法是将图像转换成不同的大小，然后分别处理，最后将结果综合起来。

将新设计的SSD检测网络记为S，其主网络结构是将两个全连接层改成卷积层再增加4个卷积层的VGG16模型。对5个不同的卷积层(conv4_3、conv7、conv9_2、conv10_2、conv11_2)的输出分别用两个3*3的卷积核进行卷积，其中一个卷积核输出为分类置信度，每个default box生成3个置信度(分别对应活体检测任务中的背景、真人、非活体人脸)；另一个卷积核输出为目标位置的定位，每个default box生成4个坐标值(x，y，w，h)；另外这5个卷积层还经过priorBox层生成default box；最后将前面三个计算结果分别合并然后传递给损失层。其中，default box是指在feature map(特征图)的每个小格都有一系列固定大小的默认框。PriorBox层是用于部署特征图中每个位置(像素点)处的默认框的网络结构层。

一般来说，目标检测器会先用某种方法产生候选区域，然后在这些区域上进行分类和准确定位，但是这个重复采样过程会花费很多时间导致速度变慢。本发明新设计的SSD检测网络是一种可直接将图片中目标定位以及分类的网络，该网络会在几个特定层feature map中的每一个单元格上产生一系列固定大小的边框，所以该网络可以检测不同长宽比的目标。

由此，根据本发明实施例的非配合式人脸活体检测方法，SSD检测网络采取了onestage的思想，以此提高检测速度；并且网络中融入了Faster R-CNN中的anchors思想，并且做了特征分层提取并依次计算边框回归和分类操作。该方法的技术优势为：利用SSD检测网络可以适应多种尺度的电子设备边框的训练和检测任务，并且能够实时高精度的检测目标。

根据本发明的一个实施例，步骤S4的具体步骤如下：

S41、将所述图像集合Q分为训练集T和校验集V，使训练集T和校验集V中均含有带边框标注信息的图像G和不带标注信息的图像P。

S42、通过Inception Net分类网络M对训练集T中的部分人脸图像P进行前向计算，经过模型的各层后输出识别结果，根据当前网络输出与输入特征的标签差异应用批次随机梯度下降算法进行模型训练，不断调整Inception Net分类网络M中各个权值。

S43、利用校验集V中不带标注信息的图像P验证模型训练效果，当模型M在校验集V上准确率不能随着训练时间继续提升时，模型停止训练，获得模型M’。

S44、通过SSD检测网络S对训练集T中的部分带有边框标注信息的图像G进行前向计算，经过模型的各层后输出模型检测到的目标边框，以及每个边框对应的类别。

其中，x表示先验框与标注信息的相匹配情况；c为模型输出预测边框的置信度，l是模型的预测边框，g是标注的边框位置，a是用于调整置信度损失和定位损失之间比例的参数，N是与标注的边框信息相匹配的预测边框个数；应用批次随机梯度下降方法算法对公式(1)中的目标函数进行模型训练，不断调整SSD检测网络S中各个权值。

S46、利用校验集V中带边框标注信息的图像G验证模型训练效果，当模型S在校验集V上准确率不能随着训练时间继续提升时，模型停止训练，获得模型S’。

其中，在步骤S42中，通过Inception Net分类网络M对训练集T中的部分人脸图像P进行前向计算，经过模型的各层(共有n层，即M1,…Mn)后输出识别结果，每一层网络都由很多神经元组成，每个神经元都有预设的权值，然后根据当前网络输出与输入特征的标签差异应用批次随机梯度下降算法进行模型训练，不断调整Inception Net分类网络M中各个权值。

在步骤S44中，模型共有k层，即S1，……Sk，每一层网络都由很多神经元组成，每个神经元都有预设的权值。

在步骤S47中，经过训练的Inception Net分类网络M’与SSD检测网络S’，分别会对训练集中的图片有一个较好的识别效果；融合两个模型的结果会比单一模型的判别能力更强，记为模型D。采用的融合方法是：当图片经过M’和S’后，将两个模型输入真人类别的置信度相加，记为模型D的置信度得分。

由此，根据本发明实施例的非配合式人脸活体检测方法，利用SSD检测网络与人脸Inception net分类网络相融合的分类器对人脸的真实性进行分类，采用该方法的技术优势为：利用SSD检测网络检测人脸的环境信息，利用人脸Inception net对人脸部分内容进行分类，两个模型融合相对于单一分类器或检测器具有更好的活体检测效果。

如图3所示，根据本发明的一个实施例，步骤S5包括：

S51、通过摄像设备获取实时RGB图像A，将图像A输入到级联卷积神经网络模型中，进行人脸检测；若检测到人脸，则对人脸进行归一化，得到归一化人脸图像B；并且记录人脸在图像A中的位置k。

S52、将图像A输入步骤S4获得的模型M’，得到结果x。

S53、将图片B输入步骤S4获得的模型S’，得到边框集合Y。

S54、判断人脸位置k与边框集合Y中各个边框的重合率；如果存在重合率超过设定值的边框，则记录该边框的置信度u；在所有符合条件的u中，选取最大值v。

S55、将结果x与置信度最大值v输入给步骤S4所得的融合模型D，通过融合模型D给出图像A的人脸活体检测预测结果。

具体地，在步骤S51中，通过摄像设备获取实时RGB图像A，将图像A输入到级联卷积神经网络(Cascade CNN)模型中，进行人脸检测；若检测到人脸，则将图像A中的人脸区域图片输入给人脸关键点检测模型进行人脸关键点定位，并通过计算关键点到标准关键点的仿射变换，将不同姿态下的人脸图片变换到标准姿态下的人脸图片，获得归一化人脸图像B；并且记录人脸在图像A中的位置k。

在步骤S53中，由于模型S’会产生大量的预测边框，然而这些预测边框会存在大量的错误、重叠，因此通过非极大值抑制算法，去除掉重叠或错误的预测边框，得到边框集合W。

换句话说，在建立了上述训练模型之后，对实时图像进行检测时，首先通过摄像设备获取实时图像，判断是否检测到人脸，若检测到人脸，则进行归一化处理，得到归一化人脸图像B，并且记录人脸在图像A中的位置k，将图像A和图像B分别输入到上述步骤S4获得的模型中，得到不同结果，再判断人脸位置k与边框集合Y中各个边框的重合率，最后将结果与置信度最大值输入给融合模型，即可预测人脸活体检测结果。

总而言之，根据本发明实施例的非配合式人脸活体检测方法，通过将InceptionNet分类网络与SSD检测网络配合使用，极大地提高了人脸活体检测的精确度与速度，利用SSD检测网络可以适应多种尺度的电子设备边框的训练和检测任务，并且能够实时高精度的检测目标。本发明使用的活体检测方法不需要增添摄像头以外的硬件设备，且不需要待测人员配合，能够达到超实时的人脸活体检测速度，成本低廉，使用方便。

此外，本发明还提供一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的非配合式人脸活体检测方法100。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的非配合式人脸活体检测方法100。

如图4所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法100。

进一步地，如图4所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种非配合式人脸活体检测方法，其特征在于，所述方法包括以下步骤：

S1、获取模型训练用活体检测图像集合，并对所述图像集合进行处理；

S2、设计Inception Net分类网络；

S3、设计SSD检测网络；

S4、通过所述Inception Net分类网络和所述SSD检测网络对所述图像集合进行模型训练；

S5、获取实时图像，根据模型训练的结果预测所述实时图像是否为人脸活体；

步骤S1包括：

S11、通过摄像设备批量保存活体检测图像集合Q；

S12、对所述图像集合Q中的第一集合图像进行边框标注，获取有边框标注信息的图像G和不带标注信息的图像P，其中所述第一集合图像是所述图像集合Q的子集；

步骤S4包括：

S47、当图片经过M’和S’后，将两个模型输入真人类别的置信度相加，记为模型D的置信度得分；

所述Inception Net分类网络包括深度神经网络A和3组Inception结构C，所述Inception结构C包括四个分支，每个所述分支分别由1*1卷积、3*3卷积、5*5卷积、3*3最大池化组成；

在所述的步骤S3中，将设计的所述SSD检测网络记为S，所述SSD检测网络的主网络为卷积层增加4个卷积层的VGG16模型；

所述步骤S3还包括：

对5个不同的所述卷积层的输出分别用两个3*3的卷积核进行卷积，其中一个卷积核输出为分类置信度，每个default box生成3个置信度，分别对应活体检测任务中的背景、真人、非活体人脸，另一个卷积核输出为目标位置的定位，每个default box生成x，y，w，h 4个坐标值；

5个卷积层经过priorBox层生成default box；

将上述三个计算结果分别合并后传递给损失层；

所述步骤S5包括：

S51、通过摄像设备获取实时RGB图像A，将图像A输入到级联卷积神经网络模型中，进行人脸检测；若检测到人脸，则对人脸进行归一化，得到归一化人脸图像B；并且记录人脸在图像A中的位置k；

S52、将图像A输入步骤S4获得的模型M’，得到结果x；

S53、将图片B输入步骤S4获得的模型S’，得到边框集合Y；

S54、判断人脸位置k与边框集合Y中各个边框的重合率；如果存在重合率超过设定值的边框，则记录该边框的置信度u；在所有符合条件的u中，选取最大值v；

2.根据权利要求1所述的方法，其特征在于，在步骤S51中，对人脸进行归一化的步骤为：

将图像A中的人脸区域图片输入给人脸关键点检测模型进行人脸关键点定位，并通过计算关键点到标准关键点的仿射变换，将不同姿态下的人脸图片变换到标准姿态下的人脸图片，获得归一化人脸图像B。

3.根据权利要求1所述的方法，其特征在于，在步骤S53中，通过非极大值抑制算法，去除掉重叠或错误的预测边框，得到边框集合W，并通过边框集合W进行后续操作。

4.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-3中任何一项所述的方法。