CN106845427B - 一种基于深度学习的人脸检测方法和装置 - Google Patents
一种基于深度学习的人脸检测方法和装置 Download PDFInfo
- Publication number
- CN106845427B CN106845427B CN201710061257.1A CN201710061257A CN106845427B CN 106845427 B CN106845427 B CN 106845427B CN 201710061257 A CN201710061257 A CN 201710061257A CN 106845427 B CN106845427 B CN 106845427B
- Authority
- CN
- China
- Prior art keywords
- processing
- external image
- image
- pixel point
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于深度学习的人脸检测方法和装置,该方法包括:获取包括至少一个人脸图像的外部图像;对所述外部图像进行缩放处理,得到第一外部图像;利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应第一预定维度向量;在所述第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框;利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框;利用全连接层对所述第二数目定位框对应的像素点的第二预定维度向量进行处理,得到所述人脸图像。本发明还公开了相应的人脸检测装置。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的人脸检测方法和装置。
背景技术
当前,随着模式识别和图像处理技术的发展,基于多特征融合的人脸识别技术越来越受到重视,其主要应用在身份识别系统中,比如考勤系统、银行自服务系统、公安系统等,实现快速确定人员身份。当图像中包括多个人脸时,则无法确定图像中包含人脸的数目。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的人脸检测方法和装置,以力图解决或者至少缓解上面存在的问题。
第一方面,本发明实施例提供了一种基于深度学习的人脸检测方法,该方法包括:
获取包括至少一个人脸图像的外部图像;
对所述外部图像进行缩放处理,得到第一外部图像;
利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应第一预定维度向量;
在所述第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框;
利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框;
利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像,其中,所述第三外部图像中的每个像素点对应第二预定维度向量。
可选地,在根据本发明的方法中,所述对所述外部图像进行缩放处理,得到第一外部图像,包括:
在得到所述外部图像后,确定所述外部图像的宽度范围是否为宽度阈值范围;
在确定所述外部图像的宽度范围不是所述宽度阈值范围时,将所述外部图像的宽度范围设置为等于所述宽度阈值范围,并根据所述外部图像的图像比例对所述外部图像进行处理,得到第一处理图像;
确定所述第一处理图像的长度范围是否大于且等于长度阈值范围,在确定所述第一处理图像的长度范围大于且等于所述长度阈值范围后,将所述第一处理图像的长度范围设置为等于所述长度阈值范围,并根据所述第一处理图像的图像比例对所述第一处理图像进行处理,得到第一外部图像。
可选地,在根据本发明的方法中,所述第二卷积算子包括第一数目参数,所述全连接层包括第二数目参数,所述第一数目参数和所述第二数目参数是利用反向传播算法计算得到的。
可选地,在根据本发明的方法中,所述利用第二卷积算子对每个像素点的预定维度向量进行处理,得到第二数目定位框,包括:
利用第二卷积算子中的所述第一数目参数对每个所述像素点的预定维度向量进行处理,得到第二处理数目定位框,每个所述第二处理数目定位框对应有一个第一人脸概率值;
在第二处理数目定位框中选取所述第一人脸概率值大于第一预定概率值的定位框,得到第二目标数目定位框;
利用非极大抑制算法对所述第二目标数目定位框进行处理,得到第二数目定位框。
可选地,在根据本发明的方法中,所述利用全连接层对所述第三外部图像中的每个像素点对应的预定维度向量进行处理,得到所述人脸图像,包括:
在利用全连接层中的所述第二数目参数对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理后,得到第三处理数目定位框,每个所述第三处理数目定位框对应有一个第二人脸概率值;
在第三处理数目定位框中选取所述第二人脸概率值大于第二预定概率值的定位框,得到第三目标数目定位框;
利用非极大抑制算法对所述第三目标数目定位框进行处理,得到所述人脸图像。
第二方面,本发明的实施例提供一种基于深度学习的人脸检测装置,该装置包括:
图像获取单元,用于包括至少一个人脸的外部图像;
第一处理单元,用于对所述外部图像进行缩放处理,得到第一外部图像;
第二处理单元,用于利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应预定维度向量;
设定单元,用于在所述第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框;
第三处理单元,用于利用第二卷积算子对每个像素点的预定维度向量进行处理,得到第二数目定位框;
第四处理单元,用于利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像,其中,所述第三外部图像中的每个像素点对应第二预定维度向量。
可选地,在根据本发明的装置中,所述第一处理单元还用于:
在得到所述外部图像后,确定所述外部图像的宽度范围是否为宽度阈值范围;
在确定所述外部图像的宽度范围不是所述宽度阈值范围时,将所述外部图像的宽度范围设置为等于所述宽度阈值范围,并根据所述外部图像的图像比例对所述外部图像进行处理,得到第一处理图像;
确定所述第一处理图像的长度范围是否大于且等于长度阈值范围,在确定所述第一处理图像的长度范围大于且等于所述长度阈值范围后,将所述第一处理图像的长度范围设置为等于所述长度阈值范围,并根据所述第一处理图像的图像比例对所述第一处理图像进行处理,得到第一外部图像。
可选地,在根据本发明的装置中,所述第二卷积算子包括第一数目参数,所述全连接层包括第二数目参数,所述第一数目参数和所述第二数目参数是利用反向传播算法计算得到的。
可选地,在根据本发明的装置中,所述第三处理单元还包括:
利用第二卷积算子中的所述第一数目参数对每个所述像素点的第一预定维度向量进行处理,得到第二处理数目定位框,每个所述第二处理数目定位框对应有一个第一人脸概率值;
在第二处理数目定位框中选取所述第一人脸概率值大于预定概率值的定位框,得到第二目标数目定位框;
利用非极大抑制算法对所述第二目标数目定位框进行处理,得到第二数目定位框。
可选地,在根据本发明的装置中,所述第四处理单元还用于:
在利用全连接层中的所述第二数目参数对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理后,得到第三处理数目定位框,每个所述第三处理数目定位框对应有一个第二人脸概率值;
在第三处理数目定位框中选取所述第二人脸概率值大于预定概率值的定位框,得到第三目标数目定位框;
利用非极大抑制算法对所述第三目标数目定位框进行处理,得到所述人脸图像。
根据本发明的技术方案,对获取到图像进行处理得到同一大小的图像并同一大小的图像进行多次卷积计算,并对进行卷积计算后的图像进行全连接层计算,最终得到人脸图像,使得计算更加精确。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种人脸检测方法的流程图;
图2示出了本发明实施例所提供的一种人脸图像的示意图;
图3示出了本发明实施例所提供的一种反向传播结构示意图;
图4示出了本发明实施例所提供的一种人脸检测装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明的一个实施例的人脸检测方法的流程图。如图1所示,该方法始于步骤S110。
在步骤S110中,获取包括至少一个人脸图像的外部图像。该外部图像中包括多个人脸图像,每个人脸图像可以是正面对如摄像头的图像,也可以是侧脸面对如摄像头的人脸图像。该外部图像可以是通过移动终端如手机或PC中的摄像头拍摄的图像,也可以是通过如房间监控摄像头、相机等拍摄的图像,本发明对此不作任何限制。
在步骤S120中,对外部图像进行缩放处理,得到第一外部图像。
在一种实施方式中,在得到外部图像后,确定外部图像的宽度范围是否为宽度阈值范围。在确定外部图像的宽度范围不是宽度阈值范围时,将外部图像的宽度范围设置为等于宽度阈值范围,并根据外部图像的图像比例对外部图像进行处理,得到第一处理图像。确定第一处理图像的长度范围是否大于且等于长度阈值范围,在确定第一处理图像的长度范围大于且等于长度阈值范围后,将第一处理图像的长度范围设置为等于长度阈值范围,并根据第一处理图像的图像比例对第一处理图像进行处理,得到第一外部图像。
在一个实施例中,获取的外部图像的宽边为1000pixel、长边为1000pixel时,判断外部图像的宽边是否为宽度阈值范围,该宽度阈值范围可以是480pixel、600pixel或750pixel中的任意一个值,也可以在具体应用中随机选取。如宽度阈值范围为600pixel时,外部图像的宽边与宽度阈值范围不相同,此时,将外部图像的宽边设置为600pixel,根据外部图像的图像比例(1:1)对外部图像进行缩小处理,得到第一处理图像(600pixel*600pixel),判断第一处理图像的长边是否大于且等于长度阈值范围,该长度阈值范围为预先设置的阈值如1250pixel。该第一处理图像的长边小于长度阈值范围,则得到第一外部图像(600pixel*600pixel)。
在一个实施例中,获取的外部图像的宽边为750pixel、长边为1500pixel时,判断外部图像的宽边是否为宽度阈值范围,该宽度阈值范围可以是480pixel、600pixel或750pixel中的任意一个值,也可以在具体应用中随机选取。如宽度阈值范围为750pixel时,外部图像的宽边与宽度阈值范围相同,该外部图像即为第一处理图像。随后,判断第一处理图像的长边是否大于且等于长度阈值范围,该长度阈值范围为预先设置的阈值如1250pixel。该第一处理图像的长边(1500pixel)大于长度阈值范围,将外部图像的长边设置为1250pixel,根据外部图像的图像比例(1:2)对外部图像进行缩小处理,则得到第一外部图像(625pixel*1250pixel)。
不过应当理解,上文的宽度阈值范围和长度阈值范围仅仅是示意性的,本发明不受限于此,具体的范围可视具体情况而定。
在步骤S130中,利用第一卷积算子对第一外部图像进行卷积处理,得到第二外部图像,第二外部图像中的每个像素点对应第一预定维度向量。其中,利用第一卷积算子对第一外部图像进行多次卷积处理,每一次处理时第一卷积算子中的参数都不相同,具体应用应视情况而定,最终得到第二外部图像,第二外部图像的长和宽分别为第一外部图像的如1/16。如,第一外部图像为500pixel*1000pixel,第二外部图像为500/16pixel*1000/16pixel的。每个像素点对应的第一预定维度向量的维度一般为512维。本发明中的卷积算子在现有技术中已有详细的计算过程,此处不再进行过多叙述。不过应当理解,所有可以实现对图像进行卷积的算子和算法都在本发明的保护范围内。
在步骤S140中,在第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框。
定位框的面积包括有64*64、128*128、256*256和512*512,定位框的长宽比为1:2、1:1和2:1,每个面积对应一个长宽比,最终得到12个定位框。例如,在第二外部图像为256pixel*256pixel时,最终得到的定位框的数目为256*256*12个。
在步骤S150中,利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框。其中,第二卷积算子包括第一数目参数,第一数目参数可以利用反向传播算法计算得到,该反向传播算法下文进行叙述。
在一种实施方式中,利用第二卷积算子中的第一数目参数对每个像素点的第一预定维度向量进行处理,得到第二处理数目定位框,每个第二处理数目定位框对应有一个第一人脸概率值。在第二处理数目定位框中选取第一人脸概率值大于第一预定概率值的定位框,得到第二目标数目定位框。利用非极大抑制算法对第二目标数目定位框进行处理,得到第二触目定位框。在实际应用中会利用第二卷积算子对第一预定维度向量进行多次处理,每一次处理时第二卷积算子中的第一数目参数都不相同,具体应用应视情况而定。
以第二外部图像为256pixel*256pixel为例进行说明,在具体应用中,第二外部图像的大小通过步骤S120进行处理得到,此处仅仅是示意性的。
在一个实施例中,第二外部图像中包括有256*256个像素点,每个像素点对应的第一预定维度向量的维度都是512维的。预先利用反向传播算法计算得到的第二卷积算子中第一数目参数的数目为如512个,利用上述参数对每个像素点的第一预定维度向量进行处理,得到第二处理数目定位框,第二处理数目定位框的数目为N1,每个第二处理数目定位框都对应有一个第一人脸概率值。在第二处理数目定位框中选取第一人脸概率值大于第一预定概率值的定位框,或者将所有的第一人脸概率值按照从大到小进行排序,选取预定数目即可,该预定数目是预先设置的,可根据实际情况确定,最终得到第二目标数目定位框,第二目标数目定位框的数目为N2。最后,利用非极大抑制算法(Non-Maximum Suppression,NMS)对第二目标数目定位框进行处理,即去掉相似度较高的定位框,相似度可以为两个定位框交集部分面积与两个定位框合集面积的比值,得到第二数目定位框,第二数目定位框的数目为N3。
在步骤S160中,利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到人脸图像。每个像素点对应的第二预定维度向量的维度一般为512维。全连接层包括第二数目参数,第二数目参数可以利用反向传播算法计算得到,该反向传播算法下文进行叙述。其中,池化(Pooling)算法和全连接层的具体计算过程,在现有技术中已有详细的解释,此处不再进行过多说明。
在一个实施例中,每个第二处理数目定位框都对应有相应的图像区域,对每个图像区域进行池化,池化后的图像区域为同一尺寸,该尺寸可视具体情况而定,最终得到一系列池化后的图像区域,这些图像区域拼接在一起后得第三外部图像。
在一种实施方式中,利用全连接层中的第二数目参数对第三外部图像中的每个像素点对应的第二预定维度向量进行处理后,得到第三处理数目定位框,每个第三处理数目定位框对应有一个第二人脸概率值。在第三处理数目定位框中选取第二人脸概率值大于第二预定概率值的定位框,得到第三目标数目定位框。利用非极大抑制算法对第三目标数目定位框进行处理,得到人脸图像。
在一个实施例中,依然以第二外部图像中包括有256*256个像素点为例进行说明,每个像素点对应的第二预定维度向量的维度都是512维的。预先利用反向传播算法计算得到的全连接层中第二数目参数的数目为512个,例如,当全连接层的输出是4096维的,全连接层的参数(第二数目参数)数目是512x4096个。利用上述参数对第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到第三处理数目定位框,第三处理数目定位框的数目为N4,每个第二处理数目定位框都对应有一个第二人脸概率值。在第三处理数目定位框中选取第二人脸概率值大于第二预定概率值的定位框,将所有的第二人脸概率值按照从大到小进行排序,选取预定数目即可,该预定数目是预先设置的,可根据实际情况确定,得到第三目标数目定位框。最后,利用非极大抑制算法(Non-Maximum Suppression,NMS)对第三目标数目定位框进行处理,即去掉相似度较高的定位框,相似度可以为两个定位框交集部分面积与两个定位框合集面积的比值,得到例如6个人脸图像,可参考图2。
第一预定维度向量与第二预定维度向量的维度相同,本发明对此不做任何限制。
反向传播算法的原理如下:
经典反向传播算法的示意图如图3所示。整个网络由输入层、隐含层和输出层构成,每层中含有若干节点,每个节点接受输入(一般是上层节点输出结果的某种线性组合),通过一个线性激活函数得到输出结果(线性激活函数(ReLU)或Sigmoid函数等)。以一个简单的三层神经网络模型(仅含有输入层、一个隐含层、输出层的结构)为例,正向计算的数学表达为:
其中f为激活函数,z为节点输入,a为节点输出。
反向传播算法是通过比较训练值(即通过上述(1)-(4)式计算得到的输出层计算结果)和观测值的不同,找到一种合理的调节系数(如上式中的W1,W2,)的方法,从而逐渐迭代得到可以逼近观测结果的神经网络。
反向传播的基本思想是,首先考虑每一个节点的梯度(局部梯度,即每个节点需要变化的量),该梯度只与其下一层与之关联的节点的梯度相关,而输出层的局部梯度可以通过比较训练值和观测值的差异计算得到,因此通过(反向)递推的方法可以求出每个节点的局部梯度;然后,由每个节点的局部梯度便可以确定节点之间的权值系数,即W1,W2,等的变化量。以上算法用数学公式描述为:
其中为输出层的局部梯度,为隐含层的局部梯度,β为学习率,一般取0-1之间的一个实数。为了提升算法的准确度,在进行迭代时,可以反复使用用预测和真值差别较大的样本来训练,可以提升预测的准确度。
以上反向传播算法的不足之处在于,当观测数据的维数增大时,每一层的权值矩阵中需要迭代的参数将平方级的增大,同时为了获得学习能力更好的网络,隐含层的数量也需要扩大,由此带来的时间代价是巨大的。可通过卷积神经网络算法实现对全连接层中参数的计算,卷积神经网络的核心思想是通过感知域和权值共享两个要点来降低需要待定的参量个数。不过应当理解,本发明仅仅是示意性的,实际情况视具体情况而定,所有可以用于计算得到全连接层中参数的算法都在本发明的保护范围内。
根据本发明的技术方案,对获取到图像进行缩小并进行多次卷积计算,并对进行卷积计算后的图像进行全连接层计算,最终得到人脸图像,使得计算更加精确。
图4示出了根据本发明实施例提供的一种人脸检测装置的结构图。如图4所示,该装置包括:图像获取单元410、第一处理单元420、第二处理单元430、设定单元440、第三处理单元450和第四处理单元460。
图像获取单元410用于包括至少一个人脸的外部图像。
第一处理单元420用于对所述外部图像进行缩放处理,得到第一外部图像。其中,第一处理单元420在得到所述外部图像后,确定所述外部图像的宽度范围是否为宽度阈值范围;在确定所述外部图像的宽度范围不是所述宽度阈值范围时,将所述外部图像的宽度范围设置为等于所述宽度阈值范围,并根据所述外部图像的图像比例对所述外部图像进行处理,得到第一处理图像;确定所述第一处理图像的长度范围是否大于且等于长度阈值范围,在确定所述第一处理图像的长度范围大于且等于所述长度阈值范围后,将所述第一处理图像的长度范围设置为等于所述长度阈值范围,并根据所述第一处理图像的图像比例对所述第一处理图像进行处理,得到第一外部图像。
第二处理单元430用于利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应第一预定维度向量。
设定单元440用于在所述第二外部图像中的每个像素点设置阈值数目的定位框,得到第一数目定位框。
第三处理单元450用于利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框。第四处理单元460用于利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像。
在一种实施方式中,第二卷积算子包括第一数目参数,所述全连接层包括第二数目参数,所述第一数目参数和所述第二数目参数是利用反向传播算法计算得到的。
在一种实施方式中,第三处理单元450利用第二卷积算子中的所述第一数目参数对每个所述像素点的第一预定维度向量进行处理,得到第二处理数目定位框,每个所述第二处理数目定位框对应有一个第一人脸概率值;在第二处理数目定位框中选取所述第一人脸概率值大于预定概率值的定位框,得到第二目标数目定位框;利用非极大抑制算法对所述第二目标数目定位框进行处理,得到第二数目定位框。
在一种实施方式中,第四处理单元460在利用全连接层中的所述第二数目参数对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理后,得到第三处理数目定位框,每个所述第三处理数目定位框对应有一个第二人脸概率值;在第三处理数目定位框中选取所述第二人脸概率值大于预定概率值的定位框,得到第三目标数目定位框;利用非极大抑制算法对所述第三目标数目定位框进行处理,得到所述人脸图像。
本发明实施例所提供的一种基于深度学习的人脸检测装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于深度学习的人脸检测方法,其特征在于,该方法包括:
获取包括至少一个人脸图像的外部图像;
对所述外部图像进行缩放处理,得到第一外部图像;
利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应第一预定维度向量;
在所述第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框;
利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框;
利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像,其中,所述第三外部图像中的每个像素点对应第二预定维度向量。
2.如权利要求1所述的方法,其特征在于,所述对所述外部图像进行缩放处理,得到第一外部图像,包括:
在得到所述外部图像后,确定所述外部图像的宽度值是否为宽度阈值;
在确定所述外部图像的宽度值不是所述宽度阈值时,将所述外部图像的宽度值设置为所述宽度阈值,并根据所述外部图像的图像比例对所述外部图像进行处理,得到第一处理图像;
确定所述第一处理图像的长度值是否大于或 等于长度阈值,在确定所述第一处理图像的长度值大于或 等于所述长度阈值后,将所述第一处理图像的长度值设置为所述长度阈值,并根据所述第一处理图像的图像比例对所述第一处理图像进行处理,得到第一外部图像。
3.如权利要求1所述的方法,其特征在于,所述第二卷积算子包括第一数目参数,所述全连接层包括第二数目参数,所述第一数目参数和所述第二数目参数是利用反向传播算法计算得到的。
4.如权利要求3所述的方法,其特征在于,所述利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框,包括:
利用第二卷积算子中的所述第一数目参数对每个所述像素点的第一预定维度向量进行处理,得到第二处理数目定位框,每个所述第二处理数目定位框对应有一个第一人脸概率值;
在第二处理数目定位框中选取所述第一人脸概率值大于第一预定概率值的定位框,得到第二目标数目定位框;
利用非极大抑制算法对所述第二目标数目定位框进行处理,得到第二数目定位框。
5.如权利要求3所述的方法,其特征在于,所述利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像,包括:
利用全连接层中的所述第二数目参数对所述第三外部图像中的像素点对应的第二预定维度向量进行处理,得到第三处理数目定位框,每个所述第三处理数目定位框对应有一个第二人脸概率值;
在第三处理数目定位框中选取所述第二人脸概率值大于第二预定概率值的定位框,得到第三目标数目定位框;
利用非极大抑制算法对所述第三目标数目定位框进行处理,得到所述人脸图像。
6.一种基于深度学习的人脸检测装置,其特征在于,该装置包括:
图像获取单元,用于包括至少一个人脸的外部图像;
第一处理单元,用于对所述外部图像进行缩放处理,得到第一外部图像;
第二处理单元,用于利用第一卷积算子对所述第一外部图像进行卷积处理,得到第二外部图像,所述第二外部图像中的每个像素点对应第一预定维度向量;
设定单元,用于在所述第二外部图像中的每个像素点设置第一阈值数目的定位框,得到第一数目定位框;
第三处理单元,用于利用第二卷积算子对每个像素点的第一预定维度向量进行处理,得到第二数目定位框;
第四处理单元,用于利用池化算法对每个所述第二数目定位框进行处理得到第三外部图像,利用全连接层对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理,得到所述人脸图像,其中,所述第三外部图像中的每个像素点对应第二预定维度向量。
7.如权利要求6所述的装置,其特征在于,所述第一处理单元还用于:
在得到所述外部图像后,确定所述外部图像的宽度值是否为宽度阈值;
在确定所述外部图像的宽度值不是所述宽度阈值时,将所述外部图像的宽度值设置为所述宽度阈值,并根据所述外部图像的图像比例对所述外部图像进行处理,得到第一处理图像;
确定所述第一处理图像的长度值是否大于或 等于长度阈值,在确定所述第一处理图像的长度值大于或 等于所述长度阈值后,将所述第一处理图像的长度值设置为所述长度阈值,并根据所述第一处理图像的图像比例对所述第一处理图像进行处理,得到第一外部图像。
8.如权利要求6所述的装置,其特征在于,所述第二卷积算子包括第一数目参数,所述全连接层包括第二数目参数,所述第一数目参数和所述第二数目参数是利用反向传播算法计算得到的。
9.如权利要求8所述的装置,其特征在于,所述第三处理单元还包括:
利用第二卷积算子中的所述第一数目参数对每个所述像素点的第一预定维度向量进行处理,得到第二处理数目定位框,每个所述第二处理数目定位框对应有一个第一人脸概率值;
在第二处理数目定位框中选取所述第一人脸概率值大于预定概率值的定位框,得到第二目标数目定位框;
利用非极大抑制算法对所述第二目标数目定位框进行处理,得到第二数目定位框。
10.如权利要求8所述的装置,其特征在于,所述第四处理单元还用于:
在利用全连接层中的所述第二数目参数对所述第三外部图像中的每个像素点对应的第二预定维度向量进行处理后,得到第三处理数目定位框,每个所述第三处理数目定位框对应有一个第二人脸概率值;
在第三处理数目定位框中选取所述第二人脸概率值大于预定概率值的定位框,得到第三目标数目定位框;
利用非极大抑制算法对所述第三目标数目定位框进行处理,得到所述人脸图像。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710061257.1A CN106845427B (zh) | 2017-01-25 | 2017-01-25 | 一种基于深度学习的人脸检测方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710061257.1A CN106845427B (zh) | 2017-01-25 | 2017-01-25 | 一种基于深度学习的人脸检测方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN106845427A CN106845427A (zh) | 2017-06-13 |
| CN106845427B true CN106845427B (zh) | 2019-12-06 |
Family
ID=59121464
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710061257.1A Active CN106845427B (zh) | 2017-01-25 | 2017-01-25 | 一种基于深度学习的人脸检测方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106845427B (zh) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8077932B2 (en) * | 2006-12-18 | 2011-12-13 | Sony Corporation | Face recognition apparatus, face recognition method, gabor filter application apparatus, and computer program |
| CN104992167A (zh) * | 2015-07-28 | 2015-10-21 | 中国科学院自动化研究所 | 一种基于卷积神经网络的人脸检测方法及装置 |
| CN105184303A (zh) * | 2015-04-23 | 2015-12-23 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
| CN105956608A (zh) * | 2016-04-21 | 2016-09-21 | 恩泊泰(天津)科技有限公司 | 一种基于深度学习的目标定位、分类算法 |
| CN106248559A (zh) * | 2016-07-14 | 2016-12-21 | 中国计量大学 | 一种基于深度学习的白细胞五分类方法 |
| CN106295502A (zh) * | 2016-07-25 | 2017-01-04 | 厦门中控生物识别信息技术有限公司 | 一种人脸检测方法及装置 |
-
2017
- 2017-01-25 CN CN201710061257.1A patent/CN106845427B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8077932B2 (en) * | 2006-12-18 | 2011-12-13 | Sony Corporation | Face recognition apparatus, face recognition method, gabor filter application apparatus, and computer program |
| CN105184303A (zh) * | 2015-04-23 | 2015-12-23 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
| CN104992167A (zh) * | 2015-07-28 | 2015-10-21 | 中国科学院自动化研究所 | 一种基于卷积神经网络的人脸检测方法及装置 |
| CN105956608A (zh) * | 2016-04-21 | 2016-09-21 | 恩泊泰(天津)科技有限公司 | 一种基于深度学习的目标定位、分类算法 |
| CN106248559A (zh) * | 2016-07-14 | 2016-12-21 | 中国计量大学 | 一种基于深度学习的白细胞五分类方法 |
| CN106295502A (zh) * | 2016-07-25 | 2017-01-04 | 厦门中控生物识别信息技术有限公司 | 一种人脸检测方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN106845427A (zh) | 2017-06-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
| Almeida et al. | Parameter estimation for blind and non-blind deblurring using residual whiteness measures | |
| CN105657402B (zh) | 一种深度图恢复方法 | |
| EP3438929B1 (en) | Foreground and background detection method | |
| CN111832437A (zh) | 建筑图纸识别方法、电子设备及相关产品 | |
| US20170004353A1 (en) | Method and system for exacting face features from data of face images | |
| CN110795976A (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
| CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
| CN114266894B (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
| CN111179196B (zh) | 一种基于分而治之的多分辨率深度网络图像去高光方法 | |
| CN111860287B (zh) | 一种目标检测方法及装置、存储介质 | |
| CN117475357B (zh) | 基于深度学习的监控视频图像遮挡检测方法及系统 | |
| CN110346808A (zh) | 一种激光雷达的点云数据处理方法和系统 | |
| CN117115108B (zh) | 图像异常检测方法、装置及电子设备 | |
| US20250022153A1 (en) | Multi-view stereo with learnable cost metric for 3d reconstruction | |
| CN114266983B (zh) | 基于多源特征迁移与虚警剔除的sar图像目标检测方法 | |
| CN112861874B (zh) | 一种基于多滤波器去噪结果的专家场去噪方法及系统 | |
| CN113034432B (zh) | 一种产品缺陷检测方法、系统、装置及存储介质 | |
| CN111126177B (zh) | 人数统计的方法及装置 | |
| CN106845427B (zh) | 一种基于深度学习的人脸检测方法和装置 | |
| CN110610185B (zh) | 图像的显著目标的检测方法、装置及设备 | |
| CN110363288A (zh) | 一种神经网络的输入图像生成方法和系统 | |
| CN110349088A (zh) | 一种图像处理方法和系统 | |
| CN110363863A (zh) | 一种神经网络的输入数据生成方法和系统 | |
| CN113919476B (zh) | 一种图像处理方法、装置、电子设备以及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |