CN103218603B

CN103218603B - 一种人脸自动标注方法及系统

Info

Publication number: CN103218603B
Application number: CN201310115471.2A
Authority: CN
Inventors: 丁宇新; 张逸彬; 燕泽权; 戴蔚; 高德坤; 柴光忍
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2016-06-01
Anticipated expiration: 2033-04-03
Also published as: CN103218603A

Abstract

本发明涉及一种人脸自动标注方法及系统，首先从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点递延给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；最后，读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。本发明的人脸自动标注方法及系统，使用方便，准确性高。

Description

一种人脸自动标注方法及系统

技术领域

本发明涉及一种人脸标注方法及系统，尤其涉及一种进行人脸自动准确标注方法及系统。

背景技术

视频人脸标注是视频信息挖掘的一种，现存并通用的技术是使用人工方式进行标注，其标注流程如图1。在传统手工标注的过程中，效率低下，耗时耗力。并且由于存在人为差异可能导致前后标注不一致。现有技术的视频人脸自动标注也只是基本处于实验研究阶段，并没有一个有效、稳定并且能准确自动标注的系统出现。

发明内容

本发明解决的技术问题是：构建一种人脸自动标注方法及系统，克服现有技术不具备有效、稳定并且能准确的自动标注系统的技术问题。

本发明的技术方案是：提供一种人脸自动标注方法，包括如下步骤：

人脸检测：从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻一帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻一帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列；

说话人脸序列标注：通过唇动检测模块根据人脸序列中说话人的唇动，检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；

未说话人脸序列标注：先对训练样本中的所有已经完成分类的人脸进行编码，对所有训练人脸通过LC-KSVD算法学习得到一个编码字典，当编码字典学习完成后，计算各个未分类的人脸的编码，用PSM方法定位特征，仿射变换，提取人脸特征并归一化后，使用LC-KSVD算法对该序列人脸的提取出的特征进行编码，并与已经学习到的编码字典进行匹配，设置一个阈值，当两个编码值的欧氏距离小于该阈值时，表示匹配成功，视频人脸分类是通过统计的方法进行分类的，完成标注功能。

本发明的进一步技术方案是：在人脸检测步骤中，还包括对截取的人脸图片进行肤色过滤，首先统计出人脸肤色的阈值特征，进而建立一个肤色模型，最终利用这个肤色模型对人脸图片进行基于像素点的数值分析，将不符合要求的图片过滤掉。

本发明的进一步技术方案是：在人脸检测步骤中，还包括对截取的人脸图片进行唇动过滤，利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

本发明的进一步技术方案是：在获取人脸序列过程中，在视频镜头在提取结束后，再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

本发明的进一步技术方案是：建立数据坐标，横轴为时间、纵轴为姓名、坐标为说话内容，将时间、姓名和说话内容三者融合。

本发明的进一步技术方案是：在人脸跟踪过程设置人脸序列长度下限，将错误人脸剔除。

本发明的技术方案是：构建一种人脸自动标注系统，包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元，所述人脸检测单元从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻一帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列；所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；所述未说话人脸序列标注模块读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。

本发明的进一步技术方案是：所述未说话人脸序列标注单元还包括分类模块，所述分类模块先对训练样本中的所有已经完成分类的人脸进行编码，对所有训练人脸通过LC-KSVD算法学习得到一个编码字典，当编码字典学习完成后，然后计算各个未分类的人脸的编码，然后进行匹配，设置一个阈值，当两个编码值的欧氏距离小于该阈值时，表示匹配成功。视频人脸分类是通过统计的方法进行分类的。

本发明的进一步技术方案是：所述人脸检测单元包括双阈值模块，所述双阈值模块在视频镜头在提取结束后，再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

本发明的进一步技术方案是：所述人脸检测单元还包括唇动过滤模块，所述唇动过滤模块利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

本发明的技术效果是：构建一种人脸自动标注方法及系统，首先从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻一帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；最后，读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。本发明的人脸自动标注方法及系统，使用方便，准确性高。

附图说明

图1为现有标注系统结构示意图。

图2为本发明标注系统流程图。

图3为本发明采用KLT跟踪算法流程图

图4为本发明人脸跟踪流程图

图5为本发明标注系统结构示意图。

图6为本发明标注系统具体结构示意图。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图2所示，本发明的具体实施方式是：提供一种人脸自动标注方法，包括如下步骤：

步骤100：人脸检测，即：从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻一帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割；对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列。

具体实施过程如下：首先使用Adaboost算法进行粗提取：检测窗口最小尺寸设置为20*20dpi，检测窗口的缩放因子为1.2，并将检测到的人脸进行80*80尺寸规格化，经过Adaboost算法提取，得到了一个人脸图片集合，在这个集合中并非都是人脸图片，还存在非人脸的错误图片，需要进行进一步的检测和过滤，从而剔除掉这部分错误的图片。这里采用了肤色模型过滤，通过函数modelSkinColor(IplImage*img)实现，首先统计出人脸肤色的阈值特征，进而建立一个肤色模型，最终利用这个肤色模型对人脸图片进行基于像素点的数值分析，将不符合要求的图片过滤掉。

载入视频后，读取所有帧，对每一帧图像进行人脸检测，将检测显示在视频在并保存下来，在检测的同时计算相邻帧的HSV颜色直方图差值，用于镜头分割之用。镜头分割使用空间颜色直方图的镜头边缘检测算法，考虑到视频受到光照影响严重，选用基于HSV空间的颜色直方图，因为H分量相对光照变化具有稳定性；镜头分割子中，其分割阈值默认设置为0.4，并且为针对不同视频环境进行准确分割，用户可以手动输入多个分割阈值进行分割并查看分割结果，找到最适合的分割阈值。

人脸跟踪提取人脸序列：基于序列的操作要优于基于单张人脸图像的操作，因为标注的数据量下降，并且以序列为标注单位可以大大提高正确率，该系统在人脸跟踪在镜头内部，使用KLT（Kanade-Lucas-Tomasi）基于角点的跟踪算法进行跟踪。该算法分为两个部分：Harris角点检测算法和KLT角点跟踪算法，首先采用Harris角点检测算法检测目标区域的角点，再使用KLT角点跟踪算法跟踪角点，因此，人脸的跟踪就是人脸区域内角点的跟踪。常见的处理方式是检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，依此进行下去。本文在镜头内，考查相邻一帧上的人脸，假设A、B来自相邻帧的人脸，运用Harris角点检测算法找到A的角点，再根据金字塔LK计算稀疏光流的方法查找在B中匹配的角点，并统计匹配个数m(c_i,c_i+1)，其中c_i表示A的角点，c_i+1表示B的角点。设定一个阈值，当m(c_i,c_i+1)大于该阈值时，判定这两个目标区域来自同一序列。

对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列。

步骤200：说话人脸序列标注，即：通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注。

具体实施过程如下：话者标注并为未说话者模块提供训练数据，系统使用话者检测进行说话人脸序列标注，话者检测也是获取训练数据过程。本文使用的话者检测技术首先使用动态时间归整算法来融合剧本和字幕信息，剧本拥有的是人物姓名和说话内容的信息，字幕信息是时间和说话内容的信息，通过建立说话内容的数据字典，将人物姓名，说话内容，时间三者相融合。具体实施例中，建立数据坐标，横轴为时间、纵轴为姓名、坐标为说话内容，将时间、姓名和说话内容三者融合。

根据已标注的说话人脸序列作为训练样本，使用PSM方法对人脸的一些特定区域逐个定位，再根据定位结果进行仿射变换进行人脸姿势矫正，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，归一化处理后作为该人脸特征，将该些人脸作为训练样本，提取的特征后用LC-KSVD算法对说话人脸的这些特征进行编码，来进行字典学习。

步骤300：未说话人脸序列标注，即：用PSM方法定位特征，仿射变换，提取人脸特征并归一化后，使用LC-KSVD算法对该序列人脸的提取出的特征进行编码，并与已经学习到的编码字典进行匹配，通过投票的方式，用来确定未说话人脸属于哪一类，完成标注功能。

具体实施过程如下：首先进行特征提取，基于全局的和基于局部的像素特征，使用PictorialStructuresModel方法进行定位，首先要读入定位模型，进行定位模型的初始化，再依次读入所有人脸序列，读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。

本发明的优选实施方式是：在人脸检测步骤中，还包括对截取的人脸图片进行肤色过滤，首先统计出人脸肤色的阈值特征，进而建立一个肤色模型，最终利用这个肤色模型对人脸图片进行基于像素点的数值分析，将不符合要求的图片过滤掉。

本发明的优选实施方式是：在人脸检测步骤中，还包括对截取的人脸图片进行唇动过滤，利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

优选实施过程如下：肤色模型虽然过滤掉了人脸图片集合中大部分的错误人脸图片，但是经过试验发现，在肤色模型过滤过程中，对于一些和人脸颜色十分近似的物体的过滤效果不是很好，比如，黄色地板和肉色的衣服等。为了克服这一问题，系统引入了唇色模型。为了实现唇色模型对错误人脸的过滤，首先进行了嘴部区域提取，通过函数modelLipColor(constIplImage*img)实现了此功能，输入的是这种提取采用的方法是利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域。同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

本发明的优选实施方式是：在获取人脸序列过程中，在视频镜头在提取结束后，再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

本文所设计的跟踪流程如图3，在从帧i到帧i+4使用KLT角点跟踪得到3个序列，当帧i+2中出现新人脸3时，形成一个新的序列；当帧i+4没有能和帧i+3人脸2相匹配的人脸时，序列1的跟踪结束。分析发现相差距离不大的帧之间由于人物运动过大，可能导致序列断裂而形成两个独立序列，但是这两个序列如果来源于同一镜头就很可能聚合到一起，因此，本文在视频镜头的基础上进行序列提取，在提取结束后，再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，即双阈值法。双阈值法可有效地将断裂的序列聚合起来。

人脸跟踪如图4，其中阈值1是KLT算法阈值，用来分割序列；阈值2是序列长度下限，用来做序列粗过滤，将短的序列过滤掉，将跟踪得到的序列保存起来，并可供用户查看，调整跟踪阈值，得到更准确的跟踪结果。

如图5本发明的技术方案是：构建一种人脸自动标注系统，包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元，所述人脸检测单元从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点递延给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列；所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；所述未说话人脸序列标注模块读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。

如图6所示，本发明人脸自动标注系统的具体实施过程如下：

首先使用Adaboost算法进行粗提取：检测窗口最小尺寸设置为20*20dpi，检测窗口的缩放因子为1.2，并将检测到的人脸进行80*80尺寸规格化，经过Adaboost算法提取，得到了一个人脸图片集合，在这个集合中并非都是人脸图片，还存在非人脸的错误图片，需要进行进一步的检测和过滤，从而剔除掉这部分错误的图片。这里采用了肤色模型过滤，通过函数modelSkinColor(IplImage*img)实现，首先统计出人脸肤色的阈值特征，进而建立一个肤色模型，最终利用这个肤色模型对人脸图片进行基于像素点的数值分析，将不符合要求的图片过滤掉。

人脸跟踪提取人脸序列：基于序列的操作要优于基于单张人脸图像的操作，因为标注的数据量下降，并且以序列为标注单位可以大大提高正确率，该系统在人脸跟踪在镜头内部，使用KLT（Kanade-Lucas-Tomasi）基于角点的跟踪算法进行跟踪。该算法分为两个部分：Harris角点检测算法和KLT角点跟踪算法，首先采用Harris角点检测算法检测目标区域的角点，再使用KLT角点跟踪算法跟踪角点，因此，人脸的跟踪就是人脸区域内角点的跟踪。常见的处理方式是检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点递延给下一帧，并进行相应的更新，依此进行下去。本文在镜头内，考查相邻帧上的人脸，假设A、B来自相邻帧的人脸，运用Harris角点检测算法找到A的角点，再根据金字塔LK计算稀疏光流的方法查找在B中匹配的角点，并统计匹配个数m(c_i,c_i+1)，其中c_i表示A的角点，c_i+1表示B的角点。设定一个阈值，当m(c_i,c_i+1)大于该阈值时，判定这两个目标区域来自同一序列。

说话人脸序列标注：话者标注并为未说话者模块提供训练数据，系统使用话者检测进行说话人脸序列标注，话者检测也是获取训练数据过程。本文使用的话者检测技术首先使用动态时间归整算法来融合剧本和字幕信息，剧本拥有的是人物姓名和说话内容的信息，字幕信息是时间和说话内容的信息，通过建立说话内容的数据字典，将人物姓名，说话内容，时间三者相融合。具体实施例中，建立数据坐标，横轴为时间、纵轴为姓名、坐标为说话内容，将时间、姓名和说话内容三者融合。

未说话人脸序列标注：首先进行特征提取，基于全局的和基于局部的像素特征，使用PictorialStructuresModel方法进行定位，首先要读入定位模型，进行定位模型的初始化，再依次读入所有人脸序列，读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。

本发明的优选实施方式是：所述未说话人脸序列标注单元还包括分类模块，分类，首先要先对训练样本中的所有已经完成分类的人脸进行编码，对所有训练人脸通过LC-KSVD算法学习得到一个编码字典，当编码字典学习完成后，计算各个未分类的人脸的编码，然后进行匹配，设置一个阈值，当两个编码值的欧氏距离小于该阈值时，表示匹配成功。视频人脸分类是通过统计的方法进行分类的。将同一个测试序列的所有人脸属于哪一类进行统计，记为“投票值”，如果测试人脸与该类中某个人脸匹配成功，则表示测试人脸对该类“投了一票”，当某一类在该人脸序列中占的比重值比其他类都大，那么该序列属于该类，这就是投票过程。

分类时使用基于视频特性进行优化的LC-KSVD（基于类标一致性的KSVD字典学习编码）算法，先学习到编码字典，再计算每个测试人脸的编码，并在序列的基础上进行分类。LC-KSVD算法在进行字典学习前要构造一个初始字典，作为KSVD算法迭代学习的输入，本发明使用的是基于序列的方式来优化初始字典的构造。方法具体描述如下：在每一类的每一个序列基础上均匀选择若干个人脸来构造D₀，假设字典元素数目为K，类别数目为N，tf_ij表示第i类的第j个序列，则D₀如下：

D₀=(d₀,d₁,...,d_k,....)(d_k∈tf_ij,i=1,2,..,N;k=1,2...,K)

D₀中每一列表示一个元素，每一个元素都有一个类标对应。当编码字典学习完成后，计算各个需要分类的人脸的编码。视频人脸分类通过在序列基础上统计分类结果的。首先将同一测试序列的所有样本对所有类进行投票，投票值为序列中各测试人脸的在每一类上的分类得分，计算公式为，

j = \arg \max_{j} (l = {Wx}_{i})

其中W为系数矩阵，x_i表示输入信号对应的编码值。S_j=[s₁,s₂,…,s_i,…s_C]^tj=1,…,n，其中S_j表示测试人脸j分类结果，n表示测试序列长度，C表示类别总数，s_j表示样本在类j上的得分值；再以序列为基础统计得分和，即其中n_i表示第i个序列长度；最后将该测试序列的类标定义为i=1,...,C。

本发明的优选实施方式是：所述人脸检测单元包括双阈值模块，所述双阈值模块在视频镜头在提取结束后，再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

本发明的优选实施方式是：所述人脸检测单元还包括唇动过滤模块，所述唇动过滤模块利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种人脸自动标注方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的人脸自动标注方法，其特征在于，在人脸检测步骤中，还包括对截取的人脸图片进行肤色过滤，首先统计出人脸肤色的阈值特征，进而建立一个肤色模型，最终利用这个肤色模型对人脸图片进行基于像素点的数值分析，将不符合要求的图片过滤掉。

3.根据权利要求1所述的人脸自动标注方法，其特征在于，在人脸检测步骤中，还包括对截取的人脸图片进行唇动过滤，利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。

4.根据权利要求1所述的人脸自动标注方法，其特征在于，在获取人脸序列过程中，在视频镜头在提取结束后，再将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

5.根据权利要求1所述的人脸自动标注方法，其特征在于，建立数据坐标，横轴为时间、纵轴为姓名、坐标为说话内容，将时间、姓名和说话内容三者融合。

6.根据权利要求1所述的人脸自动标注方法，其特征在于，在人脸跟踪过程设置人脸序列长度下限，将错误人脸剔除。

7.一种人脸自动标注系统，其特征在于，所述系统包括：

人脸检测单元：从截取的视频中检测出人脸，获取人脸图片集合，然后过滤出人脸图片集合，同时，获取相邻一帧图片的HSV颜色直方图差值，采用空间颜色直方图的镜头边缘检测算法进行镜头分割，对来自相邻帧的人脸，检测第一帧的目标区域内角点，并使用局部匹配的方法将这些角点延递给下一帧，并进行相应的更新，并统计匹配个数，依据匹配个数的阈值，依此进行下去获取人脸序列；

说话人脸序列标注单元，通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人，将说话人、说话内容及说话时间三者融合进行标注；

未说话人脸序列标注单元，读入每个序列上的人脸，逐个定位，再根据定位结果进行仿射变换，并提取变换后特征点附近固定大小圆形区域内的像素灰度值，作为该人脸特征。

8.根据权利要求7所述人脸自动标注系统，其特征在于，所述未说话人脸序列标注单元还包括分类模块，所述分类模块先对训练样本中的所有已经完成分类的人脸进行编码，对所有训练人脸通过LC-KSVD算法学习得到一个编码字典，当编码字典学习完成后，然后计算各个未分类的人脸的编码，然后进行匹配，设置一个阈值，当两个编码值的欧氏距离小于该阈值时，表示匹配成功，视频人脸分类是通过统计的方法进行分类的。

9.根据权利要求7所述人脸自动标注系统，其特征在于，所述人脸检测单元包括双阈值模块，所述双阈值模块在视频镜头在提取结束后，再将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法，此时调低阈值再检查是否可以聚合到一起，将断裂的序列聚合起来。

10.根据权利要求7所述人脸自动标注系统，其特征在于，所述人脸检测单元还包括唇动过滤模块，所述唇动过滤模块利用嘴部区域在人脸中的几何特征，按照数值比例得到嘴部区域，同时统计人脸中唇色的阈值特征，从而建立唇色模型，最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对，将那些蕴含在人脸图片集合中的杂质过滤掉。