CN102136066B

CN102136066B - 一种视频序列中人体动作的识别方法

Info

Publication number: CN102136066B
Application number: CN 201110109440
Authority: CN
Inventors: 李宏亮; 覃耀辉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2013-04-03
Anticipated expiration: 2031-04-29
Also published as: CN102136066A

Abstract

本发明公开了一种视频序列中人体动作的识别方法，本发明针对现有的视频图像中人体动作识别方法在准确率和实时性之间的矛盾而提出的。本发明的方法包括特征提取和特征训练与识别两个过程。在特征提取中，通过计算视频序列的差分边缘直方图，大大减少了所使用的视频特征，提高了识别的速度，满足了人体动作识别的实时性；通过对目标区域和若干个子区域分别求像素变化直方图和边缘梯度直方图，可以提高动作细节识别的准确率。本发明的方法既提高了识别的准确率又满足了识别的实时性。

Description

一种视频序列中人体动作的识别方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种人体动作的识别方法。

背景技术

现在数字化网络化的步伐正在逐步加快，视频监控系统上升参与到全行业的管理中己成为事实，以其直观性和实时性的优点而在各行各业特别是安全防范领域倍受青睐。随着摄像机等监控设备成本的日益降低，视频监控系统可以广泛地应用于银行、邮电、监狱、法庭、大型公共设施、大型仓库及军事基地等场所，公共安全领域起着日益重要的作用。但是目前监控系统的功能大多仅仅停留在监控人员对视频信号的人工监视和事后录像分析上，并没有充分利用到目前计算机技术高速发展所提供的巨大计算能力上。事实上，多数监控系统还是模拟式的，少数数字式的系统也仅仅是提供多画面显示及硬盘录像类的简单功能。现有的监控系统都不能实现实时主动的监督作用，即监控的智能化和无人化。智能监控系统能实现全天实时监控，并自动分析摄像机捕捉的图像数据，当异常发生时，能向安全保卫人员准确及时的发送警报，从而避免犯罪的发生，而视频监控的核心在于对人体动作的识别。

目前对人体动作的识别，主要有3种方法：(1)模板匹配的方法；(2)状态空间的方法；(3)基于模型的方法。

模板匹配方法（template matching）其优点是算法单间容易实现，时间开销少，对相差比较大的行为识别效果较好，但对细微差别的行为识别效果较差，对运动持续时间的变化及噪声比较敏感。

近年来，采用状态空间法开展人体动作行为识别的研究较多，具有代表性的是马尔可夫网络，隐马尔可夫模型（HMM，Hidden Markov Model）已经被广泛应用于视频、图像序列的预测、估计、检测与行为识别中。然而，状态空间法需要大量的训练样本来训练状态转移概率参数其准确度受到训练样本数量影响很大，状态序列识别过程其原理也是模板匹配，而由于行为的复杂性只靠模板匹配显然是不够的。

现在更多的人体动作行为识别研究者更倾向于把目光投向使用自然语言描述的方法对人体动作行为进行识别，使得人体动作行为的语义描述分析研究得到了一定的进展，用于视频图像中人体动作行为的自然语言描述，如建立2D、3D模型：首先，使用3D模型对人体瞬时姿势描述，使构建的模型尽可能与人体目标姿态相似，即图像中人体的边缘信息，或是把行为看成是2D静态姿势序列，通过基于模型的方法，对人体二维、三维姿势、角度、位置以及与环境中其它一些目标相对距离的变化等进行重建与估计最后生成人体动作行为描述的自然语言文本。但基于模型的方法的构建复杂度高难于实现，而目前自然语言描述的特征提取方法提取的特征非常的多，一个一百帧左右的视频提取出几百到几千个特征，处理时间开销大，因而不易于应用于实时系统。最近国外主要是以自然语言描述和各种概率模型的建立来进行为识别，但行为识别仍处于初级阶段。

上述各种方法不能在识别正确率和实时性之间达到平衡，即要么识别正确率比较高，但计算复杂度高，实时性差；要么计算复杂度低，实时性好，但识别正确率比较低。

发明内容

本发明的目的是为了解决现有的视频图像中人体动作识别方法在准确率和实时性之间的矛盾，提出了一种视频序列中人体动作的识别方法。

本发明的技术方案是：一种视频序列中人体动作的识别方法，包括特征提取和特征训练与识别两个过程，其中，

特征提取包括如下步骤：

S1.计算视频序列的像素运动变化频率图；

S2.划分像素运动变化频率图的区域，确定像素运动变化频率图中值大于预先设定的第一阈值的区域，找到该区域中的像素的最小纵坐标和最小横坐标，以及最大纵坐标和最大横坐标，然后以此最小纵坐标和最小横坐标，最大纵坐标和最大横坐标确定一个目标区域，并按一定的比例在纵轴或横轴方向上划分若干个子区域；

S3.对目标区域和若干个子区域分别求像素变化直方图，具体如下：

S31.将目标区域的像素运动变化频率图中的值非均匀量化为N个量化值；

S32.分别求出目标区域和若干个子区域各个量化值对应在像素运动变化频率图中的值的和，这样每个区域就得到一个N维的直方图；

S33.将目标区域和若干个子区域的直方图平铺成一个多维的向量并归一化，得到像素变化直方图；

S4.对目标区域和若干个子区域分别求边缘梯度直方图；

S5.计算视频序列的差分边缘直方图，具体过程如下：计算当前帧与前一帧的差分图像，如果差分图像绝对值中的元素的最大值大于预设定的第二阈值，计算差分图像的边缘直方图，得到差分边缘直方图；

S6.求运动直方图，计算视频序列的运动历史图，对得到的运动历史图求边缘梯度直方图，进而得到运动直方图；

S7.将步骤S3得到的像素变化直方图、步骤S4得到的边缘梯度直方图、步骤S5得到的差分边缘直方图和步骤S6得到的运动直方图平铺成一个特征池，为最终得到的视频序列特征。

上述特征训练与识别具体包括如下步骤：

S8.对视频序列特征在线字典训练与学习，得到字典；

S9.用字典对视频序列特征进行k近邻局部约束线性编码；

S10.对编码后得到的编码特征进行监督距离度量学习得到一个马氏距离转换矩阵代替欧氏距离k均值聚类形成码书，然后计算每个视频编码后的特征对应于码书的统计直方图；

S11.用tf_idf分类器对统计直方图进行分类,得到最终的识别结果。

上述步骤S4求边缘梯度直方图的具体过程如下：

S41.对目标区域分别求出x方向，y方向上的梯度px，py，并求出幅值平方和梯度方向，然后再对幅值归一化；

S42.把梯度方向量化为M个量化值，分别在各个区域求出各个量化区间的幅值的和，得到各个区间的直方图，为一种新的特征；

S43.求各个区域的面积与各个区域幅值和的比值，然后将其与步骤S42得到直方图相乘，得到另一种新的特征；

S44.求各个区域各个量化值所对应该的幅值的和，同时求出其所对应的幅值个数，各方向幅值的和与幅值个数的比值作为第三种新的特征。

步骤S1计算视频序列的像素运动变化频率图的具体过程如下：将视频序列当前三帧差分并把差值结果累积，得到一张与视频帧同样大小的图像，然后对其各个点的值取平方再除以最大值，即为像素运动变化频率图。

本发明的有益效果：本发明的方法通过计算视频序列的差分边缘直方图，大大减少了所使用的视频特征，提高了识别的速度，满足了人体动作识别的实时性；通过对目标区域和若干个子区域分别求像素变化直方图和边缘梯度直方图，可以提高动作细节识别的准确率。

附图说明

图1是本发明的具体流程图。

图2是本发明实施例的跑步的像素变化概率图的示意图。

图3是本发明实施例的跑步像素变化概率图的统计直方图示意图。

图4是本发明实施例的差分图像梯度幅值示意图。

图5是本发明实施例的差分图像的边缘梯度直方图示意图。

图6是本发明实施例的运动历史图示意图。

图7是本发明实施例的运动历史图的边缘梯度直方图示意图。

图8是本发明实施例的识别结果示意图。

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图和具体的实施例对本发明作进一步的描述。

本实施例以视频监控为例。先调好监控区域，在监控区域内对从摄像头采集特定帧数图像，本实施例中帧数为100，也即是100帧构成一个视频，视频序列的大小为240*320，以四个人体动作——“打架、伸手、跑步、走路”为例进行说明。

本发明的视频序列中人体动作的识别方法，具体流程如图1所示，包括特征提取和特征训练与识别两个过程，其中，特征提取包括如下步骤：

S1.计算视频序列的像素运动变化频率图,具体过程如下：将视频序列当前三帧差分并把差值结果累积，得到一张与视频帧同样大小的图像，然后对其各个点的值取平方再除以最大值（也就是完成了图像的归一化操作），即得到了像素运动变化频率图。图2是“跑步”像素变化概率图的示意图。

S2.划分像素运动变化频率图的区域，确定像素运动变化频率图中值大于预先设定的第一阈值的区域，在这里预先设定的第一阈值取0.03（相对于0~1图像），进而找到该区域中的像素的最小纵坐标和最小横坐标，以及最大纵坐标和最大横坐标，然后以此最小纵坐标和最小横坐标，最大纵坐标和最大横坐标确定一个目标区域，并按一定的比例在纵轴或横轴方向上划分若干个子区域；

为了与人体图像结构相吻合，这里按3：4：8在横轴方向上分成三个子区域。

S3.对目标区域和三个子区域分别求像素变化直方图，具体如下：

S31.将目标区域的像素运动变化频率图中的值非均匀量化为N个量化值，这里N为自然数，为了达到最优效果，本实施例中N取8；

S32.分别求目标区域和三个子区域各个量化值对应在像素运动变化频率图中的值，这样每个区域就得到一个8维的直方图；

S33.将目标区域和三个子区域的直方图平铺成一个多维的向量并归一化，得到像素变化直方图，本实例一个视频最终只得到一个像素变化直方图，结果如图3所示；

S4.对目标区域和三个个子区域分别求边缘梯度直方图。具体过程如下：

S41.对目标区域分别求出x方向，y方向上的梯度px，py，并求出梯度幅值平方和梯度方向，然后再对幅值归一化；

P=px²+py²，这里P表示梯度幅值，p_y(x,y)表示y方向的梯度图、p_x(x,y)表示x方向的梯度图，θ表示梯度方向角度。

S42.把梯度方向量化为M个量化值，这里M为自然数，为了达到最优效果，本实施例中M取8，然后分别在各个区域求出各个量化区间的幅值的和，得到各个区间的直方图，为一种新的特征；

S45.把目标区域和三个子区域的S42、S43、S44三种子特征平铺成一个特征池并且归一化得到边缘梯度直方图，本实施例一个视频最终只得到一个这样的边缘梯度直方图。

S5.计算视频序列的差分边缘直方图，具体过程如下：计算当前帧I_i与前一帧I_i-1的差分图像d(x,y)=I_i-I_i-1，如果差分图像d(x,y)绝对值中的元素的最大值大于预设定的第二阈值，这里预设定的取7.65（相对于0~255灰度图像），计算差分图像d(x,y)边缘直方图，其方法使用步骤S4所述的方法；差分梯度幅值图像如图4所示，差分边缘直方图如图5所示，横坐标为特征维数，纵坐标为各个维数值大小，这里特征的维数为96维。一个视频如果有L帧，最多只得到L-1个这样的差分边缘直方图。

S6.计算视频序列的运动历史图，对得到的运动历史图求边缘梯度直方图，得到运动直方图；运动历史图如图6所示，本实施例一个视频最终只得到一个这样的运动直方图，如图7所示，横坐标为特征维数，纵坐标为各个维数值大小，这里特征的维数为96维。

步骤S3和步骤S6中也可以把100帧图像化分成好几个子片段来得到几个子像素变化直方图及子运动直方图。

S7.将步骤S3得到的像素变化直方图、步骤S4得到的边缘梯度直方图、步骤S5得到的差分边缘直方图和步骤S6得到的运动直方图平铺成一个特征池，为最终得到的视频序列特征。在平铺成一个特征池过程中，每一个差分边缘直方图特征共用像素变化直方图特征、边缘梯度直方图特征、运动直方图特征，这样一个视频最终只得到与差分边缘直方图数量一样多的特征，最多为L-1个特征，特征数量比其它自然语言描述方法提取的特征大大减少。

得到视频序列特征之后，进而可以进行特征训练与识别。为了进一步提高识别的准备率，采用如下步骤进行特征训练与识别：

S8.对样本视频序列特征在线字典训练与学习，得到字典；在线字典学习可具体参考文献Julien Mairal，Online Learning for Matrix Factorization and Sparse Coding，Journal ofMachine Learning Research 11(2010)，19-60。

S9.用训练得到的字典对视频序列特征进行k近邻局部约束线性编码；局部约束线性编码具体可参见文献：Wang,Jinjun；Yang,Jianchao，Locality-constrained Linear Coding for ImageClassification，Computer Vision and Pattern Recognition(CVPR),2010，3360—3367。

S10.对编码后得到的编码特征进行监督距离度量学习得到一个马氏距离转换矩阵代替欧氏距离k均值聚类形成码书，然后计算每个视频编码后的特征对应于码书的统计直方图。监督距离度量学习具体可参见文献：Kilian Q.Weinberger，Distance Metric Learning for LargeMargin Nearest Neighbor Classification，Journal of Machine Learning Research 10(2009)207-244。

S11.用tf_idf分类器对统计直方图进行分类,得到最终的识别结果。如图8所示。tf_idf分类器具体可参见文献：Salton,G.and Buckley，C.1988Term-weighting approaches inautomatic text retrieval.Information Processing&Managemen 24(5):513–523。

从识别结果可以看出：本方法用于人体动作行为识别是有效的，不仅能够识别简单的、跑步、走路的普通正常行为,也能够识别可疑的伸手行为（偷盗经常发生的伸手行为）复杂的打架行为。图8中对角线数据为正确识别率，其余数据为错误识别率，如第四行表示走路行为正确识别率为91%，其中有3%误判为打架行为，6%误判为伸手行为。

本发明的方法具有较快的执行速度，用matlab2009a开发的仿真程序，在双核2.5GCPU，2G内存的PC机平台上，对240*320像素的视频图像进行识别，识别每100帧的视频图像需要7~9s。如果程序改为用C，在VC环境下，可以达到实时的效果。

本发明的方法通过计算视频序列的差分边缘直方图，大大减少了所使用的视频特征，提高了识别的速度，满足了人体动作识别的实时性；通过对目标区域和若干个子区域分别求像素变化直方图和边缘梯度直方图，可以提高动作细节识别的准确率。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种视频序列中人体动作的识别方法，包括特征提取和特征训练与识别两个过程，其特征在于，特征提取包括如下步骤：

S1.计算视频序列的像素运动变化频率图，具体过程如下：将视频序列当前三帧差分并把差值结果累积，得到一张与视频帧同样大小的图像，然后对其各个点的值取平方再除以最大值，即为像素运动变化频率图；

S4.对目标区域和若干个子区域分别求边缘梯度直方图；

S6.计算视频序列的运动历史图，对得到的运动历史图求边缘梯度直方图，得到运动直方图；

2.根据权利要求1所述的视频序列中人体动作的识别方法，其特征在于，所述特征训练与识别具体包括如下步骤：

S8.对视频序列特征在线字典训练与学习，得到字典；

S9.用字典对视频序列特征进行k近邻局部约束线性编码；

3.根据权利要求1或2所述的视频序列中人体动作的识别方法，其特征在于，步骤S4求边缘梯度直方图的具体过程如下：

4.根据权利要求1或2所述的视频序列中人体动作的识别方法，其特征在于，步骤S2所述的按一定的比例在纵轴或横轴方向上划分若干个子区域为按照3：4：8在横轴方向上分成三个子区域。

5.根据权利要求1或2所述的视频序列中人体动作的识别方法，其特征在于，步骤S31和步骤S32所述的N为8。

6.根据权利要求3所述的视频序列中人体动作的识别方法，其特征在于，步骤S42所述的M为8。