CN114066932A

CN114066932A - 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法

Info

Publication number: CN114066932A
Application number: CN202111130790.1A
Authority: CN
Inventors: 欧林林; 许成军; 张旭环; 张鑫; 禹鑫燚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-02-18

Abstract

一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法，首先，本发明将RGB图像信息经过特征提取网络得到特征举证(feature map)。然后利用CPM网络回归人体2D关节点位置及每个关节对应的置信分数(Heat Map and PAFs)；然后将已获取的2D关节点信息和特征矩阵输入到ResNet残差块中回归3D姿态(Location Map)；最后，提出了一种优先冗余关联算法，将检测到的二维关键点和三维位置图分配给个体。此外，本发明针对多人人体姿态跟踪问题，提出一种基于贪婪策略的多人人体姿态跟踪算法，能够有效地跟踪多个人的三维姿态，即使在配对过程中由于关联错误或遮挡而缺少某些帧的情况下。本发明满足实时性和轻量级要求，可以应用于多种实际应用。

Description

一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法

技术领域

本发明涉及单目多人人体三维姿态估计和跟踪技术，分别提出一种基于深度学习的实时的多人人体三维姿态估计方法和基于贪婪匹配的人体姿态跟踪方法。特别地，针对多人人体三维姿态估计当中的实时性和遮挡问题，分别提出轻量级神经网络和关节优先级冗余策略。

背景技术

人体姿态信息感知即人体姿态估计(Human Pose Estimation)是计算机视觉中的一个重要任务，也是计算机理解人类动作、行为必不可少的一步，在人机交互、AR、VR和游戏等领域得到广泛应用。近年来，基于深度学习进行人体姿态估计的方法陆续被提出，且达到了远超传统方法的表现。在实际求解时，对人体姿态的估计常常转化为对人体关键点的预测问题，即首先预测出人体各个关键点的位置坐标，然后根据先验知识确定关键点之间的空间位置关系，从而得到预测的人体骨架。在之前的工作中，如：YANG Y,YAN H,DEHGHAN M,et al发表论文《Real-time human-robot interaction in complex environment usingkinect v2 image recognition》中，kinect深度相机被广泛用于三维人体姿态估计，但是基于深度信息对人体关节位置进行读取存在因遮挡而带来的深度模糊问题。为解决遮挡问题，多视角姿态信息融合通常是一个好的方法，利用不同视角下的估计结果，能够得到较为准确的姿态信息。但是，由于多视角信息融合计算量大，随着人数增加导致实时性能较差而不适用于多人人体姿态检测。得益于近年来深度学习的发展，基于图像的三维人体姿态估计也取得很大进展，在实时性和处理遮挡的问题上有很好效果。

发明内容

本发明要克服现有技术的上述缺点，提供一种实时的基于深度学习的多人人体三维姿态估计方法，在减少传感器数量的前提下，提高姿态估计实时性，保证了动作捕捉的精度。

本发明针对从相机视角获取的RGB图像或视频流，通过轻量级神经网络对当前相机视角下的人进行2D和3D姿态估计和跟踪。首先，本发明将RGB图像信息经过特征提取网络得到特征矩阵(feature map)。然后利用CPM网络回归人体2D关节点位置及每个关节对应的父关节(HeatMap and PAFs)；然后将已获取的2D关节点信息和特征矩阵输入到ResNet残差块中回归3D姿态(Location Map)；最后，提出了一种优先冗余关联算法，将检测到的二维关键点和三维位置图分配给个体。此外，本发明针对多人人体姿态跟踪问题，提出一种基于贪婪策略的多人人体姿态跟踪算法。该算法能够有效地跟踪多个人的三维姿态，即使在配对过程中由于关联错误或遮挡而缺少某些帧的情况下。

一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法，具体步骤如下：

步骤1：设计神经网络结构；

本发明使用轻量级的MobileNet V3作为骨干网络，并将其修改为具有多阶段多任务的结构。网络有两个输出分支，包括2D姿态估计分支和3D姿态估计分支，其中2D姿态分支同时回归keypoint heatmap和paf，3D姿态分支回归Location Map。给定一个RGB图像，通过轻量级主干获取特征矩阵，并将其输入到二维分支，基于CPM得到keypoint heatma和paf。然后，利用ResNet将特征矩阵和2D姿态输入到三维分支网络中，在2D人体肢体像素处回归3D Location Map。此外，我们监督不同阶段之间的Location Map，以减少网络对数据集的依赖。假设预定义的节点数为N，网络将输出固定数量的maps，包括N个HeatMap、2N个paf和3N个Location Map。输出表示如下所示：

Heatmaps：图像中所有人体关节点可能存在的像素位置。记图像中所有人体2D姿态集合为

每一个姿态p_i有15关节点，每个关节点包含对应的像素坐标

和对应的置信度

表示神经网络对该关节点的检测评价，当

时则说明该关节点未被检测到。其中i表示姿态在图像中的编号，j表示姿态对应的关节编号。

PAFs：一个二维矢量的集合，在每个关节点处的向量表示相应身体部位的2D方向。其作用是将检测到的2D关节点正确分配给对应的人。

Location map：关节特征通道用来存储在2D像素位置回归的3D坐标。对于每个关节，需要三个maps分别用来表示对应的x，y，z估计坐标。对于尺寸为W×H的图像，使用3n张尺寸为W/k×H/k的位置图来存储所有n个关节的三维位置，其中k为降采样因子。与HeatMap类似，网络拟合的3D姿态记为

每一个3D姿态P_i包含15个关节，每个关节

由对应的x,y,z坐标组成。

步骤2：构建损失函数；

在本发明中，我们基于2D和3D姿态以及监督过程构建损失函数。在训练期间，L₂损失应用于所有分支。2D姿态损失L_2D是由HeatMap和PAF与其真实值之间的像素位置误差。3D姿态损失L_loc是由Location Map和其真实值之间的关节误差。监督损失L_sup是不同阶段的Location Map误差。整体损失L_total表示如下：

其中，N和S分别是关节和网络阶段的数量，p表示每个像素位置，*上标表示真实情况。w_2D，w_loc和w_sup是惩罚系数。

步骤3：重建多人人体三维姿态；

根据Keypoint HeatMap和Location Map中关键点的位置坐标，我们需要将检测到的关节与相应的个体进行关联。直接使用PAF评分来分配关节，由于遮挡，姿势信息是不可靠的。在推理过程中，由于输入图像中的人数未知，我们使用根深度映射来反映算子数。一般来说，身体中间的躯干关节(颈、臀)不闭塞，这是根关节的最佳选择。在本研究中，我们将人体的颈关节视为根关节。如果一个人的根关节是可见的，我们继续分配关节给这个人。否则，这个人在场景中是看不到的，姿势也无法预测。

为了解决遮挡问题，本发明在分配关节时优先考虑未被遮挡的人。遮挡状态可以在网络预测的深度图(Location Map Z通道)中推断出来。根深度值代表每个人的绝对位置。因此，每个人的优先级是按照预测的根深度从近到远排序，而不是PAF分数。我们的网络允许从相应肢体的任何2D关节读取肢体的位置。对于个体，首先在根关节读取基本姿势

这个基本姿态是数据集中的平均姿势。然后，我们继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势。如果关节有效，肢体姿势将替换基本姿势的关节。否则，沿着运动链检查该肢体的其他关节。如果肢体的所有关节都无效，则肢体姿势无法细化。最后，提出了另一种基于相机模型进一步减少误差的细化方法。给定可见的2D坐标和关节深度，可以通过相机模型恢复3D关节，如下所示：

[X，Y，Z]^T＝ZK^-1[x，y，1]^T (2)

其中，[X，Y，Z]和(x，y)分别表示关节的3D和2D坐标，K是相机内参矩阵。

总的来说，在该过程中，姿态估计器会输出每一帧中每个人的2D和3D姿态。每个姿态都由其对应的关节点组成，其中2D姿态信息包含每个关节点在图像中对应的像素坐标值和关节点对应的置信度；3D姿态信息包含每个关节点相对于根关节的空间坐标位置，并最终都表示在相机坐标下。

步骤4：跟踪连续时间序列上的多人三维姿态；

上述3D姿态估计方法仅处理当前帧的数据。因此，不能在连续帧中识别属于同一个人的3D姿势。在这一阶段，利用每帧的三维姿态估计结果，设计了一种基于贪心策略的连续帧三维位姿跟踪算法，解决了多人姿态在时间序列上的跟踪问题。

在这一步，我们需要考虑时间索引t重新定义3D姿态的符号。例如,S^t表示t时刻所有3D骨架构成的集合，

表示当前时刻的编号为i的姿态,

表示该骨架的第n个关节,而

是用来表示第n个关节在t时刻是否存在。

该算法将t帧中未排序的3D位姿作为输入，然后输出带有时间信息的4D姿态序列。我们采用前向搜索的方法，在连续帧中找到属于同一人的骨架。通过贪婪算法计算对应代价来连接不同帧间的骨架。该方法在配对过程中，在因关联错误或遮挡而导致骨架在某些帧中不存在的情况下，仍然保证骨架能被有效跟踪。因为当前阶段仅存在三维姿态，骨架之间代价函数可被定义为：

其中，||·||表示姿态

和姿态

之间的欧氏距离，n＝(1，2，3，...，N)表示关节编号，以及N为骨架的总关节数量。

姿态跟踪分为三种情况。在(a)中,前后帧中的姿态数量相同，不同帧之间的骨架通过相应的置信度连接。在(b)中，当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1，它将继续向前搜索并与骨架配对，直到t-τ_t。在(c)中，当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后，当前帧中仍然有一个未配对的骨架(骨架3)，此时应该为骨架3分配一个ID。

将当前帧t定义为待配对帧，将搜索帧初始化为t-1。通过计算当前待匹配帧和搜索帧中所有配对骨架的匹配度。序列中所有骨架对都按ζ的递增值进行排序。在对所有候选骨架对应进行排序后，如果ζ_min小于设置阈值δ，则可以认为该配对ζ是有效的。当前帧

中的姿态会继承搜索帧

中已成功配对姿态的ID信息。同时，ζ_min和其相关的“冗余对”应予删除。如果在当前帧中出现了一些未匹配的骨架，这意味着出现了一些新的骨架，或者这些骨架在关联过程中由于错误或遮挡而失去了跟踪。此时，设搜索框架为t-2，继续重复配对和更新的过程。这个过程持续到t-τ_s，其中τ_s是最大允许搜索帧的帧数。若此时仍然存在未配对的姿态，则可以认为该姿态是新出现的，并且为该姿态赋予一个独有的ID信息。

本发明的优点是：

1.本发明结合设计了一个满足实时性要求的轻量级单目多人人体3D姿态估计器，用于场景中的多人人体3D关节点位置估计。通过人体运动学约束，结合关节“冗余”和姿态编码优先级，解决不同场景中人与人之间的遮挡问题。

2.本发明设计了一种基于贪心策略的连续帧三维位姿跟踪算法，解决了场景中不同人的连续跟踪和识别问题，提高了系统的稳定性。

附图说明

图1是本发明的单目多人人体姿态估计网络结构的示意图。

图2是本发明的人体姿态估计网络的示意图。

图3是本发明的网络结构组成的示意图。

图4(a)～图4(c)是本发明的姿态跟踪示意图，其中图4(a)前后帧中的姿态数量相同，不同帧之间的骨架通过相应的置信度连接；图4(b)当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1，它将继续向前搜索并与骨架配对，直到t-τ_t；图4(c)当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后，当前帧中仍然有一个未配对的骨架(骨架3)，此时应该为骨架3分配一个ID。

图5(a)～图5(c)是本发明的多人人体姿态估计示意图，其中图5(a)、图5(b)、图5(c)表示三帧不同的图像姿态估计结果，顶部是系统输入的RGB图像，底部表示对应的姿态估计结果。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明是一种实时的基于深度学习的多人人体三维姿态估计方法，具体过程如下：

本实例中使用一台彩色相机实现多人人体完整姿态的捕捉。该方法对场景中的人数和场景没有限制，具有很好的通用性。

步骤1：设计神经网络结构；

本发明使用轻量级的MobileNet V3作为骨干网络，并将其修改为具有多阶段多任务的结构。网络有两个输出分支，包括2D姿态估计分支和3D姿态估计分支，其中2D姿态分支同时回归keypoint heatmap和paf，3D姿态分支回归Location Map。如附图1所示，给定一个RGB图像，通过神经网络得到人体2D姿态信息(Keypoints HeatMap和PAFs Map)和人体3D姿态信息(Location Map)。然后，通过优先冗余方法对回归的关节信息进行分配，进而得到3D姿态。网络回归方法如附图2所示，RGB图像经过骨干网络提取特征矩阵，并将其输入到二维分支，基于CPM得到keypoint heatma和paf。然后，利用ResNet将特征矩阵和2D姿态输入到三维分支网络中，在2D人体肢体像素处回归3D Location Map。此外，我们监督不同阶段之间的Location Map，以减少网络对数据集的依赖。其中，每一个模块的具体实现如附图3所示。

步骤2：构建损失函数；

本发明基于2D和3D姿态以及监督过程构建损失函数。在训练期间，L₂损失应用于所有分支。2D姿态损失L_2D是由HeatMap和PAF与其真实值之间的像素位置误差。3D姿态损失L_loc是由Location Map和其真实值之间的关节误差。监督损失L_sup是不同阶段的LocationMap误差。

网络中的2D姿态分支和3D分支分别在COCO和CMU数据集上进行训练和验证。COCO是一个大规模的目标检测数据集，包含超过20万张图像和25万人的关键点标注。训练和测试集(超过15万人和170万个标注要点)是公开的。实验中，在数据集上回归了多人二维关键点的像素位置。CMU Panoptic是一个大型数据集包含了各种室内社交活动(演奏乐器、跳舞等)，由多个摄像头采集。个体之间的相互遮挡和截断使得恢复3D姿态具有挑战性。同样，本发明在这个数据集上回归了人类关节的三维位置。

本发明使用pytorch框架实现了所提出的网络方案。训练过程中使用的优化器为Adam优化，参数β₁＝0.9，β₂＝0.999，学习率为0.0002，batch size为32。在COCO和CMUPanoptic数据集上训练20个epochs作为最终模型。图像被调整为455x256的固定大小作为网络的输入，并选择来自不同序列的200K图像作为我们的训练集。四个活动(Haggling,Sports,Ultimatum,Pizza)中的两个摄像头(16和30)作为我们的测试集。由于COCO数据集缺少3D姿势注释，因此在输入COCO数据时将3D损失的权重设置为零。

步骤3：重建多人人体三维姿态；

基于步骤2中网络回归得到的特征图进行关节分配和三维姿态重建。本发明中的网络允许从相应肢体的任何2D关节读取肢体的位置。对于个体，首先在根关节读取基本姿势

这个基本姿态是数据集中的平均姿势。然后，继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势。如果关节有效，肢体姿势将替换基本姿势的关节。否则，沿着人体运动学检查该肢体的其他关节。如果肢体的所有关节都无效，则肢体姿势无法进一步细化。将RGB图像输入到网络当中进行预测，得到多人人体姿态估计结果，并在ROS环境下进行可视化。人体姿态的所识别结果如附图5所示。

步骤4：跟踪连续时间序列上的多人三维姿态；

上述3D姿态估计方法仅处理当前帧的数据。因此，不能在连续帧中识别属于同一个人的3D姿势。在这一阶段，利用每帧的三维姿态估计结果，设计了一种基于贪心策略的连续帧三维位姿跟踪算法，解决了多人姿态在时间序列上的跟踪问题。姿态跟踪如附图4(a)～图4(c)所示分为三种情况。在图4(a)中,前后帧中的姿态数量相同，不同帧之间的骨架通过相应的置信度连接。在图4(b)中，当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1，它将继续向前搜索并与骨架配对，直到t-τ_t。在图4(c)中，当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后，当前帧中仍然有一个未配对的骨架(骨架3)，此时应该为骨架3分配一个ID。在跟踪过程中，本发明将使用2秒内的图像序列对姿态进行跟踪，结果如附图5所示。分别选择场景序列中的第45帧、第384帧和第731帧来展示算法的鲁棒性，可以看到对于场景中的每个人，即使在遮挡存在的情况下，该算法都能够有效的进行跟踪。

本说明书实施例所述的内容仅仅是对发明构思实现形式的例举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法，具体步骤如下：

步骤1：设计神经网络结构；

使用轻量级的MobileNet V3作为骨干网络，并将其修改为具有多阶段多任务的结构；网络有两个输出分支，包括2D姿态估计分支和3D姿态估计分支，其中2D姿态分支同时回归keypoint heatmap和paf，3D姿态分支回归Location Map；给定一个RGB图像，通过轻量级主干获取特征矩阵，并将其输入到二维分支，基于CPM得到keypoint heatma和paf；然后，利用ResNet将特征矩阵和2D姿态输入到三维分支网络中，在2D人体肢体像素处回归3DLocation Map；此外，监督不同阶段之间的Location Map，以减少网络对数据集的依赖；假设预定义的节点数为N，网络将输出固定数量的maps，包括N个HeatMap、2N个paf和3N个Location Map；输出表示如下所示：

Heatmaps：图像中所有人体关节点可能存在的像素位置；记图像中所有人体2D姿态集合为

每一个姿态p_i有15关节点，每个关节点包含对应的像素坐标

和对应的置信度

表示神经网络对该关节点的检测评价，当

时则说明该关节点未被检测到；其中i表示姿态在图像中的编号，j表示姿态对应的关节编号；

PAFs：一个二维矢量的集合，在每个关节点处的向量表示相应身体部位的2D方向；其作用是将检测到的2D关节点正确分配给对应的人；

Location map：关节特征通道用来存储在2D像素位置回归的3D坐标；对于每个关节，需要三个maps分别用来表示对应的x，y，z估计坐标；对于尺寸为W×H的图像，使用3n张尺寸为W/k×H/k的位置图来存储所有n个关节的三维位置，其中k为降采样因子；与Heat Map类似，网络拟合的3D姿态记为

每一个3D姿态P_i包含15个关节，每个关节

由对应的x，y，z坐标组成；

步骤2：构建损失函数；

基于2D和3D姿态以及监督过程构建损失函数；在训练期间，L₂损失应用于所有分支；2D姿态损失L_2D是由HeatMap和PAF与其真实值之间的像素位置误差；3D姿态损失L_loc是由Location Map和其真实值之间的关节误差；监督损失L_sup是不同阶段的Location Map误差；整体损失L_total表示如下：

其中，N和S分别是关节和网络阶段的数量，p表示每个像素位置，*上标表示真实情况；w_2D，w_loc和w_sup是惩罚系数；

步骤3：分配多人人体三维关节和重建三维姿态；

根据Keypoint HeatMap和Location Map中关键点的位置坐标，将检测到的关节与相应的个体进行关联；由于遮挡，直接使用PAF评分来分配关节，姿势信息是不可靠的；在推理过程中，由于输入图像中的人数未知，使用根深度映射来反映算子数；将人体的颈关节视为根关节；如果一个人的根关节是可见的，继续分配关节给这个人；否则，这个人在场景中是看不到的，姿势也无法预测；

在分配关节时优先考虑未被遮挡的人；遮挡状态可以在网络预测的深度图(LocationMap Z通道)中推断出来；根深度值代表每个人的绝对位置；因此，每个人的优先级是按照预测的根深度从近到远排序，而不是PAF分数；网络允许从相应肢体的任何2D关节读取肢体的位置；对于个体，首先在根关节读取基本姿势

这个基本姿态是数据集中的平均姿势；然后，继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势；如果关节有效，肢体姿势将替换基本姿势的关节；否则，沿着运动链检查该肢体的其他关节；如果肢体的所有关节都无效，则肢体姿势无法细化；最后，提出了另一种基于相机模型进一步减少误差的细化方法；给定可见的2D坐标和关节深度，通过相机模型恢复3D关节，如下所示：

[X，Y，Z]^T＝ZK^-1[x，y，1]^T (2)

其中，[X，Y，Z]和(x，y)分别表示关节的3D和2D坐标，K是相机内参矩阵；

总的来说，在该过程中，姿态估计器会输出每一帧中每个人的2D和3D姿态；每个姿态都由其对应的关节点组成，其中2D姿态信息包含每个关节点在图像中对应的像素坐标值和关节点对应的置信度；3D姿态信息包含每个关节点相对于根关节的空间坐标位置，并最终都表示在相机坐标下；

步骤4：跟踪连续时间序列上的多人三维姿态；

上述3D姿态估计方法仅处理当前帧的数据；因此，不能在连续帧中识别属于同一个人的3D姿势；在这一阶段，利用每帧的三维姿态估计结果，设计了一种基于贪心策略的连续帧三维位姿跟踪算法，解决多人姿态在时间序列上的跟踪问题；

在这一步，考虑时间索引t重新定义3D姿态的符号，S^t表示t时刻所有3D骨架构成的集合，

表示当前时刻的编号为i的姿态，

表示该骨架的第n个关节，而

是用来表示第n个关节在t时刻是否存在；

将t帧中未排序的3D位姿作为输入，然后输出带有时间信息的4D姿态序列；采用前向搜索的方法，在连续帧中找到属于同一人的骨架；通过贪婪算法计算对应代价来连接不同帧间的在配对过程中，在因关联错误或遮挡而导致骨架在某些帧中不存在的情况下，仍然保证骨架能被有效跟踪；因为当前阶段仅存在三维姿态，骨架之间代价函数可被定义为：

其中，||·||表示姿态

和姿态

之间的欧氏距离，n＝(1，2，3，...，N)表示关节编号，以及N为骨架的总关节数量；

姿态跟踪分为三种情况；在(a)中，前后帧中的姿态数量相同，不同帧之间的骨架通过相应的置信度连接；在(b)中，当前帧中的姿态数量大于前一帧中的姿态数量；对于未配对的骨架1，它将继续向前搜索并与骨架配对，直到t-τ_t；在(c)中，当前帧中的姿态数量也大于前一帧中的姿态数量；在完成前向搜索过程后，当前帧中仍然有一个未配对的骨架(骨架3)，此时应该为骨架3分配一个ID；

将当前帧t定义为待配对帧，将搜索帧初始化为t-1；通过计算当前待匹配帧和搜索帧中所有配对骨架的匹配度；序列中所有骨架对都按ζ的递增值进行排序；在对所有候选骨架对应进行排序后，如果ζ_min小于设置阈值δ，则可以认为该配对ζ是有效的；当前帧

中的姿态会继承搜索帧

中已成功配对姿态的ID信息；同时，ζ_min和其相关的“冗余对”应予删除；如果在当前帧中出现了一些未匹配的骨架，这意味着出现了一些新的骨架，或者这些骨架在关联过程中由于错误或遮挡而失去了跟踪；此时，设搜索框架为t-2，继续重复配对和更新的过程；这个过程持续到t-τ_s，其中τ_s是最大允许搜索帧的帧数；若此时仍然存在未配对的姿态，则可以认为该姿态是新出现的，并且为该姿态赋予一个独有的ID信息。