[go: up one dir, main page]

CN114066932A - 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法 - Google Patents

一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法 Download PDF

Info

Publication number
CN114066932A
CN114066932A CN202111130790.1A CN202111130790A CN114066932A CN 114066932 A CN114066932 A CN 114066932A CN 202111130790 A CN202111130790 A CN 202111130790A CN 114066932 A CN114066932 A CN 114066932A
Authority
CN
China
Prior art keywords
joint
posture
dimensional
person
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111130790.1A
Other languages
English (en)
Inventor
欧林林
许成军
张旭环
张鑫
禹鑫燚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111130790.1A priority Critical patent/CN114066932A/zh
Publication of CN114066932A publication Critical patent/CN114066932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法,首先,本发明将RGB图像信息经过特征提取网络得到特征举证(feature map)。然后利用CPM网络回归人体2D关节点位置及每个关节对应的置信分数(Heat Map and PAFs);然后将已获取的2D关节点信息和特征矩阵输入到ResNet残差块中回归3D姿态(Location Map);最后,提出了一种优先冗余关联算法,将检测到的二维关键点和三维位置图分配给个体。此外,本发明针对多人人体姿态跟踪问题,提出一种基于贪婪策略的多人人体姿态跟踪算法,能够有效地跟踪多个人的三维姿态,即使在配对过程中由于关联错误或遮挡而缺少某些帧的情况下。本发明满足实时性和轻量级要求,可以应用于多种实际应用。

Description

一种实时的基于深度学习的多人人体三维姿态估计和跟踪 方法
技术领域
本发明涉及单目多人人体三维姿态估计和跟踪技术,分别提出一种基于深度学习的实时的多人人体三维姿态估计方法和基于贪婪匹配的人体姿态跟踪方法。特别地,针对多人人体三维姿态估计当中的实时性和遮挡问题,分别提出轻量级神经网络和关节优先级冗余策略。
背景技术
人体姿态信息感知即人体姿态估计(Human Pose Estimation)是计算机视觉中的一个重要任务,也是计算机理解人类动作、行为必不可少的一步,在人机交互、AR、VR和游戏等领域得到广泛应用。近年来,基于深度学习进行人体姿态估计的方法陆续被提出,且达到了远超传统方法的表现。在实际求解时,对人体姿态的估计常常转化为对人体关键点的预测问题,即首先预测出人体各个关键点的位置坐标,然后根据先验知识确定关键点之间的空间位置关系,从而得到预测的人体骨架。在之前的工作中,如:YANG Y,YAN H,DEHGHAN M,et al发表论文《Real-time human-robot interaction in complex environment usingkinect v2 image recognition》中,kinect深度相机被广泛用于三维人体姿态估计,但是基于深度信息对人体关节位置进行读取存在因遮挡而带来的深度模糊问题。为解决遮挡问题,多视角姿态信息融合通常是一个好的方法,利用不同视角下的估计结果,能够得到较为准确的姿态信息。但是,由于多视角信息融合计算量大,随着人数增加导致实时性能较差而不适用于多人人体姿态检测。得益于近年来深度学习的发展,基于图像的三维人体姿态估计也取得很大进展,在实时性和处理遮挡的问题上有很好效果。
发明内容
本发明要克服现有技术的上述缺点,提供一种实时的基于深度学习的多人人体三维姿态估计方法,在减少传感器数量的前提下,提高姿态估计实时性,保证了动作捕捉的精度。
本发明针对从相机视角获取的RGB图像或视频流,通过轻量级神经网络对当前相机视角下的人进行2D和3D姿态估计和跟踪。首先,本发明将RGB图像信息经过特征提取网络得到特征矩阵(feature map)。然后利用CPM网络回归人体2D关节点位置及每个关节对应的父关节(HeatMap and PAFs);然后将已获取的2D关节点信息和特征矩阵输入到ResNet残差块中回归3D姿态(Location Map);最后,提出了一种优先冗余关联算法,将检测到的二维关键点和三维位置图分配给个体。此外,本发明针对多人人体姿态跟踪问题,提出一种基于贪婪策略的多人人体姿态跟踪算法。该算法能够有效地跟踪多个人的三维姿态,即使在配对过程中由于关联错误或遮挡而缺少某些帧的情况下。
一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法,具体步骤如下:
步骤1:设计神经网络结构;
本发明使用轻量级的MobileNet V3作为骨干网络,并将其修改为具有多阶段多任务的结构。网络有两个输出分支,包括2D姿态估计分支和3D姿态估计分支,其中2D姿态分支同时回归keypoint heatmap和paf,3D姿态分支回归Location Map。给定一个RGB图像,通过轻量级主干获取特征矩阵,并将其输入到二维分支,基于CPM得到keypoint heatma和paf。然后,利用ResNet将特征矩阵和2D姿态输入到三维分支网络中,在2D人体肢体像素处回归3D Location Map。此外,我们监督不同阶段之间的Location Map,以减少网络对数据集的依赖。假设预定义的节点数为N,网络将输出固定数量的maps,包括N个HeatMap、2N个paf和3N个Location Map。输出表示如下所示:
Heatmaps:图像中所有人体关节点可能存在的像素位置。记图像中所有人体2D姿态集合为
Figure BDA0003280453690000031
每一个姿态pi有15关节点,每个关节点包含对应的像素坐标
Figure BDA0003280453690000032
和对应的置信度
Figure BDA0003280453690000033
表示神经网络对该关节点的检测评价,当
Figure BDA0003280453690000034
时则说明该关节点未被检测到。其中i表示姿态在图像中的编号,j表示姿态对应的关节编号。
PAFs:一个二维矢量的集合,在每个关节点处的向量表示相应身体部位的2D方向。其作用是将检测到的2D关节点正确分配给对应的人。
Location map:关节特征通道用来存储在2D像素位置回归的3D坐标。对于每个关节,需要三个maps分别用来表示对应的x,y,z估计坐标。对于尺寸为W×H的图像,使用3n张尺寸为W/k×H/k的位置图来存储所有n个关节的三维位置,其中k为降采样因子。与HeatMap类似,网络拟合的3D姿态记为
Figure BDA0003280453690000035
每一个3D姿态Pi包含15个关节,每个关节
Figure BDA0003280453690000036
由对应的x,y,z坐标组成。
步骤2:构建损失函数;
在本发明中,我们基于2D和3D姿态以及监督过程构建损失函数。在训练期间,L2损失应用于所有分支。2D姿态损失L2D是由HeatMap和PAF与其真实值之间的像素位置误差。3D姿态损失Lloc是由Location Map和其真实值之间的关节误差。监督损失Lsup是不同阶段的Location Map误差。整体损失Ltotal表示如下:
Figure BDA0003280453690000041
其中,N和S分别是关节和网络阶段的数量,p表示每个像素位置,*上标表示真实情况。w2D,wloc和wsup是惩罚系数。
步骤3:重建多人人体三维姿态;
根据Keypoint HeatMap和Location Map中关键点的位置坐标,我们需要将检测到的关节与相应的个体进行关联。直接使用PAF评分来分配关节,由于遮挡,姿势信息是不可靠的。在推理过程中,由于输入图像中的人数未知,我们使用根深度映射来反映算子数。一般来说,身体中间的躯干关节(颈、臀)不闭塞,这是根关节的最佳选择。在本研究中,我们将人体的颈关节视为根关节。如果一个人的根关节是可见的,我们继续分配关节给这个人。否则,这个人在场景中是看不到的,姿势也无法预测。
为了解决遮挡问题,本发明在分配关节时优先考虑未被遮挡的人。遮挡状态可以在网络预测的深度图(Location Map Z通道)中推断出来。根深度值代表每个人的绝对位置。因此,每个人的优先级是按照预测的根深度从近到远排序,而不是PAF分数。我们的网络允许从相应肢体的任何2D关节读取肢体的位置。对于个体,首先在根关节读取基本姿势
Figure BDA0003280453690000042
这个基本姿态是数据集中的平均姿势。然后,我们继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势。如果关节有效,肢体姿势将替换基本姿势的关节。否则,沿着运动链检查该肢体的其他关节。如果肢体的所有关节都无效,则肢体姿势无法细化。最后,提出了另一种基于相机模型进一步减少误差的细化方法。给定可见的2D坐标和关节深度,可以通过相机模型恢复3D关节,如下所示:
[X,Y,Z]T=ZK-1[x,y,1]T (2)
其中,[X,Y,Z]和(x,y)分别表示关节的3D和2D坐标,K是相机内参矩阵。
总的来说,在该过程中,姿态估计器会输出每一帧中每个人的2D和3D姿态。每个姿态都由其对应的关节点组成,其中2D姿态信息包含每个关节点在图像中对应的像素坐标值和关节点对应的置信度;3D姿态信息包含每个关节点相对于根关节的空间坐标位置,并最终都表示在相机坐标下。
步骤4:跟踪连续时间序列上的多人三维姿态;
上述3D姿态估计方法仅处理当前帧的数据。因此,不能在连续帧中识别属于同一个人的3D姿势。在这一阶段,利用每帧的三维姿态估计结果,设计了一种基于贪心策略的连续帧三维位姿跟踪算法,解决了多人姿态在时间序列上的跟踪问题。
在这一步,我们需要考虑时间索引t重新定义3D姿态的符号。例如,St表示t时刻所有3D骨架构成的集合,
Figure BDA0003280453690000051
表示当前时刻的编号为i的姿态,
Figure BDA0003280453690000052
表示该骨架的第n个关节,而
Figure BDA0003280453690000053
是用来表示第n个关节在t时刻是否存在。
该算法将t帧中未排序的3D位姿作为输入,然后输出带有时间信息的4D姿态序列。我们采用前向搜索的方法,在连续帧中找到属于同一人的骨架。通过贪婪算法计算对应代价来连接不同帧间的骨架。该方法在配对过程中,在因关联错误或遮挡而导致骨架在某些帧中不存在的情况下,仍然保证骨架能被有效跟踪。因为当前阶段仅存在三维姿态,骨架之间代价函数可被定义为:
Figure BDA0003280453690000061
其中,||·||表示姿态
Figure BDA0003280453690000062
和姿态
Figure BDA0003280453690000063
之间的欧氏距离,n=(1,2,3,...,N)表示关节编号,以及N为骨架的总关节数量。
姿态跟踪分为三种情况。在(a)中,前后帧中的姿态数量相同,不同帧之间的骨架通过相应的置信度连接。在(b)中,当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1,它将继续向前搜索并与骨架配对,直到t-τt。在(c)中,当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后,当前帧中仍然有一个未配对的骨架(骨架3),此时应该为骨架3分配一个ID。
将当前帧t定义为待配对帧,将搜索帧初始化为t-1。通过计算当前待匹配帧和搜索帧中所有配对骨架的匹配度。序列中所有骨架对都按ζ的递增值进行排序。在对所有候选骨架对应进行排序后,如果ζmin小于设置阈值δ,则可以认为该配对ζ是有效的。当前帧
Figure BDA0003280453690000065
中的姿态会继承搜索帧
Figure BDA0003280453690000064
中已成功配对姿态的ID信息。同时,ζmin和其相关的“冗余对”应予删除。如果在当前帧中出现了一些未匹配的骨架,这意味着出现了一些新的骨架,或者这些骨架在关联过程中由于错误或遮挡而失去了跟踪。此时,设搜索框架为t-2,继续重复配对和更新的过程。这个过程持续到t-τs,其中τs是最大允许搜索帧的帧数。若此时仍然存在未配对的姿态,则可以认为该姿态是新出现的,并且为该姿态赋予一个独有的ID信息。
本发明的优点是:
1.本发明结合设计了一个满足实时性要求的轻量级单目多人人体3D姿态估计器,用于场景中的多人人体3D关节点位置估计。通过人体运动学约束,结合关节“冗余”和姿态编码优先级,解决不同场景中人与人之间的遮挡问题。
2.本发明设计了一种基于贪心策略的连续帧三维位姿跟踪算法,解决了场景中不同人的连续跟踪和识别问题,提高了系统的稳定性。
附图说明
图1是本发明的单目多人人体姿态估计网络结构的示意图。
图2是本发明的人体姿态估计网络的示意图。
图3是本发明的网络结构组成的示意图。
图4(a)~图4(c)是本发明的姿态跟踪示意图,其中图4(a)前后帧中的姿态数量相同,不同帧之间的骨架通过相应的置信度连接;图4(b)当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1,它将继续向前搜索并与骨架配对,直到t-τt;图4(c)当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后,当前帧中仍然有一个未配对的骨架(骨架3),此时应该为骨架3分配一个ID。
图5(a)~图5(c)是本发明的多人人体姿态估计示意图,其中图5(a)、图5(b)、图5(c)表示三帧不同的图像姿态估计结果,顶部是系统输入的RGB图像,底部表示对应的姿态估计结果。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明是一种实时的基于深度学习的多人人体三维姿态估计方法,具体过程如下:
本实例中使用一台彩色相机实现多人人体完整姿态的捕捉。该方法对场景中的人数和场景没有限制,具有很好的通用性。
步骤1:设计神经网络结构;
本发明使用轻量级的MobileNet V3作为骨干网络,并将其修改为具有多阶段多任务的结构。网络有两个输出分支,包括2D姿态估计分支和3D姿态估计分支,其中2D姿态分支同时回归keypoint heatmap和paf,3D姿态分支回归Location Map。如附图1所示,给定一个RGB图像,通过神经网络得到人体2D姿态信息(Keypoints HeatMap和PAFs Map)和人体3D姿态信息(Location Map)。然后,通过优先冗余方法对回归的关节信息进行分配,进而得到3D姿态。网络回归方法如附图2所示,RGB图像经过骨干网络提取特征矩阵,并将其输入到二维分支,基于CPM得到keypoint heatma和paf。然后,利用ResNet将特征矩阵和2D姿态输入到三维分支网络中,在2D人体肢体像素处回归3D Location Map。此外,我们监督不同阶段之间的Location Map,以减少网络对数据集的依赖。其中,每一个模块的具体实现如附图3所示。
步骤2:构建损失函数;
本发明基于2D和3D姿态以及监督过程构建损失函数。在训练期间,L2损失应用于所有分支。2D姿态损失L2D是由HeatMap和PAF与其真实值之间的像素位置误差。3D姿态损失Lloc是由Location Map和其真实值之间的关节误差。监督损失Lsup是不同阶段的LocationMap误差。
网络中的2D姿态分支和3D分支分别在COCO和CMU数据集上进行训练和验证。COCO是一个大规模的目标检测数据集,包含超过20万张图像和25万人的关键点标注。训练和测试集(超过15万人和170万个标注要点)是公开的。实验中,在数据集上回归了多人二维关键点的像素位置。CMU Panoptic是一个大型数据集包含了各种室内社交活动(演奏乐器、跳舞等),由多个摄像头采集。个体之间的相互遮挡和截断使得恢复3D姿态具有挑战性。同样,本发明在这个数据集上回归了人类关节的三维位置。
本发明使用pytorch框架实现了所提出的网络方案。训练过程中使用的优化器为Adam优化,参数β1=0.9,β2=0.999,学习率为0.0002,batch size为32。在COCO和CMUPanoptic数据集上训练20个epochs作为最终模型。图像被调整为455x256的固定大小作为网络的输入,并选择来自不同序列的200K图像作为我们的训练集。四个活动(Haggling,Sports,Ultimatum,Pizza)中的两个摄像头(16和30)作为我们的测试集。由于COCO数据集缺少3D姿势注释,因此在输入COCO数据时将3D损失的权重设置为零。
步骤3:重建多人人体三维姿态;
基于步骤2中网络回归得到的特征图进行关节分配和三维姿态重建。本发明中的网络允许从相应肢体的任何2D关节读取肢体的位置。对于个体,首先在根关节读取基本姿势
Figure BDA0003280453690000091
这个基本姿态是数据集中的平均姿势。然后,继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势。如果关节有效,肢体姿势将替换基本姿势的关节。否则,沿着人体运动学检查该肢体的其他关节。如果肢体的所有关节都无效,则肢体姿势无法进一步细化。将RGB图像输入到网络当中进行预测,得到多人人体姿态估计结果,并在ROS环境下进行可视化。人体姿态的所识别结果如附图5所示。
步骤4:跟踪连续时间序列上的多人三维姿态;
上述3D姿态估计方法仅处理当前帧的数据。因此,不能在连续帧中识别属于同一个人的3D姿势。在这一阶段,利用每帧的三维姿态估计结果,设计了一种基于贪心策略的连续帧三维位姿跟踪算法,解决了多人姿态在时间序列上的跟踪问题。姿态跟踪如附图4(a)~图4(c)所示分为三种情况。在图4(a)中,前后帧中的姿态数量相同,不同帧之间的骨架通过相应的置信度连接。在图4(b)中,当前帧中的姿态数量大于前一帧中的姿态数量。对于未配对的骨架1,它将继续向前搜索并与骨架配对,直到t-τt。在图4(c)中,当前帧中的姿态数量也大于前一帧中的姿态数量。在完成前向搜索过程后,当前帧中仍然有一个未配对的骨架(骨架3),此时应该为骨架3分配一个ID。在跟踪过程中,本发明将使用2秒内的图像序列对姿态进行跟踪,结果如附图5所示。分别选择场景序列中的第45帧、第384帧和第731帧来展示算法的鲁棒性,可以看到对于场景中的每个人,即使在遮挡存在的情况下,该算法都能够有效的进行跟踪。
本说明书实施例所述的内容仅仅是对发明构思实现形式的例举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法,具体步骤如下:
步骤1:设计神经网络结构;
使用轻量级的MobileNet V3作为骨干网络,并将其修改为具有多阶段多任务的结构;网络有两个输出分支,包括2D姿态估计分支和3D姿态估计分支,其中2D姿态分支同时回归keypoint heatmap和paf,3D姿态分支回归Location Map;给定一个RGB图像,通过轻量级主干获取特征矩阵,并将其输入到二维分支,基于CPM得到keypoint heatma和paf;然后,利用ResNet将特征矩阵和2D姿态输入到三维分支网络中,在2D人体肢体像素处回归3DLocation Map;此外,监督不同阶段之间的Location Map,以减少网络对数据集的依赖;假设预定义的节点数为N,网络将输出固定数量的maps,包括N个HeatMap、2N个paf和3N个Location Map;输出表示如下所示:
Heatmaps:图像中所有人体关节点可能存在的像素位置;记图像中所有人体2D姿态集合为
Figure FDA0003280453680000011
每一个姿态pi有15关节点,每个关节点包含对应的像素坐标
Figure FDA0003280453680000012
和对应的置信度
Figure FDA0003280453680000013
表示神经网络对该关节点的检测评价,当
Figure FDA0003280453680000014
时则说明该关节点未被检测到;其中i表示姿态在图像中的编号,j表示姿态对应的关节编号;
PAFs:一个二维矢量的集合,在每个关节点处的向量表示相应身体部位的2D方向;其作用是将检测到的2D关节点正确分配给对应的人;
Location map:关节特征通道用来存储在2D像素位置回归的3D坐标;对于每个关节,需要三个maps分别用来表示对应的x,y,z估计坐标;对于尺寸为W×H的图像,使用3n张尺寸为W/k×H/k的位置图来存储所有n个关节的三维位置,其中k为降采样因子;与Heat Map类似,网络拟合的3D姿态记为
Figure FDA0003280453680000015
每一个3D姿态Pi包含15个关节,每个关节
Figure FDA0003280453680000016
由对应的x,y,z坐标组成;
步骤2:构建损失函数;
基于2D和3D姿态以及监督过程构建损失函数;在训练期间,L2损失应用于所有分支;2D姿态损失L2D是由HeatMap和PAF与其真实值之间的像素位置误差;3D姿态损失Lloc是由Location Map和其真实值之间的关节误差;监督损失Lsup是不同阶段的Location Map误差;整体损失Ltotal表示如下:
Figure FDA0003280453680000021
其中,N和S分别是关节和网络阶段的数量,p表示每个像素位置,*上标表示真实情况;w2D,wloc和wsup是惩罚系数;
步骤3:分配多人人体三维关节和重建三维姿态;
根据Keypoint HeatMap和Location Map中关键点的位置坐标,将检测到的关节与相应的个体进行关联;由于遮挡,直接使用PAF评分来分配关节,姿势信息是不可靠的;在推理过程中,由于输入图像中的人数未知,使用根深度映射来反映算子数;将人体的颈关节视为根关节;如果一个人的根关节是可见的,继续分配关节给这个人;否则,这个人在场景中是看不到的,姿势也无法预测;
在分配关节时优先考虑未被遮挡的人;遮挡状态可以在网络预测的深度图(LocationMap Z通道)中推断出来;根深度值代表每个人的绝对位置;因此,每个人的优先级是按照预测的根深度从近到远排序,而不是PAF分数;网络允许从相应肢体的任何2D关节读取肢体的位置;对于个体,首先在根关节读取基本姿势
Figure FDA0003280453680000022
这个基本姿态是数据集中的平均姿势;然后,继续从靠近根部的关节读取肢体姿势以获得完整的3D姿势;如果关节有效,肢体姿势将替换基本姿势的关节;否则,沿着运动链检查该肢体的其他关节;如果肢体的所有关节都无效,则肢体姿势无法细化;最后,提出了另一种基于相机模型进一步减少误差的细化方法;给定可见的2D坐标和关节深度,通过相机模型恢复3D关节,如下所示:
[X,Y,Z]T=ZK-1[x,y,1]T (2)
其中,[X,Y,Z]和(x,y)分别表示关节的3D和2D坐标,K是相机内参矩阵;
总的来说,在该过程中,姿态估计器会输出每一帧中每个人的2D和3D姿态;每个姿态都由其对应的关节点组成,其中2D姿态信息包含每个关节点在图像中对应的像素坐标值和关节点对应的置信度;3D姿态信息包含每个关节点相对于根关节的空间坐标位置,并最终都表示在相机坐标下;
步骤4:跟踪连续时间序列上的多人三维姿态;
上述3D姿态估计方法仅处理当前帧的数据;因此,不能在连续帧中识别属于同一个人的3D姿势;在这一阶段,利用每帧的三维姿态估计结果,设计了一种基于贪心策略的连续帧三维位姿跟踪算法,解决多人姿态在时间序列上的跟踪问题;
在这一步,考虑时间索引t重新定义3D姿态的符号,St表示t时刻所有3D骨架构成的集合,
Figure FDA0003280453680000031
表示当前时刻的编号为i的姿态,
Figure FDA0003280453680000032
表示该骨架的第n个关节,而
Figure FDA0003280453680000033
是用来表示第n个关节在t时刻是否存在;
将t帧中未排序的3D位姿作为输入,然后输出带有时间信息的4D姿态序列;采用前向搜索的方法,在连续帧中找到属于同一人的骨架;通过贪婪算法计算对应代价来连接不同帧间的在配对过程中,在因关联错误或遮挡而导致骨架在某些帧中不存在的情况下,仍然保证骨架能被有效跟踪;因为当前阶段仅存在三维姿态,骨架之间代价函数可被定义为:
Figure FDA0003280453680000034
其中,||·||表示姿态
Figure FDA0003280453680000035
和姿态
Figure FDA0003280453680000036
之间的欧氏距离,n=(1,2,3,...,N)表示关节编号,以及N为骨架的总关节数量;
姿态跟踪分为三种情况;在(a)中,前后帧中的姿态数量相同,不同帧之间的骨架通过相应的置信度连接;在(b)中,当前帧中的姿态数量大于前一帧中的姿态数量;对于未配对的骨架1,它将继续向前搜索并与骨架配对,直到t-τt;在(c)中,当前帧中的姿态数量也大于前一帧中的姿态数量;在完成前向搜索过程后,当前帧中仍然有一个未配对的骨架(骨架3),此时应该为骨架3分配一个ID;
将当前帧t定义为待配对帧,将搜索帧初始化为t-1;通过计算当前待匹配帧和搜索帧中所有配对骨架的匹配度;序列中所有骨架对都按ζ的递增值进行排序;在对所有候选骨架对应进行排序后,如果ζmin小于设置阈值δ,则可以认为该配对ζ是有效的;当前帧
Figure FDA0003280453680000041
中的姿态会继承搜索帧
Figure FDA0003280453680000042
中已成功配对姿态的ID信息;同时,ζmin和其相关的“冗余对”应予删除;如果在当前帧中出现了一些未匹配的骨架,这意味着出现了一些新的骨架,或者这些骨架在关联过程中由于错误或遮挡而失去了跟踪;此时,设搜索框架为t-2,继续重复配对和更新的过程;这个过程持续到t-τs,其中τs是最大允许搜索帧的帧数;若此时仍然存在未配对的姿态,则可以认为该姿态是新出现的,并且为该姿态赋予一个独有的ID信息。
CN202111130790.1A 2021-09-26 2021-09-26 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法 Pending CN114066932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111130790.1A CN114066932A (zh) 2021-09-26 2021-09-26 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111130790.1A CN114066932A (zh) 2021-09-26 2021-09-26 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法

Publications (1)

Publication Number Publication Date
CN114066932A true CN114066932A (zh) 2022-02-18

Family

ID=80233706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111130790.1A Pending CN114066932A (zh) 2021-09-26 2021-09-26 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法

Country Status (1)

Country Link
CN (1) CN114066932A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724185A (zh) * 2022-04-13 2022-07-08 浙江工业大学 一种轻量型的多人姿态跟踪方法
CN115308768A (zh) * 2022-07-22 2022-11-08 万达信息股份有限公司 一种隐私环境下的智能监护系统
CN115328310A (zh) * 2022-08-10 2022-11-11 南昌黑鲨科技有限公司 一种动作捕捉方法、动作捕捉装置、设备及存储介质
CN115546843A (zh) * 2022-11-03 2022-12-30 江西方兴科技股份有限公司 一种基于PAFs的实时多人二维姿态估计方法
US20230306054A1 (en) * 2020-07-08 2023-09-28 Nec Corporation Image selection apparatus, image selection method, and non-transitory computer-readable medium
CN118172412A (zh) * 2024-05-14 2024-06-11 中科晶锐(苏州)科技有限公司 一种利用2d图像进行3d人体姿态定位还原的方法及装置
WO2025118238A1 (en) * 2023-12-07 2025-06-12 Intel Corporation Motion tracking with multi-task neural network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038465A (zh) * 2017-12-25 2018-05-15 深圳市唯特视科技有限公司 一种基于合成数据集的三维多人物姿态估计
CN111767792A (zh) * 2020-05-22 2020-10-13 上海大学 一种基于教室场景的多人关键点检测网络和方法
CN111862201A (zh) * 2020-07-17 2020-10-30 北京航空航天大学 一种基于深度学习的空间非合作目标相对位姿估计方法
CN112069943A (zh) * 2020-08-25 2020-12-11 西安工业大学 基于自顶向下框架的在线多人姿态估计与跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038465A (zh) * 2017-12-25 2018-05-15 深圳市唯特视科技有限公司 一种基于合成数据集的三维多人物姿态估计
CN111767792A (zh) * 2020-05-22 2020-10-13 上海大学 一种基于教室场景的多人关键点检测网络和方法
CN111862201A (zh) * 2020-07-17 2020-10-30 北京航空航天大学 一种基于深度学习的空间非合作目标相对位姿估计方法
CN112069943A (zh) * 2020-08-25 2020-12-11 西安工业大学 基于自顶向下框架的在线多人姿态估计与跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENGJUN XU 等: "Multi-View Human Pose Estimation in Human-Robot Interaction", IECON2020, 18 October 2020 (2020-10-18), pages 4769 - 4775, XP033860564, DOI: 10.1109/IECON43393.2020.9255211 *
XU CHENGJUN: "Multi-View Human Pose Estimation in Human-Robot Interaction", IECON 2020: THE 46TH ANNUAL CONFERENCE OF THE IEEE INDUSTRIAL ELECTRONICS SOCIETY, 26 May 2021 (2021-05-26) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230306054A1 (en) * 2020-07-08 2023-09-28 Nec Corporation Image selection apparatus, image selection method, and non-transitory computer-readable medium
US12481696B2 (en) * 2020-07-08 2025-11-25 Nec Corporation Image selection apparatus, image selection method, and non-transitory computer-readable medium
CN114724185A (zh) * 2022-04-13 2022-07-08 浙江工业大学 一种轻量型的多人姿态跟踪方法
CN115308768A (zh) * 2022-07-22 2022-11-08 万达信息股份有限公司 一种隐私环境下的智能监护系统
CN115328310A (zh) * 2022-08-10 2022-11-11 南昌黑鲨科技有限公司 一种动作捕捉方法、动作捕捉装置、设备及存储介质
CN115546843A (zh) * 2022-11-03 2022-12-30 江西方兴科技股份有限公司 一种基于PAFs的实时多人二维姿态估计方法
WO2025118238A1 (en) * 2023-12-07 2025-06-12 Intel Corporation Motion tracking with multi-task neural network
CN118172412A (zh) * 2024-05-14 2024-06-11 中科晶锐(苏州)科技有限公司 一种利用2d图像进行3d人体姿态定位还原的方法及装置

Similar Documents

Publication Publication Date Title
CN114066932A (zh) 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
CN110222665B (zh) 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN110020611B (zh) 一种基于三维假设空间聚类的多人动作捕捉方法
Jojic et al. Tracking self-occluding articulated objects in dense disparity maps
CN113205595B (zh) 一种3d人体姿态估计模型的构建方法及其应用
US10970849B2 (en) Pose estimation and body tracking using an artificial neural network
CN111311729B (zh) 一种基于双向投影网络的自然场景三维人体姿态重建方法
WO2020225562A1 (en) Processing captured images
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
Amrutha et al. Human body pose estimation and applications
CN114627490B (zh) 一种基于惯性传感器与多功能相机的多人姿态估计方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN113256789B (zh) 一种三维实时人体姿态重建方法
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
CN111881888A (zh) 基于姿态识别的智能桌控制方法及装置
Zhang et al. Self-supervised monocular depth estimation with self-perceptual anomaly handling
Hori et al. Silhouette-based 3d human pose estimation using a single wrist-mounted 360 camera
Asif et al. DeepActsNet: A deep ensemble framework combining features from face, hands, and body for action recognition
Chang et al. Multi-view 3d human pose estimation with self-supervised learning
CN115731613B (zh) 基于时序线性人体蒙皮模型和图卷积网络的四方向交警手势识别方法
CN116071499A (zh) 一种基于时空掩码重建的骨架检测模型的构建方法
CN113807321A (zh) 基于关系建模的人体姿态估计方法
JP2022152202A (ja) 歩行追跡装置、及び歩行追跡プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220218