CN116434326A

CN116434326A - 一种基于单目rgb相机及mems多传感器融合人体姿态识别的方法

Info

Publication number: CN116434326A
Application number: CN202310193444.0A
Authority: CN
Inventors: 张子斌; 管练武; 余夕林; 林开宏; 张小齐; 杨在柱; 王健旭; 雷鸣; 常帅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-07-14

Abstract

本发明的目的在于提供一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，包括如下步骤：惯性动捕单元数据采集及姿态解算；UWB数据采集及分析定位；通过RGB相机采集数据并进行数据解算；多传感器融合优化姿态解算；数据格式转化；驱动虚拟人物，完成人机交互：导入设计好的人体模型，通过对输出数据进行解析并且更新到各个骨骼节点驱动三维人体模型。本发明为教练和滑雪者在未来进行滑雪动作改进训练，提高滑雪技能，加快滑雪者掌握滑雪能力速度，同时降低滑雪训练装备成本并适于普通滑雪爱好者，有助于滑雪机的推广和滑雪运动的普及。

Description

一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法

技术领域

本发明涉及的是一种人体动作捕捉及定位方法，具体地说是滑雪者姿态识别的方法。

背景技术

因冰雪运动主要是在室外滑雪场进行，滑雪运动受限于场地、环境、气候等因素影响，导致每年可进行冰雪运动的时间非常有限。研制大型室内模拟滑雪机，室内滑雪机不仅仅可以无视天气，季节的限制，起初是为了辅助专业运动员在非雪季进行基本动作改良、加深肌肉记忆。但目前室内滑雪机相对枯燥，智能化和体感程度不高，高端精细化滑雪培训装备每套高达几十上百万，无法实现滑雪运动真正大范围普及，所以急需开展低成本智能滑雪设备的研究。

由MEMS(微电子机械系统，简称微机电系统)惯性传感器构成的人体姿态检测系统是实现滑雪者动作捕捉的核心部分。但是，佩戴在人体进行动作捕捉的小体积MEMS惯性测量单元精度普遍较低，并且定向误差随着时间增加而累积发散，单纯采用磁力计进行矫正的话，磁力计又极容易受到干扰，为了获取更加准确可用的动作捕捉结果，考虑将不同传感器进行融合，弥补各自的局限是一个可行的选择。

发明内容

本发明的目的在于提供能降低滑雪训练装备成本并适于普通滑雪爱好者的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法。

本发明的目的是这样实现的：

本发明一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：

(1)惯性动捕单元数据采集及姿态解算：读取MEMS捷联惯性测量单元中的陀螺仪和加速度计的数据以及磁力计数据；由MEMS惯性测量单元输出的数据，推导角速度和线性加速度值，融合磁力计数据进行姿态解算，结合静止状态下检测的初始条件，采用捷联惯性导航算法计算出每一个动捕单元在运动时的姿态角，然后通过无线方式传输给接收单元；

(2)UWB数据采集及分析定位；

(3)通过RGB相机采集数据并进行数据解算：通过两端法来进行人体关键点三维坐标的获取，深度卷积神经网络检测出二维关节点坐标，卷积操作提取特征，利用二维关节点信息和特征矩阵回归出3D姿态；

(4)多传感器融合优化姿态解算：在步骤(1)、步骤(3)基础上RGB相机解算出的数据与惯导结算的姿态，在RGB相机无遮挡的情况下，通过深度学习推算出关节点三维坐标，进而解算出人肢体的俯仰和航向角，与惯性传感器结算的姿态进行加权融合，当单目视觉识别结果由于部分关节出现相互遮挡，忽略单目视觉的捕捉数据而直接由惯性动捕的识别结果代替；

(5)数据格式转化；

(6)驱动虚拟人物，完成人机交互：导入设计好的人体模型，通过对输出数据进行解析并且更新到各个骨骼节点驱动三维人体模型。

本发明还可以包括：

1、步骤(1)惯性动捕单元数据采集及姿态解算包括以下步骤：

a.加速度计和磁力计的矫正，对加速度计和磁力计进行误差建模，各自采集一部分数据进行拟合矫正；

b.由搭载在惯性动捕测量单元上的三轴陀螺仪、三轴加速度计和三轴磁力计分别测量装置在运动时的旋转角速率、线性加速度和地磁场强度大小；

c.对磁力计加速度计数据进行归一化处理，利用陀螺仪、磁力计和加速度计频域上的互补特性，互补滤波融合惯性传感器三种数据，通过加速度计校正俯仰和横滚角，磁力计矫正航向；

d.解算姿态得到欧拉角，对数据进行编号打包，通过无线传输发送到数据接收单元。

2、步骤(2)中，采用4个基站和1标签来进行定位，通过RTT双边方式测距测得UWB标签和每个UWB基站间的距离，解算出UWB标签的位置信息，然后将位置信息发送给接收单元。

3、步骤(3)中通过RGB相机采集数据并进行数据解算包括以下步骤：

①采用RGB相机获取视频，将视频导入电脑，利用opencv从视频中读取一帧一帧的图像数据；

②对于每一帧的图像，采用深度卷积神经网络作为姿态检测网络，采用自下而上的方式来进行姿态的估计，最后得到人体骨骼关键点的二维坐标；

③基于连续帧卷积的网络，该网络在时间维度上对时序2D人体关节点坐标序列进行卷积操作提取特征，对输入视频中的3D人体姿态做出预测。

4、步骤(4)中多传感器融合优化姿态解算包括以下步骤：

ⅰ通过RGB相机获取的视频，基于深度学习的三维人体姿态估计得到人体关节的横滚和航向角；

ⅱ通过惯性传感器以及姿态解算，获得每个关节的俯仰航向、横滚角；

ⅲ将俯仰和航向角进行加权融合，直接输出横滚角；

ⅳ选择完全忽略单目视觉的捕捉数据而直接由惯性动捕的识别结果代替。

5、步骤(5)是在步骤(4)基础上，加权融合后的姿态数据和位置信息进行格式转换，数据格式包括骨架信息和数据块，数据块存放着各个节点的姿态信息，髋关节处包含姿态信息和位置信息。

本发明的优势在于：

1、本发明中单目视觉人体的姿态估计会出现人体部分缺失会使得算法检测不到被遮挡的人体关节点，从而无法对被遮挡的关节点给出正确的预测。其次，由于人体的关节点之间是相互关联的，部分关节点的丢失同样会对未遮挡关节点的预测产生影响。相对于视觉捕捉和关节角度测量技术，惯性测量技术没有使用空间的限制，但是惯性测量对高动态响应较差，数据采集精度随时间推移下降，易受外界环境磁场影响，最致命的缺陷是误差累计，无法长时间使用，视觉+惯性融合来实现动作捕捉技术则可以弥补各自传感器的不足，实现对于动作捕捉效果的优化。

2、本发明中多传感器融合优化姿态解算，其中需要的传感器对于现有惯性动作捕只是额外增加了一个普通的RGB相机拍摄的人物动作视频就可以达到提高动作捕捉精度效果，无需昂贵的专业设备，降低成本。

3、神经网络模型一次训练完成就用很高的复用性、鲁棒性。

附图说明

图1为本发明的方案示意图；

图2为惯性动捕单元设计图；

图3为UWB标签/基站设计图；

图4为UWB定位示意图；

图5为数据采集单元设计图；

图6为惯性器件姿态解算原理图；

图7为基于深度学习人体动作捕捉的框图；

图8为融合过程示意图。

具体实施方式

下面结合附图举例对本发明做更详细地描述：

结合图1-8，本发明一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法包括惯性动捕单元、UWB定位单元、数据采集单元、RGB相机、主机；所述惯性动捕单元内由多个传感器组成如图8所示，分别有主控芯片、无线传输传感器、MEMS捷联惯性测量单元和电源模块；UWB定位单元包含基站模块和标签模块如图7所示，数据采集单元负责采集惯性动捕单元UWB定位单元的数据负责与主机通信；此外主机通过RGB相机获取视觉信息。

本发明具体包括以下步骤：

步骤一，惯性动捕单元数据采集及姿态解算；读取MEMS捷联惯性测量单元中的陀螺仪和加速度计的数据，以及磁力计数据；由MEMS惯性测量单元输出的数据，推导角速度和线性加速度值，融合磁力计数据进行姿态解算，同时，结合静止状态下检测的初始条件，采用捷联惯性导航算法可计算出每一个动捕单元在运动时的姿态角，然后通过无线方式传输给接收单元。

步骤二，UWB数据采集及分析定位；本文采用4个基站和1个标签来进行定位，通过RTT双边(Double Side,DS)方式测距测得UWB标签和每个UWB基站间的距离，根据几何知识，解算出UWB标签的位置信息，然后将位置信息发送给接受单元。其中仅考虑平面位置，设标签坐标为(X,Y)，基站坐标为(Xi,Yi)。采用4个基站和1个标签来论述，标签与基站间的距离可表示为：

式中：ζ_i为噪声引起的标签与基站间的测距误差。对上式变形得到：

式中：

令X＝[x y]^T，得量测方程为：V＝AX+L式中

最小二乘解为

步骤三，通过RGB相机采集数据并进行数据解算；通过两端法来进行人体关键点三维坐标的获取，深度卷积神经网络检测出二维关节点坐标，卷积操作提取特征，利用二维关节点信息和特征矩阵回归出3D姿态；

步骤四，多传感器融合优化姿态解算；在步骤一、三基础上RGB相机解算出的数据与惯导结算的姿态，在RGB相机无遮挡的情况下，通过深度学习推算出关节点三维坐标，进而解算出人肢体的俯仰和航向角，与惯性传感器结算的姿态进行加权融合，借以获取更加准确的动作捕捉效果。当单目视觉识别结果会因为部分关节出现相互遮挡，忽略单目视觉的捕捉数据而直接由惯性动捕的识别结果代替；

步骤五，数据格式转化；在步骤四基础上，加权融合后的姿态数据和位置信息进行格式转换，数据格式主要包括两大部分，骨架信息和数据块，数据块存放着各个节点的姿态信息，髋关节处不仅包含了姿态信息，而且包含着位置信息；

步骤六，驱动虚拟人物，完成人机交互；首先导入设计好的人体模型，通过对输出数据进行解析并且更新到各个骨骼节点就可以驱动三维人体模型；

所述步骤一中的惯性动捕单元数据采集及姿态解算包括以下步骤：

步骤一，加速度计和磁力计的矫正，首先对加速度计和磁力计进行误差建模，之后各自采集一部分数据进行拟合矫正；

步骤二，由搭载在惯性动捕测量单元上的三轴陀螺仪、三轴加速度计和三轴磁力计分别测量装置在运动时的旋转角速率、线性加速度和地磁场强度大小。读取数据为加速度测量值[a_x a_y a_z]，磁力计测量值[m_x m_y m_z]，陀螺仪测量值为[ω_x ω_y ω_z]；

步骤三，对磁力计加速度计数据进行归一化处理。利用陀螺仪、磁力计和加速度计频域上的互补特性，互补滤波融合惯性传感器三种数据，通过加速度计矫正俯仰和横滚角，磁力计矫正航向，过程是从四元数中推出重力向量[g_xg_yg_z]和磁力向量[h_xh_yh_z]，计算出误差[e_xe_ye_z]，利用误差来修正陀螺仪，然后更新四元数；

步骤四，解算姿态得到欧拉角，对数据进行编号打包，通过无线传输发送到数据接收单元；

所述步骤三中的通过RGB相机采集数据并进行数据解算包括以下步骤：

步骤一，采用RGB相机获取视频，将视频导入电脑，利用opencv从视频中中读取一帧一帧的图像数据；

步骤二，对于每一帧的图像，采用深度卷积神经网络作为姿态检测网络，采用自下而上的方式来进行姿态的估计，最后得到人体骨骼关键点的二维坐标；

步骤三，基于连续帧卷积的网络，该网络在时间维度上对时序2D人体关节点坐标序列进行卷积操作提取特征，对输入视频中的3D人体姿态做出预测；

所述步骤四中的多传感器融合优化姿态解算包括以下步骤：

步骤一，通过RGB相机获取的视频，基于深度学习的三维人体姿态估计得到人体关节的横滚和航向角；

步骤二，通过惯性传感器以及姿态解算，获得每个关节的俯仰航向还有横滚角；

步骤三，在无遮挡的情况下，单目视觉也无法识别人体手臂等做出的滚转角变化的动作。而通过惯性传感器姿态解算，可以获得每个关节的俯仰航向还有横滚角。因此在此基础上，我们将俯仰和航向角进行加权融合借以获取更加准确的动作捕捉效果，横滚角则直接输出；

步骤四，单目视觉识别结果会因为部分关节出现相互遮挡，这时在遮挡关节处单目视觉的识别数据误差较大，已经失去了进行融合的价值，因此选择完全忽略单目视觉的捕捉数据而直接由惯性动捕的识别结果代替；

惯性传感器姿态信息与UWB获取位置信息是这样实现的。首先，读取螺仪和加速度计的数据，以及磁力计数据，利用陀螺仪、磁力计和加速度计频域上的互补特性融合惯性传感器三种数据，提高测量精度以及系统的动态响应性能。UWB用4个基站和1个标签来进行DS测距方法，基于到达时间通过RTT测距方式测得UWB标签和UWB基站间的距离，根据几何知识，解算出UWB标签的位置信息。

基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法是这样实现的。首先，在已知惯性导航初始条件的情况下由捷联惯性导航算法计算出人体姿态姿态角信息。但由于捷联惯性导航算法是一种积分算法，系统的误差不仅和惯性传感器本身误差有关，还随着时间的推移不断增大。因此，需要对惯性传感器误差和惯性导航系统输出误差进行估计和修正。接下来，采用加权平均滤波估计技术对惯性传感器误差和惯性导航系统输出误差进行估计。其中，采用RGB相机获取到的人体三维关键点解算出的人体关节姿态，为惯性姿态测量提供方向角和俯仰角误差修正，解决小体积MEMS惯性导航系统在检测人体姿态方向角漂移的的问题。

结合图对本发明做详细地描述，需要说明的是该方法中涉及的陀螺仪、加速度计和捷联惯性导航系统为典型惯性器件和导航定位系统，管道测量装置为典型的管道检测系统，故本发明不再对其原理进行详细描述：

如图1所示，基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法的总体方案示意图。核心传感器分别为UWB模块、MEMS捷联惯性测量单元、数据接收单元和RGB相机。

惯性动捕单元内由多个传感器如主控芯片、无线传输传感器、MEMS捷联惯性测量单元和电源模块组成如图2所示，首先进行的是磁力计、加速度计和陀螺仪的矫正，之后采取矫正好的数据进行姿态结算。UWB超宽带定位系统，定仅考虑平面定位人体位置，由主控芯片、UWB定位模块组成，具体如图3所示，通过标签对固定位置的四基站进行测距，通过最小二乘法来进行求取位置，惯性动作捕捉系统(多个MEMS捷联惯性测量单元组成)获取人体姿态，过程如图4所示。数据采集单元将数据采集到采集单元并上传至PC机，结构如图5所示。数据采集单元主要分为两个部分，UWB数据采集单元和MEMS动作捕捉单元。PC机通过数据汇集单元发送的信息，进行数据分析处理，与此同时通过RGB相机获取人体实时的视频，在PC上解析出关节点信息，传送给上位机来进行数据的加权融合，再现人体在三维空间的位置和人体主要骨骼姿态。

如图6所示，惯性器件姿态解算原理图。由惯性动作捕捉单元安装的三轴陀螺仪、三轴加速度计和三轴磁力机分别敏感管道测量装置在管道内运动时的旋转角速率、线性加速度和磁场强度。陀螺仪、磁力计和加速度计在频域上特性互补，所以使用互补滤波器融合惯性传感器中的这三种数据，可以提高惯性传感器的测量精度和系统的动态响应性能。据融合过程中，首先根据惯性传感器初始状态计算出四元数，再反推出重力向量和磁力线，获取加速度计和磁力计数据，并做标准化处理。相乘之后再求和，计算误差，然后使用比例积分控制器修正陀螺仪，利用修正的陀螺仪数值更新四元数。

如图7所示，是基于深度学习人体动作捕捉的框图，首先通过RGB相机采集人体动作转化成视频信号输入，采用深度卷积神经网络提取图像特征，并通过预测人体关键点热图的方式确定最终的关键点2维位置。得益于二维位置的高精度和泛化能力，选择以2D HPE法作为中间步骤，根据2D pose(和原始图像特征)去估计3D pose。以2D关键点坐标作为输入，通过残差连接的全连接层直接将2D pose映射到3D空间。

如图8所示，融合过程示意图，单一传感器无论是单目摄像头还是微惯性传感器，都难以克服各自的不足，导致在某些方面具有局限性。首先核心传感器为MEMS捷联惯性测量单元和RGB相机，通过获取惯性传感器数据解算出来的姿态和基于深度学习解算的人体动作姿态，人体手臂等做出的滚转角变化的动作，所以只进行人体俯仰与航向姿态的加权融合。对于附有惯性动捕单元节点的每一个身体关节而言，设其在某一时刻的真实姿态值为x，其为使用四元数或姿态角表示的姿态信息，该姿态值分别被RGB摄像机与惯性动捕传感器所测量，两者的观测值Z₁、Z₂为

Z₁＝x+v₁

Z₂＝x+v₂

其中v_i(i＝1，2)表示观测时存在的不同的随机误差，满足高斯分布，并且RGB摄像机与惯性动捕传感器两传感器在使用时相互独立。设对关节姿态的估计值为不同传感器测量值加权后求和。

为对关节姿态的估计值，而ω₁、ω₂表示分配给各个传感器测量值的权重。然后可以计算出使得对姿态估计偏差最小的分配权值。当部分关节出现相互遮挡，这时在遮挡关节处单目视觉的识别数据误差较大，已经失去了进行融合的价值，因此选择完全忽略单目视觉的捕捉数据而直接由惯性动捕的识别结果代替。

Claims

1.一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：

(2)UWB数据采集及分析定位；

(5)数据格式转化；

2.根据权利要求1所述的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：步骤(1)惯性动捕单元数据采集及姿态解算包括以下步骤：

3.根据权利要求1所述的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：步骤(2)中，采用4个基站和1标签来进行定位，通过RTT双边方式测距测得UWB标签和每个UWB基站间的距离，解算出UWB标签的位置信息，然后将位置信息发送给接收单元。

4.根据权利要求1所述的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：步骤(3)中通过RGB相机采集数据并进行数据解算包括以下步骤：

5.根据权利要求1所述的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：步骤(4)中多传感器融合优化姿态解算包括以下步骤：

ⅲ将俯仰和航向角进行加权融合，直接输出横滚角；

6.根据权利要求1所述的一种基于单目RGB相机及MEMS多传感器融合人体姿态识别的方法，其特征是：步骤(5)是在步骤(4)基础上，加权融合后的姿态数据和位置信息进行格式转换，数据格式包括骨架信息和数据块，数据块存放着各个节点的姿态信息，髋关节处包含姿态信息和位置信息。