CN116958859A

CN116958859A - 基于视频的高尔夫挥杆评测方法及系统

Info

Publication number: CN116958859A
Application number: CN202310671046.5A
Authority: CN
Inventors: 张艳婷; 涂福宇
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-10-27
Anticipated expiration: 2043-06-07
Also published as: CN116958859B

Abstract

本发明的一个技术方案是提供了一种基于视频的高尔夫挥杆评测方法，其特征在于，包括关键帧提取网络以及挥杆动作对比分析模块。本发明的另一个技术方案是提供了一种基于上述的高尔夫挥杆评测方法实现的高尔夫挥杆评测系统，其特征在于，分为展现层、通讯层、服务层和数据层，包括用户管理功能模块、视频管理功能模块和AI挥杆动作对比分析功能模块。本发明所需设备仅一部智能手机，根据挥杆关键事件对比分析挥杆动作，能够更迅速准确地定位动作的问题所在，且对骨架模型进行3D重建，可以多角度查看挥杆动作与职业球员的差异。同时能够提供量化数据分析，例如部分关节的角度，并能以与职业球员的骨骼点距离作为标准度评分。

Description

基于视频的高尔夫挥杆评测方法及系统

技术领域

本发明涉及一种基于视频的高尔夫挥杆评测方法以及基于该方法实现的高尔夫挥杆评测系统。

背景技术

诺亦腾MySwing[1]公开的高尔夫挥杆评测系统提供了17个无线传感器穿戴结点以及球杆传感器。其附带的分析软件能够对球手身体关键部位的运动轨迹、旋转角度、肌肉发力顺序等数据进行分析。同时还配备压感脚垫，对足部蹬地的发力大小同样进行记录。其产品优势在于对动作的捕捉更加精确、全面，量化数据分析更加具体和专业。缺点在于一套传感器装备的成本昂贵，同时由于拥有多种专业的传感器硬件设备，球员使用时需要对系统有良好的了解，使用门槛较高。

Liao等人[2]提供了一个分析工具，帮助高尔夫初学者将他们的挥杆动作与专家的挥杆运动进行比较。所提出的应用程序使用基于神经网络的编码器提取的潜在特征来同步具有不同摆动相位定时的视频，并检测出现不一致运动的关键帧。他们将同步的图像帧和3D姿势可视化，帮助用户识别差异和对提高挥杆技能至关重要的关键因素。

如图1所示，Liao等人[2]所提出的方案创建了一个原型应用程序，该应用程序可以可视化两个输入视频的潜在空间的距离，使用自适应阈值检测差异帧，并将检测到的帧与3D人体姿势进行比较。他们根据两个视频在潜在空间中的距离大小是否超过设定阈值来确定动作差异帧，这很有可能定位至一些不重要的动作时刻，这些动作可能与个人习惯更相关而并不影响最终将击球效果，并且也很有可能因为模型精度问题漏检一些不保准动作时刻。

McNally等人[3]提出了SwingNet网络来检测挥杆关键事件。SwingNet的整个网络结构分为两部分，首先使用成熟的卷积神经网络提取输入视频序列的每帧图像特征，由于该网络的重点放在了移动端部署上，故其选取了前文所提到的轻量级卷积神经网络MobileNetV2进行特征提取。然后，考虑到通过单一帧识别挥杆关键事件难度较大，例如从上往下挥杆与从下往上挥杆到同一位置的单帧图像是极为相似的，故尝试利用视频帧间的时间信息帮助检测。SwingNet这里采用的长短期记忆(Long Short-Term Memory，LSTM)网络对MobileNetV2平均池化后的输出进行处理，最终通过全连接(Fully Connected,FC)层以及Softmax激活函数来获得类概率，其中全连接层的权值跨帧共享。值得一提的是，SwingNet除了8个关键事件类外还增加了一个背景类，本质上是对每一帧进行9分类。

SwingNet对8个高尔夫挥杆关键事件进行了正确检测，平均准确率为76.1％。它虽然提出了一个不错的挥杆关键事件检测基线(baseline)网络，但其性能仍有很大的提升空间。首先很容易注意到一个挥杆视频数据中的现象：与关键事件帧相邻的帧非常相似，但SwingNet在执行分类时没有特别注意这些帧，而是直接使用交叉熵作为损失函数将相邻帧识别为“其他事件”帧，这会使模型在面对相似图片时得到完全不同的标签。这对模型的学习有很大的影响，在慢动作视频中更为突出。此外，LSTM对时序信息的利用能力有限，因此需要应用一种更新颖有效的网络来更大化地提取帧间的关联时序信息。同时增强其backbone网络的图像特征提取能力也能获得很大提升。提高关键事件检测精度对后续的挥杆分析任务具有重要意义。

随着计算机视觉及深度学习的发展，许多工作为我们的方法研究提供了一些基础和启发，比如，基于目标检测算法CenterNet[4]，它以预测物体中心点的形式来检测目标；及视频的人体骨骼点坐标估计算法VideoPose3D[5]，它可以预测人体17个关键骨骼点的3D坐标；一些基于注意力机制的特征加强算法如CBAM(Convolutional Block AttentionModule)[6]，它可以从空间和通道两部分提供注意力加强；以及Yu等人提出的MetaFormer[7]，它将transformer抽象为通用的体系结构，可以扩展至更多形式的信息融合。这些工作为本方法及评测系统的设计及开发奠定了一定的基础。

参考文件：

[1]诺亦腾.专业全身动作捕捉高尔夫运动测评与训练系统[EB/OL].2019.https://www.myswing.com.cn/

[2]Liao C C,Hwang D H,Koike H.How Can I Swing Like Pro？:Golf SwingAnalysis Tool for Self Training[J].2021.

[3]McNally W,Vats K,Pinto T,et al.Golfdb:A video database for golfswing sequencing[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition Workshops.2019:0-0.

[4]Zhou X,Wang D,P.Objects as points[J].arXiv preprintarXiv:1904.07850,2019.

[5]Pavllo D,Feichtenhofer C,Grangier D,et al.3d human pose estimationin video with temporal convolutions and semi-supervised training[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:7753-7762.

[6]Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attentionmodule[C]//Proceedings of the European conference on computer vision(ECCV).2018:3-19.

[7]Yu W,Luo M,Zhou P,et al.Metaformer is actually what you need forvision[C]//Proceedings of the IEEE/CVF conference on computer vision andpattern recognition.2022:10819-10829.

发明内容

本发明要解决的技术问题是：通过传感器获取挥杆动作分析数据成本昂贵。

为了解决上述技术问题，本发明的一个技术方案是提供了一种基于视频的高尔夫挥杆评测方法及系统，其特征在于，包括关键帧提取网络以及挥杆动作对比分析模块，其中：

关键帧提取网络的输入是一个视频帧序列I_t∈^3×H×W，其中，I_t是第t帧图像，T是序列的长度，H、W分别表示每帧图像的高和宽；关键帧提取网络利用MobileNetV2网络对视频帧序列I中的每一帧图像进行处理，提取其图像特征；随后，关键帧提取网络对提取的图像特征进行全局平均池化，使每一帧的信息用一个向量表示，即f_t∈R¹²⁸⁰；关键帧提取网络利用多尺度的时序MLPFormer对图像特征序列f进行处理，输出融合时序信息的嵌入特征Fc；最后，关键帧提取网络对于每一帧使用全连接层进行分类，预测事件类e_t，对于视频帧序列I，得到e_t∈R^C，其中，C表示事件类的数量，其中，对于每一类，将得到预测概率分数最高的帧表示为对应的关键事件；

挥杆动作对比分析模块进一步包括动作对比单元和标准度评分单元：

动作对比单元利用关键帧提取网络得到的关键帧图片和VideoPose3D[5]人体姿态估计方法得到的2D、3D人体骨骼点坐标，然后对比普通球手和职业球员的挥杆关键事件动作图片、3D骨架模型以及身体关键部位的关节角度，以最直观的形式呈现；

标准度评分单元在动作对比单元提供的差异呈现的基础上，提供有具体数据显示的标准度评分，分别针对每个关键事件的动作对职业球员和普通球员的骨骼点进行距离计算。

优选地，在所述MobileNetV2网络中添加三次CBAM[6]注意力模块：在开始的Conv2d之后添加CBAM模块，在中间的Bottleneck之后添加CBAM模块，在最后的Conv2d操作之后添加CBAM模块。

优选地，多尺度的时序MLPFormer对所述图像特征序列f的处理包括以下步骤：

所述图像特征序列f经过嵌入层获得MLPFormer的嵌入token序列；

将token序列送入堆叠的B个时序MLPFormer块，每个MLPFormer块先对token序列进行时序MLP处理后输入添加了残差连接的前馈层和层归一化；

将通过B个时序MLPFormer块得到的各个阶段的输出进行线性投影和上采样，并将最后一阶段的高语义特征添加到前面各个阶段的输出中，形成语义丰富的特征；

将不同阶段处理后的输出进行拼接，得到一个包含多尺度信息的视频表示，将该视频表示使用全连接层进行分类。

优选地，对所述关键帧提取网络进行训练时，将事件类c的第t帧标签值用表示，其中，t′_c表示事件c的关键帧，σ为可调的序列长度自适应标准差，若当前帧与事件帧之间的距离超过阈值r，则标签值仍为0，其中，设置r的值为τ·δ，δ为错误容忍度其中，n是从关键事件“准备动作”到“击球”之间帧的数量，s是采样频率，指的是x附近最近的整数，τ是一个倍乘系数。

优选地，对所述关键帧提取网络进行训练时，损失函数如下所示：

式中：表示为c类在帧t的预测概率；m为硬阈值，当出现负样本的概率小于m时，则完全丢弃该负样本；α和β表示可调的指数超参数；N表示输入序列中包含的关键事件帧个数。

优选地，所述动作对比单元利用关键帧提取网络得到的关键事件的帧序号，在整个挥杆视频的人体骨骼点坐标中选取对应时刻的坐标点；然后根据此坐标点将职业球员和普通球员的骨架模型生成在一张画布中，形成直观对比；此外，所述动作对比单元利用坐标点计算各个关键事件的身体关节角度。

优选地，所述标准度评分单元同时利用普通球员与职业球员髋关节到颈椎的距离长度的差异程度作为缩放比例，将全身的骨骼点近似地标准化至相同身高的情况；之后对每个关键事件下职业球员和普通球员的3D人体骨骼点坐标进行欧氏距离的计算，得到每个关键事件的子动作标准度评分。

本发明的另一个技术方案是提供了一种基于上述的高尔夫挥杆评测方法实现的高尔夫挥杆评测系统，其特征在于，分为展现层、通讯层、服务层和数据层，包括用户管理功能模块、视频管理功能模块和AI挥杆动作对比分析功能模块，其中：

在展现层，依靠微信小程序的开发平台，设计类微信样式的手机界面，并通过获取用户智能手机的摄像头和麦克风，得到挥杆分析所必须的视频信息；

在通讯层，通过微信小程序的网络通信应用程序编程接口，以超文本传输协议从小程序端向服务端发起网络请求，以构成前后端间的数据通信。

在服务层实现了信息管理、文件上传以及方法动作分析，其中，方法动作分析基于上述的高尔夫挥杆评测方法，生成对应挥杆事件的人体3D骨骼关键点坐标，并据此进行后续一系列的量化对比分析与展示；

在数据层，通过微信小程序开发平台的微信云开发功能实现数据的管理与存储；

用户管理功能模块负责系统用户的账号信息与个人信息的管理，控制用户的登录与权限；

视频管理功能模块实现用户使用智能手机拍摄视频并上传系统进行存储与展示的功能，同时提供教师用户给挥杆视频动作打分、评价的功能，学生用户也能够查看到自己动作的评分；

AI挥杆动作对比分析功能模块基于上述的高尔夫挥杆评测装置，根据提取出的关键事件帧，将完整的挥杆动作划分为多个关键子动作，再通过3D人体姿态估计算法生成特定时刻的人体骨骼点坐标，再由此坐标进行量化计算分析，并且将当前时刻的挥杆子动作以3D的多角度视角展示出来以供用户旋转查看。

优选地，在所述用户管理功能模块中：

对于学生用户，在登录进系统之后，首先要完善个人信息，之后才能进行视频的上传与查看；

对于教师用户，在登录系统之后，可以选择录入新学生或者查看已有学生，在录入新学生后，能够为该学生拍摄第一个视频，同时可以为其打分、给出评语；如果选择查看已有学生，则对于每个学生，都可以为其添加新的挥杆视频或是查看现有的所有视频，在查看视频页面，教师可以修改某一视频的动作评分和评语。

优选地，所述AI挥杆动作对比分析功能模块的时序为：

无论是教师用户还是学生用户，在查看某一学生的某个挥杆视频时能够请求进行AI分析，系统通过监听用户的请求，跳转至挥杆视频分析页面；在该挥杆视频分析页面加载的过程中，微信小程序端从云端数据库中下载当前视频文件，并向服务端发送POST请求，将视频临时地址传给后台；服务端接收到视频文件之后，判断请求方式和文件格式是否正确：如果正确，将视频暂存于服务端以便进行后续的算法处理；否则，返回错误提示；服务端在启动时便将基于上述的高尔夫挥杆评测装置实现的算法模型及其参数加载完成，收到请求后，将暂存在本地的视频文件进行数据预处理：

使用OpenCV工具将视频分成一帧帧图片并组合成多组相同长度的图片序列，同时将图片缩放至模型输入要求的大小，再转换为算法模型所需要的Tensor形式，并做归一化处理，以构成一个数据样本；然后通过Pytorch中的Dataset和DataLoader类，将视频帧序列依次送入算法模型进行计算，算法模型输出关键事件所在帧的序号，然后根据此序号从原视频中获取八张图片；此外，算法模型还使用VideoPose3D算法对视频进行姿态估计；获得当前视频的2D人体骨骼点坐标和3D人体骨骼点坐标后，后台将2D坐标可视化在图片上，3D坐标暂存于服务端；用matplotlib包把“准备动作”事件的3D坐标和服务器上专家库中默认职业球员该事件的3D坐标在同一画布上作成3D对比图像，并在之前生成的原视频帧图片中选取该事件的对应图片，一起转换为base64编码，以JSON的形式返回给微信小程序端，其余图片暂存；微信小程序端接收到图片编码后，将其解码渲染，显示在页面中，同时显示事先系统中保存的默认职业球员的对应图片，到此挥杆分析页面加载完毕，随后用户可以在微信小程序中选择不同的职业球员和不同的挥杆关键事件，确定选择后小程序端会再发送一个POST请求，以获取其余事件的视频帧图和新生成的3D对比图；

若用户发出生成角度请求，微信小程序端向服务端发送当前选择的关键事件和职业球员信息，后台接收到请求后，加载之前保存的3D人体骨骼点坐标，并依据前端所给信息条件，提取出学生与所选职业球员对应事件帧的坐标信息，依据坐标得到具体身体姿态角度返回给微信小程序端；

若用户发出生成距离请求，则向服务端发送当前用户所选的事件、职业球员信息，后端依据对应坐标信息进行距离计算，运用欧式距离的计算方式，计算出关键事件帧下学生与职业球员的骨骼点坐标距离，并计算均值作为总体挥杆的最终评分；

若用户在查看3D挥杆动作图时发出了旋转请求，则记录上、下、左、右四个方向旋转请求的点击次数，以获得当前用户查看3D图的视角状态，从而向服务端请求用户需求视角下的图片进行展示。

本发明基于视频获取挥杆动作分析数据，提升挥杆关键事件检测精度，并依据完整定义的8个关键事件对比动作不足，以防止漏检或者检测到非决定性动作差异。本发明所需设备仅一部智能手机，根据挥杆关键事件对比分析挥杆动作，能够更迅速准确地定位动作的问题所在，且对骨架模型进行3D重建，可以多角度查看挥杆动作与职业球员的差异。同时能够提供量化数据分析，例如部分关节的角度，并能以与职业球员的骨骼点距离作为标准度评分。

附图说明

图1示意了对Liao等人[2]所提出的方法和可视化分析结果的概述；

图2示意了所提高尔夫挥杆关键帧检测算法的整体流程

图3示意了MSTM的架构；

图4示意了高尔夫挥杆评测系统的总体架构；

图5为系统整体功能模块结构图；

图6为学生使用视频管理功能模块的活动图；

图7为教师使用视频管理功能模块的活动图；

图8为AI挥杆动作对比分析功能模块流程图；

图9为AI挥杆动作对比分析功能模块时序图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明公开的一种基于视频的高尔夫挥杆评测方法包括关键帧提取网络以及挥杆动作对比分析模块。

关键帧提取网络包括三个步骤：(1)从视频中提取帧级图像特征；(2)融合视频帧间的时间信息；(3)对每帧中的事件类型进行分类。其整体流程如图2所示。

具体来说，整个关键帧提取网络的输入是一个视频帧序列I_t∈R^3×H×W，其中，I_t是第t帧图像，T是序列的长度，H、W分别表示每帧图像的高和宽。序列中的每一帧图像都经过MobileNetV2网络处理，提取其图像特征。需要注意的是，模型采用了简单有效的注意力模块CBAM，将其灵活插入到卷积神经网络中，具体细节将在后文阐述。随后对提取的图像特征进行全局平均池化，使每一帧的信息用一个向量表示，即f_t∈R¹²⁸⁰。在帧间信息建模部分，本发明提出了一种多尺度的时序MLPFormer对图像特征序列f进行处理，输出融合时序信息的嵌入特征Fc。最后，对于每一帧t，使用全连接层进行分类，预测事件类e_t。对于整个序列，得到e_t∈R^C，其中，C表示事件类的数量。对于每一类，将得到预测概率分数最高的帧表示为对应的关键事件。

为了促进移动端应用，SwingNet采用了MobileNetV2的主干，这是一种具有倒置残差结构的轻量级卷积神经网络。本发明将CBAM模块集成到MobileNetV2的架构中，以提高其表示能力。CBAM是一个简单但有效的注意力模块，可以灵活地插入到CNN框架中。其中间特征图可以通过两个分别影响通道和空间维度的串联子模块进行自适应细化。本发明在MobileNetV2中添加了三次CBAM模块来增强不同状态下的特征表示，分别在开始的Conv2d、中间的Bottleneck以及最后的Conv2d操作之后添加。

由于高尔夫挥杆过程中人体运动的连续性，在视频中进行高效的时间建模至关重要。Yu等人[7]提出了MetaFormer的概念，这是一个通用的体系结构。它说明了Transformer的多头自注意力部分可以用任何结构替代，该部分的组件统称为token mixer。受此启发，本文使用MLP处理帧间时间信息，作为token mixer来处理视频帧序列，该模块被称为MLPFormer。为了获得不同时间分辨率下的语义，模型使用了具有多个阶段的层次结构。在每个阶段中，模型首先对中间特征进行下采样，以通过时序MLPFormer，然后将特征上采样到与第一阶段相同的维度。最后，将不同阶段的特征拼接在一起，得到多尺度的时间信息，如图3所示。

具体来说，由特征提取部分的网络池化层输出的特征f首先经过嵌入层，获得MLPFormer的嵌入tokens，用公式可以表示为：

X＝InputEmb(f) (1)

然后将长度为T、通道维数为D的token序列X∈R^T×D送入堆叠的B个时序MLPFormer块。每个MLPFormer块包含两个部分：第一部分的主要组件是时序MLP，用公式可以表示为：

X'＝TemporalMLP(Norm(X)^T)^T+X (2)

其中，Norm(·)指的是层归一化。通过变换视频帧序列的维度，MLP可以在token之间集成时间信息。第二部分与传统Transformer块相同，为添加了残差连接的前馈层和层归一化。所谓前馈层就是用MLP处理特征的通道维度，用公式可以表示为：

X″＝ChannelMLP(Norm(X'))+X' (3)

同时，通过阶段间的降采样(由Conv1D实现)减少token的数量，增加特征维数，使模型获得不同尺度的时间信息。每次降采样都将T减半，并将D乘以一个γ因子，其中γ值设置为1.5。然后参考Dai等人的方法，将得到的各个阶段的输出X″_i,i∈{1,...,S}进行线性投影和上采样，并将最后一阶段的高语义特征添加到前面各个阶段的输出中，形成语义丰富的特征F_i。这些操作用公式可以表示为：

其中，W_i为线性层中的可学习参数，Up(·)是指对每个阶段的输出先进行线性投影，再进行上采样，将输出维度统一到64×512。上采样时，将特征插值到与第一阶段的输出相同的维度，但如果输入的维度已经与第一阶段相同，则进行恒等映射。最后，将不同阶段处理后的输出进行拼接，得到一个包含多尺度信息的视频表示F_c：

F_c＝Concat(F₁,F₂,…,F_S) (5)

之后，F_c被送入全连接层进行帧级分类。

考虑到关键事件帧的相邻帧具有相似的人体姿势，本发明提出的方法应用高斯核函数来生成平滑的标签值。这个想法的灵感是来自于Zhou等人在CenterNet[4]中为了预测对象中心点而生成热图的做法。在热图中，中心点的值最大，并根据高斯核函数的值沿半径向外递减。将这种二维热图的生成方法降为一维可以很好地应用于时间序列。具体而言，不同于传统标签的关键帧为1、背景帧为0，新的标签值应用高斯函数形成一维热图Y∈[0,1]^T×1。那么，事件类c的第t帧标签值可以用表示，其中，t′_c表示事件c的关键帧，σ为可调的序列长度自适应标准差。如果当前帧与事件帧之间的距离超过阈值r，则标签值仍为0。这样，与关键事件帧具有巨大相似性的帧可以得到公平的处理。

因为不同的视频具有不同的序列长度(尤其是慢动作视频)，所以为了设定一个适当的r，这里引入SwingNet中定义的错误容忍度其中n是从关键事件“准备动作”到“击球”之间帧的数量，s是采样频率，指的是x附近最近的整数。这样就可以设置r的值为τ·δ，其中τ是一个倍乘系数。最后，将所有关键事件的热图并行拼接，即Y∈[0,1]^T×C，形成标签平滑的真实值。

对于每个关键事件类，整个视频序列中只有一帧是正确的关键帧。由此导致正样本和负样本之间存在着巨大的不平衡，在模型训练时应注意这一点。由于正样本的稀缺性，有必要强调正样本的贡献，弱化大多数负样本的影响。因此，采用改进的focal loss：

函数使得模型在整个输入序列的每一帧上，对每个c类关键事件进行二分类。将表示为c类在帧t的预测概率，根据标签值Y_tc是否等于1来计算损失。当标签值为1时，即该帧为实际关键帧，则与原来的focal loss一样，采用项对难以分类的帧进行聚焦。当标签值不为1时，设置了一个硬阈值m，当出现负样本的概率小于m时，则完全丢弃该负样本，以过滤过于简单的负样本提供的梯度。并且函数使用了两个校准项，首先是(p_m)^α项，其中，该项旨在惩罚与关键帧相邻的错误帧，因为错误帧的预测概率值理应较小，如果偏大则说明预测错误，此时该项会进一步放大这一错误，通过loss函数使模型注意到该样本。但是，由于关键帧的近邻帧与正确帧非常相似，模型从近邻帧学习到的信息不能完全否认，因此使用(1-Y_tc)^β来补偿其惩罚。

同时，借鉴不对称损失(Asymmetric Loss,ASL)的方法，对正样本和负样本的惩罚项系数进行解耦，即设置α+和α-，以减少易负样本的贡献，使模型更加关注正样本。

挥杆动作对比分析模块：

人们学习一项新技能时都是从模仿开始，因此利用职业球员挥杆的“标准模板”来反衬普通球手的动作问题是最直接有效的办法。于是，本发明的挥杆动作对比分析模块针对挥杆关键事件，以与职业球员的动作对比为核心，分为两部分：动作对比和标准度评分。

动作对比就是利用关键事件检测算法得到的8张关键帧图片和VideoPose3D人体姿态估计算法得到的2D、3D人体骨骼点坐标，然后对比普通球手和职业球员的挥杆关键事件动作图片、3D骨架模型以及身体关键部位的关节角度。以最直观的形式呈现，差距一目了然。

具体来说，首先利用关键帧识别算法得到的8个关键事件的帧序号，在整个挥杆视频的人体骨骼点坐标中选取对应时刻的坐标点。然后根据此坐标点将职业球员和普通球员的骨架模型生成在一张画布中，形成直观对比，可以很轻松地找到手臂或是腰椎等身体部位的位置差异。此外，再利用坐标点计算各个关键事件的身体关节角度。例如，手臂与身体的夹角可以体现手臂摆动到不到位；保持脊柱弯曲角度不变是实现稳定击球的最主要因素之一；在上挥杆的过程中，保持右膝弯曲的角度以及将身体重心置于右膝会为上挥杆产生最大的扭力。依据向量的说明书

数量积公式，可以得出：

其中，和表示由3D人体骨骼点坐标得到的空间向量，为两向量的夹角。此时选择3个具体的关节坐标点，再通过反三角函数即可得到相关关节的角度。

标准度评分是在动作对比提供的差异呈现的基础上，增加一个有具体数据显示的标准度评分，分别针对每个关键事件的动作对职业球员和普通球员的骨骼点进行距离计算。

首先，由于普通球员与职业球员的体型、身高可能有差距，故收集了多个职业球员的挥杆数据作为专家库以供选择，同时利用两者髋关节到颈椎的距离长度的差异程度作为缩放比例，将全身的骨骼点近似地标准化至相同身高的情况。之后对每个关键事件下职业球员和普通球员的3D人体骨骼点坐标进行欧氏距离的计算，得到每个关键事件的子动作标准度评分。该距离可以很好地体现普通球员挥杆的标准程度，距离越小说明与职业球员的动作越接近。

本发明还提供了一种基于上述方法实现的高尔夫挥杆评测系统，该系统以微信小程序作为基本的开发框架，配合部署了深度学习算法模型的服务端后台，提供方便、简易的用户体验，系统的总体架构如图4所示。

根据图4不难看出，整个系统被划分为四个层次：展现层、通讯层、服务层和数据层。

在展现层，系统依靠微信小程序的开发平台，设计了类微信样式的手机界面，能够在微信内被便捷地获取，带给了用户原生的APP体验。并通过获取用户智能手机的摄像头和麦克风等设备，得到挥杆分析所必须的视频信息。

在通讯层，通过微信小程序的网络通信应用程序编程接口(ApplicationProgramming Interface，API)，以超文本传输协议(Hyper Text Transfer Protocol，HTTP)从小程序端向服务端发起网络请求，以构成前后端间的数据通信。

在服务层，系统通过Python的Flask Web微框架实现后端服务。总共有三块业务服务：信息管理、文件上传、算法动作分析。其中，信息管理部分主要提供对用户账户、个人信息，以及视频信息的编辑与管理；文件上传部分则提供服务端从小程序端接收手机拍摄、上传的视频的功能；算法动作分析部分为本系统的核心业务，即通过关键事件帧识别算法以及人体姿态估计算法生成对应挥杆事件的人体3D骨骼关键点坐标，并据此进行后续一系列的量化对比分析与展示。

在数据层，通过微信小程序开发平台的微信云开发功能实现数据的管理与存储。该功能是微信团队联合腾讯云共同推出的开发服务，它的优势是无需专门搭建服务器，可以轻松通过调用小程序自身提供的API与自带的数据库进行交互。该功能能够对普通的用户数据进行增、删、改、查的同时，也可以进行图像、视频等文件数据的存储。

根据系统功能性需求分析可知高尔夫全挥杆评测系统被划分为三大功能模块：用户管理、视频管理和AI挥杆动作对比分析。系统的整体功能模块结构图如图5所示。

其中，用户管理模块主要是负责系统用户的账号信息与个人信息的管理，控制着用户的登录与权限；视频管理模块则实现了用户使用手机拍摄视频并上传系统进行存储与展示的功能，同时提供教师用户给挥杆视频动作打分、评价的功能，学生用户也可查看到自己动作的评分；AI挥杆动作对比分析模块可以根据提取出的关键事件帧，将完整的挥杆动作划分为多个关键子动作，再通过3D人体姿态估计算法生成特定时刻的人体骨骼点坐标，再由此坐标进行关节角度、骨骼点距离等量化计算分析。最后，还将当前时刻的挥杆子动作以3D的多角度视角展示出来以供用户旋转查看。

用户管理功能是每个系统都不可缺少的部分，它设立了不同用户之间的信息屏障，控制着每个用户使用系统时的身份，能够访问数据的权限等。在这一模块内，用户可以进行注册，登录和添加、修改个人信息等操作。注册时，每一个账号都是唯一的，不同身份的用户登录后有着不一样的界面。

为了让用户能够拍摄上传，以及随时查看先前所有的挥杆视频以及分析记录，系统设计了挥杆视频管理功能模块。该模块对于不同身份的用户有不一样的使用权限。

对于学生用户，在登录进系统之后，首先要完善个人信息，之后才能进行视频的上传与查看。这是为了让学生个人上传的视频与教师端的名单对应上，同时也方便检索。如若未完善信息直接点击录制视频或是查看视频的话，会被系统提示需先添加个人信息。完善好个人信息之后，点击添加视频后跳转至视频拍摄上传界面，点击录制则会调用手机摄像头进行挥杆视频的拍摄，当然也可以选择从手机相册上传视频。视频上传成功后点击提交，就会依据学生的个人信息存储视频到数据库。学生也可查看自己上传过的或是老师拍摄的属于他的所有挥杆视频，同时也能看到老师给予的评分和意见。学生使用视频管理功能模块的活动图如图6所示。

对于教师用户，登录系统之后，可以选择录入新学生或者查看已有学生。点击录入新学生的话，则需输入学生的学号、班级、姓名和性别，再点击确认添加后，进入视频上传界面。此时教师可以为该学生拍摄第一个视频，同时可以为其打分、给出评语；如果选择查看已有学生，则点击学生班级，系统会将数据库中已有的所有学生信息按照班级分组展示。点击某一班级后，页面列出班级内的所有学生。对于每个学生，都可以为其添加新的挥杆视频或是查看现有的所有视频。在查看视频页面，教师可以修改某一视频的动作评分和评语，尤其是学生个人上传的记录评分和评语是空缺的。教师使用视频管理功能模块的活动图如图7所示。

AI挥杆动作对比分析功能模块是本系统的核心功能模块，不会根据用户身份区分功能。教师可将其分析结果作为打分、评语参考，亦或是后续课堂的教学、训练计划改动的依据；学生则可以通过分析结果随时获得自己的挥杆训练反馈，帮助自己迅速找到动作薄弱环节，以便针对性训练。

该功能从挥杆视频查看界面进入，此时服务端会对所查看的视频进行算法处理。首先依据本发明所提出的关键事件检测算法定位出当前视频以及所选职业球员示范视频中的8个关键事件帧，再通过人体姿态估计算法生成每个关键事件的人体骨骼点坐标。2D坐标将其可视化在每个关键事件对应的那帧图片上，在界面最上方呈现，左边为职业球员，右边为学生，两者形成鲜明对比。3D坐标用于生成当前关键事件动作的多视角3D模型展示，职业球员与学生的动作生成在一张画布上，用红蓝两色分别呈现，并设置上、下、左、右四个按钮供用户进行视图旋转操作。除此之外，还依据3D坐标计算人体挥杆时手臂与身体的夹角角度、脊柱弯曲角度和右膝弯曲角度。最后，计算8个关键事件下职业球员与学生的17个骨骼点的距离。

另外，在页面加载时，系统会默认选择男性职业球员以及准备动作关键事件作为页面的初始展示。之后，随着用户在“专家库”中对职业球员的选择，以及对关键事件的切换，以上提到的所有展示、量化计算分析等，都会随之切换。整个AI挥杆动作对比分析功能模块的流程图如图8所示。

本系统的核心功能模块为AI挥杆动作对比分析，至于用户管理和视频管理两大功能模块使用简单的逻辑判断与数据库操作便能实现，这里不多赘述。

无论是教师用户还是学生用户，在查看某一学生的某个挥杆视频时可以在“动作标准度评分”栏看到AI分析按钮。系统通过监听用户点击事件，跳转至挥杆视频分析页面。在该页面加载的过程中，微信小程序端从云端数据库中下载当前视频文件，并向服务端发送POST请求，将视频临时地址传给后台。服务端接收到视频文件之后，判断请求方式和文件格式是否正确。如果正确，将视频暂存于服务端以便进行后续的算法处理；否则，返回错误提示。服务端在启动时便将算法模型及其参数加载完成，无需传输视频时实时加载。其收到请求后，将暂存在本地的视频文件进行数据预处理：使用OpenCV工具将视频分成一帧帧图片并组合成多组相同长度的图片序列。同时将图片缩放至模型输入要求的大小，再转换为深度学习模型所需要的Tensor形式，并做归一化处理，以构成一个数据样本。然后通过Pytorch中的Dataset和DataLoader类，将视频帧序列依次送入模型进行计算。模型输出8个关键事件所在帧的序号，然后根据此序号从原视频中获取八张图片。此外，还使用VideoPose3D算法对视频进行姿态估计。获得当前视频的2D和3D人体骨骼点坐标后，后台将2D坐标可视化在8张图片上，3D坐标暂存于服务端。接着，用matplotlib包把“准备动作”事件的3D坐标和服务器上专家库中默认职业球员该事件的3D坐标在同一画布上作成3D对比图像，并在之前生成的8张原视频帧图片中选取该事件的对应图片，一起转换为base64编码，以JSON的形式返回给微信小程序端，其余图片暂存。小程序端接收到图片编码后，将其解码渲染，显示在页面中，同时显示事先系统中保存的默认职业球员的对应图片，到此挥杆分析页面加载完毕。随后用户可以在小程序中选择不同的职业球员和不同的挥杆关键事件，确定选择后小程序端会再发送一个POST请求，以获取其余事件的视频帧图和新生成的3D对比图。

之后如果用户点击“生成角度”按钮，小程序端会向服务端发送当前选择的关键事件和职业球员信息。后台接收到请求后，加载之前保存的3D人体骨骼点坐标，并依据前端所给信息条件，提取出学生与所选职业球员对应事件帧的坐标信息，依据坐标得到具体身体姿态角度返回给小程序端。如果用户点击“生成距离”按钮，则同样地向服务端发送当前用户所选的事件、职业球员信息，后端依据对应坐标信息进行距离计算。运用欧式距离的计算方式，计算出8个关键事件帧下学生与职业球员的骨骼点坐标距离，并计算均值作为总体挥杆的最终评分。该距离可以很好地体现学生挥杆的标准程度，距离越小说明学生与职业球员的动作越接近，自然能获得的评分也就越高。

最后，如果用户在查看3D挥杆动作图时点击了旋转按钮，小程序会记录上、下、左、右四个按钮的点击次数，以获得当前用户查看3D图的视角状态，从而向服务端请求用户需求视角下的图片进行展示。AI挥杆动作对比分析功能模块的时序图如图9所示。

Claims

1.一种基于视频的高尔夫挥杆评测方法，其特征在于，包括关键帧提取网络以及挥杆动作对比分析模块，其中：

关键帧提取网络的输入是一个视频帧序列I_t∈R^3×H×W，其中，I_t是第t帧图像，T是序列的长度，H、W分别表示每帧图像的高和宽；关键帧提取网络利用MobileNetV2网络对视频帧序列I中的每一帧图像进行处理，提取其图像特征；随后，关键帧提取网络对提取的图像特征进行全局平均池化，使每一帧的信息用一个向量表示，即f_t∈R¹²⁸⁰；关键帧提取网络利用多尺度的时序MLPFormer对图像特征序列f进行处理，输出融合时序信息的嵌入特征Fc；最后，关键帧提取网络对于每一帧使用全连接层进行分类，预测事件类e_t，对于视频帧序列I，得到e_t∈R^C，其中，C表示事件类的数量，其中，对于每一类，将得到预测概率分数最高的帧表示为对应的关键事件；

动作对比单元利用关键帧提取网络得到的关键帧图片和VideoPose3D人体姿态估计算法得到的2D、3D人体骨骼点坐标，然后对比普通球手和职业球员的挥杆关键事件动作图片、3D骨架模型以及身体关键部位的关节角度，以最直观的形式呈现；

2.如权利要求1所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，在所述MobileNetV2网络中添加三次CBAM模块：在开始的Conv2d之后添加CBAM模块，在中间的Bottleneck之后添加CBAM模块，在最后的Conv2d操作之后添加CBAM模块。

3.如权利要求1所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，多尺度的时序MLPFormer对所述图像特征序列f的处理包括以下步骤：

所述图像特征序列f经过嵌入层获得MLPFormer的嵌入token序列；

将token序列送入堆叠的B个时序MLPFormer块，每个MLPFormer块线对token序列进行时序MLP处理后输入添加了残差连接的前馈层和层归一化；

4.如权利要求1所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，对所述关键帧提取网络进行训练时，将事件类c的第t帧标签值用表示，其中，t′_c表示事件c的关键帧，σ为可调的序列长度自适应标准差，若当前帧与事件帧之间的距离超过阈值r，则标签值仍为0，其中，设置r的值为τ·δ，δ为错误容忍度其中，n是从关键事件“准备动作”到“击球”之间帧的数量，s是采样频率，指的是x附近最近的整数，τ是一个倍乘系数。

5.如权利要求4所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，对所述关键帧提取网络进行训练时，损失函数如下所示：

6.如权利要求1所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，所述动作对比单元利用关键帧提取网络得到的关键事件的帧序号，在整个挥杆视频的人体骨骼点坐标中选取对应时刻的坐标点；然后根据此坐标点将职业球员和普通球员的骨架模型生成在一张画布中，形成直观对比；此外，所述动作对比单元利用坐标点计算各个关键事件的身体关节角度。

7.如权利要求1所述的一种基于视频的高尔夫挥杆评测方法，其特征在于，所述标准度评分单元同时利用普通球员与职业球员髋关节到颈椎的距离长度的差异程度作为缩放比例，将全身的骨骼点近似地标准化至相同身高的情况；之后对每个关键事件下职业球员和普通球员的3D人体骨骼点坐标进行欧氏距离的计算，得到每个关键事件的子动作标准度评分。

8.一种基于权利要求1所述的高尔夫挥杆评测方法实现的高尔夫挥杆评测系统，其特征在于，分为展现层、通讯层、服务层和数据层，包括用户管理功能模块、视频管理功能模块和AI挥杆动作对比分析功能模块，其中：

在服务层实现了信息管理、文件上传以及算法动作分析，其中，算法动作分析基于权利要求1所述的高尔夫挥杆评测方法，生成对应挥杆事件的人体3D骨骼关键点坐标，并据此进行后续一系列的量化对比分析与展示；

AI挥杆动作对比分析功能模块基于权利要求1所述的高尔夫挥杆评测装置，根据提取出的关键事件帧，将完整的挥杆动作划分为多个关键子动作，再通过3D人体姿态估计算法生成特定时刻的人体骨骼点坐标，再由此坐标进行量化计算分析，并且将当前时刻的挥杆子动作以3D的多角度视角展示出来以供用户旋转查看。

9.如权利要求8所述的一种高尔夫挥杆评测系统，其特征在于，在所述用户管理功能模块中：

10.如权利要求8所述的一种高尔夫挥杆评测系统，其特征在于，所述AI挥杆动作对比分析功能模块的时序为：

无论是教师用户还是学生用户，在查看某一学生的某个挥杆视频时能够请求进行AI分析，系统通过监听用户的请求，跳转至挥杆视频分析页面；在该挥杆视频分析页面加载的过程中，微信小程序端从云端数据库中下载当前视频文件，并向服务端发送POST请求，将视频临时地址传给后台；服务端接收到视频文件之后，判断请求方式和文件格式是否正确：如果正确，将视频暂存于服务端以便进行后续的算法处理；否则，返回错误提示；服务端在启动时便将基于权利要求1所述的高尔夫挥杆评测装置实现的算法模型及其参数加载完成，收到请求后，将暂存在本地的视频文件进行数据预处理：