网刊加载中。。。

羽毛球运动作为一项素质教育的重要内容与手段，已然成为我国国民普及的运动项目[1]，但初学者由于缺乏专业的教学指导，因此可能导致身体出现不同程度的损伤[2]．本研究将人体姿态估计技术应用到羽毛球运动教学中，帮助学员更加精准地把握挥拍动作，在提高竞技水平的同时也能够预防运动损伤．人体姿态估计可以分为单人姿态估计[3]与多人姿态估计[4]，其中多人姿态估计的技术路线分为自顶向下与自底向上[5]两种．自顶向下方法先通过人体检测器确定图像中人体的边界框，再检测出人体关键点，典型的模型有区域多人姿态估计RMPE[6]等；自底向上方法直接定位图像中所有骨骼关键点，通过聚类的方式将这些骨骼关键点拼接成不同个体，典型的模型有卷积姿态机CPM[7]、使用部位亲和力向量场的实时多人2D姿态估计OpenPose[8]、多人姿态估计的联合子集划分与标注DeepCut[9]等．自顶向下方法的运行时间随着被检测人数的增长而增长，且在预测效果方面高度依赖人体边界框的检测质量；而自底向上的方法将运行时间与图像中的人数解耦，同时也摆脱了自顶向下方法对人体精准检测这一要求的依赖，更适合解决复杂场景下的人体姿态估计问题．本研究的羽毛球动作评估方法对算法实时性要求较高，且羽毛球运动竞技形式灵活多样，自顶向下的方法难以满足实时性与稳健性的要求．为此，本研究在目前效果较好的开源人体姿态估计模型OpenPose的基础上，结合羽毛球挥拍动作特点，使用轻量级网络MobileNet对OpenPose特征提取网络进行改进，并对模型内部的7×7卷积核结构进行改进，在实现轻量化的同时，提高了模型对手臂关键点的检测准确率；根据羽毛球运动特点，提出了对上肢关节点精细描述，其余关节点粗略描述的14点人体姿态稀疏表示模型，在保证精度的前提下，实现了评估性能的提升．1 数据集构建羽毛球运动姿势较为复杂，不同于其他简单的站立、跌倒姿势，对于小型球类运动来说，上肢在运动中的参与度极高．为了使本研究模型更符合实际应用需求，通过采集我校体育学院专业运动员的挥拍动作，制作了羽毛球挥拍动作数据集BSD．为了使数据集尽可能包含不同体型、身高的运动员的挥拍动作，提高模型对动作姿态检测的鲁棒性，验证本研究算法的有效性，采集了我校体育学院10位不同性别、不同体型的羽毛球专业运动员的挥拍动作，其中女性运动员4位，男性运动员6位．让每位运动员执行100次包含跳球、高远球、反手挑球、正手挑球、反手抽球、正手抽球、反手网前球和正手网前球8种常见的挥拍动作，最终得到的数据集共包含各类羽毛球动作图像8 000张．使用BSD数据集作为目标数据集，对图像进行手工标注，采用object keypoints标注格式，最终生成JSON格式文件．2 基于改进OpenPose的人体姿态估计算法通过对OpenPose的特征提取网络及模型内部的卷积结构进行分析发现：原模型特征提取网络VGG19的深度过高、参数量较大，导致网络性能降低；网络内部使用大量7×7的卷积核，造成网络的收敛速度变缓．本研究对OpenPose原模型的改进有以下两点：a．将OpenPose前10层特征提取网络VGG19更换为MobileNet，以实现更加轻量级的计算，同时也保证了模型识别的准确性；b．将预测肢体置信度和部位亲和力向量场的卷积结构进行调整，用4个小卷积核取代原开放式的大卷积核，以降低模型计算的复杂度．整体模型结构如图1所示，图中：h×w表示图像的尺寸；depthwise表示深度卷积；pointwise表示点卷积；d为空洞卷积的膨胀系数；ReLU为采用的激活函数；C为改进后的新型卷积结构．输入图像经过MobileNet特征提取后生成一组特征映射F，下一步并行进入分支1与分支2得到一组肢体置信度S1和一组部位亲和力向量场L1，随后阶段1的输出与原始特征映射F再次汇合进入阶段2，这样的过程连续执行6次，最终输出图像中的人体骨骼信息．10.13245/j.hust.240261.F001图1模型整体结构2.1　特征提取网络改进以深度可分离卷积为核心的移动端轻量级网络MobileNet具有基于卷积核的分解特征和组合特征以产生新的表示形式的效果，其思想是将标准卷积分解为一个深度卷积与一个1×1的点卷积，相较于标准的卷积神经网络参数量更少，运算成本更低[10]．深度可分离卷积的参数量与标准卷积的参数量比值可表示为η=1/N+1/DK2，(1)式中：N为输出通道的数量；DK为卷积核尺寸．OpenPose模型前10层使用VGG19进行特征提取，当卷积神经网络的深度过高时，不仅会导致网络的性能降低，而且会造成网络的收敛速度变缓，最终导致网络的检测性能降低．VGG19特征提取网络的卷积核尺寸为3×3，即式(1)中DK的值为3，由于输出通道数量N较大，此时η≈1/9，因此本研究采用MobileNet网络替换VGG19，特征提取网络的参数量约为原来的1/9．MobileNet共有V1，V2和V3三个版本．为验证三个版本与OpenPose模型的契合度，将OpenPose的特征提取网络VGG19分别更换为MobileNetV1，MobileNetV2[11]和MobileNetV3-small[12]，在自制数据集BSD上对8种羽毛球挥拍动作进行分析，评价指标为精确率(P)、召回率(R)及精确率与召回率的调和平均数(F1)，得出的实验结果如表1~4所示．表中JB，DB，BDB，FDB，BPB，FPB，BRB和FRB分别表示跳球、高远球、反手挑球、正手挑球、反手抽球、正手抽球、反手网前球和正手网前球．10.13245/j.hust.240261.T001表1VGG19特征提取网络训练结果挥拍动作PRF1JB889289.96DB898787.99BDB898888.50FDB868585.50BPB898687.47FPB899189.99BRB878887.50FRB898989.00%10.13245/j.hust.240261.T002表2MobileNetV1特征提取网络训练结果挥拍动作PRF1JB899290.48DB908788.47BDB908788.47FDB899390.96BPB909290.99FPB889088.99BRB888586.47FRB898687.47%10.13245/j.hust.240261.T003表3MobileNetV2特征提取网络训练结果挥拍动作PRF1JB919693.43DB909290.99BDB909090.00FDB919391.99BPB929090.99FPB918788.96BRB918788.96FRB919592.96%10.13245/j.hust.240261.T004表4MobileNetV3-small特征提取网络训练结果挥拍动作PRF1JB929492.99DB929292.00BDB939191.99FDB939393.00BPB919492.48FPB949091.96BRB919191.00FRB929392.50%由表1~4可知：在准确率方面，4个特征提取网络对挥拍动作的识别准确率均能达到88%以上，其中，MobileNetV3-small的平均识别准确率最高，为92.25%．另外，对比4个特征提取网络的处理速度FPS(Frames Per Second)得出：VGG19的处理速度最慢，FPS平均为6～9，MobileNetV3-small的处理速度最快，其FPS平均可以达到24～27．实验证明：OpenPose模型与MobileNetV3-small的契合度最好，因此本研究选用该网络为模型特征提取的主干网络．2.2　模型内部卷积结构改进由于原OpenPose模型从阶段2开始上下两个分支都要经过5个7×7的卷积运算，而7×7卷积运算的计算开销非常大，文献[13]证明使用较小的卷积核代替大的卷积核可以在保证精度的前提下降低模型的计算复杂度，但是较小的卷积核会造成感受野的降低，因此引入空洞卷积来弥补缺失的感受野．卷积结构改进流程如图2所示．首先采用一个1×1的卷积核与两个3×3的卷积核去替换原始的7×7的卷积核，再根据深度可分离卷积的思想，将中间层3×3的标准卷积核分解为一个3×3的深度卷积与一个1×1的通道点卷积，最后一层使用一个膨胀系数为2的3×3空洞卷积来弥补感受野的缺失．10.13245/j.hust.240261.F002图2卷积结构改进流程最终OpenPose模型内7×7的卷积核结构被改造为由一个1×1的卷积、一个3×3的深度可分离卷积与一个膨胀系数为2的空洞卷积组成的串联结构，如图3所示．10.13245/j.hust.240261.F003图3新型卷积结构2.3　实验验证与分析为了验证改进后模型的有效性，使用训练后的模型与其他三个优秀的人体姿态估计模型OpenPose，RMPE及DeepCut进行对比实验．实验在公共数据集MPII[14]上进行，该数据集包含4×104个标注人体关节点，是人体姿态估计领域较为权威的数据集．评价指标为关键点正确估计的比例(PCK)与FPS．实验结果如表5所示．由表5可知：在准确率方面，本研究模型对头部检测的准确率相较于10.13245/j.hust.240261.T005表5模型的PCK实验结果对比模型头部肩膀肘部手腕脖子DeepCut89.2182.0272.6767.4177.82RMPE91.4185.1275.8469.8680.58OpenPose90.6883.7274.4468.9479.42本研究89.3686.5476.9071.7378.30%RMPE模型降低了2.2%，对肩膀及肘部等关节点检测的准确率均有提升．对肩膀的检测准确率为86.54%，相较于原模型提升3.4%；对肘部的检测准确率为76.9%，相较于原模型提升3.3%；对手腕的检测准确率为71.73%，相较于原模型提升4%．即改进后的模型对手臂关键点的平均检测准确率提升3.57%．此外，DeepCut，RMPE，OpenPose原模型及本研究模型的FPS分别为9.1，9.7，8.9和26.0，可以看出：本研究模型在处理速度方面明显优于其他三个模型，处理一帧图像的速度平均为其他模型的3倍．通过与DeepCut，RMPE及OpenPose原模型在公共数据集上进行实验对比可知本研究模型在对手臂关节点识别方面具有独特优势．为直观验证模型的识别效果，图4展示了改进后的模型在BSD上对高远球动作的骨骼点关注度信息、亮度越高的点所受关注度越高，可以看出模型对上肢关注度明显高于其他部位关节点．由于当对羽毛球挥拍动作进行分析时上肢动作起到关键作用，因此改进后的模型在实际应用中具有可行性．10.13245/j.hust.240261.F004图4模型识别效果3 14点人体姿态稀疏表示模型3.1　模型描述人体姿态的定量描述主要分为粗略姿态描述和精细姿态描述[15]．粗略姿态描述对关节部位的描述方式较为简单，容易丢失角度等重要信息；精细姿态描述对肢体部位的描述参数较为丰富，包括所有与本关节点连接形成的角度信息、关节位置的相对关系等，但是会带来巨大的运算量，若对所有关节进行精细姿态描述则会导致模型的时效性变差．考虑到羽毛球挥拍动作对上肢动作的角度位置要求远远高于下肢动作以及粗略描述与精细描述的优缺点，本研究当对羽毛球挥拍动作进行特征描述时将眼睛、耳朵等无用关节点去除，对上肢关节点采用精细描述，其余关节点进行粗略描述．图5展示了18点精细描述模型、本研究模型及14点粗略描述模型．10.13245/j.hust.240261.F005图5人体姿态描述模型3.2　羽毛球挥拍动作评分方法在对运动员挥拍动作进行分析前，通过查阅羽毛球教学资料及咨询专业教师，对8种羽毛球挥拍动作定义了标准参数，为挥拍动作评分方法提供判断依据．羽毛球挥拍动作标准定义如表6所示．根据COCO数据集对人体骨骼点的定义[16]来命名评价指标的参数，标签0～17分别表示鼻骨、颈部、左肩、左肘、左腕、右肩、右肘、右腕、左髋、左膝、左踝、右髋、右膝、右踝、左眼、右眼、左耳和右耳，h0～h17表示对应关节点的高度．表6中∠567表示右肩、右肘与右腕形成的夹角，式h0≈h3表示头部与左肘高度应该一致，其余表达式依此类推．10.13245/j.hust.240261.T006表6羽毛球挥拍动作标准定义动作评价指标JB∠328≤90°，h2≈h4，h0≈h7DB85°≤∠567≤95°，175°≤∠328≤185°，h0≈h3BDB∠321≤90°，175°≤∠234≤185°FDB40°≤∠328≤50°，h4≈h8BPB85°≤∠234≤95°，h1≈h4FPB85°≤∠234≤95°，175°≤∠567≤185°，h4≈h8BRB175°≤∠215≤185°，h1≈h4≈h7FRB30°≤∠81，160°≤∠234≤180°当对运动员挥拍动作评分时，采用马氏距离作为姿态距离度量方式．从BSD数据集中选取每位运动员的挥拍图像10张，共计100个样本，使用马氏距离计算每个样本与其标准动作的空间距离DM，对距离值的分布进行分析．由于3.1节提出的人体姿态描述模型的有效性尚未验证，因此本实验使用18点精细姿态描述所表征的参数计算两个姿势之间距离．实验结果如图6所示，图中：LM表示运动员标签；1～10表示运动员标签为01的样本，11～20表示运动员标签为02的样本，其余运动员标签依此类推．10.13245/j.hust.240261.F006图6马氏距离实验结果由图6可知：因采用编号为01的运动员的挥拍动作作为标准动作，故其得出的结果约等于零．另外，运用马氏距离计算式得出其他运动员的结果大致分布在0.05～0.35之间，因数据集中运动员都是专业学员，他们的挥拍动作不会与标准动作差异太大，因此使用该方式所得出的距离值来设计羽毛球评分式具有合理性．由图6的实验结果还可以得知：使用马氏距离度量得到的距离值在0～1之间，且距离值越小，挥拍动作越标准．由于人们习惯用高分数来衡量动作的高标准，因此本研究使用单位1减去姿态间距离值DM，则距离值越低，待评分动作越标准，待评分动作的得分越高，距离值与得分之间成反比．用百分制来表示分数值，则最终的得分S定义为(单位1减去马氏距离)×100，其数学表达式为S=(1-DM)×100．(2)3.3　羽毛球动作评估系统实验本实验对提出的挥拍动作评估系统的准确度与时效性进行对比分析，使用改进后的OpenPose模型提取人体骨骼关键点，选用马氏距离姿态度量进行计算，得出每类动作的平均得分．本实验在BSD数据集上进行，根据式(2)通过18点精细姿态描述模型(18-fine)对其进行分值计算，将得分在90分以上的图像，共计2 350张作为本实验的测试数据，即选取动作较为标准的相似姿态数据进行对比．通过对18点精细描述(18-fine)、14点精细描述(14-fine)、18点粗略描述(18-rough)、14点粗略描述(14-rough)及本研究模型(8-rough，6-fine)进行对比实验得出8种挥拍动作的得分数，结果如表7所示．10.13245/j.hust.240261.T007表7不同模型的动作评估结果动作18-fine14-fine8-rough，6-fine18-rough14-roughJB95.294.593.885.483.0DB95.394.694.186.184.1BDB92.992.791.783.783.6FDB95.495.394.684.883.5BPB94.994.493.583.682.6FPB95.395.093.284.682.3BRB95.495.394.484.882.1FRB91.891.491.283.581.0由表7可知：18点精细姿态描述模型、14点精细描述模型、本研究模型、18点粗略描述模型和14点粗略描述模型的8种挥拍动作平均分数值分别为94.53，94.15，93.31，84.56和82.78．本研究模型所得结果与18点精细姿态描述模型相差1.22%，对于评分的精度来说几乎没有影响，而18点粗略描述模型与14点粗略描述模型的精度差异较大，这也验证了本研究姿态描述模型的必要性与有效性．表8显示了采用不同的姿态描述模型的总运行时间，人体姿态估计模型处理2 350张人体图像所耗时间为90.384 s，即使用18点精细描述模型的评估系统运算时间为117.594 s，每张图片的平均评估时长为50 ms，本研究模型的运算时间为39.48 s，每张图片的平均评估时长为16.8 ms，性能提升2.98倍．因此，本研究所提出的14点人体姿态稀疏表示模型能够在保证精度的前提下实现评估性能的提升．10.13245/j.hust.240261.T008表8不同模型运行时间人体姿态描述模型运行时间/s18-fine207.97814-fine181.8468-rough，6-fine129.86418-rough91.23014-rough91.0424 结语本研究针对传统运动动作捕捉分析方法实时性不足、准确度低等问题，提出轻量化OpenPose人体姿态估计算法，在提高处理速度的同时将模型对手臂关键点的平均检测准确率提升了3.57%，实现对上肢参与度较高的羽毛球运动动作更加实时准确地检测．此外，根据羽毛球运动特点提出粗细粒度的14点姿态描述模型作为相似度计算的参考依据．实验表明：模型整体准确度高，实时性好，可用于羽毛球运动动作标准程度评估，也可为其他运动的动作分析提供思路．然而，本研究在算法优化方面仍存在一些不足：通过对人体姿态估计模型的改进，虽然使肩膀、肘部及手腕关节估计的准确率有一定的提升，但是相较于原模型略微降低了对其他部位关节点估计的准确率．未来的工作会着眼于这方面的研究，另外还将考虑增加数据集中不同年龄、左利手右利手因素的影响，进一步提升数据集的有效性，提升模型的训练效果．