与口语或书面语不同,手语是聋哑人的一种以视觉为基础的交流媒介,包括手势、身体姿势、面部表情等,通常以视频的形式收集.手语识别旨在将手语视频识别为单词(孤立词手语识别)或句子(连续手语识别),以促进普通人群与聋哑人之间的交流.此外,手语识别还可以作为人机交互的工具,促进人与机器人之间的交流[1-2].孤立词手语建模依赖于手语视频中图像帧的静态场景信息和连续帧中蕴含的动作特征信息.对于实际应用来说,关键在于对这两部分进行高效建模.相比于传统的基于机器学习的手语识别方法[3],3D CNN[4-6]具有从低级到高级同时进行时空建模的能力,而不需要事后的时间信息融合,被广泛应用于手语识别中[7-14].文献[7]提出一种基于3D CNN的孤立词手语识别方法,文献[8]应用3D CNN进行多模态手势识别,文献[9]也利用3D CNN[4]的方法进行大规模手势识别,文献[10]进一步提出一种基于空间和时间注意力的多模态3D CNN,用于大词汇量的中文手语识别.然而,以上方法仅仅追求提高精度而忽视了急剧增长的模型尺寸和计算复杂度,导致模型难以部署,特别是在内存和计算资源有限的移动或嵌入式设备上.连续手语识别是一个更具挑战性的弱监督学习问题.最常见的做法是使用卷积网络,尤其是3D CNN作为特征提取器,然后采用序列模型如LSTM(长短期记忆网络)和CTC(连接主义时间分类)来生成预测序列.文献[11]采用双流网络[4]进行特征提取,提出具有潜在空间的LS-HAN(分层注意网络),用于连续手语识别.文献[12]提出一种分阶段优化方法,利用解码器生成的伪标签对特征提取器进行微调.文献[13]采用R3D(三维残差网络)[5]作为特征提取器,BLSTM(双向长短期记忆网络)作为编码器,LSTM和CTC两个解码器.文献[14]在迭代优化基础上提出STMC(时空多线索网络),用于提取更多有用的时空特征,并报告了CSL-continuous(中国连续手语数据集)[11]的最佳性能.然而,以上连续手语识别方法大多采用RNN进行序列建模,对于长距离建模存在不足,这限制了性能的进一步提高.针对以上问题,本研究首先在孤立词手语识别任务上,根据宽度缩放因子构建了不同复杂度的轻量3D-MobileNets(三维移动网络)[15];然后提出RKD(随机知识蒸馏)从多种教师网络模型中迁移知识,进一步提高轻量模型的特征提取能力[16];针对连续手语识别的长距离建模问题,使用完全基于自注意力的Transformer[17]进行手语视频特征序列的全局建模.在公开数据集CSL-500(中国孤立词手语数据集)[10]进行的大量测试实验表明:与基准的重量模型相比,轻量三维卷积神经网络在大幅度降低模型尺寸和计算复杂度的同时能保持相当的性能,达到95.10%识别率;在连续手语识别任务CSL-continuous上,与基于循环神经网络的方法相比,基于Transformer的轻量框架也能获得相当的性能,WER(词错误率)为1.9,证明了本方法的有效性.1 基于轻量3D CNNs与RKD的孤立词手语识别孤立词手语识别方法的整体框架如图1所示,图中:Softmax层为网络输出层;τ为温度;KL-散度代表Kullback-Leibler散度;α为参数,用来控制教师知识在指导学生训练中所占比例.首先采用稀疏采样将视频随机采样为长距离片段,然后将真实标签与教师指导联合用于轻量三维学生网络的训练,最后在推理过程中将测试手语视频片段直接输入到训练好的轻量网络中,得到预测结果.10.13245/j.hust.230503.F001图1基于轻量3D CNNs与RKD的孤立词手语识别整体框架1.1 轻量3D时空建模3D-MobileNet是从相应的轻量二维卷积架构扩展而来,并可以对模型宽度缩放因子和分辨率改变模型复杂度.3D-MobileNet-v1将标准卷积分解为深度可分离卷积和卷积核大小为1×1×1的点卷积,极大减少了计算成本和模型尺寸.每个卷积层后面都有批归一化层和非线性激活函数非线性整流单元.3D-MobileNet-v2引入了倒残差结构和线性瓶颈层这两个新的操作,以避免低维度造成的信息损失.本研究通过宽度缩放因子变换通道数使用不同复杂度级别的MobileNets,如MobileNet-v2-1.0和MobileNet-v2-0.45,其中0.45表示模型通道数缩放为0.45倍.1.2 随机知识蒸馏为了提高轻量3D CNNs的性能,本研究提出RKD(随机知识蒸馏)策略,从多个重量级3D CNNs中随机选择一个作为教师模型进行知识转移.学生模型可以从不同的教师那里学习知识,而不需要加倍的计算成本.通常,学生模型的最终输出将通过Softmax网络层生成每个类的概率,即yS=Softmax(aS),(1)式中:aS为学生网络中Softmax网络层的输入;yS为Softmax网络的输出.在所提出的RKD中,如果直接使用SoftMax层的输出值,那么Softmax输出的概率分布熵相对较小,信息也较少,因此本研究将输入除以温度参数τ后输入到Softmax层,以提取更多教师网络的泛化信息[15].教师和学生带温度τ的Softmax层输出分别为yTτ=Softmax(aT/τ);(2)ySτ=Softmax(aS/τ),(3)式中:aT为教师网络Softmax层前对应的输入;yΤτ为温度τ时教师网络对应的Softmax输出;ySτ为温度τ时学生网络对应的Softmax输出.为了提取教师信息,训练时通常设置τ大于1.训练学生网络的目标是使其输出的分类概率yS不仅能够拟合教师的软标签yT,而且符合硬(真实)标签yTrue.损失函数L定义为L=ατ2ψKL(ySτ,yTτ)+(1-α)ψKL(yS,yTrue),(4)式中:τ2的目的是使公式中的两项具有相同的梯度量级;ψKL为Kullback-Leibler散度,用以强制学生网络同时从教师网络的软标签和真实标签学习,并使用参数α控制教师知识在指导学生训练中所占比例.2 基于Transformer的连续手语识别连续手语识别方法的整体框架如图2所示,利用在CSL-500上预先训练的轻量模型作为特征提取器,并基于Transformer进行序列建模完成手语视频到手语句子的映射.具体为首先通过轻量三维模型获得时空特征序列,然后将该序列经过位置编码后输入到Transformer的编码器中,最后由解码器输出手语识别的句子.10.13245/j.hust.230503.F002图2基于Transformer的连续手语识别整体框架2.1 时空特征提取给定一个具有T帧的手语视频X=xtt=1T,其中xt为第t帧,首先使用滑动窗口生成一组有序的视频片段序列,因此手语视频也表示为X=vnn=1N,其中vn为第n个视频片段,且N≪T.用f(w)表示预训练的轻量特征提取器,w表示模型参数,输入每个视频片段即得到时空特征向量序列F,即F=fnn=1N=f(w)∙vnn=1N,(5)式中fn为时空特征向量.2.2 编码器编码器由N = 6个相同的编码层组成,接受具有位置信息的特征向量序列F作为输入.每一层有两个子层.第一层为多头自注意力层,可表示为Attention(Q,K,V)=Softmax(Q∙KT/dk1/2)∙V;(6)headi=Attention(F∙WiQ,F∙WiK,F∙WiV);(7)MultiHead(Q,K,V) =Concat(headi,headi+1,...,headH)∙WO, (8)式中:dk为键向量的维度;WiQ为查询变换矩阵;WiK为键变换矩阵;WiV为值变换矩阵,分别将每头的输入向量转换为查询向量Q、键向量K和值向量V;Attention为自注意力操作,表示第i个自注意力头;Concat为最后拼接多头自注意力;WO为线性变换矩阵.第二个子层FFN为位置共享的全连接前馈网络,可表示为FFN(x)=Max(0,x∙w1)∙w2,(9)式中:w1和w2为组成的全连接网络;x为网络中的特征向量;Max为求较大值的函数.以上每个子层都使用残差连接和层归一化(layer normalization)促进训练,可表示为LayerNorm(x+Sublayer(x)),(10)式中:LayerNorm为层归一化函数;Sublayer为多头注意力子层或前馈网络子层.2.3 解码器解码器也由N=6个相同的层组成.每层除了包括与编码器层相同的两个子层之外,还有对编码器的输出执行多头注意力操作.解码器中的自注意力操作添加了掩膜,以防止标签泄露并确保当前预测只能依赖于当前时刻之前的信息.3 实验及分析本研究在两个中文手语数据集上评估所提出方法的有效性.3.1 数据集3.1.1 CSL-500CSL-500[10]是一个词手语数据集,包括500个中文词汇.数据集总共有1.25×105个视频样本,本研究仅使用彩色视频.3.1.2 CSL-continuousCSL-continuous[14]数据集是一个连续中文手语数据集,由100个句子组成,词汇量与CSL-500大致相同,共有2.5×104个样本.设置I使用独立手语演示者的设置:训练和测试集共享相同的句子,但手语演示者没有交叉.设置II采用独立句子测试设置:训练集和测试集之间拥有相同的词汇,但不存在完全一致的手语句子.3.2 孤立词手语识别实验3.2.1 实施细节孤立词手语识别实验中只采用彩色RGB视频作为输入,采用稀疏策略进行长距离采样.另外,对于RKD,默认的蒸馏温度τ为10,默认的α为0.75,并且使用R3D,R(2+1)D(时空分解版三维残差网络)和SlowFast(快慢双通道网络)作为教师模型.在优化器设置方面,采用带有余弦学习速率衰减的SGD(随机梯度下降)优化器,批大小设置为16,初始学习率设置为1×10-3,权重衰减为1×10-4,动量为0.9.3.2.2 宽度缩放因子的影响首先根据宽度乘子(从0.2~2.0选择)构建FLOPs(浮点运算数)约为1×108,2×108,4×108和7×108的MobileNets-v2.如表1所示,随着参数和FLOPs的增加,模型的性能相应逐渐提高,这表示可以使用宽度缩放来扩展轻量模型的使用范围,以满足不同平台所需的计算复杂度和内存需求.10.13245/j.hust.230503.T001表1CSL-500上的实验结果网络参数量/106帧尺寸帧数FLOPs/109识别率/%RKD识别率/%3D-MobileNet-v2-0.20.8128160.07776.3477.013D-MobileNet-v2-0.451.3128160.22084.0286.453D-MobileNet-v2-0.71.9128160.40787.3790.563D-MobileNet-v2-1.03.0128160.70689.7092.723D-MobileNet-v2-1.0-2243.0224162.16293.0995.10R3D47.21281674.17093.3—R(2+1)D47.21281675.71096.5—SlowFast34.82243250.58396.8—当与R3D,R(2+1)D和SlowFast等重量级三维卷积神经网络模型相比时,3D-MobileNet-v2-1.0(89.70%)在使用1/15~1/10的参数(内存)和1/100~1/70的FLOPs的前提下可以获得稍差的性能.此外,通过极小的宽度乘子缩放的极轻量模型,如3D-MobileNet-v2-0.45(84.02%)也可以在使用1/300~1/200的计算资源和1/30内存占用下表现良好.3.2.3 随机知识蒸馏的作用如表1后两列所示,不同复杂度的MobileNets当使用RKD时都可以获得稳定和显著的性能提升,这证明了RKD算法在模型知识转移中的泛化性能.如图3所示,当使用RKD时,虽然3D-10.13245/j.hust.230503.F003图3RKD对训练过程的影响MobileNet-v2-1.0的训练损失降低的速度变慢(图3(a)的蓝色虚线),但是测试损失减小得更快(图3(a)的蓝色实线),并收敛到更低的值,且得到了较高的准确率92.72%;表1中约2.2×109计算量的3D-MobileNet-v2-1.0-224使用1/30~1/20重量模型的计算量获得93.09%的识别精度,并通过RKD进一步提高到与重量模型接近的性能(95.10%),证明了RKD的知识迁移作用.3.2.4 随机知识蒸馏消融实验考虑到效率和性能的平衡,本研究使用在7×108 FLOPs左右性能最好的3D-MobileNet-v2-1.0进行RKD的消融研究.为研究知识蒸馏中温度τ的作用,它能控制从教师网络转移的知识量,实验选择了1,10,20,50和100.如表2所示,当温度较低时,由于教师输出非常接近硬标签,可用的信息有限,因此RKD带来的性能提升也比较小;随着温度的升高,学生模型表现相应提高,这是因为教师软标签中有用信息的增加;但是随着温度的继续升高,性能反而会下降,这是因为过多的信息会增加噪声.在本实验中,10是比较好的选择.10.13245/j.hust.230503.T002表2温度τ的作用网络设置识别率/%3D-MobileNet-v2-1.089.703D-MobileNet-v2-1.0+RKD(τ=1)90.043D-MobileNet-v2-1.0+RKD(τ=5)92.333D-MobileNet-v2-1.0+RKD(τ=10)92.723D-MobileNet-v2-1.0+RKD(τ=20)92.583D-MobileNet-v2-1.0+RKD(τ=50)92.453.2.5 与其他方法的对比将所提出的方法与文献[10]中的方法进行比较,包括C3D-SVM(三维卷积-支持向量机)和Attention-C3D(注意力嵌入的三维卷积网络).如表3所示,所提出的基于RKD的轻量MobileNet-v2获得了更佳的性能,而且仅使用了RGB彩色视频,未使用depth(深度)信息.10.13245/j.hust.230503.T003表3不同方法性能对比方法模态参数量/106FLOPs/109测试集识别率/%C3D[4]-SVMRGB+depth97.0N/A74.70Attention-C3D[10]RGB+depth97.0N/A88.703D-Mobilenet-v2-1.0+RKDRGB3.00.7192.723D-Mobilenet-v2-1.0-224+RKDRGB3.02.1695.103.3 连续手语识别实验3.3.1 实施细节采用带有余弦学习率衰减的Adam(亚当)优化器进行训练.批大小设置为16,初始学习率为1×10-4,权重衰减率为1×10-4.使用WER(词错误率,EWER)来度量模型性能,它能计算模型输出与真实标签之间最小的替换(vsub)、增加(vins)和删减(vdel)操作,其计算公式为EWER=[(vsub+vdel+vins)/Sall]×100%,(11)式中Sall为句子中的单词总数.3.3.2 Transformer全局建模的作用为评估基于Transformer的连续手语识别框架全局建模的作用,与基于BLSTM局部建模的seq2seq(序列到序列)框架进行对比,并使用在约7×108 FLOPs下最佳的3D-MobileNet-v2-1.0做特征提取器.从表4中可以看出:基于Transformer的连续手语识别框架优于seq2seq模型,这证明了全局建模的有效性.10.13245/j.hust.230503.T004表4 seq2seq对比Transformer序列建模维度WERseq2seq(BLSTM+BLSTM)5122.2Transformer5121.93.3.3 与其他方法的对比如表5所示,本方法明显优于LS-HAN[11],这是因为CNN-RNN混合网络的长距离建模能力的不足.以往的先进方法通常采用迭代优化提高特征提取能力来弥补长距离序列建模的不足.如表5所示,在IAN(迭代对齐网络)[13]中,R3D特征提取和使用伪标签的对齐算法也提高了时空建模能力.由于使用迭代优化,STMC[14]也展现了优秀的性能,在设置I上获得了2.1的WER.10.13245/j.hust.230503.T005表5CSL-continuous数据集上不同方法性能对比方法特征提取序列建模设置I的WER设置II的WERLS-HAN[11]双流C3DBLSTM+LSTM17.3—IAN[13]R3DBLSTM+LSTM+CTC—32.7STMC[14]STMCBLSTM+CTC2.128.6Mobilenet-v2+Transformer3D-Mobilenet-v2-1.0+RKDTransformer1.929.0与上述方法不同的是:本研究采用Transformer进行全局建模,并采用参数数量极少、易优化且时空建模能力经RKD增强的轻量级三维网络作为特征提取器.如表5所示,所提出方法在设置I上获得了1.9的WER,在设置II上获得了29.0的WER,与最佳方法性能相当,这得益于Transformer优秀的全局建模能力.本研究提出采用轻量3D CNNs进行手语识别的轻量级时空建模.通过构建不同尺寸和计算量的轻量级网络,并采用RKD迁移多教师模型中的知识,在CSL-500手语数据集上以约1/100~1/10的计算与内存资源消耗获得了与重量级3D CNNs相当的结果,证明了三维轻量模型和知识蒸馏等方法在手语识别中的有效性.在连续手语识别中将轻量特征提取器与Transformer相结合,提高了模型的全局建模能力,并在CSL-continuous获得了与最先进方法相当的性能.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览