随着视频内容的爆炸式增长,越来越多的学者关注视频学习.时序行为检测是视频学习中一项基础且具有挑战性的任务,它旨在从未剪辑的视频中定位和分类视频中的动作实例,由于其在视频检索[1-2]、视频摘要[3]、视频监控[4-5]、异常检测[6]等方面具有巨大潜力,因此吸引了诸多学者关注.得益于深度学习的快速发展,研究人员提出了大量的时序行为检测方法,其中全监督方法[7-10]利用视频中动作实例的精确时间标注,在时序行为检测任务上取得了显著成效.但是,全监督方法用到的标注耗时耗力、容易出错且收集成本高.与弱监督时序行为检测(W-TAL)只需视频级别的动作类别标签与精准的时间边界注释下的动作实例相比,视频级别动作类别标签更容易收集且可以避免人工注释引入的定位偏差.现有的弱监督时序行为检测方法[11-15]通常使用视频级注释,并学习得到视频特定于某个类的得分,称为时间类激活图(TCAM).通常,使用分类损失来获得TCAM中的前景区域.文献[13]和[14]使用动作标签学习TCAM并通过后处理步骤获得时间边界,文献[15]使用TCAM生成视频分类分支直接显式回归得到动作边界.本地化性能在很大程度上取决于高质量的TCAM.在全监督条件下,TCAM的质量可以通过帧级注释来提高,而这样的帧级信息(前景和背景区域)在弱监督中是无法使用的,因此在弱监督条件下,预测的前景区域经常与真实的背景区域重叠,而预测的背景区域可能与真实的前景区域重叠,这就会带来误报和漏报.文献[16]通过不确定性约束等方法针对该问题对网络进行了优化,但忽略了时间片段之间的联系,造成行为片段的漏检.文献[17]专注于片段联系的挖掘,却忽视了片段本身特征的特点,使得网络分辨行为和背景的能力不强.本研究一方面通过采用振幅约束和背景约束的方法,提高了网络的定位能力,使前景区域和背景区域之间的差异变大,从而减少误报和漏报问题;另一方面,在现有的时序行为检测方法中,缺少对时间片段间联系的考虑,采用图卷积的方法,用图建模视频中的所有片段,建立片段间的相互联系,进一步提升网络性能.1 研究方法1.1 方法概述本研究提出的弱监督时序行为检测方法的完整网络结构图如图1所示.首先使用预训练的I3D[18]网络对视频中的每一个时间段提取特征作为输入特征,将时间段的特征视为图的节点,整个视频视为一个图,节点之间的边代表时间段间的相似度水平.输入特征经过图卷积后得到一个新的特征,进一步通过该特征进行时序定位,同时从该特征处做L2标准化引入一个额外分支,并引入不确定性损失和背景损失来约束网络.10.13245/j.hust.230208.F001图1完整的网络结构图1.2 特征提取对视频以25 FPS提取帧,以连续的16帧作为一个时间段.使用Kinetics预训练I3D模型来提取每个视频片段的特征,如文献[14]中所示.具体来说,每个视频由2个l×1 024的特征表示(l为每个视频包含的时间段的数量),从RGB中提取视频的一个RGB特征,从FLOW中提取视频的光流特征.将这两个连接起来得到最终视频的特征表示为l×2 048.1.3 图卷积使用图卷积来衡量视频片段之间的联系,每个时间段视为图中的一个节点.节点边由片段之间的相似性度量.图卷积可以使相似的片段更加接近,不相似的片段更有区分度,从而提高网络定位的能力.图卷积的参数表达式为Hk+1=AHkWk,(1)式中:Wk为第k层的权重参数矩阵;Hk为第k层的特征,本研究使用一层图卷积层,因此Hk为视频特征l×d,其中d为特征维度,取值2 048;A为邻接矩阵,邻接矩阵与特征相乘使得图中单个节点能够利用邻接节点的信息.用xi来表示视频Hk中的每一个片段,其中i∈[1,l],为了计算邻接矩阵A,首先通过一个全连接层(FC)对原始特征l×d进行转化得到一组新特征l×d',新的片段特征记为xi',使用余弦相似度函数计算节点之间的相似度Aij=xi'xj'xi'×xj',(2)式中i,j∈[1,l]为时间段序号.最终原始特征通过图卷积后转化为Hk+1,维度为l×d″.为了便于图卷积网络的训练,须要使图中边的权值较为分散,因此引入L1损失对边的权值进行约束,得到稀疏损失LL1=∑i=1l∑j=1l|Aij|/l2.(3)1.4 分类使用多实例学习(MIL)解决行为分类问题.每个视频中存在很多片段,其中一些是行为片段,一些则是背景片段.将特征Hk+1通过一个全连接层进行分类,最终对于每一个类取前k(取值max(1,l/8))个得分最大的片段平均值作为视频属于该类别的得分p,从而得到一个长度为C(总共的视频类别)的视频级得分向量.将该向量softmax归一化,最终得到视频属于每个类别的概率向量p'=softmax(p).(4)同时对于数据集中的视频类别标注进行标准化得到yc,使得视频类别标签向量的每个元素值相加为1,使用视频类别概率pc'和视频类别标注yn;c进行多实例学习,得到分类损失Lcls=1l∑n=1l∑c=1C-yn;clog(pc'),(5)式中n为视频序号.1.5 振幅约束对于一个视频片段特征而言,包含行为的前景特征应具有较大的振幅,而背景特征则具有较小的振幅,通过该先验构建约束,可以提高网络的定位能力.对于第n个视频,取前k(l/9)个得分最大片段特征的均值记为fnfore,取后k(l/4)个得分最小片段特征的均值记为fnback,振幅损失表达式为Lac=1l∑n=1l(max(0,s-fnfore)+fnback)2,(6)式中:s为最大振幅;∙为L2标准化.1.6 背景约束为了进一步对背景片段进行约束,强制背景类具有统一的概率分布,从而使背景类的得分进一步与行为类区分开来.背景约束表达式为:Lback=1lC∑n=1l∑c=1C-log(pc″),(7)式中pc″为第c类的得分最小的k个片段特征分类得分的均值.1.7 总约束最终的网络模型联合优化LL1,Lcls,Lac和Lback,总约束表达式为Lall=αLL1+βLcls+χLac+δLback,(8)式中α,β,χ和δ为网络模型联合优化时的超参数.1.8 定位对于一个输入视频,先获得其视频级的softmax得分,取得分大于0.2的类别进行定位,对于大于阈值的每一类,针对其片段得分取0~0.25间隔为0.025的阈值,高于阈值的部分留下,相连片段合并组成动作定位提议,最终将这些动作提议通过阈值为0.6的非极大抑制(NMS)去除重复提议,得到最终的时序行为检测定位结果.2 实验2.1 实验数据及参数本研究采用THUMOS14数据集和ActivityNet数据集进行实验.THUMOS14数据集是一个用于时序行为检测的数据集,包含20个动作类,共有200个验证集视频和213个测试集视频.由于该数据集视频的长度多样,且包含多个行为(平均每个视频包含15个实例),因此该数据集非常具有挑战性.与其他的弱监督时序行为检测方法相同,使用验证集视频训练模型,使用测试集视频进行测试.ActivityNet分为1.2和1.3两个版本.其中ActivityNet1.3由200个动作类别组成,包括1.002 4×104个训练集视频、4 926个验证集视频和5 044个测试集视频.ActivityNet1.2是ActivityNet1.3的子集,由100个动作类别组成,包括4 819个训练集视频、2 383个验证集视频和2 480个测试集视频,使用训练集视频训练模型,使用验证集视频进行测试.对于原始视频,以25 FPS提取RGB帧,采用TV-L1方法提取光流,每16帧作为一个片段送入在Kinetics上预训练的I3D网络提取特征,最终对THUMOS14的每个视频固定提取750段,对ActivityNet的视频固定提取50段.对训练的损失中的超参数α取1,β取1,χ取0.001,δ取1.2.2 时序行为检测结果THUMOS14数据集上的时序行为检测性能对比如表1所示.由表1可知:用于对比的弱监督时序行为检测方法在交并比(IoU)为0.1~0.3时取得了较好的结果,性能提升1%左右,本文方法能够检测到更多的真实行为片段,在IoU为0.4~0.5时取得了接近最优的结果.ActivityNet1.2数据集上的时序行为检测性能对比如表2所示,在IoU为0.5时取得了较优结果,在IoU为0.75和0.95时也取得了较有竞争力的结果.从该两个数据集的结果对比可以发现,本文方法在视频中存在较多行为片段时具有更优的结果.10.13245/j.hust.230208.T001表1THUMOS14数据集上时序行为检测性能对比方法IoU0.10.20.30.40.5UntrimmedNets[12]44.437.728.221.113.7Hide-and-seek[11]36.427.819.512.76.8STPN[13]52.044.735.525.816.9W-TALC[14]55.249.640.131.122.8BaS-Net[19]58.252.344.636.027.0MAAN[20]59.850.841.130.620.3DGAM[21]60.054.246.838.228.8A2CL-PT[22]61.256.148.139.030.1TSCN[23]63.457.647.837.728.7本文方法64.758.348.838.229.3%10.13245/j.hust.230208.T002表2ActivityNet1.2数据集上时序行为检测性能对比方法IoU0.50.750.95UntrimmedNets[12]7.43.20.7AutoLoc[15]27.315.13.3W-TALC[14]37.012.71.5TSM[24]28.317.03.5本文方法31.217.33.7%2.3 对比实验表3为THUMOS14数据集上的对比实验结果,结果表明:图卷积和振幅约束、背景约束都能提高网络时序检测的能力,对上述约束进行融合可得到更好的结果.10.13245/j.hust.230208.T003表3THUMOS14数据集上的对比实验损失IoU0.10.20.30.40.5基线26.719.313.58.75.3LL1+Lcls63.154.244.135.325.7LL1+Lcls+0.001Lac+Lback64.758.348.838.229.3%3 结语本研究提出了一种基于图卷积和振幅约束的弱监督时序行为检测方法,通过图卷积建模片段之间的关联情况,提升了网络的定位能力;同时,为探究行为片段特征和背景片段特征的差异,引入了振幅约束和背景约束,进一步提高了网络区分行为和背景的能力,在THUMOS14上取得了优异的结果,在ActivityNet1.2上取得了具有竞争力的结果.最后通过对比实验证明了图卷积和振幅约束的有效性.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读