随着深度神经网络在计算机视觉和自然语言处理中的发展,视频描述算法近年来越来越受到关注.视频描述算法旨在为给定的视频生成描述性句子,可应用于视频理解[1-2]、视频检索和人机交互等领域.最近关于视频描述[3-7]的研究主要集中在基于序列学习的方法,遵循编码器-解码器架构.以卷积神经网络(CNN)作为编码器,主要目的是充分利用视觉特征的序列依赖性[8-9].以转换器或长短期记忆网络(LSTM)作为解码器,用于构建视觉和语言时间依赖性以生成句子[10-11].此外,为了构建视觉和文本之间的对应关系,注意力机制被广泛用于动态提取每个单词的显著视觉特征.对于句子生成,教师强迫(teacher-forcing)学习根据先前的真实单词生成当前单词,被广泛用于视觉描述.为了解决暴露偏差问题,最近的一些方法[12]直接优化基于句子级任务的指标(作为奖励),使用策略梯度和混合损失方法进行强化学习(RL).然而,由于基于强化学习方法中策略梯度有较高的方差,因此RL解决方案通常在训练中会缓慢且不稳定,不易收敛.文献[12]在训练期间从真实描述序列和预测描述序列中采样上下文词,以缓解曝光偏差问题.重建网络[13]也可以间接缓解曝光偏差问题.尽管如此,这些方法都舍弃了先前生成单词的概率分布中包含的语义信息,无法解决当前词出现歧义时对下一个词生成的影响.针对上述问题,本研究提出基于相对熵(KL散度)的混合训练方法能充分运用先前单词的概率分布,提升生成句子的质量.另外,生成的句子中单词之间的语义相关性仍有待探索.为了生成语义连贯的句子,上下文语义信息的引导必不可少.现有方法虽然构建了词之间的依赖关系,但忽略了整个句子的上下文语义信息对预测当前单词的影响,这对于生成语义正确的句子至关重要.基于混合训练的双流与语义关联的网络利用先前生成单词的语义信息,本研究更进一步提出上下文语义提取器,并且在不同的网络模型上验证其通用性.将基于混合训练的双流网络和基于语义关联的上下文语义提取器进行融合,进而引入强化学习的方式直接优化网络模型,减少一个超参数,从而减小工作量.1 模块功能设计本研究从混合训练的角度出发,首先构建了双流网络:在传统解码器的基础上设计自学习解码器来利用包含在先前生成单词的概率分布中的语义信息.自学习解码器能够解决单词one-hot表达中的语义丢失问题,同时还能减少训练与测试的差异性.然后,在双流网络的基础上,添加了全局语义解码器(上下文语义提取器)得到融合网络:根据词的语义向量构建词之间的相似度矩阵,并从这个相似度矩阵中提取当前词对应的上下文语义信息,来整合每个单词的上下文时间序列信息以生成语义一致的句子.最后,使用强化学习优化融合网络(称为混合训练与语义关联的视频描述算法,DC-RL)在减少训练超参数的同时在句子级别优化整个网络模型.1.1 编码器框架本研究将上下文语义提取器应用到基于LSTM的网络结构中,具体网络结构如图1所示.使用预训练的2D卷积神经网络(2D CNN)提取每个视频帧的图像特征表示为{va1,va2,…,van},使用预训练的3D卷积神经网络(3D CNN)提取每个视频帧及其周围帧的动作特征表示为{vm1,vm2,…,vmn},通过级联图像特征vai和动作特征vmi作为双向循环神经网络LSTM1的输入,实现跨时间步融合这两种特征,双向长短期记忆循环神经网络提取视频中正向hi⃗和反向hi⃖的时序特征并做级联操作,最后从视频中提取的特征表示为V={x1,x2,…,xn},其中xn=[hi⃗;hi⃖].10.13245/j.hust.230101.F001图1双流融合网络框架图1.2 解码器框架传统解码器:基于编码器提取视频特征,旨在生成语法语义正确的句子来描述视频内容.为提取视频中关键的特征,探索视觉特征和文本特征的对应关系,使用注意力机制来动态地提取与当前生成词最相关的视觉特征.语言长短期记忆循环神经网络用于从左到右逐词生成句子.具体而言,第t时间步生成单词的语义特征表达为htl=LSTM2([Weyt-1*,ctl],ht-1l),(1)式中:htl为语言长短期记忆循环神经网络(LSTM2)的隐藏层状态;We为词嵌入矩阵,用于将one-hot的单词矢量映射到词向量空间;yt-1*为真实描述句子中第t-1时间步的单词;ctl为通过软注意力机制动态提取出来的与当前生成词最相关的视觉特征.全局语义解码器(上下文语义提取器):LSTM2的隐藏层状态htl通过一层前馈层映射得到分布在整个词库上的概率分布值.有ptl=softmax (Wphtl),(2)式中:Wp为可训练的参数;ptl为当前生成单词在整个词库中的概率分布值.因而可以将LSTM2的隐藏层状态htl作为单词的语义特征,自适应地计算单词之间的相似度矩阵,即β=softmax (HHT,dim=2),(3)式中:H={h1l,h2l,...,hml}为LSTM2的隐藏层状态集合;dim为维度;β∈Rm×m为单词相似度矩阵,其中m为句子中单词的个数.另外,β为一个对称矩阵,即βi,j=βj,i,其中,βi,j为第i个单词与第j个单词之间的语义相似度,βj,i含义类似.通过单词相似度矩阵,可以得到与当前单词对应的上下文语义信息,即ytg=∑j=1m βt,jhjl,(4)式中ytg为第t时间步的上下文特征.将该上下文语义信息输入到图1的LSTM3辅助当前单词的生成,有htg=LSTM3(ytg,ht-1g);(5)ptg=softmax (Wphtg),(6)式中:ht-1g为LSTM3在第t-1时间步的隐藏层状态;ptg为通过上下文语义信息得到的在第t时间步生成单词在词库中的概率分布值;Wp为可训练的参数,与式(2)中的Wp共享参数,以将局部语义特征和上下文语义特征约束到相同的语义空间.自学习解码器:为充分利用式(2)中概率分布 ptl包含的丰富语义信息,本研究设计了自学习解码器,与传统解码器不同之处在于,当自学习解码器生成当前单词时不是基于真实描述句子中的单词,而是直接使用模型生成的先前单词,以此来利用生成单词的语义信息,将该上下文语义信息输入到图1中的LSTM4中辅助当前单词的生成,即hts=LSTM4([Wept-1s,ctl],ht-1s);(7)pts=softmax (Wphts),(8)式中:hts为LSTM4在第t时间步的隐藏层状态;pt-1s为上一个时间步生成词的概率分布值;Wp与式(2)中的Wp共享参数,用于将LSTM2和LSTM4中的隐藏层状态约束到同一语义空间.1.3 融合网络框架融合网络模型从三个方面监督当前单词的生成.引入训练超参数以一定比例融合三者进行联合训练,即ℒ=ℒl+λ1ℒg+λ2ℒs,(9)式中:λ1和λ2为超参数,用于控制三者的重要程度;ℒl,ℒg和ℒs为交叉熵损失函数,有ℒl=-1m∑t=1mln (ptl(yty1:t-1*)) ,ℒg=-1m∑t=1mln (ptg(yty1:m*)) ,ℒs=-1m∑t=1mln (pts(ytp1:t-1s)) .在测试阶段以一定比例融合利用了上下文语义信息的LSTM2和利用了先前生成单词语义信息的LSTM4来生成最后的句子,即pt'=γptl+(1-γ)pts,式中γ为当测试超参数用于控制生成句子时LSTM2与LSTM4的重要程度.联合训练函数式(9)中存在两个超参数λ1和λ2,两个相对独立的训练超参数会增加实验的工作量.为此,本研究使用强化学习的方式直接优化局部LSTM(LSTM2)和自学习LSTM(LSTM4)的融合值,即测试阶段生成句子时所使用的融合特征.这样不仅能减少一个训练超参数,而且能起到直接在句子级别优化整个网络模型的作用.图2所示为使用强化学习的方法来优化整个网络结构的原理图,图中Bos为句子开始的标识符.强化学习通过直接优化测试模型来提升模型效果,即直接优化LSTM2和LSTM4的融合网络结构.以测试阶段取最大概率值的方式生成的句子作为评价基准,以概率值大小进行采样生成的句子作为待评价的句子.若待评价的句子优于取最大概率值的基准句子,则奖励模型使其朝该方向优化,否则惩罚融合模型.最后强化学习的损失函数定义为ℒr=-[r(y1r,y2r,…,ymr)-r(y^1,y^2,…,y^m)],式中:r(y1r,y2r,…,ymr)为通过概率值采样所生成句子的得分;r(y^1,y^2,…,y^m)为使用同测试阶段取最大概率值的方式生成的句子的得分.其反向误差传播定义为10.13245/j.hust.230101.F002图2强化学习优化融合网络模型∇θLθ=-(r(y1r,y2r,…,ymr)-r(y^1,y^2,…,y^m)∇θln pθ(y1r,y2r,…,ymr).同时采用交叉熵损失函数来训练上下文语义提取器,即ℒg=-1m∑t=1m ln (ptg(yty1:m*)).然后以联合训练的方式训练整个网络结构,以超参数λ控制其重要程度,即ℒ=ℒr+λℒg.2 实验结果及分析2.1 实验数据集及评估指标本实验采用的数据集是在视频描述领域内认可度很高的微软研究院视频描述数据集MSVD和微软研究院视频文本数据集MSR-VTT.MSVD数据集从Youtube上选取了1 970个短视频.针对单个短视频,MSVD都包含了大约40种与之相应的描述文本.用于描述视频的文本数量和词汇量大约分别为8×104和1.3×104.本实验遵循之前工作使用的配置,一共包含了1 200,100,670个视频分别进行训练、验证和测试.MSR-VTT选用总计时长为41.2 h的1×104个网络短视频,且这些视频被划分成了20个不同的类别.MSR-VTT大约包含3×104个不同的词汇,每个视频配备了大约20个注释语句.在继承来自MSR-VTT中的数据集切分后,分别使用6 513,2 990和467个视频剪辑片段进行训练、测试和验证.本实验采用被广泛使用的四个评价指标:双语评估候补(BLUE@N,B4);用显式排序评价翻译的度量(METEOR,M);以召回率为导向的注册评估替补(ROUGE,R);基于共识的图像描述评价(CIDEr-D,C).2.2 实验参数设置本研究的DC-RL算法对于输入到模型的视频片段进行统一且均匀的随机采样,每个视频的下采样率为25帧,句子中的每一个词都会被表征为“一对多”的向量表征形式.针对单帧的表征,采用一个预先训练好的残差网络ResNet-152网络进行外观特征提取得到1 024维特征;预先训练好的ResNext-101网络提取视频动作特征得到1 024维特征.在训练的阶段,上面提到的基准数据集中的句子,通过删除训练分割中的稀有单词来获得一个词汇表,阈值为2.对带注释的视频描述转换为小写,并删除标点符号.句子首尾分别添加的〈start〉和〈end〉标识符标志着句子的开始和结束.将句子的长度固定为20,截断那些过长的句子并在长度不足的句子末尾添加〈pad〉标记.在测试阶段,将〈start〉添加到视频解码器中,在词汇表中没有出现过的单词用〈unk〉代替.每步解码过程中通过一个“beam search”的策略,维度设置为5.将LSTM的输入和隐含层的维度设置到1 024.对于整个网络的优化损失函数,采用Adam Optimizer优化函数来最小化训练过程中的损失函数,并设置初始的学习率为1×10-4.本研究设计的融合网络结合前文提到的基于混合训练的双流网络和基于语义关联的上下文语义提取器,当未使用强化学习优化整个模型时存在两个超参数λ1和λ2,本研究直接遵循之前的设置[14]将其均设为0.8;而在使用强化学习后,将原先模型中的两个超参数减少为一个超参数λ,通过实验将其设为0.1.对于测试阶段及使用强化学习优化模型时的超参数γ遵循的实验,将其设定为0.8.已有工作[12]将强化学习的方法应用到视觉描述中,本研究参照文献[12]的方法使用强化学习直接优化融合后的模型.2.3 双流网络实验结果在与其他算法的比较上,基于比较的公平性,表1列举近年本研究算法与先进算法对比,指标最高的用粗体表示.10.13245/j.hust.230101.T001表1双流网络与其他算法对比结果算法MSVDMSR-VTTB4MRCB4MRCPickNet[10]46.133.169.276.038.927.259.542.1RecNet[13]52.334.169.880.339.126.659.342.7DenseLSTM[14]50.432.969.972.638.126.6—42.8TDConvED[15]53.333.8—76.439.527.5—42.8VRE[16]51.734.371.986.739.026.960.044.3MGSA[17]53.435.0—86.739.926.3—45.0BiLSTM-CG[18]53.335.271.684.139.127.759.946.4SiBNet[19]55.535.572.688.841.227.8—48.6双流网络52.834.872.789.041.628.060.948.9注:“—”表示有关文献中无此项指标数据(下同).所列举的算法都从视频中提取动作特征和每个视频帧的图像特征.将双流网络与最近的一些先进算法相比,在数据量更大的MSR-VTT数据集上,B4,M,R和C指标均取得最高分数值.在数据集MSVD上,双流网络在句子级别评价指标R和C上也取得了最高数值.两种算法的相对增长率公式为(N-M)/M,特别地,C指标达到89.0%,相对于PickNet,TDConvED,SibNet分别提高了17.1%,16.4%和0.2%.MGSA[17]模型通过动作特征指导注意力机制,帮助模型关注视频中的动态特征,有助于生成更流畅的句子,因而在B4指标上取得了最优的效果.BiLSTM-CG[18]通过融合视频中的属性信息来约束模型,从而更加充分地描述视频中的内容,因而在M指标上取得了更好的结果.2.4 融合网络实验结果定量和定性分析在数据量更大的MSR-VTT数据集上进行实验验证融合模型的效果,如表2所示.融合网络模型为双流网络和上下文语义提取器两者相结合的模型,该模型有两个训练超参数用于控制自学习解码器和上下文语义提取器的重要程度,本研究选取设定双流网络和上下文语义提取器中通过实验得到的超参数值.DC-RL为使用强化学习方式优化后的融合模型,强化学习优化算法既减少了一个训练超参数,同时从句子级别优化整个网络模型.通过表2可以得知:融合网络模型较baseline在B4,M,R和C四个指标上分别提升2.3%,0.3%,1.0%和1.9%.基于强化学习优化的融合网络模型分别提升2.0%,0.5%,1.9%和6.1%.通过融合网络模型与双流网络模型及上下文语义提取器模型的对比能够发现融合网络模型并没有取得非常突出的效果,分析可知:双流网络模型与上下文语义提取器有一定相似度,共同点都是融合句子中单词的语义信息实现语义感知的功能,因而将两者结合未能取得进一步的性能提升.10.13245/j.hust.230101.T002表2MSR-VTT数据集上实验结果比较算法B4MRCbaseline39.327.860.147.3双流网络41.628.060.948.9上下文语义提取器40.928.661.049.3融合网络41.628.161.149.2DC-RL41.328.362.053.4由于融合网络模型有两个训练超参,在设置中直接选用双流网络模型和上下文语义提取器模型经过实验得到的超参数值.对于融合网络模型,本研究没有进一步调整,而是通过强化学习方法减少一个超参数然后进行进一步实验,因而所设定的超参数对于融合网络模型而言并不一定是最优组合.基于强化学习的融合网络模型在R指标和C指标上取得了突出的效果,较baseline分别提升1.9%和6.1%,较双流网络模型分别提升1.1%和4.5%,较上下文语义提取器模型提升1.0%和4.1%,较未使用强化学习优化的融合模型分别提升0.9%和4.2%.从表3中可以看出:与上述先进的一系列最近的算法相比,本研究的模型探索通过构建序列词之间的语义关系能增强句子理解的优势,更准确来说,相较于以上最先进算法,本模型通过对未来信息在一定程度上的整合,让当前时间步的单词生成不再拘泥于顺序生成的已有局部序列.DC-RL在C指标上都比上述算法高8.8%,7.9%,26.8%,19.5%和9.9%,这得益于对上下文单词的相似度矩阵的构建,让性能得以进一步的提高.在C指标上的提升说明本研究所构建模型对模型特异性目标的识别具有极好的效果,这在一定程度上对解决许多模型存在的多个相似视频片段产生相似的描述语句造成识别结果欠多样化有一定帮助作用;同时,在B4指标上相较于以上最近的算法分别提升了2.0%,1.2%,4.0%,6.4%和0.2%.显然,本研究提出的DC-RL模型对生成描述的整体流利性有了进一步提升.10.13245/j.hust.230101.T003表3融合网络与其他算法对比算法B4MRCSAAT[20]40.528.260.949.1SGN[21]40.828.360.849.5Two-stream[22]39.727.0—42.1VideoTRM[23]38.827.0—44.7SiBNet[19]41.227.8—48.6baseline39.327.860.147.3DC-RL41.328.362.053.4R指标是从句子级别评价句子质量的指标,C指标是从句子语义层面进行评价的指标,R指标和C指标的大幅提升得益于强化学习直接从句子级别优化整个网络模型,而从单词和短语级别评价句子质量的B4指标及M指标没有得到很大的提升.R指标和C指标的大幅提升也说明使用强化学习优化后的融合模型能够生成语义更准确丰富的句子.DC-RL模型在MSR-VTT数据集上的几组视频描述结果,如图3所示,图中输出句子分别属于baseline,本研究提出的双流融合网络(DC-RL)和人工标准的句子(Ground Truth).在这些示例结果中,相对于数据集中原视频手工标注的语句,本研究提出的DC-RL可以预测更多相关的关键字,并生成更准确和连贯的描述.基线算法的识别能力比本研究的算法弱.例如第一个例子中的“谈论建筑物”.相反,DC-RL可以产生额外的上下文连贯性,例如“showing a video of buliding(显示了一座建筑物)”.得出结论:所提出的DC-RL可以动态地提取关键特征及自学习中单词概率分布中的语义信息.在第二个例子中,本研究方法生成相关语义词“playing sports(做运动)”.在第三个示例中,通过增强视觉之间的连贯性,本算法可以生成正确的描述“driving a car(开车)”,而基线模型生成错误的单词“a sport car is shown(跑车被展示)”.所有这些例子再次证明了DC-RL模型模拟出人类语言的丰富性,语言的表达效果较好,能充分体现特征信息比较丰富的DC-RL模型的总体优势及其较好的语言效果.图4展示了在数据集MSR-VTT训练过程中,使用强化学习优化baseline及优化融合模型在CIDEr数值上的得分比较.由分析可知:强化学习方式对baseline和融合模型的CIDEr数值均有提升作用,但融合网络模型通过融合先前单词信息及上下文语义信息能实现更好的效果.10.13245/j.hust.230101.F003图3MSR-VTT数据集上生成的视频描述语句示例10.13245/j.hust.230101.F004图4基于baseline-RL和DC-RL的CIDEr比较3 结语本研究从语义感知角度出发对基于混合训练的双流网络和基于语义关联的上下文语义提取器进行联合,设置融合网络结构并使用强化学习的方式进一步优化整个网络结构.在数据集MSR-VTT上,融合网络模型较baseline在B4,M,R和C四个指标上分别提升2.3%,0.3%,1.0%和1.9%.使用强化学习优化的融合网络模型分别提升2.0%,0.5%,1.9%和6.1%.通过将融合网络模型与双流网络及上下文语义提取器的实验结果进行对比分析,表明使用强化学习的融合网络在句子级别评价指标R和C上取得了最好的效果,较双流网络模型分别提升1.1%和4.5%,较上下文语义提取器模型分别提升1.0%和4.1%.而双流网络在B4上取得了最优效果,较baseline提升2.3%,上下文语义提取器在M上取得了最优效果,较baseline提升0.8%.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读