网刊加载中。。。

情感分析是自然语言理解中广泛研究的问题．传统的情感分析方法按不同的情感呈现形式划分，包括文本情感分析、视觉情感分析、语音情感分析、生理情感分析等[1]．随着社交媒体普及，从短视频、播客等媒体中产生大量多模态数据．这些数据在用户意图挖掘或情感倾向预测方面具有巨大应用潜力，如何让机器识别、分析、理解情感成为智能人机交互系统中的研究热点．多模态情感分析模型综合利用多种信息来源，包括声音(语速、音调、音量、音色)、视觉(面部表情、唇读、手势、体势)及文字(自然语言、emoji表情)等，使机器从更全面的角度分析和理解情感，能取得比单一模态情感分析模型更高的识别准确率[2]．深度学习技术极大地助推了情感分析领域研究，相较于传统机器学习模型，基于深度学习的情感分析模型能够实现端到端的学习，且能提取到更高层次的情感特征，常用来处理对话情感识别[3]和细粒度情感识别[4]等任务．然而，大量研究表明深度学习模型容易遭受对抗攻击，攻击者通过制造与原始样本仅有细微不同的对抗样本，导致训练后的模型无法正确分类[5]．在图像分类领域，许多白盒攻击方法相继被提出并且能够有效地攻击图像分类器，包括快速梯度符号方法(fast gradient sign method，FGSM)[6]和投影梯度下降(projected gradient descent，PGD)[7]等．基于图像领域对抗攻击研究，研究者发现语音识别系统也容易遭受语音对抗攻击[8]．在多模态情感分析研究领域，研究者致力于探索多种模态数据组合输入的情感分析模型，解决如多模态情感语义鸿沟、多模态情感数据融合等问题，但这些模型仍不能有效抵御对抗攻击[9]．另外，现有研究仅评估单一模态情感分析模型鲁棒性，面向多模态情感分析模型的鲁棒性评估研究尚未展开充分探讨．针对以上问题，本研究以多模态情感分析任务为切入点，系统探究多模态情感分析模型在多种对抗攻击方法及特征融合方法组合下的性能表现，分析对抗攻击下影响多模态情感分析模型鲁棒性的内在原因，并提出一种基于互信息最大化的多模态防御方法．1 情感分析模型及攻击防御方法1.1　多模态情感分析模型为探究在多模态攻击下多模态情感分析模型的鲁棒性，设定多模态分析任务场景如下：给定一个短视频片段，视频中的人物会阐述自己的观点，多模态情感分析的任务是根据视频中对象的面部表情、说话的语调语速及话语内容来判断对象的情感状态．分别从视频中提取的语音信号xa和图像帧xv，多模态情感分析的目的是预测视频中说话人的情感标签y，即判断说话人的情感是积极、中立或消极的．使用一个集成语音和视觉两个模态的情感分析模型ℱθ，θ为模型参数，如图1所示．其中，语音模型使用改进的AlexNet网络[10]学习语音数据特征表示fa∈Rd，d为特征维度，视觉模型使用ResNet18网络[11]提取图像数据特征表示fv∈Rd，然后将语音特征和视觉特征输入到特征融合网络中得到融合特征fav∈Rd，用于情感分类．采用4种特征融合方案：a．特征相加(Sum)，fav=fa+fv，由语音特征和视觉特征简单相加得到；b．特征拼接(Concat)，fav=[fa;fv]，由语音特征和视觉特征在特征维度拼接得到；c．多模态低秩双线性(multimodal low-rank bilinear，MLB)[12]；d．多模态Tucker融合(Tucker)[13]．将融合特征输入到Softmax函数预测属于每个类别i的概率pi．模型使用交叉熵函数作为分类损失函数ℒcls=-∑i=1Iyilog pi，其中I为类别数量．10.13245/j.hust.230220.F001图1多模态情感分析模型1.2　对抗攻击方法1.2.1　对抗攻击对抗攻击通过一定的方法在干净训练样本上添加细微的扰动以生成对抗样本．这些细微的扰动由攻击者精心构造，人类很难通过肉眼识别出这些扰动，但是攻击样本却能够影响模型做出错误的判断．在本研究中，多模态对抗攻击可以分为两种类型：一种是单一模态对抗攻击，仅生成语音对抗样本x˜a或视觉对抗样本x˜v；一种是双模态对抗攻击，即同时生成语音对抗样本和视觉对抗样本(x˜a,x˜v)．在最小的扰动预算内，迫使训练好的深度神经网络做出错误的预测，攻击目标函数表示为argmaxx˜a,x˜vℒ(x˜a,x˜v,y;θ);s.t. x˜a-xap=δa≤εa;x˜v-xvp=δv≤εv,式中：εa和εv分别为语音对抗和视觉对抗可用的扰动预算，对于单一模态攻击方式，εa和εv中有一个为0；δa为语音对抗扰动量；δv为视觉对抗扰动量；ℒ(⋅)为训练模型ℱθ使用的损失函数；⋅p为p范数．1.2.2　威胁模型精确设计威胁模型是开展对抗攻击的前提．针对不同的场景和假设，威胁模型能确定攻击者的攻击目标及所获取的信息范围，攻击者可以在威胁模型的基础上部署针对性的攻击方法．本研究采取白盒攻击方式，白盒攻击假设攻击者知悉训练神经网络模型有关的全部信息，包括模型架构、训练数据、超参数、模型参数、激活函数和梯度等．攻击者根据这些信息，计算模型梯度即可生成对抗样本．1.2.3　攻击算法选取3种攻击方法来评估对抗攻击效果．a．快速梯度符号方法(FGSM)[6]．FGSM首先求出损失函数对输入样本的导数，然后求得梯度变化的方向，再乘以步长，得到扰动量，最后将扰动量加在输入的干净样本上，即得到FGSM攻击下的对抗样本．FGSM产生对抗样本的过程可表示为x˜=x+εsign(∇xℒ(x,y)),式中：x为干净样本；x˜为生成的对抗样本；ε为扰动预算；∇xℒ(x,y)为损失函数的梯度．b．投影梯度下降(PGD)[7]．从PGD干净样本邻域的一个随机位置开始，使用一个均匀分布的随机噪声进行随机初始扰动，采用FGSM进行多次迭代，步长为α，每次迭代将扰动裁剪到规定范围内．PGD生成对抗样本可表示为：x˜t=x˜t-1+αsign(∇xℒ(x˜t-1,y));x˜t=clip(x˜t,x˜t-ε,x˜t+ε)．c．动量迭代快速梯度符号方法(momentum iterative fast gradient sign method，MI-FGSM)[14]．MI-FGSM在迭代过程中，每一轮扰动不仅与当前梯度方向有关，还与前一轮梯度方向相关．MI-FGSM使用衰减因子调节前后轮次梯度的相关度，产生对抗样本的过程可表示为gt+1=μgt+∇xℒx˜t,y∇xℒx˜t,y1;x˜t+1=x˜t+αsign(gt+1)，式中：gt为前t次迭代的累积梯度；μ为衰减因子．1.3　多模态防御方法为提高多模态情感分析模型的对抗攻击抵御能力，提出一个基于互信息最大化的防御方法(以下简称MIMax)．互信息可用来度量两个随机变量之间的相互依赖程度．在本研究中，防御多模态攻击的主要思想是减少输入模态特征中的冗余信息(包括攻击信息)，尽可能地保留任务相关信息，同时捕获模态不变信息来强化特征融合结果．为达到以上效果，通过最大化融合特征和各模态输入特征之间的互信息来实现．受文献[15]启发，使用神经网络来估算各模态输入特征和融合特征之间的互信息．以计算语音特征fa与融合特征fav的互信息为例，首先将fav输入到一个神经网络Gω中，生成输入特征fa'，fa'=Gω(fav)，其中ω为神经网络参数；然后对fa'及fa进行归一化操作．即：f¯a'=fa'fa'2;f¯a=fafa2．最后，使用InfoNCE[15]估算二者的互信息下界，可以表示为ℒCPC(fav,fa)=-EfalogS(fav,fai)∑faj∈faS(fav,faj)，式中：S(fav,fa)=exp(f¯a'f¯aT)为f¯a'和f¯a的相似度；fai为一个批次中的一个数据样本；Efa为在fa集合下的期望．语音和视觉模态输入特征和融合特征之间的互信息损失可以表示为ℒMI=-ℒCPC(fav,fa)-ℒCPC(fav,fv)．2 实验2.1　数据集使用两个多模态情感分析任务数据集进行模型训练和评估模型性能．CMU-MOSI[16]数据集由2 199个来自YouTube短独白视频片段组成．每个视频片段中演讲者会表达对电影的观点．每个视频片段由5个不同的人标注，区间内的数字表示情感为消极的(低于0分)或积极的(高于0分)的相关强度．实验中取低于0分的标签为消极，等于0的为中立，大于0的为积极．CH-SIMS[17]数据集从电影、电视剧中收集了60个原始视频，通过对视频进行逐帧裁剪，得到2 281个视频片段．标注者对每个视频片段进行文本、音频、无声视频和多模态共4种模态的标注．每个视频片段各模态都由5位不同的标注者进行标注，标签分为-1(消极)、0(中性)或1(积极)．2.2　数据预处理语音数据：使用librosa语音工具包提取频率为11.025 kHz，长度约6 s的声学特征．将wav语音文件转换为数值向量作为语音特征提取模型输入数据．视觉数据：使用ffmpeg工具从视频文件中以每8帧的间隔提取图像帧，组成图像序列；然后运用OpenCV工具提取图像中人物的面部区域，作为视觉特征提取模型输入数据．2.3　实验设置及评估指标实验环境采用的操作系统为Ubuntu 20.04，GPU为NVIDIA RTX3090，深度学习框架使用Pytorch，优化器使用Adam，对抗攻击使用的扰动预算εa和εv均为0.008(除了图2~4的实验)，迭代步长α为0.001(PGD和MI-FGSM攻击方法使用)，迭代轮次为10次(PGD和MI-FGSM攻击方法使用)．实验采用分类准确率(ξ)作为评估多模态情感分析模型性能及攻击效果的指标．10.13245/j.hust.230220.F002图2语音模态攻击下不同扰动预算的性能影响10.13245/j.hust.230220.F003图3视觉模态攻击下不同扰动预算的性能影响10.13245/j.hust.230220.F004图4双模态攻击下不同扰动预算的性能影响2.4　对抗攻击下的模型性能评估2.4.1　单模态攻击评估在两个数据集上分别评估多模态情感分析模型在单一模态攻击下的性能表现．表1为仅语音模态攻击下模型的准确率，表中干净样本表示模型没有受到攻击．可以看出：在两个数据集上基于MLB特征融合的模型抵御语音对抗攻击效果最好．在MOSI数据集上，基于Sum特征融合的模型抵御攻击效果最差，在MI-FGSM攻击下准确率降低了1.46%；在SIMS数据集上，基于Concat特征融合的模型抵御效果最差，准确率降至1.01%．10.13245/j.hust.230220.T001表1语音模态攻击下的模型准确率数据集攻击方法融合方法SumConcatMLBTuckerMOSI干净样本57.8158.6956.9358.10FGSM37.8142.4856.0648.91PGD33.5838.9854.1652.41MI-FGSM16.3518.9852.7041.75SIMS干净样本58.6961.9659.1958.94FGSM32.2425.9456.1753.90PGD18.6413.1055.4245.84MI-FGSM5.291.0153.6542.32%在语音模态攻击下通过设置不同εa，在MOSI数据集上评估不同攻击方法对基于Tucker特征融合的模型性能影响(见图2)．从图2可以看出：MI-FGSM攻击效果最为明显，FGSM攻击次之．在MI-FGSM攻击下，随着εa的增加，模型准确率呈线性急剧下降，当εa=0.01时，模型准确率为38.3%；而在PGD攻击下，模型准确率下降较为平缓．表2为仅视觉模态攻击下的模型准确率，在单一视觉模态攻击下，可以发现：在两个数据集上基于Tucker特征融合的模型抵御视觉对抗攻击效果是最好的，在MOSI数据集上准确率仅下降3%左右．而在两个数据集上，基于Sum特征融合的模型抵御攻击效果最差．10.13245/j.hust.230220.T002表2视觉模态攻击下的模型准确率数据集攻击方法融合方法SumConcatMLBTuckerMOSI干净样本57.8158.6956.9358.10FGSM18.6927.3016.6455.04PGD11.3923.3610.9554.74MI-FGSM10.2219.7110.0754.01SIMS干净样本58.6961.9659.1958.94FGSM27.2035.2629.7242.57PGD21.4130.9821.9139.04MI-FGSM18.8926.9519.6537.03%通过设置不同εv开展视觉模态攻击，在MOSI数据集上评估不同的攻击方法对基于Tucker特征融合模型的效果(见图3)．图3中显示：在MI-FGSM攻击下，模型准确率随着εv的增加下降幅度最大；而在FGSM攻击和PGD攻击下，模型准确率下降幅度较小．通过实验可以发现：基于Sum特征融合和基于Concat特征融合的模型在应对对抗攻击的防御效果较差．分析认为这两个特征融合方法都是线性的，受梯度变化影响较大，而MLB特征融合和Tucker特征融合方法经过多层神经网络和非线性激活函数之后，能有效抵御梯度的细微变化．2.4.2　双模态攻击评估实验验证了语音和视觉双模态攻击下模型的性能表现(见表3)．由表3可知：对比单模态攻击，双模态攻击下模型准确率均有不同程度的下降．其中基于Sum特征融合的模型和基于Concat特征融合的模型在MI-FGSM攻击下准确率为0，表现最好的是基于Tucker特征融合的模型．多种攻击叠加能产生更强的攻击效果，并且非线性融合模型抵御对抗攻击的能力要明显高于线性融合模型．10.13245/j.hust.230220.T003表3双模态攻击下的模型准确率数据集攻击方法融合方法SumConcatMLBTuckerMOSIFGSM10.3615.7716.545.99PGD4.538.6110.6648.91MI-FGSM0.443.079.7838.69SIMSFGSM12.0913.627.9635.77PGD4.034.2819.4024.69MI-FGSM0.000.0016.1217.38%同时开展两种模态攻击的情况下，设置扰动预算εa和εv，图4为在MOSI数据集上评估3种攻击方法对基于Tucker特征融合模型的性能影响．随着εv的增加，3种攻击下模型准确率均呈下降趋势，而在MI-FGSM攻击下，模型准确率下降幅度远超FGSM攻击和PGD攻击．2.4.3　多模态融合对模型鲁棒性的影响在MOSI数据集上，运用MI-FGSM方法对单、双模态数据输入模型开展攻击，结果如表4所示．可以发现：4种双模态输入模型(Sum，Concat，MLB和Tucker)当没有受到攻击时准确率均高于单模态输入模型(语音、视觉)；当受到攻击时，双模态输入模型准确率也普遍高于单模态输入模型，其中表现最均衡的是基于Tucker特征融合的模型．因此，多模态融合可以显著提升模型鲁棒性和准确率．10.13245/j.hust.230220.T004表4单、双模态模型攻击效果融合方法攻击模态*A*V*AV#AV语音0.58——55.91视觉—11.53—54.74Sum16.3510.220.4457.81Concat18.9819.713.0758.69MLB52.7010.079.7856.93Tucker41.7554.0138.6958.10注：“—”表示没有对应数据；*表示攻击；#表示不攻击；A表语音模态；V表示视觉模态(下同)．2.5　多模态攻击下模型防御效果评估为验证MIMax的有效性，本实验对比了几种其他的防御方法：a．语音，仅语音模态输入，无防御措施；b．视觉，仅视觉模态输入，无防御措施；c．Tucker，采用Tucker特征融合模型，无防御措施；d．CosMin，采用Tucker特征融合模型，计算fa和fv余弦相似度ℒcossim，加入任务损失中，用来提升模态内紧凑性，可以表示为ℒcossim=fafv/(fafv)；e．CosMin，采用Tucker特征融合模型，将1-ℒcossim加入任务损失中，用来提升模态间紧凑性．以上对比实验均使用FGSM攻击，实验结果如表5所示．10.13245/j.hust.230220.T005表5多模态攻击下模型防御效果数据集防御方法攻击模态*A*V*AV#AVMOSI语音27.59——55.91视觉—20.15—54.74Tucker48.9155.0445.9958.10CosMax16.3555.3315.9155.62CosMin28.3256.3527.5956.35MIMax56.5057.0855.3358.10SIMS语音0.00——58.69视觉—35.26—56.17Tucker58.4442.5735.7758.94CosMax56.6844.0844.0856.68CosMin58.4436.7836.7858.44MIMax60.2046.6044.0860.96在两个数据集上，使用MIMax的模型准确率在攻击和不攻击的情况下，均高于基于Tucker特征融合的模型，同时也高于使用CosMin和CosMax的模型．3 结语全面评估多模态情感分析模型在多种对抗攻击方法下的性能表现，提出一种基于互信息最大化的多模态模型防御方法．研究结果显示：非线性特征融合及双模态数据输入下，模型抵御对抗攻击能力最强，互信息最大化多模态防御方法也能有效提升模型性能及抵御攻击能力．本研究主要用于改善多模态情感分析模型鲁棒性和提升模型性能，适当改进后亦可用于其他多模态模型中．