随着信息技术的快速发展,用户在社交电商平台发布的评论信息与日俱增,大多包含用户的意见表达和情感倾向,方面级情感分析(ABSA)任务[1]旨在协助商家从繁多的评论信息中挖掘和理解用户针对商品的意见,以便帮助商家精准分析存在的问题,改善服务和优化产品.ABSA的研究目标是识别评论文本中对于特定方面的情感极性(消极、中性或积极).如句子“Great food but the service was dreadful!”,对于方面“food”情感是积极的,而方面“service”情感是消极的.近年来,基于深度学习的方法凭借其良好的特征学习性能在方面级情感分析领域得到了广泛应用,从文本特征信息来源的角度可分为基于语义的方法和基于语法的方法.基于语义的方法主要是将注意力机制与循环神经网络结合起来,以关注特定方面的语义信息.然而,大量研究表明:针对注意力机制提出的各种改进方案[2-3]忽略了文本的语法依赖关系,导致注意力会错误地关注与特定方面在语法上无关的上下文信息,从而引入部分注意力噪声.基于语法的方法大多是在语法依赖树上使用图卷积网络(GCN)或图注意力网络(GAT)来获取特定方面的特征[4-6],这类方法可以有效解决特定方面与上下文之间的远距离依赖问题,并降低注意力噪声.但由于评论文本存在篇幅较短的特点,仅仅使用语法解析会忽略掉对情感分类有用的常识知识,因此须要引入外部知识以增强评论文本的特征表示.许多学者证明了外部知识对ABSA任务有着积极作用[7-8].知识引入是一把双刃剑,在有效提升ABSA模型性能的同时不可避免地会带来部分噪声[9].特别地,当句子中存在多个方面时,无区分地对所有情感词汇进行知识补充会对特定方面的情感判断带来干扰.例如句子“Great food but the service was dreadful!”,使用情感知识库SenticNet[10]对其进行语义丰富,“Great”强积极的情感值会对特定方面“service”的情感极性判断带来干扰.因此,如何降低知识噪声,精准地利用外部知识来丰富文本的语义信息成为一个待解决的问题.同时,基于依赖树的图卷积网络模型过于依赖解析器的解析精度,在处理句法不规范的评论文本时会降低模型的性能.为了解决上述问题,本研究提出一种基于剪枝策略的知识增强双通道图卷积网络模型(PSKE-GCN).该模型包含两个通道:通道一是构造一个语法图卷积模块,面向特定方面重构依赖树,利用剪枝策略去除距离特定方面较远的分支,使用情感知识库SenticNet进行补充,得到降噪后以特定方面为根节点的情感依赖树;通道二是构造一个语义图卷积模块,使用门控注意力单元得到注意力矩阵,用来表示词与词之间的语义相关性.最后进行双通道交互融合,对知识降噪的同时减弱了解析准确性对模型性能的影响.1 PSKE-GCN模型本研究提出的PSKE-GCN模型整体框架如图1所示,主要由上下文编码模块、语法GCN模块、语义GCN模块、交互注意力模块和情感分类模块组成.其中,上下文编码模块采用词嵌入模型GloVe[11]+Bi-LSTM,或仅使用预训练语言模型BERT[12]对句子进行编码,捕获句子级上下文信息,用H表示.交互注意力模块分别对语法GCN模块和语义GCN模块得到的表示进行Mask操作,再与上下文编码模块的表示进行交互.10.13245/j.hust.240366.F001图1PSKE-GCN模型整体框架任务定义:给定一个长度为n的句子x={w1,w2,⋯,wn}和长度为m的特定方面a={wa1,wa2,⋯,wam},wi表示句子中的第i个单词,wai表示特定方面中的第i个单词,特定方面a可以是一个单词或者一个词组,属于句子x的一个子序列.预测特定方面a在句子x中的情感极性(消极、中性、积极).1.1 上下文编码模块本研究采用GloVe嵌入模型.首先将每个单词映射到低维实值向量空间中,得到词向量为di=GloVe(wi),由词向量构建输入文本向量,然后将初始化的文本向量输入到Bi-LSTM中,通过Bi-LSTM学习句子中单词的隐藏信息,或者直接使用BERT,得到句子的隐藏状态H={h1,h2,⋯,hn},其中hi表示句子中第i个单词对应的隐藏状态.1.2 语法GCN模块本研究设计的语法GCN模块,使用图卷积网络对上下文隐藏状态向量与剪枝策略处理过的情感增强依赖树得到的邻接矩阵进行聚合,捕获语法信息.通过剪枝策略修剪原始依赖树,对修剪后的依赖树进行情感知识增强,以达到精准地引入外部知识,降低知识带来的噪声.一个示例如图2所示,例句中“service”为特定方面,用下划线标出,标注颜色代表补充了情感知识.图2(a)为使用SpaCy解析器解析得到的只保留点和无向边的原始依赖树,图2(b)为对图2(a)进行剪枝策略处理后的依赖树,图2(c)为对图2(b)进行情感知识增强后的依赖树,可以看到:图2中针对特定方面w4,只对w1,w3和w6进行了情感知识增强,而没有对w0进行增强.10.13245/j.hust.240366.F002图2由原始依赖树构建经剪枝策略后的情感增强依赖树剪枝策略的规则为:首先以特定方面为根节点重构原始依赖树,去除与特定方面没有直接关联的边,使其突出特定方面的权重依赖;然后通过上下文节点与特定方面之间的语法距离新建其之间的边,根据这个语法距离来控制对树的修剪程度,得到面向特定方面修剪后的依赖树,对该依赖树构造邻接矩阵,得到剪枝邻接矩阵Ap∈Rn×n,其元素Api,j的表达式为Api,j=1 (wi和wj之间存在边),1 (i=j),0 (其他).使用SenticNet情感知识表示特定方面与上下文之间的情感信息,构建情感知识矩阵T.为突出上下文对特定方面的情感信息,只计算上下文在SenticNet词典中的情感分数,其元素Ti,j的表达式为Ti,j=SSN(wi) (wi∉a且wj∈a);SSN(wj) (wj∉a且wi∈a);0 (其他),式中SSN(wi)∈[-1,1]表示单词wi在SenticNet词典中的情感分数,若SSN(wi)=0,则表示词wi是中性词或在SenticNet词典中不存在.最后得到情感知识增强后的矩阵Apk,其元素Apki,j的表达式为Apki,j=Api,j(Ti,j+1).将该矩阵Apk输入到语法GCN层,根据其邻域节点隐藏状态来更新第l层中每个节点的表示,即hsyi (l)=σ1Ei+1∑j=1nApki,jWsy(l)×gsyj (l-1)+bsy(l);gsyj (l-1)=ψ(hsyj (l-1)),式中:hsyi (l)为第l层中第i个节点的输出表示;Ei=∑j=1nApki,j为节点i的度;Wsy(l)为权重矩阵;bsy(l)为偏置项;σ为非线性激活函数(本研究选用ReLU);ψ(⋅)为位置感知转换函数,能够加强靠近该方面的上下文的重要性,减少过程中产生的噪声;gsyj(l-1)为第j个节点在前一层网络的输出结果经过位置编码加权处理后的隐藏状态.最后,l层语法GCN的输出表示为Ηsy(l)={hsy1(l),hsy2(l),⋯,hsya1(l),⋯,hsyam(l),⋯,hsyn(l)}.1.3 语义GCN模块语义GCN模块辅助语法GCN模块捕获情感特征.为了获得更高级的语义表示,加强单词之间的联系,本研究加入门控注意力单元(GAU)[13].在评论语句中,特定方面与意见词通常位于局部上下文中,因此使用门控注意力加强编码.结构如图3所示.10.13245/j.hust.240366.F003图3门控注意力架构门控注意力将门控线性单元(GLU)与注意力作为一个统一的层,启用强大的注意力门控机制尽可能多地共享二者之间的计算参数,提高了注意力分数的计算效率.具体定义为Hg=(U⊙V˜)×Wg;V˜=Aatt×V;Aatt=ReLU2(Q(Z)×K(Z)T+bg),式中:Hg为GAU生成的上下文表示;U为门控线性单元的输出特征;V为隐藏状态输入全连接层后的特征表示;Wg为参数矩阵;Aatt为包含单词注意力权重的矩阵;ReLU为非线性激活函数;⊙为逐元素相乘;Z为共享的特征表示;Q(Z)和K(Z)分别为对Z每个维度和偏移量的线性变换;bg为相对位置偏量.将Hg与Aatt输入到语义GCN层,GCN中的第l层的第i个节点更新为hsei(l)=ReLU∑j=1nAatti,jWse(l)×hsej(l-1+bse(l),式中:hsej(l-1)为节点j在前一层GCN的输出结果,以Hg中节点j的表示hgj作为GCN层的初始输入;Wse(l)为权重矩阵;bse(l)为偏置项.最后,l层语义GCN的输出表示为Ηse(l)={hse1(l),hse2(l),⋯,hsea1(l),⋯,hseam(l),⋯,hsen(l)}.1.4 交互注意力模块在GCN模块输出的隐藏表示中,含有较多无关信息的非特定方面节点会对情感分析产生干扰,因此使用Mask机制对GCN的输出进行遮蔽操作.遮蔽非特定方面,保留特定方面节点不变,得到语法GCN模块的方面表示Η˜symask 和语义GCN模块的方面表示Η˜semask,分别为:Η˜symask={0,0,⋯,hsya1(l),hsya2(l),⋯,hsyam(l),⋯,0};Η˜semask={0,0,⋯,hsea1(l),hsea2(l),⋯,hseam(l),⋯,0}.经过Bi-LSTM之后获取文本中隐含语义特征的上下文表示H与语法模块的特定方面表示Η˜symask之间进行交互,得到语法模块交互特征向量Msy,可表示为:αsy=exp(βsy)∑i=1nexp(βsyi);βsy=∑i=1nHTΗ˜symaski;Msy=∑j=1nαsyjHj.同理,可得语义模块交互特征向量Mse.1.5 情感分类模块对语法模块交互特征向量Msy和语义模块交互特征向量Mse进行拼接得到特定方面最终的表示,并通过Softmax函数获得情感极性概率分布,即:M=concat(Msy,Mse);y=Softmax(Wo×M+bo),式中Wo和bo分别为全连接层的权重矩阵和偏置项.使用交叉熵最小化目标损失函数,表达式为ζ=-∑i=1C1∑j=1C2y^ijlnyij+λθ2,式中:C1为训练样本数;C2为类别数;y^为真实情感标签;y为预测情感标签;λ为L2正则化;θ为可训练参数.2 实验及结果分析2.1 数据集本研究选用4个公开数据集进行实验,数据集与文献[4]一致,其中Twitter来自于TWITTER,Rest14来自于SemEval14,Rest15来自于SemEval15,Rest16来自于SemEval16.这些数据集包含3种情感标签,包括积极、中性和消极.数据集中训练和测试所对应的情感标签数量分布如表1所示.10.13245/j.hust.240366.T001表1数据集统计信息表数据集积极中性消极训练测试训练测试训练测试Twitter1 5611733 1273461 560173Rest142 164728637196807196Rest159123263634256182Rest161 24046969304391172.2 参数设置与评估指标针对PSKE-GCN,词嵌入使用嵌入维度为300的GloVe词向量进行初始化,隐藏向量维度为300.模型训练采用Adam优化器进行优化,学习率设置为2×10-3,L2系数设置为2×10-5,为了缓解过拟合,将Dropout率设置为0.3.对于PSKE-GCN(BERT),采用预训练BERT-base模型,词嵌入维度设置为768,学习率设置为2×10-5.批量训练样本数batch size均设置为16,GCN层数设置为2层.实验使用准确率(φAcc)和宏平均F1值(F1)作为衡量模型性能的指标.2.3 对比模型为评估本研究模型PSKE-GCN的有效性,选用了近年来表现相对优异的9种模型来进行实验对比.a.IAN[3]:利用LSTM分别对特定方面和上下文进行编码,两者通过注意力机制进行交互学习.b.CPA-SA[14]:提出了两个非对称函数来自适应地分配词的位置权重,然后使用GRUs对上下文进行编码.c.ASGCN[4]:提出将语法依赖树与GCN结合学习特定方面的语法特征.d.RMN[15]:提出了一种多任务学习网络,通过提取方面关系作为方面级情感分析的辅助任务,有效利用方面间的相似和对立所隐含的关系信息.e.AGCN[16]:提出了一种聚合图卷积网络,利用两个聚合器捕获长距离依赖的特征,增强特定方面节点的表示.f.MIGCN[17]:提出了一种多交互模型,同时考虑位置距离和语法距离,设计多交互机制融合语义和语法特征.g.MTKFN[18]:提出了一种融合多源知识的统一模型,利用结构知识和情感知识增强重要上下文和特定方面的表示.h.SK-GCN[19]:提出了一种对语法依赖树和常识知识进行编码的图卷积模型,以丰富句子对特定方面的表示.i.Sentic-GCN[7]:提出了一种使用SenticNet情感得分来增强依赖关系的图卷积模型,提高对特定方面情感知识的学习.2.4 结果分析2.4.1 对比实验表2的对比实验包括基于GloVe的模型和基于BERT预训练的模型,可以看出:本研究模型PSKE-GCN在4个数据集上取得了优异的情感分类效果,准确率均高于最近的语义语法多交互模型MIGCN,但在Twitter数据集上提升较小,这是由于Twitter上的评论更加口语化,语法信息不强烈,而PSKE-GCN是在语法关系的基础上进行知识增强,因此对这类数据集改善不明显.此外,采用BERT预训练模型进行文本表示,PSKE-GCN(BERT)在Rest15和Rest16数据集上的准确率虽然能够超过经典的引入情感知识的模型Sentic-GCN(BERT),但是在Rest14数据集上低于Sentic-GCN(BERT),这是因为相较于其他餐厅数据集,Rest14上的长文本相对较多,而PSKE-GCN(BERT)采用的剪枝策略容易将距离特定方面过远的意见词忽略,在这类数据集上对比不进行剪枝直接补充知识的Sentic-GCN(BERT)不占优势.10.13245/j.hust.240366.T002表2不同模型对比的实验结果类别模型TwitterRest14Rest15Rest16φAccF1φAccF1φAccF1φAccF1基于GloVeIAN72.5070.8179.2670.0978.5452.6584.7455.21CPA-SA——82.6473.3879.6160.1589.0272.43ASGCN72.1570.4080.7772.0279.8961.8988.9967.48RMN——81.1673.1780.6964.4188.7571.54AGCN73.9872.4880.0271.0280.0762.7087.9865.78MIGCN73.3172.1282.3274.3180.8164.2189.5071.97MTKFN69.8067.5479.4768.0880.6758.3888.2866.15SK-GCN71.9770.2280.3670.4380.1260.7085.1768.08PSKE-GCN74.2872.8683.2175.7282.4765.8390.1073.99基于BERTRMN(BERT)——84.5679.0582.9466.9589.3871.88AGCN(BERT)75.4374.1182.7773.2982.8465.0888.8067.65SK-GCN(BERT)75.0073.0183.4875.1983.2066.7887.1972.02Sentic-GCN(BERT)——86.9281.0385.3271.2891.9779.56PSKE-GCN(BERT)76.0175.2286.1680.0785.6170.5292.0579.66注:“—”表示无此项.%2.4.2 参数敏感性实验由于剪枝策略是依据特定方面与上下文词之间的语法距离进行操作,因此针对采用不同语法距离的剪枝策略会对模型产生不同的影响.本实验选用语法距离为2,3,4进行剪枝.如表3所示,当语法距离选为3时,即剪掉语法距离大于等于3跳的边,模型性能达到了最优.分析句法结构,选2会使得矩阵过于稀疏,误剪与特定方面有强关联的情感词;选4会削弱剪枝策略的效果,因为大部分文本较短,本身其语法距离就在3跳以内,相当于没有进行剪枝.所以本研究模型选择语法距离为3进行处理.10.13245/j.hust.240366.T003表3剪枝策略中选用不同语法距离的模型效果语法距离TwitterRest14Rest15Rest16φAccF1φAccF1φAccF1φAccF1272.9871.1182.4173.5581.5564.7689.1271.39374.2872.8683.2175.7282.4765.8390.1073.99472.9871.5682.0573.2280.8164.0388.8071.15%Dropout正则化策略可以使模型变得多样化,缓解过拟合.为验证Dropout率对PSKE-GCN模型准确率的影响,本实验设置Dropout率的参数为{0.1,0.3,0.5,0.7,0.9}.如表4所示,可以看出:当Dropout率为0.1和0.9时,模型准确率明显偏低,说明丢失率过低使得正则化程度不够,而过高使得学习参数变少降低模型性能.当Dropout率为0.3时,模型准确率达到综合最佳,相较于为0.5时,平均提高了0.17%,相较于为0.7时,平均提高了0.23%.故本研究模型Dropout率的参数设置为0.3.10.13245/j.hust.240366.T004表4Dropout率参数下的模型准确率Dropout率TwitterRest14Rest15Rest160.174.1381.7981.1888.640.374.2883.2182.4790.100.574.7183.2181.3690.100.773.9983.1381.9190.100.972.6981.7979.8989.29%2.4.3 知识降噪效果评估为评估本研究针对知识降噪提出的方法,本实验对整体模型仅保留语法GCN模块,设计了两组对照实验:a.在原始依赖树上进行知识补充,构造原始知识增强矩阵,命名为OKE-A;b.经剪枝策略后的知识增强矩阵,即为本研究语法GCN模块所使用的矩阵,命名为PKE-A.实验结果如表5所示,在语法GCN模块中使用本研究的PKE-A的性能均优于使用OKE-A,证明了本研究所提方法对知识降噪是有效的.10.13245/j.hust.240366.T005表5知识降噪效果对照邻接矩阵TwitterRest14Rest15Rest16φAccF1φAccF1φAccF1φAccF1OKE-A73.1271.6682.4174.4980.6362.9288.9669.16PKE-A73.9972.4283.2175.1281.7363.3389.2971.40%2.4.4 消融实验为验证本研究模型PSKE-GCN中两个通道对分类效果的影响,本实验对模型进行拆解,分别验证每个通道的分类效果.通道一包含上下文编码模块、语法GCN模块,交互注意力模块和情感分类模块,其中交互注意力模块只进行语法交互;通道二包含上下文编码模块、语义GCN模块,交互注意力模块和情感分类模块,其中交互注意力模块只进行语义交互.实验结果如表6所示,包含语法GCN模块的通道一的性能优于包含语义GCN模块的通道二.本研究模型PSKE-GCN将两个通道结合起来,在4个数据集上均比单个的通道分类效果更好,说明语义GCN模块能弥补语法GCN模块受依存解析精度带来的误差,证明了本研究设计的语法语义双通道融合模型的优越性.10.13245/j.hust.240366.T006表6消融实验结果消融类别TwitterRest14Rest15Rest16φAccF1φAccF1φAccF1φAccF1通道一73.9972.4283.2175.1281.7363.3389.2971.40通道二73.7072.2280.8971.5179.8961.7687.0164.25本研究74.2872.8683.2175.7282.4765.8390.1073.99%3 结语本研究提出一种基于剪枝策略的知识增强双通道图卷积网络模型,用来解决方面级情感分析任务中知识引入所带来的噪声干扰问题.利用剪枝策略修剪依赖树,引入知识得到精准的情感增强依赖树,同时利用门控注意力机制捕获因依存解析不准确而遗漏的句法信息.实验部分验证了本研究模型中各模块的有效性和可解释性.随着各种预训练大模型的推出,在未来工作中可尝试借助生成式人工智能构建情感分析模型新范式.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读