网刊加载中。。。

上下位关系(Hypernymy)[1]是自然语言处理中一种重要的语义关系，用于描述词对间的层次结构，也被称为“is-a”关系．比如：在词对(狗，动物)中，“狗”是“动物”的下位词(Hyponym)，“动物”是“狗”的上位词(Hypernym)．词对上下位关系识别具有重要意义，不仅能为领域词典、知识图谱构建提供层次分类依据，而且广泛应用于语义理解、文本推理等诸多自然语言处理的下游任务中[2-3]．目前识别方法主要有基于分布式表示的方法和基于路径的方法[4]．前者仅根据两个词的分布式表示(也称为词向量或词嵌入)进行上下位关系识别，不依赖于词对共现信息．如SLQS[5]通过统计某个词所在上下文的熵值来度量该词语义，ASYM模型[6]将两个词向量的差值及平方差值作为分类器输入，分段线性投影模型PPM[7]通过学习词对间的词嵌入投影矩阵来识别词对上下位关系，NPM[8]使用神经网络模型同时学习上下位关系词对和非上下位关系词对间的投影关系．而基于路径(也称基于模式)的方法则使用词对共现句的路径模式信息进行上下位关系识别．最早由文献[9]提出，称为Hearst模式，典型模式包括“比如(such as)”、“与/或其他(and/or other)”和“包括(including)”等．文献[10]对每个词对都统计共现的多个路径模式，并首次引入依存句法分析进行上下位关系词对抽取．PATTY[11]通过加入词性标注、通配符等额外信息实现模式泛化，有效提升召回率．HypeNet[4]使用长短时记忆网络(LSTM)生成路径向量，并结合词向量通过前馈神经网络输入Softmax分类器进行训练，取得了当时最好的识别准确率和F1值(F1)．文献[12]指出：基于路径的方法在多个常用数据集上的性能比基于分布式表示的方法更好，因为它能获取更多重要的上下文信息．基于分布式表示的方法仅使用词对本身的信息，没有使用词对共现句的路径信息，识别准确率受限，而现有基于路径的方法仅将每个词对共现句的路径信息进行简单聚合，未考虑不同路径之间的语义关系，未能充分挖掘利用词对共现句中的上下位关系语义信息来进一步提升识别准确率．为此，本研究提出一种基于依存语义注意力机制的词对上下位关系识别方法．利用词对共现句最短依存路径的路径向量训练Softmax分类器，特别引入依存语义注意力机制，构建最短依存路径的注意力权重向量和路径评价函数，更细粒度挖掘和表示不同词和不同路径对上下位关系语义的不同贡献，从而更充分利用词对共现句中所隐含的上下位关系语义信息达到更好的识别效果．在中英文数据集上的实验表明，本方法比HypeNet和NPM等代表性方法具有更高的识别准确率和更稳定的识别性能．1 基于依存语义注意力的词对上下位关系识别方法实现本方法总体上包含四个步骤：获取最短依存路径，生成路径向量，融合路径向量和训练分类器．总体框架如图1所示．10.13245/j.hust.220506.F001图1本方法总体框架对于词对(X,Y)，首先获取该词对所有共现句的最短依存路径，即图中[CLS]和[SEP]之间的路径，共有n条，路径中每个词用词向量、词性向量、依存标签向量和依存方向向量组合表示；然后利用依存语义注意力机制为每个最短依存路径构建注意力权重向量A，并利用BERT模型生成路径向量ρ，进一步构建路径评价函数S(p)并生成融合路径向量v(P(X,Y))，其中P(X,Y)为词对(X，Y)间的最短依存路径集合；最后将v(P(X,Y))结合X和Y的融合词向量vw(X)和vw(Y)生成分类器特征向量vXY，并训练Softmax分类器，实现上下位关系识别．1.1　获取词对共现句的最短依存路径最短依存路径被定义为两个实体在依存分析树中的最短路径．文献[13]表明：实体对之间的最短依存路径蕴含的信息对关系分类任务具有重要作用．针对数据集中的每一组词对(X，Y)，先在文本语料库中找到所有词对共现句，后将每一个词对共现句进行依存句法分析得到最短依存路径．参考文献[4]的方法，本研究将最短依存路径上的每个词，使用其融合向量来表示，即vw(X)=v(X)⊕vpos(X)⊕vdep(X)⊕vdir(X)，式中：vw(X)为词X的融合向量；v(X)，vpos(X)，vdep(X)和vdir(X)分别为X的词向量、词性向量、依存标签向量和依存方向向量；⊕表示向量拼接．1.2　基于依存语义注意力的路径向量生成注意力机制[14]在图像、自然语言处理等领域都有广泛应用，其模仿人类视觉注意力，旨在从众多信息中筛选出对当前任务更加关键的信息．本研究在生成词对共现句最短依存路径向量的过程中特别引入依存语义注意力机制，用于筛选出依存路径中对上下位关系贡献程度较大的词．具体来说，通过计算当前最短依存路径上每个词的融合向量与前一个路径向量之间的相似度，得到当前最短依存路径的注意力权重向量，用于衡量当前路径上的每个词对于上下位关系的贡献程度．1.2.1　构建注意力权重向量注意力权重向量A的构建过程如下．a．对于词对(X，Y)的第一个最短依存路径p1，A1=softmax(1,1,…,1)odim(vw(X))，式中：softmax为激活函数，将值映射到(0，1)区间；dim为计算向量维度的函数；o为维度扩充操作，将A1的每一维都扩充成与vw(X)相同的维度．b．对于第i(i1)个最短依存路径pi，Ai=softmax(sim(v(X),ρi-1),sim(v(m),ρi-1),…,sim(v(m),ρi-1),sim(v(Y),ρi-1))∘dim(vw(X)),式中：sim(v(X),ρi-1)和sim(v(Y),ρi-1)分别为X和Y的词向量和第i-1个路径向量ρi-1的相似度；sim(v(m),ρi-1)为pi中(X，Y)实体间关系词m的词向量v(m)和ρi-1的平均相似度，其项数为ki，即pi中实体间关系词的个数．相似度具体计算公式为：sim(v(X), ρi-1)=v(X)⋅ρi-1/v(X)ρi-1；sim(v(Y), ρi-1)=v(Y)⋅ρi-1/v(Y)ρi-1；sim(v(m), ρi-1)=(1/ki-1)∑j=1ki-1v(mj)⋅ρi-1v(mj)ρi-1，式中mj为pi中第j个关系词．1.2.2　生成路径向量BERT模型由多层Transformer组成，能有效提取句子语义特征，在多种分类任务中表现出色[15]．本研究利用BERT来生成路径向量，在计算得到最短依存路径的注意力权重向量Ai后，将其与路径中所有词的融合向量做点积的结果作为BERT输入，将倒数第二层Transformer的输出作为其路径向量ρi，即 ρi=BERT(Ai⋅[vw(X),vw(m1),vw(m2),…,vw(mki),vw(Y)]),式中vw(m1),vw(m2),…,vw(mki)为路径pi中第1~ki个实体间关系词的融合向量．通过遍历所有n条最短依存路径，得到路径向量集合V=[ρ1,ρ2，…,ρi,…,ρn]．1.3　基于路径评价函数的路径向量融合在生成所有最短依存路径的路径向量后，须要对其进行融合得到分类器特征向量，HypeNet模型直接通过平均池化来融合所有路径向量，未充分考虑不同路径所包含上下位关系语义信息差别．本研究引入语义注意力机制，通过迭代过程生成每个最短依存路径的注意力权重向量及路径向量，使得各路径中所包含的上下位关系语义不断向后累积．为了衡量路径信息差异，定义路径评价函数S(p)，即S(p)=sigmoid∑q∈R(p)loc(q)/R(p)，式中：sigmoid为激活函数，将值控制在(0，1)之间；p为词对(X，Y)的一个最短依存路径；R(p)为包含p的同一类最短依存路径集合；R(p)为R(p)元素个数；loc(q)为q在所有最短依存路径中的位置．同一类最短依存路径是指那些包含相同实体间关系词的最短依存路径，它们具有相同的路径评价函数值．利用路径评价函数S(p)对所有n个路径向量进行融合得到融合路径向量v(P(X,Y))，即v(P(X,Y))=∑i=1nS(pi)ρi/∑i=1nS(pi).1.4　基于融合路径向量的分类器训练本方法利用基于单层前向神经网络的Softmax分类器进行上下位关系识别．在分类器训练阶段，为了不丢失词对本身的语义信息，将融合路径向量v(P(X,Y))和X，Y本身的词向量v(X)，v(Y)拼接，得到特征向量vXY=v(X)⊕v(P(X,Y))⊕v(Y)，并将其作为分类器输入进行训练：r=softmax(W∙ vXY)，其中：Ｗ为用于分类的权重参数；r为分类器返回结果，表示词对(X，Y)存在上下位关系的概率，基于概率r完成上下位关系识别．2 实验与结果分析2.1　实验数据集为了验证本方法的识别性能，在表1所列中英文数据集上进行了实验验证．每个数据集包含一定数量的上下位关系词对正例和负例．除了上下位关系数据集，本方法还须要利用中英文文本语料库获取词对共现句，英文语料库使用2020年5月的Wikipedia dump(约17 GiB)，中文语料库使用Wiki2019zh(约1.8 GiB)和北京语言大学BCC语料库．10.13245/j.hust.220506.T001表1实验数据集数据集中/英文正例数/103负例数/103BLESS[16]英文1.33713.210ENTAILMENT[17]英文1.3851.360SHWARTZ[4]英文14.13516.956FD[7]中文1.3914.294BK[8]中文3.8703.5822.2　实验设置在英文数据集实验中，使用spaCy对词对共现句进行依存句法分析，基于斯坦福大学GloVe词向量构建包含词向量、词性向量、依存标签向量和依存方向向量的词融合向量，使用谷歌预训练BERT模型生成路径向量，利用DyNet建立Softmax分类器模型，使用Adam优化器[18]进行模型训练，各数据集按7꞉1꞉2划分为训练集、验证集和测试集．在中文实验中，使用哈工大LTP工具进行依存句法分析，利用Skip-Gram模型构建中文词向量，使用谷歌预训练Chinese-BERT模型生成路径向量，其他实验设置和英文数据集实验一致．2.3　实验结果与分析将本方法与现有典型方法进行对比，包括基于分布式表示的无监督模型SLQS、监督模型ASYM、分段线性投影模型PPM、神经网络投影模型NPM及基于路径的文献[10]模型和HypeNet模型等．在中英文数据集上的识别准确率、召回率和F1值的实验结果如表2和表3所示．本方法在基于路径的HypeNet模型框架基础上实现，B-HypeNet使用BERT模型替代HypeNet框架中的LSTM模型用于生成路径向量，AB-HypeNet则在B-HypeNet基础上加入依存语义注意力机制构建注意力权重向量，SAB-HypeNet在AB-HypeNet基础上进一步引入路径评价函数．10.13245/j.hust.220506.T002表2在BLESS+ENTAILMENT英文数据集上的识别性能识别方法准确率召回率F1基于分布式表示SLQS[5]0.5910.7370.609ASYM[6]0.7400.8320.785基于路径文献[10]0.8430.4530.589本方法(基于路径)B-HypeNet0.9030.8660.884AB-HypeNet0.9150.8660.890SAB-HypeNet0.9190.8670.89210.13245/j.hust.220506.T003表3中英文数据集上的识别性能对比识别方法英文数据集(BLESS+ENTAILMENT+SHWARTZ)中文数据集(FD+BK)准确率召回率F1准确率召回率F1基于分布式表示PPM[7]0.8130.7980.8050.7180.6950.706NPM[8]0.9260.8920.9080.8250.8390.831基于路径HypeNet[4]0.9150.8870.9010.8220.8420.826本方法(基于路径)B-HypeNet0.9160.8890.9030.8270.8410.827AB-HypeNet0.9260.8890.9070.8350.8420.839SAB-HypeNet0.9280.8890.9090.8420.8430.841SLQS，ASYM和文献[10]的方法只报告了BLESS和ENTAILMENT小数据集上的实验结果，表2列出了相同数据集上的对比结果，可以看出本方法的识别性能全面优于对比方法．表3列出了本方法和PPM，NPM，HypeNet模型在BLESS，ENTAILMENT，SHWARTZ英文数据集及FD，BK中文数据集上的实验结果，可以看出：本方法总体上优于对比方法，特别是与关联度最高的同类方法HypeNet相比，性能有明显提升，在英文数据集上的识别准确率和F1分别提高了1.3%和0.8%，在中文数据集上分别提高了2.0%和1.5%．具体分析，B-HypeNet比HypeNet识别性能稍有提高，说明利用BERT模型生成路径向量相比LSTM能更好提取词对共现句最短依存路径中的语义特征信息；AB-HypeNet相比B-HypeNet，准确率和F1有明显提升，说明加入依存语义注意力机制能更准确挖掘路径中不同词对于上下位关系语义的贡献程度，从而可充分利用路径中包含的语义信息实现更准确的上下位关系识别；SAB-HypeNet相比AB-HypeNet，识别性能进一步提升，说明引入路径评价函数区分不同路径所包含的上下位关系语义是有效的，相比直接使用平均池化操作生成分类器特征向量，能更好利用不同路径的语义信息差异．与基于分布式表示的代表性方法NPM相比，本方法SAB-HypeNet在英文数据集上的性能大致相当，但在中文数据集上的识别准确率和F1则高出1.7%和1.0%．图2进一步给出了两种方法在20次实验中的F1波动曲线，图中N为实验次数．可以看出：NPM相比SAB-HypeNet波动明显，两者方差分别为0.617和0.025．NPM使用的多任务学习技术须要训练多个神经网络，训练更为复杂，对训练方法和调参技巧要求更高，且容易造成性能不稳定．10.13245/j.hust.220506.F002图2SAB-HypeNet与NPM在中文数据集上的F1波动曲线此外，各方法在中文数据集上的识别性能普遍不如英文数据集，其主要原因为：一方面中文公开数据集数量少、规模小，导致学习效果不如英文数据集；另一方面中文语法更灵活、语义更复杂、处理难度更大．SAB-HypeNet与NPM的对比结果也表明：充分挖掘利用中文语言模式特征对提升中文上下位关系识别性能具有较大潜力，相比英文数据集拥有更大提升空间．3 结语针对现有词对上下位关系识别方法未能充分挖掘利用词对共现句中上下位关系语义的问题，本研究提出一种基于依存语义注意力机制的词对上下位关系识别方法．利用语义注意力机制和BERT模型改进最短依存路径向量的生成过程，挖掘利用不同词的不同贡献，并构建路径评价函数区分不同路径的不同贡献，从而得到含有丰富上下位关系语义信息的特征向量用于分类器训练．实验结果表明：本方法相比现有代表性方法的识别准确率更高，且性能更稳定．后续研究将重点关注在中文环境中如何更好地利用中文语言特征提高上下位关系识别性能．