全维度、多视角地感知网络空间威胁,特别是智能化、系统性地认知高级可持续威胁攻击关联的战术、战技、漏洞及产品等,有助于提升国家及企业对网络威胁的科学防御能力.为了全面认知网络空间威胁,结构化威胁信息表达(structured threat information expression,STIX)[1]从攻击模式、攻击活动、行动等12种构件方面来对网络空间威胁信息进行描述.针对STIX 2.0的结构化语言描述,MITRE公司分别构建了ATT&CK[2]框架、CAPEC攻击模式[3]、CWE[4]等知识库,但是仅包括约40种战术、千级规模的技术与弱点及百级规模的攻击模式,忽略了网络空间威胁影响的产品和漏洞等知识;另一方面,互联网中存在大量的开放漏洞库,如美国国家信息安全漏洞库(NVD)[5]、国家信息安全漏洞共享平台(CNVD)[6]等;同时,网络空间产品大多数被通用平台枚举收录.目前已有的网络空间威胁知识大部分孤立存在,缺少能够全面涵盖网络空间威胁信息的知识图谱;且存在已收录的知识更新慢、实体关系不全面等问题;同时,也缺少网络空间威胁知识有效推理的方法,为国家及企业提供网络威胁科学防御的决策知识.知识图谱作为一种实体和概念等知识的高效组织形式,能够充分发挥其知识整合的优势,将零散分布的多源异构数据通过专门设计的框架组织起来,为数据分析和知识挖掘提供支持.本课题组围绕网络安全知识图谱的相关问题进行了调研,梳理了网络安全知识图谱构建的关键技术,讨论了网络安全知识图谱研究面对的挑战.1 网络安全知识图谱构建过程和通用知识图谱构建过程相似,网络安全知识图谱作为领域知识图谱基本遵循了通用知识图谱构建的流程与框架.网络安全领域较为成熟,知识体系相对完备,可以采取自顶向下的构建模式.这种知识图谱构建模式首先须结合已有的设计网络安全知识图谱本体,将碎片化的知识通过一定的框架联系起来;然后信息抽取和融合技术则可以将实体和关系从原始数据中分离出来;这些实体和关系将在本体框架的指导下被连接成知识图的表示形式.知识推理技术则可以依据现有的知识图谱产生新的知识,为预测和推断任务提供支持.网络安全知识图谱的构建框架如图1所示.10.13245/j.hust.210715.F001图1网络安全知识图谱构建框架1.1 网络安全本体库设计本体包括实体(节点)类型、实体的属性类型及实体间的关系类型,即表示图结构的抽象概念结构类.网络安全知识图谱本体覆盖网络威胁对应的“战术-技术-工具-数据源-恶意软件-攻击模式-弱点-漏洞-软硬件”等复杂、多元和多路径交互关系,网络安全知识图谱本体如图2所示.图中,每个方框表示一个概念模块,模块之间的箭头及箭头上的文字表示两个概念之间的关系.10.13245/j.hust.210715.F002图2网络安全知识图谱本体1.2 网络安全知识图谱实体构建知识实体类型定义参考各类现行的安全标准规范,如CAPEC,CVE等.分析STIX公开的APT组织报告,提取12个知识类型,即攻击模式、战术、防御措施、身份、威胁指示器、入侵集、恶意代码、可观察实体、报告、攻击者、工具和漏洞.知识图谱构建还须定义字典规范.字典规范作为对不同类型实体属性的描述约束,便于知识的统一表达理解,同时也是外部数据融合消歧的标准.字典规范的设计主要针对10种知识类型,即攻击模式、恶意代码、隐患、目标客体、威胁主体、报告、战术、防御策略、威胁指示器和攻击工具.在字典设计上,参考了STIX及各类安全标准规范:威胁主体包括身份、角色、技术水平等共40种描述规范;恶意代码包括动作,如创建进程等280种动作描述规范;隐患包括脆弱类型,如输入验证和表示等1 037种脆弱性描述规范;目标客体包括行业、地理属性、关联标准等共3 458个描述规范;攻击模式包括技术机制,如利用可信凭证、身份验证滥用等519种机制描述;战术包括事件类型,如信息收集、破坏可用性等42类事件规范定义;威胁指示器包括指示器类型,如IP、域名、文件哈希等10种可观察数据定义;攻击工具根据类型分为后门、木马、代理等9类;防御策略根据攻击链模型包含检测、拒绝、中断、降级、欺骗、摧毁6类规范定义.1.3 网络安全知识图谱实体关系构建实体类型定义只将描述网络安全实体特征的相关信息形成孤立的知识节点,知识节点之间并无语义关系,无法进行语义搜索以及未知线索的推理分析.网络安全知识图谱实体关系构建通过提取网络安全报告中提及的分析技术和线索逻辑关系,归纳出一套适用于网络威胁与攻击等分析的语义关系集合.以FireEye发布的《APT28:AT THE CENTER OF THE STORM》[7]为例,报告中分析APT28利用了CVE-2015-1701,CVE-2015-2424等漏洞,影响Flash,Java和Windows等软件.分析使用的逻辑关系源自NVD中包含的专家知识:CVE_ID(漏洞)影响CPE_ID(资产),CAPEC_ID(攻击机制)利用CWE_ID(脆弱性),CVE_ID(漏洞)属于CWE_ID(脆弱性)等逻辑语义.STIX公开的结构化APT报告中定义了7类关系即targets,uses,indicates,mitigates,attributed-to,variant-of和impersonates,实现对12个对象域的连通.2 网络安全知识图谱构建与推理技术研究现状2.1 多源异构的安全情报数据如何对网络安全领域中的海量数据和信息进行有效的分析、挖掘和关联是一个重要问题.首先根据来源和数据类型,对网络安全情报数据进行了梳理.网络安全知识图的构建不仅依赖于STIX情报等结构化知识,还依赖于许多半结构化数据及大量以自然语言形式存在的安全数据源.从多源异构数据(特别是非结构化文本数据)中抽取有效的知识构成知识图谱,是一项具有挑战性的工作.这一过程非常耗时,而且很难跟上安全威胁、漏洞、攻击、对策和风险等领域不断更新的数据[8].此外,这些信息可以从用户、安全组织和研究人员每天发布的开源网络情报(open source intelligence,OSINT)中提取,这些开源网络情报数据通常须从许多不同的来源获得.根据获取来源不同,多源异构的网络安全情报数据分类如图3所示.10.13245/j.hust.210715.F003图3多源异构的网络安全情报数据分类第一个来源是结构化数据,比如结构化的情报数据库和STIX的情报.第二个来源是半结构化数据,比如MITRE下的知识库,包括CVE,CWE,CAPEC,CPE,ATT&CK和CTI[9].这些信息被收集并存储在半结构化脆弱性数据库中,如NVD,CNVD和CNNVD[10].重要安全信息的公开披露也出现在著名公司的数据库中,如卡巴斯基[11],IBM[12],360[13],Fire eye[14],VERIS Community[15]和AlienVault[16]等开源情报社区网站.第三,安全工程师还可以从网络安全博客(如Talos博客[17])、网络安全报告(如GitHub APT报告[18])、互联网聊天室和任何公开的网络安全文本中找到一些关键信息.这些是可以挖掘概念、抽象、实体、属性、关系的好资源.2.2 网络安全知识表示有价值的信息挖掘技术在很大程度上依赖于文本的生成表示,性能受其影响很大.知识表示是人类知识的形式化或建模[19].它是对知识的描述或一组约定,一种计算机可接受的用于描述知识的数据结构.合理的知识表示不仅使问题更容易解决,而且具有更高的效率,因此研究一种合理有效的知识表达方法显得尤为重要.目前,已有许多知识表示方法被提出[20],如状态空间表示、问题约简表示、谓词逻辑表示、框架表示、产生式规则表示及语义网络表示等.网络空间本身就是由多个节点组成的,每一个计算设备和网络设备连接在一起形成完整的网络,大到互联网、小到局域网都刚好符合语义网的本质特征,即多关系有向图.网络空间可基于语义网进行知识表达,即用包含节点和边的图的形式描述网络空间.文献[21]分析了语义网知识表达发展及应用领域,指出将语义网技术用于网络空间,可解决在处理多种设备产生的数据的互操作性方面的挑战.针对网络空间知识表达的特点,对网络空间中的实体、属性、关系等信息进行形式化描述.充分利用网络空间多源异构数据,构建面向应用场景的本体模型,以及考虑复杂推理模式的知识表示学习已成为当前网络空间知识表示的研究热点.文献[22]提出一种基于本体的网络物理知识表示和推理的模块化框架,框架使用一个通用的数据和信息处理层,结合基于逻辑语义和基于规则的推理方法将原始数据转化为知识,充分利用元域(时间、空间等)和领域特定语义来支持模型的开发,并使用网络本体语言(OWL)保证了其可扩展性.文献[23]总结了网络空间知识表达的模糊性、层次性、耦合性、复杂性、多元性的特点基础上,提出一种基于本体的网络空间态势信息要素知识表示方法,为网络空间可视化建模提供准确、共享、形式化的概念术语.文献[24-26]使用资源描述框架(RDF)对网络概念、属性和相互关系进行形式化表示的基础上,结合命名图对网络数据进行分组,基于起源信息对网络数据集进行查询,最终实现在多个层次上准确捕获有源的网络知识,并用于捕获感知源的网络知识框架.网络空间对抗中,竞争对手采用各种方法来收集和获取数据,并根据任务和目的来理解和组织数据,造成了数据的多源性和异构性,阻碍了知识理解和复用.针对非合作情形下的网络空间,中国航天系统工程有限公司[27]融合多源异构网络安全数据,使用RDFS和OWL语言对多元事件的关联分析.文献[28]在设计多源异构数据集成原型系统的基础上,构建了一个综合上层、领域和应用本体的本体模型,用来描述网络空间中非合作情形下的跨物理域、逻辑域和社会域的实体和关系.文献[29]通过语义信息建模,对网络空间和社交媒体数据进行知识表示和管理.综上所述,目前针对网络空间的知识表达,多围绕网络空间的特点,在对有关网络概念、属性、实体和关系进行形式化描述的基础上,须提出框架结合数据源分析,充分利用多源异构的数据,构建综合的网络空间本体,以完成对网络空间的知识表示.此外,以上各种知识表示方法大多是在进行具体研究或建立智能系统下提出的,对网络安全文本数据具有一定的针对性和局限性.它们既不能减少知识之间的矛盾,也不能有效地从现有知识中扩展更多的新知识.同时,知识的表示也会影响推理机制的运行;因此,网络安全数据的知识表示方法值得进一步探讨和研究.2.3 网络安全知识图谱的本体构建网络安全知识图谱在语义网技术作为知识表示的基础上,提出一种本体论[30]方法.它能够以结构化和关系化的方式表达网络安全领域的知识,并以图形化的方式将知识可视化.安全管理者可以利用知识图谱直观地理解安全情报、网络状况和实体之间的关系.知识图谱的提出为理解网络安全知识和分析网络安全数据奠定了重要基础.网络安全知识图谱的研发有助于发现与网络攻击相关的攻击模式和异常特征[23].本体、RDF,OWL和SPARQL是语义网知识表示的基本组件.它们有能力对语义进行编码,并提供自动推理、合并、共享和管理来自不同来源的信息.与传统技术相比,使用本体论方法创建的网络安全知识图谱具有一定的优势,因为它能够捕获信息的上下文,并且根据某些特定因素过滤这些内容[31].文献[32]开发了一个本体来建模攻击和相关实体,然而其提出的本体只针对攻击.MITRE为网络安全领域创建了若干标准和数据集,为网络安全知识图谱的构建提供了大量的规范的数据支撑.文献[33]构建了一种网络安全领域的整体本体,该本体是一种促进各种结构化和非结构化数据源集成的知识表示方法,共包含15个实体类型和115个属性.文献[34]提出了一种扩展入侵检测系统本体的统一网络安全本体(UCO).文献[35]提出了一种新型的网络安全认知框架,利用丰富的语义关系和知识表示来帮助安全分析人员进行早期的网络入侵检测.在网络空间威胁情报领域,文献[36]提出了网络空间威胁情报本体(cyber threat intelligence,CTI),帮助网络防御者能够探索威胁情报的能力.文献[37]提出了一个包含概念、实例、关系、属性和规则五个元素的五元网络安全知识库模型.文献[33]构建了基于五元模型的网络安全知识图谱.文献[38]将领域本体论扩展到物联网(internet of things,IoT)安全.文献[39]提出了面向知识表示和自动推理的包分析本体(PAO),该本体定义了捕获网络活动语义所需的协议和端口,其中许多协议和端口没有在任何其他活动中定义.在网络空间本体构建基础上,通过获取实例数据及关系构造网络空间知识图谱,比较典型的知识图谱来自于文献[40]构建的网络空间安全知识图谱(SEPSES),整合了通用漏洞枚举(CWE),通用漏洞披露(CVE),通用攻击模式枚举和分类(CAPEC)等公开知识.美国的能源部大型国家实验室橡树岭国家实验室基于自身的网络情报平台,抽取相关的概念和关系,同样构建了网络安全知识图谱Stucco[41],辅助提高决策精度.网络空间知识图谱近几年已经引起了国内外部分学者的关注,尽管相关学者已经在公开知识的基础上构建网络空间知识图谱,但是目前的知识图谱还仅仅局限于关注已有公开知识的关联,没有考虑利用开源情报数据进一步全维度地丰富知识图谱中的节点实例和关系实例.2.4 信息抽取信息抽取是实现网络安全知识图谱构建的重要技术.目前,信息抽取的主要任务有实体识别(NER)和关系抽取(RE).针对实体识别任务,传统的网络学习方法大致分为三大类,即基于规则、基于统计机器学习和基于深度学习的学习方法[42].早期的研究大多数是基于规则的方法,其优势在于准确率高、接近人类的思考方式、表示直观、便于机器进行推理等;其劣势在于成本较高,所制定的规则大多只用在领域内,无法扩展到更大领域.如文献[43]在对半结构化数据分类的基础上,使用正则表达式标记段落中的信息,结合本体匹配的方式将信息转化为目标实体.但是该方法对非结构化文本并不适用.文献[44]提出使用正则表达式和语法树结合的方式提取博客文本中的失陷指标(indicator of compromise,IOC).该文献同样使用正则表达式和词典对网络安全实体及关系所在的位置进行定位,然后使用语法树相似度判断定位范围的内容是否包含实体及关系.基于统计机器学习的实体抽取方法主要应用传统机器学习方法结合人工设计的大量特征进行实体识别,将其转换成一个多分类或序列标记任务,这种试图充分发现和利用实体上下文特征和实体内部特征的机器学习方法虽然比较灵活且具有较好的鲁棒性,但是模型的训练需要大量特征工程和人工标注数据,且存在数据稀疏问题[45].文献[46]提出一种基于弱监督的方法进行安全事件抽取,但是这种方法严重依赖种子样本的设定,同时忽略了文本中本身的实体信息.与传统的实体识别方法相比,深度学习有利于表现学习的能力及向量表示和神经处理所赋予的语义组合能力.这使得机器能够获得原始数据,并自动发现分类或检测所需的潜在表示和处理.当前主流的研究是基于深度学习的实体抽取方法,深度神经网络可以自动捕获特征进行识别,无须过多的人工干预.目前,针对实体识别任务,国内外学者已经尝试了多种深度学习的方法,主要包括多任务深度学习[47]、深度迁移学习[48-51]、深度主动学习[52]、深度强化学习[53]、深度对抗学习[54-55]和注意机制[56]等.实体之间的关系是知识图谱中不可或缺的部分,不同的关系将独立的实体连接在一起编织成知识图谱,如何从非结构化文本中识别实体之间的关系是知识图谱构建的核心任务之一[57].早期针对关系抽取研究主要采用模板的方式对文本中实体间的语义关系进行判别,但是人工方法不可能针对多类关系穷举所有模板[58].随着机器学习发展,越来越多的研究者采用监督式学习方法抽取实体间的关系,如监督学习的基于特征和核函数的方法,半监督学习的自举、协同训练、标注传播的方法及无监督方法以聚类为核心的方法.传统机器学习的模型性能十分依赖人工标注特征数据的规模和数量,因此需要一个能自动地抽取特征的方法.随着深度学习的发展,神经网络模型为实体关系抽取带来了新的突破,文献[59-60]提出基于CNN句子语义编码模型对关系进行分类,相比传统统计机器学习方法性能提升显著;文献[61-62]提出了基于循环神经网络(RNN)与长短期记忆神经网络(LSTM)的关系抽取;文献[63]提出采用递归神经网络对句子的语法分析树建模,在提取语义特征的同时考虑句子的词法和句法特征.然而,面对更大规模的数据,人工标注变得很昂贵.随后,学者提出了基于远监督学习的关系抽取方法[64],远监督学习方法将对训练集中引入噪音.还有学者进一步提出了多示例学习、句子级别注意力机制、对抗训练、强化学习机制等关系抽取方法[65-69].命名实体识别和实体关系抽取两个任务之间有可能存在互相影响.关系抽取的工作可能有助于命名实体识别模块检测两个实体的类型,反之亦然.例如,The boss still employs 10357这个句子中,虽然可能很难将10357识别为一个人的实体,但是employs这个词表示一个雇佣组织关系,它必须涉及一个人的实体,这种关系可以帮助模型正确识别10357).第二,命名实体识别的结果会影响关系抽取模型的性能,导致错误传播.为提高模型的学习能力,利用有限训练样例取得较好的抽取效果,学者进一步改进了实体抽取和关系抽取的串联过程,提出了实体及关系联合抽取[70].目前主要联合抽取的方法有基于参数共享的实体关系抽取方法[71]、基于序列标注的实体关系抽取方法[72-73]和基于图的实体关系抽取方法[74].为有效构建网络空间知识图谱,须从多源情报数据,尤其是非结构化数据中抽取网络空间的实体及关系.网络空间实体抽取方面,相关研究主要基于深度学习方法[75-77]对网络空间威胁情报数据进行抽取;网络空间实体关系抽取方面,文献[78]基于斯坦福抽取器从恶意软件行动报告中抽取网络空间知识;文献[79]基于深度学习方法定义实体关系抽取器,判断两个实体之间的关系属于哪一种预先定义好的关系;文献[80]基于BERT预训练模型提出一种CASIE系统,实现网络安全事件相关元素的分类和抽取;文献[40]提出了基于ETL串行知识抽取方法将已有的CWE,CVE,CAPEC和通用漏洞评分系统(CVSS)等公开网络空间知识转化为知识图谱所需要的三元组.目前,结构化信息抽取的基础研究已经取得了相应进展,且已初步应用在网络空间知识抽取中,在漏洞编号(CVE-ID)、产品型号(如Microsoft,Android)等方面的抽取中已取得相应成效.然而,从非结构化网络安全文本中提取信息存在三个主要问题.首先,以往的信息提取研究大多以人及人的生活为中心构成的数据,如自动内容抽取(ACE)[81]或文本分析会议(TAC)知识库群体[82]定义的事件,以这样的数据集构建的知识图谱一般由实体(如人、城市、公司和其他类型的组织等),实体相关的事实/属性(如出生日期),以及实体之间的关系(如夫妻关系)所组成.提取情报知识和网络安全知识的一个核心区别是需要与领域相关的专业知识,因此信息抽取任务缺乏大量的标记训练数据.提取情报知识和网络安全知识的第二个区别是网络安全知识的内在复杂性.网络攻击事件可以由一个攻击模式组成,该攻击模式包含多个尝试或完成的操作.每次提及其中一个操作都可以被视为一个单独的网络安全事件描述,这将使网络安全事件引用的可能选择成倍增加.与生活事件相比,挑战存在于事件提及的同名和同义词集合中.另外,非结构化数据中有许多隐含的信息无法明确表达,如图4所示.信息抽取关键技术总结见表1.图4中,网络安全描述数据A remote exploit10.13245/j.hust.210715.F004图4网络安全文本数据的隐性知识10.13245/j.hust.210715.T001表1信息抽取关键技术比较类别方法主要特点优势劣势实体抽取基于规则匹配准确率高、表示直观、便于机器进行推理等成本较高,所制定的规则大多只用在领域内,无法扩展到更大领域基于传统机器学习比较灵活且具有较好的鲁棒性模型训练需要大量特征工程、人工标注数据,且存在数据稀疏问题基于深度学习深度神经网络可以自动捕获特征,无需过多的人工干预依赖标注数据,模型迁移性较差,对算力需求较大关系抽取基于模板和规则更加精确直接的抽取或标注关系模板的方式不可能针对多类关系穷举所有模板基于传统统计学习能够明显提升结果的召回率传统机器学习的模型十分依赖人工标注特征数据的规模和数量基于深度学习具有自学习的特点,能够自动抽取特征,减少对人工的依赖可扩展性和移植较差联合抽取基于深度学习的实体关系联合抽取实验结果相对良好容易产生错误传播,忽视2个子任务之间的联系,丢失的信息会影响抽取效果for Struts2 jakarta multiparser RCE exploit[83]包含一些隐含信息,包括攻击模式(CAPEC-253)、漏洞(CVE-2017-5638)及它们之间的关系.现有的信息提取方法只能提取句子中的实体和关系,不能提取隐含的实体和关系.此外,隐式知识通常由诸如CVE-2017-5638之类的代码表示,这些代码没有语义信息.这给端到端知识抽取模型的构建带来了新的挑战.2.5 知识图谱推理知识表示学习是将知识图谱中离散化的关系和实体表示为低维空间的连续向量,同时不损失图谱中原有的语义.利用知识表示学习的方法进行知识图谱推理主要可以分为基于转移矩阵的方法、基于张量分解的方法、基于神经网络的方法和基于强化学习的方法.基于转移矩阵方法代表性的研究为TransE模型[84],将知识图谱中关系看作是头实体到尾实体的翻译,在此基础上学者提出了相应的变种和改进方法,如TransR[85],TransH[86]等.基于张量分解方法代表性的研究为RESCAL算法[87],通过语义匹配得到表示符合语义模式的复合函数,文献[88]进一步扩展RESCAL来预测实体的属性信息;文献[89]提出了一种双线性结构的潜在因子模型(LFM).基于神经网络的方法可以分为传统的全连接神经网络方法[90]、卷积神经网络方法[91-92]和循环神经网络方法[93-94].其中,比较常用是后两者,卷积神经网络一般用于单步的知识推理,循环网络一般用于链式推理,即多步知识推理.基于强化学习的方法[95-96]将知识推理转化为智能体在知识图谱中路径选择的硬性决策问题,通过游走策略实现链式规则的推理.在网络空间知识图谱推理方面,文献[97]构建了基于MITRE公司CWE知识库的知识图谱,并使用TransE模型[84]对知识图谱中结构信息和文本描述信息进行表示学习,进一步实现了CWE链接预测、漏洞破坏预测等推理应用.文献[98]基于统一网络安全本体(UCO)本体构建了漏洞知识图谱,实现了漏洞隐藏关系的推理.文献[99]提出一种面向软件安全实体和关系的嵌入与预测方法,基于CWE,CVE和CAPEC等公开知识库构建知识图谱,并提出了知识图谱嵌入方法,将软件安全实体、关系和描述信息嵌入到一个连续的向量空间中,基于开放世界假设进行知识推理,发现软件安全实体间隐藏关系.目前,知识图谱推理的基础研究已经取得了相应进展,且已初步应用在网络空间知识图谱中,在漏洞隐藏关系预测、漏洞破坏预测等推理场景中已取得相应成效.但是,在知识图谱推理的基础研究中,很少有学者结合领域知识图谱的本体知识来构建知识图谱的表示模型,领域专家在本体中构建概念及关系,具有严格的约束和规则,结合本体的知识图谱表示模型将使得模型具备更加丰富的知识,因此在一定程度上可以提高知识图谱推理的准确性;另一方面,目前已有的网络空间知识图谱推理应用仅仅考虑单查询单步链接的推理场景,忽略了复杂的国家及企业内部网络中多联合查询多步链接推理的防御场景,同时,传统的知识图谱推理方法也不能够很好地应用在多联合查询多步链接预测的推理场景中.3 网络安全知识图谱应用场景基于本体论的知识图谱不仅能够在通用领域提高知识发现和使用效率[100],而且在网络空间安全领域也有重要的应用前景.网络空间知识图谱技术已经被应用到网络空间态势感知、网络安全分析等领域.如文献[101]基于知识图谱表示联合作战态势,文献[102]基于RDF知识图谱提出网络安全动态预警方法,文献[103]提出网络作战本体,将信息安全和语义系统结合在一起,实现更有效的防御框架,抵御不断增加的网络攻击.文献[104]在对关键基础设施的漏洞和威胁分类的基础上,构建安全知识图谱用于网络安全态势分析Mozzaquatro等[38],也构建本体以实现针对物联网的网络安全框架.文献[105]通过原始数据信息提取、关联关系分析、数据存储等手段,构建了工业互联网安全漏洞知识图谱,可以有效、直观地展现工业互联网安全漏洞数据的自身属性与关联关系,实现漏洞数据内在价值的深度挖掘.网络安全知识图谱既能够宏观整体地呈现网络空间的安全态势,还能够为网络安全分析提供有力的支撑.如在空间可达性分析、辅助威胁检测、黑产分析恶意程度评价等方面,知识图谱都发挥着重要作用.基于OWL+SWRL表示,Scarpato等[106]构建了网络空间可达性本体,描述网络节点、网关、防火墙规则等概念及概念之间的关系,并定义判断可达性的规则,将网络空间可达性本体推理和知识图谱查询结合,判断网络中两个节点是否可达.文献[107]使用知识图谱技术对网络空间中的资源进行关联分析,在提高其存储查询效率的基础上,辅助安全专家检测漏洞和威胁.文献[108]基于本体建模理论,构建了城市基础设施网络(CIN)的本体模型,实现多源数据有效融合,为CIN关联脆弱性评估提供知识支持.面对海量的安全告警信息,人工处理这些告警是不现实的,导致一些真实的攻击事件淹没在告警信息中.文献[109]充分了利用安全知识图谱中已有的安全知识,使用图模型构建、图嵌入和威胁评估三个模块,实现对内部威胁的识别.文献[110]构建了200亿节点和1 600亿边的黑产知识图谱,并基于知识图谱从整体视角实时掌握动态趋势,快速识别黑灰产网络攻击,为保障公共信息安全、分析潜在危机、掌控舆情等任务提供了一种全新途径.在发现隐蔽性和潜伏性较强的高级持续性威胁(APT)攻击方面,知识图谱也充分发挥着知识整合的优势,文献[111]基于APT攻击的检测和防御技术的分析,以威胁元语模型为核心自顶向下构建了一个APT知识图谱,并通过语义搜索的方式针对APT32攻击组织进行了画像,然后通过将实时监测的威胁事件的属性特征与APT组织特征进行比对,对威胁事件标注其组织关联性,实现APT组织活跃情况的实时监测统计.文献[112]提出一种基于SIEM (security information and event management)的知识图谱,用来描述代理服务器、DNS日志及网络威胁情报等相关实体之间的关系,并提出一种基于图的推理算法MalRank来计算节点的恶意程度.4 网络安全知识图谱研究的挑战网络空间威胁知识图谱不同于维基百科、Freebase和DBpedia等开放知识图谱,其构建与推理主要面临如下三个方面的挑战.a. 网络空间威胁知识图谱属于领域知识图谱,为自顶向下式的构造过程,须构造领域本体.随着科学的发展,网络威胁信息通常涉及到的概念和内涵也存在动态演变性,如STIX描述语言从1.0版本的8种构件发展到2.0版本到12种构件.网络空间威胁知识图谱的领域本体必须具备动态适应性与可扩展性.另一方面,动态本体可以便捷地对概念模型进行协同编辑,概念模型协同编辑将导致本体中部分概念及关系存在错误或者不一致的问题,目前,大多数研究忽略了动态本体导致的概念及关系矛盾冲突问题.b. 开放知识图谱节点通常具备语义特性,比如图5中实体“邱勇”可以直接显式地从非结构化文本中抽取.但是,网络空间威胁知识图谱区别于开放知识图谱在于实例节点不具备语义特性,而多由编码体系组成,如攻击模式编号(CAPEC-ID),漏洞编号(CVE-ID)等,且网络安全威胁报告中通常不会直接提及具体的CAPEC-ID或者CVE-ID,而由一段非结构化文本描述漏洞、攻击模式及漏洞与攻击模式的关系,因此传统的结构化信息抽取技术不能够很好地适用于网络空间威胁知识图谱的隐实体及关系抽取,具体的网络空间结构化信息抽取面临的挑战如图5所示.10.13245/j.hust.210715.F005图5网络空间结构化信息抽取面临的挑战c. 传统的知识图谱表示模型尽管利用代数计算解决了大规模知识图谱推理的时间性能问题,但是,这类模型在推理预测中表现的准确率欠佳,比如TransE算法在典型几种知识图谱上的Hits@10(正确答案排在前10比例)均低于50%,网络空间威胁防御策略必须具备高准确率,因此传统的知识图谱推理模型不能够较好地适用于网络空间威胁知识推理.同时,传统知识图谱推理大多针对单查询、单步链接场景,比如“奥巴马的妻子是谁”,单查询指“实体奥巴马”,单步链接指“夫妻关系”,推理的结果通过一次查询,一个三元组关系即可得到.而网络空间威胁推理查询更加复杂,通常涉及到多联合查询多步链接推理,比如针对一个企业内部网络,在了解该内部网络已部署软硬件、操作系统及弱点的基础上,希望进一步推断对手可能采用哪些战技术对该内部网络进行高级可持续威胁攻击.针对上述场景,查询将涉及到多个实体,比如软硬件、操作系统、漏洞等,而推理过程也将涉及到多步和多跳,比如从软硬件到漏洞、从漏洞到弱点、从弱点到攻击模式等.传统的知识图谱推理很少考虑这种多联合查询的多步链接推理场景,也缺少相应的推理方法,网络空间威胁知识推理面临的挑战如图6所示.其中,CVE-1,CVE-2…CVE-K为漏洞编号;CWE-1,CWE-2…CWE-K为弱点编号.10.13245/j.hust.210715.F006图6网络空间威胁知识推理面临的挑战5 结语综述了网络安全知识图谱构建与应用中的基础数据、知识图谱构建过程及对应的关键技术研究现状.网络安全知识图谱研究目前还处于起步阶段,下一步将基于开源情报数据,利用知识抽取技术进一步丰富网络安全知识图谱;同时,利用知识表示、知识推理模型补全关系,发现新的关系,为网络空间科学化防御提供辅助决策.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读