无线传感器网络(wireless sensor networks,WSNs)[1-2]具有自组织、部署迅速、容错能力强、隐蔽性强等优点,被广泛应用于环境监测[3]、精准农业[4]、室内控制[5]和智慧交通[6]等领域.覆盖反映和刻画监测目标区域的感测状态[7-8],是无线传感器网络的基本和核心问题之一.圆盘覆盖模型由于计算简单、适用性强被广泛用于定义传感器覆盖[9].在圆盘模型中,当检测空间与传感器节点的欧氏距离小于感知半径时,认为检测空间被覆盖.采用圆盘模型对节点覆盖范围进行评估,可以较充分地反映节点的覆盖能力.然而,WSNs由于其自身特点和网络应用环境、场景的特殊性,在运行过程中会受到节点数量、节点故障、连接中断、覆盖空洞、被动窃听及主动恶意攻击等因素的影响,导致网络覆盖不能满足要求,甚至无法正常运行,引起服务中断[10].因此,为了提高网络覆盖能力、提升网络服务质量,在WSNs网络设计和运行时,须要充分考虑节点的可靠性.信任管理作为识别干扰和入侵的有效手段,是解决节点可靠性问题的新突破.信任管理通常通过历史合作和通信行为评估节点的信任水平,从多个方面综合考虑节点的可靠性,可以有效识别恶意节点,是评价节点是否可靠的有效方法[11-12].在获取节点受干扰或入侵的信息后,如何调整网络覆盖,使得无线传感器网络能够快速地适应节点的信任变化,最大限度地满足覆盖是目前迫切须要解决的问题.Q学习[13-14]扩展了博弈论和马尔可夫决策过程(MDP)的形式化框架,结合多智能体重复博弈的优势,可以有效地优化覆盖.因此,本研究基于信任管理和Q学习提出了一种新的自适应容侵覆盖优化方法,来解决无线传感器网络中覆盖容侵和优化问题.1 Q学习Q学习是一种以有限的马尔科夫决策(finite Markov decision process,FMDP)为理论基础的强化学习机制.Q学习通过寻找当前状态下的最优解来最大化后续策略的效用函数.通常,Q学习包含如下几个常用的元素.a.智能体集合τ={τ1,τ2,⋯,τn},其中:n为参与的代理数量;τi为第i个智能体;τi为除第i个智能体之外的其他智能体(协作智能体).b.策略集合A={A1,A2,⋯,An}.每个智能体拥有一个策略空间Ai={a1,a2,⋯,an},有多个可选择的策略.c.状态空间S={s(1),s(2),⋯,s(t),s(t+1)},智能体τi在t时刻保持状态si(t),执行策略后,到达新的状态si(t+1).d.奖励函数Re,用于计算智能体选择策略后si(t)→si(t+1)所得到的立即回报.e.Q值/Q表,用于记录智能体在采取当前策略状态转移后所得到的预期奖励,用于指导或决定智能体下一步应该采取的策略.在Q学习中,每个智能体通过与环境的交互来学习和更新自身的状态,并使用Q表记录和决定智能体下一步应该采取的行动,在多次迭代和重复博弈后,直到达到系统的终止状态.Q学习可分为单智能体系统和多智能体系统,示意图分别如图1和图2所示.10.13245/j.hust.230221.F001图1单智能体学习系统10.13245/j.hust.230221.F002图2多智能体学习系统对于单智能体系统,智能体基于自身预期回报和即时回报评估其效用函数,将会根据最大Q值选择响应的行动策略.对于多智能体系统,智能体须要考虑其他相关智能体的联合最佳收益.智能体不仅须要选择自己的最佳收益策略,还须要考虑其他智能体选择策略,其最优策略准则依赖于所有智能体的联合行动,如图2所示.Q值的迭代可通过下式计算,Q(s,a)←Q(s,a)+α[Re(s,a)+γmaxQ(s',a')-Q(s,a)], (1)式中:α为学习率;γ为时间折扣因子,取值在0~1之间;Q(s',a')为下一时刻选择策略a的预期回报.2 信任管理由于无线传感器节点部署环境的随机性和不稳定性,节点易受到干扰和网络入侵的影响,使得网络安全性和可靠性无法保障.信任管理机制通过节点的历史通信行为来评价节点的信任值,以此来评估节点的可靠性.通常从通信合作历史、能量信任等方面进行计算.2.1 直接信任值在WSN中,相邻传感器节点之间进行相互通信,并记录其信任值.节点之间的相互合作状态可以分为良好合作(G)、无应答(U)、恶意合作(M),定义合作评估函数c(x)=1.0    (x=G);0.5    (x=U);0.0    (x=M), (2)即若节点之间保持良好合作,则合作函数取值良好合作为1,无应答为0.5,恶意合作为0.在实际应用中,由于节点之间携带或传输的信息的重要程度也是不同的,因此为了在信任管理机制中体现出节点的信任重要程度,定义了信息权重函数g(m)来表示节点携带信息的重要性,m∈[0,1]为携带信息的重要程度,g(m)=0.5m    (0.0≤m0.2);1.0m-0.1    (0.2≤m0.5);1.5m-0.35    (0.5≤m0.8);2.0m-0.75    (0.8≤m≤1.0). (3)结合合作状态和信息权重函数,节点的直接信任值为TDi,j=∑k=1Ni,jci,jk(x)gi,jk(m)/∑k=1Ni,jgi,jk(m), (4)式中:Ni,j为节点τi和τj之间的合作次数;ci,jk为k时刻两个节点之间的合作状态;gi,jk为在k时刻合作时所携带的信息权重.2.2 不良合作值当节点之间的合作状态为无应答(U)、拒绝合作(R)或恶意合作(M)时被判定为不良合作,其信任值为TBi,j=Ni,jU+2Ni,jR+3Ni,jM3Ni,j, (5)式中:Ni,jU,Ni,jR和Ni,jM分别为节点之间无应答、拒绝合作和恶意合作的次数;Ni,j为合作总次数.2.3 能量信任值无线传感器节点需要足够的能量才能保证传感和数据传输功能.节点的能耗通常包含数据感知、发送和接收能耗,采用文献[15]中的能量模型计算能耗E,能量信任值的计算公式为TEi,j=1(EresEi,jθ);0(Eres≤Ei,jθ), (6)式中:Eres为节点剩余能量;Ei,jθ为节点τi和τj数据传输所需的能量阈值.2.4 综合信任值综合考虑直接信任值、不良合作信任值及能量信任值,可得综合信任值Ti,j=aTDi,j+b(1-TBi,j)+cTEi,j,(7)式中a,b和c为信任值系数,且a+b+c=1.此外,随着信任值具有时间相关性,设定时间窗口t定期对信任值进行更新,Ti,j(t)=ωTi,j(t)+(1-ω)Ti,j(t-1),(8)式中ω为信任值衰减因子,ω∈[0,1].3 基于Q学习的自适应容侵覆盖优化算法假设n个传感器节点{τ1,τ2,⋯,τn}被随机部署在一个二维检测区域Δ,每个传感器节点具有相同的感知半径Rs和通信半径Rc.传感器节点根据节点信任值自适应更新传感半径和通信半径,R=R∑i=1j∈NiTi,j(t)/Ni, (9)式中:Ni为节点τi的相邻节点;R∈{Rs,Rc}.根据圆盘覆盖模型,假设传感器节点τi的覆盖区域为Di,那么整个网络覆盖区域为P=∪i=1nDi.(10)为了使网络中的传感器节点在覆盖中发挥最大作用,须要使节点的独立覆盖面积Aai尽可能最大,节点独立覆盖面积示意如图3所示.Aai(τi,τ-i)=Di\∪j∈NiDj, (11)式中j为传感器节点τi的相邻节点标号.10.13245/j.hust.230221.F003图3节点独立覆盖面积示意图算法1 基于Q学习的自适应容侵覆盖优化算法初始化 节点位置坐标(x,y),Q表Q(s,ai,a-i),策略空间∀ai∈Ai,∀a-i∈A-i,学习率α,信任值T,最大迭代次数,覆盖率阈值.步骤1 设定网络运行时长,在间隔周期内记录节点之间的合作情况,根据式(2)~(6)更新节点直接信任值TDij,不良合作值TBij和能量信任值TEij;步骤2 判断是否到达信任更新时间窗口,若是,则根据式(7)和(8)更新节点信任值Tij;步骤3 根据节点信任值,按式(9)调整节点通信半径和感知半径;步骤4 节点在迭代次数内或未满足覆盖率条件,以学习率α,根据ai=argmaxa-i∑a-iNm(s,a-i)n(s)Q(s,ai,a-i)选择最佳行动策略,或以概率1-α选择随机策略;步骤5 根据式(11)判断计算策略执行收益,若收益小于上一时刻,则节点保持上一时刻状态;步骤6 根据式(1)更新Q表;步骤7 判断是否达到终止条件,若否则重复步骤4~6,若是则终止程序.在无线传感器网络的覆盖问题中,将无线传感器网络视作一个多智能体系统,智能体为传感器节点,传感器节点选择与其协作节点的共同最大化收益的策略来优化覆盖.Q值可通过下式进行更新,Q(s,ai,a-i)←Q(s,ai,a-i)+α[R(s,ai)+γπ(s')-Q(s,ai,a-i)]; (12)π(s')=maxai∑aiNm(s',a-i)n(s'Q(s',ai,a-i), (13)式中:Nm(s',a-i)为τi的相邻节点在下一状态s'选择策略a的次数;n(s')为下一状态s'参与迭代的正常工作的节点数量.如算法1所示,先对节点的位置(x,y)、Q值、信任值T、学习率α等参数进行初始化,然后设置好时间窗口,对时间窗口内节点的合作情况进行记录,计算TDij,TBij和TEij,到达时间窗口后更新Tij(步骤1~2).得到节点信任值后,对节点的感知半径和通信半径按照模型进行调整,降低受干扰或恶意节点的半径(步骤3).最后利用Q学习,根据网络覆盖情况进行迭代优化,直至达到终止条件(步骤4~7).4 仿真结果与讨论4.1 仿真参数仿真中设置目标检测区域为[1,50]×[1,50] m2,传感器节点具有相同的初始传感半径Rs=5 m和通信半径Rc=10 m,节点学习率为0.4,探索率为0.6,分别对不同入侵率进行仿真,并选择粒子群优化(PSO)[16-18]算法作为对比算法,验证所提算法在迭代次数、入侵率和收敛性等方面的性能.4.2 仿真结果4.2.1 节点信任值变化采用第2部分描述的信任模型,设置信任值的更新周期为20 s,对网络节点数量n=30在10%入侵率的条件下进行模拟,结果如图4所示.图4(a)为恶意节点和正常节点的信任值举例,从图中可以看出:随着通信时间的延长,恶意节点的信任值逐渐下降,而正常的可信节点信任值保持在0.9以上.从图4(b)可以看出整个网络在10%恶意入侵的节点信任值分布.从图4可以看出:该信任模型可以根据节点的通信行为和能量等因素,通过节点信任值快速有效的识别被入侵的恶意节点.10.13245/j.hust.230221.F004图4节点信任值4.2.2 无入侵条件下网络覆盖变化如图5所示,对节点数n=30,无入侵条件下进行模拟,图中:K为迭代次数;ξ为覆盖率.网络初始覆盖如图5(a)所示,初始覆盖率为58.95%,经过Q学习对传感器节点进行训练后,网络覆盖率可提升至82.95%,每个传感器节点可获得最大的独立覆盖面积Aai,而PSO的修复结果为73.31%,提升了9.64%.从图5(c)可以看出:Q学习算法比PSO算法覆盖适应性好,且算法收敛速度快,可快速达到纳什均衡.10.13245/j.hust.230221.F005图5无入侵条件下网络覆盖变化4.2.3 入侵条件下网络覆盖变化图6为节点数n=30入侵率为10%,20%和30%所提算法对网络覆盖的优化结果,图中:左侧为初始覆盖分布;右侧为优化结果;红色五角星为目标检测区域中心;红色点为受干扰或入侵的节点,传感半径和通信半径已根据其信任值做出相应调整.从图中可以看出:所提算法可以最大程度提高节点的覆盖贡献,尽可能满足覆盖要求.10.13245/j.hust.230221.F006图6入侵条件下优化覆盖图7为覆盖率随迭代次数变化.可以看出:存在干扰入侵的条件下,尤其是当入侵率较高时也能根据节点信任情况有效优化覆盖,并快速收敛到纳什均衡.但是当入侵率较高时,由于恶意节点信任值较低,自适应后对网络的覆盖率影响较大.10.13245/j.hust.230221.F007图7覆盖率随迭代次数变化图8为覆盖率随节点数量变化.可以看出:覆盖率随节点数量增大而增大,Q学习的覆盖优化效果始终优于PSO算法.当节点数量较少,低于10时,两个算法都能使节点达到最大覆盖,因此具有相同的修复能力,随着节点数量增加,Q学习的优势逐渐凸显.图9为覆盖率随入侵率(I)变化,可以看出:网络入侵率增大,会使得受干扰或恶意节点的感知半径缩小,从而造成覆盖率降低.10.13245/j.hust.230221.F008图8覆盖率随节点数量变化10.13245/j.hust.230221.F009图9覆盖率随入侵率变化5 结论本研究基于信任管理和Q学习提出了一种新的自适应容侵覆盖优化方法.算法对于无线传感器网络覆盖具有较好的自适应能力,在存在网络入侵的条件下,可有效地识别受干扰或恶意节点,调整节点覆盖策略满足网络覆盖要求,且可快速收敛达到纳什均衡.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读