为实现网络中心战目标,下一代机载战术网络必须与无人机(UAV)集群系统协同发展,以提供群体对抗能力.由多无人机和战斗机等组成的航空集群网络(ASNET)具有网络拓扑高动态、通断频繁等自身特性,能够遂行各种任务,将引发未来航空平台运用方式的新变革[1].在航空集群网络中,各节点均部署机载战术电台以交互不断增长的态势信息.同时,这些电台也面临严重干扰:一是外部有意的干扰,譬如基于认知无线电(CR)概念提出的认知干扰机[2],具备学习能力的认知干扰机不仅能检测目标信号波形类型,并从预设的干扰波形库中选择干扰波形,而且能够不断感知空中电磁环境,实时更新决策数据库生成最优干扰策略;二是来自航空集群网络内部的干扰,如电台同址工作产生的发射机主频干扰及接收机交调干扰等.随着机群系统组网、协同的增强,航空集群网络内部之间的干扰问题愈加突出,因此航空集群网络在追求更高速率、更远距离及更佳业务质量的同时,须要极大地提升自身的抗干扰能力,以取得网络中心战的竞争优势.为了在对抗环境下实现安全、可靠通信,航空集群网络通常采用的抗干扰通信技术包括:a. 时间域的跳时通信、编码等;b. 频率域的跳频通信等;c. 功率域的自适应功率控制等;d. 空间域的数字波束形成等[2-3].这些抗干扰技术各有其优点,但都属于盲抗干扰方式,不能完全解决复杂电磁环境中的航空集群网络抗干扰问题,也难以对抗新兴的具备学习能力的认知干扰机.针对上述难题,研究人员提出基于认知无线电的抗干扰通信技术,亦称认知抗干扰(CAJ)[3],其基本原理为:通过感知电磁环境来分析信号特征,发现频谱空隙,并据此动态调整通信系统工作参数来规避干扰,从而达到可靠通信并提高频谱效率的目的.在航空集群网络中,认知抗干扰主要通过感知战场的复杂电磁环境进行评估、理解和学习,实时调整战术电台的频率信道配置,以适应战场环境变化,提高战术电台的抗干扰能力,解决恶劣电磁环境下可靠通信问题.实现航空集群网络认知抗干扰要求机载电台具备在未知环境中的自主学习能力,而机器学习领域中的强化学习(RL),包括多臂赌博机模型(MAB)和Q学习等是一种对先验信息要求低的免模型自主学习方法,其是解决该类问题的有效技术.因此,结合航空集群网络特点和干扰对抗需求,采用强化学习的人工智能技术手段研究航空集群网络认知抗干扰技术,有利于提升航空集群网络的作战效能.一些研究人员对基于强化学习的认知抗干扰通信进行了有益探索,其基本思想是从频域信道选择的角度,尽可能选取未受到干扰的空闲频段作为工作频道,可视作一类干扰规避方法.文献[4]把多信道认知无线网络中次用户的抗干扰机制与干扰机的攻击行为建模为随机博弈模型,在每一博弈阶段次用户观测频谱可用性、信道质量及干扰方的攻击策略,分别提出基于Minimax-Q学习和Win-or-Learn-Fast的多智能体强化学习(MARL)抗干扰策略,据此决策信道切换方案、预留命令和数据传输所需的信道数量.文献[5]利用QV和SARSA算法代替之前的Minimax-Q算法,从而学习信道的时变特征和干扰信号的随机特性,因QV和SARSA算法的状态值函数独立于动作,可使用更多经验值进行训练,故其学习概率曲线优于Minimax-Q算法,能更快地选择出未被干扰信道而提高认知用户的抗干扰性能.基于Q学习的信道选择虽能获得较好抗干扰性能,但若状态、动作空间的规模较大时,其收敛速度变慢而降低了抗干扰性能.随着MAB博弈理论逐渐成熟,其也被应用于认知无线电系统.文献[6-8]等深入研究了战术认知无线网络干扰及抗干扰问题,首先建立由敌我双方电台和干扰机构成的竞争性认知弹性网络博弈模型,然后从决策论框架出发来求解该干扰与抗干扰博弈问题,分别给出了置信区间上界(UCB)和Thompson Sampling等Bandit强化学习求解方法,并分析评估了这些算法在CCRN中的性能,为实现Bandit强化学习的认知抗干扰提供了重要理论依据.上述抗干扰策略研究均假设静态网络中用户(智能体)数固定或已知的情形,这并不符合航空集群网络的动态运行特征.因为在任务敏感的空中作战环境下航空集群网络的拓扑结构动态变化,网络节点随时加入或退出,导致电台数量不固定,所以多部电台可能同时接入相同空闲信道发生碰撞而降低抗干扰通信性能.为了适应航空集群网络动态组网的特性以及解决多电台同时接入的信道碰撞问题,本研究针对电台数量未知情形下的航空认知抗干扰技术,提出一种碰撞规避(CA)的kl-UCB++抗干扰信道选择策略,以有效处理机载电台信道接入的碰撞难题,提高航空集群网络的频域抗干扰通信能力.1 系统模型考虑如图1所示的航空集群网络抗干扰通信场景,由ASENT节点及认知干扰机组成,其中每个网络节点安装认知战术电台.该UAV集群采用多跳组网方式,各节点动态成簇,并选择数据处理能力强的电台作为作为簇间通信的网关(GW).集群网络节点采用分布式工作模式,即各节点的CR电台独立采用学习算法生成抗干扰信道选择策略,并以Ad Hoc方式交互信息.10.13245/j.hust.210504.F001图1航空集群网络拓扑结构基于上述航空集群网络模型,对其进行数学建模.假设网络节点电台利用干扰检测方法得到K个带宽为B的无干扰信道,其中心频率为fk(k=1,2,⋯,K),则L个电台可接入的频谱资源为这K个频道,可划分为若干个资源单元(RE),其中每个RE的持续时间为Td,故电台可使用的频谱资源单元可表示为〈fk,B,t,Td〉.此外,定义A为电台的动作集合,其中每个动作由信道选择fk组成,则电台i在时隙t选择信道fk进行可靠传输的结果可表示为Ω:A→R,并把该结果映射到奖励函数R.因此,集群网络电台i认知抗干扰的MAB模型可描述为{xit,as,Ωs}s=1t-1→πitait,式中:xit为电台i在时隙t执行所选动作(as)及获得回报的先验信息;πit为电台i在时隙t选择信道的这一动作策略.针对构建的MAB博弈模型,须要研究抗干扰信道选择策略,一方面保证在同一时刻t不同电台选择不同通信信道而避免发生碰撞,这里信道碰撞定义为Cit:={∃i'≠i:πi't=πit};另一方面,该策略使网络电台的累积悔值(regret)最小.2 网络电台数估计在构建的航空集群网络的MAB模型中,一个假设条件是已知节点电台数量,但在实际空中作战环境下,网络节点数量动态变化,故须准确估算集群网络中电台数,这是设计认知抗干扰策略的前提.基于此,本研究给出一种电台数估计算法,可分为两个阶段:首先,在T0时隙内,电台在K个可用信道集合均匀采样;然后,若电台选择到一个无碰撞的频率信道,则其在整个时隙T0内将选择该信道,这里T0值的计算可由引理1给出.引理1 若T0Klog T,则在时隙T0后所有电台至少以概率(1-L/T)选择不同信道k.由引理1可知:在时隙t=T0内,每个电台将成功选择到一个无碰撞的信道[9-10],然后可估算电台的数量,其原理如图2所示,图中F为信道.若电台在时隙T0选择信道k,则其在时隙[T0,T0+2k]内都将选择该信道k,且在时隙T0+2k+1选择信道k+1,这使得选择信道k'的电台在时隙T0+k+k'与选择信道k的电台发生碰撞.通过计算出在时隙[T0,T0+2K-1]内电台发生碰撞的总数,恰等于L-1,即可得到集群网络电台数量L值.算法1给出了估计网络电台数的步骤.10.13245/j.hust.210504.F002图2电台数估计原理算法1 电台数估计输入 时间T初始化 电台i的碰撞信息{Cit=0,t=0}步骤1 当t=0到T0时,电台在可用信道集均匀采样k~U(1,2,⋯,K);步骤2 电台i选择信道k获得碰撞信息Cit;步骤3 若Cit=0,则电台i在时隙T0内选择信道k;若Cit=1,则电台i选择信道k~U(1,2,⋯,K);步骤4 电台在时隙[T0,T0+2k]内选择信道k;步骤5 电台在时隙T0+2k+1选择信道k+1;步骤6 统计电台在时隙[T0,T0+2K-1]内发生信道碰撞的总数L-1;步骤7 计算出当前时刻的电台数L值.利用算法1能够实时估算出航空集群网络中电台数,这为进一步研究频域认知抗干扰提供有效的先验信息,下面讨论抗干扰信道选择策略的设计.3 基于CA kl-UCB++的抗干扰信道选择针对航空集群网络抗干扰信道选择的MAB模型,虽可用ε贪心算法、UCB及kl-UCB等经典Bandit算法进行求解,但其性能有较大提升空间.近年提出的kl-UCB++算法具有渐近最优和极大极小最优特征[11],本研究基于该算法提出改进的抗干扰信道选择算法.首先分析kl-UCB++算法原理.kl-UCB++算法由求解多智能体Bandit问题的kl-UCB+算法改进而来,对有K个动作的Bandit模型,定义每个动作的索引a∈{a1,a2,⋯,aK}且概率分布为vθ,执行动作获得奖励的期望为μa∈[μ-,μ+]⊂I且μ*=maxa=1,2,⋯,Kμa.若在时隙t∈[1,T]内,则智能体选择动作at并获得奖励rt,其中奖励来自概率分布vθAt.令Na(T)=∑t=1{At=a}T1为时间范围T内执行动作a的次数,kl-UCB++算法的目标是最小化累积regret,即RT=Tμ*-E∑t=1Trt=E∑t=1T(μ*-μAt)rt=∑t=1T(μ*-μa)E[Na(T)].算法2给出了kl-UCB++的实施步骤,其中δkl(x,y):=xlog(x/y)+(1-x)log((1-x)/(1-y))为Kullback-Leibler散度,探索函数g(n)=log+TKnlog+2TKn+1,式中log+(x):=max(log x,0).算法2 kl-UCB++算法参数 时间T,探索函数g初始化 每个动作1,2,⋯,K被选择一次步骤1 当t=K到T-1时,计算每个动作a的索引值Ia(t)=sup{μ∈I:δkl(μ̂a(t),μ)≤g(Na(t))/Na(t)};步骤2 选择动作At+1∈argmaxa∈{1,2,⋯,K}Ia(t);步骤3 结束.考虑由L个电台组成的航空集群网络Bandit模型,定义每个电台i∈1,2,⋯,L在时隙t选择信道k获得的奖励为rit=Yπitt(1-Cit),式中Yπitt为电台在时隙t选择信道k时未发生碰撞获得的奖励值.则频域抗干扰信道选择策略是期望获得最小累积regret,有RT=T∑k=1Nrk*-∑t=1T∑i=1Nrit,式中rk*为电台选择信道k获得的最大奖励.基于kl-UCB++算法原理和信道选择目标,本研究所提出的CA kl-UCB++抗干扰信道选择的技术思路为:首先利用算法2计算每个动作的索引值得到集合N̂t∈{o(I(t),k),k=1,2,⋯,N},其中ο(I(t),k)为所有可用空闲信道集合I(t)中信道索引值为k的信道;然后电台在N̂t内选择信道,以减少碰撞.CA kl-UCB++抗干扰信道选择策略如算法3描述.算法3 CA kl-UCB++抗干扰信道选择输入 T,调用算法1估算电台数L初始化 {Ait~U({1,   2,   ⋯,   K}),   t=1}及{Cit=0,t=1}步骤1 当t=0,1,⋯,T-1时,若选择信道Ait∉N̂it,则t+1时隙选择信道Ait+1~U(N̂it);步骤2 若选择信道Ait∈N̂it且Cit=1,则t+1时隙选择信道Ait+1~U(N̂it);步骤3 若选择信道Ait∈N̂it且Cit=0,则t+1时隙选择信道Ait+1=Ait;步骤4 电台执行信道选择动作Ait+1获得碰撞信息Cit+1;步骤5 电台利用kl-UCB++计算t+1时隙的信道索引I(t+1)及信道集合N̂t+1;步骤6 循环执行下一时隙动作;步骤7 结束.由上算法描述可以看到:当电台i在时隙t选择信道k时,若该信道属于N̂t且没有发生碰撞,则电台i将在时隙t后仍然选择该信道进行通信.一旦信道选择动作πit∉N̂it或πit∈N̂it,Cit=1,则电台i从N̂t均匀采样选取信道,这种平稳信道选择机制将有效控制用户信道选择时切换次数,降低电台之间的信道碰撞发生概率,进而提高航空集群网络的抗干扰性能.引理2给出了采用该策略获得的总平均碰撞次数上界.引理2 若每个航空集群网络电台利用CA kl-UCB++算法选择接入信道,且电台数量小于等于可用信道数,即L≤K,则集群网络在时隙T内总的平均碰撞次数的上界为E∑i=1L∑k=1KCik(T)≤2L3∑k',μk'μk1δkl(μk,μk')+∑k',μk'μk1δkl(μk',μk)log T+ο(log T).证明 设定选择信道k的动作服从均值μk∈[0,1]的伯努利分布,定义Hxi(t)为电台i在时隙t选择信道后的状态,由算法3可知Hxi(t)包括如下三种状态:H1i(t):=(Ait∈N̂it,Cit=0);H2i(t):=(Ait∈N̂it,Cit=1);H3i(t):=(Ait∉N̂it).显然,状态H1i(t)电台不发生碰撞,而状态H2i(t)及H3i(t)进行信道切换将发生碰撞,因此电台在整个时隙T内总的平均碰撞次数有E∑i=1L∑k=1KCik(T)≤N∑i=1L∑t=1T(pr(H2i(t))+pr(H3i(t))), (1)式中pr(∙)为概率.分析式(1)中pr(Hxi(t))的上界,其中x={2,3},则有∑t=1Tpr(Hxi(t))≤∑t=1Tpr(Ait∉N̂it)≤∑t=1T∑i=1Npr(Ait=k,k∉N̂it). (2)根据参考文献[12]可知,设定T→∞,则不等式(2)右边的上界可计算为∑t=1Tpr(πit=k,k∉N̂it)=∑k'≠klog Tδkl(μk,μk')+ο(log T)=∑k',μk'μk1δkl(μk,μk')+∑k',μk'μk1δkl(μk',μk)∙log T+ο(log T).将其代入式(1)可得E∑i=1L∑k=1KCik(T)≤2N2∑t=1T∑i=1Lpr(πit=k,k∉N̂it)≤2L3∑k',μk'μk1δkl(μk,μk')+∑k',μk'μk1δkl(μk',μk)logT+ο(log T).证毕.4 仿真结果与分析对所提频域抗干扰信道选择策略的性能进行仿真分析,设定仿真实验参数为:时隙(算法迭代计算的时间步数)T=1×104,可用无干扰信道数K=6,即对应有6种动作,执行每种信道选择动作所获得奖励的均值μk∈[0.143,0.286,0.429,0.571,0.714,0.857](归一化容量).仿真中先运行算法1估计出电台数L=3,且利用期望累积regret(re)来衡量信道选择算法的性能.图3给出了不同抗干扰信道选择策略累积regret与T的关系,可以看到:CA kl-UCB++抗干扰策略能够快速收敛,其累积regret低于kl-UCB++,kl-UCB及UCB策略.这表明电台利用所提算法能在大多数时隙选择到无碰撞的信道进行通信,从而提升电台的频域抗干扰信道选择能力.10.13245/j.hust.210504.F003图3累积regret与T的关系图4给出了不同信道选择策略信道切换的次数(Sw)与T的关系曲线图,可以看到:UCB,kl-UCB和kl-UCB++抗干扰策略的信道切换次数多于CA kl-UCB++算法,这是因为这些算法在给定的所有信道集合中进行探索与利用,而CA kl-UCB++策略的电台更多地利用通信质量较优的信道.10.13245/j.hust.210504.F004图4信道切换的次数与T的关系图5给出电台信道碰撞概率(p)与T的关系,图6给出了电台信道碰撞次数(Co)与T的关系,可以看到:电台采用CA kl-UCB++算法的信道碰撞次数随着T呈现对数增长,这与引理2的理论结果相符合.相比于UCB,kl-UCB和kl-UCB++,提出的CA kl-UCB++算法使得电台在可用信道上发生碰撞的次数最少,可以有效地提高航空集群网络的抗干扰通信性能.10.13245/j.hust.210504.F005图5电台信道碰撞概率与T的关系10.13245/j.hust.210504.F006图6电台信道碰撞次数与T的关系5 结论a. 研究了频域认知抗干扰MAB博弈模型,针对电台数量未知的动态航空集群网络抗干扰信道选择问题,提出一种准确估算电台数量的算法.b. 为解决动态ASNET中多电台同时接入的信道碰撞问题,提出基于CA kl-UCB++算法的抗干扰信道选择策略,并推导出电台碰撞次数的理论上界.c. 对CA kl-UCB++抗干扰信道选择算法性能进行了仿真验证,结果表明:CA kl-UCB++抗干扰策略能够快速收敛,其累积regret低于其他UCB类算法,使得电台在可用信道上发生碰撞的次数最少,能有效提高航空集群网络的频域抗干扰通信性能.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读