近年来,移动终端设备(MD)的快速发展催生了各类新型移动应用的出现和普及,如移动支付、在线游戏和远程医疗等[1-2],然而受体积、质量等因素限制,MD计算能力和能量储备往往有限,越来越难以满足新型移动应用日益增长的计算负载和时延性能需求[3].移动云计算(MCC)[4]的出现,虽然大幅提高了MD的计算潜力,但是计算任务须要经过广域网传输,导致时延难以得到有效保障.在这种情况下,移动边缘计算(MEC)[5]技术被提出,并得到学术界广泛关注[6].MEC通过将任务卸载到位于边缘服务器(ES),可以在保证MD获得计算资源的同时为其提供满意的时延.在MEC中,计算任务的卸载策略是关键核心技术,学术界围绕计算任务是否卸载、卸载多少、如何发送和计算等方面开展了大量研究[7-10],以提高计算卸载策略的效率,降低时延、能耗,提升用户体验.早期MEC研究工作主要基于数学解析的集中式计算策略.如文献[11]通过对能耗约束下时延最小化问题进行线性规划近似,提出一种基于一维搜索的低复杂度任务卸载算法,降低任务平均时延.随着技术发展,基于强化学习的卸载策略逐渐成为主流研究趋势[12].文献[13]提出一种基于改进Q学习的任务卸载与资源管理方法来最小化系统长期开销;文献[14]提出一种利用无线充电(WPT)技术的计算卸载方法来延长移动终端工作时长;文献[15]提出一种参数自适应调整的基于深度强化学习的计算卸载方法,降低了在线决策调度的耗时.随着MD算力提升且数量呈指数级增长[16],部分学者开始研究基于多智能体的深度强化学习计算卸载方法.文献[17]提出一种能耗和时延综合最优的分布式计算卸载方法,能够达到纳什均衡条件下的最坏性能最优;文献[18]提出一种基于WPT技术的分布式多智能体能耗管理方法,将问题建模为离散时间均匀场博弈,利用深度强化学习获得稳定的分布式调度策略;文献[19]将多智能体博弈转化为分布式最好响应迭代优化框架,并利用基于无约束拉格朗日乘子近似的线性规划,获得全局稳定和整体最优的调度策略.上述方法虽然避免了集中式调度所需的大规模信息采集,但是MD只能根据自身有限的状态信息做出决策,导致MEC整体性能降低,同时系统忽略了部分计算能力较强的MD在其自身没有计算任务时也可以提供边缘计算服务的潜力.针对上述问题,本研究提出一种基于状态信息聚合的边端协同卸载(SAEEC)方法.首先,MD基于本研究定义的边缘-拉普拉斯矩阵(ELM)对自身状态信息进行高质量压缩表征,大幅降低网络通信开销;然后,借鉴联邦学习思想,ES利用ELM运算对表征信息进行聚合,并向每个MD下发经过全局聚合的决策向量;最后,由MD基于深度强化学习的决策框架,分布式做出调度决策,既可利用ES计算能力,又能利用邻近MD的空余计算能力.实验结果表明:SAEEC方法可以在大幅降低状态信息聚合成本的同时有效提高MD的自主决策效率和MEC网络中的整体效能.1 基于ELM的MEC状态信息表征方法MEC可以抽象表示为拓扑图.以工业互联网MEC场景为例,整个系统运行时间可划分为N个时隙,每个时隙的时间长度为T,时隙集合表示为n∈{1,2,…,N}.若ES在时隙n可以覆盖M个移动终端设备,即M个具有相同计算能力、移动速度和储能的同质化工业机器人,则MEC场景在时隙n可以抽象为有M+1个结点的拓扑图Gn,结点集合可表示为m∈{1,2,…,M+1},如图1所示.10.13245/j.hust.221114.F001图1MEC场景抽象对应的拓扑图1.1 预测邻接矩阵和预测拉普拉斯矩阵由于MD处于移动状态,因此MEC场景对应的拓扑图随时序变化.为确保任务卸载目标回传结果时与发出任务的MD可以有效通信,本研究基于接收信号强度(RSSI)定义预测邻接矩阵,通过RSSI信号衰减模型[20]将信号强度值和对应的发射功率值、传播因子值进行最小二乘拟合,将RSSI值R转化为距离值di,j[21-22],即di,j=[(R-51.055 4)/10]×2.133 5,式中51.055 4和2.133 5均为拟合值[23].定义1 预测邻接矩阵Ap表示未来p个时隙后MEC的预测邻接状态.假设ES和MD之间或两个MD之间的最大通信距离为di,j',MD最大移动速度为VMD,则预测邻接矩阵的计算公式为Ai,jp=1-di,j/di,j'(di,j+2pTVMD≤di,j');0(其他),式中p为预测通信状态的时隙个数,即系统要求p个时隙后保持可通信状态.以图1为例,设定p=1,则A1代表1个时隙后的预测邻接矩阵.假设随着MD移动,1个时隙后,MD2与MD3移动到最大通信范围外,则预测邻接矩阵A1表示为A1=0.00.50.70.40.70.80.20.50.00.40.00.00.60.00.70.40.00.00.00.60.00.40.70.80.20.00.00.60.00.00.00.60.00.00.70.00.00.70.00.20.70.00.20.00.00.00.70.00.0.预测邻接矩阵同时体现了ES和MD之间的连接强度.距离越近的结点连接强度越高,通信能耗越低,越应优先作为任务卸载对象.基于Ap及其度矩阵Dp,计算“预测-拉普拉斯”.定义2 预测拉普拉斯Lp表示未来p个时隙后MEC中预测邻接状态对应的拉普拉斯矩阵.预测拉普拉斯矩阵的计算公式为Lp=Dp-Ap.以图1为例,当p=1时,有L1=3.3-0.5-0.7-0.4-0.7-0.8-0.2-0.51.50.40.00.0-0.60.0-0.7-0.41.70.00.0-0.60.0-0.40.00.01.1-0.70.00.0-0.70.00.0-0.72.3-0.2-0.7-0.8-0.6-0.60.0-0.22.20.0-0.20.00.00.0-0.70.00.9.1.2 计算资源向量与边缘向量为描述ES和MD在某时隙内可共享的计算资源,定义MEC场景中在时隙n的计算资源向量Gn和边缘向量En.定义3 计算资源向量Gn表示在时隙n中ES和所有MD可共享的最大计算资源.Gn的计算公式为Gn=(cESn,c1n,…,cmn,…,cMn)T,式中:cESn为边缘服务器ES当前可用计算资源与MD最大计算能力的比值,cESn=0代表ES在时隙n处在饱和状态,无法再为MD提供边缘计算服务;cmn为MDm当前可用计算资源占MD最大计算能力的比例,cmn=0代表MDm在时隙n处为忙碌状态,无计算资源可共享,cmn=1代表MDm在时隙n处为空闲状态,全部计算资源可分配.以图1为例,设定ES在时隙n可共享的计算资源是MD最大计算能力的5倍,MD1~MD6可共享的计算资源依次为50%,40%,30%,20%,0%和80%,则Gn=(5.0,0.5,0.4,0.3,0.2,0.0,0.8)T.基于计算资源向量Gn和预测邻接矩阵对应的度矩阵Dp,定义并计算边缘向量En.定义4 边缘向量En表示在时隙n中ES和所有MD可共享的单位计算资源,即平均每“度”对应的计算资源.En的计算公式为En=(Dp)-1Gn.根据定义,边缘向量En中ES和MD对应的分量值与其可共享的计算资源成正比;与其“出/入度”成反比,即MD与其他结点邻接程度越高,边缘向量对应分量越小.以图1为例,其边缘向量En的计算结果为En=(1.52,0.33,0.24,0.27,0.09,0.00,0.89)T.1.3 ELM的矩阵表征和边缘决策向量为了描述MEC场景中ES和所有MD在当前时隙n为未来p个时隙可以共享的、用于边缘计算的资源,基于预测拉普拉斯Lp和边缘向量En,定义并计算边缘-拉普拉斯矩阵Xn, p.定义5 边缘-拉普拉斯矩阵Xn, p表示从当前时隙n为未来p个时隙ES和所有MD可相互共享的计算资源.ELM矩阵元素的计算公式为Xi,jn,p=|Li,jp|⋅(En)i=|(Dp-Ap)i,j|⋅[(Dp)-1Gn]i.以图1为例,当前时隙n,p=1的ELM矩阵为Xn,1=5.000.761.060.611.061.210.300.170.500.130.000.000.200.000.170.090.400.000.000.140.000.110.060.000.180.000.000.000.000.000.000.000.000.300.190.000.000.060.200.020.060.000.000.000.000.000.620.000.80.对于MEC场景,ELM矩阵是一种高效表征的全局资源共享信息.在分布式的卸载决策机制下,ES要将聚合后的ELM的信息分割为边缘决策向量,下发至对应的MD.定义6 边缘决策向量Zm,n,p表示移动终端m在边缘-拉普拉斯矩阵中对应的列向量.即Zm,n,p=|Xn,p|m,以图1为例,MD5在当前时隙n至1个时隙后对应获得ES下发的边缘决策向量为Z6,n,1=(1.21,0.20,0.14,0.00,0.02,0.00,0.00)T.边缘决策向量Zm,n,p描述了当前时隙n至未来p个时隙MD在MEC中可利用的ES或其他MD的计算资源,用于其分布式决策模型对全局资源信息的学习和决策约束.2 边端协同MEC系统模型本研究将每个时隙到达每个移动终端的计算任务描述为三元组Jnm={Snm,Inm,Γnm},其中:Snm为在时隙n终端m计算任务的数据量;Inm为处理计算内容每个比特数据需要的计算量;Γnm为任务的最大容忍时延.ES的固定位置和所有MD在时隙n的位置使用二维坐标表示,即LES=(xES,yES),LnMD=(xnMD,ynMD);ES信号的发射高度设定为H;MD通常在地面运行,其高度忽略不计.假设计算任务之间不存在逻辑关系,可以按照任意比例拆分后并行处理,如视频压缩、视频特征提取类任务,因此使用卸载向量αnm表示在时隙n终端m计算任务的卸载决策,即αnm=(anm,ES,anm,2,…,anm,m,…,anm,m',…,anm,M+1),式中:anm,ES为在时隙n终端m将计算任务卸载到ES的比例;anm,m为计算任务在本地执行的比例;anm,m'为计算任务卸载到其他移动终端m'的比例.满足∑iM+1|anm,i|=1,anm,1=anm,ES.根据边缘决策向量提供的全局表征信息,卸载决策向量αnm中除本地计算外的第i个分量anm,i|i≠m不应超过该MD边缘决策向量中对应分量zim,n,p与Zm,n,p模的比,即|anm,i|≤zim,n,p/|Zm,n,p (∀i∈[1, M+1], i≠m).2.1 通信模型根据香农定理,移动终端m向ES或其他移动终端m'卸载任务的无线传输速率可以表示为rnm,计算公式为rnm=Blog21+pnmgnm∑iM+1(pnigni)+σ2(i≠m),式中:B为无线卸载信道的带宽;σ2为背景噪声功率;pnm为在时隙n移动终端m的通信传输功率,且该功率不超过移动终端m的最大功率pmax;gnm为在时隙n移动终端m的信道增益,并且在基于视距的路径损耗模型[24-25]下,移动终端m到ES或其他移动终端m'的信道增益可以表示为gnm,ES=g0(xES-xnm)2+(yES-ynm)2+H2,gnm,m'=g0(xnm'-xnm)2+(ynm'-ynm)2,其中g0为单位距离(1 m)的信道增益.综上,可以计算出在时隙n移动终端m将计算任务卸载到ES或其他移动终端m'的时间tnm,ES和tnm,m',及能耗成本enm,ES和enm,m',计算公式分别为:tnm,ES=anm,ESSnmrnm;enm,ES=pnmtnm,ES=pnmanm,ESSnmrnm;tnm,m'=anm,m'Snmrnm;enm,m'=pnmtnm,m'=pnmanm,m'Snmrnm.因与MD计算任务本身的数据量相比,大多数任务输出数据量都较小,故表征所需的信息量也较小,为简洁起见,本研究忽略系统发送表征数据和计算结果回传所消耗的时间和能量.2.2 计算模型αnm向量的分量代表了计算任务Jnm在哪里执行.当计算任务在终端m本地执行时,anm,m0,本地完成计算任务的时间为t˜nm,m=anm,mInm/fnm,式中fnm为终端m在时隙n可利用的自身计算资源,对应计算资源向量Gn中的相关分量,满足fnm≤fmaxm,其中fmaxm为终端m的最大计算资源.本地完成计算任务的能耗为e˜nm,m=km(fnm)vmanm,mInm/fnm,式中km和vm均为与MD搭载的移动计算芯片相关的计算系数[26].当计算任务卸载到临近移动终端m'执行时,anm,m'0,终端m'完成计算的时间和能耗分别为:t˜nm,m'=anm,m'Inm/fnm';fnm'≤fmaxm';e˜nm,m'=km'(fnm')vm'anm,m'Inm/fnm'.当计算任务在卸载到ES执行时,anm,ES0边缘服务器ES完成计算任务的时间为t˜nm,ES=anm,ESInm/Fnm,式中Fnm为在时隙n中ES分配到终端m的计算资源,若Fmax表示ES的最大计算资源,则满足∑m=2M+1Fnm≤Fmax.考虑到ES通常具有稳定且充足的能源供应,因此忽略ES在处理计算任务中消耗的能量;同时,本研究假设MD在自身计算任务完成后,等待ES或其他MD回传计算结果期间不产生空闲能耗.2.3 卸载决策优化目标对于计算任务Jnm,MEC系统为完成该任务所消耗的总时间Tnm和总能耗Enm分别为:Tnm=tnm,ES+∑m'=2,m'≠mM+1tnm,m'+max{t˜nm,m,t˜nm,m',t˜nm,ES};Enm=e˜nm,m+enm,ES+∑m'=2,m'≠mM+1(enm,m'+e˜nm,m').本研究以统筹权衡MEC系统计算任务时延与能耗的加权和为优化目标,则所有时隙内所有MD的平均系统成本Csys可表示为Csys=1NM∑n=1N∑m=2M+1[λTnm+(1-λ)Enm],式中λ为计算任务时延在系统成本中所占的权重.综上,MEC卸载决策的优化目标及其约束条件可以公式化表示为P:minαnm,fnm,Fnm,pnmCsys(∀m,m'∈[2,M+1], m'≠m);K1:|anm,i|≤zim,n,p|Zm,n,p|(∀i∈[1,M+1], i≠m);fnm≤fmaxm;∑m=2M+1Fnm≤Fmax;pnm≤pmax;Tnm≤Γnm;∑n=1NEnm≤Emaxm,式中:K1为卸载决策向量αnm中除本地计算外的第i个分量anm,i|i≠m不应超过该MD边缘决策向量中对应分量zim,n,p与Zm,n,p模的比,即不会导致ES或某个MD的计算任务过载;fnm≤fmaxm和∑m=2M+1Fnm≤Fmax分别为移动终端m和ES的计算资源不超过最大计算能力;pnm≤pmax为任务卸载过程中通信的发射功率约束;Tnm≤Γnm为计算任务完成的总时延不能超过其最大容忍时延;∑n=1NEnm≤Emaxm为MD从系统运行到任意时隙,其总能耗累计值不能超过其携带储能装置的总能量Emaxm.3 边端协同的MEC卸载方法由于基于传统的优化方法难以求解αnm,fnm,Fnm和pnm,因此针对问题P的马尔科夫决策过程(MDP)的特点,本研究提出利用深度强化学习来解决调度问题,并基于分布式深度强化学习(DRL)框架进行算法设计,从而增强调度算法的可扩展性.基于状态信息聚合的边端协同卸载(SAEEC)方法整体步骤如下.步骤1 在每个时隙n内,MEC中的所有MD将当前时隙与ES及其他MD的通信强度、可共享的计算资源和计算任务的最大容忍时延Γnm发送至ES;步骤2 ES基于通信强度和容忍时延最小值min{Γnm|∀m∈[2,M+1]}计算预测邻接矩阵Ap和预测拉普拉斯Lp;基于共享计算资源数据得出当前时隙n的全网计算资源向量Gn和边缘向量En;步骤3 ES计算当前时隙n的边缘-拉普拉斯矩阵Xn,p,实现对MEC状态信息的表征和聚合;步骤4 ES将ELM矩阵即表征信息Xn,p分割为边缘决策向量Zm,n,p,下发至对应MD;步骤5 MD在收到决策向量后,作为约束条件输入分布式DRL框架中进行学习,求解αnm,fnm,Fnm和pnm;步骤6 MD按照DRL框架输出“动作”中的αnm值向ES或其他邻接MD卸载计算任务.在强化学习中,每个MD被视为一个独立的智能体,能在每个时隙内获得其通信距离内MEC网络环境的状态观测信息o(Lnm,Jnm,Enm),并根据环境的局部观测做出决策动作a(αnm,fnm,Fnm,pnm),与环境进行交互获得奖励r(1/[λTnm+(1-λ)Enm] ),获得经验e并观察新的状态,进而逐步更新神经网络参数.为了提高学习的性能,本研究引入注意力(Attention)机制[27],使每个MD能注意到其他MD的环境观测信息,进而做出全局最优决策.考虑到行动值的连续性类似于深度确定性的策略梯度,本研究采用演员-评论家(Actor-Critic)框架,并使用策略网络逼近策略函数,即L(ϕ, φ)=ΕD[(ytot-Qtot(o, a, ϕ, φ))2];ytot=rm+γmaxa'[Qtot(o',a',ϕ-,φ-)],式中:D为经验回放池;ϕ和φ分别为Actor网络和Critic网络的网络参数;ϕ-和φ-分别为目标Actor网络和目标Critic网络的网络参数;o'和a'分别为下一时隙的状态和动作.为了更新每个MD各自的策略,对应的梯度更新[29-30]为∇ωLπ=ΕD[∇ωμ∇μQμtot(o,a)],式中μ={μ1,μ2,…,μn}为所有MD当前动作策略的集合.基于上述设计和定义,分布式DRL框架中的学习过程如图2所示.10.13245/j.hust.221114.F002图2分布式深度强化学习框架本研究采用“集中式训练,分布式执行”的策略.每个MD在各自的Actor网络指导下分布式运行,并将其训练经验组(o,a,r,o')发送到经验缓冲区;ES从经验缓冲区中抽取经验组训练Actor-Critic模型;在完成参数梯度更新后,Actor网络的更新参数会下载到所有MD.4 实验结果及分析通过仿真实验来评估SAEEC方法的有效性,并与其他多智能体卸载机制进行性能对比.4.1 仿真实验环境在仿真实验中,设定以ES为中心,半径90 m的有效通信距离内有6个MD.MD的移动速度均为5 m/s(匀速),随机移动范围覆盖200 m×200 m的空间,MD之间或与ES之间的安全通信距离均为90 m.算力的仿真设置分为三组,即ES 10 GHz和MD 1 GHz,ES 5 GHz和MD 1 GHz,ES 5 GHz和MD 2 GHz.任务数据量范围为400~500 kbyte,计算1 bit数据所需时钟周期数为800~900,训练轮数为6×104,每轮中智能体与环境交互的步数为50,信道带宽为10 MHz.每组实验重复10次,取平均值进行分析.4.2 SAEEC中时延、能耗与算力的关联性分析在SAEEC的优化目标中,λ用来调整算法对时延和能耗的敏感度.表1显示了不同λ数值对系统成本的影响,当系统只考虑能耗时(λ=0.0),ES的算力越强,系统总成本越低,这是因为更多的任务卸载到ES上执行,进而降低了MD的能耗和总成本.当综合考虑时延和能耗时(λ=0.5),依然是ES算力越强,总成本越低,这是由于任务卸载到ES带来的时间成本增加有限,对总成本的影响小于能耗成本的大幅降低.当只考虑时延时(λ=1.0),增强MD算力能够使系统总成本降低,这是因为更多任务卸载到比ES更近的MD上,有效降低了通信时延,当MD算力与ES接近时,总成本降低.10.13245/j.hust.221114.T001表1不同λ数值和算力对应的SAEEC系统成本算力设置组合λ0.00.51.0ES 10 GHzMD 1 GHz0.166 10.199 10.189 1ES 5 GHzMD 1 GHz0.256 30.220 90.224 4ES 5 GHzMD 2 GHz0.387 50.594 50.138 34.3 SAEEC与主流卸载调度方法性能对比表2显示了SAEEC与深度确定性策略梯度(DDPG)方法、多智能体强化学习(MADDPG)方法的性能对比.在综合考虑时延和能耗的前提下(λ=0.5),SAEEC比DDPG的成本平均下降了25.42%,SAEEC比MADDPG的成本平均下降了20.56%,充分证明了SAEEC的有效性和性能优越性.10.13245/j.hust.221114.T002表2SAEEC与主流卸载调度方法的系统成本对比算力设置组合方法SAEECDDPGMADDPGES 10 GHzMD 1 GHz0.199 10.255 40.291 1ES 5 GHzMD 1 GHz0.220 90.279 60.284 0ES 5 GHzMD 2 GHz0.594 50.730 90.766 5 λ=0.5 图3显示了在不同算力组合下算法的收敛过程,图中Nepi为训练的轮次.SAEEC比DDPG和MADDPG的收敛性能更稳定,训练轮数平均在3×104~4×104之间达到最优,且在各种算力组合下的整体波动性较小.而随着MD算力增强,DDPG和MADDPG的收敛性能较差,波动增大,这说明当MD为MEC提供大量算力时,DDPG和MADDPG无法像SAEEC一样做出统筹全网资源的决策.10.13245/j.hust.221114.F003图3SAEEC与DDPG,MADDPG的收敛性能对比4.4 SAEEC与主流卸载调度方法的鲁棒性对比图4对比显示了SAEEC,DDPG和MADDPG当遇到系统突发变化时的鲁棒性.假设当系统训练至第3×104轮次时,ES的信道带宽由原先的10 MHz突降至3 MHz,MD之间的信道带宽不受影响.10.13245/j.hust.221114.F004图4SAEEC与DDPG,MADDPG的鲁棒性对比实验结果详见表3,在信道带宽突变前,三种算法的Csys值较为接近,其中SAEEC算法的Csys值最低.当ES的信道带宽突降至30%时,SAEEC算法保持了明显的稳定性,Csys值上升至0.244 3,上升幅度仅为3.96%,而MADDPG和DDPG的Csys值则出现大幅上升和波动,上升幅度达到198.84%和179.44%.10.13245/j.hust.221114.T003表3信道带宽突变下SAEEC与主流卸载调度方法的系统成本对比(λ=0.5)信道带宽突变方法SAEECDDPGMADDPG突变前10 MHz0.235 00.322 00.309 9突变后3 MHz0.244 30.899 80.926 1实验结果表明:与MADDPG和DDPG方法相比,SAEEC方法在面对ES信道带宽下降(或计算能力下降)等突发状况下,具有更强的系统鲁棒性,可以迅速响应,将更多的计算任务卸载至其他MD,保持系统的平稳运行和成本值的可控上升.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读