网刊加载中。。。

开关型直流-直流(DC-DC)变换器广泛应用于不间断电源、轨道交通供电和计算机等领域[1]．在交错并联DC-DC变换器中，通常采用均流控制方式保证系统稳定可靠运行[2-4]．然而，由于各支相变换器元器件参数和寄生参数不同，效率特性存在差异，均流控制方案无法使系统整体效率处于最优，会造成能源浪费，因此效率优化控制技术目前受到很多研究者的关注．基于电流分配的效率优化控制可以有效提高并联变换器系统的整体效率[5]．传统方法是根据各相变换器效率特性建立系统效率最优问题，通过数学求解该最优问题获得最佳电流分配方案[6-8]．然而，当变换器的运行工况复杂多变时，这种基于数学求解的方式计算繁琐，效率低下，且容易出错．随着人工智能的快速发展，越来越多的研究者将机器学习算法应用在电力电子领域，并取得了良好的效果[9]．粒子群优化、人工蜂群和遗传算法等启发式算法常被用来解决优化问题，相比于数学求解更简便智能[10-12]．然而，这些算法无法适应搜索环境的动态变化，搜索性能在很大程度上依赖于初始值和参数的选取，容易陷入局部最优．另外，在以上基于电流分配的变换器效率优化中，单相变换器的效率特性通常采用曲线拟合的方式得到，由于不同运行工况下变换器效率特性不同，因此当工况发生变化时须要重新采集数据拟合效率曲线，模型适用性差．支持向量回归(SVR)具有小样本、非线性学习能力[13]，能够克服神经网络中局部极小值的问题．Q学习(Q-learning)算法在智能体与环境的交互中学习策略，能够适应环境的动态变化，目前已用于各种优化问题[14-15]．本研究采用SVR算法建立单相变换器效率预测模型，利用Q-learning强化学习算法寻找使变换器系统效率最优的最佳电流分配方案，实验结果验证了所提出方法的有效性．1 同步整流Buck变换器损耗分析本研究以两相交错并联同步整流降压(Buck)型变换器为研究对象，其拓扑结构如图1(a)所示，系统由两个单相同步整流Buck变换器并联得到，图中：Vin和Vo分别为输入电压和输出电压；Cin和Cout分别为输入侧和输出侧滤波电容；S1和S2为主功率开关管；S3和S4为同步整流开关管；L1和L2为两相储能电感；R为负载电阻；IL1和IL2为两相电感电流；Io为负载电流．10.13245/j.hust.221115.F001图1同步整流Buck型DC-DC变换器拓扑在实际变换器中，元器件和电路为非理想的，存在寄生参数，系统的效率达不到100%，工作时会产生功率损耗．非理想单相变换器拓扑如图1(b)所示，图中：S1'和S2'分别为主功率开关管和同步整流开关管；L为单相电感；IL为单相电感电流；Rdson和Rsdson分别为主功率开关管和同步整流开关管的导通电阻；Lesr为储能电感的等效串联电阻；Ciesr和Coesr分别为输入侧和输出侧滤波电容的等效串联电阻．由于Ciesr和Coesr很小，产生的损耗忽略不计．变换器的功率损耗主要由电感损耗、主功率开关管损耗和同步整流开关管损耗构成．储能电感的损耗主要为铜损，可以表示为PL=IL2Lesr．主功率开关管损耗Pps由导通损耗Ppsc、开关损耗Ppson(psoff)及输出电容损耗Ppsco组成，有Ppsc=Rdson[DIo2+(D/3)(ΔIL/2)2]；Ppson(psoff)=Vintpson(psoff)f(Io-ΔIL/2)/2；Ppsco=CpsossVin2f/2，式中：D为占空比；ΔIL为电感电流纹波；tpson(psoff)为主功率开关管开通或关断时间；f为开关频率；Cpsoss为主功率开关管的输出电容．同步整流开关管损耗Psr由导通损耗Psrc、开关损耗Psron(sroff)、输出电容损耗Psrco及同步整流管寄生体二极管反向恢复损耗Psrqrr组成，有Psrc=Rsdson[(1-D)Io2+(1-D)(ΔIL/2)2/3]；Psron(sroff)=Vintsron(sroff)f(Io+ΔIL/2)/2；Psrco=CsrossVin2f/2；Psrqrr=QrrVrrf，式中：tsron(sroff)为同步整流开关管开通或关断时间；Csross为同步整流开关管的输出电容；Vrr为同步整流管关断时反向电压；Qrr为同步整流管寄生体二极管反向恢复电荷．根据以上对单相变换器的损耗分析，可以得出单相变换器的效率ηi为ηi=PoutPin=PoutPout+Pps+Psr+PL=VoIoaIo2+bIo+c，式中：Pin和Pout分别为输入功率和输出功率；a，b和c为常数．将各寄生参数视为常量，单相变换器的效率特性可以表示为输出电流的函数，即ηi=f(Io)．2 基于电流分配系统效率优化方法已知单相同步整流Buck变换器的效率特性，根据并联特性可以得到两相交错并联变换器系统的整体效率为η=Po1+Po2Pi1+Pi2=Io1+Io2Io1η1(Io1)+Io2η2(Io2)=Iload∑i=12Ioiηi(Ioi)，(1)式中：Pii和Poi分别为第i相输入功率和输出功率；Ioi为第i相输出电流；ηi(Ioi)为第i相效率；Iload为负载电流，为两相输出电流之和．考虑单相输出电流和总负载电流的范围，将系统效率最优问题转化为电流分配问题，即max η=maxIload/∑i=12Ioiηi(Ioi);Ioimin≤Ioi≤Ioimax (i=1,2);Iloadmin≤Iload≤Iloadmax;∑i=12Ioi=Iload (i=1,2),式中：Ioimin和Ioimax分别为第i相输出电流最小值和最大值；Iloadmin和Iloadmax分别为负载电流最小值和最大值．3 SVR单相变换器效率预测模型3.1　数据采集在Saber中搭建仿真平台，设定变换器的工况，开关频率为200 kHz，电感量为33 μH，Rdson和Rsdson为10 mΩ，tpson和tsron为25 ns，tpsoff和tsroff为37 ns，Cpsoss和Csross为650 pF，Qrr为112 nC，输入电压范围为30~48 V，输出电压范围为12~24 V，单相变换器输出电流范围为0~12 A．采集不同工况下单相变换器的效率数据，输入电压分别取30，33，36，39，42，45，48 V，输出电压分别取12，15，18，21，24 V，输出电流从1~12 A每增加1 A，令xi(i=1，2，…，n，xi∈R3)表示输入电压、输出电压及负载电流3维向量，令yi表示效率，n表示样本个数．将(xi，yi)作为SVR算法的数据集，按8︰2划分为训练集和测试集，用10折交叉验证训练效率预测模型．3.2　效率预测模型建立将样本映射到高维特征空间，用ϕ(x)表示将x映射后的向量，高维特征空间中的划分超平面可以表示为f(x)=ωTϕ(x)+b，式中：ω为法向量；b为位移项．寻找一个最优的划分超平面，设定最大偏差量ε，当样本数据与该超平面距离大于ε时认为存在偏差，引入ξi和ξi*为松弛变量，最小化所有样本数据到该超平面的总偏差可以得到为min12ω2+C∑i=1n(ξi+ξi*);s.t.yi-ωϕ(xi)-b≤ε+ξi ,ωϕ(xi)+b-yi≤ε+ξi*,ξi≥0, ξi*≥0,式中C为惩罚参数，取1×104．转化为对偶问题，有min12∑i=1n∑j=1n(αi-αi*)(αj-αj*)κ(xi,xj)+ε∑i=1n(αi+αi*)-∑i=1nyi(αi-αi*);s.t.∑i=1n(αi-αi*)=0,0≤αi,αi*≤C,式中：αi，αi*，αj和αj*为拉格朗日乘子；κ(xi,xj)为核函数，可表示为κ(xi,xj)=ϕ(xi)Tϕ(xj)．本研究选用高斯核函数，表达式为κ(xi,xj)=exp-xi-xj2/(2σ2) (σ0)，式中σ为高斯核的带宽，取1/2．求解对偶问题可得单相变换器的SVR效率预测模型为f(x)=∑i=1n(αi-αi*)κ(xi,x)+b．给定变换器工况范围内的任意一组输入电压和输出电压，通过效率预测模型可以方便地预测各单相变换器在不同负载电流下的效率．3.3　模型性能评估在10折交叉验证中，用10次验证的平均均方根误差评估模型的性能．在模型训练好后，采用平均绝对误差FMAE和均方根误差FRMSE衡量所提出效率预测模型的预测精度．FMAE和FRMSE的表达式分别为FMAE=1n∑i=1nŷi-yi；FRMSE=1n∑i=1n(ŷi-yi)2，式中ŷi为效率估计值．4 Q-learning最优电流分配策略将式(1)中的系统整体效率最优表示为max η=maxλ1η1(Io1)+λ2η2(Io2)-1=minλ1η1(λ1Iload)+λ2η2(λ2Iload),式中λi=Ioi/Iload．将λi定义为Q-learning算法的状态空间．定义λi的增量单位为Δ，本研究中取1/1 000，λi增加、减小一个Δ或不变构成Q-learning算法的动作空间，两相变换器的动作空间共包含9种组合．定义φ=λ1η1(λ1Iload)+λ2η2(λ2Iload)．将φ与其期望最小值φ'差值的平方作为惩罚项，得到含惩罚项的目标函数，结合约束条件，最优电流分配问题可以表述为minψ(λ1,λ2)=minλ1η1(λ1Iload)+λ2η2(λ2Iload)+r(φ'-φ)2;s.t.λimin≤λi≤λimax (i=1,2),∑i=12λi=1,式中：r为惩罚因子；λimin和λimax分别为λi的最小值和最大值；φ'和r分别取0.01和1．λi的取值范围对Q-learning电流分配寻优算法的状态空间作出了限制．根据变换器系统各相输出电流及总负载电流考察λi的取值范围．已知单相变换器输出电流范围为0~12 A，两相变换器系统总负载电流可以达到24 A．总负载电流的取值范围确定了λi的范围，即0≤λi≤1 (i=1,2;Iload∈[0,12]);Iload-12Iload≤λi≤12Iload (i=1,2;Iload∈[13,24]), (2)式中∑i=12λi=1．已知λi的取值范围和其增量单位Δ，计算λi相对于Δ的占比范围，即Hi=([λimin/Δ],[λimax/Δ])，(3)式中[∙]为取整操作．由∑i=12λi=1知∑i=12λiHi=1/Δ．Hi的范围确定了给定总负载电流下电流分配方案的所有可能情况，构成Q-learning寻优算法的整个状态空间．基于目标函数对奖赏函数进行设计．当寻优过程从当前状态经某一动作转移到下一状态时，若目标函数ψ(λ1,λ2)的变化量小于0，则动作的奖赏为1；若ψ(λ1,λ2)的变化量大于0，则动作的奖赏为-1；若ψ(λ1,λ2)的变化量等于0，则动作的奖赏为0；若ψ(λ1,λ2)达到历史时刻的最小值，则可以给一个较高的奖赏，例如50．以上为Q-learning电流分配寻优算法状态空间、动作空间、目标函数及奖赏函数的定义．为了避免陷入局部最优，本研究以1/(20Δ)为间隔将状态空间中的状态分别作为寻优的初始状态，以一组初始状态寻优称为一个episode，不同episode构成算法的外部循环，一个episode对应的寻优过程构成算法的内部循环．定义s为状态，a为动作，S为状态集，A(s)为动作集．Q-learning电流分配寻优算法步骤如下．步骤1 初始化值函数Q(s,a)(∀s∈S,a∈ A(s))，给定算法参数，学习率α设置为1，折扣因子γ设置为0.8．步骤2 在一个episode中，给定算法的一组初始状态，根据ε-贪婪策略选择动作a：当产生的随机数0.9时，选择最大动作值函数对应的最优动作，若一些动作的最大动作值函数相同，则在这些动作中随机选择；当产生的随机数≥0.9时，随机选择动作．Q(s,a)在策略π下的计算公式为Q(πs,a)=Rs(a)+γ∑s'Pss'[π(s)]Vπ(s')，式中：Rs(a)为状态s的平均奖励；Pss'[π(s)]为策略π下状态s到状态s'的转移概率；Vπ(s)为策略π下累积回报在状态s处的期望值，定义为Vπ(s)=∑a∈Aπ(a|s)Q(πs,a)，其中π(a|s)表示当处于状态s时，在策略π下采取动作a的概率．步骤3 在状态s下根据ε-贪婪策略选择动作a得到奖赏r(s,a)和下一状态s'，更新Q(s,a)，即Q(s,a)←Q(s,a)+α[r(s,a)+γmaxaQ(s',a)-Q(s,a)]，式中maxaQ(s',a)为在状态s'下用贪婪策略选择动作，即动作空间中最大动作值函数对应的动作a'．步骤4 更新状态和动作，s=s'，a=a'．步骤5 判断s是否达到最终状态，若未达到，则返回步骤3，否则进行下一步．步骤6 判断所有的episode是否结束，若未结束，则返回步骤2，否则进行下一步．步骤7 输出最终策略，即最优电流分配方案．5 实验结果及分析为验证所提出方法的有效性，搭建仿真实验平台．系统效率优化控制框图如图2所示，图中：Vref和Iref分别为电压和电流参考值；IL1ref和IL2ref分别为两相变换器电流给定；PWM为脉冲宽度调制．电压电流双闭环采用比例积分(PI)控制．离线训练SVR效率预测模型预测单相变换器的效率特性，采用Q-learning寻优算法得到不同工况下的最优电流分配方案．通过在线查表的方式给出电流环参考电流．开关频率为200 kHz，元器件参数和寄生参数设置与3.1节相同．10.13245/j.hust.221115.F002图2系统效率优化控制结构框图当系统处于动态调节过程时，为保证系统稳定运行，采用均流控制模式，将电流参考值平均分配到两相变换器的电流给定．在达到稳定工作状态后，系统根据Q-learning寻优算法求解的最优电流分配方案重新分配两相变换器的电流给定，运行在效率优化控制模式．为评估所建立的效率预测模型的性能，采用10折交叉验证训练两相变换器预测模型的平均均方根误差分别为0.481与0.408．计算测试集的预测误差，第一相效率预测模型的FMAE和FRMSE分别为0.146和0.335，第二相效率预测模型的FMAE和FRMSE分别为0.264和0.379．可以看出：模型性能良好，具有较好的预测能力．任意选择一种工况，如输入电压40 V，输出电压20 V，采用SVR效率预测模型预测两相变换器效率特性曲线，如图3所示．可以看出：预测的效率特性曲线与真实效率值趋势相近，误差较小，最大误差约为0.4%，表明所提出的SVR效率预测模型可以较为准确地预测未知工况下变换器的效率特性．10.13245/j.hust.221115.F003图3SVR两相变换器效率预测结果基于SVR预测的各单相变换器效率特性，采用Q-learning寻优算法寻找最优电流分配方案．取增量单位Δ=1/1 000，若Iload=6 A，负载电流小于单相输出电流的最大值，则根据式(2)和(3)可知状态空间中有1 000种分配方案；若Iload=13 A，负载电流大于单相输出电流的最大值，由于单相输出电流的范围为0~12 A，则由式(2)可知λi的取值范围为[1/13，12/13]，进而由式(3)可知状态空间中有Hi=77~923，共847种分配方案．本研究只考虑两相非强制运行的情况，若两相强制同时运行，则目标函数的边界条件会发生变化，状态空间须要重建．对Q-learning寻优算法得到的电流分配方案进行验证，系统的输出电压和输出电流如图4所示，图中t为系统运行时间．在系统运行初期，输出电压快速上升，系统以均流模式运行，在达到稳态后，以效率优化模式运行．在10 ms处负载从2 Ω减小到1 Ω，在20 ms处负载从1 Ω增加到1.5 Ω，输出电压波动较小，负载突变初期系统以均流模式运行，稳定后继续采用效率优化模式．绘制两种模式下效率随负载电流的变化曲线，如图5所示，可以看出效率优化模式的系统效率与均流相比有明显提升，最高可达4.5%．不同负载电流下效率优化模式所能达到的最高效率与变换器参数和寄生参数有关．10.13245/j.hust.221115.F004图4负载突变前后电压电流波形图10.13245/j.hust.221115.F005图5均流和效率优化模式系统整体效率对比图本研究提出一种基于电流分配的两相交错并联DC-DC变换器效率优化策略，首先基于SVR算法预测各单相变换器效率特性，然后利用Q-learning算法寻找最优电流分配方案，最后仿真实验验证了所提出效率优化控制方案的有效性．