城市用电量数据往往随季节呈现较强的波动性,使数据曲线呈锯齿状变化,导致模型运用精度下降。白雪飞等[1]在预测港口吞吐量时,引入Markov修正GM(1,1)方法,实现了预测精度的提高。郑卓等[2]利用Markov修正的ARIMA模型来预测设备状态参数得到了很好的效果。上述研究均显示,Markov链模型[3-4]在修正数据预测方面有着一定的优势。残差分类是使用Markov修正预测模型进行预测的重要一步,决定了概率矩阵、概率转移矩阵、Markov权重矩阵等值,残差如何划分、划分为几类均对预测结果产生影响,从而间接决定了模型的最终预测效果[5]。关于残差划分方式的问题,有学者根据研究对象数据分类进行划分[6],也有学者根据数学方法如后验差比值和小误差概率大小[7]、残差正负均值[8]、均值减均方差[9]等进行分类,还有学者使用常用的三等分法[10]划分,在不同应用场景中,均取得了不错的效果。考虑到单一模型在处理非线性、非平稳的时间序列上存在不稳定性和局限性[11],本文提出一种自适应残差分类方法,结合使用多种预测模型进行Markov修正,得到一种可以广泛使用于不同长度、不同波动程度数据的修正组合模型。1单一预测算法G(1,1)、ARIMA、Holt-Winters、LSTM均为常用的预测算法,适用于不同数据场景。灰色预测G(1,1)模型在少数据、贫信息的预测中优点表现突出[12],而新陈代谢GM(1,1)模型[13]则减少了预测模型的趋势性。ARIMA模型中将时间序列视为一个随机序列,通过将非平稳时间序列经过d次差分转化为平稳的时间序列进行分析。而SARIMA模型由于考虑了时间序列数据的季节趋势,在处理强波动变化的数据时有较好的效果[14]。Holt-Winters方法是一种时间序列分析和预报方法,利用平滑思想进行预测,适合于趋势性、周期性的时间序列[15]。LSTM是RNN的一个优秀变种模型,继承了大部分RNN模型的特性,同时解决了梯度反传过程由于逐步缩减而产生的Vanishing Gradient问题,非常适用于处理与时间序列高度相关的问题[16]。加权马尔可夫链算法(Markov)的主要思想是将一列相依的随机序列,经马氏检验后,用各阶(各种步长)确定的马尔可夫链进行加权来预测未来值。计算各阶自相关系数:rk=∑l=1kxl-x¯xl+k-x¯∑l=1nxl-x¯2 (1)式中:rk——第阶k(滞时为k个时期)的自相关系数;xl——第l时段的观测值指数;x¯——观测值指数均值;n——观测值观测序列的长度。对各阶自相关系数规范化:wk=|rk|∑k=1m|rk| (2)式中:wk——各步长的马尔可夫链的权重;m——按预测需要计算到的最大阶数。计算预测概率:pi=∑k=1mwkpi(k),i∈I (3)pi最大值对应的状态即为最终模型预测结果。2最优化残差划分Markov修正组合模型总体设计分为3个部分,即单一算法残差预测器、最优化残差区间划分器和误差检验比较器。首先,单一算法残差预测器,得到各算法的拟合数据和预测数据和残差序列。经最优化残差区间划分器,通过不同划分算子预测值与实际值差值分类(DC)、最小错误概率分类(SC)、均方差分类(MC)进行残差区间划分,得到相应的概率矩阵与概率转移矩阵。下一步进行马氏检验,若通过则可进行数据预测。在误差检验比较器中,对所需预测月份依次进行下一步残差预测并加入序列,直至所有月份均预测完毕。通过比较均方根误差(MAPE),选择误差最小的模型作为预测算法,其预测结果也即模型最终结果。自适应残差划分修正模型预测过程如图1所示。10.19301/j.cnki.zncs.2024.02.015.F001图1自适应残差划分修正模型预测过程结合模型通用性、适用性、正确性对比各预测方法,最优化残差划分Markov修正组合模型使用的预测公式为:y*=x^(0)(k)×[1±0.5×(Sj+Sj+1)],i∈I (4)式中:y*——组合模型最终的修正后的模型预测数值;x^(0)(k)——初始预测模型k时期的预测值;Sj、Sj+1——状态区间的边界值。3各预测算法居民用电量残差预测实验原始数据为湖州市2016年1月—2022年1月的用电量数据,来自湖州市统计局。2016年1月—2021年1月数据作为模型训练集,将2021年2月—2022年1月数据作为模型测试集,所有预测过程结合运用MATLAB、SPSS、PYCHARM完成。3.1初始模型预测结果与数据初步处理过程分析原始数据做季节性可辅助确定SARIMA与Holt-winters的季节性参数。季节性分解如表1所示。10.19301/j.cnki.zncs.2024.02.015.T001表1季节性分解月份季节性因素月份季节性因素1108.4781.32124.28167.6398.09173.2486.21079.3569.91168.7671.11272.0%根据季节性分析与平稳性转换的训练集数据,对比在不同参数下的模型拟合优度,得到效果最好的ARIMA(5,0,5)(0,1,1)12、Holt-winters、GM(1,1)、LSTM预测算法,进而进行2021年2月—2022年1月的湖州居民用电量数据初始预测,结果为如图2所示。10.19301/j.cnki.zncs.2024.02.015.F002图2各算法初始预测结果3.2最优化残差划分过程本文选用DC、SC、MC三种状态区间划分算子对状态指标区间化。DC、SC算子状态空间个数固定为4,MC算子的状态空间个数根据计算状态在n~6中调节。各划分算子的特点如表2所示。10.19301/j.cnki.zncs.2024.02.015.T002表2不同残差划分算子特点特点划分算子DCSCMC马氏检验易通过易通过不易通过是否适用不均匀分布残差适用不适用适用是否可以调整区间划分数目否否是由表2可知,DC算子适用于残差分布不均匀情况,SC算子容易通过马氏检验,而MC算子适用于残差分布不均匀的情况,且能调整区间划分数目,具有较强的相对适应性。3.2.1DC算子将状态空间划分成4个,设残差序列为N(0)k,令N(0)k=x^0k-x(0)k;令N(0)k中大于0的数据为一个新数组N(1)k,反之为N(2)k;继续令A=∑i=1kN(1)ik,B=∑i=1kN(2)ik,C=max(N(1)k),D=max(N(2)k)。状态指标值的变化区间可表示为:E1=[x^0k-D, x^0k-B] (5)E2=[x^0k-B, x^0k] (6)E3=[x^0k, x^0k+A] (7)E4=[x^0k+A, x^0k+C] (8)3.2.2SC算子将状态空间划分成4个。设残差序列为H(0)k,则残差期望为H¯、残差方差为SH2。设原数列x(0)k的均值为x¯、方差为Sx2、后验残差期望差比值SH2/Sx2为C、小误差概率为P(P=(|H(0)k-H¯|0.674 5Sx2)),根据P与C的值将状态指标划分为4个区间:E1=(C≤0.35, P≥0.95) (9)E2=(0.35≤C≤0.5, 0.8≤P≤0.95) (10)E3=(0.5≤C≤0.65, 0.7≤P≤0.8) (11)E4=(C0.65, P0.7) (12)3.2.3MC算子将状态空间划分为nn∈[2,6]个。设残差序列为Z0k,计算其均值和均方差近似值,两个近似值做相加和相减运算,可划分区间。En=[Z¯+(-)ms, Z¯+(-)(m-1)s] (13)式中:n——划分的第几个区间;m——根据实际训练数据残差分布的最大、最小位置确定。若将序列划分为6个状态,则区间变化为:E1=[Z¯-3s, Z¯-2s] (14)E2=[Z¯-2s, Z¯-s] (15)E3=[Z¯-s, Z¯] (16)E4=[Z¯, Z¯+s] (17)E5=[Z¯+s, Z¯+2s] (18)E6=[Z¯+2s, Z¯+3s] (19)3.3马氏性检验残差序列具有“马氏性”是应用马尔可夫链进行残差预测的前提,正式预测前模型均需要进行马氏检验。以MC-Markov-Holt-Winters模型为例,将训练好的Holt-Winters模型生成的拟合值与实际值相减得到残差序列,再使用MC残差分类方法计算出频数矩阵fij、一步转移概率矩阵Pij为:(fij)6×6=02100100100002208410010021111711301000(Pij)6×6=023130015001023000252508234231230010190271713131371911911937017000下一步将转移频数矩阵的第j列之和除以所有转移频数之和得到边际概率,记为P●j,即:P●j=∑i=1mfij∑i=1m∑j=1mfij (20)计算各边际概率值,P●1=0.016 7,P●2=0.083 3,P●3=0.4,P●4=0.333 3,P●5=0.116 7,P●6=0.05。根据频数矩阵、一步转移矩阵和边际概率可以得到X2=2∑i=1m∑j=1mfij|lnPijP●j|。服从自由度为(m-1)2的X2(卡方)分布。给定显著性水平为α,查表得Xα2((m-1)2)的值,若X2Xα2((m-1)2),可认为序列具备“马氏性”,反之则未通过马氏检验。给定显著性水平α=0.005,查表得X0.0052(25)=46.93X2=49.8368,可以认定MC-Markov-holt-winters模型通过马氏检验,可进行后续预测工作。统计量X2如表3所示。所有经过训练后的模型进行马氏检验后的结果如表4所示。10.19301/j.cnki.zncs.2024.02.015.T003表3统计量X2状态fi1lnPi1P●1fi2lnPi2P●2fi3lnPi3P●3fi4lnPi4P●4fi5lnPi5P●5fi6lnPi6P●6合计合计2.995 78.009 55.665 52.159 64.847 21.240 949.836 8104.158 90.182 30004.341 22000.693 10.364 62.464 303.521 03000.833 80.340 51.586 90.139 82.901 04002.744 40.700 60.796 00.051 34.292 3502.464 31.029 60.753 901.049 85.297 662.995 71.386 30.182 30004.564 310.19301/j.cnki.zncs.2024.02.015.T004表4训练后模型的马氏检验结果模型残差划分Markov-SARIMAMarkov-新陈代谢GM(1,1)Markov-Holt-WintersMarkov-LSTM通过马氏检验标准DCX243.064 257.936 151.816 456.507 923.59MC(m)X2(6)30.449 5(6)37.763 6(6)49.857 1(7)43.116 4X∝2((m-1)2)SCX255.628 233.176 841.192 031.072 123.59表4中,所有DC与SC算子的m均为4,而MC的m为6和7。经计算,上表中各组合预测算法均可通过马氏检验。3.4组合模型残差预测3.4.1未来月份的残差状态概率计算首先计算各阶自相关系数及权重,先求得MC-Markov-Holt-Winters模型下的残差权重向量为ω=(0.178 6,0.157 4,0.229 2,0.072 9,0.153 8,0.208 0),再计算需要预测的2021年2月的残差状态概率。3.4.2残差状态概率下的修正后的数值预测计算2021年2月的残差预测概率分布在状态3处,将其转化为预测数值的修正结果,替换掉残差概率预测第6期的数据。继续以上操作将所有需要预测的月份数据全部计算结束。3.5未修正模型与经Markov修正模型的结果对比对比所有通过马氏检验的Markov修正DC/MC/SC划分的各数据预测算法与原预测算法对与2021年2月—2021年7月的预测结果,对比指标为RMSE与MAPE(%)。Markov-Holt-Winters模型2021年2月残差概率预测如表5所示。不同模型指标对比结果如表6所示。10.19301/j.cnki.zncs.2024.02.015.T005表5MC-Markov-Holt-Winters模型2021年2月残差概率预测日期状态滞时权重状态1状态2状态3状态4状态5状态6Pi(加权和)0.017 30.061 50.410 10.343 60.115 30.052 22020年8月660.208 00.017 40.061 70.411 30.343 10.114 20.052 32020年9月250.153 80.017 40.061 60.411 30.343 10.114 30.052 22020年10月440.072 90.017 30.061 90.411 30.343 10.114 20.052 32020年11月430.229 20.017 80.061 40.411 50.342 80.114 50.052 02020年12月320.157 40.017 20.062 70.410 00.344 30.112 70.053 12021年1月410.178 60.016 40.060 10.405 40.345 30.121 30.051 510.19301/j.cnki.zncs.2024.02.015.T006表6不同模型指标对比结果模型残差划分马氏检验MAPE/%RMSESARIMA——19.979 11.147 5Markov-SARIMADC通过21.542 61.112 2MC不通过——SC通过19.051 61.097 7新陈代谢GM(1,1)——38.656 21.192 4Markov-新陈代谢GM(1,1)DC通过28.115 31.105 8MC不通过——SC通过35.443 91.317 0Holt-Winters——17.511 30.959 9Markov-Holt-WintersDC通过15.710 90.853 3MC通过14.554 80.875 7SC通过23.845 60.908 4LSTM——27.474 21.078 6Markov-LSTMDC通过33.165 31.208 4MC不通过——SC通过27.864 01.184 5模型最优组合DC-Markov-Holt-Winters15.710 90.853 3注:“—”表示未进行。表6中,组合算法DC-Markov-Holt-Winter的RMSE为0.853 3,MAPE为0.157 109,相比原预测算法RMSE提高了11.11%,MAPE提高了10.28%,整体效果较好。4结语本文设计了一种最优化残差划分Markov修正组合模型,对湖州城市居民用水量进行预测,相较于单一算法,本文模型提高程度较大。结果显示,该方法可以较好地预测城市居民用电使用情况,辅助用电管理部门精准决策。该预测模型同样适用同等规模城市的居民生活用电数据处理。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览