广州以河长制为“统领”,深入开展清四乱和源头控污工作,全市水环境治理水平及治理成效实现了根本性提升,完成了对原有黑臭河湖的治理。然而河道水安全和水环境依然较为脆弱,各类问题有反弹风险,治水成效难以巩固,河湖水质存在返黑返臭风险。随着广州河长制工作的不断深入,以信息化为主要手段的河长管理机制不断更新迭代,并积累了大量数据[1-3]。但现有的广州河长信息管理系统主要功能是收集整理和发布河湖管理方面的基本信息,缺乏对数据的深入分析与挖掘,并没有结合实际需求进行模型的开发,例如如何进行水质预警、如何根据预报结果进行针对性治理等[4]。利用数据资源指导实际工作是河长制信息化推进的主要方向。鉴于此,文章利用广州河长管理信息系统中的数据(下称“系统数据”),通过对数据进行深入挖掘与分析,基于擅长挖掘数据纵深的LightGBM(light gradient boosting machine)算法建立水质预测模型。通过建模型预测水质等级,并据此分析河湖水质变化趋势及系统数据的重要程度,从而提高河长对河湖事件的预测能力以及河湖管理的执行能力,全面促进河长制实施。1模型目标及算法选择模型中,采取广州河长管理信息系统数据(河涌问题数据、河长行为数据等)、河涌上月水质数据作为特征数据,河涌本月水质数据作为标签数据,通过多分类机器学习算法深入挖掘特征数据与标签数据之间的映射关系,得到一个可以根据上月特征数据预测当月水质的机器学习模型,即LightGBM的水质预测模型。通过内业模型输出结果指导外业对于水质较差以及有变差趋势的河涌,并执行定向巡查,通过多分类机器学习算法实现水质预测的目标。2基于LightBGM的水质预测模型构建模型构建环节包括数据整合、样本划分、数据预处理、特征工程、模型训练及参数优化、模型结果分析评价、变量重要性评分及内外业融合分析。2.1数据整合根据广州河长管理信息系统中的不同数据源,将不同来源的数据整合成一张建模宽表。由于每条河涌对应多个河长,故河涌对应的河长行为数据采用均值平滑方法处理,即采用多个河长的行为数据均值作为特征数据。2.2样本划分考虑到样本数据比较有限,为了保证模型能够充分地训练,需要扩大训练集的占比,所以采取9∶1的比例将1 771条样本数据划分成训练集及测试集,其中训练集1 593条,测试集178条。2.3数据预处理鉴于设备故障、网络通信等不可控因素的影响,原始数据中可能存在脏数据、缺失数据等情况。因此,首先对原始数据进行预处理。预处理工作主要包括数据清洗、特征分类、缺失值处理、异常值检测等,包括数据清晰、特征分类、数据缺失值处理、数据异常值处理。2.4特征工程特征工程是指将预处理后的数据进行加工,转变为模型所需要的特征数据,同时将原有特征通过计算、组合等方式转换为新的特征[5-9]。研究中,对于河涌问题数据进行了纵向(多级河长)与横向(同级河长上报的不同问题)的特征工程处理,共得到31个特征数据。2.5模型训练及参数优化将上月特征数据作为输入,当月水质等级预测作为输出,构建基于LightGBM的水质预测模型。采用LightGBM算法在训练集中训练模型,并通过模型在验证集上的表现进行算法参数优化。初步训练时,设置参数如下:决策树的数量设置为200,树最大深度设置为3,其他参数均使用默认参数。初步训练的准确率为48.31%,参数优化效果以此基准模型作为参考。LightGBM模型参数较多,研究选取LightGBM最重要的7个参数进行算法优化,以准确率为评价指标通过网格搜索法选取最优参数。优化的结果如图1所示,评价指标均为测试集上的准确率。图1LightGBM模型参数调优结果10.19301/j.cnki.zncs.2022.11.028.F1a1(a)决策树的数量对准确率的影响10.19301/j.cnki.zncs.2022.11.028.F1a2(b)浮点数对准确率的影响10.19301/j.cnki.zncs.2022.11.028.F1a3(c)树最大深度对准确率的影响10.19301/j.cnki.zncs.2022.11.028.F1a4(d)最少样本数量对准确率的影响10.19301/j.cnki.zncs.2022.11.028.F1a5(e)学习速率对准确率的影响10.19301/j.cnki.zncs.2022.11.028.F1a6(f)正则化系数对准确率的影响由图1可知,将决策树的数量初始值设为20,准确率为0.48,当决策树的数量取50时,准确率变为0.51,继续增大决策树的数量到100、200、300、400、500、600,准确率呈现下降趋势。将浮点数设定为0.6~1.0的调整范围,当浮点数取值为0.7、0.8、0.9时,准确率趋于稳定。当树最大深度取值小于4时,准确率上升,当取值大于4时,准确率呈上下波动变化,但均小于取值为4的准确率。最小样本数量在4种取值下(10、30、50和100)的准确率分别为0.51、0.52、0.47和0.47。将正则化系数设定为0~3.0的调整范围,随着参数增大,模型预测效果反而变差,调参后最优解仍保持为0。选择两种正则化系数进行调参,正则化系数1.0与正则化系数2.0参数取值范围相同,调参后最优解为1。对于学习速率,0.1为最佳取值。由以上分析可知,参数决策树的数量、浮点数、树最大深度、最小样本数量、正则化系数1、正则化系数2.0、学习速率的最优取值分别为50.0、0.9、4.0、30.0、0、1.0、0.1。特征选择结果如表1所示。10.19301/j.cnki.zncs.2022.11.028.T001表1特征选择结果序号原始特征分值特征得分模型得分是否选择1水质259.4000.45是2黑臭河湖巡河率45.8200.33是3责任黑臭河湖数量37.3300.33是4黑臭河湖覆盖率34.9100.32是5责任一般河湖数量23.2100.31是6所有问题18.9300.30是7问题办结情况18.1300.30是8河长上报问题14.1100.29是9村级_问题办结情况12.8000.29是10镇级_问题办结情况12.4200.29是11一般河湖巡河率12.1400.30是12村级问题汇总11.9500.29是13市级问题汇总10.0000.30是14工业废水排放8.9500.29是15市巡查发现问题数8.3400.29是16连续打卡式巡河的次数7.8100.29是17问题上报率7.8100.28是18排水口6.8400.28是19镇级问题汇总6.1000.28是20垃圾黑点3.490.010.28否21生活垃圾3.350.020.27否22建筑废弃物2.350.040.27否23四个查清开展次数2.110.060.27否24工程维护1.980.080.27否25网格内违建1.620.150.27否26连续夜间巡河次数1.060.380.27否27堆场码头0.960.440.27否28市民投诉问题0.770.570.27否29散乱污0.720.610.27否30农家乐0.610.690.27否31养殖污染0.200.960.27否32问题反弹数2.380.790.27是2.6模型结果分析评价研究采用“准确率”为评价指标。将上述寻优的参数代入模型,输出预测结果。通过混淆矩阵可以得出,Ⅱ类、Ⅵ类(劣五类)水质的河涌预测比较准确,Ⅱ类、Ⅲ类水质容易相互混淆。总体准确率为53.37%。除了准确率之外,还可以通过针对某一类别的查准率、查全率分析模型的分类结果。对于重点关注的Ⅴ类、Ⅵ类(劣五类)水质,计算其查准率、查全率。Ⅴ类查准率为40%,Ⅴ类查全率为11.76%,Ⅵ类查准率为63.16%,Ⅵ类查全率为68.57%。因此,5类水质河涌的查准及查全表现较低,尤其是查全率,原因在于训练样本中Ⅴ类水质河涌的样本数过少,模型无法学习到相应特征。虽然Ⅴ类水质的模型效果并不理想,但Ⅵ类水质的查准和查全比较理想,查全率达到68.57%,Ⅵ类水质的模型效果对于河涌黑臭预警、水质恶化预警有重要意义。2.7特征重要性分析研究中采用Gini Importance方法得到重要性评估结果如图2所示。10.19301/j.cnki.zncs.2022.11.028.F002图2变量重要性评价结果由图2可知,责任一般河湖数量、上月水质、连续打卡式巡河的次数是影响水质的3个重要特征。责任一般河湖数量是指河涌对应河长所管辖的一般河湖数量,反映出河涌管理者的精力分散程度,由此结果可以推测,河涌管理者的精力分散程度对水质有较大影响,此结论对于河长的人手分配、河涌分配具有指导意义。连续打卡式巡河次数反映出河长巡河行为对水质的影响,此结论对河长管理、培训、督导具有指导意义。另外,特征重要性分析结果表明,所有问题、问题上报率、一般河湖巡河率等特征对河涌水质也会产生较大影响。此外,可以发现在众多河涌问题中,工业废水排放是影响水质的最大问题。3模型验证及模型应用3.1模型验证为了进一步验证模型效果,采用后一个月具有水质数据的河涌共计422条作为验证样本,将河涌的前一个月特征数据输入训练好的模型中,输出各河涌后一个月水质预测数据,根据输出的预测结果与实际结果进行比对,对模型进行验证。验证结果显示其总体准确率为53.10%,基本不变。对于重点关注的Ⅴ类、Ⅵ类(劣五类)水质,计算其查准率、查全率分别为:Ⅴ类查准率为40%、Ⅴ类查全率为18.60%、Ⅵ类查准率为63.63%、Ⅵ类查全率为67.96%。与测试集的模型效果相比,总体准确率略有下降,但Ⅴ类查全率有明显提升、Ⅵ类查准率略微提升,Ⅵ类查全率略微下降,模型错分样本大部分集中在Ⅱ、Ⅲ、Ⅳ类水质。总体来说,模型效果与测试集上相当,说明模型比较稳定、泛化能力强,具有应用价值。3.2模型应用根据LightGBM水质预测多分类模型输出结果,可以构建两个重点河涌库,其一是Ⅵ类(劣Ⅴ类)水质河涌库;其二是水质恶化河涌库,根据预测的水质等级与河涌上月水质等级做对比,等级衰退两个以上的河涌应被列为“有水质恶化倾向”的河涌。在实际工作过程中,根据模型分析结果,分别对南沙区、荔湾区相关河涌进行现场调研反馈,从现场调研情况看,其河涌存在的问题能够反映出河涌存在一定的黑臭风险。从而得出,基于LightGBM水质预测模型能有效指导外业定向巡查、定向督导河长,防患于未然,对于重点河涌进行提前干预,提前发现问题,防止河涌水质恶化以及反黑反臭。4结语以广州河长管理信息系统中2020年3月—11月的样本数据为例,基于LightGBM的水质预测模型输出结果,在训练集和测试集上,准确率都超过了53%,重点类别河涌Ⅵ类(劣Ⅴ类)的查准率达到63%以上、查全率达到68%以上,模型整体预测效果较好,具有应用价值。同时将水质等级预测与重要性评估的内业工作成果相结合,针对性地对水质有变差趋势的河涌及疑似劣Ⅴ类河涌开展外业专项巡查工作,找出重大污染源的来源以及分析河涌流域污染源的分布、特性。通过内业数据挖掘,并结合外业专项的巡查,能够弥补内业发现问题的局限性,在有限的资源利用背景下,达到最优化分配,减少资源浪费,提升督导巡查效率和准确性,实现了对河长的定向督导,进一步压实河长履职责任,提升履职水平。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览