网刊加载中。。。

引言随着传统化石能源的日益短缺和环境恶化，我国开始大力倡导发展节能减排技术，对燃煤电厂、钢铁冶炼厂等烟气污染物的排放要求也愈发严格[1-3]。针对烟气中的氮氧化物，目前国际上普遍采用选择性催化还原法（SCR）进行脱除以满足环保排放要求。在SCR脱硝系统中，催化剂的设计是关键和核心，其成本可占总投资费用的20%以上[4-6]。因此，合理地设计和控制催化剂体积对于确保NOx合规排放、维持系统稳定运行以及节约成本具有重要意义。针对SCR催化剂体积设计，传统方法一般基于数学模型公式进行计算。但由于影响催化剂体积设计的因素众多，使得公式较为复杂且适用性窄[7-9]。李鑫[10]等利用AVL BOOST软件实现了柴油机SCR催化剂尺寸优化设计，然而该软件是基于发动机而开发的一套模拟程序，不具有普适性。唐诗洁[11]等提出了基于遗传算法优化的BP神经网络的催化剂体积预测方法，其结果表明该方法预测精度高、误差小。然而，该研究主要集中于算法的优化改进，神经网络学习训练样本数量较少，不具有普遍性且没有对训练样本进行有效性验证。实际上，BP神经网络预测的准确性和适用性很大程度取决于训练样本的好坏。一方面，训练样本输入参数多、样本量大可以更好地构建模型特征，使得模型具有更高的精度和更广的适用范围；另一方面，众多输入参数之间可能存在逻辑关系，会造成输入信息的重复学习，降低了学习效率。考虑到数据检测、统计、传递等过程中存在的不可控因素，原始样本中往往存在一些不良数据，严重影响了神经网络预测的准确性。因此，为了保证神经网络的学习预测的精度和准确性，有必要对其学习训练样本进行有效性验证和优化。传统的神经网络输入参数优化方法主要有灰色关联度分析法[12]和平均影响值（MIV）算法[13]。灰色关联度主要考察因素与目标变量变化趋势的相关性，若因素与目标变量的变化趋势具有同步性，则该考察因素的关联度高；反之，则较低。因此，灰色关联度反映的是变量之间发展趋势的相似或相异程度。灰色关联度对数据要求低，计算工作量少，但由于需要确定各项指标的最优值，具有一定主观性。MIV法是通过对各项输入参数依次进行变动，通过神经网路预测输出指标的变动值，从而确定参数的重要性大小，被认为是评价变量相关性最好的指标之一[14-15]。因此，采用MIV算法对输入参数进行评价，以实现输入参数的优化。训练样本的有效性验证是指鉴别训练样本中是否包含不良数据。传统的不良数据辨识方法主要基于数据的残差分析，该方法对于具有强相关关系的不良数据，容易出现残差污染和残差淹没的情况，影响了不良数据的准确辨识[16]。近年来，随着机器学习和相关数学理论技术的发展，基于人工神经网络预测的不良数据辨识方法逐渐受到研究者们的重视[17-19]。周福举[20]等提出了一种基于BP神经网络预测辨识不良数据的方法，表明该方法可以有效辨别线路数据中的不良数据。然而该方法仅用于电力系统的相关数据的预测检验，且不良样本的检验只针对部分样本而不是全体样本。文中在此方法的基础上，提出了改进的BP神经网络不良数据辨识方法，并据此对SCR脱硝催化剂体积预测相关样本进行不良数据的辨识和剔除，从而实现训练样本的优化。综上，文中利用MIV算法进行输入参数优化结合BP神经网络预测辨识并剔除不良数据，从而优化样本并重新训练神经网络，由此构建更优的BP神经网络模型，实现SCR脱硝催化剂体积的准确设计预测。1神经网络模型介绍BP神经网络是一种基于机器学习的模拟人工神经网络算法。一般BP神经网络的学习过程主要可分为两个步骤，分别为正向传播从输入层到输出层进行误差计算，反向传播按输出层到输入层进行神经网络参数（权值和阈值）调整以减小误差。经过两个步骤的反复学习训练，获得最佳的网络参数，使输出误差最小化。BP神经网络具有强大的非线性拟合能力，理论上，只要网络具有足够的隐含层神经元，其可以建立任意非线性连续映射。通常BP神经网络模型的建立包括三个主要因素，分别为网络拓扑结构、激励函数和学习训练算法。网络拓扑结构主要任务为确定隐含层数以及输入层、隐含层和输出层对应的神经元节点数。其中，输入层和输出层节点数由训练样本决定。因此，网络拓扑结构主要任务为隐含层数量及其相应节点数的确定。一般而言，隐含层数量越多，网络的拟合能力越强；但同时使得网络更加复杂，训练难度增大，模型难以收敛，多数情况单隐含层就足够了，此时隐含层节点数是影响神经网络非线性拟合效果的关键因素。目前没有通用的隐含层节点数设置方法，一般采用如下经验公式确定：q=m+n+v (1)式中：q——隐含层节点数；m——输出层节点数；n——输入层节点数；v——常数，一般取1 v 10。激励函数的作用是为神经网络提供非线性化能力，使得网络可以逼近任意非线性函数。常用的激励函数有3种，分别为Sigmoid激励函数（又称Logistic函数）、Tanh（Hyperbolic Tangent）激励函数和线性激励函数，其表达式分别如下所示：Sigmoid函数：f(x)=11+e-x (2)Tanh函数：f(x)=ex-e-xex+e-x (3)线性函数：f(x)=x (4)学习训练算法主要是指优化神经网络参数的方法，从而使得神经网络输出值与实际值保持一致或误差最小。一般而言，BP神经网络采用梯度下降的方法计算神经网络参数，当网络输出值与实际值不等时，存在输出误差E，定义如下：E=12Y-O2=12∑k=1lyk-ok2 (5)式中：yk、ok——分别为样本输出的期望值和神经网络输出值。将上述误差展开至输入层，可得：E=12∑k=1lyk-g∑j=0mυjkf∑i=0nωijxi2 (6)由式（6）可以看出，网络输出误差是所有神经网络参数υjk、ωij的函数，因此调整神经网络参数可以控制输出误差E。显然，沿误差的梯度下降方向调整神经网络参数可使误差快速减小，即：Δυjk=-η∂E∂υjkΔωij=-η∂E∂ωij (7)式中：负号——梯度下降；η——学习率，一般定义为0~1之间的常数。2训练样本优化方法采取两种方法对训练样本进行优化，即采用MIV算法对输入参数进行筛选以降低模型复杂性，采用BP神经网络对不良样本进行辨识剔除以确保建模训练样本准确可靠。基于BP神经网络的不良数据辨识流程如图1所示。10.3969/j.issn.1004-7948.2021.02.007.F001图1不良样本辨识流程图首先获取原始样本，确定BP神经网络拓扑结构和模型参数，将原始样本随机分为训练样本和测试样本，其中训练样本占总量的95%，测试样本占总量的5%。利用训练样本进行神经网络学习，将训练好的神经网络用于测试样本的预测，计算预测值与实际值的相对误差；判断相对误差是否超过某限定值，若超过，则将此组预测样本添加至不良数据样本集，重复该过程至一定次数；然后统计不良数据样本集中每个不良数据样本出现的频次，筛选出在集合中出现次数超过一定值的样本确定为不良样本。3工程实例分析3.1BP神经网络模型建立选取229个SCR脱硝系统相关设计数据作为网络的训练样本和测试样本，摘取部分数据如表1所示。首先需要构建BP神经网络，为此取前10个参数作为网络输入参数，总体积为网络输出参数，采用单隐含层结构。隐含层激励函数采用Tanh函数，输出层采用线性激励函数，神经网络训练算法采用了适合中小型网络的Levenberg-Marquardt法，根据上述设置，计算了不同隐含层节点数下的网络输出误差（见图2）。对比可发现，当隐含层节点数为9时，平均输出误差最小，为15.46%，因此隐含层节点数取为9，网络拓扑结构为10-9-1。10.3969/j.issn.1004-7948.2021.02.007.T001表1部分训练样本序号机组容量/MW烟气量/（m³/h）入口NOx浓度/ （mg/m³）出口NOx浓度/（mg/m³）烟气温度/℃灰分浓度/（g/m³）设计脱硝效率/%SO2含量/（mg/m³）SO2转化率/%氨逃逸浓度/×10-6总体积/m313301 193 39360010038550846 90013126 4082200750 0003507036040801 400135 52033301 112 233500100350618014 15413104 88046602 186 5016509140653861 100013238 18853001 060 20070010039240865 60013109 2966200735 4696009034048853 2571370 1047200654 9316009037063855 0001362 3768200672 7756009034870856 0001364 30896002 280 0004506835042852 22213207 36010135529 73145010036750782 0861344 98811200790 0003505336156852281271 76012200745 5065003536580931 0101370 10413135534 80645010035050781 0001345 264146601 970 91180011040453878 41413234 600156001 920 9383506036336832 70713181 60816125505 712480144415687015001340 89617210750 0001 00016038040847181390 457183001 031 5164008033554804001386 400196001 900 6381 10014340042874 50013249 475203501 169 1501004038570604001358 51210.3969/j.issn.1004-7948.2021.02.007.F002图2不同隐含层节点数下的网络输出误差3.2MIV特征影响因素筛选为了便于观察比较，表2给出了输入参数的相对MIV（定义为输入参数的MIV值除以所有输入参数的MIV平均值）。从表2中可以看出，不同输入参数对催化剂体积影响差异很大，烟气量、入口NOx浓度和设计脱硝效率对催化剂体积影响较大；而SO2含量、氨逃逸浓度和灰分浓度对催化剂体积影响较小。以相对MIV值大于0.1作为影响催化剂体积的关键因素进行筛选，筛选后的输入参数分别为机组容量、烟气量、入口NOx浓度、出口NOx浓度、烟气温度、设计脱硝效率、SO2转化率和氨逃逸浓度等输入参数，筛选后的神经网络拓扑结构为9-9-1。优化输入参数后重新构建并训练神经网络，对训练好的神经网络进行测试，结果显示测试样本平均输出误差降至10.32%，表明了该方法的有效性。10.3969/j.issn.1004-7948.2021.02.007.T002表2输入参数的相对MIV影响因素机组容量/MW烟气量/（m³/h）入口NOx浓度/（mg/m³）出口NOx浓度/（mg/m³）烟气温度/℃灰分浓度/（g/m³）设计脱硝效率/%SO2含量/（mg/m³）SO2转化率/%氨逃逸浓度/×10-6相对MIV0.443.300.870.200.520.193.660.100.600.133.3不良样本辨识及剔除基于上述优化后的神经网络拓扑结构，重新构建BP神经网络模型。根据上述的不良数据辨识方法，参数设置分别为：每次构建BP神经网络的训练样本数为217组，测试样本数为12组，误差界限值设置为50%，重复次数设置为100次，判定不良样本的频次设置为3。通过该方法对文中的原始数据进行不良样本鉴别，结果表明原始数据包含3组不良样本。为了判断所鉴别出的不良样本是否准确，采用如下方法对不良样本进行检验：构建BP神经网络，从原始样本随机选取217组样本进行神经网络学习训练，从原始样本固定选取12组样本（至少包含一组不良样本）进行神经网络测试，计算神经网络预测的相对误差，重复执行该过程至少3次，其结果如图3所示。从图3可以明显看出，预测样本2（所辨识出的不良样本，即表1的样本2）3次测试的输出误差均超过1 000%，明显存在异常。10.3969/j.issn.1004-7948.2021.02.007.F003图3不良样本的BP神经网络预测此外，进一步对不良样本进行人工校验，如表1所示，样本2的输入参数与其他样本差异较小的情况下，样本2的催化剂总体积远小于其余样本的总体积，显然存在异常，这也证实了文中提出的不良数据鉴别方法的准确性。通过上述的方法检验，认为本方法辨识出的3组不良样本准确，剩余226组样本为正常样本。3.4SCR脱硝催化剂体积设计基于上述优化的原始样本，重新构建BP神经网络进行学习训练、测试预测和误差检验。神经网络参数设置如表3所示，随机选取214组数据作为训练样本，剩余12组样本作为预测样本；同时选取包含了不良样本的数据进行神经网络训练，用相同的预测样本进行预测作为对比，预测结果如图4所示。10.3969/j.issn.1004-7948.2021.02.007.T003表3BP神经网络参数设置参数隐含层激励函数输出层激励函数学习算法学习率最大迭代次数目标精度数值Tanh函数线性函数Levenberg-Marquardt0.052 0001×10-810.3969/j.issn.1004-7948.2021.02.007.F004图4优化样本的BP神经网络预测采用相对误差RE、平均相对误差RE¯、均方根误差σ以及真实值与预测值的相关系数平方R2作为评价指标，利用原始样本（即训练样本包含不良数据）训练获得的BP神经网络对相同样本进行预测作为对比，结果如表4所示。10.3969/j.issn.1004-7948.2021.02.007.T004表4BP神经网络预测结果指标预测样本序号相对误差RE/ %（对比）相对误差RE/ %（优化）平均相对误差RE¯ /%均方根误差σ/ %相关系数平方R2117.971.7911.07（对比）2.55（优化）14.27（对比）5.97（优化）0.944 7（对比）0.994 1（优化）29.230.7933.050.13413.270.6150.175.18625.6910.2573.000.1481.111.13911.461.87107.941.881129.640.841210.305.97RE=Yc-YdYd×100% (8)RE¯=∑i=1nRE/n (9)σ=1n×∑i=1nRE2 (10)R2=∑i=1nYc-Y¯c×Yd-Y¯d2∑i=1nYc-Y¯c2×∑i=1nYd-Y¯d2 (11)式中：Yc——总体积真实值；Yd——总体积预测值；n——预测样本数；Y¯c——真实体积平均值；Y¯d——预测体积平均值。由图4可知，催化剂的体积在相当大的范围变动时（约为5万～30万 m3），基于优化样本训练构建的神经网络，均能较好地预测催化剂的体积。由表4可知，采用优化后的样本训练获得的BP神经网络预测误差大幅度下降，各项指标全面优化且可满足设计要求，证明了该方法用于SCR脱硝催化剂体积设计的可行性。当确定机组容量、烟气量、入口NOx浓度、出口NOx浓度、烟气温度、设计脱硝效率、SO2转化率和氨逃逸浓度设计值，输入本神经网络，即可获得相应需要的SCR脱硝催化剂的体积。4结语提出了一种基于训练样本优化的BP神经网络预测设计SCR脱硝催化剂体积的方法。实验结果表明，针对SCR脱硝催化剂体积设计涉及参数多，构建BP神经网络复杂、计算量大，采用MIV对神经网络输入参数进行特征筛选可以降低网络复杂性，使得神经网络平均预测误差从15.46%降至10.32%。通过反复地BP神经网络建模和原始样本随机预测，可以有效辨识原始样本中的不良样本，利用优化后的样本训练构建的BP神经网络，可使神经网络平均相对误差大幅度下降至2.55%，均方根误差和相关系数全面优化，该方法可用于SCR脱硝催化剂体积的预测和设计。