网刊加载中。。。

目前，我国的地铁建设得到了快速发展．地铁车站多采用明挖法施工，基坑变形控制不当造成的事故时有发生．深基坑工程具有较多的不确定性[1]，目前常用的基坑评估方法(室内试验、现场监测、理论分析和数值计算)能够通过数据分析指导基坑施工，但因人为操作和技术限制等因素，难以深入地挖掘数据信息，不利于基坑的稳定性评估．在传统的基坑变形分析中，文献[2]研究了各类地层中基坑中墙体侧移的最大值(δm)与基坑开挖深度(He)的关系，随后文献[3]分析台北软黏土基坑地连墙的侧移规律，文献[4]统计分析了苏州地区采用不同挡土结构和不同形状的深基坑变形，提出苏州地区地铁车站基坑δm的变化范围为(0.05%～0.40%)He．传统的基坑数据分析给出了δm的规律，但δm的变化范围较大，很难在基坑设计施工中给出较准确的预测．随着计算机技术的进一步推广，机器学习(machine learning，ML)因处理数据的多样性、高速性及优越的预测能力，已被广泛用于岩土工程领域[5]．文献[6]采用人工神经网络方法(artificial neural network，ANN)预测了黏土开挖引起的连续墙变形．文献[7]采用基于决策数的逻辑回归算法(logistic regression，LR)对支护系统进行优化设计．文献[8]基于遗传神经网络(genetic algorithm back propagation neural network，GA-BPNN)建立了深基坑支护位移反分析模型，改进BPNN依赖梯度信息的指导来调整网络权值的方法．文献[9]开发了一个简单的多项式回归(polynomial regression，PR)模型来估算地连墙最大挠度，这种方法计算出的墙体挠度优于许多现场和公开的记录．文献[10]采用一种基于多元自适应回归样条模型(multivariate adaptive regression splines，MARS)估计基坑开挖引起的地连墙最大变形包络线．当下对基坑地连墙的变形预测主要是针对单个或选用不同的算法进行对比分析，并且选取的输入变量主要集中在基坑的尺寸和开挖深度，而忽略了基坑的施工方法和支护等参数的影响．以苏州轨道交通建设工程为背景，收集整理了沿线的70个地铁基坑施工数据，采用相关性分析，研究了基坑的8个关键输入参数与地连墙变形间的相关性．对比分析BPNN，KNN和支持向量机(SVM)的地连墙变形预测性能．最后，结合Spearman系数对选出的算法进一步优化，并建立苏州地区地铁深基坑地连墙变形的预测模型．研究结果可为苏州地铁基坑的地连墙变形预测提供参考．1 机器学习算法原理1.1　SVMSVM作为监督学习的一个有效计算工具[11]，被广泛应用到分类、模式识别与回归问题．该算法在处理高维线性不可分数据集中具有极大优势．常用核函数有线性基函数、径向基函数(RBF)、多项式基函数．其优化问题表示为min:|ω|2/2；(1)∑i=1Mωiφi(x)+b-yi2≤ε，(2)式中：φi(x)为核函数；ωi为权重；b为阈值．核函数代替了高维特征空间中的内积运算，降低了计算的维数复杂度．这里使用径向基核函数φ(xi,x)=exp-x-xi/(2δ2)，(3)式中δ为高斯核函数的宽度参数．1.2　BP神经网络BPNN一般由输入层、隐藏层和输出层构成，输入层的神经元只具有接收和传递输入信号的功能，隐藏层和输出层由具有激活函数的神经元组成．正向传播让信息从输入层进入网络，依次经过每一层的计算，得到最终输出层结果的过程，采用sigmoid激励函数，实现输入参数的非线性关系．反向传播的信息是误差，也就是输出层的结果与真实结果之间的差距，这里采用均方差作为损失函数．反向传播的目的，就是不断地调整权重、阈值来使网络计算的结果尽可能接近真实结果．隐藏层和输出层中神经元的数学关系表示为bh=f∑i=1dvi,hxi+γh；(4)yj=f∑h=1qwh,jbh+θj，(5)式中：xi为输入值；bh为隐藏层的输出值；yj为输出层的输出值；f为激活函数；vi,h和wh,j分别为隐藏层和输出层的权值；γ和θ分别为隐藏层和输出层的阈值．1.3　K近邻法文献[12]指出KNN由于其简单性、易用性和可实现性，被认为是ML领域的十大算法之一．在KNN回归中，样本集中每个数据都存在属性值，输入没有属性值的新数据后，算法将新数据的每个特征与样本集中数据对应的特征进行比较，然后提取样本最相似K个数据(最近邻对象)的属性值．算法根据前K个最相似(距离最近)的数据，取这K个最相似数据属性值的均值，作为新数据的属性值．KNN算法常采用欧式距(欧几里得度量)对样本点与新数据点之间的距离进行度量，它定义于欧几里得空间中，如新数据点x0=(x0,1,x0,2,…,x0,j,…,x0,n)和样本集中xi=(xi,1,xi,2,…,xi,j,…,xi,n)间的距离为d(x0,xi)=∑j=1n(xi,j-x0,j)21/2，(6)式中：d(x0，xi)为第i样本点与新数据点间欧式距；xi，j和x0，j分别为第i样本点和新样本点的第j属性值．1.4　融合斯皮尔曼相关系数的KNN算法斯皮尔曼(Spearman)相关系数用以确定多源数据，如两个随机变量X和Y秩次分别为[x1，x2，…，xN]和[y1，y2，…，yN]之间的相关性，各参数间的相关系数为rS=∑i=1N(Ri-R¯)(Si-S¯)∑i=1N(Ri-R¯)2∑i=1N(Si-S¯)21/2=1-6∑di2N(N2-1)，(7)式中：Ri和Si分别为xj和yj第i行观测值的等级；R¯和S¯分别为变量xj和yj的平均等级；N为观测值的总数量；di=Ri-Si表示两列成对变形量等级差．采用Spearman系数对KNN算法中欧式距离进行修正，即采用两点之间各参数之间的rs作为其距离的权值，Spearman系数修正后的欧氏距离为：d̂(x0,xi)=(xi,j-x0,j)2rs21/2．(8)图1给出了本文ML算法优选及优化的流程图，包括输入参数和相应变量相关性分析，数据集划分，交叉验证、ML算法优选、算法优化等，图中Ei (i=1，2，…，5)为误差．10.13245/j.hust.210918.F001图1地连墙水平位移预测流程图2 地铁深基坑数据整理与分析2.1　基坑设计参数统计分析苏州地处长三角南缘的冲、湖积平原，绝大部分为第四纪松散的沉积土，主要土层为粉质黏土夹粉土、粉质黏土、粉土等．本研究搜集整理了苏州轨道交通沿线70个采用地连墙围护结构的地铁基坑，并选用每个基坑标准段中部断面的监测数据(见图2)，L为基坑长，B为基坑宽，t为连续墙厚度，Ld为地连墙深，He为基坑开挖深度，h为支撑竖向总间距，havg=h/(n-1)为支撑竖向间距平均值，是基坑的支撑系统刚度((4EI/γw)havg4)的重要参数，δm为地连墙水平位移最大值．10.13245/j.hust.210918.F002图2基坑参数由于基坑数据均在苏州城区，其岩土参数变化区间较小，因此输入参数不考虑地层，仅选取8个关键设计施工参数：长宽比(L/B)，He，宽深比(B/He)，地连墙的插入比(R=(Ld-He)/He)，havg，n，t与施工方法(M：取值0为盖挖逆作法，0.5为盖挖顺做法，1为明挖顺做法)．1个输出参数δm．为了进一步分析输入和输出变量之间的相关性，采用式(7)计算得到各参数之间的相关系数， rs≤0.5相关性(差)，0.5rs0.75相关性(中)，0.75 rs0.9相关性(好)，rs0.90相关性(优)．由图3可知：大多数输入参数之间的相关性较差(rs0.5)，保证了输入参数的独立性；个别参数之间如He越深，n越多，t越大，以上输入参数的相关性系数分别为0.82，0.74，表现出较好的正相关性；n与t较强的正相关性，相关性系数为0.69；另外He与L/B，B/He的相关系数分别为-0.41和-0.61，表现出较强的负相关性，可见在基坑设计中He是基坑整体设计的重要依据．8个输入参数中与输出参数δm之间相关性强弱：ML/BB/HehavgHetRn；其中极弱是t，n，R，He，相关性较强的是L/B，B/He，havg，M．故仅从He这一因变量来分析地连墙变形，会存在较大的误差，采用多输入参数预测地连墙变形可提高预测的精度．10.13245/j.hust.210918.F003图3Spearman相关系数热力图2.2　数据划分采用试错法[13](trial-and-error method)确定训练集和测试集的百分比大小，将训练集大小由30%提高到90%，记录预测性能．经过试错分析，确定训练集和测试集的最佳集中度分别为80%和20%(见图1)，因此将70组数据划分为训练数据为56组，测试数据14组，测试集与训练集应该互斥，并且训练集和测试集应具有类似的统计特征．通过检查输入和输出变量的重要统计信息，包括平均值、标准差、最小值、最大值、中位数．训练集和测试集的统计数据总体上是一致的(见表1，其中M取值为非连续数值，故不作统计)，可以认为两子集表示相同的总体．10.13245/j.hust.210918.T001表1输入和输出参数统计表数据集统计L/BHe/mB/HeRhavg/mnt/mδm/mm训练集最大值25.7930.502.531.194.138.001.8087.00最小值1.1615.000.430.612.553.000.6012.29平均值7.0519.361.060.893.324.890.8729.06中位数5.3618.201.020.843.305.000.8025.50方差6.263.530.360.120.301.010.1614.18测试集最大值23.6224.501.331.193.746.001.2065.00最小值1.6216.200.600.752.784.000.8015.00平均值8.0018.811.070.893.264.790.8631.16中位数9.7117.201.170.833.304.500.8031.50方差6.042.960.240.130.270.860.1213.642.3　k折交叉验证及参数调优为了真实地反映模型的泛化性，常采用k折交叉验证(k-fold CV，k-fold cross validation)进行模型的评估[5,13]．将数据集D(训练集)随机分为k互斥的子集，即D=D1⋃D2⋃⋯⋃Di⋃⋯⋃Dk ．每个子集Di都尽可能保持数据分布的一致性，即通过D的分层抽样，然后每次使用k-1子集的并集作为训练集，其余子集作为验证集，进行k次训练和验证，取每次误差Ei的平均值Eavg为模型在数据集D上的整体性能指标，采用5折交叉验证[5]对模型进行验证．不同数据的量级存在较大差异，故将数据进行规范化处理，将数据集的值更改为统一尺度．采用Sklearn中preprocessing的MinMaxScaler对数据进行标准化处理．基于python3.7.6编制，按图1流程图，各ML算法调优后的超参：KNN，最近邻数(K)为5个；BPNN，隐藏层为1层，隐藏层神经元数量为15；SVM，正则化参数(C)为10，回归精度(epsilon)为0.1，内核类型为RBF．2.4　预测精度评价指标对于预测值ŷ与真实值yi之间误差，常用评价指标[5]有均方根误差(αRMSE)、平均绝对误差(αMAE)，此外还常采用确定系数(R2)来评估回归分析的拟合度．各评价指标如下：αRMSE=1n∑i=1n(yi-yî)21/2；(9)αMAE=1n∑i=1n|yi-yî|；(10)R2=1-∑i=1n(yi-yî)2/∑i=1n(yi-yi¯)2．(11)3 案例应用与分析根据流程图1，将搜集的基坑数据归一化处理后，选取对应8个关键参数作为模型输入．采用SVM，KNN，BPNN进行地连墙的δm预测，并对每个模型进行评价，选出其中最优的模型，并用Spearman系数对该预测模型提升．3.1　模型对比分析图4以及表2分别为KNN，SVM，BPNN算法在训练集与测试集上对δm进行预测的结果，图中横、纵坐标分别为δm的实测结果与预测结果，蓝色实线表示实测值等于预测值，红色虚线表示±20%误差线．10.13245/j.hust.210918.F004图43种算法回归图比较10.13245/j.hust.210918.T002表2模型评价数据集算法R2αRMSE/mmαMAE/mm训练集BPNN0.8834.8753.255KNN0.8984.5603.363SVM0.8166.1174.375测试集BPNN0.7167.2706.407KNN0.7377.0016.188SVM0.6937.5545.968由图4可知：KNN，SVM，BPNN预测的δm主要集中在15~50 mm，除了一部分预测值外，大部分数据都在目标值±20%内；各算法在训练集比测试集上表现好，且KNN性能优于两者．如表2所示，分别对KNN，SVM，BPNN算法预测δm的各性能指标进行计算．从表2可看出所有算法在各数据集的各项性能指标不尽相同：训练集上，KNN(R2=0.898)，BPNN(R2=0.883)，SVM(R2=0.816)；测试集上，KNN(R2=0.737)，BPNN(R2=0.716)，SVM(R2=0.693)，综合考虑KNN算法的表现优于SVM和BPNN算法，KNN模型的总性能最高．随后将进一步详细地对KNN模型进行优化．3.2　KNN算法的优化与分析KNN为地连墙变形预测的最佳模型．分别采用传统分析的参数He与R作为单输入参数进行δm预测，采用图3选取强相关的参数(M，L/B，B/He，havg)进行δm预测，KNN的超参(K)取值3，5，7[14]．选用剩下的14组数据研究输入参数与K对KNN预测性能的影响．由表3可知：相同K的情况下单输入参数He与R对δm的预测精度较低(R2＜0.5)，强相关输入参数对δm的预测精度最高；强相关输入参数模型在不同的K下的预测精度各异，其中K=5时预测精度达0.771，高于全参数(M，L/B，B/He，havg，He，t，R，n)输入模型的0.737．可见基坑工程属于一个复杂的系统工程，采用单因素去分析其地连墙变形较难得到满意结果，且采用过多的参数，其预测精度也并非最优，剔除掉相关性极弱的参数，可适当地提高预测精度．10.13245/j.hust.210918.T003表3超参K与输入参数对KNN算法的确定系数R2的影响K单参数KNN强相关参数KNN全参数KNNHeR30.3420.2450.7290.71150.3770.3020.7710.73770.4010.2820.7520.725为了进一步优化计算模型精度，在强相关参数KNN模型基础上，采用Spearman相关系数按式(8)对KNN进行优化，并与优化前的KNN及文献[4]传统的统计分析提出苏州地区地铁车站基坑δm变化范围(0.05%～0.40%)He，平均值为0.20%He计算结果进行比较，如图5所示．10.13245/j.hust.210918.F005图5地连墙水平位移的监测值与预测值比较由图5(a)可知：除了一些极大或极小数据外，两种ML算法大部分的预测性能都很好，远优于文献[4]δm=0.20%He的结果，可见基于传统数据统计的结果在应用到具体个例中存在较大偏差．Spearman-KNN比KNN性能提升明显．由图5(b)知：采用Spearman-KNN算法的R2为0.798，优于KNN算法的0.771，优于上节全参KNN的0.737，分别提高了3.5%和8.3%，Spearman-KNN模型具有更高的预测性能，大部分预测点误差在20%以内．4 结论a．通过相关性分析，8个关键参数与δm相关系强弱：ML/BB/HehavgHetRn；对比三种机器学习算法在本工程中适用性，发现KNN在基坑地连墙变形预测方面具有较高的性能．b．基坑工程是一个复杂系统，KNN算法采用单输入参数进行地连墙变形预测，性能表现极差；多参数输入分析时，采用过多的参数，其预测精度也并非最优，剔除掉与δm相关性极弱的参数后的强相关参数KNN模型，表现优于传统的KNN算法．c．采用Spearman相关系数优化强相关参数KNN模型，得到Spearman-KNN地连墙变形的预测模型，比KNN算法提升了8.3%，误差在20%以内．