船舶黏压阻力和兴波阻力的和值或船舶总阻力减去摩擦阻力的差值称为剩余阻力,滑行艇由于速度快、与波浪作用相对复杂,对其预报相对复杂,而剩余阻力预报对滑行艇所需的推进功率、保证滑行艇的快速性能起着关键性作用,因此剩余阻力预测是滑行艇设计过程中重要一步.由于滑行艇阻力的影响因素众多,包括容积傅氏数、折角线长度与最大折角线宽度之比、艇重、舯剖面底部斜升角和重心纵向位置[1],且当滑行艇的滑行状态改变时,阻力成分及其影响程度也随之改变,因此滑行艇阻力的研究问题较为复杂,单靠理论方法准确地预报滑行艇阻力较为困难.滑行艇阻力预报常用的方法包括模型试验、数值模拟及近似估算法.文献[1]分析了滑行艇阻力预报常用的系列资料估算法,应用棱柱形滑行平板试验资料估算法、回归公式和理论计算.文献[2]根据美国系列62和荷兰系列62试验数据整理出Keuning系列62回归公式,但其应用范围有限,若超出范围则须要使用外插数据方法,容易引起较大误差.文献[3]利用STAR-CCM+软件中多面体网格较为准确预报滑行艇流场和阻力,证明STAR-CCM+能够为滑行艇阻力预报提供参考.在基于机器学习模型预报方面,文献[4]使用改进的BP神经网络,用建立滑行艇阻力数值图谱的方法来估算阻力,具有较好的工程精度,且计算耗时少.文献[5]建立多层感知机神经网络,以弗劳德数和船体几何系数为变量,对总阻力分量进行精确估计.文献[6]成功使用径向基函数神经网络建立滑行艇阻力数值图谱,具有预报时间短、精度高的优势.文献[7]提出一种基于模糊神经网络的剩余阻力预报模型,将其与基于Sugeno-Yasukawa模糊辨识、基本极限学习机和增量极限学习机等几种非常规模型进行比较,虽然几种非常规方法的结果都较好,但是基于极限学习机的神经网络结果最优.文献[8]提出了一种两层的Wang-Mendel模糊方法,提高了Wang-Mendel模型对预测滑行艇剩余阻力的逼近能力,具有更好的鲁棒性和准确性.文献[9]利用网格搜索法确定多层感知回归器的参数,成功使用人工神经网络预测剩余阻力值,但当剩余阻力较大时,预测精度稍差.随机森林(RF)算法是一种结合自举汇聚法和随机决策森林方法的集成算法[10],大量研究证明:RF具有较高的预测精度,对数据中存在异常值和噪声等不敏感,鲁棒性强[11].本研究采用RF算法,以浮心纵向位置和棱柱系数等船体几何特征量及弗劳德数共六变量作为输入量,建立单位排水量剩余阻力的预测模型.利用Box-Cox(BC)变换与主成分分析法(PCA)对数据特征处理,对比使用原始数据、BC变换后的数据、PCA降维后的数据以及BC变换与PCA结合(BC-PCA)处理后的数据这四种数据情况下模型预测的误差值,得到了最优的数据特征处理方式;并采用贝叶斯超频道优化(BOHB)算法寻求RF模型的最佳超参数组合,进一步降低模型的预测误差.1 数据获取与方法原理1.1 数据集本研究的快艇剩余阻力公开实验数据集由UCI机器学习库中获得[12].数据集共有308组数据,每组数据由7个参数组成,包括6个输入变量和1个输出变量,所有变量均为无因次变量.输入变量为浮心纵向位置LCB、棱柱系数Cp、长度排水量比L/Δ、宽度吃水比B/T、长宽比L/B和弗劳德数Fr,输出变量为单位排水量剩余阻力Rr.1.2 Box-Cox变换BC变换是一种基于极大似然法的幂转换模型[13].BC变换使得线性回归模型在满足线性、正态性、独立性及方差性的同时,不丢失信息[14],还可以减小不可观测的误差,改变特征变量间的相关性,因此可以在保存信息完整度的基础上,使数据集更趋近对称分布,有利于滑行艇剩余阻力预报模型的拟合.BC变换的一般形式为y(λ)=(yλ-1)/λ (λ≠0);ln y (λ=0),式中:y为原始连续因变量;λ为变换参数.在以上变换中,y默认为正值.若y为负值,则将所有原始变量加一个常数a,使(y+a)为正值,然后再进行BC变换.须要确定变换参数λ,使y(λ)的观测值向量y(λ)满足y(λ)=X×β+e;e~N(0, σ2I),式中:X为由自由变量构造的设计矩阵;β为回归参数向量;e为正态独立随机误差向量;σ2I为协方差矩阵.一般采用极大似然法确定λ,对固定的λ,β和σ2的似然函数为L(β,σ2)=(2πσ)-nexp[-(2σ2)-1(y(λ)-X×β)2]J ,式中J为变换的雅可比行列式,有J=∏i=1ndyi(λ)/dyi=∏i=1nyiλ-1,其中n为y的个数.1.3 主成分分析法在线性回归模型中,当变量之间存在多重共线性时,会使模型分析不稳定,导致预报失效.PCA通过将原始数据转变为原始数据的线性组合,在保留主要信息的基础上,使数据简化和降维,达到消除共线性的目的.具体的算法流程如下.步骤1 对所有数据样本进行中心化,即x(i)=x(i)-1m∑j=1mx(j).步骤2 计算样本的协方差矩阵XXT.步骤3 对XXT的特征值进行分解.步骤4 计算样本前m个主成分的累计贡献率,即ηm=∑j=1mξj/∑j=1pξj,式中:ξj为X的协方差矩阵特征值分量;p为计算样本的主成分数量.步骤5 利用步骤4的ηm确定主成分个数.1.4 随机森林算法文献[10]首次提出随机森林回归算法,通过集成学习的思想将多棵决策树集成为一种算法,输出为所有决策树的平均值.RF收敛速度快,预测精度较高[15],能够在一定程度上避免计算陷入过拟合,且对各种数据集的运算均适用.随机森林的算法流程如图1所示.10.13245/j.hust.211120.F001图1随机森林算法流程1.5 BOHB算法在机器学习中,在计算机开始学习之前,根据经验人为设置好的参数称为超参数,超参数决定了模型训练和预报的精度和效率.BOHB算法是一种超参数优化算法,将贝叶斯优化与基于超频道方法优势相结合,实现两者最佳的优化效果.BOHB算法用于优化RF超参数,具有很好的即时性和快速收敛性.BOHB的唯一限制是它要求对小预算子集的评价代表整个训练集的评价,否则BOHB的收敛速度可能比标准BO模型慢[16].BOHB算法的具体原理与流程可见文献[16].2 实验及结果分析2.1 数据处理在对输入数据进行BC或PCA处理之前,均须对数据进行归一化,本研究采用Min-Max归一化,即x'=x-min(x)max(x)-min(x),式中:x为原始数据;x'为归一化后的数据.对归一化后数据的输入变量进行多重共线性分析,如表1所示.当方差膨胀系数(VIF)大于10时,证明存在较强的多重共线性.归一化后的数据分别采用BC,PCA和BC-PCA方法,得到三组不同的数据.当利用PCA对输入数据进行处理时,保持95%的信息数据,处理后从6个特征维度降至5个.图2为BC变换后的数据分布图,图中:H为经过归一化和BC变换后数据大小;ρ为密度大小;黑色曲线为拟合标准正态分布曲线;蓝色曲线为高斯核密度曲线;柱状图为样本数据分布情况;柱状图面积表示样本数据分布的概率.由图2可以看出:BC变换使数据的分布近似对称分布,但输入数据并不满足正态分布.10.13245/j.hust.211120.T001表1变量的多重共线性分析LCBCpL/ΔB/TL/BFrVIF3.9365.73333.58524.29220.4243.52310.13245/j.hust.211120.F002图2BC变换后数据分布图2.2 随机森林单位排水量剩余阻力预测本研究中随机森林算法使用python软件的sklearn库实现.为避免原始数据对模型泛化能力及训练准确性的干扰,将数据随机划分为75%训练集和25%的测试集,并使用5折交叉验证对回归器性能度量.测试集的评估指标采用均方误差(MSE,εMSE)、均方根误差(RMSE,εRMSE)和S平方值(S2),分别定义为εMSE=1n∑i=1n(yi-y̑i)2;εRMSE=εMSE=1n∑i=1n(yi-y̑i)2;S2=1-∑i=0n-1(yi-ŷi)2/∑i=0n-1(yi-y¯i)2,式中:yi为样本测试集的真实值;ŷi为预测值;y¯i为测试集样本均值.分别将原始数据及2.1节中变换后的三组数据进行随机森林单位排水量剩余阻力预测.为避免随机性的影响,所有实验用不同的随机种子重复30次,对结果取平均值.结果如表2所示,可以看出:PCA-RF较RF误差明显降低,但BC-RF预测误差与RF预测误差相近;BC-PCA-RF预测值的MSE较RF降低24.09%,RMSE降低12.48%,S2提高0.067%.由此可见最佳的数据处理方法为BC-PCA-RF.10.13245/j.hust.211120.T002表2不同数据处理方法的预测结果评估指标RFPCA-RFBC-RFBC-PCA-RFMSERMSES20.487 30.694 40.997 10.381 60.619 20.997 70.487 30.697 80.997 10.369 90.607 70.997 82.3 基于BOHB的随机森林参数优化本研究对RF算法的6个超参数进行优化.RF中决策树的数目越多,算法性能越好,但同时会增加CPU计算时间.在寻优过程中要考虑时间和计算资源等因素,因此必须对决策树数目加以限制.决策树最大深度设置越大,决策树越复杂,越容易出现过拟合.内部节点再划分所需最小样本数默认最小设置为2.因为输入数据有5个变量,所以每次节点分割时的特征数量最多为5个.叶子节点越小则样本数越小,越容易捕捉训练数据中的噪声.RF回归模型的节点划分标准为均方误差和平均绝对误差(MAE,εMAE).综上考虑并参考文献[17],确定超参数的寻优范围,具体如表3所示.10.13245/j.hust.211120.T003表3随机森林算法的超参数及其搜索范围超参数参数类型搜索范围决策树数目决策树最大深度节点划分时最小样本数叶子节点节点分割的特征数节点划分标准离散型离散型离散型离散型离散型分类型[10,100][5,50][2.11][1,11][1,5][εMSE,εMAE]基于2.2节中计算所得的最佳处理数据方法,使用BC-PCA处理后的数据作为模型的输入数据.使用5折交叉验证对模型进行评估,测试集评价函数依然采用MSE,RMSE和S2.BOHB算法寻优得到当决策树数目为89、最大深度为30、内部节点再划分所需最小样本数为6、叶子节点为1、节点划分时的特征数量为4以及节点划分标准为MSE时,所得预测结果最优,即为最佳超参数组合,比较BOHB算法优化前后的RF模型预测结果,如表4所示.优化后滑行艇剩余阻力真实值(Rrtrue)与预测值(Rrpredict)的对比如图3所示,每一个数据点越靠近蓝色虚线代表预测效果越好.通过对比可知:使用BOHB算法进行参数优化后,MSE下降了25.95%,RMSE下降了13.88%,S2提高了0.06%.10.13245/j.hust.211120.T004表4参数优化前后实验结果对比算法MSERMSES2BC-PCA-RF0.369 870.607 710.997 78BOHB0.273 880.523 340.998 3610.13245/j.hust.211120.F003图3BOHB优化后的预测值与真实值对比将参数优化后的RF模型预测结果与文献[8-9]中使用相同数据集、不同算法获得的预测结果进行比较,可以得出:与Wang-Mendel模型相比,RMSE下降了92.69%;与基于模糊规则聚类的模糊性识别方法相比,RMSE下降了89.07%;与两层Wang-Mendel模型相比,RMSE下降低了81.21%,与人工神经网络相比,S2增加了0.51%.由此可见本研究提出BOHB-RF算法在预测滑行艇剩余阻力问题上具有更高的预测精度.3 结语本研究基于UCI公开数据库的滑行艇剩余阻力数据,采用BC变换与PCA对数据集进行处理,使用随机森林模型预测单位排水量剩余阻力,并利用BOHB算法对随机森林超参数进行优化.与输入原始数据或仅一种方法处理数据对比,利用BC-PCA对数据特征的处理后,测试集的预测结果具有显著的精度提升.对比BOHB算法优化超参数前后的实验结果表明:BOHB超参数优化方法在随机森林预测单位排水量剩余阻力问题上对预报精度的提高具有很好的效果.与计算流体动力学方法相比,数据建模方法快速性强,在使用上也体现了计算流体动力学数值结果的数据价值,因此采用随机森林算法,配套相应的特征工程和超参数优化方法,可应用于滑行艇剩余阻力的预报,具有精度高、效率高的优点.在本研究中,当以阻力为目标时,能够得到对应的船体几何特征量,可为滑行艇船型设计过程提供参照,也可为其他船型阻力预测提供参考.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览