土地利用分类是国土资源管理的基础和重要依据[1],利用多光谱遥感影像数据进行土地利用类型的智能解译工作获得了业界的广泛关注[2]。多光谱遥感包含可见光波段和红外波段,能够提供丰富的地物信息。我国现已积累海量的多光谱遥感影像数据[3]。目前基于深度学习的多光谱遥感智能解译技术已经取得了突破性进展[4]。深度学习方法被证明可以在多光谱遥感影像土地利用类型分类上起到良好的效果[5]。王卷乐等[6]提出的模型集成了多尺度学习和卷积神经网络,用于遥感影像的土地利用分类,提高了分类的精度。宋爽爽等[7]使用金字塔池化模块,整合全局上下文信息。目前,经典的深度学习网络(DeepLab、UNet等[8-9])最初是基于可见光波段的自然图像设计,直接应用在多光谱遥感影像土地利用分类任务上,存在波段信息利用不充分、波段关联性考虑不足等问题,导致网络性能下降。本文提出一种针对多光谱遥感影像的土地利用类型分类网络(MSNet),MSNet网络有可见光波段特征和红外波段特征两个分支,通过优化改进模型的编码、解码和融合阶段,使网络可以充分提取遥感影像波段特征及波段之间的关联性,为多光谱影像智能解译工作的开展提供新思路。1数据与方法1.1数据及预处理本文采用的数据集是大规模高分卫星土地覆盖用户图形界面(GID)数据集和Postdam土地覆盖数据集[10]。GID数据集源于高分2号卫星,空间分辨率为0.8 m,包含国内60多个不同城市场景,覆盖范围超过5 万km2,分类标准参照《土地利用现状分类》(GB/T 21010—2017)。其中,选择并计算6个通道作为模型的输入数据,分别为RGB 3个可见光波段、近红外(NIR)、植被归一化指数(NDVI)和归一化水指数(NDWI)。近红外波段NIR在可见光波段受到不同光照条件影响导致信息缺失时,获得有效信息;NDVI可以检测植被的生长状况和植被的覆盖度,在土地利用分类中起到消除部分辐射误差的作用。XNDVI=XNIR-XRXNIR+XR (1)式中:XNDVI——植被归一化指数;XNIR——近红外波段;XR——红波段。NDWI指数可以凸显影像中的水体信息,在土地利用分类中可以起到区分水体的作用。XNDWI=XG-XNIRXG+XNIR (2)式中:XNDWI——归一化水指数;XNIR——近红外波段;XG——绿波段。Postdam数据集主要场景为城市,用于本文模型的泛化性验证,遥感影像的空间分辨率为5 cm,土地利用分类划分参照《土地利用现状分类》(GB/T 21010—2017)。由于Postdam数据集中遥感影像未包含水,因此用数字表面模型(DSM)代替NDWI通道,能够很好地反映地表起伏信息。在数据预处理阶段,所有遥感影像被统一切分成512×512大小的影像,减少内存占用。1.2MSNet模型MSNet网络结构分为编码、解码和融合3个阶段。编码阶段用于捕获影像深层特征;解码阶段恢复影像的细节和空间维度;融合阶段将不同特征融合。本研究采用MSNet模型分别对两个分支进行编码、解码后和图像融合,得到最终分类结果。采用ResNet-50网络作为主干网络对影像信息进行编码。ResNet-50是一种残差网络,被广泛应用于影像处理领域。通过实验发现,在卷积层用大小为7×7,数量为64,步长为2,填充为3的卷积核对数据提取特征,效果更优、提取效率更高。通过批归一化操作(BN)加快收敛速率,Relu激活函数帮助网络学习非线性关系及通过最大池化层对特征图降维。Conv2_x、Conv3_x、Conv4_x、Conv5_x卷积层构成的卷积层集合,该卷积层集合为ResNet-50的主干部分。每层保留编码结果,得到e1、e2、e3和e4。编码阶段网络结构如图1所示。10.19301/j.cnki.zncs.2024.04.003.F001图1编码阶段网络结构为便于对数据进行解码操作,定义一个解码模块,输入通道数C1和输出通道数C2,依次进行批归一化、Relu函数激活及上采样恢复图像分辨率。在解码阶段中共有5层,在第1层中先将e5经过解码模块得到新的特征图d5;在后4层中,分别对解码输出的特征图与编码阶段保留的特征图按照维度1拼接,得到d1、d2、d3、d4解码结果。通过编码阶段的设计及优化,可以最大限度减少信息丢失。解码阶段网络结构如图2所示。10.19301/j.cnki.zncs.2024.04.003.F002图2解码阶段网络结构输入d1、d2、d3、d4特征图组成的列表,分别进行卷积操作得到f2、f3和f4,利用双线性插值法对特征图进行上采样,使通道数保持一致,将d1与f2相加得到P1,f2与f3相加得到P2,f3与f4相加得到P3,f4单独作为P4,共4张特征图输入影像融合模块得到最终结果。通过融合层多层特征融合,可以保留并融合多层次语义信息,提高图像融合的质量和效果。融合阶段网络结构如图3所示。10.19301/j.cnki.zncs.2024.04.003.F003图3融合阶段网络结构1.3评估指标使用精度、召回率、F1分数3种指标作为模型评估指标。精度用来评价模型预测为真且样本本身也为真的样例比例指标,精度Pre表达式:Pre=TpTp+Fp (3)式中:Tp——实际结果为真,预测结果为真;Fp——实际结果为假,预测结果为真。召回率用来评价分类为真的样本中预测结果正确样本数量比例指标,召回率Rec表达式:Rec=TpTp+Fn (4)式中:Fn——实际结果为真,预测结果为假。F1分数需要综合考虑精度和召回率:F1=2×Pre×RecPre+Rec (5)2实例研究数据裁剪后,共得到20 000张512×512的统一尺寸影像,实验将其中第1~18 000张影像作为训练集,将第18 001~20 000张影像作为测试集。2.1训练过程利用深度学习框架PyTorch读入数据并应用本文MSNet模型进行训练,在训练时使用英伟达公司推出的并行计算架构(CUDA)进行加速,CUDA可以调用显卡中的核心并行进行计算,提升神经网络的计算速度。在每次训练抓取的数据样本数量(Batch_size)为10、训练周期数(epochs)为50条件下,训练时间对比如表1所示。10.19301/j.cnki.zncs.2024.04.003.T001表1训练时间对比启用CUDA样本数量训练周期训练时间/h是10503.5否10506.1精度越高表示模型预测正确样本数量的比例越高,精度随着周期数的增加而增加,在周期数为80时达到0.80。召回率越高表示正例“找得越全”。通常精度增高会导致召回率降低,本研究中模型的分类结果越准确越好,不需要高的召回率,因此本文更关注提高样本分类的准确程度。精度变化如图4所示。召回率变化如图5所示。10.19301/j.cnki.zncs.2024.04.003.F004图4精度变化10.19301/j.cnki.zncs.2024.04.003.F005图5召回率变化2.2测试结果完成模型训练后,将测试集数据放入模型进行测试。在epoch=40、Batch_size=4条件下,模型欠拟合,存在区域划分错误且难以准确地划分出边界。在河流和道路等细长区域,完整地划分出细长的区域较难,会出现中间隔断和边界扭曲等问题;在epoch=200、Batch_size=10条件下,出现过拟合现象,测试结果中出现细碎错误分类的小斑块且连续土地利用范围中出现间断问题。经反复实验调整,在epoch=80、Batch_size=6条件下,模型表现最优。模型拟合效果具有显著提升,可以准确划分出不同的土地利用类型、曲折和光滑边界,在河流和道路等细长区域分类也具有较好的拟合效果,可以证实在一定范围加大训练周期数和训练批次大小,可以提升模型分类的准确度。计算测试集每景影像的精度、F1分数和召回率指标及平均值,得到精度为0.86,F1分数为0.89,召回率为0.80,3个指标均在(0.8,1)区间,证明模型分类效果较优。2.3MSNet模型与UNet模型对比UNet网络为编码器—解码器结构,UNet网络整体结构形状为“U”字形,在UNet网络的前半部分是特征提取模块,后半部分使用采样恢复影像的分辨率。将MSNet和UNet模型在epoch=80、Batch_size=6条件下用GID数据集进行训练,其中UNet输入为RGB 3个可见光波段,网络经过4次卷积和池化提取特征,经过4次卷积和上采样恢复大小得到UNet训练结果。epoch=80、Batch_size=6条件下测试结果如图6所示。MSNet和UNet的分类效果对比如图7所示。10.19301/j.cnki.zncs.2024.04.003.F006图6epoch=80、Batch_size=6条件下测试结果10.19301/j.cnki.zncs.2024.04.003.F007图7MSNet和UNet的分类效果对比MSNet平均精度0.86,UNet平均精度0.56,与UNet的效果相比,MSNet能够更好地实现影像中的多分类问题。在采取同样训练尺度的情况下,由于UNet网络结构简洁,训练所需要的时间少于模型MSNet,但MSNet能够在RGB波段信息提取的基础上充分利用不可见光波段信息,实现了灌溉水田、旱地、荒草地等易混淆土地类型的精细分类,充分展示出MSNet双分支网络结构及内部深层次网络结构设计的优势。UNet适合对结构较为简单和较小的影像进行分割,但遥感影像的不同土地利用类型复杂度高且不同土地利用类型之间的边界曲折复杂,使UNet在遥感影像土地利用分类上的效果较差。2.4MSNet模型泛化能力测试测试集计算平均精度为0.71,模型在Postdam数据集上分类效果较好,证明文本提出的MSNet模型有较好的泛化性,在不同的数据集上均能取得较为理想的效果。3结语本文设计一种多光谱遥感影像土地利用类型分类网络MSNet。与UNet相比,经典语义分割网络能够充分发掘利用多光谱遥感影像信息,发挥多光谱遥感影像在土地利用分类中的优势,使分类结果更准确。MSNet模型在epoch=80、Batch_size=6条件下,分类结果最优,精度、F1分数和召回率指标均在0.8以上;与经典模型UNet相比,MSNet取得了更优的分类效果;MSNet在其他数据集如Postdam中也有较好的分类结果,具有较强的泛化能力。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读