近年来,遥感图像广泛应用于损伤评估[1]、海洋监测[2]、农用地检测[3]等领域.遥感图像呈现信息量大、多源等特点,人工解译成本较高,如何实现自动精确地提取遥感图像地物是遥感领域一个巨大挑战.深度学习方法可实现对遥感地物的自动提取而被广泛应用,但在实际应用场景时受限于大量遥感数据集的制作,因此在有限标签数据中提高识别精度是遥感图像识别领域的重要研究方向[4].目前,提取遥感图像地物的常用深度学习方法为目标检测和语义分割.目标检测方法常用方法有Faster-RCNN[5]、SSD[6]和YOLOv3[7]等.陈丽琼等[8]利用卷积神经网络对特征进行提取并用旋转卡壳法来获得目标的最小外接边界框,提高了算法精度,在复杂背景中也具有较强鲁棒性.王玺坤等[9]通过增加特征映射模块对YOLOv3-Tiny进行改进,检测精度和效率方面均有大幅度提高.由于在实际场景的遥感图像中目标众多、种类繁多、目标尺度不同,目标检测的方法难以提取目标的轮廓和分布,但语义分割的方法可以对目标进行分割,常用方法有SegNet[10],U-Net[11]和DeeplabV3+[12]等.遥感图像的采集会受到光照条件、分辨率大小、采集角度和高度影响,这使得遥感图像中包含更多的噪音,现阶段主流的语义分割方法虽然在遥感图像上的分割效果得到极大的改善.肖春姣等[13]在全卷积神经网络(fully convolutional networks,FCN)框架的基础上引入反卷积融合结构,将高层语义信息和低层语义信息进行融合,同时运用全连接条件随机场做后处理,增加空间的上下文信息,但该方法仅使分割图像局部保持平滑,并且训练阶段增加额外计算量.另外,无论是目标检测方法还是语义分割的方法都需要大量训练数据,文献[14]和[15]分别标注4.8×104张图片和6.666 6×104张图片对网络进行训练,标注语义分割数据集通常要耗费大量时间,标注像素级图像完成时间分别是边框和图像级标注时间的15和60倍[16].耿艳磊等[17]提出一种半监督训练全卷积神经网络的方法解决标注样本成本高的问题,但是仅利用少量标签数据,该方法精度提升有限.因此,考虑到在小样本上训练会降低网络性能,首先建立一个名为DPA-Net的网络,充分利用有限训练样本中的低层特征,并且通过引入注意力机制,提高模型对样本中数量有限的建筑和道路的通道特征学习能力,抑制对遥感图像中其他地物的特征响应能力;同时,集成迁移学习的训练方法,在建立小样本遥感图像数据集上进行建筑和道路的提取.实验结果表明:本文方法适用于场景复杂、少样本的情形,可减少样本标注的成本,提高模型的鲁棒性.1 研究方法1.1 网络模型在训练样本有限的情况下,遥感图像中建筑和道路样本数量较少,因此须提高模型的特征提取能力.这里在DeeplabV3+的编码和解码结构的基础上进行改进,并提出了新的网络DPA-Net.该网络通过借鉴特征金字塔网络(feature pyramid network,FPN)的思想将语义信息较强的低分辨率特征图与空间信息丰富高分辨率特征图进行融合,充分利用空间信息和语义信息,保证不丢失有限样本中的信息;同时,由于原有空洞空间金字塔池化模块(atrous spatial pyramid pooling)空间复杂度较高,引入循环交叉注意力模块(recurrent criss-cross attention)代替空洞空间金字塔池化模块减少计算成本,并聚合更丰富的上下文信息提高对小样本遥感图像中建筑和道路通道特征学习能力,提高模型性能.a.特征金字塔网络为了解决识别不同尺度目标尤其是小目标的困难,LIN等[18]提出了一种将具有丰富语义信息的高层特征和具有丰富位置、细节信息低层特征进行融合的特征金字塔网络结构.FPN结构主要包括自底向上路径、自顶向下路径和横向连接路径.输入FPN网络特征图经过自底向上路径的前向传播过程会逐渐变小,并将特征图尺度不变阶段的最后一层输出作为输入到横向连接的特征图.输入到横向连接的特征图经过1×1卷积核将通道数调整为与自顶向下路径中高层特征图进行上采样后的通道数,然后进行特征融合并用3×3卷积以消除上采样的混叠效应.多次将高层特征与低层特征进行融合减少网络每层信息的丢失,以提高对小目标识别的精确度.b.十字交叉注意力模块为了获取更加丰富的上下文信息,HUANG等[19]提出了十字交叉注意力模块(criss-cross attention module),如图1所示,尺寸为C×W×H的特征图F首先分别经过1×1卷积得到G和U两个特征图,在G特征图上任意取一个像素点u得到尺寸为1×1×C'的通道向量Gu;同时,在U特征图上取像素点u同行同列的所有位置像素得到尺寸为(H+W-1)×C'的特征向量Ψu,通过Affinicy操作得到G特征图中每个像素点u对应Ψu中每个元素的亲和度后,通过Softmax层得到尺寸(H+W-1)×W×H为注意图A.Gu与Ψi,u的亲和程度ai,u=GuΨi,uT,其中Ψi,u为Ψu上第i个通道向量,i=[1,2,⋯,H+W-1].另外,特征图F经过1×1卷积得到尺寸C×W×H为特征图M,在M特征图任意取一个像素点u得到尺寸为1×1×C通道向量Mu,并取像素点u同行同列的所有位置像素得到尺寸为(H+W-1)×C特征向量Γu,然后通过聚合(Aggregation)操作获得更加丰富的上下文信息.Aggregation操作公式为Fu'=∑i=0H+W-1Ai.uΓi,u+Fu,式中:Fu'为特征图F'中像素点u位置的特征向量;Ai,u为特征图A中第i个通道位置像素点u的标量值;Fu为输入特征图F中像素点u位置的特征向量.10.13245/j.hust.220312.F001图1十字交叉注意力模块结构由于单个十字交叉注意力模块只考虑到与u像素在交叉路径上的元素,而其他位置的上下文信息被忽略,因此通过连接两个十字交叉注意力模块聚合所有位置的上下文信息.c.网络结构提出一种名为DPA-Net的语义分割网络,仍然采用DeeplabV3+的编码-解码框架.F'和F″分别为F经过一次和二次十字交叉注意力模块处理后的结果,如图2所示,编码器结构中采用resnet101主干网络作为自下而上路径,将resnet101中Res-4层的输出作为十字交叉注意力模块的输入,将resnet101中的Res-1,Res-2和Res-3的输出作为横向连接的输入;在编码器中采用自上而下的路径进行特征融合,Res-4层高层特征经过4倍上采样,Res-3低层特征通过1×1卷积将通道数降为48,然后将高层特征与低层特征进行融合,融合后的特征经过3×3卷积后将通道数调整为256并作为下一次的特征融合的输入,向下操作继续融合Res-2和Res-1低层输出特征.通过3次融合低层特征,充分利用的每层的多尺度信息.10.13245/j.hust.220312.F002图2DPA-Net网络结构1.2 迁移学习提出的迁移学习训练方法如图3所示.迁移学习是将从源域(source domain)学习到的知识迁移到目标域(target domain)[20],并将允许现有的公开数据集在其他领域重新利用.当设置的批尺寸过小,训练的模型错误率较大[21].首先将公开数据集作为源域数据集进行学习,然后冻结DPA-Net网络中的批量归一化层(batch normalization)进行特征的迁移,期间批量归一化层不更新,可以减小模型的错误率保证迁移效果.10.13245/j.hust.220312.F003图3迁移学习方法与DPA-Net网络结合的流程2 网络训练2.1 实验数据本文数据集分为源域数据集和目标域数据集,其中源域数据集来自于WHDLD数据集[22-23]、Aeroscapes数据集[24]和 DLRSD数据集[25]三种公开遥感数据集和PASCAL VOC数据集公共数据集[26].如图4所示,目标域数据集来自于青岛市市北区和市南区的卫星遥感图像,使用谷歌地球下载,光谱为RGB可见光波段.将卫星采集的剪切成大小为512×512的图像,并用labelme将800张遥感图像进行标注,其中背景像素用0表示,建筑像素用1表示,道路像素用2表示.实验将数据集按照2:1:1的比例进行划分,其中400张图像作为训练集,200张作为验证集,200张作为测试集.10.13245/j.hust.220312.F004图4遥感图像数据来源及处理过程2.2 实验参数及评价指标本文实验平台服务器为64 bit Ubuntu 16.04操作系统,硬件配置如下:CPU为Intel Core i5-9400F@2.90 GHz×6,内存为8 GiB,显卡为NVIDIA GTX1660.采用PyTorch 1.5.0深度学习框架搭建运行环境,运用Python 3.6.10编程.训练网络初始学习率为0.007,实验迭代次数设置为50,根据显卡性能将批尺寸设置为4,权重衰减为0.000 5,动量为0.9,训练时使用的优化器为随机梯度下降(SGD).用像素准确率(pixel accuracy,PA)、平均像素准确度(mean pixel accuracy,MPA)和平均交并比(mean intersection over union,MIoU)代替传统的机器学习分类任务的精度评估标准,如召回率和F1值,分别用Ppa,Mmpa和Imiou 表示,并用检测帧率(αFPS)分别量化模型的计算复杂度和检测效率.3 实验结果及分析实验将本文方法与CCNet和U-Net两个语义分割网络进行对比,每个网络迭代50次,从验证精度和检测效率进行结果分析.由表1所示,提出的DPA-Net网络的PA,MPA和MIoU均高于其他3种网络,相比于DeeplabV3+网络,DPA-Net的MIoU提升了1.15%,MPA提升了1%,PA值提高了0.46%.同时,表2验证了十字交叉注意力模块都可以代替DeeplabV3+中的ASPP模块提升模型的运算速度.尽管特征金字塔网络结构降低网络检测效率,但DPA-Net计算效率降低较小,综合精度和计算速度,仍然比DeeplabV3+性能高.各网络的分割结果如图5所示,DPA-Net分割结果与其他结果相比更接近真实的标注图像结果.10.13245/j.hust.220312.T001表1不同网络在目标域数据集分割结果对比网络结构Ppa/%Mmpa/%Imiou/%αFPSCCNet90.9285.3276.78.18U-Net91.3686.8277.9213.38DeeplabV3+92.7688.4380.8511.76DeeplabV3+-base+FPN92.989.8181.3512.08DeeplabV3+-base+CCA92.8888.9881.2712.66DPA-Net93.2289.4382.0012.3110.13245/j.hust.220312.T002表2各网络结合迁移学习在不同数据集上的结果对比网络结构源域数据集Ppa/%Mmpa/%Imiou/%DeeplabV3+无迁移学习92.7688.4380.85Pascal VOC93.1488.2681.68DLRSD93.2488.0581.79Aeroscapes93.3989.0882.27WHDLD93.8690.283.45DPA-Net无迁移学习93.2289.4382.00Pascal VOC93.2788.5982.18DLRSD93.3589.1282.41Aeroscapes93.6789.8883.02WHDLD94.3191.1784.5410.13245/j.hust.220312.F005图5各网络分割结果选取3种类别不同的公开遥感图像数据集和一种公共数据集分别作为源域数据集,用本文迁移学习方法训练DeeplabV3+和DPA-Net网络,在源域数据集上迭代50次,在目标域数据集上迭代50次实验结果如表2所示,DeeplabV3+和DPA-Net均有较大提升,当源域数据集中的类别越较少与目标域数据集中类别相关时,本文迁移学习方法越有效.在仅有6个类别的WHDLD遥感图像数据集中进行迁移学习之后,提升效果最为明显,DeeplabV3+的MIoU,MPA,PA分别提升了2.6%,1.77%和1.1%.DPA-Net的MIoU,MPA和PA分别提升了2.54%,1.74%和1.1%.相比于原始的DeeplabV3+,在WHDLD数据集上进行迁移学习之后的DPA-Net网络精度值均有较大提升.图6为DeeplabV3+网络和DPA-Net结合本文迁移学习方法的遥感图像分割结果,结合迁移学习训练方法之后,两者网络对遥感图像的细节分割结果有明显改善,从WHDLD遥感数据集上迁移的知识对DPA-Net检测效果提升最明显.10.13245/j.hust.220312.F006图6迁移学习后分割结果对比实验采用DPA-Net作为基准网络,在目标域数据集的不同比例训练集上进一步验证本文方法在小样本数据集的可行性,图7中n为训练集数量.从图7可以看出:在训练集数量减少,不经过迁移学习训练的方法精度降低;随着训练集数量增多,本文方法与直接训练DeeplabV3+方法的分割精度差距逐渐降低,并且当精度达到84%时,训练DeeplabV3+需要800张图片,本文方法的训练集仅需要400张图片,节省了一半的标注量,因此本文方法可以解决训练集样本不足的问题.10.13245/j.hust.220312.F007图7训练样本数量与精度的关系以DeeplabV3+的编码-解码结构为基础,通过利用特征金字塔结构融合高层特征和低层特征的思想、引入十字交叉注意力模块,提出了一种DPA-Net网络,同时集成迁移学习的训练方法提高模型在训练样本有限情况下的检测精度,在小规模数据上MIoU为84.54%,PA为93.31%,MPA为91.17%.与DeeplabV3+、U-Net和CCNet相比,所提的方法有效改善了训练样本不足造成网络性能下降的问题并降低了1/2的样本标注成本.在未来研究中,考虑到检测效率和在卫星部署并实时检测的情况,将在保证网络精度的情况下,对模型进行精简.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读