遥感图像目标检测在民用及军事领域有广泛应用需求,对遥感图像中诸如舰船、飞机、机场和港口等目标进行检测进而获得目标类别和位置信息是遥感图像的重要任务.利用遥感图像观察停车场、港口中停泊的汽车及舰船等排列密集、方向性显著的目标具有重要意义.随着深度学习的快速发展,目标检测已经在通用领域取得了令人瞩目的商业应用成就.遥感图像的目标检测方法源于通用领域的目标检测方法,结合遥感图像的特性,将深度学习目标检测方法应用于遥感图像领域是近年目标检测的主要方法.由于遥感图像中目标呈现排列密集、尺度变化、背景复杂、小目标和样本不平衡等特点,因此遥感图像的目标检测难度及复杂度远高于通用场景的目标检测.常规目标检测器采用水平感兴趣区域(horizontal region of interest,HRoI)表示目标所在位置,而遥感图像中诸如港口停泊的舰船、停车场中的车辆等目标排列密集且方向性显著,若采用HRoI定位将使定位框不能精确地定位目标.为此,文献[1]提出了基于多分类学习的检测算法,通过求取目标的最小外接矩形实现了对舰船的精确检测.文献[2]提出感兴趣区域形变器(RoI trans)去解决方向性显著的遥感目标检测,首先使用旋转感兴趣区域学习器将HRoI转换为旋转感兴趣区域(rotated region of interest,RRoI),然后通过旋转位置敏感对齐模块提取出旋转不变的特征,最后通过所提取出的旋转不变特征进行目标的分类和回归.而文献[3]提出了滑动顶点(gliding vertex),通过先检测水平边界框,再学习水平边界框的四个角点的偏移量来表征有向边界框,从而在几乎不增加计算量的情况下,基于常规目标检测方法就能实现遥感图像中目标的检测.针对遥感图像中目标的尺度小、方向性显著、分布密集导致难以精确检测的问题,文献[4]提出了密集旋转小目标检测器(SCRDet),通过设计采样融合网络,将多层特征融合到有效的锚框(Anchor)采样中,以提高对小目标的敏感性;同时通过抑制噪声并突出对象特征,设计了有监督的像素注意力网络和通道注意力网络;最后将交并比(intersection over union,IoU)因子添加到平滑L1损失(smooth L1 loss)中以解决旋转边界框的边界不精确问题.文献[5]针对遥感图像中目标实例具有较大的长宽比(例如船只,长宽比达到了5:1和7:1)和类别不平衡等问题,基于RetinaNet[6]提出了精调的单级检测器(R3Det),通过设计特征细化模块以实现特征重构和对齐,并采用从粗粒度到细粒度的逐步回归实现目标检测.本研究基于对HRoI进行旋转以完成方向性目标检测的思想,首先采用Faster RCNN[7]并结合RoI Trans构建了从粗粒度到细粒度逐步回归的网络模型;其次,由于特征金字塔网络(FPN)[8]的主干网络对遥感图像的特征表达能力不足,因此基于Non-Local[9]提出了非局部特征增强模块(non-local feature enhancement module,NFEM)以提高网络中特征的表达能力;最后,针对微调HRoI转换为RRoI过程中存在HRoI为正样本但经过微调后导致RRoI为负样本造成正样本减少的情况,使用GA-RPN[10]代替区域建议网络(region proposal network,RPN),通过生成更多、更高质量的Anchor,去减少正样本HRoI转换为正样本RRoI过程中正样本的减少.实验表明:在DOTA[11]和HRSC2016[12]遥感数据集上本文方法分别取得了77.46%和90.04%的平均精度均值(mean average precision,mAP).1 非局部特征增强的遥感目标检测该网络基于Faster RCNN构建,首先在FPN的基础上,添加NFEM以增强网络的特征表达能力;其次使用GA-RPN降低候选框转换过程中正样本的减少;最后在Faster RCNN的基础上结合RoI Trans通过级联有向目标检测头网络,以实现从粗粒度到细粒度逐步回归完成对方向性遥感目标的检测.1.1 非局部特征增强模块在基于FPN的主干网络中,FPN的输出可表示为Pi 2≤i≤6,其中P6在FPN中由P5下采样至原尺寸大小的一半得到,如果将P6再上采样到P4大小,那么会造成空洞现象.同时由于在训练过程中DOTA数据集输入的图像尺寸过大(1 024×1 024),使得P2的感受野较小,将P2输入到非局部特征增强模块中会导致加入了过多的低层特征影响特征的表达能力.为此,选择Pj (3≤j≤5)作为非局部特征增强模块的输入,另外由于Pi感受野不同,Pj对非局部特征增强模块的贡献度也应不同,因此增加权重因子wj用来表示Pj对非局部特征增强模块的贡献度,非局部特征增强模块可定义为               Pi'=Pi+f∑j(wj/∑jwj)g(Pj)   (2≤i≤6,3≤j≤5), (1)式中:Pi'为NFEM的输出;Pi为FPN的输出;wj为权重因子,wj/∑jwj为归一化后的权重因子;f为Non-Local注意力增强函数;g为特征图尺度调节函数,本文实验中将Pj尺寸统一调整至与P4相同(当Pj尺寸小于P4尺寸时,g为双线性插值;当Pj尺寸大于P4尺寸时,g为自适应最大值池化).Non-Local注意力增强函数在深度神经网络中的定义为f=C-1x∑jfnl(xi,xj)gnl(xj),式中:Cx为归一化因子;fnl为相似性度量函数,在本文方法中相似性度量函数fnl使用嵌入式高斯(embedded Gussian);gnl为1×1的卷积特征映射函数.NFEM的基本原理如图1所示,首先将多尺度特征P3,P4,P5的尺度通过尺度调节函数g调整到P4大小;再根据式(1),通过将Pj加权融合后,输入到Non-Local注意力增强函数f中,得到非局部特征增强后的特征;最后依次将非局部特征增强后的特征调整尺度大小与Pi相同后相加得到Pi'作为输出.10.13245/j.hust.210909.F001图1非局部特征增强模块1.2 候选框转换增强在基于Anchor的目标检测方法中,Anchor的质量对最终的检测结果具有很大的影响.在水平目标检测头网络中,首先通过提取水平候选框(horizontal bounding box,HBbox)区域的特征学习RRoI的几何特征,粗调HBbox得到旋转候选框(rotated bounding box,RBbox),基本过程如图2所示.10.13245/j.hust.210909.F002图2候选框调整过程图2中在理想情况下,通过提取水平候选框区域特征学习RRoI的几何特征,粗调HBbox为正样本旋转候选框(与旋转真实标注(rotated ground truth,RGT)的IoU大于阈值).但RRoI对角度偏移量极其敏感,粗调后的RBbox可能为负样本旋转候选框(与RGT的IoU小于阈值),导致HBbox粗调至RBbox过程中使得正样本减少,使得检测器的性能降低.因此在网络中使用GA-RPN替换RPN,通过产生更多、更高质量的Anchor,使得对于一个水平真实标注(horizontal ground truth,HGT)存在多个正样本HBbox,通过提取HBbox的几何特征,经粗调后转换为RBbox,从而弥补正样本的缺失,降低正样本数量减少对检测器性能的影响.1.3 逐步回归的遥感目标检测在本文方法中通过级联水平目标检测头网络及有向目标检测头网络从粗粒度到细粒度逐步回归实现有向的遥感目标检测.水平目标检测头网络旨在从HRoI的特征中学习RRoI近似的几何特征从而实现目标的粗定位,有向目标检测头网络旨在从RRoI的特征中学习RRoI准确的几何特征以实现目标的精确定位.假设存在n个HRoI正样本样本,即Hi(xi,yi,wi,hi)  (0≤in),式中xi,yi,wi,hi分别为预测HRoI的中心点位置、宽度和高度.假设Hi所对应的特征图为Fi,由于每个正样本HRoI与真实标注的外接矩形(横纵坐标最小值点与横纵坐标最大值点构成的矩形)的IoU阈值大于0.7,因此可通过水平目标检测头网络从每个特征图Fi初步学习所对应RRoI的几何偏移量,RRoI回归偏移量学习目标为tx*=wr-1[(x*-xr)cos θr+(y*-yr)sin θr];ty*=hr-1[(y*-yr)cos θr-(x*-xr)sin θr];tw*=log(w*/wr);th*=log(h*/hr);tθ*=(2π)-1[(θ*-θr) mod 2π], (2)式中:xr,yr,wr,hr,θr分别为RRoI的中心点位置、宽度、高度及旋转角;x*,y*,w*,h*,θ*分别为真实旋转标注框中心点位置、宽度、高度及旋转角;tx*,ty*,tw*,th*,tθ*分别为RRoI回归所要学习的中心点偏移量、长宽伸缩因子及角度偏移量;mod表示求余,约束角度偏移量(θ*-θr)处于[0,2π),并通过除以2π使得tθ*处于[0,1).通过学习到的RRoI偏移量(tx*,ty*,tw*,th*,tθ*)粗调HBbox使其转变为RBbox,输入到旋转感兴趣区域对齐模块提取出旋转不变的特征,然后将旋转不变的特征输入到有向目标检测头网络中进一步精调RRoI,以完成对方向性目标的精确定位,有向目标检测头网络中RRoI回归偏移量学习目标也为式(2).1.4 损失函数本文方法损失由GA-RPN、水平目标检测头网络及有向目标检测头网络所组成,水平目标检测头网络及有向目标检测头网络中损失的计算方式一致,因此损失函数定义为L=λ1Lga+λ2Lhead+λ3Lhead,(3)式中:Lga为引导性锚框损失,与GA-RPN中一致;Lhead为检测头网络损失;λ1,λ2,λ3为权重因子.Lhead由分类损失及回归损失组成,即Lhead=1Ncls∑iLhead_cls+1Nreg∑ipi*×Lhead_reg,式中:Ncls和Nreg分别为在每个批次中输入检测头中总候选框的数目、正样本候选框的数目;i为在当前批次中候选框的索引,若第i个候选框为正样本,则pi*=1,否则pi*=0;Lhead_cls和Lhead_reg分别为分类损失和回归损失,与Faster RCNN中计算方式一致,但Lhead中候选框回归偏移学习量为(tx*,ty*,tw*,th*,tθ*).2 实验结果与分析2.1 数据集及实验配置DOTA是用于航空图像中目标检测的大规模数据集,对于DOTA-v1.0,共包含2 806张遥感图像.每张图像的大小在800×800~4 000×4 000范围内,标注的目标包含不同长宽比、方向和形状共1.882 82×105个实例,包括飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储油罐(ST)、足球场(SBF)、环形车道(RA)、港口(HA)、游泳池(SP)及直升机(HC)共15个类别.由于DOAT数据集中图像的大小不一致,设置滑动步长为524,将数据集切割成大小为1 024× 1 024的块,切割后的训练集、验证集共3.850 4×104张图片,测试集2.001 2×104张图片,在训练过程中,采用随机水平翻转来避免过拟合.HRSC2016是一个通过定向的边界框标注目标的船舶识别数据集,其中包含1061张船舶图像,图像范围从300×300到1 500×900,在训练过程中所有图像缩放到800×512.本文方法基于MMDetection[13],Faster RCNN和RoI Trans实现,主干网络为ResNet50[14],硬件配置为:GPU GeForce RTX 2080Ti显卡一个;CPU为i7-8700k;内存32 GB;操作系统为Ubuntu18.04.同时,在训练过程中DOTA训练期数(epoch)设置为12,HRSC2016总共训练36个epoch.批量处理图片的数量设置为2,选择随机梯度下降方法(SGD)优化网络,在SGD中学习率(learning rate)、动量因子(momentum)、权重衰减因子(weight decay)分别设置为0.01,0.9,0.000 1.式(1)中权重因子wj初始化为0.33,在式(3)中超参数λ1,λ2,λ3分别设置为1,1,1.2.2 检测结果与分析为验证本文方法对遥感图像目标检测的有效性,分别在DOTA和HRSC2016数据集上开展了对比实验,并分别与RoI Trans,Gliding Vertex和R3Det三种方法进行了对比.在实验中,DOTA和HRSC2016中的训练集与验证集被用来训练,测试集用来评估方法.由于DOTA测试集的标注未公开,在DOTA上的评估结果通过提交到DOTA评估服务器所得,在HRSC2016测试集上使用PASCAL VOC07[15]方法评估,重叠阈值设置为0.5.本文方法经过评估后在DOTA和HRSC2016数据集上分别取得了77.47%和90.04%的mAP,高于RoI Trans的69.56%和86.20%,Gliding Vertex的75.02%和88.20%,R3Det的73.74%和89.26%.在DOTA数据集上的实验结果表明:本文方法在桥梁、田径场、小型车辆、大型车辆、船舶、网球场、港口和游泳池等8个类别上的检测结果在与RoI Trans,Gliding Vertex和R3Det三种方法对比中取得了较高的检测结果,全部类别mAP达到77.46%.在HRSC2016数据集上对比RoI Trans,Gliding Vertex和R3Det,本文方法也有更好的表现,mAP达到了90.04%,本文方法对不同场景下的部分检测结果如图3所示.10.13245/j.hust.210909.F003图3本文方法检测结果2.3 消融实验为更好地验证GA-RPN及NFEM的有效性,在DOTA和HRSC2016数据集上首先在不加入GA-RPN和NFEM的条件下,训练基于Faster RCNN和RoI Trans所构成的逐步回归的方法,然后再依次训练分别加入GA-RPN和NFEM的网络,最后将GA-RPN和NFEM一起加入到网络中训练.实验结果表明:对比基于light-head R-cnn[16]的RoI Trans,本研究基于Faster RCNN和RoI Trans所构建的逐步回归的模型在DOTA和HRSC2016上分别取得了76.80%和89.24%的mAP.当加入NFEM后分别在DOTA和HRSC2016数据集上提高了0.466%和0.36%.加入GA-RPN后在DOTA数据集上出现了下降,这是因为在训练过程中切割后的遥感图像尺寸较大,导致底层特征感受野较小特征表达能力不足,对比同时加入GA-RPN和NFEM的实验结果中也说明了此问题,同时也进一步证明了NFEM的有效性.加入GA-RPN后在HRSC2016数据集上提高了0.67%.最后本文方法在DOTA和HRSC2016测试集上分别得到了77.46%和90.04%的mAP.3 结语首先基于Faster RCNN和RoI Trans构建了逐步回归的网络模型,其次提出非注意力特征增强模块增强网络的特征表达能力,最后使用GA-RPN替换RPN以降低HRoI向RRoI转换过程中正样本数量的减少.实验结果表明:本文方法在DOTA[11]和HRSC2016数据集上分别取得了77.64%和90.04%的mAP,好于对照组方法;同时,由于使用GA-RPN替换RPN是从产生高质量的Anchor的角度出发,降低正样本的减少,但也增加了计算量.因此在今后的研究中对于HRoI向RRoI转换过程中的不一致情况将研究效率更高的方法.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读