网刊加载中。。。

小目标检测是计算机视觉中一个具有挑战性的任务，被广泛应用于自动驾驶、医疗诊断及农业监测等领域[1-3]．得益于深度卷积神经网络(DCNN)强大的特征表征能力，出现了许多检测性能优异的基于DCNN的目标检测模型[4-12]．Faster R-CNN是代表性的基于DCNN的目标检测模型之一，其在检测过程中，首先使用RPN(region proposal network)在主干网络的顶层特征上进行感兴趣区域候选，然后将候选的感兴趣区域输入Fast R-CNN(fast region-based convolutional neural network)分类和回归，从而实现目标检测[11]．小目标在图像中的内容占比低、特征不显著和易被干扰等特点，使其可用检测特征较少，而Faster R-CNN在特征提取过程中经过多次池化，进一步丢失了小目标的特征，容易造成小目标漏检和误检[1]．为了提高基于DCNN目标检测模型对小目标的检测精度，学者们对基于DCNN的检测模型展开了大量的研究，发现DCNN提取的低层特征具有丰富的细节信息，有利于目标定位；而高层特征具有丰富的语义信息，有利于目标的分类[13]．同时发现融合不同深度的特征，能够提高模型的检测性能[13]。根据这一发现，学者们提出了大量基于特征融合的检测模型，比如DSSD[14]，FSSD[15]，TDFSSD[13]和FPN[16]，用于小目标的检测．以上文献表明：特征融合能提高基于DCNN的模型对小目标的检测精度，但使用基于元素求和通道连接的方法融合特征会引入大量背景噪声和冗余信息，容易造成混叠效应，从而对小目标的检测不利[17]．同时，顶层特征在自顶向下的传递过程中存在信息丢失，使低层特征不能充分地利用顶层的特征信息．针对特征融合引入的冗余信息问题，学者们提出使用注意力机制来降低混叠效应[18-20]．LU等[21]在遥感图像目标检测中，首先融合主干网络提取的用于检测的特征，其次在融合的特征上使用SE(squeeze-and-excitation)注意力机制消除冗余信息，在一定程度上消除了冗余，但由于其只在通道方向消除，对混叠效应的抑制有限[18]．GUO等[19]在特征融合中使用 SE 构建空间自适应特征融合方法，降低了融合过程中引入的背景噪声，但其只在通道方向抑制无用信息．ZOU等[20]在遥感目标检测中使用SE注意力机制消除特征融合引入的冗余信息，以此来增强检测特征，但其也只在通道方向对特征进行了增强．以上文献表明：在特征融合的基础上使用注意机制不仅能进一步提高模型的检测性能，也能够降低特征融合造成的混叠效应．为了提高Faster R-CNN对小目标的检测精度，设计了一种基于通道-空间注意力机制的特征融合方法，记为FFBAM (feature fusion method based on attention mechanism)，不仅在通道上抑制无用信息，而且也在空间上抑制无用信息，用于降低特征融合过程中引入的混叠效应；文献[22]表明，残差网络结构在特征提取过程中能够降低特征信息的丢失，设计了一种跳跃残差连接模块用于降低特征融合过程中高层特征信息的丢失，记为SRCM (skip residual connectional module)；最后基于Resnet101能够提取不同深度特征的优势，用Resnet101作为Faster R-CNN特征提取网络，将提取的特征使用FFBAM融合生成特征金字塔网络，并用生成的特征金字塔网络作为Faster R-CNN的主干网络，来更为充分地提取小目标特征，以便更为有效地进行目标检测．1 目标检测模型目标检测模型结构如图1所示，由主干网络Backbone、区域候选网络RPN和Fast R-CNN网络组成．Backbone负责提取图像特征，RPN网络生成候选区域，Fast R-CNN分类候选网络检测到的目标．为了提取到细粒度小目标特征，设计了FFBAM和SRCM两个结构，用于生成金字塔网络．图中：C2，C3，C4和C5为Backbone提取的特征；P2，P3，P4和P5为融合之后用于检测的特征．FFBAM是提出的基于通道-空间注意力机制的特征融合方法，图中橙色部分是提出的跳跃残差连接模块SRCM(skip residual connectional modul)．值得注意的是，本文模型与Faster R-CNN相比，只有主干网络、PRN和ROI不同，其他都相同。主干网络的特征P2，P3，P4和P5被依次输入RPN和ROI(region of interest)提取用于回归和分类的特征，RPN和ROI的结构设置与文献[16]一致，因此这里仅详述提出的FFBAM和SRCM．10.13245/j.hust.238491.F001图1本文模型的整体结构1.1　基于通道-空间注意力机制的特征融合方法提出的基于通道-空间注意力机制的特征融合方法在通道和空间两个方向重标定融合特征，用于消除特征融合中引入的混叠效应，结构如图2所示，图中：σ为Sigmoid函数；GAP为全局平均池化；MOC为最大池化；λ为模型的超参数．首先使用全局平均池化获取特征的全局信息，其次在通道和空间两个方向重标定特征，最后将重标定的特征在通道方向分割并相加，得到用于检测的特征．10.13245/j.hust.238491.F002图2基于通道-空间注意力机制的特征融合结构将融合的高层特征和低层特征依次记为F1⊂RC×H1×W1和F2⊂RC×H×W，将F1使用双线性插值上采样到F2的尺寸，并将上采样的F1和F2在通道方向连接并记为F⊂R2C×H×W，将F的Feature maps记为Uk⊂RH×W (k=1,2,⋯,2C)．为了获取特征的全局信息，借鉴文献[21]的方法，将F的2C个Feature map使用全局平均池化聚合为特征描述子Z⊂R2C×1×1．全局平均池化的计算表达式为Zk=1W×H∑iH∑jWui,j(1≤i≤H,1≤j≤W,1≤k≤2C),式中：Zk为F的第k个Feature map的聚合值；ui,j为F的第k个Feature map在(i,j)点的值．在得到特征全局信息后，借鉴文献[23]的思想，采用2个卷积加一个Sigmoid函数组成一个门机制，并将其记为Φ：WC=σ(W2(W1Z))，用于学习通道之间的依赖关系，增强关键通道特征，其中：σ为Sigmoid函数；W1⊂R2C×(2C/r)和W2⊂R(2C/r)×2C分别为2个卷积的卷积核参数．文献[21]中使用的是全连接层构成的瓶颈结构，要学习的参数量为8C3/r，为了降低参数量，全部使用卷积层，此时要学习的参数量变为2C+2C/r．将最终的输出WC作为通道特征重标定的权重，并将权重WC与输入特征F逐元素相乘，得到重标定的特征FC=F⊗WC (FC⊂R2C×H×W)．由于在通道方向特征重标定时使用全局平均池化，在抑制通道方向无用的信息时保留了特征的全局信息，有利于小目标的检测．空间注意力机制如图2的“空间”部分所示，借鉴文献[23]的思想，使用最大池化去聚合空间方向的信息．最大池化计算表达式为Zs=max (ci,j(k)) (1≤i≤H,1≤j≤W,1≤k≤2C),式中：ci,j(k)为FC的第k个Feature map在(i,j)点的值；Zs⊂R1×H×W为最大池化后的空间特征描述子．之后使用7×7的卷积核对Zs进行卷积操作，最后经过Sigmoid函数得到空间方向的权重为Ws=σ(f7×7(Zs))．将空间方向的权重与Fc逐元素相乘得到空间方向重标定的特征Fs⊂R2C×H×W，并将其沿着通道方向分割，将分割后的特征基于逐元素加的方式融合得到用于检测的特征Fe⊂RC×H×W．空间注意力机制保留了特征空间位置的关键信息，抑制无用信息，能够有效降低融合中引入的背景噪声，降低融合引起的混叠效应．提出的基于通道-空间注意力机制的特征融合方法，与文献[19]的特征融合方法相比，有以下不同点：从通道和空间两个方向对融合特征增强，消除混叠效应，而文献[19]中仅在通道上增强特征；为了获取特征的全局信息，使用全局平均池化进行特征聚合，而文献[19]中使用全局最大池化聚合信息．1.2　跳跃残差连接模块自顶向下特征融合过程中存在高层语义信息的丢失，对小目标的检测不利，因此设计了SRCM．图3(a)是残差块的结构(X表示图像)[22]，为了降低特征提取中信息的丢失，加入了自身映射的残差路径．图3(b)是SRCM跳跃残差连接模块，与残差块相比，残差块是自底向上特征提取过程，而SRCM是自顶向下的特征融合过程．SRCM首先将高层特征使用微步卷积Dec (Deconvolution，微步卷积核的大小为1×1，卷积核数是256，步长为2)、批归一化BN(BatchNorm)和线性整流函数RL(Relu)上采样到融合特征的尺度，之后再将其融合．10.13245/j.hust.238491.F003图3残差块和SRCM示意图在使用SRCM过程中，针对C4与C2的融合有两种路径，如图1的AP4和BP4．AP4表示P4与C2融合，BP4表示P5与C2融合，这里采用BP4的路径．2 实验结果与分析2.1　实验数据实验数据采用NWPU VHR-10数据集[24]．NWPU VHR-10包含10类，总共800张图像，其中650张含有目标．实验中仅采用含有目标的图像，将其按20%，20%和60%的比例分成训练集、验证集和测试集．NWPU VHR-10数据集中中小目标占比为89.82%．为了进一步说明本文方法的有效性，也在COCO数据集上进行了实验．2.2　评价指标为了评价本文模型的有效性，使用平均精度fAP(average precision)和平均检测精度fmAP(mean average precision) [13]目标检测评价指标．在COCO实验中，还使用平均召回率fAR(Average Recall)[13]评价指标．2.3　实验平台实验在挂载NVIDIA Titan V和NVIDIA GeForce 2080Ti 的图形操作站上完成，操作系统是Ubuntu LTS 16.04，CUDA版本是10.1．使用的深度学习框架是Pytorch1.1，使用Python3.5.2编程．为了说明本文模型对小目标检测的有效性，本文模型的目标检测性能与DSSD[14]，FSSD[15]，TDFSSD[13]，Faster R-CNN[11]和FPN[25]目标检测性能进行了对比分析，所有实验均未使用数据增强．2.4　实验结果在实验中，将超参数λ设置为8，BatchSize设置为2，优化器采用SGD优化器，初始学习率10-2每5个迭代轮次(epoch)衰减为原来的0.1，训练15个迭代轮次．在NWPU VHR-10数据集上的检测结果如表1所示．本文模型的fmAP为82.5%，相比于DSSD，FSSD，TDFSSD，Faster R-CNN和FPN，fmAP分别高出27.1%，5.2%，5.7%，38.3%和13.6%．这是因为本文模型在融合特征时不仅在通道上，而且还在空间上抑制了冗余信息，并不是简单的基于元素求和或通道连接的融合方法[13]，因此能够有效抑制特征融合中引入的冗余信息对小目标检测的干扰．同时，DSSD，FSSD，TDFSSD和FPN模型没有考虑特征融合中高层语义信息丢失的问题，使得负责检测小目标的低层特征未能充分利用高层特征的语义信息，造成小目标的误分类．而本文模型使用的SRCM将高层的特征融合到低层特征，有效避免了高层语义信息的丢失．10.13245/j.hust.238491.T001表1在NWPU VHR-10测试集上的结果方法BackbonefmAPfAP飞机舰船油罐棒球场网球场篮球场田径场港口桥梁汽车DSSD320ResNet10155.478.376.466.287.238.518.890.036.216.446.0FSSD300VGG1665.588.869.845.889.946.042.599.378.960.334.2FSSD512VGG1677.390.986.369.389.778.275.690.663.859.169.3TDFSSD300VGG1667.889.774.152.789.855.149.593.777.460.236.0TDFSSD512VGG1676.890.885.474.989.977.872.384.667.351.076.8Faster R-CNNVGG1644.284.666.515.088.136.335.154.629.010.222.8FPNResNet10168.990.882.876.789.773.961.466.564.715.067.7本文模型ResNet10182.597.189.388.290.179.472.990.581.357.778.7图4是对测试集中目标检测的示例，图中4(a)是Faster R-CNN的检测结果，图4(b)是本文模型的检测结果．由图4可知：Faster R-CNN对小目标存在漏检和误检，而本文模型能较好地检测到小目标，这是由于提出的基于通道-空间注意力机制的特征融合方法消除了干扰小目标检测的冗余信息，同时跳跃残差连接模块增强了表征小目标特征的高层语义信息，使模型能对小目标更好地分类．10.13245/j.hust.238491.F004图4在测试集上的定性检测示例3 讨论3.1　超参数λ对模型检测精度的影响为了分析超参数对模型检测性能的影响，表2列出了模型在不同λ下的fmAP．从表2可知：随着λ的增大，模型检测精度也在增大，但在λ为8时模型的检测精度达到最优，之后随着λ的增大性能会趋于平稳，因此在实验中将其设置为8．10.13245/j.hust.238491.T002表2不同λ下模型在NWPU VHR-10测试集上的结果λfmAPfAP飞机舰船油罐棒球场网球场篮球场田径场港口桥梁汽车182.090.989.882.989.880.677.089.873.265.381.0281.090.787.886.689.579.977.989.178.152.877.5479.490.986.088.189.578.269.095.068.050.978.2882.597.189.388.290.179.472.990.581.357.778.71680.290.988.587.889.079.374.685.573.855.177.73282.090.988.284.789.778.374.992.275.362.783.66482.090.988.486.890.377.470.991.274.165.184.93.2　FFBAM中通道特征重标定和空间特征重标定对模型检测精度的影响表3所示为通道特征重标定和空间特征重标定对模型fmAP的影响，表中：C和S分别表示通道特征重标定和空间特征重标定；C-S和S-C表示特征重标定的顺序；SC(CS)表示通道和空间两个方向重标定时是并列的，然后将标定的特征以元素加的方式融合．10.13245/j.hust.238491.T003表3通道和空间特征重标定对模型fmAP的影响特征重标定fmAPfAP飞机舰船油罐棒球场网球场篮球场田径场港口桥梁汽车C81.590.989.987.389.379.580.489.774.850.083.2S82.290.989.684.290.378.677.187.272.365.685.8C-S82.597.189.388.290.179.472.990.581.357.778.7S-C82.390.988.488.889.978.879.489.877.358.281.3SC(CS)82.390.988.086.889.482.677.592.784.347.184.2从表3可知：通道特征重标定C和空间特征重标定S都可以提高模型的性能，且S对模型的性能提升更加显著，这也说明只在通道方向消除混叠效应的不足．同时表明基于通道-空间注意力机制融合的合理性，本文实验按C-S的顺序取得最优的fmAP．3.3　跳跃残差连接模块对模型检测精度的影响表4所示为SRCM对模型fmAP的影响，可见：与FPN模型相比较，使用基于通道-空间注意力机制的特征融合方法FFBAM时模型fmAP高出12.1%，加上SRCM(BP4)高出13.6%，表明提出的SRCM能提高小目标的检测精度，这是因为自顶向下的特征融合存在信息丢失，造成了小目标的误分类．值得注意的是当残差连接路径为AP4和BP4时，分别高出12.3%和13.6%，所以本文模型的连接路径设为BP4，进一步说明了SRCM设计的合理性．10.13245/j.hust.238491.T004表4SRCM对模型性能的影响模块fmAPfAP飞机舰船油罐棒球场网球场篮球场田径场港口桥梁汽车FFBAM81.090.989.475.988.979.082.689.871.956.894.4SRCM(AP4)81.290.988.484.289.480.070.389.780.652.785.6SRCM(BP4)82.597.189.388.290.179.472.990.581.357.778.73.4　COCO数据集上的实验结果表5所示为COCO数据集上的实验结果，表中：δIOU表示交并比；δIOU[0.5，0.95]表示δIOU从0.5~0.95（间隔为0.05）的平均fmAP．10.13245/j.hust.238491.T005表5在COCO数据集上的检测结果方法fmAPfAPfARδIOU为[0.50，0.95]δIOU为0.5δIOU为0.75小目标中目标大目标小目标中目标大目标Faster R-CNN21.942.7———————DSSD32128.045.429.36.228.349.311.543.364.9DSSD51333.233.235.213.035.451.121.849.166.4FSSD30027.147.727.88.729.242.215.944.258.6FSSD51231.852.833.514.235.145.022.349.962.0TDFSSD30029.549.830.611.131.943.817.346.559.3TDFSSD51233.454.735.517.235.946.026.250.061.9FPN[25]*33.654.936.017.535.644.430.451.963.5本文模型34.756.937.218.336.945.531.153.563.8注：“*”表示复现的实验结果；“—”表示相应文献中未给出数据；Backbone与表1一致．从表5可知：本文模型在COCO数据集上的fmAP为34.7%，相比于DSSD，FSSD，TDFSSD，Faster R-CNN和FPN，fmAP分别高出1.5%，2.9%，1.3%，12.8%和1.1%．而对于小目标而言，本文模型的fAP为18.3%，相比于DSSD，FSSD，TDFSSD和FPN，fAP分别高出5.3%，4.1%，1.1%和0.8%．实验结果进一步说明了本文模型对小目标检测的有效性．4 结语为了提高Faster R-CNN目标检测模型对小目标的检测精度，提出了一种基于通道-空间注意力机制特征融合的小目标检测模型．对遥感图像和COCO数据集中小目标检测的实验结果表明：提出的基于通道-空间注意力机制的特征融合方法和跳跃残差连接模块能降低特征融合造成的混叠效应和高层特征信息的丢失，有效提升模型对小目标的检测精度．