目标检测技术是很多视觉技术的基础,在计算机视觉技术应用中具有重要的研究意义.目前在基于深度学习的可见光目标检测研究方面国内外已经取得较大的进展,但是针对红外目标检测的应用研究却很少.可见光图像具有分辨率高、细节信息丰富等特点,但是容易受到光照变化的影响,因此可见光目标检测研究侧重点主要在于克服光照变化情况的影响.相比于可见光图像,红外辐射具有穿透力强、不易被云雾吸收、不受天气干扰的特点,但红外图像同时也具有对比度低、分辨率低、目标细节信息不足的缺点,这些缺点很大程度上影响红外目标的检测效果,因此红外目标检测研究的侧重点主要在于克服背景干扰及提取更多有效信息.另一方面,在军事和安防领域,深度学习技术很大一部分是部署在嵌入式设备中,但是嵌入式设备的存储空间和功耗限制了神经网络算法的应用,因此有必要研究同时具备实时性和准确性的轻量级红外目标检测算法.基于传统方法的红外目标检测算法主要应用于空基小目标的侦察和预警[1],以单帧红外目标检测[2-4]和多帧红外目标检测[5-6]为主.近年来,基于卷积神经网络的(convolutional neural network,CNN)的图像分类[7]、目标检测[8]等技术开始兴起.这类目标检测算法主要分为一阶段法和二阶段法.其中一阶段法兼顾了检测精度和速度两方面,在保证一定检测精度的前提下提升了检测速度,代表算法有YOLO[9],SSD[10]和RetinaNet[11]等.YOLO系列算法采用Anchor机制,将目标检测的预测和回归同时进行,减少候选区域提取过程,能满足较多场景下实时检测的需求,被广泛应用.在红外目标检测中应用CNN,降低误检率和漏检率,提高检测精度,已经成为红外目标领域的研究热点.文献[12]对红外图像进行预处理,将原YOLOv3算法的均方误差(MSE)损失函数换成GIOU,并加入空间金字塔池化(spatial pyramid pooling,SPP)模块,使检测精度得到提高.文献[13]提出一种基于关键点的快速红外目标检测算法,以目标中心为关键点设计网络模型,获取目标类别、位置和尺寸的预测.文献[14]在YOLOv3算法基础上,结合具有全局信息融合的空间金字塔池化机制,设计了平滑焦点损失函数,提高了红外目标的检测精度.本研究主要目的是在复杂环境下实现红外目标快速、准确的检测,同时解决深度神经网络存在的复杂性和存储量高的问题.针对此提出一种基于YOLOv4改进的轻量级红外目标检测算法,通过嵌入注意力机制,优化先验框尺寸,采用迁移学习进行训练,提高模型检测精度,降低模型规模并提高模型检测速度.1 红外检测算法1.1 改进的网络结构所提出的红外目标检测网络MCA-YOLO (Mobilenet+CA+YOLO)主要在YOLOv4网络基础上进行改进,结构图如图1所示.整个网络主要分为骨干特征提取网络、颈部加强特征提取网络和头部检测网络3部分.改进部分主要集中在骨干网络和颈部网络部分,首先用Mobilenet-v2轻量级骨干网络替换了原有的CSPDarknet53网络,并且由于红外复杂场景的目标检测中存在着大量的背景干扰信息,为加强对目标的关注度,在加强特征提取网络中嵌入轻量型坐标注意力机制(coordinate attention,CA).同时在算法颈部和头部网络中,将部分3×3普通卷积替换成深度可分离卷积,减少整个模型的参数.10.13245/j.hust.239405.F001图1MCA-YOLO网络结构图1.2 深度可分离卷积深度可分离卷积相较于普通卷积可以用较小的精度损失换取极大的计算量及内存的减少.如图2所示,深度可分离卷积将卷积操作分成两步:第一步,进行深度卷积,将卷积核拆分成单通道形式,用n×n大小卷积核对所有通道进行卷积,获得与输入特征图通道数相同的输出特征图;第二步为逐点卷积,使用1×1的卷积得到结果图.深度可分离卷积在参数量和计算量上较普通卷积具有明显优势.在本算法中,将YOLOv4中原来颈部网络和预测部分网络中的一些CBL模块中的3×3普通卷积换成深度可分离卷积形成新的DBL模块,在基本不影响模型性能的同时进一步降低模型规模.10.13245/j.hust.239405.F002图2深度可分离卷积示意图1.3 坐标注意力机制注意力机制可以将有限的计算资源分配给图像中信息占比最高的部分,降低图片背景的影响.主要可分为通道注意力机制和空间注意力机制,也有将二者融合在一起的注意力机制.坐标注意力机制(coordinate attention,CA)通过加入位置信息到通道注意力,从而使网络模型获取更大区域的信息而避免引入大的计算消耗,同时CA注意力模块可以很灵活地嵌入到现有轻量型网络结构中.图3为CA注意力机制的工作流程图,H,W和C分别表示特征图的高、宽和通道数.该机制首先利用两个全局平均池化将沿着垂直和水平方向的输入特征图分别聚合为两个单独的direction-aware特征图.随后通过维度移位、维度拼接、降维等操作实现空间信息编码.最后将空间信息与通道特征加权融合,达到同时兼顾通道信息和位置信息的目的,使模型可以更好地定位感兴趣对象.本文模型将CA嵌入到加强特征提取物网络中3个concat层后,加强了网络对特征的表达能力.10.13245/j.hust.239405.F003图3CA注意力机制示意图1.4 先验框的改进YOLO算法是根据网络预设的先验框回归到最终的预测框,因此先验框的尺寸直接影响到检测算法的检测精度.原YOLOv4算法的先验框大小是根据COCO数据集目标尺寸聚类得到的,前视红外线探测(FLIR)数据集中小目标占比较大,与COCO数据集存在较大差异.因此采用k-means聚类算法重新对数据集进行聚类和分析,得到适合本文数据集的Anchor大小,图4为聚类得到的结果图.10.13245/j.hust.239405.F004图4FLIR数据集目标尺寸散点分布图1.5 迁移学习训练迁移学习可以将已学习的对图像检测的理解应用到新的模型中,CNN模型从数据集中获取信息,进而获得相应的模型权重.这些权重可以迁移到其他网络中,加快并优化模型训练收敛.将已经训练好的特征提取网络应用到新的数据集中,再通过新的数据集进行训练对网络进行微调.2 数据集及评价指标实验采用的数据集是FLIR公司发布的公开红外数据集,该数据集在街道和公路环境上获得.红外分辨率为640×512,标注的标签包含人、车和自行车3类共计8 160张图片.训练集、验证集和测试集按照8∶1∶1的比例进行划分.如图5所示为该数据集这4种典型场景的可见光和红外图像示例.第1列为白天不同目标尺度情况,容易出现目标定位不准的问题;第2列为夜间复杂背景情况,容易出现漏检情况;第3列为白天目标存在遮挡情况,容易发生漏检和定位不准情况;第4列为夜间密集小目标情况,容易产生漏识别情况.10.13245/j.hust.239405.F005图 5不同场景下FLIR数据集红外图实验中工作站操作系统为Ubuntu 16.04,GPU为Nvidia GTX 2080 Ti,CPU为Inter(R) Core i9-9900X,使用的CUDA版本为10.2,采用了基于Python的Pytorch深度学习框架.采用的模型评价指标为标准的PASCAL VOC,即准确率αAP、召回率R和平均准确率αmAP,用于模型性能的分析,同时引入模型大小和模型检测速度θFPS指标更全面展现模型性能.3 实验过程及结果分析3.1 模型轻量化实验通过将YOLOv4的骨干网络换成Mobilenet-v2,以及将网络中的部分普通卷积替换成深度可分离卷积可以有效减少算法模型的整体参数量,通过将网络进行轻量化改进后,YOLOv4,Mobilenet-v2-YOLOv4和MCA-YOLO的参数量分别为6.436 310 1×107,3.906 201 3×107和1.085 912 5×107.可见将骨干网络换成Mobilenet-v2后网络参数量减少了39%,进一步将其他普通卷积换成深度可分离卷积后,模型参数量减少到原YOLOv4模型的17%.可以看出对模型进行轻量化改进后取得了较好效果.通过对模型进行轻量化,一方面降低了模型规模,有利于模型在小型设备上部署;同时也减少了模型的计算量,提高模型检测速度,减少模型所需计算资源.3.2 注意力机制对比实验为展现CA相比其他注意力机制的优越性,在基础网络Mobilenet-v2-YOLOv4的颈部网络部分相同位置分别加入注意力模块SE-Net,CBAM和CA进行实验,注意力机制对比实验如表1所示,表中αAP@0.5和αmAP@0.5分别表示单个类别在IOU阈值为50%下的准确率和平均准确率.10.13245/j.hust.239405.T001表1加入不同注意力模块得到的模型检测结果模型αAP@0.5/%αmAP@0.5/%θFPS自行车汽车人Mobilenet-v2-YOLOv439.6973.4265.8959.67101.42+SE-Net41.7974.3064.1960.06100.17+CBAM41.8175.0866.2860.9297.35+CA43.8275.3368.2862.6195.29由表1可见:增加注意力模块后,模型推理速度略有下降,不过依旧达到了95θFPS以上,同时检测精度均有所提升.其中添加CA注意力模块后模型相比较于原模型精度提升最高,αmAP提升了2.94%.实验结果表明:使用CA注意力机制,提高了模型对目标的关注,抑制了复杂背景的干扰,在红外目标检测中可以有效提升模型检测准确率.3.3 消融实验为了更好地理解MCA-YOLO算法中各种改进对检测效果的影响,在Mobilenet-v2-YOLOv4基础上对模型不同改进阶段进行了消融实验,表2是逐步增加各种改进措施的消融实验结果.由表2可见:添加注意力机制加强了网络特征提取能力,可以有效抑制背景的干扰,提高复杂背景环境下对目标的检测精度.改进后的模型αmAP提升了2.94%,检测速度略有下降.采用新的先验框尺寸后,改进了模型的定位回归,提高模型在密集小目标环境下的检测精度,在不影响检测速度的情况下检测精度进一步得到提升,αmAP提升3.08%.通过迁移学习训练策略模型可以加快模型收敛速度并使模型参数得到充分训练,检测精度得到较大幅度提高,相较于基准模型αmAP提升了14.7%.10.13245/j.hust.239405.T002表2消融实验得到的模型检测结果基本模型+CA+Anchor+TransferαmAP@0.5/%θFPS√———59.67101.42√√——62.6194.81√√√—65.6994.70√√√√74.3794.81图6为3类目标在不同改进阶段的αAP-R曲线,CA,Anchor和Pretraining分别表示注意力、先验框和迁移学习训练改进.可以看出3类目标的αAP在不同改进阶段均有提升,其中自行车检测提升幅度明显,类别汽车和人的αAP也有一定程度的提升.10.13245/j.hust.239405.F006图6不同类别在不同模型上的P-R曲线图3.4 不同算法对比实验为将本文网络模型和目前主流的目标检测网络进行对比,采用双阶段目标检测网络中精度比较高的Faster R-CNN[15]及单阶段目标检测网络中的YOLOv3,YOLOv4和YOLOv4-tiny进行对比试验.结果如表3所示,表中S为内存大小.由表3可见:本文算法在模型大小、检测精度和检测速度3个方面均优于目前主流的前3种算法.相比于轻量型检测算法YOLOv4-tiny,本文模型检测精度αmAP要高于18.17%.实验结果表明:本文算法具备良好的10.13245/j.hust.239405.T003表3不同网络结构在FLIR数据集上的检测结果模型αAP@0.5/%S/MBαmAP@0.5/%θFPS自行车汽车人Faster R-CNN55.0064.5143.08113.5054.2019.43YOLOv362.4871.3061.59246.4065.2480.32YOLOv463.7674.0266.31256.2068.0364.40YOLOv4-tiny46.1468.7753.6823.6056.20264.17MCA-YOLO(本文)67.2281.5374.3548.9074.3794.81均衡性,可以同时较好地保证模型的检测精度和检测速度.3.5 模型检测性能分析复杂场景在不同模型检测下结果如图7所示,图中包含4种场景,图中:从左到右依次是白天目标尺度不同情况、夜间复杂背景情况、白天目标存在遮挡情况、夜间密集小目标情况;从上到下依次是YOLOv4检测结果、MCA-YOLO检测结果和标注真值.通过检测结果对比可以看出:场景(a)中本文算法可以检测出更多目标,尤其是小目标person类别,说明本文算法具有更好的多尺度检测性能;场景(b)中本文算法的注意力机制有效解决复杂背景干扰问题,检测出了复杂背景中更多的目标;场景(c)中本文算法可以准确识别并定位遮挡目标,具有更好的检测精度;场景(d)中本文算法相比于YOLOv4算法,Anchor的改进使模10.13245/j.hust.239405.F007图7复杂环境下不同模型检测结果型具有更好的检测密集和小目标的性能.4 结语最终FLIR红外数据集测试结果表明:本文算法在保证检测精度的前提下,有效降低模型的参数量和计算量,大幅度提高检测速度.与YOLOv4模型比较,模型在大小方面只有其19%,在检测速度方面提升47%,在检测精度方面仅提升6.34%.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读