智能船舶已经成为国际海事界新热点.智能感知是智能船舶实现自主航行的前提[1],基于可见光图像的目标检测是智能感知系统中的核心技术之一,是目前研究的重点内容.基于可见光图像的目标检测方法可分为传统方法和深度学习方法.传统目标检测算法主要通过人工设计特征结合机器学习分类器完成检测任务[2-4],但是人工设计的特征泛化能力差,检测精度低.2012年后,深度学习算法通过卷积神经网络自动提取图像特征,在精度上大幅领先传统目标检测算法.常见的深度学习目标检测算法包括R-CNN系列[5-7]、SSD[8]及YOLO系列[9-12],它们被广泛应用于船舶检测中.针对内河船舶样本不足的问题,文献[13]增强了模型的泛化性.针对船舶目标尺度差异大的问题,文献[14]设计了一种自适应特征融合模块,增加了算法的检测精度.针对水上环境复杂,目标特征提取困难的问题,文献[15]提出了一种用于水面图像的强语义特征提取结构,自适应地提取目标有效信息.针对船舶航行过程中摄像头晃动的问题,文献[16]提出了一种基于生成对抗网络的去模糊方法,显著提升了模糊船舶图像的目标检测精度.但是,内河航道狭窄,船舶间互相遮挡影响目标特征的提取,造成虚警、漏检严重.针对遮挡问题,文献[17]将不同目标的预测框分隔开来,避免后处理导致漏检.文献[18]增强了算法在遮挡状态下的检测性能.文献[17-18]基于两阶段检测算法Faster R-CNN解决遮挡问题,检测耗时过长,部署在智能船舶上难以满足实时性的要求.针对现有水面遮挡目标检测方法存在的问题,基于单阶段目标检测算法YOLOv5,本研究提出了一种实时的基于多特征聚合的水面目标遮挡检测算法,根据遮挡状态下的船舶特点和数据集特性,对网络结构和训练策略进行优化,实现高精度、高实时性的抗遮挡目标检测.1 水面遮挡目标检测算法YOLO是典型的一阶段目标检测算法,相比于两阶段目标检测算法,YOLO系列网络在实时性与精准性上有良好的平衡,被广泛地应用在工业界中.YOLOv5算法模型尺寸小,灵活性高,检测速度快,适合部署在智能船舶中。无人艇摄像头视角低,后方船舶容易被前方船舶遮挡导致可视区域变小,此时前方船舶也因为背景复杂难以分辨.在此场景下,YOLO算法提取得到的有效特征有限,无法利用目标局部特征与周围环境特征.此外,仅通过卷积神经网络滑动提取图像特征,无法将船舶这类细长目标的船首、船尾特征进行有效连接,导致算法检测困难.本研究提出了一种基于多特征聚合的水面目标遮挡检测算法.网络结构见图1,图中骨干网络为堆叠的级联残差块.在骨干网络后新增多尺度感受野特征融合模块,结合船舶可视区域与周围环境信息,提高模型的抗遮挡检测能力.在模型的骨干网络和特征金字塔部分分别添加混合注意力机制,其10.13245/j.hust.240555.F001图1基于多特征聚合的水面目标遮挡检测算法网络结构图一增加模型的长程依赖,可增强船首和船尾间的特征连续性;其二可减少特征融合部分的上下语义冲突,进一步提高了网络的检测性能.1.1 多尺度感受野特征融合结构在卷积神经网络中,每个卷积层的神经元节点都对应着输入层的某一个区域,只有在该区域内的图像特征对下一层的神经元产生影响,称这个区域为神经元的感受野.卷积神经网络的层数越深,感受野越大,而感受野的大小影响特征的提取.感受野小的神经元,只能学习到大尺寸物体的部分特征;感受野大的神经元在检测小尺寸物体过程中,通常会学习到大部分冗余环境信息和无用噪声.因此,实现不同感受野的融合,可以增强对船舶可视区域的特征提取.本研究在经典YOLOv5的骨干网络后添加多尺度特征融合结构,用于实现不同尺度感受野特征的融合.本研究将多尺度感受野特征融合结构分为三部分(见图2):结构1为大小为1×1的卷积层,用于实现通道降维及跨通道之间的信息交互;结构2是实现多尺度特征融合的核心,其中r代表卷积核的空洞率,通过使用不同空洞率的空洞卷积,提取不同尺寸感受野下的特征,使用自适应平均池化提取全局环境信息,实现不同尺度的局部特征与全局特征的融合;结构3为Dropout层,将输入进来的张量的部分元素随机置零,增添了层与层之间的噪声,能够缓解网络的过拟合.10.13245/j.hust.240555.F002图2多尺度感受野特征融合结构图视觉遮挡状态下仅通过遮挡船舶可视部分很难判断船舶类别和实现精准定位.传统的ASPP(空洞空间卷积池化金字塔)仅实现了不同尺度局部特征的融合,而本研究的多尺度特征融合模块通过并行的普通卷积、空洞卷积分支和全局平均池化层,实现了不同尺度感受野下的特征和全局特征之间的融合,使网络能够更加充分利用图像的语义信息,并通过1×1卷积层轻量化网络模型,使用Dropout层防止网络过拟合,增强网络的检测效果.1.2 混合注意力机制在图像输入网络后,经过一系列的卷积层输出特征图,特征图包含丰富的通道信息和空间信息,但并不是所有的特征对后续分类检测任务都是有利的.现有的研究通常在网络中使用注意力机制,突出显著有用特征,抑制无关特征表达.通道信息更注重特征的类别,空间信息更注重特征的位置,分别对两者进行加权处理并融合,能提高下游检测任务的精度.常见的注意力机制包括SENet[19],BAM[20]和CBAM[21]等,但是以上注意力机制是通过一定大小的卷积核提取不同的信息,无法对相隔较远的像素点的信息进行聚合,卷积神经网络中的长程依赖问题依然存在.针对此问题,Self-attention[22]和Non-local[23]等自注意力机制被提出,当提取某个特征的同时,考虑像素点周围的信息和全局上下文信息,但是这也导致了自注意力机制的计算复杂度高.船舶这一类细长的目标,在图像中跨度比较大,船首和船尾的特征无法建立有效连接.基于以上分析,本研究引入基于卷积的混合注意力机制,在保证模型轻量化的同时,混合船长、船高方向上的特征,实现长程特征聚合,算法结构如图3所示.首先,输入特征图,沿特征图的长、高方向对特征图进行池化,得到尺寸为H×1×C和1×W×C的特征图,其中:H为特征图的高;W为特征图的宽;C为特征图的维度.其次,将不同方向上的特征图进行拼接,经过1×1卷积核变换后激活,实现长度方向和高度方向上的跨通道信息交互,增强模型的长程依赖关系.然后,沿空间维度对特征图进行分割操作得到分离的特征图,进行转换激活操作后得到注意力向量.最后,根据注意力向量对原始特征图重新赋予权重,增强特征图的信息表达能力.10.13245/j.hust.240555.F003图3混合注意力机制算法结构图船舶目标细长,在遮挡状态下,后方船舶可能被前方船舶“截断”,前方船舶的背景也变得相对复杂,检测难度变大.通过增强网络的长程依赖性,能够聚合船头和船尾之间的长程特征,增强网络在遮挡状态下的定位精度.1.3 数据重采样策略在内河航道中,不同类别的船舶数目差异大,如果不加处理直接送入网络训练,数量小的目标对损失函数的影响极低,网络在训练过程中会更加偏向于数量较多的目标,造成目标分类错误.针对此问题,本研究设计了一种数据重采样策略,流程图如图4所示,根据目标的数目自适应地调整目标类别的权重,进而调整图片的采样频率,达到样本均衡的目的.首先,遍历人工标注的所有标签,通过直方图统计每个类别的数目;其次,对类别数目的倒数作归一化处理,得到所有图像中每个类别的权重;然后,遍历图像,得到每张图像中每个类别出现的次数,与每个类别的权重按元素相乘,得到数据集每张图像中每个类别的权重;最后,对每张图像中类别的权重进行累加,得到每张图片的权重(image-weights).数量小的目标,每张图片的权重越大,被采样的频率越大,以此来缓解数据集类别数量不均匀带来的影响.10.13245/j.hust.240555.F004图4数据重采样策略流程图2 模型训练与指标验证2.1 实验准备本研究所使用数据集为自建内河数据集和开源新加坡海域数据集[24].内河数据集来自真实长江航道,由部署在长江沿岸的摄像头采集,船舶互相遮挡情况严重,能够真实反映算法在遮挡状态下的检测性能.数据集共计4 216张图片,目标数量分布如表1所示.新加坡海域数据集是由固定在船上的相机拍摄的新加坡水域附近的视频数据.视频随着船舶移动,在各个位置和路线、不同距离船舶之间经常会出现视觉遮挡,同样能够反映本文算法的抗遮挡检测能力.10.13245/j.hust.240555.T001表1长江流域数据集目标分布类别数目占比/%货船20 10983.7客船1290.5渔船1 4626.1集装箱船1680.7浮标2 1599.02.2 评价指标平均精度(AP)是准确率-召回率曲线所围的面积,表示单类物体的检测精度.mAP为所有类别的AP指标的均值,是目标检测中常用的指标之一.算法选用平均精度均值MmAP1和MmAP2作为检测结果的评价指标.MmAP1为当预测框与真值框交并比大于0.5时的所有类的平均精度均值,MmAP2为交并比阈值为0.5到0.95间10个阈值下的平均精度均值,交并比阈值设置得越高,表明对检测框的定位要求越高.2.3 实验结果及分析为验证各项改进算法相较于经典YOLOv5算法在视觉遮挡情况下的检测性能,本研究进行了一系列的消融实验.实验所使用代码全在pytorch1.10环境下运行,训练周期为300,均采用基于COCO数据集训练的预训练模型对权重进行初始化.实验训练与测试的服务器参数如下:Intel(R) Core (TM) i7-8700 CPU@3.20 GHz处理器、16 GiB内存、GeForce GTX 1080Ti显卡、11 GiB显存.2.3.1 多尺度感受野特征融合结构设计本研究设计了三种不同类别的多尺度感受野特征融合结构,结构设计表和消融实验验证结果如表2所示.在只添加结构2的情况下,引入了过多的参数,导致模型过拟合,算法在内河数据集上的精度下降.类别2通过设置结构1对特征图的通道进行降维,降低模型的参数量,在不过多增加模型参数的条件下,融合遮挡船舶可视部分的小尺度特征与背景大尺度特征,增强了网络的抗遮挡检测能力.类别3在类别2的基础上添加结构3,在每个训练批次中以0.5的概率使神经元失活,明显缓和了模型的过拟合现象.经实验验证,类别3性能最佳,因此本研究以类别3作为多尺度感受野特征融合结构的默认设计.10.13245/j.hust.240555.T002表2多尺度感受野特征融合结构消融实验结果表类别结构设置内河数据集参数量/106MmAP1/%MmAP2/%基准YOLOv595.773.47.046 599类别1YOLOv5+结构295.372.38.620 103类别2YOLOv5+结构1+结构295.874.07.638 087类别3YOLOv5+结构1+结构2+结构396.074.67.638 0872.3.2 混合注意力机制插入位置设计注意力模块插入位置的不同,会对算法精度和模型大小产生影响.研究了注意力模块插入位置的三种情况,版本1仅在骨干网络后添加注意力机制,版本2仅在特征金字塔特征拼接部分添加注意力机制,版本3在以上两个部分都添加注意力机制.消融结果实验结果如表3所示.以上三种情况在引入极少参数量的情况下,对基准算法的性能都有提升,其中版本3的性能最佳.在骨干网络后设置混合注意力模块,可以增强网络的长程依赖性,在特征金字塔特征拼接部分添加混合注意力模块,减缓上下语义间的冲突,增强模型的检测效果.在后续实验中以版本3为注意力模块的默认设置.10.13245/j.hust.240555.T003表3混合注意力模块位置设计消融实验结果表版本位置设置内河数据集参数量/106MmAP1/%MmAP2/%基准算法YOLOv5+多尺度特征融合96.074.67.638 087版本1骨干网络96.074.77.688 359版本2特征金字塔96.375.47.764 327版本3骨干网络+特征金字塔96.575.47.814 5992.3.3 整体改进实验本文算法整体消融实验如表4所示,表中:表中方法1为多尺度感受野特征融合;方法2为混合注意力机制;方法3为数据重采样策略.本文算法在长江航道数据集中,MmAP1增加了1.5%,MmAP2增加了3.3%;在新加坡海域数据集中,MmAP1增加了3.2%,MmAP2增加了1.3%.算法在高、低交并比阈值下检测性能都有所提升,表明提出的方法不仅有助于网络预测遮挡状态下目标的类别,还有助于网络实现高精度定位.并且检测时长相较于经典10.13245/j.hust.240555.T004表4整体消融实验结果统计表方法内河数据集新加坡海域数据集单张图片检测时长/msMmAP1/%MmAP2/%MmAP1/%MmAP2/%经典YOLOv595.773.474.651.17.5经典YOLOv5+方法196.074.676.251.27.6经典YOLOv5+方法1+方法296.575.477.151.78.1经典YOLOv5+方法1+方法2+方法397.276.777.852.48.1YOLOv5算法没有大幅提升,检测单张图片所需时间仅为8.1 ms,满足实时性的要求.图5展示了算法改进前后遮挡状态下船舶检测结果对比.货船被前方起重机遮挡,货船可视区域变小,算法提取到的特征相应变小,经典YOLOv5算法的检测框不能完全覆盖船舶,检测精度仅有0.71,如图5(a)所示.本研究提出的抗遮挡算法能够检测出完整的船舶,且检测精度大幅提升,达到了0.90,如图5(b)所示.10.13245/j.hust.240555.F005图5算法改进前后遮挡状态下船舶检测结果对比3 结语本研究设计了多尺度感受野特征融合结构,聚合被遮挡船舶可视区域和周围环境的多尺度局部特征;引入混合注意力机制,聚合船头和船尾的长程特征,可提高遮挡状态下的检测精度;采用数据重采样策略,缓解船舶数据集中常出现的数据不均匀问题,使算法精度有了进一步的提升.将改进后的算法与经典YOLOv5算法的检测结果作对比,表明算法能有效提高视觉遮挡下的水面目标定位精度和分类准确率,能为未来船舶智能航行以及海事监管提供技术支持.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读