随着人工智能、机器学习等技术的广泛引用,船舶行业逐渐朝着无人化和智能化方向发展[1].水面图像的目标检测技术作为船舶环境感知的重要组成,是未来船舶无人化和智能化的前提和基础,逐渐成为当前智能船舶研究领域的热点.文献[2]将基于深度学习的目标检测算法应用在水面图像目标检测中,检测精度和速度较基于手工特征的传统目标检测技术有明显提升.文献[3]构建了自主巡航的无人船系统,并将YOLO (you only look once)算法应用在无人船系统的目标检测中,通过实船试验验证了无人船的水面目标检测功能.随着对水面图像目标检测技术研究的深入,文献[4]发现特征提取结构对目标检测算法的性能提升有较大影响.特征提取结构的作用是对输入图像进行特征提取,获取并整理特征图,然后将特征图送入后续流程中进行目标检测,即建立输入图像与目标检测算法所需特征图的映射关系,包括提取特征的骨干网络部分和整理特征的特征金字塔部分.主流的骨干网络包括VGG (visual geometry group)[5]、DarkNet[6]、ResNet[7]等.文献[4]使用ResNet网络替换YOLO算法的骨干网络DarkNet,在水面图像目标检测中获得了精度提升.为进一步增强特征图的语义信息,对骨干网络输出的特征图进行重组.文献[8]提出了特征金字塔,利用骨干网络的输出构建包含多层不同尺度特征图的特征金字塔,为后续目标检测任务提供语义信息更加丰富的多层特征图.文献[9]使用特征金字塔改进了Faster R-CNN的特征提取结构,提高了算法在遥感影像船舶上的检测精度.目前,水面图像目标检测的研究中针对特征提取的较少,没有考虑目标在不同场景的几何变换及使用全局信息增强特征语义.基于此,本研究提出了一种新的特征提取结构,首先,使用可变卷积替换传统卷积,提升骨干网络对目标几何变换的特征提取能力;然后,在特征金字塔中使用基于语义信息的特征重组,在全局感受野下自适应聚合特定目标的特征信息;最后,通过实海域图像目标检测试验进行验证.1 可变卷积对于同一物体,在不同场景或不同拍摄角度,存在着未知的几何变换,影响目标检测算法的特征提取.传统卷积使用规则的窗口进行卷积计算提取特征,难以应对目标的几何变换,如图1(a)所示.可变卷积通过给卷积采样点增加位置偏移量,打破规则窗口的束缚,能更好地适应目标的几何变换,如图1(b)所示.10.13245/j.hust.210424.F001图1传统卷积与可变卷积传统卷积分两步:第一步使用规则窗口λ对输入特征图x进行采样,第二步对采样值进行ω加权.假定传统卷积核大小为3×3,若其规则窗口中心采样点为原点(0,0),则规则窗口为λ={(-1,-1),(-1,0),(-1,1),(0,-1),(0,0),(0,1),(1,-1),(1,0),(1,1)},λ中每个取值均代表规则窗口的一个采样点位置.对输出特征图y上任意位置P0有y(P0)=∑Ln∈λω(Ln)x(P0+Ln),式中Ln为λ中所列位置的枚举(n=1,2,…,N,其中N=λ).在可变卷积中,给予λ中所列采样点偏移量{ΔLn},给予各采样点位置幅值系数Δwn,有y(P0)=∑Ln∈λω(Ln)x(P0+Ln+ΔLn)Δwn.由于ΔLn可能为小量,使得偏移后的采样点位置坐标非整数,因此须双线性插值处理,即x(p)=∑qG(q,p)x(q)式中:p=P0+Ln+ΔLn;q为枚举输入特征图x上所有位置坐标;G(·)为双线性插值核函数,满足G(q,p)=g(qx,px)g(qy,py),g(a,b)=max(0,1-a-b).为自适应获得ΔLn和Δwn,卷积过程中并联一层传统卷积神经网络,如图2所示,图中3N为三维偏移卷积核,分解即得位置幅值系数、横向偏移量和纵向偏移量.通过并联的卷积层,可变卷积能够自适应地获得卷积采样点的偏移参数.10.13245/j.hust.210424.F002图2可变卷积网络结构图水面图像目标几何形状变化多样,通过可变卷积的卷积采样点自适应偏移,骨干网络能增强对物体几何变换的适应能力,从而在复杂多变的水面图像中提取更加有效的特征.2 基于语义信息的特征重组骨干网络层数较深,各层提取的特征图数量较多,且尺度和语义信息不同,须对骨干网络各层提取的特征图进行有效的特征重组,从而便于后续算法通过特征对目标进行检测.骨干网络一般拥有数十层卷积,各层输出的特征图具有一定的多尺度检测能力和层次结构.特征金字塔策略利用了骨干网络这一特点,以骨干网络部分层输出的不同尺度和语义强度的特征图作为输入,搭建一个自顶向下、带有侧向连接的多层特征图结构.这一策略目前已被众多目标检测网络所采纳,提高了检测算法的多尺度检测能力,获得了较为明显的精度提升.在特征金字塔自顶向下的结构中,一般采用双线性插值上采样.双线性插值上采样仅通过像素点的空间位置来决定上采样核,感受野很小,并没有利用全局语义信息,是一种均匀的上采样方式.对于水面图像,天空、水面、水天线等全局信息对于目标的检测具有辅助作用,在传统目标检测时代,许多学者对于水面目标的检测较为依赖海天线等图像全局信息,因此在针对水面图像目标检测中,利用图像的全局语义信息具有一定意义.为解决双线性插值存在的问题,有效利用单特征图的全局语义信息,自适应地进行上采样特征重组,本研究使用基于语义信息的特征重组方法改进了特征金字塔,如图3所示.10.13245/j.hust.210424.F003图3基于语义信息的特征重组基于语义信息的特征重组分为上采样核自适应生成模块和特征重组模块两个模块.在上采样核自适应生成模块中,首先,为减少后续操作计算量,对高为H、宽为W、通道为C的输入特征图进行通道压缩,使其通道为Cm;然后,通过卷积核尺寸为Kenc×Kenc的卷积层自适应获得尺寸为Kup×Kup的上采样卷积核,其数量为HWσ2,其中σ为特征图尺寸缩放倍数;最后,将所有上采样核归一化,使其权重和为1.特征重组模块接受上采样核自适应生成模块输出的上采样核,并对每个上采样核从输入特征图中取出与其相映射的Kup×Kup大小的区域进行点积,得到高宽通道为σ2HWC的输出特征图.由于采样核基于全局语义信息自适应生成,在上采样过程中,可利用已自适应习得的语义信息将特征图中的特征进行重组,从而输出具有强语义信息的特征图.通过基于语义信息的特征重组,对获取的特征图进行全局感受野下的特征融合,使得提取的目标特征具有全局的视野和信息,从而提高水面图像的目标检测精度.3 强语义特征提取结构通过可变卷积和基于语义信息的特征重组,本研究提出了一种强语义特征提取结构,如图4所示.对于输入图像,首先通过一层残差块和三层可变卷积残差块分别提取四层不同尺度的特征图,残差块由传统卷积的恒等映射组成,可变卷积残差块由可变卷积的恒等映射组成;然后,上一尺度的特征图进行基于语义信息的特征重组,再与下一尺度特征图进行通道叠加;最终获得四层具有强语义信息的特征图f1~f4,并组成特征金字塔用于后续的目标检测任务.10.13245/j.hust.210424.F004图4强语义特征提取结构4 对比试验与结果分析为验证本研究提出的强语义特征提取结构的有效性,将其应用在主流目标检测算法上进行对比试验.4.1 试验准备试验所采用的数据集来自上海交通大学举办的“2020海上争锋”B组比赛,该数据集由无人艇在海上实拍的视频分帧组成,数据集图像带有水印,代表拍摄时间和船舶编号,共4 400张图像,其中训练集4 000张,测试集400张,分辨率均为1 920×1 080.为便于分析,按照COCO (common objects in context)数据集标准[10]划分目标尺度并进行统计,数据集目标统计结果如表1所示.10.13245/j.hust.210424.T001表1实海域图像数据集目标统计ThisBarrierCoast占比/%大目标4 4001 8922 97044.8中目标02 65012013.4小目标08 657041.8总计4 40013 1993 090100.0表1中:This类为本船;Barrier类为海上障碍物;Coast类为海岸.为公平比较,试验采用统一的硬件平台和软件环境.硬件平台为Intel(R) Core(TM) i7-8700 CPU@3.20 GHz处理器、16 GB内存、GeForce GTX 1080 Ti显卡、11 GB显存.软件环境为Ubuntu 18.04,Python3.7,PyTorch1.6,torchvision0.7,mmcv1.1.3和mmdet2.4.0.试验设置统一的训练过程,训练算法为随机梯度下降法,训练总周期为12,批次为2,学习率为0.002 5,在初始0~500次迭代中使用线性学习率预热策略,第7个周期后使用学习率衰减策略.在模型参数上,骨干网络输出的四层特征图通道数分别为256,512,1 024,2 048,特征重组中:Kenc=3;Kup=5;σ=2;C/Cm=64.4.2 评价指标目标检测算法的评价指标分为速度指标和精度指标.速度指标常采用帧率、参数量和浮点计算量.帧率即模型每秒处理的图像数量;参数量即模型的自学习参数数量;浮点计算量即模型推理过程中的浮点数计算量.精度指标采用平均精确度P和平均召回率R.在目标检测算法输出检测框后,计算各检测框与各真实框间的交并比,交并比大于阈值则该检测框与该真实框对应,即该检测框检测出该真实目标,否则为该检测框未检测该真实目标.有P=TP/(TP+FP),式中:TP为检测出真实目标的检测框数量;FP为未检测出真实目标的检测框数量.又有R=TP/(TP+FN),式中FN为没有被检测框检测的真实目标数量.4.3 实海域图像目标检测对比试验为证明本研究提出的强语义特征提取结构对于水面图像目标检测算法性能提升的通用性,选择了Faster RCNN[11],Cascade RCNN[12]和RetinaNet[13]算法进行对比试验,其中Faster RCNN和Cascade RCNN属于使用较为广泛的两阶段目标检测算法,RetinaNet属于使用较为广泛的一阶段目标检测算法.对比试验中,以ResNet50搭配特征金字塔为基准(Baseline)算法,Ours为本研究所提出的特征提取结构,训练过程中的损失对比如图5所示,图中:L为损失数值;I为迭代次数.由图5可知本研究提出的特征提取结构并不明显影响目标检测算法的训练过程.10.13245/j.hust.210424.F005图5检测算法训练过程中的损失对比不同特征提取结构的各检测算法的速度对比结果如表2所示.由表2可知:本研究提出的特征提取结构较基准结构在参数量上增加约7×106;在浮点计算量上增加约10×109,相较各检测算法,在时间复杂度上增加约为2%;在帧率上,各检测算法减少幅度约为10%,故改进结构对检测算法的实时性影响较小.10.13245/j.hust.210424.T002表2目标检测速度对比结果目标检测算法特征提取结构参数量/106浮点计算量/109帧率/(帧·s-1)Faster RCNNBaseline41.13405.06.06Faster RCNNOurs48.44415.35.26Cascade RCNNBaseline69.17433.15.05Cascade RCNNOurs76.48443.44.48RetinaNetBaseline37.74485.66.17RetinaNetOurs45.05495.95.52搭载不同特征提取结构的各检测算法在精度上的对比结果如表3所示,表中:Ps,Pm,Pl分别为小目标、中目标、大目标的精确度;P2为阈值取0.5~0.95间10个数值时的平均精确度;Rs,Rm,Rl分别为小目标、中目标和大目标的召回率;R2为阈值取0.5~0.95间10个数值时的平均召回率.本研究提出的特征提取结构能明显提高目标检测算法的平均精确度.对于Faster RCNN算法,改进后的特征提取结构能将P2提升约10%,其中Ps提升幅度约为37%,Pm提升幅度约为37%,Pl提升幅度约为8%.召回率的提升较为平缓,R2,Rs,Rm,Rl的提升幅度分别约为5%,20%,23%,3%.对于Cascade RCNN算法,改进后的特征提取结构能将P2提升约5.5%,其中召回率的提升更为明显,达到了12%.对于RetinaNet算法,强语义特征提取结构所带来的提升更为明显,P2提升约为11.3%,对小尺度目标的提升幅度更为明显,达到了约90%.10.13245/j.hust.210424.T003表3目标检测精度对比结果目标检测算法特征提取结构P2PsPmPlR2RsRmRlFaster RCNNBaseline0.5870.1410.3340.6340.6550.2370.4290.719Faster RCNNOurs0.6290.1940.4590.6840.6900.2870.5300.746Cascade RCNNBaseline0.6320.1660.3100.6740.6920.2800.3800.754Cascade RCNNOurs0.6670.2370.3900.7300.7750.3350.4740.778RetinaNetBaseline0.5240.1180.2670.5710.6440.2970.3940.692RetinaNetOurs0.5830.2290.4500.6560.6740.3760.5620.734%一般来说,目标检测算法的精度提升是比较困难和有意义的.利用本研究方法改进后的三大目标检测算法精度均有较大的提升,从侧面验证了本研究所提出的强语义特征提取结构能够有效提高目标检测算法在水面图像目标检测上的精度,从而为实际的工程应用和技术发展提供建议.为直观分析本研究提出的特征提取结构的作用,本研究对基准结构和本研究结构输出的各层各通道特征图进行了可视化,部分单通道特征图可视化结果如图6所示,图6(a)图像为海上船载摄像机实拍图像.10.13245/j.hust.210424.F006图6特征图可视化在图6(b)中,天空和海洋较为混杂,边界不清晰,即基准结构对于图像全局的语义信息提取能力不足.而图6(c)中,天空和海洋界限较为分明,边界清晰,即本研究结构对于图像全局语义信息的提取要优于基准结构.在图6(b)中,基准结构提取的特征图中目标周围较为模糊,与周围背景差异不强.而图6(c)中,本研究结构提取的特征图目标更为清晰,尤其小目标处与周围背景存在明显差异(为直观展示,已用红框框出),从而能为后续目标检测流程提供有力支撑.5 结语由于船舶航行环境的复杂性和多样性,水面图像场景多变,增加了特征提取的难度,从而影响了水面图像目标检测算法的性能.针对这一问题,本研究设计了一种强语义特征提取结构,通过可变卷积和基于全局语义信息的特征重组,提高特征图的语义信息,从而提高水面图像目标检测算法的精度.实海域图像目标检测试验表明该结构提高了水面图像的特征提取效果,从而提升了目标检测算法的精度,为未来船舶的智能化和无人化发展提供了技术支持.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览