声学探测是水下目标探测的主要技术手段,然而声波物理特性造成声纳图像存在噪声严重、明暗变化剧烈、目标边界模糊、目标变形等诸多不足,这使得基于声学图像的水下运动目标技术面临着某些独特的技术挑战.Quidu等[1]提出一种结合卡尔曼滤波器的改进状态模型,通过使用一系列连续的水声信号来估计障碍物与声纳位置的关系.Hurtós等[2]提出一种结合前视声纳和多波束数据的链节探测器,实现对链节检测、跟踪和绘制的框架.Blanding等[3]提出了一种基于ML-PDA的跟踪算法,降低了跟踪过程的虚警.Sheng等[4]提出一种采用云状模型数据关联算法的CMM跟踪方法,解决了多目标错误关联而无法跟踪或错误跟踪的问题.荆丹翔等[5]提出基于序贯蒙特卡罗的概率密度假设滤波方法,提升了跟踪过程的计算效率.Demarco等[6]提出了一种采用高频前视声纳对潜水员进行探测和跟踪的方法,实现目标跟踪.Zhang等[7]提出一种基于高斯粒子滤波的跟踪方法来解决杂波环境下的持续多目标跟踪问题.Gao等[8]提出了一种利用特征检测器和特征描述子来描述目标,实现了利用特征进行有效的水下动态目标跟踪.Petillot等[9]提出了一种基于分割和基于对象的特征提取相结合的跟踪器,并采用最近邻算法对检测目标进行匹配,提高了跟踪过程的精度和鲁棒性.Ye等[10]提出了将FCN和Siamese网络结合起来进行移动小目标跟踪的方法,该方法可以有效地进行单目标跟踪.虽然已开展了上述诸多的研究工作,但由于声探测传感器的特点及其成像机理的复杂性,声纳图像会存在大量噪声,水下目标在运动过程中其外观也又会产生较大形变,因此造成目标主体区域图像特征较为稀疏,使得特征提取网络难以提取有效信息.传统方法通常采用降噪后的声纳图像进行跟踪处理,然而,这也将滤除能够表征形状或材质特性的目标散射噪声,消弱了目标区域特征的表述能力,因此目前所提方法在具体应用方面还有待进一步改进与完善.针对上述问题,本研究进一步提出基于扩展目标框的DeepSORT水下目标改进跟踪方法.通过将改进的Faster RCNN作为检测器,扩展传入跟踪器的检测框,增大DeepSORT跟踪器的感受野,提升网络感受目标特征噪声能力,丰富目标主体特征,进而提高跟踪网络的稳定性.1 跟踪方法1.1 传统DeepSORT方法传统DeepSORT方法以Faster RCNN作为检测器,将目标框的位置和尺寸信息作为状态变量,利用卡尔曼滤波对目标位置进行预测[11],有X=[xc,yc,w,h,x˙,y˙,w˙,h˙]T,(1)式中:xc和yc分别为目标检测框中心点横坐标和纵坐标;w和h分别为目标框的宽和高;x˙,y˙,w˙,h˙分别为对应变量的变化速率.该方法在SORT方法的基础上引入了级联匹配,通过计算预测目标与检测目标之间的马氏距离和余弦距离获取代价矩阵,从而提高了目标匹配的精度[12].马氏距离d(1)和余弦距离d(2)分别为d(1)(i,j)=(dj-yi)TSi-1(dj-yi);(2)d(2)(i,j)=min{1-rjTrk(i)rk(i)∈Ri},(3)式中:dj为第j个目标框的检测值;yi为第i个跟踪器对目标的预测值;Si为检测值与预测值之间的协方差矩阵;rj为通过神经网络提取到的当前第j个目标检测值框的特征向量;rk(i)为第i个跟踪器历史k帧中跟踪结果的特征向量,k通常取100,Ri={rk(i)}k=1100为取值空间.当d(1)满足阈值要求时,匹配成功.匹配成功时的马氏距离bi,j(1)=I[d(1)(i, j)≤t(1)],(4)式中:t(1)为马氏距离阈值;I为指示函数.当d(2)满足阈值要求时,匹配成功.匹配成功时的余弦距离bi,j(2)=I[d(2)(i, j)≤t(2)],(5)式中t(2)为余弦距离阈值.综合考虑两种度量,可得代价矩阵ci,j=λd(1)(i, j)+(1-λ)d(2)(i, j),(6)式中λ为调和因子,用于平衡马氏距离与余弦距离.当代价矩阵满足两种距离阈值要求时匹配成功.图1为Deep SORT的整体框架,图中:Fmin为轨迹确认最小帧数;Fmax为轨迹中断最大存活帧数;IOU为预测目标框与检测目标框的交并比.DeepSORT方法引入了目标的外观信息,有效发挥了深度学习强大的特征提取能力,达到了较好的ReID(目标重识别)性能,并在目标遮挡情况下也能有较好的跟踪性能,有效抑制了ID变更和轨迹中断现象.10.13245/j.hust.230224.F001图1Deep SORT跟踪框架1.2 基于扩展目标框的Deep SORT改进方法声纳图像与光学图像最显著的区别之一在于声纳图像中存在大量干扰,这些干扰包括环境噪声、自噪声和混响[13],其中混响包括体积混响、水面混响和水底混响[14].这些干扰可分为两类:一类是由目标所处的物理介质和物理边界所引起的干扰,如环境噪声、水面混响和水底混响;另一类是由水中散射体对声波的不规则散射造成的,如体积混响.散射体的构成较为复杂,包括水中的杂质、潜水员呼出的气体形成的气泡,以及潜水员划水产生的水流等.此外,由于目标物的形状或材质的不同,同样可能产生多样化的散射,这些散射在一定程度表征了目标物的特征信息.因此,声纳图像中的干扰可分为包含目标物特征信息的特征干扰和不包含目标物特征信息的附加干扰,特征干扰可作为有效信息用于丰富目标主体特征,但传统方法则将所有干扰进行滤除处理.基于上述理论,本研究提出基于边界框扩展的DeepSORT算法,算法框架如图2(b)所示.10.13245/j.hust.230224.F002图2目标跟踪框架以检测器输出的目标检测框为基础,以扩展率Hexp进行等比扩展,得到扩展目标框(xexp,yexp,wexp,hexp)扩展表达函数为xexp=xc;yexp=yc;wexp=wHexp;hexp=hHexp.图3为声纳图像中原始目标框(红)与扩展目标框(绿)对比.由图3可见:与DeepSORT跟踪框架相比,由于检测框的扩展,因此使网络可以充分感受目标周围的特征干扰,从而丰富目标的特征信息.10.13245/j.hust.230224.F003图3声纳图像中原始目标框(红)与扩展目标框(绿)对比为了获取最佳的扩展比率,并验证目标框扩展方式对特征提取网络的性能影响.采用Mobile-Net网络和ResNet50网络作为分类网络进行测试,测试结果如图4所示,图中Pacc为分类精度.10.13245/j.hust.230224.F004图4不同扩展比率下分类网络的分类精确度对比由图4结果可见:目标框扩展后,分类网络的分类精度得到了提高,而且网络的收敛稳定性也得到了改善.当扩展率为3时,分类精度达到最高,因此本研究扩展比率数值取为3.表1为采用不同特征提取网络的DeepSORT网络对同一段潜水员声纳序列的跟踪结果,可见选择不同的特征提取网络对跟踪结果的影响差异较小,因此从网络轻量化的角度出发,选取MobileNet网络作为跟踪模块的特征提取网络.10.13245/j.hust.230224.T001表1不同特征提取网络对DeepSORT的影响特征提取网络ID变更次数轨迹中断占比/%帧/sMobileNet v222.599.989ResNet5022.619.544图5为检测器结构框架,图中RPN为区域候选框网络.检测器模块采用改进的Faster RCNN网络[15].其中主干网络采用ResNet50网络替换原始的VGG网络,在保证检测精度前提下减少了网络参数量.为了提高网络对不同尺度目标的检测效果,加入特征金字塔结构(FPN)[16],并使用Mask RCNN结构中的RoiAlign替代传统的RoiPool结构,改进了传统过程中的量化取整过程,使目标定位更加准确[17].10.13245/j.hust.230224.F005图5检测器结构框架2 实验结果分析2.1 实验测试方案设计为了验证本文算法的有效性,利用水池环境探测数据对该方法进行了验证.试验在哈尔滨工程大学水下机器人国防科技重点实验室水池进行.选用BlueView M900-130多波束前视声纳进行实验,声纳工作频率为900 kHz,最大探测距离为100 m,视角范围为130°.试验目标为球体、轮胎和潜水员3类目标,如图6所示.10.13245/j.hust.230224.F006图6数据集中3类目标(左)及其声纳成像(右)基于本研究所提出的跟踪框架,将前视声纳探测数据分为目标检测数据集和目标跟踪数据集两类.其中目标检测数据集包括约1 200张声纳图像,按1∶1划分为训练集和验证集,并对训练集进行对比度调整和仿射变换,以满足网络泛化要求.最终得到训练集约3 600张图像,验证集约600张.目标跟踪数据集分为无干扰跟踪集和有干扰跟踪集,两者区别在于是否存在目标运动路径交叉、目标遮挡等情况.无干扰跟踪集包括16段前视声纳视频序列,有干扰跟踪集包括2段目标路径交叉的前视声纳视频序列.根据所构建的数据集,分别设置了三组实验测试跟踪性能.实验中,检测器保持一致,都采用ResNet50+FPN结构的Faster RCNN网络,跟踪器分别采用SORT,DeepSORT和提出的基于扩展目标框的DeepSORT,选取Sid (ID变更次数)和Rfrag (轨迹中断占比)作为跟踪性能评价指标,其示意图如图7所示.目标ID为目标身份识别序号,在同一条轨迹线上,当目标的ID发生变化时,记作一次Sid.在同一条轨迹线上,当真实目标没有分配ID时,称为轨迹中断.轨迹中断的帧数Fbreak占该轨迹总帧数Ftotal的比例称为轨迹中断占比,有10.13245/j.hust.230224.F007图7目标跟踪评价指标示意Rfrag=Fbreak/Ftotal.2.2 无干扰情况下的跟踪结果实验中,采用13个单目标声纳视频序列和3段双目标声纳视频序列作为无干扰情况下跟踪数据,进行性能测试.部分测试结果如下所示.图8为对单个潜水员折返游动的跟踪结果,其中不同颜色的轨迹点代表不同的目标身份ID.由图8(b)可见,SORT方法在跟踪过程中存在大量的ID变更,从图8(c)可见DeepSORT方法可有效改善ID变更次数.图8(d)表示本文方法跟踪结果,可见对单个潜水员的跟踪过程没有出现ID变更,表明本文方法具有较好的跟踪稳定性.10.13245/j.hust.230224.F008图8单个潜水员折返游动跟踪结果表2为各类目标跟踪过程ID变更次数对比图,可见本文方法较SORT方法和传统DeepSORT方法可有效抑制大多数目标ID变更.但对于假人目标,本文方法ID变更次数较传统DeepSORT方法有轻微增加.表3为各类目标轨迹中断占比对比图,可见本文方法相对于SORT方法和传统DeepSORT方法在抑制轨迹中断性能上有较大改善.此外,结合表2~3:在对假人目标的跟踪过程中,传统DeepSORT方法较本文方法有更多的帧数处于连续轨迹中断中,这也是导致假人目标ID变更次数略低于本文方法的原因.在所有类别的跟踪结果中,本文方法对潜水员跟踪效果相对其他类别目标改进效果最好,这是由于潜水员呼吸时产生的气泡具有较强的图像特点,使得潜水员的特征干扰更为明显,因此相对于其他类别目标具有更为明显的性能提升.10.13245/j.hust.230224.T002表2不同类别Sid指标对比目标种类SORTDeepSORT本文方法球体潜水员轮胎71613210820410.13245/j.hust.230224.T003表3不同类别Rfrag指标对比目标种类SORTDeepSORT本文方法球体潜水员轮胎9.220.832.54.64.016.83.90.412.1%表4为不同跟踪方法评价指标对比.由表4可见:本文方法对目标跟踪的稳定性有较大的改善,其中ID变更指标相对于SORT方法降低了83.3%,相对于DeepSORT方法降低了70.0%,表明本文方法可有效抑制ID变更.从轨迹中断指标来看,本文方法相对SORT方法在轨迹中断占比上下降了15.49%,而相对于传统DeepSORT方法下降了2.93%,表明本文方法具有更好的跟踪连续性.结合各项指标来看,本文方法可以明显改善无干扰情况下目标跟踪的连续性和稳定性.10.13245/j.hust.230224.T004表4不同跟踪方法评价指标对比跟踪方法SidRfrag/%SORT3620.32Deep SORT207.76本文方法64.832.3 有干扰情况下的跟踪结果对于有干扰跟踪场景,本研究采用两段声纳序列,测试在目标轨迹路径交叉情况下跟踪网络的跟踪稳定性.图9为两种场景下路径交叉轨迹示意图,分别为垂直交叉和相向交叉,图10为本文方法在声纳图像上的跟踪结果.10.13245/j.hust.230224.F009图9交叉轨迹示意图10.13245/j.hust.230224.F010图10所提方法在声纳图像上的跟踪结果图11为轨迹交叉场景一的跟踪结果.由图11(a)可见:对于传统方法,目标1和目标2的轨迹在交叉时都出现了中断,且出现了频繁的ID变更.在图11(b)所提方法的跟踪结果中,实现了对目标1的连续且稳定的跟踪,目标2在交叉后也只出现了1次ID变更.10.13245/j.hust.230224.F011图11轨迹交叉场景一跟踪结果图12为场景二的跟踪结果.由图12(a)可见:对于传统方法,跟踪稳定性较差,目标相遇后,错误地将2号目标的ID分配给了1号目标,并且出现了频繁的ID变更.在图12(b)本文方法跟踪结果中,实现了对目标2的连续且稳定的跟踪,且目标1只出现了极少的ID变更.10.13245/j.hust.230224.F012图12轨迹交叉场景二跟踪结果表5为不同场景下的评价指标.如表5所示,从评价指标来看,改进后的方法相对于传统DeepSORT方法ID变更次数下降为原始的1/5,在轨迹中断占比上下降了2.17%,表明本文方法可有效改善有干扰情况下目标跟踪的稳定性.10.13245/j.hust.230224.T005表5不同场景下的评价指标跟踪方法SidRfrag/%传统Deep SORT1513.04改进DeepSORT310.873 结语本研究通过分析前视声纳图像的成像特性,提出了一种基于扩展目标框的改进DeepSORT目标跟踪方法,采用ID变更和轨迹中断占比作为评价指标,实验对比结果表明:本文方法可有效改善声纳图像中目标跟踪的稳定性,并且在路径交叉情况下也能有较为稳定的跟踪性能.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览