随着航空业的快速发展和空中航线不断增加,飞行器和鸟类对空域的争夺愈发激烈,严重影响了飞行器起飞和降落的安全性,该问题受到国内外相关专家与从业人员的高度重视[1].因此针对机场鸟群计数与定位方法的研究具有重要意义,鸟群计数的目的是估算图像或视频中出现鸟类的数量,鸟群定位是在鸟群计数的同时识别场景中每个实例的位置和尺度大小.而性能良好的鸟群计数和定位算法还可以应用到其他视觉领域,如公共安全[2]、交通管理[3]、环境保护[4]、农业监控[5]和医学病历分析[6]等,具有重要的现实意义和应用价值.本研究立足于机场运营安全的角度,采用深度学习和人工智能技术,从计算机视觉的方向研究轻量且高效的机场鸟群计数与定位方法.在现有的飞鸟计数与定位方法中,文献[7]采用级联目标检测的方法[8]对飞鸟目标进行计数与定位,但该研究采用目标检测技术较为早期,检测效果不佳.文献[9]采用卷积神经网络和滑动窗口的方法在高分辨率航拍图像中对海洋鸟类进行计数与定位,但在图像检测过程中存在耗时速度长等问题.文献[10]在YOLOv5的基础上采用坐标注意力机制对网络进行改进,用于实现对飞鸟小目标的检测.机场鸟群检测任务主要面临四个困难:a.鸟群图像中飞鸟数量多,飞鸟目标小;b.鸟类形态变化多样,且存在严重的遮挡;c.飞鸟目标在不同图像之间尺度变化严重;d.目前公开的鸟类数据集大多侧重于鸟类分类,每张图片中通常包含少量鸟类,并且拍摄距离较近,无法应用于鸟群计数和定位的研究.为克服上述困难,受人群计数和定位任务[11-13]的启发,本研究利用点级注释和聚焦逆距离变化算法(FIDT)算法[14]制作鸟群数据集,提出一种轻量型高分辨率的鸟群场景识别网络(BFSRNet),用于实现鸟群计数和定位.该网络以高分辨率网络(HRNet)[15]为基础架构,使用非对称卷积(asymmetric convolution)[16]和Ghost模块[17]对网络进行轻量化,并在网络的第四阶段引入联合金字塔上采样模块(JPU)[18]提升模型对多尺度特征的融合能力.此外,还提出联合使用负样本抑制损失函数[19]用于监督网络的训练过程,使网络更加关注于鸟类目标,加快模型收敛速度.为验证所提出模型的有效性,在所制作的鸟群数据集和公开的人群数据集上进行了实验,并与其他先进方法进行对比分析.实验结果表明:本方法可以有效实现对鸟群的计数的定位,且具有较高的鲁棒性和泛化性能.1 鸟群场景识别网络1.1 网络结构针对机场鸟群检测任务存在的飞鸟数量多、飞鸟目标小和鸟类之间遮挡严重等困难,提出一个轻量型高分辨率的鸟群场景识别网络,网络的总体结构如图1所示.本研究对高分辨率网络进行了两方面改进:a.采用非对称卷积和Ghost模块构造出一种新的残差模块ACGhost,该模块分为ACGblock模块和ACGneck模块,并使用ACGhost对高分辨率网络所应用的残差模块进行了替换;b.为降低HRNet直接对四个尺寸特征图进行插值上采样带来的精度损失,在网络的第4阶段引入一种新型高效的联合金字塔上采样模块,可以在不损失模型性能的情况下,有效减少模型参数量和内存占用,获得高质量的最终特征图.10.13245/j.hust.230513.F001图1BFSRNet网络总体结构1.2 ACGhost模块参照残差网络[20]中的Bottleneck和Basicblock模块结构,利用非对称卷积和Ghost模块构造了新颖残差模块ACGblock和ACGneck,使用ACGblock和ACGneck将高分辨率网络所采用的残差模块进行替换,这一设计可以有效降低HRNet网络复杂度,在减少参数数量的同时使网络获得丰富的特征图,并在网络推理阶段通过对非对称卷积的核参数进行融合以达到不增加计算量的目的.Ghost模块的主要思想为:提出一种冗余特征图线性变换机制,该机制将原始卷积层拆解为两部分:首先采用普通卷积方式使用较少的卷积核来生成部分原始特征图;然后通过对已经生成的特征图进行简单的线性变换产生剩余的特征图.本研究将特征图线性变换缩放系数S设置为2,用来生成冗余特征图,根据文献[17],使用冗余特征图线性变换机制可获得的理论加速比rs和参数压缩比rc的计算式为rs=Cink2SCink2+(S-1)d2≈S;(1)rc=CoutCink2SCoutCink2+(S-1)Coutd2≈S,(2)式中:Cin为输入通道数;Cout为输出通道数;d为线性变换卷积核大小;k为卷积核尺寸;S为缩放系数.鸟类在飞行过程中的姿势形态多变,为了在有限的计算资源情况下增强网络特征提取能力,提升网络模型对图像翻转和旋转的鲁棒性,对网络设计引入非对称卷积.非对称卷积是由三个尺寸分别为3×3,1×3和3×1的卷积核组成,可以对输入飞鸟特征进行3条路径的卷积操做,之后对3条路径的输出特征进行融合,获得丰富的特征图.本研究利用非对称卷积和Ghost 模块构造了一种新颖的ACGhost模块,该模块分为ACGblock模块和ACGneck模块,其结构如图2所示.10.13245/j.hust.230513.F002图2ACGhost模块结构图1.3 联合金字塔上采样模块为使网络进一步产生高质量的密度图,降低HRNet直接将对4个尺寸特征图进行插值上采样带来的精度损失,引入一种新型高效的联合扩张卷积上采样模块(JPU)应用到高分辨率网络的第4个阶段,这一模块可以在不损失模型性能的情况下,有效降低模型参数量和内存占用,获得高质量的最终特征图.联合金字塔上采样模块如图3所示.首先,使用3×3卷积核大小的卷积将高分辨率网络第4个阶段所产生的4个不同尺寸特征图调整到相同的通道数,目是将所有输入特征都映射到相同的空间中,从而更好地实现融合并降低模型参数量;其次对生成的特征图进行上采样和连接,得到yc;然后并行使用扩张率分别为1,2,4和8的4个扩张卷积从yc中提取特征;最后并行连接得到yd.这种联合使用多扩张卷积的操作可以从多级特征图中提取多尺度上下文信息,从而获得更好的性能.10.13245/j.hust.230513.F003图3联合金字塔上采样模块1.4 联合损失函数在鸟群场景中,高密度区域与低密度区域或背景的局部模式和纹理特征相比存在较大差别,并且负样本(背景)的数量远大于正样本(飞鸟)的数量,而且多是容易进行分类的,占总损失的大部分,这种样本类别不平衡的情况容易导致模型陷入局部最优,难以达到满意的结果.为此,本研究在文献[14]所提出的损失函数基础上结合负样本抑制损失函数作为联合损失函数,联合损失函数定义为L=L2+LIS+φLnsf,(3)式中:φ为控制负样本抑制损失函数权重的超参数;L2为欧里几德损失;LIS为区域结构损失函数;Lnsf为负样本抑制损失函数.负样本抑制损失函数定义为Lnsf=-1Z∑j∈I(1-Rj')γlnRj'    (Rj=1);(1-Rj)δ(Rj')γln(1-Rj')16    (其他), (4)式中:Z为图像I中的鸟类数量;Rj为监督图中第j点的像素值;R'j为对第j像素点预测的可能性;γ为控制易分类样本权重的参数;δ为降低鸟类周围背景比例的惩罚参数.2 仿真实验和分析2.1 鸟群数据集通过在机场附近实地拍摄和网络搜集鸟群图片,选取1 179张图片作为数据集.考虑到鸟类和飞机形状相近,为了提高模型预测的准确性,避免出现将飞机判定为鸟类的情况,数据集中包含了106张鸟群与飞机同时存在的图片,不仅如此,数据集中还包含了67张飞机单独存在的图片作为负样本,帮助模型提高泛化性能.当制作数据集时,利用文献[21]提供的标注工具,采用点级注释对每幅图像中的鸟类进行标注,并使用聚焦逆距离变换算法产生FIDT图监督网络训练过程.FIDT算法定义为F=1/(E(x,y)αE(x,y)+β+Q),(5)式中:(x,y)为飞鸟位置的点坐标;Q为一个附加常数,设置为1,用来防止被零除;α和β为衰减系数,可以加快远离头部中心位置衰减速度,并在背景中迅速衰减为0,文献[14]指出当α和β分别设置为0.02和0.75时,获得的效果最佳;E(x,y)为欧几里得距离变换函数,定义为E(x,y)=min(x',y')∈B(x-x')2+(y-y')2,(6)式中:B为所有鸟类位置点的集合;(x',y')为图像中背景像素点的位置坐标.鸟群图像及其对应生成的FIDT图如图4所示.10.13245/j.hust.230513.F004图4鸟群数据集原始图像和FIDT图2.2 评估准则2.2.1 计数准则与大多数基于卷积神经网络的密集人群计数方法[22-24]相同,本研究使用平均绝对误差(MAE,MAE)和均方误差(MSE,MSE)两个指标作为鸟群计数任务的评估准则,其中:MAE能够反映模型计数准确性;MSE能够反映模型的稳健性.两个指标的定义分别为MAE=1N∑i=1N|Vi-ViGT|;(7)MSE=1N∑i=1N|Vi-ViGT|2,(8)式中:N为测试集图像数量;Vi和ViGT分别为第i张鸟群图像预测的鸟类数量和真实数量.2.2.2 定位准则与文献[25]使用的定位准则相同,本研究采用准确率(P)、召回率(R)和综合评价指标(F1-measure,F)在鸟群数据集和两个人群数据集(UCF-QNRF[26],Shanghai Tech[27])对模型的定位性能进行评估.当预测飞鸟位置与真实飞鸟位置之间的距离小于阈值σ时,可以认为定位成功,在鸟群数据集和Shanghai Tech人群数据集中,将σ设定为4进行评估;在UCF-QNRF人群数据集中,将计算σ为1~100的平均精度进行评估.之后,在测试集上使用K邻近算法估计图像中每只飞鸟的尺寸大小,该算法定义为S(x,y)∈B=mind¯=εK∑K=1Kd(x,y)K;0.05min(w,h), (9)式中:S(x,y)为在点(x,y)处飞鸟的尺寸大小;M为模型预测实例对象位置的集合;d¯为点M(x,y)与K个邻近点计算的平均距离;ε为一个常数,用来对实例对象的尺寸进行微调,经试验分析,当ε取值为0.1时,能够对实例对象的尺寸进行准确估计.在极度稀疏区域,d¯可能会远大于真实对象尺寸,为此设置阈值为0.05min (w,h)对实例对象尺寸进行限制,其中w和h分别为图像的宽度和高度.2.3 实验分析使用所提出的鸟群场景识别网络在鸟群数据集上进行计数与定位实验,并分别对该网络的ACGhost模块和联合金字塔上采样模块进行消融实验,实验结果如表1所示.所提出的密集鸟群场景识别网络在计数任务的实验中,两个计数评价指标MAE和MSE分别达到了8.49和14.35;在飞鸟定位任务中,飞鸟定位的准确率为89.96%,召回率为88.24%,综合评价指标达到了89.37%,具有较好的鸟群计数和定位性能,相比与基线网络HRNet,在提升模型性能的同时,模型的参数量减少了13.66 Mbyte,为网络的应用创造了条件.图5展示了模型在鸟群数据集上估计得到的FIDT图和使用K近邻算法估计得到的飞鸟目标定位图.10.13245/j.hust.230513.T001表1BFSRNet各模块消融实验结果对比方法计数性能定位性能参数量/MbyteMAEMSEP/%R/%F/%HRnet8.6415.1388.9486.3587.8329.78HRnet+ACGhost8.5214.4289.7887.5488.9116.35HRnet+JPU8.6014.9889.1287.0187.9329.55本文8.4914.3589.9688.2489.3716.1210.13245/j.hust.230513.F005图5鸟群数据集实验结果图为进一步验证ACGhost模块和联合金字塔上采样模块的有效性,对ACGhost模块进行消融实验,将HRNet中的Bottleneck模块和Basicblock模块替换为本研究所设计的ACGneck模块和ACGblock模块.根据表1的实验结果可知:使用ACGhost模块的网络参数量降低了13.43 Mbyte,在计数性能方面,MAE和MSE损失分别减少了0.12和0.71,在定位性能方面,准确率、召回率和综合评价指标分别提高了0.84%,1.19%和1.08%.随后,在HRNet的基础上引入联合金字塔上采样模块,结果表明模型的计数性能和定位性能均有提升.消融实验结果表明:ACGhost模块和联合金字塔上采样模块在进一步提高计数和定位性能模型性能的同时,可以有效降低模型参数量和内存占用.使用基线网络HRNet在鸟群数据集上对负样本抑制损失函数的φ值进行消融实验.图6显示了MAE和MSE与φ变化的比较.从图6可以看出:误差评估指标MAE和MSE相对于不同φ值的曲线先增加后减小;当φ=1时误差最小,因此取φ=1.10.13245/j.hust.230513.F006图6参数φ消融实验结果对比图为进一步证明所提出方法的有效性和鲁棒性,还在Shanghai Tech和UCF-QNRF两个人群数据集上进行了计数和定位实验,并与文献[28-32]中提出的方法进行比较,实验结果如表2所示.从表2可以看出:所提出的鸟群场景识别网络在人群数据集同样实现了较高的计数和定位性能,在UCF-QNRF数据集上,与LSC-CNN方法相比,人群计数的MAE降低了11.4,MSE降低了44.40,人群定位的准确率提高了6.03%,召回率提高了3.73%,综合评价指标提高了4.26%,并与先进的人群计数与定位方法[31-32]性能接近,进一步证明了本方法的有效性和可靠性.图7展示了Shanghai Tech和UCF-QNRF数据集上估计得到的FIDT图和使用K近邻算法估计的人群尺寸图.10.13245/j.hust.230513.T002表2不同方法在公开数据集上的实验结果比较方法ShanghaiTech PartAUCF-QNRF计数性能定位性能(σ =4)计数性能定位性能(σ =1,2,…,100)MAEMSEP/%R/%F/%MAEMSEP/%R/%F/%文献[28]129.7189.634.920.725.9258.6499.675.4649.8760.05LCFCN[29]121.6223.543.326.032.5249.3525.677.8952.4062.65LSC-CNN[30]66.4117.033.431.932.6120.5218.274.6273.5074.06AutoScale[31]65.8112.156.254.255.2104.4174.281.3175.7578.43TopoCount[32]61.2104.641.740.641.189.0159.081.7778.9680.34本文67.4115.943.542.242.9109.1173.880.6577.2378.3210.13245/j.hust.230513.F007图7人群数据集实验结果对比图表1和表2的实验结果表明:所提出的轻量化高分辨率鸟群场景识别网络在鸟群数据集上具有较高的计数性能和定位性能,且便于应用在其他领域.对鸟群检测和人群检测进行对比分析可知:a.相比于人群场景,鸟群图片通常以天空为主,背景相对单一,但受光照和色彩变化影响严重,不利于鸟群区域的识别;b.由于摄像设备距离鸟群目标距离不同,导致同一目标在不同图像之间存在较大的尺度变化,并且其飞行姿态变化严重,因此给鸟群检测带来了困难.综上,本研究提出的鸟群场景识别网络准确、稳定、简洁,且具有良好的泛化性能,在鸟群数据集上的鸟群检测准确率达89.96%,并在Shanghai Tech和UCF-QNRF两个人群数据集上具有较高的人群计数和定位性能.未来的工作可以将所提出的方法在农业监测、公共安全和生物医学等领域进行实验和分析,对模型进一步优化和改进.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读