在各种灾害中,火灾是威胁公众安全的主要灾害之一.基于传感器的火灾探测方法反应速度较慢,并且传感器探测范围有限,在户外或者大空间场景下基本无法正常使用[1].因此本研究以基于卷积神经网络(CNN)的火灾探测方法为主.现有的基于CNN的火灾探测模型很难做到精度高和参数量小兼顾.性能优异的神经网络模型对计算能力和内存有较高的要求,很难在移动终端或嵌入式设备上部署[2].模型轻量化方法主要可以分为模型剪枝、卷积分解和知识蒸馏三类.文献[3]利用卷积核剪枝的方法,将模型中冗余的卷积核去掉,大幅度减少模型参数量.文献[4]提出了inception结构,使得网络参数减少并且可以搭建得更深.文献[5]利用性能优异的模型来训练小模型,以改善小模型的性能.基于CNN的火灾探测模型容易对干扰源产生误判,深究其原因是因为没有针对火焰的基本特性设计模型.火焰的静态特性和动态特性是传统火灾检测方法研究的重点[6].文献[7]在RGB-HIS颜色空间建立了火焰颜色模型,利用火焰红色分量和饱和度阈值识别火焰;文献[8]在YCbCr颜色空间建立的火焰颜色模型拥有更好的抗干扰能力;文献[9]在研究火焰和干扰源的颜色时发现RGB颜色空间中蓝色分量的离散度可以用来区分火焰和干扰源;文献[10]提高了模型对红色分量注意力,可以更好地识别出火焰的轮廓.本研究针对存在的问题,利用传统方法的理念,分析火焰的颜色特征,设计了带有通道注意力机制的模型CAM-VGG-SSD,并通过知识蒸馏的形式简化模型,训练过程中CAM-VGG-SSD作为教师网络训练学生网络MobileNetV2-SSD.学生网络可以学习到教师网络对蓝色通道的关注度,同时精度比正常训练更高.学生网络的参数量一般远小于教师网络,能够在移动端上更方便部署.1 利用火焰颜色特征提高模型抗干扰能力1.1 火焰的颜色特征分析火焰的静态特性和动态特性是传统火灾检测方法研究的重点,静态特性主要分为颜色、纹理和形状等;动态特性主要分为偏心率、面积变化和质心运动等.静态特性中颜色特征是区分火焰和非火焰物体的最重要特征之一,不少火灾探测算法基于这点设计.传统的方法利用火焰的颜色特征可以有效地减少对干扰源的误判.目前基于CNN的火灾探测模型容易对干扰源产生误判,主要是因为没有针对火焰的基本特性设计模型.本研究对火焰和干扰源的不同颜色通道进行研究与分析,找出火焰和干扰源中最具有区分度的颜色分量.某区域内K个像素点S颜色分量的均值Smean=∑i=1KS(xi,yi)/K,式中S(xi,yi)表示位置为(xi,yi)的像素点的S颜色分量的值.表1为常见标准火和干扰源的RGB分量标准差,表中Rmean,Gmean和Bmean分别为目标区域的红色、绿色和蓝色分量均值.由表1可知:除日光干扰源外,火焰和一般干扰源图像在Bmean上的区分十分明显,而在Rmean和Gmean上几乎相同.这是因为火焰和一般干扰源的亮度通常很高,红色分量和绿色分量的值都较大,基本没有差异.火焰和日光在颜色上都是呈现多色彩分布,不仅含有红色分量和绿色分量,还含有蓝色分量.火焰是因为其不同位置氧气含量不同,导致其不同位置的燃烧程度不同最终导致含有蓝色分量.日光是因为其本身由七种颜色组成,所以也含有蓝色分量.干扰源则多是由电子器件发射的光或反射作用产生干扰的,在颜色上普遍成单一性,所以可以利用目标区域中的Bmean区分火焰和常见非火干扰源图像.10.13245/j.hust.220408.T001表1常见标准火和干扰源的RGB分量标准差样 本RmeanGmeanBmean室外火焰图像235.6213.8168.6日光灯(干扰)185.6196.36.7警报灯(干扰)230.8185.219.6日光(干扰)171.1189.376.9手电(干扰)187.2165.33.5反光金属(干扰)179.1163.515.6同时将含有火焰和干扰源的图像原图和不同通道的图像进行对比,如图1所示.从图1(a)和图1(b)可以明显看出原图的红色通道和绿色通道中火焰的轮廓更加清晰,但是镜中的火焰和红色消防车这些干扰源并没有被有效剔除.从图1(c)可以看出图像的蓝色通道中火焰的轮廓有部分丢失,但是图中干扰源被有效地剔除,因此火焰和干扰源最具有区分度的颜色分量是蓝色分量,提高模型对蓝色通道的关注度将会提高模型抗干扰能力.10.13245/j.hust.220408.F001图1不同颜色通道的火焰样本图像1.2 注意力机制模块注意力机制[11]被应用在机器翻译上,后来掀起了一波注意力机制研究的热潮.2015年注意力机制首次被应用在计算机视觉中,强化了模型对部分图像信息的关注度.之后的SE,SK[12]和CBAM[13]模块都是基于注意力机制的思想.CBAM模块中的通道注意力模块可以改变模型对各颜色通道的关注度,因此本研究使用该模块强化模型对蓝色通道关注度.CAM模块结构如图2所示,输入特征图分别经过步长为1的最大池化层和平均池化层,然后经过多层感知机输出2个尺寸为C×1×1的矢量,最后将其对应相加再经过sigmoid激活函数,得到通道注意力Mc,维度为C×1×1.大小为C维度的每一个矢量即表示对应通道的权重,并且累加为1.10.13245/j.hust.220408.F002图2通道注意力模块结构图1.3 模型改进本研究提出能够利用火焰的颜色特征减少干扰源影响的火灾探测模型CAM-VGG-SSD.其基础模型是主干网络为VGG的SSD[14]网络,输入图像大小为300×300.将通道注意力模块添加到主干网络的特定位置,强化主干网络对蓝色通道的关注度.新的主干网络CAM-VGG结构如图3所示,在VGG16的前10个卷积层中加入了4个CAM模块,用来帮助模型提高对蓝色通道的关注度.卷积层的前4层每隔两个卷积层加入一个CAM模块,后面每隔3个卷积层加入一个CAM模块.10.13245/j.hust.220408.F003图3CAM-VGG结构图通过计算发现普通SSD网络的参数量为24.241×106;而加入注意力机制的CAM-SSD网络的参数量也为24.283×106.这表明CAM模块的加入并不会额外增加很多模型的参数量和计算量,参数量主要是由于SSD的主干网络产生的.但是庞大的参数量使其不能方便移植到移动端和嵌入式设备上,因此须要在损失精度不大的前提下对模型进行进一步的压缩简化.2 模型压缩2.1 模型轻量化方法现有的很多神经网络模型对计算能力和内存有较高的要求,这阻碍了其在具有低内存资源的设备中或具有严格延迟要求的应用程序中的部署.本研究设计的模型由于参数量太大无法在移动终端和嵌入式设备上使用,因此本研究开始探讨模型轻量化方法.模型轻量化方法主要可以分为模型剪枝、卷积分解和知识蒸馏三类.模型剪枝是通过去除网络中大量的冗余参数,来达到加速模型训练和推理的效果.卷积分解是通过对卷积核结构进行优化,大幅度减少模型中因为卷积核所带来的参数量.知识蒸馏主要是让小模型模仿大模型的某些输出,从而让小模型能获得大模型一样的泛化能力.模型剪枝和卷积分解这两种方法只是将模型参数和计算量减少,而不能像知识蒸馏一样,将大模型对蓝色通道的关注也传递给小模型,因此本研究选择使用知识蒸馏的方法来进行模型压缩.2.2 训练算法结构为了方便实施,选择知识蒸馏中最为简单的一种方法,将教师网络的输出作为学习对象.其中教师网络使用CAM-VGG-SSD,学生网络选择使用MobilenetV2-SSD,具体训练算法结构如图4所示.首先图像分别送入教师网络和学生网络,然后将两者输出的分类和位置回归结果分别输入L1和L2损失函数,然后将L1和L2损失函数的结果输入L3损失函数.同时将学生网络输出的分类和回归结果与真实标签一起输入L4损失函数,接着将L3和L4损失函数的结果输入L5损失函数,最后进行反向传播更新参数.损失函数的具体形式为10.13245/j.hust.220408.F004图4训练算法结构图L3=1N-∑i=1nCs(xi)logCt(xi)+||Rs-Rt||22;      L4(Cs,Rs,Cg,Rg)=-∑i=1nCs(xi)logCg(xi)+||Rs-Rg||22/N;L5=γL3+(1-γ)L4,式中:Cs,Ct,Rs,Rt分别为学生网络和教师网络输出的类别和位置值;Cg和Rg为真实标签中的类别和位置值;N为训练的批量大小;γ为超参数,它的初始值默认为0.8,随着训练进行下去会逐步接近于0.γ初始值设置为0.8是为了保证训练前期学生网络主要是模仿教师网络的输出,将教师网络中对蓝色分量的关注潜移默化地转化为学生网络中的权重,在γ逐步接近于0的过程中,学生网络慢慢地加强了对真实标签的学习.3 模型训练3.1 数据集图5为训练使用数据集中部分图像,主要由3个部分组成,含有强干扰源的图像、含有火的图像和无火图像,其中有火图像和无火图像比例大约为6:4,含有干扰源的图像在无火图像中约占25%.数据集一部分为网上的公共火灾数据集,还有很大一部分是人为手动标注的数据集,一共大概2万张图像,其中70%和30%分别用于训练和验证.10.13245/j.hust.220408.F005图5数据集中部分样本图像3.2 训练模型参数初始化阶段,将CAM-VGG-SSD模型中的通道注意力Mc设置为[0.2,0.2,0.6],人为地将蓝色通道的权重调高.所加载的预训练模型是在VOC2007上训练好的模型.同时使用Adam优化算法替代了传统的SGD优化算法,Adam优化算法可以随着训练实时更新学习率,使模型一直处于合适的学习率,加速模型训练,优化训练结果.首先对CAM-VGG-SSD教师网络进行训练,然后按照本文方法训练MobilenetV2-SSD,每次训练迭代2 500次,迭代批量数为32.同时在数据集上正常训练VGG-SSD和MobilenetV2-SSD,以形成对比,训练过程损失曲线图如图6所示,图中:D为训练迭代次数;L为训练损失值.10.13245/j.hust.220408.F006图6各模型训练损失曲线图从图6中可以明显看到加入了CAM模块的TEACHER-CAM-SSD训练损失降低了.并且利用本文方法训练出来的STUDENT-MBV2-SSD网络比正常训练的MBV2-SSD拥有更低的损失值.表2为各模型性能的量化指标,可以看出STUDENT-MBV2-SSD相比教师网络TEACHER-CAM-VGG-SSD参数量减少了7/8.相比正常训练的MV2-SSD误报率减少了6.53%,精度增加了2.42%,因此可以证明本文设计的模型及训练方法是较为有效的.10.13245/j.hust.220408.T002表2各模型性能对比模型参数量/106平均准确率/%误报率/%TEACHER-CAM-VGG-SSD24.28392.3317.38VGG-SSD24.24191.5820.13STUDENT-MBV2-SSD3.16889.8619.02MVB2-SSD3.16887.4425.554 结语本研究利用火焰的颜色特征强化模型的抗干扰能力,同时使用知识蒸馏的方法对其进行简化.经过实验验证发现,利用本文方法训练出来的模型不仅抗干扰能力提高了,而且能做到精度高和参数量小兼顾,可以在移动端和嵌入式设备上运行,有较强的实用性

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读