传统的矿井目标电磁波测距定位技术虽然比较成熟,但是无论何种技术都须预先知道参考节点的位置坐标[1],依靠3个参考节点和目标节点之间距离所建立的联立方程组来求解目标节点的位置坐标[2],而这在矿井巷道环境中却很难做到.传统电磁波测距定位须布置大量的参考节点,并保持参考节点和目标节点通信链路高效准确[3],这就使得传统矿井目标定位系统硬件庞大复杂.为解决传统矿井电磁波测距定位存在的问题,提出了一种视觉指纹匹配定位方法,该方法将基于深度学习的计算机视觉技术应用于井下定位,所提出基于改进的VGG-19井下定位方法在实际应用中分为离线建库阶段和在线实时定位阶段.目前常见的基于计算机视觉的室内定位方式包括基于地标的定位和基于数据库的定位[4].基于地标的定位使用地标包含的信息量解算相机矩阵从而实现定位,实际应用时有很大局限性;文献[5]提出一种能耗均衡的煤矿物联网灾后重构自适应非均匀分簇算法,但参数较多、效率低且鲁棒性差;文献[6]提出了一种基于彩色视觉散射编码目标的室内定位方法,该方法对颜色饱和度有很高要求,难以应用在井下场景;文献[7]提出了一种基于直线检测的计算机视觉定位方法,但是该方法明显收到直线宽度影响,鲁棒性较差;文献[8]提出了一个视觉里程系统,不依赖由帧到帧的技术或滑动窗口技术,可以将新采集到的特征数据及时对模型进行更新,但受网络影响较大,在井下难以应用.相较于上述的卷积神经网络,改进的VGG-19算法以其较深的网络层次和强大的特征提取能力,更加突出了准确率高的优势,可以有效实现井下定位且具有很好的鲁棒性.并可在嵌入式设备中运行,这里设计了基于嵌入式NVDIA Jetson nano平台的机器人,该嵌入式平台设备体积小且拥有非常好的运行速度,能够满足定位数据处理要求.1 定位原理1.1 定位原理根据视觉定位的原理,在不同位置点所获取的图像信息不一样的特性,提出了一种基于改进的深度学习网络VGG-19的井下定位方法.在井下巷道中,人眼在不同位置点所获取的信息量都不相同.同理,同一个摄像机在不同点、不同角度获取的信息量不同,可以利用信息量的差异进行分类.根据这个特性,利用机器人等移动智能设备拍摄到的照片对自身的位置进行判别.本系统硬件成本低,且无须使用通信网络.井下目标定位精度达0.5 m.井下图像定位主要分为离线建库阶段和实时监测定位阶段两部分.离线建库阶段首先在巷道内取一处合适的位置,设为原点.使用机器人等移动智能设备每相隔0.5 m采集获取视频图像,然后在间隔分别为1m和5 m时重复如上操作获取视频图像,须采集的视频图像信息应包含各方位,以保证网络训练所需的足够信息量;进一步,对采集到的图像进行预处理、数据扩增等操作,按照采集位置进行标签分类,所谓标签分类就是将不同位置点的图像信息区分标定,构建训练所需的图像信息指纹库.都是一类以达到实时监测定位时可以匹配到该位置点指纹库的效果,实时监测在对新的图像信息按照之前标定好的类别进行匹配.用建立完成的图像信息指纹库训练改进的VGG-19模型,直到模型曲线收敛.实时监测阶段的定位目标是携带相机的机器人等移动智能设备.定位的场景必须为已经标注好并制作指纹库的场景.当机器人运行到之前采集过并标定完成的图像信息的位置,摄像头采集的图像实时传输周边图像信息到模型里来识别图像的位置点,然后呈现图像识别并与标定好的指纹库图像匹配的结果,从而实现井下定位.在实际应用中进行救灾时机器人会记录自身经历过的位置点的图像信息,待机器人到达地面便可进行相关活动.1.2 VGG-19网络模型结构采用模型迁移的方法,使用改进的VGG-19网络迁移学习的预模型,冻结前面的层数,将前两层全连接层改为全卷积层,并在最后一层增加Dropout函数防止过拟合,用预处理后的数据集进行学习训练,训练VGG-19预模型新加入部分的权重为改进的VGG-19模型,再利用训练好的深度学习神经网络进行测试,通过调节参数得到较好的定位结果.减轻了原有VGG-19的参数负担,大幅提高了在嵌入式平台上的运行速度,并经过训练使其在井下应用时达到较好的适配效果.10.13245/j.hust.239129.F001图1定位流程图改进的VGG-19网络由5段卷积构成,每段卷积由卷积层和池化层组成,有2到3个卷积层,每段卷积之后都连着最大池化层,将前2个全连接层改成1×1卷积核的卷积层,最后是一个全连接层和一个softmax层.每段卷积层的卷积核大小相同,但是卷积核的数目随着层数的增加而成倍地增加,卷积核最多的一层有512个.在感知野不变的情况下,增加网络的深度,特征学习能力得到提高[9].卷积神经网络深度的增加和小卷积核的使用对网络的最终效果有很大影响.就参数量而言,全连接层相互间连接的神经元比卷积层的神经元多得多[10],训练网络时也会有较多的参数量,所以结论就是要减少模型的参数,把全连接层的层数进行删减是可行的.因为训练预模型VGG-19网络模型是对ImageNet数据集进行1 000类的划分而训练完成的,所以训练完成的网络模型参数较多.根据本文的实验机器人对数据集进行5和10类的识别分类,从而减少了训练网络使用的参数.为了使网络契合本次定位的数据集规模的训练,网络最后有两个全连接层,第1个全连接层的神经元节点依旧和之前的数量相同,是4 096个,第2个全连接层的神经元节点数由4 096改为5和10,表示分类间隔点的个数.网络采用的是Softmax分类器[11-12],Softmax模型是解决多分类问题,是逻辑斯蒂回归模型的延伸,当分类数为2时用的是逻辑斯蒂分类.其中Softmax函数的定义为Softmax(Zj)=fj(Z)=exp(Zj)/∑k=1Kexp(Zk), (1)式中:K为输出节点的个数,即分类的类数;Zj为第j个节点的输出值.2 定位流程2.1 预处理图像数据实验地点是在国家能源集团宁夏煤业有限责任公司双马煤矿的井下巷道现场,采用KT559-S2本质安全型智能手机采集环境图像.矿井下构造大致类似,为了达到准确定位的效果,采用划分间隔的方式.在所选择的实验地点获取数据集,在取好原点以后使用相机在划分的间隔点处拍摄相应位置的视频,然后通过帧数截取视频来获取图像.这里一共做了3次不同间隔点的实验.首先用5 m间隔划分井下为5类,在0,5,10,15,20 m处采集视频,使用抽帧的方式总共得到1 139张图片,通过预处理扩充到总共7 973张,最后对数据集进行位置间隔的分类标签.所有数据集图像要进行去噪(高斯噪声)处理[13],按照4∶1的比例划分训练集和验证集,用于训练实现识别分类的模型.其中验证集的图片不放入模型进行训练.然后分别用1 m间隔和0.5 m间隔划分矿井取10个点,即在不同位置点提取图像信息.为了更好地提升模型的准确率,须对数据集进行处理,目前常用的方法之一是数据增强,进而增强模型的泛化能力.将原始数据进行了镜面翻折、椒盐噪声,相继进行了90°和180°的旋转及缩放等的操作,进一步扩大了数据集,增强其鲁棒性.10.13245/j.hust.239129.F002图2预处理图片图像预处理和分类之后,下一步将图片进行尺度归一化处理.因网络需要归一化图片的尺寸为224×224像素,来契合网络模型的输入要求,进行实验时根据实验结果调试batch为合适的大小.2.2 图像特征提取HOG特征是图像处理用的比较多的特征,HOG特征提取主要是对图像局部区域的梯度方向直方图进行计算和统计[14].图3为HOG特征提取的流程图.图4是HOG特征提取后可视化的图像.传统的图像特征提取比深度学习中神经网络通过训练进行特征提取复杂,传统的图像处理方法进行特征提取之后还要进行特征处理操作,而深度学习网络将利用卷积池化等操作简化流程.在学习训练样本集中逐步提取图像更深层次的细节特征,使图像识别分类更加简便快捷,对于空间内的细微特征信息也可以识别提取并达到良好分类的效果.10.13245/j.hust.239129.F003图3HOG 特征提取的基本操作过程10.13245/j.hust.239129.F004图4HOG特征提取可视化图像2.3 定位模型训练过程处理好图像数据以后,开始训练网络模型.将第一步得到的全部数据集进行网络模型的训练,这时只须对网络个别层的参数进行微调即可.随着迭代次数的增加,一次一次不断地学习获取每张图像的有效特征,将训练结果最好的模型权重保存下来.最后,实现场景定位.其中验证的数据图像要求没有被模型训练使用过.模型训练好后通过照片对相机位置判别过程中不需要使用通信链路,也不需要参考节点.将要验证的数据图像输入到训练好的模型中进行测试,可以直观地看到定位的结果,达到了准确定位的效果.3 实验结果与分析3.1 精度研究3.1.1 5 m精度这里使用Tensorflow和Keras深度学习框架.实验方法是对实验地点进行不同间隔的划分,并实现在划分的间隔点位置的准确识别.首先对井下进行5 m间隔的划分获得的数据图像,测试在0,5,10,15,20 m等5个间隔点位置的图像的准确率.评估准确度的指标是混淆矩阵[15].矩阵的每一行表示的是样本的真实类别,每一列表示的是模型预测的样本类别,这个图可以直观、简单地呈现出模型识别每一个类别的分类准确率.对于一个n分类模型,混淆矩阵是一个n×n阶方阵,其第i行、第j列的元素是真实标签为i类的样本被预测为j类的概率,定义为mi,j=nyreal=i,ypredict=j/nyreal=i.(2)对于混淆矩阵,对角线上都是预测正确类别的概率,非对角线上的是预测错误类别的概率,所以正对角的数字越大越好,其他地方越小越好.利用混淆矩阵也可以计算其他指标以及进行数据分析,如准确率(β),具体为β=(TP+TN)/T,其中:TP为分类正确的样本数;TN为分类错误的样本数;T为总共的样本数.图5是评估间隔为5 m时训练的模型的混淆矩阵,可见分类效果明显,尤其可以看出在15 m和20 m的识别准确率很高,达到100%,其他部分也均达到了高达90%以上的准确率,说明该模型可以实现识别位置的目标.10.13245/j.hust.239129.F005图55 m间隔模型的混淆矩阵图6是经过预处理的图像,图7是测试模型的识别输出结果.通过几张5 m图片可以大致看出整条井下巷道的轮廓.将图6和图7中的图片进行对比,可以看出0,5,10,15,20 m处的图片都可以被识别出来,定位精确到5 m.10.13245/j.hust.239129.F006图65 m间隔数据图像10.13245/j.hust.239129.F007图75 m间隔测试输出结果3.1.2 1 m精度当用1 m间隔划分井下巷道时,取10个位置点,将迭代次数改为2 500次,batchsize调节为100,训练出模型2.如图8和图9所示分别为4 m和5 m处的定位,可以看出当精确到1 m时定位效果非常好.10.13245/j.hust.239129.F008图8预处理的1 m间隔数据图像10.13245/j.hust.239129.F009图91 m间隔测试输出结果图10为间隔为1 m的混淆矩阵,可见间隔为10.13245/j.hust.239129.F010图101 m间隔网络模型混阵1 m时模型达到了81.2%的准确率,结合上图定位图可以看出即便是信息量相似度非常高的两个位置点也能成功定位.3.1.3 0.5 m精度进行0.5 m间隔的划分.将矿井的前10 m,划分成了20类,将batchsize调节为128,迭代次数为2 500,训练出模型3.0.5 m间隔的模型的准确率平均可达67.4%,也具有良好的定位能力.图11和图12为间隔为0.5 m时4.5 m和5.0 m位置处的图像,可以看出当精确到0.5 m时图像区别已经不大,模型仍然能识别出4.5 m和5.0 m的相机位置,达到较好的定位效果.10.13245/j.hust.239129.F011图110.5 m间隔数据图像10.13245/j.hust.239129.F012图120.5 m间隔测试输出结果表1统计了用深度学习网络通过划分不同间隔下的识别准确率.实验表明:尽管采集的数据集在井下巷道环境相似,甚至肉眼也很难分辨,但此方法在实际应用中依然能有较高的定位效果,在训练好网络以后定位的过程中无须使用通信网络,且节约配置设备的成本.同时验证使用0.5 m的数据集进行2 m精确度的分类时,定位的准确率与用2 m数据集进行2 m精确度的定位时大致相同,原因是相比直接用2 m数据集进行2 m精确度的定位,这样做只是改变了分类个数.同时给出如图13所示的准确率曲线.10.13245/j.hust.239129.T001表1不同间隔识别准确率与训练迭代次数间隔/m迭代次数识别准确率/%训练集测试集550096.495.812 50083.481.20.52 50070.367.410.13245/j.hust.239129.F013图130.5 m数据集精确2 m识别准确率3.2 方法对比研究本定位方式主要采用是改进的VGG-19网络,现用改进的网络与原始VGG-19卷积神经神经网络使用同一套数据集制作的不同模型进行准确率比对,具体为如图14所示的原始VGG-19混淆矩阵.10.13245/j.hust.239129.F014图14原始VGG-19混淆矩阵分析混淆矩阵可知分类结果很差,且图15损失函数并不平整.由图14混淆矩阵计算可知原始VGG-19卷积神经网络定位准确率为68.3%,改进的卷积神经网络为81.2%.损失函数拟合性也很差.10.13245/j.hust.239129.F015图15原始VGG-19损失函数4 结语提出了基于改进 VGG-19 的井下定位算法,将 VGG-19 深度卷积神经网络进行优化,使其参数量和运算量极大减少.深度神经网络在图像识别处理、目标检测及目标定位等领域有着广阔的前景.在井下不同位置处的图像的向量信息是不同的,正好可以利用深度卷积神经网络强大的特征提取能力对图像,利用监督学习的方式训练网络模型,将不同位置点的图像正确识别并进行分类,将图像输入到网络中就可以实现相机位置判别.使用过程中无须依赖通信网络,不需要像传统电磁波定位依赖多个参考节点.开创性地将改进的VGG-19算法应用于井下定位场景,且应用于搭载嵌入式NVDIA Jets-on nano的机器人上,达到了非常好的定位准确率.极大减轻了硬件成本负担,体积也控制得非常小,有非常高的实用价值.为了进一步探究基于改进 VGG-19的井下定位算法的定位精度,通过训练不同间隔的数据样本集,测试模型的分类效果,可以看出此定位方法可以实现在0.5 m范围内的准确定位,对于井下定位精度是达标的.此方法可以用在井下机器人导航、在煤矿灾害发生后的救灾工作.可将物体追踪、人员定位等方面结合在一起,有着广阔的前景.此定位方法具有非接触、被动测量、测量范围广等优势,无须携带昂贵的专用设备.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读