随着计算机与人工智能的快速发展,智能移动机器人的应用日益深入工业制造领域,在车间、仓库等室内场景中使用机器人可极大提高作业的稳定性和生产效率[1].相对于室外场景,室内的障碍物更加密集,对机器人的障碍物感知分割能力要求更高.在室内场景中,存在大量不规则形状障碍物(例如水渍),该类障碍物形状、纹理等较难进行检测,却易妨碍机器人正常行驶;此外还存在众多细小类障碍物,若能较早识别则有利于规划机器人行驶路径[2-3].目前的移动机器人主要依靠自身传感器来对周围信息作出判断,根据传感器的种类,可以将障碍物检测分为基于红外线、激光雷达、超声波和机器视觉四大类[4].前三种检测方法与机器视觉方法相比,对周围环境的要求更为严格,而且缺少对障碍物本身及其语义信息的分析,忽略了不同障碍物对机器人的威胁程度.相比之下,由于室内光源条件稳定,采用机器视觉方法能够有效获取障碍物色彩、面积、纹理等多种信息,对障碍物进行有效分割[5-7].当前基于视觉的语义分割方法主要分为两大类.一类采用经典的编码-解码结构,例如U-Net[8]通过跳跃连接将编码与对应解码网络的特征图进行拼接;SegNet[9]通过添加池化索引保留经过池化后剩余元素的初始位置,实现边界特征的精准定位.此类方法通过堆叠池化层来缩小特征图尺寸,以此获得较大的感受野,但也会失去图像的空间信息,降低障碍物分割精度.另一类方法引入多尺度特征融合的思路,例如PSPNet[10]通过金字塔池化模块融合不同区域的上下文信息,SPNet[11]通过条纹池化和混合池化模块获取上下文信息.这些方法获取图像的多尺度信息,提高障碍物的分割精度,但是不能很好地恢复图像边缘细节,分割结果较粗糙.BiSeNet是一种双边分割网络,拥有空间路径和语义路径两个并行模块,兼顾多尺度特征和感受野的同时拥有较快的检测速度[12-14].但在BiSeNet的空间路径中,其卷积层与池化层都是按照固定的模式进行,很难对未知的形状变换和尺寸进行精确定位.此外在室内场景中存在较多小尺寸障碍物,BiSeNet的语义路径无法准确识别此类目标.针对BiSeNet在室内障碍物分割上的缺陷,本研究以室内轮式机器人作为研究对象,提出一种基于改进BiSeNet的室内多类障碍物分割方法,在复杂非结构化道路场景下有效分割障碍物和可通行区域,从而实现对障碍物的精确检测与定位.1 改进的BiSeNet图像分割模型1.1 BiSeNet模型原理选择BiSeNet作为多类障碍物语义分割的基础网络模型,模型整体架构主要包含一个空间路径和一个语义路径.其中空间路径采用小步长卷积生成高分辨率的特征图,以保留空间信息;语义路径采取快速下采样的策略获取较大的感受野.模型利用这两个分支网络分别提取低级的空间特征和高级的上下文特征,经过特征融合,借助辅助损失函数优化来提高网络的性能,最终得到精确的分割结果.1.2 BiSeNet的改进原BiSeNet的空间路径使用3组规则采样的标准卷积、池化与激活,这导致其存在一种固有的结构缺陷.例如,在同一层卷积中,不同位置对应的尺度不同或者物体是变形的,但由于原BiSeNet中所有激活单元的感受野相同,导致难以对未知形状变换和尺寸进行精确定位.当面对障碍物数据集中存在的可通行区域和水渍这类形状不规则目标时,原有的 BiSeNet并不能很好地进行定位分割.为此,本研究设计一种可变形空间路径网络,将原空间路径网络中的标准卷积核替换成可变形卷积核,使模型在面对物体的不同形变和尺度时能够做到自适应[15].标准卷积主要可分为两部分:a. 在输入的特征图X上使用规则网络R进行采样;b. 利用权重W对采样点进行加权运算.R定义了感受野的大小和扩张,即R={(-1,-1),(-1,0),…, (0,1),(1,1)}.对于在输出特征图Y上的每个位置po,计算方法为Y(po)=∑pn∈RW(pn)X(po+pn),式中pn为对R中所列位置的枚举.而在可变形卷积中,在常规的规则网络R中增加一个偏移量Δpn进行扩张,可变形卷积的采样位置变成了不规则位置,此时对于输出特征图Y上的每个位置po,计算方法为Y(po)=∑pn∈RW(pn)X(po+pn+Δpn).在可变形卷积的网络结构中,其将原来的卷积分为两路,共享输入特征图,其中上面一路用一个额外卷积层来学习偏移量,得到尺寸为H×B×2N的输出偏移量.其中,H,B及2N分别表示偏移量3个维度上的数值大小,且2N还表示有x和y两个方向的偏移.得到偏移量后,下路可变形卷积的窗口不再是标准卷积中的滑动窗口,而是经过偏移后的窗口.即输入特征图和偏移量共同作为可变形卷积层的输入,采样后的计算过程和常规卷积相同.可变形卷积的加入使模型更加适应目标的几何形变,提高模型对可通行区域及水渍等不规则形状目标的特征提取能力和分割精度.考虑到室内场景中存在较多小尺寸障碍物,原BiSeNet无法准确识别此类目标.本研究在其语义路径网络的早期嵌入多尺度特征金字塔模块,使网络获得不同尺寸物体的语义信息.特征金字塔模块会将原BiSeNet语义路径中4倍降采样和8倍降采样的特征图分别经过卷积得到两张低水平的预测图.为了使得预测图大小一致,将经8倍降采样得到的预测图进行2倍上采样.最后将得到的两个尺寸大小一样的低水平预测图与其他层次的预测图相加后卷积并上采样得到最终的预测结果.1.3 改进后的BiSeNet结构改进后的BiSeNet整体结构如图1所示.网络依然延续双路网络模式,其中:一路为空间路径网络,原始图像经过三个可变形卷积加池化,输出8倍降采样的特征图,使用的可变形卷积使模型更容易抓取到可通行区域和水渍这类不规则目标的边缘细节;另一路为语义路径网络,使用轻量级模型Xception进行降采样,将4倍降采样和8倍降采样得到的特征图构建特征金字塔,提高模型对小尺寸目标的分割精度.10.13245/j.hust.220617.F001图1改进后的BiSeNet结构图2 实验及结果分析2.1 实验准备目前对室内障碍物进行语义分割的研究较少且没有相关的公开数据集,因此须建立室内场景下的障碍物分割数据集.在数据集建立过程中,分析室内障碍物种类及特点,并根据机器人与障碍物发生碰撞后会对机器人或环境造成的影响程度,选取塑料瓶、纸箱和易碎品等八类障碍物作为研究对象;此外,还选择了非结构化道路中的可通行区域作为需分割对象,把不可通行区域当作背景或其他障碍物的一部分,此时该区域是否有障碍物以及障碍物是否被正确识别都不会影响机器人的运动,这样既可以简化地图模型,提高路径规划效率,又可以提高语义分割模型的精度.因此,综合障碍物、可通行区域以及背景,所需分割对象一共为10类.先选取NYU-Depth V2数据集作为多类障碍物分割数据集的一部分,该数据集由微软Kinect彩色和深度摄像机记录的各种室内场景的视频序列组成,共1 449张不同场景的室内RGB-D图像,彩色图和深度图已经对齐,且给出了密集的像素级别的标注.为丰富障碍物数据集,提高模型泛化能力,从网络上爬取并筛选出1 360张合适的图片作为数据集,表1给出了该数据集中各类障碍物的图片数量和占比.图像分割为像素级别的预测,各类别障碍物像素量占全部障碍物像素量(不包括背景像素)的比例均在12.5%左右,已实现样本类别均衡.10.13245/j.hust.220617.T001表1网络爬取障碍物分割数据集中各类图片数量及比例障碍物类型数量/张比例/%塑料瓶15011.0纸箱22016.2易碎品15011.0碎纸25718.9垃圾篓1158.5水渍664.9椅子20014.7人20214.8为使训练集与实际场景数据保持同分布,利用Kinect 相机采集实验室及楼道的数据,并将障碍物放置在可通行区域中,进行多类障碍物与可通行区域分割数据集的采集.模型训练所用设备为阿里云GPU云服务器,机型为GPU计算K1型,GPU为1核NVIDIA 1080Ti,CPU为8核,内存为12 GiB,硬盘为200 GiB.2.2 评价指标本研究使用交并比(IOU)、像素准确率(PA)、F1得分作为障碍物检测模型的评价指标,各项指标定义如下.交并比(IOU)为某一类的预测区域和实际区域交集与预测区域和实际区域并集两者的比例,计算方法为IOU=TP/(TP+TN+FP),式中:TP为被正确分类到前景的像素数量;TN为被错误分类到前景的像素数量;FP为被错误分类到背景的像素数量.像素准确率(PA)指预测正确的像素量占总像素量的比例,计算方法为PA=∑TP+∑TN∑TP+∑TN+∑FP+∑FN,式中FN为被正确分类到背景的像素数量.F1得分是综合精确度和召回率的结果,当F1较高时能说明实验方法比较有效,计算方法为F1=2/(1/P+1/R)=2PR/(P+R),式中:P为精确度,表示所有被正确预测为前景的像素数量与所有被预测为前景的像素数量比值;R为召回率,指所有被正确预测为前景的像素数量与实际前景的像素总数量的比值.2.3 网络训练过程模型须选择一个主损失函数来监督整个网络的学习,而由于改进的BiSeNet中使用了特征金字塔结构,在语义路径中将4倍降采样和8倍降采样得到的特征图进行预测,因此使用两个辅助损失函数来监督这两个预测图的学习.选择交叉熵损失LENT和IOU损失LIOU之和作为主损失函数L,即LIOU=1-IOU(X,Y);LENT=-∑i=0n[yilog(ŷi)+(1-yi)log(1-ŷi)];L=LENT+LIOU,式中:yi为某个像素的真值(二分类任务中真值为0或1);ŷi为某个像素的预测值;n为每次计算损失选择的样本量.由于障碍物数据集中通过网络收集的部分图片,拍摄角度和环境与室内场景区别较大,因此选择先在数据集中训练障碍物分割任务,等模型能够较好地提取到障碍物目标特征后再增加可通行区域为分割对象,最终完成多类障碍物与可通行区域的分割任务,数据集按照8:2比例划分为训练集和测试集.网络采用带动量的随机梯度下降算法作为优化器,动量设置为0.95,批次数量为8,200个批次为一轮,每一轮计算一次模型在验证集上的指标值.设置初始学习率为0.001,若模型训练8轮时对验证集的指标仍未提高,则学习率降低一个数量级,直至连续20轮模型精度仍未提高,则完成训练,最大迭代轮数为100.2.4 实验结果分析2.4.1 模型总体分割效果将模型在验证集上进行分割指标评估,表2为模型在各类障碍物上的评价指标分布.由表2可知:8类障碍物和背景的像素准确率PA都很高;F1值在一定程度上可以代表模型的像素预测精度,在这8类障碍物中,纸箱和垃圾篓这两类的F1值最高,缘于这两类障碍物的形状和颜色等特征明显,更易识别;IOU代表模型的定位分割性能,F1值与IOU指标相差最大的为易碎物品,原因在于易碎品障碍物种类较多,且易碎品一般有外包装,容易被误识为碎纸,因此模型对易碎品这类的IOU值会明显高于F1值.10.13245/j.hust.220617.T002表2障碍物分割模型的评价指标对比障碍物类型IOUPAF1背景91.6393.4995.40易碎品74.6797.3554.57垃圾篓85.0799.2180.54塑料瓶48.8598.3259.18椅子44.4699.3041.12纸箱75.2698.3574.95碎纸64.1298.2460.31水渍33.7889.9532.46人53.8796.7450.22%2.4.2 验证可变形空间路径的有效性为验证提出的可变形空间路径网络在多类障碍物与可通行区域分割任务中的有效性和重要性,将改进的BiSiNet与原网络在相同数据集上进行训练,并将这两个网络对验证集的预测结果进行对比.由于可变形空间路径网络主要用于优化不规则形状目标的识别,因此将改进的BiSeNet与原BiSeNet在水渍类障碍物上比较,图2展示了改进的BiSeNet与原BiSeNet对验证集中部分水渍图像的预测结果,其中左上角图片中的椭圆框展示了未被水渍覆盖区域的纹理细节.10.13245/j.hust.220617.F002图2BiSeNet在水渍类障碍物上的分割效果由图2可以看出:当使用原BiSeNet 对水渍分割时,水渍目标定位不准确,水渍轮廓预测误差较大(见图2(c)),而改进的BiSeNet可以较好地分割水渍区域(见图2(d)).表3为模型在水渍类障碍物验证集上的性能评估结果,由表3可知:改进的BiSeNet在PA,IOU及F1值这三项指标上均优于原BiSeNet,其中像素准确率PA提升约3.5%,交并比IOU值提升约2.5%,而 F1值提升约1.8%.实验结果表明:提出的改进BiSeNet通过可变形卷积空间路径网络获得了特征图中更细致的信息,可以很好地适应目标形变,能较为准确地区分水渍像素和非水渍像素.10.13245/j.hust.220617.T003表3BiSeNet在水渍类障碍物上的性能评估算法PAIOUF1BiSeNet86.4931.2130.58改进的BiSeNet89.9533.7832.46%2.4.3 验证特征金字塔结构的有效性为了获得小尺寸目标障碍物更为准确的边缘细节,在原BiSeNet基础上增加了特征金字塔结构.图3展示了改进BiSeNet与原BiSeNet对验证集中矿泉水瓶图像的预测结果,可以看出:原BiSeNet分割结果中尺寸较小的塑料瓶障碍物的边缘细节十分不清晰,这是由于原BiSeNet语义路径中只使用了16倍、32倍以及全局池化降采样的特征图,忽略了低水平特征中的局部信息,从而降低了小目标的分割精度.在原BiSeNet中融合特征金字塔结构后,模型对细小目标物体识别更为准确.小目标障碍物是因为物体离相机的距离过大而导致,与具体的障碍物无关,故无法对其进行评价指标上的对比.10.13245/j.hust.220617.F003图3模型在小尺寸障碍物上的分割结果2.4.4 验证可通行区域分割的有效性模型完成对多类障碍物分割数据集的拟合后增加可通行区域目标,在多类障碍物与可通行区域分割数据集上微调,实现多类障碍物与可通行区域的分割.图4所示为训练好的模型在多类障碍物与可通行区域分割验证集上的三个预测实例,可以看出模型可以分割可通行区域以及不同类别的障碍物.10.13245/j.hust.220617.F004图4障碍物与可通行区域分割实例2.4.5 与其他经典语义分割模型对比为了进一步保证算法评价的客观性,将改进的BiSeNet算法与UNet,PSPNet等算法在多类障碍物图像数据集上进行对比,实验结果见表4.由表4可知:本研究改进的BiSeNet在IOU和PA定量指标上数值分别为0.579 1和0.973 2,相较于U-Net在IOU和PA定量指标上提升了10.03%和1.01%,相较于PSPNet在IOU和PA定量指标上提升了7.18%和1.29%,相较于SPNet在IOU和PA定量指标上提升了1.05%和0.15%,相较于BiSeNet在IOU和PA定量指标上提升了3.32%和0.33%,同时本研究改进的BiSeNet在F1值上也具有一定优势.实验数据表明:提出的改进BiSeNet模型相较于上述经典语义分割模型,在室内障碍物图像分割任务中更具有优势,也再次证明了模型融入可变形卷积和特征金字塔的重要性.10.13245/j.hust.220617.T004表4不同算法在障碍物数据集上的评价指标对比算法IOUPAF1FCN8s38.2687.9140.86U-Net47.8896.3150.74PSPNet50.7396.0353.55SPNet56.8697.1759.87BiSeNet54.5996.9957.84改进的BiSeNet57.9197.3260.56%3 结语本研究以BiseNet为基础分割网络,在其双边网络路径中融合了可变形卷积及特征金字塔结构,提出了基于改进BiSiNet的室内多类障碍物分割模型,提高了对不规则形状障碍物及细小类障碍物的检测能力,可为后续根据多类障碍物分割信息进行室内机器人安全避障策略的研究提供参考.机器人在实际运行过程中采集到的视频数据有很强的不确定性和冗余性,后续可以考虑利用帧之间的相似性及改进网络特征融合模块来减少模型的运算量,提高模型的运行速度,增强机器人响应的时效性.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读