高质量的深度图被广泛应用于各种立体视觉应用中,例如自动驾驶、三维场景重建、虚拟现实等[1].然而,由于基于立体匹配、结构光、飞行时间(time of flight,ToF)等深度获取技术的限制,目前的深度传感方法仍难以获得高分辨率和高精度的深度图.作为补救措施,深度重建方法常被应用于深度传感器采集的原始深度图,以提高深度分辨率和/或精度.借助深度图和对应的高分辨率彩色图像之间的强相关性,可以通过基于优化的方法[2-4]或最近的基于深度学习的方法[5-9]来改善深度图的质量.在基于优化的传统方法中,从一组不完全/稀疏的样本集进行深度重建的问题被表述为一个函数最小化问题[2-4].在基于滤波的算法中,深度图通常被基于高分辨率RGB图像的引导信息设计的局部滤波核上采样到所需的大小[10-12].总体而言,考虑到计算复杂度,基于局部滤波的方法通常效率更高.相比之下,基于全局优化的方法相比基于局部滤波的方法能够实现更精确的重构,但迭代求解最小化方程须要花费更多的时间.随着计算硬件的进步和大规模数据集的出现,基于深度学习的方法的重建精度进一步提高,并且在GPU环境下的推理速度也更快,因此近年来已成为主流方法.在RGB-D深度重建问题中,早期的融合模型将稀疏深度图和RGB图像直接拼接,然后通过深度模型[5]聚合多模态特征.这种方法通常利用单一的编码器-解码器网络来解决像素到像素的回归问题.文献[13-15]分别使用两个独立的卷积单元从编码器-解码器网络第一层的彩色和深度输入中提取特征,然后将多模态特征连接并输入到其余层.尽管现有工作取得了可观的重建质量,然而在多模态特征融合方面,它们的方案基本一致.具体而言,这些方法采用了拼接或元素相加等操作,将来自稀疏深度和RGB图像的特征向量直接融合在一起进行进一步的处理.但是,在考虑异构数据和复杂环境时,常用的拼接或基于元素的相加操作不能充分融合跨模态特征,彩色图像作为制导的潜力很难通过如此简单的操作来充分发挥.后期融合模型通常使用两个子网络从RGB图像和稀疏深度输入中提取特征,特征融合过程在两个子网络的中间层进行[16].文献[17]从RGB编码器和深度编码器中提取的特征通过各个尺度下的元素级求和进行跨模态融合.上述方法仅在单一空间尺度上融合RGB分支和深度分支的输出特征.为了建立分级联合表示,Zhong等[18]提出了CFCNet,通过应用RGB图像中稀疏深度点与其对应像素之间的深度典型相关分析,从多模态输入中提取语义相关度最高的特征.受引导图像滤波的启发,Tang等[9]设计了一种新的引导网络来从作为引导的彩色图像中提取自适应卷积核的权值,通过这种方式生成了内容相关和空间变化的核,用于多尺度下的跨模态特征融合.两阶段深度重建方法首先在粗预测阶段对粗糙深度图进行估计,然后利用粗糙重建结果和RGB图像进行二次细化[19-21].Dimitrievski等[19]将一个可学习的形态算子集成到一个基于U-Net的框架中,形态学运算完成后,将预测的粗深度图和RGB图像通过U-Net进行细化输出.Chen等[20]使用最近邻插值生成了密集深度,并基于欧氏距离变换生成了深度点之间的先验距离图.残差深度模型通常预测一个深度图和一个残差图,将它们进行线性组合得到最终的深度重建结果[22-24].这类方法通过对残差图进行预测,对模糊深度预测进行细化,使得目标边界的重建结果更加精确.为了处理分布不均和深度离群点问题,Zhu等[23]引入了一种新的基于不确定性的框架,该框架由一个多尺度深度补全模块和一个不确定性注意力残差学习网络组成.Zhang等[24]将后期融合与残余学习相结合,提出了一种基于多线索引导的网络,最终重建结果是稀疏输入和估计残差映射的结合.相比之下,这里提出了一种多层级跨模态特征融合的深度图重建算法,采用更复杂的特征融合模块来提高深度重建任务的性能.具体而言,该网络对彩色图像和稀疏深度信息分别编码并在多个尺度下进行自适应融合,最后在解码阶段通过残差学习进一步细化重建结果.在NYU-Depth-v2[25]和KITTI[26]数据集上证明了本文方法的有效性.1 本文方法1.1 总体框架概述图1所示为提出的多层级跨模态特征融合网络(multi-scale cross-modal feature fusion network,MCFFN)的总体框架.模型的输入是待恢复的稀疏深度图像和对应的RGB图像,输出为重建后的密集深度图像.MCFFN的总体结构是在一个双路的编码器-解码器框架下.为了融合不同模态提取出的特征,设计了一种特征融合模块(feature fusion block,FFB),用来在不同尺度下融合并编码跨模态特征.10.13245/j.hust.230603.F001图1多层级跨模态特征融合网络结构在上采样阶段,通过提出的特征上采样模块(feature upsampling block,FUB)将输出特征逐步上采样得到全分辨率的初始粗糙深度图;同时,为了尽可能恢复出深度图中的高频信息,通过金字塔特征上采样模块(pyramid upsampling block,PUB)学习深度残差与粗糙结果融合,最终得到精细的重建深度图.1.2 跨模态特征提取与融合1.2.1 特征提取模块MCFFN的编码器结构由两个并行处理稀疏深度图像和RGB图像的编码分支组成.这两个支路均由4个下采样层构成,其中第1个下采样层由感受野为7×7、步长为2的卷积层构成.剩下的3个下采样层中,每层都由1个卷积下采样块和2个过渡块组成的残差块构成,它们的具体结构如图2所示,其中LeakyReLU激活函数负值部分的斜率均设置为0.2.10.13245/j.hust.230603.F002图2MCFFN中各组成模块的具体结构1.2.2 特征融合模块在RGB特征编码和深度特征编码支路之间,有四个特征融合模块(FFB)将两支路连接起来,实现不同卷积尺度下的特征融合,这些层可以帮助学习两个输入模式之间的联合特征表示.在每个下采样层之后,RGB支路和深度支路分别将数据流输入到特征融合模块.FFB的内部结构如图2所示,除最后一个残差块外,FFB中所有卷积层的步长均设为1.1.3 特征上采样与残差学习1.3.1 特征上采样模块最终的融合特征被输入到由6个级联的残差块中,可以在不失去分辨率的情况下进一步加深特征.解码器由四个特征上采样模块(FUB)组成,其结构如图2所示,FUB首先对输入特征进行双线性插值上采样,将特征图的尺寸变为原来的2倍,同时将深度编码器中对应尺寸的特征图通过跳跃连接输入.在解码器中,通过4次上采样,最终得到与原图分辨率一致的初始粗糙深度图.1.3.2 残差学习为了避免上采样过程中高频信息的丢失,引入残差学习的策略,预测深度残差进而细化初始深度重建.特征金字塔上采样的结构如图3所示,通过复用RGB编码器对应层的跳跃连接,以此迭代融合高分辨率的浅层特征和具有丰富语义信息的深层特征.模型对不同大小的特征图进行相应次数的上采样以达到全分辨率.10.13245/j.hust.230603.F003图3金字塔特征上采样1.4 损失函数首先使用L2损失来监督网络的训练,即L2(D*,D)=1N∑i=1Ndi*-di2,(1)式中:N为有效深度像素的总数;D*为重建深度图;D为地面真实深度图;di和di*分别为地面真实深度图和重建深度图中的像素值.此外,还采用梯度损失项来惩罚深度图梯度的误差,具体为Lgrad(D*,D)=L1(∇xD*,∇xD)+L1(∇yD*,∇yD), (2)式中:∇x为水平方向的Sobel梯度算子;∇y为竖直方向的Sobel梯度算子.最后,MCFFN 的总训练损失Ltrain是上述多个损失项的加权,其定义为Ltrain(D*,D)=L2(D*,D)+α1L2(Dcoarse*,D)+α2Lgrad(D*,D), (3)式中:α1和α2为每一部分损失项的加权系数,Dcoarse*为初始深度图.2 实验结果与分析为了评估所提出算法的深度重建性能,在NYU-Depth-V2[14]和KITTI[15]数据集上进行实验,通过与多种现阶段流行的深度图重建算法进行定量与定性比较,证明了本文算法的优越性能,并通过消融实验进一步验证了算法各模块设计的有效性.2.1 评价指标使用以下四项指标来评估模型性能.好点率门限(threshold,δτ),满足以下算式的像素数与有效深度像素总数的比值(%)maxdi/di*,di*/diδτ.(4)线性均方根误差(RMSE)为μRMSE=1N∑i=1Ndi*-di2.(5)平均绝对值误差(MAE),其表达式为μMAE=1N∑i=1Ndi*-di.(6)绝对值相对误差(REL),其表达式为μREL=1N∑i=1Ndi*-didi.(7)特别指出,以上评价指标中除δτ以外,其余指标数值均与算法性能表现呈负相关.2.2 实验设置模型使用2个NVIDIA 1080TI GPU训练了20个epoch,优化器使用β1=0.9和β2=0.999的AdamW优化器并将权重衰减设置为10-5,学习率设置为0.001.对于NYUv2数据集,将总损失函数Ltrain中各部分的加权参数设置为:α1=0.2,α2=0.5.对于KITTI数据集,各部分的加权参数设置为:α1=0.2,α2=0.2.3 实验结果分析2.3.1 NYUv2数据集上的实验结果在NYUv2数据集上将本文算法与5种现阶段流行的算法进行对比,包括:S2D[5],CSPN[6],DeepLIDAR[7],NConv-CNN[8],GuideNet[9].定量比较和重建结果的可视化比较分别详见表1和图4.10.13245/j.hust.230603.T001表1不同方法在NYUv2数据集上的定量比较结果点数方法μRMSE/mmμMAE/mmμRELδ1.25200S2D2911410.05096.8CSPN1690860.02798.4DeepLIDAR159810.02798.6NConv-CNN172870.02698.3GuideNet142690.02498.8MCFFN139670.02499.0500S2D2001050.04298.0CSPN126650.01899.2DeepLIDAR115570.02299.3NConv-CNN123620.01799.1GuideNet107530.01699.3MCFFN102560.01699.510.13245/j.hust.230603.F004图4不同方法在NYUv2 数据集上重建结果的视觉比较表1表明,本文算法在200个采样点下的所有评价指标上都取得了最优的重建性能,在500个采样点下除MAE外均取得了最优的重建性能.图4表明:MCFFN在视觉质量方面也取得了更好的重建结果.对于红色矩形框标记的区域,可以观察到其他方法往往会产生过于平滑、模糊的深度边界.相比之下,本文方法不仅在全局尺度上产生了精确的深度关系,而且产生了尖锐的深度不连续性和清晰的物体边界.2.3.2 KITTI数据集上的实验结果在KITTI数据集上将本文算法与其他6种重建算法进行性能比较,包括S2D[5],CSPN[6],DeepLIDAR[7],NConv-CNN[8],GuideNet[9]和 PENet[28].表2给出了定量比较结果,并在图5中将重建结果可视化以进行视觉比对.10.13245/j.hust.230603.T002表2不同方法在KITTI数据集上的定量比较结果方法μRMSE/mmμMAE/mmμRELδ1.25S2D1 203.81388.410.02599.3CSPN897.42243.400.01999.6DeepLIDAR739.18217.380.01599.6NConv-CNN795.40226.510.02199.5GuideNet762.92216.500.01599.7PENet737.24205.300.01499.6MCFFN732.57208.470.01799.810.13245/j.hust.230603.F005图5KITTI数据集上重建结果的视觉比较表2表明:本文方法在KITTI数据集上也有良好的深度重建性能,在μRMSE和δ1.25上取得了最好的结果,在μMAE和μREL上取得了次优的结果,仅次于PENet.如图5所示,本文方法所重建出的深度图也取得了良好的视觉质量.在室外环境中,使用简单的早期融合策略的的CSPN和NConv-CNN不能准确重建某些区域前景和背景之间的相对深度关系,产生了模糊的伪影.与其他方法相比,本文方法在保证全局重建精度的同时在深度不连续处附近产生了更好的定性结果.2.3.3 计算复杂度与耗时比较与现阶段流行的深度图重建方法在模型参数量、运行耗时等方面的综合比较详见表3.表3结果表明:本文算法在具有最少参数量的同时实现了最优的重建性能,同时实现了次优的运行速度,仅次于S2D.PENet和CSPN都使用卷积空间传播模块来学习亲和矩阵来引导粗糙深度细化,该操作的计算复杂度较高.与目前最先进的PENet相比,本文算法实现了略优的重建性能,并将推理速度提高了34倍,利用双支路编码器同时提取并自适应融合彩色和深度特征,实现了较高的端到端重建效率的同时取得了最优的重建性能.10.13245/j.hust.230603.T003表3不同方法计算复杂度与运行耗时的比较方法参数量/106运行时间/sμRMSE/mmS2D28.400.031203.81CSPN69.342.63897.42DeepLIDAR35.490.08739.18NConv-CNN29.110.04795.40GuideNet74.150.12762.92PENet63.041.37737.24MCFFN22.050.04732.572.4 消融实验为了进一步分析网络中各模块的有效性,实现了多个网络框架变体,在NYUv2数据集上进行了消融实验.2.4.1 跨模态融合策略的有效性在此对不同的输入模态和融合策略进行了比较,消融实验的定量结果详见表4.首先考虑从RGB图像直接预测深度图的方法,如表4所示,重建结果的误差较大.然后仅以稀疏深度图作为输入,该方案将μRMSE减小了0.2 m,这表明稀疏但精确的深度测量点在全局尺度上具有重要的指导信息.进一步,将稀疏深度图和RGB图像拼接起来输入到单支路网络(early fusion),与仅使用稀疏深度的方法相比,其重建性能略有提高.实际上,RGB图像提供了丰富的语义信息,这些信息可以作为隐藏先验来指导深度图像的恢复.特别指出,以上三种变体仅由单支路编码结构进行特征提取.进一步探索了不同的多层级特征融合策略对重建性能的影响.通过在多个尺度上用简单的矩阵加法(Add)和级联操作(Concat)来代替所提出的特征融合模块进行跨模态特征融合,如表4所示,这两种变体的性能仍低于所提出的采用自适应特征融合模块(FFB)的方法.该消融实验证明了所提出的多层级特征融合设计的有效性.10.13245/j.hust.230603.T004表4不同的融合策略的定量比较结果方法μRMSE/mmμMAE/mmμRELδ1.25RGB3872160.10288.5稀疏深度186980.03297.7早期融合168860.02998.2矩阵加法157790.02798.6级联操作153750.02698.7FFB139670.02499.02.4.2 残差学习的有效性为了证明模型中残差学习的有效性,将解码过程中彩色特征的金字塔上采样支路移除,对该变体进行消融实验,定量和定性比较分别见表5和图6.表5表明:在不引入残差学习的情况下,深度重建的性能略有下降.10.13245/j.hust.230603.T005表5深度残差消融实验的定量比较方法μRMSE/mmμMAE/mmμRELδ1.25无残差151730.02898.7有残差139670.02499.010.13245/j.hust.230603.F006图6使用/未使用残差学习的结果的可视化比较在图6的视觉比较中,可以观察到残差学习能更好地利用彩色图像中的纹理信息,在深度不连续处周围生成了更为清晰的物体边界,而不使用残差学习的变体则会在深度边界处产生较为模糊的伪影.该消融实验验证了使用残差学习策略细化深度图重建的有效性.2.4.3 金字塔上/下采样层级数设置的有效性分别训练了不同层级数的变体模型,并对重建性能以及模型复杂度进行测试.消融实验的定量比较详见表6.为了使网络提取到更深层级的语义特征,每次下采样后的特征图分辨率减小到原来1/2的同时,相应的特征通道数也会增长为原来的2倍,这会使得网络的参数量及复杂度有一定的增加.如表6所示,随着金字塔层级数的增加,重建性能不断提升并逐渐趋于饱和.当层级数从2增加到3时,μRMSE下降了15.9%,层级数从3增加到4时μRMSE下降了9.15%.然而,层级数从4增加到5时μRMSE仅下降了1.43%,但参数量却增长了118.32%.因此,为了权衡网络的重建性能与模型复杂度,选择使用四级金字塔下采样的网络结构.10.13245/j.hust.230603.T006表6特征金字塔层级数的定量比较层级数参数量/106μRMSE/mmμMAE/mmδ1.2523.421829697.538.691537398.6422.051396799.0548.141376699.03 结语提出了一种基于多层级跨模态特征融合的深度图重建网络(MCFFN),用于稀疏深度的密集重建.该网络在彩色空间和深度空间两个模态上分别进行特征提取与多尺度下的自适应融合,在解码阶段通过残差学习优化重建结果中的高频信息.实验结果表明:该网络在NYU-Depth-V2 数据集和KITTI数据集上的深度图重建任务中都取得了较其他新近方法更为出色的重建性能.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读