网刊加载中。。。

近十年来，随着三维(3D)传感器的普及，越来越多的研究集中在三维数据的处理中，其中，作为计算机视觉的一个基础研究问题，三维局部特征描述能够广泛地应用于各类计算机视觉及图形学任务中，例如：特征对应建立、配准、分割、检索等，尤其在场景对齐与重建、三维目标识别、物体姿态估计等对稳健的局部特征描述符要求更高的任务中发挥着关键的作用[1]．三维局部特征描述是指将三维关键点邻域包含的曲面形状信息转换为高维描述向量的过程[1]．一个优秀的三维局部描述子须满足区分性高、鲁棒性强、紧凑性好且易于计算四个条件．国内外相关研究者在对早期的三维局部特征描述符也进行大量的综述．文献[1]对2010年以前的手工局部特征描述符进行了系统的分类与评估．文献[2]则是依据全局、局部及混合型特征对2018年以前的手工特征进行综述．文献[3]则是具体评估了手工描述符在物体类别识别中性能．文献[4]对三维检测子与三维描述符之间的适配性进行了探究．现有的相关综述要么时间较为久远，要么仅仅只是涵盖了部分早期的手工描述符，近五年，大量手工描述符相继被提出．此外，随着二维深度学习方法的成熟，带动了三维深度学习的发展，进而涌现出一批学习型三维局部特征描述符，但迄今尚未有综述系统全面介绍现有的三维手工和学习型局部特征描述符，因此有必要对这些方法进行分类整理．本研究的总体内容如图1所示，首先分别综述了三维空间中的局部参考坐标系、手工局部描述符和学习型局部描述符，然后分别对每一部分进行算法对比分析，最后总结三维局部特征描述符的挑战与未来的研究方向．相比于现有的三维局部特征描述符综述，本研究大量增加了近五年的研究成果，因此能够准确地反映三维局部特征描述符的最新研究进展．10.13245/j.hust.221101.F001图1三维局部特征描述的总体内容1 局部参考坐标系局部参考坐标系(LRF)，由三个正交的单位向量构成，完成对关键点周围的局部表面的姿态归一化，使得局部表面具备旋转平移不变性．一个有效的局部参考坐标系须满足在噪声、分辨率变化、表面残缺等干扰下保持高可重复性，这种精确划分空间信息的稳定性，能够显著提升描述符的鉴别力．如图2所示，依据是否分阶段估计三个坐标轴，现有方法可分为两类[5]，即基于协方差分析(CA)的方法[6-14]和基于点几何属性分析(GA)的方法[15-28]．10.13245/j.hust.221101.F002图2三维局部参考坐标系的发展时间轴1.1　基于协方差分析的LRF构建方法基于协方差分析的LRF构建方法见表1．由于局部表面协方差分解后得出三个特征向量代表点分布最显著的三个方向，因此可将其作为参考坐标系，最大化局部点的分散程度．基于CA的LRF构建方法首先构建局部表面的点散布矩阵，然后对散布矩阵进行特征分解，最后将方向去歧义后的三个特征向量作为参考坐标系的三个轴．考虑到表面不全、分辨率变化等干扰的存在，一般会针对性的设计相应的点权重函数进行补偿．此类方法的点散布矩阵为C(p)=1∑qi∈N(p)wqi∑qi∈N(p)wqi(qi-p)(qi-p)T ，(1)式中：p为关键点；N(p)为p的邻域表面点集合；qi为任一邻域点；wqi为qi的权重．此类方法的研究重点集中在wqi的定义上，典型方法包括文献[6]提出的ISS-LRF和文献[8]提出的SHOT-LRF．ISS-LRF[6]针对表面点密度不均问题提出了一个密度补偿权重项，即统计每个点一定范围内邻域点的数量，来代表该点的疏密程度，并以该统计量的倒数作为该点的密度权重，从而提高了LRF对点密度不均的稳健性．SHOT-LRF[29]则依据局部表面中心相对于边界出现残缺的概率更低这一思路，提出了一个距离惩罚项来解决表面不完整的问题，即邻域点的权重与其距离关键点的距离成反比，以此惩罚远距离点，进而实现LRF对表面不完整的稳健性．以上两种方法分别构建了密度补偿权重项与距离惩罚权重项，受上述方法启发，文献[12]为ISS-LRF增加了一个基于高斯核函数的距离惩罚项，进而提出了3DBSC-LRF．文献[10]提出的RoPS-LRF方法在网格数据上对局部三角面进行连续积分，使用平方距离权重和归一化三角面片面积权重来解决上述两种干扰，为研究密度权重与距离权重的占比及溢出点的干扰情况，文献[10]后续又提出了TriSI-LRF[11]．与RoPS-LRF类似还有文献[13]提出的HGND-LRF，该方法将RoPS-LRF的二次距离权重项替换为高斯核函数距离权重项，能够调试出合理的距离权重．不同于上述方法在坐标空间中对点设计权重，文献[9]和文献[14]在法向量空间中设计密度及距离惩罚项，分别提出了Santos-LRF与FFIS-LRF，两种方法分别使用维诺图和三角面片划分三维表面，以胞元或三角面的法向量作为表示，将胞元及三角面片的归一化面积作为密度权重，在二次项距离的反比作为距离惩罚项，在法向量空间中构建LRF．10.13245/j.hust.221101.T001表1基于协方差分析的LRF构建方法方法年份类型方法描述ISS-LRF[6]2009CA加入点密度权重，对稀疏点进行密度补偿；主成分分解后得到三坐标轴Mian-LRF[7]2009CA坐标空间；主成分分解SHOT-LRF[8]2010CA坐标空间；距离权重，远离关键点的权重低Santos-LRF[9]2011CA法向量空间；密度权重项与距离权重项RoPS-LRF[10]2013CA三角面片上的连续主成分分析；距离权重及密度权重Tri-SI-LRF[11]2015CA三角面片上的连续主成分分析；二范数距离权重；逸出点去除3DBSC-LRF[12]2017CA在ISS-LRF基础上，为散布矩阵加入距离权重项HGND-LRF[13]2019CA三角面片上的连续主成分分析，与RoPS类似，距离权重函数使用高斯核函数FFIS-LRF[14]2018CA以距离及面积加权的三角面片的法线质心为Z轴，三角面上的连续主成分分析得出的最大特征向量的投影作为X轴1.2　基于点几何属性分析的LRF构建方法基于点几何属性分析的LRF构建方法见表2．与基于CA的方法不同，基于点几何属性的方法采用点的几何属性分步确立Z轴、X轴和Y轴．10.13245/j.hust.221101.T002表2基于点几何属性分析的LRF构建方法方法年份类型方法描述PS-LRF[15]1997GA坐标空间；关键点法向量为Z轴，以有向距离确定X轴EM-LRF[16]2008GA坐标空间；关键点法向为Z轴，以最大的特征向量的投影为X轴BOARD-LRF[17]2011GA小半径估计Z轴，取法线夹角最大的点的投影方向作为X轴MeshHoG_LRF[18]2012GA以法线为Z轴，X轴方向以投票最多的梯度方向确定X轴FLARE-LRF[19]2012GA小半径估计Z轴，取投影有向距离最大的点的投影方向作为X轴ToLDI-LRF[20]2017GA小半径(R/3)估计Z轴，以二范数投影距离及二范数中心点距离为权重，边缘点加权投影方向确定X轴SPAH-LRF [21]2017GA与ToLDI-LRF类似，但采用K范数投影距离及邻域点到关键点距离；邻域点均参与计算BRoPH-LRF[22]2018GA用SHOT-LRF估计Z轴，用ToLDI-LRF估计X轴IToLDI_LRF[23]2019GA与ToLDI-LRF类似，投影距离权重采用K范数代替SDASS_LRF[24]2018GA与ToLDI-LRF类似，将Z轴估计的半径扩大为8倍的网格分辨率Ao-LRF[25]2020GA与ToLDI类似，但是加入了一个1-环的平均距离来对点密度进行补偿GFrames[26]2019GA以关键点法线为Z轴，以Z轴切平面上定义梯度标量函数，以平均梯度作为X轴LRF-net[27]2020GA与ToLDI类似，以关键点法线作为Z轴，利用多层感知器学习邻域点权重，最后采用加权平均的投影方向作为X轴Compass[28]2020GA球面投影，采用CNN学习出最显著体素位置，进而得出旋转矩阵的参数基于GA的方法一般选取一个小的邻域半径估计Z轴，然后在一个大的半径范围内利用点的几何属性作投票得出最显著的方向，最后将该方向投影到Z轴所在切平面得出X轴．常用的几何属性包括：有向距离值[15,19-24]，法向量夹角[17]，梯度[18,26]，特征向量值[16,25]，学习的点或胞元权重[27-28]．有向距离是最为常用的几何属性，这里着重介绍PS-LRF[15] 和FLARE-LRF[19]两种典型方法．文献[15]提出了经典的PS-LRF方法，该LRF使用关键点处的法向量作为Z轴，然后通过球面与表面相交得到轮廓点，并将最大有向距离的点的方向投影到Z轴定义的切平面上作为X轴，但该方法未考虑Z轴的方向歧义性，因此Z轴的重复性不高．文献[19]提出的FLARE-LRF采用一个较小的半径(5mr，mr为点云分辨率)估计法向量，并以局部表面质心修正其方向，然后采用靠近边界(0.85R~R，R为局部邻域半径)的邻域点的最大有向距离点的投影方向作为X轴．在上述两种方法的启发下，文献[20]提出了ToLDI-LRF，该方法以距离中心点的距离和投影距离作为权重，将邻域点的投影向量的加权平均方向作为X轴．在ToLDI-LRF的基础上，BROPH-LRF[22]用SHOT-LRF的求取的Z轴替代了TOLDI-LRF的Z轴，IToLDI-LRF[20]和SPAH-LRF[21]则是探索了不同范数的距离中心点的距离权重及投影距离权重对LRF重复性的影响．1.3　局部参考坐标系小结现有的局部参考坐标系主要研究的核心在于距离权重项和密度权重项的设计，从方法发展的时间轴来看，基于几何属性的方法的相关研究更为主流，基于几何属性的方法由于采用了几何属性进行加权投票，因此能更好地应对残缺点云，而对于完整点云，基于协方差分析的方法能够获得更稳定的LRF．可参阅文献[15,29]进一步了解常见的LRF的性能．2 三维手工局部特征描述符手工特征描述符是指按照人的经验与知识设计的特征表示，一个有效的特征描述符须满足以下条件[1]：a．描述符具有强区分性；b．描述子应该对各类噪声和背景干扰具有稳健的不变性[31]；c．描述符应易于计算且匹配高效．本研究将三维手工局部特征描述符按照是否采用LRF分为两类，即基于LRF的手工局部描述符和不依赖LRF的手工局部特征描述符．2.1　基于LRF的三维手工局部描述符基于LRF的三维手工局部描述符首先为三维局部表面建立一个可重复的LRF，然后将局部表面变换到该LRF下，进而实现局部表面的平移旋转不变性．此外，由于LRF提供了精确的空间划分信息，这类描述符大都将几何属性与空间信息关联起来，因此普遍具有鉴别力强、描述性好的优点，应用广泛，其不足在于LRF的稳定性对描述符的性能影响很大．依据这类描述符是否为浮点型，进一步将其分为基于LRF的浮点型和二值型的方法，其发展时间轴如图3所示，详细的分析见表3．10.13245/j.hust.221101.F003图3基于LRF的三维局部特征的发展时间轴10.13245/j.hust.221101.T003表3基于LRF三维手工局部特征描述方法比较方法年份类型特征描述算法性能定性描述PS[15]2004浮点直角坐标系下边界点点到平面距离特征不唯一，计算量大ISS[6]2009浮点直角坐标系下点坐标的空间分布X轴方向有歧义，模型检索性能优于Spin Image与3DSCUSC[42]2010浮点球坐标系下的点坐标分布在Stanford及Lab数据集上优于3DSCSHOT[30]2010浮点球坐标系下的法线分布在Stanfor及SpaceTime数据集上优于Spin Image，PS以及EMRoPS[10]2013浮点直角坐标系下的投影点密度的低阶统计量在Bologna数据集上优于Spin Image，NormHist，LSP，THRIFT，SHOTCSHOT[8]2014浮点球坐标系下的法线及颜色分布特征在Stanford数据集上优于Spin Image，PS，FPFHTriSI[11]2015浮点三坐标系，旋转图像特征在Stanford及U3OR数据集上优于RoPS等．Mesh-LBP[44]2015二值网格数据上的局部二值模式计算高效，优于曲率、形状索引等特征EPFH[45]2015浮点直角坐标系下的FPFH特征在Bologna数据集上优于Spin Image，LSP，THRIFTG-SHOT[46]2015浮点GPU加速的SHOT特征9 倍速度提升B-SHOT[37]2015二值将SHOT按照四元组划分，按五种情况二值化性能略有降低，存储开销和匹配时间大降3DLoc[48]2016浮点直角坐标系下的最大投影距离配准速度优于SI，4PCS3DBS[49]2016二值直角坐标系法线三坐标轴投影值在LiDAR数据集上优于FPFH，RoPS，SHOT及USCRCS[50]2017浮点直角坐标系下多视图投影的轮廓特征优于FPFH，RoPS，SHOT3DBSC[12]2017二值直角坐标系下的高度、密度投影图像的BRIEF特征计算高效，优于3DBS，RoPSSPAH[21]2017浮点直角坐标系下多尺度划分的空间位置分布特征优于SI，SHOT，RoPS3DHoPD[51]2017浮点直角坐标系下的点分布直方图Kinect数据集上优于SHOT，FPFHToLDI[20]2017浮点直角坐标系下的三坐标面深度图优于TriSI，RoPS，SHOT及FPFH，维度高RPBS[38]2018二值直角坐标下多视角投影占据网格特征计算高效，优于RoPS，SHOTBRoPH[22]2018二值直角坐标系下多视角投影点密度图及高度图的LBP特征计算高效，优于RoPS，FPFH，SHOT，SIEdge-LBP[52]2018二值网格数据上的LBP特征计算量大，优于Mesh-LBPFFIS[14]2018浮点融合三角面片分布直方图与三坐标面投影密度图融合属性三角面与点的分布，优于RoPS，USC，SHOTLoVS[39]2018二值直角坐标下的体素占据信息优于RoPS，ToLDI，SHOT，计算高效RSM[55]2018二值直角坐标系下的多视角剪影信息优于RoPS，ToLDI，SHOT，计算高效LHI[32]2018浮点直角坐标系的投影高度信息优于SHOT，SIHGND[13]2019浮点直角坐标系下的投影法线分布信息优于SHOT及RoPSVBBD[40]2019二值改进LoVS，使用高斯函数平滑体素在高下采样率优于LoVSWHI[33]2020浮点直角坐标系下的加权高度图信息高噪声及下采样率下优于SHOT，RoPS，LSFH，ToLDIHMec[56]2020浮点柱面投影；点密度签名优于TriSI，SHOT，RoPS，SDASSGFSH[57]2021混合直角坐标系下的体素密度分布、体素中心分布、投影密度分布优于RCS等GNDAS[58]2021浮点直角坐标系下的网格法线分布信息与FPFH相当，下采样时优于FPFH，USC，RoPS，SHOT，ToLDI等浮点型特征：在建立LRF后，该类方法利用LRF提供的空间信息构建浮点型的空间分布或者几何属性直方图．典型的方法包括点签名特征(PS)[15]、方向直方图签名(SHOT)[30]、旋转投影统计量(RoPS)[10]、三坐标平面深度图(ToLDI)[20]等．PS[15]：该特征首先获取球面与表面的交叉线，并计算交叉线上的点到由关键点及其法线确定的平面的距离，然后通过最大有向距离确定X轴方向，最后统计有向距离值进而生成点签名特征，该方法的优点在于：由于采用直方图形式统计数据，因此对噪声比较稳健．但是，其缺点在于：a．由于采用球面与网格相交的方式确定边界点的计算量大，因此耗时很长；b．由于只统计了边缘点的有向距离信息，因此描述性不强；c．由于Z轴方向有歧义，且利用有向距离确定的X轴方向可能变化，因此造成该描述符的特征不唯一．后续采用投影距离或高度的特征还包括ToLDI[20]，LHI[32]及WHI[33]．SHOT[30]：该方法首先对局部球形表面建立参考坐标系，然后在极坐标下按照水平方位角、径向距离和垂直高度角三个维度将球体空间划分为32个子空间，接着统计每个子空间中的法线与Z轴的夹角的分布直方图，最后串接成直方图签名特征．该方法优于旋转图像(SI)[34]、指数映射(EM)及点签名特征描述符．为了解决弱几何信息的场景下的点云描述，文献[8]将颜色信息融合进来，进而提出了CSHOT特征，除在三维空间中描述法线分布外，高斯法线分布直方图(HGND)[35]在二维坐标平面统计法线投影的方向分布直方图．RoPS[10]：该方法首先在三角格网数据采用连续主成分分解建立LRF，然后将局部表面绕三个坐标轴依次旋转模拟不同视点，并将旋转后的局部表面投影到三个坐标平面上，进而形成投影点密度图，接着在点密度图上提取低阶不变矩、香农熵等统计量，最后串接所有视点下的统计量形成RoPS特征描述．该方法对低高斯噪声及不同程度的网格下采样均表现稳健，特征匹配性能优于SHOT和旋转图像SI等描述符，在三维目标识别实验中识别精度远高于SI．ToLDI[20]：该方法构建好局部坐标系以后，首先将局部表面单位坐标系下，然后将局部表面投影至坐标平面，形成三幅20×20的投影高度图，最后串接形成ToLDI特征描述符．该方法在Bologna数据集、UWA目标识别数据集及UWA配准数据集上的结果略优于RoPS，其缺点在于特征描述符维度较高，匹配效率较低．二值化特征：由于浮点型描述符存储开销大且匹配低效，因此部分研究转向基于三维局部二值特征的研究．现有的三维局部二值特征绝大部分是基于LRF的方法，典型的方法包括二值方向签名直方图(BSHOT)[37]、三维二值上下文特征(BSC)[12]、旋转投影二值结构(RPBS)[38]和局部体素化结构(LoVS)[39]等．B-SHOT[37]：该方法首先将SHOT特征描述以步长为4划分为一系列的四元组，然后采用五种二值化方案对每一个四元组进行二值化，最后将串接所有位即得到B-SHOT二值特征描述．该方法提高了SHOT的匹配效率，但是须要首先计算浮点型SHOT特征，因此计算效率并未降低．BSC[12]：针对B-SHOT无法直接计算二值特征这一不足，文献[12]直接在局部表面上构建二值特征，首先构建LRF；然后将局部表面投影到三坐标平面上，分别得到点密度分布图，投影距离图，使用高斯函数平滑图像；接着在每幅图像上提取BRIEF二值特征；最后串接所有图像的二值特征，即可得到最后的BSC特征．该方法在Bologna数据集、UWA目标识别数据集及WH-TLS数据集上的性能均优于RoPS等浮点型特征．RPBS[38]：BSC利用了二维图像中成熟的二值特征提取方法，而RPBS则是利用轮廓来表示形状．具体方法为：在建立LRF后，类似于RoPS特征，首先将局部表面绕三个坐标轴旋转，然后将旋转后的局部表面投影到三坐标平面上，根据每个网格的占据情况得到二值特征．该方法在Bologna数据集上的匹配性能优于RoPS和SHOT等浮点型特征．LoVS[39]：不同于RPBS在投影的二维图像上建立占据二值图像，LoVS直接在三维空间中对局部表面完成体素化操作，该方法可以避免投影带来的信息损失，相较于RPBS，描述力更高．在Bologna和UWA三维配准数据集上的性能优于RoPS和SHOT等特征，但是该方法对网格下采样较为敏感．针对此问题，文献[40]提出了加权的体素化缓存二值描述符(VBBD)，该方法使用高斯核函数平滑每个体素网格，解决了因下采样带来的空洞问题．2.2　不基于LRF的三维手工局部描述符基于LRF的三维手工局部描述符的性能与LRF的重复性密切相关，为减少不可靠的LRF对描述符的干扰，研究者提出了大量不基于LRF的三维手工局部特征，具体见图4，详细比较见表4．这类方法主要利用投影距离、法线夹角和形状索引等属性构成的一维、二维和三维属性分布直方图或者多属性协方差矩阵来编码局部表面，对噪声和点密度变化等干扰具有更强的鲁棒性，典型的方法包括旋转图像SI[34]、点特征直方图(PFH)[59]和多尺度协方差描述子(MCOV)[60]等．10.13245/j.hust.221101.F004图4不基于LRF的三维局部特征的发展时间轴10.13245/j.hust.221101.T004表4不基于LRF的手工局部特征描述方法比较方法年份类型特征描述算法性能定性描述SI[34]1999浮点圆柱坐标系下的点云二维分布平移旋转不变性，优于PS3DSC[67]2004浮点球坐标下的点云三维分布优于SILSP[68]2004浮点法线夹角及形状索引二维直方图对于遮挡情况识别率高PFH[59]2008浮点Darboux坐标系下的点对法线的相对关系优于SI，计算量大FPFH[62]2009浮点简化的点对特征直方图，仅统计关键点与邻域点间的法线相对关系与PFH类似，计算量小HONV[69]2012浮点极坐标系下的二维法线直方图在RGBD数据集上的识别率为55.5%ISI[61]2012浮点局部凹凸性的圆柱坐标系下的点云二维分布改进SI，略优于SIASPC[70]2013浮点球面坐标系下的点云三维分布人脸数据数据集上优于3DSCMCOV[60]2014浮点坐标及颜色的协方差矩阵3DMatch数据集上优于CSHOT，MeshHOG，TextSpinImgHoD[71]2016浮点点到关键点的距离直方图略优于SHOT，计算高效LSFH[63]2016浮点局部深度、法线夹角及水平投影距离一维直方图维度低，性能与SHOT相当SC[72]2016浮点三角格网；柱面坐标系下的连续点云分布优于SI，在三角面片上操作，计算量大ACOV[73]2017浮点局部统计属性的协方差矩阵优于MCOV，能高效配准大规模点云B-HoD[74]2017二值浮点量化的二进制编码的HoD描述符计算高效，匹配高效，SpaceTime数据集上配准误差小MaSH[75]2017浮点半径划分下的多属性(局部深度，法线夹角，局部变化角)一维直方图LIDAR数据集上劣于FPFH，UWA3DM，Kinect数据上优于FPFHLPPF[76]2018浮点距离及法线距离向量夹角二维直方图在Bologna，UWA，Queen，Kinect数据集优于FPFH，RoPS，USCSDASS[24]2019浮点柱面坐标下，水平距离，投影距离及法线夹角的三维直方图Bologna，UWA3DM数据集优于ToLDI，RoPS，TriSI等HoPPF[65]2020浮点极坐标系下的邻域点对分布二维直方图优于FPFH，LPPF特征DLSF[64]2020属性直方图半径划分下的多属性(局部高度及Darboux坐标系下邻域点法线与三个坐标轴的夹角)的二维直方图优于ToLDI，RoPS，SDASS等PPTFH[66]2021点对极坐标系下的邻域点对分布二维直方图；相比于HoPPF，使用新的方式构建Darboux坐标优于HoPPF，FPFH，LPPF等SI[34]：旋转图像是最经典的三维局部特征描述子，该方法以关键点处的法向量为参考轴，统计圆柱面坐标系下的点云分布，以点到参考轴的距离和到切平面的距离两种属性构成的二维分布图来表示局部表面，后续为了解决局部表面的凹凸性带来的歧义，文献[61]提出了改进的旋转图像特征(ISI)．PFH[59]：SI编码的是邻域点与关键点之间的空间关系，而PFH统计的则是点对间法线的相对差异信息．具体而言，任意两个包含法向量的点对，首先利用法线及连接向量建立Darboux框架，然后计算另一法线与该坐标框架的夹角信息，最后串接三个夹角直方图与一个距离直方图形成最后的PFH特征．该特征的优点在于使用了法线信息，能够捕获点云中更多的信息，不足在于计算复杂度高．为此，文献[62]提出了快速点特征直方图(FPFH)，该方法只统计邻域点与中心点之间的特征直方图，最后采用加权的形式累加成FPFH特征，FPFH在保持PFH的高描述性的同时，极大降低了计算复杂度，后续的局部形状特征直方图(LSFH)[63]使用局部深度、法线夹角及水平投影一维直方图刻画邻域点与关键点之间的关系．局部点对特征(LPPF)则是使用关键点与邻域点的连接向量及该向量与邻域点法线的夹角构成的二维属性直方图来描述局部表面，使用类似的二维属性直方图来构造描述子的还有划分的局部特征统计量(DLFS)[64]、点对特征直方图(HoPPF)[65]及点对变换特征直方图(PPTFH)[66]等．后续的子划分空间偏差角统计量(SDASS)[24]则是构建以邻域点与法线夹角，邻域点到参考轴及切平面的距离的三维属性直方图来描述局部表面．由于这些方法采用共生统计的方式，因此具有较高的鉴别力．MCOV[60]：上述描述符描述的是点对之间的属性分布，而描述所有邻域点集之间的属性关系能够获得更加有效的表面信息，MCOV使用协方差矩阵刻画邻域点坐标点及颜色六个属性维度的相关性．ACOV进一步使用局部表面的十种统计属性的协方差矩阵来描述局部表面，该方法的特征匹配性能优于SHOT和FPFH等描述符．2.3　手工三维局部特征描述符小结三维手工局部特征发展了近三十年，涌现出大量的研究，本研究将其分为两类，即基于局部参考坐标系的方法与不依赖局部参考坐标系的方法．前者的鉴别力与局部参考坐标系的稳定性关系密切，一般在局部参考坐标系下建立签名或者直方图签名特征，能够在高精度、完整的点云数据达到远优于其他方法的结果，典型的如模型检索；后者考虑到实际数据中表面不完整、噪声等干扰的影响，一般以属性直方图的形式刻画局部表面，能够有效地应对噪声、分辨率变化的干扰，典型的如场景配准．现有的研究趋势是将两者的优势结合起来，局部参考坐标系提供精确的空间信息，属性直方图等提供鲁棒的抗干扰能力．3 学习型三维局部特征描述符三维局部特征描述符经过从传统的基于手工设计的方法到基于学习的方法的发展，根据不同输入表示，可分为基于多视图的方法、基于体素的方法及基于点集的方法．学习型三维局部特征描述符的发展时间轴如图5所示，详细的比较分析见表5．10.13245/j.hust.221101.F005图5学习型三维局部特征描述符的发展时间轴10.13245/j.hust.221101.T005表5学习型三维局部特征描述方法比较方法年份类型特征描述算法性能MVDesc[41]2018多视图三视图投影+CNNTUM数据集上优于CGF，3DMatch，及手工特征LMVCNN[77]2018多视图多视图投影+CNNBHCP数据集上优于3DMatchMP[78]2019多视图圆柱投影+CNN性能优于手工描述符及3DMatchLMVD[43]2020多视图视点学习+CNN3DMatch数据集特征匹配性能优于FCGF，D3Feat，PPF-Net等YOHO[79]2021多视图六十面体+FCGF3DMatch及KITTI数据集配准性能优于SpinNet3DMatch[47]2017体素TDF体素+3DCNN优于传统手工描述符CGF[48]2017体素球面归一化点密度体素+3DCNNLiDAR scan数据集上优于手工特征3DSmoothNet[82]2019体素SDV体素+3DCNN3DMatch数据集上优于PPF-Net，PPF-FoldNet，CGF，3DMatchSpinNet[81]2021体素法线+球面体素+3DCNN3DMatch及KITTI数据集上优于LMVDPPF-Net[35]2017点集点集+PPF特征+PointNet3DMatch数据集上优于CGF，PointNet，CGF等PPF-FoldNet[84]2017点集PPF特征+PointNet+Folding Net3DMatch，SUN3D数据集上优于PPF-Net，CGF，3DMatch特征FCGF[53]2019点集坐标量化+稀疏卷积3DMatch数据集上优于3DSmoothNet与PPF-Net等D3Feat[54]2020点集检测子+描述符+KCov3DMatch数据集上优于FCGF和3DSmoothNetDIPs[85]2021点集Affine T-net+PointNet3DMatch上优于FCGF和3DSmoothNetGeDi[36]2021点集Q-Net+PointNet++3DMatch上优于SpinNetMS-SVConv[87]2021点集多尺度融合+环形采样3DMatch，KITTI数据集上优于SpinNet3.1　基于多视图投影的方法基于多视图的方法的核心思想为：首先将多个视角下的局部表面作为网络输入，然后采用深度网络融合多个视角的信息．典型的方法包括MVDesc[41]，LMVCNN[77]，MP[78]，LMVD[43]和YOHO[79]等．这类方法的研究重点在于视点的选择与投影方式的设计，下面介绍三种典型的方法．MecP[78]：针对现有的手工描述符表达力不足，学习型描述符对旋转鲁棒性差及部分描述符维度过高的问题．文献[78]提出一种基于墨卡托投影的局部表面表示，首先为局部表面建立一个参考坐标系，然后利用墨卡托投影保角保几何的特性，将局部表面投影到60×60的柱面地图上，并采用孪生卷积神经网络将图像压缩成32维特征，该方法在Bologna数据集特征匹配结果优于现有的手工特征描述符，在3DMatch数据上的特征匹配结果优于3DMatch，CGF，PPF-Net，Folding-Net，PPF-FoldNet和3DFeat-Net．LMVD[43]：针对现有的基于多视图的局部描述符通常认为选取一组固定的视点来获取视图信息，这种视点选取的方式与后续的多视角信息融合过程是分离的，文献[43]利用可微化渲染提出采用软栅格化技巧将视点的选择作为优化参数，与后续的特征表面进行联合训练，有效解决了人工视点显著性不足的问题．该方法在室内3DMatch数据集上具有更高的鉴别力，对表面旋转、稀疏点云表现稳定，同时在室外的KITTI数据集上的泛化能力也较好．YOHO[79]：针对现有的学习型描述符大多依赖手工设计的局部参考坐标系获得旋转不变性，但现有的局部参考坐标在面对噪声与点密度变化时稳定性差的问题，文献[79]首先为局部表面设置20个均匀分布的视点，对于每个视点，将局部表面旋转到该视点下，然后采用PointNet[80]或FCGF获取压缩的特征表示，最后使用群卷积和最大池化获得多视点融合后的旋转等价的特征表示．该方法在3DMatch数据集上的特征匹配性能优于LMVD[43]和SpinNet[81]等方法．3.2　基于体素的方法基于体素的方法的核心思想为：首先采用体素化表达的方式将三维局部表面有序化，然后采用类似于二维图像中的卷积神经网络的方式提取特征表示．这类方法能够较好保持三维数据本身的空间信息，典型的方法包括3DMatch[47]，CGF[48]，3DSmoothNet[82]和SpinNet[81]等．3DMatch[47]：文献[47]针对传统手工描述符在低分辨率、高噪声及残缺表面等干扰下难以建立有效特征对应这一情况，提出了一种基于截断距离函数(TDF)体素化局部表面，并采用类似AlexNet网络架构，以双流权重共享的孪生网络训练网络，最终得到512维特征，相比于传统手工描述符，显著提升了三维重建方面的性能．但由于该方法未提前对局部表面进行姿态归一化，因此对旋转十分敏感．CGF[48]：文献[48]针对传统手工描述符在精度、紧凑性和鲁棒性三方面难以兼顾的问题，提出了一种基于球面坐标表示的深度网络．与USC相同，该方法首先构建一个局部参考坐标系，然后将所有的局部点云投影到球面坐标系下，每个球面体素内计算归一化的点密度信息，最后采用三元损失函数的五层的全连接网络进行训练，得到更加紧凑及精确的局部描述符，但受限于网络深度及LRF的原因，CGF的精度及旋转鲁棒性仍有较大提升空间．3DSmoothNet[82]：文献[82]针对3DMatch的旋转不变性差、特征维度高且泛化能力不足的问题，首先利用建立的LRF消除局部表面的姿态歧义，然后在LRF下建立体素化表示，并采用高斯核函数平滑每个体素网格，使用类似于L2-Net的堆叠卷积层构建网络，最后采用双流共享权值孪生网络进行训练，但受限于网络深度的原因，CGF的精度仍有较大提升空间．SpinNet[81]：文献[81]针对现有描述符的表达力、旋转不变性及泛化性不强的问题，提出了一种旋转不变的柱面体素网络．该方法首先利用空间变换模块将局部表面从球面体素空间变换到柱面体素空间，然后神经特征提取模块先后采用MLP和3DCNN提取单个体素的特征及体素间的空间结构特征．可重复的法线和CNN的平移不变性赋予了该特征的旋转不变性，使用高维非线性特征对单个体素进行表示减少了数据的损失，该方法在3DMatch和KITTI里程计数据集上具有极强的泛化性．3.3　基于点集的方法基于点集的方法其核心思想是直接在无序点集上学习三维局部特征表示，不须要提前将三维点云变换到有序的数据结构，例如图像和体素等．这类方法的核心是基于PointNet[80]及PointNet++[83]架构对点特征进行编码，典型的方法包括PPF-Net[35]，PPF-FoldNet[84]，D3Feat[54]，DIPs[85]及GeDi[36]等．PPF-Net[35]：文献[35]提出了一种直接在原始点云上操作，且具备感知全局上下文的局部特征描述符．该方法首先利用mini-PointNet对N个局部块提取局部特征，每个局部块以点坐标、法线及4维点对特征作为输入，然后采用最大池化提取局部块的全局特征，最后与单个局部特征串接并融合，采用双流孪生网络和一个N元损失函数训练．该方法相比3DMatch有一定提升，但是在旋转后的3DMatch数据集上表现不佳．PPF-FoldNet[84]：文献[84]针对PPF-Net对于旋转操作很敏感这一问题，提出了一个无监督的编码解码网络．为抵抗旋转带来的影响，该网络的将局部块的旋转不变的点对特征作为输入，编码器部分采用类似PointNet的网络结构，解码器则是与Folding-net类似，采用MLP进行两次折叠，重构出局部点对特征，最后采用倒角距离衡量误差．该方法相比于PPF-Net在抗旋转方面更加鲁棒，但是由于只采用了简单的局部点对特，没有使用点的坐标信息，因此学习的描述符精度有待进一步提升．D3Feat[54]：受二维图像中的D2-Net[86]启发，针对随机采样的关键点会降低描述符的匹配精度这一问题，提出了联合学习关键点检测和描述的网络．该方法采用归一化的核点卷积(KPConv)的残差模块与跳接U-net结构构建全卷积网络，选取特征通道内与局部邻域内最显著的点作为关键点，使用数据增强提升学习描述符对噪声、尺度及旋转的影响．当关键点数量较少时，该方法在3DMatch和KITTI数据集上具有更高的配准精度．DIPs[85]：文献[85]提出了一种基于PointNet架构的局部特征学习框架，该方法首先为局部表面计算参考坐标系，并粗对齐局部点云，然后使用仿射变换网络(Affine T-Net)进行精对齐，最后使用PointNet将精对齐后的点云压缩成低维度的归一化特征．该方法在3DMatch和ETH数据集上的特征匹配性能优于FCGF和3DsmoothNet等．后续该作者又使用四元数网络(Q-Net)代替仿射T-Net，提出了GeDi[36]，该方法进一步提升了描述符的特征匹配性能．3.4　学习型三维局部特征描述符小结学习型三维局部特征描述符首先使用数据增强、构建参考坐标系或构建旋转不变性特征对抵抗旋转的影响，然后以多视图、体素或点集方式作为输入，以共享权值的孪生网络或者三元网络进行训练，在特征数据上的性能要优于传统手工描述符，但是由于不同数据集上点分布特性差异较大，因此对于上述三种不同表示学习型特征，基于体素表示的方法能保持局部表面的三维结构，但存储开销最大；基于多视图的表示方法会因视点及投影的原因造成信息损失，故表示力相对较差；基于点集表示的方法能够直接作用于点集，但对采样点的分布比较敏感，这些原因造成大多数学习型描述符的通用性不强，不能应用于不同的数据分布及特定场景．针对这些局限性，一种研究趋势是构建通用型的学习型描述符，能够跨数据集学习出通用性的特征，包括SpinNet[81]，GeDi[36]和MS-SVConv[87]．3.5　常用数据集及性能对比表6呈现了三个常用的三维描述子数据集，分别为3DMatch数据集[47]、ETH数据集[88]及KITTI数据集[89] ，其中3DMatch数据集[47]是由Kinect深度传感器生成的室内场景点云，数据质量高．后续对3DMatch数据集中点云进行旋转得到3DMatchRotated数据集[47]，该数据集被用于验证描述子对室内旋转场景点云的鲁棒性．而ETH数据集[88]则是采用Hokuyo UTM-30LX扫描仪对不同季节的室外场景扫描而成，相对于3DMatch[47]结构化场景，ETH数据集的点云更为散乱．KITTI[89]则是通过车载的Velodyne HDL-64线激光雷达扫描而成，不仅点云密度不均，而且存在大量空洞，因此挑战性最大．a．3DMatch数据集上描述子的匹配性能．如表7所示，学习型三维描述子(FCGF和SpinNet等)的平均匹配召回率远高于传统手工描述子(SI，SHOT，FPFH及USC)．这是因为3DMatch数据集的点云存在范围的机构化表面(平面)，传统的手工特征难以提取有效的几何信息，从而导致大量错误匹配的产生．而在3DMatchRotated数据集上，传统方法的性能基本保持不变，这是因为手工描述符针对旋转设计相应的旋转不变性特征，而早期的深度学习型描述符(CGF，3DMatch和PPF-Net)的性能出现大幅降低，说明它们对点云旋转极为敏感．而最新的深度学习型描述符(SpinNet和DIPs)由于设计相应抗旋转策略，因此能够保持最优．10.13245/j.hust.221101.T006表6基准测试数据集数据集传感器数据质量遮挡背景干扰模型场景模型数场景数/序列数应用场合3DMatch[47]Kinect高有有无2.5D无62配准ETH[88]Hokuyo UTM-30LX中有有无3D无8配准KITTI[89]Velodyne HDL-64低有有无3D无22定位10.13245/j.hust.221101.T007表73DMatch数据集上的平均匹配召回率方法3DMatch3DMatch-Rotated特征维度时间/ms均值标准差均值标准差SI[34]0.2270.1140.2270.1211530.133SHOT[30]0.2380.1090.2340.0953520.279FPFH[62]0.3590.1340.3640.136330.032USC[42]0.4000.125——1 9803.712CGF[48]0.5820.1420.5850.140321.4633DMatch[47]0.5960.0880.0110.0125123.210PPF-Net[35]0.6230.1080.0030.005642.257PPF-FoldNet[84]0.7180.1050.7310.1045120.794PerfectMatch[82]0.9470.0270.9490.024325.515FCGF[53]0.9520.0290.9530.033320.009D3Feat[54]0.9580.0290.9550.03532—SpinNet[81]0.9760.0190.9750.01932—DIPs[85]0.9480.0460.9460.046324.870GeDi[36]0.9790.0220.9760.02732—b．ETH数据集上描述子的匹配性能．如表8所示，在室外半结构化场景中，学习型三维描述子(CGF，3DMatch，PPF-Net及FCGF)的平均匹配性能显著降低，此时传统手工描述子SHOT的性能远远优于上述方法．这是因为SHOT构造了稳定可重复的LRF，类似于SHOT，DIPs及GeDi方法构造了更为精确的LRF信息，从而极大提升了描述子的鉴别力．10.13245/j.hust.221101.T008表8ETH数据集上的平均匹配召回率方法GazeboWood平均均值标准差均值标准差SHOT[30]0.7390.4570.6090.6400.611FPFH[62]0.3860.1420.1480.2080.221CGF[48]0.3750.1380.1040.1920.2023DMatch[47]0.2280.0830.1390.2240.169PerfectMatch[82]0.9130.8410.6780.7280.790FCGF[53]0.2280.1000.1480.1680.161D3Feat[54]0.8590.6300.4960.4800.563SpinNet[81]0.9290.9170.9220.9440.928DIPs[85]0.9080.8860.9650.9520.928GeDi[36]0.9890.9650.9741.0000.982c．KITTI数据集上描述子的匹配性能．如表9所示，各描述符的匹配性能通过场景点云配准结果体现．所有的深度学习方法均获得满意的配准结果，说明深度学习方法能够在KITTI移动激光雷达点云上学习出有效的三维局部描述子．10.13245/j.hust.221101.T009表9KITTI数据集上的相对平移误差(RTE)和相对旋转方法RTE/cmRRE/(°)匹配成功率/%均值标准差均值标准差FCGF[53]9.521.300.300.2896.57D3Feat-rand[54]8.870.440.320.0799.81D3Feat-pred[54]6.900.300.240.0699.81SpinNet[81]9.880.500.470.0999.10DIPs[85](2.5×104个点)8.690.690.440.4997.30GeDi[36](2.5×104个点)7.220.0290.320.2799.46GeDi[36](5.0×104个点)7.550.670.330.3199.82误差(RRE)统计结果4 研究展望三维局部特征描述是三维计算机视觉的研究基础，近年来大量的研究相继涌现，本研究将其涉及的三个方面，即局部参考坐标系、手工局部特征及学习型特征进行分类阐述，简要分析总结了现有的方法的优缺点及面临的挑战，为初入三维局部特征描述符这一领域的读者提供参考．尽管近些年在三维数据的局部特征提取方面取得极大的进展，但是仍旧面临诸多挑战，也进一步明确了未来须要继续研究的方向．a．低质量数据的特征提取问题．现有方法能够在高质量、稠密的点云数据中表现优异，但是当数据质量降低(高噪声、极低分辨率、大量空洞等)时，很多几何属性的统计会出现问题，此时算法将面临极大挑战，因此设计能够应对低质量数据的描述符是一个值得研究的方向．b．深度学习方法的泛化性问题．现有的学习型方法大都在特定的数据集上训练，但是当面临特定的应用场景或者不同分布的数据时，方法基本失效，因此研究跨数据集的通用性的学习型描述符是一个值得探索的方向．c．多数据融合的特征描述符．现有大部分方法仅采用几何属性信息构建描述符，在一些几何属性缺乏的场景中提取有鉴别力的信息将面临极大挑战，合理将多种传感器的数据融合起来，能够极大地提升描述符的鉴别力．d．融合局部信息和全局信息点云描述符的设计．本研究的点云局部描述符侧重于编码邻域点的局部信息，然而由于局部重复模式、表面对称性等干扰，使用局部描述符难以建立可靠的点对应关系，而从关键点出发的全局信息能够捕获更多非歧义的信息，因此有必要设计结合局部和全局信息的点云描述符来实现更全面的几何表示．e．融合纹理和几何信息点云描述符的设计．本研究的点云局部描述符侧重于编码关键点的邻域几何分布信息，然而当描述几何信息单一但纹理信息丰富的对象(壁画)时，无法建立正确的点对应关系，而从目标的颜色纹理信息出发能够获得更有区分性的信息，因此有必要设计融合纹理和几何信息的点云描述符来实现更有区分性的局部表示．