智能设备的不断迭代升级,使得获得数据(如文本、图像、音频及视频等)的途径越来越便捷,随之产生的数据量也在快速增长.为了从大量的数据中获取有用的信息,机器学习应运而生,其出现推动了多个领域的进一步发展,例如生物学中的整形手术[1]、医疗诊断[2]、临床自然语言处理[3]、知识产权保护[4]及零样本图像识别[5].与传统的计算机程序相比,机器学习不是通过简单地执行计算机指令得出期望的结果,而是让机器从过去的经历中学习经验,对数据的不确定性进行建模,从而具备预测和分辨的能力.在数据处理层面上,数据挖掘和机器学习均能从数据中提取信息,区别在于数据挖掘是通过分析已有的数据集获取知识,而机器学习是通过解析已有数据集获取一个稳定的模型.随着维度数量逐渐增加,数据存储结构逐渐多样化,如何高效解析和利用这些高维异构数据是当下机器学习所面临的难题.为了解决该问题,学者们提出了主成分分析(principal component analysis,PCA)[6]和线性判别分析(linear discriminant Analysis,LDA)[7]等子空间学习方法,这也使得子空间学习成为研究热点.子空间学习是维数约简的方法之一,它利用数据潜在的低维特征组合来保留数据的统计特性,有效地减少了硬件存储空间并提高了模型的训练效率.目前,子空间学习可通过特征提取[8-9]和特征选择[10-13]实现,广泛应用于计算机视觉及模式识别领域,如人脸识别[14-17]、语音情感识别[18]、运动分割[19]等.然而,传统子空间学习通常存在两个问题:a. 对噪声数据与离群值异常敏感;b. 无法提取完备的数据流形结构.目前基于低秩稀疏的子空间学习方法结合低秩表示(low-rank representation,LRR)[20]及稀疏表示分类(sparse representation based classification,SRC)[21],通过自我表示或者拉普拉斯图等方式对数据特征进行分离和提取,在一定程度上可以缓解上述两个问题,还能捕获数据的流形结构,提高模型性能.由于目前还没有文献对基于低秩稀疏表示的子空间学习进行较为全面和系统的梳理,因此本研究对近年来的子空间学习研究进行了归纳总结,旨在让读者了解子空间学习及低秩稀疏表示和当前低秩稀疏表示与子空间学习相结合的最新研究进展,同时指出了该研究中存在的挑战及未来研究方向.1 基于低秩稀疏表示的子空间学习1.1 子空间学习高维数据的分类和标签预测是机器学习领域的一大难题.一方面,高维数据使得模型训练参数的数量大幅度上升,对计算机硬件的要求提升,训练时间增长,造成“维数灾难”;另一方面,高维数据包含广泛的数据类型,如纹理特征、上下文特征、颜色特征及多视角特征等,这些特征需要丰富的先验知识,无法保证模型的鲁棒性.由于高维数据可由数据潜在的低维特征组合得出,因此子空间学习在基于这一假设下,寻求关联矩阵来提取数据的潜在特征,从而把数据从高维空间嵌入或投影到低维空间,Y=PTX,式中:Y∈Rm×N为低维空间数据,N为数据样本个数,m为低维数据的特征维数;P∈Rn×m为投影矩阵,n为高维数据的特征维数;X∈Rn×N为高维空间数据.目前子空间学习须综合考虑以下几点:a. 数据的全局和局部特征;b. 高维数据与低维数据的结构一致性;c. 对数据离散值和数据缺失的处理.根据迭代更新的方法,本研究将基于低秩稀疏表示的子空间学习划分为基于矩阵分解的子空间学习和基于谱聚类的子空间学习.前者通过单个子空间对数据进行特征值分解,利用关联程度高的特征向量构建投影矩阵P.而子空间聚类则组合多个子空间信息,构建关联矩阵提取数据特征,最后通过谱聚类计算得出投影矩阵P.基于低秩稀疏表示的子空间学习的划分见图1.10.13245/j.hust.210201.F001图1基于低秩稀疏表示的子空间学习的划分基于矩阵分解的子空间学习,其降维过程一般分两步:首先构建高维空间与低维空间之间的数学联系,然后再通过矩阵分解获取投影矩阵.第一阶段可通过数据的自表示,获取数据点邻接图关系等连接高低维空间;第二阶段则用特征分解或奇异值分解等获取投影矩阵.基于矩阵分解的子空间学习分为基于公共空间嵌入的子空间学习及基于流形学习的子空间学习两种.基于公共空间嵌入的子空间学习主要通过一个或多个低维空间来捕获多模态间高维空间的信息,并共享不同模态间的互补信息,如TSL[22],transfer PCA[23]等.基于流形学习的子空间学习则通过分析数据点之间的潜在结构,选择性保留数据在低维空间的几何结构.根据数据结构的捕获方式,基于流形学习可以划分为全局结构保留、局部结构保留和综合结构保留的子空间学习.基于全局结构保留的方法包括PCA,KPCA[24-25]和ISOMAP[26]等;基于局部结构保留的方法包括LLE[27]、独立成分分析(independent component analysis,ICA)[28]、拉普拉斯特征映射方法(Laplacian Eigenmaps,LE)[29]和图嵌入(graph embedding,GE)[30]等;基于综合结构保留的方法包括基于子空间学习的图正则化特征选择(subspace learning-based graph regularized feature selection,SGFS)[31]和半监督L2正则图方法(semi-supervised L2graph,SeL2graph)等[32].基于谱聚类的子空间学习,也叫基于谱聚类的子空间聚类,其降维过程一般分为两步:首先将数据划分成多个子空间簇组,以集群的方式进行特征提取,获取数据的关联矩阵;然后利用该关联矩阵以谱聚类的方式计算出投影矩阵,将数据映射到低维空间[33].即第一阶段通过获取数据在共轭空间中的线性表示矩阵(系数矩阵,关联矩阵),将数据分割成若干个簇组,每个簇组对应一个子空间,目前大多数关联矩阵的求解均基于增广拉格朗日法(ADMM)[34]及其改进.第二阶段则一般通过谱聚类或其他变种聚类方法进行聚类.文献[35-36]根据子空间聚类的应用方法,将其分为基于矩阵分解[37-38]、代数方法[39-42]、迭代方法[43-44]、统计方法[45-46]和基于谱聚类的方法[47-48].随着基于低秩稀疏表示方法[49-51]的发展,基于谱聚类的子空间学习结合图论和低秩稀疏表示通过学习或者构建样本间的关联矩阵,以结构化表示来描述数据样本之间的关系,能有效地捕获数据样本的潜在结构,如Ncut[52],SSC (sparse subspace clustering)[53],LRR,LRSC (low rank subspace clustering)[54]等及Latent SSC (latent space sparse subspace clustering)[55],CASS (correlation adaptive subspace segmentation)[56],SMR (SMooth representation)[57],BD-LRR (block-diagonal LRR)[58]等LRR,SSC的改进算法.1.2 稀疏表示与低秩表示稀疏表示和压缩感知[59]的原理相同,在子空间学习的基础上,稀疏表示可以使得经过映射的低维数据进一步筛选关键数据,通过少量数据特征描述数据,在减少存储空间下维持数据重构的性能.Elhamifar提出的SSC将稀疏表示与子空间聚类相结合,该方法引入了对系数矩阵的L0范数约束,通过稀疏系数矩阵来捕获数据的局部特征.由于最小化L0范数的问题是一个NP-Hard问题,而L1范数是L0范数的最优凸近似,因此提出通过系数矩阵的L1范数来近似计算稀疏惩罚,捕获数据的局部信息,SSC的目标函数为minZ,E||Z||1+λ||E||1;s.t. X=XZ+E,Zii=0,式中:Z∈RN×N为X的自表示系数矩阵;λ为权重系数;E∈Rn×N为噪声矩阵;||∙||1为L1范数.在实际应用中,受限于环境因素,想要采集无噪声数据是非常困难的,而噪声数据的存在会破坏数据的低秩结构.在子空间学习的基础上,低秩表示对数据噪声进行分离的同时,还能维持数据的低秩结构.文献[60]提出的RPCA将数据拆分成干净部分和噪声部分,通过最小化干净部分的秩维持数据的低秩结构.由于最小化秩是个NP-Hard问题,因此提出使用核范数来近似求解干净部分的最小秩,噪声部分的L0范数则用L1范数近似.LRR则利用数据本身的自我表示获取数据潜在特征,进而利用一部分数据的特征组合来捕获数据的全局结构,LRR的目标函数为:minZ,E||Z||*+λ||E||1;s.t. X=XZ+E,式中||∙||*为核范数,表示矩阵奇异值之和.2 基于低秩稀疏表示的子空间学习研究现状子空间学习经过从传统子空间学习到基于低秩稀疏表示的子空间学习的发展,其中融合了图嵌入、流形学习等知识框架,子空间学习的发展时间轴如图2所示.10.13245/j.hust.210201.F002图2子空间学习的发展时间轴2.1 基于矩阵分解的子空间学习2.1.1 基于公共空间嵌入的子空间学习基于空间嵌入方法的核心思想是同时将视觉特征和语义特征嵌入到一个公共空间,而字典学习能通过完备的字典原子及相应的系数,以非线性的方式重构数据,其在人脸识别[61-62]、聚类[63-64]和图像分割[65-66]等方面取得了良好的效果.传统的字典学习方法如K-SVD[67],LC-KSVD[68],D-KSVD[69]和DPL[70]等,可结合子空间学习,通过字典原子共享数据的底层结构.文献[71]提出了一种广义低秩迁移子空间学习(generalized low-rank transfer subspace learning,LTSL)方法.该方法将传统的子空间学习推广到迁移学习中,通过利用投影矩阵提取可迁移特征,引入低秩约束来重构系数矩阵.但该方法对数据缺失问题比较敏感,泛化能力较弱.文献[72]提出了一种潜在低秩迁移子空间学习(latent low-rank transfer subspace learning,LLTSL)方法来解决模态缺失问题.该方法通过学习一个合适的投影矩阵,辅以低秩约束,将源域与目标域的数据投影到一个公共子空间来重构目标域的缺失数据,然后通过字典学习捕获投影后的源域和目标域数据之间的潜在特征.但该方法无法获取足够的辨别信息,易发生过拟合现象.文献[73]提出了基于直推迁移的正则化最小二乘回归(transductive transfer regularized least-squares regression,TTRLSR)模型.该方法通过子空间学习用一个投影矩阵将两个领域的数据投影到一个公共子空间,在最小化两个投影数据差异的同时,引入标签矩阵并采用最小二乘回归来训练低维数据的分类,最终实现对无标签人脸图像进行类标签预测.然而TTRLSR对数据缺失或离群值问题敏感,无法应用于大规模数据.文献[74]提出了一种基于联合字典学习和语义约束子空间学习的跨模态检索方法(joint dictionary learning and semantic constrained latent subspace learning for cross-modal retrieval,JDSLC).该方法通过字典学习来获取源域和目标域的稀疏特征,然后再通过两个投影矩阵将两个域的稀疏特征投影到一个公共子空间,同时引入跨通道相似性约束将其联合为一个框架.然而JDSLC对数据缺失或离群值问题敏感,对数据局部结构的捕获能力不足.文献[75]提出了一种基于半监督的域自适应协方差匹配方法(domain adaptation by covariance matching,DACoM).该方法通过两个投影矩阵分别将源域与目标域投影到同一个公共子空间,使用协方差差异来减少投影样本的分布差异,同时采用归一化的拉普拉斯图来捕获投影样本中的潜在光谱结构.其中,为了充分利用数据的判别信息,该拉普拉斯图的权值由两个域的数据是否具有相同标签决定.然而该方法对数据缺失或离群值问题敏感.文献[76]通过研究无监督域迁移学习,提出了基于低秩判别重构矩阵的迁移子空间学习(transfer subspace learning via low-rank and discriminative reconstruction matrix,TSL-LRDRM)的方法.该方法能通过子空间学习和低秩约束,将两个领域的数据投影在同一个子空间,并用源数据重构目标数据,此外,还引入两个新的约束:a. 利用线性熵度量目标域的判别能力;b. 对重构矩阵的信息含量进行判别分析,使具有相同目标的源数据的重构系数矩阵相互拟合.由于该方法子空间维数非自由参数,泛化能力较弱.文献[19]认为LTSL中源域与目标域的投影并没有减少两个域的边缘分布和条件分布差异,因此提出了判别迁移子空间学习中的结构保留与分布对齐(structure preservation and distribution alignment,SPDA)方法,该方法对投影矩阵进行了改进,其工作主要包括三个方面:a. 引用标签矩阵并松弛化,减少投影后的源数据的分类误差;b. 引入低秩稀疏约束,保留两个领域之间数据的全局和局部几何结构;c. 基于流形假设,通过投影后数据的空间关系来减少两个领域之间的边缘分布和条件分布差异.由于该方法子空间维数非自由参数,泛化能力较弱.此外,针对不同的数据集,SPDA与TSL-LRDRM还存在负迁移问题,即从源数据迁移到目标域上的知识对模型的学习产生负面作用.文献[77]认为基于子空间的迁移学习方法对测试样本的缺失数据和噪声比较敏感,因此提出了一种基于监督字典的迁移子空间学习(supervised dictionary-based transfer subspace learning,SDTSL)方法.该方法通过变换矩阵,将源数据和目标数据映射到相同的低维子空间,然后利用字典学习获取一个公共字典矩阵进行数据重构.同时利用两个域的标签矩阵来辅助对应的稀疏矩阵,以获取数据的判别信息.SDTSL依靠标签捕获数据的辨别信息,有效应对数据缺失问题,然而其对数据的局部结构的获取能力不足.基于公共空间嵌入的子空间学习方法的优缺点如表1所示.10.13245/j.hust.210201.T001表1基于公共空间嵌入的子空间学习方法比较方法年份基于方法优点缺点LTSL2014LRR共享异域的数据信息,实现简单无法获取足够的辨别信息,对数据缺失问题敏感LLTSL2014LSTL+LRR+Dictionary learning结合字典学习和低秩表示,解决模态缺失问题.捕获数据潜在信息并重构缺失无法获取足够的辨别信息,易发生过拟合TTRLSR2016LSTL+LSR引入标签以捕获数据的辨别信息对数据缺失或离群值问题敏感,两个领域之间的共享信息不足JDSLC2018Dictionary learning+Laplacian graph embedding无监督学习,捕获数据全局结构对数据缺失或离群值问题敏感,数据局部结构捕获能力不足DACoM2018Dictionary learning+Laplacian graph embedding依靠字典学习共享两个域的全局结构,以拉普拉斯正则图整合两个域的同类和异类数据,捕获数据的局部结构对数据缺失或离群值问题敏感TSL-LRDRM2019LSTL+LSR+Laplacian graph embedding捕获数据全局结构和局部结构,捕获辨别信息,能发现潜在数据信息负迁移问题,子空间维数非自由参数SPDA2019LSTL+LRR+SSC+Laplacian graph embedding捕获数据全局结构和局部几何结构,依靠源域的标签捕获辨别信息负迁移问题,子空间维数非自由参数SDTSL2019LSTL+LRR+Dictionary learning共享异域的数据信息,捕获数据全局结构和局部结构,依靠标签捕获数据的辨别信息,有效应对数据缺失问题数据局部结构的获取能力不足2.1.2 基于流形学习的子空间学习a. 基于全局结构保留的子空间学习文献[24]在PCA的基础上引入核函数,提出核PCA(kernel principal components analysis,KPCA),该方法通过核函数将数据以非线性方式映射到更高维的空间后,进行特征值分解,能提高模型学习能力和泛化能力.然而,由于核函数的不同选择影响KPCA降维效果,而且该方法对数据缺失或离群值问题敏感,因此数据局部结构捕获能力不足.文献[26]提出了ISOMAP方法,首先通过对样本点进行近邻搜索,获取单个样本的局部信息;然后通过测地线距离来表示局部空间的连接;最后在保持各个局部空间的测地线距离不变的情况下,通过MDS(MultiDimensional scaling)算法[78]获得低维坐标.ISOMAP用测地线距离取代传统的度量距离,能维持数据全局特性.然而,该方法不适于学习有较大内在曲率的流形,数据局部空间图的连通性影响降维效果.文献[79]以增量子空间研究为基础,认为中心化样本的长度与偏离子空间的角度是子空间降维产生误差的主要因素,提出了基于角度优化的全局嵌入(angle optimized global embedding,AOGE)算法.该方法不同于PCA的地方在于其考虑了中心化样本的投影角度,提升了对数据的学习能力和抗噪声能力.然而,AOGE算法对数据缺失问题敏感,数据局部结构捕获能力不足.文献[80]认为传统的ISOMAP方法计算复杂度高、分类能力较弱,同时对带噪声数据及本征维数较敏感,为此提出了一种鲁棒的监督ISOMAP算法(RS-ISOMAP).该算法引入样本可信度和类别信息,重新定义样本点之间的测地距离,结合样本可信度、领域和类别信息构成新的多维测地距离,最后采用MDS和广义回归神经网络计算样本嵌入坐标,相比传统的ISOMAP方法,能有效消除数据冗余,提高分类器的性能.然而,RS-ISOMAP的性能很大程度上取决于邻域选择的参数;同时该方法对数据缺失较敏感,对数据局部结构捕获能力不足.文献[81]提出一种基于全局信息保持的局部线性嵌入(global information retention locally linear embedding,GLLE)方法.该方法在LLE算法的基础上,引入全局权重指标,即通过计算样本之间的距离及密度,计算数据点的全局权重,克服LLE算法在全局信息保持能力弱的缺陷.然而,GLLE的性能很大程度上取决于邻域选择的参数,同时对噪声数据较敏感.基于全局结构保留的子空间学习的方法的优缺点如表2所示.10.13245/j.hust.210201.T002表2基于全局结构保留的子空间学习方法比较方法年份基于方法优点缺点KPCA1998PCA以非线性方式降维,提高模型学习能力核函数的不同选择影响降维效果,对数据缺失或离群值问题敏感,数据局部结构捕获能力不足ISOMAP2000MDS结合测地线距离维持数据全局特性不适于学习有较大内在曲率的流形,数据局部空间图的连通性对降维效果影响AOGE2011PCA考虑中心化样本的投影角度提升了对数据的学习能力和抗噪声能力对数据缺失问题敏感,数据局部结构捕获能力不足RS-ISOMAP2017ISOMAP改良ISOMAP算法,融合多维信息捕获全局信息,提高分类器的性能邻域选择的参数影响降维效果,对数据缺失问题敏感,数据局部结构捕获能力不足GLLE2019LLE改良LLE算法,针对全局结构进行特征提取邻域选择的参数影响降维效果,对噪声数据敏感b. 基于局部结构保留的子空间学习文献[27]提出了LLE方法,该方法通过每一个数据点与近邻数据点的线性表示,构造一个邻域保持映射,进而通过最小化局部重建权重矩阵获取降维后的特征数据.然而,LLE对近邻节点数量、子空间参数的选择较敏感,该方法也不适于处理噪声数据.文献[82]在LLE的基础上,提出了局部保留投影(locality preserving projections,LPP)方法.该方法通过分析近邻数据决定其在该数据点局部信息的权重,然后通过最小化投影后的局部数据关系和约束缩放因子来计算投影矩阵.然而,LPP对噪声数据和数据缺失问题敏感;同时,近邻节点数量的选择极大地影响该方法的降维效果.文献[83]提出的邻域保留投影(neighbourhood preserving embedding,NPE)算法结合LLE近邻搜索方法,通过最小化数据点与其近邻数据的重构误差来取得最佳的降维效果.然而,NPE对近邻尺度参数的选取特别敏感,不适于解决高噪声数据.在L1范数与稀疏正则化回归成功应用在人脸识别的基础上,文献[84]提出了SPP,不同于NPE利用欧氏距离来选择k阶近邻,该方法使用稀疏技术来为每个样本自适应地选择近邻.然而,NPE对噪声数据和数据缺失问题敏感,近邻节点数量的选择极大地影响该方法的降维效果.事实上,SPP只考虑了数据的局部结构信息,却忽略了数据的全局结构信息,其获取的信息量不足以解决分类问题.此外,由于SPP中邻接图的构建采用L1范数图约束,运行效率较低,无法应用于大规模数据,因此文献[85]提出了基于协作表示的投影(collaborative representation based projection,CPR)方法.该方法针对邻接图的构建进行了改进,采用L2范数图来代替L1范数图捕获数据的局部信息,保留基于协作表示的数据重建,类似于LDA,通过最大化类间散度矩阵和最小化类内散度矩阵来获取最优的特征向量,从而获取最优投影矩阵,提高该方法的运行效率.此外,该算法结合类内的散度矩阵,捕获数据的全局信息.然而,CPR对噪声数据和数据缺失问题敏感.文献[86]针对局部信息的特征提取,提出了基于局部判别的稀疏子空间学习(local discriminative based sparse subspace learning,LDSSL)方法.由于传统的局部判别模型不适于非线性子空间的数据,因此LDSSL通过核函数将其扩展,并结合子空间学习进行特征提取,虽然保留了数据的局部判别信息和局部几何结构,但该方法对噪声数据和数据缺失问题敏感.基于局部结构保留的子空间学习的方法的优缺点如表3所示.10.13245/j.hust.210201.T003表3基于局部结构保留的子空间学习方法年份基于方法优点缺点LLE2000Graph embedding无监督学习的非线性方法,以线性化操作近似特征提取,保留近邻数据几何结构近邻节点数量、子空间参数的选择影响降维效果,对噪声数据敏感LPP2004Graph embedding无监督学习,依靠近邻数据的局部结构进行降维,算法时间复杂度低对噪声数据和数据缺失问题敏感,近邻节点数量的选择影响降维效果NPE2005LLE+Graphembedding无监督学习,优化目标函数,更注重捕获近邻数据的局部结构对噪声数据和数据缺失问题敏感,近邻节点数量的选择影响降维效果SPP2010LPP+Graph embedding无监督学习,结合稀疏表示与保持投影,解决近邻节点数量的影响,以L1正则化来最小化目标函数,捕获局部数据信息L1正则化捕获数据的稀疏性,影响对数据局部结构的捕获能力,计算效率低,对噪声数据和数据缺失问题敏感CPR2015Graph embedding+SPP无监督学习,目标函数以L2正则优化,捕获近邻数据的局部结构,提高优化效率对噪声数据和数据缺失问题敏感LDSSL2019SSC+Laplacian graph embedding保留数据局部结构及辨别信息,并能应用到非线性子空间的数据对噪声数据和数据缺失问题敏感c. 基于综合结构保留的子空间学习文献[10]将特征选择准则转化为矩阵分解问题,提出了矩阵分解特征选择(matrix factorization feature felection,MFFS)方法.该方法引入子空间距离来度量原始特征空间和所选特征空间之间的差异,此外,还引入指标矩阵用于指引特征的选择,使得该方法能够近似地表示所有特征.然而,MFFS对噪声数据和数据缺失问题敏感.文献[87]提出低秩保留投影(low rank preserving projections,LRPP)方法.该方法通过将低秩稀疏表示和LPP结合成一个框架,能够同时学习一个全局最优的投影矩阵.该方法保留了数据的全局结构,其低秩投影矩阵在一定程度上可以减少数据中噪声的干扰.然而,LRPP对数据缺失问题敏感,不适于处理大规模数据.文献[88]在MFFS的基础上,引入低秩稀疏数据表示思想,提出了基于非负稀疏子空间学习的特征选择(non-negative sparse subspace learning feature selection,NSSLFS)方法,该方法通过引入稀疏子空间学习,可以使用模型识别并分离数据缺失值,提高模型的泛化能力.然而,该方法对数据局部结构捕获能力不足,对选择特征的数量较敏感.文献[89]认为类内相似、类外分离的数据结构同样适用于稀疏投影后重构数据,提出了判别稀疏保留图嵌入(discriminative sparsity preserving graph embedding,DSPGE)方法.该方法通过构建每个类的邻接图和不同数据类别的邻接图,在保留类内样本在原始高维空间中邻域关系的同时,保留数据类间的近邻关系.然而,DSPGE对噪声数据和数据缺失问题敏感,对近邻数据的数量较敏感,不适于处理非线性高维数据.文献[8]提出一种鲁棒的图像表示方法来揭示图像之间的潜在关系,称为低秩嵌入(low-rank embedding,LRE).该方法引入低秩和稀疏表示,将其同时用于指导投影矩阵的学习,以减少遮挡和损坏的负面影响,增强模型的鲁棒性;同时,采用的交替迭代策略,能使所学习的子空间与低秩表示特征平滑地集成在一起.然而,LRE对数据缺失问题敏感,不适于处理大规模数据.文献[9]认为SPP,CPR构建的邻接图无法准确地捕获数据的局部结构,提出了一种低秩保留嵌入方法(low-rank preserving embedding,LRPE).该方法首先通过结合LRR与数据的自我表示,提取系数重构矩阵,通过矩阵的奇异值分解获取潜在特征向量,不仅能捕获数据的全局结构,还对噪声数据具有一定的鲁棒性.但LRPE对数据的局部结构捕获能力不足,无法处理大规模数据.文献[90]认为低秩和稀疏表示能同时用于指导投影矩阵的学习,提出低秩和稀疏保留嵌入(low rank and sparsity preserving embedding,LRSPE)方法.该方法结合LRPP图嵌入思想,把图的学习和投影矩阵的学习统一到同一个框架,通过图和投影之间的相互学习,对投影矩阵引入低秩和稀疏约束,捕获数据的全局和局部结构.LRSPE结合了图嵌入框架,不适于处理大规模数据.文献[91]认为流形学习仅仅关注几何结构,对数据损坏等情况相当敏感,提出了低秩稀疏保留投影(low-rank sparse preserving projections,LSPP)方法.该方法将低秩稀疏表示和投影学习结合在一起,首先将高维数据投影在低维空间,然后再从该投影空间中获取数据的重构稀疏,同时引入低秩稀疏约束,保留数据的流形结构,提高模型对数据的全局结构与局部结构的捕获能力.但是,LSPP不适于处理大规模数据,无法处理新样本.文献[92]认为子空间学习须要提高捕获数据局部信息能力及对数据离群值的鲁棒性,结合了LRR与图嵌入,提出图嵌入的低秩投影学习(low-rank projection learning via graph embedding,LRP_GE)方法.该方法通过拉普拉斯图正则化,保留数据的局部几何信息,并引入低秩稀疏约束来提高模型的鲁棒性.然而,LRP_GE对数据局部结构捕获能力不足,不适于处理大规模数据.随着基于低秩表示的特征方法发展,文献[93]认为尽管LRR捕获当前样本的全局结构,但由于投影矩阵不能在训练阶段获取,不适于处理新导入样本,而且无法解决新样本的分类问题,因此提出低秩判别性保留投影(discriminative low-rank preserving projection,DLRPP),通过LRR方法学习全局的子空间结构,然后利用LRR-Graph和LDA的约束条件学习局部和全局判别信息.不足的是,DLRPP不适于处理大规模数据.针对LRE中投影矩阵不能很好地获取数据特征及会将错误数据代入到目标空间等问题,文献[94]提出了LLRSE方法.该方法通过构建正交矩阵来保留原始数据的主要结构,并结合分类损失项和低秩稀疏正则化,将LRE转变为监督学习,以增强其对数据离群及噪声的鲁棒性.然而,LLRSE不适于处理大规模数据.文献[95]在DSPGE的基础上开辟了新思路,提出判别全局性和局部保留图嵌入(discriminative globality and locality preserving graph embedding,DGLPGE)方法.该方法通过考虑各样本点的几何分布和类的区分度,重新定义了邻接图上边的双向权值,提高低维空间中数据的几何保持性和模式识别能力.缺点是DGLPGE的近邻数据的数量影响数据局部结构捕获能力,而且计算复杂度较高,不适于处理非线性高维数据.文献[96]结合伪标签的判别信息,提出了一种无监督的特征选择框架(nonnegative Laplacian embedding guided subspace learning for solving unsupervised feature selection,NLE-SLFS).该框架首先利用非负的拉普拉斯嵌入法为数据生成伪标签,然后利用这些标签和映射数据进行分类,充分利用类标签来捕获数据的判别信息.同时为了捕获数据的局部结构,对映射的数据及伪标签矩阵引入拉普拉斯图正则化.然而,NLE-SLFS生成的伪标签的质量极大地影响辨别信息的捕获能力,同时该方法对数据缺失问题较敏感.文献[11]为了充分利用数据流形和特征流形的局部几何信息来指导特征选择,提出了基于稀疏和低冗余子空间学习的对偶图正则化鲁棒特征选择(sparse and low-redundant subspace learning-based dual-graph regularized robust feature selection,SLSDR)方法.该方法不仅能利用低秩稀疏表示来学习系数矩阵和特征选择矩阵,还能分别引入数据的图嵌入方法来约束系数矩阵和特征选择矩阵,保留数据的局部几何结构.但是,SLSDR对数据局部结构捕获能力不足.基于综合结构保留的子空间学习方法的优缺点如表4所示.10.13245/j.hust.210201.T004表4基于综合结构保留的子空间学习方法比较方法年份基于方法优点缺点MFFS2015representation-based feature learning无监督学习,依靠矩阵分解提高特征提取效率对噪声数据及数据缺失问题敏感LRPP2015LRR+LPP捕获数据的全局结构及数据的几何结构,通过映射的方式提高对噪声数据的鲁棒性对数据缺失问题敏感,不适于处理大规模数据NSSLFS2016MFFS+Laplacian graph embedding无监督学习,优化正则约束项来捕获数据的全局结构及近邻数据的几何结构数据局部结构捕获能力不足,选择特征的数量影响降维效果DSPGE2016SPP+LPP+Graph embedding能捕获同类数据的潜在几何结构及异类数据的邻接关系对噪声数据和数据缺失问题敏感,近邻数据的数量影响数据局部结构捕获能力,不适于处理非线性高维数据LRE2017LRR+NPE+Graph embedding无监督学习,捕获数据的全局结构及数据之间的邻接结构,对噪声数据具有鲁棒性不适于处理大规模数据,对数据缺失问题敏感LRPE2017LRR+Laplacian graphembedding无监督学习,集中捕获数据的全局结构,对噪声数据及数据缺失问题有良好的鲁棒性捕获数据的局部结构能力不足,不适于处理大规模数据LRSPE2018LRR+ NPE+SPP通过映射捕获数据的全局结构及数据潜在的几何结构计算复杂度高,不适于处理大规模数据,对数据缺失问题敏感LSPP2018LRR+LRSSC+Laplacian graph embedding捕获数据的全局结构及近邻数据的几何结构,通过映射的方式提高对噪声数据及数据缺失的鲁棒性不适于处理大规模数据,无法处理新样本LRP_GE2018LRR+Laplacian graph embedding以图嵌入的方法捕获数据的全局结构及近邻数据之间的几何结构,对噪声数据及数据缺失具有鲁棒性不适于处理大规模数据,数据局部结构捕获能力不足DLRPP2019LRR+ Laplacian graph embedding捕获数据的全局结构及局部流形信息,对噪声数据及数据缺失具有鲁棒性不适于处理大规模数据LLRSE2019LRE捕获数据的全局结构及数据的局部结构,通过标签来捕获数据的辨别信息,对噪声数据及数据缺失具有鲁棒性不适于处理大规模数据DGLPGE2020LPP+Graph embedding能捕获同类数据的潜在几何结构及异类数据的邻接关系近邻数据的数量影响数据局部结构捕获能力,不适于处理非线性高维数据NLE-SLFS2019Laplacian graph embedding无监督学习,捕获数据的全局结构及近邻数据的几何结构,捕获数据的辨别信息生成的伪标签的质量影响辨别信息的捕获,对数据缺失问题较敏感SLSDR2020MFFS+LPP+SSC捕获数据全局结构的近邻数据局部几何结构,捕获数据的辨别信息,对噪声数据具有鲁棒性数据局部结构捕获能力不足2.2 基于谱聚类的子空间学习2.2.1 基于全局线性表达的谱聚类子空间学习文献[96]提出了潜在多视角聚类(latent multi-view subspace clustering,LMSC)方法,该方法利用数据的潜在表示及自我表示子空间聚类方法,针对不同视角下的数据分别采用不同的投影矩阵,将多视角数据映射到潜在空间,然后根据该潜在空间来获取不同的子空间,能够灵活地探索多视角数据之间的互补性.此外还能将模型扩展到神经网络来学习非线性映射,提高该方法的鲁棒性.文献[97]在LRSSC的基础上,针对多视角数据提出了一种的低秩稀疏子空间聚类(multi-view low-rank sparse subspace clustering,MLRSSC)方法.该方法通过构建各视图之间共享的关联矩阵来学习一个联合子空间表示,即该联合子空间特征由所有视角投影后的子空间构成.针对各视角下的子空间特征采样的问题,给出两正则约束:一是不同子空间的关联矩阵相互逼近;二是综合所有关联矩阵并使其相互拟合.文献[98]针对多视角聚类,认为可以使用共享的子空间及特定的子空间联合实现多视角数据的自我表示,提出了一致并特定的多视图子空间聚类(consistent and specific multi-view subspace clustering,CSMSC)方法.该方法引入低秩稀疏约束提高模型获取结构的能力,将共享的子空间及所有特定视角子空间的联合构建用于谱聚类的关联矩阵.文献[99]认为LRR与SR等方法通过数据之间的系数矩阵不能很好地衡量数据之间的相似性,结合LSR[48]与LLE的数据表示方法,提出了局部约束的最小二乘回归(locality-constrained LSR,LCLSR)方法,该方法在子空间学习的基础上结合图嵌入,能捕获数据的非线性结构.文献[100]认为LRR获取的系数重构矩阵还可以进行自我表示,提出了自我表示约束低秩表示(self-representation constrained low-rank representation,SRLRR),该方法对系数重构矩阵引入了自我表示约束,使系数矩阵能自我重构,提高系数矩阵对全局信息的捕获能力.文献[101]认为当前核范数与L1范数约束下的模型对系数矩阵与噪声矩阵过度惩罚,模型会出现过拟合现象,因此在LRSSC基础上,针对该方法的正则约束提出了两种改进方法:a. 引入多元广义极小极大凹罚函数(generalization of the minimax concave,GMC)[102],该函数不仅能保留低秩和稀疏约束子问题的凹凸性,还能更好地保留系数矩阵的低秩稀疏特性;b. 采用Schatten-q范数和L0范数约束来维持关联矩阵的低秩稀疏特性,并采用近似平均法,保证全局收敛.文献[103]从数据的流形结构分析入手,提出了低秩局部嵌入表示(low-rank local embedding representation,LRLER)方法.该方法不同于用拉普拉斯正则化的邻域图来描述局部结构的子空间学习方法,它有机结合LLE和LRR,将原始数据映射到局部线性嵌入空间.为了避免样本的邻域混叠的影响,引入了局部切空间技术来表征样本与其邻域之间的关系,通过构造样本的局部切线空间的法线方向与邻域法线方向的一致程度来校正局部线性表示系数.文献[104]通过研究LRR与SSC之间的关系,将LRR与SSC有机结合,提出了低秩稀疏子空间聚类(low-rank sparse subspace clustering,LRSSC).同时还分析了子空间聚类中关联矩阵的构建问题[105],为后来的研究提供了两个改进方向:a. 系数矩阵的核范数未必能准确指引关联矩阵的构建;b. 采用样本矩阵的近邻奇异值等方法避免陷入样本子空间的混叠.文献[106]针对结合神经网络多视角子空间聚类提出了交互多层子空间学习(reciprocal multi-layer subspace learning,RMSL)框架,该框架由两个网络构成,即用于分层的自我表示网络及后向编码网络.前者获取多视角下的特定子空间及利用潜在特征获取对应的共享子空间,后者再利用特定子空间来获取潜在特征.文献[107]认为LMSC忽略了多视图数据之间的局部结构,结合局部流形结构学习,提出多视图聚类的潜在相似学习(latent similarity learning for multi-view clustering,LSLMC)方法.在LMSC的基础上,该方法通过计算各个视角下数据之间的相似矩阵,然后利用拉普拉斯图正则化来获取局部流形结构.此外,该方法对误差矩阵引入低秩约束,能有效将子空间特征的判别信息与噪声进行分离.文献[108]认为不同视图的统计属性是不同的,甚至是不兼容的,而特征拼接是组合多视图数据的一种自然方式,为此提出了特征拼接的多视图子空间聚类(feature concatenation multi-view subspace clustering,FCMSC)方法,该方法通过结合字典学习的稀疏编码思想,将多视角数据映射到潜在子空间中,然后以该子空间特征作为字典原子学习对应的稀疏编码矩阵,字典学习的噪声矩阵定义为多视角数据和其对应噪声矩阵的内积.此外,FCMSC对两个学习的噪声矩阵引入L2,1范数约束,来解决多视图数据的噪声问题,同时还利用拉普拉斯图正则化来保留数据的局部流形结构,增强字典的稀疏编码获取信息的能力.基于全局线性表达的谱聚类子空间学习方法的优缺点如表5所示.10.13245/j.hust.210201.T005表5基于全局线性表达的谱聚类子空间学习方法比较方法年份基于方法优点缺点SSC2009representation-basedfeature learningL1正则化近似L0正则化,捕获数据的局部结构没有考虑数据可能存在多个局部结构,对数据缺失问题敏感,无法获取足够的辨别信息LRR2012representation-basedfeature learningL2正则化近似核范数,捕获数据的全局结构没有考虑数据可能存在多个局部结构,对数据缺失问题敏感,无法获取足够的辨别信息LSR2012LRR+SSC推广到最小二乘回归,捕获数据的全局结构,提高对噪声数据的鲁棒性对数据缺失问题敏感LMSC2017SSC+LRR用潜在共享空间保留多视觉数据的全局结构信息无法保持不同视图的一致性,对噪声数据敏感,不适于处理高维数据MLRSSC2018SSC+LRR对异构数据、噪声数据具有鲁棒性,保留数据之间的一致性不适于处理大规模数据CSMSC2018SSC保留多视觉数据的多样性,并保持数据之间的一致性对数据缺失问题敏感LCLSR2018LSR+LRR+SSC+Laplaciangraph embedding捕获数据的全局结构及近邻数据的几何结构对噪声数据、数据缺失问题敏感SRLRR2018LRR+LLE添加自我表示约束来捕获数据的全局结构及近邻数据的几何结构没有考虑数据的内在几何结构GMC-LRSSC2018LRR+SSC+GMC优化正则约束来捕获数据的全局结构及近邻数据的几何结构对噪声数据、数据缺失问题敏感,自定义范数参数选择影响降维效果LRLER2019LRR+LLE捕获数据的全局结构及近邻数据的几何结构,计算速度快对噪声数据、数据缺失问题敏感LRSSC2019LRR+SSC捕获数据的全局结构及近邻数据的几何结构数据可能存在多个局部结构,无法捕获正确的局部结构RMSL2019SSC通过多层子空间学习捕获多视觉数据的全局结构,以后向编码网络捕获数据的潜在结构对数据缺失问题敏感LSLMC2020SSC+Laplacian graphembedding通过拉普拉斯图正则化捕获数据的局部结构进而分离多视觉数据的全局结构,对噪声数据具有鲁棒性,捕获数据的潜在结构对数据缺失问题敏感FCMSC2020SSC+ Dictionary learning+Laplacian graph embedding保留多视觉数据的多样性及数据的局部流形结构,保持数据之间的一致性并捕获数据的全局结构不适于处理大规模数据,对数据缺失问题敏感2.2.2 基于局部邻接距离的谱聚类子空间学文献[109]考虑到之前的聚类方法无法处理时间序列数据(如视频),提出了一种有序子空间聚类(ordered subspace clustering,OSC)方法.基于序列数据来源于均匀间隔的特定时间或空间的假设,通过判断序列数据近邻的差异,就可以判断是否属于同一个子空间.引入对相邻数据差约束来提高对时间序列时间相似帧的识别能力,同时引入L2,1范数约束,保留系数矩阵的稀疏性.然而,OSC对每一个数据点的近邻数据量不足,捕获近邻结构信息的能力较弱.文献[110]提出了时间子空间聚类(temporal subspace clustering,TSC)方法,不同于OSC每次仅考虑相邻序列数据,该方法引入利用拉普拉斯图正则化,通过构建相邻图以表示序列数据之间的关系,来对时间序列数据中的序列信息进行建模,并结合字典学习获取非负稀疏的系数矩阵.TSC采用拉普拉斯图正则化计算所有相关联的数据点会导致不相关的子空间重叠,此外,该方法对噪声数据较为敏感.文献[111]提出了低秩表示的约束(constrained low-rank representation,CLRR)的半监督聚类方法,认为数据的系数矩阵由一个辅助矩阵及带有标签信息约束矩阵内积构成,且带有标签信息约束矩阵应确保相同标签的数据在投影后仍具有相同的坐标,以此聚集成相同的子空间.文献[111]还证明了系数矩阵的低秩特性可由辅助矩阵的低秩特性取代.此外,该方法对噪声部分引入L2,1范数约束以解决数据离群问题.但CLRR对数据离群值敏感,无法获取足够的辨别信息.文献[112]认为在序列子空间聚类中局部信息比全局结构更重要,并根据基于时间可预测性的概念,结合字典学习,提出了时间平滑的序列子空间聚类(temporal smoothness sequential subspace clustering,TS3C)方法.该方法利用字典学习重构数据和字典原子,通过当前时间的序列数据与过去时间的序列数据综合构建字典的稀疏编码,使字典原子能获取时序数据中的时间平滑关系.然而,TS3C对数据缺失问题敏感,不适于处理数据缺失值.文献[63]结合字典学习,提出了一种基于结构化稀疏PCA字典学习的子空间聚类(subspace clustering method using structured sparse PCA-based dictionary learning,SCSSPSDL)方法.该方法利用数据的稀疏性和结构信息,通过施加结构化稀疏约束学习字典原子及对应的稀疏编码矩阵,用于谱聚类的关联矩阵由稀疏编码向量的内积构成.但是,SCSSPSDL不适于处理非线性子空间的数据,泛化能力不足.文献[47]认为LRR和SSC等方法没有考虑数据可能存在多个局部结构,同时数据图像的排列也可能会影响聚类效果,因此将图像对齐过程结合到低秩和稀疏表示的子空间聚类,提出了基于对齐和图嵌入的子空间聚类方法(subspace clustering method based on alignment and graph embedding,SCAGE)方法.该方法先对图像进行预处理,再利用标签信息、表示系数和误差构造邻接图,引入标签映射一致约束保留对应的子空间图像信息.由于SCAGE引入图嵌入思想,其计算复杂度较高,不适于处理大规模数据.文献[113]将子空间聚类归结为一个结构化表示学习,提出了(low-rank sparse subspace clustering via two cascade self-expressions,LRSSC-TCS)方法.该方法通过双层嵌套的自我表示进行特征提取,用浅层数据样本的低秩表示挖掘全局结构,底层子空间的稀疏表示捕获邻域结构,有效提高子空间聚类的精度.然而,由于子空间嵌套影响对全局信息的捕获能力,因此该方法对全局结构的捕获能力不足,此外,LRSSC-TCS对数据离群值、数据缺失问题较敏感.文献[114]基于SSC与TSC提出了基于L1范数时序图的稀疏的子空间聚类(sparse subspace clustering and the L1-norm temporal graph,SSC-L1TG)方法.该方法在经典SSC方法基础上,结合TSC,通过拉普拉斯图正则化来捕获数据的时间信息,以捕获时序数据的局部结构.然而,SSC-L1TG对噪声数据及数据缺失值问题较敏感.此外,该方法受限于近邻数据,对局部结构的捕获能力不足.基于局部邻接距离的谱聚类子空间学习方法的优缺点如表6所示.10.13245/j.hust.210201.T006表6基于局部邻接距离的谱聚类子空间学习方法比较方法年份基于方法优点缺点OSC2014SSC+ Laplaciangraph embedding依靠所有数据点一阶近邻捕获数据的局部结构,捕获连续帧之间的局部结构每一个数据点的近邻数据量不足TSC2015SSC+Dictionary learning+Laplacian graph embedding利用拉普拉斯图正则化来捕获近邻数据的局部结构,对噪声数据具有鲁棒性采用拉普拉斯图正则化计算所有相关联的数据点会导致不相关子空间重叠,对噪声数据敏感CLRR2017LRR+SSC整合数据的先验信息,以近邻数据之间的局部结构捕获数据的全局结构,噪声约束采用L2,1正则化,提高对噪声数据的鲁棒性对数据离群值敏感,无法获取足够的辨别信息TS3C2018TSC+Dictionary learning+Laplacian graph embedding优化了近邻数据的约束项,捕获时间数据的局部线性关系,对噪声数据具有鲁棒性对数据缺失问题敏感SCSSPSDL2019SSC+Dictionary learning整合字典学习及稀疏表示来捕获数据的全局结构,并提高对噪声数据的鲁棒性,优化谱聚类中关联矩阵的构建不适于处理非线性子空间的数据SCAGE2019LRR+SSC+Laplaciangraph embedding对数据进行重排,依靠多个数据的局部结构和对应的标签信息来捕获数据的全局结构模型复杂,计算复杂度高LRSSC-TCS2019LRR+SSC+Self-expression结构化提取数据的局部结构从而进一步获取数据的全局结构对数据离群值、数据缺失问题敏感,子空间嵌套影响对全局信息的捕获能力SSC-L1TG2020LRR+SSC+Laplaciangraph embedding以L1的拉普拉斯图正则化来捕获数据的时间信息,进而捕获时序数据的局部结构对噪声数据及数据缺失值问题敏感,每一个数据点的近邻数据量不足2.2.3 基于深度学习的谱聚类子空间学习文献[115]提出了一种深度子空间聚类网络(deep subspace clustering networks,DSC-Nets),该网络的关键思想是在传统的自编码器之间加入一层自我表达层来模拟子空间学习的自我表达特性.DSC-Nets将深度学习与子空间聚类结合在一起,能有效处理非线性子空间的数据.此外,其自我表达层由全连接层构造,在没有偏置和非线性激活函数下能有效提取隐藏层数据的线性表达特性.因为深度子空间聚类须一次性将数据输入到深度网络中,所以DSC-Nets训练的时间较长且对内存消耗较大.文献[116]提出了自我监督卷积子空间聚类网络(self-Supervised convolutional subspace clustering network,S2ConvSCN)方法.该方法在DSC-Nets的基础上,融合了特征学习和子空间聚类,通过隐藏层的聚类结果改善子空间聚类,通过标签信息改善特征学习的性能,较好地提高了聚类精度.S2ConvSCN须对权衡参数进行调试,训练耗时.文献[117]提出了深度对抗子空间聚类(deep adversarial subspace clustering,DASC)方法.该方法在DSC-Nets的基础上引入生成对抗网络(generative adversarial networks,GAN),通过将隐藏层数据及对应的标签信息输入到生成器生成伪样本,然后判别器对真假样本进行二分类.DASC能够通过对抗学习产生更好的特征表示并提高子空间聚类的性能,但对抗网络训练不稳定,易出现梯度消失的问题.文献[118]提出了分布保持子空间聚类(distribution preserving subspace clustering,DPSC)方法.该方法在DSC-Nets的基础上对源数据及隐藏层数据进行核密度估计,并借助KL散度对自我表示损失进行补充,能保持源数据与隐藏层数据之间分布的一致性.其缺点是易出现KL散度的非对称问题.针对DCS-Net缺乏对深层特征的稀疏约束和自我表达关联矩阵的低秩约束问题,文献[119]提出了稀疏低秩正则化的深度子空间聚类(sparse and low-rank regularized deep subspace clustering,SLR-DSC)方法.SLR-DSC对隐藏层数据的关联矩阵引入低秩约束,运用符合链式法则的次梯度计算策略,有效地解决了核范数最小化及对应的神经网络后向传播问题.基于深度学习的谱聚类子空间学习方法的优缺点如表7所示.10.13245/j.hust.210201.T007表7基于深度学习的谱聚类子空间学习方法比较方法年份基于方法优点缺点DSC-Nets2017Deep learning+representation-based feature learning利用深度学习挖掘数据内部复杂的结构特征,提高子空间聚类的性能训练耗时,对内存要求较高,不适合大规模数据S2ConvSCN2018DSC-Nets监督学习,利用标签信息及聚类结果改善子空间聚类和特征学习的性能须对权衡参数进行调试,训练耗时,对内存要求较高,不适合大规模数据DASC2018DSC-Nets+GAN利用GAN改善子空间聚类和特征学习的性能,提高模型的泛化能力容易面临梯度消失的问题,训练耗时,对内存要求较高,不适合大规模数据DPSC2019DSC-Nets保持源数据与隐藏层数据之间分布的一致性,保留非线性子空间数据的潜在结构KL散度的非对称问题,训练耗时,对内存要求较高,不适合大规模数据SLR-DSC2020DSC-Nets稀疏正则化深度特征及低秩正则化自我表达的关联矩阵,提高模型的泛化能力训练耗时,对内存要求较高,不适合大规模数据3 应用3.1 人脸识别近20年来,人脸识别在模式识别和计算机视觉领域引起了广泛的关注[120].由于须要识别的人脸数据维度过高,数据量过大,且通常存在较多的噪声,导致模型训练时间长,识别率低[121],实际应用中须在避免“维数灾难”的前提下,有效提取具有判别信息的特征,因此可以通过子空间学习与流形学习相结合,利用提取的判别性特征进行分类.此外,文献[122]认为传统的回归方法不能有效处理噪声和异常数据,影响人脸识别的分类准确率,为此提出了基于低秩表示的鲁棒回归模型(low rank representation-based robust regression model,LR-RRM).与LRR及LRR改进方法相比,该模型以监督学习的方式从高维数据中恢复潜在的子空间结构,使得重构的干净数据可以保留与标签信息有最大相关性的低维子空间,从而获得对噪声和异常值的鲁棒性.文献[62]考虑到图像中人脸的姿势、角度等因素,提出了基于字典学习和子空间学习(dictionary learning and subspace learning,DLSL)的人脸识别方法.该方法将数据划分为源数据与目标数据,将两个数据投影在公共子空间,利用字典学习连接两个数据域,用松弛化标签矩阵获取判别性信息,并引入低秩稀疏约束提高对噪声的鲁棒性.此外,针对人脸识别出现了新的应用——面部表情识别,文献[73]提出了一种针对跨域的人脸表情数据的直推式迁移子空间学习方法,该方法通过子空间学习对所有数据进行降维,将源数据与目标数据衔接,然后结合最小二乘回归使得其能获取具有判别能力的子空间.文献[123]利用深度子空间学习,通过将子空间学习与池化层相结合,利用池化层进行数据降维,并利用字典学习获取对应的判别信息.文献[124]将人脸识别归纳为目标检索中的多实例学习,针对多实例学习中消极实例敏感度过高的问题,提出了一种基于判别子空间模型的弱监督目标类学习方法,该方法通过最小化子空间模型相关系数矩阵的秩实现正实例选择.3.2 语音情感识别语音情绪识别通过对语音数据进行解析推测可能的情感,如愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶等[13],识别的步骤如下:a. 提取能够有效表达语音情感内容的特征;b. 对提取的特征进行分类.对此,文献[125]针对跨语料库语音情感迁移稀疏判别子空间学习(transfer sparse discriminant subspace learning,TSDSL)方法,结合LLE,使用近邻重构的思想对源数据与目标数据进行知识迁移,最后结合LDA进行分类.由于多核子空间学习仅能提取对单方向的特征,因此文献[126]将多核子空间学习与二维子空间学习结合,提出了广义多核判别分析(generalised multiple kernel discriminant analysis,GMKDA)解决单域的语音情感识别.文献[127]结合子空间学习、谱回归及极限学习机,提出了泛化谱回归(generalised spectral regression,GSR)框架解决单域的语音情感识别问题.该框架结合极限学习机和子空间学习对数据降维,最后以谱回归进行分类.文献[18]针对跨语料库的语音情感识别,提出了迁移线性子空间学习(transfer linear subspace learning,TLSL)方法.该方法首先对源数据与目标数据进行投影,并引入拉普拉斯图正则化捕获两个域之间的判别信息,然后针对监督和无监督分类问题,分别提出了LDA和PCA解决分类问题.3.3 运动分割运动分割将一段运动视频分成若干个较短且不重叠的子视频,并从中提取出有意义的片段,进而解析、推测数据中的行为目的.CLRR应用无监督的人体运动分割,利用时间拉普拉斯正则化和自表示字典,能够在时间空间数据中正确地恢复子空间结构,还能够在两组动作分割数据聚类中发现未预先定义的簇组,可避免重要信息丢失.SPDA结合迁移学习,在数据不足的情况下,从相关的源数据中提取有用的信息,并将知识迁移到目标数据.文献[128]提出基于迁移学习的时态数据聚类(transfer learning based temporal data clustering,TLTDC)方法,该方法通过迁移学习从相关源数据中提取有用信息,并将知识迁移到目标数据.此外,TLTDC能结合时序数据的拉普拉斯图正则化捕获运动分割中近邻数据的结构.文献[129]在SSC的基础上,结合测地线指数核及相关熵,提出了核稀疏子空间聚类模型(robust kernel sparse subspace clustering,RKSSC).该模型能通过稀疏表示提高对数据离群值的鲁棒性.4 展望高维数据的出现推动了传统机器学习分类器的发展,虽然基于子空间学习的数据表示方法研究中很多问题都得到了不同程度的推进,但仍然面临着一些挑战.a. 全局特征和局部特征提取量间的权衡.对于不同的任务、场景,全局特征与局部特征的权值设置不尽相同;对于底层框架不一样的方法,比如LRR,LPP和SGPGE等流形方法的结合,如何捕获数据的全局结构及近邻数据的几何结构.b. 源数据空间与映射子空间的结构关系.子空间学习通过关联矩阵将高维数据映射到低维空间,如何保持原空间与子空间的数据几何结构的一致性,尤其在多领域数据下,公共子空间存在特征重叠或冗余,如何才能保持关键特征.c. 数据离群值和缺失问题.对数据进行处理的过程中,数据离群值和缺失问题对模型的分类或聚类效果的影响较高,影响模型的泛化能力甚至导致模型无法提取有效的特征,进一步识别并分离噪声和缺失具有重要意义.d. 在线流式的学习算法的研究.在实际应用场景中,数据往往不是静态而是动态的,目前的算法大多数集中在处理静态数据,实时性较弱,研究实时流式处理数据也具有重要的意义.e. 计算复杂度问题.对于大规模海量数据,大多数算法为了兼顾分类或聚类效果,计算复杂度较高,如何设计兼顾性能是未来的一个研究方向.解决上述问题的一种思路是结合多视图、多层子空间协调训练的理论,快速准确地捕获数据的潜在分布结构,提高学习效率,并结合低秩稀疏的数据表示技术,通过低秩表示保留数据的块状结构,通过稀疏表示技术保留数据的近邻以保留局部特征;另一种思路是可拓展到深度学习,通过设计网络框架提高数据特征抽取的准确性和识别率,降低数据离群值和缺失的影响,通过深度网络自动学习特征,提高模型的鲁棒性.5 结语本研究总结了近年来基于低秩稀疏表示的子空间学习方法,根据迭代更新的方式,将其方法划分为基于矩阵分解的子空间学习和基于谱聚类的子空间学习,进一步对基于矩阵分解的子空间学习细分为基于公共空间嵌入的子空间学习和基于流形学习的子空间学习,对基于谱聚类的子空间学习细分为基于全局线性表达、局部邻接距离的谱聚类子空间学习和基于深度学习的谱聚类子空间学习,并针对这些方法的优缺点进行了详细的分析与对比.最后,介绍了该技术在人脸识别、语音情感识别和运动分割中的应用,并讨论了子空间学习发展所面临的挑战及未来发展方向.下一步将对基于深度学习的子空间学习进行研究,探索其在多模态领域的应用.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览