网刊加载中。。。

近半个世纪以来，随着影像技术的进步、影像设备的性能完善及计算机技术的不断创新和突破，医学影像技术在临床和医疗信息化中得到广泛应用，医学影像已成为临床诊断的必备手段之一．随着海量影像数据的产生，医学影像的分析与处理的速度、准确度成为热点问题．医学影像诊断需要大量知识积累、实践经验及决策推理能力，尤其是复杂任务下的影像分析与诊断，依赖医生主观判断及临床经验，是一项耗时的工作．利用计算机人工智能算法辅助医生进行诊断与治疗，不仅可以提高诊疗效率，而且可以通过对数据分析处理提供更加全面的信息，为医生提供直观的影像解析．某种成像方式获得的医学影像常称为“模态”，因此，仅处理一种成像方式医学影像的称为单模态算法，处理多种成像方式获得影像的称为多模态算法．常见模态的医学影像有：X光成像技术(Xray)常用于检查肺部结核、乳腺肿瘤及骨折等疾病；计算机断层扫描血管造影(CTA)与X线冠状动脉造影(XCA)可通过显影剂在X光下所显示影像来诊断血管病变；数字减影血管造影(DSA)可获得清晰的血管影像，用于对血管显示和重建；磁共振成像(MR)常用于诊断脑血管疾病、颅内肿瘤等，MR影像具有多序列的特点，不同序列可用于不同区域、病变的检测，其中，T1加权成像(T1w)序列可用于检测实质性变化，如病变及解剖结构等，T2加权成像(T2w)序列可以显示出组织内部的异常水分分布，一般用于检出炎症和水肿等病变，对比增强T1加权成像(T1c)及钆增强T1加权成像(T1Gd)增强序列可用于观测病灶区域等；计算机断层扫描(CT)常用于检查颅内肿瘤、眼部疾病及肺炎等疾病．在某些复杂疾病的诊断与治疗中，病灶定位、放射治疗方案制定、器官功能分析、手术指导及治疗效果反馈评估等需要不同角度的影像信息，联合应用多种模态医学影像可为临床提供可靠的科学依据，如MR和CT两种模态结合诊断，可以更清晰地定位到颅内功能组织及肿瘤病变；手术中的Xray影像与手术前CT影像的结合，有利于病灶的定位及重建等；术中的数字重建放射影像(DRR)与术前的CT图配合使用，以确保手术位置的准确性，与术前诊疗保持一致．医学影像配准是指将不同影像上所有的解剖点、或具有诊断意义的点及手术感兴趣的区域进行一一匹配．多模态医学影像配准是指将利用不同成像方式获得的医学影像进行影像配准，达到关键区域、关键点相互对应的作用，使得配准后的影像更具有客观可比较性，为后续的器官和病灶量化等任务奠定基础．在利用人工智能算法进行多模态医学影像的配准任务中，由于器官和病灶在不同模态中的变化较大、部分影像信噪较高等问题，因此一直是计算机辅助医学影像分析领域的研究热点．现阶段，多模态医学影像的配准工作正在逐步突破创新，但多模态医学影像配准算法及其相关技术的总结与评述鲜有闻说，大多综述文献面向单模态医学影像配准工作展开．本研究主要以多序列MR、CT和X光等模态为研究对象，提出了三种归纳角度对现有多模态医学影像配准研究进行分析，包括：多序列MR、CT和X光等模态之间的五种配准模式，五类常见配准的解剖结构，以及四类常用的多模态配准算法；并对七个常用数据集及六个常用评价指标进行总结，进而指出多模态医学影像配准算法面临的挑战和未来发展趋势．1 多模态医学图像配准概述在临床中，常见的医学影像模态有CT影像、MR影像、Xray影像、超声影像(US)、正电子发射体层扫描成像(PET)、单光子发射计算机断层扫描(SPECT)、计算机断层扫描血管造影影像及X线冠状动脉造影影像等．图1展示了六种成像方式下的大脑影像，不同模态的影像显示了关于大脑功能和解剖结构的不同信息[1]．针对复杂疾病诊断或手术指导任务，多个模态联合使用具有很大优势，临床中往往是针对两种模态的影像进行配准，尤其在大脑肿瘤切除手术、前列腺活检穿刺手术中，结合术前MR影像和术中超声影像可以精确定位病灶位置，引导手术顺利进行；在大脑及胸腹部病灶性质确定任务中，常利用MR影像和CT影像进行结合诊断；MR影像的不同序列联合诊断，可以更全面地检测大脑病灶，T1w序列更利于观察大脑解剖结构，T2w序列对组织病变具有较好的显示．10.13245/j.hust.240479.F001图1不同模态下大脑影像来自不同模态的医学影像提供了患者的不同信息，有助于提高诊断准确性[6-7]、在手术中制定个性化的治疗方案．然而，由于不同成像设备的成像原理具有较大差异，且在拍摄时由于拍摄方式不同、患者位置移动、呼吸运动及肌肉收缩等现象，多模态的医学影像往往包含着不同的器官形态及内容信息，对多模态影像直接观察及分析耗时耗力，考验医生的临床经验，为了充分结合影像中的不同信息进行诊断及手术指导，利用计算机技术进行辅助诊断成为主流的方式．在计算机辅助诊断过程中，对多模态影像进行分析及配准是首要工作，不同模态影像配准可以结合模态间的互补信息得到综合评估，将两个模态影像间的器官结构、病灶区域进行一一映射．具体来说，医学影像配准是针对来自不同时间、不同视角或不同成像设备所得到的两幅影像，通过寻求一种空间变换关系，使配准后的两幅医学影像处于同一个空间坐标下，影像上的对应点达到空间位置和解剖结构上的完全一致[8]．在对影像进行变换估计的过程中，可能存在一种变换估计或多种变换估计，本研究针对具有一种变换估计的影像配准，将配准问题定义如下．对于给定的两幅影像，分别记为固定影像和移动影像，影像配准问题可以表示为寻找一个函数来估计固定影像和移动影像之间的变换，影像配准问题可以表示为φ^=argminφLsim(If,Im°φ)+λLreg(φ)，式中：If和Im分别为固定影像和移动影像；Im°φ表示将一个变换矩阵φ作用于移动影像Im，得到一个变换后的影像Im'；Lsim为两个输入影像之间的相似度度量函数；Lreg为正则化函数；λ为正则化系数．根据配准类别不同，变换矩阵φ的表示也不相同，在刚性配准中，变换φ是一个变换矩阵，在非刚性配准中，变换φ一般指的是稠密变形场，即固定影像中的每一个点x，通过变换φ都能在移动影像中找到对应的点x'，即x'=x+φ(x)．为了使变形后的移动影像与固定影像间的相似度最小，从而达到配准目的，医学影像配准算法主要由变换模型、目标函数(相似性度量)及优化算法三个组成部分．变换模型用于对固定影像进行形变，通过目标函数(相似性度量指标)对形变后的影像和固定影像进行评估，继而通过优化算法对形变参数进一步优化更新，再作用于固定影像进行形变．由此迭代优化可将移动影像配准至固定影像．一般来说医学影像配准包括以下步骤：a．输入两套待配准影像(即固定影像和移动影像)；b．定义变换模型对移动影像进行变换；c．根据度量标准定义目标函数；d．使用优化程序优化目标函数，使之满足预先设定的精度要求．其基本框架如图2所示．10.13245/j.hust.240479.F002图2医学图像配准流程图根据不同的分类方式，医学影像配准方法可以进行不同的划分．a．根据配准影像的成像设备可分为单模态配准和多模态配准．单一模态影像可提供的内容信息是固定的，且扫描部位的形态与结构相差无几，在配准过程可以比较容易地找到影像间的对应关系．由于扫描设备及拍摄方式的不一致，多模态医学影像往往包含不同的信息，扫描部位呈现的形态具有较大差异，因此多模态医学影像配准任务具有较大难度．b．根据配准区域的不同可分为大脑、心脏、肺部、肝脏、乳腺、前列腺及脊椎等解剖结构的配准．c．根据影像的维度可分为二维-二维(2D-2D)配准、二维-三维(2D-3D)配准、三维-二维(3D-2D)配准及三维-三维(3D-3D)配准．d．根据影像的几何变换性质可分为刚性配准和非刚性配准．刚性配准是指移动影像在空间变换时任意两个像素之间的距离保持不变，只进行坐标轴平移与旋转操作，仅有6个自由度．非刚性配准是指移动影像的每个像素都可独立运动，形变自由度和影像像素数目(N)有关，可达3N个自由度[9]．e．根据待配准影像来源的不同可将影像配准分为三类：同一对象不同模态的影像配准；不同对象间的影像配准；对象与标准图谱间的影像配准．f．根据在运行配准算法的过程中是否须要用户的参与将影像配准分为全自动配准、半自动配准和交互式配准．g．根据影像配准空间变换的作用区域的不同分为全局配准和局部配准．目前，多模态医学影像配准算法多种多样，不同模态的结合也呈现多元化，医学影像在身体各部位上的应用也日渐广泛，但鲜有针对多模态医学影像配准的综述，本研究通过对现有文献的归纳总结，分别从三个角度进行分析．a．根据待配准影像间的模态类别的不同进行分类，总结基于MR序列间影像配准、磁共振成像-计算机断层扫描(MR-CT)影像配准、磁共振成像-超声(MR-US)影像配准及X光-计算机断层扫描(Xray-CT)影像配准的相关工作．b．根据医学影像所扫描解剖结构的不同进行分类，总结基于头部结构、胸部结构、腹部结构、盆腔结构及脊椎结构的影像配准工作．c．根据多模态医学影像配准算法所使用的监督信息，总结基于全监督、弱监督及无监督的影像配准方法的优缺点．d．总结了应用于多模态医学影像配准的数据集和评价指标，并对当前研究现状及未来的发展趋势进行了评估．本研究主要框架如图3所示．10.13245/j.hust.240479.F003图3本研究主要框架2 基于不同模态医学图像配准方法人体医学成像技术主要包括Xray[10]，CT[11]，MR[12]、超声波扫描成像(USG)[13]与PET[14]等．X线成像具有一定穿透力，在穿透过程中通过对密度不同的骨骼和肌肉、脂肪软组织的吸收量不同，故而将其区分开，其主要用于对骨骼系统及胸部的医学检查；CT是用X线束从多个方向对人体检查部位中具有一定厚度的层面进行扫描，利用X射线的穿透性以及人体内不同组织对射线的衰减能力不同而成像，且CT影像可重建为三维图像，CT影像的密度分辨率高，能清楚地观测由软组织构成的器官，可用于检查骨骼、关节及软组织疾病；MR成像依据所释放的能量在物质内部不同结构环境中不同地衰减，从而绘制物体内部的结构，MR影像可提供人体的功能信息，能敏感地检出组织中水含量的变化，对软组织的成像效果好，对早期病变的敏感性高．MR具有多序列的特点，T1w序列是通过对磁共振信号最初的磁化状态进行成像，可以提供清晰的解剖学细节信息，如组织密度和结构等，T2w序列是基于磁共振信号松弛时间的成像原理，可以显示出组织内部的异常水分分布；超声成像利用超声声束扫描人体，通过对反射信号的接收、处理，以获得体内器官的图像，可对心脏、肝、胆、胰、脾及肾等实质性器官功能进行检查；PET成像通过捕获注入身体内的示踪剂所释放的伽马射线辐射，创建体内示踪剂浓度的三维计算机断层扫描图像，可以监测人体肿瘤内的代谢情况，从而显示出代谢较高的部位，进而协助判断肿瘤的具体位置，是恶性肿瘤筛查的重要手段．各类医学影像的应用可在临床上及时检测病症，辅助医生精准诊疗．上述各类医学图像基于不同的成像原理，所反映出的组织结构信息并不相同，在临床中往往通过两两模态的组合观测，由此多模态配准任务也围绕临床需求展开．在多模态医学图像分析配准中，常用T1加权成像-T2加权成像(T1w-T2w)序列检查脑肿瘤，使用MR-CT影像进行腹部、盆腔等部位的恶性肿瘤检查，使用MR-US对前列腺穿刺手术进行引导，使用CT-Xray进行骨科疾病的检查等．2.1　MR多序列图像配准MR成像具有多序列的特点，在临床中常用的有T1w，T2w，PD(质子密度加权成像)，T1c，T1Gd及T2 Flair(液体衰减反转回复)序列，其中：T1w序列可以提供清晰的解剖学细节信息，如组织密度和结构等，一般用于检测病变及解剖结构等实质性变化；T2w序列可以显示组织内部的异常水分分布，对炎症和水肿等较为敏感，一般用于检出病变；PD为质子加权序列，显示成像区域中的氢核核数，与T2w序列类似对水肿及炎症检出效果较好；T2 Flair序列是抑制自由水的T2w图像，通过抑制脑脊液而突出微小病变及脑室周围病变显示；T1c及T1Gd为增强序列，反映了血流动力学信息，可明显观测到病灶区域．磁共振血管造影(MRA)利用血液流动的磁共振成像特点，对血管和血流信号特征进行显示，常用于颅颈部颈动脉和椎动脉疾病的检查．大脑结构中MR的T2 Flair序列、T1w序列、T2w序列和T1c序列图像如图4所示，关于MR多序列的图像配准研究归纳如表1所示．10.13245/j.hust.240479.F004图4大脑MR的Flair序列、T1w序列、T1c序列和T2w序列图像10.13245/j.hust.240479.T001表1MR多序列图像配准工作总结模态配准区域维度变换文献T1w-T2w大脑3D-3D非刚性[15]T1w-T2w大脑3D-3D非刚性[16]T1w-T2w大脑3D-3D非刚性[17]T1w-T2w大脑2D-2D非刚性[18]T1w-T2w，T1w-PD，T2w-PD大脑3D-3D非刚性[19]T1w-T2w大脑2D-2D非刚性[20]T1w-T2w大脑2D-2D刚性[21]T1w-T2w大脑2D-2D非刚性[22]T1w-T2w大脑3D-3D非刚性[23]T1w-T2w，T1w-PD，T2w-PD大脑2D-2D非刚性[24]T1w-T2w大脑3D-3D非刚性[25]T1w-T2w大脑3D-3D非刚性[26]T1w-T2w大脑2D-2D非刚性[27]T1w-T2w大脑2D-2D非刚性[28]T1w-T2 Flair大脑2D-2D刚性，非刚性[29]T1w-T2w，T2w-PD大脑3D-3D刚性[30]T1w-T2w，T1w-PD，T2w-PD大脑2D-2D非刚性[31]T1Gd-T1w，T1c-T2w大脑，颈动脉3D-3D非刚性[32]T1w-T2w大脑2D-2D非刚性[33]T1w-T2w，T1w-PD，T2w-PD大脑2D-2D，2D-3D刚性，非刚性[34]T1w-T2w大脑3D-3D非刚性[35]T1w，T2w，PD，MRA两两互相配准大脑2D-2D非刚性[36]T1w-T2w，T1w-PD大脑3D-3D非刚性[37]文献[15]对新生儿脑MR图像的T1w-T2w序列进行配准，该研究利用图像中的50个解剖区域的分割图进行对齐和注释，用以评判配准效果．文献[16]对2岁受试者的MR图像T1w-T2w序列进行配准．文献[17]对胎龄29-45周受试者的MR图像T1w-T2w序列进行配准．文献[18-29]对大脑MR图像的T1w-T2w、T1加权成像-液体衰减反转回复序列(T1w-T2 Flair)序列进行配准，以验证配准算法的效果．文献[30-31]分别在大脑MR图像上对T1w-T2w，T1加权成像-质子密度加权成像(T1w-PD)及T2加权成像-质子密度加权成像(T2w-PD)序列间进行配准．文献[32]针对大脑和颈动脉MR图像的钆增强T1加权成像-T1加权成像(T1Gd-T1w)，对比增强T1加权成像-T2加权成像(T1c-T2w)序列进行配准，为了评估配准效果，该研究手动在图像中标记了注释．文献[33-35]通过将多模态图像配准简化为单模态图像配准进行T1w-T2w序列的图像配准．文献[36]通过将T1w，T2w和PD模态重新采样为MRA模态，使用一个网络分别配准不同类的两个模态，实现T1w，T2w，PD及MRA序列间的两两配准．文献[37]将基于单模态图像配准的先验知识转移到多模态图像配准，对T1w-T2w和T1w-PD序列进行配准．通过调研分析，不同MR序列间图像的配准研究主要集中在大脑区域，研究中多用T1w-T2w序列对解剖学信息和病灶信息进行联合分析，PD序列对氢离子的感知能力强，易于观察水肿，研究中多利用PD与T1w序列结合定位病灶区，利用T2w和PD序列结合对病灶性质及位置进一步确定．目前MR多序列的相关配准集中于大脑结构，在临床中，胸部结构、腹部结构的检查与手术也多使用MR影像进行辅助，如乳腺癌、肝癌检查、手术等，该方面的多模态图像配准还有待研究．2.2　MR-CT图像配准CT成像是在X光透视基础通过旋转装置，将扫描部位进行断层扫描，将获得的数据输入到计算机，通过计算机解码后重建图像，CT图像为三维图像，能确定病变部位和大小；MR成像是从原子层面，通过外加梯度磁场检测其物理变化，而绘制出来物体内部结构图像，通过计算机重建成像，MR图像为三维图像，可以确定病变的具体类型[38]．这两种模态常用来联合诊断病变，确定病灶位置及类型．近年来MR-CT模态的图像配准研究工作如表2所示．10.13245/j.hust.240479.T002表2MR-CT模态图像配准研究工作模态配准区域维度变换文献MR-CT肝脏3D-3D非刚性[19]MR-CT大脑2D-2D非刚性[28]MR-CT腹部3D-3D非刚性[31]CT-sCT肺部2D-2D非刚性[33]MR-CT盆腔2D-2D非刚性[35]MR-CT大脑3D-3D非刚性[39]MR-CT大脑2D-2D非刚性[40]MR-CT大脑3D-3D非刚性[41]MR-CT大脑2D-2D刚性[42]MR-CT大脑3D-3D刚性[43]MR-CT大脑2D-2D刚性[44]MR-CT大脑3D-3D刚性[45]MR-CT大脑3D-3D刚性[46]MR-CT大脑3D-3D刚性[47]MR-CT大脑2D-2D刚性[48]MR-CT大脑3D-3D刚性[49]MR-CT鼻咽2D-2D刚性[50]MR-CT腹部2D-2D非刚性[51]MR-CT腹部2D-2D非刚性[52]MR-CT肺部，腹部3D-3D非刚性[53]MR-CT盆腔3D-3D非刚性[54]MR-CT盆腔3D-3D非刚性[55]MR-CT前列腺3D-3D非刚性[56]MR-CT肝脏3D-3D非刚性[57]MR-CT盆腔3D-3D非刚性[58]MR-CT肾脏，腹部3D-3D非刚性[59]文献[28，39-49]对大脑MR-CT图像进行配准．文献[50]对鼻咽MR-CT图像进行配准．文献[16，31，51-53]对腹部MR-CT图像进行配准，其中文献[51-52]中对6种不同的结构进行了手动标注，即肝、脾、左、右腰大肌和左、右肾．文献[54-55]对盆腔MR-CT图像进行了配准，由医生手动标记了前列腺、膀胱和直肠．文献[56]对前列腺器官MR-CT图像进行配准．文献[57]对肝脏MR-CT图像配准，该研究通过从MR中生成合成新的CT图像，利用传统的单模态配准方法对计算机断层扫描-计算机断层扫描(CT-CT)图像进行配准．文献[35]通过将多模态图像转换为同一模态，从而进行盆腔MR-CT图像配准．文献[58]分别对盆腔MR和CT图像进行CT-MR和MR-CT图像合成，并利用两种模式中互补的解剖信息来指导配准．文献[59]通过模态转换，将腹腔CT转换为MR图像，即转换磁共振图像(tMR)，并在转换磁共振成像图像-磁共振成像(tMR-MR)及MR-CT之间进行双向配准．为了模拟多模态配准任务，文献[33，53]针对单模态数据集，利用强度变换将肺部CT图像合成了一种新的模态，即合成计算机断层扫描图像(sCT)，并对计算机断层扫描-合成计算机断层扫描(CT-sCT)图像进行形变估计．通过以上调研分析，MR和CT图像配准工作主要集中于大脑、腹部及盆腔，在大脑结构中，主要用MR图像的T1w，T2w和PD序列与CT图像进行配准，确定病灶位置及性质；其主要用于腹部与盆腔配准器官，定位病变．MR和CT图像具有异质性、非线性形变明显的特点，配准过程中要保证全局形变与局部形变的保持．目前该类研究主要针对器官配准，后续研究可进一步进行病灶分析及精细配准，为临床提供应用价值．2.3　MR-US图像配准MR和超声图像的配准研究多见于前列腺及大脑部位，这两种模态的配准主要用于对病变区域的活检穿刺手术导航，其中MR图像作为术前诊断，一般为T2w序列，超声图像在术中实时引导，多模态配准中一般包括经直肠超声(TRUS)和术中超声(iUS)两种．常见的两种配准模态为磁共振成像-经直肠超声(MR-TRUS)及磁共振成像-术中超声(MR-iUS)．关于MR-US模态的图像配准研究归纳如表3所示．10.13245/j.hust.240479.T003表3MR-US 模态图像配准研究归纳模态配准区域维度变换文献MR-US前列腺3D-3D刚性[56]MR-TRUS前列腺3D-3D刚性[60]MR-TRUS前列腺3D-3D刚性[61]MR-TRUS前列腺2D-2D刚性[62]MR-TRUS前列腺3D-3D刚性[63]MR-iUS大脑3D-3D非刚性[64]MR-US大脑3D-3D刚性[65]文献[56]对前列腺MR-TRUS进行配准，该研究手工标注了前列腺分割区域作为评判标准．文献[60-61]对MR-TRUS图像进行配准，该研究从108对图像中手工标记834对相应的解剖标记作为评判标准．文献[62-63]对MR-TRUS进行配准，该研究配准后的图像由专家手动执行，作为标准．文献[64-65]对大脑MR-US图像进行配准．通过以上调研分析，MR和超声的配准研究主要在前列腺手术导航中，少部分在大脑肿瘤切除手术中，利用术前MR图像和术中超声图像进行配准，有助于在手术中利用术前MR图像的三维信息，辅助手术进行．利用多模态图像配准技术辅助手术导航，该类研究对配准精度与效率具有较高要求，未来的研究不仅要注重配准结果的验证、配准精度的提升，配准的效率也是一项挑战．2.4　CT-Xray图像配准CT图像是通过断层扫描获得的扫描部位的三维图像；锥形束CT(CBCT)利用三维锥形束X线扫描代替体层CT的二维扇形束扫描，围绕扫描部位做环形数字式投照，可直接获取其三维结构，CBCT具有很高的各向同性空间分辨力；Xray图像是X线穿透扫描部位的组织结构后，该通过路径上各种密度和厚度的组织结构投影叠加在一起的二维图像．在临床中，CT和CBCT主要用作手术前的病区扫描，获取扫描部位的三维结构信息，而Xray在术中进行扫描用以确定实时病灶变化，将术中Xray图像与术前CT和CBCT图像进行配准，可用于为手术提供增强现实图像指导．计算机断层扫描血管造影与X线冠状动脉造影是一种介入检测方法，通过显影剂在X光下的所显示影像来诊断血管病变、血管疾病及显示病变和血管关系，其中CTA为三维影像，XCA为二维影像；数字减影血管造影是将注入造影剂前后拍摄的X线图像经数字化输入图像计算机，通过减影、增强和再成像过程来获得清晰的血管影像，用于对血管显示和重建．关于CT-Xray模态的图像配准研究归纳如表4所示．10.13245/j.hust.240479.T004表4CT-Xray模态图像配准研究归纳模态配准区域维度变换文献Xray-CBCT脊椎2D-3D刚性[66]Xray-CT脊椎2D-3D刚性[67]Xray-CBCT颅面2D-3D非刚性[68]CTA-XCA冠状动脉2D-3D非刚性[69]文献[66-67]对脊椎的术前CT图像及术中Xray图像(Xray-CBCT)进行配准，选定脊椎上的显著标志位作为配准评估标准．文献[68]通过将三维图像投影生成DRR图像以配准到目标Xray图像，从而对颅面图像进行2D-3D配准，颅面轮廓的距离差异成为该研究的重要评价指标．文献[69-70]对冠状动脉进行配准，配准模态为计算机断层扫描血管造影-X线冠状动脉造影(CTA-XCA)图像，将术中XCA图像与术前CTA图像进行配准，从而在冠状动脉疾病手术中获取图像三维信息．文献[71]通过对冠状动脉手术的术前3D CT与术中2D DSA进行配准，可通过3D-2D投影完成2D血管缺失的部分，对血管进行完整的重建．通过上述研究分析，由于CT，CBCT与Xray对骨骼较为敏感，因此该类研究多集中于脊椎及颅面的配准．血管造影图像多用于冠状动脉的配准，主要对术前及术中的造影图像进行配准，构建完整的血管树，为手术提供三维空间信息．X光与CT图像的配准为2D-3D的配准，这两类图像中的器官和组织结构形态及位置差异较大，在配准过程中难以保持拓扑结构的一致性．未来的研究在配准过程中应着重考虑形变过程中的结构保持；2D-3D多模态图像的配准也是当前研究的热点问题之一．3 基于不同解剖结构医学图像配准医学影像检查成为日常疾病预防筛查的重要方法，在影像检查中，不同的身体部位、病灶类型所适用的检查方式不同．针对脑部，CT检查可发现大部分脑部疾病，包括先天性脑发育颅内异常、脑肿瘤、脑血管病和颅脑外伤等；MR常作为颅脑CT检查的重要补充，可作为急性脑梗死、脑转移瘤等的优选检查；血管超声是血管检查的优先选择．针对腹部器官疾病变，超声可准确区分囊性、实性病变；增强超声检查还可在一定程度上反映病变的血供情况；CT/MR检查可用于胰腺检查，以明确病变性质及范围等．针对骨骼系统，X线为骨骼、关节疾病检查的优先选择；CT检查可用于区分软组织疾病，是骨骼、关节和软组织疾病的一项重要检查，主要用于区分松质骨和皮质骨破坏、死骨、钙化和骨化等病变；MR在鉴别诊断肿瘤等情况具有相当优势．不同器官部位在进行影像检查时，往往也要采集多种模态的影像联合诊断．在多模态医学图像配准任务中，大多研究主要集中于头部、胸部、腹部、盆腔结构及脊椎结构．3.1　头部结构在最近时期的多模态医学图像配准研究中对头部结构的配准占大多数，其原因主要有以下几方面：a．头部结构中最重要的器官是大脑，大脑被颅骨包围，相比形变较大的器官更容易更快地被配准；b．头部的感兴趣结构在MR多序列间、MR和CT等不同模态下更为明显，从而可以更精准进行配准任务；c．对于大脑的配准任务具有较大的临床价值和学术价值，在此方面的数据集也更多．出于以上几点原因，更多的研究者给予头部结构，尤其是大脑器官更多的关注，关于头部结构的多模态图像配准研究归纳如表5所示，涵盖了MR多序列间的图像配准、MR-CT图像配准、计算机断层扫描-正电子发射体层扫描成像(CT-PET)、MR-US、磁共振成像-正电子发射体层扫描成像(MR-PET)配准及Xray-CBCT配准．10.13245/j.hust.240479.T005表5头部结构配准研究归纳配准区域模态变换文献大脑T1w-T2w非刚性[15]大脑T1w-T2w非刚性[16]大脑T1w-T2w非刚性[17]大脑T1w-T2w非刚性[18]大脑T1w-T2w，T1w-PD，T2w-PD，CT-PET非刚性[19]大脑T1w-T2w非刚性[20]大脑T1w-T2w刚性[21]大脑T1w-T2w非刚性[22]大脑T1w-T2w非刚性[23]大脑T1w-T2w，T2w-PD，T1w-PD非刚性[24]大脑T1w-T2w非刚性[25]大脑T1w-T2w非刚性[26]大脑T1w-T2w非刚性[27]大脑T1w-T2w非刚性[28]大脑T1w-T2 Flair刚性，非刚性[29]大脑MR-PET刚性[30]大脑T1w-T2w，T1w-PD，T2w-PD非刚性[31]大脑，颈动脉T1Gd-T1w，T1c-T2w非刚性[32]大脑T1w-T2w非刚性[33]大脑T1w-T2w，T1w-PD，T2w-PD刚性，非刚性[34]大脑T1w-T2w非刚性[35]大脑T1w，T2w，PD，MRA两两互相配准非刚性[36]大脑T1w-T2w，T1w-PD非刚性[37]大脑MR-CT非刚性[39]大脑MR-CT非刚性[40]大脑MR-CT非刚性[41]大脑MR-CT刚性[42]大脑MR-CT刚性[43]大脑MR-CT刚性[44]大脑MR-CT刚性[45]大脑MR-CT刚性[46]大脑MR-CT刚性[47]大脑MR-CT刚性[48]大脑MR-CT刚性[49]鼻咽MR-CT刚性[50]大脑MR-iUS非刚性[64]大脑MR-US刚性[65]颅面Xray-CBCT非刚性[68]通过上述研究分析，针对脑部结构的多模态配准研究主要应用MR多序列图像配准、MR-CT配准，少部分进行MR-US配准，颅面多模态图像配准利用Xray-CBCT图像．头部结构尤其是大脑，具有结构复杂性、个体差异性强的特点，在未来的研究中可着重考虑微小结构的配准，针个体对多样性的特点设计鲁棒的配准算法．3.2　胸部结构人体胸部器官包括心脏、肺脏、食管和气管等，特别是冠状动脉在解剖位置上属于心脏器官的一部分，由此针对胸部结构的配准任务中主要包括了心脏及胸部的配准．关于胸部结构的多模态图像配准研究归纳如表6所示，涵盖了MR-CT、计算机断层扫描血管造影-X线冠状动脉造影(CTA-XCA)及计算机断层扫描-数字减影血管造影(CT-DSA)配准．10.13245/j.hust.240479.T006表6胸部结构配准研究归纳配准区域模态变换文献胸部MR-CT非刚性[33]胸部MR-CT非刚性[53]冠状动脉CTA-XCA非刚性[69]冠状动脉CTA-XCA非刚性[70]冠状动脉CT-DSA非刚性[71]通过上述研究分析，胸部多模态图像配准多使用MR图像及CT图像，冠状动脉的多模态配准及重建使用血管造影技术成像，主要利用CTA-XCA及CT-DSA．胸部结构的配准主要集中于肺部器官配准、冠状动脉配准，对乳腺器官的多模态配准任务鲜有闻说，该任务具有重要的临床意义及挑战，在未来可进行胸部其他结构的配准任务，关注临床需求．3.3　腹部结构在针对腹部的多模态医学图像配准任务中，大多主要针对肝脏器官、肾脏器官及整体腹部进行配准．关于腹部器官的多模态图像配准研究归纳如表7所示．10.13245/j.hust.240479.T007表7腹部结构配准研究归纳配准区域模态变换文献肝脏MR-CT非刚性[19]腹部MR-CT非刚性[31]腹部MR-CT非刚性[51]腹部MR-CT非刚性[52]腹部MR-CT非刚性[53]肝脏MR-CT非刚性[57]腹部，肾脏MR-CT非刚性[59]通过上述研究分析，针对腹部的多模态医学图像配准工作主要集中于MR-CT图像，由于器官属于软组织，在图像拍摄过程中易发生形变，故针对腹部结构图像进行多模态配准的研究均为非刚性配准．目前腹部结构的配准工作主要针对器官进行配准，对器官进行配准后的临床应用及后续工作没有被明确表述，未来可在解剖结构配准的基础上，进行更具临床意义的研究工作，如病灶的配准、关键区域的精细配准等．3.4　盆腔结构盆腔结构中主要包含了生殖器官、泌尿器官及其他器官，在多模态医学图像配准任务中，大多针对前列腺器官及整体的盆腔结构进行配准，对盆腔器官多模态图像的配准可以为临床手术导航提供辅助，主要的影像检查方式有MR，CT，TRUS及PET等．关于盆腔结构的多模态图像配准研究归纳如表8所示，涵盖了MR-TRUS，MR-CT及CT-PET配准．10.13245/j.hust.240479.T008表8盆腔结构配准研究归纳配准区域模态变换文献盆腔MR-CT非刚性[35]盆腔MR-CT非刚性[54]盆腔MR-CT非刚性[55]前列腺MR-CT非刚性[56]盆腔MR-CT非刚性[58]前列腺MR-TRUS刚性[60]前列腺MR-TRUS刚性[61]前列腺MR-TRUS刚性[62]前列腺MR-TRUS刚性[63]通过对上述研究的分析，针对前列腺部位的多模态医学图像配准研究多集中于MR图像及TRUS图像，主要是对术中TRUS图像及术前MR图像进行图像配准，以引导手术顺利进行；对于盆腔结构的多模态医学图像配准主要利用MR-CT图像，用以观测盆腔中各解剖结构的位置，确定病灶位置及性质．盆腔结构的配准主要用于手术导航及病灶检测，具有重要的临床价值，多数研究集中于前列腺器官的多模态图像配准，对于子宫、宫颈及盆骨等器官的配准研究较为少见，该类研究在手术导航中具有重要作用；提升手术导航中图像配准的效率也是未来的研究方向之一．3.5　脊椎结构脊椎通常由颈椎、胸椎、腰椎、骶骨和尾骨共同构成，为人体提供结构性的支撑和平衡，也是人体保持站立姿势的关键结构．关于脊椎的多模态图像配准研究归纳如表9所示，涵盖了Xray-CT及X光成像-锥形束CT(Xray-CBCT)的配准．10.13245/j.hust.240479.T009表9脊椎结构配准研究归纳配准区域模态变换文献脊椎Xray-CBCT刚性[66]脊椎Xray-CT刚性[67]通过对上述研究分析，脊椎的图像分析主要利用CT图像观测其三维结构，利用Xray观测其二维结构，由于脊椎属于骨骼，因此针对脊椎的多模态医学图像配准均为刚性配准．脊椎结构上端承托颅骨，下联髋骨，中附肋骨，并作为胸廓、腹腔和盆腔的后壁，可见于在头部结构、胸部结构、腹部结构及盆腔结构的多模态医学影像中，脊椎与其余解剖结构的相对位置关系可在多模态图像配准任务中起到辅助作用．4 多模态医学图像配准算法分类通过本研究的调研，多模态医学图像配准方法主要分为基于特征匹配的方法和基于深度学习的方法．其中，基于特征匹配的方法利用迭代优化的思想对变换参数进行估计；基于深度学习的方法按照在网络训练过程中是否需要形变参数、形变场的参与从而分为全监督配准、弱监督配准及无监督配准．下面对几类不同的配准方法进行分类总结，包括基于特征匹配的多模态医学图像配准方法、全监督多模态医学图像配准方法、弱监督多模态医学图像配准方法及无监督多模态医学图像配准方法．4.1　基于特征匹配的多模态图像配准方法基于特征匹配的多模态医学图像配准方法大多是一个迭代优化的过程，将配准问题表述为一个特征匹配和优化问题：首先使用特征向量代表每个像素点的形态学特征，然后通过对应点的特征向量之间的相似性度量计算图像相似性，最后选择合适的优化方法不断迭代优化，获得相似性最高的配准图像．该方法需要大量迭代，针对复杂图像配准将耗费更多的时间．本研究中对传统的配准方法归纳如表10所示．10.13245/j.hust.240479.T010表10基于特征匹配的配准方法归纳监督方式配准区域维度/模态变换数据集文献标志点大脑2D-2D/T1w-T2w非刚性自定义数据[18]模拟变换大脑，肝脏3D-3D/T1w-T2w，T1w-PD，T2w-PD，CT-PET，MR-CT非刚性BrainWeb，RIRE[19]图像相似性大脑2D-2D/T1w-T2w，T2w-PD，T1w-PD非刚性BrainWeb[24]模拟变换大脑2D-2D/T1w-T2 Flair刚性，非刚性BraTS，临床数据[29]模拟变换大脑3D-3D/MR-PET刚性BrainWeb，RIRE，临床数据[30]区域分割大脑3D-3D/MR-CT非刚性RIRE[39]图像相似性大脑3D-3D/MR-CT非刚性RIRE[41]图像相似性大脑2D-2D/MR-CT刚性RIRE[42]图像相似性大脑2D-2D/MR-CT刚性大脑图谱数据[44]图像相似性大脑3D-3D/MR-CT刚性自定义数据[45]标志点大脑3D-3D/MR-CT刚性Vanderbilt，模拟数据[46]模拟变换大脑3D-3D/MR-CT刚性RIRE[47]图像相似性大脑2D-2D/MR-CT刚性自定义数据[48]模拟变换大脑3D-3D/MR-CT刚性RIRE，模拟数据[49]区域分割盆腔3D-3D/MR-CT非刚性临床数据[58]为了评估图像配准的质量，基于特征匹配的多模态医学图像配准常利用以下三种方式创建配准目标函数：a．对图像进行模拟形变获取真实形变参数，利用真实形变参数引导，对变换前及变换后的图像进行精确配准；b．利用区域分割或标志点进行约束，通过计算移动图像与固定图像分割区域、标志点的距离差异，进行迭代配准；c．利用图像相似度作为配准目标，寻求固定图像与移动图像的最大图像相似度．利用模拟形变获取真实形变参数，以指导多模态图像配准的研究主要有：文献[19]将有限记忆BFGS边界(L-BFGS-B)算法与猫群优化(CSO)相结合，利用归一化互信息(NMI)测度和自由形式形变(FFD)模型进行非刚性多模态图像配准，分别在三个数据集上进行验证．文献[29]提出通过多尺度神经(ODE)模型学习配准优化算法，可以在每次迭代中有效地适应梯度，更快寻优．文献[30]提出用最优刚性变换的局部最优平移的数值搜索，利用局部估计刚性变换的最小裁剪二乘(LTS)回归来定义全局最优刚性变换，利用模拟变换获取真实形变参数．文献[49]提出了一种基于体积多重分形表征的三维多模态图像配准的新方法，采用多重分形形式将几何特征纳入配准，该研究通过对原始数据的模拟变换获取真实形变场，从而完成更精确的配准．利用区域分割、标志点标注作为形变约束，进行多模态医学图像配准的研究主要有：文献[18]利用尺度不变特征变换(SIFT)的方法捕获图像重要的特征点，通过将SIFT描述符集成到相干点漂移(CPD)方法中进行两个点集的适当匹配，并将其变换估计应用于图像的配准．文献[39]提出遗传算法结合梯度下降优化器的多分辨率优化方案．文献[46]提出了一种基于多分辨率的刚性配准技术，采用了遗传算法和粒子群优化进行配准．文献[58]首先通过多目标回归森林进行CT-MR和MR-CT的图像合成以减小外观差异带来的配准精度下降问题，继而分别利用两种模态的互补解剖信息来指导配准，在选取关键点之后以区域自适应的方式指导图像间对应关系的检索，在不同尺度的图像上进行形变场的估计．利用固定图像和配准后的图像之间的图像相似度进行形变引导，以进行多模态医学图像配准的研究主要如下：文献[24]提出两种基于位移场引导的以曲面高斯曲率作为正则化，分别以互信息(MI)和归一化梯度场(NGF)作为多模态图像配准相似度量的非刚性图像配准模型；文献[41]提出一种烟花算法(FWA)，构造了微分迁移向量(DMV)引导最优解的方向，并通过将DMV添加到火花中心的位置来生成精英解；文献[42]提出联合平衡优化(UEO)算法，并提出新的搜索结构，使用动态参数对其进行调整；文献[44]采用多分辨率刚性配准(MRR)技术进行多模态图像配准，待配准图像被转换为多个分辨率水平，图像被划分为多个层次，并在每个层次上进行配准过程；文献[48]提出一种基于小波图像融合的CT和MR图像刚性配准方法，利用相关系数验证了该技术得到的图像的质量．通过上述研究分析，基于特征匹配的多模态医学图像配准利用迭代优化的方法，通过对形变参数进行优化以达到配准目的，该类方法针对具有复杂形变的图像需要多次迭代，参数更新是一个耗时的过程．大多研究方法利用相似性度量作为配准目标进行配准的方法，度量指标的选择至关重要，决定了算法的效果．基于特征匹配的图像配准方法对于每一对待配准图像，该方法从零开始迭代代价函数，限制了配准速度，而且针对复杂配准模型效果较差．该类方法未来可在算法计算效率上进行优化，通过调整配准策略，使其更适用于大形变配准；亦可与深度学习方法进行结合，利用深度学习方法提取特征的能力结合迭代寻优的特性，进一步提升配准效果．4.2　基于深度学习的多模态图像配准方法目前，深度学习用于多模态医学图像配准的方法按照监督方式主要分为全监督方法、弱监督方法及无监督方法．全监督方法指在训练过程中，所有数据都有完整和准确的标签，模型通过学习输入数据和标签之间的映射关系来完成配准，配准任务中的标签为真实形变参数或真实形变场，该方法可以获得较高的配准性能，但配准真实形变场难以获取．弱监督方法指在训练过程中，数据有一些不完整、不确切或不准确的标签，模型通过学习这些低质量的标签来完成配准，在配准任务中，这些标签主要包括关键区域、器官的分割结果，关键点的标注等，弱监督方法可以克服标注难度高或噪声大的问题，提高模型泛化能力．无监督方法指在训练过程中，数据没有任何标签，模型通过学习数据本身的分布或结构来发现一些隐含的模式或特征完成配准，无监督学习不需要人工标注，但在配准效果评估和应用上难度较大．4.2.1　全监督配准方法全监督学习的方法依赖配准金标准，即形变参数或形变场．针对刚性变换，有6个形变参数；非刚性配准的形变场与图像像素数目N有关，最多有3N个形变参数．现有研究中获取形变场的方式有如下几种：a．对原始图像进行模拟形变，获取模拟形变场；b．专家对图像进行手动配准，以作为配准标准；c．利用传统经典算法对图像进行配准，获取其形变场作为标准．本研究中对全监督的配准方法归纳如表11所示．10.13245/j.hust.240479.T011表11基于全监督的配准方法归纳监督方式配准区域维度/模态变换数据集文献模拟变换大脑3D-3D/T1w-T2w非刚性IXI，大脑图谱数据[15]传统方法配准大脑3D-3D/T1w-T2w非刚性大脑数据集[16]模拟变换大脑2D-2D/T1w-T2w刚性大脑数据集[21]模拟变换大脑2D-2D/T1w-T2w非刚性RIRE，大脑图谱数据[28]模拟变换大脑2D-2D，3D-3D/T1w-T2w，T1w-PD，T2w-PD刚性，非刚性BrainWeb，IXI[34]模拟变换大脑3D-3D/T1w-T2w，T1w-PD非刚性IXI[37]手动配准大脑3D-3D/MR-CT刚性RIRE[43]传统方法配准鼻咽2D-2D/MR-CT刚性临床数据[50]模拟变换前列腺3D-3D/MR-US刚性临床数据[56]模拟变换前列腺2D-2D/MR-TRUS刚性临床数据[62]手动配准前列腺3D-3D/MR-TRUS刚性临床数据[63]模拟变换大脑3D-3D/MR-US刚性临床数据[65]手动配准脊椎2D-3D/Xray-CBCT刚性临床数据[66]模拟变换脊椎2D-3D/Xray-CT刚性临床数据[67]传统方法配准颅面2D-3D/Xray-CBCT非刚性临床数据[68]深度学习已经被广泛应用于图像配准领域，一些研究利用通过构建新的卷积神经网络(CNN)对多模态图像进行配准[15,21,56,63,68]，CNN已被广泛应用于2D-2D配准、2D-3D配准及3D-3D配准．利用模拟形变产生的形变场作为真实形变参数进行配准的研究主要如下：文献[28]提出一种新的解纠缠卷积稀疏编码(DCSC)模型，该模型充分考虑了多模态的异质性，从未配准的多模态图像中分离出须要对齐的特征用以估计形变场，可以灵活地处理刚性和非刚性的配准任务，该研究在训练过程中对原始图像进行模拟变换生成形变场以监督训练；文献[34]构建了一个基于CNN的多模态图像配准模型，利用全卷积网络(FCN)进行模态之间的图像合成，将多模态转化为单模态图像从而进行配准；文献[37]提出一种新的基于知识转移的网络(KT-Net)，将单模态配准模型的知识转移到多模态配准，针对少样本的多模态医学图像配准，该研究通过对原始图像进行变换以获取真实形变场；文献[67]提出一个成对的域自适应(PDA)模块，通过学习少数成对的真实和合成数据的域不变特征，将在源域(即合成数据)上训练的模型适应于目标域(即临床数据)，该研究通过对数据进行模拟变换以获得形变场作为真实形变场．利用专家手动配准的结果作为配准金标准，用以指导网络训练的研究主要如下：文献[43]提出一个全自动深度学习的三维多模态医学图像配准框架，其中包括数据增强、形变真实值生成、图像配准和图像模态的识别四个方面，并引用不同方法来解决每个问题，该研究利用手动配准的方法获取真实形变，并用作监督信息；文献[66]提出一种具有自动注意机制的多智能体系统，利用手动配准的结果作为监督信息，实现了鲁棒性和高效的二维/三维图像配准，该研究将2D/3D配准定义为一个马尔可夫决策过程(MDP)，通过基于FCN的结构有效地采用了多个局部代理，提升了训练效率．利用传统算法对图像进行配准，获取配准形变场作为真实形变场，用以指导网络训练的研究主要如下：文献[16]提出一种基于大形变微分度量映(LDDMM)的模块预测的快速配准方法，采用深度编解码器网络作为预测模型，通过直接基于图像外观的形变模型进行补丁预测，从而实现快速准确的形变预测，该模型训练时使用传统算法配准后的结果作为标准；文献[50]提出一种新的强化学习(RL)框架用于图像配准，利用传统算法配准后的结果作为配准标准，这是第一个处理相似度变换的基于RL的图像配准方法．通过上述研究分析，基于手动配准的方法依赖人工标注，在大量数据的配准任务中并不适用；基于传统配准方法获取的配准金标准，是一个近似的金标准，在面对具有大形变的待配准图像时往往效果不显著；大多研究采用对图像的模拟变换以获取形变参数作为金标准，利用模态转换等方法解决缺少配准金标准的问题．该类方法快速高效、鲁棒性强且具有较高的配准精度，但该类方法利用的模拟变换无法反映真实数据的变换、无法模拟大范围形变，难以临床应用．未来可结合无监督方法，在利用配准标签进行高精度配准的同时，又可摆脱对标签的严重依赖；不仅可以适用于小范围形变配准，利用图像生成等方法，而且可在一定程度上突破形变的限制，更适用于临床．4.2.2　弱监督配准方法由于多模态图像配准的真实形变场难以获取，因此阻碍了全监督方法的进一步发展，而弱监督的方法利用辅助标签和一些图像相似性度量进行图像配准，不完全依赖于真实形变场，在多模态图像配准任务中主要利用相应解剖结构的分割结果或标志点标注作为标准．本研究对弱监督的配准方法归纳如表12所示．10.13245/j.hust.240479.T012表12基于弱监督的配准方法归纳监督方式配准区域维度/模态变换数据集文献标志点，肿瘤分割大脑，颈动脉3D-3D/T1Gd-T1w，T1c-T2w非刚性BraTS，临床数据[32]器官分割腹部2D-2D/MR-CT非刚性VISCERAL[51]器官分割盆腔3D-3D/MR-CT非刚性临床数据[53]器官分割前列腺3D-3D/MR-TRUS刚性临床数据[60]标志点前列腺3D-3D/MR-TRUS刚性临床数据[61]血管分割冠状动脉2D-3D/CT-DSA非刚性临床数据[71]利用器官分割结果作为辅助标签引导图像配准的研究主要如下：文献[32]提出一种用于三维多模态医学图像配准的约束刚性网络结构，该模型在标注关键标志点及肿瘤分割的监督下进行训练，通过预先计算刚性变换参数的范围来预测刚性变换，还可以与非刚性配准网络相结合；文献[61]引入一个新的框架，它使用解剖标签和全图像体素强度作为训练数据，以实现一个全自动的、可形变的图像配准过程，在推理过程中只需要未标记的图像数据，该研究证明了非迭代预测来自未标记输入图像的体素对应的可行性．利用图像中对应标志点标注结果作为辅助标签引导图像配准的研究主要如下：文献[51]研究了一种端到端可训练的、弱监督的基于深度学习的特征提取方法，监督迭代下降算法(SUITs)，它能够将复杂的外观映射到一个公共空间，通过使用一般适用的正则化迭代对齐约束，在训练中，由专家标注的多个器官分割结果进行监督；文献[54]提出一种基于深度学习的非刚性多模态图像配准框架，该模型利用模态内的图像相似度引导网络训练，利用两种模态的互补解剖结构，分别以MR模态和CT模态的双重方式计算差异损失，可直接输入待配准多模态图像预测形变场，在训练过程中，该方法通过引入器官分割结果作为监督信息以获取更好的配准结果；文献[60]提出一种新的对抗性形变正则化策略，通过器官分割结果的引导，结合基于模型的约束来辅助数据驱动的图像配准算法，该研究使用对抗性学习方法来约束卷积神经网络训练的过程，首次证明了使用一种对抗性策略来优化端到端配准网络是可行的；文献[71]为了提高不完全二维血管图像的配准性能，提出一种基于CNN的二维/三维冠状动脉血管图像的弱监督配准框架，首先对血管进行分割，保留形态信息，然后以具有可用标签的模拟图像作为训练数据来训练基于CNN的回归网络，继而微调具有真实DSA的网络．通过上述研究分析，利用弱监督方式进行图像配准，依赖器官分割结果的精确性及对应标志点的标注准确性．该类方法在器官配准和血管配准上均有应用．由于医学图像的复杂和非线性性质，因此对感兴趣区域(ROI)的正确检测比较困难，而且容易出现错误，当标注样本较少时该方法效果较差．该类方法目前难以实现端到端自动化配准，数据的标注和特征提取依旧费时费力．未来该方法可通过数据增强的方式扩充数据集，或使用迁移学习减少标签标注．4.2.3　无监督配准方法全监督方法与弱监督方法在配准任务中须要提供真实形变场或相应解剖结构的分割结果以作为标签进行训练．而无监督学习则无须提供任何辅助标签，在训练网络的过程中仅须要提供待配准的图像对，从而直接进行变换估计．本研究中对无监督的配准方法归纳如表13所示．10.13245/j.hust.240479.T013表13基于无监督的配准方法归纳配准区域维度/模态变换数据集文献大脑3D-3D/T1w-T2w非刚性大脑数据集[17]大脑2D-2D/T1w-T2w非刚性BrainWeb，BraTS，大脑数据集[20]大脑2D-2D/T1w-T2w非刚性IXI[22]大脑3D-3D/T1w-T2w非刚性BraTS，大脑数据集[23]大脑3D-3D/T1w-T2w非刚性BrainWeb，RIRE，大脑图谱数据[25]大脑3D-3D/T1w-T2w非刚性BraTS，临床数据[26]大脑2D-2D/T1w-T2w非刚性BrainWeb，BraTS[28]腹部3D-3D/MR-CT非刚性BrainWeb，IXI，大脑图谱数据[31]大脑2D-2D/T1w-T2w非刚性BraTS[33]大脑3D-3D/T1w-T2w非刚性BraTS，临床数据[35]大脑2D-2D/T1w，T2w，PD，MRA两两互相配准非刚性IXI[36]大脑2D-2D/MR-CT非刚性临床数据[40]腹部2D-2D/MR-CT非刚性VISCERAL[52]腹部，肺部3D-3D/MR-CT非刚性腹部数据集[53]盆腔3D-3D/MR-CT非刚性临床数据[55]肝脏3D-3D/MR-CT非刚性临床数据[57]肾脏，腹部3D-3D/MR-CT非刚性临床数据[59]大脑3D-3D/MR-iUS非刚性大脑数据集[64]冠状动脉2D-3D/CTA-XCA非刚性临床数据[69]冠状动脉2D-3D/CTA-XCA非刚性临床数据[70]由于图像配准真实形变场难以获取，而且在医学图像配准领域更难以对配准后的图像进行评估，因此更多的研究转向利用无监督的方法处理配准任务[17,31,40,52,64]．通过提出新的相似性度量以引导图像配准的研究主要如下：文献[20]提出一种基于多维张量的模态独立邻域描述符(tMIND)用于待配准图像的结构表示，来度量图像之间的相似性；文献[22]提出一种新的方法可在同一框架内配准单模和多模图像，该研究通过引入可微MI作为相似性度量，有效解决了不同模态图像之间的强度对应问题，可以在没有任何关于图像强度关系的先验信息的情况下，快速、准确地预测形变场；文献[23]提出一个统一的损失函数，利用结构和强度分布信息两方面的约束来配准图像对，该研究为了提高现有的基于学习的配准的效率，引入一种二层自调优训练策略，从而增加了模型的灵活性，减少了计算和人力负担．利用生成对抗框架进行图像配准的研究主要如下：生成对抗网络(GAN)在无监督的多模态医学图像配准任务中展现出了其独特的优势[25,57,59]，文献[26]提出一种以协同周期一致性的方式进行图像配准和转换的新方法协同循环一致性方法(CoCycleReg)，该方法在端到端训练过程中，通过循环一致性来统一图像的配准和转换阶段，这样每个部分都可以从另一部分中受益；文献[35]提出一种有效的半共享多尺度配准网络，该方法使用两个独立的编码器和一个共享解码器来提取和解码多模态图像的特征，使网络能够更好地处理不同对比度的多模态医学图像；文献[36]提出一种基于GAN的多对比度配准网络(Star-Reg)，该方法可应用于多类模态的配准任务，不仅仅针对特定两种模态间的配准；文献[55]提出一种对抗性相似度网络来通过网络自动判断图像的相似度，而不是使用任何任意的相似度度量．利用翻译模型将多模态配准转换为单模态配准问题，从而进行图像配准的研究主要如下：文献[27]提出了一种基于无监督的分层翻译的模型来对多模态医学图像进行配准，该算法通过计算粗形变场以保持外观平移，将平移结果作为精细配准网络中的增强信息，推导出一个精细形变场，得到准确的配准结果；文献[33]通过图像解纠缠，将两种模态的图像分解为一个共同的潜在形状空间和分离的潜在外观空间，便于配准；文献[53，59]利用基于翻译的无监督形变图像配准方法用于多模态图像；文献[57]提出了一种快速的图像配准框架用于MR-CT的配准，利用具有互信息约束的循环生成对抗网络(CycleGAN)模型对MR图像进行转换，合成新的CT图像，通过传统的单模态CT-CT图像配准进行MR-CT图像配准．通过上述研究分析，无监督的多模态医学图像配准方法通过直接预测形变场对固定图像进行形变，网络训练损失和图像相似性指标的定义十分重要，部分文献提出了新的指标进行度量；大多研究通过GAN网络或将多模态图像转换为单模态图像进行配准，该类方式通过将复杂的多模态图像配准问题简化为单模态图像配准问题，减小了配准难度．由于不同类别图像之间的相似性难以量化，因此无监督的配准方法在处理多模态配准问题上仍较为困难，目前无监督配准方法多用于处理单模配准问题．未来在处理多模态图像配准问题时趋于使用半监督的配准方法；基于GAN的方法不仅可用于引入额外的正则化，而且可用于执行图像域转换，由此也成为研究趋势之一．5 数据集及评价指标5.1　主要数据集目前，可用于多模态医学图像配准的主要数据集有：a．脑部数据集，包括脑部MR影像的多个序列及CT影像；b．腹部数据集，包括腹部MR影像及CT影像；c．全身多个器官及多个部位的CT、MR、超声、X光、PET、血管造影和PET-CT影像．下面分别对上述七个数据集进行具体介绍．a．RIRE美国田纳西州范德堡大学的回顾性图像配准评估(RIRE)数据集[72-73]提供了七个不同年龄段病人的41套CT和MR脑部图像．该数据库包括了18位不同患者的脑部CT图像(51×2×512×29)和MR图像(256×256×26)，包括T1w，T2w及PD序列，可以构成多种多模态配准场景．该数据集没有提供图像配准变换参数及参考标注结果，使用该数据集进行配准任务首先须要对图像进行处理，即进行手动标注关键区域用作弱监督配准方法、进行模拟变换以用作全监督配准方法或使用无监督方法配准．RIRE数据集图像示例如图5所示，数据集下载官方网址：https://rire.insight-journal.org/．10.13245/j.hust.240479.F005图5RIRE数据集图像示例 b．ROCO 情景中放射学对象(ROCO)数据集[74]包含了大量的多模态医学图像，已被广泛用于图像字幕生成模型和图像分类的相关研究．该数据集中的放射学对象共包含8.182 5×104张放射学图像，具有多种医学成像方式，包括CT、超声、X光、PET、乳房X光摄影、MR、血管造影和PET-CT．该数据集提供了丰富的医学图像资源，但未提供多模态图像的配准形变场或器官标注和分割结果．利用该数据集进行配准任务须要先对数据进行预处理，以获取配准标准，从而能够评估全监督配准方法．此外，还可以通过手动标注部分区域作为弱监督配准方法的评估，或者使用无监督方法．ROCO数据集图像示例如图6所示，数据集下载官方网址：https://github.com/razorx89/roco-dataset．10.13245/j.hust.240479.F006图6ROCO数据集图像示例 c．BraTS 脑肿瘤分割(BraTS)数据集[75-77]是一个多模态MR扫描的数据集，共有四种模态的配准MR图像，即T1w，T1c，T2w和T2 Flair，图像大小为240×240×155．BraTS2015数据集由253例患者脑部MR扫描构成，BraTS 2016数据集有391例，BraTS 2017数据集有477例，BraTS 2018数据集有542例，BraTS 2019数据集有626例，BraTS 2020数据集有660例，BraTS 2021数据集有2 040例．该数据集具有精确的手动分割肿瘤结果，对水肿区域、增强肿瘤区域及坏死区域进行了精细分割，该分割结果可用作弱监督图像配准方法的结果评估．BraTS数据集图像示例如图7所示，数据集下载官方网址：https://www.med.upenn.edu/cbica/brats/．10.13245/j.hust.240479.F007图7BraTS数据集中不同序列MR图像示例 d．NIREP 非刚性图像配准评价项目(NIREP)数据集[78]由美国爱荷华大学提供，用于个体内部或个体之间解剖变形的比较研究，包括16名正常被试的三维MR脑图像体数据，其中：男性8人，平均年龄32.1岁，标准差8.8岁，年龄范围22～49岁；女性8人，平均年龄32.6岁，标准差7.5岁，年龄范围23～47岁．每套数据分割出32个三维的大脑灰质感兴趣区，分别位于额叶、顶叶、颞叶、枕叶、扣带回及脑岛，不包括小脑、下丘脑和脑干部分．原始图像的大小为256×300×256．该数据集具有不同脑区的精细分割结果，在配准工作中可用作弱监督图像配准算法的结果评估．NIREP数据集下载官方网址：https://github.com/andreasmang/nirep．e．IXI图像信息提取大脑发展(IXI Brain Development)数据集包括来自五种模式，T1w，T2w，PD，MRA和弥散张量成像(DTI)，578名非颅骨剥离大脑MR图像受试者，图像大小为256×256×L(L为MR影像切片数量，每个受试者不同)，数据来自伦敦的3家医院．该数据集没有提供多模态图像配准变换参数，也没有对脑区的手动分割结果，使用该数据集进行配准研究须要先进行数据处理，模拟变换获取形变参数用以全监督配准方法、进行手动分割用以弱监督配准学习或者用作无监督配准方法．IXI Brain Development数据集图像示例如图8所示，数据集下载官方网址：http://brain-development.org/ixi-dataset/．10.13245/j.hust.240479.F008图8IXI数据集图像示例f．BrainWeb模拟大脑(BrainWeb)数据库[79-80]为加拿大McGill大学Montreal神经所提供的反震脑部MR图像数据，包含基于两种解剖模型的模拟脑MR数据，正常和多发性硬化，并且提供了人工合成三种模态T1w，T2w和PD下的三维脑MR图像．图像中包含不同的扫描厚度、噪声及偏移场，且该数据库对于所有脑MR图像均提供了规范分割结果，可用作弱监督配准方法的结果评估．BrainWeb数据集下载官方网址：http://brainweb.bic.mni.mcgill.ca/brainweb/．g．VISCERAL放射学中的视觉概念提取挑战赛(VISCERAL)数据集[81]包含的来自男性和女性患者的图像数量大致相同(62名男性，69名女性)；患者的平均年龄为59.9岁(±9.79岁的标准差)．共纳入391个CT和MR数据集(889个序列)，采用全身CT和MR扫描，分别对整个躯干CT增强(CTce)或腹部MR T1CE进行扫描，包括15个器官的20个结构，即左/右肾、脾、肝、左/右肺、膀胱、腹直肌、第一腰椎、胰腺、左/右腰大肌、胆囊、胸骨、主动脉、气管和左/右肾上腺．该数据集对不同结构进行了手动分割，并提供了关键点标注信息，可用作弱监督配准方法的结果评估．VISCERAL数据集下载官方网址：https://visceral.eu/．5.2　评价指标“金标准”不仅可以用以衡量配准算法性能的优劣，而且是评估配准结果能否达到临床需求的重要依据，但是由于医学影像的成像条件不同，因此临床数据往往没有一个绝对“正确”的配准标准，主要依赖临床医生的评价．为了对配准后的医学图像进行配准效果评估，大多数研究基于以下几类方式：a．在固定图像和配准图像上分割某些解剖结构，评判分割区域的重叠程度、分割区域的表面距离；b．在固定图像和配准图像中分别标注多个对应标志点，评判对应标志点之间的距离；c．计算固定图像与配准图像之间的相似度；d．可视化的主观评估，对固定图像和配准图像进行可视化，观察其差异．a．DICE骰子系数(DICE)是一种集合相似度度量指标，用于衡量固定图像与配准图像之间的一些解剖分割区域的空间重叠程度，其公式为D(Vf,Vm)=2|Vf⋂Vm||Vf|+|Vm|，式中Vf和Vm分别为固定图像和配准图像的分割区域．通过计算两幅图像中分割区域的重叠部分的范围从而进行配准结果的评价，Dice指标值范围为(0，1)，当其值为1时，两幅图像的分割结构完全对齐；反之，当其值为0.0时，表示两幅图像的分割结构完全没有对齐．该指标用于利用解剖结构的配准效果间接衡量整幅图像配准效果的情况．b．HD9595%豪斯多夫距离(HD95)测量了固定图像和配准图像的分割解剖结构区域之间的表面距离，最大距离的95%的量化值．针对两个集合Sf和Sm，从Sf到Sm的单向HD距离可表述为h(Sf,Sm)=maxf∈Sfminm∈Sm||f-m||2，Sm到Sf的单向HD距离表示为h(Sm,Sf)=maxm∈Smminf∈Sf||m-f ||2，因此，Sm与Sf间的双向HD距离可表示为H(Sf,Sm)=max(h(Sf,Sm),h(Sm,Sf))，式中：Sf和Sm分别为固定图像和配准图像的分割区域的像素集合；f和m分别为Sf集合与Sm集合中的像素点．通过计算两幅图像中解剖结构分割区域各像素点之间的距离，用以衡量分割区域的重叠程度，HD95的值越小，表明分割区域重叠性越好．该指标间接利用分割区域的表面距离衡量配准效果，用于有解剖结构分割结果的配准．c．ASSD平均对称表面距离(ASSD)评价了固定图像和配准图像的分割解剖结构之间的平均表面距离，其公式为A(Rf,Rm)=1|Rf|+|Rm|∑q∈Rfminp∈Rm||q-p||+∑p∈Rmminq∈Rf||p-q||,式中：Rf和Rm分别为固定图像和已配准图像中的分割解剖结构表面的所有体素；q和p分别为Rf集合与Rm集合中的像素点．该指标通过计算解剖结构的分割区域之间的平均距离，间接反映整幅图像的配准效果，ASSD值越大，配准效果越好．d．MSE均方误差(MSE)指标评价了固定图像与配准图像之间的平均强度差，其公式为M(Ef,Em)=1Z∑|Ef-Em|2，式中：Ef和Em分别为固定图像与配准图像中所有体素的强度；Z为图像大小．通过计算两幅图像间的平均强度差，反映固定图像与配准后图像间的相似性，MSE值越小，说明图像越相似，即配准效果越好．该指标适用于不具备配准标签的配准．e．SSIM结构相似性指标(SSIM)是衡量图像质量的指标之一，通过图像之间的亮度、对比度及结构来评估图像的相似度，指标值的范围为[0，1]，值越大代表图像越相似，当两张图片完全一样时，SSIM值为1，其公式为S(A,B)=(2μAμB+c1)(2σAB+c2)(μA2+μB2+c1)(σA2+σB2+c2)，式中：A与B分别为固定图像和配准图像；μA和μB分别为A和B的平均值；μA2与μB2分别为A和B的方差；σAB为A和B的协方差；c1=(K1L)2，c2=(K2L)2，为用于维持稳定的常数，其中，L为像素值的动态范围，K1=0.01，K2=0.03．该指标通过计算固定图像与配准后图像的相似度，以衡量配准效果，适用于不具有配准标签的配准．f．TRE目标配准误差(TRE)评估了固定图像和配准图像中对应标志点间的距离，其公式为T=∑i=1P|liIf-liIm|，式中：If与Im分别为固定图像和配准图像；liIf与liIm分别为固定图像和配准图像中的第i个对应标志点；P为图像中的标志点的总数．该指标通过计算两幅图像中标志点间的距离差距，间接衡量图像配准效果，距离越小，配准效果越好．应用该指标要求预先在图像中指定若干对应的标志点，适用于具有关键点标注的图像配准．6 总结与展望6.1　总结在医学图像配准领域，针对单模态的图像配准已有大量文献及相关综述，但多模态医学图像配准相对来说是一个较新的研究领域，本研究收集了近10 a的相关研究工作，对其进行分类比较，并总结如下．a．对多模态医学图像进行了介绍，对多模态医学图像配准任务的相关内容进行了阐述，并对其在临床及学术领域的意义进行了分析；总结了图像配准的任务目标及一般流程，并对当前医学图像配准方法的主流划分方式进行了说明．b．对多模态医学图像配准研究进展进行了汇总与分类，分别从以下三个角度进行阐述：基于不同模态的医学图像配准，对现有文献中不同模态的图像配准进行分类，如T1w-T2w配准、MR-CT配准、MR-US配准及CT-Xray配准，分析了各类模态图像的特点及优势，不同模态间图像配准的目的与临床意义；基于不同解剖结构的医学图像配准，对不同解剖结构的配准任务进行分类，如对脑部结构、胸部结构、腹部结构、盆腔结构及脊椎结构进行配准任务，分析了不同解剖结构被用于配准任务的因由及意义；基于特征匹配及深度学习的多模态医学图像配准算法，针对目前收集的多模态医学图像配准文献进行算法分类，对各类方法的发展历程及研究现状进行了评述．c．总结了多模态医学图像配准领域常用的7个数据集及6个评价指标．在多模态医学图像配准领域，尚不存在统一的算法验证数据集及完善的评价体系，大多研究使用器官分割、手动形变及关键点标注等方法对配准结果进行近似评估，算法间无法进行公平对比．本研究总结的数据集及评价指标可为该领域研究提供验证及评价参考．6.2　展望多模态医学图像配准已成为当前的研究热点，近些年也涌现出诸多研究成果，但在该领域仍有一些亟待解决的问题，这也将成为未来研究中着重关注的研究方向．a．验证数据集．在当前多模态医学图像配准任务中，缺少统一的公开数据库及可靠的评价指标．现有算法针对不同的数据集(公开数据集、临床数据等)展开研究，对算法的验证方式并不统一，在算法间无法公平地进行验证及对比．对标准验证数据集的建立及评价指标的统一，更有利于配准算法的发展及后续研究的进行．b．临床应用．多模态医学图像配准的任务与临床医学密切相关，在发展更优秀的算法同时，临床应用也将成为所有算法的最终目标．现阶段该领域中有各类配准算法提出，算法性能也得到了一定的验证，但到目前为止大多研究还没有明确的临床目标，也还没有任何方法被应用在临床环境中．利用最先进的算法辅助临床医学做出更科学的诊断、治疗及手术，有效结合科研成果与临床应用才是该领域持续发展的基石．c．方法趋势．从本研究调研的方法来看，有监督和无监督的配准方法的相关文献数量最多，有监督与无监督的方法有不同的优缺点，在研究中根据实际应用场景选择合适的方法以达到临床期望才能体现算法的优势．从发展趋势来看，未来将会有更多的研究集中在有监督方法与无监督方法的结合上．d．可解释性．目前，基于深度学习方法进行图像配准是大势所趋，配准方法逐渐由部分依赖深度学习转向完全依赖深度学习，其性能和效果由逐渐达到传统配准方法的效果逐渐转为超越配准方法的效果，但针对医学领域严谨、科学及客观等特点，“黑盒算法”显然不能满足临床需求，配准的过程须要进一步解释和验证，这也是深度学习方法亟待验证的问题之一．