糖尿病视网膜眼底病变(DR)是糖尿病患者最常见的并发症,是全球范围内引起失明的主要原因之一.随着糖尿病患者人数的迅速增加,糖尿病视网膜眼底病变的发病率也不断上升,给公共卫生和医疗系统带来了巨大的挑战[1].糖尿病视网膜眼底病变的检测和病灶分割是有效预防和准确诊断该疾病的关键[2].根据糖尿病眼底病变的严重程度可以分为5个等级,即无DR、轻度DR、中度DR、重度DR和增殖性DR.而不同严重程度的DR会在视网膜眼底图像上出现不同类型的病变,其中主要分为4类,即微动脉瘤(MA)、出血(HE)、硬性渗出物(EX)和软性渗出物(SE).自动化的DR检测方法凭借其耗时短、成本低、效率高的优点,成为研究的焦点[3].特别是随着深度学习的迅猛发展,基于深度学习的DR检测与病灶分割取得了显著进展,成为目前主流方法[4].文献[5]提出一种基于卷积神经网络的DR自动分类方法,结合迁移学习和超参数调整,训练并分析如AlexNet和VggNet等多个神经网络,达到较高DR分类准确率.文献[6]提出一套基于深度神经网络的视网膜图像自动识别系统,改进AlexNet模型设计出CompactNet网络,提高了DR分类识别准确率.然而,上述方法主要关注DR眼底图像的分类分级,并未进行具体病灶的检测与分割,难以起到治疗辅助的作用.为了更准确地检测DR病灶区域,诸多学者提出了面向DR病变类型的病灶目标检测方法.文献[7]提出了基于目标检测的区域全卷积网络算法,通过改进基于区域的全卷积网络(R-FCN)算法,增加特征金字塔网络(FPN)结构实现了对于DR眼底图像的5级分类和3种病变区域检测.文献[8]针对眼底病变多尺度和小目标的问题,提出了基于深度学习级联架构参数优化的眼底病变检测的模型,以高分辨率网络(HRNet)为主干网络,增加FPN模块,完成了对于4种DR病变的检测.但以上方法主要使用边界框标识DR病变区域,未分割病灶具体位置,特别是DR病变中各类病灶较小,使用锚框的目标检测方法难以准确定位病灶位置.语义分割具有逐像素级标注的特点,可以被用于DR图像精细化病灶分割,因此基于语义分割的DR病灶分割方法被提出.文献[9]提出一种将循环霍夫变换和CNN(卷积神经网络)算法相结合的方式检测EX,实现了对DR图像中EX的分割,然而该方法局限于识别单一病变类型.文献[10]使用HEDNet边缘检测器与条件生成对抗网络对IDRiD数据集进行分割任务,添加对抗性分割损失,实现4种病变分割预测,然而该方法的MA,SE和HE病灶较小、边缘特征较弱,因此难以捕获多类病灶的边缘特征,导致分割准确率较低.近年来,DeeplabV3+网络[11]在语义分割领域广泛使用,它具有多尺度、底层特征与高层特征融合、分割边界准确度高等特点,为DR多类病灶分割提供了启示.注意力机制可以跨通道捕获信息、感知方向获取位置信息,有助于模型更加准确地定位和识别感兴趣的对象.针对DR病变多类分割难与小病灶分割准确率低的问题,本研究提出一种融合注意力的改进DeepLabV3+模型的糖尿病眼底病变的多类病灶分割方法.该方法首先使用轻量级特征提取网络MobileNetV2替代原模型的主干特征网络Xception,提高模型训练速度;在此基础上对网络结构改进,添加坐标注意力机制,扩大感受野增加识别率,对空洞空间卷积金字塔池化模块(ASPP)中的空洞卷积的空洞率进行重新优化组合,提高小病灶识别率,使模型达到更优的病灶分割效果.1 改进的DeepLabV3+模型1.1 模型总体架构DeepLabV3+是一种基于深度学习的语义分割模型,用于图像的像素级别分割.该模型的设计目标是解决传统卷积神经网络在分割任务中的两个主要问题,即空间信息损失和低分辨率输出.为了解决上述问题,DeepLabV3+引入了两个关键组件,即空洞卷积(atrous convolution)和编码-解码(encoder-decoder)结构.为了有效提取糖尿病眼底病变病灶在多种尺度下的语义信息,本研究延续了DeepLabV3+中的Encoder-Decoder结构,网络中使用深度可分离卷积,以减少计算量,提高该网络的运行速率.使用空洞卷积来增加每个卷积的输出信息量,该方法可以显著增大感受野而不损失原信息,提高了分割精度.在Encoder中将原DeepLabV3+中的Xception网络替换为MobileNetV2轻量网络,可大量减少训练参数数量和训练时间.为了增强对不同大小目标的分割效果,对ASPP模块进行改进,将DeepLabV3+网络ASPP模块中的6,12和18三层空洞卷积空洞率组合优化为4,8,12和16的四层组合,并对网络进行改进,在编码部分添加坐标注意力(CA)机制,将原网络结构重新进行优化改进.解码部分主要加入了MobileNetV2提取的浅层特征与通过CA注意力浅层特征进行融合,提高了浅层特征信息,再与4倍双线性插值上采样的高级语义特征使用Concat函数合并,通过3×3卷积对空间信息进行恢复,最后再次通过4倍上采样操作逐渐恢复特征图的空间分辨率,从而得到高分辨率的分割结果.改进后DeepLabV3+网络模型如图1所示.10.13245/j.hust.240576.F001图1本研究改进后DeepLabV3+网络结构1.2 特征提取网络MobileNetV2网络中首先使用常规3×3卷积将输入升维到32通道,然后通过了17个瓶颈残差层对眼底病灶进行特征提取,其中使用ReLU6为非线性激活函数可以在低精度的计算中更具有鲁棒性,最后使用1×1的卷积进行降维,通过全局平均池化层和分类层后输出,网络整体的结构与参数说明如表1所示.使用MobileNetV2可以有效节省计算量,同时节省训练时间和算力资源,该网络快速高响应的特点更适合于糖尿病眼底病变病灶的特征提取.10.13245/j.hust.240576.T001表1MobileNetV2 的网络结构与参数说明输入操作层扩张倍数输出通道数重复次数步长2 242×3卷积层—32121 122×32瓶颈残差层116111 122×16瓶颈残差层624225 62×24瓶颈残差层63232282×32瓶颈残差层66442142×64瓶颈残差层69631142×96瓶颈残差层61603272×160瓶颈残差层63201172×3201×1卷积层—1 2801172×1 2807×7平均池化层——1—1×1×1 2801×1卷积层—n——注:“—”表示无数值;n为输入通道数.1.3 空洞空间卷积金字塔池化空洞空间卷积金字塔池化融合了空间金字塔池化与空洞卷积,解决了CNN须要固定输入图像尺寸而导致不必要的精度损失的问题;弥补了候选区域重复卷积计算,导致计算冗余的问题;增加感受野,使得输出图像的尺寸要求和输入图像的尺寸一致,可以有效提取眼底图像中多尺度的语义信息,从而达到多病灶提取的效果.在网络的训练过程中,随着主干网络对特征的不断提取,特征图的分辨率也会不断减小,空洞率较大,难以满足面向小目标分割的需求.特别是在糖尿病眼底病变的图像中,病灶大部分为小目标,因此本研究将原ASPP的空洞率设置为4,8,12和16,从而有效提取多分辨率的特征图,提高对小目标的分割能力.改进后的ASPP模块如图2所示,将MobileNetV2提取的特征图输入改进后的ASPP模块中,分别进行1×1卷积操作,多种空洞率的3×3空洞卷积操作,再进行池化层,完成不同尺度的分割特征提取,最后将6层输出进行拼接融合.10.13245/j.hust.240576.F002图2改进后ASPP模块1.4 坐标注意力本研究使用坐标注意力(coordinate attention)[12],如图3所示,该注意力可以跨通道捕获信息,方向感知和位置信息,有助于模型更加准确地定位和识别感兴趣的对象.该注意力分别对输入特征图(C为特征图通道数,H为高,W为宽,r为下采样比例)进行水平方向和垂直方向平均池化得到两个一维向量,在空间维度上拼接和1×1卷积来压缩通道,通过批标准化和非线性变换来编码垂直方向和水平方向的空间信息,这两种信息可以将其互补地应用于输入特征图,以增强关注对象的表示,接下来进行拆分,再各自通过1×1卷积得到输入特征图一样的通道数,其中使用Sigmoid激活函数,并归一化加权.10.13245/j.hust.240576.F003图3坐标注意力结构图2 实验与分析2.1 实验数据实验所用的训练数据集分别为FGADR数据集[13]与IDRiD数据[14].FGADR数据集中主要有1 842张细粒度的带注释的糖尿病视网膜病变图像,分辨率为1 280×1 280,包括了像素级的病变注释标签.病变包括MA,HE,EX,SE,以及视网膜内微血管异常(IRMA)和新生血管(NV).该数据集中没有任何两张图像在血管或视盘方面具有相同的视网膜结构,这样过滤后可以保证糖尿病眼底病变的多样性,增加模型的鲁棒性.因IRMA与NV标签数量较少,故本研究主要针对MA,HE,EX和SE进行眼底病灶分割训练任务.IDRiD数据集提供了典型糖尿病视网膜病变和正常视网膜结构的专家注释.全套图像包含516张图像,分辨率为4 288×2 848,但其中只有81张图像用像素级二值病变遮罩标记.提供了与DR相关的异常情况,如微动脉瘤、出血、软渗出物和硬渗出物.因图像数量较少,故主要用来进行测试集使用,以计算模型的准确性.在模型训练过程中使用FGADR数据集,其中按照9∶1进行训练集与验证集划分,使用1 658张图像用作训练集,184张图像用作验证集.原始的眼底图像病灶并不明显,所以先对原图进行预处理操作,增强图像对比度,并进行噪声去除平滑等.由于每种病变的病灶是单独的标签,因此要对多个病灶进行识别分割,多个病灶的识别分割须要提取整合多个病灶标签,综合标签中EX为红色(255,0,0),HE为绿色(0,255,0),MA为橄榄色(128,128,0),SE为紫色(128,0,128).再更改每个病灶对应的标签像素值,由于背景像素值为0,因此4种病变的病灶标签像素值分别取值为1~4.数据集图像和对应标签图像处理前后对比效果如图4所示.10.13245/j.hust.240576.F004图4数据集图像与标签处理前后对比示例2.2 实验设置实验的主要设置如下:设定图像输入网络的宽高为512×512,在网络读取处理后的图像与对应标签后,首先对其进行归一化和大小调整,训练过程中先使用迁移学习的方法,使用MobileNetV2的官方权重进行提取主干特征获取权重,训练迭代总次数为300次,其中分为两部分进行学习训练.第一部分迭代次数0~149为冻结阶段,冻结特征提取网络,此时特征提取网络不发生改变,因为网络特征通用,所以当冻结时占用显存较小,可以加快训练速度,也可以在训练初期防止权值被破坏;第二部分迭代次数150~300为解冻阶段,此时模型的主干解除冻结,特征提取网络会发生改变,占用显存变大,网络中所有的参数权重都会发生改变.初始学习率设置如下:冻结时为0.5×10-3,解冻时为0.5×10-4,并在训练过程中每一轮次对学习参数进行调整,系数为0.95,其中使用的损失函数为焦点损失函数(focal loss),该损失函数可以解决类别不平衡问题,并解决不同种病症不同大小病灶的情况;使用Adam优化器对学习率进行动态调整,激活函数为ReLU激活函数,膨胀卷积的膨胀系数为1.焦点损失函数的表达式为Lf=-(1-pt)γlog pt,式中:pt反映了识别结果与标签中对应类别的接近程度,pt越大说明越接近对应类别,则分类识别结果越准确;γ0为可调节因子.相比交叉熵损失,焦点损失函数对于分类不准确的样本,损失没有改变,对于分类准确的样本,损失会变小.整体比较而言,相当于增加了分类不准确样本在损失函数中的权重,有助于提高难分样本的准确度.2.3 评价指标文本采用图像语义分割中的平均交并比(MIoU)与平均像素精度值(MPA)作为衡量算法精度的评价指标,有A=∑i=0kPii/∑j=0kPij;P=Ak+1;I=∑i=0kPii∑j=0kPij+∑j=0kPji-Pii;M=Ik+1,式中:A为各类别像素精度值;P为平均像素精度值;I为各类别交并比;M为平均交并比;k为须识别分类的类别数目,共有k+1个类(其中包含背景);Pii为正确分类的像素数量;Pij为本属于i类但被识别为j类的像素数量;Pji为本属于j类但被识别为i类的像素数量.2.4 结果分析首先使用预处理后的FGADR数据集,将原DeeplabV3+中特征提取网络Xception替换MobileNetV2前后的对比实验,表2的数据表明了替换后精度有较少变化,但在精度损失1.25%的情况下训练时间下降了38.58%,极大提高了训练速度.10.13245/j.hust.240576.T002表2DeepLabV3使用不同特征提取网络对比实验特征提取网络IM/%训练时间/hSEMAHEEXXception0.610.420.680.7160.5014.62MobileNetV20.590.430.660.6959.258.98接着对预处理后的FGADR数据集进行模型训练,先对ASPP模块进行对比,原DeepLabV3+网络中的ASPP模块的空洞率为6,12和18,本研究的模型将其中的空洞率改进为4,8,12和16进行实验;再将单独加入CA注意力的模型进行实验验证.由表3数据可知:改进ASPP后的模型对小目标检测有更好的结果,而加入CA注意力的模型对于4种病变均有不同程度的提高.10.13245/j.hust.240576.T003表3DeepLabV3使用不同特征提取网络对比实验方法IM/%训练时间/hSEMAHEEX仅改进ASPP0.650.590.700.7266.509.56仅添加CA0.690.520.750.7467.509.14本研究0.720.680.780.7773.7510.15由表2与表3数据可知:使用原DeepLabV3+模型,结果测试MIoU为60.5%,因为MA的病灶过小,所以其中对于MA病灶的识别率较低为0.42;然而使用改进后的网络,结果测试MIoU为73.75%,对于MA病灶的识别率为0.68,提高了小目标识别率.图5展示了模型改进前后的多种病灶提取对比结果,方法为随机选择某个图像对其进行模型预测,然后对本次实验情况对比分析,DeepLabV3+模型对于小病灶的漏检现象明显,而改进后的DeepLabV3+模型对于小目标病灶MA的提取具有更好的效果,加入CA注意力改进网络结构也提高了其他三种病灶的提取准确率,使得最终结果对于病灶的边界提取效果更好,提取精度更高.10.13245/j.hust.240576.F005图5在IDRiD数据集中的结果对比表4与表5展示了不同模型在IDRiD数据集中的MIoU值、MPA值及使用FGADR数据集的训练时长.表中数据表明:所提出方法的MIoU与MPA指标明显优于现有典型方法,其中,U-Net++常用于生物医学图像分割,但由于其网络深度较难选择,同时下采样和升采样过多,导致小目标病灶信息与病灶边缘信息容易丢失,因此DR病变的分割效果较差.HED-Net为边缘检测模型,其基于VGG提取多尺度特征.对于DR图像中具有较强的边缘特征的EX的病灶特征捕获能力强,但针对其他小面积病变的病灶特征捕获能力弱,导致识别效果较差.10.13245/j.hust.240576.T004表4典型模型在IDRiD数据集中的MPA指标方法AP/%SEMAHEEXU-Net++[15]0.640.520.580.8163.75HED-Net[16]0.660.640.690.8871.75DeepLabV3+[11]0.690.510.780.7969.25本研究0.860.790.860.8483.7510.13245/j.hust.240576.T005表5典型模型在IDRiD数据集中的MIoU指标方法IM/%训练时间/hSEMAHEEXU-Net++[15]0.510.460.420.7553.5013.23HED-Net[16]0.570.530.590.7962.0015.18DeepLabV3+[11]0.610.420.680.7160.5014.62本研究0.720.680.780.7773.7510.15根据在IDRiD数据集上公开的工作情况对比,其中包括Fast-CNN[17]、半监督多任务解码器网络(SSMD-UNet)[18]、多尺度多层次特征融合网络(MSLF-Net)[19]和功能融合U-Net网络(FFU-Net)[20].由表6数据可知:本研究方法的MIoU结果最好,优于其他方法,尤其是MA的识别率较高,证明了本研究方法在小目标识别的优势.MSLF-Net在EX分割中取得最好结果,可能是因为该方法使用多尺度特征提取策略,对于较大病灶具有更好的特征提取效果,然而由于MA病灶过小多尺度提取易丢失信息,对于MA的识别率最低.FFU-Net在SE中取得最好结果,可能是因为SE病灶较分散,而该网络将原始池化层替换为卷积层,减少了图像空间损失,提高了SE的识别率,但对于MA与HE的识别率较低.因此,本研究虽然在SE与EX识别中略有劣势,但是MA与HE识别率较高,故总性能优于其他方法.10.13245/j.hust.240576.T006表6现有方法实验结果对比方法IM/%SEMAHEEXFast-CNN[17]0.680.470.670.7764.75SSMD-UNet[18]0.740.580.650.6766.00MSLF-Net[19]0.760.440.640.8667.50FFU-Net[20]0.780.560.730.8472.75本研究0.720.680.780.7773.752.5 可视化特征图可视化与可解释性的分析在医学领域十分重要,为了更好理解模型的运行机制和识别结果,本研究进一步研究了模型的可视化特征图结果[21-22].图6为使用本研究方法对DR病灶预测时的多层可视化特征图,可以看出:模型低等尺度中的特征信息较多,其特征数据与原始图像数据接近.在ASPP时层数较深,特征变得抽象,模型开始学习细节特征,如病灶边缘特征,但输出的高维特征图中感兴趣区域较为模糊,然而通过CA注意力后特征图表明CA注意力可以有效准确捕获感兴趣区域,有助于模型更好地定位和识别目标,提高了模型准确率.最后经过特征融合输出预测结果图进一步证明本研究提出模型有效捕获了DR病灶的特征.10.13245/j.hust.240576.F006图6使用本研究方法对DR病灶预测时的多层可视化特征图3 结语本研究针对糖尿病眼底病变图像存在多类分割难、小病灶识别率低的问题,基于DeepLabV3+网络进行改进,使用MobileNetV2网络进行主干特征提取训练,提高训练速度;改进了ASPP模块,将其中空洞卷积的空洞率由原来的6,12和18优化为4,8,12和16组合,增加细节信息提取,提高小病灶识别率;在网络中添加坐标注意力并改进网络架构,提高识别精度,并提高模型有效性与准确性.实验证明:本研究方法对于糖尿病视网膜眼底病变的四种病症具有多病灶识别,提取精度较高,参数量低,训练速度快及成本低等优点,可以有效辅助医生判断病症.尽管本研究方法实现了对糖尿病视网膜眼底病变的多类病灶识别,但是受限于大量人工标注的高质量眼底病变数据,目前主要在四类眼底病症上进行了模型验证,后续将进一步针对其他类型的眼底病症验证和优化模型.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读