敦煌莫高窟是世界文化艺术的璀璨瑰宝,其壁画举世闻名,具有极高的研究价值.然而,由于自然环境恶劣、人为破坏等因素,出现了不同程度的剥落、裂缝等病害,亟待保护.将数字化修复技术应用于古壁画的保护,已成为当前的研究热点[1].图像修复方法分为传统修复方法和基于深度学习方法两类.其中,传统修复方法采用纹理合成和稀疏表示等方法[2-3],但无法有效利用图像语义特征信息,对于大面积破损无法完成修复.目前,基于深度学习的图像修复逐渐成为主流.Yuan等[4]设计了自编码修复模型,取得了较好的修复效果.Li等[5]提出了一种基于视觉结构的渐进重构图像方法,将结构信息融入图像特征中,以得到更具结构性的结果.Wang等[6]提出了基于动态选择网络图像修复方法,避免了无效信息的干扰,但结果会出现一定伪影.Liu等[7]提出了一种基于局部卷积的空洞破损修复方法,但空洞过大时会出现结构失真.Yu等[8]提出了双阶段修复模型,但其采用单尺度生成方式,会导致重构细节信息丢失.Liu等[9]提出了基于连贯语义注意的图像修复模型,但其采用样本块匹配的方法,修复后存在块效应.然而,破损敦煌壁画往往具有复杂的结构和大量纹理信息,破损极易造成壁画大量特征信息的缺失[3].上述深度学习图像修复方法在修复破损壁画图像过程中,大部分采用基本卷积特征提取,并结合单尺度解码等方法进行重构,往往会出现特征感知能力较弱和重建细节丢失等问题.针对以上问题,提出了一种联合双编码器增强的生成对抗壁画多尺度重建深度学习模型,设计了由双分支联合编码器和多尺度解码器构成的生成网络,克服了单尺度解码造成的壁画细节特征丢失的问题.最后,通过谱归一化马尔科夫判别网络来改善壁画修复结果语义一致性和结构连续性.通过真实敦煌壁画修复实验结果可以发现:本文方法较对比算法取得了更好的主客观修复结果.1 本文算法1.1 网络整体框架在图像修复过程中,不仅须要对图像高级语义特征学习,还须要加强对低级信息(纹理、色彩等)特征的有效提取,并尽量减少无效特征的引入,才能提高修复质量[5].因此,为了充分提取壁画语义及细节特征,提出了一种联合双编码器增强的生成对抗壁画多尺度重建深度学习模型,其网络整体架构如图1所示.10.13245/j.hust.238374.F001图1整体模型框架示意图该网络模型以生成对抗网络为基础,其中生成网络采用双分支联合编码器和多尺度解码器构成,判别网络采用谱归一化马尔科夫判别器模型.首先,将破损的壁画图像分别输入到门控编码器分支和标准编码器分支,其中:门控编码器分支利用门控卷积单元的动态特征选择机制及级联结构,并引入空洞卷积,扩大壁画图像的特征提取感受野范围,充分利用壁画的上下文信息;标准编码器分支引入密集连接块加强壁画细节特征信息的跨层传递能力,提高信息在各层之间的利用率.然后,采用多尺度解码器重构恢复.最后,采用谱归一化马尔科夫判别网络改善壁画修复结果.1.2 生成网络设计1.2.1 双分支联合编码器双分支联合编码器结构包括门控编码器分支和标准编码器分支.其中:门控编码器分支主要用于提高壁画图像上下文语义特征的提取;而标准编码器分支结合密集连接,主要用于加强纹理细节信息的特征提取能力.门控编码器分支是通过门控卷积单元(gated convolution)[8]级联和空洞卷积构成,标准编码器分支由标准卷积单元并结合密集连接构成,通过层与层之间的特征复用,减少壁画细节信息的丢失[10].然后,将门控编码器分支和标准编码器分支得到的特征图进行通道融合,定义为P=G⊕O,式中:⊕表示通道连接;P为融合后的特征图;O为门控分支特征图;G为标准编码分支特征图.1.2.2 门控编码器分支在门控编码器分支设计中,考虑到普通卷积未考虑图像中不同语义特征之间的差异性,导致无法捕获关键特征[6].而门控卷积可以根据图像中信息的重要程度进行动态选取,特征在图像中越重要,被选取的概率往往越大,采用门控卷积可以提取到更丰富、更关键的语义特征信息[11].因此,通过设计门控编码器分支,保留更加重要的关键语义特征信息,以提高壁画图像的语义特征感知能力.首先,门控卷积通过卷积滤波器与壁画图像相乘,并利用ReLU激活函数进行特征映射,具体为F=Φ∑∑WfI,式中:F为特征值;Φ为ReLU激活函数;Wf为卷积滤波器;I为输入的壁画图像.然后,再通过卷积操作和Sigmoid激活函数将其映射到[0~1]范围之间,得到其门控值为T=σ(∑∑WgI),式中:T为门控值;σ为Sigmoid激活函数;Wg为门控卷积滤波器.最后,将特征值和门控值逐像素相乘,以实现对壁画图像不同特征的动态特征选择更新,加强壁画图像关键特征的提取,输出表示为O=F⊙T,式中:⊙为逐像素相乘;O为门控卷积特征图.为了实现壁画上下文语义的跨层提取,设计了门控卷积级联结构,对壁画上下文语义特征进行提取.为了说明门控卷积级联的有效性,对输入壁画以4层门控卷积操作为例进行说明,如图2所示.将输入图像分别采用ReLU激活函数和Sigmoid函数,得到上层特征图R1和下层门控特征图S1;然后将特征图S1与特征图R1逐像素相乘融合,动态更新得到第一层门控卷积特征图F1.同理,得到上层特征图R2,R3和R4和下层门控特征图S2,S3和S4,并将同一层的特征图进行融合,更新得到门控卷积特征图F2,F3和F4.经过一系列级联门控卷积提取操作后,可以发现不仅对于同一层的重要特征赋予更高的注意力,抑制了无效干扰,而且实现了不同层上下文语义特征的提取.10.13245/j.hust.238374.F002图2门控卷积级联特征图此外,门控编码器分支中还引入了空洞卷积模块扩大特征感受野范围,在保留大部分像素空间位置信息的同时,能够提升特征获取精度[12].采用门控编码器分支后可以更加充分地利用壁画图像的上下文信息,保留更多的壁画上下文语义特征信息,提高了壁画语义特征的提取能力.1.2.3 标准编码器分支标准编码器分支主要由标准卷积单元和密集连接块组成,其中标准卷积层表示为Gl(x)=Wl*Fl-1(x),式中:l为卷积层编号;Wl为第l层的滤波器;Fl-1(x)为l层的输入;Gl(x)为特征图;*表示卷积运算.此外,采用密集连接卷积网络(DenseNet)[13]的基本思想,构建了密集连接块.将每层的输出都作为之后所有层的输入,提高细节特征在各层之间的利用率,并且可以减少细节信息的丢失[14].第l层的输入就是之前所有层的特征图经过非线性变换函数Hl(⋅)后的结果,即xl=Hl([x0,x1,⋯,xl-1]),式中:[x0,x1,⋯,xl-1]表示l层之前的所有特征图的级联;Hl(⋅)为非线性变换函数,由批量标准化(batch normalization,BN)层、修正线性单元(rectified linear units,ReLU)层和卷积(convolution,Conv)层依次构成.第l层输入特征图的个数为kl=k(l-1)+k0,式中:kl为输入特征图的个数;k为非线性变换函数Hl(⋅)产生的特征图个数;k0为输入层通道数.1.2.4 多尺度解码器通过构建多尺度解码器达到增强壁画图像感知重建的能力,其结构如图3所示.主要分为多尺度特征重建层、多尺度特征融合层和通道降维层.10.13245/j.hust.238374.F003图3多尺度解码器示意图多尺度解码时,首先,将输入特征图通过多尺度特征重建层进行特征信息恢复,采用1×1,3×3,5×5,7×7和9×9不同大小的5种卷积核进行反卷积操作,即gi=(t-1)s+fi-2p,式中:gi为反卷积输出;特征图大小为t×t;卷积核大小为fi×fi;s为步长;p为填充.然后,将各尺度的特征图进行通道融合并使用1×1卷积核降维,再输入到下一层网络进行训练.为了说明本文多尺度解码的有效性,进行了特征提取,如图4所示.可以发现:采用不同的卷积核尺寸,对于特征高频信息和低频信息的提取也有差异.对于较小尺寸卷积,如1×1和3×3卷积核,可以充分提取结构等高频信息,如图4(b)和4(c)所示,而对于较大尺寸卷积核,如9×9卷积核,则可以提取到整体轮廓等低频信息,如图4(f)所示.10.13245/j.hust.238374.F004图4多尺度反卷积特征图1.3 判别网络在判别网络设计中,采用谱归一化马尔科夫(spectral-normalized patchGAN,SN-PatchGAN)判别网络.判别网络由6个卷积核大小为5×5、步长为2的标准卷积构成.由于SN-PatchGAN判别网络是对各个图像块进行特征提取与真假判别,因此可以使壁画的局部纹理细节得到更多关注和增强[8].1.4 损失函数首先用Lrec用来衡量生成壁画与真实壁画的像素差异性,具体为Lrec=Iout-Igt1,式中:Iout为生成图;Igt为真实图;∙1为l1范数.其次采用对抗损失Ladv进行优化训练,即Ladv=Egt[Φ(Dsn(Igt))]+Eout[Φ(1-Dsn(G(Iin)))],式中:Dsn为频谱归一化判别网络;Iin为输入图像.最后,引入风格损失为Lstyle=∑l=1N1cl2R(Iout)-R(Igt)2;式中:R(I)=Ψl(I)TΨl(I)通过计算内积的Hermitian矩阵得到;Ψl(I)是第l层特征图;cl为通道数.因此,整体损失函数为L=λrecLrec+λadvLadv+λstyleLstyle,式中λrec,λadv和λstyle分别为重构损失、对抗损失和风格损失的相应系数.2 实验结果与分析实验软件环境为Windows 10,python3.6,Tensorflow框架,硬件环境为Intel(R) Core i7-10700K CPU,32.0 GiB RAM,NVIDIA GeForce RTX 2060 SUPER,对比实验均在相同配置下进行.采用人眼主观效果和定量客观分析两种方式进行评价.为了验证本文方法的有效性,在自制敦煌壁画数据集的基础上,采用人为添加随机破损、大区域中心破损及真实破损壁画修复实验,并与文献[7]、文献[8]和文献[9]方法进行对比分析.2.1 人为添加随机掩膜修复实验人为添加随机破损壁画修复对比实验,如图5所示.其中:图5(a)为原始壁画;图5(b)为掩膜图;图5(c)为文献[7]采用局部卷积修复的结果,出现了结构线条断裂和修复残留等问题,如第一幅和第三幅壁画的眉毛均存在线条断裂;图5(d)为文献[8]结果,因采用单尺度重建,导致修复后出现了细节缺失,如第二幅存在结构紊乱;图5(e)为文献[9]的修复结果,结果较文献[7]和文献[8]较好,但因其语义建立基于样本块匹配,导致存在块效应;图5(f)为本文的修复结果,相比于比较算法,重构效果得到较大提升,修复结果更加自然清晰.10.13245/j.hust.238374.F005图5添加随机破损壁画的修复结果对比为了对图5的修复结果进行客观定量评价,采用峰值信噪比(PSNR)和结构相似性(SSIM)比较,结果如表1所示.上述两个指标值越大失真越少,即修复效果越好[3].10.13245/j.hust.238374.T001表1添加随机破损PSNR和SSIM对比图像文献[7]文献[8]文献[9]本文方法PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM127.842 80.941 328.293 60.944 329.708 70.944 530.023 10.949 8225.873 80.901 826.437 10.931 132.002 80.950 632.007 40.951 5324.063 20.884 124.158 90.884 829.971 60.911 134.691 90.971 6由表1可见:本文方法在PSNR和SSIM中均优于其他比较算法,从而说明本文方法在主客观评价中均优于比较算法.2.2 人为添加中心掩膜破损修复实验下面采用中心掩膜破损图像修复实验,如图6所示.由图6(c)可见:文献[7]采用固定规则的方式更新掩膜,无法完成大面积缺失修复.文献[8]出现了修复伪影和模糊现象,如第二幅眉毛等区域.文献[9]则出现了块效应和匹配错误问题,如第三幅边界效应明显.图6(f)为本文修复结果,可以看出:对于大面积破损壁画,虽然仍存在一定的修复残留,但相比对比算法,修复结果更流畅连贯,结构更符合真实壁画.同样PSNR和SSIM评价值也高于其他算法,评价结果如表2所示.可见对于大区域破损壁画修复,本文同样优于其他算法.10.13245/j.hust.238374.F006图6添加中心破损壁画的修复结果对比10.13245/j.hust.238374.T002表2人为添加中心破损PSNR和SSIM对比图像文献[7]文献[8]文献[9]本文方法PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM127.164 30.788 927.165 20.875 924.873 80.806 130.799 60.911 8222.090 70.775 722.328 90.788 125.785 80.822 126.322 40.825 3326.468 80.823 732.130 10.855 329.114 70.804 333.017 10.863 72.3 真实破损壁画修复实验下面进行真实破损壁画图像的修复实验,结果如图7所示.可以看出对于第1幅“第217窟∙金刚经变洗足”壁画修复结果中,三种比较方法在壁画头光部分均出现了不同程度的线条断裂、不连贯的问题,而本文实现了连贯性修复.第2幅“第111窟∙金刚经变之菩萨”结果中,文献[7]出现了修复伪影,文献[8]和文献[9]出现了结构修复不合理的问题.第3幅“第201窟∙观无量寿经变之听法菩萨”结果中,三种比较方法均存在错误填充和结构紊乱等问题,并存在修复残留,而本文方法修复较为彻底.可以看出对于真实壁画修复,本文方法重构取得了更好的视觉感和协调性.10.13245/j.hust.238374.F007图7真实破损壁画的修复结果对比实验3 结论提出了一种联合双编码器增强的生成对抗壁画多尺度重建深度学习模型.设计双分支联合编码器和多尺度解码器结构的生成网络,提高了壁画图像的上下文语义特征感知能力及壁画细节信息提取能力.并采用多尺度解码器进行解码重构恢复,增强了解码器的细节重建能力.通过破损敦煌壁画的修复实验结果表明:所提算法能够有效地完成修复,重构取得了更好的视觉感和协调性,在主客观评价方面均优于比较算法.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读