网刊加载中。。。

图像修复的目的是获得缺失区域的合理结构和精细纹理．现有图像修复方法主要有基于传统方法和基于深度神经网络的修复算法两类．文献[1]利用图像的相干性，搜索和复制已知区域中最匹配的部分实现修复．该方法只针对低级的图像特征，无法获得图像的整体结构．为了修复图像的整体结构，文献[2-4]提出补丁优先级填充法，或引入马尔可夫随机视野框架提高视觉质量[5-7]．这些方法仅适用于简单结构的修复，无法处理复杂的场景图像．为了弥补此不足，文献[8-9]提出基于深度卷积网络(CNN)的上下文编码器网络预测周围环境的缺失部分，可产生合理的语义结果．现有的CNN方法常无法保持局部一致性，为了获得细节逼真的全局一致性结果，文献[10]使用全局和局部上下文鉴别器进行训练，分别评估修复结果的整体和局部一致性．虽然改善了细节纹理，但是对于较大面积缺失的图像，依然很难兼顾全局结构和细节特征．结合基于示例和CNN图像修复方法的优点，文献[11]提出添加转移连接层的U-Net架构，可以得到语义合理和细节纹理良好的结果，但是由于特征图的局限性，修复大面积缺失的结构性差而且纹理模糊．综上所述，现有方法很难得到大面积缺失区域的整体结构和精细纹理．为此，本研究提出了双转移网络结构，可以有效恢复图像的整体结构和细节纹理[12-13]，且修复结果优于对比算法．1 图像修复算法1.1　模型结构基于内容损失函数和双转移操作双转移网络模型如图1所示．在U-Net中引入两个特殊的转移连接层，ΦL-lshift(I)转移连接层通过Φl(I)和ΦL-l(I)获取有关Φl(Igt)的更新估计，ΦL-l+1shift(I)转移连接层通过ΦL-l(I)和ΦL-l+1(I)获取有关Φl-1(Igt)的更新估计．令Ω为缺失区域，Ω¯为已知区域，对于每个(ΦL-l(I))y，y∈Ω，可以通过下式获得Φl(I)x在x∈Ω¯中互相关的最近邻搜索10.13245/j.hust.210714.F001图1双转移网络模型X*(y)=argmaxx∈Ω¯(ΦL-l(I))y,(Φl(I))x||(ΦL-l(I))y||2||(Φl(I))x||2，(1)式中：I为输入图片；Igt为原始图像；Φi(I)为第i层的输出特征．模型第L-l层的特征图的缺失区域的每一个点y寻找其与第l层特征图中已知区域像素点中最相似的点x*(y)，并计算两个向量之间的转移量(shift)，如图1中shift操作，最终得到shift层结果．移位定义为uy=x*(y)-y．在Shift-Net中，互相关比L1和L2范数更有效，因此最近邻搜索可以用卷积层来计算．然后更新Φl(Igt)y和Φl-1(Igt)y的估计作为编码器特征Φl(I)x和Φl-1(I)x的空间重排：(ΦL-lshift(I))y=(Φl(I))y+uy;(ΦL-l+1shift(I))y=(Φl-1(I))y+uy．如图1所示，串联卷积特征ΦL-l(I)，Φl(I)和ΦL-lshift(I)作为第(L-l+1)层的输入，串联ΦL-l+1(I)，Φl-1(I)和ΦL-l+1shift(I)作为第(L-l+2)层的输入，形成了双转移网络．提出网络的原理如下：a. 基于示例的修复在像素或补丁上操作，提出的双转移操作在深度编码器特征域上执行，在训练数据中进行端到端学习；b. 基于示例的修复通过解决优化问题或以特定顺序获得位移向量，双转移操作在ΦL-l(I)和ΦL-l+1(I)的指导下进行，所有移位向量都可以并行计算；c. 基于示例的修复对补丁处理顺序和全局图像一致性，不能保留复杂的图像结构和语义，对于大规模数据学习，双转移操作中的ΦL-l(I)和ΦL-l+1(I)能更好地捕获全局语义；d. 基于示例的修复方法获得位移矢量后，将其作为已知区域的位移表示，双转移操作取ΦL-l(I)，Φl(I)和ΦL-lshift(I)作为(L-l+1)层的输入，ΦL-l+1(I)，ΦL-l(I)和ΦL-l+1shift(I)被串联作为第(L-l+2)层的输入，采用数据驱动的方式学习合适的图像修复模型，从训练数据中端到端地学习所有模型参数．提出的双转移网络结构融合了基于示例和基于CNN的优点，能够提取更大区域中丰富的特征，使修复结果的细节更精细．1.2　损失函数为了提高网络的高级纹理细节捕获能力，提出基于图像高级特征的内容损失函数，先提取解码器特征和原图缺失区域编码器的高级特征表示，再计算均方误差．如图1所示，提出的网络结构包含编码器和一个对称解码器，编码器逐渐减少空间维度，解码器逐步修复物体的细节和空间维度．编码器和解码器之间存在跳跃连接，将不同特征层的预测结合起来，在全局预测的同时进行局部预测，使解码器能更好地修复缺失区域．给定L层的U-Net，Φl(I)和ΦL-l(I)分别为l层编码器和L-l层解码器的特征．期望Φl(I)和ΦL-l(I)传达Φl(Igt)中的几乎所有信息．对于任何位置y∈Ω，有(Φl(I))y≈0，因此(ΦL-l(I))y≈0应该传达Φl(Igt)y的等效信息．提出用内容损失函数表示ΦL-l(I)y和Φl(Igt)y之间的关系，Lcontent=12∑y∈Ω[(ΦL-l(I))y-(Φl(Igt))y]2．(ΦL-l+1(I))y和Φl-1(Igt)y之间的关系则为Lcontent=12∑y∈Ω[(ΦL-l+1(I))y-(Φl-1(Igt))y]2．由于对于任何的x∈Ω¯，Φl(I)x≈Φl(Igt)x，有Φl-1(I)x≈(Φl-1(Igt))x，因此仅在y∈Ω上定义内容损失，以使(ΦL-l(I))y≈(Φl(Igt))y，ΦL-l+1(I)y≈ (Φl-1(Igt))y．合并Φl(I)和ΦL-l(I)可以近似获得Φl(Igt)中的所有信息，合并Φl-1(I)和ΦL-l+1(I)可以近似获得Φl-1(Igt)中的所有信息．用Φ(I;W)表示双转移网络的输出，其中W为须学习的模型参数．除了内容损失，还须训练L1损失和对抗性损失．L1损失定义为L𝓁1=||Φ(I;W)-Igt||1．通过L𝓁1损失函数约束修复结果近似于真实图像．用Pdata(Igt)表示真实图像的分布，用Pmiss(I)表示输入图像的分布，则对抗性损失定义为Ladv=minWmaxDEIgt-Pdata(Igt)[logD(Igt)]+EI-Pdata(I)[log(1-D(Φ(I;W)))],式中D(∙)为鉴别器，用于根据分布Pdata(Igt)预测图像的概率．网络总体损失定义为L=L𝓁1+λadvLadv+λcontentLcontent，式中λadv和λcontent为权衡参数．2 实验结果与分析在Places365-Standard[12]两个场景数据集(Butte和outdoor)上评估提出方法的有效性并与Patch Match[1]，Context Encoder[8]，Globally and Locally[10]和Shift-Net[11]算法对比．选择两个场景类，每个类别有5 000个训练图像、900个测试图像和100个验证图像．修复实验结果对比见图2~4．10.13245/j.hust.210714.F002图2修复实验结果对比110.13245/j.hust.210714.F003图3修复实验结果对比210.13245/j.hust.210714.F004图4修复实验结果对比3图2(a)中缺失部分和周围区域的结构和纹理相似度高．图2(b)结构严重畸变．图2(c)结构混乱，包含明显的掩码痕迹．图2(d)结构明显但有明显伪影．图2(e)结构合理但是细节纹理极其模糊．图2(f)整体结构和细节纹理细节与原图一致性高．图3(a)中缺失部分涵盖了天空、巨石、草地三部分．图3(b)出现了纹理结构缺失．图3(c)细节过于模糊，边缘不连续．图3(d)出现了错误纹理结构延展．图3(e)结构衔接自然，但是出现了部分区域纹理错误．图3(f)破损区域与原始图像有机融为一体，图像协调自然．图4(a)图像中缺失部分色调一致，不易区分，包含丰富的纹理细节．Patch Match修复的结构混乱，出现了错误的纹理匹配(图4(b))．Context Encoderd的修复结果一定程度上可补全缺失区域，但与周围区域的局部一致性差(图4(c))．Globally and Locally修复的图像虽然保持了局部一致性，但纹理模糊(图4(d))．Shift-Net修复的结构合理但是边缘处有模糊，不能很好地分辨山川和水中倒影(图4(e))．提出算法修复的图像结构合理，色彩统一，能很好地识别出山川及水中的倒影(图4(f))．为了客观比较几种修复方法，计算了几种方法的修复结果的峰值信噪比(R)和结构相似度(S)．随机选择50张验证集图片，计算峰值信噪比和结构相似性数值的平均值．对于输入两张图像x和y，其结构相似性可以表示为S=(2vxvy+c1)(2σxy+c2)(vx2+vy2+c1)(σx2+σy2+c2)，式中：vx和vy分别为图像x和y的均值；σx和σy分别为图像x和y的标准差；σx2和σy2分别表示图像x和y的方差；σxy为图像x和y的协方差；c1，c2和c3为常数．峰值信噪比表示为R=10lg(2n-1)2M，式中M为图像x和y的均方误差．修复算法的定量评估如表1所示．本文方法修复结果的R和S值均高于对比算法，说明本文修复的图像和原图更接近．10.13245/j.hust.210714.T001表1修复算法的定量评估算法RSPatch Match20.570.80Context Encoder24.170.84Globally & Locally25.500.85Shift Net26.270.88本文27.220.903 结语提出了一种双转移网络结构的图像修复网络，在U-Net架构上引入两个特殊的转移连接层，增大特征区域；引入内容损失提取特征层的高级特征以增强已知区域中的编码特征与缺失区域中的解码特征之间的关系．实验结果表明：提出算法能有效生成整体语义合理、细节清晰的图像，主客观指标优于对比算法．