运动模糊是拍摄时最常见的一种图像退化现象.相机的抖动、场景中物体的高速移动都会造成图像中出现伪影,使图像呈现不同程度的模糊,丢失大量的细节信息.图像质量的大幅衰退不仅会使图像产生严重的失真也会对接下来的视觉任务产生巨大的影响,因此去模糊一直是低级视觉领域中的热点问题.根据图像模糊核是否已知可以将图像去模糊问题分为非盲去模糊和盲去模糊两类.在深度学习成功之前,传统的去模糊方法使用各种约束或正则化来估计模糊核.例如假定图像模糊类型为均匀模糊并且忽略相机的平面旋转[1],通过正则先验和梯度先验恢复图像[2],或者假定非均匀模糊图像具有局部线性[3]等.然而在真实动态场景下,模糊核往往并不唯一,利用先验知识恢复清晰图像需要大量的约束条件,限制较大,因此基于神经网络的图像盲去模糊算法具有重要的研究价值和现实意义.近年来,研究者们相继提出了多种消除由摄像机平移或物体运动引起的空间变化模糊的方法.Gao等[4]提出了通用有效的参数选择性共享方案,使用具有非线性转换功能的嵌套跳跃连接结构,替代堆叠的卷积层或残差块,多阶段渐进恢复图像.Brehm等[5]提出了一种将图像的高分辨率处理与多分辨率特征聚合方法相结合的网络模型.Zhang等[6]提出了一个深度堆叠多层次分块网络,在提取更细粒度特征的同时能够满足图像恢复的实时性要求.在单幅图像去模糊中,“由粗到细”(Coarse-to-fine)[7-10]的方案,在传统的基于优化的方法和最近的基于神经网络的方法中都取得了成功.该方案通过构建图像金字塔提取多尺度的图像信息,以不同的分辨率逐步使图像恢复清晰.然而,为了有效利用多尺度信息,往往须要在模型中引入跨阶段特征融合机制,这大幅增加了网络的复杂性.为了解决这一问题,本研究提出了一种并联卷积神经网络模型.该模型结合多尺度网络的特点,分别由两条并行支路实现,避免不同尺度支路之间复杂的信息传递.所提出的模型核心支路是通过改进级联编解码器,提取多尺度语义信息,在编码器路径中引入并行空洞卷积块和通道注意模块,实现对图像特征的筛选.并行支路采用基于并联空洞卷积模块的改进递归残差块,该模块在图像原始分辨率上进行特征提取,重点关注图像中的结构信息(如边缘、纹理、形状等).1 方法及模型1.1 网络主体架构在图像去模糊任务中,从输入图像中提取丰富的语义信息和空间细节信息是恢复清晰图像的关键.缺失语义信息会直接导致图像失真,图像去模糊不明显;而空间信息的缺失会使恢复后的图像损失大量细节,产生视觉伪影、边缘锯齿化等图像缺陷.为了解决这一问题,提出了一种端到端的并联卷积神经网络模型,其总体网络架构如图1所示.10.13245/j.hust.238492.F001图1并联卷积神经网络模型模糊图像首先经过一个尺寸为3×3的卷积层,得到的特征图作为并行网络的输入.级联编解码器支路由3个改进的U-Net模块组成,采用非对称的网络结构设计来实现编解码器编码侧和解码侧不同的任务要求.编码器侧由3个卷积模块组成,每个尺度下包括一个并行空洞卷积块和一个通道注意模块;解码器侧由3个上采样模块组成,逐步恢复编码过程中损失的空间细节信息.同一编解码器两侧相同尺寸的特征图之间加入跳跃连接,实现低层特征与高层特征的融合.不同编解码器之间亦引入跳跃连接,保证信息从网络浅层流动到网络深处.最后,级联编解码器的输出经过卷积层激活后作为这一支路的输出.将初始模糊图像输入表示为IB,编码器的个数将支路分为N个阶段.Fij和Cij分别为第i阶段第j尺度的空洞卷积块和通道注意模块,Uij为第i阶段第j尺度的双线性上采样模块.Xij和Yi分别为Cij和Uij的输出.并行支路的输入为Y0=H(IB),H为卷积层,则级联编解码器支路第1阶段编解码器的输出为[X11,X22,X33,Y1],具体为:X11=C11(F11(Y0));X12=C12(F12(X11));X13=C13(F13(X12));Y1=U11(U12(U13(X13)+X12)+X11).第i阶段编解码器的输出为[Xi1,Xi2,Xi3,Yi],具体为:Xij=Cij(Fij(Yi-1+X(i-1)j));Yi=Ui1(Ui2(Ui3(Xi3)+Xi2)+Xi1).当i=1时,X(i-1)j=0,i,j∈{1,2,3}.递归残差组支路由10个改进残差块组成,由于支路中没有采用池化和上采样操作,因此网络可以保留图像大部分的空间细节信息.与编解码器支路提取的上下文信息相结合,为图像恢复任务提供充足的特征,可以有效改善图像恢复质量.通过以下损失函数来优化神经网络模型,L=Lchar(ID,IS)+λLedge(ID,IS),式中:ID为预测的清晰图像;IS为真实清晰图像;参数λ控制两个损失项的相对重要性,经验性的设置为0.05[11];Ledge为边缘损失函数,即Ledge=Δ(ID)-Δ(IS)2+ε21/2,其中,Δ表示拉普拉斯算子,Lchar为Charbonnier损失函数[10],即Lchar=ID-IS2+ε21/2,经验性的将参数ε设置为1×10-3.1.2 空洞卷积块空洞卷积是标准卷积的一种特殊形式,通过在卷积核中的每个像素之间插入零(空洞)来增加核的有效接受域.其目的是防止池化和上采样操作所造成的图像内部数据结构与空间细节信息的丢失,并减少了计算成本.为了有效利用图像多尺度的信息,保持特征图的尺寸不变,神经网络模型常采用级联空洞卷积[12]或并联空洞卷积[13]的形式.核心支路在图像原始分辨率上进行处理,使用高效空间金字塔模块(efficient spatial pyramid module,ESPM)取代卷积层.ESPM应用卷积分解的思想,结合残差结构和Inception结构,将一个标准卷积分解为逐点卷积(pointwise convolution)和塔式空洞卷积模块两部分(见图2).ESPM中的逐点卷积采用1×1卷积将高维特征映射到低维空间.通过并行空洞卷积对低维特征图重新采样,每个扩展卷积核都学习不同感受野的权重,扩张率αAR分别为1,2,3和4,⊕表示元素乘积运算,©表示特征融合.最后采用并联方式完成不同尺度特征图的融合,形成了类似于空间金字塔的空洞卷积块结构,可在不损失空间细节信息情况下提取多尺度特征.10.13245/j.hust.238492.F002图2高效空间金字塔模块当空洞卷积的输出串联起来时,ESPM将获得一个大的有效感受野,但引入了不必要的棋盘或网格效应.为解决ESPM中网格伪影问题,采用分层特征融合策略(hierarchical feature fusion,HFF)[13],将不同扩张率空洞卷积核提取的特征图逐级叠加,与现有方法相比,该解决方案简单有效,没有增加ESPM的复杂性.1.3 基于ESPM残差网络与普通网络结构相比,使用残差网络(residual network,ResNet)可以实现更深层次的网络模型,缓解因网络层数过深而导致的梯度消失和网络退化问题.传统残差块主要包含卷积层(Convolution Layer)、批量标准化(batch normalization,BN)和修正线性单元(rectified linear units,ReLU),通过跳跃连接(skip connection)改善信息流传递.通过改进残差块,并在此基础上移除批量标准化和求和操作之后的ReLU层,将卷积层替换为ESPM模块.实验表明:批量标准化层可以起到正则化的作用,提高网络性能,但相对应的计算损耗较大,极大的延长了模型训练时间;去掉网络输出之前的修正线性单元可以有效提高训练时的收敛速度.图3分别给出了传统残差块和本文改进残差块结构.10.13245/j.hust.238492.F003图3传统ResBlock、本文ResBlock结构示意图由于每个ESPM都使用了跳跃连接结构,因此改进之后的残差块在功能上类似于二阶嵌套跳跃连接结构[4],其输入输出关系为高阶残差函数,具有复杂的表示能力,可以更好地解决整个网络的梯度消失问题,优化信息流的传递.1.4 通道注意模块近年来,注意力机制[11,14]已经成为神经网络设计的主要趋势,它可以模拟人类阅读、听说等任务中的注意力行为,重点关注目标特征,抑制其他无用信息,在自然语言处理、图像识别和超分辨率重建等任务中表现优异.通道注意模块(channel attention module,CAM)是众多注意力机制的一种,能获取特征图在通道维度上的相互依赖性,对图像特征进行筛选.首先,CAM对输入特征Tin进行重新编码(依次进行3×3卷积、PRelu层和3×3卷积),初步提取特征.然后,对特征Ts进行全局平均池化(global average pooling,GAP),保持通道数不变,提取每个特征图的全局上下文信息.通过对特征进行激活,提取通道间的相互依赖关系.激活操作由两个卷积层完成,每个卷积层后分别连接一个PRelu和Sigmoid激活函数,得到注意力特征图d.最后,将输出d通过点乘方式作用于原特征图实现信息的筛选,得到注意后的特征图Tout.模块结构如图4所示.10.13245/j.hust.238492.F004图4通道注意模块1.5 改进编解码器网络编码器-解码器网络(encoder-decoder)[8,15]是一种具有对称CNN结构的训练模型,由编码器和解码器两部分组成.编码器路径主要由多个卷积层和池化层组成,将输入数据逐步转换为空间尺寸更小、通道更多的特征图.解码器路径接收编码器传递的信息,恢复输入数据对应的形状,这些功能主要由多个上采样层和卷积层实现.而对应特征图之间的跳跃连接被广泛用于不同尺度信息的组合.通过编解码器网络可以产生较大的感受域,这对去除大运动模糊至关重要.提出了级联模块U-Nets(cascading modular U-Nets,CMU-Nets)来提取图像的上下文信息.CMU-Nets是传统U-Nets[14]的延伸,主要从两个方面进行改进.首先,改进传统U-Nets的编码器路径,每个阶段由一个并联空洞卷积块和一个通道注意模块组成,对特征进行筛选,提取上下文特征.在解码器路径中,采用双线性上采样取代卷积层,可以有效减缓棋盘效应;其次,是堆叠改进U-Net网络以提取丰富的语义信息,引入模块间的远跳连接,将信息流传递到网络的深处,可以减缓甚至消除梯度消失现象.2 试验及结果分析2.1 试验设置网络模型使用PyTorch框架实现,实验硬件配置为:NVIDIA GeForce RTX 2060 SUPER GPU和Intel Core i7-9700F CPU@3 GHz.使用GoPro[7]数据集和Kohler[16]数据集对所提出的模型进行训练和验证,使用Adam算法优化网络模型,动量衰减指数β1=0.9,β2=0.999,采用梯度衰减策略将学习率α从初始值2×10-4降至1×10-6.训练时总迭代次数为2 000,批处理个数为6.为了训练本文网络,随机裁剪图像到128×128像素大小作为输入,采用随机水平翻转和垂直翻转的数据增强方法增加数据量.由于提出的网络属于全卷积神经网络模型,因此在GPU性能允许情况下可处理任意大小图像.2.2 GoPro数据集实验结果分析GoPro数据集由分辨率为720×1 280的3 214对模糊图像和清晰图像组成.文献[7]使用GOPRO4 HERO Black相机拍摄了240帧/s的视频,然后对连续的7~13帧取平均获得模糊程度不一的图像,而模糊图像对应的清晰图像定义为处于中间位置的那一帧图像.最终一共生成了3 214对模糊-清晰图像,其中训练集图像2 103对,测试集图像 1 111对,模糊类型为非均匀模糊.为了评价图像恢复质量,通过主观和客观两种方式进行综合评估.客观评价指标使用峰值信噪比(PSNR)和结构相似性(SSIM)两个指标对算法进行评测.PSNR反映图像之间的像素级相似程度,而SSIM从图像组成的角度反映场景中物体结构的属性,两者均是值越大图像越相似.将本文方法与文献[7]、文献[17]、文献[18]和文献[19]的方法进行对比,实验结果如表1所示,可见提出的图像去模糊算法在GoPro数据集上取得了最高的SSIM值,PSNR值与文献[7]的相近,相较于其他方法获得了较大的性能指标增益.10.13245/j.hust.238492.T001表1GoPro数据集下评价结果方法PSNR/dBSSIM文献[17]24.640.843文献[18]28.550.873文献[19]28.700.858文献[7]29.080.913本文29.070.9202.3 Kohler数据集试验结果分析Kohler数据集通过记录和分析真实相机运动来模仿真实的模糊图像,是评价图像盲去模糊算法的经典数据集.该数据集由4组不同图像组成,每组图像由12种不同类型的模糊核在同一清晰图像上卷积而成,得到48幅模糊图像,尺寸为800×800,每个模糊图像对应约200张清晰图像,模糊类型为均匀模糊.Kohler数据集使用特殊的评价方法为:将200张左右的清晰图像逐个与复原的图像进行计算,从得到的200组结果中选取PSNR和SSIM的最大值作为评价指标.由表2可见:本文算法在SSIM值上表现最优,但在在PSNR评分上表现稍差.说明本文算法保留了大量空间细节特征,对亮度、对比度和结构等图像组成内容更加注重.PSNR值不如预期的原因可能是因为编解码器支路过于专注真实场景中的运动模糊,对人工合成的均匀模糊反而敏感性不高.10.13245/j.hust.238492.T002表2Kohler数据集下评价结果方法PSNR/dBSSIM文献[17]25.220.774文献[18]26.390.813文献[19]26.100.816文献[7]26.470.808本文24.450.856图5(a)~(d)分别是模糊图像、文献[19]方法复原的图像、本文方法去模糊结果以及清晰图像.可以看出:本文算法恢复的图像在视觉上更加真实,在边缘等细节上的处理更好. 10.13245/j.hust.238492.F005图5不同算法去模糊性能比较2.4 消融实验为了验证本文模型中各模块的有效性,分别对改进残差块、空洞卷积、通道注意模块进行消融实验.消融实验中所设计的网络分别使用GoPro数据集重新训练并验证,结果如表3所示,网络1,2,3和4的PSNR分别为28.55,28.89,27.32,29.07 dB.可以看出:改进残差块相较于传统残差块可以取得0.52 dB的性能增益.另外,空洞卷积和通道注意模块都对本文模型起到了不同程度的作用.10.13245/j.hust.238492.T003表3消融实验结果模块网络1网络2网络3网络4传统残差块√———改进残差块—√√√空洞卷积√—√√通道注意模块√√—√注:√表示网络中含有该模块;—表示网络不含该模块.3 结语实验结果表明:本文网络可以有效恢复场景中的运动模糊,在PSNR和SSIM客观指标上的结果表明本文的方法在恢复图像的结构特征方面具有明显的优势.处理后的图像在视觉上也取得了良好的效果,恢复的图像更加真实自然.未来研究重点在于提高模型的普适性,达到对各种模糊类型图片都具有很好的恢复效果.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读