随着建筑工程自动化的发展,工程造价票据的自动化识别及台账录入,已经成为提高建筑企业经营效率的重要手段[1]。研究如何提高票据检测识别系统在印制模糊、手写迥异等复杂背景下的票据特征提取能力具有重要意义。程德强等[2]选用了不同尺度增加特征信息量和利用率的方法,达到了获取较高视觉效果的目的。杨夏宁等[3]引入对称式分层结构,增加残差结构连接密度等方法,实现了适应复杂场景下图像超分辨率重构。毕晓君等[4]将密集剩余残差块作为特征提取模块,采用沃瑟斯坦式提高模型泛化能力,有效提高了图像细节的真实性和重构效果。文章使用SRGAN网络实现对低分辨率图像的超分辨率重构,能够有效解决工程造价票据因印制设备个体差异、不同经手人员书写动力定型差异化等因素造成的票据清晰度低和细节缺失的问题,提高工程票据自动化识别系统的效率。1SRGAN算法基本原理1.1基于GAN的超分辨率网络通过将SRResNet网络作为生成网络,引入生成对抗网络(GAN)产生的图像超分辨率重建算法(SRGAN),由生成网络和判别网络构成[5],目标函数为:minθGmaxθDEIHR~ptrainIHRlogDθDIHR+EILR~pGILRlog1-DθDGθGIHR (1)式中:DθD——判别网络;GθG——生成网络;IHR——真实的票据高分辨率图片;ILR——IHR对应的低分辨率版本;IHR~ptrainIHR——从票据数据集中对IHR进行采样;DθDIHR——IHR是真实图片概率;ILR~pGILR——根据IHR随机生成一张对应的ILR;GθGILR——通过生成网络生成超分辨率重构图片;DθDGθGILR——生成的图片是真实图片的概率。利用min-max优化模型[6]对目标函数进行训练,通过固定生成网络参数训练判别网络和训练生成网络,每次循环迭代都会促使生成网络和判别网络互相对抗和进化,直至生成模型GθG。SRGAN算法引入了感知损失函数lSR。lSR=lVGGSR+10-3lGenSR (2)式中:lVGGSR——内容损失;lGenSR——对抗损失。内容损失利用感知相似性原理,将重构图片和目标图片输入VGG19模型,得到特征图的欧式距离[7],达到重构细节,提升视觉感知的目的。lVGG/i.jSR=1Wi,jHi,j∑x=1Wi,j∑y=1Hi,jΦi,jIHRx,y-Φi,jGθGILRx,y2 (3)式中:Wi,j、Hi,j——VGG19网络中各自特征图的维度;Φi,j——第i个最大池化层前的第j个卷积层(经过激活层后)获得的特征图。表示达到生成更接近真实图片,提高通过判别网络输出预测为真实图片的概率:lGenSR=∑n=1N-logDθDGθGILR (4)为获得更好的梯度行为,对判别网络将生成的图片认为是真实图片的概率DθDGθGILR的对数取负值,即最小化-logDθDGθGILR。生成网络的作用是由低分辨率图片ILR生成超分辨率重构图片ISR。SRGAN采用添加批标准化层和建立跳跃连接方式,复原 超分辨率图片信息。将低分辨率票据图片输入生成网络后,经过一个卷积核尺寸为9×9、通道数为64、步长为1的卷积层和PReLU激活函数层。再经过一个残差网络,每个残差模块包含2个卷积核尺寸为3×3、通道数为64、步长为1的卷积层。其中,第一个卷积层后连接批标准化和PReLU激活函数,第二个卷积层后连接批标准化和逐点相加层,多个残差模块进行跳跃连接完成特征提取。然后进入一个卷积核尺寸为3×3、通道数为64、步长为1的卷积层以及批标准化处理,同时将第一个残差模块之前的参数与当前参数连接。接着连续经过两个卷积核尺寸为3×3、通道数为256、步长为1的卷积层,将输入图片尺寸扩大至2倍的上采样模块(PixelShuffler×2)和PReLU激活函数。再经过一个卷积核尺寸为9×9、通道数为3、步长为1的卷积层调整图片的通道数。最终输出一张将输入图片尺寸放大4倍的超分辨率重构票据图片,提升了分辨率。与生成网络不同,判别网络是判断输入票据图片的真实性。首先,输入一张真实的高分辨率票据图片或生成的超分辨率重构票据图片;其次,经过一个卷积核尺寸为3×3、通道数为64、步长为1的卷积层和Leaky ReLU激活函数层,连接一个标准的VGG网络;特征个数随着网络层数的增加而增加,特征尺寸持续减小至输入图片的1/16,从而降低图片分辨率;再次,经过一个全连接层和Leaky ReLU激活函数;最后,经过一个全连接层和Sigmoid激活函数层得到预测为真实票据图片的概率并输出判定结果。1.2生成网络和判别网络的损失函数1.2.1生成网络的损失函数为生成对抗模型,使用mini-batch方法,即从工程造价票据训练数据集中随机选出一定数量的数据,优化生成网络参数θG。θG=W1∶L;b1∶L (5)θ∧G=argminθG1N∑n=1NlSRGθGInLR,InHR (6)式中:GθGInLR——生成网络输出的超分辨率重构票据图片,即上文ISR;InHR——真实的高分辨率图片数据集;InLR——高分辨率图片对应的低分辨率副本图片数据集。n=1,2,…,N。此外,当损失函数最小时判别网络无法成功识别生成的票据图片的真假。由式(3)可知,可以通过VGG19网络计算超分辨率图片(SR)与高分辨率图片(HR)特征图之间的损失。使用式(4)可以避免因判别网络训练效果较好导致生成网络出现梯度消失的问题,达到生成网络生成的票据图片接近真实票据图片,实现提高输出预测为真实票据图片概率的目的。1.2.2判别网络的损失函数SRGAN所用判别网络的作用是判断输入的工程造价票据图片是否真实,使用的训练集为真实的工程造价票据高分辨率图片和由生成网络生成的超分辨率重构票据图片GθGILR。θG∧=EpIHRlogDθDILR+EqILRlog1-DθDGθGILR (7)式中:DθDILR——判别网络评估真实票据图片的概率;DθDGθGILR——判别网络将生成的图片认为是真实图片的概率;EpIHRlogDθDILR——采样自真实票据的输入数据。最大化DθDILR令判别结果趋近于1,则有logDθDILR;最小化DθDGθGILR令判别结果趋近于0,即1-DθDGθGILR的值尽可能趋近于1时,有log1-DθDGθGILR趋近于0。因此,训练判别网络需要保证生成网络不变,输入票据图片经过判别网络后将输出一个得分,得分越趋近于1则判别为真实票据,反之为非真实票据。判别网络可以较准确地辨别由生成网络生成的工程造价票据图片。2试验及结果2.1试验设置为了实现网络的迭代训练,构建了由300张工程总造价票据构成的数据集,对网络进行了200次的迭代训练,得到了相应的训练和预测结果。使用VGG19网络获得了VGG loss,引入动态学习率使网络在拟合过程中保持较好的活性,将初始学习率和最大学习率设置为0.000 2和0.002 0。为了实现目标函数的快速拟合,引入了余弦退火(COS)算法。考虑文章构建的工程票据数据集样本数量规模较大,引入适应性矩估计(Adam)优化算法,将动量参数(momentum)设置为0.9。2.2试验结果损失函数随迭代次数的变化情况如图1所示。10.19301/j.cnki.zncs.2023.10.033.F001图1损失函数随迭代次数的变化情况由图1可知,在网络训练的200次迭代过程中,网络的全局损失函数均呈现下降趋势。特别是判别网络在后期下降趋势明显,表明使用的COS算法及Adam优化器能够使网络得到快速拟合。此外,生成网络的全局结构相似性指标随迭代次数线性递增,表明生成网络生成的超分辨率图片与其对应的高分辨率图片的相似性随网络迭代次数而增加,并在100次后趋于稳定,这与图中生成网络的全局损失变化基本一致,验证了试验的真实性。票据图片经超分辨率重构前后图像对比如图2所示。10.19301/j.cnki.zncs.2023.10.033.F002图2票据图片超分辨率重构前后图像对比由图2可知,以机打的备注信息为例,通过对比可以观察到图中数字的清晰度在经过超分辨率重构后,图像边缘更清晰,色泽饱和度更高。工程造价票据图片在分辨率提升4倍后,仍能保持良好的细节视觉感知度。字体在经过超分辨率重构后,字体线条更锐利且与票据背景边界分离清晰,表明SRGAN网络能够提高票据图片的清晰度和细节,实现文字识别系统对图像特征的有效提取。票据图片上采样4倍前后对比效果如图3所示。10.19301/j.cnki.zncs.2023.10.033.F003图3票据图片上采样4倍前后对比效果图3(a)中机打文字部分字迹模糊,肉眼辨识较为困难,为后续的工程造价信息自动化读取带来挑战。图3(b)中相同位置的文字较清晰,表明无论是票据模板本身的印制文字,还是机打的工程造价文字信息,票据图片在经过SRGAN网络预测后,均能够有效地提升图像素质。3结语文章利用SRGAN超分辨率网络能够实现低分辨率图像的超分辨率重构,将其应用于提高低分辨率工程造价票据图片的分辨率及图片细节的肉眼感知度。结果表明,SRGAN能够有效改善低分辨率工程造价票据在印制文字、机打文字及手写文字方面的清晰度,为票据特征识别提供有效的预处理方法。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读