网刊加载中。。。

数字图像在采集、传输和压缩过程中可能会发生不同的畸变，导致视觉质量不理想或产生一定程度的干扰，因此预测数字图像质量在许多应用中具有至关重要的作用．无须人为参与、凭借机器和算法自动评估图像质量的客观评价一直是该领域的研究热点[1-2]，其中，不限定失真场景的通用型算法被称为盲图像质量评价(blind image quality assessment，BIQA)，因为其无须借助参考信息，所以在实际应用中更具有吸引力．早期的BIQA主要集中于两种变换域，即离散小波变换域和离散余弦变换域．此类方法假设失真的出现会改变自然图像遵守的统计规律，通常都是假设服从高斯分布，从而利用不同域的统计特征偏离程度来描述图像．文献[3]基于低阶高斯导数算子提出了一种新颖的质量预测模型，即联合梯度幅值和高斯拉普拉斯响应两种局部对比特征．这些基于先验知识进行人工设计的特性仅仅是围绕已知领域，对多类型失真的泛化能力往往不足，且关注的只是局部特征，对图像的整体表征并不完全．鉴于此，研究者们逐渐致力于特征自动学习的研究．文献[4-5]以无监督的方式构造码本，通过求解在局部描述子上的编码系数以实现特征提取．虽然这类方法脱离了人工设计特征，但关注的仍然只是图像块等局部特征．随着深度学习的迅速发展，涌现了大量基于卷积神经网络(convolutional neural network，CNN)的特征提取和质量预测端到端模型．文献[6]利用浅层CNN，将大量图像块作为输入，直接借用整幅图像的主观值进行训练，预测时对所有图像块的得分取平均作为图像整体评分．文献[7]基于图像整体与图像局部的不同，改用FR-IQA计算图像块分数，实现了深度CNN的训练．文献[8]摒弃了图像块的做法，结合图像分类任务，搭建了针对整个图像水平的预测模型．在基于CNN的相关算法中，不论是着眼于图像块还是图像整体，尽管取得了令人满意的效果，但是如何将局部信息和整体信息相结合，仍然是值得探究的方向．受到基于码本特征和CNN特征的IQA算法的启发，本研究结合两者的优势，提出一种基于多层级信息汇聚的质量评价模型．首先从图像局部信息出发，提取原始图像块作为局部描述子，同时从图像整体出发，利用CNN网络获取具备高级语义信息的全局描述子；然后通过稀疏编码分别训练得到局部描述子码本和全局描述子码本；最后汇聚图像的局部稀疏表征和全局稀疏表征，并通过支持向量回归模型完成对图像质量的预测．在标准数据库LIVE[9]，CSIQ[10]，TID2013[11]和Waterloo[12]上进行实验，结果表明本文算法整体性能优于其他经典算法．1 特征描述子图1为本文算法流程图．10.13245/j.hust.210808.F001图1本文算法流程图1.1　辅助数据集构建为了获取完备的描述子，需要有大规模的数据集作为支撑．文献[13]表明针对JPEG压缩、JPEG2000压缩、高斯模糊、白噪声、粉红噪声、对比度拉伸、带有颜色抖动的图像量化、过曝光、欠曝光等9类失真设计的样本集，具备足够的泛化能力，能很好地推广到其他未见的失真上．为了保证与实验目标数据集所含图像内容的独立性，选用Waterloo数据库作为图像来源．该库包含4 744幅高质量自然图像，涉及人、动物、植物、风景、城市、静物和交通等7类真实世界常见的内容．对于每幅图像，首先调整到224×224×3分辨率，以保证图像分辨率的一致性．对于每类失真，利用Matlab平台合成视觉可分辨的5个等级失真图像．加上原始无失真图像，共有46类失真场景．最终能构建出一个含有2.182 24×105幅图像的样本集D={Ii|i=1,2,⋯,2.182 24×105}，其中Ii为第i幅图像．1.2　局部描述子为了减少人为因素的参与和干扰，直接提取原始图像块用于构建局部描述子．假定输入图像I取自于样本集D，随机在I的灰度图上(克服色彩变化的影响)提取5个7×7的图像块(尺寸参照文献[4])，可将其平铺成维度为49的一维向量p．汇聚样本集D中所有图像上提取的图像块，可得到局部描述子集合L={ptt=1,2,⋯,1.091 12×106}，其中pt为第t个局部描述子．1.3　全局描述子与局部描述子相似，为了避免人工提取，考虑用已经预训练好的经典网络作为基网络，提取全局描述子．在目标识别及图像质量评价领域，已经证明了CNN网络对图像内容和失真类型的表征能力．而且，对于高分辨率的输入图像，CNN可通过卷积-池化循环操作，对原始数据进行降维，同时获取丰富有效的高级语义信息．鉴于此，采用CNN收集图像的高级语义信息作为全局信息描述子．经典的残差网络在平衡模型复杂度和特征表达能力方面具有极为优异的性能，因此选用ResNet-50[14]作为全局信息描述子的提取器．假定输入图像I取自于样本集D，经过ResNet-50最后卷积层的输出尺寸为7×7×2 048．对输出结果第3维(通道属性)求平均并平铺为一列，可得到一个49维的列向量．汇聚样本集D中所有图像在上述网络的输出，可得到全局描述子集合G={gi=1,2,⋯,2.182 24×105}，其中gi为第i个全局描述子．1.4　描述子去差异化在数据中常存在奇异样本数据，奇异样本数据的存在可能导致学习能力较差．为了避免出现这种情况及方便后面的数据处理，同时加快模型学习速度，有必要进行描述子归一化．首先，对于描述子集L和G(统一表述为V)，每个列向量(统一表述为v)都通过减去自身平均值，再除以自身元素标准差的方式来标准化．此外，执行零成分分析(zero component analysis，ZCA)对新得到的列向量v˜进行白化达到去相关性的目的，这将得到新的描述子矩阵L¯和G¯(统一表述为V¯)．所用到的计算过程可表示为v˜=(v-μ)/σ2+10；V¯=ZCA(V˜)，式中：μ和σ2为向量v的均值和方差；10为防止分母为0而设置的常数．2 质量评估模型2.1　稀疏表征在上述工作中构建的大规模描述子集基础上，可以用稀疏编码提炼出一个超完备字典．为了实现这一目标，可以通过求解稀疏优化问题实现，即minT,C||C||1;s.t. ||X-TC||22≤ξ，(1)式中：X为输入图像的描述子形式；T为稀疏编码字典；C为稀疏编码系数；ξ为重建误差上限．假定H表示描述子的维度，M表示字典基的个数，r表示输入图像的描述子个数，式(1)中变量可表述为X∈RH×r，T∈RH×M，C∈RM×r．根据文献[15]，式(1)的优化问题求解过程是迭代进行的，也即固定稀疏编码系数C，求解关于稀疏编码字典T的凸优化问题；固定稀疏编码字典T，求解关于稀疏编码系数C的凸优化问题．当固定稀疏编码系数C时，问题转化为具有二次约束的最小二乘问题，可表示为：minT||X-TC||22;s.t. ||tm||22≤1 (m∈{1,2,⋯,M}), (2)式中tm为字典T的第m列．当固定稀疏编码字典T时，问题转化为对每个系数向量cr的单独寻优，可表示为mincr||xr-Tcr||22+τ|cr|，(3)式中：xr和cr分别为X和C的第r列；τ为平衡重建误差项和稀疏惩罚项的常量．根据文献[16]，式(2)可由拉格朗日对偶算法求解，式(3)可由特征符号搜索算法求解．令T=L¯或T=G¯，可分别求得图像的局部描述子字典TL和全局描述子字典TG．对于一幅测试图像Itest，假定从该图像提取r个不重叠的局部描述子，即L¯test={p¯1,p¯2,⋯,p¯r}；同时可提取得到全局描述子G¯test=g¯1．根据式(3)，令X=Itest，应用局部描述子字典TL，可由特征符号搜索算法求得局部特征稀疏系数CL∈RML×r；同理可得全局特征稀疏系数CG∈RMG×1，其中ML和MG分别为局部和全局码本原子数．为了联合局部特征和全局特征，有必要针对CL作进一步处理，去除不同图像含有不同数量图像块带来的干扰，且降低因大量图像块带来的维度灾难(对于后续的质量预测模型而言)．在基于学习的特征降维中，最大池化(max-pooling)因其简单且有效的特征选择能力及提取的高度非线性特征具有较强的表达能力，采用max-pooling对CL按行降维，即fp(CL)={max(±c1),max(±c2),⋯,max(±cML)}式中cML为CL的第ML行．最后，联合fp(CL)和CG做归一化处理，可以获得维度为2ML+MG的稀疏系数来表征整幅图像．2.2　质量预测在获取到图像的稀疏表征后，须要完成特征向量到质量标值的映射．在图像质量评价等诸多领域，基于支撑向量回归的IQA预测模型已被广泛使用．基于LIBSVM-3.22工具包[17]，假定输入训练集{(zk,yk)|k=1,2,⋯,K}，其中，zk∈R2ML+MG为图像的稀疏表征，yk为已有的主观质量分数，超参数λ0，γ0，SVR的标准形式可描述为minw,δ,η,η'||w||22/2+λ∑k=1K(ηk+ηk');s.t. wTϕ(zk)+δ-yi≤γ+ηk,yi-wTϕ(zk)-δ≤γ+ηk',ηk,ηk'≥0 (k=1,2,⋯,K),式中：w和δ分别为待学习的权重和偏置参数；ηk和ηk'为两个边界松弛因子；ϕ(zk)为特征向量z的映射．核函数形如Ψ(zk,zj)=ϕ(zk)Tϕ(zj)，选用径向基可表示为Ψ(zk,zj)=exp(-θ||zk-zj||2)，其中θ为径向范围的宽度．3 实验与分析3.1　数据集与评估标准为了评估算法的性能，本研究在三个主流公用的数据库LIVE，CSIQ和TID2013上进行了对比．为了定量比较，分别用斯皮尔曼等级相关系数(Spearman's rank order correlation coefficient，SRCC)和皮尔森线性相关系数(Pearson's linear correlation coefficient，PLCC)来衡量预测单调性和预测精度．对于N幅待估图像，SRCC可表示为CSRCC=1-6∑n=1Ndn2N(N2-1)，式中dn为第n个测试图像的预测值ŝn与质量真值qn的差．参考文献[3]，在计算PLCC之前，须将客观值非线性映射到主观值，消除由人类视觉观察引起的非线性评级问题，该过程可表示为q̂=π1[1/2-1/exp(π2(ŝ-π3))]+π4ŝ+π5,式中：{πi|i=1,2,⋯,5}为逻辑回归函数的形参；ŝ和q̂分别为逻辑回归前、后的预测值．令μqn和μq̂n分别表示所有待估图像质量真值和预测值的平均值，PLCC可表示为CPLCC=∑n=1N(qn-μqn)(q̂n-μq̂n)∑n=1N(qn-μqn)2∑n=1N(q̂n-μq̂n)2．SRCC和PLCC的取值范围为[-1，1]，值越大预测效果越好．3.2　实验设置在稀疏表征的过程中，字典基数决定了特征的维度，进而影响着算法的性能．为了减少变量参数，对于局部描述子和全局描述子设置相同的字典基数，即ML=MG=5 000(字典基数大于5 000后综合性能没有明显提升)．实验部分对本文算法和现有经典BIQA方法进行了比较，具体包括M3[3]，IL-NIQE[18]，CORNIA[4]，HOSA[5]，Le-CNN[6]，BIECON[7]和WaDIQaM-NR[19]等．此外，本研究还添加了以ResNet-50为基网络的两个对比实验：一种是用ResNet-50卷积层所提特征训练SVR模型(ResNet-50+SVR)；另一种是修改ResNet-50的全连接层，将用于分类的网络改造成端到端的质量预测网络(ResNet-50+fine-tune)．对于本文算法的SVR训练测试部分，设置超参数λ=256，γ=0.01，θ=1/(2ML+MG)．对于每个目标数据库，80%的图像用于训练，其余20%用于测试．此操作根据参考图像进行划分，避免内容重叠．将1 000次随机测试结果的中值作为最终性能，以减小偶然偏差．3.3　单个数据库评价首先分析了本文算法和其他对比算法在单个数据库上的性能，实验结果如表1所示．为了反映算法的整体性能，表1还列出了以图像数量权重为基础的所有数据库的加权平均性能．10.13245/j.hust.210808.T001表1不同BIQA算法在单个数据库上的性能比较IQA模型LIVE(779)CSIQ(866)TID2013(3000)加权均值(4645)SRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCCM30.9510.9550.8040.8350.6790.7050.7480.771IL-NIQE0.9020.9060.8220.8650.5210.6480.6410.732CORNIA0.9420.9350.7300.8000.5500.6130.6490.702HOSA0.9500.9530.7930.8230.7280.8150.7770.840Le-CNN0.9560.953BIECON0.9610.9620.8150.8230.7170.7620.7760.807WaDIQaM-NR0.9540.9630.7610.787ResNet-50+SVR0.9210.9330.6470.7020.4440.4960.5620.608ResNet-50+fine-tune0.9480.9490.8450.8890.7100.7420.7750.804本文算法0.9590.9660.8860.9110.8030.8170.8450.860在表1中，本文算法的SRCC指标仅在LIVE库上以千分之二的差距略弱于BIECON算法．相较于其他算法在CSIQ和TID2013的一般表现，本文算法均取得了最好的效果，尤其是在TID2013数据库上的性能达到了0.8以上．综合来看，在所有数据库上的最优加权均值也进一步体现了本文算法的优异性能，说明相较于只应用局部表征(如CORNIA)和只应用全局表征(如ResNet-50+SVR)的特征提取方式，联合局部表征和全局表征具有更强的图像描述能力．3.4　泛化能力测试现实应用中往往期望在某个特定场景下学习的模型，能够很好地推广到其他不同的场景中，因此有必要通过交叉验证来测试所提算法的泛化能力．实验选用在LIVE或TID2013上进行两组训练，在剩下的两个数据库上进行测试，结果如表2所示．10.13245/j.hust.210808.T002表2不同BIQA算法在交叉数据库上的SRCC性能比较算法LIVETID2013CSIQTID2013LIVECSIQM30.6210.3440.7580.538IL-NIQE0.8150.4940.8980.815CORNIA0.6630.4290.8600.678HOSA0.5940.3610.6920.466WaDIQaM-NR0.7040.4620.733ResNet-50+SVR0.4930.4780.7510.418ResNet-50+fine-tune0.7160.5450.8410.668本文算法0.7430.5140.8680.762从表2中可以看出：本文算法的数据库交叉实验结果大体上只弱于IL-NIQE算法，但相比于其他算法所取得的效果仍然较为突出．值得一提的是，IL-NIQE算法无须训练，因此受不同场景中不同失真类型的影响较小．综合来看，本文算法具有令人满意的泛化能力．此外，在Waterloo数据库上进行了gMAD对抗游戏[20]，以达到直观的视觉效果．gMAD是在防御者认为具有相同质量等级的图像对里，挑选出攻击者认为质量差最大的图像对，然后呈现给观察员以确定防御者和攻击者谁是更为健壮的．图2中本文算法和其他算法(以M3和CORNIA为代表)互为攻防者，且在一组攻防游戏中上方、下方图像分别被攻击者认为拥有最好、最差质量．10.13245/j.hust.210808.F002图2本文算法和其他算法的gMAD竞赛结果从图2可以看出：当其他算法扮演防御者时，本文算法作为攻击者能够依次选出质量差异较大的图像对；反之，其他算法作为攻击者选择的图像对在感知质量上变化不大．由此可以表明本文算法具有较强的攻击和防御能力，进一步证明了其鲁棒性．