行人重识别是视频监控分析中的一项重要任务,目的是检索行人在不同相机下的所有图像.近年来,虽然大量工作[1-6]逐步实现了较为可观的性能,但仍存在很多挑战.其中,姿态变化是最常见的影响因子,且由于会引起运动模糊和自遮挡等现象,一直是该领域的研究热点.由于卷积层的固有结构无法对姿态变化建模,文献[7]提出姿态归一化方法有效对齐行人后进行匹配,但却无法保证姿态迁移是单一映射,且ID变化巨大.为此,本研究设计了一种基于双向循环映射的姿态标准化网络IIPN来生成8种标准姿态,并保持ID信息.此外,扩增图像还能有效缓解模型过拟合问题.文献[8]使用全局特征对齐行人,但没有利用鉴别性强的局部信息,导致模型泛化性很差.文献[3]考虑该因素并直接将特征图均匀切分为若干水平块进行独立监督,但会由于普遍存在的行人错位而导致局部信息的错误匹配.因此本研究使用最短路径(shortest path,SP)策略来最优化匹配距离最近的局部特征,但SP存在的固有缺点是图像中最后一个水平块总会被盲目地匹配,从而造成负面影响[9].为了解决盲目匹配问题,一些工作[1-2,5]引入更精细的像素级匹配方法,但往往由于图像的低分辨率而收效甚微且计算量巨大.针对SP策略的固有缺陷,MLFGAN采用一种特殊引导方法[10]实现图像全局对齐来消除SP的负面影响.具体地,在监督信号驱动下,行人区域被更多地激活,并自适应地将高激活区域通过仿射变换重新映射到原区域,实现高层特征引导低层特征进行图像对齐.此外,小尺度但鉴别性强的线索(如眼镜,背包和帽子)容易在下采样时丢失或被压缩到通道上而很难恢复[11].因此多粒度融合策略被用来学习多尺度语义信息.本研究提出了一种新的姿态标准化网络,保证生成图像同时具有姿态循环一致性和ID信息不变性.通过引导学习的方法实现全局图像对齐,同时通过最短路径策略进行精细化行人局部特征匹配,通过多粒度融合策略整合不同尺度的特征,防止小尺度鉴别信息丢失.1 基于多粒度生成对齐网络的行人重识别1.1 基于姿态标准化的图像合成本研究提出了ID不变性姿态标准化生成对抗网络IIPN进行姿态迁移,实现全局图像对齐.IIPN在以下两个方面显著区别于文献[7].第一,预定义的8种标准姿态从Market1501[6],CUHK03[11]和DukeMTMC-reID[12]三个数据集提取,而不是某个特定的数据集,因此模型对于姿态变化具有更强的鲁棒性.具体地,OpenPose[13]姿态估计器提取出姿态图像后输入给VGG19[14]进行分类,并取第10层特征输入给K-Means聚类,最后8个聚类中心表示8种标准姿势.第二,IIPN模型基于CycleGAN[15]设计,通过双向循环映射保证输入分布能被映射到固定的特征空间,避免将同一输入映射到两个不同的表达,显著区别于文献[7].模型由正向生成模型G和反向生成模型F组成,不同姿态被当作不同域风格进行迁移学习,通过循环一致性损失来监督网络,使生成图像具有姿态循环不变性.具体地,给定一张行人图像I1和特定姿态图像P1,通过正向生成模型G生成图像I2,类似地,通过反向生成模型F,可以在给定输入I3和P2的情况下得到生成图像I4.反向鉴别网络D1和正向鉴别网络D2分别用来鉴别F的生成图像和G的生成图像是否为真实图像.更直观的网络结构如图1所示, 模型的损失描述为L1=L2(D2,G,I5,I2)+L2(D1,F,I6,I4)+λL3(G,F), (1)式中:L2(D2,G,I5,I2)和L1(D1,F,I6,I4)分别为G,D2和F,D1的生成对抗损失;I5和I6分别为I1和P1沿通道连接,以及I3和P2沿通道连接的结果;L3(G,F)为循环不变性损失,这是由于普通单一映射无法保证生成结果是同一种表达, 因此需要双向映射.超参数λ被用来调节不同损失之间的重要性程度[15].循环不变性损失约束F(G(x))≈x和G(F(y))≈y形成循环双向映射,其中x和y代表不同的输入图像.具体地,L2(D,G,x,y)=logD(y)+log(1-D(G(x))),又有L3(G,F)=||G(F(y))-y||1+||F(G(x))-x||1,其中||⋅||1表示一阶范数.10.13245/j.hust.220411.F001图1IIPN网络结构以上设计并不能保证生成图像I2和I1具有相同的ID,如图2第一列甚至有性别改变.图2为本文方法和几种先进的图像生成算法的效果对比,图中每一列第一行为原始输入,其余三行为生成结果.相同现象在文献[15]中也可以发现,CycleGAN只能保证生成图像具有指定风格,而前景则发生较大改变,这对行人重识别是致命的.可以在式(1)后增加一项ID不变性损失来改进网络监督信号,即L4G,F=||I7-I3||1+||I8-I1||1, (2)式中:I7为I3和P1通过G的生成结果;I8为I1和P2通过F的生成结果.当最小化式(2)的损失时,模型促使G(y)≈y和F(x)≈x,即同时进行风格(姿态)迁移和前景(ID信息)保持,最终生成结果的ID信息保留更加完整,如图2最后两列所示.此外生成结果在衣服外观上达到了类似“换衣”的效果,理论上能有效促进光照变化引起的衣物颜色改变,以及识别换衣后的行人等问题的研究.其他先进图像生成算法PNGAN[7],VAE, LSRO[12],DPIG[16]及PTGAN[17]的生成结果如图2所示.显然,IIPN生成结果直观上达到了更先进的水平,每列图像可近似赋予相同的ID标签.然而考虑生成图像必然存在信息丢失,后续进一步提出对生成图像使用一种更柔和且更合理的标签平滑正则策略.10.13245/j.hust.220411.F002图2几种图像生成算法和本文算法的生成结果对比1.2 多粒度生成对齐网络(MLFGAN)本研究构建一个全新的基线模型来解决这一问题,如图3所示.模型采用ImageNet预训练的ResNet50[18]作为骨干网络,网络由卷积层conv1和4个残差块conv2~5组成. 其中基础分支中conv5的输出被传入仿射估计模块[10],提取高层特征信息并变换为仿射变换参数,引导conv2的输出在对齐分支中学习,从而实现行人图像对齐任务.具体地,仿射估计模块由标准残差块,全局平均池化,以及分别具有512个和6个神经元的全连接层组成,最终输出向量为仿射变换的6个参数,记为θ=φ(fb5),其中fb5为基础分支中卷积层conv5的输出特征图.仿射变换过程为(x1,y1)T=θ(x2,y2,1)T=θ1θ4θ2θ5θ3θ6(x2,y2,1)T ,式中:(x1,y1)为输入特征图上的源坐标;(x2,y2)为输出特征图上的目标坐标;θ1,θ2,θ4,θ5为处理缩放和旋转变换的参数;θ3和θ6为处理平移变换的参数.在监督信号驱动下,行人区域会在高层特征图中被更多地激活.通过仿射变换,高层特征中激活较大的区域被提取为变换参数,并引导低层特征中行人区域重新映射到原激活图区域,从而实现全局图像对齐,而激活较小的无关区域则变换到原始激活图外,对于丢失的像素直接利用双线性插值补全.经过全局图像对齐后,不同图像的最后一个水平块也被精准对齐,从而不受SP策略的影响.由于特征图下采样会导致很多信息丢失[19],因此本研究采用多粒度特征融合的策略找回这些在高层特征中被丢失的细节.首先,将不同阶段的残差块的输出自适应池化为8×4;然后,沿通道进行连接,分别得到基础特征fb和对齐特征fa;最后,将fb和fa沿通道连接并经过批归一化层后得到最终的行人特征M,用于提取全局行人特征和局部行人特征.全局分支直接对M进行全局平均池化(GAP)后得到全局行人特征,从而得到图像间的全局距离.对于局部分支,M通过水平平均池化(HAP)被切分为L个水平块,即行人的L个局部特征,实验中设置L=8.10.13245/j.hust.220411.F003图3MLFGAN网络结构局部特征的距离度量是通过最短路径策略SP来实现的.具体地,给定图像A和B的局部特征图分别用{Mμ} μ=1,2,⋯,L和{Mχ} χ=1,2,⋯,L表示,定义图像A第μ个水平块和图像B的第χ个水平块之间的归一化距离为dμ,χ=(e||Mμ-Mχ||2-1)/(e||Mμ-Mχ||2+1) (μ,χ∈{1,2,⋯,L}).最终可以构建局部距离矩阵D,其中(μ,χ)位置的元素为dμ,χ,表示图像A的第μ个水平块和图像B的第χ个水平块间的距离.图像水平块间的最短距离之和则表示从D中(1,1)位置到(L,L)位置距离的最小值,即两张图像之间的最短局部距离之和,保证该距离最小,即可使得最接近的两个水平块进行匹配.定义Sμ,χ为从(1,1)位置到(μ,χ)位置的最短距离,有 Sμ,χ=dμ,χ (μ=1,χ=1);Sμ-1,χ+dμ,χ (μ≠1,χ=1);Sμ,χ-1+dμ,χ (μ=1,χ≠1);min(Sμ-1,χ,Sμ,χ-1)+dμ,χ (μ≠1,χ≠1), (3)上式是完全可导的,当μ=χ=L时,可计算SL,L,即两幅图像的局部距离.图4展示了一个局部匹配的示例,其中双向箭头表示算法将两个水平块进行匹配,红色箭头表示这种匹配会错误地放大两幅图像的局部距离,re-ID希望行人的相同部件进行匹配后计算距离,而不是其他情况.PCB[3]匹配策略会导致图4虚线左侧第一行中的大量错误匹配, 文献[9]则是图4虚线左侧第二行中的匹配策略,但其固有匹配问题(从式(3)可推出图像的最后一个水平块总会被匹配上)会导致图4虚线左侧第三行中的错误,即第一张图像中行人的小腿和第二张图像中的地面匹配并计算图像间的局部特征距离.本文方法在经过图像对齐后,则不会导致这种情况,如图4虚线右侧所示.然而在激活不准确的情况下,使用SP匹配策略能有效避免在对齐结果上直接使用PCB匹配策略而出现图4虚线左侧第一行类似的情况,因此这些组件是缺一不可的.在计算出全局特征距离和局部特征距离后,进行基于困难样本挖掘的三元组损失[20]计算,即挑选ID相同的正样本对和ID不同的负样本对,使得正样本对距离dap大于负样本对距离dan与间距m之和,而三元组损失可以描述为L5=∑τ=1Q∑ψ=1K[m+dap-dan]+,式中:[⋅]+为max(0,⋅);Q为每个批次采样ID个数;K为每个ID采样图像张数.此外,算法还对每张图像进行ID分类,计算ID损失作为监督信号.10.13245/j.hust.220411.F004图4部件匹配示例1.3 整个模型的训练考虑到生成图像可能存在信息丢失,因此采用软标签正则化策略 (LSR)来最小化风险.理论上训练图像越多,模型拟合能力越强,但过多生成图像可能会导致模型学习向伪造图像倾斜,同时为了提高模型的泛化性,考虑对每张生成图像以30%的概率决定是否用来训练网络.真实图像和生成图像的ID分类损失均定义为交叉熵损失L6=-∑c=1Cq(c)log(p(c)),其中:C为ID数;q(c)为ID标签;p(c)为图像属于第c类的概率.对真实图像,当c=z时,q(c)=1,否则q(c)=0,其中z为行人ID.对生成图像,当c=z时,q(c)=1-ε+ε/C,否则q(c)=ε/C,其中ε∈[0,1].当ε=0和ε=1时,分别退化为真实图像情况和LSRO[12],实验中设置ε=0.1.训练IIPN网络的损失函数为 L7=L2(D2,G,I5,I2)+L2(D1,F,I6,I4)+λ(L3(G,F)+L4(G,F)),而训练行人重识别网络的损失函数为L8=L5+∑s=1QKL6(s).MLFGAN的训练分三个阶段.第一阶段先固定对齐分支和仿射估计模块,直接训练基础分支,让模型具有一定的识别能力.第二阶段固定基础分支以节省计算量,开放其余两个分支来引导图像对齐,然而当对齐分支的特征鉴别性足够强时,基础分支不再具备引导能力,反而会妨碍对齐分支学习,于是补充第三阶段的学习.开放整个网络进行联合微调,使得网络能够实现更高的识别精度.在256×256图像输入下,IIPN单个生成器的参数量和浮点运算次数分别为1.137×107和5.683×1010,鉴别器分别为2.76×106和1.66×109;相同输入下,ResNet50[18]网络的参数量和浮点运算次数分别为2.556×107和5.04×109;而MLFGAN行人重识别网络参数量和浮点运算次数为8.666×107和4.08×109,相对于文献[1-2,5]等参数远超ResNet50的工作,MLFGAN的计算成本并不高.2 实验与结果分析2.1 实验设置为了评估模型的有效性,本研究在多个相机拍摄的分别具有1 501和1 404个行人的数万张图像的两个大规模re-ID数据集Market1501和DukeMTMC-reID上进行了实验.训练集和测试集行人ID数分别按照751/700,702/702的近似等量切分.模型评估指标用平均精准率均值δmAP 和首位命中率δRank1表示.姿态标准化网络生成器包含9个残差块和4个卷积层,鉴别器为文献[21]结构.当训练时,输入图像大小调整为256×256像素.使用Adam优化器并设置生成器和鉴别器初始学习率为2×10-4和1×10-4,30回合后学习率线性下降,直到50回合降为0,批大小为1,λ=10.行人重识别网络用ResNet50作为backbone,并移除最后一次空间下采样,但不共享conv4~5参数.输入图像调整为256×128像素,数据增强包括水平翻转、随机裁剪和擦除,设置在嵌入层上计算的三元组损失间距为0.3,在输出层上计算交叉熵损失.每批次选择16个ID,每个ID选择4张图像,使用初始学习率为3.5×10-4的Adam优化,在第40和70回合时将学习率衰减10倍,直到120回合后结束训练.2.2 参数分析评估生成图像比率(训练时使用多少生成图像)对模型性能影响的结果如图5所示,图中:δ为评价指标;α为训练过程中生成图像使用比率; mAP,rerank-mAP,rank1和rerank-rank1分别为平均精确率均值、重排序平均精确率均值、首位命中率及重排序首位命中率曲线.可以发现:使用生成图像缓解了姿态不匹配问题和过拟合问题,有助于模型学习,但如果使用过多的生成图像,反而对结果不利,这是因为当训练图像足够多时,模型过拟合不再严重,而如果使用更多的生成图像,其中的异常点开始对模型造成负面影响.根据结果显示,使用30%的生成图像对模型性能提升最为显著.10.13245/j.hust.220411.F005图5生成图像使用比率对模型性能δ的影响2.3 消融实验本研究在Market1501上验证了不同组件的有效性,结果如表1所示.第一行显示本文设计的同时进行全局对齐和局部对齐的基线模型实现δmAP= 82.04%和δRank1=92.13%.加入MLF多粒度结构后会使得一些小尺度但重要的携带线索(如眼镜,包和帽子)被保存下来,模型平均性能(δmAP和δRank1的平均值)提升了1.32%.10.13245/j.hust.220411.T001表1评估不同组件的有效性基线MLFIIPNLSRδmAPδRank1使用82.0492.13使用使用83.5693.24使用使用使用84.6993.42使用使用使用使用84.9893.84%图6为不同阶段特征和使用多粒度特征融合后的激活图,可以看出:MLF使模型获得了更广的视野,更有利于提取鉴别性信息.第三行是进一步加入了姿态标准化网络IIPN的结果,平均性能相较于基线模型提升了1.97%.而增加LSR后的MLFGAN模型性能在最后一行,最终实现δmAP=84.98%和δRank1=93.84%的精度.10.13245/j.hust.220411.F006图6不同阶段特征和多粒度特征融合后的激活图可视化2.4 对比实验及结果展示为了进一步比较行人重识别算法的性能差异,本研究分别在Market1501和DukeMTMC-reID数据集上进行了实验验证,结果如表2~3所示.首先,本研究的基线模型表现已超过了多数方法,δmAP分别达到82.04%和71.25%,δRank1分别达到92.13%和83.75%.MLFGAN模型最终获得了极具竞争性的结果,δmAP分别达到84.98%和74.96%,δRank1分别达到93.84%和85.96%.大量实验结果证明本研究对于行人重识别问题是有效的.10.13245/j.hust.220411.F007图7MLFGAN检索结果10.13245/j.hust.220411.T002表2Market1501数据集上的性能对比算法δmAPδRank1Bow+KISSME[6](ICCV15)20.7644.42CAN[4](TIP16)24.4348.24LSRO[12](ICCV17)56.2378.06PAN[8](TCSVT18)63.3582.81PCB[3](ECCV18)81.6093.80VPM[5](CVPR19)80.8093.00VCFL[22](ICCV19)74.4889.25APDR[23](PR20)80.1093.10基线模型82.0492.13MLFGAN84.9893.84%10.13245/j.hust.220411.T003表3DukeMTMC-reID数据集上的性能对比算法δmAPδRank1Bow+KISSME[6](ICCV15)12.2025.10LSRO[12](ICCV17)47.1367.68PAN[8](TCSVT18)51.5171.59PCB[3](ECCV18)69.2083.30VPM[5](CVPR19)72.6083.60APDR[23](PR20)69.7084.30基线模型71.2583.75MLFGAN74.9685.96%图7展示了MLFGAN检索出的和查询图像(第一列)最相似的前8位图像,图中被红色框包围的结果表示检索错误,绿色表示检索正确.图7(a)和(b)中比较明显的条纹上衣和白色裙子使模型能成功捕获信息并检索正确结果.图7(c)中的携带信息(凳子)同样被模型精准捕捉到,从而准确识别行人,可见本研究提取到的行人特征是极具鉴别性和鲁棒性的.大量的定性实验和定量实验验证了MLFGAN的有效性,能有效促进行人重识别问题的研究.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读