齿轮是机械传动系统中不可或缺的精密组件,被广泛应用于航空航天、汽车、轨道交通等领域[1].由于生产环境、生产设备、加工工艺等因素的影响,齿轮表面容易产生裂纹、缺齿、缺角等缺陷,导致出现强度下降、温升增加、润滑油污染等问题,严重影响传动系统的可靠性和安全性[2];因此,及时准确检测齿轮表面缺陷,为工艺质量控制提供有效反馈信息,越来越受到各行业的重视.早期通常采用人工方式检测齿轮表面缺陷,该方法存在成本高、易漏检误检等诸多弊端[3].随着计算机及人工智能技术的发展,机器视觉逐渐替代人工目检成为自动化生产线的主流检测方式.该方法通过对采集图像进行算法化处理实现缺陷检测,相较于传统人工目检方法具有效率高、成本低等优势.然而,早期检测算法需要工程人员具备丰富的专业经验来提取合适的特征,导致检测性能极度依赖于特征的选择[4-7].近年来,深度学习凭借其自动提取数据高层次特征的优势,被广泛应用于表面缺陷检测领域[8-11].深度学习算法的高性能稳定性是建立在训练数据与目标数据满足独立同分布假设的基础之上的,但受实际检测环境干扰因素影响,训练数据与测试数据的分布特性往往不完全一致,数据间存在域偏移现象,导致模型实际检测精度下降[12].为解决实际工程应用环境下的域偏移问题,Chen等[13]设计了域自适应目标检测算法,首次完成了跨域定位检测任务.之后众多研究者开始以Faster R-CNN为基础网络进行域自适应目标检测的研究.例如,Wu等[14]通过渐进式解耦机制来提取域不变特征和域特定特征,以提高模型在不同域之间迁移检测能力.Li等[15]提出了一种用于目标检测的跨域自适应教师模型(AUT),该模型用有标签源域数据训练教师网络,用无标签目标域数据的伪标签训练学生网络,同时引入对抗学习以减少域偏差、对齐两域特征分布.领域自适应Faster R-CNN在解决域偏移问题上取得了重大成就,是域自适应目标检测的重要里程碑.然而,Faster R-CNN目标检测框架具有两阶段结构特性,推理时间较长,难以满足工程实际对检测速率的需求[16].不同于两阶段Faster R-CNN框架,单阶段YOLO目标检测框架没有提取感兴趣区域这一步骤,检测速度得到显著提升,更能满足工业需求[17].近年来,相继出现了基于YOLO的域自适应目标检测框架.例如:Liang等[18]将域自适应模块与YOLOv5框架相结合,改善目标检测模型的性能;Zhou等[19]提出了一种基于半监督域自适应YOLO方法,通过生成目标域样本和教师学生模型实现跨域目标检测;Vidit等[20]提出一种基于注意力机制的领域自适应策略,通过改变权重逐渐将特征从全局图像级调整到局部实例级;许华等[21]提出了一种对抗域适应迁移算法,通过类判别器和域判别器对抗训练,使特征提取器能够提取到既具有类差异性又具有域不变性的特征.在模型处于训练阶段中,采用对抗的方法能够使特征提取器生成域不变特征.但域对抗方法仍存在一些不足之处,例如特征对齐不充分、域分类器的鉴别能力不足及忽略目标域结构信息等.本研究提出一种基于跨图匹配推理(cross-graph matching reasoning,CGMR)的齿轮端面缺陷定位检测算法.首先,解析图像级特征间的联系,构建多层级的图像级域自适应结构,通过多尺度特征融合共享同一域分类器,以增强域分类器的鉴别能力;然后,在图像级域分类器与特征层之间应用基于梯度反转的困难样本挖掘策略,通过动态调整梯度反向传播强度,挖掘困难样本,以增强模型泛化能力;最后,根据实例级特征分布情况,基于图卷积网络构建特征图结构,并在定位过程中建立基于对抗机制的图匹配准则,引导模型聚焦域不变特征.实验结果表明,本研究提出的方法可以明显提高齿轮端面缺陷的定位检测精度.1 域自适应目标检测模型基于对抗的域自适应目标检测方法利用域分类器区分源域与目标域的数据,借助对抗推理机制,域自适应网络与主干网络形成竞争关系.在模型训练初始阶段,域分类器能够轻易地区分源域和目标域特征.然而随着域自适应网络与主干网络持续地相互博弈,域分类损失逐渐降低,这会促使主干网络生成域不变特征,最终致使域分类器无法对源域和目标域特征加以区分.DA-YOLO将该策略集成至YOLO目标检测模型中[22],图1展示了基于YOLOv3的DA-YOLO域自适应框架.该框架主要引入了图像级域自适应、实例级域自适应以及一致对抗三个模块.图像级域自适应模块将特征提取器输出的三个不同尺度特征作为输入,并利用域判别器预测领域标签.图像级域自适应损失 Lim=-∑i,k,u,vλk[Dilog fk(ϕi,ku,v)+(1-Di)log(1-fk(ϕi,ku,v))], (1)式中:ϕi,ku,v为第i张图像对应的第k个特征映射位于(u,v)处的输出;fk为域判别器;Di为第i张图像的域标签;λk为对应域判别器的权重.YOLO系列检测器并没有Faster R-CNN检测器中的区域生成网络结构(RPN),因此通过YOLO检测头获取到边界框,并使用池化层从对应尺度特征层中提取实例级特征,最终应用于实例级域自适应模块.实例级域自适应模块从不同尺度的检测层中提取实例级特征,并输入到域判别器中.实例级域自适应损失10.13245/j.hust.250604.F001图1DA-YOLO模型结构 Lins=-∑i,j,kλk[Dilog fk(pi,jk)+(1-Di)log(1-fk(pi,jk))], (2)式中pi,jk为第i张图像中第k个尺度下第j个候选区域的概率输出.一致对抗模块对相应的图像级和实例级域判别器进行正则化,以监督网络生成域不变特征,一致对抗损失Lco=∑i,j,k1Ik∑u,vϕi,k(u,v)-pi,jk2, (3)式中Ik为第k个特征图上的激活次数.DA-YOLO域自适应网络的损失函数L=Ldet+λ(Lim+Lins+Lco), (4)式中λ为平衡域自适应损失的超参数,域自适应损失通过梯度反转层进行对抗性训练.域自适应模块仅在训练时使用,测试阶段只使用YOLO检测器本身.2 基于跨图匹配推理的域自适应模型DA-YOLO模型在一定程度上缓解了跨域目标检测中的领域偏移问题,但当面对实际环境下的齿轮端面缺陷检测任务时,仍然存在缺陷特征学习不充分、域分类效果不理想、模型定位精度差等问题.本研究在域自适应模型DA-YOLO基础上,提出基于跨图匹配推理(CGMR)的齿轮端面缺陷检测模型,其结构如图2所示.本研究使用YOLOv7作为基础模型,相较于之前的YOLO版本,YOLOv7通过匹配策略使正样本数量得到增加,进一步加快了模型训练效率.所提出模型的主要改进如下.a.逐级特征压缩:针对域分类器鉴别能力不足的问题,根据YOLOv7主干特征输出,建立逐级特征压缩结构,通过多尺度特征融合共享一个域分类器,以增强域分类器分辨能力.b.困难样本挖掘:针对困难样本导致模型泛化效果差的问题,在域分类器与特征层之间建立自适应梯度反转层,深入挖掘困难样本信息,增强模型的泛化能力.c.图卷积对抗:针对在实例级特征对齐过程中常常忽略特征间复杂关系的问题,将对抗策略与图结构相结合,并在定位过程中建立基于对抗机制的图匹配准则,引导模型聚焦域不变特征,实现不同环境下的知识迁移.2.1 逐级特征压缩方法DA-YOLO模型中的主干网络输出了三个不同尺度的图像级特征,并对应设置三个独立的域分类器.该方法一方面没有将不同尺度的特征联系起来;另一方面三个独立的域分类器存在不一致的可能,导致域分类器鉴别能力不足.因此,提出逐级特征压缩结构如图3所示,图中C表示卷积层,数字表示通道数.基于YOLOv7逐步减少通道数来增加卷积层数量的策略,然后通过YOLOv7双支路下采样模块将三个不同尺度的特征融合,最终输入共享域分类器中,从而增强域分类器的鉴别能力.10.13245/j.hust.250604.F002图2跨图匹配推理模型结构10.13245/j.hust.250604.F003图3逐级特征压缩结构由于域自适应网络仅在训练期间附加在YOLO检测器上,因此不会在推理和测试阶段增加检测器的复杂性.图像级域自适应网络的输入包含主干网络的三个不同尺度的特征,特征经过颈部输出,之后再经过多层卷积层,最终输入域分类器Dimg.图像级自适应损失Lgfc=-∑i,u,v[EilogPu,v+(1-Ei)log(1-Pu,v)], (5)式中:Ei为第i个图像的域标签;Pu,v为图像级域分类器Dimg在特征图(u,v)处的输出特征映射.2.2 困难样本挖掘在对抗策略中,特征提取器与域分类器之间须要通过梯度反转层进行连接.梯度反转层(gradient reversal layer,GRL)最先应用于域自适应分类任务中,是一种实现域间对齐的有效方法.如图4所示,在前向传播阶段,梯度反转层保持不变,输入图像经过特征提取器后,对特征进行标签预测的同时进行域分类;但在反向传播阶段,梯度反转层将传到本层的域分类损失乘以负数,从而使前后网络任务相反.通过梯度反转层鼓励网络生成域不变特征以形成对抗效果,进而实现域自适应.梯度反转层前向传播定义为Rλ(x)=x, (6)式中:x为输入特征向量;Rλ为梯度反转层前向传播.梯度反转层反向传播定义为dRλ/dx=-λI, (7)式中:I为单位矩阵;-λ为设置的负数.10.13245/j.hust.250604.F004图4梯度反转层在梯度反转层中,-λ是一个超参数,用于控制梯度反转的强度,通常λ值设置为1.然而在域自适应过程中,不同样本所面临的挑战难度并不相同,为解决困难样本导致模型泛化能力下降的问题,本研究在特征提取器与图像级域分类器之间建立自适应梯度反转层(ADGRL),通过对梯度反转层中的参数进行替换,使不同样本在迁移过程中体现出不同的挑战难度,以此对困难样本进行对抗性挖掘,增强模型的泛化能力.本研究将梯度反转层中的λ替换为λad,λad=minN/∑i=1NLci,α, (8)式中:N为建立的自适应梯度反转层数量;Lc为领域分类器损失;α为防止产生过多梯度的溢出阈值.若域分类器的损失较小,则说明很容易判断该样本所属域.这意味着其特征不是域不变特征,因此属于域自适应过程中的困难样本.自适应梯度反转层一方面在反向传播阶段使用负梯度混淆域分类器,同时可以对域自适应过程中的困难样本进行挖掘,增强模型泛化能力.2.3 图卷积对抗方法实例级域自适应技术往往容易忽略特征之间的联系.为了使模型在学习实例级特征表示的同时学习实例级特征之间的复杂关系结构,本研究将对抗策略与图结构相结合,在定位过程中建立基于对抗机制的图匹配准则.本研究从YOLOv7检测头中获得检测结果,采用池化层提取实例级特征后,经过梯度反转层处理.如图5所示,图结构是基于源域与目标域的实例级特征构建而成的,其基本构成要素包含节点集合和边集合,其中节点间的连接关系通过邻接矩阵表示.通过计算特征与特征之间的余弦相似度Sij,并设置相似度阈值τ来构建邻接矩阵,矩阵元素Aij表示为Aij=Sij(Sij⩾τ);0(Sijτ). (9)10.13245/j.hust.250604.F005图5图卷积对抗通过图卷积神经网络逐步传播和聚合节点信息,以使每个节点的特征既包含自身信息,同时又融合与其相邻节点的局部结构信息,图卷积操作为H(l+1)=σ(D˙-1/2A˙D˙-1/2HlW(l)), (10)式中:σ为激活函数;H(l)为第l层的节点特征矩阵,为A˙增强后的邻接矩阵;D˙为对角矩阵;W(l)为权重矩阵.最终将经过图卷积得到的节点特征输入到实例级域分类器Dins中,引导模型聚焦域不变特征,实现不同环境下的知识迁移.域分类器的损失Lgca=-∑i=1[Eilog pi+(1-Ei)log(1-pi)], (11)式中pi为实例级域分类器Dins对第i个样本的输出结果.跨图匹配推理模型损失L由检测损失Ldet和图像级域自适应损失Lgfc、实例级域自适应损失Lgca组成.Ldet包括分类损失、定位损失及置信度损失,Ldet=Lcls+Lobj+Lcon. (12)综上可得,跨图匹配推理模型总损失为L=Ldet+λalign(Lgfc+Lgca), (13)式中λalign为域自适应损失共享的权重.跨图匹配推理算法流程如下.输入 源域图像,目标域图像输出 域自适应模型YOLOv7beginwhile 当前训练迭代次数<最大迭代次数do;将源域与目标域图像输入特征提取网络,提取多尺度特征;将提取的图像特征输入领域分类器并根据式(8)得到λad;将多尺度融合特征输入到图像级域分类器进行图像级对齐;通过式(5)计算图像级对抗损失并优化网络;将多尺度图像特征分别输入检测头;通过池化层从检测头中得到多尺度实例级特征;根据实例级特征之间的相似度构建邻接矩阵;将多尺度特征输入图卷积神经网络中得到更新后的节点特征;将节点特征输入到实例级域分类器进行实例级对齐;通过式(11)计算实例级对抗损失并优化网络;通过式(13)计算跨图匹配推理模型整体损失;if 当前训练批次/30==0 then保存当前跨图匹配推理模型参数end ifend whileend3 实验分析3.1 数据集齿轮端面缺陷数据均来自易泽明精密机械有限公司的产线.图6和图7分别展示了两种类型齿轮的典型缺陷,从图中可以发现:不同领域的齿轮,缺陷大小不一,背景噪声干扰不同,光照情况各异,给实际生产过程中的缺陷定位检测任务带来了极大的挑战.采集环境各不相同,分别为实验室环境下的齿轮1和实际产线下的齿轮2,共包含五种常见缺陷类型,分别为裂纹(Cr)、缺角(Cp)、缺齿(Mt)、脱粉(Po)和熔化(Me).由于在实际生产过程中,各种缺陷发生概率不同,因此两种数据集均存在类别不均衡的情况.其中齿轮1数据集中Cr,Cp,Mt,Po和Me缺陷样本数量分别为1 510,10.13245/j.hust.250604.F006图6齿轮1的典型缺陷10.13245/j.hust.250604.F007图7齿轮2的典型缺陷1 419,78,611与193;齿轮2缺陷数据集中Cr,Cp,Mt,Po和Me缺陷样本数量分别为2 334,1 193,495,777与564.3.2 实验设置本研究在Windows11操作系统下训练跨图匹配推理模型,计算机编程语言为python3.7,框架为Pytorch-GPU,处理器为12th Gen Intel(R) Core(TM) i7-12700K,显卡为NVIDIA RTX 3090 GPU,显存为24 GiB.输入图像的大小为1 024×1 024,训练迭代次数为250次,采用随机梯度下降法更新网络参数,初始学习率为0.001,训练批次大小设置为2,其余设置均为YOLOv7默认参数.梯度阈值α=30,相似度阈值τ=0.4.本文算法采用平均精度均值(mean average precision,mAP)作为评价指标,交并比阈值设为0.5.为观察λalign参数值对模型结果的影响,本研究固定其他参数,参数λalign设置为0.05,0.10,0.30,0.50,1.00.实验结果表明:当λalign=0.1时模型测试性能最好,平均精度均值为87.5%;而当λalign=0.05,0.30,0.50,1.00时,平均精度均值分别为85.1%,86.0%,85.6%和84.8%.3.3 模型性能分析跨图匹配推理模型包含多个域自适应组件,表1为本研究的消融实验结果.YOLOv7算法单独加入逐级压缩模块或图卷积对抗模块后,算法的平均精度均值分别提升了5.4%和5.7%.在图像级域自适应模块中应用自适应梯度反转层后,通过对困难样本的挖掘,平均精度均值达到86.6%.将三个模块同时应用到YOLOv7算法中,算法平均精度均值提升到87.5%.综上所述,本研究提出的各模块均能提升模型的算法精度.10.13245/j.hust.250604.T001表1算法消融实验结果算法平均精度均值提升效果YOLOv778.5YOLOv7+逐级特征压缩83.95.4YOLOv7+逐级特征压缩+自适应梯度反转层86.68.1YOLOv7+图卷积对抗84.25.7YOLOv7+逐级特征压缩+图卷积对抗84.86.3YOLOv7+上述所有方法87.59.0%3.4 对比实验及结果分析表2记录了不同域自适应目标检测方法的检测结果.为保证实验的公平性,对比方法中的基础模型均为YOLOv7,各方法的实验参数均为推荐值或实验最佳值.10.13245/j.hust.250604.T002表2不同域自适应目标检测方法的检测结果对比方法裂纹缺角缺齿脱粉熔化平均精度均值YOLOv764.484.487.778.277.978.5MS-DAYOLO71.187.893.778.984.683.2UMS-DAYOLO72.888.191.881.987.184.3DA-YOLO70.587.994.082.984.984.0CA-DAYOLO72.290.594.779.086.684.6CGMR72.191.095.090.389.187.5%从表2中可以看出:MS-DAYOLO[23]和UMS-DAYOLO[24]采用了图像级领域自适应技术,平均精度均值分别达到83.2%和84.3%,其中UMS-DAYOLO加深了域分类器结构,解决了域自适应结构与复杂的主干网络不匹配的问题.然而图像级对齐主要关注全局差异,但不同域内的对象大小、外观、姿态仍存在不同,因此引入实例级对齐是必要的.DA-YOLO同时采用图像级与实例级域自适应技术,平均精度均值达到84.0%.CA-DAYOLO[25]将注意力机制与域分类器结合,形成注意力融合域分类器,并在图像级与实例级层次上实现领域自适应,平均精度均值达到84.6%.本研究提出的跨图匹配推理模型在图像级层次上增强了域分类器的鉴别能力,同时挖掘困难样本信息,在实例级层次上建立基于对抗机制的图匹配准则,引导模型聚焦域不变特征,平均精度均值高达87.5%.如图8所示,在随机抽取的第一个样本中,MS-DAYOLO和UMS-DAYOLO存在错检,DA-YOLO和CA-DAYOLO存在漏检.如图9所示,在第二个样本中,CA-DAYOLO存在错检,且四种方法均漏检了划痕缺陷.跨图匹配推理模型在随机抽取的样本中漏检率与错检率最低,实现了更高的检测精度.10.13245/j.hust.250604.F008图8第一个样本的不同领域自适应模型检测结果定性分析10.13245/j.hust.250604.F009图9第二个样本的不同领域自适应模型检测结果定性分析4 结语本研究提出了一种基于跨图匹配推理的齿轮端面缺陷定位检测算法.针对图像级特征,提出逐级特征压缩结构,通过多尺度特征融合共享一个域分类器,以增强域分类器分辨能力.考虑到困难样本对模型造成的负面影响,在域分类器与特征层间建立自适应梯度反转层,提高模型的泛化性.针对实例级特征,考虑其分布特性,基于图卷积网络构建特征图结构,并在定位过程中建立基于对抗机制的图匹配准则,引导模型聚焦域不变特征.消融实验结果表明,本研究提出的改进措施均能提高齿轮端面缺陷检测精度.与其他方法对比表明,本研究跨图匹配推理模型能够明显提高齿轮端面缺陷检测精度.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读