数据驱动是当前信号分析与数据处理领域的热门研究课题[1],然而在实际工程应用中,在线监测数据呈现非平稳、非线性、多源异构性和价值低密度性等特点,正负样本的数量差距悬殊;而实验平台数据在数据稳定性、相关性方面与实际工况相比差距较大,导致数据驱动分析所需的有效样本不足.为解决样本数据过少引起的模型训练代价较高、耗时较长、精度较低等问题,从少量、异构数据中提取有用的信息、知识和规则,对样本进行有效扩张的方法被广泛研究[2].深度学习出现以前,Batista采用随机过采样(random oversampling,ROS)算法达到均衡数据集各类别样本的目的,但这种方法会造成样本重叠严重、模型泛化不理想的问题.合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)和自适应合成样本方法(adaptive synthetic,ADASYN)在一定程度上可以平衡数据集的样本比例,但是合成少数类过采样方法对非平衡数据集处理的能力较差,存在边缘化严重等问题[3],自适应合成样本方法生成的样本虽然可以自适应远离边界点,但并未考虑到原始数据的整体分布特性,所以对模型的分类能力提升有限[4].文献[5]在此基础上将不同数量的样本匹配不同的权重,模型实现了较好的分类效果.文献[6]提出的“确定性合成少数类过采样技术”使每次应用产生相同的结果,可以产生更加稳定的数据.文献[7]在随机合成少数类过采样算法基础上,提取支持向量作为父样本,合成少数类样本,实现了数据平衡.上述传统的数据扩张方法主要是基于数学分析或插值计算对不完整或者不平衡数据进行扩张,具有计算量大、拟合度低、数据差异性不明显等缺点.深度学习具有强大的特征提取能力,能够提取原始样本数据集深层的统计规律,通过已训练的概率分布模型产生符合数据分布规律的新样本.文献[8]采用深度降噪自动编码器学习数据的故障特征,实现对机场监测数据的重建.文献[9]在传统自编码的基础上加入变分推断,模型经过反向传播更新网络参数,使目标函数最小化,对样本进行了有效的重建.文献[10]在变分自编码(variational auto-encoder,VAE)中引入全卷积神经网络,进一步降低特征学习的难度,最终生成符合观测特点的数据.虽然基于自编码的数据重构方法能够生成效果不错的数据,但是仍然存在概率计算复杂、模型的复杂度高、样本的重构精度偏低等问题.为了避免复杂的概率计算,文献[11]提出了基于生成对抗网络(generation adversarial network,GAN)的数据扩张方法,将扩充的数据加入到原始数据集,充分训练诊断网络,提高了模型分类的准确率.文献[12]通过辅助分类生成对抗网络(auxiliary classification generation adversarial network,ACGAN)对机器运行中产生的故障数据进行有效扩张,进一步改善了模型的分类性能.以上生成式模型都有较好的分类性能,但泛化能力还不够强.本研究结合变分自编码和生成对抗网络结构的优点,提出了双重对抗自编码(couple adversarial auto-encoder,CAAE)数据扩张方法,设计了编码器-潜空间判别器、解码器-样本判别器的双重对抗.匝间短路故障是永磁同步电机(permanent magnet synchronous motor,PMSM)常见故障类型[13],但有效故障数据较少,因此将双重对抗自编码模型应用于故障数据集上,生成类型更为丰富的匝间短路故障数据,实现诊断准确率的提升.1 双重对抗自编码模型框架及训练1.1 生成对抗网络与变分自编码模型生成对抗网络模型框架由生成器G和判别器D组成[14],结构如图1所示.10.13245/j.hust.231205.F001图1生成对抗网络的模型框架生成对抗网络最终的训练结果是达到G和D的纳什均衡,即G可以生成与原始分布一致的数据,而D无法准确对数据来源进行判断.变分自编码模型框架由编码器E和解码器Dg组成[15],结构如图2所示(MSE为均方误差).10.13245/j.hust.231205.F002图2变分自编码的模型框架变分自编码训练过程为:对原始数据进行编码得到隐变量,将隐变量解码得到重构数据.编码器E的输入为原始数据x,输出为相应潜变量空间上的均值μ(x)和方差δ(x).假定潜变量空间的数据满足N(0,I)的正态分布,则解码器的输入为z1=μ(x)+δ(x)z,输出为生成的重构样本Dg(z1).经过反复训练,使真实数据和重构数据的均方误差(mean square error,MSE)不断变小,同时保证原始数据在潜变量空间上的映射尽可能接近假定的数据分布.生成对抗网络的稳定性在训练中很难得到保证,而且伴随模式崩溃问题,当生成多样性数据时存在一定限制.变分自编码的训练相较于生成对抗网络通常更稳定,但是变分自编码实际生成的数据误差较大;因此,综合生成对抗网络和变分自编码的优点,提出了双重对抗自编码数据扩张方法,即在变分自编码网络结构中加入判别器和数据类别信息来生成多类别的数据.1.2 双重对抗自编码模型双重对抗自编码模型框架由四个网络组成,即编码器E、解码器Dg、潜空间判别器D1及样本判别器D2,如图3所示.10.13245/j.hust.231205.F003图3双重对抗自编码的模型框架整个双重对抗自编码模型包含两个对抗网络结构,第一重对抗为编码器E和潜空间判别器D1之间的对抗,第二重对抗为解码器Dg与样本判别器D2之间的对抗.第一重对抗网络结构如图4所示.设计了一个潜空间判别器D1,使得潜空间变量x1满足特定的P(z)分布,通过神经网络来学习数据的分布,与编码器形成了模型中的第一重对抗.编码器包含5个中间层(3个1D卷积,2个全连接层),卷积核尺寸均为3,步长为1.考虑到一维时序数据的输入,采用1D卷积层降维,且每层后均添加批归一化层.潜空间判别器的中间层为4个全连接网络,每层后也添加批归一化层.为保证训练的效率和稳定性,中间层均采用leakyrelu激活函数.10.13245/j.hust.231205.F004图4编码器和潜空间判别器的网络结构图第二重对抗网络结构如图5所示.解码器与编码器的网络结构相对称,包含2层全连接和3层1D反卷积.为保证生成数据与输入数据的维度一致,解码器输出层设置4个滤波器.除了均方误差,本研究还计算了平均误差(mean absolute error,MAE)来设计样本判别器D2,用来对重构样本进行分类及判别,实现对解码网络的约束,以提高生成样本的质量.样本判别器D2和编码器E的输入结构相同,所以采用相似的网络结构.输出为两个并列结构,一个为能够判定数据类别的softmax输出层,另一个为鉴别数据真假的全连接层,采用sigmoid激活函数.10.13245/j.hust.231205.F005图5解码器和样本判别器的网络结构图1.3 模型训练第一重对抗训练:首先从数据集中选取m个数据组成样本集合X,输入到编码器E,输出维度为m×n的潜空间变量x1,实现原始数据在潜变量空间的映射.为了使得映射后的变量满足P(z)分布,将潜空间数据x1和符合分布P(z)的变量z分别输入到潜空间判别器D1,最后通过sigmoid激活函数进行概率输出.编码器和潜空间判别器的熵损失函数LE和LD1表达式为LE=-Ex~Px{log D1[E(x)]};(1) LD1=-Ex~Px{1-log D1[E(x)]}+Ez~Pz{log[D1(z)]}. (2)为最小化损失函数,减少训练的误差,须要对损失函数求导,反向传播使参数θE和θD1实现自更新.第二重对抗训练:第一重训练完成后,将编码器输出的潜空间变量x1与对应经过one-hot编码后的类别标签y结合,得到组合变量x1c,输入到解码器后生成重构样本Dg(x1c).解码器Dg的总损失函数LDg的一部分由均方误差和平均误差结合的重构损失函数LDg-re组成,表达式为LDg-re=βDg(x1c)-x22+(1-β)Dg(x1c)-x1,(3)式中:Dg(x1c)-x22和Dg(x1c)-x1分别为重构样本和原始样本的均方误差和平均误差;β为均方误差和平均误差的权重分配系数,经过实验,β取0.8.将真实样本x和重构样本Dg(x1c)分别输入到样本判别器D2中,输出为经过sigmoid激活函数的真假概率,以及经过softmax函数的类别概率.解码器Dg和样本分类器D2的熵损失函数LDg-ent和LD2分别为 LDg-ent=-Ex1c~Px1c{logPD2[1Dg(x1c)]}-Ex1c~Px1c{logPD2[yDg(x1c)]}; (4) LD2=-Ex1c~Px1c{1-log{PD2[0Dg(x1c)]}}-Ex~Px{log[PD2(1x)]}-Ex~Px{log[PD2(yx)]}, (5)式中:当输入为生成样本Dg(x1c)时,PD2[1Dg(x1c)],PD2[0Dg(x1c)]和PD2[yDg(x1c)]分别为样本判别器判定重构样本为真、假及类别y的概率.当输入为真实样本x时,PD2(1x)和PD2(yx)分别为样本判别器判定真实样本为真及类别y的概率.解码器Dg总的损失函数为LDg=LDg-re+LDg-ent,在第二重对抗后,更新网络参数θDg和θD2,最终使得模型收敛到全局最优.通过整个网络的迭代训练,最后仅将组合变量输入到解码器中,即可得到质量高且含有多类样本的数据集.2 实验与分析鉴于匝间短路故障数据不足,将双重对抗自编码数据扩张方法应用到永磁同步电机故障数据集,为故障诊断提供更多的数据,具体流程如图6所示.10.13245/j.hust.231205.F006图6双重对抗自编码数据扩张方法应用流程2.1 模型样本选用A相电流、B相电流、负序电流、电磁转矩形成组合特征,进行归一化处理,映射到[0,1]区间,作为输入变量输入到分类模型中.对永磁同步电机的状态类型进行One-Hot编码(见表1),健康状态代表电机正常,无匝间故障;故障状态A、故障状态B、故障状态C分别表示短路程度为5%,10%和15%时的匝间短路.模型的输出变量是永磁同步电机的4种状态.转速为额定转速,电机每类故障状态设置4种负载,分别为无负载、满负载的25%,50%和75%,不同故障状态下每种负载的数据量不变.10.13245/j.hust.231205.T001表1电机状态编码表运行状态状态数字编码One-Hot编码健康状态1(1,0,0,0)故障状态A2(0,1,0,0)故障状态B3(0,0,1,0)故障状态C4(0,0,0,1)本研究构建的数据集样本总数为2 382,将每类样本以3∶1的比例分成训练集和测试集(见表2).10.13245/j.hust.231205.T002表2样本分布状态状态总样本数训练样本数测试样本数11 6751 25741823582698932261705641239330实验确定其他训练参数:训练次数为1×104,每个批次样本量为64,潜空间的数据维度为8,编码器和解码器的学习率为0.002,潜空间判别器和样本判别器的学习率为0.001,单次训练中编码器、解码器、潜空间判别器、样本判别器网络的优化次数比为2∶4∶1∶1.2.2 模型训练及数据分布损失函数的变化趋势能够反映生成数据的质量,图7为解码器和样本判别器的训练过程中损失函数值的变化.解码器损失表示生成数据和真实数据之间的差距,样本判别器损失表示分辨样本来源是真实数据还是生成数据的能力.迭代训练初期解码器损失很大,但随着迭代次数的增加,解码器损失快速下降然后趋于稳定,最终与样本判别器损失在零值附近形成纳什均衡;同时,样本判别器的准确率用于评估输入数据是否符合某一类别数据的特征.图8中,当迭代次数处于0~2 000之间时,样本判别器的分类准确率显著提高,在迭代次数超过2 000后,准确率缓慢增加并最终平稳收敛在98%左右.此时模型能够生成质量较高的数据,可用于后续永磁同步电机故障数据扩张任务.10.13245/j.hust.231205.F007图7损失函数值变化趋势10.13245/j.hust.231205.F008图8样本判别器的准确率变化趋势经过训练此时已经获得成熟的双重对抗自编码生成模型,为证明其有效性,以故障状态B为例,选用随机过采样、合成少数类过采样技术及变分自编码3种方法进行对比分析.利用主成分分析法(principal component analysis,PCA)将永磁同步电机的A相电流、B相电流、负序电流和电磁转矩组合特征构成的数据映射到二维空间,用于定性观察生成的故障样本与真实样本的数据分布相似性,结果如图9所示.10.13245/j.hust.231205.F009图9不同方法生成的数据分布从图9可以看出:a. 随机过采样只是对原始样本进行复制,生成的数据与原始数据完全重合.理论上生成的还是原始样本,容易增加分类器的过拟合风险.b. 合成少数类过采样技术是通过线性插值生成新样本,小部分数据偏离原始数据,生成了一些多样性的数据,但是大部分新数据与原始数据位置接近甚至重叠.c. 变分自编码相当于在原始数据上增加了一些随机噪声,但仍存在过拟合的问题.d. 双重对抗自编码通过压缩原始数据变为新的隐变量生成样本数据,可以生成更加多样性的数据,而且新样本与原始样本位置比较接近,说明双重对抗自编码可以生成满足特定数据分布的多样性样本,生成永磁同步电机故障数据的性能较好.2.3 不同数据扩张方法的性能对比为了验证双重对抗自编码数据扩张方法的效果,本研究以简单易用、计算速度快的极限学习机(extreme learning machine,ELM)[16]为例,选用随机过采样、合成少数类过采样技术、变分自编码3种传统过采样方法与双重对抗自编码进行对比分析.在此选用分类准确率λAcc、F1度量λF1和λGmean来综合评价几种分类模型的分类性能,λAcc=∑i=1Lnii/∑i=1,j=1Lnij;(6)λF1=2L∑i=1LRi∑i=1LPi/∑i=1LRi+∑i=1LPi;(7)λGmean=∏i=1LRi1/L,(8)式中:L为样本总类别数;nij为实际样本类别为i被预测成为类别j的样本;Ri为召回率指标,Ri=nii /∑j=1Lnij;Pi为精度指标,Pi=nii /∑j=1Lnji.将双重对抗自编码扩张后的样本集用于永磁同步电机故障诊断实验,将真实样本及扩张样本分别输入极限学习机,提取样本重要特征并反复学习,训练完成后用测试数据检验诊断效率.4种数据扩张方法均保证训练集各类别的样本数量相同.在测试集上的故障诊断结果见表3,得到以下结论.10.13245/j.hust.231205.T003表3不同数据扩张方法下的故障诊断结果方法λAccλF1λGmean原始数据0.875 60.753 50.745 8ROS0.915 20.782 60.782 2SMOTE0.924 50.793 10.804 6VAE0.935 60.823 50.833 2CAAE0.982 50.875 20.863 5a. 当仅训练原始数据时,样本量不多,测试集的分类准确率λAcc、F1度量λF1和λGmean都不高.数据扩张后,对于λAcc,双重对抗自编码、变分自编码、合成少数类过采样技术和随机过采样分别增长了12.21%,6.85%,5.58%和4.52%;对于λF1,双重对抗自编码、变分自编码、合成少数类过采样和随机过采样分别增长了16.15%,9.29%,5.26%和3.86%;对于λGmean,双重对抗自编码、变分自编码、合成少数类过采样和随机过采样分别增加了15.78%,11.72%,7.88%和4.88%.这说明数据扩张增加样本数量后,可以提升极限学习机的分类性能.b. 对比各种数据扩张方法的λAcc,λF1和λGmean,双重对抗自编码的各项指标最高,其次是变分自编码、合成少数类过采样和随机过采样,这说明双重对抗自编码对永磁同步电机故障数据扩张的效果最好.2.4 不同分类器的性能对比为了测试双重对抗自编码数据扩张模型的适应性,比较了几种常见分类器在数据扩张前后的性能提升程度.选用的几种基于深度学习的常用分类算法为多层感知机(multi-layer perceptron,MLP)[17]、支持向量机(support vector machine,SVM)[18]和轻梯度提升机(light gradient boosting machine,Light-GBM)[19],实验在测试集上的分类结果见表4.结果表明:数据扩张后的λAcc提升了8.02%~13.68%,λF1提升了9.58%~17.22%,λGmean提升了4.63%~15.78%.这说明双重对抗自编码生成的新样本对于不同分类器都具有适应性,可以提升永磁同步电机故障诊断的精度.10.13245/j.hust.231205.T004表4不同分类器的故障诊断结果指标/分类器ELMMLPSVMLightGBMλAcc扩张前0.875 60.789 30.753 20.798 5扩张后0.982 50.873 20.856 20.862 5λF1扩张前0.753 50.72 20.681 80.673 5扩张后0.875 20.791 20.776 30.789 5λGmean扩张前0.745 80.738 90.684 20.715 8扩张后0.863 50.773 10.756 60.768 13 结论针对深度学习存在数据不足及数据质量不高的问题,提出了一种双重对抗自编码的样本扩张方法,将其用于扩张永磁同步电机匝间短路故障数据,得出如下结论.a. 通过主成分分析法对原始数据和生成数据进行二维可视化,对比四种方法数据分布,双重对抗自编码模型能够学习到原始数据的分布特征,生成与原始数据分布相似的数据,解决了数据不足的问题.b. 对比四种模型的诊断结果,双重对抗自编码使得诊断模型的λAcc,λF1和λGmean较随机过采样、合成少数类过采样、变分自编码等方法提升效果更为明显,生成的数据质量更高.c. 经过双重对抗自编码数据扩张后的各个分类器综合指标均有提升,说明双重对抗自编码数据扩张模型具有一定的适用性.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览