时频分析能够提供时间域和频率域的联合分布信息,是分析非平稳信号的有力工具[1-3].希尔伯特-黄变换(Hilbert-Huang transform,HHT)是比较常用的动态时频分析方法[4],但高频率分辨率的希尔伯特时频谱难以清晰地反映信号的时频特性.对HHT进行优化具有非常重要的实际意义.希尔伯特时频谱是表示非平稳信号时间、瞬时频率和瞬时幅度的三维谱图,而希尔伯特边际谱则表示信号中各瞬时频率的强度[5].文献[6]用短时分数阶傅里叶变换优化HHT,提取TIMIT数据库的时频谱特征进行语音识别,优化的HHT能够有效提高识别率,但短时分数阶傅里叶变换的最佳阶数不好确定.文献[7]提出一种智能诊断滚动轴承故障类别和严重程度的方法,通过HHT提取振动信号的时频谱图作为特征,用卷积神经网络能够有效进行故障分类,但未对希尔伯特时频谱的频率分辨率的大小进行讨论.文献[8]提出一种用改进的HHT进行电能质量扰动识别的方法,通过迭代HHT将原始非平稳信号表示成若干个正弦信号,能够提高HHT的分解效果,但迭代效果受迭代阈值和最大迭代次数的影响.文献[9]提出一种用HHT对超声异常信号进行诊断的方法,首先对希尔伯特时频谱进行平稳化,并计算平稳性指数,然后结合希尔伯特边际谱和平稳性指数,分析产生异常的原因,但该方法仅在频率方向上进行,不够全面。本研究提出一种能在时域和频域同时进行希尔伯特时频谱平稳化及自适应增强方法.首先,通过时域和频域平稳因子及权重的取值确定核矩阵,对希尔伯特时频谱进行平稳化;然后,用平稳化的希尔伯特边际谱值作为对应时频谱的增强因子,对希尔伯特时频谱进行自适应增强;最后,提取UrbanSound8K数据集的时频谱特征,用深度卷积神经网络分析平稳化和自适应增强前后的希尔伯特时频谱的表达效果.1 方法提出HHT主要包括经验模态分解(empirical mode decomposition,EMD)和希尔伯特变换两部分.EMD存在严重的模态混叠现象,而集合经验模态分解(ensemble empirical mode decomposition,EEMD)能够有效解决EMD中存在的模态混叠现象[10],因此用EEMD取代EMD进行HHT[11].1.1 HHT离散化分析长度为n的离散时间序列x(n)的希尔伯特时频谱可以表示为大小为(m,n)的矩阵H,m为希尔伯特时频谱中瞬时频率个数,范围为[0,fs/2],fs为 x(n)的采样频率,H=h11h12h13⋯h1nh21h22h23⋯h2n⋯hm1hm2hm3⋯hmn.H中的每一个值代表对应采样时间点和瞬时频率点上的瞬时幅度值.对H的每一行求和可以得到x(n)的希尔伯特边际谱,表示为大小为(m,1)的矩阵B,B中的每一个值代表对应瞬时频率在x(n)中的强度,B=[b1,b2,⋯,bm]T.定义1 希尔伯特时频谱的最小频率间隔.将H中任意两个相邻瞬时频率点的差值,称为希尔伯特时频谱的最小频率间隔Δfh.且Δfh越小,m越大,希尔伯特时频谱的频率分辨率越高,Δfh=fs/(2m),式中⋅为向下取整.由希尔伯特时频谱和边际谱的定义以及离散化分析可知,Δfh对二者来说是一个矛盾的量.Δfh越小,m越大,H和B能够表示的瞬时频率越多,即H和B越能够精确地表示非平稳信号的时频分布及所含瞬时频率的强度.Δfh越小,希尔伯特时频谱图上瞬时频率分布密集区域的谱线区分度越好,但谱线会变模糊,不利于直观分析.Δfh变小,有利于希尔伯特边际谱的表示,但会弱化希尔伯特时频谱图的表现形式.1.2 希尔伯特时频谱平稳化一般地,若要H和B能够更好地表示非平稳信号的特征,就得使Δfh变小,但这会弱化H的可视化表示.对非平稳信号而言,H的最大值不一定固定在特征频率[9]处,而是出现在其附近,且随时间波动.在离散时间序列中,当前采样点的值可以由其附近若干个采样点的值线性表示出来[11].于是,在文献[9]的基础上,根据卷积运算的思路,提出一种能在时域和频域方向上同时对H进行平稳化的方法,使得当Δfh变小时,希尔伯特时频谱图的表现形式不会被明显弱化.具体步骤如下.步骤1 给出时域和频域平稳因子t和f的取值,为大于等于0的整数.步骤2 由t和f确定核矩阵K,K=00 ⋯0wf100 ⋯0 0⋯0 ⋯0wf200 ⋯000 ⋯0wff00 ⋯0wt1wt2 ⋯wttwwtt+1wtt+2⋯wt2t+100 …0wff+100 ⋯0⋯00 ⋯0wf2f+100 ⋯0,K的大小为(2f+1,2t+1),w为所在位置的权重,取大于等于0的整数.步骤3 给出w值,并对H进行平稳化,具体为:a.根据t和f的取值在H的四周进行补0,得到大小为(m+2f,n+2t)的矩阵H0;b.用K对H0做滑窗处理,步长为1,方向为由左到右,由上到下;c.计算每次滑动时K和H0对应位置的值相乘之后的平均值,并保留为平稳化之后的希尔伯特时频谱的值.步骤4 得到平稳化的希尔伯特时频谱Hc和边际谱Bc.2 特征提取通常非平稳信号包含若干个频率成分,且每一频率所占的权重不一样[12-14].高频率分辨率的希尔伯特边际谱能够精确反映非平稳信号中各频率成分的强度.用B作为H的增强因子,对H进行自适应增强,使得H中强度高的瞬时频率所对应的瞬时幅度值与强度低的瞬时频率所对应的瞬时幅度值之间的差距更加明显.自适应增强后的希尔伯特时频谱为He[i,:]=H[i,:]×B[i] (1≤i≤m).(1)为了验证平稳化和自适应增强对希尔伯特时频谱图的表现效果带来的影响,用UrbanSound8K数据集提取相应的希尔伯特时频谱图作为特征,并进行分类识别.UrbanSound8K数据集包含10种环境声音,分别是冷气机、汽车喇叭、儿童玩耍声、狗吠声、钻孔、发动机空转、枪射击、手持式凿岩机、警笛和街头音乐,均为双声道,采样频率为44.1 kHz.提取特征使用的音频的长度均为4 s,并将两个声道的对应值相加之后再按如下步骤进行特征提取.步骤1 分帧加窗.采用汉明窗,帧长和帧移分别为512和256个采样点,共得到688帧信号.步骤2 给出m,计算Δfh,然后对每一帧信号做如下操作:a.由HHT得到原始希尔伯特时频谱H和边际谱B;b.采用文献[9]的方法得到平稳化的希尔伯特时频谱Hk和边际谱Bk;c.采用所提方法得到平稳化的希尔伯特时频谱Hc和边际谱Bc;d.按照式(1)对Hk和Hc做自适应增强,得到自适应增强后的希尔伯特时频谱Hke和Hce.步骤3 保留H,Hk,Hc,Hke和Hce作为特征,并划分为500个训练样本和188个测试样本.3 识别模型Inception-v3模型[15]应用卷积核分解思想,能够在加深网络深度的同时降低参数量,是目前应用较为广泛的一种深度学习模型.基于Inception-v3模型,搭建网络结构如表1所示的深度卷积神经网络,进行验证实验.实验中,训练步数设置为3×104,学习率为0.001,批大小为16.10.13245/j.hust.210109.T001表1深度卷积神经网络结构名称卷积核大小步长输入尺寸卷积层3×32255×255×3卷积层3×31128×128×32卷积层3×31128×128×32池化层3×32128×128×64卷积层3×3263×63×64Inception模块3个Inception-v332×32×80池化层3×3232×32×192Inception模块5个Inception-v315×15×192池化层15×1515×15×288线性全连接层1×1×2884 实验结果与分析每次实验,提取相应的特征,构建样本数为5 000的训练集和样本数为1 880的测试集.衡量指标为测试集的正确识别率(Acc)和Macro-F1分数(F1).Acc为测试集被正确分类的样本个数与测试集样本总个数的比值;F1为每一类别的F1分数[12]的平均值,F1=2pr/(p+r),式中:p为查准率;r为召回率.4.1 卷积平稳化对希尔伯特时频谱的影响为了验证所提平稳化方法和自适应增强方法对希尔伯特时频谱的影响,分别在m=700,1 000和1 400,即Δfh=31,22和15情况下提取相应的时频谱特征.其中,提取特征Hk时,k设置为2,提取特征Hc时,t和f均设置为2,且w均为1.用提取的特征进行模型训练和测试,分类识别结果如表2所示.10.13245/j.hust.210109.T002表2平稳化和自适应增强的分类识别结果ΔfhHHkHkeHcHceAcc/%F1Acc/%F1Acc/%F1Acc/%F1Acc/%F13187.587.292.591.768.866.292.592.766.366.32286.386.767.667.388.888.867.564.91590.090.566.966.791.391.365.665.5分析表2可知:当Δfh=22,15时,用H作为特征无法进行模型训练,m过大,H中的谱线比较模糊,网络无法正确分类.但对H进行平稳化,能够有效解决这一问题,当Δfh=22,15时,用特征Hk和Hc获得的Acc分别为86.3%,90.0%和88.8%,91.3%,当Δfh=31时,用特征Hk和Hc所获得的Acc均比用特征H所获得的Acc高5%.在所给的参数下,提出的平稳化方法比文献[9]中的平稳化方法对希尔伯特时频谱的平稳化效果要好.虽然当Δfh=31时,用特征Hc和Hk所获得的Acc值相等,但是当Δfh=15,22时,用特征Hc比用特征Hk所获得的Acc分别高1.3%和2.5%.此外,当Δfh=15,22和31时,用特征Hc比用特征Hk所获得F1高0.8%,2.1%和1.0%,说明用特征Hc训练的模型的分类效果更好,即所提方法的平稳化效果更好.分析表2还可知:用特征Hke和Hce训练的模型的分类效果比用特征Hk和Hc训练的模型的分类效果差,这是因为10类环境声音的频率分布范围比较接近,自适应增强使得时频谱图的谱线分布更加相似,训练网络时容易发生过拟合.4.2 核矩阵对平稳化效果的影响核矩阵是所提平稳化方法的核心,决定了平稳化之后的希尔伯特时频谱图的具体表现形式.为了验证核矩阵K的变化对Hc造成的影响,当Δfh=22时,分别用核矩阵K1,K2,K3,K4和K5提取特征Hc,进行模型训练和测试.其中:K1的大小为(7,5),w均为1;K2的大小为(5,7),w均为1;K3的大小为(11,7),w为1;K4=00100002000020012421002000020000100;K5=0010000200124210020000100.(2)用提取的特征进行模型训练和测试,分类识别结果如表3所示.10.13245/j.hust.210109.T003表3用提取特征进行模型训练和测试的分类识别结果参数K1K2K3K4K5Acc/%83.7588.1390.0090.0090.63F183.1188.7989.6689.3690.42分析表3可知:K1,K2和K3是大小不同、权重相同的三个核矩阵,所获得的Acc分别为83.75%,88.13%和90.00%,说明核矩阵的大小会影响平稳化的效果,进而影响识别率的大小;K4和K1是大小相同、权重不同的两个核矩阵,所获得的识别率相差6.25%,说明核矩阵的权重会影响识别结果.此外,由表2可知:当K5的w为1时Acc和F1分别为88.8%和88.8,而当w如式(2)所示时,二者分别为90.63%和90.42,也说明核矩阵的权重会影响识别率.图1为K5两种不同权重下的F1分数概率图.10.13245/j.hust.210109.F001图1K5两种不同权重下的F1分数概率图分析图1可知:w=1时所获得的最低F1分数概率为0.55,能够完全正确分类的种类数为3,而当w为式(2)时,所获得的最低F1分数概率为0.75,能够完全正确分类的种类数为4,这说明核矩阵的权重会影响平稳化的效果,进而影响训练所得模型的性能.5 结论为了解决高频率分辨率的希尔伯特时频谱表现效果差的问题,首先对希尔伯特时频谱进行平稳化,得到平稳化的希尔伯特时频谱和边际谱,然后将希尔伯特边际谱值作为增强因子,对希尔伯特时频谱进行自适应增强,最后提取UrbanSound8K数据集的希尔伯特时频谱特征,用深度卷积神经网络验证优化效果,结论如下.a. 提高频率分辨率会使希尔伯特时频谱和边际谱的值更加准确,但是高频率分辨率的希尔伯特时频谱的信息量太大,不能够作为一种有效的特征.b. 对高频率分辨率的希尔伯特时频谱进行平稳化,能够有效解决信息量太大、希尔伯特时频谱图中谱线变模糊的问题.c. 自适应增强能够根据瞬时频率的强度自适应改变希尔伯特时频谱中对应的瞬时幅度值,但是增强效果会受非平稳信号自身频率分布的影响.d. 所提方法兼顾时域和频域两方面的信息,是一种效果更好的平稳化方法.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览