在人类的感知系统中,视觉感知和听觉感知是两种主要感知手段.其中,声音是传递信息的重要媒介,也是听觉感知系统的基本要素之一[1].当前,随着人工智能技术的迅速发展,机器视觉、计算机视觉等方面的技术虽趋于完善,但机器听觉的主要研究对象是语音和声纹,其对复杂声场景分类和检测等领域的研究仍相对匮乏[2].为对智能感知系统进行完善,必须将声场景的分类研究纳入其中[3].当前,声场景分类主要应用于公共安全智能化监控、异常声音检测、城市噪音检测等领域[4-7].在声场景分类领域,国内外诸多学者分别采用传统机器学习和深度学习等方法开展了一系列较为深入的研究.文献[8]使用支持向量机模型并基于声场景标准数据集Urbansound8K开展了实验,其分类准确率达到71.0%.近年来,由于单特征输入方法下模型的分类准确率及其泛化能力均很难有大幅提升,因此声学特征融合方法的研究逐渐成为该领域的重要研究方向之一.文献[9]提出了梅尔语谱图等四个特征通过拼接实现了特征间的融合.文献[10]基于卷积神经网络开展了特征融合实验,其模型的分类准确率达到了87.7%.文献[11]基于深度神经网络和和决策级分数融合方法开展了研究,其模型在Dcase2017数据集上的分类准确率达到了82.1%.文献[12]将不同深度卷积神经网络提取出的语义特征进行聚合,该模型在Dcase2018数据集上的分类准确率达到了80.0%.本研究提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强方法的基本原理;其次,基于网络并行输入理论设计了一种多流卷积神经网络;然后,为降低模型过拟合的风险以期实现数据的平滑处理,提出了一种多维混合数据增强方法;最后,基于Urbansound8K,ESC50和ESC10数据集开展了声场景分类实验.1 卷积神经网络和混合数据增强1.1 卷积神经网络卷积神经网络(CNN)是一种以卷积运算为主体的前馈神经网络,其结构主要包括输入层、卷积层、激活层和全连接层等.CNN利用其庞大的计算量及卷积核权重的不断更新来实现信息的快速定位,以此来保证模型的稳定性.因此利用卷积神经网络对声学特征图中的有效信息进行提取已经成为声场景分类领域的重要研究方法之一[13],其原理是通过可训练的卷积核在特征图上的卷积运算来获取图中的关键信息.声学特征图包含时间和频率两个维度,CNN每一层的卷积核在输入特征图上做卷积运算后经过批归一化和激活函数运算后,将其结果输出至下一个卷积层,则第l层卷积层输出的第i个特征图Xil可以表示为Xil=σbil+∑m∑nXil-1*wil,(1)式中:m和n为卷积核在时间帧和频率帧上的维度尺寸;wil为第l层卷积层输出的第i个特征图中卷积核的权重系数;b为偏置值;σ(·)包含批归一化和激活函数等操作.1.2 混合数据增强近年来,随着声场景分类数据集样本的增加,深度神经网络层数加深,从而模型发生过拟合的风险随之提高[12].混合数据增强是邻域风险最小化的一种形式,其是一种从训练样本的邻域分布中提取其他虚拟样本,通过融合特征向量的线性插值来扩展训练分布的方法.在监督学习的过程中,理想状态下可通过定义一个函数来描述输入向量a和目标向量b之间的映射关系,在该状态下,二者均服从联合概率分布P(a,b).但在实际状态下,利用深度学习方法训练出来的模型对目标向量的预测往往会产生一定的误差,故造成了模型产生过拟合的风险,模型的期望风险值Re通常定义为Re=∫L(f(a),b)dP(a,b),(2)式中:L(·)为判别器的损失计算;f(a)为模型的预测值.基于邻域风险最小化理论[15],模型的邻域风险值Rv=1M∑i=1ML(f(a),b),(3)式中M为训练集的样本数.基于邻域风险最小化理论[14],文献[15]提出一种混合数据增强方法mixup,其通过将训练集中的数据和标签分别进行混合来实现数据的平滑处理,从而降低模型过拟合的风险,基于此方法,模型的邻域风险值Rm定义为Rm(x˜,y˜)=1WN∑W∑i,jNL(f(x˜),y˜);x˜=λxi+(1-λ)xj;y˜=λyi+(1-λ)yj, (4)式中:(x˜,y˜)为混合后的训练数据和标签;W为训练批次的个数;N为原始训练数据中每一训练批次的样本数;(x,y)为原始训练数据和标签;i和j分别对应原始训练数据中每一训练批次中数据的两组索引值,i∈[0,N/2],j∈[N/2,N];混合参数λ的取值满足贝塔分布,λ~Beta(α,β),其中λ∈[0,1],α=β=0.2.值得指出的是:混合数据增强方法实现了特征数据和标签的平滑处理,既提升了模型的分类准确率及泛化能力,又在一定程度上降低了单特征输入的模型出现过拟合的风险[15].2 基于多流卷积的声场景分类方法2.1 多流卷积神经网络卷积神经网络虽能高效地提取特征图中的关键信息,但其只允许单特征输入,不能实现特征之间的相互融合.针对这一问题,国内外诸多学者分别提出了诸如特征叠加、聚合及决策端融合等方法.线性叠加方法[10]通过将不同声学特征的数值相加来实现特征融合,其增大了特征图中有效区域的数值.特征聚合方法则通过将特征图沿频率帧进行聚合得到新的特征图来实现特征融合.决策端融合方法[11]是将不同特征下模型的输出分数的平均值作为预测分数来实现特征融合,但上述方法在一定程度上均会导致原有特征的局部信息丢失等问题.基于不同声学滤波器的特征能够对音频样本时频域的关键信息分别提取,单独分析某一种声学特征会导致模型分类准确率不高且泛化性能较差等问题,因此开展多流卷积以期实现多特征融合的研究是很有必要的.针对上述问题,为更全面和高效地提取不同滤波器下的特征信息,基于网络并行输入理论,将卷积神经网络改进为支持多特征输入的多流卷积神经网络(MCNN),以期实现不同特征间的相互融合,如图1所示,图中:X为输入特征图;Xl为经过卷积层后的输出;X˜(i)为特征提取模块的输出矩阵;v为特征融合模块的输出.10.13245/j.hust.220407.F001图1MCNN网络模型示意图MCNN由特征提取模块和特征融合模块组成,其网络结构如图1所示.网络输入端采用多特征输入方法,首先,将不同的特征图并行输入特征提取模块,在特征提取模块中,每一通路的网络参数可以根据特征图的尺寸进行自适应调整,且不同特征图信息的提取过程相互独立;然后,将特征提取后的多个特征向量输入特征融合模块,将特征向量扁平化处理并融合成尺寸为1×k×Q的特征矩阵(k为特征图的种类,Q为特征提取模块中每一通路网络的全连接节点个数);最后,通过全连接层,输出每个类别的分数.2.1.1 特征提取模块利用卷积神经网络对声学特征图中的信息进行提取是声学领域通用的特征提取方法,但传统的单特征输入方法只能将一种声学特征图输入网络进行训练,其会导致模型分类准确率不高,且泛化能力不强.针对上述问题,将网络并行输入的理论引入卷积神经网络的设计,通过搭建特征提取模块,将不同滤波器下的声学特征并行输入网络进行训练,这样既实现了网络宽度的拓展,又达到了不同特征之间相互融合.设有k种特征图并行输入网络,则模型的输入X定义为:X=[X(1),X(2),…,X(k)],(5)式中X(1),X(2),…,X(k)分别为k种声学特征图.相较于卷积神经网络,多流卷积可以:a. 有针对性地对不同声学特征图中的关键信息进行提取,其能够保证每一种特征提取过程的同时性且不受特征图尺寸的制约;b. 针每一通路的卷积运算和误差反向传播过程相互独立,从而实现了不同特征之间的相互融合.假设有三种声学特征图并行输入,即k=3,多流卷积神经网络的第l层卷积层的输出结果可表示为:      Xl(1)(tl(1),fl(1))=σ(bl(1)+∑m(1)∑n(1)Xl-1(1)(tl-1(1),fl-1(1))wl(1));      Xl(2)(tl(2),fl(2))=σ(bl(2)+∑m(2)∑n(2)Xl-1(2)(tl-1(2),fl-1(2))wl(2));      Xl(3)(tl(3),fl(3))=σ(bl(3)+∑m(3)∑n(3)Xl-1(3)(tl-1(3),fl-1(3))wl(3)), (6)式中t和f为表示声学特征图在时间帧和频率帧的尺寸,保证了多流卷积过程不受特征图尺寸的制约.式(6)表明:由于特征提取模块中每一通路均由三组卷积核数量递增(分别为32,64和128)的卷积组和三个池化层组成,每个卷积组均包含两个卷积核数量相同且尺寸为3×3的卷积层、批归一化操作和激活函数ReLU.故每一通路的网络结构相同,其保证了每种特征提取方式的一致性,且由于通路中卷积层数较少,因此将池化层的尺寸依次设置为4×4、3×3和3×3以实现特征图尺寸的压缩.此时,特征提取模块的输出X˜(i)为X˜(i)=f3×3(f3×3(f3×3(X(i))))  ,(7)式中:X(i)为第i种输入特征图;f3×3(⋅)为卷积组和池化运算.2.1.2 特征融合模块声学特征融合是指将不同的特征图通过叠加或聚合等方法融合成一种新的特征,其在一定程度上能够实现不同声学特征图中有效信息的相互补充[10-11].目前已有的声学特征融合方法主要包括像素级的特征聚合方法[10]、决策端融合方法[12].其中,像素级特征聚合方法是将特征图拼接后输入网络进行训练,而决策端融合则是将不同声学特征单独输入网络进行训练,再将其模型预测值取平均值.必须指出的是,上述两种特征融合方法仍存在以下问题:特征聚合方法由于输入特征图维度较大,容易使模型陷入局部最优;决策端融合方法则不能保证模型的泛化能力.针对上述问题,提出一种网络端的特征融合方法,如图1所示.其工作原理如下:首先将k种特征图分别经过特征提取模块后输出尺寸为H×W×128;其次将其分别经过扁平化处理;然后将结果通过Concatenate函数进行合并级联处理再全连接到256个隐藏层节点上;最后利用softmax函数进行激活从而得到每一类别的预测分数.特征融合模块的输出v=D(256)(C[F(X˜(k))]),(8)式中:C[·]表示Concatenate函数;D(·)表示全连接处理;F(·)表示扁平化处理.综上所述,针对单特征输入时模型分类准确率不高、泛化性能不强的问题,基于网络并行输入理论,搭建的多流卷积神经网络可有效实现不同特征之间的相互融合.2.2 多维混合数据增强多流卷积神经网络虽实现了多种特征图的并行输入,但随着网络宽度的增加,模型的训练参数量也成倍增长,模型出现过拟合现象的概率也随之提高.混合数据增强方法虽能实现训练集数据和标签的平滑处理,降低单输入模型出现过拟合的概率[15],但其不能同时实现多组训练集数据和标签的平滑处理.针对上述问题,基于特征并行输入理论,论文进一步提出了一种多维混合数据增强方法(multi-dimension mixup,MDmixup),其是一种针对多流卷积神经网络的并行输入结构而设计的一种混合数据增强方法,该方法能够实现多种训练集的数据并行输入并分别进行混合数据增强,且同时保证对标签进行混合,从而降低模型出现过拟合的概率.当以K种声学特征训练集的数据并行输入时,基于该方法,则模型的邻域风险定义为RMD([x˜1,x˜2,…,x˜k],y˜)=1WN∑W∑i,jN∑k=1KL(f[x˜k],y˜), (9)式中:([x˜1,x˜2,…,x˜k],y˜)为混合后的训练数据和标签;W为训练批次的个数.当K=2时,x˜a和x˜b分别表示混合声学特征a和声学特征b所对应的训练数据,y˜表示二者共同的标签,有x˜a=λxac+(1-λ)xad;x˜b=λxbc+(1-λ)xbd;y˜=λyc+(1-λ)yd, (10)式中:(xa,xb)分别为两种特征所对应的原始训练数据;c和d分别对应原始训练数据中每一训练批次中数据的索引值,c∈[0,N/2],d∈[N/2,N];混合参数λ的取值满足贝塔分布,λ~Beta(α,β),其中λ∈[0,1],α=β=0.4.对比式(4)和(9)可知:多维混合数据增强方法通过对多组训练集数据和标签进行混合,既实现了数据的平滑处理,又最大限度保留了原有特征数据中的有效信息,从而降低了模型过拟合的概率.综上所述,基于多流卷积和数据增强的声场景分类方法具有以下特点:多流卷积神经网络基于网络并行输入理论,实现了多特征的输入、提取和融合;多维混合数据增强方法通过对多组训练集数据和标签进行平滑处理,既降低了模型过拟合的概率,又进一步提升了模型的分类准确率.3 实验3.1 实验设计为验证多流卷积和多维混合数据增强方法的有效性,基于城市声音标准数据集Urbansound8K[8]、环境音频数据集ESC-50[16]及其子数据集ESC-10开展声场景分类实验,Urbansound8K数据集总样本量为8 732,样本时长为0~5 s不等;ESC-50数据集总样本量为2 000,样本时长为5 s,总样本量为400,样本时长为5 s.实验平台配置为:Window10系统、显卡GTX1660Ti(6 GiB显存)、内存32 GiB;Keras+TensorFlow作为深度学习框架.3.1.1 声学特征对数梅尔语谱图(Lms)和梅尔频率倒谱系数(MFCC)是基于梅尔频率的三角滤波器组得到的声学特征[17].伽马通语谱图(Gts)和伽马通频率倒谱系数(GFCC)是基于等效矩形频率的伽马通滤波器组得到的特征[18].其中,特征的尺寸为(174,128).3.1.2 特征组合方案基于Urbansound8K、ESC-50和ESC-10数据集开展声场景分类预实验,对单特征输入时各声学特征的性能进行验证,其实验结果如表1所示.10.13245/j.hust.220407.T001表1单特征输入时模型的分类准确率对比模型特征分类准确率/%Ubansound8KESC-10ESC-50CNNLms83.6891.2568.50MFCC82.6390.0069.25Gts81.3890.0073.50GFCC80.8887.2571.25由表1可知:a. 在Urbansound8K数据集和ESC-10数据集下,利用Lms特征输入网络时模型的分类准确率最高,分别为83.68%和91.25%,而在ESC-50数据集下,当利用Gts特征输入网络时,模型的分类准确率最高,为73.50%;b. 当采用基于梅尔滤波器的特征时,模型在Urbansound8K数据集和ESC-10数据集上的分类准确率较高,而当输入特征为基于伽马通滤波器的声学特征时,模型在ESC-50数据集上的分类准确率较高.为验证本文方法的有效性,基于表1结论a,分别以Lms和Gts为主特征(每组方案均包含的特征)提出了5种双特征组合方案,同理基于表1结论b,分别以基于梅尔滤波器的特征(Lms和MFCC)和基于伽马通滤波器的特征(Gts和GFCC)为主特征提出了4种三特征组合方案,共9种特征组合方案如下所示.方案1:Lms和MFCC作为输入特征,表示为L_m.方案2:Lms和Gts作为输入特征,表示为L_G.方案3:Lms和GFCC作为输入特征,表示为L_gf.方案4:Gts和MFCC作为输入特征,表示为G_m.方案5:Gts和GFCC作为输入特征,表示为G_gf.方案6:Lms、MFCC和Gts作为输入特征,表示为L_m_G.方案7:Lms,MFCC和GFCC作为输入特征,表示为L_m_gf.方案8:Gts,GFCC和Lms作为输入特征,表示为G_gf_L.方案9:Gts,GFCC和MFCC作为输入特征,表示为G_gf_m.3.2 实验结果分析为验证多流特征融合方法相较于单特征输入方法在模型训练时其具有更高的分类准确率和泛化能力.分别利用Urbansound8K,ESC-50和ESC-10数据集在实验平台上开展声场景分类实验.首先,为验证提出的MCNN模型的分类准确率,基于上述9种特征组合方案在上述数据集上分别开展声场景分类实验,其实验结果如表2所示.10.13245/j.hust.220407.T002表2不同特征组合方案的分类准确率对比组合方案Ubansound8KESC-10ESC-50L_m84.7192.5070.00L_G84.3791.2571.25L_gf83.6390.0070.25G_m83.2790.0073.75G_gf83.1587.5071.50L_m_G85.3092.5074.75L_m_gf86.1493.7576.25G_gf_L84.1191.2575.25G_gf_m84.3591.2576.00%由表1和表2可知:a. 各特征组合方案的分类准确率相较于单特征输入方法的分类准确率,平均提高了2.21%,1.35%和2.60%;b. 各特征组合方案中,L_m_gf在Urbansound8K,ESC-10和ESC-50数据集上的分类准确率均为最高,其分别为86.14%,93.75%和76.25%,相较于单特征输入方法的最高准确率,其分别提高了2.46%,2.50%和2.75%,也进一步验证了模型的泛化性能.上述实验结果表明:多流特征融合方法相较单特征输入方法表现出更高的分类准确率,且模型的泛化能力也均有所提升.为进一步提高模型的分类准确率,并验证提出的多维混合数据增强方法的有效性,基于多维混合数据增强方法在上述数据集下开展实验,其实验结果如表3所示.同时,为验证该方法能够降低MCNN模型出现过拟合的概率,表4给出了L_m_gf方案经过多维混合数据增强前后,模型的训练集准确率和测试集准确率.10.13245/j.hust.220407.T003表3多维混合数据增强后各方案的分类准确率对比组合方案Ubansound8KESC-10ESC-50L_m86.4693.7570.50L_G85.3592.5072.75L_gf84.9192.5071.50G_m84.7191.2575.00G_gf84.8390.0073.00L_m_G87.2795.0075.50L_m_gf88.2996.2577.75G_gf_L86.4693.7576.50G_gf_m85.9092.5077.00%10.13245/j.hust.220407.T004表4多维混合数据增强前后L_m_gf方案准确率对比数据集数据增强前数据增强后训练集测试集训练集测试集Ubansound8K89.9386.1487.6388.29ESC-1095.9393.7595.6296.25ESC-5079.8776.2576.1977.75%由表2和表3对比可知:a. 利用多维混合数据增强方法后,各组合方案的分类准确率均有所提高,平均提高了1.68%,2.08%和1.16%;b. 各组合方案中,L_m_gf在Urbansound8K,ESC-10和ESC-50数据集上的分类准确率也均为最高,分别为88.29%,96.25%和77.75%,进一步验证了其良好的泛化能力.由表4可知:a. 多维混合数据增强前,L_m_gf方案在3个数据集上的训练集准确率均高于测试集准确率,即模型出现了小幅过拟合现象;b. 多维混合数据增强后,该方案在3个数据集上的训练集准确率均低于测试集准确率,表明模型的过拟合现象消失.上述结论表明:采用该方法后模型的准确率和泛化能力均有显著提升,且该方法能够有效缓解模型的过拟合现象.图2和图3则给出了经过多维混合数据增强后L_m_gf在Urbansound8K和ESC-10数据集上的混淆矩阵.10.13245/j.hust.220407.F002图2L_m_gf方案准确率为88.29%混淆矩阵10.13245/j.hust.220407.F003图3L_m_gf方案准确率为96.25%混淆矩阵为进一步验证基于多流卷积和数据增强的声场景分类方法相较于已有模型的优良性能,分别基于上述数据集开展了声场景分类实验,其实验结果如表5所示.10.13245/j.hust.220407.T005表5三种数据集上各模型的分类准确率对比使用方法数据集Urbansound8KESC-10ESC-50基线系统[8]71.00——基线系统[16]—72.7044.30CNN+MGCC[10]87.70——特征聚合86.6093.8076.00SoundNet[19]—92.1074.20ANN+KNN[20]56.4078.0050.40MCNN+MD-mixup88.2996.2577.75%由表5结果可知:a. 在上述三个数据集下,基于多流卷积和多维混合数据增强的声场景分类模型均取得最高的分类准确率,且相较于基线系统分别提高了16.29%、23.55%和33.45%;b. 相较于文献[10]中的特征线性叠加方法,基于Urbansound8K数据集,模型分类准确率提高了0.59%,相较于特征聚合方法,模型分类准确率分别提高了1.69%,2.45%和1.75%;c. 相较于文献[19]中SoundNet模型和文献[20]中ANN&KNN模型,模型的分类准确率在Urbansound8K数据集上提高了31.89%,在ESC-10数据集上分别提高了4.25%和18.25%,在ESC-50数据集上分别提高了3.55%和27.35%.综上,结果表明:a. 多流特征融合方法相较于传统单特征输入方法、线性叠加融合和特征聚合方法,模型的分类准确率更高且泛化能力更强;b. 利用多维混合数据增强方法对输入数据进行平滑处理,其既能够有效降低模型出现过拟合的概率,又进一步提高了其分类准确率及泛化能力.4 结语针对当单特征输入时,现有声场景分类模型的分类准确率不高且泛化能力不强的问题,提出了一种多流卷积和多维混合数据增强的声场景分类方法.实验结果表明:多流特征融合方法相较于单特征输入方法、特征线性叠加融合方法和特征聚合方法,模型的分类准确率更高,且利用多维混合数据增强方法后,模型的分类准确率和泛化能力进一步提高,消除了MCNN模型出现的小幅过拟合现象,验证了所提出方法的有效性.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读