随着深度学习和大数据技术的发展,语音识别(speech recognition,SR)技术也从传统的高斯混合-隐马尔可夫模型(GMM-HMM)转换为基于深度神经网络(DNN)的语言模型,催生出了基于深度学习的语音识别技术.相比于基于传统模型的语音识别技术,基于DNN的语音识别技术具有较强的大型词汇表建模能力、语音识别能力及较高的语音识别质量效率,已被广泛应用于语音助手、电商智能客服、亚马逊转录[1]、金融交易的声纹认证、智能家居的语音控制[2]等实际现实场景中.然而,基于DNN的语言模型在提升语言计算和分析能力的同时,亦更容易受到对抗样本的攻击[3-7],给SR系统带来了巨大的风险.近些年来,对抗样本的研究主要集中在计算机视觉领域[8],攻击者通过向图像中添加难以察觉的扰动,使得DNN模型产生错误的决策.基于DNN的语音识别同样面临着来自对抗样本的安全威胁.例如,攻击者通过精心构建语音对抗样本,使得多媒体音频包含购物指令,利用亚马逊语音助手进行网购[9],从中谋取利益,给用户造成经济损失.此外,语音对抗样本攻击方法与计算机视觉等领域存在显著差异.因此,研究语音对抗攻击具有重要意义.语音对抗样本旨在通过对载体信号引入微小的扰动,使语音识别或声纹识别系统出现特定的差错,但并不影响人耳对该语音样本的听觉感知[2,10-15].本研究按照攻击者对攻击模型所掌握的知识和攻击的发展,分别介绍以攻击效果、鲁棒性、隐蔽性为重点的攻击方法,以及综合三者的相关研究.最后,总结语音识别对抗攻击的工作并展望未来研究的发展方向.1 语音识别及其对抗攻击的概念1.1 定义和原理语音识别技术[16]包括自动语音识别(automatic speech recognition,ASR)、电脑语音识别(computer speech recognition,CSR)或是语音转文本识别(speech to text,STT),其目标是电脑自动将人类的语音内容转换为相应的文字.与说话人辨认及说话人验证不同,后者的目标是辨认或验证发出语音的说话人.语音识别包括音频信号输入、预处理、特征提取、基于模型的预测、后处理和文本输出[17]6个步骤(见图1).10.13245/j.hust.230219.F001图1语音识别的基本步骤音频信号输入通常可分为直接输入和间接输入两种方式.直接输入是指音频通过有线信道直接输入到语音识别模型的输入方式.间接输入即克服空中条件输入,是指由扬声器播放、经过空气传播、再由麦克风接收的输入方式,如图2所示.这种方式通常会使音频(扰动)受到环境混响及语音设备的噪声影响[18].10.13245/j.hust.230219.F002图2音频信号输入示意图预处理使用过滤超出人声范围的频率和消除信号能量低于特定阈值时间段的方式,执行初始语音/非语音识别.该步骤仅进行基本的滤波,但若非语音信号通过了能级和频率检查,则仍允许它们通过滤波器.特征提取是将过滤后的音频信号分割成短帧(通常约为20 ms),并从每一帧中提取特征.语音识别的特征提取算法利用了磁频谱(MFC)变换.在一个高水平上,它可以被认为是一个从输入中提取主导频率的变换.基于模型的预测是将提取的特征作为输入,并将其与离线构建的现有模型进行匹配,以生成文本预测.有的系统使用隐马尔可夫模型,有的系统使用深度神经网络.本研究主要探讨的是基于DNN模型的语音识别系统,这种系统的模型在训练过程中,会使用一种神经网络输出和相关评分函数CTC(connectionist temporal classification)[19],以解决时序可变的序列问题.后处理指通过使用额外的信息源,如语法规则或单词的局部性,对文本预测进行排序.1.2 攻击模型根据攻击者对受害者模型信息的掌握情况,可将攻击分为白盒攻击和黑盒攻击.白盒攻击指攻击者能够获取到模型的所有信息,包括内部的参数和结构.黑盒攻击指攻击者无法获取模型的信息,只能够通过API(application program interface)接口调用模型,仅能获取到模型的输出信息.根据输出信息的不同,又可将输出分为三种情况:只有输出的标签;有输出预测的分数及标签;盲输出(没有分数和标签,只有反馈结果).1.3 攻击任务给定输入音频波形x、一个目标转录y和一个SR系统C,攻击者寻找扰动δ(通常是最小的),将其添加到原始音频x,即可构建出另一个音频波形x'=x+δ.目标对抗攻击(targeted attack)指对抗样本迫使模型预测输出攻击者指定的目标标签.具体地,原始样本添加一个扰动后成为对抗样本,使其转录为攻击者指定的目标文本或命令,即在SR系统C中,对于给定输入音频波形x、目标转录y和添加扰动δ后得到的x',若C(x')=y;C(x)≠y,则称此攻击为目标对抗攻击,x'为相应的对抗样本.在目标对抗攻击中,一个音频波形x与一个扰动δ相对应.非目标对抗攻击(untargeted attack)中,y不是指定的,而是任意的,只须不同于相应真实标签的预测输出即可.非目标对抗攻击并不能够携带特定的指令,仅会造成转录错误,影响有限.在诸多非目标对抗攻击中,非目标通用对抗攻击因其扰动的通用性,具有较强的攻击能力,故本研究在非目标对抗攻击中仅着重论述非目标通用对抗攻击.不同于目标对抗攻击中的扰动,在非目标通用对抗攻击(non-targeted universal adversarial attack)中,攻击者的目标是找到一个通用的、使得大部分音频被转录错误的扰动δ,因此非目标通用对抗攻击中的多个音频波形x可与一个非目标通用扰动δ相对应,从而构造出多个对抗样本.2 语音识别对抗攻击的类型本节系统性地梳理了现有的语音识别对抗攻击方法,详细地描述了现有的白盒攻击、黑盒攻击和其他攻击方法,分析了目标对抗攻击、通用对抗攻击等攻击方法的攻击效果、鲁棒性、隐蔽性.其中,最具代表性的攻击方法如表1所示,表中√代表该篇论文实现的侧重点,作者重点关注的方面,并有不错的实现效果.10.13245/j.hust.230219.T001表1语音对抗攻击方法方法攻击效果鲁棒性隐蔽性攻击模型目标类型受害者模型由图像攻击迁移而来的攻击方法[10]√白盒目标DeepSpeech利用对抗训练克服空中条件[18]√白盒目标DeepSpeech利用卷积克服空中条件[11]√白盒目标Kaldi估计失真函数克服空中条件[20]√白盒目标DeepSpeech利用心理声学模型增强隐蔽性的攻击方法[12]√√白盒目标Kaldi卷积法[11]和心理声学模型增强隐蔽性[12]√√白盒目标Lingvo利用设备非线性的攻击方法[21]√白盒目标—非目标通用对抗扰动[25]√白盒非目标DeepSpeech命令歌[2]√√√黑盒目标Kaldi互补法[15]√√√黑盒目标商业模型遗传算法和梯度算法的结合[9]√黑盒目标DeepSpeech2.1 白盒攻击白盒攻击通过对训练集数据、模型结构、模型参数等内容进行分析,发现模型面临的潜在攻击风险,故可用于检测模型的脆弱性.2.1.1 目标对抗攻击A.通过迁移图像攻击方法优化攻击效果在音频领域中,语音识别应用广泛,是人工智能(AI)技术落地最为成功的一个场景,拥有巨大的市场价值.Carlini等[10]构建语音识别任务相关的目标对抗样本,对DeepSpeech模型发起白盒迭代优化攻击,证明了语音目标对抗样本的威胁性.为了提升攻击效果,Carlini等[10]首先使用CTC算法构建了一个初始对抗样本x0,然后采用改进过后的CTC损失函数对其进行优化,在不影响模型预测的前提下,降低失真度,增强对抗样本的隐蔽性,渐进地更新为攻击能力更强的对抗样本.具体地,给定任意音频波形x,构造另一个具有99.9%相似度的音频波形x'=x+δ,其中x'可以转录为所选择的任何短语y,即C(x')=y.采用分贝公式B(x)=max(20log10 xi);Bx(δ)=B(δ)-B(x),式中xi为音频的第i帧.量化引入扰动后的失真,并对CTC损失函数[28]与失真度之和进行改进,给出优化目标min δ22+ciLi(x+δ,πi);s.t.    Bx(δ)τ,式中:ci为权重;Li(∙)为第i帧损失;πi为第i种对齐方式;τ为分贝失真上限.在白盒攻击模型中,迭代优化攻击方法的攻击成功率较高、扰动较小,但是并不能克服空中条件,在现实场景中应用价值较低.此外,图像领域的一些防御方法是否对这类攻击具有防御作用尚待验证.B.通过克服空中条件增强鲁棒性现有方法主要采用对抗训练、卷积和失真函数克服空中条件,增强鲁棒性.a.对抗训练Carlini等[10]提出了一种针对深度学习语音模型的攻击方法,该方法直接将对抗样本输入到语音识别模型,以扰乱模型输出.然而,这种方法并不能够适应空中条件.为此,Yakura等[18]通过模拟环境混响和添加噪声的方式对抗训练样本,使对抗样本能够克服来自环境的混响及来自扬声器和麦克风的噪音,从而适应空中条件.该对抗样本可以通过户外扬声器或无线电进行传播,同时攻击多个目标,攻击范围更大、攻击效果更强.为了克服空中条件,Yakura等[18]首先考虑了人类对声音的感知范围及扬声器和麦克风的工作范围,并使用带通滤波器来明确地限制扰动的频率范围以避免扬声器、麦克风对范围以外的频带进行切割.然后,基于脉冲响应可以通过卷积再现捕获环境混响的事实,利用脉冲响应模拟不同环境中的混响来训练对抗样本,增强样本对混响的鲁棒性.最后,Carlini等[10]引入高斯白噪声来增强对抗样本对噪声的鲁棒性.实验结果表明:在扬声器-麦克风和无线电两种情况下,该方法最高可达到100%的攻击成功率.然而,这种方法通常只对具有两三个单词的短语有效,对一整个句子无效.此外,为了保证较高的攻击成功率,该方法引入了较大的扰动,甚至在某些情况下引入的扰动幅度大于原有音频,这使得该攻击方法的隐蔽性较差,容易被受害者察觉和防御.b.卷积Schönherr等[11]提出卷积法,该方法能够产生克服不同空中条件的通用对抗样本.不同于文献[18]的方法,卷积法不需要房间的先验信息(扬声器、麦克风的空间位置坐标,如图3所示),并且适用于不同房间的设置.此外,卷积法能够和心理声学隐藏方法相结合,以保证其隐蔽性.10.13245/j.hust.230219.F003图3利用原始音频信号与房间脉冲响应卷积克服空中条件卷积法产生对抗样本的方法与文献[12]提出的方法基本相似,分为强制对齐、梯度下降和通过听力阈值限制扰动三个步骤.唯一的不同点在于卷积法在三个步骤之前将音频在空中的传输建模为原始音频和房间脉冲响应(RIR)的卷积(如图3所示),从而描述了音频在空中传输的改变.当音频信号在空中传输后,新产生的音频信号可以近似表示为原始音频信号x和RIR(h)的卷积xh=x*h,式中*为多路径传输模型的简记符号.卷积法模拟不同的RIR,采用迭代算法来计算对抗样本,使得输出的对抗样本具有通用性.仿真实验和真实的物理实验结果均表明,在一定约束的不同房间设置下,卷积法都能够成功产生至少一个对抗样本.c.估计失真函数Chen等[20]开辟了克服空中条件的另一条道路——估计失真函数H(·),称之为形变.基于失真函数,形变将输入音频恢复到未经过空中条件的状态,从而达到更好的攻击效果.形变通过微基准测试证明信号失真主要是由于多路径传播和设备硬件引起的频率选择性,且这两种频率选择难以被区分及精确评估;因此,在到达信道频率选择性起主导作用的距离之前,形变集中提取聚合失真效应,将它添加到信号的产生过程中.形变分为“生成-清理”两个阶段:在生成阶段,从不同设备不同环境中收集一组H(·)测量值作为预先数据集,生成一个初始扰动δ,这些测量值捕获了频率选择性的主要影响;在清理阶段,形变进一步利用领域自适应算法来清理δ,通过补偿常见设备的特定特征来减少测量特性的影响,并最小化H(·)在测量中不可预测的环境依赖特征,以进一步提高攻击的距离和攻击的可靠性.在物理实践过程中,形变首次按照距离进行划分,在较远距离(6 m)侧重于攻击成功率(可达90%);在较近距离(3 m)保持攻击成功率的同时,提高音频质量.此外,形变首次对移动设备进行了攻击实验[20],成功率能够达到90%以上.C.利用心理声学模型增强隐蔽性Carlini等[10]引入的隐藏语音命令会被人类当作噪音,容易引起人类的怀疑.Zhang等[22]提出的海豚攻击不在人类听力的感知范围内,因此能够有效隐藏攻击.Schönherr等[12]创新性地基于心理声学模型在人类的感知范围内隐藏命令,基本步骤如图4所示,图中l为损失函数.10.13245/j.hust.230219.F004图4心理隐蔽法基本步骤在反向传播之前,心理隐蔽法首先通过强制对齐计算出可能性最大的时间对齐;然后利用原始音频信号和目标转录(由Kaldi工具包提供)作为输入,以找到最佳的目标伪后端;最后根据目标利用反向传播操纵输入信号,使语音识别系统转录出所需要的输出.在反向传播过程中,心理隐蔽法利用听觉阈值来限制人类可感知的变化.D.兼顾隐蔽性和鲁棒性Qin等[13]兼顾隐蔽性和鲁棒性,利用听觉掩蔽的心理声学原理,开发出有效的、不易察觉的音频对抗样本,并通过人类调研得到了验证,同时对任意完整句子的攻击保持100%的攻击成功率.文献[13]构造的扰动,应用在真实模拟环境失真后仍然有效,可创建出在物理世界能在空中传播的音频对抗样本.在隐蔽性方面,不同于以往简单地使用分贝公式来衡量加入扰动后的失真,文献[13]利用心理声学模型来计算获取掩蔽阈值,低于阈值的扰动会被原始音频掩蔽,从而使得失真度较小,难以被受害者察觉.整个攻击过程分为两个阶段.在第一阶段,确定一个相对较小的扰动来欺骗网络,min  lnet(f(x+δ),y);s.t.    δ≤ϵ,式中:lnet为损失函数;ϵ为扰动l∞范数的上界.初始的ϵ比较大,后面逐渐优化减小.在第二阶段,在δ的最大范数δ∞无界的情况下,δ仅被掩蔽阈值所约束,以使对抗样本难以察觉.在鲁棒性方面,文献[13]利用声学房间模拟器模拟空间条件,播放人工语音.房间模拟器引入了经典图像源方法[23],根据房间配置(房间尺寸、源音频和目标麦克风的位置、混响时间)创建房间脉冲响应r,将生成的房间脉冲响应与干净的音频进行卷积,创造混响语音,得到t(x)=x⊗r,其中⊗表示卷积运算.最后在生成对抗样本过程中,使用多个房间脉冲响应r,增强其对各种环境的鲁棒性.实验结果表明:针对文献[24]模型的白盒攻击成功率可以达到100%,但是实验止步于模拟环境,并没有在现实的空中条件场景中验证攻击效果,也没有探讨在无线电情况下的攻击方法.2.1.2 非目标通用对抗攻击通用对抗扰动UAP[14]最早出现在机器学习中的计算机视觉领域.UAP通过累加每一个训练样本的扰动向量,最终产生一个能突破所有训练样本集合决策边界的扰动.当把这个扰动添加到任何图像时,将导致图像以高概率被网络错误的分类,UAP示意如图5所示,图中:xi (i=1,2,3,4)为原始语音内容;yi为对应的转录错误的语音内容.10.13245/j.hust.230219.F005图5UAP示意为了使攻击具有实时性,受到UAP的启发,Neekhara等[25]基于白盒设置提出了一种产生非目标通用对抗扰动的算法,证明了通用对抗扰动同样会威胁到音频领域.此外,他们发现生成的非目标通用对抗扰动具有较好的迁移性,可以在Wavenet和Mozilla Deepspeech等不同模型架构上进行迁移.给定任意音频波形x及转换模型C,非目标通用对抗攻击者的目标是寻找使得大多数音频转录错误的非目标通用扰动δ.文献[14]使用字符错误率(CER,E)衡量攻击效果,只有当E大于特定阈值t时,才算攻击成功,其攻击效果可以表示为E(C(x),C(x+δ))t    (对于集合中大部分x).(1)δ为一个难以察觉同时使得大多数波形转录错误的扰动.因此,非目标通用对抗样本的要求可以表示为δ∞ϵ;P(E(C(x),C(x+δ))t)≥γ,式中γ为期望的攻击成功率.Neekhara等[25]提出的算法在UAP算法的基础上,优化了寻找最小扰动的方法.该算法对于波形集合,重复的进行遍历,直到成功率大于δ.对集合中的每一个波形进行遍历,若攻击效果小于阈值(如式(1)所示),则寻找最小扰动将波形推移到决策边界;若攻击效果大于阈值,则跳过寻找最小扰动的过程.实验结果表明:该算法造成转录错误的攻击成功率达到89.06%.尽管提出的非目标通用对抗扰动算法在攻击成功率和攻击效果方面的表现稍逊于目标对抗扰动(通常为90%~100%),但是通用对抗扰动的优势在于预先寻找到扰动,无须重新进行定向分析,适合于实时应用场景,且具有较强的迁移性.现有的白盒攻击方法大多探索语音对抗攻击等攻击方式的攻击效果、鲁棒性、隐蔽性及其关系.一般来说,增强对抗样本的攻击效果及鲁棒性所需要的代价就是向原始样本中添加更大的扰动,然而这不可避免地会加大音频失真度,从而降低攻击的隐蔽性.一旦攻击被察觉,受害者就可以通过一定的手段规避、减弱这种攻击效果.因此,在保证攻击隐蔽性的前提下,如何增强攻击效果及鲁棒性是语音对抗攻击的关键.未来的研究方向可能是两个方面:一是在相同的不可察觉条件下,探究哪些帧能够容纳更多的扰动;二是在相同大小扰动下,研究哪些帧在添加扰动后具有更强的攻击效果及鲁棒性.2.2 黑盒攻击黑盒攻击模型下的对抗样本构造难度远大于白盒攻击模型下的.目前大多数黑盒攻击方法主要属于目标对抗攻击,且由白盒攻击模型下的对抗样本生成方法迁移而来.Alzantot等[26]提出的基于遗传算法的对抗样本生成方法是早期黑盒攻击中最具代表性的方法之一.其根据黑盒模型输出的概率得分,采用遗传算法,结合创建出更强的对抗样本,以欺骗语音分类模型.遗传算法的基本思想就是根据目标标签的预测得分计算每个种群成员的适应度得分,并通过应用选择、交叉和突变,从中生成当前一代的下一代对抗性例子.其中,选择意味着具有较高适应度值的种群成员更有可能成为下一代的一部分;交叉则是混合成对的人口成员来产生一个新的“孩子”,再把这个“孩子”添加到新的人口当中;突变则是在传递给下一代之前,以非常小的概率给新成员添加随机噪声.该算法的终止情况有两种:一是在以上过程中迭代预设的周期数;二是攻击成功.Taori等[9]进一步将遗传算法与梯度估计相结合,提升对抗样本与目标类良性样本的相似性,针对性地创建对抗音频来欺骗SR系统,称为结合法.由于遗传算法独立于模型梯度,因此结合法在第一阶段使用了带有CTC损失的遗传算法来迭代产生候选对象的种群,直到产生合适的样本.受到梯度下降动量更新的启发,结合法提出一种新的动量突变更新标准,使突变概率能够自适应改变,从而限制过量突变和过量噪声.该更新标准可表示为Pnew=αPold+β/cs-ps, (2)式中:Pnew和Pold分别为新的和原始的突变概率;cs和ps分别为现在、先前的适应度得分;α和β为比例因子.当两代的适应度得分相近时,下一次的突变概率会加大;相反,当两代适应度得分差别较大时,下一次的突变概率就会减小.如果算法停留在局部最大值,式(2)能够在保持较高的突变概率的同时,允许突变相互累积和增加,这有利于寻找到最佳种群.在攻击的第二阶段,结合法通过估计单个音频点的梯度,让对抗样本在接近目标时被更谨慎地添加噪声.结合法产生的对抗样本如果使用莱文斯坦距离进行最终解码,那么解码短语与目标短语有89.25%的相似性,对抗样本和良性目标样本有94.6%的相似性.在经过3 000次迭代后,平均莱文斯坦距离是2.3,且35%的对抗样本在不到3 000次迭代情况下完成了精准解码,22%的对抗样本在不到1 000迭代时间内完成了精准解码.尽管结合法构造的对抗音频与原始良性音频具有一定的相似性,但是其隐蔽性和鲁棒性较差,难以克服空中条件.为此,Yuan等[2]提出命令歌方法.该方法的核心思想是将命令嵌入到歌曲之中,对SR系统进行攻击.命令歌攻击成功率较高,且具有良好的移植性,能够迁移到iFLYTEK等模型架构.命令歌的实验原理如图6所示.首先,命令歌决定最终结果的信息(输出的子集);然后,修改音乐的输出,使其包含命令;最后,进行反向训练,即对其做特征提取和声学模型的逆变换,得到相应的输入,即为对抗样本.与以往的研究相比,命令歌更强调攻击的隐蔽性,即较低的失真度,且采用pdf-id序列匹配算法,以克服空中条件.WTA (Wav to API)攻击将命令多次嵌入歌曲的不同部分,精心合成歌曲和给定语音命令的声学模型输出,利用梯度下降生成嵌入扰动最小的对抗性音频,保障对抗样本的隐蔽性.WAA (Wav air API)攻击捕获不同扬声器产生的电子噪声,并将一个通用的噪声模型集成到寻找对抗样本的算法中,以增强实用性.实验结果表明:WTA的攻击成功率高达100%,WAA的攻击成功率至少为60%.10.13245/j.hust.230219.F006图6歌曲中的命令攻击过程在现实的黑盒场景中,谷歌Home和Apple Siri等商业SR系统攻击的成功案例少见报道.在特征提取、声学模型和语言模型等相关参数及攻击目标类样本信息均未知的前提下,攻击者难以构建出攻击效果较好的对抗样本.Chen等[15]提出互补法,将白盒模型Kaldi和近似目标模型的替代模型互补应用,有效地强化对抗样本.图7为针对ASR API服务和IVC设备的一般对抗性攻击架构,互补法精心构建扩充的语料库,以在所需命令上训练近似目标黑盒模型的局部模型.由于Kaldi ASpIRE链模型生成的对抗样本在一定程度上可以转移到目标黑盒模型上,因此互补法将其作为基础模型,并利用它增强替代模型从而生成对抗样本.具体地,基础模型能够生成所需命令的大部分声学特征;将基础模型最后生成的对抗样本输入到替代模型;替代模型以细粒度的方式调整目标模型上所需命令的独特特性.因为它是基于一个增强的语料库进行训练的,所以该语料库可以被黑盒模型很好地识别.在每个模型下的对抗样本生成过程中,互补法使用对抗样本的一个小子集,根据查询缩减方法查询目标ASR API服务.如果这些对抗样本都不能工作,那么来自替代模型的最后一个精心制作的音频(一个不成功的对抗样本)将被输入到基础模型中,作为下一次迭代的输入.最后,互补法选择有效的对抗样本来攻击目标交互式语音通信(interactive voice communication,IVC)设备.10.13245/j.hust.230219.F007图7针对ASR API服务和IVC设备的一般对抗性攻击架构相比于白盒攻击,黑盒攻击方法较少,这主要是由于黑盒设置未知性的特点所导致的.现有黑盒语音对抗攻击主要迁移自白盒攻击方法,结合遗传算法、梯度估计、CTC损失函数、反向训练、声学模型、Kaldi ASpIRE链模型等,提升攻击成功率、隐蔽性和鲁棒性.因此,黑盒语音对抗攻击的未来发展方向主要集中在跨设置、跨模型、跨领域的迁移工作.2.3 其他攻击Roy等[27]利用麦克风在其隔膜和功率放大器中固有的非线形性,设计出高于40 kHz及以上的声音(人类的声音范围为20 Hz~20 kHz,麦克风的记录范围为24 kHz),并在扬声器上播放,当这些声音通过接收机的非线性放大器时,高频的声音会产生一个低频的阴影.阴影可以被调节来携带数据位,从而使得麦克风能够听到本来听不到的信息.图8为高频声音产生阴影,这些数据可以用来携带一些控制命令,从而对ASR系统产生攻击.10.13245/j.hust.230219.F008图8高频声音产生阴影与Roy等人进行的工作不同,Song等[21]的攻击无需额外的解码程序,该方法利用麦克风的非线性的输入处理,使得声音频谱中引入新的频率,这些新的声音频率可以被麦克风记录为可操作的命令.实验证明:所提出的可听语音命令可以在3 m的距离内以100%的成功率攻击Android手机,在2 m的距离上以80%的成功率攻击亚马逊回声设备.3 语音识别对抗攻击的技术挑战与防御难点本节分析并总结了当前基于DNN的语音识别对抗攻击方法,探讨其面临的技术挑战,并展望未来可能的研究方向,进而引申出防御难点,为构建防御手段提供一些启发.常见的对抗样本构建方法是在时域或者频域进行一些扰动,或者是在特征提取后,对声学特征进行一些扰动.相较于攻击方法的发展,防御手段的发展是较为滞后的.目前的主要防御手段[29-31]包括对抗训练、输入转换、添加噪声破坏扰动、降低输入音频的采样率等.其中,对抗训练最初是由Goodfellow等[29]针对图像领域中的对抗图像提出来的,它可以提高模型抵抗对抗样本攻击的能力.随后,对抗训练被迁移到音频领域.Jati等[32]将原始音频和对抗音频混合,对网络进行训练,使网络对于对抗音频具有一定的鲁棒性,其原理表示为argminθ E(x,y)~D[maxδ:δpε L(x+δ,y,θ)],其中:D为训练集;θ为模型参数;L(x+δ,y,θ)为单个样本的损失函数.在训练集合D的时候,选择合适的对抗扰动使单个样本的损失达到最大;同时,E(x,y)~D对模型参数进行优化,使损失尽可能小.如此,模型就具有了针对扰动的鲁棒性,一定程度上避免了微小扰动造成推理结果错误的问题.基于深度学习的语音识别对抗攻击存在的技术挑战归纳如下:a.现有方法在攻击效果、鲁棒性、隐蔽性三个方面难以取得平衡;b.由于不同SR系统之间的差异性,大多数攻击方法的迁移性较弱;c.不同于计算机视觉领域中每个像素的孤立性,语音识别具有时间上的连续性,它的输出依赖于前后时刻,所以在某一些帧添加扰动能够影响周围的语音识别,甚至是整个音频.因此,计算机视觉领域中优秀的攻击方法迁移到语音识别模型的技术挑战较大.在语音识别对抗攻击方面,以下几点有待进一步研究:a.如何快速搜索出被轻微扰动后能够对模型结果产生更大影响的帧,从而进一步降低语音对抗样本的扰动幅度,增强其隐蔽性;b.如何增强语音对抗样本的鲁棒性,使其适用于更为复杂的环境(空中条件),并克服大多数不同环境的影响;c.如何增强语音对抗攻击的从白盒到黑盒及不同模型之间的迁移性;d.如何提升语音对抗攻击方法实施的自动化程度,尽可能避免人为分析、干预等操作.基于深度学习的语音识别对抗防御存在的技术挑战可归纳如下:a.模型在性能和安全性两方面难以取得平衡;b.一种防御方法只能针对特定类别的攻击产生较好的防御效果,不具有通用性;c.因为黑盒攻击不依赖于模型信息,所以生成的对抗样本具有较强的鲁棒性,因此难以针对黑盒攻击采取相应的防御手段.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读