语音增强是指从含噪语音中尽可能提取纯净语音从而提高语音质量和可懂度的技术.语音增强可分为单通道语音增强[1]和多通道语音增强[2].单通道语音增强算法包含谱减法、维纳滤波法、子空间算法、小波分析法[3]等.随着深度学习的发展,基于深度神经网络的声学模型[4]逐渐成为处理声音信号的主流模型.多通道语音增强算法由于考虑了声源的位置信息,通过空间信息补充频谱信息,具有更好的去噪和去混响效果.双耳语音增强作为多通道语音增强算法的一种,由于其结构类似于人耳拥有两个通道,因此有很重要的研究意义.尽管人类的听觉系统只有两通道输入,却能够精准地定位目标声源的方向[5],并且能将其从背景噪声中分离出来,这很大程度上依靠双耳线索.目前一些基于双耳线索和DNN的双耳语音增强方法已经取得很好的效果,如文献[6]提出了一种基于DNN估计理想二值掩蔽(ideal binary mask,IBM)的双耳语音增强方法,该方法联合左耳的伽马通倒谱系数和空间特征作为神经网络的输入,将IBM作为训练目标,使用DNN作为增强网络;文献[7]提出了基于波束形成与DNN估计理想比例掩膜(ideal ratio mask,IRM)的双耳语音增强方法,该方法采用二维耳间时间差(interaural time differences,ITD)和耳间声级差(interaural level differences ILD)作为双耳空间特征,同时提取波束形成后的单通道频谱特征作为输入,使用DNN估计IRM.但是这类方法在高混响的条件下性能是有限的,因此将噪声和混响分开处理的语音增强方法被提出.例如文献[8]提出了一种两级DNN的单通道源分离方法,该算法首先提出了混响掩码作为训练目标处理混响,然后将IRM作为另一个网络的训练目标处理噪声,以实现高混响下的语音增强.文献[9]提出了一种鲁棒的双耳语音分离系统,首先提取波束形成后信号的多分辨率耳蜗图作为频谱特征,然后通过提出的软缺失数据掩码对双耳线索进行处理得到可靠的空间特征,二者联合训练DNN网络,估计IRM.文献[10]在文献[8-9]的基础上改进了两级DNN网络,提出了新的掩码,即将每个时频单元的局部信噪比作为缺失数据掩码,并以此为训练目标训练第一个DNN对语音进行去噪;然后基于映射的方法训练第二个DNN去混响,结果表明:这种方法不仅有更好的语音质量和可懂度,而且更加鲁棒.然而语音是带有时间信息的序列,上下文信息对于与语音相关的任务非常重要.而DNN缺乏对时间信息的建模能力,不能捕捉每个时间帧的上下文信息,即便是通过拼帧改善对时间信息的建模,改善的时间信息有限,不能捕捉较远的时间信息,以及时间与频率之间的相关性.注意力机制最初应用于机器翻译,随着其不断发展,注意力机制在语音增强领域也得到了广泛应用.如文献[11]提出了基于自注意力和卷积循环网络的单通道语音增强方法,将自注意力机制作为卷积循环神经网络编解码层的跳跃连接,过滤编码层到解码层之间的噪声特征;文献[12]提出一种新的注意力模块,并将其应用于冗余卷积编解码器的每个模块中.基于以上分析可知注意力机制对语音增强起到了正向作用.为了解决DNN不能很好地捕获时间信息的问题,同时考虑到注意力机制的优点,提出了一种基于注意力和改进的卷积循环神经网络的双耳语音增强算法.该算法首先通过通道注意力机制自动赋予左右通道不同的权重,以期望算法将注意力集中在对增强语音更有效的通道.其次,通过空间注意力机制将注意力集中于某些时频单元的空间特征上,以重点使用注意力聚焦的时频单元点.最后,利用模型注意力作为跳跃连接的卷积循环神经网络完成语音的增强.实验结果表明:在复杂的声学环境下,本文算法具有更好的语音质量和可懂度.1 本文算法本文算法的原理框图如图1所示.双耳信号由特定方向的目标语音和漫反射babble噪声混合而成.首先,使用Gammatone滤波器对双耳语音信号进行频域分析,然后提取ITD和ILD作为双耳线索,将空间注意力机制应用于双耳线索得到可靠的双耳线索.直接从双耳语音提取短时傅里叶幅度谱作为谱特征,随后对谱特征应用通道注意力机制以得到可靠的谱特征.对可靠的双耳线索左右做零填充获得与谱特征相同的形状,然后将二者并联拼接后的特征作为神经网络的输入送入到增加了模型注意力(model attention,MA)的卷积循环神经网络中估计纯净目标信号频谱的幅度谱,完成双耳语音信号的增强.10.13245/j.hust.238536.F001图1本文算法原理框图1.1 特征提取1.1.1 双耳线索的提取双耳线索作为影响声源定位的重要因素,在双耳语音增强中也起着至关重要的作用.提取ITD和ILD[4]这一对互补特征作为双耳线索.ITD表示声音到达两个耳朵的时间差,通常由双耳语音信号在时频单元级的归一化互相关函数(normalized cross-correlation function,CCF)求得,归一化互相关函数为bCCF(t,f,τ)=∑kxft,l(k)∑kxft,r(k-τ)∑kxft,l2(k)1/2∑kxft,r2(k-τ)1/2,(1)式中:t为时间索引;f为子带频率的索引;τ为时延;l和r分别表示左右耳.ITD为左右耳信号的相关性达到最大值时所对应的迟滞时间,即当CCF的值最大时所对应的τ,ITD为bITD(t,f)=argmaxτbCCF(t,f,τ).(2)ILD表示双耳之间的声压差,即bILD(t,f)=10lg∑kxft,l2(k)/∑kxft,r2(k).(3)1.1.2 谱特征的提取使用帧长为20 ms、帧移为10 ms的汉明窗分别对左右耳信号分帧加窗.随后进行短时傅里叶变换(ξSTFT)得到左右耳信号的幅度谱.幅度谱为Al(r)(i)=|ξSTFT(xl(r)(i))|,(4)式中:Al(r)(i)为第i帧的左耳或右耳信号的幅度谱;xl(r)(i)为第i帧左耳(右耳)的语音信号.1.2 注意力模块1.2.1 空间注意力模块在频谱图中沿频率轴存在的非局部相关性,被证明有助于重建频谱图[13].然而,仅简单使用几层的卷积神经网络捕捉这种全局的相关性是不可能的.采用Lan等[14]提出的空间注意力模块获取全局信息,将其同时应用于ITD和ILD,得到可靠的双耳线索.此过程的数据处理流程如图2所示.10.13245/j.hust.238536.F002图2空间注意力数据处理流程将每个时频单元的ITD和ILD并联在一起作为空间注意力模块的输入特征B,则有B∈RT×64×2,其中:T为时间帧数;64为Gammatone滤波后的子带数.对B沿通道做平均池化聚合通道信息,同时做最大池化获取细节信息以推断更精细的空间注意,并联拼接后通过卷积层降维并整合特征,再通过sigmoid函数得到空间注意力分布αs,具体为αs=σ(Conv([Mean(x),Max(x)])),(5)式中:Mean和Max分别表示做平均池化和最大池化;Conv表示卷积运算.αs中的每一个值都与全局特征相关,将αs与原始特征相乘,从而选择性的注意某些单元的双耳线索,并将得到的可靠的双耳线索表示为Brel,则有Brel=αsB.1.2.2 通道注意力模块为了自适应选取更加有利于增强任务的通道,引入通道注意力模块[15],并将其应用于谱特征.通道注意力的流程如图3所示,输入特征A∈RT×161×2,其中:Al和Ar分别表示左耳和右耳语音信号的幅度谱;161是短时傅里叶变换幅度谱的维度.将A重塑为RN×C的形状,其中N=T×161,然后执行A与AT的矩阵乘法.将结果应用于softmax函数,得到通道间的权重关系w,具体为10.13245/j.hust.238536.F003图3通道注意力数据处理流程图w(j,i)=exp(AiAj)/∑i=1Cexp(AiAj),式中:i和j为通道的索引;w(j,i)表示第i个通道对第j个通道的影响.将w与输入特征做矩阵乘法,并将结果重塑回A的原始形状.该结果与可自动学习的尺度参数β相乘后得到通道注意力分布αc,即所有通道与某一个通道之间的相关性,相关性越强,说明该通道内容更值得被注意.最后将其与输入特征相加得到第j个通道注意后的谱特征Aj_rel,具体为Aj_rel=β∑i=1C(Aiw(j,i))+Aj,式中C为通道数.由上述过程可知:每个通道的最终特征是所有通道的特征和原始特征的加权和,其模拟了特征映射之间的长期语义依赖关系.有助于提高特征的可辨别性,从而选择性的抑制某一通道特征.1.2.3 模型注意力模块标准卷积神经网络通过统一的卷积核融合空间和通道信息,然后叠加合并各通道的信息,这会使各通道学习相似的特征,却并未学习特征之间的差异性.深度可分离卷积神经网络是标准卷积神经网络运算的一种变体,与标准卷积层不同,深度可分离卷积每个通道都有一个卷积核负责,由此实现特征区域与通道的分离,从而更好地提取多尺度信息[16].为了提取多尺度的信息,同时注意从编码层到解码层之间的有用信息,提出了模型注意力模块.模型注意力模块的原理图如图4所示,图中ci和di分别表示第i个编码层和解码层的输出结果,将二者分别送入卷积核为3、步长为1的深度可分离卷积层,用以提取ci和di的高维特征,将二者拼接起来得到Ci,使用sigmoid函数作为激活函数得到高维特征Ai.该过程具体为10.13245/j.hust.238536.F004图4模型注意力数据处理流程图Ci=[SpeConv(ci),SpeConv(di)];Ai=σ(Ci),式中SpeConv表示深度可分离卷积操作.将Ai经过一个卷积核为3、步长为1的深度可分离卷积层,使用sigmoid函数作为激活函数再次提取高维信息;然后乘以一个可自动学习尺度参数β,得到模型注意力分布αm,对其执行逐元素求和操作,以获得第i层注意后的编解码信息为Mi=βσ(SpeConv(Ai))Ci+[ci,di].1.3 神经网络的构建经典的卷积循环神经网络直接在编码器和解码器之间进行跳跃连接,可能会导致编码器端的噪声特征传递到解码器,使得网络的性能不理想;同时经典的卷积循环神将网络的中间层由两层长短时记忆网络(long and short-term memory,LSTM)组成,但是单向LSTM只能获取过去的信息,然而在语音增强中,时序信息十分重要.与单向LSTM相比,双向LSTM可以同时获取过去和未来的信息[17].为了尽可能地过滤从编码器跳跃连接到解码器的噪声信息,提高模型的性能,并且获取更多的时间信息,这里改进了经典的卷积循环神经网络,在标准的卷积循环神经网络的编码器和解码器之间增加了模型注意力作为跳跃连接,并且将中间层的单向LSTM替换成双向LSTM.提出的改进的卷积循环神经网络的结构如图1后半部分所示.该网络的结构为编码器-中间层-解码器,编码器包含5个卷积块,旨在提取高级特征同时降低分辨率,卷积块由一个卷积核大小为(2,3),步长设置为(1,2)的卷积层,批量归一化,ELU激活函数组成,每个卷积层中使用的卷积核个数分别为16,32,64,128,256;中间层使用了两层双向LSTM,每层神经元个数均设置为1 024;解码器包括5个反卷积块,用于还原输入张量的形状.反卷积块为反卷积层+批归一化+ELU的结构,最后一个反卷积块的激活函数使用softmax函数,每个反卷积层使用的卷积核个数分别为128,64,32,16,1.对应的编解码层的输出作为模型注意力的输入,将模型注意力的输出作为下一个反卷积块的输入.2 性能测试与分析2.1 实验设置使用TIMIT语料库产生漫反射babble噪声[10],该语料库包含630个说话人,每个说话人有10句语料,分别串联每个说话人的10句语料.随机选择37个说话人,在方位角-90°~90°之间每隔5°放置一个串联后的说话人语料,每个说话人的语料与对应于其位置的头相关传输函数(head related impulse responses,HRIR)[18]卷积生成空间双耳信号.然后将卷积后的声音信号求和以形成漫反射的babble噪声.将纯净的单通道语音与在0°处的HRIR进行卷积,生成目标源固定正前方双耳语音.最后,将混响目标语音和漫反射噪声相加,以产生带混响的双耳噪声信号.训练集和验证集选自IEEE语料库[19],该语料库由男性说话者说的720条语音组成.分别随机从IEEE语料库中选择500和70条语料,使用混响时间为0,0.3,0.6和0.9 s的HRIR生成训练集和验证集双耳混合信号;剩下的150条语句用于生成测试集.为了评估所提出的方法,对于模拟的匹配测试集,使用与训练阶段相同的模拟HRIR.对于模拟的不匹配房间测试集,使用了混响时间为0.2,0.4,0.8和1.0 s的HRIR.用于训练集和测试集语料的信噪比θSNR设置为-10,-5,0和5 dB.使用客观语音质量评估(perceptual evaluation of speech quality,PESQ)、短时客观可懂度(short-time objective intelligibility,STOI)和扩展的短时客观可懂度(extended short-time objective intelligibly,ESTOI)[20]作为客观指标评估算法的有效性.为使结果更加清晰,将处理后的增强语音与含噪语音经过波束形成后的语音指标做对比.2.2 参数设置使用中心频率为50~8 000 Hz的64通道的Gammatone滤波器组分解双耳信号.随后对分解后的64个子带信号使用汉宁窗分帧加窗,帧长为20 ms,帧移为10 ms.为了使所有样本具有相同的时间步长数,选择时间帧数为200,帧数少于200的样本在样本后进行零填充,帧数大于200的样本在样本后进行裁剪.使用Adam优化器训练模型,初始学习率设置为0.001,每10次迭代学习率减小为原来的0.8,迭代次数为50,使用最小均方误差作为该网络的损失函数.批次的大小设置为32.通过交叉验证选择最佳模型.2.3 实验结果与分析首先,为了证明所提出的将注意力施加于特征的方法的有效性,使用空间注意力和通道注意力对输入特征进行处理,使用卷积循环神经网络(convolutional recurrent neural network,CRNN)作为增强网络,并将文献[4]作为对比算法,该算法直接将双耳语音的幅度谱和空间特征并联输入到CRNN中.实验结果如表1所示.10.13245/j.hust.238536.T001表1不同算法下增强语音指标评价指标含噪语音文献[4]本文PESQθSNR=-10 dB1.252 721.300 341.431 21θSNR=-5 dB1.517 971.594 681.662 42θSNR=0 dB1.792 111.8592 241.917 24θSNR=5 dB1.989 562.049 132.206 67STOIθSNR=-10 dB0.446 010.468 550.505 99θSNR=-5 dB0.542 040.570 7050.570 66θSNR=0 dB0.640 770.653 5110.684 40θSNR=5 dB0.695 710.707 6630.724 26由表1可知:在不同信噪比条件下,将注意力应用于谱特征和空间特征的方法得到的增强语音具有更高的语音质量和可懂度,说明了本文方法会更加注意对增强结果有效的特征,经过本文方法得到的特征比直接拼接的方法更加可靠.其次,为了证明本文模型注意力的优越性,将文献[4]不施加注意力和文献[11]的注意力作为对比,实验结果如表2所示.由表2可知:文献[11]算法在不同信噪比下的增强语音的性能指标均优于文献[4]算法,说明使用注意力机制作为跳跃连接的有效性,而本文模型注意力的增强性能要优于对比算法,说明本文方法能够更加有效地过滤从编码器到解码器高维特征的噪声等影响,从而达到更优的增强效果.10.13245/j.hust.238536.T002表2不同算法下增强语音指标评价指标含噪语音文献[4]文献[11]本文PESQθSNR=-10 dB1.2521.3001.5381.584θSNR=-5 dB1.5171.5951.9091.960θSNR=0 dB1.7921.8592.2062.238θSNR=5 dB1.9892.0492.4072.409STOIθSNR=-10 dB0.4460.4690.5590.573θSNR=-5 dB0.5420.5710.6970.684θSNR=0 dB0.6400.6540.7640.764θSNR=5 dB0.6950.7080.8010.812为了证明算法的有效性,将文献[4]和文献[10]算法作为对比算法.文献[4]直接将双耳语音的幅度谱和空间特征并联输入到CRN中,文献[10]提出了基于两级DNN的语音增强算法.图5为信噪比为-5 dB,混响为0.9 s同一样本的纯净语音和使用不同算法得到的增强语音的耳蜗图,图中:f为频率;t为时间.可以看出:不论是高频还是低频,使用对比方法得到的增强语音都有很多噪声和混响的残留,这主要是因为在低信噪比和高混响的条件下,ITD和ILD不能准确地提供空间信息;本文算法由于使用了注意力模块,使得网络能够注意对增强语音更有利的空间特征,因此去噪去混响的效果更好一些.10.13245/j.hust.238536.F005图5混响0.9 s信噪比-5 dB纯净语音和增强语音耳蜗图图6给出了4种信噪比下,8种混响环境下各种指标的性能,图中:r为混响时间;PPESQ,SSTOI和EESTOI分别表示PESQ,STOI和ESTOI.条形图中从左到右依次为含噪语音、文献[4]增强语音、文献[10]增强语音和本文算法增强语音的性能指标.10.13245/j.hust.238536.F006图6不同信噪比不同混响环境各种指标性能图由图6可见:文献[4]方法在高混响的条件下性能较差,尤其是对于STOI,其原因是此方法的输入特征是未经过处理的幅度谱和双耳线索,在比较恶劣的条件下,双耳线索提供空间信息不准确,从而导致估计的增强语音可懂度更差;与之相比,文献[10]方法虽然同样未对输入特征进行处理,但是此方法在第一步使用掩码去噪,从而降低了第二步去除混响时噪声的干扰,同时使用了映射的方式去混响,因此该方法要优于基于文献[4]方法.本文算法在各信噪比下都优于对比算法,一方面是因为通过空间和通道注意力得到的可靠的特征比原始特征更有利于语音增强;另一方面是因为将卷积循环网络中的单向LSTM替换为双向LSTM,从而获取了更多的时间信息;除此以外,所提的模型注意力模块将编码信息与解码信拼接起来能够得到更加丰富的信息;同时,将编解码信息同时应用注意力也比只对解码信息应用注意力滤除更多的噪声特征,因此本文算法在各种条件下都具有优越性.文献[4]、文献[10]和本文算法对每条语音进行增强的平均时间分别为0.701 28,0.345 04和0.897 94 s,由此可知:本文算法与DNN算法(文献[10])相比时间复杂度并没有显著提升,与CRN相差无几(文献[4]),但是其重构语音的质量和可懂度远高于对比算法,能够满足语音处理实时性的要求.3 结语提出了一种基于注意力和改进的卷积循环神经网络算法来同时处理噪声和混响环境中双耳线索的不可靠性和语音失真.与以往将空间注意力和通道注意力应用于神经网络不同,将通道注意力机制应用于左右耳的幅度谱,以此注意到可靠的谱特征,同时将空间注意力应用到双耳线索,从而得到可靠的时频单元.将二者并联输入到添加了注意力模块和双向LSTM的卷积循环神经网络中训练纯净语音的幅度谱.使用语音质量、客观语音可懂度指标、扩展的客观短时语音可懂度进行的系统评估表明,本文算法在不同信噪比和混响环境下均优于对比算法.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读