网刊加载中。。。

语音增强可以抑制干扰提取有用信号，是处理噪声背景下语音信号的关键步骤[1]．根据接收端麦克风数量的不同，可分为单通道和多通道两类．传统单通道语音增强有谱减法[2]、维纳滤波法[3]等，通过信号统计信息去噪，较好抑制平稳噪声．但在低信噪比和非平稳噪声环境下性能急剧下降，产生语音失真．针对传统算法的不足，近年来出现了能够学习带噪语音和纯净语音之间非线性映射关系的神经网络语音增强算法[4-7]，通过大量数据样本训练，抑制非平稳噪声能力较好．为提高网络性能，研究者输入不同的语音特征和学习目标来建立网络模型．使用较多的语音特征有对数功率谱[4]、梅尔倒谱系数[5]、功率归一化倒谱系数[6]及多分辨率耳蜗图(multi-resolution cochleagram，MRCG)[7]，增强效果优于传统算法，但由于这些特征不能很好地模拟人耳听觉非线性特性，会产生语音失真．文献[8]利用深度神经网络(DNN)学习带噪语音特征和时频掩模间的非线性关系，并对比理想二值掩模(ideal binary mask，IBM)和理想软掩模(ideal ratio mask，IRM)，结果表明IRM作为学习目标增强效果优于IBM，但是很难处理清音，影响了重构语音的听感，因此须要探索一种有效的语音特征和掩模的组合来提升神经网络语音增强性能．在实际生活中，单通道获取的语音信息量较少，且无法利用位置信息，性能受到限制，而多通道语音增强利用声源的空间信息，能有效提取出某一空间范围内的信号，助听器、蓝牙耳机等智能电子设备常使用多通道语音增强进行去噪[9]．经典多通道语音增强可以分为声源定位和波束形成两部分，声源定位通过估计到达方向(direction of arrival，DOA)定位目标语音，同时衰减其他方向干扰；波束形成是对阵列信号加权处理实现空间滤波，但在有噪声、混响等干扰下，传统算法很难获得准确的DOA估计，阵列无法准确在期望信号方向上形成波束，在干扰方向上形成零陷，导致降噪效果差．基于相位变换的广义互相关矩阵(generalized cross correlation with phase transform，GCC-PHAT)[10]是常见的声源定位法，但在有干扰源和混响环境中，GCC-PHAT系数总和显示虚假峰值导致DOA估计不准确．为提高其对噪声和混响的鲁棒性，在GCC-PHAT算法中引入加权项来强调高信噪比的频率，如基于Fisher判别理论的加权方法[11]、基于最小均方误差加权法[12]和基于频率信噪比加权法[13]，然而这些算法的增强效果会受麦克风数量和几何形状限制，无法实现高质量的语音降噪．实际上，无论采用何种方法来增强语音，提高性能的关键都是充分利用带噪语音信息和精确定位目标语音．为发挥单、多通道语音增强算法各自的优势，本研究提出一种基于双通道神经网络时频掩蔽的语音增强算法．在单通道处理中，将每路麦克风信号视为独立信号，输入信号的多分辨率耳蜗动静态特征(dynamic static multi resolution auditory cepstral coefficients，DSMRACC)到神经网络并估计自适应掩模(adaptive mask，AM)，进行初步语音增强．在多通道处理中，利用AM加权协方差矩阵估计方向矢量，识别每路麦克风信号上用于定位的语音主导的时频(time-frequency，T-F)单元，使其在强噪声和混响环境下仍得到准确方向矢量估计．最后，输入到基于加权最小化无失真响应(weighted power minimization distortionless response，WPD)优化准则的卷积波束形成器中进行语音增强，使去噪抑制混响效果同时达到最优．与几种不同的语音增强方法相比，本文算法既消除了与语音同方向的背景噪声，又消除了不同方向的噪声干扰，得到的增强语音可懂度和清晰度都较高．并且本研究根据神经网络训练的模型，不需要任何关于麦克风阵列的先验知识，在噪声环境下有较强的鲁棒性．1 双通道语音增强系统信号模型在双通道神经网络时频掩蔽语音增强系统中，利用加性失真模型对信号建模，假设只有一个目标语音，在噪声和混响环境下使用双麦克风阵列接收信号，得到信号的物理模型为y(t,f)=v(f)s(t,f)+h(t,f)+n(t,f)，式中：y(t,f)和n(t,f)为麦克风接收到的混合信号和带混响的噪声信号；v(f)为麦克风阵列的方向矢量；s(t,f)为目标语音在时间t、频率f处的短时傅里叶变换；v(f)s(t,f)和h(t,f)为直接语音信号和目标语音的早期、晚期混响．2 单通道神经网络语音增强为充分挖掘语音的非线性特征，本研究提取语音的DSMRACC特征和依据信噪比(signal-to-noise ratio，SNR)优化的AM训练网络，来提高听觉感知度．使用具有4层结构的神经网络，其中有2个隐层，每个隐层设1 024个节点，输出层设64个节点，隐层使用线性整流激活函数，输出层使用Sigmoid激活函数．在训练阶段，最小化均方误差函数，提取训练集的DSMRACC和AM作为输入，为保持训练过程稳定，输入和输出同时进行均值方差归一化处理，训练得到最优网络模型并保存．在测试阶段，提取测试样本集的归一化处理后的DSMRACC输入到训练好的神经网络模型中预测AM，最后结合带噪语音的相位重构语音，输出得到最佳增强结果．图1所示为单通道神经网络语音增强系统框图．10.13245/j.hust.210609.F001图1单通道神经网络语音增强系统框图2.1　提取改进的多分辨率耳蜗动静态特征DSMRACC是改进的MRCG，用更符合人耳听觉感知的非线性幂函数压缩四个不同分辨率的耳蜗表示，再离散余弦变换去相关，减小计算量，获得静态特征．后对其求一阶二阶差分导数，捕捉语音瞬变信息，动静特征结合全面表示语音的非线性结构，提高重构语音质量．具体过程如下：带噪语音通过Gammatone滤波分解得到耳蜗图，取帧长20 ms，帧移10 ms幂函数压缩获得Q1．同样取帧长200 ms和帧移10 ms获得Q2．取11×11和23×23的矩形窗口平滑Q1，得到Q3和Q4[7]．拼接4个耳蜗图再离散余弦变换，得到QMRACC，并求一阶二阶差分导数计算动态特征QΔMRACC和QΔΔMRACC，融合所得到特征为QDSMRACC=[QMRACC;QΔMRACC;QΔΔMRACC]．2.2　依据信噪比优化的AM估计本研究依据时频单元信噪比自适应调节传统IBM和IRM间比例，发挥两种掩模各自的优势．在低信噪比下，AM接近IRM，能较好抑制语音主导时频单元的背景噪声，避免IBM消除噪声的同时也屏蔽了语音信号；在高信噪比下，AM更接近IBM，能较好保持语音结构，提高重构语音质量．最终构建的AM为Ai(t,f)=(1-αi(t,f))Bi(t,f)+αi(t,f)Ri(t,f)，式中：Ai(t,f)为第i路麦克风信号的AM；Bi(t,f)和Ri(t,f)分别为第i路麦克风的IBM和IRM，定义为Bi(t,f)=1 (Ed(t,f)≥(Eh(t,f)+En(t,f))101/10),0 (其他),Ri(t,f)=Ed(t,f)Ed(t,f)+Eh(t,f)+En(t,f)0.5，其中Ed(t,f)和Eh(t,f)+En(t,f)分别为第i路麦克风直接信号能量和噪声能量．αi(t,f)为第i路麦克风的自适应掩蔽系数，αi(t,f)=1/{1+exp[(qSNR(t,f)-λ)/β]}，式中：qSNR(t,f)=10 lgEd(t,f)Eh(t,f)+En(t,f)，表示T-F单元的信噪比；λ和β用来调整指数函数形状，通过实验验证，设其值为-5和2．3 基于AM方向矢量定位的WPD卷积波束形成器传统方向矢量通过DOA估计和麦克风阵列的几何形状计算获得．当信噪比较低时，很难获得准确的DOA估计．本研究提出一种基于AM方向矢量定位法，主要思路是利用神经网络估计的AM识别语音和噪声主导的T-F单元，从语音主导的T-F单元计算语音协方差矩阵，从噪声主导的T-F单元计算噪声协方差矩阵，精确计算对波束形成至关重要的空间协方差矩阵和方向矢量．目标语音主导的时频单元携带更加清晰的定位信息，AM为目标语音单元赋予更多的权重，使方向矢量包含关于目标方向足够的信息．AM在指导估计方向矢量的过程中，发挥定位声源和衰减干扰的双重作用．在给定信号时变功率和方向矢量的条件下，结合WPD准则对波束形成器进行优化，使其去噪及抑制混响效果同时达到最佳．图2所示为基于AM方向矢量定位的WPD卷积波束形成器的原理框图．10.13245/j.hust.210609.F002图2基于AM方向矢量定位的WPD卷积波束形成器的原理基于AM方向矢量定位法具体方法如下．麦克风信号的掩模权重ξ(t,f)和η(t,f)定义为：ξ(t,f)=∏i=12Ai(t,f)；η(t,f)=∏i=12(1-Ai(t,f))．结合掩模权重和空间协方差矩阵R，得到掩模加权的语音协方差矩阵αs和噪声协方差矩阵τn：αs(f)=∑tξ(t,f)R(f)/∑tξ(t,f);τn(f)=∑tη(t,f)R(f)/∑tη(t,f);R(f)=∑ty(t,f)y(t,f)H/σt2,式中σt2为信号的时变功率．输入方向矢量v的估计值v¯到WPD波束形成器中计算权重ω，得到最终的增强信号为：ŷ(t,f)=ω(f)Hy(t,f)；ω(f)=τn(f)-1v¯(f)/[v¯(f)Hτn(f)-1v¯(f)]；v¯(f)=P{αs(f)}，式中P{∙}为计算主特征向量．4 基于时频掩蔽的语音增强算法单、多通道语音增强算法在实际生活中处理语音各有优势，本研究结合二者优点提出了基于双通道神经网络时频掩蔽的语音增强算法．在噪声和混响条件下使用双麦克风接收信号，将接收到的每路麦克风信号通过单通道神经网络进行初步增强，去除与目标语音同方向噪声．神经网络预测的AM用于后续方向矢量估计，与盲目依靠信号能量的传统定位不同，AM提供了目标信号的视图，精确识别每个麦克风通道上的语音主导T-F单元，并只将这些T-F单元用于声源定位，这样在噪声和混响条件下也能获得较高的定位精度，用掩模加权协方差矩阵估计的方向矢量可直接应用于不同几何形状、数量的麦克风阵列．最后将计算的权重输入波束形成器，去除与目标语音不同方向的干扰并抑制环境混响．图3所示为双通道神经网络时频掩蔽的语音增强算法原理图．10.13245/j.hust.210609.F003图3双通道神经网络时频掩蔽的语音增强算法原理5 仿真实验与结果分析5.1　实验数据使用双麦克风对所提算法进行评估，在具有噪声的混响环境中进行语音增强，Matlab双麦克风仿真环境如图4所示．用IEEE语音库和NOISE-92噪声库实验，选取80组和20组纯净语音在White，Babble和F16噪声下创建训练集和测试集，并用基于图像方法的房间脉冲响应(RIR)发生器生成RIRs．在-90°到90°，间隔为45°的范围内，设置一个目标语音和一个干扰，位置随机在5个方向中的任意两个．每个扬声器到阵列中心的距离为1.0 m，房间大小为8 m×8 m×3 m，两个麦克风放置在房间中央，距离为0.2 m，高度均设为1.5 m．混响时间(reverberation time，tr)从0.0 s到1.0 s随机选取，间隔为0.2 s．用第一个麦克风的直接语音作为目标语音计算信噪比，称为直接-混响能量比(DRR，RDR)，评价指标采用分段信噪比(SegSNR，RSN)、主观语音质量(PESQ，Q)和短时客观可懂度(STOI，I)．10.13245/j.hust.210609.F004图4Matlab双麦克风仿真环境5.2　学习目标AM的性能验证为验证AM的有效性，输入DSMRACC到神经网络并分别以IRM和AM作为学习目标训练，图5所示为估计的IRM和AM可视化对比图，由图可知IRM抑制噪声的同时引入一些新的噪声且不能很好地保持语音结构，AM的语音频谱结构保持完整，且残余噪声较小，验证了AM不仅能有效识别语音或噪声主导的时频单元且保证了语音质量．10.13245/j.hust.210609.F005图5估计的IRM和AM可视化对比图5.3　对比实验与结果分析为验证本文算法的有效性，设计四组对比实验：算法1采用WPD波束形成直接进行双通道语音增强，算法2采用MRCG特征和IRM训练单通道神经网络进行增强，算法3采用DSMRACC特征和AM训练单通道神经网络进行增强，算法4采用本文所提的基于双通道神经网络时频掩蔽算法进行增强．分别在Babble，F16和White噪声下对比上述实验，为直观显示本文算法的有效性，给出了四种实验下的增强语音．图6所示为混响时间0.3 s，Babble噪声下四种算法增强效果的时域波形图，图中：A为归一化幅值；n为采样点数．图7所示为混响时间0.3 s，Babble噪声下四种算法增强效果的语谱图．10.13245/j.hust.210609.F006图6混响时间0.3 s，Babble噪声下四种算法增强效果的时域波形图10.13245/j.hust.210609.F007图7混响时间0.3 s，Babble噪声下四种算法增强效果的语谱图由图6和图7可以看出：算法1只能初步去噪，残留大量背景噪声，语音失真严重；算法2和算法3抑制了背景噪声，但还存在失真现象；使用算法4所得的增强语音残留噪声较小，且语音结构保持良好．表1为不同算法下增强性能的对比，对比算法2和算法3的实验结果，采用DSMRACC和AM训练DNN优于传统联合MRCG和IRM训练，增强语音的segSNR平均增加0.18 dB，STOI平均增加0.01，PESQ平均有0.04的提升，验证了联合DSMRACC和AM训练的有效性；算法1和算法4相比，本研究不仅结合单多通道处理信号，且在单通道处引入能充分表征语音内部结构且关注语音瞬时变化的DSMRACC和自动调节值的AM，使算法更好抑制与目标声源同方向噪声，获得听感较好的增强语音．由实验结果可知：STOI平均增加0.15，PESQ平均提高0.68．在多通道处引入基于AM的方向矢量定位，准确定位声源，抑制不同方向的干扰噪声，使SegSNR有4.85 dB的提升．10.13245/j.hust.210609.T001表1不同算法下增强性能的对比噪声类型tr/sRDR/dBRSN/dBQI算法1算法2算法3算法4算法1算法2算法3算法4算法1算法2算法3算法4Babble0.0—5.9258.0538.0688.2512.3022.8022.8593.1090.8770.9150.9160.9220.35.01.3974.9545.1016.5142.1912.4402.4932.5510.7530.8390.8480.8870.50.0-1.9781.9732.2903.5761.9922.1512.1852.3590.6040.8010.8180.8540.7-2.3-2.6760.0550.0881.0871.7521.9522.0072.2740.5820.7720.7900.8430.9-5.0-3.033-1.788-1.5970.8571.5691.8821.9532.1730.5590.7410.7590.822white0.0—8.2516.7199.63010.0913.1092.3042.8493.1410.9220.8850.9310.9370.35.06.5142.5757.0837.4662.5511.9902.6262.7030.8870.8140.8840.9030.50.03.576-1.4474.2215.0682.3591.6342.3152.5010.8540.7530.8210.8550.7-2.31.087-2.0052.5893.1902.2741.4922.2012.3570.8430.7330.8030.8330.9-5.00.857-2.5161.7362.0212.1731.3772.0222.1970.8220.6610.7860.814F160.0—9.84910.0916.1789.1292.9153.1412.4013.1210.9320.9370.8550.9350.35.07.2367.4661.8187.4882.6782.7032.1592.7970.8890.9030.8060.8890.50.04.5355.068-1.9884.8542.4292.5011.7512.4160.8290.8550.6920.8720.7-2.32.6553.190-2.9462.0982.2172.3571.5672.2090.8100.8330.6400.8510.9-5.01.9742.021-5.8111.2842.0392.1971.3952.1520.7910.8140.6090.832此外，本研究通过引入神经网络到多通道语音增强中来提高算法的增强效果．表2为不同算法的运行时间对比，算法1～4的平均运行时间分别为10.704，50.183，51.201和52.666 s，从算法复杂度方面分析，本文算法与基于DNN的语音增强算法相比运行时间并没有显著提升，却有效提高了重构语音的质量和可懂度，能够满足语音前端降噪处理实时性的要求．10.13245/j.hust.210609.T002表2不同算法的运行时间对比tr/sRDR/dB运行时间/s算法1算法2算法3算法40.0—10.64549.99850.96552.8210.35.010.46350.02151.08952.9550.50.010.95550.42751.07652.4640.7-2.310.73450.14451.8952.4630.9-5.010.72150.32350.98352.6256 结语本研究提出了一种基于双通道神经网络时频掩蔽的语音增强算法，通过结合波束形成和神经网络语音增强，在噪声、混响环境下，实现分离目标语音、抑制混响、提升语音质量．算法首先通过单通道神经网络初步增强，然后利用网络估计的AM准确计算波束形成的方向，克服传统方法不能精确定位目标语音的问题，同时利用频谱、空间信息增强特定方向的信号．实验结果表明：与几种不同的算法相比，不仅较好抑制背景噪声，且失真小．此外，该算法具有灵活性，未来可以扩展到具有两个以上麦克风的阵列中，验证其增强效果．