语音信号在数字公共交换电话网中的带宽被限制在0 Hz~4 kHz,高于4 kHz的频段会被舍弃.语音的高频分量中包含了相当丰富的语音特征,高频的缺失对语音的可懂度和清晰度[1]有较大的影响,语音频带扩展旨在恢复语音被舍弃的高频部分.语音频带扩展可以分为传统方法和基于深度学习的方法.传统方法主要是源-滤波器模型,该模型通过数学模型化声门脉冲激励、声道和口唇辐射来模拟人体发声过程.基于源滤波器模型进行语音频带扩展主要包括高频谱包络估计和激励信号生成,其中激励信号生成包括非线性失真、频谱变换[2]等;频谱包络估计包括高斯混合模型(GMM)[3-4]和隐马尔科夫模型(HMM)[5].源-滤波器模型的建模能力有限,重构的宽带语音会有比较大的噪声.基于深度学习的语音频带扩展已经成为现阶段的主流方法,文献[6]提出了基于全连接神经网络(dense neural network,DNN)的方法,这种方法在客观评价和语谱图上取得了较好的效果,但是在高频和低频语音的连接处不够平滑.文献[7-9]在全连接神经网络的基础上加入了清音和浊音分类器,进一步提升了学习效果.文献[10]提出一种基于卷积神经网络(convolution neural network,CNN)的语音频带扩展模型,这种方法须要对窄带数据进行三次样条插值来恢复高频,使数据预处理过程变得繁琐,且卷积神经网络模型参数量大,消耗大量的内存资源,模型运算效率低.文献[11]提出一种时频网络结构,该模型包括时域分支和频域分支,两个分支均采用文献[10]中的结构.该方法效果进一步提升,但是用两个神经网络叠加增加了计算量和内存占用空间.文献[12]在卷积神经网络的基础上提出通道注意力机制和非局部模块,保留有用的通道信息,舍弃不必要的通道信息.文献[13]在卷积神经网络的基础上对损失函数进行了改进,首次将残差加入损失函数中,并且用相位来限制幅值,最终在客观度量上取得了较好的效果.文献[14]提出了基于对抗神经网络(generative adversarial network,GAN)的语音频带扩展模型,此模型包含生成器和鉴别器两部分,该方法计算量小,能够在边缘设备上运行,但是对抗神经网络难以训练,存在不稳定性[15-17],虽然引入正则化方法[18]进行稳定,但耗费时间长.文献[19]对对抗神经网络进行改进,将鉴别器分为时域鉴别器和频域鉴别器,从时域和频域两个方向上学习,在客观评价实验中取得了不错的效果.研究表明在低信噪比环境下,相位对语音的可懂度和质量有较大的影响.大部分网络模型都忽略了相位预测[6,10],只是将窄带语音的相位翻转作为高频语音的相位.本研究提出一种时频神经网络模型进行语音频带扩展,该模型分为时域部分和频域部分,时域部分可以预测语音的相位.在频域部分,由于相位变化不易估计,且消耗的计算资源和提升的效果不成正比,因此频域部分采用文献[11]中的方法,只对预测语音的幅值进行优化.实验结果表明该方法在主客观度量上优于基线方法.1 网络模型本研究提出了一种时频神经网络,主要包括时域和频域两部分,如图1所示.10.13245/j.hust.240663.F001图1时频神经网络在时域部分中,输入信号经过四个注意力门-长短时记忆神经网络(attention-gate LSTM,AG-LSTM),每经过一个注意力门-长短时记忆神经网络就能对输入语音进行一次特征提取,且能保持输入和输出维度一致.再经过一个通道注意力模块来决定每一次特征提取中哪些信息该保留和舍弃.最后,得到预测高频语音信号.频域部分采用幅值掩膜的方式来优化高频语音的幅值,输入语音为时域部分输出语音,然后取信号幅值,再经过两个长短时记忆神经网络(LSTM)、一个全连接层(FC)和一个用来产生掩膜输出的Sigmoid函数,将全连接层输出经过Sigmoid函数得到掩膜,掩膜与输入的幅度谱相乘得到增强幅度谱.最终,取时域部分输出信号的相位和频域部分的输出幅值,经逆傅里叶变换得到预测高频语音信号.1.1 注意力门-长短时记忆神经网络注意力门-长短时记忆神经网络由注意力门、输入门和输出门组成,如图2所示.其中注意力门可以学习上下文关系,实现多个时间步并行计算,进一步提升语音频带扩展的效果;打破了传统长短时记忆神经网络每次只能处理一个时间步的局限性,大幅度提升模型的运算效率;又能像双向长短时记忆神经网络一样同时利用过去和未来语音帧的信息,但不会对时间步相差过大语音帧之间的关系进行学习,从而减少计算量和内存消耗.10.13245/j.hust.240663.F002图2注意力门-长短时记忆神经网络1.1.1 注意力门在语音中每一帧语音都不是相互独立的,相邻的语音帧之间存在一定的关系.注意力门旨在学习当前帧和过去及未来语音帧之间的关系,从而提升预测的高频语音质量.注意力门由一个注意力块和Gelu函数组成,其中注意力块结构如图3所示.10.13245/j.hust.240663.F003图3注意力块结构由图3可知:输入的多帧低频语音分别和初始化参数矩阵相乘,得到查询矩阵q和键矩阵k,再通过一个Sigmoid函数得到查询矩阵Qm和键矩阵Km所对应的概率矩阵.最后通过Softmax函数计算相似度得分.语音序列经过两个全连接层后再和相似度得分相乘得到输出Y,通过全连接层和激活函数可以舍弃一些权重占比小的数值,从而减少计算量.具体计算过程如下q=Wq∙X;k=Wk∙X;Qm=q⊙δ(W1∙σ(q)+b1);Km=k⊙σ(k);Y=δ[W3∙δ(W2∙X+b2)+b3]⊙τ(Qm∙Km),式中:Wq,Wk,W1,W2,W3,b1,b2,b3为权重参数矩阵;δ和σ为Relu和Sigmoid函数;τ为Softmax函数.Gelu函数计算过程如下Go=ϕ(W4∙Y+b4),式中:W4和b4为Gelu函数中的权重参数矩阵;ϕ为Gelu激活函数;Go为Gelu函数的输出,也是整个注意力门的输出.1.1.2 输入门整个输入门由Sigmoid函数、Tanh函数和注意力门的输出组成,其中Sigmoid函数的结果可以视为概率矩阵,Tanh函数是对输入的一种非线性映射.整个输入门的输出由注意力门的输出和Tanh函数的输出两部分组成,Sigmoid函数决定整个门输出值中注意力门和Tanh函数输出所占的比例,两部分所占比例之和为1.整体门结构的计算过程如下Sio=δ(W5⊙X+b5);Tio=φ(W6∙X+b6);Io=Go⊙(1-Sio)+(Tio⊙Sio),式中:Sio为Sigmoid函数的输出,且决定着Tanh函数输出矩阵和注意力门输出矩阵应保留多少有用信息;Tio为Tanh函数的输出;Io为整个输入门的输出.1.1.3 输出门输出门由Sigmoid函数和Tanh函数组成,其中Tanh函数根据输入对输出进行预测,而Sigmoid函数对Tanh函数的值进行保留和丢弃.其计算过程如下:Soo=δ(W7⊙Io+b7);Too=φ(W8⊙X+b8);ξo=Soo⊙Too,式中ξo为输出门的输出.1.2 空间注意力块为了充分提取语音的信息,本研究用多个注意力门-长短时记忆神经网络对语音进行特征提取,然后用空间注意力块(D-block)对多次提取的语音特征进行取舍,防止提取的特征过于冗余.空间注意力块结构如图4所示.10.13245/j.hust.240663.F004图4空间注意力块结构空间注意力块包括平均池化和两个全连接层.提取的语音特征经过空间注意力块来确定每一个注意力门-长短时记忆神经网络须要提取多少特征,最后将更新的特征信息相加得到输出.空间注意力模块具体计算过程如下m=1HN∑h=1H∑n=1NC(h,n);P={m1,m2,m3,m4};Z=δ(W10∙δ(W9∙P+b9)+b10);Bo=∑j=14Zj⊗Cj,式中:H和N分别为帧数和帧长;C(h,n)为注意力门-长短时记忆神经网络输出矩阵中的值,C为注意力门-长短时记忆神经网络输出矩阵;Z为全连接层的输出;P为维度拼接;Bo为整个空间注意力块的输出.1.3 损失函数为了更好地训练提出的模型,提出一种时频损失函数,能够从时域和频域两个方向优化模型的输出结果,使模型预测的高频语音的每个采样点的值都和原始高频语音接近甚至一致.时域和频域子函数均采用均方误差函数(MSE),定义为LT(yt,y^t)=1N∑n=1N(y^t(n)-yt(n))2;LF(ym,y^m)=1N∑n=1N(y^m(n)-ym(n))2,式中:yt为高频语音帧;y^t为模型输出的重构高频语音帧;n为当前帧的采样点索引;ym为高频语音的幅值;y^m为模型输出的重构高频语音的幅值.综上所述,总的损失函数定义为L=LT+LF.2 实验与分析为验证模型的效果,采用四种基线方法作为对比,分别是三次样条插值方法(Spline)、基于全连接神经网络(DNN)的方法[6]、基于对抗神经网络(GAN)的方法[16]和基于通道注意力及非局部块神经网络(FCNN)的方法[12].基于对抗神经网络的方法只考虑将语音带宽扩展至8 kHz,对提出的方法和四种基线方法进行主客观指标评价.为测试模型的整体性能,采用VCTK-p225,AISHLL-2-SSB1215单说话人数据集和TIMIT多说话人数据集,其中VCTK-p225和TIMIT是以英语为母语的人录制,AISHLL-2-SSB1215是以普通话录制,三个数据集都按照7∶3来划分训练子集和测试子集.实验前须要对数据进行预处理,首先,将采样率从非16 kHz的语音降采样至16 kHz,并作为宽带语音;其次,将语音经过一个截止频率为8 kHz的低通滤波器,并作为窄带语音,其中语音帧长为512,帧移为256,学习率调为1×10-4,采用Adam优化器.2.1 客观评价本研究采用对数谱距离(LSD,DLS)、信噪比(SNR,RSN)、短时客观可懂度(STOI,T)、语音质量感知评估(PESQ,QP)作为语音客观评价指标来度量重构宽带语音与原始宽带语音在时域、频域和可懂度之间的差异.对数谱距离定义如下E=10lgs(l,m)2;E^=10lgs^(l,m)2;DLS=1L∑l=1L1M∑m=1ME^-E,式中:s(l,m)和s^(l,m)分别为原始宽带语音和重构宽带语音的功率;DLS越小代表重构宽带语音和原始宽带语音越接近;E和E^为宽带语音的对数功率谱和重构宽带语音的对数功率谱.信噪比定义为RSN(y,y^)=10lgy2 2/ y^-y22,式中:y和y^分别为原始宽带语音和重构宽带语音;RSN值越大表示恢复效果越好,环境噪声越小,声音越清晰.短时客观可懂度反映人类的听觉感知系统对语音可懂度的客观评价,其值在0~1之间,越接近于1代表可懂度越高.语音质量感知评估是用来评估语音质量的指标,其值在-0.5~4.5之间,越接近4.5表示语音失真越小且质量越好.为评估本研究提出模型的性能,在Spline,DNN,GAN和FCNN等模型上进行客观评估实验,客观评价结果如表1~3所示.在三个客观评价实验中,本文方法在信噪比、短时客观可懂度和语音质量感知评估度量上均表现出较好的效果,特别是信噪比和短时客观可懂度.本研究提出的方法在信噪比度量上相较于DNN模型平均提升了2.50 dB,比GAN模型平均提升2.05 dB,和FCNN模型的结果相近,三个数据集上都取得了最佳的结果.短时客观可懂度在AISHLL和TIMIT数据集上相比于Spline方法有较大的提升.虽然本研究提出的模型在三个数据集的对数谱距离度量上不如DNN出色,还存在可提升的空间,但是都优于Spline,GAN和FCNN三种模型,且高于平均水平.语音质量感知评估在多说话人数据集TIMIT上的表现优于其他四种模型.10.13245/j.hust.240663.T001表1VCTK-p225数据集客观评价结果方法DLS/dBRSN/dBTQPSpline3.41221.0510.9793.445DNN[6]0.79619.7710.9933.492GAN[16]1.44821.1970.9913.507FCNN[12]1.41123.4080.9913.448本文1.27423.5760.9923.31110.13245/j.hust.240663.T002表2AISHLL-2-SSB1215 数据集客观评价果方法DLS/dBRSN/dBTQPSpline2.86721.2310.9953.401DNN[6]0.80321.5430.9973.494GAN[16]1.59518.2070.9973.449FCNN[12]1.54922.0520.9983.461本文1.35122.0580.9983.30910.13245/j.hust.240663.T003表3TIMIT数据集客观评价结果方法DLS/dBRSN/dBTQPSpline3.77415.8820.9853.285DNN[6]0.98417.4620.9973.343GAN[16]1.42315.8910.9923.026FCNN[12]1.74218.0140.9983.353本文1.30118.0860.9983.405本研究提出的模型参数量仅有9.21 MiB,DNN参数量为18.87 MiB,GAN为24.91 MiB,FCNN为12 MiB.与DNN相比,减少了全连接层的使用并且缩小了输入层的维度.本研究提出的模型只对输入语音进行了四次特征提取,而GAN和FCNN使用了多层降采样来进行特征提取,并且每一层使用一定数量的卷积核,这导致可训练参数量增大.综合客观实验结果,本研究提出的时频网络以相对较少的参数量实现了更好的性能,在三个数据集上综合表现最出色.2.2 主观评价主观评价使用的是平均意见得分(MOS,SMO),将窄带语音、本研究重构的宽带语音和对比方法重构的宽带语音打乱顺序,在安静的环境下,测听者对听到语音的质量进行主观评分,得分在0~5之间,越接近5代表主观评价越好.最终将所有的语音主观评分平均,得到平均意见得分.表4为在三个数据集上进行主观评价实验的结果,本研究重构的宽带语音与基线方法相比,在平均意见得分上有优势.10.13245/j.hust.240663.T004表4主观评价结果模型数据集1数据集2数据集3窄带语音1.921.641.57Spline3.122.612.58DNN[6]3.733.073.34GAN[16]3.763.233.49FCNN[12]3.793.543.67本文3.813.633.762.3 语谱图和波形图语谱图是一个能将语音可视化的三维图,横坐标代表时间,纵坐标代表频率,颜色深浅代表能量大小.语谱图能够直观反映语音在不同时间和不同频率上的能量分布,频率越高,纹理结构越多且细小,恢复难度越大.由图5(a)(b)(c)可知重构宽度语音恢复效果较好,能量的分布也能较好地还原.但是重构宽带语音的高频细节和原始宽带语音的高频细节有一定的差距,还有一定的提升空间.由图5(d)可以看出重构的语音信号非常接近原始语音信号,整体效果较好,但是在某些区域存在一定的偏差.10.13245/j.hust.240663.F005图5语谱图和波形图3 结语本研究提出了一种幅值掩膜的时频神经网络,这种方法既不会丢失语音的相位,又通过掩膜的方法优化幅值.其中,注意力门-长短时记忆神经网络能够实现并行计算,同时处理多帧语音,并且能学习上下文帧之间的联系,主客观评价实验证明这种方法展示出不错的效果.但是网络模型分为时频两部分增大了计算量和内存消耗,未来的工作将专注于缩小网络模型,提升处理音频的效率,使模型能够在边缘设备上运行.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读