由于数字公共交换电话网络(PSTN)的信道带宽限制,在电话通信端的语音频带范围被限制在0.3~3.4 kHz的窄带范围,这类语音称为窄带语音.窄带语音在听觉层面上表现低沉,缺乏辨识度以及良好的听觉感受[1-2].随着时代的发展,人们对高清通话的需求日益增加[3],语音频带扩展技术旨在通过恢复窄带语音中缺失的高频部分(4~7 kHz)提升窄带语音的可懂度、清晰度和自然度,从而提升语音整体质量.早期的语音频带扩展技术主要使用信号处理方法进行研究和实现,引入源-滤波器模型将宽带语音生成任务分为激励信号生成[4]和用于描述声道模型的谱包络估计[5],其中寻找用于描述缺失高频部分的谱包络估计尤为重要.从码本映射[6]到基于统计模型的高斯混合模型[7-8](gaussian mixture model,GMM)和隐马尔科夫模型[9](hidden markov model,HMM)在早期的语音频带扩展领域中得到了广泛的应用.随着深度学习的快速发展,将深度神经网络运用于语音频带扩展领域逐渐成为主流,Li等[10-11]提出了一种基于全连接神经网络(dense-connected neural network,DNN)的语音频带扩展模型,通过提取语音的对数功率谱特征作为模型的训练数据,取得了较好的效果,但是由于模型是直接预测缺失的高频频谱再与低频带进行简单的频谱拼接后输出构成宽带语音,因此在低频带和高频带连接处存在频谱丢失,在听觉上会有明显的断续感,生成的语音不自然;在文献[12-13] 中,DNN神经网络也可用于直接估计高频谱包络.受到卷积神经网络(convolutional neural network,CNN)在图像超分辨率[14]应用的启发,Kuleshov等[15]提出了一种经典的基于卷积神经网络的端到端语音频带扩展模型,该方法直接估计语音信号波形结构,无须做任何特征提取.针对上述问题展开研究,提出了一种基于多尺度数据融合的网络结构,通过多条学习路径而产生不同特征尺度表示之间的信息交换,逐步恢复缺失的高频信号.并针对语音数据的长时序性特征设计了一种残差多头自注意力机制,以提高模型对长序列时序特征的上下数据关联性的敏感度,增强重要特征在训练中的权重.该模型的输入为未做特征处理的原始音频,输出为重构的宽带语音.在以往的语音频带扩展研究中往往仅考虑语音在时域[16]或频域[17]损失,以至于模型的训练方向会受到单一的时域或频域信息的导向.感知研究表明:人耳的听觉感知与声音的频率不成正比,Mel频率的提出方便人耳对不同频率语音的感知特性的研究.本研究提出了一种结合时频域以及Mel频谱感知损失线性组合的复合损失函数,促使网络可以同时在3个不同域上进行优化学习.1 模型设计提出的网络模型结构如图1所示.通过设计不同路线的网络学习路径来获得不同的数据视野特征,并将各路线所学习到的数据特征进行融合,以增加数据特征的多样性,从而以更少的特征数据量来获取更优的低高频映射关系解.模型整体从左到右划分为A,B和C这3条学习路径.每条学习路径有着各自不同的卷积核结构,以求获得不同的数据维度特征,最后再将这3条路径上不同的数据特征进行融合,并作为模型的最终输出.10.13245/j.hust.238550.F001图1基于注意力机制神经网络的语音频带扩展框图A路径,将输入的窄带语音经过1×1的一维卷积以保留其原始的低频部分,并提供与A和B两条路径所不同的数据维度特征.B路径,将输入的窄带语音通过卷积核大小为3、卷积核数为32的一维卷积用于削减数据维度,随后通过Leaky Relu激活函数,经过由4层Block叠加而成的网络模块;其中Block由卷积核大小为9、卷积核数量为128、扩展(膨胀)因子αdila为3N,N为随着层数而增加的时间因果卷积[18-19],卷积核大小为1、卷积核数量为128的一维卷积、Leaky Relu激活函数及一个残差结构所构成.C路径,将输入的窄带语音通过卷积核大小为9、卷积核数为64的一维卷积用于削减数据维度,随后通过Leaky Relu激活函数,再由4层Block叠加而成的网络模块;其中Block由卷积核大小为9、卷积核数量为128、αdila为3N,卷积核大小为1、卷积核数量为128的一维卷积,Leaky Relu激活函数及一个残差结构所构成.与普通的一维卷积相比,一维时间因果卷积在对长时序数据特征中具有更宽的视野,可以获得很好的上下文特征联系能力.下采样层(down layer)的构造是卷积核大小为9、卷积核数量为512、步长设置为4的一维卷积,用于精炼特征数据维度让自注意力机制层可以更好地专注上下文特征中那些权重最高的特征.上采样层(up layer)的构造是卷积核大小为9、卷积核数量为128、步长设置为4的逆一维卷积层(ConvTranspose1d),用于还原数据特征维度.为了充分利用每一条学习路径层的神经网络输出的特征信息,将经过B,C二条学习路径的数据特征进行拼接后经过1×1的通道数为2的一维卷积层用以融合二条路径的特征维度,最后一层设计为Subpix层,实验证明PixelShuffle1D层与逆一维卷积层(ConvTranspose1d)相比所生成的频谱中拥有更少的频谱残影.图1所示的自注意力机制层是受到ResT[20]在图像识别领域成功的启发,并结合语音频带扩展对其进行了改进,构建了一种具有残差结构[21]的高效记忆的多头自注意(efficient multi-head self-attention)模型,该模型通过深度卷积对语音长序特征记忆进行压缩,在保持多头注意力多样性的同时,通过一个残差结构来提高输入原始特征在注意力机制中的权重比例.自注意力机制用于计算数据之间的相关程度为EEMSA(Q,K,V)=γINSoftmaxConvQKTdkV, (1)式中:Q,K和V分别表示query,key和value所组成的矩阵,其中以Q和K的相识度作为权重,经过一个1×1的一维卷积Conv1d,以进一步提取Q和K之间特征联系,再经过softmax函数,softmax其结果大小主要取决于Q和K相识度作为权重的大小,其权重越大则所获的注意力便越多;γIN()为一个实例归一化层(instance normalization),最后再将结果对V进行加权求和.模型最后的输出为:y=x'+FFFN(γIN(x'));(2)x'=x+EEMSA(γIN(x)),(3)式中FFFN为特征变换和非线性处理,由带有非线性激活的两个线性层组成,即FFFN(x)=σ(xW1+b1)W2+b2,其中的σ(⋅)为激活函数GELU[22].2 时频梅尔感知损失函数设计了一种融合时频域和感知域的复合损失函数,使得模型能同时朝着更精确的时域波形、更真实频域频谱及更符合人耳听觉感知3个方向同时训练和优化.其中子损失函数设计如下.时域损失设置为宽带音频y和重构宽带音频y^之间的均方根误差(root mean square error,RMSE),因为RMSE对特大或特小误差非常敏感,能够更好地学习到重构宽带语音和宽带语音之间的非线性映射关系,时频损失定义为LT(y,y^)=1N∑n-1N(y^(n)-y(n))21/2,式中:n为当前帧的采样点索引;N为语音总帧数.频域损失使用对数谱距离开根平方差,能更好地反映重构宽带语音频谱误差的实际情况,对标签语音和重构宽带语音分别进行短时傅里叶变化后,提取各种频域上的量级特征,设置为S和S^分别为标签语音和重构语音的对数谱距离,LSD度量方法测量两个信号在频域的欧氏距离,LSD的值越小,估计的音频和宽带音频在频域越相近,其中LSD损失函数定义为LLSD(S,S^)=1LK∑l=1L∑k=1K(10lgS(l,k))2-(10lg(l,k))21/2,式中:l和k分别表示音频帧数和频率的索引;L和K分别表示语音频点数和频率帧数.进行STFT变换时,使用的是窗长为256的汉明窗,帧移为128,FFT长度为256.Mel频谱损失设置为重构宽带语音y^和宽带语音y提取对数梅尔频谱(log mel-spectrogram,LMS)特征后的RMSE损失,LMS定义为δLMS(x)=log(mel_spec(x)+1×10-8),式中x为语音帧数,偏置值设为1×10-8.梅尔频谱损失公式定义如下LLMS(y,y^)=1MK∑m=1M∑k=1K(LMS(y^)-LMS(y))21/2.综上可见,时频梅尔感知损失函数定义为Ltotal=αLLMS+LT+αLLSD.(4)基于频域损失函数的Loss权重值远大于基于时域损失函数的Loss,为了规范复合损失中时频域和梅尔频域各模块在总损失中的占比,在对数谱损失和梅尔频谱损失前面乘上一个规范系数来达到类似归一化权重的作用,式(4)中的超参数α取0.001,由通过消融对比实验得出.3 实验与分析为了验证提出语音频带扩展算法性能,对文献[8]、文献[12]和文献[15]进行了复现,并将复现结果重构的宽带语音与本文算法所重构的宽带语音进行了主客观评价对比.3.1 数据处理及实验设置设置了单说话人和多说话人实验,在CSTR-VCTK[23]数据集和AISHELL-1[24]的S002数据集上设计单说话人实验,在TIMIT[25]数据集上进行多说话人实验.VCTK和TIMIT数据集的每个语音信号由英语母语人士录制,AISHELL-1数据集由中文母语人士用普通话录制.数据集以6:2:2的比例划分为训练集、验证集和测试集.其中,训练集用于训练模型,验证集用于调整模型的超参数,测试集用于进行主客观评价.由于第五代移动通信技术(5G)使用增强型语音服务[26](EVS)编解码器,使用EVS编解码器和STL[27]工具箱进行语音预处理.语音数据的预处理阶段采用文献[28-29]的方法.首先,数据集中的语音信号经过MSIN[30]过滤,然后编码,最后用EVS语音编解码器解码得到比特率为24.4 kbit/s,位宽为16 bit的窄带语音信号作为输入语音信号.为了方便训练,将音频按16 kHz采样率处理,取训练帧为8 192,约0.5 s/帧.ITU-T P.341[30]规定了宽带语音免提电话的音频性能要求,因此宽带语音信号预处理对可用的宽带语音信号数据进行P.341[30]滤波,得到0.05~7.00 kHz,比特率为24.4 kbit/s,位宽为16 bit的宽带语音作为目标语音信号.3.2 语谱图图2,3和4为给出的3个样本音频的窄带语音、宽带语音及重构宽带语音的语谱图.通过语谱图的对比可见:重构宽带语音的低频频谱被完整地保留了下来,5~7 kHz频带范围内的高频频谱主要纹理结构及能量分布的还原度较高.10.13245/j.hust.238550.F002图2VCTK测试数据集语谱图对比(色标单位:dB)10.13245/j.hust.238550.F003图3TIMIT测试数据集语谱图对比(色标单位:dB)10.13245/j.hust.238550.F004图4AISHELL-1-S0002测试数据集语谱图对比(色标单位:dB)3.3 客观评价由于语音信号是一种缓慢变化的短时平稳信号,因此在不同频段上的信噪比也不相同.为了更准确地描述每个频段信噪比的变化,可以采用频率加权分段信噪比(frequency-weighted segmental SNR,fwSNRseg)[31],频率加权分段信噪比可以为频谱的不同频段设置不同权重.在选择感知动机的频率间隔方面(例如临界频带间隔)上具有灵活性.频率加权分段信噪比定义为μfwSNRseg=10M∑j=1KWjlgX2(j,m)/(X(j,m)-X^(j,m))2 /∑j=1KWj,式中:Wj为第j个频带的权重;K为频带的总数量;M为语音信号的帧数;X(j,m)为第m帧第j个频带经过高斯形窗加权的标签语音信号频谱;X^(j,m)为第m帧第j个频带经过高斯形窗加权的重构语音信号频谱.LSD[32](log spectral distance)度量方法测量两个信号在频域的欧氏距离,LSD的值越小,估计的音频和宽带音频在频域越相近.LSD定义为:βLSD=1L∑l=1L1M∑m=0M(S-S^)1/2;S=10lg|S(l,m)|2;S^=10lg|S^(l,m)|2.PESQ[33-34](Perceptual Evaluation of Speec-h Quality)是由国际电信联盟电信标准化部门指定的电话语音质量评价指标,用于评估语音感知质量,并根据转换为平均意见评分-听力质量标准(MOS-LQO),得分值越高代表语音的感知质量越高.客观评价对比如表1所示,实验表明:本文方法的重构宽带语音在fwSNRseg和PESQ度量值,以及LSD等客观评价上均优于其他参考方法;并且不同种类数据集对模型的客观评价有影响,这和数据集的质量及所包含缺失高频频谱的多少有关,往往在原始音频中包含更丰富的高频部分的数据集会取得更佳的客观评价结果.对比其他模型而言,提出的模型由于设计了局部自注意力机制层,可以更好地获得连续数据特征的关联性.该模型在3个数据集的LSD评价中均取得了较为接近真实频谱的得分,从频谱图中也能看出重构的低高频谱之间连接自然且没有断层现象,重构的高频频谱部分表现的更加自然和真实.10.13245/j.hust.238550.T001表1客观评价结果模型μfwSNRseg/dBβLSD/dBPESQMOS-LQOEVS-NB[26]VCTK1.7392.8741.7591.462TIMIT9.1162.4581.6831.418AISHELL7.9982.7631.4001.284文献[8]VCTK3.7921.2692.7042.418TIMIT11.0311.2182.6312.359AISHELL9.4791.2382.6462.339文献[17]VCTK3.3901.1942.6822.392TIMIT11.2811.1372.7312.435AISHELL9.8631.0542.5222.136文献[18]VCTK13.6451.7073.2383.028TIMIT15.4161.5483.2013.124AISHELL13.8391.5353.0742.936本研究VCTK17.3430.9273.3213.289TIMIT19.2910.8123.5413.472AISHELL17.5310.8013.2763.2333.4 主观评价开展的绝对类别评级(absolute category rating,ACR)和比较类别评级(comparison category rating,CCR)[35]测试主要内容如下.邀请20位听力正常的听众作为评估者,年龄在20~30周岁.其中,男女各10人.测试在安静的房间进行,使用索尼WH-1000XM3耳机,测试语音文件为单声道文件,用耳机的方式播放时,将耳机的左右二通道设置为相同,并对复现音频以乱序的方式各取10条.ACR测试音频具体步骤如下:步骤1 文献[8]算法重构的宽带语音;步骤2 文献[17]算法重构的宽带语音;步骤3 文献[18]算法重构的宽带语音;步骤4 通过EVS-NB编解码器得到的窄带语音;步骤5 通过EVS-WB编解码器后再经过p.341滤波后得到的高清电话宽带语音;步骤6 本文算法重构的宽带语音.将上述音频文件进行线性听力测试.采用MOS方法,听众根据其清晰度和自然度,按照自己的主观意见对每段语音信号进行评分.评分区间为1~5.最后,对每段语音的分数进行平均.表2给出了所有频带扩展系统语音信号的ACR平均分数.10.13245/j.hust.238550.T002表2VCTK,Aishell-1-S0002和TIMIT数据集中绝对类别评分模型MOSVCTKAishell-1-S0002TIMITEVS-WB[26,30]4.104.064.15EVS-NB[26]1.831.732.04文献[8]2.642.212.66文献[17]2.932.793.08文献[18]3.373.233.38本研究3.693.523.61CCR测试音频具体步骤如下:步骤1 文献[18]算法重构的宽带语音;步骤2 通过EVS-NB编解码器得到的窄带语音;步骤3 通过EVS-WB编解码器后再经过p.341滤波后得到的高清电话宽带语音;步骤4 本文算法重构的宽带语音.CCR测试使用CMOS来比较测试结果,CMOS的取值范围在-3(差很多)和3(好很多)之间,置信区间(CI)为95%.表3显示了所有频带扩展系统的语音信号的CCR平均分数.10.13245/j.hust.238550.T003表3VCTK,Aishell-1-S0002和TIMIT数据集中比较类别评分模型CMOSVCTKAishell-1-S0002TIMITEVS-WB[26,30] vs EVS-NB[26]+2.35+2.03+2.28EVS-WB[26,30] vs 文献[18]+1.58+1.37+1.53EVS-WB[26,30] vs本研究+1.13+1.04+0.94EVS-NB[26] vs 文献[18]-0.87-1.47-0.97EVS-NB[26] vs本研究-1.36-1.68-1.42本研究vs 文献[18]+0.52+0.46+0.82由表2可见:在ACR听力测试中,所有算法的MOS得分均高于EVS-NB窄带语音.其中文献[18]算法和本文算法结果表现最佳.由于重构宽带语音的感知质量受到语种和数据的多样性的影响,因此在不同数据集上的测评结果会存在偏差.由表3可见:在CCR听力测试中,EVS-WB宽带语音的CMOS得分相比于EVS-NB窄带语音在3个不同数据集中均高出2个以上,这符合主观常识.在EVS-WB宽带语音与文献[18]算法和本文算法的对比测试中,可见所提出的算法在重构音频的质量上更佳接近宽带语音的质量,具有更好的自然语音表现力.其中,相较于文献[18]算法而言,本文算法在TIMIT数据集上的CMOS得分最高为0.82,在VCTK和Aishell-1-S0002数据集上的CMOS得分比较接近分别为0.52和0.46,总体而言本文算法优于对比算法.4 结论采用EVS编解码器进行数据预处理,提出了一种跨多尺度特征融合的端到端语音频带扩展算法,引入一种具有残差结构的高效多头自注意力机制.在拟合窄带音频和宽带音频之间的非线性映射关系中表现其出色的性能,并且提出了一种结合时域、频域和基于人耳听觉特性的损失函数,促使神经网络整体向着更优的方式学习,与生成式对抗网络(GAN)[36]相比可以有效地降低模型整体训练难度.主客观评价实验结果表明:相较于传统的方法和近几年的深度学习方法,本文方法显著提升了重构宽带语音质量,为语音频带扩展领域提供了一种新的思路.因为看到了图神经网络(GNN)的巨大潜力,所以望能够探索结合图神经网络在语音频带扩展领域的应用.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读