随着计算机网络技术和通信技术的不断发展,语音数据日益呈现海量趋势;同时,在半开放信道处理和传输过程中,语音信息更容易被篡改或伪造.在这一背景下,如何安全、高效完成语音信息的检索[1-2]日益受到研究者的关注.当前音频检索主要有鲁棒哈希[3-4]及音频指纹[5-6]两种方式,其中,鲁棒哈希原理是将音频数据转化为二进制序列,并能保持二进制序列与原始音频数据的对应关系,因其具有较好的区分性、鲁棒性、安全性及存储空间小等优势,具有很好的发展潜力.当前对音频检索算法的研究中,哈希构造过程均采用统一方法,导致哈希构建过程单一,不能对特征形成有效保护.文献[7]提出一种基于子带频谱质心的高效语音指纹检索,以Philips音频检索方法为基线,通过提取的子带频谱质心特征帧间差分构建哈希形成32 bit子哈希.文献[8]提出利用多层螺旋计算机断层扫描(CT)系数实现感知鲁棒性,通过非负矩阵分解(NMF)捕获得到的多层螺旋CT系数的局部特征,对内容不同的音频片段进行分类.该方法在感知鲁棒性、识别率和效率都具有较好的性能,但未考虑对安全数据库检索问题.文献[9]提出Chirp-Z变换和感知哈希第二特征提取的加密语音检索算法,通过对加密语音进行一级哈希构造并提取二级特征构建二级哈希,该算法提高了区分性,但对内容保持操作语音的鲁棒性及算法自身的安全性还有待提高.文献[10]提出一种基于频带方差的加密语音检索方法,通过对加密后语音提取频带方差构建鲁棒哈希,算法具备一定安全性但对加密语音提取特征导致算法的区分性较差.近年来,国内外提出生物特征安全模板保护方法[11-12],其原理是在特征数据转化为二进制序列过程中对特征数据进行维度变换或者混淆加密,因其具有很高的安全性,被广泛应用于语音识别、认证中.目前,生物特征安全模板保护方法主要分为特征变换法,密钥绑定法和密钥生成法,其中特征变换法中的生物哈希[13]具有其更高的安全性和可撤销性.文献[14]提出一种基于混沌测量矩阵的生物哈希密文语音检索算法,通过对降维后的语谱图特征的差分序列求和,根据求和结果对语音分类构建生物特征模板.文献[15]提出一种基于生物哈希的加密语音检索算法,通过提取语音信号的小波梅林矩阵并与伪随机矩阵迭代生成哈希序列,该算法具有较好的鲁棒性、较高的检索效率,但生物特征模板多样性较差.文献[16]提出一种基于音节级哈希的语音检索算法,通过减少云端索引的匹配数量,提高了检索效率,但检索性能还有待提高.虽然目前语音检索算法已经取得了许多成功,但是哈希构造过程仍存在单一性,对特征保护不足等问题.基于以上问题,本研究提出一种基于卢氏特征安全模板的语音生物哈希检索算法,首先提取原始语音伽马通倒谱系数(GTCC)特征并进行差分处理,移动端使用支持向量机[17-19]对原始语音的差分序列分类,并构建独立密钥控制的卢氏特征安全模板,同时将生物哈希位数减小到512 bit.此外,通过在移动端建立差分索引表及在云端建立生物哈希索引表使得云端匹配过程中仅须要对类内生物哈希序列匹配,以减少单次索引匹配数量提高检索效率及检索精度.1 相关工作1.1 GTCC特征提取与降维处理Gammatone滤波器应用于耳蜗听觉模型,其时域表达形式为gi(fi,t)=Γtm-1e-2πbitcos(2πfit+ϕi) (t≥0),式中:Γ为滤波器增益;m为滤波器阶数;fi为第i个滤波器的中心频率;ϕi为第i个滤波器的初始相位;bi为第i个滤波器的衰减因子,有bi=1.019Erb(fi),其中Erb(fi)=24.7(4.37×10-3fi+1).语音信号的GTCC特征提取过程如下.a.首先对输入的语音信号进行分帧和加窗,然后做离散傅里叶变换,得到频谱信息,即xi(n)=∑n=0N-1x(n)e-j2πn/N (0≤n≤Lw,1≤j≤Lf),式中:Lw为帧长;Lf为总帧数;xi(n)为第i帧的第n个采样点.b.将幅度谱xi(n)通过M个Gammatone滤波器组gm(n),计算每个滤波器输出的对数,即S(m)=ln∑k=0N-1xi(n)2gm(n) (0≤m≤M),式中M为Gammatone滤波器组阶数.c.经余弦离散变换(DCT)变换得到M×Lf的GTCC矩阵系数G,即G(m,n)=∑m=0M-1S(m)cosπn(m-0.5)M.d.最后,通过Toeplitz和循环测量矩阵Φ对特征系数矩阵G进行降维处理,即V=Φ×G,由此得到原始语音信号的特征向量V,其中Φ=tntn-1⋯t1tn+1tn⋯t2⋮t2n-1t2n-2⋯tn,式中ti服从伯努利分布,且ti∈{±1}.1.2 卢氏特征安全模板的构造为提高生物哈希构造的多样性,本研究采用卢氏混沌映射来构建特征安全模板.卢氏特征安全模板的构造流程图如图1所示.10.13245/j.hust.239431.F001图1卢氏特征安全模板构造流程图a.将密钥Si作为混沌系统的初始值x0,y0,z0.b.通过卢氏混沌映射产生一个3×L的随机序列,由于在卢氏混沌中z维度具有更高的混沌特性,令q(i)=z{z1,z2,⋯,zL},然后通过施密特正交化得到随机序列q'(i),即ϕx,y,z=x(i+1)=a(y(i)-x(i));y(i+1)=-x(i)z(i)+cy(i);z(i+1)=x(i)y(i)-bz(i),式中:ϕ(x,y,z)为卢氏混沌映射的映射函数;a,b,c为参数,且有a=36,b=3,c=20.c.将降维后的语音特征向量与随机序列q'(i)进行点积得到序列D(i).2 注册及检索流程基于卢氏特征安全模板的语音生物哈希检索算法流程包含注册端、用户端和云端,其注册及检索流程如图2所示.10.13245/j.hust.239431.F002图2基于卢氏特征安全模板的语音生物哈希检索流程图2.1 注册端步骤1 分类并构建差分索引类表.a.提取原始语音GTCC特征向量V,进行二值化处理,即h(i)=1 (V(i)V(i-1);(i=2,3,…,N);0 (其他),由此得到原始语音的差分序列,设置差分序列h(1)=1.然后,将原始语音库中L条语音平均分配到k个类别中,其中每一类别C={Ci|i=1,2,⋯,k}.b.根据类别Ci生成单一映射的密钥S={Si|i=1,2,⋯,k},然后将所有原始语音信号的差分哈希序列hi作为训练集,通过SVM进行数据学习得到其训练模型,其中类别C与密钥S单一对应,即C={Ci}⇄S={Si},i=1,2,⋯,k.c.将原始语音的类别Ci和对应的密钥Si建立差分索引类表,其中每一个Ci对应唯一类内首地址Ca.步骤2 卢氏特征安全模板.a.根据原始语音的类别Ci建立具有单一映射密钥的特征安全模板.b.按照上述的1.2节完成卢氏特征安全模板的构造,最后将特征向量V与序列q'(i)进行点积得到序列D(i).c.对序列D(i)进行量化,即H(i)=1 (D(i)D(i-1) (i=2,3,…,N);0 (其他),由此得到原始语音的生物哈希序列H(i),其中设置H(1)=1.d.将原始语音的逻辑地址B和生物哈希H上传云端,在云端建立生物哈希索引表.2.2 用户端a.用户提交待检语音x'(n),并通过GTCC算法提取待检语音的特征向量V'并进行差分处理,得到差分序列h'.b.通过SVM对差分序列h'分类,根据分类结果C查询差分索引类表得到对应密钥S;然后通过密钥S激发对应的卢氏特征安全模板,最后得到待检索语音信号的生物哈希H'.c.将待检语音的生物哈希序列H'与在差分哈希类表中对应的类内首地址Ca上传云端.2.3 云端a.经移动端上传的生物哈希H'与云端生物哈希表中对应类内的生物哈希H逐一进行匹配.在匹配过程中,对于上传的哈希H'与云端生物哈希序列H二者之间的归一化汉明距离,即可视为比特误码率Ber,有Ber(H',H)=1N∑i=1NH'⊕H.当Ber小于等于门限值时,即为检索到相关的语音,反之就是未检索到相关语音.b.将检索结果返回给移动端,只有当匹配成功时,才将原始语音返回给移动端.为衡量检索性能,定义误识率F为F(τ)=∫-∞τfx|μ,σdx=∫-∞τ1σ2πe-x-μ22σ2dx,式中:τ为检索阈值;μ为Ber均值;σ为Ber标准差.3 实验及分析语音库所用语音都来自TIMIT(德州仪器和麻省理工学院)和TTS(文本语音转换)语音库中的信号,其时长均为4 s,共5 000条(其中英文男女、中文男女各1 250条).实验硬件平台Inter(R) Core (TM) i7-9750H CPU,2.60 GHz,内存8 GiB,软件环境为Windows10操作系统下的MatlabR2020b.本研究实验设置如下:窗函数采用汉明窗,其中,Lw=200,Lf=512;Gammatone滤波器组阶数M=14;SVM采用线性核函数.3.1 密钥空间及特征安全模板安全性分析本研究采用卢氏特征模板保护方法,将密钥S作为卢氏混沌系统的初始值x0,y0,z0,通过控制混沌映射初始值改变混沌映射迭代方式.若选取精度为1×10-14,则初始密钥空间大小为1×1056,经过多轮迭代后,使得密钥空间远大于1×10100,足以防御暴力攻击.此外,每条语音信号通过卢氏特征模板生成的生物哈希均为512 bit的二进制序列,且此过程具有带陷门单向性,无法从生物哈希中得到特征向量V或密钥S,说明该过程具有良好的安全性和隐私性.为了能提高语音检索系统中生物哈希构造过程的安全性、特征安全模板的多样性和可撤销性,将5 000条原始语音信号均分为625类,构建了625特征安全模板,相较于文献[13-15]算法在模板多样性均有较大提升.其中每个特征安全模板由单一密钥S激发卢氏混沌映射产生,且对于攻击后的特征安全模板能够很快生成新的安全模板,因此本研究算法具有良好的多样性和可撤销性.3.2 检索性能分析为了测试本研究算法的检索性能,对原始语音库进行如表1所示的10种内容保持操作.10.13245/j.hust.239431.T001表1内容保持操作内容保持操作操作方式简称音量调节Ⅰ音量增加50%V.↑音量调节Ⅱ音量减少50%V.↓滤波Ⅰ6阶巴特沃斯滤波,截止频率3.4 kHzBF.6滤波Ⅱ6阶FIR滤波,截止频率3.4 kHzFF.6重采样Ⅰ采样频率下降至8 kHz,再上升至16 kHzR.↓重采样Ⅱ采样频率上升至32 kHz,再下降至16 kHzR.↑窄带噪声添加50 db噪声,频率分布在0~4 kHzG50格式压缩Ⅰ编码为MP3,再解码恢复64 kbit/s64格式压缩Ⅱ编码为MP3,再解码恢复96 kbit/s96格式压缩Ⅲ编码为MP3,再解码恢复128 kbit/s1283.2.1 分类成功率本研究提出的检索方法首先须要对待检语音的差分序列分类,得到正确的分类,根据差分哈希索引表获得该类语音对应的生物特征模板,完成生物哈希处理与云端生物哈希索引表进行匹配.若不能对待检索语音的差分哈希序列分类,则无法获得对应的生物特征模板,从而在云端无法检索到原始语音.为了测试本算法分类的正确率,定义了分类正确率为Ac=CTCT+CF×100%,式中:CT为被正确划分的个数,即被正确分类的语音个数;CF为被错误划分的个数,即被错误分类的语音个数.由图3可知:随着分类数k提高,分类成功率Ac逐渐提高.当k=625时,对上述10种内容保持操作后语音的差分序列分类成功率均达到了100%,即可以实现对内容保持操作语音的分类,满足下一步的检索需求.10.13245/j.hust.239431.F003图3不同类数的分类正确率3.2.2 查准率及查全率分析在多媒体信息检索中,查全率R与查准率P是反应检索性能的重要指标之一,有R=ST/(ST+SN)×100%;P=ST/(ST+SF)×100%,式中:ST为检索结果中正确语音且被检索到的数量;SN为错误语音且被检索到的数量;SF为正确语音且未被检索到的数量.经计算可得原始语音的Ber最大值为0.375 0,经过内容保持操作后的Ber最大值为0.244 1,故检索阈值τ应当在区间(0.244 1,0.375 0)范围内.为了保证算法当经受内容保持操作时仍然具有良好的查全率和查准率,采用平均值0.294 5作为阈值.根据表2和表3可以得出:本研究算法对多种内容保持操作后的语音进行检索的查全率和查准率均保持在100%,因此本算法具有良好的检索性能,满足对多种内容保持操作的检索需求.10.13245/j.hust.239431.T002表2查准率对比内容保持操作本研究文献[13]文献[15]文献[16]V.↑10010010098V.↓10010010097BF.6100—100—FF.6100———R.↓10010010099R.↑100—100—G50100100100—64100———96100———128100——100注:“—”表示未发现(下同).%10.13245/j.hust.239431.T003表3查全率对比内容保持操作本研究文献[13]文献[15]文献[16]V.↑10010010098V.↓10010010097BF.6100—100—FF.6100———R.↓10010010098R.↑100—100—G50100100100—64100———96100———128100——100%3.2.3 检索效率及分析为了测试本研究方法的检索效率,从语音库中随机选取1 000条语音信号进行检索效率测试.由表4可知:本研究算法检索效率相较于其他算法有了大幅提升,其中,检索效率相较于文献[9]算法提高了350倍,相较于文献[13]算法提高了571倍.由于在移动端对带检索语音的差分序列进行了分类,使得当进行云端检索时仅须要在类内进行检索,不须要遍历整个语音库,从而使得检索效率有了较大幅度的提升.10.13245/j.hust.239431.T004表4不同算法的检索时间对比算法主频/GHz语音时长/s检索时间/s文献[9]2.540.090 7文献[13]2.540.146 7文献[15]2.540.038 7文献[16]3.240.500 0本研究2.642.567 0×10-43.3 区分性及鲁棒性分析区分性及鲁棒性可以进一步反映本研究卢氏特征安全模板的有效性.3.3.1 区分性根据隶莫佛-拉普拉斯中心极限定理,不同语音信号通过对应特征安全模板产生的生物哈希序列之间的Ber近似服从(μ=p,σ=p(1-p)/Lf)的正态分布,其中,p=1/2,Lf=512.经过计算的理论值为μ0=0.5,σ0=0.022 1.通过对5 000条语音信号的生物哈希序列计算Ber,共得到1.249 75×107条数据值,其正态分布如图4所示,图中W为发生次数.10.13245/j.hust.239431.F004图4正态分布图经过对数据值计算得到的实际的正态分布参数为μ=0.499 4,σ=0.026 2.图5为误识率F曲线比较图,由图5中理论值和实际值的F曲线比较可以看出两者近似重合.10.13245/j.hust.239431.F005图5F曲线比较图同时,由表5可知:本研究算法在不同检索阈值下的误码率优于其他文献算法.结合图4可以得出本研究算法得到的正态分布参数与理论值十分接近,也说明本研究算法具有较好的随机性和区分性.10.13245/j.hust.239431.T005表5不同算法误码率对比阈值本研究文献[9]文献[15]文献[16]0.026.213×10-771.936×10-562.412×10-593.138×10-430.049.063×10-715.270×10-521.138×10-547.603×10-400.067.207×10-659.320×10-483.409×10-501.323×10-360.083.124×10-591.071×10-436.479×10-461.657×10-330.107.387×10-548.005×10-407.818×10-421.490×10-300.151.416×10-415.882×10-311.716×10-328.560×10-240.206.174×10-312.947×10-232.215×10-246.286×10-18为了进一步衡量算法的区分性,采用熵率E进行计算,E的定义为E=-plog2p-(1-p)log2(1-p),式中p=(σ2-σ02)/(σ2+σ02)+1/2.不同算法的E值分别如下:本研究为0.987 0;文献[9]为0.896 4;文献[15]为0.916 2;文献[16]为0.965 1.由此可知:本研究算法的E值相较于其他文献算法有进一步提高,说明本算法具有良好的区分性.3.3.2 鲁棒性为了测试本研究算法的鲁棒性,对10种内容保持操作的生物哈希计算Ber,其经过内容保持操作后的最大Ber和均值Ber如表6所示.从表6中可以看出:本研究算法经过内容保持操作后的Ber均值在0.1以下,说明本算法具有较好的鲁棒性.对于音量调节操作,音量的增大或减小只是对语音幅值产生影响,对GTCC系数几乎未发生变化,故其鲁棒性较好.对于两种截止频率为3.4 kHz的滤波操作,频谱上会导致大于3.4 kHz数据丢失,导致数据当提取GTCC系数时变化较大,故其鲁棒性较差.对于窄带噪声操作,由于噪声的干扰会使GTCC系数发生变化,因此其鲁棒性较差.对于MP3操作,由于该操作是对信号进行压缩处理但对语音整体影响较小,因此GTCC系数未发生变化,其鲁棒性较好.10.13245/j.hust.239431.T006表6不同内容保持操作的Ber内容保持操作最大Ber均值BerV.↑0.057 80.005 4V.↓0.070 40.006 0BF.60.165 80.069 2FF.60.168 00.064 3R.↓0.148 20.047 9R.↑0.060 30.007 2G500.244 10.026 3640.082 90.039 4960.065 30.025 11280.067 80.023 6综上,本研究算法生成的生物哈希具有较好的区分性和鲁棒性,能够满足系统对生物哈希的检索要求,进一步说明本研究的卢氏特征安全模板的有效性.4 结语为了提高生物哈希构造的多样性,提出一种基于卢氏特征安全模板的语音生物哈希检索算法.该方法将语音信号根据差分序列分类,并分配单一密钥激发混卢氏混沌映射构建了625类特征安全模板,提高了生物哈希构造过程的多样性并且具有较好的安全性和复杂度.同时,通过双索引表和减少哈希位数,提高了语音检索速度.然后,当该算法对鲁棒性较差的内容保持操作语音进行检索时,由于其鲁棒性较差导致不能成功对语音进行分类,从而不能实现精确检索,因此对鲁棒性较差的内容保持操作语音检索将是接下来须要解决的问题.
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读