基于说话人声音识别的技术研究.docx

上传人：李司机

文档编号：5771205

上传时间：2023-08-18

格式：DOCX

页数：23

大小：111.52KB

《基于说话人声音识别的技术研究.docx》由会员分享，可在线阅读，更多相关《基于说话人声音识别的技术研究.docx（23页珍藏版）》请在三一办公上搜索。

1、数字信号处理课程设计报告题目：基于声音的说话人身份识别技术探讨学院：信息工程学院专业：通信工程指导老师：符茂胜指导时间：2014.12.22-2014.12.28姓名（学号）承担任务艾洲(2012014001)MATLAB程序编写与调试、文档编写、资料搜集王玉贵(2012014035)PPT制作、文档编写、资料搜集余文正（2012014040PPT制作、文档编写、资料搜集宁文雅(2012014025)文档编写、资料搜集刘安邦(2012014020)文档编写、资料搜集汪中日(2012014031)文档编写、资料搜集指导教师评价意见成绩书目一、背景1二、设计目的2三、设计基本原理21.说话人识别的

2、分类22.说话人识别的基本原理和系统结构3四、模式匹配与特征提取41.模式匹配运用方法：52.特征提取52.1 常用的特征参数52.2 语音的倒谱分析(MFCC)简介62.3 MFCC倒谱系数与其提取算法72.4 求取MFCC系数的详细算法和步骤9五、模式识别与算法优化121GMM模型的基本概念132. GMM模型的参数估计143. 1EM算法的计算154. 算法优化(MFCC中加入能量信息)17六、试验代码与设计分析181.试验代码182.设计分析182.1 问题的分析19七、试验体会与总结19八、参考文献20一、背景伴随着全球化、网络化、信息化、数字化时代的到来，我们对高牢靠性的身份验证技

3、术与身份识别技术的需求也日益增长。传统的以密码为特征的身份认证技术暴露出巨大的弊端,很难满意高平安性和长效平安性的要求，而在生物学和信息科学高度发展的今日，生物认证技术作为一种便捷、先进的信息平安技术已经在现实生活中得到广泛的应用。这是依据人体自身的生理特征（指纹、手形、脸部、虹膜）和行为特征（声音、签名）来识别身份的技术，它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术，能满意现代社会对于身份鉴别的精确性、平安性与好用性的更高要求。在信号检测与处理、模式识别、人工智能、机器学习等理论与技术快速发展的推动下，不久的将来，生物认证技术必将进入一个光辉的时代。比尔盖茨曾经预言“

4、以人类生物特征进行身份验证的生物识别技术，在今后数年内将成为IT产业最为重要的技术革命。”语音是人的自然属性之一，由于说话人发声器官的生理差异以与后天形成的行为差异，每个人的语音都带有剧烈的个人色调，这使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着很多独特的优点，如语音是人的固有特征，不会丢失或遗忘；语音信号的采集便利，系统设备的成本低;另外利用电话网还可以实现远程客户服务等等。近年来，利用语音特征进行身份鉴别的说话人识别（也叫说话人识别）在生物认证技术领域中越来越受到探讨者的关注。二、设计目的说话人识别(SPeakerRecognition),是近年来兴起的一种生物识

5、别技术,说话人识别以其独特的便利性、经济性和精确性等优势受到世人瞩目。近年来,随着科学技术的发展,说话人识别技术已经得到了极大的发展,它在公安侦察、声控系统、医疗诊断、电子金融等行业和领域有着极其广袤的市场应用前景。说话人识别依据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份。与语音识别不同，说话人识别技术并不留意语音信号中的语义内容，而是希望从语音信号中提取出个人的信息特征。说话人识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识

6、别的目的。基于基本说话人识别理论和技术的探讨,本文基于MeI倒谱系数(MFCC)语音特征参数,采纳人工神经网络作为识别模型,探讨设计了一个说话人识别的原型系统。MFCC是目前运用最广泛的语音特征之一,具有计算简洁、区分实力好等突出的优点.三、设计基本原理1 .说话人识别的分类说话人识别按其最终完成的任务可以分成两类:说话人确认(SpeakerVerification,简称SV)和说话人辨识(SPeakCrIdentification,简称SD。本质上它们都是依据说话人所说的测试语句或关键词，从中提取与说话人本人特征有关的信息，再与存储的参考模型比较，做出正确的推断。不过说话人确认是确认一个人的

7、身份，只涉与一个特定的参考模型和待识别模式之间的比较，系统只作出“是”或“不是”的二元判决,如下第一幅图所示,可表示为:f(X,i)=0,1;而对于说话人辨识，系统则须要在一个指定人群当中，确定某测试语音是其中哪一个说话人发出的，有时还要对这个人以外的语音做出拒绝的判别。如下其次幅所示，可表示为:f(x)=1,2,N),由于须要比较和判决，所以说话人辨识的误识率要说话人确认，并且随着数量的增加，其性能将会渐渐下降。另外，用户在运用说话人识别系统时，须要向系统供应一段语音。2 .说话人识别的基本原理和系统结构说话人识别本质上是一个模式识别问题，分为训练阶段和识别阶段在训练阶段系统的每个运用者说出

8、若干训练语料，系统对这些训练语料进行数字化处理，依据特征参量建立每个运用者的模板或模型参数参考集。在识别阶段，把从待识别说话人说出的语音信号中提取的特征参量,与在训练过程中得到的参考参量集或模型模板进行对比，依据肯定的相像性准则进行决策从而得出识别结果。对于说话人辨识来说，所提取的参数要与训练过程中的每一个人的参考模型加以比较，并把与它距离最近的那个参考模型所对应的运用者分辨为是发出输入语音的说话人。对于说话人确认而言，则是将从输入语音中提取的特征参量与其声称为某人的参考模板比较，假如两者之间的距离小于肯定的阀值，则予以确认,否则拒绝。下图是说话人识别系统的结构框图，它由预处理，特征提取,模型

9、训练，模式匹配，和判决等几个大部分组成。提取的任务是选取唯一表现说话人身份的有效且稳定牢靠的特征，模式匹配的任务是对训练和识别时的特征模式做相像性匹配。四、模式匹配与特征提取在目前语义特征与说话人特性特征还不能很好地从语音特征中得到分别地状况下，为每一说话人建立的说话人特性特征模型事实上是话者的语音特征模型。为了对说话人特性特征描述的一样起见，系统一般将每一个说话人的模型结构取得相同，不同的只是模型的参数。1 .模式匹配运用方法：动态时间归整方法（DTW）说话人信息不仅有稳定因素（发声器官的结构和发声习惯），而且有时变因素（语速、语调、重音和韵律）。将识别模板与参考模板进行时间比对，依据某种距

10、离测度得出两模板间的相像程度。常用的方法是基于最近邻原则的动态时间归整说话人辨识系统的性能是与用户数量有关的。因为它工作时把输入测试语音的特征参数与系统所存储的每个合法运用者的参考模型相比较，所以当用户数量增多时，不仅处理时间变长，而且各个用户之间变得难以区分，导致差错率增大。而对于说话人确认系统差错率基本上不会随用户数量的增加而改2 .特征提取特征提取的原则：a）能够有效地区分不同的说话人，但又能在同一个说话人的语音发生变更时相对保持稳定。b）易于从语音信号中提取。c）不易被仿照。d）尽量不随时间和空间变更。2.1 常用的特征参数考虑到特征的可量化性，训练样本的数量和系统性能的评价问题，目前

11、的说话人识别系统主要依靠较低层次的声学特征进行识别。a)语音频谱干脆导出的参数语音短时谱中包含有激励源和声道的特性，因而可以反映说话人生识别。而短时时谱随时间变更，又在肯定程度上反映了说话人的发音习惯，因此，由时谱随时间变更，又在肯定程度上反映了说话人的发音习惯，因此，由率谱、基音轮廓、共振峰与其带宽、语音强度与其变更等。b)鲁棒性参数包括MeI频率倒谱系数，以与经过噪声谱减或者信道谱减的去噪倒谱系数等。综上所述，常用于说话人识别的特征参数有:语音短时能量、基音周期、语音短时谱或BPFG特征、线性预料系数LPC、共振峰频率与带宽、LPC倒谱、MFCC倒谱等，以与反映这些特征动态变更的线性回来系

12、数等。2. 2语音的倒谱分析(MFCC)简介本次试验求取语音倒谱特征参数的方法是采纳梅尔倒谱系数(MFCC),人们对频率低的声音，听起来感觉它的音调低，对于频率高的声音，听起来感觉它的音调高。但是音调与声音频率并不成正比关系。为了描写音调，人们采样梅尔(MeI)标度，规定音调的单位为Mel。通常将频率为100OHz60dB的纯音产生的音调定为100OMek假如一个纯音听起来比100OMel调子高了一倍，则它的音调为2000Mel和Walkman通过试验建立了一张如下图所示的音调一频率表，形象地阐述了在强度不变的状况下，音调和频率之间的关系。从图上可以看出两者之间并不是简洁的线性关系。在100O

13、-4000Hz范围内，两者之间基本上是线性相关的，当频率大于4000HZ时，基本上呈对数关系，而当频率小于IOoOHZ时，则近似于指数关系。2.3MFCC倒谱系数与其提取算法通过前人试验,人们已经知道：当中心频率在IOoOHZ以下时,临界带宽一般保持恒定，约为IoOHz。当中心频率超过100OHZ时，随着中心频率的增长，临界带宽呈对数增长。临界带宽的计算公式如下：BV.=25+751+1.4(rlOOO)2069,其中fc为中心频率随音调的频率的变更而变更。频率越低，人耳对频率的变更越敏感,即DL值较小。在强度为40dB时,200OHZ的音调只要变更3Hz即可被觉察;而当音调频率达到100OO

14、HZ时，DL值已上升到30Hz。试验表明，只要音调频率高于1000Hz,能觉察到的频率差异所需频率变更是相对恒定的，大约是03%这个结果说明:我们可以设计模型使其在音调轴(Mel)上均等地靠近语音短时功率谱，从而更好地符合人的听觉特性。依据语音信号的同态处理可知，求一般的倒谱系数的方法是:先求一帧语音的FFT,然后取模，再取对数，最终求IFFT即可。MFCC参数的计算要点是将线性功率谱转化成Mel频率下的功率谱。为了实现功率谱的转换，运用临界频带的划分，在语音帧的频率范围内设置一系列带通滤波器组成的滤波器序列，即MeI滤波器组，用该滤波器组模拟人耳听觉的非线性特性。下表给出了临界带滤波器组的一

15、种典型的中心频率和带宽参数。临界频带滤波器组滤波器标号中心频率(Hz)临界带宽(Hz)滤波器标号中心频率(Hz)临界带宽(Hz)110010011114916022001001213201843300100131516211440010014174124255001001520002786600100162297320770010017263936788001001830314229900100193482484每个滤波器其中心频率为f(i)，与之对应的各个Mel频率点在Mel频率轴上是匀称分布的。这样，在线性频率上，当m较小时，相邻的f(i)的间隔较小，随着m的增加，相邻的f(i)的间隔会渐

16、渐加大。滤波器的设计可以是各种类型，本次试验滤波器采纳构造一个频带交叉的三角型滤波器组。如下图所示。取每个三角形的滤波器频率带宽内全部信号幅度加权和作为某个带通滤波器的输出，然后对全部滤波器输出做对数运算，再进一步做离散余弦变换(DCT)即得到MFCC。2.4求取MFCC系数的详细算法和步骤如下图所示求取MFCC倒谱系数一般包含如下几个过程：.I预处理；a)预处理预处理一般包括预加重，端点检测，分帧和加窗：预加重由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在80OHZ以上按6dB倍频程跌落，为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升，使信号的频谱变得平

17、坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于进行频谱分析或声道参数分析。预加重一般用具有6dB倍频程的提上升频特性的数字滤波器来实现，其传递函数为：H(Z)=I-z,其中产为预加重系数，可取为1或比1稍小的值。端点检测端点检测就是对输入语音信号进行推断，从背景噪声中精确找出语音段的起始点和终止点。有效的端点检测不仅能消退无声段的噪音，而且还可以使处理语音信号的时间减到最小。目前的端点检测技术大都是基于语音信号的时域特征来进行的，一般常采纳两种时域特征:短时能量和短时过零率，通过设定它们的门限来进行检测。设某个长度为N的短时语音信号为X(m),其短时能量E可用下式计算:N-I

18、X2(m)m=0其短时过零率Z可用下式计算:N-IZ=1/2Wsgnx(m)sgnx(m-1)m=0其中sgn是符号函数，即r1(x0)sgnx=Li,(%f(i + l)f(i-Dk f(0f(i-l)kf(i + l)fi是三角滤波器的中心频率，满意：Mel(f(i+1)-Mel(f(i)=Mel(f(i)-Mel(f(i-1)五、模式识别与算法优化说话人识别本质上是一个模式识别问题，而模式识别系统的目标是要在表示说话人确认(SV)是要推断某被测语音是否是其声明的说话人发出的，系统须要作出“是”或“不是”的二元判决，可表示为:f(X,i)=0,1,其目的是要在被测语音和“是该说话人”或“不

19、是该说话人”之间找到映射关系，这样就可以把说话人确认看作是具有两个分类的说话人识别问题。假如把用户输入的语音提取成一系列的特征矢量，且特征矢量之间的序列关系被忽视不计的话，这时的说话人建模问题就转化为一个构造静态分类器的问题。考虑到高斯函数(钟型函数)对真实数据的较好描述，另外由于高斯函数的线性组合仍旧是高斯函数，而且在理论上随意形式的总体分布都可以用若干个高斯函数的混合来靠近。所以采纳高斯混合函数来估计语音特征的概率分布，这样就得到了说话人的高斯混合模型(GaUSSianMixtureModel,简称为GMM).1. GMM模型的基本概念GMM混合模型可以看作一种状态数为1的连续分布的隐马尔

20、可夫模型CDHMMo它是用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布。一个M阶的混合高斯模型的概率密度函数是由M个单高斯概率密度函数加权和得到的，表示如下：MpG)=也(X)i=其中M是混合模型的阶数，X是一个D维随机向量，wi,i=l,2,M,是混合权重，且混合权重应满意以下条件：Mi=1i=lbi(X),i=1,2,M,是子分布，每个子分布是D维的联合高斯概率分布，可表示如下：1.VnTbg=-5exp-l2(X-)(Xi)(2)2f2Qi其中Ui是均值向量，Ei是协方差矩阵。完全的高斯混合模型便可由参数均值向量，协方差矩阵和混合权重来描述。因此一个模型兄可以表示为如下一个三元

21、组：=,”W./=1,2.MGMM的计算结构可以用图来表示。2. GMM模型的参数估计GMM模型的训练就是给定一组训练数据，依据某种准则确定模型的参数。最常用的参数估计方法是最大似然(MaXimUmLikeIihood,简称为ML)估计。最大似然估计是把待估计的量看成固定但未知的量，然后求出能够使学习样本出现概率最大的参数值，并把它作为参数的估值。设某说话人的训练特征矢量序列为X=Xi，t=l,2,T),它对于模型的似然度可表示如下：PG)=HPG)=以/X)i=似然度可看作样本给定时，参数人的函数。训练的目的就是要找到一组参数人，使得P(x入)最大，即：*=rgnd%P(X/入)为了分析便利

22、，通常用log(L(/X)即Iog(P(X/入)来分析。因为对数函数是单调的，所以使对数似然函数最大的也会使原来的似然函数最大。Tlog(pG)=ZLogP(XO)将上式对求微分并令它为0的求极值法，可知的最大似然估计必定满意方程：p() = i=lAilW/由于P(X)是参数的非线性函数，很难干脆求出其最大值。因此,经常采纳EM（ExpectationMaximization,简称为EM）算法估计参数。2. 1EM算法的计算是从参数的一个初值起先，采纳EM算法估计出一个新的参数X,使得新的模型参数下的似然度（才/力N尸（X”）。新的模型参数再作为当前参数进行训练，这样迭代运算直到模型收敛。E

23、M算法假设任一帧语音是出自模型的哪个高斯重量这一信息是可知的，来简化极大似然的优化目标函数，分别经过E-SteP求出期望值，和M-step调整模型参数最大化目标函数来逐步收敛。定义Q函数;mQ(KT)W=I=I其中i为高斯重量序号，或称隐状态号。将上式带入得:TMQ(M)=ri(log,ibM)i=li=l其中：Mk./=W%(i,i=k)P(孙H)=P=P(x)P(i1=入)i=ii,(l,k=i其中：dh=k)=o,其他E_Step:求训练数据落在假定的隐状态i的概率：P=j3tP(1=i)=3ibi3)Xj)P(X)m=lmbm(Xi)M_Step:分别求Q式中相对于三个参数如火,i，i

24、=L2,.M的偏导为零时的参数值下面给出迭代过程中这些参数的重估公式，这些重估公式保证了每一次迭代运算中模型似然度的单调递增。混合权重的重估公式：T.,=lTP(A)i=l另外还需进行均值的重估和方差的重估。在运用EM算法训练GMM时，GMM模型的高斯重量的个数M和模型的初始参数必需首先确定。这些很难从理论上推导出来，只能通过试验确定选择不同参数的性能。另外还有考虑训练数据不充分的问题。在试验应用中，往往得不到大量充分的训练数据对模型参数进行训练。由于训练数据的不充分，GMM模型的协方差矩阵的一些重量可能会很小，这些很小的值对模型参数的似然对函数影响很大，严峻影响系统的性能。为了避开小的值对系

25、统性能的影响，在EM算法的迭代计算中，可以对协方差的值设置一个门限值,在训练过程中令协方差的值不小于设定的门限值。2.3GMM模型的识别算法给定一个语音样本，说话人辨识的目的是要确定这个语音属于N个说话人中的哪一个。在一个封闭的说话人集合里，只须要确认该语音属于语音库中的哪一个说话人。在辨识任务中，目的是找到一个说话人1,其对应的模型不使得待测语音特征矢量组X具有最大后验概率Po基于GMM模型的说话人辨识系统结构框图如下所示。图GMM模型的说话人辨识系统结构框图依据BayeS理论，最大后验概率可表示为:一二P(XA)P（八）XP(X)其中(PG)=ni=P(XjQ)其对数形式为:IogPg)=

26、三1IogP(XJX)因为P的先验概率未知，我们假定该语音信号出自封闭集里的每个人的可能性相等，也就是说：P（八）=A,liN对于一个确定的视察值矢量X,p()是一个确定的常数值，对全部说话人都相等。因此，求取后验概率的最大值可以通过求取P获得，这样,辨识该语音属于语音库中的哪一个说话人可以表示为：i*=maxP(Xi)在这里，即为识别出的说话人。3.算法优化(MFCC中加入能量信息)针对MFCC运用的优化措施，包括在MFCC中加入短时能量信息和动态过渡信息。这两种方法的本质都是在原有说话人信息的基础上靠增加信息量来提高识别性能。3.1短时归一化能量短时能量是语音信号处理中的一个重要参数，在说

27、话人识别中，由于能量参数对识别性能有肯定的提高作用，因此可以在语音特征中加入能量参数作为特征向量的一维重量。给定语音段中的长度为N的一帧s,(n),n=l,2,.,N,计算该帧的短时对数能量公式如下，其中L是语音段的帧数。Ei=logn=is(n),i=l,2,.L由于不同语音段不同语音帧的能量差别比较大，为了使其能够于前面的倒谱系数一起作为向量计算，须要进行归一化处理。其中飞仙=maxEh即语音段中最大的对数能量i=l.L依据参考文献MFCC参数中各维重量对说话人识别的贡献不同，最有用的说话人信息包含在MFCC重量c,到C16之间，MFCC重量c。和c:包含有负作用的说话人信息，其中重量C。

28、主要是直流重量，将其作为特征会引起识别率的降低，在实际应用中我们一般用归一化能量取代第O阶倒谱系数CO.以上内容主要是介绍了基于MFCC和GMM的说话人辨识系统试验的设计方案以与试验的环境。通过试验实现了MFCC等特征的提取方法，MFCC以与MFCC中加入归一化能量构成系统识别性能。六、试验代码与设计分析1 .试验代码见附件与电子档文件。2 .设计分析语音录制时采纳了质量较好的麦克风，录入的语音都转化为wav格式的语音文件。编程主要运用MatIab2010b。识别方法或模型的最重要指标是识别精确率，精确率越高越宜于应用于实际。评价的另外一个重要指标就是识别所花的时间，即输入待识别的说话人语音到

29、识别结果的输出说话的时间，该时间越短越好。那么我们就须要解决了以下几个问题。1）建立代表说话人身份的语音特征模型，通过编程从语音数据中提取说话人特征；2）利用说话人特征建立说话人模型或语音识别模型；3）利用语音数据评价你的说话人模型或语音识别模型评价的好坏；4）分析影响精确率的因素，实行措施进一步提高语音识别的精确率。2.1问题的分析首先我们原打算干脆对音频文件进行特征提取，后经编程提取后发觉有大量无用数据，且干扰结果的精确性。于是，我们确定先对音频文件编程进行预处理，处理过程包括：预加重、分帧、加窗、端点检测。然后对预处理后所得数据进行MFCC特征提取，得到合并的mfcc参数和一阶差分mfc

30、c参数。其次，我们利用第一问建立的模型特征：mfcc参数和一阶差分mfcc参数用DTW算法进行建模。最终，语音识别假设已训练了n个（n2）语音模型，现输入一位话者的语音序列（已经过mfcc参数提取），要求推断该话者是谁，即语音序列与哪一个语音模型匹配。统计识别结果的精确性。识别精确性越高说明模型越好。七、试验体会与总结通过这一周的学习以与在网上找寻资料，然后我们一组人从别人的程序中找出我们须要用到的原理性的东西，之后我们通过探讨与总结别人的资料，接着再通过在课堂上向老师询问一些不懂的程序以与和老师探讨我们程序中出现的一些问题和错误，通过和老师的一起学习以与我们自己的思索之后，最终做出了本次课程

31、设计的要求的设计，可能我们做出的程序不是最完备的，但是这是我们这组通过一周的学习和思索后得出的结果，组内成员这一周都比较辛苦，花了大量的时间在上面，所以在做出来之后我们还是会很兴奋的。经过这次的课程设计，我们相识到我们还是有很多不足的，因为之前我们没有涉与到这方面的学习，所以很多原理性东西我们都不会，都是从网上查找资料学习之后才有所了解的，虽然我们不是很了解这些原理，但是在整组人的努力下，最终做出来，算是给我们这一周的努力的交代。通过这次的学习我们也增长了很多学问，开拓了视野。信任以后会有更多的好机会来学习和认知更多的学问。感谢老师的指导，为我们供应珍贵的看法，同时为我们这组全部的同学加油！八、参考文献1数字信号与处理第三版高西全丁玉美西安电子科技高校出版社2语音信号处理胡航哈尔滨工业高校出版社3语音信号处理赵力机械工业出版社4语音信号处理易克初等国防工业出版社5基于DSP的语音识别技术的探讨李波辽宁工业高校学报6基于VQ和GMM的实时语音识别探讨鲁晓倩等中国科技技术高校7基于语音识别的说话人身份辨识系统程利忠等上海交通高校图象处理与模式识别探讨所8说话人身份识别系统的设计与实现黄金明上海交通高校计算机科学与工程系9基于MFCC和GMM的说话人识别系统探讨丁爱明河海高校硕土学位论文等。