基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc

资源描述

《基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc》由会员分享，可在线阅读，更多相关《基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc（80页珍藏版）》请在三一办公上搜索。

1、东南大学硕士学位论文基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用Text-independent Speaker Recognition using GMM based on Genetic AlgorithmA Dissertation Submitted toSoutheast UniversityFor the Academic Degree of MasterBY Supervised by Department of Radio EngineeringSoutheast UniversityJanuary 2007独创性声明东南大学学位论文

2、独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：日期：东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保

3、密论文外，允许论文被查阅和借阅，可以公布（包括刊登）论文的全部或部分内容。论文的公布（包括刊登）授权东南大学研究生院办理。研究生签名：导师签名：日期：目录摘要基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用本文主要从说话人识别模型的初始化、训练和判别方法以及语音的端点检测等方面作研究探讨。在模型的初始化方面，方法一利用最大似然估计算法对模型进行初始化；方法二利用时间规整化方法对语音进行预先处理，用聚类后的语音对高斯模型的各成员密度函数分别进行初始化和训练。在识别模型的训练方面，主要研究高斯混合模型的模型训练。方法一利用最大似然估计算法对模型进行初始化，然后利用EM算法对初始

4、模型按一定比例进行修正，最终获得较优模型。方法二用方法一获得的部分最优个体作为遗传算法的初始种群，通过选择、交叉和变异，收敛到最优模型。遗传算法采用浮点编码，交叉和变异在一个种群的胜者组和败者组同时进行，最后改为优胜劣汰。判别方法方面，对一段语音中的帧得分进行不同变换，然后获得最终的得分，从而改善识别效果。语音的端点检测方面，分别利用简单的三门限方法和利用信噪比的方法进行端点检测。关键词：说话人识别，高斯混合模型，改进EM算法、改进遗传算法、端点检测69 目录AbstractText-independent Speaker Recognition using GMM based on Gen

5、etic AlgorithmThis paper mostly explores in the initialization and training of speaker recognition models, the method of speaker decision and the voice activity detector.In the initialization of speaker recognition models, the initialization of Gaussion mixture models is investigated. First, utilize

6、 the maximum likelihood estimate to gain the initial models. Secondly, utilize the time warping network to gain the initial models.In the training of speaker recognition models, we also investigate the training of Gaussian mixture models. The first, utilizing the maximum likelihood estimate to gain

7、initial models, we modify these initial models with the expectation maximum algorithm according to a ratio. Then we obtain more optimal models. Secondly, using some of results that the first method attains for the initial group, the genetic algorithm converges to the most optimal models by selection

8、s, crossovers and mutations. The genetic algorithm utilizes the floating-point encoding. Crossovers and mutations are executed in the winning group and the failing group of a generation simultaneously. Finally, the optimal win and the poor fail.In the method of decision, making transforms to the fra

9、me scores of the test utterance, we compute the final score, improving the result of speaker recognition.In the voice activity detector, both the method using SNR and the mothod using magnitude and zero cross ratio are used and tested.Keywords: speaker recognition, Gaussian mixture models, advanced

10、expectation maximum algorithm, advanced genetic algorithm, voice activity detector目录摘要IAbstractII目录III图片目录V表格目录VI第1章绪论11.1. 研究说话人识别的意义11.2. 说话人识别的概念及其分类21.3. 说话人识别的国内外发展现状和存在问题21.3.1. 说话人识别的发展和现状21.3.2. 说话人识别目前存在的问题41.4. 本文组织结构5第2章说话人识别的基本原理72.1. 引言72.2. 语音的发声原理72.3. 说话人识别的基本结构92.3.1. 语音的预处理92.

11、3.2. 说话人识别的特征选取122.3.3. 说话人识别的方法122.4. 本章小结13第3章说话人识别的特征参数及其选取153.1. 引言153.2. 基音频率153.3. 线性预测编码(LPC)163.4. 复倒谱和倒谱183.5. MEL倒谱参数（MFCC）273.6. 差值倒谱283.7. 参数的选取方法293.8. 本章小结30第4章说话人识别的识别方法314.1. 引言314.2. 矢量量化方法（VQ）314.3. 隐马尔可夫模型方法（HMM）374.4. 高斯混合模型方法（GMM）424.5. 本章小结42第5章基于高斯混合模型的模型训练方法455.1. 引言455.2.

12、模型初始化方法简介455.3. 最大似然估计（ML）465.4. EM及改进的训练方法475.5. 基于遗传算法的改进GMM模型训练方法495.5.1. 遗传算法简介495.5.2. 语音的规整化方法565.5.3. 基于遗传算法的改进GMM模型训练方法575.6. 本章小结60第6章基于高斯混合模型的说话人判别方法616.1. 引言616.2. GMM模型识别中的问题616.3. 本章小结62第7章说话人识别中的语音端点检测637.1. 引言637.2. 端点检测方法的研究637.2.1. 简单的端点检测方法637.2.2. 应用信噪比进行端点检测的方法657.3. 本章小结65第8章

13、实验结果和结论678.1. 实验语音数据678.2. 改进的EM算法678.3. 基于遗传算法的改进模型训练方法68参考文献69致谢72图片目录图片目录图 21语音产生模型8图 22说话人识别系统框图9图 31中心削波函数Cx16图32 卷积组合变为线性组合系统粗略图19图 33卷积组合变为线性组合详解图19图 34微商法求复倒谱23图 35最小相位法求复倒谱25图 36 Mel倒谱求解图28图 41说话人识别的矢量量化法32图 42矢量量化系统框图33图 43 LBG算法流程图36图 44 HMM模型37图 51遗传算法流程图50图 52时间规整网络的结构57图 61基于GMM说话人辨认

14、系统结构框图61表格目录表格81 系统识别率(成员密度函数总数为4，修正因子变化)67表格82系统识别率(成员密度函数总数为6，修正因子变化)67表格83系统识别率(成员密度函数总数为8，修正因子变化)67表格 84 系统识别率(修正因子为1，成员密度函数总数变化)68表格85 系统识别率(成员密度函数总数为24，修正因子变化)68表格86 系统识别率(成员密度函数总数为25，修正因子变化)68表格87 系统识别率(成员密度函数总数为25，修正因子变化)68表格88 系统识别率(成员密度函数总数为26，修正因子变化)68第1章绪论第1章绪论1.1. 研究说话人识别的意义说话人识别1又称声纹

15、识别，它利用语音信号来识别出说话人的身份，与指纹识别、人脸识别、虹膜识别、掌形识别、姿态识别等同属于生物识别的范畴。语音是人的自然属性之一，由于各个说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩。因此每个人的语音中蕴含着与众不同的个人特征。用语音来鉴别说话人的身份有着许多独特的优点：对于正常人来说，语音是人的固有特征，不会丢失或遗忘，具有随身携带性；每个人的声带、咽喉、口腔和鼻腔的构造不同，而且每个人在肺部收缩，压迫气流由支气管经过声门和声道的方式不同，导致每个人的语音特征有极强的个性，很难模仿，具有个人特性的唯一性；语音信号的采集简易方便，系统设备成本低。因

16、此，语音不仅具有自然唯一性、随身携带性、不会遗忘等特点，还具有数据采集设备的非接触性和简易性等其它生物特征所不具备的优点。语音信号的这些优点使得说话人识别在许多领域具有广泛的应用前景。说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景，是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。在保安领域，可以利用说话人识别作为出入的凭证，如用特定人的声音是实现机密场所的出入人员的检查；在工厂职工的口令实现职工签名管理等。在公安司法领域，可以利用说话人识别作为罪犯身份鉴定的手段，如判断犯罪现场记录的声音是多个嫌

17、疑犯中的哪一个人的声音，将说话人辨认和确认结合起来还可以判断出嫌疑犯中是否包含真正的罪犯。日本警方研究人员经过长期研究表明说话人识别可以作为可信的法庭证据。在军事领域，可以利用说话人识别进行指挥员鉴别，然后判断不同的指挥员所处的位置，获取敌方作战部署的意图，从而在战争中可以知己知彼为最终的胜利增加筹码。在财经领域，可以利用说话人识别作为身份确认的有效手段，如电话预约业务中的声音确认自动转账会馆、余额通知和股票行情咨询等等。在信息服务领域，同样可以利用说话人识别作为身份确认的工具，如自动信息检索或电子商务等Internet信息服务中的声音身份确认等等。在医学应用中，可利用说话人识别系统响应患者的

18、要求，从而实现对机器假肢的控制，避免任何都能控制该假肢的弊病。对说话人识别的研究始于20世纪60年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G. Kesta用目视观察语谱图的方法进行识别，提出了声纹 (voiceprint) 的概念。此后，随着电子技术和计算机技术的发展，说话人识别的研究取得了突飞猛进的发展，动态规划、线性预测、矢量量化、隐马尔科夫模型等技术先后成功应用于说话人识别。识别的模型从单模板模型发展到多模板模型，从多模板模型发展到VQ模型、高斯混合模型、隐马尔科夫模型，再到人工神经网

19、络模型。识别环境从无噪声环境下对少数说话人的识别发展到复杂环境下对大量说话人的识别。所采用的识别技术从仅涉及动态规划发展到涉及统计信号处理、矢量量化与编码、模糊系统理论与方法、最优估计理论、人工神经网络、灰色系统分析等多科学领域。1.2. 说话人识别的概念及其分类自动说话人识别（Automatic Speaker Recognition ：ASR），是从说话人的一段语音中分析和提取出说话人的个性特征，自动确定说话人是否在所登记的说话人的集合中，以及说话的人是谁的过程。很久以来它就是一个既有巨大吸引力而又有相当难度的课题。说话人识别又可以划分为两个范畴，即说话人辨认（Speaker Identi

20、fication）和说话人确认（Speaker Verification）。前者是把待测说话人的语音判定为属于语音库中多个参考人之中的某一个，是多者择一的问题。后者则是根据待测说话人的语音，确定是否与其所声称的参考说话人相符，这种确认只有两个结果，或是肯定（即得到确认），或是否定（拒绝承认）。另外对于说话人认识别来说，不管是辨认还是确认，都可以按照话语的文本可分为与文本有关（Tex-Dependent）的说话人识别和与文本无关（Text-Independent）的说话人识别。其中与文本有关话者识别可以采用很多方法。由于已知文本，提供了大量的信息，因此这些方法能获得较好的效果。然而，对于用户来说

21、固定的文本可能很不方便。而且，当说话人不合作或在日常会议中进行确认时与文本有关的话者识别就不起作用。为了避免这个问题，发展与文本无关的话者识别方法显得尤为重要。1.3. 说话人识别的国内外发展现状和存在问题1.3.1. 说话人识别的发展和现状随着社会、军事以及安全等领域需求的增长，美国、日本、欧洲等一些发达国家都相继加强了说话人识别的研究工作，我国一些高校和研究机构也对说话人识别进行了深入研究，并取得了一定的成果。在说话人识别的特征参数提取方面，1963年Bell实验室的S.Pruzansky2和1971年P.D.Breaker3提出了用短时谱中的信息作为说话人特征；1968年B.S.Atal

22、4采用基音频率、1971年G.Doddington5采用共振峰频率、1972年M.R.Sambur6用线性预测系数（LPC）、1973年S.Frurui和F.Itakura用语音对数域比例7、1972年J.J.Wolf8和1975年M.R.Sambur9从元音和鼻音中提取出较好的说话人特征、1974年B.Atal10通过比较各种参数得出倒谱系数为说话人识别提供最好的结果，倒谱成为说话人识别系统的首选参数；1983年Li and Wrench采用LPC倒谱参数11、1995年Reynolds等人1213采用了Mel倒谱，取得了较好的效果，Attili14于1988年采用倒谱、LPC系数和自相关系

23、数作为特征参数获得了很好的效果，从而使得倒谱参数与其他特征参数相组合的研究成为了说话人识别参数提取的研究热点15161718；1996年Colombi15将倒谱、差分倒谱相结合作为混合特征参数；Reynolds16采用了Mel倒谱和差分Mel倒谱相结合；Jungpa Seo17、Petry等人18于2001年将分形维数与差分LPC倒谱参数相结合均取得了很好的效果。在识别方法方面，七十年代到八十年代初，大多数说话人识别系统都采用模板匹配法(Pattern match)1011,如1974年，AT&T的Atal用模板匹配法研究了10人的与文本有关的说话人识别，其说话人辨识(0.5s)的误识率及说话

24、人确认(1s)的等差错率都是2%10；同属AT&T的Furui将倒谱矢量规格化，仍然用模板匹配法对说话人确认进行了研究，获得了0.2%的等差错率11；1979年Markel和Davis20采用线性预测(linear Predictive:LP)系数和长时统计的方法建立了17人的与文本无关的说话人辨认系统，测试语音长度为39秒，其误识率为2%；Attili等人14在此基础上加入投影的方法将测试语音的长度缩短为3秒。1982年Schwartz21等人利用功率谱密度估计的方法分析了对数面积比系数(Log area ratio:LAR)在与文本无关说话人辨认中的应用,当用户数为21人时误识率为2.5%

25、。此后，矢量量化(Vector Quantization:VQ)方法在说话人识别中得到了广泛应用112223，如Soonge等人22提取孤立数字语音的LP系数并使用矢量量化进行说话人辨认实验，得到了5%(1.5秒)和1.5%（3.5秒）的误识率，矢量量化逐渐成为与文本无关说话人识别系统的主要方法，同时统计形式的识别方法也开始出现：1988年的J.B.Attilli的贝叶斯辨别分析14和1993年的A.L.Higgins24等人的最近邻分类器。进入九十年代以来，神经网络技术开始应用于说话人识别，1990年J.Oglesby和J.A.Mason的多层感知器(MLP)25和1991年的放射状基函数2

26、6，1991年Y.Bennani和P.Galllinari的时延神经网络(TDNN)27。混合高斯模型(Gaussian Mixture Model:GMM)2829和隐马尔科夫模型(Hidden Markov Models:HMM)也逐渐应用于说话人识别中303132。在产业化方面，美国的Sprint公司推出了语音电话卡业务，用户直接对着电话念出对方号码，系统就可识别说话人并作出是否拨通的决定，欧洲电信联盟在电信与金融结合领域应用说话人识别技术，于1998年完成了CAVE(Caller Verification in Banking and Telecommunication:CAVE)计划

27、，在电信网上完成了说话人识别。同时Motorola和Visa等公司成立了V-commerce联盟，希望实行电子交易的自动化，其中通过声音确认人的身份是该项目的重要组成部分。其他一些商用系统还包括：ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。我国自执行863计划以来，对说话人识别技术的研究不断深入，研究水平已经基本与国外同步。中国科学院自动化所模式识别公司成功推出了PATTEK SV声纹识别产品，是目前国内推出的同类产品中最优秀的产品之一，具有良好的性能。北极星软件公司、北京中科信利等公司也推出了自己的说话人识别系统。1

28、.3.2. 说话人识别目前存在的问题尽管目前说话人识别技术已经取得了相当大的进展，但将说话人识别技术大规模地应用到实际生活中仍有很长的一段路要走，这主要是因为实验室条件和实际条件的差异很大。一方面，实验室条件较少考虑到噪声的问题，而在实际应用中，噪声是不可避免的，尤其在一些特殊应用中，如犯罪现场录制的犯罪嫌疑人的声音不可能很清晰；又如Internet信息服务中，声音在通过通讯线路的传播时不可避免的会引入噪声。另一方面，实验室使用的说话人集合往往比较小的，而在实际应用中说话人集合可能非常大，当说话人集合扩大时，无论是系统效率，还是识别率往往会急剧下降。主要难点包括以下几个方面： 1、语音信号特征

29、中的说话人的个性特征难以分离和提取。说话人识别的信息来源是说话人所说的话，其语音信号中既包含了说话人所说话的内容信息，也包含了说话人的个性信息，是话音特征和说话人个性特征的混合体。目前还没有很好的方法把说话人的特征和说话人的语音特征分离开来。关于语音中语义内容和说话人个人性的分离，系统地全面地进行研究的人还很少。现在语音内容和其声学特性的关系已经较明确，但是有关说话人个人特性和其语音声学特性的关系还没有完全搞清楚。目前对于人是怎样通过语音来识别他人的这一点尚无基本的了解,还不清楚究竟是何种语音特征（或其变换）能够唯一地携带说话人识别所需的特征,什么特征对说话人识别最有效，如何有效地利用非声道特

30、性，是说话人识别中参数提取首要考虑的问题；由于缺少对上述问题的基本了解，因此在这样做的过程中，很可能不自觉地丢失了许多本质的东西。2、实际环境下的说话人识别系统性能还很有待提高实际环境中，噪声和干扰远比实验室环境来的复杂，目前的常用降噪算法对平稳噪声能够取得较好的效果，对非平稳噪声的降噪效果往往效果不佳，如何有效地针对实际环境，去除各种加性噪声和乘性噪声的干扰，是噪声环境下说话人识别面临的问题；目前常用的降噪算法都是基于语音识别的，这些算法虽然有效地提高了信噪比，却往往丢失了说话人的特征。使得降噪后识别率没有明显的提高。3、说话人个性特征的变化和样本选择问题。对于由时间、特别是病变引起的说话人

31、特征的变化研究的还很少。感冒引起鼻塞时，各种音尤其是鼻音的频率特性会有很大的变化；喉头有炎症时会发生基音周期的变化。因此，由于感冒而不能进公司大门，这是一个大问题。另外对于样本选择的系统研究还很少。根据听音实验，不同的音素所包含的个人信息是不同的，所以样本的合理选择对识别率也有很大影响。现有的说话人识别系统还不能很好解决由时间、特别是病变引起的说话人特征变化带来的问题。1.4. 本文组织结构第一章主要介绍说话人识别的研究意义、基本概念和分类，并简述说话人识别的发展和研究现状，以及说话人是识别中目前存在的问题。第二章主要介绍说话人识别的基本原理，介绍了语音发声的原理和说话人识别系统的基本结构，包

32、括语音的预处理、说话人特征的提取、说话人的识别。第三章主要分析了语音参数对说话人识别性能的影响，并详细介绍了基音频率、共振峰频率、LPC系数、复倒谱、倒谱、MEL倒谱、LPC倒谱和差值倒谱等参数特征，最后介绍了说话人识别的参数选取的方法。第四章主要说话人识别的识别方法，讲述了矢量量化（VQ）、隐马尔可夫模型（HMM）、人工神经网络（ANN）和混合高斯模型（GMM）的等识别理论。第五章给出一些高斯混合模型的模型训练方法，最大似然概率（ML）算法、最大期望（EM）算法、改进EM算法，并介绍了模型初始化和训练的改进方法，包括改进的模型初始化方法和基于遗传算法的改进模型训练方法。第六章阐述说话人识别中

33、判决方法，介绍了条件概率和使用条件概率时的各种帧概率变换。第七章论述说话人识别中的端点检测方法。简单介绍了各种噪声处理的方法和端点检测方法，其中包括利用三电平和应用信噪比进行端点检测的方法。第八章介绍各实验结果及相应的结论。第2章说话人识别的基本原理第2章说话人识别的基本原理2.1. 引言自动说话人识别1(Automatic Speaker Recognition：ASR )是一种自动识别说话人的过程。说话人识别和语音识别的区别在于，它不注重包含在语音信号中的文字符号以及语义内容信息，而是着眼于包含在语音信号中的个人特征，提取说话人的这些个人信息特征，达到识别说话人的目的。自动说话人识别按

34、照其完成的任务可以分为两类：自动说话人确认(Automatic Speaker Verification：ASV)和自动说话人辨认(Automatic Speaker Identification：ASI)。本质上它们都是根据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的信息,再与存储的参考模型比较,做出正确的判断。不过自动说话人确认是确认一个人的身份，只涉及一个特定的参考模型和待识别模式之间的比较，系统只做出“是”或“不是”的二元判决；而对于自动说话人辨认,系统则必须辨认出待识别的语音是来自待考察的个人中的哪一个，有时还要对这个人以外的语音做出拒绝的判别。由于需要次比较和判决，

35、所以自动说话人辨认的误识率要大于自动说话人确认，并且随着的增加，其性能将会逐渐下降。此外，在进行自动说话人识别时，按被输入的识别用测试语音来分，还可将说话人识别分为三类，即与文本无关（Text-Independent）、与文本有关（Text-Dependent）和文本指定型（Text-depend）。前二类，一种是不规定说话内容的说话人识别（识别时不限定所用的语音的语句内容），另一种是规定内容的说话人识别（只能用规定内容的语句进行识别）。然而光有这二种类型是不完全的，因为如果设法事先用录音装置把说话人本人的讲话内容记录下来，然后用于识别，则往往有被识别装置错误接受的危险。而在指定文本型说话人识

36、别中，每一次识别时必须先由识别装置向说话人指定需发音的文本内容，只有在系统确认说话人对指定文本内容正确发音时才可以被接受，这样做可以防止本人的语声被盗用。说话人识别方法的基本原理与语音识别相同，也是根据从语音中提取的不同特征，通过判断逻辑来判定该语句的归属类别。但它也具有其特点：语音按说话人划分，因而特征空间的界限也应按说话人划分；应选用对说话人区分度大，而对语音内容不敏感的特征参量；由于说话人识别的目的是识别出说话人而不是所发的语音内容，故采取的方法也有所不同，包括用以比较的帧和帧长的选定，识别逻辑的制定等。2.2. 语音的发声原理人类的发声过程是由于肺部的收缩，压迫气流由支气管经过声门和声

37、道引起音频振荡而产生的，其中声道起始于声门处而终止于嘴唇，包括咽喉、口腔。鼻道则是从小舌开始到鼻孔为止。当小舌下垂时，鼻道与声道发生耦合而产生语音中的鼻音。发音过程中，声道各处的截面积会随着不同语音发生不同变化，且不同的人的声道各处的截面积也不一样。而声道各处的截面积取决于舌、唇、下颌以及小舌的位置。声道截面积随着纵向位置而变化的函数，称为声道截面积函数。声道的共振峰特性主要决定于声道截面积函数。而声道的共振峰特性又决定了所发声音的频谱特性，即音色。图 21语音产生模型图 21给出一个离散时域的语音产生模型。这个模型是许多研究和应用的基础，它由激励源、声道模型和辐射模型三个部分组成。激励源分清

38、音和浊音两个分支。声道模型改出了离散时域的声道传输函数V(z)，把实际声道等效成一个变截面管来研究，在大多数情况下可以看成一个全极点函数。人类发音过程有三类不同的激励方式，因而能产生三类不同的声音，即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡，形成准周期性的空气脉冲。这些空气脉冲激励声道便产生浊音。若声道中某处截面积很小，气流高速冲过此处时而产生湍流，当气流速度与横截面积之比大于某个门限值时便产生摩擦音，即清音。而声道某处完全闭合建立起气压，然后突然释放而产生的声音就是爆破音。由发音方式和声道形状的不同，人类可以发出无穷多种、听觉系统可以将它们相互区分的声音

39、。但语音又可以分割成可辨别的基本语音单位，即音素，且这样的音素是有限的。这样一个语句就可以分解为一串音素，但一串音素不等于一个语句，语句中还含有反映语义、语感的韵律信息。这里的韵律信息包括各音素的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。2.3. 说话人识别的基本结构说话人识别就是从说话人的一段语音中提取出说话人的个性特征，通过对这些个性特征的分析和识别，从而达到对说话人进行识别或者确认的目的。说话人识别不同于语音识别，前者利用的是语音信号中说话人的个性特征，不考虑包含在语音中的字词的含义，强调的是说话人的个性；而后者的目的是识别出语音信号中的语义内容

40、，并不考虑说话人的个性，强调的是语音的共性。图 22说话人识别系统框图是说话人识别系统的结构框图，它有预处理、特征提取、模式匹配和判决等几大部分组成。除此之外，完整的说话人识别系统还应包括模型训练和判决阈值选择等部分。图 22说话人识别系统框图建立和应用这一系统可分为两个阶段，即训练和识别阶段。在训练阶段，系统的每一说话人说出若干训练语料，系统根据这些训练语料，通过训练学习建立每个使用者的模板或模型参数参考集。而在识别阶段，把从待识别说话人说出的语音信号中导出的特征参数，与在训练过程中得到的参考参量集或模型模板加以比较，并且根据一定的相似性准则进行判定；对于说话人辨认来说，所提取的参数要与训练

41、过程中的每一人的参考模型加以比较，并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。对于说话人确认而言，则是将从输入语音中导出的特征参数与其声言为某人的参考量相比较。如果两者的距离小于规定的阈值，则予以确认，否则予以拒绝。2.3.1. 语音的预处理预处理包括对输入的语音数据进行端点检测、降噪、预加重、加窗、分帧等等。这和语音识别时的预处理基本相同，但在有些方面也可能有差别，如求取特征参数时的帧和帧长的选定等，对于噪声环境下的说话人识别而言，还需要对含有噪声的语音进行降噪。目前对预处理的研究主要集中于端点检测和语音降噪，下面就本论文涉及到的这两部分作一介绍。1.1.1.1

42、端点检测语音信号是由语音及各种背景噪声混合而成的，将语音和各种非语音信号时段区分开来，准确地确定出语音信号的起始点被称为端点检测。研究表明33，即使在安静的环境下，语音识别系统一半以上的错误来自端点检测。因此，端点检测的性能对于识别的正确率、识别速度都有着重要的影响34，这主要表现在以下几个方面：1、在语音滤波和增强中，语音信号和噪声的模型参数都依赖于对应的语音段或噪声段。只有准确地判定出语音信号的端点，才能正确地进行语音处理，提高识别的准确率；2、如果在识别前移除信号中的静音段，使得整句的似然得分累计更多的集中在语音段，而不是被语音和噪声所分散，这样有助于识别率的提高；3、在不断变换的环境

43、下对语音和噪声建模是非常困难的，准确的端点检测可以事先移除单纯噪声的时段对于语音和噪声模型的准确建立有很大帮助；4、当处理信号含非语音时段非常长时，准确的端点检测可以极大提高计算速度并节省电池功率。端点检测的方法可以分为三大类：基于鲁棒性特征的方法、基于特征滤波的方法和基于模型的方法。基于鲁棒性特征的方法是寻找能表征语音和噪声在不同域差异的特征来进行语音和噪声时段的区分，这类方法需要考虑两方面的问题：(1)提取能够正确反映不同类型语音信号（清音、浊音和噪声）的特征；(2)对不同信噪比的信号能计算出合理的判决门限。常用的特征主要有能量35、子带能量36、过零率37、基频38、周期度量、熵39、能

44、量方差等。基于能量的方法在高信噪比条件下效果很好，随着噪声环境的恶化性能下降很快39。基于子带能量、过零率、周期度量、基频的方法对噪声比较敏感，只适用于某些类型的噪声环境，因此，这些参数不能完全描述语音的特征。J.L.Sheng40发现语音段的熵与噪声段有明显不同，将熵作为端点检测的参数。语音熵的研究成为了端点检测的热点，但是基于熵的方法对babble noise、音乐背景噪声效果不好；Huang等人将时域能量和熵结合在一起作为新的参量，使得性能有所提高，但是在实际噪声环境下，无论是基于能量的算法还是基于谱熵的算法效果都不是很理想。基于特征滤波的方法是对特征先进行滤波，然后进行端点检测，主要算

45、法有子空间滤波、能量差分自适应滤波34等。基于特征滤波方法一方面增大了计算量、另一方面改变了语音谱的结构，丢失了部分信息。基于模型的方法是针对噪音和语音进行建模用来区分语音时段。基于模型的方法的缺点是在于噪音的环境多种多样，不可能对各种情况都建立相应的模型，当噪音环境与模型不匹配时，性能严重退化。1.1.1.2 语音增强在实际环境下语音信号常受到周围环境、传输媒介引入的噪声、通讯设备内部噪声以及其他讲话者的干扰。这些噪声和干扰使得接受到的语音信号并非是纯净的原始语音信号，而是受噪声污染的带噪声的语音信号。为了从带噪声的语音信号中获得尽可能纯净的语音信号，减少噪音的干扰，就需要进行语音增强。语音

46、增强主要解决两个问题：(1)改进语音质量，消除背景噪声，使听者乐于接受，不感疲劳，这是一种主观度量；(2)消除干扰噪声，提高语音的可懂度，这是一种客观度量。语音增强有着广泛的应用，因此，寻找一种有效的算法对带噪声的语音信号进行处理以达到较高的抗噪声效果的研究意义很大。在一般情况下干扰信号是随机信号，要完全排除噪音是不现实的，所以语音增强的目标是对收听人而言主要是改善语音质量，提高语音可懂度，减少疲劳感，对于说话人识别来说是提高系统的识别率和抗干扰能力。1.1.1.3 预加重、加窗和分帧由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，所以求语音信

47、号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重（Pre-emphasis）处理。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器： (2-1)其中值接近于1。考虑到一个短时间范围内（一般认为在10ms30ms的短时间内），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。分帧一般要采用交叠分段的方法，这是为了使得帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为01/2，这种方法称为加权交叠平均法，又可以看作是Welch法的推广，是一种广泛应

展开阅读全文