《语音识别系统ppt课件.ppt》由会员分享,可在线阅读,更多相关《语音识别系统ppt课件.ppt(61页珍藏版)》请在三一办公上搜索。
1、语音识别技术1.声学特征2.声学模型3.语言模型4.语音搜索技术5.系统实现6.语音识别系统的自棒性与鲁棒性7.综合总结,声学特征,汇报者:,线性预测倒谱系数(LPCC)美尔倒谱系数(MFCC)语音动态特征与混合特征 仿真与实现,线性预测倒谱系数(LPCC),式中, a i 为线性预测系数, c i为所求的 LPCC 参数,P是参数的个数。,优点:1.去掉激励信息,主要反映声道特性。2.计算量小-且只需十几个倒谱系数。,缺点:1.对辅音的描述能力较差。2.抗噪声性能也较弱。,美尔倒谱系数(MFCC),语音信号,分帧加窗,FFT,Mel滤波器组,动态特征与混合特征参数,帧静态特征,每帧所包含的特
2、征:,动态特征根据静态特征的差分谱来获取,单独一种参数往往难以完全反映出每个说话者的个性特征,参与组合的特征应该具有区分性、稳定性和独立性,混合特征,仿真与实现,从训练语音中提取特征矢量,得到特征矢量集,通过 LBG 算法生成码本,1.从输入语音中提取特征参数2.由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差。,声学模型,汇报者:,两声学建模和语言建模现代化的重要组成部分statistically-based语音识别算法。隐马尔可夫模型被广泛地使用在许多系统。还有许多其他语言建模等领域的应用智能键盘和文件自动分类技术.。,HMM声学建模:,马尔可夫模型的概念是一个离散时域有限
3、状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。,对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。,语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模
4、型就是词和静音组合起来的HMM。,汉英双语混合建模方法,直接合并汉英双语的基本建模单元 进行汉英双语混合声学建模, 一个很自然的方法就是直接合并二者的Phone Set ,然后按照单一语言的声学建模方法训练双语的声学模型。 在我们的汉英双语识别系统里, 使用的是从左至右的三状态隐马尔科夫模型( Hidden Markov Model , 简称HMM) ,与两个单语系统是一致的。,汉英双语直接合并的 Phone Set,IPA映射基于知识的汉英双语Phone共享 IPA 映射法就是根据国际音标协会的发音规则,把特定语言的 Phone用国际音标来表示。 这也是构建多语言的 Phone Set 最简
5、便的方法。其映射过程可简要表示为:,合并聚类 数据驱动的汉英双语Phone共享 自下而上的合并聚类算法在语音识别领域应用很多, 是典型的数据驱动的聚类方法。其优点是不需要先验知识的引导。因此, 我们考虑利用合并聚类的方法进行汉英双语的Phone共享, 使得共享后双语的Phone 和 IPA 映射方法得到的 Phone数目相等,以便于进行比较研究。,语言模型,汇报者:,语言模型,IBM公司Via Voice 语音识别软件应用了规则与统计相结合的语言模型。其中,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。,N-Gram,该模型基于这样一种假设,
6、第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。,语音搜索技术,汇报者:,语音识别系统,模型训练部分,识别部分,特征提取,模型结构的定义,在既定的模型结构下,如何选择一种比较好的方法来预测模型的参数,采用正确的搜索算法,找到识别基元的边界,根据声学模型提供的信息输出合适的声学候选,利用语言模型提供的信息得到最终希望的词序列,搜索算法的主要目的减少寻找最佳假设的时间和内存的需要,而同时维持最小的搜索错误。搜索的目的获得最佳的词序列,即最大化后验概率,即 Pr(x1xT|w1wN),2.Ba
7、yes 判别准则,这就是所谓的 Bayes 判别准则,它的计算需要用到两种类型的概率分布:语言模型,即 Pr(w1wN)声学模型,即 Pr(x1xT|w1wN),理论基础:,1.搜索算法的主要目的,时间同步的搜索算法,1.一遍 DP 搜索 常用词典:线性词典和树型词典具体步骤:,搜索算法1:,基本剪枝策略,时间同步的搜索算法(续),2.词图算法使用范围:词图搜索算法主要是在词的混淆度比较高时用来处理多个词的候选。优点:声学识别过程可以和复杂语言模型的使用分离开来,使复杂语言模型可以在后续的处理过程中被利用上,搜索算法1:,采用词图搜索算法的语音识别系统的框架结构如下图所示:,时间异步的搜索算法
8、,时间异步的搜索算法可以通过堆栈解码器(Stack decoder)来实现。用到的是一些按照某种分数排序的的假设的列表。排序所基于的分数可以是,搜索算法2:,部分假设的对数似然度,整个完整的句子的对数似然度的预测(A*准则),其它一些能够反映部分假设的正确性的分数,引入错误的三个过程,解决方法,我们从不同的侧面提出了两套判别准则来指明产生识别错误的原因,利用时域信息进行切分,在语音段内进行帧同步的 Viterbi 解码,在一个连续语音识别系统中,存在着多种有可能引入最终识别错误的因素,例如:不够鲁棒的声学模型,端点的不精确检测,不够完善的状态解码算法等等。如右图所示:,简要补充:,系统实现,-
9、IBM语音识别系统 汇报者:,Windows系统下的使用说明,最低系统配置安装过程中的注意事项一般性限制商标和通告,最低系统配置,Microsoft Windows 98 Second Edition: Intel Pentium 300MHz,256K L2 缓存(或相当配置,包括AMD-K6 处理器,256K L2缓存)Windows 2000: Intel Pentium 300MHz,256K L2缓存(或相当配置,包括AMD-K6 处理器, 256K L2缓存),96MB RAMWindows XP Home Edition/XP Professional Edition: Inte
10、l Pentium 300MHz,256K L2缓存(或相当配置,包括AMD-K6 处理器,256K L2缓存),192MB RAM,安装过程中的注意事项,您计算机的系统配置必须满足上述所说明的最低要求;如果您已经安装了一个IBM语音产品,或者您的IBM语音产品准备在多个语言环境中使用,请继续阅读自述文件下面的部分;3)你准备安装ViaVoice for Windows的磁盘驱动器没有用磁盘压缩工具进行过压缩。,一般性限制,操作系统/硬件ViaVoice程序听写限制导航限制音频限制(只针对模拟麦克风),商标和通告,IBM ViaVoice都是国际商业机器公司在美国或/和其他国家的商标或注册商标
11、。 例如:World Book是World Book, Inc在美国或/和其他国家的商标;Sound Blaster是Creative Technology Ltd.在美国或/和其他国家的注册商标;Netscape是Netscape Communications Corporation在美国或/和其他国家的注册商标。,系统使用技巧,设置麦克风语音设置口音适应在WORD中听写ViaVoice词汇管理器,设置麦克风,1.启动麦克风设置 2.麦克风设置向导程序将检测计算机并显示出它找到的混音器设备 3.单击“测试”按钮 4. 使用麦克风5. 正确安装并测试耳机或外部扬声器后,就可安装和设置麦克风6.
12、向导程序将提示你麦克风已设置成功 (注意:选择麦克风使用的每一个适配器 ),语音设置,在对麦克风进行正确的安装和配置后,还必须耐心地进行语音设置,否则麦克风不能工作。系统提供一组词组要求我们朗读,语音识别核心根据我们的读音,自动调节麦克风音量和识别核心,以适应我们的声音。 进行音量调节时,首先进入音量调节窗口,单击开始按钮后,随着指示框(蓝框)的移动读出当前高亮显示的词。 当蓝色框长时间停止不动时,会出现提示信息,说明麦克风检测不到声音,请重新检查麦克风设置。,口音适应,口音适应分为两部分: 1.用户对一组给定的句子进行录音; 2.ViaVoice进行口音训练生成语音文件。 (某词变红未被识别
13、的原因主要有:1.麦克风未置于正确位置;2.在词间没有停顿;3.某些词发音不符合ViaVoice要求或你念错了某词;4.你的音量必须处于绿色区域里。),在WORD中听写,启动WORD听写可谓相当方便。我们可以对准麦克风念“听写到WORD”或从屏幕右下角的图标中启动程序。在WORD里,我们会发现在工具栏上多了一个“听写”菜单。在听写时,发音要清楚,语速要正常,并且念出所有的标点和排版符号。 限于各方面的原因,ViaVoice还不能100识别你的口音,所以完成一段文字的录入后,往往需要校对 。,ViaVoice词汇管理器,ViaVoice词汇管理器是对在个人进行听写、录入产生错误词汇时添加到个人词
14、汇表中的词汇进行管理的工具。当你下次碰到同样的词时,计算机能自动识别,这将大大减少你的工作量。经常对词汇表进行维护,是一个良好的习惯,你还可以用你的方言添加词汇,让你的计算机成为你亲切的“老乡”。 通过词汇表管理器,你可以查看加入到词汇表中的所有词汇,并对其进行编辑。,ViaVoice Pro Edition Windows版参考命令,自适性与棒鲁性,汇报者:,结构,引言自适应性及相关算法棒鲁性及相关算法总结,引言,在实际应用时,有许多原因可能会导致语音识别系统的识别率显著下降,这些原因包括语音采集环境的影响(如加性噪声,录音设备,信道畸变等) 和说话人的影响(如说话风格,口音,以及环境影响引
15、起的说话风格的变化等)。为了使语音识别系统在面对这些不利条件时也能具有较好的性能,采用了许多方法来增强系统的鲁棒性(Robustness)。,目前语音识别系统采用的最实用的框架,自适应与相关算法,说话人自适应 (Speaker Adaptation ,SA)算法有效地解决了特定人和非特定人系统各自的问题。该方案利用系统使用者的少量训练语音,调整系统的参数,使得系统对于该使用者的性能有明显的提高。,自适应算法,目前语音识别技术中使用的自适应方法主要分为两大类基于最大后验概率 基于变换的方法,MAP算法,MAP(最大后验概率)算法的原理:基本准则是后验概率最大化,利用贝叶斯(Bayes)学习理论,
16、将SI系统的先验信息与被适应人的信息相结合实现自适应 . 性能及使用范围:MAP具有良好的渐进性,但收敛性较差。在小词表的语音识别任务中具有很好的性能,但在大词汇量语音识别系统中MAP算法却具有自适应速度缓慢的缺点。,.,MLLR算法,MLLR(最大似然线性回归)算法原理:估计SI系统模型与被适应人之间的变换关系,对SI系统的模型或输入语音特征作变换,减少SI系统与被适应人之间的差异。性能:MLLR在很大程度上改善了收敛性,但其渐进性却不如MAP MLLR算法是基于变换的自适应最成功、应用最广的算法,鲁棒性与相关算法,为了提高语音识别系统的鲁棒性,这里引入了一种特征参数规整的优化算法环境选择M
17、FCC差分扩展(Mel Frequency Cepstrum Coefficient)Mel频率倒谱系数均值方差规整 ARMA 滤波器平滑,MVN的基本原理:MVN 是目前比较有效的鲁棒性方法之一。该方法的基本原理是通过特征参数的均值和方差来对其进行规整。,均值方差规整方法(MVN),特征参数规整的优化算法,算法仍然是基于累计分布函数匹配原理的,因为它的核心模块之一是MVN。,环境选择模块,环境选择的思想: 对于实际的一个识别系统的应用环境,我们总可以按噪声类型和级别事先对环境细分为很多种小环境,在每个小环境定义了不同的降噪策略,然后我们用每个小环境的数据分别训练一个高斯混合模型GMM(Gau
18、ssian Mixture Model),从而这个GMM就表征了这个小环境的特性,当测试时,我们对每个GMM计算当前的一句话的似然值,选择似然值最大的那个作为当前的环境,然后进行相应的操作。,39维MFCC扩展模块,原理: 这个模块是对输入的13维特征扩展得到其一阶差分(13维)和二阶差分(13维),这样总共就是39维特征。,优化的原因: 越靠近当前帧的帧和当前帧的相关性越大,也就是影响越大,经过MVN模块之后,加性噪声和信道畸变都得到了一定的补偿,但是由于噪声引起的一些毛刺对性能仍有影响,因此需要使用ARMA滤波器进行平滑。,ARMA滤波器平滑,总结,本文从如何提高系统鲁棒性方面入手,首先讲
19、述了影响语音识别系统性能下降的各方面原因;其次介绍了一些相关的算法提高系统的鲁棒性,其中包括MAP、MLLR和参数规整的优化算法,并分析了各自的性能和使用范围。,总结,以上介绍的实现语音识别系统的各个方面的技术,这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。 由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。而系统后期的不断维护和完善,相信必然会对该系统的性能有一定程度的提高。,