语音处理与语音识别简介ppt课件.ppt

资源描述

《语音处理与语音识别简介ppt课件.ppt》由会员分享，可在线阅读，更多相关《语音处理与语音识别简介ppt课件.ppt（34页珍藏版）》请在三一办公上搜索。

1、1,语音处理与语音识别简介,2014年9月,2,主要内容,数字音频基础知识音频处理基础知识语音识别技术简介,3,主要内容,数字音频基础知识音频处理基础知识语音识别技术简介,4,5,声音的强度 (响度或音量)，与声波振幅成正比；唱盘、CD 盘等声音载体中的音强不变，通过播放设备的音量控制可改变聆听时强度；音频处理软件可提高声源音强,声音的特色，主要影响因素是复音；复音指具有不同频率和不同振幅的混合声音，其中最低频率是 “基音”，是声音的基调，其他频率的声音为 “谐音 (泛音)”,代表声音的高低，与频率有关；使用音频处理软件对声音的频率进行调整时，其音调也会随之发生变化, 声音的三要素,6, 声音

2、的频率范围,7,数字音频,8, 采样,9,10, 量化,11, 编码,12,13,14,15,WAV为微软公司（Microsoft)开发的一种声音文件格式非压缩，直接存储（采样、量化、PCM编码后的）原始数据；如果采样率高，其音质极佳；数据量大，与采样频率、量化位数、声道数成正比。,数字音频文件格式,16,17,18,19,主要内容,数字音频基础知识音频处理基础知识语音识别技术简介,20,在音频信息处理领域，特征提取是一个非常重要的问题。特征提取的任务：从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异，又能表征相同音频内容不同样本之间的声学相似性的信息，同时减少原始信号的信息冗

3、余。,21,时域音频信号是非平稳信号，难以处理。但它在一个很小的时段内具有相对的稳定性。因此在对其进行分析时，可以假定语音信号在一个时间帧（frame）内是平稳的。通常一帧在1030ms之间，视实际情况而定，而且分帧可连续，也可采用交叠分段的方法。,10ms,25ms,10ms,25ms,22,短时能量（STE：Short Time Energy）是一帧的总能量短时能量说明了音频信号的强度，可用于静音的检测。例如，对于一个音频信号，如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值，则可判定该短时帧为静音。对于一段音频，以时间或帧为横坐标，短时能量值为纵坐标，可以画出一条

4、曲线，我们将该曲线称为能量包络（Energy Envelop）曲线。,23,MFCC全称为美尔频标倒谱系统（Mel-Frequency Cepstral Coefficients），是语音处理中常用的特征。 MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得，并且对其频域进行Mel尺度变换，以更符合人类的听觉特征。,24,主要内容,数字音频基础知识音频处理基础知识语音识别技术简介,25,语音识别分类,根据处理的语音数据和识别结果分类连续语音识别（Continuous Speech Recognition）孤立词识别（Isolate Word Recognition）关键词检测（Key W

5、ord Recognition，Key Word Spotting）根据针对的发音人分类特定人语音识别（SD：Speaker Dependent）非特定人语音识别（SI：Speaker Independent）,26,系统框架,特征提取,语言模型,自适应,第一遍识别,声学模型,前端处理,第n遍识别,语音,识别结果,识别结果,系统框架,27,前端处理,前端处理消除个体的影响声道长度归一（VTN：Vocal Tract Length Normalization）端点检测短时能量高阶谱算法子带能量语音增强（去噪）维纳滤波,28,特征提取（MFCC）,29,声学模型,声学模型确定发音串P（O|A）主流

6、方法CHMMHMM的单元：三音子（Tri-Phone）注：Phone（Phoneme）：音子，b, t, a Syllable：音节, ba, ti, tao Bi-Phone：二音子, b-a-t-a, b-a-t-a Tri-Phone：三音子 w-o-sh-i-sh-u-i, w-o-sh-i-sh-u-i,30,语言模型,语言模型已知发音串写出词串P(S|LP)P(P|L)P(L|W)P(W|A)P(A)其中，W是字串，A是读音串，L是词串，P是词性串，S是词义串主流方法三元语法：n-gram,31,搜索算法,搜索（解码）识别的主要过程通过搜索找到某一概率（P(W)）最大化的字串W主流方法Viterbi搜索：HMM内部词网格搜索：HMM之间,32,说话人自适应,说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法MLLR（最大似然线性回归）对模型参数寻找一个最优线性变换y = Ax + bMAP（最大后验概率）求使得后验概率最大的参数max P(|x）,33,模型训练,声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题,34,谢谢！,

展开阅读全文