语音识别基础.ppt

上传人:sccc 文档编号:5667361 上传时间:2023-08-07 格式:PPT 页数:37 大小:242.04KB
返回 下载 相关 举报
语音识别基础.ppt_第1页
第1页 / 共37页
语音识别基础.ppt_第2页
第2页 / 共37页
语音识别基础.ppt_第3页
第3页 / 共37页
语音识别基础.ppt_第4页
第4页 / 共37页
语音识别基础.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《语音识别基础.ppt》由会员分享,可在线阅读,更多相关《语音识别基础.ppt(37页珍藏版)》请在三一办公上搜索。

1、语音识别基础,上海交通大学计算机系吴亚栋E-mail:Tel:62932057,第三章 语音信号处理基础,第三章 语音信号处理基础,3.1 短时分析与窗函数3.2 时域分析3.3 频域分析3.4 倒谱域分析3.5 线性预测分析3.6 矢量量化法,3.1 短时分析与窗函数,3.1.1 语音信号的数字化*3.1.2 短时分析概要*3.1.3 几种典型窗口*,3.2 时域分析,3.2.1 平均能量、幅度及过零数*3.2.2 自相关函数与平均振幅差函数*3.2.3 时域分析在语音识别中的用途,3.3 频域分析,3.3.1 短时傅里叶变换(DFT)*3.3.2 DFT与快速傅里叶变换(FFT)*3.3.

2、3 振幅谱和功率谱*,3.4 倒谱域分析,3.4.1 倒谱的概念*3.4.2 倒谱的分析流程*3.4.3 倒谱系数的求法*3.4.4 倒谱分析在语音识别中的用途*,3.5 线性预测分析,3.5.1 线性预测分析的概念*3.5.2 线性预测系数的求解*3.5.3 线性预测分析在语音识别中的用途*,3.6 矢量量化法,3.6.1 矢量量化的原理*3.6.2 码本设计*-LBG算法(2分割法)概要3.6.3 矢量量化在语音识别中的用途*,:提交时间:,第三章 回家作业,3.1.1 语音信号的数字化,频率,采样周期(T),xa(t):模拟波形,x(n)=x(nT):取样值,时间,振幅,采样:时间方向的

3、离散化采样频率(S)采样定理量化:幅度方向的离散化,语音信号的短时平稳性语音信号的短时分析短时信号的切取 分帧 帧长 帧移,3.1.2 短时分析的概要,3.1.3 几种典型的窗函数,矩形窗:汉明窗(Hamming):哈宁窗(Hanning):,WR=,1=(0nN-1),0=(Other),WHM=,0.5-0.46cos(2n/(N-1)(0nN-1),0=(Other),WHN=,0.5-0.5cos(2n/(N-1)(0nN-1),0=(Other),3.2.1 短时平均能量、幅度及过零数,短时平均能量的定义:*短时平均幅度的定义:*短时平均过零数的定义:*,短时平均能量Ej的定义,N-

4、1 E=x(n)2 n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。Elog(j)=10log10(1+Ej)Elog(j):语音信号的对数短时平均能量(分贝)。,j,j,j,短时平均幅度Mj的定义,N-1 M=x(n)n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。,j,j,j,短时平均过零数Zj的定义,N-1 Z=neg(x(n)x(n+1)n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。neg(x)=,j,j,0(x0),1(x0),静息、无声及

5、有声语音的Ej和Zj的分布关系,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,(a)短时平均能能量(dB)(b)短时平均过零数(次/10ms),3.2.3 短时自相关函数与平均振幅函数,短时自相关函数*(Short-Time Auto-Correlation Function)短时平均幅度差函数*(Average Magnitude Differential Function),自相关函数与AMDF函数,N-1 R(m)=(x(n)x(n+m)/N(0mN-1)n=0 N-1

6、r(m)=|x(n)-x(n+m)|/L(0mN-1)n=0 N-1 L=|x(n)|n=0,j,j,j,j,j,3.3.1 短时傅里叶变换(DFT),(1)DFT(Discrete Fourier Transform),(2)IDFT,3.3.2 DFT与快速傅里叶变换(FFT),在使用算法时应注意:(1)时间窗要求采用两端衰减型的窗函数(2)数据长度要求满足:N=2,M,短时帧长:200,FFT帧长:256,补零,3.3.3 振幅谱和功率谱,(1)振幅谱|X(k)|,|X(k)|=R(X(k)+I(X(k),j,j,j,j,2,2,1/2,(2)功率谱 S(k),j,S(k)=|X(k)|

7、/N,j,j,2,3.4.1 倒谱的概念,定义:倒谱定义为信号短时振幅谱的对数傅里叶反变换。特点:具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。,3.4.2 倒谱的分析流程,DFT,Log|,IDFT,DFT,峰值检测,A,倒谱窗(lifter),x(n),B,C,D,E,F,时间窗,A:短时信号;B:短时频谱;C:对数频谱;D:倒谱系数;E:对数频谱包络;F:基本周期,3.4.3 倒谱系数的求法,c(k)=log10|X(k)|exp(j2kn/N)/N,j,j,=log10|X(k)|cos(2kn/N)/N,(0nN-1),3.4.4 倒谱分析在语音识别中的用途,提取声道特

8、征信息:提取频谱包络特征,以此作为描述音韵的特征参数而应用于语音识别。提取音源信息:提取基音特征,以此作为描述音韵特征的辅助参数而应用于语音识别。,3.5.1 线性预测分析的概念,概念:一个语音取样的现在值,可以用若干个语音取样的过去值的加权线性组合来逼近,在线性组合中的加权系数就称为线性预测系数(LPC:Linear Predictive Coding)。特点:利用LPC技术可以从语音信号中抽取出声道特性。,x(n)=-a1x(n-1)+a2x(n-2)+apx(n-p),j,j,j,j,3.5.2 线性预测系数的求解概要(1),(1)设ej(n)表示时刻n的预测误差:ej(n)=xj(n)

9、-xj(n)=xj(n)+a1xj(n-1)+a2xj(n-2)+apxj(n-p)=aixj(n-i)(这里,a0=1.0。),3.5.2 线性预测系数的求解概要(2),(2)对在分析区内的N个语音取样值的预测误差分别取其平方,然后进行累加。即,计算预测误差的能量Ej:N-1 Ej=ej(n)2 n=0(3)给出使Ej为最小的条件,即,E,a,j,i,=0,(1ip),3.5.3 线性预测分析在语音识别中的用途,(1)基于LPC的频谱包络 S(k)=2/|aiexp(-j2ik/N)|2(2)基于倒谱的频谱包络,i=0,P,3.6.1 矢量量化原理(1),(1)标量量化 对语音信号的每个取样

10、值,或语音信号的每个特征参数值分别独立地进行量化,称为标量量化(一维)。-标量量化与传输率-波形量化:采样频率为10kHz、振幅量化为16bit的语音信号的传输速率是:16x10000=160,000bit/s(bps)。-波形特征参数量化:对次数为10、每秒100个特征矢量(如频谱包络参数),如振幅量化也为16bit的话,其传输速率是:16x100 x10=16,000bit/s。,i=0,3.6.1 矢量量化原理(2),(1)矢量量化*将语音信号的取样值或语音的特征参数值分成若干组,每组构成一个矢量,然后分别对每个矢量进行量化。这种量化就称为矢量量化(N维)。-波形特征参数矢量量化:设L=

11、1024(40种语音单位,每个对应25种变形),即为了指定码本中任意码矢需要10bit,则对每秒100个特征矢量的传输需率就为1,000bit/s。(2)矢量量化过程*,3.6.2 码本设计-LBG算法概要,(1)初始化(2)码本分割(3)码字更新(4)码矢更新(5)码本大小确认,3.6.3 VQ在语音识别中的用途,矢量量化示意图,1,2,3,4,码矢,No.,VQ(Vector Quantization),1 4 2,t,矢量量化过程,设:有限矢量集合Y=yi,1iL,Y称为码本,L是码本的大小,yi 称为码矢,码矢是N维矢量,即yi=(yi1,yi2,yiN)T。码本搜索:对输入矢量x进行

12、VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码:为了传输量化后得到的码矢yi,一般都需要进行编码。通常,并不是直接对yi进行编码,而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于L级码本来说,为了表示其中任意一个码矢的标号,最多只要log2L个bit的二进制代码就够了。,矢量量化过程,设:有限矢量集合Y=yi,1iL,Y称为码本,L是码本

13、的大小,yi 称为码矢,码矢是N维矢量,即yi=(yi1,yi2,yiN)T。码本搜索:对输入矢量x进行VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码:为了传输量化后得到的码矢yi,一般都需要进行编码。通常,并不是直接对yi进行编码,而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于L级码本来说,为了表示其中任意一个码矢的标号,最多只要log2L个bit的二进制代码就够了。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号