语音识别基础.ppt_三一办公31ppt.com

资源描述

《语音识别基础.ppt》由会员分享，可在线阅读，更多相关《语音识别基础.ppt（37页珍藏版）》请在三一办公上搜索。

1、语音识别基础,上海交通大学计算机系吴亚栋E-mail:Tel:62932057,第三章语音信号处理基础,第三章语音信号处理基础,3.1 短时分析与窗函数3.2 时域分析3.3 频域分析3.4 倒谱域分析3.5 线性预测分析3.6 矢量量化法,3.1 短时分析与窗函数,3.1.1 语音信号的数字化*3.1.2 短时分析概要*3.1.3 几种典型窗口*,3.2 时域分析,3.2.1 平均能量、幅度及过零数*3.2.2 自相关函数与平均振幅差函数*3.2.3 时域分析在语音识别中的用途,3.3 频域分析,3.3.1 短时傅里叶变换(DFT)*3.3.2 DFT与快速傅里叶变换(FFT)*3.3.

2、3 振幅谱和功率谱*,3.4 倒谱域分析,3.4.1 倒谱的概念*3.4.2 倒谱的分析流程*3.4.3 倒谱系数的求法*3.4.4 倒谱分析在语音识别中的用途*,3.5 线性预测分析,3.5.1 线性预测分析的概念*3.5.2 线性预测系数的求解*3.5.3 线性预测分析在语音识别中的用途*,3.6 矢量量化法,3.6.1 矢量量化的原理*3.6.2 码本设计*-LBG算法(2分割法)概要3.6.3 矢量量化在语音识别中的用途*,：提交时间：,第三章回家作业,3.1.1 语音信号的数字化,频率,采样周期(T),xa(t)：模拟波形,x(n)=x(nT)：取样值,时间,振幅,采样：时间方向的

3、离散化采样频率(S)采样定理量化：幅度方向的离散化,语音信号的短时平稳性语音信号的短时分析短时信号的切取分帧帧长帧移,3.1.2 短时分析的概要,3.1.3 几种典型的窗函数,矩形窗：汉明窗(Hamming)：哈宁窗(Hanning)：,WR=,1=(0nN-1),0=(Other),WHM=,0.5-0.46cos(2n/(N-1)(0nN-1),0=(Other),WHN=,0.5-0.5cos(2n/(N-1)(0nN-1),0=(Other),3.2.1 短时平均能量、幅度及过零数,短时平均能量的定义：*短时平均幅度的定义：*短时平均过零数的定义：*,短时平均能量Ej的定义,N-

4、1 E=x(n)2 n=0 x(n)：原样本序列x(n)在j时刻起，由长度为N 的窗口w(n)所切取出的短时语音段。Elog(j)=10log10(1+Ej)Elog(j)：语音信号的对数短时平均能量（分贝）。,j,j,j,短时平均幅度Mj的定义,N-1 M=x(n)n=0 x(n)：原样本序列x(n)在j时刻起，由长度为N 的窗口w(n)所切取出的短时语音段。,j,j,j,短时平均过零数Zj的定义,N-1 Z=neg(x(n)x(n+1)n=0 x(n)：原样本序列x(n)在j时刻起，由长度为N 的窗口w(n)所切取出的短时语音段。neg(x)=,j,j,0(x0),1(x0),静息、无声及

5、有声语音的Ej和Zj的分布关系,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,(a)短时平均能能量(dB)(b)短时平均过零数(次/10ms),3.2.3 短时自相关函数与平均振幅函数,短时自相关函数*(Short-Time Auto-Correlation Function)短时平均幅度差函数*(Average Magnitude Differential Function),自相关函数与AMDF函数,N-1 R(m)=(x(n)x(n+m)/N(0mN-1)n=0 N-1

6、r(m)=|x(n)-x(n+m)|/L(0mN-1)n=0 N-1 L=|x(n)|n=0,j,j,j,j,j,3.3.1 短时傅里叶变换(DFT),(1)DFT(Discrete Fourier Transform),(2)IDFT,3.3.2 DFT与快速傅里叶变换(FFT),在使用算法时应注意：(1)时间窗要求采用两端衰减型的窗函数(2)数据长度要求满足：N=2,M,短时帧长：200,FFT帧长：256,补零,3.3.3 振幅谱和功率谱,(1)振幅谱|X(k)|,|X(k)|=R(X(k)+I(X(k),j,j,j,j,2,2,1/2,(2)功率谱 S(k),j,S(k)=|X(k)|

7、/N,j,j,2,3.4.1 倒谱的概念,定义：倒谱定义为信号短时振幅谱的对数傅里叶反变换。特点：具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。,3.4.2 倒谱的分析流程,DFT,Log|,IDFT,DFT,峰值检测,A,倒谱窗(lifter),x(n),B,C,D,E,F,时间窗,A：短时信号；B：短时频谱；C：对数频谱；D：倒谱系数；E：对数频谱包络；F：基本周期,3.4.3 倒谱系数的求法,c(k)=log10|X(k)|exp(j2kn/N)/N,j,j,=log10|X(k)|cos(2kn/N)/N,(0nN-1),3.4.4 倒谱分析在语音识别中的用途,提取声道特

8、征信息：提取频谱包络特征，以此作为描述音韵的特征参数而应用于语音识别。提取音源信息：提取基音特征，以此作为描述音韵特征的辅助参数而应用于语音识别。,3.5.1 线性预测分析的概念,概念：一个语音取样的现在值，可以用若干个语音取样的过去值的加权线性组合来逼近，在线性组合中的加权系数就称为线性预测系数(LPC:Linear Predictive Coding)。特点：利用LPC技术可以从语音信号中抽取出声道特性。,x(n)=-a1x(n-1)+a2x(n-2)+apx(n-p),j,j,j,j,3.5.2 线性预测系数的求解概要(1),（1）设ej(n)表示时刻n的预测误差：ej(n)=xj(n)

9、-xj(n)=xj(n)+a1xj(n-1)+a2xj(n-2)+apxj(n-p)=aixj(n-i)（这里，a0=1.0。）,3.5.2 线性预测系数的求解概要（2）,（2）对在分析区内的N个语音取样值的预测误差分别取其平方，然后进行累加。即，计算预测误差的能量Ej：N-1 Ej=ej(n)2 n=0（3）给出使Ej为最小的条件，即,E,a,j,i,=0,(1ip),3.5.3 线性预测分析在语音识别中的用途,（1）基于LPC的频谱包络 S(k)=2/|aiexp(-j2ik/N)|2（2）基于倒谱的频谱包络,i=0,P,3.6.1 矢量量化原理(1),（1）标量量化对语音信号的每个取样

10、值，或语音信号的每个特征参数值分别独立地进行量化，称为标量量化（一维）。-标量量化与传输率-波形量化：采样频率为10kHz、振幅量化为16bit的语音信号的传输速率是：16x10000=160,000bit/s(bps)。-波形特征参数量化：对次数为10、每秒100个特征矢量（如频谱包络参数），如振幅量化也为16bit的话，其传输速率是：16x100 x10=16,000bit/s。,i=0,3.6.1 矢量量化原理(2),（1）矢量量化*将语音信号的取样值或语音的特征参数值分成若干组，每组构成一个矢量，然后分别对每个矢量进行量化。这种量化就称为矢量量化（N维）。-波形特征参数矢量量化：设L=

11、1024（40种语音单位，每个对应25种变形），即为了指定码本中任意码矢需要10bit，则对每秒100个特征矢量的传输需率就为1,000bit/s。（2）矢量量化过程*,3.6.2 码本设计-LBG算法概要,(1)初始化(2)码本分割(3)码字更新(4)码矢更新(5)码本大小确认,3.6.3 VQ在语音识别中的用途,矢量量化示意图,1,2,3,4,码矢,No.,VQ(Vector Quantization),1 4 2,t,矢量量化过程,设：有限矢量集合Y=yi,1iL，Y称为码本，L是码本的大小，yi 称为码矢，码矢是N维矢量，即yi=(yi1,yi2,yiN)T。码本搜索：对输入矢量x进行

12、VQ的过程，就是在码本中以某种方式进行搜索，寻找一个与x最接近的码矢之过程，即用该码矢去替代x。这里，所谓最接近，应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码：为了传输量化后得到的码矢yi，一般都需要进行编码。通常，并不是直接对yi进行编码，而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后，就可在接受端的码本中找到相应的码矢，这便是重建码矢。对于L级码本来说，为了表示其中任意一个码矢的标号，最多只要log2L个bit的二进制代码就够了。,矢量量化过程,设：有限矢量集合Y=yi,1iL，Y称为码本，L是码本

13、的大小，yi 称为码矢，码矢是N维矢量，即yi=(yi1,yi2,yiN)T。码本搜索：对输入矢量x进行VQ的过程，就是在码本中以某种方式进行搜索，寻找一个与x最接近的码矢之过程，即用该码矢去替代x。这里，所谓最接近，应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码：为了传输量化后得到的码矢yi，一般都需要进行编码。通常，并不是直接对yi进行编码，而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后，就可在接受端的码本中找到相应的码矢，这便是重建码矢。对于L级码本来说，为了表示其中任意一个码矢的标号，最多只要log2L个bit的二进制代码就够了。,

展开阅读全文