《语音信号处理》PPT课件.ppt

上传人:小飞机 文档编号:6500932 上传时间:2023-11-07 格式:PPT 页数:177 大小:3.12MB
返回 下载 相关 举报
《语音信号处理》PPT课件.ppt_第1页
第1页 / 共177页
《语音信号处理》PPT课件.ppt_第2页
第2页 / 共177页
《语音信号处理》PPT课件.ppt_第3页
第3页 / 共177页
《语音信号处理》PPT课件.ppt_第4页
第4页 / 共177页
《语音信号处理》PPT课件.ppt_第5页
第5页 / 共177页
点击查看更多>>
资源描述

《《语音信号处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音信号处理》PPT课件.ppt(177页珍藏版)》请在三一办公上搜索。

1、1,语音信号处理,院定选修课 学时:32学分:2信号信息处理的重要研究方向,2,第一章 绪 论,研究对象 语音:语言的声学表现。由人的发音器官发出的、具有一定语法和意义的声音。重要性:最重要、最有效、最常用、最方便的信息交换手段。“四会”语音信号处理:用数字信号处理技术对语音信号进行处理。新兴、综合性、交叉学科;涉及到语言学、声学、认知学、心理学。信号与信息处理的重要组成部分热门学科,存在大量机遇,3,研究内容包括:,语音编码压缩语音合成计算机讲话读文章语音识别口授打字机等,翻译关键词识别语音增强说话人识别“声纹”身份识别。,4,教学内容与目标:课程内容:基本概念的建立;各种理论和算法介绍。教

2、学目标:对语音信号处理有基本了解,为以后的研究工作做储备。,5,发展概况:39年的声码器用于通讯40年代后期的语谱仪60年代的数字模型70年代的LPC80年代的VQ以及HMM90年代的神经元等新技术,6,第二章语音信号处理的基础知识,2.1 概述本章讨论内容 1、语音产生模型 线性模型 2、语音学基本内容 信息交流“发音传递感知”三个阶段 发音语音学 确定发音机理 声学语音学 信号分析理论解释语音现象 听觉语音学 认识感知的过程,7,2.2 语音产生的过程语音是具有一定意义的声音。经分析:欲表达选择词、语句控制肌肉运动振动空气形成语音波 与箫、唢呐比较,8,等效为激励源声道喇叭口,9,等效为激

3、励源声道喇叭口激励源:声带声带振动频率基频(基音频率)清音 声带不振动浊音 声带振动声道:可变谐振腔不同形状、不同音共振(谐振)频率,c为声速,L为声道长度,n为谐振频率的序号,分析认为,声道的谐振频率(设截面均匀):,10,共振峰 Fn的局部最大值,称为共振峰。与声道对应,反映语音的频率特性,是语音的主要特征之一。不同人不同,同一人发不同音时也不同。,第一共振峰F1,第二共振峰F2,第三共振峰F3,11,一般地:语音识别,取前3个共振峰,而对语音合成,需取5个,12,2.3 语音信号的特性,2.3.1 语言和语音的基本特性语言,特殊的声音,按一定规则排列声音的物理属性音质:基本特征音调:频率

4、音强:量、响度、幅度音长:声音的长短语音特有的属性音节:语音流的最小单位音素:语音的最小单位,音素构成音节感情:重音语调声调等,13,2.3.2 语音的时间波形和频谱特性看一段实际语音,放大,结论1:时间的连续函数、频率幅度随时间变化是随机的,14,元音 其中一段再放大,结论2:短时间内近似认为不变,结论3:元音是准周期函数(基频),基音周期,15,清音,结论4:清音为随机起伏,16,2.4 语音信号产生的数字模型,理想模型标准准确 但不可能,必近似、简化简单 最好用成熟的理论线性模型,线性系统,语音信号,脉冲序列,脉冲序列 激励源,线性系统 声道喇叭口,激励源 周期序列(浊音)/随机序列(清

5、音)线性系统 短时内不变,17,一个实用模型,P16 图212,激励模型 声道模型 辐射模型,18,小结语音的时间波形 连续、随机、短时性、基频、清/浊音、共振峰线性模型 激励 声道 辐射,19,2.4.1 激励模型根据前节分析,激励源在清、浊音时不同,分别讨论浊音有人测量知,声带振动产生斜三角型脉冲波,Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲,将其表示为Z变换,有:冲激序列:E(z)浊音激励模型:U(z)=AVG(z)E(z),清音 随机白噪声,20,2.4.2 声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。1、声管模型“短时”间声道是一个形

6、状稳定的级联管道 声音在不同截面积 间传输会有反射,反射系数:km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性,确定Km,就确定了声道!,A1 A2 A3.,21,2、共振峰模型根据声道近似为谐振腔的特性,有另外模型模拟其共振峰。35个,(1)级联型用串联网络模拟声道。一般元音用全极点模型,转移函数:,G 幅值因子Ak 模型系数P 极点个数(阶数),P、ak 决定了声道地特性(人的特征),p越大越吻合。一般p=812,利用Z变换的知识,把H(z)分解为多个二阶极点网络的级联:,H1,H2,H3,Hp/2,22,(2)级联型用并联网络模拟声道。大部

7、分音用零极点模型,转移函数:,级联简单,可用于一般元音,一般35级并联复杂,可用于许多音,但Ai难控制,23,1)辐射+声门脉冲的作用合并在线性系统中2)时变参数:基频、开关、增益、参数3)“终端模拟”(听输出结果)验证有效4)模型可能要修正,2.4.3 辐射模型声道输出的速度波,经口唇变成声压 辐射效应研究得模型R(z)=R0(1 Z-1),2.4.4 完整的语音信号数字模型综上,激励声道辐射有V(z)=U(z)H(z)R(z),准周期脉冲序列发生器,随机序列发生器,线性时变系统,基音周期,系统参数,清/浊音控制,增益控制,语音信号,24,2.5 语音感知研究人对声音的感知,对语音编码识别很

8、重要MP3。对人的感知认识还有过程。研究发现:,听觉(主观感觉)与声波不完全一样,声音三要属(响度、音调、音色)在人听起来相互影响,且人的敏感度不同,分配不同bit。,听觉掩蔽效应,利用感知加权滤波器改善语音质量,25,第三章 语音信号的时域分析,3.1 概述 为甚分析与怎样分析1、通过分析,进一步了解、区别语音,提取少量参数描述语音,获得基音、开关、增益等模型参数2、分析方法:模型分析 LPC、共振峰等非模型分析 时域、频域、倒谱域等3、“短时分析技术”基本方法,帧,加窗4、必要时考虑时变性,用HMM,本章用短时分析技术,在时域提取基频、清浊、增益,26,3.2 语音信号的数字化和预处理3.

9、2.1 取样率与量化字长的选择1、抽样定理 抽样频率 8K、16K等2、量化误差 e(n)平稳、均匀分布,大小与量化 间隔、编码字长(最小8bit)有关3、量化信噪比 SNR与信号的峰值、量化字长有关 一般分析,字长为16bit,反混叠滤波器,抽样,量化,模拟信号x(t),离散信号x(n),抽样信号,27,3.2.2 预处理1、语音信号处理框图2、滤波器特性要求 使混叠失真足够小,阻带 66dB,用9阶椭圆滤波器 3、加重 减小动态范围 H(z)=1 uz-1 与滤波器同时实现,也有在AD后,28,3.3 短时能量分析1、“短时分析”本章一直在用。取一段的方法:加窗“分帧”,帧长与帧移:取的点

10、数为帧长,乘以采样周期得帧长时间,两帧间隔为帧移两帧一定有重叠,否则有参数突变!,信号x(n),窗函数w(n),加窗后为x(m)w(n-m),29,2、短时平均能量及含义根据前法,对加窗后的信号求解XX得短时XX短时平均能量:每取一个n,得到一个En。n的间隔为帧移。上式变形:,H(z),X2(n),En,30,3、窗口选择以上分析见,加窗为一滤波器取出一部分。同前,滤波器的特性影响结果。希望直角窗 1,0nN-1h(n)=0,其他,海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0nN-1h(n)=0,其他,更优,旁瓣影响大,取不出细节,但谱平滑,既平滑又能快

11、速响应,31,4、窗口长度选择 取不同N,对h(n)求付氏变换知N大带宽窄(3-11),取En低频分量(直流),变换慢,N小En高频多,变化快,得不到平滑的值。长度要合适,1020mS,窗口形状、长度贯穿于全部短时分析,32,5、用途区分清音浊音 En大浊音区分有无声 大信噪比,En很小无声,6、短时平均幅度MnEn的不足运算量大 x2大小x(高低电平)对En影响不同,浊,33,3.4 短时过零分析时域最简单的方法1、平均过零数过零:相邻取样值改变符号过零数:过零次数平均过零数:在单位时间内累计过零数。,反映信号的频率,2、语音信号的短时平均过零数,式中:sgn(x)为符号函数,取值/1 x(

12、m)、x(m-1)是相邻取样值 w(n)为窗口函数,34,3、短时平均过零数的应用清音/浊音判断清音随机噪声,高频,浊音周期信号,低频,清,浊,35,(2)单词分割与有无声确定单词的起止点,对语音识别很重要,实验室得到的语音,36,3.5 短时相关分析信号分析的手段,相关 相似,匹配滤波器3.5.1 短时自相关函数确定信号,周期序列,自相关函数的性质周期Np,R(k)=R(-k),R(0)最大,R(0)为平均功率,短时自相关函数,hk(n)=w(n)w(n+k),hk(n-m),x(n)x(n-k)*hk(n),计算量 设w1(n)=w(-n),m1=m-n=m=m1+n 则:,计算自相关,先

13、乘后加,运算量大!,用来求基音周期!,37,3.5.2 修正的短时自相关函数1、存在的问题,随k的变化,参加运算的项减少。极限k=N-1时无运算项!,2、修正的短时自相关函数 两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk,当w1,w2为直角窗时(0kK),k=250,k=0,38,3.5.3 短时平均幅度差函数问题的提出:自相关计算量大,大在乘法!短时平均幅度差函数(AMDF)定义:,式中R为x(n)的平均值w1、w2同修正的自相关函数中的定义,对于浊音信号,在周期倍数点上,幅值相等,Fn0,39,第三章小结,采样与反混叠短时分析方法、窗口与长度选择短时能量定义短

14、时过零分析短时相关分析与修正短时平均幅度分析(AMDF),40,第四章 语音信号的短时傅立叶分析,4.1 概述傅立叶重要性,时域频域,信号的某些特性短时谱:分帧处理,4.2 短时傅立叶变换 4.2.1 短时傅立叶变换的定义 1、短时傅立叶变换 对于第n帧语音信号,xn(m)=x(m)w(n-m),可见 既是时间n的离散函数,又是角频率的连续函数,41,讨论:,n不变,记y(m)=xn(m),标准的傅立叶变换,(2)不变,记 l=,两者卷积,w(n)系统y(n)信号信号经过线性系统,据此:短时傅立叶变换有两层含义,2、离散的短时傅立叶变换 令=2k/N,在0 k N-1,42,用傅立叶变换解释窗

15、口与长度,4.2.2 标准傅立叶变换的解释n不同,得不同值。n不变,一个一般傅立叶变换,短时功率谱:,海明,直角,分辨率,衰减,共振峰,43,改写短时傅立叶表达式:,由时域特性:,因此,可见,短时谱为信号谱与窗口谱的卷积,受窗影响,(1)窗口形状的选择,若.内为冲激函数,则Xn(.)=X(.)同谱!比较矩形与海明窗主瓣,(2)窗口宽度的选择,f01=1/NT,T为采样周期。N大,f01接近0,W(.)类冲激函数!但N大,短时性差,要综合考虑!,44,P44图4-2与图4-3海明比较,N=500(上)与N=50(下),比较,45,4.2.3 滤波器的解释,与通信原理中的幅度调制比较,46,4.3

16、 短时傅立叶变换的取样率短时谱既是时间n的函数,又是频率 的函数二维即:每个n都有一个X()。为用计算机保存短时谱既要对取样,又要对n取样。,1、时域取样率(对n)固定Xn(.)是w(n)的输出,设w(n)带宽为BHz,则带宽为B,时域取样率 2B(点/秒),B的确定:由 的第一零点01确定,01=2/N N点对应的时间为NTs=N/fs 故模拟角频率01fs B=01fs/2=fs/N 对于直角窗,的时域取样率2B=2fs/N(直角窗),47,2、频域取样率当n固定时,Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图),,3、总取样率n固定时:L=N时域取样率:2B总取样率:

17、SR=2BL,两者关系如下图,对Xn()抽样后,为了时域不重叠,取:T1NTs即LN取等,共N点,T1=NTs,共L点,fs=Lf1,48,4.4 语音信号的短时综合由Xn()恢复x(n)的方法:滤波器组求和法/FFT求和法,1、单一频率k 已知 则:,hk(m),取样率:x(n)10KHzXn()也要10KHz?,否!w(m)为低通,故Xn()带宽远小于X()可降低采样率,综合:网络综合,49,2、L个频率 取样后,有L个频率点,每个频率点有一个yk(n)。根据线性系统的理论,总输出:,可以证明y(n)=x(n),50,4.5 语谱图 一种分析短时谱的仪器,Xn()是时间n,频率的函数,要用

18、三维显示。二维易显,三维?,n,Xn,早期用亮度,现有用图形,为实时,也有仍用亮度,声纹,51,第四章小结与作业,第四章小结 1、短时傅立叶变换定义及两层含义 2、窗口形状、长度对短时谱的影响 3、短时谱的取样率(n,w)4、短时综合 5、语谱图,52,第五章 语音信号的同态滤波及倒谱分析,5.1 概述 从模型看,激励系统,如何从语音信号中取出激励序列、声道冲击响应?,语音信号 激励与声道的卷积 解卷积,算法:“参数解卷”线性预测分析,“非参数解卷”同态滤波(同态信号处理)把求卷积 求和,倒谱分析:同态分析的结果称为倒谱,53,5.2 同态信号处理的基本原理 1、不同信号的处理方法 加性信号

19、线性关系、叠加原理,处理方法成熟,乘性信号 卷积信号 非线性关系,不能用叠加原理,处理困难,2、卷积同态系统,y(n)=Hx(n)=Hx1(n)*Hx2(n),*表示离散时间卷积运算,卷积同态系统模型,任何同态系统可表示为三个子系统的级联,D*,L*,D*-1,*,*,+,+,+,+,特征系统,线性系统,逆特征系统,54,特征系统D*把卷积转换为和,把非线性变为线性,逆特征系统D*1 把和转换为卷积,把线性变为非线性,线性系统L*真正需要的处理算法,可利用信号与系统中所学过的各种处理手段,满足叠加原理,Z,ln,Z-1,*,+,+,+,Z,exp,Z-1,+,*,+,+,55,3、同态滤波的基

20、本原理设有x(n)=x1(n)*x2(n)(1)D*Z-ln-Z-1,(2)D*-1 Z-exp-Z-1,Y1(z),Y2(z),名称?,56,5.3 复倒谱和倒谱 1、概念,是x(n)经特征系统后的值,是时域序列,是信号的频谱取对数的反变换。由于与x(n)的谱间的关系,给他起名:,复倒频谱,Complex Cepstrum Spectrum,2、DFT下的特征系统 DFT运算快,一般用DFT、IDFT代替z变换,(1)D*,(2)D*-1,x(n)的频谱,x(n)的对数频谱,x(n)的复倒谱,57,3、复倒谱的幅度与相位 同傅立叶变换,复倒谱有幅频特性、相频特性,复数计算量大,考虑人的听觉对

21、相位不敏感,为减少运算量,丢掉相位,4、倒谱,若c1(n)、c2(n)是x1(n)、x2(n)的倒谱,且x(n)=x1(n)*x2(n)有c(n)=c1(n)+c2(n),C(n)与x(n)一对多的关系,由c(n)不可还原x(n),因丢相位,58,5.4 语音信号两个卷积分量复倒谱的性质,从模型知,在时域语音为 声门序列*声道序列。用前述方法,分析这两个序列。复倒谱求解方法,声门激励信号,求x(n)的复倒谱,(1)求z变换,(2)取对数,用泰勒级数展开ln(),59,(3)求逆变换,式中,结论:声门激励信号的复倒谱是无限冲激序列,幅度变、周期不变,5.4.2 声道冲激响应序列,模型,实系数,值

22、小于1,零点、极点;园内、园外,60,求对数,展开为泰勒级数再求逆Z变换得:,(n=0),(n 0),(n 0),结论:(1)双边序列(2)衰减序列(3)集中在原点附近,据此,可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门),推导过程见机械工业出版社赵力编的语音信号处理,61,5.5 避免相位卷绕的算法,1、什么是相位卷绕?,对于傅立叶的乘积,取对数后的振幅与相位,和,的值可能大于2,而计算只在02间,即:,主值,称为相位卷绕,2、对复倒谱的影响,计算 时,相位与实际相位差2k,不是实际相位。误!,3、对策,改进算法,避开相位求和!,62,5.5.1 微分法利用傅立叶变

23、换的微分特性与对数微分特性,来避开相位卷绕,由傅立叶变换的微分特性,若,则,由于,同理:,把ln(.)代入上式,可求的nx(n),避开了相位求和!,缺点:nx(n)比x(n)含更多的高频成分,用x(n)的采样率会带来频谱混叠!,63,6.5.2 最小相位信号法设有因果序列x(n),则可分解为奇和偶:,零极在Z平面单位园内,可见:通过xe(n)求x(n),结论:求x(n)变为求xe(n),64,由傅立叶变换的奇偶虚实性知:,65,5.6 语音信号复倒谱分析实例,加窗信号,傅氏幅值,傅氏相位主值,复倒谱,倒谱,声道的倒谱,高通:声门低通:声道,66,声道、声门序列估计 取出倒谱,经逆特征系统得到的

24、y(n),分析得到的声道幅频,分析得到的声道相频,声道冲激响应估值,声门序列估值,清音信号的例子,得共振峰,基音周期,X(n)复倒谱低倒谱窗 声道的复倒谱 逆特征 声道冲激 高倒谱窗 声门的复倒谱 逆特征 声门序列,67,第五章 小结,同态滤波作用,特征、逆特征系统复倒谱与倒谱声门序列、声道序列的复倒谱分析相位卷绕与避免方法,68,第六章 语音信号的线性预测分析,6.1 概述67年用于语音信号处理。核心技术/用于各方面/真正实用 能精确地估计语音参数,效率高,预测参数:LPC、PARCOR参数、LSP参数,基本概念:用过去的一组值估计(预测)新值,6.2 线性预测分析的基本原理 6.2.1 基

25、本原理,全极点模型,原因P70,设输出的语音信号为s(n)激励信号为u(n),则,过去P个值的加权求和预测,语音特征:Np、G、ai,这些系数如何求?,69,6.2.2 线性预测 怎样求ai?方法多样。其中一种:,若,则称c(n)为误差。,在最小均方误差准则下,可确定一组系数ai,称为线性预测系数(LPC)(Linear Predictive Coefficients),6.3 线性预测方程组的建立,1、线性预测系数求解,预测值,预测误差,显然,A(z)称为“逆滤波器”或“预测误差滤波器”,e(n)是随机序列,均方误差表示为集平均?时间平均?,令,求出一组系数ai,均方误差,70,2 线性预测

26、方程,按前述方法,对误差求偏倒数,并令其为0,可得方程组,线性预测的标准方程组,s,若定义,则方程式为,71,3 线性预测增益最小预测误差e(n)=s(n)s(n)。,可见e(n)=Gu(n),式中,u(n)为声门激励序列,方差/短时为常数,可见,声道的线性预测增益,6.4 线性预测分析的解法(一)自相关法、协方差法,有了线性方程组,如何求解?方法很多,介绍几种,自相关法是利用短时自相关函数,改写、求解方程,1、改写方程式,序列信号s(n)加窗后记为sn(k),其短时自相关函数为,72,改写方程式,写成矩阵形式,Toeplitz矩阵,线性预测方程,73,2 求解该矩阵的一种常用递推算法 Lev

27、inson-Durbin,递推步骤:,1、i0,E0=Rn(0),a1(0)=1,递推次数,2、i从1到p计算:,(2)ai(i)=ki,递推0次时的a值,(3)j从1到i-1计算,aj(i)=aj(i-1)kiai-j(i-1),(4)Ei=(1-ki2)Ei-1,3、aj=aj(p),(1),以一个二阶预测器为例,求aj,第一步、求Rn(0),Rn(1),Rn(2)得方程,第二步、按左示步骤递推,1、i=0,a1(0)=1,E0=Rn(0),a1(0),3、a1=a1(2),a2=a2(2),74,3 反射系数ki与算法稳定性 出现一个重要参数ki,称为反射系数或偏相关(PARCOR)系数

28、,算法稳定条件,精度:用Rn()代替R(),有误差,故精度不高。,6.5 线性预测分析的解法(二)格型法,直接从语音样点中得到预测系数,6.5.1 格型法基本原理,1、正向预测和反向预测的概念,Levinson-Durbin算法中,得预测系数aj(i),对应A(z)记为,75,误差:为正向预测误差,反向预测误差:,可以导出,这里的ki就是自相关法中的系数,通过i=3可看出,比较式1、式2知a3(3)=k3,a2(3)=a2(2)-k3a1(2),Levinson-Durbin,76,2 格型滤波器,根据前面得到的递推公式,画出格型分析滤波器的结构,合成,声管1,声管2,ki反射系数,77,6.

29、5.2 格型法的求解,从递推公式看,关键是如何求ki?有正向、反向、几何平均、协方差格型法、伯格(Burg)法,定义三个均方误差:,正向,交叉,反向,正向格型法:准则使第i节正向误差最小的ki,导出,F表示正向,78,6.6 线性预测分析与应用 LPC谱估计和LPC复倒谱,谱估计 估计语音信号的能量谱或功率谱。LPC的一种应用,6.6.1 LPC谱估计,1、声道特性H(ej),由LPC分析知,求得ai=A(z)=H(z),把z=ej代入得,同ai一样,具有短时性,2、语音信号谱S(ej),由模型,冲激作用于系统,故S具有H包络,3、|S(ej)|2与|H(ej)|2的比较,可以用LPC分析得到

30、得H,近似表示S 估计,79,4、p与N的选择p大,|H(ej)|精确匹配于|S(ej)|,但计算量大!,选择原则:保证有足够的极点来模拟声道响应的谐振结构,经验公式:p=fs/1000+2或3 一般10kHz取样时,p取1214,N:参加运算的样点数,一般N取23个基音周期,6.6.2 LPC复倒谱,用LPC系数表示的语音模型中线性系统冲激响应的复倒谱,设系统的冲激响应h(n),则:,求h(n)的复倒谱:,两边对z-1求偏导数,比较等式两边对应项,得:,称为LPC复倒谱,80,6.5.3 LPC谱估计和其他谱分析方法的比较 1、三种短时谱估计方法,(1)LPC系数=H(z)=H(e j)=当

31、p无穷大,近似为S(e j),(3)FFT复倒谱 用倒谱法,求出声道特性,估计出S(e j),2、结果比较,81,6.7 线谱对(LSP)分析(Line Spectrum Pair),LPC分析:用s(n)的时域表示,求解H(z)。应用这种参数,可 构造2.4kbps的声码器。为构造更低码率,有人从另一个角度求解H(z)LSP分析(也是线性预测的一种),已知,由L-D算法,0,1,两边同乘,得,82,定义kp+1=-1时的A(p+1)(z)为P(z),kp+1=1时的A(p+1)(z)为Q(z),则有:,去掉右上角的(p):,有人证明:当p为偶数A(z)的零点在z平面单位圆内时,P(z)、Q(

32、z)的零点都在单位圆上,且交替出现。,进一步把P(z)Q(z)进行因式分解,83,ii是频域参数,称为“Spectrum”;成对出现,称为“Pair”;P(z)Q(z)由LPC分析导出,称为“Line”,求解方法:代数方程求根(牛顿迭代)、DFT法,说明:1、LSP参数是LPC系数的频域表示,是LPC分析一种 2、LSP用p个离散频率ii表示|H(ej)|2 3、一对LSP参数表示一个谐振点,因此一对参数的误 差只影响该对点附近的语音特性;可根据听觉特性 分配量化比特数 4、应用在低编码速率,极零模型全极模型不能表示时解法:同态预测法 极零-全极-LPC,84,第六章小结,LPC分析 目标、原

33、理、误差、方程自相关求解 Levison-Durbin递推算法格型法 正(反)向误差、准则LPC复倒谱谱估计了解LSP分析,85,第九章 语音检测分析,检测语音特征 基音、共振峰9.1 基音检测 重要性:十分重要,基音携带具有辨意作用的信息 困难性:1、声门激励不是完全周期的 2、清音与低电平的浊音难区分 3、声道共振峰的谐波在基音范围 4、每个周期的开始与结束的判断 5、背景噪声的影响 6、基音频率范围大,提取方法:,86,9.1.1 自相关法,问题:噪声、声道的共振特性,使得语音信号在求自相关函数时 出现假峰值,解决方法:中心削波法,y(n)=cx(n),y(n)求其自相关,87,问题与改

34、进 由于大于门限CL保留原数值,计算时要乘以削波系数,计算复杂,修正:,自相关函数:,选直角窗:,y()只有+1、-1、0三种取值,不必作乘法!,88,9.1.2 并行处理法,时域法,比较成功,少数服从多数,m1(n)取峰值m2(n)峰值减前一谷值m3(n)峰值减前一峰值m4(n)取谷值m5(n)谷值减前一峰值m6(n)谷值减前一谷值,89,9.1.3 倒谱法(CEP)语音信号倒谱分析,从倒谱中用高倒谱滤波,取出声门序列的倒谱得周期,窗的选择(两周),峰值位置,清浊判断清:不输出浊:基 音,受噪声干扰,易误判。一种改进用预测误差Gu(n)代替语音!,声门脉冲,90,9.1.4 简化逆滤波法(S

35、IFT),是自相关法,只是用Gu(n)代替语音信号s(n)。由于去除了声道干扰,效果更佳!,由于5:1抽取,自相关的计算量降低。,结果比较(以男声a为例),91,9.1.5 基音检测的后处理,基音检测每帧都要作。若有异常数据,称为“野点”,得滤除方法是,对得到的基音值进行处理,去除干扰1、中值平滑处理 前后各取L点(共2L+1),从大到小排序,取中点 保留了跳变,但可能未滤除噪声2、线性平滑处理 加权平均。例前后各一点记为x-1、x0、x1,权值0.25,0.5,0.25 则当前值x=0.25*(x-1+x1)+0.5*x0 滤除了噪声,但模糊了跳变3、组合平滑处理 1、2的组合,先中值后线性

36、 多种组合,满足要求,92,9.2 共振峰估值,重要性:声道特性困难性:1、虚假共振峰(声门)2、共振峰合并(太近)3、高基音语音(影响谱估计),9.2.1 带通滤波器法,如何选,93,9.2.2 DFT,对语音信号进行DFT分析,从中提出共振峰浊音时:误差大(声门),清音时:较准确,9.2.3 倒谱法 原理:可分离声门声道序列(“语音信号两个序列的复倒谱”)框图:,效果:清浊不同,浊音较好,缺点:运算量大对假峰无法区分 峰合并无法分,9.2.4 LPC法 LPC分析,误差=声门/ai=声道特性。共振峰即H(z)的极点;解法 1、求A(z)的根(解多项式)2、LPC谱估计(在峰值处匹配得好),

37、94,第九章 小结,基音检测自相关法/改进自相关并行处理倒谱法简化逆滤波法共振峰估值带通滤波DFT倒谱法LPC法检测的后处理,95,第十章 语音编码(一)波形编码,10.1 概述,需求:通信目的:可接收的失真条件下,采用尽可能少的比特数表示语音 编码就是压缩!综合考虑:可懂度、数码率、计算量应用:传输 移动电话、保密通信等。低比特率的优势:窄带、小功率(信道容量)、大容量 存储 数字录音、电子字典等。要求实时、语音质量进展:起步早,有很多标准,热点是更低比特率分类:波形编码:尽可能保持波形不变(不仅语音),一般1664Kps 参数编码:提取语音特征,对特载编码、传输、重构合成 又称“声码器技术

38、”。不要求波形评价:客观标准:SNR(对声码器无效)主观标准:听后打分。MOS(平均意见得分),DRT(可懂度评价),DAM(判断满意度)。,96,10.2 语音信号的压缩编码原理,10.2.1 语音压缩的基本原理 1、压缩依据 客观冗余 信号本身特征(4)(1)语音信号样本间的相关性很强(8kHz时两点相关0.85)(2)浊音段的准周期性(一个周期的参数,多处用)(3)声道的形状及其变化比较慢(4)取值的概率分布是非均匀的(5)静止系数(语音间隔)主观冗余人的听觉特性 听觉掩蔽特性 听不到或不灵敏的语音分量视为冗余 2、极限码速 按信息论,可计算语音的平均信息量 人们认为,语音中基本元素为音

39、素,大约不到256个,等概时,按10音素/秒,I=log2(256)10=80(bit/秒),97,10.2.2 语音通信中的语音质量,一般分为:CD质量 FM广播质量 AM广播质量 长途电话质量 通信质量 合成质量 质量高,采样率高,比特率高10.2.3 两种压缩编码方式的优缺点 波形编码:任何声音,音质好,但比特率高。评价:SNR 参数编码:只对语音,音质较差,算法复杂,比特率低。评价:主观评价。10.3 PCM及其自适应(通信原理中讨论过,均匀/非均匀量化,APCM等),98,10.4 预测编码及其自适应,10.4.1 预测编码及自适应预测编码(APC)原理 1、原理 据LPC,预测误差

40、 e(n)=s(n)-s(n)动态范围和平均能量远远小于s(n),同时发送e(n)与预测系数,可得低码率语音编码,称为“预测编码”若预测系数固定不变,为DPCM。若预测系数随语音而变,称为自适应预测编码(APC)。,2、自适应能改善信噪比 量化噪声:,能量,预测增益,量化器定的信噪比,Es,Eq,Ee是信号、量化噪声、预测误差的平均能量!,99,10.4.2 短时预测与长时预测,10.4.3 噪声整形 利用人的听觉掩蔽效应,对噪声的感觉还取决于噪声的谱包络,将量化噪声谱整形,使人不易察觉。称为“噪声整形”,“感知加权”,实现:让噪声和信号谱包络相近,100,10.6 子带编码(SBC),也称频

41、带分割编码,属于频域编码子带 平移为低通 低采样率 编码1、听觉特性与SBC 听觉:不同频率敏感度不同!一般1KHz左右 SBC:对不同频段的语音区别对待 敏感频段分配多bit,以减少量化误差 不敏感频段分配少bit,误差大点但感觉不到,以压缩码率2、原理,101,3、“整数带”取样法,选择带宽和采样频率,避开频率搬移选择滤波器的下截止频率为带宽的整数倍设带宽为Wk,则下截止频率flk n Wk,如图,以2Wk采样,Lk:1抽取(Lk=W/Wk),带通滤波器:过渡特性影响 采用VSB类似的方法,这 种滤波器称为QMF(正交镜像)以2子带为例,一般要128256阶FIR 而QMF只要1632阶,

42、两种基于SBC的编码标准:1、AT&T的SBC QMF+APCM 4kHz分为5个子带 比特数分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的G722 QMF+ADPCM 7khz分为2个子带 总码率64kbps 低频带48kbps 高频带16kbps,102,10.7 自适应变换编码(ATC),变换编码高质量语音压缩编码,有较高的压缩效率,1、原理 时域-正交变换-变换域-系数量化编码-传输-反变换-时域,一般地:一帧语音信号s(n),0nN-1,构成一矢量 X=s(0),s(1),s(N-1)T,正交变换矩阵A 则 Y AX,对Y量化后得Y1 若 A

43、满足A-1 AT,则X1ATY1 X,ATC的任务:设计最佳量化器量化Y,使X1与X的误差最小!,2、常用正交变换 DFT、WALSH、DCT、K-L、Wavelet,103,第十章 小结,语音编码方案、评价自适应预测编码子带编码、整数带取样、QMF自适应变换编码感知加权(Perceptually Weighted Filter),104,第11章 语音编码(二)声码器技术与混合编码,11.1 概述 1、参数编码 又称声码器(Vocoder),提取语音参数,传输、存储 是一种分析合成模式。基础:模型,只对语音有效 从听觉效果出发,不在意波形,2、优点低码率:由短时性,参数变换率约25Hz,采样

44、50Hz,参数 1020个,以25bit量化,码率为15kbit/s,3、常用声码器 通道声码器、共振峰声码器、LPC声码器4、混合编码 结合波形、参数编码而设计的较优编码方案 常用:多脉冲码激励线性预测编码 MPLPC 码激励线性预测编码(CELP)G729,105,11.2 声码器的基本结构,声码器包括分析与合成两部分,按分析形式分为多种类型,分 析,合 成,信道,声码器的局限:1、阶数有限,谱精度有限 2、准周期 周期,合成中有人为特性 3、简单的清浊音划分 4、参数更新速率不适合爆破音等 5、背景噪声被分析后,在合成端性质变换,106,11.3 相位声码器和通道声码器,基于短时傅立叶变

45、换,怎样求与传Xn(.),11.3.1 相位声码器,相位导数,对 和 进行编码、传输,称为相位声码器,107,11.3.2 通道声码器,早期声码器为易实现,分析时提取短时谱的幅度,不传相位。(类似共振峰)从模型看,还要激励,按听觉非均匀 取幅值 低取样,缺点:准确基音估计困难-误差,传输值为|Xn|的一个值 通道串扰加大,落入某通道的串扰,实验证明:音质较差但可懂度好抗背景干扰强!,108,11.4 同态声码器,11.4.1 基于倒谱的分析与合成,11.4.2 同态声码器,据报道:20mS计算一次倒谱(每秒50次),共用26个倒谱值,每个值用6bit量化,可产生高质量的语音 改进:c(n)差分

46、值、不同长度的时窗,高时窗不便量化改为传基音周期等,109,11.5 线性预测声码器,最成功、最广泛,可压缩2030倍原理:LPC分析,波形编码中,编码端LPC产生预测误差e(n)【APC】参数编码中,传预测系数,用模型产生语音【LPC声码器】,110,11.5.1 LPC参数的变换和量化,因ai决定H(z)的极点,H(z)对ai的量化误差敏感,不易直接传ai实用的系统中都须变换后传输。介绍三种方法。,方法1、反射系数 研究表明,ki的取值概率分布不同。k1接近-1,k2接近+1 k3,k4,是均值为零的高斯分布。谱灵敏度:|ki|越接近1,对谱的影响越大!可采用非均匀量化,以降低码率。一般k

47、1,k2用56bits,渐少,方法3、预测多项式的根 求A(z)的根再量化。,111,11.5.2 变帧率LPC声码器,根据语音信号的相关性,前后两帧间可能很相近。变帧率:后帧与前帧比较,有较大差异才传输,降低码率,用欧氏距离,LPC-10编码器,1981年作为美国国家标准。2.4kbps,较简单,抗噪与自然度较差,V/UV00稳定的清音01清向浊转换10浊向清转换11稳定的浊音,112,LPC-10比特分配,(Gray),44.4帧/秒*54bits/帧 2.4kbps,113,LPC-10接收端译码,问题:损失语音的自然度、坚韧性(Robustness)差原因:二元激励。(问题简单化了)改

48、进:混合激励(多元)、混合编码,声门脉冲,114,11.6 混合编码,据前,编码效果由于二元激励,解决之道改激励,混合编码:分析时也合成,检验用何种激励合成效果最佳 一般模型,不再是基音清浊,115,11.6.1 Multi-Pulse LPC(MPLPC),每个短时期,用7/8个脉冲(位置.幅度变)为激励。以便达到误差最小!,流程:(如何确定脉冲位置与幅度)1、加一个脉冲,调整并记下位置、幅度,使|e(n)|最小 2、再加一个脉冲,同1 3、重复2,直到|e(n)|达到设定最小值或脉冲数达到设定个数,编码结果:声道 脉冲位置、幅度,关键点:如何找位置和幅度?“最大互相关函数搜索法”,116,

49、11.7.1 波形编码的信号压缩技术,11.7.2 波形编码和声码器的比较,11.7.3 各种声码器的比较,11.7 各种语音编码方法的比较,设第i个脉冲幅度为gi,位置mi,语音s(n),合成滤波器h(n)K个脉冲合成的信号与原始语音信号的误差为Ek,对gi、mi求偏导,令为0,得方程组,求得gk、mk,压缩依据,117,第11章小结,1、声码器的基本结构2、LPC参数的变换和量化3、LPC声码器4、MPLPC,118,第七章 语音信号的矢量量化,7.1 概述 1、矢量与矢量量化(Vector Quantization)多个数组合在一起,构成一个矢量X=x(1),x(2),x(m),m维空间

50、 矢量量化:输入一组数,在集合中找相近的矢量 有效地应用了矢量中各分量间的各种相互关联的性质 2、率-失真理论 在给定速率R条件下能达到的最小失真 指出:矢量量化随矢量维数增多性能更优 3、应用 在编码、识别方面 编码已有用矢量量化得到150bps的报告 4、关键 矢量集合(码本)的产生如何训练?量化器设计,119,7.2 矢量量化的基本原理,1、标量量化 以均匀量化为例,输入连续值,输出离散值 量化台阶,输出10,2、矢量量化 设K个取样点,得k个值构成K维空间一个矢量 台阶:将K维空间划分为M个区域,每个区域有个代表值Yi 称为量化矢量 矢量量化:对输入矢量按一定规则与Yi比较 找到输入矢

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号