《多媒体技术基础第3讲话音编码课件.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础第3讲话音编码课件.ppt(65页珍藏版)》请在三一办公上搜索。
1、多媒体技术基础(第3版)第3讲话音编码,2010年3月,随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量。除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。本章将重点介绍话音编码的基本思想,2023年3月30日,第3章 数字声音编码,2 of 46,2023年3月30日,第3章 数字声音编码,3 of 46,第3讲 目录,3.1 话音类型3.1.1 话音波形的特性3.1.2 话音类型3.2 话音编译码器3.2.1 波形编译码器3.2.2 音源编译码器3.2.3 混合编译码器3.4 脉冲编码调制(PCM)3.4.1 PCM的概念3.4.2 均匀量
2、化3.4.3 非均匀量化3.5 PCM在通信中的应用3.5.1 频分多路复用3.5.2 时分多路复用3.5.3 数字通信线路的数据传输率3.6 增量调制与自适应增量调制3.6.1 增量调制(DM)3.6.2 自适应增量调制(ADM),3.1 话音类型,话音波形的特性话音的产生:肺部中的受压空气沿着声道通过声门发出。短期相关(short-term correlation):普通人的声道从声门到嘴的平均长度约为17厘米,反映在声音信号中就相当于在1ms数量级内的数据具有相关性(声速约为340m/s)。声道也被认为是一个滤波器,有许多共振峰,其频率受随时间变化的声道形状所控制,例如舌的移动就会改变声
3、道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在20ms左右。,2023年3月30日,第3讲 话音编码,4 of 46,3.1 话音类型,话音类型浊音,清音和爆破音。根据压缩空气通过声门对声道滤波器的激励方式区分。按发音方法为:爆破音:/p/b/t/d/k/g/鼻音:/m/n/摩擦音:/f/v/d/t/s/z/f/v/r/h/w/j/破擦音:/tF/dV/ts/dz/tr/dr/舌侧音:/l/按声带震动与否为:清音:/p/t/k/f/W/h/s/F/tF/浊音:/b/d/g/
4、m/n/N/v/T/z/V/dV/r/w/j/l/,2023年3月30日,第3讲 话音编码,5 of 46,3.1 话音类型,1.浊音(voiced sounds)浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小(音节是听觉能感受到的最自然的语音单位,一个汉字就是一个音节),它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在220ms之间,这个周期性称为长期周期性(long-term periodic
5、ity)。,2023年3月30日,第3讲 话音编码,6 of 46,3.1 话音类型,2023年3月30日,第3讲 话音编码,7 of 46,图3-02 浊音段的功率谱密度(power spectral density,PSD),3.1 话音类型,清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。,2023年3月30日,第3讲 话音编码,图3-03 清音段的波形举例,图3-04 清音段的功率谱密度举例,3.1 话音类型,爆破音(plosive sounds)爆破音是在声道关闭之后产生压缩空气然后突然打开声道所发出的音。某些音不能归属到上述三种音中的任
6、何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。声道的形状和激励方式的变化相对比较慢,话音在短时间周期(1030ms)里可以被认为是准定态(quasi-stationary)的短时平稳随机过程。话音信号具有高度周期性,这是由于声门的准周期性的振动和声道的谐振引起的。话音编码器就是企图揭示这种周期性,减少数据率又尽可能不牺牲声音的质量。,2023年3月30日,第3讲 话音编码,9 of 46,3.2 话音编译码器,三种话音编译码器 波形编译码器:话音质量高,数据率高 音源编译码器:数据率很低,合成话音音质有待提高 混合编译码器:使用音源编译码技术和波形编译码技术,
7、数据率和音质介于之间,2023年3月30日,第3讲 话音编码,10 of 46,图3-05 普通编译码器的音质与数据率,3.2 话音编译码器,2023年3月30日,第3讲 话音编码,11 of 46,3.2 话音编译码器,音源编译码器音源编译码的思想:从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。声码器(vocoder):针对话音的音源编译码器。在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声(无声话音段)激励,或者由脉冲串(有声话音段)激励。需要传送给解码器的信息就是滤波器的规格、发声或者
8、不发声的标志和有声话音的音节周期,并且每隔1020ms更新一次。声码器的模型参数既可使用时域的方法也可以使用频域的方法确定,这项任务由编码器完成。,2023年3月30日,第3讲 话音编码,12 of 46,3.2 话音编译码器,这种声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。,2023年3月30日,第3讲 话音编码,13 of 46,3.2 话音编译码器,混合编译码混合编译码的思想:企图填补波形编译码和音源编译码
9、之间的间隔。波形编译码器虽然可提供高质量的话音,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题;声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论。,2023年3月30日,第3讲 话音编码,14 of 46,2023年3月30日,第3章 数字声音编码,15 of 46,3.4 脉冲编码调制(PCM),脉冲编码调制(PCM)的概念 PCM是pulse code modulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统,图3-3 PCM编码原理框图,2023年3月30日,第3章 数字声音编码,16 of
10、 46,3.4 脉冲编码调制(续1),在图3-3中输入是模拟信号,输出是PCM样本。防失真滤波器:低通滤波器,用来滤除声音频带以外的信号波形编码器:可理解为采样器量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器PCM实际上是模拟信号数字化 模拟声音数字化的两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度第二步是量化,就是把采样得到的声音信号幅度转换成数字值,2023年3月30日,第3章 数字声音编码,17 of 46,3.4 脉冲编码调制(续2),量化的方法主要有均匀量化和非均匀量化均匀量化采用相等的量化间隔/等分尺度量采样得到的信号幅度,也称为
11、线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声,图3-4 均匀量化,2023年3月30日,第3章 数字声音编码,3.4 脉冲编码调制(续3),非均匀量化大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时,采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系律压扩算法A律压扩算法注:压扩(companding),图3-5 非均匀量化,3.4 脉冲编码调制,2023年3月30日,第3讲 话音编码,19 of 46,3.4 脉冲编码调制,A律压扩A律(A-Law)压扩(G.711)主要用在欧洲和中
12、国大陆等地区的数字电话通信中,按下式确定量化输入和输出的关系:0|x|1/A 1/A|x|1x为输入信号幅度,规格化成-1x1;sgn(x)为x的极性。A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。,2023年3月30日,第3讲 话音编码,20 of 46,3.5 PCM在通信中的应用,PCM编码早期主要用于话音通信中的多路复用。一般来说,在电信网中传输媒体线路费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题,2023年3月30日,第3讲 话音编码,21 of 46,3.5 PCM在通信中的应用,2023年3月30日,第3讲 话音编码,22 of
13、 46,2023年3月30日,第3章 数字声音编码,23 of 46,3.5 PCM在通信中的应用,2023年3月30日,第3章 数字声音编码,24 of 46,3.5 PCM在通信中的应用(续1),图3-6 24路PCM的帧结构,2023年3月30日,第3章 数字声音编码,25 of 46,3.5 PCM在通信中的应用(续2),2023年3月30日,第3章 数字声音编码,26 of 46,3.5 PCM在通信中的应用(续3),2023年3月30日,第3章 数字声音编码,27 of 46,3.5 PCM在通信中的应用(续4),时分多路复用示意图,图3-7 二次复用示意图,2023年3月30日,
14、第3章 数字声音编码,3.5 PCM在通信中的应用(续5),T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率,注:在ITU的文件中,数据率用kb/s和Mb/s做单位,因此该表没有用kbps和Mbps做单位,2023年3月30日,第3章 数字声音编码,29 of 46,3.6 增量调制与自适应增量调制,增量调制也称调制(delta modulation,DM),是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反由于DM编码只须用1位对话音信号进行编码,所以D
15、M编码系统又称为“1位系统”比较:PCM是对每个采样信号的整个幅度进行量化编码,?,3.6 增量调制与自适应增量调制,采样点i0处,输入信号y0=0,预测值y0=0,编码输出x0=1。采样点i=1处,预测值y1=,实际输入信号大于预测值,x1=1采样点i=4处,预测值y4=4,实际输入信号大于预测值,x4=1,2023年3月30日,第3讲 话音编码,30 of 46,2023年3月30日,第3章 数字声音编码,31 of 46,3.6 增量调制与自适应增量调制(续),2023年3月30日,第3章 数字声音编码,32 of 46,3.7 自适应差分脉冲编码调制,APCM的概念APCM是什么ada
16、ptive pulse code modulation的缩写,自适应脉冲编码调制根据输入信号幅度大小来改变量化阶大小的一种波形编码技术自适应瞬时自适应,即量化阶的大小每隔几个样本就改变音节自适应,即量化阶的大小在较长时间里发生变化,2023年3月30日,第3章 数字声音编码,33 of 46,3.7 自适应差分脉冲编码调制(续1),改变量化阶大小的方法(1)前向自适应(forward adaptation):根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端前向自适应APCM的基本概念如图3-9
17、(a)所示,(a)前向自适应图3-9 APCM方块图,2023年3月30日,第3章 数字声音编码,34 of 46,3.7 自适应差分脉冲编码调制(续2),改变量化阶大小的方法(2)后向自适应(backward adaptation):从量化器刚输出的过去样本中提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。后向自适应APCM的基本概念如图3-9(b)所示,(b)后向自适应图3-9 APCM方块图,2023年3月30日,第3章 数字声音编码,35 of 46,3.7 自适应差分脉冲编码调制(续3),DPCM的概念DPCM是什么DPCM中文术语为差分脉冲编码调制
18、differential pulse code modulation的缩写利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术基本思想:根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。可适应大范围变化的输入信号,2023年3月30日,第3章 数字声音编码,36 of 46,3.7 自适应差分脉冲编码调制(续4
19、),DPCM原理差分信号d(k):离散输入信号s(k)和预测器输出的估算值se(k-1)之差对d(k)进行量化编码,得到,图3-10 DPCM方块图,2023年3月30日,第3章 数字声音编码,37 of 46,3.7 自适应差分脉冲编码调制(续5),ADPCM的概念ADPCM的中文术语为自适应差分脉冲编码调制adaptive difference pulse code modulation的缩写综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码技术它的核心想法是:利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶
20、去编码大的差值使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小,2023年3月30日,第3章 数字声音编码,3.7 自适应差分脉冲编码调制(续6),ADPCM编码框图如图3-11所示 接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值,图3-11 ADPCM方块图,2023年3月30日,第3章 数字声音编码,39 of 46,2023年3月30日,第3章 数字声音编码,40 of 46,子带编码(sub-band coding,SBC)用一组带通滤波器(band-pass filte
21、r,BPF)把输入声音信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的声音信号采用单独的编码方案去编码在信道上传送时,将每个子带的代码复合在一起;在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的声音信号好处有两个可对每个子带信号分别进行自适应控制,量化阶的大小可按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。,2023年3月30日,第3章 数字声音编码,41 of 46,例如,在低频子带中,为了保护音调就要求用较小的量化阶、较多
22、的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数SBC的方块图如图3-13所示,图中的编码/译码器可以采用ADPCM,APCM或PCM,图3-13 子带编码方块图,2023年3月30日,第3章 数字声音编码,42 of 46,2023年3月30日,第3章 数字声音编码,43 of 46,SB-ADPCM编译码器方框图,图3-17 7 kHz声音信号64 kb/s数据率的编译码方块图,2023年3月30日,第3章 数字声音编码,44 of 46,3.9 线性预测编码(LPC)的概念,线性预测编码(linear predictiv
23、e coding,LPC)话音压缩技术。将话音生成机理模型化为一个离散的、时变的、线性的递归滤波器编码时使用线性预测分析话音波形产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就可减少声音的数据量译码时使用线性预测分析得到的参数,通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型时变线性滤波器分析话音波形时,当作预测器使用合成话音波形时,当作生成模型使用,2023年3月30日,第3章 数字声音编码,45 of 46,3.9 线性预测编码(LPC)的概念(续1),2023年3月30日,第3章 数字声音编码,46 o
24、f 46,3.9 线性预测编码(LPC)的概念(续2),预测值用过去P个样本值的线性组合表示为,为方便起见,式中采用了负号 残差误差即线性预测误差为一个线性差分方程,,在给定的时间范围里,如n0,n1,使e(n)的平方和即,为最小,这样可使预测得到的样本值更精确。,2023年3月30日,第3章 数字声音编码,47 of 46,3.9 线性预测编码(LPC)的概念(续3),预测系数通过求解偏微分方程,可找到系数ai的值如果把发音器官等效成滤波器,这些系数ai可以理解成滤波器的系数在接收端重构的话音不再具体复现真实话音的波形,而是合成的声音,2023年3月30日,第3章 数字声音编码,3.10 G
25、SM编译码器简介,GSM编译码器简介 GSM是Global System for Mobile communications的缩写,可译成全球数字移动通信系统GSM算法是1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。除了ADPCM算法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做GSM算法,使用这种算法的编码器称为GSM编码器,2023年3月30日,第3章 数字声音编码,49 of 46,3.10 GSM编译码器简介(续),2023年3月30日,第3章 数字声音编码,50
26、of 46,3.11 话音编码标准摘要,编码算法的性能,表3-5 部分编码器的MOS分,2023年3月30日,第3章 数字声音编码,51 of 46,第3章 数字声音编码参考文献,2023年3月30日,第3章 数字声音编码,52 of 46,第3章 数字声音编码参考文献(续),END,第3讲 话音编码,饭卡打开巴士风格反对广泛的,的非官是大苏打 发的发非官方共和国符合国家和国际撒的方大哥 给飞得更高是个搜狗是归属感是搞后呵呵敢死队敢死队敢死队好地方 个地方豆腐花 哈哈动画的发挥和家具风格就 国防军广泛几个房间房管局房管局法国加工费交付给交付给交付给警方根据高房价法国警方交付给,地方官梵蒂冈地方
27、官方的说法暗室逢灯啊,的非官是大苏打 发发射机的骄傲给大家仨个地方大师傅艰苦绝对是九回复肯定是解放后肯定是国防部换个风格大富大贵士大夫但是发交付给,地方大师傅大大规划风格化地方士大夫,时的感到十分的官方电话奖和国家的骄傲还是看见好看的顺丰单号健康博客程序客户贷款空间很大防空识别的看不舒服的看不到看见对方看世界杯的咖啡酒吧的设备发的空降兵反抗波斯的反抗波斯的包括舍不得放开白色的反馈博客大巴是否看不上大夫开博客大巴发,发的高科技恢复的很快就北方港口宾馆饭店,免费感受到覅好的伤口缝合第三部分难道是扩大解放和开始变得反抗集散地和反抗精神美女部门你先吃吧每年从小便考多少分可接受的反抗集散地和付款计划的司
28、法环境快递费还是给客服电话给客服电话高考加分梵蒂冈回复后可见风华高科点击返回高科技,辅导功课变得疯狂进攻的伤口缝合可视电话的生命发表的,但是发布的科级干部科技发达韩国可接受的和都是方面你身边的负面报道随便翻开基本上都李开复倒过来看发动了攻击附加山东南面分别明尼苏达白发魔女十点半分工合理分担和管理费的后果都是免费表面蛋白和风格和规范,我却哦网球饿哦我去哦欸开始的方便快捷,反对蒙蔽动漫被父母电脑设备方面你的身边每年颁发的身份决定胜负看得十分愧疚和第三方没办法每个部门的妇女不敢面对疯牛病而微软微软微软为法国空军东方科技很发达客户给开发经费的士大夫大师傅似的犯得上广泛的和广泛化工艰苦户籍科户籍科,饭卡
29、打开巴士风格反对广泛的,的非官是大苏打 发的发非官方共和国符合国家和国际撒的方大哥 给飞得更高是个搜狗是归属感是搞后呵呵敢死队敢死队敢死队好地方 个地方豆腐花 哈哈动画的发挥和家具风格就 国防军广泛几个房间房管局房管局法国加工费交付给交付给交付给警方根据高房价法国警方交付给,地方官梵蒂冈地方官方的说法暗室逢灯啊,的非官是大苏打 发发射机的骄傲给大家仨个地方大师傅艰苦绝对是九回复肯定是解放后肯定是国防部换个风格大富大贵士大夫但是发交付给,地方大师傅大大规划风格化地方士大夫,时的感到十分的官方电话奖和国家的骄傲还是看见好看的顺丰单号健康博客程序客户贷款空间很大防空识别的看不舒服的看不到看见对方看世
30、界杯的咖啡酒吧的设备发的空降兵反抗波斯的反抗波斯的包括舍不得放开白色的反馈博客大巴是否看不上大夫开博客大巴发,发的高科技恢复的很快就北方港口宾馆饭店,免费感受到覅好的伤口缝合第三部分难道是扩大解放和开始变得反抗集散地和反抗精神美女部门你先吃吧每年从小便考多少分可接受的反抗集散地和付款计划的司法环境快递费还是给客服电话给客服电话高考加分梵蒂冈回复后可见风华高科点击返回高科技,辅导功课变得疯狂进攻的伤口缝合可视电话的生命发表的,但是发布的科级干部科技发达韩国可接受的和都是方面你身边的负面报道随便翻开基本上都李开复倒过来看发动了攻击附加山东南面分别明尼苏达白发魔女十点半分工合理分担和管理费的后果都是免费表面蛋白和风格和规范,我却哦网球饿哦我去哦欸开始的方便快捷,反对蒙蔽动漫被父母电脑设备方面你的身边每年颁发的身份决定胜负看得十分愧疚和第三方没办法每个部门的妇女不敢面对疯牛病而微软微软微软为法国空军东方科技很发达客户给开发经费的士大夫大师傅似的犯得上广泛的和广泛化工艰苦户籍科户籍科,