数字音频压缩及标准解读课件.ppt

资源描述

《数字音频压缩及标准解读课件.ppt》由会员分享，可在线阅读，更多相关《数字音频压缩及标准解读课件.ppt（130页珍藏版）》请在三一办公上搜索。

1、2010年秋,北京信息科技大学,第3章音频压缩编解码,2010年秋,北京信息科技大学,学习目标,了解音频压缩的可行性掌握波形编码、参数编码和混合编码的基本知识熟悉MPEG音频标准全面掌握音频压缩编解码技术。,2010年秋,北京信息科技大学,3.1 音频压缩概述,3.1.1 音频压缩的可行性根据统计分析结果，音频信号中存在着多种冗余，其主要部分可分别从时域和频域来考虑。由于音频主要是给人听的，所以考虑人的听觉机理，也能对音频信号实行压缩。,2010年秋,北京信息科技大学,1时域冗余,幅度分布的非均匀性样值间的相关性周期之间的相关性基音之间的相关性静止系数长时自相关函数,2010年秋,北京信息科

2、技大学,2频域冗余,长时功率谱密度的非均匀性。语音特有的短时功率谱密度。,2010年秋,北京信息科技大学,3听觉冗余,掩蔽效应对不同频段的敏感性对音频信号相位变化不敏感,2010年秋,北京信息科技大学,基于音频数据的统计特性进行编码，典型技术是波形编码。基于音频的声学参数，进行参数编码，可进一步降低数据率。基于人的听觉特性进行编码。,3.1.2 音频压缩编码技术分类,2010年秋,北京信息科技大学,1按裁抑声音信号的冗余度不同分类,时域编码、频域编码和统计编码。原理：依据声音信号的冗余度以及人耳听觉的声掩蔽，将人耳听觉觉察不到的分量去掉，降低编码后的数据比特率。,2010年秋,北京信息科技

3、大学,2按压缩品质不同分类,按解码后数据与原始数据是否完全一致、质量有无损失的标准无损压缩编码（无失真）有损压缩编码（有失真）,2010年秋,北京信息科技大学,3按压缩编码算法不同分类,统计编码波形编码参数编码混合编码感知编码,2010年秋,北京信息科技大学,表3-1编码的分类及标准,2010年秋,北京信息科技大学,3.2 波形编码,将时间域信号直接变换为数字代码由于保留了信号原始样值的细节变化，从而保留了信号的各种过渡特征，所以解码音频信号质量一般较高。不足之处：传输码率比较高，压缩比不大。,2010年秋,北京信息科技大学,3.2.1 脉冲编码调制,Pulse Code Modulation

4、，PCM，简称脉码调制。PCM是各种数字编码系统中最规范的方法，也是应用最广泛的系统。除了增量调制外，各种波形编码器都包含有PCM的编码与译码部分。,2010年秋,北京信息科技大学,PCM是“数字化”的最基本的技术通过抽样、量化和编码3个步骤，用若干代码表示模拟形式的信息信号（如图像、声音信号），再用脉冲信号表示这些代码来进行传输/存储。,3.2.1 脉冲编码调制,2010年秋,北京信息科技大学,3.2.2 差分脉冲编码调制,PCM编码是一种最通用的无压缩编码。优点：保真度高，解码速度快缺点：编码后的数据量大。CD-DA采用的就是这种编码方式。若利用样值之间的相关性，即记录取样值之间的差值，就

5、称为差分PCM（DPCM）。DPCM方式是非常适合自然界规律的。,2010年秋,北京信息科技大学,图3-7 DPCM编码,2010年秋,北京信息科技大学,图3-8 DPCM解码,2010年秋,北京信息科技大学,图3-9 PCM与DPCM的电平分布,2010年秋,北京信息科技大学,3.2.3 自适应差分脉冲编码调制,1自适应PCM自适应PCM（APCM）：根据邻近信号的性质使量化步长改变的编码。准瞬时压扩和动态加重就可以看做是一种APCM。,2010年秋,北京信息科技大学,图3-11 APCM组成框图,2010年秋,北京信息科技大学,表3-23位APCM的系数法,2010年秋,北京信息科技大学,

6、2自适应差分PCM,把自适应型量化步长引入差分PCM（DPCM）。不是把信号x(n)直接量化而是把它和预测值x(n)的差d(n)进行量化比前述的APCM效率高，中等质量的高效率编码。,2010年秋,北京信息科技大学,应用：多功能电话机的留言录音等短时间录音不同磁带的固体录音机和向导广播自动售货机多媒体技术应用领域的CD-I中，也采用48位的ADPCM。,2自适应差分PCM,2010年秋,北京信息科技大学,图3-12 ADPCM原理框图,2010年秋,北京信息科技大学,表3-3 自适应量化法中的量化级系数,2010年秋,北京信息科技大学,3.2.4 增量调制和自适应增量调制,增量调制（M）Del

7、ta Modulation是用一位二进制码表示相邻模拟抽样值相对大小的A/D转换方式量化只限于正和负两个电平，只用一比特传输一个样值。M是增量调制方式的代号。,2010年秋,北京信息科技大学,图3-13 简单增量调制原理图,图中x(t)是一模拟信号，x(t)为本地译码器输出的前一时刻的量化信号。,2010年秋,北京信息科技大学,图3-14 M编码原理,2010年秋,北京信息科技大学,2译码的基本思想,收到l码后产生一个正斜率电压，在TS=T时间内均匀上升一个量阶，收到一个0码产生一个负的斜变电压，在TS时间内均匀下降一个量阶这样把二进制代码经过译码后变为锯齿波。,2010年秋,北京信息科技大学

8、,3PCM和M系统性能比较,传码率及信号带宽量化信噪比误码信噪比设备复杂性,2010年秋,北京信息科技大学,4自适应增量调制（自适应M）,是一种改进型的增量调制方式它的量化级随着音节时间间隔（520ms）中信号平均斜率而变化。这里的音节相当于语音浊音准周期信号的基音周期。由于信号的平均斜率是根据检测码流中连“1”或连“0”的个数确定的，所以又称数字检测、连续可变斜率增量调制（CVSD），简称数字压扩增量调制。,2010年秋,北京信息科技大学,图3-15 数字检测音节压扩M组成框图,2010年秋,北京信息科技大学,自适应M与简单M相比，编码器能正常工作的动态范围有很大提高，信噪比比简单M优越。这

9、种优越性与两个参数有关，数字检测的连码数m，其值越大，改善越大；脉冲压缩比=0/max，其中max为最大量化级，0是最小量化级（无控制的），越小改善越大。,4自适应增量调制（自适应M）,2010年秋,北京信息科技大学,3.2.5 子带编码,SBC是将一个短周期内的连续时间取样信号送入滤波器中，滤波器组将信号分成多个（最多32个）限带信号，以近似人耳的临界频段响应。,2010年秋,北京信息科技大学,由滤波器组的锐截止频率来仿效临界频段响应，并在带宽内限制量化噪声。子带编码要求处理延迟必须足够小，以使量化噪声不超出人耳的瞬时限制。子带编码通过分析每个子带的取样值并与心理声学模型进行比较，编码器基于

10、每个子带的掩蔽阈值能自适应地量化取样值。,3.2.5 子带编码,2010年秋,北京信息科技大学,子带编码中，每个子带都要根据所分配的不同比特数来独立进行编码。在任何情况下，每个子带的量化噪声都会增加。当重建信号时，每个子带的量化噪声被限制在该子带内。由于每个子带的信号会对噪声进行掩蔽，所以子带内的量化噪声是可以容忍的。,3.2.5 子带编码,2010年秋,北京信息科技大学,图3-16 生成窄带高分辨率的子带编码,2010年秋,北京信息科技大学,子带编码的主要特点：每个子带对每一块新的数据都要重新计算，并根据信号和噪声的可听度对取样值进行动态量化。子带感知编码器利用数字滤波器组将短时的音频信号分

11、成多个子带（对于时间取样值可以采用多种优化编码方法）。,3.2.5 子带编码,2010年秋,北京信息科技大学,子带编码的主要特点：每个子带的峰值功率与掩蔽级的比率由所做的运算来决定，即根据信号振幅高于可听曲线的程度来分配量化所需的比特数。给每一个子带分配足够的位数来保证量化噪声处于掩蔽级以下。,3.2.5 子带编码,2010年秋,北京信息科技大学,图3-17 SB-ADPCM编、译码方框图,2010年秋,北京信息科技大学,3.2.6 矢量编码,标量量化（SQ）独立地对一个样值量化编码的方式。由于对每一个样值单独编码处理，使系统码率不可能低于取样频率。矢量量化（VQ）对若干个音频样值一起量化编码

12、,2010年秋,北京信息科技大学,图3-18 VQ的基本原理,2010年秋,北京信息科技大学,图3-19 最优码字搜索算法一例,2010年秋,北京信息科技大学,参数编码技术以语音信号产生的数学模型为基础，根据输入语音信号分析出表征声门振动的激励参数和表征声道特性的声道参数，然后在解码端根据这些模型参数来恢复语音。这种编码算法并不忠实地反映输入语音的原始波形，而是着眼于人耳的听觉特性，确保解码语音的可懂度和清晰度。,3.3 参数编码,2010年秋,北京信息科技大学,基于参数编码技术的编码系统一般称之为声码器，主要用在窄带信道上提供4.8kbit/s以下的低速率语音通信和一些对时延要求较宽的场合。

13、当前参数编码技术主要的研究方向是线性预测（Linear Predictive Coder，LPC）声码器和余弦声码器。,3.3 参数编码,2010年秋,北京信息科技大学,3.3.1 语音生成模型,参数编码的基础是人类语音的生成模型。语音学和医学的研究结果表明，人类发音器官产生声音的过程可以用一个数学模型来逼近。人的语音发声过程是：气流从肺呼出后经过声门时受声带作用，形成激励气流，再经过由口腔、鼻腔和嘴组成的声道的作用而发出语音。从声门出来的气流相当于激励信号，而声道可以等效成一个全极点滤波器，称为声道滤波器或合成滤波器。在讲话过程中激励信号和滤波器系数不断地变化，从而发出不同的声音。,2010

14、年秋,北京信息科技大学,通常认为激励信号和滤波器系数540 ms更新一次。人们在发声母时，声带不振动，激励信号类似白噪声，将这类声音称做清音；发韵母时，声带振动，激励信号呈周期性，这类声音称作浊音。因此，用白噪声或周期性脉冲信号激励声道滤波器就能合成出语音，这就是LPC声码器的工作原理,3.3.1 语音生成模型,2010年秋,北京信息科技大学,这个模型的物理含义是：人类通过嘴讲出来的话，也可以用它来再生，条件是要合理地选择模型中的参数。很显然，讲话随着时间而变化，那么，模型的参数也是变化的。此模型用模型参数代替原语音波形进行传输/存储的系统就是声码器。对该发声模型的参数进行编码传输称为参数编码

15、。人的发声是很复杂的，上面的模型只是一种近似，忽略了不少因素，这个模型也叫简化发声模型它合成出的语音质量不高，后来又有许多改进。,2010年秋,北京信息科技大学,图3-20 人类发音模型,2010年秋,北京信息科技大学,3.3.2 线性预测编码,线性预测编码（LPC）是一种非常重要的编码方法线性预测方法在于分析和模拟人的发音器官，不是利用人发出声音的波形合成，而是从人的语音信号中提取与语音模型有关的特征参数。在语音合成过程中，通过相应的数学模型计算去控制相应的参数来合成语音，这种方法对语音信息的压缩是很有效的，用此方法压缩的语音数据所占用的存储空间只有波形编码的十至几十分之一。,2010年秋,

16、北京信息科技大学,LPC声码器是一种低比特率和传输有限个语音参数的语音编码器，它较好地解决了传输数码率与所得到的语音质量之间的矛盾。广泛地应用在电话通信、语音通信自动装置、语音学及医学研究、机械操作、自动翻译、身份鉴别、盲人阅读等方面。,3.3.2 线性预测编码,2010年秋,北京信息科技大学,线性预测（LPC）声码器在众多的声码器中是最为成功的，也是应用最为广泛的属于时间域声码器类。从时间波形中提取重要的语音特征。,3.3.2 线性预测编码,2010年秋,北京信息科技大学,图3-21 LPC声码器的原理图,2010年秋,北京信息科技大学,3.4 混合编码,是波形编码和参数编码的综合：既利用了

17、语音生成模型，通过模型中的参数（主要是声道参数）进行编码，减少波形编码中被编码对象的动态范围或数目；又使编码的过程，产生接近原始语音波形的合成语音，保留说话人的各种自然特征，提高了合成语音质量。目前得到广泛研究和应用的CELP编码法，以及它的各种改进算法，是混合编码法的典型代表。,2010年秋,北京信息科技大学,分析/合成（A/S）编码编码的过程是一个分析加合成的过程即编码系统大都是先“分析”输入语音提取发声模型中的声道模型参数，然后选择激励信号去激励声道模型产生“合成”语音，通过比较合成语音与原始语音的差别选择最佳激励，追求最逼近原始语音的效果。,3.4 混合编码,2010年秋,北京信息科技

18、大学,图3-22 分析合成编码原理框图,2010年秋,北京信息科技大学,3.4.1 多脉冲线性预测编码,语音模型中的激励信号，可以从分析A/S编码系统产生的预测误差来获得。这个预测误差序列可由大约只占其个数十分之一的另一组脉冲序列来替代，由新脉冲序列激励H(z)产生的合成语音仍具有较好的听觉质量。,2010年秋,北京信息科技大学,这个预测误差序列，尽管在大多数位置上都不等于零，但它激励合成滤波器所得的合成语音，与另一组绝大多数位置上都是零的脉冲序列，激励同样的合成滤波器所得的合成语音具有类似的听觉。由于后者形成的激励信号序列，不为零的脉冲个数占序列总长的极小部分，所以编码时，仅处理和传输不为

19、零的激励脉冲的位置与幅度参数，就可以大大压缩码率了。这种编码方法称为多脉冲线性预测编码（MPLPC）。,2010年秋,北京信息科技大学,MPLPC主要任务就是寻找该脉冲序列中每个脉冲的位置和幅度大小，并对其编码。一般采用序贯方法，一个一个脉冲求解，寻求次优的解。,2010年秋,北京信息科技大学,图3-23 MPLPC编码原理框图,2010年秋,北京信息科技大学,3.4.2 规则脉冲激励/长项预测编码,RPE/LTP是欧洲数字蜂窝移动通信GSM标准中采用的语音压缩编码算法标准码率为13kbit/s，也叫移动通信的全速率编码标准。,2010年秋,北京信息科技大学,人们为进一步提高信道利用率，正在制

20、定码率为67kbit/s、与RPE/LTP方案相当的语音压缩编码标准。新方案称为移动通信中的半速率语音编码算法。,3.4.2 规则脉冲激励/长项预测编码,2010年秋,北京信息科技大学,RPE/LTP语音压缩编码属于分析/合成编码方式，系统先分析，得到合成滤波器参数，再通过选择不同激励，判别它们的合成语音与原始语音的差别，得到最优的激励的信号。RPE/LTP采用了感觉加权滤波器。PRE/LTP的各个非零激励脉冲，呈现等间隔的规则排列。只需使收方知道第一个脉冲的位置在何处（n取什么值），其他激励脉冲的位置也就可以得知了。而且第一个脉冲的位置也是有限的几个可能性。所以这种方案，脉冲位置的编码所需码

21、率非常少，非零激励脉冲个数可以增加许多。在一个编码帧内，GSM方案的非零激励脉冲比MPLPC方案多了3倍，有利于提高合成语音质量。,2010年秋,北京信息科技大学,RPE/LTP编码算法设置了基音预测系统以及相应的基音合成系统。线性预测处理语音信号可以去除语音信号样值间的相关性，大大降低信号的动态范围。,3.4.2 规则脉冲激励/长项预测编码,2010年秋,北京信息科技大学,图3-24 预测误差波形,2010年秋,北京信息科技大学,图3-25 GSM语音压缩编解码器中的语音生成模型,2010年秋,北京信息科技大学,3.4.3 码激励线性预测编码,码激励线性预测编码（CELP）系统是中低速率编码

22、领域最成功的方案。基本CELP算法不对预测误差序列个数及位置作任何强制假设，认为必须用全部误差序列编码传送以获得高质量的合成语音。为了达到压低传码率的目的，对误差序列的编码采用了大压缩比的矢量量化技术VQ，也就是对误差序列不是一个一个样值分别量化，而是将一段误差序列当做一个矢量进行整体量化。,2010年秋,北京信息科技大学,由于误差序列对应着语音生成模型的激励部分，现在经VQ量化后，用码字代替，故称码激励。,图3-26 典型的CELP系统,2010年秋,北京信息科技大学,图3-27 采用两个码本CELP编码系统,2010年秋,北京信息科技大学,基于CELP的LD-CELP方案，已作为干线电话网

23、16kbit/s速率编码标准。与CELP基本算法相比较，它的主要不同有如下两个方面。,2010年秋,北京信息科技大学,（1）它不是从输入语音中提取合成滤波器参数的，而是从以前的合成语音中提取的，这样不必等待一段语音输入后再进行计算，所以编码时延很低，故名低时延编码系统。并且，由于预测和合成系统的系数取决于合成后的语音而非原始语音，因此，合成系统系数不必编码传送。,2010年秋,北京信息科技大学,（2）考虑到用前面部分的合成语音，来估计本时刻的合成系统参数，可能会估计精度差，降低线性预测效果，为了提高预测性能，G.728标准中采用了一个高达50阶的线性预测滤波器，代替一般CELP系统中的基音和声

24、道两个预测滤波器，合成滤波器同样也是50阶的。提高滤波器阶数，只是增加了计算量，因为滤波器系数不传送，所以不增加传码率。,2010年秋,北京信息科技大学,3.4.4 矢量和激励线性预测编码,矢量和激励线性预测编码（VSELP）作为北美第一代数字蜂窝移动通信网语音编码标准由Motorola公司首先提出，其码率为8kbit/s。图3-28是VSELP编码系统结构图。,2010年秋,北京信息科技大学,图3-28 VSELP编码系统,2010年秋,北京信息科技大学,3.4.5 多带激励语音编码,语音短时谱分析表明，大多数语音段都含有周期和非周期两种成分，因此很难说某段语音是清音还是浊音。传统声码器，

25、例如线性预测声码器，采用二元模型，认为语音段不是浊音就是清音。,2010年秋,北京信息科技大学,浊音段采用周期信号，清音采用白噪声激励声道滤波器合成语音，这种语音生成模型不符合实际语音特点。人耳听觉过程是对语音信号进行短时谱分析的过程，可以认为人耳能够分辨短时谱中的噪声区和周期区。,2010年秋,北京信息科技大学,因此，传统声码器合成的语音听起来合成声重、自然度差。这类声码器还有其他一些弱点，例如基音周期参数提取不准确、语音发声模型同有些音不符合、容忍环境噪声能力差等，这些都是影响合成语音质量的因素。,2010年秋,北京信息科技大学,多带激励语音编码（MBE）方案突破了传统线性预测声码器整

26、带二元激励模型，它将语音谱按基音谐波频率分成若干个带，对各带信号分别判断是属于浊音还是属于清音，然后根据各带清、浊音的情况，分别采用白噪声或正弦产生合成信号，最后将各带信号相加，形成全带合成语音。,2010年秋,北京信息科技大学,图3-29 多带激励编解码器原理框图,2010年秋,北京信息科技大学,3.4.6 混合激励线性预测编码,混合激励线性预测编码（MELP）算法对语音的模式进行两级分类。首先将语音分为“清”和“浊”两大类，这里的清音是指不具有周期成分的强清音，其余的均划为浊音，用总的清/浊音判决表示。其次，把浊音再分为浊音和抖动浊音，用非周期位表示。,2010年秋,北京信息科技大学,在对

27、浊音和抖动浊音的处理上，MELP算法利用了MBE算法的分带思想，在各子带上对混合比例进行控制。这种方法简单有效，使用的比特数也不多。如果使用1bit对每个子带的混合比例参数进行编码，该参数也就简化为每个子带的清/浊音判决信息。在周期脉冲信号源的合成上，MELP算法要对LPC分析的残差信号进行傅里叶变换，提取谐波分量，量化后传到接收端，用于合成周期脉冲激励。,3.4.6 混合激励线性预测编码,2010年秋,北京信息科技大学,这种方法提高了激励信号与原始残差的匹配程度。MELP的参数包括LPC参数、基音周期、模式分类参数、分带混合比例、残差谐波参数和增益。在MELP的参数分析部分，语音信号输入后要

28、分别进行基音提取、子带分析、LPC分析和残差谐波谱计算。MELP算法的语音合成部分仍然采取LPC合成的形式，不同的是激励信号的合成方式和后处理。,3.4.6 混合激励线性预测编码,2010年秋,北京信息科技大学,这里的混合激励信号为合成分带滤波后的脉冲与噪声激励之和。脉冲激励通过对残差谐波谱进行离散傅里叶反变换得出，噪声激励则在对一个白噪声源进行电平调整和限幅之后产生，两者各自滤波后叠加在一起形成混合激励。混合激励信号合成后经自适应谱增强滤波器处理，用于改善共振峰的形状。随后，激励信号进行LPC合成得到合成语音。,3.4.6 混合激励线性预测编码,2010年秋,北京信息科技大学,图3-30 M

29、ELP算法的分析/合成框图,2010年秋,北京信息科技大学,3.5 MPEG音频编码,当前国际上数字音视频标准有两个系列MPEG音频：声音信源编码中的MPEG （Moving Picture Exports Group，活动图像专家组）制定的音频编码Dolby AC-3音频编码：ATSC（Advanced Television System Committee，先进电视系统委员会）制定。,2010年秋,北京信息科技大学,MPEG音频的应用所涉及的领域广泛，不仅用于数字电视、数字声广播，还有影音光盘、多媒体应用以及网络服务等，因此是主流。Dolby AC-3则仅用于多声道环绕立体声重放，包括DV

30、D影音光盘及ATSC数字电视标准中的音频编码。,3.5 MPEG音频编码,2010年秋,北京信息科技大学,MPEG是一组由IEC和ISO制定发布的视频、音频、数据的压缩标准。 MPEG的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，属于感知编码。已成为数字音视频的主流技术。,3.5 MPEG音频编码,2010年秋,北京信息科技大学,MPEG采纳两种感知编码，感知子带编码由杜比（Dolby Laboratories）实验室开发的Dolby AC-3（Audio Codenumber3）编码，简称AC-3。,3.5 MPEG音

31、频编码,2010年秋,北京信息科技大学,3.5.1 MPEG-1音频,国际标准化组织和国际电子技术委员会组织活动图像专家组于1992年11月通过了关于音频和视频数据的压缩技术的ISO/IEC 11172号建议。“用于数字存储媒体运动图像及其伴音率为1.5Mbit/s的压缩编码”，简称MPEG-1，它主要由系统、视频和音频3个部分组成。,2010年秋,北京信息科技大学,MPEG-1音频编码标准位于MPEG-1（ISO/IEC 11172）标准的第3部分MPEG-l音频标准的基础是掩蔽模式通用子带集成编码、多路复用MUSICAM、自适应频率感知熵编码ASPEC。,3.5.1 MPEG-1音频,20

32、10年秋,北京信息科技大学,1应用方面,直接播放数据传输率为1.5Mbit/s的CD-ROM。记录载体为光盘和磁存储介质（包括磁带、磁盘）的非交错音视频格式的数据，以支持与VHS质量相当的影音光盘（Video Compact Disc，VCD），其声音有一路立体声输出或两个声道分别存储原唱和伴唱。用于数字声音广播（DAB）的源编码。用于低比特率的音频传输的应用，如ISDN宽带网传输。特别是目前在因特网上盛行的MP3（MPEG Layer）,2010年秋,北京信息科技大学,2主要特点,支持采样频率为32kHz、44.1kHz、48kHz的单/双声道及立体声等编码模式；利用以掩蔽效应为基础的心理声

33、学模型控制声音的量化/编码达到不低于32kbit/s比特率的数据流。三个不同层次的心理声学模型算法，分别为层I、层和层对应着不同的比特率，编码器的复杂程度随之加深。,2010年秋,北京信息科技大学,层I又称MP1音频，声音文件扩展名为“.mp1”或“.mpa”。采用MUSICAM编码方案的简化算法，复杂度最低，压缩比41（相对CD激光唱片音频比特率）压缩后的比特率约为32448kbit/s，典型的码流为192kbit/s适用于小型数字盒式磁带。,2主要特点,2010年秋,北京信息科技大学,层又称MP2音频，声音文件扩展名为“.mp2”或“.mpa”。算法较层I复杂，去除了更多的冗余度，压缩比为

34、61，压缩后的比特率预计为32384kbit/s，典型的码流为128kbit/s。层称为掩蔽模式通用子带集成编码与多路复用，广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。,2主要特点,2010年秋,北京信息科技大学,层又称MP3音频，声音文件扩展名为“.mp3”或“.mpa”。算法最为复杂，压缩比12l（相对CD激光唱片音频比特率），压缩后的比特率约为32320kbit/s，典型的码流为64kbit/s。层是综合于层和ASPEC（自适应频谱心理声学熵编码）的优点提出的混合压缩技术，主要用于ISDN上的声音传输。,2主要特点,2010年秋,北京信息科技大学,3MPEG

35、-1音频压缩编码的基本结构,MPEG-1音频信号数据压缩过程时间/频率映射（滤波器组），用以将输入的信号转化为亚抽样的频谱分量分为子带；频域滤波器组或并行变换的输出，根据心理声学模型求出时变的掩蔽门限估值；按量化噪声不超过掩蔽门限的原则将子带量化编码以使量化噪声听不到；按帧打包成码流（包括比特分配信息）。,2010年秋,北京信息科技大学,图3-31 MPEG-1的音频压缩编码框图,图3-32 MPEG-1的音频压缩解码框图,2010年秋,北京信息科技大学,图3-33 子带编码滤波器组的划分示意图,2010年秋,北京信息科技大学,3.5.2 MPEG-2音频,MPEG-2（ISO/IEC 138

36、18）标准公布于1995年，是MPEG-1的一种兼容型扩展。MPEG-2声音编码标准是MPEG为多声道声音开发的低码率编码方案，是在MPEG-1标准的基础上发展而来的。,2010年秋,北京信息科技大学,和MPEG-1相比，MPEG-2声音主要增加了以下3个方面的内容。支持5.1路环绕声。能提供5个全带宽声道（左、右、中和两个环绕声道），外加一个低频效果增强声道，统称为5.1声道。支持多达8种语言或解说。增加了低抽样和低码率。即把MPEG-1的抽样率降低了一半（16kHz，2205kHz，24kHz），以便提高码率低于64kbit/s时每个声道的声音质量。,3.5.2 MPEG-2音频,2010

37、年秋,北京信息科技大学,MPEG-2标准委员会定义了两种声音数据压缩格式MPEG-2 Audio，或者称为MPEG-2多通道声音，由于它与MPEG-1是兼容的，因此常称为MPEG-2 BC。MPEG-2 AAC（Advanced Audio Coding），因为它与MPEG-1声音格式不兼容，所以称为非后向兼容MPEG-2 NBC标准。,3.5.2 MPEG-2音频,2010年秋,北京信息科技大学,主要特点：MPEG-2 BC分为3层，相应的预计达到的比特率分别为：层I，32256kbit/s；层和层，8160kbit/s。MPEG-2 AAC采用了MPEG-1层（MP3）同样的基本编码模式，

38、仅在一些细节上增加新的编码工具。兼容性强,3.5.2 MPEG-2音频,2010年秋,北京信息科技大学,兼容性强MPEG-2 BC的多通道兼容性。MPEG-2数据流格式的基本内容与MPEG-1等同，解码器完全兼容于MPEG-1编码器MPEG-1解码器也能接收到MPEG-2 BC的音频数据流中的全部通道信息，这是因为MPEG-2 BC的向下混合左右声道的兼容性矩阵的作用。由于MPEG-l和MPEG-2 BC音视频的合成处理遵循着MPEG标准的系统规范，所以MPEG-l音频可以与MPEG-2视频合成使用；MPEG-2 BC音频也可与MPEG-1的视频合成使用。MPEG-2 AAC可替代MPEG-1

39、层（MP3）。,2010年秋,北京信息科技大学,1MPEG-2 Audio,MPEG-2主要用于数字电视。适用于数据比特率从8kbit/s的单声道电话的音质到160kbit/s的多声道高质量的全音域音频编码。也适用于DVD，图像清晰度可达到500线，可提供2路立体声声道和高质量的5.1声道环绕立体声。,2010年秋,北京信息科技大学,图3-35 MPEG-2声音多声道扩展部分的数据结构,2010年秋,北京信息科技大学,表3-4 MPEG-1和MPEG-2的声音数据规格,2010年秋,北京信息科技大学,图3-36 声道立体环绕声扬声器摆放示意图,2010年秋,北京信息科技大学,图3-37 MPE

40、G-2中5.1声道编、解码电路框图,2010年秋,北京信息科技大学,2MPEG-2 AAC,MPEG-2 AAC是MPEG-2标准中一种非常灵活的声音感知编码标准。AAC支持的采样频率可从8kHz到96kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效（LFE）加强通道、16个配音声道或称多语言声道和16个数据流。AAC在压缩比为111（即每个声道的数据率为（44.116）/11=64kbit/s）而声道的总数据率为320kbit/s的情况下，很难区分还原后的声音与原始声音之间的差别。,2010年秋,北京信息科技大学,与MPEG的层2

41、相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高。与MPEG的层3相比，在质量相同的条件下数据率是其70%。图3-38所示是ACC编码器方框图。,2MPEG-2 AAC,2010年秋,北京信息科技大学,图3-38 MPEG-2 AAC编码器,2010年秋,北京信息科技大学,MPEG-1及MPEG-2标准为图像和伴音，或者说为广播电视领域的数字化奠定基础，但满足不了迅速发展的多媒体应用的要求。在1993年开始了能够实现数字电视的制作、分配和内容的融合、交互式图形应用以及交互式多媒体的标准制定。,3.5.3 MPEG-4音频,2010年秋,北京信息科技大学,3.5.3 MPEG-4音频,

42、MPEG-4是以“各种音/视频媒体对象的编码”为标题。MPEG-4第一版于1998年12月成为一项通用的国际标准（ISO/IEC 14496IV）；第二版于1999年12月完成；第三、四版于2001年开始制定。,2010年秋,北京信息科技大学,MPEG-4的宗旨：避免出现众多的、专有的、互不兼容的格式和播放机的方法提供一整套能够满足，包括实时通信、监视和移动多媒体等大量应用的要求。MPEG-4定为通信和中、短波波段数字声广播以及其他语音低比特率的应用。,3.5.3 MPEG-4音频,2010年秋,北京信息科技大学,主要特点：MPEG-4标准化自然音频的编码数据比特率为264kbit/s。为获取

43、到所有比特率下的高音质，MPEG-4音频定义了3类编码模式：低比特率的参数化编/解码器。抽样频率8kHz时数据比特率为24kbit/s；抽样频率8/16kHz时为416kbit/s。中间比特率的码激励线性预测（CELP）编/解码器。抽样频率8/16kHz，数据比特率为624kbit/s。高比特率的编/解码器，包含MPEG-2 AAC和矢量量化编码在内的时间频率（TF）编/解码器。抽样频率8kHz，数据比特率为1664kbit/s，采用AAC。,2010年秋,北京信息科技大学,图3-39 MPEG-4声音编码及其码率带宽（264kbit/s）关系图,2010年秋,北京信息科技大学,MPEG-4声

44、音编码器的特点速度控制功能允许在不改变声调的情况下，在解码过程中改变声音的时间坐标。这对在实现快放功能时匹配时频序列的长度是非常有用的。声调改变是在不改变编解码过程的时间坐标的情况下，改变声音的调。这对卡拉OK应用中的变调十分有用。比特率分级允许码流被解析成更低速率的多个码流，它们的组合仍然能解码成有意义的信号。码流的解析可发生在传输或者解码时。带宽分级可以认为是比特率分级的一种特例，表示声音信号一定频谱段的部分可以在传输或解码时丢弃。编码器复杂性分级允许不同复杂度的编码器产生有效的及有意义的码流。解码器复杂性分级允许不同复杂度的解码器对给定码流进行解码。通常，声音的质量与编解码器的复杂度无关

45、。,2010年秋,北京信息科技大学,3.5.4 MPEG-7音频,在信息社会中，可以利用的视听信息形式越来越多，如图像、视频、语音、3D模型及图形等。而手段不仅是记录-存储-重放，尤其是网络的出现，特别是WWW多媒体服务、各项服务项目种类和大容量数据库等基于内容服务需求的快速增长，引发了对视听信息内容的检索、交换及传递的迫切要求。,2010年秋,北京信息科技大学,1996年开始对MPEG-7标准的制定。MPEG-7称为“多媒体内容描述接口”，主要是描述多媒体素材内容的通用接口的标准化。MPEG-7本质上与MPEG-1、MPEG-2及MPEG-4不同，后三者是论述音视频具体的编码，而前者是促进数

46、据元的互操作性、通用性和数据管理灵活性。,3.5.4 MPEG-7音频,2010年秋,北京信息科技大学,MPEG-7的目标：产生一个描述多媒体内容的标准，支持对多媒体信息在不同层面的解释和了解，从而将其依据用户需求而进行传递和存取。它不同于其他MPEG音频，不是针对某个具体项目应用MPEG-7典型应用有：建立音频档案（库）；从互联网和档案中提取和恢复音频文件和数据。提供视听信息的描述，例如用于对所需视听素材进行检索（即查寻图书、资料）。,3.5.4 MPEG-7音频,2010年秋,北京信息科技大学,为了使人们在因特网上能够很快地搜索到所需要的内容，MPEG-7多媒体接口应能支持：MPEG-7可

47、完成人耳听觉感知需要的内容，频率轮廓线、音色、和声、频率特征（音调、音域）、振幅包络、时间结构，即声音特性（音头持续时间及音尾）、文本内容，如通过唱一首歌曲的开始歌词或发出一篇文章开始一段的文字声音或声音近似值，即唱出歌曲的旋律或发出一种声音效果，即可以搜索到相应的全部原型声音或文本。支持数据音频（如CD唱片、MPEG-1音频格式）；模型音频（如磁带介质、MPEG-4的SAOL）及MIDI（包括一般MIDI及Karaoke格式）。,2010年秋,北京信息科技大学,3.5.5 杜比AC-3,广泛地用于DVD、DTV和DBS中的多声道音频传输。AC-3编码系统是AC-2编码形式的副产物，属于感知编

48、码器。可把5个独立的全频带通道和一个频带为全频带1/10的辅助低音通道的信号实现统一编码，成为单一的复合数据流，其比特率比CD唱片一个通道的比特率705kbit/s还低。,2010年秋,北京信息科技大学,AC-3符合ATSC A/52规定的数字音频压缩标准。主要应用：充分利用视频传输系统的信道带宽；减少存储需求。主要运用于数字电视系统和DVD影音光盘。,3.5.5 杜比AC-3,2010年秋,北京信息科技大学,1杜比AC-3环绕声系统,图3-40 杜比AC-3环绕声播放系统示意图,特点：全音频声道立体环绕声声道之间分离度高,2010年秋,北京信息科技大学,从家庭影院的应用和发展来看，杜比AC-

49、3环绕声系统将可能成为主流，因为：美国已确定杜比AC-3环绕声系统为HDTV（高清晰度电视）音频信号的编码和解码标准。数字视盘机（DVD）的音频也采用AC-3音频标准。美国几乎所有著名的电影公司制作的影片都按照AC-3系统录制。目前世界著名的电子公司生产出的DVD机，A/V放大器都带有AC-3解码器。,3.5.5 杜比AC-3,2010年秋,北京信息科技大学,23种典型杜比环绕声,目前家庭影院流行的款式杜比定向逻辑环绕声系统家庭用THX系统杜比AC-3环绕声系统这3种款式家庭影院的效果是完全不相同的，消费者应根据经济实力和欣赏水平来选择。,2010年秋,北京信息科技大学,表3-5三种环绕系统的比较,2010年秋,北京信息科技大学,3.6 G.7xx系列编码标准,G.7xx是CCITT推荐的话音信号的编解码标准。G.711标准：采样率为8 kHz，数据率为64kbit/s，属于窄带语音编码G.721（ADPCM）：数据率降到32 kbit/s而保持与G.711同样的音质。G.722：保持了64kbit/s数据率，把采样率提高到16kHz，从而使信号频谱扩展到7 kHz，音质有了很大改善，特别是对音乐信号。,2010年秋,北京信息科技大学,表3-6G.722 3种运行方式,2010年秋,北京信息科技大学,图3-41 G.722编解码器结构框图,

展开阅读全文