《《音频编码技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频编码技术》PPT课件.ppt(50页珍藏版)》请在三一办公上搜索。
1、第09讲 音频编码技术,一切能发出声音的物体称为声源。声音是由于声源的振动而产生的,由于声源的振动,借助于它们周围的介质,把这种振动以机械波的形式由近及远地传向远方,这就是声波。声波传入人耳,致使耳膜也产生振动,这种振动被传导到听觉神经,人们就产生了“声音”的感觉。我们日常听到的声音是一种模拟信号,声学基础知识,声音的频率范围,模拟波信号有三个要素:基线、周期和振幅。振幅即波形的最高点(或最低点)与基线间的距离,它表示了声音音量的大小。周期是波形中两个相邻波峰之间的距离,它表示完成一次振动过程所需的时间,其大小体现了振动的速度。频率是周期的倒数,周期越短,频率越高。频率的单位为赫兹(Hz)。人
2、的耳朵只能感觉到振动频率在20Hz到20 000 Hz之间的声波,超出此范围的振动波不能引起听觉器官的感觉。其中,人耳对400-4000HZ的声波最敏感。,声音信号特性分析,人耳听觉特性,人耳对声音强弱的感觉特性,人耳对声音强弱的感觉与声压级成正比,安静的环境和嘈杂的环境中人耳可以分辨的声音不同。掩蔽:一个频率声音的听域由于另一个声音的存在而上升的现象。掩蔽效应:复合声音信号中,响度较低的声音频率分量被高者淹没。,响度是听觉判断声音强弱的属性主观,与声压级有一定关系:声压级每增加10dB,响度增加1倍。,响度和响度级,人耳听觉的掩蔽效应,声音质量评价,我们经常会对某一位歌手的歌声发表意见,并与
3、其他歌手进行比较,这其实是在对声音的质量进行评价。声音质量的度量有两种基本方法:客观质量度量、主观质量的度量。,声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:评价值的测量响度和响度级,噪音级,清晰度指数,噪音评价数。声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。音质的测量混响时间,隔音量,吸音量。,声音客观质量的度量方法,声测量的基本仪器是声级计。声级计是一种能对声音作出类
4、似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。,度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration)。其单位是分贝(dB)。,声音主观质量的度量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实
5、验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。,平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见下表。,声音主观质量的度量方法,数字化声音,用声音录制软件记录的英文单词“Hello”的语音实际波形,模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生。A:“Analog”(类比、模拟)D:“Digital”(数字、数码)A/D转换就是把模拟信号转
6、换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。,借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换,8位可编程A/D转换芯片,数字音频的处理,声音的压缩,波形编码,常见方法:脉冲编码调制(PCM)、增量调制(DM)、差值脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码
7、(VQ)等。,编码信号的速率计算:编码速率采样频率编码比特数播放某音频信号所需存储量播放时间速率8(字节),参数编码,通过构造发声模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并进行量化编码,以实现语音信息的数字化。优点:语音编码速率较低(29.6kbit/s),压缩比特率低;缺点:合成语音质量较差,实现的复杂度高。典型代表:线性预测编码器(LPC),语声信号产生模型,周期性信号,随机性信号,基音周期Tp,浊音,清音,线性时变滤波器,合成语音信号输出C(n),u(n),v(n),G增益控制,时变参数ai,混和编码,波形编码
8、:保真度好,计算量小,但编码后速率高;参数编码:码速率较低,但保真度欠佳,计算复杂。波形编码与参数编码结合混和编码:克服弱点,结合优点,压缩比特率:416kbit/s编码器:多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)、矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。,与参数编码的差别:信号激励源得选取更加精细通过调整激励信号使语音输入信号与重构的语音信号误差最小(合成分析法)。,三种压缩编码的性能比较,2,4,6,16,8,32,kbit/s,主观音质评价,混和法,参数法,波形法,54321,差值脉
9、冲编码调制 对相邻样值的差值进行量化编码 预测表达式 关键:预测系数的获得使预测估值的均方差为最小的预测系数 自适应差值脉冲编码调制 自适应量化:使量化间隔的变化与输入语声信号的方差相匹配 自适应预测,2.线性预测编码语声激励信号:浊音信号(准周期脉冲序列)+清音信号(白色随机噪声)虽然码速率低,但在噪声环境下语音质量不好,现已被淘汰。,常用压缩编码方法,3.矢量量化编码:将输入信号样值按某种方式分组(矢量),并量化理论基础:香农率失真理论基本原理:用码书中与输入矢量最匹配的码字的索引(下标)代替输 入矢量进行传输和存储,解码时只需简单的查表操作。关键技术:码书设计、码字搜索、码字(下标)索引
10、分配。应用:中速率和低速率语音编码、G.728、G.729,4.子带编码基本思想:将输入信号分解为若干子频带,然后对各子带分量根据其不同的统计特性采取不同的压缩策略,以降低码率。子带划分依据:话音信号自身特性优点:不仅可以很好地控制各个子带的量化电平数,还可以很好地控 制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。相对独立的量化噪声被束缚在各自子带内,互不影响。各个子带的采样频率大大降低。,5.感知编码基本原理:以人类听觉系统的心理声学为基础,只记录能够被人耳感觉到的声音,从而达到压缩数据量的目的。理论基础:基于人耳的闻域、临界频段和掩蔽效应。人耳对不同频段声音的反应灵敏度有差异
11、,在编码时,对被掩蔽的弱音不进行编码即达数据压缩的目的。应用:MPEG-1、MPEG-2、AV-3,音频信息压缩编码标准,标准的描述对象:编码速率、编码的压缩算法、编码器结构、话音质量以及彼此的关系。目标:用尽可能低的数码率来获得尽可能好的合成语音质量。,G.711、G.721、G.722,G.711,针对50Hz到3.2kHz的语音信号进行A律 和律PCM编码,属于非均匀量化。,G.721,一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或律PCM速率和32 kb/s速率之间的相互转换。,ADPCM编码器,G.722,一种高质量语音信号的压缩标准。取样频率为16kHz,每
12、个样值量化到14b,采用子带编码和ADPCM进行压缩编码。,7 kHz音频信号64 kb/s数据率的编译码方块图,G.728,该标准利用低延时码本激励线性预测LD-CELP方法将一般语音信号压缩至16Kb/s。,CELP编码综合了波形编码和参数编码,还采用矢量量化的压缩算法。,CELP实际上是一个闭环LPC系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4 16kbit/s传输速率下,即可获得较高质量的语音信号。,G.728、G.729、,G.729,低码率的语音压缩标准,采用共轭结构代数码本激励线性预测CS-ACELP,将
13、语音信号压缩至8Kb/s。,采用ACELP算法,根据激励码本的不同可以将一般语音信号压缩至5.3Kb/s和6.3Kb/s。,在6.3Kb/s编码器内采用了多脉冲激励,可以得到较高的音质。,MPEG-1、MPEG-2 BC,MPEG音频编码标准,MPEG-2 AAC 编码标准,MPEG-4 音频标准,MPEG1音频压缩标准,包括3种压缩模式:层次1、2、3;向下兼容;压缩算法主要由子带划分和变换编码构成,主要步骤为:,(1)音频信号通过滤波器组分成为32个子带;(2)用FFT将子带变换到频率域;(3)利用生理声学模型对能感知的噪声阈值进行估计;(4)根据对噪声阈值的估计进行比特分配和量化。,编码
14、器,解码器,其音频编码分为3层:Layer-1、Layer-2和Layer-3。Layer-1的压缩比为1:4,编码速率为384kb/s;Layer-2的压缩比为1:61:8之间,编码速率为192256kb/s;Layer-3的压缩比为1:101:12,压缩码率可以达到64kb/s。Layer-1的编码器最为简单,主要用于小型数字盒式磁带;Layer-2编码器的复杂程度是中等,主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘;Layer-3的编码器最为复杂,主要用于ISDN上的声音传输。,MPEG-2 BC声音标准是在MPEG-1的基础上发展来的,是MPEG为多声道声音开发的低码率编码方
15、案,并与MPEG-1的声音标准保持后向兼容。与MPEG-1相比主要增加了下面几个方面的内容:,MPEG-2 BC声音压缩标准,支持5.1多路环绕立体声:5个全带宽声道,分为左、右、中、和两个环绕声道,另加一个低频效果增强声道扩展了编码器的输出范围,从32384kb/s扩展到8640kb/s。增加了更低的取样频率和低码率:在保持MPEG-1原有的取样频率的基础上,又增加了三种取样频率,新增的取样频率为16kHz、22.05kHz和24kHz,是将原有MPEG-1的取样频率降低了一半,以便提高码率低于64kb/s时的每个声道的声音质量。,MPEG-2 AAC(Advanced Audio Codi
16、ng)是MPEG-2标准中一种非常灵活的编码标准,采用感知编码方法,主要是利用听觉系统的掩蔽特性来减少声音编码的数据量;并且通过子带编码将量化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉。,MPEG-2 AAC编码标准,AAC定义了3种配置:基本配置在三种配置中提供最好的声音质量,除没有使用增益控制模块外,其余模块都使用。低复杂性配置没有使用预测模块和预处理模块,使用的瞬时噪声定形滤波器模块的级数也有限,声音质量低于基本配置。可变采用率配置使用增益控制作预处理,没有使用预测模块,对TNS滤波器的级数和带宽也有限制,是最简单的一种配置。,AC-3音频压缩标准,6声道音频压缩标准:左、中、右、左环绕、右环绕和低频增强。前5声道带宽3Hz20kHz;最后一个声道最高120Hz。,音频编码算法和标准,多媒体音频信号文件格式,WAV文件是由采样数据组成的,所以它需要的存储容量很大。,