《《音频处理技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频处理技术》PPT课件.ppt(56页珍藏版)》请在三一办公上搜索。
1、1,第2章 音频处理技术,西安交通大学计算机教学实验中心,2,简述,音频是多媒体技术中媒体的一种,由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行编辑和存储。,3,声音的基本特性,音频信号所携带的信息大体上可分为语音、音乐和音响三类。语音是指具有语言内涵和人类约定的特殊媒体;音乐是规范的符号化了的声音;音响指其他自然声音,如动物的叫声、机器的轰鸣声、风雨雷电声等;,4,音频信号的特征,声音机械振动产生声波。声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为模拟音频信号。在任一时
2、刻,声波可以分解成一系列正弦波的线性叠加:,5,声音的物理特性,频率/声压/带宽 单位时间内声源振动的次数或空气中气压疏密变化的次数,称为声源的频率f,单位赫兹(Hz)频带宽度或称之为带宽,它描述组成复合信号的频率范围,6,声压,声波在空气媒质中是以空气中的分子振动形成疏密而传播。它造成空气中的气压发生大小变化,相当于在无声波下空气中的气压上叠加一个变化的压强,叠加上的压强称为声压,记作P。单位有帕斯卡(Pa)和微巴(bar)。引起人耳刚能听到声音时的声压称为可听阈引起人耳膜感到疼痛的声压称为痛阈,7,分贝(dB),在声学中引用分贝来表示声压或声强的变化程度因为人的听觉神经的刺激程度不与刺激量
3、大小成正比,而是按刺激量以10为底的对数增长,8,动态范围,声音的动态范围指声音的最大声压级和最小声压级之间的差值。每种声源的动态范围依据各自的特性有所不同。如女声的动态范围为2550dB,男声为3050dB,交响乐队的动态范围大于100dB。动态范围不仅用来表示一个声源产生的最大声压级与最小声压级之间的差值,录音设备或记录声音的载体(磁带、光盘、硬盘)同样可用动态范围表示能够处理信号电平的范围。如磁带的动态范围为50dB60dB,CD光盘96dB,磁光盘录放音机105dB。,9,频谱,乐器很少产生单一频率的纯音,而是复音。复音的产生基于物体的复杂振动,可以分解为许多不同振幅和不同频率的简谐振
4、动(即看成简谐振动的叠加)。简谐振动的振幅按频率排列的图形称为频谱。频谱可一目了然地看出复杂振动的频率结构。,钢琴的复音频谱,基频为253Hz,10,音频信号的质量指标,频带宽度 音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。,不同质量的声音的频带对比示意图,11,动态范围,动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。动态范围一般用dB为单位来计量。AM广播的动态范围约40dBFM广播的动态范围约60dBCDDA的动态范围约100dB,数字电话约50dB。,12,声音的数字化,数字化就是将
5、连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。,13,PCM编码,PCM编码示意图,PCM是一种把模拟信号转换成数字信号的最基本的编码方法,它主要包括采样、量化和编码3个过程。,14,量化位数,15,均匀量化,量化时,如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化.,缺点:不能适应幅度大的输入信号,有效利用样本的位数.,16,非线性量化,非线性量化的思想是大的输入信号采用大的量化
6、间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。,17,话音频率脉冲编码调制,1972CCITT推荐的G.711标准:话音频率脉冲编码调制,采样频率为8kHz,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64 kb/s。这个数据编码的精度相当于13位或14位的数据均匀量化编码。,18,数字音频的技术指标,采样频率采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。根据奈奎斯特(Harry Nyquist)采样理论:
7、如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。例如,话音的信号频率约为3.4 kHz,若采样频率选为8kHz,就能无失真地重放原始声音。,19,常用采样频率,11.025kHzAM广播22.05kHz FM广播44.1kHz CD高保真音质声音 现在声卡的采样频率一般为48kHz甚至96kHz。,20,采样精度,采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映度量声音波形幅度的精度。例如,每个声音样本用16位表示,则量化样本值在065535的整数范围内,它的精度是输入信号的1/65536 采样精度影响到声音的质量位数越多,声音的质量越高,
8、而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,21,声道数,单声道(mono)信号一次产生一组声波数据。如果一次产生两组声波数据,则称其为双声道或立体声(stereo)。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。,22,音频数据传输率,音频信号数字化后,产生大量数据 产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bit per second)。未经压缩的数字音频数据传输率为:数据传输率(bits)=采样
9、频率(Hz)量化位数(bit)声道数,23,声音质量和数字化指标,24,例,高保真立体声数字音频的量化位数为16,试计算其数据传输率 解:高保真立体声数字音频采样频率为44.1kHz,双声道,其数据传输率为 数据传输率=44.1(kHz)16(bit)2(channel)=1411.2(kbps)如果采用PCM编码,数字音频文件所占用的空间可用如下的公式计算:音频数据量(Byte)=数据传输率持续时间8(bit/Byte)其中数据量以字节(Byte)为单位;数据传输率以每秒比特(bps)为单位;持续时间以秒(s)为单位。,25,例,计算1分钟未经压缩的高保真立体声数字声音文件的大小。解:高保真
10、立体声数字音频采样频率为44.1kHz,16位量化,双声道,其数据传输率为:数据传输率=44.1(kHz)16(bit)2(channel)=1411.2(kbps)1分钟这样的声音文件的大小为 音频数据量=1411.2(kb/s)60(s)/8(bit/Byte)=10584kB未经压缩的4分钟的歌曲文件约42M数据,128M的MP3播放器只能存放3首这样的歌曲,26,编码算法与音频数据压缩比,未压缩的音频数据量非常大,因此在编码的时候常常要采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数
11、据压缩前后的数据量之比,27,压缩算法,包括有损压缩和无损压缩有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号,28,数字音频文件格式,数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式.WAVE文件格式 WAVE文件是一种通用的音频数据文件,文件扩展名为“WAV”,Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。CD激光唱盘中包含的就是WAVE格式的波形数据,只是扩展名没写成“.WAV”。一般说来,声音质量与其WAVE格式的文件大小成正比。WAVE文件的特点是
12、易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放,29,MP3文件,MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。MP3利用MPEG(Motion Picture Expert Group,运动图像专家组)制定的MPEG-1 Audio layer 3的压缩标准,将音频信息用10:1甚至12:1的压缩率,变成容量较小的数据文件。MPEG1压缩主要用于VCD数据的压缩,也用来压缩不包含图像的纯音频数据,音频压缩算法包括MPEG Audio Layer1、MPEG Audio Layer2等,而MPEG Audio Layer3有很高的压缩比
13、。MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CDDA的内容可以压缩到l张CDROM中,而且视听效果相当好。,30,RA文件,Real Audio是Real networks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kbs的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。,31,电子合成音乐,在多媒体系统中,除了用数字音频的方式以外,还可以用合成的方式产生音乐.音乐合成的方式根据一定的协议标准,使用音
14、乐符号来记录和解释乐谱,并组合成相应的音乐信号,这就是MIDI乐器数字接口。,32,电子合成音乐的有关概念,MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 00 00 60,钢琴,调,长度,33,MIDI音乐的产生过程,34,MIDI文件,用乐谱指令代替声音数据 有效记录和重现各种乐器声音 MIDI声音仅适于重现打击乐或一些电子乐器的声音 占用存储空间极小 例如一个8位、22.05kHz的波形音频文件持续2s就需超过40KB的容量,而一个MIDI文件播放2分钟所需的空间不超过8KB。适合乐曲创作和远距离传输,35,多媒体数据
15、的编码技术,1.数据压缩的基本原理 数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有大的信息量.例:食品包装,36,信息冗余,多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。冗余是指信息存在的各种性质的多余度。减少数据冗余可以节省存储空间,有效利用网络带宽。,冗余分类,1 空间冗余 规则物体的物理相关性,2 时间冗余 视频与动画画面间的相关性,5 视觉冗余 视觉、听觉敏感度和非线性感觉,6 知识冗余 凭借经验识别,3 结构冗余 规则纹理、相互重叠的结构表面,4 信息熵冗余 编码冗余,数据
16、与携带的信息,38,压缩算法的分类,(1)从信息量有无损失划分,有可逆编码和不可逆编码 1)可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度,而不损失任何信息。解压时可以完全恢复出原来的数据,亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。可逆编码由于不会产生失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全地恢复原始数据。但这种方法的压缩比较低,一般在2:15:1之间。,39,不可逆编码,2)不可逆编码是有失真压缩,信息论中叫熵压缩。由于压缩了熵,会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中,由于存在视觉冗余和听觉
17、冗余,减少这种信息并不影响人们的听觉效果和视觉效果,所以经常采用这种方法,有损压缩常用于数字化存储的模拟数据,并且主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的JPEG标准,对自然景物的彩色图像,压缩比可达到几十倍甚至上百倍。,40,基本压缩编码方法,(1)霍夫曼编码 霍夫曼(Huffman)编码在1952年为文本文件而建立。霍夫曼编码的码长是变化的,对于出现频率高的信息,编码的长度较短;而对于出现频率低的信息,编码长度较长。这样,处理全部信息的总码长一定小于实际信息的符号长度。(1)将信号源的符号按照出现概率递减的顺序排列。(2)将两个最小出现概率进行合并相加,得到的结果作为新
18、符号的出现概率。(3)重复进行步骤1和2,直到概率相加的结果等于1为止。(4)在合并运算时,概率大的符号用编码1表示,概率小的符号用编码0表示。(5)记录下概率为1处到当前信号源符号之间的0、1序列,从而得到每个符号的编码,41,例:I am a teacher,设信号源为X=、a、e、I、m、t、c、h、r。对应的概率为p=O.22、0.22、0.14、O.07、0.07、0.07、0.07、0.07、0.07试给出该信源的霍夫曼编码方案。,42,霍夫曼编码过程,43,计算编码位数,若传送一个串字符串“I am a teacher”,共14个字符。若用ASCII传送,每个字符8位,共需112
19、位。该字符串中有9个不同的符号,至少需要4位二进制才能表示,这样传送该字符串也要56位。若用刚计算的Huffman编码,只需要42位。,14*8=112位14*4=56位,空格出现3*2=6a出现3*2=6e出现2*3=6其它字符6*4=24,合计42位,44,行程编码原理,由字符(或信号采样值)构成的数据流中相同的字符(或字符串)会连续重复出现,重复出现的字符长度称为游程长度RL(Run Length)。如果给出了形成串的字符,串的长度及串的位置,就能复出原来的数据流。行程编码RLC(Run Length Coding)就是用二进制码字给出上述信息的一类方法。行程编码又称“运行长度编码”或“
20、游程编码”,45,例,设有数据流“AAABBBBCCCCCDAAAAAA”,试计算该数据的行程编码。解:A重复3次,B重复4次,C重复5次,D不重复,A重复6次,RLC数据流为:“SA3SB4SC5DSA6”,其中S为指示符。总共占用13个字节,而源数据占用19个字节。有时行程编码不用指示符,重复与否相同对待,则相应的RLC为“A3B4C5D1A6”占用10个字节。,完,46,声音的心理学特性,从声学心理角度,声音的三个要素是音调、响度和音色。它们与声波的频率、声压和频谱结构对应。音调人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(20lg)成线性关系,单位为美(mei
21、)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度,47,频率与音调的关系,48,响度,响度是人耳对声音强弱的感觉程度虽然响度与衡量声音强弱的声压有一定关系,但与声压的大小并不完全一致,也就是说声压大的感觉不一定响。,由于人的外耳具有一定的耳道长度,耳道会对某段频率产生共鸣,使灵敏度提高。因此人耳听到声音的响度与声音的频率有关。描述响度、声压以及声源频率之间的关系曲线称为等响度曲线(如右上图)。从曲线看出,当音量开到使声压级为80 dB时,就可做到高低频声音丰满,49,音色,音色又称音品。通常说法是:声音的音调和响度以外的音质差异叫做音色。声音的音色取决于该声音的频谱结构
22、或是频谱包络(声波曲线)。高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。它是一个主观量,常用柔和、刺耳、饱满等词描述。,50,掩蔽效应,称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。掩蔽效应的一般规律是强音压低音、低频率声音压高频率。利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。,51,方位感,人凭借双耳在一定声学环境内能够对声源定位,这种能力来自于声
23、源发出的声波到达双耳间的强度差、时间差以及耳廓(外耳)的阻挡。声源到达听者耳朵的声音有两个,其中一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声,而后者为绕射声。若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位置向强度较大的声源方向移,使人感受到声音的立体感。,52,空间感,一个声源发出的声音同时向各个方向散开,其发散的角度取决于声源所具有的指向性,发散的声波有一小部分直接传给听者,而大部分会被空间表面反射,然后到达听者。由于直接和经反射到达听者的两个声音途径存在差别(取决于
24、环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回声。经多次反射,造成混响。回声与混响的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是空间感。,53,信息和熵,不知道的事情我们知道了,就得到了信息。香农(C.E.Shannon)信息论应用概率来描述不确定性,事件出现的概率小,不确定性越多,信息量就大,反之则少。所谓信息是指从N个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在辨识N个事件中特定的一个事件过程中所需要提问“是”或“否”的最少次数。如从64个数中选定某一个数,提问:“是否大于32?”,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数。我们可以用二进制的6个位来记录这一过程,就可以得到这条信息。,54,信息和熵,55,56,香侬理论的要点,信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。但信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。,