《多媒体技术应用2音频处理技术(陈永强).ppt》由会员分享,可在线阅读,更多相关《多媒体技术应用2音频处理技术(陈永强).ppt(77页珍藏版)》请在三一办公上搜索。
1、多媒体技术应用,数学与计算机学院陈永强,2013-2014-2,第二章 音频处理技术,2.1 音频基本原理 人类听觉特性 数字音频 声音 语音2.2常用音频压缩标准 音频压缩基础 常用音频压缩标准 音频文件格式2.3音频处理软件Audition 功能介绍 编辑环境 基本操作,第二章 音频处理技术,2.1 音频基本原理 人类听觉特性 数字音频 声音 语音,近十年来,随着计算机技术的高速发展,以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,CD品质的数字音频已经从根本上替代了模拟音频。因此,人们对
2、音频信号数字化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。,人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。对于人类听力感知的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。,人类听觉特性1听阈与听域2音调3响度和响度级4绝对听觉门限5临界频带6同时掩蔽7异时掩蔽8感知熵,人类听觉特性1听阈与听域听阈(Auditory Threshold)就是指人能听到的最低声压级(Sound Power Level,SPL)。听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz
3、20kHz;正常人能感知声音的声压级范围是0128dB。,图2-1 听阈-频率曲线,人类听觉特性2音调音调(Pitch)在物理学中是指声音的高低,实际上就是指人耳对不同频率声音的一种主观感受。音调主要由声音的频率决定,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之,人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为美(Mel),定义一个声压级为40dB,频率为1kHz的纯音的音调为1000Mel。,人类听觉特性3响度和响度级响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为宋(Sone),定义一个声压级为4
4、0dB,频率为1kHz的纯音的响度为1Sone。响度级(Loudness Level)是指某响度与基准响度相比的等级,其度量单位为方(Phon),定义1kHz纯音的响度级为1Phon。,图2-2 人耳可听最小响度曲线,人类听觉特性4绝对听觉门限绝对听觉门限(Absolute Threshold of Hearing,ATH)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某频率点)的最小能量幅度。绝对听觉门限用声压级表示,静音为0dB,痛阈为140dB。,图2-3 绝对听觉门限曲线,人类听觉特性5临界频带指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一
5、频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(Bark)。,人类听觉特性6同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。,人类听觉特性7异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。,人类听觉特性8感知熵感知熵(Perceptual Entropy)指利用心理声学的掩蔽现象和信号能
6、量化原理来测量音频信号中感知相关的信息。一般以位(bit)作为单位,实际上表示了音频信号压缩的理论极限。,数字音频音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。,数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,过程为:选择采样频率,即进行采样;选择分辨率,即进行量化;最后编码形成声音文件。声音的
7、采样与量化如图所示。,数字音频1.采样采样(Sampling)指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对声音波形采样的频率直接影响声音的质量,采样频率越高,声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:44.1kHz、22.05 kHz和11.025 kHz,其中44.1kHz采样频率是最常用的。声道数是声音通道的个数,指一次采样的声音波形个数。,数字音频2.量化量化(Quan
8、tity)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。量化方式有三种:零记忆量化、分组量化和序列量化。,声音声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为波,而在空气中传播的波就称为声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在20Hz20kHz之间。,声音声音的三要素是音调、音色和音强。音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比。,声音声音的质量简称音质。1)与采样频率有关。对于数
9、字音频信号,音质的好坏与数据采样频率和数据位数有关。采样频率越低,位数越少,音质越差。2)与音频处理设备有关。音响放大器和扬声器的质量能够直接影响重放的质量。3)与信号噪声比有关。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。,语音语音是一种特殊的媒体,语音是人类所特有的,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史,其研究范围主要涉及:语音合成、语音编码、语音识别的基本算法和应用。计算机处理语音过程如图所示。,图2-8 计算机处理语音过程,第二章 音频处理技术,2.2常用音频压缩标准音频压缩基础常用音频压缩标
10、准音频文件格式,音频压缩基础1数据压缩条件2数据冗余3数据压缩算法分类,音频压缩基础1数据压缩条件信号之所以能被压缩和编码,其原因主要是:1)数据冗余度2)人类不敏感因素3)信息传输与存储,音频压缩基础2数据冗余冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。信息量、数据量和冗余量之间的关系如下:式中,I表示信息量,D表示数据量,du表示冗余量,冗余量应在数据存储和传输之前去掉。,音频压缩基础2数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等。,音频压缩基础2数据冗余空间冗余:一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。图像数据中经常存在的一种冗余,
11、如规则物体和规则背景(像素相关性强)。,音频压缩基础2数据冗余时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,因此称为统计冗余。,音频压缩基础2数据冗余结构冗余:有些图像存在着非常强的纹理结构,我们称它们在结构上存在冗余。例如,布纹图像和草席图像。,音频压缩基础2数据冗余信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。例如:自然界的很多状态不可能正好用2的整数次幂来表示,这样就会造成编码冗余。,音频压缩基础2数据冗余知识冗余:举例:成语、人脸的图像有固定的结
12、构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。,音频压缩基础3数据压缩算法分类,图2-10 数据压缩算法分类,音频压缩基础3数据压缩算法分类无损压缩(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件WinRAR应用。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。,音频压缩基础3数据压缩算法分类有损压缩(熵压缩)法:有损压缩减少了信息量,而这些损失信息量是不能再恢复的,因此,有损压缩法是不可逆的。例如:视/听觉等冗余,
13、由于人的感觉对某些失真不易觉察的生理特征,决定了在某些场合可以减少信息量。注意:有损压缩特点是压缩比大,但不可逆。,常用音频压缩标准1G.711 64Kb/s脉冲编码调制(PCM)2G.721自适应差分脉冲编码调制(ADPCM)3G.722 7kHz声音编码器4G.723 双速率语音编码器5G.728 16Kb/s低延迟码激励线性预测编码(LD-CELP)6G.729 语音编码器7MPEG-1音频编码8AC音频编码9空间音频编码10移动音频编码,常用音频压缩标准1G.711 64Kb/s脉冲编码调制(PCM)脉冲编码调制(Pulse Code Modulation,PCM)是ITU制定出来的一
14、套语音压缩标准,主要用于电话。1972年,CCITT对一个64Kb/s压扩型PCM编码器做了标准化,称为G.711。这个标准主要有两种压缩算法,在北美和日本,使用律PCM;而世界其他国家使用A律PCM。G.711在64Kb/s速率话音质量能够达到网络等级,目前已广泛应用于各种数字通信系统中,如电缆、微波、卫星、光缆等。,常用音频压缩标准2G.721自适应差分脉冲编码调制(ADPCM)自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,ADPCM)在PCM的基础上进行改进,进一步利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,
15、使用了自适应预测和自适应量化 1984年,CCITT首先对32Kb/s ADPCM做了标准化,称为G.721。G.721于1986年根据两年间运行中出现的一些问题,做了进一步修正,又重新标准化。,常用音频压缩标准3G.722 7kHz声音编码器1988年,正式通过关于“用64Kb/s或低于此编码速率的7kHz音频信号编码器”的标准,称为G.722。G.722的主要目标是保持64Kb/s的数据率,而音频信号的质量要明显高于G.711的质量。,.2.2常用音频压缩标准4G.723 双速率语音编码器G.723是在1996年制定的一种多媒体语音编解码标准。G.723标准传输码率有5.3Kb/s和6.3
16、Kb/s两种,在编程过程中可随时切换。,常用音频压缩标准5G.728 16Kb/s低延迟码激励线性预测编码(LD-CELP)G.728的工作进程是从1988年开始的,试图建立通用的16Kb/s长话质量的语音编码标准。G.728开始是按照浮点CELP编码算法规定的。1994年完成了按照严格定点规定的算法。,常用音频压缩标准6G.729 语音编码器在1996年3月,ITU-T的第15研究小组提出8Kb/s的语音编码协议,称为G.729。G.729标准使用的算法是共轭结构的代数码本激励线性预测(CS-ACELP),它基于CELP编码模型。,常用音频压缩标准7MPEG-1音频编码MPEG-1音频编码作
17、为MPEG标准的一部分,对应于ISO/IEC 11172-3,规定了高质量音频编码方法、存储表示和解码方法。,常用音频压缩标准8AC音频编码杜比实验室在1987年第一次将数字编码技术引入到HDTV的开发中,即AC-1标准。1990年杜比实验室又推出了立体声编码标准AC-2。1994年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统Dolby Surround Audio Coding-3,简称为AC-3。,常用音频压缩标准9空间音频编码随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入,出现了将人类空间方位感知参数引入音频压缩编码技术的研究空间音频编码(Spatial Au
18、dio Coding,SAC)。通过将空间线索(Spatial Cues)参数引入到音频压缩编码算法中,即所谓的参数立体声(Parametric Stereo,PS)技术,分析声道间冗余信息量,采用立体声参数提取的联合声道编码模式,取代传统的声道分离编码模式,可以降低近50%的编码码率,使空间成为数字音频编码技术的有效组成部分。,常用音频压缩标准10移动音频编码在移动通信系统中采用混合压缩编码,可以根据需要动态调整编码码率,在合成音频质量、系统空间中取得平衡,最大限度地发挥系统的效能。3GPP 将AMR-WB+和EAAC+两种编码标准用于第三代移动网络中的多媒体服务。,音频文件格式1波形格式
19、2MIDI格式 3MP3压缩格式 4几种流式音频格式,音频文件格式1波形格式WAV是Microsoft Windows本身提供的音频格式,用.wav作为扩展名,其文件格式称为波形文件格式(Wave File Format),在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。,音频文件格式2MIDI格式 电子乐器数字接口(Musical Instrument Digital Interface,MIDI)是用于在音乐合成器(Music Synthesizers)、乐器(M
20、usical Instruments)和计算机之间交换音乐信息,播放和录制音乐的一种标准协议。,音频文件格式3MP3压缩格式 MP3全称是MPEG-1 Layer 3音频文件,是MPEG-1标准中的声音部分,也叫MPEG音频层。MPEG音频层根据压缩质量和编码复杂程度划分为三层,即Layer 1、Layer 2、Layer 3,分别对应MP1、MP2、MP3这三种声音文件。,音频文件格式4几种流式音频格式现在使用最普遍的流格式类型是RealNetworks公司发明的支持网络流媒体技术的实时音频格式,RA、RMA这两个文件类型就是Real Media的音频格式。,第二章 音频处理技术,2.3音频
21、处理软件Audition功能介绍编辑环境基本操作,Audition软件是Adobe公司推出的一款完整的、应用于Windows系统的PC上的多音轨音频工作站。该软件前身称为Cool Edit,Adobe公司在2003年5月从Syntrillium Software公司成功购买后将其更名为Audition。,功能介绍Adobe Audition 3.0是一款功能强大的、专业级的音乐编辑软件,能高质量地完成高级混音、编辑、控制、合成和特效处理,允许用户编辑个性化的音频文件,创建循环,引进了45个以上的DSP特效以及高达128个音轨。Adobe Audition拥有集成的多音轨和编辑视图、实时特效、环
22、绕支持、分析工具、恢复特性和视频支持等功能,为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。Adobe Audition提供了直觉的、客户化的界面,允许用户删减和调整窗口的大小,创建一个高效率的音频工作范围。,编辑环境Audition提供了三种专业的工作视图界面,包括:编辑视图(Edit View)多轨视图(Multitrack View)CD视图(CD View),图2-16 多轨视图界面,图2-17 单轨视图界面,图2-23 CD视图,基本操作1单轨视图(1)打开或创建一个音频文件(2)编辑音频(3)保存更改,基本操作2多轨视图(1)打开或创建一个音频文件(2)插
23、入或录制音频文件(3)施加效果(4)混合轨道(5)输出,推荐多媒体软件认证考试1.全国计算机信息高新技术考试(CITT)考试名称:劳动和社会保障部全国计算机信息高新技术考试(全称)国家计算机高新技术考试(简称)证书名称:全国计算机信息高新技术考试合格证书(全称)OSTA计算机认证(简称)发证部门:人力资源和社会保障部职业技能鉴定中心网址:http:/模块化(12个)分级考试(5级):相关模块:计算机辅助设计(AutoCAD,Protel),图形图像处理(PhotoShop,3DMax,CorelDRAW,Illustrator),多媒体软件制作(Director,Authorware),视频编
24、辑(Premiere,After Effects)级别:高级操作师级,操作师级,高级操作员级,操作员级,初级操作员级,推荐多媒体软件认证考试2.全国计算机应用技术证书考试(NIT)证书名称:全国计算机应用技术考试证书发证部门:教育部考试中心网址:http:/相关专业:电脑美术设计师(电脑美术设计师,三维数码影像设计师),推荐多媒体软件认证考试3.全国计算机辅助技术认证(CAXC)证书名称:全国计算机辅助技术应用工程师证书发证部门:教育部教育管理信息中心,全国计算机辅助技术认证(CAXC)管理办公室网址:考试科目:机械设计类、机械制造类、建筑设计类、模具类、设计分析等 考试软件:AutoCAD,
25、Inventor,Pro/E-CAD,SolidWorks,UGNXCAD,CAXA,UG NX,Ansys,ADAMS等,推荐多媒体软件认证考试4.Adobe认证网址:http:/Adobe产品专家ACPE:单科认证形式,通过其中的任意一门就可颁发。Adobe设计师ACCD:创意设计师,网络设计师,影视后期设计师。模块。平面视觉设计师动漫职业技能认证RIA开发技术认证,推荐多媒体软件认证考试5.Autodesk认证 网址:http:/三级:初级工程师、中初级工程师、高初级工程师科目:AutoCAD,AutoCAD Mechanical,AutoCAD Civil3D,Inventor,Revit Architecture,AliasStudio,3ds Max 和Autodesk Maya。,推荐多媒体软件认证考试6.ACAA认证 证书名称:ACAA中国数字艺术设计师 ACAA中国高级数字艺术设计师 发证部门:ACAA中国数字艺术教育联盟 网址:专业方向:1、ACAA视觉传达/平面设计专业方向;2、ACAA动态媒体/网页设计专业方向;3、ACAA三维动画/影视后期专业方向;4、ACAA动漫设计/商业插画专业方向;5、ACAA室内设计/商业展示方向。级别:单项认证,综合认证,