数字媒体复习资料.docx

上传人:牧羊曲112 文档编号:3558936 上传时间:2023-03-13 格式:DOCX 页数:126 大小:117.30KB
返回 下载 相关 举报
数字媒体复习资料.docx_第1页
第1页 / 共126页
数字媒体复习资料.docx_第2页
第2页 / 共126页
数字媒体复习资料.docx_第3页
第3页 / 共126页
数字媒体复习资料.docx_第4页
第4页 / 共126页
数字媒体复习资料.docx_第5页
第5页 / 共126页
亲,该文档总共126页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数字媒体复习资料.docx》由会员分享,可在线阅读,更多相关《数字媒体复习资料.docx(126页珍藏版)》请在三一办公上搜索。

1、数字媒体复习资料 第一章 数字媒体 l 概念 媒体包括两层含义: 传递信息的载体,称为媒介,是由人类发明创造的记录和表述信息的抽象载体,也称为逻辑载体,如文字、符号、图形、编码等。 存储信息的实体,称为媒质,如纸、磁盘、光盘、磁带、半导体存储器等。载体包括实物载体、或由人类发明创造的承载信息的实体,也称为物理媒体。 数字媒体包括两个方面, 信息,内容采用二进制表示;01010000 媒介,能存储、传播二进制信息。 l 媒体的分类及定义 n 按照人的感觉 u 媒体可分为视觉媒体、听觉媒体等; n 按照信息的表现形式 u 媒体可分为语言媒体、文字媒体、音乐媒体、图形媒体、动画媒体和视频媒体等; n

2、 按照信息的种类 u 媒体可分为新闻媒体、科技信息媒体、生活媒体等。 依据信息的载体不同又有不同分类 n 按载体的种类 u 媒体可分为报纸、信件、电话、计算机、网络等; n 按照不同应用方式 u 媒体可分为印刷媒体、幻灯、电影媒体、广播电视媒体、计算机媒体、计算机多媒体、网络媒体等。 n 按照媒体产生的时间和历史 u 媒体又可以分为新媒体和传统媒体。 n 按人们对载体的心理承认度 u 媒体又可分为时尚媒体和传统媒体。 n 按载体的传播范围 u 媒体又可分为个人媒体和大众媒体。 国际电信联盟从技术的角度定义媒介: n 感觉 直接作用于人的感官、使人直接产生感觉的一类媒体。如语音、音乐、图像、文字

3、、动画和视频影像等。 n 表示 说明交换信息的类型、定义信息的特征,一般以编码的形式描述,如声音编码、图像编码、文本编码等。 为了加工、处理、存储和传输感觉媒体。 n 显示 获取和显示信息的设备,如显示器、打印机、音箱等输出设备,键盘、鼠标、摄像机等输入设备。 n 存储 存储数据的物理设备,如磁盘、磁带、光盘、内存等。 传输 传输数据的物理设备,如电缆、光纤、无线电波等。 l 媒体的特征 n 多样性 集成性 交互性 信息接收/使用方便 n 数字化 交互性 趣味性集成性技术与艺术的融合 l 媒体的信息表示方法; 数字媒体与多媒体 多媒体技术 指运用计算机综合处理多媒体信息(文本、声音、图形、图像

4、) 的技术, 包括将多种信息建立逻辑连接, 进而集成一个具有交互性的系统等. 数字媒体技术 通过计算机和通信手段,综合处理文本、图像、声音、视频等媒体信息,使抽象的信息变成可感知、可管理、可编辑处理和可交互的一种技术。的表示、记录、存储、编辑处理、传输、显示、检索和管理等各个环节的软硬件技术,一般分为数字媒体表示技术、存储技术、显示应用技术和管理技术等。) 大众传播模式 信号就是比特流。 媒体信息传播模式 一个完整的信息传播过程应包括信息来源、编码器、信息、通道、解码器、接收器 数字媒体传输模式 在数字媒体传播模式中,信源和信宿都是计算机。因此,信源和信宿的位置是可以随时互换的。 超媒体传播模

5、式 霍夫曼认为以计算机为媒介的超媒体传播方式延伸成多人的互动沟通模式;传播者与消费者(C-Consumer)之间的信息传递是双向互动的、非线性的、多途径的过程 数字媒体技术的研究领域 第二章 媒体的存储 内存储器 只读存储器ROM 随机存取存储器RAM 高速缓冲存器Cache 光盘存储器 外存储器 软磁盘 硬磁盘 优盘 CD-ROM CD-R DVD l 内存储器类型和属性、带宽计算方法 RAM、ROM、Cache 按内存的用途分类 (1)主存储器 用来存放CPU正使用或者随时使用的程序或数据。 (2)高速缓冲存储器 是位于CPU和主存储器之间的一种规模较小,但速度很高的存储器。 (3)显示存

6、储器 是用来存放屏幕上显示的图形、图像等数据 按内存的外观分类 按照内存的外观来分类,可以把内存储器分为双列直插内存芯片和内存条两种。 (1)双列直插内存芯片 双列直插内存芯片DIP是一种含有若干个引脚的半导体芯片。 (2)内存条 内存条是把多片存储器芯片、电容、电阻等元器件焊在一小条印刷电路板上,组装起来合成一个内存模组而形成的一种条形存储器。 按内存的工作原理分类 内存储器按工作方式的不同,可以分为随机存取存储器RAM和只读存储器ROM两种 随机存储器RAM又分为静态随机存贮器SRAM和动态随机存贮器DRAM SRAM的特点是读写速度较快。 主内存通常采用DRAM。 内存发展的7个重要阶段

7、 动态随机存储器DRAM 在DRAM的发展过程中,出现了各种规格类型的DRAM,如: 快速页面模式随机存储器FPM 扩展数据输出随机存储器EDO DRAM 突发扩充数据输出随机存储器BEDO RAM 同步动态随机存储器SDRAM DDR是双倍数据速率 存储器总线式动态随机存储器RDRAM DDRII内存 内存储器的技术指标 (1)存取周期工作频率(2)数据宽度和带宽 (3)内存的“线”数 (4)容量 (5)内存的电压 l 外存储器类型和评价性能指标 软盘、硬盘、移动硬盘、USB闪存 软盘的主要参数 (1)面数 (2)磁道数 (3)扇区数 硬盘的相关术语有: (1)磁头数(2)柱面数 (3)每磁

8、道扇区数 (4)交错因子 (5)硬盘单碟容量 (6)容量 反映硬盘的主要性能指标 (1)转速(2)平均访问时间(3)数据传输率 (4)缓存 (5)硬盘的表面温度(6)连续无故障时间 l 光存储技术、原理 光盘又称为CD,是通过冲压设备压制或激光烧刻,从而在其上产生一系列凹槽来记录信息的一种存储媒体。 采用激光照射介质,激光与介质相互作用,导致介质的性质发生变化而将信息存储下来。一般来说介质被激光烧灼成小凹坑。利用烧灼的状态来表示二进制数据。 读取信息时用激光扫描介质,识别出存储单元性质的变化。 光存储单元的性质反射率 反射光极化方向 相变 极性 信息识别 光电检测器能够通过检测出光强和光极性的

9、变化来识别信息 光存储技术特点 存储密度高 信息的信噪比高 非接触式读写和擦出 信息位价格低。 l 光盘驱动系统的组成 驱动器读写头 用半导体激光器和光路系统组成的光头 转动板 线速率恒定的读取数据 光电控制器 信号处理器 l 光盘的分类 l CD-ROM 、CD-R、CD-RW、WORM l 光盘的主要技术指标 容量 光盘盘片的容量一般用户容量比格式化容量要少,因为光盘还需要存放有关控制、校验等信息。 平均存取时间 平均寻道时间:一般取光头沿半径移动全程1/3长度所需要的时间 平均等待时间:盘片旋转一周的一半时间 平均存取时间=光头稳定时间+寻道时间+等待时间200-400ms 光盘存取时间

10、 20ms 硬盘存取时间 数据缓冲区大小 512k 数据传输率 单位时间内从光盘的光道上传送的数据比特数, 这与光盘转速、存储密度有关。 接口标准及格式规范等 IDE 兼容性好 SCSI 连接多个外设 数据传输速率高 USB 便携 SATA 接口 l 光盘的物理构造 l 光盘工作原理 l CD-ROM 直径约12cm、容量约650MB、价格低廉 光存储原理 记录介质为光刻胶的玻璃盘基 记录信息 光源光调制器光束照射介质曝光显影脱胶正向母盘 带有凹坑的母版 金属母盘复制光盘 CD-ROM光盘是由母盘压模制成的, 一旦复制成形,永久不变,用户只能读出信息。 读信息 激光照射在凹坑上,利用凹坑和周围

11、介质光反射率的差别读出信息 CD-ROM采用激光调制方式记录信息, 将信息以凹坑和凸区的形式记录在螺旋形光道上。 光道上凹坑或凸区的长度是0.28微米的整数倍。凹凸交界的正负跳变沿均代表数字1,两个边缘之间代表数字0,0的个数是边缘之间长度决定的。 l CD-R 利用热效应 利用激光束照射CD-R光盘中的有机染料记录层,照射点的染料发生汽化,形成与记录信息对应的凹坑点; 读信息:利用凹坑点与周围介质反射率的差别 l WORM WORM光盘在使用前首先要进行格式化, 形成格式化信息区和逻辑目录区, 利用激光照射介质, 使介质变异, 利用激光不同的变化, 使其产生一连串排列的点,从而完成写的过程。

12、 引入文件分配表的概念, 在光盘的根目录下面是用户定义的逻辑目录, 逻辑目录对应文件管理区。 一旦写入就不能再更改。 l CD-RW可重写光盘的擦写原理 改变光盘介质的某种性质 磁光式 相变式 磁光式擦写原理 该盘普遍采用玻璃盘基上再加四层膜结构组成,它是以稀土过渡金属非晶体垂直磁光膜作为记录介质光学膜和保护膜的多层夹心结构。 激光束照射下,发生热磁效应,通过记录点的磁化方向发生变化来记录信息; 两种磁光写操作方法 居里点记录(稀土铁合金膜介质)、补偿点记录(稀土钴合金膜介质) 某一方向饱和式磁化 外磁场反向磁化 失去磁性 磁性相反存储单元 磁化存储单元 居里点热磁效应 居里点热磁效应 图 信

13、息1记录方式 相变式擦写原理 利用记录介质的两个稳态之间的互逆相结构的变化来实现信息的记录和擦除。两种稳态是反射率高的晶态和反射率低的非晶态(玻璃态)。 写过程是把记录介质的信息点从晶态转变为非晶态。利用高功率调制后的激光束照射介质,形成非晶相记录点; 擦过程是写过程的逆过程,即把激光束照射的信息点从非晶态恢复到晶态。利用低功率、宽脉冲激光照射介质,使相记录点变回到晶态。 光存储技术发展历史 第一代光存储技术 CD-ROMCD-RCD-RW 激光波长780nm,光斑0.45um,道间距1.6um,650MB 第二代数字多用光盘DVD DVD-ROM/DVD-R/DVD-RW 波长635nm、6

14、50nm,孔径0.4um,道间距0.74um,单面4.7GB,双面17GB 第三代光存储技术 蓝光存储 HDTV 光存储密度=KNA/ NAl为物镜的数值孔径 蓝紫色半导体激光器 405nm(纳米),单面12GB,30Mbit/s, 1nm=1/10-9 m sony 单面23GB/25GB, 单光头72Mbps,122Mbps, 误码率低 5*10-4,擦写10次后1*10-4 多层相变记录光盘,双层/四层 近场光记录 多阶光存储技术 第四代光存储技术 全息光存储海量数据存储 以全息图形式将数据记录到存储介质上 传统的光存储方式仅是光学头的按位记录点, 而全息存储记录,记录的则是干涉图样,

15、覆盖了物体发射或散射出的光场的完整信息,包括光场的振幅和位相。这种把光波的干射/衍射特性应用于信号的编码解码是全息存储相对于传统光学存储所有优势根源所在。 存储采用复用技术 空间复用 全息图;体积复用 角度复用、位相、波长复用; 混合复用 特点 存储密度高、存储速率快、高冗余度、寻址速度快 光盘的规范和标准 CD-DA 这个标准是CD的最基本标准。 CD-ROM CD-V(Video) 在影碟机上使用, 视频信息可以输出到电视机。 可录CD CD-R 可录CD分为两类, 即CD-MO和CD-WO。CD-MO称为磁光盘,可重写; CD-WO又称CD-R, 这种盘一旦用户写入数据就不能抹掉。 CD

16、-I 可播放交互式视频图象。 CD-ROM XA Photo-CD 用于存放数字化的静态照片。 Video CD它能使Video CD节目能够在CD-I、CD-ROM/XA和Video CD播放机上播放。 DVD 声音信号的数字化过程 采样、量化和编码 CD-DA即激光唱盘 这种光盘常采用常线速(CLV)伺服方式, 逆时针旋转。其螺旋线光道上等长分段, 每段称为一个扇区。每个扇区都存放定量数据块, 并以特定的地址标记,其单位为分、秒、扇区,即1分=60秒,1秒=75扇区,光道总长度为74分, 即可存放74分钟高音质非压缩的音频信号。 每个扇区音频数据量? 98*24=2352字节 EFM编码

17、提高数据的可靠性,减少误码率 EFM ( Eight to Fourteen Modulation) 编码,即将1字节的8位编码为14位的光轨道位,并在每14位之间插入3位合并位 以确保1码间至少有2个0码,但最多有10个0码。 标准名称 Red Book(红皮书) 盘的名称 CD-DA 应用目的 存储音乐节目 存储文图声象等多媒体节目 存储文图声象等多媒体节目 读/写入文图声象等多媒体节目 存储影视节目 存储模拟电视 数字声音 存储照片 存储影视节目 播放时间 74分钟 显示的图像 YellowBook(黄皮书) CD-ROM Green Book(绿皮书) Orange Book(橙皮书)

18、 CD-I CD-R 存储650 MB的数据 动画、静态图像、动态图像 存储多达760 MB的数据 70分钟(MPEG-1) 动画、静态图像 数字影视(MPEG-1)质量 White Book(白皮书) Video CD Red Book +(红皮书+) CD-Video CD-Bridge Photo CD 56分钟(电视)20分钟模拟电视图像 数字声音 (声音) 200分钟 静态图像 模拟电视图像 Blue Book(蓝皮书) LD(LaserDisc) CD-DA的规范和格式,一张激光唱盘音频数据的容量是多少? 74min*60*75*98*24=746.93298MB CD-ROM光盘

19、有两种格式: Mode1和Mode2,也是等长扇区,它与CD-DA的不同主要在每个扇区中数据格式的不同。 Mode1和Mode2格式相同之处:这两种方式的扇区首部都是12字节的同步码(SYNC), 其前后为00H而中间10个字节存放FFH数据。紧接着的4个字节为地址字段, 或称扇区头(HEADER),它采用分、秒、扇区号的制式确定地址标号, 地址字段中设置了MODE字节, 指明该扇区是哪种格式。 用户数据容量 Mode 1 2048 Mode 2 2336 存储数据类型 用于存放对错误极为敏感的数据如计算机程序等。这样它可通过后用于存放对错误不太敏感的数据如声面ECC记录的纠错信息保证其准确性

20、 音,图像,图形等数据 10-12这是计算机数据误码率的最低要求。它由ECC 进一步校验来 10-9这对声音,图像,图形等数据的校完成 验已足够 误码率 CD-ROM XA 它所定义格式包括与CD-I格式相同的FORM1和FORM2格式,解决了普通CD-ROM驱动器不能读CD-I格式光盘的问题。实现了声音和动态影像的同步。 Video CD标准是目前流行的视频光盘标准,它描述一个使用CD格式和MPEG-1标准的数字电视播放系统。 Video CD定义了MPEG光道的结构, 它由MPEG-Video扇区和MPEG-Audio扇区组成。光道上的Video(电视图象)和Audio(声音)是按MPEG

21、-1的规定进行编码。 MPEG-Video扇区和MPEG-Audio扇区是交错存放在光道上 。 DVD光盘 MPEG-2的视频质量是广播级质量,为解决其MPEG-2数据存储问题, 研制了DVD并于XX年完成标准化方案。DVD盘片尺寸与CD相同,容量最高的双层双面盘可达17GB。单面单层DVD盘能够存储4.7GB的数据,存储133分钟的MPEG-2视频,其分辨率与现在电视相同, 并配备Dolby AC-3/MPEG-2音频质量的声音和不同语言的字幕。 DVD-Video的规格 数据传输率 图象压缩标准 声音标准 可变速率, 平均速率为4.69Mbps, 最大速率10.7Mbps MPEG-2标准

22、 NTSC: DolbyAC-3或LPCM,可选用MPEG-2 Audio PAL/SECAM: MPEG MUSICAM 5.1或LPCM, 可选用Dolby AC-3 多达8个声音通道和32个字幕通道 通道数 DVD与VCD的比较 从外观和尺寸上看,DVD盘和CD-ROM盘没什么差别, 直径均为120mm,厚度为1.2mm; 新的DVD播放机能够播放已有的CD激光唱片和VCD。 不同点: DVD光道之间的间距由原来的1.6m缩小到0.74m,而记录信息的最小凹坑凸区长度由原来的0.83m缩小到0.4m,这是DVD盘存储容量提高到4.7GB的主要原因。 DVD信号的调制方式和错误校正方法也做

23、了相应的修正以适合高密度的需要,它采用效率较高的8比特到16比特+(EFM PLUS)调制方式,DVD校验系统采用更可靠的RS-PC(Reed Solomon Product Code)。 DVD播放机也采用波长更短(由780nm减小至635/650nm)的激光源来提高聚焦激光束的精度。 DVD提高容量的方法 常规的CD盘只使用一个面并且只用一个记录层来记录信息。为了提高存储容量,DVD盘可分为单面单层、单面双层、双面单层以及双面双层4种结构。 根据DVD的容量和格式可以将DVD大致可分成DVD-5、DVD-9、DVD-10和DVD-18。 VCD与DVD的性能比较 特性 材料与尺寸 光道间距

24、 最小凹凸坑长度 数据层数 容量 数据格式 驱动器 VCD 详见2.1 1.6m 0.83m 单面单层 680MB MPEG-1 DVD 与VCD相同 0.74m 0.4m 单面单层双面双层 4.7MB17GM MPEG-2 兼容VCD 第三章 数字媒体中的数据的压缩和存储方法 l 媒体压缩基础; 传统上用模拟方式表示声音和图象信息 模拟信号表示信息的主要缺陷? 易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步积累; 模拟信号不适合数字计算机加工处理。 数字化处理:巨大的数据量 基本概念 采样频率 量化精度 数据流 二进制数据表示 采样定理?仅当采样频率2倍的原始信号频率时,才能保证

25、采样后信号可被保真地恢复为原始信号。 设电视信号YIQ彩色空间各分量的带宽分别为:4.2MHZ、1.5MHz、0.5MHz,量化等级8比特 (4.21.5+0.5)*2*8Mb=99.2Mb 数据压缩的可能性与信息冗余 一般的数据冗余主要体现在: 空间冗余 最经常存在的冗余 结构冗余 有些图象从大域上看存着非常强的纹理结构,我们称它们在结构上存在有冗余. 时间冗余 这是序列图象和语音数据中所经常包含的冗余。 视觉冗余 人类视觉系统对于图象场的任何变化,并不是都能感知的。 视觉分辨率约为26灰度等级,一般图象量化采用28灰度等级 听觉冗余 人耳对不同声音的敏感性不同,并不能察觉所有频率的变化,对

26、某些频率不关注。 知识冗余 信息熵冗余 信息熵是指一组数据所携带的信息量,它定义为: H=-i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. 为使信息编码单位数据量d接近于或等于H,应设: d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1). 信息熵是指一组数据所携带的信息量,它定义为:H=-i=0N-1Pi log2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. 等概率事件的信息熵最大 为使信息编码单位数据量d接近于或等于H,应设:d=

27、i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1). 数据压缩技术的性能指标 压缩比 输入数据量和输出数据量之比 Bpp 数据压缩质量 有损压缩、无损压缩 2222s=Ex(n),sxr=Exn-xn 压缩算法评价 均方误差 信噪比 峰值信噪比 222xmaxsEn=1/n(xi-xi) SNR(dB)=10lgx2PSNR(dB)=10lgsr2 xn原始信号 xn重建信号 xmax为峰值信号s r 压缩、解压的速度 压缩解压速度要快 动态视频要求更高 压缩算法所需要的软件、硬件环境

28、数据压缩分类 数据压缩方法分类 数字媒体压缩标准分类 统预变分图像压缩 视音频压缩 计测换析 编编编码码码合 JPEG等 成 编运动图像 声音 码 M MPEG H.26xAVS P 3 系列 统计编码: 主要针对无记忆信源,根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间的最优 匹配。 预测编码是利用空间中相邻数据的相关性来进行压缩数据的。 变换编码是将图像时域信号转换为频域信号进行处理。 分析合成编码是指通过对源数据的分析,将其分解成一系列更适合于表示的基元或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。 通用的数据压缩技术:通用的压缩方法具有压缩比

29、低、通用性强等特点 PCM DM DPCM 行程编码 字典编码 变换编码 熵编码等 数据压缩的理论极限是信息熵。 信息熵 熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。 若pi为第i个事件的概率为0 pi 1,则该事件的信息量为 一个信源包括的所有数据叫数据量,而数据量中包含有冗余信息。 信息量 = 数据量-冗余量 设从N个数中选定任一个数xj的概率为p(xj),假定选定任意一个数的概率都相等,即p(xj) 1/N,则 I(xj)log2N-log2 1/N -log2p(xj)=Ip(xj) 信源X发出的xj(j=1,2,n)共n个随机事件的

30、信息量的统计平均,即 n(x) log H(X)=EI(xj)= - P j 2 P ( x j) j=1H(X)称为信源X的熵,即信源X发出任意一个随机变量的平均信息量。 其中,等概率事件的熵最大,假设有N个事件,此时熵为: log2N H(X) N 1 1 -log2 Nj=1N 当P(x1)1时,P(x2)P(x3)P(xj)0,此时熵为 logP) 0 H(X) P(x1) 2 ( x 1 由上可得熵的范围 0 H(X) log2N在编码中用熵值来衡量是否为最佳编码。若以Lc表示编码器输出码字的平均码长,其计算公式为: nxj ) P(xj) 是信源X发出xj的概率,L(xj)为xj的

31、编码长。 Lc P ( x j) L ( j=1 平均码长与信息熵之间的关系为: LcH(X) 有冗余,不是最佳。 Lc H(X)不可能。 Lc H(X)最佳编码 熵值为平均码长Lc的下限。 l 了解各种编码方法; 脉冲编码 数字化 滤波 量 编 脉冲编码调制 (Pulse Code Modulation, PCM)就是将模拟调制模拟信号 采样 化 码 信号的采样值变换为脉冲码组,是一种对模拟信号数字化的取样技术,特别是对于音频信号。 PCM编码包括如下三个过程: 传输 采样,将模拟信号转换为时间离散的样本脉冲序列。 量化,将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。 编码

32、,用一定位数的脉冲码组表示量化采样值。 D/A 逆量 解 模拟信号 转换 化 码 模拟化 PCM编码的优点 有很强的抗干扰性;能方便的利用计算机编程,实现各种智能化设计。 增量调制 增量调制也称调制(delta modulation,DM),它是一种预测编码技术,是PCM编码的一种变形。 DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成0和1这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为正,则用1表示;相反则用0表示,或者相反。 差分脉冲编码调制DPCM 差分脉冲编码调制是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。 差值脉冲编码调

33、制是利用信号的相关性找出可以反映信号变化特征的一个差值量进行编码。 线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的相关性。每个象素可根据已知的前几个象素来作预测。因此在预测编码中,编码和传输的并不是象素采样值本身,而是这个采样值的预测值与其实际值之间的差值 它与脉冲编码调制不同处在于,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码。 DPCM系统中的误差来源是发送端的量化器,而与接收端无关,若去掉量化器使eN=eN,则XN=XN,即实现信息保持编码。事实上,这种量化误差是不可避免的。 行程编码 行程编码又称行程长度编码,是一种熵编码。这种编

34、码方法广泛地应用于各种图像格式的数据压缩处理中。最简单的压缩图像的方法之一。 行程编码的原理是在给定的图像数据中寻找连续重复的数值,然后用两个字符取代这些连续值。即将具有相同值的连续串用其串长和一个代表值来代替,该连续串就称为行程,串长称为行程长度。 行程编码分类 定长编码 定长编码是指编码的行程长度所用的二进制位数固定 不定长编码 变长行程编码是指对不同范围的行程长度使用不同位数的二进制位数进行编码。使用变长行程编码需要增加标志位来表明所使用的二进制位数。 如图所示,假定一幅灰度图像,第n行的像素值为: 1111 888 888 1111 00000000000000 用RLE编码方法得到的

35、代码为:4160831130。代码红体字表 示的数字是行程长度,红体字后面的数字代表像素的颜色值。 4个1 60个8 3个1 13个0 例如黑体字60代表有连续60个像素具有相同的颜色值,它 的颜色值是8。 词典编码 词典编码技术属于无损压缩技术,主要是利用数据本身包含许多重复的字符串的特性。可以用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。词典编码法的种类有很多,归纳起来大致有两种。 输入数据 输出数据 第一种方法的思想是查找目前正在压缩输入数据 输出数据 编码词典 A A 的字符序列在以前输入的数据中是否出 A 1 1.

36、 A B 现过,然后用出现过的字符串代替重复 B B B C 2. A X 的部分,它的输出仅仅是指向早期出现 4 3. A E C C 过的字符串指针。 C 这种编码的概念如左图所示。这里所指 A 4. A X X D D A 的词典是指用以前处理过的数据表示编 D 5. B X D X X 码过程中遇到的重复部分。这类编码的X Y 所有算法都是以LZ77算法为基础的。 X P-指针 A 第二种算法的思想是从输入的数据中 A M 创建一个短语词典,这类短语不一定 B 有具体的含义,可以是任意字符的组 D C 合。在编码过程中遇到在短语词典 Y 中出现的短语,编码器就输出这个词典 M 中的短语

37、索引号,而不是短语本身。 其概念如右图所示。 . . . . LZ77 算法在某种意义上又可以称为滑动窗口压缩,该算法将一个虚拟的、可以跟随压缩进程滑动的窗口作为词典,要压缩的字符串如果在该窗口中出现,则输出其出现位置和长度。 LZ77算法具体步骤 把编码位置设置到输入数据流的开始位置。 找窗口中最长的匹配串 以(Pointer, Length) Characters的格式输出,其中Pointer是指向窗口中匹配串的指针,Length表示匹配字符的长度,Characters是前向缓冲存储器中的不匹配的第1个符。 如果前向缓冲存储器不是空的,则把编码位置和窗口向前移(Length+1)个字符,然

38、后返回到步骤。 LZW算法 LZW压缩算法是一种新颖的压缩方法,它采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存贮数字,则不存贮串,从而使图像文件的压缩效率得到较大的提高。 LZW编码是围绕称为词典的转换表来完成的。 开始时的词典包含所有可能的根(Root),而当前前缀P是空的; 当前字符(C) :=字符流中的下一个字符; 判断缀-符串P+C是否在词典中 如果是:P := P+C / (用C扩展P) ; 如果否: 把代表当前前缀P的码字输出到码字流; 把缀-符串P+C添加到词典; 令P := C /(现在的P仅包含一个字符C); 判断字符流中是否

39、还有字符要编码 如果是,就返回到步骤2; 如果否: 把代表当前前缀P的码字输出到码字流; 结束。 l 重点掌握变换编码、预测编码、信息熵编码的原理方法; 变换编码 变换编码在频域中进行针对频域中能量集中的特点进行压缩 输入图象G经正交变换U变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。 对变换系数A中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。 由于量化器存在,量化后变换系数A和A间必然存在量化误差,从而引起输入图象G和输出图象G间存在误差。图中U是U的逆变换。 变换编码数据压

40、缩主要是去除信源的相关性。 设信源序列为X=X0, X1, XN-1,表征相关性的统计特性就是协方差矩阵: 其中i,j=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上元素之外各元素均为0时,就等效于相关性为0。 为了有效压缩,希望变换后的协方差矩阵为对角矩阵,并希望主对角线元素随i, j增加尽快衰减。 已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角阵。 Karhunen-Loeve变换即是这样一种变换,又称为最佳变换,它能使变换后协方差矩阵为对角阵,并且有最小均方误差。它的计算比较复杂。 实际应用中采用了一些准最佳变换如DCT,D

41、FT和WHT等,使用这些变换后的协方差矩阵一般都接近一对角阵。 信息熵编码 又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。 基本思想: 在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。 如Huffman编码、算术编码。 Huffman定理 定理 在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。 Huffman定理是Huffman编码的理论基础 算术编码 六十年代初,Elias提出

42、了算术编码概念。 XX年, Rissanen和Pasco首次介绍了它的实用技术。其基本原理是将编码的信息表示成实数0和1之间的一个间隔,信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。 算术编码的特点 不必预先定义概率模型,自适应模式具有独特的优点; 信源符号概率接近时,建议使用算术编码,这种情况下其效率高于 Huffman编码(约5%)。JPEG扩展系统采用。 第四章 音频 l 数字音频的基本概念; 什么是声音? 声音是通过空气传播的一种连续的波。 声波压力的大小体现声音的强弱;声音的频率体现音调的高低 声音的重要性和特点 信息量大、精细、精确 声音的分类 频率小于20

43、Hz的信号称为亚音(subsonic); 频率范围为20 Hz20 kHz的信号称为音频(Audio) 高于20 kHz的信号称为超音频(ultrasonic) 音频信号 规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻t都可分解成一系列正弦波的线性叠加: 声音信号 f ( t0 ) 是一种周期性的复合信号,它的特征就是其中许多单一信号即正弦波信号 An Sin (no t + n) 的特性,也即幅度An 频率o和相位n的特征决定了音频信息的特性 音频信号特点 音频信号处理的特点 : 音频信号是时间依赖的连续媒体。因此,音频处理的时序性

44、要求很高。如果在时间上有25ms的延迟,人就会感到断续; 理想的合成声音应该是立体声; 语音信号包含大量的语义;如何抽取语义就成为音频信号处理的一个非常有意义的研究分支。 音频信号基本概念 基频与音调 频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率0所决定的。音乐中音阶的划分是在频率的对数坐标20logf上取等分而得的。 谐波与音色 n0称为0的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An和相位偏移n,由此产生各种音色效果。 幅度与音强 人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3 分贝的音强变化,再细分则没有太多意义。我们常用音量来描述音强,以

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号