多媒体数据处理的技术标准.ppt

资源描述

《多媒体数据处理的技术标准.ppt》由会员分享，可在线阅读，更多相关《多媒体数据处理的技术标准.ppt（53页珍藏版）》请在三一办公上搜索。

1、第5章多媒体数据处理的技术标准,本章重点：静止图像的JPEG标准与JPEG2000标准视频编码标准H.26XMPEG,第5章多媒体数据处理的技术标准,JPEG标准定义了三个层次：5.1 静止图像的JPEG标准5.2 静止图像的JPEG 2000标准5.3 视频编码标准H.26X5.4 MPEG5.5 小结,5.1 静止图像的JPEG标准,JPEG标准定义了三个层次：5.1.1 概述5.1.2 基本JPEG编码5.1.3 渐进编码5.1.4 锥形编码5.1.5 熵编码5.1.6 应用JPEG标准示例,5.1.1 概述,JPEG已开发三个图像标准：第一个称为JPEG标准，1992年正式通过。第

2、二个标准是JPEG-LS，能提供接近无损压缩的可逆压缩形式。JPEG的最新标准是JPEG 2000，于1999年3月形成工作草案，2000年底成为正式标准。,5.1.1 概述,JPEG标准定义了三个层次：基本系统扩展系统特殊无损功能,5.1.1 概述,JPEG标准制定了四种工作模式：基于DCT的顺序模式基于DCT的累进模式：无损模式：分层模式：,5.1.1 概述,JPEG编码的基本处理过程包括：图像准备，图像处理，量化和熵编码（图5.1）,5.1.2 基本JPEG编码,基本JPEG编码器和解码器的结构如图5.2。（FDCT表示DCT正变换，IDCT表示DCT反变换。）,5.1.2 基本JPE

3、G编码,基本JPEG的编码方法是顺序编码。基本JPEG编码过程是一次扫描完成的经过Huffman编码用于传输或存储。JPEG系列的基本编码器仅适合8比特的样本输入，且对DC和AC系数各有两张Huffman编码表,5.1.3 渐进编码,渐进编码方式与基本方式不同，每个图像分量的编码要经过多次扫描才能完成。渐进操作方式的编码方法与基本编码方式基本一致。如图5.3所示，渐进编码的显示和顺序显示的效果是不同的。,(a)第1遍，轮廓极不分明(b)第2遍，轮廓不分明(c)第3遍，轮廓分明图5.3 渐进编码显示,5.1.3 渐进编码,渐进和顺序显示比较：,图5.4 渐进（上）和顺序（下）显示比较,渐进编码

4、方式有两种编码模式：频谱选择模式从低频到高频发送一系列DCT系数。这种方法简单易行，但所有的高频信息均会被推迟到后续扫描进行，结果造成早期扫描的图像模糊不清。连续逼近方法由频谱选择方法发展而来。这种模式对所有的频率均发送DCT系数，但仍然保持较低的传输率。其做法是：对每个系数首先只传送n1个最重要的比特，第2次传送n2个最重要的比特，以次类推。这种方法具有良好的图像质量，即使对早期扫描也不例外。将以上两种方法综合，则既具有高效的压缩率，又有优质的图像。,5.1.3 渐进编码,渐进编码方式有两种编码模式：人们有时候会用低分辨率的设备浏览一幅高分辨率的图像。在这种情况下，就不必为高分辨率的图像传输

5、全部DCT系数。JPEG标准利用分层模式来解决这个问题。思路是：将一幅原始图像的空间分辨率，按照水平方向和垂直方向分成多个分辨率进行编码，相邻的两分辨率相差为2的倍数。这种方式又称为锥形（或金字塔）编码方法。,5.1.4 锥形编码,5.1.4 锥形编码,图5.5说明了利用滤波和分层生成锥形编码的过程。锥形编码也可以作为累进传输的一种方式。,5.1.4 锥形编码,锥形编码的过程如下：首先将原始图像信息进行滤波，再以设定的2的倍数为因子对滤波的结果进行“降低采样”，降低原始图像的分辨率。然后对已降低分辨率的图像进行有损或无损方式编码。接着对低分辨率图像解码，进行“增加采样”。相邻的两分辨率的差值可

6、用任何一种编码方式编码。重复上述步骤，直到要编码图像达到完整的分辨率。,5.1.5 熵编码,JPEG标准的熵编码分为2步：首先，将系数转换为中间符号序列，再对这些符号进行Huffman编码或算术编码。88块的DC值采用差分编码，AC系数的中间符号序列的差异性比DC系数的差异性略大。DC和AC 系数的统计量不一样，它们采用了不同的Huffman表。JPEG标准的基本顺序编码仅允许输入8比特整数像素，但是AC系数可以多3比特，因此AC幅度范围达到-1023，1023。按“Z”形排列的AC系数映射到中间符号序列“符号1”和“符号2”的树对上。,5.1.5 熵编码,“符号1”表示为（行程，尺寸）。这里

7、行程长度是前后两个非零AC之间连续的个数，尺寸是后一个非零系数幅值编码所需要的比特数。“符号2”表示为（幅值），其含义为非零AC系数的值。“符号1”序列采用熵编码，一般为Huffman编码方式。“符号2”为正值时，直接采用其二进制表示形式；为负值时，采用其二进制的补码形式。因此，事实上只压缩了“符号1”。由于使用差分编码，差分DC系数范围达到-2047，2047，其“符号1”序列包括尺寸，“符号2”序列表示差值的幅值。同AC系数一样，DC系数也仅对“符号1”进行熵编码。因此仅需要12个码字表示尺寸信息，而非4095个码字。,5.1.6 应用JPEG标准示例,下面给出一个JPEG处理实例：图像分

8、块、计算DCT系数以及系数量化结果：,图像分成88的小块,一个88块的亮度值,5.1.6 应用JPEG标准示例,该块的DCT系数,量化的DCT系数,5.1.6 应用JPEG标准示例,按Z形路径将DCT系数先经行程编码，最后得到Huffman编码。,5.2 静止图像的JPEG 2000标准,5.2.1 JPEG 2000标准概述5.2.2 JPEG 2000标准的处理过程,5.2.1 JPEG 2000标准概述,JPEG 2000是一个较新的图像标准，目的是利用当前的压缩技术，提供一种新的图像编码体系。根据专家组确定的目标，新标准不仅能提高对图像的压缩质量（尤其是低码率时的压缩质量），而且还将得

9、到许多新功能，包括根据图像质量、视觉感受和分辨率进行渐进传输、对码流的随机存取和处理、开放结构、向下兼容等。JPEG 2000与传统JPEG最大的不同，在于它放弃了JPEG所采用的以离散余弦变换为主的区块编码方式，而改用以小波变换作为其核心算法，不仅克服了JPEG压缩倍数高时所产生的方块效应，同时还具有压缩率高、同时支持有损和无损压缩、能实现渐进传输、支持感兴趣区(ROI)的编码等优点。,5.2.2 JPEG 2000标准的处理过程,JPEG 2000的基本结构可以参考图5.5。JPEG 2000有两种编码模式：基于DCT的编码模式：采用现在的基线JPEG；基于小波的编码模式：包括不能还原和能

10、还原的变换。,图5.5 JPEG 2000的基本结构,5.2.1 JPEG 2000标准概述,JPEG 2000基于DCT的编码模式是为了兼容JPEG，但对算法进行了更新或改进。基于小波的编码模式采用了基于离散小波变换（DWT）技术、标量量化、上下文建模、算术编码、以及后压缩率配置等新技术。处理过程如下：(1)对原始图像进行预处理，主要是DC位移。(2)对图像进行正向分量变换，把图像分解成分量图像，例如，把彩色图像分解成亮度、色度分量。,5.2.1 JPEG 2000标准概述,(3)把图像（或分量图像）分解成大小相等的矩形块，称为图像片（tiles）。图像片是原始或重建图像的基本单位。(4)在

11、一个图像片上进行小波变换，形成分解级别。这些分解级别可以产生不同分辨率的成分。这些分解级别由系数的子频带组成，而这些系数描述了片成分上局部区域的频率特性。对小波系数子频带进行量化，并汇集进码块矩形数组。(5)对一个码块中的系数位面或比特面进行三次编码扫描，完成熵编码。,5.3 视频编码标准H.26X,H.26X是由ITU-T制定的视频编码标准，主要有H.261、H.263、H.264等。其中，H.261制定于20世纪90年代初，尽管它的应用正在渐渐减少，但其所采用的基本方法对之后的视频编码标准的制定影响很大，对于理解MPEG-1、MPEG-2、H.263和H.264等标准非常有帮助。H.263

12、标准制定于1996年，是目前视频会议的主流编码方法。2003年制定的H.264标准则是新一代的视频编码标准，在相同视频质量下，其压缩倍数较H.263有较大提高，具有广阔的应用前景。,5.3 视频编码标准H.26X,5.3.1 H.2615.3.2 H.2635.3.3 H.264,5.3.1 H.261,H.261是ITU-T针对视频电话、视频会议等要求实时编解码和低时延应用提出的第一个视频编解码标准，于1990年12月发布。H.261标准将CIF和QCIF格式的数据结构划分为4个层次：图像层(P)、块组层(GOB)、宏块层(MB)和块层(B)。H.261的编码框图如图5.6所示，其中有两个模

13、式选择开关用来选择编码模式，编码模式包括帧内编码和帧间编码两种，若两个开关均选择上方，则为帧内编码模式；若两个开关均选择下方，则为帧间编码模式。,5.3.1 H.261,图5.6 H261的编码框图,5.3.2 H.263,H.263标准制定于1995年，是ITU-T针对64kbit/s以下的低比特率视频应用而制定的标准。它的基本算法与H.261基本相同，但进行了许多改进，使得H.263标准获得了更好的编码性能。H.263系统支持5种图像格式（Sub-QCIF，QCIF，CIF，4CIF，16CIF）与H.261相同，H.263仍然采用图像层P、块组层GOB、宏块层MB和块层B共4个层次的数据

14、结构，但与H.261不同的是，在H.263中，对于不同的格式，每个GOB包含的MB数目是不同的，对应的行数也不同。H.263的编码器框图如图5.7所示。,5.3.2 H.263,图5.6 H263的编码框图,5.3.3 H.264,ITU-T H.264标准于2003年通过，也成为ISO的MPEG-4标准的第十部分，其名称为“先进视频编码(Advanced Video Coding)”。H.264标准定义了两个层次，视频编码层(VCL)和网络抽象层(NAL)。H.264既支持逐行扫描的视频序列，也支持隔行扫描的视频序列，取样率定为4：2：0。,5.3.3 H.264,与H.263比，H.264

15、具有以下优点：(1)更高的编码效率。(2)自适应的时延特性。(3)面向IP包的编码机制。(4)错误恢复功能。(5)开放性。H.264基本系统无须使用版权，具有开放性。,5.3.3 H.264,(3)面向IP包的编码机制。H.264引入了面向IP包的编码机制，有利于IP网络中的分组传输，支持网络中视频流媒体的传输，并且支持不同网络资源下的分级传输。(4)错误恢复功能。H.264提供了解决网络传输包丢失问题的工具，可以在高误码率的信道中有效地传输数据。(5)开放性。H.264基本系统无须使用版权，具有开放性。,5.3.3 H.264,与H.263比，H.264具有以下优点：(1)更高的编码效率。(

16、2)自适应的时延特性。(3)面向IP包的编码机制。(4)错误恢复功能。(5)开放性。H.264基本系统无须使用版权，具有开放性。,5.3.3 H.264,与H.263比，H.264具有以下优点：(1)更高的编码效率。(2)自适应的时延特性。(3)面向IP包的编码机制。(4)错误恢复功能。(5)开放性。H.264基本系统无须使用版权，具有开放性。,5.3.3 H.264,H.264标准分为基本档次、主要档次和扩展档次，以适用于不同的应用。基本档次应用包括视频电话、视频会议和无线视频通信等。主要档次主要应用是广播媒体，例如数字电视、存储数字视频等。(3)面向IP包的编码机制。扩展档次主要用于网络视

17、频流媒体的应用。,5.4 MPEG,5.4.1 MPEG-15.4.2 MPEG-25.4.3 MPEG-45.4.4 MPEG-75.4.5 MPEG-21,5.4.1 MPEG-1,MPEG-1的正式名称是“用于数字存储媒体的1.5Mbit/s以下的活动图像及相关音频编码”(ISO IEC 11172)，它包括5个部分：系统、视频、音频、一致性和软件。MPGE-1采用分层结构组织数据，从上到下依次是：图像序列、图像组、图像、片、宏块和块。,5.4.1 MPEG-1,根据压缩方式不同，MPEG-1定义了4种类型的图像帧：I帧，只采用帧内编码；P帧，采用运动补偿编码，只参考前一帧图像(I帧或P

18、帧)；B帧，可以采用前向、后向和内插运动补偿编码，参考前一帧和后一帧图像(I帧或P帧)；D帧，只含有直流分量的图像，也称为直流图像，它是专门为快速播放和快速检索功能而设计的，但由于它不能作为其他帧的预测帧，因此使用不多。,5.4.1 MPEG-1,MPEG-1的编码框图如图5.8所示，以宏块为基本编码单位，分为帧内编码模式与帧间编码模式。,5.4.2 MPEG-2,MPEG-2是MPEG工作组制定的第二个国际标准，正式名称为“通用的活动图像及其伴音编码”(ISO/IECl3818)。其应用包括数字存储、标准数字电视、高清晰度电视、高质量视频通信等。MPEG-2标准由系统、视频、音频、一致性、参

19、考软件、数字存储媒体(命令与控制)、先进音频编码器、实时接口和DSM-CC一致性9个部分构成 MPEG-2支持三种取样格式，即4：2：0、4：2：2和4：4：4。,5.4.2 MPEG-2,MPEG-2基本编码框图的组成与MPEG-1的相同，仍然采用I、P、B三种图像进行编码，但是某些功能模块内部有一些不同。此外，需要实现分级码流功能时，编码框架也有所不同。为了适应不同应用需求，MPEG-2提出了档次(Profile)和级别的概念。MPEG-2定义了简单档次(SP)、主用档次(MP)、信噪比可分级档次(SNRP)、空间域可分级档次(SSP)、高档次(HP)5个档次。,5.4.2 MPEG-2,

20、当输入逐行扫描视频时，MPEG-2的DCT变换与MPEG-1完全相同。针对隔行扫描，MPEG-2增加了一种新的DCT系数扫描方式，即交错扫描。支持可分级编码是MPEG-2的一大特色。所谓可分级编码，就是将整个码流划分为基本层和增强层，解码器需要具备解码基本层的能力以获得基本质量图像。,5.4.3 MPEG-4,MPEG-4标准主要应用于可视电话、可视电子邮件等，对传输速率要求较低，在4.864kb/s之间，分辨率为176144。MPEG-4利用很窄的带宽，通过帧重建技术以及数据压缩技术，以求用最少的数据获得最佳图像。MPEG-4共有16个部分，主要有系统、音频、视频、一致性测试、参考软件等。M

21、PEG-4把视频序列看作是视频对象的集合。,5.4.3 MPEG-4,MPEG-4以对象为基本编码单位，对一系列VOP的纹理、形状和运动信息进行编码。首先编码器的对象分割单元分析输入视频，按照某种方法把视频分割成多个VO.然后编码器对每个视频对象平面VOP进行纹理、运动和形状编码.最后利用码流复用器组织码流。,5.4.4 MPEG-7,MPEG-7将许多相关领域的特点和技术结合了起来，包括计算机视觉、数据库以及信号处理等。MPEG-7目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、语音、电视以及

22、在多媒体演示中它们之间的组合关系等。,5.4.4 MPEG-7,MPEG-7只定义信息储存的格式和语法，至于如何取得这些信息则不在其规范之列。MPEG-7描述多媒体内容的特殊特性和多媒体内容管理相关的信息等。MPEG-7并不针对某种特殊的应用，相反它的标准化的要素将支持尽可能广泛的应用。,5.4.4 MPEG-7,MPEG-7只定义信息储存的格式和语法，至于如何取得这些信息则不在其规范之列。MPEG-7描述多媒体内容的特殊特性和多媒体内容管理相关的信息等。MPEG-7并不针对某种特殊的应用，相反它的标准化的要素将支持尽可能广泛的应用。,5.4.4 MPEG-7,MPEG-7的主要应用有以下几类

23、：第1类是索引和检索类应用，主要是通过搜索/查询引擎完成多媒体数据的查找功能；第2类是选择和过滤类应用，主要是通过过滤器使用户完成对多媒体数据的选择和过滤，达到提供个性化和智能化服务的目的等。第3类是专业数据库及广播类应用，主要是为专业数据库如数字化图书馆、广播媒体查询如在无线信道中进行检索等提供服务。另外，MPEG-7在教育、新闻、旅游信息、娱乐、购物等领域也将有许多潜在的应用。,5.4.5 MPEG-21,MPEG-21称为多媒体框架，1999年开始征集需求，现正投入开发的标准。MPEG-21的远景规划是：定义一个交互式的多媒体框架以满足所有用户的需要，使能够跨越大范围的网络和设备透明地和

24、增强地使用多媒体资源。MPEG-21的最终目标是要为多媒体信息的用户提供透明而有效的电子交易和使用环境。,5.5本章小结,本章简要介绍了常用的图像及视频编码标准，包括JPEG系列，H.26X系列和MPEG系列等。JPEG是静态图像编码压缩标准，可以压缩任何连续色调的静止图片，适用于大部分通用的计算机平台。JPEG 2000改用以小波变换作为其核心算法，不仅克服了JPEG压缩倍数高时所产生的方块效应，还带来了其他优点。H.26X是由ITU-T制定的视频编码标准，主要有H.261、H.263、H.264等。,5.5本章小结,MPEG标准主要由视频、音频和系统3个部分组成，是一个完整的多媒体压缩编码方案。包括 MPEG-1，MPEG-2，MPEG-4，MPEG-7，MPEG-21等标准。,

展开阅读全文