视频编码技术ppt课件.ppt_三一办公31ppt.com

资源描述

《视频编码技术ppt课件.ppt》由会员分享，可在线阅读，更多相关《视频编码技术ppt课件.ppt（84页珍藏版）》请在三一办公上搜索。

1、第3章视频编码技术,1.视频信号的数字化2.视频文件格式3.视频压缩编码原理4.视频压缩标准,学习目标,掌握视频数字化方法了解视频文件格式掌握视频压缩编码原理（预测编码、变换编码、统计编码原理）理解视频压缩标准（ MPEG标准）,3.1 视频信号的数字化,所谓视频（video frequency ），连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。即视频是由一系列单独的静止图像组成，其单位用帧或格来表示；,人眼在观察景物时，光信号传入大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形

2、象并不立即消失，而能继续保留其影像0.1-0.4秒左右，这种现象被称为视觉暂留现象。,1.视频相关的基本概念,帧：一帧是扫描获得的一幅完整图像的信号，是视频图像的最小单位；“帧”在动画创作当中又称 “格”。帧率：就是每秒钟扫描多少帧。对于PAL制式电视系统，帧率为25帧；而NTSC制式电视系统，帧率为30帧。场：视频的一个扫描过程。有逐行扫描和隔行扫描，对于逐行扫描，一帧即是一个垂直扫描场；对于隔行扫描，一帧由两场构成：奇数场和偶数场，是用两个隔行扫描场表示一帧。,1.视频相关的基本概念,（1）逐行扫描,图逐行扫描方式,实线为行扫描的正程，左右；虚线逆程，右左。,1.视频相关的

3、基本概念,（2）隔行扫描,图隔行扫描方式,1.视频相关的基本概念,视频信号有模拟视频信号与数字视频信号之分。模拟视频即指由连续的模拟信号组成视频图像，它的存储介质是磁带或录像带；在编辑或转录过程中画面质量会降低。数字视频是把模拟信号变为数字信号，它描绘的是图像中的单个像素，可以直接存储在电脑硬盘中，因此在编辑过程中可以最大限度地保证画面质量几乎没有损失。,1.视频相关的基本概念,但数字视频的数据量是非常惊人的，按照ITU-R601标准422格式的PAL制数字化视频信号，每帧数据量为720576826.64Mbit，每秒数据量为6.6425165Mbit。,ITU-R601数字演播室标准4:2

4、:2格式中色差信号的取样为亮度信号的一半。,600Mbit的存储空间只能存储90帧的视频图像信号，或者说可以存储大约3.6 s的数字电视节目。如果存储更高分辨率的高清数字电视信号，那存储时间就更短了，大约只有几秒钟。因此对视频的处理、传输、存储和显示提出了更高的要求。,1.视频相关的基本概念,视频信息和信号特点：,(1) 直观性：给人印象更深刻、生动、具体。(2) 确定性：“百闻不如一见”。(3) 高效性：人眼是一个高度复杂的并行信息处理系统，能并行快速地观察一幅图像的细节，因此它获取视频信息的效率要比语音信息高得多。(4) 广泛性：人类接受的信息，80%来自视觉。,1.视频相关的基本概念

5、,数字视频的获取方法：,2.视频的采集及数字化,从现成的数字视频库中截取。利用计算机软件制作视频。利用计算机生成的动画，如把flc或gif动画格式转换成avi等视频格式。把静态图像或图形文件序列组合成视频文件序列。通过视频采集设备获取数字视频。通过视频采集卡把模拟视频转换成数字视频，并按数字视频文件的格式保存下来。,数字视频的采集系统,视频源设备：录像机、电视机、影碟机等；视频采集卡：对模拟视频信号进行采样、量化和编码的设备；高性能计算机：接收和记录编码后的数字视频数据。大容量存储设备：存储经过编辑修改的数字视频文件。,2.视频的采集及数字化,视频采集卡的接口,复合端口色差分量接口S-Vid

6、eo信号端子IEEE1394接口,2.视频的采集及数字化,视频采集卡的接口,复合端口,也称AV 接口，通常都是成对的白色音频接口和黄色的视频接口，常用接头有BNC接头和莲花(RCA)接头。传输的是亮度/色度(Y/C) 混合在一起的视频信号。易导致亮、色串扰、清晰度降低等问题，是最差的视频信号。,2.视频的采集及数字化,分量视频信号(Component Video Signal)是指每个基色分量作为独立的视频信号。一般用亮度-色差表示，如Y和Cr、Cb，Y和I、Q，Y和U、V。使用分量视频信号是表示颜色的最好方法。,分量信号接入口,视频采集卡的接口,色差分量接口,2.视频的采集及数字化,视频采集

7、卡的接口,S-Video信号端子,S端子信号，它同时传送两路信号：亮度信号Y和色度信号C。由于将亮度和色度分离，色度对亮度的串扰现象也消失。其图象质量优于复合视频信号，但低于分量视频信号。 S端子用四芯插头，一些计算机显卡或非线性编辑卡也有用七芯插头，其外形与S端子一样，只是又包含了复合视频信号。,2.视频的采集及数字化,视频采集卡的接口,2.视频的采集及数字化,莲花接头,视频采集卡的接口,IEEE1394接口,IEEE1394是一种外部串行总线标准，800Mbps的高速。1394接口具有把一个输入信息源传来的数据向多个输出机器广播的功能，特别适用于家庭视听的连接。由于该接口具有等时间的传送功

8、能，确保视听AV设备重播声音和图像数据质量，具有好的重播效果。,2.视频的采集及数字化,视频图像的数字化,2.视频的采集及数字化,数字化方法（1）先从复合彩色图像中分离出彩色分量，然后数字化。（2）首先用一个高速A/D转换器对彩色全信号进行数字化,然后在数字域中进行分离，以获得所希望的YCbCr，YUV，YIQ或RGB分量数据。,数字化标准ITU-R BT.601标准彩色电视图像数字化标准，称为CCIR 601标准，现改为ITU -R BT.601标准。该标准规定了彩色电视图像转换成数字图像时使用的采样频率，彩色空间之间的转换关系等。,视频图像的数字化,2.视频的采集及数字化,（1）色彩

9、空间转换,视频图像的数字化,2.视频的采集及数字化,（2）采样频率亮度信号采样频率fs= 13.5 MHZ；色度信号采样频率fc6.75MHZ 或 13.5MHZ；每个扫描行的有效样本数均为720；如图2.15(数字视频技术及应用P23) 数字信号取值范围：亮度信号220级，色度信号225级。对PAL制、SECAM制，采样频率fs为： fs=625(行数/帧)25(帧数/秒)N=15625N=13.5 MHz, N=864 其中，N为每一扫描行上的采样数目。对NTSC制，采样频率fs为： fs=52529.97N=15734N=13.5 MHz, N=858 其中，N为每一扫描行上

10、的采样数目。,视频图像的数字化,（3）亮度和色度信号的采样 Y:Cb:Cr4:1:1 这种方式是在每4个连续的采样点上，取4个亮度Y的样本值，而色差Cb、Cr分别取其第一点的样本值，共6个样本。 Y:Cb:Cr 4:2:2 这种方式是在每4个连续的采样点上，取4个亮度Y的样本值，而色差Cb、Cr分别取其第一点和第三点的样本值，共8个样本。这种方式能给信号的转换留有一定余量，效果更好一些。这是通常所用的方式。,2.视频的采集及数字化,Y:Cb:Cr 4:4:4 在这种方式中，对每个采样点，亮度Y、色差Cb、Cr各取一个样本。这种方式对于原本就具有较高质量的信号源，可以保证其色彩质量，但信息量大。

11、,Y:U:V4:2:0 分两种情况： MPEG-1/H.261/H.263等标准使用的：水平方向的2个Y样本和垂直方向上的2个Y样本共用1个Cb样本和1个Cr样本。 MPEG-2标准使用的： MPEG-2相对于MPEG-1的Cr，Cb子采样在水平方向有半个像素的偏移。,图 ITU-T BT.601建议的取样点结构,图 ITU-T BT.601建议的取样点结构（续）,MPEG-2,图 ITU-T BT.601建议的取样点结构（续）,MPEG-1相对于MPEG-2的Cr，Cb子采样在水平方向有半个像素的偏移。,表 ITU-T BT.601建议的422标准,（4）分辨率 CCITT规定了称为公

12、用中分辨率格式CIF(CommonIntermediate Format)和1/4公用中分辨率格式(Quarter-CIF，QCIF)格式。 QCIF：176x144CIF: 352x288SD(标清): 720 x480; 640 x480, 704x480, 720 x576HD(高清): 1280 x720, 1920 x1080,视频图像的数字化,2.视频的采集及数字化,CCITT: International Telephone and Telegraph Consultative Committee，国际电报电话咨询委员会,（1）本地影像视频格式 AVI格式，英文全称为Audio

13、Video Interleaved，即音频视频交错格式。所谓“音频视频交错”，就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用，现在几乎所有的非线性编辑系统都支持AVI格式。其缺点是体积过于庞大。压缩标准不统一是其主要问题。 DV-AVI格式，DV的英文全称是Digital Video Format，是由索尼、松下等多家厂商联合提出的一种家用数字视频格式。它可以通过电脑的IEEE 1394端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi，所以也叫DV-AVI格式。,3.2 数字视频文

14、件格式,MPEG格式，英文全称为Moving Picture Expert Group，即运动图像专家组格式。MPEG文件格式是运动图像压缩算法的国际标准， MPEG不是一种简单的文件格式，而是编码方案。它采用了有损压缩方法减少运动图像中的冗余信息，其最大压缩比可达到200:1。目前MPEG视频格式常见的压缩标准是MPEG-1、MPEG-2、MPEG-4。家里常看的VCD、SVCD、DVD就是这种格式。 DivX格式，是由MPEG-4衍生出的另一种视频编码(压缩)标准，也即DVDrip格式，它采用了DivX压缩技术对DVD盘片的视频图像进行高质量压缩，同时用MP3或AC3对音频进行压缩，然后再

15、将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的数分之一。,3.2 数字视频文件格式,（1）本地影像视频格式,MOV格式，美国Apple公司开发的一种视频格式，默认的播放器是苹果的QuickTime Player。具有较高的压缩比率和较完美的视频清晰度等特点，但是其最大的特点还是跨平台性，即不仅能支持Mac OS，同样也能支持Windows系列。 Avid Media composer非线性编辑软件支持该格式。,（1）本地影像视频格式,（）网络影像视频格式广泛应用于视频点播、网络演示、远程教育、网络视频广告等等互联网信息服务领域。 ASF格式，英

16、文全称为Advanced Streaming Format，是微软推出的可以直接使用Windows自带的Windows Media Player对其进行播放。它使用了MPEG-4的压缩算法，所以压缩率和图像的质量都很不错。 WMV格式，英文全称为Windows Media Video，也是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV格式的主要优点包括：本地或网络回放、可扩充的媒体类型、多语言支持、环境独立性、丰富的流间关系以及扩展性等。,3.2 数字视频文件格式,RM格式，Real Networks公司所制定的音频视频压缩规范称为Real Media，

17、用户可以使用Real Player或Real OnePlayer进行实况转播，可以根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放，实现在线播放。另外，RM作为目前主流网络视频格式，可以通过其Real Server服务器将其它格式的视频转换成RM视频并由Real Server服务器负责对外发布和播放。,3.2 数字视频文件格式,（）网络影像视频格式,RMVB格式，是一种由RM视频格式升级延伸出的新视频格式。RMVB视频格式打破了原先RM格式那种平均压缩采样的方式，对静止和动作场面少的画面场景采用较低的编码速率，这样可以留出更多的带宽空间，而这些带宽

18、会在出现快速运动的画面场景时被利用，保证了静止画面质量的前提下，大幅地提高了运动图像的画面质量，从而图像质量和文件大小之间就达到了微妙的平衡。,（）网络影像视频格式,3.2 数字视频文件格式,表常用的视频格式转换软件,3.2 数字视频文件格式,未完，见续表,表常用的视频格式转换软件（续表）,3.2 数字视频文件格式,3.3 视频压缩编码,1.视频压缩原理,视频数据之所以能被压缩，是因为在视频数据中存在着大量的冗余信息。视频数据主要存在下列冗余：（1）空间冗余，同一帧图像中相邻的像素具有很强的相关性。（2）时间冗余，图像序列中相邻帧的对应像素具有很强的相关性。（3）结构冗余，在视频图像的

19、纹理区，像素的亮、色度信息存在着明显的分布模式，如果知道了分布模式，就可以通过某种算法来生成图像，即存在结构冗余。,1.视频压缩原理,（4）视觉冗余，研究发现人眼的视觉特性是非均匀和非线性的。例如，人眼对视频图像色度的敏感性远低于对亮度的敏感性，对低频信息的敏感度高于对高频信息的敏感度等等。在很多场合，人眼是视频信息的最终接收者，因此，可以对人眼不敏感的信息少编码甚至不编码以压缩数据量。（5）知识冗余，指视频图像中所包含的某些信息与人们的一些先验知识有关。例如在头肩图像中，头、眼、鼻和嘴的相对位置等信息就是人类的共性知识。,3.3 视频压缩编码,视频压缩编码的类型：预测编码：差分脉冲PCM

20、等变换编码：正交变换、离散余弦变换统计编码：霍夫曼编码、游程编码、算术编码子带编码小波变换编码分形编码知识（模型）基编码,3.3 视频压缩编码,2.视频压缩编码,3.3.1 预测编码,1. 预测编码的基本内容预测编码是基于图像数据的时间和空间冗余特性，用相邻的已知像素（或图像块）来预测当前像素（或图像块）的取值，然后再对预测误差进行量化和编码。,这些相邻像素（或图像块）可以是同行扫描的，也可以是前几行或前几帧的，相应的预测编码分别称为一维、二维和三维预测，其中一维和二维预测是帧内预测，三维预测是帧间预测，即在时间轴上用前一帧的像素（或图像块）对后一帧的像素（或图像块）进行预测。,帧间预测编码

21、主要利用活动图像序列相邻帧间的相关性，即图像数据的时间冗余来达到压缩的目的，它可以获得比帧内预测编码高得多的压缩比。,2. 预测编码的类型,预测编码分线性预测和非线性预测两类，线性预测编码又称为差分脉冲编码调制，即DPCM（Differential Pulse Code Modulation）。 DPCM系统又称预测量化系统。,差分脉冲调制预测原理图,量化器,预测器,译码器,预测器,编码器,发送端,接收端,Xn,dn,Xn,Xn,dn,dn,Xn,Xn,差分脉冲调制预测发送端预测器带有存储器，把tn时刻以前的采样值x1, x2, x3, xn-1存储起来并据此对xn进行预测，得到预测值dn为x

22、n与的差值，dn为dn经量化器量化的值xn是接收端的输出信号误差qn为 qn=xn- xn= xn-( +dn)=(xn- )- dn= dn- dn实际上就是发送端的量化器对误差量化的误差对 dn的量化越粗糙，压缩比越高，失真越大,Xn,Xn,Xn,Xn,差分脉冲调制预测应用示例例如，取一序列为10，12，14，16，18，20。（例如亮度变化缓慢的图像的亮度值）由于其中所有数字都不相同，但是是一个等差的数列，所以行程编码和哈夫曼对其不产生压缩效果。先用DPCM方法，其预测器的预测参数为 =Xn-1，则其误差值得到一个新的序列10，2，2，2，2，2。然后再使用行程编码方法对这个新序列进行

23、压缩，压缩结果为10(5,2)。,Xn,差分脉冲调制预测适用于输入数据为平稳的随机过程预测器设计是预测编码系统的核心，预测器的复杂程度与线性预测中使用以前的样本数有关，样本数越多，预测器越复杂对预测误差的量化是造成图像质量下降的主要原因，表现为：斜率过载：图像轮廓变模糊颗粒噪声：图像在平坦区出现颗粒状的细斑边缘忙乱：在变化不快的边缘出现闪烁不定现象伪轮廓：在图像亮度值缓慢变化区域出现伪轮廓,3. 双向预测,前向预测：就是用K-1帧来预测K帧图像。后向预测：用K帧预测前面的K-1帧图像。双向预测：用前、后两帧来预测中间帧图像。,图双向预测示意图,图 I、P和B图像的依赖关系,I 帧：帧内图

24、(Intra Picture) ,只做帧内编码P帧：预测图(Predicted Picture),前向预测帧B帧：双向图(Bidirectional Picture),双向预测帧,（1）I帧 I 帧采用类似JPEG的编码方式实现。它不以任何其他帧做参考帧，仅仅进行帧内的空域冗余压缩。,（2）P帧 P帧是由一个过去的I帧或P帧采用运动补偿的帧间预测进行更有效的编码方式。图像P由残差图像SAD和运动矢量MV组成。,DCT+量化+RLE,图5-12 运动自适应帧内插,（3）B帧 B帧是用过去的图像(I帧或P帧)和后来的图像帧(I帧或P帧)，采用运动补偿的双向预测编码方式。,DCT+量化+RLE,4.

25、像素块预测,MPEG编码时，先将一帧图像分割成若干横条，每一横条称为一片，在625行的PAL制中，每帧图像切成18片，在525行的NTSC制中，每帧图像切成15片。每一片再纵向切割成22块，这些块称为宏块或大块，它是MPEG标准的图像处理基本单元。,每个宏块中的彩色图像，可以用一个亮度信号Y和两个色差信号Cb和Cr来表示，由于人眼对亮度信号敏感高于色度信号，因而对每个宏块的亮度信号再平均分成4个像块。每个像块在水平方向分成8个像素，垂直方向也分成8个像素，则每个像块可分成64个像素，而两个色差信号Cb、Cr宏块不再分成像块，而是直接分成64个像素，如图5-8所示。,图5-8 MPEG图像

26、的格式,在图像编码领域目前使用的运动估值算法有块匹配法、像素递归法、相位相关法以及针对由摄像机运动引起图像全局运动的全局运动参数估值等。,其中块匹配法是最常用的一种方法，在活动视频编码的国际标准H.261、MPEG-1、MPEG-2中，实际都采用块匹配法做运动估值。,变换编码的基本原理就是将原来在空间域或时间域内描述的信号，变换到正交矢量空间（频域或变换域）中去，用变换系数来表示原始图像，并对变换系数进行编码。,3.3.2 变换编码,尽管变换本身并不带来数据压缩，但由于变换后信号的能量大部分集中于少数几个变换系数上，删去对信号贡献较小（方差小）的系数，就可以达到有效压缩的目的，并且不会引起明显

27、的失真。,正交变换K-L变换离散余弦DCT变换,K-L变换只是理论上的最佳方法，由于本身没有通用的变换矩阵，计算量大，应用起来不现实。在实际编码工作中，人们更常采用离散余弦变换（DCT）。它也是正交变换，非常接近K-L变换，效果仅次于K-L变换。对大多数图像信源来说，DCT变换是在现行变换编码方法中最接近K-L变换的方法。,实现变换编码可以分4个步骤完成：第1步是选择方块的大小，较好的方块尺寸是44（H.264）、88（H.261，JPEG，MPEG）或1616；第2步是选择变换类型，DCT变换是目前应用最广泛的一种类型；,第3步是选择变换系数，并对其进行高效的量化，以便传输或存储；第4步

28、是对量化系数进行比特分配即编码，通常使用Huffman编码或游程编码。,1二维88 DCT变换,图5-17 DCT后系数,图5-18 Z字形扫描,图5-20 88亮度抽样信号的DCT压缩编码实例,图5-20 88亮度抽样信号的DCT压缩编码实例,Z字形扫描和0游程编码,按顺序记录数据，直到最后一个非0数据，然后加上块结束码EOB。解码端收到EOB后自动补0，直至补够64个系数。,图5-21 转换扫描示意图,转换扫描：MPEG-2中采用，适用于隔行扫描。,3.3.3 统计编码,根据信息码字出现的概率分布特性寻找概率与码字长度间的最优匹配，据此对信息进行压缩，这就是统计编码方法。,常用的统计编码

29、有霍夫曼（Huffman）编码、游程编码和算术编码三种。,哈夫曼编码,最佳编码定理哈夫曼1952年提出内容：在变字长编码中，对于出现概率大的信息符号编以短字长的码，对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆序排列，则平均码字长度一定小于其他以任何符号顺序排列方式得到的平均码字长度.,哈夫曼编码,编码方法步骤1.将符号按出现概率由大到小排列，给最后两个符号赋予一个二进制码，概率大的赋1，小的赋0（反之亦可）;2.把最后两个符号的概率合成一个概率，重复上一步;3.重复步骤2，直到最后只剩下两个概率为止;4.将每个符号所对应的分支的0,1反序排出即可.,可以看出，概率

30、大的符号其编码短，概率小的符号其编码长，符号使用其编码来表示，达到数据压缩目的。,哈夫曼编码过程演示,A1A2A3A4A5A6A7,0.230.210.180.150.130.070.03,0.10,0.23,0.33,0.44,0.56,1,哈夫曼编码,哈夫曼编码过程演示,哈夫曼编码,哈夫曼编码结果分析,码字的平均长度_ 7N=niP(ai)=2.72bit i=1信息符号的熵值 7H(a)=P(ai)log2P(ai) =2.61bit i=1编码效率： = 2.61/2.72 96%可见，哈夫曼编码结果，其平均长度接近于信息符号的熵值，但是仍有冗余。,哈夫曼编码,哈夫曼编码最佳情况示例信

31、源有四个符号： X a1 a2 a3 a4 1/2 1/4 1/8 1/8 信息熵： H(x)= -1/2 log2(1/2)-1/4 log2 (1/4)- 1/8 log2 (1/8) 2= 1.75 bit/字符,哈夫曼编码,a1 a2 a3 a4,1/21/41/81/8,符号,概率,1/4,1/2,1,采用哈夫曼编码（二进制编码） a1 a2 a3 a4 _ 0 10 110 111平均码长：N= (1/2) 1+(1/4) 2+(1/8) 6= 1.75 bit/字符编码效率：=1.75/1.75=100%,哈夫曼编码最佳情况示例,图像的子带编码（Subband Coding，SBC）是从语音的子带编码移植过来的。子带编码与变换编码一样，是一种在频率域中进行数据压缩的方法。,3.3.4 子带编码（SBC）,取样后的信号经过量化、编码，合并成一个总的码流传送给接收端。在接收端，首先把码流分成与原来的各子带信号相对应的子带码流（分频），然后解码，将频谱搬移至原来的位置，最后经带通滤波器后，合并得到重建的信号。,图5-28 4子带为基础的树状分裂结构,二维子带编码,图5-29 140Mbit/s HDTV子带编码系统框图,3.4 数字视频编码标准,JPEG标准 MPEG标准 ITU-R BT.601数字视频标准 H.26X标准H.323可视通信系统标准,

展开阅读全文