《数字电视信源编码技术.ppt》由会员分享,可在线阅读,更多相关《数字电视信源编码技术.ppt(135页珍藏版)》请在三一办公上搜索。
1、Copyright 2013.Shi Ping CUC,数字电视信源编码技术,概述视频压缩编码技术视频压缩编码标准介绍MPEG2 视频编码技术H.264 视频编码技术AVS 视频编码技术视频压缩损伤分析,概述,通过压缩编码技术来去除视频、音频、数据等原始信号的冗余信息,以实现码率压缩与带宽减小,使信号在各种传输信道中能够有效传输。,1、数字电视信源编码的目的,Copyright 2013.Shi Ping CUC,2、压缩的必要性,电视信号数字化后:数码率高,数据量大。例如:4:2:2编码、8比特量化的SDTV信号,其数码率为216 Mbps。若按每2bit构成一个周期,则传输这样一路数字电视
2、信号需要有108MHz的通道带宽。4:2:2编码、8比特量化时,一帧SDTV图像的数据量约为8.6Mb,要记录10分钟的电视节目就需要130Gb的存储器容量。综上所述,要实现数字电视信号的有效存储和传输,就需要采取措施降低其数据量和数码率,Copyright 2013.Shi Ping CUC,3、压缩的可能性(以视频信号为例),视频压缩过程:去除图像中与信息无关或对图像质量影响不大的部分,即冗余部分。电视信号中存在很多这样的冗余部分,这就为压缩提供了可能性。,视频信号的冗余性表现在以下几个方面:空间相关冗余 时间相关冗余 视觉冗余 熵冗余,Copyright 2013.Shi Ping CU
3、C,空间相关冗余,Copyright 2013.Shi Ping CUC,时间相关冗余(帧间相关冗余),tt1,tt2,Copyright 2013.Shi Ping CUC,人眼视觉冗余,人眼视觉特性:对静止或缓慢运动图像的灰度等级及图像细节的分辨力高对快速运动图像的灰度等级及图像细节的分辨力低观察大面积图像时,对灰度等级分辨力高,对细节分辨力低观察细节时,对灰度等级分辨力低,对细节分辨力高,人眼接收综合信息的能力有限,Copyright 2013.Shi Ping CUC,利用人眼的视觉特性,对静止或缓慢运动图像:减小帧率在图像细节部分选择较高的取样频率和较低的量化比特数在大面积像块区域选
4、择较低的取样频率和较高的量化比特数对快速运动图像:提高帧率 降低取样频率和量化比特数,Copyright 2013.Shi Ping CUC,自信息量定义:指某个随机事件(或消息)发生后所提供的信息数量的多少,任意随机事件的自信息量为该事件发生概率的倒数的对数。,熵冗余,Copyright 2013.Shi Ping CUC,信源熵(信源每个符号的平均信息量):,P(xi)是符号xi出现的概率,平均码长(每个符号的平均编码长度):,熵冗余平均码长信息熵,li 是符号xi 的编码码长,Copyright 2013.Shi Ping CUC,例如:某一图像总共可出现4个灰度级,对每个灰度级进行二进
5、制定长编码时,码长为2比特,即 L 2bit/符号。,当每个灰度级出现的概率不相等时:设灰度级14的概率分别为1/8、3/8、3/8、1/8,,熵冗余L H 21.810.19 bit/符号,Copyright 2013.Shi Ping CUC,若采用变长编码方式,对概率大的符号赋予短码,对概率小的符号赋予长码,则可降低平均码长L,熵冗余1.8751.810.065 bit/符号,例如,灰度级1 3/8 1 灰度级2 3/8 01 灰度级3 1/8 001 灰度级4 1/8 000,所以,采用变长编码可降低信源熵冗余,Copyright 2013.Shi Ping CUC,return,视频
6、压缩编码技术,第一代视频编码技术(经典的视频编码技术):以香农信息论为基础采用基于象素或象素块的方法来表征视频信息利用图像信号的统计特性来设计编码器未考虑事件本身的具体含义、重要程度及引起后果未充分考虑人眼视觉特性对编码图像的影响只能去除数据冗余低层压缩,1、视频压缩编码技术的研究进展,变换编码:DCT+量化预测编码:MC 帧间预测熵编码:VLC,Copyright 2013.Shi Ping CUC,第二代视频编码技术:突破了香农信息论的框架采用基于内容的方法来表征视频信息充分考虑人眼视觉特性及信源特性通过去除内容冗余来实现数据压缩基于对象的视频压缩中层压缩基于语义的视频压缩高层压缩,分形编
7、码分级编码模型基编码,Copyright 2013.Shi Ping CUC,视频压缩编码用到的主要算法,统计编码,变换编码,预测编码,分析、综合编码,霍夫曼编码,游程编码,算术编码,字典编码,DCT变换编码,运动补偿预测编码,子带编码,分级编码,分形编码,模型基编码,Copyright 2013.Shi Ping CUC,2、视频压缩编码分类,按无损压缩和有损压缩进行分类:无损压缩编码、有损压缩编码,按信源模型进行分类:基于波形编码、基于内容编码,按压缩编码原理进行分类:统计编码、预测编码、变换编码、矢量量化编码,Copyright 2013.Shi Ping CUC,3、预测编码,3.1
8、预测编码的基本原理预测编码传送的不是实际像素值,而是实际值与其预测值之间的差值,即预测误差。像素的预测值由其在时间和空间上相邻的若干个像素的线性组合产生,它反映了在预测区域内各像素的共性部分,因此用像素的实际值减去其预测值就可基本去除像素间的相关性。,Copyright 2013.Shi Ping CUC,en en x Xn x,Xn en Xn x,若不考虑量化器的影响,则有Xn Xn(无损压缩),x:量化误差,Copyright 2013.Shi Ping CUC,预测编码的压缩效果取决于预测器的预测精度,精度越高,预测误差越小,量化时所需的量化比特数就越少,压缩率也就越高。一般来说,参
9、与预测的像素数越多,预测值就越精确,但同时预测器电路组成也就越复杂。利用相关像素值x1、x2 xn-1来预测当前像素值,a1、a2an-1称为相关系数,且满足:,Copyright 2013.Shi Ping CUC,3.2 帧内预测编码,由距X7最近的四个像素X6、X4、X3、X2参与对X7的预测。相关系数为:a61/2、a4 a21/8、a31/4,则:1/2 X6 1/8 X4 1/4 X3 1/8 X2,D6TS(TS为取样周期)D4THTS(TH为行周期)D3THD2THTS,Copyright 2013.Shi Ping CUC,3.3 帧间预测编码,当图像场景或摄像机静止不动时,
10、当前帧象素块的预测值就是前一时刻参考帧同一位置上的象素块;如果图像场景或摄像机是运动的,则需要在参考帧中找到与当前帧象素块最匹配的象素块,作为当前帧象素块的预测值(运动补偿帧间预测)。,Copyright 2013.Shi Ping CUC,3.4 预测编码的实质,由信息论可知,信源冗余来自信源本身的相关性以及信源概率分布的不均匀性。因此,去除信源相关性以及改变信源的概率分布模型,即可实现数据压缩。预测编码的实质是降低了图像在时间或空间上的相关性。,预测编码中:量化环节可造成图像质量下降误码传递可造成局部图像损伤,Copyright 2013.Shi Ping CUC,3.5 运动估计与运动补
11、偿,运动估计:对运动物体的位移作出估计,即求出运动矢量运动补偿:按照运动矢量,对上一帧做位移,然后求出对当前帧的预测值。,Copyright 2013.Shi Ping CUC,运动补偿帧间预测编码方框图:,Copyright 2013.Shi Ping CUC,运动估计,块匹配法:将图像分成若干个大小为MN的子像块,假定同一子像块内所有像素具有相同的位移。假定帧间最大水平位移和最大垂直位移分别为Wx和Wy个像素;对于当前帧的每一个块在前一帧相应位置开辟大小为(M+2 Wx)(N+2 Wy)的一块搜索区;在搜索区内求出当前帧对应块的最佳匹配块;求出运动矢量。,Copyright 2013.Sh
12、i Ping CUC,M+2Wx,N+2Wy,N,M,Copyright 2013.Shi Ping CUC,j,i,j:垂直位移量i:水平位移量,Copyright 2013.Shi Ping CUC,块匹配准则:均方误差(MSE)最小准则,绝对误差均值(MAD)最小准则,Copyright 2013.Shi Ping CUC,最大归一化互相关函数(NCCF)准则,Copyright 2013.Shi Ping CUC,搜索方法:穷尽搜索法:对搜索区域内的每一点都用匹配准则进行计算。,二维对数法,三步搜索法,分块全搜索法:,Copyright 2013.Shi Ping CUC,4、变换编码
13、,4.1 变换编码的基本原理,通过一种线性运算关系将空间域的图像信号变换到变换域或频率域的正交矢量空间,然后进行编码。,Copyright 2013.Shi Ping CUC,变换编码的根本目的是去除图像的相关性!,K-L 变换:最佳正交变换,变换后系数互不相关,而且能量主要集中在少数系数上。但K-L变换矩阵不是固定的,而是与图像统计特性有关,因此没有快速算法,只适合进行理论分析与实验。,DCT 变换:次最佳正交变换,变换压缩性能接近K-L变换,具有良好的去相关性及能量压缩特性,同时变换矩阵是固定的,与图像内容无关,有快速算法。DCT变换在图像压缩领域得到广泛应用。,变换编码中对变换系数的量化
14、是造成图像损伤的主要原因。图像损伤的表现形式主要是块效应。,Copyright 2013.Shi Ping CUC,DCT 变换编码的特点:在变换域中描述视频图像要比在空间域中简单视频图像的相关性明显下降,信号的能量主要集中在少数几个变换系数上,采用量化和熵编码可有效地压缩其数据量可充分利用人眼的视觉特性具有较强的抗干扰能力,传输过程中的误码对图像质量的影响远小于预测编码DCT有快速算法,能实现实时视频处理,Copyright 2013.Shi Ping CUC,4.2 离散余弦变换(DCT),设图像块的样点数为NN,其样值方阵用f(x,y)表示,则二维离散余弦变换的公式为:,Copyrigh
15、t 2013.Shi Ping CUC,图像分块及变换:通常将图像分解成88的像素块,然后进行DCT变换。变换后得到由88频域系数组成的矩阵。,F00:DC系数,代表该像素块的直流分量或平均亮度值其它为AC系数,Copyright 2013.Shi Ping CUC,一般电视图像的构成都是以大、中面积内容为主,精细内容较少,因而可估计到,系数矩阵中左上方的系数值会大些,而越接近右下角,系数值会越小,Copyright 2013.Shi Ping CUC,利用人眼的视觉冗余性左上角附近的系数细量化(量化间隔小)右下角附近的系数粗量化(量化间隔大)量化后的系数取整F(u,v)F(u,v)/Q(u,
16、v),4.3、DCT系数量化,Copyright 2013.Shi Ping CUC,5、熵编码,5.1 熵编码的基本原理,根据图像的统计特性来去除图像象素值的概率分布不均匀性,使编码后的图像数据接近于其信源熵,同时不产生任何失真。,基于图像概率分布特性的霍夫曼编码、算术编码基于图像相关性的游程编码,Copyright 2013.Shi Ping CUC,5.2 可变长编码(VLC),按信源符号出现概率的不同分配给不同长度的码字比特数。即出现概率大的符号编码码字短,出现概率小的符号编码码字长。也称可变长编码(VLC)前提条件:必须知道每个符号的出现概率特点:具有单义可译性。即:任何一个长码都不
17、会是另两个短码复合而成,任何一个短码不会是另一个长码的前缀。因此,收信端可从接收到的码字串中分断开每个码字,不会发生码字混淆。,Copyright 2013.Shi Ping CUC,是一种最优可变长码,基本原理为:将信源发出的符号按出现概率的大小次序排列对两个概率最小的符号分别赋以“0”、“1”,并将这两个概率相加之后作为一个新符号的概率对符号概率重新排队后再取两个概率最小的符号分别赋以“0”、“1”,并将这两个概率相加依此类推,直到所有概率相加得到1为止由后向前沿各支路逐一写出“0”、“1”,此码字即为霍夫曼编码码字,5.3 霍夫曼编码,Copyright 2013.Shi Ping CU
18、C,例如:设信源各符号出现的概率为:,符号(xi),概率(Pi),x1,x2,x3,x4,x5,x6,x7,x8,0.20,0.19,0.18,0.17,0.15,0.10,0.005,0.005,0.01,0.11,0.26,0.35,0.39,0.61,1.00,码字(wi),01,00,111,110,101,1001,10001,10000,Copyright 2013.Shi Ping CUC,信源熵:,采用等长编码方式时,每个符号需要3bit,即平均码长为3bit/符号,熵冗余为0.38 bit/符号。采用可变长编码时,平均码长为:,熵冗余为0.11 bit/符号,Copyrigh
19、t 2013.Shi Ping CUC,5.4 DCT系数的熵编码,MPEG2中,像素块矩阵经DCT变换、量化后,要进行Z形扫描、游程编码和霍夫曼编码,Z 形扫描:,Copyright 2013.Shi Ping CUC,游程编码:将一维序列用二维数组(run,level)表示。run:表示连零的长度level:表示连零之后出现的第一个非零值当所有值都为零时用符号EOB表示,Z形读出158,0,-1,-1,-1,-1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
20、,0,0,0,0,0,0,0,0,0,0,0,0,0,游程编码:(0,158),(1,-1)(0,-1),(0,-1)(0,-1),EOB,Copyright 2013.Shi Ping CUC,DC系数:差值编码(DPCM),霍夫曼编码;即:DIFFDCi DCi-1对DIFF进行霍夫曼编码AC系数:游程编码,霍夫曼编码,MPEG2中,AC系数游程编码:(1,-1)(0,-1),(0,-1)(0,-1),EOB,Copyright 2013.Shi Ping CUC,DC系数的DIFF熵编码(查表法),编码码字码字1码字2 若DIFF2,则码字为 01110,Copyright 2013.S
21、hi Ping CUC,AC系数熵编码(表1),Copyright 2013.Shi Ping CUC,AC系数熵编码(表2),Copyright 2013.Shi Ping CUC,对于(1,-1):AC系数为-1,前面有1个零查表1 可知,码字2为0,“游程/位长”是1/1查表2 可知,1/1对应的码字1为1100对(1,-1)进行霍夫曼编码的码字为11000同理可得,(0,-1)的编码码字为 000EOB的码字为 1010,AC系数游程编码:(1,-1)(0,-1),(0,-1)(0,-1),EOB,该图像块编码后为:,01110 11000 000 000 000 1010,Copyr
22、ight 2013.Shi Ping CUC,视频压缩编码标准介绍,国际电信联盟(ITU)开发用于低比特率视频电话的 H.26x 标准,其中包括 H.261、H.262、H.263 与 H.264;国际标准化组织(ISO)主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4;MPEG与ISO开展合作,成立联合视频小组(JVT),该小组定义了 H.264 编解码技术,该标准称为H.264/AVC。,Copyright 2013.Shi Ping CUC,发展历程:,Copyright 2013.Shi Ping CUC,视频电
23、话和视频会议压缩编码标准CCITT 1984年开始研究,1990年正式成为标准应用:视频电话、视频会议,传输网络为ISDN(综合业务数据网,64kb/s2.048Mb/s)图像格式:CIF、QCIF,最大帧频为30Hz,逐行扫描码率:p64kb/s(p130)。p1、2时,只支持QCIF格式,用于视频电话。p6时,支持CIF格式,可用于视频会议。压缩方式:DCT、帧间预测编码,H.261,Copyright 2013.Shi Ping CUC,低码率图像压缩编码标准ITU-T 1995推出草案应用:视频电话、多媒体通信、移动通信、远程监控系统等,传输网络为PSTN(公用电话交换网)图像格式:C
24、IF、QCIF、sub-QCIF(Y:12896,CR/CB:6448),最大帧频为30Hz,逐行扫描压缩方式:DCT、帧间预测编码,H.263,Copyright 2013.Shi Ping CUC,先进的视频编码AVC由ITU-T和ISO/IEC的联合专家组(JVT)于2003年3月起草完成应用:数字电视广播、可视电话、视频会议、实时监控、流式多媒体业务、低比特率下的移动多媒体通信等特点:在同等图像质量条件下,压缩比是H.263和MPEG4的2倍对IP和无线网络环境有良好的适应性,H.264(MPEG4 AVC),Copyright 2013.Shi Ping CUC,Moving Pic
25、ture Expert Group(活动图像专家组)视频及其伴音的压缩标准1988年开始研究,1992成为正式标准应用:数字存储媒体(如VCD等),交互式多媒体系统图像格式:SIF(4:2:0),逐行扫描码率:1.5Mb/s压缩方式:DCT,帧间预测编码,MPEG-1,Copyright 2013.Shi Ping CUC,活动图像及其伴音信息的通用编码1990年开始制定,1994年成为正式标准应用:SDTV,HDTV,DVD等图像格式:CCIR 601等多种格式(4:2:2,4:4:4,4:2:0),逐行扫描,隔行扫描压缩方式:DCT,帧间预测编码有多种档次:5个型,4个级与MPEG-1兼容
26、,MPEG-2(H.262),Copyright 2013.Shi Ping CUC,基于内容的压缩编码标准1993年开始制定,1999年成为正式标准应用:交互式多媒体应用、移动通信、个人通信等图像格式:多种格式,逐行扫描,隔行扫描特点:编码对象是图像中的音频和视频对象(AV对象)形状编码分级编码,MPEG-4,Copyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,信息技术先进音视频编码由中国数字音视频编解码技术标准(Audio Video Standard)工作组于2003年提出应用:高清数字电视、卫星广播电视、移动音视频通信、宽带网
27、络流媒体、视频会议、视频监控等特点:编码效率基本达到了H.264的水平;回避了国外的专利技术包括系统、视频、音频、数字版权管理与保护等四个主要标准技术方案简洁,芯片实现复杂度低,AVS,return,MPEG2视频编码技术,1、MPEG 概况,MPEG:属于ISO/IEC下属的联合技术委员会任务:制定活动图像的压缩编码标准,压缩码率为,1.5Mb/s,10Mb/s,40Mb/s,MPEG-1(1992,ISO/IEC 11172),MPEG-2(1994,ISO/IEC 13818),MPEG-3(1992,撤销),Copyright 2013.Shi Ping CUC,MPEG 视频部分框图
28、,Copyright 2013.Shi Ping CUC,2、MPEG-2 的型和级,Copyright 2013.Shi Ping CUC,3、图像编码帧类型,I帧(帧内编码帧),仅利用该帧图像本身的信息进行编码DCT、量化、熵编码等I帧提供了进入压缩图像数据序列的随机访问点,便于对图像进行编辑。一般应用中,一秒钟出现两个I帧压缩比:(25):1,Copyright 2013.Shi Ping CUC,P帧(前向预测帧),利用前面最靠近的I帧或P帧图像作参考帧,经运动预测编码得到的图像。压缩比:(510):1P帧可以作为B帧和后面的P帧的参考帧P帧会使误码传递下去,Copyright 201
29、3.Shi Ping CUC,B帧(双向预测帧),利用过去及将来的I帧或P帧作参考帧,经运动预测编码得到的图像。压缩比:(2030):1B帧不用作参考帧B帧不会使误码传递下去通常在两个参考帧之间安排两个B帧,Copyright 2013.Shi Ping CUC,编码图像的显示顺序和传送顺序,图像的显示顺序,图像的传送顺序,Copyright 2013.Shi Ping CUC,Copyright 2010.Shi Ping CUC,4 MPEG2 视频编、解码器框图,Copyright 2010.Shi Ping CUC,5 视频基本码流(ES流)的组成,像块,宏块,宏块条,像块,像块,宏块
30、,宏块,宏块条,宏块条,图像,图像,图像,图像组,图像组,图像组,图像序列,Copyright 2013.Shi Ping CUC,88像素阵列,DCT变换单元可以是Y像块或CB、CR像块,像块,Copyright 2013.Shi Ping CUC,宏块,由1616像素的 Y 阵列和相应画面区域内的CB、CR 色差信号像素阵列共同组成。是运动预测的基本单元,但运动预测只对亮度阵列进行,色差信号的帧间预测编码直接使用亮度阵列中得到的运动矢量。,Copyright 2013.Shi Ping CUC,宏块条,由处于同一水平宏块排内的若干个宏块组成是发生误码又不可纠正时数据获得重新同步的单位,72
31、0(704),576,宏块排(44个宏块),1,每个宏块排内宏块条数多有利于误码后的重新正确解码,但编码效率变低。每排内宏块条数少则情况相反。,Copyright 2013.Shi Ping CUC,图像,有I、P、B三种编码图像是图像编码的基本单位,也是独立的显示单元,Copyright 2013.Shi Ping CUC,图像组,由一个图像序列中连续的几个图像组成是随机存取的视频基本单位图像组中第一帧为I帧一个典型的GOP结构:,GOP,Copyright 2013.Shi Ping CUC,图像序列,被处理的一串连续的图像是随机存取节目的段落单元一个视频序列大致对应一个镜头,Copyri
32、ght 2013.Shi Ping CUC,6 视频基本码流的层次结构,系数块,宏块,宏块条,图像,图像组,视频序列,运动矢量,条的垂直位置,I、P、B,时间基准,帧内DC精度,量化矩阵,色度类型,隔行/逐行,级、类,宽高比,图像尺寸,帧频,码率,时间码,封闭/开放,VBV延时信息,量化器缩放因子,宏块类型,Copyright 2013.Shi Ping CUC,GOP 1,图像1,条 1,宏块 1,Y 1,88 系数块,序列层,GOP层,图像层,宏块条层,宏块层,像块层,0 x000001B3,0 x000001B8,0 x00000100,0 x00000101,0 x000001AF,C
33、opyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,视频基本码流层次结构表,return,H.264 视频编码技术,1、H.264 概况,目的:实现高效的视频编码和良好的网络亲和性,Copyright 2013.Shi Ping CUC,高效的视频编码,良好的网络亲和性,多种新技术所产生的细微效果积累而成。这些新技术包括:多种新的帧内预测方法 可变尺寸块的运动补偿技术 多参考帧的运动补偿技术 4x4整数变换技术 环路滤波技术,注重对移动和IP网络的适应,采用分层技术,从形式上将编码和信道隔离开来,Copyright 2013.Shi P
34、ing CUC,2、H.264 视频编码器结构,视频编码层:负责高效的视频内容表示,网络提取层:负责按照网络所要求的适当方式对数据进行打包和传送,Copyright 2013.Shi Ping CUC,很多标准都有不同的配置Profiles:算法集合Levels:能力的体现(分辨率、解码速度)H.264 有3种profilesBaseline Profile(IP Video Phone,simple streaming)Main Profile(Broadcast,VOD)Extended Profile(Streaming Media)H.264 有16种levels,从QCIF到D-Ci
35、nema,3、Profiles&Levels,Copyright 2013.Shi Ping CUC,H.264 Profiles,编码效率mainextendedbaseline,Copyright 2013.Shi Ping CUC,1)基本类:仅支持逐行视频,支持I帧和P帧编码,支持基于上下文的自适应变长码(CAVLC)。主要用于可视电话、会议电视、无线通信等实时视频通信;2)主类:包含所有基本类的功能,同时还支持隔行视频,支持B帧编码,支持基于上下文的自适应二进制算术编码(CABAC)。主要用于数字广播电视与数字视频存储(SDTV,HDTV,DVD);3)扩展类:包含所有基本类的功能,
36、同时还支持隔行视频,支持B/SP/SI帧编码。主要用于各种网络的视频流传输。4)高级类:在主类基础上新增:8x8 帧内预测、自定义量化、无损视频编码、更多的yuv格式(4:4:4.)等。,Copyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,H.264 Levels,Copyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,4、视频编码层,包含核心压缩引擎,块、宏块以及条的语法级别的定义设计目标:在尽可能独立于网络的情况下实现高效编解码,1)图像的划分,一个编码图像通常划分成若干宏块
37、;一个宏块由一个1616 亮度像素和与之对应的一个88 Cb和一个88 Cr 像素块组成;每个图象中,若干宏块被排列成片的形式。,Copyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,片的编码类型:I 片、P片、B片。I片只包含I 宏块,P 片可包含P/I 宏块,B 片可包含B/P/I 宏块。I 宏块利用从当前片中已解码的像素作为参考进行帧内预测(不能取其它片中的已解码像素作为参考进行帧内预测)。P 宏块利用前面已编码图象作为参考图象进行帧间预测。B 宏块则利用双向的参考图象(当前和未来的已编码图象帧)进行帧间预测。,Copyright
38、 2013.Shi Ping CUC,2)宏块编码结构,Copyright 2013.Shi Ping CUC,I 帧编码的基本流程为:(1)进行帧内预测,决定所采用的帧内预测模式。(2)像素值减去预测值,得到残差。(3)对残差进行变换和量化。(4)变长编码和算术编码。(5)重构图像并滤波,得到的图像作为其它帧的参考帧。P 帧和 B 帧编码的基本流程为:(1)进行运动估计,计算采用帧间编码模式的率失真函数值。P 帧只参考前面的帧,B 帧可参考后面的帧。(2)进行帧内预测,选取率失真函数值最小的帧内模式与帧间模式比较,确定采用哪种编码模式。(3)计算实际值和预测值的差值。(4)对残差进行变换和量
39、化。(5)熵编码,如果是帧间编码模式,编码运动矢量,Copyright 2013.Shi Ping CUC,与以往的视频编码标准相同之处:,宏块大小是16x16 格式:4:2:0 I,P,B图像类型 基于块的变换 量化,运动补偿 帧内预测 变换编码 去块滤波 熵编码,改进之处:,3)与以往的视频编码标准的异同:,Copyright 2013.Shi Ping CUC,4)帧内预测,亮度:intra 4x4 9种预测模式intra 16x16 4种预测模式色度:intra 8x8 4种预测模式,Copyright 2013.Shi Ping CUC,亮度4x4帧内预测模式(9种),模式0:垂直预
40、测模式1:水平预测模式2:DC预测模式3:左下角对角线预测模式4:右下角对角线预测模式5:垂直偏右预测模式6:水平偏下预测模式7:垂直偏左预测模式8:水平偏上预测,Copyright 2013.Shi Ping CUC,举例,Copyright 2013.Shi Ping CUC,举例,Copyright 2013.Shi Ping CUC,亮度16x16帧内预测模式(4种),模式0:垂直预测模式1:水平预测模式2:DC预测模式3:平面预测,色度8x8帧内预测模式(4种),模式0:DC预测模式1:水平预测模式2:垂直预测模式3:平面预测,Copyright 2013.Shi Ping CUC,
41、5)运动补偿,多参考帧 可变块大小:树形结构运动补偿,Copyright 2013.Shi Ping CUC,采用大尺寸块时进行运动补偿时,块类型选择所需的比特数少,传送的运动矢量少,但相应的运动补偿误差较大,因而需要编码预测误差数据较多;采用小尺寸块进行运动补偿时,块类型选择所需的比特数多,传送的运动矢量多,但运动预测更加精确,运动补偿后的预测误差较小,所需的编码比特数相应减少。运动补偿块大小的选择对于压缩性能有较大影响,一般来说,大尺寸块比较适合图像中灰度均匀区域,而小尺寸块适合于有较多细节的区域。,Copyright 2013.Shi Ping CUC,运动矢量预测精度:1/4 samp
42、le accuracy for Y 1/8 for U&V,Copyright 2013.Shi Ping CUC,6)变换和量化,4x4整数变换:变换矩阵只有1、2取值,具有较小方块(意味着较少运算量)、整数变换、无乘法、16位运算位长的优点,避免了一向困扰视频编码的浮点IDCT失配问题;二次正交变换:改善图像中大面积平坦区域的编码性能:对16x16的亮度宏块的16个4x4块进行DCT变换后,将每个4x4块的DC系数(还没有经过量化)提取出来,组成一个4x4的亮度 DC系数块,进行4x4的Hadamard变换;对8x8 的色度宏块的4个4x4块进行DCT变换后,也将每个4x4块的DC系数提取
43、出来,组成一个2x2的色度 DC系数块,对其进行2x2的Hadamard变换。,Copyright 2013.Shi Ping CUC,二次正交变换,Copyright 2013.Shi Ping CUC,Copyright 2013.Shi Ping CUC,7)熵编码,Entropy coding mode=0 时,选择 CAVLC编码Context Adaptive Variable Length CodingEntropy coding mode=1 时,选择 CABAC编码Context-based Adaptive Binary Arithmetic Coding Baseline
44、 Profile只支持mode 0;而Main Profile或更高的Profile支持mode 0&1。,Copyright 2013.Shi Ping CUC,CAVLC 与 CABAC,Copyright 2013.Shi Ping CUC,5、数据划分,数据划分:使一个片中的宏块数据重新组合,把宏块语义相关的数据组成一个划分,由划分来组装片。,在H.264中有三种不同的数据划分:A划分-头信息划分:包含片中宏块的类型,量化参数和运动矢量,是片中最重要的信息。B划分-帧内信息划分:包含帧内CBPs和帧内系数,帧内信息可以阻止错误的蔓延。C划分-帧间信息划分:包含帧间CBPs和帧间系数,通
45、常比前两个划分要大得多。,Copyright 2013.Shi Ping CUC,帧内信息划分(B划分)结合头信息划分(A划分)解出帧内宏块;帧间信息划分(C划分)结合头信息划分(A划分)解出帧间宏块。帧间信息划分的重要性最低,对重同步没有贡献。当使用数据划分时,片中的数据根据其类型被保存到不同的缓存,同时片的大小也要调整,使得片中最大的划分小于MTU尺寸。解码端若获得所有的划分,就可以完整重构片;解码端若发现帧内信息或帧间信息划分丢失,可用的头信息仍然有很好的错误恢复性能。这是因为宏块类型和宏块的运动矢量含有宏块的基本特征。,Copyright 2013.Shi Ping CUC,6、网络提
46、取层,负责将VCL产生的比特字符串适配到各种各样的网络和多元环境中,它覆盖了所有的片级以上的语法级别 目的:良好的网络亲和性,H.264 中的分层结构取消了序列层和图像层,并将原本属于序列和图像头部的大部分句法元素游离出来形成序列和图像两级参数集,其余的部分则放入片层。,Copyright 2013.Shi Ping CUC,NAL unit:NAL的基本语法结构,包含整数个字节。其中第一个字节是头信息,其后是一系列原始字节序列载荷(RBSP)。NAL U 定义了可用于基于分组和基于比特流系统的基本格式,1)NAL 单元,RBSP:在编码的原始数据后面填加了结尾比特(一个bit“1”若干比特“
47、0”),以便字节对齐,Copyright 2013.Shi Ping CUC,NAL header,NALU类型(5bit):说明当前NAL单元的类型;重要性指示(2bit):标志该NAL单元用于重建时的重要性,值越大,越重要。如果当前NAL是属于参考帧的片,或是序列参数集,或是图像参数集等重要信息时,本句法元素必需大于0;禁止位(1bit):网络发现NAL单元有比特错误时可设置该比特为1,以便接收方丢掉该单元。,Copyright 2013.Shi Ping CUC,0:未规定1:非IDR图像中不采用数据划分的片段2:非IDR图像中A类数据划分片段3:非IDR图像中B类数据划分片段4:非ID
48、R图像中C类数据划分片段5:IDR图像的片段6:补充增强信息(SEI)7:序列参数集8:图像参数集9:分割符10:序列结束符11:流结束符12:填充数据13 23:保留24 31:未规定,Copyright 2013.Shi Ping CUC,NAL单元分为VCL和非VCL两种:VCL NAL单元:包含图像编码数据;非VCL NAL单元:包含各种有关的附加信息,例如参数集、附加信息、定时信息等,Copyright 2013.Shi Ping CUC,NAL提供了一个编解码器与传输网络的通用接口,而对于不同的网络环境,具体的实现方案是不同的。对于基于流的传输系统如H.320、MPEG等,需要按照
49、解码顺序组织NAL单元,并为每个NAL单元前添加三个字节的起始码ox000001。如果该NALU对应的slice为一帧的开始则用4位字节表示:ox00000001;对于RTP/UDP/IP系统,则可以直接将编码器输出的NAL单元作为RTP的有效载荷;而对于同时提供多个逻辑信道的传输系统,甚至可以根据重要性将不同类型的NAL单元在不同服务质量的信道中传输,Copyright 2013.Shi Ping CUC,序列参数集(SPS):序列头信息,用于一系列相继的视频图像的解码图像参数集(PPS):图像头信息,用于视频序列中一个或多个图像的解码,2)参数集,参数集是一个独立的数据单位,不依赖于参数集
50、外的其他句法元素。,参数集只是在片层句法元素需要的时候被引用,而且,一个参数集并不对应某个特定的图像或序列,同一个序列参数集可以被多个序列中的图像参数集引用,同理,同一个图像参数集也可以被多个图像引用。只在编码器认为需要更新参数集的内容时,才会发送出新的参数集。在这种机制下,由于参数集是独立的,可以被多次重发或者采用特殊技术加以保护。,Copyright 2013.Shi Ping CUC,SPS#1,PPS#1,Slice#1PPS=1,SPS#2,PPS#2,PPS#3,Slice#2PPS=1,Slice#3PPS=2,Slice#4PPS=3,序列和图像参数集机制,减少了重复参数的传送