信息论第2章信息的度量.ppt

资源描述

《信息论第2章信息的度量.ppt》由会员分享，可在线阅读，更多相关《信息论第2章信息的度量.ppt（32页珍藏版）》请在三一办公上搜索。

1、第2章信息的度量,重庆交通大学信息与工程学院通信工程系李益才2012月,第2章信息的度量,2.1 自信息和互信息 2.2 平均自信息 2.3 平均互信息,2.1 自信息和互信息,几个重要概念自信息：一个事件（消息）本身所包含的信息量，它是由事件的不确定性决定的。比如抛掷一枚硬币的结果是正面这个消息所包含的信息量。互信息：一个事件所给出关于另一个事件的信息量，比如今天下雨所给出关于明天下雨的信息量。平均自信息（信息熵）：事件集（用随机变量表示）所包含的平均信息量，它表示信源的平均不确定性。比如抛掷一枚硬币的试验所包含的信息量。平均互信息：一个事件集所给出关于另一个事件集的平均信息量，比如今天

2、的天气所给出关于明天的天气的信息量。,2.1.1 自信息,随机事件的自信息量I(xi)是该事件发生概率p(xi)的函数，并且应该满足以下公理化条件：I(xi),是 p(xi)的严格递减函数。当p(x1)I(x2)，概率越小，事件发生的不确定性越大，事件发生以后所包含的自信息量越大。极限情况下当p(xi)=0时，I(xi)；当p(xi)=1时，I(xi)=0。另外，从直观概念上讲，由两个相对独立的不同的消息所提供的信息量应等于它们分别提供的信息量之和。可以证明，满足以上公理化条件的函数形式是对数形式。,2.1.1 自信息,定义2.1 随机事件的自信息量定义为该事件发生概率的对数的负值。设事件xi

3、的概率为p(xi)，则它的自信息定义为,从图2.1种可以看到上述信息量的定义正是满足上述公理性条件的函数形式。I(xi)代表两种含义：当事件发生以前，等于事件发生的不确定性的大小；当事件发生以后，表示事件所含有或所能提供的信息量。,图2.1 自信息量,2.1.1 自信息,自信息量的单位常取对数的底为2，信息量的单位为比特（bit，binary unit）。当p(xi)=1/2时，I(xi)=1比特，即概率等于1/2的事件具有1比特的自信息量。若取自然对数（对数以e为底），自信息量的单位为奈特（nat，natural unit）。1奈特=log2e比特=1.443比特工程上用以10为底较方便。

4、若以10为对数底，则自信息量的单位为哈特莱（Hartley）。1哈特莱=log210比特=3.322比特如果取以r为底的对数(r1)，则I(xi)=-logrp(xi)进制单位 1r进制单位=log2r比特,例 8个串联的灯泡x1，x2，x8，其损坏的可能性是等概率的，现假设其中有一个灯泡已损坏，问每进行一次测量可获得多少信息量？最少需要多少次测量才能获知和确定哪个灯泡已损坏。,解：收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)不确定性减少的量(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性),已知8个灯泡等概率损坏，所以先验概率P(x1)1

5、/8，即,第二次测量获得的信息量=I P(x2)-I P(x3)=1(bit)第三次测量获得的信息量=I P(x3)=1(bit)至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。,第一次测量获得的信息量=I P(x1)-I P(x2)=1(bit)经过二次测量后，剩2个灯泡，等概率损坏，P(x3)1/2,一次测量后，剩4个灯泡，等概率损坏，P(x2)1/4,2.1.2 互信息,定义2.2 一个事件yj所给出关于另一个事件xi的信息定义为互信息，用I(xi;yj)表示。互信息I(xi;yj)是已知事件yj后所消除的关于事件xi的不确定性，它等于事件xi本身的不确定性I(xi)减去已知事件y

6、j后对仍然存在的不确定性I(xi|yj)。互信息的引出，使信息得到了定量的表示，是信息论发展的一个重要的里程碑。,2.2 平均自信息,2.2.1 平均自信息（信息熵）的概念自信息量是信源发出某一具体消息所含有的信息量，发出的消息不同,所含有的信息量也不同。因此自信息量不能用来表征整个信源的不确定度。定义平均自信息量来表征整个信源的不确定度。平均自信息量又称为信息熵、信源熵，简称熵。因为信源具有不确定性，所以我们把信源用随机变量来表示，用随机变量的概率分布来描述信源的不确定性。通常把一个随机变量的所有可能的取值和这些取值对应的概率 X,P(X)称为它的概率空间。,2.2.1 平均自信息（信息熵

7、）的概念,定义2.3 随机变量X的每一个可能取值的自信息I(xi)的统计平均值定义为随机变量X的平均自信息量:这里q为的所有X可能取值的个数。熵的单位也是与所取的对数底有关，根据所取的对数底不同，可以是比特/符号、奈特/符号、哈特莱/符号或者是r进制单位/符号。通常用比特/符号为单位。一般情况下，信息熵并不等于收信者平均获得的信息量，收信者不能全部消除信源的平均不确定性，获得的信息量将小于信息熵。,熵的计算例：有一布袋内放l00个球，其中80个球是红色的，20个球是白色的。随便摸出一个球，猜测是什么颜色，那么其概率空间为：,如果被告知摸出的是红球，那么获得的信息量是：I(a1)log p(a1

8、)log0.8=0.32（比特）如被告知摸出来的是白球，所获得的信息量应为：I(a2)log p(a2)log0.2=2.32（比特）平均摸取一次所能获得的信息量为：H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72（比特/符号）,熵的含义,熵是从整个集合的统计特性来考虑的，它从平均意义上来表征信源的总体特征。在信源输出后，信息熵H(X)表示每个消息提供的平均信息量；在信源输出前，信息熵H(X)表示信源的平均不确定性；信息熵H(X)表征了变量X的随机性。例如，有两信源X、Y，其概率空间分别为:,计算其熵，得：H(X)=0.08（bit/符号）H(Y)=1（bit/符号）H(Y)H(

9、X)，因此信源Y比信源X的平均不确定性要大。,例设甲地的天气预报为：晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。又设乙地的天气预报为：晴(占78)，小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况，一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。,两个信源,解：甲地天气预报构成的信源空间为:,则其提供的平均信息量即信源的信息熵:,乙地天气预报的信源空间为:,结论：甲地天气预报提供的平均信息量大于乙地，因为乙地比甲地的平均不确定性小

10、。,甲地极端情况:,极端情况1：晴天概率1,结论：等概率分布时信源的不确定性最大，所以信息熵（平均信息量）最大。,极端情况2：各种天气等概率分布,乙地极端情况:,极端情况1：晴天概率1,结论：在极端情况2下，甲地比乙地提供更多的信息量。因为，甲地可能出现的消息数比乙地可能出现的消息数多。,极端情况2：各种天气等概率分布,2.2.2 熵函数的性质,信息熵H(X)是随机变量X的概率分布的函数，所以又称为熵函数。如果把概率分布p(xi),i=1,2,q，记为p1,p2,pq，则熵函数又可以写成概率矢量P=(p1,p2,pq)的函数的形式，记为H(P)。熵函数H(P)具有以下性质：对称性说明熵函数仅

11、与信源的总体统计特性有关。,2.2.2 熵函数的性质,确定性在概率矢量中，只要有一个分量为1，其它分量必为0，它们对熵的贡献均为0，因此熵等于0。也就是说确定信源的不确定度为0。非负性对确定信源，等号成立。信源熵是自信息的数学期望，自信息是非负值，所以信源熵必定是非负的。,2.2.2 熵函数的性质,扩展性这个性质的含义是增加一个基本不会出现的小概率事件，信源的熵保持不变。连续性即信源概率空间中概率分量的微小波动，不会引起熵的变化。,2.2.2 熵函数的性质,递增性这性质表明，假如有一信源的n个元素的概率分布为(p1,p2,pn)，其中某个元素xn又被划分成m个元素，这m个元素的概率之

12、和等于元素的概率，这样得到的新信源的熵增加，熵增加了一项是由于划分产生的不确定性。极值性：式中n是随机变量X的可能取值的个数。极值性表明离散信源中各消息等概率出现时熵最大，这就是最大离散熵定理。连续信源的最大熵则与约束条件有关。,2.2.2 熵函数的性质,上凸性:H(P)是严格的上凸函数，设则对于任意小于1的正数有以下不等式成立：凸函数在定义域内的极值必为极大值，可以利用熵函数的这个性质可以证明熵函数的极值性。,2.2.2 熵函数的性质,二进制信源是离散信源的一个特例。该信源符号只有二个，设为“0”和“1”。符号输出的概率分别为“”和“1-”，即信源的概率空间为：,H(X)=-log(1-)

13、log(1-)=H(),即信息熵H(x)是的函数。取值于0，1区间，可画出熵函数H()的曲线来，如右图所示。,2.2.3 联合熵与条件熵,一个随机变量的不确定性可以用熵来表示，这一概念可以方便地推广到多个随机变量。定义2.4 二维随机变量 XY的概率空间表示为其中满足概率空间的非负性和完备性：,2.2.3 联合熵与条件熵,二维随机变量XY的联合熵定义为联合自信息的数学期望，它是二维随机变量XY的不确定性的度量。定义2.5 给定X时，Y的条件熵：其中，H(Y|X)表示已知X时，Y的平均不确定性。,2.2.3 联合熵与条件熵,各类熵之间的关系联合熵与信息熵、条件熵的关系：这个关系可以方便地推广

14、到N个随机变量的情况：称为熵函数的链规则。推论：当二维随机变量X，Y相互独立时，联合熵等于X和Y各自熵之和：条件熵与信息熵的关系：联合熵和信息熵的关系：当X、Y相互独立时等号成立。,2.3 平均互信息,2.3.1 平均互信息的概念为了从整体上表示从一个随机变量Y所给出关于另一个随机变量X的信息量，我们定义互信息I(xi;yj)在XY的联合概率空间中的统计平均值为随机变量X和Y间的平均互信息：定义2.6,2.3.2 平均互信息的性质,非负性:平均互信息是非负的，说明给定随机变量Y后，一般来说总能消除一部分关于X的不确定性。互易性（对称性）：对称性表示Y从X中获得关于的信息量等于X从Y中获得关于

15、的信息量。平均互信息和各类熵的关系:当X,Y统计独立时，,2.3.2 平均互信息的性质,极值性：极值性说明从一个事件提取关于另一个事件的信息量，至多只能是另一个事件的平均自信息量那么多，不会超过另一事件本身所含的信息量。凸函数性:定理2.1 当条件概率分布给定时，平均互信息是输入分布的上凸函数。定理2.2 对于固定的输入分布，平均互信息量是条件概率分布的下凸函数。,图中两圆外轮廓表示联合熵H(XY)，圆(1)表示H(X)，圆(2)表示H(Y)，则H(XY)=H(X)+H(Y/X)=H(Y)+H(X/Y)H(X)H(X/Y)，H(Y)H(Y/X)I(X;Y)=H(X)H(X/Y)=H(

16、Y)-H(Y/X)=H(X)+H(Y)-H(XY)H(XY)H(X)+H(Y),如果X与Y互相独立，则,I(X;Y)=0H(XY)=H(X)+H(Y)H(X)=H(X/Y)，H(Y)=H(Y/X),2.3.3 数据处理定理,为了证明数据处理定理，引入三元随机变量X,Y,Z的平均条件互信息和平均联合互信息的概念。定义2.7 平均条件互信息它表示随机变量Z给定后，从随机变量Y所得到得关于随机变量X的信息量。定义2.8 平均联合互信息它表示从二维随机变量YZ所得到得关于随机变量X的信息量。,2.3.3 数据处理定理,定理2.3（数据处理定理）如果随机变量X,Y,Z构成一个马尔可夫链，则有以下关系成立：等号成立的条件是对于任意的X,Y,Z，有数据处理定理再一次说明，在任何信息传输系统中，最后获得的信息至多是信源所提供的信息，如果一旦在某一过程中丢失一些信息，以后的系统不管如何处理，如不触及丢失信息的输入端，就不能再恢复已丢失的信息，这就是信息不增性原理，它与热熵不减原理正好对应，反映了信息的物理意义。,

展开阅读全文