《离散信息的度量(1).ppt》由会员分享,可在线阅读,更多相关《离散信息的度量(1).ppt(71页珍藏版)》请在三一办公上搜索。
1、第2章 离散信息的度量,2.1 自信息和互信息,自信息自信息联合自信息条件自信息,互信息互信息互信息的性质条件互信息,2.1.1 自信息,事件集合 X 中的事件 的自信息:,简记,其中:,1),,2),?,对数的底数大于1,本书符号的约定,关于对数底的选取,2.1.1 自信息,自信息为随机变量,自信息的含义包含两方面:,2.1,例,箱中有90个红球,10个白球。现从箱中随机地取出一个球。求:(1)事件“取出一个红球”的不确定性;(2)事件“取出一个白球”所提供的信息量;(3)事件“取出一个红球”与“取出一个白球”的发生,哪个更难猜测?,(1)设 表示“取出一个红球”的事件,则故事件 的不确定性
2、为:比特(2)设 表示“取出一个红球”的事件,则 故事件 所提供的信息量为:比特(3)因为,所以事件“取出一个白球”的发生更难猜测。,解:,联合自信息,事件集合 XY 中的事件 的自信息:,简记,其中:,1)p(xy)要满足非负和归一化条件,2.1(续),例,箱中球不变,现从箱中随机取出两个球。求:(1)事件“两个球中有红、白球各一个”的不确定性;(2)事件“两个球都是白球”所提供的信息量;(3)事件“两个球都是白球”和“两个球都是红球”的发生,哪个事件更难猜测?,三种情况都是求联合自信息。设x为红球数,y为白球数。,解:,(1),比特,(2),比特,(3),比特,因为,所以事件“两个球都是白
3、球”的发生更难猜测。,条件自信息,简记,p(x|y)要满足非负和归一化条件,事件 给定,事件 的自信息:,条件自信息的含义包含两方面:,自信息、条件自信息和联合自信息之间的关系 I(xy)=I(x)+I(y|x)=I(y)+I(x|y),2.1(续),例,箱中球不变,现从箱中先拿出一球,再拿出一球,求:(1)事件“在第一个球是红球条件下,第二个球是白球”的不确定性;(2)事件“在第一个球是红球条件下,第二个球是红球”所提供的信息量。,这两种情况都是求条件自信息,设r表示红球,w表示白球。,解:,(1),比特,(2),比特,2.2,例,有88=64个方格,甲将一棋子放入方格中,让乙猜:1)将方格
4、按顺序编号,让乙猜顺序号的困难程度为何?2)将方格按行和列编号,当甲告诉乙方格的行号后,让乙猜列顺序号的困难程度为何?,解:,两种情况下的不确定性,1)I(xy)=log2 64=6 bit,2)I(x|y)=-log2 p(x|y)=-log2(1/8)=3 bit,2.1.2 互信息,互信息,互信息的性质,条件互信息,互信息,简记,通过计算,离散随机事件 之间的互信息:,或,I(x;y)与 I(x|y)的区别?,互信息的性质,互易性,当事件x,y统计独立时,互信息为0,即I(x;y)=0,互信息可正可负,任何两事件之间的互信息不可能大于其中任一事件的自信息,设e表示“降雨”,f表示“空中有
5、乌云”,且 P(e)=0.125,P(e|f)=0.8求:1)“降雨”的自信息 2)“空中有乌云”条件下“降雨”的自信息 3)“无雨”的自信息 4)“空中有乌云”条件下“无雨”的自信息 5)“降雨”与“空中有乌云”的互信息 6)“无雨”与“空中有乌云”的互信息,2.3,例,这两种情况都是求条件自信息,设r表示红球,w表示白球。,解:,1)I(e)=-log0.125=3 bit 2)I(e|f)=-log0.8=0.322 bit 3)I()=-log0.875=0.193 bit 4)I(|f)=-log0.2=2.322 bit 5)I(e;f)=3 0.322=2.678 bit 6)I
6、(;f)=0.193 2.322=-2.129 bit,条件互信息,除条件外,条件互信息的含义与互信息的含义与性质都相同,设联合集XYZ,在给定zZ 条件下x(X)与y(Y)之间的互信息定义为:,2.2 信息熵,信息熵的定义与计算,条件熵与联合熵,熵的基本性质,I(x)为事件x的自信息 表示对随机变量x用p(x)来进行取平均运算 熵的单位为比特(奈特)信源符号,信息熵的定义与计算,离散信源X的熵定义为自信息的平均值,记为H(X),信源输出前 信源的平均不确定性,信源输出后 一个信源符号所提供的平均信息量,表示信源随机性大小:H(X)大的,随机性大,信源输出后,不确定性就解除 解除信源不确定性所
7、需信息量,信息熵H(X)的含义,一电视屏幕的格点数为500600=300000,每点有10个灰度等级,若每幅画面等概率出现,求每幅画面平均所包含的信息量,2.4,例,解:,可能的画面数是多少?,代入公式:,2.5,例,A、B两城市天气情况概率分布如下表:,问哪个城市的天气具有更大的不确定性?,所以,B城市的天气具有更大的不确定性。,解:,2.6,例,有甲、乙两箱球,甲箱中有红球50、白球20、黑球30;乙箱中有红球90、白球10。现做从两箱中分别随机取一球的实验,问从哪箱中取球的结果随机性更大?,解:,设A、B分别代表甲、乙两箱,则,所以,从甲箱中取球的结果随机性更大。,信息熵的计算,定理2.
8、1 离散信源的熵等于所对应的有根概率树上所有节点(包括根节点,不包括叶)的分支熵用该节点概率加权的和,即,其中,q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。,2.6,例,条件熵,条件熵:联合集XY上,条件自信息I(y|x)的平均值,2.7,例,随机变量X和Y,符号集均为0,1,解:,求H(Y|X),联合熵,联合熵:联合集XY上,对联合自信息I(xy)的平均值,2.7(续),例,由已知条件可得XY的联合概率分布,如下表所示,解:,求H(XY),熵的基本性质,凸函数,信息散度,熵的基本性质,各类熵的关系,熵函数的唯一性,凸函数,下面我们来定义凸函数,LOOK一下,对于(01)及任意两
9、矢量x1,x2,有fx1+(1-)x2f(x1)+(1-)f(x2),上凸函数(cap),x1,x2,若当且仅当x1=x2或=0,1时等式成立,严格上凸函数,对于(01)及任意两矢量x1,x2,有fx1+(1-)x2f(x1)+(1-)f(x2),下凸函数(cup),x1,x2,若当且仅当x1=x2或=0,1时等式成立,严格下凸函数,定理:,f(x)是区间上的实值连续严格上凸函数,任意一组x1,x2,xq,1,2,q,k=1,当且仅当x1=x2=xq或k=1(1 k q)且j=0(j k)时,等式成立,Jenson不等式,证 利用数学归纳法。根据上凸函数的定义有 fx1+(1-)x2f(x1)
10、+(1-)f(x2)其中01,即q=2 时成立。今假定 q=n 成立。现考虑 q=n+1 的情况 设,令,则,当且仅当x1=x2=xq或k=1(1 kq)且j=0(j k)时,等式成立。,特别地,当xk为离散信源符号的取值,k为相应的概率,f(x)为对数函数时,有,对于一般的凸函数有,1)在某区间的二阶导数小于0,则在此区间内为严格上凸函数。2)利用Jenson不等式,上凸函数的判定方法,下面介绍另一个有用的不等式,对于任意x,有:,这是怎么得来的?,x=1为稳定点,x=1时,2阶导数小于0,x=1处有极大值,y换成x,信息散度,P和Q为定义在同一概率空间的两个概率测度,则P相对于Q的散度:,
11、上式中,概率分布的维数不限,可以是一维,也可以是多维。,定理:如果在一个共同的有限字母表的概率空间上给定的两个概率测度P(x)和Q(x),当且仅当对所有x,P(x)=Q(x)时,等式成立,熵的基本性质(1),对称性:,非负性:,扩展性:,可加性:,p=(p1,p2,pn)中,各分量的次序可以任意改变,自信息非负,熵为自信息的平均,熵非负,即:小概率事件对熵的影响很小,可以忽略,H(XY)=H(X)+H(Y|X),H(X1X2XN)=H(X1)+H(X2|X1)+H(XN|X1XN-1),复合事件集合的不确定性为各个分事件集合的不确定性的和,找找,假,币,在,哪,里,?,一次称重的信息量为log
12、3k次:klog3,3log3=log27log24,熵的链原则举例,极值性:,熵的基本性质(2),定理2.4.3(离散最大熵定理)对于离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值,证 设随机变量集合有n个符号,概率分布为P(x);Q(x)为等概率分布,即 Q(x)=1/n。根据散度不等式有,确定性:,上凸性:,熵的基本性质(3),H(1,0)=H(1,0,0)=H(1,0,0)=0。当随机变量集合中任一事件概率为1时,熵为0,H(p)=H(p1,p2,pn)是(p1,p2,pn)的严格的上凸函数,各类熵的关系,条件熵不大于信息熵:,定理(熵的不增原理),在信息处理过程中,条件越
13、多,熵越小。,各类熵的关系,联合熵不大于个信息熵的和:,证明思路:熵的可加性,联合熵与信息熵、条件熵的关系 H(XY)=H(X)+H(Y/X),熵函数的唯一性,是概率的连续函数,信源符号等概率时是n(信源符号数)的增函数,可加性,如果要求熵函数满足以下条件:,那么,熵函数的表示是唯一的。,2.3 平均互信息,平均互信息的定义,平均互信息的性质,平均条件互信息,集合与事件之间的互信息,集合X与事件y=bj之间的互信息:,定理 I(X;y)0,仅当y与所有x 独立时,等式成立。证 根据散度的定义,有 仅当对所有x,p(x)=p(x/y)时,等式成立,证毕。,平均互信息,集合X、Y之间的平均互信息:
14、,平均互信息与熵的关系,I(X;Y)=H(X)-H(X|Y),I(X;Y)=H(Y)-H(X|Y),I(X;Y)=H(X)+H(Y)-H(XY),平均互信息的性质,非负性:,证明思路:,互易性(对称性):,凸函数性,定理:I(X;Y)为概率分布p(x)的上凸函数。,证明思路:,二元信源X输出符号为0,1,PX(0)=,条件概率分别为PY|X(0|0)=PY|X(1|1)=1-p,PY|X(1|0)=PY|X(0|1)=p,求I(X;Y)。,例,解:,可见:1)这是一个上凸函数;2),定理:对于固定的概率分布p(x),I(X;Y)为条件概率p(x|y)的下凸函数。,证明思路:,续,例,解:,这是
15、一个下凸函数,I(X;Y)H(X)I(X;Y)H(Y),极值性:,平均条件互信息,设联合集XYZ,Z条件下,X与Y之间的平均互信息:,定理:平均条件互信息是非负的:,证明:,定理:,设Y、Z为独立随机变量集合,其中Y含n个事件,Z含k个事件,则联合集YZ含nk个事件。Z集合可看成YZ集合中某些事件的合并处理,由nk个事件合并成k个事件。1)随机事件合并后,获得的信息量减少;2)如果YZ为二维取值空间,则Z的取值空间是对YZ取值空间的合并,而YZ取值空间是对Z或Y取值空间的细化。可见,通过对取值空间的细化,可使获得的信息量增加。,本 章 小 结,自信息的平均值为熵,条件自信息的平均值为条件熵,联合自信息的平均值为联合熵,互信息的平均值为平均互信息,条件互信息的平均值为平均条件互信息,本 章 小 结,熵的可加性,平均互信息与熵的关系,离散熵与平均互信息都具有非负性,离散最大熵定理,平均互信息的凸函数性质,