【教学课件】第二章信息量和熵.ppt

上传人:小飞机 文档编号:5661841 上传时间:2023-08-07 格式:PPT 页数:66 大小:286KB
返回 下载 相关 举报
【教学课件】第二章信息量和熵.ppt_第1页
第1页 / 共66页
【教学课件】第二章信息量和熵.ppt_第2页
第2页 / 共66页
【教学课件】第二章信息量和熵.ppt_第3页
第3页 / 共66页
【教学课件】第二章信息量和熵.ppt_第4页
第4页 / 共66页
【教学课件】第二章信息量和熵.ppt_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《【教学课件】第二章信息量和熵.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第二章信息量和熵.ppt(66页珍藏版)》请在三一办公上搜索。

1、第二章 信息量和熵,信息量和熵,2.1 离散变量的非平均信息量2.2 离散集的平均自信息量熵2.3 离散集的平均互信息量2.4 连续随机变量的互信息和熵2.5 凸函数和互信息的凸性,2.1 离散变量的非平均信息量,输入,输出空间定义,输入空间X=xk,k=1,2,K,概率记为q(xk)输出空间Y=yj,j=1,2,J,概率记为(yj)联合空间XY=xkyj;k=1,2,K;j=1,2,J,概率为p(xkyj)p(xkyj)=p(xk|yj)(yj)=p(yj|xk)q(xk),非平均互信息量,例,非平均互信息量,非平均互信息量,例,非平均互信息量,非平均互信息量,定义(非平均互信息量)给定一个

2、二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J(因此就给定了两个离散型随机变量X,xk,qk,k=1K和Y,yj,wj,j=1J)。事件xkX与事件yjY的互信息量定义为,非平均互信息量,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。几点说明:(1)I(xk;yj)=loga(rkj/(qkwj)。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当rkj=qkwj时I(xk;yj)=0。(当两个事件相互独立时,互信息量为0)。(3)当rkjqkwj时I(xk;yj)0,当rkjqkwj时I(xk;yj)0。(当两个事件正相关

3、时,互信息量为正值,当两个事件负相关时,互信息量为负值)。,条件互信息和联合事件互信息,三个事件集的条件互信息定义为可以推广到任意有限多个空间情况,互信息的可加性,系统,u1,u2,u3,互信息量特性:,对称性可加性互信息量的值域:-infinite+infinite,即全体实数,离散变量的非平均自信息量,定义:给定集合X,q(xk),事件xkX的自信息量定义为:,非平均自信息的性质,非负性体现先验不确定性大小,条件自信息和联合自信息,自信息、条件自信息和互信息,2.2 离散集的平均自信息量熵,熵,集X中事件出现的平均不确定性,(平均自信息量熵)离散型随机变量X,xk,qk,k=1K的平均自信

4、息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。,熵,注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为,熵,例 离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)。观察H(X)(它是p的函数,图给出了函数图象,该图象具有某种对称性),有

5、当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当00。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特),条件熵(定义),XY独立时有H(X|Y)=H(X),联合熵,熵的性质,对称性非负性确定性扩展性可加性极值性是H(P)上凸函数,熵是概率矢量的函数,P(p1,p2,pk)可以看作是K维矢量,当,常称作是概率矢量;故HK(P)=HK(p1,p2,pk)是概率矢量P的函数,熵的性质对称性,矢量的各分量p1,p2,pk的次序任意改变

6、时,熵值不变熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关,熵的性质非负性,HK(P)=HK(p1,p2,pK)0可由单个事件自信息量的非负性得到,熵的性质确定性,若事件集X中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为0,熵的性质扩展性,熵的性质可加性,H(p1q11,p1q12,p4q44)=H(p1,p4)+p1H(q11,q14)+p4H(q41,q44),熵的性质极值性,引理1:lnxx-1引理2:H(X|Y)H(X)H(U1UN)H(U1)+H(UN),熵的性质凸性,H(P)是P的上凸函数,2.3 离散集的平

7、均互信息量,平均互信息量,定义(平均互信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J(因此就给定了两个离散型随机变量X,xk,qk,k=1K和Y,yj,wj,j=1J)。X与Y的平均互信息量定义为如下的I(X;Y):,平均互信息量,注意:事件对(xk,yj)的互信息量值为I(xk;yj)。此外,可以定义半平均互信息量I(xk;Y)和I(X;yj)。,平均互信息量的性质,非负性 I(X;Y)0对称性 I(X;Y)=I(Y;X)平均互信息用熵与条件熵表示平均互信息与熵的关系:I(X;Y)H(X)or H(Y)若X是Y的确定的函数X=g(Y),则I(X;Y)

8、=H(X)H(Y);若Y是X的确定的函数Y=g(X),则I(X;Y)=H(Y)H(X)。,平均互信息量,一般印象(平均互信息量I(X;Y)的各种性质与我们对“互信息量”这个名词的直观理解非常吻合)。一般情形:总有0I(X;Y)minH(X),H(Y)。一种极端情形:若X与Y相互独立,则I(X;Y)=0。另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X;Y)=minH(X),H(Y)。,平均互信息量,平均条件互信息与联合互信息,信息处理定理,Z出现情况下,X和Y独立,信息处理定理,2.4 连续随机变量的互信息和相对熵,连续随机变量的互信息,定义 给定二维连续型随机变量(X,Y)

9、,f(X,Y)(x,y)(因此就给定了两个连续型随机变量X,fX(x)和Y,fY(y))。事件xX与事件yY的互信息量定义为,连续随机变量的平均互信息,I(X;Y|Z)I(XY;Z),定义 给定二维连续型随机变量(X,Y),f(X,Y)(x,y)(因此就给定了两个连续型随机变量X,fX(x)和Y,fY(y))。X与Y的平均互信息量定义为,性质,非负性对称性数据处理定理关系,连续随机变量的相对熵,(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“相对熵”,而“相对熵”的直观合理

10、性大打折扣),相对熵的定义 给定连续型随机变量X,fX(x)。X的相对熵定义为,连续随机变量的相对熵,HC(XY)HC(Y|X),HC(Y|X)HC(Y)互信息与相对熵I(X;Y)HC(X)HC(X|Y)HC(Y)HC(Y|X)HC(X)+HC(Y)HC(X,Y)HC(X,Y)HC(X)+HC(Y)I(X;Y),均匀随机变量的相对熵,例2.5.2 设XU(a,b),求X的相对熵(我们将发现,X的相对熵未必非负)。,正态随机变量的相对熵,例2.5.3 设XN(m,2),求X的相对熵(我们将发现,X的相对熵未必非负)。,正态随机变量的相对熵,熵功率,相对熵不具有非负性,例,练习:,试求指数分布连续

11、信源的熵,相对熵的极大化,1.峰值功率受限均匀分布相对熵最大:HC(X)log 2M2.平均功率受限高斯分布相对熵最大3.平均功率大于等于熵功率,2.5 凸函数与互信息的凸性,凸函数,凸集R:a,b属于R,qa+(1-q)b也属于R,其中0q1概率矢量:矢量a的所有分量非负,且和为1概率矢量全体所构成的区域R是凸的上凸函数下凸函数,凸函数的性质,f(a)是上凸的,f(a)是下凸的f1(a),fL(a)是R上的上凸函数,c1,cL是正数,c1f1(a)+cLfL(a)也是上凸函数Jensen不等式:f(a)是上凸函数,Ef(a)fE(a),E为求数学期望,记离散型随机变量X的事件为1,2,K。记

12、X的概率分布为P(X=k)=qk,k=1K。记离散型随机变量Y的事件为1,2,J。记条件概率P(Y=j|X=k)=p(j|k)。则rkj=P(X,Y)=(k,j)=qkp(j|k),(概率论中的乘法公式)wj=P(Y=j)=k qkp(j|k),(概率论中的全概率公式),互信息的凸性,互信息的凸性,设条件概率p(j|k),k=1K,j=1J被确定。此时I(X;Y)是概率向量q=(q1,q2,qK)的函数。我们希望找到这样的概率向量,使得对应的I(X;Y)达到最大。这就是说,记我们希望找到这样的K维概率向量a=(a1,a2,aK),使得,K-T条件,f(a)是定义域R上的上凸函数,a是概率矢量。

13、偏导数 存在且连续,f(a)在R上为极大的 充分必要条件 其中l为一常数。,互信息的凸性,p(y|x)给定,I(X;Y)是q(x)的上凸函数q(x)给定,I(X;Y)是p(y|x)的下凸函数,互信息的凸性,定理的含义 K维概率向量a=(a1,a2,aK)使得当且仅当:以a为X的概率向量的时候,I(X=k;Y)对所有ak0的k都取一个相同的值C;I(X=k;Y)对所有满足ak=0的k都取值不超过上述的相同值C。,互信息的凸性,I(X=k;Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。,互信息的凸性,例 设X的事件有0、1;Y的事件有0、1;已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。当X服从等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)时,I(X;Y)达到最大。因为此时,互信息的凸性,小结,信息的度量熵,信息量熵的极大性熵,平均互信息的关系条件熵,联合熵,条件互信息,联合互信息互信息的凸性信息处理定理,讨论,10个硬币中有一个重量偏轻,其他9个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么?世界杯冠军预测方法。信息论与大数据。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号