互信息和信息熵.ppt

上传人:小飞机 文档编号:6239487 上传时间:2023-10-09 格式:PPT 页数:70 大小:861.50KB
返回 下载 相关 举报
互信息和信息熵.ppt_第1页
第1页 / 共70页
互信息和信息熵.ppt_第2页
第2页 / 共70页
互信息和信息熵.ppt_第3页
第3页 / 共70页
互信息和信息熵.ppt_第4页
第4页 / 共70页
互信息和信息熵.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《互信息和信息熵.ppt》由会员分享,可在线阅读,更多相关《互信息和信息熵.ppt(70页珍藏版)》请在三一办公上搜索。

1、信息论与编码原理Information Theory and Encoding,主 讲:肖 竹 老 师,通信工程本科专业课程,互信息信息熵,第二讲 Part II,复习xi的自信息量 非负 单调减 可加 不确定性(提供的信息量)收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)不确定性减少的量(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性)条件自信息量 联合自信量 I(x)是概率空间(X,P)上的一个随机变量,互信息量:结合图示讲解通信模型,信源发出消息xi的概率p(xi)称为先验概率,信宿收到yi。利用收到yi推测信源发出xi的概率称为后验概

2、率,有时也称条件概率。思考:事件xi是否发生具有不确定性,可用自信息I(xi)度量。在收到符号后,事件是否仍具有一定的不确定性,用条件信息量I(yi|xi)度量。相当于进行了通信。问题:观察事件(通信)前后,通信过程中所获得的信息量是什么?定义:后验概率与先验概率比值的对数为yi对xi的互信息量:,互信息量和条件互信息量,互信息量等于自信息量减去条件自信息量。,互信息量,条件概率,先验概率,互信息其他表达方式:,互信息量,概率互换公式,通信之前X和Y统计独立,有,不确定性但通信过程中存在信道转移概率,符号xi与yj有了某种关联,此时联合概率,发xi收yi的不确定性。,信道转移概率,从信源的角度

3、来观察,上述两个事件之差就是观察者获得的信息量互信息,发送符号xi,信宿是否收到yj仍具有不确定性,条件信息,信源发送之前,信宿收到yj的概率,自信息,信宿收到yj的概率,条件互信息量三维XYZ联合集:给定条件 下,与 之间的互信息量,其定义式,互信息的性质对称性互易性当X和Y相互独立时,互信息为0互信息量可为正值或负值,反映两个事件之间的肯定作用若为正值,通过接收yj判断是否发送xi的不确定性变小,能够正常通信若互信息为负值,意味着传输中的问题,如信道噪声、干扰等,收到yj判断是否发送xi的不确定性更大两个事件的互信息量不大于单个事件的自信息量,离散信息源的信息熵,对一个信源发出不同的消息所

4、含有的信息量也不同。所以自信息I(xi)是一个随机变量,不能用它来作为整个信源的信息测度定义自信息的数学期望为平均自信息量Hr(X),称为信源的信息熵,也叫信源熵或香农熵,简称熵:,熵函数的自变量是X表示信源整体,实质上是离散无记忆信源平均不确定度的度量:各消息自信息量的概率加权平均(统计平均)值,由于这个表达式和统计物理学中热熵的表达式相似,且在概念上也有相似之处,因此借用“熵”这个词,把H(X)称为信息“熵”;信息熵的单位由自信息量的单位决定,即取决于对数的底。,H(X)的单位:r 进制单位符号(r1),电视屏上约有 500 600=3105个格点,按每格点有 10个不同的灰度等级考虑,则

5、共能组成 个不同的画面。按等概率 计算,平均每个画面可提供的信息量为,3 105 3.32 bit,信源熵例题,有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文可提供的信息量为 H(X)log2N4 103 3.32 1.3 104 bit,“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。,信源熵例题,假设一条电线上串联了8个灯泡x1,x2,x8如图1所示.这8个灯泡损坏的可能性是等概率的,现假设这8个灯泡中有一个也只有一个灯泡已损坏,致使串联灯泡都不能点亮.在未检查

6、之间,我们不知道哪个灯泡xi已损坏,是不知的、不确定的.我们只有通过检查,用万用表去测量电路有否断电路,获得足够的信息量,才能获知和确定哪个灯泡xi已损坏.,利用熵的概念分析:图中8个灯泡构成一信源X,每个灯泡损坏的概率都相等.这个信源为,其中ai(i=1,2,8)表示第i个灯泡已损坏的事件,信源X共有8种等可能发生事件.可计算得此信源的信息熵,这H(X)正好表示在获知哪个灯泡已损坏的情况前,关于哪个灯泡已损坏的平均不确定性.因此,只有获得3比特的信息量,才能完全消除平均不确定性,才能确定是哪个灯泡坏了.,熵的计算:有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球

7、,猜测是什么颜色,那么其概率空间为:,如果被告知摸出的是红球,那么获得的信息量是:I(a1)log p(a1)log0.8=0.32(比特)如被告知摸出来的是白球,所获得的信息量应为:I(a2)log p(a2)log0.2=2.32(比特)平均摸取一次所能获得的信息量为:H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72(比特/符号),熵的含义,熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。在信源输出后,信息熵H(X)表示每个消息提供的平均信息量;在信源输出前,信息熵H(X)表示信源的平均不确定性;信息熵H(X)表征了变量X的随机性。例:有两信源X、Y,其

8、概率空间分别,计算其熵,得:H(X)=0.08(bit/符号)H(Y)=1(bit/符号)H(Y)H(X),因此信源Y比信源X的平均不确定性要大。,例 设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。又设乙地的天气预报为:晴(占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。,两个信源,解:甲地天气预报构成的信源空间为:,则其提供的平均信息量即信源的信息熵:,

9、乙地天气预报的信源空间为:,结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。,甲地极端情况,极端情况1:晴天概率1,结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。,极端情况2:各种天气等概率分布,乙地极端情况,极端情况1:晴天概率1,结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。,极端情况2:各种天气等概率分布,例:一离散信源由0,1,2,3四个符号组成,它们出现的概率分别为3/8,1/4,1/4,1/8,且每个符号的出现都是独立的。试求某消息的信息量和平均信息量。解:此消息中,0出现23

10、次,1出现14次,2出现13次,3出现7次,共有57个符号,故该消息的信息量为,每个符号的算术平均信息量为,若用熵的概念来计算,,两种算法的结果有一定误差,但当消息很长时,用熵的概念来计算比较方便。随着消息序列长度的增加,两种计算误差将趋于零。,条件熵是在联合符号集合XY上的条件自信息量的数学期望。在已知随机变量Y的条件下,随机变量X的条件熵定义为:,要用联合概率加权,条件熵,条件熵是一个确定值,是指:信宿在收到Y后,信源X仍然存在的平均不确定度。这是传输失真所造成的。有时称H(X/Y)为信道疑义度,也称损失熵。称条件熵H(Y/X)为噪声熵。是指:发出X后,由于信道干扰使得Y存在平均不确定性,

11、H(X|Y),联合离散符号集合XY上的每个元素对 的联合自信息量的数学期望。公式:,联合熵,H(XY),熵、条件熵、联合熵之间的关系,一个二进信源X发出符号集0,1,经过离散无记忆信道传输,信道输出用Y表示.由于信道中存在噪声,接收端除收到0和1的符号外,还有不确定符号“2”已知X的先验概率:p(x0)=2/3,p(x1)=1/3,符号转移概率:p(y0|x0)=3/4,p(y2|x0)=1/4 p(y1|x1)=1/2,p(y2|x1)=1/2,,X,Y,0,1,0,1,2,3/4,1/2,1/2,1/4,信源熵H(X),例题,p(x0y0)=p(x0)p(y0|x0)=2/33/4=1/2

12、 p(x0y1)=p(x0)p(y1|x0)=0 p(x0y2)=p(x0)p(y2|x0)=2/31/4=1/6 p(x1y0)=p(x1)p(y0|x1)=0 p(x1y1)=p(x1)p(y1|x1)=1/31/2=1/6 p(x1y2)=p(x1)p(y2|x1)=1/31/2=1/6,由得联合概率,例题,条件熵H(Y|X),联合熵H(XY)H(XY)H(X)H(Y|X)=1.8bit,得 p(y0)=p(xiy0)=p(x0y0)+p(x1y0)=1/2+0=1/2 p(y1)=p(xiy1)=p(x0y1)+p(x1y1)=0+1/6=1/6 p(y2)=p(xiy2)=p(x0y

13、2)+p(x1y2)=1/6+1/6=1/3,由,例题,信源输出熵H(Y),由,得,同理 p(x0|y1)=0;p(x1|y1)=1 p(x0|y2)=1/2;p(x1|y2)=1/2,条件熵H(X|Y),例题,或 H(X|Y)=H(XY)-H(Y)=1.8-1.47=0.33bit,信息熵是信源概率空间的一种特殊矩函数。这个矩函数的大小,与信源的符号数及其概率分布有关。我们用概率矢量P来表示概率分布P(x):,三、信息熵的基本性质,这样,信息熵H(X)是概率矢量P或它的分量p1,p2,pq的q-1元函数(因各分量满足上述条件限制,所以独立变量只有q-1元)。一般 H(X)可写成:,熵函数,H

14、(P)是概率矢量P的函数,称为熵函数。我们用下述表示方法:用H(x)表示以离散随机变量x描述的信源的信息熵;用H(P)或 H(p1,p2,pq)表示概率矢量为P=(p1,p2,pq)的q个符号信源的信息熵。若当 q=2 时,因为 p1+p2=1,所以将两个符号的熵函数写成H(p1)或H(p2)。熵函数H(P)是一种特殊函数,具有以下性质。,1、对称性:H(P)的取值与分量 p1,p2,pq的顺序无关。说明:从数学角度:H(P)=-pi log pi 中的和式满足交换率;从随机变量的角度:熵只与随机变量的总体统计特性有关。一个例子:,2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0

15、)=0性质说明:从总体来看,信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其它符号则是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零。3、非负性:H(P)0说明:随机变量X的概率分布满足0pi1,当取对数的底大于1时,log(pi)0,-pilog(pi)0,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。,非负性体现信息是非负的。,当信源的某一概率分量发生微小波动,而要求符号状态数保持不变时,其它分量必然发生相应的微小变化,形成另一个信源X,其信源空间为:,其

16、中信源X的熵为:当微小波动趋于0时,有这说明熵函数为一个连续函数。,4、连续性,5、扩展性,性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。,所以,上式成立,因为,6、可加性,统计独立信源X和Y的联合信源的熵等于信源X和Y各自的熵之和。H(XY)=H(X)+H(Y)可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。,例如,甲信源为,它们的联合信源是,可计算得联合信源的联合熵:H(Z)=H(XY)=log(nm)=log m+log n=H(X)+H(Y),乙信源为,可加性证明,条件概率的性质,H(XY)=H(X)+H(Y/X)证明的另一

17、种形式:,H(XY)=H(X)+H(Y/X),条件概率的性质,7、递增性,若原信源 X 中有一个符号分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加。熵的增加量等于由分割而产生的不确定性量。,证明可以从熵的定义或强可加性得出:,递增性的推广,它表示n个元素的信源熵可以递推成(n-1)个二元信源的熵函数的加权和。这样,可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函数。因此,熵函数的递增性又可称为递推性。,8、极值性在离散信源情况下,信源各符号等概率分布时,熵值达到最大。,性质表明等概率分布信源的平均不确定性为最大。这是一个很重要的结

18、论,称为最大离散熵定理。,证明:因为对数是型凸函数,满足詹森不等式Elog Y log EY,则有:,小结熵函数的性质H(p1,p2,pn)对称性 非负性 极值性 连续性 扩展性可加性 递增性,该信源X输出符号只有两个,设为0和1输出符号发生的概率分别为p和q,pq=l,即信源的概率空间为,则二元信源熵为 H(X)=-plogp-qlogq=-plogp-(1-p)log(1-p)=H(p),二进制信源是离散信源的一个特例,0 0.2 0.4 0.6 0.8 1,H(p)=-plogp-(1-p)log(1-p),引理1:一个常用不等式:lnx x-1,令f(x)=lnx(x-1),则,可见,

19、f(x)是x的上凸函数,且当x=1时,f(x)有极大值。故,即 lnx(x-1),f(x)=lnx-(x-1)0,图形表示,证明:,引理2:香农辅助定理,给定空间中各事件的自信息的均值小于以此空间的概率矢量作为权系数对同维空间中各事件的自信息量进行加权平均的值。令,即可得到最大熵为。,证明:,定理:1.H(Y/X)H(Y)(条件熵不大于无条件熵)H(X/Y)H(X)条件化使得不确定性降低,从而熵减少,证明:,定理2:联合熵大于等于独立事件的熵,小于等于两独立事件熵之和 H(X)H(XY)H(Y)H(XY)H(XY)H(X)+H(Y),熵之间的相互关系H(XY)=H(X)+H(Y|X)H(XY)

20、=H(Y)+H(X|Y)H(X)=H(X|Y)H(Y)=H(Y|X)H(XY)=H(X)+H(Y),熵的意义(对通信系统)H(X):表示信源中每个符号的平均信息量(信源熵)。H(Y):表示信宿中每个符号的平均信息量(信宿熵)。H(X|Y):表示在输出端接收到Y的全部符号后,发送端X尚存的平均不确定性。这个对X尚存的不确定性是由于干扰引起的。信道疑义度(损失熵,含糊度)H(Y|X):表示在已知X的全部符号后,对于输出Y尚存的平均不确定性。信道散布度(噪声熵)H(XY):表示整个信息传输系统的平均不确定性(联合熵)。,解:信源X的熵为:,例:有两个同时输出的信源X和Y,其中X的信源符号为A,B,C

21、,Y的信源符号为D,E,F,G,已知 P(X)和P(Y/X),求联合信源的联合熵和条件熵,联合熵最大值。,信源XY输出每一对消息的联合概率为:P(XY)=P(Y/X)P(X),结果如下表:,联合信源的联合熵:,信源Y的条件熵:信道散布度(噪声熵),从上述结果可得:H(XY)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号),当两个信源统计独立时,H(XY)=H(X)+H(Y),为最大。,对第二个信源Y,其熵H(Y)的计算。由全概率公式:,因此:,联合熵的最大值为:,由于信源相关,使联合熵减小,其减小量为:,定义互信息量 是定量地研究信息传递问题的重要基础。但它只能

22、定量地描述输入随机变量发出某个具体消息,输出变量出现某一个具体消息 时,流经信道的信息量;此外 还是随 和 变化而变化的随机变量。互信息量不能从整体上作为信道中信息传递的测度。这种测度应该是从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。定义互信息量 在联合概率空间 中的统计平均值为Y对X的平均互信息量,简称平均互信息,也称平均交互信息量或交互熵。,平均互信息量,平均互信息 克服了互信息量 的随机性,可作为信道中流通信息量的整体测度。三种表达方式,平均互信息的物理意义从三种不同角度说明从一个事件获得另一个事件的平均互信息需要消除不确定度,一旦消除了不确定度,就获得了信息。

23、此即“信息就是负熵”。,平均互信息量的性质对称性:非负性:极值性:凸性平均互信息量 是输入信源概率分布 的上凸函数,研究信道容量的理论基础。平均互信息量 是输道转移概率 的下凸函数,研究信源的信息率失真函数的理论基础。,平均互信息量的凸性,平均互信息量为先验概率q(xi)和信道转移概率p(yj/xi)的函数,可以记为:I(X;Y)=IQ(X);P(Y/X),当信道一定时,平均互信息是信源先验概率的上凸函数,对于一定的信道转移概率分布,总可以找到一个先验概率分布为Qm(X)的信源X,使平均互信息达到相应的最大值Imax,这时称这个信源为该信道的匹配信源。不同的信道转移概率对应不同的Imax,或者

24、说Imax是P(Y/X)的函数。,例 设二元对称信道(BSC)的信源空间为:X=0,1;Q(X)=,1-;,0 1-p 0 p p,1 1-p 1,平均交互信息量为:I(X,Y)=H(Y)-H(Y/X)(因为已知转移概率,所以利用这一个公式),H(Y/X)=-q(xi)p(yj/xi)logp(yj/xi)=q(xi)-plogp+(1-p)log(1-p)=H(p)其中:H(p)=-plogp+(1-p)log(1-p),另外:为了求H(Y),利用w(yj)=q(xi)p(yj/xi)可得:w(y=0)=(1-p)+(1-)p w(y=1)=p+(1-)(1-p),所以:H(Y)=-(1-p

25、)+(1-)plog(1-p)+(1-)p+p+(1-)(1-p)logp+(1-)(1-p)=H(1-p)+(1-)p),可得平均交互信息量为:I(X,Y)=H(1-p)+(1-)p)-H(p),求平均互信息I(X,Y)?,解:,根据这个关系,当p值一定,即固定信道,可知I(X,Y)是的上凸函数,其曲线如图:I(X,Y)1-H(p)0 1/2 1 从图中可知,当BSC信道的信道矩阵固定后,若输入符号集X的概率分布不同,在接收端平均每个符号获得的信息量就不同。只有当输入为等概分布时,p(0)=p(1)=1/2时,接收端的信息量才为最大值1-H(p)。这就是平均互信息的上凸函数性质。,I(X,Y

26、)=H(1-p)+(1-)p)-H(p),当信源一定时,平均互信息是信道转移概率的下凸函数对于一个已知先验概率为Q(X)的离散信源,总可以找到一个转移概率分布为Pm(Y/X)的信道,使平均互信息达到相应的最小值Imin。可以说不同的信源先验概率对应不同的Imin,或者说Imin是P(X)的函数。即平均交互信息量的最小值是由体现了信源本身的特性。,例:在上例中,I(X,Y)=H(1-p)+(1-)p)-H(p),当固定信源先验概率分布时,I(X,Y)是信道转移概率p的下凸函数,如图所示。0 1/2 1 p从图中可知,当信源固定后,存在一种BSC信道,p=(1-p)=1/2,使在信道输出端获得信息

27、量最小,即等于0。也就是说,信源的信息全部损失在信道中了。这是最差的信道,这个性质说明,每个信源都存在一种最差的信道,此信道的干扰最大。,I(X,Y),H(),定理:,证明:,平均条件互信息和平均联合互信息,数据处理定理(信息不增原理),P(Y/X),P(Z/Y),X,Y,Z,两级串联信道的情况,当消息经过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。,证明:,由联合互信息的定理,可得,对此系统而言,有,因而,再由条件互信息的非负性,可得,再由,可得,例 已知一个二元信源连接一个二元信道,如图给出,X=x1,x2,p(xi)=1/2,1/2。求I(X,Y),H

28、(X,Y),H(X/Y),和H(Y/X)。,x1 0.98 y1,0.02 0.2 x2 0.8 y2,解:(1)求联合概率 p(x1,y1)=0.50.98=0.49;p(x1,y2)=0.50.02=0.01 p(x2,y1)=0.50.20=0.10;p(x2,y2)=0.50.80=0.40(2)求p(yj)p(y1)=p(x1,y1)+p(x2,y1)=0.49+0.10=0.59 p(y2)=p(x1,y2)+p(x2,y2)=0.01+0.40=0.41(3)求p(xi/yj)p(x1/y1)=p(x1,y1)/p(y1)=0.831 p(x2/y1)=p(x2,y1)/p(y1

29、)=0.169 p(x1/y2)=p(x1,y2)/p(y2)=0.024 p(x2/y2)=p(x2,y2)/p(y2)=0.976,(4)求熵 H(X)=1 bit/符号 H(Y)=0.98 bit/符号 H(X,Y)=1.43 bit/符号 I(X,Y)=H(X)+H(Y)-H(X,Y)=0.55 bit/符号 H(X/Y)=0.45 bit/符号 H(Y/X)=0.43 bit/符号,各种熵之间的关系,小 结,自信息:事件ai的自信息,信息熵:离散随机变量X的自信息,熵函数的性质:若离散随机变量X的概率分布为 P=(p1,p2,pq),则H(P)具有性质 1.对称性 2.确定性 3.非负性 4.扩展性 5.可加性 6.强可加性 7.递增性 8.极值性 9.上凸性 离散无记忆信源的N次扩展信源的熵 H(X)=H(XN)=NH(X),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号