《2.2熵函数的性质、随机变量序列的熵率.ppt》由会员分享,可在线阅读,更多相关《2.2熵函数的性质、随机变量序列的熵率.ppt(44页珍藏版)》请在三一办公上搜索。
1、信源熵(信息熵),定义:自信息的数学期望,与联合熵、条件熵之间的关系l,复习,熵函数,概率矢量,熵函数,性质:,1、对称性:H(P)的取值与分量 p1,p2,pq的顺序无关。一个例子:,2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0)=0性质说明:这个信源是一个确知信源,其熵等于零。3、非负性:H(P)0说明:这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。,非负性体现信息是非负的。,4、扩展性,性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。,所以,上式成立,因为,5、可加性,统计独立
2、信源X和Y的联合信源的熵等于信源X和Y各自的熵之和。H(XY)=H(X)+H(Y)可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。,例如,甲信源为,它们的联合信源是,可计算得联合信源的联合熵:H(Z)=H(XY)=log(nm)=log m+log n=H(X)+H(Y),乙信源为,可加性证明,6、极值性等概率分布时,离散信源熵值达到最大。,最大离散熵定理。,证明:因为对数是型凸函数,满足詹森不等式Elog Y log EY,则有:,唯一性 香农指出,存在这样的不确定性的度量,它是概率 分布 的函数,且该函数应满足:对称性 极值性可加性扩展性 它的形式是唯一的。,复习熵
3、条件熵半条件熵联合熵,复习,链式法则,复习熵函数的性质H(p1,p2,pn)对称性 非负性 极值性 连续性 扩展性可加性,二进制信源是离散信源的一个特例 该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“”和“1-”,即信源的概率空间为:,H(X)=-log(1-)log(1-)=H(),即信息熵H(x)是的函数。取值于0,1区间,可画出熵函数H()的曲线来,如右图所示。,引理1:一个常用不等式:,引理2:香农辅助定理,令,即可得到最大熵为。,证明:,定理:1.H(X/Y)H(X)2.H(XY)H(X)+H(Y),证明:,设信源输出的随机序列为 X=(X1X2XlXL)序列中的变量
4、Xlx1,x2,xn,离散无记忆信源,离散无记忆:,离散平稳信源,对于随机变量序列 各维联合概率分布均与时间起点无关的完全平稳信源称为离散平稳信源。,离散无记忆信源,信源的序列熵,平均符号熵,当离散平稳无记忆信源信源发出固定长度的消息序列时,则得到原信源的扩展信源。如果把N个二元数字组成一组,则信源等效成一个具有2N个符号的新信源,把它称为二元无记信源的N次扩展信源。,离散无记忆的扩展信源,离散无记忆的扩展信源,例如在电报系统中,若信源输出的是二个二元数字组成的符号序列,此时可认为是一个新的信源,它由四个符号(00,01,10,11)组成,该信源称为二元无记忆信源的二次扩展信源。,例 求如下离
5、散无记忆信源的二次扩展信源及其熵。,解:二次扩展信源的概率空间为,离散无记忆信源实例,离散平稳无记忆N次扩展信源的熵H(XN)=H(X1X2XN)=H(X1)+H(X2|X1)+H(X3|X1X2)+H(XN|X1X2XN-1)=H(X1)+H(X2)+H(X3)+H(Xn)=NH(X),H(XN)=H(X)+H(X)+H(X)=N H(X),例:已知离散有记忆信源中各符号的概率为:,设发出的符号只与前一个符号有关,这两个符号的概率关联性用条件概率p(aj|ai)表示,如表,p(aj|ai),离散有记忆信源实例,aj,由 p(ai,aj)=p(ai)p(aj|ai)计算得联合概率p(ai aj
6、)如表,离散有记忆信源实例,发二重符号序列的熵,平均符号熵,符号之间存在关联性,比较,离散有记忆信源实例,而信源X的信息熵为,条件熵,而,分 析,所以,信源无记忆时,若信源输出一个L长序列,则信源的序列熵为,平均符号熵为,极限熵,离散有记忆信源的极限熵,对离散平稳信源若H1(X),则有以下性质:(1)条件熵H(XN/X1X2XN-1)随N的增加是递减的;(2)HN(X)H(XN/X1X2XN-1);(3)HN(X)也是随N增加而递减的;(4)H 存在,并且:,上式表明:当依赖关系趋于无穷时,平均符号熵和条件熵都非递增地一致趋于平稳信源的信息熵。对于一般平稳信源,求 H相当困难。但N不很大时有:
7、H HN(X)或 H H(XN|X1X2XN-1)。,结论证明,对于有限记忆长度的平稳信源可用有限记忆长度的条件熵来对平稳信源进行信息测度。,当平稳信源的记忆长度有限时(m+1),得离散平稳信源的极限熵:,信源冗余度及信息变差,由离散熵的性质有表明信源的记忆长度越长,熵就越小;即信源符号的相关性越强,所提供的平均信息量就越小。定义:信源熵的相对率为信源实际的信息熵与同样符号数的最大熵的比值,一个汉字的熵为9.65bit一个英文字母的熵为4.12bit汉字的极限熵平均为4.0462bit英文按单词(均值4.5个字母)计算平均每个字母的熵是1.65bit 在非扩展无记忆信源中,码字的平均长度不能小
8、于信源的熵。由于汉字的熵为9.65比特,大于8比特,因此,汉字不能使用单字节(8比特)编码,而要使用双字节(16比特)编码。现代汉语冗余度的上限为75,下限为55,平均值为 65 英语冗余度的上限为80,下限为67,平均值为75。冗余度压缩:语音编码、图像编码,熵的意义(对通信系统)H(X):表示信源中每个符号的平均信息量(信源熵)。H(Y):表示信宿中每个符号的平均信息量(信宿熵)。H(X|Y):信道疑义度(损失熵,含糊度)H(Y|X):信道散布度(噪声熵)H(XY):表示整个信息传输系统的平均不确定性(联合熵)。,解:信源X的熵为:,例:有两个同时输出的信源X和Y,其中X的信源符号为A,B
9、,C,Y的信源符号为D,E,F,G,已知 P(X)和P(Y/X),求联合信源的联合熵和条件熵。,信源XY输出每一对消息的联合概率为:P(XY)=P(Y/X)P(X),结果如下表:,联合信源的联合熵:,信源Y的条件熵:信道散布度(噪声熵),从上述结果可得:H(XY)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号),当两个信源统计独立时,H(XY)=H(X)+H(Y),为最大。,对第二个信源Y,其熵H(Y)的计算。由全概率公式:,因此:,联合熵的最大值为:,由于信源相关,使联合熵减小,其减小量为:,本节小结,熵的性质,多符号离散信源的熵,非负性、对称性、确定性、扩展性、可加性、极值性、上凸性、唯一性,离散无记忆信源,离散有记忆信源,(本节内容见课本21-25页),