《第二章信息论的基本概念课件.ppt》由会员分享,可在线阅读,更多相关《第二章信息论的基本概念课件.ppt(111页珍藏版)》请在三一办公上搜索。
1、2.1 离散随机变量的熵,2.1.1 熵的引入2.1.2 香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量(熵的物理意义)2.1.4 熵函数的性质2.1.5 联合熵和条件熵,1,信息无处不在,但:信息用什么表示?如何表示?,不确定性携载的信息,可用随机变量的不确定性或随机性作为信息的表示,“信息是事物运动状态或存在方式的不确定性的描述”香农,问题1:,信息是随机的,2.1.1 熵的引入-1,如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用“货运量”衡量 消息信号传输信息多少用“信息量”衡量 概率论知识:事件出现的可能性愈小,概率愈小;该
2、事件是否会出现的不确定性就愈大事件出现的可能性愈大,概率愈大该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。,问题2:,2.1.1 熵的引入-2,研究思路一:自信息概率空间的平均自信息熵研究思路二:直接定义,2.1.1 熵的引入-3,2,分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+,自信息:,
3、研究思路一,信息量的直观定义:收到某消息获得的信息量不确定性减少的量(收到此消息前关于某事件发生的不确定性)(收到此消息后关于某事件发生的不确定性)在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得 收到某消息获得的信息量 收到此消息前关于某事件发生的不确定性 信源输出的此消息中所含有的信息量,自信息:,可以用泛函分析方法解得满足条件的函数形式为用概率测度定义信息量:设离散信源X,其概率空间为如果知道事件xi已发生,则该事件所含有的自信息定义为,自信息:,自信息含义,当事件xi发生以前:表示事件xi发生的不确定性。当事件x
4、i发生以后:表示事件xi所含有(或所提供)的信息量。在无噪信道中,事件xi发生后,能正确无误地传输到收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。这是因为消除了I(xi)大小的不确定性,才获得这么大小的信息量。,自信息的测度单位及其换算关系,如果取以2为底,则信息量单位称为比特(binary unit)如果取以e为底,则信息量单位称为奈特(nature unit)如果取以10为底,则信息量单位称为哈特(Hart unit)1奈特1.44比特 1哈特3.32比特,一般都采用以“2”为底的对数,为了书写简洁,有时把底数2略去不写。,信息论中“比特”与 计算机术语中“比特”区别,如果p
5、(xi)=1/2,则I(xi)=1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。信息论中“比特”是指抽象的信息量单位;计算机术语中“比特”是代表二元符号(数字);这两种定义之间的关系是:每个二元符号所能提供的最大平均信息量为1比特。,信源熵平均信息量,自信息是一个随机变量:自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。平均信息量信源熵:自信息的数学期望。也称为信源的信息熵/信源熵/香农熵/无条件熵/熵函数/熵。信息熵的单位:取决于对数选取的底。一般选用以2为底,其单位为比特/符号。信息熵的意义:信源的信息熵H是从整个信
6、源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。,熵(Entropy)的直接引入,一个离散随机变量X,以不同的取值概率有N个可能取值,信息论关心:X的不确定性不确定性大,获取的信息量多,研究思路二,熵的引入,不确定性分析:随机变量X、Y、Z,问题:1、能否度量?,小,大,2、如何度量?,香农指出:存在熵函数 满足先验条件,1、连续性条件:是 的连续函数,2、等概时为单调增函数:是N的增函数,3、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,X在各次试验中的不确定性可加。,结论:唯一的
7、形式:,C=常数0,即:,可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。,熵的定义,X为一随机变量样本空间Xx1,x2,.xnpi或p(xi)是输出为xi的概率定义为随机变量的熵函数,含义:(1)通过观测随机 变量X所获得的 平均信息量(2)对随机变量X的“不确定性”、“随机性”的度量,熵的单位,与前面介绍自信息的单位时相同,信息熵的单位也与公式中的对数取底有关。通信与信息中最常用的是以2为底,这时单位为比特(bit);理论推导中用以e为底较方便,这时单位为奈特(Nat);工
8、程上用以10为底较方便,这时单位为哈特利(Hartley)。它们之间可以引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley,熵H(X)-通过观测随机变量X所获得的平均信息量,进一步理解:平均统计平均(区别与算术平均)单位抽象的信息单位,无量纲(量纲单位)比特不同于计算机中的“比特”计算机:代表一个二元数字(binary digit)信息:对数取2为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为1比特认为:当x0时 xlog(1/x)=0通信:信息速率单位时间内信息的数量,3,2.1.2 香农熵与热力学中热熵的关系,熵这个名词是香农从物理
9、学中的统计热力学借用过来的,在物理学中称它为热熵,是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为负热熵。二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。,2,(不确定性),2.1.3 熵可以作为信息的量度,对于随机变量而言:试验前试验后,各取值的概率分布,确切取值(0),(不确定性),熵的差值,一定的确切性,多次试验后,通过试验消除了不确定性获得了信息,信息量获得的信息的数量,例2.1:试验前:试验后:,H(x)=l
10、og6=2.58bits=1.79nats,H(x1)=0,H(x)H(x1)=log6,例2.2:,试验前:,H(x)=log8=3(bit/符号),1,2,3,1,2,3,4,5,6,7,8,第一次测量后:,X1,P(x1),1 2 3 4 5 6 7 8,1/4 1/4 1/4 1/4 0 0 0 0,H(x1)=log4=2(bit/符号),H(x)H(x1)=1获得1bit信息量,H(x2)H(x3)=1 获得1bit信息量,第二次测量后:,X2,P(x2),1 2 3 4 5 6 7 8,1/2 1/2 0 0 0 0 0 0,H(x2)=log2=1(bit/符号),第三次测量后
11、:,X3,P(x3),1 2 3 4 5 6 7 8,1 0 0 0 0 0 0 0,H(x3)=log1=0(bit/符号),H(x1)H(x2)=1 获得1bit信息量,H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。,熵的物理含义,观察随机变量X、Y、Z,H(X)=-0.01log0.01-0.99log0.99=0.08(比特/符号),H(Y)=-0.5log0.5-0.5log0.5=1(比特/符号),H(Z)=5(-0.2log0.2)=2.32(比特/符号),熵的物理含义,熵是
12、随机变量的随机性的描述。变量Y、Z等概,随机性大,变量X不等概,则随机性小等概情况下,可取值越多,随机性越大H()是描述随机变量所需的比特数熵是随机变量平均不确定性的描述X试验中发生a1,获得的自信息为-log0.01=6.64(bit)Y试验中发生a1,获得的自信息为-log0.5=2.32(bit)H()反映的是平均的不确定性,例2.3 设某班学生在一次考试中获优(A)、良(B)、中(C)、及格(D)和不及格(E)的人数相等。当教师通知某甲:“你没有不及格”,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?,H(X)=5(-0.2log0.2)=2.32(比特),H(X)=4(-
13、0.25log0.25)=2(比特),甲获得的信息=H(X)-H(X)=0.32(比特),还需要的信息2.32-0.32=2(比特),2,2.1.4 熵函数的性质,香农熵是概率矢量的非负的上凸函数性质1:非负性性质2:上凸性性质3:唯一性(连续性、可加性、等概单调增),熵函数的性质非负性,证明一:,因为:,则:,所以:,熵函数的性质非负性,证明二:,有:,或:,所以:,熵函数的性质上凸性,凸性的概念:若对区域D中任意两点 和,均有:则称:区域D是凸域。,理解:若两点 和 在凸域D内,则 和 之间的线段也整个在区域D内。,在a,b上定义的下凸函数,若在凸域内,在a,b上定义的上凸函数,若在凸域内
14、,Jenson不等式,这一结果被称为Jenson不等式。Jenson不等式可以根据凸函数和数学归纳法来证明,熵函数的性质上凸性,上凸性:熵函数具有凸性,即H(P)是P的上凸函数。证明:(1)证明概率矢量P=(p1,p2,pN)的集合组成的区域是一个凸域。(2)利用,作业,熵函数的性质,定理2.1极值性 对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:,其中:N为X可能取值得个数。,例2.4:二元熵函数是对01分布的随机变量所求的熵:,H(X)=-plogp-(1-p)log(1-p)=H(p),有:,而:,可以证明,p1/2时,H(p)取最大值,为log2=1。而p=0或1时,
15、H(p)0,故二元熵函数的曲线如图所示:,p,二元熵函数曲线,等概时(p=0.5):随机变量具有最大的不确定性,p=0,1时:随机变量的不确定性消失。,计算机术语VS信息单位:“比特”每一个二元数字所能提供的最大平均信息量为1比特 符号等概分布的二元数字序列中,每一个二元数字将平均提供1比特的信息量;符号非等概分布时,每一个二元数字所提供的平均信息量总是小于1比特,例:2.5 P=0.5,0.25,0.25 Q=0.48,0.32,0.2H(P)=H(Q)=1.5 bits不同的概率分布熵可以相同For 3 symbols:Hmax(P)=log 3=1.585 bits 进一步理解:熵只与随
16、机变量的总体结构有关,它表征随机变量的总体的平均不确定性。局限性:不能描述时间本身的具体含义和主观价值,定理2.2 设离散随机变量的概密矩阵为 函数 是随机变量不确定性的量度,若此函数满足条件连续性等概时单调增函数性可加性则此函数必为,熵函数的性质唯一性,证明:可参见朱雪龙应用信息论基础P24,2.1.5 联合熵与条件熵条件熵,物理含义:已知一随机变量的情况下,对另一随机变量不确定性的量度,条件熵:,理解:观测Y以后,仍保留的关于X的不确定量。,信道,2.1.5 联合熵与条件熵联合熵,联合熵物理意义:二元随机变量不确定性的量度,联合熵、条件熵的关系:,当X,Y相互独立时,有:,于是有:,理解:
17、当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等于无条件熵。,联合熵、条件熵的关系:,一般情况下,理解:表明一般情形下:条件熵总是小于无条件熵。,注意:这是平均意义上的,2,“相对”熵:,设p(x),q(x)是两个不同的离散概率分布函数,则:,为概率分布函数p(x)关于q(x)的“相对”熵。,2,作业:利用Jenson不等式证明,意义:如果p(x)看作系统本身的概率分布,q(x)看做人们对系统进行估计得到的经验概率分布,则相对熵反映了由于逼近误差引起的信息量的丢失。,2.2 离散随机变量的互信息(Mutual information),2.2.1 互信息的定义2.2.2 互信
18、息函数的性质2.2.3 熵 VS 互信息,1,H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(Y|X)H(Y),if and only if X,Y独立时,等号成立H(XY)H(X)+H(Y),if and only if X,Y独立时,等号成立 H(X)与 H(X|Y)之间的差值 H(X)H(X|Y)可以认为是变量 Y 能够提供的关于变量 X的平均信息量定义为互信息 即 I(X;Y)=H(X)H(X|Y),2.2.1 互信息的定义-1,2.2.1 互信息的定义-2,I(X;Y)=I(Y;X)=H(Y)H(Y|X)=H(X)H(X|Y)H(X)+H(Y)=H(XY)+I(X;Y)
19、I(X;Y)=H(X)+H(Y)H(XY),图像配准,2.2.1 互信息的定义-3,定义:离散随机变量X和Y之间的互信息,2.2.1 互信息的定义-4,和 是随机变量X和Y之间相互提供的信息量 称为互信息是完全确切的,证明略。,一般情况下:,理解:了解一事物总对另一事物的了解有所帮助,2.2.1 互信息的定义-4,当随机变量X和Y之间有确定的关系时,1、X可以唯一确定Y,,此时:,故:,2、Y 可以唯一确定X,,此时:,故:,是对X和Y之间统计依存程度的信息量度,2.2.1 互信息的定义-5,另一种定义:,这里:,变换得到互信息的另一种表达式:I(X;Y)是随机变量X的概率矢量p 和条件概率矩
20、阵Q的函数,2,2,2,问题引出:,在通信系统中,人们往往对接收到的数据进行信息处理和分析,然而,很多处理模式因为缺少正确的抉择,而导致信息量的丢失或增加了对原始数据的干扰。下面我们从信息论的角度加以分析。,链式法则与信息处理,2,即:,引理:,链式法则与信息处理,2,请自己看证明,同理可证:,链式法则与信息处理,讨论:,上述不等式成立的条件为:对任意的,当,时,有:,链式法则与信息处理,2,链式法则与信息处理,设,是一马尔科夫链;,则,定理:,证明:引理部分可得,,利用引理可得,2,链式法则与信息处理,所以:,上述定理表明:对一个信息处理系统,如果系统数据处理过程可用一马尔科夫链进行描述,那
21、么每增加一次处理,系统信息量是递减的。从另一个角度讲,系统每增加一次处理,数据特征的不确定性是递减的,确定性是递增的。,2,多个随机变量下的互信息,本部分内容学生自己推导,作业。,2.2.2 互信息函数的性质,互信息与p(x)的关系性质1:I(P;Q)是P(x)的上凸函数.,信道,理解:可以看成信道输入的概率分布,2.2.2 互信息函数的性质,互信息与Q矩阵的关系 性质2:I(p;Q)是Q的下凹函数.,理解:Q 可以看成信道转移概率分布,2.2.2 互信息函数的性质,互信息与p(x)的相关性的关系 性质3:若概率矢量p是离散无记忆的,证明参见傅祖芸“信息论-基础理论与应用(第二版)”p118,
22、2.2.2 互信息函数的性质,互信息与Q的相关性的关系 性质4:若条件概率矩阵Q是离散无记忆的,2.2.2 互信息函数的性质,互信息与p(x)及Q的相关性的关系 推论:若概率矢量p和条件概率矩阵Q都是离散无记忆的,2,证明:,因为信源有可能是有记忆信源,所以信道输出之间有可能相互关联,当信源是无记忆信源时,,2.2.3 熵 VS 互信息,信息熵是表征随机变量本身统计特性的一个物理量,它是随机变量平均不确定性的度量,是从总体统计特性上对随机变量的一个客观描述。互信息I(X;Y),作为信息量一般是针对观测到另一个随机变量时而言的,是一个相对量,是指观测者从随机变量Y中所获得的关于随机变量X的信息度
23、量。在通信中,互信息是针对接收者而言的,是指接收者收到的关于信源的信息度量,当通信中无干扰时,接收者获得的信息量数量上就等于信源给出的信息熵,但是两者的概念不一样;当信道有干扰时,不仅概念上不一样,而且数量上也不相等。信息熵也可理解为信源输出的信息量。,2,作业二:已知12个球中有一个球的重量与其他球不同,其他球均等重,(1)、用天平称几次可找出此球?(2)、给出一种找出此球的方法,并求:每次称量所减少的不确定性(即获得的信息量)是多少?,作业:,作业一:一个出老千的赌徒有一枚灌了铅的色子A,它掷出1 点的概率是2/3,掷出2 至6 点的概率各为1/15。不幸的是,他将色子A 与另外两枚正常的
24、色子B、C 混在一起了。为了区分出A,他随机抽出一枚色子并且掷出了1 点,那么他判断这个色子为A 的正确概率是多少?他不放心,拿着这个色子又掷了一次,又得到了1 点,那么此时他判断这个色子为A 的正确概率是多少?,3、有一离散无记忆信源,其输出为,相应的概率为 用两个独立的通信系统去传输它,其收到的结果分别为,,,已知条件概率如下表所列。求 和,并判断哪一个通信系统好些。,作业一:已知12个球中有一个球的重量与其他球不同,其他球均等重,1、用天平称几次可找出此球?2、给出一种找出此球的方法,并求:每次称量所减少的不确定性(即获得的信息量)是多少?,解 1、设“在12个球中有一个球的重量与其他球
25、不同”这事件为,其出现的概率为,又设“这个特别球的重量比其它的重量是重或轻”这事件为,其出现的概率为,2、把12个球分ABC三份:每份4个,记作AA1,A2,A3,A4,BB1,B2,B3,B4,CC1,C2,C3,C4开始第一称:取A份放天平左盘,B份放右盘,如果(左=右)则说明次品在C组四个中 开始 第二称:取C1放左盘,C2放右盘,如果(左=右)则说明次品在C3,C4中,开始 第三称:把C1取出,把C3放入左盘如果(左=右)则说明次品是C4;否则说明次品是C3,否则说明次品在C1,C2中,开始 第三称:把C1取出,把C3放入左盘如果(左=右)则说明次品是C1;否则说明次品是C2,否则说明
26、次品在A组、B组八个中,这个时候需要记住天平向那边倾斜(假设向左边倾斜,就是说左边重,左右)这时需要第二次称重.,第二次称,从右盘B组中取出B2,B3,B4,从左盘A组中取A2,A3,A4放入右盘,从C组中任意取C2,C3,C4放入左盘,如果(左=右),则说明次品在B2,B3,B4中,而且说明次品是轻的,开始 第三称:取出天平里全部的球,把B2放入左盘,把 B3放入右盘如果(左=右);则说明次品是B4;否则说明次品是在B2,B3中如果(左右)则说明次品是B3;否则 说明次品是B2,否则说明次品在A1,A2,A3,A4,B1中,这个时候需要记住天平向那边倾斜,如果(左右)则说明次品在A1,B1中
27、,开始第三称,全部取出天平里的球,把A1、B1放入左盘,把其他任取2球放入右盘,天平肯定不平衡了如果(左右)则说明次品是A1,且次品重;否则说明次品是B1,且次品轻,否则说明次品在A2,A3,A4中,且次品重,开始第三称,全部取出天平里的球,把A2放入左盘,把A3放入右盘如果(左=右)则说明次品是A4,且次品重如果(左右)则说明次品是A2,且次品重;否则,说明次品是B3,且次品重,单维连续信源 实际中,某些信源的输出常常是时间和取值都是连续的随机函数。例如语音信号、电视信号。这样的信源称为连续信源,其输出消息可以用随机过程x(t)来表示。在某一固定的时刻t0,信源 x(t)的输出是一个取值连续
28、的随机变量X。由一个连续随机变量X表示的连续信源,称为单维连续信源。,2.3连续随机变量下的熵和互信息,2.3.1连续随机变量下的微分熵,单维连续信源的表示方法,连续信源中消息数是无限的。连续信源可用概率密度函数来描述。,离散信源,连续信源,消息:离散符号信源空间:,消息:取值连续的随机变量信源空间:,单维连续信源的熵,把落在第i个区间中的全部x值都由xi表示,这样,在a,b中连续取值的连续信源X,即可量化成取离散值xi(i=1,2,n)的离散信源Xn,积分中值定理,把区间a,b等分成n个区间,区间宽连续随机变量X落在第i个区间的概率为,离散信源Xn的信源空间为Xn的概率空间是一个完备集,其中
29、,,微分熵(相对熵):h(X),H(X)为X的信息熵,无限大h(X)称为X的微分熵(相对熵),由p(x)确定注意:相对熵h(X)不代表信源X的平均不确定性,也不代表X每取一个数值所提供的平均信息量,不含有信息的内涵,令,则,(无限大常数),定义h(X)的原因:,2、互信息(熵差),无限大量抵消,具有 信息的特征,1、形式上与离散信源熵统一,连续信源的各种熵,边界熵,条件熵,联合熵,2.3.2 几种单维连续信源的相对熵,均匀分布,相对熵:,信源空间:,相对熵无非负性,可为负值,高斯分布:,与方差有关,与均值无关,当均值m=0(即方差表示平均功率)时:,相对熵只与平均功率有关,指数分布:,指数分布
30、的相对熵只取决于信源的均值a,2.3.3 相对熵的性质,相对熵的可加性,并当且仅当X与Y统计独立时,等号成立,所以可得:h(XY)h(X)+h(Y),相对熵的极值性 詹森不等式:设函数f(x)在区间A中连续,概率密度函数满足,当f(x)是上凸函数时,有,因f(x)=logx是上凸函数,设q(x)为另一概率密度函数,所以,表明,相对熵存在最大值,与离散信源的熵H(X)类似,若等式成立,则表明 达最大值,相对熵的上凸性,设 是单维连续信源X的两种概率密度函数,则有,设,则,故 亦可看作连续信源X的另一种概率密度函数,是上凸函数,最大相对熵定理,由h(X)的上凸性和极值性可知,h(X)的最大值就是h
31、(X)的极大值。一般,单维连续信源X要受约束条件的限制:,对于单维连续信源,在取值区间a,b内,若有这样一个概率密度函数p(x),对另一个满足同样约束条件的概率密度函数q(x),有,则这个函数p(x)就是能使单维连续信源的相对熵hp(X)达到最大值的概率密度函数。,峰值功率受限最大熵定理,对于输出消息的峰值功率受限的单维连续信源,当输出消息的概率密度是均匀分布时,相对熵达到最大值。,均匀分布的概率密度函数,在满足公式(111)时可求:,最大相对熵,峰值功率受限实质上就是取值区间受限。,当,是信源X的输出幅值,是信源X的峰值功率。,均值受限最大熵定理,对于输出非负消息且其均值受限的单维连续信源,
32、当输出消息的概率密度是指数分布时,其相对熵达到最大值。,指数分布的概率密度函数,最大相对熵,只取决于限定均值a,在满足公式(111)时可求:,平均功率受限最大熵定理,对于输出消息的平均功率受限的单维连续信源,当输出消息的概率密度是高斯分布时,相对熵达到最大值。,高斯分布的概率密度函数,最大相对熵,对于均值为零(m=0)的连续信源,,在满足公式(111)时可求:,定义如果信道的输入和输出均是一个取值连续的随机过程,则称为连续信道如果输入和输出均是一个取值连续的随机变量,则称为单维连续信道,2.3.4连续随机变量下的互信息,单维连续信道,单维连续信道:信道输入和输出均是一个取值连续的随机变量。输入
33、区间:输出区间:信道传递概率密度函数:且若有连续信源:且 接入信道,因信源的取值区间与信道的输入区间 相同,故信源的任一可能取值 都能通过信道,以概率密度 在信道输出端出现信道输出区间 中的某一值,从而在信道输出端形成连续随机变量Y,平均交互信息量,可见平均交互信息量有三种表示方式,平均交互信息量的3种表示形式:,在两信息熵的“熵差”问题中,相对熵替代了信息熵的作用。与离散信道的平均交互信息量相比,输入区间和输出区间代替了单符号离散信道的取值离散的输入符号集合输出符号集合,二重积分代替了二次求和。因而,单维连续信道的平均交互信息量与单符号离散信道的平均交互信息量具有相同的数学特性。,平均交互信
34、息量的特性 非负性:,当且仅当 统计独立时,交互性:极值性:,但,不成立上凸性:如同离散信道的平均交互信息量一样,其中:,在信息处理中,经常要对所获得的数据进行进一步分类,并进行归并处理。即将可接受到的有限数据空间(Y,q)归并为另一类处理后的有限数据空间z=D(y),p.它可表示为:,信息不增性原理信号数据处理定理,即将m个元素归并为一个子集合,,其对应概率:,经过数据处理以后与处理前相比较,两者从发送端可获得的互信息量是增加了还是减少了,为此有下列定理:,信息不增性原理信号数据处理定理(续),证明(1)设:,定理:在信息处理中,数据经归并处理后有如下结论:,信息不增性原理信号数据处理定理(续),则有:,这时,,信息不增性原理信号数据处理定理(续),由此可见,经过分类、归并处理后信息只能减少,不能增加,故称为信息不增性原理。,信息不增性原理信号数据处理定理(续),先证,即:,信息不增性原理信号数据处理定理(续),信息不增性原理信号数据处理定理(续),同理,可证:故结论成立。它说明,要想减少信息损失,必须付出代价。比如,多次接触信源,但无论接触多少次,也决不会获得超过信源可提供的信息熵H(X)。,