《信息论与编码信源及信息度量.ppt》由会员分享,可在线阅读,更多相关《信息论与编码信源及信息度量.ppt(101页珍藏版)》请在三一办公上搜索。
1、信道的通信能力可以度量吗?在有干扰的信道上可以进行无差错的通信吗?,学习得来终觉浅,绝知此事要自悟,2,第2章 信源及信息度量,信源的数学模型和分类 离散信源熵和互信息离散序列信源熵连续信源熵和互信息冗余度,3,2.1信源的数学模型和分类,信源顾名思义是产生消息的源头,从数学的角度,它产生随机变量、随机序列和随机过程的源。在这里信源指从信源发出的消息。信源的基本特性是具有随机属性和概率统计特性,4,2.1信源的数学模型和分类,分类 按照信源发出的消息在时间上和幅度上的分布情况,把信源分为:(1)连续信源(continuous source):发出在时间上或幅度上是连续分布(只要满足其中之一)的
2、连续消息的信源,如话音、图像,可以认为是一个随机过程。(2)离散信源(discrete source):发出在时间上和幅度上都是离散分布的信源。消息的符号的取值是有限的或可数的,且两两不相容。如文字、数据、电报。可以认为是一个随机变量或者随机序列。,5,2.1信源的数学模型和分类,分类 按照信源发出的消息在时间上和幅度上的分布情况,把信源分为:(1)连续信源(continuous source):发出在时间上或幅度上是连续分布(只要满足其中之一)的连续消息的信源,如话音、图像,可以认为是一个随机过程。(2)离散信源(discrete source):发出在时间上和幅度上都是离散分布的信源。消息
3、的符号的取值是有限的或可数的,且两两不相容。如文字、数据、电报。可以认为是一个随机变量或者随机序列。,6,2.1信源的数学模型和分类,分类离散信源可以根据符号间关系细分为:(1)离散无记忆信源(discrete memoryless source):所发出的各个符号之间是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。(2)离散有记忆信源(discrete source with memory):发出的各个符号之间不是相互独立的,各个符号出现的概率是有关联的。,7,2.1信源的数学模型和分类,分类 也可以根据信源发出一个消息所用符号的多少,将离散
4、信源分为:(1)离散无记忆信源(discrete memoryless source):所发出的各个符号之间是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。(2)离散有记忆信源(discrete source with memory):发出的各个符号之间不是相互独立的,各个符号出现的概率是有关联的。,8,2.1信源的数学模型和分类,分类 将以上两种分类结合,主要有下面几种离散信源:(1)发出单个符号的无记忆离散信源;(2)发出符号序列的无记忆离散信源;(3)发出符号序列的有记忆离散信源。当有记忆信源的相关性涉及到前面所有符号的时候,随着序列的增
5、加,相关性的符号也会增加,当序列可能无限长的时候,记忆的长度也是无限的,因此为了简化问题,一类有限记忆、定长记忆、记忆是邻近的离散信源被提出,即马尔可夫信源:某一个符号出现的概率只与前面一个或有限个符号有关,而不依赖更前面的那些符号。,9,2.1信源的数学模型和分类,分类,10,2.1.1 离散无记忆信源,例2-1 扔骰子每次试验结果必然是16点中的某一个面朝上。可以用一个离散型随机变量X来描述这个信源输出的消息。并满足 需要注意的是,大写字母X代表随机变量,指的是信源整体。带下标的小写字母xi代表随机事件的某一具体的结果或信源的某个元素(符号)。在信息论教材中一般如此约定,11,2.1.1
6、离散无记忆信源,我们可用一维离散型随机变量X来描述这些信息的输出。这样的信息称为离散信源。其数学模型就是离散型的概率空间:0p(xi)1 其中,p(xi):信源输出符号xi(i=1,2,n)的先验概率。当信源给定,其相应的概率空间就已给定;反之,如果概率空间给定,这就表示相应的信源已给定。所以概率空间能表征这离散信源的统计特性。以上的信息表达方式存在局限性吗?对于具体的信息,经过以上表示中去掉了那些因素?,2.1.1 离散无记忆信源,上式表示信源可能的消息(符号)数是有限的,只有n个:x1,x2,xn,而且每次必定选取其中一个消息输出,满足完备集条件。这是最基本的离散信源。有的信源输出的消息也
7、是单个符号,但消息的数量是无限的,如符号集A的取值是介于a和b之间的连续值,或者取值为实数集R等。连续信源:输出在时间和幅度上都是连续分布的消息。消息数是无限的或不可数的,且每次只输出其中一个消息。我们可用一维的连续型随机变量X来描述这些消息。其数学模型是连续型的概率空间p(x)是随机变量X的概率密度函数。,2.1.1 离散无记忆信源,例如:随机取一干电池,测电压值作为输出符号,该信源每次输出一个符号,但符号的取值是在0,1.5之间的所有实数,每次测量值是随机的,可用连续型随机变最X来描述。很多实际信源输出的消息是由一系列符号组成,这种用每次发出1组含2个以上符号的符号序列来代表一个消息的信源
8、叫做发出符号序列的信源。需要用随机序列(随机矢量)X=(X1X2XlXL)来描述信源输出的消息,用联合概率分布来表示信源特件。,2.1.2 离散有记忆信源,例2-2 布袋中有100个球,80个红球,20个白球。先取出一个球,记下颜色后不放回布袋,接着取另一个。而在取第二个球时布袋中的红球、白球概率已与取第一个球时不同,此时的概率分布与第1个球的颜色有关:若第1个球为红色,则取第二个球时的概率p(a1)=79/99,p(a2)=20/99若第1个球为白色,则取第二个球时的概率p(a1)=80/99,p(a2)=19/99,2.1.2 离散有记忆信源,即组成消息的两个球的颜色之间有关联件,是有记忆
9、的信源,这种信源就叫做发出符号序列的有记忆信原。例如由英文字母组成单词,字母间是有关联性的,不是任何字母的组合都能成为有意义的单词,同样不是任问单词的排列都能形成有意义的文章等。这些都是有记忆信源。此时的联合概率表示比较复杂,需要引入条件概率来反映信源发出符号序列内各个符号之间的记忆特征表述的复杂度将随着序列长度的增加而增加。,2.1.2 离散有记忆信源,离散信源的统计特性:(1)离散消息是从有限个符号组成的符号集中选择排列组成的随机序列(组成离消息的信息源的符号个数是有限的)。一篇汉文,尽管文章优美,词汇丰富,一般所用的词都是从常用 10 000个汉字里选出来的。一本英文书,不管它有多厚,总
10、是从26个英文字母选出来,按一定词汇结构,文法关系排列起来的。(2)在形成消息时,从符号集中选择各个符号的概率不同。对大量的由不同符号组成的消息进行统计,结果发现符号集中的每一个符号都是按一定的概率在消息中出现的。例如在英文中,每一个英文字母都是按照一定概率出现的,符号“e”出现最多,“z”出现最少。(3)组成消息的基本符号之间有一定的统计相关特性。,2.1.3 马尔可夫信源,我们讨论一类相对简单的离散平稳信源,该信源在某一时刻发出字母的概率除与该字母有关外,只与此前发出的有限个字母有关。若把这有限个字母记作一个状态S,则信源发出某一字母的概率除与该字母有关外,只与该时刻信源所处的状态有关。在
11、这种情况下,信源将来的状态及其送出的字母将只与信源现在的状态有关,而与信源过去的状态无关。这种信源的一般数学模型就是马尔可夫过程(Markov Process),所以称这种信源为马尔可夫信源(Markov source)。可以用马尔可夫链(Markov chain)来描述。,2.1.3 马尔可夫信源,定义:信源输出某一符号的概率仅与以前的m个符号有关,而与更前面的符号无关称为m阶马尔可夫信源。即有:,2.1.3 马尔可夫信源,最简单的马尔可夫信源是一阶马尔可夫信源,如果是高阶马尔可夫信源,处理起来较为复杂。所以解决的办法是,将m个可能影响下一步的信源符号作为一个整体,我们将m阶马尔可夫信源的m
12、个符号组成的序列称为状态。,2.1.3 马尔可夫信源,具体的转换方法如下:令 i1,i2im(1,2,q)状态集,信源输出的随机符号序列为:信源输出的随机状态序列为:例如二元序列01011100为二阶马尔可夫信源,考虑m=2,Q=qm=22=4s1=00 s2=01 s3=10 s4=11最开始是01,对应s2,然后将首位的0挤出,移入后面的0,即为10,对应s3,接着挤出1,移入1,得到01,对应s2,接着是11,对应s4,接着又是11对应s4,接着是10,对应s3,最后是00,对应s1,所以变换成对应的状态序列为s2 s3 s2 s4 s4 s3 s1设信源在时刻m处于si状态(即Sm=s
13、i),这里的m指时刻,而不是前面的阶数,它在下一时刻(m+1)状态转移到sj(即Sm+1=sj)的转移概率为:称为基本转移概率,也称为一步转移概率。若与时刻m 的取值(也可以理解为在序列中的位置)无关,则称为齐次(时齐)马尔可夫链。,2.1.3 马尔可夫信源,具有下列性质:0类似地,定义k步转移概率为,2.1.3 马尔可夫信源,由于系统在任一时刻可处于状态空间中的任意一个状态,因此状态转移时,转移概率是一个矩阵,2.1.3 马尔可夫信源,齐次马尔可夫链可以用马尔可夫状态转移图(因为是香农提出,所以又称香农线图)表示,图中每个圆圈代表一种状态,状态之间的有向线代表某一状态向另一状态的转移,有向线
14、一侧的符号和数字分别代表发出的符号和条件概率。,2.1.3 马尔可夫信源,例2-3 设信源符号,信源所处的状态。各状态之间的转移情况如图:,2.1.3 马尔可夫信源,将图中信源在状态下发符号的条件概率用矩阵表示为 由矩阵可明显看 出,2.1.3 马尔可夫信源,另从图还可得,2.1.3 马尔可夫信源,所以信源某时刻l所处的状态,由当前的输出符号和前一时刻l-1信源的状态唯一确定。由图还可得状态的进一步转移概率该信源是时齐的马尔可夫信源。,2.1.3 马尔可夫信源,齐次马尔可夫链中的状态可以根据其性质进行分类:如状态si经若干步后总能到达状态sj,即存在k,使pij(k)0,则称si可到达sj;若
15、两个状态相互可到达,则称此二状态相通;过渡态:一个状态经过若干步以后总能到达某一其他状态,但不能从其他状态返回;吸收态:一个只能从自身返回到自身而不能到达其他任何状态的状态;常返态:经有限步后迟早要返回的状态;周期性的:在常返态中,有些状态仅当k能被某整数d1整除时才有pij(k)0;非周期性的:对于pij(k)0的所有k值,其最大公约数为1。遍历状态:非周期的、常返的状态。闭集:状态空间中的某一子集中的任何一状态都不能到达子集以外的任何状态。不可约的:闭集中除自身全体外再没有其他闭集的闭集。,2.1.3 马尔可夫信源,约的、非周期的、状态有限的马尔可夫链其k步转移概率pij(k)在k时趋于一
16、个和初始状态无关的极限概率p(sj),它是满足方程组 的唯一解;,2.1.3 马尔可夫信源,例2-4,2.1.3 马尔可夫信源,上图的周期为2,因为从S1出发再回到S1所需的步数必为2,4,6,。,当k为奇数时:当k为偶数时:,2.1.3 马尔可夫信源,2.1.3 马尔可夫信源,所以虽然方程组 是有解的,为,但是达不到稳定状态。为使马氏链最后稳定,成为遍历的马氏链,还必须有不可约性(可达性)和非周期性。,2.1.4 连续信源,当信源在时间(或频率之类)和幅度上有其中之一是连续的时候,称为连续信源(continuous source)。如果进一步,两者都连续,则称为随机波形信源,比如模拟信号。,
17、2.2 离散信源熵和互信息,信息量与不确定性消除的程度有关。消除多少不确定性,就获得多少信息量。可以应用研究随机事件的数学工具概率论和随机过程来度量不确定性的大小。简单地说,不确定性的大小可以直观地看成是事先猜测某随机事件是否发生的难易程度。,2.2 离散信源熵和互信息,例2-5 足球比赛的结果是不确定的。如果实力接近的两个队进行比赛,在比赛之前,我们很难预测谁能获得胜利,所以这个事件的不确定性很大,当得知比赛结果时,我们就会获得较大的信息量。如果实力相差悬殊的两个队进行比赛,一般结果是强队取得胜利,所以当得知比赛结果是强队获胜时,我们并不觉得奇怪,因为结果与我们的猜测是一致的,所以消除的不确
18、定性较小,获得的信息量也较小;当得知比赛结果是弱队取胜时,我们会感到非常惊讶,认为出现了“黑马”,这时将获得很大的信息量。,2.2 离散信源熵和互信息,1.样本空间 把某事物各种可能出现的不同状态,即所有可能选择的消息的集合,称为样本空间。每个可能选择的消息是这个样本空间的元素。在离散情况下,X的样本空间可写成,2.2 离散信源熵和互信息,2.概率测度对于离散消息的集合,概率测度就是对每一个可能选择的消息指定一个概率(非负的,且总和为1。设样本空间中选择任意元素 的概率表示为,其脚标X表示所考虑的概率空间是X。如果不会引起混淆,脚标可以略去,写成。,2.2 离散信源熵和互信息,3.概率空间 定
19、义:一个样本空间和它的概率测度统称为一个概率空间,在离散情况下,概率空间描述为,2.2.1 自信息量,信息应该如何度量呢?从上面的分析中,我们已经发现了一些线索,我们可以得出以下结论。(1)信源的不确定程度与其概率空间的消息数和消息的概率分布有关系。(2)信源的消息为等概率分布时,不确定度最大。(3)信源的消息为等概率分布,且其消息数目越多,其不确定度越大。(4)只发送一个消息的信源,其不确定度为0,不发送任何信息。(5)不确定性随着概率增加而递减,概率越小,信息量越大。,2.2.1 自信息量,设信息量为I,我们已经肯定I是的函数,即,根据前面的归纳做进一步引申,可以得出以下性质:,2.2.1
20、 自信息量,信息量应具有可加性:对于两个独立事件,其信息量应等于各自信息量之和,即,2.2.1 自信息量,我们可以发现对数具有这样的性质,由于信息量和概率具有反比关系,所以应该取倒数后再取对数.我们也可以从另外一个角度来考虑信息量,既然概率不等的时候信息量不一样,那么我们假设事件都是等概率的,取概率为p,则事件数为N=1/p,采用k进制表示这些事件,需要的符号数为,2.2.1 自信息量,称为消息(符号)ai的自信息(量)。以2为底,单位为比特(bit:binary unit)以e为底,单位为奈特(nat:nature unit)1nat=1.433比特以10为底,单位为笛特(det:Decim
21、al Unit)或哈特(Hart,Hartley)1det=3.322比特,2.2.1 自信息量,以下是自信息量与先验概率的关系,2.2.1 自信息量,如信源发某一符号ai,假定信道中没有噪声的随机干扰,I(ai)也就是ai本身所含有的信息量,即能提供的全部信息量,我们称之为ai 的“自信息量”。,2.2.1 自信息量,由于在信道中存在干扰,假设接收端收到的消息(符号)为bj,这个bj可能与相同,也可能与ai不同,则条件概率反映接收端收到消息bj而发送端发出的是ai的概率,此概率称为后验概率。这样,接收端收到bj后,发送端发送的符号是否为ai尚存在的不确定性应是后验概率的函数,即 称为条件自信
22、息量。,2.2.1 自信息量,于是,收信者在收到消息bj后,已经消除的不确定性为先验的不确定性减去尚存在的不确定性。这就是收信者获得的信息量:,2.2.1 自信息量,定义为发送接收bj的互信息(mutual information)。如果信道没有干扰,信道的统计特性使定义为发送接收bj的互信息(mutual information)。如果信道没有干扰,信道的统计特性使ai以概率1传送到接收端。这时,收信者接到消息后尚存在的不确定性就等于0,即以概率1传送到接收端。这时,收信者接到消息后尚存在的不确定性就等于0,即不确定性全部消除。此时互信息,2.2.1 自信息量,例2-6(1)一个以等概率出现
23、的二进制码元(0,1)所包含的自信息量为:,2.2.1 自信息量,(2)若是一个m位的二进制数,因为该数的每一位可从0,1两个数字中任取一个,因此有2m个等概率的可能组合,所以,就是需要m比特的信息来指明这样的二进制数。类似地,也可以得出联合自信息量。涉及两个随机事件的离散信源,其信源模型为,2.2.1 自信息量,2.2.1 自信息量,上式说明两个随机事件相互独立时,同时发生得到的自信息量,等于这两个随机事件各自独立发生得到的自信息量之和。联合自信息量和条件自信息量也满足非负和单调递减性,同时,它们也都是随机变量,其值随着变量,的变化而变化。容易证明,自信息量、条件自信息量和联合自信息量之间有
24、如下关系:,2.2.2 信源熵,香农理论的重要特征是熵(entropy)的概念。香农引用它来描述信源的平均不确定性。计算信息熵H的公式:,2.2.2 信源熵,信源各个离散消息的自信息量(即不确定度)的数学期望(即概率加权的统计平均值)为信源的信源熵,简称熵,为了区别于热力熵,也称为信息熵,又由于是香农得来,又称香农熵,记为。计算信息熵H的公式:,2.2.2 信源熵,信源熵H(X)的几种物理含义:表示信源输出后,每个离散消息所提供的平均信息量。表示信源输出前,信源的平均不确定度。反映了变量X的随机性。以后我们还可以证明,熵为信源无损压缩的极限。,2.2.3 条件熵,信源熵也称为无条件熵,是在没有
25、其他的条件下的熵,当存在某些条件影响事件的概率分布时,会影响事件的不确定度,所以存在条件熵(conditional entropy)。,2.2.3 条件熵,定义:在给定某个yj条件下,xi的条件自信息量为I(xi|yj),X集合的条件熵H(X|yj)为条件自信息量的期望,即,2.2.3 条件熵,在给定Y条件下,X集合的条件熵为不同下条件熵的期望(加权平均),即,2.2.3 条件熵,相应地,在给定X(即各个xi)的条件下,Y集合的条件熵H(Y|X)定义为:,2.2.3 条件熵,条件熵是一个确定值,在通信中,可以表示信宿在收到Y后,信源X仍然存在的不确定度。这是传输失真所造成的。有时我们称为信道的
26、疑义度(equivocation),顾名思义是在接受到消息后对发送的消息依然存在的疑义(不确定性),也称为损失熵。即通过信道后损失的关于信源的不确定性。条件熵可以视为是噪声造成的,所以也称为噪声熵。,2.2.4 联合熵,定义:联合熵是联合符号集合XY上的每个元素对xiyj的自信息量的概率加权统计平均值,表示X和Y同时发生的不确定度。,2.2.4 联合熵,联合熵与条件熵有下列关系式:(1)(2),2.2.5 熵函数的性质,(1)非负性信源熵是自信息的数学期望,自信息是非负值,所以信源熵一定满足非负性。(2)对称性这是由于熵函数只涉及到概率,这些概率在公式中是对称的,累加的。(3)确定性,2.2.
27、5 熵函数的性质,(4)香农辅助定理(极值性)定理2-1 对于任意两个n维概率矢量P=(p1,p2,pn)和Q=(q1,q2,qn),如下不等式成立:,2.2.5 熵函数的性质,(5)最大熵定理,2.2.5 熵函数的性质,定理2-2 信源X中包含n个不同离散消息时,信源熵有,2.2.5 熵函数的性质,(5)最大熵定理,2.2.5 熵函数的性质,定理2-2 信源X中包含n个不同离散消息时,信源熵有当且仅当X中各个消息出现的概率全相等时,上式取等号。,2.2.6 互信息与平均互信息量,前面我们已经提及互信息量等概念。在通信的一般情况下,收信者所获取的信息量,在数量上等于通信前后不确定性的消除(减少
28、)的量。,2.2.6 互信息与平均互信息量,定义:互信息 所以有:类似于条件熵,我们可以对互信息量取期望(加权平均),得到平均互信息量。,2.2.6 互信息与平均互信息量,互信息量 I(xi;yj)在随机变量X集合上的期望为,2.2.6 互信息与平均互信息量,进一步求上述I(X;yj)在随机变量Y集合上的概率加权统计平均值:,互信息与平均互信息量的性质,互信息的性质:(1)对称性(2)当X和Y相互独立时,互信息为0。(3)互信息量可为正值或负值。,2.2.8 数据处理中信息的变化,定理2-3 数据处理定理:当消息通过多级处理器(串联)时,随着处理器数目的增多,输人消息与输出消息之间的平均互信息
29、量趋于变小。注意:这里蕴含一定的假设,信息在处理过程中的噪声是随机的,与在其前面的原始信源、中间信源是相互独立的,因此有在条件Y下X和Z独立。,2.3 离散序列信源的熵,前面讨论的是单符号离散信源(即信源每次输出单个符号)及其各种熵。然而实际信源往往输出的消息是时间和空间上的一系列符号。例如电报系统,发出的是一串有、无脉冲的信号序列。这类信源每次输出的不是一个单个的符号,而是一个符号序列。通常一个消息序列的每一位出现哪个符号都是随机的,而且一般前后符号之间的出现是有统计依赖关系的,这种信源称为离散序列信源(多符号离散信源)。,2.3.1 离散无记忆信源的序列熵,设信源输出的随机序列(随机矢量)
30、为,(X1 X2XlXL),序列中的单个符号变量,即序列长为L。设随机序列的概率为:,2.3.1 离散无记忆信源的序列熵,其中我们分类讨论其序列熵。为了简化问题,假设信源无记忆(符号之间无相关性),p()=p(xi1xi2xiL)=,2.3.1 离散无记忆信源的序列熵,其中,在以上条件的基础上,进一步假设信源的序列满足平稳特性(与序号l无关)时,有p(xi1)=p(xi2)=p(xiL)=p,p(xi)pL,则信源的序列熵又可表示为。平均每个符号熵为可见,对于平稳无记忆信源平均每个符号的符号熵等于单个符号的信源熵。,离散有记忆信源的序列熵,对于有记忆信源,就不像无记忆信源那样简单,它必须引入条
31、件嫡的概念,而且只能在某些特殊情况下才能得到一些有价值的结论。对于由两个符号组成的联合信源,有下列结论:,离散有记忆信源的序列熵,当前后符号无依存关系时,有下列推论:,离散有记忆信源的序列熵,为了便于研究,假设随机矢量中随机变量的各维联合概率分布均不随时间的推移而变化,换句话说,信源所发出的符号序列的概率分布与时间的起点无关。这种信源称为离散平稳序列信源。,离散有记忆信源的序列熵,对离散平稳序列信源,有下列性质:(1)时间不变性 pXi1=x1,Xi2=x2,XiL=xL=pXi1+h=x1,Xx2+h=x2,XiL+h=xL(2)H(XL|XL-1)是L的单调递减函数(3)HL()H(XL|
32、XL-1)(4)HL()是L的单调递减函数(5)称为极限熵或者极限信息量,注意,它是序列的平均符号熵,而不是序列熵。,马尔可夫信源的序列熵,设一马尔可夫信源处在某一状态ei,当它发出一个符号后,所处的状态就变了,即从状态ei变到了另一状态。任何时刻信源处在什么状态完全由前一时刻的状态和此刻发出的符号决定。,马尔可夫信源的序列熵,定理2-5 各态遍历定理 对于有限齐次马尔可夫链。若存在一个正整数,对一切i,j=1,2,nm都有pr(ej|ei)大于0,则对每一个j都存在不依赖于i的极限称这种马尔可夫链是各态遍历的。其极限概率是方程组满足条件的惟一解。这就是有限齐次马尔可夫链的各态遍历定理。,2.
33、4 连续信源的熵和互信息,连续信源是一类比较难于处理的信源,如何来求解呢?逐步分解和简化是解决这类问题的常用方法,我们可以先将连续信源在时间上离散化,再对连续变量进行量化分层,并用离散变量来逼近连续变量。量化间隔越小,离散变量与连续变量越接近,当量化间隔趋近于零时,离散变量就等于连续变量。,幅度连续的单个符号的信源熵,连续信源熵(也叫相对熵、差熵)定义为 我们可以看到相对熵和绝对熵(信息量)相差一个无穷。我们可以这样理解:连续信源采样点需要无穷多,才能变为离散信源,每一个点都带有信息量,所以差一个无穷。好像没有意义了。工程上我们主要是比较信源熵,将无穷项约掉,就有意义了。一般我们将相对熵简称为
34、熵。,2.4.2 波形信源熵,波形信源在概念上与离散信源是不同的,但也有不少类似之处。对连续信源的分析,也可以类似于离散信源从单个连续消息(变量)开始,在推广至连续消息序列。对于连续随机变量可采用概率密度来描述:对连续随机序列可采用相应的序列概率密度来描述;而对于连续的随机过程一般也可以按照取样定理分解为连续随机变量序列来描述。取样之后还要对取值的离散化。取样加量化才使随机过程变换成时间的取值都是离散的随机序列。量化必然带来量化噪声,引起信息损失。,2.4.2 波形信源熵,就统计特性的区别来说,随机过程大致可分为平稳随机过程和非平稳过程两大类。如果是平稳的随机过程的熵也可以转换为平稳随机序列的
35、熵。对于平稳随机过程,其 x(t)和y(t)可以通过取样,分解成取值连续的无穷平稳随机序列来表示,所以平稳随机过程的熵就是无穷平稳随机序列的熵。,2.4.3 最大熵定理,离散信源在等概率的时候,熵值最大,那么在连续信源中,当概率密度函数满足什么条件时才能使连续信源相对熵最大?我们考虑通常我们最感兴趣的是两种情况:一种是信源的输出值受限;另一种是信源的输出平均功率受限。,2.4.3 最大熵定理,1.峰值功率受限条件下信源的最大值若某信源输出信号的峰值功率受限,它等价于信源输出的连续随机变量X的取值幅度受限,限于a,b内取值。在约束条件 下信源的最大相对熵。定理2-6 若信源输出的幅度被限定在a,
36、b区域内,则当输出信号的概率密度是均匀分布时信源具有最大熵。其值等于log(b-a)。若当N维随机矢量取值受限时,也只有随机分量统计独立并均匀分布时具有最大熵。,2.4.3 最大熵定理,2.平均功率受限条件下信源的最大值定理2-7 若一个连续信源输出信号的平均功率被限定为P,则其输出信号幅度的概率密度分布是高斯分布时,信源有最大熵,其值为 对于N维连续平稳信源来说,若其输出的N维随机序列的协方差矩阵C被限定,则N维随机为正态分布时信源的熵最大,N维高斯信源的熵最大,其值为 这一结论说明,当连续信源输出信号的平均功率受限时,只有信号的统计特性与高斯统计特性一样时,才会有最大的熵值。,2.5 冗余
37、度,冗余度(多余度、剩余度,redundancy)表示给定信源在实际发出消息时所包含的多余信息。,2.5 冗余度,冗余度来自两个因素,一是信源符号间的相关性,由于信源输出符号间的依赖关系使得信源熵减小,这就是信源的相关性。相关程度越大,信源的实际熵越小,趋于极限熵;反之相关程度减小,信源实际熵就增大。另一个方面是信源符号分布的不均匀性,当等概率分布时信源熵最大。而实际应用中大多是不均匀分布,使得实际熵减小。,2.5 冗余度,我们定义信息效率为,2.6 最大熵原理,在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(t
38、he maximum entropy principle)。,2.6 最大熵原理,最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以做出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。,2.7 关于熵概念的理解与题意解读,1.熵可以从以下角度来诠释:猜测一个事件需要的信息量;该事件未被告知时,事件本身的不确定性;知道该事件后消除的不确定性:知道前,具有不确定性H(X),知道后不确定性为0,所以消除的不确定性即为H(X)。告诉我们某事件后提供的信息量;要告诉我
39、们这个事件,需要发送的最短消息长度。条件熵H(X|Y),H(X|yi)是在已知某条件(这个条件可以是具体的yi,也可以是随机变量Y)后的平均的不确定性,在以上我们讨论X是否已知的前后,yi和Y均为已知的。事件X本身的不确定性H(X),但是知道事件Y或yi后,X的不确定性减少为H(X|Y)或H(X|yi)。,2.7 关于熵概念的理解与题意解读,2.条件熵可以从以下角度来诠释:在事件X未被告知之前,在知道条件的情况下X的平均不确定度;条件是前提的情况下,告诉你关于X的信息,获得的信息量;条件是前提的情况下,告诉你关于X的信息,消除的平均不确定度。其他的诠释可以类似于熵,比如猜测的时候的信息量,只不
40、过是增加了一个条件。平均互信息量是无条件熵和条件熵之差,类似于条件熵,它这里的两个事件可以都是随机变量,也可以有一个是随机变量,另外一个是确定的量。,2.7 关于熵概念的理解与题意解读,3.平均互信息量可以从以下角度来诠释:已知事件Y后,X的不确定性由H(X)减少为H(X|Y),所以在知道Y的情况下,告诉你关于X的信息量为H(X)-H(X|Y),这个量即为平均互信息量;通信中获得的关于另一端的信息量。此外,平均互信息量也是冗余的一种体现。和条件熵一样,对应可以参考对熵的诠释来理解平均互信息量。当然我们强调“学习得来终觉浅,绝知此事要自悟”,要能够从现实问题去抽象和升华问题,从现实角度去理解信息论,只有真正的理解它,才能当理论问题换一个马甲出现的时候,依然能够学以致用,这样不会出现只能应试,不能应用的高分低能的状况。以上讨论无需死记硬背,需要的是真正的理解和洞察。,我们致力于使得本书上达思想与方法,下及实现与应用,但是力所不及,欢迎多提宝贵意见至,学习得来终觉浅,绝知此事要自悟,