教育信息熵第二章PPT.ppt

上传人:laozhun 文档编号:2864537 上传时间:2023-02-27 格式:PPT 页数:80 大小:1.82MB
返回 下载 相关 举报
教育信息熵第二章PPT.ppt_第1页
第1页 / 共80页
教育信息熵第二章PPT.ppt_第2页
第2页 / 共80页
教育信息熵第二章PPT.ppt_第3页
第3页 / 共80页
教育信息熵第二章PPT.ppt_第4页
第4页 / 共80页
教育信息熵第二章PPT.ppt_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《教育信息熵第二章PPT.ppt》由会员分享,可在线阅读,更多相关《教育信息熵第二章PPT.ppt(80页珍藏版)》请在三一办公上搜索。

1、第二章 教育信息熵,熵的最早提出(1865年)与热力学 熵在信息论中的地位,第一节 熵的概述,一 信息量的表示 1 信息的多少与信源的不确定性有关 实例:5个学生比赛选拔出1人为冠军,2 信息量的度量与信源的不确定性 实例1:5个学生水平相差不多(接近等概率);实例2:5个学生水平相差大(不等概率),其中A的水平高超;哪一组比赛悬念更大(获得的信息量多)?,3 小结:信源输出的消息可以看作是随机事件事件出现的概率大,出现机会多,不确定程度小事件出现的概率小,出现机会少,不确定程度大 即 Pi大,f(Pi)小 Pi小,f(Pi)大 即 f(Pi)应是Pi的单调减函数 f(pi)=(1/pi),4

2、 信息量的可加性 单调减函数可以有很多种,用来度量信息的函数f(Pi)究竟应当是哪一种呢?有了可加性即可解决 即P(x1,x2)=P(x1)*P(x2)联合概率(两个变量相互独立)而f(P1,P2)=f(P1)+f(P2)不确定性 可见 f(P)满足取对数的关系 f(P)=log(1/p)=-log p 它满足的两个关系:(1)不确定性与概率的关系(2)可加性的要求,二 信息熵 1 平均信息量(信息熵)一般情况下状态空间:X:x1,x2 xn概率分布:P(x):P(x1),P(x2)P(xn),且,这里假定各状态是相互独立的.,出现Xi的不确定性:log(1/P(xi)该信源每个状态的平均(加

3、权平均)不确定性:,信息熵(平均信息量):,也可以简写为:,2 两种不同的单位 上面的定义式中,没有考虑对数的底a,当它取不同的底时(常取2或e),信息熵的单位为比特(bits)和奈特(nats)。1比特=0.693奈特 1奈特=1.443比特 此外,还有一个哈特(以10为底),是取人名哈特莱(Hartley),他提出了熵定义式中的对数,且1哈特=3.32比特。,3 例 某一系统具有四种状态(或四种事件)A1、A2、A3、A4,各自的概率为:p1=1/2,p2=1/4,p3=1/8,p4=1/8,注意:概率和为1 计算得熵:H=1.75(比特/状态),4 连续信源 如果概率空间为连续系统,其概

4、率分布为:p(x),对应系统的熵为:,三 熵的意义 1 熵的大小表示某概率系统的不确定程度 实例1:某一概率系统的概率分布如下:(1,0,0,0)这是一个确定性系统,计算其信息熵H=0,即该系统不确定性为0。,实例2:某一概率系统的概率分布为等概率:(1/n,1/n,1/n),设该系统共有n个状态(事件);这是一个最不确定系统,计算其信息熵H为最大,即该系统不确定性最大。一般系统介于上述两种极端情况之间。,2 熵的大小表示某系统中任一状态(事件)出现后产生的平均信息量 实例1:某一概率系统的概率分布如下:(1,0,0,0)在这个系统中,只有第一个状态出现,当它出现之后,没有给我们带来任何信息量

5、,计算其信息熵H=0。,实例2:某一概率系统的概率分布为等概率:(1/n,1/n,1/n),设该系统共有n个状态(事件);在这个系统中,任何一个状态都有均等的机会出现,当某一个状态出现之后,都给我们带来最大的信息量,计算其信息熵H为最大。一般系统介于上述两种极端情况之间。,四 信息熵的基本性质 1 单峰性(极值性)任何一个随机系统,其信息熵都有一个极大值(单峰),即各状态出现为等概率时,熵为最大:H(p1,p2,pn)H(1/n,1/n,1/n)=log n实例:一个二事件系统,概率分别为p和1-p 该系统的熵为:H=-plogp+(1-p)log(1-p)其HP图具有单峰性(图2.1),图2

6、-1 两个事件H-P图,2 对称性 H(p1,p2,p3)=H(p1,p3,p2)=H(p3,p2,p1)1)这是由于加法满足交换率;2)这也说明熵反映了该系统的整体特性。,3 渐化性(递增性)设某系统共有n个事件,现在第n个事件分裂成两个事件,概率分别为q、r 即 pn=q+r该系统的熵变为:,证明(利用熵函数的表达式):作为习题,4 展开性(扩展性)H(p1,p2,pn)=H(p1,p2,pn,0)=H(p1,p2,pn,0,0)说明:某系统的事件数增加了,但这些事件的出现概率为0时,该系统的熵不变。,5 确定性 H(1,0)=H(0,1)=H(1,0,0)=H(0,0,0,1)=06 非

7、负性 H(p1,p2,pn)0(只针对离散信源)小结:熵是一种描述系统总体特性的统计量,第二节 相对熵与冗余度,一 最大熵 任何一个随机系统(共有n个状态),各状态出现为等概率时,且各个状态无相关性,其信息熵都有一个最大值:Hmax=log n实例:英语用来传输信息,使用26个字母,加 上一个空格,共27个符号。这样的系统,其最大熵为:Hmax=log 27 4.76(比特/字母),二 一般情况 一般情况下,任何一个系统(共有n个状态),各状态出现一般为不等概率,且各个状态有相关性,其实际信息熵(H)都有小于最大值,即 H Hmax=log n实例:1)英语字母的使用并非是相互独立的,字母间存

8、在相关性;2)英语字母并非等概率使用(表2.1:P33)故:英语字母的熵通常远小于4.76(有人计算1.4)。,三 相对熵 我们定义:h=H/Hmax 为相对熵,它便于比较两个不同事件数目的系统的信息熵。,四 冗余度 定义:r=1-h=1-H/Hmax=(Hmax-H)/Hmax 冗余度的含义:在传递信息时,不必要的冗长部分的比例,即为了表示某一定量的信息量,我们需要用更多的事件数。实例:(英语字母),为了表示某一内容的文章,我们需要用更多的字母。,五 关于冗余度的讨论 1 冗余度使得信息传递的效率降低实例:英语字母使用中的冗余度达到70%-80%,所以英语是一种传递效率不高的语言。2 冗余度

9、可以提高信息传递中的抗干扰能力实例:传输“中华人民共和国”与传输“中国”,效果是一样的,因此有一定的冗余度。但前者在传输时,抗干扰能力更高。中文(汉字)的冗余度,第三节 熵函数的展开,一 联合熵1 信源现有两个信源:X,Y X:x1,x2 xn Y:y1,y2,ymP(x):P(x1),P(x2)P(xn)P(y):P(y1),P(y2)P(ym),联合空间:X.Y:x1y1,x1y2,x1ym.xny1,xny2,xnymP(x.y):P(x1,y1),P(x1,y2)P(x1,ym).P(xn,y1),P(xn,y2)P(xn,ym),其中P(xi,yj)为xi和yj的联合概率且P(xi,

10、yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj)当:xi和yj相互独立时:P(yj/xi)=P(yj)P(xi/yj)=P(xi),2 二元联合信源的熵:H(X,Y)=-P(xi,yj)log P(xi,yj)当每个信源相互独立时:H(X,Y)=H(X)+H(Y)即联合熵等于每一个信源熵之和。但由于相关性的存在,会减少平均不确定性故 H(X,Y)=H(X)+H(Y),3 例 考虑m=2的情况,且假定联合概率分布如下:,1/2,1/2,2/5,2/5,1/5,(1)先求出Px(x1)=1/2 Px(x2)=1/2 Py(y1)=2/5 Py(y2)=2/5 Py(y3)=1/5

11、(2)求出 H(X)=-(1/2)log(1/2)+(1/2)log(1/2)=1同理 H(Y)=1.522而 H(X)+H(Y)=2.522(比特/事件),(3)H(X,Y)=-P(x1,y1)logP(x1,y1)+P(x1,y2)logP(x1,y2)+P(x1,y3)logP(x1,y3)+P(x2,y1)logP(x2,y1)+P(x2,y2)logP(x2,y2)+P(x2,y3)logP(x2,y3)=-(1/20)log(1/20)+(7/20)log(7/20)+(1/10)log(1/10)+(7/20)log(7/20)+(1/20)log(1/20)+(1/10)log

12、(1/10)=2.157,显然 H(X,Y)=H(X)+H(Y)2157 2.522,二 条件熵1 概率关系把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入H(X,Y)=-P(xi,yj)logP(xi)*P(yj/xi)=-P(xi,yj)logP(xi)-P(xi,yj)logP(yj/xi)=-P(xi)logP(xi)-P(xi,yj)logP(yj/xi)=H(X)+H(Y/X),2 条件熵上式中的 H(Y/X)=-P(xi,yj)logP(yj/xi)叫做给定X时关于Y的条件熵它表示:已知X时关于Y还保留的平均不确定性,3 讨论:(1)联合熵表示将XY作为一个整体看待时

13、,总的平均不确定性H(X,Y)等于X的不确定性与已知X后关于Y的不确定性H(Y/X)的和。(2)如果X和Y独立,则 H(Y/X)=H(Y)这时H(X,Y)=H(X)+H(Y),(3)反之,若Y完全由X决定,因而已知X 即可确定Y,不再有任何不确定性,则 H(Y/X)=0 这时H(X,Y)=H(X)(4)一般情况下 0=H(Y/X)=H(Y)即条件熵永远小于或等于无条件熵(5)由于X与Y之间存在的 对称性,可得H(X,Y)=H(Y)+H(X/Y),4 互信息 定义 I(X,Y)=H(X)+H(Y)-H(X,Y)为信源X和信源Y的互信息。通过变换,可得:I(X,Y)=H(X,Y)-H(X|Y)-H

14、(Y|X),5 关于几个熵的关系:H(X)H(Y)H(X,Y)H(Y/X)H(X/Y)I(X;Y)三 Kullback信息量(略)第四节 熵模型(略),第五节 测试问题信息量,一 测试问题信息熵的计算1 多重选择题(设有5个备选答案)几种应答分布:1)(1,0,0,0,0),应答信息熵:H=02)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=23)(1/2,1/2,0,0,0),应答信息熵:H=14)(1/5,1/5,1/5,1/5,1/5)应答信息熵:H=log5 通过信息熵的计算,我们能够得到这些测试问题的难易程度和学生的学习能力倾向,可以作为测试问题的评价及其指标。,二 等

15、价预选项数题目分析:难度,区分度这里主要讨论选择题:除了难度与区分度,还有一个问题:就是对题目各备选项的有效性作出评价。,1 等价预选项数 令i=1,2,3m为选择题的一个选项,Pi为考生选择第i项的概率,则该选择题的熵:H=-Pi logPi讨论:某一个Pi=1,其它选项无人选,此时:H=0,分散程度最小 每一个Pi=1/m,每个选项均匀分布,此时:H=log m(最大)分散程度最大。如图所示,图2-8 等价预选项目的数据,由于H是熵(平均信息量)设H与回答均匀地分布于K个(不是m个,而是小于或等于m个)选项时的信息量相等(原来是m个答案非均匀的分布)H=-(1/K)log(1/K)=log

16、 K 可得 K=2H 这就是等价预选项数(佐藤隆博定义)。,例 某题有5个选项,根据回答先求出H,再计算K。先计算出H约为1.531,再计算出K=2.89意义:这意味着:虽然题目有5个选项,但结果等价于均匀地分布在大约3个选项上。,如果把熵的表达式代入等价选预项数公式:可得 K=2-Pi logPi=Pi-Pi 改错:(2-29):P45这里,我们不用求熵,就可以直接求出等价预选项数K,而且K与log Pi中的底无关当各选项等概时,H和K取最大值:即:Hmax=log m Kmax=m,选项项数的范围,Pr,在图中r:为选择题的正确选项,Pr:考生选择正确选项的概率,图中三条曲线包围的面积属于

17、K的合理范围,超过此范围时,要对题目进行检查。注意:K与Pr有关,三条曲线:Kmax:当选择正确答案的概率为Pr时,选择另外的m-1个选项(诱惑项)的选答概率相等=(1-Pr)/(m-1)时,K取极大值;Kmin:当选择正确答案的概率为Pr时,只有某一个诱惑项有人选,概率为(1-Pr)时,K取极小值;K=1/Pr:要求Pr1/K,即选择正确答案概率高于平均值所得。,计算例:m=5 Pr=0时,Kmax=4,Kmin=1 Pr=1/5时,Kmax=5,Kmin=1.6 Pr=1/2时,Kmax=4,Kmin=2 Pr=1时,Kmax=1,Kmin=1总结:理想的题目分布模式是,在保证一定的答对率

18、的条件下,对疑惑项的选择人数应接近于均匀分布,也就是说,K的取值应接近于上图中的Kmax。,三 对不确定程度的判断 1 问题:12个外观相同的小球,仅有一个重量不同(可能轻、重)请使用天平,能否在三次以内找出该问题球?,2 求解方法:某事件系统产生的信息熵=消除的不确定性(1)设问题球出现的概率为1/12;设问题球比正常球轻(重)的概率为1/2;(2)要发现问题球并知其轻(重)所需要的信息量:-log(1/12)-log(1/2)=log12+log2=log 24=4.585,(3)天平称一次,能确定左边轻、右边轻、或者平衡,获得的信息量(消除的不确定性)=log 3=1.585 而4.58

19、5/1.585 2.9(4)故至少需要3次天平,才可以找出问题球 注意:这里并没有研究具体的策略和方法,第六节教学过程的信息量分析,一 分类系统教学过程中的语言行为分类;VICS:Verbal Interaction Category System(语言交互分类系统)微格教学的语言行为分类:(如表所示:),各类行为的频度分布:图2.9即:1:24;2:16;3:9;4:15 5:16;6:3;7:16;8:3;9:8计算出信息熵 H=2.939(比特/行为状态),二 类别总数与熵 继续上面的例子(49个教师、学生进行微格教学的数据)(如表所示)共分为6个组,每一组的数据都是基于教师、学生的语言

20、行为进行分类的,再统计出各类别数据的频度分布,根据这些频度分布计算出每一节课的信息熵。,各组的数据类别总数与熵的关系:(如图2.10所示)1)类别总数与熵呈正相关(第五组例外);2)不同的组,类别总数多的教学,不一定熵就大,三 不同学科类别频度分布的比较上面的表述,只是根据类别总数计算出了熵,并没有确定哪些类别是多少?不能根据学科的特色进行分析和指导。图2.11:P50(给出了6个组的各类行为的相对频度分布)。,第七节 教育中质的信息量分析(略),通过互信息的计算,研究数据的相关程度 补充另一部分内容(见后),第八节 CAI课件中的信息量,一 多重选择问题的信息熵1 CAI课件一般是面向问题的

21、 CAI课件中的问题:判断题、多重选择题、填空题、匹配题。2 若干种多重选择问题的应答分布的信息熵计算。,3 小结:学生应答均匀分布时,信息熵H最大;H的大小不仅与应答分布有关,还与预选答案数有关,引入相对信息熵,可以避免这种不可比较性。,二 课件评价也是通过计算各个问题的信息熵来进行三 学习状态的描述学习开始阶段:学生学习不稳定。应答随机性较大,相应地信息熵也较大;学习正常阶段:学生学习趋于稳定。应答随机性较小,相应地信息熵也较小。图2.15:P58(a)表示学习开始,学习不稳定;(b)表示学习迅速趋于稳定。,补充:利用互信息量的计算确定学习效果(互信息在标准化试卷评分中的应用)标准化试卷,

22、便于计算机处理,一般是是非判断题,多重选择题,但学生可能猜对,例如是非判断题,学生猜对的概率可达1/2 引入:考试过程可以看着信息传输过程,试卷为信息源,考生的思维为信道,学生的答卷为老师接收到的信息,因此可以用互信息作为平分标准,每道题的互信息之和为试卷总分。,一 是非题判断题信息传输分析设有n道题,其中正确答案为“对”和“错”的各占一半(1/2)考生回答正确的概率为P,如图:,Y,可知:P(T)=P(F)=1/2 P(T/T)=P(F/F)=P P(F/T)=P(T/F)=1-P联合概率:P(T,T)=P(T)P(T/T)=P/2 P(T,F)=P(T)P(F/T)=(1-P)/2 P(F

23、,T)=P(F)P(T/F)=(1-P)/2 P(F,F)=P(F)P(F/F)=P/2,计算如下:信源熵:H(X)=1(只有两种状态,且是均匀分布)疑义度:H(X/Y)=-P(xi,yj)logP(xi/yj)=-P(T,T)logP(T/T)+P(T,F)logP(T/F)+P(F,T)logP(F/T)+P(F,F)logP(F/F)=-P log P+(1-P)log(1-P)互信息:I(X;Y)=H(X)-H(X/Y)=1+P log P+(1-P)log(1-P),这里要求:P大于等于(1/2),否则全部是猜对的,比如某生全部打“错”就对了一半,但实际上这个学生什么也不会。试卷成绩

24、:=n*I(X;Y)=n*H(X)-H(X/Y)=n*1+P log P+(1-P)log(1-P)当P=1/2时:1+PlogP+(1-P)log(1-P)=0 故试卷成绩=0得分分布图:如下所示,二 多项选择题信息传输分析 设每题有4个答案,只有一个正确,总题数为n,正确答案在A,B,C,D上各占1/4,设每题答对概率为P,选其他三个非正确答案的概率均匀分布,各占(1-P)/3 示意图如下:,所有水平线:P,H(X)=-(1/4)log(1/4)=2(正确答案在A,B,C,D上均匀分布,各占1/4)互信息:I(X;Y)=H(X)-H(X/Y)=2+P log P+(1-P)log(1-P)

25、/3 推导:(留作作业)试卷成绩=n*I(X;Y)=n2+P log P+(1-P)log(1-P)/3满分为200分,(由于信源熵为2)这里要求:P大于等于1/4,否则全是猜对的。,得分分布图:,讨论:(1)答对题数不大于25时,试卷成绩为0;(2)答对题数在25-60之间时,试卷成绩增长缓慢;(3)答对题数大于60时,试卷成绩增长加快,得分难度加大。,本章小结:教学过程就是一种信息传输过程,利用信息传输的基本理论-信息论来研究教学过程,是一种新的思想,其中熵的概念非常重要,包括熵的定义、计算、性质、应用,要求重点掌握。练习:1,2,3,6(某测试问题有5种选择,选择答案的概率分布为1/5,2/5,1/10,1/20,1/4)补充题:两个推导。,图2-9 分类数据序列,(表中49学时,代表49个教师、学生),图2-10类别总数与熵的关系,汉语信源 汉语取常用字10000个(1)等概率、无相关性,H0=log 10000=13288(比特/汉字)(2)分成四类(字数及概率:)(3)仍然不考虑相关性,得第一级近似为无记忆信源的熵:H1=9773(4)在这种简单近似下:则熵的相对率=H/H0=0736,剩余度为 r=1-0736=0264 返回,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号