齐普夫定理ppt课件.ppt

上传人:小飞机 文档编号:2071904 上传时间:2023-01-07 格式:PPT 页数:28 大小:155KB
返回 下载 相关 举报
齐普夫定理ppt课件.ppt_第1页
第1页 / 共28页
齐普夫定理ppt课件.ppt_第2页
第2页 / 共28页
齐普夫定理ppt课件.ppt_第3页
第3页 / 共28页
齐普夫定理ppt课件.ppt_第4页
第4页 / 共28页
齐普夫定理ppt课件.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《齐普夫定理ppt课件.ppt》由会员分享,可在线阅读,更多相关《齐普夫定理ppt课件.ppt(28页珍藏版)》请在三一办公上搜索。

1、文献计量学05,齐普夫定律,大纲,齐普夫与最省力法则齐普夫定律的形成齐普夫定律的基本原理齐普夫定律的发展齐普夫定律的应用,齐普夫,George Kingsley Zipf(1902-1950):美国哈佛大学教授、著名的语言学家和心理学家用大量的统计数据来验证前人有关词频分布规律的研究成果1948年出版了人类行为与最省力法则-人类生态学引论 Human Behaviour and the Principle of Least Effort:an Introduction to Human Ecology.Addison-Wesley 1949,齐普夫的最省力法则,例子:从A地到B地时,可以走不同

2、的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。利用语言表达思想时,会受到两个方向相反的力的作用单一化力:希望尽量简短多样化力:希望能被对方理解单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。,齐普夫经验法则的形成,齐氏定律形成的基础齐氏定律的确立,齐氏定律形成的基础,频率词典(词表)每一个词在一定长度的文件中出现的频率两个最基本的数量指标词的出现频率、词的序号艾斯杜(J.Estoup,速记员)发现(1916)较长的文章中,词频分布的定量化形式,Nrr=C(常数)

3、词的序号:1,2,r,D(1:绝对频率最大的词,D:绝对频率最小的词)词的绝对频率:n1,n2,nr,nD,贡东(E.Condon)的公式,贡东:美国贝尔电话公司物理学家,电话线路的通讯能力根据德韦和阿叶斯的资料,得到词频分布图词的序号的对数为横坐标 log r词的绝对频率的对数为纵坐标 lognr定量公式:frr=C 令:tan=Log(r nr)=log C,C的值究竟是不是常数,还必须加以验证,齐普夫定律的确立,检验E.Condon关系式的可靠性并研究C的性质确定c是一个参数,使得验证了单参数词频分布公式的正确性Fr r=c(或者pr r=c),齐普夫定律的基本原理,齐普夫定律的基本内容

4、齐普夫定律的图像描述齐普夫定律的局限性,齐普夫定律的基本内容,齐普夫定律fr r=cFr:频次,r:等级序号齐普夫定律的“最省力法则”的解释任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。,齐普夫定律的图像描述,横坐标:等级序号r纵坐标:相应的频率f,等级r与频率f均取对数。虚线:lnr+lnf=lnc实线:blnr+lnf=lnc(斜率为b),齐普夫定律的局限性,对出现频率特别高的词和特别低的词,并不能完全地反映分布规律低频率的词,序号相同的很多高频率的词,序号相同的词随着频率的增高而越来越少,齐普夫定律的发展,朱斯(M.J

5、oos)修正芒戴尔伯特B.Mandelbrot修正式布斯(B.Booth)的齐普夫第二定律,朱斯修正式,单参数词频分配律-双参数词频分布律Pr=cr-中,c和r的负指数(以表示)都是参数 不是一个常数而是一个参数当词典收词多时,会增大,即图像中的角会增大;当收词少的时候,会减少,角会变小。双参数词频分布公式Pr=cr-0,c0,对于r=1,D,参数,c要使当=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频分布律,芒戴尔伯特修正公式,三参数频率分布律Pr=c(r+a)-b0 a0,c0,对于r=1,D,参数a,b,c要使参数c:与出现频率最高的词的概率有关参数b:与高概率词的数量多少有关,

6、对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少参数a:与词的数量n有关。当a=0,公式形式为Pr=cr-b当a=0,b=1时,公式形式为Pr=cr-1,齐普夫词汇分布图,齐普夫第二定律,齐普夫定律可以分成两大定律高频词分布的定律(齐普夫第一定律)低频词分布的定律(齐普夫第二定律)布斯的修正,齐普夫的推导,Pr=n/T,pr为第r位词出现的概率,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率,仅仅出现一次的词汇,可能有许多个,一般而言:,布斯修正公式,称齐普夫第二表达式英文正文中低频词的数量I1为出现一次的词的数量In为出现n次的词的数量与正文的长度和常数

7、C无关,仅与单词的频率有关,n=2,3,4,齐普夫定律的应用,文献标引和词表编制信息检索在图书情报管理中的应用,词表编制,叙词表和标引可以提高计算机检索的效率根据齐普夫定律的频率分布方法,通过标引试验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。选用原始文献中的术语,统计其发生的频率,研究分布特征,最后决定合乎使用频率的词,文献标引,自动标引利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。卢恩(Luhn)的频率自动索引方法去掉高频词去掉后缀找出相应的词干加权标引斯派克 琼斯(Spack Jones)的加权法如果有N篇文章,某个检索词涉及其中的n篇,给那么这个词l

8、og(N/n)+1的权值,可得到较佳的检索效果,Luhn的频率自动标引法,向量空间模型(Vector Space Model),基本思想是以向量来表示文本(W1,W2,W3Wn),其中 Wi 为第 i 个特征项的权重,一般可以选择词作为特征项由这些词作为向量的维数来表示文本,最初的向量表示完全是 0、1 形式,即如果文本中出现了该词,那么文本向量的该维为 1,否则为 0。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式。,向量空间模型(Vector Space Model),其中,为词t在文本 中的权重,而

9、 为词t在文本 中的词频,N 为训练文本的总数,为训练文本集中出现t的文本数,分母为归一化因子。,信息检索,用于估计信息检索系统所需要的存储量倒排档的大小,取决于同属性字段种不同词的数量以及每个词的出现频率按照齐普夫定律,计算词频出现的几率,在图书情报管理中的应用,处理与语言文字有关的问题将“最省力法则”的原理应用于图书情报信息事业的管理合理选择图书馆或者信息中心的最佳地理位置,使得使用者能以最省力途径方便到达用以设计图书馆、信息中心资料库的排架,齐普夫公式的汇总,齐普夫第一定律:关于高频词的定律单参数定律:fr r=c双参数定律:Pr=cr-三参数定律:Pr=c(r+a)-b齐普夫第二定律:关于低频词的定律,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号