文献信息中的离散分布规律.ppt

上传人:牧羊曲112 文档编号:5739546 上传时间:2023-08-16 格式:PPT 页数:42 大小:224.50KB
返回 下载 相关 举报
文献信息中的离散分布规律.ppt_第1页
第1页 / 共42页
文献信息中的离散分布规律.ppt_第2页
第2页 / 共42页
文献信息中的离散分布规律.ppt_第3页
第3页 / 共42页
文献信息中的离散分布规律.ppt_第4页
第4页 / 共42页
文献信息中的离散分布规律.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《文献信息中的离散分布规律.ppt》由会员分享,可在线阅读,更多相关《文献信息中的离散分布规律.ppt(42页珍藏版)》请在三一办公上搜索。

1、一.布拉德福定律二.齐普夫定律三.洛特卡定律四.布-洛-齐分布系,文献信息中的离散分布规律,一、布拉德福定律,布拉德福定律的产生背景布拉德福定律的形成布拉德福定律的基本原理布拉德福定律的理论发展,1.布拉德福定律 的产生背景,布拉德福Samuel Clement Bradford,1878-1948著名的文献学家和化学家创立了布拉德福文献分散经验法则,是文献计量学的主要奠基人多产作家,著有大量关于分类理论与实践,编目理论的著作1948年,完成巨作文献学文献分散规律的系统概述,1.布拉德福定律 的产生背景,文献分散是普遍的客观现象一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。如何找出其分散的

2、规律性是关键所在。科学统一性原则每一门学科都或多或少与其他任何一门学科相关联对一个专家有用的论文,不仅出现在这个专家所在学科的专业期刊上,也可以出现在“其他学科”的期刊上。,1.布拉德福定律 的产生背景,现象:300种文摘和索引期刊每年摘登的750000篇文章,由于漏摘、漏标和同时存在的无意义重复,致使仅载有250000篇不同的文章,而两倍于此数量的500000篇文章则全部漏摘、漏标而与读者绝缘。猜测:专业文献除密集地登载于相应的专业期刊(约1/3),还登载于大量的专业边缘(相关的)期刊(约1/3)和更一般化的期刊(约1/3),后两者过于分散而难以查找等原因导致文献大量丢失。假设:任何一学科的

3、绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊之中,其散布的态势则与该学科研究范围的大小有关。,2.布拉德福定律 的形成,1933年,科学博物馆样本:期刊应用地球物理学润滑学领域,2.布拉德福定律 的形成,右表为科技期刊按其载文量递减顺序排列的表格统计结果A为期刊数量B为相应期刊所载的论文 数量C为A项的累积和AD为B项的累积和BE为期刊累积量的对数 即lgC=lgA。,3.布拉德福定律 的基本原理,布拉德福的两种处理方法:区域表示法(文字表述法)图形表示法(经验法),3.布拉德福定律 的基本原理,区域表示法(文字表述法)布拉德福根据专业论文载于三类不同期刊的设想

4、将表中的数据经加和后按载文累积量划分为a、b、c大致相等的三个区域,即每一区域所包含的相关论文数量相等。,3.布拉德福定律 的基本原理,发现相应期刊的累积量(C)之比近似构成等比数列;即:第一区(核心区):数量不多但效率最高的 种期刊第二区(相关区):数量较大、效率中等的 种期刊第三区(边缘区):数量最大而效率最低的 种期刊三个区域中的期刊数量关系 a为布氏系数,3.布拉德福定律 的基本原理,布氏定律的表示发现:各区的期刊数,逐区上升每种期刊的载文量逐区下降核心区信息密度最高,每种期刊平均刊载27.5篇论文相关区次之,每种期刊平均载文5.5篇论文边缘区最低,每种期刊平均刊载1篇论文,3.布拉德

5、福定律 的基本原理,布氏定律的文字描述如果将科技期刊按其刊载某专业论文数量多少,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量呈 的关系,3.布拉德福定律 的基本原理,图形表示法取期刊累积量的对数为横坐标,以相应论文的积累量为纵坐标,得到了图中的AB两条曲线。通过观察,布拉德福认为这两条曲线除下弯部分外,上半部分可以认为是一条直线。,3.布拉德福定律 的基本原理,设P1为该曲线的直线部分与曲线部分的分界点;且令 则,因为横轴为对数坐标,所以有:,3.布拉德福定律 的基本原理,结论如果将某专业刊载文献按载文量的递减顺序排列,并将其划分为三

6、个载文量相等的区域,则相应的期刊累积数量呈等比关系。显然第一区,即P1以下的下弯部分,其载文密度最大,布拉德福将其称为核心区域。,3.布拉德福定律 的基本原理,布拉德福认为造成这种文献离散分布势态的根本原因在于:科学的整体性原则科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系,文献的增长与老化是前者的体现,而专业文献散布于相关专业期刊中的事实却是后者的反映学科专业之间联系的紧密程度不一整体性原则还认为科学中各个学科专业之间联系的紧密程度不一。此在文献中的表现就是刊载文献在相应期刊中的不均匀分布,3.布拉德福定律 的基本原理,格鲁斯下垂:格

7、鲁斯()认为布氏定律的图形应该为三个部分。上升的曲线部分直线部分弯曲下垂部分下垂部分称为布鲁斯下垂加拿大的波普(Adrew Pope)进行统计分析也证明了图形由三部分组成反映理论值与实际值的差异期刊数和文献量统计不足,未能代表全部文献,3.布拉德福定律 的基本原理,区域描述与图形描述的比较经过数学证明布氏定律的两种形式存在着不能统一的矛盾从数学和实际观察来看,图像描述更接近于文献的实际分布情况就文献计量学的规律说明,不论是区域描述还是图像描述,都只能近似的揭示文献分布的规律,无法精确的符合统计数据,4.布拉德福定律的理论发展,创立阶段1934年,布拉德福的论文特定主题的信息源(Sources

8、of Information on Specific Subject)1934-1948年,无人问津1948年,文献学的出版,使其理论开始传播理论研究阶段(60年代)“布拉德福热”:相关研究空前活跃形成两个学派:区域派和图像派全面发展阶段(60年代以后)由纯粹的理论研究向应用领域渗透理论与应用并列的全面发展情形,4.布拉德福定律的理论发展,维克立的两个推论布氏定律不只局限于划分三个区域,其证明可将等级排列的期刊划分为任意多个区域图像表达式的推论(维氏公式)为第一区到第k区的期刊累积数量 m为划分的区域数 v为分散系数布氏公式的推广形式(布氏公式),4.布拉德福定律的理论发展,莱姆库勒对布氏定律

9、的描述发展了区域描述方法从布氏定律的文字描述(区域描述)出发,推导出按等级排列的期刊中论文分布的规范式公式莱姆库勒累积分布函数的推导 F(x)表示在x的比例下,期刊论文数与期刊论文总数的比例。例如,如果要得到比例为80%的论文,将F(x)=0.8和相应的 的值代入,反求出x,即所需期刊的最少数量,a是布拉德福系数,=b-1x表示用来定义全部期刊中含有某一指定数量相关论文的最少期刊与期刊总数之比,4.布拉德福定律的理论发展,布鲁克斯对布氏定律的描述1969年,英国著名情报学家布鲁克斯利用数学公式描述了布氏定律R(n):对应于n的相关论文累积数n:期刊等级排列的序号a:第一级期刊中相关论文数R(1

10、)c:核心区的期刊数N:等级排列的期刊总数k:参数,分散曲线中直线部分的斜率,当n足够大时,k=Ns:参数,其数值等于图形直线部分反 向延长线与横轴交叉点的n值,4.布拉德福定律的理论发展,例子右表为所收集的有关维生素学论文 在相应在期刊中分布的统计数据和 以布鲁克斯公式为数学模型的计算 值。表中n为按载文量递减顺序排列 的期刊序号,R(n)为前n种期刊的论 文累积量。,预期的全检数量,4.布拉德福定律的理论发展,验证实际统计数据是否符合布拉德福定律:,由布鲁克斯公式可得:,查表知R(5)=269,若满足布拉德福定律,则,查表可知R(25)=537,R(52)R(25)因此可初步认定上述数据符

11、合布拉德福定律。,4.布拉德福定律的理论发展,验证查验该项统计的完整性:经统计已知,有关维生素论文在相应期刊中分布的s值为1,在表中,选 n=25为参考点,则有:R(25)=Nln25/1=537 所以 N=537/ln25=167(种)则有论文的理论值总量为:R(167)=167ln167/1=853(篇)与表中的实际查到值比较,实际查到期刊总量为146种,实际查到文献 总量为730篇,则统计结果的完整性是值怀疑的。,4.布拉德福定律的理论发展,布氏分布理论的发展趋势主要的研究工作进行具体分析,验证布氏经验法则,并实际应用寻求普遍而精确的经验分布公式和理论解释,并取得了较大的发展当前研究方向

12、和有待解决的问题运用大量的统计数据、严密的数学方法,确立或寻求更为精确的规范化的数学模型深入研究布氏分布的机制,寻求科学统一的理论解释努力结合实际,开展应用研究,提高图书情报服务的效率,二、文献信息词频分布规律齐普夫定律,齐氏定律形成的基础频率词典(词表)每一个词在一定长度的文件中出现的频率两个最基本的数量指标(词的出现频率、词的序号)艾斯杜(J.Estoup,速记员)1916发现较长的文章中,词频分布的定量化形式Nrr=C(常数)词的序号:1,2,r,D(1:绝对频率最大的词,D:绝对频率最小的词)词的绝对频率:n1,n2,nr,nD,二、文献信息词频分布规律齐普夫定律,齐氏定律的内容齐普夫

13、定律fr r=c fr:频次,r:等级序号齐普夫定律的“最省力法则”的解释任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。,二、文献信息词频分布规律齐普夫定律,齐氏定律的图像描述,横坐标:等级序号r纵坐标:相应的频率f,等级r与频率f均取对数虚线:lnr+lnf=lnc实线:blnr+lnf=lnc斜率为b,二、文献信息词频分布规律齐普夫定律,齐氏定律的应用文献标引和词表编制信息检索在图书情报管理中的应用,三、文献信息作者分布规律洛特卡定律,洛特卡定律概述诞生1926年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造

14、性地提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量。在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用化学文摘与物理学史一览表来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有x篇论文的作者频率与x的平方呈反比。,频数,频率,三、文献信息作者分布规律洛特卡定律,洛特卡定律公式表述设f(x)为写x篇论文的作者数占作者总数的比例,c为某主题领域的特性常数,洛特卡统计的指数a大约为2,对于倒幂法则的这个特例式变为这就是科学生产率的“平方反比定律”的表达式,三、文献信息作者分布

15、规律洛特卡定律,洛特卡定律理论意义1926年洛特卡(Darka)定律创立至今已整整80年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基础,其创立是值得纪念的。洛特卡定律的命运由于多种原因,洛特卡定律沉睡了30多年,后来由于普赖斯等人的发掘,自60年代起引起人们的重视。今天,洛特卡定律仍然经常被科学学家、情报学家等引证和研究。引自科学的计量研究,三、文献信息作者分布规律洛特卡定律,洛特卡定律的基本应用反映科技劳动成果状况可从统计或估算著者数量来预测文献数量的增长速度和文献流向科学估计劳动规模预测科学家数量的增长和科学家发展的规模及

16、趋势掌握科学论文的作者队伍研究科学家的活动规律,研究人才的著述特征,合理编制著者索引,规划检索刊物体系,四.布-洛-齐分布系,布拉德福定律、齐普夫定律和洛特卡定律是三个最基本的定律,被人们喻之为文献计量学的“三巨头”,多年来一直受到图书情报工作者的高度重视。值得指出的是,这三个定律之间有很多相似之处,存在着一定的联系。研究对象期刊上刊载的论文文章中每个词的出现频次科学工作者的著述分析单元期刊数 单词量 著者群计量方法都是通过对文献的调查和统计,取得数据并进行分析归纳来定量地认识文献情报流。,四.布-洛-齐分布系,数学表达式同一类型布拉德福定律:R(n)=klog(n/s)齐普夫定律f(x)=k

17、/r 及其修正式f=k/rn洛特卡定律f(x)=k/x2如果把数学式中的主体看作箱,把某一特定量看作投入箱中的球,那么对于布拉德福分布、齐普夫分布、洛特卡分布来说,箱好比杂志、词汇、著者;球好比相关论文、单词、著者所写的论文。,四.布-洛-齐分布系,布拉德福分布是积累分布,R(n)表示n以前的累积数对R(n)=klog(n/s)微分dR(n)/dn=k/n与齐普夫公式一致,齐普夫修正式f=k/rn 作变换r=(k/f)1/a微分得dr/df=(k1/a/a)f-(1+1/a)取绝对值若a=1,即狭义的齐普夫形式与洛特卡定律一致。因此,这种类型的分布可统一用下式来表示:f(n)=k/nn 式中k

18、,a为常数,一般来说,1a2;f(n)为含有n个具体事项的主体来源数的分布密度。由此可知,布拉德福分布、齐普夫分布、洛特卡分布的一致性是显而易见的,四.布-洛-齐分布系,情报分布模型相似:由上述三定律的数学表达式可以看出,每一定律都是一个变量随另一个变量的变化而变化布拉德福定律中:这两个变量是期刊数和其刊载的相关论文数。在期刊等级n和累积论文数R(n)之间,便可得出R(n)与logn相对应的累积频率等级的对数分布齐普夫定律中:这两个变量是文章中不同词汇的数量及其出现频率。若将较长文章中的所有不同的词按其出现频率排列后,对与特定等级的词的出现频次来说,便可得到f(r)与r相对应的频率等级分布洛特

19、卡定律中:这两个变量是作者数和其论文数。若将作者按其文献生产率增加的顺序排列,对于发表某一定值论文的每一作者数来说,便得到一个f(x)与x相对应的频率大小分布可见,这三个定律都有两个重要特征:,四.布-洛-齐分布系,特征一:每一定律都研究两组数据中的某一具体排列观测值和等级布拉德福定律与观测值(论文)和按累积频率等级对数方法排列的等级(一种期刊)相关。齐普夫定律与观测值(词的出现)和按频率等级方法排列的等级(一个词)相关。洛特卡定律与观测值(论文)和按频率大小方法排列的等级(一个作者)相关。特征二:每一定律都对其观测值等级的具体排列提出了一个相应的简单模型。布拉德福定律中:就是要找出R(n)与logn相关的函数关系;在齐普夫定律中:则是要找出f(r)与r相关的函数关系;在洛特卡定律中:是要找出f(x)与x相关的函数关系。,四.布-洛-齐分布系,以上是三定律相通的地方,此外,三定律也有各自的特点,这主要体现在它们在实际中的具体应用方面,即每个定律都有它们自己适用的主要领域,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号