文献计量与引文分析.ppt_三一办公31ppt.com

资源描述

《文献计量与引文分析.ppt》由会员分享，可在线阅读，更多相关《文献计量与引文分析.ppt（43页珍藏版）》请在三一办公上搜索。

1、,文献计量法与引文分析法,目录,一、文献计量学概述文献计量学发展历史文献计量学发展趋势二、文献计量学方法文献计量学三大定律文献增长规律文献老化规律三、引文分析法,文献计量学概述,文献计量学的发展历史文献计量学的发展历史最早追溯到1911年，俄国化学家瓦尔金用引文分析法研究了一些国家的化学家所做的贡献。1917年，文献学家科尔和伊尔斯在科学进展期刊上发表文章，通过分析研究比较解剖学文献，介绍了最基本的书目统计分析技术。1923年，休姆提出了统计书目学。自此，文献计量的研究活动日益活跃。1926年，美国数学家、化学家洛特卡在题为科技生产率的频率分布一文中首次阐述了著者与文献数量的关系，并建立了数学

2、模型，即洛特卡定律。1934年，英国情报文献学家布拉德福提出了定量描述文献序性结构的经验定律，揭示了定期出版物中文献分布规律。1935年，美国语言学家齐普夫通过大量的统计分析工作，从而宣告了齐普夫的词频分布定律的正式诞生。,文献计量学的发展历史1969年，普里查德（A.Pritchard）发表了统计书目学还是文献计量学一文，首次提出了文献计量学这一概念。从此之后，文献计量学这个术语代替统计书目学得到广泛应用。普里查德在这篇文章中对文献计量学下了定义“文献计量学是把数学和统计学应用于图书和其他交流媒介的一门学科”。文献计量学：用数学和统计学的方法，定量地分析一切知识载体的交叉科学；集数学、统计学

3、、文献学为一体，注重量化的综合性知识体系；其计量对象主要是：文献量(各种出版物，尤以期刊论文和引文居多)、作者数(个人或团体)、词汇数(各种文献标识)；,文献计量学概述,文献计量学的发展趋势网络和网络计量的研究日益成为文献计量学的研究前沿;文献计量学内容体系中的指标,从提出到现在一直都是文献计量学研究的热点,目前有关指标的研究是文献计量学研究前沿,且以指标的应用为主要的研究前沿;文献计量学呈现与其他学科相结合的趋势,特别是医学。文献计量学研究日益呈现应用化、综合化和网络化的态势。,文献计量学方法,文献计量学三大定律1、文献作者的分布理论-洛特卡定律2、文献分散的理论-布拉德福定律3、词频分布理

4、论-齐普夫定律,洛特卡定律,洛特卡定律的产生1926年，洛特卡最先研究了科学文献数量与著者数量之间的关系，并创造性地提出了“科学生产率”的概念。所谓“科学生产率”是指科学家(科研人员)在科学上所表现出的能力和工作效率，通常用其生产的科学文献的数量来衡量。洛特卡就是从“科学生产率”这个概念出发，通过统计和分析科研人员的论著数量，首次揭示了科学文献按著者的分布规律。洛特卡围绕科学生产率这个崭新的课题，为了考察文献作者分布规律做了大量艰苦的统计工作。他选取化学和物理两门学科的论著数量和著者数量为研究对象。洛特卡对这些数据的统计结果包含两部分内容：1、与论著数量相对应的作者数量；2、著者频率，即相应的

5、著者数占著者总数的百分比。这两个部分均按论著数量增序排列。在对数据的研究过程中，洛特卡发现，科学领域的论著数量与著者频率有一定的关系。他在科学生产率的频率分布一文中，论述了化学与物理学领域中作者频率与论文数量的分布规律，提出了描述这两者关系的一般公式，同时还阐明了科学生产率的经验规律，即洛特卡定律（Lotkas Law），又称“倒数平方定律”。,洛特卡定律,洛特卡定律基本内容从洛特卡定律的产生过程可以看出，该定律的目的和基本内容是：描述科学工作者人数与其所著论文之间的关系。如果设f(x)为写了x篇论文的作者数占作者总数的比例，则洛特卡定律可表示为：其中，C和a是某特定主题领域的特征常数。洛特卡

6、统计的数据约：a=2，即“平方反比率”。,洛特卡定律,洛特卡定律基本内容f(1)=C=6/2:写一篇论文作者的数量约占所有作者数量的60%；f(2)=C/4:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;f(3)=C/9:写三篇论文的作者数量约为写一篇论文作者数量的1/9;f(n)=C/n2:写n篇论文的作者数量约为写一篇论文作者数量的1/n2,洛特卡定律,洛特卡定律的局限性只是根据化学和物理学两大学科得出的理论估计，并非精确的统计分布，在其他学科的应用时就需要作一定的修正。洛特卡的数据抽取方法有欠科学，只有在研究的学科满足以下条件时预测结果才会比较客观：学科必须相对稳定、研究的论文时

7、间区间必须足够长、研究的作者数目必须足够大。否则对该定律必须作相应的修正。,洛特卡定律,洛特卡定律的发展在洛特卡定律的基础上，普赖斯（Price）进一步研究了科学家人数与科学文献数量，以及不同能力层次的科学家之间的定量关系，提出了著名的普赖斯定律和一些其他重要结论。普赖斯(Price)是著名的科学家与科学史学家,他在其代表名著小科学,大科学一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合在数量上约等于全部作者总数的平方根，此即普赖斯定律。,洛特卡定律,洛特卡定律的应用1、在情报学、图书馆学方面的应用。一般是用它来预测发表不同数目文章的著者数量和特定学科的文

8、献数量。这样，便于掌握文献的增长趋势，便于进行文献情报的科学管理以及情报学的理论研究等。2、在预测科学方面的应用。按照洛特卡定律，可以从统计或估算的科学著者数量来预测文献数目的增长速度和文献流的动向，便于掌握文献的交流规律；同时，从文献计量的角度出发，也可预测科学家数量的增长和科学发展的规模及趋势等。3、在科学学和人才学方面的应用。可以用它来研究科学家的活动规律，研究人才的著述特征，从而为整个科学学和人才学的研究提供新的途径和手段。,布拉德福定律,布拉德福定律的产生1933年，英国科学博物馆图书馆的布拉德福选择了“应用地球物理学”和“润滑”专业领域为样本，组织图书馆的工作人员统计所收集的科技期

9、刊上发表的相关论文，共统计了490种期刊，1727篇论文，并将期刊按照相关论文载文量的多少减序排列。他采用3种不同的方法，即区域分析、图像观察和数学推导的方法对文献统计数据进行了分析研究，结果发现，尽管学科不同，但相关论文在相应的期刊中有着同样的分布规律。布拉德福于1934年1月在工程发表了题为专门学科的情报源一文，首次公开提出了定量描述文献分散规律的经验定律，即布拉德福定律。,布拉德福定律,布拉德福定律的基本内容布拉德福定律的区域分析：如果将科学期刊按其登载某个学科的论文数量的大小，以减序排列，那么可以把期刊分为专门面向这个学科的核心区、相关区、非相关区，3个区的论文数量相等，此时核心区、相

10、关区，非相关区期刊数量之比为1：a：a2，a是布拉德福常数。每个区的期刊刊登的某个学科的论文数量都是所有期刊关于这个学科所发表的论文总数的三分之一。第一区（核心区）所发表的论文来自数量不多但是效率最高的期刊n1；第二区是数量较多的中等效率的期刊n2；第三区是外围区，数量众多但效率最低的期刊n3。三个区中的期刊数量成下列关系：,布拉德福定律,布拉德福定律的发展英国情报学家布鲁克斯(BCBrookes)首次用数学公式描述了布拉德福的经验定律,发展了图像描述方法，从而完成了布氏定律的这一重要的后续工作。并创造性地提出用两个部分组成的数学表达式来描述布拉德福定律，分别表示图像的曲线部分和直线部分：,R

11、(n)是相关论文累积数；n是杂志等级排列的序号(级)；a是第一级杂志中的相关文章数R(1)，也就是载文章最高的杂志中的相关文章数；C是核心区中的杂志数量；N是等级排列的杂志总数；k,s是待定参数，k等于分布曲线中直线部分的斜率，可用实验方法求得，当N足够大时，kN，s的数值等于图形直线部分反向延伸与横轴交点的n值。是参数，与收藏的杂志(核心杂志)数量有关，大小等于分布图中曲线部分的曲率，总小于1.,布拉德福定律,布拉德福定律的应用确定核心期刊，指导读者利用重点文献选择核心期刊是布氏定律最基本、最常见的应用之一，这可以直接仿照布拉德福方法进行。近年来，这种应用已被广泛地运用到各个学科的期刊文献

12、工作中。科技期刊导购，确定最佳文献收藏对一个单位来说，如何使用有限的经费，选择什么范围的期刊，订购多少期刊，才能收到最佳的效果，应是图书情报部门关心的问题。而应用布拉德福定律即可解决这一问题。考察检索工具的完整性将期刊按照布拉德福排序，排名最前的n（cnN）种期刊，设其所刊载的论文数与全部期刊载文量之比为f，则有：,如果等级排列分布中的N,s已知，对于确定的f,可以由左式检验检索工具的完整性。,齐普夫定律,齐普夫定律的产生1949年，美国语言学家齐普夫发表了专著人类行为与最省力法则，提出了最省力法则这个概念。齐普夫通过研究大量的统计资料，试图证明自然语言词汇在文献中的分布服从一个简单的定律，

13、他称这一定律为“最省力法则”。齐普夫认为：人们在解决任何一个问题时，总是力图把所能付出的平均工作消耗最小化，达到最省力的地步。他认为，在语言交流过程中，“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少，而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的双曲线型分布。,齐普夫定律,齐普夫定律的基本内容如果把一篇较长文章（约5000字以上）中的每个不同的词按其出现频次的递减顺序排列起来（高频词在前，低频词在后），并用自然数给这些词编上等级序号，出现频次最高的为1级，其次为2级一直到

14、L级，那么等级值和频次值的乘积是一个常数，即：其中f表示某个词在文章中出现的频次，r表示该词的等级序号，c为常数。,齐普夫定律,齐普夫定律的基本内容如果建立f与r的直角坐标系，横坐标表示词的等级序号，纵坐标表示出现频次，就得到一条双曲线。如果对f和r都取对数，则双曲线变成一条直线。美国德克萨斯大学图书情报研究生院R.E.威利斯（Wyllys）曾经以含21354个单词的文集进行频次与等级的统计，得到下图,齐普夫定律,齐普夫定律的局限性及发展由于齐普夫定律是一个纯粹的经验定律，只是通过一般的统计方法得到，所以它的使用范围有一定的局限性。其过于简单的形式和结论对于出现频次特别高和频次特别低的词都不能

15、完全满足。之后，一些学者对齐普夫定律进行了一些修正。这些修正主要在增加参数方面，有的学者把参数增加到两个，有的学者把参数增加到三个，使其更加精确的描述词频分布规律。比较突出的有美国语言学家朱斯（M.Joos）的双参数等级分布率()，美籍法国数学家曼德尔布罗（B.Mandelbrot）的词的三参数频率分布规律()，布思（A.D.Booth）的低频词的分布规律()。,齐普夫定律,齐普夫定律的应用齐普夫定律主要应用于情报标引与词汇控制、情报检索、预测学科和技术的发展趋势、图书情报管理等领域。研究词频分布对编制词表，制定标引规则，进行词汇分析与控制，分析作者著述特征具有一定意义。经验表明，中频词往往包

16、含大量有检索意义的关键词。而一篇文献全文输入计算机后，计算机是很容易检出中频词的。因此，词频分布也是文献自动分类、自动标引的研究对象。,文献增长规律,新出版的文献数量随时间的变化而增长，我们称这种现象为文献的增长。科学文献增长这一现象有其内在的规律。研究科学文献增长规律可以间接反映知识增长的速度，从一个侧面揭示科技发展的规律,而且还可以为情报的搜集和获取提供一种预测方法。文献增长的函数：Y=F(t)。Y：新出版的文献数量，t：时间；应满足：时间t增长时，文献数量Y也随之增长，即Y=F(t)为递增函数。在关于文献增长规律的众多研究成果中，影响力最大的是文献学家普赖斯提出的指数增长模型。,普赖斯指

17、数增长率,普赖斯指数增长率的提出及基本内容普赖斯在其著作巴比伦以来的科学中指出，从1750年起，科学杂志的数量大约每50年增长10倍。1750年为10种，1800年为100种，1850年为1000种，1900年为10000种，目前已经达到10万余。其次，根据化学文摘、生物学文摘、科学文摘近几十年的数据，也可以发现同样的发展趋势。以科学文献累积量为纵轴，以历史年代为横轴，把各个年代的科学文献量在坐标图上逐点描绘出来，然后以一条光滑曲线连接各点，就十分近似的表征了科学文献随时间增长的规律。这就是著名的普赖斯曲线:,普赖斯指数增长率,普赖斯指数增长率的提出及基本内容通过分析，普赖斯发现科学文献增长与

18、时间成指数函数关系。如果用t表示时间，用F(t)表示时刻t的文献量，则普赖斯的指数定律可以表示为下面的公式：式中，a是统计的初始时刻(t=0)的文献量；e=2.178b表示持续增长率。在应用普赖斯的文献增长指数模型的过程中，应该注意：文献增长符合指数规律是针对某年的文献累积量而言，并非指文献增加量。,普赖斯指数增长率,普赖斯指数增长率的局限性文献增长指数是一个理想模型，没有考虑许多复杂的现实因素。而且，文献的指数增长规律不能预测文献的未来增长趋势。因为普赖斯文献增长指数模型存在的局限性，后来的许多学者继续探索更精确和完善的文献增长理论。,生长曲线,普赖斯指出，考虑政治的、经济的、智力的及时间的

19、影响和限制，文献信息的增长更趋近于生物的生长曲线，即最初生长和繁殖很快，随着时间推移，其生长速度越来越慢，以致几乎不增加了。其方程为：曲线为：,k/2,F(t),lna/kb,t,生长曲线,一般来说，对不同的领域，描述其文献增长的生长曲线中各个常数（a,b和k）是不相同的。如果能分别对各门具体学科文献增长状况作历史的、全面的统计分析，绘制出相应的的生长曲线，则对于评价该学科所处的阶段，预测其未来的发展，估计该学科不同时期的文献寿命，以指导信息搜集和提供，是很有意义的。,文献老化规律,文献半衰期：是指某学科领域现时尚在利用的全部文献中的一半实在多长一段时间内发表的。普赖斯指数：某一学科领域内，对

20、发表年限不超过五年的文献的引用次数与总的引用次数之比值。一般来说，普赖斯指数越大，半衰期越小，文献老化的速度越快。,C(t)表示发表了t年的文献的被引次数k是常数，随学科不同而异，a为老化率。,引文分析法,引文分析法，就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法，对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析，以揭示其数量特征和内在规律的一种信息计量研究方法。即：对科技文献的引证与其被引证现象进行研究。,引文分析法,新技术促进引文分析的发展首先是加菲尔德吸取了谢泼德引文的理念和技术,才促成了引文索引法的诞生,弥补了主题索引法的不足,能够更加准确快速的找到我

21、们所需的文献。第二个大发展就是计算机技术的大发展,为引文分析的可视化提供了很好的土壤和平台,从过去的手工绘图,成了机器绘图。第三个就是互联网的兴起和发展,更加促进了知识的快速流动,也为海量的数据库提供了可能,为引文分析提供了绝好的网络环境,能够更加及时的发现引用关系。,引文分析法,引文分析的测度指标期刊引文率：该刊中参考文献的数量除以载文量。期刊载文量：在抽样时间内，某刊登载论文的数量。期刊被引量：在抽样时间内，某刊被别的期刊引用的数量。期刊引用量：这是与期刊被引量相对应的指标，即某刊引用它刊的次数。影响因子：一种期刊中论文的平均被引率，等于期刊论文被引量与可引论文总数之比。学科影响因子：学科

22、影响因子与上述影响因子相类似，所不同的是：影响因子：测度某一给定期刊中论文的平均被引次数；学科影响因子：测度某刊中论文被某一学科的核心期刊所引用的平均次数。,引文分析法,引文分析的测度指标当年被引指数（Immediacy Index）：这是用于测度期刊被利用速度的指标，也是衡量期刊重要性的一种判据。它一般为期刊某年发表的论文的当年被引用的平均次数。引证系数和被引证系数：这是各种期刊或各学科文献之间引用关系的测度，可从引用或被引用的角度反映出科学文献相互引用的分类结构和关系。引文分析中还有一些辅助概念，运用也较普遍：文献耦合。一篇参考文献被两篇文献引用便构成一个引文偶，引文偶愈多，说明两篇文献关

23、系愈密切。同被引。两篇论文共同被后来的一篇或多篇论文所引用的现象。同被引强度，即两篇(或多篇)文献同被后来的文献所引用的频次，显然，同被引频次愈高，两篇论文相关性愈强。自引。作者引用自己以前发表的独撰与合撰论文的现象，自引还可以扩展到杂志、学科、地区、团体乃至国家对文献的反身自用,引文分析法,引文分析的类型从引文的出发点和内容来看，引文分析分为三种基本类型：从引文的数量进行分析，主要用于评价期刊和论文；引文网状分析：主要用于揭示科学结构、学科相关程度、进行文献检索等；引文链状分析：科技论文间存在着一种“引文链”，如文献A被文献B引，B被文献C引，C又被文献D引，等等。对这种引文的链状结构进行研

24、究可以揭示科学的发展过程并展望未来的前景。,引文分析法,引文分析的应用1）测定学科的影响和重要性通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。2）研究科学结构通过引文聚类分析，特别是从引文间的网状关系进行研究，能够探明有关学科之间的亲缘关系和结构，划定某学科的作者集体；分析推测学科间的交叉、渗透和衍生趋势；还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析，从而揭示科学的动态结构和某些发展规律。3）反映成果的学术价值以及期刊的学术地位，确定核心期刊引文分析方法是确定核心期刊的常用方法之一，从文献被利用的角度来评价和选择期刊，比较客

25、观。,引文分析法,引文分析的应用4）研究科学交流和情报传递规律，研究文献老化和情报利用规律，指导文献收藏目前，有关文献老化的研究一般是从文献被利用角度出发的。普赖斯曾利用引文分析探讨文献的老化规律。通过分析，他认为期刊论文是由半衰期绝然不同的两大类文献构成的，即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析，可以测定各学科期刊的“半衰期”和“最大引文年限”，从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时，一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明文献引文分布反映了文献老化的规律性。因此，从文献

26、引用的角度研究文献老化规律是一种有效的途径和方法。,引文分析法,引文分析的应用5）研究情报用户的需求特点利用引文分析方法是进行信息用户研究的一种重要途径。一般来说，附在论文末尾的被引用文献是用户（作者）所需要和利用的最有代表性的文献。因此，引文的特点可基本反映出用户利用正式渠道获得信息的主要特点，尤其是某信息中心对其所服务的用户所发表的论文的引文分析，更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计，可以获得与信息需求有关的许多指标，如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。,引文分析法,引文分析的应用6）评估某一组织结构、国家和地区的科学能

27、力和学术水平，评价人材在人才评价方面，常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度，同时，也从科研成果被利用的角度反映该著者在本学科领域内的影响和地位。因此，引文数据为人才评价提供了定量依据。,引文分析法,引文分析的局限性1）文献被引用并不等于重要，引用动机复杂造成引文重要程度不均衡。某些有错误观点、结论或有某些争议的论文，后人对其批评商榷，被引次数可能很高。有些文献被引用次数少，也不能一概认为不重要，它受到许多因素的限制，如发表的时间、刊物、语种、学科专业等等。有的重要的论著因问题过于专深，曲高和寡，被引用率也很低。被引次数的微小差别不能

28、完全说明文献质量上的优劣，它有很大的随机性，只有当这一差别很大时，才能说明问题。,引文分析法,引文分析的局限性2）著者选用引文会受到各种因素（如可获得性）的影响。著者引用的文献，大部分是个人收藏的文献；少部分是本部门和就近图书馆的资料，而其它城市或其它国家的文献所占比例甚小。这说明著者选用参考文献以方便为准则，以占有为前提；同时还要受到著者语言能力、文献本身年龄和流通周期，以及二次出版物报道的影响。,引文分析法,引文分析的局限性3）在引用关系上假联系也会影响到引文分析。引用文献的原因多种多样，两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献，一篇可能是引用其方法，另一篇可能是引用

29、其结果，那么这两篇文献在内容上的联系就有可能是虚假的。引文有些是发生在前言和篇名中；有些是发生在正文中；有些发生在结论或讨论中。在这些情况下，作者对原著的引用内容和程度是不相同的。引文对原著的关系和重要性也各不相同，但在目前的引文分析中，对它们都是同等看待，不加区分的。这样也容易造成成假关系。新刊的论文得不到大量引用；小型期刊被引率往往低于大型期刊；引而未用或用而未引的情况也时有发生。文献引用中的这些现象都会影响引文分析方法的应用和效果。,引文分析法,引文分析的局限性4）在文献引用方面始终存在着马太效应的影响。人们往往以“名著”、“权威”作为选择引文的标准，有的确是出于需要，也有的则是为了装饰门面，抬高自己论文的身价。某种期刊因为发表了名人的文章而为众人所引用，以至引起连锁反应，结果被引用率很高。有时“引用”也会成为一种风气，并非是论著的实际需要，这些都会掩盖和影响文献引用的真实性。,参考文献,马费成，宋恩梅信息管理学基础武汉大学出版社，2013赵蓉英，许丽敏文献计量学发展演进与研究前沿的知识图谱探析，中国图书馆学报，2010梁永霞，刘则渊等引文分析领域前沿与演化知识图谱科学学研究，2009,谢谢观赏！,

展开阅读全文