信息源及其分布规律.ppt

上传人:牧羊曲112 文档编号:5230069 上传时间:2023-06-16 格式:PPT 页数:69 大小:2.83MB
返回 下载 相关 举报
信息源及其分布规律.ppt_第1页
第1页 / 共69页
信息源及其分布规律.ppt_第2页
第2页 / 共69页
信息源及其分布规律.ppt_第3页
第3页 / 共69页
信息源及其分布规律.ppt_第4页
第4页 / 共69页
信息源及其分布规律.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《信息源及其分布规律.ppt》由会员分享,可在线阅读,更多相关《信息源及其分布规律.ppt(69页珍藏版)》请在三一办公上搜索。

1、第3章信息源及其分布规律,目的:1理解信息源的类型及特点2掌握信息源分布的规律3掌握引文分析的作用及局限,3.1信息源概述信息源:即信息的来源。一般包括:原始信息源 信息服务机构 信息系统,3.2信息源的种类,(1)按信息产生的时间顺序 先导信息源 信息产生时间先于社会活动,起预警作用,或为决策提供依据,减少决策的不确定性和风险。天气(地震)预报、股市展望 实时信息源 实验记录、产品测试报告、股市行情 滞后信息源 绝大部分信息都是滞后信息,如报刊文章、科技报告、论文等。,(2)按信息的可保存性 正式记录的信息源 非正式记录的信息源,(3)按信息的生产过程 原始信息源 二次信息源 三次信息源 精

2、粹信息源,(4)按信息存在的形式,个人信息源 及时性、新颖性、主观随意性、职业性 实物信息源 年轮、各种展品等 直观性、客观性、隐蔽性 文献信息源 用文字、图形、符号、声频、视频等技术手段将系统化的信息内容存储在纸张、胶片、磁带和光盘等物质载体上而形成的一类信息源 系统性、时滞性、稳定性,组织机构信息源 研究机构、信息中心、图书馆、档案馆、标准化组织、学术团体、高校、新闻出版单位等。权威性、垄断性 数据库信息源 清华同方、重庆维普 提高了信息检索效率;有利于信息共享 动态管理性、多用性、技术依赖性,(5)按信息源的形式,文献型信息源 档案型信息源 统计型信息源 图像型信息源,3.3信息源的分布

3、规律,3.3.1文献信息的增长规律,解决文献增长同时间的关系。以文献为计量单位研究科学知识的增长,是建立在两个假设之上:所有的知识都包含在已发表的文献中;每篇文献含有等量的知识。,(1)指数增长规律普赖斯曲线,期刊的增长:1750年 10种1800年 100种1850年 1000种1900年 10000种,普赖斯曲线,F(t)=aebt a统计初始时刻的文献量 b文献的持续增长率 F(t)t时刻的文献量 e自然对数的底数,约等于2.718,(2)逻辑增长规律逻辑曲线,b老化率kt时科技文献的累计量,即科技文献累积量的最大值,F(t)为t年的文献累积量,,科技文献逻辑增长曲线呈“S”型。对式中的

4、时间变量t二阶求导,并令二阶导数为0,则可知曲线的拐点A的坐标为(lna/kb,k/2)。应当指出,在表征科技文献增长规律方面,逻辑曲线比普莱斯曲线更符合客观实际。但逻辑曲线也其局限性,它表明科学技术发展到一定阶段是,科技文献的增长率趋于零科技文献总量将达到不可逾越的最大值k,这显然是与实际情况不相符的。,科技文献逻辑增长曲线,(1)老化的表现:有些文献的内容会被之后的证明是不可靠的或错误的,有些文献信息的内容尽管仍是正确的,被新的文献形式所替代,导致原有文献逐渐很少被人使用。文献信息尽管仍有用,但正处于一个人们对其兴趣下降的时期;文献信息不再有用。文献老化文献没有用 科技文献的这种逐渐失去使

5、用价值而不再被人们利用或越来越少地被人利用的现象就是科技文献的老化现象。,3.3.2文献信息的老化律,普莱斯经过研究,将科技文献的老化过程用图23所示的负指数曲线来描述。一般来讲,利用半衰期及普莱斯指数等具体指标来衡量文献的老化过程,能够比较客观地反映科技文献老化的规律。,普莱斯老化曲线,(2)文献老化的量度指标,文献的半衰期:是指某学科领域内,现在尚在利用的全部文献中的一半是在多长一段时间内发表的。半衰期越大,文献老化越慢。,普赖斯指数 普赖斯把发表时间超过5年仍被利用的科技文献定义为“档案性文献”,把发表时间在5年之内的“新”文献定义为“现时有用文献”,并将“新”文献的引用数量与文献的总引

6、用量之比为指数,作为衡量科技文献老化的测度。“普赖斯指数”的表达式为:普赖斯指数=“新”文献引用量/文献总引用量 普赖斯指数:某学科领域内,对发表时间不超过5年的文献的引用次数与总的引用次数之比。普赖斯指数越大,文献老化的速度就越快。,剩余有益性 某一年份的某一期刊被用户所利用的文献数被称为期刊有益性。剩余有益性是指若干年后,期刊还保留的有益性,是期刊老化程度的一个量度。剩余有益性只适用于满足一定类型和内容的信息需求的几种期刊才有用,适用面非常窄。,(2)文献老化模型 如果用纵坐标表示现在正被利用文献的被引量,横坐标表示时间,文献老化规律可以用公式表示为:C(t)=ke-at C(t)表示发表

7、t年的文献的被引次数;k是常数,随学科不同而变化;a为老化率。,(3)影响文献信息老化的因素 文献的增长 学科的差异 学科发展阶段的差异 用户需求及信息环境 文献的种类和性质,3.3.3文献信息的集中与分散规律(离散规律)-布拉德福定律 布拉德福认为:科学技术的每一个学科都或多或少,或远或近地与其他任何一个学科相关联,从而导致一个学科的文献出现在另一个学科的期刊杂志之中,这就是从学科角度对文献分散规律的描述。,(1)表述:若将科学期刊按其刊载某一学科主题论文数量的多少,以递减顺序排列,便可以在这些期刊中区分出载文率最高的核心部分及与核心部分包含等数量论文的随后几区。这时,核心区域与后继各区中的

8、期刊数量呈 1:a:a2 的关系。a是一比例常数,或称布拉德福常数。布氏经统计分析得出,a值大约为5.0。对于不同的学科专业而言,其a也不尽相同。,(2)图像和数学模型,如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。,布鲁克斯用下述模式来表示布拉德福定律:R(n)=n(1nC R(n)=klog(n/s)(CnN)R(n)相关论文累积数。n杂志等级排列的序号(级)。第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志

9、中的相关文章数。C“核心区”中的杂志数量。N等级排列的杂志总数。k,s待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,kN。参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1。,(3)应用:确定核心期刊 信息存贮量的动态维护 信息检索与搜集完整性的测定 指导读者 学科发展幅度的比较 选择核心出版者,3.3.4著者分布规律洛特卡定律、平方反比率 研究著者的生产率问题,即著者和他发表论文的关系。在某一时间内,写了X篇论文的作者数占作者总数的百分比fx与其撰写的论文数X的平方成反比。Fx=C/X2 c-常数,c0.6079,3.3.5词频分布

10、规律齐普夫定律 如果某个文献信息单元中含有N个词(N5000),统计其中每个词汇出现的频次f,并按递减顺序排列。给这些词汇编上等级序号r,则每个词汇出现的频次f与相应的等级序号r之积为常数。f*r=c 最省力法则 单一化力 多样化力 只适合中频词的分布,3.3.6马太效应,凡有的,还要加给他,让他多余;没有的,连他现在有的也要夺过来。美国社会学家罗伯特默顿引用这句话,用以论述社会科学中的评价和奖励机制,并将其称为“马太效应”(Matthew Effect)。信息管理中的马太效应主要表现为信息分布的核心趋势和集中取向。马太效应和洛特卡定律、齐普夫定律和布拉德福定律有着紧密的联系,都是信息源的分布

11、规律。,马太效应的这种核心趋势和集中取向便于选取核心信息源,提高信息选择和筛选的效率,但是马太效应也有一些负面的影响。(1)马太效应描述信息对象的优势和劣势过度集中,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,而且使评价工作落入俗套,不利于评价工作的创新和激励创新人才的发展。(2)马太效应形成的信息分布有时只是表面的、外在的,背后还隐藏着许多不为人知的多种因素,会造成一些虚假的繁荣现象,使得学术界的评价和信息的选择太过于浮躁。(3)不利于年轻学者的发展,过于纵容权威学者等。,3.3.7长尾理论,2004年,美国人克里斯.安德森提出的“长尾理论”,打破了人们的传统思维方式。过去

12、,只关注重要的人或重要的事,本章所讨论的几个信息源的分布规律,都毫不例外的把重心放在了高频对象,尽管在方法上也关注到了低频的对象,但是主要关注点仍是所谓的“权威”和“核心”。,3.4引文分析,3.4.1 引文分析的基本内容和方法,引文分析法是利用各种数学及统计学方法,以及比较、归纳、抽象、概括等逻辑思维方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。,引文分析的基本内容(1)引文年代分析(2)引文国别分析(3)引文量分析,引用文献的分布类型,引文按出版年分布:文献半衰期,文献利用的 最佳年限;引文按语种的分布:作者掌握和使用外

13、语情况 引文按期刊的分布:核心期刊评估;引文按文献类型的分布:情报源被利用程度的 评价 引文按主题(学科)的分布:主题(学科)间 的关系 引文按作者的分布:评价专家,3.4.2 引文分析的测度,常见的测度指标:自引率就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。被自引率就是主体文献被自引的次数与主体被引用的总次数的比值。影响因子即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。期刊引证率等于该刊中参考文献量除以期刊载文量。即年指标是期刊某年发表的论文当年被引用的次数,除以该刊这一年所发表文章的总数。,引文分析的局限性(1)引文关系假联系的影响(

14、2)文献被引用并不完全等于重要(3)著者选用引文受到可获得性的影响(4)马太效应的影响,3.4.3引文分析的作用与局限,引文分析的作用,研究信息所反映的客观事物之间的关联性及组织结构;可以追本溯源,展现事物的发展过程,及这一过程中的相关要素;对引用次数的测度结果可以对信息进行有序化处理,并指导用户利用;为研究信息变化的动态规律,建立用户行为图景提供了充分的依据。,3.4.4常见的引用关系,引文耦合(bibliographic coupling)同被引(Co-citation)自引(self-citaton),(1)文献耦合(引文耦合)1963M.M.Kessler首次提出“引文耦合”(Bibl

15、iographic Coupling,书目对)的概念引文耦合是指两篇或多篇文献同时引用别的文献,则称两篇文献或多篇引文献为“引文耦合”具体,如果A和B两篇文献共同引用一篇或多篇相同的文献,则称A和B两文献在引用上具有耦合关系,而称A与B为文献耦合。,引文耦合,耦合关系的程可用耦合强(或称耦合频率)的指标衡;耦合强取决于A和B共有的考文献的数量“引文耦合”理论基本的出发点是,凡共同引用一篇或多篇文献的两篇文献之间必有相互关系“耦合”的概并仅只局限于同时引用的两篇论文本身之间的关系,并可推广至相对于文献的学科主题、期刊、著者等特定对象的耦合关系。,(2)同被引,Henry Small和I.V.Ma

16、rshakova分别在研究文献的引证结构和文献分类时,同时首次提出“同被引”(Co-citation)的概同被引指两篇(或多篇)文献同时被别的文献引用时,则称两篇文献或多篇被引文献为“同被引”具体来,即A和B两篇(或多篇)文献,管其发表的时间如何,只要同时被后的一篇或多篇文献引用,则称A和B具有“同被引”关系,文献的引用关系,Subject,文献的引用关系,知网节,知识元链接参考文献引证文献共引文献同被引文献二级参考文献二级引证文献读者推荐文献相似文献相关研究机构相关文献作者中图法分类文献导航相关期刊,引文耦合与同被引的关系,联系:二者均是两篇文献通过第三篇文献建立起来的反映引用规律与结构的一

17、种关系;都可以用来研究文献之间的主题相似性,从文献被利用的角度进行文献检索。区别:引文耦合反映两篇引用文献之间的关系;同被引反映两篇被引用文献之间的关系;引文耦合强度是固定不变的;同被引强度则时刻有可能发生变化;文献耦合反映的文献间的关系是一种固定的长久的关系,而同被引反映的则是变化的或暂时的关系。引文耦合是回溯性的,同被引是展望性的。,(3)自引(self-citation),自引:著者引用自己、先前的著作或与他人合作的著作自引发生的机理:信息的可获取性信息客体的自相关性信息传递中的马太效应信息主体的心理因素,Web of Knowledge(SCI),收录文献检索,被引文献检索,检索结果,Jiangsu and hosp,2006,检索结果细览页面知网节,检索结果细览页面知网节,检索结果细览页面知网节,同/共引文献CHKD期刊全文数据库,文献A,文献B,唐兰,朱西娥,费淑霞,史国珍,梁乙安.糖尿病神经病变与足坏疽关系的探讨J中国糖尿病杂志,1997,(01).,同被引文献,侯玉芬,林宁,宋岳梅,程志新.糖尿病足危险因素研究进展J中国中西医结合外科杂志,2004,(01).,文献A,文献B,江苏,医院,江苏,医院,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号