文献检索与利用课件.ppt

上传人:小飞机 文档编号:1625662 上传时间:2022-12-11 格式:PPT 页数:134 大小:744.50KB
返回 下载 相关 举报
文献检索与利用课件.ppt_第1页
第1页 / 共134页
文献检索与利用课件.ppt_第2页
第2页 / 共134页
文献检索与利用课件.ppt_第3页
第3页 / 共134页
文献检索与利用课件.ppt_第4页
第4页 / 共134页
文献检索与利用课件.ppt_第5页
第5页 / 共134页
点击查看更多>>
资源描述

《文献检索与利用课件.ppt》由会员分享,可在线阅读,更多相关《文献检索与利用课件.ppt(134页珍藏版)》请在三一办公上搜索。

1、.,1,文献检索与利用,管理学院 选修课,.,2,推荐教材及参考书,1。信息检索,张海涛 等编著, 机械工业出版社2. 信息检索,黄如花 主编, 武汉大学出版社3信息检索与利用,邹广严 等编著, 科学出版社4. 信息检索系统导论,刘挺 等编著, 机械工业出版社,.,3,教学目的与意义,Why-为什么要学习信息检索What-什么是信息检索(概念、原理、类型等等) 了解相关知识How-怎样实施信息检索(方法、途径、步骤等) 恰当运用方法 Where-在哪里实施信息检索(检索系统介绍) 熟悉检索工具How-to-better-如何提高检索效率和效果(策略、技巧等) 掌握相关技能,.,4,教学内容(理

2、论与应用相结合),第一篇 信息检索理论基础 第一章 信息检索概述 第二章 信息检索途径与检索策略 第三章 计算机信息检索概述第二篇 科技文献检索篇 第四章 事实和数据信息检索 第五章 科技期刊及其检索 第六章 特种文献及其检索,.,5,第三篇 计算机信息检索篇 第七章 国内重要的综合性信息检索系统 第八章 国外重要的综合性信息检索系统 第九章 光盘信息检索第四篇 网络信息检索篇 第十章 网络信息检索概述 第十一章 网络信息检索工具的使用介绍,.,6,补充内容:,信息资源的集中与分散规律:(1)马太效应-富集与贫集(2)布拉德福定律-论文在期刊中的离散分布(3)洛特卡定律-信息生产者分布规律(4

3、)普赖斯定律-核心生产者的平方根定律 文献的增长与老化规律:(1)指数增长律 (文献累计数)(2)逐渐过时律-半衰期和普赖斯指数,.,7,信息资源分布的马太效应 马太效应是美国学者R。默顿引用圣经新约全书马太福音中的一段话:“凡有的,还要加给她,叫他有余;凡没有的,连他所有的也要夺去”。信息分布的“富集”与“贫集”现象信息富集分布表现为核心趋势和集中取向,例如:核心期刊、核心作者、核心网站、核心检索系统、核心机构等等作用:选择核心信息源,.,8,吉林大学哲学社会科学A类期刊目录注:SSCI为国外社会科学索引;A&HCI为国外艺术与人文科学索引。吉林大学哲学社会科学B类期刊目录,.,9,3管理学

4、 (9种),.,10,布拉德福分散定律文献信息学家布拉德福经过长期的观察和统计分析的基础上发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。定律的内涵:如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a的关系(a1)。目的:关注核心期刊,.,11,洛特卡定律是关于信息生产者的分布规律洛特卡通过大量的统计研究后发现,在论文数x与发表了x篇论文的作者数y(x)之间,存在以下关系:y(x) =c/x,c是相对于

5、这一典型数据集合而估计出的常数。指导意义:首先检索高产作者的文献,.,12,普赖斯定律核心生产者分布的“平方根定律”,即在某一特定领域中,全部论文的半数是由该领域中全部作者的平方根的那些人撰写的。“那些人”无疑就是核心或高产作者。指导作用:首先检索核心作者的文献,.,13,逐渐过时率(针对科技文献信息的老化)文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在其他更新的论著中;文献中的信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。文献的半衰期:是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发

6、表的。例如,物理学文献的半衰期是4.6年。普赖斯指数:即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来讲,普赖斯指数越大,半衰期就越小,文献老化的速度就越快。指导作用:重点检索近五年内的文献。,.,14,文献检索与利用(第一篇),- 信息检索理论基础,.,15,第一章 信息检索概述,本章要点:掌握信息检索的概念、类型、原理熟悉信息检索语言了解信息检索的发展趋势,.,16,文献与信息的概念,文献国际标准化组织文献情报术语国际标准(ISO/DIS5217)对文献的定义:“文献是在存贮、检索、利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附于

7、载体而存贮有信息或数据的载体”。我国中华人民共和国国际标准文献著录总则(GB3792.1-83)定义:“文献是记录有知识的一切载体”。现代文献囊括了各种信息载体,比如图书、期刊、光盘、电子出版物等。信息信息是指人们对世界的认识所形成的各种知识、学问、消息等,有文字信息、数据信息、图像信息、语音信息等类型。文献是信息的载体,是获取信息的主要来源。信息源的类型:图书、期刊、报纸、专利文献、会议文献、科技报告、学位论文、标准文献等。,.,17,1.1 信息检索的概念与类型,1 信息检索的概念1950年,莫尔斯(Calvin NMooers)首次提出信息检索(Information Retrieval

8、)一词,发表“把信息检索看做是时间性的通讯”一文。 对信息检索可以从以下三个角度来认识:(1)时间性通讯角度的认识-突出用户需求的重要性(2)信息处理角度的认识-强调信息结构的构建 (3)文献查找角度的认识-强调查找特定用户所需的特定信息 -主流观点 例如:英国著名学者维克利(BCVickery)和美国著名信息专家兰卡斯特(FWLancaster)均持这种观点。,.,18,信息检索的含义具有广义和狭义之分:广义地讲,信息检索包含信息存储(信息组织)和信息查找两个过程。 狭义地讲,信息检索仅仅指信息查找的过程。 信息检索的概念: 根据特定的需求,利用某种检索工具,按照一定的方法与步骤,从大量文献

9、中查找出符合用户需求的信息与文献的过程。,.,19,2. 信息检索的类型(1)按检索对象区分 按照检索的查找对象,信息检索分为书目信息检索、全文信息检索和数据事实信息检索。数据事实检索是确定性检索,书目和全文检索是相关性检索。 (2)按检索方式区分 按照检索的操作方式,信息检索分为手工信息检索和机器信息检索。(3)按检索要求区分 按照用户对检索的要求,信息检索分为强相关检索(强调查准率)和弱相关检索(强调查全率)。,.,20,(4) 按检索性质区分 按照检索的运行性质,信息检索分为定题检索(查找有关特定主题的最新信息)和回溯检索(查找一段时期内有关特定主题的信息) 。 在检索实践中,用户利用最

10、多的是回溯检索,大多数的检索课题都属于回溯检索。 (5) 按检索的信息形式区分 按照检索的信息形式,信息检索分为文本检索和多媒体检索。,.,21,1.2 信息检索的发展历程,1. 手工信息检索(起源于19世纪前期,20世纪40年代以前的唯一检索方式)手工信息检索的主要优点有:(1)几乎不需要特殊设备,检索方法简单、灵活;(2)可以边查边思考,随时修改检索策略;(3)无检索经费或费用较低。主要缺点是:(1)效率低,检索速度慢,所需时间较长,特别是进行专题检索和回溯检索时需要查阅大量工具书,费时费力;(2)在进行复杂问题的多途径检索时,需要反复查找若干检索工具;(3)查全率一般较低。,.,22,2

11、机械检索(20世纪40-50年代) 出现了一些半机械化、机械化的检索操作方式,例如各种穿孔卡片检索工具。提出了组配的检索思想,为计算机信息检索的发展提供了逻辑基础。,.,23,3.脱机批处理信息检索(50年代中期至60年代中后期)脱机批处理信息检索有许多优点:(1)批处理可同时进行多项检索;(2)可处理检索关系相当复杂的检索词汇;(3)一次输入作业,生产多种输出的多种服务能力。 脱机批处理信息也有以下缺点:(1)用户不能在检索过程中与主机进行“对话”和浏览文献;(2)不能在检索的同时修改检索策略,用户必须事先把可能的途径都考虑周全;(3)不能及时获得检索结果;(4)批处理是委托式检索,信息需求

12、和查询结果之间有一定误差。,.,24,4.联机信息检索(从60年代中后期开始) 用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。联机信息检索有以下几个特点:(1)用户通过检索终端和通信网络直接与远程中央计算机相连,检索远程数据库内文献信息,这几乎是同时的、直接的,无需委托;(2)检索过程是“人-机对话”式,可及时修改检索策略,及时显示、浏览文献信息;(3)可根据用户的不同需求进行各种输出,及时取得检索结果;(4)检索指令复杂,多为专业检索人员才能熟练使用。90年代后联机检索随着计算机、数据库、通信网络技术的发展而迅猛发展。,.,25,5.光盘信息检索(

13、80年代中期开始)光盘检索主要有以下特点:(1)在通信不发达地区、联网较困难的地区,使用网络信息服务比较困难。而使用光盘检索,可以免去联机检索必须支付的联机系统使用费,只需支付数据库生产者收取的数据库费即可。(2)有些出版商出于保密、版权及控制等方面的考虑,还不可能将收费信息产品很快上网。此情况下,CD-ROM就成为获取此类信息的最佳途径。(3)CD-ROM可以替代或补充图书情报机构的印刷本收藏,其多媒体的书籍、游戏和参考资料是用户最欢迎的类型之一。,.,26,6.网络信息检索(从90年代开始)主要特点:(1)信息量大,支持多媒体功能,信息共享。(2)使用方便、灵活,信息即时获取。(3)用户检

14、索费用低,通信费用较高。(4)检索技术要求不高,检索结果中的误检率较高。,.,27,1.3 信息检索的原理,信息检索包括信息存储与信息检索两个过程,它们是同一事物中两个相互对立的方面。实施检索的主要方法就是利用各种检索工具,通过使用信息存取系统(亦称检索工具)来实现 。信息检索的原理图,.,28,比较/匹配,提问标识,文献标识,信息存储过程,信息检索过程,.,29,(1)信息存储 信息存储是对文献进行收集、著录及标引,并加以有序化编排,编制信息检索的工具的过程;是信息检索的基础。1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当

15、的评价,从中筛选出符合要求的文献。2)文献的概念分析, 归纳出代表文献内容的若干主题概念 。3)信息标引,实现词汇转换,把主题概念转换为文献标识。 4)信息检索工具的编制。 检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。 文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。 文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。,.,30,(2)信息检索 信息检索是从大量的信息中查找出用户所需的特定信息的过程,是信息存储的目的。1)用户提问,给出检索需求。 2)提问的概念分析,把检索提问概括为主题概

16、念并明确它们之间的关系。3)检索提问的词汇转换,把主题概念转换为相应的提问标识(或称为检索词)。4)检索的实施,对文献标识与提问标识进行匹配比较。 信息检索的原理就是提问标识与文献标识的对比与匹配。 即将描述特定用户所需信息的提问特征(检索式)与信息存储的检索(信息)标识进行相符性比较和匹配,从中找出与提问特征一致或基本一致的信息的应用过程。,.,31,1.4 信息检索语言,1、信息检索语言概述(1)信息检索语言的概念 信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的概念标识体系(标识符)。 检索语言是标引人员与检索人员之间进行交流的媒

17、介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言,用来联系文献信息与用户需求的“人工语言”。,.,32,(2)信息检索语言的作用 信息检索语言的作用表现在两个层次上 (操作层面和原理层面),.,33,2.信息检索语言的种类 分类语言 等级体系分类语言 分面组配分类语言 标题词语言 元词语言 主题语言 叙词语言 关键词语言 引文语言 分类主题一体化语言 代码语言 不同的检索语言可以构成不同的标识和索引系统,提供用户不同的检索点和检索途径。,信息检索语言,.,34,3分类检索语言分类检索语言是用分类号来表达各种文献的概念,并将各种概念按照学科、专业性质进行分类和系统排列。分

18、类表是分类法的具体体现,它与分类规则一起构成分类语言,是进行分类工作的依据和规范。信息资源分类法按照其编制方式,通常可以分为: (1)等级列举式分类法(基于概念的划分与概括)。能直接体现知识分类的等级制概念标识系统。 它的特点是按学科、专业集中文献,用等级来表示类目的从属性,用列举法来表示类目的完整性,在类目表上尽量地把类目列举出来。这种分类法有利于藏书组织,便于人们从学科分类角度进行文献检索。,.,35,O 数理科学和化学 O4 物理学 F 经济 O41 理论物理学 F2 经济管理 O42 声学 F20 国民经济管理 O43 光学 F21 经济计算与规划 O44 电磁学、电动力学 F23 会

19、计 O441 电磁学 F24 劳动经济 O442 电学 F27 企业经济 G 文化、科学、教育、体育 F270 企业经济理论与方法 G2 信息与知识传播 F271 企业体制 G25 图书馆事业、信息事业 F272 企业管理 G250 图书馆学、情报学 F273 企业生产管理 G251 图书馆管理、信息工作管理 F274 企业营销管理与市场 G252 信息资源服务 F275 财务管理与资本运营 G253 信息资源建设 G254 信息组织 G254.9 信息检索 G254.928 网络搜索引擎,.,36,C 社会科学总论 C93 管理学 C931 管理技术与方法 .1 管理数学 .2 管理的方式方

20、法 .3 管理工作管理人员 .4 办公室工作 .5 文书工作 .6 管理信息系统 .9管理工作自动化 C932 咨询学 C933 领导学,.,37,(2)分面组配式分类法(基于概念的分析与综合)。 是以简单概念组成复合类目的方式。其基本思想是:任何复合主题,不管它多么复杂,都可以分解为相应的基本概念;同时,它们也可以通过相应基本概念的组合加以表达。 (3) 列举组配式分类法 是上述良种编制方法的结合,是一种在详尽类表的基础上,广泛采用各种组配方法的分类法.,.,38,分类法体系结构信息资源分类法主要是通过类目体系的系统排列进行词汇控制的。 对于分类法的结构组成目前大致有两种划分方法:一种按照分

21、类法组成部分的功能,将分类法的组成分为类目体系、标记符号、说明与注释、类目索引四部分; 另一种按照分类法构成的形式,将其分为编制说明、主表、副表、类目索引。,.,39,分类法-基本部类。是分类法对知识范畴所作的最概括、最本质的划分。,.,40,中国图书馆分类法(第五版) 中图法类目体系是一个层层展开的分类系统。其基本大类以科学分类为基础,结合文献分类的需要,在五大部类的基础上展开,序列如下:马克思主义、列宁主义、毛泽东思想 A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 哲学B 哲学、宗教 社会科学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言

22、、文字 I 文学 J 艺术 K 历史、地理,.,41,自然科学 N 自然科学总论 O数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业,.,42,TK 能源与动力工程 TL 原子能 技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程 U 交通运输 V航空、航天 X 环境科学、安全科学综合性图书Z综合性图书,.,43,

23、雅虎(Yahoo!)雅虎基本上是一个分类字顺体系,在按照主题内容关系层层展开的同时,并没有根据类目之间的关系排列同位类,因此国外一般又将其称为主题指南。 Yahoo!的类目体系是一个按等级和字顺逐级展开的浏览系统。按照网络资源的特点和用户使用需要,Yahoo!设置14个基本大类,按照其英文字顺排列如下: 艺术与人文 新闻与媒体 商业与经济 休闲与运动 计算机与网络 参考资料 教育 地区 娱乐 科学 政府 社会科学 健康与医药 社会文化,.,44,4主题检索语言主题是指信息资源论述的主题对象,包括事物、问题、现象等。经过选择,用来表达信息资源主题的语词,称为主题词。主题法是指就直接以表达主题内容

24、的语词作检索标识,以字顺为主要检索途径,并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。特征: 1)直接以语词作为检索标识。 2)以字顺作为主要检索途径。 3)以特定的事物、问题、现象,即主题为中心集中信息源。 4)通过详尽的参照系统等方式揭示主题词之间关系。 通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。同时,一些系统还备有词族索引、范畴索引、轮排索引等多种辅助索引 。,.,45,主题法的类型按照主题法的选词方式,可以分为标题法、元词法、叙词法、关键词法;按照语词受控情况,可以分为受控主题法与非控主题法。 1)标题法 标题法是一种以标题词作为主题标识

25、,以词表预先确定的组配方式标引和检索的主题法,属于列举式的主题法。 例如:”信息存储与检索” 2)元词法 是以元词作为主题标识,通过字面组配的方式表达文献主题的主题法。 所谓元词,是指用来标引文献主题的、最基本的、字面上不能再分的语词。如“物理”,.,46,3)叙词法 所谓叙词法,是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。叙词,国内亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。 4)关键词法 就是将文献原来所用的,能描述主题概念的那些具有实质意义的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以

26、提供检索途径的方法。,.,47,1) 受控主题法指依据特定词表或类表揭示文献信息的整序方法。各种标题法、叙词法以及后期的元词法等均属于这一类型。它们的共同特点是,标引和检索均依据预先确定的检索词表对主题概念进行转换,从而可以通过词表对文献内容的规范表达和相互关系的揭示来改进检索效果。 2) 自然语言检索系统是直接使用文献或用户检索使用的自然语言语词进行的整序方法。这种方式包括关键词法、自然语言文本检索等,早期的元词法也属于这一类型。这类整序法的特点是不需要使用受控词表,但一般仍需遵守一定的文献标引规则或检索措施,以改进使用效果。,.,48,汉语主题词表 1)主表 汉表的主表是由众多叙词及与其相

27、关的语义关系项构成的字顺表,根据大型工具书的特点,按社会科学和自然科学两大范畴分别组织。 主表叙词款目结构,通常由款目叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项组成。如下例为族首词的款目格式: Qingbao jiansuo 族首词符号 情报检索* 07k Information retrieval D 文献检索 F 专题检索 追溯检索,.,49,2)附表 汉表的附表收入“世界各国政区名称”、“自然地理区划名称”、“组织机构”和“人物”等四个范畴中常用的专有名词。 3)辅助索引 汉表的辅助索引是通过改变组织方式,提供从不同途径着手查找叙词的工具,包括范畴索引、词族索引、轮排索引和英

28、汉对照索引四种。,.,50,主题法与分类法的异同 相同点 1)都用来揭示信息内容 2)都需要对信息进行主题分析 3)一般都使用预先编制的专门语言工具 4)赋予的主题标识都是对信息主题的表达不同点 1)主题概念表达的形式及效果不同 2)标识所揭示信息的角度不同 3)检索方法有所不同 4)作用范围有所不同,.,51,中国分类主题词表 中国分类主题词表是在中图法类目与汉表主题词对应的基础上,将分类法与主题法、先组与后组融为一体的一种文献标引和检索的工具。 全表共分2卷6册,收录分类法类目5万余个,主题词及主题词串21万余条,包括分类号一主题词对应表和主题词一分类号对应表两部分。 分类号一主题词对应表

29、是以中图法的类目体系为基础,把汉表主题词及主题词组配形式,对应于各级类目之下编制而成,从分类角度进行分类主题一体化标引的工具。,.,52,分类号一主题词对应表款目构成要素包括:分类号、类名、类目注释及对应的主题词、主题词串、对应参见和注释。对应款目的编排格式分为左右两栏,中间用竖线隔开。,.,53,主题词一分类号对应表是以主题词的字顺排列为基础,把分类号对应于各个主题词或主题词串之下编制而成的,是从主题词角度查找主题词和分类号,进行分类主题一体化标引的工具。主题词及对应分类号款目的结构如下: 机场 TU248.6;V35;V351 D航空港 D航空站 垂直起落机场 国际机场 军用机场 水上机场

30、 直升机机场 C 导航台 C 飞机库 C 机场建筑物,.,54,中国分类主题词表的特点是: 1)通过将中图法类目与汉表主题词的对应,建立起了一个分类语言与主题语言结合的一体化工具. 2)其分类法部分是将中图法、资料法融为一体的类目体系,可以同时供图书资料单位标引使用; 3)其主题法部分,除收入原有的叙词外,还包括近年来中文图书标引中新增的叙词和对应表编制时的新增词,以及分类号一主题词对应表中出现的主题词组配形式,是汉表叙词比较完整的版本。 4)改进了字顺表的款目结构,改进了排序方法,采用音序和字形结合排序,符合人们查找习惯,使得编排紧凑,便于查找,易于使用。,.,55,中国分类主题词表的不足主

31、要是: 1)本表中的类目和对应的主题词之间只是一种先组语言和后组语言之间的兼容互换关系,很难进行两者之间精确的转换,不少类目下对应主题词的数量往往不够,不能详尽包括标引较深层次的类目含义或隐含主题。 2)类目的处理由人工按照概念关系的理解转换而成,存在随意性和不一致性,有时过多,有时过少,有时存在着错误,影响对应的质量。,.,56,5其它检索语言(1)自然语言1)关键词语言 用计算机自动抽取文献题名、文摘或正文中有检索意义的语词,通过轮排生成各种类型的关键词索引, 同时也建立数据库供计算机检索使用, 是目前主要应用形式。关键词法的特点是:关键词法基本属自然语言,在标引阶段只进行少量控制或不控制

32、。通常使用禁用词表(Stop-list),来淘汰题名中的非关键词。一般不建立关键词表,即使建立关键词表,也比标题表、叙词表简单得多,通常不设置任何参照或词间关系,因而篇幅较小,处理方便。,.,57,2)文本检索 又称为自然语言检索,这是一种不进行标引、直接利用计算机的功能,通过自然语言中的语词或语词组配,对文本形式的信息资源进行匹配检索的方式。匹配的对象包括题名、文摘、正文等。 3)自由标引 通常指由标引人员直接选择自然语言中语词进行标引的形式。这种标引可以克服受控标引速度慢、周期长,比关键词标引准确度高,可以用于文献资源增长量大、需求迫切的领域。自由标引不依据词表,但一般应通过建立严格的标引

33、规则 4)自动标引 亦称机标,指直接使用计算机对信息资源进行标引,通常包括自动主题标引(自动抽词标引、自动赋词标引)和自动分类标引(自动归类、自动聚类、类号的自动转换)两种类型。,.,58,(2) 引文语言引文是指一篇学术论文中所引用的参考文献,通常是以脚注或尾注的形式出现。利用文献之间引用与被引用的关系,作为文献内容主题标识,并以此标引和检索文献的语言就是引文语言。引文语言的基本原理:1)以文献之间的引用关系,作为文献主题内容之间的联系,换言之,若两篇文献发生引用关系,那么它们在主题上就是相关的;2)以引用文献或被引用文献,通常按著者姓名字顺排检,作为标引和检索文献的标识。,.,59,引文语

34、言的检索特性:1)以引用文献或被引用文献进行标引和检索,摆脱了人工符号标识或词语标识的限制,使用容易,一致性好;2)以引用关系形成的“文献网”作为“主题网”,检索明确而有效,且能够查找到较为重要的文献 ;3)引文语言系统的标引深度很深,一般的手工标引深度为平均每篇文献:1-5个词,而一篇文献的引文数量常常达到十几篇,即可提供十几个检索点;4)引用关系本身非常稳定,但作为主题关系的可靠性不够稳定 ;5)引用关系要受到文献可得性的影响;6)引文的著录有时不够统一规范;7)引文语言无需编制词表,可利用计算机自动进行文献标引和处理,检索系统的成本低、速度快,提供的信息回溯性和及时性都令人满意。,.,6

35、0,1.6 信息检索的研究内容与发展趋势,1信息检索的主要研究内容(1)信息检索理论与形式模型(2)信息存取系统(体系结构、DB、DM等)(3)内容表示与文本挖掘(4)信息抽取、自动分类、自动文摘、信息过滤等(5)数字图书馆(6)跨语言检索、基于内容的多媒体检索(7)信息检索策略与评价方式,.,61,2信息检索的发展趋势多样化发展趋势检索资源形态的多样化,基于内容的检索技术和语音识别技术是研究热点与发展趋势之一;多国化和多语种化,研究多语种信息检索是另一个发展趋势;(跨语言检索)检索工具和检索服务的多样化,集多种检索功能于一体的检索系统也是一个热点;个性化发展趋势注重检索内容的特色化,如何根据

36、个人需求的不同实现个性化是未来信息检索发展的趋势之一;注重信息检索个性化的服务,体现用户喜好;,.,62,可视化发展趋势 用图象取代文字;智能化发展趋势-是信息检索发展的重要方向 基于自然语言的检索;智能搜索引擎、智能代理、智能浏览器等;知识化发展趋势专门化发展趋势地域化发展趋势简单化发展趋势,.,63,第二章 信息检索途径与检索策略,本章要点:掌握信息检索的步骤以及检索策略 熟悉信息检索的方法和检索途径,.,64,2.1信息检索的方法、途径及步骤,1. 信息检索的一般方法(1) 追溯法(又称回溯法或引文法),是利用文献末尾所附的参考文献或引用文献,由近及远(由现在到以前)地进行追踪查找。所查

37、到的信息主题内容较为切合,但易出现漏检和误检。 追溯法是利用引文语言进行检索的两种方法之一。还有另一种引文检索方法,如利用科学引文索引(SCI),从被引用文献入手,查到引用它的文献,再把所查出的文献作为被引用文献,查找出引用它们的文献,如此反复操作,即可获得大量的有关文献信息。要注意,这样查找所获得的文献是越来越新的。,.,65,(2) 直接查找法(又称工具法) 常用法的具体操作,可分为顺查、倒查、抽查三种方式。 (1) 顺查方式 (查全率和查准率较高) (2) 倒查方式 (查准率较高,查全率较低) (3) 抽查方式 (3) 循环查找法(又称分段法) 是综合常用法和追溯法的检索方法,即在查找文

38、献信息时,既利用成套的检索工具书查找,又利用原始文献后所附的参考引用文献进行回溯,分阶段按周期地交替使用,也称为分段法。 循环法常常以五年为周期,轮流交替使用常用法和追溯法。,.,66,2信息检索的途径 检索途径主要是指信息检索的角度或渠道,通常分为内容特征检索途径和外表特征检索途径两类。(1)内容特征检索途径 内容特征检索途径,是从文献所包含的信息内容特征来检索信息的途径。按照所采用的检索语言不同,又分为两种: 1)主题途径 按文献的信息内容,利用主题检索语言检索文献信息的途径。主题检索的实施,需要使用各种主题词索引,如主题索引、关键词索引等。 2)分类途径 按文献的信息内容,利用分类检索语

39、言,检索文献信息的途径。分类检索的实施,需要使用各种分类目录或索引,如分类目次、分类索引等。,.,67,(2)外表特征检索途径 外表特征检索途径,是利用文献的外表特征来检索文献信息的途径。按照所采用的外表特征不同,可分为多种具体的检索途径。 1)著者途径, 按照已知的文献著者姓名或名称,检索文献信息的途径。 2)刊名途径, 按照已知的期刊名称,检索文献信息的途径。 3)序号途径, 有些文献具有独特的编序号码或标识号码,如专利、报告、标准等文献类型。 4)引文途径 5)其他途径, 可按照专业领域的需要以及文献的出版类型、日期、地址、国别、语种等特征,进行文献信息的检索。,.,68,.,69,.,

40、70,3. 信息检索的步骤 不满意 满意,.,71,2.2 信息检索的策略与效果评价,1. 信息检索的策略(1)信息检索策略的含义 信息检索策略就是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导,如选择哪种检索系统和数据库、采用什么检索途径、如何编写检索式等,其目的是为了达到一定的查全率和查准率。 检索策略是影响检索效果的最重要的因素。(2)信息检索策略的制定方法与步骤1)确定检索系统 根据信息需求,选择检索系统 例如,检索科研方面的信息,一般要利用光盘检索系统和 联机检索系统。 根据对检索信息熟悉的程度,选择检索系统(选取准确 的检索词) 根据经济条件,选择检索系统,.,

41、72,2)选择检索数据库(收集信息的专业范围、时间、文献类型等) 选择数据库所采用的方法一般有两种:一种是查阅有关检索系统的数据库使用指南或手册一类的工具书。在这些工具书中给出了数据库的专业范围、时间范围、记录样例、可检字段、输出格式等内容。另一种是根据联机检索系统所提供的数据库总索引进行查阅。 3)明确检索途径 在确定检索途径时既要根据检索需求确定检索途径,又要由数据库所提供的检索项来确定检索途径。 4)制定检索方案 检索方案就是用已经选择好的检索词,利用各种算符组配成能反映所需信息概念的检索式,以及限定检索字段的方案。,.,73,(3)信息检索方案实施 1)用户上机检索(光盘检索系统和In

42、ternet网络检索) 2)委托信息服务机构 选择信息服务机构 如何向检索人员介绍课题 介绍主要有两个方面: 1) 是要阐明检索的目的及最终要达到的效果,以便于检索人员确定所使用的检索系统; 2) 是介绍检索课题的内涵,尤其是在检索人员对所要检索的课题所涉及的学科范围不熟悉的时候,更要详细解释课题所涉及的概念。,.,74,(4)索取原始文献 目前索取原文的方法如下: l)查找馆藏单位,可以利用各种期刊联合目录和各馆馆藏目录查找原文收藏单位。现在许多单位已将馆藏目录放到了Internet上,可以较方便地查找原文收藏单位; 2)与收藏单位联系索取原文。一般收藏单位需收到服务费后才寄原文; 3)直接

43、向作者索取原文; 4)联机订购,利用Internet进行索取。,.,75,2. 信息检索的效果评价(1)信息检索效果的评价指标 信息检索效果是指信息检索的准确性和全面性,分别以查准率和查全率两个定量指标来表示。 1)查准率和查全率 查准率(precision ratio),简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率(miss ratio,简称为M)。 查全率(recall ratio,简称为 R),是指检出的相关文献数占系统中相关文献总数的百分比。查全率反映检索全面性,其补数就是漏检率(omission ratio,简称为O)。,.,76,在

44、信息检索系统中,每进行一次检索,就把系统中所有的文献分为四个部分 相关文献 非相关文献 检出文献 a合理的命中 b 误查 c漏查 d合理的排除,未检出文献,.,77,查全率和查准率及其补数漏查率和误查率的计算公式分别为:查全率(recall ratio): R= (%)查准率(precision ratio): P= (%)漏查率(omission ratio): O= (%)误查率(miss ratio): M= (%) 查准率的计算没有问题,而查全率的计算存在明显的问题,那就是如何知道漏检文献的数量。,.,78,在实际的检索评价中,对于漏检文献数量,一般采用近似的估计值。 获得漏检文献数量

45、估计值的方法有两种: 其一,利用其他的同类检索系统,进行相同的检索,然后通过对命中结果的分析和比较,推断哪些文献被漏检; 其二,利用原有的检索系统,放大检索范围查找,然后对命中结果进行分析,看是否有原先未被检出的相关文献,从而得到漏检文献的近似值。查全率的计算方法:联营法专家法,.,79,2)查准率与查全率之间的关系通过大量的检索,就可以得到检索系统的性能曲线(见图1 和图2),从图中可见检索系统1的性能水平要高于检索系统2。,.,80,大量的检索评价试验表明,在一个信息检索系统中,当查准率和查全率达到一定程度以后,两者就会呈现出非线性的反变关系。查准率和查全率是信息检索效率评价的量化指标,在

46、检索系统的评价中具有举足轻重的作用。但也有其局限性,主要表现在:1)它能够评价一次检索或一个系统的性能水平,却不能指出是什么原因产生了这样的检索效率。 2)它以相关性为基础,具有相关性本身所固有的局限性。比如:不考虑文献的重要性程度等。需要注意的是,信息检索的效果与信息检索系统的性能之间,存在着密切的关联,但是也有着显著的区别。对于每一次检索而言,其检索效率的高低,不仅要依赖于检索系统的性能水平,而且还要取决于本次检索的具体措施和手段(选词是否合理、措施和手段是否得当)。,.,81,第三章 计算机信息检索概述,本章要点: 熟悉计算机信息检索的系统结构掌握计算机信息检索技术以及检索策略,.,82

47、,3.1 计算机信息检索的概念与类型,1. 计算机信息检索的概念是指利用计算机进行信息存贮和检索的过程,既人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程。计算机信息检索基本原理图,.,83,计算机信息检索的类型 根据检索系统的工作方式,可以分成:脱机检索联机检索光盘检索网络检索(1994年出现第一个全文搜索引擎) 根据信息的服务方式,可以分成:定题检索( 用户能及时得到最新的文献信息)回溯检索 (让用户一次检索一段时期内与某一课题有关的信息),.,84,3.2 计算机信息检索系统的构成,

48、1逻辑构成 主要指系统所包括的功能模块或子系统及其相互关系。,.,85,2.物理构成 硬件及通讯设施 1)主机 是检索系统的核心,它是完成信息检索的主要设备。 2)检索终端 3)通信网络 4)数据输出设备软件系统 1)系统管理软件 信息检索软件通常是基于各种不同操作系统的基础上开发的,如万方数据库系统就有 DOS和 Windows二种版本。 2)检索系统应用软件数据库 数据库是计算机信息检索系统的信息源。,.,86,3.3 数据库的类型与结构,数据库(Database)是储存在磁带或磁盘上的文献或数据记录的集合,通常由一组相关的文档组成。数据库是计算机信息检索系统的核心组成部分,也是计算机信息

49、检索操作的直接对象,不同的数据库,其储存文献信息的内容、形式各有差异,检索途径和方法也就有所不同。1.数据库的类型 数据库的种类繁多,从检索角度出发,以数据库所含信息记录的内容结构作为基本的分类标准,数据库可以分为两大类:文献参考数据库和源数据库。,.,87,(1)文献参考数据库(reference database) 文献参考数据库又可以细分为书目数据库和指示(咨询)数据库。它们都是二次文献数据库,其中包括各种机读版的文摘、索引、目录等。在书目数据库中,用户检索出来的是一些文献的题目、文摘、作者和文献的出处等项目,其价值主要在于向信息用户指引所需的一次文献。例如:科学文摘(INSPEC)、医

50、学文摘等英文数据库,中文的有中文科技期刊数据库、中国化学化工文献数据库等。指示数据库是存储关于某些机构、人物、出版、计划、活动、程序等对象的简要描述,其价值也在于指引用户找到合适的信息源,它本身并不直接提供用户所需要的信息,而是起着一种指引、介绍、牵线、搭桥的作用。例如:各种机构名录数据库(公司名录、人名录、机构名录等)、产品数据库(产品目录)、基金数据库、软件数据库等。,.,88,(2)源数据库(source database) 源数据库也称非文献数据库。它的特点在于其本身含有一次信息,既可以直接提供用户所需要的原始资料或具体数据 。 为了与文献数据库有所区别,在英文中常用“data ban

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号