信息检索与分析讲稿(1).docx

上传人:小飞机 文档编号:1851901 上传时间:2022-12-21 格式:DOCX 页数:18 大小:115.19KB
返回 下载 相关 举报
信息检索与分析讲稿(1).docx_第1页
第1页 / 共18页
信息检索与分析讲稿(1).docx_第2页
第2页 / 共18页
信息检索与分析讲稿(1).docx_第3页
第3页 / 共18页
信息检索与分析讲稿(1).docx_第4页
第4页 / 共18页
信息检索与分析讲稿(1).docx_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《信息检索与分析讲稿(1).docx》由会员分享,可在线阅读,更多相关《信息检索与分析讲稿(1).docx(18页珍藏版)》请在三一办公上搜索。

1、信息检索与分析讲稿(1)课程目录第一章 信息检索与分析理论基础 (4次)第二章 文献信息源及其数字化发展(4次)第三章 网络资源与搜索引擎(4次,其中2次上机;内容包括网络免费资源的获取和搜索引擎知识的介绍和运用)第四章 中文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第五章 外文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第六章 基于图书情报平台的信息检索(4次,其中2次上机;)第七章 文献信息的分析与利用(2次)第八章 个人文献信息管理软件介绍与利用(4次;其中2次上机)第九章 知识汇总与考试准备(2次)考试方式:统一考试(笔试、闭卷)作业网上学习方式:

2、下载课件和讲义的地址推荐网站:1、哈尔滨工业大学信息检索研究室2、中国科学院现代信息检索(Modern Information Retrieval) 3、吉林大学信息检索与利用网络课程4、复旦大学信息检索与利用http:/202.120.76.227/jiaoyanshi/dzjc/index.htm5、中文Web信息检索论坛(北京大学)http:/www.cwirf.org/6、大连理工大学信息检索研究室7、云南大学精品课程信息检索网站8、南京大学精品课程信息检索网站9、华东理工大学精品课程文献检索经典网站:1、中国国家图书馆2、中国科学院国家科学图书馆3、北京大学图书馆网站4、上海图书馆5

3、、浙江大学图书馆6、中文维基百科http:/zh.wikipedia.org/7、温州大学图书馆网站:参考文献:1.叶继元.信息检索导论.北京:电子工业出版社,2003年2.黄如花.网络信息的检索与利用. 武昌:武汉大学出版社,2002年3.叶鹰.信息检索:理论与方法.北京:高等教育出版社,2004年4.焦玉英等.信息检索. 武汉:武汉大学出版社,2002年5.马费成.信息管理学基础. 武汉:武汉大学出版社,2002年6.沈固朝.信息检索(多媒体)教程. 北京:高等教育出版社,2002年7.王知津.科技信息检索.天津:南开大学出版社,2002年8.信息检索与利用,鄢春根主编,人民邮电出版社 ,

4、2008年9.信息检索与利用,洪全主编,清华大学出版社,出版时间: 2007年10.信息资源检索与利用(第2版),林豪慧,孙丽芳主编, 电子工业出版社, 2007年导言 信息检索与分析解析一、对本课程的理解和解释:信息检索与分析1、信息检索课程的出现信息、能源和材料,并称为现代社会的三大支柱。20世纪以来,人类创生的信息量高速增长,浩如烟海。信息检索,就是从浩如烟海的信息海洋中查找出所需信息的过程。为实现这个过程是需要适当理论和方法的,信息检索课应运而生。2、信息检索(Information Retrieval)作为一门学科,信息检索历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和

5、传播主要以纸质为载体,信息检索活动也是围绕和文献的获取和控制展开的,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。现代意义的信息检索作为一个独立的领域,是1946年计算机出现后在国际上逐步得以确立的。3、信息检索教育教育部(当时是国家教委)1984年发出的“高教一字004号”文件要求在高等教育院校开设“文献检索与利用”课程。20余年来,文献检索教育尤其是手工检索教育方面已取得了很大的成绩。然而随着计算机、多媒体等信息技术的发展,以多种载体多种记录方式的非纸信息急剧的增加,靠“手翻、眼看、大脑判断”的手工检索模式已经难以适应信息社会的发展要求,计算机信

6、息检索应运而生;以Internet为代表的全球性计算机网络迅速发展和普及,更进一步的推动了信息检索的发展,使得网络化信息检索逐渐成为信息检索的主流。二、和信息检索相关的几个术语的解释和理解1、信息定义物质存在的一种方式,一般指数据、消息中所包含的意义。可以使消息中所描述的事件的不定性减少。(*注:中国情报与文献工作词汇基本术语(GB48944-85)有关信息的定义。据不完全统计,信息的定义有100多种,至今仍无法统一,为各界普遍认同。这种情况主要是由于信息本身的因素,以及认识层次上的差别造成的。不同的学科,从不同的角度对信息这个概念有不同的解释。经济学、心理学、新闻学和哲学的定义不同于图书情报

7、学对信息的定义。控制论专家N维纳(N. Norbert Wiener)从信息自身具有的内容属性给信息下定义被许多研究所引用。信息论的创始人申农(C.E.Shannon)1948年在通信的数学原理一文中将信息定义为“两次不定性之差”。国内在这方面也有许多争论。信息的定义之所以呈现多样化,主要原因有三:第一,信息本身的复杂性,它是一个多元化,多层次、多功能的综合物;第二,信息科学是一门新兴学科,它的许多分支学科仍在随着社会、经济和科学技术的发展而发展,其内涵和外延不很确切;第三,人们出于不同的研究和使用目的,从不同的角度或层次出发,对信息概念就会作出不同的解释。因此,许多学者建议将信息的要领分为不

8、同的层次来解释。在诸多层次中,最重要的是两个层次:一是没有任何约束条件的本体论层次,即信息是一种客观存在的现象,是事物的运动状态及其变化方式的表征,不受主体意志的影响。不停运动着的事物不断产生本体论意义上的信息;二是受主体约束的认识论层次,即信息就是主体所感知或所表述的事物运动状态及其变化方式,是反映出来的客观事物的属性。例子:信息的要领是十分广泛的,世间万物的运动,人间万象的更迭,都离不开信息的作用。据说上古时期,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,意味着带回了洪水已退的信息。那么李太白的诗“日照香炉生紫烟,遥看瀑布挂前川,飞直下三千尺,疑是银河落花流水九天。”给我们带来的

9、显然就是庐山瀑布的信息;苏东坡的词“大江东去,浪淘尽,千古风流人物。”给我们传递的是赤壁怀古的信息。从自然界角度看,表征物质的属性:地球昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状态;山的高度是一种信息,它反映出山的空间特性;树干的年轮是一种住处它反映了树木成长的时间特性树龄;闪电是一种信息,它反映了云层中所含能量的不知所云 性;花的香味也是一种信息,它反映了花分子结构的化学特性等等。)2、知识是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。提供某种经过思考的判断和某种实验的结果。(1)知识的分类根据国际经济合作与发展组织(OCED)出版

10、的以知识为基础的经济报告:第一类 “知事(Know-what)”,指关于事实方面的知识,也可理解为Know-when、Know-where;即在什么样的时间(Know-when)、什么样的地点或条件下(Know-where)能解决什么样的问题第二类 “知因(Know-why)”,指自然原理和规律方面的科学理论,知识的生产是在专门研究机构如实验室和大学完成的;第三类 “知道怎样做的知识(Know-how)”,指做某些事情的技艺和能力,被称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术;第四类 “谁以及是怎样创造知识的(Know-who)”侧重创造思想、方法、手段、过程以

11、及特点等的了解。还有一种分类:把知识分为显性知识(Explicit Knowledge)和隐性知识(Tacit Knowledge)。所谓显性知识是指经过人的整理和组织后,可以编码化和度量,并以文字、公式、计算机程序等形式表现出来,还可以通过正式的、系统化的方式(如出版物、计算机网络等)加以传播,便于其他人掌握的知识。典型的显性知识主要是指以专利、科学发明和特殊技术等形式存在的知识,它是有载体的、可以表达的,OECD的分类中“知事(Know-what)”和“知因(Know-why)”;隐性知识是与人结合在一起的经验性知识,很难编码化,并将其文字化或者公式化,它们本质上以人为载体,因此难以通过常

12、规的方法收集到它,也难以通过常规的信息工具进行传播。隐性知识往往是个人或组织经过长期积累而拥有的知识,通常不易用语言表达,也不可能传播给别人或传播起来非常困难。例如:技术高超的厨师或艺术家可能达到世界水平,却很难将自己的技术或技巧表达出来从而将其传播给别人或与别人共享。隐性知识对应的是OECD中的关于Know-how和Know-who的知识,其特点是不易被认识到、不易衡量其价值、不易被其他人所理解和掌握。(2)知识的来源第一类是人脑之中,以主观意识存在,只有当以一定的形式,通过一定的载体表达时,才能为其他人所感知;第二类是存在于实物之中,如古文物、样品、样机、物品等。人们可以通过研究实物而获得

13、某种知识;第三类是用文字、图形、代码、符号、声频、视频等技术手段记录在一定的载体之上,例如刻在甲骨上、印在纸张上等,这就是文献。3、文献是记录有知识的一切载体。(*注目前有关文献的较权威的定义主要有两个,一是文献情报术语国际标准(草案)(ISODIS5127)的定义,“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存贮在磁盘上。这种附着在各种载体上的记录统称为文献。” 另一个是中国的国家标准。是各种媒介和形式的信息集合,包括文字、声像印刷品、电子信息、数据库等。)文献的构成要素(1)文献信息是

14、文献的内容(2)符号系统是信息的携带者(*注:文字已不再是表达思想的唯一手段,图形、声频、视频等同样成为表达思想、传递感情的重要手段。总的说来,文献中的符号系统指图画、文字、公式、图表、编码、声像和电磁信息等。)(3)载体是符号赖以依附的“寄主”(*注:随着生产力的发展,存贮和表达人们思想的物质载体不同了,从金石、竹简、羊皮、丝帛、纸张发展到用感光介质和磁性介质。从非人工材质的泥版、岩石、石板、兽骨、木板、竹片、 兽皮、树叶、桦树皮等到各种人工材质,如无机材质(陶、砖瓦、瓷,玻璃等)、金属材质(青铜、铁、铝、金银等)、高分子材质(帛、纸、胶片、醋酸纤维等)、复合材质(磁带、光盘等)。纸质文献已

15、经多得不便于快速传输信息、高效查阅和高密度存贮了,于是其他介质的文献应运而生,这些文献主要包括:纸质文献具有价格低廉、质地柔软、易于书写、携带和收藏等其它一些载体所无法比拟的性能而成为文献家族的主干。)(4)记录方式是将文献的符号进入载体的方法和过程(*注:按记录方法分可有手工记录、机械记录、光记录、电记录、声记录和磁记录。其中最常见的是印刷。随着科技的发展,文字记录可以转变为数据记录,并用电子方法存贮到磁介质上去。此外,还有光学字符识别(Optical Character Recognition,简称OCR)技术就代表了这种崭新的技术,它通过光学方法对字符、标记表示的书面数据进行自动识别,转

16、换成机器可以处理的信息,这样就实现了纸质文献信息向电子信息的转换,而且可以通过不同接口装置向不同设备输入数据,这些设备进而与通信网络相连,实现远距离数据传送。)4、信息、知识与文献的关系(1)区别信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。”(2)联系知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物;并非所有信息都可成为知识,在信息时代,源于

17、众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。(*注:例如,人们对于卫星照片,气象云团的识读能力是不同的,所获得的信息的量和质将会有差别。)传递运用后事物运动知识新的信息信息产生人脑有序化用于实践文 献记录在载体上信息、知识与文献的关系关系示意图5、信息素质信息素质(information literacy)是一个综合性的概念,包含信息意识,信息技能,信息道德。信息社会人们必须具备的素质,也是当今素质教育一个重要方面。(1)信息意识 是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。(*注

18、:同样重要的信息,有的人善于抓住,有的人却漠然视之。这是由于各人的信息意识强弱不同。信息技能的掌握在很大程度上取决于信息意识的提高。信息意识的强烈与否对能否挖掘出有价值的信息、对文献获取能力的提高起着关键的作用。日本人在这方面做得非常好,例如:大庆油田事件。)(2)信息能力(信息技能) 寻求有关新知识的能力。 具体表现为以下6种技能:明确任务(Task Definition):了解问题的症结,确定所需信息和目的,分清任务的轻重缓急; 信息查询策略(Information Seeking Strategies):了解各种信息源,能够作出评价并确定优先查找的次序; 查找和检索(Location a

19、nd Access):确定信息藏址,从信息源中找出信息; 信息利用(Use of Information):能够读懂(或听懂、理解)查出的信息,了解信息在满足需求中的特定价值; 信息综合(Synthesis):能够组织信息,提供信息产品(论文、报告等); 信息评价(Evaluation):评价查找结果和解决问题的过程(效率)。 (3)信息道德信息道德指人们在信息活动中应遵循的道德规范。信息犯罪运用信息技术故意实施的严重危害社会并应负刑事责任的行为。三、信息检索的概念信息检索(Information Retrieval)是在1949年国际数学会议上由Galvin W. Mooers 在把信息检索

20、看作是时间性的通讯一文中首次提出的。信息检索的概念有狭义和广义之分:(1)狭义的检索是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,不是通常所指的信息本身,而是关于文献的信息或文献的线索。 (2)广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定

21、信息。四、信息检索与分析意义和作用 现代科技的发展,每时每刻都有新的发明创造,信息也出现新陈代谢加快、老化加剧、使用寿命缩短的趋势。而现代信息技术的发展,特别是计算机技术、电子技术、远程通讯技术、光盘技术、网络技术发展,使信息的载体从传统的纸质印刷型媒介向光学、磁性媒介发展,信息的传递速度越来越快,传播面也越来越广,信息检索手段越来越先进。面对爆炸式增长的信息量,信息检索是进行科学研究必不可少的手段之一 。如何从这浩如烟海的信息中找出所需信息,是信息检索的重任。充分利用信息资源,避免重复劳动 :积累、继承和借鉴前人的研究成果是科技发展的重要前提,在研究工作中,任何一个项目从选题、实验研究或设计

22、,到成果鉴定,每一步都离不开信息。只有充分掌握了有关信息,才能避免重复,少走弯路,保证研究工作在尽可能高的层次上起步,并缩短研究周期。更新自身知识积累,适应社会发展需要 :掌握信息检索的方法与技能,是形成合理知识和更新知识的重要手段,是做到无师自通、不断进取的主要途径。 信息检索基础理论一、信息检索及其发展1、信息检索信息检索(Information Retrieval)是在1949年国际数学会议上由Galvin W. Mooers首次在把信息检索看作是时间性的通讯论文中提出的。一句话概括信息检索的基本原理:信息检索是对信息集合与需求集合的匹配和选择。信息检索基本原理示意图需求集合:人们为了满

23、足某种需求时,感到需要补充知识,因此产生了对信息的需求。信息集合:是有关某一领域的文献或数据的集合体,它是一种公共知识结构,可能弥补用户的知识结构缺陷。匹配和选择:是一种机制,负责把需求集合和信息集合进行比较,然后根据一定的标准选出需求的信息。2、信息检索的发展阶段(1)手工检索(18761954)(2)脱机批处理检索(1954-1965)(3)联机检索(1965-1991)(4)网络化联机检索(1991今)3、信息检索发展的趋势(1)深度:传统西西检索向全文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类

24、、自动翻译等;(2)广度:信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。4、 信息检索模型信息检索模型:运用数学德育眼和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公事,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。(1)布尔逻辑检索模型(Boolean Model)(2)向量空间检索模型(Vector Space Model)(3)概率检索模型(Probabilistic Model)(4)模糊集合检索模型(Fuzzy-set Model)(5)扩展布尔逻辑检索模型(Extended Boolean M

25、odel)(6)相关反馈模型(Relevance Feedback Model)二、信息检索系统计算机信息检索系统主要指它包括的功能模块或子系统及其相互关系。一个完整的信息检索系统,通常由以下饿功能模块组成:信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。1、信息检索系统的组成:一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。(参阅后图)2、信息选择子系统:本功能模块的任务是:根据系统的目标和服务对象的需要,确定数据收集范围,并广泛地、定期地采集各种信息源

26、,为系统提供充足而适用的数据。3、标引子系统:标引,就是根据系统的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项(如著者、著者单位、文献出处等)填入工作单,由录入员输入到计算机中。4、建库子系统:本模块的功能是建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。5、词表管理子系统:词表管理子系统管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查

27、询操作,并从提问、对话或其它文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。6、用户接口子系统:它的全称是“系统-用户接口”,简称用户接口,是面向系统用户的人-机接口程序。它承担用户与系统之间的交流功能,是信息系统中不可缺少的模块。7、提问处理子系统:提问处理子系统专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后把运算结果输出给用户。信息检索系统示意图三、信息检索语言信息检语言是根据信息检索需要而创制的人工语言,又称信息语言、检索语言、信息存储与检索语言、文献语言、索引语言、

28、标引语言、标引符号、标识系统等。目前世界上有两千种左右的信息检索语言。如:中国图书馆分类法、汉语主题词表都属于信息检索语言。 可分为分类语言和主题语言。信息检索包括信息存储和检索两个方面,信息检索语言就是沟通这两个过程中标引人员和检索人员的工具,在信息检索过程中起到了极为重要的作用。分类语言四、信息检索的基本步骤1、分析检索课题,明确检索目的、要求和检索的范围,这是制定检索策略的基础和前提。任何一个检索都是根据已知去查找未知,通过分析检索课题,明确的已知线索越多,查获所需信息的可能性就越大。明确检索目的即要弄清楚检索是为什么而进行的,通常检索目的可分为3种:1.科研攻关型:是要解决研究或生产中

29、的一些技术难题,如某一理论、方法、设备、过程等的具体问题,这类检索要求查准率高,只要找到合适的文献即可。2.课题普查型:是要针对某一课题收集系统详尽的资料,这类检索要求查全率高,往往要检索若干年的文献,一般采用回溯检索的方式。3.研究探索型:是要密切跟踪、了解国内外某一方面的最新成果,掌握最新科研动态,这类检索要求信息的新颖、及时性强,多采用定题检索的方式。明确检索要求与范围,主要应搞清楚检索课题所涉及的学科、专业范围,检索的主题概念是什么,能用哪些名词术语表达?所需要的信息类型是文献、还是具体的数据、事实?对检出文献的类型、语种、出版时间、地域范围等有什么具体要求?是否还有其它的已知线索?如

30、文献名称、有关人名、机构名称、文献号码(专利号、标准号、报告号)等,将已知线索一一分析出来。2、制定检索策略检索策略(Information Retrieval Strategy)是指为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。具体包括:(1).确定查找范围:根据第一步对检索的时间、地域、语种以及文献类型等的分析,确定一个合理的检索范围。(2).选择检索手段:一般来说利用光盘检索系统,结合检索相应的网络数据库能满足多数检索要求;没有机检条件时则选用手工检索。如果光盘检索能满足要求,则不必选用其它检索手段。(3).选择检索系统:选择合适的检索系统主要是选择检索工具/数据库

31、,要根据检索课题的内容范围和要求来决定。要了解检索工具/数据库的学科专业范围及各种性能参数,其内容主要包括:1)检索工具/数据库的类型是否满足检索需要。2)检索工具/数据库的学科专业范围是否与检索课题的学科专业相吻合。3)检索工具/数据库收录的文献类型、文献存贮年限、更新周期是否符合检索需求。4)检索工具/数据库描述文献的质量。包括对原文的表达程度、标引深度、专指度如何等,是否按标准化著录。5)检索工具/数据库提供的检索入口是否与检索课题的已知线索相对应。6)检索费用。对于联机检索,费用包括机时费、联机(脱机)打印费、通讯费、字符费等。而且即使是同一种数据库在不同的检索系统中,检索费用、文档结

32、构,可检字段、检索功能等都不完全相同。选择检索工具/数据库时,可以利用检索工具指南、联机数据库目录、光盘数据库目录、数据库指南等。联机检索也可以利用系统提供的数据库总索引文档来选择检索文档,如DIALOG系统的411文档(免费索引文档)。(4).确定检索途径和检索词:检索途径主要根据分析课题时确定的已知条件,以及所选定的检索工具能够提供的检索途径来决定。常用的检索途径有著者、分类、主题、文献题名、文献号、代码(如分子式、产品型号)、引文等,还有文献类型、出版时间、语种等。每种途径都必须根据已知的特定信息进行查找。检索词也称检索点,与检索途径相对应,是检索途径的具体化。确定检索词就是将检索课题中

33、包含的各个要素及检索要求转换成检索工具/数据库中允许使用的检索标识。即用所选定的检索工具/数据库的词表(如主题词表、分类表)把检索提问的主题概念表达出来,形成主题词或分类号等,也可以是关键词(视检索系统而定)、人物姓名、地名、文献名等。(5).构造检索式:检索式是机检中用来表达检索提问的一种逻辑运算式,又称检索表达式或检索提问式。它由检索词和检索系统允许使用的各种运算符组合而成,是检索策略的具体体现。构造检索式就是把已经确定的检索词和分析检索课题时确定的检索要求用检索系统所支持的各种运算符联接起来,形成检索式。3、试验性检索在检索系统中将检索标识与系统中存贮的文献标识进行匹配,查出相关文献,并

34、对所获结果进行分析,看其是否符合需要。如果试查结果满意,可进行正式检索;否则,要分析原因,修改、调整检索策略。调整检索策略包括修改检索式、调整检索词,重新选择检索系统等。(1).缩检:当检出的记录数量太多时,应采用缩检技术排除不符合需要或相关性较小的记录。可以调整检索式将检索限定在篇名和叙词字段,利用文献的外表特征进行限制检索,增加用逻辑“与”、“非”运算,采用位置算符,改用确切的词组,并指定词之间的位置关系,增加新的限定词,选择更专指的检索词等。(2).扩检:当检出的记录数量太少时,则要采用扩检技术扩大检索范围。可以将检索的字段改为文摘、全文字段等,减少或取消限制条件,提高检索词的泛指度,结

35、合使用关键词和叙词,增加同义词和其它相关词并将其与原来的检索词用逻辑“或”算符组配,改用较泛指的检索词,减少逻辑“与”、“非”运算,采用截词检索等。若采用适当的扩检技术,检索结果仍不能令人满意,则考虑更换检索文档,即重新选择检索工具或数据库。在实现上述调整中,一是从学科专业知识出发,选择泛指词、专指词及相关词,并确定组配逻辑;另一是利用计算机检索系统的功能,从文献的类型、年代、文种等外表特征入手对命中文献集合进行调整与控制,直到获得较满意的检索结果。4、 正式检索试检获得成功,就可以进行正式检索。在检索中,应灵活运用各种检索方法和检索途径,充分利用各种累积索引,并对各种参照款目进行认真审核与利

36、用。为确保检索结果的完整性,还应利用其它文献信息源进行查找,如浏览最新的核心刊物来补充检索工具或数据库中尚未报道的最新文献。5、 索取原文由于书目检索结果得到的只是文献线索,检索结束后,还要根据所获得的文献线索,索取原文。在索取原文过程中,要注意以下问题:(1).识别文献类型:不同类型的文献收藏地点不同,在索取原文时首先就要区别文献的类型。不同类型的文献,其外表特征不同,据此可以区别不同类型的文献(参见1.2.3节相关部分)。(2).将缩写刊名恢复全称:检索工具中在文献来源项的著录中,常常将期刊名称按一定的缩写规则进行缩写。例如把 Journal of Mathematics Physics缩

37、写成 J. Math. Phys.,把 Journal of Institute of Metals 缩写成J.Inst.Met. 把 Journal of the Aero/Space Science 缩写成 J.A.S.S.因此索取原文时,首先要将刊名的缩写恢复成全称,然后才能根据刊名全称及年、卷、期借阅原文。缩写刊名还原方法主要有:1)利用检索工具所附的来源期刊表。大多数检索工具一般都在附录部分提供摘引刊物一览表,利用它不但可以查找刊物的全称,还可以了解文献的来源情况。2)根据刊名缩写规则或利用有关的工具书查找。国际标准化组织1972年颁发了国际期刊名称缩写规则ISO-4-1972(E)

38、对期刊名称的缩写作了统一规定。遇到不易确定的刊名缩写时,可以查找国际期刊名称缩写词表ISO-833-1974(E)或者利用中国图书进出口总公司编辑的外国报刊目录、美国Gale公司出版的Periodical Title Abbreviations、Ulrichs International Periodicals Directory等。(3).识别不同语系文字的音译:在西文检索工具中,俄文、中文、日文等的文献作者、出版物名称通常采用音译法转换成英文进行著录。故索取原文前,要将这些音译的人名、出版物名称还原成原来的语种。1)中文的出版物名称和著者姓名:现在常用汉语拼音直接著录,也有个别采用威妥玛氏

39、拼音著录的。威妥玛氏拼音法(Wade system)曾广泛流行。它与汉语拼音的差别较大,如果遇到采用威妥玛氏拼音时,要首先利用威妥玛拼音与汉语拼音音节对照表将其转换成汉语拼音,再拼出汉字。例如:Taiwan mu tsai kungyeh转换成汉语拼音为Taiwan mu cai gong ye,即台湾木材工业。2)俄文、日文出版物名称和著者姓名:分别采用俄文字母拉丁字母音译对照表和黑本式拉丁字母日文字母音译对照表进行音译著录,可以分别利用这两种表进行还原。(4).利用各种收藏目录:在索取原始文献过程中,要根据不同类型的文献查找不同的联合目录、馆藏目录、联机公共目录等,查知其原文的收藏单位,再

40、进行借阅。例如要借英文图书,可利用西文图书联合目录;要借中文期刊,可利用中文期刊馆藏目录;要借阅英文期刊,可利用西文期刊联合目录、馆藏目录等,查出所需文献的入藏单位及其索取号,便可以借阅或复制原文。(5).利用文献传递服务,获取远程文章。许多大型检索系统提供文献传递服务,可以根据检索结果,在线提出索取全文的申请,通过E-mail、传真等方式获得原文。五、检索技术1、布尔检索:利用布尔逻辑算符进行检索词语或代码的逻辑组配,是现代检索系统中最常使用的一种方法。(1)布尔逻辑算符常用的布尔逻辑算符有三种,分别是逻辑或OR,逻辑与AND,逻辑非NOT。下面分别简释它们各自的含义与用法。1)逻辑或“OR

41、”逻辑或(A OR B)检索出凡含有检索词A或者含有检索词B或者同时含有检索词A和B的信息资源。 对于提问式“A OR B”,假设检索词A的所有命中信息有M条,检索词B的所有命中信息有N条,提问式的所有命中信息有 Q条,则:当A和B有一定相关性时,QM+N;当A和B密切相关时,Q=max(M,N);当A和N不相关时,Q=M+N;因此,一般说来有M+NQmax(M,N)。这表明,逻辑或“OR”可以扩大信息的检索范围,使用它相当于增加检索词主题的同义词与近义词,能提高检索的查全率。2)逻辑与“AND”逻辑与(A AND B)检索出同时含有检索词A和检索词B的信息资源。如果A和B无关,则没有命中文献

42、,Q=0;如果A和B有一定相关性,则有MQ0,或NQ0;若A 和B密切相关,则有Q=min(M,N);因此,一般说来有min(M,N)Q0。这表明,逻辑与“AND”可以缩小信息的检索范围,提高检索的查准率。 3)逻辑非“NOT”逻辑非(A OR B)检索出含有检索词A而不含有检索词B的信息资源。如果A与B无关,则Q=M;如果A与B有一定相关性,则QM;如果A与B 密切相关,则当MN时,Q=M-N,当MN时,Q=0;因此,逻辑非“NOT”可以用来0排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。(2)注意事项1)有的检索工具以符号形象地表达布尔检

43、索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索工具的高级检索完全用表格和文字来表达布尔关系,如,Excite以“必须包括(MUST contain)”表示逻辑与,用“一定不含”(MUST NOT contain)表示逻辑非。有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多

44、。下面讨论一些常见的问题。lOR逻辑有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。例如:检索关于欧洲能源问题的文献检索逻辑式可表达为:EUROPE AND ENERGY如果用这个提问式去检索,显然会出现相关文献大量漏检。因为,在地理上,当我们提到欧洲时,它包括有英国、法国、意大利、西班牙等具体国家,然而在检索式中,“欧洲”作为一个检索词,只代表它本身,无法代表英国、法国、意大利、西班牙等。因此,如果要查全该课题的相关文献,

45、检索式应改为:(EUROPE OR BRITAIN OR FRANCE OR ITALY OR SPAIN OR )AND(ENERGY OR COAL OR PETROLEUM OR)lNOT逻辑在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为, 如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。例如,检索(COMPUTER AND SOFTWARE)NOT HARDWARE,在这个例子中,检索计算机软件方面的文献是检索的主要目的,但由于使用了NOT逻辑,将同时包含软件、硬件

46、的相关文献排除了。2、截词检索截词检索在西文检索中使用广泛。西文构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇,由于词干相同,派生出来的词在基本含义上是一致的,形态上的差别多半只具有语法上的意义。正由于这个原因,检索者如果不在提问式中列出一个词的所有派生形式,在检索时则很容易出现漏检。截词检索是防止漏检的有力工具。所谓截词(truncation),是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中文献。截词方式有多种,按截断的位置来分,有后截断、前截断、中截断三种类型,按截断的字符数量来分,可分有限截断和无限截断。有限截

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号