《计算机信息检索基本概念及理论.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基本概念及理论.ppt(65页珍藏版)》请在三一办公上搜索。
1、绪 论,学习信息检索的目的加强信息素质的培养(信息素养)信息意识:一个人对信息活动的自觉认识和反应。信息知识:了解检索的基本知识,熟悉信息源,熟悉常用数据库信息能力:掌握信息检索技巧,会利用文献源获取 信息,学会加工获得的信息、利用信息信息道德:人们在信息活动中应遵循的道德规范 和法律法规等 学会信息检索方法和技巧“授人以鱼不如授人以渔”,信息知识是基础信息意识是动力信息能力是核心信息道德是准则,2.信息检索的意义和作用通过信息检索知识的系统学习,明确潜在信息需求,才能对特定信息具有敏感的心理反应。信息检索是创新人才必备的基本技能。信息检索是科学研究的重要环节。信息检索是开发信息资源的有效途径
2、。信息检索是科学决策的前提。,与时俱进,跟踪学术最新动态;节省科研时间,提高工作效率;避免重复研究;促进科技创新。,3.信息检索发展的历史手工检索阶段西汉,刘向别录、刘歆七略梁启超西学书目表1949年,全国总书目创刊计算机检索阶段 机编文献目录阶段起源 20世纪60年代中期,美国国立图书馆利用计算机出版 了MEDLARS(Medical Literature Analysis and Retreived System)数据库国际联机检索阶段 20世纪60年代末光盘检索阶段 20世纪70年代(1983,美国人Bela Hatvany)中国自建数据库,1992年中国科技期刊篇名数据库网络信息检索阶
3、段,第一章 信息检索概论,主要内容,1.1 信息、知识、情报与文献 1.2 检索语言与信息检索 1.3 检索工具和检索系统 1.4 检索提问式的制定 1.5 信息检索策略与技巧,1.1 信息、知识、情报与文献,一、信息(information)1、信息的概念与特征 古波斯人设置“喊话站”古罗马人“悬灯”我国远古时代“结绳记事”殷商“烽火告警”,古代信息活动,梦断美人沉信息,目穿长路倚楼台。唐李中碧云集 暮春怀故人欲传春信息,不怕雪埋藏。南宋陈亮梅花“惟以侦探信息为要。”康熙34年,信息的概念 信息是客观事物运动状态、时空关系、系统特征、相互关联方式等一切反映事物客观属性的总称。从人的主观认识角
4、度看,信息是储存在人脑中的知识、思想、观念等。信息的特征 时效性、传递性、可扩散性、可扩充性、可替代性、共享性,2、信息的类型,(1)按照信息的存储载体形态分类 印刷型、缩微型、声像型、电子型(2)按照信息发表时载体形态的特点分类 图书、期刊、会议论文、学位论文、科技报告、专利文献、标准、政府出版物等,图书 图书是指内容比较成熟、资料比较系统、有完整定型的装帧形式的出版物。(ISBN)期刊 那些定期或不定期出版、汇集了多位著者论文的的连续出版物。(ISSN),会议文献 指国内外学术团体在专业会议上发表的论文与报告。特点:传播信息迅速、反应学科或专业的最新科研成果和发展水平动向。专利文献 通常指
5、专利发明人向专利局递交的说明自己发明创造的技术文件,包括专利说明书、专利公报、商标、设计公报等,也包括专利检索工具。特点:技术性、新颖性、独创性、实用性。科技报告 是科研院所对某课题进行研究的成果报告和研究记录,特点是理论性强、专业性强、研究内容详细深入,保密性强。政府出版物 是各国政府机构及其附属机构出版的文献信息,主要是一些会议记录、外交文件、统计数据,其他如学位论文、标准文献、企业出版的的产品技术说明,正式出版的图书都冠有ISBN(国际标准图书编号international standard book number)ISBN7-5013-1289-3 定长为10位数,分为四个部分,7:地
6、域号(国家,地区,语言区),例如7指中国,0和1指英语国家,2指法语区,3指德语区,4指日语区等 5013:出版社代码 1289:书序码 3:计算机校验码,关于ISBN,根据国际标准ISO3297制定的连续出版物国际标准编码,连续出版物国际性的唯一代码标识。由8位数字组成。8位数字分为前后两段各4位,中间用连接号相连,格式如下:ISSN XXXX-XXXX 前7位数字为顺序号,最后一位是校验位。,关于ISSN,ISSN由设在法国巴黎的国际ISDS中心管理。1975年起建立世界性的连续出版物标准书目数据库,目前已有近200个国家和地区出版的65万种期刊(包括已停刊的)登记入库,成为国际上最权威的
7、期刊书目数据网络系统。我国于1985年建立了ISSN中国分中心(设在北京图书馆),负责中国期刊ISSN号的分配与管理,目前已有近5000种中文期刊分配了ISSN号并进入了国际ISSN数据系统。ISSN通常都印在期刊的封面或版权页上。,(3)按照信息加工程度分类零次信息(Non-printed Sources)灰色信息,非公开出版物的总称。如语音交流或书信、情书等。一次信息(Primary Sources)专著、期刊论文、科技报告、会议论文、专利说明书、学位论文。二次信息(Secondary Sources)印刷型的书目、索引、文摘或电子型的 文摘索引类数据库及全文数据库的检索软件三次信息(Te
8、rtiary Sources)综述、述评、进展报告、学科年度总结等,二、知识 知识是人类对客观世界的认识,是实践的总结。三、情报 一是指“以侦察手段或其它方法获得的有关敌人的军事、政治、经济等各方面的情况,以及对这些情况进行分析研究的成果,是军事行动的重要依据之一”;二是“泛指一切最新的情况报导”。,情报是对人的决策提供支持或是能够影响人的知识结构的信息和知识的总称,是被激活的知识和有决策价值的信息。,四、文献(literature)文献是记录有知识和信息的一切载体。科技文献:是记录下科学技术信息或知识的载体。文献的基本要素知识信息内容:文献的核心与灵魂。信息符号:揭示和表达知识信息的表示 符
9、号,如文字、图形、数字、声频视频等。载体材料:是记录知识信息符号的物质 材料,如龟甲兽骨、纸张、胶片胶带、光盘磁盘等。,五、信息、知识、情报、文献的关系,信息是情报和知识的原材料。知识是信息的深化和系统化,二者既密切相关又有所区别。情报是信息和知识的最终产品。文献是信息、知识的记录,是可以检 索、传播、使用的信息和知识的载体。,一、检索语言1、检索语言的概念 检索语言也称标识语言,标识系统。检索语言是信息存储和信息检索过程顺利进行的语言保障,它沟 通文献存储和检索两个过程,沟通标引人员和 检索人员双方的思路,是编制检索工具的依据,是信息存储及检索系统用以表达文献主题概念 的人工语言。,1.2
10、检索语言与信息检索,2、检索语言的特征 检索语言是连接情报用户、情报人员及信息资源的非常重要的一环,因此具有鲜明的特征:(1)必须具有必要的语义和语法规则;(2)必须具有表达概念的唯一性;(3)必须具有将检索标识和提问特征进行 比较和识别的方便性。,3、检索语言的分类(1)按照描述文献的特征,可分为描述文献外表特征的检索语言和描述文献内容特征的检索语言。,(2)按照标识的性质与原理划分,可分为分类语言、主题语言、代码语言和引文语言。分类语言 即把表达文献信息内容和检索课题的大量概念按照所属学科进行分类和系统排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统
11、中的位置,甚至 还表示概念与概念之间关系的检索语言。,国内:中国图书馆分类法国外:杜威十进制分类法 国际十进制分类法,中国图书馆分类法简称中图法,它是以学科内容性质为对象,按知识门类的逻辑次序从一般到具体层划分所形成的一种分类体系。1975年科学技术文献出版社出版第一版,到1999年中图法已进行四次修订。中图法由字母和数字组成分类号,把所有文献分为5大部分,22大类:1、马克思主义、列宁主义、毛泽东思想:A2、哲学 B3、社会科学 CK4、自然科学 NX5、综合类图书 Z,中国图书馆分类法22大类,主题语言是一种选自自然(规范化)的直接性的检索语言,包括两个内容:一是指表达文献内容特征的、经过
12、规范化了的名词术语(包括词组和短语);二是指把这些名词术语按字顺排列成主体记号表或标题词表,以此作为规范化词标引和检索文献的工具。,主题语言,根据选词原则、组配方式、规范方法等,主题语言可分为标题词语言、关键词语言、单元词语言和叙词语言。,关键词语言 以关键词作为信息标识和检索依据的主题语言。关键词没有固定的词表,因为对于同一个事物的概念,不同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有经过规范化的自然语言词汇。单元词语言 以单元词作为文献标识和检索依据的语言,单元词一般都是从文献中抽选出来的,从字面上不可再分割的最基本的概念单元词汇。,标题词语言 以标题词作为信息标识和检索依据的
13、主题语言。标 题词是来自于自然语言中比较定型事物的名称,经过 规范化的处理后,能够表达主题内容的词、词组或短语。叙词语言 以规范化科学名词为基础的一种主题法检索语言,既适用于手工检索,又适用于计算机检索。叙词就是 指从自然语言中优选出来的、经过规范化的名词术语。,代码语言 代码语言一般只是就事物的某一方面的特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行标注法代码系统。,引文语言 引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。这种方法提供了从被引论文来检索引用它的全部论文的途径,
14、从而顺着一种科学思想的发展过程线索找到有关信息。可以讲引文语言看作检索语言的一种特殊类型。,二、信息检索 1、概念 狭义信息的获取过程,相当于人们所说的信息查检等,根据用户的特定要求查找所需信息的过程。广义包括信息存储和信息获取两个过程。信息存储指 通过对大量无序信息的选择和收集、注录和标引,等处理,建成各种信息检索工具或信息检索系统,使之成为有序化信息集合的过程;信息获取就是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。,2、信息检索原理,3、信息检索的技术手段,手工检索manual retrieval开始于19世纪末。1876年召开的美国图书馆协会第一届大会上提出了正规的参
15、考咨询工作概念。手工检索是通过人工自己动手去查找,去对比检索标识和书本式检索工具(各种书本式目录、索引、文摘等)中的存贮标识的相符性,即通过“人书对话”来完成检索过程。文献的查准率较高计算机检索computer-based retrieval源于1954年美国海军兵器中心图书馆利用IBM701机 开发计算机检索系统计算机检索是通过计算机来模拟人的手工检索过程,由计算机来处理检索者的检索提问,将输入检索系 统的检索提问(即检索标识)与系统文档(机读数据 库)中的存贮标识进行类比、匹配运算,通过“人 机对话”而检索出所需要的文献。文献的查全率较高,检索实例:非线性光学材料的制备(计算机检索),检索
16、词:非线性 光学材料 制备检索结果:可能包含“非线性光学材料制备光学元器件”方面的文献,与本课题无关。注意:主题分析,找出与课题相关的概念和属性,以防误检和漏检。,在计算机信息检索过程中,计算机不具备人脑的思维能力,检索提问标识一经输入检索系统,便无法结合系统检索的具体情况修改标识;同时,检索提问与文献标识的组配完全是一种字面组配,即“字符串”的类比运算。这种字面上的组配,使检索出的文献记录只在字面上与检索提问标识保持一致,而在内容上或概念上就不一定符合用户的信息需求。,1.3 检索工具,1、检索工具的定义 检索工具是指用以报导、存储和查找文献线索的工具,是附有检索标识的某一范围文献条目的集合
17、,属于二次文献。2、检索工具的类型(1)按文献著录的特点划分:目录 题录 文摘 索引(2)按收录范围划分:综合性检索工具、专业性检索工具、单一性检索工具,目录(Bibliography,Catalogue)一般以整本的图书、期刊等作为报道单元,描述比较简单,每一个条目的著录项有:书(刊)名、卷(期)数、作者、出版年月、出版地及书(刊)收藏情况等。主要用于查找出版物的出版或收藏单位。题录(Title)题录是在目录的基础上发展起来的、以出版物中的“篇”作为著录单元的检索工具。题录一般不作过多加工,不作内容摘要,仅列出篇名、著者、出处。题录仅描述文献的外部特征。,文摘(Abstracts)将论文或专
18、著的内容加以浓缩,以精练的语言把文献信息的重要内容、学术观点、数据及结构准确的摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的以红检索工具。其实质就是题录加上内容摘要。索引(Index)是对一组信息集合有系统的指引,一般只起指引特定信息内容及其存储地址的作用,是一种附属性的检索工具。常见的索引是主题索引和著者索引。,综合性检索工具:美国科学引文索引(SCI)、美国工程索引(EI)英国科学文摘(SA)日本科学技术文献总报 中国全国报刊索引 专业性检索工具:中国石油文摘 美国石油文摘(PA)中国石化文摘 中国化学化工文摘 单一性检索工具:如专利、技术报告、学位论文、会议文摘、标准,
19、1.4 检索提问式的制定,检索词:是表达文献信息需求的基本元素,是计算机检索系 统中有关数据库进行匹配的基本单元。检索式:就是指计算机信息检索系统中用来表达检索提问的 逻辑表达式,由检索词和各种运算符及系统规定的 其它组配符构成。,构造检索式是利用检索词、逻辑运算符、位置运算符、字段限制符、截词运算符等构造表达检索目的的检索表达式。,一、检索词的确定1、检索词的类型主题词:主题词又称叙词,在标引和检索中用以表达文献主题的规范化的词或词组。通过主题词表控制,可在各种主题词典中查到。自由词:属于自然语言,是论文题目、文摘、正文中出现的词。半主题词:介于两者之间。它们在主题词典中没有位置,不是规范化
20、的。,主题词美国“政府研究报告索引”、“世界专利索引”主题词、自由词均可-美国Dialog系统、北京文献服 务处情报检索系统主题词、半主题词-英国“科学文摘”自由词-“中国专利索引”、“美国军用标准”等。,2、检索词的选择同义词和近义词的选择、上位词和下位词的选择、广义词和狭义词的选择 例如:有毒检测checkout、examination、inspection等。颜色colour、color,例检索“核电厂防爆安全用氢分析器”检索方案一:A氢【hydrogen】B分析器【analyzers】C核电厂【nuclear power plants】“A*B*C”命中文献0篇检索方案二:A氢【hyd
21、rogen】A1 空气【air】A2气体【gas】B分析器【analyzers】B1分析【analysis】B2监测器【monitors】B3报警器【alarm】B4测量【measurement】B5探测【detection】C核电厂【nuclear power plants】C1反应堆【nuclear reactors】(A+A1+A2)*(B+B1+B2+B3+B4+B5)*(C+C1)命中文献30篇,二、常用算符的应用技巧 算符(operator):即组配符,它们连接检索词组成检索式、表达检索策略。布尔逻辑算符 位置算符 截词算符 字段限定算符,1、布尔逻辑算符逻辑与:具有概念交叉关系和
22、限定关系的一种组配。通常用“AND”或“*”作为算符表示。逻辑或:是并列概念关系的一种组配,通常用运算符为“OR”或“+”表示。逻辑非:指不包含某种概念关系的一种组配。它可以从原检索范围中排除一部分文献记录,逻辑“非”的运算通常用“NOT”或“”作为运算符。逻辑与、或、非的组合运算,逻辑与算符:用AND 或表示检索式:A AND B 或 A*B意思是检索出既含有检索词A又含有检索词B的文献概念交叉和限定关系的一种组配,缩小检索范围,减少文献量,提高查准率。中文检索用*表示网络搜索引擎中习惯用空格代替AND 或*实例:“水稻抗病基因的克隆技术”检索式:水稻*抗病性*基因*克隆技术,逻辑或算符:用
23、OR或+表示检索式:A OR B 或 A+B意思是检索出含有检索词A或B或同时含有检索词A、B的文献表示概念并列关系的一种组配,用来扩大检索范围或保证查全率中文检索时用+在网络搜索引擎中习惯用逗号代替OR常用于以下几种情况:,逻辑非算符:用NOT 或-(减号)表示检索式 A NOT B 或 A-B意思是检索出含有检索词A同时不含检索词B的文献具有不包含某种概念关系的一种组配,用来缩小检索范围中文检索时,用-(减号)在网络搜索引擎中用-(减号)代替NOT 实例:检索“能量但不包括核能”方面的文献 检索式:能量-核能 energy-nuclear 或energy not nuclear,布尔逻辑运
24、算符图示,A AND B,A OR B,A NOT B,2、位置算符词间位置检索:利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索。这种检索技术在题录和文摘中一般有效。检索词的相对次序不同,表达的检索意图也 不一样,用词间位置算符来限定和组配检索 词,可弥补布尔逻辑算符只是定性规定检索 词范围的不足。常用的位置算符:with near field,with(w)或()表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号实例:X()Ray可检索出包含X Ray 或X-Ray的
25、文献(nW)表示允许算符两侧的检索词间最多可以插入n个词,但是,词序不能颠倒。实例-fluidized bed reactor:fluidezed(1w)reactor inoculant(2w)irons:inoculant of gray irons;inoculant of irons注意:有的数据库当中采用(Wn)的形式-EBSCO数据库实例:在EBSCO数据库中检索有关税收改革文献 tax(w8)reform:tax一定在前,距离reform 最多8个词汇,可以检出tax reform,不能检出 reform of income tax,Near(N):要求被连接的检索词必须紧密相连
26、,词之间除允许有空格、标点、连字符外,不得夹单词或字母,词序不限;(nN)表示两个检索词之间最多可以夹n个词(n为自然数),且词序任意。实例:information(N)retrieve:information retrieve 和retrieve information 注意:在一个词组中出现(W)或(N)的次数不能 过多,否则会命中率过低;在(nW)或(nN)中 n数不能太大,否则会降低查准率。常用的是(1W)、(1N)、(2W)和(2N),在检索式中用到(nW)、(nN)时n不能省略。,Field(F):要求被连接的检索词出现在同一字段中,而两词的词序和中间插入的词数不限。实例:Envi
27、ronmental(F)impact/TI,位置算符从检索的越来越宽泛的次序可依次 排列如下:(W)(N)(F)不同的检索工具,位置检索功能及算符或有 所不同,上述为Dialog系统的位置算符。,(S)-sentence:句子位置算符,A(s)B:A和B必须同时处 在在记录的同一个句子或短语中,但词序可随意改变,AB之 间可以有若干个词。,3、截词算符截词检索就是用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按照截断位置不同:后截断、前截断、中间截断按照截断数量:有限截断、无限截断截词符:*?$,大部分数据库用*和?防止漏检的有效工具,尤其是在西
28、文信息 检索中,被广泛应用;可以作为扩大检索 范围的手段,但易造成误检。,前截断(后方一致检索)例:?Chemistry:可以检索到 chemistry、biochemistry、electrochemistry、physicochemistry等)后截断(前方一致检索)例:chem?:可以检索到 chemical(化学制品)、chemism(化学机理)、chemomorphosis(化学诱变)、chemosynthesis(化学合成)等。中间截断 例:organi?ation:可检出organization、organisation f?t:可以查出 foot、feet,有限截断:允许截去有
29、限个字符。例:acid?:表示截去一个字符,它可以检出acid、acids但不能检出acidic,acidity等词。例:comput?:可检出compute,computer,computers,computing等词,不能检出computable,computation,computerize等词。,无限截断:是指允许截断的字符数量不限,也称开放式截断。上面的前截断、后截断所 举的例子都属于此类型。,注意:词干后面连续的数个问号是截断符,表示允许截去字符的最大个数,最后一个问号是终止符,它与截断符之间要有一个空格,输入时要注意。,注意:不同的检索工具所使用的截词符不同,各数据库所支持的截断
30、类型也不同,例如,Dialog系统和STN系统用“?”,ORBIT系统用“:”等。,在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。例:“金属”metal*:结果:metal、metals、metaled、metalist等。截词检索在中文数据库中截的是词意例:石油?可以分别检出:石油大学学报、石油技术,石油学报,石油天然气地质等。利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。,4、字段限定算符,将检索词限定在某一字段中,检索时计算机只对限定字段进行匹配运算,以提高检索效果。常用的字段限制符号:in、=、常用字段有:TI(题名),AB(文摘),PY(出
31、版年),ISSN(刊号),DE(叙词),AU(著者)等不同字段限制符号适用的字段不同 例如:检索式(personal computer/AB or network/TI)and LA=English and PY 2002 该检索式要求personal computer出现在摘要中,或network出现在标题中,文献的语种规定为英语,文献的出版年在2002年以后。,后缀式(suffix code)后缀式对应基本索引(重要字段),反映文献的主题内容。将字段代码放在检索词之后,并用/号连接。常用:/TI:title;/DE:descriptor(叙词,规范词);/AB:abstract;/ID:i
32、dentifier(标识词,专用词)例:information/TI;information/TI,AB,前缀式(prefix code)前缀式对应辅助索引,反映文献外部特征,用=连接 常用:AU=(Author)、LA=(Language)PY=(pulication year)、PU=(publisher)JN=(journal name)例:AU=WANG WENHAI LA=CHINESE,5、其他符号,引号:使用引号组合关键词,可以将关键词或关键词的组合作为一个字符串进行搜索。英文数据库中要求引号必须为英文状态。表达词组的语法基本上用“”引号表示几乎在所有数据库都有效,而()表示仅在
33、个别数据库使用,括号:指括在括号中算符优先检索。例:A and B or C、A and(B or C)注:英文数据库要求用英文状态,维普中文科技期刊数据库 要求中文半角输入状态,不认可全角黑体的括号。,三、检索式的制定检索式要能够表达课题要求检索式中字符必须与数据库文献标识相匹配检索式可以应用逻辑运算符、位置运算符和字段限制符检索式应简单明了,【实例一】检索“用电子扫描显微镜研究铸铁中石墨的形态”主题词:电子扫描显微镜scanning electron microscopy;铸铁iron;石墨形态graphite morphology检索式:“scanning electron micros
34、copy”*iron*“graphite morphology”,【实例二】检索“汽车制造厂的计算机集成生产系统”主题词:计算机集成生产系统:computer integrated manufacturing,computer integrated production,CIM;汽车:car,autobus,autocar,autotruck,automobile及其复数形式。检索式:计算机集成生产系统*汽车(CIM+“computer integrated manufacturing”+“computer integrated production”)*(car?+auto?+autotru
35、ck?+automobile?),1.5 信息检索的策略及技巧,一、信息检索策略 检索策略(information retrieval strategy):为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。1、制定检索策略的步骤分析检索课题制定检索策略实施检索策略索取原文,首先要了解用户的检索目的和要求,对用户提出的检索课题进行全面的分析研究,为选择检索词,编写检索式作好准备;然后根据检索课题的要求选择合适的数据库和检索系统;开始检索后,要根据检索的具体情况及时调整检索策略,使检索结果符合用户的要求。如何制定科学的检索策略列出待检课题的学科范围、主题范围等确定检索词和词的截断
36、部位,调整词之间 的位置关系及组配关系选择相关数据库,确定检索途径拟定检索式边检索、边修正检索策略,选择检索词应注意问题该词的所有拼写形式和方法(包括同义词,元素和元素符号的缩写和全称等)该词的广义词、狭义词、相关词及多义词等。该词的最佳截断部位应明确包括哪些非主题内容的检索限定。如;LA,PY,AU,等。对于泛指的主题概念词,应选用其包容特性 的具体内容来表达当课题面窄,提问专指度高,而数据库中 对文献的标引深度可能不足时,对检索词 可进行粗化,取其上位检索词,2、给定课题的检索步骤(1)分析、理解课题了解用户信息需求的目的和意图目的和意图不同,检索式、检索范围就不同分析主题要求分析主题内容
37、:主题所涉及的广度和深度。分析检索课题涉及的学科范围,以便选定合适的检索系统和数据库。检索的时间要求检索效果的要求,即检索结果的查全率、查准率;所需文献的大概数量;是否提供原始文献等。查全率要求较高时:选择检索词的主题概念范围要宽一些。查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。要求提供原文时:选用全文数据库 检索费用及其他要求,(2)选择检索系统和数据库数据库内容,选择包括哪些学科的数据库?选择中文还是外文数据库?利用 INTERNET 网上的各种信息查询工具,对网上免费的数据库进行检索和下载。数据库选择的原则就近原则全文数据库优先原则成本/效益最低原则中文数据库优先原则
38、专业数据库优先原则,(3)选择检索词,构造检索式利用检索词、逻辑运算符、位置运算符、字段限制符、截词运算符等构造表达检索目的的检索表达式 检索式要能够表达课题要求检索式中字符必须与数据库文献标识相匹配检索式可以应用逻辑运算符、位置运算符和字段限制符检索式应简单明了,二、检索技巧 检索技巧主要是对逻辑运算符、词间位置算符、检索主题概念的提取方法等的综合应用,其目的是保证查全率和查准率.,1、扩大检索结果的检索技巧 增加同义词,运用布尔逻辑“或”运算(OR):应考虑元素名和元素符号,例:“AL”和“Aluminium”考虑缩写和全称,例:“计算机辅助设计”和“CAD”和“Computer Aide
39、d Design”考虑相关词,例:“Database”,其相关 词有“Expert System”、“software”等。扩大概念利用截断技术扩大检索范围,增加检索字段扩大检索时间段,2、缩小检索结果的检索技术缩小核心概念限定检索年限,查找最新或特定时代的文献限定范围限定学科类别、文献类型等运用布尔逻辑“与”“非”运算用字段限定检索范围,提高准确率,三、检索效果评价 检索效果:检索系统或检索工具的检索有效程度,反映检索系统的能力,包括技术效果和经济效果。,查全率反映该系统文献库中实有的相关文献 量在多大程度上被检索出来;查准率反映每次从该系统文献库中实际检出 的全部文献有多少是相关的。,习
40、题,一、名词解释 信息、知识、情报、文献、检索语言、分类语言、主题语言、叙词语言、信息检索、检索工具,二、简答1.针对文献内容特征和外部特征的检索途径有哪些?2、检索工具按收录范围划分可分为哪些类型?并列出每一类中你所知道的检索工具。3、常见的逻辑运算符号和位置运算符号有哪些?,三、拟对下列课题进行检索,请选择检索词,写出检索式汽车制造厂的计算机集成生产系统计算机数据控制机床计算机软件容错技术纳米材料的进展及其在塑料中的应用,四、在一个具有1000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。,作业三、四题答案请发至,