《信息检索与利用》ppt课件.ppt

上传人:牧羊曲112 文档编号:1378184 上传时间:2022-11-16 格式:PPT 页数:97 大小:2.63MB
返回 下载 相关 举报
《信息检索与利用》ppt课件.ppt_第1页
第1页 / 共97页
《信息检索与利用》ppt课件.ppt_第2页
第2页 / 共97页
《信息检索与利用》ppt课件.ppt_第3页
第3页 / 共97页
《信息检索与利用》ppt课件.ppt_第4页
第4页 / 共97页
《信息检索与利用》ppt课件.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《《信息检索与利用》ppt课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索与利用》ppt课件.ppt(97页珍藏版)》请在三一办公上搜索。

1、11:33,1,11:33,2,信息检索与利用主讲:陈清文Email: Tele:83642478,11:33,3,联合国教科文组织对大学生能力提出的“四会”,& learn to be 学会做人 & learn to do 学会做事 & learn to be with others学会与人相处 & learn to how to learn 学会如何学习 最重要的是:“学会如何学习的能力” ,11:33,4,为什么要学习文献检索?,文献资源日益庞大非科技文献,每10年甚至78年翻一番科技文献,尤其是尖端科学的文献增加速度更快,如,原子能文献每23 年就翻一番,且倍增周期逐年缩短据估计目前每

2、年出版的各种类型的科技文献有1000多万篇出版速度加快据国外报导,2006年全世界出版科技文献2000印张/秒4-5种新书/小时新增3种刊物/小时载体形式多样化,文献检索需要解决的问题,我们被信息的海洋包围着, 但是确被知识饿死了!,11:33,6,这门课的目的(Purpose)是: 面对日益增长的文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息这就是文献检索所要解决的问题。,11:33,7,学会了文献检索有什么好处?,对于科技人员:文献检索是科技人员必备的基本技能文献检索是科学研究的先期工作,11:33,8,一个科研人员的时间分配表,写报告10%,11:33,9,学会

3、了文献检索有什么好处?,对于一般大众文献检索是知识更新的手段通过文献检索获取学术动态通过文献检索寻找未知问题的答案是能力的培养提高自学的能力文献检索课的一个重要目标就是培养学生的信息意识,11:33,10,怎样学好文献检索课,陆游 冬夜读书示子律 古人学问无遗力,少壮功夫老始成。 纸上得来终觉浅,绝知此事要躬行。 这是陆游的一首教子诗,名字叫冬夜读书示子律,作于宁宗庄元五年(公元1199年)底。诗人就知识的获取,从两方面谈了自己的看法:一是要花气力,一是“要躬行”。诗中表达的思想不仅是冬夜读书的体会,更是诗人勤奋学习的经验总结。,11:33,11,文献检索课教学大纲,医学文献检索与论文写作教学

4、大纲大纲说明课程编号:7125001 课程性质:专业模块课适用专业:生物医学专业先修课程: 专业基础课、英语、计算机与网络应用基础 学 分:2 学 时:32(讲课20学时,上机12学时)课程的性质、任务及地位:文献检索与利用课是为大学生开设的一门重要公共基础课。通过本课程的教学,逐步培养大学生良好的信息素养,增强大学生的信息意识和掌握现代化信息检索与利用的技能,提高开发和利用信息资源的能力,增强自学能力、独立研究能力和创新能力。,11:33,12,文献检索课教学大纲,教学目的与要求:通过本课程的学习,使学生了解文献信息与文献信息检索的基本知识,熟悉各类型信息资源的分布与流变规律以及信息媒体的特

5、点、类型与用途。学会常用信息检索系统的使用方法,重点掌握计算机信息检索的基本概念和检索技术,熟练掌握各种中、外文数据库、网络检索工具以及其他网络信息资源的检索与利用。为将来进一步学习、工作或教学、科研打下坚实基础。本课程是一门实践性很强的科学方法课,教学必须理论联系实际,实践环节的安排尤为重要,建议采用多媒体或网络演示教学,并安排相应课时的实习。其基本的教学要求是精讲文献信息的获取技巧,特别是网络信息获取技巧,教学中在注意对基本概念介绍的同时,重在对检索系统操作方法、操作步骤的介绍,要使学生能从检索实例中掌握对具体检索系统的使用,并进行模拟练习,善于根据自己感兴趣的学科或研究课题进行实际操作。

6、增强广大学生的情报意识,培养他们的信息获取能力和独立研究的能力。,11:33,13,文献检索课教学安排,课时分配表:序列内容 学 时 上机1第一章文献检索基础知识 22第二章计算机文献检索 23第三章常用中文数据库 4 4学时4第四章常用国外全文数据库4 4学时5第五章常用国外文摘数据库26第六章事实、专利与标准文献数据库27第七章网络信息资源检索与利用2 2学时8第八章学术论文撰写与投稿29 综合实习报告 2学时10 总计 20学时 12学时,11:33,14,文献检索课考核要求,考核与成绩评定:考勤(10)实习和作业(30)综合实习报告(60)三者相结合。,11:33,15,教材,1.医学

7、信息检索与利用夏知平主编,复旦大学出版社,2007年出版,11:33,16,教学参考书,1. 医学信息检索与利用陈界等主编:中国科技出版社,第二版2003年;2. 新编医学文献检索郭继军主编,人民卫生出版社,2004年;3. 生物医学信息检索与利用,王秀平主编:科技文献出版社,2004年;4. 医学文献检索,方平主编,人民卫生出版社,2003年4.信息检索焦玉英,符绍宏,何绍华主编,武汉大学出版社, 2001. 5.实用生物医学信息检索 谢志秐主编,复旦大学出版社,2004.,11:33,17,一、基本概念,信息情报知识文献,11:33,18,信息(Information),信息是客观事物存在

8、的方式或运动状态,以及关于客观事物存在方式或运动状态的陈述。情报与文献工作词汇、基本术语对信息的定义:物质存在的一种形式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义。信息论创始人申农认为:信息是用来消除不确定性的东西,11:33,19,信息,信息,最初的含义是指音信和消息,南唐李中暮春怀故人诗“梦断美人沉信息,目穿长路倚楼台”及宋代陈亮梅花诗“欲传春信息,不怕雪埋藏”中的信息就是这个概念。随着社会的进步和科技的发展,信息远远超出了原先的含义 ,是指通过各种手段传递的一切符号,它已经成为我们使用频率最高的词汇之一。,11:33,20,信息无处不在,无时不有,无人不用,

9、冰消雪融、草木发芽,这是自然带给我们季节变换的信息;新闻报道、商品广告,这是社会带给我们的信息;闹钟的铃声把我们从睡梦中叫醒,这是生活中的信息。我们无时无刻地与信息有联系。生活充满了信息。听课、看书读报、看电视、听广播、我们接受信息,同时我们点头、摆手、跺脚、摸鼻子、说、唱等,一举一动都在发出或传递信息。人与人间传递信息可通过:肢体语言、口头语言、书面语言等。,11:33,21,信息的特征,(1)客观性地震,海啸,花草树林的发芽、生长和枯萎,广播电视、网络的新闻、广告等等发出的信息,不管你知道不知道,感知不感知,它都是客观存在。只要有物质存在,就有信息的存在。因此,信息是客观存在的,不以人们的

10、意志为转移的。它是现实世界中各种事物运动与状态的反映,它可以被人们所感知、处理、存储和使用。它的客观性还表现在反映客观世界变化的信息包含在各种物质之中。,11:33,22,(2)时效性,朝鲜战争与兰德咨询公司故事 在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜” 。其主题词只有7个字,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行

11、了一场错误的战争”。一直到前些年,美国政府检讨当年决策错误时,向兰德公司付了一大笔款,表示对科学预测的重新估价与信服。很明显,如果美国政府当年尊重科学预测,相信中共会出兵,他是决不敢冒这个险的,那朝鲜历史将重新改写,抗美援朝也就不存在了。 由上例可以看出信息是具有较强时效性的。客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。,11:33,23,(3)传递性,大庆油田产量失密事件1960年王进喜被冠之以“铁人”的称号以后,国内的各大报纸对他都有了相关的报道。谁想到被狡猾的日本人嗅出蛛丝马迹,竟从中了解了大庆油田开采的一

12、些情况。日本人发现,王进喜原来的工作地点是甘肃玉门油田,1959年10月参加国庆观礼后他就销声匿迹了,由此推断大庆开发时间应该为1959年9月;1966年7月,中国画报曾刊载王铁人头戴厚厚瓜皮帽的照片,凭着对中国地理的熟知,日本人很快就推断出王进喜的工作地应该在零下30度的东北地区;还根据其他相关信息,测算出了油田与北京的距离,断定油田应在哈尔滨与齐齐哈尔之间;10月份,人民中国也刊登出宣传王进喜的文章,在其中透出一个“马家窑”的地理信息,日本人便由此推出大庆在安达车站附近。据称,日本人通过精细、准确的情报对大庆油田进行了成功调查,后来几乎垄断了我国石油设备进口市场。,11:33,24,从上例

13、中可以看出,大庆油田的信息是刊载在人民画报等这些公开发行的报刊杂志上的,而日本人正是利用这些公开的报纸、杂志分析中我国大庆油田的产量和设备需求,获取了最高的经济利益。在本例中,大庆石油信息从国内报刊杂志社这一信息的发源地通过人民画报等报刊杂志这些载体,传到了日本人的手里,经过他们的分析、处理后,加以运用,获取了高额的经济利益。信息的传递性是指任何信息只有从信源出发,经过信息载体传递才能被信宿接受并进行处理和运用。也就是说,信息可以在时间上或空间上从一点移动到另一点,可以通过语言、动作、文字、通信、电子计算机等各种渠道和媒介传播。,11:33,25,(4)共享性,英国剧作家萧伯纳说:你我是朋友,

14、各拿一个苹果,彼此交换,交换后仍然是各有一个苹果。倘若你有一种思想,彼此交流思想,那么我们每个人就有两种思想了。,同一内容的信息可以在同一时间或不同时间里被多个信息用户使用。一条信息被用户吸收和利用并不影响信息的本身和被其他用户的反复使用,各用户分享的份额也不会因为分享的人的多少而受影响。正如萧伯纳所举的“苹果与思想”的例子,苹果交换以后双方仍然各自仅有一个苹果,但信息交换以后双方都有了两种信息。信息共享性是推动社会交流的原动力。,11:33,26,(5)中介性,人们看柳树发芽,就知道春天来了,看到天上乌云滚滚,就知道要下雨了,这就是这些自然世界发出的信息。信息是介于物质世界和精神世界之间的过

15、渡状态的东西,是人们认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知过程本身就是一个以信息为中介的信息运动过程。人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程。,11:33,27,情报(Information 2 ),情报是人们为一定目的而搜集的有使用价值的知识或信息。 “是被有目的利用的、活化的知识与信息”。情报有如下几点属性:(1)知识性与信息性:情报要具有实质性的内容-知识与信息,没有知识信息内容的情报是不存在的。(2)实用性:人们利用情报是为了获取实际效益或解决特定的问题。对

16、没有使用价值的知识和信息,人们不会产生客观需要的动机。只有当知识信息与人们的客观需要联系起来,才能活化形成情报。(3)传递性:只有在传递、交流、运动过程中活化了的知识与信息才能成为情报。它是情报的本质特征,情报传递效果直接影响其使用。(4)时效性:特定的情报只有在合适的时间内传递和利用才会产生更大的效用。过时的情报就会成为失效情报。(5)针对性:情报是针对特定用户、特定需求提供的有使用价值的知识与信息,具有很强的针对性。,11:33,28,知识,知识是人们对客观事物存在和运动规律的认识。知识是建立在信息的基础上经过加工而形成的。,11:33,29,人类社会中的信息,知识改变命运, 信息改变生活

17、!信息对于人类来说,它和空气、水、食物等一样,都是不可缺少的,而且在某种意义上讲,还显得更为重要。在人类社会发展中,特别是在步入信息社会的今天,信息在社会发展中的作用越来越大,可以说,谁占有了信息,谁在收集、加工、处理和利用信息方面领先一步,谁就能在竞争中获得优势。,11:33,30,文献,记录有知识的一切载体。 三要素: 1.知识:文献的实质内容。 2.载体:文献的外在形式。 3.记录:将两者联系起来的手段。医学文献:记录有医学知识的一切载体。,11:33,31,1. 文献信息资源的构成 (3)按文献信息的加工程度划分 零次文献 是指未以公开形式进入社会流通使用的实验记录、会议记录、内部档案

18、、论文草稿、设计草稿等。具有信息内容新颖、不公开交流、难以获得、不成熟、不定型的特点。,11:33,32,1. 文献信息资源的构成 (3)按文献信息的加工程度划分 一次文献 是指作者以本人生产与科研工作成果为依 据,创作、撰写而形成的文献。如期刊论文、科技报告、会议论文、专利说明书及各种专著等等。一次文献的特点在于内容新颖、翔实、具体,一般说它是文献信息检索的终极目标。,11:33,33,1. 文献信息资源的构成 (3)按文献信息的加工程度划分 二次文献 是指对一次文献信息进行加工、提炼、浓缩,而形成的工具性文献。它主要包括各种书目、题录和文摘(数据库)。二次文献是人们对一次文献进行有效的管理

19、、控制和利用的工具,它提供了一次文献的概略及线索。,11:33,34,1. 文献信息资源的构成 (3)按文献信息的加工程度划分 三次文献 是根据特定的要求指对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩后形成的文献。如各种词典、百科全书、年鉴、指南数据库等等。三次文献提供各种事实与数据。,11:33,35,11:33,36,信息与文献、情报、知识的关系,信息与文献、情报、知识的关系 信息 知识 情报 文献,知识,情报,信息,文献,11:33,37,四、检索语言,检索语言是文献中用来描述文献外表特征和内容特征和表达情报提问内容的一种专门人工语言,又称情报语言、标引语言、索引语言等。,

20、11:33,38,检索语言的分类,分类检索语言主题检索语言符号检索语言,11:33,39,分类检索语言,体系分类法:以科学分类为基础,结合文献的特点,采用概念逻辑分类的原理,层层划分,构成具有上下类、同位类的概念等级体系。用分类号来表达各种概念。,11:33,40,中国图书馆分类法简表,A马列、毛泽东思想B哲学C社会科学总论D政治、法律E军事F经济G文教、科学、体育H语言、文字I文学J艺术K历史、地理,N自然科学总论O数学、物理、化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业科学U交通运输V航空、航天X环境科学Z综合性图书,11:33,41,R医药、卫生,R1 预防医学、卫生学R

21、2中国医学R3基础医学R4临床医学R5内科学-R6外科学R71妇产科学.R8特种医学R9药学,R51传染病R52结核病R53寄生虫病R54心脏、血管疾病R55血液及淋巴系疾病R56呼吸系及胸部疾病R57消化系及腹部疾病R58内分泌腺疾病及代谢病R59全身性疾病,11:33,42,体系分类法的优缺点,优点:系统性强,族性检索,便于按学科、专业直接检索比较广泛的课题。查全率较高。缺点:缺乏专指性,查准率不高,不能满足专深课题以及新兴学科、交叉学科和边缘学科知识的检索。,11:33,43,主题检索语言,以文献的主题内容为依据,用词语作为概念标识,并按一定的顺序排列而成的一种检索语言。优点:直接性、专

22、指性强,比较适合专深课题的检索。,11:33,44,主题词,经过规范化处理的具有实质性意义的词或词组。 “ 规范”:是对一个概念的同义词、近义词和拼法变异词适当归并,采用参照系统,并有主题词的范畴表和树状结构。形成专门的主题词表。,11:33,45,主题词表,国内医学检索工具使用: 中国中医药学主题词表、医学主题词注释字顺表。 国外医学检索工具:Medical Subject Headings ,( MeSH,医学主题词表) 。,11:33,46,主题词的特点,(1) 规范错综复杂的名词概念,对同义词、近义词、多义词 进行规范和控制 ,使标引人员与检索人员在检索时有共同语言。 (2) 主题词具

23、有主题集中、学科分散的特点,故能提高文献检索的查全率和查准率。,11:33,47,关键词,未经严格规范化处理的检索词或词组(自然语言)。通常是从文献的题目、摘要、正文中选取出来。标引出的关键词在文献中起关键性作用,通常是由名词、形容词等实质性词构成。,11:33,48,关键词的特点,优点:可不用主题词表,自由选词,不受限制。 缺点:同一主题的文献可能分散在不同的词下,可能造成漏检。要提高查全率,就必须分别检索同一主题的同义词和近义词等。,11:33,49,4. 常用文献检索途径及方法 常用检索方法 (1) 追溯法 利用已经掌握的文献中所列举的参考文献,根据其所提供的线索追踪、溯源及查找更多相关

24、文献的方法。,11:33,50,4. 常用文献检索途径及方法 常用检索方法 (2) 工具法 利用文献检索系统(工具),根据已经掌握的相关线索(如书名、刊名、篇名、作者姓名、主题词、分类号等等),进行系统而全面的文献检索的方法。,11:33,51,常用检索方法常用文献检索途途径及方法 (3) 循环法采用追溯法与工具法交替进行的方式进行相关的文献信息检索的方法。,11:33,52,五、文献检索途径,是检索工具提供的检索入口。通常检索工具都编有索引,如分类索引、主题索引、作者索引、代码索引、引文索引等,一种索引就是相应的检索途径。计算机检索提供的途径几乎包括文献所有的外部特征和内容特征,如标题、作者

25、、作者单位、出处、文摘、关键词、主题词、分类号、ISSN等。,11:33,53,分类途径,分类途径:根据拟检文献的学科性质,利用分类目录,从分类的角度进行的文献的检索。分类法:中图法、科图法等在手工检索工具中使用较多,关键在于对分类法的熟悉和理解。,11:33,54,主题途径,主题词途径:利用主题索引或主题词字段检索。关键在于主题词的选取和确定。关键词途径:利用关键词索引和关键词字段检索。选词比较自由,但注意漏检率较高。,11:33,55,著者途径,按照著者的姓和名的汉语拼音顺序或外文字母顺序 ,利用著者索引或著者字段检索。 注意姓名的缩写形式,一般姓是全称,名为缩写的首字母。 区别同名同姓的

26、著者,利用单位名称、地址或研究课题的不同加以区分。,11:33,56,二、计算机文献检索,1. 文献信息数据库 2. 计算机信息检索基础 3. 检索效果评价及其优化,11:33,57,1. 文献信息数据库 文献是记录一切人类知识信息的载体。 (文献情报术语国际标准(ISO/DIS5217) 数据库是结构化的数据集合,至少由一种文档组成并能够满足某种特定目的或特定数据处理系统需要的数据集合 。 当数据库记录的对象为文献信息时,就称为文献信息数据库 。,11:33,58,文献信息数据库的结构 一个数据库通常由一个主文档(Master File)和若干个索引文档或称倒排文档(Inverted Fil

27、e)组成。 文档是具有某种特征的全部记录的集合。 记录是构成文档的基本单元,由各种反映文献特征的字段组成。如一篇论文、一件专利、一本图书、一个标准的相关信息都能够成为文挡中的一条记录。 字段是记录的基本组成元素。一条记录的常见字段通常包含题名字段、著者字段、主题词字段、文献出处字段(如刊名等)多种字段。,11:33,59,文献信息数据库的评价标准 收录内容范围系统准确。 揭示文献详略完备详细。 更新速度快慢及时快速。 检索字段多寡途径丰富。 检索功能强弱高效完善。 用户使用方便易学易用。 维护服务质量及时维护。,11:33,60,2. 计算机信息检索基础 计算机信息检索 指利用计算机及相关软件

28、和通信设施,对本地计算机、远程服务器及网上信息进行检索的过程或活动。 随着信息技术的快速发展及对各种文献信息的数字化处理,计算机文献信息检索已经成为文献信息检索的主要手段。,11:33,61,计算机信息检索发展过程 脱机检索阶段(50年代中期到60年代中期)联机检索阶段(60年代中期到70年代中期)光盘数据库检索阶段(70年代中期到80年代末)网络化检索阶段(90初年代至今),11:33,62,计算机信息检索发展过程,11:33,63,计算机检索的原理,狭义:信息检索是指从任何信息集合中查出所需信息的活动、过程和方法。广义:信息检索还包括信息存储,两者又往往合并称为“信息存储与检索”信息检索的

29、全过程包括存储和检索两个过程。二、信息检索的本质是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。用户根据检索需求,对一定的信息集合采用一定的技术手段,根据一定的线索与准则找出相关的信息。,11:33,64,计算机文献检索的原理,11:33,65,计算机检索的一般步骤 (1)分析检索课题,明确检索要求 (2)选择适当检索系统(数据库) (3)确定检索途径及检索词 (4)构建检索提问式 (5)上机检索并调整检索策略 (6)输出检索结果,11:33,66,计算机检索的步骤,(1). 了解检索课题. 分析课题的目的和范围,明确课题要解决的实质性问题。具体须明确:课题所涉及的学科范围

30、,年代范围,文献类型,出版类型,文献信息的语种。 (2).选择检索工具:根据检索课题的主题及学科范围选择对口的检索工具(数据库)。检索工具选择标准:专业对口,检索途径多,收录范围广。(3).确定检索途径和检索策略:根据课题已知条件和检索工具中有什么检索途径,如主题途径,分子式途径,分类号途径等,确定检索途径;检索策略指检索前制定的概念组配即用逻辑运算符构造提问表达式和在检索时执行检索顺序的方案。,11:33,67,计算机检索的步骤,(4). 实施检索: 在选择的数据库进行检索。并对检出文献进行相关性分析、评价;必要时对检索词或检索式进行修改,直至检出结果符合要求; (5). 获取原始文献信息:

31、 根据文摘出处获取原文信息,刊名缩写还原为全称,查本馆书目检索系统或其它馆书目检索系统,判断原文所在地获取原文,11:33,68,计算机检索基本技术 布尔逻辑检索技术 布尔检索技术是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。常用算符及含义: AND (*)表示由该符号连接的检索式的运算结果为逻辑与。 OR (+)表示由该符号连接的检索式的运算结果为逻辑或。 NOT (-)表示由该符号连接的检索式的运算结果为逻辑非。,11:33,69,2、逻辑与(逻辑乘)(*、AND),逻辑与 AND运算符,用来组配不同检索概念。其含义是检出的记录必须同时含有所共有的

32、检索词检索时,数据库中同时含有检索词A和检索词B的文献才是命中文献。,A*B,11:33,70,组配方式:A*B或者A and B,表示检索必须同时含有A、B两词的文章。作用:增加限制条件,即增加检索的专指性, 以缩小提问范围,减少文献输出量,提高查准率。在实际检索中,不同概念组面之间及同一组面内的不同含义的词之间通常使用AND算符。用AND表示它所连接的两个检索词必须同时出现在结果中才满足检索条件,例如检索式computer and law就要检索结果中必须同时包含computer 和law。检索式A AND B所表达的复合概念相当于包含检索词A的结果集与包含检索词B的结果集的重合部分,如图

33、中两个圆交叉部分,11:33,71,1、逻辑或(逻辑和)(+、OR ),A+B,11:33,72,作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。,逻辑或组配方式:A OR B或者AB,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。,11:33,73,3、逻辑非(、NOT),数据库中凡含有检索词A而不要检索词B的文献,为命中文献。逻辑非NOT运算符,是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。,AB,11:33,74,逻辑非组配方式:AB,表示检索出含有A词而不含有B 词的文章。作用:逻辑非用于排除不希望出现的检索词,它和

34、“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。,3、逻辑非(、NOT),11:33,75,*截词检索技术 截词检索是为扩大检索范围与增加检索结果而采用的一种检索技术。 常见的截词符号及含义: “*”可代表多个字符 “?”代表单个的字符 一个“n?”或者“n?”代表0个到9个额外的字符 。,11:33,76,截词检索,所谓截词检索指在检索式中用专门符号(截词符号)表示检索词的某一部分允许有一定的词形变化,结果中只要包含其中任意一个就满足检索要求。主要是提高查全率,不同的数据库和搜索引擎有不同的截字符,截词符一般用“?”或“*”表示,11:33,77,截词检索的方式,按截词位置可分为前

35、截词、后截词、前后截词和中间截词 截断字符数的不同,可分为有限截断和无限截断,11:33,78,截词位置分,右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer 、computing、computerised、computerized、computerization等结果。中间截词,又称中间一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、a

36、strophysics、biophysics、chemophysics、geophysics等词的结果。 *Computer可检索computer、minicomputer、microcomputer等结果。,11:33,79,截词位置分,前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如*computer*可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。,11:33,80

37、,截断字符数的不同分,无限截断:在检索词的词干前后,加一个“*”,表示在此位置上可能出现的字符数量不受限制,可查找词干相同的所有词。按截词符的位置分为前截词、后截词和前后截词,如前述所举例子。 有限截断:在检索词的词干前后,加几个“?”,表示在此位置上最多允许出现的字符数。两个“?”之间空一格,即“? ?”,表示该位置允许出现01个字符,在空格前每增加一个“?”,表示增加一个字符,“? ?”表示该位置允许出现02个字符,依此类推。按截词符的位置同样分为前截词、后截词和前后截词。如computer? ?可检出computer和computers的信息,computer? ?可检出computer

38、、computers、computerize的信息。,11:33,81,截词举例,符号:*,?前截断:*magnetic magnetic, electro-magnetic, electromagnetic, thermo-magnetic, 后截断:librar* library, libraries, librarian,中截断:organi?ation organization, organisation无限截断:不限制被截断的字符数量,例如输入educat*,可以检索educator,educators,educated,educating,education,educational

39、,等等。 有限截断:限制被截断的字符数量,例如输入educat?,表示被截断的字符只有两个,可以检索educator,educated两个词。,11:33,82,*位置检索技术 位置检索可要求检索词以用户所规定的相对位置出现。常用的位置算符及含义: (W)算符(WITH) 表示两个检索词紧挨着,词序不能颠倒, 中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。 (n W)算符(n WORD) 表示两个检索词中间可插入n个词,但它们之间的顺序不可颠倒。,11:33,83,*位置检索技术 (N)算符(NEAR) 表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。 (n

40、N)算符(n NEAR) 表示两个检索词中间可以插入n个词,且词序可以颠倒。,11:33,84,*位置检索技术 (F)算符(FIELD)表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数不限。 (S)算符(SUBFIELD) 表示两个检索词必须出现在同一个子字段中,但两词的词序和插入的词数不限。,11:33,85,常用的位置算符有,11:33,86,(4)、限定检索,为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。 如:rice in ti(表示只在题名字段中查找文献) rice in de(只在主题词中查找) rice in ab(只在文摘

41、中查找) au = Smith,J.C (查作者为Smith,J.C 的文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献),11:33,87,检索效果评价的指标 评价检索效果的常用指标有:查全率(Recall ratio)-用R表示查准率(Precision ratio)用P表示漏检率(Omission ratio)-用O表示误检率(Fall-out ratio)-用F表示 高查全率和查准率是人们在检索活动中通常所追求的目标。,11:33,88,查全率,查全率:反映用户在文献检索时,检出的相关文献与数据库中与自己研究课题相关文献的数量比例。又称

42、“检全率”、“命中率”,11:33,89,查准率:是指检出的相关文献量与检出的全部文献总量的比率,是衡量信息检索系统精确度的尺度.,查 准 率,11:33,90,查全率A和查准率P两者之间存在互逆关系,11:33,91,检索效果评价的指标,漏检率(O)1-R误检率(F) 1-P,11:33,92,漏检率,漏检率就是漏检的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下式表示:漏检率漏检相关文献量 *100% 系统中相关文献总量,11:33,93,误检率误检率是指误检(检不出相关)文献总量的比率,是衡量信息检索系统误检文献和程度的尺度。可用下式表示:误检率误检文

43、献量 *100 检出文献总量,11:33,94,提高查全率的主要方法(1) 准确把握检索对象及目的,选择合适的数据库。(2) 降低检索词或分类号的专指度。(3) 更多地采用学科分类途径来扩大检索范围。(4) 减少逻辑“与”及逻辑“非”的使用。(5) 增加逻辑“或”及截词检索技术的使用。(6) 采用“全文检索”。(7) 不限定检索对象的文献类型、时间段、文种等。,11:33,95,提高查准率的主要方法(1) 准确把握检索对象及目的,选择合适的数据库。(2) 提高检索词或分类号的专指度。(3) 更多地采用专用名词及特性检索的途径。(4) 选择逻辑“与”及逻辑“非”的使用。(5) 减少或不采用逻辑“或”及截词检索技术的使用。(6) 限定检索词出现的字段及在段落、文句中的位置。(7) 不选“全文检索”.(8) 限定检索对象的文献类型、时间段、文种及其它特征。,11:33,96,思考及简答题,1.信息、文献、信息检索的基本概念2.文献信息的类型3.分类语言与主题语言的优缺点4.文献信息数据库的类型有哪些? 5.请说明计算机检索系统的基本原理及检索过程与步骤 6.简介采用布尔逻辑检索技术的作用? 7.什么是查全率、查准率?如何提高查全率和查准率?,知识回顾Knowledge Review,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号