网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx

上传人:小飞机 文档编号:1549893 上传时间:2022-12-04 格式:PPTX 页数:84 大小:661KB
返回 下载 相关 举报
网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx_第1页
第1页 / 共84页
网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx_第2页
第2页 / 共84页
网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx_第3页
第3页 / 共84页
网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx_第4页
第4页 / 共84页
网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx》由会员分享,可在线阅读,更多相关《网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx(84页珍藏版)》请在三一办公上搜索。

1、网络信息资源开发与利用 第2章 信息检索基础知识,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,December 4, 2022,1 信息检索的基本概念,1.1 信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(information

2、 storage),即信息的标引、加工和存储过程:二是信息检索(information retrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程,December 4, 2022,信息存储和检索过程的基本原理,输出,一次信息,信息特征,检索语言,信息特征标识,检索结果,信息需求,检索提问,检索提问标识,分析,标引,标引,输入,检索,信息检索系统(工具),存储过程,检索过程,分析,December 4, 2022,计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储

3、存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具以及从检索系统或工具中检索所需信息的过程。,1.2 计算机信息检索,December 4, 2022,用户,输入检索需求,分析转换处理需求,数据库检索=概念词的相关匹配运算,概念词典控制词表,信息源,筛选录入,分类、词索引文档预处理,计算机信息检索的基本原理,December 4, 2022,1.3 信息检索的类型,按信息检索的内容划分文献检索 数据检索事实检索概念检索,按信息检索的组织方式划分,全文本检索多媒体检索超文本检索,超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索

4、强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。,WWW,December 4, 2022,2 检索系统,检索系统(retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。,December 4, 2022,2.1 检索系统的功能模块,信息源选择与采集子系统对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统标引处理的类型:人工赋词标引、机器标

5、引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。,December 4, 2022,2.1 检索系统的功能模块,词表管理子系统主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct mani

6、pulation)、自然语言(natural language)。 提问处理子系统检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。,December 4, 2022,2.2 文档记录字段,检索系统的基本组织形式由三个层次构成。文档( file ):检索系统至少包括一个顺排文档(sequential files)。有的还包括一个倒排文档(inverted files)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对

7、信息实体的具体属性进行描述的结果。,December 4, 2022,2.2 文档记录字段,检索系统的基本组织结构关系:数据库 database 文档 file, archive 顺排文档 记录Record 字段Field倒排文档(索引index),December 4, 2022,3 检索语言,检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。 检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。 在存储的过程中用于标引信息称为标引语言; 用于编制索引就称为索引语言; 用于信息检索则称为

8、检索语言。,December 4, 2022,3.1 检索语言的种类,分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。 主题分类语言 其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。 优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利。 科学分类语言 学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。 优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检索的要求。 图书

9、分类语言 目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法),December 4, 2022,主题语言(subject language)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息

10、主题概念的检索语言。,December 4, 2022,关键词语言(keyword) 标题词语言(heading) 单元词语言(uniterm) 叙词语言(descriptor),December 4, 2022,分类语言,分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。专利分类表中国科学院图书分类法中国图书馆图书分类法杜威十进分类法 (国外),December 4, 2022,中国图书馆图书分类法,基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书,基本

11、大类: (22个) A 马列主义毛泽东思想邓小平理论 N 自然科学总论 B 哲学 O 数理化科学 C 社会科学总论 P 天文学、地理 D 政治、法律 Q 生物科学 E 军事 R 医学、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言、文字 U 交通运输 I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书,December 4, 2022,中国图书馆图书分类法,F 经济F1 世界各国经济概况、经济史、经济地理F11 世界经济、国际经济关系F12 中国经济F13/17 各国经济F2 经济计划与管理F20 国民经济管理F21 经济计划F2

12、2 经济计算、经济数学方法F23 会计F239 审计F24 劳动经济F25 物资经济,December 4, 2022,F27 企业经济F29 城市与市政经济F3 农业经济F4 工业经济F7 贸易经济F72 中国国内贸易经济F73 世界各国国内贸易经济F74 国际贸易F75 各国对外贸易F8 财政、金融F81 财政、国家财政F82 货币F83 金融、银行F84 保险,December 4, 2022,中国图书馆图书分类法,T 工业技术 TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电讯技术 TF 冶金工业 TP 自动化技术、计

13、算机 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程,December 4, 2022,图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。 字母部分按英文字母固有的次序排列。例: B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 TM92电气化、电能应用 TU201建筑设计原理 分类号中的阿拉伯数字依小数制排列。例: B021辩证唯物主义的物质论 B022辩证唯物主义的意识论 B022.2客观规律性与主观能动性 D035.

14、37交通公安管理 D035.4监察、监督,分类号的排列次序,December 4, 2022,分类号的排列次序 (续),数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例: TP312AL ALGOL程序语言 TP312BA BASIC程序语言 TP312CO COBOL程序语言 总论复分号“-”要排在数字“0”的前面。例: H-61,H0, H31-61,H310, 总论复分号“-”要排在组配符号“:” 的前面。例: H31,H31-62,H31:F,H31:I,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,,December 4, 20

15、22,读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。 不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据

16、。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。,分类号和索书号,December 4, 2022,重新排列以下索取号的顺序,TP3/1044 TP3-43/3060 TP311.13/1713 TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723,December 4, 2022,主题语言,关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。 例如:“国际联机检索概论”

17、中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。 标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。 例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑” 来叙述,第三篇文章用“微机” 来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。,December 4, 2022,主题语言,单元词语言是在标题词语言基础上发展起来的一种规范化

18、检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。 例如:“计算机”、“软件”、“固相”、“相”。 叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。 例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。,December 4, 20

19、22,主题语言,主题语言(标题词、单元词、叙词)的规范化处理:词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。词形规范:即对词的繁简体、词序、字母符号等的规定。,December 4, 2022,代码语言,代码语言是指对事物的某方面特征,用某

20、种代码系统来表示和排列事物概念,从而提供检索的检索语言。 例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物及其相关的信息。,December 4, 2022,自然语言,自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。 例如:如有人输入:how to control drivers of hard disk ,检索系统会自动提取检

21、索词,然后进行过滤和检索 。 注意:Google和专业数据库的检索语言区别。,December 4, 2022,4 检索方法及检索途径,4.1 检索方法查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种方法,无论是计算机还是手工检索,都是常用的方法。 “拉网法” 在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。,December

22、 4, 2022,引文法(跟踪法) 文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、方法,具有启发意义。,December 4, 2022,引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引,如

23、 科学引文索引、社会科学引文索引 。,December 4, 2022,另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。,December 4, 2022,常规法,所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷,有

24、很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。,December 4, 2022,排除、限定和合取法,这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。,December 4, 2022,4.2 信息检索的途径 所谓检索途径就是检索时切入信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名

25、、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。,December 4, 2022,检索语言与检索途径的关系,December 4, 2022,分类检索 这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。 分类检索的要点:1。对待检课题的概念及学科间的各种关系清楚;2。正确掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。,December 4, 2022,分类检索的步骤:,1。分析待检课题,确定其学科,并弄 清学科间的

26、各种关系。2。查出待检课题的分类号(工具简单时可以 省略)3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内 输入分类号,开始检索。5。对比题目,阅览相关信息,选出所需信息,并下载相关信息6。原文的索取,December 4, 2022,词汇检索,与分类号检索相比,词汇检索具有直观、灵活、专指性和适应性好的特点,同时检索速度也比分类检索快。 词汇检索的要点:首先是要选好检索词,正确理解词间关系,检索中还要注意词间关系的正确表达。常用的词汇检索有关键词检索和主题检索。计算机检索时,选择任意字段检索时,检索项也可以是各种词汇。,December 4, 2022,词汇检索的步骤:

27、 a、 分析课题,确定检索词及词间关系 b、选择适当的检索工具 c、选择词汇检索途径,在对话框内输入检索词 (注意词间关系的表达) d、 根据快捷显示,选出有用信息并下载。 e、 原文的索取,December 4, 2022,责任者途径 :姓前名后,名缩写; 姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如De Leferore, Alfred Von Kampf; 团体机构名称名按名称字顺排。号码途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号,专利说明书的专利号,科技报告的报告号,学会的会议论文连续号,或合同号、任务号、国际标准

28、书号(ISBN)、国际标准刊号(ISSN),以及文献收藏单位编的馆藏号、索取号、排架号等,都可以此作为检索点。,December 4, 2022,其他检索途径1、题名检索 包括书名、刊名、篇名和其他信息的标 题等2、机构3、来源4、其他特殊途径,December 4, 2022,5 常用的检索技术,检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、位置、限定的比较和运算处理技术。,December 4, 2022,5.1 布尔检索,布尔检索(boolean retrieval)是用布尔逻

29、辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。,December 4, 2022,逻辑“与”,具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。检索词A和检索词B用“与”组配,检索式为:A AND B,或者 A * B它表示检出同时含有A、B两个检索词的记录。,December 4, 2022,逻辑“或”,逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示。检索词A和检索词B用“或”组配,检索式为:A OR B,或者 AB它表示检出所有含有A词或者B词的记录。,December 4, 2022,逻辑“非”,逻辑“非”是一种具有概念

30、排除关系的组配,用“”或“NOT”算符表示。检索词A和检索词B用“非”组配,检索式为:A Not B,或者 A-B它表示检出含有A词,但同时不含B词的记录。,December 4, 2022,5.2 截词检索,截词检索(truncation retrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。 检索时,计算机会将所有含有相同部分标识的记录全部检索出来。截词符多采用通配符“?”、“$”、“*”等,因此,截词检索有时也称为通配符(wildcard)检索。按截断的位置来分;按截断的字符数量来分。,De

31、cember 4, 2022,后截断,中截断,前截断,无限截断,如: economic? ?,有限截断,截词检索与截词检索算符,economic,economics,economicst,economicalism,economic,economics,economicst,如: economic*,如:wom?n,woman,women,一般仅允许有限截断,如: ?lish,sul*ur,sulfur,sulphur,无限截断,有限截断,前后截断,如: ?computer?可检出: computer、computers、 computerize、computerized、minicomput

32、er、minicomputers、microcomputer、microcomputers,December 4, 2022,位置检索是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。,5.3 位置检索,December 4, 2022,(W)与(nW)算符,(W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如:输入gas(W)condensate可检索出包含gas condensate 和gas-condens

33、ate的记录。,December 4, 2022,(nW)算符是“nWords”的缩写,表示此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。例如:laser(1W)printer可检索出包含“laser printer”、“laser color printer”和“laser and printer”的记录。,December 4, 2022,(N)与(nN)算符,(N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒, 即查找两个连在一起的单词,但两词之间不能插入任何词。例如:money(N)supply可检索出包

34、含money supply和supply money两个词组的记录。,December 4, 2022,(nN) 算符是“nNear”的缩写,表示此算符两边的检索词之间插入词的最多数目是 n 个,且两个检索词的次序可以任意颠倒。例如:economic(2N)recovery 可以检出包含economic recovery、recovery of the economy 、recovery from economic troubles的记录。,December 4, 2022,(S)算符,(S)算符是“Sub-field/Sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个

35、子字段内(例如在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中检索出含有“high strength 和steel”形式的均为命中记录。,December 4, 2022,(F)算符,(F) 算符是“Field”的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的统一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。要求被连接

36、的检索词出现在统一的字段中,字段类型和词序均不限。例如:environmental(F) impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。,December 4, 2022,5.4 字段限定检索,字段限定检索(field limiting retrieval)是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。(字段标识符:TI 、AU、AB、SO、PY、LA、DE、TN、ID),December 4, 2022,例如:(minicomputer/DE, TI OR personal computer/ID, TI)AN

37、D PY=2008 AND LA=English这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。,December 4, 2022,5.5 其他限定检索,(1)限定网站 【实例】 输入“金庸 古龙 site:”搜索包含“金庸”和“古龙”的中文新浪网站页面。 (2)限定网页【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声笑”。 【实例】输入“inurl ecurity windows2000 site:”查找微软网站上关于windows2

38、000的安全课题资料。,December 4, 2022,(3)限定文件类型filetype的用法:filetype:格式 关键词 OR 关键词 filetype:格式例如:服务器安全 filetype:docfiletype:doc 服务器安全 搜索包含“策划方案”关键词的Office 文件。关键词:“策划方案 filetype:doc OR filetype:ppt”。,December 4, 2022,5.6 加权检索 这种检索是对检索词之间的关系从量上加以限制。通过判定检索词或字符串在检索中对信息命中与否的影响程度,根据权值的大小依序输出结果。 5.7 字符串检索(词组检索或短语检索)

39、 这种检索将字符串当作一个独立的运算单元,进行严格地匹配。 5.8 概念检索 同时对同义词、近义词、广义词、狭义词进行检索。 5.9 深入检索(二次检索) 指在检索结果中作进一步查询,以得到更精确的结果。 5.10 模糊检索与精确匹配 5.11 自然语言检索(Ask Jeeves)、实名检索(3721) 5.12 组合检索: 检索项组合、检索途径组合、分次检索结果组合等、,December 4, 2022,6 信息检索的基本步骤,分析检索课题1.主题概念 2.信息类型 3.时间范围 4.检索目的,构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式,调整检索策略

40、(正式检索)1,信息量过多时 2.信息量太少时,输出检索结果1.文摘2.全文,选择检索系统1.学科范围 2.系统类型3.系统功能,确定检索词 1.切分2.删除3.替补4.组合5.增加,用户评价,December 4, 2022,1 分析检索课题,例如:查找有关消防的文献。所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的)需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类)需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围)。

41、,December 4, 2022,需要系统地掌握某学科的知识,可以选择 图书;需要撰写研究项目的开题报告、论文,开 展技术攻关,可以选择研究报告、科技论 文、学位论文、会议文献等;需要进行发明创造、工艺改革、新产品设 计、引进设备、签订合同,可以选择专利 说明书、标准文献、产品资料等,December 4, 2022,2 选择检索系统,学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。系统类型。首先,在文摘、索引系统和全文数据库系统之间选择。其次,在专业性数据库中去查找。第三,在不同的文献类型系统中选择。系统功能。一般说来,使

42、用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。,December 4, 2022,3 确定检索词,1切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,如“中国科学院”、“电子邮件”,Dece

43、mber 4, 2022,确定检索词,2删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。,December 4, 2022,例2:检索“中国IT业的发展前景研究”方面的相关文献。进行拆分以后,发展、前景、研究这三个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。

44、,December 4, 2022,确定检索词,3替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severe acute respiratory syndrome);,December 4, 2022,确定检索词,4组合 概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。 概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如

45、电视机*数字化=数字电视机。 以上两种组配方式,所得到的新概念,都是原组和概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高检准率的目的。,December 4, 2022,概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。,December 4, 2022,确定检索词,5增加增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑

46、“非”的方法增加限义词。分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。,December 4, 2022,确定检索词,从上述实例可以看出,提取检索词首先是切分、删除,其次是进行替补、组合和增加。在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。,December 4, 2022,4 构造检索式(试验性检索),所谓的检索提问式(query,search formu

47、lation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。,December 4, 2022,构造检索式(试验性检索),简单提问式含一个检索词的提问式;上下文提问式精确短语或近似精确短语的提问式,也可称为短语提问式;复合提问式含有布尔算符和至少2个检索词的提问式;结构性提问式含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。,December 4, 2022,例如: “华中农业大学研究生招生” 计算机*网络安全-病毒 番茄*基因*(果实成熟+果

48、实软化+ 耐贮藏+衰老+滞绿+叶绿素降解) 课题:地震序列分析的工具和方法研究要完成本项检索课题,必须使用结构性提问式:(“sequence analysis” IN TI) AND (method* OR tool* OR instrument*) IN B )AND (Seismic OR earthquake),December 4, 2022,5 调整检索策略(正式检索),所谓检索策略(search strategy)就是为完成检索课题,实现检索目的,对检索的全过程进行谋划之后所制定的全盘检索方案。在实施检索时,应及时分析检索结果与检索的内容、目的和要求是否一致,同时根据检索结果的多少

49、对检索策略进行相应的修改和调整,以获得最佳的查全率和查准率,直至得到比较满意的检索结果为止。,December 4, 2022,调整检索策略(正式检索),1当检索结果信息量过多时原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。,December 4, 2022,考虑缩小检索范围,方法如下:(1)采用专指性强的主题词(主题词表),减少同义词、同族相关词等相关性不强的检索词;(2)增加限制概念,采用“AND” 算符连接检索词或进行二次检索;(3)使用字段限定,把检索词限定在题目、主题词等主要字段;(4)缩短检索

50、年限,限制检索结果的文献类型、语种及出版国;(5)使用“NOT”算符,排除无关概念;(6)调整位置算符,由松变严;(7)改模糊检索为精确检索。,December 4, 2022,2当检索结果信息量太少时原因:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“AND”算符。,December 4, 2022,考虑扩大检索范围,方法如下:(1)根据分类结构体系扩展关键的检索词,用“扩展”按钮增加同义词和相关词并用“OR” 算符连接这些词;(2)降低检索词的专指度,可从词表或检出文献中选择上位词或泛指词补充到检索式中;(3)减

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号