信息检索的基础知识ppt课件.ppt

上传人:小飞机 文档编号:1402026 上传时间:2022-11-19 格式:PPT 页数:77 大小:2.55MB
返回 下载 相关 举报
信息检索的基础知识ppt课件.ppt_第1页
第1页 / 共77页
信息检索的基础知识ppt课件.ppt_第2页
第2页 / 共77页
信息检索的基础知识ppt课件.ppt_第3页
第3页 / 共77页
信息检索的基础知识ppt课件.ppt_第4页
第4页 / 共77页
信息检索的基础知识ppt课件.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《信息检索的基础知识ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索的基础知识ppt课件.ppt(77页珍藏版)》请在三一办公上搜索。

1、第二节 信息检索的基础知识,2.1 信息检索的概念广义:指将信息按一定的方式组织和存储起来,并根据用户的需要检出所需信息的过程。包括信息存储和信息检索两个过程。信息存储:将大量无序的信息集中起来,根据其外表特征和内容特征,经过加工,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或系统。 外表特征:题名、著者、出版事项等 内容特征:分类号、主题词等 信息检索:指运用编制好的检索工具或系统,从信息集合中查找并获取与用户提问相关的信息的过程 。,狭义,信息源,筛选信息,概念分析,概念转换成检索语言-标引,信息检索系统,概念转换成检索语言-提问,概念分析,需求分析,信息用户,检索策略

2、,存储过程,检索过程,信息检索原理,检索结果,2.2 信息检索的类型 根据检索对象的不同,信息检索分为:,信息检索的类型,文献检索与数据检索、事实检索的关系,文献检索:相关性检索,只检索出包含所需知识信息的文献,不直接解答用户所提出的具体问题。数据检索、事实检索:确定性检索,检索出包含在文献中的知识信息,检索结果可供用户直接利用。通常,文献检索通过二次文献来实现,是信息检索中最基本、最主要的形式。而数据与事实检索则一般是通过三次文献来完成。,2.3 信息检索工具2.3.1 概述指用来存储、报道和查找各类信息线索或特定数据和事实的工具或系统。主要包括: (1)二次、三次印刷型手工检索工具 (2)

3、面向计算机和网络的各种数据库检索系统 (3)搜索引擎等网络检索工具,2.3.2 检索工具的作用 a. 报道作用:报道已经公开或发表的相关领域的信息及线索。 b. 存储作用:将已经公开或发表的信息及线索按一定方式存储起来,供用户检索利用。 c. 检索作用:供读者查找信息及线索。,信息检索工具,2.4 二次文献的分类分类:目录、题录、文摘、索引(1) 目录(Catalog):是以“本”为报道单位,它主要用于反映文献(图书、期刊等)的出版情况或收藏情况,揭示文献外部特征(题名、著者、出版事项等)的检索工具。例:馆藏目录:反映一个图书馆文献收藏情况的目录。联合目录:反映一个地区或一个系统甚至全国或世界

4、范围的图书馆、信息服务机构文献收藏情况的一种统一目录。,石家庄铁道大学图书馆馆藏目录,点击题名可查看馆藏地址。,二次文献,中国高等教育文献保障系统(Calis)联合目录,点击题名可查看该文献信息及收藏单位。,(2) 题录(Title):是以 “篇” 为报道单位,揭示文献(期刊论文、会议论文、学位论文、图书章节等)外部特征(篇名、作者、出处等)的检索工具。,中国学术期刊网络出版总库中的部分题录信息,CCC中的部分题录信息,二次文献,(3) 文摘(Abstract):也是以 “篇” 作为报道单位,描述文献外部特征和内容特征的检索工具。比题录多了一个内容摘要项。,中国学术期刊网络出版总库中的部分文摘

5、信息,SCI中的部分文摘信息,二次文献,(4) 索引(Index):是将文献中具有检索意义的事项,按照一定方式有序编排起来,供读者查检使用的一种附属性的检索工具,通常称为辅助索引,起指引作用。常用的索引类型有:分类索引、主题索引、著者索引、引文索引等。,二次文献,超星数字图书馆的分类索引,EI的 主题词(受控词)索引,EI的作者索引,SCI的某篇文章的引文索引,2.5 文献检索的方法,(1) 追溯法指以已有的文献后面所附的参考文献为线索查找相关文献的方法。 向前追溯法:从一篇有价值的论文出发,利用其后所附的参考文献,查找其引用了哪些文献。由近及远的回溯,越查越深,获取更多相关文献。来龙 向后追

6、溯法:找到一篇有价值的论文后,进一步查找该论文被哪些其它文献引用过。由远及近地追寻,越查资料越新,研究也就越深入。去脉美国科学引文索引(SCI)通过揭示文献的引用与被引用关系来报道文献。,文献检索方法,(2) 常用法:利用常规检索工具查找有关文献的方法 顺查法按课题的起始年代,按时间顺序由远及近逐年查找。用于掌握课题研究的进展及过程,一般用于撰写研究综述。 倒查法以当前时间为起点,由近及远逐年查找文献。一般用于新开课题,以便掌握最近一段时间该课题达到的水平及研究动向。 抽查法根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集中查找。,文献检索方法,(3) 综合法(循环法或分段法)常

7、用法+追溯法。即利用常用法检索出一批有用文献,然后利用这些文献所附的参考文献由近及远,或这些文献被引用情况由远及近地查找。如此分段交替循环进行,从而可得到大量相关文献。,文献检索方法,2.6 文献检索的途径,指利用文献的各种特征检索标识,通过检索工具查找所需文献的过程。 (1)分类途径按文献内容所属的学科类别来检索文献,使用的检索语言是分类语言。分类法体现知识的系统性,它能把同一学科的信息集中在一起。,中国知网:分类号TU37混凝土结构方面的文章,(2)主题途径从文献内容的主题概念出发,按确定的主题词来检索文献主题法打破了传统的学科分类的框框,把分散于各个学科的有关信息集中于同一主题词之下。,

8、文献检索途径,EI:主题词Civil Engineering土木工程方面的文章,文献检索途径,(3)题名途径书名、刊名、篇名等(4)关键词途径(5)作者途径(5)机构途径(6)引文途径从文献的引用和被引用关系查找相关文献。(7)代码途径文献号码(报告号、专利号、标准号等) (8)其他途径例:美国化学文摘中的“分子式索引”,一、概述二、分类语言三、关键词语言四、主题词语言,第三节 检索语言,3.1 概述检索语言是根据文献信息的存储和检索的需要而创制的一种人工语言,又称检索标识。信息存储:用来描述文献的内容特征和外部特征,形成检索标识。信息检索:用来描述检索提问,形成提问标识。当提问标识与检索标识

9、完全匹配或部分匹配时,即可命中所需文献信息。,检索语言,自然语言,检索语言的分类,描述内容特征语言,分类号,检索语言,主题词(叙词),描述外表特征语言,关键词,检索语言,人工语言,分类语言,题名(书名/刊名/篇名)著者(作者)出版事项(出版者、出版地)代码(标准号、专利号、报告号、 ISBN号、ISSN号),3.2 分类语言,检索语言,按学科范畴从上至下、从总体到局部层层划分、展开,形成一种直接体现知识分类的等级制概念的标识系统。每个学科类目都用相对固定的代码作为标识分类号 每一个分类号代表一个特定的知识概念。特点:集中体现学科的系统性,反应事物的从属、派生关系,便于按学科门类进行族性检索。最

10、常见的是体系分类语言,3.2.1 体系分类语言 国内:中国图书馆分类法(简称“中图法”)中国科学院图书馆分类法(简称“科图法”)中国人民大学图书馆分类法(简称“人大法”)。国外:杜威十进分类法国际十进分类法等中国图书馆分类法是国家推荐统一使用的分类法,分类语言,3.2.2 中图分类表的结构(1) 基本部类 (5个)(2) 基本大类 (22个)(3) 简表(4) 详表(5) 辅助表,分类语言,中国图书馆分类法,分类语言,中国图书馆分类法,分类语言,其中“T工业技术”大类范围广泛,内容繁多,故又在该类基础上采用了双位拉丁字母标记其所属的16个二级类目。,分类语言,简表:又称为基本类目表,是分别对每

11、个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表 。 如:O 数理科学和化学 一度划分: O1数学 O3力学 O4物理学 O6化学 O7晶体学,分类语言,O1 数学,二度划分:O11古典数学O12初等数学O13高等数学O14数理逻辑、数学基础O15代数、数论、组合理论O17数学分析O18几何、拓扑O19动力系统理论,分类语言,详表:整个分类法的正文,亦称正表,由简表进一步细分而成的最小概念性分类表,是类分信息资料的依据,两万个。 O17 数学分析 O171分析基础 O172微积分 O172.1微分学 O172.2 积分学,分类语言,中国图书馆分类法,分类语言,3.2.3 杜威

12、十进分类法(DDC),世界上流传最广影响最大的分类法 在美国有95的公共图书馆在使用,分类语言,DDC第21版的类目共有10大类,000 计算机、信息与总类100 哲学和心理学200 宗教300 社会科学400 语言500 科学(指自然科学)600 技术应用科学700 艺术和娱乐800 文学900 历史、地理,分类语言,3.3 主题词语言,定义:国外称叙词,是以概念为基础,经过严格规范化,通过概念组配方式表达文献主题的规范化的词或词组。属于人工语言,经规范化处理。(由文献加工者提取) 如:电脑、微机(不规范词)计算机(规范词)。受主题词表(叙词表)控制优点:检索结果准确而全面缺点:需要查阅主题

13、词表常用INSPEC的词表INSPEC Thesaurus、EI的EI Thesaurus及我国编辑出版的汉语主题词表等。,主题词语言,从文献的题名和内容中抽取出来的,能够表达主题内容的具有检索意义的关键性词汇。 属于自然语言,未经过规范处理。(由文献作者提取) 没有固定词表,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。 优点:一是有利于计算机自动抽词标引,适合于电子信息资源的标引和检索。二是符合习惯、容易接受。,3.4 关键词语言,关键词语言,缺点:查全率、准确率较差。 同义词标引引起漏检;多义词标引引起误检 例:同义词,飞机: Airplane、Aircraft、P

14、lanes 多义词, cell : 电池、细胞,关键词语言,主题词是经过人工规范的词汇关键词是没有经过规范的自然语言词汇如:图书馆在标引“土豆”、“洋芋”等方面的文献时用“马铃薯”这一规范词。 主顾、顾客、购物者、消费者、使用者、读者等用“用户”这一规范词来表达。主题词可以很好地避免漏检,提高检全率。,主题词与关键词的区别,分类法与主题法的区别,分类法以学科性质类分文献,它以学科集中文献,属于族性检索,可能造成事物主题文献的分散。主题法以主题词概括文献内容,以事物主题集中文献,属于特性检索, 它可能造成学科文献的分散。 例如:地下工程系统分析与设计这本书进行标引 分类标引:考虑本文主题内容所属

15、学科及隶属关系:“工业技术建筑科学地下建筑”,相应分类号TU92。 主题标引:不需考虑其所属学科专业,直接用描述内容主题词“地下工程“、”系统分析”标引即可。,第四节 计算机检索技术,一、计算机检索系统二、检索提问式三、计算机检索步骤,依检索手段,信息检索分为:手工检索:使用印刷型(书本式)的检索工具 计算机检索:运用计算机技术、网络通信技术,通过数据库系统实现检索。,4.1 计算机检索系统,4.1.1 发展历程脱机批处理信息检索联机检索系统 光盘检索系统Internet网络检索,脱机批处理检索阶段(50年代中期至60年代中后期)1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世

16、界上第一个计算机检索系统。20世纪50年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”系统。利用单台计算机进行检索。过程:检索机构把多个用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户。特点:委托专业人员批量检索,用户不能在检索过程中与主机进行“对话”和浏览文献,不能及时修改检索策略,不能及时获得检索结果。,发展历程,联机检索阶段(60年代中后期80年代)20世纪60年代末,数据通讯网络出现,大容量计算机分时操作系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。终端/主机结构,由联机检索中心、通讯网

17、、检索终端等三部分组成。特点: (1) 无需委托。检索过程是“人机对话”式,用户直接检索,及时修改检索策略。 (2) 检索指令复杂,多为专业检索人员才能熟练使用。 (3) 只对授权用户开放。按时计费,检索费用昂贵。,发展历程,光盘检索阶段(80年代中期开始)1985年出现CD-ROM数据库,利用计算机设备对只读式光盘数据库进行检索。单机光盘检索系统:提供单用户、单机的使用,系统结构简单,但数据量少。光盘网络系统 :将光盘放在光盘塔或光盘库中,由服务器管理运行。一般只提供在局域网上检索,如图书馆网、校园网等,网上用户可以分时共享光盘数据库的资源。特点: (1) 系统配置简单,实行菜单检索,系统操

18、作简单。 (2) 光盘数据库具有容量小的局限性、数据更新慢。,发展历程,Internet网络检索阶段(从90年代开始)随着互联网的迅速发展及超文本技术的出现,基于B/S(浏览器/服务器)的检索软件的开发,将原来的主机系统转移到Web服务器上,使B/S(浏览器/服务器)联机检索模式开始取代以往的终端/主机结构。特点: (1)实现了任何时间、任何地点的检索。 (2)操作简单,适合大众检索。,发展历程,DIALOG国际联机检索系统,简介 是目前世界上最大的国际联机情报检索系统,覆盖各行业的900多个数据库。内容涉及自然科学、社会科学、工程技术、人文科学、时事报道及商业经济等各个领域。是全球最大的专业

19、信息供应商。功能 利用DIALOG系统,可进行项目查新、文献调研、课题立项、申报专利、了解市场动态和竞争对手、新产品开发、公司的背景情况、经济预测等等信息。,OCLC国际联机检索系统,OCLC,即联机计算机图书馆中心,创立于1967年,是一个不以盈利为目的、提供图书馆服务的会员制研究组织。 1991年,OCLC推出FirstSearch数据库,把原有的联机检索服务扩展为综合的、基于Web的联机参考服务系统,目前发展成为全世界使用量最大的交互式联机检索系统。面向最终用户,界面直观、操作简单、提供多种语言界面、多种辅助检索工具,方便非专业检索人员使用。当前利用FirstSearch可以检索到86个

20、数据库,内容覆盖15个主题范畴的各个学科领域。,http:/www.oclc.org/asiapacific/zhcn/default.htm,4.1.2 数据库(1) 概念数据库:指长期存储在计算机存储设备上的、可供计算机快速检索的、有组织的、可共享的数据集合。本课程所指数据库是指包含文献信息有关数据的机读记录的有序集合。计算机检索系统数据库:一定专业范围内信息记录及其索引的集合体。,(2) 数据库结构,由字段记录文档三个层次构成,字段(Fields):组成记录的数据项(检索项),一个字段代表一项特征。,计算机检索就是通过字段检索,查找满足条件的记录。,记录(Record):数据库的基本信息

21、单元,每条记录都描述了原始信息的各项外表特征和内容特征。,计算机检索的目的就是查找符合条件的记录。,文档,记录,字段,文档(File) :是机读记录的有序集合,由记录及其索引组成。,各文档的集合,数据库(Database):是文档的集合。,综合性数据库:多按学科划分文档,(3) 数据库的记录格式,数据库,存取号字段基本索引字段 篇名字段(TI)-Title 文摘字段(AB)-Abstract 关键词字段(KY)-Keyword 叙词字段(DE)-Descriptor 自由词字段(ID)-Identifier全文检索辅助索引字段 著者字段 (AU)- Author 期刊名称字段 (JN) -Jo

22、urnal 语种字段(LA)-Language,4.2 检索提问式,采用计算机信息检索系统规定使用的组配符号(也称为算符)将反映不同检索途径的检索单元组合在一起而形成的一种逻辑运算表达式。1、布尔逻辑运算符2、位置运算符3、精确检索符4、限制符号(截词符),举例:查“计算机”方面的文章 计算机 or 电脑 or 微机 计算机 + 电脑 + 微机,检索提问式,4.2.1 布尔逻辑算符把一些具有简单概念的检索词通过布尔逻辑算符组配成为一个具有复杂概念的检索式,用来准确表达检索提问。 (1) 逻辑“或”:并列概念关系的一种组配,通常用 or 或 + 表示,有助于扩大检索范围,提高查全率,防止漏检。如

23、:A or B 、 A + B表示它所连接的两个检索词(A、B)中有任何一个出现在检索结果中就满足检索条件。,举例:查“分布式网络系统”方面的文章 分布式 and 网络系统 分布式 * 网络系统,检索提问式,(2) 逻辑“与”:交叉概念关系和限定关系的一种组配。通常用 and 或 * 表示,可以缩小检索范围,提高查准率,防止误检。如:A and B 、 A * B表示它所连接的两个检索词(A、B)必须同时出现在检索结果中才满足检索条件。,举例:查不含公路运输的交通运输方面的文章 交通运输 not 公路 交通运输-公路,检索提问式,(3) 逻辑“非”:不包含某种概念关系的一种组配。通常用not或

24、 - 表示。如:A not B 、 A - B表示它所连接的两个检索词中,应从第一个概念中排除第二个概念。,检索提问式,(4) 优先算符:( ) 可以改变布尔逻辑的正常运算次序。 布尔逻辑运算次序为: 非(not)与(and)或(or) 例如: 大学生 or 研究生 not 就业 (大学生 or 研究生) not 就业 两者检索结果不同。,检索提问式,4.2.2 位置运算符限定“位置算符”两边的检索词出现在记录中的位置。(1)(W)算符With:要求检索词必须按指定顺序紧密相连,词序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母。(nW):表示连接的两个词之间最多可加入n个词,词

25、序不可颠倒。,例如:building (W) construction :可检出: “building construction” “building-construction” 又如:air(2W)Pollution :可检出: “air pollution” “air environment pollution” “air and noise pollution”,检索提问式,检索提问式,(2) (N)算符Near:要求被连接的检索词必须紧密相连,词序任意,词之间除允许有空格、标点、连字符外,不得夹单词或字母。 (nN)表示两个检索词之间最多可加入N个词,词序任意。,例如: interne

26、t(N)accessing 可以检出 “internet accessing”互联网接入 “accessing internet”访问因特网又如: environment(2N)protection,可检出: “environment protection” “environment resource protection” “protection of environment” “protection of water environment”,检索提问式,(3) F算符(Field)表示两个检索词必须同时出现在同一个字段内,两词的词序和中间插入的词数不限。例如: pollution(F)c

27、ontrol/Ti表示检索同一字段中含有pollution 和control的文献。如题名字段、文摘字段、关键词字段,检索提问式,(4) Same算符检索词必须出现在同一句子中(指两个句号之间的字符串),检索词在句子中的顺序和位置是任意的。例如: education Same school 表示检索某一句子中education 和 school 的文献。,使用位置算符要注意的问题:主要应用于英文数据库多数用于数据库的专业检索方式(需输入检索指令的检索)不同的数据库用到的位置算符不一样,使用前查看检索提 示或相关帮助,检索提问式,4.2.3 精确(exact)检索:两个或多个词不能拆开,不能互换

28、位置,中间不能插入任何字符。提示:不同的数据库对精确检索的规定不一样。有的使用“ ”、,如EI:“intelligent control”有的使用空格,如IEE/IEEE:凵intelligent control凵;还有一些数据库通过特定程序控制。,检索提问式,4.2.4 截词符是指用给定的词干做检索词,查找含有该词干的全部检索词的记录。“*” ,或 “?”,防止漏检,提高查全率。(1) 无限制截词 “ * ”一般用于词尾,即“ 词干* ”,后截断,表示词干后面的字符位数不受限制。如 economic*,可检索: economic 、economics、economicst、economica

29、lism , 。也有用于词中间的, 中间截断,如sul*ur,可检索:sulfur、sulphur , 也有用于词前的, 前截断,如*magnetic,可检索:magnetic, electro-magnetic, electromagnetic, ,检索提问式,(2) 有限制截词“ ? ”在词尾、词中加有限个 “?”号。n个“?”号表示添加的字符数少于等于n个。如:smok?,可检索:smoke, smoky, smoker, wom?n ,可检索:woman, women。,检索提问式,检索实例,1、工程造价 and(控制 or 管理) 2、TI= 青藏铁路 * AU=朱永权 * AF=(

30、石家庄铁道大学 or 石家庄铁道学院),检索提问式,4.3 计算机检索步骤,71,1、课题分析:明确检索需求、确定查找范围,检索目的:大致分为三种类型普查型 需要全面收集有关某一主题的文献资料,强调“查全率”。如查新攻关型 需要收集某一特定方面的文献资料,旨在解决科研生产中的关键问题。探索型 了解和掌握某一领域的研究现状,最新研究动向和研究成果,要求查到的文章具有新颖和及时的特点。查找范围:主题、学科范围,文献类型,年限,语种,计算机检索步骤,2、选择数据库,书目数据库,文摘数据库,数据、事实数据库,WWW,全文数据库,计算机检索步骤,3、确定检索词及检索途径,(1)确定检索词: 将所有和主题

31、相关的关键词和短语标出来。如可能,查主题词表,利用规范的检索词。 删除没有检索意义的词、存在蕴含关系可合并的词 例如:研究、探讨、讨论、系统(2)选择检索途径:主题词、题名、关键词、作者等,计算机检索步骤,4、构造检索式,注意:在构造检索表达式之前一定弄清所用数据库的检索功能和支持的操作算符。,用布尔逻辑符、截词符、位置符、精确符等连接检索词,来表达检索词之间的逻辑关系。,5、实施检索,6、修改检索策略,检索结果过多缩小检索范围检索结果过少扩大检索范围检索结果相关度小修改检索词、检索式,更换检索工具,7、获取原文,a. 馆藏目录、文摘数据库查找原始出版物,如图书、期刊、学位论文等b. 全文数据

32、库直接下载原文c. 文献传递通过图书馆的原文传递服务d. 其他方式,计算机检索步骤,第1步:标出和主题相关的关键词 神经网络在旋转机械故障诊断中的应用研究第2步:删除不必要的检索词 删除“应用”和“研究第3步:对核心词进行补充和扩展 神经网络人工智能(上位词) 故障诊断故障定位、故障检测第4步:选择检索途径题名、关键词、主题词等。第5步:构造检索式(检索词之间的关系)DE=(神经网络 or 人工智能) and TI=旋转机械 and KY=(故障诊断 or 故障定位 or 故障检测),课题:神经网络在旋转机械故障诊断中的应用研究,计算机检索步骤,以主题检索为例,以关键词检索为例,旋转机械以题名检索为例,举例:我国城市轨道交通经营模式研究,(1)分析课题,明确目的(2)选择检索系统和数据库(3)确定检索词及检索途径 检索词:轨道交通、经营、模式 检索途径:题名途径、关键词途径、主题途径(4)构造检索式(以题名、关键词检索为例) KY=轨道交通 * TI=(经营 * 模式)(5)检索(6)调整检索策略 KY=(轨道交通+地铁+轻轨) * TI= (经营+运营+运作) * TI= (模式+方式)(7)输出检索结果,计算机检索步骤,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号