信息检索基本知识及技巧.ppt

上传人:小飞机 文档编号:5229992 上传时间:2023-06-16 格式:PPT 页数:61 大小:1,016KB
返回 下载 相关 举报
信息检索基本知识及技巧.ppt_第1页
第1页 / 共61页
信息检索基本知识及技巧.ppt_第2页
第2页 / 共61页
信息检索基本知识及技巧.ppt_第3页
第3页 / 共61页
信息检索基本知识及技巧.ppt_第4页
第4页 / 共61页
信息检索基本知识及技巧.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《信息检索基本知识及技巧.ppt》由会员分享,可在线阅读,更多相关《信息检索基本知识及技巧.ppt(61页珍藏版)》请在三一办公上搜索。

1、1,2023/6/16,信息检索基本知识及技巧 The principles and skills on information retrieval,主 讲 人:施 亮Lecturer:caesar,shi,2,2023/6/16,目录 outline,信息检索的定义、分类及其作用,二 检索语言,三 检索的效率、手段和方法,3,2023/6/16,信息检索的定义、分类及其作用,1.1 信息检索的定义 信息检索(Information Retrieval):,是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information

2、Storage and Retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。,4,2023/6/16,1.2 信息检索的手段,(1)手工检索 eg:美国工程索引(2)光盘检索 eg:medline(3)网络检索 eg:springerlink,5,2023/6/16,1.3 信息检索的对象,(1)文献检索(Document Retrieval):是以文献(包括题录、文摘和全文)为检索对象的检索。可分为全文检索 和书目检索两种。(2)事实检索(Fact Retr

3、ieval):是以某一客观事实为检索对象,查找某一事物 发生的时间、地点及过程的检索。(3)数据检索(Data Retrieval):是以数值或数据(包括数据、图表、公式等)为对象的检索。,6,2023/6/16,1.4 信息检索的作用,(1)信息检索是获取知识的捷径 eg:princeton的学生 约翰菲利普 利用图书馆公开资料设计原子弹。(2)信息检索是科学研究的向导 eg:(美)阿波罗飞船的燃料箱的重复研究问题。(3)信息检索是终身教育的基础 unesco:可以防止知识老化,不断更新知识,7,2023/6/16,二 信息检索的要素,(1)前提信息意识/信息素养 information l

4、iteracy,新闻阅读:武汉的士起步价调为两公里16元 12月1日起执行 看到标题,能联想到什么?,从信息认知、信息情感 和 信息行为 三个方面进行分析!,8,2023/6/16,(2)基础信息源,A、信息的载体:印刷型 缩微型 机读型 声像型,9,2023/6/16,B、信息的内容和加工级次:一次文献 二次文献 三次文献,10,2023/6/16,C、信息的出版形式:,图书期刊会议资料学位论文专利标准报告百科全书、类书,11,2023/6/16,图书的检索途径主要用到:书名 作者 出版社 ISBN 关键词,期刊的检索途径主要用到:刊名 篇名 作者 关键词 ISSN,12,2023/6/16

5、,会议论文的检索途径主要用到:会议名称 主办单位 会议地点 关键词 作者 会议文章篇名,学位论文的检索途径主要用到:作者 学位授予单位 导师姓名 关键词 论文篇名,13,2023/6/16,专利资料的检索途径主要用到:关键词 专利权人 发明人 国际专利分类号 公开号,标准资料的检索途径主要用到:标准编号 标准名称 发布单位 发布日期 关键词,14,2023/6/16,报告资料的检索途径主要用到:报告号 关键词 作者 报告单位 合同户报告代码,百科全书、类书资料的检索途径主要用到:音 形 义,15,2023/6/16,(3)核心信息利用能力,掌握各种信息源掌握检索语言熟练使用检索工具对检索结果的

6、评价,判断,16,2023/6/16,附:期刊的指数计算,(1)影响因素,=,该年引用该刊前两年文章的总次数,当年该刊所发表文章的总数,即年指标,前两年该刊所发表文章的总数,=,一特定年度对该刊当年发表文章的引用次数,影响因素是一种期刊中论文的平均被引率,特定年度的影响因素,用于测度一种期刊被利用的速度,也是测度期刊重要性的依据,即年指标,17,2023/6/16,自引率与被引率,自引率是指一种期刊中引用本刊的参考文献对全部参考文献之比;被自引率是一种期刊被本刊中文章引用的次数与该刊被引用的总次数之比。,=,自引率,某刊自引的引文量,该刊全部引文量,被引率,=,某刊自引的引文量,某刊被引用的总

7、次数,18,2023/6/16,二 检索语言,2.1 按表现形式划分的检索语言 外表特征语言 内容特征语言,19,2023/6/16,外表特征:就是文献上记明的、显而易见的特征。,外表特征语言(书目引文语言),题名(书名、篇名)著者姓名文献序号(如:ISBN、ISSN、专利号、报告号等)书目引文出版事项文献类型,20,2023/6/16,内容特征语言,非句法语言,句法语言,等级制体系分类法,标题词,关键词,叙 词,单元词,加标志的叙词,组面词(如:组面分类法),短 语,文献全文的自然语言,21,2023/6/16,2.2 按应用功能划分的检索语言 分类语言 主题语言,22,2023/6/16,

8、2.21 分类语言,是用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科体系的逻辑次序将信息资源系统地加以划分和组织的语言。分类语言能反映事物的从属派生关系,便于按学科门类进行族检索。,23,2023/6/16,杜威十进分类法 Dewey Decimal Classification,DC/DDC,美国M.杜威编制的综合性等级列举式分类法。分为详、简两种版本,详本于1876年问世,取名为图书馆图书小册子排架及编目适用的分类法和主题索引,1951年的第15版改名杜威十进分类法,000总论 100哲学 200宗教 300社会科学 400语言 500自然科学和数学 600技术(应用科学)

9、700艺术、美术和装饰艺术 800文学 900地理、历史及辅助学科,第一层,展开层,630农业 631农业经营 631.5作物栽培,24,2023/6/16,通用十进制图书分类法 Universal Decimal Classification UDC,十进制图书分类法由两位比利时书目专家(Paul Otlet、Henri la Fontaine)19世纪末在杜威十进制图书分类法的基础上继续研发的分类方法。此种分类方法由数字和特殊符号组成,把涉及各种知识体系及学科的书籍予以分类。介于数字和符号无语言障碍的特性,该分类法在世界各地的图书馆中被广泛应用。,总分类,0 总汇 1 哲学,心理学 2 宗

10、教,神学 3 社会学,政治,经济,法律,教育,人类学 4 暂无(由图书馆具体添加)5 自然学科,数学 6 实用学科,医学,科技,企业经济学,计算机 7 艺术,手工艺品,音乐,竞技,体育 8 语言学,文学 9 地理,生物,历史,25,2023/6/16,附加,+:并列符(例:178.1+33 酒精主义者 和 国民经济):关系符(例:178.1:33 酒精主义对国民经济的影响)/:包含符(例:592/599 系统动物学,从592到599)=:语言符(例:=71 拉丁语)(0.):书类符(例:(042)演讲,讲义)(.):地域符(例:(234.3)阿尔卑司),26,2023/6/16,美国国会图书馆

11、图书分类法 Library of Congress Classification,27,2023/6/16,第一层,28,2023/6/16,末层,29,2023/6/16,中国图书馆图书分类法Chinese Library Classification,CLC,中国图书馆分类法,简称中图法。包括“马列主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书五大部类,22个基本大类,具体如下:,30,2023/6/16,中国科学院图书馆图书分类法简称科图法。1958年由中国科学院图书馆编写,1974年、1979年、1994年分别进行了修订。分为25大类。,中国科学院图书馆图书分类法,31,202

12、3/6/16,国际专利分类法 International Patent Classification,IPC,关于国际专利分类斯特拉斯堡协定与1975年10月7日生效,它为发明专利,包括出版的专利申请书、发明证书说明书、实用新型说明书(一下简称为“专利文献”)提供了一种共同的分类。分类表示使各国专利文献获得统一分类的一种工具。它的基本目的是作为各专利局以及其他使用者在确定专利申请的新颖性、创造性(包括对技术先进性和实用价值作出评价)而进行的专利文献检索是的一种有效检索工具。,32,2023/6/16,33,2023/6/16,34,2023/6/16,35,2023/6/16,36,2023/

13、6/16,37,2023/6/16,38,2023/6/16,39,2023/6/16,40,2023/6/16,41,2023/6/16,42,2023/6/16,43,2023/6/16,44,2023/6/16,技术主体的分析,45,2023/6/16,2.22 主题语言,46,2023/6/16,47,2023/6/16,INSPEC 叙词表举例:Locomotive NT diesel-electric locomotive BT vehicles TT vehicles RT rail traffic railways traction CC B8520-n C3360D FC b

14、8520-n c3360De DI January 1973,1、下位叙词2、上位叙词3、族首词4、相关词5、INSPEC数据库 使用的分类号6、输入到INSPEC 数据库使用的 分类号7、该叙词的启用日期,英国电气工程学会(Institute of Electric Engineering 简称 IEE)下设的国际物理和工程信息服务部(International Information Services for the Physics and Engineering Communities,简称 INSPEC),48,2023/6/16,三 检索的效率、手段和方法,3.1 检索效率评价,49

15、,2023/6/16,3.2 索引语言中改善查全率的措施,(1)同义词控制法,是指当一个概念具有多个同义词的时候,为了保证标引与检索的一致性,避免文献的分散和漏检,指引词汇的使用者从其他的同义词找到一个被专门选择作为正式主题词的词的用法。例如:用符号 USE、SEE、Y(用)从正式词引见非正式的词,则用 USE FOR、D(代),50,2023/6/16,(2)词的关联法,索引词的关联,最普通的形式是等级上的关联。,例如:A、由专指词到较泛指的词,使用符号 BT(broader term),或者 S(属)B、由泛指词到较专指的词,使用符号 NT(narrower term),或者 F(分)C、

16、由指向近义的词,使用符号 RT(related term),或者 C(参),或 see also(参见),51,2023/6/16,汉语主题词表词的关联举列,交流发电机F 同步发电机 异步发电机S 发电机,交流换向电机D 交流整离子电机S 交流电机Z 电机C 调速电动机 异步电动机,52,2023/6/16,(3)字形的控制法,即把具有同一词根的字组合在一起。当然这不是提供标引的措施,而是提供检索用的辅助手段。在计算机检索中,是采用截词实现的:例如:“反射”、“反射波”、“反射性”、“反射望远镜”等。都有 reflect,用 reflect 进行截词检索,就能检索出与“反射”有关的 所有文献。

17、,53,2023/6/16,(4)聚类法,在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多的文献,从而改善查全性。例如:“枯萎”是与“庄稼”、“植物生长”联系在一起的,如果“锈菌”也是常与“植物生长”等词联系在一起的话,我们就可以推断“枯萎”与“锈菌”之 间存在某种联系。,54,2023/6/16,3.3 索引语言中改善查准率的措施,组 配,即两个或两个以上概念的组合,有两种组配形式,先组和后组。,先组式是指概念之间的组合是在词表编制阶段就已经定义好的,组配后的符合概念成为供标引的完整索引词。心理声学(是心理学与声学的组配)蒸发冷却(是蒸发与冷却的组配),后组式是指在检索阶段把

18、两个或两个以上的有关索引词进行组合。“计算机”与“设计”,55,2023/6/16,先组式有助于提高索引词的专指度,减少标引到每个词的文献数量,减少和避免假组配,从而有利于查准率。但是先组式的词在数量上是有限的,不能适应各种角度和深度的符合概念检索。后组式便于各种角度和深度的检索,有利于查准率的提高,但是可能出现假组配,致使误检的增多。,对于先组和后组式的评价,56,2023/6/16,3.4 计算机检索语言,(1)布尔逻辑检索功能,逻辑或(OR、+),检索项 A、B 若用“逻辑或”组配,则逻辑式为“A OR B”,或者“A+B”,A,B,表示被检索的文献只要包含有其中的一个检索项,或者同时含

19、有这两个检索项,那么它就会被命中。,57,2023/6/16,逻辑与(AND、*),检索项 A、B 若用“逻辑与”组配,则逻辑式为“A AND B”,或者“A*B”,A,B,表示被检索的文献必须同时含有两个检索项才能被命中,58,2023/6/16,A,逻辑非(NOT、),检索项 A、B 若用“逻辑与”组配,则逻辑式为“A NOT B”,或者“A B”,B,表示被检索的文献在含有A检索项而不含有B检索项是才能被命中。,59,2023/6/16,(2)截词符,截词符可以避免逐词输入带来的麻烦,还可以扩大查全率,截词可以 截前、截后、中间截断。例如:?S Comput?结果为:computable

20、 computation compute computer?S con*t结果为:connect convert,60,2023/6/16,六、计算机检索语言,Optimization models,Geraldine Heilporn,European Journal of Operational Research,AND,AND,选择布尔逻辑符号,输入检索主题词,标题,作者,来源,选择主题词的限定字段,(3)布尔逻辑在数据库检索中的应用,61,2023/6/16,test bed wn ALL AND atm networks wn TI(window wn TI AND sapphire wn TI)OR Sakamoto,K*wn AU,美国工程索引的专家级检索方式,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号