计算机信息检索基础ppt课件.ppt

上传人:小飞机 文档编号:1438686 上传时间:2022-11-24 格式:PPT 页数:61 大小:2.65MB
返回 下载 相关 举报
计算机信息检索基础ppt课件.ppt_第1页
第1页 / 共61页
计算机信息检索基础ppt课件.ppt_第2页
第2页 / 共61页
计算机信息检索基础ppt课件.ppt_第3页
第3页 / 共61页
计算机信息检索基础ppt课件.ppt_第4页
第4页 / 共61页
计算机信息检索基础ppt课件.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《计算机信息检索基础ppt课件.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基础ppt课件.ppt(61页珍藏版)》请在三一办公上搜索。

1、文献信息检索 Information Retrieval,第二讲 计算机信息检索基础,“信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异 每日新增网页近百万张最新统计:全球网站数量愈突破2.5亿个 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2010年每10小时翻一番,利用计算机对信息和数据的高速处理能力来实现信息的存储与检索。,一、 计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,计

2、算机信息检索特点,检索速度快效率高,检索方便实现资源共享,检索内容新数量大,手段灵活途径多样,快速准确地获得结果,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,二、检索软件类型,检索软件即用户与系统对话的界面, 可分为以下两种:,指令检索示例,肝肿瘤 and (铜 or 铁) and py=2005,菜单检索示例,三、数 据 库,数据库定义,数据库结构,数据库类型,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,2、数据库结构 Framework of Database,字段名称及代码,基本字段: 字段名称 段码文摘(Abstracts) AB题目(Title W

3、ord) TI主题词(Descriptor) DE标识词(Identifier) ID辅助字段: 作者 (Authors) AU 作者单位(Corporate Source) CS 刊名(Journal Name) JN 年代( Publication Year ) PY,3、数据库类型 types of databases,文献数据库,书目数据库(bibliographic database),存储二次文献,其检索结果是文献的线索而非原文。 如BKSY,全文数据库(full text database),存储一次文献提供原始文献全文,数值数据库(numeric database),主要存储用

4、数值表达的量化信息 WHO 的世界卫生统计数据,事实数据库(fact database),主要存储三次文献(what、where、when、who、why、how)类信息中国大百科全书Marriam Webster Dictionary提供的大不列颠百科全书免费查询,多媒体/超文本数据库multimedia/hypertext database,同时存储声音、图像、文字等的超文本信息。,检索者如何让计算机实现自己的检索意图?,四、检索提问表达式,检索提问表达式检索词运算符,(一)、检索词,数码类 2007(年) C19H33NO2HCL(分子式) 343.94 (分子量) D665.2(分类号

5、) GNGY(基因代码)54-16-089 (化学物质登记号),字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明” 的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异 、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同,布尔逻辑运算符Boolean Operators,逻辑与,A AND BA*B,缩小检索范围,提高专指性。

6、,示例,糖尿病与高血压,A AND B,逻辑或,A OR BA+B,扩大检索范围,提高查全率。,示例,政治、经济、宗教与伦理学的关系,A,C,B,(A OR B OR C) AND D(A+B+C)*D,D,政治,经济,宗教,伦理学,逻辑非,A NOT BA-B,缩小检索范围,提高查准率。,示例,非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学B:共产主义人生观,A not BA-B,逻辑运算次序,布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为: 非(NOT)与(AND

7、)或(OR) 当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA),(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌)not (cagA or vagA),布尔逻辑的运算可以进行同类项的合并。如:A*B+A*CA*(B+C) 然而,在使用布尔逻辑时,必须注意以下几条交换规则: A*B=B*A A+B=B+A A-BB-A,2. 截词检索,以符号取代检索词(中、尾)的部分字符,从而检出

8、相同词干和相同词根的词。截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?以computer词干开头的词 可以检索出:computer、computers、computing、computerize、computerise注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,词中替代:,示例 1,示例 2,词尾截断:,computer、computers、computing、computerize、computeris

9、e,Comput*,3、 限制检索,在信息检索系统中,为了满足某种检索条件或达到某种精确程度,通常使用一些缩小或限定检索结果的方法。针对特定年代、特定类 别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:/TI 限在题目中查/AB 限在文摘中查/DE 限在叙词标引中查,前缀限制符例如:AU= 限查特定作者JN= 限查特定刊名 LA= 限查特定语种PN= 限查特定专利号PY= 限查特定年代,网络信息检索中可对文献信息类型进行限制 如在谷歌和百度搜索引擎中 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数

10、据库通常都有年代/类型等的选择,4. 短语检索符 (phrase),检索符 “ ”用于检索固定短语或专有名词在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。,示例,“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛)“文科文献信息检索”,运算符小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、短语检索、字段检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,五检索策略,什么是检索策略在分析检索课题需求的基础上明确检索范围,选择检索途

11、径,确定检索词和构建检索式的逻辑组配方法,通过试检或反馈进行调整,使检索结果体现用户目标的整个计划过程。,编制检索策略的过程,1、分析课题,明确目的2、选择检索系统和数据库 3、确定检索词及检索途径4、制定提问检索式5、调整检索策略,1、分析课题,明确目的,分析检索课题的基本方法与技巧:(1) 分析检索课题的内容实质,界定范围必须准确充分地表达检索课题所需的实质性内容,如果表示的概念过大,必然造成大量误检;而表达的概念过小,则会发生大量漏检。例如,查找“中国新农村建设”方面的文献通过分析研究,检索人员了解到该课题实质上是要查找有关“农村医疗保障制度”的参考文献,如果按原题检索,由于概念太大,必

12、然会造成大量误检。,1、分析课题,明确目的,(2) 找出隐性的主题概念,并将抽象的主题概念转化成具体的概念如:“城市生活垃圾的处理”:处理一词在这包含了具体的处理方式:回收、再生等 如:“中国-东盟自由贸易区成员国经济政策协调研究”协调一词也可以通过调和协和、妥洽、融合、调解、协作等来表示 ,同时还可以利用(文莱、菲律宾、印度尼西亚、马来西亚、泰国、新加坡 、越南、老挝、柬埔寨、缅甸 )等相关概念来查找文献信息 ,对于英文文献的查找还要考虑到同义或词性变化的问题,如:coordinate 、 coordinated、coordinating 、co-ordinated、conpatible、k

13、eeping、go with等,1、分析课题,明确目的,()找出核心概念,排除无关概念和重复概念,简化逻辑关系以提高检索效果。如:排除课题中那些检索意义不大而且比较泛指的概念词,如“展望”、“发展趋势”、“现状”、“近况”、“生产”、“研究”、“应用”、“作用”、“方法”、“影响”、“效率”、“制造”、“结果”等等。例如:“干洗剂的近况及其使用”课题其核心概念是干洗剂,1、分析课题,明确目的,(4) 明确概念之间的逻辑关系分析出单元概念后,还要搞清它们之间的逻辑关系,即不同概念之间是逻辑与的关系,而相同概念之间为逻辑或的关系。例:协作 联盟 联手 联动 协同开发,2、选择检索系统和数据库,应根

14、据课题分析结果、信息需求的各项要求,综合考虑检索系统的特点、学科范围、文献类型、数据库的专业范围、存储年限、检索费用、使用方法以及现有的检索系统和数据库资源,选用合适的检索系统和数据库。,3、确定检索词及检索途径,检索词是构成检索式的基本单元,是文献记录中的文献特征标识,可以说反映文献内容特征的主题词、自由词等。也可以是反映文献外表特征的作者、篇名等。检索途径即检索入口,计算机检索系统的检索途径也可分为反映文献信息内容特征和反映文献信息外部特征的两类检索途径。选择检索途径是与确定检索词相对应的,确定了检索词也就意味着选择检索途径。,4、制定提问检索式,检索式是检索策略的具体表述,是通过逻辑算符

15、、位置算符、截词算符等把表达主题概念的各检索单元组配连接起来既能表达主题内容,又能为机器识别和执行的命令形式,也是决定检索策略的质量和检索效果的重要因素。,制定提问检索式实例,检索“电子商务中的税法研究”方面的资料检索词:电子商务 electronic commerce, e-commerce 税法、税收 tax law检索表达式: 电子商务*(税法+税收) ( electronic w commerce OR e-commerce )AND tax w law,制定提问检索式实例分析,检索“中国城乡收入差距 ”方面的文献检索词:城乡、城镇、区域:Rural and Urban Areas ,

16、dual economic structure收入差距:Income Gap ,Income Inequality , income disparity , income allocation 检索式:(城乡+城镇+区域)* 收入差距( “Rural and Urban Areas” OR “dual economic structure”)AND (income Gap OR income Inequality OR income disparity OR income allocation ),制定提问检索式小结,在编制中,应注意以下几点:第一,要仔细斟酌检索词。选词太专指,查全率低;太泛

17、指则不能准确地表达提问的实质,查准率低。第二,根据检索词之间的逻辑关系和词之间关系,用适当的运算符把检索词连接组配起来。第三,要了解所查数据库的索引体系和检索用词规则。第四,要符合检索系统的功能及限制条件的规定。,制定提问检索式小结,第五,要注意概念的分析。(算符使用正确但不能达到应有检索效果的例子很多。)例如,一个查找欧洲政府行政体制改革的题目,在列出检索词时就存在整体与部分的关系,如果用Europe and reform of administrative system去检索,就会有大量文献漏检原因在于“欧洲”指一个整体地理概念,无法代表通常意义上的英、法等各发达国家,而后者其他国家政府体

18、制改革的情况正是我们所需要的。因此,检索时应用:(Europe or Britain or France or Italy or Spain or)and reform of administrative system 。,5、调整检索策略,检索式的制定常常不是一蹴而就的,需要在检索的过程中根据检索的结果不断进行修正,以达到较好的检索效果。包括调整检索词(从某些文献中获取相关的和隐含的词汇、词组)检索词间的组配调整,(1).检出的结果记录过多,可能的原因,解决的办法,换用表达准确的单义词,检索词有多义词现象,某些检索词与人名、地名、刊名雷同,截词时词干留得太短,检索词太少,无关概念没有排除,所

19、选的概念范畴太大,原来限制较宽松,使用“非(NOT)”排除不相关概念,调整括号的位置,考虑采用字段限制、位置算符,增加相关概念,用“与(And)”连接,(2)检出的命中记录过少或为零,可能的原因,漏掉有关的同义词,隐含概念挖掘不够,如:设备device, apparatus, equipment,限制条件太多、太严格,数据库不合适(时间、专题),检查拼写,取消过严的限制算符、字段限制、位置算符等,增加同义词,补上合适概念词,用(Or)连接,增加检索途径、考虑分类检索,换用检索词,解决的办法,选用了不规范的主题词或产品的俗称、商品名,拼写、输入有误,选择适当的数据库,主题1:突发公共事件应急系统

20、及关键技术研究(accident, crisis, emergence, information monitor, evaluate, estimate,appraise, digital city)主题2:关于妇女和儿童的图书馆服务( women, woman, child, children, library services, information services)主题3:反垄断法与知识产权的关系(monopoly,intellectual poperty rights,antitrust,intellectual poperty rights)主题4:稷下学宫的教育制度及其高等教育启示(Jixia xuegong,Jixia institution,Jixiao study palace,Jixia school,Jixia college,Higher education,inspire ,inspiration,apocalypse,revelation),练习,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号