信息源选择与检索策略调整.ppt

上传人:牧羊曲112 文档编号:5230068 上传时间:2023-06-16 格式:PPT 页数:51 大小:415KB
返回 下载 相关 举报
信息源选择与检索策略调整.ppt_第1页
第1页 / 共51页
信息源选择与检索策略调整.ppt_第2页
第2页 / 共51页
信息源选择与检索策略调整.ppt_第3页
第3页 / 共51页
信息源选择与检索策略调整.ppt_第4页
第4页 / 共51页
信息源选择与检索策略调整.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《信息源选择与检索策略调整.ppt》由会员分享,可在线阅读,更多相关《信息源选择与检索策略调整.ppt(51页珍藏版)》请在三一办公上搜索。

1、3.信息源选择与检索策略调整,3.1 界定问题,界定问题是信息检索的第一步其内涵主要包括:1 分析研究问题 2 建立背景知识 3 拟定主题概念,1 分析研究问题,明确检索的目的与要求 撰写论文?项目研究?技术跟踪?申请专利?分析问题研究目标时间范围地域范围前景/事件,(1)明确检索目的 用户的信息需求和检索目的主要类型:需要关于某一个课题的系统详尽的信息,包括掌握其历史、现状和发展如撰写硕士、博士论文,申请研究课题,进行科技成果查新,鉴定专利,编写教材等。这类需求检索得全面、彻底,检索的资源多,覆盖的时间年限长。为满足这类需求,要尽可能使用光盘数据库和网络数据库,提高检索效率和降低检索成本。,

2、需要关于某个课题的最新信息这类需求的用户通常一直对某个课题进行跟踪研究,或从事管理决策、工程工艺的最新设计等工作。需要检索的资源则必须是更新速度较快,如联机数据库、网络数据库、搜索引擎检索等,覆盖的年限也比较短。,了解一些片断信息,解决一些具体问题。带有这类需求目的的用户通常比较多。例如:写一般论文时,针对某个问题查找一些相关参考资料;进行工程设计施工时需要一些具体数字、图表、事实数据等;找某个人的传记、介绍,某个政府机关或商业公司的网页,某个术语的解释等。这类需求不需要查找大量资源,但必须针对性很强,结果必须准确,速度要快。解决这类需求,除数据库外,网上搜索引擎、专题BBS、论坛都是可供使用

3、的资源。,分析研究问题,(2)明确课题的主题或主要内容:要形成若干个既能代表信息需求又具有检索意义的主题概念,包括所需的主题概念有几个、概念的专指度是否合适,哪些是主要的,哪些是次要的,概念之间的关系如何,等等。(3)课题涉及的学科范围:搞清楚课题所涉及的学科领域,是否是跨学科研究,以便按学科选择信息资源。(4)所需信息的数量、语种、年代范围、类型等具体指标。,分析研究问题,(1)分析研究问题,研究问题分析以“车用替代燃料的应用情况研究”为例,分析研究问题,(1)分析研究问题,经过初步分析之后,再进一步思考以下几个问题,可以更快、更准确地把握研究问题:研究问题本身包含的主题概念有哪些?研究问题

4、中可能包括哪些子问题,涉及哪些学科领域?子问题是否过多,需要缩小研究问题的范围?研究问题是否过于狭窄,意义不大,需要扩大研究问题的范围?是否需要原始资料或经过专家学者整理过的资料?是一般性信息还是学术性信息?对信息的新颖性要求多高?地域范围的选择是应该越宽泛越好,还是越典型越好?,分析研究问题,途径:阅读与研究主题相关的概览性材料 是建立背景知识的最佳渠道。概览性资料:以三次文献为主 如百科全书、字词典及年鉴等参考资源。建立背景知识的过程也是辨别待解决问题的可行性和 必要性的时机,2 建立背景知识,建立背景知识,以“车用替代燃料的应用情况研究”为例。由于对于“车用替代燃料”的具体含义并不清楚,

5、需要查找资料进一步理解。,登录百度搜索引擎,使用“车用替代燃料”为检索词在维普咨询网查得:车用清洁替代燃料包括天然气、液化石油气、氢能源、二甲醚、醇类燃料及生物燃料,进一步的文献研究得知车用替代燃料包括的能源类型十分丰富,(2)建立背景知识,建立背景知识,如何选题?在规定时间内和现有条件下能完成吗?,如果继续上面的研究,将需要对列表中的概念进行逐一检索,工作量很大。这种情况下,考虑到时间等成本因素,可以缩小研究问题的范围,例如以“乙醇燃料”为研究对象进一步了解乙醇燃料的含义,例如可以登录百度百科,查得:,车用乙醇燃料也称为乙醇汽油,是指在不含MTBE含氧添加剂的专用汽油组分油(由炼油厂或石油化

6、工厂生产的用于调合车用乙醇汽油的调合油)中,按体积比加入一定比例(我国目前暂定为10%)的变性燃料乙醇,由车用乙醇汽油定点调配中心按国标GB183512004的质量要求,通过特定工艺混配而成的新一代清洁环保型车用燃料。,3 拟定主题概念,对主题进行分析,形成相关的检索词上位词(概念范围大于它的词语)下位词(小于)同义词及相关词翻译检索词如要查找外文资料详细列出检索词即能极大地提高后续检索的查全率,也是避免漏检的重要方法。,如何拟定主题概念,结合背景知识,用一小段话概括和阐述研究问题,从中找出有明确含义的专指名词,结合一定的查询操作逐个考虑该词能否作为检索词使用。得到主题概念之后,选取它的上位词

7、(扩大检索范围)、下位词(缩小检索范围)、或者同义词(提高查准率)及相关词,将取决于检索策略。利用相关参考书(如中国分类主题词表等)帮助查找。,案例一:主题概念分析“车用乙醇燃料的应用情况研究”,16/23,案 例,主题概念分析方法之一:抽取检索词,案例二:查找吸烟与肺癌关系研究的中文文献,包含两个概念:吸烟、肺癌;检索式:吸烟 AND 肺癌,吸烟与肺癌,检索式:(吸烟 OR 抽烟)AND(肺癌 OR 肺部肿瘤 OR 肺肿瘤),主题概念分析方法之二:考虑同义词,主题概念分析方法之三-选取上下位类概念词,垃圾的处理,同义词,下位类词,检索式:(垃圾 OR 废弃物)AND(回收 OR 利用 OR

8、填埋 OR 掩埋 OR 焚烧),案例三:查找垃圾的处理研究的中文文献,主题概念分析 之四:舍弃重复概念,案例四:全息防伪技术在包装方面的运用,全息防伪包装,检索式:全息 and 包装,主题概念分析注意事项,排除比较泛指、检索意义不大的概念如“发展”、“趋势”、“现状”、“关系”少用外延十分宽广的概念如“工艺”、“分析”、“应用”、“有机物”、“无机物”、“重金属”有些检索概念已经体现在所使用的专业数据库中,这些概念也应该予以排除如在物理文献数据库中检索,“物理”一词应禁用,(3)拟定主题概念,自由词在检索初期可尽量使用。使用关键词作为主题概念进行检索。它的选取可以非常宽泛,只要在文章中出现过,

9、就能被检索到。但由于是自由词,作者的使用非常随意,这就需要我们把可能出现的所有自由词尽可能考虑完全,才不至于漏检。在检索的初期建议尽量使用。当对问题有了一定了解后,可选取一些规范的、被数据库生产商用来做标引的“主题词”进行检索。如对于化学物质确定的课题,采用CAS登记号检索是一条既准、又全、又快的方式。此外,Ei中的“Ei Controlled Term”和“Ei Main Heading”途径均是由标引人员规范处理过的检索途径。,使用宽泛的自由词关键词作为主题概念进行检索?还是使用规范的、被数据库生产商用来做标引的“主题词”进行检索?,自由词和主题词的使用,3.2 选择信息源,选择信息源,让

10、我们从大类上来梳理一下可用的信息源大致有哪些:1)期刊2)各类文献数据库 3)网页4)图书5)杂志6)报纸,信息有学术信息和一般性信息之分学术信息交流是一个不断循环、螺旋前进的过程图:学术信息交流模式,3.2.1 信息交流模式,专利,会议论文,会议论文库,电子期刊库,文摘库,图书,图书馆OPAC系统等,一般性信息交流:线性,事件发生,日,周,年,图书、电子书,杂志,网页、报纸,以SARS(非典)为例说明情报信息的演变2003年春,我国部分地区发生传染性非典型肺炎疫情新闻报导:03年初,有关SARS的消息出现在报纸、网络、电视、广播等媒体上。突发公共卫生事件应急条例颁布会议、期刊:几个月后,学者

11、专家陆续如开相关学术会议、发表会议论文。随后,各学术期刊上开始出现有关的文章。图书:一两年后,有关该主题或事件的书籍陆续出版。非典型脑炎(SARS)冠状病毒基因全序列/2003 应急反应的法学思考:“非典”法律问题研究/2004百科全书:数年后,当对事件的认识已有定论,就会被收录在百科全书、统计汇编等参考资料中。如2008年在大英百科全书(Encyclopaedia Britannica)中记载了SARS事件,3.2.2 不同信息源的特点比较,3.信息源的选择策略对于一般消息,可以选择浏览网页、报纸了解事件的更全面、更详细的介绍,杂志是更好的选择对于要求一定深度的研究性信息问题,可以利用相关专

12、业机构信息发布网站,如国家专利局、标准化委员会解决研究性信息问题时,会议论文、研究报告、专利、期刊、各类文献数据库、图书等成为重要的信息源,信息源的选择策略,会议论文和研究报告虽然时效性相对较强,但不易获得,需要关注相关研究机构及研究人员,积累获取渠道。文献数据库中收录了多种连续性的期刊以及部分会议论文、研究报告,且经过专业人员的组织整理,文献内容深刻、全面,检索方便,获取容易,应作为检索的重要信息源。图书和期刊作为重要的学术研究产出形式,通过阅读能理清发展脉络、把握研究前沿,是重要的学术信息源。,下列问题可以查阅哪些信息源?查“给力”“我爸是李刚”的前世今生最近一个场次的NBA比分朝韩炮仗和

13、半岛危机的国外评论了解将要参加面试的公司的基本情况近期上映电影的影评,决定是否去看写一篇小论文,了解计算机的发展历史写一篇有关商业智能系统研究现状的报告,31/23,是否所有与检索课题相关的资源都要进行检索,如果是,则不但考虑要检索一次文献和二次文献的数据库,而且对于网上其他资源,如搜索引擎/分类检索指南、学科导航、专题BBS等,也要查询。选择哪些学科的信息资源:例如查找生物学方面的信息,则可能会涉及医学方面的信息资源,因此要特别注意跨学科的问题。选择哪些语种的信息资源:是中文还是西文,或是二者兼顾。,信息源选择的其他考虑因素,信息资源覆盖的年限是否符合需求多数数字信息资源覆盖的年限都是近二十

14、年的内容,如果需要更早的资料,就要考虑手工检索的问题有些数据库更新速度慢(例如光盘数据库,或数据加工速度不及时),无法提供最新信息。需要使用其他相关数据库、同一数据库的网络版或其他网络资源来补充信息资源的特点及其针对性如何要了解已选择的信息资源的查询特点,是否与信息需求相吻合。例如查询某个机构或公司的网页,使用搜索引擎是最好的,而即使是搜索引擎,各自的特点不同,涵盖的内容也有所侧重的不同;查询新闻时事,则可以登录到一些新闻网站;查找学位论文,就一定要使用学位论文数据库,或直接到大学或学院网站查询,因为有些学校的学位论文在网上提供二次文献服务,3.3 信息获取的思路,面临研究性信息问题,需要一般

15、性、相对粗浅的信息,现有数据库无法获取全文,首先,根据信息问题的特点选择相应的信息源,其次,获取题录信息、全面把握研究问题之后,选择其中最有价值的题录、依据一定的方式获取全文,35/23,信息获取的主要思路先获取题录信息,然后获取全文,(1)题录信息的获取方法,专业数据库英文文献:优先在Ei和SCI两个综合性文摘数据库检索中文文献:中国知网、维普、万方没有文摘库时,可以使用Google Scholar,有线索了再去查全文。也可根据自己课题学科选择相应的几个全文数据库进行检索。,题录信息的获取方法,EI偏重工程,不报道纯理论,期刊论文、会议论文收录得多。SCI则收录涵盖所有学科、侧重基础理论方面

16、研究的文章,它的文献品位高、可信度大,并可以对文章的水平、著者的学术水平做出评价,寻找热点课题等。,注意:国外的全文数据库特别是期刊数据库往往是出版商自己建的,而不包括其他出版商期刊,最好几个全文库都进行检索。,直接获取:在全文数据库中检索(CNKI、维普、万方、Elsevier、PQDD)通过图书馆等文献服务机构获取:全文数据库中未收录的文献,可在图书馆等机构借阅。还可以利用原文传递、代查代检等服务遵循“先电子后印刷”、“先近后远”的原则,(2)全文文献的获取方法,3.4 检索策略的制定与调整,根据检索结果的数量多寡及对结果相关性的判断不断调整检索策略,策略调整,对文摘检索过程中,最重要的是

17、选定检索词以及明确它们之间的关系选用规范的词语进行检索检索结果太多提高检索词的专指度,选用下位词或专指性较强的词太少选用同义词、相关词、缩写、全称进行扩检;选用上位词或相关词合理利用布尔逻辑算符。对于过多的检索结果,可以用AND将增加的概念加入检索式,用NOT排除无关的术语。如果相关文献过少,更多使用OR算符把增加的同义词或相关词连接起来,而少用AND。,40/23,“二八”定理20的作者或课题组发表了该领域的80的文章对该作者或课题组进行全方位检索,利用作者或者研究机构名进行查询阅读相关文献的参考文献扩展检索结果 参考文献往往包含的是作者在研究该问题时得到过启发的研究结果,41/23,示例

18、检索“石油工业的废水处理”方面的文献。,若用“废水处理”作为主题,概念太大,在中国期刊全文数据库中用篇名途径检索到12454篇。,若用“石油工业”来限制也不合适。一方面“石油工业的废水处理”概念仍然太大;另一方面,一般文献上会专注于具体物质,不一定会出现“石油工业”字样,这样就会造成漏检。,如果知道石油工业主要排放的是毒性较大的含酚废水,那么主题概念定位在“含酚废水”和“处理”就比较恰当了。,举例:使用下位词缩小检索范围,示例 检索“聚烯烃基材料熔融挤出过程”方面的文献。,检索策略1:聚烯烃AND熔融挤出检索结果为12篇,且相关度很差,检索策略2:(聚乙烯OR聚丙烯)AND熔融挤出检索结果为6

19、1篇,相关性很高,由于了解所谓的聚烯烃主要是聚乙烯和聚丙烯,所以考虑用下位概念的“聚乙烯OR聚丙烯”来代替聚烯烃。,为了准确掌握检索系统的各种性能水平,分析影响检索效果的因素,调整检索策略,改进检索系统的性能,优化检索、提高检索效果,更好地满足用户信息检索要求。,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准。查准率和查全率结合起来,描述了系统的检索成功率。,评价的目的,评价评价标准,

20、第 2 讲 信息检索基础,3.5 检索效果的评价与优化,查全率,查准率,系统文献库中相关文献总量对于用户来讲几乎无从得知。由此可见,查全率和漏检率很难成为用户自我评价检索效率的准绳,查全率指标和查准率指标的评价标准,经验评价标准,理论评价标准,检出相关文献量-100%检索系统中相关文献总量,检出相关文献量-100%检出文献总量,通过相关领域从业的人员情况 通过手头掌握的信息资料,查全率R,查准率P A点:检索词泛指性强,查全率较高,但查准率却非常低;B点:检索词专指性较强,查准率高,查全率降低;C,D两点:两种极端的折衷,查全率一般在60一70,查准率一般在40一50。,查全率指标和查准率指标

21、的评价标准,例:垃圾填埋中渗透液的处理方案一:检索词选择“垃圾”、“处理”,则查全率较高,但查准率较低,即处于A点;方案二:检索词选择“垃圾”、“填埋”、“渗透液”、“处理”,则查准率较高,而查全率却较低,即处于B点;方案三:检索词选择“垃圾”、“填埋”、“渗透液”,或选择“垃圾”、“渗透液”,则查全率和查准率处于折衷点,即C、D点。,影响检索效果的两个主要因素,1检索工具和检索系统本身的问题 检索工具或检索系统收录信息不全、标引深度不够等,2检索者本身的问题 一般的情况下检索者只能大概地表述自己的提问而不能确切地衡量文献信息与提问的切题程度。,注意相关领域(如近缘学科、交叉学科和边缘学科)的

22、检索,这是扩大检索范围、提高查全率非常重要而有效的途径。采用分类法或规范化词检索 分类检索时可以采用更加宽泛的上位类号来检索 增加同义词或近义词 计算机检索时可采用模糊检索或运用逻辑“或”检索,放宽条件。减少使用逻辑“与”、逻辑“非”运算符 尽可能选择信息收全率高的检索工具,如果一个工具不能满足信息查全率上的要求,应精心挑选多个工具进行检索 选词不全是很重要的漏检原因。选词时除参阅相关词表以外,还应参阅已在手的相关文献或征询有关专家的意见。,提高查全率的方法,提高检索词的专指度利用逻辑“非”剔除不需要出现的词语多使用逻辑“与”,减少逻辑“或”运算符限制检索词的出现字段利用文献外表特征进行限制。如增加机构名、人名、地名、出版物名称等作为限制检索项,提高查准率的方法,助你一臂之力畅游信息海洋,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号