曲长生数据库检索的基本方法.ppt

上传人:小飞机 文档编号:5768526 上传时间:2023-08-18 格式:PPT 页数:113 大小:2.42MB
返回 下载 相关 举报
曲长生数据库检索的基本方法.ppt_第1页
第1页 / 共113页
曲长生数据库检索的基本方法.ppt_第2页
第2页 / 共113页
曲长生数据库检索的基本方法.ppt_第3页
第3页 / 共113页
曲长生数据库检索的基本方法.ppt_第4页
第4页 / 共113页
曲长生数据库检索的基本方法.ppt_第5页
第5页 / 共113页
点击查看更多>>
资源描述

《曲长生数据库检索的基本方法.ppt》由会员分享,可在线阅读,更多相关《曲长生数据库检索的基本方法.ppt(113页珍藏版)》请在三一办公上搜索。

1、数据库检索的基本方法,曲长生大连理工大学图书馆,知识有两类,一类是自己知道的 另一类是知道在什么地方能找到(需要具备信息检索的基本技能),什么是文献?,文献:记录知识的一切载体根据载体形态文献大致可以分为:印刷型文献-以纸张为记录与存贮介质,以手写、打字、印刷等为记录手段。具有便于阅读和流传等优点。图书馆常见印刷型文献的有报纸、杂志、学术性期刊、图书、会议论文、学位论文、科技报告、专利、标准、工具书等等缩微型文献-以感光材料为存贮介质,以缩微照相为记录手段。具有存贮密度高,体积小,传递和保存够很方便等优点。声像型文献-以感光材料和磁性材料为记录介质,借助特殊的机械装置直接记录图象信息或声音信息

2、而生产出来的一类文献。具有直观真切,形象生动等优点。电子型文献-网络资源(数据库),许多印刷型文献可以在网上获得,哪些类型的文献可以参考?,按出版类型划分文献可以分为:图书、期刊、报纸、会议文献、科技报告、学位论文、政府出版物、专利、标准、产品资料、科技档案这些文献常见的载体类型有印刷版和电子版(电子版按访问方式分:收费、免费),1)图书():,国际上通常把48页以上,不定期出版的印刷品称为图书。我国国家标准对图书的定义是:“以印刷方式单本刊行的出版物。”特 点:带有总结性、成熟定型;出版周期长,信息传递慢;传授知识,而不是报道最新信息。图书一般分为两类:阅读型:教科书、专著等工具型:字典、百

3、科全书、年鉴、手册,国际标准书号(ISBN),(International Standard Book Number)每一种正式出版的图书的唯一标识代码例如:信息检索原理与方法教程,赵岩碧主编,化学工业出版社,2005年3月出版。其ISBN号为:ISBN 7-5025-6431-4(旧号)ISBN 978-7-5025-6431-5(2007年后出版图书采用的新号)第一段:978是由国际物品编码(EANUCC)系统专门提供给国际ISBN管理系统的产品标识编码。第二段:7 语区号,代表国家、地区、语种如1英,2法,3德,4日,7中第三段:5025 出版商代号,由国家或地区ISBN中心分配;第四段

4、:6431 出版图书号,由出版商按出版顺序所给第五段:校验位,图书分布,印刷版图书:图书借阅室401室:收藏0049类(除41、44.547类)图书借阅室406室:收藏41、5052类图书借阅室307室;收藏5373.8类图书借阅室301室:收藏73.999类;外文图书借阅室506室:收藏西文、日文、俄文等检索和特种文献借阅室503室:收藏年鉴、词典、手册、名录、百科全书等检索工具书印刷版图书的查找可借助图书馆的OPAC电子图书:超星数字图书馆方正APABI数字图书馆TPI英语模拟练习SPRINGER电子丛书:SPRINGER出版的20种世界知名科技丛书,包括计算机、物理、化学、生物、数学、地

5、球科学、信息科学等。,2)期刊(journal,periodical),是指定期或不定期出版的连续出版物,出版周期最长不超过一年。它采用固定的名称和统一的版式外形,有卷期号或年月顺序号,每期内容不重复。同图书相比,它具有:出版周期短反映新成果及时内容新颖信息量大品种多等特点据统计:大约有68的科技信息来自期刊论文。科技期刊的利用率最高,约占科技文献的84,因而科技期刊被称为最重要的科技信息源。,ISSN 号,正式出版的期刊有ISSN代码,即国际标准连续性出版物编号 如,ISSN1001-8867为中国图书馆学报的国际标准编号,核心期刊的鉴定,中文核心期刊目录总览(2004版)可以到503查阅印

6、刷版国外科学技术核心期刊总览(2004版)各单位认同的核心期刊不尽相同,还应向单位相关主管部门询问单位认同的核心期刊查询是否为核心期刊,可到网上核定。,期刊分布,印刷版期刊:中文专业期刊阅览室(403)收藏中文社科期刊650余种,自然科学期刊1800余种。中文文艺期刊和报纸阅览室(118)外文现刊和会议文献阅览室(503)外文过刊阅览室(501)电子版期刊:中文1.中国期刊全文数据库 2.维普全文电子期刊 3.人大报刊资料 4.万方数字化期刊5.大连理工大学研究生网络学刊 6.龙源期刊网 英文:1.Elsevier 2.Kluwer 3.IEL 4.EBSCO 5.Springer Link

7、6.John Wiley 更多期刊信息详见 图书馆主页电子期刊更多 会列出图书馆购买的所有电子期刊数据库,点击每一种期刊数据库,都有对该数据库的介绍。,3)报纸,报纸也是主要的情报信息来源。报纸的出版周期更短,它以最快的速度报导世界各地的新闻及科技新成果,内容广泛,发行量大。据统计,全世界发行报纸4万多种。但报纸对科技成就的报道不够系统和详尽。,报纸分布,印刷版:中文文艺期刊和报纸阅览室(118):收藏报纸有120余种社科报纸包括全国性的几种大报、各省省报以及部分晚报和小报。科技报分为全国性和地方性两类。英文原版报纸2种,国内出版的英文报纸3种。开展剪报服务,包括固定和时事两大项20余个专题报

8、纸。电子版:中文1.人大报刊资料 2.中国重要报纸全文数据库 3.新版人民日报图文数据库 4.各报纸自己的网站(免费检索)如:人民网(人民日报的官方网站,可检索1995年1月1日以后的人民日报的全部内容)英文LexisNexis Academic(其中的一个板块为新闻,收录美国和全球各地出版的350多种报纸,如 Wall Street Journal(华尔街日报)、New York Times(纽约时报)、Financial Times(伦敦金融时报),其中许多报纸在出版当天即可提供。)EBSCO(其中一个子数据库 Newspaper Source,提共报纸检索,很多可以下载全文。),4)科技

9、报告(report),科技报告是与政府部门签有合同的科研项目的报告,是科技工作者围绕某一专题从事研究所取得的科技成果的总结,或是研究过程每一阶段进展情况的实际记录。特点:反映的是新兴科学和尖端科学的研究成果,能代表一个国家的研究水平。在形式上通常是一个报告单独成册,且注有研究机构名称和统一编号。在内容上它叙述详尽具体,数据完整可靠,技术专深全面,可直接借鉴。在发表速度上它快于期刊。保密或控制发行。目前,美、英、德、日等国每年产生的科技报告达万件左右,其中美国占80,美国政府的AD、PB、NASA、DOE四大报告在国际上最为著名。,科技报告分布,检索科技报告的数据库:NTIS(美国政府报告通报与

10、索引 的网络版,主要检索美国政府的四大报告,不提供全文。)网上提供的免费的科技报告的全文(里面列出了一些可以免费检索科技报告的网站),5)会议文献(conferences、proceedings),是指在各种学术会议上发表的论文、报告、讲演等文献,并经编辑整理后的正式出版物。学术会议历来是人们交流研究成果的重要场所。目前全世界每年大约要召开数千个学术会议。会议种类繁多,有大会、会议、学术讨论会、研讨会、讲习会、座谈会等。由此产生了大量的会议文献。会议文献是传播科技信息的重要渠道,许多新的发现或发明往往最先披露于会议或会议文献中。一些定期举行的学术讨论会往往成为对前一时期研究成果的一次大检阅。而

11、且,某些会议文献常常不在公开出版物上发表。特点:学术性很强,代表了某一学科或专业领域的最新研究成果及国内外的水平发展趋势;内容上与期刊、研究报告、图书等有一定的交叉重复。,会议文献分布,印刷版中文会议文献分布于各图书借阅室英文会议文献:503室电子版中文中国重要会议论文全文数据库收录我国2000年以来国家二级以上学会、协会、高等院校、科研院所、学术机构等单位的论文集 万方数据库 中国学术会议论文全文数据库收录1998年以来我国国家级学会、协会、研究会组织召开的全国性学术会议论文英文WOSP 数据库包含将ISTP(科学技术会议录索引)和ISSHP(社会科学及人文科学会议录索引)系统本身不提供全文

12、。IEL美国的电气和电子工程师学会(IEEE)与英国的电机工程师学会(IEE)共同推出的全文数据库。提供1988年以来两个学会的期刊150多种、标准1350多种、会议文献5150多种,6)专利文献(patent),主要指专利说明书。它是实行专利制度的国家在受理专利申请时,发明人所提交的书面文件。在说明书中叙述该发明的目的、用途、技术特征、效果、采用的原理方法,以及权利要求等。专利说明书对发明描述比较具体,技术上比较新颖、可靠、实用,并且融技术、经济、和法律信息于一体。除专利说明书外,专利文献还包括专利公报、专利文摘等。它是一切从事研究开发活动和经济活动的人们必须参考的技术资料。各种技术发明绝大

13、部分都反映在专利文献中,只有极少数例外。利用专利文献有助于科技人员借鉴国际先进技术,避免重复劳动。,专利文献分布,印刷版:503室电子版商业数据:Derwent Innovations Index(世界专利索引)收录来自全球40多个专利机构(涵盖100多个国家)的一千多万条基本发明专利,还同时提供了直接到专利全文电子版的连接。免费资源:国家知识产权局 http:/可免费检索和下载中国专利文献全文万方数据库 中的专利技术类数据库,可检索从1985年至今授理的专利。不提供全文。欧洲专利局 http:/欧洲专利和世界专利的免费检索,可下载格式的全文!美国专利与商标局 http:/提供免费专利检索 C

14、anadian Patent Database 可以检索七十五年来的150万篇加拿大专利,部分专利有全文扫描图像。,7)技术标准(standard),是为产品质量标准化、产品规格化和系列化、零部件通用化而制订的技术规定、规范和准则。一个国家的标准反映着这个国家的经济政策、技术水平、加工工艺及标准化水平,它是一种重要的技术信息来源。技术标准的制订工作一般是由主管部门完成的。标准的新陈代谢十分频繁,随着技术水平的不断提高,标准也需不断补充、修改,国际经济贸易的发展又促使标准日趋国际化,因而标准文献体现了本技术领域的发展水平,科技人员可以从中获取大量有价值的信息。标准文献的特点是:具有独立完整性和法

15、律约束性。,标准的种类,标准按内容可分为:(1)基础标准()产品标准()方法标准按范围分:()国际标准()地区标准()国家标准()专业标准()企业标准按成熟程度分:()正式标准()试行标准()推荐标准()标准草案我国国家标准代号为GB(汉语拼音GUO BIAO缩写),中间是标准顺序号;最后是此项标准颁布的年代。如:GB81989,即为1989年颁布的第8号国家标准。国际标准文献有ISO;ISO是由国际标准化组织制定的国际标准。,标准文献分布,印刷版:503室 电子版:万方数据库 中的中国标准全文数据库可检索国家标准、行业标准、地方标准,并可以下载pdf格式的全文。万方数据库中外标准类数据库,提

16、供多个国家的多种标准的检索,不提供全文下载。IEL全文书库,可检索IEEE(电气和电子工程师学会美)的标准,并可以下载pdf格式的全文。中国标准服务网 可免费检索标准文献,不免费提供标准全文。,8)政府出版物(publications),指政府部门及其所属的专门机构发表出版的配合政府工作的行政性文件和科技文献。如:政策法规、决议指示、统计数据等。具有正式性和权威性的特点,对了解各国的科技政策和科技发展状况具有独特的参考价值。,9)学位论文(dissertation),是高等院校的研究生和本科生在获取博士、硕士、学士等学位时必须提交的学位论文。它带有一定的学术性和独创性,内容较系统、完整和详细,

17、有一定的参考价值。由于学位论文是非卖品,故一般不出版,只能提供复制件。,学位论文分布,印刷版:大工文库(302室),收藏我校历届硕博士研究生的学位论文,和2000年以来的优秀本科生学位论文。电子版:国内:CNKI 中国优秀博硕士学位论文全文数据库 收录全国600多家博硕士培养单位的优秀博硕士学位论文 万方学位论文中国科技信息研究所提供,并委托万方数据加工建库,首次推出最近3年的论文全文10万多篇,并年增全文3万篇。本校研究生学位论文 可检索1998年以来我校博硕士研究生论文,不久以后就可以提供全文下载服务。CALIS全国高校学位论文文摘数据库 可检索211高校研究生学位论文的题录文摘信息。国外

18、PQDD 收录了全世界1000多所著名大学理工科博、硕士学位论文,可以下载1997年以来的学位论文的前24页全文。PQDD Full Text由教育部CALIS文理中心和工程中心组织各高校联合采购ProQuest公司(原UMI公司)的国外学位论文,每个参加成员馆每年购买约200篇学位论文全文,集团内所有的学位论文共享,全文库收录的年限从2001年开始。,其他类型,除以上主要文献类型之外,还有新闻稿、手稿、地图、乐谱、技术档案等。这些文献类型中最重要的信息源是期刊、会议论文和专利,按提供的内容网络信息资源可分为:,参考型数据库。指引用户到另一信息源以获得原文或其他细节的一类数据库。包括各种书目数

19、据库和引文数据库。这种数据库具有参考和评价的功能,多用于查新、开题。如:SCI、EI、维普的中文期刊数据库全文数据库。指存储文献全文或其中主要部分的数据库。如新闻消息全文库、法律法规全文库、博硕论文全文库等。事实型数据库。直接提供事实或数值的数据库。如:万方的企业产品数据库、彼得森大学指南等。电子图书。计算机利用计算机检索并下载阅读的图书。如:书生之家、超星数字图书馆、各种数字图书馆等。电子期刊。直接在网上就可以检索和阅读的期刊。如:万方数字化期刊,中国期刊网全文数据库,science online等电子报纸。如:人民日报的网络版。其它类型。如电子公告版(bbs),网络论坛、新闻等,,根据检索

20、对象形式的不同,信息检索又可分为:,文献型信息检索(document retrieval):是以文献(包括题录、文摘和全文)为检索对象的检索。凡是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。完成文献型信息检索主要借助于各种书目型数据库和全文数据库等。数值型信息检索(data retrieval):是以数值或数据为对象的一种检索,包括某一数据、公式、图表,以及某一物质的化学分子式等。完成数据型信息检索主要借助于各种数值数据库和统计数据库。事实型信息检索(fact retrieval):是以某一客观事实为检索对象,查找某一事物发生

21、的时间、地点及过程的检索,其检索结果主要是客观事实或为说明事实而提供的相关资料。如:2001年月通过的奥运会主办城市的结果与过程。完成事实型检索主要借助于各种指南数据库和全文数据库。,检索语言,标引员与检索员之间的约定语言提供检索所需的文献特征检索语言可分为两大类:分类法 主题法,检索标识种类,检索标识种类,反映文献外部特征检索标识,反映文献内容特征检索标识,著者,出版社,出版时间,分类号,主题词,关键词,人工语言,自然语言,主题词语言,分类语言,其他,检索语言分类法,按学科门类区分图书,用分类号来表达文献主题内容,以分类表作为文献分类标引的工具。典型的如:杜威十进分类法(Deway Deci

22、malClassification Related Index,DDC)中国图书馆分类法(中图法)中国科学院图书馆图书分类法(科图法)国际十进分类法美国国会图书馆分类法,将图书分为社会科学、自然科学、综合三大类。类目展开之式如图32。检索标识即分类号,由字母和数字组成采用等级列举表达从属关系上位类目与下位类目的关系:上位类目一定包含各个下位类目,下位类目一定带有上位类目的属性。分类号越长,表示的学科范围越窄。为了清楚醒目,通常分类号的第三位数字后,隔以.,如F279.712,TQ032.4,检索语言分类法中图法,R,S,T,医药、卫生,农业科学,工业技术,社会科学,自然科学,机械、仪表,建筑科

23、学,综合,一般工业技术,矿业工程,石油,冶金工业,无线电、电子学、电讯技术,自动化计算,化学工业,轻工业、手工业,金属学,武器工业,动力工程,原子能技术,电工技术,水利工程,图3 1 中 图 法 展 开 图,检索语言分类法中图法,O 数理化 一级类目 O1 数学 二级类目 O3 力学 二级类目 O31 理论力学 三级类目 O311 运动学 四级类目.1 质点运动 五级类目 O4 物理学 二级类目,检索语言分类法,主要特点就是按学科专业性质集中图书区分不同性质的图书集中性质相同的图书性质相近的放在相近的位置按照远近亲疏的关系把图书组成为一个有条理的体系提供从学科分类查找图书的途径。,中图法索书号

24、(call number),索书号又称为排架号反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位)组成:分类号书次号 分类号:按学科分类图书 书次号:同类书的排列,书次号的两种取法:,种次号:按图书到馆的先后顺序给予号码。缺点:会使同一著者的同一类著作排放在不同位置著者号:按著者名称(代码)来区分同一分类号下的不同文献,图书的排架顺序,按索书号排架先顺序分类号:如果分类号相同再顺序书次号,主题法与分类法比较检索标识不同,分类法检索标识人为定义的标引文献时,把语言文字所构成的概念转换成号码检索时,检索者要在号码中找出相当于文字形式的概念。主题法检索标识借用自然语言中表达概念的词,

25、直观易记,便于掌握。,主题法与分类法比较对文献的集中与分散的角度不同,主题法同一主题的文献集中在一个标题下同一学科的文献分散在不同的标题中分类法同一学科的文献集中在一个类目下同一主题的文献分散在不同的类目中特别因学科发展而引起的相互渗透,使有些文献很难放在一个学科内。,主题词的种类,关键词 单元词 标题词 叙词,主题词种类关键词(keyword),直接来源于从文献篇名、正文和文摘 为具有实际意义的词语禁用词(stop-term)如冠词,介词,副词等除外 关键词法属自然语言,主题词种类关键词问题,同义词标引-引起漏检主题检索体系是按主题词字顺排列的,而用于标引的关键词呈现出多种字面形式同义词时,

26、将使同一主题的文献分散到不同的字顺位置,使查全率受到影响。例:飞机 Airplane Aircraft Planes多义词标引引起误检例:cell 电池 细胞,规范化主题词叙词,是指表示单元概念的规范化词语来源:单元词先组词先组词是以“适当先组”的原理,把在一定学科领域中,经常出现的组合词选作先组词,以减少查找时不必要的组配如:活性的(active)碳(carbon)活性碳(active carbon)碎裂(fragmentation)弹药(ammunition)杀伤弹药(fragmentation ammunition),计算机检索的技术,常用的检索方式,命令检索(command searc

27、h)使用特定的操作命令来实施检索灵活快捷速地进行检索?S CS=(general(w)electric(f)Portland)菜单检索(menu search)方便,易掌握,称“easy-to-use”检索多用于光盘检索和web检索,一、布尔逻辑检索,是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。逻辑运算符有三种:与、或、非,1.逻辑与:一般用and或*表示,是一种用于交叉概念和限定关系的组配它可以缩小减缩范围,有利

28、于提高查准率凡是用AND的检索式,AND两侧的检索词必须同时出现在同一条记录中,该记录才算命中如:?S AU=CHENG,GENGDONG AND PY=1997:1998?s Solar*Energy,2.逻辑或:一般用or或+表示,少数数据库用|表示,是一种用于并列关系的组配它可以扩大检索范围,防止漏检,有利于提高查全率凡是用OR的检索式,OR两侧的检索词只要有一个在一条记录中出现,该记录就算命中如:?S(AU=QIU,DAHONG OR AU=QIU,D.H.OR AU=QIU,D H OR OR AU=QIU,DA-HONG OR AU=DAHONG,QIU)AND CS=DALIAN

29、?s www+internet+network,3.逻辑非:一般用not或-表示,少数数据库用#或/表示,是一种排斥关系的组配用来从原来的检索范围中排除不需要的概念或影响检索结果的概念,有利于提高查全率凡是用NOT的检索式,NOT前面的检索词必须在记录中出现而后面的检索词一定不能出现,该记录才算命中如:?S OPTICAL NOT FIBER?s EnergyNuclear,NOT,Web of Science 中的逻辑运算举例,输入检索式,选择文献类型,Semiconductor nanometer nanoparticle nanofilm Composite compositesPrep

30、are preparation synthesize synthesisSemiconduct*and nano*and composite*and(prepar*or synthes*),优先顺序,逻辑运算符的优先顺序为NOT、AND、OR如果要改变运算顺序需要用“()”如:A AND(B OR C),逻辑“与”的缺点,逻辑“与”只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符两侧检索词之间的位置关系,有时难免造成误检。例如:查找“细菌对染料破坏”方面的文献检索词:细菌、破坏、染料采用逻辑“与”组配:细菌 and 破坏 and 染料检索结果:命中同时用这三个词标引的文献有“细菌对染

31、料的破坏”方面的文献也会有“染料对细菌的破坏”方面的文献要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系。,二、位置运算符,又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。跟AND运算符类似,但比AND运算符功能更具体。比如:通过“communication AND satellite”进行检索时,命中的文献可能既含有“communication satellite”,又含有“satellite communication”;也可能含有“communication devices for satellite”“commu

32、nication links without satellite”等等。显然其中有些记录与课题要求毫无关系。位置运算符可以用于改进AND运算符的这种不足之处,因此,它们可以看成是特殊功能的AND运算符。按照两个检索词出现的顺序和距离,可以有多种位置运算符,而且对于同一功能的运算符,不同的检索系统可能有不同的表达方式,也有的检索系统不支持位置运算符,检索之前应该先看看数据库的帮助信息。常用位置运算符有(w)、(n)、(s)、(f),1.(W),(W)算符中的W含义为“With”。词序不许颠倒两词之间不许插词,只允许出现空格或连字符号(W)算符还可以使用其简略形式()例如:?S CD(W)ROM

33、将命中 CD ROM 或 CD-ROM?S solar()energy 检出 solar energy?S CD(W)ROM/de,id,2.(nW),(nW)算符中的W 含义为“Word”它允许两词中间可以插入0-n个其他词,包括系统禁用词词序不变 例如:?communication(2W)satellite将检索出含有communication satellite、communication via satellite、communication on the satellite的记录。,3.(N),(N)算符中的N含义为“Near”词序可以颠倒两词之间不许插词,只允许出现空格或连字符号例

34、:?S cross(N)section 可检出 cross section 和 section cross,4.(nN),(nN)是(N)算符的变形检索词之间允许插入0n个词,包括系统禁用词词序可以颠倒例如:?cotton(2N)processing可检出cotton processing、processing of cotton、processing of Egyptian cotton,5.(S),(S)算符中的S含义为“Sentence”词序可以颠倒两词必须出现在同一句子(子字段)中(在EI的AB字段中为在两个句号之间同时出现,在DE字段中为在两个分号之间同时出现),tio2 same

35、nano*same composite*same(prepar*or synthes*),6.(F),(F)算符中的F含义为“Field”两词必须出现在同一字段中词序不限例如:?pollution(F)control可检出control and management of industrial pollution,(F)与and的区别,(F)邻近算符指定两个检索词在同一个字段中出现,而AND布尔逻辑组配中的两个检索词会出现在不同的字段中此外同位置运算符相比,AND可以连接两个以上的检索词,还可以两个以上的检索集合进行组配。例如:au=cheng,gengdong AND cs=dalian A

36、ND py=1998或 s1 and s2 and s3,4.4 截词算符,截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,从而节省机时,降低费用,提高查全率。不同的数据库有不同的截词符,DIALOG系统用“?”,ORBIT系统用“+”,此外还有的系统用“$”或“*”截词有前方一致、后方一致、中间一致和中间屏蔽四种形式。截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检经常要使用前方一致的截词检索。,1.前方一致,也叫后截断,将截词符置于一个字符串的后面,以表示其后的有限或无限个字符的检索。无

37、限截词如:?Physic?可检出physic、physical、physican、physicalism截断两个字符如:?physic?可检出physic、physical、physican截断一个字符如:?textile?可检出textitle、textitles,中间有一个空格,2.后方一致(支持的检索系统较少,EI光盘不支持),也叫前截断,将截断符置于一个字符串的前面,以表示其前的无限个字符的检索。均为无限截词。如:?polymer 可检出polymer、copolymer、homopolymer,3.中间截断,也叫中间屏蔽如:?defen?e 可检出defence、defense?fi

38、b?s 可检出fibers和fibres,Web Of Science平台:Lap*roscop*可检索到 Laparoscopic,Laproscopic,Laparoscopy,CSA平台:*截断任意个字符 patent*可检索到patent,patents,patentable;h*ophilia 可检索到haemophilia,hemophilia;?截断一个字符,在单词中最多可使用三个?,wom?n 可检到woman,women;fib?可检到 fiber,fibre;,人大复印报刊资料全文书库:!:两词(字)之间允许隔零个至多个字,最多允许出九个“?”例:旅游!企业 可检索到“旅游

39、企业”、“旅游服务企业”、“旅游重点企业”等?:两词(字)之间允许隔几个字,相隔字的个数等于出现?的个数,最多允许出九个“?”例:旅游?企业 可检索到“旅游服务企业”、“旅游重点企业”等,4.中间一致(支持的检索系统较少,EI光盘不支持),词头词尾都可变化如:??wave?可检出wave、waves、microwave,4.5检索限定,字段限定时间范围限定分类限定语种限定等,1.字段限定,字段限定也是调整检索策略的一种重要手段。多数检索系统对不指定字段的检索词通常在所有字段(all field)或所有基本字段中进行检索。如果想指定在文献的题目等特定字段中检索,就需要使用字段限制。字段限制适用于

40、在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索的查准率。例如:?OPTICAL NOT FIBER在EI98光盘中有14799条记录。字段限制的优先级要比逻辑运算符的优先级高要把OPTICAL NOT FIBER限制在题名字段就要输入:?(OPTICAL NOT FIBER)/TI,2.Ei光盘中常用的基本索引字段,/TI Title 篇名/AB Abstract 文摘/DE Descriptor 规范词/ID Identifiers 自由词,基本索引字段检索,在Ei光盘中基本索引字段用后缀方式表示如:?Polymer/ti,ab?Information(w)soc

41、iety/ti?nondestructive(w)(testing or examination)/ti,ab,de,id,3.Ei光盘中常见的辅助索引字段,代码解释AU=Author(著者)CS=Corporate Source(机构)CT=Conference Title(会名)JN=Journal Name(刊名)DT=Document Type(文献类型)LA=Language(语种)PY=Publication Year(出版年),在Ei光盘中辅助索引字段用前缀方式表示如:?LA=English查找原文为英文的文献。?PY=1993:1994查找1993年至1994年间发表的文献。,

42、辅助索引字段检索,文献信息检索的常用方法,1 直接法(常用法),直接法是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。顺查法顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。倒查法倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。抽查法抽查法是指针对项目的特

43、点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。,2 追溯法(引文法),追溯法是指利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大信息来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。缺点:查全率、查准率较低,易误检漏检,追溯法原始文献,追溯法原始文献所附的参考文献,3 综合法,综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用

44、检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。,利用计算机进行信息检索的步骤,确定检索目标选择数据库编制检索提问式上机检索整理检索结果并对检索效率进行评价,1确定检索目标,要进行信息检索,首先必须确定信息检索的目标,即对信息用户的需求进行具体的分析,这种分析应主要包括以下内容:明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。课题分析

45、对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确概念之间相互的逻辑关系。,课题分析直接从项目名称中确定检索概念,例1:项目“聚乙烯的合成(synthesis of polyethylene)”主要概念:聚乙烯、合成(synthesis、polyethylene)检索式:聚乙烯 and 合成Synthesis and polyethylene,课题分析找出隐含概念,例2:项目“灌溉用的橡塑多孔管”Rubber-Plastic Porous Pipe For Irrigation橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、

46、塑料该产品主要用于农林、园艺等方面的灌溉。主要概念:橡胶、塑料、多孔管、灌溉检索式:(橡胶 or 塑料 or橡塑)and 多孔管 and 灌溉,课题分析泛指概念具体化,例3:项目“唐山综合防灾的研究”由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手段是决策支持系统和专家系统。防灾 地震、洪水、火灾 研究决策支持系统、专家系统主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统检索式:城市 and(地震 or 洪水 or 火灾)and(决策支持系统 or 专家系统),排除重复无关的概念,可避免漏检,节省检索费用。例4:项目“

47、河豚毒素的液相色谱分析”从项目名称上看,其主要概念为“河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念主要概念:河豚毒素、液相色谱检索式:河豚毒素 and 液相色谱,2.选用合适数据库,根据检索目标分析所确定的检索目的、涉及的学科范围和信息类型,选择合适的数据库。具体选择过程中还应考虑数据库的类型(参考、全文还是电子期刊)、内容(专利、标准、会议)、收录的数据学科范围、数据库的更新周期,收录文献的语种等因素。例如,要查新就要选择收录文献最全,更新周期快的数据库;要看全文就要选用全文数据库或电子期刊;要查标准或专利就要选择标准库或专利库。,3.使用

48、适当的检索语言,构造检索表达式,分析各个检索词之间的位置关系和逻辑组配关系分析检索词应该限定在哪个字段中检索(是在所有基本索引中检索还是限定在分类、主题、自由词、文摘还是其他辅助索引字段中检索?),4.上机检索,上机检索是用户的实际操作过程,检索策略输入检索系统后,系统响应的检索结果通常很难一次就能满足课题的要求,例如,有时输出的篇数太多,而且不相关的文献所占的比例很大,而有时输出的文献数量太少,甚至为零。因此在检索的过程中用户需要不断地根据检索结果对检索策略进行调整和修改,包括检索词的重新选取以及检索提问式的重新构造,经过反复的检索最终获得比较满意的检索结果。,(1)输出篇数过多时,此时多数

49、是由误检造成的,原因主要有以下几点:1)没有对检索词进行限制。包括字段限制,时间限制,分类限制等。如在cnki中进行全文检索,结果肯定多很多。2)主题概念不够具体或具有多义性导致误检。例如,仅使用mathematics进行检索结果很多,就需要整检索策略,将概念具体化。如:mathematics and economic 再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织)3)对所选的检索词截词截得过短。例如,使用math?将有太多的检索结果。,(2)输出篇数过少时,此时多数是由漏检造成的,原因可能有以下几点:1)选用了

50、不规范的主题词或某些产品的俗称、商品名作为检索词。例如,没有使用学名“马铃薯”而使用了俗名“土豆”又如,没有使用“表面活性济”而使用了商品名称“迪恩普”,都会造成漏检。2)同义词没有充分考虑。例如,“检索物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。3)上位概念或下位概念没有完整运用。例如,“燃料”是上位概念,下位概念可以有“固体燃料”、“液体燃料”、“气体燃料”,甚至还有“煤”、“油”、“煤气”、“天然气”等,这些概念在检索“燃料”时都应该加以考虑。,5.整理检索结果并对检索效率进行评价,对检索结果进行整理,包括存盘、打印。包括全文的下载浏览,题录信息的保存和记录。若是

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号