《《信息检索知识》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索知识》PPT课件.ppt(50页珍藏版)》请在三一办公上搜索。
1、1,一、信息检索(Information Retrieval),包括两个部分:一是信息存储,即把大量分散的无序的信息集中起来,经过加工,使之有序化、系统化,成为有功能的检索工具或检索系统。二是信息检索,利用已组织好的检索工具或检索系统,按照课题的要求将所需信息查找出来。,2,信息检索类型,分为:数据检索(Data Retrieval)-特定的数据事实检索(Fact Retrieval)-特定的事实文献检索(Document Retrieval)-特定的文献是根据课题的要求,采用科学的方法,利用专门的检索工具,如书刊或数据库,从大量的文献资料中找到所需文献的过程。包括,书目检索、题录或索引检索、
2、文摘检索、全文检索。,3,二、检索原理与检索语言,1、检索原理 是指通过一定的方法和手段,使信息存储与检索两个过程所采用的特征和标识达到一致,以便有效地获取和利用文献。存储过程-对文献进行标引检索过程-根据需求,确定提问式,4,2、检索语言(检索标识,Retrieval Language)检索语言是一种在文献存储和检索过程中共同使用的语言。它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。可分为规范化语言(受控语言)和非规范化语言(自然语言)。,5,规范化语言:是指对文献检索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只
3、能表达一个概念。例:IM的Subject Index;CA的CS、GS;中目的分类目次非规范化语言:它对检索用语中的各种同义词、多义词、近义词、同形异义词等不加处理,所以也叫自然语言,如关键词。例:CAKeyword Index,6,文献特征文献标识 目录或索引-检 外部特征文献名称文献名称索引(Title Index)引用期刊一览表等 著者名称 著者索引(Author Index)著者、专利权人索引 文献序号 序号索引(Number Index)专利号、报告号等索 引用文献 引文索引(Citation Index)SCI 内部特征分类号 分类索引(Classified Index)主题词 主
4、题索引(Subject Index)语 关键词 关键词索引(Keyword Index)分类主题 分类主题索引(Classified and Subject Index)言 其它专用索引 分子式索引,环系索引等(Formula Index),(Index of Ring system),7,三、常用文献检索算符,逻辑“与”and/*检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。如:查找“胰岛素治疗糖尿病”的检索式为 insulin(胰岛素)and diabetes(糖尿病)。,A AND B,8,逻辑“或”OR/+检索式“A or B”表示包含检索词A的文献或
5、者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。如:查找“肿瘤”的检索式为cancer(癌)or tumor(瘤)or carcinoma(癌)or neoplasm(新生物)。,A OR B,9,逻辑“非”NOT/-检索式“A not B”表示包含检索词A同时不包含检索词B的文献为命中文献。如:查“动物的乙肝病毒(不要人的)”的文献的检索式为hepatitis B virus(乙肝病毒)not human(人类)。,A NOT B,10,邻近度算符 With 检索式“A with B”表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献.
6、如:“drug with abuse”检索出的是同一个字段中同时出现这两个词的记录。,11,邻近度算符Near 检索式“A near B”表示检索词A和检索词B不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的文献才是命中文献。如:drug near abuse检索出的是同一句话中同时出现这两个词的记录。(也可说成是两个词之间没有句号的文献)。,12,邻近度算符Near#其中“#”代表一个常数,检索式“A near#B”表示检索词A和检索词B之间有0#个单词的文献(A和B在同一记录、同一字段里)。在near后加一个数字,指定两个词的邻近程度,且不论语序。如:informa
7、tion near2 retrieval表示检索词 information和retrieval同时出现在一个句子中,且这两个检索词之间的单词数不超过两个的那些文献为命中文献。,13,四、文献检索工具的含义和类型,1、检索工具的定义与特点定义:检索工具(Retrieval Device)是指用于报道、存储和查找文献的工具。它具有存储(编制过程)和检索(查找过程)两大职能。特点:(1)收摘一次文献、(2)著录文献特征、(3)提供多种检索手段,14,2 检索工具的类型*按摘录方式划分如下:目录 题录或索引 文摘 全文,15,目录(Catalogue),含义:目录是对文献的外表特征的著录。它通常以完整
8、出版物(如一本书或一种刊或一个会议录的名称)作为著录的基本单位来报道和记录文献。著录内容:文献名称、著者、出版项与馆藏信息等内容。,16,按职能划分目录种类:出版发行目录 馆藏目录:按检索标目划分为 书名目录(Title Catalogue)著者目录(Author Catalogue)分类目录(Classified Catalogue)主题目录(Subject Catalogue)联合目录 资料来源目录,如IM、CA、BA,17,题录(Title)或索引(Index),概念:其一,是指检索工具,它揭示文献的外表特征和内容特征,即著录文献是以一个完整出版物的某一部分(如书的章节或刊中一篇论文题目
9、)为著录单位。其二,是指检索途径(附录式索引),如,分类索引、主题索引、生物体索引、著者索引等。著录内容:论文题目、著者、文献出处(刊名、发表年月、卷、期、页码)及文种等。如,中目、IM、CNKI免费题录等。,18,文摘(Abstract,Excerpta,Digest),含义:文摘是指对文献内容选择重要部分以简练的形式作为摘要,并按一定的原则和方法编排而成的一种检索工具。著录内容:同 文摘。如,中国医学文摘,中国药学文摘,中国生物学文摘,CA,BA,CBM,CMCC,MEDLINE/PubMed等。,19,根据摘要详简程度,文摘可分为:指示性文摘(简介,Indicative Abstract
10、)是以最简短的语言,概略指示原文的研究对象、内容范围、研究目的及方法,一般在50-150个字。报道性文摘(Informative Abstract)内容详细,反映文献的中心内容、观点、数据及结论,一般在200300,500,1000字左右。,20,全文(Full-text),全文检索是指以文献所含的全部信息作为检索内容的文献检索。中文:CNKI数据库、万方数据库外文:EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊,21,五、检索的途径与步骤,(一)检索途径1、从文献外表特征题名途径-Title Index著者途径-Author Index 号码途径-Nu
11、mber Index,22,2、从文献内容特征分类途径-Classified Index关键词途径-Keyword Index主题词途径-Subject Index 分类主题途径-Classified and Subject Index其它-Formular Index,23,使用著者途径应注意:书写格式 姓前(全称)、名后(缩写,即用首字母)Willian Henry HarrisonHarrison W H姓前有前缀M、Mc、Mac,在索引中一律按Mac的字顺排在一起姓前带冠词De、Della、Des、La、Van、Vanden、Von与姓名字顺一起排列;有等级制称号的著者排在无等级制称号
12、的著者之后,先排Johs W 后排Johs W jr音译中国人著者-按汉语拼音著录;俄国人-按英俄文音译对照表;日本人-按黑本氏英日文音译对照表对译。学术团体,企业单位等名称按原名著录,并加国名以示区别。,24,分类途径根据文献内容在学科分类体系中的位置作为文献信息的检索途径,它的检索标识是分类号,是一种族性检索。我国按中国图书资料分类法进行分类。如,R 医药卫生、R28 中药学、R5 内科学、R9 药学国外有国际十进分类法,;杜威法,。,25,关键词途径是按照文献题目或内容中具有实质意义并能表达文献的主要内容、起关键作用的词或词组,从关键词字顺的检索系统中检索的一种途径,它的检索标识为关键词
13、。如,程序性细胞死亡;细胞调零;细胞调亡 维生素B2;VitB2,26,主题词途径通过文献所属学科的主题对文献进行检索,是以主题词为检索标识,它是一种特性检索。主题词是用来表达文献的主题概念的,经过规范化处理的名词或词组。如,吞噬作用 核黄素(thiamine),27,分类主题途径是分类和主题途径的结合例,BA的目次(Major Concept Headings),28,(二)检索步骤,1、分析检索课题,明确检索要求、时间、范围2、选择检索工具、确定检索方法追溯法、常用法(顺查法,倒查法,抽查法)、分段法3、检索途径、明确检索标识、制定检索提问式4、查找文献线索(论文题目、著者、文献出处)5、
14、索取原始文献,29,六、医学数据库使用简介,中国生物医学文献数据库(CBMdisc)中国生物医学文献光盘数据库(CBMdisc)是由中国医学科学院医学信息研究所开发研制的综合性医学文摘型数据库。收录范围:1978年-至今、涵盖中目(医药卫生)和CMCC 1000多种中国生物医学刊物、近340万篇文献;约26万篇/年;文献类型有期刊、汇编、会议文献等。收录涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。,30,数据记录的结构,31,检索途径,自由词检索主题词检索索引词检索分类检索期刊检索,32,自由词检索,33,检索步骤:1、选择检索字段缺省字段、全部字段、特定字段2
15、、输入检索词或检索式,点击检索按钮 备注:二次检索是指在最后一个检索式检索结果的范围内进行进一步 查询。选择检索字段:缺省字段:TI、AB、AU、MH、TG、TW、TA 全部字段:ALL 特定字段:仅在某一指定字段内检索 精确检索 au=xx 非精确检索 xx in au特殊字符或标点的检索 例如,MH=“肝炎,病毒性,人”;“1004-616X”IN ISSN,34,主题词检索,35,检索步骤:1、点击主题词按钮2、输入检索词(中文或外文),点击浏览按钮3、选中所要检索的主题词,点击主题词注释按钮之后,可对该词进行不扩展、扩展、加权检索及树状结构选择4、点击检索按钮,选择相应的副主题词与主题
16、词进行组 配检索,36,索引词检索,37,检索步骤:1、点击索引词浏览2、输入检索词,点击浏览按钮3、通过浏览选择检索词,点击检索按钮备注:检索多个索引词时,使用加入列表、浏览列表和检索列表 按钮,38,分类检索,39,检索步骤:1、点击分类按钮2、输入检索词(分类号或分类词),点击浏览按钮3、选择要查找的检索词,点击检索按钮4、在“选择复分”对话框中,选择相应的复分号,以便与主类号进行组配检索,40,期刊检索,41,检索步骤:1、点击期刊按钮2、输入检索词(刊名、出版单位、出版地、主题词),点击浏览按钮3、选中欲检刊名,点击检索按钮备注:点击词条注释按钮,显示该刊的主编、编辑单位、电话、地址
17、等内容,可作为投稿查询信息。,42,结果显示与存盘,43,中国期刊网全文数据库,中国学术期刊全文数据库(CAJ)由清华大学中国学术期刊(光盘版)电子出版社编辑出版,是我国第一个连续出版的大规模集成化、多功能学术期刊全文检索系统,收录国内中、英文核心期刊和专业特色期刊6000余种。分为理工A(数理科学)、理工B(化学化工能源与材料)、理工C(工业技术)、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学综合、电子技术与信息科学9大专辑,126个专题数据库,网上数据每日更新。浏览全文需下载CAJ全文浏览器,可从期刊网首页下载.,44,初级检索界面,45,高级检索界面,46,点“原文下载”查看全
18、文,47,点磁盘标识寸盘,48,七、如何提高信息检索效率,查全率(Recall ratio)和查准率(Precision ratio)6070%-互逆关系-4050%手检与机检的关系检索策略的制定*索取全文*,49,制定检索策略,根据检索目的和要求,确定检索的学科范围、文献类型、回溯年限、语种选择检索手段和检索系统确定检索途径,注意各种检索途径的配合使用确定检索标识,正确使用各种运算符,编制检索提问式 检索过程方案调整,通过上下位词的选择和逻辑算符的应用,可进行扩大或缩小检索范围,使检出的结果符合要求,50,索取原文,记录文献线索掌握各种缩写的还原向著者索取利用馆藏目录、公共查询系统、联合目录*利用网上全文传递服务*检索网上全文数据库*利用网上出版社、杂志*,