《信息检索ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索ppt课件.ppt(92页珍藏版)》请在三一办公上搜索。
1、信息检索,课程性质,文献信息检索课就其实质来说,是一门方法课, 即通过讲授信息检索基础理论、信息检索方法和各种中外文数据库的使用,提高同学们获取信息的能力,主要是培养学生的情报信息意识和提高检索技能。,一、信息素质,信息素养的概念,To be information literate, a person must be able to recognize when information is needed and have the ability to locate, evaluate, and use effectively the needed information. 具有信息素养的人
2、能够知道什么时候需要信息,能够有效地获取、评价和利用所需要的信息。 美国图书馆协会ALA, 1989,信息素质,信息素质(Information Literacy 简称IL),又称信息素养,简单地讲,信息素养是指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力”。它包含了三个层面: 信息意识、信息能力、信息道德。,信息素质的内涵:,信息意识对各种信息自觉的心理反映信息能力信息技术的应用能力 信息查询、获取的能力 信息组织加工、分析能力 信息的有效利用、评估、传播能力信息道德整个信息活动中的道德规范,学术道德规范 (学术规范的核心部分,具体包括: )学术研究应坚持严肃认真、严谨
3、细致、一丝不苟的科学态度。不得虚报教学和科研成果,反对投机取巧、粗制滥造、盲目追求数量不顾质量的浮躁作风和行为。学术评价应遵循客观、公正、准确的原则, 如实反映成果水平。 学术论著的写作应树立法制观念,保护知识产权,要充分尊重前人劳动成果 。,信息道德,学术法律规范: 中华人民共和国著作权法 合作创作的作品,其版权由合作者共同享有。 未参加创作,不可在他人作品上署名。 不允许剽窃、抄袭他人作品。 禁止在法定期限内一稿多投。 合理使用他人作品的有关内容。 学术不端检测系统,信息道德,第三层次:信息选取与综合利用 (信息增值)第二层次:从检索系统中检索出信息 (检索技术)第一层次:知道什么信息在什
4、么地方 (熟悉了解信息源),如何具备信息素质,如何判断自己已具备了信息素质?,1、能够独立决定所需信息种类和程度。2、能够高效地获取所需信息。3、能够根据现有的知识背景和评价标准对信息 及其来源进行评价及遴选。4、能够有效地利用信息达到某一特定的目的。5、能够在信息利用过程中遵守相关的法律法规。,二、信息源,信息的来源叫做信息源。 信息源可按不同的方法分类描述,比较常见的分类方法有如下三种:1、按信息的载体形式划分(电子文献等);2、按信息加工的级别划分(四次文献);3、按信息的发布形式划分(十大文献信息源等),(1)、按信息的载体形式划分信息源,1)印刷型(Printed form)(书本型
5、) 以纸张为载体2)缩微型(Microform) 以缩微胶片、平片等感光材料为载体3) 声像型(Audio-Visual form)(视听材料) 以磁性和感光材料为载体4) 电子型(Machine Readable form) 以计算机信息存储设备为载体,以数字代码将图、文、声、像等信息存储到介质上通过计算机阅读。,(2)、按信息加工级别划分信息源,信息出版量的急剧增长,信息类型的多样化和信息分布的离散状态,获取相关信息犹如大海捞针。利用信息的可塑性,将信息处理为不同等级。通常文献学上将其称为“三次文献”:一次文献 primary document二次文献 secondary document
6、三次文献 Tertiary document零次文献 最原始的资料,文献,零次文献:普通网页,电子邮件等一次文献:正式在期刊上发表的论文等二次文献:数据库中的题录、目录等三次文献:文献综述、进展报告等,(2)按文献加工深度划分,1)图书(book) 2)期刊(journal) 3)科技报告(report) 4)会议文献(proceeding) 5)专利文献(patent) 6)学位论文 (dissertation) 7)政府出版物 (government publication) 8)标准文献(standards) 9)产品资料(product literature) 10)科技档案(scie
7、ntific and technical archives),(3)、十大信息源按出版形式划分,特种文献,三、网络检索的六大方面,一个原则:选择合适的关键词,制定正确的检索策略。两类搜索引擎 三大系列中文网站 四次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎:全文搜索引擎(FullText Search Engine) 百度搜索引擎 、Google搜索引擎 分类目录( Directory ) 雅虎中国、搜狐、新浪、网址之家、 网易分类目录等三大系列中文网站 四次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站: 三大中文门户网站新浪、搜狐、网易
8、 三大中文期刊数据库清华库、维普库、万方库 三大中文数字图书馆超星、方正、书生之家 四次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站 四次文献: 零次文献 一次文献 二次文献 三次文献五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站 四次文献 五大多媒体技术:素材下载技术 素材转换技术 多媒体制作技术 素材发布技术 网页制作和网站发布技术十大文献信息资源,十大文献信息资源 科技图书 科技期刊 特种文献( 科技报告 政府出版物 会议文献 标准文献 专利文献 科技档案 学位论文 产品样本 ),四、信息检索,什么是信息检索?,信息检索(I
9、nformation Retrieval) 指对文献信息资料的查找与获得。 检: 即查找, 索: 即获得与索取。 也就是说,检索者利用检索工具按照文献编排的特点,采取一定的途径、方法和步骤,将所需文献资料查找出来,并加以利用。 前提:必须有检索工具 其次:途径和方法桥梁、纽带 最后:检索者,信息检索活动的功用,一、利用信息检索工具,全面细致地搜索前人的工作经验与成果,及时掌握事物的最新动态及发展趋势;二、提高工作效率,提高人们的自学能力、科研能力、鉴赏能力;三、避免重复劳动,规避风险,维护正当权益;,信息检索活动的功用,四、节省检索文献的时间 文献检索在科研中所占时间的比例: 开展思考计划文献
10、查找科学实验编写科研报告 8% 48% 35% 9%五、有利于专题文献查准和查全 检索工具原始文献(线索)六、克服专业语言和自然语言的障碍,五、检索语言,检索语言,是根据检索的需要而创造的人工语言,用于描述检索系统中信息的内部特征和外部特征并能表达用户信息提问的一种专门语言。,标引文献与揭示文献内容的两种基本方法:,、分类法:按照文献资料的学科属性(分类法最有利于查全)分类法的特征在于知识的系统性,不仅揭示图书的学科知识内容,而且把有关同一学科内容的文献资料集中在一起,使学科临近的文献排在相近的位置,根据各类图书之间的亲疏关系将藏书组织成一个系统、主题法:按照所论述的事物 将文献所论述的事物按
11、照规范化的语言(主题词)的字顺进行排检,从本质上讲,是用词语来揭示文献所阐释或研究的对象、事物和问题。与分类法相比,从不同角度来揭示文献。,分类法,世界上有代表性的分类法:1、杜威十进制分类法(Dewey Decimal Classification and Relative Index 简称DDC)2、国际十进制法(Universal Decimal Classification,简称UDC)(被广泛应用于科学论文的分类 )3、美国国会图书馆图书分类法(Library of Congress Classification,简称国会法或LC)(目前广泛应用于北美大中型图书馆,特别是大学等学术性
12、图书馆 )4 、中国图书馆分类法,中图法中国图书馆分类法,以学科来组织知 识,将全部知识领域划分为5个基本部类,22大类。 马克思主义、列宁主义、毛泽东思想、邓小平理论(A) 哲学(B) 社会科学(C) 自然科学(N) 综合性图书(Z)在5个基本部类的基础上,按照从总到分,从一般到具体的编排原则进一步展开,组成了22个基本大类:A、B、C、D、E、F、 Z(L、M、W、Y)这就是俗称的中图法五部二十二大类。,中图法介绍,主 题 法 1、自然语言(非规范语言):信息检索系统中使用的标引词直接来自文献和用户提问而不加控制的一类检索语言,主要有关键词语言。 自然语言的应用以计算机为前提,否则,自然语
13、言检索将难以实现。 2、受控语言(规范语言或人工语言):标引词来自文献或者用户,并受到信息检索系统的控制的一类检索语言的总称,又叫规范化语言。 受控词在检索实践中具体体现为词表。词表在网络检索工具中的应用主要体现在辅助选词以及检索式的扩展。,汉语主题词表,汉语主题词表是我国第一部大型综合性主题词表。1979年出版,自然科学部分1991年修订收录正式主题词91158条,非正式主题词17410条。 全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成。 是我国应用最广的一部主题标引和检索的工具。,六、检索工具,目录型检索工具 目录是图书、期刊等出版物外表特征的揭示和报道。它以完整的
14、出版物(如一本书、一种期刊)作为著录的基本单位,所以也可以说它是按某种顺序编排的文献清单。是指导阅读和科学管理文献的重要手段。 目录的著录对象一般是整本书或整种刊物,全国总书目揭示每年国内图书出版情况 每个图书馆的OPAC(联机公共目录)揭示该馆的馆藏 联合目录揭示许多家图书馆出版物收藏情况。,题录型检索工具题录的含义题录是描述文献外部特征的文献条目。文献的外部特征包括题名、著者、出处、卷期、页码、时间、文献类型、语种等著录项目。题录的著录对象一般是单篇文献。,文摘型检索工具文摘的定义我国国家标准GB 3468-1983; 检索期刊编辑总则说明定义:“除题录部分外还对文献内容作实质性描述的文献
15、条目称之为文摘”。文摘是文献原文浓缩后的产物,是忠实于原文内容的简要记录单元。揭示文献的内容特征,在文摘的编写中不能加入编写人员的主观见解和任何解释性说明,也不能对原文作任何修改。,全文型检索工具 全文也包括内容简短的事实和数据。全文性检索系统集文摘检索和全文提供于一体,是近年来发展较快和前景较好的一类数据库。 优点: 一、可以直接获取全文。 二、多数全文数据库提供全文字段检索,这个有助于文献的查全。,手工检索工具索引: 将文献中具有检索意义的事项(可以是人名、 地名、词语、概念、或其他事项)按照一定方式有序编排起来以供检索的检索工具。 相对于目录,题录、文摘等类型的检索工具,索引深入到文献的
16、细节,涉及到具体的知识点。 常用的印刷版的工具书都有索引,以便检索。,其他类型的手工检索工具工具书年 鉴查找事实或统计数据百科全书查找不熟悉的知识手 册成熟稳定的知识,查找参数,公式等辞 书词典或辞典,查找科技词汇的解释,或汉外 对照辞典 ,缩略语辞典。还有大量的专门性辞典。年 表查找一些历史大事记录,七、计算机检索,1、机检包括以下几个主要过程:,1、识别用户:帐号密码、IP地址2、接收提问:接收输入的检索词3、提问校验:语法检查(布尔逻辑组配)及用词检索4、转化提问式:将用户的原始提问式 转化成计算机处理的目标提问式5、检索:进行匹配选择的过程6、结果输出:按照相关性的大小等顺序 进行排序
17、后输出,1)、分析检索课题(界定问题):分析研究问题,建立背景知识。明确检索目的、学科、年代范围、所需信息类型 开始检索的前提2)、选择检索系统和数据库(选择信息源):考虑数据库涉及的学科范围、文献类型、数量、时间、更新周期、检索功能和服务方式等选择检索系统和数据库 对检索工具和方法的选择,2、计算机检索步骤:,3.1)、确定检索途径和检索方式(制定检索策略): 许多数据库提供多种检索途径,如初级检索、高级检索、专业检索和分类检索等途径。 检索方式(检索项)的选择: 根据课题已知条件及选定的检索工具所提供的检索途径来定,主要有著者、分类、主题、文献题名、文献代码、引文、文献类型、出版时间、语种
18、等。 有选择地使用,3.2)、确定检索词(拟定主题概念,制定检索策略): 检索词是表达文献信息需求的基本元素,由用户输入,可以组配:优先选用主题词,尽量选用通用的专业术语和数据库词表中的主题词检索,还要考虑同义词、相关词、缩写词,提高查全率 对主题词的提炼,3.3)、构建检索式(制定检索策略): 检索式是计算机检索中用来表达用户检索提问的逻辑表达式,一个课题一般需要用多个检索词来表达,并且运用各种布尔逻辑算符、位置算符、截词符及其他组配连接符号来确定词与词之间的关系,表达一个完整的检索要求。 明确检索词间的组配关系。,4)、检索并调整检索策略(评价信息): 及时分析检索结果,适当调整检索词、检
19、索提问式,能简化的必须简化,多准备几个检索提问式,随时调整使用。一般可以先查找最精准的检索词,然后根据检索出来的结果,逐步扩大检索范围,直到结果满意。5)、检索结果(分析和利用信息),3、检索策略: 在检索过程中,确定检索范围、选择检索手段、选择检索系统和数据库等,是为实现检索目标而制定的整体方案,是整个检索过程的指导。我们称之为“检索策略”。 对检索的全面策划,4、计算机检索的基本技术:检索课题时,关键词或主题概念不止一个,它们之间的关系要靠运算符来表达。 (1)布尔逻辑检索 (2)截词检索 (3)位置检索 (4)加权检索 (5)限制检索,4.1)布尔逻辑检索Boolean operator
20、s: 把具有简单概念的检索词,组配成复杂概念的逻辑运算符号,主要有逻辑与、或、非。 AND(*):逻辑“与” OR(+): 逻辑“或” NOT(-):逻辑“非”,逻辑“与”AND(*)对交叉概念和 限定关系组配,缩小检索范围,提高 查准率。逻辑“或”OR(+)对并列关系的组 配,它可以扩大检索范围,提高查全 率。逻辑“非” NOT(-)排除原来的检索 范围中 不需要的概念,使检索结果更准确。,4.2)截词检索: 用截词符号“*”、“#”、“?” “” 加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率,主要用于外文数据库检索。 中文数据库通常不使
21、用这种技术。,后截词检索(前方一致):又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。中截词检索:也称“通用字符检索法”,把截词符放在词的中间,凡前后方一致的词,均能检出。这种方式查找英美不同拼法的概念最有效。,4.3)位置检索: 就是要求检索词按照用户指定的位置出现,用位置算符规定检索词在文献中的相对位置。,4.4)限制检索 泛指检索系统中提供的缩小或约束检索结果的检索方法。主要有以下方式:字段检索利用字段进行限制,如题名、摘要、全文等通常的字段限制范围的大小顺序是:题名关键词摘要全文二次检索在前一次检索的结果中进行另一概念的检索,限制检索(Range):将检索词限定在某些字段中
22、,也就是用字段符号,限定检索词出现的字段。常用的字段代码及名称如: AU=作者;LA=语种; TI=篇名;AB=文摘; PY=年代;KW=关键词; SU=主题词;,云传递 ZADL 文献传递平台,ZADL文献传递:统一身份认证,统一身份认证指定证件号为: 一卡通号(教师:工号;学生:学号)(如:03B5100042)网络中心教师通过统一身份认证,即可享受ZADL(浙江高校数字图书馆)的多项服务:文献传递、联合目录、虚拟参考咨询等。,完成后的界面。(统一身份认证下有姓名、IP地址显示),点击“文献传递”后,首次使用会跳出注册的页面,需要联系我们图书馆员授权通过。,常用中文电子图书数据库使用方法介
23、绍,浏览数字图书 检索数字图书 单项条件检索 高级检索下载数字图书我的图书馆,超星数字图书馆的功能,首先,超星数字图书必须使用超星图书阅览器阅读,因此必须下载超星图书阅览器。,超星浏览器主要功能:,可阅读超星数字图书;符合传统阅读习惯,有上页、下页和目录等书页的概念,显示页面可随意放大、缩小和移动;嵌入了汉王OCR识别系统,可将图像格式的图书资料转换成文本加以利用,文字识别(OCR),在阅读书籍时,在工具栏或者在书籍阅读页面点击鼠标右键,在右键菜单中选择“文字识别”,在所要识别的文字上画框,框中的文字即会被识别成文本显示在弹出的面板中,选择“保存”可以在采集页面中进行整合,选择“保存”即可将识
24、别结果保存为TXT文本文件。,读秀学术搜索,读秀学术搜索是由海量图书等文献资源组成的庞大的知识系统。可以对文献资源及其全文内容进行深度检索并且提供原文传递服务的平台。,读秀现收录260万种中文图书题录信息,可搜索的信息量超过6亿页。读秀提供图书封面页、目录页、正文17页以及各章节和全文的部分试读。任何一个检索词句都能迅速准确地定位到该词句出处的当前页。,读秀可以对所需资料进行自动文献传递(每本图书单次传递不超过50页,同一图书每周的传递量不超过全书的20%),使读者方便快捷地找到想阅读的图书和其它资料。, 2008 duxiu. All rights reserved.,中国期刊网CNKI 全
25、文数据库,中国期刊全文数据库,收录内容: 中国期刊网是目前世界上最大的连续动态更新的中国期刊全文数据库,收录国内9000多种重要期刊,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域。覆盖范围: 产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。十专辑下分为168个专题和近3600个子栏目。,CAJViewer7.2使用,五大功能,搜索功能显示/隐藏知识元链接图象识别文本选择文字识别,外文文献的检索主要是针对学术论文的检索主要分成两种类型 : 1、对SCI、EI、SA、CA等国外著名的引文索
26、引文摘数据库的检索。 2、对Elsevier ScienceDirect、EBSCO、IEL等外文全文数据库的检索。,文摘数据库的优势,由于文摘索引型数据库的收录文献不涉及作者的著作权,数据库制作商不必和著者或文献出版者发生版权关系,依据自己的目的采集收录文献,具有很强的连续性、系统性和全面性。所以有的文摘索引型数据库能反映某一段时间内某一学科某一领域的理论和方法的进展及技术与手段的应用,体现了学术上的发展和继承的特点,为读者用户了解借鉴同行的研究成果和学术创新提供帮助。有的收录文章因质量高而在学术界享有盛名,甚至成了学术评价的重要工具。,全文型数据库的特点,全文数据库以为用户提供利用一次文献
27、为主要宗旨,数据库商必须和著者或出版单位商谈著作使用权问题,只有双方达成协议签署合同,并履约支付著作权报酬才能将文献原文收录进数据库。 相对而言,全文数据库很难像文摘索引数据库那样从宏观上反映某一学科某一领域的学术进展情况,更不可能充当学术评价的工具。使用全文数据库最大的好处是用户能直接得到原始文献,免除了用户到图书馆查找借阅全文或馆际传递全文在时间上精力上和资金上的消耗。,Dr. Garfield 1955年在 Science 发表论文提出将引文索引,而非我们经常用的关键词检索,作为一种新的文献检索与分类工具。 将一篇文献作为检索字段从而跟踪一个Idea的发展过程,通过Web of Scie
28、nce可以直接访问Thomson Reuters的三大引文数据库 Science Citation Index Expanded,SCI Social Science Citation Index,SSCI Arts&Humanities Citation Index;A&HCI两大国际会议录引文索引 Conference Proceedings Citation Index-Science,(CPCI-S) Conference Proceedings Citation Index-Social Science&Humanities;(CPCI-SSH)两大化学信息数据库 Index Che
29、micus(检索新化合物) Current Chemical Reactions(检索新化学反应),使得人们可以沿着文献发表的年代向前追溯揭示了研究人员之间的社会认知联系,以及科学体系的组织结构和层次能够辅助进行研究机构的定量评估与描述“将科学研究的工具用于科学本身” Derek de Solla Price (1963),施引文献,也叫来源文献,是引用引文的文献,即附有参考文献的原始文献。,H指数04年霍金教授提出,在一条橙色水平线的上方总共有 h 个论文,它们的施引文献数大于等于 h。例如,h-index 为 44表示有 44 篇论文至少被引用 44次。,ScienceDirect,Els
30、evier公司的核心产品 全学科的全文数据库 集世界领先的科技和医学信息之大成 得到130多个国家1100万科研人员的认可 中国用量最高的外文数据库,Elsevier电子期刊(全文)的学科覆盖有:农业和生物科学、数学、化学、化学工程学、物理学和天文学、生物化学, 遗传学和分子生物学、土木工程、计算机科学、决策科学、地球科学、能源和动力、工程和技术、环境科学、免疫学和微生物学、材料科学、医学、神经系统科学、药理学,毒理学和药物学、经济学,计量经济学和金融、商业,管理和财会、心理学、人文科学、社会科学等学科1800多种高品质全文学术期刊, 涵盖21个学科领域。其中SCI、SSCI收录期刊1,221
31、种,EI收录期刊515种,社科类期刊数量为255种(SCI、SSCI收录期刊152种)、科技类期刊数量 1,302种( SCI收录期刊1069种)是科研人员的重要信息源。Elsevier服务系统实现了与重要的二次文献检索数据库的全文链接,目前已经与SCI、EI建立了从二次文献直接到Elsevier全文的链接。,常用字段:Title-Abstr-Key 题名文摘关键词 Abstract文摘Authors著者、责任者Affiliation单位、从属关系,Keywords关键词References参考文献Title题名Journal-name(Source title)期刊名称(资源名称),学位论文
32、,学位论文(毕业论文),是大学生、研究生毕业时为申请相应学位而提交供评审用的学术论文,是检验其学习效果、考察其学习能力、科研能力及学术论文写作能力的重要标准之一。学位论文分学士论文、硕士论文、博士论文三级,学位论文是随着学位制度的实施而产生的,英国习惯称之为Thesis,美国则称之为Dissertation。学位论文三种类型中,学士学位论文仅仅是某专业某一专题的一般性讨论,论文数量最多。硕士、博士论文有其新颖、独创、系统、专一等特性受到人们的极大关注,因此,通常情况下,所谓的学位论文仅仅限于硕士、博士学位论文。,毕业论文的写作目的:,目的: 一是对学生的知识能力进行一次全面的考核。 二是对学生
33、进行科学研究基本功的训练,培养学生综合运用所学知识独立地分析问题和解决问题的能力,为以后撰写专业学术论文打下良好的基础。,学位论文的特点,内容上的学术性 不是概况介绍、调查报告或总结一类的文章,侧重于对事物进行抽象概括的叙述或论证,形成自己的学术观点.立论上的创造性 论文的基本观点来自具体材料的分析和研究,所提出的问题在本专业学科领域内有一定的理论意义或实际意义,并通过独立研究,体现出作者的认知和看法.交流、传播的无序性 学位论文一般不公开出版,而是以打印稿收藏或电子版储存在学位授予单位或国家法定的学位论文收藏单位,一般仅供单位内部使用.版式、装订的规范性 学位论文的目的是供审查答辩之用,所以在版式上有严格的要求,如必须严格按照学位论文的格式进行论文的写作、参考文献的引用和论文的装订等.,