《信息检索简介》PPT课件.ppt

上传人:牧羊曲112 文档编号:5464173 上传时间:2023-07-10 格式:PPT 页数:42 大小:417KB
返回 下载 相关 举报
《信息检索简介》PPT课件.ppt_第1页
第1页 / 共42页
《信息检索简介》PPT课件.ppt_第2页
第2页 / 共42页
《信息检索简介》PPT课件.ppt_第3页
第3页 / 共42页
《信息检索简介》PPT课件.ppt_第4页
第4页 / 共42页
《信息检索简介》PPT课件.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《《信息检索简介》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索简介》PPT课件.ppt(42页珍藏版)》请在三一办公上搜索。

1、信 息 检 索,高益民,第一章 信息检索基础,信息是事物的一种普遍属性,是事物存在的方式和运动状态及其规律的表征。信息无处不在,无时不有,无人不用。不同的学科,从不同的角度对信息这个概念有不同的解释。美国韦氏字典把信息释义为:信息是用来通信的事实,在观察中得到的数据、新闻和知识。,第一章 信息检索基础,我国辞海对信息的定义是:信息是指对消息接受者来说预先不知道的报道。控制论创始人N 维纳认为:“信息是人们在适应外部世界并使这种适应反作用于外部世界过程中,同外部世界进行交换的内容的总称。”信息论创始人C 申农认为:信息是组织程度,它能使系统的有序性增强,减少破坏、混乱和噪音。,信息的特征,客观性

2、 信息是事物状态和变化的客观反映,是不以人们的意志为转移的客观存在。时效性 信息的时效性是指信息从信息源出发,到接受信息的系统利用的时间间隔及其效率。人们获取信息的目的在于利用信息信息时效性差就会失去其应用值。传递性 信息可以在时间上或空间上从一点移动到另一点,可以通过语言、文字、通信、电子计算机等各种渠道和媒介传播。,信息的特征,共享性 信息的共享性是指同一内容的信息可以被两个或两个以上的用户同时使用。信息资源在使用过程中不仅不会减值,而且还会增值。中介性 信息是介于物质和精神世界之间过渡状态的东西,是人们认识事物的中介。多种形式的信息交流,信息检索与咨询服务,都是依托信息技术(IT技术)的

3、支持下开展的。,信息的类型 从产生信息的客体的性质来分,可分为:,自然信息:声、光、电等;生物信息:如遗传信息等;机器信息:(自动控制系统);(人类)社会信息:社会信息就是指人与人之间交流的信息。按照人类活动领域,社会信息又可分为科技信息、经济信息、政治信息、军事信息、文化信息等。,信息的类型 按信息存储和载体形态不同可分为:,印刷型 印刷型(printed form)即书本型,也称纸介型(paper type),是一种以纸介质为载体、以书写或印刷方式为记录手段而形成的文献类型。它是一种技术含量低、对个人使用相当方便的一种文献,人们对它司空见惯,是最常用的一种文献载体。上千年来它在人 类的阅读

4、、信息的流通中功 不可没。,信息的类型 按信息存储和载体形态不同可分为:,缩微型 微缩型(micro form)是以感光材料为载体,以照相为记录手段而形成的一种文献形式,经历了一百多年的历史。包括缩微胶卷、缩微平片、缩微卡片等。缩微型文献的优点是体积小,便于收藏和保存,价格便宜等,但阅读需要有较复杂的阅读设备来支持。,信息的类型 按信息存储和载体形态不同可分为:,声像型声像型(audio-visual form),也称视听型,是以磁性材料或感光材料为载体,以磁记录或光学技术为手段直接记录声音、图像、动画、视频而形成的一种文献。如唱片、录音录像带、幻灯片、电影等。其优点是:生动直观。但成本较高而

5、且不易检索 和更新。,信息的类型 按信息存储和载体形态不同可分为:,机读型 机读型文献(machine readable form),又称电子文献。是 以数字代码方式把文字、图像、声音、动态图像等多种信息存贮在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的文献。其优点是:存储密度大、查找文献迅速、原记录可修改、删除或更新。其缺点是设备 投资高,价格昂贵。,信息的类型 按信息的加工级别区分,零次信息:指未经公开发表的信息。如实验记录、草稿、私人日记、笔记、书信、设计草图、内部报告、技术档案等。零次信息是一次信息的素材;一次信息(又称原始信息):是以著者本人的研究或研制成果

6、为依据而创作或撰写的信息。强调创造性,是对知识信息的第一次加工。如:期刊论文、专利说明书、学术学位论文、技术标准等。一次信息是信息的基本形式,是检索的主要对象;,信息的类型 按信息的加工级别区分,二次信息(又称检索性信息):一次信息经 过浓缩、整序、加工处理后,组织成系统的、便于查找和利用的信息。是查找一次信息的线索和工具。如:书目、文摘、索引、题录等。二次信息是检索一次信息的工具;三次信息(又称参考性信息):是在对一次 信息和二次信息进行分析研究的基础上而编写出的信息,具有参考性和指导性。如:综述、专题述评、年鉴、手册、百科全书等。三次信息是对一次与二次信息分析研究的成果。,信息的类型 按出

7、版形式区分,图书:国际文献标准认为:凡篇幅达到48页以上并构成一个书目单元的文献叫图书。包括单卷书、多卷书和丛书等。图书是最早的文献类型之一,其优点是内容全面而系统,观点较成熟。缺点是出版周期长,不能及时、迅速地反映最新科研成果。期刊:又称杂志,指定期或不定期的连续出版物。期刊具有报道速度快、出版周期短,数量大,品种多等特点。期刊按其报道的内容可分为:学术性期刊、综述与述评性期刊、通讯性期刊、资料性期刊和检索性期刊等。按出版周期可分为:周刊、月刊、双月刊、季刊、年刊等。,信息的类型 按出版形式区分,报纸:报纸的特点是传递迅速,发行广泛,信息量大,政策性强。会议文献:是指在学术会议和专业会议上宣

8、读或交流的论文、材料、讨论记录、会议纪要等文献。会议论文能反映某些学科或领域的最新研究进展和成就,具有较高的研究价值,尤其是具有国际影响的学术会议所形成的会议文献。,信息的类型 按出版形式区分,政府出版物:是指各国政府部门及其专设机构出版的文献。可分为行政性文献和科技性文献,具有权威性。学位论文:是指高等院校、科研机构的毕业生所提交的学术论文(如学士、硕士、博士)。学位论文一般具有一定的独创性,内容系统详尽。,信息的类型 按出版形式区分,档案:是社会活动、生产建设和技术工作中所形成的文件的总称,有第一手材料”、“历史凭证”之美称。专利文献:广义的专利文献是指一切与专利制度有关的文献,如专利说明

9、书、专利公报、分类表、索引等。狭义的专利文献仅指专利说明书。,信息的类型 按出版形式区分,标准文献:标准是对工农业生产和工程建设的质量、规格、基本单位及其检验方法等方面,由公认的权威部门批准的技术规定。是从事生产建设和管理的一种共同规范或依据。特点是:文字简练,规章化,针对性强,有明确的适用范围和时效性。产品资料:指厂商为推销产品而出版发行的各种商业性宣传品。如公司介绍、产品目录、样本、说明书等。,知 识,知识是人们在改造客观世界的实践中所获得的认识和经验的总和。人脑通过对事物发出的信息的接受、选择和处理,形成了概念。在反复的实践和认识过程或逐渐形成知识。知识是信息的一部分。各类知识可以相互渗

10、透、交叉形成新的知识和新的知识门类。知识在生产、传播和使用过程中被不断完善、充实。又可不断派生出新的知识。,情报是人们为一定目的而搜集的有使用价值的知识或信息。“是被有目的利用的、活化的知识与信息”。情报的特点:,(1)知识性与信息性:情报要具有实质性的内容-知识与信息,没有知识信息内容的情报是不存在的。(2)实用性:人们利用情报是为了获取实际效益或解决特定的问题。只有当知识信息与人们的客观需要联系起来,才能活化形成情报。(3)传递性:只有在传递、交流、运动过程中活化了的知识与信息才能成为情报。它是情报的本质特征。(4)时效性:特定的情报只有在合适的时间内传递和利用才会产生更大的效用。过时的情

11、报就会成为失效情报。(5)针对性:情报是针对特定用户、特定需求提供的有使用价值的知识与信息,具有很强的针对性。,文献:是记录有知识的一切载体。文献的四要素,知识、信息内容:这是文献的核心,是文献所表达的思想意识、知识信息的涵义和内容。信息符号:是揭示和表达知识、信息内容的标识符号,是物化和标识文献信息内容的工具。如:文字、图形、声频、视频等。载体材料:是承载文献信息的符号,是信息内容有所依附并便于传播交流的物质材料。载体材料一般可分为纸型和非纸型两大类。记录方式:是指将包含信息内容的信息符号存储到载体材料上去的方式。加书写、雕刻、打字、印刷、拍摄、录制、复印和计算机录入等。,信息、知识、文献、

12、情报之间的关系,信息、知识、文献、情报之间的关系,图中A表示信息圈:信息中的一部分由感性认识上升到理性认识,形成了知识B知识圈:部分信息与知识被载体所记录便形成文献C文献圈:有使用价值的文献、信息与知识就是情报D情报圈。从图中还可看出:A区为尚未被认识和加工的信息;B区为未被传递与记载的知识;C区为尚未被利用的文献:D区为非实物载体的情报。,下图是四者的相互转化关系示意图:,信息检索Information Retrieval概念,广义概念是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息的存储与检索(Information Storage and Re

13、trieval)。狭义概念仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。,信息检索的基本原理,信息检索的类型,文献检索:以特定文献为检索对象,包括全文,文摘,题录等,是信息检索的主体部分,是一种相关性检索,它不直接回答用户所提技术问题本身,只提供有关的文献供参考。数据检索:以特定数据为检索对象,包括统计数字,工程数据,计算公式等,是一种确定性检索,它能够提供确切的数据,直接回答用户所提问题本身。事实检索:以特定事实为检索对象,也是一种确定性检索,它能够提供确定的事实,直接回答用户所提问题本身。,信息检索的发展

14、,手工检索:发源于图书馆参考咨询工作和文摘索引工作。脱机批处理检索:在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。,信息检索的发展,联机检索:20 世纪60 年代末,由于计算机软硬件技术的不断提高,出现了一台主机带多个终端的联机信息检索系统。这种系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。这种系统采用实时操作技术,所以用户可以使

15、用终端设备直接与计算机进行“人机对话”,计算机对用户的提问能及时处理并显示出结果。80 年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。联机检索服务是计算机检索走向实用化、规模化、产业化的重要的标志。世界上比较著名的联机检索系统有欧洲共同体9 国所属的欧洲科技信息联机检索网络EURONET、欧洲空间组织的ESA/IRS 系统、美国洛克希德公司的DIALOG 系统、美国系统开发公司的ORBIT 系统、美国医学图书馆的MEDLINE 系统、日本科技信息中心的JICST 系统等。,信息检索的发展,光盘检索:光盘是

16、一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。它是80 年代在计算机技术、激光技术和精密伺服电机技术等现代科学技术成果的基础上发展起来的新型电子出版物。一张CDROM光盘的存储容量为650MB,是磁盘容量的500 倍。例如,中国科学技术情报研究所重庆分所研制的中文科技期 刊篇名光盘数据库,以及中科院上海有机化学研究所的中国化学文献数据库等。,信息检索的发展,网络化检索:进入90 年代,因特网(INTERNET)的应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入到

17、因特网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容包括生物、农业、化学、数学、天文学、气象、地理、计算机、工程技术、航空航天、交通运输、环境保护、医疗和保健、历史、法律、政治、旅游等,涉及几乎所有知识领域。因特网为我们获取文献信息提供了前所未有的方便,他彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,而且信息形式图文并貌,有声有景。因特网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。,信息检索的意义,本世纪以来,人类创生的信息量高速增长,据估算,1950年前后,人类知识总量翻一番大约需要

18、50年,到2020年时,人类知识总量翻一番只需73天。70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种,每年发表的科技论文总数近500万篇,并呈指数式增长。如何从这浩如烟海的信息中找出所需信息,是信息检索的重任。,信息源,筛选信息,概念分析,概念转换成系统语言,信息数据库,检 索 系 统,概念转换成系统语言,概念分析,需求分析,信息用户,检索策略,存 储,检 索,信息检索系统,信息源,筛选信息:围城,概念分析:中国当代长篇小说,概念转换成系统语言I247.5,信息数据库联机公共检索目录(OPAC),检 索

19、系 统:中国图书馆分类法,概念转换成系统语言I247.5,概念分析:中国当代长篇小说,需求分析围城,信息用户,检索策略,存 储,检 索,信息检索系统,计算机信息检索系统的组成,计算机:是检索系统的核心部分,它包括硬件和软件。通过一定的检索软件,它们能够进行信息的存储、处理、检索以及整个系统的运行和管理,相对地说,硬件部分决定了系统的检索速度和存储容量,而软件部分则是充分发挥硬件的功能,确定检索方法。通信网络:是联系计算机系统和检索终端设备的桥梁,起着远距离、高速度、无差错传递信息的作用。,计算机信息检索系统的组成,检索终端设备是用户与检索系统相互传递信息进行“人机对话”的装置,有电传终端、数传

20、终端和PC 机终端等。现在基本上都是PC 机终端,通常由计算机、调制解调器和打印机组成。数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。检索系统中的数据库一般由各个数据库生产者提供,也有一些是系统本身建的。,数据库的类型,文献书目数据库(Bibliographic Databases):是存储某个领域原始文献的书目,即二次文献数据库,记录内容包括文献的题目、著者、原文出处、文摘、主题词等。如联机公共检索目录OPAC系统,美国工程索引数据库(Ei Compendex),英国科学

21、文摘数据库(INSPEC),美国化学文摘数据库(CA Search)等。信息指南数据库(Dictionary Databases):主要是记录一些机构、人物、产品、项目简述等事实数据,通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。这类数据库也称为事实数据库。,数据库的类型,数值型数据库(Numeric Databases):是专门提供以数据形式表示信息的一种源数据库。主要记录科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据。这类数据库主要包含数值数据,有的也包含文字,文字是用来定义数据所需的最小量的文字,有时称为文本-数值数据库(Text

22、ual-numeric Databases)全文数据库(Complete Text Databases):全文数据库是存储文献内容全文或其中主要部分的数据库,简称全文库。它是将经典著作、学术期刊、重要的会议录、法律法规、新闻报道以及百科全书、手册、年鉴等的全部文字和非文字内容转换成计算机可读形式。全文数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到位的查找原始文献的信息服务。近年来,全文数据库发展很快,在各类数据库建设中异军突起。据统计,在美国,全文数据库从1985 年的28%增加到1995 年的52%,其数量是书目型数据库的一倍,而书目型数据库则从57%下降到24%。在我国,已

23、有中国学术期刊全文数据库、书生之家数字图书馆和超星数字图书馆等图书、期刊全文数据库建成投入使用。,数据库的类型,多媒体数据库:随着多媒体技术的迅速发展和广泛应用,将图形、图像、文字、动画、声音等多媒体数据结构结合为一体,并统一进行存取、管理和应用的多媒体数据库已经问世,并受到人们的普遍欢迎。随着超文本、多媒体和光盘驱动器技术的发展和普及,多媒体数据库的数量会越来越多。混合型的数据库:如“数值-全文型”数据库,“书目-数值-全文型”数据库等。,信息检索效果分析,信息检索效果分析,查全率 R=a/(a+c)*100%查准率 p=a/(a+b)*100%漏检率 O=c/(a+c)*100%误检率 N=b/(a+b)*100%,影响信息检索效果的因素,标引的质量检索语言的性能检索途径的数量检索策略的优劣检索人员的素质,本章小结及思考题,信息是信息检索的对象和本源。信息有五大特征,根据不同标准,信息可以分成不同类型。信息检索有广义和狭义之分。思考题:按存储和载体形态不同信息可分为哪几种类型?按信息的加工级别区分信息可分为哪几种类型?按出版形式区分信息可分为哪几种类型?信息、知识、文献、情报之间是怎样的关系?数据库有哪几种类型?什么是信息检索?信息检索的基本原理?信息检索有哪几种类型?信息检索效果的评价指标有哪些?信息检索效果的影响因素有哪些?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号