《信息检索理论基础.ppt》由会员分享,可在线阅读,更多相关《信息检索理论基础.ppt(47页珍藏版)》请在三一办公上搜索。
1、第二章 信息检索理论基础,第一节 信息存储与检索基本原理,一、基本概念,信息存储与检索概念的起源,信息存储与检索的含义,信息检索概念的起源,信息检索(Information retrieval)起源于原文献检索、情报检索,在1998年设置的专业目录中得以改变。,不同的称谓产生于不同的历史背景。,在20世纪中叶以前,信息存储传播主要以纸质为载体,信息检索活动也围绕文献的获取和控制展开。因此,信息检索研究关注的是如何检索利用文献中记录的信息,从而导致文献检索成为信息检索的同义词,早期的研究文献中几乎不使用“信息检索”这一概念。,20世纪50年代以后,社会信息传播与存储载体呈现多元化,人们不再拘泥于
2、载体研究信息检索,于是开始使用情报检索一词。由于汉语中“信息”一词较“情报”一词含义更为宽泛,加之英语词汇“Information”具有“情报”、“信息”的含义,因此,近年来人们越来越倾向于将文献检索、情报检索转变为信息检索这一更具兼容性的概念,以便对信息检索实践起到更全面的指导作用。,目前的现状是,上述几个概念同时使用,因为它们的目的是获取信息。由信息检索改为信息存储与检索是为了更好地明确信息存储与信息检索的关系,从而更有效地进行信息的获取。,信息存储与检索的含义,信息存储是指依一定的要求把信息整序编排成文献集合体的过程,即编制检索工具和建设数据库、建立检索系统的过程,也即广义的信息检索。广
3、义的信息检索包括信息存储与信息检索两个环节。狭义的信息检索是指利用编制好的检索工具和检索系统来查找所需信息的过程。目前广义的信息检索和狭义的信息检索概念被同时使用着。,第一节 信息存储与检索基本原理,二、基本原理,信息存储基本原理,信息检索基本原理,信息存储基本原理,书本式文献的传统存储方法是图书馆纸质文献管理法和印刷型检索工具的编制,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大信息源的分类存储,由这套系统决定的手工检索体系使文献分类等描述文献内容的特征处于核心地位,文献篇名、作者名等描述文献外表特征则是天然的补充要素,加上主题,构成手检时按分类
4、、主题、号码、作者名检索的四大途径。机读信息则以数据库(Database)形式存储。信息被分类、编码、标识且以数据形式存入数据库后,计算机就能按电子数据方式进行处理并检索。,信息检索基本原理,信息检索的基本原理就是,为了文献信息的充分交流和有效利用,让信息用户能在文献信息的“海洋”中准确、全面、及时地获取满足特定需要的信息,通过对广泛、大量、分散、无序的文献信息进行搜集、加工、组织、存储,建成各种各样的检索系统,在统一存储过程和检索过程所用检索语言和名称规范的基础上,将用户表达检索课题的标识与检索系统中表达文献信息内容和形式特征的标识进行相符性比较(匹配),凡是双方标识一致(完全一致或部分一致
5、)的,就将具有这些标识的文献信息按要求从检索系统中输出。检索系统输出的文献信息既可能是用户需要的最终信息,也可能是用户需要的中介信息(比如文献线索),用户依此中介信息的指引,可进一步获取需要的最终文献和信息。,输出,标引著录,检索过程,文献信息,检索课题,文献信息标识(标引词),检索提问标识(检索词),文献信息特征,检索提问特征,检索语言和名称规范,检索系统(标识匹配),检索结果,分析,分析,选用,形成,形成,检索提问特征,检索语言和名称规范,第一节 信息存储与检索基本原理,三、相关概念,检索系统,检索系统的评价,检索工具,检索系统 检索系统是指拥有特定的存储和检索技术设备,存储有经过加工的信
6、息资源,供用户检索所需信息的工作系统。,检索工具 广义检索工具是指用以报道、存储、查询文献信息的一切工具和设备。它以各类型原始文献为素材,在广泛收集并进行严格筛选后,通过特定的信息工作方法,分析和提示文献的外形特征和内容特征,用选定检索语言进行描述和标引,形成文献信息单元款目,再将这些款目按特定规则组织编排而成。它是一个综合的概念,可以分为手工检索工具、计算机检索工具。从此可以看出,广义检索工具和检索系统的含义是一致的。狭义检索工具主要指手工检索工具,又称印刷型检索工具或书本式检索工具,即印刷装订成册的纸质检索工具及相应的设施。,检索系统的评价 检索系统的质量影响着检索系统的使用效果,根据检索
7、课题选择检索系统时需要考虑检索系统的质量。一般地说,可以从下述几个角度对检索系统进行评价。,1检索效率 检索效率是指检索过程和检索结果具有便、快、全、准、省等特点,即用检索方便性、检索速度、查全率、查准率、检索成本与效益等指标来衡量。,2收录全面性 检索系统的全面性是指它收录的文献信息是否全面。一般用三个指标来衡量。覆盖面:指检索系统收录范围所覆盖的学科面和出版物类型及数量。摘储率:是指检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率。报导数:是指一定时间内报导文献信息的数量,如文摘或题录的条数、全文篇数等。,3报导及时性 检索系统的及时性是指它报导新出现文献信息的速度,一般用“时
8、差”来衡量。时差是指文献信息从其发表到检索系统提供给用户的这段时间间隔。在社会、经济、科技飞速发展,用户又希望及时获得新的文献信息的今天,检索系统报导的及时性显得非常重要。,第二节 信息存储与检索的发展,一、信息存储的发展,二、信息检索的发展,信息存储的发展,一、早期书目检索工具的编制 信息检索活动是以信息检索工具为依托的。信息检索工具是信息资源生产者和用户之间的中介。公元前26年,我国第一部综合性书目检索工具七略问世,这也是世界上第一部印刷型的书目检索工具。此后,我国先后编制了七志、七录、中经新簿、四库全书总目等著名的书目检索工具,为人们查询图书、了解图书流传情况提供了极大方便。,英语“书目
9、”(bibliography)一词是由希腊文“biblion”(书)和graphein(抄写)两个单词融合而成的,其含义是“图书的抄写”(the writing of books)。后来其词义演变成“关于图书的描述”(writing about books)。希腊学者加伦(Galen,129-199)在公元2世纪就编纂了一些专科书目。8世纪盎格鲁撤克逊学者比德(Bede,673-735)的著作宗教史(Ecclesiastical history)也附有书目。,中世纪印刷术的传播和出版业的兴盛,书目编制工作也随之得到迅速发展,不但书目类型增多,在编制方法上也有一些创新。1545年格斯纳(Konr
10、ad Gesner,1516-1565)编制了万国书目:拉丁文、希腊文和西伯莱文全部书籍的目录(Bibliotheca universalis),几乎包括当时全部已故和在世的拉丁语、希腊语、希伯来语作家的著作共15000种,占当时欧洲出版物的2025%,这个数字在当时欧洲交通不发达、藏书分散、学术交流相对困难的时代,是十分难能可贵的。格斯纳因此被称为“书目之父”。,17世纪许多学者都尝试着编制能反映各国出版物的“万国书目”,这一努力一直持续到20世纪。虽然最终没有出现真正意义上的“万国书目”,却促进了各国国家书目的诞生,在收录范围、分类方法、检索途径、所提供的书目信息以及编目技术等方面都有较大
11、的发展。随着科学技术的发展,教育的普及以及图书贸易的兴起,书目的功能从单纯记录图书发展到推广和宣传新版图书,于是营业书目的数量大大增加,其种类、载体形式趋于多样化,定期报道和评价新书的书评刊物也出现了。,二、检索刊物体系的形成 随着大众传播时代的来临,期刊的出现,出现了以文摘和题录为主的检索刊物。国外检索刊物出现于19世纪末,但形成较完整体系并被大量使用则在二战以后。经过一百多年的发展,目前我们经常使用的国外检索刊物有几十种,其中除了俄罗斯、日本有全国统一编写的大型检索刊物以外,其它大多数为专门的出版公司、学术团体编辑出版。根据报道内容的深度、专业范围、文献类型、使用的检索语言,可以将我们常用
12、的国外检索刊物作如下的划分和情况总结:,按照报道内容的深度划分:国外检索刊物文摘型的多于题录型的。文摘型的检索刊物,具有报道内容详细、检索途径多、使用方便等特点,如化学文摘、科学文摘等。而题录型检索刊物以出版快、索引多采用关键词索引、使用方便等特点,如科学引文索引等。,按照报道内容的专业划分:国外检索刊物专业性的多于综合性的。专业性的检索刊物除常用的化学文摘、医学文摘等以外,多数刊物因为报道范围的限制,文献量少而较少被国内使用。综合性的检索刊物,因为历史悠久、报道内容质量高、检索途径多、使用更为普遍。,按照报道文献类型划分:多数检索刊物对期刊论文、图书、会议文献、学位论文、科技报告、技术标准等
13、作全面报道,如工程索引、科学文摘等;少数检索刊物专门报道单种文献类型,使用方法比较特殊,如世界专利索引、科技会议录索引等。,按照检索语言划分:大多数检索刊物的正文部分按刊物自编的分类体系编排,一般都附有主题索引、著者索引。大型的综合性或专业性检索刊物的主题索引通常采用叙词语言,如工程索引、科学文摘等;题录型检索刊物的主题索引通常采用关键词语言,如科学引文索引、生物学文摘等。大多数检索刊物都提供多种检索途径,以满足读者多方面的需求。,1934年,中国化学学会会刊上开辟一个“中国化学摘要”的栏目,开启了我国文摘型检索工具的先河。国内文献检索刊物创办于1958年,经过几十年的发展,目前拥有100余种
14、检索刊物,已形成了具有自己特色较为完整的体系。具体说来,具有如下特征:专业覆盖面广,区分细,分册多。但是每一分册的报道量较少,许多文献甚至没有被报道。国内检索刊物除少数以题录和目录形式报道文献以外,多数为题录、简介、文摘相结合的形式报道文献。著录格式按照国家标准,格式规范,但出版时间较长。检索刊物一般以分类编排,分类法以国家标准为基础,但许多检索刊物不设主题索引、著者索引,减低了使用价值。大型、综合性的检索刊物全国报刊索引(哲社版、科技版)、复印报刊资料系列内容丰富、出版形式多样、具有权威性受到广泛欢迎,在国内外学术界具有很大影响。,三、数据库的建设 我国数据库建设取得了很大成绩,尤其是20世
15、纪90年代中后期,我国各类文献数据库、事实型和数值型数据库的比例不断增大,图像数据库日益受到重视,全文数据库、多媒体数据库有了很大的发展。数据库内容也由科技领域为主向经济和社会领域转变。数据库的容量明显扩大。数据库的分布由以国务院各部门为主向全社会扩展。在实际应用方面呈现如下特点:一是我国数据库的应用领域不断扩大;二是国产数据库逐渐进入国际市场。,近年来,随着光学技术、网络技术与计算机硬件、软件技术的发展,我国在多媒体数据库、全文数据库、超文本数据库、网络数据库等数据库技术开发和应用推广方面取得了相当大的进步,数据库作为信息资源的一种存在形式已经具有了一定的基础,在社会信息资源的构成中占据了相
16、当重要的位置。并且数据库开发的深入,推动了信息网络的建设,促进了数据库与信息网络的结合。,我国数据库建设虽然取得了较大进步,但还存在以下几个突出问题:小型、地方性、专业性数据库所占比重较大,甚至大型、全国性数据库存在功能相近的数据库重复建设的问题。数据库的标准不统一,规范性差。为了满足社会对信息资源的需求,国家应对数据库建设进行统一规划、统一管理,加强数据库的标准建设、加强对数据库知识产权的保护等等,使我国数据库建设更好地走规模化、产业化的发展道路。,信息检索的发展,早期的信息检索,人们主要根据文献的内、外表特征,用手工方式实现。以计算机技术为核心的信息技术,使信息处理与信息检索进入了一个新时
17、期。从电脑处理数字信息发展到处理字符信息,到处理静、动态图像信息、声音信息等。这一过程不仅拓展了检索的领域,丰富了检索的内容,提高了检索的速度。,计算机检索经历了脱机批处理检索、联机检索、光盘检索、网络化联机检索几个阶段。,脱机检索。传统意义是指系统根据用户需求在机读磁带上顺序扫描寻找匹配的文献,常常是分批处理用户提问,又称批式检索;在网络通信迅速发展的今天,脱机(off-line)检索又常常被称为离线检索,作为在线(on-line)检索或联机检索的补充,如光盘检索就是一种典型的脱机检索,它使80年代后期濒于消失的传统的脱机检索又有了新的生命。,联机检索,检索终端通过通信线路与系统的主机连接,
18、在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。,网络信息检索,通过网络接口软件,用户可在任一终端查询各地上网的信息资源。网络检索也是一种广义的联机检索,如使用远程登录(Telnet)通过Internet连接用户所指定的远程计算机,共享该主机上的资源,这个过程也称为联机,但后者更适宜用连网或网络检索这一概念。,第三节 信息存储与检索语言,信息存储与检索语言(简称检索语言)是检索系统的重要组成部分,是信息存储人员和检索人员都要使用的语言工具。检索语言,是根据信息检索需要而创制的人工语言,从不同角度又被称为情报语言、情报存储与检索语言、文献语言、标引语言
19、等等。目前世界上有一两千种检索语言。例如中国图书馆图书分类法、汉语主题词表、国际十进分类法、杜威十进分类法、NASA叙词表等,都是检索语言的一个语种。有数千万计的信息机构和检索刊物的工作人员和读者正在使用着这类语言。,检索语言与检索效率,检索语言与检索效率有着密切的关系,它在信息检索过程中起着十分重要的作用。如前所述,检索语言起着沟通信息的存储和检索两个过程的桥梁作用。当存储信息时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,并用检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索系统。当检索信息时,信息检索人员也首先
20、对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概念转换成检索语言的语词(标识),然后从检索工具或检索系统中查找正是用该语词标引的文献,从而找到包含有所需信息的文献。,由此可见,检索语言是信息存储和检索系统的重要组成部分,在检索系统中起着语言保证作用,直接关系着检索效率。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能实现。,信息存储与检索语言的分类,按照不同的标准,检索语言可以被分为不同的种类。各
21、种检索语言的基本原理是一致的。但是,它们在表达各种概念及其相互关系和在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型和语种。,按照构成原理分为分类检索语言、主题检索语言、代码检索语言。分类检索语言,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类检索语言包括等级体系型分类检索语言(体系分类法)和分析一综合型分类检索语言(组配分类法)。主题检索语言,用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。主题检索语言包括标题词型检索语言(标题法)、叙词型主题检索语言(叙词法)和关键词型主题检索语言(关键词法)等。,代码检索语言,一般只就事物的某一方
22、面特征,用某种代码系统加以标引和排列。例如,依据化合物的分子式这种代码语言可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及相关文献信息。,分类语言、叙词语言和关键词语言是我们常用的检索语言。,分类语言在信息存储与检索中的具体应用,1分类编排手工检索工具的正文(主体)部分。分类目录:我国文献信息机构用于从内容角度提示所藏图书、期刊的目录。不管所藏文献是印刷型,还是机读型,均习惯以分类目录为主。依照分类号或书次号来排列文献著录款目就形成了分类目录。检索工具正文的分类编排:大多数文摘型或题录型检索工具的正文(文摘、题录)部分是按分类编排的。大多数检索工具用来编排正文的分类体系和类号都
23、较为简单。2检索工具中的分类索引 由于大多数检索工具的正文已按分类编排,因此,检索工具的辅助索引中,提供分类索引的不多。但是在专利文献的检索工具中,用特定专利分类法(如国际专利分类法)编制的专利分类索引是一个重要部分。例如美国生物学文摘的“生物分类索引”和“类属索引”,就是按生物分类体系编制的。,3计算机检索数据库的分类号字段 在一部分供计算机检索的数据库记录中设有分类号字段,提供分类途径检索。,叙词语言、关键词语言在信息存储与检索中的应用范围,我国的文献信息机构用来组织图书主题目录。这实际上是作为标题语言的代替品来使用。用于编排检索工具的正文。这种使用方式不多见,但工程索引(Ei)正文编排是使用这种方式的典型。用于编制检索工具的辅助主题索引、关键词索引。在计算机检索的数据库记录中构成主题、关键词字段,提供主要检索途径。此时,每个叙词都可以成为检索入口;表达同一主题的不同叙词之间可以响应这些叙词的不同组配方案的检索课题。这是越来越普遍的使用方式。总之,叙词语言、关键词语言既适用于手工检索系统,又适用于计算机检索系统,是目前检索效率较高的检索语言。,