信息检索概述(自下).ppt

上传人:sccc 文档编号:5904712 上传时间:2023-09-01 格式:PPT 页数:42 大小:185.04KB
返回 下载 相关 举报
信息检索概述(自下).ppt_第1页
第1页 / 共42页
信息检索概述(自下).ppt_第2页
第2页 / 共42页
信息检索概述(自下).ppt_第3页
第3页 / 共42页
信息检索概述(自下).ppt_第4页
第4页 / 共42页
信息检索概述(自下).ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《信息检索概述(自下).ppt》由会员分享,可在线阅读,更多相关《信息检索概述(自下).ppt(42页珍藏版)》请在三一办公上搜索。

1、文献检索,授课人:周晓梅授课时间:2012年8-12月,一、为什么要上文献检索课?,1.培养信息意识2.培养自学能力3.培养初步科研能力(即主动发现问题和解决问题的能力),二、如何学习文献检索?,1.要和专业课的学习紧密结合起来2.要把理论与实践紧密结合起来3.要多思考多练习4.多交流,内容提纲,信息检索概述文献检索(如何查找文献)检索工具的应用:以CA为例特种文献检索现有资源的应用,信息检索概述,基本概念信息资源的组织管理信息检索技术,基本概念,1.信息信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。2.

2、情报“情报”属于“信息”范畴,但“情报”不是一般的、普遍意义上的“信息”。情报是知识或信息经传递并起作用的部分,即运用一定的形式,传递给特定用户,并产生效用的知识或信息。情报具有三个要素:知识性、传递性、效用性。,3.知识,从信息的观念看,知识来源于信息,是信息的一部分。人类在认识世界和改造世界的过程中,不断接受客观事物发出的信息,经过大脑的思维加工,获得了对事物本质及其运动规律的认识,这就是将信息转化为知识的过程。简而言之,知识是理性化、优化和系统化了的信息。4.文献概括地说,文献是指用文字、图像、符号、声频、视频等技术手段记录在一切载体材料上的人类知识。文献是一种重要的信息传递工具。存储信

3、息、传递信息是文献的主要功能。知识是文献的实质内容,载体是文献的外在形式,而记录是联系知识与载体的手段。,信息、知识、文献之间的关系,事物发生发出信息;信息经人脑加工变为知识;知识被记录在载体上形成文献;文献经过传递、应用于理论与实践产生新的信息。,5.信息检索,信息检索是指将信息按一定的方式组织和储存起来并根据信息用户的需要找出相关信息的过程。这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需信息的过程,相当于信息查寻。根据检索对象的不同信息检索可分为三种:数据检索、事实检索、文献检索。,数据检索:是将观察或实验得到的数据经过筛选、分析、整理和鉴定,以一定的顺序

4、存贮在某种载体上,然后采用适当的方法或手段从中找出符合用户所需的数据的过程。检索结果:数据。例如某种金属的熔点,某种材料的电阻。另外,有关计算公式、数据图表、化学分子式等都属于数据检索范畴。,事实检索:是将基本事实预先纪录于某种载体,当需要这种信息时再提取出来的过程。凡查询某一事物(事件)的性质、定义、原理以及发生的时间、地点、过程等,都属于事实检索的范畴。检索工具:主要是字典、辞典、百科全书、年鉴手册、类书、政书、名录等参考工具书。检索结果:事实结论。例如某类产品由哪些厂家生产,哪个牌子最好等都属于事实检索。,文献检索:是指从各种载体的文献群中查找出与特定的检索课题匹配或相关的文献线索或文献

5、全文的过程。凡是查找某一课题、某一著者、某一地域、某一机构、某一事物的有关文献的出处和收藏单位等,均属于文献检索的范畴。检索工具:书目、索引、文摘等。检索结果:题录、文摘或全文及出处等文献资料。例如要系统地收集有关“纺织印染厂对废水处理的计算机控制系统”的文献,即属于文献检索。在三种信息检索类型中,文献检索是最主要、最基本的形式,是信息检索中最重要的部分。,文献分类,根据不同的标准,可以分成多种类型:1)按载体形式划分:主要有纸张型、缩微型、电子型、音像型等四种。2)按加工层次划分:主要有一次文献、二次文献、三次文献。3)按出版形式划分:图书、期刊、科技报告、会议文献、专利文献、标准文献、学位

6、论文、政府出版物、产品资料、科技档案。除上述文献类型外,还有报纸、新闻稿、工作札记等。,2023/9/1,14,信息资源的组织管理,“信息资源”的含义信息资源分类传统信息资源组织网络信息资源组织信息资源组织的主要方法,2023/9/1,15,1.“信息资源”的含义,所谓信息资源,就是指人类经济社会活动中积累起来的以信息为核心的各类信息活动要素(信息生产者、信息技术等)的集合。信息是信息资源构成的核心部分。信息资源同物质资源、能源资源、一起构成现代社会经济与技术发展的三大支柱性资源。物质资源向人类提供材料,能源资源向人类提供动力,信息资源则向人类提供知识和智慧。,2023/9/1,16,2.信息

7、资源分类,按其自身的性质可划分为四个层次的信息资源:第一层次信息资源,即原始信息资源。其特征是未经加工的直接的信息资源。属于0次信息。包括宇宙、自然界、人类社会、个人在自身运动和从事社会活动中所发出的所有信息。第二层次信息资源,是对处于自然状态的信息进行整理加工、控制转化、使其固化、量化、社会化,然后再进行传递的信息资源,如政府文件、商务资料、图书期刊、音像产品等。这些信息多以文献形式出现。包括一次信息和二次信息。,2023/9/1,17,第三层次信息资源,包括报社、电视台、广播电台、邮局、书店、互联网等传播信息的机构和设施,这些机构和设施使信息的交流成为可能,也是一类重要的信息资源。第四层次

8、信息资源,是存贮信息的信息库和资料库。如档案馆、博物馆等。这些机构的特点是集聚着大量的经过人工加工的信息和以数字化形式存贮的数据库,可供人按需索取、利用。,2023/9/1,18,3.信息资源组织方式,形式整理内容整理,2023/9/1,19,形式整理:,首先,将收集的信息按题名、编著者、信息来源出处、内容提要顺序进行著录;其次,按各条信息涉及的学科或主题进行归类,并著录分类号和主题词;第三,将著录和归类后的信息,按分类或主题进行编号、排序,使之系统化、有序化。,2023/9/1,20,内容整理:,通读经过形式整理后的信息,从信息来源、发表时间、理论技术水平及适用价值等方面进行评价鉴别,剔除实

9、际意义不高和参考价值不大的部分。对选择出的各条信息中涉及到与研究课题有关的观点(论点、论据、结论等)和图表数据提取出来,对相同的观点进行合并,相近的观点进行归纳,各种图表数据进行汇总,编号,排序供下一步分析、利用。,2023/9/1,21,4.网络信息资源组织,网络信息资源的组织是一个复杂的过程,既不能依靠人工的方式完成,又难以舍弃人脑的判断和分析,需要借助计算机处理,借助人工智能的强大支撑。依照信息组织的性质可将网络信息的组织过程分为三个方面:1)数字化文件的收集。包括原生数字信息和衍生数字信息两大类。这个过程属于信息资源的选择。2)数字化文件的处理。可以采用传统的元数据方式和现代元数据方式

10、来组织。(元数据是关于数据的数据,用于描述数据的属性。)3)网络信息资源的服务构建。,2023/9/1,22,5.信息资源组织的主要方法,分类法主题法,2023/9/1,23,分类法:,分类法是一种从主题内容角度组织和揭示信息资源的方法,信息资源的分类是分类方法在信息资源组织中的应用。信息资源分类具有多方面的作用其中最主要用于信息资源组织和揭示,包括文献分类排架和编制分类检索工具两个方面。,2023/9/1,24,信息资源分类一般具有以下特征;其一,按照信息资源内容特征的相互关系加以组织。其二,一般是从一定的角度出发组织信息资源的。主题内容之间的联系是多方面的、多维的。分类法作为一种从内容角度

11、揭示信息资源的方法,一般只能有选择地揭示其主要联系。其三,以一定标记符号作为排序工具 其四,一般通过类目索引提供从字顺角度查找类目的途径。,2023/9/1,25,主题法:,主题法:是分类法以外另一种从内容角度标引和检索信息资源的方法。用主题法标引和检索信息资源时一般以直接表达主题内容的语词作为检索标识、以字顺作为主要检索途径、并通过参照系统等方法揭示词间关系。主题法在信息资源组织中的作用,主要是用来处理信息资源、编制各种检索工具及检索系统。,2023/9/1,26,目前国内外采用的主题法的类型很多,一般都具有下述特征:其一,直接以语词作为检索标识,主题法不像分类法那样、以一种抽象的号码系统作

12、检索标识,而是直接选用自然语言中的语词进行标引和检索。其二,以字顺作为主要检索途径。我国的主题检索系统通常是根据汉字特点,按照拼音或笔画笔顺进行排检的;因此在使用主题法检索时,只要知道检索对象的名称。就可以按相应的排检方式进行查找。在采用机检系统的情况中,一般可以直接输入语词,由计算机进行查找,不必如使用分类法那样,必须预先了解主题词之间关系,通用性好。,2023/9/1,27,其三,主题法昌以特定的事物、问题、现象,即主题为中心集中信息资源。分类法由于受学科体系的限制,从不同学科角度研究同一对象的信息资源是分散在各知识门类中的。主题法则没有这一限制,而是直接从主题对象的角度揭示图书资料。例:

13、,2023/9/1,28,其四,主题法往往是通过详尽的参照系统等方式揭示主题词之间关系。按照字顺排列不能必然揭示主题概念之间的联系,为了克服这一局限,主题法发展了完备的参照系统,通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。同时,一些系统还备有词族索引、范畴索引、轮排索引等多种辅助索引,通过各种形式的结合,在主题词之间建立起充分的语义联系。当然各种主题系统中对词间关系的揭示状况是不平衡的。就整体而言,主题法对主题之间关系的揭示不如分类法。,2023/9/1,29,主题法的类型,按照主题法的选词方式,可以分为标题法、元词法、叙词法、关键词法;按照其使用时组配的先后,

14、可以分为先组式主题法和后组式主题法;按照其使用时是否进行控制,可以分为受控主题法与非控主题法。,2023/9/1,叙词法,叙词法,是以从自然语言中精选出来的、经过严格处理的语词(叙词)作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。叙词,国内亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。叙词语言是受控主题语言的主流。到目前为止,国外的叙词表数量不少于千种,我国的叙词表也已超过130种。我国目前使用最广泛的叙词表为汉语主题词表。,关键词法,关键词法是直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词的轮排的方式揭示文献主题的主题法。关

15、键词法从属于自然语言范畴。这种方法是随着计算机的出现为适应索引编制自动化的需要而产生的主题法类型。,2023/9/1,31,信息检索技术,这里主要介绍几种在光盘检索、联机检索和网络检索等各类机检系统中常用的检索技术。但由于不同的机检系统使用不同的检索软件,所支持的检索技术不同,采用的检索算符也不同,因此实际检索时,应注意查看所用检索系统的说明。布尔逻辑检索截词检索位置检索限制检索加权检索,2023/9/1,32,布尔逻辑检索,布尔逻辑检索(Boolean Logical)是用布尔逻辑运算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则

16、为非命中文献。它是机检系统中最常用的一种检索方法。逻辑算符主要有:And/与、Or/或、Not/非,分述如下:逻辑“与”:运算符为 And 或*。检索词A和检索词B用“与”组配,检索式为:A And B或者 A*B 它表示检出同时含有A、B两个检索词的记录。逻辑与检索能增强检索的专指性,使检索范围缩小。此算符适于连接有限定关系或交叉关系的词。,2023/9/1,33,逻辑“或”:运算符为 Or 或+。检索词A和检索词B用“或”组配,检索式为:A Or B或者 AB 它表示检出所有含有A词或者B词的记录。逻辑或检索扩大了检索范围。此算符适于连接有同义关系或相关关系的词。逻辑“非”:运算符为 No

17、t 或-。检索词A和检索词B用“非”组配,检索式为:A Not B或者 A-B 它表示检出含有A词,但同时不含B词的记录。逻辑非和逻辑与运算的作用类似,可以缩小检索范围,增强检索的准确性。此运算适于排除那些含有某个指定检索词的记录。但如果使用不当,将会排除有用文献,从而导致漏检。,截词检索,截词检索(Truncation)是指用给定的词干做检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。对于外文来讲,检索时,若遇到名词的单复数形式,词的不同拼写法,词的前缀或后缀变化时,均可采用此方法

18、。截词的方式有多种,按截断部位可分为右截断、左截断、中间截断、复合截断等;按截断长度可以分为有限截断和无限截断。,任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将增加检索噪声,影响查准率。另外,不同的机检系统使用的截词符不同、各数据库所支持的截断类型也不同,例如DIALOG系统和STN系统用?、ORBIT系统用:、BRS系统用$、ESA-IRS系统用+等。,位置检索,位置检索(Proximate)是在检索词之间使用位置算符(也称邻近算符Adjacent Operators),来规定算符两边的检索

19、词出现在记录中的位置,从而获得不仅包含有指定检索词而且这些词在记录中的位置也符合特定要求的记录。这种方法能够提高检索的准确性,当检索的概念要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置算符。机检系统中常用的位置算符(按限制强度递增顺序排列)如下:,(1)(f)算符Field:要求被连接的检索词出现在同一字段中,字段类型和词序均不限。例如 happiness(f)sadness and crying(2)(s)算符Sub-field/Sentence:要求被连接的检索词出现在同一句子(同一子字段)中,词序不限。例如 machine(s)plant(3)(n)算符near:(n)

20、要求被连接的检索词必须紧密相连,词之间除允许有空格、标点、连字符外,不得夹单词或字母,词序不限;(Nn)表示两个检索词之间最多可以夹N个词(N为自然数1、2、3),且词序任意。例如:information(n)retrieval 可以检出 information retrieval 和 retrieval information,又如econom?(2n)recovery 可以检出economic recovery、recovery of the economy、recovery from economic troubles,(4)(w)算符With:(w)要求检索词必须按指定顺序紧密相连,词

21、序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母;(Nw)表示连接的两个词之间最多可夹入N个词(N为自然数),词序不得颠倒。例如 input(w)output可检出input output而wear(1w)materials可检出wear materials、wear of materials 采用位置算符检索时,通常最严谨的算符放在最左面,例如:european(w)economic(w)community(f)patio,又如redwood(3n)deck?(s)(swimming(w)pool?)注意:不同的机检系统,位置检索的功能及算符不同,应参看机检系统的说明,上述为D

22、IALOG系统的位置算符。,限制检索,限制检索(Range)是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。(1)字段检索:是把检索词限定在某个(些)字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。例如:查找微型机和个人计算机方面的文章。要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab又如查找wang wei写的文章,可以输入检索式:auw

23、ang wei,2)使用限制符:用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如要查找1999年出版的英文或法文的微型机或个人计算机方面的期刊,则检索式为:(microcomputer?/de,ti,ab OR personal computer/ti,ab)AND PY1999 AND(LAEN OR FR)AND DTSerial3)使用范围符号:如:Less than、Greater than、From to等,如查找19891999年的文献,可表示为:PY1989:1999 或者 PY1989 to PY=1999 又如查找2000年以来的计算机方面的文献,可

24、表示为 computer?And Greater than 1999 查找在指定的文摘号范围内有关地震方面的文献,可表示为 earthquake?/635000800000,(4)使用限制指令:限制指令可以分为:一般限制指令(Limit,它对事先生成的检索集合进行限制)、全限制指令(Limit all,它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。例如:Limit S5/328000-560000 表示把先前生成的第5个检索集合限定在指定的文摘号内。又如:Limit all/de,ti 表示将后续检索限定在叙词和题名字段。上述几种限制检索方法既可独立使用,也可以混合使用。,加权检索,加权检索是指根据检索词对检索课题的重要程度,事先指定不同的权值。检索时,系统先查找这些检索词在数据库记录中是否存在,并对存在的检索词计算它们的权值总和;凡是在用户指定的临界值(称阈值)之上者作为命中记录被输出。阈值可视命中记录的多寡灵活地进行调整,阈值越高,命中记录越少。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号