信息检索工具与方法.ppt

上传人:牧羊曲112 文档编号:5926455 上传时间:2023-09-05 格式:PPT 页数:32 大小:224.50KB
返回 下载 相关 举报
信息检索工具与方法.ppt_第1页
第1页 / 共32页
信息检索工具与方法.ppt_第2页
第2页 / 共32页
信息检索工具与方法.ppt_第3页
第3页 / 共32页
信息检索工具与方法.ppt_第4页
第4页 / 共32页
信息检索工具与方法.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《信息检索工具与方法.ppt》由会员分享,可在线阅读,更多相关《信息检索工具与方法.ppt(32页珍藏版)》请在三一办公上搜索。

1、1,信息检索课件,第二讲 信息检索工具与方法,2,主要内容,1 信息检索的定义 2 信息检索原理 3 检索点(access point)4 信息检索的类型 5 信息检索方法 6 信息检索步骤 7 信息检索手段 8 信息检索语言 9 检索效率评价,3,1 信息检索的定义,信息的无限增长与人类有效利用信息之间的矛盾促使信息检索的诞生和发展。信息检索有广义与狭义之分,狭义的信息检索指从众多信息集合中迅速准确地查寻出用户所需信息的全过程(下图下半部分);广义的信息检索指根据用户的需要找出有关的信息资料的过程和技术,又称信息的存储与检索,或信息的存取。,4,信息存储与检索过程,5,2 信息检索原理,各种

2、检索系统的检索原理基本相同,简单地讲就是对信息集合与需求集合的匹配与选择。信息检索的基本原理如下图所示:,6,外部特征,内部特征,存储过程,检索过程,文献的表面信息,如题名(书名或篇名)、著者、机构、ISBN号、专利号、报告号等。如按照篇名、著者、机构名称的字顺或汉语拼音字母顺序排列;按专利号或报告号的数字顺序进行排列等,就形成了以文献外表为特征的检索途径。,文献内容中所论述的主题、观点、见解和结论等。如分类途径、主题途径等。,把大量的原始文献,根据其外部特征和内容特征进行归类、标引,形成一定的检索系统,如对文献信息进行主题分析,形成主题概念,将主题概念转换成主题标引词,对文献信息中的语言进行

3、规范,形成标准的检索语言,存储在检索系统中。,根据检索需要,对检索课题进行主题分析,把所涉及的检索范围明确起来,形成能代表信息需求的主题概念,并将主题概念转换成信息检索语言标识,然后与存储在系统中的检索标识相比较,两者相一致时,才能达到检索目的。,7,3 检索点(access point),检索入口,检索信息的重要出发点。为了更好的利用信息,人们根据每件信息内部和外部特征而设置了检索点,以此作为检索信息的入口。一般来说,设置的信息检索点主要有分类、主题、名称、著者、代码等。,8,4 信息检索的类型,文献检索,数据检索,事实检索,书目检索,全文检索,按检索对象分,超文本检索,多媒体检索,超媒体检

4、索,按信息组织技术及内容分,9,5 信息检索方法,常规法,追溯法,循环法,顺查法,逆查法,信息检索方法,抽查法,10,6 信息检索步骤,(1)分析研究课题,确定查检要求(2)选择检索工具(3)确定检索途径和方法(根据外部特征、内容特征提供不同的检索途径)(4)实施检索操作,索取原始文献,11,7 信息检索手段,(1)手工检索:手工翻检,利用工具书来检索信息。简单、灵活、容易掌握,但费时费力,容易误检和漏检。(2)计算机检索:检索方便快捷,检索功能强大,获得的信息类型多,检索范围广泛,但不能完全取代手工检索。,12,8 信息检索语言,信息检索语言是受控语言,用来表达信息的概念,有一定的编制规则,

5、用特定的标识符号标引、组织和编排信息,信息检索语言有两大类:,13,期刊的外部特征举例:,期刊的外表特征:期刊名、出版者、出版地、出版日期、卷期号、ISSN(国际标准刊号)、国内统一刊号(CN)、邮发代号、价格等。ISSN号(International Series Standard Number)是国际标准刊号的简称,由 8位数字分2段组成。如英文期刊标准著录格式:Y.Gong.Speech recognition in noisy environments:A SurveyJ.Speech Commum.Vol.16,no.3,pp.261-291,Apr.1995 其中:论文著者;论文题

6、名;刊名(外文期刊多数为斜体);卷、期号;起止页码;出版日期再如中文期刊标准著录格式:胡翠华.证券信息服务商业化运作研究J.情报科学,2005(9):12811286,14,图书的外部特征举例,如图书著录:徐天秀.信息检索M.北京:科学出版社,2006.2参考文献中出现的图书著录格式:C.M Bishop.Neural Networks for Pattern RecognitionM.Oxford,U.K:Clarendon,1995参考文献中会议论文集的论文著录:R.Cole,R.Stern,and M.Lasry.Performing fine phonetic distinctions

7、:Templates vs.featuresJ.in Inference and Variability of Speech Processes.J.Perkell and D.Klatt.New York:Lawrence Erlbaum,1986,pp.325-341.例中:著(编)者;书名(一般用斜体);出版地;出版社名称;出版时间;论文著者;论文题名;起止页码。,15,8.1 分类检索语言,中国图书馆分类法(中国图书馆图书分类法),简称中图法我国大陆地区使用最广泛,使用此法的图书馆占90%以上,5部22大类。类号采用“字母数字混合制”标记,一个或两个拉丁字母和一串阿拉伯数字来代表一个具

8、体的类目。如:F0经济学、TB9计量学层累制,分类号每三位用.空格,标记清晰;辅助符号增强标记功能,如a推荐号,-总论复分号,/起止符号,交替类号,;组配;()国家区分号,=时代区分号等。有单机版和网络版,网络版见,16,8.1 分类检索语言,中国科学院图书馆图书分类法,简称科图法中科院图书馆编制。主要用户为中国科学院系统下属图书馆和资料部门。用户数居全国第二位。类号标记采用纯数字制,5部25大类。如:27.1政治经济学总表见:,17,8.1 分类检索语言,杜威十进分类法 简称DDC。由美国著名图书馆学专家杜威(Mevil Dewey)于1876年编制。目前已出版第21版。在世界上拥有最多的用

9、户。各国的十进分类法基本上以杜威法为参照模式,9类,用19表示,综合性的为0。我国1966年以前亦用于西文图书分类。网上可查到:21版千分表:哈尔滨工业大学(威海分校)图书馆提供20版千分表:一位非专业人员在其个人网站提供13简版:加拿大Near North District School Board图书馆提供据OCLC News Releases1997年7月号说明,13简版(1997年出版)与21版(1996年出版)兼容。但经对比,该13简版内容似乎与20版更相近。特别之处在于,此表提供多至4位的类号,在网上很少见,参考性更高些。网上免费的大概只能详细到4位类号了。如果付费,DDC的东家O

10、CLC可以提供完整的联机电子版,即WebDewey。中文参见:,18,8.1 分类检索语言,美国国会图书馆图书分类法 简称LCC。是世界上类目最多的一部图书分类法,21个大类。目前广泛应用于北美大中型图书馆,特别是学术性图书馆。它的类号配置是字母、数字混合制,字母13个不等,数字19999的整数,有时有小数,用.隔开。美国国会编制的机读目录数据中采用此分类法。参见:,19,国际十进分类法 简称UDC,UDC是以美国杜威十进分类法(DDC)为基础编制而成的,10个大类。用阿拉伯数字表示,从一般到特殊编制,每大类逐级细分。我国出版的标准出版物上提供有UDC分类号。位于荷兰海牙的UDC Consor

11、tium目前负责维护国际十进分类法,在其主页UDC Website上有与UDC相关的丰富信息。当然,也有简表,多个通用复分表。中文参见,8.1 分类检索语言,20,分类号检索的特点系统性检索。使用分类号检索要注意以下几点:中图法产生于1974年。一般情况下,1975年后编目的中文书刊有中图号。科图法产生于1958年。主要用于我国科学院系统的文献收藏单位。在国家图书馆发行的机读目录中也有部分数据提供科图号。在我国,西文图书可用中图分类号、杜威分类号、美国国会分类号等进行检索。,8.1 分类检索语言,21,8.2 主题检索语言,情报检索语言按其标识的使用方法划分:先组式组配方式:标引前预先在词表中

12、固定组配好,多用于手工检索。后组式组配方式:文献标识在检索时才组配起来,多用于计算机检索。主题检索语言根据其结构原理分为:标题词检索语言:单元词检索语言叙词检索语言关键词检索语言,22,标题词,标题词语言是采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物-主题,并将全部标识按字顺排列。是规范化、先组式的主题检索语言。例如一篇关于计算机的设计和另一篇计算机维修的文章,都可以直接用“计算机”来作标题词。它们在标题词系统中都是按“计”字排列集中在一起的。但是,如果一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语来叙述它的研究

13、对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。,23,单元词是最基本不能再分的独立概念的词。如“教学设备”就不是单元词,可以再分为“教学”和“设备”两个基本概念,可以利用单元词进行标引轮排组配。灵活性,提供很多的检索入口,通过组配来扩大或缩小检索范围,表达各种不同概念,但也有不稳定性和多义性。主题词法

14、是主题法的一个类型,代表了最典型的主题法特点。,单元词,24,叙词,叙词是从信息内容中提取的经过规范化处理能表达信息基本概念的词语。叙词检索是一种后组式的检索方法。叙词检索语言是以规范化名词术语为基础,以字顺和分类系统为词汇显示的基本手段,以语词的概念组配为重要特征的一种标引和检索信息的方法。优点:采用了组配分类法。代替单元词检索信息的单词组配的基本原理;代替了字面组配;语词规范方法采用了标题法;体系分类法采用的就是叙词分类索引(范畴索引)和等级索引(词族索引)方法。如“体育学校”表达这个学校的形式,或者体育活动,但是在叙词表中必须把这个关系表达清楚。概念组配,词间是有关系的,可能是属分关系(

15、上位类和下位类),同位类关系,用代关系。,25,关键词,关键词是不受词表控制的非规范化语言,选自文献题目、文摘乃至正文中具有实质意义的词语。如美国化学文摘(Chemical Abstracts,CA)的关键词索引。应用非常普遍,如学术论文的关键词提取就非常重要。,26,汉语主题词表,我国编制的第一部大型综合性词表,主要供各类型图书馆、科技情报部门建立计算机信息检索系统,也可用来组织卡片式主题目录或书本式主题目录,为建立我国统一的计算机信息检索体系奠定了基础。其体系结构:,27,8.3分类-主题法检索语言,将分类法和主题法结合的一种检索语言,利用两者优势,取长补短,中国分类主题词表体现了分类主题

16、检索的特点。它是在中图法和汉语主题词表的基础上编制的分类法主题法一体化的词表,是我国两种使用最广的分类法标识系统和主题法标识系统的兼容。共两卷六册,第一卷为“分类号-主题词对应表”(共两册),第二卷为“主题词-分类号对应表”(共四册)。,28,自然语言检索在计算机检索中发挥了独特的作用,如在google中输入“信息组织与检索课程”,能够得到包含“信息”、“组织”、“检索”、“课程”几个单元词不同组配方式的检索结果。它们可以归纳为以下几点:(1)关键词索引以关键词为检索标识的文献题录数据库(数据库的关键词检索标识来自人工自由标引,或略加人工辅助的计算机抽词,或借助于词典的自动抽词)检索。关键词的

17、来源:文献题名、数据库某些字段的文本、全文本;(2)全文数据库检索;(3)搜索引擎由搜索引擎自动建立的网络资源数据库检索。(全文关键词匹配),29,9 检索效率评价,查全率是用户利用检索系统进行某一课题检索时,检索出的相关信息量与该系统信息库中存储的相关信息总量的比率,即:R=检出的相关信息量/信息库内相关信息的总量100%查准率是用户利用信息系统进行某一检索时,检出的相关信息量与检出信息总量的比率,即:P=检出的相关信息量/检出的信息总量100%检索速度,30,举例,检索“信息资源检索效率研究”这一课题,在中期网中输入该主题,用全文检索,选精确匹配方式,检出300篇文献,用“信息检索效率”可

18、检出600篇,而数据库中包含该内容的有1000篇,则 检全率为900/1000*100%=90%,检准率为300/900=33.3%。如果使用模糊检索,结果会不一样。,31,影响查全率、查准率的因素,影响查全率的因素:从文献存储来看,没有使用规范著录标准录入数据;标引不详或前后标引不一致;收录的相关文献不全;词间关系模糊或不正确;标引人员误解了原文的重要概念或用词不当等。从检索看,检索策略不正确,选词和进行逻辑组配不当;检索业务不熟悉,不能全面描述检索要求等。影响查准率的因素:索引词不能准确表达文献主题和检索要求;组配规则不严密;检索时所用检索词或检索式专指度不够;检索式中允许容纳的词数量有限;检索式使用逻辑“或”不当等。,32,作业,1、什么是信息检索,简述信息检索的类型;2、简述主题检索语言与分类检索语言的异同;3、写出信息检索效果的评价方法,并举例说明。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号