信息检索课件第2章.ppt

上传人:牧羊曲112 文档编号:6549671 上传时间:2023-11-11 格式:PPT 页数:44 大小:931.50KB
返回 下载 相关 举报
信息检索课件第2章.ppt_第1页
第1页 / 共44页
信息检索课件第2章.ppt_第2页
第2页 / 共44页
信息检索课件第2章.ppt_第3页
第3页 / 共44页
信息检索课件第2章.ppt_第4页
第4页 / 共44页
信息检索课件第2章.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《信息检索课件第2章.ppt》由会员分享,可在线阅读,更多相关《信息检索课件第2章.ppt(44页珍藏版)》请在三一办公上搜索。

1、2013,11,第二章 文献信息检索基础,2013,目录,2.1信息资源检索技术 2.2信息资源检索的方法、途径和步骤 2.3信息资源检索效果的评价,2013,2.1信息资源检索技术,2.1.1 传统的信息资源检索技术2.1.2 新型的网络资源检索技术,2013,2.1.1 传统的信息资源检索技术,1 检索技术检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、邻近、限定的比较和运算处理技术。,2013,2.1.1 传统的信息资源检索技术,2传统检索技术(1)布尔检索 布尔检索(boole

2、an retrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。,2013,2.1.1 传统的信息资源检索技术,逻辑“与”,具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示(少数工具用“+”或空格表示)。检索词A和检索词B用“与”组配,检索式为:A AND B,或者 A*B 它表示检出同时含有A、B两个检索词的记录。,2013,2.1.1 传统的信息资源检索技术,逻辑“或”,逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示(也有用“|”或“/”表示)。检索词A和检索词B用“或”组配,检索式为:A OR B,或者

3、 AB 它表示检出所有含有A词或者B词的记录。,2013,2.1.1 传统的信息资源检索技术,逻辑“非”,逻辑“非”是一种具有概念排除关系的组配,用“”或“NOT”算符表示。检索词A和检索词B用“非”组配,检索式为:A Not B,或者 A-B 它表示检出含有A词,但同时不含B词的记录。,2013,2.1.1 传统的信息资源检索技术,布尔逻辑运算符优先级布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT AND OR例:检索“唐宋诗歌”的有关信息。关键词:唐、宋、诗歌;检索表达式:(唐 OR 宋)AND 诗歌;唐 AND 诗歌 OR 宋 AND 诗歌,2013,2.1.1 传统的信

4、息资源检索技术,(2)截词检索截词检索(truncation retrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。由于西文的构词特性:单复数形式不一致、英美拼写不一致、词干前缀、词干后缀。检索时,计算机会将所有含有相同部分标识的记录全部检索出来。在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。,2013,2.1.1 传统的信息资源检索技术,2013,2.1.1 传统的信息资源检索技术,(3)位置检索位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或

5、者检索词在记录中的特定位置来实施检索的技术。位置检索主要有以下几个级别。,2013,2.1.1 传统的信息资源检索技术,(3)位置检索(1)词位置检索 词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)3类。(W)算符与(nW)算符 例如,“VISUAL(W)FOXPRO”可以检出“VISUALFOXPRO”或“VISUAL FOXPRO”;“control(1W)system”可以检出含有“control system”、“control of system”和“control in syst

6、em”文献。,2013,2.1.1 传统的信息资源检索技术,(3)位置检索(1)词位置检索(N)算符与(nN)算符 例如,“control(1N)system”不仅可以检出含有“control system”、“control of system”和“control in system”的文献,还可以检出含有“system of control”、“system without control”等的文献。(X)算符与(nX)算符 例如,“side(1X)side”可以检索到含有“side by side”的文献。,2013,2.1.1 传统的信息资源检索技术,(3)位置检索(2)同句检索 同句

7、检索要求参加检索运算的2个词必须在同一自然句或者全文数据库的一个段落中出现,检索词的先后顺序和插入词的个数不受限制。同句检索中用到的位置算符主要是(S),是“Sentence”或“subfield”的缩写。例如,“electronic(S)optical”,可以检索到题名为“Cutting and Polishing Optical and Electronic Materials”的文献。,2013,2.1.1 传统的信息资源检索技术,(3)位置检索(3)同字段检索 同字段检索是对同句检索条件的进一步放宽,表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,其运算符有两种。(F)算

8、符 例如,“information(F)retrieval/DE,TI”表示“information”和“retrieval”两个词必须同时出现在叙词字段或篇名字段内。(L)算符 例如,“information system(L)system design”,表示“system design”是“information system”的下一级主题词。,2013,2.1.1 传统的信息资源检索技术,(4)限制检索(1)字段检索 数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录的特定字段中的检索方法,如果记录的相应字段中含有输入的检索词则为命中记录。数据库中提供的可供检索的字段通

9、常分为基本索引字段和辅助索引字段2大类。基本索引字段表示文献的内容特征,有TI(篇名、题目)、AB(摘要)、DE(叙词)、ID(自由标引词)等;辅助索引字段表示文献的外部特征,有AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等。在检索提问式中,可以利用后缀符“/”对基本索引字段进行限制,利用前缀符“=”对辅助索引字段加以限制。,2013,2.1.1 传统的信息资源检索技术,(4)限制检索(1)字段检索 例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找2006

10、年出版的关于信息检索或数字图书馆方面的文献,并要求“information retrieval”一词在命中文献的“TI”(篇名)字段中出现,“digital library”一词在“DE”(叙词)字段中出现。,2013,2.1.1 传统的信息资源检索技术,(4)限制检索(2)限制符检索 限制符检索是使用AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符相同,而它的作用则与前缀符相同。例如,“aircraft/TI,PAT”表示的检索结果只要“aircraft”这一主题的专利文献。限

11、制符还可以与前、后缀符同时使用,这时字段代码与限制符之间的关系是逻辑“与”,即最终的检索结果应同时满足字段检索和限制符检索两方面的要求。,2013,2.1.2 新型的网络资源检索技术,1 全文检索技术 全文检索技术是以信息资料的内容,如文字、声音、图像等为主要的处理对象,而不是以其外部特征来实现信息检索的技术。全文检索技术通过提供快捷的数据管理工具和强大的数据查询手段,为人们快速方便地获取文献原文而非文献线索提供了一条有效途径。目前,全文检索技术已经从最初的字符串匹配层面演进到能对超大文本、语音、图像、视频影响等非结构化数据进行综合处理,成为全文数据库系统和搜索引擎的核心支撑技术。,2013,

12、2.1.1 传统的信息资源检索技术,2 多媒体信息检索技术 基于内容的多媒体信息检索技术是对图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的检索技术,其核心技术是对多媒体信息内容特征的识别和描述技术、对特征的相似性匹配技术。目前多媒体技术按照检索内容可分为图像检索技术、视频检索技术和音频检索技术3种。,2013,2.1.1 传统的信息资源检索技术,3 智能信息检索技术 智能检索技术就是采用人工智能计算机技术进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。它包含了自然语言理解技

13、术、智能代理技术、机器学习、知识发现等技术。(1)自然语言理解技术(2)智能代理技术,2013,2.1.1 传统的信息资源检索技术,4 数据挖掘技术 数据挖掘技术是指从大型数据库或者数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识一般可表示为概念、规则、规律、模式等形式,用于信息管理、查询优化、决策支持、过程控制等。,2013,2.1.1 传统的信息资源检索技术,5 自动分类和标引技术(1)自动标引技术 自动标引技术是指由计算机代理人工完成文本的主题内容分析,并赋予词语标识的技术,可分为抽词标引和赋词标引2种。(2)自动分类技术 自动分类技术是指利用计算机信

14、息技术对信息按照一定的分类体系或标准进行自动分类和标记,将具有相同或相近特征的信息对象集中在一起,而将不同特征者归于不同的类别中,形成不同的类目,从而实现快速检索。,2013,2.2 信息资源检索的方法、途径和步骤,2.2.1 信息资源检索方法2.2.2 信息资源检索途径 2.2.3 计算机信息检索策略的制定与实施,2013,2.2.1 信息资源检索方法,1.常规法 常规法也称工具法,是目前最为常用的一种信息资源检索方法。它是指利用文摘、题录、索引等各类检索工具或者各类计算机检索系统,直接查找文献信息的方法。常规法在实际检索应用过程中,依据课题对时限的要求,又可分为顺查、倒查、抽查3种情况。,

15、2013,2.2.1 信息资源检索方法,2013,2.2.1 信息资源检索方法,2.回溯法 回溯法又称引文法,是指在已获得所需文献的基础上,再利用文献末尾所附的参考文献、相关书目、推荐文章和引文注释作为检索入口,依据文献之间的引证和被引证关系,揭示了文献之间的某种内在联系,进而查找到更多的相关文献的方法,2013,2.2.1 信息资源检索方法,综合法 综合法也称交替法或循环法,是综合常规法和回溯法的检索方法,即在查找文献信息时,既利用一般的检索途径,又利用原始文献后所附的参考引用文献作为检索入口,分阶段按周期地交替使用两种方法。综合法对检索效率的提高很有帮助。,2013,2.2.2 信息资源检

16、索途径,信息检索的实施必须依赖于检索前已经掌握的信息线索,现有的检索系统或检索工具的情况以及选择合适的检索途径。检索途径(Retrieval Approach)主要是指信息检索的角度和渠道。选择检索途径的依据有两点:一是检索者已经掌握的信息线索;二是选用的检索系统可以提供的检索途径。根据检索系统对文献特征的揭示主要分文献外部特征和文献内容特征2种,因此,信息检索途径可分为内容特征检索途径和外部特征检索途径。,2013,2.2.2 信息资源检索途径,1.内容特征检索途径(1)分类途径 分类途径是按信息内容,利用分类检索语言实施检索的途径。分类检索是从文献内容所属的学科类别来检索,它依据的是一个可

17、参照的分类体系。其基本过程为:首先分析提问的主题概念,选择能够表达这些概念的分类类目(包括类名和类号),然后按照分类类目的类号或字顺,从分类体系中进行查找,进而得到所需的文献信息。,2013,2.2.2 信息资源检索途径,(2)主题途径 主题途径是按信息内容,利用主题检索语言实施检索的途径。主题途径的实施需要使用各种主题词索引,如主题索引、关键词索引、叙词索引等。其基本过程为:首先分析提问的主题概念,选择能够表达这些概念的主题词。然后按照主题词的字顺,从主题词索引中进行查找,进而得到所需要的文献信息。,2013,2.2.2 信息资源检索途径,2.外部特征检索途径(1)题名途径 按照已知的文献的

18、题名进行文献信息检索的途径。文献题名主要是指书名、篇名、刊名等。题名检索途径符合读者的检索习惯,对已确知名称的文献,使用题名途径直接查找最为便捷,可以快速准确地获得所需文献。(2)作者途径 作者途径是按已知的文献责任者的名称检索文献信息的途径。文献责任者包括个人作者责任者、团体责任者、编者、专利权人等。作者途径可以系统地发现和掌握同一作者名称下的学科内容相近或有内在联系的文献,有利于系统研究某一方面的问题或某一著者的全部著作和学术思想,在一定程度上满足了族性检索的要求。,2013,2.2.2 信息资源检索途径,2.外部特征检索途径(3)代码途径 代码途径是指利用有些文献所具有的独特的编序号码或

19、标识号码,如专利号、标准号,索书号等,来查找文献相关信息的检索途径。利用代码途径检索文献信息简便、快捷,但人们难于准确理解代码的含义和具体文献的代码特点,此方法的局限性很大。(4)引文途径 使用引文途径进行信息检索采用2种操作方法:一是通过被引用文献,即来源文献,来查找引用文献;二是通过引用文献,直接利用文献结尾所附的参考文献,查找被引用文献。,2013,2.2.3 计算机信息检索策略的制定与实施,1.计算机信息检索策略的含义 狭义上的信息检索策略是指检索表达式(检索提问式)的构造,即运用检索系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索表达式(检索提问式)。广义上的

20、信息检索策略是指在分析检索课题的实质内容、明确检索目标的基础上,选择检索系统和检索工具,明确检索途径和检索方法,确定检索词之间的逻辑关系以及查找步骤最佳方案的一系列科学安排。,2013,2.2.3 计算机信息检索策略的制定与实施,2.计算机信息检索策略的制定与实施 检索策略的构造涉及多方面的知识和技术。检索者只有了解各个检索系统的特性和功能,熟悉系统数据库的结构和内容、特定的文献标引规则、检索方法和检索技术,才能制定一个科学合理的检索策略。计算机信息检索策略的制定与实施,要在进行充分的检索课题分析的前提下进行,2.2.3 计算机信息检索策略的制定与实施,2.2.3 计算机信息检索策略的制定与实

21、施,2013,2.2.3 计算机信息检索策略的制定与实施,计算机检索步骤,修改检索策略,构造检索表达式,实施检索策略,确定检索词,选择检索系统,2013,2.3信息资源检索效果的评价,信息资源检索效果的评价信息检索的意义,2013,信息检索效果的评价,1.检索效果的评价指标目前采用最为普遍的检索效果量化评价指标包括:查全率(Recall Factor,R)、查准率(Pertinence Factor,P)、漏检率(Omission Factor,O)、误检率(Noise Factor,N)等。查全率是对所需信息被检出程度的量化,用来表示信息系统能满足用户需求的完备程度,可以用检索文献中合乎需要

22、的文献数量占检索系统中存在的合乎需要的文献总量的比率来表示;查准率是衡量信息系统拒绝非相关信息的能力的量度,可以用检出文献中合乎需要的文献数量占被检出文献总量的比率来表示;查全率的误差是漏检率;查准率的误差是误检率。,2013,信息检索效果的评价,1.检索效果的评价指标表2-1 检索效果量化评价指标 查全率(R)=查准率(P)=漏检率(O)=误检率(N)=,2013,信息检索效果的评价,2.影响查全率和查准率的主要因素 对于信息检索系统来说,系统内信息存储不全面,收录遗漏严重;词表结构不完善,索引词汇缺乏控制;标引不详尽或者标引的专指度缺乏深度,不能精确描述信息主题;组配规则不严密,容易产生歧

23、义等,都是影响查全率和查转率的因素。对于信息用户来说,检索课题要求不明确;检索系统选择不恰当;检索途径和检索方法单一;检索词使用不当或者检索词缺乏专指性;组配关系错误等也都影响检索效果。,2013,信息检索效果的评价,3.提高检索效果的措施和主要方法(1)提高检索系统的质量 提高检索系统的质量包括不仅要扩大数据库中信息资源的收录范围,而且检索课题要符合数据库的收录内容。(2)提高用户利用检索系统的能力 用户要具备一定的检索语言知识,能够选取正确的检索词和合理使用运算符完整表达信息需求的主题;灵活运用各种检索技术、检索方法和检索途径;能够结合使用综合性检索系统和专业性检索系统,实施跨库检索;制定优化的检索策略,准确地表达检索要求,尝试多次检索并随着背景知识的增加,不断调整检索策略;根据不同检索课题的需要,合理兼顾和调整对查全率和查准率的要求。,2013,1布尔逻辑检索的三个表达式2信息检索的方法3信息检索效果的评价的重要指标,CASE,2013,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号