《《信息检索理论》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索理论》PPT课件.ppt(32页珍藏版)》请在三一办公上搜索。
1、第二章 信息检索原理,本章要点 文献信息检索基本概念 文献信息一般检索步骤检索概念的分析、提取和扩展检索策略的构成,信息检索基本概念,信息检索的定义文献信息的内外部特征文献信息检索的一般原理文献信息检索的类型检索效果评价,信息检索,广义:信息的存储与检索。狭义:从任何信息集合中查找所需信息 的活动、过程和方法。,文献信息的内外部特征,内容特征表达文献信息主题内容的检索标识内容特征 文献 模糊对应外表特征与文献主题内容没有关系或关系不大的信息外表特征 文献 一一对应,文献信息检索一般原理,存储 选择和收集文献 提取文献信息的内外部特征 标引,整理,形成检索系统(工具)检索 分析信息需求 确定检索
2、课题 构建检索提问式 从检索系统中查获所需信息,文献源,文献选择收集,文献特征,标识语言,检索系统,数据库,检索提问式,匹配,检索结果,用户,信息需求,检索课题,分析,标引,反 馈,文献信息检索的类型,文献检索(相关性检索)检索结果为文献原文或线索 全文检索 书目检索数据检索(确定性检索)检索结果为数值、数据事实检索(确定性检索)检索结果为事实、概念,文献信息检索的类型,手工检索 与检索工具直接“对话”,依靠检索者手翻、眼看、脑子判断而进行的检索。特点:方便灵活,判别直观,查准率高 检索效率低,漏检现象比较严重 计算机检索 利用计算机和一定通信设备查找文献信息的检索 特点:速度快,效率高,查全
3、率较高 成本高,回溯年份有限,查准率不尽如人意,检索效果评价,常用的评价指标 收录范围、查全率、查准率、响应时间、用户负担和输出形式等查全率(Recall ratio)检出的相关文献数/文献库内相关文献总数 X 100%查准率(Precision ratio)检出的相关文献数/检出的文献总数 X 100%,A,C,D,B,90,90,50,40,20,60,40,70,P,R,查全率(R)和查准率(P)关系曲线图,理论上,C和D之间即检索的最佳效果,信息检索系统,印刷型信息检索系统 目录、题录、文摘、索引 计算机信息检索系统 文献信息数据的处理和维护子系统 词表和标引子系统 检索子系统,文献信
4、息检索方法,按检索工具使用与否分 直接检索法 间接检索法按所使用的检索工具分 追溯法 常用法 综合法 按检索文献的时间顺序分 顺查法 倒查法 抽查法,文献信息的一般检索步骤,分析研究课题,明确检索要求选择检索工具或检索系统确定检索途径实施检索,记录和阅读文献线索索取原始文献,研究课题的分析,分清课题性质 前沿探索性 调查研究性 面象应用性课题背景知识的获取 利用网络搜索引擎 查阅图书馆相关馆藏,专著、工具书 询问专业人员概念(检索词)提取 主要检索词、辅助检索词、禁用词 例如:关于中国唐诗的韵律研究,概念(检索词)的扩展,同一概念的扩展 汉语与中文;互联网与因特网;上海与沪;中央电视台与CCT
5、V;廉洁与腐败 art与arts;colour与color;draw与drawing基于内容分析的概念扩展 上下位概念 隐含主题(显见主题)专利与知识产权;唐诗与古诗 法规规定、条例;西部云南、贵州、四川等 上海图书馆书目数据库系统公共图书馆,图书馆自动化系统基于检索结果的概念扩展,“应用语言学”课题概念扩展示例,请查找各类文献的文献类型标识(电子文献须包括载体类型标识),可析出的主题概念(检索词)文献类型标识文后参考文献著录规则国家标准2005,检索工具(系统)选择原则,根椐检索目的根据信息需求的内容、专业范围根据数据库记录的文献来源,确定检索途径,开始查找信息的入口点分类途径主题途径著者途
6、径序号途径,主题途径,分类检索语言(分类法、分类表)主题检索语言*关键词 自然语言性质的主题语言,自由词*主题词(叙词)以正式、规范的词或词组形式固定各种事物概念。,关键词(概念)扩展,外商投资管理外商 投资 管理独资 合资 资本 股权 法规 规定,实施检索,记录和阅读文献线索,以备进一步索取原始文献索取原始文献利用全文数据库下载全文利用各种馆藏目录和联合目录查找文献收藏单位申请文献传递,检索策略构成方法,检索策略 提问逻辑,即对多个检索词之间的相互关系和检索顺序作出的某种安排。构成检索策略,即构建检索式,计算机检索算符,布尔逻辑算符优先算符截词算符字段限制词组或字符串,布尔逻辑算符,逻辑或(
7、OR)运算符 用来组配具有并列关系、概念相同或相近的词,如同义词、相关词等。扩大检索范围,提高查全率。A+B 例:EBSCO S1 1834 enterprise S2 2022 company S3 3647 enterprise OR company,A,B,布尔逻辑算符,逻辑与(AND)运算符 用来组配具有相互交叉限定关系的概念。缩小检索范围,提高查准率。A*B 例:EBSCO S1 12940 Chinese S2 2173 literature S3 842 Chinese AND literature,A,B,布尔逻辑算符,逻辑非(NOT)运算符 用来排除含有某些词的记录。缩小检索
8、范围,提高查准率。有排除掉相关文献的可能,慎用 A-B 例:COMPENDEX(1998)S1 110 patent S2 325 German S3 108 patent NOT German,A,B,优先算符,混合使用逻辑符,其运算顺序为:NOT AND OR()改变运算顺序 例:S1 A OR B S2 C OR D S3 S1 AND S2(A OR B)AND(C OR D),截词算符,指在检索词的某个局部截断,利用某些检索词的词干或不完整词形加上截词符进行检索。查找某一词干的不同变化形式 防止漏检,提高查全率 常见的有:?、*、$、%例:manag*,可检出 manage mana
9、ger management managing managed,字段限制,指定字段进行检索提高查准率例:题名=中国经济*年份=2005 TI(education)AND AB(Chinese),词组或字符串运算符,“”,以引号中的词组或字符串进行精确匹配检索 例:information seeking“information seeking”,检索策略的调整,检索结果过少 检索词拼写错误;检索词过于冷僻或遗漏重要的同义词或隐含概念;运算符使用不当 检查检索词的拼写;扩展检索概念;增加截词算符;调整逻辑运算符和字段限制等。检索结果过多 选用了多义性的检索词;截词截得过短,AND用成了OR等运算符使用不当 减少同义词和同族相关词;增加限制概念,使用AND运算符;使用NOT排除无关概念;调整字段限制等。,