第二章信息检索原理.ppt

上传人:sccc 文档编号:4970003 上传时间:2023-05-26 格式:PPT 页数:99 大小:2.10MB
返回 下载 相关 举报
第二章信息检索原理.ppt_第1页
第1页 / 共99页
第二章信息检索原理.ppt_第2页
第2页 / 共99页
第二章信息检索原理.ppt_第3页
第3页 / 共99页
第二章信息检索原理.ppt_第4页
第4页 / 共99页
第二章信息检索原理.ppt_第5页
第5页 / 共99页
点击查看更多>>
资源描述

《第二章信息检索原理.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索原理.ppt(99页珍藏版)》请在三一办公上搜索。

1、第二章 信息检索原理,教材四版p.21-46,本章要点1,?信息检索的基本原理?检索语言的类型?信息检索的类型?信息检索系统的类型?数据库的构成,?信息检索的基本概念,1信息检索的基本概念,信息检索的定义:从任何信息集合中查找所 需信息的活动、过程与方 法。Whats searching like?“Finding a needle in a haystack”,1.1信息检索的原理,广义上,信息检索包括信息存储与检索两个过程,著录,有序化,有序化的依据,四版p.21,情报人员,检索人员,1.1信息检索的原理,编辑/存储 检索,1.2 检索语言,文献标识(有序化)的依据:检索语言检索语言:用来

2、描述文献的内容特征、外表特征和表达情报提问的一种人工语言。是信息处理人员和检索人员共同遵循的“纲领”,保证检索系统的质量。检索语言的种类:分类、主题 四版p.28-33,1.2检索语言-中国图书馆分类法(中图法),22个大类:用1个汉语拼音表示,一级,1.2检索语言-中国图书馆分类法(中图法),分类号,类目名称,一级,二级(2位),.,二级,1.2检索语言-中国图书馆分类法(中图法),三级(3位),三级,二级,一级,1.2检索语言-中国图书馆分类法(中图法),三级,三级,三级,三级,四级,五级,课堂同步练习1,1.中图法分类表的作用?2.分类号的构成特点是什么?3.H164是几级分类号,类目名

3、称是 什么?4.H146.3的类目名称含义是什么?,课堂同步练习1答案,1.中图法分类表的作用 国内图书馆组织藏书、国内检索系统组织文献信 息的依据。也是查找文献的主要途径。(见四版p.29小贴士)2.分类号的构成特点是什么?1-2位汉语拼音字母+数字构成3.H164是四级分类号 类目名称是汉语词典4.H146.3类目名称是汉语语法句法,1.2 检索语言-主题语言,主题检索语言:关键词和叙词关键词:一种自然语言性质的主题语言,它是从文献的题目、正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词。对词语不加控制(没有预先编制的词表)叙词:从自然语言中优选出来并经过规范化处理的名词术语。(有

4、预先编制的词表)例:,三版p.33-34;四版p.30-32,1.2 检索语言,汉语主题词表,中国图书馆分类法,课堂同步练习2,1.主题语言的作用?,课堂同步练习2答案,1.主题语言是检索系统组织文献信息的依据,常见于印刷型检索系统。,1.3 信息检索的类型,计算机检索,手工检索,以获取手段区分,四版p.22,1.3 信息检索的类型,信息集合,文字,数值图表,事实,文献检索,数据检索,事实检索,以检索内容区分,四版p.22,1.3 信息检索的类型,文字:文献检索,1.3 信息检索的类型,数值、图表:数据检索,图表,数值,(huang ye),1.3 信息检索的类型,事实:事实检索,何时何地发生

5、事件,概念定义,1.3 信息检索的类型,文献检索的结果相关性检索对同一个课题,同一个检索系统,不同的检 索者查到的结果是不同的。甲 课题A 输出 10篇 查全率高 乙 课题A 输出 5篇 查准率高,信息检索系统,1.3 信息检索的类型,文献检索相关性检索 为什么结果有差别?甲 检索词A B C 10篇 乙 检索词 A C D 5篇,信息检索系统,1.3 信息检索的类型,数值检索、事实检索的结果 确定性检索检索结果是有和无的差别,文献:世界上关于铁路大桥有哪些?事实:世界上最长的 铁路大桥是哪一个?数据:世界上最长的 铁路大桥有多长?,1.4 信息检索系统类型,以报道文献的内容区分:目录 题录

6、文摘 全文 四版p.23-24,1.4 信息检索系统类型,目录:一批相关文献信息的著录集合,它 以报道文献出版或收藏信息为主要 功能的系统。例如:全国总书目 图书馆联机公共检索目录(OPAC)四版p.23,演示:我校图书馆及我院图书馆主页,1.4 信息检索系统类型,1.4 信息检索系统类型,1.4 信息检索系统类型,目录:“本”为报道的基本单元,图书信息,索书号等,1.4 信息检索系统类型,题录:将图书、报刊等文献中论文的篇目 按照一定的排检方法编排而成的,供人们查找篇目出处的工具。例如:全国报刊索引四版p.23,1.4 信息检索系统类型,题录:文献的篇为报道的基本单元,1.4 信息检索系统类

7、型,文摘:以精练的语言把文献信息的重要内 容、学术观点、数据及结构准确地摘 录下来,并按一定的著录规则与排列 方式编排起来,供读者查阅使用的一 种检索工具。四版p.24,1.4 信息检索系统类型,文摘:以文献的篇为报道的基本单元,1.4 信息检索系统类型,全文:通常先提供题录和文摘信息,同 时给出全文链接,供检索者选择。四版p.24,1.4信息检索系统类型,全文链接,1.4 信息检索系统类型,全文,1.4 信息检索系统类型,1.4 信息检索系统类型,我院图书馆中外文数据库,1.5 数据库(计算机检索系统)的构成,一条记录:书目,1.5 数据库(计算机检索系统)的构成,一条记录:题录,1.5 数

8、据库(计算机检索系统)的构成,一条记录:文摘,1.5 数据库(计算机检索系统)的构成,一条记录:全文,1.5 数据库(计算机检索系统)的构成,数据库构成:文档-记录-字段三个层次文档:文献或数据记录的集合。顺排文档:记录(记录号大小排列)的集合。也称 为主文档。内容无序性,无法直接检索。倒排文档:将记录中的全部文献各字段数据内容,按一定 的顺序(字母或数字顺序)排列而成的特征标示 文档。提供检索入口,提高检索效率。四版p.25,1.5 数据库(计算机检索系统)的构成,记录号,字段名,记录3:题录形式全记录包括:篇名、作者、机构、中文刊名、年/期,顺排文档,1.5 数据库(计算机检索系统)的构成

9、,顺排文档:记录1,2,3的集合,作者倒排文档:作者姓名 记录号 陈春秀 1 陈东方 3程文娟 3 黄茂 5 秦大河 6 秦翔 6 吴元康 2 肖中新 4,原始信息,其他倒排文档,存储,排序,.,数据库,记录号,形成,检索,检索,输出,1.5 数据库(计算机检索系统)的构成,倒排文档入口,1.5 数据库(计算机检索系统)的构成,记录:有关文献或数据的整体描述,是构成 数据库或文档的基本单元。全文数据库中:一条记录相当于一篇文章 书目数据库中:一条记录相当于一条文摘或题录字段:记录的基本单元。对实体具体属性进行描述的结果。根据与文献内容相关与否,分为基本字段和辅助字段。基本字段:题目、文摘、关键

10、词等 辅助字段:作者、作者单位、期刊名称、语种等,课堂同步练习3,以下是某一数据库中的一条记录,问()字段属于基本字段,()字段属于辅助字段,课堂同步练习3答案,基本字段:Title辅助字段:Accession number、Authors、Author affiliation等,本章要点2,?概念的拆分提取及扩展?检索算符与检索策略的构成,?文献检索的一般步骤,a分析研究课题,明确检索要求,b选择信息检索系统,c确定检索词构成检索策略,d实施查找并记录和阅读文献,e索取原文,2 文献检索的一般步骤,四版p.26-27,2 文献检索的一般步骤,a 分析研究课题,明确检索要求 研究的学科 专业领

11、域 文献类型 语种 年代,2 文献检索的一般步骤,已知书目信息时取得原文,印刷型馆藏书目数据库,电子全文数据库,已知课题主题,查找其相关文献(针对该种情况),检索目的,b.选择信息检索系统,2 文献检索的一般步骤确定检索词,c 确定检索词 概念拆分 概念提取 概念扩展 英文:informatin retrieval via internet 空格 空格 中文:因特网信息检索 词间没空格“数字技术在影视艺术中的展现”词间没空格被检索系统处理成术语或词组,因而检索结果可能很少,甚至为零。四版p.34,2 文献检索的一般步骤确定检索词,概念不拆分的检索结果,2 文献检索的一般步骤确定检索词,c 确定

12、检索词:概念拆分的方法:按照概念单元分成不 能再拆分的词语。如:数字技术在影视艺术中的展现 泛指的词:技术,展现 虚词:在,中,的 主要概念:数字,影视,艺术,2 文献检索的一般步骤确定检索词,概念拆分后的检索结果,2 文献检索的一般步骤确定检索词,c 确定检索词:概念拆分 概念提取 概念扩展 提取主要概念:课题研究的对象、方法有关的 特指性事物名词等。辅助概念:泛指性的词 如:研究,探讨等 禁用词:介词、连词、冠词、动词等虚词 提取主要概念,视实际情况选取辅助概念,去掉禁用词。如:主要检索词:数字,影视,艺术,课堂同步练习4,分析课题“论我国知识产权保护的现状”,拆分概念并区分出主要概念、辅

13、助概念和禁用词。,课堂同步练习5答案,拆分概念:论我国知识产权保护的现状 主要概念:知识产权、保护 辅助概念:我国 现状 禁用词:论 的 主要检索词:知识产权 保护,2 文献检索的一般步骤确定检索词,c 确定检索词 概念拆分 概念提取 概念扩展 为了取得较好的检索效果,防止漏检文献,必须在概念分析的基础上列出与主要概念有关的同族词。,2 文献检索的一般步骤确定检索词,主要概念扩展的三种方法:基于同一概念的扩展法 基于内容分析的扩展法 基于检索结果的扩展法,2 文献检索的一般步骤确定检索词,方法一:同一概念的检索词的扩展法(1)同一事物的学名、俗名 学名 俗名 企业 公司 自由港 自由口岸 汉语

14、 中文 四版p.35,2 文献检索的一般步骤确定检索词,方法一:基于同一概念的扩展法(2)同一事物的简称、全称、音译和意译 简称 全称 沪 上海 音译 意译 CAD computer aided design internet 因特网 互联网,2 文献检索的一般步骤确定检索词,方法一:基于同一概念的扩展法(3)如果是英语,寻找同一名词的单复数、不同词性、英美语的不同形式等。art arts colour color stock share,2 文献检索的一般步骤确定检索词,方法二:基于内容分析的扩展法 1)上位概念扩展法:分析检索对象的学科归属,2 文献检索的一般步骤确定检索词,2)下位概念扩

15、展法:概念分析的树形展开法,2 文献检索的一般步骤确定检索词,方法三:基于检索结果的概念扩展法 对初步检索结果进行分析,能够得到与课题相关的新的检索概念。如:检索“我国知识产权保护现状”经检索阅读文献,发现“知识产权”的下位概念有:著作权、版权、专利权等,故可考虑这些概念进行扩展检索。,课 堂 同 步 练 习5,分析课题“论我国知识产权保护的现状”a.拆分概念并区分出主要概念、泛指概 念和禁用词。b.扩展主要概念,课 堂 练 习 2 答 案,主要概念:知识产权 保护扩展主要概念1:知识产权,专利权,商标权,著作权扩展主要概念2:保护,维护,2 文献检索的一般步骤检索算符与检索策略,检索策略的定

16、义:对多个检索词之间的相互关系和检索顺序作出的某种安排。构成检索策略:运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符等方法,表达课题检索要求的过程。(可以接受的含义:不同的系统算符表示方法、允许应用的种类不同)p.36,2 文献检索的一般步骤检索算符与检索策略,算符:布尔逻辑算符 定义:规定检索词之间的逻辑关系的算符。种类:逻辑“与”、“或”、“非”大多数的数据库中,用AND OR NOT表示p.36-37,2 文献检索的一般步骤检索算符与检索策略,逻辑“与”表示方法A AND B 阴影部份为检中文献 p.37,知识产权,保护,知识产权AND保护,检索策略:知识产权 AND 保护含义:

17、输出的记录中同时 含有“知识产权”和“保护”,8960,65734,3244,2 文献检索的一般步骤检索算符与检索策略,2 文献检索的一般步骤检索算符与检索策略,逻辑“或”表示方法A OR B 阴影部份为检中文献 p.36,专利权,知识产权,检索策略:知识产权 OR 专利权8960+394=93549350去重含义:输出的记录中至少含有其中的一个概念,8960,394,9350,知识产权 OR 专利权,2 文献检索的一般步骤检索算符与检索策略,2 文献检索的一般步骤检索算符与检索策略,逻辑“非”表示方法A NOT B阴影部分为检中文献 p.37,专利,德国,检索策略:专利 NOT 德国=120

18、97含义:输出的记录中只含有NOT前面的检索词,而不含有NOT后的检索词,12089,13550,12097,8,2 文献检索的一般步骤检索算符与检索策略,算符2:优先算符“()”布尔逻辑算符运算次序:NOT AND OR 当逻辑“或”算符与其他算符混合运算时,要使用优先算符“()”来改变运算顺序。p.37,例:查找“论我国知识产权保护的现状”的相 关文献 c.构建检索策略,课堂同步练习6,课堂同步练习6答案,主要概念1:知识产权,专利权,商标权,著作权主要概念2:保护,维护逻辑“或”关系:知识产权,专利权,商标权 和著作权;保护,维护逻辑“与”关系:主要概念1与主要概念2,课堂同步练习6答案

19、,检索策略:分步:S1 知识产权 OR 专利权 OR 商标权 OR 著作权 S2 保护 OR 维护 S3 S1 AND S2 综合:(知识产权 OR 专利权 OR 商标权 OR 著作权)AND(保护 OR 维护),2 文献检索的一般步骤检索算符与检索策略,知识产权,保护,知识产权AND 保护,8960,65734,3244,知识产权or专利权or商标权or著作权,保护or 维护,12270,82892,4153,(知识产权or专利权or 商标权or著作权)AND(保护 or 维护),概念扩展后检索结果增加了,提高了查全率,2 文献检索的一般步骤检索算符与检索策略,算符3:截词算符 在EBSCO

20、数据库中,后截断截词符用*表示。在某些英语检索词中,词干相同,词义相近,但词尾有变化时,可采用后截断截词符。表示方法:词干*如:要检索出computer、computers、computing、computerize、computerise等以同一词干开头的词,除了用OR连接外,用computer*检索结果中可能含computer、computers、computerize、computerise的记录。用comput*检索结果中可能含computer、computers、computing、computerize、computerise的记录p.38,2 文献检索的一般步骤检索算符与检索策略

21、,使用后截断算符需注意的三个问题:1.截词符要紧接在词干后面,截词符和词干间不能 有空格;如:computer*2.避免将检索词的词干截得过短,一般应在三个字 母以上;如:com*3.从希望出现的单词中取尽可能多的公共字母作为 词干,以提高查准率.p.38,2 文献检索的一般步骤检索算符与检索策略,算符4:位置算符逻辑“与”的缺陷:不规定检索词前后位置和间隔距离,只能同时含有,查准率较低。为了提高检索结果查准率,改进逻辑“与”算符 的缺陷,采用位置算符位置算符:适合于两个检索词以指定间隔距离和指 定的顺序出现的场合。Wn Nnp.39,课 后 练 习,课题概念分析和检索策略的构成 流程:课题名

22、称提取(参照教材45页,习题一中选择,也可自拟题目)仿照示例完成练习 作业提交,1.经济学数学模型2.转型期人口政策的国际比较研究3.中外新闻传播事业史4.中国当代文学思潮研究5.汉语语音研究6.碳14断代研究,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,1.分析课题,提取出主要概念、辅助概念和禁用词。主要概念:银行、不良资产、处理 辅助概念:禁用词:关于,的,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,2.利用百度百科,查找课题主题有关的背景材料,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,3.扩展主要概念并翻译成英文(后输入翻译助手,或

23、金山词霸http:/主要概念:银行,不良资产 概念组面1:银行,信用社,bank 概念组面2:不良资产,不良贷款,呆坏账,呆账,坏账等 概念组面3:处理 process、processing bad assets,bad loan,bad debt non-performing assets,non-performing loans,等,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,4.构建检索策略:中文检索策略:(银行 or 信用社)and(不良资产 or 不良贷款 or 呆坏账 or 呆账 or 坏账)and 处理,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究

24、”,英文检索策略:bank*and(bad and assets or bad and loan or bad and debt and non-performing and assets or non-performing and loans)and process*或bank*and(bad or non-performing)and(assets or loan or debt)and process*或 bank*and(“bad assets”or“bad loan”or“bad debt”assets”or“non-performing assets”or“non-performi

25、ng loans”)and process*,案例:基于社会化标签的大众分类研究,(一)分析检索课题、明确检索要求 课题的内容是什么?主要解决什么问题?获取何种相关文献?课题分析要从以下几个方面进行:(1)分析课题内涵(2)分析文献需求类型(3)分析查找年代,(二)制定检索策略 1对课题进行词切分,选择检索词 2选择布尔逻辑运算符、位置算符、截词符等 3.构造检索式注意:尽量收全检索课题的同义词、相关词,基于社会化标签的大众分类研究,基于|社会化标签|的|大众分类|研究,社会化标签 and 大众分类,课题:,词切分:,检索式:,(三)选择相关数据库,应注意以下几点:1数据库收录的文献内容 2数

26、据库收录的文献的出版类型 3数据库中收录文献的时间范围 4数据库的更新情况,(四)实施检索,反馈调整 当检索结果很多或很少甚至为零时必须对初步拟订的检索策略进行调整。扩大检索范围的方法(逻辑“或”、截词等、字段扩展、位置算符号等)缩小检索范围的方法(逻辑“与”、字段限制等)实例:基于社会化标签的大众分类研究,(五)获取原文,1)查找全文数据库下载2)到网上找免费资源,GOOGLE学术搜索,如法律法规、新闻、一些OA电子期刊和科技报告等。3)向收藏单位借阅或联系复制,图书馆原文传递 馆内馆外,本地区外地区,选择适合要求的馆藏目录进行查找。4)发动朋友。让朋友利用他周围的资源检索,将全文mail给你。5)向著者索取,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号