《第二章 文献检索基础知识课件.ppt》由会员分享,可在线阅读,更多相关《第二章 文献检索基础知识课件.ppt(66页珍藏版)》请在三一办公上搜索。
1、第二章 文献检索基础知识,第一节 检索原理与检索语言第二节 检索方法与检索步骤第三节 检索系统概述第四节 计算机检索系统,第二章 文献信息检索基础,文献信息检索:将文献信息按照一定的规律排列、储存起来,并根据信息用户的需求查找出其所需信息的过程。所以广义的文献信息检索是指信息 。,第一节、检索原理与检索语言,存储与检索,检索基本原理是以检索语言为基础,将文献的提问标识与检索标识之间进行相关性的匹配,检索语言是标引者与检索者共同使用的语言。,检索语言有多种名称,如文献检索语言、信息检索语言、文献(信息)存储与检索语言等,它是组织文献与检索文献时所使用的共同语言,是保证存储和检索一致的人工语言。,
2、检索原理与检索语言,标引是在文献内容分析的基础上,按学科属性或主题概念用合适的检索语言(分类符号或规范化的科学名词、词组)对文献进行描述,形成反映文献内容特征和外表特征的各种标识,按照一定的规则编排成严格有序的排检序列,输入文献检索系统。,检索原理与检索语言,检索语言类型,检索原理与检索语言,分类语言 (classification retrieval language) 是以知识的学科体系为基础,以符号(数字、字母)为概念标识进行文献内容特征揭示的一种检索语言。 它以学科类目名称作为基本词汇,通过类目的从属关系来表达复杂的概念。,检索原理与检索语言,分类法:以知识属性来描述和表达文献内容特征
3、的方法称为分类法。一、中国图书馆分类法二、中国人民大学图书馆分类法三、中国科学院图书馆图书分类法四、杜威十进分类法 五、国际十进分类法六、美国国会图书馆图书分类法,检索原理与检索语言,中国图书馆分类法,中图法是由政府部门编制的一部综合性图书分类法,于1974年出版,经过多次修订,目前使用的是第四版。中图法分为5大部(马列主义毛泽东思想、哲学、社会科学、自然科学、综合性学科 )22个大类,除工业技术类外,其余各大类均用一个大写字母表示一级类目名,再根据学科的内容在大类下以数字表示各级类目。,检索原理与检索语言,中图法分类表,A 马克思主义、列宁主义、毛泽东思想、 N 自然科学总论 邓小平理论 O
4、 数理科学和化学 B 哲学、宗教 P 天文学、地球科学 C 社会科学总论 Q 生物科学 D 政治、法律 R 医药、卫生 E 军事 S 农业科学 F 经济 T 工业技术 G 文化科学、教育、体育 U 交通运输 H 语言、文字 V 航空、航天 I 文学 X 环境科学、安全科学 J 艺术 Z 综合性图书 K 历史、地理,经济类的类目设置,检索原理与检索语言,检索原理与检索语言,主题语言:主题语言是一种描述性语言,它用语词直接表达信息的主题,这些语词就是表达主题概念的标识,将这些作标识的语词按字顺排列并使用参照系统来间接表达各种概念之间的关系。【什么是主题】 主题“是一组具有共性事物的总称,用以表达文
5、献所论述和研究的具体对象和问题”,即文献的“中心内容”。【什么是主题词】 表达主题概念的词汇就是主题词。 狭义的主题词仅指叙词 ; 广义主题词可以分为规范词汇和自由词汇,包括关键词、主题词、标题词、叙词。,检索原理与检索语言,主题语言又分为标题词语言、单元词语言、叙词语言和关键词语言,前两种语言目前使用较少。 1)叙词语言:它是从文献题目、正文或摘要中抽取出来的,经过规范化的基本概念单元词。叙词语言使用的是从自然语言中优选出来并经过规范化出来的名词术语,通过单元词之间的概念组配来对文献的内容进行描述和标识。,检索原理与检索语言,2)关键词语言:关键词是指直接从文献的标题、正文或摘要中直接提取未
6、经规范化具有实质意义的词或词组,一般由著者给出。 关键词语言就是将文献中的一些主要 抽出作为检索标识,并以字顺排列组成的查找文献用的语言。 一般通用词(技术、理论、应用等)以及无实质意义的词(冠、接词、连词等)不作关键词使用。,第二节 检索方法与检索步骤,手工检索(传统检索方式) 检索者利用印刷型检索工具检索文献。 计算机检索 检索者利用计算机检索系统检索文献,包括联机检索、光盘检索和网上检索等。,一、检索方法,查阅文献资料的方法,追溯法追溯法是指一般不利用检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大文献资料来源的方法。它还可以从查到的“引文
7、”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。,查阅文献资料的方法,常用法(工具法):直接利用检索工具的一种查找方法。1、顺查法:按从远到近的时间顺序查找文献信息的方法。一般用于重大课题及各学科发展史以及新兴学科等方面的研究课题的检索。 2、倒查法:是一种逆时间顺序由近及远地回溯性查找文献地方法,目的是获取近期发表地最新文献信息。是一般科研人员最常用地方法。在确认某项成果是否创新时,也适合用倒查法。 3、抽查法:是针对某一学科内的课题,重点对某一时间段进行检索,这种方法多用于写专题调查报告。,查阅文献资料的方法,综合法综合法又称为循环法,它是把上述两种
8、方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。综合法兼有常规检索和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。,查阅文献资料的方法,运筹法由于科学技术的进步,科技信息增长迅猛,在这“知识爆炸”的时代里查阅文献资料必须注意运筹法,以节省时间和精力,提高查阅文献的效率。查阅文献一般应做到“四先四后”,即先近后远,先中后外,先专业后广泛,先综述后单篇。,二、检索步骤,1、分析检索需
9、要 2、选择检索系统和数据库 3、检索途径的选择 4、确定检索词 5、编制检索表达式 6、检索结果分析,检索的基本步骤,第四节 检索系统概述,信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。 广义的信息检索系统包括了信息的存贮和检索的系统。狭义的信息检索系统就是信息检索工具。,一、检索系统概述-类型,根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即: 手工信息检索系统 计算机信息检索系统,2、书本式手工信息检索工具的结构文前部分:目次表正文部分:目录、题录、文摘索引部分:分类、主题、著者索引附录
10、部分:一览表,二、手工信息检索系统,3、手工信息检索工具的著录格式目录: 版物名称-编著者-出版项附注项题录: 题目/著者/出处文摘: 题目/著者/出处、文摘索引: 知识单元-顺序号(或页码)注意:期刊论文的文献出处包括: 刊名-年-卷-期-页码,二、手工信息检索系统,4、手工信息检索工具的著录对象目录:单位出版物题录:单位出版物中的单篇文献文摘:单位出版物中的单篇文献索引:单位出版物或单篇文献中的知识单元,二、手工信息检索系统,目录是对一批相关文献外部特征的揭示和报道。通常以一个完整的出版或收藏单位为著录的基本单位来报道和记录文献。题录是单篇文献外表特征的揭示和报导,即对某一文献外部特征的描
11、述,由一组著录项目构成一条文献记录。文摘是指对一份文献(或称一个文献单元)的内容所做的简略、准确的描述,文摘的著录项目除了著者,篇名及出处等外,还有表示文献内容特征的摘要。索引是对一组信息集合的有系统的指引。索引是一种附属性的检索工具,通常称为辅助索引。索引具有便于检索,揭示事物比较深入、全面、明细等方面的优点。,手工信息检索工具的著录项目目录: 出版物名称-编著者-出版项附注项题录: 题目/著者/出处文摘: 题目/著者/出处、文摘索引: 知识单元-顺序号(或页码)期刊论文的文献出处:刊名、年、卷、期、页码,5、几种常用的手工信息检索工具全国报刊索引: 月刊、年报道量40万条、题录型、综合性检
12、索工具版本:自然科学技术版和哲学社会科学版检索途径:分类途径和著者途径(97以后) 著录格式:顺序号 题目/作者/刊名.年.卷(期).页码,二、手工信息检索系统,5、几种常用的手工信息检索工具中文核心期刊要目总览: 北京大学图书馆和北京高校图书馆期刊工作研究会主持的国社科基金项目成果 各专业核心期刊,二、手工信息检索系统,5、几种常用的手工信息检索工具全国新书目:及时报到国内新书出版情况的刊物。1950年创刊,目前月刊。结构:书情评论、新书导读和书目信息。检索:分类目次表 著录:书名-著者-出版地-出版社-出版时间-总页数- 开本-ISBN号-定价-简介,二、手工信息检索系统,5、几种常用的手
13、工信息检索工具 全国总书目:收录上一年度我国正式出版的各种出版物 构成:分类目录、专题目录、附录本年度的全国总书目相当于上一年度全国新书目的总和。 著录:比全国新书目多分类号和顺序号,二、手工信息检索系统,5、几种常用的手工信息检索工具中国国家书目:系统报道一个国家出版的所有文献。1985年-按国际标准和国内标准进行著录,标引规范。除收录中文普通图书外,还包括少数民族语文图书, 由正文和索引2部分组成,二、手工信息检索系统,第四节 计算机检索系统,计算机信息检索系统 用计算机进行信息存贮和检索的系统。,1、计算机信息检索系统的构成 硬件设备 :主机、检索终端、通信设备、 输入输出设备 软件设备
14、 :系统软件、应用软件、数据库,4.1计算机信息检索系统,2、计算机信息检索系统的类型计算机单机信息检索系统(20世纪50年代初60年代中期)计算机联机信息检索系统( 20世纪60年代中70年代中期)计算机光盘信息检索系统( 20世纪70年代中80年代中期)计算机网络信息检索系统( 20世纪80年代中期至今),计算机信息检索系统,2.1 计算机单机信息检索系统计算机信息检索系统的早期形式,是将信息检索数据库系统建立在独立的计算机硬盘上,直接在一台计算机上进行存储和检索信息。脱机批处理、无需终端和通信网络,2.2 计算机联机信息检索系统 联机检索是用户利用计算机终端,通过通信网络与联机检索中心的
15、中央计算机(服务器)联机,向联机信息中心发出请求,进行检索的一种检索方法。构成:用户检索终端、通信网络、联机存取中心。,2.2 计算机联机信息检索系统全球联机检索系统有200多个,著名的有:DIALOG系统(美):世界上最大的联机检索系统、900多个数据库、3亿多条记录、24小时服务。ORBIT系统(美):世界上第2大联机检索系统、 100多个数据库、特色为专利数据库。BRS系统(美):200个左右数据库、侧重医学.药学.生命科学等领域ESA/IRS系统(欧洲):世界上第3大.欧洲最大的联机检索系统、100多个数据库、半数与DIALOG重复STN系统(美日德):国际科技信息网络、200多个数据
16、库 OCLC系统(美): 联机计算机图书馆中心、80多个数据库、有30多个数据库有原文,2.3 计算机光盘信息检索系统以大容量的光盘为存储介质,利用光驱和计算机实现对光盘数据库的读取和检索的系统。由计算机、光驱和光盘数据库构成分单机光盘信息检索系统和网络光盘信息检索系统。,2.4 计算机网络信息检索系统 通过现代通讯网络,利用网络信息检索工具来浏览和检索网上信息的系统 。因特网环境下的信息资源检索工具逐渐取代传统的联机检索工具,成为检索工具的主流。 利用统一TCP/IP协议的计算机和网络都可以在因特网上传或下载信息。,4.2 数据库的构成,1)数据库的一般结构:数据库是在计算机存储设备上按一定
17、方式存储的相互关联的数据集合。,字段是文献著录的基本单元,反映文献的外部特征和内容特征的每一个项目。,【中文题名】 XML语言及其应用 【英文题名】XML LANGUAGE AND ITS APPLICATION 【作者】黄婉秋;黄筱霞;贾旭光 【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学院,北京,100037;北方交通大学,计算机学院,北京,100044; 【刊名】北京工商大学学报(自然科学版) 【英文刊名】JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY(NATURAL SCIENCE EDITI
18、ON) 【年 卷 期】2002 Vol.20 No.3 【关 键 词】XML; HTML; Web页面语言; 置标语言 【摘要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分析,包括DTD、XSL、 XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库之间的关系进行了描述.最后论述了XML的 发展与前景.,一个字段,记录是由若干不同字段组成的文献单元,在数据库中每一个记录都有一个记录号。,一条记录,文档由若干逻辑记录组成的信息集合。,文档,2)计算机检索过程,3)数据库的类型: 书目型数据库(二次文献库)是指引用户到另一个信息源获取原文或其他细节的数据库。,全文数据
19、库(源数据库):收录有原始文献的全文,能直接提供用户所需的原始资料的数据库。 参考工具数据库:既包括全文型的百科全书和名词术语数据库,也包括专门提供以数据形式表示信息的数值型数据库。,多媒体数据库:集视频、声频、文字、图像、动画为一体的数据库。超文本型数据库:使用链接连接结点等方式进行存取。,1、布尔检索技术2、截词检索技术3、邻近检索技术4、字段检索技术5、优先运算技术,4.3 计算机检索技术,1)布尔逻辑检索(Bool Logical Operators) 用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。
20、主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT),逻辑“与” 是检索词之间的相交关系运算。运算符号为“AND”或 “ * ”,网络搜索引擎中用空格表示。检索式为: A AND B 或 A * B “computer * library” 或 “ computer AND library”,逻辑“或”(和) 是检索词之间的并列关系,用运算符号“OR”或“+”,网络搜索引擎中用逗号表示。表示两个检索项任一项出现在一条记录中。 检索式为:A OR B 或 A + B“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”,逻辑“非” 用于在某一记录集合中排队含有
21、某一概念的记录。运算符号用“NOT”或“”表示,网络搜索引擎中用减号表示。 检索式为: A NOT B 或 A B(汽车and 环境污染) not review,例如检索:“高分子聚合物”查询关键词:高分子、聚合物检索表达式:高分子 AND 聚合物例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机OR 微机,2) 截词检索(Truncation),截词检索技术在计算机检索系统中的应用非常普遍,在西文单词中经常会遇到词的不同变化,为了不漏检,可采用截词的方法处理检索词。截词就是利用计算机检索系统提供的截词符,保留检索词中的相同部分,允许检索词可有一定范围内的
22、变化,以提高文献的查全率。 截词符号:一般用“*”表示,也有用“”、“” 或“?”表示。不同检索系统符号表示不一样。,截词有四种方式: 前方一致,允许词尾有所变化;manage*可以检索到management , managed , manager 后方一致,允许词头有所变化;*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics 中间一致,词头、词尾都可变化;?computer?可检索computer、computers、computerize、computerized、computerization、mini
23、computer、minicomputers、microcomputer、microcomputers等结果。中间屏蔽,允许词中间的某些字母有变化。wom*n,检索到woman、women,3)字段限制检索,字段限制就是把检索词限定在某个(些)字段中。,4)位置检索,例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也查出来,这显然不是所需文献。主要有相邻位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F),(L),位置检索可要求检索词以用户所规定的相对位置出现。常用的位
24、置算符及含义: (W)算符(WITH) 表示两个检索词紧挨着,词序不能颠倒, 中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。(N)算符(NEAR) 表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。 (F)算符(FIELD)表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数不限 (S)算符(SUBFIELD) 表示两个检索词必须出现在同一个子字段中,但两词的词序和插入的词数不限。 (L)算符(LINK)表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另一个就为二级主题词。,5 )优先算符布尔运算符优先级比较有括号时:括号内
25、的先执行;无括号时:NOT AND OR例:检索“明清小说”的有关信息。关键词:明、清、小说;检索表达式:(明 OR 清)AND 小说;明 AND 小说 OR 清 AND 小说;错误表达式: 明OR 清AND小说;明 AND 清AND小说;明 OR 清OR小说;明AND 清OR小说;,提高查全率的主要方法(1) 准确把握检索对象及目的,选择合适的数据库。(2) 降低检索词或分类号的专指度。(3) 更多地采用学科分类途径来扩大检索范围。(4) 减少逻辑“与”及逻辑“非”的使用。(5) 增加逻辑“或”及截词检索技术的使用。(6) 采用“全文检索”。(7) 不限定检索对象的文献类型、时间段、文种等。,提高查准率的主要方法(1) 准确把握检索对象及目的,选择合适的数据库。(2) 提高检索词或分类号的专指度。(3) 更多地采用专用名词及特性检索的途径。(4) 选择逻辑“与”及逻辑“非”的使用。(5) 减少或不采用逻辑“或”及截词检索技术的使用。(6) 限定检索词出现的字段及在段落、文句中的位置。(7) 不选“全文检索”.(8) 限定检索对象的文献类型、时间段、文种及其它特征。,谢谢!请看下一章!,