《第二章信息检索理论基础教材ppt课件.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索理论基础教材ppt课件.ppt(66页珍藏版)》请在三一办公上搜索。
1、第二章 信息检索基础理论,本章要点 信息检索的概念及类型 信息检索语言和工具 信息检索技术及策略本章主要讲述信息与信息资源的基本内容; 信息检索的含义及主要类型; 信息检索语言和常用工具; 信息检索的方法、步骤、途径及信息检索的策略与效果评价。,第二章 信息检索基础理论 目录:,2.1 信息检索的含义及类型,2.3信息检索技术与策略,2.2 信息检索语言和工具,2.1 信息检索的含义及类型,2.1.1 信息检索的含义 广义的信息检索 (信息存储与检索,information storage and retrieval),包含了将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息
2、的全过程。狭义的信息检索,即根据需要,借助于检索工具,从信息集合中找出所需要信息的过程,相当于人们所说的信息查寻(information search)。,2.1 信息检索的含义及类型 2.1.1 信息检索的含义,1. 信息标引和存储过程,标引:根据文献的主题内容,按照某种规范化主题词典或词表,给予主题词和副主题词作为检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。信息标引是对大量无序的信息特征进行著录、组织,使之有序化。 信息存储是对有关信息进行选择,并按科学的方法组成检索工具和检索文档,建立信息数据库;即组织检索系统的过程。,2.信息的需求分析和检索过程,
3、分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问制定策略和表达式,利用信息数据库获取相关信息。,信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。,2.1.2 信息检索类型划分示意图,文献线索检索,全文检索,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信息存储,信息检索,1、信息检索语言的概念,信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与检索人
4、员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言。,2、信息检索语言的作用,文献信息,主题,主题,标引主题,标引检索,标引,标引,用户信息,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信 息 检 索 语 言,分类语言,3.信息检索语言的种类,就其结构原理来划分,信息检索语言主要有 :,主题语言,代号语言,引文语言,等级体系分类语言,分面组配分类语言,标题词语言,元词语言,叙词语言,关键词语言,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信 息 检 索 语 言,描述文献外部特征的语言,3.信息检索语言的种类,按照信息特征描述划分,
5、信息检索语言主要有 :,书名、刊名、篇名等,文献类型,文献出版类型,分类语言,描述文献内部特征的语言,著者、编者、译者等,号码(报告号、专利号、标准号等),主题语言,标题词语言,关键词语言,2.2 信息检索的语言和工具 2.2.1 信息检索语言,1)构成,4.信息检索语言的构成及其要素,表达基本概念意义的词汇,控制语言使用的语法,据此把基本的词汇组合起来表达更为复杂的概念意义,主要体现为各种标引规则、组配规则、引用次序等,从语言学的角度分析信息检索语言的构成应分为三个部分,用于组成词汇的形式化符号,通常有字母、数字或文字等。,2.2 信息检索的语言和工具 2.2.1 信息检索语言,2)要求,4
6、.信息检索语言的构成及其要素,专指性,检索语言应该能够描述文献和提问的特征,即要有充分的表达能力,能全面、准确地描述任何复杂 的文献信息以及提问内容。 具体要求如下:,唯一性,灵活性,2.2 信息检索的语言和工具 2.2.2 检索工具,1. 检索工具的定义与类型,检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。 按照检索手段的不同,可分为手工检索工具和计算机检索系统。 按照著录形式的
7、不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。,2.2 信息检索的语言和工具 2.2.2 检索工具,题录报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国化学题录、中文科技期刊题录数据库等。,目录通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道.例如:全国新书目、全国总书目、全国报刊简明目录等。,文摘是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文
8、献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并注明其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:新华文摘、经济学文摘等 。,文 摘,按著录内容划分,题 录,目 录,索 引,索引是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并注明出处,按一定的规则编排起来的一种检索工具。例如:经济科学论文索引社会科学引文索引等。,2.2 信息检索的语言和工具 2.2.2 检索工具,2. 数据库,1)数据库的概念,数据库(DB,Database)是长期储存在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定
9、的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。,数据库管理系统(DBMS,Database Management System)是位于用户与操作系统之间的一个数据管理软件。,数据定义,用户通过它可以定义数据库中的数据对象;数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;数据库的建立和维护等。,基本功能,数据库系统(DBS,Database system)是指在计算机系统中引入数据库后构成的计算机应用系统。数据库系统一般由数据库
10、、操作系统、数据库管理系统及相关管理工具、应用系统、数据库管理员和用户构成。,书目数据库,2.2 信息检索的语言和工具 2.2.2 检索工具,2)数据库的类型,按服务模式划分,图像数据库,全文数据库,按信息处理层次划分,文摘数据库,按收录的文献类型划分,期刊论文数据库,书目及图书全文数据库,专利数据库,学位论文数据库,产品数据库,按收录文献信息的范围划分,综合性数据库,专业性数据库,文本数据库,数值数据库,声音数据库,视频数据库,多媒体数据库,单机数据库,联机数据库,网络数据库,按媒体信息划分,是数据库中数据组织存储的基本形式,是数据和信息的有序集合,由若干条记录组成,一个或若干个文档构成一个
11、数据库。通常一个数据库至少包括一个顺排文档和一个或多个倒排文档。,2.2 信息检索的语言和工具 2.2.2 检索工具,3)数据库的结构,文 档,记 录,字 段,是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有一个或多个文档,一个文档由若干条记录构成,而一条记录由若干字段组成。在文摘数据库中,一条记录相当于检索刊物中的条文摘款目。,是记录的基本组成单元,是有关一篇文献或称一条记录的基本数据单元,每一个字段都反映该篇文献的一个方面的信息,组合在一起形成对一篇文献信息的内容特征和外表特征的完整描述。在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、
12、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。,2.2 信息检索的语言和工具 2.2.2 检索工具,4. 计算机检索系统,检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力。 计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。,1)光盘检索系统,光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来
13、的信息检索系统,由计算机、光盘数据库、检索软件等组成。,目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。,与手工检索相比,光盘检索的可检信息量大,一套四库全书印刷版有3 000多册,而光 盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快者1个月,慢者1年),因此信息的获得比国际联机检索慢。,2.2 信息检索的语言和工具 2.2.2 检索工具,2
14、)联机检索系统,回溯检索是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息被称为国际联机检索。,联机检索系统主要有以下
15、四种服务方式:,定题检索是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。,联机订购。联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。,电子邮件 联机检索系统为用户提供E-mail和电子邮政的功能。用户输入E-mail号码和通信内容,就可以在几秒钟内接收到本需耗时几天的信件投递。,2.2 信息检索的语言和工具 2.2.2 检索工具,网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。一般由计算机服务器、
16、用户终端、通信网络、网络数据库等组成,其特点是方法简单、灵活、方便、时效性强、费用低。,3)网络检索系统,发出检索请求,返回检索结果,数 据 库,服务器,客户机,客户机/服务器请求与响应示意图,返回检索结果,匹 配 检 索,2.2 信息检索的语言和工具 2.2.2 检索工具,早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(Email)、电子公告栏(BBS)、新闻组(USENET)等。 具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络数据库检索系统、搜索引擎、多媒体信息检索系统等。,3)网络检索系统,收录质
17、量,收录信息收录范围与信息质量标引质量,著录的详略,著录、标引的质量检索功能,检索语言易用性和效果满意度报道速度,信息报道的时效,检索工具评价标准,另外可读性和权威性可作为选择百科全书和词典等参考型工具的辅助指标,而网络检索必须考虑速度和检索费用。,2.3 信息检索方法,顺查法:时间上,远近 查全率高 倒查法:时间上,近远 查准率高 抽查法:研究的高级阶段 检索效率高追溯法(引文法) :A.一次文献参考文献一次信息参考文献 近远B.一次文献引用该一次信息的文献新的一次文献 实际是由“远近 ”越查文献越新交替法(综合法),常规法(工具法),2.3 信息检索的技术与策略,2.3.1 信息检索基本技
18、术 在计算机信息检索系统中,比较通用的有浏览、简单检索和高级检索等功能。 浏览功能是由信息工作者将各种信息按一定的方式组织起来,按信息的主题、分类等方式编制成树状结构体系,供用户层层点击,进入不同分支查看检索结果列表。 简单检索和高级检索是利用检索词(或检索式)进行检索,返回与之相符的检索结果。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检索、词间位置检索和限定字段检索等检索技术。,精确与模糊检索,2.3 信息检索的技术与策略 2.3.1 信息检索基本技术,基本技术,词间位置检索,加权检索,布尔逻辑检索,限定字段检索,限定范围检索,截词检索,1,2,3,4,5,6,7,检索技术及其
19、实现 1、布尔逻辑组配检索技术 布尔逻辑组配检索:是指利用标准的布尔逻辑关系词来限定检索词之间的逻辑关系的检索技术,它是现行计算机检索的基本技术。 主要的布尔逻辑关系词有3种:与(AND)、或(OR)、非(NOT),其优先级依次为NOT、AND和OR,改变优先级的方法是使用括号(),括号内的逻辑式优先执行。,用A和B表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:,1.A and B 2. A or B 3.A not B, 逻辑与(逻辑乘) 用关系词AND或“*”表示,表示它所连接的两个检索词必须同时出现在结果中才满足检索条件。例如: “东南亚 * 经济危机”或 “东南亚 AND 经济
20、危机” “聚乙烯 * 复合材料 * 制备” Intelligent robot and control 逻辑与用来缩小文献检索范围,提高查准率,是具有概念交叉和限定关系的一种组配。, 逻辑或(逻辑加) 用关系词OR或“+”表示,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件。 例如: “金融危机 OR 金融风暴” “自行车 + 单车 + 脚踏车” “计算机 or 电脑 or 微机” “airplane or aircraft or plane” 逻辑或用来扩大文献检索范围,提高查全率,是具有概念并列关系的一种组配。, 逻辑非(逻辑减) 用关系词not或“-”表示,表示它所连接的两
21、个检索词中应从第一个概念中排除第二个概念。 例如:“beverage not alcohol” “高等教育 - 成人教育” 逻辑非用来缩小文献检索范围,提高查准率。,2、截词检索技术 所谓截词检索,是指在检索式中用专门的截词符号(如“?”、 “*” 或“!”)表示检索词的某一部分允许有一定的词形变化,因此检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词,结果中只要包含其中任意一个就满足检索要求。 截词检索的作用是对检索词进行截词处理,解决一个检索词的单、复数问题,不同词性的问题以及英美词汇拼写差异的问题等。由于截词检索是隐含的布尔逻辑或的检索,因此能够防止漏检,提高
22、查全率。,(1)按截断部位可分为:,右截词中间截词左截词,右截词(后端截词、前端一致):允许检索词尾部有若干变化形式,例如“edit*” 就检出包含edit、editing、edition 、editor 、editorial 、editorialist 、editorialize 、editorship 、editorially等词汇的结果等; 中间截词:允许检索词中间有若干变化形式,例如“wom*n”就可以同时检索到含有woman和women的结果,又如“defen*e”就可以同时检索到defence和defense的结果;左截词(前端截词、后端一致):允许检索词的前端有若干变化形式,例如
23、“*magnetic”就能检得包含magnetic、electro-magnetic、paramagnetic、thermo-magnetic等结果。,3、词位限定检索技术 词位限定检索:也叫邻近检索,它主要是通过检索式中的专门符号(位置算符)来规定检索词在结果中的相对位置,主要用于词组检索和短语检索。常用的位置算符有 (W)、(nW)、(N)、(nN)。,(W)算符:(W)是with的缩写, 它表示在此算符两侧的检索词必须严格按输入时的前后顺序出现在记录中,在两词之间不允许插入其他词或字母,只可有空格或一个标点符号。如: x (W) ray检索命中的记录中将有“x ray”或“x-ray”等
24、形式。,(nW)算符:表示该算符两侧检索词的词序不变,但允许两词中间最多可插入n个其他检索词。 如:state (2W) art在命中记录可能检出:“state art”、 “state of art” 、“state of the art”。如智能机器人(w/3)控制,可检出:“智能机器人控制”、“智能机器人行为控制”等,(N)算符:N是near的缩写,它表示其两侧的检索词的词序可以颠倒,但在两词之间不能插入任何其他词。如:environment (N) protection可能检出:environment protection和protection environment 两个词组。,(n
25、N)算符:表示在两个检索词之间最多允许插入n个其他检索词,两个检索词的词序可以颠倒。如:environment (2N) protection可能检出: environment protection; protection of the environment ; protection of water environment; protection of forest environment等。如智能机器人(n/3)控制,可检出:“智能机器人控制”,“.控制算法对智能机器人的影响”等,4、字段限定检索技术 字段限定符(标识符):通常是两个缩写的字母,代表在数据库中的记录字段。 如:TI代表题
26、名(Title), AU代表著者(Author)等。 TI=美学 * AU=朱光潜; 通常的字段限制范围的大小顺序是: 题名关键词摘要全文限定检索字段,其作用是限制检索词在数据库记录中出现的字段位置。检索时,机器只对限定字段进行运算,这是提高检索效率的又一措施。,2.3 信息检索的技术与策略 2.3.2 信息检索策略,2、检索途径,世界三大图书分类法杜威十进分类法(DDC)(Dewey decimal Classification )国际十进分类法(UDC)(Universal Decimal Classification)国会图书馆图书分类法(LCC)(Library congress cl
27、assification)中国图书分类法 中国图书馆分类法(中图法)中国科学院图书馆分类法(科图法)中国人民大学图书馆分类法(人大法),图书期刊分类法,中图法五大部类,A.马列毛、邓小平理论,B.哲学、宗教,C.社会科学总论,N.自然科学,Z.综合类,表2-1中国图书馆分类法基本大类表,T工业技术 TB一般工业技术-工业技术 TD矿业工程 TE石油、天然气工业 TF冶金工业 TG金属学与金属工艺 TH机械、仪表工业 TJ武器工业 TK能源与动力工程 TL原子能技术 TM电子技术 TN无线电电子学、电信技术 TP自动化技术、计算机技术 TQ化学工业 TS轻工业、手工业 TU建筑科学 TV水利工程
28、,表2-2文学类的类目设置,F 经济,中图法层层隶属、逐级展开的逻辑体系,F0政治经济学F1世界各国经济概况F2经济计划与管理F3农业经济F4工业经济F5交通运输经济F6邮电经济F7贸易经济F8财政经济,F71贸易经济理论方法F72中国贸易经济F73各国贸易经济F74国际贸易F75各国对外贸易F76商品学,F761一般性著作F762农产品F763医疗用品F764重工业产品F765建筑器材F766交通运输器材F767化学工业产品F768轻工业产品,分类途径的优缺点,1)优点(1)族性检索,查全率较高。 (2)按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用 【例题】检索英语会话类辞
29、典,例如美国语会话百科、英语会话大全、现代英汉生活用语图解词典,请选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61 C.用书名“英语会话”和“大全” D.用书名“英语会话”和“词典”,分类途径的优缺点,2)缺点 (1)不适用于特性检索,查准率比主题词低 【例题】论文活菌制剂与抗生素对仔猪饲料消化率和肠道微生物数量的影响适合用分类途径还是主题途径检索? 【题解】这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且分到两个类目,不易归类,适宜用主题途径检索。 (2)不能适应学科发展中的变化,难以反映新学科和新
30、名词术语 【实例】食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文章在分类上暂时归入 R155.5 食品卫生与检验和 TS201.6 食品安全与卫生。没有一个专门的“食品风险分析”分类号。 (3)人们认识的不统一,往往造成分类不一致及排检的错误,不易反映交叉学科。 【实例】例如管理心理学,它是心理学的一个分支,主要是研究企业中人的心理活动规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们很可能误解为归入管理学。,常见的号码索引:ISBN号、索书号、ISSN号、专利号、入藏号、报告号、
31、标准编号常见的专用符号代码索引:元素符号、分子式、结构式等常见的专用名词术语索引地名、机构名、商品名、生物属名等,注:索书号 :由两部分组成,中间用空格或/隔开。 第一部分是根据图书的学科主题所取用的分类号码。 第二部分是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。,2.3 信息检索的技术与策略 2.3.2 信息检索策略,1、检索策略的制定,信息检索的一般步骤,1、信息需求分析, 信息需求分析是让检索者了解检索目的,明确课题的主题或主要内容,课题所涉及的学科范围,所需信息的数量、出版类型、年代范围、涉及语种、已知的有关作者、机构,课题对查新、查准和查全的
32、指标要求等。,如:查找2006-2008年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文,2006-2008年度 (时间范围)报刊论文 (文献类型) 邓伟志 (著者姓名)社会学 (所属学科)家庭婚姻 (主题内容)如:查找2006-2008年江凤益先生在报刊上发表的有关蓝色发光材料的论文2006-2008年 (时间区间) 报刊论文 (文献类型) 江凤益 (著者) 材料学 (所属学科) 蓝色发光材料 (主题内容),各个数据库都有其不同的收集范围(如学科范围、文献类型、国别或语种等),检索者应根据自己课题的需要,选择相应的信息数据库。但任何数据库都不可能及时地将相关的信息收录齐全。因此,如有条件
33、在指定检索策略时,应考虑多选几个相关的数据库。,2、选择适用的检索工具,3、确定检索词、检索途径 检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得恰当与否,会直接影响着检索效果。选择检索词的原则:(1)选择规范词。(2)尽量使用代码。 (3)注意选用国外惯用的技术术语。 (4)避免使用低频词或高频词。 (5)同义词尽量选全。,课题检索词分析方法:,概念提取和扩展方法汉语词语切分方法,课题:当前我国民营企业家族化管理的研究,检索词:(概念提取和扩展方法) 民营企业、个体私营企业、私营企业、 家族企业、家族化管理、家族式管理、家族管理、 家族
34、 管理、家族化检索限定:(时间范围;(当前)2-3年内)(地域范围;(我国)中国大陆范围)(学科范围;管理学、企业经济),课题:查找有关吸烟致癌的文献,检索词: (概念提取和扩展方法) 中文:吸(抽)烟、烟草、香烟、烟、尼古丁(烟碱)英文:Smoking、tobacco、cigarette 、nicotine中文:癌、瘤(肿瘤)、毒素、肺癌、口腔癌英文:cancer、 neoplasm、toxin、lung cancer、 mouth cancer学科:医学(R)肿瘤学(R 73 )相关学科:生物科学,确定检索途径,根据分析出的主题的外表与内容特征确定检索的途径。 题名、责任者、分类等途径,4
35、、编制检索式;优化检索策略 编制检索式的核心是编制一个既能表达检索课题需求,又能为计算机识别的检索式。 检索式是检索策略的具体表现,它的质量直接影响到检索结果的质量。,编制检索式(检索提问式、检索表达式、逻辑式)是将各检索单元或检索词之间用逻辑算符、位置算符、截词、优先符等系统规定的组配符连接起来,确定检索词之间的关系,准确地表达课题需求的内容,以保证和提高检索的查全率和查准率,例:编写检索式(中文) 课题:民营企业家族化管理的研究,民营企业 and 家族化管理 (或 民营企业 * 家族化管理)民营企业 * 家族 * 管理(民营企业 or 个体私营企业 or 私营企业 or 家族企业) and
36、 家族 and 管理(民营企业 + 私营企业 ) *(家族化+家族管理),课题:计算机网络病毒防治,计算机*网络 * 病毒*防治 计算机网络 and 病毒防治 计算机网络病毒 * ( 防治 +防护)网络病毒防治 or 网络安全(计算机+电脑+微机)* 网络病毒 * ( 防治 +防护),优化检索策略注意事项:,(1)检索词尽可能使用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌将整个题名输入到检索框中。 如:网络数据库的安全性研究 检索式:网络*数据库*安全 网络数据库*安全 网络数据库安全 网络数据库的安全性研究 ,注意事项:,(2)要提炼关键的、核心的词作为检索词去掉意义太泛或“无所谓
37、有”的词例1 网络数据库的安全性研究 关键词1:网络数据库 研究对象 关键词2:安全研究目的 而意义太泛的词“研究”不应作为检索词例2 基于代理技术的网络入侵检测 关键词1:(网络)入侵检测,但入侵检测一般即指网 络中的入侵检测,意义重复,网络可不要。 关键词2:代理(技术),在入侵检测中使用“代理”, “代理”本身就是指的一项技术,因而技术也可不要。,注意事项:,(3) 避免使用“的、地、得、着、了、过”等无意义的虚词或禁用词,注:如一些固定表达的检索词中包括了禁用词,这时可用“”将其引起来, 如“journal of advanced material”,在编制检索式之前,一定要弄清所使用
38、数据库的检索功能和所采用的操作算符,这样才能有效地进行信息的检索。如截词符,在Ei Compendex中用“*”表示,在PQDD中用“?”表示。,传统的检索过程在获得一批相关检索结果后便算检索任务完成,而现代的检索强调的不只是获得知识信息,更注重对结果的分析、整理、组织与重组,因为获得的检索结果往往是凌乱的、不系统的,存在交叉和重复甚至是互相矛盾的情况,这就要求对它们加以分析,去粗取精、去伪存真,提取有用的信息。1.对资料进行鉴别、比较对搜集来的原始资料进行质量上的评价和核实: 一是要判断结果与查找主题的真伪,若资料本身不真实则应舍去,当然有时也可作为反证的证据; 二是判断是否全面,若不全则调
39、整检索策略,进行二次或三次检索; 三是判断相关的程度,对最相关信息加以详细研究,部分相关的取相关部分,不相关的则舍去。判断的过程也是一种研究学习的过程,可以产生许多新的灵感。,5、检索结果的整理,2.对结果的整理最简单也最常用的资料整理方法是利用分类的方法,我们可就以下几方面对结果加以分类:一是将与主题相关的信息内容集中,不相关信息作为备用记录或舍去;.二是将论点与论据信息分别汇总,便于调用信息;.三是将马上要用到的信息与以后可能用的信息分开,这样形成检索结果资料的汇编与检索资料笔记,并作简要说明。3.比较分析即运用科学的分析方法和研究方法对所占有的信息资料进行分析,研究特定课题的现象、过程及
40、内外各种联系,找出规律性的东西,构成理论框架,把所占有的信息转化成为自己的东西。检索的过程是对信息综合查找与分析利用的过程,在不具备很高检索技巧的情况下通常需经过多次反复实践以上五个步骤才能获得比较满意的检索结果,因此检索中我们要实践、实践、再实践。,6、获取原文,1.识别原文的特征信息尽管我们有时需要的是关于原文的线索与综述,但从普遍的检索目的来讲是为了获得原文信息。通过检索工具处理加工过的信息具有一些特定的标识、格式与特征,要想获取原文首先要能认识与识别各种检索工具的著录格式以及打印输出格式。在手检工具中不同的工具均有自已固定的格式,如SA、CA、EI对期刊的著录格式均不相同。在网络数据库
41、检索中不同的库其输出的格式也不同。,获得原文关键性的特征:,(1)出版物名,在检索工具中,出版物名通常以缩写的形式出现,要获取原文需利用附录中或者单独出版的出版物一览表(出版物索引、摘引期刊一览表、来源索引等)来转换为全称。中文、日文、俄文刊名在英文文摘中一律采用拉丁文音译著录,故在翻译时应首先将缩写刊名还原为全称,然后查阅有关音译转化工具书。(2)文献类型中文检索工具常使用刊、专利、会议、图书、标准等标识区别不同的文献类型。西文检索工具中文献类型的区分则主要依据各种文献所特有的标识来识别,如:凡有ISSN、年份、卷期号(多用Vol一,N0.表示)的一般是期刊论文;有专利代码的是专利文献;有出
42、版商简称和出版地、出版年、ISBN号的是图书;有会议类属词(Proceeding、Conference、Meeting、Symposium、Workshop、Colloquium及Convention等)及主办单位、召开地点及时间特征的是会议报告;科技报告有收集科技报告的机构或编写科技报告单位的代号;学位论文有学位名称、导师姓名,授予学位的大学名称、地点与授予年份等;标准有Standard、Specification等。检索刊物前的缩略语及符号一览可供参考。计算机检索可依据打印单上文献类型字段中的代码鉴别出版物类型。,获取原文的途径,获取原文的途径有四种:一是利用本单位图书情报获取原文;二是利
43、用联合目录通过馆际协作获取原文;三是利用全文数据库直接下载全文;四是利用检索结果中提供的著者或出版机构的E-mail地址,与之联系获取原文。前两种方式在手工检索或机检中均可使用,后两种方式只能在计算机检索状态中实现。,2.8 提高信息查全、查准的方法,(1)扩大检索范围,提高查全率的方法考虑同义词或近义词 (使用布尔逻辑符or连接)选择较大的检索范围的字段 (如摘要、全文)使用截词符使用上位词 (如载人航天飞机 航天飞机 飞行器),(2)缩小检索范围,提高查准率的方法,使用布尔逻辑算符and、not连接使用位置算符选择检索范围较小的字段 (如篇名、关键词)使用二次检索使用下位词使用精确检索 (
44、如对于固定短语来说可用“”引起来),文献检索基本知识 核心期刊,中文核心期刊,中文核心期刊要目总揽北京大学图书馆 2012年版,外文核心期刊,外文核心期刊要目总揽北京大学图书馆 2012年版,查找,* 少数刊载某一学科大量高质量专业论文的期刊。 * 特点 (1)刊载专业文献密度高,信息含量高; (2)水平较高,代表本学科的最新发展水平; (3)出版相对稳定,所载文献寿命较长; (4)利用率和被引率较高。,文献检索基本知识期刊的影响因子,期刊的影响因子(Impact Fact)E. Carfield 1972年提出期刊的影响因子是国际通行的衡量期刊质量的一个定量指标。通常,期刊的影响因子越大,它的学术影响力和作用也就越大。期刊的影响因子: 该刊前2年发表论文在统计当年被引用的总次数 前2年发表论文总数,外文期刊的影响因子,印本工具书JCR(Journal Citation Reports ),ISI Journal Citation Reports (Science Edition) 网络数据库,中文期刊的影响因子,中国科学引文库(中国科学院文献情报中心),本章总结 信息检索的概念及类型 信息检索技术及信息检索语言和工具 信息检索策略及检索结果的评价 本章主要讲述: 信息检索的含义及主要类型;信息检索语言和常用工具。信息检索的方法、步骤、途径及信息检索的策略与效果评价,,