《信息检索基本方法.ppt》由会员分享,可在线阅读,更多相关《信息检索基本方法.ppt(64页珍藏版)》请在三一办公上搜索。
1、信息检索基本方法,2.1 检索工具,2.1.1 检索工具的定义检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。,检索工具的类型,按照检索手段的不同,检索工具可分为手工检索工具、机械检索工具和计算机检索系统。按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。按照载体形式的不同可分为:书本式检索工具、卡片式检索工具、缩微式检索工具
2、和机读式检索工具等。,2.1.2 手工检索工具,手工检索工具是传统的检索工具,主要是各种类型的工具书。工具书是人们根据一定的需要,广泛收集某一范围的有关资料,按特定体例或方式编排,提供基本知识和文献线索的一种特殊类型的图书,是检索文献信息的重要工具。根据工具书的体例和功用,可分为检索类工具书、词语类工具书、资料类工具书、表谱类工具书、图录类工具书和边缘类工具书六种类型。,2.1.2.1 检索类工具书,按著录内容划分,检索类工具书大致可分为以下四种:目录、题录、文摘、索引。目录(Bibliography/Catalogue):通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的
3、揭示和报道。例如:全国新书目、全国总书目、全国报刊简明目录等。题录(Title):它报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国化学题录、中文科技期刊题录数据库等。文摘(Abstract):是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并著名其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:新华文摘
4、、经济学文摘等。索引(Index):是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并著名出处,按一定的规则编排起来的一种检索工具。例如:经济科学论文索引、社会科学引文索引(Social Science Citation Index,SSCI)等。,2.1.2.2 词语类工具书,词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的概念、含义和用法。例如:辞海、汉语成语大词典、社会科学大词典等。,2.1.2.3 资
5、料类工具书,资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科全书、年鉴、手册、名录、类书、政书等。百科全书是人类知识的总汇,是记录人类知识最全面、最系统的大型综合性工具书。它概述了人类切知识领域的基本资料,对每一学科提供定义、原理、方法、历史及现状、系统和参考书目等方面的资料,被誉为“工具书之王”、“没有围墙的大学”。年鉴是汇辑一年内时事动态、学科发展和各项统计资料等重要资料,按年度出版的工具书。手册也称指南、便览、大全等,是把某一学科或某一专题的概括性又具体实用的知识、资料和数据汇编在一起。名录是专门收录人名、地名、机构名以及其他事物名,按照一定规则进行排序,并予以简
6、要揭示和介绍的工具书。类书是收录古代文献资料,按类别或韵目编排,提供检索、征引使用的工具书。政书是汇集历代或某一朝代的政治、军事、经济、文化、外交等方面的法律、法令和法规制度史料的工具书。,2.1.2.4表谱类工具书,表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实和时间。主要包括年表、历表和专门性历史表谱3种类型。年表是按年代顺序编制,专供查考历史年代、历史纪元及历史大事的检索工具。如中华人民共和国大事记等。历表是一种把不同历法的历日按一定的次序汇编在一起,以相互对照的表格,提供查找和换算不同历法的年、月、日的工具书。专门性历史表谱主要用
7、于查考人物、职官、地理和数据等专题资料,如中西回史日历等。,2.1.2.5图录类工具书,图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。地图是地球表面自然和社会现象在平面图上的缩影,以反映各种事物和景象的地理分布及其在空间与时间上的相互制约、内在联系和发展动态。历史图录是以图形、图像等揭示历史人物和事物的工具书。,2.1.2.6边缘类工具书,边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇编、史书
8、、方志等。资料汇编有针对性地摘编文献信息的片断或全文,按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条约资料汇编、统计资料汇编等。,2.1.3 机械检索工具,机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索方式,但是只能对某一固定存储形式的信息资源进行特定检索,过分依赖于设备,检索操作复杂,成本很高,并且检索质量和效率也不理想。所以很快被计算机检索系统所取代。,2.1.4 数据库,数据库的类型:数据库的类型多种多样。数据库有网状数据库、层次数据库、
9、面向对象数据库、Web数据库、多媒体数据库、移动数据库、智能数据库、实时数据库、并行数据库、分布式数据库、联邦式数据库、模糊数据库、演绎数据库和统计数据库等。,数据库的类型1,1.按信息处理层次划分,数据库可分为书目数据库、文摘数据库和全文数据库。全文数据库:全文数据库(Full-text database)是将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库。,数据库的类型2,2.按照收录的文献类型划分分为期刊论文数据库、书目及图书全文数据库、专利数据库、学位论文数据库和产品数据库等。3.根据收录文献信息的范围划分分为综合性数据库和专业性数据库。4.按媒体信
10、息划分分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。,2.1.4.3数据库的结构,数据库一般由文档、记录、字段这三个自上而下的层次构成。通常一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按文献记录的输入顺序(即文献序号)排列的文档,又称为主文档。它将全部记录按照存取号的大小顺序依次排列形成文献信息集合,是数据库的主体内容。,倒排文档,倒排文档是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。如果将顺排文档看作是某种印刷型检索工具的正文部分,那么倒排文档就相当于它的辅助索引。,字段(Field),在文摘数据库中,一条记录应包含原始文献的题
11、名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。例如在Dialog系统中,常用标识符及含义为:标识符 字段名au=作者字段jn=期刊名称字段py=出版年字段cs=机构名称字段dt=文献类型字段la=语种字段,2.1.5计算机检索系统,计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。联机检索(Online Retrieval)是20世纪60年代发展起来的一种提供人机对话的检索技术,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机联结,
12、从而检索世界各地存储在计算机数据库中的信息资料。,联机检索系统,联机检索系统主要有以下四种服务方式:(1)回溯检索(RS,Retrospective Search)是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。通过RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线索。(2)定题检索(SDI,Selective Dissemination of Information)是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。(3)联机订购联机检索的结果通常是一些文摘或题录形式
13、的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。(4)电子邮件联机检索系统为用户提供E-mail和电子邮政的功能。,2.1.5.3 网络检索系统,网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(E-mail)、电子公告栏(BBS)、新闻组(USENET)等。FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、
14、WAIS、Gopher系统,以解决寻找FTP资源的困难。,2.2 检索途径,信息检索途径一般包括文献信息的内容特征途径和外表特征途径。内容特征途径:主题途径 分类途径 代码途径外表特征途径:题名途径 责任者途径 机构名称 编号途径 其它途径,内容特征途径,1.主题途径主题途径是按文献信息的内容主题进行检索的途径,对课题进行主题概念分析,提炼主题概念,选择能表达主题概念的语词,确定主题词、关键词、叙词或标题词。传统的手工检索依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,用户根据确定的检索词按照字顺进行查找,从检索词下的索引款目,即可找到所需文献的线索。计算机检索视检索
15、系统的检索规则而定,如检索系统提供了主题词索引,用户必须先查主题词索引,然后使用规范的检索词才能检索。2.分类途径分类途径是一种按照文献信息所属学科(专业)类别进行检索的途径。对课题内容进行分类分析,按分类法进行分类,获取分类号。传统的手工检索依据的是按分类编排的分类目次表或分类索引,按类逐级进行检索。计算机检索时提交分类号进行检索即可。分类检索能较好地满足族性检索的要求,提高课题信息的查全率。,2.3 检索标识,检索标识,即检索词,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检
16、索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其它的则依此类推。,检索标识的确定,检索标识的确定,一般应考虑以下基本原则:(1)检索标识必须反映课题内容和信息需求。(2)检索标识和数据库的标引标识应相一致。(3)所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或主题词作为检索词。(4)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词或术语。(5)如选择的检索词无词表可查,或在词表中未反映时,检索词为自由词,这时还应选取该词的同义词、近义词、广义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用
17、多个词试检,或通过逻辑“或”组配进行检索。,2.4 检索方法,2.4.1 工具法 又称常用法或直接法,是指直接利用检索工具检索文献信息的方法,这是信息检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。,2.4.2 引文法,引文法又名追溯法,是查找某一篇文献被哪些文献所引用,或者利用文献末尾所附参考文献和注释为线索逐一地追溯查找原始文献的方法。文献之间的引证和被引证关系反映了文献之间存在的某种内在联系,某一篇文献后所附的参考文献、其参考文献的参考文献,以及该文献被引用的文献,组成了一条学术链,从一定程度上反映了某一课题研究的轨迹。循着这些轨迹去查找,不仅可以利用前人的学术成果,节省很多时间
18、和精力,而且可能在原来的基础上有新的发现。引文索引是采用引文法快速查找文献信息的有效工具,但容易产生漏检。,2.4.3 循环法,循环法又称为综合法、交替法,它是把工具法和引文法结合起来查找文献信息的方法。循环法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。循环法的好处是能够综合工具法和引文法的优点,因为任何检索工具,都有文献收录的范围、主题报道的重点和倾向等,以引文法进行补充,可以扩大文献线索,发现更多有价值的文献信息。按照引文规律,有价值的文献在发表后最初几年(例如五年)内被引用的次数较多,但以后趋于减少,因此,追溯检索的年限不宜过长。,
19、2.5 计算机检索技术,计算机信息检索的实质是“匹配运算”,即由检索者把检索提问变成计算机能识别的检索表达式输入到计算机中,由计算机自动对数据库中各文档进行扫描、匹配。掌握计算机检索技术,快速准确地构建计算机能识别的检索表达式是进行计算机检索的重要环节。计算机检索技术主要指检索词的组配技术和检索表达式的构成规则。检索词包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。检索表达式简称为检索式,是一个既能反映检索课题内容、又能为计算机识别的算式,是进行计算机检索的依据,又称为检索提问式。检索表达式主要是运用各种逻辑运算符号、位置逻辑算符、截词符及其它限制符号等,把检索词连接组配起来,确
20、定检索词之间的关系,准确表达检索课题的内容。,2.5.1 布尔逻辑算符,(1)逻辑“与”运算符为“AND”或“*”。用于交叉概念或限定关系的组配,实现检索词概念范围的交集,可以缩小检索范围,提高查准率。如检索式为:A AND B或者A*B,表示检出同时含有检索词A和检索词B的记录。凡是使用“AND”的检索式检索,AND两侧的检索词必须同时出现在检索字段中。例如:检索“人口控制”或者“控制人口”方面的文献信息,可用如下检索式:人口 and 控制,(2)逻辑“或”,运算符为“OR”或“+”。用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集,它可以扩大检索范围,防止漏检,有利于提
21、高查全率。如检索式为:A or B,表示检出所有含有检索词A或检索词B的记录。在一篇文献记录中只要含有检索词A和检索词B中的任何一个即算命中。例如:检索有关“计算机”的文献资料,因为“计算机”也称为“电脑”,因此可用如下检索式:计算机 OR 电脑,(3)逻辑“非”,运算符为“NOT”或“-”。它是一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。如“A NOT B”,表示检出含有检索词A,但同时不含检索词B的记录。逻辑“非”和逻辑“与”运算的作用类似,可以缩小检索范围,增强检索的准确性。此运算适用于排除那些含有某个指定检索词的记录。但如果使用不当,将会排除有用文献信息,从而导致漏检。
22、例如:检索有关能源方面的文献信息,但不包括核能。energy NOT nuclear,布尔逻辑算符的逻辑关系图,:逻辑“与(AND)”、逻辑“或(OR)”、逻辑“非(NOT)”三种布尔逻辑算符的逻辑关系图:,2.5.2 位置算符,以Dialog系统为例介绍几种常用的位置算符:(W)(WITH):表示该算符两侧的检索词之间不得有其他任何的字或词,而且检索词顺序不能颠倒,但允许有空格或标点符号。也可用()表示。如检索式:American()Literature,可以用来检索有关American Literature的文献信息。(nW)(nWord):表示算符两侧的检索词之间最多可以插入n(n=1
23、2 3)个词,但检索词顺序不能颠倒。如:knowledge(1w)economic,表示含有短语knowledge economy或者knowledge-based economy的文献信息都可命中。,位置算符2,(N)(NEAR):表示在此算符两侧的检索词必须相连,不得插入其它词,但词序可以颠倒。如:chemistry(N)physics,表示含有短语chemistry physics或者physics chemistry的文献信息都可命中。(nN)(nNEAR):表示在此算符两侧的检索词之间最多可以插入n(n=1 2 3)个词,且词序可以颠倒。如:economic(2n)recovery,
24、表示economic recovery或recovery of the economic等文献信息都可命中。,位置算符3,(F)(FIELD):表示在此算符两侧的检索词必须同时出现在同一字段内,如篇名字段、文摘字段、叙词字段等,但两词的词序和中间插入的词数不限。如:economic(F)knowledge,一篇标题为“the Economic Impact of Knowledge-Based”的文献记录为命中文献,因为算符两侧的检索词在同一标题字段中。(S)(SUBFIELD):表示在此算符两侧的检索词必须出现在同一个子字段中,如关键词字段中的一个关键词就是一个子字段。但两词的词序和中间插入
25、的词数不限。它比(F)的限制更严。(L)算符(LINK):表示两个检索词之间存在从属关系或限制关系。如果其中一个为一级主题词,另一个就为二级主题词。如control(L)stability。,2.5.3 截词检索,(1)有限截断。指限定截去有限个字符。如:用“?”表示截断1个字符,输入product?,能够检索出含有product、products的记录。用“?”表示截断2个字符,依此类推。(2)右截断。截去某个词的词尾,使词的前方保持一致,也称为前方一致检索。截词符(通配符)用*或?表示,此算符在英文检索中用处较大,因为在英文词汇中,词的单复数变化、词性变化通常表现在词尾的变化中,如输入“e
26、mploy?(或employ*)”,则可检出包含employ、employing、employee、employer、emplopment等词的记录。,截词检索2,(3)中间截断。截去某个词的中间部分,使词的两边保持一致,也称为两边一致检索。当一个截词符放置在检索词的中间(通常用“?”),表示允许它为任一字符,如“pract?e”可以查找到practice和practise。允许有一个或n个字符变化,分别使用一个或n个截词符。例如,用“fib?glass”可以查找到fiberglass和fibreglass。(4)左截断。截去某个词的前部,使词的后方保持一致,也称为后方一致检索。例如:输入?e
27、conomic 能够检出含有economic、microeconomic、macroeconomic等词的文献记录。,2.5.4 短语或词组检索,短语或词组检索常用运算符为“”。当用户需要检索与输入形式完全相同的短语或词组时,可以将其放入“”中,如“foreign trade”,系统将严格匹配,检出含有短语foreign trade的记录。,2.5.5 优先算符,优先算符用()表达。将检索表达式的某一部分用括号括起来,表示命令计算机首先运算()中的提问式,而不按计算机系统默认的运算符优先级别运行。,2.5.6 限制检索,(1)字段检索在检索系统中对检索词(或检索项)出现的字段作一些限制,其作用
28、是使检索出的文献信息达到一定的专指度。字段检索包括两种形式:一是通过菜单选择检索字段,二是用命令的方式输入字段限制算符。,(2)使用限制符,Web检索方式通常通过菜单选择检索字段,在联机检索和Web高级检索中,还可用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。在Dialog系统中,用专门的字符表示不同字段,例如前缀限制符:AU=限查特定作者JN=限查特定刊名 LA=限查特定语种PN=限查特定专利号PY=限查特定年代例如后缀限制符:/TI 限在题目中查/AB 限在文摘中查/DE 限在叙词标引中查例如:要查找2004年出版的英文或法文的宏观经济学方面的期刊,则检索式为:(m
29、acroeconomics/de,ti,ab)AND PY=2004 AND(LA=EN OR FR)AND DT=Serial,2.5.7 精确与模糊检索,精确检索实际上是检索形式上完全匹配的检索词,一般使用在主题词、作者等字段。例如以精确检索方式在主题词字段中检索“反倾销”一词,那么在主题词字段中出现“反倾销战略”、“反倾销调查”等复合词的记录就并非命中记录,一定是单独以“反倾销”出现才算匹配。再如,用户输入作者名为“郭新”,那么“郭新宇”、“李郭新”等便不算匹配记录。模糊检索类似智能检索或概念检索,系统不但忽略复合词,可能还会自动返回包含它认为意义相近的检索词的记录。,2.5.8 加权检
30、索,加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔逻辑检索、截词检索等一样,也是信息检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献信息命中与否的影响程度。加权检索的基本方法是:在每个检索词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。,2.6 检索策略,检索策略(Information Retrieval
31、strategy)是指为实现检索目标而制定的全盘计划或方案。制定检索策略,就是在分析课题内容概念,明确信息需求的基础上,选择检索工具和检索系统,确定检索词、检索途径、检索方法和技术,拟定检索程序等。检索策略的制定一般包括手工检索策略的制定和计算机检索策略的制定。,检索策略2,2.6.1 手工检索策略手工检索通常使用的是印刷型检索工具,检索过程是通过手翻、眼看、大脑判断来完成的。手工检索策略的制定一般包括分析课题、选择检索工具、确定检索标识、选择检索途径、确定检索方法、进行检索以及索取原始信息等过程。,2.6.2 计算机检索策略,计算机检索策略的制定一般包括分析课题、选择检索系统和数据库、确定检
32、索标识、选择检索途径、构建检索表达式、提交检索、索取原文等过程。,分析检索课题,分析检索课题(1)了解信息需求,明确检索目的和意图 信息需求通常是人们从事科学研究、技术开发、学术探索和决策分析等过程中对各种文献信息的一种需求,这种需求是人们索取文献信息的出发点,也是选择检索工具和系统、制定检索策略以及评价检索效果的依据。,常见的3种类型课题的检索目的,技术攻关型:是要解决技术开发或生产中的些具体的技术难题,往往只要求检出的信息对课题的研究有所帮助,而查找信息的范围不需要很广。例如某种产品的制造方法和生产工艺等。因此,这类课题要求查准率高,找到合适的信息即可。课题普查型:是要针对某一课题查找系统
33、的详尽的资料,这类检索要求查全率高,往往要检索若干年的信息。例如,科研立项、申请发明、申报成果奖励、鉴定等的查新课题,往往需要全面地收集某一主题范围的信息,一般国内文献信息需要检索10年以上,国外文献信息检索15年以上。科学研究型:是要密切跟踪、了解国内外某一方面的最新成果,掌握最新科研动态,这类检索要求信息新颖、及时性强,多采用定题检索的方式。,(2)明确检索课题的范围,分析检索课题所涉及的学科、专业范围,时间、语种范围,所需要的信息类型是文献还是具体的数据、事实,对检出信息的类型、语种、出版时间、地域范围等有什么具体要求。学科范围是指研究课题所属的学科是单一学科,还是涉及多学科或跨学科的。
34、确定课题需要获取的信息量,例如规定所需信息数量的上限,对以后确定检索策略和控制检索费用是一个很重要的参数;同时还需对检索课题可能有的相关信息量做出估计。明确所需信息的语种、年代范围、类型、作者或其他外表特征,对于限定检索范围也很重要。,(3)分析检索课题的概念组面,检索课题的概念组面是在分析课题的基础上,形成的反映课题内容的主题概念。每一检索课题都包含一个或多个甚至一系列的概念组面,应该分析出主要的、有检索意义的主题概念。有些课题的概念组面较易确定,有些课题实质性的内容往往很难确定,需要从课题所属专业角度对其内容进行透彻的分析,在理解课题内容的基础上,提炼出能够确切反映课题内容的主题概念。对概
35、念复杂的课题,应明确组成课题内容的几个概念组面,并通过一定的逻辑组配形成一定的复合概念或概念关系来表达信息需求。充分分析已知线索,如信息名称、有关人名、机构名称、号码(分类号、专利号、标准号、报告号)等,有利于检索的进行。,构造检索表达式,构造检索式,就是用一定的组配关系把各个检索标识联接起来组成检索提问式,并表达各种复杂的概念关系,以准确地表达信息需求。在构造检索式时要注意各种逻辑运算符、位置算符、截词符等的使用方法,如位置算符的松紧程度及先后次序,还要考虑各个检索项的限定要求及输入的次序,根据反馈信息对检索式进行调整等。51,检索式的构建策略,(1)最专指面优先,或者称为最少记录面优先,是
36、指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献相当少,那么其他概念组面就不再加到检索式中去;如果检索命中的文献较多,就把其他概念组面加到检索提问式中,以提高查准率。(2)引文珠形增长策略这种策略从直接检索课题中最专指的概念组面开始,以便至少检出一篇命中文献。检索人员从这一条或数条记录中找到新的规范词或自由词,补充到检索式中去,然后再检索就能重新查出更多的文献。,检索式的构建策略2,(3)逐次分馏策略逐次分馏是指先确定一个较大的、范围较广的初始文献集,然后逐步提高检索式的专指度,从而逐步缩小命中文献集,直到得到数量适宜、用户满意的文献集合为止。(4)积木型概念组面策略积木型概念
37、组面策略是把检索课题分解成若干个概念组面,并分别先对这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有概念组面的子检索式连接起来构成一个总检索式。,2.7 检索效果的评价,检索效果(Retrieval Effectiveness),就是利用检索系统进行检索服务时所获得的有效结果。检索效果包括技术效果和经济效果,技术效果是由检索系统完成其功能的能力确定,主要指系统的性能和服务质量;经济效果是由完成这些功能的价值确定,主要指检索系统服务的成本和时间。评价系统的检索效果,目的是为了准确地掌握系统的各种性能
38、和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,更好地满足用户信息检索的需求。,2.7.1 检索效果的评价指标,克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了6项检索系统性能的评价指标,它们是收录范围、查全率、查准率、响应时间、用户负担和输出形式。,(1)查全率,查全率(recall factor)是指检出的相关文献量与检索系统中相关文献总量的百分比,是衡量信息检索系统检出相关文献能力的尺度,可用下式表示:查全率=检出的相关文献总量/系统中的相关文献总量 100%即 R=b/a*100%设R为查全率,P查准率,M表示漏检率、N表示误检率,
39、m为检出文献总量,a为检索系统中的相关文献总量,b为检出的相关文献总量。例如,要利用某个检索系统查某课题。假设在该系统数据库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。,(2)查准率,查准率(Pertinency factor)是指检出的相关文献量与检出文献总量的百分比,是衡量信息检索系统精确度的尺度,可用下式表示:查准率=检出的相关文献总量/检出文献总量 100%即 P=b/m*100%例如,如果检出的文献总篇数为50篇,经审查确定其中与课题相关的文献只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。,检索效果2,检索系统的响应时间是指从发出检索
40、提问到获得检索结果平均消耗的时间。主要包括:用户请求到服务器的传送时间;服务器处理请求的时间;服务器的答复到用户端的传送时间;用户端计算机处理服务器传来信息的时间。,检索效果3,收录范围,是指一个系统收录的文献是否齐全,包括专业范围、语种、年份与文献类型等,这是提高查全率的前提基础。用户负担是指用户为检索课题所投入的费用。检索结果的输出形式,是指用户获得的文献信息类型(题录、文摘还是全文)以及获得方式(脱机打印、联机打印、下载、E-mail)等。,2.7.2查全率和查准率的互逆关系,有研究认为:在物理、技术科学信息检索范围内,P提高1将导致R降低3。在现代科技信息检索系统中,一般R为60-70
41、,P为40-50。,2.7.3 提高检索效果的措施,1.提高用户信息素质2.选择好的检索工具和系统3.优选检索词4.合理调整查全率和查准率 不同的检索课题对文献信息的需求不同,用户应根据课题的需要,适当调整查全率和查准率,优化检索策略,以达到最佳检索效果。,(1)提高查全率,提高查全率时,调整检索式的主要方法有:降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。减少AND组配,如删除某个不甚重要的概念组面(检索词)。多用OR组配,如选同义词、近义词等并以“OR”方式加入到检索式中。族性检索,如采用分类号检索。截词检索。放宽限制运算,如取消字段限制符,调松位置算符等。,(2)提高查准率,提高查准率时,调整检索式的主要方法有:提高检索词的专指度,增加或采用下位词和专指性较强的检索词。增加AND组配,用AND连接一些进步限定主题概念的相关检索项。减少OR组配。用逻辑非NOT来排除一些无关的检索项。加权检索。利用文献的外表特征进行限制,如限制文献类型、出版年代、语种、作者等。限制检索词出现的可检字段,如限定在篇名字段和叙词字段中进行检索。使用位置算符进行限制。,