文献检索技术ppt课件.ppt

上传人:小飞机 文档编号:3051967 上传时间:2023-03-10 格式:PPT 页数:37 大小:282KB
返回 下载 相关 举报
文献检索技术ppt课件.ppt_第1页
第1页 / 共37页
文献检索技术ppt课件.ppt_第2页
第2页 / 共37页
文献检索技术ppt课件.ppt_第3页
第3页 / 共37页
文献检索技术ppt课件.ppt_第4页
第4页 / 共37页
文献检索技术ppt课件.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《文献检索技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《文献检索技术ppt课件.ppt(37页珍藏版)》请在三一办公上搜索。

1、一、布尔逻辑检索技术,在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。,1 逻辑“与”,含义:检出的记录必须同时含有所有的检索词。基本作用:一种用于交叉概念或限定关系的组配,可以缩小检索范围,有利于提高检索的专指性。用and 或*表示例如:查找同时含有概念A 和概念B 的文献,可表 示为:“A and B”或“A*B”,2 逻辑“或”,含义:检出的记录中,至少含有两个检索词中的一个。基本作用

2、:用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。可以避免了命中文献的重复出现。用OR 或“+”表示例如:检索含有检索项A 或检索项B 的文献,可表 示为:“A OR B”或“A+B”,3 逻辑“非”,含义:排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。基本作用:用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。用“NOT”或“-”表示,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。例如:在含有概念A 的文献集合中,排除同时含有 概念B 的文献,可表示为:“A NOT B”或“A-B”。,4 运算优先级,

3、运算优选级顺序为(),NOT,OR,AND;可以用括号改变它们之间的运算顺序。通常在有括号的情况下,括号内的逻辑运算先执行,有多层括号时,先执行最内层的括号。例如:(A OR D)AND B,表示先执行“A OR D”的 检索,再与B进行AND运算。,5 注意事项,1)有的检索工具以符号形象地表达布尔检索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索工具的高级检索完全用表格和文字来表达布尔关系,如,Excite以“必须包括(MUST

4、contain)”表示逻辑与,用“一定不含”(MUST NOT contain)表示逻辑非。有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。,2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多。OR逻辑 有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。NOT逻辑 在检索逻辑中使用NOT,能排除含有由NOT指定的检

5、索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为,如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。,6 小结,检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。,示例:使用布尔逻辑运算符,表明查询结果中必须同时包含intelligent robot和control,表明查询结果中至少包

6、含两个检索词中的任意一个,intelligent robot或control,表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容,Intelligent robot and control(intelligent robot*control),Intelligent robot or control(intelligent robot+control),Intelligent robot not control(intelligent robot-control),注:英文数据库通常用字母,中文数据库要用符号。,二、位置检索(邻近检索)技术,表明两或多

7、个检索词之间关系的符号。适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。可以看成特殊功能的AND算符。AND算符不限制两个检索词的位置和出现顺序。例如:communication AND satellite 命中的文献可能有 communication satellite;satellite communication;communicaticn devices for satellites;communicaticn links without satellites;位置算符可以改进AND算符的这种不足,它是特殊功能的AND算符。按照两个检索词出现的顺序和距离,可以有多种位置算符,而

8、且对同一位置算符,检索系统不同,规定的位置算符也不同。,1)“(W)”含义:“(W)”算符中的W含义为“With”。表示其两侧的检索词必须紧密相连,除开空格和标点号外,不得插入其他词或字母,两词的词序不可颠倒。其简略形式为()。例如:communication(W)satellite communication()satellite 两者相同,2)“(nw)”“(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。例如:communication(2W)satellite 则会检出 communication satellite commu

9、nication though satellite communication on the satellite,3)“(N)”含义:“(N)”中的N含义为“Near”。表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。,4)“(nN)”含义:“(nN)”是“(N)”算符的变形,不同之处为允许两词间插入最多为n个其他词,包括实词和系统禁用词。例如:COTTON(2N)PROCESSING 则命中:Cotton processing;processing of cotton;processing of Egyptian cotton,5)“(F)”同

10、字段检索 含义:“(F)”算符中F的含义为“Field”。这个算符表示其两侧的检索词必须在同一个词段中出现,(例如;同在题目字段或文摘字段)词序不限,中间可插任意检索词项。例如:POLLUTION(F)CONTRON 可命中 Contron and management of industrial pollution 同在题目中(F)邻近算符与AND布尔逻辑主要区别在于:(F)使两个检索项在同一字段,AND布尔逻辑中两个检索词会发生在不同字段中。,6)“(s)”同句检索含义:“(s)”算符中的S含义为“Sentence”。这个算符表示其两侧的检索词必须在同一自然句子(子字段)中出现,两词的词序

11、可以颠倒。放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。,以上介绍的各种位置算符,按照限制程度的大小,(W)、(nW)最强,(N)、(nN)次之,(S)再次之。当(nN)的n 10时,其作用已经相当于(S)。,三、截词检索技术,含义:用截断的词(词的片段)的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。检索者将检索词在合适的地方截断,然后截出的片断进行检索。,原因:由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义

12、相近的词等等。为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。,截词的方式,(1)按截断的字符数量来分:有限截断和无限截断 有限截断:有具体截去的字符数。无限截断:不指明具体截去的字符数。(2)按截断的位置区分:后截断、前截断以及中间截断。(3)截断常使用截断符号,各检索系统所使用的截断符号有所不同,常用的符号有“?”,“”,“”以及“*”。以下举例中用“?”来表示有限截断,用“*”表示无限截断。注意:不同的数据库所用的截词符不一样,使用应先查 一下各数据库的帮助加以确认。,1 后方截词(前方一致或右截

13、断),含义:将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。(1)词尾的有限截断相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个“?”,常用来表示检索词的单复数变化。例如:用system?可以查出sytem 和systems 的文献。相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如:?表示两个字符,?表示三个字符,以此类推。,(2)词尾的无限截断,相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找出含有相同字符串的所有检索词。例如:comput?可查出compute,computer

14、,computing,computation,computerisation 等。,(3)后截词主要使用在如下4个方面,词的单复数,如book?,potato?;年代,如198?(80年代),19?(20世纪);作者,如用Lancaster*可检出所有姓Lancaster的作者;同根词,如用biolog*,可检出biological、biologist、biology等同根词。,注意,(1)有限截断比较精确,只检索出用户需要的词汇;(2)使用时无限截断必须注意:词干不要太短,否则会检出许多无关的文献;(3)应尽量选用不会引起误检的截断词。,2 中间截词(中间屏蔽),将提问字符串中间的字符用符号

15、代替,主要用于英式美式不同拼法的英文单词,或单复数不同的单词。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。例如:“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。检索时为防止漏检可用中间屏蔽的检索方法:m?n wom?n organi?ation defen?e 当然使用中间屏蔽的方法也要注意是否可能误检其它词汇的 文献。,3 前截断(后方一致或左截断),前截断检索常用于复合词。例如:?computer表示minicomputer,microcomputers等。前截断与后截断

16、也可以组合起来使用。例如:*chemi*可以检出下列词汇 chemical、chemistry、chemist、eletrochemical、electrochemistry、physicochemistry、thermochemistry等。,四、字段限定检索,含义:限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。(规定的字段范围内出现的信息方为命中信息的一种检索方法。)适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率。由于字段限制采用前缀和后缀的形式,又可称为前缀限制和后缀限制。,限制检索主要有两种方式:字段检索利用字段进行限制

17、,如题名、摘要、全文等 通常的字段限制范围的大小顺序是:题名关键词摘要全文二次检索在前一次检索的结果中进行另一概念的检索,通常数据库中可供检索的字段分为主题字段和非主题字段。主题字段:题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段:作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。注意:各个检索系统所设立的字段是互不相同的,即使使用同一字段,也可能采用不同的字段代码,在进行字段检索时,应事先参阅系统及有关数据库的说明。,实例:字段限定在

18、DIALOG联机检索系统中应用,1)基本字段限制 含义:基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定字段的检索词后加上后缀运算符“/”和段码。例如:OPTICAL/TI AND FIBER/TI 指在题目字段中含这两个词的记录。字段段码可以多个连用,中间加“,”例如:FIB?/TI,DE 指在题目和叙词中查找“fib”为词干的所有记录。,2)辅助字段限制 除基本字段以外的可检索字段都可成为辅助字段。辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。例如:AU=“Robert,S”在作者字段中含人名为Rob

19、ert,S的记录。CS=作者单位字段;LA=语言字段,例如LA=ENGLISH 英语字段 JN=刊物名称字段;PY=年份字段 例如PY=1999,字段限定符in 对某一指定数据项进行检索 如:computer in TI=用于限定性字段的检索 如:LA=ENGLISH通配符*代替任意一个或多个字符 如:comput*in AB范围运算=,=如:PY=1997;PY1996;PY=1994,五、扩检与缩检,1)扩检含义:指初始设定的检索范围太小,命中文献不多,需扩大检索范围的方法。扩检方法:概念的扩大 范围的扩大 增加同义词 年代的扩大,扩大检索范围,提高查全率的技术方法:,(1)考虑同义词或近义词(使用布尔逻辑符or连接)(2)选择较大检索范围的字段如摘要(3)使用截词符(4)使用上位词(如飞行器航天飞机载人航天飞机),2)缩检(又称二次检索)含义:缩检是指开始的检索范围太大,命中文献太多,或查准率太低的一个方法。缩检方法:概念的缩小 范围的限定 年代的减少 核心概念的限定 语种的限定 特定期刊的限定。,缩小检索范围,提高查准率的技术方法:,(1)使用and、not等限制检索范围(2)使用位置算符(3)选择检索范围较小的字段(4)使用二次检索(5)使用下位词(6)使用精确检索,如对于固定短语来说可用“”引起来,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号