《计算机信息检索基本原理及检索技术.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基本原理及检索技术.ppt(25页珍藏版)》请在三一办公上搜索。
1、第三章 计算机信息检索,第二节 计算机信息检索基本原理及 检索技术,一、计算机信息检索原理,计算机将输入机检系统的用户提问标识(检索词)与已存储在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。检索提问字符串匹配数据库中特征标识字符串。,二、计算机信息检索技术,计算机检索时采用的相关技术,主要有布尔检索、词位检索、截词检索、限制检索。,布尔检索,利用布尔逻辑算符对检索词或检索代码进行组配形成检索式,以此检索式作为匹配依据,进行检索。布尔检索逻辑算符及其运算含义:逻辑或(OR,+)逻辑与(AND,*)逻辑非(NOT,-),逻辑或(OR,+
2、),表示它所连接的两个检索词只有其中任何一个出现在结果中就满足检索条件,即对于检索式“A OR B”来说,数据库中的文献凡含有检索词A、或含有检索词B、或同时含有检索词A和B的均为命中文献。如COMPUTER AND LAW,逻辑与(AND,*),表示它所连接的两个检索词必须同时出现在结果中才满足检索条件,即对于检索式“A AND B”来说,数据库中同时含有检索词A和检索词B的文献才算命中文献。【例】CAR OR TRUCK,逻辑非(NOT,-),表示它所连接的两个检索词应该包含的一个检索词而不包含第二个检索词才满足检索条件,即即对于检索式“A NOT B”来说,数据库中凡含有检索词A而不含有
3、检索词B的文献才算命中文献。【例】图书馆 NOT 公共图书馆,逻辑或检索范围扩大,提高检索结果数量,保证有较高的查全率。逻辑与检索结果范围缩小,增强检索的专指性,保证有较高的查准率。逻辑非与逻辑与的作用类似,有缩小检索范围,提高检索准确性的作用。,截词检索,截词是指检索者将检索词汇在他认为合适的地方截断。截词检索是使用被截断的词汇进行检索匹配,并认为凡满足这个词局部中所有字符(串)要求的记录,都为命中文献。因此,检索词的不变部分加上由截词符号(一般用*表示)所代表的任何变化形式所构成的词汇都是合法检索词。,截词检索基于:西方语言构词灵活,在词干上加上不同的前后缀,可派生出许多新词汇。词干相同,
4、派生出的词在基本含义上通常是一致的,形态的差别多半只是语法上的意义。正是这个原因,检索者如果不在检索式中列举出一个词的所有派生形式,检索时容易出现漏检。截词检索是防止这种类型漏检的有力手段,作为一种后控制措施,目前,大 多数检索系统都提供截词检索能力。,按截断的字符数量分:有限截断指要具体说明截去的字符数量无限截断指不具体说明截去多少个字符按截断位置分:后(右)截断、前(左)截断、中截断,后截断检索,将截词符号置放在一个字符串右方,以表示其右边的有限或无限个字符不影响该字符串的检索匹配。从检索匹配性质上讲,后截断检索属于“前方一致”检索。【例】检索式“Comput*”无限后截断检索,可检出词汇
5、有:Computing Computer Computerized,前截词检索,将截词符号置放在一个字符串左方,以表示其左边的有限个或无限个字符不影响该字符串的检索。从检索性质上讲,前截词检索是“后方一致检索”。【例】对于检索式“*magnetic”来说,能够检索出含有 magnetic electromagnetic(电磁的)paramagnetic(顺磁的)thermomagnetic(热磁的),中截词检索,将截词符号置放在一个检索词的中间,而不是左右两侧。仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。【例】organi?ation可检索出含有organisation和
6、organization的记录。Wom*n可检索出Woman、Women,截词检索具有隐含的“逻辑或(OR)”运算特性,检索式brows*等价于检索表达式:browse OR browser OR bowsers OR browsing OR不同类型的截词检索方法不仅能扩大检索范围,提高查全率,而且还可以减少检索词的输入量,简化检索步骤。,限制检索(字段检索),在检索系统中,通常提供一些约束检索结果的检索技术,以提高查准率,称为限制检索。限制检索的方式很多,其中最主要的限制检索技术是通过限制检索词在命中结果记录中出现的位置(主要是指记录的不同字段位置)来实现的,因此也称为“字段检索”。,主题字
7、段 标题(Title)、主题词(Controlled term)、关键词(Keyword)、文摘(Abstract)、分类号(Classification code)非主题字段 作者(Author)、作者工作单位(Author affiliation)、连续出版物编号(ISSN)、文献类型(Document)、语言(Language)、出版者(Publisher)等,工程索引(EI)数据库检索系统中的字段及字段代码,字段名称 字段代码 All fields ALL Author AU Subject/Title/Abstract KY Author affiliation AF Publish
8、er PN Language LA Abstract AB Title TI,【例】在EI中查找篇名中含有“robot”的相关文献,使用检索命令方式可在检索文本框中输入以下检索表达式:robot within TI 需要查找文摘中含有“北京大学”的相关 资料时,则可将检索式表达为:北京大学 wn AB within、wn是EI中规定的字段检索符号,TI、AB为字段代码。,限制检索的另一种常见的形式是“二次检索”,即用户可在检索结果中进行再次检索,使检索结果更加准确、专指性更强。,词位检索,词位检索是以数据库原始记录中的检索词之间特定位置关系为对象的运算,是针对自然语言文本中检索词之间特定位置关
9、系而进行的检索匹配技术,又称全文检索。词位检索特点是用一种特定的位置符来表达检索词与检索词之间的关系,并可以不受词表的限制直接使用自由词进行检索。,(1)邻位检索,常用位置逻辑算符有(以DIALOG系统为例介绍)(W)与(nW)算符 两词之间使用“W”,表示其相邻关系,即词与词之间不允许有其他词或字母插入,但允许有一空格或标点符号,且词序不能颠倒,具有较强的严密性。【例】Gas(W)Chormatograph表示检索结果 为Gas Chormatograph和Gas-Chormatograph形式的才为命中。,(nW)由(W)衍生而来,如果两词之间使用“nW”,表示两词间可插入n个词,但词序不
10、能颠倒。例如:Laser(1w)Printer表示检索结果中具有“Laser Printer”、“Laser Colour Printer”和“Laser and Printer”形式的均为命中记录。,(N)与(nN)算符 两词之间使用“N”,表示其相邻关系,即两词之间不能插入任何词,但两词词序可以颠倒。【例】Wastewater(N)Treatment表示检索结果中具有Wastewater Treatment和Treatment Wastewater形式的均为命中记录。(nN)除具备(N)算符的功能外,不同之处是允许两词之间可插入n个词。,(2)子字段和同字段检索,子字段检索使用的位置逻辑算符是“S”:两词之间使用“S”,表示两词必须同时出现在记录的同一子字段中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。同字段检索使用的位置逻辑算符是“F”:两词之间使用“F”,表示两词必须同时出 现在同一个字段中,词序可以变化。,