信息检索技术ppt课件.ppt

上传人:牧羊曲112 文档编号:1314137 上传时间:2022-11-08 格式:PPT 页数:62 大小:3.59MB
返回 下载 相关 举报
信息检索技术ppt课件.ppt_第1页
第1页 / 共62页
信息检索技术ppt课件.ppt_第2页
第2页 / 共62页
信息检索技术ppt课件.ppt_第3页
第3页 / 共62页
信息检索技术ppt课件.ppt_第4页
第4页 / 共62页
信息检索技术ppt课件.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《信息检索技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索技术ppt课件.ppt(62页珍藏版)》请在三一办公上搜索。

1、第三节 信息检索技术 The Information Retrieval Technology,1.检索算符 2.检索策略 3.检索评价,第三节 信息检索技术,用一个关键词检索可能比较简单容易,但通常检索题目会用到不止一个关键词。下面就讲一下有效组合多个检索概念的方法和技巧。 数据库是有高度的组织结构性的,因此,要有效地进行检索需用到一些特殊的技术。当你要用多个词表达你的检索意图时,检索词的输入必须通过数据库能够理解的方式才行。例如:互联网对青少年的影响,1.检索算符,首先列出相关的检索词:互联网、青少年、影响。要注意的是,通常名词比形容词、介词、代词更适合作为检索的主题词,你知道吗?有些没有

2、实际意义的虚词在检索中被称为禁用词(stopword),禁用词在检索时通常会被忽略掉;接下来试着把这些检索词组配起来:“互联网”和“青少年”和“影响” 常用到的连接词有AND(与)、OR(或)和NOT(非),下面的篇幅将向你展示连接词的用法,1.1布尔逻辑算符,布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索系统中最常用的一种检索方法,也称布尔检索。布尔逻辑算符通常包括以下三种:(1)逻辑“或”:(OR) 或“+”表示(2)逻辑“与”:(AND) 或“*”表示(3)逻辑“非”:(NOT) 或 “-”表示,(1)逻辑“与”(AND或*),逻

3、辑“与” (AND) 是用来组配具有相互交叉限定关系的检索概念。逻辑“与”有时也用“*”代替,其含义是检出的记录中同时含有“AND”前后两个检索词。如:查找有关“纳米”和“材料”方面的文献时,其检索式为:Nano AND MaterialsNano * Materials,当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记录中的某处。使用“AND”将缩小检索范围。 如:students AND Internet输入上面这个检索式,会找到关于students和internet同时出现的文章,只包含其中一个词的文章是

4、不会被检索到的。因此, 在连接不同概念的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多次。如: students AND Internet AND assignments有的中文数据库用“*”来代替AND,就象下面的这个例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认。如:学生 * 互联网,(2)逻辑“或”:用“OR”或“+”表示,在检索中,你也可以用逻辑“或”(OR)连接关键词。检索式(A OR B )可以检索到包含A或者B或者A和B同时出现的文献。OR最好用于针对一个概念的同义词检索。很显然,使用OR可以扩大检索范围。,例如Internet OR

5、 Web 使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或 Web的文献或Internet 与Web 同时出现的文献。也可以在一次搜索中多次使用OR:如:Internet OR Web OR online OR digital OR wired有的中文数据库在使用OR时需用“+”来代替:互联网 + 网络 + 在线 OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提高检索的查全率。如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌),(3)逻辑非:“no

6、t”或 “-”表示,NOT的含义是排除,意味着在检索结果中只出现其中的一个关键词而不应出现另一个关键词。例如: computer NOT software 输入上面这个检索式,会检索到有关computer的文章,但这些文章中不应包括和software相关的内容。,需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认.如:计算机 - 软件上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:A NOT

7、 B (或AB)表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。 如:查找“动物的乙肝病毒”的文献的检索式为:hepatitis B virus(乙肝病毒) not human(人类),图(a) 图(b) 图(c),1.2 截词算符( truncation ),截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用于英文检索。 截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。看看下面这些例子:输入wom?n 可以检出woman,wo

8、men输入comput* 可以检出computer,computus,computing,computative,computator等,Comput*er,截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常用 “?”或者“*”来表示。截词方式: 按截断的位置来分共有三种:后截断、中间截断、前截断;按截断的字符数量来分:有限截词(limited truncation)、无限截词(unlimited truncation)。平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许有限截词)。 (1)后截断后截断即前方一致检索,是最常用的检索技术。将截词符放在

9、一个词干的后边,以表示其后可有无限或有限个字符。,后截断无限截词不说明具体截去字符的数量。截词符是在一个词尾加一个 ? 号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截词通常用 ? 或 * 来表示把截词符放在字根的最后。如:behav?; 系统将找出 “behave, behaviour,behavioural”等等。 后截断有限截词说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n个。 如:smok? ;系统 将对smoke , smoky , smoked , smoker , smokes等进行检索。对于最多允许添

10、加一个字符的情况, 则用 ? ? 的形式表示。如:smok? ?;将只对 smoke , smoky进行检索。,(2)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间截断只允许有限截断。中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。中间截断主要用于英式和美式单词的不同拼写方式,以及有些词在某个元音位置上出现单复数不同。如:organi?ation将对organisation和organization进行检索。,如:wom?n 系统将找出 woman , women“;中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以。 (3)前截断 前截断 用? 或

11、 *来表示把截词符放在字根的左边。如:*Computer,系统在检索时,索引词Microcomputer算命中,1.3位置算符,位置算符:表示其连接的两个检索词之间的位置关系(1) (W)与(nW)算符W是with的缩写。(W) 表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class命中的记录中出现的匹配词可能有:high class 或high-class。(nW):与(W)类似, 只是它允许插词,插词量小于或等于n个。,如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular

12、rate sensor , silicon-based chemical sensor等等。 (2)(N)与(nN)算符 (N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词。(nN): (nN)中的n表示允许插词量少于或等于n个。如:internet(1N)accessing命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等。,(3)(L)算符 (L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关系,前者为主,后者为副,可用来连接主、副标题词。它们

13、出现在记录的规范词字段。 如:television(L)high definition命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-High definition。(4)(S)算符 (S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语。字段不限,词序不限。 如:silicon(S)sensor 命中记录出现的匹配情况如: A vacuum magnetic sensor(VMS) using a silicon field emitter tip was fabricated and

14、demonstrated.,(5)(F) 算符(F): F是Field 的缩写。(F)表示其连接的两个检索词必须出现在 同一字段中,字段不限,词序不限。 如:pollution(F)control 可检出: control and management of industrial pollution不同算符的比较:两个词由不同的算符连接组成不同的检索式,其检索结果显然不同。比如同样两个词用关系较紧的算符其检索结果的记录一定比用关系较松的算符检出的记录数少。以下用electron和device 两词为例,在Ei Compendex数据库检索,其结果如下表所示。,位置算符按照限制程度的大小排序为:

15、(W)、(nW)最强,(N)、(nN)次之,(S)再次之,(F)最弱。,2.检索策略,执行一个课题的检索是有过程、分步来完成的,检索步骤的科学安排称为检索策略(search strategy) ,它是为实现检索目标而制定的全盘计划或方案。,信息检索的基本流程,分析检索要求,选择数据库,确定检索词,构成检索式,提交计算机,结果显示,完成,满意,修改检索式,不满意,检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低或成败的关键。 要明确以下问题:分析课题的主要内容及其所涉及的学科范围。所需文献的类型、语种、年代及文献量的范围。对查新

16、、查准、查全的指标要求,及其侧重。,2.1 检索课题分析,2.2 选择相关信息资源,通过检索需求的目的的分析,有针对性的选择相关信息源,主要确定以下几个方面:(1)是否要对所有与检索课题相关的资源进行检索,如果是,则不但要考虑检索一次文献和二次文献的数据库,而且对于网上其它资源;如搜索引擎、学科导航专题BBS等也要进行查询。(2)究竟要选择哪些信息源;如查找生物学方面的信息,则可能会涉及医学方面的信息资源,所以要考虑跨学科的问题。(3)选择哪些语种的信息源:是中文还是西文?还是两者兼顾。,(4)信息源覆盖的年限是否符合要求。大多数数字信息资源覆盖的年限都是近20年的内容,如果课题需要更早的资料

17、,就要考虑手工检索的问题;还有些数据库由于更新速度的原因,无法提供最新的信息,也是要考虑的因素,考虑用其它相关资源来予以补充。(5)信息源的特点及针对性如何:要了解自己已选信息资源的查询特点,是否与自己的信息需求相吻合。例如要查询某个机构或公司的网页,使用搜索引擎是最好的;查询新闻时事,可登录到一些新闻网站;查找学位论文,就一定要使用学位论文数据库或直接登录到大学的网站上查询或申请提供相关的服务。,2.3 检索字段和限制符 (1)检索字段数据库可供检索字段有二种,一种是反映内容的主题字段,如:题名、叙词、 标识词和文摘等。字段检索时,使用后缀符如:如: /TI 表示Title(篇名) /AB

18、表示Abstract(文摘) /DE 表示Descriptor(叙词,规范词)例如:electron/ti 表示electron 一词须出现在篇名字段; electron/ti,ab 表示electron 一词须出现在篇名或文摘字段。,后缀代码(suffix code),对应基本索引(basic index),反映文献的主题内容,将字段代码放在检索词之后,并用“/”号连接。 另一种则是反映形式特征的检索字段,如:作者、文献类型、语种、出版时间等。 前缀代码(prefix code),往往是用于表达文献外部特征的字段,即一些辅助性检索字段,将字段代码放在检索词之前,用号连接。 如:AN=EIP9

19、8124488325 (AN:Abstract Number)文摘号 AU=LIU,LITIAN (AU:Author)作者 BN=0-8155-0963-4 (BN:ISBN)国际标准书号 CD=19880520 (CD:Conference Date)会议召开日期 AU=Salton? AND PY=199? 表示查找Salton所写的,并且是1990年后发表的所有文献。,(2)限制符 在一些检索系统中,提供一类表示文献类型、文种、出版时间等的限制符号,放在检索式的右边,起到约束检索结果的效果。 限制符的使用和字段检索一样,也要遵循所选检索系统和数据库的规定。 如在DIALOG系统中: /

20、ENG -要求在英语出版物中检索 /NONENG-要求在非英语出版物中检索 /1998:2000-要求在1998-2000年的出版物中检索 Chess/PAT-表示检索结果只要chess这一主题的专利文献。,2.4)检索式的制定 检索式 是检索策略的具体体现,它用检索算符将检索词组合起来,并正确表达检索词之间的逻辑关系和位置关系。检索式的好坏决定了检索质量。 检索词可以是一个单元词、表达单一的概念;如:Computer;也可以是一个或多个词组,表达多个概念。例如:Computer Memory Test 等等。检索词可由用户提出,也可在数据库的受控词表(主题词、分类表等)中选择。在人工检索语言

21、和自然检索语言并用的数据库中,最好先浏览一下主题词表、叙词表和分类表,两者并用,从而保证查全查准。,检索式在检索中可一次完成,也可分多步完成。 对一个课题,检索式的表达可能有多种形式,有各种选择、组配和描述、限定等方式,这些关系通过算符来体现。例如检索课题为:计算机内存管理机制分析 其检索式为:(Memory management) AND mechanism AND ( analysis OR analyze)在这个检索式中,包含了4个概念,这4个概念用单元词或词组表示,将这4个概念用布尔逻辑算符AND 和OR以及括号()连接起来,即构成一个检索式。,检索式可以表达复杂的检索提问,将各个检索

22、点、不同属性值、不同的关系统统组织在一个检索式中,完成检索任务。 拟好检索式后,就要选择检索途径或检索字段。 不同的数据库其检索式的表达略有不同,如要求在题名里检索:Artificial neural networks AND forecastingEI数据库中的检索式为:(Artificial neural networks) WN TI) AND (forecasting) WN TI) SCI数据库中的检索式为: TI =(Artificial neural networks) AND TI =(forecasting)故在检索前应有所了解。以免影响检索质量和检索效果。,在EI数据库的检

23、索结果中的检索式,检索式,例如:用Google 高级搜索在网页标题中查找有关“全球”和“金融危机”的网页的检索式:,检索式,2.5 检索策略的调整检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题的要求。例如:如果检出的篇数过多,而且不相关文献所占比例很大,或检出的文献太少,有时甚至为零,这时就需要调整检索策略。 所谓调整检索策略就是根据反馈的检索结果,反复对检索式教学调整,直至得到满意的结果。放宽检索条件,增加检索结果:如果遇到系统输出篇数过少的原因有:检索词拼写错误检索词过于冷僻具体或遗漏了重要的同义词或隐含概念位置算符、字段算符和逻辑与(AND)算符使用过多没有使用截词算符,

24、对检索数量较少的结果,可以继续扩检,提高查全率。调整检索策略的方法有:在检索词方面,检查检索词的拼写,扩展检索概念,增加使用同义词和近义词;在策略调整方面,减少位置算符、字段算符和逻辑与(AND)算符,在适当的地方增加使用截词算符。取消或放宽一些检索限定,例如将检索年限放宽一些,将“题名”检索改为“文摘”或“全文”检索,还可将下位词改为上位词等。,例如:要求在INSPEC数据库中检索“TITLE”(题名)字段中同时包含 network payment(网络支付)和security(安全)的文献;检索年代范围为:20102011年,检索结果:1条,扩大检索条件由于检索结果太少,所以应扩大检索条件

25、,将上述例子中的检索字段由“题名”更改为 “Abstract”(文摘);检索年代范围扩大为:20052011年,检索结果:188条(由此可见,经过调整检索策略后,检索结果从1条增加为188条,大大的改善了检索结果),缩窄检索条件: 针对系统输出不相关文献篇数过多的情况,应分析是否可能是如下原因造成的: 检索词方面,是否选用了多义性的检索词,截词是否截得过短策略调整方面是否在使用逻辑与(AND)的场合使用了逻辑或(OR)对检索数量过多的检索结果,考虑进行缩检,提高查准率,具体方法与上述“扩检”相反。 减少同义词或同族相关词,增加限制概念,用逻辑与(AND)将它们连接起来; 使用字段限制和适当的位

26、置算符; 使用逻辑非(NOT)算符排除无关的概念以及减少检索年限等措施。,检索实例(检索式及检索策略的调整)用户要求在EI compendex Web(美国工程索引)数据库中检索 “射频识别技术在现代图书馆的应用”的期刊文献。检索年代范围为:20052008年;检索字段:文摘在检索出来的期刊文献中,有无收录来自香港中文大学作者的文献,有几篇?,检索课题分析:要求检索的数据库: EI compendex Web检索的关键词:射频识别技术(RFID OR Radio Frequency identification 使用同义词);图书馆(library);检索字段:文摘(Abstract)检索时间

27、范围:20052008文献类型:期刊检索式: (RFID OR Radio Frequency identification) and library,进入EI 数据库主页,检索结果,有无收录作者为香港中文大学的文献 (Chinese University of hongkong),2.6检索结果的输出 检索结果的输出有多种,通常数据库输出的方式如下: 输出方式包括显示、复制、打印、下载、E-mail等。 输出形式包括目录、题录、文摘、全文或自定义形式。输出范围可以是全部检索结果,或部分检索结果。,3.1检索结果的评价 检索完成后,要对检索结果进行审核;分析评价检索结果是否理想,以及计算机信息

28、检索系统的效能如何,最常用的指标有查全率和查准率。查全率: 即检出的相关文献数与系统内的相关文献总数之比,又称检全率、命中率。可由下式表示:查全率=(检出相关文献数/文献库内相关文献总数100%,3.检索结果评价和原文获取,查准率:是指检出的相关文献数与检出的文献总数之比。又称检准率、相关率查准率=(检出相关文献数/检出的文献总数)100%影响查全率和查准率的重要因素: 一般而言,检索工具标引的深度越大,查全率越高。查准率主要取决于检索语言的专指性和拟定的检索策略。若检索策略定的较宽,参与组配的检索词较少,主题词的概念比用户的信息需求广泛,则查准率降低,查全率增高,两者通常呈互逆相关关系。,3

29、.2原文获取由于二次文献检索系统的大量涌现与应用,特别是其数据库的检索利用,对其所揭示的一次文献需求的压力大大增加。如何发现并能快速的获取到原文,当前有以下几种途径:1.1馆际互借与全文传递随着信息社会的不断发展,世界上没有任何一个图书馆或文献信息中心的文献收藏能满足所有读者的需求的。因此,用户如想在一个图书馆或文献信息中心得到所有的全文文献是不可能的,所以,馆际合作、文献信息资源共享的要求日益迫切,馆际互借与文献传递就是资源共享的很好方式。,馆际互借是指图书馆与图书馆之间的书、刊等文献信息资源的共享合作。它是图书馆和文献信息中心开放服务、提高服务质量的一项主要措施。国内外图书馆之间的馆际互借

30、,为全球文献信息资源共享提供了有力的条件。 文献传递(Document Delivery,DD),是利用各种通信手段,从各种文献信息服务中心获取文献资料的一种模式。电子邮件、传真等都能够实现文献传递服务。1.2 联机检索中心提供全文信息检索国际联机检索系统一般功能强大,可直接为用户提供期刊、,会议录、标准和专利等原文获取服务。例如:DIALOG国际联机检索系统利用互联网可向用户提供网上电子订单的传递,再由有关文献服务中心直接想用户传递原文,传递方式可由用户根据价格、传递速度、类型等因素来决定。但这种方法由于成本较高,使用该服务的读者不多。有些服务中心除了支持用户的联机数据库检索外,还提供成员馆

31、的联合目录或各馆的独立目录OPAC。例如:美国俄亥俄学院图书馆中心( OCLC ),目的在于开发计算机系统使该州的学术机构降低成本分享资源。目前它为世界上 84 个国家和地区的 45,402 个各式各样类型的图书馆服务。,俄亥俄州80多个大学组成的OHIO-LINK,在显示各馆馆藏目录的同时,用户可在检索终端发出馆际互借的请求。一旦这个指令被执行,用户在23天内就可得到所要的文献资料。这是一种无须中介的用户自我服务方式,在美国国内的服务一般是非盈利的,故深受读者的欢迎。1.3网络环境下图书馆区域合作在网络环境下,数字图书馆的联网是馆际合作得到深入的发展,许多地区也成立了区域图书馆联盟,例如:(

32、1)科技部国家科技图书文献中心 国家科技图书文献中心(NSTL)是根据国务院领导的批示于2000年6月12日组建的一个虚拟的科技文献信息服务机构,成员单位包括中国科学院文献情报中心工程技术图书馆(中国科学技术信息研究所、,机械工业信息研究院、冶金工业信息标准研究院、中国化工信息中心)、中国农业科学院图书馆、中国医学科学院图书馆。网上共建单位包括中国标准化研究院和中国计量科学研究院。中心设办公室,负责科技文献信息资源共建共享工作的组织、协调与管理。文献服务是NSTL的一个主要服务项目。具体内容包括:文献检索、全文提供、网络版全文、目次浏览、目录查询等。非注册用户可以免费获得除全文提供以外的各项服

33、务,注册用户同时可以获得全文提供服务。 全文提供服务是在文献检索的基础上延伸的一项服务内容,根据用户的请求,以信函、电子邮件、传真等方式提供全文复印件。此项服务是收费服务项目,要求用户注册并支付预付款。网络版全文服务提供NSTL购买的网络版全文期刊的免费浏览、阅读和下载。,国家科技图书文献中心(NSTL),(2)教育部CALIS馆际互借与文献传递系统是CALIS(中国高等教育文献保障系统)公共服务软件系统的重要组成部分。使用本系统后读者可以通过文献传递的方式获取CALIS文献传递网服务馆丰富的文献收藏。 CALIS馆际互借与文献传递系统网址:http:/202.119.47.18/gateway/,教育部CALIS馆际互借与文献传递系统,思考题,1.检索算符主要有哪些?2.什么是检索式?举例说明3.如果想提高检索文献的查全率,应采用何种逻辑算符?如想提高检索文献的查全率呢?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号