文献检索与利用教案2.ppt

上传人:sccc 文档编号:5399704 上传时间:2023-07-03 格式:PPT 页数:103 大小:9.49MB
返回 下载 相关 举报
文献检索与利用教案2.ppt_第1页
第1页 / 共103页
文献检索与利用教案2.ppt_第2页
第2页 / 共103页
文献检索与利用教案2.ppt_第3页
第3页 / 共103页
文献检索与利用教案2.ppt_第4页
第4页 / 共103页
文献检索与利用教案2.ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

《文献检索与利用教案2.ppt》由会员分享,可在线阅读,更多相关《文献检索与利用教案2.ppt(103页珍藏版)》请在三一办公上搜索。

1、2 网络信息检索基础知识,2.1 Internet 基础知识2.2 Internet提供的主要服务 2.3 长大网上图书馆 2.4 网络信息检索的基本技术2.5 计算机检索的基本原理2.6 检索效果的评价指标(在第八章中讲述),2.1 Internet 基础知识,Internet又称因特网,也称国际互联网,是全球计算机和计算机网络通过统一的网络通讯协议(TCP/IP协议)连接在一起的集合,计算机用户能够通过共享信息资源并互通信息。信息高速公路,它是由无数计算机通过通信设备相互连接而成的信息通信网。,2.1.1 Internet 发展历史,1、ARPA net的诞生 ARPA net 即美国国防

2、部的计算机网络,是Internet的先驱。20世纪60年代末期,美国兰德公司等开始试验基于离散控制和信息包交换技术的计算机网络。1968年美国国防部高级研究计划署(ARPA)开始资助这个研究项目并于1969 年秋建成具有四个节点的计算机网络-ARPA net。2、NSF net的出现 美国国家科学基金会(NSF)在1985年资助建立了连接五大超级计算机网络的计算机网络-NSF net3、现代Internet的产生 20世纪90年代。,2.1.2 Internet在中国,我国Internet技术的发展大致可分为三个阶段:第一个阶段为19871993年,一些科研部门开展了一些和Internet 联

3、网的国际科技合作连接,开通了Internet的国际电子邮件服务。第二个阶段从1994年开始,我国实现 了和Internet的TCP/IP连接,开通了Internet的全功能服务,从而使Internet在国内得到迅猛发展。,第三阶段是以Internet的商业化为标志。到 2000年止,国内已形成五大互联网络。(1)中国公用计算机互联网(China NET).由邮电部门经营管理,是我国规模最大,用户最多的ISP(即Internet服务提供商)。(2)中国科技技术网(CSTNET).(3)中国教育和科研计算机网(CERNET)由原国家教委主持建设(1994年开始建设)和管理,网络中心设在清华大学,并

4、在北京、上海、沈阳、广州、武汉、成都、南京、西安等八大城市设立了CERNET的地区网络中心。(4)中国金桥信息网(China GBN)是中国公用经济信息通信网。(5)中国联通公用计算机互联网(CNUNINET)是经国务院批准直接进行国际联网的经营网络,其拨号接入号码为“165”。,2.1.3 Internet的几个基本概念,1万维网(WWW)WWW是英文词组World Wide Web的缩写,简称3W或Web,中文名字叫万维网(万维网正是Wan Wei Wang的汉语拼音缩写,而且是一万个自由度的庞大坐标,正好影射无所不在的互联网,真是音形意兼备,这一中文叫法太完美了)。WWW 如同一本巨大的

5、书一样,也是由许多“页”组成的,只不过这些“页”分布在世界各地的我们称之为网站的服务器上,这种页面称之为网页,一般习惯把这些网站的首页称为主页。WWW把遍及全球的信息资源以网页的形式联系起来,这种联系被称为“超级链接”(Hyperlink).我们正是通过 点击这些“超级链接”来访问网站信息。,2TCP/IP 为了确保不同类型的计算机能协调工作,程序设计人员要使用标准的协议编写程序。所谓协议(Protocol)就是一组规划,其技术术语描述如何完成某件事情。TCP/IP是指一个完整的数据通信协议集,它是一族协议(100多个协议)的代名词。TCP/IP包括两个重要协议-传输控制协议TCP(Trans

6、mission Control Protocol)和网际互联协议IP(Internet Protocol),是维系Internet的基础,用于组织网络中和通信设备上的信息传输与交换。,3.IP地址与域名 在Internet中数以千万计的计算机设备连在一个计算机网络上,这些计算机在提供信息服务和通信时,是靠Internet的域名系统(DNS)和计算机的IP地址来相互识别的。,(1)IP地址 为了使加入Internet的计算机在通信时能够相互识别,网际互连IP协议规定每台正式入网的计算机都要有一个唯一的网络IP地址,这个地址由四节数字组成,每节数字的取值范围从0到 255,数字之间用点号“.”号隔

7、开,这四节数字又可细分为两个部分,一部分代表计算机网络的地址,另一部分代表网络中设备的地址。任何正式加入Internet的计算机都必须有一个全世界唯一的IP地址,就像电话局安装电话必须有唯一的电话号码一样。http:/10.203.1.13(图书馆),接入Internet的网络根据其规模大小可分为A、B、C三类。A类网络是大型网络,IP地址中的第一节表示网络地址,后三节表示网内主机地址,每个A 类网络可容纳1600多万台设备;B类网络可容纳6万多台设备,IP地址中的前两节表示网络地址,后两节表示网络主机地址;C类(小型)网络可容纳256台设备(其中:0代表本机网,255保留作网络广播,实际可容

8、纳254台设备),IP地址中的前三节表示网络地址,最后一节表示主机地址。,类别 IP地址第一组数 A 0127 B 128191 C 192223,(2)域名 用数字表达的IP地址有一个缺点就是不好记。为了解决IP地址难记的缺点,Internet采用了域名系统(Domain Name System,缩写为DNS)。根据DNS,加入Internet的每台计算机还可以有一个用英文字母表达的域名。例如:国家自然科学基金委员会与Internet联网的一台计算机的域名为:http:/其含义是:Web服务器,nsfc国家自然科学基金委员会(三级域名),gov政府机构(二级域名),cn中国(顶层域名)。,当

9、我们使用计算机的域名与Internet上的其它计算机建立通信联络时,Internet上的一种称为域名服务器的计算机,将自动完成从计算机域名到IP地址的转换。在最高层域名下,我国也将计算机网络的第二级域名分为两类:一类是按照网络所有者的性质分类的域名,如AC(科学院)、COM(商业机构)、GOV(政府机构)、ORG(社团组织)、EDU(教育机构)、INT(国际组织)、MIL(军事部门)和NET(网络服务机构)等;另一类是包括直辖市和各省(自治区)名称缩写的域名,如BJ(北京)、WH(武汉)、SH(上海)、AH(安徽)等。,4.统一资源定位符(URL)URL(Uniform Resource Lo

10、cator)是一种统一格式的Internet信息资源地址表达方法,它将Internet提供的各类服务统一编址,以便用户通过Web客户程序进行查询。URL在格式上可以分为以下三个基本部分:信息服务类型:/信息资源地址/文件路径例如 URL地址:http:/WWW/chuanyi 下的chuanyi.html。,5.超文本(Hypertext)人们把Hypertext译为“超文本”,它也是一种文本,只不过是一种非线性文本。通常我们使用的文本是线性文本,即从上到下,从左到右排列的文本。而超文本的内容是按照超级链接来组织的。在超文本中,如果读者需要更多有关某一个主题的信息,那么读者就可以很快地通过鼠标

11、单击超级链接点,来跳转到其它Web或同一页的不同位置。,6.超文本标记语言(HTML)在Hypertext文件经过HTML(Hyper Text Markup Language)的描述后不但文字内容本身有特殊的排版效果,更重要的是它改变以往平面文档的浏览方式,文档上的每一点,每一张图片都可以指向一个地方即存在链接功能。,2.1.4 Internet的接入方式1、拨号入网:要求有电话线、计算机、调制调解器(Modem)和相应的软件。Modem的工作原理就是对计算机输入/输出的信号进行调制/调解,便于信息在通信中传递。2、通过局域网入网:用户计算机通过光纤电缆连接到一个与Internet相连的局域

12、网(LAN)上。要求配备一块网络适配器以及安装相应的驱动程序,并且必须安装TCP/IP通信协议。,2.2 Internet提供的主要服务,2.2.1 电子邮件服务 Internet的电子邮件(E-mail)服务是一种通过计算机网络与其它用户进行联系的现代化通信手段。软件是Outlook Express。,2.2.2 远程登录服务(Telnet)Internet用户的远程登录是在网络通信协议Telnet的支持下,使自己的计算机暂时成为远程计算机仿真终端的过程。要在远程计算机上登录,首先应给出远程计算机的域名或IP地址。另外还必须有相应的账号和口令。一旦登录成功,用户便可实时使用远程计算机对外开放

13、的功能和资源。许多大学图书馆都通过Telnet对外提供联机检索服务。网上拷贝,则还需要FTP。FTP与Telnet类似,也是一种实时的联机服务。在进行工作时,用户首先要登录到对方的计算机上,与远程登录不同的是,登录后,用户只能进行与文件搜索和文件传送等有关的操作。即网上拷贝和从本地机将文件复制传输到远程主机(上载upload)。ftp:/10.203.1.233:90/,2.2.3 网络新闻服务(Network News)网络新闻通常又称为Net News,它是具有共同爱好的Internet用户相互交换意见的一种无形交流系统,它相当于一个全球范围的电子公告牌系统。志趣相同的用户借助网络上一些被

14、称为新闻服务器的计算机展开各种类型的专题讨论。,2.2.4 WWW信息服务WWW服务是一种基于超文本的多媒体信息服务。它的工作模式是:在Internet上的一些称为Web服务器的计算机上运行着Web服务程序,它们是信息的提供者,常常被人们称为Web网站。同时在用户的计算机上运行着各式各样的Web客户端浏览器(Browser)程序,它们是信息的读取者,帮助用户完成信息查询。,2.2.5 Gopher服务“北美地鼠”Gopher是一种基于多级菜单的交互式检索工具和信息浏览方法。最初是美国明尼苏达大学为了引导未受过培训的学生进行信息查询而开发的。Gopher将Internet上的信息组织成一种菜单式

15、的索引,可方便地通过分类方式查询到不同类型的信息资源。,网络信息资源的类型:,联机数据库联机馆藏目录电子图书电子期刊电子报纸软件与游戏教育培训信息动态性信息(如BBS、广告、网络新闻等),电子商务介绍,电子商务就是通过电子信息技术,网络互联技术和现代通(信)讯技术,使得交易涉及的各当事人借助电子方式联系,而无需依靠纸面文件、单据的传输,实现整个交易过程的电子化。,2.3 长大网上图书馆,长大图书馆主页的网址是 http:/,登录网上图书馆输入读者证号和密码初次登录时要注册,初始密码为123,初始密码:123,初次登录时进行注册,初始密码为123点击本馆读者注册,输入注册信息,点击确认增加,注册

16、成功后返回登录,登录进入,登录进入,权限查询 在这里你可以查看你目前 在图书馆所享受的服务,借阅查询在这里你可以查看你在图书馆 当前的借阅、预约情况,借阅史查询在这里你可以查看你在图书馆 以往的的借阅、预约情况,财经查询在这里你可以查看你在图书馆 发生的各类财经信息,感兴趣新书在这里你可以浏览到 你感兴趣的新书,书目查询 在这里你可以查询图书馆的馆藏书目信息,并可以预约想要借阅的书,中国:走向成功之路:建设有中国特色社会主义的思想历程 魏新生著 郑州:河南人民出版社,1994 360页 CNY7.80 D6-51/2:1 详细信息,公共书目(OPAC)查询,OPAC 是 Online Publ

17、ic Access Catalogue 的缩写,即联机公共查询目录。读者可通过 OPAC 检索利用我馆的馆藏文献资源。OPAC 也是网络上的公共资源,读者利用 OPAC 也可检索国内外其它图书馆的馆藏资源。同样,凡互联网用户利用 OPAC 也可检索我馆的文献资源。,长大图书馆数据库资源 http:/,2.4 网络信息检索的基本技术,2.4.1 WWW信息检索WWW信息检索的主要工具是搜索引擎,搜索引擎由以下三个部分组成:(1)搜索软件-网页搜索工具 Spider(蜘蛛)或Worm(虫、蠕虫)或robot(机器人),在Internet网上搜索网页信息,并把它们带回搜索引擎。(2)索引软件-将信息

18、进行分类索引建立网页数据库。(3)检索软件-通过Web服务器端软件,为用户提供浏览器界面下的信息查询。搜索引擎按语种可分为中文和西文两种。,中文搜索引擎:搜狐 http:/新浪 http:/网易 http:/雅虎中文 http:/网典 http:/http:/搜索客 http:/百度 http:/天网 http:/北极星 http:/w常青藤 http:/悠游 http:/,西文搜索引擎:http:/(中文)http:/http:/http:/http:/http:/http:/http:/,搜索引擎的检索方式有分类浏览和关键词检索两种:,分类浏览是采用层层展开的方式对www信息资源进行组织,

19、用户从各级类目中选择合适的类目。如在搜狐界面上可浏览到娱乐休闲,工商经济、旅游与交通等18大类信息。每大类下将给出若干子类.关键词检索就是在搜索引擎的检索界面上有搜索输入框,用户直接输入关键词,可返回按相关性排序的检索结果。,分类浏览 搜狐 http:/,关键词检索就是在搜索引擎的检索界面上有搜索输入框,用户直接输入关键词,2.4.2 搜索引擎的检索技巧,1、布尔逻辑检索 一般的数据库检索中所提供的布尔逻辑运算通常有三种,即AND(与)、OR(或)、NOT(非),而且大多采用命令驱动方式提供,但在搜索引擎中表现情形则大不相同:(1)受支持的程度不同,有的“完全支持”;有的“部分支持”;(2)提

20、供运算的方式不同,部分采用命令方式驱动,部分采用菜单驱动方式。,2、字符串检索(也叫短语检索或词组检索phrase)它是将一个字符串(通常用双引号“”括起来)当作一个独立的运算单元进行检索。实际上体现了邻近位置运算(Near运算)的功能。,3、截词检索 在一般的数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽等几种形式;而在搜索引擎中,目前只提供右截法,其截词符通常采用星号(*),如educat*相当于 education+educational+educator。,4、字段检索和限制检索 字段检索是限制检索的一种。限制检索往往是对字段的限制。5、位置检索 如临近位置运算(near运算)

21、6、自然语言检索 直接采用自然语言中的字、词甚至整个句子作提问式进行检索。7、概念检索 在用某一检索词进行检索时,能同时对该词的同义、近义、广义和狭义词进行检索,以达到扩大检索范围、避免漏检的目的。,8、区分大小写的检索 主要是针对检索词中含有人名、地名等专有名词而言的。目前,Alta Vista和Info seek提供有此项功能。Vista(远跳)、Info(情报)、seek(寻找)9、多语种检索 有的搜索引擎能提供30多种语言检索的支持。,2.4.3 搜索引擎进行信息搜索的步骤1、根据统一资源定位符(URL)地址,调用该搜索引擎的主页。2、在信息检索输入框中,键入关键词或查询短词。3、查询

22、提交(Submit)。搜索引擎立即开始进行实时交互式的信息查询。4、显示搜索结果。,2.5 计算机检索的基本原理,2.5.1 计算机信息检索简介 计算机信息检索大体经历了四个发展阶段:脱机检索阶段(19541964)、联机检索阶段(1965-1972)、国际联机检索阶段(19721992)、网络信息检索阶段(1993年至今)。脱机检索系统是指利用单台计算机的输入输出装置进行检索的系统,用户不需要在计算机上操作,而是由操作人员将用户的提问输入计算机,机器对提问进行处理和检索后输出检索结果,并以某种方式送交用户。,联机检索系统是一台主机带多个终端的计算机信息检索系统,它具有分时操作能力,能够使许多

23、相互独立的终端同时进行检索。脱机检索系统由三部分组成:计算机硬件、检索软件和数据库。联机检索系统包括检索系统主机、通讯网、检索软件、检索终端和数据库。,2.5.2 数据库(Database)数据库是计算机信息检索系统的信息源和核心。它可以定义为:包含书目及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献。记录包括两个方面的内容:一是原文标题、内容及作者的信息;二是有关原文获取途径的信息。对于二次文献数据库来说,记录比原文简练,主要包括标题、作者及机构、摘要、主题词、文献来源等。对于全文数据库来说,还应包括全文。,一、数据库的类型1文献数据库 存储文献型数据,

24、如一次文献或二次文献,可分为:(1)书目数据库(二次文献)它包括各种文摘、索引、目录。组成记录的字段一般有文献的标题、作者、出处、文摘、主题词等。(2)全文数据库(一次文献)。,2源数据库 是用来存储事实、数值、概念、图形等一系列非文献数据的数据库。可分为以下四种类型:(1)数值数据库 如产品价格等数值信息,物质的物理化学性质、结构频谱等数据。(2)事实数据库 如机构、人物、产品、资源等数据。(3)概念数据库 如词典数据库、语料数据库等。(4)多媒体数据库 是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。,二、数据库的构成(文档、记录和字段)1文档(File)是由若干条逻辑记

25、录构成的信息集合。一个数据库至少包含一个顺排文档和一个倒排文档。(1)顺排文档 它是按文献记录的输入顺序(即文献序号)排列的文档。顺排文档相当于印刷型检索工具的正文部分,记录按顺序一个接一个存放,一个存取号对应一条记录。检索时从头到尾进行扫描。(2)倒排文档 它是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列的文档(如主题词倒排的文档、作者倒排文档等)。倒排文档“倒排”两字的涵义是相对于顺排文档而言的。其实倒排文档在计算机存贮器中也是按顺排文档方式存取的,二者的区别在于:倒排文档以记录中的字段作为处理和检索的单元。它相当于印刷型检索工具中的辅助索引。,2记录(Record)是数据库的基本

26、单元,是对某一实体属性进行描述的结果。一个文档由若干条记录构成,一条记录相当于检索刊物中的一则文摘款目。3字段(Field)是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。数据库的字段可分为基本字段和辅助字段。基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。,记录的字段及名称说明如下:AN=:Dialog存取号(Dialog Access Number

27、)。在一个数据库中,每条记录只有一个存取号,两者一一对应。/TL:篇名字段(Title)。AU=:作者字段(Author)。CS=:作者所在单位字段(Corporate Source)。(Corporate:法人组织的,团体的)SO=:文献来源字段(Source Publication)。包括期刊名称、年、巻、期页等,或包括会议事项。PY=:出版年份(Publication Year)。CO=:期刊代码字段(CODEN)。即期刊号(ISSN号)。,LA=:语种字段(Language)。表示原文的语种。DT=:文献类型字段(Document Type)。TC=:处理码字段(Treatment C

28、ode)。表示论文的性质:A表示应用,X表示实验,T表示理论,等等。/AB:文摘字段(Abstract)。/DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。/ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。CC=:分类代码字段(Classification Code)。*需要指出的是,对于不同检索系统、不同数据库来说,其记录格式、字段代号、字段数目可能不完全相同。,2.5.3 检索的原理及技术,一、检索原理 计算机一方面接受检索提问(即检索提问表达式),另一方面从数据库中读取文献记录,然后在两者之间进行匹配运算,即将检索提问与数据库中文献记录

29、标识进行比较,如果比较的结果一致,那么这篇文献就算命中,如果比较的结果不一致,则这篇文献就不符合检索要求。,二、检索技术 计算机信息检索过程实际上是检索词与标引词比较的过程。单个检索词的计算机检索比较简单,两个或两个以上的检索词则需要根据检索课题的要求对检索词进行组配。基本的检索技术有逻辑检索、词表助检、截词检索、限定检索、全文检索等。,1、逻辑检索 逻辑检索的基础是布尔逻辑运算,布尔逻辑是二值逻辑,其运算结果只有“真”(相关)或“假”(不相关)两种状态。运算符有“与”、“或”、“非”,此外还有大于、小于、等于、不等于等运算符。(1)逻辑“与”(AND或*)两个检索词以“AND”或“*”相连,

30、表示被检中的文献心须同时含有这两个词。,例如,我们要查找有关计算机在图书馆中应用的文献,可用下列逻辑式表示:Computer*Library 或者 Computer AND Library。A AB B图中,A表示Computer命中文献篇数,B表示图书馆Library命中文献篇数,斜线部分就是逻辑式的命中文献篇数(computer*library)。,(2)逻辑“或”(OR或+)两个检索词以“OR”或“+”相连,表示被检中的文献含有两语之一或同时包含两词。例如,要求查找计算机或机器人方面的文献,可用下列逻辑表示:Computer+Robot 或者 Computer OR robot。A AB

31、 B 图中,A表示Computer命中文献篇数,B表示Robot命中文献篇数;全图为逻辑式的命中文献,(3)逻辑“非”(NOT或一)检索词A、B若用逻辑“NOT”或者“一”相连,表示被检索文献在含有检索词A而不含有检索词B时才被命中。例如,要求检索汽车方面的文献,而不希望文献中出现拖拉机的主题,应以下列逻辑式表示:Car NOT Tractor 或者 Car Tractor.A AB B 图中,A表示Car命中文献篇数,B表示Tractor命中文献篇数;图中斜线部分就是逻辑式的命中文献。,在一个复杂的逻辑提问中,不仅可以有多个逻辑运算符,也可以使用括号(单层或者多层)来指定运算的先后顺序。例如

32、,(AB)+C*(D+E)。,2、词表助检 有些文献数据库有自己的主题词表,词表不仅用于标引文献,也可用于助检。有些联机检索系统,将词表存入计算机,帮助用户进行检索,它能将用户的非标准检索词,自动的转换为规范词,还可以自动扩检,如使用同义词检索。,3、截词检索 它允许检索词有一定范围的变化,检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为命中文献。在Dialog中截词符为“?”。下面介绍三种截词检索的基本方法。,(1)无限截词 例如:检索“dye?”,可以检索到含有以dye(染色、颜料)为词根的所有检索词的文献。Dyeing(染色业);dyer(染色工);dyestuf

33、f(染料)。(2)有限截词 例如:检索“dye?”,表示词根dye后最多可带有两个字符。(3)中间截词 例如:检索“andys?s”,实际上可检索出含有analysis(分析)和analyses的文献。(嵌入字母等于问号数,常用于英美不同拼法),4、限定检索 在许多联机检索系统中,为提高查全率或查准率,需要一些缩小或约束检索结果的方法,称之为限定检索。用这种方法可将检索过程限定在特定的范围(或字段)中进行。例如检索“computer/TI,AB”,表示在TI(篇名)和 AB(文摘)字段中检索computer。,5、原文检索 就是用一些特定的位置算符来表达检索词与检索词之间的关系,并且可以不依赖

34、叙词表而直接使用自由词进行检索的检索方法。,以Dialog系统为例,常用的位置算符有:1、相邻位置算符(1)(W)一“With”(W)表示此算符两侧的检索词相邻,顺序不能颠倒,且不允许在两词之间插入其它词或字母,但允许有一空格或连接符号(-)。(2)(nW)一“nWords”(nW)表示在此算符两侧的检索词之间最多可插入n个词,但该算符两侧检索词的词序不能颠倒。(3)(N)一“Near”(N)表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两者之间不许插入任何词。(4)(nN)一“nNear”(nN)表示在此算符两侧的检索词的顺序可以颠倒,且最多可在其间插入n个词。,2、字段位置算符(F)一“

35、Field”(F)表示在此算符两侧的检索词心须同时出现在文献记录的同一字段,如篇名字段、文摘字段、叙词字段、自由词字段等,但两个词的词序不限,夹在两个检索词之间的词的个数也不限。3、其它位置算符(1)(L)一“Link”(L)表示两侧的检索词有一定的从属关系。(Link意为:连接物、相互关系)例如:Rubber(L)natural,表示 Rubber为标题,natural为副标题。(2)(X)当用两相邻而又完全相同的词作为词组检索时,两个词之间用(X)算符连接。例如:Protein(蛋白质)(X)Protein,表示检中文献记录中含有Protein-protein.。,以上介绍的几种常用的计算

36、机信息检索技术,都属于提问式的检索技术,普遍运用在联机检索系统和光盘检索系统中。而目前,Internet一般只有主题词(关键词)检索和分类检索的单层次检索,支持简单的逻辑检索,即“与”(AND)、“或”(OR)、“非”(NOT)和组合检索。,2.5.4 检索程序,进行计算机信息检索首先要了解用户的检索目的和要求,对用户提出的检索课题进行全面的分析研究,为检索词的选择、检索式的编制作好必要的准备;然后根据课题的要求选择合适的检索系统和数据库;选取检索词、编制检索提问式、并确定检索策略;开始检索后,要根据检索的具体情况及时调整检索策略,使检索结果符合用户要求。,检索词的选择:检索词一般有规范词、规

37、范化的代码和自由词三种。规范词:是经过规范化处理的词或词组;是从待检数据库的叙词表或主题词表中选择的。规范化的代码:是经过规范化处理的索引代码。如国际专利分类号、标准工业代码等。自由词:是未经规范化处理的自然语言词汇。,选择检索词一般要考虑以下基本原则:(1)优先选用叙词或主题词作为检索词。(2)选用各学科内具有检索价值的基本名词或术语。(3)自由词作检索词时,要注意从专业角度出发,使用国际上通用的术语,尽可能不用一词多义的词。检索提问式的构造:检索提问式是指计算机信息检索中用来表述用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其它组配连接符号组成。,2.5.5

38、检索策略及其调整,所谓检索策略,就是在分析信息需求实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的一种科学安排。,一、比较有影响的五种联机检索策略:1.最专指面优先策略:是指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献较多,就把其它组面用与运算“AND”加到检索提问式中,以提高查准率。如查“工业经济”“经济”*“工业”。2.最少记录面优先策略:即先从估计检中的文献记录数量最少的概念组面入手,如果检中的文献记录相当多,则将其它概念组面加检索提问式中去,以提高检索结果的查准率。如查S农业科学S1农业基础科学S15土壤学。,3.积木型概念组面策略:是把检索

39、课题分解成若干个概念组面,并分别先对 这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有概念组面的子检索式连接起来构成一个总检索式。如研究“某一地区的土壤”,则至少应从土壤物理、土壤化学和土壤生物三个方面入手。土壤物理(土壤三相物质组成+土壤结构体组成+)AND土壤化学(土壤N+P+K+)AND土壤生物(土壤动物+土壤微生物)。,4.引文珠形增长策略:直接从检索课题中最专指的概念组面开始,以便至少检出一篇命中文献。检索人员从这一条或数条记录中找到新的规范词,补充到检索式中去,然后再检索就是重新查出更

40、多的文献。5.逐步分馏策略:先确定一个较大的、范围较广的初始文献集,然后逐步提高检索式的专指度,从而逐步缩小命中文献集,直到得到数量适宜、用户满意的文献集合为止。如查“桥梁维护”,可先从“桥梁”入手,桥梁(“NOT”桥梁设计)(“NOT”桥梁施工)桥梁维护。,在实际的课题检索中,有时检索人员首先得到的检索结果不一定能符合用户的要求,这时检索人员应及时采取措施调整检索策略。一般地,需要提高查全率的课题,主要从扩检入手;需要提高查准率的课题,主要从缩检入手。,二、扩检时,即提高查全率时,调整检索式的主要方法有:,1.选全同义词并以“OR”方式与原词连接后加入到检索式中。2.降低检索词的专指度,从词

41、表或检出文献中选一些上位词或相关词。3.采用分类号进行检索。4.删除某个不甚重要的概念组面,减少“AND”运算。5.取消某些过严的限制符,如字段限制符等。6.调整位置算符。,三、缩检时,即提高查准率时,调整检索式的方法有:,1.提高检索词的专指度,增加或换用下位词和专指性较强的自由词。2.增加概念组面,用“AND”连接,进一步限定主题概念的相关检索项。3.限定检索词出现的可检字段,如常限定在篇名字段和叙词字段中进行检索。4.利用文献的外表特征限制,如文献类型、出版年代、语种、作者等。5.用逻辑非“NOT”来排除一些无关的检索项。6.进行加权检索。7.调整位置算符。,复 习 思 考 题,1.简述IP地址、域名、统一资源定位符的作用,并举例说明他们的构成。2.搜索引擎的检索功能有哪些?举例说明其使用方法。3.数据库主要的基本字段和辅助字段有哪些?如何理解顺排文档和倒排文档在检索中的作用。4.简述计算机检索的几种基本检索技术。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号