信息资源检索基础.ppt

上传人:牧羊曲112 文档编号:5230876 上传时间:2023-06-16 格式:PPT 页数:192 大小:12.55MB
返回 下载 相关 举报
信息资源检索基础.ppt_第1页
第1页 / 共192页
信息资源检索基础.ppt_第2页
第2页 / 共192页
信息资源检索基础.ppt_第3页
第3页 / 共192页
信息资源检索基础.ppt_第4页
第4页 / 共192页
信息资源检索基础.ppt_第5页
第5页 / 共192页
点击查看更多>>
资源描述

《信息资源检索基础.ppt》由会员分享,可在线阅读,更多相关《信息资源检索基础.ppt(192页珍藏版)》请在三一办公上搜索。

1、实用科技信息资源检索与利用,方彩霞,课程介绍,课程类型:必修课,学 时:51 学时,课程主要内容:,怎么查找信息资源,有哪些信 息资源,如何利用信息资源,为什么要学习信息资源检索课?,问题1:我想到图书馆借一本高等数学习题集,在偌大的书库中怎样找到我需要的书呢?问题2:我想报考某学校某位导师的研究生,想知道这个学校的资料和这个教授的研究方向和研究内容,并想阅读该教授近几年来发表的论文,怎样才能找到资料和文章呢?问题3:我要毕业找工作了,在哪里可以找到就业信息呢?应聘单位让我去面试,面试之前我想了解这个单位的背景资料,去哪里找呢?问题4:我要写毕业论文了,需要参考一些外文资料,但这些外文资料该去

2、哪儿找呢?,除了智商、情商,在信息爆炸的21世纪,面对海量信息包围的困境,决定人生成败与否的关键因素是什么?是搜商人类一种通过工具获取知识的能力。,陈沛 中搜(原慧聪搜索)CEO,“搜商”:一种与智商、情商相并列的人类智力因素。,1、信息检索有助于知识更新,知识经济时代没有“毕业”的概念 联合国教科文组织,对大学的学习生活提出了四个要求:学会求知,学会做事,学会共处,学会做人。并在其成立 50周年之际,提出:终生教育是进入21世纪的一把钥匙。有专家认为:一个人在大学阶段只能获得一生中所需知识 的10左右,而90的知识要在工作中通过不断学习获得 的。,2、信息检索有助于教育改革,学校对在校生的要

3、求:本科生在校期间要注重自学、研究、思维、表达和组织五种能力的培养,信息检索是培养学生能力的基本技能和方法之一。硕士生要学会如何独立的从事研究工作。在查找信息资源的基础上,善于总结经验,有所创新。博士生主要通过信息检索,培养在总结前人经验的基础上选择具有创造性的研究方向的能力,能够开辟新的研究领域。,教育部高教司在教高司199244号文件指出:文献检索课是培养学生的情报意识,掌握用手工方法和计算机方法从文献中获取知识和情报的一门“科学方法课”。,教育部高教司在其颁布的普通高等院校本科专业目录和专业介绍(1998)249个专业的培养要求中,就有218个专业明确规定“掌握资料查询、文献检索及运用现

4、代信息技术获取相关信息的基本方法”。,国内某研究所申请了4000万元专项技术资金,经过四年攻关,研究成功了一项颇具市场前景的环保技术。但在成功后准备申请专利的时候才想起来要检索专利,检索结果让人倍感沮丧,日本人早就在我国申请了该项专利技术,于是4000万元资金、数十名科学家几年的辛勤努力化为泡影。,当世界第一台PN结形晶体管诞生的时候,美国西方电子公司仅 仅把这种晶体管用于助听器。日本专业人士井深和盛田得知这 个消息后,立即飞赴美国考察,他们敏感的发现,晶体管完全 能取代电子管,于是他们用2.5万美元的价格买下了这项生产晶 体管的技术。于1957年生产出世界上第一台能放在衣袋中的袖珍式晶体管收

5、 音机,取名为SONY。,3、信息检索有助于科学研究,文献信息的检索能力决定科研效率和科研水平,甚至课题成败的一个重要因素。,课程安排,教学方式讲课上机实习,考核方式,期末:60%期中:20%平时:20%,信息资源检索基础,1,2,3,国内文献信息检索系统,互联网信息资源搜索,4,5,国外文献信息检索系统,文献信息电子资源的免费共享,6,特种文献及其检索系统,目 录,7,信息资源综合利用,第1章 信息资源检索基础,1.1 信息的概念 1.2 信息资源的概念 1.3 信息资源检索原理 1.4 信息资源检索语言 1.5 信息资源检索技术 1.6 信息资源检索策略 1.7 信息资源检索界面 1.8

6、检索结果分析和策略调整 1.9 信息资源检索权限 1.10 电子文献的常用格式及转换,掌握信息、知识、文献和情报的概念和它们之间的关系;掌握信息资源的分类,重点掌握文献信息资源的分类,了解文献信息资源保障体系;掌握数据查询、网页搜索和文献检索的工作原理;掌握分类检索语言、主题检索语言(关键词)、作者检索语言和代码检索语言;掌握全文检索技术、字段限定检索技术、布尔逻辑检索技术、优先运算检索技术、词间位置检索技术、词组/短语检索技术、截词检索技术和模糊/精确检索技术;掌握信息资源检索策略、信息资源检索界面、检索结果分析和策略调整;了解信息资源检索权限;掌握电子文献的常用格式和转换。,本章目标,1.

7、1 信息的概念,1.1.1 信息、知识与文献 信息与情报 信息意识、信息能力和信息素质,信息、知识与文献,二、与信息相关的几个概念,一、信息的定义,申农在通信的数学理论中把信息定义为“人们对事物了解不定性的减少和消除,是两次不定性之差。”,C.E.Shannon(1916-2001),information,信息传播过程:信源信道信宿,信源:信息的来源,可以是人、机器、自然界的物体等等。,信道:信息传递的通道,是将信号进行传输、存储和处理的媒介。,信宿:信息的接受者,可以是人也可以是机器。,哲学界:信息是物质运动的表征。,信息的其它定义,通俗定义:信息是指客观世界中不断发生和被传递的可以 表征

8、事物属性的事实或数据。,1.知识的定义:一种高度概括的、理性化和系统化的有序信 息。,2.文献的定义:用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体。,知识 载体:文献的形态,如甲骨、青铜器、纸张、胶片、磁带、磁盘、光盘等 记录:构成文献的重要手段,文献三要素,信息、知识和文献的关系图,信息与情报,二、信息、知识、文献和情报的关系,一、情报的定义,传统情报定义(intelligence):通过秘密手段搜集来的,关于敌对方外交、军事、政治、经济、科技和地理等方面的信息,并伴随着分析、推理等高智力活动。,情报的概念:情即情况,报即报导,其含义都具有消息传递的意思,现代情报定义(in

9、formation):针对特定目的、特定对象、特定时间所提供或寻找的能起借鉴和参考作用的信息或知识。,情报的三个基本属性:知识性、传递性和效用性。,信息、知识、文献和情报之间的逻辑关系为包含和被包含的关系。,信息、知识、文献和情报的关系图,23,信息素养(Information Literacy)的概念:1974年由美国信息产业协会主席保罗泽考斯基提出,是信息时代人才培养模式中出现的一个新概念,已引起了世界各国越来越广泛的重视。,1.1.3 信息素养、信息意识和信息能力,在科技飞速发展、信息资源激增的当今时代,信息素养越来越显示其重要性。,24,信息能力 信息获取能力 信息整合能力 信息评价、

10、分析能力 信息利用能力,信息意识 信息第一意识 信息抢先意识 信息忧患意识 再学习和终身学习意识,信息品质 较高的情商 积极向上的生活态度 善于与他人合作的精神 自觉维护社会秩序和公益事业的精神,信息素养主要内容,1.2 信息资源的概念,1.2.1 信息资源 文献信息资源的分类 文献信息资源保障体系,信息资源,信息资源(Information Resource):信息传播、汇聚和保存的地方。,实物信息:通过实物的物理形态所展示出来的信息。人类传播的知识有许多被物化在各种物体之中,如工具、产品、模型、设备、建筑等。,实物信息的特点:直观性、真实性、隐蔽性(需要观察和分析)和零散(散乱没有规律,很

11、难加工)和实用性。,实物信息源:实物信息的来源。例如:各种新产品展销会、商品交易会或博览会等是实物信息的汇聚场所。,口传信息:通过口头语言产生和传播的信息。,口传信息的特点:及时、新颖、直接、真实、针对性强,信息的传递者和接受者可以进行双向交流,实现信息的及时反馈。,口传信息源:指人们通过交流、讨论、发言、报告等语言信息交流符号不断沟通情况,创造并发出、传递各种信息。例如:专业人员之间的口头交流、各种各样的产品鉴定会、新闻发布会、技术交流会或者专业性的学术讨论会。,机构信息源:高等学校、科研院所以及各企事业单位,在教学、科研、生产活动等过程中,会产生和汇聚丰富的科研成果信息、技术革新信息和发明

12、创造信息。,文献信息源:一种经过加工的信息源,包括迄今为止人类所积累和存贮的,并不断增长的全部文献总和。例如:图书馆,各种文献数据库。,文献:将人类知识用文字、图形、声频、视频信号等手段记录在一定的物质载体上进行交流传播。特点:高学术性、易传播性和易保存性。,狭义的网络信息资源:指在互联网上以超链接方式传播的各种网页,包括新闻、动态、新技术报道、新产品介绍等。,广义的网络信息资源:泛指包括文献数据库在内的一切可以从网络上获得的信息资源。,文献信息资源的分类,二、按出版类型划分,一、按载体性质划分,四、按文献获取难易划分,三、按文献加工层次划分,1纸本文献 2缩微文献 3电子文献 4音像文献,1

13、纸本文献 常见的印刷版书刊,又称为纸质文献或传统文献。缺点:存贮密度低,体积庞大,加上纸张的化学、物理特性,难于收藏保存。,2缩微文献 将纸本文献通过摄影而制成的缩微平片或缩微胶卷,载体为感光材料。,优点:体积小、存贮密度高,便于传递、保存,可节省书库面积达90以上。缺点:不能直接阅读,必须借助阅读机。,3电子文献 机读文献,利用二进制数字记录的并需要利用计算机才能阅读的各种电子文档;载体:光盘、磁盘或磁带等。包括电子图书、电子期刊等电子出版物,各种联机信息库,光盘数据库等。按照出版发行方式可进一步区分为光盘版电子文献和网络版电子文献。,4音像文献 通过特定设备,将信息表现为声音、图像、影视及

14、动画(sound,image,video&animation)等形式。常见的音像制品,如唱片、录音带、电影胶片、激光声视盘(CD-ROM)、幻灯片等。优点:直观、形象,1.图书(Book)2.报刊 3.会议论文(Conference Paper)4.学位论文(Dissertation 或Thesis)5.科技报告(Technical Report)6.专利文献(Patent Literature)7.标准文献(Standard Literature)8.产品资料(Product Literature)9.政府出版物(Government Publication)10.档案(Archives),

15、1.图书(Book),定 义:论述或介绍某一领域知识的出版物。,图书一般分为两类:阅读型:教科书、专著等工具型:字典、百科全书、年鉴、手册等,特 点:带有总结性、成熟定型;出版周期长,信息传递慢;传授知识,而不是报道最新情报。,国际标准书号(ISBN)(International Standard Book Number),每一种正式出版的图书的唯一标识代码,ISBN 9787305049880 第一段:语区号,代表国家、地区、语种,如0美,1英,2法,3德,4日,7中;第二段:出版社代号,由国家或地区ISBN中心分配;第三段:出版图书号,由出版社按出版顺序所给;第四段:校验位。,2.报刊,包

16、括报纸(Newspaper)和期刊(Journal,Periodical,Serial),期刊的特点:名称固定;有连续的卷、年月顺序号;出版周期短,报道速度快;数量大,内容丰富;据估计,从期刊获取的科技信息占整个信息来源的 60%-70%。,期刊:名称固定、开本一致的定期或不定期连续出版物。其中科技期刊可分为学术性期刊、技术性期刊和科普性期刊。,国际标准刊号(ISSN号)(International Standard Serial Number),正式出版的期刊有ISSN代码,即国际标准连续性出版物编号。如:ISSN 02503301为环境科学的国际标准编号。,http:/magazine,h

17、ttp:/,http:/,形式:图书形式出版的会议录;期刊形式出版的会议专辑;缩微平片或复印件的形式。,3.会议论文(Conference Paper),定义:指在各种学术会议上发表的论文(通称为proceedings)。特点:传递信息及时 针对性强 内容新颖(部分科研成果是通过学术会议首次发表的),博士论文的特点:具有较高的参考价值;一般偏重于理论研究;附有大量的参考文献;借此可以看出有关专题的发展过程和方向。,4.学位论文(Dissertation 或Thesis),定义:著者为获得某种学位而撰写的科学论文,包括学士论文、硕士论文和博士论文。,学位论文一般不出版发行,而是保存在学位授予单位

18、的图书馆和国家指定的收藏单位中。,目的:向上级主管部门汇报。,5.科技报告(Technical Report),定义:科研人员从事专题研究告一阶段或取得研究成果后,向科研资金资助单位提交的阶段性进展报告或总结报告。,科技报告一般不公开出版,只由本单位或资助单位加以编号收藏保管。,特点:每份单独成册,有专门的编号;内容具体(有科研项目的研究方案、实验记录、数据、图表等);报道比期刊早;保密或控制发行(大部分与军事有关项目均以含有报告完成)。,专利说明书:指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件,是公开的文献,但只能由各国知识产权局发行,反映了当前最新的技术成果。,6.专利文献

19、(Patent Literature),定义:一切与专利制度有关的专利文件的统称。包括专利说明书、专利局公报和专利证书等。,7.标准文献(Standard Literature),定义:标准化工作的文件。主要为工业产品和工程建设的质量、规格和检验方法等的技术规定文件。,8.产品资料(Product Literature),定义:指产品目录、产品样本和产品说明书一类的厂商产品宣传和使用资料。,特点:印刷精美、内容生动、数据比较可靠,比较零散,但新陈代谢频繁、时效性强,难以收集齐全。,9.政府出版物(Government Publication),定义:各国政府部门及其所属机构颁布和出版的文件、公

20、告、法规、报告等资料,具有权威性和正式性。,我国政府发表的“科学技术白皮书”就是一种科技类政府出版物。,内容,行政性文件,科技文件,国会记录、政府法令、方针政策、规章制度以及调查统计资料等,意义:对了解一个国家的方针政策、经济形势、科学技术发展水平等信息有一定的参考价值。,10.档案(Archives),定义:政府机构、企事业单位或个人在从事各种具体工作中积累下来的原始文件、图纸资料和真实记录,具有重要的参考借鉴价值。,一般只在一定的范围内向外界公开借阅,获取困难。,会议论文,专利说明书,学位论文,从实用的角度:,文献,图书,期刊,非书非刊的特种文献,零次文献(未发表)一次文献(原始文献)二次

21、文献(检索工具)三次文献(参考性文献),零次文献:未经出版发行的文献,包括手稿、个人通信、原始记录等。,一次文献:以作者本人的研究成果或心得写成的原创性文献,也即首次出版的各种文献。如期刊论文、科技报告、会议论文、专利说明书等。,二次文献:将大量分散、零乱、无序的一次文献进行整理、浓 缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。主要类型:各种目录、题录和文摘等检索工具。如中文科技 资料目录、中国科技期刊数据库等。,三次文献:利用二次文献提供的线索,收集一定范围和数量的一次文献,经综合、分析和评述后再度出版的文献,如各种述评、动态综述、手册、年鉴和百科全书等

22、。,二次文献与三次文献的区别:,用途不同:二次文献为检索一次文献的工具;三次文献能直接提供检索答案。,对象不同:二次文献以“篇”或“本”为单位进行加工;三次文献则归纳了较多的一次文献内容。,文献结构示意图,书目 题录索引文摘,词典名录指南手册年鉴,评述论文丛集百科全书,二次文献,原始文献一次文献,三次文献,文献整理,重组、浓缩,手稿零次文献,白色文献:能从正常采购途径获取的正式出版公开发行的文献。,灰色文献:不能从正常采购途径获取的非公开发行的内部文献或限制流通的文献。如非公开出版的政府文献、学位论文;不公开发行的会议文献、科技报告、技术档案;不对外发行的企业文件、企业产品资料、贸易文件和工作

23、文件等。,黑色文献:从外部不能获取的处于保密状态不向外界交流的文献。如军事情报资料、技术机密资料、个人隐私材料等。,文献信息资源保障体系,二、高校图书馆系列,一、公共图书馆系列,三、科学(专业)图书馆系列,公共图书馆由文化部及各地文化局管理,供全社会公众免费使用。,收藏范围:以图书专著、会议录、报纸和期刊为主,学科以综合为主。,一些省级公共图书馆组建了联合参考咨询与文献传递网,可向公众提供网上免费检索和免费全文传递服务。,高校图书馆:收藏规模视学校级别而定,学科范围视学校性质而定,收藏类型以书、刊为主,部分收藏本校授予的学位论文。,国内各高校图书馆联合组建了中国高等教育文献保障体系(CALIS

24、),利于高校间的文献信息资源共建、共知和共享。,科学图书馆:中科院、社科院、农科院、医科院系统内的各级图书馆,专业图书馆:中国科技信息研究所、各省市科技信息研究所、国家各专业部委办的科技信息研究所中的文献馆,中国国防科技信息中心、中国专利信息中心、中国标准化研究院标准馆等图书情报机构。,收藏范围:各专业范围内的中外文期刊和特种文献,1.3 信息资源检索原理,1.3.1 数据查询的工作原理 网页搜索的工作原理 文献检索的工作原理,信息资源检索的概念,要求:高效、快速、准确、正确、全面、新颖,图 书,网络,索引条目:将文献中具有检索意义的关键词(人名、地名、词语、概念等)按照一定方式有序编排起来,

25、以供检索。,采集信息,制成数据库,编制索引,信息检索,信息检索:全称“信息存储与检索”,是指将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需要找出相关信息的过程和技术。存储包括信息采集(建立主数据库)和信息标引(提取标识建立索引数据库)。,信息检索基本原理,根据信息数据库的采集对象和检索特点,信息检索可分为数据查询、网页搜索和文献检索三种类型。,数据查询的工作原理,二、工作原理,一、概念,数据查询:数据检索,按信息存储介质可分为:手工数据检索和计算机数据检索。,手工检索:使用的多为印刷型或书本型检索工具,用人工来处 理和查找所需信息的检索方式。,计算机检索:利用计算机和一定的通信

26、设备查找所需信息的检 索方式。,手工数据检索,词典,手册,参考工具书,指南,大全,名录,人名录,地名录,机构名录,年鉴,百科全书,文献汇编,教科书,内容分章节排列,利用目次页作为检索入口。,按词条或知识条目的笔顺或音顺排列,索引(索引款目:款目词、说明语以及在书中出现的位置),计算机数据检索:检索工具是各种事实数据库和数值数据库。,海词在线词典()维基百科()百度百科()哥伦比亚百科全书(英文版)()世界年鉴(英文版)(),网上免费 使用的数 据库:,网页搜索的工作原理,二、工作原理,一、概念,搜索引擎(Search Engines):采用事先编制好的索引从互联网上搜集信息,在对信息进行组织和

27、处理后,为用户提供检索服务,将相关的检索信息展示给用户的系统。,顺着网页中的超链接,抓取网页,记下网页标题、正文片段、URL地址等信息。,将网页信息数据库中的文字自动切分,将切分出来的词语作为网页标识,建立索引数据库。,文献检索的工作原理,二、工作原理,一、概念,文献检索(Document Retrieval 或Literature Searching)的查找对象:环绕某一检索课题的相关文献线索或文献全文。,将文献的篇名、作者、关键词、摘要等信 息,录入到文献数据库主文档中。,通过计算机自动分词标引软件,在可检字段中提取词语作为索引款目。,数据库的组成:数据库是由很多条文献、数据记录组成,主要

28、有文档记录字段三个层次。,文档(file),顺排文档,数据库的全部记录按照记录号 的大小排列而成的信息集合。,顺排文档的记录排列示意:,倒排文档,对数据库重新组织,将每 个可检索字段中一切有意义的检索词(主题、著者等),按某种顺序排列起来的文档。,倒排文档的记录排列示意:,记录是机器可存取的基本单位,一条记录相当于一条著录项 目,它是由若干个字段组成的。,记录(record),字段(filed),字段是记录的基本单元,用于描述事物的某一属性,字段与文 献记录中的著录项相对应。,字段的种类:篇名、文摘、叙词、著者、题目、期刊名称、出 版年份、语种、国际标准刊号、文献类型、分类代码、机构名 称,等

29、等。,按照字段的组成,文献数据库可分为:,1.4 信息资源检索语言,二、检索语言的种类,一、概念,三、分类检索语言,四、主题检索语言,五、作者检索语言,六、代码检索语言,定义:人们在查找文献信息过程中所必须运用的一种专门语言,是信息检索系统存储与检索所使用的共同语言。专门用来描述文献的内容特征、外表特征和表达信息提问的一种语言。又称标引语言、索引语言、标识系统等。,作 用,保证不同的信息标引人员描述信息特征的一致性,保证检索提问词与信息标引的一致性,保证检索者按不同信息需求检索信息都能获得较高的查全率 和查准率,1、按规范化程度划分 2、按结构原理划分 3、按文献信息资源的特征划分,人工语言,

30、人为对标引词和检索词加以控 制和规范,使每个检索词只能 表达一个概念,自然语言,直接从原始信息中抽取出自 由词作为检索词的检索语言,1、按规范化程度划分,检索语言的类型,分类检索语言,主题检索语言,2、按结构原理划分,体系分类语言,组配分类语言,标题词语言,单元词语言,叙词语言,代码检索语言,中国图书馆图书分类法,冒号分类法,美国国会图书馆标题表,WPI规范化主题词表,汉语主题词表,自然语言,受控语言,关键词语言、文中自由词语言,国际标准书号、国际标准刊号、数字文献标识号等,检索语言的类型,表述文献外表 特征的语言,表述文献内容 特征的语言,分类语言,主题语言,3、按文献信息资源的特征划分,体

31、系分类语言,组配分类语言,标题词语言,单元词语言,叙词语言,关键词语言,题名(书名、刊名、篇名、专利名),作者(编著者、专利申请人等),编号(报告号、专利号等),机构名称(责任者所属机构名称),自由词语言,类,性质上彼此相同的事物,物以类聚,人以群分,定义:又称分类法,是将文献主题概念按知识学科性质进行分类和系统排列成类目体系,并用号码(分类号)表达各种概念的检索语言,包括体系分类语言和组配分类语言。,体系分类语言:以学科分类为基础,将知识门类从综合到具体、从高级到低级,从总到分、从上到下,依逻辑次序层次划分,逐级展开组成分类表,以分类表来标引、存储信息资源和检索信息资源。,著名的分类表,中国

32、图书馆图书分类法(中图法)中国标准文献分类法(中标法)International Patent Classification,国际专利分类法(IPC)International Classification for Standard,国际标准分类法(ICS)杜威十进分类法(DDC)国际十进分类法(UDC)美国国会图书馆图书分类法(LC),中图法将所有图书分成大基本部类,基本部类是对人类全部知识作最概括的划分。,由基本部类划分出22个基本大类,基本大类是较为概括的大学科领域的划分,用由到的22个字母表示。,中国图书馆图书分类法简称中图法,中图法简表如下,X-0 环境科学理论X-1 环境科学技术现

33、状与发展X-4 环境保护宣传教育及普及X-6 环境保护参考工具书X1 环境科学基础理论X2 社会与环境X3 环境保护管理X4 灾害及其防治X5 环境污染及其防治X7 废物处理与综合利用X8 环境质量评价与环境监测X9 安全科学,X环境科学、安全科学,X11 环境数学X12 环境物理学X13 环境化学X14 环境地学X16 环境气象学X169 环境空气动力学X17 环境生物学X18 环境医学X191 环境心理学X192 环境系统学(环境系统工程)X196 环境经济学X197 环境法学,X131环境污染化学 X131.1大气污染化学 X131.2水污染化学 X131.3土壤污染化学X132环境分析

34、化学,定义:采用能反映文献主题概念的词语来标引、存储、检索文献的一种检索语言。,主题检索语言可分为:叙词语言、标题词语言、单元词语言、关键词语言和文中自由词等。,1、叙词,定义:又称描述词、叙述词,以表达文献主题内容的基本概念单元为基础,经过优选和规范化处理,可进行逻辑组配的名词或术语(表达文献主题和检索需要)。概念组配是叙词语言的基本原理。,从文献内容中抽取,字面组配与概念组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:字面组配 概念组配模拟+控制-模拟控制 模拟+控制-模拟控制,彩虹+电器,彩虹牌商

35、品+电器,彩虹电器,2、关键词,定义:直接选用文献中的自然语言作基本词汇,并将那些能 够揭示文献主要概念的关键性自然词语作为关键词进行标引的一种检索语言。,直接从文章标题或文摘、正文中,按字面拆分抽取,专指 度高,用作检索词,除了冠词、连词、副词、介词外,几乎所有具有实际意义的信息单元都能成为关键词。作者文章中附有关键词,可将作者列出的关键词录入关键 词字段,不再需要另行标引,大大提高了工作效率。,主题检索语言的优缺点:,不必知道学科门类,只需使用关键性词汇进行标引;简单直接,不像分类语言需要转换为分类号;能形成专指度高的检索标识,查准率高;主题词在词表中按照字顺排列,没有等级性,便于增删、修

36、改;规范化主题语言有一套较完整的参照系统,能显示词间关 系,可供扩检和缩检用。,优 点,缺 点,分散文献学科体系;词表收录有限,很多概念在词表中没有反映;表达概念的受限,词汇转换的失真,标引、检索前处 理量大且难以达到统一;查全率低。,原文署名:Alice Amey Smith 原文署名:Alice A.Smith原文署名:A.A.Smith,作者姓名索引(Author Index),标引方法1:Smith,Alice Amey 标引方法1:Smith,Alice A.标引方法1:Smith,A.A.,标引方法2:Smith A.A.标引方法2:Smith A.A.标引方法2:Smith A.

37、A.,全文检索功能日臻成熟,国外不少检索系统(ScienceDirect、SpringerLink)采用一律遵从原文署名习惯。,文献代码(code):即文献的编号(number),它们是文献 信息的一些特有的外部标识。,国际标准书号(ISBN),国际标准刊号(ISSN),数字文献标识号(DOI),科技报告的报告号,技术标准的标准号,专利说明书的公开号、公告号、专利号等。,代码索引注意事项:代码中有无空格,例如:标准号的字母和 数字之间有空格。,城镇污水处理厂污染物排放标准,GB 18918-2002,1.5 信息资源检索技术,1.5.1 全文检索技术 字段限定检索技术 布尔逻辑检索技术 优先运

38、算检索技术 词间位置检索技术 词组/短语检索技术 截词检索技术 模糊/精确检索技术,信息资源检索技术,主要信息检索技术:全文检索技术、布尔逻辑检索、截词检索、优先运算检索、字段限定检索等。,定义:用户信息需求和信息集合之间的匹配比较技术。,信息检索 提问式,信息集合,用户需求,匹配依据,信息检索技术的实质是信息检索提问式的构造技术。,全文检索技术,全文检索,可以对数据库中的全部字段进行检索,可以对字段的全 部内容进行检索,对全部字段分别编制子索引,将字段内容中的 词语全部抽取出 来编入索引,利用计算机自动分词软件,将字段中的全部词语切分成 自由词,抽取出来建成涵盖全文的自由词索引。,字段限定检

39、索技术,限定字段通常包括:题名、作者、机构、关键词/主题词、分类号/分类名、出版社、出处(期刊刊名、卷期信息)和文摘。,定义:为了提高检索的效率和查准率,缩小检索的范围,将 检索词限定在记录中某一具体的字段中,从而达到优化检索结果的方法。,被指定的字段也称检索入口,在数据库的复杂检索或高级 检索中多提供几个字段供用户同时选用。西文数据库中除有字段名外还有字段代码,字段代码由其对 应的字段名称的第一个单词的头两个字母大写来代表。,后缀限制:information/TI library/DE,限制字段,前缀限制:AU=Johnson,A.R.PY=2003,EI Village 检索系统 摘要(A

40、bstract)字段中检索“software design”可表述为:“(software design)Wn AB”作者(Author)字段中检索“Smith,Aaron”,可表述为:“(Smith,Aaron)Wn AU”。,搜索引擎 在网页标题(title)字段中检索“机床”,可表述 为:“intitle:机床”。,NSTL检索系统 在文献题名(title)字段中检索“机床”,可 表述为:“tit=机床”。,维普检索系统 在文献题名(title)字段中检索“机床”,可 表述为:“T=机床”。,布尔逻辑检索技术,布尔逻辑运算符有:与(并且)、或(或者)、非(不含)和异或四种,常用的逻辑算符

41、为前三种。,定义:允许用户提出几个检索词,并运用布尔逻辑组配符对检索词进行逻辑组配,表达两个概念之间的逻辑关系。,用“非”、“与”缩检,用“或”扩检。一般搜索引擎空格代表“与”。例如,计算机与农业、计算机或农业、计算机非农业检索出 来的文献是完全不同的。,A*B,A and B,1、逻辑“与”(AND)运算,缩检,“与”:是一种用于概念交叉关 系或限定关系的组配。可用“AND”或“and”或“*”或空 格表示。,“A AND B”:表示被检索的文献记录中必须同时含有A和B两 个概念才算命中,如图所示。,换一个角度看,逻辑“与”又能防止漏检。例如:用户输入“新闻美学”作为检索词,可命中戈公振的新

42、闻美学实践这样的文献,但漏检了新闻的美学属性、新闻标题中的美学这些文献。如果用“新闻*美学”来进行检索,则上述三篇文献都检中。,例如用户想在题名中检索有关新闻美学的文献,如只输入“新闻”或“美学”,则命中文献太多,且有许多不是自己所要的。如果输入“新闻*美学”,则检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。,2、逻辑“或”(OR)运算,扩检,“或”:是用于表示概念并列关系的一种组配。通常用运算符“OR”或“or”或“+”表示,用来扩大检索结果。,A+B,A or B,例如:某用户想查找“研究杜甫”的文献,检索途径选择题名后,输入“杜甫”,命中540篇。但考虑到研究杜甫的文献

43、题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。,3、逻辑“非”(NOT)运算,缩检,“非”:用于概念删除关系的一种 组配,它可从原来检索结果中剔除 一部分不需要的内容,如图所示。可用“NOT”或“AND NOT”或“BUT NOT”或“not”或“-”表示。,AB,A not B,“A NOT B”:从含有A的文献记录中去掉其中也含有B的文献记录。,“B NOT A”:从含有B 的文献记录中去掉其中也含有A的文献记录。,BA,B not A,4、多个逻辑运算符的联合使用,关于“优先级”问题,例:要查找研究唐宋诗歌的文献,可以

44、用“(唐+宋)*诗”、“唐*诗+宋*诗”,而不能用“唐+宋*诗”。“唐+宋*诗”查找的是:含有“唐”的文献或者同时含有“宋”和“诗”的文献,这样就把涉及到唐代、唐姓的文献都找出来了。,当布尔运算符在一个检索式中连续出现时,它们的“级别”是不 同的。其运算顺序有以下两种规则:,先“非”(“-”),后“与”(“*”),最后“或”(“+”)。,按由左至右的顺序(在检索表单里按由上至下的顺序)进行运算。,优先运算检索技术,产生歧义,当检索式中含有逻辑“或”运算而且不知道检索系统采用哪一种运算顺序时,可以使用半角圆括号将“或”运算的前后项括起来进行优先运算。,例:,检索“大学生的信息教育或其素质教育”,

45、检索式如为下式:,大学生 and 信息教育 or 素质教育,优先级运算:()NOTANDOR,大学生 and(信息教育 or 素质教育),大学生 and(素质教育 or 信息教育),(素质教育 or 信息教育)and 大学生,(大学生 and 信息教育)or(大学生 and 素质教育),检索式中允许使用多层圆括号,多层圆括号的运算顺序为:先内后外。例:在Engineering Village 检索系统中,检索Aaron Smith 所写的有关软件设计的文献,检索式如下:,(software design)Wn AB)AND(Smith,Aaron)Wn AU),词间位置检索技术,定义:邻接检索

46、或词距检索,用一些特定的位置算符(position operators)来表达检索词与检索词之间的关系,从而对检索词之间的相对位置进行限制。,可指定两词之间至多可相隔几个词(即在比较时,对文献中出现的这两个检索词之间所插入的位置算符所规定之内的其他词可忽略不计),两词出现的先后次序可以指定位为可对换或不能对换等。,不同的检索系统其位置算符的表示方法不尽相同。,ScienceDirect 检索系统:,w/n:表示两词相邻,词间可插入0n个词,词序可变(w代表words);pre/n:表示两词相邻,词间可插入0n个词,词序不变(pre代表previous)。,检索“air pre/1 bearin

47、g”,可检出:air bearing air foil bearing,EBSCO host 检索系统:,Nn:表示两词之间可插入0n个词,词序可变(N代表Near);Wn:表示两词之间可插入0n个词,词序不变。,检索“air W1 bearing”,可检出:air bearing air foil bearing,词组/短语检索技术,定义:也称为字符串检索,它是将一个词组或短语用半角双引号(“”)或半角大括号()括起作为一个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。,部分外文检索系统中允许用空格代替逻辑“与”运算符,外文词组可被拆分成两个具有逻辑“与”关系的检索词,出现检索偏差

48、,检索“communication satellite”(通信卫星)时,可检出:communication satellite(通信 卫星)satellite communication(卫星 通信),人名,例:“George W.Washington”杂志名或专有名称:“图书馆”“图书馆学报”“环境科学学报”,词组中含有连字符“-”,例:“Freon-22”,词组中含有数字标点符号,例:“1,1-dimethylethyl”,含有and、or、not等会与逻辑算符混淆的字词,在下面一些情况下也可采用半角双引号或半角大括号,系统 会严格遵照词组形式进行检索:,截词检索技术,定义:将检索词在合适

49、的地方截断,用截断的词的一个局部进行检索,并认为凡满足该词局部所有字符(串)的文献即为命中文献。换言之:用给定的词干做检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。,应用对象:名词的单复数形式、词的不同拼写法、同一词根。,按截断的位置来分,截词可有前截断、中截断、后截断三种类型。截断技术可起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。,截词符:“?”代替一个字符(有限截断)“*”代替多个字符(无限截断),magneticsmagnetical,前截断因为实现技术上较困难,在检索系统中比较少见,只有DIALOG等少数几个检索系统中采用

50、。其主要用途在于:进行一个学科的不同应用领域的检索。例如:,前截断,*magnetic,后截断检索技术最为常用,其主要用途有:词的单复数,例如:book?potato?年代,例如:199?(90年代)19?(20世纪)作者,例如:Lancaster*同根词,例如:biolog*,physic*,后截断,例:chem*,可检索出:chemical(化学制品)、chemism(化学机理)、chemomorphosis(化学诱变)、chemosynthesis(化学合成)等。,前截断和后截断可以结合使用:,chemicalchemistrychemist,例:*chemi*,Electro chem

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号