《信息源、信息检索原理与信息检索技术.ppt》由会员分享,可在线阅读,更多相关《信息源、信息检索原理与信息检索技术.ppt(76页珍藏版)》请在三一办公上搜索。
1、信息源、信息检索原理与信息检索技术,基础知识:,目录,信息源及其识别*信息检索原理信息检索技术 检索效果评价,1 信息源(信息资源)及其识别,随着科学技术的发展,(文献)信息源的表现形式呈现多样化态势。了解信息源的不同形式,有助于加深对信息内涵及其特征的认识,为信息的利用打下坚实的基础。,信息源(信息资源)划分示意图,1.1 按照载体形式分,印刷型缩微型 声像型 机读型,1.1 按照载体形式分-印刷型,印刷型即书本型,也称纸介型是一种以纸介质为载体、以书写或印刷方式为记录手段而形成的文献类型。它是一种技术含量低、对个人使用相当方便的一种文献,人们对它司空见惯,是最常用的一种文献载体。上千年来它
2、在人类的阅读、信息的流通中功不可没。优点:缺点:易携带性 信息密度低 易阅读性 容量小 易标记 体积庞大 个人可支付 占有大量存储空间 可存档 不易长久保存 可占有可保存,1.1 按照载体形式分-微缩型,微缩型,以光学材料和技术生成的文献形式,经历了一百多年的历史。在全息照相技术出现之前,一般只是将文字、图象等信息符号进行一种等比的缩放。缩微媒体还可作为计算机数据的存取载体,分别有输入胶卷和输出胶卷。缩微图象可复制,传送设备能将扫描的缩微图象在异地的打印机或传真机等设备上输出。缩微型资料本身的数字化被认为是一种趋势。,1.1 按照载体形式分-声像型,声像型,也称视听型,它使用电、磁、声、光等原
3、理、技术将知识、信息表现为声音、图象、动画、视频等信号,给人以直观、形象的感受。比起文字信息来,人们更乐于并容易接收视听信息,它是人们认知、学习、文化娱乐的重要来源。在科学技术领域中,它在描述自然现象和实验现象方面具有不可替代的表现力,比如大至天体星云,小至原子结构。在语言学习方面,这类文献也有其独到之处。声像文献有许多制品,从唱片、录音带、录像带、电影胶片直至当前风云市场的唱盘和视盘(audio disc&video disc)。利用计算机对音像信息的处理,使声像型文献更丰满、诱人,也声像文献与电子文献浑然一体。,1.1 按照载体形式分-电子型,电子型,也称为机读型,所谓“机”现指的就是计算
4、机、微机。通过计算机对数据的存取与处理,完成文献信息的数字化,形成电子型文献及形形色色的电子出版物,它们包括电子图书、电子报刊、电子新闻、电子会议录等等。机读型的版本也是多样的,有磁带版、磁盘版、光盘版、联机版以及最新的网络版。电子型文献不仅具有存储密度高、存取速度快的特定,而且具有电子加工、编辑、出版、传送等种种功能。它有如下特点【了解】:可存取性、可获得性、即时性、及时性、可检索性、可研究性、学科交叉性、动态性、合作性、可链接性、交互性、广博性、多媒体性。,1.2 信息处理级别(又称文献深度),一般说来:一次信息是基础,是检索的对象;二次信息是检索一次文献的工具;三次信息是一次、二次信息的
5、浓缩和延伸。,1.一次信息(文献)一般指以知识的直接生产者记录的最初发现、发明、新理论、新方法、新见解为内容出版的原始文献,包括期刊论文、研究报告、会议录、专利说明书、学位论文等。2二次信息(文献)二次文献是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,著录其特征(著者、篇名、分类号、出处、文摘等),并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。其主要类型有目录、索引和文摘等。,3.三次信息(文献)是选用大量有关的文献信息,经过综合、分析、研究而编写出来的文献信息。它通常是围绕某个专题,利用二次文献信息检索搜集大量相关文献,对其内容进行深度加工而成。属于这类文
6、献的有综述、评论、评述、进展、动态、手册、指南、年鉴、百科全书等。这些对现有成果加以评论、综述并预测其发展趋势的文献,具有较高的实用价值。在学习和学术研究中,可以充分利用反映某一领域研究动态的综述类文献信息,在短时间内了解其研究历史、发展动态、水平等,以便能更准确地掌握学习和学术研究领域的技术背景等。主要分为:综述研究和参考工具两类。,1.2 信息处理级别(加工深度)示意图,俗称全文,信息,1.3 信息的出版形式,十大传统文献信息源,常见文献信息1.图书2.期刊3.报纸,特种文献信息4.学位论文5.会议文献6.专利文献7.标准文献8.科技报告9.技术档案10.产品资料,多种信息源的载体:A 网
7、络信息源B 数据库,1.3.1 信息的出版形式-图书,论述或介绍某一领域知识的出版物。图书又可分为三类:一类是消遣、教科书、科普读物和一般生产技术图书,属阅读性的图书;一类是辞典、手册和百科全书等,属工具性的图书;另一类是含有独创性内容的专著,它属原始信息(文献)。图书往往是著者在收集大量第一手资料基础上,经分析归纳后编写而成的。其特点是内容比较系统、全面、成熟、可靠,但出版周期较长,报道速度相对较慢。图书主要用于需对大范围的问题获得一般性的知识或对陌生的问题需要初步了解的场合。图书的著录特点是:有书名,有著者,有的还有编者;必有出版地、出版社名和出版年份;非第一版的图书有版次;有的图书还给出
8、国际标准书号(ISBN)。这四点中第2点较重要。,补充:什么是著录,著录就是把文献信息的各种内部、外部特征记录下来的过程,其结果就是形成一条目录信息。文献信息被著录后能有利于被识别、交流和传播。通过著录的目录信息能方便地指向原始信息。,下列情况会用到图书1.系统地学习知识;2.了解关于某知识领域的概要;3.查找某一问题的具体答案。,识别信息源-图书,关于图书的线索有的来源于参考文献、也有的来源于数据库的检索结果。比如下面的记录:钱军,周海炜.知识管理案例M.南京:东南大学出版社,2003.103-115“103-115”表明了作者引用的内容所在的页码范围。请记住:图书最显著的特征是有出版社信息
9、,文献标识符是M,1.3.2 信息的出版形式-期刊,一般是指名称固定、开本一致的定期或不定期连续出版物。期刊论文内容新颖,报道速度快,信息含量大,是传递科技情报、交流学术思想最基本的文献形式。据估计,期刊情报约占整个情报源的60-70%,因此,受到科技工作者的高度重视。大多数检索工具也以期刊论文作为报道的主要对象。对某一问题需要深入了解时,较普遍的办法是查阅期刊论文。,下列情况会用到期刊 1.当做学术研究时,了解与自己的课题相关的研究状况,查找必要的参考文献;2.了解某学科水平动态;3.学习专业知识。,期刊论文的著录格式识别作者(多作者用逗号分开,超过3个者用et al).文章题目.刊物名称,
10、年代,卷数(期数):页数【英文】H.Tohyama,A plasma Image bar for an electrophoto-graphic printer,Journal of the Imaging Science,Vol.35 NO.5,330-3(Sept-Oct 1991)【中文】赵洗尘.数字图书馆资源组织.图书情报工作J,2003(3):7680,杂志,杂志,像期刊和报纸一样,是连续出版物的一种,但是它的内容一般是通俗性的,或者娱乐、新闻等。下列情况会用到杂志 1.寻找关于流行文化的信息和观点;2.得到当前事件的实时信息;3.寻找供某一领域非专业人士阅读的文章。,电子杂志,强调
11、互动性充分利用多媒体利用平台发送电子杂志涵盖从娱乐、运动休闲、语言学习、消费到商业财经等不同领域!基于宽带的内容和集Flash动画、视频短片和背景音乐、声音甚至3D特效等各种效果于一体的多媒体表现形式令他们完全摆脱了传统杂志的束缚,并且具有了更多的互动性。信息源:ZCOM Xplus 猫扑电子杂志 P电子杂志 龙源期刊网 Dmad 酷乐互动 MeMail 希网网络 VIKA DigiBook iebook 妙想互联,期刊与杂志的区别,杂志适合普通读者阅读,内容涉及到生活的方方面面,体育或电影明星,生活、娱乐、故事等 杂志往往有许多照片和广告 杂志上刊登的文章一般不长 杂志的出版周期通常比学术性
12、期刊短-学术期刊适合学者、研究人员及教授们阅读 刊物名称中一般有“学报”等字样,容易辨认 学术期刊中较少照片或广告,封面严肃 学术期刊刊登较长、有深度的研究文章 学术期刊通常由学术或专业机构主办,1.3.3 信息的出版形式-报纸,连续出版物的一种,通常每天或每周发行,它收集了时事和新闻和相关评论的各种文章。特例:还有一天出版5次的报纸。报纸最大的优势是时效性强。下列情况会用到报纸 1.找关于国际、国内和本地事件的最新消息;2.找社论、评论、专家或者大众的观点。报纸著录:国务院新闻办公室.中国的粮食问题.人民日报,1996-10-25(2),1.3.4 信息的出版形式-学位论文,是指为申请学士、
13、硕士、博士等学位而提交的学术论文。学位论文的质量参差不齐,但都是就某一专题进行研究而作的总结,多数有一定的独创性。学位论文是非卖品,除极少数以科技报告、期刊论文的形式发表外,一般不出版。学位论文的获取一般通过专门的数据库或学位授予单位的图书馆。学位论文著录的特点是:通常有表示学位论文的词,如Thesis,Dissertation等;有的有论文作者所在学校的校名。下列情况会用到学位论文1.科学研究开题前的文献调研;2.博硕士研究生撰写开题报告时。3.自己写毕业论文或毕业设计时。4.追踪学科前沿发展、研究研究过程,学位论文著录格式识别(学位级别和机构)1.朱建立.面向对象的分布式知识处理系统:硕士
14、论文.北京:中国科学院计算技术研究所,1987 2.P B Bishop.Computer system with a very large address space and garbage collecti:Ph D dissertation.Cambridge,MA:Massachusetts Inst Technol,1997,1.3.5 信息的出版形式-会议文献,是在学术或专业会议上交流的论文和会议资料编辑出版的信息。特点:内容新颖、专业性和针对性强,传递信息迅速,能及时反映某个专业领域的研究水平,新发现、新成果、新成就以及学科发展趋向,是了解有关学科发展动向的重要信息源。会议文献包
15、括:会前文献,如会议日程预报和会议论文预印本;会中文献:开幕词、讨论记录和闭幕词等;以及会后文献,会议录(Proceedings)、会议论文集(Symposium)、会议论文汇编(Transactions)。会后文献是主要的会议文献。,会议文献的识别,会议文献著录的特点是:有表示会议的专门用词,如Conference,Workshop,Meeting,Congress,Assembly等;有表示会议录的一些词,如Proceedings of.,Collection of.;有的有会议召开的地点、届次、时间,以及会议录的出版社、出版地、出版时间等。这三点中第1点最为重要。惠梦君,吴德海,柳葆凯,
16、等.奥氏体-贝氏体球铁的发展.全国铸造学会奥氏体-贝氏体球铁专业学术会议,武汉,1986,下来情况会用到会议论文1.当做学术研究时,了解与自己的课题相关的研究状况,查找必要的参考文献;2.了解某学科水平动态。,1.3.6 信息的出版形式-专利文献,主要由专利说明书构成。所谓专利说明书是指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件。它经专利局审核后,向全世界出版发行。专利说明书的内容比较具体,有的还有附图,通过它可以了解该项专利的主要技术内容。由于只有符合新颖性、创造性和实用性的发明创造才能获得专利权,所以专利说明书对于工程技术人员,特别是产品工艺设计人员来说,是一种切合实际、启
17、迪思维的重要情报源。,专利文献由于有等同专利,所以重复量大,更具这一特点,可以通过不同途径获得专利全文。专利说明书著录的特点是:通常有表示专利的词(Patent);有专利号。专利号按国际规定由两个字母表示的国家名称和其后的顺序号构成。姜锡洲.一种温热外敷药制备方法.中国专利,881056073.1989-07-26,下列情况会用到专利文献1.在申请专利前,检索相关的专利文献,确定该项发明创造是否能被授予专利权;2.开发新产品,投入新项目,先查专利文献,寻找技术方案;3.从专利文献中了解某领域的技术水平及发展的最新动态;4.开发新产品前,检索专利,了解现状,避免侵权;5.利用权利情报,参谋进出口
18、业务;6.专利诉讼时,帮助寻找证据,处理专利纠纷。,34,1.3.7 信息的出版形式-标准文献,标准化工作的文件。其中主要为工业产品和工程建设的质量、规格和检验方法等的技术规定文件。作为一种规章性文献,它具有一定的法律约束力。一个国家的标准文献反映着该国的生产工艺水平和技术经济政策,而国际现行标准则代表了当前世界水平。国际标准和工业先进国家的标准常是科研生产活动的重要依据和情报来源。国际上最重要的两个标准化组织是国际标准化组织(ISO)和国际电工委员会(IEC)。标准文献著录的特点是:通常有表示标准的词如standard,recommendation等;有标准号。标准号每个标准一个号,并按惯例
19、由标准颁布机构代码,顺序号和颁布年份三部分构成,如“BS6839-1987”。,列情况会用到标准文献1.产品设计、生产、检验;2.工程设计、施工;3.进出口贸易;4.写作、文献著录等各个方面。,1.3.8 信息的出版形式-科技报告,指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。报告的出版特点是各篇单独成册,统一编号,由主管机构连续出版。在内容方面,报告比期刊论文等专深、详尽、可靠,是一种不可多得的情报源。科技报告可分成技术报告、技术备忘录、通报和其他(如译文、专利等)几种类型。有些报告因涉及尖端技术或国防问题等,所以又分绝密、秘密、内部限制发行和公开发行
20、几个等级。目前国际上较著名的科技报告是美国政府的四大报告。,科技报告著录的特点是有报告号,如AD-A233725下列情况会用到科技报告1.当做学术研究时,了解与自己的课题相关的研究状况,查找必要的参考文献;2.研究尖端学科或某学科的最新研究课题。,39,1.3.9 信息的出版形式-技术档案,指科研生产活动中形成的,有具体事物的技术文件、图纸、图表、照片和原始记录等。详细内容包括任务书、协议书、技术指标、审批文件、研究计划、方案大纲、技术措施、调查材料、设计资料、试验和工艺记录等。这些材料是科研、生产工作中用以积累经验、吸取教训的重要文献。技术档案一般为内部使用,不公开出版发行,有些有密级限制,
21、因此在参考文献和检索工具中极少引用。,1.3.10 信息的出版形式-产品资料,指产品目录、产品样本和产品说明书一类的厂商产品宣传和使用资料。产品样本通常对定型产品的性能、构造、用途、用法和操作规程等作具体说明,内容成熟,数据可靠,有的有外观照片和结构图,可直接用于产品的设计制造中参考。产品技术资料著录的特点是:通常有表示产品样本一类资料的词,如Catalog,Guide book,Master of,Databook of等;有公司名称。产品技术资料一般向厂商直接索取,在情报所可以查到一部分,有些以汇编形式正式出版的可以在图书馆查到。如网易电子样本服务:,多种信息源的载体:A、网络信息源,电子
22、出版(网络出版)形式:网络信息源载体形式的变化,引发了新的内容出版形式:如网页、博客、播客、数字出版等形式。下列情况会用到www信息源1.了解时事新闻;2.获得企事业单位或各级政府的信息;3.获取免费的学术资源;4.参与BBS讨论,发表自己对某一问题的看法,也了解别人的相关意见。5.生活、工作、学习中的信息查询、网络导航等。,多种信息源的载体:B、数据库,含义:可以被视为能够进行自动查询和修改的数据与信息的集合。数据库是文献信息检索的主要工具,有各种各样的数据库如期刊全文、电子图书、产品资料库、公司名录、标准法规等。数据库一般都由数据库商提供,通常限度在一定的范围内使用,通常可以在图书馆网站上
23、看到有使用权的大量的数据库。,下列情况会用到数据库1.当你要完成一篇论文,写文献综述时;2.了解某学科领域或某一问题的研究现状,发展趋势时;3.当你知道一篇文章的简单信息,想要了解更多或希望找到全文的重要线索时;4.当做学术研究时,了解与自己的课题相关的研究状况,查找必要的参考文献;5.了解某学科水平动态;6.当你想获得一篇文章全文时,全文数据库是你最理想的选择。,44,小结:,信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。不同的需求选择不同的信息源。哪些信息源是你撰写学术论文必须的网络资源和数据库作为涉及到各种类型信息资源。根据“信息源划分示意图”理解不同信
24、息源划分之间的关系。根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系。,45,2 信息检索原理,信息检索(Information Retrieval):从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。简单说,就是从信息集合中迅速、准确地查找出所需信息的过程和方法。信息集合是指有组织的信息资源整体,可以是:馆藏目录、数据库、(印本)检索工具等。,46,2.1 信息检索与查字典类比,以查字典为类比目录索引正文,2.2 检索与查找的区别,2.3 信息检索原理,从技术上来说,信息检索是以信息的存储与检索之间的相符性为基础的,如下图“信息检索原理图”:,2.4 信息检索类型
25、划分示意图,数据信息和事实信息检索是确定性的检索,检索结果可以直接利用,一般通过三次信息源来完成。文献信息检索是一种相关性检索,检索结果是文献信息的线索,一般通过二次信息来实现。全文数据库:是一次信息和二次信息的综合体。在检索结果中,有直接的全文链接。,2.5 信息检索的意义,避免重复研究,提高研究效率节省查找资料时间,提高信息获取效率获取新知识的捷径,培养创新型人才,2.6 信息检索工具,手工检索工具主要指,如印刷版的全国报刊索引。计算机检索系统 主要指,如中国期刊全文数据库,2.7 信息检索步骤,分析检索课题,明确信息需求选择检索工具,了解检索系统确定检索途经,选定检索方法实施检索策略,浏
26、览初步结果调整检索策略,获取所需信息,信息检索步骤示意图,分析检索课题1.主题内容2.时间范围3.信息类型4.检索语种,主 题 概 念,确定检索途径1.分类途径2.主题途径3.题名途径4.著者途径5.其它途径,选择检索方法1.顺查法2.倒查法3.抽查法4.追溯法5.交替法,信 息 线 索,确定一次信息出处1.缩写还原为全称2.音译转换成原名3.信息类型,选择检索工具1.馆藏目录2.图书馆 信息检索系统,获取一次信息,选择检索工具1.索引、文摘2.全文数据库,3 信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求与信息集合之间匹配的依据,
27、所以信息检索技术的实质是信息检索提问式的构造技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,3.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:,OR+|A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-!A not B 逻辑非。A为
28、真、B为假时,结果才为真,即:A-B,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样(A OR B)AND C NOT D不同的系统次序有差别,但总的来说一般次序为:NOT AND OR例A:查找有关信息检索的非英文文献信息information 检索retrieval 英文english(信息 and 检索)not 英文(information and retriever)not english,分析实例:,上海零售业的现状与发展趋势上海 零售业 现状 发展趋势上海 and 零售业 and(现状 or 发展趋势),3.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用
29、*),主要包括下列情形:截词符?中截一字符,后截断n个字符 如 wom?n 可以检索出:woman,women 如 coumput?可以检索出Compute,Computer,Computing,computable,?后、中截二字符 如:transplant?可以检索出:transplant、transplanted、transplanter?后、中截三字符 如:comput?可以检索出:compute;computer;computing,通配符,无限截断,%?*后方一致(前截断):“%国庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。前方一致(后截断):如:“热电材料%”将检索出热
30、电材料梯度化、热电材料及其梯度化等的记录。,3.3 限制检索,针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:/TI 限在题目中查/AB 限在文摘中查/DE 限在叙词标引中查,前缀限制符例如:AU=限查特定作者JN=限查特定刊名 LA=限查特定语种PN=限查特定专利号PY=限查特定年代,如在谷歌和百度搜索引擎中的检索特定的文献类型:“报告 filetype:pdf”检索指定网址内的信息:“报告 site:”以后会看到一些数据库通常都有年代/类型等的选择,3.4 邻近检索,位置算符(W)with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,
31、n表示两个词中间可以插入=n个的词(如:an in by of the)如:control(1w)system可以检索出“control system”“control in system”等的信息。,位置算符(N)near,(nN)n near 表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)如:control system可以检索出“control system”“system control”等的信息。,字段算符(F)(L)(F)-in the same field 表示检索算符两侧的词必须同时出现在记录的同一字段内。(L)-li
32、nk 表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。,句子位置算符(S)-in the same subfield or same paragraph 表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。这些算符可以一起使用,顺序为(W)(S)(F)。实践上这些算符都是扩大检索范围。,3.5 网络检索,短语检索(半角双引号)自动纠错检索(如:李熬,你是不是要检索李敖)自动转换检索(如:汉语拼音转换成文字)自然语言检索概念检索(同义词/近义词/狭义词,如搜索引擎Excite)相关检索,3.6 其它
33、检索的表述,二次检索/在结果内检索精确检索模糊检索跨库检索/一站式检索扩展检索(类似搜索引擎的概念检索)一般检索/高级检索/专家检索/命令检索还有什么检索?,小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索网络信息检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,一些疑问?,如何在实践中应用这些技术?即使用了这些技术,要么检索结果太多多,要么检索结果太少,有没有什么方法解决这些问题?,4 信息检索效果评价,检索效果(retrieval effect
34、iveness)是指检索系统检索的有效程度,它反映检索系统的能力。也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(precision ratio),分别用 R 和 P 大写字母表示。,相关文献 非相关文献 总计检出文献 a(hit)b(noise)a+b未检出文献 c(mission)d(rejected)c+d总计 a+c b+d a+b+d+c,查全率(Recall Ratio):R=a/(a+c)*100%查准率(Precision Ratio):P=a/(a+b)*100%一系列的实验结果表明查全率与查准率之间存在互逆关系。,小结,检索与查找的区别信息检索的含义、原理、类型、意义信息检索工具、方法、步骤信息检索类型划分示意图能通过“信息检索原理图”理解信息检索原理能够借助“信息检索步骤示意图”理解并记忆信息检索五步骤知道信息查全率和查准率。,