《信息检索基础知识.ppt》由会员分享,可在线阅读,更多相关《信息检索基础知识.ppt(40页珍藏版)》请在三一办公上搜索。
1、一 信息检索二 信息检索语言、途径三 信息检索技术四 检索步骤,第二章 信息检索基础知识,一、信息检索 信息检索:是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,信息检索,存储,检索,存储:是对信息进行著录、标引、整序,编制检索工具和建立检索系统的过程。,检索:是指面向信息需求而进行高度选择性的查找过程。,检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根
2、据一定的线索与规则从中找出(search,locate,hit)相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。,信息检索一般过程,信息源,信息分析、著录、标引,信息的表示,检索语言,数据库,匹配过程,输出检索结果,用户,用户需求分析,检索表达式,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,二 信息检索语言、途径,1、检索语言的含义及作用2、检索语言的类型3、检索途径,1、检索语言的含义及作用,检索语言:用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言。它要求文献的标引者
3、和检索者共同遵守。按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用来标引文献,称为标引语言,用以编制索引就称为索引语言,用来检索文献则称为检索语言。是根据检索需要而创造的一种人工语言。,作用:1)、保证不同标引人员表征文献信息的一致性。2)、使内容相同及相关的文献集中化。3)、保证检索提问与文献信息标引的一致性。4)、保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。,2、检索语言的类型,检索语言的类型,表述文献外部特征的语言,表述文献内部特征的语言,题名责任者机构号码,分类法,主题法,单元词语言 标题词语言叙词语言关键词语言纯自然语言,信息特征与标识对应关系,责
4、任者及其单位,题名,摘要,关键词,中图分类号文献标示码,正文,分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。具体体现为用分类号和类名来表达信息的主题概念,如F25 物资经济*中国图书馆图书分类法(5部类,22大类)*美国国会图书馆分类法*杜威十进位分类法*IPC国际专利分类法,中图法大类表,中图法体系细分如下所示:,T工业技术TP 自动化技术、计算技术 3 计算技术、计算机 31
5、计算机软件 316 操作系统.1 分时操作系统.2 实时操作系统.7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工)391.7 机器辅助技术 391.72 CAD 391.73 CAM,F 经济F0 经济学F1世界各国经济概况、经济史、经济地理F25 物资经济F250 物资经济理论F252 物资流通F5 交通运输经济F50 交通运输经济理论F53 铁路运输经济F54 陆路、公路运输经济F55 水陆运输经济F56 航空运输经济F57 城市运输经济F74 国际贸易F740 国际贸易理论与方法U 交通运输U16 特种货物运输U169 集装箱运输U169.6 集装箱运输管理,
6、主题语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语言与非规范主题语言。规范主题语言:规范主题语言是以自然语言为基础,经过标准化、规范化处理的词语,具有概念性、规范性、组配性、语义性和动态性。规范主题语言包括单元词语言、标题词语言和叙词语言。*单元词语言 是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,再经规范,能表达一个独立的概念。比如“天气雷达”不是单元词,只有“天气”和“雷达”才是单元词,在英语中,单元词经常是一个单词。如
7、WPI-规范化主题词表*标题词语言 是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息公司出版的工程标题词表(简称SHE)是典型的标题词语言,但该公司1993年以后改用工程索引叙词表(Ei Thesaurns)。,*叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。如汉语主题词表、INSPEC叙词表(科学文摘)、工程索引叙词表等。非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言。关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用
8、于揭示信息主题内容的自由词。纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。,关键词的提炼,1、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长)古代语言演变=古代语言*语言演变=古代语言*演变2、反映信息内容的全面性 协同设计+协同工作3、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑“加热设备”可抽象化为“温度控制设备”“温度计”即“温度测量仪器”4、少
9、用或不用副词、助词、指示代词等不反映检索内容的词或词组。如a,the,is,http,com5、删除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件6、补充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)7、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。8、切忌想要什么就输什么。另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。
10、,3、检索途径,检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索,信息检索途径及其选择,内容特征检索途径主题途径指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。【如何提取检索词】:1、切分 切分就是以词为单位划分句子和词组。例:检索有关国际|国内|集装箱|班轮|运输方面的研究论文要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”,2、删除 将课题转换成关键词
11、的集合A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等)B.删除过分宽泛和过份具体的限定词无损检测技术在材料性能评价中的应用无损检测*材料C.删除具有包含关系的其中一个教学用的信息检索课多媒体课件信息检索*多媒体*课件3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)空气中细菌的计算方法空气污染的计算方法 水果营养(水果fruit=梨pear+橙orange+苹果apple+),4、补充A、补充还原词组:WTO世贸组织世界贸易组织B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒C、增
12、加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)【获得主题词的技巧】:在图书的版权页可以找到该书的主题词和分类号,或者通过图书馆的馆藏数据来查找主题词。,分类途径 指根据文献所属的类别,利用特定的分类号来检索文献的途径。优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。当所需要的信息范围比较宽泛或涉及内容复杂,仅用几个词语已无法涵盖检索需求时多采用分类途径。例:检索“集装箱种类”的信息,该用何种途径?分析:A、如果明确知道“集装箱种类”有哪些,而且知道具体名称,就用主题途径;(如保温集装箱、冷藏集装箱、柔性集装箱、液体集装箱、气体集装箱、干散物品集装箱、罐式物
13、品集装箱、集装袋等)B、如果课题所指内容不是特定的几种,而是多种,也不知道具体的名称,就用分类途径。(F169.4 集装箱种类),著者途径 即根据已知文献著者来查找文献的途径。【排列规则】1、统一采用姓+名的顺序。英文的人名需实行倒置!如:Arrow BSmith(阿罗B史密斯)Smith,Arrow.B.2、复姓作者,将复姓作整体看待 例:Margaret Martin-SmithMartin-Smith,Margaret【中文翻译成英文的处理】3、音译:直接用汉语拼音。西南交通大学Xi nan(southwest)jiaotong university4、意译:通常有多种写法,检索式必须列
14、举各种写法,才能保证查全率。例:原西南师范大学在欧洲专利数据库中就有三种写法:Southwest China Normal Uniwersity/Southwest University/Xinan Teachers,University【拼写形式】如:张建国Zhang JG或Zhang JianGuo(通常),Zhang J(有时),Jianguo Z(偶尔),其他途径题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需停息的方法途径。机构名称途径主要包括作者所在的单位,以及图书期刊的出版发行单位等。代码途径如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在
15、已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。引文途径从被引论文去检索引用论文的一种途径。,三 检索技术,一、概念检索二、布尔逻辑运算符组配检索三、截词检索四、字段限制检索五、位置运算符六、检索技巧和方法,一、概念检索 检索标识是具体的检索词或词组,每个检索词表达一个概念,具体检索时,将检索词与数据库中的文献特征标识进行类比,两者相同,则该记录为命中文献。如:“铁路”、“物流”,二、布尔逻辑算符组配检索 布尔逻辑组配运算是采用布尔代数中的逻辑“与”逻辑“或”、逻辑“非”等算符,将检索提问式转换成逻辑表达式,限定检索词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所
16、规定的条件的文献,既为命中文献。,布尔逻辑运算符,1、逻辑“或”2、逻辑“与”3、逻辑“非”,1、逻辑“或”(和),用符号“or”或“+”表示,其逻辑表达式为:A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A和B的,均为命中文献。如:铁路 or公路,2、逻辑“与”,用符号“and”或“*”表示,其逻辑表达式为:A*B 或 A and B 其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。如:铁路 and 物流,3、逻辑“非”,用符号“not”或“-”,其逻辑表达式为:A not B 或 A-B 其意义为:检索记录中含有检索词A,但不能含有检
17、索词B的文献,才算命中文献。如:铁路 and 物流 not 公路,三、截词检索,截词检索主要是利用检索词的词干或不完整的词形进行检索。不同的系统截词符也不同:一般用“?”“*”表示.1、后方截词:用于前方一致的派生词检索。如:信息?则表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。2、前方截词:用于后方一致的派生词检索。如:?经济 则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。,3、有限截词 在检索词后面加上一个或一个以上(最多4个)的“?”,空一格,再加一个“?”。如:Comput?可检索出:Computer,Computers,Computing,
18、截词检索在不同的计算机检索系统中规定不同,请使用时注意。,四、字段限制检索,为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。在数据库中,一般用“in”或者“/”加上字段名称来限制检索的范围,用“=”来连接语种、文摘号和出版社时间 如:logistics management in ti(表示只在题目字段中查找文献)logistics management in kw(只在主题词中查找)logistics management in ab(只在文摘中查找)au=Smith,J.C(查作者为Smith,J.C 的文章)py=1998(只查1998年的文章)la=Ch
19、inese(只查语种为中文的文献),五、位置运算符,With(W):设定需检索的两个词或词组必须按顺序出现在记录中,且两词之间不允许插入其他词,只能有空格或一个标点符号.其扩展为(nW)。如:Computer(W)virus;Microwave(nW)radarNear(N):设定需检索的两个词或词组位置可以颠倒,在两词之间不能插入其他词,其扩展为(nN)。如“near3”设定需检索的两个词或词组在同一句子中且相隔不超过3个单词。如:Computer(N)virus;Microwave(nN)radar,A、扩大检索范围提高查全率,*概念的扩大。*范围的扩大。*增加同义词、近义词、相关词和缩略
20、词。*用“or”、”?”、叙词表*年代的扩大。*去掉连字符可扩大检索范围。*换另外的数据库或是另外的光盘继续进行检索。,B、缩小检索范围的方法提高查准率,*核心概念的限定。*核心期刊的限定。*语种的限定。*用布尔逻辑算符“and”或者“not”组配检 索词。*使用位置算符“near”和字段算符“in”提 高查准率。*使用“Index”和叙词表,选择确切的检索 词缩小检索范围,六、检索的技巧和方法,例如:某一老师就课题“有关国际|国内|集装箱|班轮|运输方面”的研究论文?分析课题(信息提问):包括主题内容、信息类型、时间范围 提炼检索词即关键词:集装箱 AND 班轮运输(container AN
21、D Liner Shipping)选择适当的检索工具:CNKI确定检索途径和检索方法:检索途径:主要采用主题检索与分类检索相结合 检索方法:简单检索方法与二次检索相结合调整检索策略:根据检索结果与信息需求不断调整检索途径与方法。获取原文:利用CNKI全文库获取(视频)检索效果评价,四 信息检索步骤,检索效果评价,信息检索的最终结果是否满足用户需求或满足程度如何,就存在对检索质量和效率进行评价的问题。在检索实践中,主要包括收录范围、查全率、查准率、响应时间、用户负担及输出形式,评价检索效率的基本指标具体有以下几种:查全率(Recall ratio)用R表示查准率(Precision ratio)
22、用P表示漏检率(Omission ratio)用O表示误检率(Fall-out ratio)用F表示新颖率(Novelty ratio)用N表示有效率(Availability ratio)用A表示检索速度(Time ratio)用T表示,(一)查全率(R)和漏检率(O)在对特定检索系统进行检索的过程中,我们设定:检中的相关信息量为a,系统中的相关信息总量为b,检索出的信息总量(包括非相关信息)为c,被用户实际利用的信息量为d,检索过程所花费时间为t。R=a/b*100%=检中的相关信息量/系统中的相关信息总量*100%O=(1-a/b)*100%查全率等于检索出的相关信息量与系统中的相关信息
23、总量的百分比,而漏检率指检索系统中的相关信息未被检中而造成的遗漏现象。查全率和漏检率是互补关系。实际上由于现代检索系统的数据更新迅速,并大量采用关键词进行特征标引,作为用户不可能清楚系统中相关信息的实际数量,因此,查全率和漏检率实际上均为模糊的指标。(二)查准率(P)和误检率(F)P=a/c*100%=检中的相关信息量/检索出的信息总量*100%F=(1-a/c)*100%查准率等于检中的相关信息量与检索出的信息总量的百分比,误检率等于检索出的无关信息量与检索出的信息总量的百分比。查准率和误检率也是互补的关系。,(三)检索速度(T)、新颖率(N)与有效率(A)T=a/t*100%=检索出的相关
24、信息量/检索所花费时间*100%N=检中的在单位时间内发布的最新相关信息量/单位时间内发布的最新相关信息总量*100%A=d/a*100%=用户实际利用的相关信息量/检索出的相关信息总量*100%检索速度是衡量检索效率的一个重要指标,影响检索速度的因素主要是检索系统本身的运行速度、用户的检索技能水平和网络通信传输速度等方面。新颖率指获得最近一年或半年或一个月等单位时间内的最新信息量的比重。有效率指被检中的相关信息中与用户需求密切相关并被利用的信息量的比重。从以上几个指标可以清楚地看到,我们对所需信息的满足程度是相对的,几个评价指标都同时达到百分之百是不可能的,比如查全率越高,查准率就越低,反之,查准率越高,则查全率就越低。,本课重点,1、名词解释:信息检索、检索语言?2、信息检索有哪些途径?3、信息检索的一般步骤有哪些?4、举例说明常用检索运算符的使用方法?5、评价检索效率的基本指标?6、如何提高查全率和查准率?,