《信息检索之检索语言.ppt》由会员分享,可在线阅读,更多相关《信息检索之检索语言.ppt(27页珍藏版)》请在三一办公上搜索。
1、信息检索的原理,4、分类语言的依据和特征,课题概念分类的方法。,5主题检索语言和关键词检索语言的主要区别是什么?,6、什么是数据库?文献型数据库的结构,7、布尔逻辑检索有哪几种,其功能是什么?,分类语言的依据和特征,课题概念分类的方法。,检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。,什么是检索语言?,什么是分类语言?,分类语言也称分类法。用分类号和相应的分类款目来表达各种概念,以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序,能反映事物的从属派生关系,便于按学科门类进行族性
2、检索。按照分类方式的不同,分类语言又分为体系分类语言、组配分类语言和混合分类语言。,分类语言的依据,中国分类法专利分类法标准分类法,中国分类法,标准分类法,分类语言的特征,1.表达文献外部特征的检索语言2.表达文献内部特征的检索语言,(一)表达文献外部特征的检索语言,表达文献外部特征的检索语言主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。描述文献外表特征的检索语言可简要概述为:题名、著者、文献编号等索引。,(二)表达文献内部特征的检
3、索语言,1.分类语言分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。以知识属性来描述和表达信息内容的信息处理方法称为分类法。,课题概念分类,单概念课题多概念课题上位类分类法,主题检索语言和关键词检索语言的主要区别是什么?,主题词与关键词最大的区别就是主题词经过了规范化处理。主题词是规范化的检索语言,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。如:白介素2、白细胞介素
4、2、IL2、IL-2等表达同一概念的不同书写形式规范为“白细胞介素2”。,主题词表是对主题词进行规范化处理的依据,也是文献处理者和检索者共同参照的依据。关键词是属于自然语言的范畴,未经规范化处理,也不受主题词表的控制。如:对于“白细胞介素2”这一概念可有白介素2、白细胞介素2、IL2、IL-2等不同形式来表达。因此,为了达到较高的查准率和查全率,如果检索工具提供了主题词这一检索途径的话就应该选择主题词来进行检索,而不应该选择关键词。,例如:利用MEDLINE光盘数据库检索有关“肝肿瘤”方面的文献。MEDLINE光盘数据库既提供了主题词途径,也提供了自由词(关键词)途径。如果选择关键词途径来进行
5、检索,欲达到较高的查准率和查全率,就得查找“liver cancer”、“liver carcinoma”、“liver neoplasm”、“liver tumor”、“hepatic cancer”、“hepatic carcinoma”、“hepatic neoplasm”、“hepatic tumor”等词,另外还得考虑像cancer、carcinoma、neoplasm、tumor等词还有复数形式;而如果选择主题词途径进行检索就只需查找“liver neoplasms”一词就行了,这一词就包括了以上所提及的不同的表达形式。由此可见,选用主题词途径检索,既能满足较高的查准率、查全率,又
6、能提高检索速度,何乐而不为呢?,什么是数据库?文献数据库的结构.,数据库的定义 数据库是指至少由一种文档组成,能满足特定目的的或特定功能数据处理系统需要的数据集合。在计算机情报检索系统中,多数数据库为关系型数据库。数据库的类型按照数据库所含信息内容的不同,文献数据库可分为文字型、数值型和多媒体型,多媒体型数据库是指含有字符、声音、图像信息的数据库。这种数据库一般为超文本结构。他们既可以用于查找相文献信息,也可以用于查找特定的属性值、声音和图像。文字型数据库是指以文字字符为主要记录内容的数据库,包括书目型、事实型、百科全书型、词库型和全文型数据库。这类数据库主要用于查找相关文献信息。数值型数据库
7、包括来自科学研究,原始文献或者调查研究的各种数值型或图表型数据库。这类数据库主要用于查找确定对象的特定数值信息。,数据库的成,从使用者观点观察,数据库主要由“-记录-字段-”三个层次构成。,文档从数据库的内部来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档记录是文档的基本单元。他是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一篇完整的文献:在书目数据库中,一个记录相当于一条文摘或题录。,字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录含有的题名、作者、出版年、主题词、文摘等字段。根据与文献内容相
8、关与否,文献数据库的字段通常分为基本字段和辅助字段两类。基本字段包括题名、文摘、关键词等,是与文献内容相关的字段。辅助字段包括作者、着这单位和期刊名称等,是与文献内容基本相关的字段。,记录实例作者:赵少庆篇名:信息技术对公共行政的影响论纲。文章出处:国家行政管理学杂志,2005.12(5):345-347内容摘要:社会信息化是当代社会的一种大趋势,他正推动着公共行政现在化的进展。信息技术发展对诸如行政人员、行政决策、行政组织、行政方法、行政公文、行政管理模式等公共行政管理要素和过程产生着深远影响。,布尔逻辑检索有哪几种,其功能是什么?,常用的布尔逻辑算符有三种,分别是:,布尔逻辑算符:逻辑与,
9、组配方式:AandB或者A*B,表示两个概念的交叉和和限定关系。作用:检所包含所有关键字的数据。缩小检索结果:增加检索专指,提高差准率。实例:aspartame AND cancer,布尔逻辑算符:逻辑或,组配方式:A OR B或者A+b,表示检索结果含有A或含有B,或同时包含A,B两个概念的文献。它主要应用于概念之间的并列关系。1作用:检索“微量元素铜、铁、锌与儿童营养不良”的文献(铜OP铁OR锌)AND(婴儿OR幼儿OR儿童)AND营养不良 2 例如:aspartame O R saccharine O R swweetener*,布尔逻辑运算:逻辑非,1:组配方式:A NOT B,A-B表示。检索结果即为再还有概念A的文献中,排除同时含有B的概念。2:作用:排除无关概念,用来缩小检索范围,提高查准率。3:实例:ands NOT hearing 检索含有“aids”的数据,排除含有”hearing”的文献。,谢谢观赏!,