信息检索基础知识研究生.ppt

上传人:小飞机 文档编号:5229997 上传时间:2023-06-16 格式:PPT 页数:84 大小:3.24MB
返回 下载 相关 举报
信息检索基础知识研究生.ppt_第1页
第1页 / 共84页
信息检索基础知识研究生.ppt_第2页
第2页 / 共84页
信息检索基础知识研究生.ppt_第3页
第3页 / 共84页
信息检索基础知识研究生.ppt_第4页
第4页 / 共84页
信息检索基础知识研究生.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《信息检索基础知识研究生.ppt》由会员分享,可在线阅读,更多相关《信息检索基础知识研究生.ppt(84页珍藏版)》请在三一办公上搜索。

1、医学信息检索Medical Information Retrieval,河北联合大学医学信息检索教研室,第二章 信息检索基础知识 主讲教师:谈伟文图书馆信息咨询部 电话3725914/6576,Chapter 2 Information Retrieval Theoretical Knowledge,Database Knowledge Computerized Retrieval Language Computerized Retrieval Techniques Approach,steps and effectiveness evaluation,Chapter 2 Informatio

2、n Retrieval Theoretical Knowledge,基础概念信息检索:是指通过一定的方法,从任一信息 集合中查出特定信息的过程。检索手段:手工检索 计算机检索检索对象:文献、事实、数值数据等,Chapter 2 Information Retrieval Theoretical Knowledge,手检VS机检(馆藏书目),手工检索,计算机检索,手检VS机检(文献检索-手检),检索工具书,检索工具书,手检VS机检(文献检索-机检),Section Database knowledge,Chapter 2 Information Retrieval Theoretical Kno

3、wledge,Section Database knowledge,是指一定专业范围内的信息记录及其索引的集合体。是计算机信息检索系统的重要组成部分。是信息资源,是检索的对象,一次文献,二次文献,信息记录,索引,一、数据库的类型(Database Type)按检索对象划分 1.文献数据库(literature Database)又分为书目数据库、全文数据库 2.数值数据库(numeric database)3.事实数据库(fact database)4.多媒体数据库(multimedia database),Section Database knowledge,二、数据库的结构 1.记录(Re

4、cord)是构成数据库的一个完整的基本信息单元,每条记录描述了一原始信息的外部特征和内容特征。2.字段(Field)是比记录更小的信息单元,是组成记录的数据项目。3.文档(File)两重含义 4.索引(Index)为便于检索而建的倒排文档,Section Database knowledge,CBM记录样例,MEDLINE记录样例,专利数据库记录样例,科技名人数据库记录样例,SERLINE记录样例,文档的两重含义,数据库中部分记录的集合,文档的两重含义,指数据库的结构分为 顺排文档(又称主文档)倒排文档(又称索引文档),主文档与索引文档图释,001 微量元素与老年人肺心病关系的探讨 王书钧;汤

5、兵祥;杜鹃;王国琳 河南医科大学第一附属医院 中华老年医学杂志 1993;12(4):247 肺心病;痕量元素002 慢阻肺的新进展与临床 黄桂平 江西省大吉山钨矿医院 医学综述 2000;6(4):164-165 肺疾病,阻塞性;慢性病003 超声乳化白内障摘除术 施玉英 北京同仁医院 中国医刊 2001;36(7):11-13 超声乳化白内障吸除术,主文档(顺排文档),索引文档(倒排文档),杜鹃 001黄桂平 002施玉英 003 汤兵祥 001 王国琳 001 王书钧 001,Remember the commonly used fields,字段名称AbstractAffiliatio

6、nAuthor Source TitleLanguage,字段标识符ABADAU SOTILA,中文释义文摘/摘要著者单位/地址著者/作者 来源/出处篇名/题名/标题语种,题录的构成,Author,Title,Source,题录(citation),题录的格式,作者、篇名、出处(刊名、年、卷、期、页码)格式:作者.篇名.刊名,年,卷(期):起止页码例如:姜春林,刘则渊,梁水霞.H指数和G指数期刊学术影响力评价的新指标J.图书情报工作,2006,50(12):63-65.Chler MW,Binder M,Friess H,et al.Potential role of somatostatin

7、 and octreotide in the management of acute pancreatitis.Digestion,1994,55:16-19.,Section Computerized Retrieval Language,Chapter 2 Information Retrieval Theoretical Knowledge,检索语言(Retrieval language)是根据文献信息存储与检索的需要而创造的人工语言。又称标引语言或索引语言。,Section Computerized Retrieval Language,计算机匹配运算的特征是机械匹配(或字符匹配),而

8、非概念匹配例如:输入finding,检出finding 输入findings,检出findings又如:输入“儿童生长发育”,检出“儿童生长发育”输入“儿童发育”,检出“儿童发育”,Section Computerized Retrieval Language,第二节 信息检索,机械匹配或字符匹配举例,多词一义,艾滋病爱滋病获得性免疫缺陷综合症AidsAcquire Immunodeficiency Syndrome,检索语言是根据文献信息存储与检索的需要而创造的,用来描述文献的内容特征、外表特征和表达检索提问的一种人工语言。,Section Computerized Retrieval La

9、nguage,文献的特征,特征1,特征2,特征3,特征4,特征5,特征n,文献的外部特征:与文献主题内容没有关系或关系不大的信息称为文献的外部特征,包括作者、作者工作单位,发表时间、专利号、报告号等。文献的内容(主题)特征 与文献主题内容密切相关的信息称为文献的内容特征。文献信息内容特征主要有主题词和分类号。,(一)描述信息外表特征的检索语言 文献题名、作者、作者工作单位、文献发表时间、出处(刊名、卷、期、页)等 专利专利名称、专利号、发明人、申请时间等 歌曲曲名(字数、拼音)、歌手姓名等 药品商品名、化学名称、生产厂家等,Section Computerized Retrieval Lang

10、uage,(二)描述信息内容特征的检索语言 1.分类检索语言 2.主题检索语言 3.代码检索语言,Section Computerized Retrieval Language,1.分类检索语言 用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。等级体系分类检索语言(体系分类法)中图法 分析综合型分类检索语言(组配分类法),Section Computerized Retrieval Language,A 马克思主义、列宁主义、毛泽东思想B 哲学C 社会科学总论D 政治、法律E 军事F 经济 G 文化、科学、教育、体育H 语言、文字I 文学 J 艺术K 历史、地理,N 自然科学总

11、论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学Z 综合性图书,中图法简表,Example,图书期刊排架,中目的分类目次例:R775眼压与青光眼,该期R775类中共4篇,2.主题检索语言 用于表达文献主题内容的语词标识系统。(1)主题词:严格规范化处理的表达文献主题概念的语词。是人工受控语言。(2)关键词:从文献的题名、摘要、章节标题或正文中抽取出来的具有实质意义,并能表达文献的主题内容,未经严格规范化处理的语词。属自然语言的范畴。,Section Computerized Retrieval Language,E

12、xample,非主题词:单车、脚踏车主题词:自行车用“单车”检索:会漏掉所有有关“脚踏车”和“自行车”的文献用“脚踏车”检索:会漏检所有“单车”和“自行车”的文献用“自行车”检索:可查到所有相关文献,自行车单车脚踏车,MeSH,美国国立医学图书馆,中国中医药学主题词表,中国中医科学院中医药信息研究所,放大这4篇,主题索引中同上,主题索引的分在R779.66,青光眼外科学2篇#254、#256,放大这2篇,3.代码检索语言 根据文献信息中论述事物的代码作为标识,加以标引和排列。如用化合物的分子式编排而成的索引。专利号、标准号等。属于自然语言的范畴。,Chapter 2 Information R

13、etrieval Theoretical Knowledge,Chapter 2 Information Retrieval Theoretical Knowledge,Chapter 2 Information Retrieval Theoretical Knowledge,Section Computerized Retrieval Techniques,一、布尔逻辑检索 二、截词检索 三、限定检索 四、位置检索 五、加权检索 六、二次检索,Section Computerized Retrieval Techniques,Section Computerized Retrieval Te

14、chniques,一、布尔逻辑检索:3个运算符 AND OR NOT逻辑“与”(积)A and B,Section Computerized Retrieval Techniques,逻辑“或”(和)A or B,A B,Section Computerized Retrieval Techniques,逻辑“非”(差)A not B,1.aged,cataract,and,2.zinc,or,calcium,3.apoptosis,not,animal,Examples,例1 老年白内障例2 有关锌和钙两种元素例3 细胞凋亡的非动物实验研究,Section Computerized Retr

15、ieval Techniques,优先运算次序NOTANDOR()可以改变上述运算顺序,先算()里的部分例如:钙或锌与儿童发育的关系,逻辑表达式为(钙 or 锌)and 儿童发育(钙 and 儿童发育)or(锌 and 儿童发育),(钙 or 锌)&儿童发育(钙or锌)and 儿童发育机器可识别的符号*-“”()?/HIF-1“HIF-1”kidney failure,chronickidney-failure-chronic,注 意,Section Computerized Retrieval Techniques,二、截词检索(Truncated search)截词(Truncation)

16、是把检索词从某处截断,用特定的符号(截词符或通配符)代替被截去的一个或多个字符。截词符(通配符):*?#$:作用:扩大检索范围,二、截词检索(Truncated search)常用的截词符(通配符):*(0-n个字符)?(0-1个字符)其他截词符(通配符):$或者:(0-n个字符)#(1个字符),Section Computerized Retrieval Techniques,Section Computerized Retrieval Techniques,二、截词检索(Truncated search)举例:无限截*$:child*child、children、childish、chil

17、dhoode*ologyecology、embryology、etiology、epidemiology有限截(强制)#dog#dogs wom#nwoman、women,二、截词检索(Truncated search)举例:有限截(可选)?$n child?child、children、childishpain?pain、pains、paint m?nman、mencol?rcolor、colour、collardog$1dog、dogs,Section Computerized Retrieval Techniques,二、截词检索(Truncated search)中文数据库中的截词叶?

18、平叶京平、叶选平肝炎*疫苗肝炎疫苗、肝炎病毒基因疫苗、肝炎减毒活疫苗、肝炎灭活疫苗注:由于汉字书写形式的缘故,中文的截词主要用于词中,词尾不需要截词,自动截词。,Section Computerized Retrieval Techniques,注 意,1.不要滥用截词,不要截得过短 car*cars、care、carry、cardiac、cardial、cardiant、cardia 2.截词符号要用西文输入法3.截词符号在外文数据库主要用于词尾和词中;而在中文数据库主要用于词中 4.?在不同的中文数据库中有不同规定,有的代表一个汉字,有的代表一个西文字符,注意:在一些中文数据库中,在著者和

19、刊名两个 字段中做限定检索,还有精确和模糊之别,三、限定检索(Limited Search)1.限定字段检索 儿童 in ti;child in ti 癌症 in ta 黎明 in au 哮喘 in ab;asthma in ab English in la 动物 in ct;animal in tg,Section Computerized Retrieval Techniques,模 糊 检 索黎明 in AU检索出的作者有:赵黎明、李黎明、黎明江、黎明癌症 in TA检索出的期刊有:癌症中国癌症杂志实用癌症杂志,精 确 检 索AU=黎明检索出的作者只有:黎明 TA=癌症检索出的期刊只有:

20、癌症,Section Computerized Retrieval Techniques,CBM、CNKI的匹配模式图示,2.限定条件检索,四、位置检索(临近检索Location Search)全文检索时应用,可提高查准率 对两个检索词之间的相对位置进行限制(W)-With 两词之间紧邻、不可倒序(N)-Near 两词之间紧邻、可倒序 n表示两词之间可以插入若干个词 限两词在同一自然句或字段范围 其他符号如 adj 或 field、subfield 不同检索系统有不同的定义和规则,Section Computerized Retrieval Techniques,五、加权检索(Weighted

21、 Search)强调检索词必须是检索结果的核心概念。是一种缩小检索范围,提高检准率的有效方法。,Section Computerized Retrieval Techniques,Section Computerized Retrieval Techniques,六、二次检索 即在结果中检索,用以缩小检索范围,提高查准率。CBM的二次检索图示,Section Computerized Retrieval Techniques,CNKI的二次检索图示,Chapter 2 Information Retrieval Theoretical Knowledge,Section Computerize

22、d retrieval approach,steps and effectiveness evaluation,(一)分类途径(二)主题途径(三)关键词途径(四)著者途径,(五)引文途径(六)机构途径(七)刊名途径(八)默认途径(机检),Computerized retrieval approach,steps and effectiveness evaluation,一、检索途径(Retrieval Approach),缺省检索图示(CBM为例),不同数据库的引文检索图示,不同数据库的默认检索图示,二、检索步骤(Retrieval Steps)(一)分析检索课题(二)选择检索工具(三)选择检

23、索途径(四)确定检索词(五)制定检索策略表达式(六)试检(七)查找文献线索(八)索取原始文献,Computerized retrieval approach,steps and effectiveness evaluation,Retrieval effectiveness evaluation,时间(time),质量(quality),查全率,查准率,费用(cost),Retrieval effectiveness,三、检索效果评价(Retrieval Effectiveness Evaluation)检索效果是指利用检索工具实施信息检索时所产生的有效结果。,查全率(Recall ratio

24、)=检出相关文献量/数据库内相关文献总量 100%查准率(Precision ratio)=检出相关文献量/检出文献总量 100%,Retrieval effectiveness evaluation,保证查全率的基础上提高查准率平衡查全率和查准率为了保证查准率将重要概念置于题名、关键词字段;为了保证查全率将相对次要的概念置于比较宽泛的范围(默认、文摘、全文)例:篇名=败血症 AND 篇名=治疗 56篇 默认=败血症 AND 默认=治疗 213篇 平衡:篇名=败血症 AND 默认=治疗 103篇,思考题,1.数据库的类型有哪些?数据库的结构如何?2.什么是检索语言?如何分类?3.检索途径有哪些?4.常用的计算机检索技术有哪些?5.何为检索效果?如何进行检索效果的评价?,河北联合大学建设路校区图书馆医学信息检索教研室2013年9月,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号