中文数据库跟信息检索技术资料课件.ppt

上传人:牧羊曲112 文档编号:3870190 上传时间:2023-03-25 格式:PPT 页数:81 大小:5.36MB
返回 下载 相关 举报
中文数据库跟信息检索技术资料课件.ppt_第1页
第1页 / 共81页
中文数据库跟信息检索技术资料课件.ppt_第2页
第2页 / 共81页
中文数据库跟信息检索技术资料课件.ppt_第3页
第3页 / 共81页
中文数据库跟信息检索技术资料课件.ppt_第4页
第4页 / 共81页
中文数据库跟信息检索技术资料课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《中文数据库跟信息检索技术资料课件.ppt》由会员分享,可在线阅读,更多相关《中文数据库跟信息检索技术资料课件.ppt(81页珍藏版)》请在三一办公上搜索。

1、黄艳娟Huangyanjuan,中文数据库检索 信息检索技术与过程,信息检索技术与策略,CNKI检索,维普检索,万方检索,CNKI检索,CNKI资源总体介绍,1,数据库检索与使用方法,2,CNKI资源总体介绍,1,我校购买的资源包括:,CNKI资源总体介绍,1,该库收录1915年至今国内出版的近7000 种学术期刊,其中核心期刊、重要评价性数据库来源期刊近 2600 种。内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域,全文文献总量 2200 多万篇。,该库收录1999年至今全国 420 家博士培养单位的博士学位论文。累积出版博士学位论文全文文献 6万多篇。,该库收录199

2、9年至今全国652 家硕士培养单位的优秀硕士学位论文。累积出版硕士学位论文全文文献 44万多篇。,收录2000年以来国家二级以上学会、协会、高等院校、科研院所、学术机构等单位的论文集,年更新约 10 万篇论文。累积出版会议论文全文文献 73万篇。,CNKI数据库登录CNKI使用指南,数据库检索与使用方法,2,CNKI数据库登录,需要注意的是:,偶尔会提示输入用户名和密码。请记住:用户名:DX0437密码:hrbgc,CNKI数据库登录CNKI使用指南,数据库检索与使用方法,2,CNKI使用指南:,认识CNKI检索平台利用CNKI查找有关“机械手自由度”的文献,认识检索平台,A 通用菜单在各个总

3、库平台首页和检索结果页都提供了通用菜单,B 统一检索平台可进行跨库检索,C 总库文献出版报表,D 文献资源统一导航,利用CNKI查找有关“机械手自由度”的文献,CNKI的检索方式:跨库检索还是进入单库检索?,如何选择,这就需要分析检索人的需求,跨库:可以同时检索多个子库,获取更多更全面的结果,而且省时省力单库:一次只检索一个类型的文献,避免结果过多造成的困扰检索人的需求是什么?是为了获取关于某一内容的系统的全面的信息,还是只是想搜索特定类型的文献信息?,跨库检索,检索字段,检索词,机械手,布尔逻辑算符,自由度,检索结果,检索字段信息检索途径,检索途径是用户根据需要,以文献信息的外部特征和内容特

4、征来确定的检索入口。根据信息的外部特征:题名途径、著者途径、序号途径根据信息的内容特征:分类途径、主题途径,信息检索途径(检索字段),责任者途径题名途径分类途径主题途径序号途径引文途径,信息检索途径,1 题名(题目、标题等)途径,2 责任者(作者、编者等)途径,3 序号(ISBN号等)途径,4 分类途径,5 主题途径(主题词),6 关键词途径,ISBN是国际标准书号(International Standard Book Number)的简称,是国际通用的图书或独立的出版物(除定期出版的期刊)代码。出版社可以通过国际标准书号清晰的辨认所有非期刊书籍。一个国际标准书号只有一个或一份相应的出版物与

5、之对应。,ISSN(国际标准连续出版物编号,International Standard Serial Number)是根据国际标准ISO3297制定的连续出版物国际标准编码,其目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识。,信息检索技术,布尔逻辑检索 位置算符检索 截词检索与词根检索 精确检索与模糊检索,布尔逻辑检索最常用的信息检索技术,布尔逻辑检索(Boolean logical)就是利用布尔逻辑算符进行检索项的逻辑组配,用以表达检索者的提问概念。,布尔逻辑(台湾译布林逻辑)得名于乔治布尔,他是爱尔兰科克的皇后学院的英国数学家,他在十九世纪中叶首次定义了逻

6、辑的代数系统。现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。使用集合代数作为介绍布尔逻辑的一种方式。还使用文氏图来展示各种布尔逻辑陈述所描述的集合联系。,布尔逻辑检索,逻辑“与”,逻辑“或”,逻辑“非”,逻辑“与”:用“AND”或“*”表示。用于连接概念交叉和限定关系的检索词。功能:以缩小检索范围,有利于提高查准率。,逻辑“或”:用“OR”或“+”表示。用于连接并列关系的检索词,功能:以扩大检索范围,防止漏检,有利于提高查全率。,逻辑“非”用“NOT”或“-”号表示,用于连接排除关系的检索词,功能:即排除不需要的和影响检索结果的概念,以提高查准率。,逻辑与检索式构造举例,如:查找“胰岛

7、素治疗糖尿病”的检索式为:insulin(胰岛素)and diabetes(糖尿病),逻辑或检索式构造举例,如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌)or neoplasm(新生物),逻辑非检索式构造举例,如:查找“动物的乙肝病毒(不要人的)”的文献的检索式为:hepatitis B virus(乙肝病毒)not human(人类)。,2 位置算符检索,位置检索也叫邻近检索。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系。表示两词之间的位置邻近关系,常用到的位置算符有(W)(nW)(N)nN)等。,W算符,W

8、算符是word或with的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除了有一个空格或一个标点外不得夹有其他的单词或字母。information 2W management 可包括 Information technologies and management和 Information management,N 算符,N 算符是near的缩写,表示在此算符两侧的检索词必须紧密相连,词序可颠倒。nN表示两检索词之间最多可以插入n个单词,且词序可颠倒。information N retrieval information 2N retrieval,3 截词检索,截词

9、检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。,(1)后截断,前方一致。如:comput?表示computer,computers,computing等。(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。(3)中截断,bas?s=basis bases colo?r 包含 colour(英)

10、和color(美),模糊检索与精确检索,模糊检索(fuzzy search)是与“精准检索”相对应的一个概念,是指搜索系统自动按照用户输入关键词的同义词进行模糊检索,从而得出较多的检索结果。同义词由系统的管理界面配置。如配置了“电脑”与“computer”为同义词后,检索“电脑”,则包含“computer”的网页也会出现在检索结果中。模糊检索也就是同义词检索,用户在检索页面中输入同义词中任何一个词检索时,只要选中“模糊检索”复选框,则该关键词的所有同义词信息也都被检索出来。,精确检索,精确检索是指检索词与检索字符串完全相等。如检索作者马智,仅检索出作者为马智的文献,作者为“马智勇”的就不会被检

11、索出来。,模糊检索,模糊检索结果,精确检索,进入单库检索,请看检索举例视频,期刊导航,使用CAJ阅读器和PDF阅读器,2023/3/25,39,同方知网(北京)技术有限公司,浏览器下载,点击文章篇名,进入知网节页面:,CAJ下载的优势:占用空间小下载速度快内嵌专业词典即时工具书释义个性化编辑文献文档定位功能打开大部分PDF文档并进行个性化编辑,2023/3/25,2023/3/25,机械手,以“学术趋势”为例:,2023/3/25,2023/3/25,信息检索过程,分析需求确定检索词,选 择 信 息 源,确定检索途径和方法,1,2,3,4,实施检索获取原始文献,信息检索过程是从确立检索需求到信

12、息需求得到满足的全过程。,过程一:分析需求,确定检索词,1 明确检索目的*需要关于某方面的系统详尽的信息*需要关于某方面的最新信息*了解一些片段信息,解决一些具体问题2 明确课题的主题或主要内容 要形成若干个既能代表信息需求又具有检 索意义的关键词(检索词),确定检索词之间的关系3 涉及的学科范围4 所需信息的数量、语种、年代范围等,需求分析:,课题一:“赟”这个字的读音课题二:中西关系发展综述课题三:机械手的定义课题四:近2年气动机械手的新技术研究课题五:新中国60年城镇化发展综述,北大政府管理学院老师燕继荣的联系方式及近3年发文情况,过程一:检索词的确定,信息检索语言分析课题的概念隐含概念

13、的分析核心概念的选取选取检索词应注意问题,主题检索语言,常用的就是关键词关键词:从文献的题目、正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词。确定关键词的步骤:a.分析课题,提取概念 b.整理概念,扩充同义词汇 c.运用分析所得词汇试查,确定课题适用的关 键词,主题检索语言,叙词:又称主题词语言,是指从自然语言中优选出来并经过规范化处理的名词术语。“沪产脚踏车”“上海”、“自行车”,自然语言,主题词,确定检索词,分析课题的概念隐含概念的分析核心概念的选取选取检索词应注意问题,分析课题的概念,选择所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析各概念之间的上、下、左、右

14、关系,以便制定检索策略。如课题“政策与行政学的关系”可选“政策”、“行政学”作为关键词。,隐含概念的分析,有些课题的实质性内容很难从课题的名称上反映出来,其隐含的概念和相关内容需从专业的角度做深入的分析,才能提炼出确切反映课题内容的检索概念。如“知识产权保护”概念中的“知识产权”一词隐含着“著作权”和“版权”、“工业产权”等概念。,核心概念的选取,有些检索词概念已体现在所使用的数据库中,这些概念应予以排除。如World Textiles中“世界”一词应排除。另外有些比较泛指、检索意义不大的检索概念,如“发展”“现状”“趋势”等在不是专门检索综述类信息时也应予以排除。,检索词选取时应注意的几个问

15、题。,检索词的选取应适当,具有专指性,涵盖主要主题概念,意义明确。一般应优先选择规范化主题词做检索词,但为了检索的专指性也可选用关键词配合检索。尽可能地考虑其相关的同义词、近义词作为检索词,以保证查全率。如同一概念的几种表达方式,同一名词的单、复数,动名词、过去分词形式,上位概念词与下位概念词,化学物质的名称、元素符号,植物和动物名的英文、拉丁名等。,过程二:选择信息源,明确了信息需求之后,信息源的选择尤为重要,它直接影响着检索的效率。工欲善其事,必先“选”其器,信息源选择得当,就会给人以愉悦的搜索体验,能够收到事半功倍的效果。,一 北京大学政府管理学院硕士招生信息二 该院导师三某一导师的姓名

16、、联系方式四 该导师的发文情况,近3年,第一项可以选择搜索引擎查找,二三项可以进入北大政府学院网站查找,第四项需要使用CNKI等数据库,过程三:选择检索途径和方法,检索途径信息检索技术检索式的构造与调整,信息检索途径(检索字段),责任者途径题名途径分类途径主题途径序号途径引文途径,检索式的构造与调整,检索式:是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。(篇名=聚氯乙烯 or PVC)and 年代=2005-2009,过程四:实施检索获取原始文献,问题:北大政府管理学院老师燕继荣的联系方式及近3年发文情况可分为2个问题:A北大政府管理学院老师燕

17、继荣的联系方式B北大政府管理学院燕继荣近3年发文情况,A北大政府管理学院老师燕继荣的联系方式,利用搜索引擎找到北大政府管理学院网页浏览找到燕继荣的联系方式,北大政府管理学院燕继荣近3年发文情况,检索式:作者=燕继荣 AND 单位=北京大学政府管理学院 AND(时间=2007-2009),检索结果的评价,查全率:从数据库中检出的相关文献量与数据库中总文献量的比率。查准率:指数据库中检出的相关文献量与检出的文献总量的比率。,查全率a/a+c100查准率a/a+b1000,查全率,检出的相关文献数,系统中的相关文献总数,查准率,检出的相关文献数,检出的文献总数,例题:如CNKI数据库中共有“企业管理

18、”方面的相关文献280篇,而小李同学在CNKI数据库中只检索出160篇,而且其检索出的结果中还有28篇是不相关的,那么小李这次检索的查全率和查准率各是多少?,KEY,查全率 47.1%查准率 82.5%,超星电子图书数据库中的图书可以下载吗?答案:是,方正电子图书在线浏览的时间是15分钟吗?答案:否 是20分钟,三个中文电子图书数据库包括超星、金图和方正吗?答案:否 超星、方正和书生之家,三个中文电子图书数据库中阅读效果最清晰的是书生之家吗?答案:是,三个中文电子图书数据库的阅读需要专门的阅读器吗?是,超星电子图书下载之后可以换机器阅读吗?是,超星图书安装了阅读器就一定能正常阅读吗?否,超星电子图书在不打开阅读器的情况下也可以下载否,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号