信息检索技术.pptx

上传人:李司机 文档编号:4489549 上传时间:2023-04-24 格式:PPTX 页数:39 大小:1.10MB
返回 下载 相关 举报
信息检索技术.pptx_第1页
第1页 / 共39页
信息检索技术.pptx_第2页
第2页 / 共39页
信息检索技术.pptx_第3页
第3页 / 共39页
信息检索技术.pptx_第4页
第4页 / 共39页
信息检索技术.pptx_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《信息检索技术.pptx》由会员分享,可在线阅读,更多相关《信息检索技术.pptx(39页珍藏版)》请在三一办公上搜索。

1、第二讲 信息检索技术,课程主讲内容:检索语言 检索技术 图书馆OPAC 中图法介绍,信息检索基本原理,2.1 检索语言,检索语言:是描述文献特征、用于标引和检索的人工语言。创建检索语言的目的,是建立沟通标引与检索的桥梁,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。在存储的过程中用于标引信息称为标引语言;用于编制索引就称为索引语言;用于信息检索则称为检索语言。,检索语言种类,分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题语言(subject language)

2、是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。,检索语言种类,2.1.1 分类语言,一种用分类号表达文献中的各种概念,并以学科性质为主对各种概念加以分类和系统排列的文献信息检索语言。通常以数字、字母或字母与数字相结合作为基本字符,采用字符直接连接

3、并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。优点:清楚反映类目之间的内在联系,包括从属、并列、交替、相关等。,2.1.1 分类语言,中图法等级分明的科学系统 O 一级类目 数、理、化 O1 O3 O4 O6 O7 二级类目 数学 力学 物理化学 晶体 O11O12 O13 三级类目古典数学 初等数学 高等数学 O121 O122 O123 O124 四级类目 算术 初等代数 初等几何 三角,2.1.1 分类语言,国内外常用的分类法有:国内:(1).中国图书馆分类法(2).人民大学图书馆图书分类法(人大法)该分类法从1953起陆续在全国各图书

4、馆试用,后经过多次修订再版,目前仍有许多图书馆采用该分类法。(3).中国科学院图书馆图书分类法(科图 法)该分类法主要用于中国科学院图书馆及其所属各科研单位的图书馆(室)。国外:(1).杜威十进制分类法(Decimal Classification)简称为杜威法,DDC 或DC 目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。(2).美国国会图书馆图书分类法(Library of Congress classification)简称为。(3).国际十进分类法(Universal Decimal Classification)简称。

5、(4).国际专利分类法(International Patent Classification)简称 IPC。,2.1.2 主题语言,主题:一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题,即文献的中心内容。主题词:表达主题概念的词汇主题语言:以主题词作为文献内容标识和检索依据的语言,以自然语言的字符为字符,用一组名词术语作为检索标识,2.1.2 主题语言,正式主题词非正式主题词,按照选词方式的不同划分,按照选词方式的不同划分,标题词,单元词,叙词,关键词,2.1.2 主题语言,2.1.3 代码语言、自然语言,信息检索语言的未来,2.2 常用检索途径,“检索途径”(approa

6、ch)又称为检索点(access point),是检索的入口点和出发点 利用信息的外部特征(题名、责任者、著者和出版者等)和内容特征(分类号、主题词和关键词等)来查询相关的信息 从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索;反映文献外部特征:作者、名称和号码检索等。,检索语言与检索途径的关系,2.3 常用检索技术,2.3.1 布尔逻辑检索,用布尔逻辑算符(Boolean Logic operator)将检索词、短语或代码进行逻辑组配来指定文献的命中条件和组配次序,用以检索出符合逻辑组配所规定条件的记录。也是目前最常

7、用的一种检索技术。,逻辑与AND*与 并且并含 空格逻辑非NOT,-非不含排除无关结果提高查准率,逻辑或OR+或者 扩大搜索范围,提高查全率,2.3.1 布尔逻辑检索,逻辑“与”,具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示(搜索引擎常用“空格”表示)。检索词A和检索词B用“与”组配,检索式为:A AND B,或者 A*B 它表示检出同时含有A、B两个检索词的记录。例:图书馆教育 library AND education,2.3.1 布尔逻辑检索,逻辑“或”,一种具有概念并列关系的组配,用“OR”或“+”或“|”算符表示检索词A和检索词B用“或”组配,检索式为:A OR B

8、,或者 AB 它表示检出所有含有A词或者B词的记录。例:会计准则 OR 会计核算,2.3.1 布尔逻辑检索,逻辑“非”,逻辑“非”是一种具有概念排除关系的组配,用“NOT”或“”算符表示。检索词A和检索词B用“非”组配,检索式为:A Not B,或者 A-B它表示检出含有A词,但同时不能含有B词的记录。例:能源-太阳能,2.3.2 截词检索,2.3.2 截词检索,2.3.3 字段检索,将检索词限定(Within)在某个或某些字段中,用以检索某个或某些字段含有该检索词的记录。,方式1、通过下拉菜单选择检索字段。此时,字段名一般用全称表示。,2.3.3 字段检索,方式2、输入检索字段符限定检索字段

9、。,注意:相同的字段在不同的数据库,代码可能不同,检索时需要参阅数据库代码表。,2.3.4 词位置检索,又称为“临近检索”,在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。,2.3.4 词位置检索,W算符,“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格、标点或连字符号。,例:economic(W)recovery可检出含economic recovery和economic-recovery的记录。Wuhan(W)universit

10、y:Wuhan University,Wuhan-University,或Wuhan,University,(nW),此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。,例:economic(nW)recovery 通过Google检出结果网页:https:/.hk/?gws_rd=ssl#q=economic(neW)+recovery&newwindow=1&safe=strict&start=10,2.3.4 词位置检索,N算符,例:Wuhan(N)universityWuhan University,Wuhan-University,或Wuhan,Unive

11、rsityUniversity,Wuhan;University-Wuhan;University Wuhan,nN,此算符两边的检索词之间插入词的最多数目是 n 个,且两个检索词的次序可以任意颠倒。,例:economic(nN)recovery 通过Google检出结果网页:https:/.hk/?gws_rd=ssl#q=economic(nN)recovery&newwindow=1&safe=strict&nfpr=1&start=20,“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒,即查找两个连在一起的单词,但两词之间不能插入任何词,可以有空

12、格、标点或连字符号。,2.3.4 词位置检索,2.3.5 特殊检索技术,短语检索,大小写检索,在某些检索系统中,还使用双引号“”标示不可分割的词组或短语,例:“tax accounting”,在检索结果中tax accounting必须是连在一起的词组,才能专指税务会计。,针对大小写具有不同含义的单词或词组,在检索时需要注意其大小写格式,才能保证检索结果的准确性。例:CHINA 中国 china 瓷器;APPLE 苹果手机 apple 苹果 Windows AND design 视窗设计 windows AND design 窗户设计,2.3.6 检索式,将各检索单元(其中最多的是表达主题内容

13、的检索词)之间的逻辑关系、位置关系等,用检索系统规定的各种算符连接起来,成为计算机可识别和执行的命令形式。,例如:minicomputer/DE,TI OR personal computer/ID,TI)AND PY=2008 AND LA=English AND(AF=Wuhan Univ.)这个检索式所表达的检索要求是:查找著者单位为武汉大学,2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。在互联网搜索引擎中,限定字段也是常用的语法。例如,“filetype:”表示在某种文件类型(如do

14、c、pdf)中查找资料。税务会计 AND filetype:PPT 查找PPT格式的税务会计方面的记录,2.3.6 检索式,运算原则:“”和()优先运算,其次按照布尔逻辑运算原则进行。禁用词 在数据库中,下列九个词不能作为检索词使用,这些词称为禁用词。AN、AND、BY、FOR、FROM、OF、TO、THE、WITH,思考:在食品数据库中检索同时含有草莓、香草和巧克力三种口味的冰淇淋。,英文检索式:(ice cream)AND strawberry AND vanilla AND chocolate)WN All fields)。中文检索式:(冰淇淋 OR 冰激凌)AND 草莓 AND 香草 AND巧克力)WN All fields),2.4 信息检索步骤,用户评价,2.5 检索效果评价,信息检索效果是利用检索系统进行检索所产生的有效结果。,克兰弗登检索效果评价指标,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号