《信息检索教程》PPT课件.ppt

上传人:牧羊曲112 文档编号:5464160 上传时间:2023-07-10 格式:PPT 页数:34 大小:986KB
返回 下载 相关 举报
《信息检索教程》PPT课件.ppt_第1页
第1页 / 共34页
《信息检索教程》PPT课件.ppt_第2页
第2页 / 共34页
《信息检索教程》PPT课件.ppt_第3页
第3页 / 共34页
《信息检索教程》PPT课件.ppt_第4页
第4页 / 共34页
《信息检索教程》PPT课件.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《《信息检索教程》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索教程》PPT课件.ppt(34页珍藏版)》请在三一办公上搜索。

1、信 息 检 索 教 程,王立清 主编,普通高等教育”十一五”国家级规划教材,计算机信息检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在信息检索中得到了广泛的使用。,第6章 计算机检索概述,6.1.1 计算机信息检索的含义计算机信息检索指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。,第6章 计算机检索概述,第6章 计算机检索概述,计算机信息检

2、索,6.1.2 计算机信息检索发展简史计算机信息检索的发展经历了四个阶段:,第6章 计算机检索概述,6.1.3 计算机信息检索的分类计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型:1.根据所检索数据库的形式分,第6章 计算机检索概述,书目检索,数据检索,事实检索,全文检索,2.根据计算机检索服务方式分,第6章 计算机检索概述,日常检索,回溯检索,定题检索,3.根据检索方式分,网络检索,光盘检索,联机检索,脱机检索,6.1.4 计算机信息检索的特点 1.检索范围大。2.检索速度快。3.检索功能强,组配灵活。4.检索途径多。5.数据更新及时,时效性强。6.检索结果输出形式多样。

3、,第6章 计算机检索概述,6.2.1 检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。其中关键在于构造能够确切表达信息需求的检索式。,第6章 计算机检索概述,6.2.2 检索表达式检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。检索表达式主要有逻辑表达式、加权表达式和其他表达

4、式。其中,最为常用的是逻辑表达式。,第6章 计算机检索概述,6.2.2.1 逻辑表达式逻辑表达式是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。有逻辑与“AND”、逻辑或“OR”、逻辑非“NOT”。,第6章 计算机检索概述,逻辑表达式的构造中,根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说,对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可采用增加逻辑与的使用。,第6章 计算机检索概述,6.2.2.2 加权表达式 所谓加权检索,是指在检索提问中,根据

5、每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。但就具体应用来说,加权检索的使用远不及布尔逻辑表达式广泛。,第6章 计算机检索概述,例如,用加权表达式来表示查找“中国高等教育的发展趋势”的信息需求,可以写为:中国(5)高等教育(5)发展趋势(5)阈值W=15括号内的数字5即是权值。具体检索时,对同一条记录内包含并且匹配这三个检索

6、词的权值相加,超过阈值15时,就作为命中文献输出。逻辑上还是“与”的关系。如“论中国高等教育的发展趋势”这篇文献,各检索词权值相加是15(中国5,高等教育5,发展趋势5),就是命中文献之一。而“中国高等教育的现状”,检索词权值相加为10(中国5,高等教育5),小于阈值15,即为非命中文献。,第6章 计算机检索概述,6.2.2.3 位置检索表达式位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词(或短语)之间的距离和位置关系。不同的检索系统可能会采用不同的位置算符,目前应用广泛的主要是:,第6章 计算机检索概述,W,nW,N,nN,6.2.2.4 截词检索表达式 截词检索表达式指在检索式

7、中用专门截词符号表示检索词的某一部分允许有一定的词汇变化。截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。,第6章 计算机检索概述,后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如,检索式comput?将检出包含computer、computing、computerized、computerization等词汇的结果。中间截词,允许检索词中间有若干变化形式,例如wom*n就可同时检索到含有woman和women的结果。前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索

8、*physics就可检得包含physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。,第6章 计算机检索概述,6.2.2.5 限制检索表达式限制检索表达式指用限制符限定检索词出现范围的检索式。常用的字段限定代码有:标题(TI,Title)、作者(AU,Author)、主题词(SU,Subject)、年代(PY,Publication Year)等。一些网络检索工具也允许用户采用限制检索表达式,可把检索范围限制在标题、统一资源定位地址(URL)或超链等部分。,第6章 计算机检索概述,6.2.3 检索策略的构造步骤信息检索策略的构造

9、步骤如图:,第6章 计算机检索概述,6.2.4 检索策略的反馈与调节6.2.4.1 影响查全率和查准率的主要因素 1.主题分析是否准确、全面 2.检索词选择是否准确 3.检索词之间逻辑关系的配置是否合适。,第6章 计算机检索概述,6.2.4.2 提高查全率和查准率的方法 1.提高查全率的方法,第6章 计算机检索概述,2.提高查准率的方法,第6章 计算机检索概述,6.3.1 全文检索技术全文检索(Full Text Retrieval),就是以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索技术。与其他检索技术相比,全文检索技术的新颖之处在于,它可

10、以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是信息线索。,第6章 计算机检索概述,中文全文检索技术的研发始于1987年左右,现已出现了一些商品化的软件,包括TRS、Quick IMS、南辰、天宇、I-Search等。其中,最有影响的当属TRS全文信息检索系统,它可以广泛地应用于各种信息数据库、信息门户的建设,以及从Web站点检索、Internet搜索引擎到电子商务等各种应用中文信息的发布检索。,第6章 计算机检索概述,6.3.2 基于内容的多媒体检索技术 基于内容的多媒体检索技术突破了传统的基于文本描述和检索的局限,直接对图像、视频、音频内容进行分析,利用媒体

11、对象的语义、媒体的视觉和听觉特征来进行检索。也就是依据图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等内容特征建立索引并进行检索。基于内容的检索还融合了模式识别、计算机视觉、图像理解等技术,是多种技术的合成。根据所检索媒体对象的不同,基于内容的多媒体检索技术又可分为基于内容的图像检索技术、基于内容的视频检索技术和基于内容的音频检索技术等。,第6章 计算机检索概述,6.3.2.1 基于内容特征的图像检索技术CBIR(Content-based Image Retrieval)主要依据图像固有的特征来标引和检索。所谓图像特征包括:图像的画面内容特征;图像描述对象

12、特征;图像的相关信息及其他物理特征,图像的移动和组合特征等。目前,比较成功应用基于内容的图像检索技术的系统有IBM公司的QBIC系统、MIT媒体实验室的Photobook系统、新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统等。,第6章 计算机检索概述,基于内容的图像检索技术,第6章 计算机检索概述,基于内容的图像检索方式主要有3种:(1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中选择某个作为检索图样。(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分布、形状或纹理相似的结果。(3)示

13、例查询。选择系统中的一幅图像,要求系统检索与之类似的图像。用户一般是通过浏览选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。,第6章 计算机检索概述,6.3.2.2 基于内容的视频检索技术视频又称动态图像,是一组图像按时间顺序连续表现,它的表示与图像序列、时间关系有关。视频数据可用幕、场景、镜头、帧等描述。视频序列主要由镜头组成;镜头由一系列连续的帧组成;帧是一幅静态的图像,是组成视频的最小单位;场景含有多个镜头;幕是由一系列相关的场景组成,表达一个完整的事件。视频检索实际上是对动态图像进行检索,视频检索的实质就是在大量的视频数据中找到所需要的视频片段。,第6章 计算机

14、检索概述,基于内容的视频检索技术,第6章 计算机检索概述,6.3.2.3 基于内容的音频检索技术基于内容的音频检索就是将输入的字符序列和音频数据库中的字符序列相匹配。在检索前,首先对音频数据建立索引,索引可以基于韵律、旋律以及其他的感知或声学特征。目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。,第6章 计算机检索概述,1什么是计算机信息检索?2概述计算机信息检索发展简史。3简述计算机信息检索的类型。4与传统的手工检索相比,计算机信息 检索有什么特点?5简述计算机检索策略的含义和作用。6什么是检索表达式?7检索表达式的构成可以采用哪几种方法?,思 考 题,第6章 计算机检索概述,8提高查全率的方法有哪些?请举例说明。9结合自己的检索实践,说明如何提高查准率。10概述全文检索技术。11概述基于内容的图像检索技术。,第6章 计算机检索概述,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号