《信息检索课件-4信息检索模型及技术.ppt》由会员分享,可在线阅读,更多相关《信息检索课件-4信息检索模型及技术.ppt(32页珍藏版)》请在三一办公上搜索。
1、,4.1 信息检索模型4.2 计算机检索技术介绍,经典检索模型主要包括布尔检索模型、向量模型和概率模型。,4.1.1 布尔检索模型,(1)概念及原理在布尔模型中,每个文献用一组标引词表示,每个提问则表示为标引词的布尔组配。布尔检索实际上就是集合之间的并、交、补运算。,例如,对于某一特定文献i,可表示为:Di=(T1,T2,T3,Tm)对于特定提问J 可表示为:Qj=(T1 and T2)OR(T3 and(not T4),(2)特点1)优点 2)缺点(3)扩展布尔检索模型,4.1.2 向量模型,(1)向量模型的描述文档D(Document)特征项t(Term)文献向量的表示:D(t1,t2,t
2、n)特征项权重Wk(Term Weight):词条权值计算方法为 TF-IDF 函数(见下页)提问向量:Q=(q1,q2,qm)相似度S(Similarity)(见后),特征项权重Wk(Term Weight),词条权值计算方法为 TF-IDF 函数,常用的TF-IDF公式:,文档相似度表示,4.1.3 概率模型,概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。概率检索模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率。最后系统据此做出检索决策。概率标引理论的基础是对标引词加权并利用权值来计
3、算文献的相关值,即满足给定提问的概率值。,概率检索模型有多种形式,常见的为第二概率检索模型。词的权值设计为:文档d与用户查询Q相关概率可定义为:,4.1.4 结构化文本检索模型,结构化文本检索模型描述一般方法 在树状结构中,节点代表文献内容,如章节、段落等,边线代表各内容之间的关系,如章节包含几个段落。根节点用来标识整个文献,叶节点由文献内容构成,如文本、图像等。叶节点可以以任意粒度表述,如单个词汇、短语、句子等。把有根节点没有叶节点的结构作为集合内容看待,其信息内容由其各构成部分决定。常见的结构化文本模型 基于非重叠链表的模型 基于邻接节点的模型,4.1.5 浏览模型,(1)有效的浏览系统数
4、据库应具备几个条件 能使用户把特定的信息需求定位在数据库感兴趣的文献集合中。能使用户在做进一步检索时意识到用合适的方法进行查找。能确保用户快速有效地浏览数据库。,(2)对静态数据库的浏览:如中国知网,(3)浏览式检索系统接口设计要遵循的原则 可视化原则,要具备扩展人类空间能力的思维,人们检索时输入选择的是词汇而不是整篇文献,检索用户与系统交互时间要迅速,要能反映人们认知上的区别要反映浏览检索模型在系统的应用。,(4)常见的浏览模型,4.1 信息检索模型4.2 计算机检索技术介绍,布尔检索技术,(1)逆波兰变换法(a+b)*c-(a+b)/e的后缀表达式为:(a+b)*c-(a+b)/e(a+b
5、)*c)(a+b)/e)-(a+b)c*)(a+b)e/)-(ab+c*)(ab+e/)-ab+c*ab+e/-普通的中序表达式转换为逆波兰表达式的一般算法,-/*/+c+e/a b a b,4.2.2 聚类检索技术,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。聚类检索技术实现的算法思想 文档聚类,4.2.3 基于内容的多媒体检索概述,现有基于内容检索系统列表IBM公司的QBIC:http:/哥伦比亚大学的WebSwwk:http:/Virage公司的Virage:http:/波士顿大学的Image Rover:麻省理工学院的PhotoBook:
6、http:/vismod.www.mediao.mit.edu/tpminka/photobook,4.2.4 基于内容的图像检索技术,(1)四种类型.基于颜色特征的检索.基于纹理特征的检索.基于形状及区域的检索.基于空间约束关系的检索(2)图像信息及其检索特征分析 著录特征 视觉特征 逻辑特征 语义特征,(3)主要查询方式1)示例2)描绘3)属性和特征说明(领域特定特征)4)浏览,(4)图像检索系统的构成,4.2.5 基于内容的音频检索技术,所谓音频检索,是指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似,语音检索技术,大词汇语音识别技术检索,子词单元检
7、索,关键词识别检索,对说话人的辨认进行分割,音乐检索技术 音乐检索利用的是诸如节奏、音符、乐器特征。音乐的乐谱典型地以事件形式描述。人的音乐认知可以基于时间和频率模式。示例,或者可以唱或哼出要查找的曲调。结构化音乐检索(例如MIDI)。,音频信息特征提取方法 音频信息特征提取的技术路线主要两种 从叠加音频帧中提取特征 从音频片断中提取 具体方法 首先对音频数据进行加窗处理形成帧 然后,对每一帧作离散傅立叶变换 最后应用不同算法计算相应的帧特征 再计算帧特征的标准偏差、数学期望值和方差 把帧特征推广成片段特征,音频信息的主要查询方式 示列直喻拟声浏览文本,4.2.6 基于内容的视频检索技术,基于内容的视频检索就是指根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。它提供这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。,视频可分为两类 动画若每帧图像是由人工、计算机产生的图像、图形,则称之为动画;影像若每帧图像为实时获取的自然景物图像,称之为影像。视觉信息的检索特征 著录特征帧镜头和场景视频语义,基于内容的视频检索方式 基于关键帧的检索 基于运动特征的检索 基于视频语义特征的检索,基于内容的视频检索系统结构,