《信息检索理论模型.ppt》由会员分享,可在线阅读,更多相关《信息检索理论模型.ppt(59页珍藏版)》请在三一办公上搜索。
1、2023/10/9,1,第2章 信息检索理论模型,2023/10/9,2,信息检索过程,信息检索过程实际上涉及到三个重要的处理:文档集的逻辑表示查询的表示相似匹配及其排序对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型,2023/10/9,3,信息检索模型分类,2023/10/9,4,本章主要内容,2.1 布尔检索模型2.2 向量空间模型2.3 概率检索模型2.4 信息检索逻辑模型,2023/10/9,5,2.1 布尔检索模型,布尔检索模型的理论基础是布尔逻辑和集合理论,2023/10/9,6,2.1 布尔检索模型,布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的基础部
2、分利用符号来表示逻辑中的各种概念建立了一系列的运算法则,利用代数的方法研究逻辑问题,2023/10/9,7,布尔运算,布尔逻辑运算符:“与(AND)”、“或(OR)”、“非(NOT)”运算的定义,2023/10/9,8,传统布尔检索模型,文献表示将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则取0。给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意
3、一篇文献di就可以表示为(di1,di2,din),2023/10/9,9,传统布尔检索模型,查询表示 在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式例如,布尔提问式q=t1 and(t2 or not t3)q的主析取范式(t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3)q的简化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf
4、的3个合取子项(合取子项可用符号qcc表示),2023/10/9,10,传统布尔检索模型,匹配函数,2023/10/9,11,传统布尔检索模型,文献D1=(t1,t2,not t3)查询Q=t1 and t2 and not t3,2023/10/9,12,传统布尔查询的评价,该模型结构简单、容易实现和快速检索。,2023/10/9,13,传统布尔查询的评价,布尔模型在检索系统的开发与应用中表现出的主要问题有:(1)准确匹配(exact matching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关
5、的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。,2023/10/9,14,传统布尔查询的评价,为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。,2023/10/9,15,2.2 向量空间模型,2.2.1 传统向量空间检索2.2.2 项的权重模式2.2.3 相似度的计算2.2.4 潜在语义标引,2023/10/9,16,2.2.1 传统向量空间检索,向量空间模型(Vector space model)介绍向
6、量空间模型(VSM)的评价,2023/10/9,17,向量空间模型介绍,1.文献空间(1)文献空间的概念文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重文献与空间点(2)标引词空间,2023/10/9,18,向量空间模型介绍,2023/10/9,19,向量空间模型介绍,2.项权重(1)词频 越重要的项分配越高的权值可以用词频来作为该项的权重(用tf表示)(2)文献频率 假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专
7、指度较差,可能就不太重要 在设计项权重时,要考虑逆文献频率(用idf表示),2023/10/9,20,向量空间模型介绍,2.项权重(3)权重的规范化处理 为了抵消由篇幅带来的不同影响,经常要对项权重进行规范化处理在各种规范化方法中,余弦规范是一种常用、有效的方法:tfidf权重/文献向量的欧氏长度,2023/10/9,21,向量空间模型介绍,3.文献向量与查询向量的匹配 匹配函数利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 Sim(Di,q)=Diq简单存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考
8、虑到项的相互联系这一重要因素,2023/10/9,22,向量空间模型的评价,优点简单,功能却非常强大能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能 模型的检索效果和布尔检索模型比起来,要好得多 不足忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差 传统向量处理模型不能处理布尔表达等结构化查询改进广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM),2023/10/9,23,2.2.2 项的权重模式,项向量的规范化,2023/10/9,24,项向量的规范化,构建一个项权重模式,需要涉及三个主要因素:词频、集合频率和
9、向量的规范化。一般来说,会为那些在特定文献中出现非常频繁的词(有着高词频的词)分配较高的权值;为那些在文献集中很少部分的文献中出现的词(有着低文献频率的词)分配较高的权值;对文献集合中长度不一的文献进行规范化处理,从而排除长文献与短文献在统计上的差别。,2023/10/9,25,项向量的规范化,余弦规范化 余弦规范化是在向量空间模型中最为常用的一种规范化方法。它的规范因子是:这里的wi是项的原始tf*idf权重。在一个文献中,如果一个项有着异常的高出现次数,利用余弦规范化,也可以减小这个高词频对权重的影响。,2023/10/9,26,2.2.3 相似度的计算,内积相似度运算余弦相似度“距离”相
10、似度运算等等,2023/10/9,27,2.2.4 潜在语义标引,模型的提出潜在语义标引模型模型的评价,2023/10/9,28,模型的提出,VSM模型的主要缺陷假定项之间是相互独立的。因为忽略项之间的联系,从而在空间中增加或剔除一个项,对空间中已然存在的项是毫无影响的,实际上,在集合中增加一个新的文献,不仅仅会增加一些新的项,而且还会影响到已经存在的项的权重分配,因为新增的文献影响了这些项在整个集合中的逆文献频率(idf)因素。词频矩阵过大(降维处理),2023/10/9,29,潜在语义标引模型,该方法的基本步骤是:1)建立词频矩阵R0;2)计算词频矩阵的奇异值分解,把词频矩阵分解成3个矩阵
11、的积:T0S0D0,其中T0、D0的列向量都两两正交,S0为对角线矩阵。如果要求T0、D0是满秩的并且S0中对角线上的单值按照从小到大的顺序排列,那么词频矩阵有,并且仅有一个这样的分解;3)S0中对角线上的k个较大的单值被保留,其它较小的单值被置为0,去掉S0中单值为0的所有行和列得到对角阵S,去掉T0、D0中相应的列,得到矩阵T、D,并可以产生一个新的矩阵R=TSD,作为新的词频矩阵;4)对于每一个文档 d,用SVD方法筛选得到的词的组成新的向量替换原有的文本特征向量;5)保存所有向量集合,并用高级多维索引技术为文本集合创建索引;6)使用转换后的文档向量进行相似度计算。,2023/10/9,
12、30,模型的评价,潜在语义标引的长处在于 第一、模型具有丰富的表述能力。保持了原始数据中的主要信息,同时,也捕捉住了隐含的潜在语义信息。第二、传统的基于字面的词匹配系统,无法解决大量的同义或歧义现象造成的查全、查准下降的问题。而在潜在语义标引中,却能自动处理这类问题。第三、潜在语义标引能够降低检索运行的时间。第四、能够处理由于人为原因,如拼写错误导致的匹配问题。,2023/10/9,31,模型的评价,潜在语义标引的不足:总体上看来,潜在语义标引对于较大集合的运算却是非常耗费的,2023/10/9,32,2.3 概率检索模型,检索过程存在内在的不确定性,如信息检索系统不能精确地定义文献集合中与查
13、询相匹配的文献概率理论是处理随机不确定性的理论一个概率模型就是要估计概率,即 文献dk与查询q相关的概率。,2023/10/9,33,2.3 概率检索模型,概率模型试图在一个概率框架中处理信息检索问题,其基本思想是:给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。给出这个理想结果集的描述,并用于检索。查询的过程是说明理想结果集属性的过程,初始的时候努力的猜测它们是什么,猜测结果我们将产生一个对理想结果集的概率描述,检索出最初的结果集,然后引入用户的交互,改善结果集。,2023/10/9,34,2.3 概率检索模型,基本假设:给定一个查询q和
14、文档集中一个文档dk,概率模型试图找出用户对其感兴趣的概率,模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的。,2023/10/9,35,2.3 概率检索模型,其主要优点是:理论上,文档按照其与目标集合的相关概率的降序排列。主要缺点是:需要最初将文档分为相关和不相关的集合;所有权重都是二值的,模型中仍然假设索引项之间是相互独立的。,2023/10/9,36,2.3 概率检索模型,概率模型(Probabilistic Model)概率排序原则:按照根据系统已经获得的全部数据估计出来的相关概率的降
15、序排序是最优的排序贝叶斯推断:由feedback更新先验概率分布w1=document is relevant,w2=non-relevant.x=(x1,x2,.,xn)binary vector代表:INQUERY,2023/10/9,37,2.3 概率检索模型,优点:无需经验性的权值计算公式,完全从理论上推断出ranking很好支持用户反馈feedback,渐进的优化检索效果缺点:先验分布难于得到?,2023/10/9,38,Probabilistic Models,Rigorous formal model attempts to predict the probability tha
16、t a given document will be relevant to a given queryRanks retrieved documents according to this probability of relevance(Probability Ranking Principle)Relies on accurate estimates of probabilities for accurate results,2023/10/9,39,Probabilistic Retrieval,Goes back to 1960s(Maron and Kuhns)Robertsons
17、“Probabilistic Ranking Principle”Retrieved documents should be ranked in decreasing probability that they are relevant to the users query.How to estimate these probabilities?Several methods(Model 1,Model 2,Model 3)with different emphases on how estimates are done.,2023/10/9,40,Probabilistic Models:S
18、ome Notation,D=All present and future documentsQ=All present and future queries(Di,Qj)=A document query pairx=class of similar documents,y=class of similar queries,Relevance is a relation:,2023/10/9,41,Probabilistic Models:Logistic Regression,Probability of relevance is based on Logistic regression
19、from a sample set of documents to determine values of the coefficients.At retrieval the probability estimate is obtained by:,For the 6 X attribute measures shown next,2023/10/9,42,Probabilistic Models:Logistic Regression attributes,Average Absolute Query FrequencyQuery LengthAverage Absolute Documen
20、t FrequencyDocument LengthAverage Inverse Document FrequencyInverse Document FrequencyNumber of Terms in common between query and document-logged,2023/10/9,43,Probabilistic Models:Logistic Regression,Estimates for relevance based on log-linear model with various statistical measures of document cont
21、ent as independent variables.,2023/10/9,44,Probabilistic Models,Strong theoretical basisIn principle should supply the best predictions of relevance given available informationCan be implemented similarly to Vector,Relevance information is required-or is“guestimated”Important indicators of relevance
22、 may not be term-though terms only are usually usedOptimally requires on-going collection of relevance information,Advantages,Disadvantages,2023/10/9,45,Vector and Probabilistic Models,Support“natural language”queriesTreat documents and queries the sameSupport relevance feedback searchingSupport ran
23、ked retrievalDiffer primarily in theoretical basis and in how the ranking is calculatedVector assumes relevance Probabilistic relies on relevance judgments or estimates,2023/10/9,46,2.4 信息检索逻辑模型,在信息检索领域,可以看作是文献d满足查询q,也可以说文献d与查询q相关。逻辑模型着重强调信息检索是一个推理过程,即如果文献同查询相关,可以通过推理得出,2023/10/9,47,2.4 信息检索逻辑模型,逻辑模
24、型的基本思想假如两个对象O1和O2,O1O2则表示对象O1蕴涵对象O2,换句话说,可以从O1中推理出O2。假设通过某一方法,将文献的信息内容用d表示,查询的信息需求用q表示,dq表示可以从文献d中推理出查询q,即文献d中的信息足以蕴涵查询q中的信息。,2023/10/9,48,2.4 信息检索逻辑模型,几种典型的信息检索逻辑模型古典逻辑模型基于可能世界的逻辑模型 基于情景理论的信息检索模型基于术语逻辑的信息检索模型信息检索的元模型,2023/10/9,49,2.4 信息检索逻辑模型,个人观点 一篇文献看成是一个知识集,把文献集看成是一个知识库,把查询看成是一个知识集把检索操作看成验证要查询的知
25、识集是否是知识库的一个子集,也就是说,把针对文献的查询转变成针对知识的查询。进一步,将检索操作看成是逻辑程序的自动推理过程。借助于逻辑模型,可以研究查询与知识集的蕴含关系、知识集与文献的蕴含关系、查询与文献的相关程度;,2023/10/9,50,2.4 信息检索逻辑模型,个人观点 把信息检索系统看成是一个逻辑程序P。如果Q是一个查询,且P|-Q那么我们称Q可检的,2023/10/9,51,Inference Network Model,Inference Network ModelIn the simplest implementation,a document instantiates a
26、term with a certain strength,and the credit from multiple terms is accumulated given a query to compute the equivalent of a numeric score for the document.If the strength is considered to be the weight of the term in the document,then the ranking is similar to the Vector Space Model or the Probabili
27、stic Model.Any form can be used to define the strength of the instantiation,and any formula can be used.,2023/10/9,52,结构化文本检索模型概念,有时候,用户希望能够对文档中的某些结构组元中包含的信息进行检索,例如,对出现在章节标题的词进行检索。那么就需要一种模型,把文档内容与文档的结构结合起来,为用户提供信息检索的能力。这种模型就被称为结构化文本检索模型。,2023/10/9,53,结构化文本检索模型概念,在检索任务中,传统的结构化文本检索模型没有采用相关性的思想,它只是从各个结
28、构组元中匹配用户的查询项。从这个意义上看,过去的结构化文档检索模型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构。因此,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全。在结构化文本检索模型中,我们使用“匹配点”来表示文本与用户查询相匹配的词串位置;我们使用“区域”表示文本的块;使用“节点”表示文档的结构化组元。这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性。,2023/10/9,54,结构化文本检索模型非重叠链表模型,基于非重叠链表的模型是把文档中的整个文本划
29、分为非重叠文本区域,并用链表连接起来。因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表。这些链表清晰的记录了文档的数据结构。在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠。,为允许对索引项和文本区域进行搜索,要为每个预定义的链表建立一个索引。在索引中每个结构组元作为索引中的一个项目。因为针对每个索引项目,其索引的文本区域是不重叠的,所以可以提交的查询是简单的。1、选择一个包含给定词的区域;2、选择一个不包含在给定区域的区域;3、选择一个不被包含于任何其他区域的区域。,2023/10/9,55,结构化文本检索模型邻近节点模型,该模型是一种允许在相同文档
30、上独立定义分层索引结构的模型,每个索引结构是一个严格的层次结构,其中每个结构组元称为节点,每个节点与一个文本区域相关,两个不同的层次结构可能涉及到两个重叠的文本区域。针对不同层次结构的用户查询,所汇集的结果是由来自其中一个层次结构的节点组成,因此,一个应答结果是不能由来自两个不同层次结构的节点组成。这样做的目的是使得查询处理的速度快。,ChapterSectionParagraph,2023/10/9,56,信息浏览模型平坦浏览,该模型的思想是假设用户浏览一个具有平坦组织的文档空间,文档集可以被描述为平面上的点或是链表中的元素。用户在这些文档上到处浏览,以寻找有关信息,在反馈过程中,用户通过在
31、邻近文档中的浏览,查找出相关的资料,找出一些感兴趣的关键词。这些关键词将被输入到原始的查询中,以试图提供更好的、新的查询。同样,用户也可以以平面方式,浏览单一的文档。例如使用滚动条来浏览一个Web页面。该模型的一个不足是:在给定的一个页面或屏幕上,可能没有任何用户所处上下文情况的指示。平坦模型缺乏层次性的视图、用户的浏览行为很容易迷航。,2023/10/9,57,信息浏览模型结构向导浏览,为了对浏览的行为提供更好的支持,文档应该被组织成为如目录那样的结构,目录是类的层次结构,对稳当按照主题来分类和组织。也可以提供一些其他的导航工具,如提供浏览历史,指示最近访问的节点,这对于浏览结构庞大的文档集是相当有用的。,2023/10/9,58,信息浏览模型超文本浏览,2023/10/9,59,相关反馈讨论,研究现状主要方法新的研究方向选择一篇比较好的文章进行讲解,