《文本处理与信息检索.ppt》由会员分享,可在线阅读,更多相关《文本处理与信息检索.ppt(59页珍藏版)》请在三一办公上搜索。
1、文本处理与信息检索,第二讲,非传统的IR方法,传统IR检索模型的缺陷1、单个单词不包含用语言编码的所有信息2、一个单词可能有多种含义,即一词多义3、大量的单词可能具有相似的含义,即多词一义4、词组的含义往往超过其中的单词含义的总和5、对词组的检索出现冗余信息6、查询还是基于关键字,不能对句子进行分析查询7、不能实现跨语言检索,改善IR性能的方法,将NLP(自然语言处理)技术运用于 IR中使用领域知识改善IR性能,基于自然语言处理的智能搜索引擎体系结构框图,自然语言处理器,知识库,用户接口,概念提取,文档处理,查询扩展,个性化处理,自动文摘,web,网页下载,索引模块,索引数据库,检索模块,查询
2、修正,初始查询,检索结果,按权排序,反馈查询,S+,S-,知识库,有类似于人类的背景知识和相应的推理规则组成词法及句法知识语义及语用知识常识语料库词典数据库禁用词表反向词汇统计表,概念提取,利用设定程序对用户输入的查询语句进行自动分词,并经过句法及语义分析,去掉无用的虚词,获得能正确表达查询句意思的概念性词或词组、短语,并以此作为查询的基本输入概念到检索数据库进行检索。概念提取的关键是要有一套完美的语义分析系统,经过概念提取后,用户输入被处理成一系列独立的词和短语的集合,在此统称为概念,取其不同的概念构成概念集Q,并且概念间是“and”关系。Q=t1,t2,ti,tn 如果计上它们的频数则变为
3、:Q(q)=(t1,f(q,t1),(t2,f(q,t2),(tn,f(q,tn)其中f(q,ti)表示查询语句被处理概念ti的相应频数,查询扩展,查询扩展将用户输入的原始查询请求经过概念提取后,自动地根据概念集Q中的内容,去查询同义词典,加入新的概念。扩展的概念由Q中各概念的同义词组成,即最终的查询请求是由Q中各概念的同义词组成。Q=t1,t2,tn经查询扩展以后为U=T(t1),T(t2),T(tn),其中T(t i)是同义词典中与ti有相同语义码的概念集。将U加上频数可得U=(T(t1),f(q,t1),(T(t2),f(q,t2),(T(tn),f(q,tn),个性化处理,该模块长期侦
4、测用户的输入,评估用户的兴趣,对用户的多次输入进行加权处理后再去检索模块,每隔一段时间将检索结果中相似度最高的几个文档发送给用户。不断地从查询扩展模块中获得经处理后的用户查询信息U和U的值,对概念集取(这里的概念集取指将概念扩展为具有相同语义码的概念集)并运算,相应的权值取和,即,U+=T(t1),T(t2),T(tn)其中M表示用户的总计查询次数对 中概念的权值设一阀值函数f(q,M),给 中的概念实行剪枝(a为调解系数)与 对应的概念集记为U+(M)将此结果送到索引模块建立查询向量,文档处理,文档处理既是将文本文档处理为相应的文档表示例如我们用向量空间检索模型来表示文档DiDi=(t1,s
5、1),(t2,s2),(tn,sn)其中si是概念ti在文档Di中出现的频数。,自动文摘,自动文摘是检索时返回文档的简要概述,是语言理解和语言生成的结合。理解,就是对文档中的每一个语句进行句法、语义分析,对全文作篇章分析,然后确定文章的主要意思;生成,则是要选择恰当的词汇和句法方式来表达这个意思。这对自然语言的要求很高,实现较为困难目前生成的文摘大多是摘录性的,即把全文中能表达文章主要意思的句子挑选出来,合在一起作为文摘,总结,该模型使用了概念提取模块将用户的查询输入进行处理、提炼,去除无用的成分,形成一个能准确表达用户查询的简洁的概念集Q。利用查询扩展模块扩展概念集Q得到Q中各概念的同义概念
6、集Q,并以此作为查询概念,用以提高引擎的查全率。个性化处理用以监测用户的兴趣,自动反馈用户信息,反馈的信息是用户感兴趣的信息。自动文摘显示的是文档中权重最高的几个概念,这样更能反映文档的内容。经过自然语言处理器处理过的最终查询请求是一系列概念集组成的集合。,使用域知识改善IR性能,在一个基于知识的IR模型中,针对一个域的信息,称为域知识,它用于把概念、事件和概念与事件之间的相互关系模型化例如,对于题目“多媒体信息检索”,条目“多媒体”、“音频”、“视频”、“图像”、“信息”、“索引”和“检索”都与该题目有关。若用属于该题目的不同权重值的条目构建一个完整的关系树(书上有误),则含有一个或多个这些
7、条目的文档将具有不同的组合权重或与题目有关的相似度。可根据这些相似度进行检索,信息检索性能度量,度量信息检索性能的三个参数:检索速度:决定检索效率查全率 用来测量一个检索系统的效能精确度,查全率:测量的是从数据库中检索相关信息项的能力 查全率=检索到的相关项的数量/数据库中相关项目的总数精确度:测量的是检索的准确性 精确度=检索到的相关项的数量/检索项总数,例子,假定一个数据库总共有1000个信息项,其中10个信息项是与一个具体的查询有关。为响应查询,系统返回下列列表:R,R,I,I,R,R,I,I,R,I,R,R,I,I,R其中R代表用户判定为与查询相关的项,I代表用户判定为不相关的项,计算
8、返回不同数量的项目时的查全率及精确度,经计算后结果为下面的表格,从上例可以看出:返回的项目越多,查全率越高,同时精确度越低结论:具有高查全率且同时具有低精确度的系统意味着系统将返回一个长的项目列表;具有高精确度但低查全率的系统意味着许多与查询有关的项目没有被检索到比较两个信息系统之间性能的技术:用0-1范围内的查全率值确定其对应的精确度值,并画出每个系统的查全率精确度图。在该图中,远离原点的系统具有更高的性能。,不同的IR技术之间的性能比较,以下的研究成果可以直接应用于比较不同的IR技术之间的性能:自动索引和人工索引一样好,但是如果使用自动索引和人工索引相结合的方法,性能会更好当使用相似的查询
9、时,部分匹配技术的检索性能比精确匹配技术要好(布尔模型)概率模型和向量空间模型具有相似的检索性能基于集群的检索技术和概率模型具有相似的检索性能,但是它们却检索不同的文档。,假设所有相关的文档在第一次检索时都没有找到,使用相关反馈的方法会改善检索性能。在查询表述和相关反馈过程中,多用户输入比没有或有限的用户输入产生更高的检索性能使用域知识和用户配置文件将极大地改善检索性能,WWW搜索引擎,WWW(world wide web)是分布在全世界的相互连接的文档集合,搜索引擎就是一种从www中检索相关文档的工具。为进一步了解www,我们先介绍两个概念:超文本超媒体,超文本,超文本是把允许无序访问的信息
10、组合在一起的一种方式。超文本文档是由大量节点和链接组成。一个节点代表一个单一的概念或思想,它是信息的一个容器。链接是把相关节点连接起来。在节点内容内说明链接存在的区域称为锚。锚通常用一个具体的方式突出显示(如下划线或彩色阴影)或由一个具体符号表示。选择一个锚将激活该链接,同时将带出目的节点。超文本是一种信息管理方法,其中数据存放在由计算机支持的链接所连接的网络节点中。,超媒体,超媒体是超文本的一种扩展,因为它的锚和节点可以是图形、图像、音频、视频以及文本等任何一种媒体。在超媒体中,用户只需选择锚,则相关的节点就会出现,节点的位置对用户是透明的。但如果用户所选择节点的网络很慢或很忙,则用户会发现
11、调出该节点所需时间比节点存储在本地所需要的时间要长,因而也可以说节点的位置对于用户来说是不完全透明的。,WWW的体系结构,www是超媒体和Internet的集成,其体系结构如下:,客户机,服务器,应用程序,WWW的含义,术语www有两种含义包括HTTP和HTML等概念和协议的集合一个数字化的信息空间 HTML(超文本标记语言)是把文档以一种标准的方式进行构建以便客户机正确地解释和显示文档。HTTP(超文本传输协议)是建立在TCP/IP协议上的一种可靠协议,实现了客户机与服务器之间的通信。,资源发现,资源发现是指发现和检索Internet上信息的过程。其中包括三个问题:如何知道所需的信息在Int
12、ernet上是否存在如果存在的话,如何知道文档所处的位置如何检索这些文档 解决这些问题的关键是:如何指定文档在www上以及常见的Internet上的位置发现和检索Internet上的文档的方法,资源发现的第一关键:指定文档位置,在Internet上,文档的位置是通过使用统一的资源定位器(URL)来制定的URL的一般格式:协议:/服务器名:端口/文档名称URL包括三个部分:用于访问文档的Internet协议确定文档服务器的名称要检索文档的文件名,URL第一部分:用于访问文档的Internet协议,可使用的协议包括:FTP协议HTTP协议Gopher协议Telnet协议,FTP协议,FTP(Fil
13、e Transfer Protocol):文件传输协议,是用来在不同的计算机之间传输文件的一种协议。FTP使得不同电脑类型和不同操作系统间都可以相互拷贝文件,把电脑中的文件系统映射成一个FTP根下的目录树,使得其他的计算机用户可以浏览和抓取,Gopher协议,Gohper是一种分布式文档信息服务,可以让用户访问在物理上位于各处的数据,并以一致的层次式类文件系统界面提供给用户。Gopher采用客户-服务器模式,客户端的软件将用户的请求发送给服务器,并从服务器得到响应数据,然后再以一定的方式重现给用户。服务器提供的文件可以是服务器本地的,也可以指向其他的Gopher服务器。,Telnet协议,Te
14、lnet 协议是一个远程登录协议,它提供了在Internet上异构网之间传递数据和控制信息的重要方法,允许一台机器中的程序像访问本地服务器那样访问远程另一台主机中的资源。,URL第二部分:确定文档服务器的名称,例子:.au其含义为服务器名为www.gscit,它在“au”(澳大利亚)的“edu”(教育部门)的“Monash”(Monash大学)的“fcit”(计算机信息技术系)的域内。每个服务器名称都有与之对应的IP地址,所以如果IP地址已知,可直接使用它而不是机器名称字符串。,URL第三部分:要检索文档的文件名,文件名必须是完整的,包括全部路径名例如:;第一个URL是指使用HTTP可访问的服
15、务器的缺省目录内称为gindex.html的文档。第二个URL是指使用FTP可访问的服务器上的目录为:“/pub/internet”内的称为readme.txt的文件。,资源发现的第二关键:发现和检索文档,发现和检索Internet上的文档的两种方法:组织/浏览搜索,组织/浏览,组织是指决定如何把信息关联起来的人的指导过程,通常通过把文档放入某种分级结构中来实现。例如,Internet上的文档可以根据它们的主题领域分类。一个主题领域可包括多个级别的子领域。浏览是指探索资源空间的组织和内容或根据链接或URL查看其中的内容的相应的人所指导的活动。浏览是信息发现的一个缓慢的过程,它特别依赖于信息组织
16、的质量。,搜索,搜索是用户提供正在寻找的资源的某些描述的过程,同时发现系统中与描述相匹配的信息。搜索比浏览更为有效,但是它依赖于“信息已经被索引”这一假设。,结论,浏览和搜索都可用于信息发现。用户首先必须进行浏览以便找到合适的搜索引擎来供自己使用,然后他向服务器发布一个查询。对应于每个查询也许会返回许多文档。这些文档通常是根据查询和文档之间的相似性进行排序的,用户必须通过浏览判定哪个文档有用。Internet上的资源发现是IR的一个扩展例子。在这种情况下,文档分布在Internet上的许多服务器上,使得信息组织、索引和检索更具有挑战性。,WWW搜索引擎,定义:搜索引擎是指以人工或网络机器人软件
17、的方法采集、标引Web资源和其他类型的网络资源,并将索引信息内容存储于大型数据库中,以Web网站的方式提供给网络用户查询的信息服务系统。,搜索引擎的发展历程,搜索引擎已成为我们在网上查找信息的基本工具,从搜索引擎的研制发展过程来看,可以大致分为以下三个阶段:第一阶段,以Yahoo、AltaVista、Excite、Infoseek等搜索引擎为代表,各搜索引擎的开发力求在数据库覆盖范围、检索响应时间、检索结果反馈、用户界面友好等方面有所突破第二阶段,以Metacrawler、Savysearch等集成的搜索引擎为代表,主要目的是综合各种搜索引擎的长处,尽量减少用户的检索过程,提高检索效率。第三阶
18、段,智能化的搜索引擎,这代表着搜索引擎的发展方向。,搜索引擎的分类,按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类目录式搜索引擎机器人搜索引擎元搜索引擎,搜索引擎的结构,一个搜索引擎通常由下面四个部分组成搜索器(信息采集器)索引器检索器(搜索引擎软件)用户界面,搜索器,搜索器通常也称为Spider、Robot、Crawler或Worm等,其实质是一种计算机程序,按照某种策略自动地在互联网中搜集和发现Web信息。目前主要有两种搜索信息的策略:从一个起始URL集合开始,顺着这些URL中的链接,以宽度优先、深度优先或启发式等循环地在互联网中发现新的信息。这些起始URL可以是任意的,
19、也可以是一些非常流行、包含很多链接的站点。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器通常采用分布式或并行计算技术,以提高信息发现和更新的速度。,索引器,索引器的功能是自动理解和分析搜索器所搜索的Web信息,从中抽取能够表达所搜索到的网页内容特征的关键字作为索引项,用于表示文档(网页)以及生成文档库的索引表,索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系。,检索器,检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的
20、结果进行排序,并实现某种用户关系反馈机制。不同的搜索引擎使用不同相似性度量,但它们都使用条目频率和条目位置。,用户接口,用户接口的作用是输入用户查询,显示查询结果,提供用户相关反馈机制,主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时地信息。用户输入接口可分为简单接口和复杂接口。简单接口只提供用户输入查询字符串的文本框,复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等,搜索引擎与IR系统的主要区别,WWW文档是分布在Internet上的,而IR系统的文档是集中定位的。WW
21、W文档的数量比IR系统的文档数量要大的多。WWW文档是用HTML语言进行构建的,它是结构化的,而IR系统的文档通常是普通文本。WWW文档比IR系统的文档更具有动态性和异构性。WWW搜索引擎比IR系统的用户更多,使用更频繁,搜索引擎性能评价标准,数据库规模和内容索引方法检索功能检索结果用户界面其他 查准率(精确度)响应时间具体请参阅网络信息检索现状和性能评价。不同的评价标准请参阅网络信息检索工具性能分析方法研究。,实例:Google搜索引擎,Google的体系结构如图所示:,信息源,信息采集系统,信息分析索引子系统,检索子系统,管理维护子系统,浏览器,通过蜘蛛程序抓取制定信息,将信息采集系统索到
22、的网页数据进行内容分析并建立索引,将用户的搜索请求转换成系统编码,从信息索引库中找到相关的网页信息,将检索结果提交给用户,查询请求,服务器端,客户端,Google工作机理,Google使用高速的分布式爬行器系统中的漫游遍历器定时地遍历网页,将遍历到的网页送到存储服务器中。存储服务器将这些网页进行无损压缩处理后存入数据库Repository中,Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL 进行分析,记录下网页长度,URL,URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故障时,可以及时完整的进行网页的数据恢复。这两步完成了信息采集子
23、系统的任务。,索引器从Repository中读取数据,将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化成关键词的若干索引项,生成索引项列表,索引项列表被存入数据桶中,并生成以文档号(docID)部分排序的顺排档索引(前向索引文件),索引项根据其重要性程度分为两种:当索引项中的关键词出现在URL、标题、锚文件和标签中时,表示该索引项比较重要,称为特殊索引项;其余情况称为普通索引项。,索引器除了对网页中有意义的词进行分析外,还分析网页的所有超文本链接,将其锚文本,URL指向等关键信息存入到锚文档库中。索引器生成一个索引词表,它包括两个部分:关键词的列表和指针列表,用于与倒排档
24、文件(倒置的索引文件)相连接索引器还将分析过的网页编排成一个与Repository相连接的文档索引,并记录下网页的URL和标题,以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL服务器,以便在下一次工作流程中进行索引分析,URL分析器读取锚文档中的信息,将其锚文本所指向的URL转换成网页的docID,将该docID与原网页的docID形成“链接对”,存入link数据库。将锚文本指向的网页的docID与顺排档特殊索引项相连接数据库link记录了网页的链接关系,用来计算网页的pageRank值文档索引把没有进行索引分析的网页传递给URL服务器,URL服务器则
25、向Crawler提供待遍历的URL,这样,这些未被索引到的网页在下一次工作流程中将被索引分析,排序器对数据桶的顺排档索引重新进行排序,生成以关键词为索引的倒排档索引将生成的倒排档索引与先前由索引器产生的索引词表相连接生成一个新的索引词表供搜索器使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引和link数据库计算网页的pageRank值来匹配检索上面这部分实现了信息分析子系统的功能,将检索词转化成相应的关键词利用索引词表检索出包含该关键词的网页的docID根据与索引词表相连的倒序档索引,分析各网页的相关索引项的情况,计算各网页和检索词的匹配程度,必要时调用顺排档索引
26、根据各网页的匹配程度,结合根据link产生的相应网页的pageRank情况,对检索结果进行排序调用文档索引中的docID及其相应的URL,将排序结果生成检索结果的最终列表,提供给检索用户以上部分实现了Google的检索系统,Web爬行程序,Google上所用的蜘蛛程序,即web爬行程序主要负责访问各种站点。运行蜘蛛程序时,只要提供少量的起始页码,蜘蛛程序除了会将网络上的信息读回以外,还将沿着网页上的超文本链接,自动访问网页链接的其他网页,直至遍历整个网站。,页面排序和锚文本,页面排序和锚文本是Google使用的两大特性页面排序是基于这样的事实:对于一个页面,如果有许多别的页面具有指向它的链接和/或一个或多个重要的页面具有指向它的链接,则认为该页面是重要的,所以在上面讲的google机理中有生成link库以判定网页的pageRank值。锚文本比正常文本具有更高的权重,除此之外,它在信宿文档中具有更大的权重。,搜索,在Google Web服务器收到用户的查询时,就把它传递给搜索器。搜索器对查询进行分析并把它转换成单词标识符(关键字)。搜索器通常是一个计算机程序,日夜不停的运行,它要尽可能多,尽可能快的搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜索过的旧信息,以避免死链接和无效链接。,End!,