基于团的Markov网络信息检索模型.ppt

上传人:牧羊曲112 文档编号:6108219 上传时间:2023-09-25 格式:PPT 页数:20 大小:317.49KB
返回 下载 相关 举报
基于团的Markov网络信息检索模型.ppt_第1页
第1页 / 共20页
基于团的Markov网络信息检索模型.ppt_第2页
第2页 / 共20页
基于团的Markov网络信息检索模型.ppt_第3页
第3页 / 共20页
基于团的Markov网络信息检索模型.ppt_第4页
第4页 / 共20页
基于团的Markov网络信息检索模型.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《基于团的Markov网络信息检索模型.ppt》由会员分享,可在线阅读,更多相关《基于团的Markov网络信息检索模型.ppt(20页珍藏版)》请在三一办公上搜索。

1、基于团的Markov网络信息检索模型,甘丽新 王明文 张华伟江西师范大学2006年7月23日,研究背景模型思想模型方法实验结果进一步工作,大纲,研究背景,提高检索效率是信息检索研究的永恒主题现有很多研究根据词之间的依赖关系进行直接扩展在检索过程中加入有利于检索的信息改善检索结果如何建立能刻划这种依赖关系的模型?,模型思想,考虑词与词之间的相关性对查询进行扩展,使查询包含更多的有用信息.在Markov网络检索模型中,通过对检索词子网络结构的分析,提取出词网络中的最大完全子图团。同一子团中的词构成一个形式概念,由此把基于词的检索扩展为基于形式概念检索。通过团来提取词与词之间的依赖关系。,数据集预处

2、理,构建检索词子网络,计算词的相似性及其idf值,检索词子网络词团的提取,根据团的提取算法,查询扩展,根据团的扩展算法,基于团的Markov网络模型,模型方法,(1)词的Markov网络构造基于Markov网络是无向图的考虑,本文采用的是条件概率的综合指标,记为:,本文采用了逆文档频率,过滤掉一些高频词和低频词。词的逆文档频率 定义为:网络中的每一个词,都满足于:且,(2)团的提取通过对词的Markov网络结构的分析,发现许多词之间是有边相连,而且构成了完全图团。本文提出了一个提取团的算法。算法思想:在(n-1)_Clique()中,任何两个团若是n_Clique()中同一个团的子团,那么这2

3、个团中只存在两个不相同的词,且这两个词之间是有边相连,即相关。,检索模型,给定查询,文档集,我们希望根据文档 和给定的查询 的相关概率的大小,排列文档集中的文档,从而得出我们需要的文档。因此需要计算。为词子空间的Markov网络,C为团的集合,有条件概率定义可得:,若词的网络固定时,对任一均相同,则由(5)式可得检索算法的一般形式:由乘法公式和条件概率定义可得:,本文将团中词与词之间的相关性引入到检索中,通过修正词的权重,重新构造文档和查询之间的相关性。因此由(7)式修正为:其中:,权重计算,概率估计:权重方式:,为归一化因子(10),团的扩展,由于同一个团中的词构成了一个形式概念,并且很好的

4、反映了词与词之间的依赖关系一般来说,若一个团的阶数越高,则该团越重要,它所构成的形式概念也越重要对于同阶团,团的权重越大,则该团越重要,它所构成的形式概念也越重要团的选取方法为:从最高阶团开始选取,同阶团则按照团的权重由大到小选取,团的权重图,中团的重要性为:,试验结果,试验数据:adi,med,cran,cisi,cacm预处理:提取文档中的和部分的内容,去掉了非法字符和数字,大写字母变小写字母,去除停用词,运用Porter算法进行词干化处理 评价指标:11-avg 和 3-avg模型比较:5种检索算法hits、tf、idf、tf*idf和BM25 与本文模型进行比较,进一步工作,尝试将窗口单元进行调整,以段落或是句子为单位;在文档空间中,考虑文档与文档之间的关系,建立文档网络,提取文档团扩展文挡模型;尝试采用迭代思想,通过词之间的关系与文档之间的关系的相互影响进行迭代,构造成稳定网络;在大文档集(像TREC)和实际问题中检验模型性能;,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号