华南木棉信息检索.ppt

上传人:sccc 文档编号:4722044 上传时间:2023-05-11 格式:PPT 页数:23 大小:460.50KB
返回 下载 相关 举报
华南木棉信息检索.ppt_第1页
第1页 / 共23页
华南木棉信息检索.ppt_第2页
第2页 / 共23页
华南木棉信息检索.ppt_第3页
第3页 / 共23页
华南木棉信息检索.ppt_第4页
第4页 / 共23页
华南木棉信息检索.ppt_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《华南木棉信息检索.ppt》由会员分享,可在线阅读,更多相关《华南木棉信息检索.ppt(23页珍藏版)》请在三一办公上搜索。

1、全国搜索引擎与网上信息学术研讨会SEWM 2006-中文Web检索,华南木棉信息检索,木棉检索队:张元丰,陈晓志,陈晓锋http:/,宅桩饭鹃鬃脑荷巧呕诉教正甭敷啥陋陋骄迂诚廊培掇矩匙鹿滓挝服达诚寸华南木棉信息检索华南木棉信息检索,2,目录,木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望,登潮春批烦瑚怨雅柏惜未歹金歹酶厉魂沛票庙毖搽硷迄躲盐苔佐汲压遁蛮华南木棉信息检索华南木棉信息检索,3,木棉搜索引擎现状,基于Nutch的实现;对URL、Title、Anchor、Content进行索引;PageRank算法的应用;中文分词;基于集群系统的并行化搜索引擎。,侠森桐杨待胺到窍槐烷柳阜县

2、撩蕉势爆包干辅誉垮辩稀锹作糟酿磁江侍皿华南木棉信息检索华南木棉信息检索,4,木棉搜索引擎现状,网页预处理,中文分词,链接分析,文档库,索引库,噪音模板库,链接库,综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响,对站内站外链接赋予不同的权重,保留锚点文本信息,链入锚点文本网页url网页标题网页主题内容链出锚点文本,基于词频的中文分词,Google pagerank算法简单pagerank算法,桔福慧火洲由莆袱猩吸横美前杨敞燎眯廊盆厅箔肮些惠方降桃容凋连纤昔华南木棉信息检索华南木棉信息检索,5,木棉搜索引擎现状,用户输入查询词,索引库,二次排序,结果,竿榨酬盲屉袁硕

3、判掖申未厅予会截粉粳崩陡破屑啮刃瞩谨褐悬耽晰犊渺态华南木棉信息检索华南木棉信息检索,6,目录,木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望,腔握凡桔煞痔遂灸吓饺桔衅注拼卜浴桥祭颓坍欺罩班见请弄禄宵侣瓢犬破华南木棉信息检索华南木棉信息检索,7,数据格式转换,禁泳茫赡顺唁烁烤速然添沤壤遗言纳惨工息抡动拦璃坏止垄幕搜雷贪陡怒华南木棉信息检索华南木棉信息检索,8,数据格式转换,将3700万网页分成70个part进行处理对每个part建立Web DB合并所有的Web DB用完整的Web DB更新每一个part的数据对每个part分别建立索引合并索引,是砂奥尼郸凑炕矣鞭雷残噪彦鹊冀亏然牵垃粉

4、碗犹董串瘫囱漾舶鸟技徒匡华南木棉信息检索华南木棉信息检索,9,目录,木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望,食宅孙戴码鸦墒摄韧沫肤尺干恼婿邮昆悬服麦膊菠撮纽冠斯细砷春庸颊丛华南木棉信息检索华南木棉信息检索,10,关键技术介绍,TD搜索相关主题的文章,主要查找入口页面。NPHP查找首页或者指定页面。,云迂赊嫩败楚笑攀犹匠观石坤吟吵葡惭翠愈乐肠拱遁榨退抉给技湾坟县念华南木棉信息检索华南木棉信息检索,11,关键技术介绍,TD扩展查询利用Description对查询词进行扩展,比如:Number:TD146股票分析Description:股票分析的网站,专家评论,论坛和软件扩展后为

5、:股票分析、股票论坛、股票评论、股票软件;用扩展后的查询词搜索,每个查询词均返回300条结果;合并扩展查询结果。,沧战疹迄辫嘲肯卒愁份雁划割庄物闲徘池梯歹匀兴询愿蜕柠莉懊缄船涯反华南木棉信息检索华南木棉信息检索,12,关键技术介绍,TD二次查询优化 截取每个查询结果的前200条结果;对这200条结果进行站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前;对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面;对其他网页按照得分进行排序,顺序排列在得到的结果之后。,渍塞琅笔碳推宇讥藻览巾脆冷圾琵惭官酶批颐喀韩促梦忙

6、脯竹影鸣漆唱藻华南木棉信息检索华南木棉信息检索,13,关键技术介绍,NPHP对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:HP or NP。我们手工对查询词进行判断(RANK4 和 RANK5没有这一步骤),添加H(homepage)或N(namepage)标记。这一步骤主要是查询优化时使用;在索引库中查询,并返回200条搜索结果;对搜索结果进行二次排序。算法主要是基于华南理工大学胡俊刚等的基于URL类型优先级入口页面查询算法。同时判断查询词的H标记或者N标记,把结果中的主页提取到前面(H)或放到后面(N)。,苟痘溅您姚蘸掐旗轨挛硒婆叹呜堪杭兑郁脸等殴辊在窍跨录汕纸赎疲祸沏华

7、南木棉信息检索华南木棉信息检索,14,关键技术介绍,Page RankGoogle Page Rank 在要求不高的情况下,迭代计算5次即可。简单 Page Rank 可以反映网页的重要程度。,陷搐催兢胜昭宿芦毯杠厅社谱皋色窜擞春迷惧咳融率娶妓迹跳绊琢掠龄勒华南木棉信息检索华南木棉信息检索,15,目录,木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望,越询懦缺游杭剑涵殖讲些砧偶画筹贿哀贪人矛循档输曼忱欠镜雾咖筛晕厂华南木棉信息检索华南木棉信息检索,16,结果提交,CWT200gTD,肛夯将男潭具帚稠薪辩氦检俭嫌讯噶宝皑敛升效沫药堰组磊吕邪煌炙箭讼华南木棉信息检索华南木棉信息检索,17

8、,结果提交,CWT200gNPHP,薄撒恕寇圣詹谋盏爆脾胸鱼柜消赋曙浚瘩鸣作岭涨儡涩盆莱擂松傣曙盖劳华南木棉信息检索华南木棉信息检索,18,结果提交,CWT20gTD,开舷波桐底洽饰稼高浪贤厘竭椭寒微就凹询菜翱诧侧宪铅稍作琐帅镀颈选华南木棉信息检索华南木棉信息检索,19,结果提交,CWT20gNPHP,兄时垄夕塞撂乐兽萤壮拇逼汐情宗答氓靶百纷褐眨亩铆佬墓汾蜜殴懒愧颤华南木棉信息检索华南木棉信息检索,20,目录,木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望,屹置漂苫云争骸以韧疚答审破珠割豆柠恩含乒曳届视揭狂往首癣吱席厄博华南木棉信息检索华南木棉信息检索,21,分析与展望,对网页各组

9、成部分进行索引并赋予不同的权重可以提高检索精度;NPHP查询结果好;TD查询在一些情况下不能很好的将用户引导到最有价值的页面;人工标记和二次排序对提高检索准确率有很大的帮助;查询响应时间相对较长(平均23s)。,灌辆漾幌营润酿福菜柯吹萨串植饺场陡掐搐松贫闭蛀毛娱村娩住承封砖锻华南木棉信息检索华南木棉信息检索,22,分析与展望,TD查询时,采用合理的辅助机制,比如扩展查询,分类目录等,将用户引导到较好的结果页面;自动判断TD,NP,HP查询词,根据不同性质的查询词返回相应的结果;提高检索速度。,摆毯坏闸晰象筏桩神颊悸乃赫再腰镣仓帕憾堰穴忠斋绚膜碑馅掇彻般豢冯华南木棉信息检索华南木棉信息检索,谢谢大家!http:/,木汹密尤拜谭俐漠汪踌占适栗湖脯狙辕败坏捧弟疮憎供悟着鼓业膳纲觉肤华南木棉信息检索华南木棉信息检索,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号