搜索引擎之爬虫研究现状简介.ppt

上传人:牧羊曲112 文档编号:6575438 上传时间:2023-11-14 格式:PPT 页数:18 大小:294.64KB
返回 下载 相关 举报
搜索引擎之爬虫研究现状简介.ppt_第1页
第1页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第2页
第2页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第3页
第3页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第4页
第4页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《搜索引擎之爬虫研究现状简介.ppt》由会员分享,可在线阅读,更多相关《搜索引擎之爬虫研究现状简介.ppt(18页珍藏版)》请在三一办公上搜索。

1、搜索引擎,爬虫研究现状简介,目前主要的热点研究方向,聚焦爬虫技术智能爬虫技术高性能爬虫技术,聚焦爬虫(Focused Crawler),对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的不足,提出了面向主题的聚焦爬虫的研究。现在,聚焦爬虫已成为爬虫的研究热点之一。,什么是聚焦爬虫,聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关

2、的网页,为面向主题的用户查询准备数据资源。,主要策略,基于内容评价的策略基于链接结构策略基于未来目报价值评价的策略基于“综合价值”评价的策略基于“动态”价值评价的策略(基于“动态”价值评价的搜索策略问题的研究受到重视。),例子,“个性化”搜索引擎的研究专业搜索引擎的研究(垂直搜索),研究的现状,国内:1北京理工大学 汪涛等 20042.南京大学 王超等 2004国外研究较多,智能爬虫,随着动态网页技术的发展,网络爬虫越来越困难了。很多动态网页是搜索不到的,例如bbs系统,聊天室系统等。还有很多页面是需要注册为用户并登录才可以看到。所以网络爬虫技术也在逐步发展。智能网络爬虫具有一定的人工智能,它

3、能够自动检测这个网页是否需要注册并登录,然后可以自动登录,看到所有的页面。,智能爬虫,利用网络爬虫技术发展出来的新的网络技术。这种检测爬虫可以自动登录到聊天室、论坛等系统,并随时检查各种信息,从中过滤出敏感信息来。并且可以将敏感信息的来源直接定位到ip地址(这个结合路由器和嗅探器是可以做到的),并且爬虫可以跟踪某个敏感话题的发展,并判断其影响力。爬虫不但可以跟踪网页形式的信息,还可以结合qq的协议,泡泡的协议等,直接检测这些信息。,智能爬虫,数据挖掘是近年的一个研究热点,其中的web挖掘的研究很多结合了网络爬虫的研究。聚焦爬虫和智能爬虫的界限不是十分明显。,研究现状,华东师范大学计算机应用研究

4、所,上海杨德仁等 2006 南京大学计算机科学与技术系软件新技术国家重点实验室 朱炜等 武汉大学信息管理学院 严亚兰等 2003兰州理工大学电气工程与信息工程学院 董瑞洪等 2005University of California,Los Angeles Jeonghee Yi 等 University of Patras,Christos Makris等 2005,高性能爬虫,算法的研究分布式爬虫设计研究,算法的研究,结合人工智能的一些算法或改进算法基于非贪婪策略的网络蜘蛛搜索算法 2004基于模拟退火的网络蜘蛛 2003增量式Web信息采集结构模型 2005Effective Web da

5、ta extraction with standard XML technologies 2002Efficient crawling through URL orderingbased on a Hidden Markov Model(HMM)to learn user browsing patterns还有对一些特殊格式网页的抓取的研究,分布式爬虫设计研究(热),基于p2p技术的分布式爬虫College of Computing,Georgia Institute of Technology,Atlanta AameekSingh1,MudhakarSrivatsa1,LingLiu1 a

6、nd ToddMiller1 等University of Oregon,Eugene DanielStutzbach1 RezaRejaie1 2005Shanghai Jiaotong University 2004LiuFei1,MaFan-Yuan1,YeYun-Ming1,LiMing-Lu1 and YuJia-Di1上海大学 2005 张博锋 刘 凤 周传飞 邹国兵等等,基于移动代理的爬虫 华中科技大学 2005 石柯周利兵陶文兵 南京大学 潘春华 冯太明 武港山University of Chile Blanco Encalada 2002 Ricardo Baeza-Yate

7、s A1 and Jos Miguel Piquer A1 An Extensible Mobile-Agent-Based Framework for Coordinating Distributed Information Retrieval Applications 2002,其他基于网格技术的爬虫基于CORBA的并行多元搜索引擎 2005黄素珍,梁正友,陈宁江,苏德富基于OGSA结构的 2005 冯战申,吴亚桢IglooG A Distributed Web Crawler Based on Grid Service上海交通大学叶允明等的国家自然科学基金重大国际合作研究项目“Igloo分布式爬虫系统的性能优化”。等等还有好多其他关于分布式爬虫的研究,不再列举了。,总结,近几年,国内关于网络搜索引擎的研究从无到有,直到渐成热点,研究现象的专题聚集特征较为明显。综合性研究论文的数量远远超过该研究领域的细分化专门研究领域的论文数。国外搜索引擎方面研究较热,水平也较国内高。伴随这lucene等一些开源项目又掀起了对搜索引擎研究的一个热潮。在搜索引擎中抓取是消耗较大,又非常重要的部分。那么爬虫的效率,特性和抓取的质量就显得有为重要。那么爬虫技术和人工智能及分布式技术相结合就很自然成为了研究的热点。,The end,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号