北邮毕设答辩-网络爬虫设计及算法研究.ppt

上传人:小飞机 文档编号:6448960 上传时间:2023-11-01 格式:PPT 页数:20 大小:1.05MB
返回 下载 相关 举报
北邮毕设答辩-网络爬虫设计及算法研究.ppt_第1页
第1页 / 共20页
北邮毕设答辩-网络爬虫设计及算法研究.ppt_第2页
第2页 / 共20页
北邮毕设答辩-网络爬虫设计及算法研究.ppt_第3页
第3页 / 共20页
北邮毕设答辩-网络爬虫设计及算法研究.ppt_第4页
第4页 / 共20页
北邮毕设答辩-网络爬虫设计及算法研究.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《北邮毕设答辩-网络爬虫设计及算法研究.ppt》由会员分享,可在线阅读,更多相关《北邮毕设答辩-网络爬虫设计及算法研究.ppt(20页珍藏版)》请在三一办公上搜索。

1、网络爬虫设计及相应算法研究,姓名:指导教师:,项目名称:网络爬虫设计及相应算法研究 The Research and Design of Web Crawler项目类别:软件研究设计类项目来源:科研项目,搜索引擎介绍:互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了解决在浩瀚的信息海洋中快速高效的寻找信息的问题。搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分网络爬虫。,网络爬虫介绍:网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜索引

2、擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。,网络爬虫的基本原理:1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面;2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中;3)重复前两个过程,直到爬虫达到某种停止标准为止。,学习爬虫的基本技术网页抓取技术网页去重技术多线程技术,网页抓取技术宽度优先遍历算法和广度优先算法PageRank算法基于链接的搜索算法,网页去重技术Bloom Filter 算法错误率估计最优哈希函数个数位数组大小,多线程技术多线程半同步/半异步并发模式

3、多线程的问题,设计实现爬虫系统,并对系统性能就以下两方面进行比较分析:在测试时间、最大连接数等基本参数相同的情况下,通过给爬虫系统设置不同的多线程数进行页面抓取,并对结果进行比较分析。在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,通过改变爬虫系统的最大页面连接数进行页面抓取,并对结果进行比较分析。,1.测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面的速度,结果如下表:2.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面的速度,结果如下表:,1.测试爬虫在测试时间、最大连接数等基本参数相同

4、的情况下,采用单线程或多线程方式抓取页面得到的表格绘制曲线图如下:从图中可以看出,在多线程的情况下,爬虫系统的效率的确有所提高,但是提高的效果并不十分明显。而理论上,多线程的抓取效率应该是要明显高于单线程的,但是由于测试是在单CPU机器上进行的,所以效率的提高并不能很好的体现出来。,1.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面得到的表格绘制曲线图如下:从图中可以看出,在其他条件相同的情况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变化到32时,抓取效率提高了将近1倍,之后又逐渐趋于平缓。这是因为系统的线程数限制了抓取效率。在相同的HTTP请求和页面抓取的线程数的条件下,在一定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。,总结:1、完成了爬虫系统的学习与设计;2、研究比较了相关算法;3、对系统结果进行了比较分析。展望:1、爬虫系统效率仍然比较低;2、爬取的信息不够准确;3、还有很多爬虫算法有待学习和研究。,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号