2476.外网检索毕业实习报告.doc

上传人:文库蛋蛋多 文档编号:4018336 上传时间:2023-04-01 格式:DOC 页数:6 大小:352KB
返回 下载 相关 举报
2476.外网检索毕业实习报告.doc_第1页
第1页 / 共6页
2476.外网检索毕业实习报告.doc_第2页
第2页 / 共6页
2476.外网检索毕业实习报告.doc_第3页
第3页 / 共6页
2476.外网检索毕业实习报告.doc_第4页
第4页 / 共6页
2476.外网检索毕业实习报告.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《2476.外网检索毕业实习报告.doc》由会员分享,可在线阅读,更多相关《2476.外网检索毕业实习报告.doc(6页珍藏版)》请在三一办公上搜索。

1、目 录1 题目.22 课题研究的目的和意义.23 课题总体设计方案.24 若干关键技术及实验.4 4.1 关键技术44.2 应用示例55 可行性论证.66 参考文献.61 题目 外网检索 外网检索,指的是对指定的外部网站内容进行检索。站内搜索引擎已经日渐成为一个网站必不可缺的重要组成部分。而随着人们对于信息获取的需求日益扩大以及互联网络的不断发展,单纯的站内搜索已经不能满足访问者以及网站自身的要求,对于相关或相似网站的信息进行检索,即外网检索,也日渐重要。另一方面,越来越多的企业,除了关注自身的信息之外,还要从相似或相关行业的企业收集了解相关信息,对指定网站的内容进行收集,并提供检索功能。2

2、课题研究的目的和意义 外网检索无论从本身还是相对于站内检索来看,都存在着一定的限制:网站内容会极其丰富的,即数据量可能是海量的;其他网站的内容是不可控的,这样就为建立高效快速的检索机制带来一定的难度;另外,检索的要求也可能是多样复杂的。 利用Fujitsu公司的Interstage Shunsaku Data Manager,中文名称“瞬索XML数据搜索引擎”(以下简称瞬索),为外网检索系统提供检索功能,以上诸多限制就可以得到很好的解决。瞬索,是一款实现了对XML格式数据进行快速检索,具备高性能、高可用性以及高信赖性的中间件产品,它在数据检索方面可以应对:海量数据需求,低成本超高速的检索,高度

3、复杂的检索条件以及超高速并发性的搜索请求等等。 因此,以瞬索提供的强大的检索功能为核心,辅以必要的网页收集和文档转换操作,完全可以打造一个功能强大、性能优越的外网检索系统,为网站或企业的发展提供更强大的助力。3 课题总体设计方案【方案简介】 整个系统的数据处理流程大致如此:从指定的外部网站收集数据,对采集的数据进行处理,转换后入库,最后根据库存数据提供外网检索功能。下图就是处理流程的简单示意图: 处 理 数 据采 集 数 据 检 索 数 据相应地,整个系统由对应于上述处理流程的三部分组成: 1.网络采集爬虫,负责数据收集2.XML数据转换,进行数据处理3.外网检索服务,提供数据检索 【方案构成

4、】 下图为本方案的体系结构简图:网络采集爬虫 主要就是完成数据采集的工作。利用网络爬虫,就指定网站的内部进行遍历,收集用于检索的源数据。收集到的数据,将由XML数据转换部分进行处理。 XML数据转换 对收集到的数据进行处理,转化为XML数据,并且导入到瞬索中。 瞬索使用的是XML型数据,因此在设计时,不要像RDB(指关系数据库,下同)那样,进行表格和字段的设计、正规化处理等,大大地减轻设计负担。瞬索提供了功能强大的API(包括C和Java)对数据进行操作,使得我们能够根据用户的实际需要,很方便地实现中间数据到XML数据的转换及导入。在性能方面,由于使用了不需要索引的全文查询方式,使性能得到了保

5、证,因此不再需要像现存RDB那样进行所必不可少的优化处理,节省设计成本以及维护成本。 外网检索服务 通过类似Google的外网检索的WEB界面,提供具有强大功能的外网检索服务。 瞬索具有非常强大的全文检索能力,进行检索的时候,用户可以输入任何想要搜索的关键字,不限长度和个数,复杂条件任意组合,从而检索出用户所需要的目标数据。即使面对外部网站的海量数据内容,依然可以为用户提供准确的查找结果。 瞬索使用了SIGMA技术的查询方法,不论是在只有一个查询条件时,还是在多查询条件复杂组合时,都能实现稳定的查询性能。无论查询关键词有多少个,都能通过SIGMA 技术把这些关键词合成起来生成一个automat

6、on,这个automaton对数据依次进行匹配,并找到符合查询条件的数据。所以,无论查询条件有多复杂,也与只有一个查询条件的时候一样,只要对所有数据进行一次查询处理,就能实现无遗漏、稳定且快速的查询。 出色的性能体现的另一方面是高速多载运行技术,使用该技术,即使在使用者大量增加,查询要求量大的情况下,依然能够保证稳定的查询性能。瞬索通过把大量的查询要求进行一体化处理,可以一次性地完成查询处理,并把查询结果进行分散反馈。因此,即使是在使用人数多,使用者不确定的Internet环境中,瞬索依旧能确保稳定的查询性能。这与以往使用RDB的查询系统相比,格外显得成果显著。 此外在瞬索硬件上也具有一些优越

7、性能。例如,瞬索的刀锋服务器的有效利用技术,该技术是指在查询处理时,数据自动地分散到多个刀锋服务器上同时进行并列处理,所以,即使是在处理大量的数据时也能保证稳定的查询性能。在以往的系统中,把CPU的计算能力全部有效利用到数据的处理上本来就是不可能的事情,而且,即使把CPU数增加到两倍,处理性能也未必为原来的两倍。瞬索通过使用SIGMA 技术和高速多载运行技术,可以在各种情况下保证稳定的查询性能,只要将数据分散到各个CPU(刀锋服务器)上,通过这些CPU的同时运作,就可以实现全CPU 的同时查询处理。也就是说,当CPU数增加为两倍时,查询性能也增长为两倍。这样,利用刀锋服务器技术,只要根据查询数

8、据量和查询时间的要求,简单地增设CPU,就能使性能得到保证。 还有,瞬索具有应对故障的自动退缩运行功能,当CPU发生故障时,会自动地从整个系统中分离。并且,相应数据内容也会自动地从故障CPU中退缩出来,转到正常的CPU上再进行重新配置。这样,即使发生故障,也可以在不影响整个系统运行情况下进行修复,从而可以保证系统长时间无间断正常运行。4 若干关键技术及实验4.1 关键技术1】url的遍历和纪录 这点larbin做得非常的好,其实对于url的遍历是很简单的,例如: catwhatyougot|tr|gawkprint$2|pcregrephttp:/ 就可以得到一个所由的url列表 2】多进程V

9、S多线程 各有优点了,现在一台普通的PC例如一天可以轻松爬下5个G的数据。大约20万网页。 3】时间更新控制 最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 若一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的12。 注意,效率是取胜的关键之一。 4】爬的深度是多少呢? 看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 网页深度:网页个数:网页重要程度 0:1:10 1:2

10、0:8 2:600:5 3:2000:2 4above:6000:一般无法计算 爬到三级就差不多了,再深入一是数据量扩大了34倍,二是重要度确下降了许多.5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到header的tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 apachewebserver里面纪录的304一般就是被cache的了。 4.2 应用示例新闻订阅系统网络爬虫:爬虫部分(以下称爬虫)的功能是定期从网络上收集新出现的新闻网页;将其内容以增量的形式存储起来;计算其与以往新闻的相关度,构

11、成按时间组织的新闻事件序列。爬虫所有处理的网页可以分为两个类别:目录型网页和内容型网页。目录型网页是一些新闻门户网页(例如:爬虫工作的第一步是找到目录型网页中最新的新闻链接。对于目录型网页,我们只关心其中的链接。这些链接页可以分为两个类别:目录型链接,新闻型链接。其中目录型链接指向另一些目录型网页;而新闻型链接指向实际的新闻网页,后者是我们需要的。这两类链接在网页结构上的最大区别是:目录型链接在页面中很稳定,一般不会被频繁更换;而新闻型链接则更新频繁,且一旦被替换就不会再在网页中出现。根据这个特点爬虫过滤目录型链接的方法是:为每一个目录型网页建立一个“旧链接”文件,其中记录上次访问该网页时找到

12、的所有链接;根据这个列表就可以找到两次访问间隔中该网页中新添加的链接。该方法的可行性正是利用到目录型链接与新闻型链接的特点:目录型链接在页面中一般不会变化,所以除第一次以外爬虫都不会认为一个目录型链接是“新链接”;新闻型链接不会重复几次出现在页面上,保证了每个新闻链接只被抓取一次。从目录型网页中抓取最新的新闻链接之后,爬虫的第二步工作是读取链接指向的新闻网页中的内容。新闻型网页的网页结构是:其主要内容是一段文字,其中可能有少量链接(说明型链接)、也可能附有图片;网页主要内容周围有很多无用信息(例如目录型链接,热点新闻链接,广告内容等)。正文的特点是纯文字占主要部分,无用信息则是链接占主要部分。

13、过滤新闻类网页中的无用信息,爬虫的处理方法是:记录网页中出现的p和/p标记,根据该标记将网页中的文字分成若干块;对每一块文字分别计算其“文字链接比”(总文字数/总链接数)和“文本文字链接文字比”(纯文本文字/链接中文字),根据这两个指标的值判断该块文字是否为正文。提取新闻图片的方法是:提取新闻标题后正文之前的最后一个jpg图片。提取新闻网页正文过程中,另一项附属工作是利用新闻网页的结构提取新词,优化我们用来切词的词典。在新闻类网页中除了上面提到的两类链接外,另有一种链接:说明类链接。该类链接标记在新闻正文中出现的“新颖词汇”之上,其链接的网页是对该词汇的解释。“新颖词汇”的几个特点是:一般并不

14、出现在我们使用的词典内;能很好的体现该条新闻的特点;网页中的链接直接起到了切词的工作。利用这些特点,在获取正文的同时,爬虫将正文中链接标记的词汇添加到切词词典中去。爬虫的最后一个工作是计算“最新新闻”的摘要、计算“最新新闻”与“以往新闻”的相关度、按照类别将“最新新闻”存储到“新闻日志”文件中去。新闻的类别直接由获取该新闻的目录型网页的类别决定(该类别记录在baseurl.ini中)。“新闻日志”的中记录的内容包括:新闻标题、新闻获取时间、新闻网页链接、新闻中图片链接、新闻正文、新闻摘要、新闻来源、相关新闻列表。使用Summary类对新闻正文计算计算新闻摘要。使用Similarity类分别计算

15、两条新闻“新闻标题”和“新闻正文”的相关度,最后将两个相关度加权合并成一个相关度,将相关度大于一个阈值的新闻放入“相关新闻列表”中。这样做的原因是:新闻标题中的词汇更能够体现新闻的内容。5 可行性论证该方案具有以下优势: 1.无需索引,降低设计和维护成本2.利用瞬索,提供强大而快速的检索功能3.实现外网检索,有效利用外网信息4.系统扩展升级方便迅速 可以在需要提供外网检索功能的大型网站或要求对特定网站进行信息检索的企业应用.6 参考文献1张宏林,蔡锐.Visual C+数字图像模式识别技术及工程实践M.北京:人民邮电出版社,2003,2.2 印旻,王行言.Java语言与面向对象程序设计.清华大学出版社.20003 王峰.Java多媒体程序设计.清华大学出版社.19994 李樱等.Jbuilder8基础编程.人民邮电出版社.20035 James Gosling,Frank Yellin,Java小组(著),李建钧等(译).Java应用程序设计接口.北京大学出版社,艾迪生维斯理出版有限公司.19976美Castleman,K.R著;朱志刚等译.数字图像处理M.北京:电子工业出版社,2002,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号