3901130721-谭淇蔚-电子商务实验3.docx

资源描述

《3901130721-谭淇蔚-电子商务实验3.docx》由会员分享，可在线阅读，更多相关《3901130721-谭淇蔚-电子商务实验3.docx（41页珍藏版）》请在三一办公上搜索。

1、电子商务应用实验报告项目名称搜索引擎及SEO实验专业班级软件工程1307班学号 3901130721 姓名谭淇蔚实验成绩：批阅教师：2015年 11 月 24 日实验3搜索引擎及SEO实验实验学时： 2 实验地点： X204 实验日期： 2015年11月24日星期二一、实验目的研究并学习几种常见的搜索引擎算法，包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法，了解它们的基本实现原理；运用所学SEO技术对网页进行优化。二、实验内容和方法1. 研究常用的网络蜘蛛爬行策略，如深度优先策略、广度优先策略、网页选择策略、重访策

2、略和并行策略等，了解其实现原理；2. 研究至少两种中文分词算法，了解其实现原理；3. 研究至少两种网页正文提取算法，了解其实现原理；4. 研究至少两种网页去重算法，了解其实现原理；5. 研究Google的PageRank和MapReduce算法，了解它们的实现原理；6. 使用所学的SEO技术，对实验二所设计的网站静态首页实施SEO，在实施过程中需采用如下技术：(1) 网页标题(title)的优化；(2) 选取合适的关键词并对关键词进行优化；(3) 元标签的优化；(4) 网站结构和URL的优化；(5) 创建robots.txt文件，禁止蜘蛛抓取网站后台页面；(6) 网页内部链接的优化；(7) H

3、eading标签的优化；(8) 图片优化；(9) 网页减肥技术。7. 使用C+、C#和Java等任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序，要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索，输出包含关键词的网页的URL和网页标题。【注：实验7为补充实验，不要求每个同学都完成，感兴趣者可自行实现该程序，不计入实验报告评分。】三、实验要求1. 研究几种常用的网络蜘蛛爬行策略，填写相应的表格，表格必须填写完整；2. 研究两种中文分词算法，填写相应的表格，表格必须填写完整；3. 研究两种网页正文提取算法，填写相应的表格，表格必须填写完整；4. 研究两种网页去重算法，填写相

4、应的表格，表格必须填写完整；5. 研究PageRank算法和MapReduce算法，填写相应的表格，表格必须填写完整；6. 提供实施SEO之后的网站静态首页界面和HTML代码，尽量多地使用所学SEO技术；7. 严禁大面积拷贝互联网上已有文字资料，尽量用自己的理解来阐述算法原理，必要时可以通过图形来描述算法；8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序，需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料，研究并整理几种常用的网络蜘蛛爬行策略相关资料，填写相应的表格；2. 通过使用搜索引擎并查阅相关资料，研究并整理两种中文分词算法的基本原理，填写相

5、应的表格；3. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页正文提取算法的基本原理，填写相应的表格；4. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页去重算法的基本原理，填写相应的表格；5. 通过使用搜索引擎并查阅相关资料，研究并整理PageRank算法和MapReduce算法的基本原理，填写相应的表格；6. 对实验二所设计的网站静态首页实施SEO；7. 使用任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格：策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注：参考资料格式如下：1 de

6、veloperWorks中国：Java 设计模式. 2 阎宏. Java与模式. 北京: 电子工业出版社, 2004.3 于满泉, 陈铁睿, 许洪波. 基于分块的网页信息解析器的研究与设计. 计算机应用, 2005, 25(4).解：策略名称基本原理参考资料深度优先策略在深度优先搜索中，针对最新发现的网页源顶点P，如果它还有以此为起点而尚未搜索到的路径，则沿此路径继续搜素下去。反之，如果当顶点P的所有路径均已经被搜索过，则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P，则继续选择其中一个作为源顶点并重复以上过程，最终实现所有顶点都

7、被遍历。 1李耀华,杨海燕. 论网络爬虫搜索策略J. 山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍历策略，可理解为一种基于网络层次分析的遍历策略，是将网络划分成若干层次，其中，种子站点是处于结构的最顶层。在遍历时, 需要处理Web 页之间的抓取优先级的问题，一般规定层次结构中层次越高，优先级也就越高; 同一层次中, 从左到右优先级依次降低。因此, 如果只用一个网络爬虫进行遍历操作, 那么就按不同层次之间先高后低的次序, 以及同层次之间先左后右的次序进行。当然, 也可以将多个网络爬虫设计成分布式的结构, 它们分别负责其中一层或几层Web 站点的遍历, 这样不但技术实现

8、的难度不高, 而且可以较好地避免重复遍历Web 页的现象。1李志义. 网络爬虫的优化策略探略J. 现代情报,2011,10:31-35.网页选择策略由于很大的搜索引擎也只能获取网络上可得到资源的一小部分。所以，在爬取网页需要要求一个公共标准来区分网页的重要程度。一个页面的重要程度与它自身的质量有关，与按照链接数、访问数得出的受欢迎程度有关，甚至与他本身的网址（后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索）有关。1在线文档 link?url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL

9、8uxcGIfoXB9AcFvK#3重访策略重访抓取策略，是最后一个，搜索引擎蜘蛛在抓取完这个网页之后，然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定，那么对于权重高的页面，蜘蛛会在相隔较短的时间段在回来重新抓取，比如新浪网，权重很高，搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面，比如长期不更新的页面，那么蜘蛛会隔好长时间再来抓取一次，比如我们常常搜索的百度大更新，蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取，一般情况，百度大更新，一个月一次。1在线文档og_8960352901017yos.html并行策略一个并行爬虫是并行运行多个进程的爬虫

10、。它的目标是最大化下载的速度，同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次，爬虫系统需要策略来处理爬虫运行时新发现的URL，因为同一个URL地址，可能被不同的爬虫进程抓到。1在线文档url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#32. 研究两种中文分词算法并填写如下表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于字符串匹配算法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进

11、行匹配。若在词典中找到某个字符串，则匹配成功(识别出一个词)。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.基于理解的分词方法在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统和总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要

12、使用大量的语言知识和信息。1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.3. 研究两种网页正文提取算法并填写如下表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于权值优化的网页正文内容提取算法提取出描述网页内容的文本块及相关链接的锚文本，简称主题块。通过对大量Web 页面进行分析，发现网页通常由主题内容区和噪音( 导航区和广告区) 组成这些区域具有各自的一些特点: ( 1) 主题内容区域一般含有较多文本文字，且包含逗号、句号等标点符号; ( 2) 噪音区域( 导航区域和广告区域) 一般都由较多链接和少量文字组成，且

13、不包含逗号、句号等标点符号; ( 3) 这些区域通常依靠table、p、tr、div 等标签来进行划分首先将页面建立为一棵DOM 树，然后对树进行预处理，再根据上述特点得出主题块的统计特性，然后再使用粒子群算法根据重要度的不同给各个特征赋予不同的权重，最后完成对网页主题块的识别通过从训练集中提取网页正文内容具有的统计特征，再利用粒子群算法对特征权值及阈值进行优化，使得算法的性能得到进一步的提升1吴麒,陈兴蜀,谭骏. 基于权值优化的网页正文内容提取算法J. 华南理工大学学报(自然科学版),2011,04:32-37.基于DBSCAN 算法的网页正文提取算法首先对网页源文件进行预处理，去掉脚本代码

14、后进行基于分段因子的HTML 标签过滤，即以HTML 标签符为单位，当纯文本后面出现的HTML 标签符数目大于或等于分段因子就进行分段，否则用空格取代，进行文本合并，这种分段方式可以用正则表达式实现。预处理后得到的是净文本段，即每段只含纯文本。以段号作为横坐标，每段字符数作为纵坐标得到二维空间中的一个点，正文内容段的点与非正文内容段的点往往距离较远，而非正文段之间的距离往往较近。利用DBSCAN 聚类算法对这些点进行聚类后得到文本内容。算法的具体步骤如下：第1 步对点集(DataSet)进行计算，找出其中的核心点。点与点之间的空间距离用欧氏距离公式进行计算。第2 步扫描一点，判断是否已经聚

15、类，如果是，则跳过，否则进行第3 步。第3 步判断该点是否为核心点，只有核心点才能发起一次聚类，如果是核心点，给它一个新的类号，对它的下一个点进行判断，如果在它的领域内，则设置为相同的类。第4 步下一个点还是核心点，则递归进行处理。直到所有点处理完。1欧阳佳,林丕源. 基于DBSCAN算法的网页正文提取J. 计算机工程,2011,03:64-66+69.4. 研究两种网页去重算法并填写如下表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于特征串的大规模中文网页快速去重算法(1) 网页的文本提取采用两遍扫描来提取网页文本。第一遍扫描, 利用HTML 语言或XML 语言

16、的标记提出文本的标题, 过滤掉无关的标记和超链接, 并进行一些必要转换。在过滤时保留必要的占位符和文本的结构信息和一些半结构化信息。第二遍扫描, 利用文本的结构信息、标点、和一些必要的模板提出网页的文本内容, 保留段落信息。至此, 已把网页文本提出。(2) 特征串的抽取采用“自然语句分隔标志”(简称为分隔标志)将文本切成若干“句子” , 从“句子”中抽取若干字符或汉字作特征码, 然后按照“句子”在文本中的顺序把特征码连接起来构成特征串。由于把文本看作字符流且不需保留语义信息, 所以分隔标志可以是任何符号, 但为保持“句子”划分的均匀性, 通常采用高频字符, 如“ 。” 、“ ?”和“的”等。这

17、样得到的特征串只保留了文本内容(特征码内容)和结构(“句子”的顺序)信息。在抽取特征码时可依据具体需要设定抽取的字符或汉字个数, 本文在“句子”的两端分别抽取相等的字符或汉字作为特征码。(3) 重复度评价函数的设计使用精确的特征码匹配其去重效果并不理想, 所以采用特征串模糊匹配进行网页重复性1吴平博,陈群秀,马亮. 基于特征串的大规模中文网页快速去重算法研究J. 中文信息学报,2003,02:28-35.基于Bloom Filter 的网页去重算法首先我们提取出一个网页的特征（长句），然后利用预定义的k 个HASH 函数对这些特征分别做HASH，从而得到一系列的HASH 值整数输出。接着我们以

18、这些整数为下标到比特数组中去查询，判断下标对应的元素是否都为1。如果这些下标对应的元素不全为1，那么这个网页还没有被统计过，是一个和Bloom Filter 中现有网页不重复的网页，接着我们就把该网页的特征全部加入到Bloom Filter 中。如果这些下标对应的元素全为1，那么我们就认为这个网页已经被统计过，是一个和Bloom Filter 中现有网页重复的网页，因此我们就应该去除掉这个网页。1徐娜,刘四维,汪翔,倪卫明. 基于Bloom Filter的网页去重算法J. 微型电脑应用,2011,03:48-51+6.5. 研究PageRank算法和MapReduce算法并填写如下表格：算法名

19、称基本原理参考资料PageRankMapReduce解:算法名称基本原理参考资料PageRankPageRank 有效地利用了Web 所拥有的庞大链接构造的特性。例如, 从网页A 导向网页B 的链接被看作是对页面A 对页面B 的支持投票, Google 根据这个投票数来判断页面的重要性。可是Google 不单单只看投票数( 即链接数) , 对投票的页面也进行分析。重要性高的页面所投的票的评价会更高, 因为接受这个投票页面会被理解为重要的物品。根据这样的分析, 得到了高评价的重要页面会被给予较高的PageRank ( 网页等级) , 在检索结果内的名次也会提高。PageRank 是Google

20、中表示网页重要性的综合性指标, 而且不会受到各种检索( 引擎) 的影响。因此PageRank 就是基于对使用复杂的算法而得到的链接构造的分析, 从而得出的各网页本身的特性。1孔娟,马亨冰. PageRank算法的原理与解析J. 福建电脑,2007,01:95-96+70.MapReduce用户自定义的Map 函数处理一个输入的基于key /value pair 的集合，输出中间基于key /value pair 的集合MapReduce 库把中间所有具有相同key 值的value 值集合在一起后传递给Reduce 函数，用户自定义的Reduce 函数合并所有具有相同key值的value 值，形

21、成一个较小value 值的集合1亢丽芸,王效岳,白如江. MapReduce原理及其主要实现平台分析J. 现代图书情报技术,2012,02:60-67.6. 提供通过SEO优化之后的网站首页静态效果图和完整的HTML源代码。解:下面这是对本原产品网站进行优化后的网站代码，对title，img等地方进行了优化，优化后的代码如下: !-有爱商城- 正品低价_个性化礼物_有爱商城_havelove $(document).ready(function() $(#myController).jFlow( controller: .control, / must be class, use . sign

22、 slideWrapper : #jFlowSlider, / must be id, use # sign slides: #slider, / the div where all your sliding divs are nested in selectedWrapper: jFlowSelected, / just pure text, no sign width: 984px, / this is the width for the content-slider height: 480px, / this is the height for the content-slider du

23、ration: 400, / time in miliseconds to transition one slide prev: .slidprev, / must be class, use . sign next: .slidnext, / must be class, use . sign auto: true ); ); $(function() $(#list_product).carouFredSel( prev: #prev_c1, next: #next_c1, auto: false ); $(#list_product2).carouFredSel( prev: #prev

24、_c2, next: #next_c2, auto: false ); $(window).resize(); ); $(document).ready(function() $(button).click(function() $(this).addClass(click) ); ) Call Us 13117314737 亲爱的游客你可以登陆或者注册账号. ¥ £ ¢ 中文英语美语 Have Love Store 购物车 $0.00 最近添加的商品教师节鲜花 1 x $399.00 拉菲红酒 1 x $399.00 查看购物订单进一步确认我的账户 | 我的订单 | 登录 | 注册首页酒类鲜花性别男性女性年龄婴儿孩童少年青年年轻人中年人老年人送人类别对同学对父母对爱人对孩子对教师对同事对领导送礼场合生日祝贺纪念结婚乔迁答谢分别道歉奖励生子人群分类有车一族月光一族

展开阅读全文