搜索引擎的技术架构.ppt

上传人:牧羊曲112 文档编号:6575456 上传时间:2023-11-14 格式:PPT 页数:8 大小:454.50KB
返回 下载 相关 举报
搜索引擎的技术架构.ppt_第1页
第1页 / 共8页
搜索引擎的技术架构.ppt_第2页
第2页 / 共8页
搜索引擎的技术架构.ppt_第3页
第3页 / 共8页
搜索引擎的技术架构.ppt_第4页
第4页 / 共8页
搜索引擎的技术架构.ppt_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《搜索引擎的技术架构.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的技术架构.ppt(8页珍藏版)》请在三一办公上搜索。

1、搜索引擎的技术架构,By:觉白,极客SEO之搜索引擎算法系列,因为了解,所以才能做的更好,搜索引擎真的这么简单?,答案是,NO!我们要透过现象看本质,不要被搜索引擎简单的外表所欺骗。事实上,搜索引擎已经成为互联网应用中最具技术含量的应用之一。优秀的搜索引擎需要复杂的架构和算法,以此来支撑对数以百亿计的海量数据获取、存储,以及对用户查询的快速而准确的响应。那么接下来,我们从两个方面来学习下搜索引擎的技术架构。,第一部分 搜索引擎如何获取并存储海量的数据,首先,应该讲到的是爬虫。因为搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网信息获取到本地。其次,“网页去重”。我们把互联网信息获取到本

2、地后,由于互联网上有些信息是完全相同的或者近似重复的,因此就需要网页去重模块对此作出检测,并去除重复内容。在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以及页面中包含的其他页面链接。之所以保存链接,是因为这种链接关系在网页相关性排序阶段是可以利用的,通过“链接分析”可以判断出页面的相对重要性。最后,因为网页的数量太多,搜素引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用少量的机器明显是不现实的,因此搜索引擎开发了一整套的云存储与云计算平台。,回顾,刚才所学到的是搜索引擎如何获取并存储海量的网页相关信息,这些功能因为不需要实时计算,所以可以被看成搜索引擎的后台计算系统。而

3、搜索引擎的最重要的目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时的提供准确结果构成了搜索引擎前台计算系统。,第二部分 搜索引擎的前台计算系统,当搜索引擎接收到用户的查询词后,首先应该是对查询词进行分析,希望能够结合查询词和用户信息来正确推到的真正搜索意图。其次,搜索引擎缓存系统。在分析完用户查询词的搜索意图后,那么首先会在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能在缓存系统中找到满足用户需求的信息,可以直接将搜索结果返回给用户。那么如果没有找到,搜索引擎将调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜素结果。而排序的重要参考因素就是,一个是相关性因素,另外一个是网页重要性因素。,反作弊模块,除了我们刚才所学到的模块,搜索引擎的“反作弊”模块也是非常重要的。因为搜素引擎作为互联网用户的上网入口,对网络流量的引导至关重要,甚至可以说起到了至关重要的作用。于是,各种“作弊”方式就流行起来了,通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这严重的影响了用户的搜索体验。因此,反作弊模块是必不可少的。,搜索引擎架构示意图及总结,结束语,谢谢大家的观看!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号