百度搜索引擎原理.docx

上传人:牧羊曲112 文档编号:3668614 上传时间:2023-03-14 格式:DOCX 页数:4 大小:38.66KB
返回 下载 相关 举报
百度搜索引擎原理.docx_第1页
第1页 / 共4页
百度搜索引擎原理.docx_第2页
第2页 / 共4页
百度搜索引擎原理.docx_第3页
第3页 / 共4页
百度搜索引擎原理.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《百度搜索引擎原理.docx》由会员分享,可在线阅读,更多相关《百度搜索引擎原理.docx(4页珍藏版)》请在三一办公上搜索。

1、百度搜索引擎原理百度搜索引擎原理 抓取网页 每个独立的搜索引擎都有自己的网页抓取程序。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网

2、页的摘要以及其他信息。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提 取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 你的网页被搜索引擎索引的越多,网站被

3、用户访问的机会就越多。多数搜索引擎“拒 绝”所递交URL的第二级或第三级以下层次网页的索引,如果你的网站有4-5级层次, spider就不带回网站的所有网页,解决的办法之一就是做一个“通道页”(hallway page),“通道页”放置你网站的所有链接。 下面解释一下搜索引擎如何spider你的网站,假如你有一个网站Chinese food,并向搜索引擎注册了网站的首页,首页即为树状结构的根部,如果首页包含两个链接, 分别指向sichuan-food.htm和guangdong-food.htm,则这两个网页就是第二级,在 sichuan-food.htm有链接指向chengdu-food.h

4、tm,则chengdu-food.htm为第三级,在 chengdu-food.htm有链接指向special-food.htm,则special-food.htm为第四级,如此类推。 第一级 index. htm 第二级 sichuan-food.htm和guangdong-food. htm 第三级 chengdu-food. htm 第四级 special-food. htm 多数搜索引擎“拒绝”索引第二级或第三级以下的层次,也就是说,第四级的所有网 页(对某些搜索引擎包括第三级的所有网页),将不能被搜索引擎发现,除非你直接注 册这些网页,但不建议直接注册这些网页,因为这样将降低你的排名

5、位置,并且容易 超过搜索引擎规定的每日注册限制。这就是为什么要专门制作一个“通道页”的原因。 2、“论资排辈” 对于同一域名,某些搜索引擎限制接收的网页数,所以建议你在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应控制在50个以内。 最新冷笑话 银行利率网 银行贷款利率 黄金价格查询 汇率查询网 杭州艾玛医院 3、耐心 搜索引擎需要1天到6周的时间,以便把你的网页加入到其数据库中。在注册网站的首 页或“通道页”后,对第二级和第三级的网页,还需要多等待1到2周,并且随着网页 级别的降低,多数搜索引擎对网页的访问优先权也降低,然而有趣的是,一旦搜索引 擎把低级别的网页加入其索

6、引数据库中,这些网页排名位置常常比直接注册高。 4、考虑多个域名 对于同一域名,很多搜索引擎限制加入到其数据库中的网页数量,每个搜索引擎限制 数不一样,一般地讲,在400个左右,但也有例外。如果你的网站有很多的网页,可 以考虑申请不同的域名,以便在搜索引擎中加进更多的网页。 5、避免CGI程序产生网页 大多数搜索引擎拒绝索引由CGI程序产生的网页,这种网页的URL地址通常包括问号 “?”和连接号“& ”,这些符号的作用是用来分隔参数的,如下所示: 6、检查你的网页的有效性 要经常检查网页在搜索引擎中的情况,也许你的竞争对手排在了你的前面,也许你的 网页莫明其妙地消失,你可利用某些网站提供的排名监测服务来进行监控,也可亲自到搜索引擎中查询你的网站。 7、经常更新 为鼓励网页更新,搜索引擎将清除长期没有更新的网页,所以,你应周期性地更新你 的主页内容,但对已在搜索引擎排名很高的网页来说,你应仔细考虑更新是否危机已 有“地位”。 8、重新注册 每次重新注册都应有原因,或排名降低,或网页更新,间隔时间可一周一次,或一月 一次,但不能向目录引擎(如Yahoo!)重新注册。 9、位置是最重要的 把你的网页加入到搜索引擎数据库并不困难,但多数人错误地认为网站加入到数据库 就万事大吉了,你还得继续非常重要的下一步,争取你的网站排在搜索引擎前十名到 二十名。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号