搜索引擎抓取不到的20种网站内容.docx

上传人：小飞机文档编号：3548795 上传时间：2023-03-13 格式：DOCX 页数：1 大小：36.65KB

返回下载相关举报

第1页 / 共1页

亲，该文档总共1页，全部预览完了，如果喜欢就下载吧！

资源描述

《搜索引擎抓取不到的20种网站内容.docx》由会员分享，可在线阅读，更多相关《搜索引擎抓取不到的20种网站内容.docx（1页珍藏版）》请在三一办公上搜索。

搜索引擎抓取不到的20种网站内容1、 spider未能正确处理的网页性质及文件类型 2、没有指向链接的孤岛网页 3、 spider访问时因为某些原因正好是死链接 4、被认为是劣质网页而不抓 5、因为/色情/反动/spam/等问题而不抓的非法网页 6、需要输入用户名、密码方可打开的网页 7、网站用robots协议拒绝搜索引擎抓取的网页 8、搜索引擎还未来得及抓取的新网页 9、gopher、newsgroups、Telnet、ftp、wais等非http信息 10 网站数据库做得太差劲，spider一抓就宕，只好不抓 11、搜索引擎库里有，但是未能正确索引网页中信息 12、分词引起误差 13、图型中的文字信息你看得懂但搜索引擎看不懂 14、停用词等搜索引擎故意不索引的信息 15、搜索引擎对某些网页有选择的索引，未索引全部网页信息 16、搜索引擎正确索引了网页中信息，但和你用的关键词不同 17、你用的搜索关键词中含有错别字 18、网页作者用了错别字 19、没有错别字，但网页作者用的词汇和你的关键词不同，毕竟，文字的特性，允许有n种方式表达同一种信息 20、简体繁体不同编码

展开阅读全文