《seo课程搜索引擎.ppt》由会员分享,可在线阅读,更多相关《seo课程搜索引擎.ppt(83页珍藏版)》请在三一办公上搜索。
1、搜索引擎,提纲,搜索引擎的发展简史搜索引擎的分类使用搜索引擎搜索引擎的基本原理第一次上机总结搜索经济搜索引擎的未来发展趋势,回顾,搜索引擎分类搜索引擎使用与 或 非强制搜索,目录搜索引擎,以人工方式或半自动方式搜集信息信息准确、导航质量缺点是需要人工介入、维护量大、信息量少、信息更新不及时,机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人程序自动搜索信息优点:信息量大、更新及时、无需人工干预缺点:返回信息过多,有很多无用信息。,元搜索引擎,利用其他搜索引擎返回统一的搜索结果。返回信息量更大、更全。缺点是不能充分使用所有搜索引擎的功能,Google基本搜索,基本搜索方法逻辑“与”、“非”、
2、“或”,即+,-,OR1.与操作:搜索结果要求包括两个及两个以上关键字。关键字之间用空格。2.非操作:搜索结果要求不包含某些特定信息。在排除的关键词前加-,英文字符,-号前空格,后面不能有空格。3.或操作:搜索结果至少包含多个关键字中的任意一个关键字之间用“OR”表示,OR必须用大写。GOOGLE不支持通配符,关键字中的“*”或“?”会被忽略。GOOGLE对英文字符大小写不敏感。GOOGLE用句子做关键字,必须加英文引号。,google强制搜索,Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理.搜索:www的历史 i
3、nternet 结果:因为使用过于频繁,没有被列入搜索范围:www 的强制搜索的方法是把关键字用英文双引号引起来.搜索:“www的历史 internet”结果:已搜索有关www的历史 internet的网页.注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行.,Google限定搜索,Site表示搜索结果局限于某个具体网站或者网站频道 Link返回所有链接到某个URL地址的网页 Inurl返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。Intitle语法返回的网页标题中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。filet
4、ype在某一类文件中查找信息。,作业情况,从用户的角度看搜索引擎,搜的快,搜的全,搜的准功能多,好用,好看,搜的快,搜的全,功能多,好用,好看,北大天网,4 搜索引擎的基本原理,-,搜索引擎工作原理,搜索引擎三段式工作流程,搜集批量搜集,增量式搜集;搜集目标,搜集策略预处理关键词提取;重复网页消除;链接分析;索引服务查询方式和匹配;结果排序;文档摘要,搜集,整理,服务,搜索引擎系统的体系结构,网页搜集,网页数据库的基本策略:1)定期搜集:2)增量搜集:网页的抓取策略:1)“爬取”策略:2)维护URL:,“爬取”策略,将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链
5、接,按照一定的策略(先深/先宽/others)遍历。这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行,维护URL,系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。每搜到一个网页,如果它发生变化并有新的URL,就将新URL也放到集合中。,人工添加,网站拥有者主动向搜索引擎提交自己的网址系统在一定时间内定向向那些网站派出“蜘蛛”程序,扫描并收集有关信息。,存储网页,搜集到的网页将存储到知识库(repository)中。知识库包含每个网页的docID,长度,URL以及网页的全部HTML。由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。,预处理,关键词的
6、提取重复或转载网页的消除链接分析网页重要程度的计算,关键词的提取,什么是倒排文件(inverted file)?需要从网页源文件中提取出能够代表它的内容的一些特征,而关键词就是这种特征最好的代表。其中涉及到英文的分词和中文的分词。对一篇网页来说,有效的词语数量一般是200左右。,链接分析,链接是分析网页重要的信息1.链接描述文字准确的反映了网页的内容2.网页之间的链接关系,反映了网页的重要程度(PageRank Google),网页重要程度计算,PageRank(Google)指向一个网页的链接越多,说明这个网页越重要。把整个web结构看作一个矩阵。N个网页就形成一个nn的矩阵。,查询服务,查
7、询方式和匹配结果排序文档摘要,查询方式和匹配,查询方式指的是系统允许用户提交查询的方式。查询短语分词对查询短语进行分词匹配将查询关键词与倒排文件的索引词进行匹配,结果排序,按照某种评价方式,将搜索结果以某种顺序显示出来。评价方式相关性早期采用基于词汇出现频度的方法词在不同文档中出现的频率PageRank在预处理阶段形成重要性指标,和查询阶段的相关性指标相结合。,文档摘要,静态生成方式预处理阶段生成,如取网页的前512个字节,或者取每一段的第一句话。动态生成方式在查询时,根据查询关键词的位置动态生成。,6 搜索经济的诞生,-,中国互联网络发展状况统计报告,2010年7月 15日,中国互联网络信息
8、中心(CNNIC)在京发布了第26次中国互联网络发展状况统计报告(以下简称报告)。报告显示,截至2010年6 月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。手机网民成为拉动中国总体网民规模攀升的主要动力,半年内新增4334万,达到 2.77亿人,增幅为18.6%。值得关注的是,互联网商务化程度迅速提高,全国网络购物用户达到1.4亿,网上支付、网络购物和网上银行半年用户增长率均在30%左右,远远超过其他类网络应用。,互联网的重心发展历程,注意力经济(眼球经济),提供网上图片等各种信息注重提供免费信箱、聊天室等各种服务吸引人来,注重会员数。,从眼球经济到拇指经济,被动,主动,
9、搜索力经济,拇指变成了十指,被动变成了主动搜索成了网络经济的引擎和发动机,搜索引擎的盈利模式,搜索引擎最初并没有显示出价值,只是一个免费的附加服务。PageRank算法的诞生,使得网络盈利成为可能根据搜索结果显示相应的广告,这是网络广告的真正创新,搜索引擎的盈利模式,竞价排名1998年Overture推出收费竞价排名服务,谁出的钱多,谁排前面,搜索引擎成了摇钱树。搜索与购物网站绑定,时长竞价排名,按天竞价消除恶意点击,搜索等于搜钱,2007年中国搜索引擎市场规模达29.0亿元,比上一年增长108.3%艾瑞咨询,中国搜索引擎市场份额,中美日市场规模对比,重构搜索力,2003年8月,搜索引擎重新回
10、到Yahoo首页的突出位置。并不完全是搜索引擎可以赚钱了关键是它还可以整合其现有的业务资源2004年8月,搜狐推出了搜索引擎搜狗。2003年开始,微软重组MSN部门,并希望在下一代操作系统中集成搜索。亚马逊推出了A9网站,专注于购物搜索,搜索引擎大战,微软数次提出要收购Google.结果被Google挖走李开复IBM也推出了自己的搜索技术搜索引擎和门户网站之争养虎为患不得不养复杂的竞争合作关系,中国搜索用户的首选,中国高端搜索用户的首选,群狼共舞,搜索鸟,网络世界的未来统治者?,目前,Google是当之无愧的世界老大?但是未来呢?Google在中国呢?,搜索引擎的未来发展趋势,-,搜索引擎自身
11、的发展趋势,专业化主题化垂直搜索引擎个性化搜索工具条桌面搜索智能化本地化基于位置的搜索服务,技术更复杂,应用更简单,搜索引擎所引发的互联网变化,搜索引擎的革命引发互联网应用模式、商务模式和业务形态的革命搜索将成为一个网站的必备配置搜索引擎的综合化基于搜索引擎的信息增值业务竞争情报系统、商务搜索、8848的购物搜索、Google信箱,搜索引擎的重要性,从内容为王到搜索为王从搜索服务到搜索平台基于搜索平台的搜索增值服务,Google 向 Microsoft 发出挑战,Microsoft PK GooglePC时代 PK Internet时代,产品竞争,人才竞争,历史事件回放:2005年7月18日,
12、微软全球副总裁李开复跳槽Google,担任中国区总裁,Microsoft 与 Google 的竞争,代表两个时代的竞争 PC时代 vs 互联网时代李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身。这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺预言以微软为代表的PC时代正在加速没落,而Google正在显示一个新时代引领者的形象,回首PC时代,美国Microsoft、IBM、Intel.中国Lenovo、Founder.,面对机遇,展望Internet时代,美国Google、Yahoo、Ebay、.中国Baidu、NetEase、Alibaba.,美国模式和中国模式,美国模式=技术+机遇+管理重视技术开发、重视研发投入Microsoft=Bill Gates+PCYahoo=杨致远、David Filo+Internet Google=Larry Page、Sergey Brin+Internet,中国模式=管理+技术+机遇薄利多销巨大市场带来的消极影响不重视技术开发和研发经费投入短视行为、跟进行为(DVD、VCD行业的教训),谢谢大家,