chapter搜索引擎与网络信息检索(PPT X页) .ppt

上传人:仙人指路1688 文档编号:2931943 上传时间:2023-03-03 格式:PPT 页数:111 大小:11.13MB
返回 下载 相关 举报
chapter搜索引擎与网络信息检索(PPT X页) .ppt_第1页
第1页 / 共111页
chapter搜索引擎与网络信息检索(PPT X页) .ppt_第2页
第2页 / 共111页
chapter搜索引擎与网络信息检索(PPT X页) .ppt_第3页
第3页 / 共111页
chapter搜索引擎与网络信息检索(PPT X页) .ppt_第4页
第4页 / 共111页
chapter搜索引擎与网络信息检索(PPT X页) .ppt_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《chapter搜索引擎与网络信息检索(PPT X页) .ppt》由会员分享,可在线阅读,更多相关《chapter搜索引擎与网络信息检索(PPT X页) .ppt(111页珍藏版)》请在三一办公上搜索。

1、第四章 搜索引擎与网络信息资源检索,第一节 搜索引擎的原理和发展概况,3,1、网络信息资源种类,WWW信息资源:web网页FTP信息资源:远程计算机上的文件夹Blog信息资源:博客、播客等等信息资源Telenet信息资源:直接调用远程主机BBS、新闻组信息资源:相当于论坛信息P2P信息资源:私人计算机上的信息资源数据库和收费网站:如三大库三大馆,4,2、网络信息资源的特点,信息量大、传播广泛信息类型多样、内容丰富信息时效性强、变化频繁信息分散无序、但关联程度高信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。,5,搜索引擎Search Engine

2、Internet网络信息检索工具,3、搜索引擎的概念,6,4、搜索引擎的发展历史,7,8,搜索引擎的起源Archie,所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。,9,由于Archie深受欢迎,受其启发,

3、Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。,早期的另一个搜索工具Gopher,10,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的

4、网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!-几乎成为20世纪90年代的因特网的代名词。,第二代搜索:目录式搜索 Yahoo!,11,1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过

5、强势地位。,好听不好用的元搜索引擎,12,第三代搜索:网页搜索,它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能,13,5、搜索引擎的工作原理,14,15,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:爬行器(即机器人、蜘蛛等搜索程序)索引生成器(即网页索引数据库)查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。,16,搜索引擎的工作原理就像超市,索引生成器(网页数据库),爬行器(蜘蛛),查询检索器(用户查询),因特网,17,利用能够从互联网上自动收集网页的Spi

6、der系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,第一步:从互联网上抓取网页,因特网,18,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,19,搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,

7、也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。,20,第三步:检索界面的建立,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,21,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录

8、及关键词两种信息查询途径。,22,23,第二节 两类搜索引擎及网页搜索引擎,25,两类搜索引擎的代表,百度、Google、Yahoo等,迅雷、天网Maze等,26,第一类搜索引擎:网页搜索引擎以谷歌和百度为代表,27,1、Google搜索引擎,Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引。“Google”来自于数学名词“Googol”,Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司

9、整合网上海量信息的远大目标。地址:http:/,28,Google 简介:,Larry Page,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是 Terry Winograd 博士。Google 就是由Page在斯坦福大学发起的研究项目转变而来的。,29,Google 简介:,Sergey Brin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专

10、业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29 岁的 Sergey 是美国国家科学基金会的奖学金得主。他在斯坦福遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年共同创立了 Google。,30,注意用“”与*功能,31,Google 技术,Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关,使得搜索方式发生了根本性变化。,32,Google的特殊功能(部分),查找非HTML文件:可以支持13种非HTML文件的

11、搜索,如PDF,DOC,PPT,XLS,SWF。例如 查找doc文本文件,只需搜索“关键词 filetype:doc”即可。,33,网页快照:Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”后,将看到 Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。(不好用)类似网页:如果你对某一网站的内容很感兴趣,但又嫌资料不够,单击“类似网页”Google 会帮你找到其他有类似资料的网站;,34,按链接搜索:查询“link:”显示所有指向该网址的网页。例如,“link:”将找出所有指向 网易主页的网页。

12、手气不错:按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。指定网域:如果要在某个特定的域或站点中进行搜索时可输入“*site:*.com”。如在新浪网中搜索“新闻”可输入“新闻 site:”,35,36,查看哈尔滨工业大学研究生招生简章,37,其它技巧,中英文字典:英译汉输入“fy apple”汉译英输入“翻译 苹果”定义:输入“定义:文献”或“define:HTML”计算器:Google 为用户提供了一个内置计算器。天气查询:检索“哈尔滨 天气”或“shanghai tq”Google返回的网站链接会提供最新的当地天气状况和天气预报。邮编区号:输入“邮编 哈尔滨”、“YB

13、150000”、“区号 0451”、“哈尔滨 QH”手机号码:输入“13123456789”可查询手机号的归属地。股票查询:输入“中国石化 股票”或“GP 600028”可查询股票价格及股市行情。,38,39,谷歌其他功能,40,2、百度(baidu),全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。地址:http:/,41,http:/,42,一、概况 百度(B,Inc)于1999年底成立于美国硅谷,2000年,落户中国。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索

14、服务,并且在中国首创了竞价排名商业模式。2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。,李彦宏,43,“百度”二字取自辛弃疾的青玉案“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。,44,百度技术,百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。百度的核心技术:超链分析超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好

15、,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。,45,网页搜索功能,百度快照 相关搜索 拼音提示 错别字提示 英汉互译词典 计算器和度量衡转换 专业文档搜索 股票、列车时刻表和飞机航班查询 高级搜索语法 高级搜索、地区搜索和个性设置,46,47,3、其它中文搜索引擎,新浪:http:/,48,北京正望咨询有限公司,49,百度 VS Google,第四节搜索引擎使用技巧,51,百度的使用方法和技巧1,百度的使用方法和技巧2,百度的使用方法和技巧3,百度的使用方法和技巧4,52,简单搜索,输入查询字符串,搜索引擎

16、返回结果,53,搜索结果分析(Google),网页标题,标题上下文本,A,B,C,网页地址,D,网页大小,E,F,网页快照,类似网页,54,搜索结果分析(Baidu),网站被搜索引擎收录时间,55,提炼搜索关键词 细化搜索条件 用好逻辑符号 强制搜索,如何运用“关键词原则”,56,提炼搜索关键词,学会从复杂搜索意图中提炼出最具代表性和指示性的关键词,对提高信息查询效率至关重要,这方面的技巧是搜索技巧的基础。如:搜索与秦朝历史文化有关的资料,可提炼关键词:“秦始皇”、“兵马俑”。,57,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。如:

17、要了解中国戏剧中京剧的服饰及脸谱知识,搜索条件可为“京剧”、“脸谱”。,细化搜索条件,58,用好逻辑符号,高级关键字举例:空格 一般用作增加搜索范围“”强制限定检索词+扩大检索范围-缩小检索范围(检索示例:查找天龙八部是指哪八部搜索:“天龙八部 金庸 佛教”)Intitle 限制关键字在题目里Site 限制关键字在某网站里加入看似无关但和搜索目标具有相关性的关键字。,59,通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。请同学们搜索 电脑课件之家 和”电脑课件之家”,看结果有何不同。,强制搜索,60,61,QQ,qq site:,VS,62,杨晨 site:,V

18、S,杨晨 杜章勇,63,常用搜索引擎使用方法,Google手气不错高级搜索图像搜索Directory Google groupBaiduMp3地图 黄页,64,Baidu地图搜索,65,Google Local,66,Google Local,67,搜索中常见的错误,错误1:错别字经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,

19、你应该先查一下是否有错别字。,68,搜索中常见的错误,错误2:关键词太常见 如,搜索“电话”,有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。,69,错误3:多义词的使用,要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他

20、的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。,70,搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。应该这样搜索:“现代爱情故事 歌词”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。,错误4:使用自然语言查询,71,又如,“杭州的特色景点与小吃”这么长的关键词实在不如“杭州特色小吃”、“杭州景点”来得准;如果觉得找到的结果还不多,可以进一步改为“杭州 特色小吃”(表示相关页面既包括“杭州”,又包括“特色

21、小吃”)、“杭州 景点”。,72,2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame(框架结构)的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务,搜索引擎是当仁不让的。,错误5:在错误的地方搜索,73,关于搜索的一些思想,不是

22、互联网上所有的信息都能被搜索引擎搜集。动手前多动脑。不要盲目信任搜索得到的信息。不要期望一次搜索解决问题。,互联网上并没有所有的东西!,74,附加资料,Baidu帮助中心Google帮助中心搜索引擎列表Google Tutorial中文搜索引擎指南网,75,文献检索课程作业寻找蒙娜丽莎,、请在网上寻找如下图所示世界名画蒙娜丽莎的指定图片和介绍她被偷的文章。注意,如不是指定图片则此题不给分!提示:可试用以下检索词:Mona Lisa Louvre museum stolen蒙娜丽莎 500岁 蒙娜丽莎被偷 卢浮宫,76,、请在网上寻找卢浮宫三件“镇馆之宝”的另外两件维纳斯和胜利女神的雕像图片,把

23、有关图片下载到你的作业文件夹中,作业文件名必须是图片的主题,否则不给分。,第四节 P2P搜索引擎使用方法,78,第二类搜索引擎:FTP或P2P搜索引擎以迅雷和天网为代表,79,什么是FTP资源,FTP 是在 Internet 网上使用最广泛的一种服务,使用FTP几乎可以传送任何类型的文件:如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上,获取这些资源也是信息检索的一项内容。,80,FTP的工作原理,FTP(File Transfer Protocol)是 TCP/IP 协议的一种,它是在Interne

24、t网上使用最广泛的一种服务,它可被用来在两台位于Internet网上的计算机之间传输文件,它是一种实时的联机服务,使用时,用户应首先登录到对方的主机上,登录成功后,可以进行文件搜索和文件传送的操作,如列文件目录,改变当前目录,设置传送参数等。,81,像其它Internet服务一样,FTP采用 Client/Server 结构。用户在使用FTP服务时,需要输入远程主机的用户名和口令才能被允许登录,在Internet 网上有许多数据服务中心提供一种称为匿名文件传送服务(Anonymous FTP),用户在登录时,以Anonymous 作为用户名,以自己的邮件地址做为 Password 即可。一旦主

25、机提供了匿名的FTP服务,它有限制地允许客户访问远程主机。因此,网页搜索引擎一般不能访问到FTP服务器上的信息资源。,82,什么是P2P,P2P在IT界最初的含义是Peer-to-peer(点对点)。现在P2P已经被更广泛的理解为Pointer-to-Pointer,PC-to-PC等等。简单来说,P2P就是指数据的传输不再通过服务器,而是网络用户之间直接传递数据。,83,举一个简单的例子,在QQ出现之前,人们上网聊天大多通过聊天室,信息的传递方式是:用户A聊天室服务器用户B。这些不是P2P的方式。在QQ时代,用户与服务器的交互仅用来完成登陆、维持在线状态等等,信息用户之间的信息传递不需要服务

26、器参与,信息传递方式为:用户A用户B。这就是典型的P2P应用。不过,当信息的接收方不在线时,信息会通过服务器中转,这就又变成了上面提到的C/S模式,84,第二类搜索引擎,从FTP和P2P的工作方式可以看出,它们都不是传统意义上的www网站,而是直接在两台计算机之间进行的远程通信和文件传输。所以象百度和谷歌这类搜索引擎对这两种信息资源的搜索往往不能奏效。这就需要有新的类型的搜索引擎诞生。其中有代表性的是迅雷和天网搜索引擎。,85,FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电

27、影和音乐等文件时,使用FTP搜索引擎更加便捷。,86,一、迅雷在线搜索引擎,87,88,迅雷在线搜索引擎,迅雷是一款免费下载工具,号称第三代快速下载工具,它使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,构成独特的迅雷网络,通过迅雷网络各种数据文件能够以最快的速度进行传递,据说下载速度是网际快车的7-8倍,支持断点续传。迅雷还拥有一个强大的资源网络,实际上构成了一个独特的搜索引擎。任何人都可以将自己在因特网搜索到的资源再次在迅雷上发布,成为迅雷的“雷友”,拥有自己的迅雷博客。这样,迅雷就可以通过对雷友博客的搜索,提供更多的信息资源。,89,二、天网搜索引

28、擎,90,91,天网中文搜索引擎,北大天网 http:/由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在中国教育和科研网CERNET上提供服务。收录网页约6000万,主要搜索CERNET上的信息,有强大的FTP搜索功能。,92,93,94,主要以P2P资源搜索为主的搜索引擎2,北京天网时代科技有限公司(http:/2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。,95,天网资源:Web、FTP、Maze等,96,“天网妹子”,天网资源最具特色的是Maze资源,天网Maze是一款集搜索和下载为一体的、基于P2P底层技术的客户端软件,它的特点是

29、同时具有搜索、下载和共享发布的功能,当你安装此软件并注册后,就可以输入关键词进行搜索。但它搜索的对象主要是所有的Maze用户,你可以直接从找到的在线Maze用户的个人计算机共享文件夹上下载你感兴趣的任何文件。,97,用天网妹子搜索到的大学课程在线,98,三、其他P2P搜索引擎,BT电驴电骡,99,100,特色搜索引擎,1.图像搜索引擎2.FTP搜索引擎3.新闻组搜索引擎4.新闻搜索引擎5.MP3搜索引擎6.Flash搜索引擎,第五节门户网站和“看不见的”网站,102,一、门户网站的概念,中国有三大网站被称为“门户网站”(新浪、搜狐和网易)。之所以他们被称为中国最大的三大门户网站,除了因为它们有

30、搜索引擎以外,还因为它们安排了多种多样的信息服务,使得人们能自觉自愿地登陆这些网站开始“网上冲浪”,恰似因特网的大门一样。,103,第三代互动式搜索引擎搜狗,搜狗是搜狐()推出的第三代互动式搜索引擎,在用户输入一个查询词后,尝试理解用户可能的查询意图,给出多个主题概念的搜索提示,通过人机交互过程,智能展开多组相关的主题概念,引导用户更快速准确定位自己所关注的内容。,104,105,二、新浪网站及其搜索引擎,106,三、网易网站及其搜索引擎,Keyword searching,107,108,二、看不见的网站,与门户网站相反,有相当一批网络信息资源是搜索引擎看不到的,譬如天网妹子上的大学视频教程,以及私人服务器上的BT资源,百度、谷歌就对它们无能为力。因而就有了“看不见、搜不着的网站”的说法。但这些信息资源绝不是不重要的。,109,“看不见”的网站即指可通过万维网获得的文本网页、文件或其他高质量的权威信息,但由于技术限制,或是由于特定选择而不能或未纳入通用搜索引擎的网页索引,也可以简单地把“看不见”的网站理解成通用搜索引擎及网站指南所无法覆盖的内容。,110,Thanks,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号