搜索引擎及其应用.ppt

上传人:牧羊曲112 文档编号:6049782 上传时间:2023-09-18 格式:PPT 页数:84 大小:4.95MB
返回 下载 相关 举报
搜索引擎及其应用.ppt_第1页
第1页 / 共84页
搜索引擎及其应用.ppt_第2页
第2页 / 共84页
搜索引擎及其应用.ppt_第3页
第3页 / 共84页
搜索引擎及其应用.ppt_第4页
第4页 / 共84页
搜索引擎及其应用.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《搜索引擎及其应用.ppt》由会员分享,可在线阅读,更多相关《搜索引擎及其应用.ppt(84页珍藏版)》请在三一办公上搜索。

1、第六章搜索引擎及其应用,http:/,信息检索,第六章 搜索引擎及其发展,主要内容,信息检索,1 搜索引擎概述,什么是搜索引擎?,搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。,信息检索,搜索引擎的组成,1 搜索引擎概述,搜索引擎原理,信息检索,抓取网页,建立索引数据库,检索界面,1 搜索引擎概述,搜索引擎原理,信息检索,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,第一步:从互联网上抓取网页,因特网,1 搜索引擎概

2、述,搜索引擎原理,信息检索,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,1 搜索引擎概述,搜索引擎原理,信息检索,搜索引擎的Spider还必须一同实现对索引数据库的动态维护,以保证索引数据库准确反映网络信息资源的当前状况。,1 搜索引擎概述,搜索引擎原理,信息检索,第三步:检索界面的建立,搜索引擎根据用户输入的检索词,在索引数据库中快速地检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检

3、索结果返回给用户。,1 搜索引擎概述,搜索引擎原理,信息检索,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。,1 搜索引擎概述,搜索引擎原理,信息检索,抓取网页,建立索引数据库,检索界面,1 搜索引擎概述,搜索引擎原理,数据采集,数据组织,用户检索,信息检索,搜索引擎的发展,第三代搜索网页搜索,1 搜索引擎概述,信息检索,搜索引擎分类,按工作方式分:(1)目录式搜索引擎 也叫“网址大全”,将网站分门别类地存放在相应的目录中,可按关键词搜索,也可按分类目录逐层查找。如Yahoo!(雅虎)、hao123、新浪分类目录搜索等,1 搜索引擎概述,搜索引擎

4、的分类,信息检索,雅虎目录式网址搜索引擎界面,信息检索,搜索引擎分类,按工作方式分(2)全文搜索引擎 用户可以搜索一篇文章的任何部分,不论是标题还是正文。如百度、Google、必应。,1 搜索引擎概述,搜索引擎的分类,信息检索,信息检索,搜索引擎分类,按工作方式分:(3)元搜索引擎 指用户同时利用多个引擎进行网络搜索的中介。元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。目前世界上著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。,1 搜索引擎概述,搜索引擎的分类,信息检索,InfoSpace元搜索引擎界面,信息检索,元搜索引擎觅搜、Dogp

5、ile,信息检索,指数确定结果排序,信息检索,Dogplie,信息检索,指明出处,信息检索,常用搜索引擎,信息检索,Google是目前最大的全球性搜索引擎之一。创始人:斯坦福大学博士生拉里佩奇(Larry Page)和谢尔盖布林(SergEy Brin)创立。,2 百度与google,2 百度与google,Google(谷歌),信息检索,名字由来源于数学名词“Googol”,Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。使命整合全球信息,使人人皆可访问并从中受益。价值观:Dont be evil不作恶,2 百度与go

6、ogle,Google(谷歌),信息检索,信息检索,信息检索,Google 技术,PageRank PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术。Google用它来体现网页的相关性和重要性。,2百度与google,信息检索,Google 技术,PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升

7、。级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。,2百度与google,信息检索,Google的PageRank技术,链接1链接2,100,53,链接1链接2链接3,9,50,3,3,信息检索,Google 技术,超文本匹配分析技术(Hypertex-t Matching Analysis)Google除了考虑检索词出现的次数,还分析关键词的字体、字号、以及字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。举例:检索词 A网页的标题中 B网页的正文中,2百度与google,Google(谷歌),1基本搜索,1 谷歌一

8、般(基本)检索默认模糊搜索、默认拆分语句和过长的短语如何精确搜索(短语搜索)通配符*用法点号匹配任意字符:.布尔逻辑与:空格、AND或:OR、|非:-(减号)同义词:数字范围:.,Google(谷歌),默认模糊搜索、默认拆分语句和过长的短语,如何精确搜索(短语搜索),通配符*用法,40,点号匹配任意字符(也可不用引号),41,布尔逻辑 与,42,逻辑或,逻辑非,同义词(英文适用),数字范围,2高级搜索Site:表示对搜索的网站进行限制,如新闻”Filetype:按文件类型搜索文件,包括PDF、WRI、XLS、PPT等Inurl和 all inurl:搜索的关键字包含在URL连接中Intitle

9、 和 all intitle:搜索的关键字包含在网页中,如intitle 信息检索link:搜索所有链接到某个URL地址的网页。“”将找出所有指向 网易主页的网页。,Google的检索方式,Google(谷歌),intitle:搜索范围限制在网页的标题,intext:搜索范围限制在网页中的正文,inurl:搜索范围限制在URL,filetype:根据文件后缀搜索特定文件类型,define:搜索定义,信息检索,所有检索结词全部包含在检索结果中,但出现的次序不限,即将所输入的内容作为一个检索词来检索,不能有空格或符号。,只要包含所输入的检索词之一即可,各检索词用空格隔开,如何辨别网站的性质,.ed

10、u 教育学术.gov 官方政府单位.net 网络管理或服务机构.org 财团法人或基金会等非官方的一般机构.int 国际性组织.com 代表商业企业团体与组织 中国科学研究机构,(1)图片搜索(2)新闻搜索(3)论坛搜索(4)地图搜索(5)学术搜索(6)图书搜索(7)购物搜索(8)视频搜索(9)大学搜索(10)博客搜索,其他常用搜索服务功能,图片搜索,图片搜索,Google相似图片搜索,Google相似图片搜索,Google Scholar,Google Scholar:Google面向研究人员推出,提供可广泛搜索学术文献的简便方法。可以从一个位置搜索众多学科和资料来源:来自学术著作出版商、专

11、业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。帮助用户在整个学术领域中确定相关性最强的研究。http:/,Google Scholar,Google Scholar检索技巧及举例简单检索,布尔逻辑,强制检索(适用于高频词)Google 默认逻辑“与”的关系(空格)高级检索,文章、作者、出版物、日期利用Google Scholar的服务功能导入Endnote电子邮件提醒检索结果可以方便地链接到合作图书馆,Google Scholar,Google Scholar,Google Scholar结果显示,题名 title引用次数 Cited by相关文献 Rela

12、ted articlesBL Direct或指定图书馆数据库全文链接 如 jstor.org PDF 查看网页 View as HTML,对检索式设置电子邮件提醒,相关文献的引用记录,直接下载PDF文档,对Google Scholar进行设置,信息检索,百度(baidu),创始人:李彦宏、徐勇名字由来:“百度”二字源于中国宋朝词人辛弃疾的青玉案元夕词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。使命:不断开发、创新 让人们更便捷地获取信息、找到所求,2 百度与谷歌,信息检索,百度技术,百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。百度的核心技术:超链分析超

13、链分析技术,是新一代搜索引擎的关键技术。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。,信息检索,百度检索方式,(1)简单检索逻辑与:“空格”、“+”、“&”逻辑或:“|”逻辑非:“-”,信息检索,信息检索,所有检索结词全部包含在检索结果中,但出现的次序不限,即将所输入的内容作为一个检索词来检索,不能有空格或符号。,只要包含所输入的检索词之一即可,各检索词用空格隔开,百度的检索技巧(检索语法),(1)检索词 site:网站将搜索范围限制在某个特定的网站中如“四六级”(2)inurl:限定的字符串检索词检索词包含在URL网址中(

14、3)intitle:限定的字符串检索词检索词包含在网页标题中。如:intitle:四级(4)双引号和书名号精确匹配,信息检索,其他常用搜索服务功能,(1)新闻搜索(2)贴吧搜索(3)MP3搜索(4)国学搜索(5)百度知道(6)相关搜索(7)实时搜索(8)百度识图,信息检索,信息检索,信息检索,百度识图,信息检索,Graph Search图谱搜索,Facebook推出Graph Search究竟能做什么?给出答案,而不是通往答案的链接Graph Search可以搜什么?人、图片、地点、兴趣等 人:我在旧金山的好友都有谁?图片:我朋友们的照片 地点 兴趣:我朋友喜欢的电影检索语言偏向口语化基础:社

15、交数据,信息检索,信息检索,搜索引擎使用技巧,(1)有针对性地选择搜索引擎 根据检索目的(2)根据要求选择检索方法并细化检索采用词组提高查准率选用同义词提高查全率,信息检索,搜索引擎使用技巧,(3)使用多个关键词,精确检索結果关键词越明确,搜索结果越精确电影 哈利波特2011年诺贝尔文学奖得主平均输入入1.5个关键词 太少,信息检索,信息检索,搜索引擎使用技巧,(4)、要“加”,不要“减”,結果更相关要“”卧虎藏龙卧虎藏龙+电视剧卧虎藏龙+电视剧+电影卧虎藏龙+电视剧+电影-音乐不要“”输入的关键词一定不可以出现在結果中卧虎藏龙-音乐知识管理-site:.com,信息检索,搜索引擎使用技巧,(5)限定查询范围 結果更精确语言:高级检索查询网页语言 偏好設定网域:只在.CN日期:一天内、一周内、一月内、一年内(google)文献类型:只在或去除.ppt.pdf.doc,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号