《搜索引擎原理》PPT课件.ppt

上传人:小飞机 文档编号:5516780 上传时间:2023-07-16 格式:PPT 页数:124 大小:3.08MB
返回 下载 相关 举报
《搜索引擎原理》PPT课件.ppt_第1页
第1页 / 共124页
《搜索引擎原理》PPT课件.ppt_第2页
第2页 / 共124页
《搜索引擎原理》PPT课件.ppt_第3页
第3页 / 共124页
《搜索引擎原理》PPT课件.ppt_第4页
第4页 / 共124页
《搜索引擎原理》PPT课件.ppt_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《《搜索引擎原理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《搜索引擎原理》PPT课件.ppt(124页珍藏版)》请在三一办公上搜索。

1、搜索引擎介绍,网络信息资源分类,简单地可以分为两类:一类是来自正式文献信息源的信息:质量高、内容可靠,一般都有检索平台,花钱购买才能很方便的使用。(如CNKI数据库)一类是各类网站上的信息:包罗万象、良莠不齐,一般通过搜索引擎进行检索。注意:科学研究需要的文献资料,一般要通过图书馆主页的各种数据库获取。,网络信息资源分类,如按照采取的网络传输协议不同可分为:WWW信息资源 FTP信息资源(FTP:/)TELNET信息资源(远程医疗)用户服务组信息资源 GOPHER信息资源,网络检索工具搜索引擎,因特网上蕴藏着丰富的信息资源。它已经成为全球传播科研、教育、商业和社会信息的最主要渠道。我们怎么从着

2、信息的海洋中准确迅速地找到所需的信息?从20世纪80年代起人们开发了各种网络信息检索工具。1989年,万维网诞生了。WWW上的资源成为因特网的主流,越来越多的万维网搜索引擎成为检索网络信息资源的工具。所以我们在这里介绍WWW上的搜索引擎。,一、搜索引擎概述,本次课程内容,一、搜索引擎概述1、常用搜索引擎介绍2、搜索引擎的关键词语法规则3、Google与百度的检索技巧4、网络免费学术资源介绍,搜索引擎概述-概念,1、搜索引擎(Search Engine):人们经常将网络信息检索工具概称为搜索引擎它以一定的策略在Internet上搜集、发现信息,对信息进行提取、组织和处理,并为用户提供检索服务,从

3、而达到信息导航的目的。搜索引擎也是一类网站,即因特网上具有检索功能的网页。它能够在万维网上主动搜索其他web站点中的信息并对其自动进行索引,即记录下各个Web页面的URL地址并进行有序排列这些索引内容存放在可供的查询的索引数据库中。,搜索引擎概述-类型,2、根据搜索引擎的信息搜集方法和服务提供方式的不同来划分为以下三大类:(1)全文搜索引擎(机器人搜索引擎)(2)目录式搜索引擎(3)元搜索引擎 本质区别:目录索引搜索引擎的资料数据库中,搜索保存的是互联网上各网站的站名、网址和内容提要;全文搜索引擎的资料库中,搜索保存的则是互联网上各网站的每一个网页的全部内容,范围要大得多。,Google主页,

4、百度主页,YAHOO搜索主页,搜索引擎的工作原理,在因特网中发现、搜集网页信息,对信息进行提取和组织、建立索引库,根据用户输入的查询条件,在索引库中快速检出文档,进行相关度评价,将结果进行排序将查询结果返给用户,索引数据库,信息搜集,用户,1、全文搜索引擎介绍,全文搜索引擎,全文搜索引擎是名副其实的搜索引擎。它们都是通过从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。国外具代表性的有 Google等,国内著名的有百度(Baidu),全文搜索引擎提供的完整信息,全文搜索引擎工作原理,

5、工作原理是由网络机器人软件ROBOT,每天24小时不停地访问因特网上的网站,并根据页面上的链接从一个网页跳到另一个网页,提取网页,以及标题、关键词、超链接、元数据乃至网页全文等各种信息。搜索到的网页信息被存储在数据库中,由机器自动标引形成索引,建立索引库。,1.1、Google搜索引擎介绍,Google搜索引擎介绍,Google是由2名斯坦福大学博士生Larry Page 和Sergey Brin1998年创立,是目前世界上最大、用户最多、全球公认最佳的搜索引擎。网址(http:/)或(http:/),Google搜索引擎介绍,Google 是由英文单词“googol”变化而来表示 1 后边带

6、有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。Google支持100多种语言,到2005年已增长至80亿网页,其对网页进行整理,为世界各地的用户提供便捷的网上信息查询。,Google概况,优点:信息量大,更新快,能给用户最全面最广泛的搜索结果。缺点:有很多无关信息出现,降低相应的命中率,必须从结果中再筛选。提供的查询结果重复链接较多。,2006年4月在中国更名“谷歌”,检索途径(网页、图片、视频、新闻、音乐等),检索途径,检索入口,高级检索页面,检索功能,GOOGLE提供基本搜索和高级搜索两种搜索方式:1、基本检索 就是直接在主页的检索框内输入检索词和短

7、语提问,自由检索,直接获取检索结果。2、高级检索 搜索结果区中的四种匹配方式依此表示and、精确短语检索、or、not。每个检索框只能输入检索词,不能输入运算符。同时还可进行时间、语言、网域等的限制。,基本检索语法规则(记住第1、4条),(1)默认检索:输入多个检索词以空格分隔,默认为AND匹配。最多可输入10个检索词。即不需使用AND或“+”号,其会在关键词之间自动添加AND。空格表示逻辑“与”。(2)逻辑“或”检索:用大写OR连接多个检索词。高级检索中仍然有相当OR逻辑关系的字段。(3)逻辑“非”检索:检索词前加上减号“-”(减号前必须留一空格),表示逻辑“非”,搜索不包含该检索词的网页,

8、基本检索语法规则,(4)短语检索:用半角的双引号括起词组或短语,进行精确短语匹配。如:“Kidney failure”.(5)GOOGLE不区分英文字符大小写:“GoD”和“god”搜索的结果是一样的。不支持“*”搜索(6)不支持“通配符”(*)搜索:也就是说,Google 只搜索与输入的关键词完全一样的字词,基本检索中的限定检索,(1)site:限定在某个特定的网域或站点中进行检索。命令格式:检索词 site:域名 例:三峡旅游 site:com,表示在商业网站中搜索含“三峡旅游”的网页。,基本检索中的限定检索,(2)intitle:表示限定在网页标题中搜索.命令格式:intitle:检索词

9、 例:intitle:王菲写真,表示在网页中搜索包含“王菲写真”的网页.,基本检索中的限定检索,(3)Filetype:用来限定命中文件的类型。命令格式:关键词 Filetype:文件类型 例:文献检索 Filetype:PPT,表示在网页中搜索包含“文献检索”内容的PPT文件.,基本检索中的限定检索,(4)inurl:在网页的url内搜索指定的内容。inurl后面的关键词则可以出现在网页的文档中。URL中文叫统一资源定位器。命令格式:inurl:限定的字符串检索词 例:inurl:MP3 宋祖英,表示宋祖英可以出现在网页的任何位置,而MP3 则必须出现在网页的URL中。,举例:搜索三峡旅游相

10、关网页,用Site:限定查三峡大学毕业论文格式,如果不限定检索也可以查到,但是查准率低 方法:检索词直接输入基本检索框,检索结果=138000条,搜索王菲的照片(intitle:王菲写真),搜索宋祖英的MP3音乐(inurl:MP3 宋祖英),在论坛上查教育技术博士点高校有哪些(教育技术博士点 inurl:bbs),Google基本检索指令表,基本检索一般方法举例,例1:查找中国人寿司歌的歌曲名称,第一种检索方法,、将中国人寿司歌作为检索词直接输入基本检索框结果:搜索引擎自动将中国人寿司歌分隔成中国人和寿司两个检索词进行查找.(2006年的检索结果),第一种检索方法,没有在前10条中发现答案(

11、2006年结果),第二种检索方法,、用户主动使用空格分隔,默认为AND 中国人寿 司歌作为两个检索词用空格隔开并输入。检索结果如下:,主动使用空格的检索效果,结果在第三条就看到了(2006年结果),结果在这里,第三种检索方法,、用半角双引号括起词组或短语,进行精确短语匹配 将其用半角双引号括起“中国人寿司歌”,输入到检索框中。,检索结果一目了然(2006年结果),2007年数据库更新完善后的检索情况,数据更新完善后的检索情况,2011年2月检索情况,高级检索,高级检索 搜索结果区中提供四种逻辑匹配方式依此表示and、精确短语检索、or、not。每个检索框只能输入检索词,不能输入运算符。同时还提

12、供了语言、更新时间、检索词位置、网域等限定,另外还可通过“类似网页”搜索相关网站。,高级检索,将搜索范围限制在某个特定的网站中 排除某个特定网站的网页 将搜索限制于某种指定的语言 查找链接到某个指定网页的所有网页 查找与指定网页相关的网页 示例1:查找微软网站上关于windows2000的安全课题资料。,高级检索,高级检索界面,security,Windows 2000,M,检索结果,高级检索中的含义解释,1、包含以下全部的字词:相当于词间“与”关系,2、包含以下的完整字句:相当于“”字符串检索,3、包含以下任何一个字词:相当于词间“或”关系4、不包括以下字词:相当于词间“非”关系,高级检索举

13、例,示例2:搜索”医学论文写作”方面的网页及PPT课件,包含以下全部的字词,结果=1500,000条,包含以下的完整字句,结果=384,000条,不包括以下字词,结果=1440,000条,搜索”医学论文写作”方面的PPT课件,PDFPPTDOCXLSSWF,检索结果=620条,Google 的特殊功能,查找某文档类型网页:PDF、PPT、swf、DOC PostScript(ps)等.网页快照:单击“网页快照”即可.定位检索功能:通过“手气不错”键实现.类似网页:点击“类似网页”键实现.,Google 的特殊功能,1、查找某文档类型网页:Google已经可以支持13种非HTML文件的搜索。除P

14、DF、DOC、PPT、xls文档外(百度可以),Google现在还可以搜索、Shockwave Flash(swf)、PostScript(ps)和其它类型文档。如果您只想查找PDF或Flash文件,而不要一般网页,只需搜索“关键词 filetype:pdf”或“关键词 filetype:swf”就可以了。举例(1)流氓兔 filetype:swf(2)查lung cancer的PDF外文全文文献 lung cancer filetype:pdf,查找PDF文档,PDF全文,Google的特殊功能,2、网页快照 Google 在访问网站时,其会将看过的网页复制一份网页快照,以备在找不到原来的网

15、页或原地址打开很慢时使用。单击“网页快照”时,您将看到 Google 将该网页编入索引时的页面。而百度的“网页快照”不全面。作用:你可以根据这些快照来分析网页上的内容,大致了解是否符合您的需求。,武汉大学网页快照,网页快照,武汉大学网页快照,Google的特殊功能,3、定位检索功能 检索方法很简单,直接将与检索提问词最相关的网站推荐给用户,提高检索效率。通过“手气不错”功能键实现。举例(1)查找“北京大学”,可直接进入北京大学主页。,定位检索功能,手气不错,北京大学主页,Google的特殊功能,4、类似网页通过点击“类似网页”或在高级检索界面“区域”中输入所需的网址,会得到类似的全部网页。作用

16、:了解这一类网站的状况及介绍,帮助提高检索效率。例:查看武汉大学类似网页,点击类似网页,类似网页,类似网页结果,GOOGLE结果显示技术,GOOGLE搜索结果排序的核心技术就是其独创的网页级别PageRankTM专利技术,根据网页被链接的次数来评定某一网页的重要性,决定排名次序,使排名较为客观公正,将最相关的结果最先呈现给用户,节约用户时间。而百度等可用钱买排名,有时使结果失去公正。,1.2、百度搜索引擎,百度搜索引擎简介,百度搜索是海外留学的学子们回国创办的。1999年底成立于美国硅谷,2000年1月开始,相继在北京、上海、深圳成立了百度网络技术(北京)有限公司和办事处。搜索范围涵盖了中国大

17、陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。目前已经拥有世界上最大的中文信息库。百度目前主要提供中文(简/繁体)网页搜索服务。,百度主页,从更多进入,更多检索(词典、百科等),百度帮助,专业文档搜索,很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。方法为:在“Filetype:”后跟以下文件格式:DOC、XLS、PPT、PDF、RTF。例如,查找张五常关于交易费用方面的经济学论文。“交易费用 张

18、五常 filetype:doc”,您也可以通过 百度文档搜索界面(http:/),直接使用专业文档搜索,百度文档搜索界面,入党申请书范文,检索结果,基本检索,基本检索规则,输入多个词语搜索(不同字词之间用一个空格隔开,可以获得更精确的搜索结果)。在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。并把最相关的网页排在前列。,高级搜索语法,1、intitle:把搜索范围限定在网页标题中 例如,找在网页标题中含有三峡大学的网页,查询格式:intitle:三峡大学 注意,intitle:和后面的关键词之间,不要有空格。,高级搜索语法,2、site:把搜索范围

19、限定在特定站点中.使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,天空网下载软件查询格式:msn site:注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,高级搜索语法,3、双引号-精确匹配如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。例如,搜索 上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。,高级搜索语法,4、书名号

20、-精确匹配 书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果.例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了.,高级搜索语法,5、减号语法-要求搜索结果中不含特定查询词.例如,搜 神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣-电视剧。注意,前一个关键词,和减号之间必须有空格,减号和后一个关键词之间,有无空格均

21、可。,限定在标题中检索(intitle:),限定在标题中检索(intitle:),2、目录搜索引擎,目录索引类搜索引擎简介,目录索引虽然有搜索功能,但严格意义讲算不上是真正的搜索引擎。仅仅是按目录分类的网站链接列表而已。为便于检索,目录同时提供关键词检索,但搜索保存的是互联网上各网站的站名、网址和内容提要。由于是人工编辑,其信息量相对较小,更新速度较慢,查全率不高。目录索引中最具代表性的莫过于久负盛名的 Yahoo(雅虎)。国内的搜狐、新浪、网易搜索也都属于这一类。2006年以后Yahoo(雅虎)与GOOGLE形成伙伴关系,成为混合型搜索引擎。即:有目录搜索引擎功能,也有全文搜索引擎功能。,Y

22、AHOO搜索引擎(),Yahoo是最著名的目录索引类搜索引擎。1994年斯坦福大学的两位电子工程学博士生开始编制一个自己感兴趣的 Internet上的站点目录,这就是最原始的 Yahoo,1995年成立 Yahoo公司。在全球共有24个网站,12种语言版本。雅虎中国网站()于1999年9月正式开通,是雅虎在全球的第20个网站。可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。,3、元搜索引擎,3、元搜索引擎,元搜索引擎不同于传统的独立的搜索引擎,其本身没有搜索引擎的网页搜寻机制,也没有自己独立的索引数据库,而只是定制统一的检索界面,通过调用其他搜索引擎的检索功能来实

23、现查询。原理:接受查询请求,向多个搜索引擎递交,将结果进行去除重复,重新排序等处理后,返回给用户。特点:没有自己的数据,返回的结果信息量更大、更全,但不能充分使用所有搜索引擎的功能。,3、元搜索引擎,万纬搜索引擎是上海万纬信息技术有限公司开发的一个中文元搜索引擎,集成了英文搜索引擎如GOOGLE、YAHOO等和中文搜索引擎如天网、新浪、搜狐、雅虎(中文)、中文GOOGLE、百度等。在调用搜索引擎和检索结果的数量上都存在一定的局限。也先后出现一些向搜搜星搜索引擎、还有支持中文搜索较好的比比猫元搜索引擎网站,但是现在网站都打不开了。,4、Internet 免费学术资源检索与利用,1、利用搜索引擎

24、1)google scholar:学术搜索是一项免费服务,但其中的文摘是公开的,全文一般需要付费。2)google book search 2、科学专业搜索引擎:Scirus。3、利用Open access资源 4、http:/,google scholar(学术搜索),Scirus介绍,Scirus()是国际著名的科学信息出版社 Elsevier Science于 2001年创办的科学专业搜索引擎,是目前互联网上最全面、综合性最强的免费科技文献搜索引擎。Scirus的本义是能预见未来的人。Scirus评为2001年最好的专业搜索引擎。,Scirus覆盖的学科,Scinus搜索引擎以科学资源为

25、主要产品,选取涵盖科学内容的网站和网页,如:大学网站、学会网站、政府机构网站、研究机构网站、作者主页等。覆盖的学科范围:包括农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学等。,Scirus的优势,能过滤掉不包含科学信息的网站:如果欲检索多利(Dolly),Google查到的还有象人名如:Dolly Parton(是美国乡村乐坛最富创造力的女歌手)等,包含许多毫无科学价值的信息,而Scirus查到的就是克隆山羊(the cl

26、oned sheep)等科学文献信息,Open access资源,Open access资源(开放存取,OA),一种新的重要学术交流模式,是国际学术界、出版界、图书情报界为打破商业出版者对学术信息的垄断和暴利经营,而采取的推动科研成果通过因特网免费或低价利用的运动。研究者不仅可以更快更廉价更多地拥有学术信息,也可以通过OA发表自己的见解,与世界各地的研究人员进行深入的交流,促进学术上的共同进步。,搜索引擎不是万能的,有时候我们需要获取的资料在搜索引擎中是找不到的。搜索引擎从抓取网页、解析、索引到提供检索是有一定周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看网站新闻,而

27、用搜索引擎是找不到最新内容的,找到的只是一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛和数据库内容的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,作业,1、刘亚洲将军谈基督教和佛教道教的文章您看过吗?有时可以看看。请问您知道圣经中“爱是恒久忍耐.”一段原文内容吗?请在百度中检索,查到后仔细阅读,并将“爱是恒久忍耐”一段原文内容的第一句和最后一句写在作业中。2、用搜索引擎查询与大学生求职相关的Word文档一篇,将你使用的检索提问式及查到的结果标题名写到作业中。,作业,3、通过图书馆书目检索系统查我馆是否有纸本的“生命的重建”一书(写出作者名、索书

28、号、馆藏地址),再看看超星图书馆中有电子版的吗?如果有,请今后抽时间看看。,作业,4、用搜索引擎查找“三级网络在大学生心理健康教育中的作用”相关内容的学术论文全文两篇。如果找到将网页标题名写在作业中。5、利用搜索引擎搜索三峡大学网站内有关毕业设计的有关消息,写出检索提问式和检索结果数量。,作业,6、有同学准备报考北京大学的研究生,请帮忙使用百度搜索以下问题:(1)2011年北京大学传播学硕士研究生招生人数;(2)导师刘德寰主要研究领域;(3)刘德寰近十年发表的中文期刊论文有多少篇;(4)如果去北京大学复试,乘K50宜昌-北京的火车,到北京火车站后乘多少路公交车可以直接到北京大学?,关于交作业,一种方式是:交电子文档,交到:二种方式是:交纸本直接将作业交给我。注意:作业要写上姓名和学号!切记!,谢谢光临,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号