《《绪论搜索引擎》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《绪论搜索引擎》PPT课件.ppt(105页珍藏版)》请在三一办公上搜索。
1、信息检索,陈珂锐计算机与信息工程学院,教学目录,绪论lucene框架基础经典搜索算法lucene应用实例发展前沿,从课程中能得到什么?,了解搜索引擎运行原理了解lucene框架的核心类快速的在信息系统中创建搜索模块,Chapter1 绪论-目录,搜索引擎的产生搜索引擎的概念搜索引擎工作原理搜索技术的分类开源的搜索引擎介绍,搜索引擎的产生,搜索引擎的概念,搜索引擎(search engines)是www环境下一种信息检索的工具。它利用某种软件(如网络“蜘蛛”spiders)对互联网上的信息进行自动跟踪和发掘,把收集到的所有网页进行分类存储和标引,并向用户提供查询入口。用户通过这个查询入口在浩如烟
2、海的信息海洋中找到自己所需的信息。,搜索引擎工作原理,我的世界你不懂!,搜索引擎的分类(1),根据信息覆盖范围及适用用户群分类综合性搜索引擎如:Baidu、Google、Yahoo、AltaViasta、Infoseek专用性搜索引擎如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。,搜索引擎的分类(2),按组织信息方式分类目录式搜索引擎如:Yahoo、搜狐、About、Looksmart全文搜索引擎如:AltaVista、百度、InfoSeek、Lycos智能搜索引擎如:FSA、Eloise 和 FAQFinder。,搜索引擎的分类(3),按搜索范围分
3、类独立搜索引擎如:百度、Google、Yahoo、Altavista 元搜索引擎如:DogPile、MetaCrawler、Mamma,开源的搜索引擎介绍(1),开源的搜索引擎介绍(2),中文常用搜索引擎_综合搜索引擎中文百度中文搜索引擎:http:/Google中文搜索引擎:http:/搜狐搜狗搜索:http:/雅虎:http:/新浪:http:/网易:TOM搜索:http:/北大天网搜索引擎:http:/奇虎 http:/,开源的搜索引擎介绍(3),国外英文常用搜索引擎_综合搜索引擎英文Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。Fast/AllThe
4、Web 总部位于挪威的搜索引擎后起之秀,风头直逼google。AltaVista 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。HotBot 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。,找工作的搜索引擎:google学术搜索:google图书搜索:比价购物搜索引擎:http:/博客与RSS搜索引擎:http:/中客http:/博客中国 八方 人脉搜索引擎:http:/交友,找工作,商机 https:/http:/人物、软件
5、论坛搜索引擎:http:/,开源的搜索引擎介绍(4),The Music Finder Singingfish(只能搜寻声音和录像)http:/旅行TripAdvisor http:/图像搜索引擎:http:/图像词典商业搜索引擎Business http:/生意定向搜索引擎。DailyStocks http:/可以了解被查询公司存货的信息已经相关的新闻报导,研究,引述和其他数据。FMLX http:/英国定向的关于公司,存货数据,分析和研究的搜索引擎。eBizSearch http:/关于电子商务的文章和报告。,开源的搜索引擎介绍(5),RSS源RSS feed搜索引擎单个站点:新华网:ht
6、tp:/天极网:http:/计世网:http:/网典:http:/搜索引擎:中文RSS搜索引擎:http:/八方搜索引擎 博客中国 http:/feed,订阅数据源和单篇看天下 http:/feed,订阅数据源看天下搜索引擎:http:/search/单篇RSS Search Engine http:/周博通RSS导航,开源的搜索引擎介绍(6),新闻类检索工具Google资讯中国版 http:/百度新闻搜索http:/中搜新闻搜索http:/雅虎资讯http:/搜狗新闻搜索http:/爱问新闻搜索http:/网易新闻搜索新华网搜索http:/搜网综合新闻搜索http:/,开源的搜索引擎介绍(7
7、),图片类检索工具百度图片搜索http:/Google图片搜索http:/雅虎图片搜索http:/中搜图片搜索http:/搜狗图片搜索http:/图像词典http:/网图http:/,开源的搜索引擎介绍(8),地图搜索引擎搜狗地图http:/百度地图http:/爱问本地搜索http:/中搜地图http:/我要地图网 Google地图http:/maps图行天下网上电子地图http:/MapBlast(Topozone(http:/,开源的搜索引擎介绍(9),音乐搜索引擎百度MP3搜索雅虎MP3搜索http:/中搜Mp3搜索搜狗音乐搜索http:/SoGua http:/search/搜网MP3
8、强力音乐大搜索其他:各种音乐网站,开源的搜索引擎介绍(10),论坛搜索引擎Google网上论坛http:/奇虎论坛社区搜索 http:/Teein 中文论坛搜索引擎http:/中搜论坛-全球中文论坛门户http:/Chinabbs.Com 帖子搜索(非全文)http:/SOSO论坛搜索http:/,开源的搜索引擎介绍(11),FTP资源搜索引擎天网http:/星空搜索http:/http:/,开源的搜索引擎介绍(12),邮件列表搜索引擎万维网联盟邮件列表检索服务Catalist http:/Title http:/,开源的搜索引擎介绍(13),BT搜索引擎BT特工 http:/BT China
9、 联盟 http:/飞客BT搜索引擎 http:/贪婪大陆-动漫搜索频道http:/BT下载工具:http:/BT资源:BT China 联盟搜索引擎:http:/射手网(字幕下载)http:/电骡emule,开源的搜索引擎介绍(14),BLOG搜索引擎FeedSearch http:/Grassland http:/Souyo http:/利用其他搜索引擎,例如Google,Baidu等等,keyword inurl:blog,开源的搜索引擎介绍(15),元搜索引擎MetaCrawler(http:/)Profusion()Mamma()Dogpile()Vivisimo()Search,开
10、源的搜索引擎介绍(16),PK,开源的搜索引擎介绍-百度(1),百度()百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。,开源的搜索引擎介绍-百度(2),Baidu 的简单搜索技巧以空格表示逻辑“与”在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“云南 旱灾 图片”以“-”表示逻辑“非”百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。例如:图书馆 公共图书馆,开源的搜索引擎介绍-百度(3),以“|”表示逻辑“或”使用“A|B”
11、来搜索“或者包含词语A,或者包含词语B”的网页。如:毛泽东|毛主席,开源的搜索引擎介绍-百度(4),In intitle:在网页标题中搜索 在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页关键词B intitle:关键词A,开源的搜索引擎介绍-百度(5),利用利用intitle查找论文直接找特定论文 除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中,“关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。例:关键词 摘要 intit
12、le:物流,开源的搜索引擎介绍-百度(6),利用intitle语法查询别人的收藏夹IE浏览器的收藏夹导出后,网页的标题(title)是bookmarks。百度的intitle语法可以把搜索范围限定在网页标题内。所以,用intitle语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。实例:小说 intitle:bookmarks 查找小说的精彩站点,开源的搜索引擎介绍-百度(7),url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开)意
13、思是在url中含有关键词B的网页中,寻找关于关键词A的信息这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。,开源的搜索引擎介绍-百度(7),例1:找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所跟的关键词,不要有空格。,开源的搜索引擎介绍-百度(7),问情 inurl:mp3搜索戏说乾隆的主题曲http:/第一章 inurl:li
14、anchengjue查询小说连城诀,开源的搜索引擎介绍-百度(8),site的用法 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,开源的搜索引擎介绍-百度(8),在著名的软件下载站找软件 由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。例:网际快车 site:,开源的搜索引擎介绍-百度(8),cnkikw site:在教
15、育网内搜索cnkikw摄影 site:在hao123中找摄影的网站,开源的搜索引擎介绍-百度(9),“开始连接”、“正在连接”搜索免费电影网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是flashget和迅雷。Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。检索式形式如:“电影名 开始连接”、电影名 正在连接”、“电影名(开始连接|正在连接)”举几个例子:哈利波特4 开始连接 阿育王(正在连接|开始连接),开源的搜索引擎介绍-百度(10),Bai
16、du的特色搜索百度快照 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“甲型h1n1流感”为例。,开源的搜索引擎介绍-百度(11),专业文档搜索()百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,在普通的查询词后面,加一个“filetype:”。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型,开源的搜索引擎介绍-百度(11),例:查
17、找关于网络技术的课件 格式:网络技术 filetype:ppt,开源的搜索引擎介绍-百度(12),精确匹配双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。例如,搜索京师范大学研究生院,加上双引号后,输入“北京师范大学研究生院”,获得的结果就全是符合要求的了。,开源的搜索引擎介绍-百度(12),书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能:一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书
18、名号后,手机结果就都是关于电影方面的了。,开源的搜索引擎介绍-百度(13),百度国学(http:/)是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。提供上起先秦,下至清末历代文化典籍的检索和阅读;包括经、史、子、集、蒙学及其他。,开源的搜索引擎介绍-百度(14),Baidu的高级检索,开源的搜索引擎介绍-百度(15),百度其他常用搜索功能新闻搜索贴吧搜索MP3搜索百度知道百度百科视频搜索图片搜索,开源的搜索引擎介绍-谷歌(1),二、Google()特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好
19、;并且具有一定的大写、名词识别能力的快速搜索引擎。口号:确解用户之意,切返用户之需,开源的搜索引擎介绍-谷歌(2),基本检索Google用空格来表示逻辑“与”的操Google自动使用“and”进行查询。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,奥运会 中国 金牌,开源的搜索引擎介绍-谷歌(3),Google用大写的“OR”来表示逻辑“或”操作例如:想搜集“二氧化钛”文献方面的资料,可以在检索框里输入“二氧化钛 OR TiO2”。,开源的搜索引擎介绍-谷歌(4),Google用“-”表示“非”操作用于有目的地删除某些无关网页,但减号之前必须留一空格。例如:搜索郑州
20、的相关信息(除河南财经政法大学以外)检索式:郑州 河南财经政法大学OR河南财大,开源的搜索引擎介绍-谷歌(5),“.”数字范围搜索想要查找数字?通过数字范围可以搜索包含指定范围内的数字的结果。只需在搜索框内向搜索字词后面添加两个数字,并将其用两个英文句号分开(无空格)即可。您可以使用“数字范围”设置从日期(Willie Mays 1950.1960)到重量(5000.10000 kg 卡车)的各种范围。不过,请务必指定度量单位或其他一些说明数字范围含义的指示符。例如,要搜索关于2008-2009的政府信息公开的信息,开源的搜索引擎介绍-谷歌(6),不区分英文字母大小写Google 搜索不区分英
21、文字母大小写。所有的字母均当做小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,开源的搜索引擎介绍-谷歌(7),短语搜索在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词、搜索文章时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“”、“.”、“=”等标点符号识别为短语连接符。这里的“”是半角符号,也就是英文的引号例:“冬天来了,春天还会远吗”,检索结果页面,开源的搜索引擎介绍-谷歌(8),定义:查看字词或词组的定义举例:输入:定义 纳米 输入:
22、Define:www,开源的搜索引擎介绍-谷歌(9),查找某类型的文件Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office(doc,ppt,xls,rtf)、Shockwave Flash(swf)、PostScript(ps)和其它类型文档。例如:如果您只想查找 关于元数据规范的PDF文件,而不要一般网页,只需搜索“元数据规范 filetype:pdf”。,元数据规范 filetype:pdf,其他搜索符号,开源的搜索引擎介绍-谷歌(10),可以看出,利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的
23、;网站中排除某个定网站的网页;将搜索限制于某种指定的语言;查找链接到某个指定网页的所有网页;查找与指定网页相关的网页等。,开源的搜索引擎介绍-谷歌(10),信息需求类型:直接查找具体数值;查找相关专业的重要网站例如:查找与化学科学信息门户相类似的网页(http:/),开源的搜索引擎介绍-谷歌(11),特色搜索-类似网页单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。Google 侦察兵可以“一兵多用”。如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站,开源的搜索引擎介绍-谷歌(12),翻译功能你懂英文,但是你不见得就懂德
24、文、法文、拉丁文。Google提供了网页翻译功能。如果你安装了“google工具条”,翻译功能的使用更好。可以屏幕取词翻译。,GOOGLE工具条,翻译网页,开源的搜索引擎介绍-谷歌(13),学术搜索定位:专门面向学术资源的免费搜索工具搜索结果:论文、图书、预印本、摘要、技术报告等。信息来源:合作伙伴(ACM、IEEE、Nature、OCLC等);互联网,开源的搜索引擎介绍-谷歌(13),2006年1月11日,Google公司宣布将(Google Scholar)扩展至中文学术文献领域,推出面向中文的Google学术搜索服务搜索结果:论文、图书、预印本、摘要、技术报告等。信息来源:合作伙伴(万方
25、、维普等);互联网,开源的搜索引擎介绍-谷歌(13),利用学术搜索查询免费学术论文格式:关键词filetype:pdf例如:查找关于机械制造方面的论文 机械制造 filetype:pdf,检索结果太多,调整检索策略,开源的搜索引擎介绍-谷歌(14),利用google搜密码password=welcome+(X)password+journal x可以为任何一个文献数据库的名称,password=welcome+ProQuest,密码=welcome+CNKI 2010,开源的搜索引擎介绍-谷歌(15),其他搜索功能图片搜索新闻搜索论坛搜索网页目录搜索地图搜索购物搜索视频搜索.,搜索引擎的未来,