《【广告策划PPT】网络信息资源检索.ppt》由会员分享,可在线阅读,更多相关《【广告策划PPT】网络信息资源检索.ppt(170页珍藏版)》请在三一办公上搜索。
1、第五讲 网络信息资源检索,主要内容,1.搜索引擎2.FTP信息资源3.BBS信息资源4.USENET/Newsgroup信息资源5.LISTSERV/Mailing list信息资源6.其他网络资源,搜索引擎,搜索引擎发展搜索引擎原理搜索引擎主要技术搜索引擎系统分类搜索引擎的应用,搜索引擎发展,1990年以前,没有任何人能搜索互联网所有搜索引擎的祖先:Archie最早现代意义上的搜索引擎出现于1994年7月(Lycos Yahoo!),搜索引擎原理,搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索
2、引数据库搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字,搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力,搜索引擎技术,algorithms artificial intelligence compiler optimization computer architecture computer graphics data compression data mining file system design genetic algorithms informati
3、on retrieval,machine learning natural language processing operating systems profiling robotics text processing user interface design web information retrieval and more!,搜索引擎系统分类,按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.全文搜索引擎(Google,百度,中搜)2.目录索引(Yahoo,DMOZ,LookSmart)3.元搜索引擎(META Search Engine)(Dogpile),ht
4、tp:/,http:/,搜索引擎的应用,网页搜索特色搜索学术搜索商业搜索,网页搜索(Google),Google检索网页数量达42.8亿,搜索引擎中排名第一;网页图片8.8亿张.Google支持多达132种语言,包括简体中文和繁体中文;Google网站只提供搜索引擎功能,没有花里胡哨的累赘;Google速度极快,超过50 000台服务器;,Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;Google智能化的“手气不错”功能,提供可能最符合要求的网站;Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。,Google具有独到的图片搜索功能;Go
5、ogle具有强大的新闻组搜索功能;Google具有二进制文件搜索功能(PDF,DOC,SWF等);Google还有很多尚在开发阶段的令人吃惊的设想和功能。,初阶搜索,搜索引擎最基本的语法:Google分别用“”(空格)、“-”和“OR”表示“与”“非”和“或”杂项语法通配符问题 关键字的字母大小写搜索整个短语或者句子搜索引擎忽略的字符以及强制搜索,进阶搜索,面已经探讨了Google的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西,对搜索的网站进行限制 site:如九寨沟 site:在某一类文件中查找信息
6、filetype:目前已经可以支持13种文件类型,如doc,ppt,xls,swf,ps,jpg,gif,pdf如 4G filetype:doc搜索的关键字包含在URL链接中 inurl:如 virus inurl:secutiry搜索的关键字包含在网页标题中 intitle:如intitle:交通规划 filetype:pdf inurl:,示例:查找新浪网上九寨沟的图片搜索:“九寨沟 site:”,示例:关于4G的word文档搜索:4G filetype:doc,示例:网址中含security的关于virus的网页搜索:virus inurl:secutiry,示例:教育网中标题含有“交
7、通规划”的格式为pdf的文章搜索:intitle:交通规划 filetype:pdf inurl:,目录检索,如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问Google的分类目录“http:/directory.G,学术搜索,大学搜索,Google的其他杰出功能,网页快照 单词英文解释 网页翻译 单词纠错 繁简转换 搜索结果过滤,百度,学术搜索引擎,学术搜索引擎,Scirus是迄今为止因特网上最全面的科技专用搜索引擎,曾被著名的搜索引擎观察(Search Engine Watch)评为“最佳专业搜索引擎”。Scirus覆盖了167 million个以上与科技相关的网页,Basic S
8、earch,基本语法,+-“”AND OR ANDNOTau:ti:jo:ke:url:af:dom:Journal Sources:ScienceDirect BioMed Central PubmedWeb Sources,特色搜索,FTP搜索引擎NewsGroup搜索引擎图象搜索引擎新闻搜索引擎其他特色搜索引擎,FTP搜索引擎,FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷,北大天网中英文FTP搜索引擎 http:/,htt
9、p:/,NewsGroup搜索引擎,新闻论坛搜索引擎是专门搜索Newsgroups等信息的引擎,可能用此工具查询自己感兴趣的新闻论坛和讨论组,Google搜索引擎http:/,盛名的新闻组搜索引擎 http:/,CyberFiber Newsgroups-Directory of newsgroups on the Internet.,图象搜索引擎,基于网页的图像搜索 图像元搜索引擎 基于图片库的图像搜索,优秀的图像搜索引擎Google,Yahoo画廊Yahoo图像搜索引擎,http:/,新闻搜索引擎,http:/,其他特色搜索引擎,寻人多媒体查询个人信息查询地图及相关信息,寻人搜索引擎,多媒
10、体 搜索引擎,查询地图信息,其他信息查询,2.FTP信息资源,FTP(File Transfer Protocol)是TCP/IP协议的一种,它是在Internet网上使用最广泛的一种服务,可被用来在两台位于Internet网上的计算机之间传输(上传或下载)文件。登录成功后,可以进行文件搜索和文件传送的操作。使用FTP几乎可以传送任何类型的文件。,获取FTP信息资源的主要方法,使用FTP搜索引擎搜索FTP站点利用专用FTP软件中“站点管理器”,FTP搜索引擎,FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。由于FTP搜索引擎专门针对各种文件,因而相对W
11、WW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。,国内著名FTP搜索引擎,(1)北大天网FTP搜索 http:/http:/http:/http:/(5)南航歪歪搜索 http:/(6)中科大天狼搜索 http:/,国外著名的FTP搜索引擎,(1)http:/号称全球最大的FTP搜索引擎(2)http:/(4)http:/,访问FTP信息资源的主要方法,(1)FTP内部命令(2)利用Web浏览器访问FTP(3)利用专用FTP软件(Cute-Ftp,Bp-Ftp,WS-Ftp),不用记复杂的命令。,使用ftp命令,使用web浏览器方式,使用客户端软件(以Cuteft
12、p为例),3、电子公告牌BBS,Bulletin Broard Systems,一种电子信息服务系统。早期BBS由教育机构或研究机构管理,现在多数网站都建立了自己的BBS系统。服务方式:一是需注册(免费或收费);二是公开,允许免费连接。,获取BBS网址的途径,通过WWW检索工具(比如:Yahoo、Google、All in One、Hotbot、Webcrawler、Infoseek、Lycos、Altavista等)来获取 BBS登陆软件中的“地址簿”,访问BBS的方法,Telnet方式,即计算机远程登录用BBS登录软件,如Sterm,Cterm通过WWW浏览器(如:IE等)浏览,telne
13、t方式,客户端软件方式(以Cterm为例),web浏览器方式,4.USENET/Newsgroup,Usenet一词来自于User Network,Usenet里的新闻组信息以中央存储的形式存放于某个位置(通常是一些分类目录),通过软件的管理允许用户选择定阅他们感兴趣的主题阅读、索引、删除过期消息等。Usenet的最初构想是借助网络进行技术信息交换,但是后来也用于非技术领域,例如社会新闻、业余爱好、个人兴趣等主题。Usenet的最主要的特色是统一分组、全球转信。,当前,USERNET上讨论题大致归纳出几个大的类别。每个新闻组都有一个名称,根据新闻组的名称,大概就可以知道其讨论的主题了。biz.
14、*-商业类 Comp.*-电脑类 Sci.*-自然科学类 Soc.*-社会类 Talk.*-闲谈类 Rec.*-娱乐类 Misc.*-杂项 Alt.*-杂乱无规定主题类 News.*-与Netnews本身相关的信息,国内著名新闻组,1新凡 news:/http:/2济南万千 news:/news:/4.希网新闻组 news:/,国外著名新闻组:,1.Google新闻组 news:/http:/2.微软新闻组:news:/3.Newsone新闻组 news:/4.Realplayer新闻组 news:/usenet-,获得新闻组资源的方法,通过Web直接浏览使用新闻组阅读软件 Outlook E
15、xpress Agent Newspro等,通过web方式,使用Outlook Express预订、阅读和发送新闻组,5.Mailing list/LISTSERV,邮件列表(Mailing list)是指一组成员的E-Mail地址列表。邮件列表的主要功能是为有共同兴趣的一组用户建立一种关联,使用户彼此拥有一个网上交流的空间。加入邮件列表的用户可以收到发给邮件列表的所有邮件,同时,也可通过邮件列表向所有其他组员发送信息。每个邮件列表都有管理员,负责维护邮件列表,进行日常管理。管理员分为两种:一种是人,一种是称为Listserv的计算机程序。这种用Listserv程序进行自动管理的邮件组,有时也
16、称为Listserv列表。Listserv是目前功能最强的邮件列表管理软件。用户用电子邮件向系统发送命令,系统用电子邮件回送执行结果的信息。,邮件列表的使用范围,1新产品发布、与客户保持联系、产品的技术支持、信息反馈;2组织俱乐部,吸引新用户的加入,提供成员之间的交流工具;3与同学和亲友保持快速、方便的联系;4您可以主办自己的电子杂志,通过邮件列表的方式,向数十万用户同时发送;5当然,您还可以订阅其他人建立的邮件列表,取得你感兴趣的信息,同时可以参与讨论。,邮件列表类型,公开 任何人可以在列表里发表信件封闭 只有邮件列表里的成员才能发表信件,如同学通讯、技术讨论等管制 只有邮件列表管理者批准的
17、信件才能发表,如产品信息发布、电子杂志等,国内Mailing list邮件列表检索工具,(1)希网网络 http:/(2)通易 http:/http:/,国外Mailing list邮件列表检索工具,(1)CataList http:/www.L(2)Publicly Accessible Mailing Lists http:/the mailing list directory http:/,在收信人地址栏填写服务器地址在邮件正文填写命令行,1.万维网(WWW)信息资源,(1)Web Directory(网络目录)(2)Virtual Library(虚拟图书馆)(3)搜索引擎(4)看不见
18、的网站(5)网络百科全书(6)Blog信息资源(7)电子预印本,(1)web Directory(网络目录),网络目录(Web Directory)因特网上的目录型检索工具,又称分类站点目录、专题目录或主题指南、站点导航系统等。网络目录一般采用人工方式采集和存储网络信息。但是,部分网络目录并不全是人工方式采集和组织信息,而是利用自动功能或者由用户递交的方式来丰富和补充资源。,以某种分类法进行组织整理,并和检索法集成。网络目录一般是通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络信息。最著名的网络目录 Yahoo!http:/新浪 http:/搜狗 http:/Google
19、 http:/,Yahoo!目录(最高层目录),http:/,二级目录,三级类目,四级类目,Site Listing,(2)Virtual Library(虚拟图书馆),国内,许多人称其为“学科导航”。针对某一学科或领域研究的需要,将Internet上有关的各种资源线索,包括与该学科领域有关的研究机构、实验室、电子书籍、学术期刊、会议论坛、专家学者等的URLs系统地组织起来,存放于某一网页,供用户浏览或检索。提供导航服务的一种工具。,可获得大部分学科的网络资源导航链接,被认为是世界上质量最高的虚拟图书馆,由各个领域志愿者提供资源并完成组织,http:/vlib.org/,语言类虚拟图书馆,ht
20、tp:/,“知识管理”虚拟图书馆,http:/,清华大学虚拟图书馆http:/,(3)搜索引擎(Search Engine),搜索引擎的原理 可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。,使用技巧:(1)不同目的的查询应当选用不同的搜索引擎。(2)适当地运用语法规则进行组合搜索。(3)灵活运用短语。,Google Scholar用于搜索学术文献,包括同行评议的论文、学位论文、图书、预印本、技术报告等,涉及各学科领域。http:/http:/,http:/,http:/,(4)看不见的网站(Invisible Website),看不见的网站是指在万维网上可获得的资源,但
21、由于技术限制,或是由于特定选择而不能或未被纳入通用搜索引擎网页索引中的文本网页、文件或其他高质量的权威性信息资源。我们有时也叫它“深度网站”或“黑洞”。(Invisible Web、Deep Web、Hidden Web、Dark Matter),看不见的网站的类型,可检索性数据库 拒绝收录的网页,如何利用看不见的网站资源,Direct search http:/http:/www.lii.orgCompletePlanet http:/,(5)网络百科全书,百科全书是人类已有知识进行汇集、浓缩并使其系统化的产物,它涉及某知识领域内的一切主题的数据与事实,是现有最完备的一种工具书。网络百科全书
22、又称百科在线(Encyclopedia online),它是在传统百科全书的基础上,结合互联网的特点兴起的一种新的参考源,改变了传统的参考服务模式,为传统百科带来了编辑技术上的革命(如维基百科,可以参与到它的编撰中来),大英百科全书 http:/维基百科 http:/wikipedia.org文学百科全书 http:/http:/,(6)Blog信息资源,Blog是Web Log的缩写,翻译为网络日记。Blogger(博客)则是写Blog的人。是一种全新的网络交流方式,不仅仅是一种单向的发布系统,它有着极其出色的交流功能。已成为家庭、公司、部门和团队之间越来越盛行的沟通工具。Blog信息的查找
23、通常通过Blog搜索引擎,如 http:/http:/,(7)电子预印本,预印本(Preprint)是指科研工作者的研究成果还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。电子预印本系统是一种网络数据库服务系统,它通过互联网向研究人员征集电子预印本,整理后提供给其他研究者阅览或订阅。电子预印本系统是一种重要的学术信息交流和组织方式。具有开放程度高、时效性强、学术性强、被引用率高、费用低的特点。,中国预印本服务系统,由中国科学技术信息研究所和国家科技图书文献中心联合建设。http:/arXiv.org预印本库,主要是物理学、数学、计算机科
24、学。http:/arxiv.org/E-Print Network,提供主题浏览,但不提供具体预印本档案。http:/www.osti.gov/eprints/NASA技术报告 http:/ntrs.nasa.gov电子和计算机科学预印本 http:/eprints.ecs.soton.ac.uk,GOOGLE,一样的,不一样的,方法,网络免费寻找客户概述,一、搜索引擎:google,yahoo,msn,ask,baidu等二、目标国的黄页网站和工商目录三、展会商的网站四、B2B网站 五、行业网站,概述,GOOGLE,How toGOOGLE,选择Google的原因,检索网页数量达24亿,搜索
25、引擎中排名第一 平均每天使用Google搜索引擎的人数达2亿人 支持多达132种语言,包括简体中文和繁体中文网页级别技术PageRank能够提供准确率极高的搜索结果 还有很多尚在开发阶段的令人吃惊的设想和功能 只要客户上网,就可以找到他们!,概述,GOOGLE,How toGOOGLE,关键字,概述,GOOGLE,How toGOOGLE,+,搜索办法,关键字+高级检索/多语言/图片/目录检索,概述,GOOGLE,How toGOOGLE,产品名称+importers/distributors/supplier/price/etc关联产品客户邮箱客户公司名字客户公司+distributors/
26、dealer关键字语言本地化客户网址竞争对手产品+网址+名字其他.,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/目录检索,Google可以有32个关键字“+”“-”“OR”“*”“?”(包含,不包含,或,通配符)Related 比如:“related:www.da-”Link 比如“link:www.da-”Filetype 比如:“filetype:pdf da-lite pricelist”,关键字+高级检索/多语言/图片/目录检索,概述,GOOGLE,How toGOOGLE,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/
27、目录检索,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/目录检索,谢谢!,GOOGLE,一样的,不一样的,方法,网络免费寻找客户概述,一、搜索引擎:google,yahoo,msn,ask,baidu等二、目标国的黄页网站和工商目录三、展会商的网站四、B2B网站 五、行业网站,概述,GOOGLE,How toGOOGLE,选择Google的原因,检索网页数量达24亿,搜索引擎中排名第一 平均每天使用Google搜索引擎的人数达2亿人 支持多达132种语言,包括简体中文和繁体中文网页级别技术PageRank能够提供准确率极高的搜索结果 还有很多尚在开发阶段的令人吃
28、惊的设想和功能 只要客户上网,就可以找到他们!,概述,GOOGLE,How toGOOGLE,关键字,概述,GOOGLE,How toGOOGLE,+,搜索办法,关键字+高级检索/多语言/图片/目录检索,概述,GOOGLE,How toGOOGLE,产品名称+importers/distributors/supplier/price/etc关联产品客户邮箱客户公司名字客户公司+distributors/dealer关键字语言本地化客户网址竞争对手产品+网址+名字其他.,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/目录检索,Google可以有32个关键字“+”“-”“OR”“*”“?”(包含,不包含,或,通配符)Related 比如:“related:www.da-”Link 比如“link:www.da-”Filetype 比如:“filetype:pdf da-lite pricelist”,关键字+高级检索/多语言/图片/目录检索,概述,GOOGLE,How toGOOGLE,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/目录检索,概述,GOOGLE,How toGOOGLE,关键字+高级检索/多语言/图片/目录检索,谢谢!,