INTERNET信息检索与利用.ppt

上传人:小飞机 文档编号:6508340 上传时间:2023-11-07 格式:PPT 页数:47 大小:1.27MB
返回 下载 相关 举报
INTERNET信息检索与利用.ppt_第1页
第1页 / 共47页
INTERNET信息检索与利用.ppt_第2页
第2页 / 共47页
INTERNET信息检索与利用.ppt_第3页
第3页 / 共47页
INTERNET信息检索与利用.ppt_第4页
第4页 / 共47页
INTERNET信息检索与利用.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《INTERNET信息检索与利用.ppt》由会员分享,可在线阅读,更多相关《INTERNET信息检索与利用.ppt(47页珍藏版)》请在三一办公上搜索。

1、Internet 信息检索与利用,严而清,Internet 的基本知识WWW搜索引擎,Internet 的基本知识,Internet三大基本应用Internet需要具备的条件Internet中的基本概念和术语,Internet三大基本应用,1.远程登陆(TELNET)2.电子邮件-发送或接收信息(E-MAIL)3.文件传输-通过文件传输协议(FTP),实现推拉式服务.,1.方便客户端的访问设置统一 浏览器(www 或称Web浏览器);2.网上计算机都能通用设置统一 标注语言(HTML超文本标注语言);(超文本语言浏览器与服务器之间的一种通讯协议)3.全世界统一的页面指针URL统一资源定位格式。

2、,Internet需要具备三方面的条件,1.调制解调器(MODEM):戏称“猫”,是上网必需的设备。它可以将计算机的数字信号转换(调制Modulation)成模拟信号,通过电话线路传送到另一台计算机(比如服务器)上,接受端用它的 Modem 将其还原(解调demodulation)为计算机能识别的数字信号,从而实现双方的信息交换,Internet中的几个基本概念和术语,2.服务器(SERVER):一台功能强大的计算机,有较高的速度、较大的存储空间以及断电保护措施等。它能够在网络中为用户提供通讯、文件共享、网络打印等功能。,3.WWW(World Wide Web):WWW 是一个基于超文本方式

3、的信息检索工具,它为用户提供了一种友好的信息查询接口,是 INTERNET 上的信息服务系统。它把 INTERNET 上不同地点的相关信息聚集起来,通过 WWW 浏览器(又叫做 WEB 浏览器)检索它们,无论用户所需的信息在什么地方,只要浏览器为用户检索到之后,就可以将这些信息(文字、图片、动画、声音等)“提取”到用户的计算机屏幕上。WWW 采用了超文本链接,你只需轻轻点击鼠标,就可以很方便地从一个信息页转移到另一个信息页,4.主页(HOMEPAGE):全称应该是 WWW 主页。它指的是 WWW 服务的起始装入信息页,是 WWW 用户可以看见的第一信息界面,你连接到主页后,除了可以直接在主页了

4、解到主页制作者的一般信息外,还可以可以又进入到另外的一个画面再进一步地获取到更多的信息。也就通过主页上定义的超级链(hyperlink)访问网页。,5.电子邮件(E-MAIL):这是一种最常用的 INTERNET 功能,也是一种最便捷的利用计算机和通信网络传递信息的现代化手段。电子邮件的传递由 SMTP 协议来完成,网络用户可以通过 INTERNET 与全世界的INTERNET 用户收发信件。电子邮件的内容,不仅仅包含文字,还可以包含图像、声音,动画等多媒体信息.,6.HTTP(Hypertext Transfer Protocol):超文本传输协议。该协议经常用来在网络上传送 WEB 页。当

5、用户以 http:/开始一个链接的名字时,是告诉浏览器去访问使用 HTTP 的 WEB 页。,7.URL(Uniform Resource Locator):统一资源定位器。是 WEB 的地址编码,WEB 上所有能访问的资源都有一个唯一的 URL。URL 包括:所用的传输协议,服务器名称、文件的完整路径。例如:在浏览器 URL 处键入 http:/就可以访问无锡信息港(无锡阿福台)了。,8.IP地址(INTERNET PROTOCOL):互联网络协议地址。INTERNET 上每台主机都有一个唯一的地址(或者叫名字),它是数字形式的一组地址,例如:,它是计算机在网络上的数字标识,一般分为两部分:

6、网络地址(NETID)、主机地址(HOSTID)。IP地址分为五类:A、B、C、D、E,常用的是 B、C 两类。,10.搜索引擎(Search Engine):搜索引擎是WWW 浏览器查询信息搜索工具,是一个用来查询搜索世界各地 INTERNET 网络资源的 WEB 服务器。它就象一本书的目录,INTERNET 上各个站点的网址就象是页码。你可以通过关键字(keyword)或者主题分类的方式查找感兴趣的信息所在的 WEB 页面。是网上动态检索工具。,搜索引擎(Search Engines),是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索的工具。人们常把搜索引擎称之为网

7、络之门,它包括万维网搜索引擎、新闻论坛搜索引擎、黄页搜索引擎、元搜索引擎等多种类型的搜索引擎,数量已达数百种。,主要可概括为以下几个过程:(1)信息的采集和存储 搜索引擎一般采用自动方式收集和存储信息,即运用“网络机器人”自动运行的软件,搜索引擎追寻WWW网上的链接行进,找到Web页并将它们调出,搜索引擎将自动给Web页上的某些字或全部字作上索引,形成目标摘要格式文件后,再形成网络可访问的数据库。,搜索引擎的工作原理,(2)信息索引的建立 信息采集和存储后,要建立索引查询系统,它是同建库系统配套的子系统,决定索引时空比、布尔逻辑操作、表达式匹配、结构化和非结构化文件处理、词语匹配、匹配相关性排

8、序等。建立信息索引就是创建文档信息的特征记录,使检索者能够快速地检索到所需的信息。,(3)检索界面的建立 搜索引擎检索界面接受检索者提交的查询请求(包括查询内容及逻辑关系),并根据检索者所输入的关键词在其索引中查找,并寻找相应的Web页地址。(4)搜索结果的相关性处理 搜索引擎的检索结果通常很庞大,大量的文件使得检索者无法逐一浏览。搜索引擎可以按文件的相关程度进行排列,最相关的文件通常排在最前面。,单词检索“词组/短语检索”也称“完全符合检索”检索结果必须含有与提问式完全一样(包括次序)的字串。在搜索比较专指的文献时,就要使用双引号(“”)进行词组检索。但一些专用语尽管没有加引号,仍可作为专用

9、语处理。例如:mother-in-law,搜索引擎的检索特性,3 布尔逻辑符号1).与符号:&,“AND,+2).或符号:|,or,OR3).非符号:not,!,-注意:中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动添加“AND”;有的中文搜索引擎不支持“OR”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页大多数搜索引擎都可用“+”表示必须包括某词,“-”表示必须排除某词,4 词间位置限定检索:搜索引擎中较少使用,仅AltaVista,MSN Search等少数搜索引擎可用NEAR进行位置限定5.字段限定检索:一般搜索引擎给出的可检字段有网页标题(

10、t:或 title)、域名(domain)、URL、链接(link:)等。有些搜索引擎还可限定文件类型,如google中可在关键词后输入filetype:,限定检索结果的文件类型(如ppt,jpg,pdf等),6 截词检索 多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使用“词干法”,也不支持“截词符”(*)搜索7.大小写敏感 多用于人名、专有名词检索,可提高查准率。大部分搜索引擎不区分大小写,仅AltaVista等少数搜索引擎支持此功能。8 二次检索 多数搜索引擎都有“缩小搜索”或“在结果中搜索”功能,在已获得的检索结果中进行“二次检索”,A.目录式的搜索引擎(Directo

11、ry)它提供一种可检索和查询的等级式主题目录,以超文本链接方式将不同学科、专业、行业和区域的信息按照分类或主题目录的方式组织起来。各类目录下面列出属于这一类别的网站名称和网址链接以及每个网站的内容简介。著名的雅虎(Yahoo)就是一个典型的目录式搜索引擎。,搜索引擎的类型,英文YAHOO!主页,主题分类目录,“Science”的详细类目,”Biology”的下位类目,“Biotechnology”下位类目,“Biotechnology”中”Genetic Engineering”的下位类目及相关网络信息,B.全文式搜索引擎这类搜索引擎的数据库中保存着网站每一个网页的全部内容,用户在检索框中输入

12、需要查询的关键词或短语,搜索引擎返回与输入关键词相关的一个个网页的地址和一段文字。著名的搜索引擎百度、AltaVista、GOOGLE等就是全文式搜索引擎。,最大的中文搜索引擎百度,Google主页,Google及其使用,Google 是由英文单词“googol”变化而来,表示 1 后边带有 100 个零的数字,代表Google想征服网上无穷无尽资料的雄心世界上最大的搜索引擎。通过对 30 多亿网页进行整理,提供搜索结果,而且搜索时间通常不到半秒有基本搜索和高级搜索两种方式。,Google及其使用,检索特性两词之间用空格表示“AND”支持短语搜索,用“”对拼音关键词能进行自动中文转换不支持“词

13、干法”可以查找 某种格式的 文件,如关键词后加上filetype:pdf,便可检索到PDF格式的文件中英文单词互译:只需输入一个关键词(“翻译”,“fy”和“FY”任选其一)和要查的中(英)文单词,Google返回的网上字典链接即刻便可知道检索词词的英文(或中文)翻译。也可利用 Google 目录根据主题来缩小搜索范围,高级搜索界面,C.综合式搜索引擎此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果。国内著名的搜狐(Sohu)、网易等就是此类搜索引擎。,D.元搜索引擎(Meta-search Engine),是在搜索引擎基础上建立的

14、可以同时查询多个搜索引擎的WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎。虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果,故值得选用。,著名元搜索引擎ProFusion(http:/)拥有智能化的搜索方案,提供诸如搜索引擎选择、检索类型、结果显示、摘要选项、链接检查等较多的检索选项,支持个性化设置,可以选择三个最好的搜索引擎、或三个最快的搜索引擎、或全部搜索引擎、或手工选择任意几个搜索引擎来进行搜索。自动实现符合特殊检索语法要求的转换,

15、如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等。,surfactant cosmetic,ProFusion主页,检索框,可调用的搜索引擎,检索结果界面,调用搜索引擎名称,著名元搜索引擎,Mamma(http:/)1996年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Ma

16、mma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过Email传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎,Mamma主页,Mamma 强力搜索(Power Search)界面,可选用的搜索引擎,著名元搜索引擎,MetaCrawler(http:/)1995年由华盛顿大学推出,1997年被InfoSpace购买。支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调

17、用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。,MetaCrawler主页,其他著名元搜索引擎,Ithaki(http:/(http:/(http:/SavvySearch(http:/savvy.cs.colostate.edu:2000/)支持二十种语言(不包括中文),可调用全部或任意几个搜索引擎,可选择每个搜索引擎返回结果的数目,可进行目录检索,附:检 索 搜 索 引 擎 的方法,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号