《Internet信息检索与利用.ppt》由会员分享,可在线阅读,更多相关《Internet信息检索与利用.ppt(30页珍藏版)》请在三一办公上搜索。
1、第四章 Internet 信息检索与利用,Internet 的基本知识WWW搜索引擎,Internet 的基本知识,Internet中的基本概念和术语,1.猫(调制解调器,MODEM)和网卡:猫的作用是把数字信号转换成模拟信号,或把模拟信号转换成数字信号,用电话线传输,转换过程中会有损失。猫是用2芯铜缆作为传输介质(电话线)。网卡是为组建网络用的,是用7芯双交线作为传输介质,使用并行技术进行通信,但实际上100M带宽以下只会用到1236这四根芯,7根芯同时用是1000M带宽时才使用的。56K猫已经基本淘汰,现在取而代之的是ADSL猫。而网卡现在也趋于无限化。,Internet中的几个基本概念和
2、术语,2.服务器(SERVER):一台功能强大的计算机,有较高的速度、较大的存储空间以及断电保护措施等。它能够在网络中为用户提供通讯、文件共享、网络打印等功能。,3.WWW(World Wide Web):WWW 是一个基于超文本方式的信息检索工具,它为用户提供了一种友好的信息查询接口,是 INTERNET 上的信息服务系统。它把 INTERNET 上不同地点的相关信息聚集起来,通过 WWW 浏览器(又叫做 WEB 浏览器)检索它们,无论用户所需的信息在什么地方,只要浏览器为用户检索到之后,就可以将这些信息(文字、图片、动画、声音等)“提取”到用户的计算机屏幕上。WWW 采用了超文本链接,你只
3、需轻轻点击鼠标,就可以很方便地从一个信息页转移到另一个信息页,4.主页(HOMEPAGE):全称应该是 WWW 主页。它指的是 WWW 服务的起始装入信息页,是 WWW 用户可以看见的第一信息界面,你连接到主页后,除了可以直接在主页了解到主页制作者的一般信息外,还可以进入到另外的一个画面再进一步地获取到更多的信息。也就是通过主页上定义的超级链(hyperlink)访问网页。,5.电子邮件(E-MAIL):这是一种最常用的 INTERNET 功能,也是一种最便捷的利用计算机和通信网络传递信息的现代化手段,网络用户可以通过 INTERNET 与全世界的INTERNET 用户收发信件。电子邮件的内容
4、,不仅仅包含文字,还可以包含图像、声音,动画等多媒体信息.,6.HTTP(Hypertext Transfer Protocol):超文本传输协议。该协议经常用来在网络上传送 WEB 页。当用户以 http:/开始一个链接的名字时,是告诉浏览器去访问使用 HTTP 的 WEB 页。,7.URL(Uniform Resource Locator):统一资源定位器,也称网址。是 WEB 的地址编码,WEB 上所有能访问的资源都有一个唯一的 URL。URL 包括:所用的传输协议,服务器名称、文件的完整路径。例如:http:/,8.IP地址(INTERNET PROTOCOL):互联网络协议地址唯一性
5、分为动态和固定两种 动态的:由Internet服务提供商(Internet Service Provider,ISP)提供。固定的:由网管中心提供。形式:四组0255的十进制数字表示。如:IP地址分为五类:A、B、C、D、E,常用的是 B、C 两类。,地址的区分D类地址的第一个字段为224239,是用于多点发送的群组地址,E类地址第一个字段为240254,为扩充之备用。,1984年起采用字符型的IP地址,即域名(DN)域名的地址格式为:主机名 机构名 网络类型 最高域名,常用网络类型代码 com 商业机构 mil 军事部门 edu 教育机构 net 网管组织 gov 政府部门 org 非营利组
6、织 int 国际组织firm(企业和公司)store(商业企业)、web(从事与WEB相关业务的实体)、arts(从事文化娱乐的实体)、rec(从事休闲娱乐业的实体)、info(从事信息服务业的实体)、nom(从事个人活动的个体),最高域名 aq(南极洲)、ar(阿根廷)、at(奥地利)、au(澳大利亚)、be(比利时)、br(巴西)、ca(加拿大)、ch(瑞士)、cn(中国)、de(德国)、dk(丹麦)、es(西班牙)、fi(芬兰)、fr(法国)、gr(希腊)、ie(爱尔兰)、il(以色列)、in(印度)、is(冰岛)、it(意大利)、jp(日本)、kr(朝韩国)、my(马来西亚)、nl(荷
7、兰)、no(挪威)、nz(新西兰)、pt(葡萄牙)、ru(俄罗斯)、se(瑞典)、sg(新加坡)、th(泰国)、tw(中国台湾)、uk或gb(英国)、us(美国)(一般可省略)等。,搜索引擎(Search Engine):搜索引擎是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索的工具。它包括信息搜集、信息整理和用户查询三部分。,单词检索“词组/短语检索”也称“完全符合检索”检索结果必须含有与提问式完全一样(包括次序)的字串。在搜索比较专指的文献时,就要使用双引号(“”)进行词组检索。但一些专用语尽管没有加引号,仍可作为专用语处理。例如:mother-in-law,搜索引
8、擎的检索特性,3 布尔逻辑符号1).与:&,“AND,+2).或:|,or,OR3).非:not,!,-注意:中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动添加“AND”;有的中文搜索引擎不支持“OR”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页大多数搜索引擎都可用“+”表示必须包括某词,“-”表示必须排除某词,4 词间位置限定检索:搜索引擎中较少使用,仅AltaVista,MSN Search等少数搜索引擎可用NEAR进行位置限定5.字段限定检索:一般搜索引擎给出的可检字段有网页标题(t:或 title)、域名(domain)、URL、链接(l
9、ink:)等。有些搜索引擎还可限定文件类型,如google中可在关键词后输入文件类型限定检索结果(如ppt,jpg,pdf,doc等),6 截词检索 多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使用“词干法”,也不支持“截词符”(*)搜索7.大小写敏感 多用于人名、专有名词检索,可提高查准率。大部分搜索引擎不区分大小写,仅AltaVista等少数搜索引擎支持此功能。8 二次检索 多数搜索引擎都有“缩小搜索”或“在结果中搜索”功能,在已获得的检索结果中进行“二次检索”,搜索引擎的类型,A 分类目录式搜索引擎 将互联网信息按照一定的标准进行收集和分类,并编入相应目录,以层级和逐次
10、分项的方式管理目录,查找信息可以按照分类目录一层层进入,最终找到所要的信息。分类目录式搜索引擎以Yahoo 搜索引擎为代表。,英文YAHOO!主页,B 关键词全文检索式搜索引擎 利用其内部的搜索机器人Spider(蜘蛛)程序,自动搜索互联网上大大小小的网站内容,按照网页相关性原理在每一个关键词和所有相关的网页之间建立一个对应关系,储存在其网络服务器的数据库中,用户只要输入关键词就可以找到符合该关键词特征的所有被索引的网页,并以超链接的方式对搜索结果列表,有简单介绍,点击相应的链接就可以进入相应的网络资源网站,从而找到所需信息。这样搜索到的结果通常数以百万计,但是相关性越高的信息,在搜索结果列表
11、中的位置越靠前。关键词全文检索式搜索引擎的代表是百度和Google搜索引擎。,最大的中文搜索引擎百度,Google主页,Google及其使用,Google 是由英文单词“googol”变化而来,表示 10100,代表Google想征服网上无穷无尽资料的雄心世界上最大的搜索引擎。通过对 30 多亿网页进行整理,提供搜索结果,而且搜索时间通常不到半秒有基本搜索和高级搜索两种方式。,Google及其使用,检索特性两词之间用空格表示“AND”支持短语搜索,用“”对拼音关键词能进行自动中文转换可以查找某种格式的文件,如关键词后加上filetype:pdf,便可检索到PDF格式的文件中英文单词互译也可利用Google 目录根据主题来缩小搜索范围,高级搜索界面,C.综合式搜索引擎此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果。国内著名的搜狐(Sohu)、网易等就是此类搜索引擎。,附:检 索 搜 索 引 擎 的方法,