网络信息检索与利用.ppt

上传人:小飞机 文档编号:6016748 上传时间:2023-09-15 格式:PPT 页数:72 大小:2.29MB
返回 下载 相关 举报
网络信息检索与利用.ppt_第1页
第1页 / 共72页
网络信息检索与利用.ppt_第2页
第2页 / 共72页
网络信息检索与利用.ppt_第3页
第3页 / 共72页
网络信息检索与利用.ppt_第4页
第4页 / 共72页
网络信息检索与利用.ppt_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《网络信息检索与利用.ppt》由会员分享,可在线阅读,更多相关《网络信息检索与利用.ppt(72页珍藏版)》请在三一办公上搜索。

1、,打开网络知识宝库钥匙,网络信息检索与利用,第三章 搜索引擎(search engines)3.1 搜索引擎的含义及类型(p36)3.2 搜索引擎的工作原理3.3 搜索引擎的检索功能3.4 常用搜索引擎及其使用 3.4.1 西文常用搜索引擎及其使用 3.4.2 中文常用搜索引擎及其使用 3.4.3 专门信息检索工具,第三章 网络搜索引擎(search engines)3.1 搜索引擎的含义及类型(p37)搜索引擎含义:是对网上的信息资源进行搜集整理、然后提供用户查询的系统,它包括:信息搜集、信息整理、用户检索(查询)。搜索引擎是一种利用网络自动搜索技术,对网络信息资源进行标引、组织、检索网络信

2、息资源的检索工具。类型:1)按搜索引擎的工作原理分:(1)纯技术型的全文检索搜索引擎,如:google、AltaVista等;(2)分类目录型搜索引擎,如:yahoo等。2)按搜索引擎的操作方式分:独立搜索引擎 多元搜索引擎 网络搜索软件,多元搜索引擎与源搜索引擎的主要区别在于:并不像全文搜索引擎那样拥有自己的索引数据库,而是当用户提交搜索申请时,通过对多个独立搜索引擎的整合和调用,然后按照多元搜索引擎自己设定的规则将搜索结果进行取舍和排序并反馈给用户。美国专业搜索引擎咨询网站评出的2003年最佳多元搜索引擎如下:,多元搜索引擎:是将多个独立的搜索引擎集成在一起,并提供一个统一的检索界面,并且

3、将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。,(1)Dogpile(http:/),(2)Vivisimo(http:/),3.2 搜索引擎的工作原理:网络自动索引软件称为Robots,Spiders或Worm等,实际上它们都是一种自动跟踪、浏览网页并进行索引的智能软件。国内一般译为“网络机器人”,此类软件一般由下列几部分构成:采集器(Gartherer)、建库器(Broker)、索引查询器(Index/Search Subsystem)、备份复制器(Replicator)、目标缓存器(Object Cache)、目标管理器(Object Sys

4、tem)等。其工作原理主要概括为以下过程:,(3)M(http:/),1)信息的采集和存储:搜索引擎一般采用自动方式收集和存储网上信息资源,即运用“网络机器人”自动运行的软件,追寻万维网上的链接行进,找到web页并将它们收集和发现到的web页面信息经网络传输,存入到搜索引擎的临时数据库中。2)信息索引的建立:搜索引擎负责对收集到的网页信息进行分析,从中提取有检索价值的信息内容网页中的关键词,并对关键词进行数值计算。该模块也就是建立索引查询系统,它是该数据库系统建立的配套子系统,决定索引布尔逻辑操作、表达式匹配,结构化与非结构化文件处理、词语匹配、匹配相关性排序等。建立信息索引就是创建文挡信息的

5、特征记录(题名、责任者、关键词、期刊名称等),使用户能够快速地检索到所需信息。,建立索引需要进行以下处理:yahoo(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索工具索引(题名、责任者、主题、刊名等索引),3)检索界面的建立:搜索引擎检索界面接受用户提交的查询请求(查询内容及逻辑关系),搜索引擎将根据用户所输入的关键词在其索引中查找,并寻找出匹配的web页地址。检索界面是连接用户与搜索引擎、相关web页地址的中介,需要有较强的易用性。如:Google 的检索界面。,4)检索结果的相关性处理:搜索引擎可按文件相关度进行排序,最相关的文件一般排在前面,以便

6、于用户快速查询到相关信息。如“百度”检索网页中“google简介”,搜索引擎确定相关性的方法:概率方法是根据关键词在文中出现的频率多少来判定文件的相关性。位置方法是根据关键词在文中出现的位置来判定文件的相关性。关键词出现的越靠前,文件的相关度就越高。摘要方法是指搜索引擎自动地为每个文件生成一份摘要,让用户自己选择、判断结果的相关性。,分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。(几种方法并用)如:利用“yahoo”点击“知识”获取到知识分类:,3.3 搜索引擎的检索功能(p38)大多数搜索引擎都提供以下检索功能:布尔逻辑检索、模糊检索、截词检索、限制检索、结

7、果过滤、语句检索、智能化检索等等。(结合第二章网络信息检索技术讲述),1)布尔逻辑运算(1)逻辑“与”:假设A和B是两个检索词,则A*B表示 A与B必须同时存在。检索出的文献少。,如:利用“百度”检索“教育心理学”相关信息 检索词:教育学 心理学 教育心理学 检索式:教育学 and 心理学 检索式:教育心理学 检索结果分别为:177,000篇;872,000篇,(2)逻辑“或”:A或B中任何一个词存在都可以,A+B表示A或B中任何一个词存在都可以(当然也包括 A和B 同时存在)。“逻辑或”表达式,有助于提高查全率;检索出的文献较多。,如:检索“教育学和心理学”均相关的论文 检索词:教育学;心理

8、学;教育心理学 检索式:教育学or心理学or教育心理学 检索式:教育学or心理学 检索结果分别为:9,520篇;43,400篇;,(3)逻辑“非”:表示A必须存在,但不能有B。“逻辑非”表达式A-B,主要用于排除那些与检索意图无关的文献;检出文献信息量较少。,采用逻辑“与”、逻辑“非”是缩小检索范围提高专指度、提高查准率;采用逻辑“或”扩大检索范围,提高查全率。,如:检索“教育心理学中排除与心理学相关的信息检索词:教育心理学;心理学检索式:教育心理学not心理学检索结果分别为:9,650篇;,2)截词检索:是为提高文献检索效率而发展的一种检索技术,是利用检索词的词干或不完整的词进行检索。分为后

9、截词检索(前方一致),前截词检索(后方一致),中截词检索(前后方一致),前后截词检索(中间一致)四种基本类型。截词符号的使用,可以减少检索词的输入量,简化检索步骤,既能提高查全率,又能节省机时,提高检索效率。,(1)后截断 如:motor?(马达)可以同时检索出含有motor和motors的文献。这可以避免因检索词的单复数变化而造成的漏检。,(2)前截断 前截断是将截词符号置于检索词左边,表示其左边可以有若干个字符的变化。如:?computer可以同时查出含有computer、minicomputer(小型计算机)文献。(3)前后同时截断 将截词符号置于检索词两侧,允许词干两侧有有限个或无限个

10、字符的变化。如:?wave?可以检索出有关wave(波)、waves、wavelet(子波)、microwave(微波)、wavelength(波长)等的文献。,(4)中间截断 这种截断是将截词符号置于检索词中间。检索时,只要截词符号两侧的字符相同,含有该词的文献既为命中。这种方法可以解决英美的不同拼法和不规则的单复数变化。例如:analy?s相当于查找analysis(分析)和analyses(细察)。除此还有“位置语”等方法。3)全文检索(1)全文检索系统概念 全文检索是通过利用全文检索系统加以实现的。全文检索系统是由全文数据库、全文检索技术两部分构成。用户可以利用自然语言对全文检索系统进

11、行检索,可直接获取原文的有关章、节、段、句等信息。,全文数据库指运用全文检索技术,将文献信息的全文文档存储到数据库中,提供多条检索途径,实现超链接的原始文献信息的检索。全文检索是指对文献信息全文内容进行字符串的匹配检索,包括字符串检索、截词检索、同义词等控制以及后控制表等技术。(3)全文检索系统的特点(与传统的检索系统相比):(1)检索结果的直接性、原始性、可靠性;直接面向终端用户。(2)系统制作效率高:一是无需受控标引工作,二是缩短出版时间;(3)检索的详尽性、彻底性;,3.4 常用搜索引擎及其使用(P39.-40.)3.4.1 西文常用搜索引擎及其使用 3.4.1.1 Yahoo(),中文

12、 Yahoo(http:/,1)概况:Yahoo!是www上最著名的目录搜索引擎之一,也是目前最常用的网络检索工具。它于1994年4月,由美国斯坦福大学两位电子工程学博士研究生David Filo和Jerry yang(杨致远)开发。现除了主站(Wother Yahoo)外,还有美国都会城市分站(Yahoo Cities,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如Yahoo Asia)。无论形式上还是内容上质量都非常高。1998年5月4日,Yahoo!公司正式发布了第一个中文网上搜索的站点雅虎(http:/),成为搜索网上中文信息的重要检索工具。,2)检索功能与方法:Yahoo!

13、提供“分类”和“关键词”检索分类检索:,Yahoo 是一个目录式的综合性搜索引擎,将收录的内容分为29大类:360(360度)health(健康与医药)Music(音乐)Travel(旅行)Answers(回答)Horoscopes(星象)News(新闻)TV(电视)Autos(汽车)HotJobs(热门职业)Personals(人事消息栏)Weather(天气)Entertainment(娱乐)Kids(年轻人)Photos(照片)Yellow Pages(黄页)Finance(;金融;)Local(本地新闻)Real Estate(不动产)Y!International(国际运动比赛)Ga

14、mes(游戏)Maps(地图)Shopping(购物)Messenger(送信人)Sports(运动)Groups(类)Movies(电影)Tech(技术),点击:health,便可获得如下二级类目:CHILDRENS ASTHMA(儿童的哮喘);MENS HEALTH(成年男子健康)HEARTBURN(心脏 发热;WEIGHT LOSS CHOLESTEROL(体重 减低 胆固醇);STRESS(紧张);DIGESTIVE HEALTH(消化系统健康);WOMENS HEALTH(妇女健康)等(更多论题),如检索“妇女更年期”的相关信息检索课题:妇女更年期(woman climacteric

15、)检索工具及途径:Yahoo 分类途径检索词:woman;climacteric(menopause)检索结果:Home healthWOMENS HEALTH:,关键词”检索:检索课题:妇女更年期,检索结果:13条相关信息,检索规则:Yahoo!中国“可用”AND“、”and“、”&“进行逻辑”与“运算,以”OR“进行逻辑”或“运算,以”NOT“、”not“进行逻辑”非“运算。检索语法:,标识符 语法含义 说明“”词组精确匹配 查询包含完全符合关键词串的网站+,空格“与”或“and”前后两个词是“与”的逻辑关系-“非”前后两个词是“非”的逻辑关系 t:Title 仅搜索网站名称 u:URLs

16、 URLs,检索课题:woman climacteric 检索结果:,获取全文:,点击:,可以链接到该期刊,3.4.1.2 altavista http:/,1)概况AltaVista提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、音频、录像(MP3/Audio&Video)、新闻等。,2)搜索规则:可进行精确匹配查询时可使用“”号,但多数时候即使不用“”号,AltaVista也默认以精确匹配方式查询;不支持自动断词查询,但允许使用通配符“*”。区分字母大小写。当以大写字母查询时,默认为精确匹配,即查询结果不包括小写的关键词;而以小写字母查询时,则同时查找大写和小写。,检索课题

17、:woman climacteric:,点击:Menopause Relief,点击:“All Products”按键:,点击:“5-HTP”按键:,3.4.1.3 Lycos(http:/),1)概况:Lycos 属于美国卡内基梅隆大学(Carnegie Mellon University),于1995年创立,是按关键词检索WWW信息的搜索引擎。2000被西班牙网络集团收购,提供网站评论、图象及包括MP3在内的压缩音频文件下载链接等等。同时提供了包含众多内容的专题检索,Lycos允许用户对搜索的对象进行限制,也就是所谓的“内容敏感检索”。2)检索功能与方法:http:/(1)关键词检索:(2

18、)分类检索:,检索功能:词组检索,采用“”将检索词括起来;问题检索,利用自然语言检索;可以任意或精确检索;可用通配符“”和英文句号“.”对单词的字母进行代替和限制;常规搜索时如无特殊限定,则默认以布尔逻辑and关系进行查询。支持“+”号和“-”号。检索课题:woman climacteric 检索出:20295项 women climacteric 检索出:35426项“women climacteric”检索出:1593项,3.4.1.4 Excite(/),中文Excite,概况 1993年2月,6位刚从Stanford(斯坦福)大学毕业的学生决定研制一种能管理网上信息资源的软件,经过3年

19、努力,他们研制出集超文本检索技术与自动提取文摘技术于一体的Architext软件。1995年10月Excite成立,并开始在网上推出各项服务,成为网上最著名的概念索引擎。2)Excite特点:Excite的优点是采用了概念检索的技术。概念检索是指在检索文件的过程中,不仅能够检索到含有用户提出的关键词的文件,还能检索到与用户的检索主题密切相关、但并没有包括这些主题词的文件。主页界面:提供Web Images News Audio Video等方 面资源。,2)检索功能与方法:Excite提供了关键词、分类目录检索;(1)分类检索:分类目录:,(2)关键词检索:支持布尔逻辑检索技术。如检索:“tr

20、actor”方面相关的图片信息,选择“Images”按键,可以实现从图片的角度检索与“拖拉机”相关的信息。,检索课题:woman climacteric 检索结果:如果采用“”检索,检索出24项相关信息。,如果采用“”检索,检索出24项相关信息。,检索功能:A.采用逻辑运算符,在检索框中可输入多个检索词,如果无其他限制条件,系统默认词与词之间的关系是逻辑与的关系;B.词组或短语检索:在需要检索比较专指的信息时,词组检索要求检索结果必须含有与提问式完全一样的字符串,词间的顺序不能更改,可以采用“”进行词组检索。C.限制性检索:利用“+”和“-”修辞检索词可以进行限制性检索,在检索词前加“+”表示

21、该检索词一定要出现在检索结果中;若加在检索词前加“-”表示该词一定不能出现在检索结果中。注意“+”和“-”与其后面的检索词间不能留有空格。,3.4.1.4 Google http:/-CN/,1)概况:由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月在美国硅谷创建的高科技公司,他们所设计的Google搜索引擎,旨在提供全球最优秀的搜索引擎服务,通过其强大,迅速而方便的搜索引擎。Google已成为当今因特网上最佳的搜索引擎之一,也是第三代的代表,其特点是运用高效算法、提供超速的检索服务以及令人满意和有效的检索结果。,2)Google界面概况:,3)特点:界面简洁

22、;易用;快速;相关性高 等。,4)检索功能与方法:(1)关键词检索:在Google的主页简单检索输入框中,用户直接输入一个或多个检索词,可执行基本检索。当用户同时输入多个检索词时,要求每个检索词之间留出一个空格,而Google将默认多个检索词之间的缺省逻辑关系是“AND”。如果检索词之间的逻辑关系是“OR”,用户就要在检索词之间加入“OR”逻辑符。Google可用“AND”、“and”、“&”进行逻辑“与”运算,但只能用大写“OR”表示逻辑“或”,不支持“NOT”逻辑符操作,允许使用“-”符号代替逻辑“非”运算。不支持单词多形态(Word Stemming)和断词(Word Truncatio

23、n)查询;字母无大小写之分,默认全部为小写。,检索课题:学科导航检索系统:“Google”搜索引擎检索结果:3,070,000项,检索课题:武汉大学 图书馆 学科导航检索系统:“Google”搜索引擎检索词:武汉大学 图书馆 学科导航检索式:武汉大学 and 图书馆 and 学科导航检索结果:193,000项,(2)分类检索:在Google的主页中,点击“更多”再点击“网页目录”,可以了解到“Google 网页目录的分类情况”。该页提供了14个大的主题类目:,如检索“南京师范大学”相关信息:进入“网页目录”参考(Reference)教育(Education)大专院校与研究所江苏:检索出:南京师

24、范大学(4)其他检索功能:A 指定网域检索:有一些词后面加上冒号对 Google 有特殊的含义。其中的一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在Google 搜索框中输入“site:”。例如,要在Google站点上查找“护理”,可以输入:“护理”,共约有97项查询结果。,B 手气不错:按下“手气不错”按钮,将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,查找“湖州师范学院”的主页,只需在搜索字段中输入:“武汉大学 图书馆 学科导航”,然后单击“手气不错”按钮,便可

25、以直接进入:武汉大学 图书馆 学科导航作用:实现快速、准确检索同学练习:1.搜索字段中输入:“21世纪”,然后单击“手气不错”按钮。Google 将直接带您进入“21世纪”主页。2.利用“Google”检索时,如何缩小搜索范围,请参考“Google大全”中的“缩小搜索范围”。,AskJeeves(http:/),NetscapeSearch http:/,AOLSearch http:/,HotBot http:/,MSNSearch http:/,利用搜索引擎目录:http:/也可以了解到许多西文搜索引擎。,3.4.2 中文常用搜索引擎及其使用3.4.2.1 天网搜索(http:/),1)概

26、况:由北大网络实验室研制开发的“天网”中英文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供web信息导航服务。2)检索功能:天网搜索引擎具有WWW和FTP两种检索功能。(1)WWW 检索方法:进入天网搜索引擎的主页,在主页的检索框中输入您想要查询的关键词,然后按下“搜索网页”按键。如果输入的是多个查询词,可以进行逻辑操作进行复杂检索。逻辑“与”可以采用“逻辑“非”可以采用“”符号。检索规则:支持精确的短语匹配;支持忽略词(常用的词和字符)查询:例:支持“的”,“大”等词的查询,

27、即支持所有字词的查询;英文字母大小写无影响。,(2)FTP检索(点击“文件检索”)FTP 即“文件传输协议”。协议是使计算机与计算机之间能够相互通讯的语言。FTP 使文件和文件夹能够在 Internet 上公开传输。.简单搜索:在天网主页检索框中输入想要检索的词或词组(字符串),用鼠标点击“搜索FTP文件”,即得到查询结果。.按类别搜索文件:点击“天网文件”,不仅可以检索到“FTP”文件,还可检索多种类型信息,如“电影”、“动画”、“音乐”、“压缩”、“文档”等,3.4.2.2 百度搜索引擎(http:/ww/),1)概况:百度公司(B,Inc)2000年1月1日,公司创始人李彦宏、徐勇携12

28、0万美元风险投资,从美国硅谷回国,创建了百度公司。创立之初,百度就将自己的目标定位于打造中国人自己的中文搜索引擎,并愿为此目标不懈的努力奋斗。2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市,成为2005年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段。全文搜索引擎具有全面、准确、高速、智能、友好、及时、灵

29、活和技术含量高等特色。,2)检索功能与方法 百度提供网页、新闻、flash、信息快递、发布信息、网站登录等搜索界面。百度主要提供关键词检索:(1)简单检索:只要在搜索框中输入关键词,并按一下“百度搜索”按钮,百度就会自动找出相关的网站和资料。(2)高级检索:减除无关资料:百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A-B”。例如,要搜寻关于“环境保护”,但不含“废水处理”信息,可使用如下查询:环境保护-废水处理。百度快照:点击百度快照,可查看该网页的快照内容。百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。,3.4.2.3 新浪搜索引

30、擎(http:/)1)概况:新浪网是一家为世界各地中国人提供全面互联网信息服务的国际性公司,主要产品是大型中文综合网站。目标通过提供全面、及时的中文信息内容,以及高效、方便的网络检索工具。,2)检索功能与方法:新浪搜索引擎界面中提供了综合、网站、网页、新闻标题、新闻全文、图片、软件、游戏等检索功能。(1)一般搜索功能:提供“分类检索”和“关键词检索”。分类检索:是从搜索引擎首页按照树型的主题分类逐层点击来查找所需信息的方法。,关键词检索:是用所需信息的主题(关键词)进行查询的方法。在检索框内键入所需信息的关键词(Keyword),并选择目录、网站、网页、新闻全文四种检索方式之一者,再单击旁边的

31、搜索按纽,新浪搜索将提供对应的检索结果。,(2)进阶查询:在网站查询结果页面中继续查找信息,有三种选择:重新查询:用本次键入的关键词重新进行查询(是默认的选项);如“经济贸易”。在结果中再查:在结果中去除。,(3)使用逻辑操作符检索:新浪搜索引擎支持多个关键词的查询。对网站进行多个关键词查询:使用空格搜索:使用减号(-)搜索:使用逗号(,)搜索:对网页或新闻进行多个关键词查询:其它:网站标题搜索:在关键字前加“t:”;网站网址(URLs)搜索:在关键字前加“u:”(检索结果不显示网址;也可将“u:”它去掉,检索结果显示网址。,3.4.2.4 网易()1)概况:网易公司是中国领先的互联网技术公司

32、,在开发互联网应用、服务及其它技术方面,网易始终保持国内业界的领先地位。自1997年6月创立以来,凭借先进的技术和优质的服务,网易深受广大网民的欢迎,目前注册用户已达75,780,000人,日访问340,000,000人,曾两次被中国互联网络信息中心(CNNIC)评选为中国十佳网站之首。,2)检索功能与方法:(1)网易搜索引擎的特点:提供多语言检索;拥有开放式管理目录:相关目录、网站、网页 及新闻;网易搜索结果;搜索原理:网易搜索引擎是模糊的搜索方式。,(2)检索途径:分类检索:参见“”关键词检索:多个关键词之间只需用空格分开检索(可以检索网站、网页、新闻);可实现在结果中再搜索,提高专指度。

33、,3.4.3 专门信息检索工具3.4.3.1 Mapblast(http:/)3.4.3.2 图形天下()3.4.3.3 专业导航站如:冯哲中国专利资源导航站等,除此之外,还有一些较好的网站如:悠游(http:/)搜狐(http:/)分类搜索引擎,是专为中国用户设计的高质量的分类目录系统,目前已达到十万以上的日访问人数。常青藤(http:/)常青藤”作为一个智能中文检索引擎兼超级目录,汇聚了中港台、澳门、新加坡等中文地域的网络地址,每条记录、每个网址均精心筛选,并全部手工编辑,精雕细琢,力争覆盖当地信息资源。,北极星搜索引擎(http:/)等。利用()可了解更多的中文搜索引擎。一搜(),思考与练习题:1.请利用中外文搜索引擎检索出“阅读疗法”相关的论文题名、作者。2.利用搜索引擎检索出国内“中学英语特级教师”的姓名、研究方向及其网址等。3.利用搜索引擎检索出国内外与“阅读疗法”相关的 的网址(不少于3个网址)。4.检索国内外“与本专业相关的免费数据库”的网址(不少于3个)。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号