网络信息搜索与组织.ppt

上传人:小飞机 文档编号:6599941 上传时间:2023-11-16 格式:PPT 页数:60 大小:290KB
返回 下载 相关 举报
网络信息搜索与组织.ppt_第1页
第1页 / 共60页
网络信息搜索与组织.ppt_第2页
第2页 / 共60页
网络信息搜索与组织.ppt_第3页
第3页 / 共60页
网络信息搜索与组织.ppt_第4页
第4页 / 共60页
网络信息搜索与组织.ppt_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《网络信息搜索与组织.ppt》由会员分享,可在线阅读,更多相关《网络信息搜索与组织.ppt(60页珍藏版)》请在三一办公上搜索。

1、WebSaver,网博士可以以多种方式搜集各种格式的信息,比如网页、图片、Word文档等网博士把这些信息收集在网博士书籍文件中书籍文件以类似于资源管理器的树型方式组织可以方便的浏览、修改、搜索其中的信息,或导出信息与朋友分享等。,功能介绍-信息收集,支持浏览器右键菜单、工具栏图标,拖拉篮采集、剪贴板监视、文件导入等多种信息收集手段 可收集网页、WORD文档、PDF文档、图片、FLASH动画、信息片断等各类信息 支持热键快速保存和浏览时自动保存 可完整保存指定网页所有内容,包括其中的图片、Flash动画、Javascript等 保存时可指定特定类型的文件作为附件一起下载,也可指定过滤掉其中的Fl

2、ash、图片等广告 可收集网页中的单个图片、所有图片、特定大小的图片 可收集网页中的单个Flash动画、所有Flash动画 可收集网页中的指定链接、选中部分包含的链接、所有链接,支持多层连接保存 可完整保存保存网页中的选中部分、自动保存网页核心部分 可以把网页保存为纯文本格式,支持简繁转换 可从本地计算机导入文件、文件夹。保存网页提供两种交互界面,并能随意切换,初级用户、高级用户各取所需 允许用户随意控制浏览器右键菜单和工具栏图标,功能介绍-信息管理,支持多种来源、多种格式的信息管理,如网页、文本文件、源代码、PDF文件、WORD文档、信息片段等。可为保存的信息指定标题、关键字、备注、摘要、嵌

3、入附件或链接附件、重要性、阅读状态等。所有信息保存在精心设计的网博士书籍文件中,书籍文件安全可靠,即使意外断电也不会造成数据丢失,支持对书籍文件的压缩、备份、优化等操作 支持书籍同步,办公室和家里的资料同步更加快捷 可为书籍中或其中的文件、文件夹设置访问密码,支持秘密、机密、绝密三种选择。,功能介绍-信息组织,收集的信息以类似资源管理器的方式组织,您可以随意分类、快速存取。支持多种方式对文件、文件夹排序 支持书籍间拖拉式的信息交换,方便快捷 支持对文件、文件夹的多选批量操作 支持多个节点合并并能生成合并索引 支持同时打开多个书籍文件、可以方便的进行书籍筛选 提供层次性的书签管理功能 提供虚拟书

4、籍。虚拟书籍把散布于各个书籍中的具有相同属性的文件归到一起以便快速存取,如标记为重要的文档、加密保护的文档以及最近下载的文档等等 提供回收站,使您误操作的损失降到最低。,功能介绍-信息使用,可以多窗口方式方便的浏览保存的信息浏览时可对重要信息作阅读标记 可方便的查看附加信息,如备注、附件、使用状态、原始网址等 提供打印、打印预览功能。支持网页内容批量替换 支持书籍内的文件拷贝 支持网页、图片缩放、Flash播放控制、网页背景修改等 浏览网页时支持鼠标手势 支持外部阅读器和编辑器 内置网页文本编辑器,支持阅读标记和文本格式化,功能介绍-信息检索,提供文档内的查找功能 可对收集信息的标题、关键字、

5、备注、摘要、信息全文进行指定范围、日期、下载来源、大小写无关、模糊搜索、相关性等组合方式的搜索,搜索结果可显示摘要,并可保存搜索结果 支持WEB搜索,功能介绍-信息交流,导出文件或文件夹为CHM文件导出文件或文件夹到本次计算机并可生成索引支持附件导出支持对网页添加导航、附注等信息后再导出,功能介绍-其它,完全的UNICODE兼容 提供多种界面风格 提供多种界面布局 可自定义工具栏、菜单、快捷键 多语言支持,已有简体中文、繁体中文和英文版,下载与安装,关键字 Websaver 下载安装DEMO,主界面简介,DEMO,DEMO创建书籍/类别/文件,菜单文件-新建-书籍/类别/文件书籍格式:WSB/

6、EXEDEMO创建书籍 Websaver创建文件夹 tools/help/tips导入文件到文件夹tools导入文件到文件夹helpC:Program FilesWebSaverhelp Websaver.chm tipsofday.txt收集信息到文件夹tipsC:Program FilesWebSaverhelptipsofday.txt(后述),DEMO保存单个网页,1.启动浏览器,打开您想保存的网页 2.在浏览器中点击鼠标右键,在弹出的菜单中选择“网博士保存网页”3.在弹出的对话框中,您需要选择保存的位置和名字4.然后点击“确定”按钮开始保存,保存过程中,屏幕右下角的网博士图标会持续闪

7、动,直到保存完成5.您可以点击保存完成时弹出的提示框查看保存后的网页 DEMO关键字 Websaver 使用技巧打开感兴趣的网页鼠标右键,在弹出的菜单中选择“网博士保存网页”注:说明保存对话框,DEMO保存选中部分/链接,选中部分网页在浏览器中点击鼠标右键,在弹出的菜单中选择相应的快捷菜单DEMO关键字 Websaver 使用技巧打开感兴趣的网页选中要保存的部分鼠标右键,在弹出的菜单中选择“网博士保存选中部分”鼠标右键,在弹出的菜单中选择“网博士保存当前链接”,DEMO新建,DEMO鼠标右键文件夹,新建网页文件文本文件RTF文件Word文件Excel文件如果不需要网页原始地址信息,则推荐使用,

8、DEMO批量导入信息,菜单 文件-导入。DEMO导入网博士书籍导入文件夹导入文件从指定网址导入从批量网址导入,DEMO浏览保存的网页,要查看保存后的网页,您可以:点击保存完成时屏幕右下角弹出的保存完成提示框,启动网博士,在左边的目录树中您可以看到您刚才保存的网页,点击它即可打开浏览。NOTE:底侧栏信息,DEMO网页的编辑和标记,工具栏编辑:编辑内容整理:调整内容标记:阅读记号笔批注:阅读笔记DEMO,DEMO网页的分类和组织,创建类别书籍/类别/子类分类组织COPY/PASTE,DEMO网页的样式设定,快捷菜单样式 未阅读/重要/待做。DEMO,DEMO网页的访问保护,快捷菜单保护 只读/秘

9、密/机密/绝密DEMO,DEMO查找和搜索,查找(Find)网页中搜索(Search)-书籍/类别中,DEMO管理书籍,菜单:文件-书籍-。DEMO,共享收集的信息,导出功能可以把保存在网博士中的信息导出为普通的网页文件或流行的微软CHM文件,他们可以在任何一台安装了IE浏览器的机器上查看导出CHM文件的导出步骤如下:1.在目录树中选中您需要导出的文件或文件夹节点 2.选择网博士菜单:文件-导出-导出为CHM文件3.在弹出的对话框中选择“保存位置”,确认即可。,网络搜索引擎技术,作为Internet最大应用之一,搜索引擎(Search Engines)发挥着越来越重要的作用。面对飞速增长的网页

10、,人们希望它具有更高的查全率、查准率,能够提供智能化的专业服务、个性服务。现代搜索引擎技术用到了信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计算机网络、分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,这些技术的综合运用及人性关怀使得网络搜索引擎技术有了很大提高。新的标准、新的技术也必将促进未来的搜索引擎向着更高、更快、更强的方向发展。,按搜索机制分类-目录型搜索引擎,把搜集到的信息资源按照一定的主题分门别类,建立多级目录。大目录下面包含子目录,子目录下面又包含子目录如此下去,建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可查到所需信息。,

11、按搜索机制分类-关键词型搜索引擎,关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位,按搜索机制分类-混合型搜索引擎,兼有关键词型和目录型两种查找方式,既可直接输入关键词查找特定信息,又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。,Google,Google是目前最好用、功能最强大的搜索引擎之一。世界上多个著名的门户网站(如雅虎Yahoo!等)所使用的搜索功能,是由Google提供引擎和技术支持的。Google

12、提供一系列革命性的新技术,包括完善的文本对应技术和先进的Page Rank排序技术。Google支持大多数的搜索基本语法规则。Google不支持通配符,只能做精确查询。Google的关键字可以是词组,也可以是句子。随着Google的不断发展,它提供了更多的垂直搜索的功能。比如目录服务、新闻组检索、PDF文档搜索、地图搜索、电话搜索、图像搜索,还有工具条、搜索结果翻译、搜索结果过滤等更多的功能。,Google的强大的功能和特点,Google检索网页数量达24亿,搜索引擎中排名第一;Google支持多达132种语言,包括简体中文和繁体中文;Google网站只提供搜索引擎功能,没有花里胡哨的累赘;G

13、oogle速度极快,年初时据说有15000多台服务器,200多条T3级宽带;Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;Google智能化的“手气不错”功能,提供可能最符合要求的网站;Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。Google具有独到的图片搜索功能;Google具有强大的新闻组搜索功能;Google具有二进制文件搜索功能(PDF,DOC,SWF等);Google还有很多尚在开发阶段的令人吃惊的设想和功能。,Google设置选项,Google设置选项第一次进入Google,它会根据你的操作系统,确定语言界面。默认选项。

14、使用使用偏好,来设置各种选项。Google是通过cookie来存储页面设定的,所以,如果你的系统禁用cookie,就无法对Google界面进行个人设定了。,Google基本搜索,基本搜索关键词“搜索引擎 历史”AND“搜索引擎 历史-文化”NOT“搜索引擎 历史 OR 蜘蛛”ORDEMO创建书籍Google整理Google搜索技巧,搜索结果要求包含两个及两个以上关键字,示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索:“搜索引擎 历史”,搜索结果要求不包含某些特定信息,示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页搜索:“搜索引擎 历史

15、-文化-中国历史-世界历史”,搜索结果至少包含多个关键字中的任意一个,示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo-文化”,Google杂项语法,通配符问题“”以*治国“”关键字的字母大小写 不敏感搜索整个短语或者句子“world war I”搜索引擎忽略的字符以及强制搜索“www的历史 internet”省略www 的 自动分词“+www+的历史 internet”/“www的历史 i

16、nternet”强制搜索注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。,通配符问题,很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用“”引起来。比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符,关键字的字母大小写,Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。,搜索整个短语或者句子,Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语

17、做关键字,必须加英文引号,否则空格会被当作“与”操作符。示例:搜索关于第一次世界大战的英文信息。搜索:“world war I”,搜索引擎忽略的字符以及强制搜索,Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。示例:搜索关于www起源的一些历史资料。搜索:“+www+的历史 internet”,Google的高级搜索,对搜索的网站进行限制“搜索引擎 技巧 site:”在某一类文件中查找信息“资产负债表 filetype:doc OR filet

18、ype:xls”搜索的关键字包含在URL链接中“inurl:midi“沧海一声笑”“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。“allinurl:cgi-bin phf+com”“allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。注:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。搜索的关键字包含在网页标题中“intitle:藤原纪香”写真集“”“intitle”和“allint

19、itle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。搜索的关键字包含在网页的“锚”(anchor)链点内与URL和TITLE类似,Google提供了两种对anchor的检索,“inanchor”和“allincnchor”。,对搜索的网站进行限制,“site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。搜索:“搜索引擎 技巧 site:”,在某一类文件中查找信息

20、,“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE 公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80。PDF文档通常是一

21、些图文并茂的综合性文档,提供的资讯一般比较集中全面。示例:搜索几个资产负债表的Office文档。搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”,搜索的关键字包含在URL链接中,“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精

22、确的专题资料。示例:查找MIDI曲“沧海一声笑”。搜索:“inurl:midi“沧海一声笑”,搜索的关键字包含在网页标题中,“intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。示例:查找日本明星藤原纪香的照片集。搜索:“intitle:藤原纪香 写真集”,搜索的关键字包含在网页的“锚”(anchor)链点内,所谓“锚”,就是

23、在同一个网页中快速切换链接点。与URL和TITLE类似,Google提供了两种对anchor的检索,“inanchor”和“allincnchor”。,搜索所有链接到某个URL地址的网页,如果你拥有一个个人网站,估计很想知道有多少人对你的网站作了链接。而“link”语法就能让你迅速达到这个目的。示例:搜索所有含指向华军软件园“”链接的网页。搜索:“link:”,查找与某个页面结构内容相似的页面,“related”用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:,从Google服务器上缓存页面中查询信息,“cache

24、”用来搜索Google服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。,Google的图片搜索,Google自称可以检索390,000,000张图片,并称自己为“互联网上最好用的图像搜索工具”。从使用结果来看,Google的图片搜索的确不错,但个人以为比AltaVista的还是要差一些,主要体现在检索图片数量比不上AV,匹配度比AV的图片搜索器也差了些。但AltaVista 国内用户无法正常访问,因此对中国用户而言,Google的图片搜索引擎已经是最好的了。Google首页点击“图像”链接就进入了Google的图像搜索界面“imag

25、es.G”。你可以在关键字栏位内输入描述图像内容的关键字,如“britney spears”,就会搜索到大量的小甜甜布兰妮的图片。我目前尚不是很清楚图片的排列标准,不过以观察来看,似乎图片文件名完全符合关键字的结果排列比较考前,然后才按照普通的页面搜索时的标准排列。,Google自称可以检索390,000,000张图片“”AltaVistaGoogle图像搜索目前支持的语法包括基本的搜索语法如“”、“-”、“OR”、“site”和“filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPG,GIF等。示例:查找新浪网上王菲的图片搜索:“王菲”,Google的图片搜

26、索,Google自称可以检索视频“”示例:查找有关UFO的视频搜索:“王菲”,Google的Video搜索,Google的目录检索,Google的分类目录“”中文目录是“”示例:查找一下介绍搜索引擎方面的中文网站搜索:先进入中文简体分类目录,再进入“计算机”目录,再进入“互联网络”子目录,再进入“搜寻”子目录。我们看到在“World Chinese Simplified 计算机 互联网络 搜寻”下,还有两个子目录“分类目录(33)搜索引擎(10)”,以及6个相关网站。,Google的新闻组搜索,Google新闻组新闻组有详尽的分类主题,某些主题还有专人管理和编辑,具有大量的有价值信息。由于新闻

27、组包含的信息实在是海量,因此不利用工具进行检索是不大可能的。DEJA一直是新闻组搜索引擎中的佼佼者。2001年2月份,Google将DEJA收购并提供了所有DEJA的功能。现在,除了搜索之外,Google还支持新闻组的WEB方式浏览和张贴功能。,其他Goolge搜索,Goolge newsGoolge shoppingGoolge BooksGoolge ScholarGoolge FinanceGoolge BogsGoolge YouTubeGoolge CalendarGoolge PhotosGoolge Documents,Google的其他杰出功能,网页快照网页快照是Google抓

28、下来缓存在服务器上的网页。它有三个作用:第一,如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快。第二,如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过Google快照看到该页面信息。当然,快照内容不是该页最新页面。第三,如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过Google快照,因为快照中Google用黄色表明关键字位置。集成化的工具条 为了方便搜索者,Google提供了工具条,集成于浏览器中,用户无需打开Google主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装Google的工具条,可以访问“”,Google的其他杰出功能,单词英文解释网页翻译 单词纠错 繁简转换 搜索结果过滤 Beta功能对网页更新日期做出限定“daterange:”新闻搜索“”分类广告搜索“”,Google的其他服务,Google MapGoogle Earth等(pls ref later for Internet),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号