搜索引擎的主要问题课件.ppt

上传人:小飞机 文档编号:3051107 上传时间:2023-03-10 格式:PPT 页数:19 大小:1.30MB
返回 下载 相关 举报
搜索引擎的主要问题课件.ppt_第1页
第1页 / 共19页
搜索引擎的主要问题课件.ppt_第2页
第2页 / 共19页
搜索引擎的主要问题课件.ppt_第3页
第3页 / 共19页
搜索引擎的主要问题课件.ppt_第4页
第4页 / 共19页
搜索引擎的主要问题课件.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《搜索引擎的主要问题课件.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的主要问题课件.ppt(19页珍藏版)》请在三一办公上搜索。

1、1,搜索引擎的主要问题&今后的发展,2,搜索引擎浅识,搜索引擎(search engine)是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统,是网络信息检索的首选工具。搜索引擎一般有以下四部分:搜索器 索引器 检索器 用户接口,3,搜索引擎的分类,全文搜索引擎。全文搜索引擎是从由互联网上收集各个网站信息组建的数据库中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。国外具有代表性的全文搜索引擎有Google、AltaVista等,国内著名的全文搜索引擎有百度、天网等。从搜索结果来源的角度看,全文搜索引擎又可细分为两种,一种是

2、拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos(民赞网)引擎。,4,搜索引擎的分类,目录式搜索引擎该搜索引擎是由人工建立和管理的网站级主题分类体系.由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度是相当高的。但严格来讲它不是真正的搜索引擎,用户可以不用进行关键词查询,仅靠分类目录也可找到需要的信息,代表有雅虎、新浪、InfoMarket 等.,5,搜索引擎的分类,元搜索引擎元搜索引擎由多个独立的搜索引擎汇集而成,没有自己的数据,在接受用户查询请求时

3、,可以同时调用多个搜索引擎,在其他多个引擎上进行搜索,并将结果返回给用户。如万纬搜索、someta等等.,搜索引擎的分类,垂直搜索引擎,垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。,7,目前存在的主要问题,(1)查准率低:多数搜索引擎的检索功能单一,信息加工深度不够,这导致信息查询的查准率不高。并且其数据库多为非全文数据库,不能提供原文,

4、复杂高级的精确检索方式明显不足,不易于处理多词检索和限定词检索。按分类目录浏览常常检索到很多无关的信息。,8,目前存在的主要问题,(2)检索效率不高:主要问题是长数据更新速度慢,查询响应时间长。由于网络资源的爆炸式增长和上网用户需求的日益增加,多数搜索引擎的日处理检索请求量很可能是上亿的,如何处理如此繁重的任务并提高处理效率,是目前搜索引擎必须要考虑的问题。,9,目前存在的主要问题,对多媒体信息资源的处理技术还不成熟:目前,多数搜索引擎的搜索对象主要是文本格式,主要原因是搜索引擎的自动排序软件,只能接受这种格式的网页。能够搜索多媒体信息资源的搜索引擎较少。多媒体技术的发展,对搜索引擎提出了更高

5、的要求,搜索引擎应更好地支持动态网页,尽快解决动态网页查询的问题。,10,目前存在的主要问题,专业性搜索引擎较少:专业性搜索引擎是为专门收录某一行业、某一主题等的信息而建立,能够提供专题信息查询服务的搜索引擎。目前的搜索引擎大多是综合性的,收录各方面、各学科和各行业的信息,在反映专题或专业信息方面很难做到全、快、精、准。例如,科研人员对网络的需要主要表现为对专业网络信息资源的需求,但目前的搜索引擎收录信息类型众多,能够提供专题信息查询服务的专业性搜索引擎很少,用户不可能也没有必要去浏览所有的网页,这就给用户获取相关文献造成了极大的信息障碍。,目前搜索引擎使用的主要技术,PageRank(页面等

6、级)技术PageRank(tm)算法是由斯坦福大学的Sergey Brin和LawrencePage于1998年提出的,它借鉴了传统情报检索理论中的引文分析方法即被其它文献引用越多的文献其质量越高。PageRank(tm)算法将www上无数互相链接的页面看成是一个巨大的链接有向图,将页面看成顶点,链接看成有向边。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,某些重要网页的投票被认为具有较高的价值,它所链接的网页就能获

7、得较高的价值,从而显示在搜索结果的顶部。由于该技术是根据网页之间的链接结构对网页的重要性进行客观的分析,该技术在很大程度上避免和减少了人为因素。,目前搜索引擎使用的主要技术,超文本匹配分析在依据用户关键词查询数据库时,分析关键词在网页中出现的次数,分析网页的全部内容以及字体、字号及每个文字精确位置等因素,还可以分析相邻网页的全部内容,以确保返回与用户查询最相关的结果。,目前搜索引擎使用的主要技术,中文分词技术中文分词技术属于自然语言处理技术范畴,其处理过程就是分词算法。现有的分词算法可分为三大类:基于机械匹配的分词算法、基于统计语言模型(SLM)的分词算法和基于理解的分词算法。包括:基于机械匹

8、配的分词算法,基于统计语言模型(SLM)的分词算法,基于理解的分词算法.,未来技术动向分析,提高检索的有效性用户在使用搜索引擎查询信息时,关注的是返回结果是否是自己需求的信息,而不是追求返回结果的数量。解决查询结果过多的现象目前出现了几种方法:一是采用目录式结构,用户可以像浏览文件夹一样选择自己感兴趣的网页;二是对搜索结果进行聚类分析,通过无监督学习机制查找相关内容。,未来技术动向分析,提供个性化服务用户信息需求是多方面的、多层次的。譬如,一般用户希望系统更多的提供“傻瓜”式服务,专业人士则自己构造检索式,既方便又准确。可以使用信息智能代理跟踪用户检索行为,分析用户模型,从而提供个性化的服务。

9、,未来技术动向分析,提供多通道输入用户可以通过声音、图像、视频等作为查询的输入,查询的时,应对用户名、密码等关键信息进行加密传输。在运营过程中,设备也可以随时要求客户重新进行验证。支持端口验证的设备应满足如下要求:识别并支持源、目的地址确定,VLAN TAG要求等;支持受控端口与非受控端口,并根据数据帧类型送入不同的端口;支持受控端口在端口控制参数下的行为;支持Radius验证。,未来技术动向分析,设备安全防护口令管理:为防止对系统未经授权的访问,系统必须具有完善的密码管理功能。虽然几乎所有数据通信设备都具有RADIUS或TACACS认证服务器进行口令管理的能力,但在设备本地进行密码分配和管理仍是设备本身应具有的安全特性。这里只描述本地密码管理。口令的密文显示:若系统的配置文件以文本方式进行保存,则在配置文件中,所有的口令都必须以密文方式显示和保存。,参考文献&引用文献,搜索引擎存在的问题与发展趋势,包燕晗,2006,6搜索引擎中的软件技术浅析,黄美军,信息科技报,2010,7,下搜索引擎关键技术的分析与研究,冯翠丽,信息与电脑,2010,6搜索引擎优化策略研,焦丽,路波,生产力研究,2010,7,19,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号