电子商务-A-第08讲.ppt

上传人:牧羊曲112 文档编号:6592682 上传时间:2023-11-15 格式:PPT 页数:73 大小:911.50KB
返回 下载 相关 举报
电子商务-A-第08讲.ppt_第1页
第1页 / 共73页
电子商务-A-第08讲.ppt_第2页
第2页 / 共73页
电子商务-A-第08讲.ppt_第3页
第3页 / 共73页
电子商务-A-第08讲.ppt_第4页
第4页 / 共73页
电子商务-A-第08讲.ppt_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《电子商务-A-第08讲.ppt》由会员分享,可在线阅读,更多相关《电子商务-A-第08讲.ppt(73页珍藏版)》请在三一办公上搜索。

1、电 子 商 务,张文新 副教授,电话:Email:,课 程 安 排,第8讲,电子商务搜索引擎技术,内容提要,8.1 搜索引擎原理8.2 搜索引擎关键技术,8.1 搜索引擎原理,搜索引擎分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine):目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。,8.1 搜索引擎原理,全文搜索引擎(如Google和Baidu)从互联网上提取各个网站的信息(以网页文字为主)建立的数据库;对数据库存储的信息进行分类建立索引库;从索引库中检索与用户查询

2、条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。,8.1 搜索引擎原理,目录索引目录索引靠分类目录找到需要的信息。目录索引中最具代表性是Yahoo雅虎,国内的搜狐、新浪搜索也都属于这一类。,8.1 搜索引擎原理,元搜索引擎(META Search Engine)元搜索引擎在接受用户查询请求时,同时在其

3、他多个引擎上进行搜索,并将结果返回给用户;在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合,如Vivisimo。,9/41,8.1 搜索引擎的原理,全文搜索引擎的组成和结构,www,索 引 器,检 索 器,用 户 接 口,robot,robot,文档库,索引库,图:搜索引擎的组成和结构,8.1 搜索引擎原理,搜索引擎的性能指标召回率:是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度:是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。,8.1 搜索引擎原理,搜索引擎的性能指标

4、对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。,8.1 搜索引擎原理,图:全文搜索引擎系统流程,8.1 搜索引擎原理,Caching,Searcher,Indexer,www,Page&SiteStatistic,Inverted Index,采集,预处理,索引,检索,Query,crawler,Web Page Parse,User Interfa

5、ce,PageRank,Repository,Anchors&Links,快照,图:一个简单的搜索引擎体系结构,*,14/22,Caching,Searcher,Indexer,Inverted Index,预处理,索引,检索,Query,Web Page Parse,User Interface,PageRank,Web采集,功能:通过超链抓取Web网页,并定期更新。需要解决的问题:获取尽可能多的页面如何检测高质量页面?如何反spam?如何高效准确地发现与剔除重复页面?如何预测各类网页的刷新率?如何获取Invisible web?,www,Page&SiteStatistic,采集,craw

6、ler,Repository,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。将We

7、b空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:搜索器搜集的信息类型多种多样包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。,*,20/22,Caching,Searcher,Indexer,www,Page&SiteStatistic,Inverted Index,采集,索引,检索,Query,crawler,User Interface,PageRa

8、nk,Repository,页面分析和信息抽取,功能:分析页面,提取用于索引的信息:Title,Keywords,URL,Body,字体等建立Link map发现新的超链供采集器使用需要解决的问题:BBS,社区,Blog,产品,新闻等等,页面是设计给人看的,结构特征各异,如何准确抽取有用信息?,预处理,Web Page Parse,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理(2)建立索引数据库:由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定

9、的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,*,22/22,Caching,Searcher,www,Page&SiteStatistic,采集,预处理,检索,Query,crawler,Web Page Parse,User Interface,PageRank,Repository,全文索引,功能:建立索引以加速查询,目前使用最广最高效的是倒排索引,基本形式:需要解决的问题:性能:如何在计算资源有限的情况下快速构建索引?文档更新:倒排索引天生不适合文档的更新,如何支持文档的实时更新?在线索引:产

10、品,生活信息,新闻等更新非常快,如何做到实时索引的同时检索?分布式:document partition,term partition或者其他模式?大量计算资源的管理,容错(Google File System,MapReduce,BigFile),Indexer,Inverted Index,索引,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接

11、流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Inve

12、rsion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索计算索引项之间的相邻或接近关系(proximity)。,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。,*,26/22,Indexer,www,Page&SiteStatistic,采集,预处理,索引,Query,crawler,Web Page Parse,

13、User Interface,检索,Caching,Searcher,Inverted Index,检索,PageRank,Repository,Anchors&Links,快照,功能:利用建立的倒排索引,结合链接结构等信息处理查询,返回Top-k结果需要解决的问题:效果:找到用户真正想要的东西?更好的IR Model,PageRank算法?性能:如何快速处理Top-k查询?New Index strategy,index compression,index pruning?处理link图非常耗时,更高效的算法?Link-spam是否有比链接分析更好的,spam免疫的方法?,8.1 搜索引擎原

14、理,全文搜索引擎的原理:(3)检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。,8.1 搜索引擎原理,全文搜索引擎的原理:(3)检索器在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

15、,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公

16、司和机构正在考虑制定查询选项的标准。,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口对搜索结果进行处理排序:所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,8.2 搜索引擎关键技术,(1)检索技术的智能化:机灵的网络蜘蛛 语义检索及自然语言理解技术 检索对象形式的多样性(2)检索结果处理的智能化 保存和利用用户的使用记录,分析检索结果的相关度:检索结果的转换过滤 检索结果的知识提取(3)检索服务的智能化,8.2 搜索引擎

17、关键技术,(1)检索技术的智能化:机灵的网络蜘蛛智能搜索引擎的设计网络蜘蛛能遍历整个因持网,自动完成在线信息的索引,还能通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理过的信息。同时,它能够对网页内容的相关性及该网页所包含的链接质量等做出判断,质量较差或内容不大相关的网页将不被选取,从而保证信息来源的质量,提高检索效果。,8.2 搜索引擎关键技术,语义检索及自然语言理解技术语义检索是一种建立在文献概念相关关系基础上的检索。通过抽取能够描述文献内容的概念(如用文中的关键词或与之相应的主题词)建立一种语义索引,而用户在系统的辅助下选用合适的词语表示自己的信息需

18、求,然后在两者之间执行概念匹配,匹配在语义上相同、相近、相包含的词语,从而实现信息的深度检索,8.2 搜索引擎关键技术,语义检索及自然语言理解技术借助自然语言理解技术,智能搜索引擎能够实现基于知识(或概念)层面的检索,并且对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息检索,并能为用户提供更方便、更确切的搜索服务。,8.2 搜索引擎关键技术,检索对象形式的多样性智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力,能处理HTML(HyperText Markup L

19、anguage,超文本标志语言)、SGML(Standard for General Markup Language,通用标志语言标准)、XML(eXtended Marked Language,扩展标志语言)文档以及其他类型的文档,如Word、WPS等。另外,智能搜索引擎还支持多语言检索,允许用户用中文输入查询英文或其他语言的信息,8.2 搜索引擎关键技术,(2)检索结果处理的智能化 保存和利用用户的使用记录,分析检索结果的相关度:例如访问量排序和基于超链接的排序。搜索引擎记录其所搜索到的Web页面的被点击次数(即访问量),从而判断该Web页面被访问的频率。这是一种由公众集体确认网站重要性的

20、方法,具有一定的客观性与公众性。而基于超链接的排序则是利用Web页面之间的引用关系,综合考虑Web页面被引用次数以及所引用页面的相关度来判断本页面的重要性。,8.2 搜索引擎关键技术,检索结果的转换过滤根据一定条件对检索结果进行优化过滤的过程,如信息格式的支持与转换。采用信息过滤技术可减少重复信息和垃圾信息,应用聚类技术对检索结果进行联机聚类等,从而“精简”检索结果。,8.2 搜索引擎关键技术,检索结果的知识提取搜索程序具有机械性及其对网络用户的透明性,而网络用户缺乏搜索程序所规定的概念和语词符号,这就使得用户的检索具有一定的模糊性,进而降低检索结果的满意度。因此,智能搜索引擎通过对用户需求进

21、行分析研究,跟踪用户的兴趣爱好,建立用户模型库,利用用户知识对检索结果进行一定程度上的知识提取,完成检索结果的集成。,8.2 搜索引擎关键技术,(3)检索服务的智能化在检索服务方面,检索质量的提高依赖于对网络用户信息需求的分析与挖掘,最基本的在于确定提问词中隐含的“意义范围”,即词语在不同领域的含义。只有理解查询词的含义范围,理论上将检索范围缩小到一个适当的相关范围,检索才能精确。同时,试图理解用户的意图,并相应地将检索结果分类编排,便于用户的选择利用。智能搜索引擎的智能化包括:个性化服务、主动性、智能辅助、人机接口智能化。,搜索引擎关键技术实例分析(一)Google的关键技术,Google的

22、关键技术,搜索引擎关键技术:Google的搜索机制:(1)网络爬行器与本地数据库:几个分布的网络爬行器(Crawler)同时搜取网页,由URL服务器负责向Crawler提供URL列表。Crawler将找寻到的网页送到存储服务器(Store Server)中,存储服务器把这些网页压缩后存入数据库(repository,用于存储每个网页的全部HTML及其他有关信息)中,并赋予每个网页一个关联ID,称为docID。,Google的关键技术,搜索引擎关键技术:Google的搜索机制:(2)索引器和排序器索引功能通过索引器(Indexer)和排序器(Sorter)来实现。索引器从知识库中读取文档并将其转

23、换成一组词的出现状况(word occurrences),称为采样(hits)。hits记录了词、词在文档中的位置、字号、大小写等。索引器把这些hits分配到一组桶“barrels”中,产生经过部分排序后的索引。同时,索引器还分析网页中所有的链接,并将重要信息存于链接描述文件(Anchors)中,该文件保存了链接描述文字和其他一些信息,足以判断一个链接被链入或链出的情况。,Google的关键技术,搜索引擎关键技术:Google的搜索机制:(3)URL分析器URL分析器(URL Resolver)阅读链接文件Anchors,把相对的URL转换成绝对的URL,与其docID号对应,形成链接文件的文

24、本索引,Anchor文本与所指向的docID建立关联,产生了由docID对(pairs of docID)所组成的链接数据库,用于计算网页的PageRank值。,Google的关键技术,搜索引擎关键技术:Google的搜索机制:(4)搜索排序器读取桶中的词汇,并根据词的ID号(wordID)列表重新生成倒排文档。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合,形成一个新的字典供搜索器(Searcher)使用。搜索器由Web服务器实现,并根据DumpLexicon所生成的词表,结合上述倒排索引及页面等级来匹配用户的查询。,Google的关键技术,搜索引擎关键技术:检索技

25、术的智能化:网页采集技术分布式爬行系统为了获取上亿网页,Google设计了一种分布式爬行器(Crawler)系统,由系统中的漫游遍历器(Googlebot)定期地(通常是28天)按预先设定的IP地址范围遍历对应网页,若网页发生变化或者发现新的网页,则获取此网页传回服务器,然后继续沿网络遍历,直至访问完所有链接。为了保证爬行器遍历信息的广度,Google事先设定了一些重要的链接。,Google的关键技术,搜索引擎关键技术:检索技术的智能化:网页采集技术分布式爬行系统Google可同时运行三个爬行器,当服务器将URL列表提供给爬行器后,每个爬行器同时保持与大约300个网络连接。最高速度时,Goog

26、le每秒钟通过爬行器获取的网页可超过100个。影响爬行速度的一个重要因素是DNS查询,为此,每个爬行器需要一个维护自己的DNS缓冲。这样每个链接都处于不同的状态,包括:DNS查询、连接主机、发送请求、得到响应。该分布式爬行系统通过异步输入/输出来管理事件,通过一定数量的队列来管理获取网页过程中的状态迁移。,Google的关键技术,搜索引擎关键技术:检索技术的智能化:机器翻译技术:网页翻译功能Google应用计算机翻译技术,支持多种语言检索,在操作界面中提供多达15种语言选择,包括英语、主要欧洲国家语言、日语、中文简繁体、韩语等,同时还可以用10种东欧语言进行查询,打破了语言上的障碍。,Goog

27、le的关键技术,搜索引擎关键技术:检索技术的智能化:检索对象的多样性Google提供网页(Web)、图像(Images)、新闻群组即讨论区(Groups)和网页目录(Directory)的检索服务,以及购物搜索、在线答疑、书目搜索、大学院校搜索等特别主题搜索,以便从不同的检索途径尽可能地满足不同需求的用户。Google还提供特定文件搜索功能,除HTML页面外,搜索结果中还包括以PDF、DOC等为后缀名的12种文档。同时,Google提供“View as HTML”(用HTML格式浏览)功能,以便未安装相应文档格式软件的用户也可查看。,Google的关键技术,搜索引擎关键技术:检索技术的智能化:

28、中文简繁体转换技术Google采用Basis Technology的中文简繁体转换技术,可以实现汉字简繁字体的自动转换,从而使用户找到更多相关信息。该系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。当用户检索所有中文网页时,Google先对检索式进行简繁转换后,同时检索简体和繁体网页,并将检索结果的标题和摘要转换成和检索式相同类型的文本,便于用户阅读。,Google的关键技术,搜索引擎关键技术:检索结果处理的智能化:为了准确筛选索引中的网页信息和显示结果,Google打破了传统的网络分类概念,采用独树一帜的PageRank页面等级技术和超文本匹配分析技术(Hypertext-Ma

29、tching Analysis)。,Google的关键技术,搜索引擎关键技术:检索结果处理的智能化:PageRank页面等级技术Google利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,即:如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次引用,但被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被平均分配到它所引用的页面。,Google的关键技术,搜索引擎关键技术:检索结果处理的智能化:PageRank页面等级技术在实际计算时,Google还考虑到网页A的所有链入网页(链接到某网页的其它网页称为该网页的链入网页)对它的推荐能力(即由于

30、它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。,Google关于网页PageRank值的计算公式:,PR(A)=(1-d)+d(PR(T1)/C(T1)+PR(Tn)/C(Tn),其中:PR(A)是指网页A的PageRank值;T1,T2,Tn是网页A的链入网页;PR(Ti)是指网页Ti的PageRank值(i=1,2,n);C(Ti)是指网页Ti的链出网页的数量(i=1

31、,2,n);d是一个衰减因子,0d1,通常取值为0.85。,搜索引擎关键技术:检索结果处理的智能化:PageRank页面等级技术,Google的关键技术,Google的关键技术,搜索引擎关键技术:检索结果处理的智能化:PageRank页面等级技术对于一个查询,Google首先利用相似度函数计算其相似页面数的多少,然后计算每个页面的重要性。在计算每个页面的重要性之前,Google给每一个网页赋予一个初始PageRank值,再根据PageRank算法计算其PageRank值。排列检索结果时,将PageRank值高的网页依次排在列表的前面。,Google的关键技术,搜索引擎关键技术:检索结果处理的智

32、能化:超文本匹配分析技术一般的搜索引擎仅仅考虑关键词在文档中出现的次数,除此之外,Google还分析关键词在网页中出现时所用的字体、字号以及在网页中出现的精确位置,并对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析,赋予不同的权重,通过计算得出最新的排列结果。Google认为关键词在网页中出现的位置及字体等因素可以充分体现该关键词在该网页中的重要程度。例如,若某关键词出现在网页A的标题中,而只是出现在网页B的正文中,则在不考虑其它因素的情况下,说明网页A与用户需求更匹配。,Google的关键技术,搜索引擎关键技术:检索结果处理的智能化:超文本匹配分析技术另外,Google引入了锚文本

33、(Anchor Text,即超文本链接的文字描述)对网页内容进行分析。锚文本在一定程度上能更加准确地描述其链接网页的内容。Google会记录网页中所有的超文本链接情况,包括该链接的文字描述(即Anchor Text)、该链接的具体对象(主要是其URL)。例如,网页A中有一个关键词“人工智能”,且该关键词存储了一个超文本链接指向网页B,则关键词“人工智能”可以很好地说明网页B的内容。此处的关键词“人工智能”就是Anchor Text,Google会记录关键词“人工智能”以及网页B的URL。,Google的关键技术,搜索引擎关键技术:(3)检索服务的智能化:Google帐户Google通过Goog

34、le帐户为用户提供个性化Google体验,进行用户使用偏好设置。用户登录系统后,可查看并管理用户的搜索历史记录,基于用户的历史搜索,系统能为用户提供有用的相关结果和推荐内容,使用户获得最相关的搜索结果。,Google的关键技术,搜索引擎关键技术:(3)检索服务的智能化:相关搜索Google能够提供与原搜索相关的搜索词,这些相关的搜索词根据过去Google所有用户的搜索习惯和Google提供的计算两个搜索词之间相关度而产生,能帮助用户更快地找到更有价值的结果。,搜索引擎关键技术实例分析(二)FirteX检索平台,目标和动机,公众搜索引擎,检索模型,新闻、产品搜索,在线索引,快速索引和检索算法研究

35、,实时文件系统搜索本地邮件搜索桌面搜索,论坛搜索,Top-k查询处理,查询扩展与反馈等,FirteX(C+),工程应用:高性能搜索平台,实验:完备的实验平台,效果,性能,实时性,大规模,FirteX的整体架构,文档集处理,内容分析,格式解释,内存管理,索引存储,倒排索引,文档集统计,Corpus,Query,查询解释,查询权重计算,相似度计算,文档打分,过滤,排序,查询反馈,查询扩展,查询Cache,索引Cache,索引处理框架,查询结果,域索引器,插件管理子系统,倒排索引,前向索引,统计信息,检索模型,LOG记录,XML配置,索引系统,检索系统,存储系统,索引流程,Corpus,倒排索引数据

36、库,模式,PipelinedFilter,内容分析,格式解释,Cache,索引,文档集解释,格式解释,文档Cache,索引Cache,索引存储,域索引器,词语切分,去停用词,Stemming,检索流程,QE?,Query,已处理Query,查询结果,扩展的Query,查询解释,查询匹配,Cache,查询分析,PipelinedFilter,内容分析,词语切分,去停用词,Stemming,查询Cache,索引Cache,查询优化,查询权重计算,相似度计算,文档打分器,倒排索引数据库,排序组件,DocumentRank Queue,过滤组件,索引处理框架,索引存取,针对域的特征设计索引器,文档集处

37、理,内容分析,格式解释,文档集统计,Corpus,Query,查询解释,查询权重计算,相似度计算,文档打分,过滤,排序,查询反馈,查询扩展,查询Cache,索引Cache,索引处理框架,查询结果,插件管理子系统,倒排索引,前向索引,统计信息,检索模型,LOG记录,XML配置,索引系统,检索系统,存储系统,内存管理,索引存储,倒排索引,域索引器,不同域具有不同的特征,例如URL域,时间域,数字域和正文域具有不同的特征,使用统一的分析器和索引器必然降低效率针对域的特征设计索引器根据域的特征采用不同的索引结构和算法,可以提高效率开发者无需“大动干戈”就可以向FirteX中添加自己的索引器,内容分析,

38、格式解释,插件管理子系统,实时在线索引,内存管理,索引存储,倒排索引,文档集处理,文档集统计,Corpus,Query,查询解释,查询权重计算,相似度计算,文档打分,过滤,排序,查询反馈,查询扩展,查询Cache,索引Cache,查询结果,倒排索引,前向索引,统计信息,检索模型,LOG记录,XML配置,索引系统,检索系统,存储系统,允许索引、检索和文档删除操作交叉或同时进行,新增加的文档即刻可供检索新闻搜索、产品搜索,生活搜索等应用,数据变化非常快,而要求提供持续的搜索服务,在线索引是最佳的解决方案在线索引的性能实验,域索引器,索引处理框架,FirteX的性能,搜索引擎关键技术实例分析(三)一个搜索引擎的工作原理,案例:一个搜索引擎的工作原理,案例:一个搜索引擎的工作原理,海量数据,案例:一个搜索引擎的工作原理,案例:一个搜索引擎的工作原理,73/73,本讲结束,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号