《基于中文分词的搜索引擎的设计与实现毕业设计答辩ppt.ppt》由会员分享,可在线阅读,更多相关《基于中文分词的搜索引擎的设计与实现毕业设计答辩ppt.ppt(16页珍藏版)》请在三一办公上搜索。
1、基于中文分词的搜索引擎的设计与实现,什么是搜索引擎?,搜索引擎是指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。,搜索引擎的原理?,网络机器人索引的建立与搜索Web服务器,什么是网络机器人?,网络机器人也称为“网络蜘蛛”(Spider),是一个功能很强的WEB扫描程序。它可以在扫描WEB页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为WEB中广泛使用超链接,所以一个Spider程序理论上可以访问
2、整个WEB页面。,索引的建立与搜索,Lucene是Jakarta Apache的开源项目。它是一个用Java写的全文索引引擎工具包,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。,+,IK Analyzer是开源的,基于java语言开发的轻量级的中文分词工具包。它是一个面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并实现了简单的分词歧义排除算法。,基于Tomcat的Web服务器,Tomcat是一个开放源代码、运行servlet和JSP Web应用软件的基于Java的Web应用软件容器。Web服务器是在网络中为实现信息发布、资料查询、数
3、据处理等诸多应用搭建基本平台的服务器。,搜索引擎的结构,源码图解,中文分词技术,意思:按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,中文分词方法,基于字符串匹配的分词方法,基于理解的分词方法,这种分词方法是通过让计算机模拟人对句子的理解从而达到识别词的效果。基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。,基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字如果同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。,正向迭代最细粒度切分算法,正向迭代最细粒度切分算法是一个开源分词项目IK-Analyer 分词器的切分算法。其切分过程为:“中华人民共和国成立了”,首先到词库中检索该搜索词中最大分割词,即分割为:“中华人民共和国”和“成立了”,然后对“中华人民共和国”切分为“中华人民”和“人民共和国”,以此类推。最后,“中华人民共和国成立了”切分为:“中华人民|中华|华人|人民|人民共和国|共和国|共和|成立|立了”。,中文分词的歧义识别,