搜索引擎开发培训课程提纲.ppt

上传人:牧羊曲112 文档编号:5268912 上传时间:2023-06-20 格式:PPT 页数:33 大小:220.49KB
返回 下载 相关 举报
搜索引擎开发培训课程提纲.ppt_第1页
第1页 / 共33页
搜索引擎开发培训课程提纲.ppt_第2页
第2页 / 共33页
搜索引擎开发培训课程提纲.ppt_第3页
第3页 / 共33页
搜索引擎开发培训课程提纲.ppt_第4页
第4页 / 共33页
搜索引擎开发培训课程提纲.ppt_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《搜索引擎开发培训课程提纲.ppt》由会员分享,可在线阅读,更多相关《搜索引擎开发培训课程提纲.ppt(33页珍藏版)》请在三一办公上搜索。

1、Find Real Matter,搜索引擎开发培训课程提纲,Find Real Matter,前导知识,Core Java Java技术手册编译原理 Modern compiler implementation in Java 概率论应用随机过程:概率模型导论数据结构 JAVA算法,Find Real Matter,了解搜索引擎,Google神话.体验搜索引擎把搜索范围限定在网页标题中intitle.把搜索范围限定在特定站点中site.把搜索范围限定在url链接中inurl.做自己的搜索(代码)实现制作索引的功能,实现搜索功能.,Find Real Matter,遍历搜索引擎技术,30分钟实现

2、的搜索引擎.准备工作环境(10分钟).编写代码(15分钟)发布运行(5分钟)实现一个基于WEB结构的搜索引擎。(代码),Find Real Matter,网络蜘蛛,全文索引结构Nutch网络搜索软件商业搜索引擎技术介绍自己的网络蜘蛛(代码)广度遍历深度遍历正则表达式,Find Real Matter,BerkeleyDB,BerkeleyDB.原理与使用方法B树讲解基本API使用(代码),Find Real Matter,抓取技术,抓取网页MP3 抓取RSS 抓取图片抓取垂直行业抓取抓取数据库中的内容抓取本地硬盘上的文件,Find Real Matter,提取文档中的文本内容,从HTML文件中

3、提取文本结构化信息提取网页去噪htmlparser的基本使用(代码),Find Real Matter,正文提取,DOM树原理NekoHTML讲解NekoHTML简单应用(代码)NekoHTML用法的深入了解(代码)递归调用方法的使用,Find Real Matter,从非HTML文件中提取文本,TEXT文件PDF文件Word文件Excel文件PowerPoint文件流媒体内容提取,Find Real Matter,中文分词处理,Lucene 中的中文分词Lietu中文分词的使用中文分词的原理正向最大匹配(代码),Find Real Matter,查找词典算法,数字搜索树Tire树Trie树的

4、生成过程(代码)使用Trie树的常规的API(代码)理解Trie树的平衡过程(代码)Trie树的改造以及应用(代码)最佳前驱匹配(代码)语法解析树,Find Real Matter,隐码模型,发射概率概念转移概率概念统计一个词库中的发射概率和转移概(代码)隐码模型的实际应用(代码),Find Real Matter,文档排重,语义指纹语义指纹的概念语义指纹的实际应用(代码),Find Real Matter,中文关键词提取,关键词提取的基本方法关键词提取的设计从网页提取关键词关键词提取的实际应用(代码),Find Real Matter,拼写检查,英文拼写检查中文拼写检查英文拼写检查的实际应用

5、(代码),Find Real Matter,自动摘要,自动摘要技术自动摘要的设计具体的应用(代码),Find Real Matter,自动分类,自动分类的接口定义自动分类的SVM方法实现多级分类,Find Real Matter,自动聚类,聚类的定义K均值聚类方法K均值实现,Find Real Matter,语义搜索,准备语义词库把语义词库转换成同义词索引库在SynonymAnalyzer中使用同义词索引库具体的代码解析(代码)JUnit 介绍,Find Real Matter,跨语言搜索,简繁转换(代码),Find Real Matter,Lucene 的索引库,理解 Lucene 的索引库

6、结构设计一个简单的索引库(代码),Find Real Matter,创建和维护索引库,创建索引库向索引库中添加索引文档删除索引库中的索引文档更新索引库中的索引文档索引的合并索引的定时更新索引的备份和恢复(以上部分均有实现代码),Find Real Matter,优化使用 Lucene,索引优化查询优化实现字词混合索引定制Tokenizer查询大容量索引(以上部分均有实现代码),Find Real Matter,用户界面设计与实现,Lucene 搜索接口搜索页面设计用于显示搜索结果的 taglib用于搜索结果分页的 taglib设计一个简单的搜索页面实现一个日文搜索项目的页面设计(代码),Fin

7、d Real Matter,实现搜索接口,布尔搜索指定范围搜索设置过滤条件搜索结果排序搜索页面的索引缓存与更新(以上部分均有实现代码),Find Real Matter,关键词高亮显示,结合以前学习的内容学会使用highlighter包(代码)理解其包中基本类的使用实际应用,Find Real Matter,实现多维视图及相关搜索,实现多维视图bitsSet介绍计算机中进制转换和位移介绍MoreLikeThis的具体使用(以上部分均有实现代码),Find Real Matter,实现AJAX自动完成,用AJAX技术设计搜索页面(代码),Find Real Matter,用Solr实现分布式搜索,Solr服务器端的配置与中文支持把数据放进Solr从Solr删除数据SolrJ客户端搜索界面Solr搜索结果优化Solr的.net客户端Solr的PHP客户端,Find Real Matter,图像的OCR识别,调用OCR识别图像的过程 基于SVM的OCR识别代码,Find Real Matter,Web图分析,用BerkeleyDB存储Web图WebGraph压缩存储Web图,Find Real Matter,Thank you,Question?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号