Carrot2聚类工具简介.ppt

上传人:小飞机 文档编号:5418846 上传时间:2023-07-05 格式:PPT 页数:32 大小:574.50KB
返回 下载 相关 举报
Carrot2聚类工具简介.ppt_第1页
第1页 / 共32页
Carrot2聚类工具简介.ppt_第2页
第2页 / 共32页
Carrot2聚类工具简介.ppt_第3页
第3页 / 共32页
Carrot2聚类工具简介.ppt_第4页
第4页 / 共32页
Carrot2聚类工具简介.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《Carrot2聚类工具简介.ppt》由会员分享,可在线阅读,更多相关《Carrot2聚类工具简介.ppt(32页珍藏版)》请在三一办公上搜索。

1、1,Carrot2聚类工具简介,崔弘扬,教育信息技术工程研究中心,2,Contents,Carrot2体系结构Carrot2聚类算法Lingo&STCCarrot2 ApplicationsWebapp&Workbench&DCSCarrot2 source code下载与配置、运行Carrot2 core、Attribute可用资源,3,Carrot2简介,Carrot2 is an Open Source Search Results Clustering Engine。Author:Dawid Weiss&Stanislaw Osinski 波兰人,波兹南大学 研究方向:text clu

2、stering,information retrieval,web mining,computational linguistics and software engineering,4,Carrot2体系结构,Carrot2是一个开源的基于搜索结果的聚类引擎,5,Lucene索引结果,Lucene索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名

3、是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。,6,7,Carrot聚类算法,Lingo:基于奇异值分解的索引结果聚类算法首先确定可感知的类标签,然后将文件分配到类中Preprocessing预处理Filtering文本过滤、stemming提干、stopword去除停用词Frequent phrase extractionCluster label inductionCluster content discoveryFin

4、al cluster formation,8,Carrot2聚类算法,STC(Suffix Tree Clustering)后缀树聚类算法,一种On-line聚类算法(1)将文档片段作为输入而不是整篇文档(2)聚类算法必须足够快速实现在线计算(3)生成的类簇必须是终端用户可读的描述STC将文档作为字符串来处理,利用文档间相似信息STC是新颖的、增值的、O(n)时间复杂度STC快速的为用户总结出类簇内容STC处理小数据集,所以耗时较少,9,后缀树包含了一个或者多个字符串的所有后缀,空字符串也算是其中的一个后缀例如:banana后缀为:banana anana nana ana na a 空一般来

5、说后在字符串末尾加$特殊字符作为结束标记后缀树:有根节点的有序的树每个内部节点至少有2个子节点每条边以S的非空子字符串做标签,节点的标签定义为从根节点到该节点路径上的标签的串联同一节点出发的两条路径不可能以同一词开始,10,Example,11,STC步骤:一、文档清洗tagger stemmer 句子边界界定 stop word二、标识基础类簇(1)通过文本预处理将文档表示为词的序列,构成后缀树;(2)利用后缀树找到基类簇,至少被两个文档包含的短语称为短语束,基类簇就是要找到最大短语束B,用来描述相关短语mB和出现该短语的文档dB,并计算各个基类簇的值S(B);三、合并基础类簇合并基类簇,为

6、了避免出现非常类似的基类簇,可以设置一个阈值k,12,Carrot2 Applications,workbench Carrot2文档聚类平台,是一个独立的GUI程序,可以用来对一般搜索引擎数据或你自己的数据进行聚类实验。DCS Carrot2文档聚类服务器,将Carrot2聚类作为REST服务呈现。Webapp Carrot2网络应用,可以将Carrot2聚类作为终端用户的网络应用呈现。,13,Workbench聚类平台,下载解压,执行carrot2-workbench.exe!Problem源码运行出错上次的问题,查询Lucene索引时没有聚类结果,需要重启workbench聚类效果不佳,

7、类簇标签多是期刊号等非重要信息,前期预处理没有过滤掉。,14,15,webapp,下载将其放于Tomcat的webapps文件夹下自动解压访问http:/localhost:8080/carrot2-webapp-3.0,16,Webapp的Lucene索引配置,Webapp的war包解压后,WEB-INF/classes/carrot2-default修改suite-webapp.xml添加lucene-attributes.xml重新启动Tomcat访问http:/localhost:8080/carrot2-webapp-3.0,17,18,基于Lucene索引的聚类结果,19,可视化效

8、果图,20,!Problem,War包解压英文可以聚类,中文无结果,分词问题没有Aduna map可视化效果!查询本地Lucene索引时只能索引标题出现的词源码问题聚类无结果,21,Carrot2 source code下载,Carrot2是sourceforge(全球最大的开放源代码软件开发平台和仓库)代理步骤1:安装svn工具。下载:http:/,安装建立源码地址文件夹,右击 SVN Checkout在URL of Repository输入源码网址SVN URL开始下载,22,Carrot2 source code导入eclipse,打开eclipseImportGeneralExsiti

9、ng projects to workspace选择Carrot2源码路径去除工程执行若出错说明没有ant?将Carrot的lib下的jar包和core包放到classpath下,23,Example:ClusteringDataFromLucene,修改属性:final String contentFieldName=content;Indexpath路径(设置运行时参数)indexPath=“your own lucene index path”;查询关键字:final Map processingAttributes=new HashMap();processingAttributes.

10、put(AttributeNames.QUERY,教育);,24,Collected 27 documents 0 _电化教育研究_投稿须知 1 对教育技术学科名称及定位的反思 2 从CSSCI看新世纪中国教育技术学学科地位的变化 3 边远地区高校教育信息化建设与和谐发展的理性思考Created 16 clusters电化教育研究(16 documents)0 _电化教育研究_投稿须知 2 从CSSCI看新世纪中国教育技术学学科地位的变化2008年第4期 总第180期(3 documents)4 从历史使命谈教育技术的定位 20 大学生信息素养培养模式及实施途径研究 23 CSCL环境中基于对

11、话学习理论的教学设计Attributes:query:教育results-total:27processing-time-algorithm:1091processing-time-source:2253LingoClusteringAlgorithm.nativeMatrixUsed:falseprocessing-time-total:3344,25,Carrot2运行,WorkbenchRunExternal toolsAttribute Metadata XmlRunRun configuration 选择Eclipse ApplicationworkbenchWebappRunExt

12、ernal toolsAttribute Metadata XmlRunExternal toolsweb application setupRunRun configuration,26,Carrot2 Core,Document,Cluster,ProcessingResultInit(注释类型),AttributeNames,ProcessingSearchEngineBase,SearchEngineResponse,SimpleSearchEngineLuceneDocumentSource,FSDirectoryWrapperClusterBuilder,LingoClusteri

13、ngAlgorithm,LingoProcessingContextBaseCluster,Phrase,STCClusteringAlgorithm,STCClusteringParameters,STCEngine,STCTree,27,ExtendedWhitespaceAnalyzer,ExtendedWhitespaceTokenizer,Tokenizer,PhraseExtractorLanguageCode,DefaultLanguageModelClusterBuilder,LingoClusteringAlgorithm,LingoProcessingContextChar

14、ArrayComparator,MutableCharArrayITremWeighting,VectorSpaceModelContext,TfTermWeighting,LinearTfidfTermWeighting,LogTfidfTermWeighting,TermDocumentMatrixBuilder,28,EigenvalueCaculator,MatrixUtils,NNIDenseDoubleMatrix2DKMeansMatrixFactorization,IterativeMatrixFactorizationKMeansSeedingStraegy,RandomSe

15、edingStrategyWebApp.javaApplication.java,29,可用资源,官方网站帮助论坛Reference参考文献Carrot2 and Language Properties in Web Search Results ClusteringIntroducing Usability Practices to OSS:The Insiders ExperienceCarrot2:Design of a Flexible and Efficient Web Information Retrieval FrameworkAN INDEXING AND CLUSTERING

16、 ARCHITECTURE TO SUPPORT DOCUMENT RETRIEVAL IN THE MAINTENANCE SECTOR,30,LingoConceptual Clustering Using Lingo Algorithm:Evaluation on Open Directory Project DataLingo:Search Results Clustering Algorithm Based on Singular Value DecompositionA New Algorithm for Clustering Search Results,31,接下来要做的研究?,聚类算法原理可视化聚类结果XML可视化(Tree,Aduna map),32,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号