聚类分析clusteranaly.ppt

上传人:小飞机 文档编号:6338152 上传时间:2023-10-18 格式:PPT 页数:44 大小:350KB
返回 下载 相关 举报
聚类分析clusteranaly.ppt_第1页
第1页 / 共44页
聚类分析clusteranaly.ppt_第2页
第2页 / 共44页
聚类分析clusteranaly.ppt_第3页
第3页 / 共44页
聚类分析clusteranaly.ppt_第4页
第4页 / 共44页
聚类分析clusteranaly.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《聚类分析clusteranaly.ppt》由会员分享,可在线阅读,更多相关《聚类分析clusteranaly.ppt(44页珍藏版)》请在三一办公上搜索。

1、统计本科应用多元分析教学,Cluster Analysis,聚类分析(第2部分),第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,(二)最长距离法(complete linkage,furthest neighbor),B2A2*B1 A1*B3*,样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2

2、和B3之间的距离,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,(三)中间距离法(median method),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,K,L,J,M,第四军医大学卫生统计学教研室,2002年11月,(四)中间距离法的变形可变法,第四军医大学卫生统计学教研室,2002年11月,(五)类平均法(avera

3、ge linkage between group),SPSS作为默认方法,称为 between-groups linkage,K,L,J,M,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,(六)可变类平均法(flexible-beta method),类平均法的变型,K,L,J,M,第四军医大学卫生统计学教研室,2002年11月,(七)重心法(centroid method),B2A2*B1 A1*B3*,类类间的距离用各自重心间的距离表示,第四军医大学卫生统计学教研室,2002年11月,(八)Ward最小方差法(Ward minimum va

4、riance method),先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSMSSKSSL)最小的两类合并,直至所有的样品归为一类为止。,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,(九)八种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:,第四军医大学卫生统计学教研室,2002年11月,八种系统聚类法公式的参数,第四军医大学卫生统计学教研室,2002年11月,系统聚类法的性质,单调性 中间距离法、重心法不具有

5、单调性空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。,第四军医大学卫生统计学教研室,2002年11月,有关问题,几种聚类方法获得的结果不一定相同 指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。,第四军医大学卫生统计学教研室,2002年11月,五、快速聚类法(quick cluster method k-means model)也叫动态聚类、逐步聚类、迭代聚类),样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析,第四军医大学卫生统计学教研室,200

6、2年11月,原理,选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,直至分类达到稳定,第四军医大学卫生统计学教研室,2002年11月,初始凝聚点initial cluster seeds;cluster centers,自动选择 必须给出允许分类的最大个数k(SAS中用MAXCLUSTERS=k(或MAXC=k))凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件,第四军医大学卫生统计学教研室,2002年11月,六、变量聚类法,原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系

7、数描述“个体”间的相似程度。SAS中采用VARCLUS过程。,第四军医大学卫生统计学教研室,2002年11月,七、小结,与判别分析的区别(作用,数据要求?)聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识样品量大可采用快速聚类方法变量的形式?距离与相似系数?系统聚类常用方法?,第四军医大学卫生统计学教研室,2002年11月,存在的问题,分类数的确定 专业知识聚类方法的选择试用多种方法,系统聚类与快速聚类相结合,第四军医大学卫生统计学教研室,2002年11月,(一)SPSS聚类分析,八、软件计算与实例分析,第四军医大学卫生统计学教研室,2002年11月,1.系统聚类,

8、第四军医大学卫生统计学教研室,2002年11月,指定参与聚类的变量名和样品号,第四军医大学卫生统计学教研室,2002年11月,Statistics,聚类进度表,相似矩阵,样品或变量的分类情况,第四军医大学卫生统计学教研室,2002年11月,Plot,树状结构图,冰柱图,冰柱的方向,第四军医大学卫生统计学教研室,2002年11月,Method,聚类方法,标准化变换,亲疏关系指标,第四军医大学卫生统计学教研室,2002年11月,Method,将分类结果存入数据文件中,第四军医大学卫生统计学教研室,2002年11月,2.快速聚类,第四军医大学卫生统计学教研室,2002年11月,选项,读写凝聚点,人为

9、固定分类数,ANOVA表,初始凝聚点等,第四军医大学卫生统计学教研室,2002年11月,(二)SAS聚类分析,样品聚类:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE,AVERAGE,CEN,CENTROID,COM,COMPLETE,DEN,DENSITY,EML,FLE,FLEXIBLE,MCQ,MCQUITTY,MED,MEDIAN,SIN,SINGLE,TWO,TWOSTAGE,WAR,WARD);ID national;PROC TREE HORIZONTAL;ID national;,第四军医大学卫生统计学教研室,2002年11月,变量聚类:

10、PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4;快速聚类:PROC FASTCLUS MAXC=4 MAXITER=100;ID national;资料预处理:PROC ACECLUS;(ACECLUS(Approximate Covariance Estimation for CLUStering)),第四军医大学卫生统计学教研室,2002年11月,如果要采用非欧式距离,SAS中可用宏程序(%distance)计算。或 变换。数据为距离矩阵形式时,应在Data语句中说明,如“DATA a(TYPE=DISTANCE);”(见p202),The EndAuthor:ChuanHua Yu2002.11,XiAn,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号