多元统计应用 (聚类分析).ppt

上传人:laozhun 文档编号:2842291 上传时间:2023-02-26 格式:PPT 页数:44 大小:191.50KB
返回 下载 相关 举报
多元统计应用 (聚类分析).ppt_第1页
第1页 / 共44页
多元统计应用 (聚类分析).ppt_第2页
第2页 / 共44页
多元统计应用 (聚类分析).ppt_第3页
第3页 / 共44页
多元统计应用 (聚类分析).ppt_第4页
第4页 / 共44页
多元统计应用 (聚类分析).ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《多元统计应用 (聚类分析).ppt》由会员分享,可在线阅读,更多相关《多元统计应用 (聚类分析).ppt(44页珍藏版)》请在三一办公上搜索。

1、数理统计及其应用,聚类分析 Cluster Analysis,第一节 聚类分析方法第二节 聚类统计量第三节 无量纲化方法第四节 Q型系统聚类法第五节 R型系统聚类法第六节 快速聚类法推荐阅读,第一节 聚类分析方法,聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。,基本程序:是根据一批样品的多个观测指标,具体地找出一些能够度量

2、样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法:由小类合并到大类的方法由大类分解为小类的方法静态聚类法、动态聚类法按样本聚类(Q)、按指标聚类(R),在社会经济领域中存在着大量分类问题,如:对我国31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税、产值利税率等,根据这些指标对全国各省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。,第二节 聚类统计量,一、概述二、Q型

3、聚类统计量三、R型聚类统计量,概述,设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。,Q型聚类统计量(距离),把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclidean distance),3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev),R型聚类统计量,对两个指标之间的相似程度用相似系数来刻划,相似系数的绝对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远。,1、夹角余弦2、相关系数3、同号率,第三节 无量

4、纲化方法,所谓无量纲化处理,是将原始数据矩阵中每个元素按照某种特定的运算把它变成一个新值,且是数值的变化不依赖于原始数据中其它数据的新值。,1、极差正规化(规格化变换、阈值法)2、标准化变换3、功效系数法4、相对化变换,例:某年我国部分省市经济效益情况用以上几种方法对其无量纲化。,第四节 Q型系统聚类法,系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再

5、聚成一类;如此反复,直到所有样本聚成一类为止。,步骤:,1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离dij4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类,类与类间距离的确定,一、最短距离法二、最长距离法三、中间距离法四、重心距离法五、类平均法六、离差平方和,最短距离法(Nearest Neighbor),以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分(spssex/e

6、x501),G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2

7、.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G2,G4,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80;d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80

8、 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6,G8=G1,G2,d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2,最长距离法(furthest neighbor),以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。,例2:对例1的数据以最长距离法聚类。,d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=

9、1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G2,G4,d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6,d71=d(3,4,5)1

10、=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3=7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4=7 0 8 24.63 0,G8=G1,G2,中位数法(Median clustering),用两位类的中位数间的距离作为两类的距离,Gt,Gl,Gm,重心法,用两类的重心间的距离作为两类的距离,组间平均链锁法(Between-groups linkage),定义两个小类之间的距离为所有样本对间的平均距离。利用了所有样本对距离的信息。,组内平均链锁法(Wit

11、hin-groups linkage),对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对,离差平方和法(Wards method word),使小类内各样本的欧氏距离总平方和增加最小的两小类合并为一类。将q固定时,要选择使S达到极小的分类,一切可能的分法有:,Ward 寻找到一个局部最优解的方法。先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。,例3:为了研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类处理,共抽取28个省、市、自治区的样本,每个样本有六个指标,分别为食品、衣

12、着、燃料、住房、生活用品及其它、文化生活服务支出。原始资料见 spssex/ex512,第五节 R型系统聚类法,一、最小系数法二、最大系数法三、中间系数法,对变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便当用少量、有代表性的变量代替大变量时损失信息很少。,第六节 快速聚类,如果选择了N个数值型变量参与聚类分析,最后要求聚类数K,那么可以由系统首先选择K个观测量作为聚类的种子,也称初始类中心、凝聚点,按照距这几个类中心的距离最小原则把观测量分到各类中心所在的类中去,形成第一次迭代形成的K类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在N维空间中又形成K个点,这

13、就是第二次迭代的类中心,按照这种方法依次迭代下去直到分类比较合理为止。,凝聚点的选择,1、经验选择2、对样本人为或随机分类,以每类的重心作为凝聚点3、最小最大距离法。如果欲将n个样本点分为q类,先选取距离最大的两点xi1,xi2为前两个凝聚点,然后选取第3个凝聚点xi3,由于其余所有点与前两个凝聚点都有最短距离,在全部最短距离中选择最长距离,这个距离的两端一个是xi1或xi2,而另一个就是我们要选择的xi3.4、密度法,例4:有15个样品,每个样品有两个经相对化处理后的指标y1,y2,试用密度法先取凝聚点。(距离以欧氏距离计算,球半径为0.3)数据见spssex/ex513在SPSS中计算出距

14、离矩阵,归纳出各样本的密度为:凝聚点为样本6,12,1,13,初始分类,1、人为地分类2、选择凝聚点后,将与其最近的凝聚点归并3、选择凝聚点后,每个凝聚点自成一类,将样本依次归入其距离最近的凝聚点那一类,并立即计算该类的重心,以代替原来的凝聚点,再计算下一个样本的归类。4、先对样本数据标准化,然后计算统计量,这个数接近几,就归入第几类,快速聚类步骤,1、选择分析变量2、指定聚类数目3、选择k个样本作为凝聚点4、按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去,形成第一步迭代的k类5、计算每类中所有变量的均值,作为第二次迭代的中心6、重复3、4步,直至指定的迭代次数或达到终止的条件例

15、5:仍以例3的数据资料,进行快速聚类(分为4类),例5:仍以例3的数据资料,进行快速聚类(分为4类),SPSS,聚类方法的选择:between-groups linkage:组间连接 within-groups linkage:组内连接 nearest neighbor:最近邻法 furthest neighbor:最远邻法 centroid clustering:重心聚类法 median clustering:中位数法 Wards method:离差平方和法,对距离的测度方法选择:Euclidean distance:欧氏距离 squared Euclidean distance:欧氏距离平方 cosine:相似性测度 Pearson correlation:皮尔逊相关 Chebychev:切比雪夫距离 block:绝对距离 Minkowski:明考斯基距离 customized:自定义选择统计表:Dendrogram:树形图 Icicle:冰柱图,推荐阅读,数量经济技术经济研究 2003.7中国可持续发展问题特征研究暨中等发达国家可持续发展模式的聚类分析,有问题,请提问,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号