《聚类分析与判》PPT课件.ppt

上传人:牧羊曲112 文档编号:5570685 上传时间:2023-07-29 格式:PPT 页数:44 大小:656.50KB
返回 下载 相关 举报
《聚类分析与判》PPT课件.ppt_第1页
第1页 / 共44页
《聚类分析与判》PPT课件.ppt_第2页
第2页 / 共44页
《聚类分析与判》PPT课件.ppt_第3页
第3页 / 共44页
《聚类分析与判》PPT课件.ppt_第4页
第4页 / 共44页
《聚类分析与判》PPT课件.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《《聚类分析与判》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《聚类分析与判》PPT课件.ppt(44页珍藏版)》请在三一办公上搜索。

1、第12章 聚类分析与判别分析,管理统计学谢湘生广东工业大学管理学院,12.1 聚类分析的作法,12.1.1 概述,聚类分析(Cluster Analysis)是依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,有着广泛的应用。,例 为制定我国成年女子的服装标准,选了14项身体指标:(1)总的体高Y1(2)身高Y2(3)上体长Y3(4)手臂长Y4(5)肩宽Y5(6)胸围Y6(7)颈围Y7(8)前胸Y8(9)后背Y9(10)前腰节Y10(11)后腰节Y11(12)下体长Y12(13)腰围Y13(14)臀围Y14对3454个成年女子分别进行了测量。如何根据样本的测量数

2、据制定合乎中国国情的成年女子服装标准。,3454名成年女子14个部位的谱系聚类图(类平均法),距离 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 相关系数 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3,问如何将下述卡通人物分类?,管理实际中经常会遇到类似的问题。一般地,设有p个指标(变量),n个对象,依据这n个对象在这p个指标下的数据,对这n个对象进行聚类。设数据为,指标:1,2,p,对象1对象2对象n,P维空间中的一个点,聚类问题,就是对p维空间中的n个点的聚类问题。,一些要注意的问题,变量(指标)并非越多越好。变量太多,就难以判断聚类结果的实际意义。例如对企业按

3、照技术能力的各项指标(变量)聚类,可以在技术能力等方面把企业分为不同的类别。但如果把企业相关的所有指标都包括进来,对分类结果的含义就难以判断了。,只要指标间有一定相关关系(不必高度相关),就可以对所观察的一群个体分类(Q-型聚类)。从而可以对个体进行进一步研究。例如可以对消费者的偏好进行分类;可以依据不同地区的有关经济特征(变量)对地区进行分类;等等。,如果指标(变量)过多,也可以对指标进行分类(R-型聚类),把含义相近的指标聚在一起,将所有指标分为若干类。,10.1.2 聚类分析的作法,1.将数据标准化,为了消除不同变量的单位对聚类的影响,应当首先将所有的数据标准化。对上述数据矩阵X而言,按

4、列进行标准化,就可解决不同数据单位问题。,其中 分别表示第j列数据的均值与标准差。,2.计算对象之间的“距离”,直观地,应将“相似”的对象分为一类,但如何刻画“相似”。根据前面的讨论,聚类实际上是对n维空间的点进行的,因此“相似”的点的“距离”也近。,具体来说,先计算第i个对象与第j个对象之间的距离rij,就可得到对象之间“相似关系”矩阵:,对象1对象2对象n,对通常的距离而言,rij=rji,因此该矩阵为对称矩阵。,聚类分析中的“距离”,(1)欧氏距离:欧氏距离的平方为,(2)偏差距离:,(3)明考夫斯基(Minkowski)距离(的q次方):,(4)马氏(Mahalanobis)距离(的平

5、方):,其中V是协方差矩阵。,在聚类分析中,(1)、(2)中的常数因子(1/p)可以去掉,这样它们就是明氏距离的特殊情况。在具体应用时,可根据实际问题选用其中一种距离。,(1)相关系数:,(2)余弦:,相似系数,3.选择类与类之间的距离定义,(1)类的定义:由1个以上(含1个)对象组成的集合。,(2)类与类之间的距离,有如下几种规定:,用“代表点”之间的距离表示,可以采用两个类之间距离最近(或最远)的点,分别作为这两类的代表点。具体又可分为:,最短距离:取距离最近的两点间距离为两类间的距离。,最长距离:取距离最远的两点间距离为两类间的距离。,用两个类(设它们分别是类S和类T)中所有点之间距离(

6、平方)的平均值,作为两个类之间的距离(的平方):,其中ns,nt分别是两类中点的个数。dij是点i与点j之间的距离。,这种方法的优点在于,类间的距离不依赖于类内的个别点。采用这种距离聚类的方法称为组间连接法(Between-group linkage)。,按照某一规则,选择类中的一点,作为该类的“代表点”,然后通过代表点间的距离计算类间距离。,类间距离,S1,S3,S2,S4,S5,最短距离(single linkage),最长距离(complete linkage),类间距离,S1,S3,S4,S5,类间距离,S1,S3,S2,S4,S5,平均距离(average),附:离差平方和法(WAR

7、D),基本思想来源于方差分析。它认为:如果分类正确,同类间的离差平方和应较小,类与类之间的类差平方和(与距离有关)应较大.具体做法是,先将n个样本分成一类,然后每次缩小一类,每缩小一类离差平方和就要增大.,4.聚类,思路:聚类是一个迭代过程,首先将每个对象本身作为一类,然后进行迭代,每次迭代都将距离最近(或最远)的类合并成新的类,因此每次迭代类的数目将减少,直至最后所有的对象并为一类为止。,可以用下面的图形形象地说明聚类过程,采用不同的“距离”将得到不同的聚类效果。,第1层次,第2层次,第3层次,第4层次,第5层次,步骤:,(1)把每一个点(对象)作为一类(称为第一层的类)。,(2)找出距离最

8、小(或最大)的dij,从而得出距离最近(或最远)的两类i和j,把它们合并成层次更高的一类。如果有两个距离dij和dst(例如d12和d56)同时达到最小(或最大),则同时把i、j并为一类,s、t并作一类。若i、j与s、t中有一个相同(例如d12=d26),则把这三类并作一类。对有更多小类之间距离同时最小(或最大)可类似处理。,(3)重复(2),直至所有的点(对象)都并成同一类为止。,如果做(2)之前的类是第k层次的类,进行(2)之后的类就是第k+1层的类。,5.分类,将各点(对象)聚类后,最后需要确定以第几层的类作为最终的分类标准。通常使用如下的准则1:,准则1:各类重心之间的距离必须较大(为

9、此应作假设检验)。,准则2:各类所包含的元素个数都不过分地多。,准则3:分类的数目应该符合使用的目的。,准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,但是,一般不使用第一层的类,这实际上是将每个元素各自作为一类;也不使用最后一个层次的类,这实际上是将所有元素作为同一类。这样做失去了分类的意义。,聚类分析的进一步说明,聚类的另一种方式:反其道而行之。,将前述的聚类过程反过来,先将所有点(对象)看成一类,然后按距离的远近,逐步将类拆分成更细的类,直到最后每一点自己为一类为止。,为了区分:前面的方法也称为聚集法;这里的方法也称为分解法。,从上面的讨论来看,我们是根据“距离

10、”的远近来分类,但须注意,距离的定义有多种,它们可能并不同于通常直观的距离。因此有时需要将距离最“远”的归并为一类。,例如如果取相关系数作为“距离”,则该“距离”越大,相应的对象的相关程度就越高,因此宜将它们并为一类。但实际进行统计分析称相关系数等为相似系数,并取距离=(1-相似系数).,我们上面讨论的是对对象的分类,这相当于在下列矩阵中将每一行看成一点,然后考虑对这些点的分类。,指标:1,2,p,对象1对象2对象n,但有的实际问题,可能遇到较多的指标,因此为了清楚分类的实际意义,需要先对指标进行分类。,这只须将上述矩阵中的每一列,看成n维空间的点,然后用前面的方法得到适当的分类即可。或者将上

11、述的方法应用与上面矩阵的转置矩阵即可。,12.2 用SPSS做聚类分析,概述,聚类分析的方法:层次聚类法、迭代聚类法,层次聚类法:就是上一节介绍的方法,又分为:聚集法(Agglomerative Method)和分解法(Divisive Method)。,我们主要介绍层次聚类法,这也是最常用的聚类方法。聚类的结果可以用树状图或冰柱图表示。后面将结合例子说明这两种表示方法。,迭代聚类法(也称为动态聚类法):这种方法需要指定聚类中心,这相当于指定各类的典型元素。指定聚类中心的方法:可以人为地取定各类的中心,也可由机器产生初始中心。然后通过迭代过程得到所有对象的分类。,用一个简单的例子来说明动态聚类

12、法的工作过程。例如我们要把图中的点分成两类。,迭代过程是:,1、先指定两个迭代(聚类)中心。,2、计算每个点到迭代中心的“距离”,该点到哪个迭代中心的距离近,就将其划分到那个迭代中心所在的那一类。,3、修改迭代中心为各类的“重心”,再回到第2步。,指定聚类中心,第一次聚类,计算各类的中心,第二次聚类,层次聚类法操作过程与例子,例 现有13个运动员,从体形、生理、心理三个方面对他们进行了测评,现在要根据测评的结果对这些运动员进行分类。,数据:见文件“判别运动员”,对运动员聚类而非对指标聚类,同时给出统计分析结果与作图结果,要求给出聚类进度表,将输出凝聚过程中每一步的结果,输出树状图,输出冰柱图,对分类变量,对二值变量,聚类步骤,合并时类的距离,合并了哪些元素,合并过程中第一类的元素上一次在第几步出现,合并过程中第一类的元素下次出现在第几步,冰柱图(垂直),PASW Statistics 的冰柱图,PASW Statistics 的输出结果,卡通人物分类,建立数据文件,聚类分析结果的谱系图,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号