多元统计分析课件(聚类分析).ppt

资源描述

《多元统计分析课件(聚类分析).ppt》由会员分享，可在线阅读，更多相关《多元统计分析课件(聚类分析).ppt（107页珍藏版）》请在三一办公上搜索。

1、Cluster Analysis,第五章聚类分析,第一节什么是聚类分析,聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比，该方法理论上还不完善，但由于它能解决许多实际问题，很受人们的重视，应用方面取得了很大成功。,举例,对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。,应聘者得分如下,例如,对上市公司的经营业绩进行分类；例如，根据经济信息和市场行情，客观地对不同商品、不同用户及时地进行分类。例如,当我们对企业的经济效益进行评价时，建立了一个由多个指标组成的指标体系，由

2、于信息的重叠，一些指标之间存在很强的相关性，所以需要将相似的指标聚为一类，从而达到简化指标体系的目的。,聚类分析内容,系统聚类动态聚类模糊聚类图论聚类,第二节距离和相似系数,描述亲疏程度有两个途径：1、把每个样品看成p维（变量的个数为 p个）空间的一个点，在p维坐标中，定义点与点之间的距离。2、用某种相似系数来描述样品之间的亲疏程度。,变量的类型,变量按测量尺度的不同可以分为以下三类：1、间隔尺度变量（数值型变量）用连续的数量来度量，如长度、重量、产值、成本 2、有序尺度变量（有序变量）如一、二、三等品不能用明确的数量度量，用等级表示，有次序关系。3、名义尺度变量用一些类来表示。性

3、别中的男与女，职业的分类。,聚类的种类,根据分类的对象可将聚类分析分为：（1）Q型（即样品的聚类clustering for individuals）（2）R型（即变量或指标的聚类clustering for variables),1、对样品分类（Q型）常用的距离与相似系数的定义,样本资料矩阵,样本资料矩阵,（1）距离,假使每个样品有p个变量，则每个样品都可以看成p维空间中的一个点，n个样品就是p维空间中的n个点，则第i样品与第j样品之间的距离记为dij,定义距离的准则,定义第i个和第j个样品间的距离要求满足如下四个条件（距离可以自己定义，只要满足距离的条件）：,距离矩阵,样品间距离矩阵,明氏

4、（Minkowski）距离,绝对值距离,绝对值距离实例,欧式（Euclidian）距离,二维空间欧式距离,欧氏Euclidian距离实例,切比雪夫距离,变量标准化,标准化欧式距离,马氏Mahalanobis 距离,Mahalanobis 距离实例,兰氏 Canberra距离,距离矩阵,样品间距离矩阵,例题,学生的身高与体重资料,（2）相似系数,研究样品间的关系常用距离，研究指标（变量）间的关系常用相似系数。相似系数常用的有：夹角余弦与相关系数,2、对指标（变量）分类（R型）,相似系数的定义,夹角余弦（Cosine）,相似矩阵,变量间相似矩阵,相关系数,相似矩阵,第三节八种系统聚类方法（hi

5、erarchical clustering method）,将n个样品各作为一类,系统聚类法是诸聚类分析方法中使用最多的一种，按下列步骤进行：,计算n个样品两两之间的距离，构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离。再合并、计算，直至只有一类为止,画聚类图，解释,类与类之间的距离,1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median method)4.重心法(centroid method)5.类平均法(average linkage)6.可变类平均法(flexible-beta method)7.

6、可变法8.离差平方和法(Wards minimum-variance method),（一）最短距离法(single linkage，nearest neighbor),类类间：两类间两两样品距离最短,递推公式,例1,设抽取五个样品，每个样品只侧一个指标，他们是1，2，3.5，7，9，试用最短距离法对五个样品进行分类。（样品间用绝对值距离）,D（0）,表1,D（1）,表2,D（2）,表3,D（3）,表4,聚类谱系图,最短距离法聚类的步骤,1、定义样品之间的距离，计算初始距离矩阵D(0)2、找出D(0)中非对角线上的最小值，设为Dpq,将对应的两类Gp和Gq合并成一个新类，记为Gr，即Gr=(

7、Gp,Gq)3、计算新类与其它类之间的距离，得距离矩阵D(1)。4、用D(1)代替D(0)，重复2、3的过程得D(2)，如此下去直到所有样品合并成一类为止。,（二）最长距离法,（Furthest Neighbor）,类类间：两类间两两样品距离最长的,递推公式,D（0）,表1,D（1）,表2,D（2）,表3,D（3）,表4,（三）中间距离法Median method,最短距离,最长距离,中间距离,如果在某一步将类Gp与Gq类合并为Gr，任一类Gk和新Gr的距离公式为：当时，由初等几何知就是上面三角形的中线。,（四）重心法,（Centroid clustering):,类类间：两类重心之间的距离

8、即均值点间的距离,递推公式,注意:初始距离用欧式距离则有下列,（五）类平均法（Between-group Linkage),类类间：两类之间的距离为两类样品两两之间的平均距离,递推公式,（六）可变类平均法,类平均法的递推公式中，没有反映Gp类和Gq类的距离有多大，进一步将其改进，加入D2Pq，并给定系数1，则类平均法的递推公式改为：,一般取,（七）可变法,如果让中间距离法的递推公式前两项的系数也依赖于，则递推公式为：,（八）离差平方和法(ward法）,可以证明离差平方和的聚类公式为,离差平方和法(ward法）,例1:为了更深入了解我国人口的文化程度状况，现利用1990年全国人口普查数据对全国3

9、0个省、直辖市、自治区进行聚类分析。分析选用了三个指标：(1)大学以上文化程度人口占全部人口的比例（DXBZ）；(2)初中文化程度的人口占全部人口的比（CZBZ）；(3)文盲半文盲人口占全部人口的比例（WMBZ）、用来反映较高、中等、较低文化程度人口的状况，原始数据如下表：,1990年全国人口普查文化程度人口比例（%）,第一类：北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。第二类：安徽、宁夏、青海、甘肃、云南、贵州其中大多数是西部经济、文化发展较慢的地区。第三类：西藏。经济、文化较落后的地区。第四类：其它省、直辖市、自治区。经济、文化在全国处于中等水平。,根

10、据聚类图把30个样品分为四类能更好地反映我国实际情况。,例2:根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call每千人拥有的电话线数；move l每千人户居民拥有的蜂窝移动电话数；fee高峰时期每三分钟国际电话的成本；comp每千人拥有的计算机数；mips每千人计算机功率（每秒百万指令）；net每千人互联网络户主数。,表3-4 20个国家信息基础设施指标资料,本例聚为2类：第一类：巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。这些国家为转型国家和亚洲、拉美发展中国家，经济较不发达，基础设施薄弱，属于信息基础设施比较落后的国家。第二类：瑞典、丹麦、美国、中国台

11、湾、韩国、日本、德国、法国、新加坡、英国、瑞士。这些国家为美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。新兴工业化国家近几十年来发展迅速，努力赶超发达国家，在信息基础设施的发展上已非常接近发达国家，发达国家中的美国、瑞典、丹麦的信息基础设施发展最为良好。,第四节系统聚类的基本性质,1、单调性设Dk是系统聚类法中第K次并类时的距离，如果D1 D2，则称并类距离具有单调性。可以证明除了中间距离法和重心法之外，其他的系统聚类法均满足单调性的条件。,2、空间的浓缩或扩张两个同阶矩阵D（A）和D（B），如果D（A）的每一个元素不小于D（B）的相应元素，则记为 D（A）D（B）。若有两种系

12、统聚类法A和B，在第K步的距离矩阵记为 D（AK）和D（BK），若有D（AK）D（BK）对所有K，则称A比B使空间扩张或B比A使空间浓缩。,最短距离法,最长距离法,最短距离法,最长距离法,最长距离法,最短距离法,最长距离法,最短距离法,D（短）D（平），D（重）D（平）；D（长）D（平）；当，D（变平）D（平）；当，D（变平）D（平）。D（离）D（平）,确定类的个数,在聚类分析过程中类的个数如何来确定才合适呢？这是一个十分困难的问题，人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。,1、给定阈值通过观测聚类图，给出一个合适的阈值T。要求类与类之间的距离不要超过

13、T值。例如我们给定T=0.35，当聚类时，类间的距离已经超过了0.35，则聚类结束。,总离差平方和的分解（准备知识）,如果这些样品被分成两类,可以证明：总离差平方和组内离差平方和组间离差平方和令T为总离差平方和令PG为分为G类的组内离差平方和,2、统计量其中T是数据的总离差平方和，是组内离差平方和。比较大，说明分G个类时类内的离差平方和比较小，也就是说分G类是合适的。但是，分类越多，每个类的类内的离差平方和就越小，也就越大；所以我们只能取合适的G，使得足够大，而G本生很小，随着G的增加，的增幅不大。比如，假定分4类时，=0.8；下一次合并分三类时，下降了许多，=0.32，则分4 类是合适的。,3、伪F统计量的定义为伪F统计量用于评价聚为G类的效果。如果聚类的效果好，类间的离差平方和相对于类内的离差平方和大，所以应该取伪F统计量较大而类数较小的聚类水平。,4、伪统计量的定义为其中和分别是的类内离差平方和，是将K和L合并为第M类的离差平方和=-为合并导致的类内离差平方和的增量。用它评价合并第K和L类的效果，伪统计量大说明不应该合并这两类，应该取合并前的水平。,

展开阅读全文