《SPSS聚类分析详解.ppt》由会员分享,可在线阅读,更多相关《SPSS聚类分析详解.ppt(80页珍藏版)》请在三一办公上搜索。
1、聚类分析,聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。分类:1、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种(Hierarchical Cluster过程)1)、聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。2)、分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类(R型)。2、非系统聚类法-(快速聚类法-K-均值聚类法)(K-means Cluster)3、两步聚类法-一种探索性的聚类方法(TwoStep Cluster),K-均值聚类分析K-means Cluster,又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:
2、是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。缺点:应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。,基本原理具体做法1、按照指定的分类数目n,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。2、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数
3、时,或者到达迭代次数的上限时,停止迭代。,数据标准化处理:,存储中间过程数据,数据标准化处理,并存储。,指定5类,收敛标准值,存储最终结果输出情况,在数据文件中(QCL-1、QCL-2),初始聚心选项,输出方差分析表,初始聚类中心表,具体城市看后表,最终聚类中心表,聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况,系统聚类法Hierarchical Cluster,系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。,应用实例,某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内6个地区征集对新
4、产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用10分制,调查结果的数据如下表,1 2 3 4 5 6,性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7,地区(样品),指标,用分类法对6个样品进行分类,以估计哪些地区最有可能经销这类新产品?,按公式计算两两样品间的相似系数,得相似矩阵,1 2 3 4 5 6,123456,Q=,按四条原则进行分类,作聚类分析图,X3X6X1X4X2X5,1,0.994,0.955,0.994,0.933,一、问题提出聚类分析对一批样品或指标进行分类的一种统 计方法。,具体处理方法:(思路),1
5、、具体研究的分类对象:样品或指标2、方法:把“性质相似”或“相互关系密切”的样品或指标聚在一起。3、步骤:1)首先给出度量“相似”或“关系密切”的统计指标,2)形成一个由小到大的分析系统。3)把整个分类系统画成一张分类图,(3)相关系数(4)关联系数,指标:(1)统计指标是相似系数。根据相似性归为一类,否则为另一类。(2)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。,二、聚类统计量,首先定义一些分类统计指标 刻画样或指标之间的相似程度(这些统计指标称为聚类统计量),在市场研究中,样品 用作分类的事物 指标 用来作为分类依据的变量。(如:年龄、收入、销售量),(一)
6、相似系数(夹角余弦)一般式:假定每个样品包含有P项指标,若有几个样品的调查数据,每一个样品都可看成P维空间中的一个向量,对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦,来表示:,Xi和Xj相重合时,夹角,相似程度为,Xi和Xj相互垂直时,,相似程度为,相似密切,解析几何知识:相似系数,其中:,如果把上述n个样品的任何两个样品的相似系数,都计算出来并排列成一,个矩阵:,根据算出的,,就可对n个样品进行聚类,用相似系数作为聚类统计量时的分类方法,1、分类原则:(1)若选出一对样品,在已分好的类中未出现,则形成一个独立新类。(2)若选出两个样品中,有一个是在已分好的类中出现过,则把
7、另一个样品也加入到该类中去。(3)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示,2、分类方法,例:设有7个样品,每个样品测得P个指标,数据如表,X1 X2 X3 X4 X5 X6 X7,样品,指标,要求对此7个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦),首先计算所有的两个样品间的相似系数,1 2 3 4 5 6 7,1234567,Q=,按矩阵中的数值对7个样品(按四个原则)进行聚类,1 2 3 4 5 6 7,1234567
8、,Q=,顺序 连结样品 相似系数,123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,按矩阵中的数值对7个样品(按四个原则)进行聚类,1、记下Q中最大值q15=0.97,划去Q中的第5行第5列2、记下Q中剩余元素最大值q13=0.94,划去Q中的第3行第3列,行,(3)记下Q中剩余元素最大值q24=0.91,划去Q中的第4行第4列(4)记下Q中剩余元素最大值q26=0.67,划去Q中的第6行第6列(5)记下Q中剩余元素最大值q12=0.
9、51,划去Q中的第2行第2列(6)记下Q中剩余元素最大值q17=0.24,作聚类图:,X1X5X3X2X4X6X7,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相关作聚类分析,例:设有n个样品,每个样品测得8个指标X1,X2,X8。要求对8个指标进行聚类,聚类统计量采用相关系数,设相关矩阵R=()为:,1 2 3 4 5 6 7 8,12345678,顺序 连结样品 相似系数,1234567,X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6
10、X3 X5 X8-0.94 X2 X4 X7,R=,按矩阵R中数值对8个指标(按四个原则)进行聚类:1)记下矩阵中的最大值,,划去第6行第6列,2)记下矩阵中的最大值,,划去第3行第3列,以此类推。,作聚类图:,X1X6X3X4X2X7X5X8,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照时数,注:连续变量,SPSS提供不同类间距离的测量方法1、组间连接法2、组内连接法3、最近距离法4、最远距离法5、重心法6、中位数法7、Ward最小偏差平方和法,观测量概述表,聚类步骤,与图结合看!,4、5,聚类方法有系统聚类和逐步聚类,输入数据集可以是普通数据集、相关
11、矩阵(CORR过程产生)或协方差矩阵(FACTOR等过程产生)。SAS提供的聚类过程有:1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类,当观测值数太多时,不宜直接采用。2、FASTCLUS对于坐标数据,用K-均值法对观测值进行逐步聚类,当观测值很多时,则先用FACTCLUS过程对其进行初步聚类,然后再用CLUSTER过程进行系统聚类。3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。4、TREE为CLUSTER或VARCLUS过程产生的输出画树状图。,CLUSTER过程开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过
12、程一直进行下去,每次减少一类,直到合成一类为止。聚类方法有11种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的距离。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距离法)、DENSITY(密度法)、MEDIAM(中位数法)等,美国十个城市的分类根据两个城市见航空距离将美国十个大城市作分类,聚类分析SAS程序:,原始数据是两两之间距离的三角阵(而不是坐标),输入格式,55列为城市,15位,平均法重心法最小距离法,输出F及t统计量,观测值之间距离的均方根,输出结果:,类数,指出被合并的类,新类中的观测值数,类间距离除以观测值间距离均方根
13、得来,F、t*2峰值(起伏)越大说明分类显著,研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型,聚类分析的第几步,哪两个样本或小类聚成一类,相应的样本距离或小类距离,指明是样本(0)还是小类(n),下面第几步用到,垂直冰柱图显示层次聚类分析,从冰柱图最后一行开始观察,第一列表示类数,两步聚类法TwoStep Cluster,一种探索性的聚类方法,是随着人工智能的发展起来的智能聚类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分析问题。,两步聚类法特点:1、同时处理离散变量和连续变量的能力2、自动选择聚类数3、通过预先选取样本中的部分数据构建聚类模型4、可以处理超大样本量的数据,
14、简单介绍基本原理分两步进行第一步:预聚类。对记录进行初始的归类,用户自定义最大类别数。通过构建和修改特征树(CT Free)完成。第二步:正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定聚类的类别数目。以后,可以通过传统的聚类方法进行聚类(SPSS中采用合并型分层聚类法)。,输出各变量在聚类中比重图,输出出聚类饼分图,每个变量做一张条图,每一各类别做两张,分别为连续与离散聚类,重要性测度,1、质心表和频数表2、聚类分析表3、自动聚类结果表,聚类数目,数值越小效果越好,BIC相邻两项差值,看数据的峰值,看聚类效果。4、8、10、14类。,BIC准则-Schwartz Bayesian Criterion,离散变量频数表的图形表示,连续变量在各个类别中的误差图,4个类别中离散变量重要性图,