《数据分析与软件应用第七讲聚类分析.ppt》由会员分享,可在线阅读,更多相关《数据分析与软件应用第七讲聚类分析.ppt(81页珍藏版)》请在三一办公上搜索。
1、第七讲 聚类分析,系统聚类分析(Hierarchical Cluster过程):直观,易懂。快速聚类(K-means Cluster过程):快速,动态。有序聚类:保序(时间顺序或大小顺序)。,聚类分析方法,例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。,1 什么是聚类分析,我们直观地来看,这个归类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236 计算1号
2、和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?,聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。例如对上市公司的经营业绩进行聚类;又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度
3、思考:小类与小类之间按什么来刻画相似程度,一、变量测量尺度的类型 变量按照测量它们的尺度不同,可以分为三类。(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。,2 相似性度量,(2)顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。,(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特
4、性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,人口性别的男和女,市场交易中的买和卖等都是此类变量。,二、样品间亲疏程度的测度,R型聚类()基于样品对指标进行分析,常用相似系数来测度。相似系数:取值(1,-1),性质越接近的变量或样品,相似系数越接近于1或一l,相似的为一类,不相似的为不同类。,Q型聚类:()基于指标对样品进行分析,常用距离来测度样品之间的亲疏程度。距 离:是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,1、样品相似性度量:距离,距离定义的准则:定义
5、距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件),2、常用距离的算法,设 和是第i和 j 个样品的观测值,则二者之间的距离 为:,闵氏距离,欧氏距离,(1)闵可夫斯基距离(明氏距离Minkowski),绝对距离 当q=1时,切比雪夫距离 当q时,闵氏距离有以下缺点:明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,
6、闵考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,(2)马氏距离(广义欧氏距离),是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离,设xi,xj是来自均值向量 总体G中的P维样品,则其计算公式为:,马氏距离与前述距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,不再受个指标量纲的影响,将原始数据做线性变换后
7、,马氏距离不变。为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。,例如,假设有一个二维正态总体,它的分布为:,(3)兰氏距离:兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:,这是一个自身标准化的量,由于它对大的奇异值不敏感,特别适合于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点(与各变量单位无关),但它也没有考虑指标之间的相关性。,(4)斜交空间距离,由于各变量之间往往存在着不同的相关性,用欧氏距离来显得不太敏感,所以有人建议采用斜交空间距离,当各变量之间不相关时,斜交空间退化为欧氏距离。(除相差一常数),3
8、、相似系数(变量相似性度量)(1)相似系数,设 和是第 和 个样品的观测值,将数据标准化后的夹角余弦,则二者之间的相似测度为:,变量间常借助于相似系数来定义距离,如距离越小,相似系数越大,(2)夹角余弦,夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量,4、距离和相似系数选择的原则同一批数据采用不同的亲疏测度指标,得到不同的聚类结果。产生原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,即,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有:,
9、(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。,(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如聚类前已对变量的相关性作了处理,则通常可采用欧氏距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。,(3)适当地考虑计算工作量的大小。如大样本,不宜选择斜交空间距离,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,应根据研究对象的特点作具体
10、分析。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的亲疏测度指标。,3 系统聚类方法,-、分析过程:1、根据样品的特征,每个样品自成一类,计算n个样品两两之间的距离,共有 个。把这些距离排列成一表,记为D(0)表。,2、选择D(0)表中最小的非零数,不妨假设,于是将 和 合并为一新类,记为。,Hierarchical Clustering Method是目前国内外使用最多的 一种聚类方法,3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1
11、)表。若类的个数等于1,转到下一步,否则回到前一步。类推直至所有的样本点归为一类为止。,4、画聚类图 5、决定类的个数 由于类与类之间的距离的计算方法不同,形成了不同的系统聚类方法。,二、常见的聚类法,1、最短距离(Nearest Neighbor):定义类与类之间的距离为两类最近的样品间的距离。,最短距离法的递推公式,假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:,设抽取五个样品,每个样品只有一个变量,它们是1,2,3.5,7,9。用最短距离法对5个样品进行聚类。首先采用绝对距离计算距离矩阵:,然后 和 被聚为新类,得:,各步聚类的结果:(1,2)(3)(4)(5)
12、(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5),2、最长距离法:(Furthest Neighbor)类与类之间的距离定义为两类最远样品间的距离。,最长距离法的递推公式,假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最长距离法为:,用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:,然后G1,G2被聚为新类,得:,3、中间距离法,最长距离,最短距离,中间距离,中间距离法的递推公式,用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:,4、重心法:Centroid clustering(样品的均值法):类与类间的距离定义为两类重心(各
13、类样品的均值)间的距离,重心指标对类有很好的代表性,但利用各样本的信息不充分。,分别为Gp和Gq的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。,设Gp和Gq 为两个类,Gr类的重心为 和 的加权算术平均数:,重心法递推公式,假设第p类和第q类合并成第r类,则第r类与其它各旧类GJ的距离按重心法为:,用重心法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:,G4和G6的距离为,类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。,5、离差平方和法(Wards Method),具体做法:先让n个样品各自成一类,然后缩
14、小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。,把Gp和Gq合并为Gr类各类内样品的离散程度为,这种系统聚类法称离差平方和法或Ward法,如 和 为一类,则离差平方和,如 和 为一类,则离差平方和,和 被聚为新类,重心为,至此,我们已经可以根据所选择的距离构成样本点间的距离表,样本点之间被连接起来。,实例分析与计算机实现,打开“商厦评分.sav”AnalyzeClassify Hierarchical ClusterMethod指定距离的计算方法Measure给出不同变量类型下个体距离的计算,Interval定距型变量,Counts计数型变量,
15、Binary二值变量Statistic中指定输出哪些统计量,三、确定类的个数,在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。,1、给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。2、观测样品散点图,3、R2统计量,设总样品数为n,把所有样品合并成m类,G1 Gm,类Gi样品数和重心分别是ni和,W可作如下分解:,表明类内离差平方和之和在总离差平方和中所占比例越小,也就说明m个类分的越
16、开。因此,R2可用于评价合并成m个类时的聚类效果,R2越大,聚类效果越好。比如,假定分4类时,=0.8;下一次合并分三类时,下降了许多,=0.32,则分4 类是合适的。,4、伪F统计量(Pseudo F Statistic)伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。,5、伪 统计量(Pseudo t2 Statistic)用它评价合并第p和q类的效果,伪 统计量大表示GpGq合并成Gm后,类内离差平方和的增量D2pq相对于原GpGq两类的类内离差平方和大,说明被合并的两类是很分开的。即上一次聚类效
17、果是好的。即说明不应该合并这两类,应该取合并前的水平。,四、主要的步骤,1、选择变量(1)和聚类分析的目的密切相关(2)反映要分类变量的特征(3)在不同研究对象上的值有明显的差异(4)变量之间不能高度相关2、计算相似性 相似性是聚类分析中的基本概念,他反映了研究对象之间的亲疏程度,聚类分析就是根据对象之间的相似性来分类的。有很多刻画相似性的测度指标,3、聚类 选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题:(1)选择聚类的方法(2)确定形成的类数,4、聚类结果的解释和证实,对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适
18、的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产别的原因。,例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:,试将它们聚类。,x2,x3,x4,x5,x6,x7,x8,根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call每千人拥有的电话线数;move l每千人户居民拥有的蜂窝移动电话数;fee高峰时期每三分钟国际电话的成本;comp每千人拥有
19、的计算机数;mips每千人计算机功率(每秒百万指令);net每千人互联网络户主数。,4 动态聚类,一、思想 系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工作,且聚类的计算速度也比较慢。比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。这时,采用系统聚类法就很困难,而动态聚类法就会显得方便,适用。动态聚类解决的问题是:假如有N个样本点,要把它们分为A类,使得每一类内的元素都是聚合的,并且类与类之间还能很好地区别开。动态聚类适用于大型数据。,用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类(k-
20、means)的步骤:1、随机选取两个点 和 作为聚核。2、对于任何点,分别计算 3、若,则将 划为第一类,否则划给第二类。于是得图(b)的两个类。,4、分别计算两个类的重心,则得 和,以其为新的聚核,对空间中的点进行重新分类,得到新分类。,(a)空间的群点(b)任取两个聚核,(c)第一次分类(d)求各类中心,K-Means Clustering Method,k-means 包括4个步骤:首先得到一个初始划分,将所有样品分成K个初始类通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标重复Step 2,直到所有样品都不能再分配为止,划分改变?,初始划分,计算聚类中心,最终划分,修改划分,无,是,K-Means算法的框图,(1),(2),(3),(4),Comments on the K-Means Method,特点 效率较高:收敛到局部最优解问题分类型数据的中心如何定义?预先指定聚类个数k结果受初始值 的影响适合形状规则的聚类,实例分析与计算机实现,打开“商厦评分.sav”AnalyzeClassify Hierarchical ClusterMethod指定距离的计算方法Measure给出不同变量类型下个体距离的计算,Interval定距型变量,Counts计数型变量,Binary二值变量Statistic中指定输出哪些统计量,