《多元统计分析——基于R语言课件聚类分析.pptx》由会员分享,可在线阅读,更多相关《多元统计分析——基于R语言课件聚类分析.pptx(24页珍藏版)》请在三一办公上搜索。
1、多元统计分析,中国人民大学:何晓群苏州大学:马学俊,基于R语言,多元统计分析中国人民大学:何晓群基于R语言,聚类分析,学习目标:1.了解适合用聚类分析解决的问题;2.理解对象之间的相似性是如何测量的;3.区别不同的距离;4.区分不同的聚类方法及其相应的应用;5.理解如何选择类的个数;6.简述聚类分析的局限。,03,聚类分析学习目标:03,3.1 聚类分析的基本思想,3.1.1 目的,聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分类常称为型聚类分析,对变量的分类常称为型聚类分析。与多元分析的其他方法相比,聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许
2、多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。,3.1 聚类分析的基本思想3.1.1 目的聚类分析不仅可以用,3.1 聚类分析的基本思想,3.1.2 聚类的分类方法,3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法,3.2 相似性度量,3.2 相似性度量距离定义,3.2 相似性度量,3.2 相似性度量间隔尺度定义,3.3 类和类的特征,3.3.1 类的定义,用表示类,设中有个元素,这些元素用,等表示。,3.3 类和类的特征3.3.1 类的定义用表示类,设,3.3 类和类的特征,3.3.2 类的特征,3.3 类和类的特征3.3.2 类的特征特征,
3、3.3 类和类的特征,3.3.3 类的距离定义,3.3 类和类的特征3.3.3 类的距离定义定义,3.4 系统聚类法,系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤:,3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它,3.4 系统聚类法,3.4.1 最短距离法和最长距离法,3.4 系统聚类法3.4.1 最短距离法和最长距离法,3.4 系统聚类法,3.4.2 重心法和类平均法,3.4 系统聚类法3.4.2 重心法和类平均法,3.4 系统聚类法,3.4.3 离差平方和法,3.4 系统聚类法3.4.3 离差平方和法,3.4 系统聚类法,3.4.4 分类数的确定,聚类分析的目的是要
4、对研究对象进行分类,因此,如何选择分类数成为各种聚类方法中的主要问题之一。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。德穆曼(Demirmen)曾提出根据树状结构图来分类的准则。准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不应过多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,分类准则,3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要,3.5 均值聚类和有序样品的聚类,3.5.1 均值法(快速聚类法),K-均值法主要思想:把每个样品聚集到其最
5、近形心(均值)类中步骤:(1)把样品粗略分成K个初始类。(2)进行修改,逐个分派样品到其最近均值类中(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值)。(3)重复第2步,直到各类无元素进出。注意:样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。,3.5 均值聚类和有序样品的聚类3.5.1 均值法(快速聚类,3.5 均值聚类和有序样品的聚类,3.5.2 有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2
6、 有序样品的聚类,3.5 均值聚类和有序样品的聚类,3.5.2 有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类,3.6 模糊聚类分析,3.6.1 模糊聚类的几个基本概念,3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念,3.6 模糊聚类分析,3.6.2 FCM聚类方法,3.6 模糊聚类分析3.6.2 FCM聚类方法,3.6 模糊聚类分析,3.6.3 FCM聚类算法,3.6 模糊聚类分析3.6.3 FCM聚类算法,3.7 计算步骤与上机实现,系统聚类,快速聚类,模糊聚类用R软件操作具体步骤如下:,(1)分析需要研究的问题,确定聚类分析所需的多元变量;(2)选择对
7、样品聚类还是对指标聚类;(3)选择合适的聚类方法;(4)选择所需的输出结果。,3.7 计算步骤与上机实现系统聚类,快速聚类,模糊聚类用R软,3.7 计算步骤与上机实现,城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。下表列出了2016年我国分地区 (不含港澳台)城镇居民的人均消费支出的部分原始数据,数据来源于2017年 中国统计年鉴。,X1:食品烟酒支出 X2:衣着支出 X3:居住支出 X4:生活用品及服务支
8、出X5:交通通信支出 X6:教育文化娱乐支出 X7:医疗保健支出 X8:其他用品及服务支出,2016年分地区城镇居民人均消费支出,3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、,3.7 计算步骤与上机实现,对2016年我国分地区 (不含港澳台)城镇居民的人均消费支出,我们采用欧氏距离,分别运用类平均法(组间联结)、最短距离法、最长距离法,对31个省、直辖市、自治区分类。下面详细介绍使用R进行系统聚类的步骤。,3.7 计算步骤与上机实现对2016年我国分地区 (不含港澳,3.7 计算步骤与上机实现,不同聚类方法的聚类结果对比表如下:,由上表可知,当把所有样品分为三类时,类平均法和最长距离法所得到的结果一致,北京,上海为一类,这两个地区的居民平均消费水平最高;天津,江苏,浙江,福建,广东为一类,这些地区的居民平均消费水平居中;其余的地区为一类,居民的平均消费水平较低。但最短距离法将北京和上海分别聚为一类,其余为一类,相对不如类平均法和最长距离法得到的分类结果合理。,3.7 计算步骤与上机实现不同聚类方法的聚类结果对比表如下:,