《聚类与判别案例.ppt》由会员分享,可在线阅读,更多相关《聚类与判别案例.ppt(52页珍藏版)》请在三一办公上搜索。
1、聚类与判别-案例,许晓娟国际商学院统计与技术经济学系,中国是出口导向的国家吗?,聚类分析-案例,问题背景,奥巴马:全球经济必需平衡增长,对于出口导向的国家来说,必需要扩大内需,而扩大内需的关键工具就是加大汇率的弹性,包括采取市场导向的汇率王岐山通过商务部向贸大提问:中国是否仍是出口导向的国家吗?,出口导向程度的测度方法,出口依存度净出口贡献率投入产出分析,第一步:提出问题,可否按照各国的需求结构将各国分成不同类型?考虑2009年主要经济体,第二步:选择分析变量和数据,消费率投资率出口依存度进口依存度,第三步:选择分析方法,系统聚类平方欧氏距离最近距离非标准化数据,第一类:加拿大、南非、法国、意
2、大利、俄罗斯、德国、澳大利亚、印度、巴西、美国、日本、德国、韩国、中国第二类:新加坡、香港,第四步:结果分析,分成两类观察这两类消费结构的差异,第一类地区出口依存度平均为26%,第二类为198%第一类消费率平均为77%,第二类为62%,两类经济体出口依存度和进口依存度有显著差异,消费率差异略显著,投资率差异不显著,方法的选择是否会影响结果,回到第三步类间距结果与最近距离法一致:Ward方法、类平均法(组间)、重心法结果与最近距离法不一致:类平均法(组类)、最长距离法点间距略有影响是否标准化有明显的影响,结果汇总,选择一,将中国单独作为一类观察各类的差异,四个指标均通过显著性检验,结论,香港、新
3、加坡:外贸依存度高、消费率中、投资率中中国:外贸依存度中、消费率低、投资率高其他:外贸依存度低、消费率高、投资率低,选择二,将中国、澳大利亚、韩国、印度作为一类,四个指标均通过显著性检验,结论,外贸主导型经济:香港、新加坡投资主导型经济:中国、韩国、澳大利亚、印度消费主导型经济:巴西、加拿大、法国、德国、意大利、日本、俄罗斯、南非、德国、日本,存在的问题,没有考虑经济规模的影响没有考虑经济发展水平没有考虑出口结构,聚类分析的注意点,由于变量、方法、数据的原因,分类结果会有很多重选择因此,聚类分析最重要的是明确聚类的动机和目的在保证类间距离尽可能远、类中点距离尽可能近的前提下,达到分类目的,聚类
4、分析就是成功的,要不要向他推销割草机?,判别分析-案例,第一步:确定问题,一个城市的家庭,有的有割草机,有的没有割草机工厂欲判断一些家庭是否将购买割草机我们要帮助他们建立判别函数,帮助他们确定潜在的购买者,以制定推销方案,第二步:变量和数据,从两类家庭中分别随机抽取了12个样本调查指标有两个家庭收入房前物后土地面积,数据,第三步:方法,散点图方差分析判别分析,分客户类型的散点图,有割草机的家庭收入较高,房前屋后土地面积较大,方差分析,两组家庭收入、房前屋后土地面积存在显著差异,判别分析,判别分析的方法全模型逐步判别模型判别函数与判别准则CanonicalDiscriminant判别函数的个数=
5、因变量类别数-1Fishers linear discriminant functions判别函数的个数=解释变量个数,判别分析的第一类结果,识别前提条件是否满足解释变量是否有解释能力是否存在多重共线性各总体的协差阵是否相等,解释变量是否有解释能力,解释变量是否有解释能力,各变量描述统计:分组均值和方差各变量假设检验:组间差异是否显著Wilks Lambda:各变量对差异的解释能力,有割草机的家庭与无割草机的家庭相比家庭收入高出5千美元,差异显著房前屋后土地面积高1平方英尺,差异显著房前屋后土地面积解释能力略高,是否存在共线性,是否存在共线性,如果解释变量较多,方法选项就被激活可以对变量多重共
6、线性、变量的解释能力作更细致的分析,各总体的协差阵是否相等,各总体的协差阵是否相等,Boxs Mp-值小于0.05或0.1:不相等p-值大于等于0.05或0.1:相等相等:Classify中,use covariance matrix选择within-groups不相等:选择separate-groups,判别分析的第二类结果,识别各判别函数的重要性识别各判别函数中各解释变量的贡献得到判别函数和判别准则,识别判别函数的重要性,识别判别函数的重要性,Wilks LambdaChi-square检验Eigenvalue%of Variance:该判别函数对判别得分离差的解释比例,只有一个判别函数,
7、因此为100%Canonical Correlation:该判别函数与判别得分的典型相关系数,识别各判别函数中各解释变量的相对贡献,识别各判别函数中各解释变量的相对贡献,标准化典型判别函数结构矩阵,也称判别载荷,是各变量与判别函数的相关系数,用来判断各变量解释能力这里,家庭收入的贡献略大,典型判别函数,典型判别函数,非标准化的判别函数判别准则判别函数在各组的重心无割草机:-1.034有割草机:1.034临界分割点:0,分类函数(Fisher线性判别函数),分类函数(Fisher线性判别函数),分类函数无割草机有割草机判别准则计算出两个结果Fisher0,Fisher1Fisher0-Fishe
8、r10,则样本属于0否则,样本属于1判别结果与典型判别函数完全相同,判别分析的第三类判别结果,判别函数的错判率,判别分析的注意点,训练样本中必须有所有要判别的类型,分类必须清楚,不能混杂收集数据时,要选择好可能用于判别的变量,这是最重要的一步要注意数据是否有不寻常的点或者模式存在,还要检查解释变量是否有不适宜的判别分析是为了正确地分类,但同时也要注意使用尽可能少的解释变量,判别分析的注意点,计算中需要看关于各个类的有关变量的均值是否显著不同,以确定分类结果是否仅仅由于随机因素所致需要考虑各总体的权数有多个判别函数时,要弄清各自的重要性注意训练样本的正确和错误分类率,研究被误分类的观测值,看是否能找出原因,电信服务消费者行为分析,聚类与判别,数据,SPSS自带数据telco_extra.sav:1000个样本,46个变量telco.sav:1000个样本,42个变量,