《判别分析(SPSS应用).ppt》由会员分享,可在线阅读,更多相关《判别分析(SPSS应用).ppt(116页珍藏版)》请在三一办公上搜索。
1、zf,第四章 判别分析(Discriminate Analysis),zf,2,距离判别 贝叶斯(Bayes)判别 费歇尔(Fisher)判别 逐步判别,zf,3,4.1 判别分析的基本思想,一、什么是判别分析?判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别 判别分析的特点(基本思想)、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别
2、。判别分析的目的:识别一个个体所属类别,zf,4,判别分析的应用:无处不在医学:例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌?肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?),zf,5,经济学:例2:中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21
3、个正常运行企业(2类)进行了调查,得如下资料:,zf,6,zf,7,zf,8,zf,9,zf,10,例3:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。考察指标有6个:1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数,zf,11,分析结果:将20个国家分为两类 第1类(基础设施落后):巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚 第2类(基础设施发达):瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、
4、新加坡、英国、瑞士如果:我们想知道我国基础设施发展属于哪一类型?运用判别分析 依据:20个国家的分类信息构建判别函数,zf,12,例4:股票持有者根据股票近期的变化情况判断此种股票价格下一周是上升还是下跌?刑事学:例5:Smith先生被指控偷了邻居家的鸡。但Smith先生宣称他家冰箱里的鸡是野鸡。如何判定:Smith先生究竟是否偷了邻居的鸡呢?,zf,13,二、判别分析的基本要求:1、分组类型在两组以上;2、第一阶段每组样本(或案例)个数至少一个以上;3、解释变量必须是可测量的三、判别分析与聚类分析的比较:1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基
5、础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。,zf,14,3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变量。,zf,15,四、判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则,zf
6、,16,本章介绍的主要判别分析方法:距离判别 贝叶斯(Bayes)判别 费歇尔(Fisher)判别 逐步判别,zf,17,4.2 距离判别,基本思想:即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。(一)两个总体的距离判别法 1、方差相等 先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则,有:,zf,18,zf,19,zf,20,则前面的判别法则表示为,当 和已知时,
7、是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,zf,21,例6 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?,zf,22,zf,23,线性判别函数:,zf,24,2、当总体的协方差已知,且
8、不相等,zf,25,(二)多总体的距离判别法 1、协方差阵相等 设有个K总体,分别有均值向量(i=1,2,k)和协方差阵i=,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数):(与两个总体类似,书101102页),zf,26,则距离判别法的判别函数为:,判别规则为,注:这与前面所提出的距离判别是等价的.,zf,27,2、协方差阵不等 设有个K总体,分别有均值向量(i=1,2,k)和协方差阵不等,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数):(与两个总体类似,书102页),zf,28,距离判别法的优缺点:该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑
9、到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。,zf,29,4.3贝叶斯(Bayes)判别,贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2.k.比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则 设有k个总体且总体的概率密度为,样本x来自的先验概率为满足 利用贝叶斯理论,x属于的后验概率(即当样本x已知时,它属于的概率为:最大后验概率判别准则:,zf,30,例7:设有,和三个类,欲判别某样本属于哪一类已知现利用后验概率准则计算属于各组的后验概率:,zf,31,例8:办公室新来
10、了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,zf,32,Bayes公式:,zf,33,特别,总体服从正态分布的情形,则 判给。,zf,34,上式两边取对数并去掉与i无关的项,则等价的判别函数为:,问题转化为若,则判。,zf,35,则判别函数退化为:,令,问题转化为若,则判。,当协方差阵相等,zf,36,令,问题转化为若,则判。,当先验概率相等,,完全成为距离
11、判别法。判别准则1:后验概率最大 即判断x来自后验概率最大的总体,zf,37,例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 X8:家庭赡养的人口数 X9:信用程度,“5”的信用度最高,“1”的信用度最低。,zf,38,zf,39,zf,40,二、最小平均误判准则:错判损失最小概念作判别函
12、数【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,zf,41,【定理】若总体G1,G2,Gk的先验概率为且相应的密度函数为,样本来自而误判为的损失为,则划分的ayes解为:,其中,zf,42,最小错判损失准则的含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。,zf,43,例:设先验概率、误判损失及概率密度如下:,zf,44,试用贝叶斯
13、判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?1、考虑误判损失:误判到G1的平均损失为ECM10.55*0.46*0+0.15*1.5*400+0.30*0.70*100 误判到G2的平均损失为ECM20.55*0.46*20+0.15*1.5*0+0.30*0.70*50 误判到G3的平均损失为ECM30.55*0.46*80+0.15*1.5*200+0.30*0.70*0 其中ECM2最小,故将x0判别到G2。,zf,45,2、不考虑误判损失:将x0判别到G1的条件概率为:P(G1/x0)=(0.55*0.46)/(0.55*0.46+0.15*1.5+0
14、.30*0.70)=将x0判别到G2的条件概率为:P(G2/x0)=(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=将x0判别到G3的条件概率为:P(G3/x0)=(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=其中P(G1/x0)取值最大,故将x0判别到G1。,zf,46,4.4费歇尔(Fisher)判别,所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法 例:考虑只有两个(预测)变量的判别分析问题
15、。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。这种首先进行投影的判别方法就是Fisher判别法。,zf,47,zf,48,一、两个总体的费歇(Fisher)判别法 旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,X不能使总体单位尽
16、可能分开的方向,u能使总体单位尽可能分开的方向,zf,49,(一)基本思想设有A、B两个总体,分别有 个历史样本数据,每个样本有P个观测指标,每个样本可看作P维空间中的一点。Fisher借助于方差分析的思想构造一个线性判别函数:其中,判别系数 的选择应使得y值满足:(1)A类和B类的样本点群尽可能远离;(2)同一类的样本点尽可能集中。,zf,50,zf,51,zf,52,zf,53,(二)Fisher两类判别的计算步骤:1、输入历史数据,计算 和 2、计算3、解方程组,求出,建立判别函数4、对新样本作判别(1)将新样本p个观测值带入判别函数,求出y值(2)确定临界值 分别将两类总体样本的判别函
17、数之均值 求加权平均值 作为临界值。,zf,54,5、作出判别(1)(2),zf,55,(三)判别效果的检验:1、总体差异的显著性检验。2、各判别变量的重要性检验。,zf,56,二、多个总体的Fisher判别法(一)判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数,设有 个总体,分别有均值向量,,和协方差阵,分别各总体中得到样品:,zf,57,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,zf,58,组间离差平方和,zf,59,如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方
18、和小,而组间离差平方和大。则,而 所对应的特征向量即。,Fisher样品判别函数是,zf,60,然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。类推得到m(mk)个线性函数。,zf,61,关于需要几个判别函数得问题,需要累计判别效率达到85以上,即有设 为B相对于E得特征根,则,zf,62,以m个线性判别函数得到的函数值为新的变量,再进行距离判别。判别规则:则,设yi(X)为第i个线性判别函数,,zf,63,4.5 变量选择和逐步判别法,向后剔除 开始时,所有变量都在模型中。每一步,在Wilks的统计量
19、的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择 开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。,zf,64,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判
20、别能力不强了,则删除。向前选入 开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。,zf,65,例10:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,gro
21、up-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。,zf,66,zf,67,利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数(Canonical Discriminant Function Coefficients):这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的:,
22、zf,68,根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。,zf,69,zf,70,从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:,zf,71,投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是99%了,而第二个只有1%。当然,二维图要容易看一些。投影之
23、后,再根据各点的位置远近算出具体的判别公式(SPSS输出):,zf,72,该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分类,也不一定全都能够正确划分。,zf,73,zf,74,判别分析的SPSS操作步骤:,执行菜单命令,单击Analyze、Classify、Discriminant,zf,75,zf,76,指定分组变量及其取值
24、范围。将分组变量从源变量窗口通过选择箭头选到分组变量窗口“Grouping variable”。并从“Define Range”按钮定义分组变量的取值范围,给定最小值Minimum和最大值Maximum。指定判别函数中的自变量。将自变量从源变量窗口通过选择箭头选到自变量窗口。选择使用自变量的方法。对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enter independent together”。如果要对变量进行筛选检验,将使用选项逐步进入法“Use stepwise method”。使用该方法后,按钮“Method”将被激活,zf,77,zf,78,zf,79,
25、计算各类别及总体各变量均值、标准差,统计量、矩阵和函数系数的计算 按钮“Statistics”将打开统计计算窗口。,输出单变量方差分析结果,各类协方差矩阵相等的检验,计算判别函数系数,Fisher判别系数,非标准化判别系数,组内相关矩阵,合并组内协方差矩阵,组间协方差矩阵,总协方差矩阵,zf,80,zf,81,zf,82,分类方式和判别结果 单击按钮“Classify”将设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果,先验概率的设定,各类取相等先验概率,根据各类样本个数计算先验概率,输出分析结果,输出各样本的分类结果如判别得分、判别类等,交叉检验结果,将缺失值用均值替代,选择
26、分类使用的协方差阵,组内协方差阵,分组协方差阵,作图,生成一张包括各类的散点图,分类显示各个类的散点图,分界图,将坐标平面划分为不同的区域,每个区域将代表一个类,zf,83,zf,84,zf,85,在SPSS数据文件中生成新变量单击“SAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率,建立一个标明每个样本所属的类别的变量,生成一个判别得分变量,样本属于某类的概率,zf,86,zf,87,例11:研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取28个省、市、自治区的六个指标数据。先采用聚类分析,将28个省、市、自治区分为三组。北京、上海、广州3个城市属于待判样
27、本。(数据家庭收支.sav),zf,88,例12:为研究某地区人口死亡状况,已按某种方法将15个已知样本单位分为三组,选择判别变量为2个:55岁组死亡概率q55和80岁组死亡概率q80。建立判别函数,判定另外4个待判样本属于何组。数据见死亡率1.sav,zf,89,例13:为研究某地区人口死亡状况,已按某种方法将15个已知样本点分为三组,选择判别变量为6个:0岁组死亡概率q0,1岁组死亡概率q1,10岁组死亡概率q10,55岁组死亡概率 q55,80岁死亡概率q80,平均预期寿命e0。建立判别函数以便在人寿保险中应用。试用逐步判别法建立判别函数,判定另外4个待判样本点属于何组。数据见死亡率2.
28、sav,zf,90,例14:鸢尾花数据(花瓣,花萼的长宽)5个变量:花瓣长(slen),花瓣宽(swid),花萼长(plen),花萼宽(pwid),分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04),zf,91,StatisticsClassify Discriminant:Variables:independent(slen,swid,plen,pwid)Grouping(spno)Define range(min-1,max-3)Classify:prior probability(All group equal)use covariance
29、 matrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorial map)Display(Summary table)Statistics:Descriptive(Means)Function Coefficients(Fishers,Unstandardized)Matrix(Within-groups correlation,Within-groups covariance,Separate-groups covariance,Total covariance)Save:(Predicted group memb
30、ership,Discriminant Scores,Probability of group membership),zf,92,鸢尾花数据(数据分析过程简明表),zf,93,鸢尾花数据(原始数据的描述),zf,94,鸢尾花数据(合并类内相关阵和协方差阵),zf,95,鸢尾花数据(总协方差阵),zf,96,鸢尾花数据(特征值表),Eigenvalue:用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值.最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量典则相关系数(canonical correlation):是组间平方和与总平方和之比的平方根.被平方的是
31、由组间差异解释的变异总和的比.,zf,97,鸢尾花数据(Wilks Lambda统计量),检验的零假设是各组变量均值相等.Lambda接近0表示组均值不同,接近1表示组均值没有不同.Chi-square是lambda的卡方转换,用于确定其显著性.,zf,98,鸢尾花数据(有关判别函数的输出),标准化的典型判别函数系数(使用时必须用标准化的自变量),zf,99,典型判别函数系数,zf,100,类均值(重心)处的典则判别函数值,zf,101,鸢尾花数据(用判别函数对观测量分类结果),先验概率,费歇判别函数系数把自变量代入三个式子,哪个大归谁.,zf,102,Territory Map(区域图),C
32、anonical Discriminate Function 1 Versus Canonical Discriminate Function 2三种鸢尾花的典型变量值把一个典型变量组成的坐标平面分成三个区域.*为中心坐标.,Territorial MapCanonical DiscriminantFunction 2-12.0-8.0-4.0.0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23
33、 4.0 12 23 12 23 12 23 12 23 12 23 12 23*.0*12 23 12*23 12 23 12 23 12 23 12 23-4.0 12 23 12 23 12 23 12 23 12 23 12 23-8.0 12 23 12 23 12 23 12 23 12 23 12 23-12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌-12.0-8.0-4.0.0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol
34、 Group Label-1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花*Indicates a group centroid,zf,103,zf,104,zf,105,zf,106,zf,107,鸢尾花数据(预测分类结果小结),可以看出错判率,zf,108,小结:,1、什么是判别分析?2、判别分析有哪些判别分析方法?每种方法的判别准则是什么?3、试用各种判别方法对待判样本进行判类。(1)1990联合国开发计划署公布的人类发展报告,用出生时的预期寿命(x1)、成人识字率(x2)、实际的人均GDP(x3)等三个变量衡量人类发展状况,现从高发展水平国家和中等发展水平国家中各选了5个样本,另选中国、希腊作为待判样本。要求:A、作距离判别分析(假定两总体协方差阵相等)B、作Fisher判别分析,zf,109,zf,110,距离判别:(a)计算两类样本均值:(b)计算样本协方差和总体协方差,zf,111,zf,112,(c)求线性判别函数,zf,113,(d)回判(略)(e)待判样本规类:中国:判别到第二类。希腊:判别到第一类。,zf,114,Fisher判别:(a)建立判别函数(b)计算临界值y0,zf,115,(c)判别将中国判别到第二类。将希腊判别到第一类。,zf,116,(2)运用Bayes判别分析法对待判样本规类,如例,