判别分析SPSS操作ppt课件.ppt

资源描述

《判别分析SPSS操作ppt课件.ppt》由会员分享，可在线阅读，更多相关《判别分析SPSS操作ppt课件.ppt（51页珍藏版）》请在三一办公上搜索。

1、判别分析的SPSS操作,1.基本原理2.基本操作3.选项设置4.实例分析,1.基本原理,判别分析的目的是得到体现分类的函数关系式，即判别函数。基本思想是在已知观测对象的分类和特征变量值的前提下，从中筛选出能提供较多信息的变量，并建立判别函数；目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。判别函数的一般形式是：,其中，,为判别函数判别值；,为反映研究对象,特征的变量；,为各变量的系数，即判别系数。,常用的判别法有距离判别法、Fisher判别法和Bayes判别法。,例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份人类发展报告中公布的。该报告建议，目前对人文发展的

2、衡量应当以人生的三大要素为重点，衡量人生三大要素的指示分别采用出生时的预期寿命、成人识字率和实际人均GDP，将以上三个指示指标的数值合成为一个复合指数，即为人文发展指数。资料来源UNDP人类发展报告1995年。,今从1995年世界各国人文发展指数的排序中，选取高发展水平、中等发展水平的国家各五个作为两组样品，另选四个国家作为待判样品作判别分析。,使用三种判别方法进行判别，并进行研究三者之间的关系。,本例中变量个数p3，两类总体各有5个样品，即n1n25，有4个待判样品，假定两总体协差阵相等。,两组线性判别的计算过程如下：,(1)计算两类样本均值,(2)计算样本协差阵，从而求出,类似地,经计算,

3、(3)求线性判别函数W(X),解线性方程组,得,(4)对已知类别的样品判别分类,对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类，结果如下表，全部判对。,(5)对判别效果作检验,判别分析是假设两组样品取自不同总体，如果两个总体的均值向量在统计上差异不显著，作判别分析意义就不大：所谓判别效果的检验就是检验两个正态总体的均值向量是否相等，取检验的统计量为：,其中,将上边计算结果代人统计量后可得：,函数有效。,故在,检验水平下，两总体间差异显著，即判别,(6)对待判样品判别归类结果如下表：,2、继续用前面距离判别法例1的人文发展指数的数据作Bayes判别分析。,这里组数k2，指标数p3

4、，n1n25,代人判别函数：,得两组的判别函数分别为：,将原各组样品进行回判结果如下一灯片表：,待判样品判别结果如下：,3、利用距离判别法中例l的人文发展指数的数据作Fisher判别分析：,(1)建立判别函数,利用前例计算的结果，可得Fisher判别函数的系数,所以判别函数为,(2)计算判别临界值y0。,由于,所以,(3)判别准则,(4)对已知类别的样品判别归类,上述回判结果表明：总的回代判对率为100，这与统计资料的结果相符，而且与前面用距离判别法的结果也一致。,(5)对判别效果作检验,由于,所以在,检验水平下判别有效。,(6)待判样品判别结果如下：,判别结果与实际情况吻合。,2.基本操作,

5、SPSS利用“Discriminate”过程进行判别分析操作，下面给出基本操作步骤。,Step1：打开主对话框。,选择“Analyze”“Classify”“Discriminate”命令，打开“Discriminate Analysis”对话框，如图1.1所示,图1.1“Discriminate Analysis”对话框，,Step2：选择分组变量和自变量,在变量列表中选择指定分组变量，单击右向箭头按钮，将其移动至右侧的“Grouping Variable”（分组）文本框中，并单击“Define Range”（定义范围）按钮，出现图1.2所示的“Discriminant Analysis：D

6、efine Range”（判别分析定义范围）对话框，在“Minimum”文本框中输入该分组变量的最小值，在“Maximum”文本框中输入该分组变量的最大值，单击“Continue”按钮，返回主对话框。,图1.2“Discriminate Analysis：Define Range”对话框,在变量列表中选择判别分析的变量，单击右向箭头按钮，将其移动至“Independents”（自变量）列表框中。,Step3：选择判别分析方法。,在主对话框中，自变量列表框下侧显示两个单选框，用于指定选择判别分析的方法。,Enter independents together 默认选项。当认为所有自变量都能对观测

7、特性提供丰富的信息时，使用该选项，选择该项将不加uanz地使用所有自变量进行判别分析，建立全模型，且不需要进一步选择。,Use stepwise method 逐步分析方法。当认为不是所有自变量都能对观测量特性提供丰的信息时，选择该项，因此需要判别贡献的大小再进行选择。选中该单选按钮时，“Method”按钮被激活，可以进一步选择判别分析方法。,Step4：选择变量值标识。,如果需要使用一部分个案参与判别函数的推导，而且有一个变量的某个值可以作为这些观测量的标识，则用Select Variable功能进行选择。方法为在变量列表中选择变量，单击右向箭头按钮，将其移动至“Selection”（选择变

8、量）文本框；然后单击“Selection”文本框右侧的“Value”按钮，显示“Discriminant Analysis：Set Value”（判别分析：设定值）子对话框，如图1.3所示，输入选择变量的标识。单击“Continue”按钮，返回主对话框。,图1.3“Discriminant Analysis：Set Value”,Step5：执行操作。,选择完毕后，单击“OK”按钮，执行判别分析操作。,3.选项设置,3.1 Method选项,选择“Use stepwise method”方法进行判别分析时，“Method”（方法）按钮将被激活，单击“Method”按钮，打开“Discrimin

9、ant Analysis：Stepwise Method”（判别分析：逐步分析方法）对话框，如图1.4所示,在“Method”选项组中选择进行逐步判别分析的方法，可供选择的判别分析方法有5种：,1.Wilkslambda Wilkslambda方法。默认选项，每步都是Wilk的概计量最小的进入判别函数。,2.Unexplained variance 不可解释方差方法。选择该项，表示每步都是使各类不可解释的方差和最小变量进入判别函数。,3.Mahalanobisdistance Mahalanobis距离方法。选择该项，表示每步都使靠的最近的两类间Mahalanobis距离最大的变量进入判别函数

10、。,4.Smallest F ratio最小F值方法。选择该项，表示每步都使任何两类间的最小的F值最大变量进入判别函数。,5.Raos V Rao V统计量。选择该项，表示每步都使Rao V统计量产生最大增量的变量进入判别函数，可以对一个要加入到模型中的变量的V值指定一个最小增量。选择该方法时需要在该项下面的“V-to-enter”（输入V值）文本框中输入这个增量的指定值，当某变量导致的V值增量大于指定值的变量进入判别函数。,“Criteria”(准则)选项组用于选择逐步判别停止的判据，可供选择的判据包括以下几项：,Use F value 默认选项。使用F值是系统默认的判据，当加入一个变量（或

11、剔除一个变量）后，对判别分析的变量进行方差分析。当计算的F值大于指定的Entry值时，该变量保存在函数中，默认Entry值是3.84；当该变量使计算的F值小于指定的Removal值时，该变量从函数中剔除，默认Removal值是2.71。即当被加入的变量F值为3.84时，才把该变量加入到模型中，否则变量不能进入模型；或者当要从模型中移出的变量F值为2.71时，该变量才被移出模型，否则模型中的变量不会被移出。设置这两个值时应该注意Entry值和Removal值。,Use probability of F 选择该项，表示用F检验的概率决定变量是否被加入函数或被剔除，而不是用F值加入变量的，F值概率的

12、默认值是0.05，移出变量的F值概率是0.10。Removal值是移出变量的F值概率；Entry值是加入变量的F值概率。,“Display”（显示）选项组的选项用于显示逐步变量判别法的过程设置。有以下两个复选项：Summary of step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。F for pairwise distances要求显示两两类之间的两两F值矩阵。,3.2 Statistics选项,在主对话框中单击“statistics”按钮，打开“Discriminant Anlysis：statistics”（判别分析：统计量）对话框，如图1.5所示。,图1.5“Discr

13、iminant Anlysis：statistics”对话框,该对话框中给出了输出结果中显示的统计量，包括如下选项。在“descriptive”（描述性）选项组中选择对原始数据的描述统计量的输出。Means 均值。选择该项，可以输出各类中各自变量的均值、标准差以及各自变量总样本的均值和标准差。Univariate ANOVA 单变量方差分析。选择该项，表示对每一类同一自变量均值都相等的假设进行检验，输出单变量的方差分析结果。Boxs M 选择该项，表示对各类的协方差矩阵相等的假设进行检验。,“Function Coefficients”（判别分析的系数）选项组中给出选择判别函数系数的输出形式的

14、选项，有两个复选项：Fishers 选择该项，表示可以用于对新样本进行判别分类的fisher系数，对每一类给出一组系数，并给出该组中判别分数最大的观测量。Unstandardized 选择该项，表示未经标准化处理的判别系数。在“matrices”（矩阵）选项组中选择自变量的系数矩阵，有4个复选项：Within-group correlation类内相关矩阵。它计算相关矩阵之前将各组协方差矩阵平均后，计算类内相关矩阵。Within-group covariance合并类内协方差矩阵，是将各组（类）协方差矩阵平均后计算的，区别与总协方差矩阵。Separate-groups covariance协方

15、差矩阵。Total covariance总样本的协方差矩阵。,3.3 Classification选项,在主对话框中单击“classify”按钮，显示“Discriminant Analysis：Classification”（判别分析：分类）子对话框，如图1.6所示。,图1.6“Discriminant Analysis：Classification”对话框,该对话框用于指定分类参数和判别结果。分别介绍各个选项组的选项。在“prior probabilities”选项组中选择先验概率，有两个单选项供选择：All groups equal 表示各类先验概率相等。Compute from gro

16、ups sizes 表示由各类的样本量计算决定，即各类的先验概率与其样本量成正比。在“use covariance matrix”（利用协方差矩阵）选项组中选择分类使用的协方差矩阵，有两个单选项：Within-groups选择该项，表示指定使用合并组内协方差矩阵进行分类。Separate-groups选择该项，表示指定使用各组协方差矩阵进行分类，由于分类是根据判别函数而不是根据原始变量，因此该选择项不是总等价于二次判别。,在“plots”选项组中选择要求输入的统计图形，给出3个复选项：Combined-groups选择该项，生成一张包括各类的散点图，该散点图是根据前两个判别函数值做的散点图；如

17、果只有一个判别函数，就输出直方图。Separate-groups选择该项，根据前两个判别函数值对每一类生成一张散点图，共分为几类就生成几张散点图；如果只有一个判别函数就生成一张直方图。Territorial map选择该项，生成用于根据函数值把观测量分到各组中去的边界图，此种统计图把一张图的平面划分出与类数相同的区域，每一类占据一个区，各类的均值在各区中用*号标出；如果仅有一个判别函数则不作此图。,在“display”选项组中选择生成到输出窗中的分类结果，其中包括3个复选框：Casewise results 要求输出每个管测量，包括判别分数实际类预测类（根据判别函数求得的分类结果）和后验概率等

18、，选择此项还可以选择其附属选择项，选择“Limit cases to”（个案限制）选项，并在后面的文本框中输入观测量数n，选择此项则仅对前n个观测量输出分类结果，观测数量大时可以选择此项。Summary table 要求输出分类的综述表，给出正确分类观测数（原始类和根据判别函数计算的预测类相同）和错分观测量数即错分率。Leave-one-out classification 输出对每个观测量进行分类的结果，所依据的判别时由除该观测量以外的其他观测量导出的，也称为交互校验结果。该对话框给出选择缺失值的处理方法，即“Replace missing values with mean”，表示用该变量的

19、均值代替缺失值。,3.4 Save选项,在主对话框单击“save”按钮，打开“Discriminant Analysis：Save”（判别分析：保存）对话框，如图1.7所示。,该对话框用于指定生成并保存在数据文件中的新变量，其中包括如下选项：,图1.7“Discriminant Analysis：Save”对话框,Predicted groups membership 选择该项，要求建立一个新变量预测观测量的分类，是根据判别分数把观测量按后验概率最大指派所属的类，每运行一次“Discriminant”过程就建立一个，表民使用判别函数预测各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为

20、dis_1，如果在工作数据文件中不把前一次建立的新变量删除，第n次运行建立的新变量名为dis_n。Discriminant scores 选择该项，要求建立表明判别分数的新变量，该分数是由未标准化的判别系数乘自变量的值，将这些乘积求和后加上常数得来的。每次运行“Discriminant”过程就给出一组表明判别分数的新变量，建立几个判别函数就有几个判别分数变量参与分析的观测量，共分为m类，则建立m个点则判别函数指定该选择项就可以生成m-1个表明判别分数的新变量。Probabilities of groups membership 选择该项，要求建立新变量表明观测量属于某一类的概率。如果有m类，对

21、一个观测量就会给出m个概率值，因此建立m个新变量。,4.实例分析,例1、为研究舒张期血压和血浆胆固醇对冠心病的作用，某医师测定了5059岁冠心病人15例和正常人16例的舒张压和胆固醇指标，结果如下表所示。试做判别分析，建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人（数据文件：discriminant.sav）,操作步骤：,Step1：读取数据文件discriminant.sav。其中，变量名“舒张压”、“胆固醇”代表两项指标值。病人资料和正常人资料合并一同输入，定义变量名为“组别”的变量用于区分冠心病人资料和正常人资料，即冠心病人资料的“组别”值均为1，正常人资料的“组别”值均为2.

22、Step2:选择“Analysis”“Classify”“Discriminant”命令，在“Discriminant Analysis”对话框中，选择“组别”变量进入“Grouping Variable”文本框；单击“Define Range”按钮，在“Minimum”文本框中输入1，在“Maximum”文本框中输入2，单击“Continue”按钮，返回主对话框。Step3：选择变量“舒张压”和“胆固醇”移动到“Independents”列表框中，本例选择“Enterindependents together”判别方式作为判别分析的方法。,Step4：单击“Statistics”按钮，在“D

23、escriptive”选项中选择“Mean”；在“Function Coefficients”选择“Unstandardized”。单击“Continue”按钮，返回主对话框。Step5：单击“Classify”按钮，在“Plot”选项组中选择“Combined-groups”选项，在“Display”选项组中选择“Casewise result”和“Summmary table”选项；单击“Continue”按钮，返回主对话框。Step6：单击“Save”按钮，在弹出的对话框中选择“Predicted group membership”选项，单击“Continue”按钮，返回主对话框。Ste

24、p7：单击“OK”按钮，执行判别分析操作。,判别分析的结果,1、分析个案综合统计量表1.2和表1.3所示为系统处理的数据简明表明中的数据，按变量“组别”分组共有31个样本为判别基础数据进入分析，其中第一组十五例，第二组十六例。,Analysis Case Processing Summary,表1.2 分析个案综合统计量,2、分组统计量表1.3所示为分组统计量列表。表中给出分组变量和合计的均数（means）、标准差（standard deviation）和有效个案的例数。,Group Statistics,表1.3 分组统计量,3、典型判别函数的特征函数的特征值表表1.4所示是典型判别函数

25、的特征值表，其特征（Eigenvalue）为组间平方和与组内平方和之比，计算得0.713，典型相关系数（Canonical Corr）为0.645。,Eigenvalues,a First 1 canonical discriminate functions were used in the analysis.,表1.4 典型判别函数的特征值表,4、Wilks检验结果表1.5所示为典型判别分析的Wilks检验结果。其中Wilks值为0.584，卡方检验统计量的观测值为15.071，概率P值为0.001，小于0.05。,Wilks Lambda,表1.5 Wilks 检验,5、标准化典型判别函

26、数系数表1.6给出典型判别函数的系数，其标准化函数为：根据判别函数方程的标准化系数，确定各变量对结果的作用大小，本例舒张压的标准化系数为0.873，大于胆固醇的标准化系数0.669，因而舒张压对冠心病的影响作用大于胆固醇。,Standardized Canonical Discriminant Function Coefficients,表1.6 标准化典型判别函数系数,6、典型判别函数系数表所示为典型判别函数的系数，其典型函数为：,Canonical Discriminant Function Coefficients,Unstandardized coefficients,表1.7典型判

27、别函数系数,7、分类过程摘要表1.8分类过程摘要，显示参与分类的个案例数和剔除例数,Classification Processing Summary,表1.8分类过程摘要,8、个案统计量表表1.9所示为原始数据逐一回代的判别结果和预测分类的结果显示，其中病人组有3人被错判（标注*者，编号为1，6，7）正常人组有3人被错判（标注*者，16，17，18）,9、分类结果表1.10给出分类结果。最后系统对回代判别情况做出评价，即病人组正确率为75.0%。正常人组为86.7%，总判别正确率为80.65%，说明该判别函数的正确率还是较高的。,Classification Results(a),a

28、80.6%of original grouped cases correctly classified.,表1.10 分类结果,例2、某气象站预报某地区有无春旱的观测资料中，与是与气象有关的综合预报因子，数据包括发生春旱的6个年份的和的观测值和无春旱的8个年份的相应观测值（见下表），试建立距离判别函数并估计误判率。,某地区有无春旱观测数据,例3、1991年全国大陆个省市、自治区城镇居民月平均收入情况见表，考察下列指标：（元/人）X1：人均生活费收入；X2：人均全民所有制职工工资；X3：人均来源于全民标准工资；X4：人均集体所有制工资；X5：人均集体职工标准工资 X6：人均各种奖金及超额工资；X7：人均各种紧贴；X8：职工人均从工作单位得到的其他收入；X9：个体劳动者收入,试判定广东和西藏属于哪种收入类型，并确定回代误判概率与交叉误判概率。,

展开阅读全文