《判别分析的SPSS实现课件.ppt》由会员分享,可在线阅读,更多相关《判别分析的SPSS实现课件.ppt(88页珍藏版)》请在三一办公上搜索。
1、判别分析的SPSS实现,SPSS提供的建立判别函数的方法有:1.全模型法:把所有的变量放入判别函数中2.逐步判别法判别分析的步骤对于分为m类的研究对象,建立m个线性判别函数,对测试的样本代入判别函数,得出判别得分,从而确定该样本属于哪一类。,Discriminant,Discriminant对话框,Grouping Variable:已知的观测量所属类别的变量(分类变量)Independents:观测量,即参与判别分析的变量。Use Stepwise method :当不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此根据对判别贡献的大小进行选择。Enter independ
2、ent together :当所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。不需要进一步进行选择。,选择分类变量及其范围,在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量,按上面一个箭头按钮,使该变量名移到箭头按钮右面,“Grouping Variable”下面的矩形框此时矩形框下面的“Define range”按钮加亮,按该按钮,屏幕显示一个小对话框,供指定该分类变量的数值范围。定义分类变量范围的小对话框如下图 所示。 在Minimum:后面的矩形框中输入该分类变量的最小值;在Muximurn
3、:后面的矩形框中输入该分类变量的最大值。,分类变量范围对话框,2,指定判别分析的自变量 在主对话框的左面的变量表中选择表明观测量特征的变量,按下面一个箭头按钮,把选中的变量移到“Independents:”下面的矩形框中,作为参与判别分析的变量。,Indepents对话框,数据变量输入框,数据判别分析 完成前面四步骤的操作即可使用各种系统默认值对工作数据集的数据进行判别分析了。可以使用的方法有两种: (1)直接运行:在主对话框中按(用鼠标单击)Ok按钮 (2)生成SPSS命令程序后再运行:在主对话框中按Paste按钮,激活Syntax窗,在该窗中按Run按钮执行该语句窗中的程序。 无论哪种方法
4、均可在output窗中显示出分析结果。 完全使用系统默认值进行判别分析,其结果有时不能令人满意,因此根据以下步骤指定选择项是很有必要的。,选择观测量 如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。一般均使用数据文件中的所有合法观测量。此步骤可以省略。,Select功能选择,选择分析方法 在主对话框中自变量矩形框下面有两个选择项,被选中的方法前面的圆圈中加
5、有黑点。这两个选择项是选择判别分析方法的。(1)Enter independent together 当你认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。不需要进一步进行选择。,(2)Use Stepwise method 当你不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此根据对判别贡献的大小进行选择。当鼠标单击该项时,Method按钮加亮。可以进一步判别分析方法。 单击“Method”按钮,展开“Stepwise method”对话框(子对话框)如下图所示。,Stepwise method对话框,
6、选择进行逐步判别分析的方法 选择判别分析方法在Method组的矩形框中进行。可供选择的判别分析方法有: Wilkslambda 使Wilk的统计量最小化法。Unexplained variance 使各类不可解释的方差和最小化法。Mahalanobisdistance 使最近两类间的 Mahalanobis距离最大化法。,Smallest F ratio。使任何两类间的最小的F值最大化法。 Rao V 使 RaoV统计量最大化。可以对一个要加入到模型中的变量的V值指定一个最小增量。选择此种方法后,应该在该项下面的V to dntce后的矩形框中输这个增量的指定值。,选择逐步判别停止的判据 选择
7、逐步判别停止的判据在criteria组的矩形框中进行。可供选择的判据有: Use F value:使用F值,是系统默认的判据,默认值是:Entry:3.84;removal:2.71。即当被加入的变量F值=3.84时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量F值=2.71时,该变量才被移出模型,否则模型中的变量不会被移出。应该使Entry值(加入变量的F值)removal值(移出变量的F值),Use probability of F:使用F值的概率。加入变量的F值概率的默认值是0.05(5);移出变量的q值概率是0.10(10)。removal值(移出变量的正值
8、概率)Entry值(加入变量的F值概率)。,显示内容的选择 对于逐步选择变量的过程和最后结果的显示可以通过Method对话框最下面的Display矩形框中的三项进行选择: Resul at each step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。 Summary仅要求显示加入或移出模型的变量的综计量。即选择变量的小结。 F for Pairwise distances要求显示两两类之间的两两 F值矩阵。 当以上三项都给予了确定的选择后,单击continue按钮,返回主对话框。,指定输出的统计量单击“statistics”按钮,展开相应的子对话框,如下图所示。可以选择的输出统
9、计量分为以下三类:(1)描述统计量 在Descriptives组的矩形框中可以选择对原始数据的描述统计量的输出: Means选择此项可以输出各类中各自变量的均值MEAN、标准差Std Dev和各自变量总样本的均值和标准差。 Univariate ANOVA对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。 Boxs M对每类的协方差矩阵是从同一总体中采样得来的假设进行检验,输出检验结果。,Statistics,(2)判别函数系数 在Fuction coefficients组的矩形框中选择判别函数系数的输出形式: Fishers可以直接用于对新样本进行判别分类的费雪系数。 U
10、nstandardized未经标准化处理的判别系数。可用于计算判别分数。,(3)自变量的系数矩阵 在Matrices组的矩形框中选择要求给出的矩阵: within-groups correlation matrix类内相关矩阵 within-groups covariance matrix类内协方差矩阵 Separate-groups covariance matrices对每类输出一个类间协方差矩阵 Total covariance matrix总样本的协方差矩阵 以上三项都给予了确定的选择后,单击continue按钮,返回主对话框。,指定分类参数和判别结果 在主对话框中单击“classif
11、y”按钮,展开相应的子对话框,如下图所示。 (1)在Prior Probabilities组的矩形框中选择先验概率,两者选其一。 All groups equal各类先验概率相等。若分为m类,则各类先验概率均为1m。 computer from group sizes由各类的样本量计算决定在各类的先验概率与其样本比。,Classifiction对话框,(2)选择分类使用的协方差矩阵 在Use covariance Matrix组的矩形框中选择分析使用的协方差矩阵。两者选其一。 Within-groups指定使用组内协方差矩阵。 Seperate-groups指定使用组间协方差矩阵。,(3)选择
12、要求输出的统计图 在Plots组的矩形框中选择,可以并列选择。 combined-groups 所有类放在一张散点图中。便于比较。此选择项生成一张散点图。 Seperate-groups对每一类生成一张散点图。共分为几类就生成几张散点图。 Territoreal map 如果对一个观测量只能计算出一个判别分数,则利用观测量的判别做作图,如果有两个以上判别分数,则用头两个判别分数作图。此种统计图力图把一张图的平面划分出与类数相同的区域。每一类占据一个区。,(4)选择生成到输出窗中的分类结果 在 Displsy组的矩形框中选择输出项: Results for each case要求输出每个观测量的
13、分类结果。 Summary table要求输出分类的小结,给出错分率。,(5)缺失值处理方式 在classification子对话框的最下面有一个选择项,用以选择对缺失值的处理方法。 Replace missing value with mean用该变量的均值代替缺失值。该选择项前面的小矩形框中出现x时表示选定所示的处理方法。 以上五项都给予了确定的选择后,单击continue按钮,返回主对话框。,指定生成并保存在数据文件中的新变量 Descriminant过程可以在数据文件中建立新变量,通过Save New Vaiables子对话框进行选择。 在主对话框中单击“Save”按钮,展开“Save
14、 New Vaiables”子对话框。如下图所示。,Save对话框,在工作数据文件中建立以下三个新变量,可以选择。 Predicted group membership要求建立一个新变量,表明预测的类成员。指定此项后,每行一次Descriminant过程,就建立一个表明使用判别函数预测的各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为dis-1,如果在工作数据文件中不把前一次建立的新变删除,第n次运行Descriminant过程建立的新变量默认的变量名为dis-n。,Descriminant score要求建立表明判别分数的新变量。每次运行 Descriminant过程都给出组表明判
15、别分数的新变量。建立几个典则判别函数就有几个判别分数变量。参与分析的观测量共分为m类,则建立ml个典则判别函数,指定该选择项,就可以生成ml个表明判别数的新变量。例如,原始数据观测量共分为3类,建立两个典则判别函数。第一次运行判别过程建立的新变量名为dis1_1,dis2_1,第二次运行判别过程建立的新变量名为dis1_2,dis2_2依此类推。分别表示代入第一和第二个判别函数所得到的判别分数。,Probabilities of group membership要求建立新变量表明观测量属于某一类的概率。有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。例如,原始和预测分类数是:指定该
16、选择项,在第一次运行判别过程后,给出的表明分类概率的新变量名为dis1_2,dis2_2,dis3_2. 选择了新变量类型后,按continue,运行带有选择项的判别分析过程 运行Descriminant过程有两种方法: (1)在主对话框中按Ok按钮,直接运行Descriminant过程。 (2)在主对话框中按Paste按钮,将以上操作结果转换成Descriminant过程的命令程序,显示在Syntax窗中。 在Syntax窗中可以按照Descriminant命令语句格式进一步修改粘贴则窗中的各子命令语句。然后按Run按钮,将窗中的程序语句提交给系统执行。,逐步判别分析 (1)逐步判别分析方法
17、与判据的选择 逐步判别在操作步骤方面只有在选择方法一点上与前面所叙述的方法有所区别,即在Discriminant过程主对话框中应该选择Use stepwise method。当单击该选择项时,其前面的圆圈中出现黑点,同时Method按钮加亮表示可以进一步选择分析方法或判据了。,单击Method按钮,展开stepwise method对话框。在对话框中显示出系统默认的逐步区别方法是Milks Lambra。其判据是:进入模型的F值为3.84;从模型中剔除变量的F值为2.71。不熟悉统计分析的用户可以不再进一步选择,直接使用系统默认的分析方法和判据.,逐步判别方法的选择Milks Lambra使M
18、ilks统计量最小。是系统默认的方法。Unexplained variance使各类不可解释的方差和最小。Mahalanobis distance使最近的两组间的马哈拉诺比斯距离最小。smallest F ratio。使任何两组间的最小的 F值最大。 Raos V使 Rao的 V统计量最大。在选择并指定使用此种方法后,该项下面的文字加亮,可以在V to enter毫米的矩形框中输入一个变量进入模型的 V值的最小增量。,关于判据的选择方法 可以从两者指定判据的方法中选择一种,并在每种方法的两个矩形框中输入判据的具体数值。 Use F value用F值作判据。在该项下面的两个矩形框中输人: Ent
19、ry:后面的矩形框中输入进入模型的F值。只有变量的F值大于这个指定值时,变量进入模型。 Remove:在后面的矩形框中输入把变量移出模型的F值。当变量的F值小于该值时,变量从模型中剔除。 应该注意,Entry值必须大于Remove值,否则,模型中将不会有变量。,显示内容的选择 在Stepwise Method对话框的最下面一行可以选择要求显示在输出窗中的内容。对于逐测分析可以选择以下输出: Results at each step给出每一步选择变量工作完成后各变量的统计量。给出哪些统计量要看使用什么判据。使用F值作判据则给出各变量的F值;使用F值的概率作判据则给出量的F值的概率。 Summer
20、y仅对被加入或移出模型的变量给出统计量。 F for pairwise distances显示 F比值矩阵。对每两类显示一对F比值。,(2)逐步判别分析操作步骤 我们采用Milks Lambra方法进行逐步判别分析。使用F值作为判据统计量。当F=30时变量进入模型;当F=5时,变量从模型中移出。,操作步骤如下: 第一、从主菜单的Statistics,经classify到Discriminant Analysis逐一选择各菜单的菜单直到展开Discriminant Analysis对话框。 第二、Independents:slen、swidPlen、Pwid;Group variables:sp
21、no(1,3)选择变量slen、swidPlen、Pwid作为判别分析的自变量;spno作为分类变量。,第三、按Method按钮,展开相应的选择逐步判别分析方法和判据的对话框。 在Method(方法)矩形框中选择Milks Lambra; 在 criteria(判据)矩形框中选择Use F value, Entry=30、Remove=5; 在Display(显示)矩形框中选择在输出窗中显示的内容: Results at each step 要求显示每一步选择变量的结果。 Summary要求显示逐步选择变量子集的小结。 F for pairwise distance 要求显示每两类之间的成对的
22、F矩阵。,第四、按Statistics按钮展开选择统计量的对话框。 在Descriptives矩形框中选择Mean 在Function coefficients矩形框中选择 Fishers要求给出线性判别函数系数 Unstandardized要求给出未加权的典则判别函数(典则变量)的系数。,第五、按classify按钮展开classification对话框。 在 Prior Probabilities矩形框中选择All groups equal各组先验概率相等。 在 Use covariance Matrix矩形框中选择Withingroups使用组内协方差矩阵。 在 Display矩形框中选
23、择“Summary table”要求显示聚类回代结果的小结表。,第六、按save按钮,展开保存新变量的对话框。选择: Predicted group membership其值为预测分类结果的新变量。 Discriminant scores其值为判别分数的新变量。 Probabilities of group membership变量值为各观测量分派到各类中的概率。 以上(3)(6)各对话框中的选择完成后,均按continue按钮返回主对话框。 第七、在主对话框中按Paste按钮在为Symtax窗中得到命令语句组成的程序。 第八、在语句窗中按一Run按钮,在输出窗中得到要求的输出结果。,判别分析
24、的正确应用,理论上,类间分得越开,判别效果越好,类间距离越近,判别效果就越差。不同的判别方法间是个参照,大多情况下,效果近似。关键是指标是否具有判别价值。,Thank you very much!,谢谢!,秋,SPSS实现因子分析,FACTOR过程的选择项FACTOR过程的选择项共分为五类,分别使用主对话框中的五个子对话框按钮展开相应的子对话框进行选择。Descriptives 展开相应的子对话框可以选择单变量的描述统计量和初始分析结果。Extraction 展开相应的子对话框可以选择不同的提取公因子的方法和控制提取结果的判据。Rotation 展开相应的子对话框可以选择因子旋转方法。Scor
25、es 展开相应的子对话框可以要求计算因子得分,选择显示或作为新变量保存。Options 展开相应的子对话框可以进一步选择各种输出项。,1、Descriptives子对话框中的选择项Descriptives子对话框如图3-2所示。描述统计量分的选择项为两组:,(1)Statistics统计量组,共有两项供选择: Univariate Descriptives 单变量描述统计量,选择此项可以输出参与分析的各原始变量的均值、标准差等。 Initial solution初始分析结果,选择此项可以给出原始变量的公因子方差、与变量数相等的因子、各因子的特征值、各因子特征值占总方差的百分比以及累积百分比。,
26、(2)Correlation Matix 相关矩阵组 Coeffients 相关系数选择此项给出原始变量间的相关系数矩阵。这是分析的基础 Significance levels 显著性水平选择此项给出每个相关系数相对于相关系数为0的设检验的概率水平。 Determinant 相关系数矩阵的行列式。 Inverse 相关系数矩阵的逆矩阵。, Reproduced 再生相关阵,选择此项给出因子分析后的相关阵,还给出残差,即原软关与再生相关之间的差值。 Anti-image 反映象相关阵。包括偏相关系数的负数;反映象协方差阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系数较大外,远离对角线
27、的元素应该比较小。 KMO and Bartletts test of sphericity KMO和球形 Bartlett检验。选择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间的偏相关是否很小。Bartlett球形检验,检验的书相关阵是否是单位阵。它表明因子模型是否是不合适宜的。Cntinue按钮确认选择,返回主对话框;Cancle按钮使选择作废,返回主对话框。,2、Extraction 因子提取子对话框Extraction 因子提取子对话框如图3-3所示。有关因子提取的选择项共分四部分(如果是主成分分析,则选Principal Components)。,(1)
28、因子提取方法选择项子对话框第一项Method:是一组指定提取方法的选择项。单击矩形框右面的箭头可以展开提取方法选择项表,提供七种提取方法可以选择: Principal components 主成份法。该方法假设变量是因子的纯线性组合。 Unweighted least square 不加权最小平方法。该方法使观测的和再生的相关阵之差平方最小。 Generalized least square 用变量的单位加权一体观测的和再生的相关阵之差的平方最小。,Maximum Likelihoud 最大似然法。此方法不要求多元正态分布。给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。
29、 Principal Axis factoring 使用多元相关的平方作为对公因子方差的初始估计。 Alpha 因子提取法 Image 映象因子提取法。是根据变量映象的概念提取公因子的方法。把一个变量看作其它各变量的多元回归。,(2)Extract 控制提取进程和提取结果的选择项理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变色选择提取多少个因子由本组选择项决定。 Eigenvaluse over 该选择项指定提取的因子的特征值。在此项后面的矩形框中给出系统默认值为1即要求提取那些特征值大于1的因子。指定特征值决定提取因子数目的方法是系统默认的方法。 Number
30、of factor 该选择项指定提取公因子的数目。用鼠标单击选择此项后,将指定的数目键人到该选择项后面的矩形框中。,(3)Display 指定与因子提取有关的输出项 Unrotated factor solution 要求显示未经旋转的因子提取结果。此项为系统默认的输出项。 Scree plot 要求显示按特征值大小排列的因子序号与特征值为两个坐标轴的碎石图。(4)Maximum iterations for Convergence因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。Continue 按钮确认所有选择,返回主对话框;Cancel按钮作废本次所有选择,返回主对话框。,3、R
31、otation 旋转方法选择子对话框Rotation 旋转方法选择子对话框如图3-4所示,选择项分三组(如果是主成分分析就选None)。,(1)Methd 旋转方法选择项 None 不进行旋转。此为系统默认的选择项。 Varimax 方差最大旋转 Equamax 平均正交旋转 Quartmax 四次方最大正交旋转 Direct Oblimin 斜交旋转,指定此项可以在下面的矩形框中键入(值,该值应该在0 1之间,是因子映象自相关的范围。0值产生最高相关因子,大负数产生旋转的结果与正交接近。,(2)Display 有关输出显示的选择项 Rotated soltion 旋转结果。指定此项将对正交旋
32、转显示旋转后的因子矩阵模式、因子转换矩阵;对斜交旋转显示旋转后的因子矩阵模式、因子结构矩阵和因子间的相关阵。 Loding plot(s) 因子载荷散点图。指定此项将给出以两两因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出各原始变量在factorlfactor2坐标系中的散点图,如果多于两个因子则给出三维因子载荷散点图。(3)Maximum iterations for Convergence:旋转收敛的最大迭代次数。系统默认值为 25。可以在此项后面的矩形框中键入指定值。,有关因子得分的选择项在Factor Scorce子对话框中。对话框如图3-5所示。选择项共分三组:,4、Fact
33、or Scorce 有关因子得分的选择项,(1)Save as variables 选择此项,将因子得分作为新变量保存在数据文件中。程序运结束后,在数据窗中显示出新变量。对每一次分析产生一组新变量,用最后一个数字字符表示分析的顺序号。每次分析中产生多少个因子,就生成多少个新变量,因子序号占倒数第三个字符的位置。倒数第二个字符为。在输出窗中给出对因子得分的命名解释。,(2)Method 指定计算因子得分的方法。可供选择的方法有: Regression 回归法。其因子得分的均值为0方差等于估计因子得分与实际因子得分之间的多元相关的平方。 Bartlett 巴特利特法。因子得分均值为0。 Ander
34、son-Rubin 安德森一鲁宾法。是为了保证因子的正交性而对巴特利特因子得分的调整。其因子得分的均值为0,标准差为1。,(3)Display factor score coefficient matrix 选择此项将在输出窗中显示因子得分系数矩阵。是标准化的得分系数,原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的因子得分。,5、Options 有关输出的选择项有关输出方式以及对带有缺失值的观测量处理方法的选择项均在Options子对话框中。Options子对话框如图3-6所示。,初步分析的统计量,分为两部分。星号左面的两项,右面的四项。分别解释如下: Variable变量 C
35、ommunality公因子方差,原始变量的公因子方差均为1,五个变量的公因子方差之总和为5。 Factor因子序号。 Eigenvalue各因子的特征值。前两个因子的特征值大于1。 Pct of Var各因子特征值占特征值总和的百分比。 Cum Pct自上至下各因子方差占总方差百分比的累积百分比。,初 始 统 计 量,对于初用SPSS进行统计分析的同学,可以完全使用系统默认值进行最简单的因子分析。虽然可能得不到非常满意的结果,但通过初步分析可以对所研究的问题有初步的认识,对进一步的研究会有帮助。对比较简单的问题,有时只使用系统默认值进行因子分析就可以得到比较满意结果。,以城镇居民消费支出资料为例,用因子分析法对各省、市作综合评价(spssex-3/城镇居民消费支出的因子分析 ) 以经济效益数据为例,用因子分析法对各企业作综合评价( spssex-3/经济效益的因子分析),SPSS的实例分析,城镇居民消费支出的因子分析,x1:人均粮食支出(元/人) x2:人均副食支出(元/人)x3:人均烟、酒、茶支出(元/人) x4:人均其他副食支出(元/人)x5: 人均衣着商品支出(元/人)x6: 人均日用品支出(元/人x7: 人均燃料支出(元/人) x8: 人均非商品支出(元/人),指标解释:,结束,