《探索性因素分析及SPSS应用.ppt》由会员分享,可在线阅读,更多相关《探索性因素分析及SPSS应用.ppt(35页珍藏版)》请在三一办公上搜索。
1、2004-3-10,Exploratory Factor Analysis&SPSS Application,1,心理学研究方法第十三章演示,数据简化技术探索性因素分析及SPSS应用Data Reduction TechniqueExploratory Factor Analysis&SPSS Application凤 四 海,2004-3-10,Exploratory Factor Analysis&SPSS Application,2,提 纲,第一节 因素分析原理概述 一、因素分析基本原理 二、因素分析模型及条件 三、SPSS因素分析功能选项第二节 因素分析的步骤 一、数据适当性考察和因素
2、数确定 二、求解因素模式 三、因素的解释和命名因子旋转第三节 斜交旋转和因子值应用 一、因子相关时的旋转斜交旋转法 二、因子值的意义及应用(可选讲),2004-3-10,Exploratory Factor Analysis&SPSS Application,3,因素分析的主要目的,心理学研究中的一些心理特质(如自我、人格、智力等)往往都是一些“潜在变量”,只能通过对一些可观测的“外显变量”的测量间接反应之。用一般的多元统计方法往往使得对数据的分析和描述陷入混乱。不仅如此,变量间的高度相关还会极大地削弱某些统计方法的效果。数据化简技术:主成分分析、对应分析、典型相关分析、多维量表法等。因素分析
3、主要针对等距尺度变量。其主要目的:1.通过寻找或确定几个较少的假想“因子”来反映多个观测变量中蕴含的大部分信息,从而浓缩或化简观测数据。2.浓缩后的因子代表了数据间的基本结构,通过得到的因子估计值使研究者更方便地掌握数据的本质特质以及因子和观测变量之间的关系。,“多重共线性”,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,4,因素分析的发展历程,思想基础:包括启蒙运动(the Enlightenment)在内的思潮对绝对论(absolutism)的批判:任何实体都可能不是它表现出的模样,而是对其潜在现象的反映;符号主义(Sy
4、mbolism)、表现主义(Expressionism)。19世纪兴起的对机械唯物主义的批判,提倡宏观论。发展历程:最早由Karl Pearson(1901)引入;最早由Charles Spearman在创立其智力理论时应用;Thurstone(1931)发展的“common factor theory”是其重要的理论基础,1940s-1960s是其发展的辉煌期。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,5,因素分析的发展历程,三种主要应用观点:特质理论(Trait theory):Spearman,Thurstone
5、,Cattell 回答:一组观测变量背后潜在的基本特质是什么?Dust bowl empiricism:Godfrey Thompson,Henry Kaiser 回避了内容和理论,而关注应用聚类分析(Cluster analysis):Holzinger,Tyron,&Bailey 相信较低水平的观测(如项目)可以被整合成较高水平的具有理论价值的构念。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,6,第一节 因素分析原理概述,Common Factor Theory及变异分解 题项1:我对我的薪水感到满意;题项2:我对工
6、作中的同事感到满意;题项3:我对工作中的上司感到满意。问题:我测量的是一个东西吗?因素分析假设变量的变异可分解成三个部分:公因子方差:各变量间的公共变异;特殊因子方差:不能由公因子解释的、变量特有的变异;误差方差:变量中不可信的、无法解释的变异;三者间的关系图示:,2004-3-10,Exploratory Factor Analysis&SPSS Application,7,1-h2 指变量的变异中无法被公因子模型解释的部分比例 因素分析使用变量间的相关(标准化数据的协方差)系数来估计公因子及连接因子和变量间的结构关系(因素负荷)。,一 因素分析基本原理,可信的变异或“共同度”h2,独特变异
7、(1-h2),因子 F1“引起”或解释了题项1到4中的公共变异,l41指“变量4在因子1上的负荷”,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,8,主成分分析法(principal component analysis,PCA):一种独立于因素分析的数据化简方法,SPSS默认的分析方法。用以寻找将变量以最优方式结合成少数几个成分,保持总变异,主成分数=变量数,主成分是变异的几何抽象,不一定复合真实情况。信息保留较多。主因子分析法(common factor analysis,PFA or CFA):假设公因子可以完全解释变
8、量间的相关关系,而不一定能完全解释变量的变异(即不考虑特殊因子),用以确定变量背后的结构并估计因子得分,更符合实际情况。通常在主成分分析的基础上进行,只分析公共变异。常用于对变量方差不了解并不太考虑信息丢失的情况。,一 因素分析基本原理,简化数据,探索结构,2004-3-10,Exploratory Factor Analysis&SPSS Application,9,一 因素分析基本原理,将一组相关的观测变量转换成少数几个不相关的公因子,变换不改变变量的总方差,第一个主成分具有最大方差,随后抽取的主成分解释的数据变异量逐渐递减,如图13-1。,第一、第二主成分分别是椭圆长轴、短轴;变量的变异
9、用不相关的主成分表示。,观测变量X、Y可表示为因子空间f1f2f3中的向量,向量长度即共同度,向量在三个因子轴上的投影称因素负荷,变量间相关系数等于两变量共同度与夹角余弦乘积。,各变量的因素负荷、夹角由公因素方差、相关系数决定,所谓的“求因素解”无非是在空间中设置适当的坐标轴,2004-3-10,Exploratory Factor Analysis&SPSS Application,10,二 因素分析模型及条件,公因子理论:p个观测变量,相当于一份问卷中的p个题项,它是一个随机变量;不同被试都将有p个不同的数据;m个公因子,其值称因子值(factor score);代表残差,包括特殊因子和误
10、差,是各变量中不能用公因子解释的部分;系数lij称为因子负荷(factor loading),表示第i个变量在第j个因子上的相对重要性(权数)。正交模型因子间不相关,斜交模型因子间相关。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,11,观测变量标准化,变量和因素的均值均为0,方差均为1;公共因素和独特因素间不相关,各独特因素之间也不相关(尤其在公因子分析法中);观测变量间线性相关,一般绝大部分应不低于0.3;正交模型要求公因子之间相互独立,尤其是主成分分析中;等距型数据,一些特殊情况下等级型数据也可以接受;最好是多元正态
11、数据,尤其极大似然法;样本量越小,样本数据的分布和线性关系越需要加以检验,最好是100以上。,二 因素分析的假设条件,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,12,三 SPSS因素分析功能选项,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,13,第二节 因素分析步骤,筛选观测变量样本数据适当性考察确定因子数求解因素模式因子旋转,返回,因素分析适合度检验,参数估计,正交旋转,6.据结果调整旋转方法重复该过程至重复抽取过程,2004-3-10,Explo
12、ratory Factor Analysis&SPSS Application,14,例13-1 某研究者收集了100名被试对六种政策的回答数据,其中六个变量col1col6分别表示“政府应当投入更多的教育经费”、“政府应当投入更多的经费减少失业”、“政府应当控制大企业”、“政府应当通过用校车送孩子上学加速废止种族隔离”、“政府应当增加少数民族的工作配额”和“政府应当扩展领先计划”。,例子讲解,分析之前,先要将原相关矩阵补齐,然后在相关阵前面增加两列标示变量ROWTYPE_和VARNAME_,取值分别为CORR和6个变量名,再增加第一行数据,ROWTYPE_列取值N,VARNAME_留空,其它
13、6列变量取值100表明样本量。打开数据在SPSS因素分析菜单中按正常模式选择变量及其它选项后将命令粘贴到语句文件中,并将第二行语句改成:/MATRIX=IN(COR=*),2004-3-10,Exploratory Factor Analysis&SPSS Application,15,筛选观测变量,筛选观测变量是一个复杂的问题,它涉及到理论构想,编制量表前开放式问卷项目的归纳整理和项目分析等。模型中包含了无关的变量或者剔除了相关的变量可能极大地影响分析的结果。以下观测变量最好不选入模型:1、标准差低,通常表现为观测变量中被试的反应趋同;2、重测信度低(建议0.2);3、最大负荷值lij小(建
14、议0.4);4、共同度hi2小(建议0.16);5、最大负荷值lij与共同度hi2之比小(建议0.5);6、最大两个负荷值lij与共同度hi2之比小(建议0.25);7、取样适当性系数(MSA)过小;8、多极变量,即一个变量在几个因子上的负荷都较大。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,16,样本数据适当性考察,Bartlett球度检验(Bartletts test of sphericity):近似2检验,Ho:“相关矩阵是单位阵”,显然,其显著性水平要至少小于0.05,才能拒绝Ho,说明各个变量间存在相关,适宜
15、进行因素分析。例子中,近似2统计量=135.516,P0.001,拒绝Ho。反映像相关矩阵(Anti-image correlation matrix):其元素等于偏相关系数的负数。公因子存在时,偏相关系数实际上是特殊因子间的相关系数估计,应当接近于零。例子中绝大部分远离对角线的元素都小于0.1,可以接受。KMO取样适当性度量(Kaiser-Meyer-Olkin measure of sampling adequacy):是变量间相关系数平方和占这两种系数平方和的比率。显然,KMO值越接近1越好。一般规定:0.9以上,极好;0.8以上,较好;0.7以上,一般。同时,每个变量的KMO值恰好为反
16、映像相关矩阵的对角线元素,记为MSA(Measures of Sampling Adequacy)。例子中,KMO值为0.749,可认为比较好。,Descriptives子对话框,2004-3-10,Exploratory Factor Analysis&SPSS Application,17,2004-3-10,Exploratory Factor Analysis&SPSS Application,18,确定公因子数,公因子数确定牵涉到很多问题,如变量数、模型拟合度、因子贡献等。因子数边界特征值准则:Kaiser准则,特征值1,因子贡献 单变量;Joliffe准则,特征值0.7;特征值0;
17、Cattell陡阶检验,也称碎石图(Scree Plot)检验,因子特征值中大的陡急坡度与缓慢坡度间的明显转折点;累计贡献率(建议80%,实际中40%60%也可做);在极大似然估计法中,使拟合度显著性水平不再减小;理论构想及公因子的可解释性也可作为参考,返回,Extraction子对话框,2004-3-10,Exploratory Factor Analysis&SPSS Application,19,2004-3-10,Exploratory Factor Analysis&SPSS Application,20,因素模式解法,PCA:对总体的分布没有什么假定,适用范围广,适合确定因子数作为
18、初始解。初始共同度为1。PFA:需要估计初始共同度,常使用PCA的估计共同度。用每个变量和其余变量的复相关系数的平方R2(squared multiple correlation,SMC)代替相关阵对角线元素。主轴因子法(Principal axis factoring):类似主成分法;a因子法(Alpha factoring):抽取系数0的公因子;映像分析法(Image factoring):利用映像理论,受抽样影响较大;最小二乘法(Least Squares):剩余相关阵列向量元素的平方和达到最小;极大似然法(Maximum likelihood):多维正态数据,似然函数达到最大求得因子解
19、。,返回,对角线元素的其它处理方法如:反复迭代法、最大相关系数法,参见有关文献,越需要准确地探求因素的场合,对共同度估计的要求越高,高共同度不一定高解释性,二者均利用MINRES原理,从模型拟合优度角度出发,回避了共同度估计问题,变量数较少,主成分法更好,随着变量数的增加,两种方法的差异越来越小,样本量很大时,后两类方法精度更高。可多种方法相互参照,2004-3-10,Exploratory Factor Analysis&SPSS Application,21,例子求解和结果阅读,结果显示:共同度(communality)估计:观测变量xi方差中被公因子所解释的部分比例,说明变量能被所有公因
20、子解释的程度,信度;等于模型/因素负荷矩阵中每行公因子负荷的平方和,记为hi2;上图为PCA结果,初始共同度均为1,抽取共同度1,大多在0.6以上。下图为PAF结果,初始共同度很低。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,22,因子解特征值及因子贡献率:因子贡献反映的则是单个因子解释的数据总方差。所有公因子的累计贡献等于所有变量的共同度之和;如果公因子数等于变量数(主成分分析)则也等于原观测变量的总方差。公因子j 的贡献记为Vj,等于所有模型/因素负荷矩阵中每列因子负荷的平方和;更常用“贡献率”指标(相等);主成分特
21、征值等于其因子贡献。,例子求解和结果阅读,碎石图陡阶检验也显示抽取2因子,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,23,因子负荷矩阵:表示第i个变量中第j个因子被反映的程度,衡量公因子相对重要性,相当于标准化回归系数,表示因子和变量间关系的密切程度。正交模型中,因素负荷矩阵(因素模式,factor pattern)等于因素结构矩阵(因素与变量相关矩阵,factor structure)。,例子求解和结果阅读,抽取后变量共同度=行因子负荷平方和:0.7512+(-0.410)2=0.732,0.7352+(-0.404)
22、2=0.704,0.6822+(-0.369)2=0.601,因子1贡献=列因子负荷平方和:0.7512+0.7352+0.6822+0.6522+0.5542+0.5752=2.633,重新计算变量间相关系数:r12=0.7510.735+(-0.410)(-0.404)=0.718,称为导出相关系数(Reproduced),看残差相关阵。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,24,因子的解释和命名因子旋转,因素分析的目的不仅是求出公因子,更主要的是要知道每个因子的意义。根据主成分法计算的因素模式解释很麻烦,因为
23、大多数因子都和许多变量相关。因子旋转的目的:通过改变因子轴的位置,重新分配各因子所解释的方差比例,为了获得结构因子模式的“简单结构”(simple structure):在各因子上只有少数变量有较高的负荷,其它变量上的负荷(绝对值)很低;每个变量只在少数因子上有很高的负荷;任取两因子,负荷都低的变量尽量多一些;任取两因子,每个变量只能在一个因子上有较高负荷。简言之,就是调整因素负荷矩阵式中的行、列值向0和1极化,使某些变量的负荷尽可能往某个因子上集中,而另一些变量的负荷尽可能往另一个因子上集中,以此类推,使得每个因子上仅“负载”几个变量。,返回,2004-3-10,Exploratory Fa
24、ctor Analysis&SPSS Application,25,正交旋转:因子轴之间保持90度角(因子不相关)SPSS提供三种基于“正交极大准则”的正交旋转法:方差最大法(Varimax):使各因子(列)上与该因子有关的负荷平方的方差最大,即拉开列上各变量的负荷差异,最常用;四次方最大法(Quartimax):使各变量(行)上因子负荷平方的方差达到最大,即拉开行上的负荷差异,易产生综合因子,大部分变量在该因子上都有较高负荷;平均正交法(Equamax):上两种方法综合。在Rotation对话框选择Varimax旋转,选中复选框因素负荷图(Loading plot),在Options对话框选
25、中将负荷较低(0.3)的值隐藏并按负荷大小排列(负荷量为0.3表示因素只解释了该变量方差的10%,忽略)。,因子的解释和命名因子旋转,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,26,比较结果,旋转解保留了原来的2个因素,累计方差贡献不变,但各因素特征值大小平均了,相应地,所解释的方差比例相比抽出解也更加平均了,2因子各解释了约35%和30%的方差。,因子的解释和命名因子旋转,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,27,典型的简单结构:可以看到变
26、量col1、col2、col3和因子1有较大相关,变量col4、col5、col6和因子2有较大相关,变量对因子的归属一目了然。根据这些因子所解释的变量的含义,我们不妨将因子1、2分别命名为“经济政策”和“民族政策”。,因子的解释和命名正交旋转结果,旋转图解:良好的旋转应当使得变量向量尽可能落在坐标轴附近,且各坐标轴附近积聚的变量数或者各因素的累计贡献应大致平均。二维坐标系中,正交旋转只需把坐标轴旋转到尽可能接近变量处即可。多维坐标系将因子空间分解成多个二维平面,分别进行简单结构的旋转,直到得出稳定、一致的结果。,返回,2004-3-10,Exploratory Factor Analysis
27、&SPSS Application,28,第三节 斜交旋转和因子值应用,对正交旋转的批评:实际研究中,因素间的关系往往很难满足因素正交要求,应考虑使用斜交旋转。斜交旋转因子间的夹角随意,因此理论上说,它对于解释因子更有利。斜交旋转的“高风险性”:结果受分析者对斜交参数的定义影响,很大程度上取决于分析者的主观经验;同时也不利于研究结果的交流。替代办法:碰到因子间高度相关的情况,往往代之以减少因子数目或者做高阶因素分析,导致斜交旋转在实际应用中的功用被削弱。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,29,一 因子相关时的旋
28、转斜交旋转法,斜交旋转中的因素模式和因素结构因素负荷是向坐标轴平行投影;因素结构是向坐标轴的垂直投影;正交模型中,因素模式等于因素结构。简单模式结构和简单因素结构两种旋转标准,通常前者更方便。阅读斜交旋转结果的注意点:区分模式矩阵(pattern matrix)和结构矩阵(structure matrix);斜角解的因素负荷可能会超过1,计算因子贡献不能再使用负荷平方和办法(通常不给出);不给因素变换矩阵而代之以因素间相关矩阵。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,30,SPSS斜交旋转法:直接斜交极小法(Dire
29、ct Oblimin):由参数(Delta)控制倾斜程度,该参数控制因子轴的倾斜程度,其中0.8。一般取大负值时表示因子间倾斜程度越低,越不相关。Promax法:Procrustes变换的一种特例,通过扩大初始简单结构中元素的大小差距(2次方或4次方)来取得简单结构。其参数(Kappa)即乘方数,1。此法比直接斜交旋转法的计算速度快,因此常用于大数据集。,一 因子相关时的旋转斜交旋转法,“强盗”旋转法,削足适履,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,31,二 因子值意义及应用,某些情况下还要获得对因子的度量,如根据各
30、因子得分对某个自变量或样本进行分类、评价。因子得分不能简单地将变量值相加,因为各变量在因子上的负荷不同,所以应当赋予变量不同的权值,称为因子值(factor score)。求因子值的过程就是求因素分析模型的逆过程,目的是用观测变量的线性组合来表达因子。计算案例i在因子p上的因子值是用该案例每个变量的标准化分数xji乘以相应的因子值系数(components score coefficients)wpj之和。对于主成分法未经旋转求得的因子解可以直接得到因子值系数。通常是相应的因素负荷比上该因素的特征值。因此若不计较因素值单位,此时因素负荷就是因素值的估计。其它解法需要估计。,返回,2004-3-
31、10,Exploratory Factor Analysis&SPSS Application,32,SPSS提供的三种因子值或因子值系数的估计方法:都基于最小二乘原理,只是定义误差的方式不同。,二 因子值意义及应用,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,33,例13-2因子值应用(选讲),一项消费者调查研究旨在了解消费者对谷类速食产品的态度和产品属性之间的关系。研究者调查了116名被试对12种品牌产品的235份评价,要求每位被试从25个方面评价几种喜爱的食物品牌,并在5点量表上标明每个品牌具有该属性的程度。调查数据
32、见data13-2,12种品牌和25种属性如下,分别对应25个变量,数据中的前两个变量为被试编号和品牌编号。经PAF-Varimax旋转后得4个因子,除个别变量外,简单结构良好。,返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,34,将回归法计算后保存的因子值按12种品牌分类并做出散点图(以任两个因子为坐标轴,品牌为标签变量)。SPSS过程:Graphs Scatter Simple,图中看,品牌11、12很类似,都是有益、天然和无趣,品牌2、5、7也属同类,都是有益、人工和有趣的,等等。,例13-2因子值应用(选讲),返回,2004-3-10,Exploratory Factor Analysis&SPSS Application,35,Thank you for presentation!Now is question time!,