量表分析及因子分析.ppt_三一办公31ppt.com

资源描述

《量表分析及因子分析.ppt》由会员分享，可在线阅读，更多相关《量表分析及因子分析.ppt（64页珍藏版）》请在三一办公上搜索。

1、第六章量表分析及因子分析,本章讲授主要内容,信度分析内部一致性分析效度分析因子分析,信度分析,指问卷的稳定性或可靠性，即用问卷对同一事物进行重复测量时，所得结果的一致性程度。,定义,折半法（split-half technique）将量表分成两半（常用的做法是按项目号的前后顺序或奇偶性），计算这两部分的总得分的相关系数。,具体方法,Alpha信度系数法折半法应用的公式的前提：两半题项得分的方差大致相等。若不满足这一假设，会低估信度系数。用克朗巴哈提出的alpha系数来测量累加量表的信度。,平均相关系数法首先计算量表中两两项目得分（经过逆处理之后的得分）之间的相关；然后计算所有相关系数的平均。

2、平均相关系数的大小可以指示量表的信度。,折半信度法,ru=2rh/(1+rh)其中，rh表示两个总得分的相关系数，ru表示整个量表的内在一致性信度系数，上式为斯皮尔曼-布朗公式。,Alpha信度系数法,其中，K为量表中题项的总数；i2表示第i个题项得分的题内方差；i2为K个题项的题内方差之和；T2表示总得（所有题项得分之和）的方差。,具体计算公式,大学生政治心理量表,折半信度法,将V261-V2614 按奇偶数分为两半，分别计算两部分总加和 Total3、Total4。调用 Correlate过程计算相关系数为：0.364。,rh=0.364ru=2rh/(1+rh)=2*0.364/(1+0

3、.364)=0.533,SPSS操作步骤：Analyze=Scale=Reliability Analysis打开对话框,选入要分析的每个题项。,选择具体需要计算的信度系数，共有五种。,Alpha:克朗巴哈系数。Split-half：折半信度，一般要求该系数大于0.7。,列出每个变量（题项的）标签。,选择输出的统计量；,Item:给出各变量的均值和标准差；Scale:给出各变量之和（即总分的均值、方差和标准差）；Scale if item deleted:给出当在问卷中删除当前变量后，问卷相应指标的改变。这一项非常重要，可以用来对问卷中的各项进行逐一分析，达到改良问卷的目的。,提供了三种分析方

4、法，它们都是用来分析各变量取值是否相互不独立。如果问卷设计得好，则各答案应当是相关的。,Correlations：计算；Covariances：计算。,Inter-Item：输出各变量间的相关信息：项目间的两两相关系数矩阵、项目间的两两协方差值矩阵。,克朗巴哈信度系数,折半信度系数,各种系数应该多大才能认为该量表的信度较高？没有统一的标准！根据不同专家的观点，量表的信度系数如果在0.9以上，表示量表的信度甚佳。但是对于可接受的最小信度系数值是多少，许多专家的看法也不一致：有些专家定为0.8以上，也有的专家定位0.7以上。通常认为，如果研究者编制的量表的信度过低，如在0.6以下，干脆扔掉，重新编

5、制较为适宜。,输出各题项之间两两相关系数，第11项（爱国情感）和第七项（自豪感）相关程度最高（0.469）,考查项目与量表得分的关系：若将某一项目从量表中剔除，则量表的平均得分、方差、每个项目得分与剩余各项目得分间的相关系数（Corrected Item-Total Correlation）、以该项目为自变量所有其他项目为因变量建立回归方程的R2值（Squared Multiple Correlation）以及Cronbach 值（Alpha if Item Deleted）会是多少？,方差分析表明，F=70.268，P0.000，即每一题项与各个题项间是相关的。,内部一致性检测又称极端组检测

6、，考察两个极端组得分的平均值。,具体做法：,将预测试的样本分为高低两组：取两端27%（或25%）划分，然后计算每个题项在两个极端组得分的平均值。具有鉴别度的题项，在两个极端组的得分应具有显著差异。,内部一致性分析,第一步：Transform-Compute，增加新变量total，计算量表总分；,第二步：对total进行频数分析；,第三步：确定两个百分位数73、27，寻找高27%和低27%作为分割点，输出频数分析表；,第五步：对新变量，确定范围：最低分第27%（25%）百分位数设定为新变量值为1（低分组），Add添加后，再输入第73%（75%）最高分，并设定为2（高分组）；,第四步：Transf

7、orm-Record，选择旧变量total，变换新变量group，帖标签后变更；,第六步：查阅数据文件中产生的新变量group；,第七步：进行t检验。将要分析的题目选入变量框，以group为分组变量；,效度分析,1.单项与总和相关效度分析这一方法主要用于测量量表的内容效度。所谓内容效度指所选的题项是否能代表所要测量的内容或主题。,具体步骤：计算每个项目的分数和总和的相关，如果相关系数不显著，表示该项目鉴别力低。如果把这个题项纳入量表，实际测量被调查者的态度，将会影响测量的准确性，最好提出。相关系数的显著程度越高，量表的内容效度就越高。,可以看出，14个题项中有12个相关系数是显著的，符合较高效

8、度量表的标准。,2.难易度和鉴别度,难易度就是项目的难易程度。具体做法：将态度总分值由低到高的顺序排列，划出人数大致相等的低分组和高分组，一般的情况是大致各占总调查人数的四分之一。然后考察高分组和低分组中的被调查者在每个题项上的“通过率”，即在该题中选“同意”或“非常同意”的比例；对于逆向题，则为选“不同意”和“非常不同意”的比例。如果该题项是很“容易”回答的，那么，高分组和低分组的人在该题项上都容易通过，也即该题项十分容易让人一目了然地给出确切的答复。反之，如果该题项很“难”回答，“使用*品牌纯净水的家庭是不太注意节约的家庭”，那么，不但低分组的通过率低，高分组的通过率也可能不高。,计算某个

9、题项的难易度的公式：难易度=（PH+PL）2m其中，m表示高分组或低分组的人数，一般取1/4左右；PH和PL分别为高分组和低分组中通过该题项的人数，即对该题项持肯定、积极态度的人数。,难易度实际上等于高、低分组在该题项上通过率的平均值。难易度越大，表示该题项越“容易”。,难易度到底多大比较合适？要根据调查目的和要求来确定。在社会调查研究的态度量表中，一般取难易度适中（0.5 左右）的情况较多。,鉴别度分析,鉴别度指量表中所测量的项目对所测量特性的区分或鉴别能力。,如果高分组中的人大多数都通过了某一项目，而低分组的人几乎没有通过，那么该题项的鉴别度就较高。反之，如果高分组的人几乎没有通过，而低分

10、组的人几乎都通过了该题项，那么，鉴别度应该是负的，绝对值较高。,一般采用高分组和低分组通过率之间的差异来计算量表中各项目的鉴别度。,鉴别度=（PH-PL）/m,一般要求量表中各项目的鉴别度高一些为好。鉴别度较高的项目表示总分高的人与低的人在该题项中的回答有明显不同，高分组的倾向于对高项目的肯定态度，而低分的表示否定的态度。也就是说这样的项目可以较好地鉴别对某事物态度不同的受试者。,值得注意：无论是难易度还是鉴别度，实际上都是一种相对的概念，它们是针对被调查者而言的。一般取适中的鉴别度。,在设计量表时，通过试调查认真考察每个项目的难易度和鉴别度，剔除那些不和要求的项目，这样才能提高整个量表的信度

11、和效度。,因子分析（Fact Analysis）,因子分析是多元统计技术的一个分支，其目的是浓缩数据。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量（公共因子）来表示基本的数据结构。这些假想变量能够反映原来众多的观测变量所代表的主要信息，并解释这些观测变量之间的相互依存关系，将这些假想变量称为基础变量，即因子（Factors）。,因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子的过程。,两个主要应用,寻求基本结构、检验结构效度在多元分析中，经常碰到观测变量很多且变量之间存在着较强的相关关系的情形，这不仅给问题的分析和描述带来一定困难，

12、而且在使用某些统计方法时会出现问题。,数据简化通过因子分析把一组观测变量化为少数几个因子后，可以进一步将原始观测变量的信息转换成这些因子的因子值，然后用这些因子代替原来的观测变量进行其他统计分析，如回归分析、路径分析、判别分析和聚类分析，利用因子值也可以直接对样本进行分类和综合评价。,因子分析的基本假设，是因子隐含在许多可观察的现实事物的背后。虽然难以直接测量，但是可以从复杂的外在现象中计算、估计。,其数学原理的共变的抽取。也就是说，受到同一个因子影响的测量分数，共同相关的部分就是因子所在的部分。因子的提取也是根据共同相关的得分而决定。,一般说来，研究者事先对观测数据背后存在多少个因子、因子如

13、何抽取、因子的内容以及变量的分类等一无所知，未有任何事前的假定，而由因子分析的过程来决定。这种类型的应用称为探索性因子分析（EFA），因子分析的大部分应用都属于这种类型。,探索性因子分析（Exploratory Factor Analysis;EFA）,有的情况下，研究者根据某些理论或其他先验知识可能对因子的个数或因子的结构作出假设，因子分析也可以用来检验这个假设，作为证实假设的工具，这种类型的应用称为证实性（CFA）因子分析。,证实性因子分析（Confirmatory Factor Analysis;CFA）,探索性因子分析步骤,第一步：通过共变关系的分解，找出最低限度的主要成分（princ

14、ipal component）或共同因子（common factor）。,第二步：探讨这些主成分或共同因子与个别的变量的关系，找出观测变量与其相对应因子的强度，即因子负荷值或负载值（factor loading），以说明因子与所属的观察变量的关系与强度。,第三步：决定因子的内容，为因子取一个合适的名字。,为因子fi 解释变量Xi变异的比例,因子分析的条件,因子分析的变量都必须是连续变量，符合线性相关的假设。顺序与类别变量不得使用因子分析简化结构。,抽样的过程必须具有随机性，并具有一定的规模。如果研究的总体具有较高的同质性（如学生样本），变量数目不多，样本数可以介于100200之间；Gorsuc

15、h（1983）建议样本数最少为变量数的5倍，且大于100。,因子分析的原理,1.因子分析模型,可以证明,经过标准化的变量,不改变变量间的相关系数。,因子分析模型在形式上和多元回归模型相似，每个观测变量由一组因子的线性组合来表示。,上式中，F1，F2，Fm叫公共因子（Common factors），它们是各个观测变量所共有的因子，解释了变量之间的相关。Ui称为特殊因子(Unique factor)，它是每个观测变量所特有的因子，相当于多元回归中的残差项，表示该变量不能被公共因子所解释的部分。aim称为因子负载(Factor loading)，它是第i个变量在m个公共因子上的负载，相当于多元回归分

16、析中的标准回归系数。,F1,F2,F,k,X1,X2,Xk,U1,U2,Uk,a11,a21,am1,a12,a22,am2,a1m,a2m,akm,因子模型也可以用路径分析图表示,因子分析的数学原理（相关矩阵）,因子分析的基础是变量之间的相关。因此，应先计算若干个选项（如X1到X10）的两两相关，详细分析相关矩阵代表的意义。,如果“自尊”用Y来表示，其他10个选项的分数以X1到X10表示，则Y的得分可以用以下数学模型预测得到：,Y=b1X1+b2X2+b3X 3+b10X10+U,因子分析中的有关概念,因子负载（负荷）,因子负荷是因子分析中的最重要的统计量，它是连接观测变量和公共因子之间的纽

17、带。因子负荷不仅表示观测变量如何由因子线性表示的，而且也反映了因子和变量之间的相关关系。,假如我们得到了5个观测变量、2个公共因子的情形：X1=0.9562F1+0.2012F2+0.2126U1 X2=0.8735F1+0.2896F2+0.3913U2 X3=0.1744F1+0.8972F2+0.4057U3 X4=0.5675F1+0.7586F2+0.3202U4 X5=0.8562F1+0.3315F2+0.3962U5,可以看出，公共因子F1与变量X1、X2、X4、X5关系密切，它主要代表了这些变量的信息。F2与变量X4、X5关系密切，它主要代表了这两个变量的信息。,F1 F2

18、hi2,X1 0.9562 0.2012 0.9548X2 0.8735 0.2896 0.8469X3 0.1744 0.8972 0.8354X4 0.5675 0.7586 0.8975X5 0.8562 0.3315 0.8430,hi2=ai12+ai22+aim2（i=1,2,p）,表明F1和F2两个因子解释了X1变量信息的95.48%。,公共因子方差（Communality），或共同度,指观测变量方差中由公共因子决定的比例。变量的方差由两部分组成，一部分由公共因子决定，一部分由特殊因子决定（即残差）。公共因子方差表示原始变量方差能被公共因子所解释的部分，共同度越大，变量能被因子说

19、明的程度越高。一个原始变量的共同度等于因子负荷矩阵中该变量所在行的所有元素的平方和。,对上例，计算出每个变量的公共因子方差为：,共同度这个指标以观测量为中心，其意义在于说明如果用公共因子替代观测变量后，原来的每个变量的信息被保留的程度。,因子贡献（Contributions）,特征值（eigenvalue）,一个因子的特征值等于因子负荷矩阵中该变量所在列的所有元素的平方和，表示该因子所能解释的方差。因子Fj所能解释的方差所占的比例叫做该因子的贡献率。其计算公式为：,F1 F2 hi2,X1 0.9562 0.2012 0.9548X2 0.8735 0.2896 0.8469X3 0.1744

20、 0.8972 0.8354X4 0.5675 0.7586 0.8975X5 0.8562 0.3315 0.8430,特征值：2.7628 1.614684 Fj贡献率：0.552 0.323 表明第一个因子F1解释了所有变量总方差的55%，第二个变量解释了上述总方差的32%，两个因子一共解释了总方差的87%。,因子分析的主要步骤：,第一步：计算所有变量的相关矩阵。相关矩阵是因子分析直接要用的数据，根据相关矩阵还应该进一步判断应用因子分析方法是否合适。,第二步：提取因子。这一步是确定因子的个数和求因子解的方法。,第三步：是进行因子旋转。这一步的目的是通过坐标轴变换使因子解的实际意义更容易解

21、释。,第四步：计算因子值。因子值是各个因子在每个观测量上的得分，有了因子值可以在其他的分析中使用这些因子。,因子分析的目的是简化数据或者找出基本的数据结构，因此，使用因子分析的前提是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小的话，他们不可能共享因子。所以，计算出相关矩阵后，应对相关矩阵进行检验，如果相关矩阵的大部分相关系数都小于0.3，则不适合做因子分析。SPSS提供了三个统计量帮助判断观测数据是否适合做因子分析。,1.反映象相关矩阵（Anti-image correlation matrix）,其元素等于负的偏相关系数。偏相关是控制其他变量不变，一个自变量对因变量的独特解释

22、作用。,如果数据中确实存在公共因子，变量之间的偏相关系数应该很小，因为它与其他变量重叠的解释影响被扣除掉了。所以如果反映象相关矩阵中很多元素的值比较大，应该考虑该观测数据不适合做因子分析。,2.巴特勒球形检验（Bartletts test of sphericity）,该统计量从检验整个相关矩阵出发，其零假设为相关矩阵是单位阵（我们一般将对角元素为1，其余元素为0的矩阵称为单位阵）。如果检验的结果无法拒绝零假设，那么，因子分析的使用就可能是不适当的，应该重新考虑。,另外，需要注意的是，随着样本量的增加，巴特勒球形检验对检验出变量间的相关也会变得更为敏感。,3.KMO(kaiser-Meyer-

23、Olkin Measure of Sampling Adequacy)测度,该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发，其值的变化范围从01。当所有变量之间的偏相关系数的平方和，远远小于简单相关系数的平方和时，KMO值接近1。KMO值较小时，表明观测变量不适合做因子分析。,通常按以下标准解释该指标的大小：,例：生育率的影响因素分析。,分析思路：生育率受社会、经济、文化、计划生育政策等许多因素影响，但是这些因素对生育的影响并不是完全独立的，而是交织在一起的。如果直接用选定的变量对生育率进行多元回归分析，最终结果往往只能保留二、三个变量，其他变量的信息就丢失了。因此，我们首先

24、对自变量进行因子分析，找出基本的数据结构，用新生成的因子再对生育率进行分析。这样，一方面克服了自变量之间高度相关的缺陷，另一方面，又保留了这些变量的信息。,选择的变量有：人均国民收入城镇人口比例初中以上文化程度的比例多孩率综合节育率。,1990年我国30个省、（直辖）市、自治区的数据（有节略）,对以上5个变量进行相关分析表明：多孩率和综合生育率之间存在较强的相关关系，其余的3个变量之间存在着较强的相关关系。,Kaiser-Meyer-Olkin Measure of Sampling Adequacy=.71321Bartlett Test of Sphericity=106.77649,Si

25、gnificance=.00000,因子抽取的目的在于决定测量变量中，存在着多少个潜在的成分或因子。,因子的抽取(Factor extraction),方法,一类是基于主成分分析模型的主成分法。在因子分析着占重要地位。,一类是基于公共因子模型的公因子法，包括主轴因子法、极大似然法、最小二乘法、alpha法等。,主成分法（Principal components analysis）,是一种数学变换方法，它把给定的一组（如k个）相关变量通过线性变换成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一个变量具有最大的方差，称为第一主成分，第二个变量的

26、方差次之，并且和第一个变量不相关，称为第二主成分，依次类推，k个变量就有k个主成分，最后一个主成分具有的方差最小，且和前面的主成分都不相关。,因子数的确定,有k个变量就有k个成分，但是因子分析的目的是为了简化数据。于是，提取前几个主成分作为初始因子，需要几个因子能代表原来数据中的主要信息呢？,目前没有精确的定量方法，实际应用中借助一些准则类判断：,1.特征值准则,取特征值大于1的主成分作为初始因子，放弃特征值小于1的主成分。因为每个变量的方差为1，该准则认为每个保留下来的因子至少应该能解释一个变量的方差，否则达不到精简的目的。,2.碎石检验准则（Scree Test Criterion）,按照

27、因子被提取的顺序，画出因子的特征值随因子个数变化的散点图，根据图的形状来判断因子的个数。该图像一个山峰，从第一个因子开始，曲线迅速下降，然后下降边得平缓，最后变成近似一条直线。曲线变平开始的前一个点认为是提取的最大因子数，因为后面的散点就像山脚下的碎石，舍去这些“碎石”并不损失很多信息。,因子累积解释方差的比例也是确定因子个数时可参考的指标，一般选取的因子数应使累积解释的方差比例达到7080%以上。,实际中，很少仅仅依赖某一准则来确定因子个数，而是结合几个准则进行判断。保留的因子是否有意义，是否能被解释，也是在确定因子时应该考虑的一个重要方面。保留的因子太多，解释因子时可能会比较困难。,有些情

28、况下，分析人员已经事先确定了因子的个数，就可以在计算机中设定要提取的因子个数。这种方法在检验有关理论和假设时非常方便。,解释因子,初始因子解达到了数据简化的目的。但是，根据初始因子解，往往很难解释因子的意义，大多数因子都和很多变量相关。如一个公共因子与所有变量的相关系数都很高。因为求初始因子时，是按照因子的重要程度顺序提取的，所以，第一个因子能解释最大比例的方差，绝大多数变量在第一个因子上都有显著的负载，第二个和其后的因子所能解释的方差依次递减。,但我们往往很关心每个因子的实际意义是什么，否则就很难理解因子分析的结果。因子旋转是寻求这一实际意义的有效工具，因子旋转的目的是通过改变坐标轴的位置，

29、重新分配各个因子所解释的方差比例，使因子结构明了、易解释。因子旋转不改变模型对数据的拟合程度，不改变每个变量的共同度。,因子旋转,（factor rotation）,旋转的方式,1.直交旋转（orthogonal rotation）指旋转过程中，因子之间的轴线夹角为90度，即因子之间的相关设定为0。有最大变异法（Varimax）、四方最大法（quartimax）、均等变异法（equimax rotation）。,2.斜交旋转（oblique rotation）允许因子之间具有一定的共变，在旋转过程中，同时对因子的关联情形进行估计。有最小斜交法（oblimin rotation）、最大斜交法（o

30、blimax rotation）、四方最小法（quartmin）等。,目前没有可以令人信服的理由说明某种旋转方法优于另一种。选择旋转方法主要是根据研究问题的需要：,如果因子分析的目的只是要简化数据，把很多变量浓缩成少数几个，而因子的确切含义是什么并不重要，则选择正交旋转。如果研究的目标是要得到几个理论上有意义的因子，应选择斜交旋转。,解释因子,得到因子解后，我们希望给每个因子一个有意义的解释。解释因子主要借助因子负载矩阵，首先找出在每个因子上有显著负载的变量，根据这些变量的意义给因子一个合适的名字，具有较高负载的变量对因子名称的影响更大。,请给前页旋转后的因子命名。,SPSS因子分析操作,第一

31、步：AnalysisData reductionFactor，进入因子分析对话框。,求出反映像的共变量及相关矩阵。,描述统计量,因子提取,因子旋转,选择,因子得分,Save as variable：勾选时可将新建立的因子分数存储至数据文件中，并产生新的变量名称（默认为fact_1、fact_2、fact_3、fact_4等）,输出结果,旋转后因两因子相对位置不变，全体可以解释的变异量不变仍为56.24%。但是因子的完整性增加，可以解释的比重改变，分別可以解释33.22%、23.02%的变异量。,碎石图用以帮助決定因子的个数，当线型趋于平缓时，表示无特殊因子值得取。,急速上升(或下降)的线形，表示有特殊因素存在。结果显示可能有两个因子。,旋转后的成分矩阵表示构成某一因子的题项內容与比重，经过直交旋转后的因子负荷量。相类似的题项构成某一特定的因子。因此因子之命名可以由题项內容来定。,(正向人格特質),(負面人格特質),成份图表示各因子之间的相对位置与組成变量的关系图。,

展开阅读全文