《因子分析课件-因素分析-详解.ppt》由会员分享,可在线阅读,更多相关《因子分析课件-因素分析-详解.ppt(41页珍藏版)》请在三一办公上搜索。
1、Factor Analysis,因素分析,一、案例引读,二、基本原理,三、历史渊源,四、分析步骤,目录,五、案例详解,一、案例引读,二、基本原理,三、历史渊源,四、分析步骤,五、案例详解,因素分析,我要定制衣服,身高,袖长,胸围,腰围,肩宽,肩厚,颜色,我们厂要批量制作衣服,S,M,L,长度,胖瘦,一、案例引读,因素分析,身高,袖长,胸围,腰围,肩宽,肩厚,颜色,降维,第一主成分,第二主成分,第三主成分,将错综复杂的原变量归结为少数几个主成分,主成分分析,二、基本原理,三、历史渊源,四、分析步骤,五、案例详解,主成分分析特点,原始变量间相关性较大,几个主成分之间相互独立,主成分信息由大到小,身
2、高,肩宽,袖长,1,3,2,原始变量数与主成分数相等,5色5变量,5色5主成分,一、案例引读,因素分析,二、基本原理,三、历史渊源,四、分析步骤,五、案例详解,一、案例引读,二、基本原理,因素分析,因素分析(Factor Analysis)就是将错综复杂的实测变量归结为少数几个因子的多元统计分析方法。其目的是揭示变量之间的内在关联性,简化数据维数,便于发现规律或本质。,因素分析的基本原理是根据相关性大小把变量分组,使得同组变量之间的相关性较高,不同组变量之间相关性较低。每组变量代表一个基本结构,这个结构用公共因子来进行解释。,三、历史渊源,四、分析步骤,五、案例详解,一、案例引读,二、基本原理
3、,因素分析,因子负荷量是指因素结构中原始实测变量与因素分析时抽取出共同因素的相关程度。在因素分析中,用两个重要指标“共同度”和“特殊因子”描述。,特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。,方差贡献率-指公共因子对实测变量的贡献,又称变异量。,共同度是每个变量在每个共同因素之负荷量的平方总和(一横列中所有因素负荷量的平方和)。从共同性的大小可以判断这个原始实测变量与共同因素间之关系程度。,三、历史渊源,四、分析步骤,五、案例详解,二、基本原理,三、历史渊源,一、案例引读,Charles Spearman,1904年,对智力测验得分进行统计分析,古典语
4、(C),法语(F),英语(E),音乐(Mu),数学(M),判别(D),R,因素分析,四、分析步骤,五、案例详解,二、基本原理,三、历史渊源,一、案例引读,R,4个假设:已知,2,1,xi=aiF+ei,因素分析,四、分析步骤,五、案例详解,二、基本原理,三、历史渊源,一、案例引读,x1=a11F1+a12F2+a1mFm+a11x2=a21F1+a22F2+a2mFm+a22xp=ap1F1+ap2F2+apmFm+app 因素分析把每个原始变量分解成两部分:一部分由所有变量共同具有的少数几个因子构成,即所谓公共因素部分;另一部分是每个变量独自具有的因素,即所谓独特因子部分。其中,F1,F2,
5、Fm叫做公共因子,它们是在各个变量中共同出现的因子。i(i=1,2,p)表示影响xi的独特因子,指原有变量不能被因子变量所解释的部分,相当于回归分析中的残差部分。aij叫做因子负荷(载荷),它是第i个变量在第j个主因子上的负荷,它反映了第i个变量在第j个主因素的相对重要性。xp 为第p个变量的标准化分数;m为所有变量共同因素的数目;,F1,F2,Fm彼此独立(转轴方法问题),数学模型,因素分析,四、分析步骤,五、案例详解,四、分析步骤,xi=aiF+ei,因素分析,二、基本原理,一、案例引读,五、案例详解,三、历史渊源,四、分析步骤,因素分析,二、基本原理,一、案例引读,五、案例详解,三、历史
6、渊源,主成分法,FF,利用主成分分析把前几个主成分作为未旋转的公共因子。,F=DF共同度不变每个因子的贡献度变化因子载荷矩阵变化,四、分析步骤,因素分析,二、基本原理,一、案例引读,五、案例详解,三、历史渊源,F=DF,保持F间相互独立,斜交旋转,正交旋转,不是很容易解释因子,放弃F间相互独立,容易解释因子,五、案例详解,二、基本原理,一、案例引读,五、分析步骤,三、历史渊源,详见问卷统计与分析实务吴明隆著;因素分析章节,北京中等职业教育发展水平分析,对北京18个区县中等职业教育发展水平的9个指标进行因子分析,然后进行综合评价。x1:每万人中等职业教育在校生数 x2:每万人中等职业教育招生数
7、x3:每万人中等职业教育毕业生数 x4:每万人中等职业教育专任教师数 x5:本科以上学校教师占专任教师的比例 x6:高级教师占专任教师的比例 x7:学校平均在校生人数 x8:国家财政预算中等职业教育经费占国内生产总值的比例 x9:生均教育经费,案例 1,(1)选择“Analyze(分析)Data Reduction(数据缩减)Factor(因子)”命令,弹出“Factor Analyze(因子分析)”对话框,将变量“x1”到“x9”选入“Variables(变量)”框中。,图1-1 Factor Analyze对话框,案例 1,案例 1,(2)设置描述性统计量:单击图1-1对话框中的“Desc
8、riptives”按钮,弹出“Factor Analyze:Descriptives”(因素分析:描述性统计量)对话框。,“Statistics”(统计量)对话框 A“Univariate descriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。B“Initial solution”(未转轴之统计量):显示因素分析未转轴前之共同性、特征值、变异数百分比及累积百分比。,“Correlation Matric”(相关矩阵)选项框A“Coefficients”(系数):显示题项的相关矩阵 B“Significance levels”(显著水准):求出前述相关矩阵地显著水准。C
9、“Determinant”(行列式):求出前述相关矩阵地行列式值。D“KMO and Bartletts test of sphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartletts的球形检定。E“Inverse”(倒数模式):求相关矩阵的反矩阵。,F“Reproduced”(重制的):显示重制相关矩阵,上三角形矩阵代表残差值;而主对角线及下三角形代表相关系数。G“Anti-image”(反映像):求出反映像的共变量及相关矩阵。,图1-2 Factor Analyze:Descriptives对话框,案例 1,(3)设置对因素的抽取选项:单击图1-
10、1对话框中的“Extraction”按钮,弹出“Factor Analyze:Extraction”(因素分析:萃取)对话框。,“Method”(方法)选项框:下拉式选项内有其中抽取因素的方法:A“Principal components”法:主成份分析法抽取因素,此为SPSS默认方法。B“Unweighted least squares”法:未加权最小平方法。C“Generalized least square”法:一般化最小平方法。D“Maximum likelihood”法:最大概似法。E“Principal-axis factoring”法:主轴法。F“Alpha factoring”
11、法:因素抽取法。G“Image factoring”法:映像因素抽取法。,“Analyze”(分析)选项框A“Correlation matrix”(相关矩阵):以相关矩阵来抽取因素。B“Covariance matrix”(共变异数矩阵):以共变量矩阵来抽取因素。,“Display”(显示)选项框A“Unrotated factor solution”(未旋转因子解):显示未转轴时因素负荷量、特征值及共同性。B“Scree plot”(陡坡图):陡坡图。,“Extract”(抽取)选项框A“Eigenvalues over”(特征值):后面的空格默认为1,表示因素抽取时,只抽取特征值大于1者
12、,使用者可随意输入0至变量总数之间的值。B“Number of factors”(因子个数):选取此项时,后面的空格内输入限定的因素个数。,图1-3 Factor Analyze:Extraction对话框,案例 1,(4)设置因素转轴:单击图1-1对话框中的“Rotation”按钮,弹出“Factor Analyze:Rotation”(因素分析:旋转)对话框。,“Display”(显示)选项框:A“Rotated solution”(转轴后的解):显示转轴后的相关信息,正交转轴显示因素组型矩阵及因素转换矩阵;斜交转轴则显示因素组型、因素结构矩阵与因素相关矩阵。B“Loading plots
13、”(因子负荷量):绘出因素的散步图。,“Maximum Iterations for Convergence”:(收敛最大迭代):转轴时执行的迭代最多次数,后面默认数字为25,表示算法执行转轴时,执行步骤的次数上限。,图1-4 Factor Analyze:Rotation对话框,案例 1,(5)设置因素分数:单击图1-1对话框中的“Scores”按钮,弹出“Factor Analyze:Scores”(因素分析:因素分数)对话框。,“Save as variable”(因素存储变量)选项框:勾选时可将新建立的因素分数存储至数据文件中,并产生新的变量名称(默认为fact_1、fact_2、fa
14、ct_3、fact_4等)。在“Method”(方法)框中表示计算因素分数的方法有三种:A“Regression”:使用回归法。B“Bartlett”:使用Bartlette法。C“Anderson-Robin”:使用Anderson-Robin法。,“Display factor coefficient matrix”(显示因素分数系数矩阵)选项:勾选时可显示因素分数系数矩阵。,图1-5 Factor Analyze:Scores对话框,案例 1,(6)设置因素分析的选项:单击图1-1对话框中的“Options”按钮,弹出“Factor Analyze:Options”(因素分析:选项)对话
15、框。,“Missing Values”(缺失值)选项框:缺失值的处理方式。A“Exclude cases listwise”(完全排除缺失值):观察值在所有变量中没有缺失值后才加以分析。B“Exclude cases pairwise”(成对排除观察值):在成对相关分析中出现缺失值的观察值舍弃。C“Replace with mean”(用平均数置换):以变量平均值取代缺失值。,“Coefficient Display Format”(系数显示格式)选项框:因素负荷量出现的格式。A“Sorted by size”(依据因素负荷量排序):根据每一因素层面的因素负荷量的大小排序。B“Suppress
16、 absolute values less than”(绝对值舍弃的下限):因素负荷量小于后面数字者不被显示,默认的值为0.1。,图1-6 Factor Analyze:Options对话框,SPSS正在吭哧吭哧地为我们计算结果,请大家耐心等待哦!,案例 1,(7)设置完所有的选项后,单击“OK”按钮,输出结果。,经过千辛万苦的努力,我们终于可以看到结果数据了,大家有没有很兴奋呢?,案例 1,(1)相关系数矩阵及其检验结果,相关矩阵,表1-7 相关系数矩阵及其检验结果,表1-7是原有变量的相关系数矩阵及其检验。可以看到,大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,初步
17、判定适合进行因素分析。,案例 1,KMO是Kaiser-Meyer-Olkin的取样适当性量数,用于比较变量间简单相关和偏相关系数。KMO的取值范围在0-1之间。当KMO值越大时,表示变量间的共同因素越多,越适合进行因素分析。Kaiser(1974)给出一个KMO的选取适合做因子分析的标准:KMO0.9 非常适合0.8KMO0.9 适合0.7KMO0.8 一般0.6KMO0.7 不太适合0.5KMO0.6不适合KMO0.5 非常不适合 进行因素分析的普通准则至少要在0.6以上 此处的KMO值为0.762,表示适合因素分析。,Bartletts球形检验是以变量的相关系数矩阵为出发点,零假设相关矩
18、阵是一个单位阵。(即sig.值小于0.05时,适合做因子分析。)此题中,Bartletts球形检验的2值为131.281,自由度为36,sig.值为0.000,达到显著,适合进行因素分析。,表1-8 KMO及Bartlett检验结果,(2)KMO及Bartlett检验结果,案例 1,(3)共同性,表1-9 因素间共同性结果,表1-3为每个变量的初始共同性以及主成分分析法抽取主成分后的共同性。共同性越低,表示该变量不适合投入主成分分析中;共同性越高,表示该变量与其他变量可测量的共同特质越多,即该变量越有影响力。采用主成分分析法抽取共同因素时,初步的共同性估计值均为1。,此题中,所有变量的共同性均
19、较高,各个变量信息丢失较少。因此本次因子提取的总体效果较理想。,我们所选的3个主成分反映了x1(在校生数)的信息程度。,X1的共同度,案例 1,(4)解释总变异量,表1-10 解释总变异量,表1-10分三大部分,初始特征值(初步抽取共同因素的结果)。Total(总和)直列的数字为每一因子的特征值,特征值越大表示因子在解释9个变量的变异量时越重要;第二直列“%of Variance”(方差的%)为每一个抽取因素可解释变量的百分比;第三直列“Cumulative%”(累计%)为解释变量的变异量的累计百分比。平方和负荷量萃取(转轴前的特征值、解释变异量和累计解释变异量)将左边9个成份中抽取3个特征值
20、最大的列于右边。转轴平方和负荷量(转轴后的特征值、解释变异量及累计解释变异量)。,第一个因子的特征值为4.987,解释原有9个变量总方差的55.415%(4.9879100%),累计方差贡献率55.275%;其余数据含义类似。由于特征值是由大到小排列,所以第一个因子的解释变异量通常是最大者,它解释了总变异量的55.415%,其次是第二个1.868,再是第三个0.740。指定提取三个因子后,三个因子共解释了原有变量总方差的84.390%。总体上,三个因子反映了原有变量的大部分信息,因子分析效果理想。,转轴前三个因子的特征值分别为4.987,1.868,0.740,特征值总和为7.595;转轴后为
21、3.709,2.085,1.202,特征值总和为6.996。?转轴后,个别因子的特征值会改变,但所有因子的总特征值不变,转轴后三个因子的特征值间差异较小。转轴后四个因子可以解释的总变异量不变,仍然是84.390。,案例 1,(5)碎石图,图1-11 因素间共同性结果,碎石图(陡坡图)检验的判断准则是取坡线突然剧升的因素,删除坡线平坦的因素。图1-11中我们可以看出,第三个因素以后,坡线甚为平坦,因而保留2个因素较为适宜。此题中我们保留了3个因子,其实第3个因子似乎可以删除。,案例 1,(5)成分矩阵,表1-12 成分矩阵,表1-13 转轴后的成分矩阵,表1-12显示了因子负荷矩阵,是因子分析的
22、核心内容。可以看出,9个变量在第1个因子上的负荷都很高,意味着它们与第1个因子的相关程度高,其余2个因子与9个变量的相关性较小。另外还可以看到,这三个因子的实际含义比较模糊。,表1-12显示了旋转后的成分矩阵。招生数、在校生数、毕业生数、专任教师数和经费比例4个变量在第1个因子上有较高的负荷,第1个因子主要解释这4个变量,其意义代表中等职业教育的相对规模大小,可解释为发展规模;生均教育经费、高级教师比例、本科教师比例3个变量在第2个因子上有较高的负荷,第2个因子主要解释这3个变量,其意义代表中等职业教育的办学条件(师资、经费),可解释为办学条件;第3个因子主要解释学校平均在校生人数这个原有变量
23、,其意义可表示中等职业教育的学校规模,可解释为学校规模效益。与转轴前相比,因子含义较为清晰。,每变量在三个因子上的相关系数。,案例 1,(5)成分矩阵,表1-12 成分矩阵,表1-13 转轴后的成分矩阵,转轴的目的在于获得简单结构(simple structure),使一个共同因素很清楚的被一组变量数所界定,使每一个变量能归属于一个明确的主因素(home factor)(Spicer,2005)。因素负荷量的选取标准一般以0.4来检验。(即3个因素负荷量中只能有一个的绝对值大于0.4。)“经费比例”这一变量与共同因素二的因素负荷量为0.586,表示该变量虽然归属于共同因素一,但其与共同因素二仍
24、有很密切的关联。“本科教师比例”这一变量也类似。这种结果显示,以直交转轴的最大变异法来进行因素转轴,并未完全符合简单结构的要求。,案例 1,(5)成分矩阵,表1-13 转轴后的成分矩阵,根据该表可以写出本例的因子分析模型:招生数=0.937F1+0.142F2+0.202F3在校生数=0.909F1+0.328F2+0.205F3平均人数=0.151F1+0.331F2+0.811F3,0.9372+0.1422+0.2022=0.976,共同性为每个变量在各主成分上的负荷量的平方和。,案例 1,(6)因素转换矩阵,表1-14 成分转换矩阵,表1-14为因素转换矩阵,利用转轴前的因素矩阵乘以此
25、处的因素转换矩阵可得转轴后的因素矩阵。,案例 1,图1-15 负荷散点图,图1-15为根据表1-13“转轴后的成分矩阵”所绘出的负荷散点图,这里为3个因子的三维因子负荷散点图,以3个因子为坐标,给出各原始变量在该坐标中的负荷散点图。,(7)负荷散点图,案例 1,(8)因子得分矩阵,表1-16 因子得分矩阵,表1-16为因子得分矩阵,这是根据回归算法计算出来的因子得分函数的系数,根据该表可以得到下面的因子得分函数。F1=0.247在校生数+0.287招生数+0.275毕业生数+0.277专任教师数-0.081本科教师比例-0.111高级教师比例-0.031平均人数+0.124经费比例-0.090
26、生均教育经费;F2=-0.036在校生数-0.151招生数-0.196毕业生数+0.050专任教师数-0.239本科教师比例+0.405高级教师比例-0.141平均人数+0.228经费比例-0.489生均教育经费;F3=在校生数+0.287招生数+0.275毕业生数+0.277专任教师数-0.081本科教师比例-0.111高级教师比例-0.031平均人数+0.124经费比例-0.090生均教育经费;,据这3个因子得分函数自动计算18个样本的3个因子得分,并且将3个因子得分作为新变量,保存在数据编辑窗口中(分别为fac_1、fac_2、fac_3,如图1-17所示)。,图1-17 因子得分,案例
27、 1,(9)因子得分,表1-18 因子的协方差矩阵,案例 1,(9)因子的协方差矩阵,表1-18显示了3个因子的协方差矩阵。可知,3个因子没有线性相关性,实现了因子分析的设计目标。,图1-19 综合评价,案例 1,(9)综合评价,我们可根据上述分析结果对18个区县的中等职业教育发展水平进行综合评价。首先,根据3个因子的方差贡献率确定权重。由于3个因子在较大程度上反映了原变量的大部分信息,其累计贡献率达84.390%,因子可用因子的方差贡献率作为综合评价的权重,于是3个因子按各自的方差贡献率加权相加为综合评价得分,其计算公式为F=0.41F1+0.3F2+0.13F3,由综合评价得分值的大小确定
28、某一区县中等职业教育发展的综合水平。其次,根据F值的大小分类。计算结果如图1-19中的“综合”列。根据F值的大小可分为如下几类:第一类,综合发展水平好(综合0.5):朝阳、崇文、大兴;第二类,综合发展水平一般(0综合0.5):昌平、宣武、石景山、东城、海淀、丰台、西城;第三类,综合发展水平较差:房山、门头沟、怀柔、通县、密云、延庆、平谷、顺义。,表1-20 北京18个区县中等职业教育发展水平状况的因素分析摘要表,案例 1,(10)综合评价分析,THANK YOU,表1-8-1 KMO指标值的判断准则表,案例 1,(3)设置对因素的抽取选项:单击图1-1对话框中的“Extraction”按钮,弹出“Factor Analyze:Extraction”(因素分析:萃取)对话框。,“Extract”(抽取)选项框A“Eigenvalues over”(特征值):后面的空格默认为1,表示因素抽取时,只抽取特征值大于1者,使用者可随意输入0至变量总数之间的值。B“Number of factors”(因子个数):选取此项时,后面的空格内输入限定的因素个数。,图1-3 Factor Analyze:Extraction对话框,图1-3-1 Factor Analyze:Extraction对话框,如果我们选择特征值大于1,则输出的结果如表1-4-1。,表1-4-1 解释总变异量,