应用多元统计分析北大版第八章.ppt

上传人:牧羊曲112 文档编号:6571772 上传时间:2023-11-13 格式:PPT 页数:111 大小:1.17MB
返回 下载 相关 举报
应用多元统计分析北大版第八章.ppt_第1页
第1页 / 共111页
应用多元统计分析北大版第八章.ppt_第2页
第2页 / 共111页
应用多元统计分析北大版第八章.ppt_第3页
第3页 / 共111页
应用多元统计分析北大版第八章.ppt_第4页
第4页 / 共111页
应用多元统计分析北大版第八章.ppt_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《应用多元统计分析北大版第八章.ppt》由会员分享,可在线阅读,更多相关《应用多元统计分析北大版第八章.ppt(111页珍藏版)》请在三一办公上搜索。

1、1,应用多元统计分析,第八章 因子分析,2,8.1 引言8.2 因子模型8.3 参数估计方法8.4 方差最大的正交旋转8.5 因子得分8.6 Q型因子分析,第八章 因 子 分 析 目 录,3,第八章 因 子 分 析,因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法.因子分析是研究相关阵或协差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系.因子分析的形成和早期发展一般认为是从Charles Spearman在1904年发表的文章开始.他提出这种方法用来解决智力测验得分的统计分析.目前因子分析在心理学、社会学、经济学等学科都取得成功的应用.

2、,4,第八章 8.1 引 言什么是因子分析,例1 为了了解学生的学习能力,观测了n个学生p个科目的成绩(分数),用X1,Xp表示p个科目(例如代数、几何、语文、英语、政治,),X(t)=(xt1,xtp)(t=1,n)表示第t个学生p个科目的成绩,我们对这些资料进行归纳分析,可以看出各个科目(即变量)由两部分组成:Xi=aiF+i(i=1,p)(8.1.1)其中F是对所有Xi(i=1,p)所共有的因子,它表示智能高低的因子;i是变量Xi特有的特殊因子.这就是一个最简单的因子模型.,5,第八章 8.1 引 言什么是因子分析,进一步可把这个简单因子模型推广到多个因子的情况,即全体科目X所共有的因子

3、有m个,如数学推导因子、记忆因子、计算因子等.分别记为F1,Fm,即 Xi=ai1 F1+ai2 F2+aim Fm+i(i=1,p)(8.1.2)用这m个不可观测的相互独立的公共因子F1,Fm(也称为潜因子)和一个特殊因子i来描述原始可测的相关变量(科目)X1,Xp,并解释分析学生的学习能力.,6,第八章8.1 引 言什么是因子分析,例2 调查青年对婚姻家庭的态度,抽取了n个青年回答了p=50个问题的答卷,这些问题可归纳为如下几个方面,对相貌的重视、对孩子的观点等,这也是一个因子分析的模型,每一个方面就是一个因子.例3 考察五个生理指标:收缩压(X1)、舒张压(X2)、心跳间隔(X3)、呼吸

4、间隔(X4)和舌下温度(X5).从生理学的知识,这五个指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五个指标有两个公共因子,也可用因子分析的模型去处理它.,7,第八章 8.1 引 言什么是因子分析,例4 Linden对二次大战(1945年以后)奥林匹 克十项全能的得分进行研究(n=160),用X1-X10表示十项全能的标准化得分数据(十项全能包括:100米,铝球,跳高,跳远,400米,110米跨栏,铁饼,撑杆,标枪,1500米),目的是分析哪些因素决定了十项全能的成绩,以此来指导运动员的选拔工作.这些因素可归纳为如下几类:短跑速度,爆发性臂力,腿力,耐力等.这也是一个因子分

5、析的模型,每一个因素就是一个公共因子.,8,第八章8.1 引 言什么是因子分析,因子分析的主要应用有两方面:一是寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样品)综合为少数几个因子(不可观测的,相互独立的随机变量),以再现因子与原变量之间的内在联系;二是用于分类,对p个变量或n个样品进行分类.,9,第八章8.1 引 言什么是因子分析,因子分析根据研究对象可以分为R型和Q型因子分析.R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或协差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主因子、潜因子),用以对变量或样品进行分类.Q型因子分析研究样品之间的相关关系

6、,通过 对样品的相似矩阵内部结构的研究找出控制所有样品的几个主要因素(或称主因子).,10,第八章 8.1 引 言什么是因子分析,因子分析与主成分分析有区别:主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或斜交);主成分分析中主成分的个数和变量个数p相同,它是将一组具有相关性的变量变换为一组独立的综合变量(注意应用主成分分析解决实际问题时,一般只选取m(mp)个主成分),而因子分析的目的是要用尽可能少的公因子,以便构造一个结构简单的因子模型;,11,第八章8.1 引 言什么是因子分析,主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表

7、示为公因子和特殊因子的线性组合.另一方面这两种分析方法之间在某些情况下也有一定联系.这些我们将从下面的介绍中看到.,12,第八章 8.2 因子模型 正交因子模型,设X=(X1,Xp)是可观测的随机向量,E(X)=,D(X)=.F=(F1,Fm)(mp)是不可观测的随机向量,E(F)=0,D(F)=Im(即F的各分量方差为1,且互不相关).又设=(1,p)与F相互独立,且E()=0,D()=diag(21,2p)=D(对角阵).,13,第八章 8.2 因子模型 正交因子模型,假定随机向量X满足以下的模型:X1-1=a11F1+a12F2+a1mFm+1,X2-2=a21F1+a22F2+a2mF

8、m+2,(8.2.1)Xp-p=ap1F1+ap2F2+apmFm+p,则称模型(8.2.1)为正交因子模型.用矩阵表示为,14,第八章 8.2 因子模型正交因子模型,其中 F=(F1,Fm),F1,Fm称为X的公共因子;=(1,p),1,p称为X的特殊因子;公共因子F1,Fm对X每一个分量X1,X2,Xp都有作用,而i只对Xi起作用.而且各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的.,15,第八章 8.2 因子模型正交因子模型,模型中的矩阵 A=(aij)(pm)是待估的系数矩阵,称为因子载荷矩阵.aij(i=1,p;j=1,m)称为第i个变量在第j个因子上的载荷(简称为因子载

9、荷),或称为第j个因子为预测第i个变量的回归系数.,16,第八章8.2 因子模型正交因子模型,这里有几个关键性的假设:1.公共因子Fi互不相关,且 D(F)=Im 2.特殊因子互不相关,且 D()=diag(21,2p)=D 3.特殊因子与公共因子不相关,即 COV(,F)=Opm.,17,第八章8.2 因子模型正交因子模型,在主成分分析中,当讨论用前m个主成分表示原始变量的模型时,残差通常是彼此相关的.在因子分析中,特殊因子起着残差的作用,但被定义为彼此不相关且和公因子也不相关.而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子.,18,第八章8.2 因子模型正交因子模型,在正交

10、因子模型中,假定公因子彼此不相关且具有单位方差,即D(F)=Im.在这种情况下,由=D(X)=D(AF+)=E(AF+)(AF+)=AD(F)A+D()=AA+D,即-D=AA(8.2.3)(8.2.3)称为正交因子模型的协方差结构.,19,第八章 8.2 因子模型正交因子模型,由()可知,X符合正交因子模型意味着第j个变量和第k个变量(jk)的协方差jk由下式给出:(=AA+D)jk=aj1ak1+aj2ak2+ajmakm(jk)jj=(aj1)2+(aj2)2+(ajm)2+j 2,20,第八章 8.2 因子模型正交因子模型,如果原始变量已被标准化为单位方差,在(8.2.3)式中将用相关

11、阵代替协差阵.在这种意义上,公共因子解释了观测变量间的相关性.用正交因子模型预测的相关与实际的相关之间的差异就是剩余相关.评估正交因子模型拟合优度的好方法就是考察剩余相关的大小(即误差平方和Q(m)的大小).,21,第八章 8.2 因子模型正交因子模型,因子分析的任务首先是由样本协差阵估计,然后由满足的分解式(8.2.3)求得A和D.也就是从可以观测的变量X1,Xp给出的样本资料中,求出载荷矩阵A和D.又COV(X,F)=E(X-EX)(F-EF)=E(X-)F=E(AF+)F=AE(FF)+E(F)=A,(8.2.4)可见A中元素aij刻画变量Xi与Fj之间的相关性,称aij为Xi在Fj上的

12、因子载荷.,22,第八章 8.2 因子模型正交因子模型中各个量的统计意义,1.因子载荷的统计意义由因子模型(8.2.1)及(8.2.4)可知Xi与Fj的协方差 Cov(Xi,Fj)=aij如果变量Xi是标准化变量(即E(Xi)=0,Var(Xi)=1),则,这时因子载荷aij就是第i个变量与第j个公共因子的相关系数.,23,第八章 8.2 因子模型 正交因子模型中各个量的统计意义,2.变量共同度的统计意义 因子载荷矩阵A中各行元素的平方和记为hi2,称为变量Xi的共同度.为了给出hi2的统计意义,下面来计算Xi方差.,24,第八章 8.2 因子模型正交因子模型中各个量的统计意义,Xi的方差由两

13、部分组成,第一部分hi2是全部(m个)公共因子对变量Xi的总方差所作出的贡献,称为公因子方差;第二部分2i 由特定因子i 产生的方差,它仅与变量 Xi 有关,也称为剩余方差.,25,第八章 8.2 因子模型 正交因子模型中各个量的统计意义,显然,若hi2大,2i 必小.而hi2大表明Xi对公因子F1,Fm的共同依赖程度大.当hi2=1(设Var(Xi)=1)时,2i=0,即Xi能够由公共因子的线性组合表示;当hi20时,表明m个公共因子对Xi 影响很小,Xi主要由特殊因子i来描述.可见hi2反映了变量Xi 对公因子F依赖的程度.故称公因子方差hi2为变量Xi的共同度.,26,第八章 8.2 因

14、子模型 正交因子模型中各个量的统计意义,3.公共因子Fj的方差贡献的统计意义 在因子载荷矩阵A中,求A的各列的平方和,记为qj2,即,qj2的统计意义与Xi的共同度h2i恰好相反,qj2表示第j 个公因子Fj 对X的所有分量X1,Xp的总影响,称为公共因子Fj对X的贡献(qj2是同一公共因子Fj 对诸变量所提供的方差之总和),它是衡量公共因子相对重要性的指标.,27,第八章 8.2 因子模型 正交因子模型中各个量的统计意义,qj2愈大,表明Fj 对X的贡献愈大.如果我们把A矩阵的各列平方和都计算出来,使相应的贡献有顺序:,我们就能够以此为依据,提炼出最有影响的公共因子.要解决此问题,关键是求载

15、荷矩阵A的估计.,28,第八章 8.2 因子模型 因子分析的任务,1.由样本(即观测数据)得出的估计(样本协差阵),假定X符合正交因子模型,则有分解式:=AA+D 2.由样本协差阵估计A和D及公因子个数m使之满足:=AA+D(参数估计问题)3.对公共因子给出有实际背景的解释.4.估计因子得分函数和因子得分.,29,第八章 8.2 因子模型例,已知X=(X1,.,X4)的协差阵:,19 30 2 12 30 57 5 23 2 5 38 47 12 23 47 68,试求满足(8.2.3)式的因子载荷阵A(m=2)和特殊因子的协差阵D.解:比如 取A=4 7-1 1 1 2 6 8,=,30,第

16、八章8.2 因子模型例,2 0 0 0 0 4 0 0 0 0 1 0 0 0 0 3,则协差阵满足:=AA+D且有 共同度h12=42+12=17 Var(1)=2,Var(X1)=19分解式:19=17+2 即:Var(X1)=h12+Var(1),D=,31,第八章 8.2 因子模型作业习题八8.1,补充1:已知X=(X1,.,X4)的协差阵:,22 10-16 32 10 8-8 16-16-8 85 20 32 16 20 81,试求满足(8.2.3)式的因子载荷阵A(m=2)和特殊因子的协差阵D.提示:比如 取A=2 1 6 8 4 2-7 4,=,32,第八章 8.3 参数估计方

17、法,已知p个相关变量的观测数据X(i)=(xi1,xip)(i=1,n).因子分析的目的是用少数几个公共因子(设为m个)来描述p个相关变量间的协方差结构:=AA+D(8.2.3)其中 A=(aij)为pm的因子载荷阵;D=diag(21,2p)为p阶对角阵.,因子分析的参数估计问题就是估计公共因子的个数m、因子载荷阵A及特殊因子的方差2i(i=1,p),使得满足=AA+D 或AA+D.,33,第八章 8.3 参数估计方法主成分法,由p个相关变量的观测数据可得到协差阵的估计(记为S).为了建立公因子模型,首先要估计因子载荷aij和特殊方差i2.常用的参数估计方法有以下三种:主成分法,主因子法和极

18、大似然法.设样本协差阵S的特征值为2 p,相应单位正交特征向量为l1,l2,lp.记V=diag(,2,p).根据线性代数的知识(对称阵的谱分解式)有以下分解式:,34,第八章 8.3 参数估计方法主成分法,S=(l1 lp)V(l1 lp)或 S=l1 l1+2l2 l2+plp lp,当最后 p-m 个特征值较小时,则 S 可近似地分解为,(A为pm阵,B为pp-m阵),35,第八章 8.3 参数估计方法主成分法,其中,A=,=(aij)为pm阵,2i=sii-(a2i1+a2i2+.+a2im)(i=1,2,p).,(8.3.2),(8.3.2)式给出的A和D就是因子模型的一个解.,(D

19、=diag(BB),(8.3.1),36,第八章 8.3 参数估计方法主成分法,载荷阵A中的第j列(即第j个公共因子Fj在X上的载荷)和第j个主成分的系数相差一个倍数(j)1/2(j=1,2,m).,故(8.3.2)式给出的这个解常称为因子模型的主成分解.,37,第八章 8.3 参数估计方法主成分法,若记 E=S-(AA+D)=(ij),可以证明(见习题8-4)Q(m)=2ij 2m+1+2p(8.3.3)当m选择适当,则近似式 S=(AA+D)(8.3.1)的误差平方和Q(m)很小.,38,第八章 8.3 参数估计方法主成分法,公共因子个数m的确定方法一般有两种:一是根据实际问题的意义或专业

20、理论知识来确定;二是用确定主成分个数的原则.选m为满足:1+m/1+m+p P0(比如P0=0.70或0.85等)的最小正整数.当相关变量的量纲不同或所取单位的数量级相差较大时,我们常常先对变量标准化.标准化变量的样本协差阵就是原始变量的样本相关阵R.用R代替S,类似可得主成分解.,39,第八章 8.3 参数估计方法主因子法,从R出发,下面来介绍主成分法的一种修正.设R=AA+D,则 R-D=AA=R*称为约相关阵.如果我们已知特殊方差的初始估计,也就是已知先验公因子方差(即共同度)的估计为,则约相关阵R*=R-D为,40,第八章 8.3 参数估计方法主因子法,计算R*的特征值和特征向量,取前

21、m个正特征值*2*m*,相应特征向量为l1*,l2*,lm*.则有近似分解式:R*=AA,其中,令,则A和,为因子模型的一个解,这个解就称为主因子解.,41,第八章 8.3 参数估计方法主因子法,在实际应用中特殊因子方差i2 或公因子方差(也称为共同度)hi2 是未知的.以上得到的解是近似解.为了得到近似程度更好的解,常常采用迭代主因子法,即利用上面得到的D*=作为特殊方差的初始估计,重复上述步骤,直到解稳定为止.,因特殊因子方差,故求特殊因子方差的初始估计等价于求公因子方差(或称共同度)hi2的初始估计.,42,第八章 8.3 参数估计方法主因子法,公因子方差(或称变量的共同度)几种常用的初

22、始估计方法:hi2取为第i个变量与其他所有变量的多重相关系数的平方(或者取i2=1/rii,其中rii是R-1的对角元素,则hi2=1-i2.PRIORS=ASMC|A).hi2 取为第i个变量与其他变量相关系数绝对值的最大值(PRIORS=MAX|M);取hi2=1,它等价于主成分解(PRIORS=ONE|O).,43,第八章 8.3 参数估计方法极大似然法,假定公因子F和特殊因子服从正态分布,那么我们可得到因子载荷阵和特殊方差的极大似然估计.设p维观测向量X(1),X(n)为来自正态总体Np(,)的随机样本,则样本似然函数为,的函数L(,).设=AA+D,取=X,则似然函数L(X,AA+D

23、)为A,D的函数:(A,D),求A,D使达最大.为保证得到唯一解,可附加计算上方便的唯一性条件:AD-1A=对角阵,用迭代方法可求得极大似然估计A和D.,44,第八章 8.3 参数估计方法应用例子,对全国30个省市自治区经济发展基本情况的八项指标作因子分析.考虑的八项指标为:X1-GDP X2-居民消费水平 X3-固定资产投资 X4-职工平均工资 X5-货物周转量 X6-居民消费价格指数 X7-商品零售价格指数 X8-工业总产值(数据来源1996年“中国统计年鉴”),45,第八章 8.3 参数估计方法应用例子,甘肃 553.35 1007 114.81 5493 507.0 119.8 116

24、.5 468.79青海 165.31 1445 47.76 5753 61.6 118.0 116.3 105.80北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43天津 920.11 2720 345.46 6501 342.8 115.2 110.6 582.51河北 2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.85山西 1092.48 1250 290.90 4721 717.3 116.9 115.6 697.25内蒙 832.88 1387 250.23 4134 781.7

25、117.5 116.8 419.39辽宁 2793.37 2397 387.99 4911 1371.1 116.1 114.0 1840.55吉林 1129.20 1872 320.45 4430 497.4 115.2 114.2 762.47黑龙江 2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37上海 2462.57 5343 996.48 9279 207.4 118.7 113.0 1642.95江苏 5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64浙江 3524.79 224

26、9 1006.39 6619 754.4 116.6 113.5 916.59安徽 2003.58 1254 474.00 4609 908.3 114.8 112.7 824.14福建 2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67,X1 X2 X3 X4 X5 X6 X7 X8,46,第八章 8.3 参数估计方法应用例子,江西 1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84山东 5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.69河南

27、3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92湖北 2391.42 1527 571.68 4685 849.0 120.0 116.6 1220.72湖南 2195.70 1408 422.61 4797 1011.8 119.0 115.5 843.83广东 5381.72 2699 1639.83 8250 656.5 114.0 111.6 1396.35广西 1606.15 1314 382.59 5105 556.0 118.4 116.4 554.97海南 364.17 1814 198.35 5340 232.1 113.

28、5 111.3 64.33四川 3534.00 1261 822.54 4645 902.3 118.5 117.0 1431.81贵州 630.07 942 150.84 4475 301.4 121.4 117.2 324.72云南 1206.68 1261 334.00 5149 310.4 121.3 118.1 716.65西藏 55.98 1110 17.87 7382 4.2 117.3 114.9 5.57陕西 1000.03 1208 300.27 4396 500.9 119.0 117.0 600.98宁夏 169.75 1355 61.98 5079 121.8 117

29、.1 115.3 114.40新疆 834.57 1469 376.95 5348 339.0 119.7 116.7 428.76,解 此例中,n=30,p=8.在以上三种估计方法中,主成分解应用较广泛.具体计算步骤如下:,47,第八章 8.3 参数估计方法应用例子,(1)由原始数据X计算样本均值及样本相关阵.(2)求样本相关阵R的特征值和标准化特征向量.记2 p为R的特征根,相应单位正交特征向量为l1,l2,lp.(3)求因子模型的因子载荷阵.确定公因子的个数m.如m为满足1+m/1+m+p0.80的最小正整数 由前m个单位正交特征向量l1,lm,令 ai=(i)1/2 li(i=1,2,

30、m),则A=(a1,am)为因子载荷阵.,48,第八章 8.3 参数估计方法应用例子,Xi的共同度hi2的估计为(5)对m个公因子(或称潜因子,主因子)作解释.求出因子载荷阵A后,即得可观测变量X1,Xp可以由m个不可观测的公因子及各自的特殊因子表示,但这m个公因子的实际意义表示什么?则要结合专业知识给出解释.,(4)求特殊因子方差:令,49,第八章 8.3 参数估计方法应用例子,以下SAS程序首先用DATA步生成SAS数据集D832,然后调用SAS/STAT软件中的FACTOR过程进行因子分析.在PROC FACTOR语句中,选项METHOD=PRIN和PRIORS=ONE表示用主成分法估计

31、因子载荷阵A和D.因主成分法是常用的参数估计法,这两个选项的值为系统的预置值,可以省略不写.选项P=0.80(或P=80)表示选取公因子个数m,使m为满足1+m/p 0.80的最小正整数.,50,第八章 8.3 参数估计方法应用例子,选项SIMPLE要求打印输出原相关变量的样本均值和标准差.VAR语句列出进行因子分析的相关变量X1至X8,data d832;input group$x1-x8;cards;北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43天津 920.11 2720 345.46 6501 342.8 115.2 110.6

32、 582.51.;proc factor data=d832 method=prin priors=one p=0.80 simple;var x1-x8;run;,51,第八章 8.3 参数估计方法应用例子的输出结果,八项经济发展指标的均值和标准差,(相关阵R这里省略了),52,第八章 8.3 参数估计方法应用例子的输出结果,相关阵R的特征值、相邻特征值之差、贡献率和累计贡献率,53,第八章8.3 参数估计方法应用例子的输出结果,因子载荷阵A(m=3),=A,54,第八章8.3 参数估计方法应用例子的输出结果,每个公因子解释的方差及最终选取的三个公因子所估计的总方差和m=3时各变量的共同度,

33、A阵中各列的平方和q2k(k=1,2,3)或相关阵R的特征值k(k=1,2,3),A阵中各行的平方和h2j(共同度)(j=1,2,8),55,第八章8.4方差最大的正交旋转,因子分析的目的不仅是求出公共因子,更主要的是知道每个公共因子的实际意义,以便对实际问题作出科学的分析.但由8.3介绍的估计方法所求出的公因子解,初始因子载荷阵并不满足“简单结构准则”,即各个公共因子的典型代表变量不很突出,因而容易使公共因子的意义含糊不清,不利于对因子进行解释.为此必须对因子载荷阵施行旋转变换,使得各因子载荷的平方按列向0和1两极转化,达到其结构简化的目的.这种变换因子载荷阵的方法称为因子旋转,而旋转变换的

34、方法主要有正交旋转,斜交旋转等.,56,第八章8.4方差最大的正交旋转理论依据,且,(8.4.1),(8.4.2),57,第八章8.4方差最大的正交旋转理论依据,(8.4.1)和(8.4.2)式说明,若F是因子模型的公因子向量,则对任一正交阵,F=Z 也是公因子向量.相应的A是公因子Z 的因子载荷阵.利用这一性质,在因子分析的实际计算中,当求得初始因子载荷阵A以后,就反复右乘正交阵,使A具有更明显的实际意义.这种变换载荷矩阵的方法,称为因子轴的正交旋转.,58,第八章8.4方差最大的正交旋转因子载荷的方差,h2i,如果A的每一列(即因子载荷向量)数值越分散,相应的因子载荷向量的方差越大.,59

35、,第八章8.4方差最大的正交旋转因子载荷的方差,下面来引入度量因子载荷阵分散程度的统计量-因子载荷的方差.首先“标准化”:,A=,a11 a1m.ap1 apm,a211 a21m.a2p1 a2pm,消除符号的影响,a211/h12 a21m/h12.a2p1/hp2 a2pm/hp2,消除各变量对公因子依赖程度(即共同度)不同的影响,=,d112 d1m2.dp12dpm2,60,第八章8.4方差最大的正交旋转因子载荷的方差,为消除aij符号不同的影响及各变量对公因子依赖程度不同的影响,令,61,第八章8.4方差最大的正交旋转因子载荷的方差,62,第八章8.4方差最大的正交旋转因子载荷的方

36、差,则因子载荷阵A的方差为:,若Vj值越大,A的第j个因子载荷向量数值越分散,如果载荷值或是趋于1或是趋于0,这时相应的公因子Fj具有简化结构.我们希望因子载荷阵A的方差尽可能大.,63,第八章8.4方差最大的正交旋转方差最大的正交旋转,设m=2,因子载荷阵A为:,则B=A是Z=F的因子载荷阵.这相当于将由F1,F2确定的因子平面旋转一个角度.利用微积分的方法可以确定选择适当的角度,使载荷阵的总方差达最大.,64,第八章8.4方差最大的正交旋转方差最大的正交旋转,当m2时,可以逐次对每两个因子Fk,Fj(kj)进行以上旋转.选择正交旋转的角度kj使这两个因子的方差之和达最大.m个因子的全部配对

37、旋转,共需旋转Cm2次,全部旋转完毕算一次循环(或一轮),经第一轮旋转后计算旋转后的因子载荷方差V(1),此时不能认为V(1)就是最大方差,还需从旋转后的载荷阵出发,再进行第二轮旋转,,等等.,65,第八章8.4方差最大的正交旋转应用例子8.4.2的继续),在例中,考虑对因子载荷阵作方差最大的正交旋转,并由旋转后的因子载荷阵解释公因子的含义.解 在以下SAS程序中,PROC FACTOR语句的选项ROTATE=VARIMAX(或R=V)表示对因子载荷阵进行方差最大正交旋转,选项N=3指定公因子个数m=3.,proc factor data=d832 rotate=varimax n=3;var

38、 x1-x8;run;,66,第八章8.4方差最大的正交旋转应用例子的继续)的输出结果,正交变换阵,方差最大正交旋转后的因子载荷阵A,67,第八章8.4方差最大的正交旋转应用例子8.4.2的继续)的输出结果,变量X1的共同度 h12=0.944830=(0.95501)2+(0.12507)2+(-0.13094)2,每个公因子解释的方差,与旋转前稍有些差异.,三个公因子估计的总方差7.166754=3.206521+2.217780+1,742453,68,第八章8.4方差最大的正交旋转应用例子的继续)的结果分析,从方差最大正交旋转后的因子载荷阵A中可见,每个因子只有少数几个指标的因子载荷较

39、大,因此可以由因子载荷阵A对指标进行分类。八项指标按高载荷可以分三类:第一个因子在指标X1,X3,X8上有较大的载荷,这些是从GDP,固定资产投资,工业总产值这三个方面反映经济发展状况的,因此命名为总量因子;,69,第八章8.4方差最大的正交旋转应用例子的继续)的结果分析,第二个因子在指标X2,X4,X5上有较大的载荷,这些是从居民消费水平,职工平均工资和货物周转量这三个方面反映经济发展状况的,因此命名为消费因子;第三个因子在指标X6和X7上有较大的载荷,这些是从居民消费价格指数和商品零售价格指数这二个方面反映经济发展状况的,因此命名为价格因子;,70,第八章 8.5 因子得分,我们已经讨论了

40、如何从样本协差阵或相关阵R出发,来获得公共因子和因子载荷阵,并给出公共因子的实际背景,当我们一旦获得公共因子和因子载荷阵以后,我们应当反过来考察每一个样品的公共因子的估计,即所谓的因子得分,因子得分可用于模型的诊断,也可作进一步分析的原始数据.但请注意,因子得分的计算并不是通常意义下的参数估计,而是对不可观测的随机向量F(公共因子)取值的估计.,71,第八章 8.5 因子得分最小二乘法,设X具有因子模型(不妨设=0)X=AF+假定因子载荷阵A已知,由A和X来估计F,使得,达最小值,-2AX+2AAF=0 可得F的估计为:,=XX-2XAF+FAAF,72,第八章 8.5因子得分最小二乘法,就是

41、因子得分的最小二乘估计.对样品X(i),因子得分值为,如果我们用主成分法估计因子载荷阵A,那么在计算因子得分的估计时,通常用最小二乘法.此时 AA=diag(,2,m),73,第八章 8.5因子得分最小二乘法,公因子得分向量为:,74,第八章 8.5因子得分最小二乘法,对样品X(i),代入公因子向量F,相应的因子得分为,因子得分阵F为:,其中zij就是主成分得分,75,第八章 8.5 因子得分最小二乘法,对照第七章介绍的样本主成分,可以看到,第i个样品的因子得分F(i)和样本主成分得分Z(i)的对应分量仅相差一个常数:,76,第八章 8.5 因子得分加权最小二乘法,设X具有正交因子模型(不妨设

42、=0)X=AF+假定因子载荷阵A和特殊方差已知,而把特殊因子 看作误差.因Var(i)=i2(i=1,.,p)一般不相等.于是我们用加权最小二乘法估计公共因子F的值.用误差方差的倒数作为权数的误差平方和,77,第八章 8.5 因子得分加权最小二乘法,(8.5.1)式中,A,D已知,X为可观测的值也是已知的,求F的估计值.,(8.5.1),令,(由附录矩阵微商的(8.2)和(8.3)式),78,第八章 8.5因子得分加权最小二乘法,这就是因子得分的加权最小二乘估计.,(8.5.2),可得到F的估计值:,79,第八章 8.5 因子得分加权最小二乘法与最大似然估计,若假定XNp(AF,D),X的似然

43、函数的对数为 L(F)=-0.5(X-AF)D-1(X-AF)-0.5Ln|2D|由此可得F的极大似然估计仍为(8.5.2)式,这个估计也称为巴特莱特因子得分.实际问题中,A,D未知,自然的作法是将它们的某种估计代入),对样品X(i),因子得分值为,80,第八章 8.5 因子得分回归法,在因子模型中,我们也可以反过来将公共因子表示为变量的线性组合,即用 Fj=j1X1+jpXp(j=1,m)(8.5.3)来计算每个样品的公因子得分.(8.5.3)式称为因子得分函数.以下用回归法给出(8.5.3)式中组合系数ij的估计bij.假设变量X为标准化变量,公因子F也已标准化.在最小二乘意义下对因子得分

44、函数进行估计,并记建立的公因子F对变量X的回归方程为,(8.5.4),81,第八章 8.5 因子得分回归法,下面来估计(8.5.4)中的回归系数bj1,bj2,bjp.这是多对多的回归问题.但Fj的值是不可观测的,为求bij我们利用由样本得到的因子载荷阵A=(aij).对公共因子Fj,由因子载荷的意义:,即,(8.5.5),82,第八章 8.5 因子得分回归法,其中,记,83,第八章 8.5 因子得分回归法,则有,于是利用回归方法所建立的公因子F对变量X的回归方程为,84,第八章 8.5 因子得分回归法,由于(8.5.3)式中方程的个数m小于变量个数p,因此只能在最小二乘意义下对因子得分进行估

45、计.以上利用回归分析方法所建立的公因子F对变量X的回归方程为 F=AR-1 X(8.5.6)(8.5.6)式中R为样本相关阵.由样本值计算相关阵R,并估计因子载荷A,代入(8.5.6)式,即得因子得分函数F的计算公式.此方法是由汤姆森(Thompson)提出来的,所得因子得分在文献上常称为汤姆森因子得分.,85,第八章 8.5 因子得分回归法与Bayes统计思想,此估计也可以从Bayes统计的思想来求得.在因子模型X=AF+中,假设F和服从正态分布.若F有一先验分布为Nm(0,Im),当给定F时,X的条件分布为Np(AF,D).下面用Bayes统计的典型手法可求得当X给定时F的条件分布(即后验

46、分布)仍为正态分布。已知,86,第八章 8.5 因子得分回归法与Bayes统计思想,当X给定时F的条件分布仍为正态分布。且条件期望为 E(F|X)=A(AA+D)-1X称条件期望 E(F|X)=A(AA+D)-1X为F对X的回归。当X=X(j)(j=1,n)得因子得分 Fj=A(AA+D)-1X(j)因子得分函数有表达式:,87,第八章 8.5 因子得分回归法与Bayes统计思想,用样本值可以计算样本协差阵,作为的估计,因子载荷阵的估计仍记为A.于是因子得分的计算公式为,当变量X为标准化变量时,样本协差阵S就是样本相关阵R.故有 F=AR-1 X,88,第八章 8.5 因子得分两种估计法的比较

47、,以上两种估计法得到的因子得分在A、D满足约束条件:AD-1 A=对角形,且对角元素很小时,两种估计方法得出的因子得分几乎相等。若从无偏性考虑,第一种估计是无偏的,而汤姆森因子得分(回归估计)是有偏的。若从平均预报误差考虑,第二种估计(汤姆森因子得分)有较小的平均预报误差。这两种估计到底哪一种好,长期以来一直有争论,至今尚未有定论。,89,第八章 8.5 因子得分应用例子的继续),在例中,用回归法求因子得分函数,计算30个样品的因子得分,并绘制第一和第二因子得分的散布图。解 在以下SAS程序中,PROC FACTOR语句的 选项SCORE要求打印因子得分系数。选项OUT=O852要求把因子得分

48、值存放到输出SAS数据集O852中。PRINT过程打印输出集O852中的三个因子得分向量。PLOT过程绘制第二因子得分对第一因子得分的散布图。,90,第八章 8.5 因子得分应用例子8.5.2的继续),proc factor data=d832 rotate=v score n=3 out=o852;var x1-x8;run;proc print data=o852;var factor1 factor2 factor3;run;proc plot data=o852;plot factor2*factor1$n=*/href=0 vref=0;run;,91,第八章 8.5 因子得分应用例

49、子的继续)的输出结果,用回归法得到的因子得分系数,把30个样品的观测值代入以上因子得分函数,即得样品的因子得分(见下面).,由因子得分系数可以写出三个因子得分函数,92,第八章 8.5 因子得分应用例子的继续)的输出结果,30个样品的因子得分(m=3),93,第八章 8.5 因子得分应用例子的继续)的输出结果,30个样品第一,二因子的因子得分的散点图,94,第八章 8.6 Q型因子分析,根据研究对象的不同,因子分析可分为R型和Q型两种.当研究对象是变量时,属于R型因子分析,前几节讨论的都是以变量作为研究对象,在样品的基础上研究变量之间的相关关系.而变量之间的相互关系表现在原始数据矩阵的列之间,

50、由相关阵或协差阵出发,研究变量的相关关系.当研究对象是样品时,属于Q型因子分析,它是在变量的基础上研究样品之间的相互关系.而样品之间的相互关系则表现在原始数据矩阵的行之间.因此进行Q型因子分析时只需把在R型因子分析中的变量和样品的作用调换过来,其余处理方法是一致的.,95,第八章 8.6 Q型因子分析,在进行R型因子分析时,变量间的相互关系我们常用相关系数来描述.在进行Q型因子分析时,应当选择样品间合适的相似性度量.一般用相似系数(即夹角余弦)作为样品间相似性的度量.设X(i)=(xi1,xip)X(j)=(xj1,xjp)是两个样品向量,它们夹角的余弦为:,96,第八章 8.6 Q型因子分析

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号