多变量分析详析模型与多元线性回归.ppt

资源描述

《多变量分析详析模型与多元线性回归.ppt》由会员分享，可在线阅读，更多相关《多变量分析详析模型与多元线性回归.ppt（109页珍藏版）》请在三一办公上搜索。

1、1,第十一讲：多变量的统计分析-详析分析与统计控制,2,社会现象的复杂性决定了社会中各事物之间的关系并不是简单的两两相关，两个变量之间的关系也可能受到其他因素（如W、T）的影响。因此，当前社会学的研究中不仅关注两个变量的关系，更关注多个变量关系的分析。,3,一、多变量分析的主要类型,详析分析多项分析多因分析多项相互分析,多变量的分析根据研究目的的不同，可以分为三类：详析分析、多因分析和多项相关分析。,4,1、详析分析,详析分析是通过引进第三个变量（如W、T），通过分析第三个变量与两个变量（X，Y）的关系，进一步加深对两个变量之间关系的了解。,5,详析分析研究的是两个变量之间的关系，引进其他

2、变量（W，T，C）的目的是要加深了解这两个变量（X和Y）的相关关系,X Y,W,T,C,6,2、多因分析,X1 X2 Y X3,说明的是多个自变量对某个因变量的共同影响和相对效果,分析两个或两个以上的自变量对一个因变量的影响,7,3、多项相关多个变量之间是如何相互影响的,X1X2 X4X3,简化众多变量之间的相关关系路径分析,8,二、详析分析,详析分析反映的是两个变量之间的关系，根据作用的不同又可以分为三种模式：因果分析：X和Y是否真有因果关系？阐明分析：X为什么会影响Y?条件分析：在不同的情况下X与Y会有不同的关系吗？,9,（一）因果分析,要鉴定X和Y之间是否确实有因果关系1、做法：引进其他

3、变量w（通常称为第三类变项），看看是否由于w既影响了x，又影响了y，而使x和y的关系发生了变化。,10,如：我们发现结婚年数(X)越多的人,发病率(Y)也越高;这是否表示二者有因果关系呢?显然不一定.结婚年数(x)越多的人，发病率(y)越高,年龄（w）,两者之间的因果关系不成立,11,在因果分析中，第三类变项（变量）称为前置变项因它在因果模型中是先于x和y的引进若干w，辨别x和y的因果关系是不是虚假的：如果我们能控制w，使之不变，而x变化时y也起变化，那么，x和y的关系可能就是真实的。,除了W的影响外，还会有其他因素的影响,12,如果控制W？简单地说就是按W的取值分组，看每一组中x和y的关系.

4、用分表法（p221）.假设W有两个值(1,2),而X与Y也是各二值,则原表与其分表的关系,如下图所示:,13,原表 XY W=1 w=2 x x分表Y y,步骤:1.分析X 与Y的关系;2.分析W1与X,W1与 Y;然后控制W1来辩明X与Y的关系.3.分析W2与X,w2与Y,然后控制W2来辩明X与Y的因果关系,14,每个分表的作用就是在W不变的情况下分析X与Y的关系,而这就是统计控制的基本原理了.在原表中W是变项,但在分表中却受到控制而变为常数.在控制W后,研究结果原则上有三种可能性:,15,第一.X与Y的关系消失,即在各分表中X与Y都没有关系.表示原表中X与Y的因果关系是虚假的,它们原来的关

5、系其实是由于W所导致的.如图所示:,WX Y,16,第二.X与Y的关系维持原状,即在各分表中X与Y的相关与原表中的相关是大致上相同的.这种情况,表示X与Y的因果关系可能是真实的,并非由W所导致。如图所示：,WX Y,17,第三、X与Y虽然仍有关系，但其相关程度弱小了，即各分表中X与Y的关系不等于0，但相关程度却低于原表中的相关。这种情况，表示所控制的第三类变项产生局部效应，即原表中X与Y的因果关系可能是真实的，但其中某些部分是由W所导致。如图所示：,WX Y,18,3、统计结果与研究状况,如果以R表示X与Y的原相关，以R1和R2分别表示两个分表中的X与Y的相关，则上述的三种研究结果可用下表表示

6、：,19,例：在某城镇调查1000户人家，目的是要研究住房的拥挤情况是否会引起夫妻之间的冲突,是否能证明住户拥挤是导致夫妻冲突的原因？,20,住户拥挤（x）与夫妻冲突（y），可能与家庭的经济水平有关,家庭经济水平,住房拥挤,夫妻冲突,？,21,因此引进经济水平变量，再进行分析,22,住户拥挤（x）与夫妻冲突（y），没有显著性关系，家庭经济水平影响了住房情况和夫妻冲突状况,家庭经济水平,住房拥挤,夫妻冲突,23,详析分析的一般步骤：,1、分析X Y，2、分析W X与W Y，3、控制W，分析X Y的变化。,24,（二）阐明分析,分析的问题是：为什么X会影响Y？如：为什么较为贫困的家庭，少年犯罪率

7、较高呢？是否由于较为贫困的家庭中父母的争吵较多，因而使儿女的品性较为恶劣呢？阐明分析的作用，就是要以事实来验证：X是通过哪些因素（如T）来影响Y的？如下图所示：,25,X YT,介入变量,26,X通过T影响Y意味着：X变动时引起T的变动，而T的变动影响Y的变动。如果控制T使之不变，结果是X变动但Y不变，则说明X是通过T影响Y；如果，在控制T以后X变而Y亦变，则证明T是无关紧要的，即X不是通过T而影响Y的。研究的方法：与因果分析相同，通过分解T比较X与Y的关系。,1、X-T-Y的关系：,27,例：调查了近300名年纪相近的妇女，发现教育水平(x)越高，子女数目(y)越少（G=-0.70）。为什么

8、？（1）如果以晚婚来解释，教育水平越高的妇女结婚越晚，因而生的孩子就较少。如要证明这种说法，就要引进“结婚年龄”作为介入变项（T），加以控制。,28,采用分表法的结果，发现在晚婚的妇女教育水平与生孩子数目的关系是G=-0.71，而在早婚的妇女中G=-0.68。分表的相关与原相关非常接近。因此，可以得出结论：晚婚的说法，不能阐明教育水平与子女数目的反比关系。也就是说，教育水平较高的妇女所生的孩子比较少，不是由于她们结婚较晚。,29,（2）如果以“重男轻女”来解释，认为教育水平越低的妇女，越是重男轻女，结果会生很多孩子。控制“重男轻女”这个介入变量之后，发现重男轻女的女性中教育水平与生育子女数量的

9、G=-0.45，不重男轻女的女性中教育水平与生育子女数量的G=-0.50虽然教育水平与生育子女数目这两个变量仍然维持反比关系，但在程度上弱于原相关（G=-0.70)结论：教育水平较低的妇女所生的子女比较多，部分是由于她们所具有的重男轻女的观念。,教育水平,生育子女数,重男轻女,30,2、结果完全阐明：X完全是通过T影响Y的不能阐明：X完全不是通过T而影响Y部分阐明：X部分是通过T影响Y的,31,（三）条件分析与互动效果,关注的是在不同情况下，X和Y的关系会不同吗？条件分析就是以第三类变项（如C）为基础来了解X与Y在不同情况下的关系。故C也称为条件变项。结果：如果在各组中X与Y的关系大致上相同，

10、则表示X与Y的关系具有普遍性。相反，如果X与Y在不同的C组中有不同的关系，就表示X与Y的关系具有条件性，也称为C变项产生互动效果。,32,我们的假设是，随着计划生育政策的实施，城市独生子女家庭的比例高于农村，这会对人们的生育意愿产生影响，使得城市中的妇女更倾向于少生孩子，因此我们引进“城乡”作为条件变量，分析城市和农村妇女文化程度与生育意愿的关系。结果发现，城市妇女中文化程度与生育意愿的关系是G0.78，农村是G0.76，两者相差不大。,文化程度与妇女生育意愿的关系是否存在城乡（C）差异？,33,不同年龄段妇女的文化程度与生育意愿的关系，发现55岁以上妇女中，文化程度与生育意愿的关系是G0.1

11、8，4555岁者为G0.35，3545岁者为G0.68，35岁以下者为G0.89。可见，年龄在妇女文化程度和生育意愿关系中所起的作用远大于城乡的影响，说明文化程度与生育意愿的关系在不同的条件下表现出不同的情况。,34,这里有几种情况：,1、压抑分析：即X与Y本来是没有关系的或关系很弱（如人口密度与精神病率），但在标明了若干条件就叫压抑变项（如文化异同）以后，X与Y显然是有关系或关系强大起来。2、曲解分析：即把原先的负相关（如教育水平与社区参与成反比，当引入性别变量后发现男、女两组的教育水平与社区参与均成正比）变为正相关，或把原先的正相关变为负相关的分析。而所用的条件（如性别）就叫曲解变项。,3

12、5,二、净相关（偏相关分析）,在前面的分析中，要用分表法，然后再与原表相比，特别是当分表很多时就很难作出结论。因此，如果能以一个统计值来综合和简化所有的分表相关，然后将之与原相关比较，问题就清楚多了。净相关分析（偏相关分析，partial analysis），就是以一个系数值表示控制第三类变项（W、T）后X与Y的相关程度的分析方法，其系数称为净相关系数。（partial correlation coefficient）,36,因为净相关系数以积矩相关系数（r）为基础，因此属于对称相关测量法的一种，它要求变项间是直线关系，且所有变项都必须是定距变项。净相关系数值是由-1至+1，表示在控制第三类变

13、项以后X与Y这两个变项的相关的程度与方向，而且其平方值具有消减误差比例的意义。,37,如以R表示原关系的强弱，以Rp表示净相关系数的大小，则在因果分析中,如果:Rp0时，表示原关系是虚假的;RpR时，表示原关系可能真实;Rp0且RpR时，表示原关系是部分真实的.,38,同样,在阐明分析中,Rp=0则表示原关系是完全阐明.即X完全是通过T影响Y的RpR时则表示原关系是不能阐明.即X完全不是通过T而影响YRp0且RpR时则表示原关系是部分阐明.即X部分是通过T影响Y的,39,根据变量测量层次的不同,定类定序和定距变量偏相关系数的计算方法也有所不同.,40,（一）定类变量：p、tau-yp,如果X和

14、Y两个变量中，至少有一个是定类变量（另一个为定类或定序变量)计算偏相关时，通常采用的是偏Lambda系数（partial Lambda，记为p）和偏tau-y系数（partial tau-y，记为tau-yp）偏Lambda系数的计算方法是通过将样本分组，分别计算各组的系数，以各组的样本数与全部样本数的比作为权数计算加权平均,即:,41,p表示偏Lambda系数；ni表示每个组的样本数量；i表示每个组的X与Y的值；n表示全部样本数。,42,同理，tau-y计算偏相关系数的公式为：tau-yp表示偏tau-y系数；ni表示每个组的样本数量；tau-yi表示每个组的X与Y的tau-y值；n表示全部

15、样本数。,43,性别与工作家庭冲突的相关系数0.22，如果我们认为工作时间可能影响青年的工作家庭冲突，而引进每天工作时间变量，如下表，每天不同工作时间的青年，性别与工作家庭冲突的关系明显减弱。,44,控制每天工作时间后，性别与工作家庭冲突的偏相关程度如何？如果已知n1=54,n2=261,n3=38计算可知：性别与工作家庭冲突的原相关系数为0.22，控制每天工作时间后的偏相关系数为0.05，p，因此可以说性别与工作家庭冲突的关系可能是部分真实关系（或者无相关），工作时间对青年工作家庭冲突产生了影响。,45,（二）定序变量：Gp,如果X和Y都是定序变量，在计算偏相关时，常用的是偏Gamma系数（

16、partial Gamma，简写为Gp）。计算方法是根据控制变量的取值将样本分组，然后分别计算各组的同序对数（Ns）和异序对数（Nd），将各组的同序对与异序对的差（NsNd）除以各组的同序对与异序对之和（NsNd）公式为：,46,如一次调查中，我们调查了400名青年，发现他们的收入和工作满意度的相关系数G0.265。假设我们认为收入和工作满意度的关系受文化程度的影响，文化程度高的青年可能收入高，但他们对自己的期望更高，从而对工作的满意度并不高。因此，我们引进文化程度变量，来计算收入和工作满意度之间的偏相关系数。,47,通过计算可知：在低教育程度组中，Ns15450，Nd13262在高教育程度组

17、中，Ns25440，Nd23154所以偏相关系数与原相关系数0.265十分接近，因此可以说收入和青年工作满意度之间的相关关系可能是真实存在的。,48,dy偏相关的原理与偏Gamma系数相同，其公式为：,49,（三）定距变量：rp=rxy.1,如果X和Y都是定距变量，可采用偏相关系数rp（partial correlation coefficient，简写为rxy1或rp）来计算其偏相关程度。它以积矩相关系数（r）为基础rp是控制一个变量以后X与Y的偏相关系数，rxy是没有控制之前X与Y的相关系数，rx1是控制变量与X的相关系数，ry1是控制变量与Y的相关系数。,50,如调查了300名青年职工，

18、发现其开始就业时的工资与现在工资的关系是r0.88。进一步分析发现两者的关系可能受中间变量受教育年数的影响，也就是说受教育年数越多的青年，他们的初始工资和现在工资越高。于是控制受教育年数，发现：rxy0.88（初始工资与现在工资的相关系数）rx10.63（受教育年数与初始工资的相关系数）ry10.66（受教育年数与现在工资的相关系数）偏相关系数0.79小于原来的相关系数0.88，可见初始工资和现在工资的关系受教育年数的影响。,51,三.偏相关系数的假设检验,rp净相关系数，n样本数的大小,K是控制变量的数目.df11，df2nk2,52,如前面偏相关分析中的例题,调查300名青年职工的初始工

19、资与现在工资的关系是r=0.88,受教育年数与初始工资的关系rx1=0.63,受教育年数与现在工资的关系ry1=0.66,控制了受教育年数后,初始工资与现在工资的关系rp=0.79.那么这种关系在总体中是否还存在?相关的假设为:,53,研究假设 H1:总体中的rxy.10虚无假设 H0:总体中的rxy.1=0由于样本中的rp=0.79,n=300,k=1,那么,54,假设显著性水平为0.05,从附录G的F分布表中可以查到,当df1=1,df2=297时的否定域为F3.84,统计值F=493.13.84,所以可以否定虚无假设,接受研究假设,即在0.05的显著性水平下,控制了受教育年数后,初始工资

20、与现在工资的相关关系在总体中仍然存在.,55,四偏相关分析的SPSS运用,如果两个变量受第三个变量的影响,如何排除第三个变量的影响测量这两个变量的相关关系?偏相关分析的任务就是在测量两个变量相关关系时,控制可能对其产生影响的变量,spss操作步骤如下.,56,(一)偏相关的操作过程,57,1.分析_相关分析_偏相关,58,2.选择进行相关分析的变量,59,60,这是没有控制变量的零阶pearson相关结果,显示的是两个变量的相关系数,一端检验的显著性水平和自由度.,偏相关,零阶相关,61,可以看出,在控制了单位性质之后,文化程度与月平均收入的相关系数为 0.268,与没有控制单位性质时的相关

21、系数0.260相比,基本相同,说明月平均收入除受文化程度的影响外,还受单位性质的影响.,62,第十二章多元线性回归分析,63,例12-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表12-2中，试分析哪些指标能影响血糖水平，并建立血糖与其它几项关系指标的回归关系。,64,65,多元线性回归分析,一、多元回归方程的概念二、多元回归分析步骤三、标准化偏回归系数四、自变量的筛选五、回归方程的总体评价六、多元线性回归的应用七、应用多元线性回归分析时需注意的事项,66,b0为回归方程的常数项；p为自变量的个数；b1、b2、bp为偏回归系数（Partial r

22、egression coefficient）意义：如 b1 表示在X2、X3 Xp固定条件下，X1 每增减一个单位对Y的效应（Y增减 b 个单位）。,表达式：,一.多元回归方程的概念,67,二.多元回归分析步骤,（1）用各变量的数据建立回归方程；,68,由上表得到如下多元线性回归方程：,69,（2）对总的方程进行假设检验,结果无显著性 1）表明所观察的自变量与应变量不存在线性回归关系；2）也可能由于样本例数过少；结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。,70,（3）当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验，若某个自变量的偏回归系数无显著性，则

23、应把该变量剔除，重新建立不包含该变量的多元回归方程。对新建立的多元回归方程及偏回归系数按上述程序进行检验，直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。,71,上例资料多元回归方程1的偏回归系数检验结果如下：,有上表可知，X1被剔除。注意：通常每次只剔除关系最弱的一个因素。由方程中剔除因素的标准（通常=0.10）,72,重新建立不包含剔除因素的回归方程,73,对新建立的回归方程进行检验,检验结果有显著性意义,74,对新方程的偏回归系数进行检验,检验结果有意义，因此回归方程保留因素X2、X3、X4 最后获得回归方程为：,75,三.标准化偏回归系数,定义：消除测量单位影响后的偏回归系数

24、。意义：在许多情况下需要比较各自变量对因变量的相对贡献大小。但由于各自变量的测量单位不同，单从各偏回归系数的绝对值大小来评价是不妥的，必须对各偏回归系数进行标准化处理，即消除测量单位的影响后，才能进行比较。,76,举例,例 y=14+4X 是17岁儿童以年龄X(岁)估计体重Y(市斤)的回归方程。若体重单位由市斤换成公斤，则回归系数是否发生改变？,若年龄单位为月？,77,标准偏回归系数计算,bj=bj Sj/SY bj为X的偏回归系数;Sj为自变量的标准差;SY 为因变量的标准差;若将各变量先经标准状态化处理后，再进行多元回归，则所得到的偏回归系数即为标准偏回归系数。,78,上例资料，已知X2

25、、X3与 X4 对血糖有影响，但其对血糖的相对作用大小如何？,比较三个标准偏回归系数0.3540.360 0.4131 1.02 1.17（倍）糖化血红蛋白对血糖的影响强度约为甘油三脂的1.17倍。,79,四.自变量的筛选,（1）向前筛选法（Forward selection）（2）向后剔除法（Backward elimination）（3）逐步法（Stepwise）,80,（1）向前筛选法（Forward selection）,事先给定一个入选标准（通常=0.05），然后根据各因素偏回归平方和从大到小，依次逐个引入回归方程至无显著性自变量可以入选为止，因素一旦入选便始终保留在方程中而不被剔除

26、。,优缺点：可自动去除高度相关的自变量，但后续变量引入会使得方程中已存在的变量重要性发生改变。,81,因变量与各自变量相关系数大小,82,向前筛选法，=0.05,83,向前筛选法，=0.10,为什么总胆固醇会从有意义因素变为无意义？,84,首先建立全部自变量的全回归方程，给定剔除标准（通常=0.10），根据各因素偏回归平方从小到大，依次逐个将无显著性的自变量从回归方程中剔除。,（2）向后剔除法（Backward elimination）,优缺点：方程不会保留无意义自变量，但可能存在共线性问题。,85,向后筛选法，=0.10,86,（3）逐步法（Stepwise）,给出入选标准（通常 1=0.0

27、5）和剔除标准（通常2=0.10），每次选入一个在方程外且最具统计学意义的自变量后，就对原在方程中的自变量做剔除检验，这个过程逐步进行，直到没有统计意义的自变量可以入选，也没有无统计学意义的自变量保留在方程中为止。,实际工作中，多采用逐步法。,87,逐步法入选标准1=0.05和剔除标准2=0.10,88,逐步法入选标准1=0.10和剔除标准2=0.15,89,90,五、回归方程的总体评价,以确定系数（R2）越大越优，但由于R2是随自变量的增加而增大，因此，在相近的情况下，以包含的自变量少者为优，也可用校正确定系数（R2a）作为评价标准。R2a不会随无意义的自变量增加而增大。校正确定系数的

28、计算：,P 为方程中包含的自变量个数。,91,92,六、多元线性回归的应用,影响因素（多因素）分析（1）多因素的筛选；1）哪些是主要因素？2）各因素的作用大小？（2）混杂因素的控制。例分析某预防措施对社区人群肠道传染病的防制效果估计和预测由于考虑到多个因素，可以显著提高估计和预测的精度。统计控制,93,七.应用多元线性回归分析时需注意的事项,（1）资料要求：因变量Y为连续变量，服从正态分布。自变量X可为连续或分类变量。Y与X1、X2、Xm之间具有线性关系。残差e服从（0，）正态分布。,指观察值与估计值之差。,94,七.应用多元线性回归分析时需注意的事项,（2）做预报时，只能在自变量X的观察值

29、范围内进行；例如：建立儿童期体表面积（Y）与身高（X1）、体重（X2）的线性回归方程，但不能利用该方程来推算某一身高、体重的成人的体表面积。（3）注意资料的特异点；,95,（5）观测值重新量化问题。,（4）样本含量一般应使样本含量是自变量数的510倍。,96,（6）自变量筛选过程中引入和剔除变量时检验的水准确定1）引入变量检验的水准小于剔除变量时检验的水准2）通常引入变量检验的水准为0.05，剔除变量时0.10，但不绝对。,97,（7）自变量的联合作用分析若要考虑X1、X2对应变量 y 的联合作用，可设置一个新变量X3=X1X2 上例中，如考虑胰岛素（X3）与糖化血红蛋白（X4）存在交互作

30、用，则设置新变量X5=X3X4 经检验后，有意义，得：,98,99,100,（8）自变量的共线性当自变量之间存在较强的相关关系时，称之为共线性，对一组存在共线性的自变量进行多元回归分析时，偏回归系数的估计值容易失真。（9）结果分析1）因变量的变异可由自变量解释的比例（R2）即R2=SS回/SS总 2）正确分析入选方程的自变量与因变量之间的关系3）正确分析未入选方程的自变量与因变量之间的关系,101,（10）残差分析,指观察值与估计值之差。在正常情况下ei服从均值为0的正态分布。对上例资料建立的回归方程作残差图分析,102,103,104,第二节多元线性相关,资料要求：Y与p个自变量X都服从

31、正态分布。1.复相关系数（多元相关系数）R,如果 F F(p,n-p-1),则在水平上拒绝H0,表示p个自变量共同对应变量的相关密切程度。R 波动范围在 01 之间，它与r 值不同，没有负值。R值越接近 1，相关越密切。R值随引入回归方程内的自变量个数增加而增大。,105,确定系数(R2)即R2=SS回/SS总,回归变异占总变异的比值.它表明由于引入有显著性相关的自变量，使总平方和减少的部分。,106,2.校正复相关系数（Ra）和校正确定系数（R2a）复相关系数随方程中变量数的增加而增大，即使无显著性的变量进入方程，其值亦增加。校正复相关系数和校正确定系数就是针对这一现象提出的一种校正，当方程中增加无显著性变量时，校正复相关系数和校正确定系数就会减少。,107,108,3.偏相关系数（rjy）,它表示在其它自变量固定的条件下，某自变量与应变量之间的相关密切程度和方向。其值也波动在-11 之间。上例资料偏相关系数的计算：,109,THE END,

展开阅读全文