第三讲.双变量分析ppt课件.ppt

资源描述

《第三讲.双变量分析ppt课件.ppt》由会员分享，可在线阅读，更多相关《第三讲.双变量分析ppt课件.ppt（97页珍藏版）》请在三一办公上搜索。

1、第三讲双变量的统计分析,单变量的分析和统计描述，是我们了解和认识社会现象的基础。但社会生活中的现象并不是孤立存在的，现象之间往往存在或多或少的关系，或者说，社会现象之间往往是相互联系、相互影响、相互依存的。,“学好数理化，走遍天下都不怕”“学好数理化，不如有个好爸爸”,进一步了解社会现象发生和变化的原因，揭示社会现象的发展规律，探索和发现现象之间的关系，才是大多数社会研究的主要目的，而这则需要对两个变量或多个变量之间的关系进行分析。,变量之间的关系,两个变量之间的关系多个变量之间的关系在多数情况下，多个变量之间的关系又可以分解为若干个两个变量之间的关系，也就是说多个变量之间的关系可以通过若干

2、个两个变量间的关系来描述。,知识点,相关关系和因果关系主要的双变量的测量方法（1）交互分析列联表分析（2）不同层次变量的相关测量法,一、相关关系（correlation）,两变量间的相关关系指的是一个变量的值与另一个变量有连带关系。也就是，当一个变量发生变化时（或取值不同时），另一个变量也随之发生变化。（P68）如：文化程度收入期望女性的文化程度生育期望,1、相关的性质,（1）相关关系的强度相关程度，指的是相关关系的强弱或大小。相关关系的强弱或大小可以用统计法进行测量。变量间相关关系的统计结果称为相关系数。相关关系的程度介于0，1之间，0代表无相关，1 代表全相关，数值越大，表示相关的程度

3、愈强。,两点说明：,1.在对社会现象和社会行为的调查中，一般来说各种相关系数的值不可能达到1或一1)。也就是说，在社会研究中不可能存在两个完全相关的事物或现象2. 相关系数只是用来表示变量间相关程度的指标，而不是相关数值的等单位度量。如不能说相关系数0.6是相关系数0.3的2倍，只能说相关系数0.6的两个变量的关系比相关系数0.3的两个变量的关系更强。,X和Y分别代表两个变量，各有二个取值（1，2），表中的a、b、c、d分别表示不同情况下个案的数目,如果a=d=0或b=c=0，则表示X和Y全相关；如果ad=bc，即，则表示X和Y无关；如果adbc或adbc，则表示X和Y有相关关系。,例1：

4、a=d=0或b=c=0，两个变量全相关,例2：ad=bc，对角线相等，则表示无相关,例3：如果adbc或adbc，则表示X和Y有相关关系。,（2）相关关系的方向（+、-）,正相关关系和负相关关系正相关关系：一个变量的取值增加时，另一个变量的取值也增加，反之亦然；人们的文化程度越高，他们的收入水平也越高；文化程度较低的人，他们的收入水平也普遍较低。反之，那些收入水平较低的人，他们的文化程度一般来说也较低。,负相关关系：一个变量的取值增加时，另一个变量的取值减少；而一个变量的值减少时，另一个变量的值增加。在调查中发现，文化程度越高的被调查者，在回答问卷时，花费的时间越少，而文化程度较低的被调查者，

5、填答问卷时花费的时间较长。在此，我们可以说文化程度和问卷填答时间之间存在着负相关关系。注意：方向的分析只适用于定序以上层次的变量,（3）相关关系的对称性与非对称性,相关的两个变量，不一定有因果关系，可能是共同变化。不对称关系：自变量X影响因变量Y，但是因变量Y不会影响X-因果关系，如施肥量和小麦产量之间的关系对称关系：不能确定或区分两个变量的方向。如交往的多少与他们的互爱程度,因果关系,大多数的社会研究，都涉及因果关系的概念，社会研究的最终目的，往往在于希望获得某些社会现象间因果关系的知识。如“受教育程度与人们的职业获得的研究”、“不同职业的被调查者收入的差异”-首先认为这些变量之间存在因果

6、关系。研究的目的在于辨明这些研究的因果关系状态,（4）相关的类型,相关关系是一种数量关系上不很严格的相互依存关系。如果这种关系近似地表现为一条直线，就称为直线相关，又称线性相关；如果这个关系近似地表现为一条曲线，则称为曲线相关，又称非线性相关。虽然在自然界和社会生活中，曲线相关现象远比直线相关更多，但由于数学手段上的局限性，社会统计研究中多以阐述线性（直线）相关为主。,如何来测量相关系数呢？有两个标准：选用统计值有意义的相关测量法，在统计学中有一组相关测量法，具有消减误差比例的意义，称为PRE测量法要注意变量的不同层次，属于不同测量层次的变量，就要用不同的相关测量法。,（5）削减误差比例,可以

7、表示两个变量间关系的强弱消减误差比例（PRE测量，Proportionate reduction in error）：我们在预测或解释社会现象y时，难免会有误差（错误），假定另一种社会现象x与y是有关系的，我们可以根据x的值来预测y的值，理应可以减少若干误差，其值表示的就是x对y的误差的消减程度,理解：x对y的可认知程度,如假定不知道x的值，我们在认识y时的全部误差是E1。我们知道x的值，可以根据x的值来认识y的值时的误差的总数(不可认知的部分）为E2，那么用x的值来预测y的值时减少的误差就是E1-E2，这个值（ E1-E2 ）与y全部误差的比例，则称谓消减了的误差比例,Y右图红色表示E1-E

8、2，,E1,PRE的数值越大，表示以x值预测y值时，减少的误差所占的比例越大，说明x与y的关系越强。,PRE值的意义：,1、PRE的值在0，12、E2=0，则PRE=1，x与y是全相关，用x解释y时不会产生误差3、E1=E2，则PRE=0，x与y是无相关，用x来预测y时产生的误差等于不用x来预测y时的误差4、如PRE=0.8，表示用x预测y可以减少80%的误差，也反映了两者的相关程度颇高；如果PRE=0.08，则表示只能减少8%的误差，即x对y的影响甚小，需要寻找其他的变量解释或预测y,强调：PRE值的两个意义,用一个变量预测另一个变量能消减的误差比例两个变量之间关系的大小,学习提示：,鉴于大

9、家的基础，本次课大家把握以下几点：不需要在公式的推演和具体的计算上下功夫，这些用软件就可以操作。必须记牢不同的变量层次对应的相关测量法（即相关系数统计量）必须理解各种相关系数的意义并能解释计算出的结果,二、交互分类表与列联表,交互分类就是将调查所得的一组数据按照两个不同的变量进行综合分类。通常以交互分类表（列联表）的形式出现，如表1：,交互分析的作用,如表3，我们只能得出赞成和反对的人大致相等的结论,实际从不同性别来看，男性和女性之间存在很大的差异,思考：两个表格所显示信息的差异,交互分析的作用,较为深入的描述样本资料的分布状况和内在结构。对变量之间的关系进行分析和解释,交互分类表的形式要求,

10、每个表的顶端要有表号和标题线条规范、简洁，最好不用竖线百分比符号的处理：一种在表顶端的右角；另一种在表中每一列数字的上方表的下端用括号标出每一列的频数两个变量的安排：通常是将自变量、或被看作自变量或用来做解释的变量放在上面（列），将因变量、或被看作因变量、或被解释的那个变量放在表的左侧（行）。变量取值不宜太多。如4个自变量，5个因变量就是20个百分比少数点的位数要一致。如67.3和50.0必须要进行假设检验（多选变量的分析可以没有）,课堂提问,1.交互分类表（即列联表）的作用是什么？2.相关的性质是什么？（三个方面）3.为什么说PRE测量法可以反映两个变量之间关系的强弱？,三、相关测量法,相关

11、测量法，是用一个统计值来表示变量和变量之间的关系。这个统计值，通常称为相关系数(coefficient of association)。相关测量法有很多种，在进行选择时，主要依据以下法则：两个变量的测量层次；两个变量的影响方向(是否对称)；尽可能选择有消减误差比例意义的相关测量法。,尽可能用PRE测量法：社会学不但要描述社会现象，最重要的是要解释和预测社会现象。研究中之所以要探讨两个变量之间的关系，是为了减少解释或预测时的错误。消减误差比例，就是用一个变量x预测另一个变量y时消减的误差的量化测量。因此，在测量两个变量之间的关系时，应尽可能选择有消减误差比例意义的测量方法。,另外，在测量两个变量

12、关系时，最主要的法则是遵循变量的测量层次，即严格依据变量的层次选择合适的相关测量法。次要的准则，是注意两个变量之间的对称和非对称关系。对于这一点，最好要遵守，但不用过分强求。,变量的层次与相关测量法,社会学研究中最经常遇到的是定类、定序和定距三类变量，这三类变量在分析两个变量的关系时，会产生以下六种情况； (1)定类变量一定类变量； (2)定序变量一定序变量； (3)定距变量一定距变量； (4)定类变量一定序变量； (5)定类变量一定距变量； (6)定序变量一定距变量。下面分别介绍这几种不同测量层次变量的相关测量法。,相关测量法是什么？,（一）两个定类变量：Lambda，tau-y（都是PR

13、E测量法）,1、Lambda基本逻辑：如果两个定类变量相关，以一个变量的值来预测另一个变量的值时，倘若用众值来预测，可以减少多少误差。消减的误差在全部误差中所占的比例越大，就表示两个变量的相关越强,公式：,（1）、不对称形式：My=Y变项的众数次数my=X变项的每个值（类别）之下Y变项的众数的次数n=全部个案数n-My=不知道x值的情况下预测Y值产生的误差分子E1-E2=（n-My）-（n-my）= my-My,例1：分析性别与理想志愿之间的关系,（2）对称形式：不确定两个变量的影响方向,My=Y变项的众数次数Mx=X变项的众数次数mx=Y变项的每个值（类别）之下X变项的众数次数my=X变项的

14、每个值（类别）之下Y变项的众数次数n=全部个案数,例：青年的教育期望与父母的教育期望,不足：相关测量法，是以众数作为测量的准则，不理会众数以外的频数分布，因此，如果众数全部集中在交互分类表中的同一列或同一行中，则系数便会等于0，如表114所示的数据。,这一结果表示性别与就业取向是没有关系的，但从交互分类表中可以看出，性别和就业取向或多或少还是有关系的。之所以出现相关系数为零这样的结果，主要是因为表中的众数都在同一行。为了弥补相关测量法的这类不足之处有些研究者就采用古德曼和古鲁斯卡的相关系数测量两个定类变量的相关程度。,特例：如下表，72.4%的制造业工人和64.3%的服务业人员注重物质报酬，职

15、业类型与价值取向是略有影响的，但是,2、tau-y,不对称测量法系数值介于0-1之间计算系数时包括了所有的边缘次数和条件次数如果是不对称关系最好选用tau-y计算计算过程：先求出E1和E2，计算消减误差的比例,n=全部个案数目f=某条件次数Fy=Y变项的某个边缘次数Fx=X变项的某个边缘次数,前例：,（二）两个定序变量：Gamma、 dy,对称关系：Gamma不对称关系：萨默斯dy系数值-1，+1系数值既表示相关的程度，也表示相关的方向，还具有消减误差比例的意义基本逻辑：根据任何两个个案在某变项上的等级来预测他们在另一个变量上的等级时，可以减少的误差是多少，它是以每对个案取值的等级作为预测准则

16、的。,级序相关法是成对考虑个案之间的关系，那么先来看一下有关“对”的概念。假定研究青年的学历水平和工资等级的关系，将学历水平分为低、中、高三个等级，取值分别为1、2、3，工资等级也分为低、中、高三个等级，取值分别为1、2、3，那么我们就可以知道每个被调查者的基本情况(如表115所示)。,3X同分对(same graded pair on X) x同分对指的是两个个案在x变量上的等级是相同的，区分不出高低，通常用Tx表示。4Y同分对(same graded pair on Y)y同分对是指两个个案在y变量上的等级是相同的，通常用Ty表示。 5x、Y同分对(same graded pair on

17、X and Y) x、 Y同分对是指两个个案在x和y变量上的等级都是相同的，通常用T x y表示。,1、对称关系： Gamma,Gamma的计算公式：,Ns=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22*f33NS=12（30+5+16+12）+10（5+12）+8（16+12）+30*12=1510,Nd=f13(f21+f22+f31+f32)+f12(f21+f31)+f23(f31+f32)+f22*f31Nd=3（30+8+16+4）+10（8+4）+5（4+16）+304=514,工人的文化程度和收入水平成正相关关系相关程度是

18、0.492用工人的文化程度来解释工人的收入水平时可以减少49.2%的误差,2、非对称关系：萨默斯dy,dy属于非对称相关测量Ty是指因变量是同序对的对数。（分母表示的是Y所有的误差）同一横行次数的乘积,例,Ns=23（55+24+28+27）+11（27+24）+20（28+24）+5524=6003Nd=4（11+55+8+27）+20（11+8）+28（8+27）+558=2204Ty=23（20+4）+204+11（55+29）+5528+8（27+24）+2724=4141,注意：原则上对称分析用Gamma，不对称分析用dy，但在实际的运用中，一些不对称分析中（区分了自变量和因变量）也

19、用Gamma，虽然不太严谨，但可以接受。测量时首先注意的是变量的层次，对称性是次要的考虑,3、其他测量法之一：tau系数,计算同序对数与异序对数之差在全部可能对数中所占的比例适用于分析对称关系tau-atau-btau-c,（1） tau-a,（2）tau-b,（3）tau-c,3、其他测量法之二：斯皮尔曼的rho系数,特点：不仅区别了两者的高低差异，还知道差异的具体数值大小D表示每个个案在两列级别顺序上的相互抵消。D2可以避免正负抵消,rho系数的意义,对称相关测量法其统计值是一1到十1，可表示相关的程度和方向。其平方值具有消减误差比例的意义。,由数据可知，，n10，那么：可见，文化水平

20、和收入水平的关系是非常强的。这个统计值不区分哪个是自变量，哪个是因变量。其平方值表示以一个变量的等级来预测另一个变量的等级时，可以减少84.64的误差。,（三）两个定距变量： Pearson相关系数r,测量两个定距变量的相关关系时，经常用到皮尔逊(Pearson)的积矩相关系数(通常用r或R表示)，取值范围在一1到十1之间。积矩相关系数主要分析对称性关系，公式如下：,Pearson相关系数的意义,对称相关测量法：不分自变量和因变量其统计值是一1到十1，可表示相关的程度和方向。其平方值具有消减误差比例的意义。,如何解释这一结果？,（四）、简单线性回归：两个定距变量（非对称关系）,两个定距变量不仅

21、可以计算相关系数，确定相关的程度和方向，而且还可以进一步确定两个变量的线性关系。线性回归分析法是用自变量的数值预测或估计因变量的数值，积矩相关系数r可以用来测量两个变量的相关程度和方向。,b系数：分析不对称关系的变量,根据公式计算得出b=0.90,a=1.22,回归系数b的意义,b的大小反映了x对y的影响力，b代表每增加一个单位的x值时，y值的变化量。b值有正负之分，b0表示x对y有正向影响，即X增大时IY也增大；b0则表示x对y有负向影响，即x增大时，Y却减小。b表示自变量对因变量的影响和方向，分析的是非对称关系。,需要注意的是，在非标准化的情况下，b的取值不限于一l到十1，它取决于变量的测

22、量单位，不同变量的测量单位不同，因此b的值不能用于比较大小。由于b值没有一定的上限，因此很少用来表示两个变量之间的相关程度,而用Pearson的积矩相关系数（r）来表示。,（五）定类变量与定序变量： Lambda，tau-y,由于定序变量具有定类变量层次的数学特征，因此，大部分研究者在分析定类变量和定序变量的关系时，都采用Lambda和tau-y系数测量法，也就是将定序变量作为定类变量来看待。虽然这种做法会损失定序变量的一些数学特质，但计算起来较为方便。,（六）定类变量与定距变量：eta,不对称变量，根据自变量的值来预测、估计因变量的值取值为0，1公式的获得是通过消减误差比例公式得到（考虑到正

23、负值消减问题，所以取平方值）E2有消减误差比例的作用（李p106-107）,Yi：表示的是每个自变量上个因变量的均值Y:表示因变量的均值,Eta系数的意义：,取值为0，1，因为其中一个变量为定类变量，无方向上的意义，只表示程度大小。E2有消减误差比例的作用用于非对称关系的测量,计算得到E2=0.17；E=0.41,你如何解释这个结果？,（七）定序变量与定距变量：相关比率E2,通常用相关比率E2来测量定序变量和定距变量的关系，也就是把定序变量作定类变量处理。相关比率测量的是非对称关系，值域在0到1，具有消减误差比例的意义。,小结,相关测量法用简单的相关系数值简化了两个变量之间的关系。相关测量法在运用时，特别要注意变量的测量层次；不同层次变量测量方法的归纳见下表所示,不同层次变量的相关测量法,不同层次变量的相关测量法续表一,不同层次变量的相关测量法续表二,

展开阅读全文