多层线性模型.ppt_三一办公31ppt.com

资源描述

《多层线性模型.ppt》由会员分享，可在线阅读，更多相关《多层线性模型.ppt（87页珍藏版）》请在三一办公上搜索。

1、多层线性模型简介,Hierarchical Linear Model(HLM),主要内容,一、多层线性模型简介二、多层线性模型基本原理三、多层线性模型HLM软件的应用,多层线性模型简介,1、多层数据结构的普遍性多层（多水平）数据指的是观测数据在单位上具有嵌套的关系。（1）教育研究领域EG：学生镶嵌于班级，班级镶嵌于学校，或者学生简单地镶嵌于学校，这时学生代表了数据结构的第一层，而班级或学校代表的是数据结构的第二层；如果数据是学生镶嵌于班级，而班级又是镶嵌于学校，那么就是三层数据结构。,多层线性模型简介,（2）组织心理学研究领域Eg:雇员镶嵌于不同的组织、工厂（3）发展心理学领域Eg:纵向研究、

2、重复研究在一段时间内对儿童进行多次观察，那么不同时间的观测数据形成了数据结构的第一层，而儿童之间的个体差异则形成了数据结构的第二层。这样，就可以探索个体在其发展趋势或发展曲线上的差异。,两水平层次结构数据,水平2,水平1,层次结构数据的普遍性,层次结构数据为一种非独立数据，即某观察值在观察单位间（或同一观察单位的各次观察间）不独立或不完全独立，其大小常用组内相关(intra-class correlation，ICC)度量。例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性，数据是非独立的。,违背了传统回归（OLS）中关于残差相互

3、独立的假设采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。,经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平1变量的影响，又受到水平2变量的影响，还受到两个水平变量的交互影响(cross-level interaction)。,个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(context effect)。例如，学生（个体）的学习成绩与学生的勤奋程度有关，还与学校的师资配备有关。企业的创新能力与企业自身的创新投入、学习能力有关，还与企业所属产业

4、的R&D强度有关。,多层线性模型简介,2、多层数据的传统分析方法个体的行为既受个体自身特征的影响，也受到其所处环境的影响，所以研究者一直试图将个体效应与组效应（背景效应或环境效应）区分开来。个体效应：由个体自身特征所造成的变异。组效应：由个体所处环境所造成的变异。,多层线性模型简介,（1）只关注个体效应，而忽视组效应只在个体这一层数据上考虑变量间的关系，那么导致所观测到的效应既包含个体效应，又包含组效应，从而增大了犯一类错误的概率，夸大了变量间的关系。（2）在组水平上进行分析把数据集中起来，使其仅在第二层的组间发挥作用，从而丢失了重要的个体信息。,多层线性模型简介,（3）组内分析组间分析对相同

5、的数据进行三次计算：一是在组内的个体层上进行的分析，称为组内效应二是通过平均或整合第一层中的个体数据，得到第二层的组间数据，称为组间效应三是忽视组的特性而对所有的数据进行分析，称为总效应。在此基础上，计算组内效应和组间效应在总效应的比例，从而确定变异来自于组间还是组内。组内分析组间分析的方法较前两种方法更多地考虑到了第一层数据及第二层数据对变异产生的影响，但无法对组内效应和组间效应做出具体的解释，也就无法解释为什么在不同的组变量间的关系存在差异。,HLM数学模型,例如：对73个学校1905名学生进行调查，目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系。考虑方法：（1）如果用传统的线

6、性回归分析，直接在学生水平上进行分析，得出入学学业成绩对高考成绩之间的一条回归直线，如下图1所示，从图1的结果可以看出，传统回归分析没有区分不同的学校之间的差异。,图1：不考虑学校之间差异的回归直线,HLM数学模型,（2）如果将数据进行简单合并，用每个学校学生的平均成绩代替这个学校的成绩，直接在学校水平上估计入学成绩对高考成绩的影响，得到一条回归直线，如图2所示，这种方法忽略了不同学生（个体）之间的差异；,图2：只考虑学校差异忽略学生差异回归直线,HLM数学模型,（3）如果假设不同学校入学成绩对高考成绩的回归直线截距不同，斜率相同（平均学习成绩之间存在差异），得到如图3的结果，从图中结果可以看

7、出，不同学校学生平均高考成绩之间存在差异。,图3：考虑不同学校平均成绩差异的回归直线,HLM数学模型,（4）对73所学校分别做回归分析，得到如图4的结果，如图4所示，从图中结果可以看出，不同学校回归直线的截距和斜率均不同，即：不同学校学生平均高考成绩之间存在差异，入学学业成绩对高考成绩的影响强度不同。,图4：考虑不同学校平均成绩差异和入学对毕业成绩影响程度差异的回归直线,在许多研究中，取样往往来自不同层级和单位，这种数据带来了很多跨级（多层）的研究问题，解决这些问题的一种新的数据分析方法多层模型分析技术。这一方法的开创及发展的主要贡献者之一是英国伦敦大学的Harvey Goldstein教授

8、及研究者把这种方法称作“多层分析”。另一主要开拓者美国密歇根大学的Stephen W.Raudenbush教授和同行把它称为“分层线性模型结构”。在此，我们按照张雷等人的叫法称其为“多层线性模型”或“多层模型”。,多层线性模型简介,3、多层线性模型分析方法回归的回归方法Eg:学生成绩（X）学习动机（Y）班级教师教学水平（W）（1）求各个班级学生成绩对学习动机的回归,多层线性模型简介,（2）求教师教学水平对0j和 1j 的回归方程,多层线性模型简介,4、多层线性模型的优点（1）使用收缩估计的参数估计方法，使得估计结果更为稳定、精确收缩估计：使用两个估计的加权综合作为最后的估计。其一是来自第一层数

9、据的OLS估计，另一个是来自第二层数据的加权最小二乘法估计，最后的估计是对以上两个估计的加权。（2）可以处理样本不等的数据eg:当某些第二层单位在第一层的取样甚少时，可以借助于其他二层单位和二层预测变量，对取样较少的一层单位进行回归分析。第一层单位3个及以上。,多层线性模型简介,5、多层线性模型的应用范围（1）组织和管理研究（2）对个体进行追踪、多次观测的发展研究（3）教育研究（4）元分析研究,多层线性模型基本原理,1、多层线性模型的基本形式水平1（如：学生）水平2（如：学校）,Yij-第j个学校的第i个学生,指固定成分,随机成分,多层线性模型基本原理,为固定成分，指第二层单位间0j 和1j

10、的平均值为随机成分，指第二层单位0j 和1j 的变异,多层线性模型基本原理,把第一层和第二层方程整合如下：误差项间是相关的：同一第二层单位的个体有相同的误差项间方差不等：相同第二层单位内的个体间相似性比不同单位内个体相似性高误差项与自变量有关：残差项包含,残差项,多层线性模型基本原理,因此，多层数据并不满足传统OLS回归分析关于残差项的诸多假设。而多层线性模型将残差项进行了分解，更符合实际情况，所以对于多层数据使用多层线性模型进行分析更为合理。,多层线性模型基本模型,2、多层线性模型的基本模型零模型（The Null Model）第一层和第二层均没有预测变量，只是将方程分解为由个体差异造成的

11、部分及由组差异造成的部分，这种方法为方差成分分析。,多层线性模型零模型,第一层：第二层：合并模型：,多层线性模型零模型,指第j个二层单位Y的平均值指第j个二层单位Y的变异指所有二层单位的Y的总体平均数指第二层方程的残差（随机项）跨级相关：指Y的总体变异中有多大比例是由第二层的变异引起的。,多层线性模型完整模型,完整模型（The Full Model）既包含了第一层的预测变量，又包含了第二层的预测变量，可通过理论建构来说明解释Y的总体变异是怎样受第一层和第二层因素的影响。第一层：,多层线性模型完整模型,第二层：,多层线性模型完整模型,在第一层方程中，0代表截距，1代表斜率在第二层方程中，第

12、一个下标代表第一层参数的类型；第二个下标代表第二层参数的类型。0j和1j的预测变量可以相同，也可以不同。,多层线性模型协方差模型,在零模型与完整模型之间，可通过向各层方程中增加不同的变量，设定不同的随机成分与固定成分来建构各种分析模型。协方差模型（ANCOVA Model）第一层：第二层：,多层线性模型协方差模型,第一层方程中，预测变量采用总体平均数为参照的离差，与传统协方差分析的区别是0j被进一步分解为和1j没有随机项，反映了协方差分析的一个重要前提，协变量对因变量的回归系数的组间一致性。检验这种假设的方法是把纳入到方程中，并检验是否成立。,多层线性模型随机效应回归模型,随机效应回归模

13、型（Radom Eeffect Regression Model）第一层：第二层：,多层线性模型随机效应回归模型,此模型与完整模型的区别在于第二层没有预测变量；与传统OLS回归区别在于第一层的0j和1j是随机的而非固定的，其目的是寻找第一层的截距、斜率在第二层单位上的变异。,多层线性模型发展模型,发展模型发展模型是把多次观测结果作为时间的某种数学函数来建构模型。它多用于发展研究、纵向研究或者追踪研究。在这种模型中，第一层数据为不同时间的观察结果，第二层数据为个体的特征。,多层线性模型发展模型,第一层：线性发展模型Time:一般用编码的形式来反映增量Eg:0、1、2、3、4、5 5、4、3、2、

14、1、0线性发展模型的第一层方程并不一定为线性方程，也可以为非线性方程。Eg:,多层线性模型发展模型,“确定发展变异”的第二层：,时间变量编码为0时Y的总体平均数,线性发展斜率的总体平均值,指个体j与平均发展斜率的离差,指个体j与平均截距的离差,多层线性模型发展模型,“预测发展变异”的第二层：,考虑第二层的预测变量W后第一层的截距和第一层的斜率在第二层单位间的残差方差,代表第二层的变量W对第一层截距的效应,多层线性模型三层模型,三层模型是二层模型的直接扩展，我们也可以根据需要选择零模型与完整模型之间的任何模型。模型1：零模型第一层：第二层：第三层：,多层线性模型三层模型,第一个下标表示第一层方程

15、中的参数；第二个下标表示第二层方程中的参数；第三个下标表示第三层方程中的参数。表示第二层单位之间的变异，表示第三层单位之间的变异跨级相关：第一层的方差和总方差之比：第二层的方差和总方差之比：第三层的方差和总方差之比：,多层线性模型三层模型,模型2：完整模型第一层：第二层：,多层线性模型三层模型,第三层：,HLM应用举例,hsb1.sav和hsb2.sav 在水平一的数据文件hsb1.sav中，有7185个观测样本和四个第一水平的变量（不包含第二水平指标变量：学校编号ID），这四个变量所表示的含义如下：minority，学生的种族（1=少数民族，0=其他）female：学生性别（1=女，0=男）

16、ses：学生的社经地位，由学生父母受教育程度、职业和收入合成，变量已被标准化 mathach：学生的数学学业成绩,HLM应用举例,数据文件hsb2.sav中包含有160个学校，每个学校测量了六个学校水平的变量（不包含学校指标变量ID）。size：学校招生人数sector：学校类型（1=天主教教会学校，0=公立学校）pracad：从事学术研究的学生的比例disclim：学校纪律环境，由量表测量得到himnty：学校招生少数民族学生比例描述（1=超过40%少数民族学生，0=其他）meanses：包含在水平1数据中，每个学校学生的平均社经地位,层1数据,层2数据,HLM应用举例,目的：分析影响学生数

17、学成绩的学生水平变量和学校水平变量,指定层1变量,指定层2变量,保存MDM模板生成MDM文件查看MDM的统计量,MDM的描述统计量,选择层1的结果变量,无条件模型,无条件模型参数估计结果,Final estimation of variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,2.93501 8.61431 159 1660.23259 0.000 level-1,R 6.25686 39.14831-,填加层1解释变量,含有第一水平预测

18、变量的HLM模型（随机系数模型）,随机系数模型参数估计结果,Final estimation of fixed effects(with robust standard errors)-Standard Approx.Fixed Effect Coefficient Error T-ratio d.f.P-value-For INTRCPT1,B0 INTRCPT2,G00 12.664935 0.189251 66.921 159 0.000 For SES slope,B1 INTRCPT2,G10 2.393878 0.117697 20.339 159 0.000-,Final est

19、imation of variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,U0 2.19768 4.82978 159 905.26472 0.000 SES slope,U1 0.64675 0.41828 159 216.21178 0.002 level-1,R 6.06864 36.82835-,含有第二水平预测变量的模型,The outcome variable is MATHACH Final estimation of fix

20、ed effects(with robust standard errors)-Standard Approx.Fixed Effect Coefficient Error T-ratio d.f.P-value-For INTRCPT1,B0 INTRCPT2,G00 12.658410 0.173263 73.059 158 0.000 DISCLIM,G01-1.128519 0.160735-7.021 158 0.000 For SES slope,B1 INTRCPT2,G10 2.409288 0.112194 21.474 158 0.000 DISCLIM,G11 0.570

21、615 0.123906 4.605 158 0.000-,Final estimation of variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,U0 1.93467 3.74295 158 730.83940 0.000 SES slope,U1 0.45491 0.20694 158 189.39572 0.045 level-1,R 6.06501 36.78432-,In the level-2 model,both the

22、intercept and SES slope are to be modeled as dependent on the schools mean social class(MEANSES)and school sector(SECTOR).,填加层2的解释变量,混合模型,Using level subscripts,指定层1系数为随机的或非随机的,结果分析,个体水平模型,Yij=0j+1jX1ij+2jX2ij+KjXKij+rij,第 j 组第 i 个个体因变量的观测值,第 j个组的截距,第j 组 X1 对应的斜率,第j 组 X2 对应的斜率,第j 组 XK 对应的斜率,背景（Conte

23、xtual）模型,Yij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=00 1j=10 2j=20 Kj=K0,在传统回归（OLS）模型中,截距和斜率都是固定的，即对不同的第二水平单元均相同,背景（Contextual）影响问题,第二水平不同单元（如不同学校），截距是否相同?能否用第二水平的协变量预测截距之间的差异?斜率是否存在第二水平的变异?能否用第二水平的预测变量解释斜率之间的差异?,截距是否存在第二水平的变异?,Yij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=00+u0j1j=10 2j=20 Kj=K0,In the random effects m

24、odel,the intercept varies around some grand mean intercept(00),and the slopes are fixed they are the same in all units,Test H0:Var(u0j)=0,可否用第二水平的预测变量解释截距之间的差异?,Yij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=00+01Z1+02Z2+0MZM+u0j 1j=10 2j=20 Kj=K0,Here,the Zms predict the intercept.,Test H0:0m=0,斜率是否存在第二水平的变异?,Y

25、ij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=00+u0j1j=10+u1j2j=20+u2jKj=K0+uKj,The intercept and each of the slopes varies around their grand means(the k0s),Test H0:Var(ukj)=0,能否用第二水平的预测变量解释斜率间的差异?,Yij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=00+01Z1+02Z2+0MZM+u0j1j=10+11Z1+12Z2+1MZM+u1j2j=20+21Z1+22Z2+2MZM+u2jKj=K0+K1Z1+K2Z2+KMZM+uKj,Here,the Zms predict the slopes.,Test H0:km=0,应该注意的问题,低水平预测变量的中心化高水平样本容量变量之间共线性问题,

展开阅读全文