多层统计分析模型.ppt_三一办公31ppt.com

资源描述

《多层统计分析模型.ppt》由会员分享，可在线阅读，更多相关《多层统计分析模型.ppt（70页珍藏版）》请在三一办公上搜索。

1、多层统计分析模型,陶庄中国CDC卫生统计研究室,绪论,青蛙与池塘（“Frog-pond theory”）,青蛙学生个体；池塘学校环境；学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！,多层数据,低一层（低水平）单位（个体）的数据嵌套（nested）于高一层（高水平）的单位（组群）之中。结局变量，个体解释变量，场景变量（contextual variables）,组内观察相关（within-group observation dependence）,同一组内的个体，较不同组的个体而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。组内同质（within-group

2、 homogeneity），组间异质（between-group heterogeneity）很小的相关将导致很大的I类错误。,多层数据的常见来源,复杂抽样；多中心临床试验；纵向研究（longitudinal studies）与重复测量（repeated measures）；“高低搭配”；Meta分析；,多层统计模型的研究内容,哪些个体解释变量会影响结局变量；哪些场景变量会影响结局变量；个体解释变量对结局变量的影响是否会受到场景变量的影响。,多层统计模型出现前对多层数据进行分析的探索,探索（1）分别估计,在个体水平和组群水平分别进行分析；试图用单一的个体水平模型的分析结果来推论另一水平的统计结

3、果。,探索（2）传统回归,用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层（cross-level）交互作用。,探索（3）两步模型（two-stage model）,第一步模型，对各组分别进行同一回归模型估计，获得一系列的系数；对这些系数的恒定性进行检验；如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。,探索（3）两步模型的问题,无论哪一步均使用OLS，并不适用；当组群过多，则十分麻烦；某些组内样本量很少时，进行回归不稳定；将每个组群认为是不相关的，忽略了其为从一大样本中抽取的事实。,多层统计模型的出现,研究的学者很多；系统的主要为两；研究的理论没有根本上的分歧

4、；双方研究成果的发布时间基本相同（上世纪80年代末90年代初）；分别有各自分析的成熟的软件；目前，大家基本上接受两组人分别独立开发出同一模型的结果。,S.Raudenbush与A.Bryk,模型称为：hierarchical linear model；软件为：HLM,H.Goldstein,模型称为：multilevel models；软件为：MLwiN（早期版本称ML3，MLn）,多层统计模型的名称,multilevel modelshierarchical linear modelrandom-effect modelrandom coefficient modelvarious comp

5、onent modelmixed-effect modelempirical Bayes model,多层统计模型的优点,同时分析组效应和个体效应；不需有独立性假设；对稀疏（sparse）数据，即每组样本很少的数据，特别有效；特别适合对发展模型（GM）的分析。,多层统计模型的局限性（1）,模型复杂，不够简约；需较大样本以保证稳定性；组群数量较少，会出现偏倚；高水平单位并非严格抽样获得；某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；,多层统计模型的局限性（2）,研究对象一般具有流动性，即受到群组影响的程度不同，虽可用出入时间进行控制，但此信息一般不可知；依然存在自变量带有

6、测量误差的问题，必需借助于结构方程模型（SEM）；完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。,用于多层统计模型的软件,专门软件：HLM；MLwiN；SuperMIX；aML；EGRET；LISREL；Mplus等。通用统计学软件：SAS；SPSS；stata；S-plus/R等。,线性多层统计模型,基础知识,组内相关系数（Intra-Class Correlation Coefficient,ICC）,组间方差占总方差的比例。可使用对“空模型”的拟合获得；值域在0到1之间，越接近1，说明相关越明显；对ICC的检验是是否选择多层模型的依据。,两水平模型的公式表达,空模型（又

7、称截距模型）,两个水平1自变量、一个水平2自变量,一般模型,SAS中的公式表达,模型假设,模型假设SAS的表达,固定和随机回归系数,模型估计方法,最大似然法（ML）,包括普通最大似然法（ML）和限制性最大似然法（REML）；两者用于估计的残差基础不同，后者的残差包括所有的随机变异；REML是SAS的MIXED过程和HLM的默认算法；REML通常用于组数量较少的模型；ML可以用于模型比较，而REML不行；REML估计较优，而ML较快。,最小二乘法（LS）,包括迭代广义最小二乘法（IGLS）和限制性迭代广义最小二乘法（RIGLS）都以普通最小二乘估计（OLS）为初始值进行迭代；地位及相对关系大致等

8、同于ML和REML；是MLwiN使用的算法。,经验Bayes方法（EB）,“收缩估计（shrinkage estimator）”以可靠性权重确定最后的估计值；对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（borrow strength）”,空模型的可靠性权重,对模型拟合的评价,SAS给出：-2LL，AIC，AICC，BIC等统计量，其值越小越好；但只在比较模型时有用；模型收敛的速度可以说明拟合的好坏。,假设检验,全局检验：F检验；局部检验：对方差-协方差估计使用Wald Z检验；对系数使用t检验；单测检验，P值需除2；其它可使用LR等。,模型比较,对于嵌套模型，使用LR检验；对

9、于非嵌套模型，使用AIC，AICC和BIC检验；无论何种，均需使用ML进行估计。,对变异的解释程度（RB）,对变异的解释程度（SB）,示例与SAS实现,例1：对医生满意度调查,Patid：病人编号；Phys：医生编号；Age：病人年龄；Sat：满意度分数；Practice：执业时间；,空模型,空模型,2步迭代完成；所有随机系数的检验均高于检验水准；ICC=0.00292/（0.00292+1.291）=0.23%不用进一步拟合多水平模型,例2：SNA角度测量值,id：观察对象编号；occa：每次观察编号；Age：病人年龄；SNA：角度；agg：场景变量；,空模型,3步迭代完成；所有随机系数的检

10、验部分低于检验水准；ICC=0.4296/（0.4296+0.5629）=43.28%应进一步拟合多水平模型,空模型加入场景变量,空模型加入场景变量,3步迭代完成，随机截距有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=345.8，空模型-2LL=352.2，则LR2=6.4，p=0.0114；RB=1-0.3330/0.4296=0.2248;,加入水平1变量（固定效应）,加入水平1变量（固定效应）,3步迭代完成，随机截距有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=199.1，前模型-2LL=345.8，则LR2=146.7，p=0.000；,检验水平1的随机性,

11、检验水平1的随机性,4步迭代完成，2个随机系数均有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=185.6，前模型-2LL=199.1，则LR2=3.5，p=0.1738；,跨层交互作用评估,跨层交互作用评估,5步迭代完成，随机截距有意义，但交互项没意义；-2LL等都对前模型有所增加；跨层交互作用不显著。,建模一般步骤,运行空模型以获得ICC，判断是否进行多层模型拟合；加入水平2解释变量；加入水平1解释变量；检验水平1随机斜率；检验跨水平交互作用（全模型）。,发展模型,传统纵向数据分析方法的局限性,重复测量的方差分析；假设残差方差在各时间点上相等；或，假设任何时点之间的残差方差的差

12、异相等（即所谓“球面（sphericity）”假设或称“环形（circularity）”假设）；要求完整均衡数据，即等时距，无缺失。,发展模型的优点,可处理缺失和不完整数据；可处理不等时距问题；不要求对象内独立即其它的限制性假设；可以容易的加入时间依赖自变量。,发展模型与一般多层模型的区别,SAS程序,proc mixed covtest ic;class id timec;model y=trt|time/s ddfm=KR notest;random int time/subject=id G type=UN;repeated timec/subject=id R type=AR(1);r

13、un;,离散型结局变量的多层统计模型,广义线性模型,随机成分（random components）：指的是分布，一般为指数族分布；系统成分（systematic component）：即传统回归模型形态；链接函数（link function）,广义线性混合效应模型,对广义线性模型和多层统计模型的结合和扩展。,广义线性混合效应模型的估计方法,线性化法（linearization methods）数值法积分近似法（integral approximation with numerical methods）,线性化法,使用泰勒展开式等技术来近似估计该积分似然函数；不使用原始数据，而是按原始数据产生伪

14、数据（pseudo-data）进行估计；SAS中的GLMMIX过程。,线性化法的优点和局限性,模型的联合分布难于确定，也可以胜任；可拟合较多随机效应；允许不同结构的R矩阵；可以使用REML等；由于使用伪数据进行拟合，不能使用LR进行模型比较；SAS提供的随机效应的标准误有偏，不能用于假设检验。,数值法积分近似法,使用原始数据估算边际积分似然函数的近似值；默认的是适应性高斯求积法；并可使用多种优化技术，默认的是二元准牛顿算法；SAS中的NLMIXED过程。,数值法积分近似法的优点和局限性,使用原始数据进行拟合，可以使用LR进行模型比较；SAS提供显著性检验；非常耗时，且不易收敛；不能随意设定R的结构；只能使用ML。,各种离散型结局变量模型,多层logistic回归模型多层累积logistic回归模型；多层多项logistic回归模型；多层poisson回归模型；,谢谢大家！,

展开阅读全文