多水平模型简介ppt课件.ppt

上传人:牧羊曲112 文档编号:1327054 上传时间:2022-11-09 格式:PPT 页数:91 大小:4.47MB
返回 下载 相关 举报
多水平模型简介ppt课件.ppt_第1页
第1页 / 共91页
多水平模型简介ppt课件.ppt_第2页
第2页 / 共91页
多水平模型简介ppt课件.ppt_第3页
第3页 / 共91页
多水平模型简介ppt课件.ppt_第4页
第4页 / 共91页
多水平模型简介ppt课件.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《多水平模型简介ppt课件.ppt》由会员分享,可在线阅读,更多相关《多水平模型简介ppt课件.ppt(91页珍藏版)》请在三一办公上搜索。

1、多水平模型简介,公共卫生与家庭医学学院 郭秀花2011.4.25,传统的统计学分析是建立在个体测量值相互独立的假设上。如:多元回归模型的估计方法是建立在个体测量值要相互独立,当假设不成立时,回归模型中的各参数估计值的有效性和统计特征均会受到影响,从而最终的统计推断结论将可能偏倚。估计值的标准误会有偏差。,。多元回归数据结构,Data and Examples,Children within families:Children with same biological parents tend to be more alike than children chosen at random fro

2、m the general population.They are more alike becauseGeneticsEnvironmentBoth,实验研究:如致畸试验,层次结构:,孕鼠1,孕鼠2,孕鼠p,窝别效应,Observational Studies,Multi-stage sampling is cost effective.1. Take random sample from population (e.g. schools).2. Take random sample from sub-population (e.g. classes).3. Take random samp

3、le from sub-population (e.g. students).,某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。,调查研究,具有明显的层次结构(乡镇行政村户个体); 在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个体的数据是非独立的 。,Examples of Hierarchies,Longitudinal Data,Same individuals measured on multiple occasions.Strong hierarchies.Mu

4、ch more variations between individuals than between occasions within individuals.,A Hypothetical Example - Two measurement occasions,多水平模型(Multilevel Models)又称随机效应模型(Random Effect Models),它是在二十世纪八十年代,由英美教育统计学家基于方差成分分析而提出的统计模型。 多水平模型理论是国外近些年发展起来的处理系统结构数据的多元统计方法,是将型方差分析理论与多元统计分析相结合的新技术。,多水平统计模型概念,Defi

5、nition of Multilevel Analysis,Snijders & Bosker (1999):Multilevel analysis is a methodology forthe analysis of data with complexpatterns of variability, with a focus onnested sources of variability.,多水平模型的不同称谓: 层次线性模型(hierarchical linear model) 混合效应模型(mixed-effects model) 混合模型(mixed model) 这些模型或许在算法

6、或应用领域的普及程度上有差别,但是都是处理具有层次结构的数据或非独立数据的。,常规数据的特征:相互独立,等方差由yi构成的观测向量服从正态分布具有这种结构的数据叫独立结构数据,当应变量的协方差阵不满足对称条件(2 )时,大多为系统结构数据(hierarchical structure data)。多水平统计模型用于研究具有层次结构或嵌套式结构的数据,此类数据的主要特征是反应变量的分布在个体间不具备独立性,但存在某些范围内的聚集性, 如分层抽样或整群抽样的数据。,多水平模型主要种类,重复测量资料的多水平模型二分类资料的多水平模型Poisson分布资料的多水平模型 多水平Meta分析模型多水平生存

7、时间的统计模型,多元重复测量资料的多水平模型实例,新药临床试验资料数据库变量编码,新药临床试验原始资料格式,二分类多水平模型实例,某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。,以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多水平logistic回归模型探讨农村贫困居民两周是否患病的影响因素。,变量赋值表(1),变量赋值表(2),变量赋值表(3),家庭人均居住面积和乡镇人均可耕地

8、面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。,哑变量名定义,age1:45,age2:65 ;marriage1:已婚,marriage2:离婚, marriage3:丧偶;education1:小学,education2:初中及以上;occupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业,多水平Poisson回归模型实例,Poisson回归(Poisson

9、regression),单位时间、面积、空间内某事件发生数(count)的影响因素的分析对于以人群为基础的稀有疾病发病率、卫生事件资料的分析,例,收集英格兰和威尔士15个地区1959至1991年按年龄、性别分组的逐年人口数和肺癌死亡人数。,肺癌死亡资料数据库变量编码,资料特点,两水平层次结构地区(水平2单位) 15各地区内逐年重复观察(水平1单位) 1980资料按性别、年龄分组反应变量是肺癌死亡人数,定性反应变量的多水平模型重点:二分类反应变量的两水平模型,某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口

10、进行问卷调查。,调查研究,资料的特点,具有明显的层次结构(乡镇 行政村 户 个体) ; 在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性 ;个体的数据是非独立的 。,固定效应和随机效应,固定效应:某研究中有多个不同的处理因素,若研究者感兴趣的各种处理因素都设计在研究当中,则认为这一因素具有固定效应。随机效应:若处理包含的各个组别是从更大的总体中得到的随机样本,则认为该处理因素具有随机效应。,二分类反应变量两水平模型,优势 处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机误差更纯 。,普通Logistic回归模型,令: y

11、=1 发病(阳性、死亡、治愈等) y=0 未发病(阴性、生存、未治愈等) 将发病的概率记为P,它与自变量x1, x2,xp之间的Logistic回归模型为:可知,不发病的概率为:,两水平logit模型,为处理因素的效应参数,又称固定效应(fixed effect)参数 为水平2单位的logit均值 与总均值 之差,又称为随机效应(random effect)或高水平的残差。,的方差 又称为随机参数(random coefficient),反映了高水平单位间的比数(率)的差别。 越大说明数据在高水平单位内的聚集性越强。 为0时,该模型演变为一般的logistic回归模型。,判断是否存在高水平效应

12、,密切结合专业知识和具体情况进行判断对随机参数 的估计值做检验,例:探讨高血压的影响因素,在全市共抽取159个社区(53个生活社区和106个功能社区)作为调查社区,每个社区抽取100人左右,共抽取16000例社区常住居民作为调查对象。 分别调查其性别、年龄、文化程度、职业、吸烟、饮酒、体育锻炼及饮食情况等。,由于该资料具有明显的层次结构,每个群体在经济水平、生活方式、饮食习惯上都具有某种程度上的相似性或聚集性,每个个体的数据是非独立的,因此我们选用社区和居民构成两个水平,居民是基本水平,即水平1单位,社区是水平2单位,来拟合两水平模型。,以调查对象是否患有高血压为应变量,将可能影响血压的居民个

13、人特征参量的若干因素作为自变量,采用二水平logistic模型探讨对血压可能具有影响作用的因素以及因素作用的大小。资料的统计分析过程均在SAS9.0中完成,两水平模型采用SAS MIXED COVTEST过程进行拟合。变量的赋值方法见表1。,logistic模型的结果中得到代表居民差异的常数项估计值为0.3248,P0.0001,说明居民的差异在社区水平上的确存在聚集性,其层次结构不能忽略,故进一步引入解释变量拟合两水平logistic模型。,由表2可知,影响血压组分异常的主要因素包括:性别、年龄、文化程度、职业、吸烟、饮酒、中心型肥胖、零食、食用油摄入、食盐摄入。在控制其他因素不变的情况下,

14、女性患病率低于男性。年龄在4059岁组和60岁及以上组患病率均高于1839岁人群。文化程度为初中、高中或中专、大专及大专以上的患病率均低于小学及小学以下者。农民、居民的患病率均高于工人、商服单位及其他企业,机关事业、卫生事业、教师及公安警察与工人、商服单位及其他企业比较差异无统计学意义。,经常吸烟的患病率低于不吸烟或偶尔吸烟者。经常饮酒的患病率高于不饮酒者,偶尔饮酒与不饮酒者比较差异无统计学意义。中心型肥胖的患病率高于非中心型肥胖者。经常吃零食的患病率低于不吃或很少吃零食者。摄入食用油少的患病率低于摄入食用油适量者,摄入食用油过量与摄入食用油适量者比较差异无统计学意义。摄入食盐过量的患病率高于

15、摄入食盐少或适量者。,研究对象 肺小结节患者的CT图像。,肺小结节的分割肺小结节纹理特征的提取多水平统计模型的建立和分析,研究方法,肺小结节纹理特征的提取,纹理特征是从纹理图像中计算出来的一个值,它对纹理内部灰度级变化的特征进行量化。,灰度共生矩阵纹理特征参量有:能量(角二阶距,Angular Second Moment) , 惯性距(inertia moment),相关性(correlation) 熵(entropy),局部平稳性(local equability),逆差矩(Inverse Diffence Moment),和的均值(Sum Average) ,差的均值(Difference

16、 Average),等等。,多水平模型的建立,选取的研究对象是分属于肺小结节患者的CT图像,每一位患者具有多张CT图像,即图像之间不具有完全的独立性 ,但是分属于某一患者的CT图像具有聚集性。,即本次研究中的肺小结节患者和CT图像就构成两水平模型中的两个水平: CT图像是基本水平,即水平1单位; 肺小结节患者是水平2单位。,故根据数据特点: 1)首先拟和最简单的多水平模型,即方差成分模型(零模型,不含任何协变量) : Yij = 0 j+ 1 jX0 ij + eoij 其中0 j= 0+u0j,u0j(0, 2u0 ), eoij (0, 2e0 ) 0为平均截距,即当所有的解释变量为0时,

17、所有的yij的总平均估计值;1表示解释变量X的固定效应估计值,它表明每个肺小结节患者间Y的变异与解释变量X的变化无关;,u0j为随机变量,相当于水平2单位(患者水平)的残差项,反映了第j个患者对y的随机效应;eoij为随机误差项,即为水平1单位(CT图像水平)的残差。即该模型也可表示为: Yij = (0 + 1 jX0 ij )+ (u0j eoij )0 + 1 jX0 ij为固定部分,回归系数0 和1描述模型的固定效应;u0j eoij为随机部分,其方差2u0 和2e0 描述模型的随机效应。,2)由于协变量,即CT图像本身的纹理特征对反应变量的效应在患者水平2间是固定不变的,且因变量是二

18、值变量,故在上述拟和零模型的基础上,逐步引入协变量,进一步拟合二分类反应变量的方差成分模型 。,实例分析,例: 研究调查2型糖尿病患者对社区医疗服务的满意程度,采用两阶段随机抽样,先在某地区随机抽取69名社区医生,然后在每名医生所在的诊所抽取若干2型糖尿病患者,共计纳入1482名患者,每名入选医生需填写个人相关资料,包括个人背景、从业时间等。每名入选患者除提供基本资料外,需完成一份满意度调查问卷。该问卷总分为100分,分数代表了患者对医疗的满意程度。,分析:,这里69名社区医生是某地随机选择的样本,研究目的不是估计患者对这69名医生的满意程度,而是估计这69名社区医生代表的该地区所有社区医生的情况。因此,对该地区所有的医生而言,这69名医生的调查结果是随机的,若分析患者对不同医生医疗服务的满意程度有无差别时,社区医生(为相应总体的随机样本)和患者构成了两个水平。,MLwiN软件简介,MLwiN Multilevel modelling of N-level data for Windows (Bristol University, UK),ML2 (1988-1990)ML3 (1990-1992)ML3E (1992-1995)MLn (1995-1998)MLwiN (1998- present),http:/www.cmm.bristol.ac.uk/,系统界面,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号