《多元统计方法》PPT课件.ppt

资源描述

《《多元统计方法》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《多元统计方法》PPT课件.ppt（80页珍藏版）》请在三一办公上搜索。

1、我们要讨论的是,SPSS建立方程检验方程总体和各自变量的统计学意义自变量的筛选Case的剔除（强影响点）共线性诊断,多元统计方法,线性回归Logistic 回归注：完全可以用于单因素分析，从这一点也可以看出统计学的方法是相通的。SPSS无法进行条件Logistic回归，就像sas没有专门针对配对资料的语句一样，任何统计软件均有局限性。,建立方程的计算量很大，一般需软件完成。前人手工计算这两种回归（借助科学计算器），精神可嘉,80 年代，一个Logistic回归即使用计算机，计算的时间也以天计。,调整或控制,多变量的控制或调整法就是同时记录可能有影响的因素，把他们与可能的危险因素一起作分析单因素

2、分析有统计学意义，多因素分析没有意义的解释,举例,In univariate analysis,the family histories of SAH and ICH were positively associated with each of the subtypes of stroke.whereas after adjustment for potential risk factors,family history of ICH no longer showed a significant association with haematoma.,单因素分析有意义，多因素没有意义的解释,

3、Family history of intracerebral haematoma was not an independent risk factor for haematoma,but it might be a good predictor,which indirectly influences the pathogenesis of intracerebral haematoma via certain hereditary components such as hypertension,and even lifestyle factors such as alcohol consum

4、ption.,Is family history an independent risk factor for stroke?J Neurol Neurosurg Psychiatry.1997 Jan;62(1):66-70.,多元线性回归（简单步骤）,指标多，难以理解。在计算自动化时代，这是回归的难点，我们不懂如何判断我们的模型的好坏,回归的实际应用,在影响因素分析中一种是探索模式，在回归模型中探索所有可能的自变量与应变量的关系一种是控制模式，即控制混杂因素的影响后者对回归模型的要求要小的多，不出现异常情况，可仅对模型拟合稍作考虑。,SPSS菜单,analyze-regression-

5、linear,变量的数量化,（1）自变量为连续型变量：必要时作变换,（2）自变量为有序变量：依次赋值，如疗效好中差，可分别赋值3、2、1,（3）自变量为二分类：如令男1，女0,（4）自变量为名义分类：需要采用哑变量（dummy variables）进行编码,名义分类变量的哑变量化,假如职业分类为工、农、商、学、兵5类，则可定义比分类数少1个，即4个哑变量。编码方法如下：,亚变量的设置，我们会在Logistic回归模型中讨论,数据格式,回归的一些定义,应变量（dependent variable)自变量（independent variable）偏回归系数 pertial regression

6、coefficient常数项b0决定系数 determination coefficient，R square共线性 collinearity：自变量间存在着线性关系,yi=b0+b1x1i+b2x2i+bnxni,回归方程的建立,就是求解b0和bi的过程矩阵的各种计算（求解线性方程）SPSS的实现：analyze-regression-linear,将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系，P0.05,说明所拟合的方程具有统计学意义，但并不说明模型拟合的好坏,各自变量的假设检验与评价，检验各自变量和应变量是否有线性关系，P(可放宽)说明有线性关系，同样t值不

7、说明线性关系的强弱，,这样，一个回归方程就建立了，回归方程的建立就是如此easy。,线性与拟合优度,有线性关系拟合优度不一定很好上述F和t检验有统计学意义，只是说明自变量与y有线性关系，但未能表示“关系有多大”举例：上述方程的R2很小，但因为样本量大，F值很大R2的意义：可以由BMI，age和膳食口味解释SBP的4.3变化我认为，因素分析可以只考虑线性关系的有无。特别是在控制模式中。,自变量的选择,全局择优法：求出所有可能的回归模型（共有2m1个）对应的准则值；按R2，Cp准则，AIC准则等统计量选择最优模型。求出所有可能的回归模型（共有2m1个）对应的准则值；按上述准则选择最优模型缺点：如

8、果自变量个数为4，则所有的回归有241 15个；当自变量数个数为10时，所有可能的回归为 2101 1023个；当自变量数个数为50时，所有可能的回归为25011015个。,全局择优法,决定系数(R2)和校正决定系数(R2c)，可以用来评价回归方程的优劣。【R2随着自变量个数的增加而增加，所以需要校正】校正决定系数(R2c)越大，方程越优。Cp选择法：选择Cp最接近p或p1的方程（不同学者解释不同）。Cp无法用Spss直接计算，可能需要手工。其中p为方程中自变量的个数，m为自变量总个数,Cp准则的计算公式,AIC准则的计算公式,自变量的选择逐步选择法,逐步选择法：（一）前进法（forward）

9、（二）后退法（backward）（三）逐步回归法（stepwise）小样本检验水准a定为0.10或0.15，大样本把值定为0.05。值越小表示选取自变量的标准越严。注意，引入变量的检验水准要小于或等于剔除变量的检验水准。,自变量到底如何选择,两种方法结合手工选择，逐步选择法选择后手工增减变量看校正决定系数(R2c)等方程拟合优劣指标的好坏放宽或限制进入方程的标准，特别是在逐步回归的时候硬性进入方程最感兴趣的研究变量,统计“最优”与专业的“最优”,不同准则、方法得出的“最优”方程不同；不同的引入、剔除标准获得的“最优”方程不同；方程还受数据的正确性、共线性影响,强影响点，记录的选择,强影响点，记

10、录的选择,从理论上讲，每一个样本点对回归模型的影响应该是同等的，实际并非如此。有些样本点（记录）对回归模型影响很大。对由过失或错误造成的点应删去没有错误的强影响点可能和自变量与应变量的相关有关，不可轻易删除。,判断强影响点的指标,SPSS软件中的指标analyze-regression-linear-saveSave中的选项均进入数据库，而不出现在output中各种残差越大，单一记录对方程的影响越大,判断强影响点的指标（2）,多重共线性,自变量间存在着线性关系，使一个或几个自变量可以由另外的自变量线性表示时，称为该变量与另外的自变量间存在有共线性(collinearity)。容易出现：,回归系

11、数的符号与由专业知识不符变量的重要性与专业不符整个方程决定系数R2高，但各自变量对应的回归系数均不显著。,多重共线性的诊断,SPSS中的指标容许度：越近似于0，共线性越强特征根：越近似于0，共线性越强条件指数：越大，共线性越强,Spss的实现与结果,analyze-regression-linear-statistics,实例,以BMI为应变量，SBP，DBP和年龄为自变量进行回归。结果如图极端例子：以SBP为应变量，BMI和复制BMI为自变量，结果为其中之一无法进入方程,从第四个特征根看，特征根小，条件指数大，从变量的方差比例来看，SBP和DBP在其中贡献最大，可以说两者有近似共线性,后面讨

12、论交互作用的时候我们还要提到共线性,一、应用,影响因素分析，控制混杂因素预测：由自变量值推出应变量Y的值控制：指定应变量Y的值查看自变量的改变量,影响因素分析，控制混杂因素在医学研究中最为长用，个人认为对模型拟合要求较低，特别在控制混杂的控制模式中,后两种用途对模型要求严格,二、应用条件,回归系数符号反常与主要变量选不进方程的原因分析,有重要影响的因素未包括在内某些变量个体间的差异很大样本内突出点上数据误差大变量的变化范围较小样本数太少上述各项在用最小二乘法求解方程过程中对残差等重要中间指标的影响大，造成最小二乘法的失效。,线性回归的注意事项,应变量为连续变量，自变量可以为连续变量、分类变量或

13、有序变量样本含量：一般要求样本量n至少是方程中自变量个数m的5-10倍逐步回归不是万能的，一个good of fit好的模型建立需要多方面考证。多重共线性：自变量存在较强的线性关系检验两变量间有无交互作用，普遍的做法是在方程中加入它们的乘积项再做检验。但共线性的问题会因此而突出，举例,SPSS菜单在处理回归中选项较少，但完全可以满足一般模型的拟合。其syntax模式应该有更多选项，但鉴于介绍这方面内容的书籍文献较少。如确实需要严格的模型拟合，SAS可能是更好的选择,回归的发展,加权回归有重复测量的回归分析：对每一个回归变量x的y有多次重复的测量值。岭回归分析：改进的最小二乘方，用于自变量相关性

14、大，或某些变量变化范围太小。可用sas实现。,Logistic回归,实际上属于判别分析，因拥有很差的判别效率而不常用。适用于流行病学资料的因素分析实验室中药物的剂量-反应关系临床试验评价疾病的预后因素分析,二、Logistic回归模型,Logistic回归的分类二分类多分类其中二分较为常用条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者者针对成组研究，前者针对配对或配伍研究。,26例冠心病病人和28例对照者进行病例对照研究（变量赋值表）,自变量为连续变量，最好变为等级或计数资料,有统计学家持反对意见认为损失信息,26例冠心病病人和28例对照者进行病

15、例对照研究（数据格式）,Logistic回归方程的建立,建立方程就是求解b0，b1bp,Logistic回归中的常数项（b0）表示，在不接触任何潜在危险保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数（bi）表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR或RR的对数值。,参数意义,回归系数的意义,单纯从数学上讲，与多元线性回归分析中回归系数的解释并无不同，亦即bi表示xi改变一个单位时，logit P的平均变化量。,多因素Logistic回归分析时，对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在

16、因素间交互作用时，Logistic回归系数的解释变得更为复杂，应特别小心。,调整与控制,流行病学中的一些基本概念：相对危险度（relative risk）:RR=P1/P2比数Odds=P/(1-P)比数比OR=P/(1-P)/P/(1-P)在患病率较小情况下，ORRR,根据Wald检验可知，Logistic回归系数bi服从u分布。因此其可信区间为进而，优势比e(bi)的可信区间为,参数估计,似然函数,计算方法,最大似然法迭代法初始值迭代次数人为精度可能不收敛总体来说，解比较稳定。,SPSS的实现,analyze-regression-binary logistic,analyze-regre

17、ssion-binary logistic-option,其他,结果说明,内编码,缺省值最好不超过总样本量的10不然代表性太差但也不是绝对,结果说明（2）我们只看最后一步,模型系数总的检验Step：增加或减少的变量对方程的影响，P越大说明这个变量对方程的影响越小Block：Model：方程内包含的变量总体，如果P,说明 Logistic方程总体有意义，借用线性的解释来说,将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系，P0.05,说明所拟合的方程具有统计学意义，但并不说明模型拟合的好坏,：真正的模型拟合一般要把其提高到0.20或0.10而非0.05。,结果3,结果

18、4,至此，一个最简单logistic方程建立和检验告一段落，下面涉及自变量的选择和强影响点的挑选,自变量的筛选,目的：与多元线性回归分析类似，当自变量的数目较多时，为使logistic回归方程比较稳定和便于解释。方法：一般统计学书介绍和统计软件固有的有前进法、后退法，逐步法。个人认为，还应考虑模型的整体拟合优度，并结合专业知识手工增加或剔除变量,全局择优指标,拟合分类表最大似然函数值L（1）或logL（0）即-2log likelihood0拟合优度检验通过上述指标，比较不同方程拟合优度的优劣,逐步选择法,似然比检验（likehood ratio test）,通过比较包含与不包含某一个或几个待

19、检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G（又称Deviance）。G=-2(ln Lp-ln Lk)样本量较大时，G近似服从自由度为待检验因素个数的分布。,比分检验（score test）以未包含某个或几个变量的模型为基础，保留模型中参数的估计值，并假设新增加的参数为零，计算似然函数的一价偏导数（又称有效比分）及信息距阵，两者相乘便得比分检验的统计量S。样本量较大时，S近似服从自由度为待检验因素个数的分布。,Wald检验（wald test）即广义的t检验，统计量为u u服从正态分布，即为标准正态离差。Logistic回归系数的区间估计,上述三种方法中，似然比检验最可靠，比

20、分检验一般与它相一致，但两者均要求较大的计算量；而Wald检验未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。,但SPSS和SAS软件均采用Wald检验来判断变量在方程中的作用,由于软件的计算相对容易，可以多种方法比较，结果多数一致，如果不一致，也均发生在临近界值的变量上，这些变量在方程中本身对应变量的影响就不大，在实际中对研究的影响也较小。,寻找强影响点，记录的选择,分类自变量的哑变量编码为了便于解释，对二项分类变量一般按0、1编码，一般以0表示阴性或较轻情况，而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码，那么所得的，容易造成错误的解释。,在sas的计算中

21、无法对分类变量做多种处理？在SAS中使用哑变量必须用数据步建立新变量,西、中西、中三种疗法哑变量化,原资料,哑变量化,Spss中亚变量的设置,分类变量必须转化。如地区对血压的影响。等级资料，当等级之间量度不一时必须转化，如正常，超重和肥胖连续资料不宜直接进入方程时，转化为等级资料或分类资料,亚变量的SPSS处理菜单,亚变量的SPSS处理菜单（二）,亚变量设置（Spss）,IndicatorSimpleDifferenceRepeated,参照分类为0，其余为1，即各分类与参照分类比较,除第一类分类外，各分类与其之前平均分类效应比较,亚变量设置(2),Helmert:与Difference相反，

22、各水平与其之后水平的平均效应比较Deviation：除参照分类外，各水平与分类的总效应比较Polynomial￥！￥）9好像和连续变量有关,手工设置亚变量还是有缺点的，如应用于等级资料就不合适,第二节.条件logistic回归,Sas统计软件所得的结果解释与spss相似,七、条件Logistic回归,对配对/比调查资料，应该用条件Logistic回归分析。对于配比资料，第i个配比组可以建立一个Logistic回归：,假设自变量在各配比组中对结果变量的作用是相同的，即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。,可以看出此回归模型与非条件Logistic回归模

23、型十分相似，只不过这里的参数估计是根据条件概率得到的，因此称为条件Logistic回归模型。条件Logistic回归模的回归系数检验与分析和非条件Logistic回归完全相同。,个体配对资料的优缺点,配对资料特别适用于罕见疾病，由于病例的获取不易，匹配并增加对照的例数使研究效率大大增加。小样本的匹配特别有用Pitman效率递增公式2R/(R+1)如图匹配增加了选择对照的难度一旦某个因子做匹配，就不能分析它与疾病的关系，另外它与其他因子的交互也不能充分分析。-把不必要的信息列入匹配成为配比过度，如在脑出血危险因素研究中匹配高血压。,个体匹配的经典之作,Herbst，1969，Boston.8例年

24、轻女性阴道癌病例，每个病例配4个未患病个体做对照。要求对照与病例在同等级病房中出生时间前后不超过5天，女婴。优选选择与病例出生时间最近者比较诸多因素。最终得到病因。,1:3配对的例子,1:2配对的例子,SPSS菜单对条件Logistic回归无能为力,Logistic 回归的注意事项,变量的取值形式应变量，自变量(亚变量的SPSS处理菜单)样本含量：经验数在100例以上。配对资料一般要求对子数是自变量个数的20倍以上。,多分类logistic回归,_)(&%$,!,参考书目,孙振球，医学统计学（供研究生用）.人民卫生出版社，2002，第一版。孙尚拱，医学多变量统计与统计软件.北京医科大学出版社.2000，第一版.刘润幸，医学统计学方法与应用(上、下册).2001.第一版.倪宗瓒，卫生统计学.2001.第四版,网上资源,

展开阅读全文