多元线性回归(卫生统计学余金明).ppt

上传人:牧羊曲112 文档编号:6560827 上传时间:2023-11-12 格式:PPT 页数:35 大小:334.65KB
返回 下载 相关 举报
多元线性回归(卫生统计学余金明).ppt_第1页
第1页 / 共35页
多元线性回归(卫生统计学余金明).ppt_第2页
第2页 / 共35页
多元线性回归(卫生统计学余金明).ppt_第3页
第3页 / 共35页
多元线性回归(卫生统计学余金明).ppt_第4页
第4页 / 共35页
多元线性回归(卫生统计学余金明).ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《多元线性回归(卫生统计学余金明).ppt》由会员分享,可在线阅读,更多相关《多元线性回归(卫生统计学余金明).ppt(35页珍藏版)》请在三一办公上搜索。

1、第24章多元线性回归与相关,一、建立回归方程,多元线性回归方程b1,b2 bk:为偏回归系数partial regression coefficient。表示在其他自变量固定的条件下,xi 改变一个单位时应变量的改变量采用最小二乘法计算偏回归系数见P310,例24-1,二、回归方程的假设检验,H0:各总体偏回归系数均为0H1:各总体偏回归系数不等于0或不全为0FF0.05,则多元回归有统计学意义,三、标准化偏回归系数,由于自变量单位不同,不能用偏回归系数的大小来说明各变量的重要性。需进行标准化变换,再用上述的方法计算多元回归方程的回归系数,即为标准偏回归系数即每一个变量值都减去该变量的平均数后

2、再除以该变量的标准差(Z变换)所得的商就称为标准化量。用标准化量计算得到偏回归系数,没有单位,其绝对值大小在一定程度上反映了各自变量的重要性。,四、偏回归系数的统计意义检验,不仅要对整个回归方程进行统计意义检验还需对每个自变量的作用,即偏回归系数作统计意义检验x1 的偏回归平方和:是该回归方程中由于除去变量x1后回归平方和的减少量,以P310例题为例,采用SPSS进行分析数据库见:multiple linear regressionAnalyze regression linearDependent框:yIndependent框:x1、x2、x3Method:选择系统默认的enter(强制纳入

3、回归模型)OK,五、复相关系数和偏相关系数,1、复相关系数multiple correlation coefficient:表明多个变量间的相关程度,SPSS计算复相关系数,采用典型相关分析:是研究两组变量之间相关关系的一种多元统计分析方法。常有两方法,其一为:采用类似于主成分分析的方法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。怎样寻找综合指标,使它们之间具有最大的相关性,这就是典型(则)相关canonical correlation,当两个变量组均只有一个变量时,典型相关系数即简单相关系数,当一组变量只有一个

4、变量时,典型相关系数即为复相关系数。SPSS可采用Manova过程来拟合,或采用专门提供的宏程序来拟合(使用非常简单,结果又非常详细,故常用后一种方法),IncludeSPSS所在路径canonical correlation.sps.Cancorr set1=第一组变量列表/set2=第二组变量列表.Run all即可,Correlations for Set-1 yy 1.0000Correlations for Set-2 x1 x2 x3x1 1.0000.1718.6409x2.1718 1.0000.4522x3.6409.4522 1.0000Correlations Betwe

5、en Set-1 and Set-2 x1 x2 x3y.6945.5864.7288,Canonical Correlations1.859Test that remaining correlations are zero:Wilks Chi-SQ DF Sig.1.263 8.692 3.000.034Standardized Canonical Coefficients for Set-1 1y 1.000Raw Canonical Coefficients for Set-1 1y.002Standardized Canonical Coefficients for Set-2 1x1

6、.541x2.456x3.296,Raw Canonical Coefficients for Set-2 1x1.163x2.101x3.272Canonical Loadings for Set-1 1y 1.000Cross Loadings for Set-1 1y.859Canonical Loadings for Set-2 1x1.809x2.683x3.849Cross Loadings for Set-2 1x1.695x2.586x3.729,Redundancy Analysis:Proportion of Variance of Set-1 Explained by I

7、ts Own Can.Var.Prop VarCV1-1 1.000Proportion of Variance of Set-1 Explained by Opposite Can.Var.Prop VarCV2-1.737Proportion of Variance of Set-2 Explained by Its Own Can.Var.Prop VarCV2-1.614Proportion of Variance of Set-2 Explained by Opposite Can.Var.Prop VarCV1-1.452-END MATRIX-,2、偏相关系数:固定其他变量,分析

8、某两个变量间的相关关系偏相关系数有效的条件:原始数据必须是多元正态分布数据的取得必须都是随机的不分自变量和应变量,SPSS实现偏相关分析,Analyze correlate partialVariables框:x1 x2Controlling for 框:x3Options:选中zero order correlation:continueOK,六、逐步回归stepwise regression analysis,多元回归分析中,较理想的回归方程,应包括所有对应变量作用有统计意义的自变量,而不包括作用无统计意义的自变量,逐步回归分析的基本原理,按每个变量在方程中对应变量作用的大小,由大到小依次

9、引入回归方程。具体作法:每引入一个自变量都要对回归方程中每一个已引入的自变量的作用作统计意义检验,当发现一个或几个已被引入的自变量的作用无统计意义时,即行剔除。每剔除一个自变量后,也要对仍留在回归方程中的自变量逐个作统计意义检验。如果发现方程中还存在作用无统计意义的自变量时,也就剔除,直到没有变是可引入,也无剔除时为止,七、SPSS中的逐步回归方法,1、Enter:所有纳入自变量框的自变量均进入模型,不涉及变量的筛选问题,为默认选项2、Forward前进法:分别对k个自变量拟合它与应变量的简单线性模型,将P值最小的引入模型,若均无意义停止。第二步,在已引入模型的基础上,再分别拟合k-1个线性回

10、归模型(分别包含已引入变量和其他变量),再取P值最小者,若均无统计意义则停止,反之。重复以上步骤,直到模型外的自变量均无统计学意义为止,3、Backward后退法:先拟合包含k个变量的模型,将其中P值最大者剔出模型,若所有自变量P值均有统计意义,则停止。反之重复以上步骤。4、Stepwise逐步法:将上述两种方法结合应用。前两步同前进法,第三步,考察第一步引入模型的自变量是否仍有意义,无统计意义,则剔除。拟合包含第二步引入模型的自变量与除第一步引入的自变量外的k-2个自变量的模型,将其中最小P值者引入,若均无统计意义,则停止。若第一步引的自变量有意义,则进行第四步,在前两个变量的基础上,引入k

11、-2个模型,如此反复,5、Remove移去:规定为Remove的自变量被强制剔除出模型。但SPSS会给出如果将其引入模型的参数估计及检验结果,八、补充说明,1、统计学意义,以options控钮中的entry、removal选项所规定的P值为准,SPSS默认分别为0.05和0.10。实际中,剔除的P值应大于或等于引入的P值,否则为死循环2、自变量组合不同,偏回归系数的检验结果不同,有可能出现有些自变量在前几步中引入模型,而在后面的运算中被剔除,3、前进、后退、逐步法的侧重点不同。当自变量间不存在简单线性相关时,三种方法计算结果一致。当自变量间存在一定的简单线性相关时:前进法侧重于向模型中引入单独

12、作用较强的变量后退法侧重于向模型中引入联合作用较强的变量逐步法介于两者之间,4、对于不同的自变量纳入方法,在SPSS中可通过“NEXT”按钮将其分为不同的“Block”,决定其进入模型的方式,同一Block中的自变量进入模型的方式相同,九、强影响点识别与处理,1、强影响点:指对多重线性回归模型参数估计有很强影响的数据点2、标准化残差大于3时几乎可以肯定该条记录为强影响点3、强影响点统计量:除残差外,SPSS中还可通过Save子对话框中的Influence statistics复选框提供,5种,标准参与P112说明,4、检测到数据中有强影响点时,可通过以下途径解决:1)首先,考虑该条记录在数据记

13、录、录入时是否有错误,如果是,应改正。查不到原始记录不能修正者,应将该条记录删除2)考虑该记录是否与数据库中的其他记录分属于不同亚群,若是则应删除3)以上两条不满足是,不宜武断删除,应再审散点图矩阵,考虑拟合其他形式的模型予以修正,4)进行稳健回归Robust regression:如加权最小二乘法,以普通多元线性模型的残差为加权变量,进行加权最小二乘法回归分析5)实际情况允许可考虑增加样本量6)进行非参数回归,十、多重共线性识别与处理,多重共线性:是指自变量间存在线性相关,即一个自变量可用其他一个或几个自变量的线性表达式进行表示。导致偏回归系数存在无穷多个解或无解,出现偏回归系数难以有合乎专

14、业知识的解释,多重共线性主要有以下几种类型表现:,1)整个模型的方差分析检验结果这P2)专业上认为应该有统计学意义的自变量检验结果却无统计意义3)自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释4)增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化,多重共线性识别,通过statistics子对话框中的collinearity diagnostics复选框实现,提供以下统计量1)容忍度tolerance:某自变量的容忍度等于1减去以该自变量为应变量,以其他自变量为自变量所得线性回归模型的决定系数,小于0.1时,存在严重的多重共线性,2)方差膨胀因子variance in

15、flation factor,VIF:等于容忍度的倒数,一般认为不应大于5,有时可放宽至不大于103)特征根Eigenvalue:对模型中常数项及所有自变量计算主成分,如果自变量间存在较强的线性相关,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近0,4)条件指数condition index:等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为1。如果几个条件指数较大(如大于30),则提示存在多重共线性5)变异构成variance proportion:回归模型中各项(包括常数项)的变异被各主成分所能解释的部分,即各主成分对模型中各项的贡献。如果某个主成分对两个或多个自变量的贡献均较大(如大于0.5),说明这几个自变量间存在一定程度的共线性,多重共线性的解决方法,逐步回归岭回归主成分回归路径分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号