《[教育学-心理学]ch20多元回归分析.ppt》由会员分享,可在线阅读,更多相关《[教育学-心理学]ch20多元回归分析.ppt(70页珍藏版)》请在三一办公上搜索。
1、心理统计,黄华,Ch20:多元回归分析,date200909,Ch20多元回归分析,回归模型简介多元线性回归分析的一般步骤自变量的选择多元回归方程的应用多元回归分析的SPSS操作,Multivariate linear regression,多元线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。自变量(independent variable)是指独立自由变量的变量,用X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用Y表示;由于模型仅涉及一个因变量,所以多
2、元线性回归分析也称单变量线性回归分析(univariate linear regression analysis),多元回归分析数据格式,多元线性回归方程模型,应用条件,多元线性回归模型应满足以下条件:(1)Y与 之间具有线性关系;(2)各观测值 之间相互独立;(3)残差服从均数为0、方差为的正态分布,它等价于对于任意一组自变量,因变量均服从正态分布且方差齐。,注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。,Ch20多元回归分析,回归模型简介多元线性回归分析的
3、一般步骤自变量的选择多元回归方程的应用多元回归分析的SPSS操作,多元线性回归分析的步骤,(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。,模型的参数估计(略),27名被试白鼠完成T型迷宫所需的时间(y)和它们的智商分数(x1)、成长环境分数(x2)、饥饿水平(血糖指标,x3)、迷宫经验(x4)的测量值列于表中,试建立完成时间与其它几项指标关系的多元线性回归方程。数据如图,案例,线性回归方程模型,线性回归方程模型为:,对模型及偏回归系数的假设检验,1、对模型的假设检验F
4、检验2、对偏回归系数的假设检验F检验和t 检验3、标准偏化回归系数,1、对模型的假设检验F检验,检验统计量为FSS回归为回归项的平方和,反映由于方程中个自变量与因变量的线性关系而使因变量变异减小的部分;SS剩余表示剩余(残差)平方和,说明除自变量外,其它随机因素对y变异的影响。,1、对模型的假设检验F检验,SS总=lyy=222.5519;总=n-1=26SS剩余=SS总-SS回归=222.5519-133.7107=88.8412剩余=n-m-1=22 MS回归=SS回归/回归;MS剩余=SS剩余/剩余;F=MS回归/MS剩余,1、对模型的假设检验F检验,回归方程成立只能认为总的来说自变量与
5、因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。方差分析法 t 检验法,2、对偏回归系数的假设检验F检验和t 检验,偏回归系数的假设检验-方差分析法,计算Xi的偏回归平方和Ui,它表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除Xi后所引起的回归平方和的减少量。偏回归平方和Ui越大说明自变量越重要。检验统计量为:,偏回归系数的假设检验-方差分析法,偏回归系数的假设检验 t 检验,3、标准偏回归系数,多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接比较的。需要对偏回归系数标准化,以消除量纲的影
6、响。标准化的偏回归系数称为标准偏回归系数(standard partial regression coefficient)。标准偏回归系数 与偏回归系数之间的关系为 标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即说明各自变量在多元回归方程中的重要性。,3、标准化偏回归系数,(三)计算相应指标,对模型的拟合效果进行评价,评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:复相关系数、决定系数、校正决定系数、剩余标准差等。,1.复相关系数,复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件相关关系的密切程度。0=R=1,没有负值。R的值越接近1,说明
7、相关关系越密切;越接近0说明相关关系越弱。,2、决定系数,决定系数(coefficient of determination)表示回归平方和占总平方和的比例,反映各自变量对因变量回归贡献的大小,用R2表示。R2无单位,取值在01之间。值越大,说明回归平方和在总平方和中所占的比重越大,剩余平方和所占比例越小,回归效果越好。,3、剩余标准差,剩余标准差(standard deviation of residual)为扣除m个自变量的影响后,因变量仍然存在的变异,即不能由m个自变量的变化解释的Y的变异,用 表示。公式为:剩余标准差越小,说明回归效果越好。剩余标准差除与剩余平方和有关外,还与自由度有关
8、,因此剩余标准差与决定系数对回归效果优劣的评价结果有时不一致。研究者通常希望用尽可能少的自变量来最大限度地解释因变量的变异,从这个意义上来说,用剩余标准差作为评价回归效果的指标比决定系数更好。,4、校正决定系数,当方程中包含很多自变量时,即使其中一些自变量在解释因变量的变异时贡献很小,但随着回归方程中自变量的增加。决定系数仍然会表现为只增不减,故计算校正决定系数(adjusted coefficient of determination)以消除自变量个数的影响。公式为:校正决定系数 越大,说明回归效果越好。当方程中加入有显著作用的自变量时,增大,剩余标准差减小;反之,若方程中引入无显著作用的自
9、变量时,可能减小,而剩余标准差增大。,4、校正决定系数,Ch20多元回归分析,回归模型简介多元线性回归分析的一般步骤自变量的选择多元回归方程的应用多元回归分析的SPSS操作,奥克姆剃刀,上好的模型选择可遵循一个称为奥克姆剃刀(Occams Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。William Navidi,逐步回归分析,“最优回归方程”是指:对因变量有显著作用的自变量,全部选入回归方程;对因变量无显著作用的自变量,一个也不引入回归方程。选择”最优回归方程”的方法有:1最优子集回归法2向后剔除法(backward selection)3向前引入法(forwar
10、d selection)4逐步回归法(stepwise selection):,逐步选择法,1.前进法(forward selection)2.后退法(backward elimination)3.逐步回归法(stepwise regression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,逐步回归的基本思想,在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和(partial regression sum of squares)的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当时,将该自变量引入回归方程
11、。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。,逐步回归,逐步回归,逐步回归,模型选择可遵循奥克姆剃刀的基本原理最好的科学模型往往最简单,且能解释所观察到的实事对于线性模型来说,奥克姆剃刀可表示成简约原则一个模型应包括拟合数据所必需的最少变量如果一个模型只包含数据拟合所必需的变量,这个模型就称为简约模型(parsimonious model)实际中
12、的许多多元回归模型都是对简约模型的扩展,奥克姆剃刀,Ch20多元回归分析,回归模型简介多元线性回归分析的一般步骤自变量的选择多元回归方程的应用多元回归分析的SPSS操作,多元回归的应用,1影响因素分析 2估计与预测 用回归方程进行预测时,应选择具有较高值的方程。3统计控制指利用回归方程进行逆估计,即通过控制自变量的值使得因变量为给定的一个确切值或者一个波动范围。此时,要求回归方程的值要大,回归系数的标准误要小。,多元线性回归应用时的注意事项,1样本含量 2方程“最优”问题 3关于逐步回归 4多元共线性 5.异常值识别与强影响分析,多元线性回归应用时的注意事项,1样本含量 应注意样本含量与自变量
13、个数的比例。通常,样本含量至少为变量数的5-10倍。2方程“最优”问题目的是精选自变量以求得拟合效果最好的多元回归方程。最优子集回归是选择一组使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量,要根据研究目的选用合适的方法。,多元线性回归应用时的注意事项,3关于逐步回归 进行逐步回归分析时,随剔选变量界值的不同,选得的回归方程不一定相同。方程中引入什么样的变量,应该由研究者结合专业知识以及经验来确定,不加分析的使用逐步回归难以取得好的效果。另外,逐步回归在对大量因素进行分析时,可先进行聚类分析,然后进行逐步回归分析等。,多元线性回归应用时的注意事项,4多元共线性多元共线性是
14、指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。,多元线性回归应用时的注意事项,多元共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着
15、样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。,常用的共线性诊断指标,(1)方差膨胀因子(VIF),常用的共线性诊断指标,(2)特征根系统(system of eigenvalues),共线性诊断指标,异常值识别与强影响分析,异常观测值得存在加大了数据的离散度,在线性回归分析中产生较大的残差,影响回归函数的拟合度,所以应进行异常值识别和强影响分析。基本的方法有学生化残差和Cooks距离。(1)学生化残差(
16、studentized residual),Cooks距离,学生化残差和Cooks距离,案例:学生化残差和Cooks距离,Ch20多元回归分析,回归模型简介多元线性回归分析的一般步骤自变量的选择多元回归方程的应用多元回归分析的SPSS操作,SPSS数据结构,第一步:选变量,散点图矩阵graph-scatter/dot,散点图矩阵,相关系数矩阵,Analyze-correlation-bevariate,相关系数矩阵,第二步:选数据,Analyze-regression-linear,“save”,是否满足方差齐性的要求,以回归预测值为X轴,以标准化残差为Y轴,是否满足正态性的要求,P-P图analyze-descriptive-P-Pplot,是否满足正态性的要求,残差直方图graph-histogram,奇异值和影响点的问题,Analyze-regression-linear-save,第三步:进行回归,逐步回归Analyze-regression-linear-stepwise,结果理解,结果理解,结果理解,结果理解,