第九章回归分析ppt课件.ppt

上传人:小飞机 文档编号:1460076 上传时间:2022-11-27 格式:PPT 页数:127 大小:2.42MB
返回 下载 相关 举报
第九章回归分析ppt课件.ppt_第1页
第1页 / 共127页
第九章回归分析ppt课件.ppt_第2页
第2页 / 共127页
第九章回归分析ppt课件.ppt_第3页
第3页 / 共127页
第九章回归分析ppt课件.ppt_第4页
第4页 / 共127页
第九章回归分析ppt课件.ppt_第5页
第5页 / 共127页
点击查看更多>>
资源描述

《第九章回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九章回归分析ppt课件.ppt(127页珍藏版)》请在三一办公上搜索。

1、1,第八章 回归分析,第一节 一元线性回归分析,第二节 可线性化的一元非线性回归问题,第三节 多元线性回归分析,第四节 逐步回归分析,第五节 处理多元线性回归中自变量共线性的几种方法,第七节 含有定性变量的回归分析,第八节 通径分析,第六节 多元非线性回归分析,2,回归分析(regression analysis)是指由自变量的变异来估计因变量的变异问题,具体可通过建立回归方程来实现. 在热带作物栽培和加工试验以及作物病虫害预测预报的研究中, 回归分析有着极其广泛的应用.如在橡胶树产量研究中, 应用回归分析可由蓬距、幼苗期刺检干胶量、叶脉角度等估测产胶量;在橡胶树白粉病研究中,用越冬菌量、温度

2、、湿度及橡胶物候等因子可预测白粉病的流行强度等等.,按自变量个数的多少可将回归分析分为一元回归分析和多元回归分析.只考虑一个自变量的回归问题称为一元回归分析,含有两个或两个以上自变量的回归问题称为多元回归分析.以自变量和因变量之间内在联系特征的不同,又可将回归问题分为线性回归和非线性回归分析.,本章着重介绍应用国际通用统计软件SAS进行线性和非线性回归分析的方法,3,一. 回归模型,第一节 一元线性回归分析,回归模型建立的直观思想,如果对于自变量 x 的一个观测值 xi ,因变量y有一个相应的观察值yi与之对应,则称 (xi , yi)组成一对观察值. 现假定x与y有n对观察值(x1, y1)

3、, (x2 , y2) , (xn , yn),把这n个点(xi , yi) 画在平面直角坐标系上,得到如图81所示的散点图.,图81 观测值 (xi ,yi)散点图,4,从散点图可以看出,随着自变量x的增加,因变量y也呈现上升的趋势,图中的点大致分布在一条向右方倾斜的直线附近,因而可以用一条直线方程来近似的逼近 即 yi=b0+b1xi+ei i=1 , 2, , n 其中ei N(0 ,s 2), ei 是相互独立的随机变量序列且它们的方差相同(方差齐性),称为回归直线(方程).对于一元线性回归模型,我们要解决以下问题:(1)参数估计:给出参数b0 , b1 , s 2 的估计值.(2)显

4、著性检验:检验线性函数 yi=b0+b1xi 用来描述因变量 y 与自变量 x 的关系是否合适,包括回归模型的显著性检验和 参数的显著性检验.(3)模型检查:检查对模型所做的假设是否成立,包括 ei 是相互独 立的随机变量序列的检查和方差齐性的检查.(4)预测或控制.,5,对b0 , b1的估计实际上就是在平面直角坐标系中估计一条直线,二 回归模型建立的方法最小二乘估计,使它尽可能地接近回归直线,直观的说来就是使理论值和观测值的所有偏差和最小.为了避免正负偏差项互相抵消,因而要求所有偏差平方和最小,即求参数 b0 , b1 , 使函数,达到最小.,6,根据二元函数的极值理论,分别求,关于两个变

5、量,解方程组得,的一阶偏导数,并令它们等于零,解联立方程组即可.将以上两式展开,得方程组:,7,称观测值与理论值的差 为残差.以上用数学方法对参数 进行估计的方法,称为最小二乘估计法. SAS程序直接调用reg过程.一般格式如下: poc reg data=数据集名称; model 因变量集=自变量集; (如model y=x;)三 一元线性回归模型的检验1方差分析与F检验1)统计假设 原假设 备择假设2)平方和与自由度分解 即总平方和分解为误差平方和与回归平方和,同时总自由度也分解为误差自由度加上回归自由度,即,8,3)F统计量若 ,则拒绝 接受 说明用函数 来描述因变量 y与自变量 x 的

6、关系是合适的,即回归模型是显著性的。4)方差分析表,2可决定系数R2(判定系数),作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,则说明回归方程对样本点的拟合得越好.,9,3t 检验,t 检验是对回归参数显著性的检验,可以证明以下两个结论:,结论1:在零假设,对于一元线性回归来说,成立的条件下有:,拒绝域为:,结论2:在零假设,成立的条件下有:,拒绝域为:,的F检验值和t检验中的t值的概率值 p 相等.实际上,对于一元线性回归模型来说,上述两个检验是等价的,即都有相同的拒绝域.,10,1.残差图,四 一

7、元线性回归模型的残差分析(回归诊断),称观测值与理论值的差,为残差.而称,为标准化残差.,残差图以x为坐标横轴,残差e为坐标纵轴,由所有点(xi , ei)构成.,残差图可用于检验随机变量序列 的独立性,正态性和方差整齐性.从理论上可以证明e1,e2, en相互独立且近似的服从N(0,1).故关于预测值残差图中的点应随机分布在-2到+2之间的带子形里,这样的残差图称为正常的残差图.,另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差值ei,即点的坐标为(yi,ei).,11,图82为几种常见的残差图,12,2.方差齐性的诊断及修正方法,对于一元线性回归来说,关于 x 的残差图和关于预测值的

8、残差图提供了同样的信息.,对于多元线性回归分析,由于有一个以上的自变量,所以一般采用关于预测值的残差图.,误差方差非齐性时,残差图不正常.可通过对因变量作适当的变换,令z=f ( y ) 使得关于因变量的回归分析中误差的方差接近于齐性.实用上常选用一些变换,变换后重新做回归及残差图,如残残差图有改善或已属正常,则该变换是合适的.否则改变变换函数计算直到找到合适的变换为止,常用的方差稳定性变换有:,13,在许多回归分析中,所利用的数据是按时间顺序采集的,即时间序列数据,用yt表示y在时刻t的值,而y的值又常常依赖于y在以前时刻的值.此时,称数据存在自相关(序列相关),从而违背了回归模型的假设,误

9、差项 已不再是独立的.,检验方法为DurbinWatson统计量:,3DurbinWatson 检验,DurbinWatson统计量的取值介于0和4之间,一个粗略的判断是:,若D值在2附近(1.62.4,则存在负的自相关.具体可通过SAS程序来完成,只需在reg过程后增加选项DW即可,如:proc reg DW;,14,五、一元线性回归模型的SAS实施,一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程,一般格式如下: poc reg data=数据集名称;(data=数据集名称可以省略,此时所用的数据集为最近的数据集) model 因变量集=自变量集;(如model

10、 y=x;),六、应用实例,例8.1 海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表82,求正式割胶量关于剌检干胶量的回归方程.,15,1建立回归方程,由所给的数据得,于是得,16,于是得回归方程为,2. 回归方程显著性检验,总平方和,回归平方和,剩余平方和,方差分析结果列于表83.,17,SAS程序与输出结果,data han81; input x y;cards;,77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 9

11、0 8.1 81 12.0 122 15.7 65 11.9 130 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5;,18,proc gplot; plot y*x=*; proc reg; model y=x/p clm cli; plot residual.*x=*;run;,主要的输出结果:,(1)因变量y关于变量x的散点图,19,由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系.,(2)模型拟合与检验,Dependen

12、t Variable: y Analysis of Variance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81 .0001Error 24 138.89752 5.78740Corrected total 25 276.70654,Root MSE 2.40570 R-Square 0.4980 Dependent Mean 9.11154 Adj R-Sq 0.4771 Coeff Var 26.40280,20,Parameter Estimates Parameter

13、 StandardVariable DF Estimate Error t Value Pr |t| Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001,输出结果的给出了F=23.81, Pr0.0001.表明回归方程是显著的.,输出结果给出了参数的估计值和显著性检验. 结果显示回归系数是显著的,于是得因变量 y关于自变量x的回归方程为,y=2.007+0.07761x,必须注意,对于一元线性回归问题,回归方程的显著性与回归系数的显著性检验是相同的.,输出结果的中部给出了决定系数R2=0.4980. R2

14、过小可能是由于样本容量过小引起,也可能是还有其它重要的因素没有被考虑到.,21,在许多实际问题中,因变量与自变量的关系不一定都是线性的,它们之间可能存在某种复杂的非线性关系,表现为散点图上的点围绕某条曲线波动,常见的非线性函数有:,第二节 可线性化的一元非线性回归问题,一.可线性化的非线性回归问题,1.双曲函数 1/y=a+b/x 作变换: 令 1/y=z ,1/x=t 则有 z=a+bt ,显然z是t的线性函数.,2. 对数曲线函数 y=a+blnx 作变换: 令 t =lnx ,则有 y=a+bt . 显然y 是t 的线性函数.,22,3. 幂函数 y=axb ( a0 , x0),4.

15、S形曲线函数 y=1/(a+be-x),5. 负指数函数 y=ae-b/x,先取对数,得 lny=lna+blnx ,作变换,令 lny=z , lnx=t , lna=k 则有 z=k+bt ,显然 z是t 的线性函数.,作变换,令 1/y = z , t=1/ex,则有 z=a+bt ,显然z是t的线性函数.,先取对数得 lny=lna-b/x,令 lny=z , lna=k , -1/x=t 则有 z=k+bt ,显然 z是t的线性函数.,23,对回归方程选择一种合适的函数形式,必须对散点图进行认真的分析.有时,对同一种散点图所呈现的因变量与自变量的关系,可以选择不同的函数形式来描述回归

16、方程,那么如何判断并比较不同回归方程的拟合优度呢?通常使用的比较准则. 有下面两个:,二. 曲线回归的选择准则,1. 相关指数 R,作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,则回归方程对样本点的拟合得越好.因此,对于用不同的曲线拟合的回归方程,通常选择R2较大的一个为好.,24,2.剩余标准差S 它反映了样本偏离回归曲线的平均大小,当然S越小越好.事实上,上述两个准则是一致的.R越大,则S越小,反之也然.例1 以下为一组观测值 1) 绘制y对x的散点图 2) 假定y与x的关系为(1)双曲线1/y=

17、a+b/x(2)对数曲线函数y=a+blnx (3)负指数函数y=ae-b/x(4)幂函数 试作变量变换化非线性回归为线性回归,并建立回归方程.,25,data han2; input x y; z1=1/y; t1=1/x; t2=log(x); z2=log(y); t3=-1/x; t4=sqrt(x); cards; 2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49 11 110.59 14 110.60 15 110.90 16 110.76 18 110.00 19 111.20 ; proc gplot

18、 data=han2; plot y*x=*; proc reg data=han2; model z1=t1; proc reg data=han2; model y=t2; proc reg data=han2; model z2=t3; proc reg data=han2; model y=t4; run;,26,因变量y关于自变量x的散点图:,27,主要的输出结果: 模型1 双曲线函数 作变换 z1=1/y t1=1/xModel: MODEL1 Dependent Variable: Z1 Analysis of Variance Sum of Mean Source DF Squ

19、ares Square F Value ProbF Model 1 1.3335153E-7 1.3335153E-7 158.655 0.0001 Error 11 9.2456216E-9 8.405111E-10C Total 12 1.4259715E-7 Root MSE 0.00003 R-square 0.9352 Dep Mean 0.00910 Adj R-sq 0.9293 C.V. 0.31846 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0

20、Prob |T| INTERCEP 1 0.008979 0.00001275 704.256 0.0001 T1 1 0.000790 0.00006272 12.596 0.0001,28,模型2 对数曲线函数 说明: 已作变换 t2=lnx Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 16.03862 16.03862 44.470 0.0001 Error 11 3.96727 0.36066 C To

21、tal 12 20.00589 Root MSE 0.60055 R-square 0.8017 Dep Mean 109.85923 Adj R-sq 0.7837 C.V. 0.54665 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.497087 0.53097742 200.568 0.0001 T2 1 1.591238 0.23861707 6.669 0.0001,29,模型3 负指数函数 已作变换 z2

22、=lny t3=-1/x Model: MODEL1 Dependent Variable: Z2 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 0.00158 0.00158 158.189 0.0001 Error 11 0.000109794 9.9812743E-6 C Total 12 0.00169 Root MSE 0.00316 R-square 0.9350 Dep Mean 4.69914 Adj R-sq 0.9291 C.V. 0.06723 Paramet

23、er Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 4.712697 0.00138939 3391.917 0.0001 T3 1 0.085962 0.00683472 12.577 0.0001,30,模型4 幂函数Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFModel 1 1

24、3.90887 13.90887 25.094 0.0004Error 11 6.09702 0.55427C Total 12 20.00589 Root MSE 0.74450 R-square 0.6952 Dep Mean 109.85923 Adj R-sq 0.6675 C.V. 0.67768 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.537333 0.69454059 153.393 0.0001

25、T4 1 1.091857 0.21796278 5.009 0.0004,31,从以上的输出结果可得模型1和模型3的R2较大,分别为0.9352和0.9350 ,因此选择模型1和模型3较为合适.,模型 1: z1=0.008979+0.00079t1 ,即 1/y=0.008979+0.00079/x,模型 3: z2=4.712697+0.085962t3 , 即 lny = 4.712697-1/x,于是,【返回】,32,第三节 多元线性回归分析,1回归模型 设影响因变量y的自变量有p个,并分别记为x1, x2, ,xp ,所谓多元线性回归模型是指这些自变量对因变量的影响是线性的,即 其

26、中 称为p个自变量 x1, x2, ,xp , 的线性回归函数. 记n组样本分别是 那么,由上式可得到 其中 这样一来,多元线性回归分析的主要问题就是基于模型对未知参数b0 ,b1, , bp 和s2进行估计、检验并利用得到的回归模型进行预测.,一. 多元线性回归模型,33,34,上述回归模型的矩阵表示Y=Xb +e,其中Y = (y1 , y2 , ,yn )T , 是n阶单位矩阵. 称矩阵 为资料矩阵或设计矩阵. 利用最小二乘法可估计回归系数,即求解一组参数使得如下定义的平方和Q达到最小:由多元函数的极值理论,分别求Q关于各个参数的偏导数,并令它们等于零,于是得到如下的方程组,解方程组便得

27、到所求的参数.,2.回归模型的矩阵表示,二. 回归系数的最小二乘估计,35,如果 可逆,则方程组的(参数的)解为,三. 回归方程的显著性检验,1统计假设 由最小二乘准则求回归系数的计算过程中,并不一定知道因变量与自变量是否存在线性关系.如果不存在线性关系,那么得到的回归方程是毫无意义的.在一元回归分析中,若 b1=0 则平均地说因变量y并没有随自变量x的变化而线性地变化.因此对回归方程的显著性检验就是检验以下的假设是否成立:,36,2平方和与自由度分解 对统计假设所作的检验方法仍采用方差分析法.从分析引起 yi (i=1 ,2 , , n )变化的总方差的原因入手. 自由度为 dfT=dfE+

28、dfR, 其中dfT=n-1, dfR=p ,dfE=(n-1)-p 3.F统计量 拒绝域为,4.方差分析表,37,1统计假设 对回归方程的显著性检验,若否定H0 ,仅表示 不全为0但并不排除有某个 为0,若 ,说明自变量 xi 对因变量y的影响不明显,应从回归模型中删除.因此对回归系数是否为0进行逐个检验是很必要的.,四.回归系数的显著性检验,即检验,2t 统计量,拒绝域为,38,六、应用实例,例8.3 肖陈保等同志应用三元线性回归,由橡胶树白粉病的始病期(x1) 、嫩叶期(x2) 、发病期雨天数(x3)预测最终病情指数y ,18个观测值如下表86.,五. 多元回归分析的SAS书写格式:,r

29、oc reg; model 因变量串=自变量串/ 选项串;,data 数据集名称; input x1 x2xp y;cards; ; proc reg; model y=x1 x2xp/选项;run;,例如,39,40,SAS编程如下:,41,data han83; input x1 x2 x3 y;cards; 2 1 2 2 2 2 2 2 2 2 3 3 1 1 1 1 1 1 1 1 3 2 2 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 1 2 1 1 2 2 3 2 2 1 1 1 1 3 2 2 3 2 3 3 2 3 3 2 1 2 3

30、3 ;proc reg; model y=x1 x2 x3/p cli clm; plot residual.*y=*; (画写残差分析图)run;,42,1回归方程显著性检验 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 10.85063 3.61688 24.18 F0.001可知,三元回归方程达到极显著。,43,2回归参数估计及检验 Parameter Estimates Parameter StandardVariable DF E

31、stimate Error t Value Pr |t|Intercept 1 0.03660 0.26297 0.14 0.8913 x1 1 0.29330 0.15132 1.94 0.0730 x2 1 0.01340 0.17822 0.08 0.9411 x3 1 0.68093 0.17494 3.89 0.0016,回归方程为,从输出结果可见,变量x1, x2 对响应变量 y 的影响不显著,而x3对y的影响是显著的.,44,残差图,【返回】,45,第四节 逐步回归分析,在多元线性回归分析中,影响因变量的自变量有很多,例如甘蔗的糖份与降雨量、相对湿度以及最低温度有关;某作物的产量

32、与单位面积穗数、每穗粒数、千粒重、播种期、密度、施肥量、温度、雨量和光照等因素有关.人们希望从诸多自变量中挑选出有显著影响的自变量来建立回归方程,这就涉及到自变量的选择问题.在回归方程建立的过程中,若漏掉对因变量影响显著的自变量,那么建立的回归方程用于实际预测时会产生较大的偏差.同样,若建立的回归方程中包括了对因变量影响不显著的自变量,那么这样的回归方程也会影响到预测的精度.由此可见,选择适当的自变量用于建立最优的回归方程是十分重要的.,46,一. 自变量的选择问题 在实际问题中,影响因变量的因素(自变量)可能很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及到自变量的选择问题

33、. 在回归方程中若漏掉对因变量影响显著的自变量,那么建立的回归式用于预测时会产生大的偏差,但回归式中若包括的变量太多,且其中有些对因变量的影响不大,显然这样的回归式不仅使用不方便.而且反而影响预测的精度.因此适当选择变量用于建立一个“最优”的回归方程是一个十分重要的问题. 什么是“最优”回归方程?直观考虑应该是方程中包括的所有变量对因变量的影响都是显著的;而不包括在方程中的变量对因变量的影响是不显著的(可忽略).也就是从自变量集中选出适当的子集 使得建立因变量 y 与子集的回归方程就是“最优”的回归方程.这就是回归变量的选择问题.,47,回归变量的选择问题在实用上和理论上都是十分重要的.这个问

34、题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准.从不同的角度出发,可以有不同的比较准则, 在不同的准则下,“最优”回归方程也可能不同。 比较不同子集优劣的标准常见的有以下几种(记 为观测个数, 为子集模型中自变量的个数):(1)均方误差S2最小 选择子集 ,使均方差 达最小,其中SSE(A)是y与回归模型的误差平方和,l是子集中自变量的个数.(2)预测均方误差最小 选择子集 使得 达最小.,二、最优选择的标准,48,(3)Cp 统计量最小准则 选择子集A,使得 达最小,其中SSE是包括所有p个自变量的回归模型中误差平方和。(4) AIC或BIC准则 选择子集A,使得AI

35、C(A)=lnSSE(A)+2l lnn/n 或 BIC(A)=lnSSE(A)+l lnn/n 达最小.(5) 修正的R2准则 选择子集A,使得修正 ,(当模型含有截矩 项时 i=1,否则 i=0)达最大.2. 选择“最优”子集回归的方法SAS软件的REG过程中,选择变量子集的方法有8种,可分为三类:(1)选择“最优”子集的简便方法:包括逐步筛选(STEPWISE), 向前引入法(FORWARD)和向后剔除法(BACKWARD)(2)计算量最大的全子集法:通过计算所有可能回归子集后,按最 优选择的标准选择最优回归方程.包括选择法R2 (RSQUARE),49,选择法Cp(CP)和修正选择法R

36、2 (ADJRSQ).(3)计算量适中的选择法:没有计算所有可能回归子集,但比较 的子集个数多于(1)中提到的逐步筛选等一些选择法,如最小 R2增量法(MINR)和最大R2增量法(MAXR). 逐步回归分析的SAS书写格式: proc reg; model 因变量串=自变量串/ selection=最优子集选项串; 如:proc reg; model y=x1-x8/selection=stepwise(forward backward); 又如: proc reg; model y=x1 x2 x3 x4/selection=rsquare best=2 cp aic rmse adjrsq

37、;,50,例8.4 由于环境作用对光合速率的影响很大,要得到能反映环境对光合作用影响的数据,必须在不同的天气下测定光合作用各种指标.下表87中的数据使用Li6400光合测量仪测定,其中因变量y 光合速率; x1气孔导度; x2胞间二氧化碳浓度; x3蒸腾速率; x4叶片水汽压亏损; x5叶片的温度; x6相对湿度;试对数据作回归分析.,51,SAS程序及主要输出结果,data han84; input y x1 x2 x3 x4 x5 x6;cards; 8.37 0.0996 204 2.80 2.78 34.81 1063 8.19 0.0987 202 2.79 2.79 35.06 1

38、069 8.03 0.1030 208 3.11 2.99 35.81 1114 8.32 0.1040 199 3.44 3.27 36.76 1162 8.38 0.0990 192 3.48 3.45 37.46 1219 8.16 0.1010 200 3.78 3.65 37.87 1231 7.44 0.0979 208 3.88 3.88 38.39 1288 7.28 0.0965 208 3.9 3.95 38.72 1300 6.50 0.0893 205 3.85 4.20 39.61 1295 7.85 0.0988 203 3.45 3.44 46.68 1193 ;

39、proc reg; model y=x1 x2 x3 x4 x5 x6/selection=stepwise; model y=x1 x2 x3 x4 x5 x6/selection=rsquare best=2 cp aic rmse adjrsq;run;,52,(1) 逐步回归分析结果,Model: MODEL1Dependent Variable: y Stepwise Selection: Step 1Variable x1 Entered: R-Square = 0.7297 and C(p) = 73.2633 Analysis of Variance Sum of MeanSo

40、urce DF Squares Square F Value Pr FModel 1 2.43102 2.43102 21.59 0.0017Error 8 0.90074 0.11259Corrected total 9 3.33176 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept -4.87018 2.73998 0.35572 3.16 0.1134 x1 128.79309 27.71741 2.43102 21.59 0.0017,53,Stepwise Selection:

41、Step 4Variable x3 Entered: R-Square = 0.9894 and C(p) = 3.1073 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 3.29645 0.82411 116.69 F Intercept 29.71125 5.11187 0.23857 33.78 0.0021 x1 -119.93351 51.21109 0.03873 5.48 0.0662 x2 -0.03769 0.00594 0.28392 40.20 0.0014 x

42、3 5.20692 1.33904 0.10679 15.12 0.0115 x4 -5.90674 1.39021 0.12749 18.05 0.0081,54,Summary of Stepwise Selection Variable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p) F Value Pr F1 x1 1 0.7297 0.7297 73.2633 21.59 0.00172 x2 2 0.1305 0.8601 37.0035 6.53 0.03783 x4

43、 3 0.0972 0.9574 10.5042 13.68 0.01014 x3 4 0.0321 0.9894 3.1073 15.12 0.0115,(2) 最优子集准则,用全子集法计算所有可能回归,从中选出最优的回归方程.在以上的SAS程序中,model语句斜杠后的选项指出用R2选择法,要求对每种变量个数输出二个最佳的回归子集, 并输出均方根误差、CP、AIC和修正R2统计量,产生的结果如下:,由以下输出结果可得,最佳的回归自变量子集为x1, x2 , x3, x4.即用这四个自变量建立的关于y的回归方程为最优的回归方程.,55,R-Square Selection MethodNum

44、ber in Adjusted RootModel R-Square R-Square C(p) AIC MSE Variables in Model 1 0.7297 0.6959 73.2633 -20.0712 0.33555 x1 1 0.6419 0.5971 98.9888 -17.2605 0.38618 x4- 2 0.8723 0.8358 33.4332 -25.5734 0.24651 x3 x4 2 0.8601 0.8202 37.0035 -24.6624 0.25800 x1 x2- 3 0.9778 0.9667 4.5158 -41.0567 0.11109

45、x2 x3 x4 3 0.9574 0.9360 10.5042 -34.5384 0.15389 x1 x2 x4- 4 0.9894 0.9809 3.1073 -46.4615 0.08404 x1 x2 x3 x4 4 0.9811 0.9659 5.5548 -40.6524 0.11236 x2 x3 x4 x6- 5 0.9897 0.9769 5.0075 -44.7880 0.09243 x1 x2 x3 x4 x6 5 0.9894 0.9762 5.0987 -44.4892 0.09383 x1 x2 x3 x4 x5- 6 0.9898 0.9693 7.0000 -

46、42.8129 0.10660 x1 x2 x3 x4 x5 x6,【返回】,56,共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系.自变量之间的线性关系将会隐藏变量的显著性,增加参数估计的方差,还会产生一个很不稳定的模型.,第五节 处理多元线性回归中自变量共线性的几种方法,一.共线性诊断,在试验设计过程中,我们一般都会选择许多对试验指标有影响的因子。在通常情况下,很难找到一组互不相关而又对试验指标有影响的因子。当它们之间的相关性较弱时,可以认为符合回归模型中对设计矩阵的要求, 当这些因子之间有较强的相关性时,我们认为它违背了回归模型的基本假设。,57,共线性诊断的方法是

47、基于对自变量间相关性的观测数据构成的矩阵XTX进行分析.当因子之间存在较强的相关性,即存在多重共线性时,设计矩阵的秩r( X ) p+1即 | XTX |=0故矩阵 XTX 的逆阵( XTX )-1不存在,这样最小二乘估计的参数,方差膨胀因子(Variance Inflation Factor,简记VIF )是指回归系数的估计量由于自变量共线性使得方差增加的一个相对度量.,也不存在.,诊断自变量存在共线性的统计量有方差膨胀因子和条件指数.,1.方差膨胀因子VIF,对于第j个回归系数(j=1,2, , p),它的方差膨胀因子VIF定义为,58,其中Rj2是自变量xj对模型中其余p-1个自变量线性

48、回归模型的复相关系数,即SAS输出结果中的R平方项.,第j个回归系数的方差与自变量不相关时j个回归系数的方差之比,VIFj的倒数称为容限(Tolerance),记为 TOLj .,一般建议:若VIF 10,则表明模型中自变量有很强的共线性存在.,2. 条件指数,若自变量的交叉乘积矩阵XTX的特征值为,为条件指数.,则称,59,一般认为,若条件指数值在10与30之间为弱相关;在30与100之间为中等相关;大于100表明强相关.对于大的条件指数,还需要找出哪些变量间存在强的线性关系.因为每个条件指数对应一个特征值,而大的条件指数相应的特征值较小,故构成这一特征向量的变量间有近似的线性关系.在统计中

49、用方差比例来说明各个自变量在构成这个特征向量中的贡献.,二.筛选变量的方法,在逐步回归分析中介绍了自变量筛选的方法. 这些方法除了把对因变量影响不显著的自变量删除之外,还可以从有共线性关系的变量组中筛选出对因变量影响显著的少数几个变量.,一般建议:在大的条件指数中由方差比例超过0.5的自变量构成的变量子集就认为是相关变量集.,60,例3 对下表中数据,先用REG过程对自变量的共线性进行诊断, 再建立回归方程.,61,data han3; input x1 x2 x3 x4 y;cards; 7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.311 31

50、 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.23 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.121 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.310 68 8 12 109.4 ;proc reg; model y=x1 x2 x3 x4/vif collinoint; (方差膨胀因子, 条件指数)model y=x1 x2 x3 x4/selection=rsquare best=2 cp aic rmse adjrsq; run;,62,主要输出结果: Ana

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号