《回归变量筛选》PPT课件.ppt

上传人:小飞机 文档编号:5483129 上传时间:2023-07-11 格式:PPT 页数:93 大小:589KB
返回 下载 相关 举报
《回归变量筛选》PPT课件.ppt_第1页
第1页 / 共93页
《回归变量筛选》PPT课件.ppt_第2页
第2页 / 共93页
《回归变量筛选》PPT课件.ppt_第3页
第3页 / 共93页
《回归变量筛选》PPT课件.ppt_第4页
第4页 / 共93页
《回归变量筛选》PPT课件.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《《回归变量筛选》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《回归变量筛选》PPT课件.ppt(93页珍藏版)》请在三一办公上搜索。

1、线性回归变量的筛选,多重回归程序模式,DATA A;input X1-X4 Y;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11

2、.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4;RUN;,多重回归,The SAS System 14:40 Friday,April 30,2008 1 The REG Procedure CorrelationVariable X1 X2 X3 X4 YX1 1.0000-0.1357 0.5007-0.0939 0.8973X2-0.1357 1.0000-0.1489 0.1234 0.0462X3 0.5007-0.1489 1.0000-0.0358 0.6890X4-0.0939 0.1234-0.0358 1.0000-0.00

3、65Y 0.8973 0.0462 0.6890-0.0065 1.0000 The SAS System 14:40 Friday,April 30,2008 2 The REG Procedure Model:MODEL1 Dependent Variable:Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 221.47175 55.36794 30.06.0001 Error 10 18.41758 1.84176 Corrected Total 14 239.88933 R

4、oot MSE 1.35711 R-Square 0.9232 Dependent Mean 14.47333 Adj R-Sq 0.8925 Coeff Var 9.37665,多重回归,Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr|t|Intercept 1-51.90207 13.35182-3.89 0.0030 X1 1 2.02618 0.27204 7.45.0001 X2 1 0.65400 0.30270 2.16 0.0561 X3 1 7.79694 2.33281

5、 3.34 0.0075 X4 1 0.04970 0.08300 0.60 0.5626,逐步回归的思想是变数被逐个引入到模型中,而且对引入的变数,其F统计量必须是在选择的水平上显著的。引入一个变数之后,逐步法还要测验所有已经包含在模型中的变数,并删除在选择的水平上不显著的一切变数。仅当经过测验并把所有不显著的变数删除后,再考虑是否引入新变数。当在模型外的所有变数在选择的水平上都不显著,而且在模型内的任一个变数的F统计量在选择的水平上都是显著时,逐步回归过程才停止。此外,若刚被删除的变数又被引入时,逐步过程也停止。SLENTRY值(简记为SLE值)是逐步回归方法规定选入这个模型里的显著性水平

6、。当缺省时,其值为0.15。,第一节 逐步回归,逐步回归SAS过程,语法格式Proc reg(或GLM)DATA=选项;MODEL 响应变量名=自变量名列/SELECTION=F或B或S;VAR 变量名列;FREQ 变量名列;WEGHT 变量名列;BY 变量名列;OUTPUT;PLOT/选项;,变量筛选语法选项(MODEL语句选项),SELECTION=method,规定变量筛选的方法,method可以是以下几种选项FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型 BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量

7、 STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量,NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型,变量筛选MODEL语句选项,SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。,变量

8、筛选MODEL语句选项,SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。,逐步(前进,后退)法回归程序模式,data b;input id y x1 x2 x3 x4;cards;proc reg data=b;model y=x1 x2 x3 x4/stb;model y=x1 x2

9、x3 x4/selection=FORWARD stb;model y=x1 x2 x3 X4/selection=BACKWARD stb;model y=x1 x2 x3 x4/selection=stepwise stb;run;,前进,后退法回归程序模式,DATA A;input X1-X4 Y;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 1

10、14 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 STB;RUN;,Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 193.15219 193.15219 53.

11、73 F Intercept-8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711 193.15219 53.73.0001 Bounds on condition number:1,1,Forward Selection:Step 2 Variable X3 Entered:R-Square=0.8818 and C(p)=6.3911 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 2 211.54256 105.77128 4

12、4.78 F Intercept-30.01290 8.26129 31.17756 13.20 0.0034 X1 1.96965 0.30632 97.66880 41.35.0001 X3 7.33659 2.62942 18.39037 7.79 0.0163,The REG Procedure Model:MODEL1 Dependent Variable:Y Forward Selection:Step 2 Bounds on condition number:1.3346,5.3385-Forward Selection:Step 3 Variable X2 Entered:R-

13、Square=0.9205 and C(p)=3.3585 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44 F Intercept-46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53.0001 X2 0.67464 0.29183 9.26887 5.34 0.0412 X3 7.83023 2.26313 20.76193 11.97 0

14、.0053 Bounds on condition number:1.3466,11.148,Summary of Forward Selection Variable Number Partial Model Step Entered Vars In R-Square R-Square C(p)F Value Pr F 1 X1 1 0.8052 0.8052 14.3764 53.73 F Model 3 220.81143 73.60381 42.44|t|Estimate Intercept 1-46.96636 10.19262-4.61 0.0008 0 X1 1 2.01314

15、0.26314 7.65.0001 0.75342 X2 1 0.67464 0.29183 2.31 0.0412 0.19929 X3 1 7.83023 2.26313 3.46 0.0053 0.34139,逐步(前进,后退)法回归程序模式,data b;input id y x1 x2 x3 x4;cards;proc reg data=b;model y=x1 x2 x3 x4/stb;model y=x1 x2 x3 x4/selection=FORWARD stb;model y=x1 x2 x3 X4/selection=BACKWARD stb;model y=x1 x2

16、x3 x4/selection=stepwise stb;run;,后退法回归程序模式,DATA A;input X1-X4 Y;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.

17、2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4/SELECTION=BACKWORD SLS=0.05 STB;RUN;,The REG Procedure Model:MODEL1 Dependent Variable:Y Backward Elimination:Step 0 All Variables Entered:R-Square=0.9232 and C(p)=5.0000 Analysis of Variance Sum of Mean Source DF Squares Squa

18、re F Value Pr F Model 4 221.47175 55.36794 30.06 F Intercept-51.90207 13.35182 27.83051 15.11 0.0030 X1 2.02618 0.27204 102.16813 55.47.0001 X2 0.65400 0.30270 8.59720 4.67 0.0561 X3 7.79694 2.33281 20.57408 11.17 0.0075 X4 0.04970 0.08300 0.66032 0.36 0.5626 Bounds on condition number:1.3501,19.045

19、-,Backward Elimination:Step 1 Variable X4 Removed:R-Square=0.9205 and C(p)=3.3585 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44 F Intercept-46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53.0001 X2 0.67464 0.29183 9.2

20、6887 5.34 0.0412 X3 7.83023 2.26313 20.76193 11.97 0.0053 Bounds on condition number:1.3466,11.148-All variables left in the model are significant at the 0.0500 level.,Summary of Backward Elimination Variable Number Partial Model Step Removed Vars In R-Square R-Square C(p)F Value Pr F 1 X4 3 0.0028

21、0.9205 3.3585 0.36 0.5626 The SAS System 14:40 Friday,April 30,2008 14 The REG Procedure Model:MODEL1 Dependent Variable:Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44|t|Estimate Intercept 1-46.96636 10.19262-4.61 0.0008 0 X1 1 2.01314 0.263

22、14 7.65.0001 0.75342 X2 1 0.67464 0.29183 2.31 0.0412 0.19929 X3 1 7.83023 2.26313 3.46 0.0053 0.34139,逐步法回归程序模式,DATA A;input X1-X4 Y;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 1

23、04 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4/SELECTION=BACKWORD SLS=0.05 STB;MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 STB;MODEL Y=X1-X4/SELECTION=STEPWISE SLS=0.05 SLE=0.05 STB;RUN;,逐步(前进,后退)法回归程序模式,The

24、 REG Procedure Model:MODEL1 Dependent Variable:Y Stepwise Selection:Step 1 Variable X1 Entered:R-Square=0.8052 and C(p)=14.3764 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 193.15219 193.15219 53.73 F Intercept-8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711

25、 193.15219 53.73.0001 Bounds on condition number:1,1-,逐步法回归程序模式结果,Stepwise Selection:Step 2 Variable X3 Entered:R-Square=0.8818 and C(p)=6.3911 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 2 211.54256 105.77128 44.78 F Intercept-30.01290 8.26129 31.17756 13.20 0.0034

26、X1 1.96965 0.30632 97.66880 41.35.0001 X3 7.33659 2.62942 18.39037 7.79 0.0163,逐步法回归程序模式结果,Stepwise Selection:Step 3 Variable X2 Entered:R-Square=0.9205 and C(p)=3.3585 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44 F Intercept-46.96636 10.192

27、62 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53.0001 X2 0.67464 0.29183 9.26887 5.34 0.0412 X3 7.83023 2.26313 20.76193 11.97 0.0053 Bounds on condition number:1.3466,11.148,逐步法回归程序模式结果,Model:MODEL1 Dependent Variable:Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr

28、 F Model 3 220.81143 73.60381 42.44|t|Estimate Intercept 1-46.96636 10.19262-4.61 0.0008 0 X1 1 2.01314 0.26314 7.65.0001 0.75342 X2 1 0.67464 0.29183 2.31 0.0412 0.19929 X3 1 7.83023 2.26313 3.46 0.0053 0.34139,程序运行的主要结果,第二节回归方程筛选优劣的几个准则,1 决定系数,回归方程较好,当 最小且接近自变量的个数P,选择为佳,4.Bayesian信息量BIC达最小,,3赤池信息量

29、AIC达最小,,第二节回归方程筛选优劣的几个准则,5.估计均方误差,达最小,7均方误差,8统计量,9多元正态假设下预测均方误差,10均方根误差,达最小,第一节多重共线性,六SAS程序/*变量筛选*/data fitness;input x1 x2 x3 y;datalines;149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146.0 22.7 212.4 5.6 154.

30、1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;proc reg data=fitness outest=est;model y=x1 x2 x3/selection=rsquare mse jp gmsep cp aic bic sbc b best=2;因子选择proc print data=est;run;,第一节多重共线性,Number in Estimated MSE Model R-Square C(p)AIC BIC of Prediction J(p)MSE(因子个数)(决定系数)(CP

31、统计量)(AIC BIC信息准则)(均方误差)1 0.9445 40.9850 4.4430 2.1718 1.5616 1.5038 1.27245 1 0.9317 52.1069 6.7360 4.1556 1.9236 1.8524 1.56737-2 0.9913 2.5454-13.9065-9.5787 0.3157 0.2865 0.22510 2 0.9828 9.9016-6.4206-6.1287 0.6235 0.5658 0.44455-3 0.9919 4.0000-12.7318-6.8134 0.3905 0.3254 0.23866模型选择比较与估计信息 Nu

32、mber in-Parameter Estimates-Model R-Square SBC Intercept x1 x2 x3 1 0.9445 5.23879-8.01325.0.21400 1 0.9317 7.53184-6.54108 0.14612.-2 0.9913-12.71284-9.74274.0.59605 0.21230 2 0.9828-5.22693-8.42607 0.14524 0.62299.-3 0.9919-11.14019-10.13740-0.05194 0.58666 0.28768,第三节.多重共线性,多重线性回归模型,要求设计矩阵X的秩R(X)

33、=P+1,即要求X中的列向量线性无关。,的LS估计,但在实际应用不容易满足,往往出现自变量间线性相关与近似线性相关的情况,当存在不全为零的P1个数,使得,(1),3.共线性(Multicollinearity,collinearity),这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性,定义:自变量之间存在强烈的线性关系。,迹象:XTX至少有一个很小的特征值j(0)注意:j0 for j=1,2,p(这里j 是XTX的特征值).,影响:典型的影响是使参数估计的方差增大从而使整个估计不精确.,第三节 多重共线性,故可得:,上式两边左乘 X得,第三节病态回归,对线性模型 其最小二乘法估计为,

34、当 接近奇异时,即呈现所谓“病态”,LS估计的性能变坏.,事实上,由于(1),(2),可见,当S呈现所谓“病态”时,即当其某一特征根很接近0时,其均方误差、估计值与理论值的方差均很大,即它们差的平方和的Q值很大,而且很不稳定,各个变量有近似的线性关系,故在此情况下很难把该LS估计为良好估计。,第一节 多重共线性,1.特征根判定准则,总的说来:Var()=2(XTX)-1具体地说:Var(j)=for j=0,1,p-1,这里 R2j 是即其它自变量对自变量j回归的确定系数.线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.,2 确定系数判定准则,4.方差膨胀因子作共线性的

35、测度,(1)VIF(variance inflation factor)VIFj=1/(1-R2j)for j=0,1,2,p-1.当 max(VIFj)30时,有强共线性问题 当 max(VIFj)10时,有共线性问题 当(VIFj)接近1时,弱共线性问题(这是经验公式,无精确理论基础),注意:VIF01/(1-R20)其对应模型是 此模型右边无常数项.,第一节多重共线性,5条件指数(Collinearity)由特征根判定准则知,,近似为零的特征值则可知X自变量间存在多重共线性。那么特征值近似为零的标准如何确定?可用以下介绍的条件指数确定之。,为近微弱多重共线性,,为中等多重共线性,为较强多

36、重共线性,,为严重强多重共线性,解决方法,(1)从模型中除去一些变量(例如对应于比较大的VIFj的Xj).这个问题与变量选择和模型确定的方法有关;如果 j0,则剔除j会导致,即最小二乘估计成为有偏估计.,实例:某种水泥在凝固时放出的热量y(卡克)与水泥中下列的4种化学成分有关:x1:3CaoAl2O3的成分(),x2:3CaoSiO2的成分(),x3:4CaoAl2O3Fe2O3的成分(),x4:2CaoSiO3的成分()。作y关于x1 x2 x3 x4的逐步回归方程。热量y与其4种成份的数据表,逐步回归例,首先须确定测验每一个变数是否显著的F测验的水平(SLENTRY,简记为SLE),以作为

37、引入变数的标准;同时,还须确定删除变数的F测验的水平(SLSYR,简记为SLS)。为了使最终的回归方程中包含较多的变数,SLE不宜太小,SLS也不宜太大。本例引入测验水平取0.10,删除测验水平也取0.10。,7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.23 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.121 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.310 6

38、8 8 12 109.4;,data b;input id x1 x2 x3 x4 Y;cards;,proc reg data=b;model y=x1 x2 x3 X4/stb;model y=x1 x2 x3 X4/selection=FORWARD stb;model y=x1 x2 x3 X4/selection=BACKWARD stb;model y=x1 x2 x3 X4/selection=stepwise stb;run;,data fitness;input x1 x2 x3 y;datalines;149.2 4.2 108.1 15.9 161.2 4.1 114.8

39、 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;,proc reg data=fitness outest=est;model y=x1 x2 x3/tol vif collin;共线诊断proc print data=est;run;,第二节 回归共线诊断

40、变量筛选法,Parameter Estimates,Parameter Standard Variance,Variable DF Estimate Error t Value Pr|t|Tolerance Inflation,(容限)(方差膨胀因子),x1 1-0.05194 0.07034-0.74 0.4842 0.00535 186.74170,x2 1 0.58666 0.09459 6.20 0.0004 0.98068 1.01970,x3 1 0.28768 0.10234 2.81 0.0261 0.00535 186.85657,Collinearity Diagnosti

41、cs,Number Eigenvalue Index Intercept x1 x2 x3 特征值 条件指数,2 0.14838 5.08607 0.00530 0.00007017 0.93769 0.00006166,3 0.01318 17.06863 0.76950 0.00150 0.03308 0.00106,4 0.00005428 265.92678 0.22422 0.99843 0.01831 0.99887,1 3.83839 1.00000 0.00098088 0.00000757 0.01092 0.00000696,Condition-Proportion of

42、Variation-(方差比例),Intercept 1-10.13740 1.21480-8.34.0001.0,注:方差比例-变量对特征值的贡献,方差比例0.5的变量构成相关变量集合,tol1=1-R1.0表明X1与其他变量有很强的相关性,data fitness;input x1 x2 x3 y;datalines;149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 14

43、6.0 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;,proc reg data=fitness outest=est;model y=x1 x2 x3/selection=rsquare mse jp gmsep cp aic bic sbc b best=2;因子选择proc print data=est;run;,第三节 从全子集筛选最优子集回归法,Number in Estimated MSE Model R-Square C(p)AIC BIC of

44、Prediction J(p)MSE(因子个数)(决定系数)(CP统计量)(AIC BIC信息准则)(均方误差)1 0.9445 40.9850 4.4430 2.1718 1.5616 1.5038 1.27245 1 0.9317 52.1069 6.7360 4.1556 1.9236 1.8524 1.56737-2 0.9913 2.5454-13.9065-9.5787 0.3157 0.2865 0.22510 2 0.9828 9.9016-6.4206-6.1287 0.6235 0.5658 0.44455-3 0.9919 4.0000-12.7318-6.8134 0.

45、3905 0.3254 0.23866,模型选择比较与估计信息 Number in-Parameter Estimates-Model R-Square SBC Intercept x1 x2 x3 1 0.9445 5.23879-8.01325.0.21400 1 0.9317 7.53184-6.54108 0.14612.-2 0.9913-12.71284-9.74274.0.59605 0.21230 2 0.9828-5.22693-8.42607 0.14524 0.62299.-3 0.9919-11.14019-10.13740-0.05194 0.58666 0.2876

46、8,模型信息_TYPE_PARMS:最小二乘法回归模型_DEPVAR_因变量名字_RMSE_均方根误差估计Intercept x1 x2 x3 对应的各种估计_IN_-不含截距回归估计量参数个数_P_-含截距回归估计量参数个数Y=-1-作为回归估计的参数为1Obs _MODEL_ _TYPE_ _DEPVAR_ _RMSE_ Intercept x1 x2 x3 y _IN_ _P_ 1 MODEL1 PARMS y 1.12803-8.0132.0.21400-1 1 22 MODEL1 PARMS y 1.25195-6.5411 0.14612.-1 1 23 MODEL1 PARMS

47、y 0.47444-9.7427.0.59605 0.21230-1 2 34 MODEL1 PARMS y 0.66675-8.4261 0.14524 0.62299.-1 2 3MODEL1 PARMS y 0.48853-10.1374-0.05194 0.58666 0.28768-1 3 4Obs _EDF_ _MSE_ _RSQ_ _CP_ _JP_ _GMSEP_ _AIC_ _BIC_ _SBC_ 1 9 1.27245 0.94453 40.9850 1.50380 1.56164 4.4430 2.17180 5.2388 2 9 1.56737 0.93167 52.1

48、069 1.85235 1.92360 6.7360 4.15560 7.5318 3 8 0.22510 0.99128 2.5454 0.28649 0.31572-13.9065-9.57868-12.7128 4 8 0.44455 0.98277 9.9016 0.56579 0.62352-6.4206-6.12867-5.2269 5 7 0.23866 0.99191 4.0000 0.32544 0.39053-12.7318-6.81341-11.1402,/*岭回归 RIDGE leverage plots*/proc reg data=fitness OUTEST=RI

49、DGE1;model y=x1 x2 x3/outstb outvif RIDGE=0.0 to 0.1 by 0.01 0.2 0.3;plot/ridgeplot;OUTPUT;run;PROC PRINT DATA=RIDGE1;RUN;,第四节病态回归的改进岭回归,LS估计,岭回归,岭回归的方法主要是在病态的S中沿主对角线人为加进正数,使其特征值大一些,接近0的程度小一些。它仍为系数的线性估计(K为常数),且对LP估计有所改善,具体的说,是希望找到某个K0,使系数估计值的均方误差小,但具体操作时K与方程的方差有关,较难做到均方误差小。,岭迹分析与岭参数选择,当K趋于0时,岭迹反应系数当

50、不稳定性,当K增大,会使岭迹趋于稳定,一般可选取进入稳定最小的K作为岭参数。,岭估计是K的函数它与,所有的K值,构成一条曲线,称岭迹,岭参数确定的办法不唯一,常常以其估计的均方误差增加不大且方差的膨胀系数小作为选取原则。,第二节病态回归的改进,根据岭迹图选择k值的原则,(1)回归系数的岭估计基本稳定(2)改变最小二乘估计回归系数的符号不合理现象(3)回归系数不出现不合理的绝对值(4)残差平方和增加不大,岭回归的SAS过程,已知某国每年的进口总额为Y,国内总产值为X1,存储量为X2,总消费量为X3分析进口总额为Y与其它三个自变量间的关系。表1 外贸数据,SAS程序 data fitness;in

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号