SAS中多元线性回归.ppt

上传人:小飞机 文档编号:5447376 上传时间:2023-07-08 格式:PPT 页数:37 大小:231.50KB
返回 下载 相关 举报
SAS中多元线性回归.ppt_第1页
第1页 / 共37页
SAS中多元线性回归.ppt_第2页
第2页 / 共37页
SAS中多元线性回归.ppt_第3页
第3页 / 共37页
SAS中多元线性回归.ppt_第4页
第4页 / 共37页
SAS中多元线性回归.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《SAS中多元线性回归.ppt》由会员分享,可在线阅读,更多相关《SAS中多元线性回归.ppt(37页珍藏版)》请在三一办公上搜索。

1、用SAS进行回归分析,SAS中用于回归分析的过程,SAS中用于回归分析的过程,reg过程,一般格式为:proc reg 选项;model 因变量=自变量/选项;weight 变量;print 选项;plot 纵轴变量*横轴变量=“符号”;,proc reg data=forest;model y1-y5=x1-x7;run;,reg过程的选项,proc reg语句的选项有data=输入数据集,simple给出简单统计数,corr给出简单相关系数等。Model语句设定线性数学模型。Weight语句给出权系数变量。Print语句打印分析结果。Plot语句作散点图。,REG过程的语法格式如下:,这也

2、不是完全的reg过程的语法,详细语法,可以参考SAS的帮助。,proc reg data=forest OUTEST=result1 SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1run;,程序中全部语句中只有第一行和MODEL语句是必需的,其他都可以省略。MODEL语句,必需语句,定义回归分析模型 VAR语句为可选的,指定用于计算交叉积的变量 PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。【过程选项(reg语句的选项)】OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。NOPRINT 禁止统计

3、结果在OUTPUT视窗中输出。SIMPLE 输出REG过程中所用的每个变量的基本统计量。CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。,【MODEL语句】MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。MODEL语句中常用的选项有:NOINT 在模型中不拟合常数项。STB 输出标准化回归系数。CLI 输出个体

4、预测值 的95%可信区间上下限。CLM 输出因变量期望值(均值)的95%可信区间上下限。R 输出个体预测值、残差及其标准误。P 输出实际值Yi、预测值 和残差等。如已选择了CLI、CLM和R,则无需选择P。SELECTION=name来选择逐步回归的方法。,【OUTPUT关键字】REG过程中OUTPUT语句的用法和means过程中的用法相同,只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:,【PLOT语句】PLOT语句用于输出变量间的散点图,其用法和GPLOT过程中的PLOT语句非常相似。PLOT语句定义的两变量可为MODEL语句或VAR语句中定义的

5、任何变量。SYMBOL选项可定义散点图中点的标记,如SYMBOL=*,则每个点以“*”表示。,proc reg data=forest SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1=*run;,逐步回归分析,在进行逐步回归分析时,应用MODEL语句中的SELECTION=name选择项,来选择用于进行逐步回归分析时模型;其中name可以是FORWARD(或F);BACKWARD(或B);STEPWISE;MAXR;MINR;RSQUARE;ADJRSQ;CP;NONE(使用全回归模型)。缺省时使用NONE。,参考书p12

6、3p124,逐步回归的统计量,使用SELECTION=FORWARD(或F)变量增加法、BACKWARD(或B)变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15,最大R2增量法(MAXR)首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量。然后对于该两变量的回归模型,用其他变量逐次替换,并计算其 R2,如果换后的模

7、型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止。,最小R2增量法(MINR)首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量,使它构成的模型其他变量所产生的R2增量最小,不断用新变量进行替换老变量,依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似最大R2增量法(MAXR),但引入的是产生最小R2 增量的另一变量。对该两变量的回归模型,再用其他变量替换,换成产生最小R2增量者,直至R2不能再增加,即为两变量最优回归模型。依次类推,继续找含个或更多变量的最优回归模

8、型等等,变量有进有出。它与R2增量法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第种方法多。,R2选择法(RSQUARE)从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。要注意当观测点少、且模型语句中变量数目过多时,程序不能运行,因为过多变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减个变量放入模型。本法和修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)分别是按不同标准选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中,而仅仅从模袖量中穷举。本法的局限

9、性在于其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同模型;其二,选最优子集的标准是R2,完全没考虑其他标准。修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)与R2选择法(RSQUARE)类似,只不过使用的统计量不同。,1、变量x和y的观测值如下,X0.100.300.400.550.700.800.95y1518192122.623.826绘制x和y的散点图。做直线回归。,data a1;input x y;cards;0.10 15 0.30 18 0.40 19 0.55

10、21 0.70 22.6 0.80 23.8 0.95 26;run;,输入数据集:,表示数据不换行,连续输入,绘制散点图:,proc plot data=a1;plot y*x;run;,做直线回归:,proc reg data=a1;model y=x;run;quit;,如果不加quit语句,有时候SAS会一直保持reg过程的执行状态,而且让cpu占用率为100%。,Sum of Squares:离差平方和,Mean Squares:均方,Pr F:统计量F的值位于F分布的什么概率位置。,Df:自由度,Intercept:回归方程的常数项。,3.显著性检验,Syy:样本离差平方和U:回归

11、平方和(回归和)Q:剩余平方和(余和),一元线性回归,2、变量x和y的观测值以及频数如下,1.5 4.531.6 4.552 1.8 4.8242.5 5.513.2 6.182试作直线回归。,data a3;input x y w;cards;1.5 4.5 31.6 4.55 21.8 4.82 42.5 5.5 13.2 6.18 2proc reg;model y=x;freq w;run;,程序中freq表示这个点重复的次数。也可以用weight代替,表示权系数变量。但freq会自动取整,而weight接受小数部分。,5、下列数据是1957年美国旧轿车价格的调查资料,x表示轿车使用年

12、数,y表示相应的平均价格,求y关于x的回归方程。(提示:先绘制散点图)X12345678910Y2651194314941087765538484290226204,先绘制散点图,data a5;input x y;cards;1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204;proc plot;plot y*x;run;,得到x和y之间的散点图如下:,从上图可以看出,y和x之间呈现出指数关系,于是我们可以采用指数回归模型,令,,则化成了线性回归问题。Data a52;Input x y;X1=x;Y1=log(y

13、);Cards;1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204;proc reg;model y1=x1;run;quit;,可以看出,模型是显著的。Intercept和X1的系数也都是显著的。,得到y1和x1的回归方程为:y1=8.164585-0.29768x1,而且知道回归效果是高度显著的。Y和x之间的回归方程为:Y=exp(y1)=3514.26exp(-0.29768x),例3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的测量数据列于中,试进行多元线性

14、回归分析,假设上表的资料已建立文本文件c:userli4_1,调用REG过程拟合多元回归方程,程序如下:,MODEL语句中加上STB选项将会给出标准偏回归通径系数,进而可以了解自变数的相对重要性,REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立一个含有两个自变量的方程,并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下:,REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。模型1含有两个自变量,其截距项

15、和X1检验有统计学意义,X2的检验无统计学意义。模型2为逐步回归法,只纳入了X1。比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:YX1。,使用SELECTION=FORWARD(或F)变量增加法、BACKWARD(或B)变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水

16、平,后退法默认为0.10,逐步法是0.15,如果要改变变量引入和剔除的标准,练习一、槲寄生是一种寄生在大树上部树支上的寄生植物。它喜欢寄生在年轻的大树上。下面给出了在一定条件下完成的试验中采集的数据,试分析大树年龄和每株大树上槲寄生株数的关系(提示:先绘制散点图)大树年龄X 3 3 3 4 4 4 9 9 9 15 15 15 40 40槲寄生株数Y 28 33 22 10 36 24 15 22 10 6 14 9 1 1,练习二 为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本,共测了12个因子,各因子数据列于下表。做因变量y1-y5对自变量x1-x7的逐步回归,取sle=sls=0.2。,其中:山地比例(%);:人口密度(人/);:人均收入增长率(元/年);:公路密度(100m/ha);:前汛期降水量(cm/年);:后汛期降水量(cm/年);:月平均最低温度();:森林覆盖率(%);:针叶林比例(%);:造林面积(千亩/年);:年采伐面积(千亩/年);:火灾频数(次/年)。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号