回归分析与SAS过程.doc_三一办公31ppt.com

资源描述

《回归分析与SAS过程.doc》由会员分享，可在线阅读，更多相关《回归分析与SAS过程.doc（49页珍藏版）》请在三一办公上搜索。

1、回归分析与REG过程前面我们介绍了相关分析，并且知道变量之间线性相关的程度可以通过相关系数来衡量。但在实际工作中，仅仅知道变量之间存在相关关系往往是不够的，还需要进一步明确它们之间有怎样的关系。换句话说，实际工作者常常想知道某些变量发生变化后，另一个相关变量的变化程度。例如，第六章中已经证明消费和收入之间有很强的相关关系，而且也知道，消费随着收入的变化而变化，问题是当收入变化某一幅度后，消费会有多大的变化？再比如，在股票市场上，股票收益会随着股票风险的变化而变化。一般来说，收益和风险是正相关的，也就是说，风险越大收益就越高，风险越小收益也越小，著名的资本资产定价模型（CAPM）正说明了这种关系

2、。现在的问题是当某个投资者知道了某只股票的风险后，他能够预测出这只股票的平均收益吗？类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。第一节线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。高尔顿发现，虽然有一个趋势：父母高，儿女也高；父母矮，儿女也矮，但给定父母的身高，儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。这一回归定律后来被统计学家K.Pearson通过上千个家庭成员身高的实际调查数据进一

3、步得到证实，从而产生了“回归”这一名称。当然，现代意义上的“回归”比其原始含义要广得多。一般来说，现代意义上的回归分析是研究一个变量（也称为因变量Dependent Variable或被解释变量Explained Variable ）对另一个或多个变量（也称为自变量Independent Variable或Explanatory Variable ）的依赖关系，其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。具体而言，回归分析需要解决以下问题：1构建因变量与自变量之间的回归模型，并依据样本观测值对回归模型中的参数进行估计，给出回归方程。 2对回归方程中的参数和方程本身进行显著性检

4、验。3评价自变量对因变量的贡献；4利用所求得的回归方程对因变量进行预测，对自变量进行控制。二、经典线性回归模型及其假设条件在回归分析中，因变量Y和自变量X之间的关系通常可用以下带有条件期望的方程表示：（9.1）其中为变量Y关于变量X（可以是一个变量，也可以是由多个变量构成的向量）的条件均值，为随机误差，称方程9.1为Y关于X的总体回归模型。由于条件均值是变量X的函数，所以可记为：（9.2）其中为X的某个函数，方程（9.2）被称为总体回归方程，它表明了的条件均值与X之间的关系。在回归分析中，关于函数的形式至关重要。若函数只含有一个自变量，则称为一元回归；若含有两个或两个以上的自变量则称为多元

5、回归。若是的线性函数，即：（9.3）其中、为未知参数，称为回归系数，则称方程（9.3）为线性回归方程，而方程：（9.4）则称为线性回归模型。特别地，当模型中只有一个自变量时称为一元线性回归模型，其一般形式可表示为： + （9.5）当模型中有P个自变量，时称为P元线性回归模型，或多元线性回归模型，其一般形式可表示为：（9.6）需要注意的是，回归分析中的“线性”一词一般是针对参数而不是针对自变量而言的。例如：方程=+关于自变量不是线性的，但关于参数、却是线性的，此时我们仍称为线性回归，而方程=+虽然关于自变量是线性的，但关于却是非线性的，则不能称其为是线性回归。类似地，方程=+也不是线性的。

6、对于P元线性回归，如果获得了自变量，和因变量的一个容量为的样本（，）| ，则每一组观测值（，）都应满足方程（9.6），从而有：=+ （）（9.7）特别地，当P=1时一元线性回归模型有：=+ （）（9.8）如果记，则方程（9.7）可表示为以下矩阵形式：（9.9）在经典的线性回归分析中，一般有以下假定：（1）随机误差项均值为0，即E（）=0；（2）对每个，随机误差项的方差均为，且各误差项之间相互独立，即：COV（，）=0，（），用矩阵表示为：E，其中I为阶单位阵；（3）自变量是非随机的确定性变量；（4）自变量和误差项互不相关，即COV（，）=0；（5）自变量之间不存在多重共线性，即矩阵

7、的秩，也即矩阵的列向量是互不相关的。（6）为进行假设检验，通常还进一步假定误差项服从均值为0，协差阵为的多元正态分布，即。三、经典线性回归模型的参数估计1参数估计对于满足以上（1）到（6）条假定的回归模型（9.9）式,其参数的最小二乘估计量（OLS）为: （9.10）记，则：（9.11）特别地，对于一元线性回归，其参数的估计量为：（9.12）其中：，，则：，从而有：（9.13） 2参数估计量性质在误差项服从正态分布的假定下，估计量是线性无偏最小估计量（BLUE）。且有：，即估计量服从均值为，协方差阵为的多元正态分布。特别地对于一元线性回归有：，即估计量，均服从正态分布，且是线性无偏最

8、小估计量。四、回归模型诊断在线性回归分析中，当对组独立观测运用最小二乘法估计出总体回归方程中的参数后，总体回归方程的估计样本回归方程就可以用参数的估计值表示出来，即：（9.14）特别地，当=1时，一元线性回归方程的估计式可表示为：（9.15）在估计出了回归方程后，一个很自然的问题是，这个方程拟合得好吗？对于线性回归模型，因变量与自变量之间的关系是线性的吗？方程中的每个自变量都对因变量有显著影响吗？换句话说回归方程中的参数都与0有显著差异吗？随机误差项满足0均值、不相关、同方差和正态性假定吗？自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以

9、下一些指标或假设检验得到部分解决。1方程拟合好坏通常用拟合优度指标来反映。它被定义为：（9.16）其中称为总离差平方和，称为回归平方和，它表示来自自变量对总离差的贡献，称为残差平方和，它表示来自误差项对总离差的贡献。与一元方差分析类似有：。拟合优度表示，因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说，不能由自变量来解释的部分为：1-。显然越大，越接近于1表明拟合就越好。由于随着自变量个数的增加而增加，所以在多元回归的情况下，通常要对进行调整。调整后的用表示，定义为：，其中当模型中不包含常数项时，当模型中包含常数项时。2自变量与因变量之间线性关系的F检验在线性回归分析中，我们一

10、般假定回归方程有以下形式：，即与P个自变量之间线性相关，但实际情况怎样呢，这需要通过检验来回答。为此，记，称为回归均方和，称为误差均方和，定义：（9.17）在给定的显著性水平下，若由样本观测值计算的F值大于，则自变量与因变量之间具有显著的线性关系，否则，变量之间不具有显著的线性关系。在SAS系统中，一般通过F值对应的P值来判断变量之间线性关系的显著性。若F值对应的P值小于给定的显著性水平，则因变量与P个自变量存在显著的线性关系，否则线性关系不显著，需用自变量的其它曲线形式来拟合。3回归参数的t检验在线性回归方程中，回归参数表示自变量每变动一个单位，因变量的平均变动幅度，即的单位变动对因变量的

11、影响程度。因此，检验回归参数是否有显著差异至关重要，实际应用中通常作如下假设：，由于，记：则有：，从而统计量：，当给定显著性水平为下，若由样本观测值计算的值的绝对值大于，则参数与0有显著性差异，否则，参数与0没有显著差异。在SAS系统中，一般通过值所对应的P值来判断回归参数与0是否有显著性差异。若值所对应的P值小于给定的显著性水平，则回归参数与0有显著性差异。特别地，当P=1时，一元线性回归系数的检验统计量为：类似可以给出判断是否与0有显著性差异的判别准则，请读者自行完成。五、回归模型诊断1残差分析残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。我们知道，关于回归模型中的误差项的

12、假定是：零均值、同方差、不相关和正态性，即。如果我们采用的回归模型对样本数据的拟合是良好的话，那么误差项的估计量就应该反映这种分布特性。记，称为残差，则应近似服从，从而标准化残差应近似服从。考虑到的估计量为，所以标准化残差的估计量也应近似服从标准正态分布，即：若以为横坐标，以为纵坐标作（，）的散点图（），则得到的图形称为标准化残差图在一元回归分析中，常用自变量作为横轴。一般来说，如果回归直线拟合的较好，则残差图中应有95%的点在= -2和= +2的两条直线之间随机分布，见图9-1（），表明残差是服从均值为0，方差为的正态分布，符合原来对随机误差项的假定。如果残差图中的点不是在=0的直线上下

13、随机分布的，而是呈现出渐增、渐减的趋势，见图9-1（），则表示同方差性假定不成立。此时，或采取加权最小二乘法，或采取对因变量进行数据变换使得变换后的数据同方差性近似得到满足。如果残差图呈现某种曲线形式，如图9-1（），则误差项与预测值之间存在某种线性关系。特别地，若横轴代表时间，由时间和残差作成的散点图有如图9-1（）时，表明误差项之间存在某种形式的自相关，此时需要对观测值进行自相关性处理。（）（）（）2方差齐性的统计检验及其处理除了上面利用残差图可以直观地判断误差项是否存在异方差性外，更正式的方法就是通过统计检验来判断。（1）格莱泽（Glejser）检验。其检验的一般步骤是：首先进行

14、OLS估计，并得到误差项的估计值。其次用的绝对值对被认为与密切相关的自变量进行线性回归，若自变量的回归参数经检验与0有显著差异，则误差项存在异方差性，否则可以接受同方差性假定。（2）斯皮尔曼(Spearman)等级相关检验。其检验的一般步骤是：首先进行OLS估计，并得到误差项的估计值。其次对的绝对值和自变量的观测值进行排序，并计算斯皮尔曼等级相关系数。最后利用检验统统计量来检验残差与自变量是否相关。若计算的值的绝对值不超过临界值，则可以认为同方差性得到满足，反之，则认为存在异方差性。除了以上两种检验方差是否齐性的统计检验外，还有许多其它方法，这里不再一一予以介绍，有兴趣的读者可以参考有关文献

15、。8（3）在误差项存在异方差性的情况下，通常的处理方法有两种：一是在误差项的方差已知的情况下，以1/作为权重进行加权最小二乘法，此时得到的估计量仍是BLUE估计量。但实际工作中，往往未知，此时可以通过格莱泽（Glejser）法对模型：或进行估计，然后令权重或进行加权最小二乘估计。二是对数据进行变换。当误差项的方差与自变量之间存在或关系时，可以在回归方程两边同时除以或，变换后的回归模型中的误差项就具有同方差性。当实践中研究人员根据经验判断因变量具有异方差性时，如消费随着收入的增加其变异性性会更大，常直接对因变量进行数据变换。通常的变换方法有：（1），（2），（3）。通过这样数据变换，往往可以消除

16、异方差性的存在。六、回归预测在回归模型通过以上各种检验后，就可以用来解决实际问题了。实践中，回归分析的一个重要目的就是根据自变量的给定值对因变量进行预测。所谓回归预测是指根据已知的预测因变量的平均值或个别值。1平均值预测当用最小二乘法估计出回归方程后，若给定，则平均值预测值可以根据以下两式给出：（1）平均值的点估计值为：；（2）平均值的100（1-）%置信区间估计为：（）（9.18）其中是的方差的估计的平方根，即。特别地，当P=1时，平均值的点估计值为：，100（1-）%置信区间估计为：（），其中。（2）个别值的预测（1）个别值的点估计值仍为：；（2）个别值的100（1-）%置信区间估计

17、为：（）（9.18）其中是-的方差1+的估计的平方根，即：特别地，当P=1时，个别值的点估计值为：，100（1-）%置信区间估计为：（），其中。第二节、REG过程（回归分析过程）简介一、REG过程的主要功能作为线性回归分析的通用过程，REG过程主要有以下一些常见的功能。 1根据用户需要，REG过程中的MODEL语句可以对任意多个自变量建立线性回归模型，还可以对参数进行线性约束，建立具有线性约束的线性回归方程。 2提供了通过MODEL语句后的选项来实现九种变量选元的方法。 3可以对变量之间进行各种形式的假设检验，包括常见T检验、F检验和D.W检验等。 4通过绘图过程中的PLOT语句，可以对输

18、入数据或由回归分析产生的统计量绘图，包括散点图、参考线以及置信线等，并且这些图形还可以绘制在一张图上。5根据需要，可以输出参数的估计值及贝塔系数、因变量的预测值、置信上限和下限、残差和标准残差等各种常用统计量。6提供了回归模型诊断的一些常见方法，如共线诊断、强影响点诊断、误差项自相关性诊断。7当自变量间存在多重共线时，REG过程还提供了岭回归方法。二REG过程的一般格式（一）REG过程的一般格式REG过程的一般格式如下：PROC REG ; 拟合模型MODEL dependent=independents ; 必需的语句BY variables;FREQ variable;WEIGHT var

19、iable; 可以选择，但必须出现在第一个RUN之前ID variable;VAR variables;ADD variables;DELETE variables; 出现在MODEL语句OUTPUT OUT=sas-data-set keyword=names; 之后，且可以交互PLOT ; 使用TEST eqution ;（二）REG过程中常用语句说明1PROC REG语句该语句一般格式为：PROC REG ; 该语句表示调用REG过程，执行线性回归分析，它是回归分析中必需的语句。该语句后面的选项常用的主要有以下两类：（1）关于数据集选项COVOUT：将参数估计的协方差阵输出到由OUTE

20、ST=DATA-SET规定的数据集中，显然该选项只有在同时规定了OUTEST=DATA-SET才有效。DATA=DATA-SET：规定执行REG过程的输入数据集，缺省时系统使用最新创建的SAS数据集作为输入数据集。OUTEST=DATA-SET：要求把参数估计量和一些常用的统计量输出到指定的SAS数据集中。（2）关于输出选项 ALL：要求打印MODEL语句和VAR语句中规定变量的简单统计量和相关矩阵。 CORR：要求打印MODEL语句和VAR语句中规定变量的相关矩阵。 NOPRINT：不打印输出。2MODEL语句该语句的一般格式为：MODEL dependents=independents ;

21、该语句规定线性回归模型的形式，其中等式左边为因变量，可以多于一个，右边为自变量。等式两边的变量如果多于一个，则各变量间用空格隔开。注意在该语句中使用的变量必须在输入数据集已被定义，没有定义的则不能使用。比如你想在模型中拟合X的平方项，则必须在输入数据集中用赋值语句进行定义。可以出现在MODEL语句中的选项较多，常用的主要有以下三类：（1）模型选择选项SELECTION=name:规定自变量的选元方法，其中name为选元方法名。常用的选元方法有：逐步回归法（STEPWISE）、向前选择法（FORWARD或F）、向后排除法(BACKWARD或B)、最大R2增量法（MAXR）、最小R2增量法（MI

22、NR）、R2选择法（RSQUARE）、Mallows的CP选择法（CP）以及全回归模型法（NONE）。当省略SELECTION=选项时，系统以NONE代替，即建立所有自变量的回归模型。NOINT：取消回归模型中的常数项，即拟合一个过原点的回归模型。SLENTRY=value|SLE=value：对FORWARD和STEPWISE选元方法规定变量被选入模型的显著性水平。其中对FORWARD方法缺省时系统规定为0.5，而对STEPWISE方法缺省时系统规定为0.15。ALSTAY=value|SLS=value：对BACKWARD和STEPWISE选元方法规定变量保留在模型里的显著性水平。其中对B

23、ACKWARD方法缺省时系统规定为0.1，而对STEPWISE方法缺省时系统规定为0.15。（2）关于估计细节的选项COLLIN：给出自变量间多重共线性的诊断统计量，包括特征值（Eigenvalue）、条件指数(Condition Number)以及相对于特征值的这些估计的方差分解(Var Prop)。当方程中不包括截据项时，使用COLLINOINT。COVB：输出参数估计量的协方差阵的估计量，即。STB：输出标准回归系数。TOL：输出自变量的容许值，它被定义为1-R2。其中R2是由该自变量对模型中的其它自变量进行回归所得到的拟合优度。一般来说，R2越大，表明某一自变量可以被其它自变量线性表示

24、的可能性就越大，从而自变量之间多重共线性的可能性就越大。由于R2越大，TOL就越小，所以小的TOL表明自变量之间存在多重共线性的可能就越大。VIF：输出方差膨胀因子。它被定义为容许值的倒数，即VIF=1/TOL。一般来说，当VIF大于10时就可以认为自变量间存在严重的多重共线性。(3)关于预测值与残差值的选项 CLI：输出每个个别值的95%的置信上限和下限。 CLM：对每个观测输出因变量均值的95%的置信上限和置信下限。 DW：计算Durbin-Watson统计量，该统计量仅对时间序列资料有效。INFLUENCE：输出每个观测对预测值影响的详细资料。这是诊断强影响点非常有用的一个选项。P：由输

25、入数据和估计模型计算出的因变量预测值。输出包括观测序号、ID变量、实际值、预测值和残差。当规定了CLI或CLM或R，P可以省略。R：进行残差分析。输出包括选项P要求的所有内容以及预测值的标准误差、学生化残差和COOK的D统计量。3BY语句、FREQ语句、WEIGHT语句、ID语句以及VAR语句这些语句作为PROC过程步中的通用语句，其用法也与在其它SAS过程的用法基本一致，请读者自行参考前面有关章节。4ADD语句该语句的一般格式为：ADD variables;它的作用是增加一些新变量到模型中，并重新拟合模型。注意增加的新变量必须事先用VAR语句予以说明。该语句必须与PRINT语句连用方能输出

26、结果，输出的内容与没有增加变量前的模型输出一致。5DELETE语句该语句的一般格式为：DELETE variables; 它的作用是从已有的模型中删除一些变量，并重新拟合模型。由于删除的变量已经在MODEL语句中出现，所以不必再用VAR语句予以说明。该语句也必须与PRINT语句连用，输出的内容与没有删除变量前的模型输出一致。6OUTPUT语句该语句的一般格式为：OUTPUT OUT=sas-data-set keyword=names;该语句创建一个包括所有输入变量、由keyword=names命名的统计量在内的新的SAS数据集，数据集名由“OUT=”后的SAS数据集名给出。如果“OUT=”缺

27、省，则系统自动以DATAn命名。允许出现在该语句中的统计量常见的有：COOKD=name：COOK的D影响统计量。COVRATIO= name：观测在贝塔的协方差上的标准影响。DFFITS=name：观测在预测值上的标准化影响。H=name：杠杆率，第个观测的杠杆率定义为。P=name：预测值；L95（U95）= name ：因变量单个值的95%预测下限（上限）L95M（U95M）= name：因变量平均值的95%的置信下限（上限）。R= name：残差；STDI= name：单个预测值的标准差；STDP= name：均值预测值的标准差；STDR= name：残差的标准差；STUDENT= n

28、ame：标准化残差。7PLOT语句该语句的一般格式为：PLOT ; 该语句要求对给定变量绘图，包括散点图、连线图等，其中yvar作为纵坐标变量，xvar作为横坐标变量。该语句的用法与GPLOT过程中的PLOT语句的用法基本相同。8TEST语句该语句的一般格式为：TEST eqution ;该语句用于对MODEL语句出现的参数进行假设检验。第三节、REG过程在一元线性回归分析中的应用一、一元线性回归分析所要解决的问题我们知道，当经过一次抽样获得了自变量X和因变量Y的一个容量为n的样本后，一元线性回归模型一般可表示为以下形式：=+ （）对该模型，通常作以下假定：（1）随机误差项均值为0，即E（）

29、=0，（）；（2）对每个，随机误差项，且COV（，）=0，；（3）自变量是非随机的确定性变量；（4）自变量和误差项互不相关。对以上一元线性回归模型，实际中通常要解决以下问题：（1）利用样本数据拟合回归方程，即通过最小二乘法进行参数估计。（2）对拟合的回归方程进行诊断。（3）当诊断结果发现方程拟合不充分或误差项不能满足经典假定时，需对观测进行或模型进行适当的处理，然后再利用处理后的数据对处理后的方程进行拟合，直到模型诊断符合要求为止。（4）利用诊断后的模型进行预测或控制，这是回归分析的主要目的之一。作为REG过程的一个应用，我们先来处理一个简单的一元线性回归问题。例9.1 某保险公司打算对收入

30、在25000元及其以下的家庭考察其收入与户主生命保险额之间的关系。为此该公司随机抽取了12个家庭进行了调查，结果如下：家庭 1 2 3 4 5 6 7 8 9 10 11 12保险额（千元） 32 40 50 20 22 35 55 45 28 22 24 30收入（千元）14 19 23 12 9 15 22 25 15 10 12 16 问题：（1）以收入为自变量，保险额为因变量，用最小二乘法确定线性回归方程，并就表上给出的各收入水平计算。（2）对方程的拟合情况进行诊断。（3）本题中，回归系数的含义是什么？（4）在收入为20000元的家庭中，平均每个户主的保险额和某一个户主的生命保险额的估

31、计值各是多少？显著性水平取0.05解:若用INCOME代表收入,INSURE代表保险额,根据本例中的问题SAS程序编辑如下:data insuranc;input insurce income;cards;32 14 40 19 50 23 20 12 22 9 35 15 55 2245 25 28 15 22 10 24 12 30 16 . 20;proc gplot;plot insurce*income;run;proc reg graphics;model insurce=income;model insurce=income/noint r clm cli;plot studen

32、t.*p.;run;程序解释：上述程序可以分为四个部分。第一部分利用DATA步创建SAS数据集insuran。在这部分中需要注意的是最后一个观测给出了INCOME的观测值却没有给出INSURCE的值，这是为了解决题目中的第四个预测问题而有意缺省的。一般来说，如果需要预测，只需给定自变量的值，而因变量的值用缺省来表示。经过回归后，系统会根据给定的自变量值计算出因变量的预测值。程序第二部分利用GPLOT绘图过程画收入和保险额的散点图，通过散点图来了解两变量之间是线性的还是非线性的。本例中的散点图如下：图9.1(A) 家庭收入与户主之间的散点图由收入与保险额的散点图可以看出，两变量间具有明显的

33、线性关系，因此可以构建以下线性回归模型：INSURCE=INCOME+。根据以上模型给出了程序的第三个部分，即程序中的第一个MODEL语句。其中PROC REG语句表示调用线性回归过程，该语句中的GRAPHICS选项要求用高分辨率绘制散点图。MODEL语句的左边为因变量，而右边为自变量，正是上面所设定的模型。程序运行结果如下：输出9.1（A）收入水平对保险额的线性回归（含截据项）Model: MODEL1Dependent Variable: INSURCE Analysis of Variance Sum of Mean Source DF Squares Square F Value

34、ProbF Model 1 1273.34228 1273.34228 57.991 0.0001 Error 10 219.57438 21.95744 C Total 11 1492.91667 Root MSE 4.68588 R-square 0.8529 Dep Mean 33.58333 Adj R-sq 0.8382 C.V. 13.95298 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 0.509508 4.

35、54890673 0.112 0.9130 INCOME 1 2.067114 0.27144554 7.615 0.0001 输出9.1（A）的最上部分是收入对保险额回归结果的方差分析表。输出中用于检验两变量间是否存在线性关系的F检验值为57.991，其对应的临界值为0.0001，远小于显著性水平0.05，说明用两变量线性关系显著，即用以上设定的线性回归模型来拟合是合适的。输出9.1（A）的中间部分给出的模型拟合精度Root MSE为4.68588，拟合优度R2和调整的R2值分别为0.8529和0.8382, 表明保险额的变差有83.82%可以由收入来解释，由此可以得出，方程拟合是比较充分的

36、。输出9.1（A）的最下面部分给出了参数估计以及参数与0是否有显著性差异的T检验。截据项INTERCEP即参数的估计值为0.509508,其对应的概率为0.9130，大于显著性水平0.05，说明与0无显著性差异，而变量INCOME前的系数的估计值为2.067114，其对应的概率为0.0001小于显著性水平0.05，说明与0有显著性差异。由于的T检验不显著，所以需要拟合不带截据项的线性回归模型。程序中第二个MODEL语句中的选项NOINT正是要求系统拟合一个不带截据项的线性回归模型，此外按题目第一、二两个问题的要求还增加了选项r以及clm和cli。其中选项r要求输出每个观测的预测值、残差、标准化

37、残差、COOK统计量，选项clm要求输出平均保险额的预测值的95%的置信上限和下限，而cli则要求输出个别户主保险额的95%的置信上限和下限，这里的95%是系统设定的。PLOT语句要求绘制标准化误差与预测值的残差图，其中student.(小数点可省略)代表studentized residual，P.代表predicted value。这段程序输出如下：输出9.1（B）收入水平对保险额的线性回归（不含截据项）Model: MODEL2NOTE: No intercept in model. R-square is redefined.Dependent Variable: INSURCE

38、Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 14807.15015 14807.15015 740.863 0.0001 Error 11 219.84985 19.98635 U Total 12 15027.00000 Root MSE 4.47061 R-square 0.9854 Dep Mean 33.58333 Adj R-sq 0.9840 C.V. 13.31199 Parameter Estimates Parameter Standard T for H0:

39、Variable DF Estimate Error Parameter=0 Prob |T| INCOME 1 2.096142 0.07701083 27.219 0.0001 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs INSURCE Value Predict Mean Mean Predict Predict Residual 1 32.0000 29.3460 1.078 26.9730 31.7190 19.2242 39.4678 2.6540 2 40.0000 39.8267 1.463 3

40、6.6062 43.0472 29.4733 50.1801 0.1733 3 50.0000 48.2113 1.771 44.3128 52.1098 37.6274 58.7952 1.7887 4 20.0000 25.1537 0.924 23.1197 27.1877 15.1059 35.2015 -5.1537 5 22.0000 18.8653 0.693 17.3398 20.3908 8.9080 28.8226 3.1347 6 35.0000 31.4421 1.155 28.8996 33.9846 21.2792 41.6051 3.5579 7 55.0000

41、46.1151 1.694 42.3861 49.8441 35.5925 56.6378 8.8849 8 45.0000 52.4036 1.925 48.1661 56.6411 41.6902 63.1170 -7.4036 9 28.0000 31.4421 1.155 28.8996 33.9846 21.2792 41.6051 -3.4421 10 22.0000 20.9614 0.770 19.2664 22.6564 10.9768 30.9461 1.038611 24.0000 25.1537 0.924 23.1197 27.1877 15.1059 35.2015

42、 -1.153712 30.0000 33.5383 1.232 30.8263 36.2503 23.3316 43.7449 -3.5383 13 . 41.9228 1.540 38.5329 45.3128 31.5155 52.3302 . Std Err Student Cooks Obs Residual Residual -2-1-0 1 2 D 1 4.339 0.612 | |* | 0.023 2 4.224 0.041 | | | 0.000 3 4.105 0.436 | | | 0.035 4 4.374 -1.178 | *| | 0.062 5 4.417 0.710 | |* | 0.012 6 4.319 0.824 | |* | 0.049 7

展开阅读全文