多元线性回归模型的统计检验.doc

资源描述

《多元线性回归模型的统计检验.doc》由会员分享，可在线阅读，更多相关《多元线性回归模型的统计检验.doc（7页珍藏版）》请在三一办公上搜索。

1、3.3 多元线性回归模型的统计检验多元线性回归模型的参数估计出来后，即求出样本回归函数后，还需进一步对该样本回归函数进行统计检验，以判定估计的可靠程度。包括拟合优度检验、方程总体线性性显著性检验、变量显著性检验以及参数的置信区间估计等方面。一、拟合优度检验 1、可决系数与调整的可决系数在一元线性回归模型中，使用可决系数来衡量样本回归线对样本观测值的拟合程度。在多元线性回归模型中，我们也可用该统计量来衡量样本回归线对样本观测值的拟合程度。记为总离差平方和，为回归平方和，为剩余平方和，则由于 =0所以有：（3.3.1）即总离差平方和可分解为回归平方和与剩余平方和两部分。回归平方和反映了总

2、离差平方和中可由样本回归线解释的部分，它越大，剩余平方和越小，表明样本回归线与样本观测值的拟合程度越高。因此，可用回归平方和占总离差平方和的比重来衡量样本回归线对样本观测值的拟合程度： (3.3.2)该统计量越接近于1，模型的拟合优度越高。在应用过程中发现，如果在模型中增加一个解释变量，往往增大。这是因为残差平方和往往随着解释变量个数的增加而减少，至少不会增加。这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。但是，现实情况往往是，由增加解释变量个数引起的的增大与拟合好坏无关，因此在多元回归模型之间比较拟合优度，就不是一个适合的指标，必须加以调整。在样本容量一定的情况下，增加解释变量

3、必定使得自由度减少，所以调整的思路是将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响。记为调整的可决系数（adjusted coefficient of determination），则有 (3.3.3)其中为残差平方和的自由度，为总离差平方和的自由度。显然，如果增加的解释变量没有解释能力，则对残差平方和RSS的减小没有多大帮助，却增加待估参数的个数，从而使有较大幅度的下降。调整的可决系数与未经调整的可决系数这间存在如下关系：（3.3.4）在实际应用中，达到多大才算模型通过了检验？没有绝对的标准，要看具体情况而定。模型的拟合优度并不是判断模型质量的唯一标准，有

4、时甚至为了追求模型的经济意义，可以牺牲一点拟合优度。而且，在下一部分中，我们将推导出与另一个统计量的关系，那时会对有新的认识。在例3.2.2中，=0.9954，比例2.5.1中的=0.9927大，这应该说是很好的拟合结果了。*2、赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的拟合优度，常用的标准还有赤池信息准则（Akaike information criterion, AIC）和施瓦茨准则（Schwarz criterion，SC）,其定义分别为（3.3.5）（3.3.6）这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。显然

5、，与调整的可决系数相仿，如果增加的解释变量没有解释能力，则对残差平方和的减小没有多大帮助，却增加待估参数的个数，这时可能导致AIC或AC的值增加。在例3.2.2中，Eviews的估计结果显示AIC值与AC值分别为6.68与6.83，分别小于例2.5.1中只包含人均国内生产总值一个解释变量时的相应值7.09与7.19。从这点看，可以说前期人均居民消费应包括在模型中。二、方程的显著性检验(F检验)方程的显著性检验，旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。从上面的拟合优度检验中可以看出，拟合优度高，则解释变量对被解释变量的解释程度就高，可以推测模型总体线性关系

6、成立；反之，就不成立。但这只是一个模糊的推测，不能给出一个在统计上严格的结论。这就要求进行方程的显著性检验。方程的显著性检验所应用的方法仍是数理统计学中假设检验。 1、方程显著性的F检验方程显著性的F检验是要检验模型 i=1,2,n中参数是否显著不为0。按照假设检验的原理与程序，原假设与备择假设分别为：不全为零F检验的思想来自于总离差平方和的分解式： TSS=ESS+RSS由于回归平方和是解释变量X的联合体对被解释变量Y的线性作用的结果，考虑比值如果这个比值较大，则X的联合体对Y的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。因此可通过该比值的大小对总体线性关系进行推断

7、。根据数理统计学中的知识，在原假设成立的条件下，统计量 (3.3.7)服从自由度为的分布。给定一个显著性水平，可得到一个临界值，根据样本在求出统计量的数值后，可通过或来拒绝或接受原假设，以判定原方程总体上的线性关系是否显著成立。对于例3.2.2，计算得到=2057.3，给定一个显著性水平=0.05，查分布表，得到一个临界值(例中解释变量数目为2，样本容量为22) =3.52显然有表明模型的线性关系在95%的置信水平下显著成立。 2、关于拟合优度检验与方程显著性检验关系的讨论拟合优度检验和方程显著性检验是从不同原理出发的两类检验，前者是从已经得到估计的模型出发，检验它对样本观测值的拟合

8、程度，后者是从样本观测值出发检验模型总体线性关系的显著性。但是二者又是关联的，模型对样本观测值的拟合程度高，模型总体线性关系的显著性就强。那么，找出两个用作检验标准的统计量之间的数量关系，在实际应用中互为验证，是有实际意义的。用(3.3.3)和(3.3.7)分别表示的两个统计量之间存在下列关系： (3.3.8)或：（3.3.9）由（3.3.9）可知与同向变化：当时，；越大，值也越大；当时，为无穷大。因此，检验是所估计回归的总显著性的一个度量，也是的一个显著性检验。亦即，检验原假设，等价于检验这一虚拟假设。那么，对于例3.2.2, 给定一个显著性水平=0.05时，查分布表，得到临界值=3.5

9、2，即是说，只要F统计量的值大于3.52，模型的线性关系在95%的水平下是显著成立的。将该数值代入(3.3.8)，计算得到对应的为0.1935。如果我们首先得到为0.1935，肯定认为该模型质量不高，殊不知它的总体线性关系的显著性水平达到95%。这样，在应用中不必对过分苛求，重要的是需考察模型的经济关系是否合理。三、变量的显著性检验（t检验）对于多元线性回归模型，方程的总体线性关系是显著的，并不能说明每个解释变量对被解释变量的影响都是显著的，必须对每个解释变量进行显著性检验，以决定是否作为解释变量被保留在模型中。如果某个变量对被解释变量的影响并不显著，应该将它剔除，以建立更为简单的模型。变量

10、显著性检验中应用最为普遍的是t检验，在目前使用的计量经济学软件包中，都有关于t统计量的计算结果。 1、t统计量在上一节中，已经导出了参数估计量的方差为：以表示矩阵主对角线上的第i个元素，于是参数估计量的方差为：其中为随机误差项的方差，在实际计算时，用它的估计量代替。这样，当模型参数估计完成后，就可以计算每个参数估计量的方差值。因为服从如下正态分布因此，可构造如下t统计量 (3.3.10)该统计量即为用于变量显著性检验的统计量。 2、检验在变量显著性检验中设计的原假设与备择假设为：（i=1,2k）不是所有的给定一个显著性水平，得到一个临界值,于是可根据或来拒绝或接受原假设，从而

11、判定对应的解释变量是否应包括在模型中。需注意的是，在一元线性回归中，t检验与F检验是一致的。一方面，t检验与F检验都是对相同的原假设：进行检验；另一方面，两个统计量之间有如下关系：在例3.2.2中，已经由应用软件计算出所有的数值，分别为：给定一个显著性水平=0.05，查分布表中自由度为19（在这个例中=19）的相应临界值，得到=2.093。可见，计算的所有值都大于该临界值，所以拒绝原假设。即是说，包括常数项在内的3个解释变量都在95%的水平下显著，都通过了变量显著性检验。经常遇到一些实际问题，各个变量的值相差较大，有的在很高的显著性水平下显著，有的则在不太高的显著性水平下显著，是否都认为

12、通过显著性检验？没有绝对的显著性水平。关键仍然是考察变量在经济关系上是否对解释变量有影响，显著性检验起到验证的作用；同时还要看显著性水平不太高的变量在模型中以及模型应用中的作用，不要简单地剔除变量。四、参数的置信区间参数的假设检验用来判别所考察的解释变量是否对被解释变量有显著的线性性影响，但并未回答在一次抽样中，所估计的参数值离参数的真实值有多“近”。这需要进一步通过对参数的置信区间的估计来考察。在变量的显著性检验中已经知道：容易推出：在的置信水平下的置信区间是 (3.3.11)其中，为分布表中显著性水平为、自由度为的临界值。在例3.2.2中，如果给定=0.05，查表得： (19)=2.0

13、93从回归计算中得到：根据(2.5.1)计算得到、的置信区间分别为 (44.284, 197.116) (0.0937, 0.3489 ) (0.0951, 0.8080)显然，参数的置信区间最小。同样地，在实际应用中，我们希望置信水平越高越好，置信区间越小越好。如何才能缩小置信区间？从(3.3.11)式中可看出：（1）增大样本容量n。在同样的置信水平下，n越大，临界值越小；同时，增大样本容量，在一般情况下可使减小，因为式中分母的增大是肯定的，分子并不一定增大。（2）更主要的是提高模型的拟合优度，以减小残差平方和。设想一种极端情况，如果模型完全拟合样本观测值，残差平方和为0，则置信区间也为0

14、。（3）提高样本观测值的分散度。在一般情况下，样本观测值越分散，越小。值得注意的是，置信水平的高低与置信区间的大小存在此消彼涨的关系。置信水平越高，在其它情况不变时，临界值越大，置信区间越大。如果要求缩小置信区间，在其它情况不变时，就必须降低对置信水平的要求。此类已序列化的对象将不再与以后的 Swing 版本兼容。当前的序列化支持适合在运行相同 Swing 版本的应用程序之间短期存储或 RMI。从 1.4 版开始，已在 java.beans 包中加入对所有 JavaBeansTM 的长期存储支持。请参见 XMLEncoder。引用类型和原始类型的行为完全不同，并且它们具有不同的语义。引用类型和

15、原始类型具有不同的特征和用法，它们包括：大小和速度问题，这种类型以哪种类型的数据结构存储，当引用类型和原始类型用作某个类的实例数据时所指定的缺省值。对象引用实例变量的缺省值为 null，而原始类型实例变量的缺省值与它们的类型有关。当JAVA程序违反了JAVA的语义规则时，JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数组下标越界,会引发IndexOutOfBoundsException;访问null的对象时会引发NullPointerException。另一种情况就是JAVA允许程序员扩展这种语义检查，程序员可以创建自己的异常，并自由选择在何时用throw关推动了Web的迅速发展，常用的浏览器现在均支持

展开阅读全文