应用回归分析人大版前四章课后习题答案详解.doc

资源描述

《应用回归分析人大版前四章课后习题答案详解.doc》由会员分享，可在线阅读，更多相关《应用回归分析人大版前四章课后习题答案详解.doc（70页珍藏版）》请在三一办公上搜索。

1、应用回归分析（1-4章习题详解）（21世纪统计学系列教材，第二（三）版，何晓群，刘文卿编著中国人民大学出版社）目录1 回归分析概述71.1 变量间统计关系和函数关系的区别是什么？71.2 回归分析与相关分析的区别与联系是什么？71.3回归模型中随机误差项的意义是什么？71.4线性回归模型的基本假设是什么？81.5 回归模型的设置理论根据是什么？在回归变量设置中应该注意哪些问题？81.6收集,整理数据包括哪些内容？91.7构造回归理论模型的基本根据是什么？91.8为什么要对回归模型进行检验？101.9回归模型有哪几个方面的应用？101.10为什么强调运用回归分析研究经济问题要定性分析和定量分

2、析相结合?102 一元线性回归102.1一元线性回归模型有哪些基本假定？102.2考虑过原点的线性回归模型误差仍满足基本假定，求的最小二乘估计。112.3证明,.112.4回归方程的参数的最小二乘估计与最大似然估计在什么条件下等价？给出理由？122.5证明是的无偏估计。132.6证明成立。132.7证明平方和分解式SST=SSR+SSE.132.8 验证三种检验的关系，即证：142.9验证式子：152.10用第9题证明:是的无偏估计。162.11验证决定系数与F之间的关系式：172.12 如果把自变量观测值都乘以2，回归参数的最小二乘估计会发生什么变化？如果把自变量观测值都加上2，回归参数的

3、最小二乘估计会发生什么变化？182.13如果回归方程：相应的相关系数r很大，则用它预测时预测误差一定较小，这一结论能成立吗？对你的回答说明理由。202.14为了调查某广告对销售收入的影响，某商店记录了5个月的销售收入y（万元）和广告费用x(万元）20表2.6211）利用SPSS软件，散点图为：212）由图易知：x与y之间大致呈现线性关系。223）最小二乘估计得到的回归方程为：224）求回归标准误差；235）给出的置信度为95%的区间估计；236) x与y的决定系数；247) 由SPSS软件可以得到回归方程作方差分析为：248) 对回归系数显著性的检验249) 做相关系数的显著性检验2410）对

4、回归方程作残差图并作相应的分析；2511)对当广告费用为4.2万元时，销售收入将达到多少，并给出置信度95%的置信区间。252.15一家保险公司十分关心其总公司营业部加班的程度，决定认真调查一次现状，经过10周时间，收集了每周加班工作时间的数据和签发的新保单数目，x为每周签发的新保单数目，Y为每周加班工作时间（小时），261）画散点图；262) x与y之间是否大致呈线性关系？273) 用最小二乘估计求出回归方程；274) 求回归标准误差；275) 给出的置信度为95%的区间估计；286) 计算x与y的决定系数；287) 对回归方程作方差分析；288) 对回归系数显著性的检验；299) 做相关系

5、数的显著性检验；2910) 对回归方程作残差图并作相应的分析；2911) 该公司预计下一周签发新保单张，需要加班的时间是多少？3012) 给出的置信水平为95%精确预测区间和近似预测区间；3013) 给出E（）置信水平95%的区间估计。302.16，表2.8是1985年美国50个州和哥伦比业特区公立学校中教师的人均年工资y（美元）和学生的人均经费收入x(美元）。301) 绘制y对x的散点图，可以用直线回归描述两者之间的关系吗？312) 建立y对x的线性回归；323) 用线性回归的Plots功能绘制标准残差的直方图和正态概率图，检验误差项的正态性假设。323 多元线性回归343.1写出多元线性

6、回归模型的矩阵表示形式，并给出多元线性回归模型的基本假设。343.2讨论样本容量n与自变量个数p的关系，它们对模型的参数估计有何影响？353.3证明是误差项的无偏估计。353.4一个回归方程的复相关系数R=0.99，样本决定系数=0.9801我们能判断这个回归方程就很理想吗？353.5 如何正确理解回归方程显著性检验拒绝，接受？363.6数据中心化和标准化在回归分析中的意义是什么？363.7验证（3.5）式363.8利用（3.60）式证明（3.61）式成立，即373.9证明y与自变量的偏决定系数与（3.42）偏F检验值是等价的。373.10验证决定系数与F值之间的关系式：383.11研究货运总

7、量y（万吨）与工业总产值381）计算出y, x1 ,x2, x3的相关系数矩阵392）求y关于x1, x2, x3的三元线性回归方程403）对所求的的方程作拟合优度检验414）对回归方程做显著性检验415）对每个回归系数做显著性检验426）将x3剔除后，进行回归分析得427）有上述系数表可知，常量的95%置信区间为（-821.547，-97.700）438）求标准化回归方程439）求当，时的，给定置信水平为95%，用SPSS软件计算精确置信区间，用手工计算近似预测区间；4410）结合回归方程对问题作一些基本分析。444 违背基本假设的情况454.1 试举例说明产生异方差的原因。454.2 异

8、方差带来的后果有哪些？454.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。454.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。464.5（4.5）式一元加权最小二乘回归系数估计公式。474.6验证（4.8）式多元加权最小二乘回归系数估计公式。474.7 有同学认为当数据存在异方差时，加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异，异方差越严重，两者之间的差异就越大。你是否同意这位同学的观点？说明原因。484.8 对例4.3的数据，用公式计算出加权变换残差，绘制加权变换残差图，根据绘制出的图形说明加权最小二乘估计的效果。484.9 表4.12

9、是用电高峰期每小时用电量y与每月总用电量x的数据。491）用普通最小二乘法建立y与x的回归方程，并画出残差散点图；502）诊断该问题是否存在异方差513）如果存在异方差，用幂指数型的权函数建立加权最小二乘回归方程524）用方差稳定变换=消除异方差534.10 试举一可能产生随机误差项序列相关的经济例子。554.11 序列相关性带来的严重后果是什么？554.12 结DW检验的优缺点。564.13 表4.13为某软件公司月销售额数据，其中，x为总公司的月销售额（万元）；y为某分公司的月销售额（万元）。561）用普通最小二乘法建立y关于x的回归方程572）用残差图及DW检验诊断序列的相关性573）

10、用迭代法处理序列相关，并建立回归方程584）用一阶差分法处理数据，建立回归方程605）比较普通最小二乘法所得回归方程和迭代法，一阶差分法所建立回归方程的优良性614.14某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次63）用普通最小二乘法建立y与和的回归方程，用残差图及DW检验诊断序列的自相性642）用迭代法处理序列相关，建立回归方程663）用一阶差分法处理序列相关，建立回归方程664）用最大似然法处理序列相关，建立回归方程675）用科克伦-奥克特迭代法处理序列相关，建立回归方程686）用普莱斯-温斯登迭代法处理序列相关，建立回归方程687）比较以上各方法所见回归方

11、程的优良性。694.15说明引起异常值的原因和消除异常值的方法。705 附注711 回归分析概述1.1 变量间统计关系和函数关系的区别是什么？答：变量间的统计关系指的是：在推断统计中，我们把变量间具有密切关联而又不能由一个或某一些变量唯一确定另外一个变量的关系成为变量间的统计关系。而函数关系指的是一个变量的变化能完全确定另一个变量的变化。1.2 回归分析与相关分析的区别与联系是什么？答：区别：回归分析和相关分析相互结合，相互渗透但又有不同。他们之间的区别见下表：设X,Y为变量，回归分析相关分析Y是因变量（被解释变量），X是自变量（解释变量）X,Y地位平等Y是随机变量，X可以是随机变量也可以是普

12、通变量X,Y都是随机变量回归分析不仅可以揭示变量X对变量Y的影响大小，还可以由回归方程进行预测与控制。相关分析的研究主要是为刻画两类变量间线性相关的密切程度联系：回归分析和相关分析都是相关关系（统计关系），即：两个变量间虽然有密切的联系但他们的密切程度并没有到由一个可以完全确定另一个的程度。回归分析和相关分析都是研究变量间关系的统计学课题。1.3回归模型中随机误差项的意义是什么？答：回归模型的一般形式为：其中随机变量y称为被解释变量（因变量）；成为解释变量（自变量）。为一般变量的确定性关系，为随机误差。回归模型中随机误差项的意义是：正是因为随机误差项的引入，才将变量之间的关系描述为一个随机方程

13、，使得我们可以借助随机数学方法研究y与的关系。1.4线性回归模型的基本假设是什么？答：线性回归模型的基本假设为：1）解释变量是确定性变量，不是随机变量，样本容量的个数应大于解释变量的个数。2）随机误差项具有0均值和等方差，即这个假定常称为高斯-马尔科夫条件。，即假设观测值没有系统误差，随机误差的平均值为零。随机误差项的协方差为零表明随机误差项在不同的样本点之间是不相关的（在正态假定下即为独立的），不存在序列相关，并且有相同的精度。3），正态分布的假定条件为：， 4）通常为了便于数学上的处理，还要求np,即样本容量的个数要多于解释变量的个数。1.5 回归模型的设置理论根据是什么？在回归变量

14、设置中应该注意哪些问题？答：回归模型的设置理论依据是：要根据所研究问题的目的设置因变量y，然后再选取与y有统计关系的一些变量作为自变量。变量设置中应注意的问题：1）变量的正确选择关键在于能否正确把握所研究的经济活动的经济学内涵。即药酒研究者对所研究的经济问题及背景要有足够的了解。2）对于一些从经济关系角度考虑非常重要的需要引进，但在实际中并没有这样的统计数据的变量，应该考虑用相近的变量代替，或者由其他几个指标复合成一个新指标。3）在选择变量时要注意与一些专门领域的专家合作。4）一个回归模型中并不是所涉及的解释变量越多越好。1.6收集,整理数据包括哪些内容？答：1）回归模型的建立是基于回归变量的

15、样本统计数据。当确定好回归模型的变量之后，就要对这些变量收集，整理统计数据。2）数据的收集是建立经济问题回归模型的重要一环，是一项基础性工作，样本数据的质量如何，对回归模型的水平有至关重要的影响。3）常用的样本数据分为时间序列数据和横截面数据。时间序列数据是按时间顺序排列的统计数据。研究宏观经济问题，这方面的时间序列数据来自国家统计局或一些专业部委的统计年鉴。如果研究微观经济现象，如研究某企业的产值与能耗，那么数据就要在这个企业的计划统计科获取。对于收集到的时间序列资料要特别注意数据的可比性与数据的统计口径问题。对于没有可比性和统计口径计算不一致的统计数据要作认真调整，这个调整过程就是一个数据

16、整理过程。由于许多经济变量的前后期之间总是有关联的，因此时间序列数据容易产生模型中随机误差项的序列相关。对于具有随机误差项序列相关的情况，就要通过对数据的某种计算整理来消除序列相关性，最常用的处理方法是差分法。横截面数据是在同一时间截面上的统计数据。由于一个回归模型往往涉及众多解释变量，如果其中某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响，就产生异方差。因此当用截面数据作样本时，容易产生异方差。对于具有异方差性的建模问题，数据整理就是注意消除异方差性，这常与模型参数估计方法结合起来考虑。不论是时间序列数据还是横截面数据的手机，样本容量的多少一般要与设置的解释变量数目相配

17、套。4）统计数据的整理中不仅要把一些变量数据进行折算，差分，甚至把数据对数化，标准化等，有时还须注意剔除个别特别大或特别小的“野值”，有时需要利用差值的方法把空缺的数据补齐。1.7构造回归理论模型的基本根据是什么？答：1）经济回归模型的建立，通常要依据经济理论和一些数理经济学结果。例如研究的模型有某些具体的函数形式。2)对于根据所获信息无法确定模型的形式时，此时采用不同的形式进行计算机模拟，对于不同的模拟结果，选择较好的一个作为理论模型。1.8为什么要对回归模型进行检验？答：当模型的未知参数估计出来后，便初步建立了一个回归模型，建立回归模型的目的是为了应用它来研究经济问题，但不能马上就用这个

18、模型去作预测，控制和分析，因为这个模型是否真正解释了被解释变量与解释变量之间的关系，必须通过对模型的检验才能决定。1.9回归模型有哪几个方面的应用？答：归分析的应用非常广泛，例如在经济领域有广泛应用。1）矩阵理论和计算机技术的发展为回归分析模型在经济研究中的应用提供了极大的方便。2)模型技术在经济问题研究中的应用也在盛行起来。3)近年来，新的研究方法不断出现，如非参数统计，自助法，刀切法，经验贝叶斯估计等方法都对法回归分析起着渗透和促进作用。由此回归模型技术随着它本身的不断完善和发展以及应用领域的不断扩大，将在统计学中占有更重要的位置，也必将为人类社会的发展起着它独到的作用。1.10为什么强调

19、运用回归分析研究经济问题要定性分析和定量分析相结合?答：因为数理统计方法只是从事物外在的数量表面上去研究问题，不涉及事物质的规定性。单纯的表面上的数量关系是否反映事物的本质？这本质研究如何？必须依靠专门学科的研究才能下定论。所以，在经济问题的研究中，我们不能仅凭样本数据估计的结果就不加分析的说长道短，必须把参数估计的结果和具体经济问题以及现实情况紧密结合，这样才能保证回归模型在经济问题研究中的正确运用。2 一元线性回归2.1一元线性回归模型有哪些基本假定？答：1）解释变量是确定性变量，不是随机变量。2）随机误差项具有0均值和等方差，即这个假定常称为高斯-马尔科夫条件。，即假设观测值没有系统误

20、差，随机误差的平均值为零。随机误差项的协方差为零表明随机误差项在不同的样本点之间是不相关的（在正态假定下即为独立的），不存在序列相关，并且有相同的精度。3），正态分布的假定条件为：， 2.2考虑过原点的线性回归模型误差仍满足基本假定，求的最小二乘估计。答：由题知离差平方和为：，则的最小二乘估计即是使得：有：解得：2.3证明,.证明：由正规方程：以及残差：由以上等式解得：,.2.4回归方程的参数的最小二乘估计与最大似然估计在什么条件下等价？给出理由？答：回归方程的参数的最小二乘估计与最大似然估计在的条件下等价。证明：设获得的n组样本观测值为：则有：则求的最小二乘估计就是满足使达到最小时的

21、。即对求极小值。对于极大似然估计，当时，的分布密度为：似然函数为：对数似然函数为：要求的极大似然估计，即求的极大值，等价于对求极大值。由以上可知，在假设时，的最小二乘估计与最大似然估计等价。2.5证明是的无偏估计。证明：的最小二乘估计分别为：因为为非随机变量，解得：则：得证。2.6证明成立。证明：因为为非随机变量，则，。2.7证明平方和分解式SST=SSR+SSE.证明：2.8 验证三种检验的关系，即证：证明：(1)（2）2.9验证式子：2.10用第9题证明:是的无偏估计。2.11验证决定系数与F之间的关系式：以上表达式说明与F之间是等价的，那么我们为什么要分别引入这两个统计量，而不是只使用其

22、中一个？证明：（2）虽然与F之间是等价的，但我们不能只使用其中的一个，因为这两个统计量研究的对象和目的均有所不同。1) 统计量F是用来进行F检验，即对线性回归方程显著性的一种检验，即其研究的是引起总平方和SST的两个因素SSR和SSE所占必中的多少，也就是如果回归平方和SSR越大回归的效果越好，回归方程便更显著，F的数值大于1.2) 决定系数是研究的总体的离差平方和SST中回归平方和SSR所占的比重，即如果接近于1，说明因变量不确定性的绝大部分能由回归方程解释，回归方程拟合优度就越好。另外决定系数的数值在0与1之间。2.12 如果把自变量观测值都乘以2，回归参数的最小二乘估计会发生什么变化？

23、如果把自变量观测值都加上2，回归参数的最小二乘估计会发生什么变化？答：设开始时的n组观测值为：，离差平方和为：的最小二乘估计就是满足使达到最小时的。即对求极小值。即：解得：1）当自变量的观测值均乘以2时，此时的观测值为：离差平方和即为：2）当自变量的观测值都加上2时，即此时的观测值为：离差平方和为:2.13如果回归方程：相应的相关系数r很大，则用它预测时预测误差一定较小，这一结论能成立吗？对你的回答说明理由。答：这一结论不一定能成立。原因如有：1）当样本量较小时，与前面在讲述相关系数时所强调的一样，此时即使得到一个大的决定系数，但是这个大的决定系数很可能是虚假现象。为此，可以结合样本量

24、和自变量个数对决定系数做调整，计算调整的决定系数。2）即使样本量并不小，决定系数很大，例如是0.9，也并不能肯定自变量和因变量之间的关系是线性的，这是因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时，线性回归的效果通常是较好的，这样的回归方程是不能用于外推预测的。模型失拟检验来判定因变量与自变量之间的真实函数关系，到底是线性关系还是曲线关系，如果是曲线关系到底是哪一种曲线关系，这是可以用残差分析方法来判断回归方程的正确性。3）反之，当算出一个很小的决定系数，例如=1时，与相关系数的显著性检验相似，这时如果样本量n不大，就会得到线性回归不显著的检验结论，而在样本容量n很大时，检验

25、结果仍然会得出线性回归显著的结论，不论检验结果是否显著，这时都应该尝试改进回归的效果，例如增加自变量，改用曲线回归等。2.14为了调查某广告对销售收入的影响，某商店记录了5个月的销售收入y（万元）和广告费用x(万元），数据见表2.6,表2.6月份1 2 3 4 5 x y1 2 3 4 51010 20 20 401）画散点图；2）x与y之间是否大致呈线性关系？3）用最小二乘估计求出回归方程；4）求回归标准误差；5）给出的置信度为95%的区间估计；6）计算x与y的决定系数；7）对回归方程作方差分析；8）对回归系数显著性的检验；9）做相关系数的显著性检验；10）对回归方程作残差图并作相应的分析；

26、11）对当广告费用为4.2万元时，销售收入将达到多少，并给出置信度95%的置信区间。答：1）利用SPSS软件，散点图为：2）由图易知：x与y之间大致呈现线性关系。3）最小二乘估计得到的回归方程为：由：系数a模型非标准化系数标准系数B 的 95.0% 置信区间B标准误差试用版tSig.下限上限1(常量)-1.0006.351-.157.885-21.21119.211x7.0001.915.9043.656.035.90613.094a. 因变量: y可以得到回归方程为：y=-1+7x另外：设回归方程为 =同样4）求回归标准误差；模型汇总b模型RR 方调整 R 方标准估计的误差1.904

27、a.817.7566.05530a. 预测变量: (常量), x。b. 因变量: y由以上可以知道：回归标准误差，另外： = 同样可得。5）给出的置信度为95%的区间估计；系数a模型非标准化系数标准系数B 的 95.0% 置信区间B标准误差试用版tSig.下限上限1(常量)-1.0006.351-.157.885-21.21119.211x7.0001.915.9043.656.035.90613.094a. 因变量: y由以上可以知道：给出的置信度为95%的区间估计分别为：（0.906，13.094）（-21.211，19.211）6) x与y的决定系数；模型汇总b模型更改统计量R 方更改

28、F 更改df1df2Sig. F 更改1.81713.36413.035由SPSS软件，可以知道x与y的决定系数为：7) 由SPSS软件可以得到回归方程作方差分析为：Anovab模型平方和df均方FSig.1回归490.0001490.00013.364.035a残差110.000336.667总计600.0004a. 预测变量: (常量), x。b. 因变量: y由方差分析表可得：F=13.364，显著性Sig=0.035，说明y对x的线性关系显著。8) 对回归系数显著性的检验其中接受原假设认为显著不为0，因变量y对自变量x的一元线性回归成立。9) 做相关系数的显著性检验相关系数 =小于

29、表中的相应值同时大于表中的相应值，x与y有显著的线性关系. 10）对回归方程作残差图并作相应的分析；残差图如下：从图上看，残差是围绕e=0随机波动，从而模型的基本假定是满足的。11)对当广告费用为4.2万元时，销售收入将达到多少，并给出置信度95%的置信区间。当广告费=4.2万元时，销售收入，即（17.1，39.7）2.15一家保险公司十分关心其总公司营业部加班的程度，决定认真调查一次现状，经过10周时间，收集了每周加班工作时间的数据和签发的新保单数目，x为每周签发的新保单数目，Y为每周加班工作时间（小时），表2.7周序号 1 2 3 4 5 6 7 8 9 10 x825 215 1070

30、550 480 920 1350 325 670 1215 y3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.01）画散点图；2）x与y之间是否大致呈线性关系？3）用最小二乘估计求出回归方程；4）求回归标准误差；5）给出的置信度为95%的区间估计；6）计算x与y的决定系数；7）对回归方程作方差分析；8）对回归系数显著性的检验；9）做相关系数的显著性检验；10）对回归方程作残差图并作相应的分析；11）该公司预计下一周签发新保单张，需要加班的时间是多少？12）给出的置信水平为95%精确预测区间和近似预测区间；13）给出E（）置信水平95%的区间估计。答：1）画散点图；由

31、SPSS软件，得到散点图如下：2) x与y之间是否大致呈线性关系？由散点图易知，x与y大致呈线性关系。3) 用最小二乘估计求出回归方程；系数a模型非标准化系数标准系数B标准误差试用版tSig.1(常量).118.355.333.748每周签发的新保单数目.004.000.9498.509.000a. 因变量: 每周加班工作时间由系数表可知，用最小二乘估计求出的回归方程为：y=0.118+0.004x4) 求回归标准误差；模型汇总b模型RR 方调整 R 方标准估计的误差1.949a.900.888.48002a. 预测变量: (常量), 每周签发的新保单数目。b. 因变量: 每周加班工作时间

32、由模型汇总表可以知道，标准回归误差为：0.4800.5) 给出的置信度为95%的区间估计；系数a模型B 的 95.0% 置信区间下限上限1(常量)-.701.937每周签发的新保单数目.003.005a. 因变量: 每周加班工作时间由上表可以知道：常数项的置信度为95%的区间估计为（-0.701，0.937），回归系数的置信度为95%的区间估计为（0.003，0.005）。6) 计算x与y的决定系数；x与y的决定系数 =0.9087) 对回归方程作方差分析；由SPSS做出的方差分析如下：由方差分析表可得，F=72.396，显著性Sig=0.000，说明y对x的线性关系显著。Anovab模型平方

33、和df均方FSig.1回归16.682116.68272.396.000a残差1.8438.230总计18.5259a. 预测变量: (常量), 每周签发的新保单数目。b. 因变量: 每周加班工作时间8) 对回归系数显著性的检验；其中接受原假设认为显著不为0，因变量y对自变量x的一元线性回归成立。9) 做相关系数的显著性检验； =小于表中的相应值同时大于表中的相应值，x与y有显著的线性关系.10) 对回归方程作残差图并作相应的分析；从图上看，残差是围绕e=0随机波动，从而模型的基本假定是满足的11) 该公司预计下一周签发新保单张，需要加班的时间是多少？将12) 给出的置信水平为95%精确预

34、测区间和近似预测区间；,即为（2.7，4.7）近似置信区间为：，即（2.74，4.66）.13) 给出E（）置信水平95%的区间估计。可得置信水平为为，即为（3.33，4.07）2.16，表2.8是1985年美国50个州和哥伦比业特区公立学校中教师的人均年工资y（美元）和学生的人均经费收入x(美元）。1）绘制y对x的散点图，可以用直线回归描述两者之间的关系吗？2）建立y对x的线性回归；3）用线性回归的Plots功能绘制标准残差的直方图和正态概率图，检验误差项的正态性假设。表2.8序号yx序号yx序号yx119583334618208163059351953826422202633114

35、191809529673620460312432032535542020939328537214192752426800454221226443914382516034295294704669222462445173922482394762661048882327186434940209692509730678571024339905020412722454408271705536252338235944225892404292585341682620627282143226443402102450035472722795336644246402829112427431592821570292

36、045223412297122717036212922080298046256102932133016837823022250373147260153705142652542473120940285348257884123152736039823221800253349291323608162169035683322934272950414808349172197431553418443230551258453766答：1) 绘制y对x的散点图，可以用直线回归描述两者之间的关系吗？由SPSS软件可以得到散点图如下：由散点图可以知道，y与x大致呈线性关系，因此可以用直线回归描述两者之间的关系。2

37、) 建立y对x的线性回归；系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)12112.6291197.76810.113.000X3.314.312.83510.621.000a. 因变量: Y由系数表可知，用最小二乘估计求出的回归方程为：y=12112.629+3.314x3) 用线性回归的Plots功能绘制标准残差的直方图和正态概率图，检验误差项的正态性假设。从图上可看出，检验误差项服从正态分布。3 多元线性回归3.1写出多元线性回归模型的矩阵表示形式，并给出多元线性回归模型的基本假设。答：多元线性回归模型的矩阵表示形式如下：多元线性回归模型的基本假定：（1）解释变量是

38、确定性变量，不是随机变量，样本容量的个数应大于解释变量的个数。（2）随机误差项具有0均值和等方差，即这个假定常称为高斯-马尔科夫条件。，即假设观测值没有系统误差，随机误差的平均值为零。随机误差项的协方差为零表明随机误差项在不同的样本点之间是不相关的（在正态假定下即为独立的），不存在序列相关，并且有相同的精度。（3），正态分布的假定条件为：， 3.2讨论样本容量n与自变量个数p的关系，它们对模型的参数估计有何影响？答：np+1。即设计矩阵X中的自变量之间不相关。样本容量的个数应该大于解释变量的个数。又因为X为满秩矩阵，得证。3.3证明是误差项的无偏估计。证明： 3.4一个回归方程的复相关系数

39、R=0.99，样本决定系数=0.9801我们能判断这个回归方程就很理想吗？答：我们并不能判断这个回归模型很理想。因为当样本容量N较小，变量个数P较大时，F检验或者t检验的自由度太小，这时较多会造成样本系数很大的虚假现象。此时，如果样本容量再稍微改变，位置参数会发生较大变化即，参数估计的效果很不稳定。3.5 如何正确理解回归方程显著性检验拒绝，接受？答：一般来说，当接受假设时，认为在给定的显著性水平之下，自变量对因变量y无显著性影响，于是通过去推断y无多大意义。在这种情况下，一方面可能这个问题本来应该用非线性模型去描述，而我们无用线性模型描述了，使得自变量对因变量无显著影响；另一方面，很可能是在

40、考虑自变量时，由于我们认识上的局限性把一些影响因变量y的自变量漏掉了。当我们拒绝了假设时，我们也不能过于相信这个检验，认为这个回归模型已经很完美了，其实，当我们拒绝时，我们只能认为这个回归模型在一定程度上说明了自变量与因变量y的线性关系。因此这时仍不能排除我们漏掉了一些重要的自变量。此检验只宜用于辅助性的，事后验证性质的目的。研究者在事前根据专业知识及经验，认为已把较重要的自变量选入了，可以用来验证原先的考虑是否周全。这时，若拒绝，可认为至少并不与原来的设想矛盾。如果接受，可以肯定模型是不能反映因变量y与自变量的线性关系的，这个模型就不能应用于实际预测和分析。3.6数据中心化和标准化在回归

41、分析中的意义是什么？答：原始数据由于自变量的单位往往不同，会给分析带来一定的困难；又由于设计的数据量较大，可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响，避免不必要的误差。3.7验证（3.5）式证明： 3.8利用（3.60）式证明（3.61）式成立，即证明： 3.9证明y与自变量的偏决定系数与（3.42）偏F检验值是等价的。证明：由上两式可知，其考虑的都是通过在总体中所占比例来衡量第j个因素的重要程度，因而与是等价的。3.10验证决定系数与F值之间的关系式：证明： 3.11研究货运总量y（万吨）与工业总产值（亿元），农业总产值（亿

42、元），居民非商品支出（亿元）的关系，数据见表3.9.表3.9编号货运总量y(万吨)工业总产值x1(亿元)农业总产值x2(亿元)居民非商品支出x3(亿元)116070351.0226075402.4321065402.0426574423.0524072381.2622068451.5727578424.0816066362.0927570443.21025065423.0 1）计算出y，的相关系数矩阵；2）求y关于，的三元先行回归方程；3）对所求得的方程作拟合优度检验；4）对回归方程作显著性检验；5）对每一个回归系数作显著性检验；6）如果有的回归系数没通过显著性检验，将其剔除，重新建立回归方程，再作回归方程的显著性检验和回归系数的显著性检验；7）求出每一个回归系数的置信水平为95%的置信区间；8）求标准化方程；9）求当，时的，给定置信水平为95%，用SPSS软件计算精确置信区间，用手工计算近似预测区间；10）结合回归方程对问题作一些基本分析。答：1）计算出y, x1 ,x2, x3的相关系数矩阵由SPSS软件可得相关分析结果如下：相关性货运总量y工业总产值x1农业总产值x2居民非商品支出x3

展开阅读全文

应用回归分析人大版 前四章课后习题答案详解.doc

应用回归分析人大版前四章课后习题答案详解.doc