《应用回归分析spss软件的应用论文.doc》由会员分享,可在线阅读,更多相关《应用回归分析spss软件的应用论文.doc(25页珍藏版)》请在三一办公上搜索。
1、题目:影响成品钢材需求量的回归分析摘要:随着社会经济的不断开展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进展分析应用。为了使分析的模型具有社会实际意义,我们引用了19801998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进展回归分析。通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际开展情况和意义。关键字:线性回归 回归分析 社会经济 回归模型 成品钢材 投资 多元回归 国家经
2、济 社会开展 目 录第1章 题目表达1第2章 问题假设1第3章 问题分析2第4章 数据的预处理34.1 曲线统计图34.2 散点统计图44.3 样本的相关系数4第5章 回归模型的建立5第6章 回归模型的检验66.1 F检验66.2 T检验及模型的T检验分析76.2.1 T检验76.2.2 T检验分析76.3 偏相关性10第7章 违背模型根本假设的情况117.1 异方差性的检验117.1.1 残差图检验117.1.2 怀特White检验127.2 自相关性的检验127.3 多元加权最小二乘估计127.3.1 权函数自变量的选取137.3.2 Weight Estimate估计幂指数m137.3.
3、3 加权最小二乘估计拟合14第8章 自变量选择与逐步回归158.1 前进逐步回归158.2 后退逐步回归17第9章 多重共线性的情形及处理189.1 多重共线性的诊断189.2 多重共线性的消除20第10章 回归模型总结24参考文献25第1章 题目表达 理论上认为影响成品钢材的需求量的因素主要有经济开展水平、收入水平、产业开展、人民生活水平提高、能源转换技术等因素。为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,19801998年的有关数据如下表。此题旨在通过建立这些经济变量的线性模型来
4、说明影响成品钢材需求量的原因。 数据来源:易丹辉.数据分析与EViews应用.中国人民大学.2008教材第85页 原始数据中国统计年鉴:年份成品钢材万吨原油万吨生铁万吨原煤亿吨发电量亿千瓦时铁路货运量万吨固定资产投资额亿元居民消费亿元19802716.2105953802.46.23006.2111279910.92317.119812670.1101223416.66.23092.71076739612604.1198229021021235516.6632771134951230.42867.9198330721060737387.1535141187841430.13182.519843
5、37211461.340017.8937701240741832.93674.51985369312489.543848.7241071307092543.245891986405813068.850648.9444951356353120.65175198743561341455039.2849731406533791.75961.21988468913704.657049.854521449484753.87633.11989485913764.1582010.5458481514894410.48523.51990515313830.6623810.8621215068145179113
6、.21991563814009.2676510.8767751528935594.510315.91992669714209.7758911.1675391576278080.112459.81993771614523.7873911.51839516266313072.315682.41994848214608.2974112.4928116309317042.120809.819958979.815004.9410529.2713.6110070.316588520019.326944.519969338.0215733.3910722.513.9710813.11688032297432
7、152.319979978.9316074.1411511.4113.7311355.5316973422913.534854.6第2章 问题假设 为了问题的简洁明了,现对题目中的变量给出以下假设:中国成品钢材的需求量为万吨、原油产量万吨、生铁产量万吨、原煤产量亿吨、发电量亿千瓦时、铁路货运量万吨、固定资产投资额亿元、居民消费亿元、政府消费亿元作为影响变量,而且此题收集的数据均为定量变量,其符号和经济意义如下表:变量符号代表意义中国成品钢材的需求量为万吨成品钢材需求总量原油产量万吨原油工业开展水平生铁产量万吨生铁工业开展水平原煤产量亿吨原煤工业开展水平发电量亿千瓦时发电技术水平铁路货运量万吨运
8、输产业水平固定资产投资额亿元固定资产支出水平居民消费亿元居民支出水平政府消费亿元政府支出水平第3章 问题分析 在上述问题中,中国成品钢材的需求量万吨的影响因素不只是原油产量万吨,还有生铁产量万吨、原煤产量亿吨、发电量亿千瓦时、铁路货运量万吨、固定资产投资额亿元、居民消费亿元、政府消费亿元等,这样因变量就与多个自变量有关。因此,我们就可以采用多元线性回归进展问题的分析。 多元线性回归模型的根本形式:设随机变量与一般变量的理论线性回归模型为:其中,是个未知参数,称为回归常数,称为回归系数。称为被解释变量因变量,而是个可以准确测量并可控制的一般变量,称为解释变量自变量。是随机误差,与一元线性回归一样
9、,对随机误差项我们常假定称为理论回归方程。第4章 数据的预处理4.1 曲线统计图 分析:从曲线统计图上我们可以大致的来看,变量和因变量在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开场缓慢增长;从1993年到1998年,增长的幅度开场加大了。的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。分析:从散点统计图上我们可以细致的来看,变量铁路运货量的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为
10、一些特殊事件而导致的铁路运输量降低。与在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986年到1993年,个变量开场缓慢增长;从1993年到1998年,增长的幅度开场加大了。但是原油与原煤的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。4.3 样本的相关系数 分析:从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量有高度的线性相关性,适合做与8个自变量的多元线性回归。说明:本表格是由EView
11、s软件计算得出,但由于不能导出,所以通过保存成图片后经WPS截图工具截得。第5章 回归模型的建立 将原始数据导入到spss19.0简体中文版的数据框中,然后用spss19.0软件回归线性分析得到以下表:模型汇总模型RR 方调整 R 方标准 估计的误差11.000a.999.998113.19930a. 预测变量: (常量), x8, x5, x1, x3, x6, x2, x7, x4。 分析:从模型汇总表中可以看出,复相关系数,决定系数,由决定系数看回归方程高度显著。Anovab模型平方和df均方FSig.1回归1.291E8816139672.5601259.526.000a残差12814
12、0.8061012814.081总计1.292E818a. 预测变量: (常量), x8, x5, x1, x3, x6, x2, x7, x4。b. 因变量: y 分析:从方差分析表,P值=0.000,说明回归方程高度显著,说明整体上对有高度显著的线性影响。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-381.485912.146-.418.685x1.122.107.0881.134.283x2.125.187.135.668.519x3-149.154121.354-.141-1.229.247x4.653.277.7232.359.040x5.003.023.0
13、24.131.898x6.081.042.2601.932.082x7-.120.047-.522-2.570.028x8.394.239.4341.646.131a. 因变量: y 分析:从系数表中可以得到对8个自变量的线性回归方程为 从回归方程中可以看到,对成品钢材需求量起正影响,对成品钢材需求量起负影响。从实际社会生活来看,原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,我们对它进展更深层次的分析。第6章 回归模型的检验6.1 F检验Anovab模型平方和df均方FSig.1回归1.291E8816139672.
14、5601259.526.000a残差128140.8061012814.081总计1.292E818a. 预测变量: (常量), x8, x5, x1, x3, x6, x2, x7, x4。b. 因变量: y 分析:从表中输出结果可以看出,Sig即显著性P值,由,P值=0.000,可知此回归方程高度显著,即做出8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。6.2 T检验及模型的T检验分析6.2.1 T检验系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-381.485912.146-.418.685-241
15、3.8741650.904x1.122.107.0881.134.283-.118.361x2.125.187.135.668.519-.292.542x3-149.154121.354-.141-1.229.247-419.547121.239x4.653.277.7232.359.040.0361.270x5.003.023.024.131.898-.049.055x6.081.042.2601.932.082-.012.175x7-.120.047-.522-2.570.028-.224-.016x8.394.239.4341.646.131-.139.927a. 因变量: y 分析:通
16、过看上面的T检验表可以发现,在显著性水平时,只有的Sig收尾概率小于0.05,通过了显著性检验。回归方程B的95.0%置信区间上下限给定如表中所示。6.2.2 T检验分析 为了尽可能的保存合理变量,我们就针对逐个变量给以T检验分析,逐步剔除不合理的变量,使回归模型更完善。因此我们首先剔除Sig最大的变量,再做回归分析的T检验如下:系数a模型非标准化系数标准系数B标准 误差试用版tSig.1(常量)-274.526387.581-.708.493x1.133.066.0962.014.069x2.121.176.130.686.507x3-137.53479.000-.130-1.741.110
17、x4.678.197.7503.443.005x6.082.040.2632.082.061x7-.124.037-.537-3.348.007x8.388.224.4271.731.111a. 因变量: y分析:剔除后,在显著性水平时,有的Sig收尾概率小于0.05,通过了显著性检验。此时我们发现,剔除了后,通过T检验的变量增多了,这是一个很好的结果。因此我们再剔除Sig最大的变量,再用其他通过了T检验的变量做回归分析的T检验如下:系数a模型非标准化系数标准系数B标准 误差试用版tSig.1(常量)-279.142378.881-.737.475x1.154.057.1122.714.019
18、x3-151.03474.804-.143-2.019.066x4.772.137.8555.625.000x6.100.030.3183.320.006x7-.135.032-.585-4.143.001x8.403.218.4441.849.089a. 因变量: y 分析:剔除后,在显著性水平时,有的Sig收尾概率小于0.05,通过了显著性检验。此时我们发现,剔除了后,通过T检验的变量又增多了一个。因此我们再剔除Sig最大的变量,再做回归分析的T检验如下:系数a模型非标准化系数标准系数B标准 误差试用版tSig.1(常量)-108.818400.265-.272.790x1.150.062
19、.1082.423.031x3-248.80057.640-.235-4.316.001x4.978.0881.08211.120.000x6.127.028.4054.462.001x7-.084.019-.365-4.391.001a. 因变量: y 分析:剔除后,在显著性水平时,剩余变量的Sig收尾概率都小于0.05,全部通过了显著性T检验。模型汇总模型RR 方调整 R 方标准 估计的误差1.999a.999.998115.02599a. 预测变量: (常量), x7, x1, x3, x6, x4。分析:以做回归分析的输出表来看,决定系数,由决定系数看回归模型仍然具有高度的显著性。An
20、ovab模型平方和df均方FSig.1回归1.291E852.581E71951.080.000a残差172002.7331313230.979总计1.292E818a. 预测变量: (常量), x7, x1, x3, x6, x4。b. 因变量: y 分析:由,P值=0.000,回归模型通过了F检验,说明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。说明整体上对有高度显著的线性影响。表中第二列是我们的回归方程参数估计值,由此可以得到对5个自变量的线性回归方程为:从回归方程中可以看到,对成品钢材需求量起正影响,对成品钢材需求量起负影响。此时回归方程虽然通过了F,T
21、检验,但是增加了不合理变量所占回归方程的比重,这也是不合社会实际的6.3 偏相关性系数a模型非标准化系数标准系数tSig.相关性B标准 误差试用版零阶偏局部1(常量)-381.485912.146-.418.685x1.122.107.0881.134.283.916.338.011x2.125.187.135.668.519.998.207.007x3-149.154121.354-.141-1.229.247.938-.362-.012x4.653.277.7232.359.040.997.598.023x5.003.023.024.131.898.902.041.001x6.081.04
22、2.2601.932.082.979.521.019x7-.120.047-.522-2.570.028.972-.631-.026x8.394.239.4341.646.131.982.462.016a. 因变量: y 分析:从表中可以看出,8个偏相关系数分别为0.338,0.207,-0.362,0.598,0.041,0.521,-0.631,0.462进一步可计算出偏决定系数。表中相关系数栏的零阶为y与的简单相关系数。因为简单相关系数只是两变量的局部相关性质,而非整体的性质。所以在多元线性回归中分析中我门看重的是偏相关系数,从数值上看的偏相关系数较大因此他们对因变量y的影响较大些。第7
23、章 违背模型根本假设的情况7.1 异方差性的检验7.1.1 残差图检验我们分别以回归标准化残差和因变量y来绘制残差图分析模型是否存在异方差。分析:从残差的散点图上我们可以看出,回归的标准化残差随因变量y的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回归模型不存在异方差。7.1.2 怀特White检验 我们用Eviews软件做怀特检验,是把作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。怀特检验的统计量是,是样本观测量,是辅助回归的拟合优度。此题的怀特
24、检验如下:Heteroskedasticity Test: WhiteF-statistic1.958884Prob. F(8,10)0.1579Obs*R-squared11.59867Prob. Chi-Square(8)0.1700Scaled explained SS1.445422Prob. Chi-Square(8)0.9936分析:上表中Obs*R-squared即为,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。7.2 自相关性的检验 对于自相关性我们用DW检验来判断,回归估计式的残差来定义DW统计量,假设有,通过化简后DW值与
25、的关系式为,在SPSS19.0中运行结果如下表:模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson11.000a.999.998113.199302.245a. 预测变量: (常量), x8, x5, x1, x3, x6, x2, x7, x4。b. 因变量: y分析:从表中的数据我们可以看到,=2.245,因而可以近似的计算出,通过查表可以判断出误差项的自相关性成轻微的负自相关。由于自相关性不是很明显,所以在这里就不做处理了。7.3 多元加权最小二乘估计7.3.1 权函数自变量的选取 我们先通过SPSS19.0计算出普通残差的绝对值与的等级相关系数,输出结果见下表
26、所示: 分析:由于输出结果太多,表格数据太过于繁杂,为了限制篇幅这里采用了WPS文字校园版的截图工具进展了处理,处理结果如上图所示。从上图的表中数据可以看出,残差绝对值与自变量的相关系数为,比其他自变量的相关系数都要大,因此我们选构造权函数。7.3.2 Weight Estimate估计幂指数m对数似然值b扩大对数似然值b幂-2.000-112.5102.500-107.397-1.500-112.8553.000-106.406-1.000-112.9623.500-105.546-.500-112.7854.000-104.851.000-112.3144.500-104.339.500-
27、111.5785.000-104.0191.000-110.6415.500-103.8851.500-109.5796.000-103.567a2.000-108.475a6.500-103.9897.000-104.729a. 选择对应幂以用于进一步分析,因为它可以使对数似然函数最大化。b. 因变量: y,源变量: x2 分析:我们直接用软件默认的的围-2,2估计得m的最优值为m=2,从表中对数似然值b 栏可以看出,于2是在边界上,以此我们将估计围扩大到-2,7,得到m的最优解为m=6为了直观,表格做过调整。7.3.3 加权最小二乘估计拟合模型摘要复相关系数.999R 方.999调整 R
28、方.998估计的标准误.000对数似然函数值-103.567ANOVA平方和df均方FSig.回归.0007.0001516.244.000残差.00011.000总计.00018 分析:从表中输出结果来看,加权最小二乘的,F值=1516.244;而普通最小二乘的,F值=1259.526。这可以说明加权最小二乘估计的拟合效果略好于普通二乘的效果。系数未标准化系数标准化系数tSig.B标准误试用版标准误常数-575.962146.560-3.930.002x1.006.028.010.046.220.830x2.023.046.025.051.498.628x4.439.086.508.1005
29、.081.000x5.015.004.260.0634.134.002x6.146.036.287.0704.109.002x7-.165.041-.452.112-4.029.002x8.568.142.389.0974.002.002 分析:从加权最小二乘估计的系数表表中我们可以惊奇的发现,在前面我们认为不合实际的变量原煤产量,在这里被剔除了。结合前表中加权最小二乘的,F值=1516.244,说明模型仍然具有高度的显著性。具体回归方程为: 加权最小二乘的回归方程为 标准化的加权最小二乘回归方程为 总体上来说加权最小二乘估计不光显著性高,而且还剔除了不合理的变量,因此选用加权最小二乘估计是非
30、常正确合理的。第8章 自变量选择与逐步回归8.1 前进逐步回归 取显著性水平进展逐步回归检验选变量。模型汇总d模型RR 方调整 R 方标准 估计的误差1.998a.996.996168.773752.998b.997.996159.368813.999c.998.997139.34486a. 预测变量: (常量), x2。b. 预测变量: (常量), x2, x4。c. 预测变量: (常量), x2, x4, x3。d. 因变量: y 分析:从逐步回归模型的汇总表中我们可以看出,在逐步选取变量x2,x2,x4,x2,x4,x3三步过程中,它们的复相关系数R分别为0.998,0.998,0.99
31、9,决定系数分别为0.996,0.997,0.998。整个过程都保持着回归方程高度的显著性,并且显著性是逐渐增大的。Anovad模型平方和df均方FSig.1回归1.288E811.288E84520.386.000a残差484237.8521728484.580总计1.292E8182回归1.288E8264419573.3002536.362.000b残差406374.6881625398.418总计1.292E8183回归1.290E8342984755.4782213.770.000c残差291254.8541519416.990总计1.292E818 分析:从表中我们可以看到,F的检
32、验值分别为4520.386,2536.362,2213.770在逐渐减小,P值始终是0.000不变,由此可见虽然F值在减小,但是模型犯错的概率始终为0.000不变,故逐步回归后得回归方程更加具有高度的显著性。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-504.229100.656-5.009.000x2.922.014.99867.234.0002(常量)-384.871116.966-3.290.005x2.619.174.6703.562.003x4.297.170.3291.751.0993(常量)196.098259.593.755.462x2.500.160
33、.5413.133.007x4.504.171.5572.946.010x3-110.54345.399-.105-2.435.028a. 因变量: y 分析:从上述表中结果可以看到,逐步回归的最优子集为模型3,回归方程为由回归方程可以看出,生铁的产量和发电量的系数都是正数,对因变量y起正相关作用,原煤量的系数为负值,对因变量y起负相关作用,而却从数值上看是-11.0543,对y的影响很大,这与实际情况不符,这可能是因变量与之间有较强的相关性。同时从表中还可以看出,用逐步回归法的选元过程为第一步引入,第二步引入,第三步引入再形成一个符合要求的线性回归方程。8.2 后退逐步回归 取显著性水平进展
34、逐步回归检验选变量。模型汇总模型RR 方调整 R 方标准 估计的误差11.000a.999.998113.1993021.000b.999.998108.023813.999c.999.998105.61488a. 预测变量: (常量), x8, x5, x1, x3, x6, x2, x7, x4。b. 预测变量: (常量), x8, x1, x3, x6, x2, x7, x4。c. 预测变量: (常量), x8, x1, x3, x6, x7, x4。分析:从后退逐步回归模型的汇总表中我们可以看出,复相关系数R分别为1.000,1.000,0.999,决定系数分别为0.999,0.998
35、,0.998。整个过程都保持着回归方程高度的显著性,而却相比起前进逐步回归要更为好一些。变量与因变量的线性回归分析系数为:已排除的变量c模型共线性统计量Beta IntSig.偏相关容差2x5.024a.131.898.041.0033x5.002b.013.990.004.003x2.130b.686.507.203.002a. 模型中的预测变量: (常量), x8, x1, x3, x6, x2, x7, x4。b. 模型中的预测变量: (常量), x8, x1, x3, x6, x7, x4。c. 因变量: y 分析:根据表中的数据我们可以写出关于的线性回归方程为: 此回归方程剔除一些变
36、量后反而变得更加显著,并且更有实际的社会意义,它消除了不合理的变量和。在回归方程中又新出现了负变量铁路运货量,虽然也是不合实际的,但是它占回归方程的比重很小因此可以保存。第9章 多重共线性的情形及处理9.1 多重共线性的诊断系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)-381.485912.146-.418.685x1.122.107.0881.134.283.01661.091x2.125.187.135.668.519.002413.326x3-149.154121.354-.141-1.229.247.008133.044x4.653.277
37、.7232.359.040.001947.996x5.003.023.024.131.898.003329.438x6.081.042.2601.932.082.005182.413x7-.120.047-.522-2.570.028.002416.185x8.394.239.4341.646.131.001701.380a. 因变量: y 分析:从表中的输出结果可以看出,的方差扩大因子VIF都很大,远远的超过了10,说明成品钢材需求量的回归方程存在着严重的多重共线性。又因为的方差扩大因子都是大于10的,说明回归方程的多重共线性就是由自变量间的多重共线性引起的。共线性诊断a模型维数特征值条件索
38、引方差比例(常量)x1x2x3x4x5x6x7x8118.3211.000.00.00.00.00.00.00.00.00.002.6593.553.00.00.00.00.00.00.00.00.003.01127.458.04.00.00.01.00.00.00.01.004.00443.444.01.00.00.00.00.00.31.08.005.00357.552.00.00.02.04.01.00.11.06.056.001106.541.12.26.02.08.02.00.05.00.027.000157.928.05.07.30.05.02.00.03.50.698.00021
39、3.430.01.02.53.39.36.03.41.01.1894.043E-5453.668.78.65.11.43.60.97.09.35.05a. 因变量: y 分析:从条件数可以看到,最大的条件数,说明自变量间存在严重的多重共线性,这一判断与上面的方差扩大因子法判断结果一致。表中的方差比例是按从小到大的顺序排列的,不是按自变量顺序排列的,这与方差扩大因子不同。在维数为9的时候,我们可以看到的系数都很快的增大要接近1,这也可以说明之间存在较强的多重共线性。9.2 多重共线性的消除在前面多重共线性的诊断中我们看到的方差扩大因子为最大,因此剔除,建立与的回归方程。相关输出结果如下:系数a模型非标准化系数标准系数tSig.共线性统计