回归分析大作业.doc_三一办公31ppt.com

资源描述

《回归分析大作业.doc》由会员分享，可在线阅读，更多相关《回归分析大作业.doc（13页珍藏版）》请在三一办公上搜索。

1、中国财政收入回归模型摘要：财政收入指国家财政参与社会产品分配所取得的收入，是实现国家职能的财力保证。本文通过收集1996年2006年间影响国家财政收入的若干因素的经济指标数据，利用逐步回归分析建立了国家财政收入回归模型。关键字：财政收入，逐步回归分析1. 引言：我国财政收入主要来自于工业、农业、商业、交通运输业和服务业等部门1。除此以外，财政收入还不可避免的受人口总数和受灾面积等地影响，因此在建立回归模型的时候必须综合考虑多个对财政收入产生影响的主要因子。值得指出的是，与以往年份相比，2007年财政收支科目实施了较大改革，特别是财政支出项目口径变化很大，与往年数据不可比。基于可得到的数据，我们

2、选择了中国统计年鉴1994-2006年间的数据作为本次分析的数据样本。2. 回归分析理论基础2.1 回归分析相关理论简介在多元线性回归分析中，由于有多个自变量，存在一些在一元线性回归分析中不会遇到的问题。首先碰到的问题就是如何确定回归自变量，如果遗漏了某些重要的变量或者考虑了过多的可有可无的变量，都会是模型精度降低，从而直接影响到回归方程的应用。近代回归分析理论里决定某个自变量对y的影响是否显著。解决这个问题的方法是偏回归平方和与偏F检验。另外，必须使建立的线性回归模型是最优的：一方面是该模型中包含所有对因变量y有显著影响的自变量，另一方面是该模型中所包含的自变量个数尽可能少。要真正做到最优是

3、很不容易的，通常是去找比较最优的满意结果。一般选择最优回归方程的方法有四种：1）全部比较法，缺点是计算了太大，实际应用很少；2）向后回归分析，缺点是开始建立的方程可能自变量过多，计算繁琐，且变量一旦被剔除就再也回不到方程中去；3）先前回归分析，缺点是变量一旦引入方程，就不会剔除，这样得到的模型，因为变量间可能存在相关关系，故并不能保证所有的变量都是显著的。4）逐步回归法，该方法基本思想是：将变量一个个引入，引入的条件是该变量的偏F检验是显著的。同时，每引入一个新变量后又要对老变量逐个检验，将变得不显著的变量从回归模型中剔除，可以看出逐步回归法是向前法和向后法的一种结合。2.2 偏F检验与逐步

4、回归法要知道所选的每个自变量对因变量的影响是否显著，就需要对选取的自变量进行显著性分析。本文中采用偏F检验进行因变量的显著性分析。设有m个自变量X1,X2Xm,，采用这m个自变量拟合的全模型为： y=0+1X1+2X2+.+mXm+ （1）从该模型中剔除自变量xi，剩余的m-1个变量拟合为减模型： y=0 +1X1+. +i-1Xi-1+i+1Xi+1+ . +mXm+ （2）设式（1）的复相关系数平方和为R2，式（2）的复相关系数平方和为Ri2，定义Ri2=R2- Ri2。若Ri2接近为零，说明自变量Xi对因变量y影响甚微，反之，若Ri2 越大，则说Xi对y的影响越大。该过程相当于检验

5、假设：H0: Ri2=0, H1:Ri20这种检验称为偏F检验，它是筛选变量的依据，该过程在逐步回归计算中得到了体现。逐步回归法是向前回归法和向后回归法的一种结合。其基本思想是: 将变量一个个地引入, 引入的条件是该变量的偏F检验是显著的。同时, 每引入一个新变量后又要对老变量逐个检验, 将变得不显著的变量从回归模型中剔除。预先给定F进和F 出, 且F进F出, 则逐步回归法的具体计算步骤为:(1)m 个自变量Xi 分别与因变量y 建立回归模型：y = (0)i0 + (0)i Xi ，对它们进行F 检验, 得Fi中最大的那个值, 定义为: FL1=maxFi (i=1,2,.,m) (3)(a

6、)如果FL1F 进, 则计算结束, 即y 与所有自变量线性无关；(b)如果FL1F 进, 引入XL1, 并建立回归方程: y=0 (1)+1 (1)XL1 （4） (2) 建立y 与自变量子集XL1,Xi,i=1,2,m 且iL1 的二元回归模型:y=i0 (0)+i1 (0)XL1+i (0)Xi (5)以等式(5)为全模型, 以等式(4) 为减模型求偏Fi 值, 并取Fi 中最大的那个值, 定义为FL2。( a) 如果FL2F 进, 则计算结束, 这时建立的回归模型为( 3) 。( b) 如果FL2F 进, 引入XL2, 并建立回归方程: y=0 (2)+1 (2)XL1+2 (2)XL2

7、 (6)(3) 当引入XL2 后, 对XL1 做偏F 检验，看XL1是否需要剔除：(a)如果FL1F 出, 则不剔除XL1, 并继续引入下一个自变量；(b)如果FL1F 出, 则从模型(5) 中剔除XL1, 并继续引入下一个自变量。3. 国家财政收入回归分析与建模3.1 变量选择与样本数据的选取本文以财政收入y（单位：亿元）为因变量，我们选取了几个可能对财政收入产生影响的经济因素：国家农业总产值x1（单位：亿元），工业总产值x2（单位：亿元），建筑业总产值x3（单位：亿元），社会商品零售总额x4（单位：亿元），总税收（单位：亿元），全国人口总数x5（单位：万人）和就业人数（单位：万），受灾面积

8、x6（单位：万公顷）共8个因素作为候选的自变量。相关的样本数据见表一。年份财政总收入（亿元）农业总产值（亿元）工业总产值（亿元建筑业总产值（亿元）社会商品零售总额（亿元）总税收（亿元）总人口数（万人）就业人口数（万人）受灾面积 (千公顷）19945218.19572.719480.72964.718622.95126.88119850674555504619956242.212135.824950.63728.823613.86038.04121121680654582419967407.9914015.429447.64387.428360.26909.82122389689504699

9、119978651.1414441.932921.44621.631252.98234.04123626698205342719989875.9514817.634018.44985.833378.19262.81247617063750145199911444.081477035861.55172.135647.910682.581257867139449980200013395.2314944.740033.65522.339105.712581.511267437208554688200116386.0415781.343580.65931.743055.415301.381276277

10、302552215200218903.641653747431.36465.548135.917636.451284537374046946200321715.2517381.754945.57490.852516.320017.311292277443254506200426396.4721412.7652108694.35950124165.681299887520037106200531649.2923070.477230.810133.867176.628778.541307567582538818200638760.22404091310.911851.17641034804.351

11、314487640041091yx1x2x3x4x5x6x7x8表一3.2 回归分析建模设财政收入函数：使用社会统计学软件SPSS18.0, 选择逐步回归法, 并设置运行参数为: (1) 设财政总收入Y为因变量(D);(2)设x1, x2, x3, x4, x5, x6, x7, x8为自变量(1);(3)剔选变量的准则为系统默认值,即: F 值所对应的P 值;(4)选入变量的显著性水平即进入值为0.05, 即当P0.05时, 就将该变量选入回归方程; (5)删除变量的显著性水平(Removal)为0.10, 即当P0.10 时, 就该变量不能入选回归方程，如图2所示。（1）、（2）、（3

12、）步操作如图1所示,(4)、(5)步操作如图2所示。图1 线性回归参数设置图2 线性回归：选项的参数设置经过软件回归计算后得到的回归模型为： Y =6909.1+1.047X5 -0.12X7 +0.3.5X3 3.3计算结果表二输入移去的变量a模型输入的变量移去的变量方法1X5.步进（准则: F-to-enter 的概率 = .100）。2X7.步进（准则: F-to-enter 的概率 = .100）。3X3.步进（准则: F-to-enter 的概率 = .100）。a. 因变量: Y表三模型汇总模型RR 方调整 R 方标准估计的误差11.000a1.0001.000176.97

13、86121.000b1.0001.000122.0929231.000c1.0001.00074.88526a. 预测变量: (常量), X5。b. 预测变量: (常量), X5, X7。c. 预测变量: (常量), X5, X7, X3。表四 Anovad模型平方和df均方FSig.1回归1.311E911.311E941864.997.000a残差344535.7301131321.430总计1.312E9122回归1.311E926.557E843989.234.000b残差149066.8201014906.682总计1.312E9123回归1.312E934.372E877960.7

14、63.000c残差50470.22095607.802总计1.312E912a. 预测变量: (常量), X5。b. 预测变量: (常量), X5, X7。c. 预测变量: (常量), X5, X7, X3。d. 因变量: Y表五系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-590.38297.383-6.062.000X51.121.0051.000204.609.0002(常量)8390.0462480.8933.382.007X51.161.0121.03698.808.000X7-.133.037-.038-3.621.0053(常量)6909.0011562

15、.1034.423.002X51.074.022.95748.406.000X7-.121.023-.034-5.297.000X3.305.073.0764.193.002a. 因变量: Y表六已排除的变量d模型Beta IntSig.偏相关共线性统计量容差1X1.010a.551.594.172.071X2.101a2.590.027.634.010X3.088a2.565.028.630.013X4-.045a-1.114.292-.332.014X6-.029a-2.990.014-.687.145X7-.038a-3.621.005-.753.103X8-.006a-.927.37

16、6-.281.5712X1.021b1.799.106.514.068X2.079b3.230.010.733.010X3.076b4.193.002.813.013X4.101b2.801.021.682.005X6.137b2.671.026.665.003X8-.001b-.146.887-.049.5073X1-.024c-1.823.106-.542.020X2-.107c-1.269.240-.409.001X4-.062c-.842.424-.285.001X6.038c.656.530.226.001X8.003c.944.373.317.468a. 模型中的预测变量: (常量

17、), X5。b. 模型中的预测变量: (常量), X5, X7。c. 模型中的预测变量: (常量), X5, X7, X3。d. 因变量: Y表七共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4X6X7X8117.7171.000.00.00.00.00.00.00.00.002.2755.301.00.00.00.00.00.00.00.003.00635.006.00.02.00.00.00.00.00.184.00173.404.00.03.01.01.03.00.00.005.001102.016.00.49.00.00.01.00.00.3765.961E-535

18、9.799.00.05.67.92.00.00.00.0074.695E-61282.098.82.08.23.03.95.03.18.1781.102E-62645.973.18.33.09.04.00.97.82.28a. 因变量: Y表八案例诊断a案例数目标准残差Y预测值残差dimension01.3505218.105156.001662.098372-.9596242.206412.5269-170.326923.3817407.997340.374767.615354-.2858651.148701.7217-50.581675.6929875.959752.9695122.9

19、80526.18811444.0811410.729033.351047-.72013395.2313523.1145-127.8845481.16716386.0416178.7881207.251899.18718903.6418870.406233.2338410-.96321715.2521886.3515-171.1015011-.25426396.4726441.5950-45.1250312-.27031649.2931697.2406-47.9506413.48738760.2038673.760786.43929a. 因变量: Y表九残差统计量a极小值极大值均值标准偏差N

20、预测值5156.001538673.761716618.890810454.0995513残差-171.10150207.25189.00000114.6478713标准预测值-1.0962.110.0001.00013标准残差-.9631.167.000.64513a. 因变量: Y图3 回归标准化残差的标准P-P图4. 输出结果分析4.1复相关系数复相关系数反映了模型中的自变量X5、X7、X3与响应变量Y之间线形回归关系的密切程度。从表3中可以看到，随着变量X5、X7、X3逐渐增加到模型中，R的值分别为1，这说明随着X5、X7、X3的逐个引入，其与Y呈现高度相关。4.2 方差分析从表3

21、可以看到，当单独引进变量X5时，其偏差R=1.000，统计误差为176.9786；引入变量X7后，两个变量相互作用，偏差为R=1.000，相应地系统误差减小到122.0929；再引入变量X3后，偏差为R=1.000，系统误差减小到74.8853，说明三个变量互相影响后对响应变量的影响非常显著。从表4可以看到，随着X5、X7、X3变量的逐步引入，模型的回归均方及残差均方分别由1.311E9和31321.43减小到4.372E8和5607.802，显著性概率Sig=0.0000.001，这说明X5、X7、X3的回归系数不为零。因此，选择同时含有自变量X5、X7、X3的回归模型，统计误差最小，最具有

22、统计意义。4.3 解释变量分析Y =6909.1+1.047X5 -0.12X7 +0.305X3 该方程的经济意义是明显的, 即财政收入主要取决于总税收、建筑业总产值和就业人数3 个因素, 各因素数量的变化引起财政收入总量变化的程度由各自的系数来反映。X5的系数表明, 总税收增加1亿元，财政收入增加1.047亿元,可见总税收变化对财政收入的影响都是非常大的；X3的系数表明, 建筑业总产值增加1亿元, 财政收入增加0.305亿元, X7的系数表明，就业人数增加1万人，财政收入减少0.12亿元， X7和X3的系数则表明我国建筑业总产值和就业人数的关系也比较密切。增加财政收入不一定非要采取提高税率

23、, 增加税种这样的税收手段, 如果国家的经济发展形势良好, 经济总量持续扩大, 人口资源得到合理利用，财政收入的规模也会随之扩大。4.3 误差分析从表8中可以看出，将1994-2006各年的相关数据代入回归模型中，得到各年的财政收入预测值，将其与当年的实际值进行比较，绝对误差最大达到207.2519（亿元），最小达到33.2338（亿元），相对误差最大值为1.26%，由此可见，回归效果颇为满意，回归模型有效可用。综合分析，回归过程中误差的存在可能由以下原因造成：（1）统计数据不精确由于有的数据来源于相关部门的抽样调查而非普查，所以数据的估计值与真实值存在一定偏差，从而会对统计结果的误差产生一定

24、影响。（2）解释变量缺乏诸如全国各年受灾损失、消费者价格指数等因素也会对财政收入造成一定的影响，但这些数据有的难以统计，有的没有公开报道或数据不全，导致对FIN的解释变量的缺乏。（3）某些不可预测的因素和突发事件等所产生的影响。5提高我国财政收入质量的政策建议5.1 建立科学的财政收入目标任务与政绩考核机制从各地财源实际出发,科学合理确定财政收入目标任务,明确财政收入应该依法征收。与此同时,将财政收入质量纳入财政工作目标管理和公共财源建设考核的必要内容中,废止单纯以收入任务完成作依据的“一票否决”办法。建立以加强收入征管和提高收入质量为主要内容的财政收入考核机制。当前重点是进一步完善财政收入预

25、算管理质量考核政绩,考核不应单纯以收入数字为依据, 而应以工作考核、群众评价为主要依据。5.2 加快政府职能的转变按照公共产品的受益原则, 合理划分各级政府之间的事权。遵循事权与财权相统一的原则, 采取集权与分权相结合的方式, 适度下放税收管理权限。对中央税、共享税和全国统一开征而且对国家宏观经济有影响的地方税种, 其税收管理权限集中于中央, 以有利于全国税收政策的统一; 对全国统一开征但对统一市场影响不大的地方税种,可由中央行使立法权,其他管理权则归地方; 对收入较小, 具有明显地区经济特点, 不宜统一开征的税种, 可将所有税收管理权限全部下放地方, 同时, 应允许地方根据实际情况, 报经中

26、央批准, 开征部分地方税种。5.3 优化机构设置在机构设置上, 应当按照税收的“属地原则”和坚持“精简、高效、服务”的宗旨,以经济繁荣地区为中心, 打破行政区划,按经济区域化合理布局基层征收机构。要遵循效率原则, 联合成立一个办税服务大厅, 使纳税人可以在一个地方按次序完成国税和地税的纳税申报, 这样做不仅可以有效防止税收流失, 而且可以减少检查次数,有利于降低税收成本。5.4 扩展财政监督的内容以健全财政收入质量监督机制今后一定时期内, 财政监督要围绕着财政收入征收部门和国库的征收、划分,留解、退付等各个环节的扩展,将财政收入质量监督列入各级财政监督专职机构的工作职责, 定期或不定期地开展财政收入质量的内部监督和上下级之间的监督,并逐步建立财政日常监督机制,实现事前、事中和事后监督。同时, 加强审计部门的监督,明确对造成财政收入虚假的单位和相关责任人的处理和处罚措施, 增大收入造假的风险成本, 有效扼制造假行为。参考文献1中华人民共和国国家统计局。中国统计年鉴2009。2赖国毅，陈超。SPSS17中文版统计分析典型实例精粹M。电子工业出版社。3罗应婷，杨钰娟。 SPSS统计分析从基础到实践（第二版）M. 电子工业出版社.

展开阅读全文