社会消费品零售总额的SAS报告分析.doc

资源描述

《社会消费品零售总额的SAS报告分析.doc》由会员分享，可在线阅读，更多相关《社会消费品零售总额的SAS报告分析.doc（18页珍藏版）》请在三一办公上搜索。

1、基于SAS分析湖南省社会消费品零售总额影响因素的研究【摘要】本文旨在分析1978-2008年改革开放以来，我国社会消费品零售总额变动情况，影响其变动的因素。首先，我们提出了关于收入和消费的主要理论观点，然后再引入其他有关变量，进而建立了理论模型。然后，收集了相关的数据，利用SAS软件对计量模型进行了参数估计和检验，并加以修正。最后，我们对所得的分析结果作了经济意义的分析，详细剖析其成因，进一步进行预测，并相应提出一些政策建议。【关键词】社会消费品总额财政支出城镇居民家庭人均可支配收入居民消费一引言为促进中部地区（山西江西河南湖北湖南和安徽六省）经济快速发展，中共中央提出“中部崛

2、起”的战略。中部六省对中部崛起战略非常拥护，并抱有很高的期望。中部六省希望中共加大对中部崛起的政策支持力度，支持中部建设全国粮食核心主产区，支持中部建立前进制造业基地，支持中部加快老工业基地改造，资源型城市转型和国有企业改革，支持中部解决交通设施的薄弱环节，支持中部治理生态和环境，支持中部教育卫生事业发展，支持中部减轻财政负担。二理论背景为了加强在中部崛起竞争力湖南省加快了经济建设的步伐。社会消费品零售总额所计量的是各种经济类型的商业由于经济的发展和社会的进步，特别是社会主义市场经济的建立，商品生产和商品交换的领域进一步扩大，用已确立和描述各类消费品市场对居民和社会集团出售商品总和的商品零售

3、额指标的口径范围也作了相应的调整。社会消费品零售总额的增长体现了该省在市场经济中的竞争力，因此对影响社会消费品零售总额的因素作出分析和验证有着重要的必要性。社会消费品零售总额是指各种经济类型的批发零售贸易业、餐饮业、制造业和其他行业对城乡居民和社会集团的消费品零售额和农民对非农业居民零售额的总和。这个指标反映通过各种商品流通渠道向居民和社会集团供应的生活消费品来满足他们生活需要，是研究人民生活、社会消费品购买力、货币流通等问题的重要指标。研究影响社会消费品零售总额的因素可以进一步证实其反映出了人民生活水平，生活质量的提高；也可以反映出湖南省经济的脉象，便于零售商指定营销战略和企划。三模型建

4、立本模型是通过对湖南1978-2008年数据进行研究。1. 确定模型所包含的变量，因变量（被解释变量）为社会消费品零售总额（Y单位：亿元）自变量（解释变量）有3个财政支出（X1单位：亿元），城镇居民家庭人均可支配收入（X2单位：元），居民消费（X3单位：亿元）。2. 确定模型的数学形式，我们先假设数学模型为：四实验方法本次研究主要是分析自变量和因变量的关系以及找出合适的模型，并且运用时间序列的方法对社会消费品零售总额进行预测分析。我们先用SAS对我们假定的模型对变量X1，X2，X3分析，看看它们与Y的关系（运用的方法的逐步回归和主成分法）然后在对社会消费品零售总额进行时间序列分析，最后预

5、测未来3年的数据。五数据来源与SAS操作1 数据来源与CNKI网2 数据引人年份社会消费品零售总额Y（亿元）财政支出X1（亿元）城镇家庭可支配收入X2（元）居民消费x3（亿元）197854.524.46323.8893.93 197964.825.17365.07111.48198076.323.71475.92125.42 198186.721.39505.08150.27198294.823.26519169.051983106.725.31564190.191984123.630.04645213.961985156.540.09760.8240.71 1986179.554.2990

6、4.44265.54 1987212.555.931017.8298.85 198827664.891254.97364.37 1989297.974.231492.61393.49 1990299.180.081591.45454.90 1991339.788.581783.24500.84 1992398.799.12166.5582.91 1993493.5132.032816.5706.55 1994669151.493887.6883.46 1995849.23173.944699.21108.78 1996960.8217.745052.11409.44 19971056.4230

7、.825209.71540.67 19981141.3273.645434.31601.83 19991246.6313.125815.41690.66 20001383.7347.836218.71782.77 20011531.8431.76780.61871.64 20021701.8533.026958.61992.05 20031885.6573.74537674.22016.88 20042149.6719.548617.482269.69 20052459.1873.429523.972553.41 20062834.221064.5210504.672872.58 200733

8、56.491357.0312293.543217.29 20084222.61765.224913821.163619.45 3. SAS操作（1）逐步回归法逐步回归的基本思想是：首先在待选的M个变量中选择一个对因变量影响最大的自变量，这可以通过因变量与每一自变量进行回归得到的F值来判断。若最大的F值在给定的显著性水平下是显著的，则该变量被选中，否则选元结束。第二步，在剩下的M-1个变量中再选择一个变量加入到模型中，这可以通过偏F检验来判断。若最大的偏F统计量在给定的显著性水平下是显著的，则对应的自变量则被加入到模型中，否则不再加入其它变量，选元结束。第三步，对已在模型中的每个变量进行显著性

9、检验。若检验不显著，则去掉该变量，再重复进行第二步和第三步，否则保留该变量，重复进行第二步和第三步，这一过程一直进行到待选的全部自变量根据给定的显著性水平没有一个再能被选入模型或排除出刚构成的回归模型为止。输入程序：data exp3; input Y X1 X2 X3;cards;54.524.46323.8893.93 64.825.17365.07111.4876.323.71475.92125.42 86.721.39505.08150.2794.823.26519169.05106.725.31564190.19123.630.04645213.96156.540.09760.824

10、0.71 179.554.29904.44265.54 212.555.931017.8298.85 27664.891254.97364.37 297.974.231492.61393.49 299.180.081591.45454.90 339.788.581783.24500.84 398.799.12166.5582.91 493.5132.032816.5706.55 669151.493887.6883.46 849.23173.944699.21108.78 960.8217.745052.11409.44 1056.4230.825209.71540.67 1141.3273.

11、645434.31601.83 1246.6313.125815.41690.66 1383.7347.836218.71782.77 1531.8431.76780.61871.64 1701.8533.026958.61992.05 1885.6573.74537674.22016.88 2149.6719.548617.482269.69 2459.1873.429523.972553.41 2834.221064.5210504.672872.58 3356.491357.0312293.543217.29 4222.61765.224913821.163619.45 ;proc re

12、g graphics;model Y=X1 X2 X3/selection=stepwise sls=0.05 sle=0.2 r;plot student.*p.=*;run;该程序告诉我们先建立一个临时数据集（一般临时的数据集在逻辑库里的work中）名叫EXP3；里面有4个变量Y X1 X2 X3.其中proc reg graphics 是表示回归作图“selection=stepwise”表示逐步回归（选元，并给出回归结果），“sls=0.05”表示变量保留在模型中的显著性水平为0.05，而“sle=0.2”则表示变量选入到模型中的显著性水平为0.2，PLOT语句画标准残差与预测值的残差

13、图。逐步回归结果图和残差图图1从图中对因变量Y进行逐步回归结果表明，第一步，变量X2被加入到模型中，说明三个自变量分别关于Y回归，其中由X2与Y回归得到的F统计量值最大,为1087.10，对应的概率为0.0001，在0.05的显著性水平下通过检验。第二步，分别把变量X1和X3加入到刚建立的模型中，并分别计算其偏F检验值，结果表明X1的偏F统计值大于X3的偏F统计值，为638.91对应的概率为0.0001，小于进入模型的显著性水平0.20，所以X1被选入到模型中，此时模型中已有EXPEND和ads两个变量。第三步，对X3和X1分别计算其偏F统计量值及其对应的概率(程序繁多就不一一输出)，结果两个

14、变量的偏F检验对应的概率都小于保留在模型中的显著性水平0.05，因此两个变量都被保留下来。第四步，重复第二步和第三步，即把最后一个变量加入到由X2和X1对Y进行回归的模型中，结果两个变量的偏F检验对应的概率也都小于保留在模型中的显著性水平0.05，因此两个变量也都可以被保留下来。从残差图中和逐步回归表中可以得到回归方程如下：统计量值：（5.87）（ 892.2）（8.72） (12.84) F=12165.4对应概率：（0.0223）（0.0001）（0.0064）（0.0013） (0.0001)R2= 0.9993，C（P）=4，MSE=960.58764，SSR=25936.以上

15、模型中，截据项的T在0.05的显著性水平下通过检验。通过以上分析我们可以得出：1. 财政支出，城镇家庭可支配收入以及居民消费都和社会消费品零售总额有显著的关系。2. 财政支出的系数表明财政支出每增加1亿元，社会消费品零售总额将增加1.25381亿元，而城镇家庭可支配收入系数表明城镇家庭可支配收入每增加1元，社会消费品零售总额将增加0.06827亿元，居民消费的系数表明居民消费每增加1亿元，社会消费品零售总额将增加0.28841亿元。（2）多重共线性多重共线性是指在多元回归分析中自变量之间存在线性关系，用数学术语来表达就是系数矩阵的秩P+1，即R（）P+1，换句话说，某一个自变量可以被其它自变

16、量线性表示，此时称自变量之间完全共线。在SAS中输入代码：proc reg corr;model y=x1 x2 x3/ vif collin collinoint;run;在上面的程序中，proc reg调用回归分析过程，并按MODEL语句给出的模型结构进行分析，其中选项corr要求计算变量之间的相关系数， vif要求计算方差膨胀因子，而collin和collinoint则要求进行多重共线诊断，两者的区别是前者没有对截据项进行调整，而后者进行了调整。当截据项经检验是显著时，应考察由collinoint输出的结果，否则参看由collin输出的结果(由于我们前面已经检验了截距项是显著的，所以我们

17、这里考察collinoint输出的结果)。程序运行结果如下：变量之间线性回归及多重共线诊断结果从变量之间线性回归及多重共线诊断结果中最上面的相关系数阵可以看出，X1、X2、X3与Y都是正相关，并且X1、X2,X3都与Y高度正相关，相关系数分别为0.9840,0.9869和0.9823。在自变量之间，X2与Y的相关系数为0.9869最高，而X2与X3的相关系数高达0.9974（X2为城镇家庭可支配收入，X3为居民消费）X1和X2以及X1和X3的相关系数也很好高其值分别为0.9445和0.9351；上述说明X2与Y存在高度的线性关系，也说明X2和X3，X1存在高度相关性，且X1和X3也存在高度相关

18、性(可以说明存在多重共线性)；这与我们从经济理论得到的判断是一致的。输出表中的方差膨胀因子(vaiance inflation)和最下面的共线性诊断（因为截据项检验显著）也说明了这一点。其中条件数为36.60466，而在变量X2和X3上的方差比率分别为0.99326和0.98746，远超过50%，说明两变量高度共线。如果不对多重共线进行处理而直接进行线性回归，根据输出分析表可以写出以下方程：检验统计量：（-2.42） (29.87) (2.95) (3.58) F=12165.4对应概率: （0.0223）(0.0001) (0.0064) (0.0013) (0.0001)R2=0.9993

19、 R2-adj=0.9992 Root MSE=30.99335上述分析中我们发现的X2和X3存在高度相关性，虽然X2和X3的T检验显著。由于自变量X2与X3高度相关,为了消除这一影响，通常可以去掉一个不重要的因素，然后就剩下的两个自变量对因变量进行回归。考虑到X2和X3对Y都很重要，为保留这两个变量，以下我们将REG过程就三个自变量对Y做主成分回归。输入代码：proc reg data=EXP3 outest=result1 outvif;model Y=X1 X2 X3/pcomit=1;run;proc print data=result1;run;在上述程序中，MODEL语句后的选项“

20、pcomit=1”表示去除最后一个主成分，用剩下的P-1个主成分作为自变量关于因变量回归。本例中有三个自变量，所以主成分有三个，去除一个后还有两个。用这两个主成分对进口额进行回归，回归的结果存放到由proc reg语句规定的选项“outest=”的数据集result1中。程序运行结果如下：由图表的第三行可以写出主成分回归方程如下：从方程中我们可以得出如下结果：财政支出的系数表明财政支出每增加1亿元，社会消费品零售总额将增加1.24843亿元，而城镇家庭可支配收入系数表明城镇家庭可支配收入每增加1元，社会消费品零售总额将增加0.07575亿元，居民消费的系数表明居民消费每增加1亿元，社会消费品零

21、售总额将增加0.2645亿元。（3）.预测我们预测Y（预测未来三年的社会消费品零售总额）可以通过时间序列的方法进行预测。先通过SAS的文件菜单点击导入数据，并且把导入的数据命名为EXP4(一般导入的数据在逻辑库的work里面)。对数据进行平稳性检验。输入代码：proc gplot data=work.exp4;plot Y*date;symbol c=red i=jion v=star;run;proc arima data=work.exp4;identify var=y nlag=12;run;第一个代码表示对该序列绘制时序图用于观测平稳性，其中plot Y*date的含义是规定将输出以d

22、ate为横坐标，以Y为纵坐标的曲线图；symbol c=red i=jion v=star该语句的作用是规定所绘制图形的格式。此图形中各点的形状为星号，各点是通过直线连接的，曲线的颜色为红色。第二个代码表示对该序列输出自相关图，偏自相关图和随机性检验结果图；绘制图如下：从图中可以看出具有明显的趋势性（有点成曲线指数增加的趋势）为非平稳模型。从纯随机性结果图可以看到该模型P值检验显著，综上所述该序列为非平稳非白噪声序列；由于出现了明显的指数趋势性的缘故，故此我们对原序列指数趋势转化为线性趋势，然后在进行差分以消除线性趋势；data work.exp4;set work.exp4;y1=log(Y

23、);run; proc gplot data=work.exp4;plot y1*date;symbol c=red v=star i=join;run;该代码表示对Y进行log运算产生新值为Y1；并绘制图形。图形可以看出经过指数变换后该序列成线性趋势；然后在进行差分以消除线性趋势data work.exp4;set work.exp4;dif=dif(Y1);proc gplot data=work.exp4;plot dif*date;symbol c=red v=star i=join;run;该代码表示对新序列（Y1）进行一阶差分,并绘制图形。输出结果图为: 从图像可以看出做完一阶差分

24、序列趋于平稳，为此我们来观察纯随机检验图。proc arima data=exp4;identify var=y1(1);run;对模型进行自相关图的产生和纯随机检验结果图如下；从纯随机性结果图可以看到该模型P值(0.0320.05)故检验显著，综上所述该序列为平稳非白噪声序列；我们下一步进行模型识别与优化，定阶：proc arima data=exp4;identify var=y1 minic p=(0:7) q=(0:7);run;该代码表示自相关延迟阶数p在0和7之间，骗自相关系数阶数q在0和7之间的所有ARMA(P,q)模型的BIC信息量，并显示其中的最小值。可以看到ARMA（7,7

25、）的BIC信息量最小，其值为-9.12745.因此我们选择ARMA（7,7）模型拟合序列但是发现其残差序列为。模型的参数估计与表达式proc arima data=exp4;identify var=y1;estimate p=7 q=7 method=ml;run;该代码表示对模型的参数进行估计，其中estimate p=7 q=7 method=ml;语句的含义是使用最大似然估计法对模型ARMA（7,7）进行参数估计。输出结果从图中可以看出残差序列P值都明显小于0.05说明残差序列为非白噪声序列，说明还有一些信息没有提取充分，模型拟合不好故此我们舍去ARMA(7,7)模型。再回头看前面的自

26、相关图形和偏相关图形。我们可以采用梳系数模型从自相关图中可以看出：自相关图显示延迟1阶之后，自相关系数都落在2倍标准差以内，偏自相关图显示，除了延迟1,2，4的偏相关系数显著大于2倍标准差之外，其他阶级的偏相关系数都比较小。根据自相关图和偏相关图这个特点，进行模型的定阶。考虑到偏相关图中只有延迟1阶，2阶和4阶的偏相关系数显著大于2倍标准差，所以考虑构造梳系数模型ARIMA（1，2,4）1 0）输入代码：proc arima data=exp4;identify var=y1(1);estimate p=( 1 2 4) noint;forecast lead=3 id=t out=out;run;该代码表示对模型进行参数估计以及对模型进行预测；其中forecast lead=3 id=t out=out;语句含义是对序列进行向前3期预测并把预测值存储到数据集out中。输出结果：通过图中的残差序列表示延迟6,12,18和24期的P值都明显大于0.05，认为残差序列为白噪声序列，并认为模型拟合良好，从图中可以得到模型表达式如下：模型预测结果如下：但是预测结果是Y1的值，因为Y=log（Y1）所以我们还得用数学计算得到Y。

展开阅读全文