《重庆大学数理统计大作业.doc》由会员分享,可在线阅读,更多相关《重庆大学数理统计大作业.doc(17页珍藏版)》请在三一办公上搜索。
1、研究生课程考核试卷(适用于课程论文、提交报告)科 目: 数理统计 教 师: 刘琼荪 姓 名: xxx 学 号: 20150702xxx 专 业: 机械工程 类 别: 学术 上课时间: 2016 年 3 月至 2016 年 4 月 考 生 成 绩:卷面成绩平时成绩课程综合成绩阅卷评语: 阅卷教师 (签名) 我国上世纪70-90年代民航客运量回归分析摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量
2、y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。关键词:民航客运量 影响因素 回归模型一、问题提出及问题分析2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、
3、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。从上述事实可以看出我国民航的发展所取得的成果显著。当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等1。为了研究过去的情
4、况,从中国统计年鉴2得到1994年统计摘要,分析类似因素对我国航空客运量的影响。二、数据描述如下为所得统计数据:表1 1978-1993年统计数据年份y民航客运量(万人)x1国民收入(亿元)x2消费额(亿元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)1978231301018888149114.89180.921979298335021958638916420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.43198339
5、14736335810604422.91947.719845545652390511035326.021285.2219857447020487911211027.721783.319869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.21991217816557109699508155.913335.6519922
6、88620223129859969383.663311.519933383248821594910545896.084152.7三、模型建立:(1)提出假设条件,明确概念,引进参数;参考相关书籍3,设随机变量民航客运量为(万人),解释变量,分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数,称,为多元线性回归模型,为回归系数,为随机误差。为上述来自多元线性回归模型的样本值,满足:为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。1. 解释变量,是可控制的、非随机变量,互不相关。2. 随机误差项
7、具有零均值和同方差的性质,即,并且,则有。3. 随机变量误差项服从正态分布,即(2)模型构建:由表1通过EXCEL绘制变量对因变量的关系散点图如下:图1 民航客运量与国民收入关系图图2 民航客运量与消费额关系图图3 民航客运量与铁路客运量关系图图4 民航客运量与民航航线里程关系图图5 民航客运量与来华旅游入境人数关系图由以上的散点图看出:与存在非线性关系,但与其它几个变量基本是线性相关的。所以首先考虑回归模型为多元线性模型。四、模型求解。采用最小二乘估计法求解模型参数,采用SPSS软件计算,得到如下结果:表2 拟合过程小结表3 方差分析表4 回归过程统计量图6 残差图则回归方程为五、模型分析检
8、验(1)决定系数由决定系数=0.998看出回归方程高度显著。(2)方差分析表(3)回归系数的显著性检验(t检验):回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t检验(即收尾概率小于规定的显著性水平0.05),说明5个自变量对的影响显著。其中铁路客运量的显著性为0.006最大,但仍小于5%。(4)检验残差序列的自相关性(D-W检验):D-W=1.9932,所以认为模型不存在序列的自相关性。(6)异方差检验从残差图看出所有点落在2之间,没有明显变化趋势,所以认为综上,认为用最小二乘估计的方法估计的模型理论上是有效的。(7) 模型进一步分析虽然,模型通过了检验,但是由之前的图可知与正
9、相关,但(国民消费额)的回归系数是负值,显然是矛盾的,同时和的VIF很大,的VIF也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。如下表是各变量之间的相关系数:表5 相关系数表可以看出,与,的相关系数都在0.9以上,说明所选自变量与高度线性相关,验证之前的散点图。用与自变量作多元线性回归是适合的。另一方面,与各变量的相关系数均小于0.5,而,之间的相关系数均达到0.9以上,所以应尝试解决它们之间的共线性。首先剔除VIF最大的,计算剩余变量参与的回归方程。结果如下:表6 统计量表可以看出,当前的VIF最大,同时也没通过t检验,其显著性0.233远大于0.05,故继续
10、剔除。计算剩余参数的回归方程,结果如下:表7 统计量表表8 拟合过程小结表9 方差分析表可以看出三个变量的VIF均小于10,且均通过了t检验。说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。说明回归方程高度显著,方差分析的结果也说明回归方程显著性高。图7 残差直方图图8 残差正态P-P图由P-P图和直方图可知残差服从正态分布,所以模型是有效的4。所以民航客运量的回归模型为:。六、岭回归模型除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性)5。采用SPSS编写程序运行可得到如下岭回归结果。表10 K值表图9 岭迹图由上述结果,可知
11、RSQ均大于0.98,取K=0.85,再进行岭回归,得岭回归模型:表11 岭回归统计表可以看出除了的回归系数为负,其余均为正,同时各变量的显著性检验均通过。方差分析显示回归模型高度显著。所以该方法所得的回归模型为:七、主要的结论或发现。比较两种方法的得到的回归模型:可以看出两种模型均认为,对的正面贡献度度小于,或者认为可以忽略。这说明国民收入和消费额对于民航客运量的影响很小。查阅相关历史可知,我国民航的发展有多个阶段。第一阶段是50到70年代末,主要是军队管民航,经营上采取高度集中的计划经济体制,航空运输规模较小且发展缓慢。第二阶段是从1980-1992年,民航实施企业化改革,成立了新的地区管
12、理局、国家骨干航空公司和一些区域性的航空公司。这个阶段正是数据来源时期。在该时期,民航的发展仍处于起步阶段,同时该时期即使是经济相对发达的沿海地区也尚未达到小康阶段,出行乘坐飞机仍是绝大多数人所不能承受的。所以来自国内的客运量是相当小的。这也解释了为什么游客数量的回归系数大于,(事实上,两者的线性相关程度很高,国民收入提高,消费自然上升),而是与y的关系最直接的,航线里程数的增加,自然反映客运量的增加,所以该自变量的系数是最大的。的系数为负,很显然两种交通方式是竞争关系,但是正如前面所分析,人们出远门乘飞机很少,无论乘火车的人数如何增加,对飞机的客运量产生的影响很小,所以的系数依旧很小。为了体
13、现所有变量对y的影响,最终决定使用 作为回归模型。参考资料1 彭立南,影响民航客运量因素的相关性分析及实证研究,中国市场,2014 ,35 (798 ):160-1612 中国统计年鉴,197819933 杨虎、刘琼荪、钟波,数理统计,高等教育出版社,2004,103-1184 卢文岱、朱红兵,SPSS统计分析(第五版),电子工业出版社,2015,270-3005 何晓群、刘文卿,应用回归分析(第三版),中国人民大学出版社,2011,169-189附录Spss 岭回归代码INCLUDE C:Program Files (x86)SPSSIncPASWStatistics18SamplesEng
14、lishRidge Regression.sps.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5/start=0.0 /stop=0.2/inc=0.02.INCLUDE C:Program Files (x86)SPSSIncPASWStatistics18SamplesEnglishRidge Regression.sps.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5/k=0.085.Sps文件修改代码*-.* Calculate raw coefficients from standardized ones, compute stan
15、dard errors* of coefficients, and an intercept term with standard error. Then print* out similar to REGRESSION output.*-(从这里开始是给出系数估计). compute beta=b;0. compute b= ( b &/ std ) * sy. compute intercpt=ybar-t(b)*t(xmean). compute b=b;intercpt. compute xpx=(sse/(sst*(n-nv-1)*inv(xpx+(k &* ident(nv,nv)
16、*xpx* inv(xpx+(k &* ident(nv,nv). compute xpx=(sy*sy)*(mdiag(1 &/ std)*xpx*mdiag(1 &/ std). compute seb=sqrt(diag(xpx). compute seb0=sqrt( (sse)/(n*(n-nv-1) + xmean*xpx*t(xmean). compute seb=seb;seb0. compute rnms=varname,Constant. compute ratio=b &/ pute ppp=2*(1-tcdf(abs(ratio),n-nv-1). compute bvec=b,seb,beta,ratio,ppp. print bvec/title=-Variables in the Equation-/rnames=rnms /clabels=B SE(B) Beta T sig. . print /space=newpage.end if.教材错误序号错误所在页码和所在的行数错误修正结果备注1212页第八题第三问的数据65不合理建议改为752390页的参考答案2有误=9/16-9/8*ln(3/4).3281页第4行 18.657 19.43654386页第21.N=258N=666(左右)