河南省旅游业发展的统计分析毕业论文.doc

上传人:仙人指路1688 文档编号:3986426 上传时间:2023-03-30 格式:DOC 页数:21 大小:784.50KB
返回 下载 相关 举报
河南省旅游业发展的统计分析毕业论文.doc_第1页
第1页 / 共21页
河南省旅游业发展的统计分析毕业论文.doc_第2页
第2页 / 共21页
河南省旅游业发展的统计分析毕业论文.doc_第3页
第3页 / 共21页
河南省旅游业发展的统计分析毕业论文.doc_第4页
第4页 / 共21页
河南省旅游业发展的统计分析毕业论文.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《河南省旅游业发展的统计分析毕业论文.doc》由会员分享,可在线阅读,更多相关《河南省旅游业发展的统计分析毕业论文.doc(21页珍藏版)》请在三一办公上搜索。

1、 2011届 本科毕业论文河南省旅游业发展的统计分析院(系)名称数学科学学院专 业 名 称统计学学生姓名 学号 指导教师 完 成 时 间2011.5河南省旅游业发展的统计分析 摘要: 本文研究河南省旅游业发展状况,以人口数、人均GDP、居民人均可支配收入、省内游客、居民人均生活消费支出、恩格尔系数、商品零售价总指数、注册登记的住宿餐饮业企业单位数为指标变量,运用主成分分析法和逐步回归分析法,对影响河南省旅游业发展的因素进行分析,探寻河南省旅游业发展的规律,并建立旅游业收入与各因素的回归模型.关键词:旅游业;主成分分析;逐步回归分析;多重共线性;回归模型1 引言 河南省地处我国东西结合部、南北过

2、渡带,位于黄河中下游,历史悠久,文化灿烂,山河秀丽,旅游资源丰富.不仅各种人文、自然旅游资源种类齐全,而且拥有许多高级别的景区.到目前为止,河南拥有三大古都,1处世界文化遗产,7座历史文化名城,28处国家重点保护文物单位.还有12个“中国优秀旅游城市”,24家4A级景区,数量均居全国前列.新中国成立60年,特别是改革开放30年以来,河南省旅游业得到了良好的发展,取得了可喜的成绩,已经开始由旅游大省向旅游强省迈进.“十一五”规划中,河南省省委、省政府将旅游业作为省重点培育的七大优势产业之一;2008年,省委书记徐光春更是把这种重视进一步提升到“旅游立省”的高度.但是,与一些旅游业发达的省份相比,

3、我省仍存在一定的差距.因此,本文运用主成分分析、逐步回归分析等统计分析方法,找出影响河南省旅游收入的因素,以期望为相关管理部门和企业做出决策提供依据.多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律.其主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用.多元统计分析是统计学中一个非常重要的分支.在国外,从20世纪30年代起,已开始在自然科学、管理科学、社会和经济等领域拉开

4、了多元统计分析应用的帷幕.我国自20世纪80年代起逐步将多元统计分析应用于多个领域,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩.主成分分析是将多指标化为少数几个综合指标的一种统计方法.在实际应用中,经常遇到研究多指标的问题.由于变量个数太多,并且彼此之间存在着一定的相关关系,因而使得所观测到的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布比较复杂,势必增加分析问题的复杂性.人们自然希望用较少的综合变量代替原来较多的变量,而这几个综合变量又能够尽可能多地反映原来变量的信息,并且彼此之间互不相关.利用这种降维的思想,产生了主成分分析、因子分析、典

5、型相关分析等统计方法.主成分的概念由 Karl Pearson在 1901年提出,但当时只进行了非随机变量的讨论,1933年Hotelling将主成分的概念推广到了随机变量中.在社会经济问题的主成分分析中有两个最有名的例子:Stone在1947年对美国年17项国民经济统计指标所作的分析和M.Scott在1961年对英国157个城镇的发展水平进行的分析.前者发现完全可以用三个经济指标来概括原来的17项指标,从而大大简化了数据分析结构;后者将原始测量的57个指标降到了5个综合变量(主成分).主成分分析后来逐渐被推广应用于样品的分类与排序.2 指标变量的设置旅游业(本文以河南省旅游为例)的发展是由许

6、多因素共同影响的.这些因素有经济因素、环境因素等几大类.本文主要从经济因素来分析其对河南旅游业发展的作用.首先要根据所研究问题的目的设置因变量为河南省旅游收入,然后选取与有统计关系的一些变量作为自变量,设置的自变量有:人口数,这里指河南近十年每年的常住人口;人均GDP,即总产出(社会产品和服务的产出总额)/总人口;人均可支配收入,指家庭成员得到可用于最终消费支出和其它非义务性支出以及储蓄的总和,即居民家庭可以用来自由支配的收入,它是家庭总收入扣除交纳的所得税、个人交纳的社会保障支出以及记账补贴后的收入;省内游客数;人均生活消费支出,指被调查的城镇居民家庭用于日常生活的全部支出,包括购买商品支出

7、和文化生活、服务等非商品性支出;恩格尔系数,指食物支出金额在消费性总支出金额中所占的比例,计算公式为:恩格尔系数=食品支出金额消费性总支出金额;商品零售价总指数,它是反映城乡商品零售价格变动趋势的一种经济指数;注册登记的住宿餐饮业企业单位数.现依据河南统计年鉴中近十年旅游业的统计数据(见附录),分析我省近年来旅游行业的经济发展状况,用主成分分析法和逐步回归法对影响旅游业发展的因素进行定量的分析和讨论,并建立河南省旅游业收入()与部分经济因素的回归模型.3 相关理论知识3.1 线性回归模型 设随机变量与一般变量,的线性回归模型为.其中, ,是个未知参数,称为回归常数,称为回归系数. 称为被解释变

8、量(因变量),而 ,是个可以精确测量并可控制的一般变量,称为解释变量(自变量).时,上式即为一元线性回归模型,时,上式为多元线性回归模型.是随机误差,假定称为理论回归方程.对一个实际问题,如果获得组观测数据,则线性回归模型可表示为:写成矩阵形式为,其中 , ,.矩阵是矩阵,称为回归设计矩阵或资料矩阵.3.2 主成分分析法主成分分析是将多指标化为少数几个综合指标的一种统计分析方法.具体来说它研究相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量归纳为少数几个公因子,当这几个公因子的特征值都大于1,或累计贡献率达到某一百分比时(一般),就说明他们能够集中反映问题的大部分信息.设有个指标(变量),

9、这个指标(变量)反映了客观对象的各个特性,因此,每个对象观察到得个指标变量值,就是一个观察值,它是一个维的向量.如果观察了个维向量,共有个数据,用矩阵表示就有:,为观察对象数,为指标或变量数.矩阵中每一行就是一个对象的观察值.设随机变量的协方差为,用矩阵的个向量作线性组合,则可得综合指标为:,.则有: .同样, .由此得到所谓的主成分就是线性组合,它们互不相关,且使方差Var()(=1,2,)达到最大.第一主成分,就是使Var()达到最大的线性组合.显然,当用常数后Var()随之增加.为了消除这种不确定性,我们可限制的系数向量为单位长.于是,我们定义:第一主成分为线性组和,满足,且使最大.第二

10、主成分为线性组合,满足,,且使Var()达到最大.第 个主成分为线性组合,满足和,其中,且使Var()最大.3.3 逐步回归法在自变量很多时,其中有的因素可能对因变量的影响不是很大,而且自变量之间可能是不完全相互独立的,有种种互作关系.在这种情况下可用逐步回归分析,进行自变量的选择,这样建立的多元回归模型预测效果会更较好.逐步回归的基本思想是有进有出.具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除.引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行检验,以确保每次引入新的变量之

11、前,回归方程中只包含显著的变量.这个过程反复进行,直到既无显著的自变量可选入回归方程,也无不显著自变量从回归方程中剔除为止.逐步回归法步骤:首先给出引入变量的显著性水平和剔除变量的显著性水平,然后按图1的框图筛选变量.开始对不在方程中的变量能否引入?筛选结束引入变量对已在方程中的变量考虑能否剔除?剔除变量能否能否图1 逐步回归法筛选步骤(1)剔除变量的基本步骤,假设已引入回归方程的变量为,().计算已在方程中的变量的偏回归平方和: 及偏偏 ,.其中(或或)表示包含括号中这些变量的回归模型的残差平方和(或回归平方和或决定系数).度量回归方程中变量重要程度的统计量可采用偏回归平方和的大小,也可以采

12、用偏的大小.在REG过程中,筛选变量时使用的统计量为偏.我们使用偏回归平方和作为变量重要性的度量.令,即相应的变量是方程中对影响最小的变量.检验对的影响是否显著.对变量进行回归系数的显著性经验,即检验原假设,检验统计量为,及,其中,若,则剔除,重新建立与其余个变量的回归方程,然后再检验方程中最不重要的变量可否剔除直到方程中没有变量可剔除后,转入考虑能否引入新变量的步骤.若,不能剔除,转入考虑能否引入新变量的步骤.(2)考虑可否引入新变量的基本步骤.假设已引入个变量,不在方程中的变量记为.计算不在方程中的变量的偏回归平方和:及偏偏,.并令,即不在方程中的变量是对影响最大的变量.检验变量对的影响是

13、否显著.对变量作回归系数的显著性检验,即检验是否成立,检验统计量为及.其中,若,则引入,并转入考虑可否剔除变量的步骤;若,则逐步筛选变量的过程结束.假设用逐步回归法得到个变量,再建立与这个变量的回归方程,这就是用逐步回归法得到的“最优”回归方程.4 理论模型的确定及分析先对数据作线性回归并作相关的检验及处理.4.1 线性回归及多重共线性检验设与 之间的线性回归模型为.其中为随机误差.调用SPSS做共线性诊断得如下结果:表1 线性回归系数表及多重共线性检验模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)989.6811137.6580.8700.476x1-0

14、.0530.105-0.024-0.5070.6620.03132.029x20.0150.0100.2351.5100.2700.003357.614x40.0920.0061.05915.4610.0040.01469.413x50.0090.0560.0360.1680.8820.002662.986x61.4333.6600.0210.3920.7330.02342.942x7-6.0351.845-0.051-3.2720.0820.2793.586待添加的隐藏文字内容2x8-0.0400.017-0.272-2.3190.1460.005203.037从中得出经验回归方程为:.从回

15、归系数的显著性检验上可见,均无法通过显著性检验,且大部分自变量的方差扩大因子VIF很大,远远超过10,故说明河南省旅游收入回归方程存在着严重的多重共线性.下面分别采用主成分分析和逐步回归分析来克服多重共线性的影响.4.2 主成分分析经过数据标准化后得到的标准化数据如表所示:表2 标准化数据表Zx1Zx2Zx3Zx4Zx5Zx6Zx7Zx8Zy-1.5764-1.081-1.11-0.9469-1.0731.0446-1.1-0.949-0.936-1.1543-0.99-0.991-0.9409-0.9660.8368-0.672-0.832-0.929-0.7888-0.895-0.802-

16、0.639-0.8210.7235-0.87-0.637-0.676-0.4486-0.736-0.676-0.8652-0.670.7613-0.178-0.807-0.862-0.1336-0.409-0.415-0.356-0.4690.83681.2717-0.792-0.3160.18776-0.024-0.117-0.2361-0.1370.2323-0.046-0.212-0.2010.515380.30390.24780.149420.2439-0.618-0.310.30450.14660.824110.81340.78070.704890.8134-1.1660.84340

17、.81950.65261.132831.38191.3451.084421.3219-1.1091.86471.33241.01131.441551.63591.73762.045381.7567-1.543-0.8041.7722.1096调用SPSS进行主成分分析,得到相关系数矩阵如下:表3 相关系数矩阵Zx1Zx2Zx3Zx4Zx5Zx6Zx7Zx8相关Zx110.9650.9630.9230.96-0.930.510.92Zx20.96510.9980.9751-0.970.4560.982Zx30.9630.99810.9841-0.970.4310.986Zx40.9230.975

18、0.98410.99-0.950.3190.979Zx50.9570.99710.9851-0.970.4150.989Zx6-0.928-0.967-0.966-0.947-11-0.338-0.981Zx70.510.4560.4310.3190.42-0.3410.329Zx80.920.9820.9860.9790.99-0.980.3291从相关系数矩阵(表3)中看到,大部分指标之间的相关系数都较高,各变量呈较强的线性关系,这是进行主成分分析的前提条件.我们采用主成分分析法来解决多重共线性问题,对上述8个因素进行主成分分析,寻找影响河南省旅游业发展的主要因素.使用统计软件SPSS对原

19、数据进行分析,把抽取因子(主成分)数目设为8,即原始变量数目,得到各主成分的数值如下:表4 主成分数值F1F2F3F4F5F6F7F8-0.8007-0.9211-1.780650.16820.004851.242680.550920.70893-0.81693-0.50585-0.84323-0.33924-0.17392-0.20205-0.2079-1.14638-0.61043-0.766050.062490.10580.4114-1.74926-1.71430.17407-0.80521-0.04860.919060.14829-1.14043-1.169371.950830.232

20、34-0.866811.456240.507981.144611.781250.370720.149630.42529-0.2102-0.037731.270820.46438-0.991551.46474-0.7991-1.409610.3349-0.414611.07523-1.45593-0.077530.72762-0.46181.795340.713110.72025-0.27537-1.866810.98437-0.192390.61965-1.176380.999381.73519-1.07080.38909-1.41166-0.33822-0.61260.548472.0628

21、9-1.217740.134481.24160.61323-0.154480.5247-0.15206表5 特征根贡献率及累计贡献率成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %17.00587.56587.5657.00587.56587.5656.47880.97580.97520.85610.69698.2600.85610.69698.2601.33416.67697.65130.0670.83799.0980.0670.83799.0980.1141.42399.07440.0580.72399.8210.0580.723

22、99.8210.0560.70099.77450.0100.12299.9430.0100.12299.9430.0130.16199.93560.0030.04099.9830.0030.04099.9830.0030.03899.97370.0010.017100.0000.0010.017100.0000.0020.027100.00080.0000.000100.0000.0000.000100.0000.0000.000100.000图2 碎石图由表5可知,前两个主成分累计贡献率达到,因此取两个主成分已经足够.4.2.1建立回归方程用对前两个主成分和做普通最小二乘回归,得到结果如下:

23、表6 模型汇总模型RR 方调整 R 方标准 估计的误差1.985a0.9710.96369.35515由表6可知复相关系数,决定系数,由决定系数知回归方程拟合效果很好.表7 系数模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)535.28721.93224.4070BART for analysis 1351.99323.1180.97915.2260BART for analysis 141.32223.1180.1151.7870.0117由表7可知,对均有显著影响,说明,整体上对有高度显著的线性影响.故可得到主成分回归的回归方程:.分别用两个主成分和做因变量,以8个原始自变

24、量做自变量,进行线性回归,得到回归系数为:表8 回归系数表模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)11.6585150.32635.7310.001x1-0.0006920-0.11-22.8980.002x20.00003100.17210.7540.009x40.00005700.23933.7860.001x50.00025500.34415.7440.004x6-0.0214420.001-0.114-20.4270.002x7-0.061320.001-0.186-115.9090x80.00012100.29524.3990.002由表8可知整体上对有高度显著

25、的线性影响.表9 回归系数表模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-31.9023720.048-668.2650x1-0.0004150-0.066-93.7560x2-0.0000050-0.03-12.6840.006x4-0.0000050-0.022-21.2980.002x5-0.0000350-0.047-14.730.005x60.00535700.02834.8790.001x70.35322201.0724563.4170x8-0.0000090-0.023-13.040.006由表9可知整体上对有高度显著的线性影响.由表8、表9可得到:; .把和带

26、入回归方程得到还原后的回归方程为:.4.2.2 结果分析由回归方程可以知道,影响河南省旅游收入增加的主要经济因数是人口数()、人均GDP()、省内游客()、人均生活消费支出()、恩格尔系数()、商品零售价总指数()、注册登记的住宿餐饮业企业单位数(),其中影响旅游收入增加较大的是恩格尔系数()、商品零售价总指数();而人口数()、恩格尔系数()和商品零售价总指数()对旅游收入有负面的影响,即当人口数(或恩格尔系数或商品零售价总指数)增大时,旅游收入就减少.4.3 逐步回归分析调用SPSS进行逐步回归,得到结果如下:表10 输入移去的变量模型输入的变量移去的变量方法1x4.步进(准则: F-to

27、-enter 的概率 =0.100).2x8.步进(准则: F-to-enter 的概率 = 0.100).表10是逐步回归依次引入和.表11 模型汇总模型RR 方调整 R 方标准 估计的误差10.999a0.9980.99816.4077821.000b0.9990.99912.04447表11是逐步回归每一步的回归模型的统计量,由决定系数可知回归方程拟合效果很好.表12 方差分析表模型平方和df均方FSig.1回归1161976.78411161976.7844316.1620.000a残差2153.7228269.215总计1164130.50792回归1163115.022258155

28、7.5114008.8260.000b残差1015.4857145.069总计1164130.5079表12是逐步回归的回归模型的方差分析.表13 回归系数表模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-63.17310.483-6.0260.000x40.0860.0010.99965.6980.0002(常量)-27.63614.838-1.8620.105x40.0990.0051.14921.0180.000x8-0.0230.008-0.153-2.8010.026表13是逐步回归每一步的回归方程系数表.从表13中看出,过程一共运行了两步,最后一步就是表中的第2步的

29、计算结果得知:8个变量中只进入了2个变量:,.由表13得知回归方程为:4.3.1 回归方程的显著性检验由表12可以得知,F统计量为,系统自动检验的显著性水平为0.000(非常小),故此回归方程相关非常显著. 由回归方程可以看出,河南省旅游收入()与省内游客()、注册登记的住宿餐饮业企业单位数()相关;而且与省内游客()呈显著正相关,与注册登记的住宿餐饮业企业单位数()呈显著负相关,这与主成分回归方程中旅游收入与注册登记的住宿餐饮业企业单位数呈正相关矛盾,这是因为在主成分回归方程中由于自变量个数过多(7个),造成两者线性关系不显著.5 结束语综上所述,用主成分分析法和逐步回归法两种不同的方法得到

30、的回归模型也是不同的.总体上可知当河南省人均GDP增大、省内游客数量增多、人均生活消费支出增多时,或者河南省人口数减少、恩格尔系数降低、商品零售价总指数降低时,河南省旅游收入会增多.其中需要说明的是,当河南省人口数增多时,会造成交通拥堵或环境污染,会使人均GDP减少,而人均GDP与河南省旅游收入呈正相关,故会造成河南省旅游收入的减少.同时,我省应该合理控制注册登记的住宿餐饮业企业单位数目,即要做好整体规划,防止盲目开发和不合理重复建设,保证旅游结构与布局的合理.只有努力发展河南省经济,加大经济建设,才能带动河南省旅游业的健康发展.两种方法均用较少的综合变量进行回归,使问题简化,得到了旅游业收入

31、的回归方程,这对于具有独特的自然景观和人文景观,有丰富的旅游资源和旅游产品的河南省抓住机遇、拓展旅游市场、制定旅游发展规划、促进旅游业发展提供了一定的科学依据.同时,这对经济调控有很好的指导意义.6 致谢本文写作过程中,得到魏春艳老师的亲切关怀和耐心的指导,在此谨向魏春艳老师表示诚挚的谢意.此外,向孜孜不倦地教导过我的各位老师致以衷心的感谢和崇高的敬意.参考文献1 何秀丽.多元分析法在统计分析中的应用J.吉林化工学院学报, 2003(15): 32-34.2 王友明.多元统计分析方法及其在经济研究中的应用J.安徽水利水电职业技术学院学报,2003,20(21):50-53.3张尧庭,开泰.多元

32、统计分析引论M.北京科学出版社,1982.4薛薇.统计分析与SPSS的应用第二版M.中国人民大学出版社,2007.5周高岚.主成分分析在教学水平评估中的应用J.吉林师范学院学报,1996,17(12):44-46.6河南省统计局国家统计局河南调查总队.河南统计年鉴,20002010.7项静恬,郭世琪.多元回归模型在实际应用中的几种推广J.数理统计与管理,1994(12):87-90.8王学民.主成分分析和因子分析应用中值得注意的问题J统计与决策, 2007 (6) : 142-143.9何晓群,刘文卿.应用回归分析(第二版)M. 中国人民大学出版社,2007.10高惠璇.应用多元统计分析M.

33、北京大学出版社,2005.11李彦,陈祖森,张保.参考作物蒸发蒸腾的多元线性回归模型研究J.新疆农业大学学报.2005(28):21-23.12李艳双,曾珍香,张闽等. 主成分分析法在多指标综合评价方法中的应用J.河北工业大学学报,1999 ,28 (1) :94-97.13劳亚民,刘登科基于主成分分析法的目标价值评估J舰船电子工程,2008,25(7):74-77.Statistical Analysis of Tourism Development in Henan Province 本文研究河南省旅游业发展状况,以人口数、人均GDP、居民人均可支配收入、省内游客、居民人均生活消费支出、恩

34、格尔系数、商品零售价总指数、注册登记的住宿餐饮业企业单位数为指标变量,运用主成分分析法和逐步回归分析法,对影响河南省旅游业发展的因素进行分析,探寻河南省旅游业发展的规律,并建立旅游业收入与各因素的回归模型.Abstract:The tourism development condition in Henan province was studied in this paper. The variable indicators are population, per capita GDP and residents per capita disposable income, the provin

35、ce to tourists and residents per capita consumption expenditure, engels coefficient, commodity retail price index and the registration of the total number of accommodation catering enterprises. By using principal component analysis and stepwise regression analysis method the influence factors of tou

36、rism development in Henan province was analyzed.Then the law of the development of Henan tourism was explored, and the regression model between tourism revenue and the influence factors was established.Key Words: tourism; principal components analysis; stepwise regression analysis; multicollinearity

37、; regression model 附录表 河南省近十年旅游业统计数据 影响因素年份人口数(万人)人均GDP人均可支配收入省内游客人均生活消费支出恩格尔系数商品零售价总指数注册登记的住宿餐饮业企业单位数接待省内游客旅游收入(亿元)2000948854502630.88 29901899.28 49.798.53239198.72001955559592872.18 30152043.66 48.699.83525201.12002961364873255.33 4270.92239.18 4899.23999292.242003966773763511.76 3329.62442.63 48

38、.2101.33586225.232004971792014042.42 5448.162713.48 48.6105.73622421.620059768113464647.54 59473162.50 45.4101.7503746320069820131725387.86 75513676.31 40.9100.9629858820079869160126470.17 98624445.02 38104.4755577020089918191817616.14 114415131.25 38.3107.5880789920099967205978413.23 154395718.05 3699.498801294

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号