《统计学本科毕业论文初稿——Excel在多元回归分析中的应用研究.docx》由会员分享,可在线阅读,更多相关《统计学本科毕业论文初稿——Excel在多元回归分析中的应用研究.docx(21页珍藏版)》请在三一办公上搜索。
1、Excel 在多元回归分析中的应用研究第一章绪论 统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。 然而随着社会的发展,统计的运用领域越来越广泛,不管是在经济管理领域, 还是在军事、医学、生物、物理、化学等领域的研究中人们对于数量分析与统 计分析都提出更高的要求。统计学作为高等院校经济类专业和工商管理类专业 的核心课程,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大 且复杂。而 Excel 是以其入门简单、使用直观、操作方便和功能强大等特点为 广大用户所喜爱,在数据处理相关领域中 Excel 更是有大量的受众。 Excel 系统 中含有许多常用的统计分析方法,但大
2、多数人由于缺乏基本的统计知识,对此 望而却步。1.1摘要 网络购物则是给传统的零售产业带来了巨大而深远的影响,近几年越来越 多的人通过当当、京东、淘宝这样的互联网平台进行交易,网络购物的兴起给 人们带来了极大的便利和实惠。淘宝网则是亚太最大的网络零售商圈,其致力 于打造领先网络零售商圈,淘宝注册成员也覆盖了中国大部分网购人群,交易 额占中国网络市场的 80%。本文不仅对于复杂的统计计算通过常用的计算机应 用软件 Excel 来实现,同时通过对淘宝网的交易额与当今社会的发展现状相结 合进行研究,通过 Excel 做多元线性回归分析,让大家对统计中的多元回归有 所了解的同时,也可以了解到淘宝网近年
3、来的发展情况 以及未来的发展趋势。 本文通过实例对淘宝网未来发展趋势的研究运用通俗的语言和浅显的描述将Excel 在多元回归分析中的统计分析方法呈现在大家面前,并采用了 2005 年到 2012 年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的 居民消费水平对淘宝网的未来发展趋势进行定量数据的研究而后提出我们对于 淘宝未来发展趋势的预测和应对之策。同时本文也运用了 Spss 和 Eviews 软件 对数据进行分析,从而把起与 Excel 对数据进行处理的方法进行对比,找出Excel对于数据处理很分析相对于 Spss和Eviews之间的差别及优点,最后得出 结论。关键词: Exc
4、el 多元回归分析 淘宝网 SPSS Eviews1.2引言 我国网络购物相对欧美起步较晚,但发展速度非常快。但随着我国社会主 义市场经济的日趋完善,无论是在宏观经济的经济调控领域还是在微观的企业 管理领域中,人们要进行高效的监控和科学的管理就必须准确及时的获得经济 运行中的各类信息。淘宝网自 2003年 5月 10日成立以来,在短短的两年内, 迅速成为国内网络购物平台的第一名,占据了中国网络购物的70%左右的市场份额。然而 2008 年以来,受到全球金融危机蔓延深化的影响,我国多数行业都受到了不同程度的冲击。但包括网络零售的电子商务行业发展却一路繁荣,成 为危机背景下经济增长的一个亮点。而网
5、上购物作为一种新兴的购物方式出现 在日常百姓的生活中,必然有其吸引人之处。喜欢上网购物的网民认为,用互联网来完成购物不仅节省了时间,免除了舟车劳顿,还有机会买到在本地市场 难觅的商品。当然网上购物有利有弊,网购的利在于:1节省时间,精力2. 有机会买到本地市场难觅的商品3. 是一种时尚的方式4. 可以货比三家5. 价格相对市面上的同样商品优惠6. 选购当时最流行,最淘宝热卖的商品人们通过淘宝购物可以买到比在实体店更便宜的商品。这也恰恰反映了商家对低成本交易的渴望,同时也反映了消费者对低价格的渴望。网上购物的弊在于:1. 质量难以保证2. 无法预先体验商品3. 网络安全性存在隐患,担心被人恶意侵
6、犯隐私和被盗银行帐号和密码4. 物流方工作不到位导致货物没有及时到达或者根本收不到所以在这个飞速发展的时代,淘宝作为网络购物的巨头面临了很大的挑战,本 文采用淘宝举例一是了解ExceI做多元回归分析的方法,二是找到 ExceI做多元 回归分析的优点及便利之处,三是让大家对Excel,Spss和Eviews软件之间的差别同时更好的运用Excel在统计数据方面的应用,同时还可以研究淘宝的未 来发展趋势从而用淘宝网的现状作为实例进行研究和探讨以获得更好的发展趋 势,如今网络购物普及全国,本文不仅让读者在学习Excel统计方面的知识的并且学到了多元回归分析的其他统计方法,同时也能了解到一些淘宝的未来发
7、 展现状,对其购物也有一定的帮助。1.3回归分析的概述1.3.1回归分析的概念回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分 析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统 计方法)。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归 分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归 分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变 量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分 析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是 线性关系,则称为多元线性回归分析。回
8、归分析的主要内容为: 从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估 计其中的未知参数。估计参数的常用方法是最小二乘法。 对这些关系式的可信程度进行检验。 在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变 量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入 模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等 方法。 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非 常广泛的,统计软件包使各种回归方法计算十分方便。在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中 所关心的一类指标,通常用 丫表示
9、;而影响因变量取值的的另一类变量称为自 变量,用X来表示。1.3.2回归分析研究的主要问题(1)确定丫与X间的定量关系表达式,这种表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量X对因变量丫有无影响;(4)利用所求得的回归方程进行预测和控制。1.3.3回归分析的应用相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区 别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因 果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得 知质量”和用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量 受哪个变量的影响,影响程度如何
10、,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关 系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模 型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作 进一步预测。1.4国内外研究现状Excel是 微软公司的办公软件 Microsofit office 的组件之一,是微软办公套 装软件的一个重要的组成部分,它可以进行数据的处理统计分析和辅助决策操Excel创建作,广泛的应用于管理、统计财经、金融等众多领域。您可以使用 工作簿(电子表格集合)并设置工作簿格式,以便分析数据和做出更明智的业 务决策。特别是,您可以
11、使用 Excel跟踪数据,生成数据分析模型,编写公式 以对数据进行计算,以多种方式透视数据,并以各种具有专业外观的图表来显 示数据。简而言之:Excel是用来更方便处理数据的办公软件。Excel统计功能是一种与 Microsofit office的套装软件信息共享综合性强且 大众化的统计软件。运用它既可节省时间,又能减少在计算机操作技能和经济 条件方面所受到的限制,发挥计算机和网络强大的经济统计图表及数据采集、 储存、传输、处理和表现能力,把经济数据加工成经济信息,深化认识,增进 经济学的理论性并促进统计方法在经济及其管理中的广泛应用。目前是微软在线社区联盟成员,同时也是全球最大的华语Exce
12、l资源网站,拥有大量原创技术文章、Addins 加载宏及模板。Excel Home 汇聚了中国大陆及港台地区的众多 Office (特别是Excel)高手,他们都身处各行各业,并 身怀绝技!在他们的热心帮助之下,越来越多的人取得了技术上的进步与应用= 水平的提高,越来越多的先进管理思想转化为解决方案被部署,同时,越来越 多的人因此而加入了互相帮助,共同进步的阵营。无论您是在校学生,普通职员还是企业高管,都将能在这里找到您所需要 的。通过学习运用 Office这样的智能平台,您可以不断拓展自己的知识层面, 也可以把自己的行业知识快速转化为生产力,创造价值。在科学技术飞速发展的今天,统计学广泛吸收
13、和融合相关学科的新理论, 不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法, 并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主 义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高 的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将 得到更充分更完满的开掘。1.5本文研究的主要内容第一章绪论简述多元回归分析的概念、背景、研究的意义和研究概况。并介绍课题研究的 主要内容及论文章节安排。第二章数据的来源和变量的选取分析数据的来源和变量的选取理由,建立预测的模型、回归模型的参数估计以 及求解。第三章多元回归分析的建模与检验用Ex
14、cel,Spss和Eviews对数据进行相关性分析,进行建模和估计,做线性回 归分析方差分析,确定预测值。第四章结果及分析对上述的Excel,Spss和Eviews对数据建立的模型进行分析,对数据进行显著 性检验,修正拟合模型以及对数据进行预测。第五章Excel,Spss和Eviews操作方法对比及总结对本文的研究工作进行概括和总结。并对延续性课题提出自己的观点和意见。第二章数据的来源和变量的选取2.1数据的来源 及变量的选取理由为了研究淘宝网未来发展趋势,本文从新浪官方微博淘宝数据魔方中获得 淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝 购物的影响。并在新浪财经网
15、上获得淘宝网自2005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据。并 从国家统计年鉴中选取统计指标居民消费水平和人均纯收入,其中人均收入(X4 )是通过城镇人均收入,城镇人口总数,农村人均纯收入,农村人口总数 和我国总人口数计算出来。计算公式为:人均收入=(城镇人口总数*城镇人均收入+农村人口总数*农村人均纯收入)/总 人口数 如下图:(人均收入保留了两位小数)年份城镇人均 收入(元)城镇人口 数(万 人)农村人均 收入(元)农村人口 数(万 人)总人口数 (万人)人均收入(元)200510493562123254. 97454413075663
16、66. 562006117595828835貂731601314437210. 71200713785.8606334140.4714961321298566. 60200815780. S624034760. 670399132802993乞 94200917174.7645125153.26893813345010964. 60201019109.46697859196711313409112507. 56201121809.8690796977. 3656561347351458L 96201224564. ?71132791G. 6642221354041666S. 52这里人均收入是
17、指我国 居民平均每人每年的人均纯收入,这反映了我国居 民工资在逐年的增加,收入的增加,加上消费水平的增加,所以收入的增加与 网络消费在一定程度上也有很大的联系,在这里用人均收入的增加来反映了可 支配收入的增加,那么居民用于消费的部分也增加了。淘宝注册人数(x1 )在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的 认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物 很大程度上的支持。我国网络普及度(X2 )是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件
18、。我 国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛, 人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。居民消费水平(X3 )是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数 量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中, 对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质 产品和劳务的数量和质量来反映。居民消费水平的提高也能很好的展现在网络消费上作出的贡献。通过对以上这四个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未 来的发展趋势以及优劣态。原始数
19、据如下:年伪淘宝网年 父易总M(亿)y淘宝注册 人数(万 人)xl我国网络 普及度居民消费 水平人均纯收 入(元)20058925008.555966366. 562006169350010.562997210.712007433.153001673108566. 602008999.69SOO22.604309938. 94200920001700028.9928310964. 60201040003700034.31052212507. 5620117S006500038.312570145S1.962012100007000042. 11409316668, 52由于数据单位不同,为了消
20、除量纲的影响,把数据标准化进行处理,得到如下 标准化的数据(所有取值保留了两位小数):年份淘宝网年 交易总额(亿)y淘宝注册 入数(万A) X1我国网络 普及度(%)居民消费 水平人均纯收 入(元) x4200511111.0020061.901.401.241.131.1320074. 872,12kSS1*311.35200811.233. 922,661*51L56200922. 476, 803.401*66L72201044.9414. 804. 041.8S1. 96201187,6426. 004.512.252.292012112. 362& 004. 952. 522. 62
21、2.2模型的建立在一元线性回归分析中,重点放在了用模型中的一个自变量X来估计因变量丫。实际上,由于客观事物的联系错综复杂,一个因变量的变化往往受到两 个或多个自变量的影响。测定他们的数量变动,提高预测和控制的精确度,就 要考虑更多的自变量建立多元回归模型。设随机变量淘宝销售额为变量y与淘宝网注册人数Xi、我国网络普及度X2、我国居民消费水平X3和我国居民人均收入X4的线性回归模型为:y = Po + PiX| + P2X2 + P3X3 + P4X4 +其中y是X1,X2,X3,X4的线性函数加上误差项 J%,几,02,3,p4是模型的参数,客是误差项,是不能被自变量的线性关系所揭示的变异性。
22、多元线性回归模型在满足下列基本家丁的情况下,可以采用普通最小二乘 法(OLS)估计参数。E多元回归模型有以下的基本假定:1、随机扰动项 服从期望为0,方差为b2的正态分布。2、不同的随机扰动项之间不存在序列相关。3、解释变量是非随机的,与随机扰动项不相关。4、揭示变量不存在共线性。当以上假定成立的前提下,y的平均值或期望值依赖于自变量 xi,X2,X3,X4的变化而变化,称之为多元线性方程。y = % +卩必+ P2X2 + 6x3得到的方程形式如下:y = Pq + PiXi + P 2X2 + P3X3 + P 4X42.3多元线性回归模型的参数估计及求解跟一元线性回归方程一样,多元线性回
23、归方程中的未知参数3。,久,32卩3,卩4仍然可以用最小二乘法来估计。即用因变量的观察值和估计值之间的 离差平方和达到最小来求得3。,臥,p2,S,P4令3-23Q(p0,杠,2, S )=2 (yi -yi )=最小把得到的数据带入上面的方程式y邛0 + P2X2 + 0必3 +选择的数据选择的是 2003年、2005年、2007年、2009年、2011年及2012 年的数据带入方程式求得初步估计的方程式1 = p0 + 杠 + p2 + d + p44.87 = P0 + 2.12片 +1.882 +1.31 歸 +1-35*22.47 = P0 + 6.8久 +3.4 +1.663 +1
24、.72487.64 = P0 +26叫 +4.5102 +2.2503 +2.2904 112.36 = P0 + 28叫 +4.952 +2.525 +2.62 P4得到如下的答案(求解过程略,答案保留两位小数)艮=208.97耳=0.57p2 =23.6p3 = -1348.5I p4 =1117.5最后得到的预测方程式为y =208.97-0.57x4 +23.6X2 -1348.5X3 +1117.5X4 第三章多元回归分析的建模与检验3.1 Excel多元回归分析3.1.1相关性分析:检测变量X1,X2,X3,X4与因变量y的相关性淘宝注册人数Xi与y的相关性检验:淘宝注册人数(万人
25、)XI淘宝注册人数万 人)XI线性(淘宝注册人数 (万人)X1)网络普及度与淘宝网交易总额的相关性检验:050100150我国居民消费水平与淘宝交易的相关性检验:居民消费水平昭0.5居民消费水平)(3线性(居民消费水平0050100150我国网络普及度() X2我国网络普及度 (%) X2线性(我国网络普及 度 %) x2|我国人均收入与淘宝交易的相关性检验:人均纯收入(元)(4人均纯收入元)x4线性(人均纯收入(元x4j由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上, 表明了数据之间存在完全正相关关系。G =0.991857ryX2 =0.901590ryX3 =0.9650
26、83J =0.957911yx4根据Excel中的数据分析计算相关系数如下:列1JlJ 2列3列4列5列11列20.991S571列30.901590.9170931列1 46 9650830. 965S92 0. 9785731列50.9579110. 957909 0. 982113 0, 9993841以上是通过excel得出的相关系数的矩阵得到:x1、由以上数据可以看出,各列之间存在正相关关系。即淘宝网注册人数 我国网络普及度X2、我国居民消费水平X3和我国居民人均收入X4与淘宝交易总 额y存在正相关关系。线性回归分析运用excel对淘宝交易总额y与淘宝网注册人数X1、我国网络普及度x
27、?、我国居 民消费水平X3和我国居民人均收入X4进行回归分析,得到如下的结果:SUMMARY OUTPUTCL 997914960.9958346g0.990279958乞 20449866 g回归统计MultipleR SquareAdjusted标准误差观测植由回归统计表可以得到以下几个部分。1. Multipie R (复相关系数 R):是R2的平方根,又称为相关系数,是用来衡量x和y之间相关程度的大小。这里的R=0.99791496,表示了他们之间是正相关的关系。2. R Square (复测定系数R2):用来说明自变量解释因变量变差的程度,以测定 因变量y的拟合度。这里的R2 =0.
28、995834268,表现了自变量与因变量之间的拟 合效果很好。复相关系数作为一个检验总的回归效果的一个指标,在这里说明 了数据之间的拟合度很好,回归效果也很好。3. Adjusted R Square (调整复测定系数R2):用于加入独立变量后模型的拟合程 度,这里的调整复测定系数为 0.990279958,说明该多元回归中,加入独立变量 后,模型的拟合度很好。4. 标准误差:是用来衡量拟合程度的大小的,标准误差越小说明拟合程度约 好,这里的标准误为4.20449866,说明模型的拟合程度很好。5. 观测值:这里的观测值为8,说明用来估计回归方程的数据的观测值为8个。dfSSMSFlignif
29、icance F回归分析412677,844553159,461138179, 2903327卯353* 03342M417.67780398712730.87798以上为方差分析表,其主要重用是通过F检验来判断回归模型的回归效果。“回归分析”行计算的是估计值同均值之差的各项指标;“残差”行是用于计算每个样本观测值与估计值之差的各项指标;“总计”行用于计算每个值同均值之 差的各项指标。由方差分析表可知:Df是自由度,这里的回归分析的自由度为 4,残差的自由度为3。回归分析的 离差平方和为12677.84455,残差的离差平方和为 53.03342694;回归分析的均 方差(即离差平方和除以自由
30、度)为3169.461138,残差的均方差为17.67780898; F统计量为179.2903827, Significanee F是在显著性水平下 F的临 界值,其为 0.000670487。Coefficients保差 1 Stat就 Lower 95% Upper 9祁限 95.吐限 95, OShlercepl X Variabl S Variabl S Variabl I Variabl0,表示呈一定的线性关系,相 关系数检验对应的概率 P值为0.000,小于显著性水平0.05,说明淘宝交易额与 淘宝注册人数之间相关性显著。y与X2的相关系数为0.9010,表示呈一定的线 性关系,
31、相关系数检验对应的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。y与X3的相关系数为0.9650,表示呈一定的线性关系,相关系数检验对应的概率 P值为0.000,小于显著性水平 0.05,说明淘宝交易额与居民消费水平之间相关性显著。y与X4的相关系数为0.9580,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与我国人均纯收入之间相关性显著。3.2.2回归分析Model Summa/Mode1RR SquareAdljusted R SquareStd. Error of the Estimat
32、eDurbin- Watson1.998.996.9914J18082.115a. Predictors: (Constant),xV x2, X3b. Dependent Variable: y解析:复相关系数为0.998,判定系数为0.996,调整系数为0.991,估计值的标 准误差为2.115。ANOVAModelSum of SquaresdfMeanFSiq,1RegressionRe&idual Total1267977250.87612730.6474373169.94316.9591186 923.oora. Predictors: (Constant), x4. xi, x2
33、.b Dependent Variable; y解析:F统计量的值对应的概率 P值为0.001,小于显著性水平0.05,所以拒绝 原假设,即:淘宝交易总额 y与淘宝网注册人数xi、我国网络普及度X2、我国 居民消费水平X3和我国居民人均收入X4之间存在线性关系。所以可认为所建立 的回归方程有效。CoefficientsMade)UnsLandyFdlQd Coflfflcjynlss5tan dardiz&d CoflfflciflntstrSJfl.95%, CorifldenM lilmrvul or BBSlfj. ErrorBetaLower BoundUpcir Bound1Coii
34、slanl41.392-1.530.2244563jd3.160.875.S243.&1I10363755.944x217.2135.934-.6062 901.06236 09&1辭2HI.079-.925-.524637-S22 939375 11Sv4123.2321.037376264 i&7MO 219a Deperdenty解析:由上图可知,因变量 y与常数项和自变量x1,x2,x3,x4的回归的标准 化回归系数分别为-41.892, 3.160,-17.213,-73.861和127.881。4个回归系数 B的显著性水平X1小于0.05,这里可以认为自变量 X1对因变量y有显著性
35、影 响。SPSS可以采用主成分分析方法把数据进行对比淘汰,最后选出对因变量影 响显著的变量。这里是研究的多元回归分析,所以并没有吧主成分分析方法采 用到里面。这也是 Excel里没有的一个分析方法,不能准确的知道解释变量对 被解释变量的影响。于是,回归方程为:y =-41.892 +3.160% -17.213X2 -73.861X3 +127.881x43.3Eviews多元回归3.3.13.2.1相关分析(1)对y与各个变量作出散点图淘宝注册人数Xi与y的相关性散点图:100 -80 -40 -20 -Y 60 -IIIIII51015202530X1网络普及度与淘宝网交易总额的相关性检验
36、:120 -100 -80 -40 -20 -12340丫 60 -X2我国居民消费水平与淘宝交易的相关性检验:YX30.81.21.62.02.42.8我国人均收入与淘宝交易的相关性检验:120100 -80 -40 -20 -X4丫 60 -0 40.81.21.62.02.42.8由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明 了数据之间存在完全正相关关系。所以我们还需要对数据进行进一步的分析, 得到确切的答案。Prob.Coefficient Std. Error t-Statistic-46.0212123.S1921-1 596S940208630665520
37、 95648432060630 0491-118 057296.326504-2.8542290.0649-6210S&7163.3445*0.3302200.7291120.7795U4.b25e0.8351130.4649R-squared0995334Mean dependent var35.80154Adjusted R-squared09902G0S D. dependent var42.64613S.E. of regression4 204499Aka ike info crilerion597935SSunil squared iresid53.03343Schwarz CTiteri on6 029009Log likelihood-1I3.91I743Hannan-Quinn enter5644482F-statistic