基于主成分分析的各省人均全消费性支出.doc

资源描述

《基于主成分分析的各省人均全消费性支出.doc》由会员分享，可在线阅读，更多相关《基于主成分分析的各省人均全消费性支出.doc（14页珍藏版）》请在三一办公上搜索。

1、中北大学实验报告课程名：数据分析任课教师：专业：数学与应用数学学号： 1207014109 姓名： 2014/2015学年第2学期中北大学理学院各省人均全年消费性支出摘要改革开放以来，随着经济的高速发展，我国经济取得了举世瞩目的较快增长，中国居民人均消费水平也有所提高。但是全国各地的人均消费存在较大差异，各地的人均消费水平直接反映了该地区的经济发展水平。针对这个问题我们找到一组我国其中的31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的数据，并运用主成分分析法对这些数据进行了分析，以了解各地区的经济发展水平。关键词：人均消费，经济发展，主成分分析，因子分析1 引

2、言全国各地人均消费水平的统计至少应该有两方面的意义。其一，是真实反映各地老百姓的生活水平；其二，了解各地区的经济发展水平，为相关部门制定政策作参考价值。主成分分析是考察多个定量（数值）变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量（即原始变量线性组合）来解释多变量的方差协方差结构。具体地说，是导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间不相关。主成分分析常被用来寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地解释事物内在的规律。2 基于主成份分析的各地人均消费水平的情况主成分的数学模型一般为假设有n个样本，每个样本测得p项指

3、标（pn）。由于这p项指标之间往往具有相关关系，且每个样本各指标取值的单位和数量大小不同，使我们较难利用这p项指标的信息区别这n个样本。因此，如何从这p项指标中找出少数几个综合指标，使它们尽可能多地反应各项指标的信息，而且彼此之间不相关，这就成为一个重要的问题。怎么解决这个问题，主成分分析给出了最好的方法。（1）如果记原来的变量指标为，它们的综合指标新变量指标为，（mp)。则在（2)式中，系数lij由下列原则来决定：（1)与（ij；i，j=1，2，m)相互无关；（2)是的一切线性组合中方差最大者；是与不相关的的所有线性组合中方差最大者；是与都不相关的的所有线性组合中方差最大者。这样决定的新

4、变量指标分别称为原变量指标的第一，第二，第m主成分。其中，在总方差中占的比例最大，的方差依次递减。在实际问题的分析中，常挑选前几个最大的主成分，这样既减少了变量的数目，又抓住了主要矛盾，简化了变量之间的关系。从以上分析可以看出，找主成分就是确定原来变量xj（j=1，2，p)在诸主成分（i=1，2，m)上的载荷（i=1，2，m；j=1，2，p)，从数学上容易知道，它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息，有以下几点原则：（1）主成分的累积贡献率：一般来说，提取主成份的累计贡献率达到80%85%以上就比较满意了，可以此确定提

5、取多少个主成分。（2）特征根：特征根在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征根小于1，说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。（3）综合判断：大量的实践表明，如果根据累积贡献率确定主成分个数往往较多，而用特征根确定又往往偏低，许多时候应该将二者结合起来，以综合确定合适的数量。在实际操作中，主成分分析主要是按照如下的步骤来对实际问题进行分析的：第一步：对原p个指标np个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响，以使每个变量的均值为0，方差为1。变量标准化的公式为： (3)其中和

6、分别是第i个变量的平均值和标准差；第二步，根据标准化矩阵求出协方差矩阵；第三步，求出协方差矩阵的特征根第四步，确定主成分，结合专业知识给出各主成分所蕴含的信息，给予恰当的解释，并利用它们来判断样本的特性。主成分分析就是设法将原来众多的具有一定相关性的指标，重新组合成一组新相互无关的综合指标来代替原来指标（比如p个指标）。通常数学上的处理就是将原来p个指标做线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第一个线性自合即第一个综合指标为，自然希望尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？最经典的方法就是用的方差来表达，即

7、Var()越大，表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的，故称为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑即选第二个线性组合，为了有效的反映原来的信息，已有的信息就不需要再出现在中，用数学语言表达就是要求Cov（，）=0，称为第二主成分，以此类推可以造出第三、四p个主成分。不难想象这些主成分之间不仅不相关，而且它们的方差依次递减。因此在实际工作中，就挑选前几个最大的主成分虽然这样做会损失一部分信息，但是由于它们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息，因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法

8、有利于问题的分析和处理。一般来说，利用主成分分析得到的主成分与原始变量之间有如下基本关系：(1)每个主成分都是各原始变量的线性组合(2)主成分的数目大大少于原始变量的数目(3)主成分保留了原始变量绝大多数信息(4)各主成分之间互不相关通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份，从而有效的利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征及发展规律的一些深层次的启发，把研究工作引向深入。数据来源：中华人民共和国国家统计局(2001年) 图（1）原始数据 31个省、市和自治区城镇居民家庭平均每人全年消费性支出（单位：元）序号地区支出项目食品衣着家庭设备用品及服务

9、医疗保健交通和通信娱乐教育文化服务居住杂项商品和服务1北京3229.28821.72847.39677.66768.341429.15587.98561.192天津2588.1531.97806.36435.38585.94897.02808.05334.43河北1583.68530.02399.04420.15390.24498.06461.18197.394山西1412.95518.1316.99347.49317.83567.85391.06250.745内蒙古1423.22594.69292.42268.88390.18548.21403.69274.336辽宁1846.11592.0

10、1272.75378.31347.47575.06412.09230.627吉林1650.95547.04257.73325.37344.97528.61453.85228.78黑龙江1561531.98259.61353.48318.34534.22432.09201.649上海4021.77577.39642.08557.96875.351359.75732.44569.3710江苏2194.04525.88603.36297.46483.77691.5483.16298.5811浙江2888.28669.03926.68532.696891065.1724.46457.1512安徽199

11、8.95466.55327.36205.13333.39585.44407.13193.713福建2651.11506.94488.37283.24559.69598.95639.8328714江西1587.55353.44292.1149.98310.94488.24527.16185.1115山东1801.34700.29522.36327.49411.29777.79441.46270.3816河南1424.9484.16333.24298.74299.89427.88650.25190.117湖北1799.38582.66347.84241.87336.19698.89586.3321

12、1.6318湖南1943.55551.47460.15328.63474.69826.89662.4298.4519广东3089.63382.98556.14392.411075.32961.791126.74514.6120广西1968.02363.16480.73253.23457.24704.58740.06257.7221海南2022.19208.83282.49243.85349.44525.92460.06275.0622重庆2337.65589.28509.82334.05442.5850.15563.72246.5123四川2082.18489.78460.55300.2638

13、1.47674.8530.25256.8824贵州1748.83486.2361.88249.39371.68522.74333.73199.4525云南2105.66535.41306.73369.63467.6595.92508.82362.8426西藏2626.991001.52258.21220.06628.39494.99369.1395.1327陕西1589.44443.74529.68361.18366.3642.45457.73252.2228甘肃1639.17537.94367.32361.4320.88592.72322.94277.9429青海1790.27532.513

14、50.85374.4361.9594.03295.48399.1430宁夏1562.57572.03469.18409.96437.72542.39323.16278.3931新疆1716.8690.14440.37302.82406.72626.58474.61273.37依次设食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、娱乐教育文化服务、居住、杂项商品和服务为,。3 实验输出结果：表1 相关系数矩阵相关矩阵食品衣着家庭设备用品及服务医疗保健交通和通信娱乐教育文化服务居住杂项商品和服务相关食品1.000.259.655.566.887.831.605.849衣着.2591.000

15、.214.336.239.275-.199.355家庭设备用品及服务.655.2141.000.702.635.815.545.619医疗保健.566.336.7021.000.566.769.279.711交通和通信.887.239.635.5661.000.759.723.877娱乐教育文化服务.831.275.815.769.7591.000.564.805居住.605-.199.545.279.723.5641.000.466杂项商品和服务.849.355.619.711.877.805.4661.000从相关系数矩阵来看：交通和通信的支出与食品支出，以及与杂项商品和服务支出的相关程度

16、很高，相关系数分别是0.887、0.877，而衣着支出与其余的支出的相关程度较低。表2 KMO和Bartletts Test检验KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。.786Bartlett 的球形度检验近似卡方225.509df28Sig.000 KMO值用于检验因子分析是否适用的指标值，若它在0.51.0之间，表示适合；小于0.5，表示不适合。Bartlett的球体检验是通过转换为检验来完成对变量之间是否相互独立进行检验。若该统计量的取值较大，因子分析是适用的。这里KMO值为0.786，在0.51.0之间；Barlett的检验也是通

17、过的，因为渐进的值为225.509，即很大，相应的显著性概率（Sig）小于0.001为高度显著，因此数据适合使用因子分析方法。表3 总方差解释解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %15.19664.95164.9515.19664.95164.9513.24240.52240.52221.26415.80380.7541.26415.80380.7542.58832.35472.8763.6468.08088.834.6468.08088.8341.27715.95888.8344.3914.89093.724

18、5.2292.85796.5816.1441.79598.3757.0881.09999.4748.042.526100.000提取方法：主成份分析。从表3中可以直观的看到特征值的大小：，。图2 碎石图从碎石图中可以看出特征值的变化率，第一个到第二个变化非常迅速，第二个到第三个变化速度锐减，而其他的变化就更加缓慢。表4 公因子方差公因子方差初始提取食品1.000.895衣着1.000.897家庭设备用品及服务1.000.842医疗保健1.000.883交通和通信1.000.951娱乐教育文化服务1.000.901居住1.000.866杂项商品和服务1.000.872提取方法：主成份分析。

19、由表4可见，公因子方差的初始值均为1，而每个变量的共同度的定义为：且在R型因子模型中，若记，即刻画了全部公共因子对第个变量的方差的贡献，越大，说明诸个公因子提取的的信息越多，而其余的信息则由特殊因子部分提供。这里交通和通信、娱乐教育文化服务支出变量的共同度分别为0.951和0.901，都超过了0.9；食品、衣着、医疗保健支出的共同度分别为0.895、0.897和0.883，均接近于0.9；其余的杂项商品和服务、居住和家庭设备用品及服务支出的共同度也超过0.84。因此，由三个公共因子、和说明交通和通信、娱乐教育文化服务支出这两个变量的信息均超过了90%，而余下的变量的共同度均超过了0.84，说明

20、由三个公共因子提供的信息量还是较多的。表5 成份矩阵成份矩阵a成份123娱乐教育文化服务.934.031-.169交通和通信.914-.151.304食品.912-.070.244杂项商品和服务.909.123.173家庭设备用品及服务.828-.016-.394医疗保健.780.296-.433居住.660-.647.110衣着.320.845.285提取方法 :主成份。a. 已提取了 3 个成份。对表5给出的成份矩阵施行方差最大正交旋转，得到的旋转成份矩阵由表6给出。表6 旋转成份矩阵旋转成份矩阵a成份123交通和通信.905.340.128食品.839.399.177居住.790.2

21、22-.439杂项商品和服务.727.487.325医疗保健.228.882.230家庭设备用品及服务.401.825-.031娱乐教育文化服务.588.737.115衣着.086.163.929提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 5 次迭代后收敛。由旋转后的成份矩阵可知：第一公共因子上高成份的指标有交通和通信、食品、居住、杂项商品和服务，相应的成份值分别为0.905、0.839、0.790和0.727，这些支出均为居民基本生活所必须的方方面面，故将第一公共因子命名为基本生活因子。而第二公共因子上高成份的指标有医疗保健、家庭设备用品及服务、娱

22、乐教育文化服务，相应的成份值分别为0.882、0.825和0.737。这几项支出反映了人们在解决了温饱之后对生活的更高的需求方面，因此将第二公共因子命名为小康生活因子。从第三列可以看出第三公共因子上高成份的指标只有衣着相应的成份值0.929。这是居民在达到小康生活水平之后人们对于外在美的追求，因此将第三公共因子命名为外在美生活因子。表7 公共因子命名公共因子高成份指标及其值因子命名第一交通和通信0.905基本生活因子食品0.839居住0.79杂项商品和服务0.727第二医疗保健0.882小康生活因子家庭设备用品及服务0.825娱乐教育文化服务0.737第三衣着0.929外在美因子图3 旋转

23、空间中的成份图由三个公共因子的三维图也可以直观的看出，第一公共因子上高成份指标为基本生活因子，第二公共因子上高成份指标为小康生活因子，第三公共因子上高成份指标为外在美生活因子。表8 成份得分系数矩阵成份得分系数矩阵成份123食品.362-.174.123衣着.046-.154.786家庭设备用品及服务-.218.549-.219医疗保健-.349.635-.019交通和通信.438-.255.101娱乐教育文化服务-.022.314-.049居住.378-.142-.380杂项商品和服务.244-.065.219提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得

24、分。由Thomson回归法得到成份系数矩阵的估计为经过方差最大正交旋转之后成份矩阵的转置与相关系数逆之乘积，即根据表8可以得到：从数据编辑窗口可以直接得到的因子得分，事实上是将标准化转变之后的数据（ZX）代入上述三个因子得分（函数）得到每个样品的因子得分，如下表所示：表9 各个因子得分及其排名地区因子得分排名排名排名北京0.60662.9385611.645312天津0.5296771.394383-0.9478927河北-1.01218290.435827-0.2089620山西-0.98861280.02843140.0139414内蒙古-0.4124719-0.75328280.55

25、4486辽宁-0.6839925-0.16877160.490968吉林-0.5391722-0.5147220.1425213黑龙江-0.8655526-0.22106170.0079915上海2.2353621.2639640.494797江苏-0.01697140.221310-0.1679417浙江0.6233752.1795420.1692712安徽-0.2698117-0.8697129-0.2922921福建0.939634-0.6809826-0.3384323江西-0.1328615-1.2538630-1.2232228山东-0.52827210.3336380.79729

26、3河南-0.4657220-0.5071721-0.8538626湖北-0.0705613-0.6695125-0.0885119湖南0.2715390.0462213-0.323222广东3.512011-0.5985124-1.4165629广西0.486958-0.3109919-1.6200231海南-0.0635812-0.6994527-1.602830重庆0.02436110.26819-0.0127616四川-0.1679216-0.0278415-0.4563124贵州-0.6445523-0.5301423-0.0785718云南0.2405410-0.42773200.3

27、134710西藏1.419123-2.38912313.588781陕西-0.95904270.780595-0.7637925甘肃-1.03519300.24914110.3054411青海-0.6494240.12924120.657365宁夏-1.06443310.6085360.420389新疆-0.3182918-0.25461180.7931343 结论：因子得分的大小没有绝对的实际意义，而有相对大小意义，因此一般可以根据因子得分大小对样品进行排序。根据公共因子的含义及其得分的排序可以看出：第一公共因子得分排在最前列的是广东、上海，那里的城市居民已经解决了基本生活问题；第二公共因子得分排在最前列的是北京、浙江、天津，那里的城市居民在解决了基本生活的基础上，开始向小康生活迈进，更加注重医疗保健、家庭设备用品及服务和娱乐教育文化服务的项目支出；第三公共因子主要是反映衣着的支出，这个因子得分排在第一的是西藏，其次是北京、山东，排在第四的是新疆，前四名有两个少数民族省份，这似乎说明少数民族兄弟姐妹更加注重外在的美。参考文献：1范金成，梅长林. 数据分析.北京：科学出版社，2002. 141-154.2高祥宝，董寒青.数据分析与SPSS应用.北京：清华大学出版社，2007.6

展开阅读全文