《SPSS综合案例运用论文之探究中国大城市发展的生活水平及其差距.doc》由会员分享,可在线阅读,更多相关《SPSS综合案例运用论文之探究中国大城市发展的生活水平及其差距.doc(14页珍藏版)》请在三一办公上搜索。
1、SPSS综合案例运用论文 之探究中国大城市发展的生活水平及其差距09经51班目录l 案例说明与问题描述l 分析目的l 分析思路l 数据选取l 案例中使用的SPSS方法1. 描述性分析2. 因子分析3. 聚类分析l 数据文件的建立l SPSS操作步骤l 结果判读一案例说明与问题描述中国的发展在改哦改革开放以来的发展及其成绩是全世界有目共睹的。各个城市发展也越来越跟上时代和世界的步伐。因此,我们来探究一下中国大部分的省会城市和计划单列市的发展情况。城市生活水平取决于经济的发展,这是基础,还有居民的生产生活状况,因为一切以居民的幸福指数为准,一切视为了人民服务,教育情况,教育关系到一个城市未来。因此
2、,我们从“年底总人口”、“地区生产总值(当年价格)”、“固定资产投资总额”、“城乡居民储蓄年末余额”、“在岗职工平均工资”、“社会商品零售总额”、“货物进出口总额”、“普通高等学校在校学生数”、“医院、卫生院数”、“环境污染治理投资总额”这几个要素去分析探究中国城市的发展以及城市生活水平。二分析目的、分析思路与数据选取本案例的研究目的是分析“年底总人口”、“地区生产总值(当年价格)”、“固定资产投资总额”、“城乡居民储蓄年末余额”、“在岗职工平均工资”、“社会商品零售总额”、“货物进出口总额”、“普通高等学校在校学生数”、“医院、卫生院数”、“环境污染治理投资总额”各变量,从而探究中国部分省会
3、城市和计划单列市的城市生活水平及从中看出中国的大城市发展的大致水平及差异。分析思路如下:首先利用描述性分析对各变量数据进行基础性描述,以便对中国城市发展整体水平有一个直观的印象,然后利用因子分析提取对城市生活水平影响较为明显的因素,分如析城市生活水平的决定因素。最后利用聚类分析,可以分析中国城市之间的生活水平,了解中国城市发展的差距,分为几类城市。为更好地了解中国大城市的生活水平,本案例观测了“年底总人口”、“地区生产总值(当年价格)”、“固定资产投资总额”、“城乡居民储蓄年末余额”、“在岗职工平均工资”、“社会商品零售总额”、“货物进出口总额”、“普通高等学校在校学生数”、“医院、卫生院数”
4、、“环境污染治理投资总额”等数据,所有的数据均来自中国青年。该案例的原始数据如图。三 案例中使用的SPSS方法1描述性分析描述性分析主要是对数据进行基础性描述,主要用于描述变量的基本特征。SPSS的描述性分析过程可以生成相关的描述性统计量,如:均值、方差、标准差、全距、峰度和偏度等,同时描述性分析过程还将还原原始数据转换为Z分值并作为变量储存,通过这些描述性统计计量,我们可以对变量变化的综合特征进行全面的了解。2因子分析因子分析是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个独立的不可测量变量变化来表示其基本的数据结构,这几个假想变量能够反映原
5、来众多变量的主要信息。3聚类分析聚类分析是根据研究对象的特征按照一定标准对研究对象进行分类的一种分析方法,它使组内的数据对象具有最高的相似度,而组间具有较大的差异性。聚类分析可以在没有先验分类的情况下通过观察对数据进行分类,聚类分析在科学研究和实际的生产实践中都具有广泛的应用。四数据文件的建立首先在SPSS变量视图中建立变量“年底总人口”、“地区生产总值(当年价格)”、“固定资产投资总额”、“城乡居民储蓄年末余额”、“在岗职工平均工资”、“社会商品零售总额”、“货物进出口总额”、“普通高等学校在校学生数”、“医院、卫生院数”、“环境污染治理投资总额”等的观测值。在SPSS视图中,把相关数据输入
6、后得到如图。五SPSS操作步骤1. 描述分析操作步骤:Step 1 打开数据文件,进入SPSS Statistics数据编辑器窗口,然后在菜单栏中依次选择变量“年底总人口(万人)”、“地区生产总值(当年价格)(万元)”、“固定资产投资总额(万元)”、“城乡居民储蓄年末余额(万元)”、“在岗职工平均工资(元)”、“社会商品零售总额(万元)”、“货物进出口总额(万美元)”、“普通高等学校在校学生数(人)”、“医院、卫生院数(个)”、“环境污染治理投资总额(万元)”进入“变量”列表。Step 2 单击“选项”按钮进入“描述:选项”对话框,选中“最大值”、“最小值”、“平均数”、“标准差”、“均值”、
7、和“方差”,然后单击“继续”按钮,返回“描述性”对话框。Step 3 单击“确定”按钮,输出分析结果。2. 因子分析操作步骤Step 1 打开数据文件,进入SPSS Statistics数据编辑器窗口,在菜单栏中依次单击“分析”/“降维”/“因子分析”命令,将“年底总人口(万人)”、“地区生产总值(当年价格)(万元)”、“固定资产投资总额(万元)”、“城乡居民储蓄年末余额(万元)”、“在岗职工平均工资(元)”、“社会商品零售总额(万元)”、“货物进出口总额(万美元)”、“普通高等学校在校学生数(人)”、“医院、卫生院数(个)”、“环境污染治理投资总额(万元)”进入“变量”列表。Step 2 单
8、击“描述”按钮,勾选“原始分析结果”复选框和“KMO与Bartlett球形度检验”复选框,单击“继续”按钮,保存设置结果。Step 3 单击“抽取”按钮,勾选“碎石图”复选框,其他未系统默认选择,单击“继续”按钮,保存设置结果。Step 4单击“旋转”按钮,勾选“最大方差法”复选框,其他未系统默认选择,单击“继续”按钮,保存设置结果。Step 5 单击“得分”按钮,勾选“保存为变量”和“因子得分系数”复选框,单击“继续”按钮,保存设置结果。3. 聚类分析操作步骤Step 1在菜单栏中依次选择“分析”/“分类”/“系统聚类”命令,弹出“系统聚类”对话框。Step 2 从源变量列表中选择“年底总人
9、口(万人)”、“地区生产总值(当年价格)(万元)”、“固定资产投资总额(万元)”、“城乡居民储蓄年末余额(万元)”、“在岗职工平均工资(元)”、“社会商品零售总额(万元)”、“货物进出口总额(万美元)”、“普通高等学校在校学生数(人)”、“医院、卫生院数(个)”、“环境污染治理投资总额(万元)”然后单击选择按钮将它们选入“变量”列表中:从源变量列表中选择“城市名称”变量,然后单击选择按钮将其选入“个案标记依据”列表中。Step 3 在“分群”选项组内选择“个案”单选按钮。Step 4 单击“统计量”按钮,弹出“系统聚类分析:图”对话框,勾选“树状图”单选按钮。Step 5 单击“方法”按钮,弹
10、出“系统聚类分析:方法 ”对话框,“在聚类方法”下拉列表中选择 “Ward法”。Step 6 单击“确定”按钮,输出分层聚类分析的结果。六结果判读描述描述统计量N极小值极大值均值标准差偏度峰度统计量统计量统计量统计量标准误统计量 统计量标准误统计量标准误年底总人口(万人)18623235835.83162.816690.7722.599.5368.8981.038地区生产总值(当年价格)(万元)18121910012188850040808757.007095789.8703.010E71.464.5362.1301.038固定资产投资总额(万元)18876200445860981827150
11、5.612589057.0621.098E71.089.5361.2711.038城乡居民储蓄年末余额(万元)189047009326450029169412.446157783.0472.613E71.764.5362.4161.038在岗职工平均工资(元)18221044931132378.722105.6018933.310.688.536-.8321.038社会商品零售总额(万元)185580003847791814798548.782411632.8271.023E71.338.5361.6371.038货物进出口总额(万美元)1821908287533456365121.00217
12、2174.2349215754.7861.888.5362.4271.038普通高等学校在校学生数(人)1812163778368394892.5655737.487236474.128-.097.536-1.2211.038医院、卫生院数(个)18531447442.2284.908360.2341.756.5363.0731.038环境污染治理投资总额(万元)158853661231630888.60240540.532931609.4742.790.5808.7061.121有效的 N (列表状态)15由图可以看出,例如,我国城市中“地区生产总值(当年价格)”的均值为40808757.0
13、0万元,则我国大城市的经济发展不错,但是最大值和最小值之间差距较大,说明我国大城市的经济发展由于各种原因导致发展的不平衡。各个变量的最大值和最小值之间的差距都很大,说明城市间各方面及总体的发展和生活水平很不平衡,存在很大差距。由此,我们可以进一步分析:因子分析KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。.608Bartlett 的球形度检验近似卡方189.037df45Sig.000上图是KMO与Bartlett的检验结果,其中KMO值越接近于1表示越适合做因子分析,改图中KMO的值为0.6080.5,表示比较适合做因子分析。Bartlett球
14、形度检验的原假设为相关系数矩阵为单位阵,Sig值为0.000小于显著水平0.05,因此拒绝原假设表示变量之间存在相关关系,适合做因子分析。公因子方差初始提取年底总人口(万人)1.000.938地区生产总值(当年价格)(万元)1.000.971固定资产投资总额(万元)1.000.916城乡居民储蓄年末余额(万元)1.000.955在岗职工平均工资(元)1.000.693社会商品零售总额(万元)1.000.954货物进出口总额(万美元)1.000.824普通高等学校在校学生数(人)1.000.626医院、卫生院数(个)1.000.770环境污染治理投资总额(万元)1.000.600提取方法:主成份
15、分析。上图给出了每个变量共同度的结果。该表左侧表示每个变量可以被所有因素所能解释的方差,右侧表示变量的共同度。从该图中可以得到,0.938、0.971、0.916、0.955、0.693、0.954、0.824、0.626、0.770、0.600,因子分析的变量共同度都较高,表明变量中的大部分信息均能够被因子所提取。说明因子分析的结果是有效的。解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %15.74657.46457.4645.74657.46457.4645.09850.98550.98522.20222.01579.
16、4792.20222.01579.4792.84928.49579.4793.9559.55489.0334.4664.65993.6925.4184.18297.8746.1021.01898.8927.073.73099.6228.032.31799.9399.004.04199.98110.002.019100.000提取方法:主成份分析。上图给出了因子贡献率的结果。该表中左侧部分为初始特征值,中间位提取主因子结果,右侧为旋转后的主因子结果。“合计”指因子的特征值,“方差的 % ”表示该因子的特征值占总特征值的百分比,“累积 % ”表示累计的百分比,其中只有前两个因子的特征值大于1,并且
17、前两个因子的特征值之和占总特征值的79.479%,因此,提取前两个因子作为主因子。成份矩阵a成份12年底总人口(万人).462.851地区生产总值(当年价格)(万元).970-.175固定资产投资总额(万元).923.254城乡居民储蓄年末余额(万元).974-.078在岗职工平均工资(元).613-.563社会商品零售总额(万元).976-.036货物进出口总额(万美元).756-.503普通高等学校在校学生数(人).422.385医院、卫生院数(个).347.806环境污染治理投资总额(万元).770-.083提取方法 :主成分分析法。a. 已提取了 2 个成份。上图给出了未旋转的因子载荷
18、。从该表可以得到利用主成分方法提取的两个主因子的载荷值。为了方便解释因子含义,需要进行因子旋转。旋转成份矩阵a成份12年底总人口(万人).054.967地区生产总值(当年价格)(万元).952.257固定资产投资总额(万元).726.624城乡居民储蓄年末余额(万元).914.346在岗职工平均工资(元).795-.247社会商品零售总额(万元).898.385货物进出口总额(万美元).898-.132普通高等学校在校学生数(人).217.528医院、卫生院数(个)-.031.877环境污染治理投资总额(万元).732.254提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正
19、交旋转法。a. 旋转在 3 次迭代后收敛。上图给出了旋转后的因子载荷值,其中旋转方法采用的是Kaiser标准化的正交旋转法。通过因子解释,各个因子有了比较明确的含义。通过数据可以看出,第一类主因子有地区生产总值、城乡居民储蓄年末余额、社会商品零售总额、货物进出口总额、环境污染治理投资总额。第二类主因子有年末总人口、医院和卫生院数。上图给出了特征值的碎石图,通常该图显示大因子的陡峭斜率和剩余因子平缓的尾部,之间有明显的中断。一般选取主因子在非常陡峭的斜率上,而处于平缓斜率上的因子对变异的解释非常小,从该图可以看出前两个因子都处于非常陡峭的斜率上,从而第三个因子开始斜率变平缓,因此选择前两个因子作
20、为主因子。成份转换矩阵成份121.904.4282-.428.904提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 成份得分系数矩阵成份12年底总人口(万人)-.093.384地区生产总值(当年价格)(万元).187.000固定资产投资总额(万元).096.173城乡居民储蓄年末余额(万元).168.041在岗职工平均工资(元).206-.186社会商品零售总额(万元).161.058货物进出口总额(万美元).217-.150普通高等学校在校学生数(人)-.008.189医院、卫生院数(个)-.102.357环境污染治理投资总额(万元).137.023提取方法
21、:主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。上图给出来成分得分系数矩阵。成份得分协方差矩阵成份1211.000.0002.0001.000提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。 通过因子分析可以看出,每个因子只有少数几个指标的因子载荷较大,因此可根据上表分类,将这些指标分为两大类:地区生产总值、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均工资、社会商品零售总额、货物进出口总额、环境污染治理投资总额命名为基本经济指标,、普通高等学校在校学生数、医院、卫生院数是第二类民生指标。聚类案例处理汇总a,b案例
22、有效缺失总计N百分比N百分比N百分比1583.3316.718100.0a. 平方 Euclidean 距离 已使用 b. Ward 联结Ward 联结聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21596.744E1200328171.620E130053253.501E13015410185.863E130075289.882E13328612161.408E14007710123.046E1446982156.987E145012910141.146E15701210131.608E15001311672.092E150013122104.029E1589141
23、3168.378E1510111414123.145E1613120分层聚类分析的冰柱图给出了各类之间的距离,从最后一行向前我们可以依次看出不同的聚类数量下的分类方式。树状图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 南京 5 -+ 武汉 9 -+ 大连 2 -+ 青岛 8 -+-+ 宁波 17 -+ | 重庆 15 -+ +-+ 昆明 10 -+ | | 厦门 18 -+ | | 哈尔滨 12 -+-+ | 西安 16 -+ | 拉萨 14 -+ | 北京 1 -+-+ | 上海 3 -+ +-+ 广州 6 -+-+ 深圳 7 -+结合聚类分析树形图,建议分为三类城市:上海、广州、北京、深圳为一类,较为发达。拉萨为一类,其余城市为第三类。因此可以通过SPSS操作分析看出中国城市生活水平及根据生活水平可以分为三类,这些还包括了地区等其他影响因素。