《多元第二次聚类分析.docx》由会员分享,可在线阅读,更多相关《多元第二次聚类分析.docx(12页珍藏版)》请在三一办公上搜索。
1、多元统计分析第二次实验报告 聚类分析I中雨大修撰MW Q0UTMyMrtuiiptr姓名:李凤梅学号1304110227指导老师:汪炎汝-专业班级:统计1101聚类分析-一各地区各行业年工资收入水平的分析、数据的搜集与输入本数据搜集了全国10个省市七个行业的年工资收入,具体数据 如下表所示:地区立业唳戒林溯业顾业M筑业伯息故忤业.1573052723157Q4G4JWI2427239即16s天津4129D6332S3271S61139351254&30?59943同北2B333S445113B343D6923B15208D145B5S4山西301952S9U1627&垣33221872222B
2、733物5内瞄2B41935656150273729125650232B0淀州E辽宁29769S30938113556B昭5叫24934651717舌林25995279S136S731791K9531S19314SB戏工25J95川归11338334 T924GB12163339024&上海飒674734娅&66T3B4820?61311OM31103140BS93&710190却转3273722763&5G84212131415描述统计分析 在SPSS中进行以下操作:“分析”-“描述统计”-“描述性 分析”,并在选项中勾选均值、标准差、最大值和最小值,结果 如下:Descriptive St
3、atisticsNMinimumMaximumMeanStd. Delation企业1025395620463601 5.501 3261.093机矣106448747343S052.0020953.489农林渔牧业1088414592520258.5011693.807采tr业1031791661384481 1.601 2206.201制造业102187248201301 80.1 08484.999建筑业10195196913131 826.401 6075.579信息软件业103145310543155834.6026351.301Valid N (listwise)10输出结果分析:
4、由结果可知,平均年工资最高的是信息软件业(55834.60),平均年工资最低的是农林渔牧业(20258.50);极大值最大的是信息软件业 (105431),极小值最小的是机关(6448)。三、聚类分析I、组间联接法在SPSS中进行以下操作:“分析”-“分类”-“系统聚类”,并且,在统计量中勾选“合并进程表”、“相似性矩阵”,在绘制中勾选“树 状图”,在方法中选择“聚类方法:组间联接”、“标准化:全距从0 到1”、“平方Ecclidean距离”,结果如下:近似矩阵表:Promlty MatrixSquared Euclidean Dislancel -rJja5归关占b:.,Lr;吉怕u a电,
5、K丑1 U:i i.r.DOO1.2352.13B2.3122.4951.9542.8432.7321.7172JJ54注1.235.DOO1.4641.+ 431.4751.6301.993I.S711.333.0293河北2.1881.464.00 D.03.034.112.161.0955.U 61.29 D-山西2.3121443.073.0D0.009.255.151.105.116385S西挈古24951475.069.000.158.050.即5.11725 E:EZT1.0541.63 口.112.255.158.ODO.165.1044.gD7J33E:7才冲2 B431 9
6、9S161.1 510501B5.000.024s.goe埒a戏工2 7321 B71035.1 4.002/1D4.024.0005.09735D17171 9335 0615.116弓1174.9D75.697.0003 6331 D:IS2.D64929299.385258.390.457.3509.693000This is a diEEimilarity聚类表:Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1ClustersClus
7、ter 1Cluster 2178.024002257.045014334.073004435.117325536.1594066310.3436097121.2350088191.5257099132.9878605|1453-心o叫 quJ3N树状图:同理可得其他方法的树状聚类图II、组内联接法11厂尝|*胡口 mndrogmITl us.ng s3gwunka%IV、最远邻元素法Dendrogram using Complete Linkage Rescaled Dictanco Cluster Combine: 0510152025I吉株1 黑龙il:8 苗莹归5 衙北3ili4 U+
8、6一工苏 10尢京1天津3 上海9V、质心聚类法V-中位数聚类法VII、 Ward 法uenarogram using ward LinkageRescaled Distance Cluster Combine0510152D25111言林1 WE:一hFiw SE河北g ih 也l 江苏 1 c北京无津:I.湖g四、聚类结果分析纵观七种不同的聚类方法,比较其聚类结果,可总结出如下表:第1类第2类第3类组间联接法北京、天津、上海辽宁、江苏其他组内联接法上海北京、天津其他最近邻元素法上海北京、天津其他最远邻元素法北京、天津、上海江苏其他质心聚类法北京、天津、上海辽宁、江苏其他中位数聚类法北京、天津、上海辽宁、江苏其他Ward 法北京、天津、上海江苏其他五、结论结论1:平均年工资最高的是信息软件业(55834.60); 平均年工资最低的是农林渔牧业(20258.50); 极大值最大的是信息软件业(105431); 极小值最小的是机关(6448)。结论2:通过比较其中聚类方法,比较合理的聚类方法是 将样本分为3类。第1类包括北京、天津、上海;第二类包括 辽宁、江苏;剩下的属于第3类。显然,第1类的年工资水平 最高,第2类的居中,第3类的最次。