聚类分析方法在我国空气污染区域划分中的应用.doc

资源描述

《聚类分析方法在我国空气污染区域划分中的应用.doc》由会员分享，可在线阅读，更多相关《聚类分析方法在我国空气污染区域划分中的应用.doc（31页珍藏版）》请在三一办公上搜索。

1、聚类分析方法在我国空气污染区域划分中的应用安徽大学 xxx、xx、xx摘要随着我国工业化进一步的发展，人们的生活也进一步的提高。伴随着经济的发展，环境也受到了一定的影响，国家也相应的提出了人与自然和谐相处的可持续发展战略。本文基于国家的政策，考虑工业化过程中城市空气的污染情况，提出相应的合理建议，从而使工业化过程中我们的环境也能受到更好的保护！聚类分析是目前最有前景的数据分析方法之一，它不仅能作为一个独立的工具来获得数据分布的情况，观察每一个簇的特点，还能集中地对某些特定的簇作进一步的分析。对空气污染区域划分的聚类分析，不仅能合理的分析我国各地区空气污染的情况，还可以对我们工业化发展的伟大蓝

2、图提出我们瀚渺的建议，维护我们广大城市居民的切身利益！本文首先对几种聚类方法进行了介绍和比较，然后在对我国空气污染现状分析中，运用了系统聚类分析方法。首先，我们采用了组内连接聚类分析方法对我国的空气污染区域按照污染程度的不同进行了划分；其次，我们又采用了中位数聚类分析法对我国的空气污染区域按照不同地区的废气处理情况进行了划分；最后我们又采用了质心聚类分析法对各污染区域按年度的不同进行划分。我们用所选的三种数据进行聚类，产生的七个类是在整体上是一致的。这就表明，空气污染程度与废气处理的力度是成正相关的。为了说明系统聚类分析方法在我国空气污染区域划分中的合理性，我们又采用了k-means方法进行聚

3、类，所得的聚类结果与运用系统聚类法的结果相似。从而进一步说明分类的合理性。根据聚类结果，我们提出了一些相关的防治空气污染的建议。相关部门应该按照污染地区的分类有针对性的制定相关策略，因地制宜，对污染程度相近的地区采用合理的方式进行治理。关键词：聚类方法；系统聚类法；中位数聚类分析；组内连接聚类分析；质心聚类分析The Application of Cluster Method in Air Pollution Regional Division of Our CountryAbstractWith the further development of the industry in our c

4、ountry, people have undergone general improvement. However, the environment is accordingly suffering some attack from the progress of economy. The government has launched the strategy of sustainable development in order to build harmonious relationship between human and nature. Based on the policy o

5、f our government, taking the pollution in urban area into consideration, our article gives some corresponding advices to protect our environment in the industrialization.Cluster method is one of the most promising methods in data analysis. Not only can it act as an independent tool to obtain the inf

6、ormation of data distribution and observation of the characteristics of each cluster, but also do further analysis for some particular clusters. Using the cluster method in the analysis of division for polluted urban area, we can do reasonable analysis and get acquaintance of condition of air pollut

7、ion in different places. Our trivial recommendations will be come up for the blue sky of our industry development and safeguarding the vital interests of the city dwellers.At the beginning of this paper, more than one kind of cluster method will be introduced and compared in this paper. Furthermore,

8、 systematic cluster methods will be applied in the division of the current air pollution circumstances. Firstly, we use team linked cluster method to divide regions according to the pollution degree. Secondly, we use median cluster method in accordance with the pollutant disposal of different areas.

9、 Lastly, we use centroid cluster method by judging the annual condition of air pollution. We cluster these three kinds of data, finding that seven categories we produce are accordant on the whole, which suggests that pollution degree is positively related to the strength we depose.To illustrate the

10、rationality of systematic cluster method applied in air pollution regional division, we utilize k-means to cluster. To our happiness, the result we obtain is quite similar to that of systematic cluster method, which shows the rationality.According to the clustering results, we put forward some relev

11、ant suggestions for the prevention and control of air pollution. Relevant departments should formulate relevant strategies based on the classification of pollution areas, and take suitable measures for local conditions. Also we should depose the pollution in similar levels in a reasonable way.Keywor

12、ds: : cluster system clustering method; median cluster analysis; connection cluster analysis within the group; a centroid cluster analysis一.研究背景我国经济的快速增长，工业化、城市化的发展使得GDP年增长率达到89。改革开放以来，我国的城市化进程加快，城市人口比例从1978年的18增加到2000年的34，这一时期的增长速度是世界平均增长速度的3倍。20世纪末，经济的剧增使得我国成为世界上第二大能源消费国，能源的消耗已成为我国空气污染的主要来源。我国的总能源

13、消耗已经从1978年的571万吨标准煤增加到2002年的15亿吨标准煤，其中作为主要能源的燃煤占总能源消耗的60 以上。燃煤是空气污染物产生的重要原因。此外，随着汽车消费量的快速增加，燃油消耗年平均增长达6，使得空气的污染物浓度不断上升。我国的空气污染状况不容乐观。（一）导致空气污染的原因造成我国空气污染的原因是非常多的，但纵观所有的污染成因，以下原因应该是最具有普遍性的。城市人口爆炸性增长。城市强大的经济活力，丰富的物质文化条件和就业机会，对农村人口有具大的吸引力，进入20世纪以来，人口城市化加速发展，城市人口急剧增长。我国城市化虽然起步较晚，但城市人口增加速度却十分惊人，例如1980年我国

14、城市人口有 1.3亿，占全国总人数的13.6；1990年增加到近3亿，占全国总人口的 26.2。城市个数由1983年的289个，到1993年增到570个，几乎增加了一倍，而城市人口大于100万的大型城市就有42个之多。我国大城市人口密度平均每平方公里 1万人以上，是郊区人口平均密度的2296倍。城市中人口数量巨大的工矿企业，单位面积上具有高投资、高能耗的特点。由于城市处于高密度、超负荷运转状态，因此城市空气、水、土地及一切基础工程设施都承受着超载的负担，引起了一系列环境问题。城市空气污染、缺电、缺水，城市环境脏、乱、差。不同地区能源消耗类型又决定了不同地区污染的差异。空气污染可以按照能源消耗的

15、不同分为煤烟型、石油型、扬尘型和复合型等。煤烟型污染的特征是空气污染物中总悬浮颗粒物和二氧化硫所占的比例较大；石油型污染主要是来自石油燃烧、石油化工和汽车尾气产生的二次污染，发达国家多属此类污染，污染严重时可形成光化学烟雾，并在5-9月浓度较高，我国甘肃省兰州市就是属于这种类型；扬尘型污染是以二次扬尘、建筑垃圾扬尘、机动车污染以及沙尘天气所造成的总悬浮颗粒物污染为主的非燃煤粉尘污染；以石油型污染、二次扬尘、建筑扬尘及机动车排放污染为代表的污染称为复合型污染，此类污染是以煤烟型污染为主导的，主要形成于煤烟型污染向石油型污染转化的工业发达城市，有煤烟型污染与石油型污染的共同特征。气象条件对空气污染

16、产生的影响。空气污染主要取决于两方面：一是与污染源排入空气中污染物的多少有关；二是取决于各地区上空边界层大气对污染物的稀释扩散能力大气环境容量。就某一有限时段而言，地区各污染源的排放总量可能没有多大变化，但污染浓度的日际变化或月际变化很明显，主要是由天气过程和天气系统影响各地区大气边界层对污染物的稀释扩散能力所致。（二）空气污染情况值得关注图1.2.1 2001-2009全国二氧化硫排放量折线图上图是2001年至2009年全国二氧化硫排放量的折线图（所用数据见附录A中的表3）。由图可以看出，自2006年开始，我国二氧化硫排放量有明显的下降趋势，但是直至2009年，二氧化硫排放量仍处于较高水平。

17、这就表明，近年来我国空气中的二氧化硫治理水平有所提高，但是仍需要继续加大整治力度，使二氧化硫排放量继续减少。虽然二氧化硫的排放量并不能完全反应我国的空气污染状况，但是也能在很大程度上反映出空气质量的变化。目前，我国正处在经济高速发展阶段，工业、农业、交通运输业等发展迅速，人们向往已久的“小康生活”逐渐成为现实，但是伴随而来的是人们的生存环境受到污染。我国的空气污染情况仍旧值得关注，我们每一个人都有职责来改善空气质量，营造一个健康舒适的生活环境。（三）空气污染的不利影响毫无疑问，大气环境的不断恶化，其后果之一是使人们自身的健康受到严重威胁，造成某些疾病发病率和死亡率的不断上升。据联合国环境规划署

18、统计，全世界每年约有120万人成为新的皮肤癌患者，呼吸系统和心血管疾病患者也呈增加趋势。诚然，这些不能全部归咎于空气污染，但有理由认为，这与当前的大气环境恶化密切相关。这就提醒我们，在尽情享受大自然恩惠和现代化成果的同时，也该认真、冷静地思考一下由于人类自身行为而导致大气环境不断恶化、自身健康受到损害的严峻现实。空气污染也会对农业造成危害。空气污染对农作物的危害分三种类型：一是急性危害，在污染物高浓度时，短时间内对农作物造成危害，使之叶面枯萎脱落，直至死亡，造成农作物减产；二是慢性危害，在污染物低浓度时，因长时间作用所造成的危害，使农作物叶绿素褪色，影响生长发育；三是不可见危害，指污染物质对农

19、作物造成生理上的障碍，抑制生育发展，造成产量下降。空气污染物对天气和气候的影响是十分显著的，可以从以下几个方面加以说明： 1空气污染使得到达地面的太阳辐射量减少。从工厂、发电站、汽车、家庭取暖设备等向大气中排放的大量烟尘微粒，使空气变得非常浑浊，遮挡了阳光，减少了到达地面的太阳辐射量。据观测统计，在大工业城市烟雾不散的日子里，到达地面的太阳辐射量比没有烟雾的日子减少近40。在空气污染严重的城市，天天如此，就会导致人和动植物因缺乏阳光而生长发育受到阻碍。 2空气污染增加了大气降水量。在大工业城市的空气中有很多微粒，其中有很多具有水气凝结核的作用。因此，如果再有其他一些降水条件与之配合，就会出现

20、降水天气，尤其在大工业城市的下风地区，降水量更多。 3空气污染会导致下酸雨。有时候，在空气污染地区所下的雨水中含有硫酸。这种酸雨是空气中的污染物二氧化硫经过氧化形成硫酸，随自然界的降水下落形成的。酸雨的危害很大，它能使大片森林和农作物毁坏，能使纸品、纺织品、皮革制品等腐蚀破碎，能使金属的防锈涂料变质而降低保护作用，还会腐蚀、污染建筑物。 4空气污染能增高大气温度。大气中的二氧化碳可以使大量的太阳辐射能通过大气层辐射到地球表面，吸收从地球表面辐射出的红外线。二氧化碳在吸收热量后，再将吸收的辐射能逆辐射到地球表面，形成多次辐射，使近地层大气增温。大气中的二氧化碳好像是一个屏蔽，就像农业所建的温室一

21、样，所以把大气中的二氧化碳所产生的效应叫做温室效应。由于温室效应，有人估算如果大气中二氧化碳浓度为420ppm时，地球上所有的冰雪将融化，反之，若二氧化碳浓度减小为150ppm时，温室效应减弱了，地球就可能完全被冰雪所覆盖。除此之外，空气污染还会带来很多其他不利影响。在这些问题更加严重之前，我们应该尽全力做好空气污染的防治工作。（四）已有研究目前有很多学者在我国空气污染的起因、现状、影响等方面有所研究，然而研究的目的不外乎是想提出更为有效、合理的空气污染防治策略。有的学者提出了一种研究空气污染预报与控制的工具，即区域空气质量模式，它是通过建立数学模型描述大气污染物的物理化学性质，考虑大气污染

22、物排放的时空规律，进而再现污染物在大气中输送、演变、清除等过程。该模式的开发涉及大气动力学、大气物理学、大气化学、生态学、大气探测与遥感、污染控制论、数学、计算机和网络技术等诸多学科领域，是一项多学科交叉、复杂性和综合性很强的系统工程。纵使有不少方法已经应用于空气污染领域，仍然有不少学者都忽略了聚类方法的巨大作用。毋庸置疑，聚类方法在对我国空气污染现状进行分析的过程中起到了关键的作用。基于上述背景，本文在对我国空气污染区域的划分过程中，采用了聚类方法，科学、合理的将污染程度相似的地区归为一类，为了解我国空气污染现状提供可靠的信息。二.聚类分析的相关方法聚类是一种应用非常广泛的数据分析方法，它是

23、统计学的一个分支，目前在诸多领域，包括数据挖掘、图像处理、市场研究等，都能凸显出其重要性。聚类是将一个对象的集合分成不同的类，从而描述数据。通过这种方式，人们能够将密集的和稀疏的区域区分开来，从而发现全局的分布模式，以及数据属性之间有趣的相互关系。很久以前人们就对聚类方法有所研究。传统的聚类方法主要是基于距离的聚类，例如欧氏距离、切比雪夫距离、马氏距离1等。在今天，聚类分析也是数据挖掘和知识发现领域中的重要课题。迄今为止，人们已经提出了许多数据聚类的算法，试图解决各种领域的聚类问题。从目前来看，对数据挖掘中聚类方法的研究大都集中于计算机科学领域，更多注重聚类算法的研究，或者对现有聚类方法进行算

24、法上的改进，而很少真正从统计学角度出发对数据挖掘中的聚类问题进行深入分析。若尝试从统计学视角出发，以统计理论为基础，以统计方法与算法相结合为基本思路，将一些现有的优秀统计方法，如因子分析、对应分析等引入数据挖掘领域，则能够使其应用于海量数据的聚类分析。（一）聚类分析的基本概念聚类是指将一群物理的或抽象的对象，根据它们之间的相似程度，分为若干组，并使得同一个组内的数据对象具有较高的相似度，而不同组中的数据对象则是不相似的。一个聚类就是由彼此相似的一组对象所构成的集合。在很多应用中，我们可以把同一个类的数据对象当做一个整体来处理。聚类的严格数学描述如下：假设被研究的样本集为，类定义为的一个非空子集

25、，即：，且聚类就是满足以下两个条件的类，的集合：(1) (2) = (对任意)由第一个条件可知，样本集中的每个样本必定属于某一个类；由第二个条件可知，样本集中的每个样本最多只属于一个类。（二）几种主要的聚类方法如今各种各样的聚类方法层出不穷，我们在选用聚类方法时也会依据不同的标准，例如数据的类型、数据的大小等等。目前主要的聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法等。2.2.1 划分的方法划分的方法是指将一个给定个数据对象的数据集合，构建数据的个划分，每个划分表示一个聚类，这个分组必须满足：每个组至少包含一个对象；每个对象必须属于且只属于一个组。给定要构建的划分的数目，

26、划分方法首先创建一个初始划分，然后采用一种迭代的重定位技术，通过对象在划分间的移动来改进划分3。好的划分的一般准则是：同一分组中的距离越近越好，而不同分组中的距离越远越好，即使得下列的准则函数最小：上式中是类的均值，是数据空间中的数据对象。属于该类的聚类方法有k-均值(k-means)算法、k-中心点(k-medoids)算法、PAM、CLARA、CLARANS等。2.2.2 层次方法将给定的数据对象集合进行层次的分解，这就是层次聚类法。我们可根据层次分解的形成方式不同，把层次方法分为凝聚的和分裂的。凝聚的方法首先把每个对象作为单独的一个组，然后相继地合并相近的对象或组，直到所有的组合并为一

27、个(层次的最上层)，或者达到一个终止条件；分裂的方法首先把所有的对象置于一个聚类中，在每步迭代里，一个簇被分裂成更小的簇，直到最后每个对象在单独的一个簇中，或者达到一个终止条件4。层次方法的缺陷在于，执行合并或分裂的操作不能被撤销。这个严格规定是有用的，由于不用担心组合数目的不同选择，故计算代价会较小。不过，该技术的一个主要问题是它不能改正错误的决定。我们可以通过两种方法来改进层次聚类的结果：一是在每层划分中，仔细分析对象之间的“联接”；二是把层次凝聚和迭代的重定位方法综合起来，先用自底向上的层次算法，再用迭代的重定位来改进结果。层次方法包括BIRCH、CURE、ROCK、Chameleon算

28、法等。2.2.3 密度方法绝大多数划分方法是基于对象之间的距离进行聚类的。这样的方法只能发现球状的簇，却在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法，它的主要思想是：只要邻近区域的密度(对象或数据点的数目)超过某个阈值，就继续聚类。主要的基于密度的方法有：DBSCAN算法、OPTICS算法、DENCLUE算法等。2.2.4 网格方法基于网格的方法首先将数据空间量化为有限数目的单元，形成了一个网格结构，全部的聚类操作都在这个网格结构上进行。这种方法的主要优点在于它的处理速度很快，且处理时间与数据对象的数目相独立，只取决于量化空间中每一维的单元数目。有代表性的网格方法是STING算

29、法，除此之外，CLIQUE算法和Wavecluster算法既是基于网格的，又是基于密度的。（三）聚类方法的进一步分析和总结以上我们将现有的主要聚类方法大致分为划分的方法、层次的方法、基于密度的方法、基于网格的方法四大类。下面我们将从聚类标准、类的标识这两个角度对众多聚类方法进行更为全面和深入的分析与对比，以加深对聚类方法的认识。2.3.1 聚类标准聚类分析的最主要的任务是建立数据对象之间以及类与类之间相似性的度量标准。最常用的相似性标准包括：以距离为标准、以密度为标准和以链接为标准。1以距离为标准距离是一种最为简单、直观的聚类标准。常见的数据对象之间距离的度量指标包括欧式距离、切比雪夫距离距离

30、等。以距离为标准的聚类方法只能建立在欧式空间上。类间距离的度量广泛使用如下四种方法：代表点距离：平均距离：最小距离：最大距离：上式中，用表示类间距离，用表示数据点之间距离，和分别是类和的代表点(或称“重心”)。单一代表点的聚类方法(如k-means法和k-medoids法)通常使用代表点距离来度量类间距离。平均距离、最小距离、最大距离的计算时间复杂度均为，因此，直接使用这三种方式来度量类间距离时算法效率一般较低，唯一的例外是BIRCH方法，该方法借助聚类特征树来提高算法速度5。用距离作为聚类标准比较直观且易于计算，但是对异常点通常比较敏感。所以，它们经常会通过引入某项技术来克服异常点的影响。

31、例如，k-medoids利用中心点而不利用均值作为类的代表点，从而降低了异常点的影响；CURE通过调节“收缩因子”，对多个代表点进行收缩处理来减少对孤立点的敏感度6；BIRCH通过控制子类的直径来控制孤立点的影响。2以密度为标准以密度为标准的聚类方法也只能建立在欧式空间上。相对于以距离为标准，以密度为聚类标准的最大优点就是可以发现任意形状的类，并且能够有效地消除噪声。以密度为标准的聚类方法中，数据点之间相似程度的判断标准是它们是否属于同一个连续的密集区域，同属于一个连续密集区域的数据点被归为一类。根据密度计算方式的不同，以密度为聚类标准的方法又可以进一步划分为三类：基于网格的方法、最近邻方法和

32、基于密度函数的方法。基于网格的方法通过网格内数据对象的数量来计算类的密度。通过这种方法得到的密度仅仅是真实密度的近似，从而会降低聚类的精确度。STING、Wavecluster和CLIQUE方法属于这一类。最近邻方法把一定半径内最近邻的数据对象的个数是否超过临界值作为判断密度是否足够高的标准。DBSCAN和OPTICS都属于这一类。基于密度函数的方法利用密度函数的大小来表示类的密度，并且通过寻找密度函数的局部最大值精确地确定类。这类方法包括DENCLUE等。3以链接为标准以链接为标准的聚类方法的目标是把具有更多链接的数据点聚为一类，即其相似性度量采用的是链接的数目7。这类方法一般都把模型建立在

33、一个稀疏图上，然后依据图中的信息进行聚类。此类方法的代表是ROCK和Chameleon。以链接为标准的聚类方法可以建立在任意空间之上。除此之外，由于在高维空间中距离和密度的度量常常失效，此时，以链接为标准的方法就是一个较优的选择。2.3.2 类的标识聚类分析的目的是要把原始数据划分成不同的类，每一类代表了相似的数据点的集合，因此，任何聚类方法都需要用某种方式对不同的类别作出标识。我们把聚类方法中对类别进行标识的方式分为如下三类：1以代表性的数据点进行标识大多数以距离为标准的聚类方法都使用代表性的数据点对类别进行标识。这些代表性的点既可以是原始数据中存在的点，也可以是原始数据中不存在的点，如类的

34、均值。最简单的方法是利用单一代表点来标识类别。原始数据库中每一个数据点被划分到离它最近的单一代表点。例如，k-means方法利用类均值作为代表点；k-medoids方法利用原始数据库中距离类中心最近的点作为代表点；另外，BIRCH、CLARA、CLARANS等方法也是利用单一代表点对类别进行标识。单一代表点方法的最大缺陷是只能识别凸状或球状的类。多代表点方法(如CURE、ROCK、Chameleon等)的出现在一定程度上克服了这一困难。这种方法首先选择距离类中心最近的点作为代表点，然后选出离类中心较远且彼此相距也较远的点作为代表点。多个代表点可以描绘出类的形状特征，从而使得聚类方法能够识别任意

35、形状的类。2以密集区域进行标识DBSCAN、OPTICS等基于密度的聚类方法利用相互分隔的密集区域来标识类或者子类。每个密集区域中都包含一个核心对象。核心对象是指一定半径内最近邻的个数超过指定临界值的数据点8。一个核心对象可以扩张出一个子类，因此聚类的过程就等价于核心对象的搜索过程。由于核心对象的搜索将耗费大量计算资源，所以这类聚类方法常借助特殊的索引结构来加快搜索速度。3以网格单元进行标识基于网格的聚类方法利用网格单元的特征来描述类别特征。如果说密集区域是数据点的凝聚，网格单元则是数据空间的划分。一个网格单元就近似地代表了落入其中的数据点，因此，网格单元在局部范围内近似地反映了数据点的分布状

36、况。由于网格是独立于数据的，且网格单元的数量远远少于数据对象的数量，所以，网格单元特征的汇总远比密集区域的搜索效率高，因此这类方法往往运算速度很快。但由于网格单元毕竟只是数据对象的近似代表，因此其精确度常常不能令人满意。（四）主要聚类方法的比较根据上面对聚类方法的分析与比较，我们对几种典型方法在算法效率、适合的数据类型、发现的聚类形状、消除噪声的能力、处理高维数据的能力、聚类标准、类的标识几方面进行比较。比较的结果如下表所示：表2.4.1 主要聚类方法的比较类型聚类方法算法效率适合的数据类型能够发现的数据形状消除噪声的能力处理高维数据的能力聚类标准类的标识划分的方法k-means数值型凸状、

37、球状弱较低距离代表点K-prototype任意凸状、球状弱较低距离代表点PAM数值型凸状、球状较强较低距离代表点CLARA数值型凸状、球状较强较低距离代表点CLARANS数值型凸状、球状较强一般距离代表点层次的方法BIRCH数值型凸状、球状较强较低距离代表点CURE数值型任意较强一般距离代表点ROCK符号型任意一般较高链接代表点Chameleon数值型任意一般较高链接代表点基于密度的方法DBSCAN数值型任意较强一般密度密度区域OPTICS数值型任意较强一般密度密度区域DENCLUE比DBSCAN快数值型任意强高密度密度区域基于网络的方法STING数值型任意强较低密度网格Wavecl

38、uster数值型任意强较高密度网格CLIQUE较快数值型凸状、球状一般高密度网格注：表中为数据对象的数目，为分类数目，为迭代次数，为抽样规模。三、聚类方法在我国空气污染区域划分中的应用（一）数据的选择本文中所用到的数据来自2010中国统计年鉴中2009年各地区废气排放及处理情况，以及各地区二氧化硫排放量，所用的数据见附录A。（二）聚类方法的选择本文对所选择的数据采用不同的系统聚类法，以距离为聚类的标准。数据处理的时候采用了不同的距离，以及不同的聚类方法，从各个不同的角度对各地的空气污染情况进行了分析！能较准确的反应全国各地的空气质量。（三）聚类分析3.3.1 按各地区的空气污染严重程度不同对

39、污染区域进行划分运用SPSS软件并采用组内连接聚类方法，对各污染区域按空气污染严重程度的不同进行划分，可得如下聚类分析：图3.3.1空气污染严重程度不同对污染区域进行划分参数设置所得聚类分析的柱形图如下：图3.3.2 空气污染程度聚类分析的柱形图所得聚类分析的树状图如下：图3.3.3 空气污染程度组内连接聚类分析的树状图由上面的树状图，我们按各地区空气污染程度不同对各省份进行划分，所得结果如下表所示：表3.3.1 运用组内连接聚类法按各地区空气污染程度不同进行划分的结果类别对应编号对应地区空气质量排名第一类26、28、10、23、24云南、甘肃、上海、重庆、四川1第二类2、3、29、30、22

40、北京、天津、青海、宁夏、海南2第三类8、9、31吉林、黑龙江、新疆3第四类11、20、12、13、15、18、27江苏、广东、浙江、安徽、江西、湖北、陕西4第五类17河南5第六类19、21湖南、广西6第七类4、5、6、7、16河北、山西、内蒙古、辽宁、山东73.3.2按各地区的废气处理情况进行区域划分的中位数聚类分析运用SPSS软件并采用中位数聚类分析法，对各污染区域按废气处理情况的不同进行划分，可得如下聚类分析：聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21214.99200222310.98600173729.98600144616.985002052627.9

41、6600266530.959001571819.93300168120.900002292223.8790018101325.85300201149.8490019121221.8040021132431.76900171478.701302515511.6256024161518.615072117324.49021323182228.469902719417.3991102520613.30341024211215.2311216262212.14281232313-.0142217282456-.0511520272547-.098191428261226-.1532152927522-

42、.1972418302814-.53423252929112-.5582826303015-.58929270表3.3.2 中位数聚类分析法聚类表群集成员案例8 群集7 群集6 群集5 群集4 群集3 群集2 群集1:全国11111112:北京11111113:天津11111114:河北22222115:山西33333226:内蒙古43333227:辽宁54222118:吉林54222119:黑龙江222221110:上海111111111:江苏333332212:浙江654443113:安徽433332214:福建111111115:江西654443116:山东4

43、33332217:河南222221118:湖北654443119:湖南654443120:广东111111121:广西654443122:海南765532223:重庆765532224:四川111111125:贵州433332226:云南876443127:陕西876443128:甘肃765532229:青海542221130:宁夏333332231:新疆1111111表3.3.3 中位数聚类分析群集成员所得条形图如下：图3.3.4 运用中位数聚类分析法得到的各地区废气处理条形图所得树状图如下：图3.3.5 运用中位数聚类分析法得到的各地区废气处理树状图由上面的树状图，我们按各地区废气处理情况不同对各省份进行划分，所得结果如下表所示：表3.3.4 运用中位数聚类分析法按各地区废气处理情况不同进行划分的结果类别对应编号对应地区空气质量排名第一类2、14、1、20、3、10、24、31北京、福建、全国、广东、天津、上海、四川、新疆1第二类7、29、8辽宁、青海、吉林2第三类4、9、17河北、黑龙江、河南3第四类26、27云南、陕西4第五类12、21、18、19、15浙江、广西、湖北、湖南、江西5第六类22、23、18海南、重庆、甘肃6第七类5、30、11、6、16、13、25山西、宁夏、江苏

展开阅读全文