《地理系统的聚类分析和判别分析.ppt》由会员分享,可在线阅读,更多相关《地理系统的聚类分析和判别分析.ppt(73页珍藏版)》请在三一办公上搜索。
1、第六章 地理系统的聚类分析和判别分析,地理系统的聚类分析地理系统的判别分析,第一节 聚类分析 一、聚类要素的数据处理,在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。,假设有m 个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用表给出。,表3.4.1 聚类对象与要素数据,在聚类分析中,常用的聚类要素的数据处理方法有如下
2、几种:,总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足,(),标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有,(),极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。,(),(),例题:表给出了某地区9个农业区的7项指标,它们经过极差标准化处理后,如表所示。,表3.4.2 某地区9个农业区的7项经济指标数据,表3.4.3 极差标准化处理后的数
3、据,二、距离的计算,常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离,(),(),(),切比雪夫距离。当明科夫斯基距 时,有 据表中的数据,用公式()式计算可得9个农业区之间的绝对值距离矩阵如下,(),(),三、直接聚类法,原理 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。,例题:根据距离矩阵式(),用直接聚类
4、法对某地区的9个农业区进行聚类分析,步骤如下:(1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;(2)在余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;,(3)在第2步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;,(4)在第3步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;,(
5、5)在第4步之后余下的元素中,除对角线元素以外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;(6)在第5步之后余下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;,(7)在第6步之后余下的元素中,除对角线元素以外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;(8)在第7步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1
6、区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。根据上述步骤,可以作出聚类过程的谱系图。,图3.4.1 直接聚类谱系图,四、最短距离聚类法,原理 最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。,(),例题:以下根据式()中的距离矩阵,用最短距离聚类法对某地区的9个农业区进行聚类分析。,
7、(1)在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10=G4,G9。按照公式()式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得 d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20,d5,10=mind54,d59=min4.77,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.
8、32=3.32d8,10=mind84,d89=min1.29,1.40=1.29(2)这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵,(3)在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式()式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵,(4)在第2步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式()分别计算G1,G3,G6
9、,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵,(5)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。再按照公式()计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵,(6)在第4步所得的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式()计算G1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵,(7)在第5步所得到
10、的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式()计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵,(8)在第6步所得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式()计算G13与G16之间的距离,可得一个新的22阶距离矩阵,(9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过
11、程,可以作出最短距离聚类谱系图(图)。,图3.4.2 最短距离聚类谱系图,五、最远距离聚类法,最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是,(),例题:对于前面的例子,最远距离聚类法的聚类过程如下:(1)在99阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10=G4,G9。按照公式()分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵,(2)在第1步所得到的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记
12、为G11,即G11=G5,G7。按照公式()式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下,(3)在第2步所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式()分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下,(4)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式()计算G1,G6,G11,G12与
13、G13之间的距离,得到一个新的55阶距离矩阵如下,(5)在第4步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。再按照公式()分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下,(6)在第5步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式()分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵如下,(7)在第6步所得的33阶距离矩
14、阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式()计算G15与G16之间的距离,可得一个新的22阶距离矩阵如下,(8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图(图)。,六、计算类之间距离的统一公式,最短距离和最远距离 可以用一个公式表示 用图表示二者关系:,(),最短距离,最远距离,图3.4.4 两种不同的空间距离,a1,A,b1,b2,B,a2,当、三个参数取不同的值时,就形成了不同的聚类方法(表
15、),在表中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。表3.4.4 8种系统聚类方法的距离参数值,系统聚类其他方法的公式,(),七、实例分析,表给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:(1)用标准差标准化方法,对9项指标的原始数据进行处理;(2)采用欧氏距离测度21个区域单元之间的距离;(3)选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。,表3.4.5 某农业生态经济系统各区域单元的有关数据,图3.4.5 某农业生态经济系
16、统区域单元的系统聚类(组平均法)谱系图,从聚类分析谱系图(图)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,21个区域单元被依次聚类。当距离为0时,每个样本为单独的一类;当距离为5,则21个区域单元被聚为16类;当距离为10,则21个区域单元被聚为9类;当距离为15,则21个区域单元被聚为5类;当距离为20,则21个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。,第二节 地理系统的判别分析(Discriminant Analysis),一、判别分析概述,1.判别分析的概念 判别分析是判别样品所属类型的一种统计方法,是在已知研究对
17、象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。,判别分析应用非常广泛。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的各种指标,判别下季度产品是畅销、平常或滞销;在医疗诊断中,根据某人多种体检指标(如体温、血压、白血球等)来判别此人是有病还是无病。,2判别分析与聚类分析,判别分析兼有判别与分类的两种性质,但以判别为主。判别分析判别分析与聚
18、类分析不同之点在于:判别分析必须事先己知分几类为前提;聚类分析则不必事先确定类型,而类型的形成是聚类分析的结果。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。,3.地理研究中判别分析的作用,概括为以下三点:1)对已分好的类型进行合理性检验;2)判别某地地理类型的归属问题和确定区域界线(两类判别可以用于划分地理区的界线,这时,把界线两边视为不同的类型;3)评价各要素特征值在判别分析中贡献率的大小。,4.判别分析的类型,判别分析按判别
19、的级数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马式距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,仅学习Fisher两类判别。,二、判别分析的基本原理,1判别分析的基本准则1)费歇Fisher准则 2)贝叶斯Bayes准则,应用费歇准则进行判别分析时,要对原始地理数据经定方式进行线性组合,使其形成一个新变量,即判别函数:要使判别函数值能充分地区分开地理类型,就需要使各类均值之间的差
20、别最大(即使不同类之间的差别最大),而使各类内部的离差平方和为最小(即使同类间的差别最小)换句话说,即要求类间(或组间)均值差与类内(或组内)方差之比最大,这样就能把地理类型区分得最清楚。,贝叶斯准则是另一种思路的判别标准,而在数学上也是使用了另一种原理和计算过程。当应用贝叶斯准则进行判别分析时要求把已知的地理数据分成几类(或几组)然后计算出未知地理类型或区域归属于某一已知类型(或组)的概率值,它归属于哪一类的概率值最大,就把它划归该类(或组);另外,还可计算出划归各已知类的错分损失,即错分哪一类的平均损失为最小,就把它判定为该类。,2两类费歇(Fisher)判别分析的基本原理,1)判别分析的
21、三个假设条件每一个判别变量不能是其他判别变星的线性组合。各组协方差矩阵相等。各判别变量之间具有多元正态分布即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。,2)基本思想 从两个总体中抽取具有A个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式:,其中系数c1、c2、cp确定的原则是使两组间的区别最大、而使每个组内部的离差最小有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值、然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。,3)判别函数的导出假设有两个总体G1、G2、从第一个总体
22、中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标。,假设新建立的判别式为 现将属于不同两总体的样品观测值代入判别式中,则得到对上边两式分别左右相加,再除以相应的样品个数 第一组样品的重心 第二组样品的重心,为了使判别函数能够很好地区别来自不同总体的样品,自然希望:第一,来自不同总体的两个平均值 相差愈大愈好;第二,对于来自第一个总体的 要求它们的离差平方和 越小愈好同样也要求愈小愈好。,越大越好,利用微积分求极值的必要条件可求出使 I 达到最大值的c1,c2,cp,求出c1,c2,cp 后,进而算出有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)在两总体先验概率
23、相等的假设下,一般常取加权平均值即:,如果R(1)R(2)因此,判别准则为当R大于R(0),则属于第一类;当R小于R(0),则属于第二类。,这是一种统计推断方法。任何统计推断都不可能保证完全正确,只能少犯错误。如果把本来属于第一类的样品判成属于第二类,则称为第一类错误;反之,如果把本来不属于第一类的样品判成属于第一类,则称为第二类错误。比如,G1和G2两总体的频率分布曲线,判别临界值为R0,则犯第一类错误的概率为R0右边曲线下面的面积;犯第二类错误的概率为R0左边曲线下面的面积。当R0变动时,都随之变动。这说明两类错误是互相关联的,在实际工作中,我们应该考虑犯哪类错误的危害性大,来取R0。,三
24、、两类判别分析应用举例,今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。,1.求出判别函数2.计算判别临界值和判别准则 两类判别函数均值和判别指标(临界值)R(1)=12.1653;R(2)=9.6291;R(0)=10.8972;因为R(1)R(2)因此,判别准则为当R大于R(0),则属于第一类;当R小于R(0),则属于第二类。,3对已知类别的样品判别归类上述回判结果表明:总的回代判对率为100%。,4对判别效果作检验计算综合距离函数 其次,再利用公式计算F值=12.68 F0.05(3,5+5-3-1)=4.76,5对待判样品进行判别归类,判别分析要求根据已知的地理特征值进行线性组合,构成一个线性判别函数Y,即:式中,Ck(kl,2,m)为判别系数,它可反映各要素或特征值作用方向、分辨能力和贡献率的大小。只要确定了Ck,判别函数y也就确定了。Xk为已知各要素(变量)的特征值。,