地理学中的经典统计分析方法.ppt

上传人:牧羊曲112 文档编号:6107313 上传时间:2023-09-25 格式:PPT 页数:243 大小:4.56MB
返回 下载 相关 举报
地理学中的经典统计分析方法.ppt_第1页
第1页 / 共243页
地理学中的经典统计分析方法.ppt_第2页
第2页 / 共243页
地理学中的经典统计分析方法.ppt_第3页
第3页 / 共243页
地理学中的经典统计分析方法.ppt_第4页
第4页 / 共243页
地理学中的经典统计分析方法.ppt_第5页
第5页 / 共243页
点击查看更多>>
资源描述

《地理学中的经典统计分析方法.ppt》由会员分享,可在线阅读,更多相关《地理学中的经典统计分析方法.ppt(243页珍藏版)》请在三一办公上搜索。

1、第三章 地理学中的经典统计分析方法,甘肃农业大学资源与环境学院,内容,第一节 相关分析第二节 回归分析第三节 时间序列分析第四节 系统聚类分析第五节 主成分分析第六节 趋势面分析方法第七节 马尔科夫预测方法,甘肃农业大学资源与环境学院,第1节 相关分析(correlation analysis),相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。,甘肃农业大学资源与环境学院,地理相关的意义,相关与地理相关相关是指两个或两个以上变数间相互关系是否密切。在研究这种关系时并不专指哪一个是自变量,哪一个是因变量,而视实

2、际需要确定。相关分析仅限于测定两个或两个以上变数具有相关关系者,其主要目的是计算出表示两个或两个以上变数间的相关程度和性质地理相关,就是应用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标,甘肃农业大学资源与环境学院,地理要素间的关系 函数关系:确定性的关系,这种关系在地理各要素间较少见,这是因为许多地理要素的变化具有随机性的缘故;相关关系:即要素间既存在密切的关系,但又不能由一个(或几个)要素(或变量)的值明确地求出另一个要素(变量)的值。,甘肃农业大学资源与环境学院,两要素之间相关程度的测定多要素间相关程度的测定,内容,甘肃农业大学资源与环境学院,一、两要素之间相关程度的测定

3、,相关系数的计算与检验秩相关系数的计算与检验,甘肃农业大学资源与环境学院,相关系数的计算 定义:和 为两要素的平均值。,(3.1.1),(一)相关系数的计算与检验,甘肃农业大学资源与环境学院,说明:-1=1,大于0时正相关,小于0时负相关。的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。,甘肃农业大学资源与环境学院,简化:记 公式()可简化为,(3.1.2),甘肃农业大学资源与环境学院,表3.1.1 伦敦的月平均气温与降水量,资料来源:,相关分析实例,甘肃农业大学资源与环境学院,(1)根据表中的数据,我们可以利用公式(),计算伦敦市月平均气温(t)与降水量(p)之间的

4、相关系数(2)计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。,甘肃农业大学资源与环境学院,又如:根据甘肃省53个气象台站的多年平均数据(见教材表),可以利用公式()对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数进行计算,结果如下,甘肃农业大学资源与环境学院,计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。,甘肃农业大学资源与环境学院,相关系数的检验,相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知

5、道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。,甘肃农业大学资源与环境学院,表3.1.3 检验相关系数 的临界值()表,甘肃农业大学资源与环境学院,在表中,f 称为自由度,其数值为 f=n-2,n为样本数;上方的 代表不同的置信水平;表内的数值代表不同的置信水平下相关系数 的临界值,即;公式 的意思是当所计算的相关系数 的绝对值大于在 水平下的临界值 r时,两要素不相关(即)的可能性只有。,甘肃农业大学资源与环境学院,对伦敦市月平均气温(t)与降水量(p)之间的相关系数,f=12-2=10,在显著性水平 上,查表,得知:。因为,所以,伦敦市月平均气温(t)与降水

6、量(p)之间的相关性并不显著。,甘肃农业大学资源与环境学院,对于甘肃省53个气象台站降水量(p)和纬度(y)之间的相关系数,以及蒸发量(v)和纬度(y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值,但是我们发现,在同一显著水平下,随着样本数的增大,临界值 减少。在显著性水平=0.001上,取f=50,查表得知:=0.443 3。显然,和 的绝对值都远远大于=0.443 3,这说明甘肃省53个气象台站降水量(p)和纬度(y)之间,以及蒸发量(v)和纬度(y)之间都是高度相关的。,甘肃农业大学资源与环境学院,举例,北京市多年各月平均气温与5cm深的平均地温,如表所示,请计

7、算两者的相关系数,甘肃农业大学资源与环境学院,用导出公式,甘肃农业大学资源与环境学院,相关系数计算表,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,秩相关系数 又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。,(),(二)秩相关系数的计算与检验,甘肃农业大学资源与环境学院,教材中表给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(),就可以计算它们之间的秩相关系数 即:GDP(x)与总人口(y)之间的等级相关系数为0.784 7。,示例:,甘肃农业大

8、学资源与环境学院,注:n代表样本个数,代表不同的置信水平,也称显著水平,表中的数值为临界值。,秩相关系数的检验,表3.1.5 秩相关系数检验的临界值,甘肃农业大学资源与环境学院,在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著水平下,随着样本数的增大,临界值 减少。在n=30时,查表得:0.432,由于=0.784 7 0.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,浙江省月平均气温与相关物理因子的相关关系 a.平均气温与海拔;b平均最高气温与日总辐射;c平

9、均最低气温与日照百分率;d.平均最低气温与相对湿度,甘肃农业大学资源与环境学院,二、多要素间相关程度的测定,偏相关系数的计算与检验复相关系数的计算与检验,甘肃农业大学资源与环境学院,(一)偏相关系数的计算与检验,定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。,偏相关系数的计算,甘肃农业大学资源与环境学院,计算:3个要素的偏相关系数,甘肃农业大学资源与环境学院,4个要素的偏相关系数,甘肃农业大学资源与环境学院,例如:对于某4个地理要素x1,x2,x3,x4的23个样本数据,经过计算得

10、到了如下的单相关系数矩阵:,甘肃农业大学资源与环境学院,利用公式计算一级偏向关系数,如表所示:,利用公式计算二级偏相关系数,如表所示:,4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。,表3.1.6 一级偏相关系数,表3.1.7 二级偏相关系数,甘肃农业大学资源与环境学院,偏相关系数的性质,偏相关系数分布的范围在-11之间;偏相关系数的绝对值越大,表示其偏相关程度越大;偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。,甘肃农业大学资源与环境学院,偏相关系数的显著性检验,偏相关系数的显著性检验,一般采用t检验

11、法。其统计量计算公式为,式中:为偏相关系数;n为样本数;m为自变量个数。,(3.1.14),甘肃农业大学资源与环境学院,查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然,这表明在置信度水平=0.001上,偏相关系数r2413是显著的。,譬如,对于上例计算得到的偏相关系数,由于n=23,m=3,故,甘肃农业大学资源与环境学院,复相关系数,实际上,一个要素的变化往往受多种要素的综合作用和影响,而单相关或偏相关分析的方法都不能反映各要素的综合影响。要解决几个要素与某一个要素之间的复相关程度,用复相关系数来测定。,甘肃农业大学资源与环境学院,(二)复相关系数的计算与检验,复相

12、关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算 当有两个自变量时 当有三个自变量时,(),(3.1.16),甘肃农业大学资源与环境学院,当有k个自变量时,(3.1.17),甘肃农业大学资源与环境学院,复相关系数介于01之间,即 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。复相关系数必大于或至少等于单相关系数的绝对值。,复相关系数的性质,甘肃农业大学资源与环境学院,复相关系数的显著性检验,复相关系数的显著性检验(F检验法)n为样本数,K为自变量个数,甘肃农业大学资源与环境学院,例题:在上例中,若以x4为因

13、变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式()计算 检验:,故复相关达到了极显著水平。,甘肃农业大学资源与环境学院,各种相关系数的含义及用途比较,甘肃农业大学资源与环境学院,第2节 回归分析(regression analysis),一元线性回归模型多元线性回归模型非线性回归模型,Enquist&Niklas(Nature 2001),甘肃农业大学资源与环境学院,回归分析与相关分析的区别,相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。相关分析中所涉及的变量x和y都是随

14、机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。相关分析主要是描述两个变量之间关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。,甘肃农业大学资源与环境学院,什么是回归分析?,从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,回归分析就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式

15、,用来近似地表达要素间平均变化关系。这个数学模式称为回归模型(回归方程),甘肃农业大学资源与环境学院,地理回归分析的意义和作用,相关分析揭示了地理要素之间相互关系的密切程度。若能在某些难测难控的要素与其他易测易控的要素之间建立一种近似的函数表达式,可以比较容易地通过那些易测易控要素的变化情况,了解那些难测难控要素的变化情况。回归分析方法,是研究要素之间具体的数量关系的强有力的工具,运用这种方法能够建立反映地理要素之间具体的数量关系的数学模型,即回归模型。,甘肃农业大学资源与环境学院,回归模型的类型,甘肃农业大学资源与环境学院,一、一元线性回归模型,定义:假设有两个地理要素(变量)x 和y,x为

16、自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数;为各组观测数据的下标;为随机变量。,(),甘肃农业大学资源与环境学院,记 和 分别为参数a与b的拟合值,则一元线性回归模型为()式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。,(),甘肃农业大学资源与环境学院,参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有,(),(一)参数a、b的最小二乘估计,(),甘肃农业大学资源与环境学院,(),(),解上述正规方程组()式,得到参数a与b的拟合值,甘肃农业大学资源与环境学院,最小二乘法(图示),甘

17、肃农业大学资源与环境学院,(二)一元线性回归模型的显著性检验 方法:F 检验法。总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明,(3.2.9),(3.2.8),甘肃农业大学资源与环境学院,在式()中,Q称为误差平方和,或剩余平方和 而 称为回归平方和。,甘肃农业大学资源与环境学院,统计量F F越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。,(),甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,二、多元线性回归模型,回归模型的建立 多元线性回

18、归模型的结构形式为,(),式中:为待定参数;为随机变量。,甘肃农业大学资源与环境学院,回归方程:如果 分别为式()中 的拟和值,则回归方程为 在()式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。,(),甘肃农业大学资源与环境学院,偏回归系数的推导过程:根据最小二乘法原理,的估计值 应该使 由求极值的必要条件得 方程组()式经展开整理后得,(),(),甘肃农业大学资源与环境学院,方程组()式称为正规方程组。引入矩阵,(3.2.15),甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,甘肃农业大学资

19、源与环境学院,则正规方程组()式可以进一步写成矩阵形式,甘肃农业大学资源与环境学院,求解得引入记号,(),甘肃农业大学资源与环境学院,正规方程组也可以写成,甘肃农业大学资源与环境学院,回归模型的显著性检验,回归平方和U与剩余平方和Q:回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。,甘肃农业大学资源与环境学院,三、非线性回归模型,指数函数,线性化方法两端取对数得:lny=ln+x令:y=lny,则有y=ln+x,基本形式:,图像,甘肃农业大学资源与环境学院,三、非线性回归模型,幂函数,线性化方法两端取对数得:lg y=lg+lg x令:y=lgy,x=

20、lg x,则y=lg+x,基本形式:,图像,甘肃农业大学资源与环境学院,三、非线性回归模型,双曲线函数,线性化方法令:y=1/y,x=1/x,则有y=+x,基本形式:,图像,甘肃农业大学资源与环境学院,三、非线性回归模型,对数函数,线性化方法x=lgx,则有y=+x,基本形式:,图像,甘肃农业大学资源与环境学院,三、非线性回归模型,S 型曲线,线性化方法令:y=1/y,x=e-x,则有y=+x,基本形式:,图像,甘肃农业大学资源与环境学院,例:表给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。,甘肃农业大学

21、资源与环境学院,表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m),甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,解:(1)作变量替换,令:,将表中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表所示。,表3.2.2 经对数变换后的数据,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,(2)以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。,图3.2.2 林地景观斑块面积(A)与周长(P)之间的双对数关系,甘肃农业大学资源与环境学院,(3)根据所得表中的数据,运用建

22、立线性回归模型的方法,建立y与x之间的线性回归模型,得到 对应于()式,x与y的相关系数高 达=0.966 5。(4)将()还原成双对数曲线,即,(3.2.19),(),甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,第3节 时间序列分析(Time series analysis),时间序列分析的基本原理 趋势拟合方法季节变动预测,时间序列,也叫时间数列或动态数列,是要素(变量)的数据按照时间顺序变动排列而形成的一种数列,它反映了要素(变量)时间变化的发展过程。,甘肃农业大学资源与环境学院,过去2000a的30a尺度温度变化速率,甘肃农业大学资源与环境学院,渭河流域年径流丰枯年际变化,

23、渭河干流各水文站年平均径流量变化趋势,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,19602009全球主要国家人均GDP的增长,甘肃农业大学资源与环境学院,一、时间序列分析的基本原理,(一)时间序列的组合成份 长期趋势(Secular Trend,T)是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。季节变动(Seasonal Fluctuation,S)是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。循环变动(Cyclical Movement,C)是指沿着趋势线如钟摆般地循环变动,又称景气循环变动(business cycle mo

24、vement)。不规则变动(Irregular Variations.I)是指在时间序列中由于随机因素影响所引起的变动。,甘肃农业大学资源与环境学院,(二)时间序列的组合模型 加法模型 假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动。若以Y表示时间序列,则加法模型为Y=T+S+C+I乘法模型 假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数。该模型的方程式为,(),(),甘肃农业大学资源与环境学院,(三)时间序列的分类,甘肃农业大学资源与环境学院,(四)时间序列构成要素的测定方法,甘肃农业大学资源与环境学院,二、趋势拟合方法,时间序列分析的平滑法主要

25、有三类:移动平均法 设某一时间序列为 y1,y2,yt,则t+1时刻的预测值为 式中:为t点的移动平均值;n称为移动时距。,(一)平滑法,(),甘肃农业大学资源与环境学院,滑动平均法 其计算公式为 式中:为t点的滑动平均值;l为单侧平滑时距。若l=1,则()式称为三点滑动平均,其计算公式为 若l=2,则()式称为五点滑动平均,其计算公式为,(),(),(),甘肃农业大学资源与环境学院,指数平滑法 一次指数平滑 为平滑系数。一般时间序列较平稳,取值可小一些,一般取(0.05,0.3);若时间序列数据起伏波动比较大,则应取较大的值,一般取(0.7,0.95)。,(),甘肃农业大学资源与环境学院,高

26、次指数平滑法 二次指数平滑法的预测公式为 三次指数平滑法的预测公式 为,(),(),甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,三种最常用的趋势线 直线型趋势线指数型趋势线 抛物线型趋势线,(二)趋势线法,甘肃农业大学资源与环境学院,自相关性判断 时间序列的自相关,是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。测度:设y1,y2,yt,yn,共有n个观察值。把前后相邻两期的观察值一一成对,便有(n1)对数据,即(y1,y2),(y2,y3),(yt,yt+1),(yn-1,yn)。,(三)自回归模型,甘肃农业大学资源与环境学院,其一阶自相关系数r1为,二

27、阶自相关系数r2为,甘肃农业大学资源与环境学院,k阶自相关系数为,甘肃农业大学资源与环境学院,自回归模型的建立 常见的线性自回归模型:一阶线性自回归预测模型为 二阶线性自回归预测模型为 一般地,p阶线性自回归模型为 在以上各式中,为待估计的参数值,它们可以通过最小二乘法估计获得。,甘肃农业大学资源与环境学院,基本步骤(1)对原时间序列求移动平均,以消除季节变动和不规则变动,保留长期趋势;(2)将原序列y除以其对应的趋势方程值(或平滑值),分离出季节变动(含不规则变动),即,三、季节变动预测,季节系数=TSCI/趋势方程值(TC或平滑值)=SI,甘肃农业大学资源与环境学院,(3)将月度(或季度)

28、的季节指标加总,以由计算误差导致的值去除理论加总值,得到一个校正系数,并以该校正系数乘以季节性指标从而获得调整后季节性指标。(4)求预测模型,若求下一年度的预测值,延长趋势线即可;若求各月(季)的预测值,需以趋势值乘以各月份(季度)的季节性指标。求季节变动预测的数学模型(以直线为例)为 式中:是t+k时的预测值;at、bt为方程系数;为季节性指标。,甘肃农业大学资源与环境学院,例题:如表所示,下面我们用上述步骤,预测该旅游景点2005年各季度的客流量。,表3.3.3 某旅游景点20022004年各季度客流量,甘肃农业大学资源与环境学院,解题步骤:(1)求时间序列的三次滑动平均值,见表第5列。(

29、2)求季节性指标:将表中第4列数据分别除以第5列各对应元素,得相应的季节系数。然后再把各季度的季节系数平均得到季节性指标,见表。季节性指标之和理论上应等于4。现等于3.951 5,需要进行校正。校正方法是:先求校正系数:=4/3.951 5=1.012 3。然后将表中的第5行,分别乘以,即得校正后的季节性指标(见表第6行)。,甘肃农业大学资源与环境学院,表3.3.4 季节性指标及其校正值,甘肃农业大学资源与环境学院,(3)用二次指数平滑法,求预测模型系数:取平滑指数,分别计算一次指数平滑值和二次指数平滑值,然后再分别计算趋势预测模型的系数和,结果如表所示。由表可知,预测模型为 式中:为校正后的

30、季节性指标。,甘肃农业大学资源与环境学院,表3.3.5 预测模型系数,甘肃农业大学资源与环境学院,(4)求预测值。以2004年第4季度为基期,套用步骤(3)中所得预测模型,计算预测2005年各季度的客流量 第1季度:=301.774 6(104人次)第2季度:=400.27(104人次)第3季度:=371.07(104人次)第4季度:=283.17(104人次)由此可以计算出2005年全年度的客流量预测值为 301.774 6+400.27+371.07+283.17=1 356.28(104人次),甘肃农业大学资源与环境学院,第4节 系统聚类分析,聚类要素的数据处理距离的计算直接聚类法 最短

31、距离聚类法 最远距离聚类法系统聚类法计算类之间距离的统一公式系统聚类分析实例,甘肃农业大学资源与环境学院,一、聚类要素的数据处理,在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。,甘肃农业大学资源与环境学院,假设有m 个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用表给出。,表3.4.1 聚类对象与要素数据,甘肃农业

32、大学资源与环境学院,在聚类分析中,常用的聚类要素的数据处理方法有如下几种:,总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足,(),甘肃农业大学资源与环境学院,标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有,(),甘肃农业大学资源与环境学院,极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。,(),(),甘肃农业大学资源与环境学院,例题:表给出

33、了某地区9个农业区的7项指标,它们经过极差标准化处理后,如表所示。,表3.4.2 某地区9个农业区的7项经济指标数据,甘肃农业大学资源与环境学院,表3.4.3 极差标准化处理后的数据,甘肃农业大学资源与环境学院,二、距离的计算,常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离,(),(),(),甘肃农业大学资源与环境学院,切比雪夫距离。当明科夫斯基距 时,有 据表中的数据,用公式()式计算可得9个农业区之间的绝对值距离矩阵如下,(),(),甘肃农业大学资源与环境学院,三、直接聚类法,原理 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对

34、象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。,甘肃农业大学资源与环境学院,例题:根据距离矩阵式(),用直接聚类法对某地区的9个农业区进行聚类分析,步骤如下:(1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;(2)在余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;,甘肃农业大学资

35、源与环境学院,(3)在第2步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;,(4)在第3步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;,甘肃农业大学资源与环境学院,(5)在第4步之后余下的元素中,除对角线元素以外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;(6)在第5步之后余下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将

36、第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;,甘肃农业大学资源与环境学院,(7)在第6步之后余下的元素中,除对角线元素以外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;(8)在第7步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。根据上述步骤,可以作出聚类过程的谱系图。,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,图3.4.1 直接聚类谱系图

37、,甘肃农业大学资源与环境学院,四、最短距离聚类法,原理 最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。,(),甘肃农业大学资源与环境学院,例题:以下根据式()中的距离矩阵,用最短距离聚类法对某地区的9个农业区进行聚类分析。,甘肃农业大学资源与环境学院,(1)在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9

38、区并为一类,记为G10=G4,G9。按照公式()式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得 d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20,甘肃农业大学资源与环境学院,d5,10=mind54,d59=min4.77,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.32=3.32d8,10=mind84,d89=min1

39、.29,1.40=1.29(2)这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,(3)在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式()式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵。,甘肃农业大学资源与环境学院,(4)在第2步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公

40、式()分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵,甘肃农业大学资源与环境学院,(5)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。再按照公式()计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵,甘肃农业大学资源与环境学院,(6)在第4步所得的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式()计算G

41、1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵,甘肃农业大学资源与环境学院,(7)在第5步所得到的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式()计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵,甘肃农业大学资源与环境学院,(8)在第6步所得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式(

42、)计算G13与G16之间的距离,可得一个新的22阶距离矩阵。,甘肃农业大学资源与环境学院,(9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距离聚类谱系图(图)。,甘肃农业大学资源与环境学院,图3.4.2 最短距离聚类谱系图,甘肃农业大学资源与环境学院,五、最远距离聚类法,最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是,(),甘肃农业大学资源与环境学院,例题:对于前面的例子,最远距离聚类法的聚类过程如下:(1)在99阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为

43、一类,记为G10,即G10=G4,G9。按照公式()分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵,甘肃农业大学资源与环境学院,甘肃农业大学资源与环境学院,(2)在第1步所得到的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式()式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下,甘肃农业大学资源与环境学院,(3)在第2步所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,

44、即G12=G2,G8。再按照公式()分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下,甘肃农业大学资源与环境学院,(4)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式()计算G1,G6,G11,G12与G13之间的距离,得到一个新的55阶距离矩阵如下,甘肃农业大学资源与环境学院,(5)在第4步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(

45、G2,G8)。再按照公式()分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下,甘肃农业大学资源与环境学院,(6)在第5步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式()分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵如下,甘肃农业大学资源与环境学院,(7)在第6步所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G

46、1,(G2,G8)。再按照公式()计算G15与G16之间的距离,可得一个新的22阶距离矩阵如下,甘肃农业大学资源与环境学院,(8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图(图)。,甘肃农业大学资源与环境学院,六、计算类之间距离的统一公式,最短距离和最远距离 可以用一个公式表示 用图表示二者关系:,(),最短距离,最远距离,图3.4.4 两种不同的空间距离,a1,A,b1,b2,B,a2,甘肃农业大学资源与环境学院,当、三个参数取不同的值时,就形成了不同的聚类方法(表),在表中,np是p类中单元的个数,nq是q类中单元的个数,nr

47、=np+nq;一般取负值。,系统聚类其他方法的公式,(),甘肃农业大学资源与环境学院,8种系统聚类方法的距离参数值,甘肃农业大学资源与环境学院,七、实例分析,表给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:(1)用标准差标准化方法,对9项指标的原始数据进行处理;(2)采用欧氏距离测度21个区域单元之间的距离;(3)选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。,甘肃农业大学资源与环境学院,表3.4.5 某农业生态经济系统各区域单元的有关数据,甘肃农业大学资源与环境

48、学院,甘肃农业大学资源与环境学院,图3.4.5 某农业生态经济系统区域单元的系统聚类(组平均法)谱系图,甘肃农业大学资源与环境学院,从聚类分析谱系图(图)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,21个区域单元被依次聚类。当距离为0时,每个样本为单独的一类;当距离为5,则21个区域单元被聚为16类;当距离为10,则21个区域单元被聚为9类;当距离为15,则21个区域单元被聚为5类;当距离为20,则21个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。,甘肃农业大学资源与环境学院,第5节 主成分分析(principal comp

49、onent analysis),主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例,甘肃农业大学资源与环境学院,主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。主成分分析的思想。,甘肃农业大学资源与环境学院,众所周知:当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中

50、读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。,甘肃农业大学资源与环境学院,地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?,问题的提出:,甘肃农业大学资源与环境学院,事实上,这种想法是可以实现的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号