《空间统计量(空间指数)计算点模式分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《空间统计量(空间指数)计算点模式分析ppt课件.ppt(60页珍藏版)》请在三一办公上搜索。
1、1,空间模式分析,GIS空间分析方法 第十讲,2014.3.26,2,“Statistics, the science of uncertainty,attempts to model order in disorder.” Cressie (1993),统 计Statistics,3,为什么要进行空间模式分析?,了解地理现象的状态和变化过程的需要。城市的聚集程度;商业区的发展规律;病虫害的聚集态势;犯罪(如抢劫)是否呈空间聚集模式;,4,主要内容,Ripleys KMorans IGearys CGetis GAnselins LISA,可以划分为聚集模式(clustered pattern
2、)、分散模式(dispersed pattern)和随机模式(random pattern)三类。,聚集模式,分散模式,随机模式,空间分布模式,6,1.Ripleys K,用于分析不同空间尺度上的聚集程度是否一致,发现是否存在聚集及聚集的空间尺度。,7,城市在什么尺度上聚集?,8,K函数是点密度距离的函数,其按照一定半径距离的搜索圆范围来统计点数量。K(d) 的求解过程: 围绕每一点i (事件)构造一个半径为d 的圆; 计算落在该圆内的其它事件的数量,标记为 j ; 对所有点i 重复上面的两步的计算,并对结果求和; 以上步骤等同于一个求和:,如果i 到j的距离dij小于d ,则I (dij )
3、=1;否则I (dij)=0; 给d 增加一个小的固定值(如R/100,R是与研究区域相同面积的圆的半径; 重复上述计算,对一组距离d 值计算出K(d) 值。,9,Varying buffers,10,K函数的含义,K(d)函数的理论估计值为d2,对于聚集模式,应大于d2;只需将K(d) 的估计值和随机点模式下的理论值相比即可判断在某一尺度上是否聚集。CSR: Complete Spatial Randomness,11,12,2.Morans I,空间自相关度量的意义:发现空间分布模式如何度量?,13,主要描述整个研究区域上空间对象之间的关联程度,以表明空间对象之间是否存在显著的空间分布模式
4、。 (Cliff and Ord, 1981),全局空间自相关分析主要采用全局空间自相关统计量(如Morans I、 Gearys C、General G)进行度量。,全局空间自相关(global spatial autocorrelation),14,Morans I 统计量是一种应用非常广泛的空间自相关统计量,它的具体形式如下(Cliff and Ord,1981):,Morans I,其中,xi 表示第 i 个空间位置上的观测值, ,wij是空间权重矩阵W(nn)的元素,表示了空间单元之间的拓扑关系,S0 是空间权重矩阵W的所有元素之和。反映的是空间邻接或空间邻近的区域单元属性值的相似程
5、度。,全局空间自相关统计指数,15,空间权重矩阵(spatial weight matrix),对空间邻居(spatial neighborhood)或邻接关系的描述,通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系。目前对于空间权重指标的构建,主要基于两类特征:连通性(Continuity)和距离(Distance)。此外,还可以通过面积、可达度等方式对空间权重指标进行构建。,空间权重矩阵,16,空间权重矩阵(spatial weight matrix),基于连通性特征的空间权重指标,又可以称为空间邻接指标。三种基本的空间邻接定义方式:考虑横纵方向邻接关系的“卒”型、考
6、虑对角线方向邻接关系的“象”型以及综合考虑上述方向的“后”型。空间邻接影响不仅仅局限于两个单元的相邻,一个空间单元还可通过相邻单元对外围非相邻单元产生影响,对于这类影响可以通过设定空间二阶乃至高阶邻接指标进行表达。,17,空间权重矩阵(spatial weight matrix),基于距离特征的空间权重指标,又可以称为空间距离指标。空间距离指标选择空间对象间的距离(如反距离、反距离平方值、距离负指数等)定义权重矩阵。如Cliff和Ord曾提出的Cliff-Ord空间权重指标,即是将距离作为指标定义的一部分。 ,i = 1,2,n;j = 1,2,n其中,dij为空间对象间的距离,ij为空间对象
7、共享边界的长度,a、b为两类距离的权重调整系数。,18,空间权重矩阵(spatial weight matrix),空间数据集中不同实体单元间存在不同程度的空间关系,在实际使用中,一般通过矩阵形式给出空间逐点的空间权重指标,称为空间权重矩阵。,W是一个nn的正定矩阵,矩阵的每一行指定了一个空间单元的“邻居集合”。一般地,面状观测值用连通性指标:若面状单元i和j相邻,则wij=1;否则,wij=0。 点状观测值用距离指标:若点i和j之间的距离在阈值d以内,则wij=1;否则, wij0。通常约定,一个空间单元与其自身不属于邻居关系,即矩阵中主对角线上元素值为0。,19,在实际应用中,一般根据以下
8、两种规则定义邻居:公共边界如果第i和第j个空间单元具有公共边界,则认为它们是邻居,空间权重矩阵中的元素为1;否则,不是邻居,元素为0。距离 如果第i和第j个空间单元之间的距离位于给定的临界距离d之内,则认为它们是邻居,空间权重矩阵中的元素为1;否则,不是邻居,元素为0。Cliff-Ord广义空间权重矩阵,其中dij是i和j之间的距离,bij是i和j之间的公共边界占i周长的比例。,20,二元邻接矩阵:两个单元共享边界,则权重据准的元素,重心距离矩阵:两个单元的重心小于某个指定的距离,21,二元邻接矩阵的性质:, 对角线元素为零,自己不能为邻居; 矩阵具有对称性,邻居是相互的; 矩阵的行元素之和表
9、示该空间单元,直接邻居的数量。,22,对观测值在空间上不存在空间自相关(或独立、随机分布)这一原假设进行检验时,一般根据标准化以后的Morans I 值或 z 值,即:,Morans I 的检验,在统计推断的过程中,通常需要对变量x的分布做出假设。一般分两种情况:一是假设变量 x 服从正态分布;二是在分布未知的情况下,用随机化方法得到 x 的近似分布。通过在正态或随机两种分布假设下得到I的期望值和方差来分别进行假设检验。,23,在正态分布假设下,Morans I 的期望值和方差分别为:,式中,和,分别是空间权重矩阵 W 的第 i 行和第 i 列元素之和,24,在随机分布假设下,Morans I
10、 的期望值和方差分别表示为:,式中,其他符号同上。,25,通常将Morans I 解释为一个相关系数,取值范围从-1到+1。0 I 1表示正的空间自相关,I = 0表示不存在空间自相关,-1 I 0表示负的空间自相关。,当Morans I 显著为正时,存在显著的正相关,相似的观测值(高值或低值)趋于空间集聚。当Morans I 为显著的负值时,存在显著的负相关,相似的观测值趋于分散分布。当Morans I 接近期望值(-1/(n-1),随着样本数量的增大,该值趋于0)时,表明不存在空间自相关,观测值在空间上随机排列,满足经典统计分析所要求的独立、随机分布假设。,26,27,28,29,Gear
11、ys C 也是一种较常用的空间自相关统计量,其结果解释类似于Morans I(Cliff and Ord 1981)。其形式为:,对该统计量的统计推断也是根据相应的标准化Z值。,3.Gearys C,30,在正态分布假设下,Gearys C 的期望值和方差分别为:,在随机分布假设下,Gearys C的期望值和方差分别表示如下:,式中符号同Morans I的期望和方差公式。,31,Gearys C 总是正值,取值范围一般为 0 到 2 之间,且服从渐近正态分布。当Gearys C小于 1 时,表明存在正的空间自相关。当Gearys C大于 1 时,表明存在负的空间自相关。当Gearys C 值为
12、 1 时,表明不存在空间自相关,即观测值在空间上随机排列 。,32,Morans I 和 Gearys C具有描述全局空间自相关的良好统计特征,但是它们不具有识别不同类型的空间聚集模式(“hot spots ”,“cold spots”)的能力。,也就是说I 和C 指数只能分辨出相邻数据的异同,但是不能对其整体趋势进行判别。,4.Getis G,33,General G 统计量,Morans I 和Geary C 统计量均可以用来表明属性值之间的相似程度以及在空间上的分布模式,但它们并不能区分是高值的空间集聚(高值簇或热点(hot spots)还是低值的空间集聚(低值簇或冷点(cold spo
13、ts),有可能掩盖不同的空间集聚类型。Getis-Ord General G 统计量则可以识别这两种不同情形的空间集聚(Getis and Ord,1992;OSullivan and Unwin,2003)。,式中, wij(d)是根据距离规则定义的空间权重; xi和xj含义同上。,对General G 的统计检验采用下式:,34,在空间不集聚的原假设下,General G 的期望值和方差分别是:,其中,,35,当General G 值高于E(G),且Z值显著时,观测值之间呈现高值集聚。当General G 值低于E(G),且Z值显著时,观测值之间呈现低值集聚。当General G 趋近于E
14、(G)时,观测值在空间上随机分布。,36,局部空间自相关统计量,全局空间自相关的不足:它是对整个研究区域基于全局范围的一个统计量。,由于空间异质性的存在,通常研究区域上都具有不同的空间之相关值。,比如,在某些区域上的空间自相关的值可能是高的,另外一些区域上的值可能是低的,甚至可能在研究区域的某一部分中找到了正的空间自相关而在另一些区域中找到的是负的空间自相关。,5.LISA(Local Indicators of Spatial Association),37,LISA 是与I 和C相关的局部化版本,为了说明在局部尺度上空间自相关的水平,需要定义在任意面积单元上导出空间自相关数值。,38,局部
15、空间自相关(Local spatial autocorrelation),全局空间自相关统计量建立在空间平稳性这一假设基础之上,即所有位置上的观测值的期望值和方差是常数。然而,空间过程很可能是不平稳的,特别是当数据量非常庞大时,空间平稳性的假设就变得非常不现实(Ord and Getis,1992,Anselin,1995)。,局部空间自相关统计量可以用来识别不同空间位置上可能存在的不同空间关联模式(或空间集聚模式),从而允许我们观察不同空间位置上的局部不平稳性,发现数据之间的空间异质性,为分类或区划提供依据(Getis and Ord,1992 1996;Ord and Getis,1995
16、; Anselin,1994,1995)。,39,Getis和Ord(1992)提出了度量每一个观测值与周围邻居之间是否存在局部空间关联的G统计量。该统计量是某一给定距离范围内邻居位置上的观测值之和与所有位置上的观测值之和的比值,能够用来识别位置i和周围邻居之间是高值还是低值的集聚。若不包括i位置上的观测值,则为Gi统计量;若包括i位置上的观测值,则为Gi*统计量。,G统计量,Gi和Gi*统计量的具体形式分别为:,40,在不存在空间依赖性的原假设下,即位置i上的观测值与周围邻居的观测值xj之间在空间上是独立的,Gi和Gi*的期望值分别为:,Gi和Gi*的方差分别为:,其中,,41,在不存在空间
17、自相关的原假设(即Gi = 0或Gi* = 0)下,Gi 和Gi*服从渐近正态分布(Ord and Getis,1992)。因此,这两个统计量的统计检验可以根据相应的标准化形式:,,,其中,,(j i),(所有j),42,如果Z值为正,且非常显著,则表明位置i 周围的值相对较大(高于均值),高值空间集聚。如果Z值为负,且非常显著,则表明位置i周围的值相对较小(低于均值),低值空间集聚。因此,G统计量可以用来识别高值或低值的空间集聚模式。,43,Morans I等空间自相关指数反映的是空间整体的自相关,一般“侧重于研究区域空间对象某一属性取值的空间分布状态”。在一个存在全局空间自相关的样本中,可
18、能存在局部的随机性,或是在全局随机分布的样本中,也可能存在局部的空间关联。因此,需要能够识别局部不平稳的局部空间空间自相关统计量。,局部空间自相关统计指数,44,Morans I等空间自相关指数反映的是空间整体的自相关,一般“侧重于研究区域空间对象某一属性取值的空间分布状态”。实际研究中,空间自相关的分布是不均匀的,个别局域对象的属性取值对全局分析对象的影响非常显著。因此,有必要进行局域空间自相关指数计算,分析某一空间对象取值的邻近空间聚类关系、空间不稳定性及空间结构框架。特别是,当全局自相关分析不能够检测区域内部的空间分布模式时,局域空间自相关分析能够有效检测由于空间自相关引起的空间差异,判
19、断空间对象属性取值的空间热点区域或高发区域等,弥补全局空间自相关分析的不足。,局部空间自相关统计指数,45,LISA统计量,局部空间关联指标(Local Indicators of Spatial Association,LISA)并不是特指某一个统计量,所有同时满足下面两个条件的统计量都可以认为是局部空间关联指标(Anselin,1995)。每一个观测值的LISA表示该值周围相似观测值在空间上的集聚程度。所有观测值的LISA之和与全局空间关联度量指标之间成比例。,46,其中,Li表示位置i上的统计量,f是一个函数形式,yi是位置i上的观测值,Ji表示位置i周围的所有邻居集合,yJi是邻居Ji
20、上的观测值。位置i上的所有邻居通过空间权重矩阵(W)表示,如W中第i行上所有非0元素对应的列,即构成位置i的邻居集合Ji。,这样,LISA可以表达某个位置i上的观测值与周围邻居观测值之间的关系。具体表示如下:,47,LISA主要有两个目的:识别局部的空间集聚(spatial clusters)或热点(hot spot)。识别局部的非平稳性。若某个位置上的LISA非常显著,则可将该位置看作热点。若某个位置上的LISA与均值之间的差距非常大,即该位置对全局统计量的贡献超过了它的预期份额,则可将该位置看作是异常点或强影响点(如与均值之差超过2个标准差)(Anselin,1995)。,48,空间位置i
21、 的局部Gearys Ci统计量定义如下:,其中,zi和zj是观测值的标准化形式,空间权重矩阵中的元素wij采用行标准化。全局Gearys C和局部Gearys Ci统计量之间的关系是:,局部Gearys Ci,49,局部Gearys Ci统计量的伪显著水平p值的计算与局部Morans Ii统计量类似。若p值较大(如p 0.95),表明Ci值异常小,说明位置 i的观测值与周围邻居的观测值之间是正的空间联系(即相似);若p值较小(如p 0.05),表明Ci值异常大,说明位置i 的观测值与周围邻居的观测值之间是负的空间联系(即不相似或差异大)。,50,空间关联特征的可视化,在格网数据的可视化过程中
22、,空间权重矩阵和空间滞后(spatial lag)是两个非常重要的概念(Anselin and Bao 1997,Anselin 1999)。空间权重矩阵第i行的非0元素,定义了该空间单元的所有邻居。将第i行所有邻居的观测值进行加权平均,即得到变量在位置i上的空间滞后。若空间位置i上的观测值为yi,则相应的空间滞后是jwijyj。通过采用饼状图、柱状图或散点图等形式,将每个位置上的观测值和其空间滞后之间的关系表示在地图上,以便进行直观的分析。若用矩阵表示,则变量的空间滞后是空间权重矩阵(W)与观测值向量(y)的乘积(Wy)。,51,Moran 散点图,散点图是数据分析中用来表示二个变量之间相关
23、关系的一种常见的方法。表示一个变量的空间自相关关系,可以采用Moran散点图(Moran scatterplot)。Moran散点图可以用来探索空间关联的全局模式、识别空间异常和局部不平稳性等(Anselin,1994,1996)。将变量在每个位置上的观测值表示在横轴上,其空间滞后(标准化的局部空间自相关指标Morans Ii )表示在纵轴上,则二者之间的相关关系就可以用坐标系中的散点形象地表现出来。,52,由于变量观测值和其空间滞后之间的拟合程度(即直线的斜率)恰好是Morans I系数。,53,Moran散点图分为四个象限,分别对应四种不同类型的局部空间关联模式:右上象限(H-H):观测值
24、zi大于均值(high),其空间滞后也大于均值(high)。左下象限(L-L):观测值zi小于均值(low),其空间滞后也小于均值(low)。左上象限(L-H):观测值zi小于均值(low),但其空间滞后大于均值(high)。右下象限(H-L):观测值zi大于均值(high),但其空间滞后小于均值(low)。,54,右上象限(H-H)和左下象限(L-L)对应正的空间自相关,表示该位置上的观测值和周围邻居的观测值之间相似。其中,右上象限(H-H)对应高-高相似,左下象限(L-L)对应低-低相似。左上象限(L-H)和右下象限(H-L)对应负的空间自相关,表示该位置上的观测值和周围邻居的观测值之间相
25、异。其中,左上象限(L-H)对应低-高相异,右下象限(H-L)是高-低相异,即低值被周围的高值所围绕,和高值被周围的低值所围绕。,55,右上和左下两个象限分别对应G统计量中的正的空间关联(高-高)和负的空间关联(低-低)。观察右上和左下两个象限的相对密度,可以了解全局空间关联模式在多大程度上是由高值还是低值之间的关联决定的。观察左上和右下两个象限的相对密度,可以了解哪种形式的负的空间关联占主导地位。此外,观察Moran散点图的左上和右下两个象限,还可以发现潜在的空间异常。以散点图的象限中心点为圆心,做一个半径为2的圆,可以认为圆以外的观测点是异常值。,这是因为,Moran散点图是用标准化的变量
26、和其空间滞后构造的,图上2个单位的距离意味着偏离均值两个标准差,可以看作是异常值(Anselin and Bao 1997)。,56,Moran 派生图,Moran散点地图,57,当在Moran 散点地图中仅显示那些显著高或显著低的观测值时,得到Moran显著性地图(Moran significance map)。如果显著观测值属于散点图中的第一象限或第三象限,则认为存在显著空间聚集;如果属于第二或第四象限,则认为存在显著的空间差异。,Moran显著性地图,58,59,60,参考书:张学良 译. David Wong, Jay Lee . ArcViewGIS与ArcGIS地理信息统计分析.中国财政经济出版社, 2008.,