空间统计学分析分析课件.ppt

资源描述

《空间统计学分析分析课件.ppt》由会员分享，可在线阅读，更多相关《空间统计学分析分析课件.ppt（124页珍藏版）》请在三一办公上搜索。

1、第六章空间统计学分析,经典统计学研究纯随机变量变量可无限次重复观测或大量重复观测样本相互独立研究样本的数字特征,空间统计学研究区域化变量变量不能重复试验样本具有空间相关性研究样本的数字特征和区域化变量的空间分布特征,经典统计学与空间统计学的区别,空间统计分析方法由来由于空间现象之间存在不同方向、不同距离成分等相互作用，使得传统的数理统计方法无法很好地解决空间样本点的选取、空间估值和两组以上空间数据的关系等问题，因此，空间统计分析方法应运而生。空间统计分析方法组成空间统计分析方法由分析空间变异与结构的半变异函数和用以空间局部估计的克里格插值法两个主要部分组成，是GIS空间分析的一个重要技术手段

2、。,利用空间统计学进行矿产资源储量计算及平均品位估计利用空间统计学进行矿产资源预测及找矿勘探利用空间统计学进行石油勘探开发,1、在地质学中的应用,在土壤物理性质空间变异中的应用。集中在应用空间统计学方法研究土壤颜色、土粒、土壤水分、土壤水力导度、饱和水压、孔径等土壤物理性质的空间变异。在土壤化学性质空间变异中的应用。针对氮、磷、钾、钙、镁、土壤pH等土壤养分的空间相关性研究。对土壤化学性状的空间属性进行了描述和归类，同时为土壤养分管理、土壤环境背景值制图等提供了必要数据和方法。,2、在土壤学中的应用,2、在土壤学中的应用,在土壤学试验设计和采样方法中的应用分析土壤特性的空间变异规律，可有

3、效指导土壤采样数目、样点分布、采样密度及采样方法的确定。在土壤质量管理方面的应用空间统计学提供了利用已知取样点的数据去估测未采样点的土壤特性指标是否超过某一阈限的方法。近年来，空间统计学在土壤质量管理方面的应用主要集中在土壤养分管理和土壤污染研究。,3、在生态学中的应用,生态学变量空间变异性的定量描述和解释。生物特征的估计。生态学研究对象的时空变化规律分析，及不同相关研究对象的时空动态及耦合关系分析。,4、在环境学中的应用,土壤环境研究空间统计学中的变异函数和克立格插值技术是进行重金属空间结构分析、模拟和估值的主要工具，通过描述和模拟污染物的空间分布特征以及估算未采样点的取值，揭示出污

4、染物在空间上的分布迁移趋势。水环境研究用于地下水水位预测和污染物迁移扩散参数的估计、分析预测水环境污染物浓度、水质参数研究等。,5、在气象学中的应用,在数值天气预报和日常气象分析中，经常需要将不规则的站点资料插值到规则的网格。随着空间统计学方法的兴起，克立格法已经逐步应用于气象学领域。,第6章空间统计学分析,6.3 空间局部估计,6.1 空间统计分析方法的基本原理,6.2 空间自相关,6.4 确定性插值法,6.5 探索性空间数据分析,一、空间统计分析的概念20世纪60年代，法国统计学家Matheron G通过大量理论研究，形成了一门新的统计学分支，即空间统计学。空间统计学是以区域化变量理论

5、为基础，以变异函数为主要工具，研究具有地理空间信息特性的事物或现象的空间相互作用及变化规律的学科。,6.1 空间统计分析方法的基本原理,自相关空间统计分析方法假设研究区中所有的值都是非独立的，相互之间存在相关性。在空间或时间范畴内，这种相关性被称为自相关。空间统计分析的重要任务揭示空间数据的相关规律和利用相关规律进行未知点预测。由于空间统计分析包含这两个显著的任务，所以涉及两次使用样点数据，第一次用作估计空间自相关，第二次用作未知点预测。,6.1 空间统计分析方法的基本原理,二、空间统计分析中的理论假设1、区域化变量当一个变量呈空间分布时，称之为区域化。区域化变量就是指以空间点x的三个直角

6、坐标（xu,xv,xw）为自变量的随机场Z （xu,xv,xw）= Z （x）,它常常反应某种空间现象的特征。区域化变量的两重性表现在观测前把它看成是随机场，依赖于坐标（Xu，Xv，Xw），观测后是一个普通的空间三元函数值或一个空间点函数。,6.1 空间统计分析方法的基本原理,区域化变量是一种在空间上具有数值的实函数，它具有以下属性：,6.1 空间统计分析方法的基本原理,其它属性：区域化变量在一定范围内呈一定程度的空间相关，当超出这一范围之后，相关性变弱甚至消失。对于任一区域化变量，特殊的变异性可以叠加在一般的规律之上。,6.1 空间统计分析方法的基本原理,2、协方差函数在随机函数中，当只

7、有一个自变量x时称为随机过程，随机过程Z(t)在时间t1和t2处的随机变量Z(t1)、Z(t2)的二阶混合中心矩定义为随机过程的协方差函数记为CovZ(t1)，Z(t2)，即CovZ(t1)，Z(t2)=EZ(t1)EZ(t1)Z(t2)EZ(t2) (6.1),6.1 空间统计分析方法的基本原理,当随机函数依赖于多个自变量时，Z(x)=Z（Xu，Xv，Xw）称为随机场，而随机场Z(x)在空间点x和x+h处的两个随机变量Z(x)和Z(x+h)的二阶混合中心矩定义为随机场Z(x)的自协方差函数，即CovZ(x)，Z(x+h)=EZ(x)Z(x+h)EZ(x)EZ(x+h) (6.2)随机场Z(x

8、)的自协方差函数亦称为协方差函数，一般地，协方差函数依赖于空间点x和向量h。当h=0时，协方差函数变为Cov(x，x+0)=EZ(x)2EZ(x)2 (6.3),6.1 空间统计分析方法的基本原理,3、变异函数变异函数在一维条件下，当空间点x在一维x轴上变化时，区域变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差一半定义为区域变量Z(x)在x轴上的变异函数，记为(x，h)，即(x，h)=1/2*VarZ(x)Z(x+h)2 =1/2*EZ(x)Z(x+h)21/2*EZ(x)EZ(x+h)2 (6.4),6.1 空间统计分析方法的基本原理,在二阶平稳假设条件下对任意h有 EZ(x

9、+h)=EZ(x)因此，式（6.4）可改写为 (x，h)=1/2*EZ(x)Z(x+h)2 (6.5)从式（6.5）可知，变异函数依赖于x和h，当变异函数仅依赖于h，与x无关时，变异函数(x，h)可改写成(h)，即 (h)=1/2*EZ(x)Z(X+h)2 (6.6),6.1 空间统计分析方法的基本原理,4、平稳性假设及内蕴假设（1）平稳性假设设某一随机函数Z(x)，其空间分布律不因平移而改变，即若对任一向量h，关系式 G(z1,z2,x1,x2,)=G(z1,z2,x1+h,x2+h,) 成立时，则该随机函数为平稳性随机函数。确切的说，无论位移向量h多大，两个k维向量的随机变量Z(x1),Z

10、(x2),Z(xk)和Z(x1+h),Z(x2+h),Z(xk+h)有相同的分布律。,6.1 空间统计分析方法的基本原理,当区域化变量满足下列两个条件时，称该区域化变量满足二阶平稳：在整个研究区内，区域化变量Z(x)的数学期望对任意x存在且等于常数，即EZ(x)=m(常数)，任意x。在整个研究区内，区域化变量的空间协方差函数对任意x和h存在且平稳，即 CovZ(x)，Z(x+h)=EZ(x)Z(x+h)-m2=C(h)，任意x,h,6.1 空间统计分析方法的基本原理,（2）内蕴假设一些自然现象和随机函数具有无限离散性，这时区域化变量Z(x)的增量Z(x)-Z(x+h)满足下列两个条件时，就

11、称该区域化变量满足内蕴假设：在整个研究区内随机函数Z(x)的增量的数学期望为0，即 EZ(x)-Z(x+h)=0，任意x,h对于所有矢量的增量的方差函数存在且平稳 VarZ(x)-Z(x+h)=EZ(x)-Z(x+h)2=2(x,h)=2(h)，任意X,h即要求Z(x)的半变异函数存在且平稳。,6.1 空间统计分析方法的基本原理,内蕴假设可以理解为：随机函数Z(x)的增量Z(x)-Z(x+h)只依赖于分隔它们的向量h，而不依赖于具体位置x，这样，被向量h分割的每一对数据Z(x)，Z(x+h)可以看成是一对随机变量Z(x1)，Z(x2)的一个不同现实，而半变异函数(h)的估计量*(h)为 *

12、(h)=1/2N(h)*Z(xi)-Z(xi+h)2 式中，N(h)是被向量h相分隔的试验数据对的数目。,6.1 空间统计分析方法的基本原理,准平稳假设如果随机函数只在有限大小的邻域内是平稳的，则称该随机函数服从准平稳假设。准平稳（或准内蕴）假设是一种折中方案，它既考虑到某现象相似性的尺度，也顾及到有效数据的多少。,6.1 空间统计分析方法的基本原理,一、空间自相关理论在空间统计分析中，相关分析可以检测两种现象的变化是否存在相关性，若所分析的统计量为不同观察对象的同一属性变量，则称之为自相关。通过检测一个位置上的变异是否依赖于邻近位置的变异来判断该变异是否存在空间自相关性。根据变异的性质可以将

13、变异分为三种类型：绝对型变异（花的形态、颜色），等级型变异（植被密度等级）和连续型变异（形态测量、基因频率）。,6.2 空间自相关,空间自相关是针对同一个属性变量而言的，当某一测样点属性值高，而其相邻点同一属性值也高时，为空间正相关；反之，为空间负相关。当空间自相关仅与两点间距离有关时，称为各向同性；否则为各向异性。,6.2 空间自相关,二、空间自相关分析方法空间自相关方法按功能大致分为两类：全域型自相关、区域型自相关全域型自相关的功能在于描述某现象的整体分布情况，判断该现象在空间是否有聚集特性，但并不指出聚集在哪些区域。区域型自相关能够推算出聚集地的范围，原因在于： 1、由统计显著性检定的方

14、法，检定聚集空间单元相对于整体研究范围而言，其空间自相关是否足够显著，若显著性大，即是该现象聚集的地区。 2、度量空间单元对整个研究范围空间自相关的影响程度，影响程度大的往往是区域内的“特例”，“特例点”往往为聚集点。最为常用的计算空间自相关方法是：Morans I、Gearys C、Getis、Join count以及空间自相关系数图等,6.2 空间自相关,1、Morans I法建立空间区位相邻矩阵：若在区域内有n个空间单元，每个空间单元皆有一个观察值X，空间单元i与空间单元j的空间关系构成Wij的空间相邻矩阵，以1表示i和j相邻，以0表示i和j不相邻。其简单定义为 Wijnn 其中，Wij

15、为表示区位相邻矩阵，Wij=1表示区位相邻，Wij=0则表示区位不相邻。,6.2 空间自相关,Moran Index值是应用较广泛的一种空间自相关性判定指标，其计算式为式中，，。Wij表示区位相邻矩阵；Cij表示属性相似矩阵；Xi和Xj分别为i和j空间单元属性数据值，Wij=1代表空间单元相邻，Wij=0代表不相邻，ij，Wii=0。,6.2 空间自相关,（6.16）,若母体为随机分配，常采用统计验证的方式进一步判定Moran Index的期望值和变异数。I的期望值为其变异数为其中，；；；,6.2 空间自相关,；Wi和Wi为相关权重矩阵i及j行的总和。,I值结果一定介于-1到1之间；

16、I0为正相关，数值越大表示空间分布的相关性越大，即空间上聚集分布的现象越明显；I0为负相关，数值越小代表示相关性小；I趋于0时，代表空间分布呈现随机分布的情形。,6.2 空间自相关,由于Morans I值的量测仅能表明属性相似的单元间是否呈聚集状态，无法由简洁的数值表达空间中的聚集分布状态，根据各空间间隔自相关值的计算，Morans I公式可改写为其中，d代表空间间隔；Wij代表区位相邻矩阵。d=1代表空间单元是相邻的；d=2定义为与间隔一个的空间单元相接邻，而与原来的空间单元不相邻。,6.2 空间自相关,（6.19）,区域空间自相关的定义为其中，Ii为Local Moran Index，

17、Wij为区位相邻矩阵。即：n个区域空间自相关值累加和即全域空间自相关的值。,6.2 空间自相关,（6.20）,2、Gearys Contiguity Ratio C法与Morans I类似，其表达式为 C = 1，表示不相关；0 1表示负相关。,6.2 空间自相关,（6.21）,3、Getis统计法Anselin曾归纳各种空间聚集的研究方法，该方法经常表达为其中，Wij代表i与j的空间关系，即类似上述空间相邻权重矩阵Wij；而yij则是i与j的观察式。 Yij的假设与观念不同，即为不同的空间聚集研究方法。,6.2 空间自相关,（6.22）,全域型Getis 其中，wij(d)为距离d内的空间

18、相邻权重矩阵。若i与j相邻，wij(d)=1；若i与j不相邻，wij(d)=0。区域型Getis 可量测每一个i在距离d的范围内，与每个j的相关程度。,6.2 空间自相关,（6.23）,（6.24）,4、空间自相关系数图分析法（以某地区为例）（1）图中有两处隆起处，代表微视尺度及宏观尺度上，存在显著的聚集分布现象，但聚集现象不存在于中观尺度上。（2）空间间隔为2时，空间自相关值有波峰，即在空间间隔为2时，其空间分布有最大的自相关性。,6.2 空间自相关,应用实例,中国大陆30个省级行政区人均GDP的空间关联分析。根据各省（直辖市、自治区）之间的邻接关系，采用二进制邻接权重矩阵，选取各省（直辖

19、市、自治区）19982002年人均GDP的自然对数，依照公式计算全局Moran指数I，计算其检验的标准化统计量Z（I），结果如下表所示。,从表中可以看出，在19982002年期间，中国大陆30个省级行政区人均GDP的全局Moran指数均为正值；在正态分布假设之上，对Moran指数检验的结果也高度显著。这就是说，在19982002年期间，中国大陆30个省级行政区人均GDP存在着显著的、正的空间自相关，也就是说各省级行政区人均GDP水平的空间分布并非表现出完全的随机性，而是表现出相似值之间的空间集聚，其空间联系的特征是：较高人均GDP水平的省级行政区相对地趋于和较高人均GDP水平的省级行政区相邻，

20、或者较低人均GDP水平的省级行政区相对地趋于和较低人均GDP水平的省级行政区相邻。,选取2001年我国30个省级行政区人均GDP数据，计算局部Gi统计量和局部Gi统计量的检验值Z(Gi)，并绘制统计地图如下。,检验结果表明，贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著，重庆的Z值在0.1的显著性水平下显著，该4省市在空间上相连成片分布，而且从统计学意义上来说，与该区域相邻的省区，其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚，据此可认识到西部落后省区趋于空间集聚的分布特征。,东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著

21、，天津的Z值在0.1的显著性水平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围，东部发达地区的空间集聚分布特征也显现出来。,以（Wz,z）为坐标，进一步绘制Moran散点图可以发现，多数省（直辖市、自治区）位于第1和第3象限内，为正的空间联系，属于低低集聚和高高集聚类型，而且位于第3象限内的低低集聚类型的省（直辖市、自治区）比位于第1象限内的高高集聚类型的省（直辖市、自治区）更多一些。,上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出，从人均GDP水平相对地来看：高值被高值包围的高高集聚省（直辖市）有：北京、天津、河南、安徽、湖北、江

22、西、海南、广东、福建、浙江、山东、上海、江苏；低值被低值包围的低低集聚省（自治区）有：黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州；被低值包围的高值省（直辖市）有：重庆、广西、河北；被高值包围的低值省份只有湖南。,空间局部估计空间局部估计也称空间局部插值，它是利用在地表不同位置采集的样点生成一个连续表面。常见的克立格插值模型有：普通克立格、简单克立格、泛克立格、概率克立格、指示克立格、析取克立格及协同克立格等插值一般分为两步：（1）样点空间结构量化分析半变异函数分析；（2）对未知点进行预测,6.3 空间局部估计,20世纪50年代，南非采矿工程师Danie

23、l Krige总结多年金矿勘探经验，提出根据样品点的空间位置和样品点之间空间相关程度的不同，对每个样品观测值赋予一定的权重，进行移动加权平均，估计被样品点包围的未知点矿产储量，形成了克里金估计方法(kriging)的雏形。 20世纪60年代初期，法国地质数学家Georges Matheron提出数学形式的区域化变量，严格地给出了基本变异函数(variogram)的定义和一般克里金估计方法。,一、半变异函数分析1、半变异函数及其性质半变异函数是一个关于数据点的半变异值与数据点间距离的函数，设区域化变量Z(xi)和Z(xi+h)分别是Z(x)在空间位置xi和xi+h上的观测值(i=1,2,N(h)

24、，则半变异函数可由下式进行估计其中，N(h)是分隔距离为h的样本量。前提： Z(xi)为区域化变量且满足平稳条件和本征假设,6.3 空间局部估计,（6.25）,空间统计学将变异函数理论模型分为3大类：第1类是有基台值模型，包括球状模型、指数模型、高斯模型、线性有基台值模型和纯块金效应模型；第2类是无基台值模型，包括幂函数模型、线性无基台值模型、抛物线模型；第3类是孔穴效应模型。下面有代表性地介绍几种常见的变异函数理论模型。,6.3 空间局部估计,纯块金效应模型:其一般公式为式中：c00，为先验方差。该模型相当于区域化变量为随机分布，样本点间的协方差函数对于所有距离h均等于0，变量的

25、空间相关不存在。,球状模型:其一般公式为式中：c0为块金（效应）常数;c为拱高;c0+c为基台值;a为变程。当c0=0，c=1时，称为标准球状模型。球状模型是地统计分析中应用最广泛的理论模型，许多区域化变量的理论模型都可以用该模型去拟合。,指数模型:其一般公式为式中：c0和c意义与前相同，但a不是变程。当h=3时，，即，从而指数模型的变程约为。当c0=0，c=1时，称为标准指数模型。,高斯模型:其一般公式为式中：c0和c意义与前相同，a也不是变程。当时，，即，因此高斯模型的变程约为。当时，称为标准高斯函数模型。,幂函数模型:其一般公式为式中：为幂指数。当变化时，这种

26、模型可以反映在原点附近的各种性状。但是必须小于2，若，则函数就不再是一个条件非负定函数了，也就是说它已经不能成为变异函数了。,对数模型:其一般公式为显然，当，这与变异函数的性质不符。因此，对数模型不能描述点支撑上的区域化变量的结构。,线性有基台值模型:其一般公式为式中:该模型的变程为a，基台值为。线性无基台值模型:其一般公式为从式中可以看出，该模型没有基台值，也没有变程。,例如:某地区降水量是一个区域化变量，其变异函数的实测值及距离h的关系见下表，下面我们试用回归分析方法建立其球状变异函数模型。,从上面的介绍和讨论，我们知道，球状变异函数的一般形式为当时，有,如果记

27、，则可以得到线性模型根据表中的数据，对上式进行最小二乘拟合，得到计算可知，上式的显著性检验参数F=114.054，R2=0.962，可见模型的拟合效果是很好的。,比较前两式，并做简单计算可知：c0=2.048，c=1.154，a=8.353，所以，球状变异函数模型为,2、影响半变异函数的主要因素（1）样点间的距离和支撑的大小为了使建立的半变异函数模型能准确地反映各种尺度上的变化特征，要确定采样的最小尺度。在采样之前，首先需要在满足精度的前提下确定最佳的采样尺度。用块段取样时，要考虑支撑的大小，一般采用正则化变量消除其影响。,6.3 空间局部估计,（2）样本数量的大小样本数量在对空间统计学中

28、主要指计算实际半变异函数值时的点对数目。实际取样工作中点对数目不能无限，一般要求在变程a以内各距离上的点对数目不应小于20对。在小尺度距离上相对要多一些，大尺度距离相对少一些。（3）异常值的影响如果异常值比较多，块金值C0要增大，随机成分的影响加强，而空间自相关的影响消弱。对于半变异函数的模型来讲，块金效应值C0越小越好。,6.3 空间局部估计,（4）比例效应的影响如果平均值和标准差之间存在明显的线性关系，则比例效应存在，反之亦然。当样品方差随着平均值的增加而增加时，称正比例效应，反之亦然。比例效应的存在会使实际半变异函数值产生畸变，消除比例效应的方法主要是通过对原始数据取对数，或者通过相对半

29、变异函数的求解。,6.3 空间局部估计,（5）漂移的影响当漂移存在时，半变异函数值不再是半变异函数的无偏估计。要消除漂移对半变异函数的影响，主要通过建立合适的漂移形式，即EZ(x)=m(x)中，m(x)的函数式，它使半变异函数曲线真实地符合实际半变异函数值。,6.3 空间局部估计,3、半变异模型的合并假设数据中有两个独特的结构，只用单一模型无法表达，就可以用两个单独的模型来模拟这个半变异图，然后将它们合并为一个模型。,6.3 空间局部估计,4、半变异模型的步长分组与步长大小的选择在所有样点中两两之间均能形成样点对，如下图。要在半变异云图上画出所有样点对是无法操作的。应设法将样点对按照它们之间的

30、距离和方向进行分组，这个分组过程称为步长分组。,6.3 空间局部估计,在步长分组过程中将样点对按相同距离和方向进行分组，这样每一个点都具有统一的原点，这个特性使理论半变异图具有对称性。下图中，连线1和2具有非常相似的距离和方向。,6.3 空间局部估计,步长大小的选择：如果步长太大，短程的自相关性将被掩盖；如果步长太小，就会产生许多空的步长组，并且每个步长组中的样点数太少不能代表步长组的“平均值”。当用规则格网取样时，格网间距通常可以用来确定步长大小；如果数据是通过不规则取样的，步长大小乘以步长数应等于样点间最大距离的0.5倍。,6.3 空间局部估计,5、空间数据变化的方向效应Z(x)能通过半变

31、异函数反应区域化变量的随机性和结构性，因此其在每个方向上呈现相同或不同的性质。如果在各个方向上Z(x)的变异性相同或相近，称Z(x)为各向同性。反之，称为各向异性。在结构分析中，半变异函数的变程a在不同方向上的大小反映各向同性或各向异性，如下图所示。,6.3 空间局部估计,6.3.2、克立格插值法概述克立格（Kriging）插值法，又称空间局部估计或空间局部插值法，是空间统计学的主要内容之一。克立格法是建立在变异函数理论及结构分析基础之上的，它是在有限区域内对区域化变量的取值进行无偏最优估计的一种方法。克立格法适用的条件是，如果变异函数和相关分析的结果表明区域化变量存在空间相关性。其实质

32、是利用区域化变量的原始数据和变异函数的结构特点，对未采样点的区域化变量的取值进行线性无偏、最优估计。,6.3 空间局部估计,对于任意待估计点的估计值Z(x0)均可以通过待估测点范围内的n个观测样本值Z(xi)（=1, 2, , n）的线性组合得到，即其中，i为权重系数，其和等于1，Z(xi)为观测样本值，它们位于区域内xi位置。,由于克立格法是一种无偏最优估计，i的确定应满足利用拉格朗日定理，由式（6.27）和式（6.28）可推导出i与半方差之间的矩阵方程,6.3 空间局部估计,（6.28）,（6.27）,（6.29）,其中，由式（6.29）代入式（6.26）计算内插估计值Z(x0),6.3

33、空间局部估计,三、常见克立格模型1、普通克立格模型当区域化变量Z(x)的数学期望EZ(x)=m为未知常数时，常采用普通克立格法进行局部估计。普通克立格模型为在运用普通克立格法进行局部估计时，设待估块段为V，中心为x，其平均值为ZV，则,6.3 空间局部估计,（6.31）,（6.32）,（6.33）,在待估块段V的领域内，存在一组n个已知样点xi（i=1, 2, , n），其观测值为Z(xi)，其数学期望也为m。令ZV#为ZV的线性估计量，由n个已知的样点观测值Z(xi)构成的线性组合，即,6.3 空间局部估计,（6.34）,在满足下面两个条件时，ZV#为ZV的线性无偏、最优估计量（1）无偏

34、性条件当时，，ZV#为ZV的无偏估计量。（2）最优性条件在满足无偏性条件下，估计方差为在无偏性条件下，使估计方差最小，则ZV#为ZV的无偏、最优估计量。,6.3 空间局部估计,（6.35）,2、简单克立格模型简单克立格插值模型可以表示为简单克立格法可以使用半变异函数或协方差函数进行分析，可进行变换和剔除趋势，也可进行测量误差分析。,6.3 空间局部估计,（6.36）,3、泛克立格模型泛克立格法是在漂移的形式EZ(x)=m(x)和非平稳随机函数Z(x)的协方差已知的情况下，一种考虑到有漂移的无偏线性估计量的空间统计方法，其模型可以表示为,6.3 空间局部估计,（6.37）,4、指示克

35、立格模型指示克立格法的模型可表示为其中，I(s)是一个二进制变量。应用二进制变量后，指示克立格法的预测精度将超过普通克立格法。,6.3 空间局部估计,（6.38）,5、析取克立格模型析取克立格法的模型表达为将指示克立格法的指示函数进行一般化处理便得到析取克立格法的指示函数表达式,6.3 空间局部估计,（6.39）,（6.41）,6、协同克立格模型普通协同克立格法的模型下式所示协同克立格法应用过程中引用了协同变量，以求预测的结果更好。,6.3 空间局部估计,（6.42）,四、克立格模型应用条件这是一个二阶多项式趋势面方程，由空间坐标(x, y)经线性回归分析获得。如果趋势方程中的回归系数是未知的

36、，便形成了泛克立格模型；如果在任何时候趋势是已知的，会形成简单克立格模型；基于多个变量的克立格模型便形成了协同克立格模型；如果在协同克立格模型中使用的是未经任何变换的Z(s)，便形成了概率克立格模型。,6.3 空间局部估计,（6.44）,地理学中可能遇到的问题：了解天津市空气质量宏观分布天津市空气质量监测点了解我国某个地区的气候状况气象站分布温度降水某观测站因意外存在缺测、漏测解决问题的难点：到研究区每个点进行观测是非常困难的时间、人力或财力都不允许。,空间插值导言,GIS不仅对实际可视的地面对象进行计算，还可以对实际上无法显示，但是可以用数值表示并可视化，称为统计面。构建统计面实际上和地形分

37、析方法类似，只是要求输入的数据为点数据样本。由于点数据无法形成一个面，因此需要对点与点之间的空白区域进行估计，以构成一个完整的面，这个构成，成为空间插值。,如何生成表面？如何才能获得尽可能精确的表面？如何评价和比较分析的结果？,空间插值要解决的问题,一、空间插值的概念,空间插值：用已知点的数值来估算其他点的数值的过程。内插:在已观测点的区域内估算未观测点的数据的过程；外推:在已观测点的区域外估算未观测点的数据的过程。预测通过已知的空间数据，找到一个函数关系式，使关系式最好得逼近这些已知的空间数据，并能够根据该函数关系式，推求出区域范围内其他任意点或多边形分区范围的值。,空间插值的结果是形

38、成栅格，因此空间插值也可以理解为将点状矢量数据转化为栅格数据的过程。也是将点数据转换为面数据的一种方法。,将空间上离散点的测量数据转换为连续的曲面数据，即填补样本点之间的数据空白，以便与其它空间现象的分布进行建模研究。,一、空间插值的概念,已知数据,函数关系式,未知数据,从存在的观测数据中找到一个函数关系式,使该关系式最好的逼近这些已知的空间数据，并能根据函数关系式推求出区域范围内其它任意点的值。,距离衰减效应空间位置上越靠近的点，越可能具有相似的观察值；而距离越远的点，其特征值相似的可能性越小。Tobler(1970)”地理学第一定律”描述了这样的性质：所有的事物或现象在空间上都是有联系的，

39、但相距近的事物或现象之间的联系一般较相距远的事物或现象间的联系要紧密。,二、空间插值的理论假设,缺值估计如何在没有测点的地区得到我们需要的数据？测点自然或人为的原因，缺少某天或某个时间段的数据。内插等值线形象直观的显示空间数据分布平面制图数据格网化以不规则点图元组织的Z变量的数据，并不适合于图形显示，也不适于进行分析。多数空间分析要求将Z值转换成一个规则间距空间格网，或者转换成不规则三角形网。规则格网数据更好的显示空间数据连续分布,三、空间插值意义,二、空间插值的类型整体插值和局部插值；精确插值和近似插值。确定性插值和地统计插值；,整体插值：用研究区所有采样点数据进行全区特征拟合。在整个

40、区域用一个数学函数表达地形曲面，采用全部控制点计算未知点数据。整个区域的数据都会影响单个插值点，单个数据点变量值的增加、减少或者删除，都对整个区域有影响。典型例子是：全局趋势面分析、回归模型、Fourier Series（周期序列）,1、整体插值和局部插值,局部内插法只使用邻近的数据点（样本控制点）来估计未知点的值，步骤如下：定义一个邻域或搜索范围；搜索落在此邻域范围的数据点；选择能表达这有限个点空间变化的数学函数；为未知的数据点赋值。将复杂的地形地貌分解成一系列的局部单元，在这些局部单元内部地形曲面具有单一的结构，由于范围的缩小和曲面形态的简化，用简单曲面即可描述地形曲面。局部内插方法：

41、泰森多边形（Voronoi边形、边界内插）样条函数插值法反距离权重内插Kriging插值（空间自由协方差最佳内插）密度估算单个数据点的改变只影响其周围有限的数据点。,局部内插法,整体插值方法将小尺度的、局部的变化看作随机和非结构性噪声，从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷。整体插值方法通常不直接用于空间插值，而是用来检测总趋势和不同于总趋势的最大偏离部分，即剩余部分，在去除了宏观趋势后，可用剩余残差来进行局部插值。,整体插值注意的问题,精确插值：产生通过所有观测点的曲面。在精确插值中，插值点落在观测点上，内插值等于估计值。近似插值：插值产生的曲面不通过所有观测点。当

42、数据存在不确定性时，应该使用近似插值，由于估计值替代了已知变量值，近似插值可以平滑采样误差。,2、精确插值和非精确（近似）插值,确定性方法基于未知点周围点的值和特定的数学公式，来直接产生平滑的曲面；,3、确定性方法和地统计（随机性）方法,基于自相关性 (测量点的统计关系)，根据测量数据的统计特征产生曲面；由于建立在统计学的基础上，因此不仅可以产生预测曲面，而且可以产生误差和不确定性曲面，用来评估预测结果的好坏多种 kriging 方法,地统计学插值,基于自相关性 (测量点的统计关系)，根据测量数据的统计特征产生曲面；由于建立在统计学的基础上，因此不仅可以产生预测曲面，而且可以产生误差和不确定性

43、曲面，用来评估预测结果的好坏多种 kriging 方法,地统计学插值,确定性插值法是使用数学函数进行插值，以研究区域内部的相似性或者以平滑度为基础，由已知样点来创建预测表面的插值方法。确定性插值法分为全局性插值法和局部性插值法，又分为精确性插值方法和非精确性插值方法。,6.4 确定性插值法,一、反距离加权插值法反距离插值方法最早由 Shepard 提出(Richard Franke,1982)提出的，并逐步得到发展。是一种局部方法，假设未知值的点受较近控制点的影响比较远控制点的影响更大。每个采样对插值结果的影响随距离增加而减弱，因此距目标点近的样点赋予的权重较大。,6.4 确定性插值法,一、反

44、距离加权插值法反距离加权法使用区域内已知的样点值来预测除样点外的任何位置的值,6.4 确定性插值法,反距离加权插值法的一般公式为确定权重的计算公式为 p为参数，可以通过求均方根预测误差的最小值确定其最佳值。,6.4 确定性插值法,（6.45）,（6.46）,二、全局多项式内插法全局多项式插值就像把一张纸插入到那些取值大小不同的样点之间（如下图）由采样点值拟合的全局多项式表面起伏变化平缓，它能够捕捉到数据集中潜在的粗糙数据。,6.4 确定性插值法,全局多项式插值法适用的情况有：（1）当一个研究区域的表面变化缓慢，可以采用全局多项式插值法对该研究区进行表面插值；（2）检验长期变化的、全局性趋势的影

45、响时一般采用全局多项式插值法,6.4 确定性插值法,三、局部多项式插值法局部多项式插值法是将一个复杂的表面进行分解，并用每个小平面的中心值来预测研究区中每一点的值，从而拟合出更为准确、真实表面的一种插值方法。局部多项式插值法适于用特定的多项式方程对指定的相邻区域内的所有点进行插值当数据集中含有短程变异时，局部多项式插值表面则能更好地描述这些短程变异。,6.4 确定性插值法,四、径向基函数插值法径向基函数法径向基函数法是人工神经网络方法中的一种。由径向基函数生成的表面不仅能够反映整体变化趋势而且可以反映局部变化。径向基函数包括五种不同的基本函数：平面样条函数、张力样条函数、规则样条函数、高次曲面

46、函数和反高次曲面样条函数,6.4 确定性插值法,径向基函数法就如同将一个橡胶膜插入并经过各个已知样点，同时又使表面的总曲率最小，如下图。径向基函数适用于对大量点数据进行插值计算从而获得平滑表面,6.4 确定性插值法,规则样条插值拟合的曲面光滑、渐变，可能超出采样点的范围。权重在曲率最小化表达式中，定义曲面的3阶导权重，控制表面的平滑度。权重越大，曲面越光滑；权重必须大于或等于0，常取值为0， 0.001， 0.01，0.1， 0.5等。张力样条拟合的曲面不似前者那样光滑。权重：定义张力的权重。该系数越大，拟合表面越粗糙。权重必须大于或等于0，常取值为0， 1， 5，10等。,样条插值类型

47、,薄板样条函数是以最小曲率面拟合控制点，薄板样条函数的估算由下式计算,薄板样条函数Thin-plate splines,薄板样条函数函数的一个主要问题是在数据贫乏地区的坡度较大，经常涉及如同过伸的情况。各种用于订正过伸的方法有：薄板张力样条，规则样条。,薄板样条函数Thin-plate splines,不适用于在短距离内属性有较大变化的地区，否则估计结果偏大。样条内插的误差不能直接估算，同时在实践中要解决的问题是样条块的定义以及如何在三维空间中将这些块拼成复杂曲面而又不至于引入原始曲面中所没有的异常现象等问题。,样条插值插值评价,探索性空间数据分析(ESDA)ESDA是指利用统计学原理和图形图

48、表相结合对空间信息的性质进行分析、鉴别，用以引导确定性模型的结构和解法。ESDA与EDA区别在于它考虑了数据的空间特性，在方法上它将数据分解为一般趋势和叠加于其上的局部变化两部分。然后用一定的数学函数去拟合由样本点产生的经验变率函数，进行诸如克立格内插等空间操作。,6.5 探索性空间数据分析,一、探索性空间数据分析的基本理论1、基本思想探索性数据分析的基本思想是：让数据说话，即先分析数据再建立模型；不局限于方法的理论根据，以一种比较松散的、非正式的方式分析数据。,6.5 探索性空间数据分析,探索性数据分析探索性数据分析的整个操作步骤大体可以划分为两大阶段：探索阶段和证实阶段探索性数据分析提供了

49、各种详细考察一组数据的方法，证实性数据分析估计观察到的模式或效应的再现性。整个探索性数据分析的过程有四个主题，即耐抗性、残差、数据转换以及图示。,6.5 探索性空间数据分析,（1）耐抗性耐抗性即对数据的不良表现不敏感（2）残差残差是从原始数据中减去概括性统计量后所剩余的部分，其公式为：残差=原数据-拟合值。,6.5 探索性空间数据分析,（3）数据转换数据转换涉及到用什么样的尺度能够帮助简化对该数据的分析探索性数据分析中最常用到的数据转换方法来自一个被称为“指数变换”的函数族（4）图示通过显示图示满足分析者观察数据、拟合值、诊断指标及残差表现等的需要，从而揭示数据意料之外的特性及表现。,6.5

50、探索性空间数据分析,2、基本内容探索性空间数据分析的内容包括以下几个方面：（1）检查数据是否有错误（2）获得数据的分布特征（3）对数据规律的初步考察,6.5 探索性空间数据分析,二、探索性空间数据分析的数学方法1、直方图直方图是一种适用于对大量样点数据进行整理加工，找出其统计规律，以便对其总体分布特征进行推断的方法。直方图方法中两个重要的参数：频率分布和概括性的统计指标,6.5 探索性空间数据分析,（1）位置指标位置指标提供该分布中心及其他部分的位置信息（2）分布指标均值周围点的分布是描述频率分布的另一个特征，数据的方差是所有观测值与均值的平方离差的均值。（3）形状指标偏斜系数用来描述分

展开阅读全文