ARCGIS空间统计分析课件.ppt

资源描述

《ARCGIS空间统计分析课件.ppt》由会员分享，可在线阅读，更多相关《ARCGIS空间统计分析课件.ppt（81页珍藏版）》请在三一办公上搜索。

1、1,ARCGIS空间统计分析,2,空间统计工具功能,3,ARCGIS“空间统计”工具箱概述,4,注意:ARCGIS“空间统计”工具箱,只要分析中涉及距离（对于空间统计总是如此），就应使用投影坐标系（而不是基于度、分、秒的地理坐标系）对数据进行投影。,5,1.ARCGIS空间统计任务,汇总某分布模式的关键特征。标识具有统计显著性的空间聚类（热点/冷点）和空间异常值。评估聚类或分散的总体模式。对空间关系建模。,6,1.1汇总关键特征,7,1.2标识具有统计显著性的聚类,8,1.3评估整体空间模式,9,1.4关系建模,10,2.“空间统计”分析工具,空间统计工具箱包含一系列用于分析空间分布、模

2、式、过程和关系的统计工具。尽管空间统计和非空间统计（传统统计方法）在概念和目标方面可能存在某些相似性，但空间统计具有其固有的独特性，因为它们是专门为处理地理数据而开发的。与传统的非空间统计分析方法不同，空间统计方法是将地理空间（邻域、区域、连通性和/或其他空间关系）直接融入到数学逻辑中。,11,2.“空间统计”分析工具,“分析模式”工具集中的工具都采用推论式统计，它们以零假设为起点，假设要素或与要素相关的值都表现成空间随机模式。然后它们再计算出一个 p 值用来表示零假设的正确概率（观测到的模式只不过是完整空间随机性的许多可能版本之一）。在制定特定决策时可能需要高置信度的数据，这时，计算概率就可

3、能很重要。,12,2.1“分析模式”工具集,13,2.2“分析模式”工具中各方法的工作原理（计算方法）与结果分析,14,2.2.1.平均最近邻的计算,15,2.2.1 平均最近的相邻要素,“平均最近邻”工具将返回五个值：平均观测距离、预期平均距离、最近邻指数、z 得分和 p 值。,16,2.2.1 平均最近的相邻要素,z 得分和 p 值结果是统计显著性的量度，用来判断是否拒绝零假设。对于“平均最近邻”统计，零假设指明要素是随机分布的。“最近邻指数”的表示方式是“平均观测距离”与“预期平均距离”的比率。预期平均距离是假设随机分布中的邻域间的平均距离。如果指数小于 1，所表现的模式为聚类；如果指数

4、大于 1，则所表现的模式趋向于离散或竞争。平均最近邻方法对“面积”值非常敏感（面积参数值的细微变化都能导致结果产生巨大变化）。因此，“平均最近邻”工具最适用于对固定研究区域中不同的要素进行比较。可对研究区域面使用“计算面积”工具以获得面积参数值。,17,2.2.2高/低聚类(Getis-Ord General G)的计算,18,2.2.2高/低聚类(Getis-Ord General G)的计算,19,2.2.2高/低聚类(Getis-Ord General G)的计算,20,2.2.2高/低聚类(Getis-Ord General G),“高/低聚类”工具可返回 5 个值：General G

5、观测值、General G 期望值、方差、z 得分及 p 值。,21,2.2.2 高/低聚类(Getis-Ord General G),输入字段应包含多种非负值。如果输入字段包含负值，将显示错误消息。此外，此统计数学方法要求待分析的变量存在一定程度的变化；如，如果所有输入都是 1 便无法求解。如果要使用此工具分析事件数据的空间模式，应考虑聚合事件数据。z 得分和 p 值是统计显著性的量度，用来判断是否拒绝零假设。对于此工具，零假设表示与要素相关的值随机分布。,22,2.2.2 高/低聚类(Getis-Ord General G),“高/低聚类”工具可返回 5 个值：General G 观测

6、值、General G 期望值、方差、z 得分及 p 值。,23,2.2.3多距离空间聚类分析（Ripleys K 函数）的计算,24,2.2.3 多距离空间聚类分析(Ripleys K 函数),确定要素（或与要素相关联的值）是否显示某一距离范围内统计意义显著的聚类或离散。,25,2.2.3 多距离空间聚类分析(Ripleys K 函数),确定要素（或与要素相关联的值）是否显示某一距离范围内统计意义显著的聚类或离散。,26,2.2.3 多距离空间聚类分析(Ripleys K 函数),工具输出是一个包含以下字段的表：ExpectedK 和 ObservedK 分别包含 K 预期值和 K 观测值。

7、DiffK 字段包含 K 观测值与 K 预期值的差值。如果指定了置信区间选项，则附加字段 LwConfEnv 和 HiConfEnv 也将包含在输出表中。这些字段包含工具的每个迭代（由距离段数量参数指定）的置信区间信息。K 函数还可以创建图层汇总结果。如果特定距离的 K 观测值大于 K 预期值，则与该距离（分析规模）的随机分布相比，该分布的聚类程度更高。如果 K 观测值小于 K 预期值，则与该距离的随机分布相比，该分布的离散程度更高。如果 K 观测值大于 HiConfEnv 值，则该距离的空间聚类具有统计学上的显著性。如果 K 观测值小于 LwConfEnv 值，则该距离的空间离散具有统计学上

8、的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示，而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。折线图以图层方式创建。,27,2.2.3 多距离空间聚类分析(Ripleys K 函数),工具输出是一个包含以下字段的表：ExpectedK 和 ObservedK 分别包含 K 预期值和 K 观测值。DiffK 字段包含 K 观测值与 K 预期值的差值。如果指定了置信区间选项，则附加字段 LwConfEnv 和 HiConfEnv 也将包含在输出表中。这些字段包含工具的每个迭代（由距离

9、段数量参数指定）的置信区间信息。K 函数还可以创建图层汇总结果。如果特定距离的 K 观测值大于 K 预期值，则与该距离（分析规模）的随机分布相比，该分布的聚类程度更高。如果 K 观测值小于 K 预期值，则与该距离的随机分布相比，该分布的离散程度更高。如果 K 观测值大于 HiConfEnv 值，则该距离的空间聚类具有统计学上的显著性。如果 K 观测值小于 LwConfEnv 值，则该距离的空间离散具有统计学上的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示，而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集

10、在该距离内表现为离散。折线图以图层方式创建。,28,2.2.4空间自相关(Global Morans I)的计算,29,2.2.4空间自相关(Global Morans I)的计算,30,2.2.4空间自相关(Global Morans I),“空间自相关”工具将返回五个值：Morans I 指数、预期指数、方差、z 得分及 p 值。用 z 得分或 p 值指示统计显著性时，如果Morans I 指数值为正则指示聚类趋势，如果 Morans I 指数值为负则指示离散趋势。Global Morans I 工具通过计算 z 得分和 p 值来指示您是否可以拒绝零假设。此种情况下，零假设表示要素值随机分

11、布于研究区域中。,31,2.2.5 z 得分和p 值,大多数统计检验在开始时都首先确定一个零假设。模式分析工具（“分析模式”工具集和“聚类分布制图”工具集）的零假设是完全空间随机性(CSR)，它或者是要素本身的完全空间随机性，或者是与这些要素关联的值的完全空间随机性。模式分析工具所返回的 z 得分和 p 值可以判断出是否可以拒绝零假设。通常，运行其中一种模式分析工具，同时希望 z 得分和 p 值会指明可以拒绝零假设，因为此工具将表明：要素（或与要素关联的值）会表现出具有统计显著性的聚类或分散，而不是随机模式。只要在空间数据中发现聚类这样的空间结构，就证明某些基础空间过程在发挥作用。p 值表示

12、概率。是所观测到的空间模式由某一随机过程创建的概率。当 p 很小时（足够小？），意味着所观测到的空间模式不太可能产生于随机过程（小概率），因此您可以拒绝零假设。Z 得分是标准差的倍数。如返回的 z 得分为+2.5，我们就会说，结果是 2.5 倍标准差。z 得分和 p 值都与标准正态分布相关联。,32,2.2.5 z 得分和p 值,在正态分布的尾部出现非常高或非常低的 z 得分（负值），这些得分与非常小的 p 值相关。当得到很小的 p 值以及非常高或非常低的 z 得分时，就表明观测到的空间模式不太可能反映出零假设(CSR)所表示的理论上的随机模式。,33,2.2.5 z 得分和p 值,34,2.

13、2.5 z 得分和p 值,35,2.3“聚类分布制图”工具集,“聚类分布制图”工具可通过执行聚类分析来识别具有统计显著性的热点、冷点和空间异常值的位置。当根据一个或多个聚类的位置需要执行行动时，“聚类分布制图”工具集的用途特别明显。,36,2.3.1“聚类和异常值分析(Anselin Local Morans I)”的计算,37,2.3.1“聚类和异常值分析(Anselin Local Morans I)”的计算,38,2.3.1“聚类和异常值分析(Anselin Local Morans I)”的计算,39,2.3.1“聚类和异常值分析(Anselin Local Morans I)”,给定

14、一组加权要素，使用 Anselin Local Morans I 统计量来识别具有统计显著性的热点、冷点和空间异常值。正值 I 表示要素具有包含同样高或同样低的属性值的邻近要素；该要素是聚类的一部分。负值 I 表示要素具有包含不同值的邻近要素；该要素是异常值。在任何一个实例中，要被视为具有统计学上的显著性的聚类和异常值，要素的 p 值必须足够小。,40,2.3.1“聚类和异常值分析(Anselin Local Morans I)”的计算,基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素，会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面，

15、使用所有要素部分的加权平均中心来计算质心。点要素的加权项是 1，线要素的加权项是长度，而面要素的加权项是面积。输入字段应包含多种值。此方法要求待分析的变量存在一定程度的变化；如果所有输入都是 1 便无法求解。如果要素的 z 得分是一个较高的正值，则表示周围的要素拥有相似值（高值或低值）。输出要素类中的 COType 字段会将具有统计显著性（0.05 的显著水平）的高值聚类表示为 HH，将具有统计学显著性（0.05 的显著水平）的低值聚类表示为 LL。如果要素的 z 得分是一个较低的负值（如-1.96），则表示有一个具有统计显著性（0.05 的显著水平）的空间异常值。输出要素类中的 COType

16、字段将指明要素是否是高值要素而四周围绕的是低值要素(HL)，或者要素是否是低值要素而四周围绕的是高值要素(LH)。,41,2.3.2 热点分析(Getis-Ord Gi*)的计算,42,2.3.2 热点分析(Getis-Ord Gi*)的计算,为数据集中的每个要素返回的 Gi*统计就是 z 得分。对于具有显著统计学意义的正的 z 得分，z 得分越高，高值（热点）的聚类就越紧密。对于统计学上的显著性负 z 得分，z 得分越低，低值（冷点）的聚类就越紧密。此工具使用 z 得分和 p 值为输入要素类中的每个要素创建一个新的输出要素类。如果对于“输入要素类”应用了选择集，则只会对所选要素进行分析，且

17、在“输出要素类”中也将仅显示所选要素。,43,2.3.2 热点分析(Getis-Ord Gi*)的计算,z 得分基于随机化零假设进行计算。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素，会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面，使用所有要素部分的加权平均中心来计算质心。点要素的加权项是 1，线要素的加权项是长度，而面要素的加权项是面积。输入字段应包含多种值。此统计数学方法要求待分析的变量存在一定程度的变化。,44,2.4 度量地理分布工具集,45,2.4.1 中心要素,识别点、线或面要素类中位于最中央的要素。工具执行过程中会首

18、先对数据集中每个要素质心与其他各要素质心之间的距离计算并求和。然后，选择与所有其他要素的最小累积距离相关联的要素（如果指定权重，则为加权），并将其复制到一个新创建的输出要素类中。中心要素工具用于创建一个包含了处于最中央位置的要素的新的要素类。,46,2.4.2 方向分布(标准差椭圆),测量一组点或区域的趋势的一种常用方法便是分别计算 x 和 y 方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对 x 坐标和 y 坐标的标准差进行计算，从而定义椭圆的轴，因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的，并因此具有特

19、定方向。,47,2.4.2 方向分布(标准差椭圆),测量一组点或区域的趋势的一种常用方法便是分别计算 x 和 y 方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对 x 坐标和 y 坐标的标准差进行计算，从而定义椭圆的轴，因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的，并因此具有特定方向。,48,2.4.2 方向分布(标准差椭圆),49,2.4.2 方向分布(标准差椭圆),50,2.4.2 方向分布(标准差椭圆),标准差椭圆工具可为每个案例（案例分组字段参数）都创建一个包含椭圆面的新输出要素类。这些椭圆面的属性

20、值包括平均中心的 X 和 Y 坐标、两个标准距离（长轴和短轴）以及椭圆的方向。字段名分别为 CenterX、CenterY、XStdDist、YStdDist 和 Rotation。如果提供了案例分组字段，同时也会将此字段添加到输出要素类。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。如果要素的基础空间模式集中于中心且朝向外围的要素较少（一种空间正态分布），则一个标准差椭圆面约包含聚类中 68 的要素，两个标准差约包含聚类中 95 的要素，三个标准差约包含聚类中 99 的要素。“旋转”输出字段中的值表示从顶点开始按顺时针方向对长轴测量的旋转度。,51,2.4.2 方向分布(标准差

21、椭圆),案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段，会首先根据案例分组字段值对输入要素进行分组，然后再计算每组的标准差椭圆。案例分组字段可以是整型、日期或字符串类型。可以根据可选的权重字段进行标准差椭圆计算（例如，获取按严重程度衡量的交通事故的椭圆）。“权重字段”应为数字。对于线和面要素，会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面，使用所有要素部分的加权平均中心来计算质心。点要素的加权项是 1，线要素的加权项是长度，而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时，分析只会包括所选的要素。,52,2.4.

22、2 方向分布(标准差椭圆),应用:在地图上标示一组犯罪行为的分布趋势可以确定该行为与特定要素（一系列酒吧或餐馆、某条特定街道等）的关系。在地图上标示地下水井样本的特定污染可以指示毒素的扩散方式，这在部署减灾策略时非常有用。对各个种族或民族所在区域的椭圆的大小、形状和重叠部分进行比较可以提供与种族隔离或民族隔离相关的深入信息。绘制一段时间内疾病爆发情况的椭圆可建立疾病传播的模型。,53,2.4.3 线性方向平均值,一组线要素的趋势可通过计算这些线的平均角度进行度量。用于计算该趋势的统计量称为方向平均值。尽管统计量本身被称为方向平均值，但它实际上用于测量方向或方位。许多线状要素指向某一方向（它们都

23、具有一个起点和一个终点）。这类线通常可表示移动对象（例如飓风）的路径。而其他线状要素（例如断层线）则没有起点和终点。这些要素则被认为具有方位而不具有方向。例如，断层线可能具有西北-东南方位。,54,2.4.3 线性方向平均值,55,2.4.3 线性方向平均值,输入必须是线要素类。输出线要素的属性值包括罗盘角的 CompassA（以正北为基准方向按顺时针旋转）、方向平均值的 DirMean（以正东为基准方向按逆时针旋转）、圆方差的 CirVar（用于指示线方向偏离方向平均值的程度）、平均中心 X 和 Y 坐标的 AveX 和 AveY，以及平均长度的 AveLen。如果指定了案例分组字段，它还将

24、被添加至输出要素类。与标准差测量类似，圆方差值指示方向平均值矢量表示输入矢量集的好坏程度。圆方差范围为 0 至 1。如果所有输入矢量具有完全相同（或非常相似）的方向，则圆方差将很小（接近于 0）。当输入矢量方向跨越整个罗盘时，圆方差将很大（接近于 1）。,56,2.4.3 线性方向平均值,案例分组字段用于对要素进行分组，以进行独立的线性方向平均值计算。当指定了“案例分组字段”时，会首先根据案例分组字段值对输入线要素进行分组，然后为每个组创建输出线要素。案例分组字段可以为整型、日期型或字符串型。执行方向测量时，工具只会考虑线要素的第一个点和最后一个点，而不会考虑沿线的所有折点。地图图层可用于定义

25、输入要素类。在使用带有选择内容的图层时，分析只会包括所选的要素。,57,2.4.4 平均中心,平均中心是研究区域中所有要素的平均 x 坐标和 y 坐标。平均中心对于分析追踪分布的变化，以及比较不同类型要素的分布非常有用。,58,2.4.4 平均中心,59,2.4.4 平均中心,平均中心是一个根据输入要素质心的平均 x 和 y 值构造的点。平均中心点要素的 x 值和 y 值是输出要素类中的属性。这些值存储在 XCOORD 和 YCOORD 字段中。案例分组字段用于将要素进行分组以独立计算平均中心。当指定了“案例分组字段”时，会首先根据案例分组字段值对输入要素进行分组，然后计算每个组的平均中心。案

26、例分组字段可以为整型、日期型或字符串型。尺寸字段是输入要素类中的任意数字字段。平均中心工具将计算该字段中所有值的平均值，并将结果包括在输出要素类中。对于线和面要素，会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面，使用所有要素部分的加权平均中心来计算质心。点要素的加权项是 1，线要素的加权项是长度，而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时，分析只会包括所选的要素。,60,2.4.5 中位数中心,中位数中心工具是一种对异常值反应较为稳健的中心趋势的量度。该工具可标识数据集中到其他所有要素的行程最小的位置点。中位数中心工具可指

27、定权重字段。您可将权重视为与每个要素关联的行程个数（例如，如果要素的权重为 3.2，则行程数将为 3.2）。加权中位数中心是所有行程的距离之和最小的位置点。,61,2.4.5 中位数中心,用于计算中位数中心的方法是一个迭代过程，由 Kuhn 和 Kuenne(1962)提出，之后在 Burt 和 Barber(1996)中进一步概括。在算法的每个步骤(t)中，都会找到一个候选“中位数中心”(Xt,Yt)，然后对其进行优化，直到其表示的位置距数据集中的所有要素（或所有加权要素）(i)的“欧式距离”d 最小。,62,2.4.5 中位数中心,平均中心和中位数中心均是中心趋势度量。但是，中位数中心工具

28、的算法受数据异常值的影响较小。中位数中心要素的 x 值和 y 值是输出要素类中的属性。这些值存储在 XCOORD 和 YCOORD 字段中。案例分组字段用于将要素进行分组以独立计算中位数的中心。当指定了“案例分组字段”时，会首先根据案例分组字段值对输入要素进行分组，然后计算每个组的中位数中心。案例分组字段可以为整型、日期型或字符串型，并将以属性形式显示在输出要素类中。将对“属性字段”参数中指定的所有字段计算数据中位数。地图图层可用于定义输入要素类。在使用带有选择内容的图层时，分析只会包括所选的要素。,63,2.4.6 标准距离,度量分布的紧密度可以提供一个表示要素相对于中心的分散程度的值。该值

29、表示距离，因此，可通过绘制一个半径等于标准距离值的圆在地图上体现一组要素的紧密度。标准距离工具用于创建圆面。,64,2.4.6 标准距离,65,2.4.6 标准距离,标准距离工具可为每个案例创建包含以平均值为中心的圆面的新要素类。绘制每个圆面时使用的半径均等于标准距离。每个圆面的属性值即为其标准距离值。案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段，会首先根据案例分组字段值对输入要素进行分组，然后再计算每组的标准距离圆。可以根据可选的权重字段进行标准距离计算（例如，获得按工作人员衡量的企业标准距离）。“权重字段”应为数值。如果输入要素的基础空间模式集中于中心且朝向外围的要素较少

30、（一种空间正态分布），则一个标准差圆面约包含聚类中 68 的要素；两个标准差圆约包含聚类中 95 的要素；三个标准差约包含聚类中 99 的要素。地图图层可用于定义输入要素类。在使用带有选择内容的图层时，分析只会包括所选的要素。,66,2.5“空间关系建模”工具集,67,2.5.1 生成网络空间权重,创建网络空间权重工具可查找网络上的每一个点，并可以距离或时间为单位量化所有其他要素之间的邻域。任何两个要素的所得到的邻域求解结果还会考虑障碍和/或限制（例如道路封闭）。这些邻域关系使用稀疏矩阵法存储为小字节二进制格式。,68,2.5.1 生成网络空间权重,此工具的输出是空间权重矩阵文件(.swm)。

31、需要指定空间关系的概念化选项的工具将接受空间权重矩阵文件；为空间关系的概念化参数选择 GET_SPATIAL_WEIGHTS_FROM_FILE，并且为权重矩阵文件参数指定使用此工具创建的空间权重文件的完整路径名。此工具的设计初衷是仅用来处理输入要素类点数据。,69,2.5.2生成空间权重矩阵,空间权重矩阵是数据空间结构的一种表现形式。它是对数据集要素之间存在的空间关系的一种量化。通过创建权重来量化数据要素之间的关系的策略有两种：二进制或可变权重。对于二进制策略（固定距离、K 最近邻域或邻接），要素或者是邻域(1)，或者不是(0)。对于权重策略（反距离或无差别的区域），邻近要素有不同量级的作用

32、（或影响），并通过计算权重来反映该变化。,70,2.5.2生成空间权重矩阵,此工具会报告所生成的空间权重矩阵文件的特征：要素数量、连通性以及最小相邻要素数、最大相邻要素数和平均相邻要素数。在使用基于距离的“空间关系概念化”时，数据应采用投影坐标系（而不是地理坐标系）。唯一 ID 字段与运行此工具后所获得的要素关系关联。空间关系的概念化参数的面邻接选项（CONTIGUITY_EDGES_ONLY 和 CONTIGUITY_EDGES_CORNERS）仅对面要素有效。相邻要素的数目参数可以覆盖“空间关系反距离或固定距离概念化”的阈值距离参数。如果指定的阈值距离为 10 英里，相邻要素数目为 3，则

33、所有要素都至少会接收 3 个相邻要素（即使必须增加该阈值才能找到它们）。只有在未达到最小相邻要素数时，才增加距离阈值。,71,2.5.3 普通最小二乘法(OLS),执行全局“普通最小二乘法(OLS)”线性回归可生成预测，也可为一个因变量针对它与一组解释变量关系建模。,此工具的主要输出为写入结果窗口的 OLS 汇总报表，还可以选择将此报表与其他图表一起写入您所指定的输出报表文件。,72,2.5.3 普通最小二乘法(OLS),“OLS 回归”工具生成的输出包括以下内容：,73,2.5.3 普通最小二乘法(OLS),评估模型性能。R 平方的倍数和校正 R 平方值都可以用来测量模型性能。可能值的范围从

34、 0.0 到 1.0。由于“校正 R 平方”值与数据相关，更能准确地测量出模型性能，能够反映模型的复杂性（变量数），因此“校正 R 平方”值始终要比“R 平方的倍数”值略小。为模型额外添加一个解释变量可能会增大“R 平方的倍数”值，但可能会减小“校正的 R 平方”值。评估模型是否具有显著性。联合 F 统计量和联合卡方统计量均用于测量整个模型的统计学显著性。只有在 Koenker(BP)统计量（见下图）不具有统计学上的显著性时，“联合 F 统计量”才可信。如果 Koenker(BP)统计量具有显著性，应参考“联合卡方统计量”来确定整个模型的显著性。这两种测试的零假设均为模型中的解释变量“不”起作

35、用。对于大小为 95%的置信度，p 值（概率）小于 0.05 表示模型具有统计学上的显著性。,74,评估模型中的每一个解释变量：系数、概率、稳健概率和方差膨胀因子(VIF)。每个解释变量的系数既反映它与因变量之间关系的强度，也反映它与应变量之间关系的类型。当与系数关联的符号为负号时，该系数与因变量为负关系。当与系数关联的符号为正号时，该系数与因变量为正关系。系数的单位与其关联的解释变量的单位相同。系数反映了相对于与因变量关联的解释变量的每 1 个单位变化因变量所发生的预期变化，并保持所有其他解释变量不变。使用 T 测试来评估某个解释变量是否具有统计学上的显著性。零假设是指所有的意图和目的的系数

36、值为零，因此零假设对于模型“没有”帮助。当概率或稳健概率（p 值）很小时，系数实际为零的几率也会很小。如果 Koenker 测试具有统计学上的显著性，应使用稳健概率来评估解释变量的统计学显著性。对于具有统计学上显著性的概率，其旁边带有一个星号(*)。如果理论/常识支持某解释变量（与统计学上显著的系数相关）与因变量的有效关系，关系模型主要为线性模型，且该变量对模型中所有其他解释变量而言不是冗余变量，则该变量对回归模型而言是很重要的。VIF 用于测量解释变量中的冗余。一般来说，与大于 7.5 的 VIF 值关联的解释变量应逐一从回归模型中移除。,2.5.3 普通最小二乘法(OLS),75,2.5.

37、3 普通最小二乘法(OLS),评估稳定性。Koenker(BP)统计量（Koenker 的标准化 Breusch-Pagan 统计量）是一种测试，用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致，由解释变量表示的空间进程在研究区域（进程稳定）各位置处的行为也将一致。如果模型在数据空间中一致，则预测值与每个解释变量之间关系的变化不会随解释变量量值（模型没有异方差性）的变化而变化。假设要对犯罪情况进行预测，其中一个解释变量为收入。如果对收入中位值小的位置的预测比对收入中位值大的位置的预测更准确，则模型的异方差性就会出现问题。该测试的零假设为所测试的

38、模型稳定。对于大小为 95%的置信度，p 值（概率）小于 0.05 表示模型具有统计学上的显著异方差性和/或不稳定性。如果该测试的结果具有统计学上的显著性，需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归(GWR)分析。,76,2.5.3 普通最小二乘法(OLS),评估模型偏差。Jarque-Bera统计量用于指示残差（已观测/已知的因变量值减去预测/估计值）是否呈正态分布。该测试的零假设为残差呈正态分布，因此，如果为这些残差建立直方图，这些残差的分布将与典型钟形曲线或高斯分布相似。当该测试的 p 值（概率）较小（例如，对于大小为

39、 95%的置信度，其值小于 0.05）时，回归不会呈正态分布，并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关，则偏差可能是模型指定错误（该模型的某个关键变量缺失）的结果。从错误指定的 OLS 模型得到的结果是不可信的。如果尝试构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性也可进行统计学上显著的 Jarque-Bera 测试。评估残差空间自相关。始终对回归残差运行空间自相关(Morans I)工具可确保回归残差在空间上随机分布。高残差和/或低残差（模型偏高预计值和偏低预计值）在统计学上的显著聚类表明模型（指定错误）中的某个关键变量缺失了。当错误指定了模型时，OL

40、S 结果不可信。,77,2.5.4 地理加权回归(GWR),一种用于建模空间变化关系的线性回归的局部形式。在全局回归模型中（如 OLS），当两个或更多变量具有多重共线性时（当存在两个或更多冗余变量或者这些变量共同提供同一“信息”时），结果并不可靠。GWR 为数据集中的各要素构建了局部回归方程。如果用于特定解释变量的值出现空间聚类，则很可能存在局部多重共线性问题。,GWR 为数据集中的各要素构建了一个独立的方程，用于将落在各目标要素的带宽范围内的要素的因变量和解释变量进行合并。带宽的形状和范围取决于用户输入的核类型、带宽方法、距离以及相邻点的数目等参数，但也存在一些限制：如果相邻要素的数目超过

41、1000，则仅将最相邻的 1000 个要素合并到各局部方程中。GWR 通常被要求用于处理包含数百个要素的数据集，以便获得最佳结果。而不适用于小型数据集。而且，此工具不能用于处理多点数据。,78,2.5.4 地理加权回归(GWR),严重模型设计错误通常表示存在全局或局部共线性问题。要确定出现问题的位置，使用 OLS 运行模型，然后检查每个解释变量的 VIF 值。如果某些 VIF 值较大（例如，大于 7.5），则全局多重共线性会阻止 GWR 解决问题。但局部多重共线性更有可能出现问题。请尝试为各解释变量创建专题地图。如果在地图上出现相同值的空间聚类，考虑将这些变量从模型中移除，或将这些变量与其他解

42、释变量合并以便加大值的变化性。在构建 GWR 模型时，避免使用空间组织哑元/二进制变量、空间聚类名目/数值变量或几乎不可能具有值的变量。局部共线性问题还可阻止 AIC 和 CV 带宽方法求解最佳距离/相邻点的数目。尝试指定特定的距离或相邻点数，然后检查输出要素类中的条件数，以查看与局部共线性问题相关联的要素（条件数大于 30）。在您找到最佳距离/相邻点的数目后，最好临时移除这些问题要素。请注意，与大于 30 的“条件数”相关联的结果不可靠。条件数表示线性方程的解对于矩阵系数的微小变化的敏感程度。条件数大于 30 时，参数估计的方差不包括单个要素结果；这会影响标准误差诊断、全局 sigma 和标

43、准化残差。,79,2.5.4 地理加权回归(GWR),Bandwidth 或 Neighbors：是指用于各个局部估计的带宽或相邻点数目，并且可能是“地理加权回归”的最重要参数。它控制模型中的平滑程度。ResidualSquares：指模型中的残差平方和（残差为观测所得 y 值与 GWR 模型所返回的 y 值估计值之间的差值）。此测量值越小，GWR 模型越拟合观测数据。EffectiveNumber：此值反映了拟合值的方差与系数估计值的偏差之间的折衷，与带宽的选择有关。带宽接近无穷大时，每个观测值的地理权重都将接近 1，系数估计值与全局 OLS 模型的相应值将非常接近。对于较大的带宽，系数的有

44、效数量将接近实际数量；局部系数估计值将具有较小的方差，但偏差将非常大。相反，带宽接近零时，每个观测值的地理权重都将接近零（回归点本身除外）。对于非常小的带宽，系数的有效数量为观测值的数量，局部系数估计值将具有较大方差但偏差较低。该有效数量用于计算多个诊断测量值。,80,2.5.4 地理加权回归(GWR),Sigma：此值为正规化剩余平方和（剩余平方和除以残差的有效自由度）的平方根。它是残差的估计标准差。此统计值越小越好。Sigma 用于 AICc 计算。AICc：这是模型性能的一种度量，有助于比较不同的回归模型。考虑到模型复杂性，具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是

45、拟合度的绝对度量，但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3，具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 OLS AICc 值进行比较是评估从全局模型(OLS)移动到局部回归模型(GWR)的优势的一种方法。,81,2.5.4 地理加权回归(GWR),R2：R 平方是拟合度的一种度量。其值在 0.0 到 1.0 范围内变化，值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。R2 计算的分母为因变量值平方和。向模型中再添加一个解释变量不会更改分母但会更改分子；这将出现改善模型拟合的情况（但可能为假象）。请参阅下文中的“校正的 R2”。R2Adjusted：由于上述 R2 值问题，校正的 R 平方值的计算将按分子和分母的自由度对它们进行正规化。这具有对模型中变量数进行补偿的效果，因此校正的 R2 值通常小于 R2 值。但是，执行此校正时，无法将该值的解释作为所解释方差的比例。在 GWR 中，自由度的有效值是带宽的函数，因此与像 OLS 之类的全局模型相比，校正程度可能非常明显。因此，AICc 是对模型进行比较的首选方式。,

展开阅读全文