《地统计学实验讲解.docx》由会员分享,可在线阅读,更多相关《地统计学实验讲解.docx(15页珍藏版)》请在三一办公上搜索。
1、地统计学上机实验指导一、实验目的和要求1、实验目的力图通过本实验课程的学习,掌握地统计学的基本概念、基本操作方法,并能够根据 实验结果做出合理的解释。2、实验要求本实验课程主要学习探索性空间数据分析、结构分析(计算和模拟临近位置的表面属 性)、表面预测与结果评估。要求学生实验前认真准备,实验后提供实验报告,给出详细的实验过程和实验结果。实验报告内容应包括:实验名称、目的、内容和实验步骤、实验结果说明。二、实验环境介绍实验软件:选用Office Excel软件、ESRI公司ArcGIS软件的地统计(Geostatistics) 分析扩展模块。三、实验内容和学时分配实验内容周次学时数1相关分析:简
2、单相关、偏相关、复相关分析。回归分析:一元线性回归分析;多元线性回归分析922探索性数据分析熟悉数据分析工具;检验数据分布;寻找数据离群值;全局趋势 分析;空间自相关及方向变异1023简单和普通克立格法内插生成曲面简单克立格法生成预测图;普通克立格法生成预测图1124泛克立格法和协同克立格法内插生成曲面 泛克立格法生成预测图、概率图、分位数图; 协同克立格法生成预测图1225其他克立格法内插生成曲面指示克立格法、概率克立格法、析取克立格法132实验一相关分析一、实验目的掌握在Office Excel软件中进行相关分析(包括散点图绘制、相关系数计算、 相关性解释)。二、实验数据简单相关分析:“实
3、验一相关分析.xlsx ”中沟壑密度和平均坡度字段偏相关、复相关分析:“实验一相关分析.xlsx ”中沟壑密度、平均坡度、平均 坡长字段三、实验内容1、简单相关分析分析沟壑密度与平均坡度的相关性?(1)绘制相关图(2)计算简单相关系数函数计算法:correl(array1,array2)利用分析工具计算(3)相关系数t-检验rt =,1 一 r 2n 一 2相关系数的 t 值=r/sqrt(1-rA2)/(12-2) t 临界值=tinv(0.05,n-2)若abs(t)= t临界值,则相关性显著。 P值=tdist(t,n-2,2)(tdist返回t分布的百分点)若P0.05,则认为相关性显
4、著。2、偏相关分析计算沟壑密度分别与平均坡度、平均坡长的一阶偏相关系数(1)计算各要素的简单相关系数矩阵利用数据分析工具中的“相关系数”_ ?21T2 272 3T24L 上 亍 史 亍r31r32r33f34(2)计算相关系数矩阵的逆矩阵minverse ()C11C12C13C1+r-l _ C2 1C2 2.C23C24C31C32C33C34(3) 计算偏相关系数为第j个自变量与因变量y之间的偏相关系数;c为相关系数逆矩阵中的对应元素。(4) 偏相关系数检验t 临界值=tinv(0.05,n-k-1)3、复相关分析F 临界值= finv(0.05,k,n-k-1)回归分析一、实验目的掌
5、握在Office Excel软件中利用图表、Excel函数、分析工具进行一元线性回 归分析,并能够对回归分析结果进行解释。二、实验数据一元回归分析:“实验三回归分析.xlsx ”中沟壑密度和平均坡度字段多元回归分析:“实验三回归分析.xlsx”中沟壑密度、平均坡度、平均坡长字 段三、实验内容1、一元线性回归分析对沟壑密度和平均坡度建立一元线性回归方程,并进行检验。(1)利用函数进行回归分析函数名功 能语法格式INTERCEPTF线性回归模型的x估计值(截强)INTERCLPK iT.X)SLOPEF线性回归模型8的估计值(斜率)SLOPE(Y.X1RSQ一元线性回归模型的可决系数(妙)RSQi
6、Y.XlFORK AST依照一元线性回归模型的预删值FORCAST(NEVV- X.Y.X)STEYX一元线性回归模型.、的标准:误差值一元回归方程的评价A、相关系数检验B、 拟合优度的评价r2, SyxC、方程假设检验F-检验 F值=二二:对于一元线性回归值、尸值可用相关系数计算,因此,尸值与t值都与相关系数 r等价,相关系数检验就包含市值和t值信息,一元线性回归也就无需作-检验 与t检验。但对于多元线性回归,兄检验与t检验都不可省略。(2)利用图表进行回归分析添加趋势线(3)利用excel分析工具进行回归分析参数解释回归统计Multiple R相关系数,表示变量x与y相关程度的大小R Sq
7、uare测定系数或称为可决系数,自变量解释因变量变差的程度Adjusted R Square 调整测定系数,用于多元回归分析标准误差估计标准误差,计算与回归有关的其他统计量观测值观测值个数Df(自由度)SS (误差平方和)MS (均方差, 误差平方和/ 自由度)FSignificance F回归分析回归自由度(自 变量数目m)SSRMSr回归均方 差(越大拟合 效果越好)F统计量一MSr/MSeF值对应的P值, 越小越好残差剩余自由度(n-m-1)SSEMSe剩余均方 差(越小拟合 效果越好)总计总自由度n-1SST回归参数表(回归方程的描述和回归参数的推断)Coefficients标准误差(
8、系数的标准误差,越小越好)t Stat(统计量t 值一回归系 数/标准误差)P-value(系数的p值)Lower95%Upper95%下限95.0%上限95.0%Intercept截距置信度 为95%的 回归系 数误差 下限置信度 为95%的 回归系 数误差 上限根据设定 置信度给 出的回归 系数误差 下限根据设定 置信度给 出的回归 系数误差 上限平均坡度斜率预测 forecast () 斜体部分为非必须掌握内容 残差:、一? 标准残差:;=三 如果显著性水平位0.05,原则上要求55%的残差点列落入2倍的正负标准误差带内,或者标准残差数值原则要求处于2。也可通过做标准残 差的散点图来观察
9、。 百分比排位:手、1 = 1U 一 士:(式中n为样本数目,k=1,2, 残差图:残差点列分布越是没有趋势、没有规则,就越是具有随机性,回归的结果 就越是可靠。线性拟合图:预测值与原始数据点列匹配效果越好表明拟合的效果越好预测值的点连接起来,就可得到回归趋势线。正态概率图:图中点列应该接近于一条直线(确定型数据或者围绕对角线呈现S形分布(随机变量)当数据单调增加或单调减少,正态概率图的点列为直线分布,意味着研究对象适合于线性模型拟合。但是,对于随机变量,正态概率图应该围绕对角线表现为奇对称的形分布。如果数据点严重偏离对角线分布于对角线一侧,则可能是因为:其一,数据取样不足;其二,因变量不是随
10、机变量,没有典型或者特征尺度;其三,变量具有非线性性质,不宜采用线性模型拟合。2、多元线性回归分析利用“数据分析”工具对沟壑密度和平均坡度、平均坡长建立线性回归方程,并进行拟合优度检验、回归方程检验(F检验)、回归系数检验(t检验)。实验二探索性数据分析1、实验目的熟练掌握ArcGIS中的探索性空间数据分析工具,能利用这些工具检验 数据分布、寻找数据离群值、分析数据的全局趋势、空间自相关及方向变异 性。2、实验数据qxz.shp3、实验内容(以qxz.shp气温、海拔数据为例说明)1、检验数据分布用直方图检验数据分布气温用正态QQplot图检验数据分布 气温用普通QQplot图检验数据分布气温
11、和海拔说明海拔是什么分布?2、寻找全局和局部离群值用直方图查找全局离群值 海拔用半变异/协方差函数云识别离群值海拔、气温 通过Vonoroi地图寻找离群值检验降雨量数据是否存在离群值?3、全局趋势分析对降雨量进行全局趋势分析(南北方向、东西方向、东北一西南方向、西北一东南方向的空间变化趋势)4、检测空间自相关及方向变异检验降雨量数据的空间自相关和方向变异是否存在?实验三简单和普通克立格法内插生成表面_rJ一、实验目的掌握利用ArcGIS中的地统计分析模块,进行普通克立格插值和简单克立 格插值。理解克立格法生成的不同表面类型的含义、掌握半变异函数协方差 函数建模、搜索邻域确定、不同模型比较的方法
12、。二、实验数据temp.shp 气温三、实验内容1、克立格法生成的不同表面类型预测图(Prediction Map)、概率图(Probability Map)、分位数图(Quantile Map)标准误差图(Standard Error Map)2、普通克立格法插值生成预测图(1)数据转换 “Transformation type”(2)块金效应建模 “Measure Error”设为100%,表明块金常数完全由测量误差构 成,不存在变量微观结构所造成的随机变异。(3)区域化变量的理论模型 “type”球状模型“Spherical”选择一个看上去适合经验半变异函数云的半变异函数模型,使用交叉验
13、证和验证的 方法从相似的模型中选择出一个最合适的模型。(4)各向异性建模Anisotropy观察黄线周围的点的分散情况,若点在黄线的某一个方向上分布很紧密,在另一个方向上分布很分散,则可判断存在方向性自相关。各向异性建模后原来的一条 黄线将变为多条。(5)步长分组binning表面中的每一个栅格是一个组(即落在同一距离和角度组中的样点对所构成的分组)内样点对所计算的平均变异函数值,颜色代表值的大小。Lag区域可设定滞后距(Lag Size,即步长)及滞后组数(Number of Lags,即步长组)若采样点规则分布,则可将采样间距或其倍数设定为滞后距;若采样点为不规则分布,则 可基于这样一个原
14、则:“滞后距X滞后组数晰有采样点最大距离的一半”。可在ArcToolbox 中将通过 Spatial Statistics Tools/Analyzing Patterns/Average Nearest Neighbor 命令计算的NNObserved值,作为滞后距。3: Average Nearest Neighbor$ Highow Clustering (Getis-Ord Generc:3: Multi-Distance Spatial Cluster AnalysiEi-壁 Spatial Statistics Tools Analyzing Patterns日回函Only the
15、 input feature class needs to be specified. The distance method isInput Feature Class1Input Feature Class|3_SepO6_3pm3巳IDistance MethodThe feature class.| EUCLIDEAN_DISTANCEtypically a point feature1 I Generate Report (optional)Area (optional)class, for which the average nearest neighbor distance wi
16、ll be11calculated.3r Average Nearest NeighborCancel Hide HelpTool HelpOKEnvironments.The result of running the tool (with the background geoprocessing option t distance between nearest neighbors, and can be used as a lag size for ser points/samples, it may be advisable to use a smaller value for the
17、 lag size semivariogram/covariance model.ResultsHTML Report File: InputsEnvironmentsQ 哨 iCurrent Session :El Average Nearest Neighbor 092244_04152010 k 口 NNRatio: 0.804823 I= NNZScore: 4825232 L 口 PValue: 0.000001=NNExpected: 26623.119523a NNObserved: 21426.8933671(6)(7)变异函数表面图搜索邻域范围设置领域范围的形状 圆形还是椭圆
18、(Major semiaxis、Minor semiaxis、Angle)设定邻域点的个数(Maximum neighbors Minimum neighbors)分区:避免在某个特定方向上倾斜,当采样点在横断面或格网上采集时特别有用。(Sector type)当分区中最小点数无法满足时:If not enough points are available within the search neighborhood, the software selects the nearest available points (this yellow point belongs to the uppe
19、r-right sector).Only two points are available in this sector.(8)交叉验证预测误差的算术平均值(Mean)越接近于0,说明预测值越是无偏的;均方根(Root-Mean-Square)误差和平均标准(Average Standard)误差越小,说明 预测值与测量偏差越小。Regression function显示了散点图的回归直线方程,该回归直线(图中深色线)若与 1: 1线(图中浅色线)吻合较好,则说明预测值总体上与测量值较为接近。(9)地统计图层的表达等高线、阴影化、栅格、等高线填充表达3、简单克立格法插值生成预测图4、不同插值方
20、法比较Compare实验四泛克立格法和协同克立格法内插生成曲面一、实验目的利用ArcGIS中的地统计分析模块,进行泛克立格法和协同克立格插值。二、实验数据我国地面国际交换站1971-2000年累年平均气温数据:temp.shp气温字段;GTOPO30 DEM海拔高程数据:高程.shp三、实验内容1. 泛克立格法插值(1) 用80%的采样点,基于泛克立格法生成预测图,并进行验证。(2) 基于泛克立格法生成概率图、分位数图Location 1Locati on 2Location 3概率图分位数图注意: 某些地统计方法要求原数据必须是正态分布,如:普通、简单、泛克立格 法的分位图和概率图、析取克立
21、格法。 趋势剔除阶数 “Order of trend removal” 趋势函数类型“Kernel Function”。2. 协同克立格插值通过Geostatistical Wizard/Kriging/CoKriging协同克立格法插值生成预测图。实验目的利用ArcGIS中的地统计分析模块,进行指示、概率、析取克立格法插值。实验数据temp.shp 气温实验内容1、指示克立格(Indicator Kriging)插值无需假设数值来自某种特定分布(如正态分布)的总体,也无需对原始数据进行 变换(如对数变换)。因此指示克立格法不必去掉重要而实际存在的高值数据的条件 下处理各种不同现象,并能够给出
22、某点X处随机变量Z3)的概率分布。各点预测值表示高于或低于阈值的概率。利用指示克立格法预测我国累年平均气温大于12度的概率图2、概率克立格(Probability Kriging)插值概率克立格法与指示克立格法应用效果基本相同Dn-EpanLnED巨3、析取克立格(Disjunctive Kriging)插值采用析取克立格法预测我国累年平均气温,并利用验证方法进行精度检验。注:正态积分变换将数据集从小到大分级排列,且将其级别与正态分布的同一级别相匹配,然后从同 一等级的正态分布中取值来进行变换。预测完后,进行逆变换三种方法:直接法(Direct):直接使用观测数据累积分布图线性法(Linear
23、 ):对累积分布图的每一步作线性拟合高斯内核法(Gaussian Kernels):与通过拟合密度累积分布的线性组合来获得概率分 布图相似近似方法的选择取决于用户所作的假设和近似的光滑度。直接法假设最少并且最不 光滑;线性法居中;高斯法具有最光滑的逆变换,且具有最严格的假设(数据为正态分 布)。与其他变换方法的区别:对每个特定的数据集做变换。正态积分变换的目的是使研究区域的总体(不仅仅是样本)的随机误差均呈正态分 布。因此,样本累积分布图能否反映整个数据集的真实情况至关重要。消除集群调整优化采样 优先采样,使某些地区的采样点密度高于其他地区。若某些数据是优先采样且空间相关,则样本直方图不能反映数据总体的情况。解决方法:数据加权高密度采样区的数据赋予较小的权重;较稀疏采样区的数据赋予较大的权重。单元离散化每个数据点的权重与落在该单元内的点数成反比。如果在高值区优先采样,则应选择使权重平均值最小的单元尺寸;反之,选最大的。多边形法用每个点能代表的区域大小作为权重。问题:边界上点的权重难于确定。