《空间统计分析》PPT课件.ppt

上传人:牧羊曲112 文档编号:5564734 上传时间:2023-07-28 格式:PPT 页数:83 大小:2.64MB
返回 下载 相关 举报
《空间统计分析》PPT课件.ppt_第1页
第1页 / 共83页
《空间统计分析》PPT课件.ppt_第2页
第2页 / 共83页
《空间统计分析》PPT课件.ppt_第3页
第3页 / 共83页
《空间统计分析》PPT课件.ppt_第4页
第4页 / 共83页
《空间统计分析》PPT课件.ppt_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《《空间统计分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《空间统计分析》PPT课件.ppt(83页珍藏版)》请在三一办公上搜索。

1、第9章 DEM地形统计分析,9.1概述,基本概念地形统计分析是指应用统计方法对描述地形特征的各种可量化的因子或参数进行相关、回归、趋势面、聚类等统计分析,找出各因子或参数的变化规律和内在联系,并选择合适的因子或参数建立地学模型,从更深层次探讨地形演化及其空间变异规律。,主要分析内容,1.原始DEM数据及派生地形因子基本统计特征的分析地形因子的最大值、最小值、极差、中值、总和、平均值、离差、方差、标准差、频数等基本统计量2.地形因子关联特征及空间分布规律的研究对地形因子分析的主要内容之一就是查明因子之间的相互关系和内在联系,并选定合适的因子建立地学模型,利用这种模型对地形的发展与动态做出数值预测

2、。,9.2 基本统计量,常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用,图10.1 基本统计量,9.2.1 代表数据集中趋势的统计量,(1)频数和频率 将变量xi(i1,n)按照大小顺序排列,并按一定的间距分组,变量在各组出现或发生的次数称为频数(absoluter frequency);各组频数与总频数之比叫做频率(frequency)。如有一组测量数据,数据的总个数N=148最小的测量值xmin=0.03,最大的测量值x

3、max=31.67,按组距为x=3.000将148个数据分为11组,其中分布在15.0518.05范围内的数据有26个,则称该数据组的频数为26。再如在3.149324中,9出现的频数是3,出现的频率是3/18=16.7%,计算出各组的频率后,可以作出频率分布图,若以纵轴表示频率,横轴表示分组,就可以作出频率直方图,用以表示事件发生的频率和分布状况。,分组编号 数值 频数 频率 1(13)1,1,2,3,3,3 6 0.24 2(46)4,5,5,6 4 0.16 3(79)7,8,8,8,9 5 0.204(1012)10,10,11,12 4 0.165(1315)13,13,14,14,

4、15,15 6 0.24,频率分布表,频率直方图,9.2.1 代表数据集中趋势的统计量,(2)平均数(mean)平均数反映了数据取值的集中位置。对于数据Xi(i1,2,n),通常有简单算术平均数、加权算术平均数、调和平均数和集合平均数。简单算术平均数:将所有数据的数值相加,再除以数据的总数目,公式为,加权算术平均数(Weighted means):当数据对数据总体的影响的权重值不同时,计算该平均数,将每个数据乘以权值后再相加,所得到的和除以数据的总体权重数,计算公式为例:你的小测成绩是80分,期末考成绩是90分,老师要计算总的平均成绩,就按照小测40%、期末成绩60%的比例来算,所以你的平均成

5、绩是:8040%+9060%=86,调和平均数(harmonic mean):各个数据的倒数的算术平均数的倒数,又称为倒数平均数,调和平均数也分简单调和平均数和加权调和平均数,其公式分别为几何平均数(geometric mean):是n个数据连乘的积开n次方根,计算公式为,(3)中位数(Median)一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数,注意:和众数不同,中位数不一定在这组数据中)。中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数,实例:第1组数:1、2、3、6、7的中位数是3。原理:如果总数个数是奇数的话,按从小到大的

6、顺序,取中间的那个数 第2组数:1、2、3、5的中位数是2.5。原理:如果总数个数是偶数的话,按从小到大的顺序,取中间那两个数的平均数.(2+3)2=2.5 第3组数:1、100、101、10000的中位数是100.5 注意:中位数 和数值的大小没有绝对的关系,(4)众数(Mode)众数是数据集中出现频数(次数)最多的某个(或某几个)数。(众数可以不存在或多于一个)例如:1,2,3,3,4的众数是3。但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。例如:1,2,2,3,3,4的众数是2和3。还有,如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2

7、,3,4,5没有众数。,9.2.2 代表数据离散程度的统计量,有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。,(1)最大值(max)与最小值(min)把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值(2)极差(range)一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围,极差计算公式:x=xmax-xmin(xmax为

8、最大值,xmin为最小值)如:12,12,13,14,16,21 这组数的极差就是 2112=9,(3)分位数(quantile)将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。,(4)离差(deviation)表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差,(5)平均离差(mean deviation)是把离差取决对值,然后求和,再除以变量个数 根据定义,一个数据集的离差和恒等于0。若将离差取绝对值后求和,再取平均值,得到平均离差:,(6)离差平方和离差平方和是把离差求平方,然后求和平均离差和和离差平方和是表示各数值相对于平均数得离散程度的重

9、要统计量。,(7)方差(variance)和标准差(standard deviation)方差是均方差的简称,是以离差平方和除以变量个数求得的,记为s2,即:标准差是方差的平方根,记为,(8)变差系数(coefficient of variation)变差系数也称为离差系数或变异系数,是标准差与均值的比值,以 表示 变差系数用来衡量数据相对变化的程度,9.2.3 代表数据分布形态的统计量,分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。,(1)偏度(skewness)偏度

10、是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g1):,当g10时,数据的分布情况如下图:,(2)峰度(kurtosis)峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。标准峰度系数 g2按下式计算:,偏度和峰度主要用于分析数据的频率统计图以及评价正态分布性,当g1=0且g2=0时,数据是标准正态分布。,9.2.4 其它统计量,(1)总和(sum)数据集中所有数据相加得到的值.总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总长度与总面积,可以获得该流域的沟壑密度。,(2)比率(ratio)两类物体或现象的数值之比(3)比例(proportion)某

11、类物体或现象的数值与其总数之比(4)种类(class)根据事物本身的性质或特点而分成的门类。,基本分析工具,1.直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。,图10.2 直方图示意图,2.QQplot图(1)正态QQPlot分布图正态QQPlot(Normal QQPlot)分布图主要用来评估具有n个值的单变量样本数据是否服从正态分布。构建正态QQPlot分布图的通用过程为:首先对采样值进行排序;计算出

12、每个排序后的数据的累积值(低于该值的数据的百分比);绘制累积值分布图;在累积值之间使用线性内插技术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值;以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图。,图10.3 正态QQPlot示意图,如果采样数据服从正态分布,其正态QQPlot分布图中采样点分布应该是一条直线。如果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。此外,如果在正态QQ图中数据没有显示出正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换,使之服从正态分布。,(2)普通QQPlot分布图 普

13、通QQPlot(General QQPlot)分布图用来评估两个数据集的分布的相似性。普通QQPlot分布图通过两个数据集中具有相同累积分布值作图来生成,图10.4 普通QQPlot示意图,普通QQPlot图揭示了两个物体(变量)之间的相关关系,如果在QQPlot图中曲线呈直线,说明两物体呈一种线性关系,可以用一元一次方程式来拟合。如果QQPlot图中曲线呈抛物线,说明两物体的关系可以用个二次多项式来拟合。,3.Voronoi图Voronoi地图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。

14、,Voronoi 图中多边形值可以采用多种分配和计算方法:简化(Simple):分配到某个多边形单元的值是该多边形单元的值;平均(Mean):分配到某个多边形单元的值是这个单元与其相邻单元的平均值;模式(Mode):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是这个单元与其相邻单元的模式(即出现频率最多的区间);,聚类(Cluster):所有的多边形单元被分配到这五级区间中,如果某个多边形单元的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其它单元;熵(Entropy):所有单元都根据数据值的自然分组分配到这五级中。分配到某个多边形单元的值是根据该单元和其相邻单

15、元计算出来的熵;中值(Median):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算的中值;,标准差(StDev):分配给某多边形的值是根据该单元和其相邻单元计算出的标准差;四分位数间间隔(IQR):第一和第三四分位数是根据某单元和其相邻单元的频率分布得出的。分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。,9.3分级统计分析,9.3.1 分级的概念与目的数据分级根据一定的方法或标准把数据分成不同的级别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数

16、据进行下一步的应用分析。,数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于用户读图;二是用不同的分级方法来突出显示制图区域内不同的地貌特征。,9.3.2 分级的原则,科学性原则:分级指标的确定要遵循一定的科学规律;完整性原则:整个数据集中的所有数据都应被分到不同的级别中,没有遗漏,而且同一数据集中的每一数据只能被分到某一级别中,不能同时分到两个或多个级别中;适用性原则:对于一个数据集,应该根据研究或应用的需要选择合适的分级方法,使得分级结果能较好地满足目的;美观性原则:分级方法及分级数目的确定不但要

17、依据研究目的,还要注重制图效果,制作专题地图不仅要体现数据的空间分布特征,还要使得图面色彩平衡,特征明显,易于理解。,9.3.3 分级统计的方法,按使用分级方法的多少可分为单一分级法和复合分级法 按级差是否相等可分为等值分级法和不等值分级法 按确定级差的方法可分为自定义分级法和模式分级法,图10.11 分级方法的类型,1.自定义分级自定义分级即对一个数据集,根据自己的应用目的设定各个级别的数值范围来实现分级的方法。如在对坡度进行分级的过程中,应根据应用目标的要求,确定临界坡度。,不同分级体系下坡度的分级结果,2.模式分级模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。

18、模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。,等间距分级等间距分级是一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据集里有最大值和最小值,那么间距:,等间距方法原理简单、易操作,但当数据集中在某一小范围内时,各分级之间数据个数的差别太大会造成图面配置不均衡,影响了制图效果。当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析,分位数分级分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个

19、值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。,等面积分级对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。,等面积方法使得每一级在图上占据的面积相等(或大致相等)。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累

20、加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。,标准差分级标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值和标准差Std.Dev,然后根据数据波动情况划分等级。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用1/4倍标准差时,分级数目最多。,自然裂点法分级自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。,其他分级方法a.有规律的不等间距分级这种方法与等间距分级法的区别在于它的间距是按一定规律

21、变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。,b.按嵌套平均值分级该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为2个等级,即2的几何级数。n是计算中的平均值的嵌套序数,用这种方法只能得到偶数个级别,而不可能得到奇数个级别。,c.按面积正态分布分级按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占

22、的面积较大,往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。,9.4 空间自相关及方向变异,大部分的地理现象都具有空间相关特性,即距离越近的两事物越相似。这一特性也是空间地统计分析的基础。空间自相关是指空间位置上越靠近的事物或现象就越相似,即事物或现象具有空间位置的依赖关系。如气温、湿度等的空间分布体现了与海陆距离、海拔高程的相关性。如果没有空间自相关性,地理事物和现象的分布就是随意的,地理学中的空间分布规律就不能体现,三种空间自相关正自相关:是指附近的观测值很可能是彼此相似的。负自相关:是指附

23、近的观测值很可能是彼此不同的零自相关:是指无法辨别空间效应,观测值在看空间上似乎是随机分布的,自相关分析的结果可用来解释何须按照存在的空间聚集性或“焦点”。空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。全局空间自相关用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的相似性。,具体原理和算法可参阅:计量地理学地质统计学GIS算法基础,9.5 全局趋势分析,通常一个表面主要由两部分组成:确定的全局趋势和随机的短程变异。空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。,趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。它可分为趋势面和偏差两大部分,其中趋势面反映了空间数据总体的变化趋势,受全局性、大范围的因素影响。如果能够准确识别和量化全局趋势,在空间分析统计建模中就可以方便的剔除全局趋势,从而能更准确地模拟短程随机变异。,透视分析是探测全局趋势常用方法,准确的判定趋势特征关键在于选择合适的透视角度。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号