《地理信息系统2地理数据及其采集与预处理.ppt》由会员分享,可在线阅读,更多相关《地理信息系统2地理数据及其采集与预处理.ppt(75页珍藏版)》请在三一办公上搜索。
1、第2章 地理数据及其采集与预处理,本章主要内容,地理数据的类型地理数据的基本特征地理数据的采集与处理地理数据的统计处理地理数据分布的集中化与均衡度指数,第1节 地理数据的类型,空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。,两个概念:,一、空间数据,点由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。线由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i=1,2,)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。面表
2、示在空间上连续分布的地理景观或区域。点、线、面之间的拓扑关系。,图2.1.1 三种基本的地理几何实体及其组合,二、属性数据,数量标志数据 间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。比例尺度数据:以无量纲的数据形式表示测度对象的相对量。,品质标志数据 有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据。二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。,几种属性数据举例:,表2.1.1 间隔尺度数据,间隔尺度数据,比例尺度数据,表2.1.2 某地区耕地复种指数
3、和农业发展指数,有序尺度数据,表2.1.3 城市规模等级与人口数量的排位次序,二元数据,表2.1.4 二元数据,注:1表示两城市之间通航;0表示两城市之间不通航。,名义尺度数据,表2.1.5 土地利用类型,第2节 地理数据的基本特征,数量化、形式化与逻辑化不确定性 多种时空尺度 多维性,一、数量化、形式化与逻辑化,定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化,是所有地理数据的共同特征。地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求“整体”和“大容量”的地理数据具有统一的数据形式和交换标准。,
4、不确定性是地理数据的基本特征之一。地理数据不确定性的来源:,地理系统本身的复杂性从本质上决定着地理数据的不确定性。各种原因所导致的数据误差。,二、不确定性,三、多种时空尺度,从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。,四、多维性,对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述:空间方面,描述该地理对象所处的地理位置和空间范围,一般需要23个变量;属性方面,描述该地理对象的具体
5、内容,至少需要1个以上,多则需要十几个、甚至几十个变量;,时间方面,描述该地理对象产生、发展和存在的时间范围,需要1个变量。地理数据的这种多维性,被人们描述为地理数据立方体(the geographical data cube)。,图 2.2.1 地理数据立方体,第3节 地理数据的采集与处理,地理数据的采集 地理数据处理,一、地理数据的采集,地理数据的渠道来源 来自于观测、测量部门的有关专业数据。来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。来自于政府公报、政府文件中的有关数据。,来自于档案、图书等文献资料中的有关数据。来
6、自于互联网(internet)的有关共享数据。来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。其他来源的有关数据。,采集地理数据过程中需要注意的问题,数据的完备性和可靠性。在数据采集过程中,最大限度地减小数据的误差。在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。,二、地理数据处理,地理数据处理,是所有地理问题研究的核心环节。从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量
7、化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。,地理信息系统的核心功能是地理数据处理,它实现了空间数据与属性数据的完美结合。数学方法确实是其强有力的支撑。地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。,地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图:,图2.3.1 地理数据采集与处理,第4节 地理数据的统计处理,统计整理几种常用的统计
8、指标与参数应用实例:中国大陆省份人均GDP的变异系数,一、统计整理,统计整理的基本步骤:统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。计算各组数据的频数、频率,编制统计分组表。作分布图。,例:对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下:,(1)以地块面积作为统计分组标志进行分组;(2)计算各组数据的频数、频率,编制成如下的统计分组表;,表2.4.1 某县人工造林地面积的统计分组数据,(3)做出频数分布的直方图:,图2.4.1 频数分布柱状图,(4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图:,图2.4.2 频数分布曲线
9、图,二、几种常用的统计指标与参数,描述地理数据一般水平的指标描述地理数据分布的离散程度的指标描述地理数据分布特征的参数,(一)描述地理数据一般水平的指标,平均值 反映了地理数据一般水平。计算方法:未分组的地理数据 分组的地理数据,(2.4.1),(2.4.2),中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。分组的地理数据,中位数的计算方法:确定中位数所在的组位置,按下述公式计算中位数,或,(2.4.3),(2.4.4),在式(2.4.3)和(2.4.4)中:Me代表中位数;L为中位数所在组的下
10、限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。,众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况:未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。对于已经分组的地理数据,中位数的计算步骤如下:确定频数最多的组为众数所在组。按以下公式计算众数,或,(2.4.5),(2.4.6),在式(2.4.5)和(2.4.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;1为众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组
11、距。,例1:表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。,应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。,表2.4.2 某农场各农田地块的面积,例2:表给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。,表2.4.3 中国西部地区某城市2000年家庭月收入的 抽样调查结果,解题步骤:(1)用公式()计算平均数(2)计算中位数。先确定中位数所在组的位置,再按照公式()或者()计算中位数 Me=3 588.46(元),=3 899.06(元),(3)计算众数,先确定众数所在组,再按照公式()或()计算众数。显然,众数所
12、在组应该在第二组。众数M0=3 476.19(元)。,(二)描述地理数据分布离散程度的指标,极差 指所有数据中最大值与最小值之差,计算公式为离差 指每一个地理数据与平均值的差,计算公式为离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为,(),(),(),方差与标准差 方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为,(2.4.10),(2.4.11),如果以样本方差对标准差进行无偏估计,则计算公式为,(2.4.12),变异系数 变异系数表示地理数据的相对变化(波动)程度,其计算公式,),例如:对于表中的数据,分别计算极差
13、、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。,表2.4.2 某农场各农田地块的面积,步骤:(1)按照公式()计算极差(2)按照公式()计算离差,结果见表。,表2.4.4 地理数据的离差,(3)按照公式()计算离差平方和(4)按照公式()计算方差(5)按照公式()计算标准差(6)按照公式()计算标准差的无偏估计(7)按照公式()计算变异系数,5 666.25,21.729 9,0.418 4,(三)描述地理数据分布特征的参数,偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下
14、图)。,),图2.4.3 偏度系数的三种情形,峰度系数 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2=0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(图)。,图2.4.4 标准峰度系数的三种情形,),三、应用实例:中国大陆省份人均GDP的变异系数,我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式()计算变异系数,结果
15、如图。,图2.4.5 19782002年中国大陆省份人均GDP的变异系数,从图中可以看出,在19782002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。这说明,在19781990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。,第5节 地理数据分布的集中化与均衡度指数,罗伦次曲线与集中化指数 基尼系数 锡尔系数,(一)罗伦次曲线,20世纪初,意大利统
16、计学家罗伦次(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。,一、罗伦次曲线与集中化指数,绘制罗伦次曲线实例,(1)将表各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图和图),即罗伦次曲线。,表2.5.1 某地区农户家庭经营性纯收入水平及其构成,图2.5.1 1999年农户家庭经营性纯收入构成的罗伦次曲线,图2.5.2 2004年农户家庭经营性纯收入构成的罗伦次曲线,结果分析,
17、罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图和图,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。,假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。,(二)集中化指数,集中化指数 是一个描述地理数据分布的集中化程度的指数。,,,显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就
18、说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:A实际数据的累计百分比总和;R均匀分布时的累计百分比总和;M集中分布时的累计百分比总和。集中化指数在0,1区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。,二、基尼系数,基尼系数(gini coefficient)就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。,其原理方法如下:,(1)列出每一个区域(部门)
19、的人口与收入占全区(各部门总计)的比重p与w;(2)计算每一区域(部门)的比率w/p;(3)根据w/p值,由小到大将每一地区(部门)排序;(4)按照上述顺序分别计算p和w的累计值X和Y;(5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。,基尼系数(G)就可以按照如下公式计算,假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。,如果用幂函数拟合,则基尼系数的近似计算公式为,式中:可以通过最小二乘法(详见第3 章)拟合,即,(2.5.7),根据分组数据,基尼系数也可以按照如
20、下方法近似地计算:按人均收入由低到高进行排序,分成若干组(如果不分组,则每一户或每一人为一组),每组收入占总收入比重为,每一组人口比重为,则基尼系数可以按照下式近似地计算,式中:为从第1组到第i组的累积收入比重。,(2.5.8),根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如图。可以看出,在19781990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在19912002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。,图2.5.4 19782002年中国大陆省际收入差
21、异的基尼系数,三、锡尔系数,基尼系数(gini coefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。,如果以人口比重加权,锡尔系数 L 的计算公式为,式中:n为区域(部门)个数;为i地区(部门)收入占全区(各部门总计)的份额;为i地区(部门)的人口占全区(各部门总计)的份额。,(2.5.9),如果以收入比重加权,则锡尔系数 T 的计算公式为,锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。,(2.5.10),根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数据,计算19782002年中国大陆省际差异的锡尔系数T 值,结果如图所示。可以看出,在19781990年期间,锡尔系数虽然有微小波动,但基本上呈下降趋势;而在19912002年期间,基本上呈现出上升趋势。这一结论,与前面计算出的基尼系数也是相互印证的。,图2.5.5 19782002年中国大陆省际收入差异的锡尔系数,