《地理学中的经典统计分析方法-第1节相关分析.ppt》由会员分享,可在线阅读,更多相关《地理学中的经典统计分析方法-第1节相关分析.ppt(51页珍藏版)》请在三一办公上搜索。
1、达尔文和高尔顿,进化论的奠基人达尔文(Charles.R.Darwin,1809-1882),他晚年在达尔文讲义数学的功用里,曾经写道:“年轻时,我讨厌数学,始终不明白为什么一定要学代数初步。我就是因为这个缘故而没有再学数学,实在是非常愚蠢。“后来,我看到具有数学知识的人,能驾轻就熟地处理与数字有关的问题时,才深深后悔自己当初要是多努力一点,就不会对数字那么没有概念了。”达尔文的表弟高尔顿(Francis Galton,1822-1911),是回归分析的奠基人,是一个著名的统计学家,但他在地理学、气象学、心理学和生物学(特别是遗传学和优生学)等多个领域有突出贡献。此人智力早熟,很小就学习数学,
2、但没有完成学业;然后学习医学,也没有完成学业。在一些世俗的观念里面,这个人简直是一个不成器的家伙。在 20岁出头的时候,他继承了父亲的一笔遗产,然后外出旅行探险:沿着多瑙河到黑海、到埃及,然后逐步深入到当时尚未开发的非洲西南部的一些地区。最后,他定居英国伦敦,从事科学研究。获得英国皇家地理学会的金质奖章。,第三章 地理学中的经典统计分析方法,1、相关分析2、回归分析3、时间序列分析4、系统聚类分析5、主成分分析6、马尔可夫预测7、趋势面分析8、地统计分析,3.1 相关分析,问题提出,某地区表层土壤中有机碳和有机氮含量分别如下表所示,试分析两者之间是否存在相关关系,并建立其函数方程。,1 0.1
3、36 1.6082 0.138 1.5723 0.125 1.4704 0.123 1.4475 0.120 1.4226 0.113 1.3607 0.112 1.4188 0.095 1.1979 0.079 1.00210 0.087 1.09911 0.072 0.90412 0.064 0.75613 0.052 0.53314 0.048 0.43915 0.051 0.47216 0.044 0.352,Sample SON(%)SOC(%),某山地各气象观测站的相关数据如下表所示,试分析其降水是否具有经度地带性和垂直地带性分异规律。,某地理要素Y的变化可能受到地理因素x1,x2
4、,x3的综合影响,请根据样本观测数据,分析Y与X之间是否存在线性关系,并建立其经验回归方程。,函数关系,它反映着现象之间存在着严格的依存关系,即具有确定性的对应关系,可用一个数学表达式反映出来。,3.1 相关分析,相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。两要素之间相关程度的测定 多要素间相关程度的测定,正相关,负相关,线性相关,非线性相关,相关关系的分类 按照影响因素分类简单线性相关偏相关复相关,主要步骤,判断现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;确定研究变量
5、均为随机变量;根据变量个数和特征选择合适的分析方法;计算相关系数;对相关系数进行显著性检验。,一、两要素之间相关程度的测定,相关系数的计算与检验秩相关系数的计算与检验,(一)、相关系数的计算与检验相关系数的计算 定义 和 为两要素的平均值。说明:-1=1,大于0时正相关,小于 0时负相关。的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。,(),极显著相关,显著相关,简化 记 公式可简化为:,(),表3.1.1 伦敦的月平均气温与降水量,资料来源:,相关分析实例,根据表中的数据,我们可以代入公式(),计算伦敦市月平均气温(T)与降水量(P)之间的相关系数:计算结果表明,
6、伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。,又如:,根据甘肃省53个气象台站的多年平均数据(见教材表),可以对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数,分别代入公式()计算如下:,计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。,相关系数的检验:,相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。,自由度(degree of f
7、reedom,df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。,在上表中,f称为自由度,为f=n-2,n为样本数;上方的 代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值;公式 的意思是当所计算的相关系数 的绝对值大于在 水平下的临界值 时,两要素不相关(即)的可能性只有。,相关系数真值0时样本相关系数的部分临界值r,(1)对伦敦市月平均气温(T)与
8、降水量(P)之间的相关系数,f=12-2=10,在显著性水平 上,查表,得知:。因为,所以,伦敦市月平均气温(T)与降水量(P)之间的相关性并不显著。,(2)对于甘肃省53个气象台站降水量(P)和纬度(Y)之间的相关系数,以及蒸发量(V)和纬度(Y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值,但是我们发现,在同一显著水平下,随着样本数的增大,临界值减少。在显著性水平=0.001上,取f=50,查表得知:。=0.001=0.4433。显然,PY和VY的绝对值都远远大于=0.001=0.4433,这说明甘肃省53个气象台站降水量(P)和纬度(Y)之间,以及蒸发量(V)和
9、纬度(Y)之间都是高度相关的。,某地区土壤中有机碳和有机氮含量分别如所示,试求两者之间是否存在线性相关关系。分析步骤:1.绘制散点图2.前提条件检验正态性检验3.计算Pearson相关系数4.显著性检验,分析结果表明:在0.01水平上,SON和SOC极显著正相关,pearson相关系数为0.96。,某山地各气象观测站的相关数据如所示,试分析其相关关系。分析步骤:1.绘制散点图2.前提条件检验,正态性检验3.计算Pearson相关系数4.显著性检验,分析结果表明:在0.01水平上,年降水量与经度极显著负相关,相关系数为0.559;年降水量与海拔极显著正相关,相关系数为0.937;经度与海拔在数值
10、上极显著负相关,在专业意义上为假相关。,秩相关系数,又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。,(),(二)秩相关系数的计算与检验,书中表给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(),就可以计算它们之间的秩相关系数:即:GDP(x)与总人口(x)之间的等级相关系数为0.7847。,示例:,n代表样本个数,代表不同的置信水平,也称显著水平,表中的数值为临界值。,秩相关系数的检验,在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著
11、水平下,随着样本数的增大,临界值减少。在n=30时,查表得:0.010.432,由于xy=0.7847 0.010.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。,二、多要素间相关程度的测定,偏相关系数的计算与检验复相关系数的计算与检验,偏相关系数的计算与检验,偏相关系数的计算 定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。计算:3个要素的偏相关系数,(),(),(),四个要素的偏相关系数,(),(),(),(),例如:对于某
12、四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:,利用一级偏向关系数公式计算一级偏向关系数,如表3.1.5 所示:,利用 二级偏相关系数公式计算二级偏相关系数,见下表:,性质,偏相关系数分布的范围在-1到1之间;偏相关系数的绝对值越大,表示其偏相关程度越大;偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。,偏相关系数的显著性检验 t检验法的计算公式:,上例检验:查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然,这表明在置信度水平=0.001上,偏相关系数r2413是显著的。,复相关系
13、数,复相关系数:反映几个要素与某一个要素之间 的复相关程度。计算 当有两个自变量时,当有三个自变量时,当有k个自变量时,,(),(),(),性质 复相关系数介于0到1之间,即 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。复相关系数必大于或至少等于单相关系数的绝对值。显著性检验 F-检验法。其统计量计算公式为,例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式()计算:检验:,故复相关达到了极显著水平。,相似系数,相似系数(similar coefficient)是针对样本而言,第 i 和第 r 个样品的相似系数,计算公式为,相关系数与相似系数的不同在于 R 型分析(基于样品分析变量)和 Q 型分析(基于变量分析样品)的区别,举例说明。下表是 2000 年北京、天津及上海的非农业人口和建成区面积。非农业人口和建成区面积为变量,城市为样品,因此计有两个变量,三个样品。我们采用这个非常简单的例子是为了便于直观地显示图形的结构,