《第3章 地理学中的经典统计分析方法——第1节 相关分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第3章 地理学中的经典统计分析方法——第1节 相关分析ppt课件.ppt(105页珍藏版)》请在三一办公上搜索。
1、1、相关分析2、回归分析3、时间序列分析4、系统聚类分析5、主成分分析6、马尔可夫预测7、趋势面分析8、地统计分析,第三章 地理学中的经典统计分析方法,3.1 相关分析,3.1 相关分析,相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。两要素之间相关程度的测定 多要素间相关程度的测定,相关关系的分类 按照影响因素分类简单线性相关偏相关复相关,正相关,负相关,线性相关,非线性相关,主要步骤,判断现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;确定研究变量均为随机变量;根据变量个数
2、和特征选择合适的分析方法;计算相关系数;对相关系数进行显著性检验。,一、两要素之间相关程度的测定,相关系数的计算与检验秩相关系数的计算与检验,(一)、相关系数的计算与检验相关系数的计算 定义 和 为两要素的平均值。说明:-1=1,大于0时正相关,小于 0时负相关。的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。,(3.1.1),极显著相关,显著相关,简化 记 公式3.1.1可简化为:,(3.1.2),表3.1.1 伦敦的月平均气温与降水量,资料来源:http:/www.cwb.gov.tw/V4/climate/wta_station/wta20.htm,相关分析实例
3、,根据表3.1.1中的数据,我们可以代入公式(3.1.1),计算伦敦市月平均气温(T)与降水量(P)之间的相关系数:计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。,又如:,根据甘肃省53个气象台站的多年平均数据(见教材表3.1.2),可以对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数,分别代入公式(3.1.1)计算如下:,计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。,相关系数的检验,相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之
4、间的样本相关系数,只有通过检验,才能知道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。,自由度(degree of freedom,df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。,在上表中,f称为自由度,为f=n-2,n为样本数;上方的 代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值;公式 的意思是当所计算的相关系数
5、 的绝对值大于在 水平下的临界值 时,两要素不相关(即)的可能性只有。,相关系数真值0时样本相关系数的部分临界值r,(1)对伦敦市月平均气温(T)与降水量(P)之间的相关系数,f=12-2=10,在显著性水平 上,查表3.1.3,得知:。因为,所以,伦敦市月平均气温(T)与降水量(P)之间的相关性并不显著。,(2)对于甘肃省53个气象台站降水量(P)和纬度(Y)之间的相关系数,以及蒸发量(V)和纬度(Y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值,但是我们发现,在同一显著水平下,随着样本数的增大,临界值减少。在显著性水平=0.001上,取f=50,查表3.1.3得知
6、:=0.001=0.4433。显然,PY和VY的绝对值都远远大于=0.001=0.4433,这说明甘肃省53个气象台站降水量(P)和纬度(Y)之间,以及蒸发量(V)和纬度(Y)之间都是高度相关的。,某地区土壤中有机碳和有机氮含量分别如1所示,试求两者之间是否存在线性相关关系。分析步骤:1.绘制散点图2.前提条件检验正态性检验3.计算Pearson相关系数4.显著性检验,分析结果表明:在0.01水平上,SON和SOC极显著正相关,pearson相关系数为0.96。,某山地各气象观测站的相关数据如2所示,试分析其相关关系。分析步骤:1.绘制散点图2.前提条件检验,正态性检验3.计算Pearson相
7、关系数4.显著性检验,分析结果表明:在0.01水平上,年降水量与经度极显著负相关,相关系数为0.559;年降水量与海拔极显著正相关,相关系数为0.937;经度与海拔在数值上极显著负相关,在专业意义上为假相关。,秩相关系数,又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。,(3.1.4),(二)秩相关系数的计算与检验,书中表3.1.4给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(3.1.4),就可以计算它们之间的秩相关系数:即:GDP(x)与总人口(x)之间
8、的等级相关系数为0.7847。,示例:,n代表样本个数,代表不同的置信水平,也称显著水平,表中的数值为临界值。,秩相关系数的检验,在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著水平下,随着样本数的增大,临界值减少。在n=30时,查表得:0.010.432,由于xy=0.7847 0.010.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。,二、多要素间相关程度的测定,偏相关系数的计算与检验复相关系数的计算与检验,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平
9、均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。,问题产生,偏相关系数的计算与检验,偏相关系数的计算 定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。计算:3个要素的偏相关系数,(3.1.5),(3.1.6),(3.1.7),四个要素的偏相关系数
10、,(3.1.8),(3.1.9),(3.1.10),(3.1.11),例如:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:,利用一级偏向关系数公式计算一级偏向关系数,如表3.1.5 所示:,利用 二级偏相关系数公式计算二级偏相关系数,见下表:,性质,偏相关系数分布的范围在-1到1之间;偏相关系数的绝对值越大,表示其偏相关程度越大;偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。,偏相关系数的显著性检验 t检验法的计算公式:,上例检验:查t分布表,在自由度为23-3-1=19时,t0.001=3.883
11、,显然,这表明在置信度水平=0.001上,偏相关系数r2413是显著的。,某山地各气象观测站的相关数据如所示,试分析消除经度影响后,年降水量与海拔的偏相关系。分析步骤:1.前提条件检验正态性检验2.计算偏相关系数3.显著性检验,偏相关分析,早稻产量与降雨量和温度之间的关系,实现步骤,图 在菜单中选择“Partial”命令,图“Partial Correlations”对话框,图“Partial Correlations:Options”对话框,结果和讨论,复相关系数,复相关系数:反映几个要素与某一个要素之间的复相关程度。计算 当有两个自变量时,当有三个自变量时,当有k个自变量时,,(3.1.1
12、5),(3.1.16),(3.1.17),性质 复相关系数介于0到1之间,即 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。仅表现出一个变量与一个变量集一起变化的程度。复相关系数必大于或至少等于单相关系数的绝对值。显著性检验 F-检验法。其统计量计算公式为,例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式(3.1.16)计算:检验:,故复相关达到了极显著水平。,某山地各气象观测站的相关数据如2所示,试年降水量与海拔和经度的复相关关系.,假定有 n 个样品
13、,m个变量,则可以建立一个原始数据矩阵 X如下,相关系数(correlation coefficient)是对于变量而言,第 j 和第 k 个变量的相关系数,计算公式为,相似系数,相似系数(similar coefficient)是针对样本而言,第 i 和第 r 个样品的相似系数,计算公式为,相关系数与相似系数的不同在于 R 型分析(基于样品分析变量)和 Q 型分析(基于变量分析样品)的区别,举例说明。下表是 2000 年北京、天津及上海的非农业人口和建成区面积。非农业人口和建成区面积为变量,城市为样品,因此计有两个变量,三个样品。我们采用这个非常简单的例子是为了便于直观地显示图形的结构,回归
14、分析,回归(regression)这一术语是1886年高尔顿(Galton)研究遗传现象时引进的,他发现:虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量,后代的身高有向平均高度靠拢的趋势。他称这一现象为“向平常高度的回归”“Regression toward mediocrity in heredity stature”。尔后,皮尔逊(Pearson)搜集了1078个家庭或成员的身高数据,分析出成年儿子的身高y和父亲的身高x大致可归结为以下关系:如今人们将回归分析理解为研究变量间统计依赖关系的方法,而并非Galton的原意,但回归这一名词却一直沿用下来,成为统计中最常用的概
15、念之一。,回归分析的由来,回归分析能解决的问题确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;根据一个或几个变量的值,预报或控制另一个变量的取值。,主要内容建立变量x与y之间的线性回归模型估计回归系数(最小二乘法)并进行显著性检验判断变量x和y之间是否存在线性关系根据一个变量的值,预测或控制另一变量的取值,一元线性回归模型 设(X,Y)是反映两个总体特征的指标。对(X,Y)进行n次观察,获得观察值(xi,yi),得到平面上的n个点。在n较大的情况下,如果有一条曲线基本上通过这些点,或使这些点的大部分偏离曲线不远,则称这条曲线为观察值的拟合曲线,亦称此曲线为y对
16、x的回归曲线。如果这条曲线的方程能够表示成yf(x),则称该方程为y对x的回归方程。当此曲线是直线时,就称之为直线回归。,一、一元线性回归模型,定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数;为各组观测数据的下标;为随机变量。,(3.2.1),记 和 分别为参数a与b的拟合值,则一元线性回归模型为(3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。,(3.2.2),参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有,(3.2.3),(
17、3.2.5),(3.2.6),解上述正规方程组(3.2.4)式,得到参数a与b的拟合值,(二)一元线性回归模型的显著性检验,总的离差平方和,误差平方和,或剩余平方和,回归平方和,方法:F 检验法。总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明,(3.2.9),(3.2.8),在式(3.2.9)中,Q称为误差平方和,或剩余平方和 而 称为回归平方和。,统计量F F越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。,(3.2.10),方差检验法,一元线性回
18、归方程的检验(分析)可决系数R2(coefficient of determination),表达式是相关系数的平方,但不同于相关系数。该比值是自变量能解释Y变异的百分比,反映了回归拟合的优劣程度。拟合越好,可决系数越接近于1。由于可决系数不是对总体参数的估计,因此不能作任何显著性检验。,调整的可决系数(adjusted R2),实际中,随着自变量个数p的增加和样本量n的变化,必然会使得R2不断变化,在进行拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。,估计标准误(均方误差),估计标准误(标准误差)定义各测量值误差的平方和的平均值的平方根(Std.E
19、rror of the Estimate),故又称为均方误差(Mean Square Error,MSE),也称为剩余标准差(Root MSE)。它反映了回归方程的精度,估计标准误差越小,回归效果越好。,一元线性回归模型的表达,估计标准误(Std.Error of the Estimate),多元线性回归模型回归参数的估计回归方程的显著性检验回归参数的显著性检验回归方程的拟合优度检验,多元线性回归,问题的提出现实生活中引起被解释变量(因变量)变化的因素并非仅只一个解释变量(自变量),可能有很多个解释变量(自变量)。例如,作物产量往往受各种投入要素施肥、农药、灌溉、管理、技术等的影响。2.所以在
20、一元线性模型的基础上,提出多元线性模型解释变量个数 2,二、多元线性回归模型,回归模型的建立 多元线性回归模型的结构形式为,(3.2.11),式中:为待定参数;为随机变量。,回归方程:如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。,(3.2.12),偏回归系数的推导过程:根据最小二乘法原理,的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得,(3.2.13),(3.2.14),方程组(3.2.15)
21、式称为正规方程组。引入矩阵,(3.2.15),则正规方程组(3.2.15)式可以进一步写成矩阵形式,求解得引入记号,(3.2.16),正规方程组也可以写成,回归模型的显著性检验,回归平方和U与剩余平方和Q:回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。,F检验结果表明:回归方程显著。,t检验结果表明:回归常数和偏回归系数均显著,结果表明:拟合效果很好,可以利用该经验回归方程进行预测和控制。,相关系数(correlation coefficient)主要用于检验拟合模型的线性关系的显著性程度,一般用 R 表示。相关系数的平方(R2)称为测定系数(det
22、ermination coefficient,或译“决定系数”、“判定系数”、“可决系数”等),又叫拟合优度(goodness of fit)。在一元线性回归中,测定系数的大小可以反映自变量对因变量的解释程度,即具有百分之几的解释能力。相关系数的计算公式为,非线性关系线性化的几种情况对于指数曲线,令,可以将其转化为直线形式:,其中 对于对数曲线,令,可以将其转化为直线形式:;对于幂函数曲线,令,可以将其转化为直线形式:其中,;,三、非线性回归模型,对于双曲线,令,转化为直线形式:对于S型曲线,可 转化为直线形式:;对于幂乘积,只要令 就可以将其转化为线性形式 其中;,对于对数函数和 只要令,就
23、可以将其化为线性形式 例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。,表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m),解:(1)作变量替换,令:,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。,表3.2.2 经对数变换后的数据,(2)以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。,图 林地景观斑块面积(A)与周长(P)之间的双对数关系,(3)根据所得表中的数据,运用建立线性回归模型的方法,建立
24、y与x之间的线性回归模型,得到 对应于(3.2.19)式,x与y的相关系数高 达=0.966 5。(4)将(3.2.19)还原成双对数曲线,即,(3.2.19),(3.2.20),最优回归方程 选择标准回归方程中应包含尽量多的信息所有自变量均通过显著性检验 选择方法移除(穷举)的回归分析方法(remove)逐步剔除的回归分析方法(backward)逐步引入的回归分析方法(forward)“有进有出”的回归分析方法(stepwise),最优回归方程 Foreward自变量从无到有、从少到多Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变
25、量的偏回归平方和,选取偏回归平方和最大者作F检验,。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,Backward先将全部自变量放入方程,然后逐步剔除偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果。,最优回归方程逐步回归法(stepwise)将所有自变量分别与y建立一元线性回归方程,将偏回归平方和最大以及通过显著性检验的变量引入方程。将剩余变量再分别与y以及已引入方程的自变量建立二元回归方程,并检验回归方程,剔除不显著变量。如果要在回归方程中剔除不显著的自变量,则首先应从已引入的变量中剔除对因变量贡献最小的,也就是偏回归平方和最小的一个自变量。标准:F统计量的显著性概率sig.=0.10,变量被移出回归方程。,相关性检验的一般步骤如下:借助公式计算相关系数 R值。拟定显著性水平。如果要求置信度达到 95%,则取显著性水平=0.05;如果要求置信度达到 99%,则取显著性水平=0.01。查相关系数表。找出剩余自由度 v=m-m-1 时 R的临界值。进行判别。当 时,认为 x 与 y 之间在水平下显著相关,检验通过;当 时,认为 x与 y之间在水平下线性关系不显著。,