《地学统计第二章ppt课件.ppt》由会员分享,可在线阅读,更多相关《地学统计第二章ppt课件.ppt(34页珍藏版)》请在三一办公上搜索。
1、2022/12/27,1,第二章 样本数据的统计分析和预处理,资源与环境学院 杨勇,2022/12/27,2,华中农业大学 资源与环境学院,目录,描述性统计频数分布集中趋势的度量离散型度量偏度和峰度数据检验和分布分析异常值的识别和处理正态分布的检验方法数据转换处理相关分析和回归分析回归分析相关分析,2022/12/27,3,华中农业大学 资源与环境学院,总体,样本和随机样本,总体是指根据统计分析或研究目的而确定的同类事物或现象的全体,有时也把具有共同性质的元素所组成的集合称为总体。从总体中抽取若干个元素而构成的集合叫样本在抽选样本时,总体的每一个元素被抽中的概率相同,这时样本就称为随机样本。在
2、随机抽取的样本的条件下,样本的分布规律与总体的分布规律相似,即样本在一定程度上反映了总体的分布。,2022/12/27,4,华中农业大学 资源与环境学院,2.1 描述性统计,频数分布:测量尺度中的类在某测量集合中出现次数的汇总,说明实测值在测量尺度上的分布情况。离散型频率分布:连续型频率分布:(直方图),实例见表2-3 和 图2-2,2022/12/27,5,华中农业大学 资源与环境学院,集中趋势的度量,反映数据分布集中趋势的参数算术平均数:中位数:如果样本数据资料中的全部观测值从小到大一次排列,处于中间位置的观测值称为中位数。分位数:众数:频率直方图中对应最大频数的那一组中的组中值。,202
3、2/12/27,6,华中农业大学 资源与环境学院,离散型度量,极差:四分位差:离均差:方差:总体方差: 样本方差:,:总体标准差,:样本标准差,2022/12/27,7,华中农业大学 资源与环境学院,离散型度量,变异系数:样本变量的相对变异量,可以比较不同样本相对变异程度大小标准分和标准化变量: 标准分:,用于刻画数据与均值相对于标准差的偏离程度,2022/12/27,8,华中农业大学 资源与环境学院,偏度和峰度,偏度系数:描述分布的偏斜程度,Sk=0,对称分布;Sk0,正偏(右偏),较小的数据比较集中;Sk0,负偏(左偏),较大的数据比较集中,2022/12/27,9,华中农业大学 资源与环
4、境学院,偏度和峰度,峰度系数:统计数据分布陡峭程度的度量,Ku0,频数分布的曲线峰高于正态分布,称为尖顶峰度Ku0,频数分布的曲线较正态分布更为平坦,称为平顶峰度Ku=0,等于或接近于正态分布,2022/12/27,10,华中农业大学 资源与环境学院,2.2 数据检查和分布分析,在进行地统计学分析前,为了保证分析结果的可靠性,经常需要对数据进行检查和预处理,剔除异常值的影响,进行正态分布检验和转换,使参与计算的数据尽量符合正态分布。异常值的识别和处理正态分布的检验方法数据转换处理,2022/12/27,11,华中农业大学 资源与环境学院,异常值的识别和处理,异常值:样品数据中出现概率很小的值,
5、往往在分析前需要剔除。方法:1、平均值加标准差法2、四倍法3、格拉布斯法4、狄克松法5、t检验法,2022/12/27,12,华中农业大学 资源与环境学院,异常值的识别和处理平均值加标准差法,正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况:对于数据分布相对复杂的情况,可采用3S法,2022/12/27,13,华中农业大学 资源与环境学院,异常值的识别和处理平均值加标准差法,(5.2932,7.941),(4.63125,8.60295),2022/12/27,14,华中农业大学 资源与环境学院,异常值的识别和处理四倍法,某观察数据与该样品平均值的差数(d)大于平均偏差 的
6、4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。即:计算过程:,2022/12/27,15,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,过程:测量数据:例如测量10次(n10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。 计算平均值x-和标准差s:x-7.89;标准差s2.704。计算时,必须将所有10个数据全部包含在内。
7、计算偏离值:平均值与最小值之差为7.894.73.19;最大值与平均值之差为14.07.896.11。,2022/12/27,16,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。 计算Gi值:Gi(xix- )/s;其中i是可疑值的排列序号10号;因此G10( x10 x- )/s(14.07.89)/2.7042.260。计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,
8、临界值GP(n)与两个参数有关:检出水平 (与置信概率P有关)和测量次数n 。,2022/12/27,17,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,定检出水平:如果要求严格,检出水平可以定得小一些,例如定0.01,那么置信概率P10.99;如果要求不严格,可以定得大一些,例如定0.10,即P0.90;通常定0.05,P0.95。 查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)2.176。 比较计算值Gi和临界值G95(10):Gi2.260,G95(10)2.176,GiG95(10)。,20
9、22/12/27,18,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,判断是否为异常值:因为GiG95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除.余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的GiG95(9),仍然是异常值,剔除;如果GiG95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。,2022/12/27,19,华中农业大学 资源与环境学院,格拉布斯表临界值GP(n),2022/12/27,20,华中农业大学 资源与环境学院,异常值的识别和处理狄克松法,如有一组数据:排序后:怀疑0.167为异常值,计算Q查表的,对于10个
10、观测数因此,0.167在90%的置信概率内被剔除,但 因此,0.167在95%的置信概率内被保留,狄克松检验临界值表,2022/12/27,21,华中农业大学 资源与环境学院,异常值的识别和处理t检验法,2022/12/27,22,华中农业大学 资源与环境学院,异常值的识别和处理,对于大样本(样本容量大于100)的异常值判断,通常用二倍或三倍标准差法;对于小样本的异常值判断,一般使用狄克松、格拉布斯和t检验法。但这三种方法仅适用于用来剔除正态小样本的异常数值,若样本不符合正态分布,则要进行转换。,2022/12/27,23,华中农业大学 资源与环境学院,正态分布的检验方法,概率论中最重要的一种
11、分布,也是自然界最常见的一种分布。该分布由两个参数平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。,2022/12/27,24,华中农业大学 资源与环境学院,正态分布的检验方法直方图法,直方图(Histogram)又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。有各种形状:正常型 ,孤岛型 ,双峰型 ,折齿型 ,陡壁型 ,偏态型 ,平顶型等。直方图只能初步判断数据是否符合正态分布。,2022/12/27,25,华中农业大学 资源与环境学院,正态分布的检验方法PP和QQ,
12、P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。,2022/12/27,26,华中农业大学 资源与环境学院,正态分布的检验方法PP和QQ,Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近, 与P-P图不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。P-P图和Q-Q图的用途完全相同,只是检验
13、方法存在差异,2022/12/27,27,华中农业大学 资源与环境学院,2022/12/27,28,华中农业大学 资源与环境学院,正态分布的检验方法其他,偏度峰度联合检验法,2者越接近0,越符合正态分布夏皮洛-威尔克检验科尔莫戈洛夫-斯米尔诺夫检验法(K-S),2022/12/27,29,华中农业大学 资源与环境学院,数据转换处理,将原始数据的频数分布,通过一定的尺度转化,转换为另外的频数分布,而正态转化是最为常用的一种。地统计学分析中,分析数据最好接近正态分布,转换方法主要有对数转换:X - lnX平方根转换:反正弦转换,2022/12/27,30,华中农业大学 资源与环境学院,2.3 相关
14、分析和回归分析,回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。,2022/12/27,31,华中农业大学 资源与环境学院,回归分析,如一元线性回归模型:X,Y的联合观测结果:则估计参数为:标准估计误差:,20
15、22/12/27,32,华中农业大学 资源与环境学院,回归分析,回归效果显著性检验:总平方和: 数据总的变动回归平方和: 被回归方程解释的部分残差平方和: 未被回归方程解释的部分,2022/12/27,33,华中农业大学 资源与环境学院,回归分析,回归效果显著性检验:(1)决定系数: 用来度量回归值与实际观测值拟合的优良程度,越接近1,拟合效果越好(2)F检验:若 ,则认为回归效果显著,否则认为不显著,其中 是自由度为(1,n-2)的F分布水平a上侧的分位数。,2022/12/27,34,华中农业大学 资源与环境学院,相关分析,研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关系数:,取值范围为-1,1,大于0为正相关,小于0为负相关,绝对值越接近1,相关性越大。,