《数据资料的初步整理与显.ppt》由会员分享,可在线阅读,更多相关《数据资料的初步整理与显.ppt(44页珍藏版)》请在三一办公上搜索。
1、第四章 数据资料的初步整理与显示,4.1 数据资料的初步整理4.2 特征数的确定4.3 正交试验结果的直观分析4.4 可疑值的取舍4.5 数据整理结果的显示,资料整理就是根据研究的目的,运用科学的方法,对所获得的资料进行审核、检验、分析、汇编等初步加工,使之系统化和条理化,并以集中、简明的方式反映研究对象总体情况的过程。,第四章 第一节 数据资料的初步整理,一、数据资料整理的概念,资料整理过程包括:,(1)对搜集到的资料进行全面审核,发现问题,及时纠正;(2)根据研究目的要求和统计分析的需要,对原始资料进行划类分组;(3)在分组的基础上,将各项资料进行汇总,得出反映各组和总体的总量指标;(4)
2、将整理好的总量指标,通过统计表、统计图显现出来。,数据整理的内容,第四章 第一节 数据资料的初步整理,第四章 第一节 数据资料的初步整理,二、数据资料的检查和审核,1、对原始数据进行审核检查内容:资料的完整性和及时性;资料的正确性检查方法:逻辑检查和计算检查 对原始资料检查核实后,如发现遗漏,应及时补充;如发现错误,找出错误的原因,及时纠正,必要时重新试验或调查。,2、对二手数据进行审核检查内容:适用性和时效性,3、数据筛选,第四章 第一节 数据资料的初步整理,三、数据资料的分组,1、数据资料分组的概念及作用数据分组:是根据统计研究目的和被研究总体的本质特征,按照一定的标志将总体划分成不同性质
3、的若干部分或组别的一种统计方法。作 用:通过统计分组,可保持数据资料组内现象的同质性和组间现象的差异性,不仅能反映环境现象的不同类型,得到现象总体内部各部分的构成特征,也使得运用各种统计分析方法进一步研究环境现象之间的相互依存关系根据方便。统计分组是统计资料整理的基础,也是统计分析的基本方法。,第四章 第一节 数据资料的初步整理,三、数据资料的分组,2、分组标志的选择,统计分组的关键:分组标志的选择和划分各组的界限,3、统计分组的原则穷尽原则,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能
4、同时或可能归属于几个组。,第四章 第一节 数据资料的初步整理,三、数据资料的分组,4、统计分组的种类,按分组标志的多少,可分为简单分组和复合分组。简单分组:就是对研究现象按一个标志进行分组。复合分组:用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。,第四章 第一节 数据资料的初步整理,按分组的作用和任务不同,分为类型分组、结构分组和分析分组。类型分组:把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组。结构分组:在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构,即结构分组。分析分组:为
5、研究现象之间依存关系而进行的统计分组即分析分组。,三、数据资料的分组,按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。品质分组:按品质(或属性)标志进行分组。品质分组所形成的数列称为品质数列。数量分组:按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。变量分组所形成的数列称为变量数列。,4、统计分组的种类,第四章 第一节 数据资料的初步整理,三、数据资料的分组,是否需要分组?样本容量n30(小样本):不分组直接统计分析。样本容量n30(大样本):分组计算其在各组区间内的变数个数(即次数),第四章 第一节 数据资料的初步整理,由各区间
6、内变数出现的次数组成的分布为变数的次数分布。分布在各组间的个体单位数叫做次数或频数,各组次数与总次数之比叫做比率或频率。,反映数据分布特征的表格为频数表(或次数表),频数分布表的制作是在对样本分组的基础上进行的。,1、次数分布表的制作,第四章 第一节 数据资料的初步整理,四、数据的分组的方法,(1)连续型数据资料的次数分布表,计量资料的整理分组是采用组距式分组法在分组前需确定全距、组数、组距、组中值和组限,将每个观测值分别归入相应的组内。,第四章 第一节 数据资料的初步整理,100个噪声测量值(dB),样本容量与分组数的关系,第四章 第一节 数据资料的初步整理,全距或极差:R=xmax-xmi
7、n确定组数k:k=1+3.3lgn(斯特杰斯经验公式),第四章 第一节 数据资料的初步整理,确定组距C:C=R/k组距为每组的上限与下限之差。有此公式所求得的组距不一定是整数,为了便于计算可以采用整数作为组距。确定组中值:组中值各组中点位置所对应的变量值。其计算公式为:,组中值=(适用所有闭口组)或=(适用上开口组)或=(适用下开口组),第四章 第一节 数据资料的初步整理,确定组限和分组 组限即一个组所在区间的两个极端值,大的为上限,小的为下限。,在将原始数据分成若干组段时,要求第一组的下限略小于或等于最小变量值最后一组的上限略大于或等于最大变量值组限要明确,最好比原始资料的数字多一位小数,当
8、与原观察值的小数位数相同时,规定组区间为左闭右开区间,使观测值归组时不致含糊不清。,第四章 第一节 数据资料的初步整理,制作次数分布表 确定好组数和各组的上下限后,可按原始资料中各观测值的次序,把各个值归于各组,一般用“正”字划线法或卡片法来计算各组的观测值次数,全部观察值归组后,即可求出各组的次数和频率,制作一个次数分布表。,第四章 第一节 数据资料的初步整理,1、次数分布表的制作,第四章 第一节 数据资料的初步整理,四、数据的分组的方法,(2)离散型数据资料的次数分布表,对离散型数据资料,如变量值的变化范围很小或变量值的个数较少时,用样本的自然值进行分组,每组均用一个变数值来表示。分组时,
9、可将数据中每个变数分别归入相应的组内,然后制成次数分布表。,第四章 第一节 数据资料的初步整理,100个企业废水排放量(万吨),2、次数分布图的制作,第四章 第一节 数据资料的初步整理,四、数据的分组的方法,2、次数分布图的制作,第四章 第二节 特征数的确定,一、表征数据资料集中趋势的统计特征数,算术平均数(arithmetic mean)几何平均数(geometric mean)中 位 数(median)众 数(mode),第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,极差(或全距)方差标准差 变异系数偏度系数峰度系数,第四章 第二节 特征数的确定,二、表征数据资料变异性的特
10、征数,极差(或全距)样本极差较大,变异范围较大,其平均数的代表性较差;样本极差较小,变异范围较小,其平均数的代表性就较好。但是,极差的大小有两个极端值决定,不能反映资料的全部信息,容易受到资料中不正常极端值的影响,全面反映事物变异的实际情况的精确度差,一般只作参考,说明大致情况,而不常作为使用的依据。,第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,方差,样本的离均差平方和,总体的离均差平方和,样本均方,总体方差,第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,标准差,第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,变异系数离散系数,因此,对总体和样本
11、特征就可用平均数、标准差和测定次数三个指标来表示,这样不仅能反映总体或样本的平均水平,还能反映其变异程度及测定资料的可靠性。在有的论文中还用测定值的变异系数进行变异程度的比较,第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,偏度系数:用于衡量变量次数分布不对称的程度。,第四章 第二节 特征数的确定,二、表征数据资料变异性的特征数,峰度系数:度量变量频率分布形态的另一种指标。,r2=0,分布为正态的;r20,分布为高峰态的;,第四章 第三节 正态试验结果的直观分析,一、正交试验直观分析的目的,求最佳水平组合,即寻找各因素分别取何水平时,所得到的试验结果最好。求影响因素的主次顺序,将
12、所有影响因素按其影响的大小进行排队。,求影响因素的主次顺序,常采用极差分析法:极差大表明该因素影响大,是主要因素;极差小表明该因素的影响小,为次要因素。,第四章 第三节 正态试验结果的直观分析,二、直观分析的步骤,L9(34),第四章 第三节 正态试验结果的直观分析,二、直观分析的步骤,计算各因素的水平总值Kij。它等于第i因素在第j个水平所做的nj次试验结果之和。对等水平正交表,各个因素的水平重复次数ni相等,对混合型正交表,ni不一定相等。计算水平均值根据某因素的水平均值即可求得该因素的极差R根据各因素的水平均值与极差确定最佳水平组合与影响因素的主次关系。,第四章 第三节 正态试验结果的直
13、观分析,二、直观分析的步骤,第四章 第三节 正态试验结果的直观分析,二、直观分析的步骤,假设计算结果:A第一个水平均值最好;B第二个水;C第三个水平;D第二个水平则最佳水平组合:A1B2C3D2,如果极差的大小顺序为RARBRDRC,各影响的大小顺序为ABDC。,第四章 第三节 正态试验结果的直观分析,例:利用磷酸铵镁(MAP)法处理含高浓度氨氮的废水,使其中的氨氮转化为缓释肥料,解决氮的回收和氨的二次污染问题,以pH(A因素)反应温度(B因素)n(P):n(N)(C因素)n(Mg):n(N)(D因素)为试验因素,利用L9(34)正交表,以氨氮去除率为考察指标,确定最佳工艺,试验结果如下:,二
14、、直观分析的步骤,第四章 第三节 正态试验结果的直观分析,二、直观分析的步骤,正交试验结果,第四章 第三节 正态试验结果的直观分析,二、直观分析的步骤,第四章 第四节 可疑值的取舍,一般情况下,从一个总体进行抽样时,取值愈接近分布中心,其出现的可能性就愈大,距分布中心远的取值出现的概率就愈小。一个样本中出现概率很小的值称为可疑值(或异常值)。,一、可疑值的概念,第四章 第四节 可疑值的取舍,物理判别法在环境科学研究过程中,凡是因布点、采样、运输、保存、分析测试不当以及由于人为疏忽所引起的异常样点或测试数据,随时发现,随时就应剔除,并补采样品或重新测试,这是首要方法。画直方图法直观4d法格鲁布斯
15、检验法狄克逊检验法Q值法t检验法,二、可疑值剔除的方法,第四章 第五节 数据整理结果的显示,一、统计表,统计表是集中而有序地表现统计资料的表格。统计表的结构1.从形式(组成因素):横行、纵栏、标题、标目、数字资料2.从内容:主词、宾词统计表的种类1.按用途分:调查表汇总表分析表2.按主词的分组情况分简单表分组表复合表,指标设计1.平行设计;2.层叠设计制表规则1.标题醒目准确2.内容简明扼要3.项目排列有序4.字迹清楚规范(数字按个位数上下对齐,无数填号,缺报填号)5.各栏应加编号6.规格合乎要求(上下粗线,左右开口,栏间划线,行间空白),2、统计图,统计图:是具体显示统计资料的图形。1、直方图(粉红色是累计曲线图),第四章 第五节 数据整理结果的显示,2、折线图,第四章 第五节 数据整理结果的显示,3、饼形图,第四章 第五节 数据整理结果的显示,4、柱形图,第四章 第五节 数据整理结果的显示,5、散点图,第四章 第五节 数据整理结果的显示,