《实验数据的收集整理ppt课件.ppt》由会员分享,可在线阅读,更多相关《实验数据的收集整理ppt课件.ppt(61页珍藏版)》请在三一办公上搜索。
1、,第一章 统计数据的收集、整理,教学基本要求: 了解资料的类型;理解次数分布表与次数分布图的概念;掌握次数分布表与次数分布图的制作方法。了解常用统计量的种类;理解样本平均数、样本标准差、样本变异系数的意义、作用;掌握样本平均数、样本标准差、样本变异系数的计算方法。教学重点难点: 重点:大样本连续型变数资料的分组方法,次数分布表与次数分布图的制作。样本平均数、样本标准差、样本变异系数的意义、作用和计算方法。 难点:分组数列的确定。样本标准差的统计意义教学建议: 分组收集资料,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支
2、持和示范模式。,第一章 实验数据的收集、整理,1.1 资料的分类1.2 数据的收集1.3 资料的检查和核对1.4 资料的整理和分组1.5 特征数 1.5.1 平均数 1.5.2 变异数,3,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为:数量性状资料质量性状资料,4,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供
3、技术支持和示范模式。,第一节 资料的分类,一、数量性状资料能由计数和量测的方式获得的性状数量资料为数量性状资料。因数量性状(quantitative trait)的度量有计数和量测两种方式,其所得数据不同。,5,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,1、连续型数据(continuous variable):指由称量、度量或测量、分析化验等方法所得到的数据。其各个变量并不仅限于整数,在两个相邻数值之间可以有微量差异的其他数值存在。例如:测定粒重,产量、株高、长度、营养元素的含量
4、等。,6,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,2、间断型数据(discrete variable): 是指由计数方法所获得的数据,其各个数据必须以整数表示,在两个相邻的整数间不能有带小数的数值存在。由于两个整数间是不连续的故称为不连续型或间断型数据。如动物头数、穗数、每穗粒数等。,7,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,二、质量性状资料质量性状(qual
5、itative trait) 指能观察而不能量测的性状,即属性性状,如肤色,花、子粒等器官的颜色,绒毛的有无等。由只能观察描述或感觉而难以量测的性状获得的数量资料为质量性状资料。这些性状本身不能以数字来表示,要获得这类性状的数量资料,可采用下列两种方法进行数量化:,8,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,1.统计次数法 在一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数,以次数作为质量性状的数据。例如在320株水稻植株中有24
6、0株为紫色柱头的, 80株黄色柱头的。这类由质量性状数量化得来的资料也称为次数(或频次)资料。,9,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第一节 资料的分类,2. 给予每类性状以相对数量的方法(给分法) 对某一质量性状,因其类别不同,分别给予不同的级别或分值,例如,小麦子粒颜色有白有红,可令白色的数量值为0,呈红色的数量值为1。从这类变异所得资料,处理方法同间断型变数资料。,第二节 数据的收集,1、数据的收集方法: 调查 试验2、收集数据的要求:1.突出研究目的2.严格执行研究方案3.控制误差,
7、一、攻关目标,第三节 资料的检查和核对,检查和核对原始资料的目的在于确保原始资料的完整性和正确性。 完整性是指原始资料无遗缺或重复。 正确性是指原始资料的测量和记载无差错或未进行不合理的归并。 要特别注意特大、特小和异常数据; 有重复、异常或遗漏的资料 ,应予以删除或补齐 ; 有错误、相互矛盾的资料应进行更正,必要时复查。 资料的检查与核对工作虽然简单,但却是一项非常重要的步骤,只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经过统计分析得出正确的结论。,第四节 资料的整理和分组,试验或调查研究所得资料,经检查核对后,根据资料中观测值的多少确定是否分组。当观测值不多(n30)时
8、,不必分组,直接进行统计分析。倘包含很多观察值,未加整理很难得到明确的概念。如果把这些观察值按数值大小或数据的类别进行分组,制成不同组别或不同分类单位的频数分布表,就可以看出资料中不同表现的观察值与其频率间的规律性,即可以看出资料的频率分布的初步情况,从而对资料得到一个初步概念,以便统计分析。,13,一、攻关目标,第四节 资料的整理和分组,一、次(频)数分布表的编制将数据可能出现的整个范围化分成若干个互斥的组区间,再统计出现在各个组区间内的数据个数(次数),可以发现数据都有着一定的分布规律。由不同区间内数据出现的次数组成的分布,就叫做变数的次数分布,简称次(频)数分布。资料整理方法之一,就是编
9、制次(频)数分布表。次(频)数分布表的制作方法因数据种类不同而略有不同,分述如下。,14,一、攻关目标,第四节 资料的整理和分组,(一)、间断型数据资料的整理1、相同观察值归一组以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表。,15,第四节 资料的整理和分组,上述资料为间断型数据资料,每穗小穗数在 15 - 20的范围内变动,有6个不同的观察值,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这样可得次数分布表:从表中看到,一堆杂乱的原始资料,经初步整理后,就可了解资料的大致情况。另外,经过整理的资料也便于进一步的分析
10、。P3例1.1属此类。,16,第四节 资料的整理和分组,2、相邻几个观察值归一组 资料观察值较多,变异幅度较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对这类资料,可扩大为以几个相邻观察值为一组,适当减少组数,资料的规律性就较明显,对资料进一步计算分析也比较方便。如每组包含若干粒数的幅度,例如以5粒为一组,则可使组数适当减少。,17,一、攻关目标,第四节 资料的整理和分组,从下表可以看出,半数多的稻穗的每穗粒数在46-60粒间,大部分稻穗的每穗粒数在41 -70 间;但也有少数稻穗少到26-30粒的,多到8185的。,18,一、攻关目标,第四节 资料
11、的整理和分组,(二)、连续型数据资料的整理 连续型数据资料不能按间断型数据资料的分组方法进行整理,在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组,制作成次(频)数分布表。以140行水稻试验的产量为例,说明整理方法。,19,第四节 资料的整理和分组,次(频)数分布表的制作步骤:1. 数据排序:将所取得的数据按从小到大排列(升序)或从大到小排列(降序)。2.求极差R:资料中最大观察值与最小观察值之差,即整个样本的变异幅度。用R表示,即R=Ymax-Ymin 从表中查到最大观察值为254g,最小观察值为75g,极差为:R=254 - 75 =179g,20,第四节 资料
12、的整理和分组,3. 确定组数和组距:组数指将数据出现的整个数量范围分成多少个组区间。每组的距离称为组距。组数和组距是相互决定的,一般以达到既简化资料又不影响反映资料的规律性为原则。组数过多或过少,不能反映资料的规律性。如果组数过多,看不到资料的集中情况,且不便于以后的继续分析。,21,第四节 资料的整理和分组,3. 确定组数和组距:在确定组数和组距时应考虑: (1)数据个数的多少; (2)极差的大小; (3)便于计算; (4)能反映出资料的真实面貌等方面。,22,第四节 资料的整理和分组,样本大小(即样本内包含观察值个数的多少)与组数多少的关系可参照下表来确定。,23,第四节 资料的整理和分组
13、,确定组距。指每个组区间的高限和低限的差值,组距的大小由全距与组数确定,记作i。 i =极差/分组数以140行水稻产量为例,样本内观察值的个数为140,查表可分为8 -16组,假定分为12组,则组距为i179/12 = 14.9g15g以15g作为组距,方便分组。,24,第四节 资料的整理和分组,4. 确定组界和组中值(组值):每组应有明确的界限,才能使各个观察值划入一定的组内,为此必须选定适当的组中点值及组限。各组的最大值与最小值称为组界,最小值称为下界, 最大值称为上界,反映各组的的变异范围。组中值是各组的上界(数值大者)与下界之和除以2所得,即:组中值=(上限+下限)/2 =组下限1/2
14、组距 =组上限1/2组距每组组中值是该组的代表数值。,25,第四节 资料的整理和分组,确定组距后,首先要选定第一组的组中值。第一组的中点值以最接近最小观察值为好。确定第一组的组限以后,其余各组的组中值和组限便可依次确定。以140行水稻产量为例:选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75 + 15 = 90g,余类推。各组的中点值选定后,就可以求得各组组界。第一组的组限为67.5 - 82.5g。按照此法计算其余各组的组界。,26,第四节 资料的整理和分组,注意:组值最好为整数或与观察值的位数相同,以便于以后的计算。组限要明确,最好比原始资料的数字多一位小数,便于
15、归组。最末一组的上限应大于资料中的最大值。,27,第四节 资料的整理和分组,5. 归组:按依次表将观察值归入各个组内,并统计各组数据出现的次数,制成频数分布表。例如表中第一个观察值177应归于第8组,组限为172.5-187.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布表。“上限不在内”约定,28,第四节 资料的整理和分组,(三)、属性数据资料的整理 属性数据的资料,也可以用类似次数分布的方法来整理。在整理前,把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。例如,某水稻杂种第二代植
16、株米粒性状的分离情况,归于下表。,29,第四节 资料的整理和分组,如果把频数分布表中频次换算成频率(组频数/总数) ,则可做成频率分布表。如P3表1-1、P5表1-3。,30,第四节 资料的整理和分组,二、频数分布图:试验资料除用频数分布表来表示外,也可以用图形来表示,频数分布图可以更形象地表明频数分布的情况。较普遍应用的图示有:方柱形图、多边形图、条形图和饼图。,31,第四节 资料的整理和分组,(一) 方柱形图方柱形图(histogram)适用于表示连续型数据的频数分布。以140行水稻产量的次数分布表为例加以说明。1. 等分横轴:在横轴上分为13等分(因第一组下限不是从0开始,在其前加) ,
17、每一等分代表一组。第一组的上限即为第二组的下限,如此依次类推。2. 标定次数:在纵轴上标定次数。横坐标与纵坐标的长度比例一般为5:4或6:5为好。3. 画方柱: 查表3.6第一组有次数为2,所以在两组限处绘两条纵线,其高度等于纵坐标上两个单位,再画一横线连接两纵线的顶端,成为方柱形。其余各组可依次绘制,即成方柱形次数分布图3.1。,32,第四节 资料的整理和分组,(二) 多边形图多边形图是表示连续型数据资料的一种普通方法,且在同一图上可比较两组以上的资料。以140行水稻产量次数分布为例,图示时:以每组的中点值为代表,在横坐标各等分的中点向上等于该组单位数处标标点,表示该组含有的次数。把各点依次
18、用直线连接,所成图形即为频数多边形图。多边形图的折线在左边最小组的组中点外和右边最大组的组中点外,应各伸出一个组距的距离而交于横轴,因该两组次数为0,这可以使多边形的面积大致上与方柱形图相同。,33,第四节 资料的整理和分组,(三) 条形图条形图(bar diagram)适用于表示间断型数据和属性数据资料的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。现以水稻杂种第二代米粒性状的分离情况为例,在横轴上按等距离分别标定4种米粒性状,在纵轴上标定次数(f)。可画成水稻杂种第二代植株4种米粒性状分离情况条形图。,34,第四节 资料的整理和分组,(四) 饼图饼图(pie diagr
19、am)适用于间断型数据和属性数据资料,用以表示这些数据中各种属性或各种间断性数据观察值在总观察个数中的百分比。如图中白米糯稻在F2群体中占8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,35,第四节 资料的整理和分组,频数(率)分布的意义:1.可以看出数据分布的集中性;2.可以看出数据分布的变异性;3.可以看出数据分布的形状;总之,通过资料的整理做成频数分布表或频率分布表,可以看出数据分布的规律性。且便于下一步的统计分析。,第五节 特征数,一、 平均数 二、 变异数 三、 变异系数,37,第五节 特征数,由次数分布可以看到任何一个变数的分布具有两种明显的基本特征,即集中性和离
20、散性。 集中性是变数在趋势上有着向某一中心聚集、或者说以某一数值为中心而分布的性质。 离散性是变数又有着离中的分散变异的性质。 为了反映变数分布的这两种基本性质,显然必须算出它们的特征数。 反映集中性的特征数是平均数; 反映离散性的特征数为变异数。,38,第五节 特征数,一、平均数1. 平均数的意义和种类 平均数是数据的代表值,是统计学中最常用的统计量,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确两者之间相差的情况。平均数的种类较多,主要有: 算术平均数 中数 众数 几何平均数其定义分述于下:,39,第五节 特征数,(1) 算术平均数 一个数量资料中各个观察值
21、的总和除以观察值个数所得的商数,称为算术平均数,记作 。因其应用广泛,简称平均数或均数(mean)。均数的大小决定于样本的各观察值。(2) 中数 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数(median),计作Md。(3) 众数 资料中最常见的一数,或次数最多一组的中点值,称为众数(mode) ,计作Mo。 (4) 几何平均数 如有n个观察值,其相乘积开n次方,即为几何平均数(geometric mean),用G代表。,40,第五节 特征数,2.算术平均数的计算 算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。直接法 主要用于样本含量n30以下、未经分组资料平均数的
22、计算。设某一资料包含n个观测值:y1、y2、 yn ,则样本平均数可通过下式计算: 其中,为总和符号;表示从第一个观测值y1累加到第n个观测值yn 。当在意义上已明确时,可简写为y,改写为:,41,第五节 特征数,例 在水稻品种比较试验中,湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。由定义式有:,42,第五节 特征数,加权法 对于样本含量n30以上且已分组的资料,可在次数分布表的基础上采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为: (3-2)式中: 第i组的组中值; 第i组的次数; 分组数第i组
23、的次数fi是权衡第i组组中值yi在资料中所占比重大小的数量,因此fi称为是yi的“权”,加权法也由此而得名。,43,第五节 特征数,例 利用表3.6资料计算平均每行水稻产量。若采用直接法,因此,两者的结果十分相近。,44,第五节 特征数,平均数的基本性质 、样本各观测值与平均数之差的和为零,简称离均差,即离均差之和等于零。 或简写成 、样本各观测值与平均数之差的平方和,较各个观察值与任意其他数值的差数平方的总和为小,即离均差平方和为最小。 (常数a )以上两个性质可用代数方法予以证明。统计学中常用样本平均数( )作为总体平均数()的估计量,并已证明样本平均数是总体平均数的无偏估计量。,45,二
24、、变异数 每个样本有一批观察值,除以平均数作为样本的平均表现外,还应该考虑样本内各个观察值的变异情况,才能通过样本的观察数据更好地描述样本,乃至描述样本所代表的总体。如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数代表性弱。 因而仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。为此必须有度量变异的统计数。 常用的变异程度指标有:极差、方差、标准差和变异系数。,第五节 特征数,46,1.极差极差,又称全距,记作R,是资料中最大观察值与最小观察值的差数。全距大,则资料中各观测值变异程度大,全距小,则资料中各观测值变异程度小
25、。极差虽可以对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。 当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。,第五节 特征数,47,2.方差及标准差(1)方差、标准差的定义为了正确反映资料的变异度,较合理的方法是根据样本全部观察值来度量资料的变异度。为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,即( ),称为离均差。虽然离均差能表达一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为
26、零,即( )=0,因而不能用离均差之和( )来表示资料中所有观测值的总偏离程度。,第五节 特征数,48,为了解决离均差有正、有负,离均差之和为零的问题,可以采用将离均差平方的办法来解决离均差有正、有负及离均差之和为零的问题:先将各个离均差平方,即 ( )2,再求离均差平方和,即 ,简称平方和,记为SS;由于离差平方和常随样本大小而改变,为了消除样本大小的影响,用平方和除以样本大小,即 ,求出离均差平方和的平均数。,第五节 特征数,49,为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度n-1,于是,我们采用统计量 表示资料的变异
27、程度。统计量称为均方(mean square缩写为MS),又称样本方差,记为S2,即,第五节 特征数,50,相应的总体参数叫总体方差,记为 。对于有限总体而言,计算公式为: 由于样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做样本标准差,记为S,即:,第五节 特征数,51,由于 所以上式可改写为: 相应的总体参数叫总体标准差,记为。对于有限总体而言,的计算公式为: 在统计学中,常用样本标准差S估计总体标准差。,第五节 特征数,52,(2).方差、标准
28、差的计算方法 直接法 对于未分组或小样本资料,可直接计算标准差。例 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7, 5、4(用y代表)。此例n=5,经计算得:y=26,y2=22.8,代入公式得:该水稻单株粒重的标准差为2.39g。 矫正数,记作C。上法为矫正数法,可以比较简便地算出标准差。,第五节 特征数,53, 加权法 若样本较大,并已获得如次数分布表,可采用加权法计算标准差,计算公式为: 式中,f为各组次数;y为各组的组中值;f = n为总次数。例P15,第五节 特征数,54,标准差的特性 标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,
29、反之则小。 在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差( S)范围内;约有95.43%的观测值在平均数左右两倍标准差( 2S)范围内;约有99.73%的观测值在平均数左右三倍标准差( 3S)范围内。也就是说全距近似地等于6倍标准差,可用( )来粗略估计标准差。,第五节 特征数,55,3. 偏斜度和峭度平均数和标准差给出了包含在样本内的大量信息,这就基本上满足了我们的需要。然而,有时我们会遇到一个大样本,它的变化是规则的,但频数分布是不对称的。这时,还需要使用另一些特征数来弥补 和S的不足。其中之一是度量数据围绕众数呈不对称的程度,即通常所称的偏斜度( sk
30、ewness)。虽然有几种不同的度量偏斜的方法,但是建立在三阶中心矩(third central moment)基础上的方法有最好的特性,因而使用得最广泛。,第五节 特征数,56,制定一个没有任何单位的量。 (1.17)其中 ( 1.18) 称为二阶中心矩。 称为二阶原点矩。 类似于方差s2,不同的是 的分母是n而s2的分母是n 1。同样, 称为一阶中心矩,一阶中心矩恒等于0,相应的 称为一阶原点矩。 即为标准化的三阶中心矩,它是一个纯数,不带有任何单位。它的大小说明曲线偏斜的程度,称为偏斜度。 的判断没有任何界限,一般当 时偏斜就已经很大了。,第五节 特征数,57,第二个度量曲线形状的量是
31、,称为峭度。 (1.19)其中 称为四阶中心矩 ,相应的 称为四阶原点矩 , 永远是正值。当 接近3时,即 在0附近时,可以认为数据是“正态的”(见图1 -6a)。当 为正数时,频数分布图的走势比较尖峭;当 为负数时,频数分布图的走势比较平坦。图1 -6a的 几乎为0,因此该分布在峭度上是“正态”的。一般来说,对于一个频数分布,当 0.2, 0.3时,便可以认为其“正态性”很好了。图1 -6b的 =3.843 6, 说明该分布比“正态的”要尖峭。,第五节 特征数,58,第五节 特征数,59,4.变异系数 .变异系数的作用变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变
32、异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。标准差与平均数的比值称为变异系数,记为CV。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。,第五节 特征数,60,.变异系数的计算变异系数的计算公式为: (1.28),第五节 特征数,61,. 变异系数的特点变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。例如两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。算出变异系数相互比较,乙品种的变异系数为11.3% ,甲品种为9.5% ,乙品种的相对变异程度较大。在使用变异系数时,应该认识到它是由标准差和平均数构成的比数,既受标准差的影响,又受平均数的影响。因此,在使用变异系数表示样本变异程度时,宜同时列举平均数和标准差,否则可能会引起误解。,第五节 特征数,