资料的整理与描述.ppt_三一办公31ppt.com

资源描述

《资料的整理与描述.ppt》由会员分享，可在线阅读，更多相关《资料的整理与描述.ppt（77页珍藏版）》请在三一办公上搜索。

1、第二章资料的整理与描述,在试验研究中，通过观察、测量和记载，可获得大量的原始数据资料。这些资料往往是零乱的，无规律性可循。通过对资料的整理，才能发现其内部联系和规律性；,退出,第一节资料的整理一、资料的分类在田间试验中，由观察、测量所得的资料，按其性质的不同，一般可分为两大类:（一）数量性状资料（二）质量性状资料,下一张,主页,退出,上一张,（一）数量性状资料数量性状是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料。数量性状资料的获得有量测和计数两种方式，因而数量性状资料又分为以下两种:1、计量资料 2、计数资料,下一张,主页,退出,上

2、一张,1、计量资料指用量测方式获得的数量性状资料。计量资料的观测值不一定是整数，两个相邻整数间允许有带小数的任何数值出现，数据间的变异是连续的。因此，计量资料也称为连续性变异资料。,下一张,主页,退出,上一张,2、计数资料指用计数方法获得的数量性状资料。计数资料的观察值只能以整数表示，在两个相邻整数间不允许有任何带小数的数值出现。各个观察值是不连续的。因此，计数资料也称为不连续性变异资料或间断性变异资料。,下一张,主页,退出,上一张,（二）质量性状资料质量性状又称属性性状。这类性状本身不能直接用数值表示，要获得这类性状的数据资料，须对其观察结果作数量化处理，方法有以下两种：1、统

3、计次数法 2、评分法,下一张,主页,退出,上一张,1、统计次数法在一定的总体或样本内，根据某一质量性状的类别统计其次数，以次数作为质量性状的数据。【例如】，孟德尔的红花豌豆与白花豌豆的杂交试验，统计F2不同花色的植株时，在1000株植株中，有红花266株、紫花494株、白花240株。这种利用统计次数法对质量性状数量化得来的资料又叫次数资料。,下一张,主页,退出,上一张,2、评分法这种方法是用数字级别表示某种现象在表现程度上的差别。【例如】小麦感染锈病的严重程度可划分为0（免疫）、1（高度抵抗）、2（中度抵抗）、3（感染）级。【又如】观察施用某种农药后害虫的死亡情况，记“死”为0，记

4、“活”为1。,下一张,主页,退出,上一张,二、资料整理的方法根据样本大小确定是否分组：对小样本（n30）资料，可按观察值进行分组。当样本较大（n30）时，宜将观测值分成若干组，制成次数分布表，以了解资料集中与分散的情况。不同类型的资料，整理方法不同。,下一张,主页,退出,上一张,1、计数资料的整理对于观察值不多、变异范围不大的计数资料，以每一观察值为一组进行分组，然后制成次数分布表。【例如】随机调查100个麦穗，计数每穗小穗数，原始数据列于表2-1。,下一张,主页,退出,上一张,表2-1 100个麦穗的每穗小穗数,下一张,主页,退出,上一张,上述 100 个麦穗的每穗小穗数

5、在1520范围内变动，变异范围不大。以每一个观察值为一组，共分为6组。把所有观察值按每穗小穗数予以归组，可得表2-2形式的次数分布表。,下一张,主页,退出,上一张,表2-2 100个麦穗每穗小穗数的次数分布表,有些计数资料，观察值较多，变异范围较大，若以每一观察值为一组，则组数太多而每组所包含的观察值太少，资料的规律性显示不出来。对于这样的资料，可扩大为几个相邻的观察值为一组，适当减少组数，分组后，资料的规律性就较明显。,【例如】研究某早稻品种的每穗粒数，共观察200个稻穗，每穗粒数的变异幅度为27 83 粒。如果按每一观察值分为一组，需要分57组，每组所包含的观察值太少，资料的规律性显示

6、不出来；如以相差5粒为一组，共分为12组，则资料的规律性较明显，如表2-3所示。,每穗粒数（x）次数（）2630 1 3135 3 3640 10 4145 21 4650 32 5155 41 5660 38 6165 25 6670 16 7175 8 7680 3 8185 2 合计 200,表2-3 200个稻穗每穗粒数的次数分布,2、计量资料的整理【例如】表2-4中为水稻产量调查结果。,下一张,主页,退出,上一张,表2-4 140行水稻产量（单位：g）,177 215 197 97 123 159 245 119 119 131 149 152 167 104 161 214

7、125 175 219 118 192 176 175 95 136 199 116 165214 95 158 83 137 80 138 151 187 126 196 134 206 137 98 97 129 143 179 174 159 165 136 108 101 141 148 168163 176 102 194 145 173 75 130 149 150 161 155 111 158131 189 91 142 140 154 152 163 123 205 149 155 131 209183 97 119 181 149 187 131 215 111 186 1

8、18 150 155 197116 254 239 160 172 179 151 198 124 179 135 184 168 169173 181 188 211 197 175 122 151 171 166 175 143 190 213192 231 163 159 158 159 177 147 194 227 141 169 124 159,计量资料，分组前需要确定全距、组数、组距、组中值及组限，然后将全部观测值归组制成次数分布表。,（1）求全距全距是资料中最大值与最小值之差，又称为极差，用R表示，即 R=Max(x)-Min(x)表2-4中，水稻产量最大观测值为254g，最

9、小观测值为75g，全距为：R=254 75=179（g）,下一张,主页,退出,上一张,(2)确定组数和组距组数的多少视样本容量及资料全距的大小而定，一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当，不宜过多，亦不宜过少。分组过多或过少，资料的规律性都不能很好的反映不出来，计算出的统计数的准确性也较差。,下一张,主页,退出,上一张,表2-5 样本容量与组数样本容量组数 3060 5 8 60100 8 10 100200 1012 200500 1218 500以上 1830,下一张,主页,退出,上一张,组距指每组的最大值与最小值之差，记为i。分组时要求各组的组

10、距相等。组距（i）=全距/组数表2-4中的观测值个数即样本含量为140，查表2-5，取组数为12，则组距为：组距（i）=179/12=14.9（g）以15g作为组距。,下一张,主页,退出,上一张,（3）确定组限和组中值各组的最大值与最小值称为组限，最小值称为下限，最大值称上限。每一组的中点值称为组中值，是该组的代表值。组中值与组限、组距的关系为：组中值=（组下限+组上限）/2=组下限+组距/2=组上限-组距/2,下一张,主页,退出,上一张,由于相邻两组的组中值之差等于组距，所以当第一组的组中值确定后，加上组距就是第二组的组中值，第二组的组中值加上组距就是第三组的组中值，其余类推。,

11、下一张,主页,退出,上一张,在资料分组时：通常第一组的组中值以接近或等于资料中的最小观测值为好。第一组的组中值确定后，则该组组限也随之确定，其余各组的组中值和组限也可相继确定。注意，最后一组的上限应大于资料中的最大值。,表2-4中，最小观测值为75，选取75为第一组的组中值；因组距为15，所以第一组的下限为75-15/2=67.5；第一组的上限也就是第二组的下限为 67.5+15=82.5；第二组的上限也就是第三组的下限为 82.5+15=97.5；,下一张,主页,退出,上一张,依此类推，一直到某一组的上限大于资料中的最大值254为止。分组为:67.582.5,82.597.5,，2

12、47.5262.5。,为了使恰好等于前一组上限和后一组下限的数据能确切归组，约定将其归入后一组，即约定“上限不在内”。通常将上限略去不写:如第一组记为67.5；第二组记为82.5；第三组记为97.5；最后一组记为247.5。,下一张,主页,退出,上一张,（4）归组、制作次数分布表将资料中的每一观测值逐一归组，然后制成次数分布表。如表2-4中，第一个观测值177，应归入表2-6中第8组；第二个观测值215，应归入第10组；依次把140个观测值都进行归组，制成次数分布表，见表2-6。,表2-6 140行水稻产量数据的次数分布表,实际组数（13组）比原来确定组数（12组）多一组原因：由于第一组

13、的组中值等于最小观测值，故第一组的下限小于最小观测值，实际上增加了1/2组，这样也使最后一组的组中值接近于最大值，又差不多增加了1/2组，所以实际组数比原来确定组数多一组。,下一张,主页,退出,上一张,利用次数分布表不仅便于观察资料的规律，还可根据它绘成次数分布图和计算平均数、标准差等统计数。在归组时应注意：不要重复或遗漏，通过将各组的次数相加是否等于样本容量予以核查。,3、质量性状资料的整理对于质量性状资料可按性状或属性进行分组，分别统计各组的次数，然后制成次数分布表。例如，水稻杂种F2植株米粒性状的分离情况，见表2-7。,下一张,主页,退出,上一张,表2-7 水稻杂种F2植株米粒

14、性状分离情况,下一张,主页,退出,上一张,四、常用统计表与统计图,统计表：用表格形式来表示数据间的数量关系；统计图：用几何图形来表示数据间的数量关系。使用统计表和统计图，可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来，便于比较分析。,下一张,主页,退出,上一张,常用的统计图有柱形图、折线图或饼图等。图形的选择取决于资料的性质。计量资料采用柱形图、折线图；计数资料、质量性状资料采用条形图、饼图。,下一张,主页,退出,上一张,柱形图(直方图),100株湘菊梨单株产量方柱形图,47.0 50.0 53.0 56.0 59.0 62.0 65.0 68.0 71.0 74.

15、0,201510 5 0,适用于表示连续性变异资料的次数分布。,100株湘菊梨单株产量方柱形图,48.5 51.5 54.5 57.5 60.5 63.5 66.5 69.5 72.5,201510 5 0,次数f,折线图,适用于计量资料的次数分布图，且在同一图上可比较两组以上资料。,100个麦穗每穗小穗数条形图,15 16 17 18 19 20,302520151050,次数f,适用于计数资料和质量性状资料。,条形图,适用用于间断性变数和属性变数资料，用于表示各种属性的观察值在总观察值个数中的百分比。,54%,21%,17%,8%,图2-5 水稻杂种F2米粒性状分离,饼图,一、平均数,第

16、二节资料的描述,平均数是统计学中最常用的统计数，表示资料中观测值的中心位置，作为资料的代表与另一资料相比较。主要有算术平均数、中位数、众数、几何平均数与调和平均数5种。,资料中各观测值的总和除以观测值的个数所得的商，称为算术平均数，简称为平均数或均数。用符号表示。1、计算方法（1）直接法：适用于样本含量较小(n30)和未分组的资料。,（一）算术平均数,其中，为总和符号，表示从第一个观察值x1累加到第n个观察值xn，若在意义上已明确时，简记为。,此时,【例】在大豆“吉农904”区域试验中,6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.5（kg）。求该品种的小区平均

17、产量。即吉农904的小区平均产量为23.5kg,对于大样本(n30)且已分组资料，可在次数分布表的基础上采用加权法计算平均数:,xi 各组组中值；fi 各组次数；k 分组数。,（2）加权法,【例】用加权法计算表2-6资料中140行水稻平均产量。即140行水稻平均产量为157.93g。采用直接法算得=157.47g，用加权法计算的结果与其十分接近。,2、算术平均数的基本性质,性质1 样本各个观察值与平均数之差的和为零，即离均差之和为零；性质2 样本各观察值与平均数之差的平方和为最小，即离均差的平方和最小。,3、总体平均数通常用表示总体平均数。包含N个个体的有限总体的平均数的计算公式为：,统计学

18、中，用样本平均数估计总体平均数。,统计学已证明样本平均数是总体平均数的无偏估计。,将资料中所有观测值从小到大依次排列，位于中间位置的观测值，称为中位数，简称中数，记作Md。当观测值的个数为偶数时，则以位于中间位置的两个观测值的平均数作为中位数。,（二）中位数,资料中出现次数最多的那个数或次数最多一组的组中值称为众数，记为Mo。,(三)众数,（四）几何平均数,n个观测值相乘之积开n次方所得的方根，称为几何平均数，记作G。,（一）标准差的意义用平均数作为样本的代表，其代表性的强弱受样本中各观测值变异程度的影响。如果各观测值变异小，则平均数的代表性强；如果各观测值变异大，则平均数代表性弱。仅用

19、平均数对一个资料的特征特性作统计描述是不全面的，还需引入一个表示资料中各观测值变异程度大小的统计数。,二、变异数,极差：计算极差时只用了资料中的最大值和最小值，因而极差不能准确表达资料中全部观测值的变异程度，较粗略。为了克服极差的缺点，常使用标准差来表示资料的变异程度。,1、极差,设一样本有n个观测值：。为了准确描述样本内各观测值的变异程度，人们首先想到以平均数为标准，求各个观测值与平均数的差，即离均差。离均差大，变异就大，反之，变异就小。,2、标准差,将每个离均差平方，进而求得离均差的平方和，简称平方和，记作 SS，用来反映资料所有观测值的总变异程度。,离均差可表达观测值偏离平均数的程度和性

20、质，但由于离均差之和为零，不可能把离均差之和作为描述样本内所有观测值总变异程度的统计数。,由于平方和常随样本容量n而改变，为了消除样本容量的影响，用平方和除以样本容量n，即得离均差平方和的平均数,为了使所得的统计数是相应总体参数的无偏估计量，统计学证明，在求离均差平方和的平均数时，分母不用样本容量 n，而用自由度n-1。,用统计数表示资料所有观测值的总变异程度。,统计数称为均方（缩写为MS），又称样本方差，记为S2，即,总体方差，记为2 对于含有N个个体的有限总体而言，2的计算公式为：,由于样本方差带有原观测单位的平方单位，而且常需要与平均数配合使用，这时应将平方单位还原，即应求出样本方差

21、的平方根。,统计学上把样本方差S2的平方根叫做样本标准差，记为S，即：,简写为：,或：,自由度,自由度：记为d=n-1 其统计意义是指在计算离均差平方和时，能够自由变动的离均差的个数。在计算离均差平方和时，n个离均差受到这一条件的约束，能自由变动的离均差的个数是n-1。当n-1个离均差确定了，第 n个离均差也就随之而定了，不能再任意变动。,一般，在计算离均差平方和时，若约束条件为k个，则其自由度d=n-k。,直接法对小样本(n30)和未经分组的资料，直接利用下式计算标准差。,标准差的计算,【例】测量某一水稻单株粒重得5个观测值：3、8、7、6、4（g）。计算其标准差S。即该样本标准差为2.

22、07g。,加权法对于大样本(n30)且已分组的资料，可在次数分布表的基础上采用加权法计算标准差，计算公式为：其中，f为第i组的次数；x为第i组的组中值；n为样本观测值的总个数。,标准差带有与样本资料相同的度量单位，不能用来比较度量单位不同、或者度量单位相同但平均数不同的两个或多个样本资料的变异程度的大小。变异系数既能反映样本资料的变异性，又能解决度量单位及平均数不同的问题。,（三）变异系数,变异系数是样本标准差与样本平均数的比值，以百分数形式表示，计算公式为：变异系数是一个不带单位的纯数，可用以比较两个或多个样本资料变异程度的大小。,表2-13 两个小麦品种主茎高度的平均数、标准差与变

23、异系数,从标准差看，品种甲的主茎高度比品种乙的变异程度大。因两者的平均数不同，在这种情况下，须用变异系数进行比较。品种甲的变异系数 CV甲=9.23%品种乙的变异系数 CV乙=10.92%可见品种甲的主茎高度的变异程度比品种乙小。,【例】今测得金柑树冠直径平均数为132cm，标准差为12cm，干周长的平均数为15cm，标准差为 2cm，试比较其变异孰大?,可见，虽然干周的平均数与标准差的绝对数比树冠直径小得多，但相对变异程度比冠径要大些。,变异系数的计算:,冠径：CV12/132100%9.09%,干周：CV2/15100%13.33%,在使用变异系数时，由于它既受标准差S的影响，也受平均数的影响，因此，在使用变异系数表示资料变异程度或进行资料间变异程度的比较时，应同时列出平均数和标准差，以避免产生误解。,小结,1、数量性状资料与质量性状资料。2、次数分布表与次数分布图。3、平均数与变异数。,算术平均数,方差与标准差,习题 P56 10,

展开阅读全文