数据的组织与表达.ppt_三一办公31ppt.com

资源描述

《数据的组织与表达.ppt》由会员分享，可在线阅读，更多相关《数据的组织与表达.ppt（39页珍藏版）》请在三一办公上搜索。

1、第2章数据的组织与表达,Arrangement and Presentation of Data,Section 2.1Data and Data Type数据与数据类型,一、原始数据的组织,资料以电子表格(spreadsheet)方式记录。包括个体(Individual)：一笔数据所描述的对象(object)。电子表格中输入在一行。及变量(Variable)：描述任何一个个体的特征，一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。,(一)数量性状资料数量性状(quantitative trait)的度量有计数和量测两种方式，其所得变数不同。1.不连续性或间断性变数(

2、discontinuous or discrete variable)指用计数方法获得的数据。2.连续性变数(continuous variable)指称量、度量或测量方法所得到的数据，其各个观察值并不限于整数，在两个数值之间可以有微量数值差异的第三个数值存在。,二、试验资料的性质与分类,(二)质量性状资料质量性状(qualitative trait)指能观察而不能量测的状即属性性状，如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料，可采用下列两种方法：统计次数法于一定总体或样本内，统计其具有某个性状的个体数目及具有不同性状的个体数目，按类别计其次数或相对次

3、数。2.给分法给予每类性状以相对数量的方法,二、试验资料的性质与分类,Section 2.2次数分布表,表1 100个麦穗的每穗小穗数,一、间断性变数资料的整理,表2 100个麦穗每穗小穗数的次数分布表,从表2中看到，一堆杂乱的原始资料表，经初步整理后，就可了解资料的大致情况，另外，经过整理的资料也便于进一步的分析。,每穗小穗数在1520的范围内变动，把所有观察值按每穗小穗数多少加以归类，共分为6组，组与组间相差为1小穗，称为组距。这样可得表2形式的次数分布表。,一、间断性变数资料的整理,二、连续性变数资料的整理,表3 140行水稻产量(单位：克),具体步骤：1.数据排序(sort)首先对数

4、据按从小到大排列(升序)或从大到小排列(降序)。2.求极差(range)所有数据中的最大观察值和最小观察值的差数，称为极差，亦即整个样本的变异幅度。从表3中查到最大观察值为254g，最小观察值为75g，极差为25475=179g。,二、连续性变数资料的整理,3.确定组数和组距(class interval)根据极差分为若干组，每组的距离相等，称为组距。在确定组数和组距时应考虑：(1)观察值个数的多少；(2)极差的大小；(3)便于计算；(4)能反映出资料的真实面貌等方面。样本大小(即样本内包含观察值的个数的多少)与组数多少的关系可参照表4来确定。,二、连续性变数资料的整理,表4样本容量与组数多少

5、的关系,组数确定后，还须确定组距。组距=极差/组数。以表3中140行水稻产量为例，样本内观察值的个数为140，查表4可分为816组，假定分为12组，,则组距为179/12=14.9g，为分组方便起见，可以15g作为组距。,二、连续性变数资料的整理,4.选定组限(class limit)和组中点值(组值，class value)以表3中140行水稻产量为例，选定第一组的中点值为75g，与最小观察值75g相等；则第二组的中点值为75+15=90g，余类推。各组的中点值选定后，就可以求得各组组限。每组有两个组限，数值小的称为下限(lower limit)，数值大的称为上限(upper limit)。

6、上述资料中，第一组的下限为该组中点值减去1/2组距，即75(15/2)=67.5g，上限为中点值加1/2组距，即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限。,二、连续性变数资料的整理,5.把原始资料的各个观察值按分组数列的各组组限归组可按原始资料中各观察值的次序，逐个把数值归于各组。待全部观察值归组后，即可求得各组的次数，制成一个次数分布表。例如表3中第一个观察值177应归于表5中第8组，组限为172.5187.5；第二个观察值149应归于第6组，组限为142.5157.5；。依次把140个观察值都进行归组，即可制成140行水稻产量的次数分

7、布表(表5)。,二、连续性变数资料的整理,表5 140行水稻的次数分布,注：前面提到分为12组，但由于第一组的中点值接近于最小观察值，故第一组的下限小于最小观察值，实际上差不多增加了1/2组；这样也使最后一组的中点值接近于最大值，又增加了1/2组，故实际的组数比原来确定的要多一个组，为13组。,二、连续性变数资料的整理,三、属性变数资料的整理,属性变数的资料，也可以用类似次数分布的方法来整理。在整理前，把资料按各种质量性状进行分类，分类数等于组数，然后根据各个体在质量属性上的具体表现，分别归入相应的组中，即可得到属性分布的规律性认识。例如，某水稻杂种第二代植株米粒性状的分离情况，归于表6。,表

8、6 水稻杂种二代植株米粒性状的分离情况,Section 2.3次数分布图,一、方柱形图,方柱形图(histogram)适用于表示连续性变数的次数分布。,现以表3的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图1。,二、多边形图,多边形图(polygon)也是表示连续性变数资料的一种普通的方法，且在同一图上可比较两组以上的资料。,仍以140行水稻产量次数分布为例，所成图形即为次数多边形图(图2)。,三、条形图,条形图(bar)适用于间断性变数和属性变数资料，用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状，纵轴标出次数。,现以表6水稻杂种第二代米粒性状的分离

9、情况为例，可画成水稻杂种第二代植株4种米粒性状分离情况条形图(图3)。,图3 水稻F2代米粒性状分离条形图,四、饼图,饼图(pie)适用于间断性变数和属性变数资料，用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,如图4中白米糯稻在F2群体中占8%，白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,Section 2.4平均数,一、平均数的意义和种类,平均数的意义:平均数(average)是数据的代表值，表示资料中观察值的中心位置，并且可作为资料的代表而与另一组资料相比较，借以明确二者之间相差的情况。,平均数的种类:(1)算术平均数一个数量资料中各个观察值的

10、总和除以观察值个数所得的商数，称为算术平均数(arithmetic mean)，记作。因其应用广泛，常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。(2)中数将资料内所有观察值从大到小排序，居中间位置的观察值称为中数(median)，计作Md。如观察值个数为偶数，则以中间二个观察值的算术平均数为中数。,一、平均数的意义和种类,(3)众数资料中最常见的一数，或次数最多一组的中点值，称为众数(mode)，计作MO。如棉花纤维检验时所用的主体长度即为众数。(4)几何平均数如有n个观察值，其相乘积开n次方，即为几何平均数(geometric mean)，用G代表。,一、平均数的意

11、义和种类,二、算术平均数的计算方法,若样本较小，即资料包含的观察值个数不多，可直接计算平均数。设一个含有n个观察值的样本，其各个观察值为x1、x2、x3、xn，则算术平均数由下式算得：,若样本较大，且已进行了分组，可采用加权法计算算术平均数，即用组中点值代表该组出现的观测值以计算平均数，其公式为,其中yi 为第i 组中点值，fi 为第 i 组变数出现次数。,例1 在水稻品种比较试验中，湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg，求该品种的小区平均产量。,例2 利用表5资料计算平均每行水稻产量。,若采用直接法，=157.47。因此，两者的结果十分相近。,二

12、、算术平均数的计算方法,三、总体平均数,总体平均数用来代表，它同样具有算术平均数所具有的特性。,上式Xi 代表各个观察值，N代表有限总体所包含的个体数，表示总体内各个观察值的总和。,Section 2.5变异数,一、极差,极差(range)，又称全距，记作R，是资料中最大观察值与最小观察值的差数。,表7 两个小麦品种的每穗小穗数,甲品种R=2313=10；乙品种R=2016=4。两品种的平均同为18，但甲品种的极差大，平均数的代表性差；乙品种的极差小，平均数代表性好。,二、方差,离均差平方和(简称平方和)SS,样本SS=,总体SS=,均方或方差(variance),样本均方(mean s

13、quare)：,总体方差：,样本均方是总体方差的无偏估计值,三、标准差,(一)标准差的定义样本标准差：,总体标准差：,样本标准差是总体标准差的估计值。,(二)自由度,样本n-1称为自由度,记作DF，其具体数值则常用表示。统计意义：是指样本内独立而能自由变动的离均差个数。,三、标准差,(三)标准差的计算方法,1.直接法,例3 设某一水稻单株粒重的样本有5个观察值，以克为单位，其数为2、8、7、5、4。,三、标准差,2 矫正数法,其中项称为矫正数，记作C。,在上例中，将有关数字代入即有：,三、标准差,3 加权法若样本较大，已生成次数分布表，可采用加权法计算标准差，其公式为：,三、标准差,例4

14、利用表5的次数分布资料计算每行水稻产量的标准差。,若采用直接法，其标准差s=36.23(g)。由此可见，直接法和加权法的结果是很相近的。,三、标准差,四、变异系数,变异系数(coefficient of variation)：,变异系数是一个不带单位的纯数，可用以比较二个事物的变异度大小。,例如表8为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看，品种甲比乙的变异大些；但因两者的均数不同，标准差间不宜直接比较。如果算出变异系数，就可以相互比较，这里乙品种的变异系数为11.3%，甲品种为9.5%，可见乙品种的相对变异程度较大。,表8 两个小麦品种主茎高度的测量结果,四、变异系数,

展开阅读全文