《试验资料的整理与描述.ppt》由会员分享,可在线阅读,更多相关《试验资料的整理与描述.ppt(65页珍藏版)》请在三一办公上搜索。
1、第一节 试验资料的整理第二节描述试验资料的特征数,第二章 试验资料的整理与描述,主要内容及难点,试验资料的性质和整理方法;次数分布表的制作;统计表、统计图的绘制及其特点;平均数、方差、标准差及变异系数的计算方法和各自的统计意义;,一、试验资料的分类,1、数量性状资料 数量性状是指能够以量测或计数的方法表示其特征的性状。如作物单株产量、株高和单株光合叶面积、单株籽粒数等。观察测定数量性状而获得的数据就是数量性状资料。,第一节 试验资料的整理,1)计量资料 用称量、测量等量测手段获得的数量性状资料。因为两相邻数据间允许有带小数的任何数值出现,即两数间的变异是连续的,所以也称为连续性变异资料。,2)
2、计数资料 用计数方式得到的数据资料。各观察值均为整数形式,每两数据间不允许有小数存在,即两数间的变异是不连续的,因此,也称间断性资料或不连续性变异资料。,2、质量性状资料,质量性状是指只能观察而不能测量的性状,如花药、茎、种子、果实、叶片的颜色、籽粒的饱满度、芒的有无等。质量性状本身不能用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理。,1)统计次数法在一定总体或样本内,根据质量性状类别统计次数,以次数作为质量性状的数据。这种数量化的资料又叫次数资料。例如白花与红花豌豆杂交,统计F2代不同花色植株数,1000株中有红色266株,紫色494株,白色240株。,例如,调查作物受某种
3、病虫害危害情况,将作物性状分为高抗、抗、中抗、中感、感病5个级别,分别用1,2,3,4,5表示,统计样本内各种级别的植株数。,2)分级赋值法 先根据性状的变异情况分级,给每个分级分别赋予一个适当的数值作代表值,然后统计属于各个级别的个体数。,二、试验资料的整理,根据数据出现的一定范围,从最小值到最大值划分成若干个互斥的组区间,再统计各组区间内观察值个数,则可从中寻找到一定的规律,这种由不同组区间内观察值出现的次数组成的分布,简称次数分布。,1、计数资料的整理,观察值不多,变异范围不大的计数资料,以每一观察值为一组进行分组,然后统计次数制成次数分布表。,表2-1、100个麦穗的每穗小穗数,表2-
4、2、100个麦穗每穗小穗数的次数分布表,表2-3、200个稻穗每穗粒数的次数分布表,每穗粒数(x)次数()2630 1 3135 3 3640 10 4145 21 4650 32 5155 41 5660 38 6165 25 6670 16 7175 8 7680 3 8185 2 合 计 200,2、计量资料的整理,计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值归组,制成次数分布表。下面以表2-4中140行水稻产量为例,说明计量资料整理的方法与步骤。,表2-4 140行水稻产量(单位:g),(1)求全距:全距是资料中最大值与最小值之差,又称为极差(range),
5、用R表示,即 R=Max(x)-Min(x)此例最大观测值为254g,最小为75g,全距 R=254 75=179(g),(2)确定组数与组距:组数的确定依据:1)观察值多少,2)极差,3)计算方便,4)能保持资料真实性。,表2-4中观测值个数即样本容量为n=140,查表2-5,组数为1012,这里分为12组。,样本容量 组 数3060 5 860100 8 10100200 1012200500 1218500以上 1830,表2-5 样本容量与组数,组距:指每组的最大值与最小值之差,记为i。分组时要求各组的组距相等。组距的大小由全距和组数确定,计算公式为:组距(i)=全距/组数,本例组距(
6、i)=179/12=14.9(g)为了计算方便,以15g作为组距。,(3)、确定组中值与组限:第一组的组中值一般选接近资料中的最小值为宜,而且便于计算。此例为75。,(4)、数据归组。,第一组的下限为:75-15/2=67.5;上限为:75+15/2=82.5;,表2-6、140行水稻产量数据的次数分布表,3、质量性状资料的整理,对于质量性状资料可按性状或属性进行分组,分别统计各组的次数,然后制成次数分布表。例如,水稻杂种F2植株米粒性状的分离情况,见表2-7。,表2-7、水稻杂种F2植株米粒性状分离情况,统计表:用表格形式表示数据间的数量关系。统计图:用几何图形表示数据间的数量关系。使用统计
7、表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于分析比较。,三、常用统计表与统计图,表2-8 大豆花色一对等位基因杂种二代分离情况统计表,x(产量,g/行)图2-1、140行水稻产量次数分布直方图(histogram),x(产量,g/行)图2-2、140行水稻产量次数分布多边形图(polygon),图2-3、水稻杂种F2米粒性状分离条形图,单式条形图(bar diagram),复式条形图,图2-4、四个水稻品种不同发育时期叶绿素含量,品种,复式条形图,图2-5、水稻杂种F2米粒性状分离饼形图,图2-6、小麦生产年降水情况,单式线图,图2-7、不同小麦品种灌浆结实
8、期叶片蒸腾速率(陕229;长武134;晋麦47;偃师9号;咸农151),蒸腾速率(mmol/m2.s),复式线图,第二节 描述试验资料的特征数,除了用统计表和统计图来直观、形象地表示研究对象的数量特征外,统计数也可用来描述研究对象的内在规律。把这些统计数称为特征数。描述资料集中性的特征数是平均数,描述资料离散性的特征数是变异数。,参数:,用总体的全体观察值计算的、描述总体的特征数称为参数(parameter)。参数是一个常量,一般未知,通常用希腊字母表示,如总体平均数,总体方差2 等。,统计数:,由样本全体观察值计算的,描述样本的特征数称为统计数(statistics)。统计数是一个变量,随样
9、本的不同而不同,统计数一般用拉丁字母表示,如样本平均数,样本均方 等。统计上,通常由统计数去估计或推断所在总体的相应参数。,总体与样本的关系图,总体,(随机变量),参数:,2,N,样本,统计数:,s2,n,(次数分布图、表),数据分析,(不同的假设测验),一、平均数(mean),平均数可综合反映研究对象在一定条件下的一般水平,是数量资料的代表数,常用来进行资料间的比较。1、算术平均数(arithmetic mean)1)定义与公式总体平均数:,样本平均数,2)平均数的基本性质:,简记为,例 测某水稻单株粒重的样本5个观察值分别为3,8,7,6,4g,试计算该样本离均差之和。,【例21】在大豆区
10、域试验中,吉农904的6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.5(kg)。求该品种的小区平均产量。即吉农904的小区平均产量为23.5kg,3)平均数的计算直接法,加权法,式中,xi-各组组中值;fi-各组次数;K-分组数。各组的次数fi是权衡各组中值xi在资料中所占比重大小的数量,因此f被称为组中值xi的“权”。,【例22】用加权法计算表2-6资料中140行水稻平均产量。即140行水稻平均产量为157.93g。采用直接法算得=157.47g,用加权法计算的结果与其十分接近。,样本平均数是总体平均数的无偏估计,统计上定义:当一个统计数的数学期望等于相应的总体参
11、数时,则称该统计数为其总体参数的无偏估计。,统计数的无偏性有两个含义:第一是无系统性偏差,把这些正负偏差在概率上平均起来,其值为零;第二是当统计数使用次数无限增大时,取其平均值,能无限逼近被估计的量。因此无偏估计不等于在任何时候都给出正确无误的估计。,例:有一总体:1,6,4,5,6,3,8,7.,则=x/N=5如从中取样本容量为3的样本,则有,个样本.,其中只有4个样本:,数学期望是指所有样本平均数的平均值等于,这就是无偏估计的概念.,平均数有二个缺点:一是它易受较大值或较小值的影响;二是在有些情况下不具有实际意义。因此在反映资料的集中性或代表性时,还需要引入其他平均数的概念。,例:买100
12、元某基金,5年净值如下,计算平均年收益率.110 130 100 160 171 14.4%110 130 80 160 171 19.3%,2、中位数和众数,中位数又称中数(median),记为Md。将观察值按大小依次排列,当观察值数目为奇数时,最中间的观察值就是中数Md;当观察值数目为偶数时,最中间的两个观察值的算术平均数为中数Md。,在资料中出现次数最多的数或组中值称为众数(mode),记作M。,3、几何平均数和调和平均数,设有n个观察值,其乘积开n次方所得的值,即为几何平均数,常用Mg表示,即:,几何平均数常用在生长率、生产动态及药物效价分析上。,调和平均数,设有n个观察值,各观察值倒
13、数的算术平均数之倒数就称为调和平均数,用H表示,调和平均数主要求一个过程不同阶段的平均速度。,调和平均数主要用于反映研究对象在不同阶段的平均速度。如土壤毛细管中水分上升速度。,二、变异数,变异数就是表示资料变异大小的统计数,最常见的变异数有极差、标准差、变异系数。,因为R甲=23-13=10 R乙=20-16=4所以认为甲的变异程度大于乙。,1、极差:最大值与最小值之差。,2、方差与标准差,1)定义:把每个观察值与平均数之差()称为离均差(deviation from mean),表示观察值偏离平均数的距离。资料的变异大,各数据分散,各离均差的绝对值大;反之,各离均差绝对值则小。,由于,因此,
14、避免了离均差之和为零。离均差平方和简称平方和(sum of square),记为SS。,总体样本,平方和(SS)的大小受观察值个数的影响,就同一对象而言,若观察值个数多,SS增大,反之则减小。为消除SS的这个缺陷,可将SS除以观察值的个数得到平均平方和,称之为方差(variance)。,总体方差通常无法得到,而由样本方差估计,样本方差一般称之为均方(mean square),记为 or MS。在计算样本方差时,是离均差的平方和除以(n-1)而不是样本容量n。把(n-1)称为自由度(degree of freedom),记为df或DF。,自由度的概念,在计算离均差平方和时,能够自由变动的离均差个
15、数。n个离均差受到 这一条件的约束,能自由变动的离均差个数是n-1,第n个离均差不能再任意变动。一般情况下,计算离均差平方和有k个约束条件,则其自由度d=n-k。,计算样本方差为什么要用自由度作分母?,统计学已经证明:用,计算的样本方差才是总体方差的无偏估计。,因为,标准差(standard deviation),统计学上把方差的正的平方根称为标准差。,方差和标准差,都可度量资料的变异程度,反映平均数代表性优劣。在实际问题分析中,为全面描述资料的特征,常将平均数与标准差配合使用,如水稻单株粒重。,2)、样本方差和标准差的计算,f 为各组次数,为各组组中值,为样本平均数,n=为样本容量。,【例2
16、8】:测量某一水稻单株粒重得5个观测值:3、8、7、6、4(g)。计算其标准差S。即该样本标准差为2.07g。,【例29】根据表2-6的次数分布资料采用加权法计算每行水稻产量的标准差。若采用直接法计算标准差,S=36.24g。,试描述或解释下列两个样本的不同,3、变异系数(coefficient of variation),为了比较具有不同单位,或单位相同但平均数大小不同的两个样本之间的变异度,需要以平均数为单位统一标准差的量纲,定义变异系数CV。,表2-13、两个小麦品种主茎高度的平均数、标准差与变异系数,从标准差看,甲的主茎高度变异比乙大。但两者平均数不同,须用变异系数进行比较。CV甲=9.23%,CV乙=10.92%,因此认为甲的变异程度比乙小。,本章重点:,样本与总体,参数与统计数的概念和关系;学会运用统计表、统计图来描述研究对象的规律;掌握平均数,方差,标准差及变异系数的概念、计算和使用.思考题10,