《试验设计与分析园艺第二章理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《试验设计与分析园艺第二章理论分布与抽样分布.ppt(88页珍藏版)》请在三一办公上搜索。
1、第二章 理论分布与抽样分布,第一节 试验数据资料的整理与描述 第二节 二项分布 第三节 正态分布 第四节 抽样分布,第一节 试验数据资料的整理与描述,一、相关统计学术语二、试验数据资料的性质 三、次数分布表与分布图 四、数量资料的特征数,一、相关统计学术语,1 数据与变量,数据:组成样本的每种性状的观察值的集合,也称资料,变量:构成数据的每一个观察值,2 参数与统计数,参数:由总体的全部变量计算所得到的总体某一特征数,用希腊字母表示,如表示总体平均数,表示总体标准差,统计数:由样本的全部变量计算所得到的样本某一特征数,用拉丁字母表示,如 表示样本平均数,s 表示样本标准差,二、试验数据资料的性
2、质,1 数量性状资料(quantitative trait),指可以通过一定的度量方式而用数字描述的性状,其度量有计数和量测两种方式,其所得的变量不同,(1)不连续性或间断性变量:指用计数方法获得的资料,如出苗数、叶片数等,其各个观察值必须以整数表示,不允许有带小数点的数值存在。,(2)连续性变量:指用称量、度量或测量方法得到的数据,如千粒重等,其各个观察值并不限于整数,小数位数的多少,因称量的精度而异,二、试验数据资料的性质,2 质量性状资料(qualitative trait),指只能观察叙述而不能测量的性状,即属性性状如果实的色泽、叶色、叶片上毛茸的有无等,要获得这些性状的数量资料,可采
3、用下列 3 种方法,三、次数分布表与分布图,1 不连续性数量性状变量资料的整理,采用单项式分组法进行整理,特点:用样本变量自然值进行分组,每组均用一个或几个观察值来表示。分组时,可将数据资料中每个观察值分别归入相应的组内,然后制成次数分布表。,(1)如果观察值个数较少,或变异幅度较小,就以每一个变量为一组进行整理。(2)如果观察值个数较多,或变异幅度较大,就以相邻的几个变量为一组进行整理。,三、次数分布表与分布图,第11页,例1-2-1,100个麦穗的每穗小穗数,三、次数分布表与分布图,100个麦穗每穗小穗数的次数分布表(图),频率,小穗数,三、次数分布表与分布图,2 连续性数量性状变量资料的
4、整理,类似于不连续性变量资料的第2种情况(第12页例1-2-2),120个黄瓜叶片中叶绿素a含量的测定值,三、次数分布表与分布图,2 连续性数量性状变量资料的整理,(1)求极差,极差:所有数据中最大观察值与最小观察值的差值,也称全距。表示整个样本的变异幅度。用R表示。,R=()mg/g鲜重=0.31 mg/g鲜重,(2)确定组数,组数要根据样本的容量、全距、便于计算、能反映资料的真实面貌等因素来确定。,三、次数分布表与分布图,2 连续性数量性状变量资料的整理,(3)计算组距,组距:每组内的上下限范围。分组时要求各组的距离相同,即各组是等组距的。,组距=极差/组数=0.31/15 mg/g鲜重0
5、.02mg/g鲜重,三、次数分布表与分布图,2 连续性数量性状变量资料的整理,(4)确定组限与组中值,组限:每组观察值的界限。包括上限和下限。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不至于含糊不清。为了把资料中最小和最大的观察值包括在内,最小一组的下限必须小于最小观察值,最大一组的上限必须大于最大观察值。,组中值:每组下限和上限的中间值。为了避免第一组中观察值数过多,一般第一组的组中值最好接近或等于资料中的最小值。,组中值=(下限+上限)/2=下限+1/2组距=上限-1/2组距,三、次数分布表与分布图,2 连续性变量资料的整理,频率,叶绿素a含量(mg/g鲜重),三、次
6、数分布表与分布图,3 质量性状变量资料的整理,整理前,把资料按各种质量性状进行分类,分类数等于组数,根据各个观察值在质量属性上的具体表现,归入相应的组内,即可得到属性分布的规律性认识。,第14页 例1-2-3,水稻杂种F2代植株米粒性状的分离情况,四、数量资料的特征数,120个黄瓜叶片中叶绿素a含量的次数分布图,离散性,(一)平均数,平均数的意义数据资料的代表值,表示全部观察值的中心位置,代表该组数据与其他数据进行比较平均数的种类,算术平均数:,几何平均数:,中位数:大小居中的观察值(Md),众数:次数最多的观察值(M0),(一)平均数,算术平均数的性质离均差之和为零,即各观察值与其平均数之差
7、的总和等于零,(一)平均数,算术平均数的性质离均差平方和最小,即各观察值与其平均数的差数的平方的总和,小于各观察值与任何一个数值的差数的平方的总和,(二)变异数,引入变异数的意义平均数作为数据资料的代表,其代表性的强弱由各观察值变异程度的大小决定,A组 10;8;10;11;11B组 2;18;8;15;7,使用平均数描述数据资料是不够的,还需要引进一个表示变异程度的统计数,即变异数,常用的有极差、方差、标准差和变异系数,(二)变异数,极差定义:又称全距(R),最大和最小观察值的差值,缺点:由观察值中两个极端值决定,不能反映全部观察值的信息,而且容易受资料中不正常极端值的影响,优点:快速简单,
8、A组 10;8;10;11;11 R=3B组 2;18;15;8;7 R=16C组 2;18;10;10;10 R=16,(二)变异数,方差离均差:可以反映全部观察值的变异情况,但,A组 8;8;12;12B组 8;12,平方和:各个离均差的平方的总和,(二)变异数,方差方差:用观察值数目来除平方和,为什么用n-1,而不用n?,总体方差:,样本方差:,(二)变异数,n-1称为自由度(df),多数情况下:,这样,用样本SS代替总体SS就会使2值偏小,为了校正,分母使用较小的n-1而不是n,当n30时,分母必须使用n-1,当n30时,n和n-1差异不大,分母可使用n,(二)变异数,标准差方差的缺点
9、度量单位也平方平方使数值的量增大,与实际变异度有差距,标准差:方差的平方根,标准差的优点:保留方差的优点;度量单位上与平均数一致;在数量水平上也比较客观,数量资料的表示方法:,(二)变异数,变异系数标准差的缺点:比较两个样本的变异程度时,两个样本的单位、平均数和性质必须相同,如果不同,需要引入表示相对变异程度的变异数,即变异系数(CV),变异系数在田间试验中有重要用途,如在空白试验时,可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响,因此,在使用变异系数时,要同时列举平均数和标准差,否则可能会引起误解。,(二)变异数,变异系数例:小麦A品种的株高为959.02(cm),B品种为758
10、.50(cm),问哪个品种株高整齐度好?,直接用标准差比较:9.028.50(cm),B品种较整齐,但二者平均数不相同,需用变异系数比较:,9.511.3(%),A品种较整齐,(三)自由度的含义,自由度样本内独立而能自由变动的离均差个数,如一个样本为(3,4,5,6,7),平均数为5,前面4个数的离均差分别为2,1,0,1,那么第5个数的离均差必须为2,才能满足各观察值的离均差之和为零这个特性。,一般来说,样本自由度等于观察值的个数(n)减受条件约束的个数(k),即df=nk,在应用上,小样本一定要用自由度来估计标准差,大样本的n和n1相差不大,也可不用自由度,而直接用n作除数。但大样本与小样
11、本之间没有明确的界限和统一的规定,所以一般样本在估计标准差时,都用自由度。,(四)标准差的计算,1、直接计算,在直接计算标准差时,先求出,再求,最后再计算s。这样比较麻烦,而且当 由四舍五入而来时,容易引起计算误差。所以将 作如下变形:,2、利用矫正数,矫正数,C,120个黄瓜叶片中叶绿素a含量的平均数与标准差,mg/g鲜重,mg/g鲜重,(四)标准差的计算,3、减去常数法,如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,所得的s值不变。,第二节 二项式分布,一、二项总体二、二项式分布三、二项式分布的概率计算方法四、二项式分布的形状五、二项式分布的参数六、多项式分布七、泊松分布,一
12、、二项总体,二项总体:由非此即彼的两项(对立事件)构成的总体黄瓜种子发芽和不发芽桃果实的有毛和无毛豌豆的黄色与绿色、圆粒与皱粒等“此”事件以变量“1”表示,具概率p;“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0-1总体,其概率则显然有:p+q=1或q=1p,二、二项式分布,二项式分布:如果从二项总体进行n次重复抽样,设出现“1”的次数为k,那么k的取值可能为0、1、2、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量k及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布,三、二项式分布的概率计算方法,例:在两个班63名学生中,有30名女学生
13、(1),33名男学生(0)。如果从全体学生中抽取3人次参加志愿者,那么女学生被抽到2次的概率是多少?,3个“1”的概率:(30/63)3=27000/2500472个“1”、1个“0”的概率:3*(30/63)2(33/63)=89100/2500471个“1”、2个“0”的概率:3*(30/63)(33/63)2=98010/2500473个“0”的概率:(33/63)3=35937/250047总概率:(27000+89100+98010+35937)/250047=1,女学生被抽到2次的概率3*(30/63)2(33/63)=89100/250047每一个复合事件的概率必等于该事件出现的
14、组合数目乘以单个事件的概率这一复合事件的可能组合数目则相当于从n个物体中任取k个物体的组合数 二项分布的概率计算公式,应用举例(P19:例1-3-1),一批玉米种子的出苗率为0.8,现每穴播5粒,问每穴出3棵苗的概率是多少?,问每穴至少出2棵苗的概率是多少?,应用举例(P19:例1-3-1),四、二项式分布的形状,左图为上述抽取男女学生的概率分布图右图为学生总数为64名,男女学生各为32名的概率分布图如果p=q,二项式分布呈对称形状,如果pq,则表现偏斜形状。如果n足够大,即使pq,图形也对称。,当 n时,就变为二项分布的极限分布,即正态分布,五、二项式分布的参数,平均数和方差2(或标准差)是
15、描述总体分布的两个重要参数二项式分布的=np、2=npq、如抽取学生参加志愿者的实验中,女学生被抽中的平均人次数为=np=3*(30/63)=1.43人次,六、多项式分布,多项总体:如果总体内包含2种以上的特性或分类标志,可以将总体中的个体分为几类,这样的总体称为多项总体。如:给某一人群使用一种新药,可能有的疗效好,有的无疗效,而有的会产生副作用。多项式分布:研究多项总体随机变量的概率分布。,四、泊松分布,如果在二项分布中,p或q很小而n很大时,它描述的是大量试验中的随机稀疏现象,这样的分布为二项分布的极限分布,称为泊松概率分布,简称泊松分布。某种昆虫在一定面积上的分布等泊松分布的概率函数为其
16、中,=np;k=0,1,2,;e=2.71828为自然对数的底数,泊松分布的=;2=。泊松分布的形状由的大小决定。当值小时分布呈很偏斜形状,增大后则逐渐对称,趋近于下面要讲的正态分布。实例:P20例1-3-2。,第三节 正态分布,一、研究正态分布的意义 二、正态分布的定义三、正态分布曲线的特征四、正态分布的标准化五、正态分布的概率计算六、两尾概率和一尾概率,一、研究正态分布的意义,什么是正态?试验中许多数量指标总是在正常范围内有差异,偏离正常,表现过高或过低的情况总是比较少,而且越不正常的可能性越少,这就是所谓的常态或称为“正态”。正态分布是连续性变数的理论分布。,研究正态分布的意义:客观世界
17、中有许多现象的数据服从正态分布;适当条件下可以用来做二项分布和其它间断性或连续性分布的近似分布;虽然有些总体并不服从正态分布,但从总体中抽出的样本平均数和其它一些统计数的分布,在样本容量大时仍然趋近正态分布。,二、正态分布的定义,如果连续性随机变量x的概率分布密度函数为则称随机变量x服从正态分布,记为xN(,2)。其中,为平均数,2为方差,N专指正态曲线其概率分布函数为,三、正态分布曲线的特征,(1)正态分布曲线是以x=为对称轴的对称曲线,且当x=时有最大值f()。其算术平均数、中数和众数均为。,(2)正态分布曲线是以参数和的不同而表现为一系列曲线,确定它在横轴上的位置,而确定它的宽窄。,(3
18、)正态分布资料的次数分布表现为多数次数集中于算术平均数附近,且在x-左右相等范围内具有相等次数;在x-3以上次数极少。,(4)正态曲线在x-=1处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当y,分布曲线以x轴为渐近线,曲线全距为(,+)。(5)正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从x=x1到x=x2之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于x落于这个区间内的概率。,正态曲线的任意x1到x2之间的面积或概率乃完全以曲线的和确定的。,应用举例,水稻140行产量资料的样本分布表现出接近正态分布,其=157.9g,s=36.4g,n=3,n逐渐
19、增大,n,四、正态分布的标准化,正态分布的参数为=0、2=1时的正态分布称为标准正态分布记作uN(0,1),-3-2-1 0 1 2 3,概率密度函数,概率分布函数,/psai/,/fai/,标准化变换:u称为标准正态变量或标准正态离差附表2为正态分布表,从中可以查到u在某一个区间内取值的概率,五、正态分布的概率计算,(1)标准正态分布的概率计算u在u1,u2内取值的概率为:P(u2)(u1)(u2)和(u1)可由附表2查得。,u1 u2,P(u1uu2),fN(u),u,其它计算:P(0uu1)(u1)0.5P(uu1)1(u1)P(|u|u1)21(u1)1P(u1uu1)P(|u|u1)
20、21(u1),熟记以下几种概率P(1u1)0.6826P(2u2)=0.9545P(3u3)=0.9973P(1.96u1.96)=0.95P(2.58u2.58)=0.99,(2)一般正态分布的概率计算将区间的上下限作标准化变换,查附表2计算。如:设x服从30.26,25.102的正态分布,求P(21.64x32.98)。,令则 P(21.64x32.98)P(-1.69u0.53)=0.65643,六、两尾概率和一尾概率,两尾概率:随机变量x落在k区间之外的概率。一尾概率:随机变量x小于k或大于k的概率。利用附表3可查得已知两尾概率时的u值。,应用举例,如从附表3可查得 P=0.01时u=
21、2.5758,即表示:P(|u|2.5758)=0.01 P=0.05时u=1.9599,即表示:P(|u|1.9599)=0.05 如果仅计算一尾,则为两尾概率值的1/2。例如计算 P(u1.6448)=1/2*P(|u|1.6448)=1/2*(0.1)=0.05,第四节 抽样分布,一、引言二、样本平均数的抽样分布三、样本总和数的抽样分布四、两个独立随机样本平均数差数的抽样分布五、正态总体抽样的分布规律 六、二项成数分布 七、二项次数分布,一、引言,统计学主要任务:总体和样本的关系研究方向总体样本(抽样分布)样本总体(统计推断)抽样分布:从总体中随机抽取若干样本,样本观察值的统计数分布。抽
22、样分布是统计推断的基础,二、样本平均数的抽样分布,从容量为N的有限总体中抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。每个样本可以计算一个平均数,所有可能的样本的平均数集合起来便构成一个新总体。每个样本平均数构成新总体的一个随机变量,其概率分布称为样本平均数抽样分布。样本平均数与原总体平均数相比往往表现出不同程度的差异,这种差异是由随机抽样造成的,称为抽样误差。样本平均数抽样总体的标准差称为标准误。,样本平均数抽样总体与原总体特征参数的关系,实例验证,设有一个包含4个个体的有限总体(N4),变量为2、3、4、5。从该总体中抽取样本容量n2的复置随机抽样,计算样本平均数总体的平均数
23、与标准差。,样本平均数抽样总体原总体,总体变量x与样本平均数变量 概率分布间的关系:(1)若总体随机变量x服从正态分布,则从此总体中抽取的随机样本的统计数也是正态分布。(2)若随机变量x不服从正态分布,则从此总体中抽取的随机样本的统计数的概率分布,当n很大时逼近正态分布。这就是中心极限定理。,三、样本总和数的抽样分布,样本总和数的抽样分布参数与母总体的关系:(1)该抽样分布的平均数与母总体的平均数之间的关系为:。(2)该抽样分布的方差与母总体方差的关系为:。,四、两个独立随机样本 平均数差数的抽样分布,如果从一个总体中随机地抽取一个样本容量为n1的样本,同时随机独立地从另外一个总体中抽取一个样
24、本容量为n2的样本,那么可以得到分别属于两个总体的样本,其平均数分别用 和 表示,方差分别用 和 表示。设这两个样本所来自的两个总体的平均数分别为 和,方差分别为 和。,这两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个原总体间的关系:,实例验证,第一个总体包含3个观察值,2、4、6(N13),抽取的样本容量为2(n12)。所有的样本数为Nn32=9。第二个总体包含2个观察值,3、6(N22),抽取的样本容量为3(n23)。所有的样本数为Nn23=8。计算两个独立样本差数分布的参数。,五、正态总体抽样的分布规律,从正态总体抽取的样本,无论样本容量大或小,其样本平均数 和两个独立样本平均数差数 的抽样分布必然服从正态分布。平均数的标准化平均数差数的标准化,六、二项成数分布,二项分布观察值中有“0”和“1”两种数据,将样本观察值总加起来后除以样本容量(n),得到的平均数实际上就是“1”所占的比例,即成数或百分数。从二项总体进行抽样得到样本,样本平均数(成数)的分布也为二项分布,叫二项成数分布,也叫二项百分数分布。,七、二项次数分布,从二项总体进行抽样得到的样本的总和实际上就是“1”出现的次数。从二项总体进行抽样得到样本,样本总和数(次数)的分布也为二项分布,叫二项次数分布。,