次数分布和平均数变异数课件.ppt

上传人:牧羊曲112 文档编号:1637624 上传时间:2022-12-12 格式:PPT 页数:51 大小:292.13KB
返回 下载 相关 举报
次数分布和平均数变异数课件.ppt_第1页
第1页 / 共51页
次数分布和平均数变异数课件.ppt_第2页
第2页 / 共51页
次数分布和平均数变异数课件.ppt_第3页
第3页 / 共51页
次数分布和平均数变异数课件.ppt_第4页
第4页 / 共51页
次数分布和平均数变异数课件.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《次数分布和平均数变异数课件.ppt》由会员分享,可在线阅读,更多相关《次数分布和平均数变异数课件.ppt(51页珍藏版)》请在三一办公上搜索。

1、第三章 次数分布和平均数、变异数,第一节 总体及其样本第二节 次数分布第三节 平均数第四节 变异数第五节 理论总体(群体)的平均数和标准差,1,a,第三章 次数分布和平均数、变异数第一节 总体及其样本1a,第一节 总体及其样本,总体( population ) - 具有共同性质的个体所组成的集团. 有限总体-总体所包含的个体数目有无穷多个 . 无限总体-由有限个个体构成的总体.观察值( observation ) -每一个体的某一性状、特性的测定数值.变数( variable ) -观察值集合起来,称为总体的变数。变数又称为随机变数(random variable)。,2,a,第一节 总体及其

2、样本总体( population ),样本( sample ) -从总体中抽取若干个个体的集合称为样本(sample)。统计数( statistic ) -测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。随机样本( random sample ) -从总体中随机抽取的样本称为随机样本(random sample) 样本容量 ( sample size ) -样本中包含的个体数称为样本容量或样本含量(sample size),3,a,样本( sample ) -从总体中抽取若干个个体的集,第二节 次数分布,一、试验资料的性质与分类二、次数分布表三、次数分布图,4

3、,a,第二节 次数分布一、试验资料的性质与分类4a,一、试验资料的性质与分类,(一) 数量性状资料(二) 质量性状资料,5,a,一、试验资料的性质与分类(一) 数量性状资料5a,(一) 数量性状资料 数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。 1. 不连续性或间断性变数( discontinuous or discrete variable ) 指用计数方法获得的数据。 2. 连续性变数( continuous variable ) 指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。

4、,6,a,(一) 数量性状资料6a,(二) 质量性状资料 质量性状( qualitative trait )指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。 2. 给分法 给予每类性状以相对数量的方法,7,a,(二) 质量性状资料7a,二、次数分布表,(一) 间断性变数资料的整理(二) 连续性变数资料的整理(三) 属性变数资料的整理,8,a,二、次数分布表(一) 间断性变数资料的整理8a,(一)

5、间断性变数资料的整理,现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表3.1。,9,a,(一) 间断性变数资料的整理 现以某小麦品种的,表3.1 100个麦穗的每穗小穗数,10,a,表3.1 100个麦穗的每穗小穗数181517191615,表3.2 100个麦穗每穗小穗数的次数分布表,从表3.2中看到,一堆杂乱的原始资料表3.1,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,上述资料为间断性变数资料,每穗小穗数在1520的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这

6、样可得表3.2形式的次数分布表。,11,a,每穗小穗数( y )次数( f )1561615173218,(二) 连续性变数资料的整理,兹以表3.4的100行水稻试验的产量为例,说明整理方法。,表3.4 140行水稻产量(单位:克),12,a,(二) 连续性变数资料的整理兹以表3.4的100行水稻试验,具体步骤: 1. 数据排序(sort) 首先对数据按从小到大排列(升序)或从大到小排列(降序)。 2. 求极差(range) 所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3.4中查到最大观察值为254g,最小观察值为75g,极差为25475=179g。,13,

7、a,具体步骤:13a,3. 确定组数和组距( class interval ) 根据极差分为若干组,每组的距离相等,称为组距。 在确定组数和组距时应考虑: (1)观察值个数的多少; (2)极差的大小; (3)便于计算; (4)能反映出资料的真实面貌等方面。 样本大小(即样本内包含观察值的个数的多少)与组数多少的关系可参照表3.5来确定。,14,a,3. 确定组数和组距( class inte,表3.5样本容量与组数多少的关系,组数确定后,还须确定组距。组距=极差/组数。以表3.4中140行水稻产量为例,样本内观察值的个数为140,查表3.5可分为816组,假定分为12组,,则组距为179/12

8、=14.9g,为分组方便起见,可以15g作为组距。,15,a,表3.5样本容量与组数多少的关系样本内观察值的个数分组时的,4. 选定组限( class limit )和组中点值( 组值,class value ) 以表3.4中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。 各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限( lower limit ),数值大的称为上限( upper limit )。上述资料中,第一组的下限为该组中点值减去1/2组距,即75(15/2)=67.5g,上限为中点值加1

9、/2组距,即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限,就可写出分组数列。,16,a,4. 选定组限( class limit )和,5. 把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。 待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。 例如表3.4中第一个观察值177应归于表3.6中第8组,组限为172.5187.5;第二个观察值149应归于第6组,组限为142.5157.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布表(表3.6)。,17,a,17a

10、,表3.6 140行水稻的次数分布,注:前面提到分为12组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;这样也使最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组,为13组。,18,a,表3.6 140行水稻的次数分布组 限中点值( y,(三) 属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方法来整理。在整理前,把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。例如,某水稻杂种第二代植株米粒性状的分离情况,归于表3.

11、7。,表3.7 水稻杂种二代植株 米粒性状的分离情况,19,a,(三) 属性变数资料的整理 属性变数的资料,,三、次数分布图,(一) 方柱形图(二) 多边形图(三) 条形图 (四) 饼图,20,a,三、次数分布图(一) 方柱形图20a,(一) 方柱形图,方柱形图( histogram )适用于表示连续性变数的次数分布。,现以表3.6的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图3.1。,21,a,(一) 方柱形图方柱形图( histogram )适用于,(二) 多边形图,多边形图( polygon )也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,

12、仍以140行水稻产量次数分布为例,所成图形即为次数多边形图(图3.2)。,22,a,(二) 多边形图 多边形图( polygon,(三) 条形图,条形图(bar)适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,现以表3.7水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂种第二代植株4种米粒性状分离情况条形图(3.3)。,图3.3 水稻F2代米粒性状分离条形图,23,a,(三) 条形图 条形图(bar)适用于间断性,(四) 饼图,饼图( pie )适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察

13、值在总观察个数中的百分比。,如图3.4中白米糯稻在F2群体中占8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,24,a,(四) 饼图 饼图( pie )适用于间断,第三节 平均数,一、平均数的意义和种类二、算术平均数的计算方法三、算术平均数的重要特性四、总体平均数,25,a,第三节 平均数一、平均数的意义和种类25a,一、平均数的意义和种类,平均数的意义: 平均数( average )是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。,26,a,一、平均数的意义和种类 平均数的意义:26a,平均数的种类 : (1

14、) 算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数( arithmetic mean ),记作 。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。 (2) 中数 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数( median ),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。,27,a,平均数的种类 :27a,(3) 众数 资料中最常见的一数,或次数最多一组的中点值,称为众数( mode ),计作MO。如棉花纤维检验时所用的主体长度即为众数。 (4) 几何平均数 如有n个观察值,其相乘积开n次方

15、,即为几何平均数( geometric mean ),用G代表。,(31),平均数的种类 :,28,a,(3) 众数 资料中最常见的一数,或次数最多,二、算术平均数的计算方法,若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为y1、y2、y3、yn,则算术平均数由下式算得:,(32),若样本较大,且已进行了分组(如表3.6),可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为,(33),其中yi 为第i 组中点值,fi 为第 i 组变数出现次数。,29,a,二、算术平均数的计算方法 若样本较小,即资料包含,例3.

16、1 在水稻品种比较试验中,湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,例3.2 利用表3.6资料计算平均每行水稻产量。,若采用直接法, =157.47。因此,两者的结果十分相近。,由(32)有,30,a,例3.1 在水稻品种比较试验中,湘矮,三、算术平均数的重要特性,(1) 样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和等于0。即:,(2) 样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小。这个问题可作这样的说明,设Q为各个

17、观察值与任意数值a的差数平方的总和,即:,对此Q求最小值,可得使Q最小的a 值为平均数。,31,a,三、算术平均数的重要特性 (1) 样本各观察值,四、总体平均数,总体平均数用 来代表,它同样具有算术平均数所具有的特性。,(34),上式yi 代表各个观察值,N代表有限总体所包含的个体数, 表示总体内各个观察值的总和。,32,a,四、总体平均数 总体平均数用 来代表,它同,第四节 变异数,一、极差二、方差三、标准差四、变异系数,33,a,第四节 变异数一、极差33a,一、极 差,极差( range ),又称全距,记作R,是资料中最大观察值与最小观察值的差数。例如调查两个小麦品种的每穗小穗数,每品

18、种计数10个麦穗,经整理后的数字列于表3.8。,表3.8 两个小麦品种的每穗小穗数,34,a,一、极 差 极差( range ),又称全距,表3.8资料中,甲品种每穗小穗数最少为13个,最多为23个,R=2313=10个小穗;乙品种每穗小穗数最少为16个,最多为20个,R=2016=4个小穗。 可以看出,两品种的平均每穗小穗数虽同为18个,但甲品种的极差较大,其变异范围较大,平均数的代表性较差;乙品种的极差较小,其变异幅度较小,其平均数代表性较好。,35,a,表3.8资料中,甲品种每穗小穗数最少为13个,最,二、方 差,离均差平方和(简称平方和)SS -将各个离均差平方后相加,样本SS=,(3

19、5),总体SS=,(36),均方或方差(variance) -用观察值数目来除平方和,样本均方(mean square)用s2表示,定义为:,总体方差用 表示,定义为:,样本均方是总体方差的无偏估计值,36,a,二、方 差离均差平方和(简称平方和)SS -将各个,三、标准差,(一) 标准差的定义 标准差为方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。从样本资料计算标准差的公式为:,(39),总体标准差用表示:,(310),样本标准差是总体标准差的估计值。,37,a,三、标准差(一) 标准差的定义(39)总体标准差用表示:,(二) 自由度的意义,自由度记作DF,其具体数值

20、则常用 表示。统计意义:是指样本内独立而能自由变动的离均差个数。,例如一个有5个观察值的样本,因为受统计数的约束,在5个离均差中,只有4个数值可以在一定范围之内自由变动取值,而第五个离均差必须满足。如一样本为(3,4,5,6,7),平均数为5,前个离差为2 ,1,0和1,则第5个离均差为前4个离均差之和的变号数,即( 2)=2。一般地,样本自由度等于观察值的个数(n)减去约束条件的个数(k),即 。,38,a,(二) 自由度的意义 自由度记作DF,其具体数值则常用,注:比较(39)和(310),样本标准差不以样本容量n,而以自由度n1作为除数,这是因为通常所掌握的是样本资料,不知 的数值,不得

21、不用样本平均数 代替 。 与 有差异,由算术平均数的性质(2)可知, 比 小。因此,由 算出的标准差将偏小。如分母用n1代替,则可免除偏小的弊病。数理统计上可以证明用自由度作除数计算标准差的无偏性。,39,a,注:比较(39)和(310),样本标,(三) 标准差的计算方法,1. 直接法 可按 计算,分四个步骤:,(1)先求出 , (2)再求出各个 和各个 , (3)求和得 , (4) 代入 算得标准差。,40,a,(三) 标准差的计算方法 1. 直接法,例3.3 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4(用y代表),按照上述步骤,由表3.9可算得平方和为22.

22、80,把它代入 即可得到:,这就是该水稻单株粒重的标准差为2.39g。,41,a,例3.3 设某一水稻单株粒重的样本有,表3.9 水稻粒重的平方和的计算,42,a,yy223.210.24482.87.846471.83.,2 矫正数法 经过转换可得,(311),其中 项称为矫正数,记作C。,在例3.3中,于表3.9第5列写出各观察值的平方值,将有关数字代入(311)即有:,其结果和直接法算得相同。,43,a,2 矫正数法 (311)其中,3 加权法 若样本较大,并已获得如表3.6的次数分布表,可采用加权法计算标准差,其公式为:,(312),44,a,3 加权法 (312) 44a,表3.6

23、140行水稻的次数分布,45,a,组 限中点值( y )次数( f ) 67.5 82,例3.4 利用表3.6的次数分布资料计算每行水稻产量的标准差。 由(312),可得,若采用直接法,其标准差s=36.23(g)。由此可见,直接法和加权法的结果是很相近的。,46,a,例3.4 利用表3.6的次数分布资料计算,四、变异系数,变异系数( coefficient of variation ) -样本的标准差对均数的百分数:,(315),变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。,47,a,四、变异系数 变异系数( coefficient,例如表3.10为两个小麦品种主茎高度的平

24、均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表3.10 两个小麦品种主茎高度的测量结果,48,a,例如表3.10为两个小麦品种主茎高度的平均数、,第五节 理论总体(群体)的平均数和标准差,设总体的第 i 个构成成分的概率为pi,其平均数为 ,那么总体的平均数为:,(316),总体的方差为:,(317),49,a,第五节 理论总体(群体)的平均数和标准差 设总体,例3.5 由单个位点控制的数量性状,F2代有三种基因型,这三种基因型值分别为m+d,md和m+h,而这三种基因型的理论频率分别为0.25,0.25和0.5,因而可以计得其平均数为: 其方差为:,将总体平均数代入上式,化简的方差为:,50,a,例3.5 由单个位点控制的数量性状,F2,表3.11 F2群体的遗传构成,51,a,总体的构成成分频率( f )平均数10.25m+d20.25,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号