生物统计学ppt课件 3、抽样分布及应用二.ppt

上传人:小飞机 文档编号:1789824 上传时间:2022-12-18 格式:PPT 页数:22 大小:406.50KB
返回 下载 相关 举报
生物统计学ppt课件 3、抽样分布及应用二.ppt_第1页
第1页 / 共22页
生物统计学ppt课件 3、抽样分布及应用二.ppt_第2页
第2页 / 共22页
生物统计学ppt课件 3、抽样分布及应用二.ppt_第3页
第3页 / 共22页
生物统计学ppt课件 3、抽样分布及应用二.ppt_第4页
第4页 / 共22页
生物统计学ppt课件 3、抽样分布及应用二.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《生物统计学ppt课件 3、抽样分布及应用二.ppt》由会员分享,可在线阅读,更多相关《生物统计学ppt课件 3、抽样分布及应用二.ppt(22页珍藏版)》请在三一办公上搜索。

1、第三章 抽样分布及其应用,第一节 二项总体抽样第二节 检验二项资料的百分数 (针对单个样本百分数和两样本百分数)第三节 参数的区间估计第四节 2的定义和分布第五节 次数资料的2检验,第三章要点提示,抽样分布及其应用是上一章抽样分布及其应用的延伸,两者构成统计分析方法的基础部分,学习时 :对于二项总体抽样,要清楚它和上一章单个母总体抽样的联系和区别; 对于百分数的检验,要注意应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点; 参数的区间估计可替代显著性检验,但它比显著性检验挖掘的信息更充分;掌握依据2变量SS/2 服从的理论分布进行适合性检验

2、和独立性检验时计算2值的方法。 涉及教材内容:第五章第四、五节,第七章第一、二、三节。 作业布置:教材P77 T13、 T14; P154-155 T5、 T7、 T8、 T10。,第一节 二项总体抽样,一、二项总体参数 本节是针对一类特殊的母总体进行抽样研究,这类总体内的个体不管有多少个,都可按某种性状出现与否分为两组,故称二项总体。将其中出现某种性状的个体的观察值定为“1”,否则定为“0”。 若已知二项总体的个体有N个,出现某种性状的概率为p,则其参数计算如下: =fy /N = Np/N = p 2 = f ( y )2/N = Np(1- p) /N = pq 可见二项总体的两个参数

3、,2都由平均数p (即个体出现某种性状的概率)唯一确定。,二、衍生总体参数 从二项总体中以样本容量 n 进行复置抽样,根据前述中心极限定理的有关结论,同样有: 或 N( ,2)且: = = p, 2 = =2 /n = pq/n y或 N(y ,2y )且: y = n= np, 2y = = n2 = npq,于是: u = ( ) / = u = (y y ) /y =,第一节 二项总体抽样,例3.1 假定调查某地全部棉株受盲椿危害的情况,发现704株受害,且 N = 2000,得= 0.352,= 0.4776;现从中以n = 200抽取一个样本,知受害株数 = 74,受害率 = 0.3

4、7,试计算获此抽样误差的概率。解 依题意应求P( | p|0.018) = 0.4776200 = 0.034原式 = P(|u| 0.53)= 2 P(u - 0.53) = 2 (- 0.53) = 20.2981= 0.5962 依题意也可求P( | np|3.6) = 6.754 u = = (74 70.4)/6.754 = 0.53,习题 给定一个二项总体 0,1,0,0,1,1,0,1,1,0,现从中以 n = 4进行复置抽样, 则分析如下:,第二节 检验二项资料的百分数,所谓二项资料的百分数,指数据资料可以看成是从二项总体中抽得样本后,通过计数某一属性的个体数目算出来的样本百分

5、数,其实质是样本平均数。正因为经计数获得,所以是间断性变量。 从理论上讲,这类百分数的显著性检验应按二项分布进行,即用( p + q ) n 的二项展开式求出某项属性的个体数达到某个百分数 的概率。但 n 稍大时,直接用( p + q ) n 来计算区间概率很不方便,除非制成类似专用的统计表来查。 而样本容量足够大 (n50) 时,若 p、q 不过于小 (np或nq5), 则( p + q ) n 的分布趋近于正态, 可转换为 u 查算概率。,适合 u-test 的 和 值表,第二节 检验二项资料的百分数,一、单个样本百分数 例3.2 根据往年调查,某地区的乳牛隐性乳房炎一般为30%, 即po

6、= 0.3,现对某牛场500头乳牛进行检测,结果有175头乳牛凝集反应阳性。问该牛场的隐性乳房炎是否比往年严重?解 本例n = 500, = 175/500 = 0.35 n200, (0.2, 0.8 ) 用u-test H0:p p0 或 p 0.30 =(0.30.7500) =0.0205 u = ( p)/ = (0.350.30) / 0.0205 = 2.439查表知单侧u0.05 = 双侧u0.10 = 1. 64推断:u u0.05 故H0不成立。,若以 -np = 175-150= 25 ,进行测验, =10.25 , u 不变。 若以H0:p = 0.7 进行检验, 或

7、结果也一样,u = 2.439。 本例有一般百分数为测验依据,具备计算总体标准误的先决条件,所以用u-test。这是很少见的几种能直接应用标准正态分布的场合,也是应用二项总体抽样分布进行检验的优势。 用正态分布替代二项分布做检验,其本质是将间断性变量的概率分布去逼近它的极限连续性变量的fN(y)。这种近似过程会有偏差,当数据不符合前表所列条件时还得照下例操作。,第二节 检验二项资料的百分数,例3.3 用基因型纯合的糯和非糯玉米杂交,按遗传规律 ,预期F1植株上糯性花粉粒的P0 = 0.5。现于一视野中检视20粒花粉,发现糯性花粉8粒, 试测验此次镜检结果是否符合F1代配子11的分离规律。解 本

8、例n = 2050, = 8/20 = 0.4 不符合u-test的条件, 只能用t-test H0:p = p0 或p = 0.5 是2= pq的无偏估计值 =(0.40.619)=0.1124 tc= ( | p | 0.5/n ) / = 0.667 = ( 0.10.025 ) / 0.1124按自由度= 19 查得t0.05 = 2.093推断:t t0.05 故H0成立,本例若以 -np = 810 = -2进行测验, 则同样应根据2= pq的无偏估计值 先计算标准误: = (202 0.40.619) = 2.25再算tc= ( | n p | 0.5 ) / = (20.5 )

9、 / 2.25 = 0.667 计算 tc 的做法叫连续性矫正,为的是纠正用连续性变量的t 分布替代二项分布时, 因为 n 太小而不能忽略的偏差。即使如此,对这种 n50的资料进行检验只适宜于希望 H0 被接受的场合;如果希望H0被拒绝, 设计获得样本百分数的 n 还是越大越好,达不到100也不要少于50。,第二节 检验二项资料的百分数,二、两个样本百分数 例3.4 某养猪场第一年饲养杜长大商品仔猪9800头,死亡980头;第二年饲养10000头,死亡950头,试检验第二年的死亡率与第一年的死亡率有无显著差异?解 = 0.1, = 0.095,可进行u-test 不需连续性矫正, n1 与 n

10、2 有 10000之多。 (1)H0: p1 p2 (同时有: )(2) = ( n1 +n2 ) / (n1+n2 )= 0.0975 = ( 980+950 ) / (9800+10000 ) =1 - = 1 0.0975 = 0.9025 = (Se2(1/n1+1/n2 )= 0.00422 = ( (1/9800+1/10000 ) t = ( ) (p1 p2 ) / = (0.10 0.095 ) / 0.00422= 1.185 (3)查得双侧t0.05 ,= u0.05 = 1.96(4)推断t t0.05 H0成立。,本例计算标准误的前提是可以合并两个样本百分数,然后计算

11、Se2 = 之所以这样作而不象前例计算Se2 = (1S12 +2S22) / (1+2) 前先插入F检验且知两个样本方差比无显著性,是因为该题型的H0有双重作用,即作出H0: p1 p2后,H0 : 也同真,原因在于二项总体的2 = p q = p(1-p)。 至于n1 或 n2 50的两个样本百分数差异显著性检验问题,即使是有 t-test并且可以进行连续性矫正, 同样因为只有利于接受H0而不利于拒绝H0, 实际应用中不受推崇。,第三节 参数的区间估计,什么叫区间估计? 即使是复置抽样,由于抽样误差存在的必然性,不同的样本将有不同的值,于是, 在一定的置信度(也叫置信系数或可靠度,一般为9

12、5或99)保证之下,估计出一个范围或区间以覆盖参数。该区间就叫置信区间,其上下限叫置信限,分别以L2、L1表示。,如例1.5的n = 25抽样实例: = 44.05 g,S = 4.523g,以1-=0.95时的t0.05=2.064算得:L1 44.052.0644.523 42.18 gL2 44.052.0644.523 45.92 g若用=4.65g的已知条件, 则:L1 44.051.964.65 42.23gL2 44.051.964.65 45.87 g,第三节 参数的区间估计,如例2.3已知某品种母猪的怀孕期为0 = 114d,现抽查其10头母猪得怀孕期平均日数 = 114.5

13、d,S = 1.581d。以1-=0.95和S = = 0.5d 以及t0.05=2.262 时算得:L1 114.52.2620.5113.37 gL2 114.52.2620.5115.63g 该区间估计结果也可用于显著性检验,如本例所示,H0: =114d被包含在1-= 0.95的置信区间:113.37,115.63,故H0成立。 反之,则H0不能成立。,若1-=0.99, t0.05=3.250,可算得置信区间扩大为:112.88,116.13。 此时, H0: =114d成立与否无从判断。 再若取单侧 t0.05 = 1.833: L1 114.51.8330.5 113.58 g

14、L2 114.51.8330.5 115.42g 此时, H0: 114d已包含在1-= 0.95的置信区间113.58,115.42 故H0成立。,第三节 参数的区间估计,又如例2.6 的资料,某小麦品种每m2产量的2= 0.4(kg2 )。A法取12个样点,得每m2产量1=1.2kg;B法取8个样点, 得2 = 1.4kg。以1-=0.95 和1-2=0.2887kg = 以及u0.05=1.96时算得:L1 ( 1.2-1.4)1.960.2887 0.766 kgL2 (1.2-1.4)1.960.2887 0.366 kg 该区间估计结果用于显著性检验,如本例所示,H0: 1-2 =

15、 0被包含在1-= 0.95的置信区间:-0.7661-20.366, 故H0成立。,反之,若H0未被包含在1-= 0.95的置信区间内,则属于H0不能成立的情形。 于是, 就1 = 2 = 的情形将两个样本合并按单个样本进行区间估计,结果如下: 1.28kg 0.1414g L1 1.281.960.1414 1.00 kgL2 1.281.960.1414 1.56kg 由此可见,用于显著性检验的区间估计和参数的区间估计不完全是一回事!,第三节 参数的区间估计,又如例2.9某家禽研究所用粤黄鸡对A、B两种饲料的增重效果进行对比试验,时间60d,各获得8只鸡的观察值,算得 1=705.625

16、g,SS1= 2022g2; 2= 696.125g,SS2= 967g2。以1-=0.95 和S 1-2 = =7.306g 以及t0.05=2.145时算得:L1 (705.625-696.125)2.1457.306 6.17gL2 (705.625-696.125)2.1457.306 25.17g 该区间估计结果用于显著性检验时,由于H0: 1-2 = 0被包含在置信区间:6.171-2 25.17 故H0成立。,于是, 就1 = 2 = 的情形将两个样本合并按单个样本进行区间估计,结果如下: 700.875gS 3.653g L1 700.8752.1313.653 693.09g

17、L2 700.8752.1313.653 708.66g 以上两例表明当用于显著性检验的区间估计针对1- 2 而又接受H0时,有必要进一步作参数的区间估计以挖掘更加有用的信息!,第三节 参数的区间估计,再如例2.8 在抽穗期间测定喷矮壮素玉米8株, 得到株高1= 176.3cm, SS1=3787.5cm2,对照区玉米9株,得株高2=233.3 cm,SS2 = 18400cm2。以1-=0.95 和S 1-2 = = 18cm ,以及= 12、一尾t0.05 = 1.782时算得:L1 (176.3-233.3)1.78218 24.92 cmL2 (176.3-233.3)1.78218

18、84.08cm,该区间估计结果用于显著性检验时,由于H0: 1-2 0未包含在置信区间24.921-284.08。 故H0不成立。 由本例可见,当用于显著性检验的区间估计针对1- 2 而又拒绝H0时,参数的区间估计信息也同时获得!即喷矮壮素的玉米至少比对照矮24.92cm以上。,第三节 参数的区间估计,再如例2.10 研究某批注射液对家兔体温的影响,测得10只家兔注射前后的体温(C),根据所得自身配对数据算得d =-7.3 (C),Sd = 0.445(C)。以1-=0.95 和S = = 0.141 t0.05 = 2.262时算得:L1 -0.732.2620.141 1.049L2 -0

19、.732.2620.141 0.411,该区间估计结果用于显著性检验时,由于H0: d 0未包含在置信区间1.049 d 0.411 。 故H0不成立。 由本例可见,当用于显著性检验的区间估计针对而又拒绝H0时,参数的区间估计信息也同时获得!即家兔注射某批注射液后的体温至少升高0.411 C 。,第三节 参数的区间估计,再如例2.11 从8窝仔猪中每窝选性别相同、体重接近的2头配对,每对仔猪随机安排一头喂甲饲料,另一头喂乙饲料,时间30d,根据所得同源配对数据(kg)算得d = 7.8kg,SSd = 2.3kg2,以1-=0.95 和S = = 0.2025,双侧t0.05 = 2.365时

20、算得:L1 0.9752.3650.2025 0.496kgL2 0.9752.3650.2025 1.454kg,该区间估计结果用于显著性检验时,由于H0: d 0未包含在置信区间0.496 d 1.454。 故H0不成立。 由本例可见,当用于显著性检验的区间估计针对时,其区间估计信息也可达到和检验非零假设同样的效果!即喂甲饲料比喂乙饲料,30d时间至少多0.496kg。,第三节 参数的区间估计,最后如例3.2 根据往年调查,某地区的乳牛隐性乳房炎一般为30%, 即po= 0.3,现对某牛场500头乳牛进行检测,结果有175头乳牛凝集反应阳性。以1-=0.95 和 =0.0205,u0.05

21、 = 1.96时算得:L1 0.351.960.0205 0.31L2 0.351.960.0205 0.39,该区间估计结果用于显著性检验时,由于H0: p = 0.30未包含在置信区间0.31 p 0.39。 故H0不成立。 由本例可见,当用于显著性检验的区间估计针对H0:p = p0 时,对 进行区间估计的方法和单个一样,既可以判断H0 是否成立,也可以估计一个范围覆盖参数!,第三节 参数的区间估计,再如例3.4 某养猪场第一年饲养杜长大商品仔猪9800头,死亡980头;第二年饲养10000头,死亡950头。以1-=0.95 和= 时,双侧t0.05 = u0.05 = 1.96, 0.

22、00422算得:L1 (0.1-0.095)1.960.00422 -0.00327L2 (0.1-0.095)1.960.00422 0.01327 该区间估计结果用于显著性检验时,由于H0: p1 -p2 0已包含在置信区间-0.00327 p1 -p2 0.01327。 故H0成立。,于是, 就p1 = p2 = p的情形将两个样本合并按单个样本进行区间估计,结果如下: 0.0975 0.0021 L1 0.09751.960.0021 0.0934L2 0.09751.960.0021 0.1016 由此可见,当用于显著性检验的区间估计针对 而又接受H0时,参数的区间估计只对p进行!,

23、第四节 2的定义和分布,假定从一个既定的母总体中随机抽取容量为 n 的样本,则定义: 2 = SS / 2 = (n 1)S 2 / 2 = S 2 / 2 抽样研究的结果已证实, 2也是一个连续性变量, 理论上存在着抽样分布,这就是2分布。它的两个参数分别为:2 =, 2 2 = 2 2分布是由自由度 n 1 决定的曲线系统,因为受2 0的限制,任一条都限于纵坐标右侧; 2分布曲线不对称往左偏斜,偏斜程度随着自由度的增加而减小, 时,渐趋正态分布, 实际当30时,视(22) N(2-1) ,1); 附表6(右尾2值表)与2分布的关系。,第四节 2的定义和分布,f (2 ),2,= 1,= 3

24、,= 5,3.84 ,7.81 ,11.07 ,图中只列= 0.05的临界值,= 0.01尽管被称为极显著水平,但“差异极显著”决不意味着本质差别一定比达到0.05显著水平大。,第五节 次数资料的2检验,二、适合性测验 例3.5 研究牛的毛色和角的有无两对相对性状的分离现象时,用黑色无角牛和红色有角牛杂交,子二代四种表现型的观察次数依次为192、78、72、18。试检验这两对相对性状的遗传是否符合理论比例为9331的独立分配律。 H0: F2代四种表现型符合93312 =( A T )2T ) = 4.711 = 10.52/202.5 + 10.52/67.5 + 4.52/67.5 + 4

25、.52/22.5 按 = 4 - 1 , 查得右尾2 0.05 = 7.815 推断: 2 2 0.05 H0成立,( A T )2T ) 2 (k -1)= 1时, C2 =(| A T | - 0.5 )2T ),第五节 次数资料的2检验,三、独立性测验 例3.6 分别统计了甲、乙两个品种各67头经产母猪的产仔情况,结果如右表(Tij内为相应的理论次数),试检验经产母猪的产仔构成比是否因品种而不同。H0:产仔构成比与因品种无关2 =( A T )2T ) = 23.23 = 62/11 + 5.52/38.5+ 11.52/17.5 + 62/11 + 5.52/38.5 + 11.52/

26、17.5 按自由度=(2-1)(3-1)查得20.05=5.99推断:2 2 0.05 H0不成立,( A T )2T ) 2 (r -1)(c-1)= 1时, C2 =(| A T | 0.5 )2T ),显著性检验(小结),至此已讲完统计三大分布,历史上是先有u 分布,后来才依次有2分布、 t 分布和F 分布 当计算2的自由度= 1时, 2 = u2 ; 当计算t的自由度时, t N(0, 1); Fisher 证明 Gosset 定义的 t 变量实际上是用2变量除以后的正根值去除 u 变量所得: t = u /(2 / ) 取u =()/n =()/n/(S2 / 2 ) =()/n /S = ()S/n F 分布与u 分布、2分布、 t 分布的联系同样可从其定义:F= S12 / S22 导出,如右图。 2分布与F分布因为不对称, 其两尾检验不象u-test或t-test那么简单, 左、右尾算法不同。,四种抽样分布关系图,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号