第四章统计推断课件.ppt

上传人:牧羊曲112 文档编号:3341478 上传时间:2023-03-12 格式:PPT 页数:126 大小:1.97MB
返回 下载 相关 举报
第四章统计推断课件.ppt_第1页
第1页 / 共126页
第四章统计推断课件.ppt_第2页
第2页 / 共126页
第四章统计推断课件.ppt_第3页
第3页 / 共126页
第四章统计推断课件.ppt_第4页
第4页 / 共126页
第四章统计推断课件.ppt_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《第四章统计推断课件.ppt》由会员分享,可在线阅读,更多相关《第四章统计推断课件.ppt(126页珍藏版)》请在三一办公上搜索。

1、统计推断(statistical inference),统计推断,由一个样本或一糸列样本所得的结果来推断总体的特征,假设检验,参数估计,第一节,第二节,第三节,第四节,第五节,假设检验的原理与方法,样本平均数的假设检验,样本频率的假设检验,参数的区间估计与点估计,方差的同质性检验,第一节,假设检验的原理与方法,一 概念:假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。,第一节 假设

2、检验,小概率原理,概率很小的事件在一次抽样试验中实际是几乎不可能发生的。,=0.05/0.01,如果假设一些条件,并在假设的条件下能够准确地算出事件出现的概率 为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。,假设检验,参数检验,非参数检验,平均数的检验,频率的检验,方差的检验,秩和检验,符号检验,游程检验,秩相关检验,大家好,8,统计假设测验的基本思想 设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数为0=300(kg),并从多年种植结果获得其方差2=(75)2kg。若从这一总体中随机抽取n个个体构成样本,则样

3、本观察值可表示为:yi=0+i(i=1,2,n),现有某新品种通过25个小区的试验,计算其样本平均产量为每667m2为330kg。新品种的样本观察值可表示为:xi=+i(i=1,2,n)式中为新品种的总体平均数。新品种与地方品种的差异(品种效应)用表示,则 0,大家好,9,代入上式得:xi=0+i(i=1,2,n)对xi求平均数,并将式子稍作变形得:,0=+,为表型效应,在本例中,,大家好,10,由于处理效应 0 无法计算,统计推断只能从第(2)种可能性出发,即假设处理效应不存在,试验表型效应全为试验误差。,(1)处理效应与误差效应;,(2)全为试验误差。,可知表型效应的构成有二种可能性,然后

4、再计算该假设出现的概率,最后依概率的大小判断假设是否成立,从而推断处理效应是否存在(反证法)。这就是统计假设测验的基本思想。,二、假设检验的步骤,治疗前 0 126 2 240,N(126,240),治疗后 n 6 x 136 未知 那么 0?即克矽平对治疗矽肺是否有效?,例:设矽肺病患者的血红蛋白含量具平均数0126(mg/L),2 240(mg/L)2的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x=136(mg/L)。,1、提出假设,无效假设/零假设/检验假设,备择假设/对应假设,0,0,误差效应,处理效应,H0,HA,例:克矽平治疗矽肺病是否能提高血红

5、蛋白含量?,检验治疗后的总体平均数是否还是治疗前的126(mg/L)?,本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。,而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。,H0:=0=126(mg/L),HA:0,2、确定显著水平,0.05,显著水平*,极显著水平*,能否定H0的人为规定的概率标准称为显著水平,记作。,统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平。,P,0.01,0.05,3、

6、选定检验方法,计算检验统计量,确定概率值,根据研究设计的类型和统计推断的目的选择使用不同的检验方法。,例:,0.025,u 1.96,4、作出推断结论:是否接受假设,P,P,小概率原理,接受H0否定HA,否定H0接受HA,可能正确,可能错误,例:上例中 P 0.05所以接受H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。,0.95,0.025,0.025,u 1.96,u 2.58,P(u)0.05,P(u)0.01,差异达显著水平,差异达极显著水平,0.025,临界值:+ux,u,三、双尾检验与单尾检验,0,P(-2.58x x+2.58x)=0

7、.99,-2.58x,+2.58x,0.99,0.005,0.005,临界值:+2.58x,双尾检验(two-sided test),否定区,否定区,接受区,例:研究矮壮素使玉米矮化的效果,从理论上判断,喷施矮壮素只可能矮化无效而不可能促进植物长高,因此假设H0:喷施矮壮素的株高与未喷的相同或更高,即H0:0,对应HA:0,即喷施矮壮素的株高较未喷的为矮。,但在某些情况下,双尾测验不一定符合实际需要。,在已知不可能小于0时,则备择假设为HA:0,在已知不可能大于0时,则备择假设为HA:0,注:备择假设比无效假设重要,具体选择要由实际问题来确定,一般把期望出现的结论作为备选假设。,例:生产某种纺

8、织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,,问该棉花品种的纤维长度是否符合纺织品的生产要求?,H0:0=30(cm),即该棉花品种纤维长度达不到纺织品生产的要求。HA:0,0.95,0.95,0.05,0.05,1.64,-1.64,H0:0 HA:0,假设:,否定区,H0:0 HA:0,左尾检验,右尾检验,单尾检验(one-sided test),接受区,接受区,返回,u 0.05=1.64u 0.01=2.33,单尾检验分位数,双尾检验分位数,u 0.05=1.96u 0.01=2.58,四、两类错

9、误,第一类错误(type I error),又称弃真错误或 错误;第二类错误(type II error),又称纳伪错误或 错误,0.025,和重合,错误,犯第一类错误的概率等于显著水平值,C1,C2,2,2,0,u,-u,和不重合,犯第二类错误的概率记为值,、两类错误既有联系又有区别,错误只在否定H0时发生 错误只在接受H0时发生,错误增加 错误减小 错误增加 错误减小,结论,2、还依赖于-0 的距离,结论,3、n,2 可使两类错误的概率都减小.,大家好,30,分析题意,提出假设,确定显著水平,计算检验统计量,作出推断,假设检验的步骤:,第二节,样本平均数的假设检验,大样本平均数的假设检验

10、u检验,小样本平均数的假设检验 t检验,单样本,双样本,一、一个样本平均数 的假设检验,适用范围:检验某一样本平均数x所属的总体平均数是否和某一指定的总体平均数0相同。若相同,则说明该样本属于这个以0为平均数的指定总体;若不相同,则说明该样本所属的总体与这个指定总体(0)不同,即有显著或极显著差异。,1、总体方差2已知,无论n是否大于30都可采用u检验法,例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,其平均体长为7.65cm,,问新育苗方法与常规方法有无显著差异?,分析,()这是一个样本平均数的假设检

11、验,因总体2已知,采用u检验;,()新育苗方法的鱼苗体长 或常规方法鱼苗体长,应进行双尾检验。,()假设,(2)水平,(3)检验,(4)推断,H0:=0=7.25(cm),即新育苗方法与常规方法所育鱼苗一月龄体长相同;HA:0,选取显著水平0.05,u 1.96,否定H0,接受HA;,认为新育苗方法一月龄体长与常规方法有显著差异。,P 0.05,2、总体方差2未知,但n30时,可用样本方差s2来代替 总体方差2,仍用u检验法,总体(0),s2,2,例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,

12、,问该棉花品种的纤维长度是否符合纺织品的生产要求?,分析,()这是一个样本平均数的假设检验,因总体2未知,n=400 30,可用s2代替2进行u检验;,()棉花纤维只有30mm才符合纺织品的生产要求,因 此进行单尾检验。,()假设,(2)水平,(3)检验,(4)推断,H0:0=30(cm),即该棉花品种纤维长度达不到纺织品生产的要求。HA:0,选取显著水平0.05,u 1.645,接受H0,否定HA;,认为该棉花品种纤维长度不符合纺织品生产的要求。,P0.05,3、总体方差2未知,且n30时,可用样本方差s2来代替 总体方差2,采用df=n-1的t检验法,总体(0),s2,2,例:某鱼塘水中的

13、含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L),试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。,分析,()这是一个样本平均数的假设检验,因总体2未知,n=10 30,可用s2代替2进行 t 检验;,()该次测定的水中含氧量可能或多年平均值,用双 尾检验。,()假设,(2)水平,(3)检验,(4)推断,H0:0=4.5(mg/L),即认为该次测定与多年平均值没有显著差别。HA:0,选取显著水平0.05,在0.05显著水平上,接受H0,否定HA;,

14、认为该次抽样所测结果与多年平均值无显著差别,属于随机误差。,t 0.05(9)=2.262,P0.05,二、两个样本平均数 的假设检验,样本平均数的假设检验,适用范围:检验两个样本平均数x1和x2所属的总体平均数1和2是否来自同一总体。,总体11,总体22,两个样本平均数的假设检验步骤,1、提出假设,无效假设H0:1=2,两个平均数的差值 是随机误差所引起的;,备择假设HA:1=2,两个平均数的差值 除随机误差外,还包含其真实的差异,即由效应差异引起的;,2、确定显著水平:0.05或0.01,3、检验统计量,(1)样本平均数差数的平均数=总体平均数的差数.,两个样本平均数的差数,(2)样本平均

15、数差数的方差=两样本平均数方差之和.,样本平均数差数的标准误,12=22=,n1=n2=n,12=22=n1=n2=n,当12 和22已知,H0:1=2=时,当12 和22未知,两样本都为大样本时,H0:1=2=时,当12 和22未知,两样本都为小样本时,H0:1=2=时,4、作出推断,并解释之,试验设计,成组数据平均数的比较,成对数据平均数的比较,成组数据平均数的比较,如果两个样本的各个变量是从各自总体中随机抽取的,两个样本之间的变量没有任何关联,即两个抽样样本彼此独立,则不论两样本的容量是否相同,所得数据皆为成组数据。两组数据以组平均数作为相互比较的标准,来检验其差异的显著性。根据两样本所

16、属的总体方差是否已知和样本大小不同而采用不同的检验方法。,1、两个总体方差12 和22已知,或12 和22未知,但两个样本都是大样本,即n130且n230时,用u检验法。,例:某杂交黑麦从播种到开花的天数的标准差为6.9d,A法:调查400株,平均天数为69.5d,B法:调查200株,平均天数为70.3d,差异?,分析,()这是两个样本(成组数据)平均数比较的假设检验,12=22=(6.9d)2,样本为大样本,用u检验。,()因事先不知A、B两方法得到的天数孰高孰低,用双尾检验。,试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。,()假设,(2)水平,(3)检验,(4)推断,H0:1

17、2,即认为两种方法所得天数相同。HA:1 2,选取显著水平0.05,在0.05显著水平上,接受H0,否定HA;,认为两种方法所得黑麦从播种到开花天数没有显著差别。,例:为了比较“42-67XRRIM603”和“42-67XPB86”两个橡胶品种的割胶产量,两品种分别随机抽样55株和107株进行割胶,平均产量分别为95.4ml/株和77.6ml株,割胶产量的方差分别为936.36(ml/株)2和800.89(ml/株)2,分析,()这是两个样本(成组数据)平均数比较的假设检验,12和22未知,n130且n230,用u检验。,()因事先不知两品种产量孰高孰低,用双尾检验。,试检验两个橡胶品种在割胶

18、产量上是否有显著差别。,()假设,(2)水平,(3)检验,(4)推断,H0:1 2,即认为两品种割胶产量没有显著差别。HA:1 2,选取显著水平0.01,在0.01显著水平上,否定H0,接受HA;,两个橡胶品种的割胶产量存在极显著的差别,“42-67XRRIM603”割胶产量极显著高于“42-67XPB86”。,2、两个总体方差12 和22未知,且两个样本都是小样本,即n130且n230时,用t检验法。,(1)如果12=22=2,Se2,2,平均数差数的标准误,H0:12=,df=(n1-1)+(n2-1)=n1+n2-2,例:用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白

19、鼠的增重(g),高蛋白组:134,146,106,119,124,161,107,83,113,129,97,123低蛋白组:70,118,101,85,107,132,94,分析,()这是两个样本平均数的检验,12和22未知,且为小样本,用t检验。,()事先不知两种饲料饲养大白鼠增重量孰高孰低,用双尾检验。,试问两种饲料饲养的大白鼠增重量是否有差别?,()假设,(2)水平,(3)检验,H0:12=22=2 HA:12 22,选取显著水平0.05,(4)推断,两样本方差相等。,(3)检验,()假设,(2)水平,H0:1 2,即认为两种饲料饲养的大白鼠增重无差异。HA:1 2,选取显著水平0.0

20、5,(4)推断,在0.05显著水平上,接受H0,否定HA;,认为两种饲料饲养大白鼠的增重无显著差别,属于随机误差。,t 0.05(17)=2.110,P0.05,df=(n1-1)+(n2-1)=17,2)1222,n1 n2,采用近似地t检验,即 Aspin-Welch检验法。,(3)1222,n1=n2=n,Se2,2,df=n-1,平均数差数的标准误,当n1=n2=n时,成对数据平均数的比较,成对(配对)比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对

21、实验设计。,成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。,x1,x2,样本1,样本2,n对,样本差数的平均数等于样本平均数的差数,H0:d=0,df=n-1,样本差数的方差,样本差数平均数的标准误,t 值,例:在研究饮食中缺乏VE与肝中VA的关系时,将试验动物按性别、体重等配成8对,并将每对中的两头试验动物用随机分配法分配在正常饲料组和VE缺乏组,然后将试验动物杀死,测定其肝中VA含量,结果如右表:,配对 正常饲料组 VE 缺乏组 差数d d2 1 3550 2450 1100 12100

22、00 2 2000 2400-400 160000 3 3000 1800 1200 1440000 4 3950 3200 750 562500 5 3800 3250 550 302500 6 3750 2700 1050 1102500 7 3450 2500 950 902500 8 3050 1750 1300 1690000 合计 6500 7370000,试检验两组饲料对试验动物肝中VA含量的作用有无显著差异。,分析,此题为成对数据,事先不知两组饲料作用孰大孰小,用双尾。,()假设,(2)水平,(3)检验,H0:d0 HA:d 0,0.01,(4)推断,在0.01显著水平上,否定

23、H0,接受HA;,两组饲料对动物肝中VA含量作用有极显著差异,正常饲料组的动物肝中的VA含量极显著高于VE缺乏组。,t 0.01(7)=3.499 t t 0.01(7),已知,第三节,样本频率的假设检验,二项分布,频率分布,二项成数,目标性状,频率的假设检验,当 np 或 nq5,由二项式(p+q)n 展开式直接检验,频率的假设检验,当 np 和 nq 30,中心极限定理,正态分布(u 检 验),近似,频率的假设检验,当 5np 或 nq30,由于二项总体的百分数(频率)是由某一属性的个体计算来的整数,所以是离散型的。当样本不太大时,把它当作连续型的近似正态总体来处理,结果会有些出入。补救的

24、办法时仍按正态分布的假设检验计算,但必须进行连续性矫正,即随机变量所落的区间+0.5,如一个样本由 矫正为。,一、一个样本频率的假设检验,适用范围:检验一个样本频率(记为)和某一理论值或期望值p的差异显著性。,其中 q=1-p,1、当 np 和 nq 30,不需连续性矫正,则u值为:,在二项分布中,事件A发生的频率 x/n称为二项成数,即百分数或频率。则频率的平均数和标准误分别为:(见P33),2、当 5np 或 nq30时,趋近正态,需要进行连续性矫正,n30,u检验,uc值为:,如果n30,t检验,tc值为:,其中“”表示在 p时取“”;p时取“”。,例:有一批蔬菜种子的平均发芽率为0.8

25、5,现随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽,,检验种衣剂对种子发芽有无效果?,(3)不知使用种衣剂的发芽率是高是低,用双尾检验。,分析,(1)一个样本频率的假设检验;,(2)np 和 nq 30,无需连续矫正,用u检验;,()假设,(2)水平,(3)检验,(4)推断,H0:p=0.85即用种衣剂浸种后的发芽率仍为0.85;HA:p0.85,选取显著水平0.05,u 1.96,P0.05,在0.05显著水平上,否定H0,接受HA;,认为种衣剂浸种能够显著提高蔬菜种子的发芽率。,二、两个样本频率的假设检验,样本频率假设检验,适用范围:检验两个样本频率 和 差异的显著性。,一般

26、假定两个样本的方差是相等的,即,两个样本频率差数的标准误,在总体p1和p2未知,H0:p1=p2,可用两样本频率的加权平均值 作为对p1和p2的估计,即:,1、当 np 和 nq 30,不需连续性矫正,用u检验:,在H0:p1=p2下,,2、当 5 30,用u检验:,在H0:p1=p2下,,2、当 5 np 或 nq 30,需进行连续性矫正,如果n 30,用t检验:,在H0:p1=p2下,,例:研究地势对小麦锈病发病的影响,比较两块麦田锈病发病率是否有显著性差异。,低洼地麦田378株,其中锈病株342株,高坡地麦田396株,其中锈病株313株,(3)事先不知两块麦田的锈病发病率孰高孰低,用双尾

27、检验。,分析,(1)2个样本频率的假设检验;,(2)np 和 nq 30,无需连续矫正,用u检验;,()假设,(2)水平,(3)检验,H0:p1=p2即两块麦田锈病发病率没有显著差异。HA:p1 p2,选取显著水平0.01,在0.01显著水平上,否定H0,接受HA;,认为两块麦田锈病发病率有极显著差异,即地势对小麦锈病的发生有极显著影响作用,低洼地小麦锈病的发病率极显著高于高坡地。,(4)推断,u2.58,P0.01,一、参数区间估计与点估计的原理,三、两个总体平均数差数的区间估计与点估计,二、总体平均数的区间估计与点估计,四、总体频率、两个总体频率差数的区间估计与点估计,参数的区间估计与点估

28、计是建立在一定理论基础上的一种方法。,由中心极限定理和大数定律,只要抽样为大样本,不论其总体是否为正态分布,其样本平均数都近似服从正态分布N(,2/n)。,0,0.95(接受区),0.025,0.025,临界值,接受区,u:正态分布下置信度P=1-时的u临界值,1-:置信水平,知道 x,但不知道,1-置信区间、置信距,参数的区间估计也可用于假设检验。,对参数所进行的假设如果落在该区间之外,就说明这个假设与真实情况有本质的不同,因而就否定零假设,接受备择假设。,置信区间是在一定置信度P=1-下总体参数的所在范围,故对参数所进行的假设如果落在该区间内,就说明这个假设与真实情况没有不同,因而就可以接

29、受零假设。,无论区间估计还是点估计,都与概率显著水平的大小联系在一起。,越小,则相应的置信区间就越大,也就是说用样本平均数对总体平均数估计的可靠程度越高,但这时估计的精度就降低了。,在实际应用中,应合理选取概率显著水平的大小,不能认为取值越小越好。,二、总体平均数的区间估计和点估计,当为大样本时,不论总体方差2为已知或未知,可以利用样本平均数 x 和总体方差2作出置信度为P1-的总体平均数的区间估计为:,其置信区间的下限L1和上限L2为,总体平均数的点估计L为,当样本为小样本且总体方差2未知时,2需由样本方差s2来估计,于是置信度为P1-的总体平均数的置信区间可估计为,其置信区间的下限L1和上

30、限L2为:,总体平均数的点估计L为:,t为正态分布下置信度P1 时的t临界值,例4.14测得某批25个小麦样本的平均蛋白质含量14.5,已知2.50,试进行95置信度下的蛋白质含量的区间估计和点估计。分析:本例为已知,置信度P1-=0.95,u0.05=1.96。,蛋白质含量的点估计为:,说明小麦蛋白质含量有95的把握落在13.5215.48的区间里。,三、两个总体平均数差数1-2的区间估计与点估计,当两个总体方差12和22为已知,或总体方差12和22未知但为大样本时,在置信度为P1-下,两个总体平均数差数1-2的区间估计为:,两个总体平均数差数1-2的点估计为,其置信区间的下限1和上限L2为

31、:,当两个样本为小样本,总体方差12和22未知,当两总体方差相等,即12 22 2时,可由两样本方差s12和s22估计总体方差12和22,在置信度为P1-下,两总体平均数差数1-2的区间估计为:,两个总体平均数差数1-2的点估计为:,其置信区间的下限1和上限L2为:,当两个样本为小样本,总体方差12和22未知,且两总体方差不相等,即12 22时,可由两样本方差s12和s22对总体方差12和22的估计而算出的t值,已不是自由度dfn1+n2-2的t分布,而是近似的服从自由度df 的t分布,在置信度为P1-下,两总体平均数差数1-2的区间估计为:,其置信区间的下限1和上限L2为:,两个总体平均数差

32、数1-2的点估计为:,上面三式中,t,df 为置信度为P=1-时自由度为df 的t临界值。,当两样本为成对资料时,在置信度为P1-时,两总体平均数差数1-2的置信区间可估计为:,其置信区间的下限1和上限L2为:,两个总体平均数差数1-2的点估计为:,四、总体频率p、两总体频率差数p1-p2的区间估计和点估计,在置信度1-下,对一个总体频率P的区间估计为:,总体频率p的点估计L为:,其置信区间的下限1和上限L2为:,当样本容量较小或者np、nq小于30时,对总体频率p进行的区间估计和点估计,需要做连续性校正,其校正公式为:,总体频率p的点估计为:,在进行两个总体频率p1-p2的区间估计和点估计时

33、,一般应明确两个频率有显著差异才有意义。,在置信度为P1-下,两总体频率差数p1-p2的区间估计为,其置信区间的下限1和上限L2为:,两总体频率差数p1-p2的点估计L为:,第五节方差的同质性检验,所谓方差的同质性,就是指各个总体的方差是相同的。,方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同,两个样本方差的同质性检验,假设两个样本容量分别为n1和n2,方差分别为s12和s22,总体方差分别为12和22,当检验12和22是否同质时,可用检验法。,当两样本总体均服从正态分布,且两样本的抽样是随机的和独立的,其值等于两样本方差s12和s22之比。,且否从df1n1-1,df2n2-1的F分布。当FF时,否定0:1222,即认为两样本的方差是不同质的。,Bye Bye,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号