《二章统计假设测验及T测验.ppt》由会员分享,可在线阅读,更多相关《二章统计假设测验及T测验.ppt(47页珍藏版)》请在三一办公上搜索。
1、第二章 统计假设测验及T测验,第一节 理论分布与抽样分布 Sampling distributions第二节 统计假设测验 Test of statistical hypothesis第三节 平均数的假设检验 Test of mean hypothesis第四节 二项资料的百分数假设检验 Test of percent hypothesis第五节 参数的区间估计 Estimate of confidence interval,第一节 理论分布与抽样分布Sampling Distributions,1.二项式分布 Binomial distribution2.泊松分布 Poisson distr
2、ibution3.正态分布 Normal Distribution4.抽样分布 Sampling distribution,连续性资料的数据分布,水稻产量 g/120cm,整理结果,概率,一般而论,当计算或计量一系列观察个体时,不论周围条件控制得如何严格,这些观察值总是表现出一定的变异类型,服从一些有规律的法则。从科学试验可以看到,这些变异类型多数表现以平均数为中心,次数最多,离平均数愈远,次数愈少,向两极端值作对称的分布;但也有各种不同程度的非对称分布称或偏斜分布。由于变数的次数分布有各种类型,因之相应地有其各种理论分布或法则。这些理论法则乃科学试验的实际变异类型的数学模型,是统计理论的基础
3、。,1、二项式分布 binomial distribution,1、二项式分布 binomial distribution,计算二项式的组合公式:,n相当于样本数,x相当于具有某个特性的个体数。,这一分布也称贝努里分布,并有,二项分布,调查2000株棉花,盲椿象的受害率为35(p=0.35),则未受害的概率为 q=10.35=0.65。若每次调查5株(n=5),则受害1、2、3、4、5株的概率各是多少?,其累计函数为:,受害i次的概率为:,二项分布,2000株棉花,盲椿象受害概率的计算结果,二项分布,每次抽5株,抽N=400次。NP(x)=P(x)400,盲椿象受害的概率函数图和累计概率函数图
4、,二项分布,若盲椿象的受害率为p=1/2,则未受害的概率q=1-p=1/2,此时受害概率的分布为p=q的形式。,P=q=0.5,p=0.35,q=0.65,当n很大时,既是pq,概率函数也会呈对称分布。,二项分布,2、泊松分布二项分布的一种极限分布Poisson distribution,2、泊松分布二项分布的一种极限分布Poisson distribution,而n又相当大(50),足以使np或nq为一个适当大的值,例如界乎0与10之间,这样二项分布即为一种极限事例,称泊松概率分布,或简称泊松分布。Poisson distribution,应用二项分布时,当概率p或q很小,例如小于0.1,,
5、泊松分布,如果将np=m,接近分布为:,式中,x=1,2,,为任意项的项数。m以平均数估计。凡观察次数n(相当大),某事件出现的平均次数却很少,则该事件符合泊松分布。泊松分布的平均数、方差、标准差为:,泊松分布,在棉铃虫产卵盛期调查2000株棉花,数据如表,按照泊松分布计算各分布概率。,泊松分布,3、正态分布Normal Distribution(二项分布的极限),研究正态分布的意义:客观世界的许多现象的数据是服从正态分布规律的。在适当条件下,正态分布可以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在
6、样本容量适当大时仍然趋于正态分布。,正态分布,正态分布图,正态分布,正态分布曲线的特点:曲线以平均数为对称轴,左右对称;算术平均数、中数、众数三位合一;正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;正态分布资料的次数分布表现为多数次数集中在算是平均数附近,距之俞远,次数俞少;正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以x轴为渐进线;正态分布曲线与x轴间的面积为1,任何两个x定值间的面积或概率由平均数和标准差确定。,正态分布,以平均数和标准差不同的正态分布系列曲线,正态分布,正态分布曲线区间面积或概率的计算方法:,正态分布曲线区间(xa)面积或概率的计算方法:,正态分布,为了
7、简化,一般以一个新数U代替x,即将x离开其平均数的差数以标准差为单位进行转换,U称为正态离差,经转换后的分布为具有平均数0,标准差1的标准化正态分布。,转换后的正态分布曲线为:,正态分布,例:假定x为一随机数且具有正态分布特性,平均数为 30,标准差为5,请计算x40时的概率值。,解:,查附表2可得:当U=0.8时,FN(x)=0.2119即x26的概率为0.2119。计算x 40时得概率值。,同理:x40时,当U=2时,查表得FN(x)=0.9773 即x40时的概率为0.9773。,正态分布,正态分布,计算:26x40时的概率值。P(x)=P(26x40)=FN(40)FN(26)=0.9
8、7730.2119=0.7654,计算:P(x40)时的概率值。P(x40)=1P(x40)10.97730.0227,正态分布,4.抽样分布 Sampling distribution,统计数或统计量的分布称为抽样分布。目的:从样本推断总体。,(1)从总体到样本的方向:其目的是研究从总体中抽出所有可能样本统计量的分布及其与原总体的关系。(2)从样本到总体的方向:用样本对总体作出推断。,研究总体和样本之间的关系可从两个方向进行:,抽样方式:(1)复置抽样(2)不复置抽样抽样试验方法:(1)直接研究法:从一个总体抽取样本而计算其统计数。(2)MonteCarlo研究法:当N或n很大时,直接法研究
9、有困难,可采用从已知概率分布的总体中按拟定样本容量,用随机方法抽出相当多的样本,从这些样本计算统计数,列出其次数分布表。这些抽样分布结果也可以大概证实总体的参数和分布律。,抽样分布,样本总体与母体的关系,1.样本平均数的抽样,分布平均数和方差的推导,不同样本容量的样本平均数 的抽样分布,总体N=3(2、4、6)样本容量n=1、2、4、8,证明,2.样本总和数的抽样分布抽样分布的平均数 与母总体平均数的关系,正态总体抽样的分布,抽样分布的方差 与母总体方差的关系,正态总体抽样的分布,3.两个独立随机样本平均数差数的抽样分布 该抽样分布的平均数与母体的平均数相等。若两个总体各作正态分布,则其样本平
10、均数差数准确地遵循正态分布,无论样本容量大或小。该抽样分布的方差与母体方差的关系为:两个独立的样本平均数的差数分布的方差等于两个总体的样本平均数的方差总和:,两个独立随机样本平均数差数的抽样分布,例题:,第一个总体有三个观察值2、4、6(N13),样本容量为(n12),全部样本数为Nn=32=9,总体平均数14,总体方差 8/3 第二个总体有两个观察值3、6(N22),样本容量为(n23),全部样本数为Nn=23=8,总体平均数24.5,总体方差,两个独立随机样本平均数差数的抽样分布,从两个总体抽出样本平均数的次数分布 2、4、6(N13)(n12),3、6(N22)(n23),两个独立随机样
11、本平均数差数的抽样分布,样本平均数差数的次数分布,样本平均数差数分布的平均数和方差,两个独立随机样本平均数差数的抽样分布,两种方法计算结果相同,两个独立随机样本平均数差数的抽样分布,平均数差数的方差算法1,平均数差数的方差算法2,平均数差数,中心极限定理(Central Limit Theorem)从正态总体抽取样本,无论样本容量大与小,其样本平均数的抽样分布必呈正态分布,具有平均数和方差分别为:,平均数的分布一般记为:,当总体不是正态分布的,但它具有2和,那么,当样本容量n增大时,从该总体抽出的样本平均数的抽样分布亦必趋近正态分布,具有平均数和方差2/n,在实际应用时,当n30时,就可以应用这一定理。,二项总体抽样的分布,(1).二项总体的分布参数(2).样本平均数抽样分布(3).样本综合数的抽样分布,(1).二项总体的分布参数,例:一个总体内有5个个体,分别为0、1、0、1、1。则:(01 0 1 1)50.6所以 p2(0-0.6)2+(1-0.6)2+(0-0.6)250.24,(2).样本平均数抽样分布,平均数,方差,标准误,,(每次取一个样,即:n=1),(3).样本综合数的抽样分布,二项总体抽样的分布,二项总体的平均数p,方差2 p(1-p)=pq标准差为,样本平均数抽样分布 平均数,方差,标准误,,部分希腊字母的读音,