概率分布与t检验.ppt_三一办公31ppt.com

资源描述

《概率分布与t检验.ppt》由会员分享，可在线阅读，更多相关《概率分布与t检验.ppt（39页珍藏版）》请在三一办公上搜索。

1、第二章概率分布与t检验,2-1 理论分布2-2 样本平均数的抽样分布2-3 统计假设检验概述,2-1 理论分布,1、事件与概率1.1 事件随机事件的特点：在一定的条件下，有多种可能的结果发生，事前人们不能预言哪种结果；对一次或少数几次观察或试验而言，其结果呈现偶然性、不确定性；但在相同条件下进行大量重复试验时，其试验结果呈现出某种固有的规律性频率，即随机事件的统计规律性。,(1)必然事件：(2)不可能事件：(3)随机事件：,例如，种子的发芽率试验，少量的种籽作试验时，其发芽率可能是85%、95%，但当进行重复大量样本的试验时，其发芽率越来越接近90%，这90%实际上是这批种籽的发芽率或称为

2、概率。,1.2 概率,在相同条件下进行n次重复试验，如果随机事件A发生的次数为m，那么m/n称为随机事件A的频率(frequency)；当试验重复数n逐渐增大时，随机事件A的频率m/n越来越稳定地接近某一数值p，那么就把P称为随机事件A的概率。,1.3 小概率事件原理,概率表示了随机事件在一次试验中出现的机率。若随机事件的概率很小，例如0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件，但在一次试验中出现的可能性很小，实际上可以看成是不可能发生的。统计学上，把小概率事件在一次试验中看成是不可能发生的事件称为小概率事件原理。此原理是统计学上进行假设检验(显著性检验)

3、的基本依据。,1)连续型随机变量(如身高、体重、物质浓度)的概率分布，可用随机变量x在某个区间内取值的概率P(axb)来表示。概率分布密度函数，当x取值于区间a,b的概率为图中阴影部分的面积，,图 2-1 概率分布曲线,2 概率分布（连续型随机变量）,3、正态分布(Normal distribution),3.1 正态分布的定义及其特征(1)正态分布的定义若连续型随机变量x的概率分布密度函数为 1）其中为平均数，2为方差，则称随机变量x服从正态分布，记为xN(,2)相应的概率分布函数为 2）,图 2-2 正态分布密度曲线,3.2 标准正态分布,将一般的N(,2)转换为=0,2=1的正态分布。

4、我们称=0,2=1的正态分布为标准正态分布。标准正态分布的概率密度函数及分布函数分别记作(u)和(u)，如式3)及4)式得：3)4),对于任何一个服从正态分布N(,2)的随机变量x，都可以通过标准化变换：u=(x-)5)将其变换为服从标准正态分布的随机变量u。u称为标准正态变量(standard normal deviate)。按5)式计算，对不同的u值编成函数表，称为正态分布表，见附表1，从中可查到u在任意一个区间内取值的概率。,3.3 正态分布概率的计算,(1)标准正态分布的概率计算(NORMSDIST)设u服从标准正态分布，则u在u1,u2内取值的概率为：(u2)(u1)而(u1)与(u

5、2)可由附表1查得。,关于标准正态分布，以下几种概率应当熟记：P(-1u 1)=0.683P(-1.96u 1.96)=0.95P(-2.58u 2.58)=0.99对于一般正态分布：P(-x+)=0.683P(-1.96x+1.96)=0.95P(-2.58x+2.58)=0.99,(3)两尾概率和一尾概率,数理统计中，把随机变量x落在平均数加、减不同倍数标准差区间之外的概率称为两尾概率，记作。随机变量x-k或+k的概率，称为一尾概率,记作/2。例如，x落在(-1.96,+1.96)之外的双尾概率为0.05，而单尾概率为0.025。即P(x-1.96)=P(x+1.96)=0.025两尾概率

6、或一尾概率如图2-4所示。x落在(-2.58,+2.58)之外的双尾概率为0.01，而单尾概率P(x-2.58)=P(x+2.58)=0.005,2-2 样本平均数的抽样分布,1、样本平均数抽样分布1.1 定义从一总体随机地抽取样本容量为n的样本，由这些样本算得的平均数随抽样次数的分布，称为样本平均数的抽样分布。样本平均数与原总体平均数相比表现出的差异,是由随机抽样造成的，称为抽样误差(sampling error)。,由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后，这个个体应重返原总体；后者指每次抽出的个体不返回原总体。对于无

7、限总体，返置与否都可保证各个体被抽到的机会相等。对于有限总体，就应该采取返置抽样，否则各个体被抽到的机会就不相等。,1.2 中心极限定理,若有一随机变量服从总体平均数为、方差为2的分布，则从这个总体中随机抽取容量为n的样本，随样本容量n的不断增大，其样本平均数的分布亦愈来愈趋于正态分布，且具有平均数为、方差为2/n的分布。称为中心极限定理。,样本平均数分布的平均数和标准差分别记为和。是样本平均数抽样总体的标准差，简称标准误(standard error)。总体的两个参数与x原总体的两个参数有如下关系：无论x服从何种分布，一般只要n30，就可认为的分布是正态的。在正态分布总体中，以相同n抽取若

8、干个样本(如:试验重复n=3)时，样本均数的分布仍服从正态分布。,1.3 标准误,样本平均数抽样总体的标准误的大小反映样本平均数抽样误差的大小，即精确性的高低。总体标准差往往是未知的，难计算，但可用样本标准差S 估计。故，即样本标准误或平均数标准误可估计总体平均数的标准误。,样本标准差与样本标准误是两个不同的统计量。二者的区别在于：样本标准差S是样本中各观测值x1,x2,x3,变异程度的一个指标，反映了对该样本代表性的强弱。样本标准误是样本平均数的标准差，它是抽样误差的估计值，说明了精确性的高低。对于大样本资料，常将样本标准差S与样本平均数配合使用，记为 S，用以说明所考察指标的优良性

9、与稳定性。对于小样本资料，常将样本标准误与样本平均数配合使用，记为，用以表示所考察指标的优良性与抽样误差的大小。,2、t 分布(t-distribution),用来研究小样本的抽样分布,是由William S.Gosset于1908年以Student的笔名发表的论文.由样本平均数抽样分布的性质知道：若xN(,2)，则 N(,2/n)。将随机变量标准化得：则u N(0,1)。当总体标准差未知时，以样本标准差S代替所得到的统计量记为t。在计算时，由于采用S来代替，使得t 变量不再服从标准正态分布，而是服从t分布(Gosset&Fisher)。,它的概率分布密度函数如下：式中，t的取值范围是(-

10、，+)；df=n-1为自由度。t分布的平均数和标准差为：t0(df1)，(df2)t分布的标准差与总体标准差没有关连。因此，特别适用于抽样误差大的小样本。,其特点是：1)t分布受自由度的制约，每一个自由度都有一条t分布密度曲线。2)t分布密度曲线以纵轴左右对称，且在t0时，函数值最大。3)与标准正态分布曲线相比，t分布曲线顶部略低，两尾部稍高而平。df越小这种趋势越明显。4)df越大，t分布越趋近于标准正态分布。当n30时，t分布与标准正态分布的区别很小；n100时，t分布基本与标准正态分布相同；,5)当df一定时，概率P越大，临界t值越小；概率P越小，临界t值越大。,图 2-13 t分布密度

11、曲线,2-3 统计假设检验概述,1、显著性检验的基本原理1.1 概念1)统计检验(统计推断)：根据抽样分布规律和概率理论，由样本统计数去推断总体参数的方法。包括假设检验和参数估计2)假设检验：根据某种实际需要，对未知或不完全知道的统计总体提出一些假设(这些假设构成完全事件)，然后由样本的实际结果计算后,作出的在一定概率意义上应当接受的那种假设的检验。,如在白班生产的产品与晚班生产的产品，其质量的差异是由抽样误差产生的还是由生产工人产生的差异。3)参数估计：由样本的统计数对总体的参数作出的点估计和区间估计。4)点估计：以统计数估计相应的总体参数。如由样本平均数估计总体平均数，由样本标准误估计总体

12、标准误。5)区间估计：根据统计数的概率分布，估计出相应的总体参数()的范围区间,1.2 显著性检验的意义,对两个样本进行比较时，判断样本间差异是抽样误差造成的，还是本质不同引起的。这正是显著性检验要解决的问题。由于总体平均数未知，在进行显著性检验时只能以样本平均数作为检验对象，更确切地说，是以两样本平均数的差数作为检验对象。,为什么以样本平均数作为检验对象呢？这是因为样本平均数具有下述特征：1)、离均差的平方和最小。说明样本平均数与样本各个观测值最接近，平均数是资料的代表数。2)、样本平均数是总体平均数的无偏估计值。3)、根据统计学中心极限定理，样本平均数的分布服从或逼近正态分布。,1.3 统

13、计假设检验的数学模型,对于两个不同处理的样本，其平均值表示为：这说明两个样本平均数之差也包括了两部分：一部分是两个总体平均数的差()，称试验的处理效应(treatment effect)；另一部分是试验误差()。,2、显著性检验的基本步骤,(1)首先对试验样本所在的总体作假设I、无效假设(H0)：假设总体平均数与某一指定值相等或假设两个总体参数相等，这种假设称为无效假设,表示处理效应无效，是由误差造成的。II、备择假设(HA)：备择假设是在无效假设被否定时准备接受的假设，与无效假设一起构成完全事件。,(2)确定显著水平，一般为0.05或0.01的小概率。(3)在无效假设成立的前提

14、下，根据统计数的抽样分布规律，计算无效假设正确的概率。(4)根据“小概率事件不可能性原理”否定或接受无效假设。若Pta，则在a 水平上否定H0，接受HA；若Pa,或|t|ta，则在a水平上接受H0，表明是因误差而产生的。,【例2.1】某矿泉水企业的自动装罐机，在正常工作状态时，每罐净容量具正态分布N(500,64)(单位：mL)。某日随机抽查了10瓶，得结果如下：505,512,497,493,508,515,502,495,490,510，问瓶装机工作是否正常？解:根据题意，本例应进行双尾t检验。1)提出无效假设与备择假设2)计算t值经计算得：3)查临界t值，作出统计推断由df=9，查t值

15、表(附表3)得，因为|t|0.05，故，即装罐机工作正常。,(1)两尾检验无效假设备择假设备择假设中包括了或两种可能。这个假设的目的在于判断两均值有无差异，而不考虑谁大谁小。在生产实践中，双尾检验不一定符合实际情况，常用一尾检验。如采用某种新的技术来提高某化工产品的质量，此种技术的实施不会降低质量。,3、两尾检验与单尾检验,(2)一尾检验即统计假设仅有一个否定区域的检验叫一尾检验。此时查一尾检验的临界t值。无效假设应为：备择假设应为：，即新配套技术的实施使质量有所提高。这时的否定域在t分布曲线的右尾。反之，若无效假设备择假设此时的否定域在t分布曲线的左尾。显然，单尾检验的=双尾检验

16、的,图2-3 两尾检验和一尾检验,选用单尾检验还是双尾检验,应根据专业知识及要求在试验设计时确定。一般若事先不知道所比较的两个处理效果谁好谁坏，分析的目的在于推断两个处理效果有无差别，则选用双尾检验；若根据理论知识或实践经验判断,甲处理的效果不会比乙处理的效果差，分析的目的在于推断甲处理是否比乙处理好，则用单尾检验。,【例2.2】表2-6为随机抽取的秦冠和红富士苹果果实各11个的果肉硬度(磅/cm2，1磅=0.4526kg)，问两品种的果肉硬度有无显著差异？表2-6 苹果果实的果肉硬度(磅/cm2)解：此例经计算得1)提出无效假设与备择假设 2)计算t值，3)查临界值，作出统计推断当df=20时，查临界t值得：|t|0.05,4、显著性检验中应注意的问题,(1)为了保证试验结果的可靠性，要有严密、合理的试验设计或抽样设计，保证各样本是从相应同质总体中随机抽取的。(2)选用的显著性检验方法应符合其应用条件。(3)要正确理解差异显著或极显著的统计意义。(4)合理建立统计假设，正确计算检验统计量。(5)结论不能绝对化。,作业,t分布有哪些基本特点？简述统计假设检验的基本步骤。统计假设检验中应注意哪些问题？,

展开阅读全文