《续概率与理论分布》PPT课件.ppt

上传人:牧羊曲112 文档编号:5641634 上传时间:2023-08-05 格式:PPT 页数:54 大小:732KB
返回 下载 相关 举报
《续概率与理论分布》PPT课件.ppt_第1页
第1页 / 共54页
《续概率与理论分布》PPT课件.ppt_第2页
第2页 / 共54页
《续概率与理论分布》PPT课件.ppt_第3页
第3页 / 共54页
《续概率与理论分布》PPT课件.ppt_第4页
第4页 / 共54页
《续概率与理论分布》PPT课件.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《《续概率与理论分布》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《续概率与理论分布》PPT课件.ppt(54页珍藏版)》请在三一办公上搜索。

1、续前(概率与理论分布),第三节 抽样分布,统计学中一个很重要的内容是研究总体和样本的关系,这种关系可以从两个方面来进行研究:一个方向:从样本到总体,即从特殊到一般,从局部到全体(归纳),这是统计推断的过程一个方向:从总体到样本,即从一般到特殊,从全体到局部(演绎),这就是抽样分布研究,抽样分布(演绎的过程)总体 样本 统计推断(归纳的过程)而抽样分布的研究,又是统计推断的基础:抽样分布 统计推断研究抽样分布,其实质就是研究统计量的分布,其目的就是为了更好地进行统计推断;因为在统计推断的过程中需要知道统计量的分布规律,一、抽样的概念总体往往是无限的、未知的、抽象的,只能通过样本来进行估计和推断,

2、因此必须研究抽样分布和2是描述总体特征的两个参数,而 和s2 是样本的两个统计量;因此研究总体和样本的关系,其实质就是研究与、2 与 s2 的关系对于总体来讲,和2是常量,而总体中的样本不止一个,且每一样本的 不会相等,也不会刚好等于,因此 也是随机变量,同样,每一样本的 s2 也不会相等,且不等于2,因此,s2 也是随机变量,抽样分布示意图 X1 X2 Xk,原总体,样本1,样本2,样本k,新总体,而 与间的差异称为随机抽样误差(简称抽样误差 random sampling error)从一个总体中按一定的样本容量n 随机地抽出所有可能的样本,得到一系列的,由这些 所形成的分布就称为样本平均

3、数 的随机抽样分布,简称为平均数的抽样分布(sampling distribution)抽样分复置(放回)抽样和不复置(不放回)抽样两种复置(放回)抽样不复置(不放回)抽样,当样本容量 n 与总体容量N 相比很小(如5%)时,不复置抽样可以认为等同于复置抽样在实际操作中,一般以不复置抽样进行试验和调查,而在概率理论研究中往往以复置抽样较多见从一个容量为N 的总体中抽取容量为 n 的所有样本数为Nn,二、样本平均数的抽样分布从容量为 N 的总体中抽取所有容量为 n 的样本,并计算出每一样本的平均值,由这些 所组成的分布就是样本平均数的抽样分布由样本平均数 所组成的新总体就称为样本平均数抽样总体,

4、这一新总体的容量为 Nn,原总体的平均值为,由样本平均数 所组成的新总体的平均值记为原总体的标准差为,由样本平均数 所组成的新总体的标准差记为这一新的标准差 称为样本平均数抽样总体的标准误差,简称为标准误(standard error se SE)标准误 表示样本平均数 抽样误差的大小,即样本平均数 与新总体平均值 之间的离散程度,因此,表示的是原始总体中原始数据与该总体平均值的关系;而 表示的是从原始总体中抽取的样本平均数 与由 所组成的新总体的平均值 的关系因此,讨论总体与样本的关系(即与 的关系)就转化成了讨论原总体与样本平均数抽样总体的关系(即与、与 的关系),xi xi 可以证明:,

5、(n为样本含量)由于,因此,的含义又演变成了表示样本平均数 与其所由抽样的总体的平均数的关系,即表示了样本平均数 与总体平均数的离散程度,即样本平均值能在多大程度上代表总体平均值,下面我们用一个实例来进行验证设有一个总体,N3,组成该总体的数据分别为 2 4 6该总体以容量为 n2 对该总体进行复置抽样,可得 9 个样本,这些样本和相应的样本平均值分别为:(1)2、2:2(2)2、4:3(3)2、6:4(4)4、2:3(5)4、4:4(6)4、6:5(7)6、2:4(8)6、4:5(9)6、6:6,由这 9 个样本平均值组成了一个新的总体,显然,这一新总体的平均值为而从这一实例中我们可以看出:

6、样本平均数所组成的新总体即样本平均数的抽样总体与原总体的关系是成立的,且新总体的容量为932Nn,因此我们在一般的情况下,可以用来代替,即既是原总体的平均值,又是样本平均数抽样总体的平均值我们还可以通过这一实例来验证一下自由度的含义对本例中的 9 个样本我们可以分别以自由度 n-1 和以样本容量 n 计算两个相应的方差(s2、s02):S2:0 2 8 2 0 2 8 2 0s02:0 1 4 1 0 1 4 1 0得:s2 24 s02 12,因此,即用自由度计算得到的 s2 是无偏的,而用样本容量计算得到的方差用来估计总体方差会偏低这就是为什么要用样本自由度来计算方差和标准差而不能用样本容

7、量来计算方差和标准差的理由另外,我们还可以得到这样一个信息,即 9 个样本有 9 个标准差:0.0 1.414 2.828 1.414 0.0 1.414 2.828 1.414 0.0 得s11.304,即直接用样本标准差 s来估计总体标准差是不对的,由此,我们可以得出如下结论:1、样本平均数抽样总体的平均数与原总体的平均数相等,即;是的无偏估计量2、样本平均数抽样总体的方差与原总体的方差其关系为;两标准差的关系为;称为标准误3、由自由度计算得到的样本方差 s2 为总体方差2的无偏估计量4、s 不能直接用来估计,5、中心极限定理:随机变量xN(,2)时,样本平均数;随机变量 x不呈正态分布或

8、其分布为未知时,只要样本容量n足够大,的分布将愈来愈趋向于正态分布,且具有平均值,方差2/n,关于 与的几点说明:1、2、称为标准差,称为标准误3、表示总体中各随机变量间的离散程度,而 表示样本平均数间的离散程度4、度量的是总体中随机变量 x 间的变异,而 度量的是 的抽样误差,它说明了 可在多大程度上估计,5、与总体中的变量 x 发生关系,而 与样本平均值 发生关系6、与总体的标准误 相对应,样本亦有标准误:样本标准误的符号为:Se、SE;样本标准误的计算公式为:,三、两个样本平均数差数的抽样分布总体1:N1,1,1总体2:N2,2,2从以上两个总体中以n1和n2独立地进行抽样,得到 和,共

9、有 和 个样本将这两组样本平均值配成所有的差数,共有 个差数,这些差数所组成的分布称为样本平均数差数的抽样分布这一分布也有自己的参数:平均值 和方差,当两原总体为正态分布,或虽非正态,但所抽样本较大,则样本平均数差数的分布也呈正态分布样本平均数差数的分布与两原总体的关系为:称为样本平均数差数的平均值 称为样本平均数差数的方差 是用来度量 的抽样误差的大小的其平方根 称为样本平均数差数的标准误,当两总体的方差相等,即 时,当两样本的容量相等,即 时,容易看出,两样本平均数差数的抽样分布比原总体的分布要分散得多,四、标准误的作用标准误有以下几个作用:1、衡量样本平均数间的变异程度,即衡量样本平均数

10、估计总体平均数的代表性总体平均数一般总是未知的、或抽象的、无法通过计算得到的,需要用样本平均数来进行估计因此,样本平均数的好坏,即其代表性的强弱就显得十分重要:,标准误越大,说明样本平均数间的变异程度大,用样本平均数来估计总体平均数其效果就越差反之,标准误越小,说明样本平均数的变异性小,用样本平均数来估计总体平均数其效果就越好,2、用以推断总体平均值的可能范围 为总体标准误,由于一般为未知,所以也很难得到,在通常情况下,可以用样本的 来估计总体的,即,得,因此,从实际资料得到 后,可用 来估计总体的可能存在范围注意:表示原始数据的离散程度,而 是表示用 来估计总体的可能范围,而估计往往是统计学

11、的重点,比考察数据的离散程度更为重要;因此,以后我们一般都取(同时必须注明样本容量 n),3、用 估计总体的置信区间研究抽样的目的之一,就是希望用样本统计量估计总体参数;在很多情况下,我们需要用 来估计,但不能用 来精确地代替(这称为点估计),因为这没有一定的概率保证因此,我们总是在一定的概率保证(1)下(probability guarantee),用样本 来估计的所在范围,即在一定的概率保证下给出一个区间,这就是区间估计(interval estimation),这一区间称为置信区间(confidence interval)区间有上、下两个限,分别称为置信上限(upper limit)和置

12、信下限(lower limit)下限至上限的距离称为置信距(confidence range)样本平均值至上限或至下限的距离称为置信半径(confidence radius)这起保证作用的概率称为置信度或置信系数(confidence coefficient),在(1-)的概率保证下的置信区间其计算公式为:其中:u0.051.96 u0.012.58 即:1-95:1-99:因此,为置信区间 和 分别为置信下限L1和置信上限L2 为置信半径1-为置信度:95和99,大样本资料时,常用 来代替:95:99:置信区间的统计学意义是:我们有95的把握认为总体平均值在,这一区间内有99的把握认为总体平

13、均值在,这一区间内,4、有时,知道 的抽样分布规律及其参数后,还希望知道某一从任何样本中得到的 出现的概率值对 进行标准化,即,得到 u 值后查标准正态分布表中相应的概率值 u 是一个尺度,它是用来度量已知的 与原点间的距离的,显然,这一距离越远,表示出现 的可能性就越小,大样本时,我们也可以用这一公式:注意这一标准化过程与以前我们讨论过的标准化过程的相同之处和不同之处:对随机变量的标准化:对某一已知平均值的标准化:(大样本)(大样本),五、t-分布(t-distribution)在总体方差2为已知,或总体方差虽未知,但所使用的样本较大时,我们可以用前面所讨论过的公式进行标准化来知道某一平均值

14、出现的概率值但当总体方差未知,且所使用的样本又较小,对已知的某一平均值进行标准化所得到的值就不再是u,而是另一个统计量了,即用 小样本s2来代替2,其不再服从标准正态分布,而成了t 统计量,即t分布,从一正态总体中,按一定的样本容量 n 进行抽样(n 较小)所得到的所有可能样本,而获得 t 分布:t 分布也是一个标准化过程,但其分母 是使用的小样本的标准误(与公式 的比较),t 分布与自由度 n-1 有关,它是一组曲线,不同的自由度得到不同的t曲线,但这一组曲线都以y 轴为对称t 分布的概率密度函数为:为圆周率,为自由度(gamma)为函数t 分布的平均值为 0,方差为:,显然,t 分布随不同

15、的自由度而变化,不同的自由度都有一条相对应的曲线,因此其概率值的计算也随自由度的不同而不同由于t分布的方差 1,因此当自由度不是很大时,t 分布曲线较之标准正态分布曲线为离散,t 分布曲线的顶峰恒低于标准正态分布曲线,而两尾则恒略高当 大时,t 分布曲线就趋向于标准正态分布曲线当样本容量,t 分布的方差为 1,t 分布曲线即重合于标准正态分布曲线,u-分布与t-分布的区别:当总体方差为已知:当总体方差虽未知,但样本很大时:当总体方差未知,且样本又不大时:这里,要注意两个 的区别,六、分布(chi-square distribution)从一个已知平均值为,方差为2的总体中进行独立的抽样,得随机

16、变量 x,其标准离差为连续 n 次独立抽样,可得 n 个相互独 立的随机变量 x,即可得 n 个 ui,这 n 个独立的标准正态离差 ui,求其平方之和,即可得到一个新的统计量,用样本来计算时,可由 来估计 而由于 可得,即即由此可知,是 n-1个独立的标准正态离差,具有自由度 n-1,在一个正态总体中按一定的样本量 n 进行抽样,每一样本均有 n 个 xi,即可得 n个 ui,因此每一样本都有一个 值,将所有可能的样本(容量为 n)均抽出来,所得到的 值就组成了一个分布,这一分布就称为自由度为 n-1 的 分布,其概率密度函数 为:分布是由标准正态分布产生的,是连续型随机变量的一个分布形式,

17、且具有概率密度函数,分布具有以下特点:1、分布的取值范围为0,+),无负值 2、分布的平均值为,方差为 3、分布的形状决定于自由度(df),当1时,曲线呈反 J 型,1 时,曲线严重左偏;随着 的增大,曲线渐趋对称,当30,分布向正态分布渐近,分布还可定义为观察次数与理论次数间的符合程度即因此,分布可以用来进行次数资料的假设性检验,这在遗传学研究和规范化研究中用处很大,七、F分布(Fdistribution)对于一个平均值为,方差为2 的正态总体,独立地抽取自由度分别为1=n1-1、2=n2-1 的两个样本这两个样本的平均值和方差分别为、和、则有、这两个2 变量除以各自的自由度后的比值,被定义

18、为F统计量:,即F值是方差同质总体中所抽自由度为1和2的两个样本均方 和 的比值在一个正态总体中独立地抽出所有可能的具有自由度为1和2的样本,并计算F(1,2)值,由这一系列F值所构成的分布称为F分布,F分布的概率密度函数是两个独立的 2 变量的联合密度函数:F分布是随两个自由度1、2 的不同而异的一簇曲线F值的取值范围为 0,+),由于构成 F 值的 和 都是正态总体中 的无偏估计量,因此 F 分布的平均值为 方差为F 分布的每一条曲线都有两个自由度,且这两个自由度其位次不能任意掉换F 值分子上的自由度为第一自由度df1F 值分母上的自由度为第二自由度df2在一个正态总体中抽取两个样本均方,比较其显著性时,总是将较大的均方作为分子,这个均方所具有的自由度作为第一自由度,较小的均方作为分母,其所具有的自由度作为第二自由度在方差分析中,总是将组间均方作为分子,因为一般来说,组间均方总是被比较的对象,且也总是大均方,因此组间均方的自由度就是第一自由度df1而误差均方总是作为比较的标准,因此作为分母,其自由度就是第二自由度 df2在上述比较并得到 F 值后,与F表中相应的 F 值相比,当 df11 或等于 2 时 F 分布曲线呈反 J 型,df12后曲线转向左偏当df1、df2 时,F 分布曲线趋向于正态,end,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号