第6章抽样与抽样分布ppt课件.ppt

上传人:牧羊曲112 文档编号:2105145 上传时间:2023-01-11 格式:PPT 页数:71 大小:1.99MB
返回 下载 相关 举报
第6章抽样与抽样分布ppt课件.ppt_第1页
第1页 / 共71页
第6章抽样与抽样分布ppt课件.ppt_第2页
第2页 / 共71页
第6章抽样与抽样分布ppt课件.ppt_第3页
第3页 / 共71页
第6章抽样与抽样分布ppt课件.ppt_第4页
第4页 / 共71页
第6章抽样与抽样分布ppt课件.ppt_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《第6章抽样与抽样分布ppt课件.ppt》由会员分享,可在线阅读,更多相关《第6章抽样与抽样分布ppt课件.ppt(71页珍藏版)》请在三一办公上搜索。

1、你不必吃完整一头牛,才知道它的肉是咬不动的。Samel Johnson,第 6 章 抽样与抽样分布,统计应用“抓阄”征兵计划,在美国的对越战争中,为使前线有足够的士兵,美国政府制定了一个“抓阄”的征兵计划。该计划打算把1到366的号码随机地分配给一年中每一天,然后由军事部门按分配的号码顺序把生日与之对应的年轻人分批征召入伍。这种方法的目的是为了给大家相等的机会卷入这场不受欢迎的战争中,因此被征召的可能性应该是随机的在第一年的征兵计划中,号码1被分配给了9月14日,分配方法是随机抽取一个大容器中的366个写上了日子的乒乓球。结果所有年满18岁且生于9月14日的合格青年将作为第一批被征召入伍。生日

2、被分配为号码2的青年则在第二批被征召入伍,以此类推,统计应用“抓阄”征兵计划,我们知道,并不是所有的人都被征召入伍,因此,生日被分配的号码较大的人也许永远轮不上到军队服役这种抓阄看起来对决定应该被征召入伍是一个相当不错的方法。然而,在抓阄的第二天,当所有的日子和它们对应的号码公布以后,统计学家们开始研究这些数据。经过观察和计算,统计学家们发现了一些规律。例如,我们本应期望应该有差不多一半的较小的号码(1到183)被分配给前半年的日子,即从1月份到6月份;另外一半较小的号码被分配给后半年的日子,从7月到12月份。由于抓阄的随机性,前半年中可能不会分到正好一半较小的号码,但是应当接近一半,统计应用

3、“抓阄”征兵计划,然而结果是,有73个较小的号码被分配给了前半年的日子,同时有110个较小的号码被分配给了后半年的日子。换句话说,如果你生于后半年的某一天,那么,你因为被分配给一个较小号码而去服兵役的机会要大于生于前半年的人在这种情况下,两个数字之间只应该有随机误差,而73和110之间的差别超出了随机性所能解释的范围。这种非随机性是由于乒乓球在被抽取之前没有被充分搅拌造成的。在第二年,主管这件事的部门在抓阄之前去咨询了统计学家(这可能使生于后半年的人感觉稍微舒服些),第 6 章 抽样与抽样分布,6.1 概率抽样方法6.2 三种不同性质的分布 6.3 一个总体参数推断时样本统计量的抽样 分布6.

4、4 两个总体参数推断时样本统计量的抽样 分布,学习目标,了解概率抽样方法区分总体分布、样本分布、抽样分布理解抽样分布与总体分布的关系掌握单总体参数推断时样本统计量的分布掌握双总体参数推断时样本统计量的分布,6.1 概率抽样方法,6.1.1 简单随机抽样6.1.2 分层抽样6.1.3 系统抽样6.1.4 整群抽样,抽样方法,概率抽样(probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行 估计时,要考虑到每个样本

5、单位被抽中的概率,简单随机抽样(simple random sampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,简单随机样本(simple random sample),由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中 参数估

6、计和假设检验所依据的主要是简单随机样本,简单随机抽样(用Excel对分类数据随机抽样),【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本,简单随机抽样(用Excel对分类数据随机抽样),第1步:将30个学生的名单录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2,30,并按 顺序排列,将代码录入到Excel工作表中的一列,与 学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码 区域,在【抽样方法】中单击【随机】。在【样本

7、数】中输入需要抽样的学生个数。在【输出区域】中 选择抽样结果放置的区域。【确定】后即得到要抽取 的样本,用Excel对分类数据抽样,简单随机抽样(用Excel对数值型数据随机抽样),第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据 区域,在【抽样方法】中单击【随机】。在【样本 数】中输入需要抽样的数据个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要 抽取的样本数据,用Excel对数值型数据抽样,分层抽样(stratified sampl

8、ing),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难,整群抽样(cluster sampling),将

9、总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差,多阶段抽样(multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,

10、经常被采用的方法,6.2 三种不同性质的分布,6.2.1 总体分布6.2.2 样本分布6.2.3 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳

11、定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(sampling distribution),抽样分布的形成过程(sampling distribution),6.3 样本统计量的抽样分布(一个总体参数推断时),6.3.1 样本均值的抽样分布6.3.2 样本比例的抽样分布6.3.3 样本方差的抽样分布,样本均值的抽样分布,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2

12、=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差

13、为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布,中心极限定理(central limit theorem),x 的分布趋于正态分布的过程,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),样本均值的抽样分布(数学期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,统计量的标准误(standard erro

14、r),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,估计的标准误(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部

15、产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),样本方差的抽样分布,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(H

16、ermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来设,则令,则 Y 服从自由度为1的2分布,即 当总体,从中抽取容量为n的样本,则,2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为E(2)=n,方差为D(2)=2n(n为自由度)可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),c2分布(例题的图示),c2分布(用Excel计算c2分布的概

17、率),利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率,用Excel计算c2 分布的概率,c2分布(用Excel计算c2分布的临界值),利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值,用Excel计算c2 分布的临界值

18、,c2分布(用Excel生成c2分布的临界值表),第一步:将c2分布自由度df的值输入到工作表的 A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式“=CHIINV(B$1,$A2)”然后将其向下、向右复制即可得到分布 的临界值表,用Excel生成c2 分布的临界值表,c2分布(用Excel绘制c2分布图),第1步:在工作表的第1列A2:A62输入应一个等差数列,初始 值为“0”,步长为“1”,终值为“60”第2步:在单元格B1输入c2分布自由度(如“15”)第3步:在单元格B2输入公式“=CHIDIST(A2,$B$1)”,并将其 复制到B3:B62区域第4步:在单元格C2输入公

19、“=B2-B3”,并将其复制到C3:C62 区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“图表向导”绘制折线图,用Excel绘制c2分布图,c2分布(用Excel绘制c2分布图),6.4 样本统计量的抽样分布(两个总体参数推断时),6.4.1 两个样本均值之差的抽样分布6.4.2 两个样本比例之差的抽样分布6.4.3 两个样本方差比的抽样分布,两个样本均值之差的抽样分布,两个总体都为正态分布,即,两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,两个样本比例之差的抽样

20、分布,两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为 方差为各自的方差之和,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1,12),X2N(2,22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即,由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自

21、由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布(图示),不同自由度的F分布,F 分布(用Excel计算F分布的概率),利用Excel提供的FDIST统计函数,计算分布右单尾的概率值其语法为FDIST(x,df1,df2),其中x是随机变量的取值,df1为分子自由度,df2为分母自由度给定分子自由度df1、分母自由度df2和统计量取值的右尾概率,也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,统计量的取值大于2.5的概率,用Excel计算F分布的概率,F 分布(用Excel计算

22、F分布的临界值),利用Excel提供的FINV统计函数,计算分布右单尾的概率值为的临界值其语法为FINV(,df1,df2),其中df1为分子自由度,df2为分母自由度给定分子自由度、分母自由度df2和分布右尾概率为的临界值也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,F分布右尾概率为0.05的临界值,用Excel计算F分布的临界值,F 分布(用Excel生成F分布的临界值表),第一步:在B1单元格输入分布右尾概率的取值(如=0.05),在第2行输入分子自由度df1的 值,在第1列输入分母自由度df2的值第二步:在B2单元格输入公式“=CHIINV(B$1,$A2)”然后

23、将其向下、向右复制即可,用Excel生成F分布的临界值表,F 分布(用Excel绘制F分布图),第1步:在工作表的第1列A2:A62输入一个等差数列,初始 值为“0”,步长为“0.1”,终值为“6”第2步:在单元格B1输入分子自由度(如“10”),在单元格D1输 入分母自由度(如“15”)第3步:在单元格B2输入公式“=FDIST(A2,$B$1,$D$1)”,并 将其复制到B3:B62区域第4步:在单元格C2输入公式“=(B2-B3)*10”,并将其复制到 C3:C62区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“图表向导”绘制折线图,用Excel绘制F分布图,F 分布(用Excel绘制F分布图),本章小结,概率抽样方法总体分布、样本分布、抽样分布单总体参数推断时样本统计量的分布双总体参数推断时样本统计量的分布,结 束,THANKS,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号