《第7章抽样和抽样分布.ppt》由会员分享,可在线阅读,更多相关《第7章抽样和抽样分布.ppt(63页珍藏版)》请在三一办公上搜索。
1、1,第七章 抽样和抽样分布,学习目标掌握简单随机抽样方法。了解点估计的基本方法。掌握样本均值和样本比例的抽样分布,2,习 题,1.P210-15 4.P220-292.P219-19 5.P221-323.P220-25 6.P225-43,3,案例讨论:1.阅读本案例时,你抓住了其中哪些重要内容?2.阅读完本案例你的最大收获是什么?,4,第一节 新烽电子公司公司抽样问题的案例,问题:新烽电子公司的人事部门经理要拟订一份公司2500名经理的简介。内容包括经理们的平均年薪和已完成公司培训计划的经理所占比例。,5,背景:假定这项工作已经做完,获取总体的信息包括:(1)总体的平均年薪为51800元(
2、2)有1500名经理完成了培训计划,6,事件:人事部门经理不想用全面调查而是抽样的方法,从2500名经理中抽取30名来估计总体信息。分析:以下内容将围绕这一案例的分析、解决展开。,7,第二节 简单随机抽样,简单随机抽样(Simple random sampling)是最常用的一种抽样方法。它的定义和样本抽取程序取决于总体是有限总体还是无限总体。,8,一、有限总体抽样,(一)有限总体的含义 可以列出或计数总体中所有元素(单位)的总体称为有限总体。,9,一、有限总体抽样,(二)简单随机样本定义 从容量为N的有限总体中进行抽样,如果容量为n的每个可能样本被抽到的机会相同,我们称容量为n的样本为简单随
3、机样本。,10,(三)抽样方法1.无放回抽样 无放回抽样(Sampling without replacement)一个元素一旦选入样本,就从总体中剔除,不能再次被选入。例7.1 在新烽电子公司的问题中,用无放回抽样方法抽取样本。,11,分析:在此问题中,N=2500,n=30。用无放回抽样方法抽取样本的方法步骤如下:(1)抽样的准备工作第一步:将2500名新烽电子公司经理编号1,2,3,2499,2500。第二步:将每个号码写在大小相等的纸片上,并揉成均匀的球状。第三步:每个纸球放入圆形容器中摇匀。,12,(2)具体抽样 第一步:从2500个纸球中随机抽取1个,做好编号记录,然后将其放在一边
4、。第二步:从剩下的2499个纸球中再抽取另1个,做好记录后再放在一边。第三步:以此类推,直至抽够30个为止。由此就构成一个无放回抽样的简单随机样本。,13,2.放回抽样 放回抽样(Sampling with replacement)一个元素一旦选入样本,仍被放回总体中。先前被选入的元素可能再次被选,并且在样本中可能出现多次(多于一次)。例7.2 在新烽电子公司问题中,用放回抽样方法抽取样本。,14,分析:抽样的准备工作同无放回抽样。具体抽样:第一步:从2500个纸球中随机抽取第1个,做好编号记录,然后将其放回总体参加下一次抽选。第二步:从2500个纸球中再随机抽取第2个,做好编号记录,然后将其
5、放回总体参加下一次抽选。第三步:以此类推,直至抽够30个为止。,15,最常用的抽样方法是无放回抽样。以后,只要提到简单随机抽样,就假定是无放回抽样。,16,(四)利用随机数表抽取元素(见附录B表8,P474)例7.3 在新烽电子公司问题中,利用随机数表抽取元素组成无放回抽样简单随机样本。见教科书P205。,17,最终抽取结果,1599 1102 1514 1807 1458 1355 1508 1041 2003 0637 1976 1665 1022 0246 0671 2245 2162 1861 0483 0378 1318 1900 0290 0127 0493 0644 0157 2
6、295 2069 2375,18,每500个元素中被抽中的个数1500,7个5001000,3个10001500,6个15002000,8个20002500,6个,19,(五)从容量为N的总体中抽取n个元素作为一个简单随机样本所产生不同样本的个数(不考虑顺序的无放回抽样),M:有可能产生的样本个数。,20,例7.4计算从容量为10的总体中抽取3个元素作为一个简单随机样本所产生不同样本的个数。,21,二、无限总体抽样,(一)无限总体的含义 无法列出或计数总体中所有元素(单位)的总体称为无限总体。,22,二、无限总体抽样,(二)无限总体简单随机样本定义 满足下面条件的样本称为无限总体简单随机样本:
7、(1)每个个体都来自同一个总体。(2)每个个体被抽取是相互独立的。,23,例如:我们要估计上午11:30到下午1:30午餐期间,顾客在某快餐店从订购到拿到食物的平均时间。分析:总体是午餐期间所有可能来的顾客。这一总体就是一个无限总体。其中,我们的任务就是从这个总体中抽取n名顾客组成一个简单随机样本。,24,某快餐店抽样程序:将紧跟在用折扣优惠券购买食物顾客后面的那名顾客作为抽取的对象。这样,用折扣优惠券购买食物顾客是随机的,也是相互独立的。如此抽取的元素满足上述两个条件。,25,第四节 抽样分布,抽样分布(Sampling distribution)样本统计量所有可能值构成的概率分布。对于一个
8、容量为N的总体,抽取样本容量为n的样本数目可能有m个。每个简单随机样本都有一个样本均值和一个样本比例。这些样本均值构成的概率分布就称为 样本均值的抽样分布;这些样本比例构成的概率分布就称为样本比例的抽样分布。,26,第五节 的抽样分布,总体均值?,从总体中抽取一个容量为n的样本,计算出样本均值,推断,27,一、的期望值,(7.2),公式(7.2)说明,是 的无偏估计。,28,无偏性(Unbiasedness)点估计量的一个性质。点估计量的数学期望等于所估总体参数的值。,例如,在新烽电子公司问题中,新烽电子司经理年薪总体均值,所以根据公式(7.2)可以认为,所有可能样本均值的均值,二、的标准误差
9、,29,(一)无限总体的标准误差(放回抽样),(7.3),(二)有限总体的标准误差(无放回抽样),(7.4),30,31,(三)计算 的标准误差经验法则,只要满足以下两个条件之一:,1.总体是无限的。,2.总体是有限的,但,用 计算 的标准误差。,32,例7.5在新烽电子公司问题中,假定,求:,分析:由于抽样比,所以可以直接用 计算,33,730.3元的含义:在新烽电子公司抽样问题的案例中,2500名经理们年薪平均数,在样本容量为30的情况下,所有样本的均值与总体均值之差的平均数为730.3元。,34,三、中心极限定理,识别样本均值抽样分布特征的最后一步是确定概率分布的类型。在用样本均值推断总
10、体均值时会遇到以下两种情形:(1)总体分布未知;(2)总体分布已知且为正态分布。当总体分布未知时,我们要借助于中心极限定理。,35,中心极限定理(Central Limit theorem)从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布可以近似看成正态分布。参阅教材(P216图7.5)。,36,这一命题要解决的问题就是,根据抽样误差确定在一次抽样中,样本均值落在以总体均值为中心,左右分别小于(等于)和大于(等于)一个数据范围内的概率有多大。,四、抽样分布的实际值,37,样本均值抽样误差的概念,样本均值与总体均值之差的绝对值称作抽样误差(单个样本的抽样误差)。,38
11、,例7.6 在新烽电子公司问题中,假定人事部经理把样本均值落在总体均值左右各500元以内作为一个可接受的估计值。,那么,根据30名经理组成的简单随机样本得到的样本均值在总体均值左右500元以内的概率有多大呢?,分析:人事部经理需要了解的是,样本均值在5130052300元之间的概率有多大(总体均值为51800元)。,39,由于抽样分布是正态的,则我们可以通过标准化,利用标准正态分布表查出此概率,即,40,查标准正态分布表得(P452):,41,由于标准正态分布是对称分布的,所以当计算 时,,=0.2518+0.2518=0.5036,42,结论:上述计算结果表明,人事部经理有50.36%的把握
12、保证由30名新烽电子公司经理组成的样本,他们平均年薪在5130052300元之间。,43,图7.7 样本均值在总体均值左右500元范围之间的概率,44,五、样本容量与抽样分布之间的关系,由 公式可以看出,均值的标准误差与样本容量的平方根有关。即当样本容量增加时,均值的标准误差会减少。,例如,当n=30时,新烽电子公司问题均值标准误差为730.30,当样本容量增加到100 时,则新烽电子公司问题均值标准误差减少到,45,在 的情况下,由100名新烽电子公司经理组成的简单随机样本所得到样本均值落在总体均值左右500元之间的概率。,查标准正态分布表,46,由此,样本均值在5130052300元之间的
13、概率为:0.3944+0.3944=0.7888,图7.8 简单随机样本均值的抽样分布比较(样本由 和 名新烽电子公司经理组成),47,第六节 样本比例的抽样分布,在许多商务和经济领域中,决策人员还经常要用样本比例对总体比例进行统计推断。这一过程我们用图7.9来描述。,48,总体比例P=?,从总体中抽取容量为n的样本,计算样本比例p,推断,49,一、样本比例的期望值,公式(7.5)说明,p的所有可能取值的平均值等于总体比例 P。,例如,在新烽电子公司问题中,已经参加了公司管理培训计划的经理所占比例是0.60,因此,新烽电子公司抽样问题中的期望值p0.60。,(7.5),50,二、p的标准差,(
14、一)无限总体(7.6),(二)有限总体,(7.7),51,(三)计算样本比例标准差的经验法则,当抽样比 时,计算 用公式(7.7)。,例如,在新烽电子公司问题中,已经参加了公司管理培训计划的经理所占比例是0.60,因为,52,三、p的抽样分布的类型,利用中心极限定理判定p的抽样分布的类型。,当样本容量很大时,就可以将 p的抽样分布近似看成正态概率分布。,大样本容量的标准:,53,例如,在新烽电子公司问题中,由于,所以,可以将p的抽样分布近似看成正态概率分布,54,四、p的抽样分布的实际值,当抽取一个简单随机样本并用样本比例的值来估计总体比例P的值时,二者之间会有一定的抽样误差,即,55,例如,
15、在新烽电子公司问题中,人事部经理想知道样本比例在总体比例 的 范围之内的概率,即样本比例在0.55和0.65之间的概率是多少?,分析:由于可以把该抽样分布看成是均值为0.6,标准差为0.0894的正态分布,于是,的标准正态随机变量的值是,56,查标准正态概率分布表,和 之间的面积为0.2123。同样,当p=0.65时得到在 和 和 之间的面积也是0.2123。因此,57,第七节 其他抽样方案,一、分层抽样 分层抽样(Stratified simple random sampling)一种概率抽样方式,总体先分成层,然后从每层中抽取简单随机样本。好的分层标准是,尽可能使每一层内的个体比较接近。简
16、单随机分层抽样的价值取决于层内个体的同质性。如果层内个体之间很相似,那么层内的方差就会很小。此时,用相对小的样本容量就可以得到该层特征的良好估计。,58,二、整群抽样 整群抽样(Cluster sampling)一种概率抽样方式,总体先分成群,然后从中抽取一个或更多个群。对被抽中的所有个体进行全面调查。当群内个体是异质的,整群随机抽样会取得较好效果。,59,三、系统抽样 系统抽样(Systematic sampling)一种概率抽样方式,先将总体中所有个体按某种标志排队,然后将所有单位分成n个单位数相等的部分。每个部分包含K个单位()。先从第一个部分中随机抽取第一个样本单位,然后按相等间隔抽取
17、剩余所有样本单位。,60,四、方便抽样 方便抽样(Convenience sampling)一种非概率抽样方式,其中基于简便选择样本中的元素。确定样本时主要考虑到方便。某元素被选入样本事先并没有确定或者说被抽中的概率不知道。,61,例如,进行一项挨家挨户采访的方便抽样,样本可能包括家中有人的家庭、没有狗的家庭、在街道附近的家庭等。相反,进行随机抽样则要求研究者随机选择样本,而不论其是否在街道附近等。,62,五、判断抽样 判断抽样(Judgment sampling)一种非概率抽样方式,其中基于研究人员的判断选择元素为样本。研究人员通常认为他们能够根据合理的判断得到有代表性的样本,这既节约时间又节约成本。,63,例如,人们要对当前的经济形势有一个正确认识,他完全可以抽取他认为能够代表大多数经济学家观点的34名经济学家进行调查。,