《区间估计及运算.ppt》由会员分享,可在线阅读,更多相关《区间估计及运算.ppt(95页珍藏版)》请在三一办公上搜索。
1、第四节 区间估计的计算与原理,一、两种主要的估计方法点估计是指根据抽取到的具体样本数据,代入估计量得到的一个估计值。区间估计是在点估计的基础上估计出总体参数一个可能的范围,同时还给出总体参数以多大的概率落在这个范围之内。,二、为什么要区间估计呢?在上述警察逮捕人数的例子中,你计算得出均值为15.6人,你的上司可能会问,这一均值的确是15.6吗?你的回答将是不知道。但是,你的计算告诉你,这一均值的最优估计值是15.6。你的上司可能又会问了,15.6这一估计值到底有多好?也就是说,这一均值估计量包含多大的误差?,回答上述问题的一个办法是抽取很多的样本,计算每一个样本的均值,然后向上司展示均值估计量
2、的变化范围。不过,这种办法显得有些笨。如果你想把这一问题处理得更加高明些,你就应该计算所有样本均值的平均误差。均值的标准差有一个专门的名称:均值标准误差。,关于区间估计设 为总体x 的未知参数,为来自总体的容量为n的简单随机样本,对于预先给定的一个充分小的正数,我们构造两个统计量:,使得,则称区间 为总体参数 的区间估计或置信区间。称为置信区间的置信度,也称置信概率、置信系数或置信水平,称为置信下限,称为置信上限。,三、置信区间的含义若独立地反复多次抽取容量相同的简单随机样本,每一个样本都确定一个随机区间,在这些区间中,包含总体参数 真值的约占,或者说有 的随机区间 会包含总体参数 的真值。例
3、如,若,独立地反复抽取容量相同的简单随机样本1000次,在得到的1000个随机区间中,不包含总体参数 真值的大约有50个。,四、简单随机抽样和等距抽样的参数估计,(一)总体均值的置信区间和参数估计总体均值的区间估计根据已知条件不同,有不同的计算方法。1.从正态总体中抽取样本,且总体方差已知,均值的区间估计,1.从正态总体中抽取样本,且总体方差已知,均值的区间估计(1)重复抽样的条件下设,已知,为来自总体的容量为n的简单随机样本,则 的抽样分布为,在重复抽样的方式下,总体均值的置信度为1-的置信区间为,其中,是标准正态分布水平的双侧分位数。,例一:假设参加某种寿险投保人的年龄服从正态分布,标准差
4、为=7.77岁。从中抽取36人组成一个简单随机样本(重复抽样),其平均年龄为39.5岁,试建立投保人平均年龄的90%的置信区间。,解 假设用随机变量X表示某种寿险投保人的年龄,则由已知条件有,n=36。与置信度90%相对应的=0.10,查表,得到,由公式,得,总体均值的置信度为90%的置信区间为 于是可以说,我们有90%的把握确信,寿险投保人总体的平均年龄介于37.37到 41.63岁之间。,1.从正态总体中抽取样本,且总体方差已知,均值的区间估计(2)在不重复抽样的条件下,置信区间为,例2 一家食品公司,每天大约生产袋装食品若干,总体方差为100。为对产品质量进行检测,该企业质检部门采用抽样
5、技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如下表所示:,已知产品重量服从正态分布,且总体方差为100。试估计该批产品平均重量的置信区间,置信水平为95。,解 已知=10;n=25;1-=59%;=1.96根据样本资料,计算的样本均值为:根据公式得=105.361.96,即105.363.914115=(101.4459,109.2741),该批产品平均重量在95置信水平下的置信区间为:101.4459109.2741。,2.正态总体,大样本,若总体方差 未知,可用样本标准差S代替。能够把公式写
6、出来吗?重复抽样:?不重复抽样:?,例三:假设参加某种寿险投保人的年龄服从正态分布。从中抽取36人组成一个简单随机样本(重复抽样,年龄数据见下页表),试建立投保人平均年龄的90%的置信区间。,解:已知n=36,1-=90%;1.645,由于总体方差未知,但为大样本,故可用样本方差代替。根据样本资料计算的样本均值和样本标准差为:,则置信区间为:即39.52.13=(37.37,41.63),投保人平均年龄在90的置信水平下的置信区间为37.37岁41.63岁。,3.正态总体、小样本情况下,总体方差未知,总体均值的估计(重复抽样条件下)(不重复抽样条件下),如果总体服从正态分布,只要总体方差已知,
7、即使在小样本情况下,也可以计算总体均值的置信区间。如果总体方差未知,需用样本方差代替,在小样本情况下,应用t分布来建立总体均值的置信区间。t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。随着自由度的增大,t分布逐渐趋于正态分布。,4.非正态总体且大样本时,均值的区间估计 首先,当总体为非正态分布时,只要样本容量充分大(一般习惯上要求n=30),的抽样分布近似服从正态分布。当 已知时,仍可用上述公式,根据重复抽样与否,近似求出总体均值的置信区间;,其次,当未知时,只要将上述公式中的总体标准差用样本标准差S代替,就可近似得到总体均值的置信区间:(重复抽样条件下)(不重复抽样条件下)
8、,例 为了解居民用于服装消费的支出情况(非正态分布),随机抽取90户居民组成一个简单随机样本(重复抽样),计算得样本均值为810元,样本标准差为85元,试建立该地区每户居民平均用于服装消费支出的95%的置信区间。,解 假设用随机变量X表示居民的服装消费支出,本题虽然总体分布未知,但由于n=90,是大样本且未知,所以可利用公式近似得到总体均值的置信区间。根据题意,元,元,n=90,与置信度95%相对应的=0.05,查表得到:,将这些数据代入公式,便可得到总体均值的置信度为95%的置信区间为,于是,我们有95%的把握认为,该地区每户居民平均用于服装消费的支出大约介于792.44元到827.56元之
9、间。,总体均值的区间估计(置信度为1-)简单随机抽样和等距抽样,总体均值的区间估计(置信度为1-)简单随机抽样和等距抽样,四、简单随机抽样和等距抽样的参数估计,(二)两个总体均值之差的区间估计间1两正态总体方差已知时,且大样本,的区间估计因此,两个总体均值差 的置信度为1-的置信区间为:,如果两个总体方差,未知,则可利用,代替两个总体方差即可。下述公式可近似求出两个总体均值差 的置信度为1-的置信区间。,四、简单随机抽样和等距抽样的参数估计,(二)两个总体均值之差的区间估计间2两正态总体方差未知但相等时,的区间估计(小样本),当两个正态总体方差未知但相等,即,且 未知时,这时两个样本均值之差(
10、)的抽样分布为,所以因为 未知,则用共同方差 的合并估计量,两个总体均值差 的置信度为1-的置信区间为其中,是水平的自由度为 的t分布双侧分位数。,例题:,某公司为了解男女推销员的推销能力是否有差别,随机抽取16名男推销员和25名女推销员进行测试。男推销员的平均销售额为30250元,标准差为18400元,女推销员的平均销售额为33750元,标准差为13500元。假设男女推销员的销售额服从正态分布,且方差相等。试建立男女推销员销售额之差的95%的置信区间。,解 假设用随机变量,分别表示男女推销员的销售额,则由已知条件有 元,元,元,元,。又因两总体方差相等,可以估计出它们的共同方差:,与置信度9
11、5%相对应的=0.05,查t 分布表,得到,由公式得男女推销员销售额之差的置信度为95%的置信区间为,于是,我们有95%的把握认为:男推销员的销售额既有可能比女推销员多6568元,也有可能比女推销员少13568元,所以男女推销员的推销能力没有显著差别。,四、简单随机抽样和等距抽样的参数估计,(二)两个总体均值之差的区间估计间3两正态总体方差未知但不等时,的区间估计(小样本),当两正态总体方差未知但不等时,即,未知,且两者不相等时,统计量近似服从于自由度为v的t分布,其中v的计算公式如下,于是,两个总体均值差 的置信度为1-的置信区间为,例题:,某公司为了解男女推销员的推销能力是否有差别,随机抽
12、取16名男推销员和25名女推销员进行测试。男推销员的平均销售额为30250元,标准差为18400元,女推销员的平均销售额为33750元,标准差为13500元。假设男女推销员的销售额服从正态分布,且方差不相等。试建立男女推销员销售额之差的95%的置信区间。,解 首先根据公式计算自由度v,,查t分布表,得到,由公式得男女推销员销售额之差的置信度为95%的置信区间为,于是,我们有95%的把握认为:男推销员的销售额既有可能比女推销员多7434元,也有可能比女推销员少14434元,所以男女推销员的推销能力没有显著差别。,四、简单随机抽样和等距抽样的参数估计,(二)两个总体均值之差的区间估计间4两非正态总
13、体且大样本时,的区间估计,如果两个总体方差,已知,则可利用公式下述公式近似求出两个总体均值差 的置信度为1-的置信区间。,如果两个总体方差,未知,则可利用,代替两个总体方差即可。下述公式可近似求出两个总体均值差 的置信度为1-的置信区间。,四、简单随机抽样和等距抽样的参数估计,(三)一个总体比例的区间估计,在许多实际应用中,经常会遇到总体比例的估计问题。例如:企业的管理人员想了解一批产品中次品的比例;职工收入中工资外收入所占的比例;某高校学生参加英语四级考试的通过率;某地区绿化荒山新栽树木的成活率等。,在总体中具有某种特征的单位数占总体全部单位的比例称为总体比例,记为p;在样本中具有某种特征的
14、单位数占样本全部单位的比例称为样本比例,记为。在大样本条件下,样本比例 的抽样分布近似服从正态分布,其数学期望为,方差为 即,1.在大样本情况下,且总体比例已知,重复抽样。则总体比例P的置信度为1-的置信区间为,需要说明:在实际应用中,除了要求N=30以外,还要求 和,且,这时近似效果较好。,2.在大样本情况下,且总体比例未知,重复抽样。则总体比例P的置信度为1-的置信区间为,例题:,在对某地区1000名下岗工人的调查中发现,女工所占的比例为65%。试建立在下岗工人中,女工所占比例的95%的置信区间。能否作出下岗工人中女性所占比例超过男性的结论?,解 假设用p表示下岗工人中女工所占的比例,则由
15、已知条件可知,样本比例。因为,所以 的抽样分布近似服从正态分布。,对于=0.05,查表得。应用公式得到在下岗工人中,女工所占比例的置信度为95%的置信区间为,于是,我们有95%的把握认为,下岗工人中女工所占比例大约在0.62到0.68之间,超过了0.5,所以可以得出女性所占比例超过男性的结论。,3.如果总体为有限总体,采用不重复抽样,且抽样比 时,的抽样分布的方差要用修正系数 加以修正,这时总体比例p(未知时)的置信度为1-的置信区间为,例 某地区有20所高等院校,有副教授以上职称的教师7800名。高校的管理部门想了解具有高级职称的教师中有基础研究课题的教师占多大的比例,于是抽取400人组成一
16、个随机样本(不重复抽样)。经调查,其中80人有基础研究课题。试建立在具有副教授以上职称的教师中,有基础研究课题的教师所占比例的95%的置信区间。,解 假设用p表示在具有副教授以上职称的教师中,有基础研究课题的教师所占的比例,则由已知条件可知N=7800,n=400,样本比例=80/400=0.2,=0.05,。因为,所以 的抽样分布近似服从正态分布。,所以 的抽样分布近似服从正态分布。又因为抽样比大于5%,所以要对 的抽样分布的方差加以修正。应用公式得到在具有副教授以上职称的教师中,有基础研究课题的教师所占比例的95%的置信区间为,于是我们有95%的把握认为,该地区20所高校具有副教授以上职称
17、的教师中,有()到()的教师有基础研究课题。,四、简单随机抽样和等距抽样的参数估计,(四)一个正态总体方差的区间估计 为来自总体的容量为n的简单随机样本,未知,s为样本标准差。,总体标准差的置信度为1-的置信区间为,因此,总体方差 的置信度为1-的置信区间为,例 假设公司预计的每股收益率服从正态分布,现有8个公司组成一个简单随机样本,样本方差为2.619,试建立总体方差、总体标准差的95%的置信区间。,五、分层抽样和整群抽样的参数估计严格地讲,分层抽样与整群抽样的参数估计与简单随机抽样没有本质区别。只不过在计算方差时存在着不同。,第五节 样本容量的确定,我们应该一直有这样的疑问:我们学习了问卷
18、的设计、调查方法的选择、数据的描述、数据的整理以及参数估计的有关问题。但是,如何进行调查呢?或者说选择多少样本呢?或者说需要选择多少个被调查者呢?,第五节 样本容量的确定,这就涉及到我们今天要学的内容:样本容量的确定。,第五节 样本容量的确定,这就涉及到我们今天要学的内容:样本容量的确定。,一、影响样本容量的因素(一)置信度,也即总体参数真值落在置信区间内的可靠程度。要求较高的置信度,就需要较大的样本容量,置信度越高,样本容量就越大。,一、影响样本容量的因素(二)估计的精度,也即置信区间的宽度。要求较高的置信度,就会扩大置信区间的宽度,也就是说降低了估计的精度。因此,要想既提高估计的精度,又不
19、降低估计的可靠性程度,必须增加样本容量。,一、影响样本容量的因素(三)建立置信区间的费用。虽然增加样本容量可以提高置信区间的可靠性程度和估计的精度,但也不是样本容量愈大愈好。因为增加样本容量,就会延长调查时间,增大工作量和成本费用,同时还可能增大调查误差。,二、估计总体均值时,样本容量的确定 对于正态总体,在重复抽样或抽样比n/N5%时,总体均值的置信度为1-的置信区间为,二、估计总体均值时,样本容量的确定记,称为允许误差,它表示总体均值与样本均值 的绝对误差不超过。于是,可以推出样本容量的计算公式为,1样本容量n与置信度所对应的标准正态分布的双侧分位数 的平方成正比。置信度愈高,要求样本容量
20、就愈大。2样本容量n与总体方差 成正比。总体方差愈大,要求样本容量就愈大。3样本容量n与允许误差成反比。增大允许误差,也就是扩大置信区间的宽度,降低估计的精度,可以减少样本容量。,例 流水线上的装配工人安装一个零件平均所需时间为15分钟,标准差为3分钟。如果要求置信度为99%,估计的误差不超过20秒钟,应抽取多少工人作样本。,解 根据题意,允许误差 分,标准差=3分,=0.01,由公式得(人),即应抽取540名工人作为样本。,如果是有限总体不重复抽样,这时允许误差为,于是样本容量的计算公式为,例 流水线上的装配工人(该厂共有800明工人)安装一个零件平均所需时间为15分钟,标准差为3分钟。如果
21、要求置信度为99%,估计的误差不超过20秒钟,应抽取(不重复抽样)多少工人作样本。,即应抽取323名工人作为样本。计算结果表明,不重复抽样条件下的样本容量要小于重复抽样条件下的样本容量,也就是说,不重复抽样的成本低、效率高。,三、估计总体比例时样本容量的确定对于正态总体,在重复抽样或抽样比n/N5%时,,例 根据历史资料,天津市的人口出生率大约为10,如果要求相对误差不超过10%,置信度为95%,应抽取多少人作样本。,解 根据题意,总体比例为p=0.01,相对误差为10%,所以允许误差为=1010=1=0.001,=0.05,代入公式,得,如果是有限总体不重复抽样,这时允许误差为 于是样本容量的计算公式为,