《参数估计》PPT课件.ppt_三一办公31ppt.com

资源描述

《《参数估计》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《参数估计》PPT课件.ppt（75页珍藏版）》请在三一办公上搜索。

1、统计推论,统计推论就是根据局部资料（样本资料）对总体的特征进行推断。统计推论所要介绍的是如何正确处理样本和总体之间的数量关系，从而实现从样本正确推论到总体。统计推论的理论基础是概率论。,统计推论的特点：,1.由于样本资料来源于总体，因此，样本资料的特性在某种程度上能反映总体的特性。2.由于社会资料的随机性，抽样的结果不是唯一的，一次抽样结果不一定恰好就等于总体结果，而且当总体参数未知时，即便等于，我们也不知道。,统计推论分为两大类：,1.参数估计，即通过样本对总体的未知参数进行估计。2.假设检验，即通过样本对总体的某种假设进行检验。,参数估计与假设检验的逻辑区别,参数估计，通俗的讲，就是根据抽

2、样结果来合理地、科学地猜一猜总体的参数大概是多少？或者在什么范围?参数估计的逻辑是先看样本的情况，再问总体的情况。假设检验：先假设总体的情况，再以一个随机样本的统计值来检验这个假设是否正确。换言之，要先构思总体情况，才进行抽样和分析样本的资料。,参数估计有两种做法,点值估计（或称点估计）；间距估计（或称区间估计）。二者都要求样本是以随机方法抽取的。,点值估计，就是根据样本资料以一个最适当的样本统计值来代表总体的参数值。优缺点：简单明确，但不能说明估计结果的抽样误差和把握程度。点估计是区间估计的基础。,点估计的基本含义,一、总体参数的点估计公式,1.样本均值2.样本方差3.样本成数即用样本的，

3、作为总体的参数的点估计值。,例1.根据抽样调查，以下是8名同学“社会统计学”考试得分,求：总体的均值、方差、标准差的点估计值。,解：,根据抽样调查，可以求出样本X，样本S2和样本S。因此，总体均值的点估计值为74；方差的点估计值为8.29，标准差的点估计值为2.88。,例2：,工会为了解春游期间需租用几辆公共汽车，在全厂10000名职工中进行了共100人的简单随机抽样调查。统计结果，其中有20名愿意外出春游。设每辆可载乘客50名，问估计要预备多少辆公共汽车？,解：根据抽样调查愿意外出春游的样本成数为：,以P作为愿意外出春游总体成数的点估计，则全厂估计将有：100000.2=2000人参加春游，

4、又因每辆公共汽车可容乘客50人，因此有：辆，即估计预租40辆公共汽车，可满足全厂春游的需要。,回答问题：第一，我们为什么以这一个而不是那一个统计量来估计某个总体参数？,第二，如果有两个以上的统计量可以用来估计某个总体参数，其估计结果是否一致？是否一个统计量要优于另一个？,估计值的衡量标准：无偏性、有效性、一致性,二、衡量点估计值好坏的标准,设为待估计的总体参数，为样本统计量，则的优良标准为：,若，则称为比更有效的估计量（有效性）,若，则称为的无偏估计量（无偏性）,若越大越小，则称为的一致估计量（一致性）,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生，并计算平均分数

5、和中位分数。,有效性,中位数的抽样分布,平均数的抽样分布,有效性,有偏,无偏,无偏性,一致性,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出5名学生，并计算平均分数。,n=4时的抽样分布,n=5时的抽样分布,为的无偏、有效、一致估计量；为的无偏、有效、一致估计量；为的无偏、有效、一致估计量。,从估计值的优良标准看点估计,一、有关区间估计的几个概念,1.区间估计：就是以两个数值之间的间距来估计参数值。2.置信区间(可信间距)：两个数值之间的间距，称为置信区间。例：我们用作为未知参数Q的估计值，那么区间为区间的大小，反映了估计值的准确性,置信度(可信度)或称作置信概率或

6、置信系数，它表示用置信区间估计的可靠性，即置信区间内包含参数Q的概率。即：置信性水平()，它表示用置信区间估计不可靠的概率。置信度与显著性水平之和为1。,3.置信度与置信性水平,置位区间与置信度之间的关系,在样本容量一定情况下，置信区间和置信度是相互制约的。置信度愈大(即估计的可行性愈大)，则相应的置信区间也愈宽(估计的值愈不精确)，精确度越高，置信度愈小，置信区间愈窄。,包括总体均值的区间数为21个，占全部可能样本数35个的60%。,包括总体均值的区间数为33个，占全部可能样本数35个的94.29%。,二、正态总体的均值的区间估计,如果总体分布满足N(，2)，根据方差是否已知分为以下两种情况

7、：1总体方差（2)为已知根据抽样分布的讨论，统计量均值的标准分满足标准正态分布：,对于的双侧置信区间为：,置信度(把握度)为1-/2/2-Z/2 Z/2,有,当置信度为1-=0.95时，置信区间为：当置信度为1-=0.99时，置信区间为,0.6827,区间估计原理,落在范围内的概率为68.27%,0.9545,区间估计原理,落在范围内的概率为95.45%,0.9973,区间估计原理,落在范围内的概率为99.73%,以样本统计量为中心，以抽样平均误差为距离单位，可以构造一个区间，并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大，则概率保证程度越高。,区间估计原理,已知：,对于给定

8、的显著性水平，有：,抽样极限误差,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,（以估计为例）：,区间估计步骤,SE,E,由532名商业周刊订阅者组成的样本表明，其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时，求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则：该置信区间为：,正态总体均值的区间估计举例,例,某工厂妇女从事家务劳动时间服从正态分布N(，0.662)，根据36人的随机抽样调查，每天平均从事家务劳动时间为=2.65小时，求的双侧量信区间（置信度1-=0.95）。,解：,2总体方差（2）未知,当总体满足正态分布，但2 未知的情况

9、，统计量的标准分满足自由度为K=n-1的t分布,有,t=(n-1)/2/2,例：设某社区受教育程度服从正态分布(，2)，2 未知，根据25人的随机抽样调查，平均受教育年限和标准差S分别为11.5年和3.6年求的双侧置信区间,一、大样本总体均值的区间估计,式中：X为样本均值1-为置信度(可信度，把握程度)为显著性水平 s 为总体标准差的点估计值,为正态分布双侧区间的分位点,注意：,大样本区间估计公式不要求总体为正态分布。不要求总体方差 2(或)为已知量，由于样本容量n50，无论用或S，其分布都将是正态分布。,例：设某区受教育程度的总体分布，方差均未知，现进行了50人的抽样调查，得知均值=11.5

10、，S=3.6。,求置信度为0.99的双侧置信区间。解：依题意，总体分布形式未知，但样本容量n=50，所以可采用大样本区间估计公式,置信度1-=0.99，查表得有,二、总体成数(二项总体参数P)的估计,(一)总体成数P的点估计如果在样本容量为n的简单随机抽样中，对于所需研究的A共出现m次，则样本成数：=m/n,(二)大样本总体成数P的区间估计,例：设根据某地100户的随机抽查，其中有60户拥有电冰箱，求该地拥有电冰箱成数P的置信区间(置信区间为0.95),得所以该地拥有电冰箱成数P的置信区间(1-=0.95)为0.504,0.696 结论：根据抽样调查，该地拥有电冰箱的居民所占比例在0.50

11、4到0.696之间，这个估计的把握程度为95%。,三、大样本二总体均值差的区间估计,设：第一个总体的参数1，12第二个总体的参数2，22现从两个总体中独立地各抽取一个随机样本：来自第一总体的样本：X1，S12来自第二总体的样本：X2，S22于是样本均值差：-可以作为总体的均值差1-2 的点估计值。,X1-X2的分布也将趋向正态分布，它的数学特征为E()=1-2,当 12、22 未知的情况下，可用样本方差S12 和S22 代表：12S12，22 S22,例：为了解甲、乙两地中学生毕业成绩的差别，两地作了抽样调查，结果有：甲地：=520分，S1=40分，n1=800名乙地：=505分，S2=50分

12、，n2=1000名求置信度为0.95两地平均成绩差的区间。,解：根据题意,即两地平均成绩差估计在95%的把握程度下为10.845与19.16之间,四、大样本二总体成数差的区间估计,当样本分别满足n1P15，n2P25时，P1和P2都将趋向正态分布，因此P1-P2的分布也将趋向正态分布，它的数学特征为：E()=P1-P2,因此，大样本二总体成数差P1-P2,的区间估计公式为：,例：甲、乙两地各作1000户抽样调查。其中甲地拥有电视机825户，乙地拥有电视机为760户，求置信度为0.95两地电视机拥有成数差的置信区间。,带入区间估计公式,所以，置信度为0.95的两地拥有电视机成数差区间估计为：0.

13、03,0.1,数据类型,双样本,单样本,单样本？双样本？,定类（参数P）,单样本？双样本？,定距（参数）,单样本,双样本,样本容量,估计P值,样本容量,样本容量,样本容量,估计P1-P2值,估计值,估计1-2 值,区间估计总结,n是否为大样本,是否已知,是否正态总体,是否已知,用S 估计,用S 估计,增大样本容量到30以上,推断方法的选择总结(以均值为例）,五、积矩相关系数r（见课本114-115）,根据统计学家的推算，用下面的公式把r值转化为Z值，才会得到正态分布(注意：Z不同于Z),例：如果在随机样本中发现X与Y的积矩相关系数值是r=0.602，而样本的大小是N=150，则在总体中的相关系

14、数值是多少？(置信度为95%),则：,Z的区间估计值为Z-e，Z+e=0.6963-0.1617,0.6963+0.1617=0.5346,0.8580，查表附4 r的区间估计为：0.489R0.695,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,确定样本容量的意义,确定样本容量的准则,在能够付出的研究代价的限度内，选取最大的样本。此外，尚有两个准则可供参考：1.允许误差为多大？允许的误差愈小，要求样本愈大。2.研究个案之间的相互差异有多大？如果研究的个案之间的差异愈大，则

15、样本就要愈大。,一、均值估计必要抽样数目的确定,2不重复抽样,通常的做法是先确定置信度，然后确定抽样允许误差。,或 S 必须事先知道，但通常未知。一般按以下方法确定其估计值：a 以前类似样本的S；b 试验调查样本的S；c 四分之一估计全距。,计算结果通常向上进位,估计均值时的样本容量（以重复抽样为例）,E,E,例：某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪，并且希望抽样允许误差分别不超过500元和100元，样本容量应为多少？,二、成数必要抽样数目,2.不重复抽样,通常的做法是先确定置信度，然后确定抽样允许误差。,P 或 p 必须事先知道，但通

16、常未知。一般按以下方法确定其估计值：a 以前类似样本的p；b 试验调查样本的p；c 取p=0.5。,计算结果通常向上进位,估计成数时的样本容量（以重复抽样为例）,某网站一个由400名使用者组成的样本表明，该网站的使用者中26的使用者为女性。在95的置信度下，若希望将抽样极限误差控制在3，则样本容量应当为：,估计成数时的样本容量计算,例：调查一批机械零件的合格比率，依据过去资料，合格率曾有过99%，97%和95%三种情况，现要求允许误差不超过1%，要求推行把握程度为95%，问需抽查多少零件？,作业,1.某学校准备采用抽样调查了解学生平均每周用于文体活动的时间。置信度为99%，允许误差要求控制在1(小时)之内，求所需的样本容量？(已知=5小时)2.根据居民区100户的抽样调查，居民用于食品费用占总收入的比例，平均为75%，比例的标准误差为20%。求食品费用占居民总收入比例的区间估计（置信度为95%）。,3.根据某大学100名学生的调查，每月平均用于购买书籍的费用为4.5元，标准差为5元，求大学生每月用于购买书籍费用的区间估计（置信度为99%）。4.电视台为了解戏曲节目的收看率，拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果，误差不超过5%，置信度为0.95，求所需的样本容量？,

展开阅读全文