《《参数估计》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《参数估计》PPT课件.ppt(75页珍藏版)》请在三一办公上搜索。
1、统计推论,统计推论就是根据局部资料(样本资料)对总体的特征进行推断。统计推论所要介绍的是如何正确处理样本和总体之间的数量关系,从而实现从样本正确推论到总体。统计推论的理论基础是概率论。,统计推论的特点:,1.由于样本资料来源于总体,因此,样本资料的特性在某种程度上能反映总体的特性。2.由于社会资料的随机性,抽样的结果不是唯一的,一次抽样结果不一定恰好就等于总体结果,而且当总体参数未知时,即便等于,我们也不知道。,统计推论分为两大类:,1.参数估计,即通过样本对总体的未知参数进行估计。2.假设检验,即通过样本对总体的某种假设进行检验。,参数估计与假设检验的逻辑区别,参数估计,通俗的讲,就是根据抽
2、样结果来合理地、科学地猜一猜总体的参数大概是多少?或者在什么范围?参数估计的逻辑是先看样本的情况,再问总体的情况。假设检验:先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。换言之,要先构思总体情况,才进行抽样和分析样本的资料。,参数估计有两种做法,点值估计(或称点估计);间距估计(或称区间估计)。二者都要求样本是以随机方法抽取的。,点值估计,就是根据样本资料以一个最适当的样本统计值来代表总体的参数值。优缺点:简单明确,但不能说明估计结果的抽样误差和把握程度。点估计是区间估计的基础。,点估计的基本含义,一、总体参数的点估计公式,1.样本均值2.样本方差3.样本成数 即用样本的,
3、作为总体的参数的点估计值。,例1.根据抽样调查,以下是8名同学“社会统计学”考试得分,求:总体的均值、方差、标准差的点估计值。,解:,根据抽样调查,可以求出样本X,样本S2和样本S。因此,总体均值的点估计值为74;方差的点估计值为8.29,标准差的点估计值为2.88。,例2:,工会为了解春游期间需租用几辆公共汽车,在全厂10000名职工中进行了共100人的简单随机抽样调查。统计结果,其中有20名愿意外出春游。设每辆可载乘客50名,问估计要预备多少辆公共汽车?,解:根据抽样调查愿意外出春游的样本成数为:,以P作为愿意外出春游总体成数的点估计,则全厂估计将有:100000.2=2000人参加春游,
4、又因每辆公共汽车可容乘客50人,因此有:辆,即估计预租40辆公共汽车,可满足全厂春游的需要。,回答问题:第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?,第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?,估计值的衡量标准:无偏性、有效性、一致性,二、衡量点估计值好坏的标准,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为的一致估计量(一致性),学生成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生,并计算平均分数
5、和中位分数。,有效性,中位数的抽样分布,平均数的抽样分布,有效性,有偏,无偏,无偏性,一致性,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出5名学生,并计算平均分数。,n=4时 的抽样分布,n=5时 的抽样分布,为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量。,从估计值的优良标准看点估计,一、有关区间估计的几个概念,1.区间估计:就是以两个数值之间的间距来估计参数值。2.置信区间(可信间距):两个数值之间的间距,称为置信区间。例:我们用作为未知参数Q的估计值,那么区间为 区间的大小,反映了估计值的准确性,置信度(可信度)或称作置信概率或
6、置信系数,它表示用置信区间估计的可靠性,即置信区间内包含参数Q的概率。即:置信性水平(),它表示用置信区间估计不可靠的概率。置信度与显著性水平之和为1。,3.置信度与置信性水平,置位区间与置信度之间的关系,在样本容量一定情况下,置信区间和置信度是相互制约的。置信度愈大(即估计的可行性愈大),则相应的置信区间也愈宽(估计的值愈不精确),精确度越高,置信度愈小,置信区间愈窄。,包括总体均值的区间数为21个,占全部可能样本数35个的60%。,包括总体均值的区间数为33个,占全部可能样本数35个的94.29%。,二、正态总体的均值的区间估计,如果总体分布满足N(,2),根据方差是否已知分为以下两种情况
7、:1总体方差(2)为已知 根据抽样分布的讨论,统计量均值的标准分满足标准正态分布:,对于的双侧置信区间为:,置信度(把握度)为1-/2/2-Z/2 Z/2,有,当置信度为1-=0.95时,置信区间为:当置信度为1-=0.99时,置信区间为,0.6827,区间估计原理,落在范围内的概率为68.27%,0.9545,区间估计原理,落在范围内的概率为95.45%,0.9973,区间估计原理,落在范围内的概率为99.73%,以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计原理,已知:,对于给定
8、的显著性水平,有:,抽样极限误差,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,(以估计 为例):,区间估计步骤,SE,E,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,正态总体均值的区间估计举例,例,某工厂妇女从事家务劳动时间服从正态分布N(,0.662),根据36人的随机抽样调查,每天平均从事家务劳动时间为=2.65小时,求的双侧量信区间(置信度1-=0.95)。,解:,2总体方差(2)未知,当总体满足正态分布,但2 未知的情况
9、,统计量的标准分满足自由度为K=n-1的t分布,有,t=(n-1)/2/2,例:设某社区受教育程度服从正态分布(,2),2 未知,根据25人的随机抽样调查,平均受教育年限和标准差S分别为11.5年和3.6年求的双侧置信区间,一、大样本总体均值的区间估计,式中:X为样本均值1-为置信度(可信度,把握程度)为显著性水平 s 为总体标准差的点估计值,为正态分布双侧区间的分位点,注意:,大样本区间估计公式不要求总体为正态分布。不要求总体方差 2(或)为已知量,由于样本容量n50,无论用或S,其分布都将是正态分布。,例:设某区受教育程度的总体分布,方差均未知,现进行了50人的抽样调查,得知均值=11.5
10、,S=3.6。,求置信度为0.99的双侧置信区间。解:依题意,总体分布形式未知,但样本容量n=50,所以可采用大样本区间估计公式,置信度1-=0.99,查表得有,二、总体成数(二项总体参数P)的估计,(一)总体成数P的点估计 如果在样本容量为n的简单随机抽样中,对于所需研究的A共出现m次,则样本成数:=m/n,(二)大样本总体成数P的区间估计,例:设根据某地100户的随机抽查,其中有60户拥有电冰箱,求该地拥有电冰箱成数P的置信区间(置信区间为0.95),得 所以该地拥有电冰箱成数P的置信区间(1-=0.95)为0.504,0.696 结论:根据抽样调查,该地拥有电冰箱的居民所占比例在0.50
11、4到0.696之间,这个估计的把握程度为95%。,三、大样本二总体均值差的区间估计,设:第一个总体的参数1,12第二个总体的参数2,22现从两个总体中独立地各抽取一个随机样本:来自第一总体的样本:X1,S12来自第二总体的样本:X2,S22于是样本均值差:-可以作为总体的均值差1-2 的点估计值。,X1-X2的分布也将趋向正态分布,它的数学特征为E()=1-2,当 12、22 未知的情况下,可用样本方差S12 和S22 代表:12S12,22 S22,例:为了解甲、乙两地中学生毕业成绩的差别,两地作了抽样调查,结果有:甲地:=520分,S1=40分,n1=800名乙地:=505分,S2=50分
12、,n2=1000名求置信度为0.95两地平均成绩差的区间。,解:根据题意,即两地平均成绩差估计在95%的把握程度下为10.845与19.16之间,四、大样本二总体成数差的区间估计,当样本分别满足n1P15,n2P25时,P1和P2都将趋向正态分布,因此P1-P2的分布也将趋向正态分布,它的数学特征为:E()=P1-P2,因此,大样本二总体成数差P1-P2,的区间估计公式为:,例:甲、乙两地各作1000户抽样调查。其中甲地拥有电视机825户,乙地拥有电视机为760户,求置信度为0.95两地电视机拥有成数差的置信区间。,带入区间估计公式,所以,置信度为0.95的两地拥有电视机成数差区间估计为:0.
13、03,0.1,数据类型,双样本,单样本,单样本?双样本?,定类(参数P),单样本?双样本?,定距(参数),单样本,双样本,样本容量,估计P值,样本容量,样本容量,样本容量,估计P1-P2值,估计值,估计1-2 值,区间估计总结,n是否为大样本,是否已知,是否正态总体,是否已知,用S 估计,用S 估计,增大样本容量到30以上,推断方法的选择总结(以均值为例),五、积矩相关系数r(见课本114-115),根据统计学家的推算,用下面的公式把r值转化为Z值,才会得到正态分布(注意:Z不同于Z),例:如果在随机样本中发现X与Y的积矩相关系数值是r=0.602,而样本的大小是N=150,则在总体中的相关系
14、数值是多少?(置信度为95%),则:,Z的区间估计值为Z-e,Z+e=0.6963-0.1617,0.6963+0.1617=0.5346,0.8580,查表附4 r的区间估计为:0.489R0.695,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,确定样本容量的意义,确定样本容量的准则,在能够付出的研究代价的限度内,选取最大的样本。此外,尚有两个准则可供参考:1.允许误差为多大?允许的误差愈小,要求样本愈大。2.研究个案之间的相互差异有多大?如果研究的个案之间的差异愈大,则
15、样本就要愈大。,一、均值估计必要抽样数目的确定,2不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。,或 S 必须事先知道,但通常未知。一般按以下方法确定其估计值:a 以前类似样本的S;b 试验调查样本的S;c 四分之一估计全距。,计算结果通常向上进位,估计均值时的样本容量(以重复抽样为例),E,E,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样允许误差分别不超过500元和100元,样本容量应为多少?,二、成数必要抽样数目,2.不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。,P 或 p 必须事先知道,但通
16、常未知。一般按以下方法确定其估计值:a 以前类似样本的p;b 试验调查样本的p;c 取p=0.5。,计算结果通常向上进位,估计成数时的样本容量(以重复抽样为例),某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,估计成数时的样本容量计算,例:调查一批机械零件的合格比率,依据过去资料,合格率曾有过99%,97%和95%三种情况,现要求允许误差不超过1%,要求推行把握程度为95%,问需抽查多少零件?,作业,1.某学校准备采用抽样调查了解学生平均每周用于文体活动的时间。置信度为99%,允许误差要求控制在1(小时)之内,求所需的样本容量?(已知=5小时)2.根据居民区100户的抽样调查,居民用于食品费用占总收入的比例,平均为75%,比例的标准误差为20%。求食品费用占居民总收入比例的区间估计(置信度为95%)。,3.根据某大学100名学生的调查,每月平均用于购买书籍的费用为4.5元,标准差为5元,求大学生每月用于购买书籍费用的区间估计(置信度为99%)。4.电视台为了解戏曲节目的收看率,拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果,误差不超过5%,置信度为0.95,求所需的样本容量?,