《抽样理论及总体参数的估计.ppt》由会员分享,可在线阅读,更多相关《抽样理论及总体参数的估计.ppt(112页珍藏版)》请在三一办公上搜索。
1、第六章 抽样理论及总体参数的估计,昌吉学院(初等教育学院),第一节随机抽样的基本概念与方法,一、随机抽样的基本概念总体(Population)-要研究的事物或现象的总体。个体(Item unit)-组成总体的每个元素(成员)。总体容量(Population size)-一个总体中所含个体的数量。样本(Sample)-从总体中抽取的部分个体,样本容量(Sample size)-样本中所含个体的数量。抽样(Sampling)-为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程。统计量(Statistic)-由样本构造,用来估计总体参数的函数。统计量是样本的函数,只依赖于样本;统
2、计量不含任何参数。样本均值、样本方差等都是统计量。,二、随机抽样方法(1)简单随机抽样(Simple random sampling)完全随机地选取样本,要求有一个完美的抽样框或有总体中每一个个体的详尽名单。可以采取抽签或随机数字表的办法实现。(2)分层抽样(Reduced sampling)先将总体分成不同的“层”,然后,在每一“层”内进行简单随机抽样。可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。,(3)整群抽样(Cluster Sampling)在整群抽样中,总体首先被分成称作群的独立的元素组,总体中的每一元素属于且仅属于某一群。抽取一个以群为元素的简单随机样本,样本中的所有
3、元素组成样本。在理想状态下,每一群是整个总体小范围内的代表。(4)系统抽样(Systematic sampling)又称等距抽样。从前k个元素中随机选一个,然后在样本框中每隔一定距离抽取一个。,第二节 抽样分布,一、抽样分布的基本概念1、总体分布2、样本分布3、抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,从随机变量X中,随机抽取n个样本元素:x1、x2 xn 则f(x1、x2 xn)的统计量分布随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的
4、所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,样本平均数的抽样分布,1、样本均值X分布的含义采用随机抽样的方法,从总体中抽取大小为n的一个样本,计算出它的平均值X1,然后将这些个体放回总体去,再抽取n个个体,又可以计算出平均值X2,再将n个个体放回去,再抽取n个个体,如此可以计算出无限个X,这些样本均值X所有可能值的概率分布叫均值X的抽样分布.,设X1,X2,Xn为某总体中抽取的随机样本,X1,X2,Xn为相互独立,且与总体有相同分布的随机变量.(1)当总体为正态分布N(,2)时,X的抽样分布仍为正态分布,当越来越大时,X的离散程度越来越小,
5、即用X估计越准确。,(2)当总体的分布不是正态分布时,只要样本容量足够大时,样本均值的分布总是近似正态分布,此时要求总体方差2有限。假定总体均值为,方差为2,一个正态总体 X N(2)的情形,方差 2已知,的置信区间,解,得 的置信度为 的置信区间为,方差 2未知,的置信区间,由,确定,故 的置信区间为,推导 选取枢轴量,公式(2),第三节 总体参数的估计,概括地说:经常需要对总体进行估计的两个数字特征是:总体的均值和方差。如果将总体的均值和方差视为数轴上的两个点,这种估计称为点估计。如果要求估计总体的均值或方差将落在某一段数值区间,这种估计称为区间估计。,第三节 总体参数的估计,一、点估计1
6、.点估计 点估计:当总体参数不清楚时,用一个特定值(一般用样本统计量)对其进行估计,称为点估计。,用样本平均数估计总体平均数 样本平均数是总体均值的良好估计。公式:,用样本方差估计总体方差,同理,用样本标准差估计总体标准差,1、一个好的样本统计量估计总体参数的要求,无偏性 是指如果用多个样本的统计量作为总体参数的估计值时,有的偏大,有的偏小,而偏差的平均数为0,这时,这个统计量就是无偏估计量。一致性 是指当样本容量无限增大时,估计值应能越来越接近它所估计的总体参数。即:当N时,X,S2n-12。,有效性 是指当总体参数的无偏估计不止一个统计量时,无偏估计变异性小者有效性高,变异大者有效性低。充
7、分性 是指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息,这就是充分性。,二、区间估计 区间估计:是指用数轴上的一段距离表示未知参数可能落入的范围。,2、一个好的样本统计量估计总体参数的要求,无偏性 是指如果用多个样本的统计量作为总体参数的估计值时,有的偏大,有的偏小,而偏差的平均数为0,这时,这个统计量就是无偏估计量。一致性 是指当样本容量无限增大时,估计值应能越来越接近它所估计的总体参数。即:当N时,X,S2n-12。,有效性 是指当总体参数的无偏估计不止一个统计量时,无偏估计变异性小者有效性高,变异大者有效性低。充分性 是指一个容量为n的样本统计量,是否充分地反映
8、了全部n个数据所反映总体的信息,这就是充分性。,二、区间估计,1、总体均数的区间估计,有关区间估计的几个概念 置信区间:区间估计是求所谓置信区间的方法。置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。显著性水平:用置信区间来估计的不可靠程度。,区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性(即信度和效度)在区间估计中是相互矛盾的两个方面。,置信度(水平):用置信区间估计的可靠性(把握度)4抽样平均误差 与概率度 Z 抽样平均误差:样本均值抽样分布的标准差。反映在参数周围抽样平均值的平均变异程度。越大,样本均值越分散。,
9、显著性水平、置信水平、概率度之间的关系:=0.10时,=0.90,Z/2=1.65=0.05时,=0.95,Z/2=1.96=0.01时,=0.99,Z/2=2.58,从点估计值开始,向两侧展开一定倍数的抽样平均误差,并估计总体参数很可能就包含在这个区间之内。,设 为待估参数,是一给定的数,(01).若能找到统计量,使,置信区间或区间估计.,置信下限,置信上限,置信区间的定义,定义,反映了估计的可靠度,越小,越可靠.,置信区间的长度 反映了估计精度,越小,1-越大,估计的可靠度越高,但,确定后,置信区间 的选取方法不唯一,常选最小的一个.,几点说明,越小,估计精度越高.,这时,往往增大,因而估
10、计精度降低.,总体平均值的区间估计,(一)基本概念总体均值的区间估计,置信度,置信区间:日常用语表达:就是估计总体均值可能在什么范围之内。精确的数学语言表达:总体均值的区间估计就是确定总体均值将以特定概率落入其间的数值界限。这个特定概率称为置信度(或称显著性水平),用表示,这个数值界限称为置信界限,置信界限上下限之间的区间,称为置信区间。,求解步骤,(1)根据实际样本的数据,计算样本的平均数和标准差(2)计算标准误 a总体方差已知(查正态分布表)b总体方差未知(查t分布表)(3)确定置信区间(或显著性水平)(4)根据样本平均数的分布,确定查何种统计表(5)确定并计算置信区间(6)解释总体均数的
11、置信区间。,不同情况总体均值的区间估计,已知条件下,总体平均数的区间估计,(1)当总体已知,总体呈正态分布,大样本(n30)或小样本(n30)时(2)当总体已知,总体虽不呈正态分布,大样本(n30)时,样本平均数可以转换成标准记分。,两种类型,如果一个随机变量Z服从标准正态分布(=0,2=1的正态分布),那么 P-1.96Z1.96=0.95 P-2.58Z2.58=0.99,一个正态总体 X N(2)的情形,方差 2已知,的置信区间,公式(一)(1),解,得 的置信度为 的置信区间为,对总体参数进行区间估计的方法:,在置信区间X-1.96SEx,X+1.96SEx内,正确估计总体均值所在区间
12、的概率为0.95。但是,做这种区间估计不可能保证完全无误,估计错误的概率大约为0.05。,例题,例1、从某正态总体中抽取一个容量为25的样本,其平均数为42。已知总体的标准差为6,试估计总体平均数的置信度为0.95和0.99的置信区间,5、例题,已知某年某地区高考数学成绩的方差为100,从该地区随机抽得20名考生的数学成绩为:65、68、38、56、72、75、47、58、70、63、67、64、60、69、61、66、55、76、68、62,试求该地区这一年高考数学平均分95%和99%的置信区间。,同理,总体平均数99%置信区间为:,答:该地区这一年高考数学平均分95%和99%的置信区间分别
13、为58.62至67.38分之间和57.23至68.77分之间。由这些计算结果可以看到,置信区间与可靠度有关,可靠度要求越高,置信区间就越大,反过来,置信区间越大,则可靠度就越高,正确估计的把握就越大。,例 设某工厂妇女从事家务劳动服从正态分布,0.662,根据36人的随机抽样调查,样本每天平均从事家务劳动的时间为2.65小时,求 的置信区间(置信度=0.95)。解 按题意,此为大样本,且总体方差已知,又 36,2.65,0.66,0.95。查表得 1.96,代入公式有 2.65 1.96 2.65 0.22 因此,有95的把握,该厂妇女的平均从事家务劳动的时间在2.87 2.43小时之间。,课
14、堂练习,例,某弱智儿童学校的学生智力水平低于正常儿童,假设该校学生的智商分数遵从正态分布,抽查10名学生的智力水平,测得智商如下:85 70 90 81 72 75 80 82 76 79(1)试估计该校学生智商分数的平均值(2)如果知道该校学生智商分数的方差为25,试找出该校学生平均智商的置信区间。,课堂练习,已知总体为正态分布,=7.07,从总体中随机抽取n1=10和n2=36的两个样本,分别计算出样本1的平均数为78,样本2的平均数为79,试问总体参数的0.95和0.99置信区间。思考:两个结果之间有何差异性?,课堂练习,某班49人期末考试成绩的平均分为85分,标准差s=6,假设此项考试
15、能反映学生的学习水平,试推论该班学生学习的真实成绩分数。,未知条件下总体平均数的区间估计,1.未知条件下总体平均数区间估计的基本原理当总体未知,总体呈正态分布,大样本或小样本时当总体未知,总体虽不呈正态分布,大样本容量较大(n30)时,样本平均数可以转换成t值。,方差 2未知,的置信区间,由,确定,故 的置信区间为,推导 选取枢轴量,公式(2),求标准误计算标准误的公式为:样本n30则仍用正态分布。,平均数标准误的估计量有三种算法:,条件为:总体为正态分布,XN(,2),当总体方差2未知时,求总体平均值的置信区间步骤:由样本容量为n的随机变量X的值X1,X2,X3,Xn求出X,S,自由度df=
16、n-1;求出SEx=S/n-1;确定显著性水平,查t值分布表,找出临界值;,由于 P t=0.95,将公式t=(X-)/SEx代入上式,得:P(X-)/SEx=0.95 整理得:PX-SEx X+SEx=0.95 分别求出:X-Sn-1/n和X+Sn-1/n求出总体平均值的置信区间:X-SEx,X+SEx,课堂练习,例1:对某校学生的智商水平进行抽样测查,共测量了20名学生,所得智商分数如下:90,92,94,95,97,98,99,101,101,102,103,104,105,105,106,110,115,120,88,85。问该校学生平均智商分数在什么范围内?给出平均数和标准差:X=X
17、i/n=100.5 S2n-1=(Xi-X)2/(n-1)=76,总体平均数95%置信区间为:,总体平均数99%置信区间为:,课堂练习,某校对高中一年级学生进行英语水平测试,测试后从中抽取的9个考生的成绩为83、91、62、50、74、68、70、65、85,试对该年级考生的该次考试成绩均值作区间估计(取=0.05),2、小样本,且为正态总体,总体均值的区间估计(用 分布),例 在一个正态总体中抽取一个容量为25的样本,其均值为52,标准差为12,求置信水平为95的总体均值的置信区间。解 根据题意,总体方差未知,且为小样本,故用 分布统计量。由95置信水平查 分布表得概率度(24)2.064
18、代入公式得 522.064 525.06 因此,置信水平95的总体均值的置信区 间是从46.94到57.06。,例如:某年高考结束后从某地区随机抽取20名考生,计算得他们数学的平均分为63,标准差为8.922,试求该地区这一年高考数学平均分95%和99%的置信区间。,解:总体平均数95%置信区间为:,同理,总体平均数99%置信区间为:,答:该地区这一年高考数学平均分95%和99%的置信区间分别为58.72至67.28分之间和57.14至68.86分之间。,3.大样本的情况:首先看抽样分布如何,一般是t分布。但由t分布的性质可知,当样本容量比较大,自由度在逐渐增大,这时的t分布已经非常接近正态分
19、布。这时可把t分布转成标准正态分布来作处理。然后再作区间估计。这时临界值就不用查表获得。当显著水平定为95%时,就可以把1.96直接代入;同理,99%对应2.58。这时就得到所求估计区间。,未知,用 代替,例 从某校随机地抽取100名男学生,测得平均身高为170厘米,标准差为7.5厘米,试求该校学生平均身高95的置信区间。解 按题意,此为大样本,且总体方差未知,又 100,170,7.5,0.95查表得 1.96,代入公式有 1701.96 1701.47因此,有95的把握,该校学生的平均身高在168.5 171.5厘米之间。,方差2未知总体服从正态分布,XN(,2)用S2代替 2,建立区间估
20、计统计量,置信区间为:,n足够大,大于等于30时,也可用正态分布.,从某区小学五年级学生的数学推理测试成绩中随机抽取26个,求得其平均数为86分,标准差为。已知全区五年级学生的数学成绩服从正态分布,请以0.95置信度估计该区五年级数学推理测试成绩的置信区间,总体比率的区间估计,某种特征占全部单位的比例p,样本比例为 p,在大样本下(np5,nq5),可将二项分布变换为正态分布,总体比例p的置信区间:,随机抽取某校小学二年级学生40名用维克斯勒智力测试量表测量它们的智力水平,结果智商成绩在115分以上的有25名。试已0.95的可靠性估计全校二年级学生智力测验分数总体在110分以上者占总体比例的置
21、信区间。,第四节样本容量的确定,一、基本问题,确定n十分重要,n过大,增加费用,n过小误差增大。n的确定依赖于多大置信度(可靠性),什么样的精度(多宽的区间)。1、估计时 n的确定(总体标准差已知)正态总体或非正态总体但大样本时,置信区间为,(用样本均值估计时允许的最大绝对误差),已知某小学六年级数学成绩的标准差为10分。先从该校随机抽取一部分学生,要求有0.95的把握用这部分学生的数学成绩估计全校六年级平均成绩的差异不超过2分,那么最低抽取多少学生才能满足这一要求。,2、总体标准差未知,六年级学生英语成绩抽样调查,抽取一部分,总体标准差估计值。现要了解六年级学生英语成绩的平均水平,在0.99
22、的可靠性下,允许最大误差为3分,抽取的样本容量应多大。,样本容量n,总体方差2,允许误差,可靠性系数Z/2的关系:(1)总体方差越大,需要的样本容量越大;反之亦然;(2)允许误差越大,需要的样本容量越小,反之亦然;(3)可靠性系数越大,需要的样本容量越大,反之亦然.例6.11要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25.例6.12 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差约为1800000。如置信度取95,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?,3、估计总体比例时,样本容量的确定估计总体比例
23、时,允许的最大绝对误差为,已知某市一所初中历届中考升学率为0.25,今年的学生水平与往年相当,要估计今年的升学率,要求误差不超过0.02,可靠性为0.95,至少要抽取多少人进行调查。,例6.13 一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠程度为95%,应取多大容量的样本?例6.14 一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误差为0.05时,在求其95%置信区间时应采用多大的样本容量。,二、方差的区间估计,利用卡方分布,公式1,公式2,利用2分布估计总体方差2的置信区间(1)利用公式1进行计算 已知:2=(n-1
24、)S2n-1/2,置信度为0.05 在横轴上设2个临界点1和2,使:P1 2 2=0.95,将上式代入,得:P1(n-1)S2n-1/2 2=0.95 两边同除(n-1)S2n-1得:1/(n-1)S2n-1 1/2 2/(n-1)S2n-1,得总体方差2的置信区间:(n-1)S2n-1/2 2(n-1)S2n-1/1 写成:(n-1)S2n-1/2,(n-1)S2n-1/1 其中:1为2/2,2为21-/2(n-1)S2n-1/2/2,(n-1)S2n-1/21-/2,课堂练习,某校高中语文毕业考试中,随机抽取15份,其成绩如下:75,68,72,89,86,78,91,92,79,83,8
25、8,90,85,77,82.试确定语文成绩的方差在什么范围?(5.36,11.54),(2)利用公式2计算 由 分布的性质,我们知道有 因此,对于给定的置信水平,总体方差的区间估计为,例 研究者调查某社区居民家庭收入情况,现随机抽查了10户,得到样本方差为S200(元2),试以90的置信水平估计居民总体家庭收入之方差的置信区间。解 根据题意,查分布表得 3.325 16.919代入公式有 所以该社区居民收入之方差90置信水平的置信区间为118.2601.5(元2)。,课堂练习,例:根据30名被试的视反应时的实验结果,计算出视反应时的方差为900毫秒,试估计当置信度为0.05时,总体方差的置信区
26、间。,三、F分布与二总体方差之比的区间估计,(一)利用F分布估计二总体方差之比的置信区间公式 由F分布知:F=S2n1-1/S2n2-1,服从F分布,且df1=n1-1,df2=n2-1。又知样本方差S2是总体方差的无偏估计,其之比S2n1-1/S2n2-1是围绕总体方差之比12/22上下波动,故二总体方差12=22 二个样本的总体方差相等的区间估计则用下式:12/22=1 而不用 12-22=0,由于F分布不是对称分布,若F分布右侧一端的概率为:F=S2n1-1/S2n2-1,则另一侧的概率可用:F=1/F=S2n2-1/S2n1-1,11222,212=22,二、课堂练习,例:8名男女生在
27、某项心理实验中所得测量结果的方差分别为1.12和4.98。问男女生测量值的总体方差是否相等。,样本统计量估计总体参数小结:,1.点估计用样本平均数、方差和标准差估计总体平均数、方差和标准差公式:,2.区间估计,(1)样本平均数对总体平均数的区间估计A。总体方差2已知,对总体平均数的估计 标准误:SEx=/n Z值:Z=(X-)/SEx 求解总体平均值估计的公式:PX-1.96SExX+1.96SEx=0.95,B。总体方差2未知时,对总体平均数的估计,求标准误公式:求总体平均值的置信区间:X-SEx,X+SEx其中,查t分布表得出临界值,(2)利用2分布估计总体方差2的置信区间,A。样本方差已
28、知 得总体方差2的置信区间:(n-1)S2/2 2(n-1)S2/1 写成:(n-1)S2/2,(n-1)S2/1 其中:1为2/2,2为21-/2,B。样本方差未知,总体方差2的置信区间:(Xi-X)2/2,(Xi-X)2/1 其中:1=21-/2,2=2/2,(3)利用F分布估计二总体方差之比的置信区间,A。1222B。12=22,区间估计,引例 已知 X N(,1),不同样本算得的 的估计值不同,因此除了给出 的点估计外,还希望根据所给的样本确定一个随机区间,使其包含参数真值的概率达到指定的要求.,的无偏、有效点估计为,7.3,如引例中,要找一个区间,使其包含 的真值的概率为0.95.(
29、设 n=5),取,查表得,这说明,即,称随机区间,为未知参数 的置信度为0.95的置信区间.,例1 某工厂生产一批滚珠,其直径 X 服从,解(1),即,正态分布 N(2),现从某天的产品中随机,(1)若 2=0.06,求 的置信区间(2)若 2未知,求 的置信区间(3)求方差 2的置信区间.,抽取 6 件,测得直径为,15.1,14.8,15.2,14.9,14.6,15.1,例1,由给定数据算得,由公式(1)得 的置信区间为,(2)取,查表,由给定数据算得,由公式(4)得 2 的置信区间为,(3)选取枢轴量,查表得,由公式(2)得 的置信区间为,若总体 X 的分布未知,但样本容量很大,由中心极限定理,可近似地视,若2已知,则 的置信度为1-的置信区间可取为,若2未知,则 的置信度为1-的置信区间可取为,非正态总体均值的区间估计,(四),