《抽样技术_第三版_全部课后答案.docx》由会员分享,可在线阅读,更多相关《抽样技术_第三版_全部课后答案.docx(37页珍藏版)》请在三一办公上搜索。
1、第二章习题2.1判断下列抽样方法是否是等概的:(1) 总体编号164,在099中产生随机数r,若r=0或r64则舍弃重抽。(2) 总体编号164,在099中产生随机数r,r处以64的余数作为抽中的数,若余数为0则抽中64.(3) 总体2000021000,从11000中产生随机数r。然后用r+19999作为被抽选的数。解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以计算的。第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。 因此(1)中只有164是可能被抽中的,故不是等概的。(2)不是等概
2、的【原因】(3)是等概的。2.2抽样理论和数理统计中关于样本均值的定义和性质有哪些不同?解析:抽样理论和数理统计中关于样本均值的定义和性质的不同抽样理论概率统计定义性质1. 期望2. 方差 1. 期望 2. 方差 2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值9.5(千瓦时),206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300, 该市居民用电量的95%置信区间为=4750001.96*41308.19即为(394035.95,555
3、964.05)由相对误差公式10%可得即n862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。解析:由已知得: 又有: 该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:代入数据计算得:该区间为0.2843,0.41572.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号文化支出编号 文化支出120011150
4、2150121603170131804150141305160151006130161807140171008100181809110191701024020120估计该小区平均的文化支出,并给出置信水平95%的置信区间。解析:由已知得: 根据表中数据计算得: 该小区平均文化支出的95%置信区间为:即是:132.544 ,156.456故估计该小区平均的文化支出=144.5,置信水平95%的置信区间为132.544 ,156.456。2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到=1120(吨),据此估计该地区今年的粮食总产量,并给出置信水平95%的置信区间
5、。解析:由题意知:=1120 置信水平95%的置信区间为: 代入数据得:置信水平95%的置信区间为:1079.872,1160.8722.7某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方千米,置信水平95%,现根据以前的调查结果,认为总体方差,是确定简单随机抽样所需的样本量。若预计有效回答率为70%,则样本量最终为多少?解析:简单随机抽样所需的样本量 由题意知: 代入并计算得: 故知:简单随机抽样所需的样本量为61,若预计有效回答率为70%,则样本量最终为872.8某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年
6、的产量,得到,这些企业去年的平均产量为。试估计今年该地区化肥总产量。解析:由题可知,,则,该地区化肥产量均值的比率估计量为 该地区化肥产量总值Y的比率估计量为 所以,今年该地区化肥总产量的估计值为2426吨。2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出,得到如下表:单位:元编号文化支出总支出编号文化支出总支出120023001115016002150170012160170031702000131802000415015001413014005160170015150160061301400161001200714015001718019008100120018100110091
7、101200191701800101401500201201300全部家庭的总支出平均为1600元,利用比估计的方法估计平均文化支出,给出置信水平95%的置信区间,并比较比估计和简单估计的效率。解析:由题可知 又 故平均文化支出的95%的置信区间为代入数据得(146.3291.96*1.892) 即为142.621,150.0372.10某养牛场购进了120头肉牛,购进时平均体重100千克。现从中抽取10头,记录重量,3个月后再次测量,结果如下:单位:千克编号原重量现重量19515029715538714041201805110175611518571031658102160992150101
8、05170用回归估计法计算120头牛现在的平均重量,计算其方差的估计,并和简单估计的结果进行比较。解:由题可知, 故有 所以总体均值的回归估计量为 其方差估计为: =1.097而 = =19.454显然所以,回归估计的结果要优于简单估第三单元习题答案(仅供参考)1解:(1)不合适(2)不合适(3)合适(4)不合适2将800名同学平均分成8组,在每一级中抽取一名“幸运星”。3根据表中调查数据,经计算,可得下表:hnhNhWhfhyhNhyhsh21102560.30330.039111.22867.294.42104200.49760.023825.510710302.53101680.1991
9、0.0595203360355.6总计30844116937.2Yst=1Nh=13Nhyh=20.1V(yst)=h=1LWh2sh2nh-h=1LWhsh2N =9.7681-0.2962 =9.4719V(yst)=3.0777(2)置信区间为95%相对误差为10%,则有按比例分配的总量:n=h=1LWhsh2V+NVh=1LWhsh2=185.4407185n1=nW1=56,n2=92,n3=37按内曼分配:n=(h=1LWhsh2)2V+1Nh=1LWhsh2=175n1=33,n2=99,n3=434根据调查数据可知:hWhPh10.180.920.210.93330.140.9
10、40.080.86750.160.93360.220.967Pst=h=1LWhPh=0.924根据各层层权Wh及抽样比fh的结果,可得V(Pst)=1N2h=14Nh2(1-fh)pnqnnh-1=0.000396981V(Pst)=1.99%估计量的标准差为1.99%,比例为9.24%按比例分配:n=2663n1=479,n2=559,n3=373,n4=240,n5=426,n6=586内曼分配:n=2565n1=536,n2=520,n3=417,n4=304,n5=396,n6=3925解:由题意,有Y=h=1LyWn=75.79购买冷冻食品的平均支出为75.79元又由V(y)=1-
11、fnh=1LWhsh2+1n2h=1L(1-Wh)sh2又n=h=1Lnh/WhV(y)=53.8086V(y)=7.335495%的置信区间为60.63,90.95。7解:(1)对(2)错(3)错(4)错(5)对8解:(1)差错率的估计值y=14370%+25730%=0.027估计的方差v(y)=h=1LWh21-fhnhsh2=3.196710-4标准差为S(y)=0.0179。(2)用事后分层的公式计算差错率为y=h=1LWh(1mhi=1mhyhi)=0.03估计的方差为;v(y)=hWh2Sh2mh-1NhWhSh2=2.572610-49解:(1)所有可能的样本为:第一层第二层x
12、1y1x2y23,50,38,156,93,100,68,256,155,103,615,259,15(2)用分别比估计,有r1=0.4,r2=0.65,所以用分别比估计可计算得Y=6.4。用联合比估计,有r1=0.5,r2=0.625,所以用联合比估计可计算得Y=6.5。第四章习题4.1 邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个群,每群10户,现随机抽取4个群,取得资料如下表所示:群各户订报数11,2,1,3,3,2,1,4,1,11921,3,2,2,3,1,4,1,1,22032,1,1,1,1,3,2,1,3,11641,1,3,2,1,5,1,2,3,1
13、20试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。解:由题意得到,故(份)(份)(份)于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。4.2 某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:单位总人数赞成人数1514226253349404734551016364831765388493097354106145115851125229136546144937155542(1)
14、 估计该系统同意这一改革人数的比例,并计算估计标准误差。(2) 在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的允许误差不超过8%,则应抽取多少个单位做样本?解:题目已知,1)由已知估计同意改革的比例此估计量的标准差为4.3 某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。财务人员欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整理出办公费用的票据,得到下表资料:抽屉编号票据数费用额(,百元)1428322762338454631125729661258724758145893267104180要求以95%的置信度估计该集团办公费用总支出额度置信区间(=
15、0.05)。解:已知N=48, n=10, f=, 由题意得,则办公费用的总支出的估计为(元)群总和均值(元)= 182.43590.4= 72765.44=269.7507则的置信度为95%的置信区间为3532.81.96269.7507,即3004.089,4061.511.4.4 为了便于管理,将某林区划分为386个小区域。现采用简单随机抽样方法,从中抽出20个小区域,测量树的高度,得到如下资料:区域编号数目株数平均高度(尺)区域编号数目株数平均高度(尺)1426.211606.32515.812526.73496.713615.94554.914496.15475.215576.0 6
16、586.916634.97434.317455.38595.218466.79485.719626.110416.120587.0 估计整个林区树的平均高度及95%的置信区间。解:由已知得,整体的平均高度方差估计值标准方差在置信度95%下,该林区的树木的平均高度的置信区间为4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女生宿舍200间,每间6人。学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进行访问,两个阶段的抽样都是简单随机抽样,调查结果如下表:样本宿舍拍照人数样本宿舍拍照人数1261207031814
17、29151100试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。解:题目已知,在置信度95%下,p的置信区间为=4.6 上题中,学生会对女生勤工助学月收入的一项调查中,根据以往同类问题的调查,宿舍间的标准差为=326元,宿舍内同学之间的标准差为=188元。以一位同学进行调查来计算,调查每个宿舍的时间为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间为是4小时,如果总时间控制在8小时以内,则最优的样本宿舍和样本学生是多少?解:由已知条件得到以下信息:(元)(元)(分钟)(分钟)(分钟)由此得到,因而取最优的,进一步计算由于总时间的限制,由关系式得到计算方程得到,因而取则最优
18、的样本宿舍数为20间,最优样本学生数为2。4.7 某居委会欲了解居民健身活动情况,如果一直该居委会有500名居民,居住在10个单元中。现先抽取4个单元,然后再样本单元中分别抽出若干居民,两个阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身锻炼的时间结果如下(以10分钟为1个单位):单元居民人数样本量健身锻炼时间13244,2,3,624552,2,4,3,633643,2,5,845464,3,6,2,4,6试估计居民平均每天用于锻炼的时间,并给出估计的标准差。(1) 简单估计量(2) 比率估计量(3) 对两种估计方法及结果进行评价。解:(1)简单估计 = =1650,则, 又,所以分别
19、计算所以,所以标准差(2) 比率估计其中(3)简单估计标准差,比率估计标准差比率估计更好第五章不等概抽样习题答案5.1解: 分析题目可知“代码法”与“拉希里法”都是PPS抽样(放回的与规模大小成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样,故需进一步进行改进:即采用重抽法抽取,如果抽到重复单元,则放弃此样本单元,重新抽取,直到抽到规定的样本量且所有样本党员不重复:(1) 代码法:由=可假设=1000000,则M=M列成数据表为:PSUM累计M代码1110110111021855618666111186663629998166518667816654782161598818
20、166615988157524523512615998223512667398330910923512730910977658038568930911038568983898142467038569042467094077246544242467146544210228764883184654434883181137214920394883194920391224971517010492040517010134065455766451701155766414148045724685576655724681555775780455724695780451670784648829578046648
21、8291769635718464648830718464183465075311471846575311419694928226067531158226062036590859296822607859296213385389304985929789304922169599100088930509100082390669190749100099190742421795940869919075940869255918510000549408701000054我们看到抽取的范围比较大,所以我们利用计算机中的随机数表来抽取,第一个随机数为444703, 615432, 791937, 921813 ,
22、 738207, 176266, 405706 935470, 916904, 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了,故进行重新抽取,抽到4组和6组;综上所述,抽取的样本为2,4,6,8,9,16,18,19,23,24组(2)拉希里法:M=78216,N=25,在1, 25和1, 78216中分别产生(n,m): (13,38678),M=4065438678,入样; (8, 57764),M=3898157764,舍弃,重抽; (23,
23、13365),M=906613365,舍弃,重抽; (19,38734),M=6949238734,入样;以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为:2,3,5,6,7,12 ,13,16, 19,24组5.2解:由数据可得:t=20, t,t=38, t=24, t=21; 结合t值数据,我们可以推得Z的值Z=,Z=0.16,Z=0.32,Z=0.2,Z=0.12,由公式样本1,20.2737691,30.2174051,40.2830791,50.2438262,30.1662512,40.2131422,50.2438263,40.6039033,50.535464,5
24、0.2438265.3 解:设:=1,则有:,得到下表:i累计代码10.104104104110420.19219229610529630.13813843429743440.0626249643549650.0525254849754860.14714769554969570.0898978469678480.0383882278582290.05757879823879100.1211211000880100011000先在1,1000中产生第一个随机数为731,再在1,1000里面产生第二个随机数为103,最后在1,1000中产生第三个随机数为982,则它们所对应的第7、1、10号单元被
25、抽中。5.4 解: 利用汉森-赫维茨估计量对总体总值进行估计: =20318.85.5解:由题可知=2+9+3+2+1+6=23 由得下表:i指标值包含概率120.17390.087290.78260.3913330.26090.1304420.17390.087510.0870.0435660.52170.2609由上表显然有1/2,于是我们可以采用布鲁尔方法:经计算可得下表:样本1,20.00681,30.01531,40.00971,50.00461,60.03972,30.16072,40.10462,50.05122,60.36133,40.01533,50.00743,60.062
26、4,50.00464,60.03975,60.0191附注:(1) (2)样本1,20.03401.26131,30.01330.21741,40.00760.1741,50.00380.13051,60.02270.34792,30.0510.52172,40.0340.47832,50.0170.43482,60.10210.65223,40.01130.21743,50.00570.17393,60.0340.39134,50.00380.13054,60.02270.34795,60.01130.3044验证: 另外:代入数据,经计算得到:5.6 解:i11071.432951.835
27、31.6742125422平均63.61.78由题可计算出:(1)i11050101.43294591.8352551.67421022542042 =11.5所以有:=10.0625(2)由定义有: 所以得到下表:i15.14825.741.4326.4832.41.836.01230.061.6747.236257.2362 所以有下表: i1129651.844.61.4321846.873.8725.71.831717.268.6885.31.6742041.281.6486.3252041.281.6486.32(3)结合题目已知条件,我们选择的包含概率与成正比: (第i项被选中)i
28、17/181025.718.4925/18932.45.7633/18530041/182363652/1843636254.71由以上计算结果可以看出:,比估计在样本量很小的情况下即使是最小的方差也远比另外两种估计的方差大,而简单估计又比PPS汉森-赫维茨估计略好。5.7 解:已知 n=2 m=5 设公司总人数为 由于这个样本是自加权的,所以有: (分钟) (分钟) 所以该公司职工上班交通平均所需时间为34分钟。 (分钟)5.8 说明:解:由题可知:(吨)所以,全集团季度总运量为495299.4吨.的一个无偏估计为:因为=2.306 所以=22497.8所以置信度95%的置信区间为47289
29、4.6 , 517890.2 第6章第2题证明:将总体平方和按照全部可能的系统样本进行分解,可以得到 + + + 根据的定义,且,有 令 则有证明:在样本量相同的情况下 立即可得到当且仅当时,系统抽样优于简单随机抽样。第3题解:,k取最接近于5.7而不大于5.7的整数5,则将该班同学编号140,随机起点r=5,则该样本单元序号为5,10,15,20,25,30,35。,。 Sethi对称系统抽样:,入样单元为:5,6,10,16,15,26,20 Singh对称系统抽样:由于为奇数,则从两个断点开始分层,最后中间的半层取中间位置的单元,入样单元为:5,31,10,26,15,21,18第4题解
30、:由题,N=360,k=8,则n=N/k=45取,,则可能样本如下表:jr145样本均值样本内方差10000110000010000000000000000000000000001111000.15560.134320000000100111010000100100000000000000111111000.28890.210130000000000111100000000000000000000000111111000.22220.176840001110010010100000100000000000000000111000000.22220.17685000011001011110000
31、0000000000000000000011111000.26670.200060000100000110100000000000000000000000111101000.20000.163670001111000000000000000000001000000000111110000.22220.176880001101000000000000000000001000000001111110000.22220.1768由上表可得:总体均值总体方差平均样本内方差则:运用简单随机抽样:n=45,显然:,说明等距样本的精确度较简单随机样本的精确度要高。第5题答:欲估计汉族所占比例,选择第种系统抽
32、样的方法好。按照题给条件排序,在户口册中每5人中抽1人,且平均每户有5口人,分布较均匀,且如此抽样,每户人家基本均有1人入样。 男性所占比例与孩子所占比例。采用简单随机抽样的方法较合适,因为按题条件排序后,采用等距抽样,若抽得初始单元为1,则男生比例为1,孩子比例为0,如此,则有较大误差。第6题解:取Y=则总体比例P的简单估计量为=P=,即对总体比例的估计可化成对总体均值的估计。 估计男性所占比例:则,取Y=由题意,系统抽样 K=5,n=10,则所有可能样本如下表:12345678910群平均群内方差S111100100010.50.2778200011011100.50.2778300100
33、001000.20.1778411010010010.50.2778500111111100.70.2334总体均值总体方差S,平均群内方差以行为“系统样本”的系统抽样:k=5,n=10简单随机抽样:n=10,f=20%=0.2,说明简单随机抽样精度较高。 估计孩子所占比例:取Y=由题意,系统抽样:k=5,n=10,则所有可能样本如下表:12345678910群平均群内方差S100001000100.20.1778200000011000.20.1778311100110010.60.2667411111110100.80.1778511011001100.60.2667总体均值总体方差S平均
34、群内方差以行为“系统样本”的系统抽样:k=5,n=10简单随机抽样:n=10,f=20%=0.2,说明简单随机抽样精度较高。 估计具体某种职业的住户人员的比例:取Y=由题意,系统抽样 K=5,n=10,则所有可能样本如下表:12345678910群平均群内方差S111100000010.40.2667211100000010.40.2667311100000010.40.2667411100000010.40.2667511000000010.30.2334总体均值总体方差S平均群内方差以行为“系统样本”的系统抽样:k=5,n=10简单随机抽样:n=10,f=20%=0.2,说明系统抽样精度较
35、高。第7题解:由题,N=15,n=3,直线等距抽样k=5,则所有可能样本如下:r可能样本样本均值样本方差116116252271272533813825449149255510151025总体均值总体方差S平均样本方差则以直线等距抽样:简单随机抽样:n=3,f=1/5=0.2,说明直线等距抽样的精度较高。由题,要求抽样间距k=4,n=3,nk=1215 所以样本均值不是总体均值的无偏估计。 当nk=N时, 。即当nk=N时,样本均值为总体均值的无偏估计。第8题解:由题,N=30,k=5,则n=30/5=6则按照所给顺序等距抽样,可能样本如下:jr123456样本均值样本内方差110892305.333317.4667288103546.33337.466736544003.16676.566745930384.666711.466759916004.166718.9667由上表数据可得:总体方差平