《人大统计学第四版贾俊平主编课后习题答案(精简版).doc》由会员分享,可在线阅读,更多相关《人大统计学第四版贾俊平主编课后习题答案(精简版).doc(44页珍藏版)》请在三一办公上搜索。
1、第三章节:数据的图表展示1第四章节:数据的概括性度量.15第六章节:统计量及其抽样分布26第七章节:参数估计. 28第八章节:假设检验. 38第九章节:列联分析. 41第十章节:方差分析. 433 要求:(1)指出上面的数据属于什么类型。 顺序数据33 1、确定组数: ,取k=62、确定组距: 组距( 最大值 - 最小值) 组数=(49-25)6=4,取53、分组频数表销售收入(万元)频数频率%累计频数累计频率%= 2512.512.526 - 30512.5615.031 - 35615.01230.036 - 401435.02665.041 - 451025.03690.046+410.
2、040100.0总和40100.034 data Stem-and-Leaf Plot Frequency Stem & Leaf 3.00 1 . 889 5.00 2 . 01133 7.00 2 . 6888999 2.00 3 . 13 3.00 3 . 569 3.00 4 . 123 3.00 4 . 667 3.00 5 . 012 1.00 5 . 7 Stem width: 10 Each leaf: 1 case(s)36解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数: ,取k=6或72、确定组距: 组距( 最大值 - 最小
3、值) 组数=(61-40)6=3.5,取3或者4、5 组距( 最大值 - 最小值) 组数=(61-40)7=3,3、分组频数表组距3,上限为小于 频数百分比累计频数累积百分比有效40.00 - 42.0033.033.043.00 - 45.0099.01212.046.00 - 48.002424.03636.049.00 - 51.001919.05555.052.00 - 54.002424.07979.055.00 - 57.001414.09393.058.00+77.0100100.0合计100100.0直方图:分布特征:左偏钟型。3.8 要求: (1)指出上面的数据属于什么类型。
4、 数值型数据 (2)对上面的数据进行适当的分组。 1、确定组数: ,取k=72、确定组距: 组距( 最大值 - 最小值) 组数=(14-(-25))7=5.57,取53、分组频数表温度频数频率%累计频数累计频率%-25 - -21610.0610.0-20 - -16813.31423.3-15 - -11915.02338.3-10 - -61220.03558.3-5 - -11220.04778.30 - 446.75185.05 - 9813.35998.310+11.760100.0合计60100.0第四章 统计数据的概括性描述41 一家汽车零售店的10名销售人员5月份销售的汽车数量
5、(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。 (2)根据定义公式计算四分位数。 (3)计算销售量的标准差。 (4)说明汽车销售量分布的特征。解: Statistics汽车销售数量 NValid10Missing0Mean9.60Median10.00Mode10Std. Deviation4.169Percentiles256.255010.007512.5042 随机抽取25个网络用户,得到他们的年龄数据如下: 单位:周岁191529252423213822183020191916232722342441203
6、11723要求;(1)计算众数、中位数:从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。(2)根据定义公式计算四分位数。Q1位置=25/4=6.25,因此Q1=19,Q3位置=325/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.752=26.5。(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态
7、,需要进行分组。分组:1、确定组数: ,取k=62、确定组距:组距( 最大值 - 最小值) 组数=(41-15)6=4.3,取53、分组频数表网络用户的年龄 (Binned) FrequencyPercentCumulative FrequencyCumulative PercentValid= 1514.014.016 - 20832.0936.021 - 25936.01872.026 - 30312.02184.031 - 3528.02392.036 - 4014.02496.041+14.025100.0Total25100.0分组后的均值与方差:Mean23.3000Std. De
8、viation7.02377Variance49.333Skewness1.163Kurtosis1.302分组后的直方图:43 某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一种是所有颐客都进入一个等待队列:另种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为72分钟,标准差为197分钟。第二种排队方式的等待时间(单位:分钟)如下:55 66 67 68 71 73 74 78 78要求:(1)画出第二种排队方式等待时间的茎叶图。 第二种排队方式的等待时间(单位:分钟) St
9、em-and-Leaf Plot Frequency Stem & Leaf 1.00 Extremes (=5.5) 3.00 6 . 678 3.00 7 . 134 2.00 7 . 88 Stem width: 1.00 Each leaf: 1 case(s)(2)计算第二种排队时间的平均数和标准差。 Mean7Std. Deviation0.714143Variance0.51(3)比较两种排队方式等待时间的离散程度。第二种排队方式的离散程度小。(4)如果让你选择一种排队方式,你会选择哪种?试说明理由。 选择第二种,均值小,离散程度小。45 要求:比较两个企业的总平均成本,哪个高,
10、并分析其原因。产品名称单位成本(元)甲企业乙企业总成本(元)产品数总成本(元)产品数A1521001403255217B203000150150075C30150050150050平均成本(元)19.4117647118.28947368 调和平均数计算,得到甲的平均成本为19.41;乙的平均成本为18.29。甲的中间成本的产品多,乙的低成本的产品多。46 在某地区抽取120家企业,按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200300300400400500500600600以上1930421811合 计120要求:(1)计算120家企业利润额的平均数和标准差。(2)计算分
11、布的偏态系数和峰态系数。解:Statistics企业利润组中值Mi(万元) NValid120Missing0Mean426.6667Std. Deviation116.48445Skewness0.208Std. Error of Skewness0.221Kurtosis-0.625Std. Error of Kurtosis0.43847 解:(1)不一定相同,无法判断哪一个更高,但可以判断,样本量大的更接近于总体平均身高。(2)不一定相同,样本量少的标准差大的可能性大。(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。48 一项关于大学生体重状况的研究发现男生的平均体重为6
12、0kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么? 女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)以磅为单位(1ks22lb),求体重的平均数和标准差。 都是各乘以2.21,男生的平均体重为60kg2.21=132.6磅,标准差为5kg2.21=11.05磅;女生的平均体重为50kg2.21=110.5磅,标准差为5kg2.21=11.05磅。(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间? 计算标准分数: Z1=-1;Z2=1,根据经验规则
13、,男生大约有68%的人体重在55kg一65kg之间。(4)粗略地估计一下,女生中有百分之几的人体重在40kg60kg之间? 计算标准分数: Z1=-2;Z2=2,根据经验规则,女生大约有95%的人体重在40kg一60kg之间。49 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。ZA=1;ZB=0.5因此,A项测试结果理想。410
14、一条产品生产线平均每天的产量为3 700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。下面是一周各天的产量,该生产线哪几天失去了控制?时间周一 周二 周三 周四 周五 周六 周日产量(件)3 850 3 670 3 690 3 720 3 610 3 590 3 700 时间周一周二周三周四周五周六周日产量(件)3850367036903720361035903700日平均产量3700日产量标准差50标准分数Z3-0.6-0.20.4-1.8-2.20标准分数界限-2-2-2-2-2-2-22222222 周六超出界限,失去控
15、制。411 对10名成年人和10名幼儿的身高进行抽样调查,结果如下:成年组166 169 l72 177 180 170 172 174 168 173幼儿组68 69 68 70 7l 73 72 73 74 75要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么? 均值不相等,用离散系数衡量身高差异。(2)比较分析哪一组的身高差异大?成年组幼儿组平均172.1平均71.3标准差4.201851标准差2.496664离散系数0.024415离散系数0.035016 幼儿组的身高差异大。412 解:对比均值和离散系数的方法,选择均值大,离散程度小的。方法A方法B方法C
16、平均165.6平均128.7333333平均125.5333333标准差2.131397932标准差1.751190072标准差2.774029217 离散系数: VA=0.01287076,VB= 0.013603237,VC= 0.022097949均值A方法最大,同时A的离散系数也最小,因此选择A方法。413 在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票
17、,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计量来反映投资的风险? 标准差或者离散系数。(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票? 选择离散系数小的股票,则选择商业股票。(3)如果进行股票投资,你会选择商业类股票还是高科技类股票? 考虑高收益,则选择高科技股票;考虑风险,则选择商业股票。6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。解:总体方差知道的情况下,均值
18、的抽样分布服从的正态分布,由正态分布,标准化得到标准正态分布:z=,因此,样本均值不超过总体均值的概率P为:=2-1,查标准正态分布表得=0.8159因此,=0.63186.3 ,表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b,使得解:由于卡方分布是由标准正态分布的平方和构成的:设Z1,Z2,Zn是来自总体N(0,1)的样本,则统计量服从自由度为n的2分布,记为2 2(n)因此,令,则,那么由概率,可知:b=,查概率表得:b=12.596.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到1
19、0个观测值,用这10个观测值我们可以求出样本方差,确定一个合适的范围使得有较大的概率保证S2落入其中是有用的,试求b1,b2,使得解:更加样本方差的抽样分布知识可知,样本统计量: 此处,n=10,所以统计量根据卡方分布的可知:又因为:因此:则:查概率表:=3.325,=19.919,则=0.369,=1.887.2 某快餐店想要估计每位顾客午餐的平均花费金额。在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1)假定总体标准差为15元,求样本均值的抽样标准误差。=2.143(2)在95的置信水平下,求边际误差。 ,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t= 因此,=1.
20、962.143=4.2(3)如果样本均值为120元,求总体均值 的95的置信区间。 置信区间为: =(115.8,124.2)7.4 从总体中抽取一个n=100的简单随机样本,得到=81,s=12。要求:大样本,样本均值服从正态分布:或置信区间为:,=1.2(1)构建的90的置信区间。=1.645,置信区间为:=(79.03,82.97)(2)构建的95的置信区间。=1.96,置信区间为:=(78.65,83.35)(3)构建的99的置信区间。=2.576,置信区间为:=(77.91,84.09)7.7 (1)样本均值=3.32,样本标准差s=1.61;(2)抽样平均误差: 重复抽样:=1.6
21、1/6=0.268 不重复抽样:=0.268=0.2680.998=0.267(3)置信水平下的概率度: =0.9,t=1.645 =0.95,t=1.96 =0.99,t=2.576(4)边际误差(极限误差): =0.9,=重复抽样:=1.6450.268=0.441不重复抽样:=1.6450.267=0.439 =0.95,=重复抽样:=1.960.268=0.525不重复抽样:=1.960.267=0.523 =0.99,=重复抽样:=2.5760.268=0.69不重复抽样:=2.5760.267=0.688(5)置信区间:=0.9,重复抽样:=(2.88,3.76)不重复抽样:=(2
22、.88,3.76) =0.95, 重复抽样:=(2.79,3.85)不重复抽样:=(2.80,3.84) =0.99, 重复抽样:=(2.63,4.01)不重复抽样:=(2.63,4.01)7.9 某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:km)分别是: 10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2假定总体服从正态分布,求职工上班从家里到单位平均距离的95的置信区间。解:小样本,总体方差未知,用t统计量均值=9.375,样本标准差s=4.11置信区间:=0.95,n=16,=2.13=(7.18,1
23、1.57)711 解:大样本,总体方差未知,用z统计量样本均值=101.4,样本标准差s=1.829置信区间:=0.95,=1.96=(100.89,101.91)(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95的置信区间。解:总体比率的估计大样本,总体方差未知,用z统计量样本比率=(50-5)/50=0.9置信区间:=0.95,=1.96=(0.8168,0.9832)713 一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了18个员工。得到他们每周加班的时间数据如下(单位:小时):63218171220117902182516152916假定员工
24、每周加班的时间服从正态分布。估计网络公司员工平均每周加班时间的90%的置信区间。解:小样本,总体方差未知,用t统计量均值=13.56,样本标准差s=7.801置信区间:=0.90,n=18,=1.7369=(10.36,16.75)715 解:总体比率的估计大样本,总体方差未知,用z统计量样本比率=0.23置信区间:=0.90,=1.645=(0.1811,0.2789)=0.95,=1.96=(0.1717,0.2883)720 (1)构建第一种排队方式等待时间标准差的95的置信区间。解:估计统计量经计算得样本标准差=3.318置信区间:=0.95,n=10,=19.02,=2.7=(0.1
25、075,0.7574)因此,标准差的置信区间为(0.3279,0.8703)(2)构建第二种排队方式等待时间标准差的95的置信区间。解:估计统计量经计算得样本标准差=0.2272置信区间:=0.95,n=10,=19.02,=2.7=(1.57,11.06)因此,标准差的置信区间为(1.25,3.33)(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 第一种方式好,标准差小!723 下表是由4对观察值组成的随机样本。配对号来自总体A的样本来自总体B的样本1234251080765(1)计算A与B各对观察值之差,再利用得出的差值计算和。 =1.75,=2.62996(2)设分别为总体A和
26、总体B的均值,构造的95的置信区间。解:小样本,配对样本,总体方差未知,用t统计量均值=1.75,样本标准差s=2.62996置信区间:=0.95,n=4,=3.182=(-2.43,5.93)725 从两个总体中各抽取一个250的独立随机样本,来自总体1的样本比例为40,来自总体2的样本比例为30。要求:(1)构造的90的置信区间。(2)构造的95的置信区间。解:总体比率差的估计大样本,总体方差未知,用z统计量样本比率p1=0.4,p2=0.3置信区间:=0.90,=1.645=(3.02%,16.98%)=0.95,=1.96=(1.68%,18.32%)7.26 要求:构造两个总体方差比
27、/的95的置信区间。解:统计量:置信区间:=0.058,=0.006n1=n2=21=0.95,=2.4645,=0.4058=(4.05,24.6)727 根据以往的生产数据,某种产品的废品率为2。如果要求95的置信区间,若要求边际误差不超过4,应抽取多大的样本?解: =0.95,=1.96=47.06,取n=48或者50。728 某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95的置信水平估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本?解:,=0.95,=1.96, =138.3,取n=139或者140
28、,或者150。729 假定两个总体的标准差分别为:,若要求误差范围不超过5,相应的置信水平为95,假定,估计两个总体均值之差时所需的样本量为多大?解:n1=n2=,=0.95,=1.96, n1=n2= =56.7,取n=58,或者60。730 假定,边际误差E005,相应的置信水平为95,估计两个总体比例之差时所需的样本量为多大?解:n1=n2=,=0.95,=1.96,取p1=p2=0.5, n1=n2= =768.3,取n=769,或者780或800。82 一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布
29、,60小时,试在显著性水平005下确定这批元件是否合格。解:H0:700;H1:700已知:680 60由于n=3630,大样本,因此检验统计量:-2当0.05,查表得1.645。因为z-,故拒绝原假设,接受备择假设,说明这批产品不合格。84 糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下: 993 987 1005 1012 983 997 995 1021 1005已知包重服从正态分布,试检验该日打包机工作是否正常(a005)?解:H0:100;H1:100经计算得:99.9778 S1.21221检验统计
30、量:-0.055当0.05,自由度n19时,查表得2.262。因为,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。85 某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5就不得出厂,问该批食品能否出厂(a005)?解:解:H0:0.05;H1:0.05已知: p6/50=0.12 检验统计量:2.271当0.05,查表得1.645。因为,样本统计量落在拒绝区域,故拒绝原假设,接受备择假设,说明该批食品不能出厂。87 某种电子元件的寿命x(单位:小时)服从正态分布。现测得16只元件的寿命如
31、下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命显著地大于225小时(a005)?解:H0:225;H1:225经计算知:241.5 s98.726检验统计量:0.669当0.05,自由度n115时,查表得1.753。因为t,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明元件寿命没有显著大于225小时。810 装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单
32、位:分钟)如下: 甲方法:31 34 29 32 35 38 34 30 29 32 31 26 乙方法:26 24 28 29 30 29 32 26 31 29 32 28两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同 (a005)?解:建立假设H0:12=0 H1:120总体正态,小样本抽样,方差未知,方差相等,检验统计量 根据样本数据计算,得12,=12,31.75,3.19446,28.6667,=2.46183。 8.13262.6480.05时,临界点为2.074,此题中,故拒绝原假设,认为两种方法的装配时间有显著差异。811 调查了339名50岁以上的人,其中2
33、05名吸烟者中有43个患慢性气管炎,在134名不吸烟者中有13人患慢性气管炎。调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(a005)?解:建立假设H0:12;H1:12p143/205=0.2097 n1=205 p213/134=0.097 n2=134检验统计量 3当0.05,查表得1.645。因为,拒绝原假设,说明吸烟者容易患慢性气管炎。812 为了控制贷款规模,某商业银行有个内部要求,平均每项贷款数额不能超过60万元。随着经济的发展,贷款规模有增大的趋势。银行经理想了解在同样项目条件下,贷款的平均规模是否明显地超过60万元,故一个n=144的随机样本被抽出,测得=681万元,s
34、=45。用a001的显著性水平,采用p值进行检验。解:H0:60;H1:60已知:68.1 s=45由于n=14430,大样本,因此检验统计量:2.16由于,因此P值=P(z2.16)=1-,查表的=0.9846,P值=0.0154由于P0.01,故不能拒绝原假设,说明贷款的平均规模没有明显地超过60万元。813 有一种理论认为服用阿司匹林有助于减少心脏病的发生,为了进行验证,研究人员把自愿参与实验的22 000人随机平均分成两组,一组人员每星期服用三次阿司匹林(样本1),另一组人员在相同的时间服用安慰剂(样本2)持续3年之后进行检测,样本1中有104人患心脏病,样本2中有189人患心脏病。以
35、a005的显著性水平检验服用阿司匹林是否可以降低心脏病发生率。解:建立假设H0:12;H1:12p1104/11000=0.00945 n1=11000 p2189/11000=0.01718 n2=11000检验统计量 -5当0.05,查表得1.645。因为-,拒绝原假设,说明用阿司匹林可以降低心脏病发生率。815 有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平=002,从上述数据中能得到什么结论?解:首先进行方
36、差是否相等的检验:建立假设H0:;H1:n1=25,=56,n2=16,=491.143当0.02时,3.294,0.346。由于F,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。检验均值差:建立假设H0:120 H1:120总体正态,小样本抽样,方差未知,方差相等,检验统计量 根据样本数据计算,得25,=16,82,=56,78,=4953.3081.7110.02时,临界点为2.125,t,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。103 解:不相同107 某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了
37、30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果; 方差分析表差异源SSdfMSFP-valueF crit组间42022101.478102190.2459463.354131组内383627142.0740741总计425629 要求: (1)完成上面的方差分析表。(2)若显著性水平a=0.05,检验三种方法组装的产品数量之间是否有显著差异?解:(2)P=0.025a=0.05,没有显著差异。10.9 有5种不同品种的种子和4种不同的施肥方案,在20块同样面积的土地上,分别采用5种种子和4种施肥方案搭配进行试验,取得的收获量数据如下表:品种施
38、肥方案12341120951049721371151249631431231141114142140125120513.014013111.4检验种子的不同品种对收获量的影响是否有显著差异?不同的施肥方案对收获量的影响是否有显著差异(a=0.05)?解:这线图:_似乎交互作用不明显:(1)考虑无交互作用下的方差分析:主体间效应的检验因变量: 收获量 源III 型平方和df均方FSig.校正模型37.249(a)75.3218.0820.001截距2,930.62112,930.6214,451.0120.000Fertilization_Methods18.18236.0619.2050.002Variety19.06744.7677.2400.003误差7.901120.658总计2,975.77020校正的总计45.15019a. R 方 = .825(调整 R 方 = .723)结果表明施肥方法和品种都对收获量有显著影响。(2)考虑有交互作用下的方差分析:主体间效应的检验因变量: 收获量 源III 型平方和df均方FSig.校正