统计学原理与实务-徐静霞.docx

资源描述

《统计学原理与实务-徐静霞.docx》由会员分享，可在线阅读，更多相关《统计学原理与实务-徐静霞.docx（47页珍藏版）》请在三一办公上搜索。

1、精选优质文档-倾情为你奉上思考与练习一、思考题1、分类数据的图示方法，其中包括条形图、Pareto图、对比条形图和饼图等。顺序数据除了上文提到的条形图、pareto图、对比条形图、饼图之外还可以借助累积频数分布图和环形图来进行描述。2、条形图、饼图、环形图、累积分布图、直方图、茎叶图、箱形图、散点图、线图、三维散点图、气泡图、雷达图等。3、数据分组按照分组标志的不同可以分为单变量值分组和组距分组两种。根据组距不同还可以分为等距分组和不等距分组。4、分组和编制频数分布表的具体步骤如下：第1步：排序。将变量按照一定的大小顺序进行排序，通常是由小至大的递增顺序，使用计算机软件进行整理时此步

2、可以忽略。第2步：确定组数。一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征，因此组数的多少应适中。如组数太少，数据的分布就会过于集中，组数太多，数据的分布就会过于分散，这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下，一组数据所分的组数 K不应少于 5组且不多于 15组，即 5 K15。在实际分组时，也可以借助经验公式来确定组数K，其中n为数据的个数，对结果四舍五入取整数即为组数。第3步：确定各组的组距。在组距分组中，一个组的最小值称为下限（low limit）；一个组的最大值称为上限（upper limit

3、），组距（class width）是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定，即，组距=（最大值最小值）组数。5、饼图是用圆形及圆内扇形的角度来表示数值大小的图形，它主要用于表示一个样本（或总体）中各组成部分的数据占全部数据的比例，对于研究结构性问题十分有用。环形图中间有一个“空洞”，样本或总体中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例，而环形图则可以同时绘制多个总体或样本的数据系列，每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例，从而有利于进行比较研究。6、直方图与条形图是不同

4、的，首先，条形图是用条形的长度（横置时）表示各类别频数的多少，其宽度（表示类别）则是固定的；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度与宽度均有意义。其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列。最后，条形图主要用于展示分类数据，而直方图则主要用于展示数值型数据。7、茎叶图类似于横置的直方图，与直方图相比，茎叶图既能给出数据的分布状况，又能给出每一个原始数值，即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布，但不能保留原始的数值。在应用方面，直方图通常适用于大批量数据，茎叶图通常适用于小批

5、量数据。8、统计图一般由下面几个部分构成：（1）标题，即图的名称，简明扼要说明资料的中心内容，必要时注明时间和地点，一般写在图的正下方位置，同时将图形的编号写在标题的前面。（2）标目，分为纵标目与横标目，分别表示纵轴与横轴数字刻度的意义，一般注明度量衡单位。（3）点线条面，借以用来显示数据的元素，这是图形的主体部分，用于显示数据和展示数据的规律和关系。（4）刻度，指在纵轴或横轴上的坐标。（5）图例，其目的是为了使读者能区分统计图中各种图形的意义。9、一般用“图优性（Graphical excellency）”来描述一个好的统计图。“图优性”是指图形能够在最短的时间内，用最少的笔墨，在最小的

6、空间里，给观众最多的思想。一张好的图形应包括如下基本特性：显示数据，集中反映图形的内容，避免歪曲，数据之间可进行有效比较，目的明确且唯一，统计描述和文字说明清晰。10、常见的统计表一般由4个主要部分组成，即表头、行标题、列标题和数据，此外，必要时可以在统计表的下方加上表外附加说明。11、在具体编制统计表时，应当遵循以下几点规则：（1）统计表的结构要合理，内容要简练，形式要美观。比如行标题、列标题、数字资料的位置应安排合理。如果有合计一项，一般放在最后一行或最后一列。有时，由于强调的问题不同，行标题和列标题可以互换，但应使统计表的横竖长度比例适当，避免出现过高或过长的表格形式。（2）统计

7、表一般使用“三线表”的形式，如表324所示，表的上下两端横线一般用粗线条绘制，用细线把行标题和数字资料进行分离，统计表的左右两端不封口。这样使人看起来清楚、醒目、美观。如果数据关系复杂，单靠三条线是不够的，在这种情况下，数据资料也可用横线或竖线对数据资料进行分开，以表明数据的隶属关系，但必须用细线，总之表中尽量少用横竖线。（3）表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容，一般需要表明统计数据的时间（When）、地点（Where）以及何种数据（What），即标题内容应满足3W要求。如果表中的全部数据都是同一计量单位，可放在表的右上角标明，若各变量的计量

8、单位不同，则应放在每个变量后或单列出一列标明。（4）表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一。当数字因小可略而不计时，可写上“0”；当缺某项数字资料时，可用符号“”表示；不应有数字时用符号“一”表示，一张填好的统计表不应出现空白单元格。（5）在绘制统计表时，为保证统计资料的科学性与严肃性，在统计表下，应注明资料来源，以表明表中数据的可靠性，或是方便读者查阅使用。必要时，也可在统计表下添加注解，以对变量或数据进行必要的解释和文字说明。二、单项选择题1-5 C A C C D 6-10 C B B B C 11-15C D D B C 16-20C D D B B

9、21-25BB B C B 26-30A C A B D 三、练习题1、（1）属于顺序数据（2）计数项:成绩成绩汇总ABCDE82526156总计80（3）成绩人数累计频率A880.1B25330.4125C26590.7375D15740.925E6801总计80801（4）2、（1）（2）正态分布3、（1）接收频率累积 %接收频率累积 %49510.00791530.0059520.00891152.00691040.00691072.00791570.0049582.00891192.0059592.00994100.00994100.00合计0-合计0-（2）（3）VAR00001 S

10、tem-and-Leaf Plot Frequency Stem & Leaf 2.00 4 . 13 3.00 4 . 667 3.00 5 . 003 2.00 5 . 89 5.00 6 . 01144 5.00 6 . 57799 7.00 7 . 0001344 8.00 7 . 55666788 6.00 8 . 011344 5.00 8 . 57789 3.00 9 . 022 1.00 9 . 7 Stem width: 10.00 Each leaf: 1 case(s)4、（2）接收频率%累积 %接收频率累积 %6944.00991122.00%791216.001099

11、40.00%891632.0089856.00%991854.00119770.00%1091672.0079682.00%1191486.00129490.00%129894.0069294.00%139498.00139298.00%1492100.00其他1100.00%100（3）VAR00004 Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 6 . 89 6.00 7 . 233566 8.00 8 . 01123456 11.00 9 . 12224556788 9.00 10 . 002466678 7.00 11 . 2355899

12、 4.00 12 . 4678 2.00 13 . 24 1.00 14 . 1 Stem width: 10.00 Each leaf: 1 case(s)5、（1）VAR00003 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 11 . 6 2.00 12 . 02 1.00 12 . 8 2.00 13 . 04 2.00 13 . 56 2.00 14 . 22 2.00 14 . 78 .00 15 . 1.00 15 . 5 2.00 16 . 02 1.00 16 . 8 4.00 17 . 0233 Stem width: 100.

13、00 Each leaf: 1 case(s)6、（1）计数项:时间时间汇总7:0037:3048:0048:3079:002总计20（2）7、（1）、（2）8、（1）（2）（3）9、（1）接收频率%累积 %接收频率%累积 %291010.0020-30510.00391626.0030-40826.00491238.0040-50638.00591664.0050-601364.00692084.0060-701084.00791296.0070-80696.00894100.0080-902100.00合计100-合计100-（2）（3）10、（1）（2）11、（1）（2）（3）第四章二、

14、单项选择题1-5CADBD 6-10BCBDD 11-15BACCC 16-20BBBCD 21-25CDACC 26-28DAA三、计算分析题4.1（1）首先将数据由小到大进行排列，中位数的位置为，即排在第7位的数值为中位数，即民生银行的营业收入为中位数，350.17亿元。平均数（2）即在第3个数值（145.13）和第4个数值（176.11）之间0.25的位置上，因此（亿元）即在第9个数值（1295.31）和第10个数值（3340.37）之间0.75的位置上，因此（亿元）（3）百分位数的位置由于不是整数，百分位数的位置就是第个位置的数据的整数部分，则第30个百分位数是第4个数，即华夏银行的营

15、业收入176.11亿元为第30个百分数。（4）=1786.559（亿元），4.2通常情况下，这种比赛对选手的打分是计算切尾均值，即同时集中平均数和中位数两种统计量的优点，且考虑到歌手B的得分中存在极端高分，故用切尾均值比较合适。首先将歌手A的分数按升序整理为顺序统计量，得到，7.9， 8.1， 8.2， 8.3， 8.5， 8.6， 8.6， 8.7， 8.9因为极端高分只有一个，因此去掉一个最高分，去掉一个最低分，取。则歌手A的最后得分为：歌手B的最后得分为：由以上计算结果，可知歌手A的分数略高于歌手B。4.3若按单利计算：设本金为V，则该笔本金12年应得的利息总和=V（0.033+0.05

16、1+0.082+0.13+0.151）=0.75V则平均年利率若按复利计算：则平均年利率4.4已知（元），（元），则（元）因为，因此该公司职工月工资收入呈左偏分布。4.5（1）众数72和74.3中位数的位置为则中位数为排序后处于15位和16位的两个数值的平均数，即平均数为（2）即在第7个数值（71.2）和第8个数值（71.2）之间0.5的位置上，因此（g/L）即在第22个数值（75.8）和第23个数值（75.9）之间0.5的位置上，因此（g/L）（3）众数72和74.3的频数均为4，故两种情况下异众比率均为极差为标准差（4）用Excel求得偏态系数为-0.013，峰态系数为-0.446。（5

17、）由于众数与平均数非常接近，可知数据分布应较为对称，又由于标准差数值较小，可知数据离散程度应不大。这一点同时可由偏态系数-0.013和峰态系数-0.446得到印证，即女大学生血清总蛋白含量数据属轻微的左偏分布，同时略有扁平。4.6已知，根据经验法则，有95.45%的年份里二氧化硫超标的天数在2137天之间，有2.275%的年份里超标天数大于37天，有0.00135%的年份里超标天数大于41天，有15.865%的年份里超标天数少于25天。4.7 （元/人）（元/人）(元/人)（元/人）由以上计算可得：（1）B企业的平均工资高于A企业的平均工资。（2）由于，所以A企业的平均工资更具有代表性。4.8

18、（1）2008年粗钢产量的平均数（百万吨）2008年粗钢产量的中位数的位置为，故中位数（百万吨）（2）2009年粗钢产量的四分位数为即为第3个数值，即（百万吨）即为第9个数值，即（百万吨）则2009年粗钢产量的四分位差为（百万吨）2009年粗钢产量的平均数（百万吨）因此2009年粗钢产量的标准差为（百万吨）（3）2008年粗钢产量的标准差为（百万吨）因此2008年中国、印度、俄罗斯和巴西的值分别为：2009年中国、印度、俄罗斯和巴西的值分别为：由以上计算结果可知，中国、俄罗斯、巴西三国的标准分数变数不大，而印度则有明显提高，因此印度粗钢产量的排名也由2008年的第5位上升到2009年的第3位。

19、4.9（1）由20-30岁年龄组的分数计算离散系数为由60-64岁年龄组的分数计算离散系数为因此，60-64岁年龄组的分数差异较大。（2）由于20-30岁年龄组的WAIS分数大致是正态分布，根据经验法则，可知20-30岁年龄组中有68.27%的人分数在85135之间。（3）由于60-64岁年龄组的WAIS分数大致是正态分布，根据经验法则，可知60-64岁年龄组中有68.27%的人分数在65115之间。（4）莎拉的标准分为母亲的标准分为由计算结果可知，莎拉的母亲在60-64年龄组中分数比较高。4.104.11（1）茎叶图如下：数茎树叶数据个数638937012678999991180001126

20、（2）最省油自动挡SUV耗油量的平均数和标准差分别为（3）最省油手动挡SUV耗油量的平均数和标准差分别为因此由以上结果可知，自动挡SUV耗油量的离散程度较大。（4）平均来看，自动挡SUV的耗油量要高于手动挡，且离散程度较大，如果购买一款SUV，从经济省油的角度考虑，选择手动挡较合适。第五章二单项选择题：1-5 BCDAA 6-10 DDBBD 11-15 BBDBD 16-20 AABAC 21-25 DBCAB 26-30 ACDBA三计算分析题1、解：（1）根据原始数据，计算可得：（小时）；=735（小时）；则其68.27%的置信区间为：（2），n=100, ,则其68.27%的置

21、信区间为：2、解：（1），n=100, （2）已知：，n=100, ,则其95.45%的置信区间为：3、解：（1）已知：n=20, ,由方差未知时，小样本的区间估计公式得：（2）已知：，则其置信区间为：4、解：已知：，则其置信区间为：5、解：已知：，则其置信区间为：6、解：已知（件）7、解：已知（个）8、解：已知：，n=136, ,则其95%的置信区间为：9、解：（1）已知：n=16, ,由方差未知时，小样本的区间估计公式得：即该单位平均每个家庭每天看电视的95%的置信区间为5.55小时到7.95小时。（2）若已知总体标准差，且要求区间估计的边际误差与上一题的相同，即取边际误差。当时，估计总体

22、均值时样本容量的确定公式为：只需增加一个样本就能满足精度需要。10、解：已知：，则其置信区间为：第六章二单选1-5ABABC 6-10 ACDAB 11-15 BABBD 16-20 DBDAD 21-25CCCAA 26-30 BABAD 31-35 CBADA 36-40DADAC三计算分析6.1 解：建立原假设与备择假设为：，（1）检验统计量，所以拒绝原假设，认为该批元件的厚度不符合规定的要求。（2）利用P值决策。用【NORMSDIST】计算出的P值为0.00146=0.01，所以拒绝原假设，认为该批元件的厚度不符合规定的要求，与统计量决策结果一致。6.2解：（1），。（2）样本数据

23、表明应该拒绝原假设时，意味着该生产线生产的玻璃纸平均横向延伸率不符合规格，必须对生产线进行调整。（3）样本数据无法支持拒绝原假设时意味着质量控制监督人员没有充分的理由认为该生产线所处状态不正常，无需停产调整。6.3解：（1）发生第一类错误指的是实际上奖励计划并未提高销售人员的平均销售额，而公司董事长却认为它提高了销售人员的平均销售额，这将导致公司错误的推行新的奖励计划，却无法获得更高的销售额。（2）发生第二类错误指的是实际上奖励计划提高了销售人员的平均销售额，公司董事长却没有意识到，这将使公司错过推行新的奖励计划的机会，也就无法进一步提高销售额。6.4 解：建立原假设与备择假设为：，；（1）

24、检验统计量，在5%的显著性水平下，拒绝原假设，既有足够的证据认为新的教学方法使100米成绩有所提高。（2）利用P值决策。用【NORMSDIST】计算出的P值为0. 0337=0.05，拒绝原假设，有足够的证据认为新的教学方法使100米成绩有所提高，与统计量决策结果一致。6.5 解：建立原假设与备择假设为：；（1）检验的临界值是，检验统计量，所以拒绝原假设，即在5%的显著性水平下，认为该化肥能够使小麦增产。（2）利用P值决策。用【NORMSDIST】计算出的P值为0.0004=0.05，所以拒绝原假设，即在5%的显著性水平下，认为该化肥能够使小麦增产，与统计量决策结果一致。6.6 建立原假设

25、与备择假设为：；，由Excel中的【TINV】函数得因为，所以拒绝原假设，即在5%的显著性水平下，认为该化肥能够使小麦增产。（2）利用P值决策。用【TDIST】计算出的P值为0.0014=0.05，所以拒绝原假设，即在5%的显著性水平下，认为该化肥能够使小麦增产，与统计量决策结果一致。6.7 建立原假设与备择假设为：，（1）检验统计量，所以拒绝原假设，认为该城市平均人口有所下降。（2）利用P值决策。用【NORMSDIST】计算出的P值为0.0000374749=0.05，所以拒绝原假设，即在5%的显著性水平下，认为该城市平均人口有所下降，与统计量决策结果一致。6.8 建立原假设与备择假设为：

26、，（1）检验统计量，所以拒绝原假设，认为该厂的平均成本有所下降。（2）利用P值决策。用【NORMSDIST】计算出的P值为0.001=0.01，所以拒绝原假设，即在5%的显著性水平下，认为该厂的平均成本有所下降，与统计量决策结果一致。6.9 建立原假设与备择假设为：；（1）检验统计量，不能拒绝原假设，因此没有充分的理由认为该批皮鞋优质率达到96%，所以不接受该批订货。（2）利用P值决策。用【NORMSDIST】计算出的P值为0.671=0.05，所以不能拒绝原假设，没有充分的理由认为该批皮鞋优质率达到96%，不接受该批订货，与统计量决策结果一致。6.10 建立原假设与备择假设为：；（1）检验统

27、计量=0.05或=0.01，所以不拒绝原假设，没有充分的理由认为超过80%的行人有违章行为，与统计量决策结果一致。第7章相关与回归分析二单项选择题1-5 BCBAC 6-10 CCABA 11-15 BCCAA 16-20 CCBDB21-25 CBBAA 26_30 BCBBA 31_35 CBABA 36_40 BAAAA三计算分析题7.1（1）散点图如下：从散点图可以看出，销售收入与广告费用之间为正的线性相关关系。（2）利用Excel的“CORREL”函数计算的相关系数为。（3）首先提出如下假设：，。计算检验的统计量当时，。由于检验统计量，拒绝原假设。表明产量与生产费用之间的线性关

28、系显著。7.2 （1）散点图如下：从散点图可以看出，复习时间与考试分数之间为正的线性相关关系。（2）利用Excel的“CORREL”函数计算的相关系数为。相关系数，表明复习时间与考试分数之间有较强的正线性相关关系。7.3 （1）散点图如下：7.3 利用Excel的“CORREL”函数计算的相关系数为。由Excel输出的回归结果如下表：得到的回归方程为：回归系数表示运送距离每增加1公里，运送时间平均增加0.003585天。7.4 （1）散点图如下：从散点图可以看出，航班正点率与被投诉次数之间为负的线性相关关系。（2）由Excel输出的回归结果如下表：回归统计Multiple R0.868643

29、R Square0.75454Adjusted R Square0.723858标准误差18.88722观测值10方差分析dfSSMSFSignificance F回归分析18772.5848772.58424.591870.001108残差82853.816356.727总计911626.4Coefficients标准误差t StatP-valueIntercept430.189272.154835.9620290.000337X Variable 1-4.700620.947894-4.959020.001108得到的回归方程为：。回归系数表示航班正点率每增加1%，顾客投诉次数平均下降4.

30、7次。（3）回归系数检验的P-Value=0.001108），拒绝原假设，回归系数显著。（4）（次）。（5）当时，。置信区间为：即（37.7，70.7）。预测区间为：即（7.6，100.8）。7.5 Excel输出的回归结果如下：回归统计Multiple R0.968167R Square0.937348Adjusted R Square0.916463标准误差3.809241观测值5方差分析dfSSMSFSignificance F回归分析1651.2691651.269144.883180.006785残差343.5309414.51031总计4694.8Coefficients标准误差

31、t StatP-valueIntercept13.625414.3994283.0970860.053417X Variable 12.3029320.3437476.6994910.006785由上述结果可知：回归方程为，回归系数表明，每增加一个单位平均增加2.3029个单位；判定系数，表明回归方程的拟合程度较高；估计标准误差，表明用来预测时平均的预测误差为3.8092。7.5（1）方差分析表中所缺的数值如下：变差来源dfSSMSFSignificance F回归11622708.61622708.6359.192.17E-09残差1040158.074015.807总计111642866

32、.67（2）根据方差分析表计算的判定系数。表明汽车销售量的变差中有98.7%是由于广告费用的变动引起的。（3）相关系数可由判定系数的平方根求得：。（4）回归方程为：。回归系数表示广告费用每增加一个单位，销售量平均增加1.420211个单位。（5）由于Significance F2.17E-09，表明广告费用与销售量之间的线性关系显著。7.6 当时，。当，。的平均值的95%的置信区间为：即（1.98，3.94）。（2）当时，。当，。的平均值的95%的预测区间为：（-2.08，7.62）第八章第8章时间序列分析和预测8.1（1）从时间序列图可以看出，国家财政用于国防的支出额大体上呈指数上升趋势。

33、（2）年平均增长率为：。（3）。8.2（1）（2）2010年的预测值为：（3）由Excel输出的指数平滑预测值如下表：2010年时的预测值为：时的预测值为：比较误差平方可知，更合适。8.3（1）第19个月的3期移动平均预测值为：（2）由Excel输出的指数平滑预测值如下表：月份营业额预测0.3误差平方预测0.4误差平方预测0.5误差平方12952283295.0144.0295.0144.0295.0144.03322291.4936.4290.21011.2289.01089.04355300.62961.5302.92712.3305.52450.35286316.9955.2323.81

34、425.2330.31958.16379307.65093.1308.74949.0308.15023.37381329.02699.4336.81954.5343.61401.68431344.67459.6354.55856.2362.34722.39424370.52857.8385.11514.4396.6748.510473386.67468.6400.75234.4410.33928.711470412.53305.6429.61632.9441.7803.112481429.82626.2445.81242.3455.8633.513449445.115.0459.9117.84

35、68.4376.914544446.39547.4455.57830.2458.77274.815601475.615724.5490.912120.5501.49929.416587513.25443.2534.92709.8551.21283.317644535.411803.7555.87785.2569.15611.718660567.98473.4591.14752.7606.52857.5合计87514.762992.550236时的预测值：，误差均方87514.7时的预测值：，误差均方62992.5时的预测值：，误差均方50236。比较各误差平方可知，更合适。（3）根据最小二乘法

36、，利用Excel输出的回归结果如下：回归统计Multiple R0.9673 R Square0.9356 Adjusted R Square0.9316 标准误差31.6628 观测值18方差分析dfSSMSFSignificance F回归分析1232982.5232982.5232.39445.99E-11残差1616040.491002.53总计17249022.9Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept239.7320315.5705515.39655.16E-11206.7239272.7401X Variable 121.9287931.43847415.244495.99E-1118.8793624.97822。

展开阅读全文