《2013级2.2.2用样本的数字特征估计总体的数字特征.ppt》由会员分享,可在线阅读,更多相关《2013级2.2.2用样本的数字特征估计总体的数字特征.ppt(35页珍藏版)》请在三一办公上搜索。
1、众数中位数平均数,2.2.2 用样本的数字特征估计总体的数字特征,三数概念,1、众数 在一组数据中,出现次数最多的数据叫做这一组数据的众数。,2、中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。,3、平均数 一组数据的总和除以数据的个数所得的值。,求下面这组数据的众数、中位数、平均数,众数为6 中位数为6,平均数,也可以说平均数为各个不同数字乘以相应频率之和。,4、4、4、6、6、6、6、8、8、8,如何从频率分布直方图中估计众数?如图:,2.25,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,思考:频率分布直方图中估计
2、的众数与原始数据中的众数2.3不同,为什么?,在频率分布直方图,我们只能直观地看出数据的大概分布情况,从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。,讨论:众数估计总体情况有什么优缺点?,能够体现样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征。,如何从频率分布直方图中估计中位数?,前四个小矩形的面积和=0.49,2.02,后四个小矩形的面积和=0.26,分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。,总结:在频率分布直方图中,把频率分布直方图划分左
3、右两个面积相等的分界线与x轴交点的横坐标称为中位数。,注:图中的数据是小矩形的面积即频率,上图中,设中位数为x,则,思考:2.02这个中位数的估计值,与样本数据的中位数2.0不同,为什么?,从频率分布直方图本身得不出原始的数据内容,频率分布直方图已经损失一些样本信息。,思考:中位数不受少数极端值的影响,这在某些情 况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?,考察100位居民的月均用水量表中的数据,如果把最后一个数据错写成22,并不会对样本中位数产生影响也就是说对极端数据不敏感的方法能够有效地预防错误数据的影响,而在实际应用中人为操作的失误经常造成错误数据。,对极端值
4、不敏感有利的例子:,某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感。这里更好的方法是同时用平均数和中位数来作为参考指标,选择平均数较大且中位数较大的公司就业。,对极端值不敏感有弊的例子:,如何从频率分布直方图中估计平均数?,注:图中的数据是小矩形的面积即频率,平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。,2.02,思考:平均数估计总体情况有什么优缺点?,平均数与每一个样本的数据有关
5、,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,想一想:某次数学期中考试,毛毛同学得了78分。全班共30人,其他同学的成绩为1个100分,4个90分,22个80分,以及一个2分和一个10分。毛毛计算出全班的平均分为77分,所以毛毛回家告诉妈妈说,他这次成绩处于班级“中上水平”。这种说法对吗?,三、三种数字特征的优缺点,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征。,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值
6、的不敏感有时也会成为缺点。,3、平均数与每一个样本的数据有关,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,四 众数、中位数、平均数的简单应用,例 某工厂人员及工资构成如下:,(1)指出这个问题中周工资的众数、中位数、平均数,(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?,分析:众数为200,中位数为220,平均数为300。因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。,标准差与方差,如:有两位
7、射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:,甲:,乙:,如果你是教练,你应当如何对这次射击作出评价?,如果看两人本次射击的平均成绩,由于,思考:两人射击的平均成绩是一样的.那么两个人的水平就没有什么差异吗?若有差异你能说明其水平差异在那里吗?,甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?,环数,甲的成绩比较分散,乙的成绩相对集中,比较稳定.,一组数据的最大值与最小值的差称为极差;极差越大,数据越分散,极差越小,数据越集中,甲的环数极差=10-4=6 乙的环数极差=9-5=4.因此我们可以得到一种“去掉一个最高分,去掉一个最低分”的统
8、计策略.,1、标准差是样本数据到平均数的一种平均距离。一般用s表示。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。,考察样本数据的分散程度的大小,最常用的统计量是标准差,由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差,1、标准差是样本数据到平均数的一种平均距离。一般用s表示。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。,思考:1、标准差的取值范围是什么?,2、当标准差为0时,样本数据都是相等的。,思考:2、标准差为0的样本数据有什么特点?,1、标准差的值必是大于等于0的;,思考3:对于一个容量为2的样本:x1,x2(x1x2)
9、,则,在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?,3、标准差越大,数据的离散程度越大,数据较分散;标准差越小,数据的离散程度越小,数据较集中在平均数周围.,用计算器可算出甲,乙两人的的成绩的标准差,由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.,上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来.,例题1:画出下列四组样本数据的条形图,说明它们的异同点.,解:四组样本数据的条形图是:,标准差还可以用于对样本数据的另外一种解释.例如对于城市居民月均用水量样本数据,其平均数,标准差s=0.868.在这
10、100个数据中,落在区间(-s,+s)=1.105,2.841外的有28个;落在区间(-2s,+2s)=0.237,3.709外的只有4个;落在区间(-3s,+3s)=-0.631,4.577外的有0个.,一般地,对于一个正态总体,数据落在区间(-s,+s)、(-2s,+2s)、(-3s,+3s)内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用(参考教材P79“阅读与思考”).,2.方差,1、标准差:,在刻画样本数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般采用标准差,从数学角度考虑,有时也可以用标准差的平方 方差来替代标准差作为测量
11、数据分散程度的工具。,现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的,如何求总体的标准差和平均数?-通常采用样本的平均数和标准差去估计总体的平均数与标准差,只要样本的代表性好,这样做就是合理的.,例2、甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm),甲:25.46,25.32,25.45,25.39,25.36 25.34,25.42,25.45,25.38,25.42 25.39,25.43,25.39,25.40,25.44 25.40,25.42,25.35,25.41
12、,25.39,乙:25.40,25.43,25.44,25.48,25.48 25.47,25.49,25.49,25.36,25.34 25.33,25.43,25.43,25.32,25.47 25.31,25.32,25.32,25.32,25.48,从生产的零件内径的尺寸看,谁生产的质量较高?,解:用计算器计算可得:,例2、甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm),例3:为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换已知某校使用的100只日光灯在必须换掉前的使用天数如下,试
13、估计这种日光灯的平均使用寿命和标准差,解:,各组组中值依次为165,195,225,255,285,315,345,375,由此算得平均数为,从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本。这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数,标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的的代表性差,那么对总体所作出的估计就会产生偏差;样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作
14、中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.,练习:,A,2.求数据2,1,0,-1,1的方差。,B,3.,4.,回顾:,1用样本的数字特征估计总体的数字特征分两类:用样本平均数估计总体平均数。用样本方差、标准差估计总体方差、标准差。样本容量越大,估计就越精确。2方差、标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度,方差越小,数据的波动越小。,小结:,1.众数、中位数、平均数的概念2.众数、中位数、平均数与频率分布直方图的关系3.三种数字特征的优缺点4.什么是标准差?5.如何利用标准差刻画数据的离散程度?,1.数据:1,1,3,3的众数和中位数分别是()A.1或3,2B.3,2C.1或3,1或3D.3,3,2.频率分布直方图中最高小矩形的中间位置()所对的数字特征是A.中位数B.众数C.平均数D.标准差,练习,3.,4.,5.,