《用样本的频率分布估计总体的分布1.ppt》由会员分享,可在线阅读,更多相关《用样本的频率分布估计总体的分布1.ppt(37页珍藏版)》请在三一办公上搜索。
1、2.2 用样本估计总体,.2.1用样本的频率分布估计总体分布,一、复习,1.随机抽样有哪几种基本的抽样方法?,2.统计的基本思想。,简单随机抽样、系统抽样、分层抽样.,通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.,1.频数:在总体(或样本)中,某个个体出现的次数叫做这个个体的频数。2.频率:某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率。3.性质:在总体(或样本)中,各个个体的频率之和等于1。,二、基本概念及其性质(频数和频率),4.所有数据(或数据组)的频数的分布变化规律叫做样本的频率分布。,5.频率分布的表示形式有:样本频率分布表样本频率分布图 样本
2、频率分布条形图 样本频率分布直方图样本频率分布折线图,知识探究(一):频率分布表,【问题】某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):,3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.83.3 2.8 2.3 2.2 1.7 1.3 3.6
3、 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.33.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.02.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2,思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,思考2:样本数据
4、中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组?,0.24.3,(4.3-0.2)0.5=8.2,思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?,思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?,0,0.5),0.5,1),1,1.5),4,4.5.,思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?,用样本的频率分布估计总
5、体分布.,思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?,88%的居民月用水量在3t以下,可建议取a=3.,思考7:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.按统计原理,若样本的容量为n,分组数一般在(1+3.3lgn)附近选取.当样本容量不超过100时,按照数据的多少,常分成512组.若以0.1或1.5为组距对上述100个样本数据分组合适吗?,思考8:一般地,列出一组样本数据的频率分布表可以分哪几
6、个步骤进行?,第一步,求极差.(极差=样本数据中最大值与最小值的差),第二步,决定组距与组数.(设k=极差组距,若k为整数,则组数=k,否则,组数=k+1),第三步,确定分点,将数据分组.,第四步,统计频数,计算频率,制成表格.(频数=样本数据落在各小组内的个数,频率=频数样本容量),上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距.,宽度:组距,知识探究(二):频率分布直方图,思考2:频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?,各小长方形的面积=频率,各小长方形的面积之和=1,频率分布直方图特点:非常直观地表明了样本数据的分布情况,使我们能够看到
7、频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.,(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;,(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;,(3)居民月均用水量的分布有一定的对称性等.,图形说明问题:,一般地,频率分布直方图的作图步骤,第一步,画平面直角坐标系.,第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.,第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.,频率分布直方图作法的讨论,为了更加细致地分析样本的频率分布以估计总体的分布,组数是不是越多越好?,影响组数与组距的因素,因素1
8、:样本容量的大小;因素2:原始数据的精细程度;当样本容量不超过100时,常分成5-12组。这是由统计经验获得的。,理论迁移,例 某地区为了了解知识分子的年龄结构,随机抽样50名,其年龄分别如下:42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29,48,45,53,48,37,28,46,50,37,44,42,39,51,52,62,47,59,46,45,67,53,49,65,47,54,63,57,43,46,58.(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计年龄在3252岁的知识分子所占的比例约是多少
9、.,(1)极差为67-28=39,取组距为5,分为8组.,分 组 频数 频率 27,32)3 0.06 32,37)3 0.06 37,42)9 0.18 42,47)16 0.32 47,52)7 0.14 52,57)5 0.10 57,62)4 0.08 62,67)3 0.06 合 计 50 1.00,样本频率分布表:,(2)样本频率分布直方图:,(3)因为0.06+0.18+0.32+0.14=0.7,故年龄在3252岁的知识分子约占70%.,例2:为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方
10、形面积之比为2:4:17:15:9:3,第二小组频数为12.第二小组的频率是多少?样本容量是多少?若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?,频率分布直方图如下:,连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图,0.4,0.3,0.2,0.1,知识探究(三):频率分布折线图,总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。,当样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近一条光滑曲线总体密度曲线,总体密度曲线,用样本分布直方图去估计相应的总体分布时,一般样本容量越
11、大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。,总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,茎 叶 图,某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:,(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39,(2)乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39,注:中间的数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。,甲,乙,012345,846336838
12、91,2554161679490,茎叶图,当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有的信息,而且 可以随时记录,给数据的记录和表示都方便。,练习:某中学高一(2)班甲,乙两名同学自高中以来每场数学考试成绩情况如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94乙的得分:83,86,93,99,88,96,98,98,79,85,97画出两人数学成绩茎叶图,请根据茎叶图对两人的成绩进行比较。,小 结 图形 优点 缺点,频率分布直方图,1)易表示大量数据2)直观地表明分布的情况,丢失一些信息,茎叶图,1)无信息损失2)随时方便记录,只能表示容量较小
13、的数据,课堂小结,表示样本分布的方法:(1)频率分布表(2)频率分布图(包括直方图和条形图)(3)频率分布折线图(4)茎叶图,1.频率分布表,表示样本的分布的方法:,2.频率分布直方图,样本频率分布中,当样本容量无限增大,组距无限缩小,样本频率分布直方图接近于一条光滑曲线总体密度曲线,反映了总体分布。,3.频率分布折线图,1.总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布。2.总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。,小结,