《2.2.1用样本的频率分布估计总体分布.ppt》由会员分享,可在线阅读,更多相关《2.2.1用样本的频率分布估计总体分布.ppt(24页珍藏版)》请在三一办公上搜索。
1、用样本频率分布估计总体分布,第二课时,统计的基本思想方法:,用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.,统计的核心问题:,如何根据样本的情况对总体的情况作出一种推断.这里包括两类问题:,一类是如何从总体中抽取样本?,另一类是如何根据对样本的整理、计算、分析,对总体的情况作出推断.,用样本的有关情况去估计总体的相应情况,这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。,整体介绍:,将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。频率:每
2、组数据的个数除以全体数据个数的商叫做该组的频率。根据随机抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。,说明:样本频率分布与总体频率分布有什么关系?通过样本的频数分布、频率分布可以估计总体的频率分布.,典例回放:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费。,如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?,为了较合理地确定这个标准,你认为需要做哪些工作?,思考:由上表,大家可以得到什么信息?,通过抽样,我们获得了100位
3、居民某年的月平均用 水量(单位:t),如下表:,1、求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.1,2、决定组距与组数(将数据分组),3、将数据分组(8.2取整,分为9组),复习:画频率分布直方图的步骤,4、列出频率分布表.(学生填写频率/组距一栏),5、画出频率分布直方图。,组距:指每个小组的两个端点的距离,组距组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。,1.求极差:,步骤:,频率分布直方图,2.决定组距与组数:,组数=,4.3-0.2=4.1,3.将数据分组,0,0.5),0.5,1),4,4.5,4.列频率分布表,100位居
4、民月平均用水量的频率分布表,5.画频率分布直方图,探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。,一、求极差,即数据中最大值与最小值的差,二、决定组距与组数:组距=极差/组数,三、分组,通常对组内数值所在区间,取左闭右开区间,最后一组取闭区间,四、登记频数,计算频率,列出频率分布表,画一组数据的频率分布直方图,可以按以下的步骤进行:,五、画出频率分布直方图(纵轴表示频率组距),频率分布直方图如下:,连接频率分布直方图中各小长方形上端的中点,得到
5、频率分布折线图,利用样本频分布对总体分布进行相应估计,(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线总体密度曲线。,(2)样本容量越大,这种估计越精确。,(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?,总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。,用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。,总体密度曲线反映
6、了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,茎叶图,某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:,(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39,(1)乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39,茎叶图,甲,乙,012345,2 55 41 6 1 6 7 94 9 0,84 6 36 83 8 9 1,叶就是从茎的旁边生长出来的数,表示得分的个位数。,茎是指中间的一列数,表示得分的十位数,茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。从
7、运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。,一般地,画出一组样本数据的茎叶图的步骤如下:,第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;,第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在中间;,第三步,将各个数据的叶按大小次序写在茎右(左)侧.,用茎叶图
8、表示数据的分布情况是一种好方法,茎叶图有以下优点:,(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.,问题1:比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当?,问题2:对任意一组样本数据,是否都适合用茎叶图表示?为什么?,不适合样本容量很大或茎、叶不分明的样本数据.,练习:为了了解高一学生的体能情况,某校随机抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出了频率分布直方图.图中从左到右各小长方形的面积之比为2:4:17:15:9:3,第二小组的频数为12.(1)第二小组的频率是多少?(2)样本容量是多少?(3)若次数在110以上(含110次)为达标,试估计该校全体高一学生的达标率约是多少?,