《统计与概率102用样本估计总体.ppt》由会员分享,可在线阅读,更多相关《统计与概率102用样本估计总体.ppt(69页珍藏版)》请在三一办公上搜索。
1、重点难点重点:用样本的频率分布估计总体分布;用样本的数字特征估计总体的数字特征难点:频率分布直方图的理解和应用,知识归纳1编制频率分布直方图的步骤如下:求极差:极差是一组数据的最大值与最小值的差将数据分组:通常对组内数值所在区间取左闭右开区间,最后一组取闭区间,也可以将样本数据多取一位小数分组;,列频率分布表:登记频数,计算频率,列出频率分布表将样本数据分成若干小组,每个小组内的样本个数称作频数,频数与样本容量的比值叫做这一小组的频率频率反映数据在每组 的大小,所占比例,在频率分布直方图中,纵轴表示“频率/组距”,数据落在各小组内的频率用小矩形的面积表示,各小矩形的面积总和等于1.,2频率分布
2、折线图(1)把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图(2)总体密度曲线如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线yf(x)来描绘,这条光滑的曲线就叫总体密度曲线,3茎叶图统计中还有一种被用来表示数据的图叫做茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数在样本数据较少、较为集中,且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示,但当样本数据较多时,茎叶图就不太方便,4平均数、中位数和众数(1)平均数:一组数据的总和除以数据的个数所得的商就是平均数(2)中位数
3、:如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数是这组数据的中位数;当数据有偶数个时,处在最中间两个数的平均数,是这组数据的中位数(3)众数:出现次数最多的数(若有两个或几个数据出现得最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数),(4)在频率分布直方图中,最高小长方形的中点所对应的数据值即为这组数据的众数而在频率分布直方图上的中位数左右两侧的直方图面积应该相等,因而可以估计其近似值平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,把样本方差的算术平方根叫做这组数
4、据的样本标准差(3)数据的离散程度可以通过极差、方差或标准差来描述,其中极差反映了一组数据变化的最大幅度方差则反映一组数据围绕平均数波动的大小,2中位数可能不在样本数据中3计算公式用错或计算错误计算平均数、方差、标准差等时计算量大,要注意计算结果的准确性,解题技巧1样本频率直方图与样本的数字特征在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;中位数的估计值,应使中位数左右两边的直方图面积相等;最高小长方形的中点所对应的数据值即为这组数据的众数2方差是刻画一组数据离散程度的量,方差越大,这组数据波动越大,越分散讨论产品质量、售价高低、技术高低
5、、产量高低、成绩高低、寿命长短等等问题,一般都是通过方差来体现,(2)数据x1、x2、xn与数据x1m、x2m、xnm的方差相等(3)若x1、x2、xn的方差为s2,则kx1,kx2,kxn的方差为k2s2.计算方差时,要依据所给数据的特点恰当选取公式以简化计算,例1(09湖北)如图是样本容量为200的频率分布直方图根据样本的频率分布直方图估计,样本数据落在6,10)内的频数为_,数据落在2,10)内的概率约为_解析:200(0.084)64;(0.020.08)40.4.答案:64;0.4,点评:1.依据频率分布直方图计算时要牢记,纵轴为频率/组距,小矩形的面积才表示频率2可以用样本的频率估
6、计概率,(文)(2010广东玉湖中学)200辆汽车经过某一雷达地区,时速频率分布直方图如图所示,则时速超过70km/h的汽车数量为()A1辆 B10辆C20辆 D70辆,解析:(8070)0.0120020.答案:C,(理)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图;由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a、b的值分别为(),A0.27,78 B0.27,83C2.7,78 D2.7,83解得:d0.05,后6组的频数公差为0.05,所以视力在
7、4.6到5.0之间的学生数为(0.270.220.170.12)10078人答案:A,点评:也可以先求各小组的频数解答如下:设第i组的频数为ai(i1,2,9),,例2(09江苏)某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:则以上两组数据的方差中较小的一个为s2_.,点评:(1)如果注意观察两组数据可以发现,前两个数据相同,后三个数据,甲班更接近,故方差较小,可不必计算乙班的方差,(2010山东文)在某项体育比赛中,七位裁判为一选手打出的分数如下:90899095939493去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为()
8、A92,2 B92,2.8C93,2 D93,2.8,答案:B,例3某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30min抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99;乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种?(2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定,分析:系统抽样又称等距抽样,从传送带上每隔30min抽取一包产品符合等距抽样的特征;又样本数据都是两位数或三位数,故取十位,百位为茎,个位为叶,制作茎叶图;比较两个车间生产的产品的稳定性可通过计算方差作出判断,
9、解析:(1)因为间隔时间相同,故是系统抽样(2)茎叶图如下:,点评:从茎叶图可看出,甲车间产品重量主要集中在98103之间,而乙车间产品重量分布则较分散,故不计算方差也可直观作出判断:甲车间产品较稳定,(文)(2010湖南省湘潭市)下图是2009年央视挑战主持人大赛中,7位评委为某选手打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数为(),A.83 B84 C85 D86答案:C,(理)(09安徽)某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,3
10、75,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430,(1)画出A、B的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量稳定性进行比较,写出统计结论,解析(1),(2)由于每个品种的数据都只有25个,样本数不大,画茎叶图很方便;此时茎叶图
11、不仅清晰明了的展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据(3)通过观察茎叶图可以看出:品种B的亩产量集中在383416之间,而品种A的亩产量则较分散,故可就亩产量的稳定性得出结论:B品种较稳定.,例4要加工一圆形零件,按图纸要求,直径为10 mm,现在由甲、乙两人加工此种零件,在他们的产品中各抽5件测得直径如下:甲:10.0510.029.979.9610.00乙:10.0010.0110.029.9710.00问甲、乙两人谁生产的零件较好?分析:通过计算两组数据的和s2,然后加以比较,再作出判断,由计算可知两者样本均值相同,前者样本方差较大,由此估计工人乙生
12、产的零件质量较好总结评述:一组数据的方差,刻画了这组数据波动的大小(即各数据偏离平均数的大小,也称离散性、差异性)方差越大,说明这组数据的波动越大,即这组数据越分散,有甲、乙两种产品,在连续6年中各年的平均售价如下(单位:元/件):则售价较为稳定的产品为_,两种产品的平均售价相同而s甲s乙,因此可以作出估计,甲种产品的售价比较稳定答案:甲,一、选择题1(09福建)一个容量为100的样本,其数据的分组与各组的频数如下:则样本数据落在(10,40上的频率为()A0.13 B0.39 C0.52 D0.64答案C,210名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,1
13、6,14,12,设其平均数为a,中位数为b,众数为c,则有()Aabc BbcaCcab Dcba答案D,二、填空题3(2010山东东营)容量为100的样本的频率分布直方图如图所示,试根据图形中的数据填空(1)样本数据落在范围6,10)内的频率为_;(2)样本数据落在范围10,14)内的频数为_,答案(1)0.32(2)36,1在育才中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图已知图中从左到右的第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05.则第二小组的小长方形的高为(),A0.04 B0.40
14、C10 D0.025答案A解析第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05.第二小组的频率为:1(0.300.150.100.05)0.40.,2(2010山东省枣庄市)对某种电子元件进行寿命跟踪调查,所得样本频率分布直方图如图,由图可知:一批电子元件中,寿命在100300小时的电子元件的数量与寿命在300600小时的电子元件的数量的比大约是(),答案C,3(2010河南新乡调研)随机抽查某中学高三年级100名学生的视力情况,得其频率分布图如下图所示已知前4组的频数成等比数列,后6组的频数成等差数列,则视力在4.5到5.0之间的学生人数为_人,答案87解析由直方图可知
15、第一组有0.1(4.44.3)1001人,第二组有0.30.11003人,故前四组人数依次为1,3,9,27.,4(2010聊城模考)为了解学生参加体育活动的情况,我市对2009年下半年中学生参加体育活动的时间进行了调查统计,设每人平均每天参加体育锻炼时间为x(单位:分钟),按锻炼时间分下列四种情况统计:0 x10 11x2021x30 x30有10000名中学生参加了此项活动,上图是此次调查中做某一项统计工作时的程序框图,其输出的结果是6200,则平均每天参加体育锻炼的时间不超过20分钟(20分钟)的频率是_,答案0.38,5(2010陕西文)为了解学生身高情况,某校以10%的比例对全校70
16、0名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170185 cm之间的概率;(3)从样本中身高在180190 cm之间的男生中任选2人,求至少有1人身高在185190 cm之间的概率,解析(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数为400.(2)由统计图知,样本中身高在170185 cm之间的学生有141343135人,故由f估计该校学生身高在170185 cm之间的概率p10.5.(3)样本中身高在180185 cm之间的男生有4人,设其编号为,,样本中身高在185190 cm之间的男生有2人,设其编号为,
17、从上述6人中任取2人的树状图为:,6(2010山东济南市模拟)从某校高三年级800名男生中随机抽取50名学生测量其身高,据测量被测学生的身高全部在155cm到195cm之间将测量结果按如下方式分成8组:第一组155,160),第二组160,165),第八组190,195,如下图是按上述分组得到的频率分布直方图的一部分已知:第1组与第8组的人数相同,第6组、第7组和第8组的人数依次成等差数列,(1)求下列频率分布表中所标字母的值.,(2)若从样本身高属于第6组和第8组的所有男生中随机的抽取2名男生,记他们的身高分别为x、y,求满足|xy|5事件的概率解析(1)由直方图可得前5组的频率是(0.00
18、80.0160.040.040.06)50.82,第8组与第1组的人数相同,第8组的频率是0.00850.04,频数为z0.04502,第6、7两组的频率为1(0.820.04)0.14,频数为0.14507人,xm7,x,m,z成等差数列,xz2m,m3,x4,从而y0.08,n0.06,p0.008,z2.,(2)由(1)知,身高在180,185)内的人数为4人,设为a,b,c,d,身高在190,195内的人数为2人,设为A,B,若x,y180,185)有ab,ac,ad,bc,bd,cd共6种情况;若x,y190,195有AB有1种情况,若x180,185),y190,195时,有aA,bA,cA,dA,aB,bB,cB,dB有8种情况所以基本事件总数为61815种,