《统计及统计案例.ppt》由会员分享,可在线阅读,更多相关《统计及统计案例.ppt(67页珍藏版)》请在三一办公上搜索。
1、统计及统计案例,考点一、三种常用抽样方法:,(1)简单随机抽样:设一个总体的个数为N。如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。,简单随机抽样的常用方法:抽签法,随机数表法,知识点:,(2)系统抽样(也称为机械抽样):当总体的个数较多时,采用简单随机抽样较为费事。这时可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。,系统抽样的步骤:,采用随机的方式将总体中的个体编号;,整个的编号分段(即分成几个部分),要确定分段的间隔k。当N/n(N为总体中的
2、个体的个数,n为样本容量)是整数时,k=N/n;当N/n不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数N能被n整除,这时k=N/n;,在第一段用简单随机抽样确定起始的个体编号1;,按照事先确定的规则抽取样本(通常是将1加上间隔k得到第2个编号1+k,第3个编号1+2k,这样继续下去,直到获取整个样本)。,(3)分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。,各种抽样方法的联系与区别:,方法:简单随机抽样,系统抽样,分层抽样都是不放回抽样
3、用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取时任一个体被抽到的概率为 在整个抽样过程中各个个体被抽到的概率为,简单随机抽样是一种等概率抽样.常用抽签法和随机数表法实现简单随机抽样.系统抽样又称等距抽样,号码序列一确定,样本即确定了.分层抽样就是按比例抽样,也是等概率抽样.,例1.某校共有学生2000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为(),A.24 B.18 C.16 D.12,C,解:依题意二年级的女生有380名,那么三年级学生的人数应该是20
4、00-373-377-370-380=500,即在总体中各个年级的人数比例为332,故在分层抽样中应在三年级抽取的学生人数为64=16.,名师1:,考点二、总体分布的估计:,随着试验次数的不断增加,试验结果的频率值在相应的概率值附近摆动.当试验次数无限增大时,频率值就变成相应的概率了.此时随着样本容量无限增大其频率分布也就会排除抽样误差,精确地反映总体取的概率分布规律,通常称为总体分布。,1、用样本的频率分布去估计总体分布:,由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体分布,一般地,样本容量越大,估计越精确.,总体分布的估计:,(1)频率分布表;,(2)频率分布直方图;,(1)
5、中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值;(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.,频率分布直方图;,在频率分布直方图中(1)中位数:中位数左边和右边的直方图的面积应该相等.(2)平均数:每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:众数是最高的矩形的中点的横坐标.,(3)频率分布折线图;,频率分布折线图,频率分布折线图的优点它反映了数据的变化趋势.如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋于总体分
6、布的密度曲线,(4)总体密度曲线;,总体密度曲线,(5)茎叶图。,总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.例如图中阴影部分的面积,就是总体在区间(a,b)内取值得百分比,2、用样本的数字特征估计总体的数字特征:,1).众数、中位数、平均数,平均数:用一组数据的总和除以数据的个数所得的商;,众 数:在一组数据中出现次数最多的数;(若有两个或两个以上的数字出现的次数一样多,则这些数字皆为该组数据的众数,若每个数据出现的次数都一样,则认为该组数据没有众数),中位数:将一组数据按照大小顺序排列后,若数据个数是奇数,则最中间的数字为中位数;若数据个数是偶数,则最中间
7、两个数字的平均数为中位数。,2).标准差、方差,标准差:,方 差:,随机变量的方差和标准差都反映了随机变量取值偏离于均值的平均程度。方差或标准差越小,则随机变量偏离于均值的平均程度越小。,1.右图是某运动员在一次篮球邀请赛中每场得分的茎叶统计图,则该运动员在此次邀请赛中得分的平均分和中位数分别是()A.15和15 B.16和17 C.17和15 D.18和17,0,1,2,3,7,5 5 7,1 1,0,D,练习:,例2 某工厂有工人1000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层抽样方法(按A类、B类分二层)从该工厂的工人中
8、共抽查100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数).从A类工人中的抽查结果和从B类工人中的抽查结果分别如下表1和表2.,先确定x,y,再在答题纸上完成下列频率分布直方图.就生产能力而言,A类工人中个体间的差异程序与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论),分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表,先确定x,y,再在答题纸上完成下列频率分布直方图.就生产能力而言,A类工人中个体间的差异程序与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回
9、答结论),解:由题意知A类工人中应抽查25名,B类工人中应抽查75名.故4+8+x+5+3=25,得x=5,6+y+36+18=75,得y=15.频率分布直方图如下,从直方图可以判断:B类工人中个体间的差异程度更小.,分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表,A类工人生产能力的平均数,B类工人生产能力的平均数以及全工厂工人生产能力的平均数的估计值分别为123,133.8和131.1.,统计及统计案例,第二课时,练习:从某小学随机抽取100名同学,将他们身高(单位:cm)数据绘制成频率分布直方图。由图中数据可知a=。若
10、要从身高在120,130,130,140,140,150三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在140,150内的学生中选取的人数应为。,0.03,3,名师点题2,名师3:,甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表,s1,s2,s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有()A.s3s1s2 B.s2s1s3C.s1s2s3 D.s2s1s3,例4:某高校在2009年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分为五组,得到的频率分布直方图如下图所示.(1)为了能选拔出最优秀的学生,高校决定在第3、4组中用分层
11、抽样抽取5名学生进入第二轮面试,求第3、4组每组各抽取多少名学生进入第二轮面试?(2)在(1)的前提下,学校决定在5名学生中随机抽取2名学生接受A考官进行面试,求第4组至少有一名学生被考官A面试的概率?,(2)在(1)的前提下,学校决定在5名学生中随机抽取2名学生接受A考官进行面试,求第4组至少有一名学生被考官A面试的概率?,作业评讲:为了了解中华人民共和国道路交通安全法在学生中的普及情况,调查部门对某校6名学生进行问卷调查6人得分情况如下:5,6,7,8,9,10把这6名学生的得分看成一个总体()求该总体的平均数;()用简单随机抽样方法从这6名学生中抽取2名,他们的得分组成一个样本求该样本平
12、均数与总体平均数之差的绝对值不超过0.5的概率,作业评讲:为了了解中华人民共和国道路交通安全法在学生中的普及情况,调查部门对某校6名学生进行问卷调查6人得分情况如下:5,6,7,8,9,10把这6名学生的得分看成一个总体()用简单随机抽样方法从这6名学生中抽取2名,他们的得分组成一个样本求该样本平均数与总体平均数之差的绝对值不超过0.5的概率,作业:p189名师点题3,补充知识:,第一、计算原理,1.分类加法计数原理:完成一件事有两类不同的方案,在第一类方案中有m种不同的方法,在第二类方案中有n种不同的方法。那么完成这件事共有N=m+n种方法,2.分步乘法计数原理:完成一件事需要两个步骤,做第
13、1步有m种不同的方法,做第二步有n种不同的方法,那么完成这件事共有N=mn种方法,注意:用乘法原理时,和顺序有关。,第二、组合数,计算公式:,例如:从6名学生中抽取2名,一共有,注意:用组合数公式时,和顺序没有关系。,E N D!,4、线性回归:,(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。注:与函数关系不同,相关关系是一种非确定性关系。,(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。,(3)散点图:表示具有相关关系的两个变量的一组数据的图形。,(4)回归直线方程:,其中,。相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。,回归
14、方程必须经过样本点的中心。,(5)相关系数:,相关系数的性质:,(1)|r|1。,(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小,相关指数 R2:刻画回归的效果.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性越强).,且(r 为相关系数),即相关指数是相关系数的平方.,数据点和它在回归直线上相应位置的差异 是随机误差的效应,称 为残差.,残差分析:是回归诊断的一种方法.通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,在方面的分析工作称为残差分析.利用残差图进
15、行残差分析的具体步骤如下:,(1)计算每组观测数据的残差,即残差等于观测值减预测值.当残差比较小时,说明回归模型拟合数据较好;如:,(2)画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量x或因变量的预测值等,残差图是一种散点图;如:,(3)分析残差图;若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(4)找异常值.根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离横坐标的点.如果存在远离坐标轴的点,就要研究它出现的原因.,1.下列现象属于相关关系的是()A.家庭收入越多,消费
16、也越多 B.圆的半径越大,圆的面积越大 C.气体体积随温度升高而膨胀,随压力加大则减少 D.在价格不变的条件下,商品销售量越多销售额也越多,2.设产品产量与产品单位成本之间的线性相关系数为-0.87,这说明二者之间存在着()A.高度相关 B.中度相关 C.弱度相关 D.极弱相关,A,A,独立性检验:利用检验统计量K2来确定在多大程度可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.,独立性检验:根据采集样本的数据,先利用三维柱形图和二维条形图粗略判断两个分类变量是否有关系,再利用公式计算 K2 的观测值 k,比较与临界值大小关系,来判定事件 x 与 y 是否无关的问题.,三维柱
17、形图,二维条形图,等高条形图,一般地,假设有两个分类变量X和Y,它们的值域分别为 x1,x2 和 y1,y2,其样本频数列联表(称为22列联表)为:,22 列联表,1.通过三维柱形图判断和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.,若要推断的论述为 H1:“X 和 Y 有关系”,可按照如下步骤判断 H1 成立的可能性:,(1)在三维柱形图中,主对角线上两个柱形高度的乘积 ad 和副对角线上两个柱形高度的乘积 bc 相差越大,H1 成立的可能性就越大;,(2)在二维条形图中,可以估计满足条件 X=x1 的个体中具有 Y=y1 的个体所占的,可
18、以估计满足条件 X=x2 的个体中具有 Y=y2的个体所占的 两个比例的值相差越大,H1成立的可能性就越大.,2.利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:提出假设检验问题.根据观测数据计算随机变量K2的观测值k,其值越大,说明“X与Y有关系”成立的可能性越大.(3)查表,给出推断结果极其解释.,两个特殊的临界值:(1)k=6.635;(2)k=2.706.,(1)如果k 6.635,就有99%的把握认为“X与Y有关系”;,(2)如果k2.706,就认为没有充分的证据显示“X与Y有 关系”.,三维柱形图中柱的高度表示的是 A.分类变量的百分比
19、 B.分类变量的样本数 C.分类变量的具体值 D.各分类变量的频数,2.下列关于对等高条形图说法正确的是 A.等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比 D.等高条形图表示的是分类变量的实际高度,D,C,2.用样本估计总体:频率分布直方图、总体密度曲线、茎叶图、众数、中位数、平均数、标准差、方差,3.变量间的相关关系、线性回归,4.统计案例 回归分析的基本思想,独立性检验的基本思想,例1:某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单的随机抽样、分层抽样和系
20、统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为:1,2,270;使用系统抽样时,将学生统一随机编号1,2,270,并将整个编号依次分为10段如果抽得号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,172,200,227,254;30,57,84,111,138,165,192,219,246,270;关于上述样本的下列结论中,正确的是 A.、都不能为系统抽样 B.、都不能为分层抽样C.、都可能为系统抽样 D
21、.、都可能为分层抽样,D,1.某单位有500名职工,其中不到35岁的有125人,35岁49岁的有280人,50岁以上的有95人.为了了解该单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,应该用_抽样法.,分层,2.某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆舒畅行检验,这三种型号的轿车依次应抽取_辆.,6、30、10,练习:,延伸拓展2 某公司在过去几年内使用某种型号的灯管1000支,该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示:,(1)将各组的频率填入表中:(2)根据上述统计结果,计算灯管使用寿命不足1500小时的频率;,(2)解:由(1)可得0.048+0.121+0.208+0.223=0.6,所以灯管使用寿命不足1500小时的频率为0.6.,0.048,0.121,0.208,0.223,0.193,0.165,0.042,练习:P203 第10题,