《用样本估计总体ppt课件.ppt》由会员分享,可在线阅读,更多相关《用样本估计总体ppt课件.ppt(88页珍藏版)》请在三一办公上搜索。
1、前面我们研究了通过抽样来收集数据的方法,了解了提高样本代表性的一些具体方法,数据被收集后,必须从中寻找所包含的讯息,以便我们能通过样本来估计总体。,样本的特征直接反映了总体的特征,我们通常用样本的频率和数字特征来评估总体的特征。,复习回顾,主要内容,2.2.1 用样本的频率分布估计总体分布,2.2.2 用样本的数字特征估计总体的数字特征,用样本的频率分布估计总体分布,2.2.1,【探究】我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费,如果希望大
2、部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做那些工作?,很明显,如果水价太高,影响居民日常生活,水价太低,不利于节约用水.,为了确定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等等.,如今的时代是个互联网的时代,要想不落后于时代,就得学习互联网知识。以下是小编整理的关于互联网教育的心得体会,欢迎大家阅读。互联网教育学习心得体会一我于1988年参加工作,刚参加工作时,也许是工作不够深入的缘故,自我感觉所学知识还能满足工作需要。近年来,随着社会的进步,人们法制观
3、念的提高以及对科学知识的追求不断深入,使我深感自身知识的贫乏。于是,我想到了必须为自己充电,拓宽知识面,使自己更加适应工作需要。结合自己的工作需要和特点,XX年我报考了山大网络的护理专科学习。两年来,在老师的关怀下,我克服重重困难,虚心求学,取得了较好的成绩。要说网络学习有哪些体会,我想可以用恒、挤、勤、用四个字来概括。一是恒,即网络学习必须持之以恒。没有一颗恒心,是达不到预期的学习目的的。网络学习是在职学习,既要搞好本职工作,又要学好专业知识,加之我在医院服务单位工作,服务的对象是病人,三班倒,整天忙得不可开交。学习与工作的矛盾,学习与家务的矛盾,都随之出现,要解决好这些矛盾,就必须有一颗持
4、之以恒的心,再加上我所选的护理专业,枯燥、单调的课程内容更是对我的严峻考,由于城市住户较多,因此我们采用抽查的方式进行,下面是对100户进行抽查的结果:,样本容量可以根据实际情况适当选择,并不一定越大越好.,这100户用水量在0.24.3之间,除此之外,我们很难得到其他信息,因此我们必须对数据的潜在信息进行分析,人类辨识影像的能力要优於辨识文字与数字的能力 ,因此我们采用图形的方式来展现数据时,常常比我们直接观察数据要来的快。,一幅好的图胜过一千个字,知识探究(一):频率分布表,3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5
5、 1.2 0.2 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.83.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.33.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.02.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5
6、 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2,思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,知识探究(一):频率分布表,思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组?,0.24.3,知识探究(一):频率分布表,思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按
7、组距为0.5进行分组,那么这些数据共分为多少组?,0.24.3,(4.30.2)0.5=8.2,知识探究(一):频率分布表,思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?,知识探究(一):频率分布表,思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?,0,0.5),0.5,1),1,1.5),4,4.5.,知识探究(一):频率分布表,思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?,知识探究(一):频率分布表,知识探究(一):频率分布表,知识探
8、究(一):频率分布表,思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?,知识探究(一):频率分布表,思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?,用样本的频率分布估计总体分布.,知识探究(一):频率分布表,思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?,知识探究(一):频率分布表,思考6:如
9、果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?,88%的居民月用水量在3t以下,可建议取a=3.,知识探究(一):频率分布表,思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?,知识探究(一):频率分布表,思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?,分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.,知识探究(一):频率分布表,思考8:对样本数据进行分组,其组数是由哪些因素确定的?,知识
10、探究(一):频率分布表,对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.,组距和组数没有固定的标准,常常需要尝试和选择的过程,一般数据较少(100以内)时,分成512组,知识探究(一):频率分布表,知识探究(一):频率分布表,思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,知识探究(一):频率分布表,思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差.,最大数与最小数的差,反映了数据的变化范围,知识探究(一):频率分布表,思考10:
11、一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差.,第二步,决定组距与组数.,知识探究(一):频率分布表,思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差.,第二步,决定组距与组数.,第三步,确定分点,将数据分组.,知识探究(一):频率分布表,思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差.,第二步,决定组距与组数.,第三步,确定分点,将数据分组.,第四步,列频率分布表.,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形
12、表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3
13、 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布
14、情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.
15、30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量/t,频率组距,0.50.40.30.20.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,知识探究(二):频率分布直方图,思考2:,频率分布直方图中,小长方形的面积表示什么?,所有小长方形的面积和?,知识探究(二):频率分布直方图,
16、思考2:,频率分布直方图中,小长方形的面积表示什么?,所有小长方形的面积和?,小长方形的面积表示该组的频率,知识探究(二):频率分布直方图,思考2:,频率分布直方图中,小长方形的面积表示什么?,所有小长方形的面积和?,小长方形的面积表示该组的频率,所有小长方形的面积和1,知识探究(二):频率分布直方图,思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?,知识探究(二):频率分布直方图,知识探究(二):频率分布直方图,知识探究(二):频率分布直方图,
17、知识探究(二):频率分布直方图,(3)居民月均用水量的分布有一定的对称性等.,知识探究(二):频率分布直方图,思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?,知识探究(二):频率分布直方图,思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?,第一步,画平面直角坐标系.,知识探究(二):频率分布直方图,思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?,第一步,画平面直角坐标系.,第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.,知识探究(二):频
18、率分布直方图,思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?,第一步,画平面直角坐标系.,第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.,第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.,如右图,我们连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.,一般的,随着样本容量的增加,作图时组数也相应的变大,相应的频率分布折线图会越来越接近一条光滑曲线总体密度曲线.,总体密度曲线反映了总体在各个范围内取值的百分比,它比频率分布直方图提供更加精细的信息。,例如:图中阴影部分的面积就表示总体在a ,b内的
19、百分比。,注意点:由于样本是随机的,不同的样本得到的频率分布折线图不同;即使对于同一样本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情况的变化而变化的,因此不能由样本的频率分布折线图得到准确的总体密度曲线。,当堂训练,1一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在2500,3000(元)月收入段应抽出_人.,0.0001,0.0002,0.0003,0.0004,0.0005,10
20、00 1500 2000 2500 3000 3500 4000,月收入(元),频率/组距,25,课堂练习,2(2006年重庆卷)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁18岁的男生体重(kg) ,得到频率分布直方图如下:,根据上图可得这100名学生中体重在56.5,64.5的学生人数是( )A. 20 B. 30 C. 40 D. 50,0.03,0.05,0.07,54.5,58.5,62.5,66.5,70.5,74.5,C,除了上面的几种处理方式外,我们还有一种用来表示数据的图茎叶图,例 某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:甲的得分:
21、12,15,24,25,31,31,36,36,37,39,44,49,50。乙的得分:8,13,14,16,23,26,28,33,38,39,51。 上述的数据可以用下图来表示,中间数字表示得分的十位数,两边数字分别表示两个人各场比赛得分的个位数.,012345,83463683891,5254976611940,甲,乙,通过此图即可看出甲运动员的得分大致对称,发挥比较稳定!,用茎叶图表示有两个突出的优点:,但茎叶图只能表示两位的整数,虽然可以表示两个人的比赛结果(或两个以上的记录),但没有直方图那么直观、清晰。,2.茎叶图可以在比赛时随时记录,方便记录与表示,1.从统计图上没有信息的损失
22、,所有的信息都可以从这个茎叶图中得到,.2.2用样本的数字特征估计总体的数字特征,第一课时,一、众数、中位数、平均数,1、众数,2、中位数,3、平均数: 一组数据的算术平均数,在一组数据中,出现次数最多的数据叫做这一组数据的众数。,将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。,众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.,二、众数,中位数,平均数与频率分布直方图 的关系,1 众数:,在频率分布直方图中,就是最高矩形的中点的横坐标,思考1:在城市居民月均用水量样本数据的频率分布直方图中
23、,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?,2 中位数中位数左边和右边的直方图面积相等,0.250.04+0.750.08+1.250.15+1.750.22+2.250.25+2.750.14+3.25 0.06+3.750.04+4.250.02=2.02(t). 平均数是2.02.,平均数与中位数相等,是必然还是巧合?,3 平均数平均数的估计值等于每个小矩形的面积乘以小矩形底边中点的横坐标之和,思考2:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.
24、973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?,频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.,注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.,思考3:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?,如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低. 平均数大于
25、(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值. 这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.,三种数字特征的优缺点,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎
26、不影响中位数,但显然这一极端值是不能忽视的。,3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,知识探究:标准差,样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中
27、位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.,思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7 甲、乙两人本次射击的平均成绩分别为多少环?,思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?,环数,甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.,ks5u精品课件,思考3:对于样本数据x1,x2,xn, 表示这组数据的平均数。那么
28、到 的距离是什么?,那么样本数据 到 的“平均距离”是什么?,(i=1,2,3,,n),思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据 的平均数为 ,则标准差的计算公式是:,思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据 的平均数为 ,则标准差的计算公式是:,那么标准差的取值范围是什么?标准差为0的样本数据有何特点?,s0,标准差为0的样本数据都相等.,标准差,标准差是样本数据到平均数的一种平均距离。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。,标准差越大离散程度越大,数据较分散;标准差
29、越小离散程度越小,数据较集中在平均数周围.,例题分析,例1 画出下列四组样本数据的条形图,说明他们的异同点.(1) ,;(2) ,;,(3) ,;(4) ,.,例2 甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):,甲 :25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39,乙:25.40 25.43 25.4
30、4 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48,从生产零件内径的尺寸看,谁生产的零件质量较高?,甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高.,说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差. 2.问题中25.40mm是内径的标准值,而不是总体的平均数.,例4 在去年的足球甲A联赛中,甲队每场比赛平均
31、失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4.你认为下列说法是否正确,为什么? (1)平均来说甲队比乙队防守技术好;(2)乙队比甲队技术水平更稳定;(3)甲队有时表现很差,有时表现又非常 好;(4)乙队很少不失球.,例5 有20种不同的零食,它们的热量含量如下:110 120 123 165 432 190 174 235 428 318 249 280 162 146 210 120 123 120 150 140,(1)以上20个数据组成总体,求总体平均数与总体标准差;(2)设计一个适当的随机抽样方法,从总体中抽取一个容
32、量为7的样本,计算样本的平均数和标准差.,(1)总体平均数为199.75,总体标准差为95.26.,(1)以上20个数据组成总体,求总体平均数与总体标准差;(2)设计一个适当的随机抽样方法,从总体中抽取一个容量为7的样本,计算样本的平均数和标准差.,(2)可以用抽签法抽取样本,样本的平均数和标准差与抽取的样本有关.,从数学的角度考虑,人们也常用标准差的平方 方差来代替标准差,作为测量样本数据的分散程度的工具:,方差,简化计算公式:或是:,注意:因为方差与原始的数据的单位不同,且平方后可能会夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的的,但是在解决问题时,一般采用标准
33、差。,已知一组数据1,2,n的平均数是a,方差是s2,拓展延伸,(1)数据14、24,n4的平均数是 ,方差是 ;,(2)数据 31,32,3n的平均数是 ,方差是 ;,(3)数据31,32,3n的平均数是 ,方差是。,3a,3a-4,a-4,s2,9s2,9s2,方差的运算性质:,小结作业,1.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.,2.在抽样过程中,抽取的样本是具有随机性的,如从一个包含6个个体的总体中抽取一个容量为3的样本就有20中可能抽样,因此样本的数字特征也有随机性. 用样本的数字特征估计总体的数字特征,是一种统计思想,没有惟一答案.,3.在实际应用中,调查统计是一个探究性学习过程,需要做一系列工作,我们可以把学到的知识应用到自主研究性课题中去.,