数据分布特征的统计描述ppt课件.ppt

上传人:小飞机 文档编号:1338427 上传时间:2022-11-11 格式:PPT 页数:183 大小:1.40MB
返回 下载 相关 举报
数据分布特征的统计描述ppt课件.ppt_第1页
第1页 / 共183页
数据分布特征的统计描述ppt课件.ppt_第2页
第2页 / 共183页
数据分布特征的统计描述ppt课件.ppt_第3页
第3页 / 共183页
数据分布特征的统计描述ppt课件.ppt_第4页
第4页 / 共183页
数据分布特征的统计描述ppt课件.ppt_第5页
第5页 / 共183页
点击查看更多>>
资源描述

《数据分布特征的统计描述ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的统计描述ppt课件.ppt(183页珍藏版)》请在三一办公上搜索。

1、1,除了统计图和统计表之外,还可以用少量的特征值(代表值)对数据分布的数量规律进行精确、简洁的描述。,第三章 数据分布特征的统计描述,2,大量的数据经过整理后,已经能初步反映总体分布的特征。 为了更加准确的了解数据分布的特征和规律,需要找到反映数据分布特征的代表值,三类:集中趋势、离中趋势、分布形态,说明:,3,集中趋势:即反映各数据向中心值靠拢的程度,返回本节首页,4,离中趋势:即反映各数据远离中心值的程度,两个不同的曲线表示两个不同的总体,它们的集中趋势相同但离中趋势不同。,因为即使现象的集中趋势相同,其离中趋势也可能不同。,5,实际中还会遇到:集中趋势和离中趋势均相同的现象,其分布的形态

2、也可能不同。,这表明:除了集中和离中趋势外,分布还有其他方面的特征:分布的形态。,指:数据分布的对称程度和扁平(高低)程度,测度指标是偏度,测度指标是峰度,是相对于对称分布而言,相对于正态分布而言,6,偏度:测定分布的偏斜程度的指标,偏斜是相对于对称分布而言,峰度:测定分布的高低(尖峭)程度的指标,尖峭是相对于正态分布而言,7,正态分布,对称分布,8,峰态,偏态,与对称分布比较,9,正态分布中有两个参数:,一般记为:,、2 是正态分布的参数,不确定常数。 不同的、不同的2对应不同的正态分布,10,标准正态分布是正态分布中的一种,记为:,11,本章内容,第一节 集中趋势的测度 第二节 离散程度的

3、测度 第三节 偏度与峰度,12,第一节 集中趋势的测度,集中趋势是指一组数据向其中心值靠拢的倾向测度集中趋势就是寻找一组数据的代表值或中心值,在统计中是使用平均指标来测度的。,13,本节内容,一、平均指标含义二、平均指标的计算 (一)算术平均数 (二)调和平均数 (三)几何平均数 (四)众数 (五)中位数三、各种平均数之间的相互关系,数值平均,位置平均,14,一、平均指标含义,1、定义:又称平均数。 是将同质总体内各单位的数量差异抽象化,以反映总体的一般水平。,被平均的对象必须具有同质性,15,2、平均指标有两大类,数值平均:,位置平均:,根据总体内全部数据计算:算术平均、调和平均、几 何平均

4、。,根据数据在分配数列中的位置确定:众数、中位数。,16,3、平均指标作用,a、反映总体各单位变量值分布的集中趋势 b、比较同一现象在不同空间或不同时间的发展 水平 c、分析现象间的依存关系,17,集中趋势:,总体中各单位某一标志值的具体表现是各不相同的,但一般呈正态分布,即很小或很大的标志值出现的次数较少,接近平均数的标志值出现的次数较多,大多数的标志值都围绕着平均数左右波动。,返回本节首页,18,现象间的依存关系:,19,二、平均指标计算,(一)算术平均数,又称均值。根据掌握的资料不同: 简单法和加权法。,20,1、简单法:适用于没有分组的原始数据,均值,即算术平均数,x 标志值或变量值,

5、见49页例题,21,2、加权法:分组且各组标志值出现的次数 (权数 f )不相等时,公式:,返回本节首页,x 为标志值,又称变量值;f 为各组标志值出现的次数,22,计算平均日产量,23,24,用统计功能的计算器计算:2ndF,ON,201M+ 224M+ 246M+268M+ 2812M+ 3010M+, xM结果为26.73,25,例1:用计算器对下列数据求平均,26,mode2Shift scl = 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90DT 55 Shift;30 DTShift,注意:DT是储存功能的加号,27,注意:当各组权数均相等时,加

6、权算术平均数等于简单算术平均数:,返回本节首页,28,可用简单式计算均值,各组权数都相等的数列,29,对称数列:,可用简单式计算均值,30,3、权数,加权均值的大小受两个因素的影响: 各组变量值(x) 各组次数,即权数(f),31,(1)权数的定义,权数:即次数,分布在各组间的总体单位数, 因为它对均值的大小起权衡轻重的作 用,故又称权数。,出现次数多的标志值对平均数的影响大,32,(2)权数的表现及应用,绝对数权数 f 相对数权数,第一、权数表现:有两种形式:,33,绝对权数:,相对权数:,计算公式:,例题见教科书51页表33,34,第二、权数的实质,是相对数权数。 即权数对均值的影响作用,

7、取决于相对权数而非绝对权数。,举例:,35,计算平均奖金额,虽然各组绝对人数变化了,但各组人数的比重未变,比重%,10,37.5,52.5,100,36,4、平均数应用举例:,统计中有三大综合指标: 总量指标、相对指标和平均指标,反映现象总规模、总水平,用绝对数表示如:2019年中国GDP 39.8万亿元人民币,相对指标是两个有联系的指标值对比的比率,如:三次产业比重、企业劳动生产率、产出的计划完成百分数、经济发展速度和增长速度,37,例1、10个企业资金利润率资料:,求:10个企业的平均利润率,“企业的平均利润率” 等同于 “企业的总利润率”,企业的总利润率 = 利润总额 / 资金总额,39

8、,利润总额,资金总额,40,计算150个企业的平均计划完成百分数,例2、150个企业的资料:,“150个企业的平均计划完成百分数” 就是“150个企业总的计划完成百分数”。,企业总计划完成百分数 = 总实际数 / 总计划数,42,实际产值,计划产值,43,5、算术平均数的数学性质,见52页,44,(二)调和平均数,1、含义:总体内各个变量值倒数的算术平均 数的倒数,又称倒数平均数。,如有三个变量值: 8、10、12,求调和平均数。步骤如下:,45,、,、,即为调和平均数,公式:,46,(1)简单式:,(2)加权式:,各变量值出现次数相等,各变量值出现次数不等,设 m为次数,2、 调和平均数的计

9、算,47,举例:,某蔬菜单价早中晚分别为0.5、0.4、 0.25(元/斤) (1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格,48,(1)问:用调和平均。先求早、中、晚购买的斤数。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤),(2)问:用算术平均,49,(3)问:用加权调和平均,(4)问:用加权算术平均,50,3、调和平均数和算术平均数间的关系,调和平均数是一种特殊的均值,(1)两者存在着变形关系:,51,(2)当掌握的资料无法直接计算算术平均

10、数时,可用调和法计算。,这时两者计算结果相同,只是根据已知条件不同,需选择不同的公式。,52,已知对比分母,将分母定为f,求分子xf,然后用加权算术公式,即:,已知对比分子,将分子定为m,求分母mx用加权调和公式,即 :,53,某公司下属三个部门销售利润资料,求三个部门的平均利润率。,54,思考:如果已知销售利润率和销售额资料,该如何计算?,55,56,计算:20个商店平均销售计划完成程度及总的流通费用率。,57,58,(1)20个商店的平均销售计划完成程度,(2)20个商店总的流通费用率,59,(三)几何平均数,1.定义: n 个变量值乘积的 n 次方根,60,3、计算方法,简单法:,加权法

11、:,61,例1:2019-2019年我国某工业品产量环比发展速度分别为107.6%、102.5%、100.6%、102.7%、102.2%。计算平均每年的发展速度,62,按计算器:1.076,1.025, ,1.006, ,1.027, ,1.022,=,2ndF, 5,=,出现结果:1.0309即103.1%,63,例2:某厂有四个流水连续作业车间,某月的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。,64,例3:某地区25年的年经济发展速度分别是: 1年103%,4年105%,8年108%, 10年 110%,2年115%, 求该地区经济的平均年发展速度。,

12、65,1.03,(,1.05,yx,4,),(,1.08,yx,8,), ,(,1.1,yx,10,),(,1.15,yx,2,), =,2ndF, 25,=,出现结果:1.086即108.6%,66,4、使用几何平均法注意问题,第一、变量值要是相对数,且不能为负值或零,第二、这些相对数的连乘积要等于总速度或总比率,几何平均法适用于对比率数据(相对数)的平均, 主要用于计算平均比率和平均速度,67,几何平均数是一种特殊的均值:,可写成:,68,(四)众数,1、定义: 一组数据中出现次数最多的变量值,2、计算:分两种情况:,品质数列和单项式数列组距式数列,69,Mo可口可乐,(1)品质数列计算众

13、数,定性变量,70,Mo不满意,甲城市家庭对住房状况评价的频数分布,71,众数是数列中出现次数最多的变量值,众数,(2)单项数列计算众数,定性变量,72,(3)组距式数列计算众数,先确定众数所在的组,然后用公式计算分:上限公式和下限公式,返回本节首页,定性变量,73,分数x 人数 f60以下 26070 77080 15 8090 10 90以上 6 合计 40,fm-1,fm+1,fm,L :众数所在组的下限U :众数所在组的上限,74,上限公式:,下限公式:,75,76,3、众数说明,(1)不受极端值的影响(2)既适用于品质数列,也适用于变量数列(3)一组数据可能没有众数或有几个众数,返回

14、本节首页,77,无众数原始数据: 10 5 9 12 6 8,多于一个众数原始数据: 25 28 28 36 42 42,一个众数原始数据: 6 5 9 8 5 5,78,(五)中位数,1、中位数的含义: 将各单位标志值按大小排列,居于中间位 置的那个标志值。,返回本节首页,79,2、中位数的计算,分两种情况:(1)未分组原始资料(2)组距式数据,返回本节首页,80,(1)未分组原始资料,先将数据从小到大排序,项数为奇数时,中间位置上的标志值即为中位数,项数为偶数时,中间位置上2个标志值的平均为中位数,81,有9个数值: 2、3、5、6、9、10、11、13、14 中位数为第5个,即9 有10

15、个数值: 2、3、5、6、9、10、11、13、14、15 中位数为第5、第6个数据的平均值,即9.5,82,(2)组距数列,fm,SMe+1,SMe-1,83,B、确定中位数所在的组: 本例为: 40/2=20,即中位数应在将分数从 高到低排列后的第20个学生的分数上,A、先将次数进行累计,C、利用公式计算中位数 ( 公式 见56页 ),84,公式:,下限公式=上限公式=,85,带入资料得:,(分) (分),86,附:四分位数,四分位数:是指位于全部数据 位置和 位置上的数据,分别称为下四分位数和上四分位数。也称为第一个四分位数 和 第三个四分位数。,即:排序后处于25%和75%位置上的值。

16、实际上,中位数就是第二个四分位数,87,四分位的位置:,88,箱线图:可以观察数据分布的特征,4,6,8,10,12,Median/Quart./Range箱线图,Me,89,某电脑公司2019年前四个月120天的销售量数据,试利用箱线图对数据分布特征进行分析。,90,未分组数据单批数据箱线图,91,某电脑公司销量分组表,未分组数据多批数据箱线图,从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试通过多批箱线图分析各科考试成绩的分布特征。,93,未分组数据多批数据箱线图,8门课程考试成绩的Median/Quart./Range箱线图,94,11名

17、学生8门课程考试成绩的Median/Quart./Range箱线图,未分组数据多批数据箱线图,95,96,三、各种平均数之间的关系,两者都属于抽象化的代表值,但有区别,前者容易受极端值的影响,后者不会。,1、数值平均数和位置平均数的比较:,97,某公司中层干部2019年的收入,求平均收入,职位 收入(元)财务部经理 10 000市场部经理 450000人事部经理 90 000研发部经理 100 000生产部经理 10 000,实际中可利用切尾平均法:去掉极端值, 将剩余的数据求平均。,98,收入(元) 人数1000 53000 255000 5610000 1050000 330000000

18、1,计算其平均收入时,位置平均和数值平均哪一种方法更合适?,99,2、三种平均数之间的关系,有极小值,拉动均值向极小值靠近,有极大值,拉动均值向极大值靠近,100,众数、中位数、平均数的特点和应用,众数:不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数:不受极端值影响 数据分布偏斜程度较大时应用 平均数:易受极端值影响 数据对称分布或接近对称分布时应用,101,离散程度是测定数据分布特征的另一重要指标,第二节 离散程度测度,统计是使用变异指标来测度分布的离散程度,用于测定一组数据中各数值之间的差异程度,即:在一个分布中各数值与均值的离差程度,102,三个集中趋势相同

19、但离中趋势不同的总体,离散程度指标可从另一个角度说明集中趋势测度值的代表程度。,103,一、变异指标的意义和作用二、变异指标的种类(一)全距(极差)(二)平均差(三)标准差(四)离散系数,返回本章首页,本节内容,104,一、变异指标的意义和作用,变异指标的含义 又称标志变动度、离散程度或离中程度。 是描述总体内各数据之间差别大小程度的指标,返回本节首页,甲:20,40,60,70,80,100,120乙:67,68,69,70,71,72,73,如两组数据,请直观判断哪一组的离散程度大,105,70,70,返回本节首页,106, 标志变动度的作用,2、能衡量现象变动的均衡性或稳定性,3、能反映

20、各变量值分布的离散程度(离中趋势),1、是评价平均数代表性的依据,甲企业 25 25 25 25 均匀、协调乙企业 10 15 20 55丙企业 5 10 15 70 不均匀。,企业产值各季度计划完成情况,107,平均数的代表性和标志变动度的关系,标志变动度大,平均数的代表性就小;反之 ,平均数的代表性就大例如:三组学生的年龄(岁) 20 20 20 20 20 -差距最小,20岁的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,20 岁的代表性最差,108,二、标志变异指标的种类,全距 1、含义:总体各单位标志的最大值和最小值之差。 R = Xmax-Xmi

21、n,109,2、全距的优点和缺点,优点:计算简单、涵义直观,缺点:易受极端数值的影响 不能反映中间标志值的变动,110,附:四分位差(见 60 页),四分位差Qd = Q3 - Q1,111,(二)平均差,1、含义 是各变量值与其算术平均数离差绝对值 的算术平均数,即:,平均差能全面反映一组数据的离散状况,112,2、平均差计算:,返回本节首页,简单式:,加权式:,113,1819202122,-2-1 0 1 2,2 1 0 1 2,x,合计 - 6,一组学生年龄: 18 19 20 21 22求平均差。,114,某厂200个工人产量资料(单位:公斤),日产量30以下3040405050以上

22、合计求A.D,工人数 10 70 90 30 200,115,X25354555合计,-17 -7 3 13 -,f10709030200,17 7 3 13 -,170 490 270 390 1320,250 2450 4050 1650 8400,116,结论:该厂工人平均日产量为42公斤,但各工人生产水平有差异,其差异平均为6.6公斤。,117,3、平均差的优缺点,优点:和全距相比,弥补了全距不足,能反 映中间标志值的变动。缺点:加绝对值号为计算带来了不便。,118,(三)标准差(均方差),1、概念 是各变量值与其算术平均数离差平方的算术 平均数的平方根,又称均方差。,119,2、计算

23、: 已知资料不同采用不同方法:,加权式:,简单式:,120,标准差的平方即为方差,121,一组学生年龄: 18 19 20 21 2218 -2 419 -1 120 0 021 1 122 2 4 合计 - 10,简单式举例:,122,某厂200个工人产量资料:(单位:公斤),日产量30以下3040405050以上合计,工人数 10 70 90 30 200,求标准差,加权式举例:,123,x25354555合计,-17 -7 3 13 -,f10709030200,289 49 9169 -,2890 3430 810 507012200,250 2450 4050 1650 8400,1

24、24,标准差的计算可以用统计功能的计算器。,结论:各工人生产产量与平均产量相比,平均相差7.8公斤。,125,计算器的使用,开机:ON,2ndF,ON进入到统计功能后,用计算平均数的方法输数据所有的数据输完后,按 2ndF 键,再按xM 健,即为标准差,注意:所有的数据输完后,如果直接按xM 健,即为平均数。,126,统计功能的计算器的使用Mode2Shift scl = 25 Shift;10 DT 35 Shift;70 DT45 Shift;90 DT 55 Shift;30 DTShift,127,3、标准差的优缺点,优点:弥补了平均差和全距的不足。缺点:利用标准差不能比较性质不同的数

25、列(即水平高低不等和计量单位不同)离散程度的大小。,128,如:两组动物体重(单位:公斤),甲: , , 乙:,试比较平均数的代表性。,129,130,上述结论不一定正确,因为:两组数据性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平均差)比较平均数的代表性。须用相对离散程度指标 离散系数。,131,(四)离散系数,又称变异系数,是一组相对数形式的变异指标有全距系数、平均差系数、标准差系数等等以标准差系数为例说明其计算。,132,对于上例,133,总结:,比较两组数据的离散程度,即比较平均数的代表性时: 如果两组数据的平均数相等且计量单位相同,可直接使用标准差比较; 除此之外,

26、均需使用标准差系数比较。,134,对称钟形分布特点:以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。,附:标准差的应用,约有68%数据在均值加减1个标准差的范围之内约有95%数据在均值加减2个标准差的范围之内约有99%数据在均值加减3个标准差的范围之内,1、对称钟形分布中的,法则:,135,1、求是非标志(交替标志)的标准差,按品质标志分组且只有两种表现的标志,136,是否是是非标志?,137,是非标志 变量 x 次数 是 1 否 0 求是非标志的平均数及方差,138,139,140,3、标准化值(数据的标准得分),有两个班(1、2班)的同一门课成绩,假定两个班水平类似,但由于

27、两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不同:,那么1班得90分的张英和2班得82分的刘抒成绩能否比较?,1班均值:78.53,标准差:9.432班均值:70.19,标准差:7.0,不能直接比,但可以将它们进行标准化后再对比。,141,标准化的方法:,刘抒标准得分:,张英的标准得分:,刘抒的成绩优于张英。,142,标准化值实际上是将不同均值和标准差的总体都转化为均值为0 ,标准差为1 的总体。,如:一组数据:25、28、31、34、37、40、43。试计算其标准化值。,首先计算出均值为34,标准差为6,143,均值为34,标准差为6,均值为0,标准差为1,标准化后的数据虽然均

28、值和标准差发生了改变但数据内部点的相对位置是没有变化的。,144,科目 平均分 标准差 甲生 乙生语文 70 8 91 71数学 56 4 50 64 外语 42 5 40 51 政治 80 10 85 80物理 50 4 60 70 化学 40 12 75 45合计 - - 401 381,原始成绩,例:已知某年高考全部考生分科总平均成绩和标准差值,又知两名考生的实际成绩如下:,计算两考生的标准化值,并进行比较。,145,146,第一、甲考生偏科,数学和英语成绩均低于 平均成绩;乙考生比较全面,各科成绩都不 低于平均成绩。,原因:,第二、乙考生在平均分偏低且水平差距较小(标准差)的物理、数学

29、和英语等科目中取得了较好的成绩,甲考生则在这些科目上表现不好,影响了其标准成绩。,147,3、总方差、组间方差和组内方差,在总体分组的情况下会产生上述三种方差 总方差:各标志值与总平均数的离差 组间方差:各组平均数与总平均数的离差 组内方差:各组组内的标志值与各组内平均数的离差,三者关系:总方差 = 组间方差 + 组内方差的算术平均数,148,其中 i 代表总体内的组数,149,150,举例:,某公司7个门市部营业额数据: 88、90、96、98、110、140、200 分成两组: 88、90、96、98 110、140、200 计算总方差、组内方差和组间方差,151,152,组内方差的算术平

30、均数:,153,第三节 分布形态的测定(偏度和峰度),集中趋势和离中趋势是数据分布的两个重要特征。但即使集中趋势和离中趋势均相同的现象,其分布的形态也有可能不同。,这表明:除了集中趋势和离中趋势外,分布还有其他方面的特征:分布的形态。,154,反映数据分布形状的指标有两个:偏态和峰度,偏态:是测定分布的偏斜方向和偏斜程度的指标,是相对于对称分布而言,峰度:是测定分布的尖峭程度的指标,是相对于正态分布而言,155,正态分布,对称分布,156,首先介绍“矩”的概念,矩:又称动差,物理学上的术语。统计上用 来刻画数据分布特征的的指标的统称。,K 阶矩:所有变量值与数值a之离差的K 次方 的平均数称为

31、变量 x 关于 a 的K 阶矩,当:a等于0时称为 K 阶原点矩 a等于 时称为 K 阶原点矩,一阶原点阶矩就是算术平均数二阶中心距就是方差,157,一阶原点矩 即为均值,二阶中心矩 即为方差,158,1、偏态:,偏态:是对分布的偏斜方向和偏斜程度的测定,测定偏态程度的指标称为偏态系数,如果次数的分布是完全对称的,称为对称分布否为非对称分布,即偏态分布,分左偏和右偏,和 对称分布比较而言,159,偏态系数:用三阶中心矩定义,该系数为0时,为对称分布大于0时,为右偏态分布小于0时,为左偏态分布越接近0,偏斜程度就越低,若分布不对称,只有一阶中心矩为0,其余的奇数阶中心矩都不为0。若分布对称,所有

32、奇数阶中心矩应为0,,消除量纲,160,2、峰度,峰度:是指分布图形的尖峭程度。,和标准正态分布比较而言的,实际中,标准正态分布曲线的峰顶为正态峰,和标准正态分布曲线相比,陡峭的为尖峰,平缓的为平峰顶。,测定峰度的指标称为 峰度系数。,161,峰态,162,峰度系数:用四阶中心矩定义。因为分布的尖峭程度和偶数阶中心矩数值大小有关.,所以该系数和3比:等于3,为正态分布;大于3时,为尖峰分布;小于3时,平峰分布,消除量纲,因为:正态分布曲线的四阶中心矩和标准差的4次方之比为3,163,尖顶分布(K3),平顶分布(K3),正态分布(K=3),164,因为对于正态分布,所以,峰度的标准测定公式为:,

33、165, 用EXCEL计算描述统计量,用EXCEL计算平均数、标准差等描述性统计 量有两种方法: 一是用函数 二是用“数据分析”工具,166,第一、函数,均值:average中位数:median众数:mode标准差: 总体标准差:stdevp; 样本标准差: stdev分位数:quartile,Excel用于计算描述统计量的函数:,167,168,分位数quartile的语法结构,Quartile(array, quart),Array:计算四分数的数据区域。输入待计算数据的地址即可。,Quart:计算的是第几个四分数可输入:0、1、2、3、4。分别表示最小值、第1、2、3个四分位数和最大值。

34、,169,第二、 “数据分析”工具,第一次使用“数据分析”时,需在EXCEL工具 菜单中选“加载宏”,选“分析工具库”。 这样在“工具”菜单中就会出现“数据分析”。,170,选择“网上冲浪”工作表。打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所示。,171,双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。在“输入区域”中输入A1:A21。,172,由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击C1,在输入框中出现输出地址“$B$1”,这是输出结果的左上角

35、起始位置。单击“汇总统计”,如不选此项,则Excel省略部分输出结果。,173,平均 38.75标准误差 2.435348中位数 38.5众数 29标准差 10.89121方差 118.6184峰度 -1.0812偏度 0.277013区域 36最小值 22最大值 58求和 775观测数 20,单击“确定”按钮,输出结果如下图所示:,174,案例研究“Old Faithful”间歇喷泉的喷发,间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。Ohio(俄亥俄)州黄石国家公园中的“Old Faithful”间歇喷

36、泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指示牌,预报下次喷泉喷发的时间,如下表所示。,175,“Old Faithful”间歇喷泉喷发时间表,176,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发的间隔时间记录为样本进行分析。打开“喷泉“工作表。单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。在输入区域输入单元格C1:C223,选择“标志”,在输出区域中输入单元格“D1”,选择“图表输出”,单击“确定”按钮。,177,从图中可以看出,喷

37、泉喷发的间隔时间一般在40100分钟内变动。但是,在数据中明显地存在两个子群,它们的中心大约分别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。然而我们利用描述统计分析工具所得的结果与此便大不一样。,将所得的直方图进行修饰,便得到下图:,178,利用描述统计分析工具分析该喷泉的间隔时间,方法如下:打开“4数据描述.xls”工作簿,选择“喷泉”工作表。从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。在输入区域中输入“C1:C223”,选择标志位于第一行。“输出区域”选择D19。选择“汇总统计”和“平均数置信度”,单击“确定”按钮,结果如下表所示。,179,平均 71.00

38、901中位数 75众数 75标准差 12.799018峰度 -1.0812偏度 0.277013全距 53最小值 42最大值 95观测数 222,“Old Faithfaul” 喷泉间隔时间描述统计表,180,由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。按喷发持续的时间将观察值分成两组,可以对两种喷发的不同特性在更多细节上作出检测。下表是以喷发持续的时间是少于还是大于3分钟为依据分组,分别列出喷发间歇时间的主要统计指标。,181,喷泉喷发间歇时间的主要描述统计指标,182,根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到“旧费尔斯福”间歇喷泉的喷发。,183,Thank you very much!,谢谢!,上一页,退出,返回本章首页,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号