统计学第二章统计数据的描述.ppt

上传人:小飞机 文档编号:5299710 上传时间:2023-06-23 格式:PPT 页数:163 大小:1.58MB
返回 下载 相关 举报
统计学第二章统计数据的描述.ppt_第1页
第1页 / 共163页
统计学第二章统计数据的描述.ppt_第2页
第2页 / 共163页
统计学第二章统计数据的描述.ppt_第3页
第3页 / 共163页
统计学第二章统计数据的描述.ppt_第4页
第4页 / 共163页
统计学第二章统计数据的描述.ppt_第5页
第5页 / 共163页
点击查看更多>>
资源描述

《统计学第二章统计数据的描述.ppt》由会员分享,可在线阅读,更多相关《统计学第二章统计数据的描述.ppt(163页珍藏版)》请在三一办公上搜索。

1、1,统计先是思维而后才是数学,第二章 统计数据的描述,2,统计先是思维而后才是数学,第一节 统计数据的整理第二节 分布集中趋势的测度第三节 分布离散程度的测度第四节 分布偏态与峰度的测度第五节 统计表和统计图,3,统计先是思维而后才是数学,学习目标,掌握数据的整理方法掌握集中、离散趋势的测度掌握偏态峰度的测度掌握统计表和统计图的制作与使用,4,统计先是思维而后才是数学,录取中有无歧视?,某高校两个系(财经系、工程系)的报考及录取情况,录取比率:男生:350/800=44%女生:200/600=33%,男生成绩好?性别歧视?,5,统计先是思维而后才是数学,两个系的报考及录取情况,工程系:男女录取

2、比率50%,财经系:男女录取比率25%。,说明的问题:对数据 1.要从不同的角度进行分析;2.要注意结构或是权数的影响。,6,统计先是思维而后才是数学,2.1 统计数据的整理,7,统计先是思维而后才是数学,统计整理的概念和作用,8,统计先是思维而后才是数学,制定统计整理方案,对原始资料进行审核,数 据 处 理,制作统计表或统计图,统计整理的步骤,9,统计先是思维而后才是数学,数据的审核,对原始数据的审核的内容完整性审核准确性审核对第2手数据的审核的内容完整性审核准确性审核时效性适用性,10,统计先是思维而后才是数学,数据的排序(data rank),按一定顺序将数据排列,以发现一些明显的特征或

3、趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成,世界人均国民总收入,http:/,11,统计先是思维而后才是数学,12,统计先是思维而后才是数学,2.1.1 统计数据的分组,13,统计先是思维而后才是数学,统计分组的基本原则:必须保证在某一标志上,组内的同质性和组间的差异性。分组兼有“分和合”双重含义,一、统计分组的概念和作用,14,统计先是思维而后才是数学,分组,分组前,分组后,25,33,42,15,统计先是思维而后才是数学,统计分组的关键:1、选择分组标志:品质标志(性别、质量等)数量标志(数量

4、、数值等)2、划分各组界限,二、分组标志的选择与分组种类,16,统计先是思维而后才是数学,学生按性别分组,按品质标志分组,17,统计先是思维而后才是数学,某班学生按考试成绩分组,18,统计先是思维而后才是数学,按数量标志分组,某班学生按年龄频数分布,19,统计先是思维而后才是数学,2.1.2 次数分配,20,统计先是思维而后才是数学,次数分配是将总体按一定的标志分组,说明个体在各组之间的分布情况。是统计资料整理结果的一种重要表现。,次数分配:也称次数(频数)分布。次数分配组成要素:1、组的名称 2、各组次数(也称频数)或频率,21,统计先是思维而后才是数学,22,统计先是思维而后才是数学,单变

5、量值分组(要点),1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况,23,统计先是思维而后才是数学,例题分析,【例】某车间30名工人每周加工某种零件件数如右表。,24,统计先是思维而后才是数学,单变量值分组表(实例),变量值,25,统计先是思维而后才是数学,组距分组(要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则(上组限值不算在该组内)可采用等距分组,也可采用不等距分组,26,统计先是思维而后才是数学,等距分组 各组的组距相等 各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律,27,统计先是思维而

6、后才是数学,不等距分组各组的组距是不相等 各组频数的分布受组距大小不同的影响,28,统计先是思维而后才是数学,等距分组步骤,1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K(四舍五入取整),例如2-1的数据:,29,统计先是思维而后才是数学,2)确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 例2.1的数据,最大值为128,最小值为84,则 组距(128-84)/

7、67.3。组距宜取5或10的倍数;(近似值)在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。,30,统计先是思维而后才是数学,3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。下 限(low limit):一个组的最小值 上 限(upper limit):一个组的最大值组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。确定组限的原则1:最小一组的下限必须包含数列中最小变量值;最大组的上限必须包含数列中最大变量值。确定组限的原则2:遵循不重不漏的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”在所分的全部组别中每

8、项数据都能分在其中的某一组,不能遗漏。,31,统计先是思维而后才是数学,4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。,本例可以得到如下频数分布表,重合组限、闭口组限,32,统计先是思维而后才是数学,对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。重合组限既适用于连续型变量分组也适用于离散型变量分组,应用非常广泛。,33,统计先是思维而后才是数学,对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。,34,统计先是思维而后

9、才是数学,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“x x以下”及“x x以上”这样的开口组。开口组通常以相邻组的组距作为其组距。例如,在例21的30个数据中,假定将最小值改为64,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如80以下;130以上。,开口组限:缺少上限或者下限的组限设置。,35,统计先是思维而后才是数学,开口组,36,统计先是思维而后才是数学,编制频数分布表的步骤,37,统计先是思维而后才是数学,在研究分析次数分布时,还需要计算:累计频数和累计频率,1.累计频数:将各类别的频数

10、逐级累加。有两种方法:一是可以从最小组一方向最大组的一方累加频数,称为向上累积;二是可以从最大组的一方向最小组的一方累加频数,称为向下累积。累计频率:将各类别的频率(百分比)逐级累加,38,统计先是思维而后才是数学,例:累计频数和累计频率的计算,39,统计先是思维而后才是数学,在根据组距数列进行统计计算时,需要确定组中值,作为各组变量值的代表值。组中值(class midpoint):下限与上限之间的中点值。,概念:组中值,组中值这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。,4

11、0,统计先是思维而后才是数学,例:组中值计算,41,统计先是思维而后才是数学,在开口组中,组中值的计算以邻近组组距为依据,可见,开口组的组中值既假定变量值是均匀分布或对称分布,又假定组距与邻近组组距相等。,42,统计先是思维而后才是数学,例:组中值计算,次数分配表的编制(例题分析),【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。,使用Excel频数函数(FREQUENCY),使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUE

12、NCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入各组分界点同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,次数分配表,46,统计先是思维而后才是数学,2.1.3 次数分配直方图,47,统计先是思维而后才是数学,1.直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于1,48,统计先是思维而后才是数学,分组数据的图示(直方图的绘制),某车间工人周

13、加工零件直方图,我一眼就看出来了,周加工零件在100110之间的人数最多!,高度表示每一组的频数或百分比,宽度则表示各组的组距,横轴标注的刻度应该是连续区间,49,统计先是思维而后才是数学,2.折线图,折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,50,统计先是思维而后才是数学,分组数据的图示(折线图的绘制),折线图

14、与直方图下的面积相等!,某车间工人周加工零件折线图,51,统计先是思维而后才是数学,3.次数分布曲线,当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,52,统计先是思维而后才是数学,频数分布曲线的类型,图 几种常见的频数分布,53,统计先是思维而后才是数学,2.1.4 洛伦兹曲线与基尼系数,54,统计先是思维而后才是数学,洛伦茨曲线(累积次数分配折线图),20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成的。是描述收入和财富分配性质的曲线

15、,分析该国家或地区分配的平均程度,累积的人口百分比,累积的收入百分比,绝对公平线,洛伦茨曲线,55,统计先是思维而后才是数学,基尼系数,20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0 和1之间取值一般认为:基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒

16、线,超过了0.4应该采取措施缩小这一差距。,56,统计先是思维而后才是数学,2.2 分布集中趋势的测度,57,统计先是思维而后才是数学,集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值,58,统计先是思维而后才是数学,一、众数二、中位数三、四分位数四、均值五、几何均值六、切尾均值七、众数、中位数和均值的比较,59,统计先是思维而后才是数学,1.概念:在总体中出现次数最多的那个标志值就是众数。,2.2.1 众数 M0,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。例如:集市上某种蔬菜的成交价格(元)为:0

17、.8,0.9,0.9,1.0,1.2,1.2,1.2,1.2,1.5,1.5,1.6 1.2元出现次数最多,就是众数,60,统计先是思维而后才是数学,一组数据可能没有众数或有几个众数(不唯一性),61,统计先是思维而后才是数学,若有两个次数相等的众数,则称复众数。,只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。,由定义可看出众数存在的条件:,62,统计先是思维而后才是数学,下三图无众数:,在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的。,63,统计先是思维而后才是数学,1)定类数据的众数,众数=商品广告,对定序数据同样,2.众数的计算方法,64,统计先是思维而后

18、才是数学,2)定序数据的众数,解:这里的数据为定序数据。变量为“回答类别”城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,65,统计先是思维而后才是数学,根据单项数列确定众数;,某种商品的价格情况,众数 M0=3.00(元),3)数值数据的众数,66,统计先是思维而后才是数学,根据组距数列确定众数,利用比例插值法推算众数的近似值。,由最多次数来确定众数所在组;,其中:L 众数组的下限;1 众数组与前一组的频数之差 2 众数组与后一组的频数之差 i 众数组的组距,67,统计先是思维而后才是数学,表中100-110,即众数所在组。,68,统计先是思维而后

19、才是数学,解:众数组是“100-110”的组,则,69,统计先是思维而后才是数学,众数的特点:,集中趋势的测度值之一出现次数最多的变量值众数是位置代表值,不受极端值的影响可能没有众数或几个众数适用于定类数据、定序数据、定量数据众数所体现的统计思想是:在一组数据的中心点附近,变量值出现的频数较高,根据众数组及相邻两组的频数分布,确定中心点的位置。,70,统计先是思维而后才是数学,在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。例:买菜;适合于数据量较多

20、时使用 众数值偏离众数组组中值得程度越大,分布的形状越偏,71,统计先是思维而后才是数学,1.概念:将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数。,2.2.2 中位数 Me,72,统计先是思维而后才是数学,1)定序数据的中位数,表 某城市家庭对住房状况的评价,对于定序数据,确定中位数位置用:,中位数位置=300/2=150,中位数=一般;,2.中位数的计算方法,73,统计先是思维而后才是数学,由未分组资料计算中位数,(a)先对数据进行排序(b)确定中位数的位置,其公式为:(n为数据的个数),(c)最后确定中位数的具体数值,当n为偶数时,,当n为奇数时,,2)数值数据的

21、中位数,74,统计先是思维而后才是数学,9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排序:750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9,中位数 1080,75,统计先是思维而后才是数学,10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9 10,76,统计先是思维而后才是数学,由分组数据确定中位数,a)要先根据公式:f/2,确定中位数的位置,并

22、确定中位数所在的组。f 总次数,77,统计先是思维而后才是数学,b)然后采用下面的公式计算中位数的近似值:,式中:f 为数据的个数,L为中位数所在组的下限,Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距。,78,统计先是思维而后才是数学,中位数是一种位置平均数,它也不受极端值 及开口组的影响,具有稳健性。,各单位标志值与中位数离差的绝对值之和是个 最小值。,对某些不具有数学特点或不能用数字测定的现 象,可以用中位数求其一般水平。,3.中位数的特点,79,统计先是思维而后才是数学,2.2.3 四分位数(quartile),四分位数是通过三个点将全部数据

23、等分为四部分,其中每部分包含25%的数据。,很显然,中间的四分位数就是中位数。排序后处于25%和75%位置上的值,即通常说的第一个四分位数(下四分位数);第三个四分位数(上四分位数)。,80,统计先是思维而后才是数学,1.不受极端值的影响2.主要用于定序数据,也可用于数量数据,但不能用于定类数据,特点:,81,统计先是思维而后才是数学,定序数据四分位数(位置的确定),82,统计先是思维而后才是数学,定序数据的四分位数(例题分析),解:QL位置=(300)/4=75 QU位置=(3300)/4=225 从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。四分位数为:QL=不满意

24、QU=一般,83,统计先是思维而后才是数学,1.未分组四分位数,原始数据:(未分组),当四分位数的位置不在某一个数值上,按比例分摊位置两侧数值的差值。,先排序;然后确定四分位数的位置,数量数据四分位数,84,统计先是思维而后才是数学,例:数量数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在815到

25、1565元之间。,85,统计先是思维而后才是数学,例如:数量数据的四分位数(10个数据的算例),【例】:10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9 10,QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在772.5到1532.5元之间。,86,统计先是思维而后才是数学,2.分组数据的四分数:,计算:,其中:L是四分位数所在组的下限值,S是以前组的累计频数;f是所在组的频数;i为组距。,87,统计先是思维而后才是数学,例:用表2.10的数据分布资料计算下四分位数。,表

26、明25%的人口收入在2793元以下,收入在2793元以上的有75%的人口。,88,统计先是思维而后才是数学,2.2.4 均值(mean),均值是全部数据的算术平均,也称为算术平均数。是集中趋势的最常用测度值是一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响用于数量数据,不能用于定类数据和定序数据,89,统计先是思维而后才是数学,1.简单算术平均数未分组的原始数据,原始数据,例:某生产小组有10名工人,日产零件分别为:40,40,35,31,28,56,40,35,44,31件,则该组10名工人平均每人日产量:,90,统计先是思维而后才是数学,2.加权算术平均数分组数据,各组组中值,

27、其中:xi 表示第i 组的组中值;fi 是各组次数,也称为权数;k 表示分组的组数;,91,统计先是思维而后才是数学,加权均值(例题分析),根据不分组的公式计算均值=103.5。相差0.83件,92,统计先是思维而后才是数学,分析:,起到权衡轻重的作用,决定平均数的变动范围,93,统计先是思维而后才是数学,94,统计先是思维而后才是数学,加权算术平均数受两因数的影响:变量值大小的影响。次数多少的影响。次数大的标志值对 影响大;反之,影响小。,而简单算术平均数只反映变量值大小这一因素的影响。,加权算术平均数与简单算术平均数不同在于:,95,统计先是思维而后才是数学,变量值与其算术平均数的离差之和

28、恒等于零,即:变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,96,统计先是思维而后才是数学,离差的概念,-1,-1,-2,1,3,97,统计先是思维而后才是数学,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,98,统计先是思维而后才是数学,正确的计算方法,99,统计先是思维而后才是数学,1.几何平均数的概念和计算方法,2.2.5 几何平均数(又称“对数平均数”),是n个不同数值的连乘积的n次方根。,简单几何平

29、均数,可看作是均值的一种变形,100,统计先是思维而后才是数学,也可看作是均值的一种变形,加权几何平均数,101,统计先是思维而后才是数学,某机械厂有毛坯、粗加工、精加工、装配车间四个流水线作业的车间。本月份一、二、三、四车间制品合格率分别为95%、92%、90%、85%,计算平均车间产品合格率。,分析:,设最初投产100A个单位,则第一车间的合格品为 100A0.95;第二车间的合格品为(100A0.95)0.92;第三车间的合格品为(100A0.950.92)0.90;第四车间的合格品为(100A0.950.920.90)0.85;,102,统计先是思维而后才是数学,因该流水线的最终合格品

30、即为第四车间的合格品,故该流水线总的合格品应为 100A0.950.920.900.85;则该流水线产品总的合格率为:,即该流水线总的合格率等于各车间合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,103,统计先是思维而后才是数学,设本金为A,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:,第25年末的本利和为:,分析:,第25年的计息基础,投资银行某笔投资的年利率是按复利计算的,25年的年利率分配是:有1年为3%,有4年为5%,有8年为8%,有10年为10%,有2年为15%,求平均年利率。,104,统计先是思维而后才是数学,则该笔本金25年总的本利率

31、为:,即25年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,105,统计先是思维而后才是数学,2.几何平均数的特点和用途,如果数列中有一个标志值等于零或负值,就无法计算;它适用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。,主要应用于在动态数列中求平均发展速度、平均增减率等。,106,统计先是思维而后才是数学,2.2.6 切尾均值(trimmed Mean),1.是去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为,n 表示观察值的个数;表

32、示切尾系数,,107,统计先是思维而后才是数学,切尾均值(例题分析),【例】某次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,108,统计先是思维而后才是数学,数据两端切去几个数据,通过切尾系数决定,,切尾均值就是算术平均数。接近1/2时,切尾均值是中位数。切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个优点而形成的统计量。当切尾系数等于0或接近1/2时,切尾均值公式变为算术平均数和中位数公式,是切尾均值的两种特例。,109,统计先是思维而后才是数学,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数

33、不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,2.2.7 众数、中位数和均值之间的关系,110,统计先是思维而后才是数学,1.当总体分布呈对称状态时,三者合而为一,111,统计先是思维而后才是数学,2.当总体分布呈非对称状态时,112,统计先是思维而后才是数学,f,X,113,统计先是思维而后才是数学,在轻度偏斜的情况下,三者的关系可以用卡尔皮尔逊经验公式表示:,114,统计先是思维而后才是数学,一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:,115,统计先是思维而后才是数学,数据类型和所适用

34、的集中趋势测度值,*表示最适合,116,统计先是思维而后才是数学,2.3 分布离散程度的测度,117,统计先是思维而后才是数学,离散程度或离中程度,反映的是各变量值远离其中心值的程度,是数据分布的另一个重要特征,从另一个侧面说明了集中趋势测度值的代表程度,118,统计先是思维而后才是数学,甲、乙两学生某次考试成绩列表,甲、乙两学生的平均成绩为80分,集中趋势一样,但是他们偏离平均数的程度却不一样。乙组数据的离散程度大,数据分布越分散,平均数的代表性就越差;甲组数据的离散程度小,数据分布越集中,平均数的代表性越大。,是评价平均数代表性的依据。,离散程度测度的作用:,119,统计先是思维而后才是数

35、学,可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。,变异指标小,说明社会经济活动过程均衡,120,统计先是思维而后才是数学,如在抽样调查中,根据样本指标来推断总体指标,通过计算离散程度确定推断的准确程度及误差大小。,确定推断的准确程度。,121,统计先是思维而后才是数学,一、极差二、四分位差三、方差和标准差四、离散系数,122,统计先是思维而后才是数学,极差也称全距,是总体各单位标志值最大值和最小值之差。,计算公式为 未分组数据:R=max(xi)-min(xi)组距分组数据:R=最高组上限-最低组下限 显然,数据的分散程度越大,极差就越大。例:10名工人生

36、产零件数:10,20,30,40,50,60,70,80,90,100 R=100-10=90,2.3.1 极差R,123,统计先是思维而后才是数学,【例】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,124,统计先是思维而后才是数学,优点:计算方便,易于理解。,缺点:极差只考虑数列两端数值差异,它是测定离散程度的一种粗略方法,不能全面反映总体各单位标志的变异程度。,2.极差的特点,125,统计先是思维而后才是数学,也称四分位差或称四分间距;是上四分位数与下四分位数之差 内 距=QU QL反映了中间50%数据的离散程度;数值越小,说明中间数据越集中

37、;数值越大,说明数据越分散。不受极端值的影响;可用于衡量中位数的代表性;内距主要用于测度定序数据,对数量数据也可以,但是不适用于定类数据。,2.3.2 内距(Inter-Quartile Range,IQR),126,统计先是思维而后才是数学,解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知 QL=不满意=2 QU=一般=3四分位差:Qd=QU=QL=3 2=1,例如:定序数据计算四分位差(通常需要将各类别数值化),相差一个等级,说明在中位数(一般)的两侧共有50%的家庭对住房的满意状况在不满意和一般之间,127,统计先是思维而后才是数学,方差是离差平方的平均数。标准差

38、是离差平方平均数的平方根,故又称“均方差。,2.3.3 标准差和方差,数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差只适合测度数量数据,128,统计先是思维而后才是数学,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,组中值,样本方差和标准差,129,统计先是思维而后才是数学,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据

39、则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,130,统计先是思维而后才是数学,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,更多使用标准差。方差或标准差是根据全部数据计算的。它反映了每一个数据与其均值相比平均相差的数值,所以,能够准确反映数据的离散程度。,131,统计先是思维而后才是数学,用甲乙两个生产小组工人工资资料,在平均工资相等(1000元

40、)的情况下,乙组标准差小于甲组,因而其平均数的代表性比甲组大。,132,统计先是思维而后才是数学,样本标准差(例题分析),133,统计先是思维而后才是数学,含义:每一天的销售量与平均数相比,平均相差21.58台,134,统计先是思维而后才是数学,离散系数,是反映总体各单位标志值的相对离散程度。,2.3.4 离散系数(标准差系数)V,可以消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较,135,统计先是思维而后才是数学,标准差系数,136,统计先是思维而后才是数学,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平

41、均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,137,统计先是思维而后才是数学,数据类型和所适用的离散程度测度值,*表示最适合,138,统计先是思维而后才是数学,2.4 分布偏态与峰度的测度,2.4.1 偏态及其测度2.4.2 峰度及其测度,139,统计先是思维而后才是数学,2.4.1 偏态(skewness)及其测度,统计学家Pearson于1895年首次提出偏态是对分布偏斜方向及程度的测度。判别偏态的方向并不困难,利用中位数和均值的关系。,140,统计先是思维而后才是数学,测度偏斜的程度需要计算偏态系数。对分组数据

42、,其计算公式为:,式中:SK表示偏态系数,s3是标准差的三次方,xi(Mi)是组中值,偏态系数 SK=0 为对称分布偏态系数 SK0 为右偏分布偏态系数 SK0 为左偏分布SK的绝对值越大,表示偏斜的程度就越大,141,统计先是思维而后才是数学,偏态系数(例题分析),142,统计先是思维而后才是数学,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,143,统计先是思维而后才是数学,偏态(从直方图上观察),按销售量分组(台),结论:右偏分布,某电脑公司销售量分布的直方图,144,统计先是思维而后才是数学,2.4.2 峰

43、度(kurtosis)及其测度,统计学家Pearson于1905年首次提出峰度是分布集中趋势高峰的形状。记为K,是对数据分布平峰或尖峰程度的测度。,145,统计先是思维而后才是数学,它通常是与标准正态分布相比较而言,146,统计先是思维而后才是数学,峰度系数计算公式为,式中:K表示偏态系数,s4是标准差的四次方,xi 是组中值,峰态系数 K=0 标准正态分布峰态系数 K0 为尖峰分布注意:公式中也可以不减3。此时,当K3时为平峰分布;当K3时为尖峰分布。,147,统计先是思维而后才是数学,峰态系数(例题分析),148,统计先是思维而后才是数学,峰态系数(例题分析),结论:峰态系数为负值,但与0

44、的差异不大,说明电脑销售量为轻微平峰分布,2.5 统计表与统计图,一、统计表二、统计图,一、统计表(一)统计表的结构,行标题,列标题,数字资料,表头,附加,2.5 统计表与统计图,(1)合理安排统计表的结构(2)总标题内容应满足3W(where,when,what)要求(3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明(4)表中上下两条横线一般用粗线,其他线用细线(5)通常情况下,统计表的左右两边不封口(6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一(7)对于没有数字的表格单元,一般用“”表示(8)必要时可在表的下方加上注释,(

45、二)设计和使用统计表的注意事项,2.5 统计表与统计图,一、统计图(一)茎叶图(stem-and-leaf display),用于显示未分组的原始数值型数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,2.5 统计表与统计图,茎叶图(例题分析),茎叶图(扩展的茎叶图),(二)箱线图(box plot),用于显示未分组的原始数值型数据的分布箱线图由一组数据的5个特征

46、值绘制而成,它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,2.5 统计表与统计图,箱线图(箱线图的构成),箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图(例题分析),本章小结,统计数据的整理分布集中趋势的测度分布离散程度的测度偏态系数与峰态系数统计表与统计图,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号