第4章数据的概括性度量ppt课件.ppt

上传人:小飞机 文档编号:1428504 上传时间:2022-11-23 格式:PPT 页数:126 大小:2.46MB
返回 下载 相关 举报
第4章数据的概括性度量ppt课件.ppt_第1页
第1页 / 共126页
第4章数据的概括性度量ppt课件.ppt_第2页
第2页 / 共126页
第4章数据的概括性度量ppt课件.ppt_第3页
第3页 / 共126页
第4章数据的概括性度量ppt课件.ppt_第4页
第4页 / 共126页
第4章数据的概括性度量ppt课件.ppt_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《第4章数据的概括性度量ppt课件.ppt》由会员分享,可在线阅读,更多相关《第4章数据的概括性度量ppt课件.ppt(126页珍藏版)》请在三一办公上搜索。

1、第 4 章 数据的概括性度量,第 4 章 数据的概括性度量,4.1 集中趋势的度量 4.2 离散程度的度量4.3 偏态与峰态的度量,4.1 集中趋势的度量,4.1.1 分类数据:众数4.1.2 顺序数据:中位数和分位数4.1.3 数值型数据:平均数4.1.4 众数、中位数和平均数的比较,集中趋势,一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,分类数据:众数,,众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值

2、的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,当数据分布存在明显的集中趋势,且有显 著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数,众数的原理及应用,不唯一性,无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,分类数据的众数 (例题分析),变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 Mo可口可乐,顺序数据的众数 (例题分析),顺序数据。变量为“回答类别” Mo不满意,某车间50名工人月产量的

3、资料如下:,计算该车间工人月产量的众数。,数值型数据,某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,顺序数据:中位数和分位数,中位数(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据,中位数(位置和数值的确定),位置确定,数值确定,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款: 9元,10元,10元,11元,60元 平均付款为100/5=20元。 很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,顺序

4、数据的中位数 (例题分析),中位数的位置为 (300+1)/2150.5中位数为 Me=一般,数值型数据的中位数 (9个数据的算例),【例】 9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,数值型数据的中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1

5、2 3 4 5 6 7 8 9 10,某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,组距数列,共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位数下限公式为,向上累计,共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,共有单位数,中位数上限公式为,该段长度应为,向下累计,某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也

6、可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),方法2:较准确算法,方法1:定义算法,四分位数(位置的确定),方法3: 其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4: Excel给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值,顺序数据的四分位数 (例题分析),解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中 四分位数为 QL = 不满意 QU = 一般,数值型数据的四分位数 (9个数据的算

7、例),【例】:9个家庭的人均月收入数据(4种方法计算)原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法1,数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法2,

8、数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法3,数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6

9、7 8 9,方法4,数值型数据:平均数,平均数(mean),也称为均值,一组数据相加后除以数据的个数得到的结果集中趋势的最常用测度值一组数据的均衡点所在4. 易受极端值的影响5. 有简单平均数和加权平均数之分6. 根据总体数据计算的,记为;根据样本数据计算的,称为样本平均数,记为x,简单平均数-未分组数据(Simple mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,平均每人日销售额为:,加权平均数-分组数据 (Weighted mean),设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权平均,总体加

10、权平均,加权平均数(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人的平均日产量。,算术平均数的计算方法,解:,算术平均数的计算方法,分析:,起到权衡轻重的作用,加权算术平均数的因素分析,决定平均数的变动范围,加权平均数 (例题分析),思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工

11、资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,正确的计算方法,平均数(数学性质),1. 各变量值与平均数的离差之和等于零,2. 各变量值与平均数的离差平方和最小,几何平均数(geometric mean),n 个变量值乘积的 n 次方根适用于比率数据的平均主要用于计算平均增长率计算公式为,5. 可看作是平均数的一种变形,式中: 为几何平均数; 为变量值的个数; 为第 个变量值。,几何平均数的计算方法,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A

12、个单位 ,则第一道工序的合格品为100A0.95;第二道工序的合格品为(100A0.95)0.92; 第五道工序的合格品为(100A0.950.920.900.85)0.80;,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,解:,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,几

13、何平均数的计算方法,因各车间彼此独立作业,所以有 第一车间的合格品为:1000.95; 第二车间的合格品为:1000.92; 第五车间的合格品为:1000.80。则该企业全部合格品应为各车间合格品的总和,即总合格品=1000.95+1000.80,几何平均数的计算方法,分析:,不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为,应采用加权算术平均数公式计算,即,式中: 为几何平均数; 为第 组的次数; 为组数; 为第 组的标志值或组中值。,几何平均数的计算方法,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率

14、。,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:, ,第12年末的本利和为:,分析:,则该笔本金12年总的本利率为:,即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,几何平均数的计算方法,分析,第1年末的应得利息为:,第2年末的应得利息为:,第12年末的应得利息为:, ,则该笔本金12年应得的利息总和为:=V(0.034+0.052+0.151),这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为,假定本金为V,所以,应采用加权算术平均数公式计算平均年利息率,

15、即:,解:,(比较:按复利计息时的平均年利率为6.85),众数、中位数和平均数的比较,众数、中位数和平均数的关系,皮尔生法则,在适度偏态的情形下,算术平均数和众数的距离约等于算术平均数与中位数距离的三倍。即,众数、中位数和算术平均数关系,根据上述关系,可以从已知的两个平均指标推算另一个平均指标。 例如,某科考试结果,有半数考生成绩在80分以上,得84分的考生最多,试估计平均成绩,以判断成绩分布的偏斜情况。 解:已知me=80,m0=84,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受

16、极端值影响数学性质优良数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,4.2 离散程度的度量,4.2.1 分类数据:异众比率4.2.2 顺序数据:四分位差4.2.3 数值型数据:方差和标准差4.2.4 相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征反映各变量值 离散程度从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,分类数据:异众比率,异众比率(variation ratio),1.对分类数据离散程度的测度2.定义:非众数组的频数占总频数的比例3.计算公式为,4. 用于衡量众数的代表性,异众比率 (例题分析),解:购买其他品牌的人数占70

17、%。因此,用“可口可乐” 代表性不是很好,顺序数据:四分位差,四分位差(quartile deviation),对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差 Qd = QU QL反映了中间50%数据的离散程度不受极端值的影响,没有充分利用原始数据用于衡量中位数的代表性,四分位差 (例题分析),解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 。 已知 QL = 不满意 = 2 QU = 一般 = 3四分位差为 Qd = QU - QL = 3 2 = 1,数值型数据:方差和标准差,某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公

18、司该季度计划完成程度的全距。,优点:计算方法简单、易懂;缺点:易受极端数值的影响,未考虑数据的分布,准确程度差,极差的特点, 简单平均差适用于未分组资料,是各个数据与其算术平均数的离差绝对值的算术平均数,平均差,计算公式:,【例】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。,解:, 加权平均差适用于分组资料,平均差的计算公式,【例】 计算下表中某公司职工月工资的平均差。,解:,平均差 (例题分析),平均差 (例题分析),含义:每一天的销售量与平均销售量相比, 平均相差17台,优点:不易受极端数值的影响,能综合反映全部单位标志

19、值的实际差异程度;缺点:用绝对值的形式,不便于作数学处理和参与统计分析运算。,平均差的特点,方差和标准差(variance and standard deviation),数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s),总体方差和标准差 (Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本方差和标准差 (simple variance and sta

20、ndard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,第一节 分布的集中趋势,统计平均数的含义与作用数值平均数众数和中位数,【例】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。,解:,即该售货小组销售额的标准差为122.56元。,样本标准差 (例题分析),样本标准差 (例题分析),相对位置的度量:标准分数,标准分数(standard score),1.也称标准化值,变量值与其平均数离差除以 标准差后的值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数

21、据是否有离群点(outlier)4.用于对变量的标准化处理5. 计算公式为,标准分数(性质),均值等于02.方差等于1,标准分数(性质),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1,标准分数 (例题分析),经验法则,经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,切比雪夫不等式(Chebyshevs inequality ),如果一组数据不是对称分布,经验法则就不

22、再适用.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,切比雪夫不等式(Chebyshevs inequality ),对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,相对离散程度:离散系数(变异系数),可比,身高的差异水平:cm,体重的差异水平:kg,可比,离散系数(coefficient of variation),1.标准差与其相应的均值之比对数

23、据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5. 计算公式为,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的离散系数为:,二班成绩的标准差系数为:,因为 ,所以一班平均成绩的代表性比二班好。,离散系数 (例题分析),【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数 (例题分析),结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,4.

24、3 偏态与峰态的度量,4.3.1 偏态及其测度4.3.2 峰态及其测度,偏态与峰态分布的形状,偏态,峰态,偏 态,偏态(skewness),统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度3.偏态系数=0为对称分布4. 偏态系数 0为右偏分布5. 偏态系数 0为左偏分布6. 偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或-0.5-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,偏态系数 (coefficient of skewness),根据原始数据计算2. 根据分组数据计算,偏态系数 (例题分析),偏态系数 (例题分析),结论:偏态系数为

25、正值,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,偏态与峰态(从直方图上观察),销售量(台),结论:1. 为右偏分布 2. 峰态适中,某电脑公司销售量分布的直方图,峰 态,峰态(kurtosis),统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数0为尖峰分布,峰态系数 (coefficient of kurtosis),根据原始数据计算根据分组数据计算,峰态系数 (例题分析),结论:偏态系数为负值,说明电脑销售量为轻微扁平分布,用Excel计算描述统计量,用Excel计算描述统计量,将120个销售量的数据

26、输入到Excel工作表中,然后按下列步骤操作第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【描述统计】,然后选择【确定】第4步:当对话框出现时 在【输入区域】方框内键入数据区域 在【输出选项】中选择输出区域 选择【汇总统计】 选择【确定】,Excel中的统计函数,MODE计算众数MEDIAN计算中位数QUARTILE计算四分位数AVERAGE计算平均数GEOMEAN计算几何平均数AVEDEV计算平均差STDEV计算样本标准差STDEVP计算总体标准差SKEW计算偏态系数KURT计算峰态系数,数据分布特征和描述统计量,本章小节,1.数据水平的概括性度量2.数据离散程度的概括性度量数据分布形状的度量用Excel计算描述统计量,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号