数据分布特征描述.ppt

上传人:小飞机 文档编号:6050153 上传时间:2023-09-18 格式:PPT 页数:123 大小:1.16MB
返回 下载 相关 举报
数据分布特征描述.ppt_第1页
第1页 / 共123页
数据分布特征描述.ppt_第2页
第2页 / 共123页
数据分布特征描述.ppt_第3页
第3页 / 共123页
数据分布特征描述.ppt_第4页
第4页 / 共123页
数据分布特征描述.ppt_第5页
第5页 / 共123页
点击查看更多>>
资源描述

《数据分布特征描述.ppt》由会员分享,可在线阅读,更多相关《数据分布特征描述.ppt(123页珍藏版)》请在三一办公上搜索。

1、第三章 数据分布特征描述,第一节 总量指标与相对指标第二节 集中趋势的测定第三节 离中趋势的测定,原始数据,第一节 总量指标与相对指标,原始数据,统计指标,静态分布,动态趋势,总量指标相对指标平均指标变异指标,水平指标速度指标因素分析,加工,整理,用倍数、系数、成数、等表示,用双重计量单位表示的复名数,相对指标的表现形式,成数应当用整数的形式来表述3成、近7成8.6成,第三章 数据分布特征描述,第一节 总量指标与相对指标第二节 集中趋势的测定第三节 离中趋势的测定,问题?,(1)在概率论中,为什么要研究随机变量的数字特征?(2)随机变量的数字特征有哪些?,一名统计学家遇到一位数学家,统计学家调

2、侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。,调侃统计学家,第二节 集中趋势的测定,一、集中趋势的涵义 二、平均指标的种类及计算方法,频数表(用SPSS制作),有效数据,频数,频率,有效频率,累计频率,约2/3的人身高不超过165cm,83名女生的身高,分布的集中趋势、中心数值,可以反映现象总体的客

3、观规定性;可以对比同类现象在不同的时间、地点和条件下的一般水平;可以分析现象之间的依存关系。,测定集中趋势的意义:,一、集中趋势的涵义 二、平均指标的种类及计算方法,第二节 集中趋势的测定,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,基本形式:,例:,直接承担者,算术平均数,式中:为算术平均数;为总体单位总数;为第 个单位的标志值。,算术平均数的计算方法,平均每人日销售额为:,算术平均数的计算方法,【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人的平均日产量。,算术平均数的计算方法,解:,算术平均数的计算方法,式中:为算术平均数;为第 组的次数

4、;为组数;为第 组的标志值或组中值。,算术平均数的计算方法,分析:,起到权衡轻重的作用,算术平均数的计算方法,决定平均数的变动范围,算术平均数的计算方法,权数在概率论中的含义是什么?平均数又是什么?,随机变量的数字特征,离散随机变量的CDF,曾宪报在其博士学位论文统计权数论中提出了他认为“简洁性好、概括性强”、“关于权数的最新认识”的定义:,权数是衡量系统内诸要素相对重要程度的一组数值。,权数与加权,权数与加权,权数与加权,权数与加权,算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置,变量值与其算术平均数的离差之和衡等于零,即:变量值与其算术平均数的

5、离差平方和为最小,即:,算术平均数的主要数学性质,离差的概念,-1,-1,-2,1,3,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,正确的计算方法,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,计算该企业该日全部工人的平均日产量。,调和平均数的应用,即该企业该日全部工人的平均日产量为12.1375件。,调和平均数的应用,解:,【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:,再求算

6、术平均数:,求各标志值的倒数:,,再求倒数:,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数。,调和平均数harmean(harmonic mean),A.简单调和平均数,适用于总体资料未经分组整理、尚为原始资料的情况,式中:为调和平均数;为变量值 的个数;为第 个变量值。,调和平均数的计算方法,B.加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,式中:为第 组的变量值;为第 组的标志总量。,调和平均数的计算方法,当已知各组变量值和标志总量时,作为算术平均数的变形使用。,因为:,调和平均数的应用,调和平均数的用途:作为独立意义上的平均数使用基本上没有用途。作为算术平均数

7、的变形使用是其常见的用法。但此时已经不能称为调和平均数,只能称其为调和平均方法。,求解比值的平均数的方法,由于比值(平均数或相对数)不能直接相加,求解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比,设比值,则有:,求解比值的平均数的方法,己知,采用基本平均数公式,己知,采用加权算术平均数公式,己知,采用加权调和平均数公式,【例3】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,【例3】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,应采用加权

8、算术平均数公式计算,【例4】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,【例4】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,应采用平均数的基本公式计算,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,是N项变量值连乘积的开N次方根,几何平均数Geomean(geomatric mean),用于计算现象的平均比率或平均速度,应用:,各个比率或速度的连乘积等于总比率或总速度;相乘的

9、各个比率或速度不为零或负值。,应用的前提条件:,式中:为几何平均数;为变量值的个数;为第 个变量值。,几何平均数的计算方法,【例5】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位,则第一道工序的合格品为100A0.95;第二道工序的合格品为(100A0.95)0.92;第五道工序的合格品为(100A0.950.920.900.85)0.80;,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的

10、合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,解:,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,几何平均数的计算方法,因各车间彼此独立作业,所以有 第一车间的合格品为:

11、1000.95;第二车间的合格品为:1000.92;第五车间的合格品为:1000.80。则该企业全部合格品应为各车间合格品的总和,即总合格品=1000.95+1000.80,几何平均数的计算方法,分析:,不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为,应采用加权算术平均数公式计算,即,式中:为几何平均数;为第 组的次数;为组数;为第 组的标志值或组中值。,几何平均数的计算方法,【例6】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和

12、为:,第12年末的本利和为:,分析:,则该笔本金12年总的本利率为:,即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,几何平均数的计算方法,分析,第1年末的应得利息为:,第2年末的应得利息为:,第12年末的应得利息为:,则该笔本金12年应得的利息总和为:=V(0.034+0.052+0.151),这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为,假定本金为V,所以,应采用加权算术平均数公式计算平均年利息率,即:,解:,(比较:按复利计息时的平均年利率为6.85),就同一资料计算时,有:,设 x

13、 取值为:、10,是否为比率或速度,各个比率或速度的连乘积是否等于总比率或总速度,是否为其他比值,算术平均法,求解比值的平均数的方法,数值平均数计算公式的选用顺序,指标,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的作用:,二、平均指标的种类及计算方法,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款:9元,10元,10元,11元,60元 平均付款为100/5=20元。很明显,这并不是一个好的代表值,

14、而中位数10元是一个更好的代表值。,中位数的位次为:,即第3个单位的标志值就是中位数,中位数的确定,(未分组资料),中位数的位次为:,中位数应为第3和第4个单位标志值的算术平均数,即,中位数的确定,(未分组资料),【例8】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,中位数的位次:,中位数的确定,(单值数列),中位数的确定,(组距数列),【例9】某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,中位数的确定,(组距数列),共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位数下限公

15、式为,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,二、平均指标的种类及计算方法,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,【例10】已知某企业某日工人的日产量资料如下:,众数的确定,(单值数列),计算该企业该日全部工人日产量的众数。,众数的确定,(组距数列),【例B】某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,众数的原理及应用,83名女生身高原始数据,83名女生身高组距数列,当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数

16、据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。,众数的原理及应用,没有突出地集中在某个年份,出现了两个明显的分布中心,形状 Shape,表明数据是如何分布的偏态Skew 与 对称Symmetry左偏:均值中位数对称(零偏度):均值=中位数,右偏的,左偏的,对称的,均值,=,中位数,=,众数,均值,中位数,众数,众数,中位数,均值,位置测度的一种常用方法:百分位数(Percentile),概念:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100p)%个数值跟它一样大或比它大。,例如,一个考生入学考试

17、的口语成绩是54分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。,位置测度的另一种常用方法:四分位数(Quartile),通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。,位置测度的另一种常用方法:四分位数(Quartile),25%,25%,25%,25%,Q1,Q2,Q3,把排序数据等分为四个区间Quarters,第三章 数据分布特征描述,第一节 总量指标与相对指标第二节 集中趋势的测定第三节 离中趋势的测定,单位:分,某班三名同学三门课程的成绩如下:,请比较三名同学学习成绩的差异。,集

18、中趋势弱、离中趋势强,集中趋势强、离中趋势弱,第三节 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大,测定离中趋势的意义,用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来测定变量数列次数分布较正态分布的偏离程度。,第三节 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,标志变异指标的种类,【例A】某售货小组5人某天的销售额分别为440元、480元、520元、600元、750元,则,【例B】某季度某工业公司18个

19、工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差,往往应用于生产过程的质量控制中,全距的特点,简单平均差适用于未分组资料,计算公式:,【例11】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。,解:,即该售货小组5个人销售额的平均差为93.6元。,加权平均差适用于分组资料,平均差的计算公式,【例12】计算下表中某公司职工月工资的平均差。,解:,即该公司职工月工资的平均差为138.95元。,反映了贫富差距!

20、,优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。,平均差的特点,一般情况下都是通过计算另一种标志变异指标标准差,来反映总体内部各单位标志值的差异状况,简单标准差适用于未分组资料,是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用 来表示;标准差的平方又叫作方差,用 来表示。,标准差,计算公式:,【例13】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。,解:,(比较:其销售额的平均差为93.6元),即

21、该售货小组销售额的标准差为109.62元。,加权标准差适用于分组资料,标准差的计算公式,【例B】计算下表中某公司职工月工资的标准差。,解:,(比较:其工资的平均差为138.95元),即该公司职工月工资的标准差为167.9元。,标准差的特点,不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.,由同一资料计算的标准差的结果一般要略大于平均差。,标准差的简捷计算,测定标志变异度的绝对量指标(与原变量值名数相同),测定标志变异度的相对量指标(表现为无名数),全距,平均差,标准差,全距系数,平均差系数,

22、标准差系数,标志变异指标的种类,可比,身高的差异水平:cm,体重的差异水平:kg,可比,变异系数指标,【例14】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,第三节 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,是非标志总体,为研究是非标志总体的数量特征,令,是非标志总体的指标,具有某种标志表现的单位数所占的成数,不具有某种标志表现的单位数所占的成数,是非标志总体的指标,均值,标准差,是非标志总体的指标,方差,标准差系数,【例15】某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离中趋势。,是非标志总体的指标,解:,【作业10】1996年、2000年A、B两省固定资产投资资料如下表:要求:根据资料编制有关的结构相对数,比例相对数、动态相对数和比较相对数,分析两省固定资产投资的差异。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号