第四部分数据分布特征的测度教学课件.ppt

上传人:sccc 文档编号:5117223 上传时间:2023-06-05 格式:PPT 页数:48 大小:875.03KB
返回 下载 相关 举报
第四部分数据分布特征的测度教学课件.ppt_第1页
第1页 / 共48页
第四部分数据分布特征的测度教学课件.ppt_第2页
第2页 / 共48页
第四部分数据分布特征的测度教学课件.ppt_第3页
第3页 / 共48页
第四部分数据分布特征的测度教学课件.ppt_第4页
第4页 / 共48页
第四部分数据分布特征的测度教学课件.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《第四部分数据分布特征的测度教学课件.ppt》由会员分享,可在线阅读,更多相关《第四部分数据分布特征的测度教学课件.ppt(48页珍藏版)》请在三一办公上搜索。

1、第四章 数据分布特征的测度,学习目标,掌握众数、中位数的概念、特点及其计算方法;了解四分位数概念;掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;了解异众比率、四分位差、全距、方差及标准差的概念、及计算方法;了解偏度和峰度的意义;能够区分各种指标的应用场合,根据不同数据类型运用不同测度指标。,主要内容:,概念 在次数分布数列中,就是出现次数最多的变量值,用 表示。主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。,一、众数,计算众数的方法(1)单项分配数列的众数计算方法 出现次数最多的那一组变量值就是众数 某商场某日连续销售15双皮鞋的尺

2、码组成情况如下:38,37,38,40,40,41,40,42,44,40,41,39,40,40,43出现次数最多的数是40,40就是某商场某日销售皮鞋尺码的众数。,(2)组距分配数列的众数计算方法 第一步:根据分配数列次数最多的组 确定为众数所在组。第二步:根据该组与前后相邻两组 分配次数的关系推算众数。,众数与相邻两组的关系示意图,,众数组的组中值即为众数的值。,众数会向其前一组靠,众数小于其组中值,众数会向其后一组靠,众数大于其组中值,其中,L,U分别表示众数所在组的下限值和上限值,i表示众数组的组距。,根据上述关系,可以利用相似三角形推导出组距分配数列的众数的计算公式如下:,下限公式

3、:,上限公式:,某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。,从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。,按下限公式计算众数:,按上限公式计算众数:,众数的优缺点,优点 容易理解,不受极值影响 缺点 灵敏度和计算功能差 稳定性差 具有不唯一性,二、中位数和四分位数,(一)中位数 概念 是指对样本数据由小到大排序后,处于中间位置上的变量值,用 表示。是一个位置代表值,它主要用于测度定序数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适用于定类数据。,计算中位数的方法(1)变量值未分组情况下:总体单位数n是奇数,中间位置的变 量值是

4、中位数。总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。,(2)变量值分组情况下:,下限公式:,上限公式:,某乡人均年纯收入中位数计算表如下:,按下限公式计算中位数:按上限公式计算中位数:,优缺点,优点 容易理解,不受极值影响 适宜于开口组资料和些不能用数字测定的事物缺点 灵敏度和计算功能差 间断数Me,(二)四分位数 中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、十分位数、百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有101项数据,则第26项、51项、76项三个数据可以把数据集合分为数目相等的四个等分,这三

5、个数就分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为中位数。,三、数值平均数:算术平均数、调和平均数、几何平均数,算术平均数,主要适用于定居数据和定比数据,但不适用于定类数据和定序数据,1、简单算术平均数2、加权算术平均数,某中学100名高中一年级男生身高(单位:厘米)的频数分布如下表。求该校高一男生的平均身高。,当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值,请注意!,调和平均数,该式与加权算术平均数公式的计算结果完全一致。实际上,上式只是加权算术平均数的另一种表现形式。,由此可见,调和平均数实际

6、上是算术平均数的一种变形,二者在本质上是一致的,唯一的区别就是计算时使用了不同的数据。,只适用于定比数据,不适用于定距数据,几何平均数 是n项变量值连乘积的n次方根。适合于计算现象的平均比率或平均速度,反应现象增长率的平均水平。,因此,凡是现象的变量值的连乘积等于总比率或总速度,都可以使用几何平均数来计算平均比率或平均速度。,1、简单几何平均数 适用于计算未分组数列的平均比率或平均速度。,1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。,2、加权几何平均数 对于分组数列,应该采用加权几何平均数计算其

7、平均比率或平均速度。,某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率。,一、异众比率,是非众数的次数与全部个案数目的比率,用 表示。,异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。,为众数的频数,为变量值的总频数。,二、四分位差,概念 也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上测量尺度的变量离散程度的测量指标。计算方法 求出上四分位数和下四分位数的位置 计算这两个四分位数之差,对原始资料,调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、

8、20岁、20岁、21岁、21岁、22岁、22岁。,首先,求出Q1和Q3的位置:,其次,从数序中找出Q1=18,Q3=21,则四分位差Q=Q3Q1=2118=3,对单值分组资料,如下表所示的学生学业成绩:,对组距分组资料,Q1和Q3的计算公式为:,其中,L1为Q1属组之真实下限;L3为Q3属组之真实下限;f1为Q1属组之次数;f3为 Q3属组之次数;cf1为低于Q1属组下限之累积次数;cf3为低于Q3属组下限之累积次数;w1为Q1属组之组距;w3为Q3属组之组距;n为全部个案数。,某企业100名职工收入的分布如下:,由上表知:Q1位置=,,所以Q1在300399组内;,Q3位置=,,所以Q3在4

9、00499组内。,所以四分位差Q=Q3-Q1=162.5,三、全距,全距又称极差,它是一组数据中最大值与最小值之差。,全距是对定序及以上尺度的变量离散程度的测量。极差越小,表明资料越集中,集中趋势统计量的代表性越高。,一般公式为:,对于组距分组数据,全距也可以近似表示为:,四、方差及标准差,对于未分组数据,公式为:,对于组距分组数据,公式为:,根据下表中1998年度和1999年度电视机广告前10名品牌广告费用统计情况,计算两个年度广告费用的标准差。,根据上表可以计算出1998年度和1999年度的平均广告费用额分别为:1604.4万元,1606.5万元。,1998年度的标准差为:,=361.7(

10、万元),同理可以计算1999年度的标准差为674.7万元。,五、离散系数,离散系数是标准差与平均数的比值,用百分比表示。记离散系数为V,则公式为:,离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。,一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积75平方米,标准差为18平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。,第三节 偏态与峰度的测度,一.偏态及其测度二.峰度及其测度,偏态与峰度分布的形状,偏态,峰度,左偏分布,偏态,1.数据分布偏斜程度的测度,用 表

11、示。2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布5.计算公式为,3=0,30,30,(对称分布),正偏态分布(右),负偏态分布(左),偏度值一般在-3 3之间。3为极度右偏斜-3为极度左偏斜绝大多数变量分布偏斜程度在-1 1之间,某管理局所属30个企业2005年3月份利润额统计资料如右侧表所示,要求计算该变量数列的偏斜状况。,根据上表数据计算得,计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布。,峰度,1.数据分布扁平程度的测度,用 表示。2.峰度系数=3为扁平程度适中3.峰度系数3为尖峰分布5.计算公式为,根据偏度例题:某管理局所属30个企业2005年3月份利润额统计资料如右侧表所示,要求计算该变量数列的峰度。,根据表中有关数据计算峰度系数如下:,计算结果表明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号