《第六章平均指标和标志变异指标课件.ppt》由会员分享,可在线阅读,更多相关《第六章平均指标和标志变异指标课件.ppt(94页珍藏版)》请在三一办公上搜索。
1、第5章 平均指标和标志变异指标,平均指标的意义和作用,数值平均数,位置平均数,标志变异指标,6.1 平均指标的意义和作用,6.1.1平均指标的意义,平均指标(Average indicator)又称平均数,反映现象总体各单位某一数量标志值的典型水平、一般水平和代表性水平。,平均指标是社会经济现象中最常用的一种综合指标,平均指标的显著特点是:,它不是某一单位的具体数值,而是代表总体某种数量标志的一般水平,是总体各单位的代表值,把总体各单位标志值的差异给抽象化了,它是一个抽象化的数值,正是由于平均指标的“抽象化”特征,当我们计算出某地平均每户人口规模3.86人时,不必对数值进行四舍五入,尽管“3.
2、86人不存在”。,6.1.2 平均指标的作用,1.可以反映总体各单位分布的集中趋势,2.可以对现象在不同空间、时间上进行比较分析,3.可以分析现象之间的依存关系,4.可以作为评价事物的参考依据,5.可以进行数量上的估算,6.1.3 平均指标的种类,平均指标按其所属总体的时间范围不同分为两种,静态平均数,动态平均数,反映同一时间范围内总体各单位某一数量标志一般水平的平均指标,反映不同时间而同一空间范围内总体某一数量标志一般水平的平均指标,本章主要讨论静态平均数,动态平均数将在时间数列一章专门讨论。,静态平均数按其计算方法的不同分为两种:数值平均数和位置平均数,凡根据总体各单位标志值计算的平均数,
3、称为数值平均数。常见的主要有:算术平均数、调和平均数和几何平均数等,凡根据总体标志值在分配数列中的位置确定的平均数,称为位置平均数。常见的主要有众数和中位数等,6.2 数值平均数,6.2.1 算术平均数,1.算术平均数(arithmetic mean)的意义,是总体标志总量与总体单位总量对比的结果,基本计算公式,算术平均数与强度相对指标都是比值,都有“平均”含义,但两者明显区别在于,算术平均数的分子和分母是同一个总体的两个总量指标,分子是标志总量,分母是单位总量,而且分子、分母位置不能互换,强度相对指标分子和分母分属两个不同总体的总量指标,且分子分母位置颠倒有意义,它有正、逆指标之分,2.简单
4、算术平均数,将各单位的标志值xi直接相加得出标志总量,再除以总体单位数n,就得到简单算术平均数。用公式表示为,式中: X 算术平均数; X1,X2,Xn总体各单位标志值;n总体单位数;总和符号。,【实例6.1】 一个公司有5个部门,每个部门员工数分别为:24,13,19,26和11,求平均每部门的人数。,解: 平均人数= = =18.6(人),3.加权算术平均数,如果调查所得的原始资料已经经过分组整理,形成了变量数列,则计算算术平均数要采用加权算术平均数的方法。,计算过程是:将各组的变量值与各组的单位数相乘,计算出各组标志总量,各组标志总量汇总得出总体标志总量,然后除以各组单位数之和即总体单位
5、总量,得到平均数,计算公式为,【实例6.2】 服装商店要销售100件毛衣,其中20件大号毛衣,每件200元,50件中号毛衣,每件190元,30件小号毛衣,每件180元。计算每件毛衣平均价格。,解:根据题意,可列出计算表如下,销售价格(元) 200 190 180 合计,件数 20 50 30 100,销售总价值(元) 4000 9500 5400 18900,= = =189(元),【说明】,10 当权数相等时,加权算术平均数 简单算术平均数,=,20权数不但可以用次数、频数(即总体各组单位数)这种绝对数表示,还可以用比重、频率这种相对数表示。此时,加权算术平均数公式可以演化为:,公式的变形,
6、加权算术平均数的特征,加权算术平均数受两个因素的影响: 变量值的大小; 权数的结构。权数有绝对数权数和相对数权数两种。绝对数权数就是变量值个数以绝对数形式表示,即次数或频数;相对数权数则是变量值个数以相对数形式表示,即频率。,在计算加权算术平均数时,还会遇到权数的选择问题。选择权数的原则是,务必使各组的标志值与其乘积等于各组的标志总量,并且具有实际经济意义。在分配数列条件下,一般来说,次数就是权数。但也有例外,特别是用相对数或平均数计算加权算术平均数时,要特别注意。,问题2:十元钱买3千克蔬菜,平均每千克多少钱?,单价=总金额/总重量=10/33.33,问题1:每千克蔬菜价格为1.8元,1元钱
7、能买多少千克蔬菜?,总重量=总金额/单价= 1/1.8元,【例6.5】3个蔬菜超市销售同一种蔬菜,但价格不同,每千克价格分别为1.8元,2元,2.3元。若在3个超市各买1元钱的这种蔬菜,则蔬菜的平均为多少价格,6.2.2 调和平均数,是各个标志值倒数的算术平均数的倒数,故又称为倒数平均数,1.简单调和平均数,各个标志值倒数的简单算术平均数的倒数。其计算公式为,2.加权调和平均数,加权调和平均数是各个标志值倒数的加权算术平均数的倒数,其计算公式为,【例6.6】学校食堂购进某种蔬菜,相关资料如表5.5所示,求蔬菜的平均价格。,解:,调和平均数的特点: (1)调和平均数是根据总体的全部变量值计算的结
8、果。当资料不完整时,无法计算。 (2)调和平均数易受极端值的影响,而且受极小值的影响大于受极大值的影响。这是因为调和平均数中变量值采用的是倒数,小数字的倒数值大于大数字的倒数值。 (3)调和平均数的应用范围较小。如果在变量值中有一项为0,则无法求其确定的调和平均数。,6.2.3 几何平均数,几何平均数是若干项变量值的连乘积开若干次项数的方根。它是计算平均数的另一种形式。它主要用于计算比率或速度的平均。,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。,根据所掌握的资料不同,几何平均数分为简单几何平均数和加权几何平均数,1. 简单几何平均数,简单
9、几何平均数是n个变量值连乘积的n次方根。,式中: (Xi 数列中第i个变量值(i=1,2,n) n 变量值个数 连乘符号),【实例】 产品的生产往往需要几道生产工序,只有在第一道工序合格的产品才能进入第二道工序。现已知纺织厂纺纱车间产品合格率为91%,织布车间产品合格率为89%,印染车间产品合格率为87%,求三个车间平均产品合格率。,解:由于后续车间的合格率是在前一车间产品合格基础上计算的,所以全厂产品的总合格率并不等于各车间产品合格率的总和,而是各车间产品合格率的连乘积,因此要采用几何平均法计算各车间产品平均合格率。即产品平均合格率,2.加权几何平均数,与算术平均数一样,当资料已经经过整理,
10、则应以各变量值出现的次数为权数,计算加权几何平均数。其计算公式为:,【实例】 一条产品流水线由12道工序组成,其中,合格率为98%的有2道工序,合格率为96%的有5道工序,合格率为92%的有3道工序,合格率为89%的有2道工序。求产品总平均合格率。,解:产品总平均合格率为:,6.3 位置平均数,数值平均数都是根据标志值计算得到的,而位置平均数是根据总体各单位标志值所处的位置确定的。位置平均数主要包括众数、中位数和四分位数。,6.3.1众数,1.众数mode的意义,指总体中出现次数最多的标志值,是总体各单位一般水平的代表值,反映现象的集中趋势。用 表示。众数可能不存在或不惟一,鞋的号码大小,不需
11、要全面登记所有鞋码进行平均,只用生活中最普遍的、成交量最大的尺码,即众数,它反映了人们一般的需求。,2.众数的确定,由未分组资料确定众数,在资料未分组情况下,众数的确定很简单。只需找出次数最多的标志值即可。例如,一组学生年龄分别为18,19,19,20,20,20,20,22。则众数为20。若学生年龄为:18,19,19,19,20,20,20,22,则有双众数,分别是19、20。若学生年龄为:16,17,18,19,20,21,22,23,则不存在众数。,由单项式数列确定众数,由单项式变量数列确定众数,可直接观察次数,出现次数最多的标志值就是众数。,(2)由单项式数列确定众数。在单项数列情况
12、下,次数最多的组的标志值便是众数,表5.6所示。表5.6某商场销售成年女鞋资料表 女鞋号码(码) 销售量(百双) 35 1.1 36 2 37 5 38 2.1 39 0.6 40 0.2 合计 10.9 从表5.6中可以看出,出现次数最多(5百双)的变量值是37码的鞋,因此,37码就是该商场女鞋销售的众数。,由组距数列确定众数,由组距数列确定众数,首先要由最多次数来确定众数所在组,然后再用比例插值法计算众数。,下限公式:上限公式:式中: (M0众数;L众数组的下限;U众数组的上限;1众数组次数与前一组次数之差;2众数组次数与后一组次数之差;d众数组组距。),表6-5 2003年某地职工家庭人
13、均月收入资料表,从表6-5中的家庭户数列可知,家庭户数最多的是3200户,它所对应的人均月收入为500600元。因此,500600元这一人均月收入组就是众数组,它反映了人均收入的一般水平。然后利用下限公式或上限公式计算众数的近似值:根据表中的资料,将有关数字代入下限公式,得到众数的近似值:,3.众数的特点及应用,众数是根据变量值出现的次数确定的,而不是通过所有变量值计算得到的,所以,众数不受到极端变量值的影响。,众数的这一特点,是数值平均数所不具备的。在实际工作中,众数用得最多的是具有明显偏态集中趋势的次数分配。例如,按照统计国际惯例,对家庭收入分配数列,工人周工资分配数列,某种债券息票率分组
14、的行情次数等进行的分析,都采用出现次数最多的众数,得到“最普通的家庭收入额”,“最普通的工人周工资金额”,“最常见的外汇率、息票率”等。,众数是出现次数最多的变量值,如果数据分布没有明显集中趋势,众数可能不存在;如果有两个最高次数,也可以有两个众数(bimodal)。只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。,众数主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。众数是惟一一个能用在名词数据上的平均数。,例如,一项对大学生的研究包括了10个心理学专业的学生,20个英语专业的学生和6个管理专业的学生。我们无法计算这些专业的平
15、均数,但我们可以指出众数是英语专业,因为它是出现次数最多的专业。在这里,“英语专业”是定类数据的集中趋势。,6.3.2 中位数,1.中位数median的意义,将现象总体中各单位的标志值按大小顺序排列,位于中间位置的那个标志值就是中位数。通常用Me表示。,中位数将全部标志值分成两半,一半小于中位数,一半大于中位数,所以中位数又称为二分位数。,在实际工作中,有许多场合,用中位数来表示现象的一般水平。例如,在研究居民收入水平时,以居民收入中位数来代表居民收入水平比采用算术平均数进行计算更科学。,2. 中位数的确定,根据所掌握资料的不同,中位数的确定方法有两种,即根据未分组资料确定中位数和根据分组资料
16、确定中位数。,1.根据未分组资料确定中位数 将标志值按大小排序 确定中位数所在的位置 根据项数n确定中位数的位置,中位数位置=(n+1/2),n代表总体单位数; 根据中位数位置找出中位数。当项数n为奇数,则居于中间位置的那个变量值就是中位数;当项数为偶数,即(n+1/2)为非整数时,位于中间位置的第(n/2)项和第(n/2) +1项的两个变量值的算术平均数就是中位数。,例如:某班组有7名工人,日生产零件数分别为16,17,18,20,21,22,23件,则中位数所在位置为第4位(7+1)/2,第4位所对应的标志值,即20件就是中位数,它代表了这7名工人日生产零件数的一般水平。 以上是标志值的项
17、数是奇数的情况。 如果标志值的项数是偶数,那么处于中间位置左右两边的标志值的算术平均数,就是中位数。假如上述班组还有1名学徒工人,日生产零件为14件,那么他们生产零件数按顺序排列为14,16,17,18,20,21,22,23件。此时中位数的位置为第4.5位(8+1)/2,则中位数为19件(18+20)/2,即第4位和第5位所对应的标志值的算术平均数。,2.根据分组资料确定中位数 根据单项数列确定中位数 当数据量较大时,资料常以分组数列的形式出现,如果是单项式变量数列,则确定中位数的步骤是;计算累计次数,累计次数第一次超过(f/2)的那一组即为中位数所在组;与该组对应的标志值即为中位数。其中f
18、为总次数。,由上表资料累计次数第一次超过30/2,即中位数在第15人位置上。,【例6-7】 某学院20022003学年共有30名同学获得奖学金,其分布情况见表5-6。,表6-6 学生奖学金分布情况计算表,无论是向上累计还是向下累计法,所选择的累计人数数值都应是不小于15的最小数值。上表中的17和21符合这一要求,它们对应的都是第三组,即800元/人就是中位数。,根据组距式数列确定中位数 以表6-7为例。 表6-7,确定中位数的基本步骤如下: 第一步,确定中位数所在的组。 中位数位置= = =15 由此可知,中位数在餐饮收入为15 000万25 000万元的这一组里。 第二步,结合向上(向下)累
19、计次数确定了中位数所在的组。 第三步,运用下限或上限公式进行计算,以求得近似的中位数数值。,一般用以下两个公式估算中位数值: 下限公式:上限公式:,式中,Me 中位数; L 中位数所在组的下限; U 中位数所在组的上限; Sm-1中位数所在组下一组的向上 累计次数; Sm+1中位数所在组上一组的向下 累计次数; fm 中位数所在的次数; i 中位数所在组的组距; f 总次数。,按下限公式可得中位数: (万元),3.中位数的特点及应用,中位数是一种位置平均数,其大小取决于它在序列中的位置,因此它不受极端数值的影响。当存在极端数值时,中位数能比数值平均数更好地代表数据分布的一般水平。,中位数处于中
20、间位置,有一半数值小于中位数,另有一半数值大于中位数,所以,它能表明数字资料的集中趋势。,因为,人口的年龄分配不是中间高、两边低的分配形态,而是J字型的分配形态。婴儿0-1岁人数最多,随着年龄增大,人数逐渐减少,到百岁左右,所剩人数很少。,在实际工作中,中位数用得较多的是测定人口年龄分配的平均年龄数。按照统计国际惯例,各国政府统计工作对年龄分组采用中位数,而不用算术平均数。,若计算算术平均数,则会由于老人岁数很大的影响,使得算术平均年龄偏大,而与实际情况不符。,中位数主要用于测度定序数据的集中趋势,当然也适用于定距数距和定比数据的集中趋势,但不适用于定类数据,众数、中位数和平均数的关系,所以,
21、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式(卡尔皮尔逊经验公式):,一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:,根据卡尔皮尔逊经验公式,还可以推算出:,6.4 标志变异指标,仅用集中趋势指标来描述现象的特征是不够的,例如,在一次知识竞赛中,男、女两参赛代表队成绩资料如下:男代表队:51,65,69,75,81,87,94,95,96,97女代表队:74,76,78,79,82,82,83,84,86,86,两参赛代表队的平均分数都是81分,但两队成绩的分散程度却不同。女代表
22、队的成绩比较集中、整齐,即变异较小,从而平均数81分的代表性较好;男代表队的成绩比较分散,参差不齐,变动较大,用平均分81分做代表,代表性较低。,平均指标在反映总体分布一般水平的同时,掩盖了各标志值的差异性,标志变异指标能弥补这方面的不足,6.4.1 标志变异指标的意义和作用,1.标志变异指标variability indicator的意义,平均指标将总体各单位标志值的差异抽象化,从一个侧面反映总体各单位标志值的集中趋势和程度,标志变异指标则从另一个侧面反映总体各单位标志值的差别大小、变动范围和离散程度,标志变动度的种类 即测定标志变动度的方法,主要有:全距、四分位差、平均差、标准差、离散系数
23、等。,全距R四分位差Q.D.平 均 差A.D.标 准 差S.D.()离散系数V,6.4.2 标志变异指标的计算及特点,1.全距 range,是指总体各单位标志值中最大数值与最小数值之差,又称极差。用“R”表示。它表明各个数值之间最大可能的差距,是一种测量标志变动度的最简方法。,对于未分组资料或单项数列资料, R=最大标志值最小标志值 对于组距数列资料,R 最高组的上限最低组的下限,全距主要用来说明总体各单位标志值变动总范围。,全距是一个较粗糙的测定标志变动度的指标,全距越大,各标志值变动范围越大,平均数代表性较差;,全距越小,各标志值变动范围越小,平均数代表性就好;,全距为0时,平均数的代表性
24、最好。,优点是计算方法简单,意义明确。全距经常用于检查产品质量的稳定性或进行产品质量控制。世界一些国家在提供证券市场行情时,广泛应用最高价、最低价和全距,缺点是易受极端数值的影响,它只能反映最大值和最小值之间的差距,而不能反映其内部各项数值的差异状况。当标志值有异常值存在时,会直接影响全距大小,使得全距不能充分反映总体分布的离散趋势,1.概念: 将总体各单位的标志值按大小顺序排列,然后将数列分为四等分,形成三个分割点(Q1、Q2、Q3),这三个分割点称为四分位数,(其中第二个四分位数Q2就是数列的中位数Me)。 四分位差 Q.D.=Q3-Q1,2、四分位,四分位数(quartile),排序后处
25、于25%和75%位置上的值,不受极端值的影响 用于顺序数据,也可用于数值型数据,但不能用于分类数据, 根据未分组资料求Q.D.,2.计算:,数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9, 根据分组资料求Q.D.,2) 若单项数列,则Q1与Q3所在组的标志值就是Q1与Q3的数值;,若组距数列,确定了Q1与Q3所在组后,还要用以下公式求近似值:,
26、根据某车间工人日产零件分组资料,求Q.D.,这表明有一半工人的日产量分布在11.41件至17.36件之间,且相差5.95件。,3.平均差mean absolute deviation,是总体各单位标志值与其算术平均数离差绝对值的算术平均数,用符号“MAD”表示。平均差表示总体分布中,各标志值对算术平均数的平均距离。平均差越大,说明各标志值差异程度越大,平均数代表性越差;平均差越小,说明各标志值差异程度越小,平均数代表性越好。,根据所掌握资料不同,平均差可分为简单平均差和加权平均差两种,简单平均差: (未分组资料ungrouped ) 加权平均差: (分组资料grouped ),平均差是根据全部
27、标志值计算出来的,反映了每个标志值与平均数的平均离散程度,与全距相比,受极端数值的影响较小,是比全距更优良的标志变异指标。在统计实践中,一般在产品质量控制分析中应用平均差。,但计算平均差时,须对离差取绝对值,这给平均差的代数运算带来了许多不便,从而使其应用受到了限制。平均差并不是测定总体离散趋势的最好方法,在实际中,最常用的标志变异指标是标准差。,简单平均差: 【例】 某班有20学生名,按性别分成两组,同时该班某门课程的期中测验成绩如表-8所示。已知该班该门课程平均分数为80分。,表,女学生组:(分)男学生组:(分) 可见,女学生组成绩的平均差为6.8分,男学生组的平均差是14.8分,男学生组
28、成绩的平均差明显地大于女学生组,说明女学生组平均成绩的代表性要大于男学生组平均成绩的代表性。,2.加权平均差 如果掌握的是分组资料,则可计算加权平均差。其计算公式为:,【例】 利用下表某商场食品部职工日销售额资料,计算加权平均差。,根据表中的资料,可得加权算术平均数为2 800元/人,加权平均差为:(元/人) 计算结果表明,该商场日销售额的加权平均差为225元/人。,一般来说,平均差越大,标志变异程度越大,平均数代表性越小;反之,平均数代表性越大。 平均差考虑了研究总体中所有标志值的差异程度,所以可以准确地综合反映总体的离散程度。但每项平均差的计算都必须取绝对值,这就带来了不便于进行数学处理的
29、问题,因而在实际应用中受用了很大的限制。,4.标准差standard deviation,是总体各单位标志值与其算术平均数离差平方的算术平均数的平方根。又称为均方差,用“ ”表示。标准差的平方称为方差(variance),用“ ”表示。标准差是标志变异指标中最重要,最常用的指标。,标准差的实质与平均差基本相同,也表示各个标志值与平均数的平均离散程度。由于标准差采用平方而不是加绝对值的方法,来消除各标志值与算术平均数离差的正负号,因此它的应用比平均差更广泛。,根据所掌握资料不同,标准差可分为简单标准差和加权标准差两种。,简单标准差: (未分组资料ungrouped ) 加权标准差: (分组资料g
30、rouped ),【例】 某地区90家电子商务公司员工人数资料 如表第一栏和第二栏所示,计算电子商务公司员工人数标准差。,员工人数20以下20404060608080100合 计,公司数3216131019 90,组中值 10 30 50 70 90 ,320 480 650 700 1710 3860,-32.89-12.89 7.11 27.11 47.11 ,1081.7521 166.1521 50.5521 734.95212219.3521 ,34616.06722658.4336657.17737349.52142167.689987448.889,解:,标准差是根据全部标志值计
31、算的,任何一个标志值发生变化,都会使标准差发生变化。所以标准差反应灵敏,能准确反映总体分布的离散趋势。标准差是实际应用最广泛的标志变异指标。在统计分析中,计算算术平均数的同时,往往同时计算标准差。标准差不适宜用于比较平均数相差较大或计量单位不同的两总体分布的离散程度。,5.标准差系数 coefficient variation,又称离散系数,标准差系数。 标准差系数的计算公式为: 式中:CV标准差系数,【例】某学院市场营销专业2004级二个班,英语期末考试平均成绩分别为: = 86分, = 75分;标准差分别为: = 12分, = 11分。计算标准差系数,并分析哪班的成绩比较均匀,哪个班平均成
32、绩更有代表性。,由于一班成绩的标准差系数13.95%小于二班成绩的标准差系数14.67%,所以得出结论:一班的考试成绩比较均匀,一班平均成绩更有代表性。,标准差系数是无名数,在应用时不受计量单位和标志值水平限制,消除了不同总体之间在计量单位、平均水平方面的不可比性。适用于对比分析平均水平不同或计量单位不同的两组数据的离散程度的大小。标准差系数大的,说明数据的离散程度大;标准差系数小的,说明数据的离散程度小。,数据的特征和测度,众数、中位数和平均数的关系,偏度与峰度分布的形状,偏度,峰度,偏度(概念要点),1.数据分布偏斜程度的测度2.偏度系数=0为对称分布3.偏度系数 0为右偏分布4.偏度系数
33、 0为左偏分布5. 计算公式为,偏度(实例),【例】已知1997年我国农村居民家庭按纯收入分组的有关数据如表。试计算偏度系数,农村居民家庭村收入数据的直方图,偏度与峰度(从直方图上观察),按纯收入分组(元),结论:1. 为右偏分布 2. 峰度适中,偏度系数(计算过程),偏度系数(计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏度系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰度(概念要点),1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布5. 计算公式为,峰度系数系数(实例计算结果),代入公式得,【例】根据前表中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:由于=3.33,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,