《一节分布的集中趋势二节分布的离散程度.ppt》由会员分享,可在线阅读,更多相关《一节分布的集中趋势二节分布的离散程度.ppt(98页珍藏版)》请在三一办公上搜索。
1、第一节 分布的集中趋势第二节 分布的离散程度,第三章 统计分布的数值特征,本章主要内容,本章包括平均指标和变异指标两部分内容,阐述了平均指标的概念和作用;各种平均数的计算原则、方法与应用条件;主要的平均指标(算术平均数、调和平均数、几何平均数、众数和中位数);变异指标的作用、计算方法和运用条件;主要的变异指标(极差、平均差、标准差及其系数)。,第一节 分布的集中趋势,一、统计平均数的概述二、数值平均数三、位置平均数四、各种平均数比较,一、统计平均数的概述,(一)平均数的概念同类社会经济现象总体内,各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平。它是度量总体某一数量标志在一定
2、条件下的一般水平或分布集中趋势的综合指标。,一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的腳已經踩在爐子上,而頭卻在冰箱裡,統計學家會告訴你,平均而言,你相當舒服。,调侃统计学家,(二)平均数的种类,根据各种平均数的具体代表意义和计算方式的不同,统计平均数分为两大类:算术平均数调和平均数 数值平均数几何平均数众数 中位数 位置平均数分位
3、数,(三)平均数的特点,1.将数量差异抽象化2.只能就同类现象计算3.能反映总体变量值的集中趋势,二、数值平均数,(一)概述1.定义数值平均数是由统计数据集合中的所有数据参与计算所得的平均数。2.常用的数值平均数有:算术平均数、调和平均数和几何平均数,(二)算术平均数,1.概念算术平均数是全部数据的算术平均。基本公式:,e.g.,2.算术平均数的计算方法(1)简单算术平均数如果掌握的资料没有经过分组,则先将各单位的标志值相加得出标志总量,然后再除以总体单位数,得到的平均数称为简单算术平均数。,简单算术平均数的计算公式:,例31某机械厂某生产班组有10名工人,生产某种零件,每个工人的日产量分别为
4、45件,48件,52件,62件,69件,44件,52件,58件,38件,64件。试用简单算术平均数法计算工人平均日产量。,(2)加权算术平均数如果掌握的资料是经过分组整理编成了分布数列,并且每组频数不同时,用频数(率)进行加权计算的算术平均数称为加权算术平均数。,a.加权算术平均数计算公式1:,例:某机械厂工人日产零件数的分配数列。,权数,加权,公式:,单项式数列的算术平均数,组距式加权算术平均数,例:某年我国80个产棉大县的分配数列如表。以组中值作为各组的代表值,假定各组标志值在组内分布是均匀的。此时求得的算术平均数只是其真值的近似值。,公式2,例 33某企业工人操作机床的情况见下表,计算平
5、均每位工人操作机床数。,注意比重转化为小数再计算,b.权数及作用,权数:加权算术平均数中的权数,是标志值出现的频数(次数)f 或各组次数占总次数的比重(频率)。权数的作用:权衡平均数大小。某一组的次数或频率越大,则该组的标志值对平均数的影响就越大,反之越小。,c.影响加权算术平均数大小的因素,加权算术平均数的大小受两个因素影响 受单位标志值大小的影响。受各标志值频数的影响,更准确的讲是受各组频数占总频数比重即频率的影响。,d.加权算术平均数适用,分组的统计资料,如果已知各组的代表变量值和频数(频率),则可采用加权算术平均数计算。已知频数用公式1。已知频率用公式2。,e.简单与加权算术平均数相等
6、的条件,在分组的条件下,当各组频数所占比重均相等时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数计算的结果相同。当分布数列完全对称时,加权算术平均数的计算结果与简单算术平均数计算结果相同。,3.算术平均数的数学性质,各个变量值与算术平均数的离差总和等于零。各个变量值与算术平均数的离差平方总和为最小值。两个独立的同性质变量代数和的平均数等于各变量平均数的代数和。两个独立的同性质变量乘积的平均数等于各变量平均数的乘积。,1.概念调和平均数是变量值倒数的算术平均数的倒数,故又称倒数平均数。调和平均数是算术平均数的一种,它是根据变量值的倒数计算的。,(二)调和平均数,原
7、来只是计算时使用了不同的数据!,(1)简单调和平均数,2.调和平均数的计算,(2)加权调和平均数,例:某工厂工人日产零件数资料,作为算术平均数的变形使用。已知分配数列各组标志值及其标志总量时,计算平均数可用加权调和平均法,权数m为各组的标志总量。即:,3.应用场合,4.调和平均数的特点,如果数列中有一个标志值等于零,则无法计算调和平均数。它作为一种数值平均数受所有标志值的影 响,且受极小值的影响大于受极大值的影响,但较之算术平均数,调和平均数受极端值的影响较小。,说明:,算术平均数和调和平均数不仅可以用于计算严格意义上的单位标志平均数,而且还可以用于计算平均指标和相对指标的平均数,算的时候并不
8、要求符合平均数的基本公式。下面仅举例子说明!,1.由平均数计算平均数,e.g.已知某商品在三个集贸市场上的平均价格及销售量资料如右表:求三个市场的平均价格。,2.由相对数计算平均数,e.g.某工业公司有三个工厂,已知其计划完成程度()以及计划产值资料如右表:求该公司平均计划完成程度。,计算相对指标(或平均指标)的平均数的一般方法可以概括如下:(1)若已知的是相对指标(或平均指标)的分母资料时,可将其作为权数,采用加权算术平均法计算;(2)若已知的是相对指标(或平均指标)的分子资料时,可将其作为权数,采用加权调和平均数法计算。,小 结,1.某蔬菜市场三种蔬菜的日销售数据如表,计算三种蔬菜该日的平
9、均价格。,例题,某公司下属三个部门销售情况,2.设某公司下属三个部门的销售资料如下表,求公司的平均销售利润率。,三个部门的平均利润率即是公司的销售利润率。所以可用各部门的利润率乘以销售额得到各部门的利润额,然后用各部门利润总额除以总销售额便可得到平均利润率。其计算公式为:,如果上例若缺少销售额资料而有利润额资料,如下表某公司下属三个部门销售情况,则三个部门的平均利润率可以用各部门利润额除以销售利润率得到销售额,然后用各部门利润之和除以总销售额,便可得到平均利润率。其计算公式:,3.某管理局所属15个企业销售计划完成情况资料如下表:,权数的正确选择很重要,【例34】水果甲级每元1公斤,乙级每元1
10、.5公斤,丙级每元2公斤。问:(1)若各买1公斤,平均每元可买多少公斤?(2)各买6.5公斤,平均每元可买多少公斤?(3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买多少公斤?(4)甲乙丙三级各买1元,每元可买几公斤?【例35】自行车赛时速:甲30公里/小时,乙28公里/小时,丙20公里/小时,全程200公里,问三人平均时速是多少?若甲乙丙三人各骑车2小时,平均时速是多少?,调和平均数(例题分析),【例34】解(1)(2)(3)(4),【例35】解,1.概念几何平均数又称为对数平均数,它是n个变量值连乘积的n次算术根。2.适用范围它是计算平均比率和平均速度时比较适用的一种方法。,(三)几何
11、平均数,3.几何平均数的计算方法(1)简单几何平均数,【例3-6】谋生产车间生产某产品合格率分别为:97、93、91和87,则该车间制品平均合格率为:,(2)加权几何平均数,【例3-7】投资银行某笔投资是按复利计算的,25年间年利率的分配情况是:有1年为3,有4年为5,有8年为8,有10年为10,有2年为15。求平均年利率。计算平均年利率,必须先将各年的利率加上100,换算为各年的本利率;然后按加权几何平均数的方法,计算平均年本利率;再减去100,得出平均年利率。计算如下:这就是说,25年间年平均本利率为108.6。因而,年平均利率为8.6。,(四)几何平均数、算术平均数和调和平均数的关系几何
12、平均数、算术平均数和调和平均数之间存在着一定的数量关系。这种数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,只有当所有变量值都相同时,三种平均数才相等。用数学公式表示,它们之间的关系为:,三、位置平均数,(一)概述1.概念位置平均数是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值。2.常用的位置平均数众数、中位数,(二)众数,1.概念总体中出现次数最多的变量值称为众数。2.特点适于数据较多时使用,主要用于定类数据;不受极端值和开口组数列的影响;众数是一个不容易确定的平均指标,当数列没有明显的集中趋势而趋向集中均匀分布时,则无众数可言
13、;当变量数列是异距分组时,众数的位置也不好确定。,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,(1)定类数据的众数,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐,3.计算,(2)定序数据的众数,解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意
14、,(3)数值型数据的众数下限公式:,上限公式:,某年级83名女生身高资料,身高 人数(CM)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4,身高 人数(CM)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 83,身高 人数 比重(CM)(人)(%)150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 10
15、0,某年级83名女生身高资料,(三)中位数,1.概念中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。2.意义中位数是处于统计数列中间位置的数值。由于其位置居中,不受极端数值大小的影响,因而有时直接利用它来代表现象的一般水平。,3.中位数的特点,(1)与众数一样,也是一种位置平均数,不受极端值及开口组的影响,具有稳健性;(2)各单位标志值与中位数离差的绝对值之和为最小。即(3)对某些不具有数学特点或不能用数字测定的现象,可用中位数求其一般水平。,(1)由未分组资料确定中位数在资料未经分组时,确定中位数的方法是:首先将各总体单位的标志值或变量值,按照大小顺序排列;然后确定中位数
16、的位置,处于中位数位置的标志值或变量值就是中位数。由未分组资料确定中位数,中位数的位置是:如果总体单位的项数(n)是奇数,则处于中间位置的标志值就是中位数。如果总体单位的项数是偶数,则处于中间位置的两个标志值的算术平均数就是中位数。,4.计算,e.g1,某年我国饮料制造业按利税总额排序,前10名企业的利税总额资料如下,,根据上列资料,如果确定这10名企业利税总额的中位数,则:就是说,中位数处于第5个企业和第6个企业的中间位置。第5个企业的利税总额为66百万元,第6个企业的利税总额为65百万元,故10名企业利税总额的中位数为:,e.g2,9个家庭的人均月收入数据原始数据:1500 750 780
17、 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,中位数 1080,10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,(2)单项式数列确定中位数,对于单项式数列资料,由于变量值已经序列化,故中位数的确定也很简单。步骤:第一,求中位数位置(为总体单位数之和);第二,计算各组的累计次数(向上或向下累计皆可);第三,根据中位数的位置找出中位数。
18、,(3)由组距分组数列确定中位数a.步骤由组距数列确定中位数,应先计算累计次数,然后确定中位数所在组的位置,最后再按比例推算中位数的具体数值。b.由分组资料确定中位数,中位数的位置是:,c.由组距数列计算中位数下限公式:(向上累计时用):,(向下累计时用),身高 人数 累计(CM)(人)人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上 11 83 总计 83,e.g,某年级83名女生身高资料,e.g,某年某市80个中型工业企业按照工业总产值(按1980年不变价格计算)的分组资料如下:,由上表中的资料计算中位数:首先,应
19、确定中位数的位置。f80,f/240,即中位数的位置是第40个企业。其次,应确定中位数的所在组。第二组的累计次数为35,距离中位数的位置还差5个企业;第三组的累计次数已达55,显然中位数在第三组内。第三,按比例推算中位数在组内的具体位置。,因而,某市80个中型工业企业工业总产值的中位数,按下限公式计算为:,(四)分位数(简介),1.概念能够将全部总体单位按标志值大小等分为k个部分的数值称为“k分位数”。2.常用的分位数四分位数、十分位数和百分位数。中位数实际上是一个两分位数,四、各种平均数的比较,(一)算术平均数、几何平均数和调和平均数三者的关系。(证明略)(二)数值平均数和位置平均数的比较(
20、1)数值平均数对于数据的概括能力比位置平均数强。(2)数值平均数和位置平均数对数据变化的“灵敏度”“耐抗性”不同。(3)数值平均数和位置平均数使用的数据类型不同。,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,(三)算术平均数与众数、中位数在钟形分布时三种集中趋势的关系,(1)当总体分布呈对称状态时,三者合而为一,即三者相等。(2)当总体分布呈右偏,则中位数大于众数,小于算术平均数。(3)当总体分布呈左偏,则中位数大于算术平均数,小于众数。
21、以上第2、3种情况均为总体分布呈非对称状态,这时三者之间就存在着一定的差别,愈不对称,差别越大。,英国统计学家卡尔.皮尔逊认为,当分布只是适当偏态时,三者之间的数量关系是:中位数一般介于众数和均值之间,中位数与算术平均数的距离是众数与算术平均数距离的三分之一,即关系式为:或,第二节 分布的离散程度,一、变异指标概述二、极差三、平均差四、方差和标准差五、变异系数,一、变异指标概述,(一)概念标志变异指标是反映统计数列中以平均数为中心,总体各单位标志值的差异大小范围或离差程度的指标。变异指标是评价平均数代表性的依据。变异越大,平均数的代表性越差;反之,越好。Eg.某车间有两个生产小组,都是7名工人
22、,各人日产件数:甲组:20,40,60,70,80,100,120;乙组:67,68,69,70,71,72,73;甲、乙两组的平均每人日产量都为70件。虽然两组平均日产量相等,但甲组各工人日产件数相差很大,分布很散;而乙组各工人日产件数相差不大,分布相对集中。平均数70件对甲组来说代表性不如对乙组的代表性大。,(二)标志变异指标的作用 1.标志变异指标可以衡量平均数代表性的大小。2.标志变异指标可以反映社会经济活动过程的节奏性和均衡性。3.标志变异指标可以反映总体单位标志值的均匀性和稳定性。4.标志变异指标是科学地确定必要的抽样单位数应考虑的重要因素。,(三)常见的变异指标,极差(全距)分位
23、差平均差标准差离散系数(变异系数),二、极差,1.概念极差又称“变异全距”,它是总体各单位标志的最大值与最小值之差,通常用“R”表示。2.计算极差最大标志值最小标志值极差最高组上限最低组下限如前例,甲组日产件数的极差,R=1202010(件)乙组日产件数的极差,R=73676(件),3.意义,极差用以说明标志值变动范围的大小,极差越小,说明变量值越集中,变异程度越小;反之,R数值越大,说明变量值越分散,变异程度越大。极差说明分布的离散程度有两点不足之处:它取决于两个极端值的大小,不能反映中间数据的分布情况;受极端值的影响过于显著,对数据的变化反映不敏感。,三、分位差,分位差是对极差的改进,也就
24、是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。自己看书(p77),四、平均差,1.概念总体中各单位对其平均数的离差绝对值的算术平均数,通常用“A.D.”表示。2.意义平均差能够综合反映总体中各单位标志值变动的影响。平均差越大,表示标志变异程度越大,则平均数的代表性就越小;反之,平均差越小,表示标志变异称度越小,则平均数的代表性就越大。,3.特点平均差是根据全部变量计算出来的,所以对整个变量值的离散程度有较充分的代表性。但平均差计算由于采用取离差绝对值的方法来消除正负离差,因而不适合于代数方法的演算,使其应用受到限制。4.计算(1)未分组资料:(2)分组资料:,五、方差和标准差,
25、1.概念标准差又称“均方差”,是总体各单位标志值与其算术平均数的离差平方的算术平均数的算术平方根,通常用“”表示。标准差的平方就是方差。2.意义其意义与平均差基本相同,也是根据各个标志值对其算术平均数求其平均离差后再来计算的,但是由于用离差平方的方法来消除正负离差,因此在数学处理长比平均差更为合理和优越。,3.计算(1)未分组资料:(2)分组资料:简便计算方法:其中,4.方差和标准差的性质,(1)方差和标准差具有平移不变性。即yax的方差与x的方差相同,a为任意常数。(2)将原变量乘以一个任意常数b,则新变量ybx的方差和标准差分别变为原来的 倍和 倍。(3)如果两个变量x和y相互独立,它们的
26、代数和的方差就等于原来两个变量的方差之和,它们的代数和的标准差则等于两个变量方差之和的正平方根。(4)在总体分组的条件下,变量的总方差可以分解为组内方差平均数和组间方差两部分。,5.“01”分布的数值特征,有些事物或现象的特征只表现为两种性质上的差异。例如,产品的质量表现为合格和不合格;人的性别表现为男或女;对某一电视节目表现为收看或不收看;学生成绩可以分为及格或不及格,等等。这些只表现为是或否、有或无的标志,称为是非标志或交替标志是非标志是一种品质标志,其表现为文字,因此,在计算其数量特征时需要将其文字表现进行数量化。,(1)当总体单位具有某种属性时,变量取值为1;不具有该属性时,变量取值为
27、0,这样的变量称为“01”变量,形成的分布为“01”分布。(2)其数学特征为:,平均数:,方差:,(3)成数总体的n个单位中,具有某种属性的单位数为n1个,不具有该属性的单位数为nn1n0个,则比率pn1/n;q=n0/n=1-p,称为总体的成数。,(六)变异系数(coefficient of variation),以上计算的各种变异指标,包括全距、分位差、平均差、标准差都是绝对指标,都有与平均指标相同的计量单位。因此,各种变异指标数值的大小,不仅受离散程度的影响,而且受计量单位、数列平均水平高低的影响。所以,在对比分析中,不宜直接用上述各变异指标来比较不同水平数列之间的标志值离散程度。所以提
28、出了相对指标变异系数。,1.定义变异系数又称离散系数,是绝对数或平均数形式的变异指标与其对应的平均指标对比的结果。2.变异系数的特点变异系数表现为相对数的形式,是一个无名数,不受计量单位的影响,而且能够反映数据集合中各变量值之间的差异水平,相当于平均指标的比率,对于不同计量单位或不同平均水平的现象,必须通过这个比率来判断数据分布离散程度的大小。离散系数较大的,说明数据的离散程度较大,平均指标对总体一般水平的代表性较差,反之,亦然。,3.变异系数的种类,(1)极差系数:(2)平均差系数:(3)标准差系数:(4)分位差系数:e.g.有两个不同水平的工人日产量资料:甲组:60,65,70,75,80;乙组:2,5,7,9,12;由此计算得:X甲70,甲7.07件;X乙7件,乙3.14件,根据标准差判断,甲组离散程度大于乙组,或乙组平均数的代表性高于甲组,这都不对。因为这两组的水平相差悬殊,应计算离散系数来比较:计算结果表明,并非甲组离散程度大于乙组,而是乙组大于甲组。,