《管理统计学课件.ppt》由会员分享,可在线阅读,更多相关《管理统计学课件.ppt(47页珍藏版)》请在三一办公上搜索。
1、表示统计资料的特征数有哪些?几何平均数与调和平均数各适合于什么情况?计算样本方差与总体方差公式有何区别?,统计资料的三类特征数表示集中位置的特征数表示变异(或分散)程度的特征数表示偏倚程度的特征数,3.1 表示集中位置的特征数,3.1.1 平均数,算术平均数(Arithmetic average),几何平均数(Geometric Mean),调和平均数(Harmonic Mean),定义:一组n个观测值x1,x2,,xn的算术平均数,定义为,(1)算术平均数(Arithmetic average),如果资料已经分组,组数为k,用x1,x2,,xk 表示各组中点(平均值),f1,f2,fk 表示
2、相应的频数,那么,(1)算术平均数(Arithmetic average),表3-1 某校125位大学一年级新生体重表,(1)算术平均数(Arithmetic average),其平均体重:,(1)算术平均数(Arithmetic average),(1)算术平均数(Arithmetic average),证明:,(1)算术平均数(Arithmetic average),在数据为环比类型的问题中(例如,人口增长率或是金融投资利息率),算术平均数是不适用的。例如下表是天津市工业总产值在“十五”期间的逐年增长率,如求该期间平均增长率,算术平均数是不恰当的。几何平均数可以解决这个问题。,(2)几何平
3、均数(Geometric Mean),表3-2 天津市工业总产值,(天津市2005统计年鉴),(2)几何平均数(Geometric Mean),定义:一组n个数据的几何平均数定义为,(2)几何平均数(Geometric Mean),性质:设观测数据为(上例中为各年的工业总产值),令则由,得,(2)几何平均数(Geometric Mean),(2)几何平均数(Geometric Mean),表 黑龙江省粮食总产量,(2)几何平均数(Geometric Mean),由公式:,可得:,依次为11.48,10.5,10.49,10.66,10.30,11.52,11.16.,代入公式(n=7):,得,
4、过去7年黑龙江省粮食总产值年均增长率为10.86%,当数据是相对变化率(行程问题,相对价格),求平均数时,算术平均数也不恰当。例如:甲乙两地相距120公里,某人乘车往返甲乙两地之间,去时速度每小时20公里,回来时速度为每小时30公里,若求平均速度,这时用算术平均数是不对的,但调和平均数可解决此类问题。,(3)调和平均数,在上例中,,(公里/小时),定义:,一组n个数据 的调和平均数H,由下式定义:,(3)调和平均数,(3)调和平均数,例:设有三种水果,水果甲为1元/公斤,乙为1.5元/公斤,丙为2元/公斤,若各买一公斤,则水果的平均价格是多少?,解:,算术平均数表示了集中位置特征,它照顾到每一
5、个值,但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其它的特征数。,众数(Mode),定义:对于有频数分布的变量,它的众数指频数最大的变量的值。,表3-3 频数分布表,对于已分组且等组距的频数分布,根据最大频数,可求得众数所在组。根据众数定义,可知众数不唯一。,众数(Mode),算术平均数作为集中位置的特征还有一缺点,就是受观测值中极端值的影响很大,而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。,3.1.3 中位数(Median),一组n个观测值按数值大小排列,处于中央位置的值称为中位数,用 表示,,,当n为奇数,,当n为偶数,定义:,
6、即,3.1.3 中位数(Median),(1)一组观测值中,小于和大约中位数的个数相等(无重复的情况下)。(2)绝对离差之和,即当 时取最小值。,性质:,第25百分位数又称第一个四分位数(First Quartile),用Q1 表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。,中位数是第50百分位数,一组n个观测值按数值大小排列如x1,x2,x3,x4处于p%位置的值称第p百分位数。,定义:,3.1.4 百分位数(Percentile),第p百分位数是这样一个值,它使得至少有p%
7、的数据项小于或者等于这个值,至少有(100-p)%的数据项大于或者等于这个值。,如何计算百分位数,3.1.5 四分位数(Quartile),人们经常将数据划分为四个部分,每一个部分大约包含有四分之一,即25%的数据。这种划分的临界点即为四分位数,分别称为第一个四分位数,第二个四分位数和第三个四分位数。即四分位数分别定义为第25、第50、第75百分位数,因此,其计算方法和百分位数的计算相同。,算例 对12个月薪数据的样本,按照递增顺序排列如下:2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 试计算Q1,Q2,Q3。以Q1为例
8、,计算i=np%,其中n=12,p=25,则i=3,所以,Q1=1/2(2350+2380)=2365 同样算得Q2=2405,Q3=2500,3.2 表示变异(分散)程度的特征数,定义 其中xmax和xmin分别为数据中的极大值和极小值。四分位间距(Quartile deviation)能够克服极端值影响的一种衡量变异程度的量度是四分位间距(IQR)。定义 IQR=Q3-Q1,极差(或称全距 Range)R,对于已分组的频数分布(组数为k),定义,平均差M.D.是离差()的绝对值的平均数,即,3.2.3 平均差(Mean Absolute Deviation),3.2.3 平均差(Mean
9、Absolute Deviation),对已知分组频数的平均差(k组),其中,3.2.3 平均差(Mean Absolute Deviation),例:已知职工工资的分组数据如下表,计算平均差。,则,方差,样本,对于已分组的频数分布(组数为k),总体,样本,总体,3.2.4 方差(Variance),标准差(Standard Deviation),标准差,样本标准差,总体标准差,样本标准差,总体标准差,对于已分组的频数分布(组数为k),3.2.4 方差(Variance),标准差(Standard Deviation),例:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集
10、的数据如下:根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?解:根据已知数据,计算 因此,该机器工作正常。,3.2.4 方差(Variance),标准差(Standard Deviation),定义 变异系数C,是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生身高,或比较130名大学生身高和体重哪个变化波动范围比较大时,都可用变异系数。,变异系数(Coefficient of Variation),例如:考虑某两个班的成绩变异情况A:平均成绩为80,标准差为10B:平均
11、成绩为40,标准差为8 初看起来,A班的标准差较大,较为不整齐,若把平均值考虑进去,则其实A班的成绩较为整齐。即,CA=10/80=1/8CB=8/40=1/5。,变异系数(Coefficient of Variation),比较众数、中位数和算术平均数的相对位置,下图列举出了对称的、具有左偏态(负偏态)和右偏态(正偏态)的频数分布的例子。注意到它们的特点是:,对称的分布的众数、中位数和算术平均数相同;,具有偏倚性的分布,算术平均数突出在外,偏向分布的尾端,而中位数则介于众数与算术平均数之间。,偏倚性是表示各观测值分布的不对称情况或程度。,3.3 表示偏倚情况或程度的特征数,图3-1,比较众数
12、、中位数和算术平均数的相对位置,MeMo,MeMo,=Me=Mo,可以看出,对于单峰的分布,,对称态:,左偏态:,右偏态:,比较众数、中位数和算术平均数的相对位置,(1)Pearson偏倚系数,Pearson,分布对称,则k=0,左偏态,则k0,右偏态,则k0,3.3.2 定量地描述偏倚性,常用的两个公式,(2)用标准化的三阶矩阵g表示,3.3.2 定量地描述偏倚性,常用的两个公式,3.4 五数概括法,首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。对12个月薪数据的样本,按照递增顺序排列如下:2210 2255 2350|2380 2380 2390|2420 2
13、440 2450|2550 2630 2825 Q12365 Q22405 Q32500上述起薪数据以五数概括为:2210,2365,2405,2500,2825。,3.4 五数概括法,盒形图实际上是以图形来概括数据。关键是计算中位数和四分位数Q1和Q3。此外还将用到四分位数间距IQRQ3Q1。盒形图的画法步骤如下:(1)画一个方盒,其边界恰好是第1和第3四分位数。对于上述的起薪数据,Q12365,Q32500。这个方盒包含了中间的50的数据。(2)在方盒上中位数的位置画一条垂线(对起薪数据,中位数为2405)。因此中位数将数据分为相等的两个部分。,3.5 盒形图,(3)利用四分位数间距IQR=Q3Q1,来设定界限。盒形图的界限定于低于Q1以下1.5个IQR和高于Q3以上1.5个IQR的位置。上、下限以外的数值作为异常值。即:Q1-1.5IQR=2162.5;Q3+1.5IQR=2702.5(4)在图32中的横线叫做须线(whisker),须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。即:min=2210,max=2630(5)最后,任一异常值的位置以符号“”标出。即:2825,3.5 盒形图,盒形图例图,图3-2,3.5 盒形图,