《统计学数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《统计学数据分布特征的描述.ppt(45页珍藏版)》请在三一办公上搜索。
1、Page 1,第三章 数据分布特征的描述,通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够,为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。,Page 2,对单变量截面数据的特征描述,主要有四个方面:集中趋势、离散程度、偏态与峰度。,各类代表性的数量特征值,代表值是多少,代表性有多大,代表性可靠吗,集中趋势的度量,离散趋势的度量,分布特征的度量,平均指标,变异指标,偏度峰度指标,基本公式,简单式,加权式,算术平均数,调和平均数,几何平均数,中位数,众数,极差,平均差,标准差,离散系数,原点矩,中心距,N阶矩,第三章
2、数据分布特征的描述,Page 3,第三章 数据分布特征的描述,第一节 统计变量集中趋势的测定,第二节 统计变量离散程度的测定,第三节 变量分布的偏度与峰度,第四节 利用Excel计算描述统计指标,Page 4,第一节 统计变量集中趋势的测定,一 测定集中趋势的指标及其作用,二 数值平均数,三 众数与中位数,Page 5,一、测定集中趋势的指标及其作用,集中趋势(Central tendency)较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。测度集中趋势的指标有两大类:数值平均数是根据全部数据计算得到的代表值,主要有算术平均数、调和
3、平均数及几何平均数;位置代表值根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。,Page 6,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响;在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系。4平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。,Page 7,二、数值平均数,(一)算术平均数(均值)一组数据的总和除以这组数据的项数所得的结果
4、;最常用的数值平均数。1简单算术平均数把每项数据直接加总后除以它们的项数。通常用于对未分组的数据计算算术平均数。计算公式:,Page 8,二、数值平均数,2加权算术平均数加权算术平均数的计算公式:,加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi)。,Page 9,二、数值平均数,2加权算术平均数加权算术平均数的计算公式:权数(fi,也称权重)权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式,也可以是比重形式(如频率)来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。,Page 10,二、数值平均数,2加权算术平
5、均数权数的性质:,加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi),表 1,表 2,表 3,大变量值组大权数,小变量值组小权数,则平均数就大大变量值组小权数,小变量值组大权数,则平均数就小,当权数完全相等(f1=f2=fn)时,加权算术平均数就成了简单算术平均数。,Page 11,3由组距数列计算算术平均数各组变量值用组中值来代表。假定条件是各组内数据呈均匀分布或对称分布。计算结果是近似值。,二、数值平均数,Page 12,4对相对数求算术平均数由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。,权数的选择必须符合该相对数本身的计算公式。权数通常
6、为该相对数的分母指标。,二、数值平均数,Page 13,5算术平均数的主要数学性质(1)算术平均数与变量值个数的乘积等于各个变量值的总和(2)各变量值与算术平均数的离差之总和等于零(3)各变量值与算术平均数离差平方之总和为最小,二、数值平均数,Page 14,二、数值平均数,(二)调和平均数(Harmonic mean),对于已分组资料,当已知各组单位总量f,未知各组标志总量m时,采用加权算术平均数。,表 1,表 2,商务统计中所应用的调和平均数通常是加权算术平均数的变形,对于已分组资料,当已知各组标志总量m,未知各组单位总量f时,采用加权调和平均数。,对于未分组资料,或虽已分组但各组次数相同
7、时,采用简单算术平均数。,Page 15,二、数值平均数,(二)调和平均数(Harmonic mean)调和平均数也称为倒数平均数。各变量值的倒数(1/xi)的算术平均数的倒数。其计算公式为:,对于未分组资料,采用简单调和平均数。,对于已分组资料,当已知各组标志总量m,未知各组单位总量f时,采用加权调和平均数。,Page 16,二、数值平均数,【例】某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:,
8、(三)几何平均数(Geometric mean),Page 17,(三)几何平均数(Geometric mean)几何平均数 n个变量值连乘积的n次方根。简单几何平均数加权几何平均数适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度;也适用于对某些具有环比性质的比率求平均。,二、数值平均数,Page 18,数值平均数小结:,二、数值平均数,简单式,加权式,算术平均数,调和平均数,几何平均数,算术和的关系,倒数和的关系,连乘积的关系,由未分组资料计算,由已分组资料计算,变量值的关系,数值平均数的计算,Page 19,三、众数与中位数,(一)众数(Mode)众数是一组数据中出
9、现频数最多、频率最高的变量值,常用 Mo 表示。如表3-2中年龄的众数值Mo25。众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。可用来测度定性变量的集中趋势;销售量最大的产品颜色是“白色”,则有Mo“白色”。可以度量定量变量的集中趋势。从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。,Page 20,组距数列中众数的确定,先找到众数组。在等距数列中,众数组就是次数最多的组;在异距数列中,众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为:,下限公式:,上限公式:,Page 21,第二节 统计变量离散程度的测定,测度集中趋势的指标有两大类:
10、数值平均数主要有算术平均数、调和平均数及几何平均数;位置代表值主要有众数和中位数。测度离中趋势的指标也有两大类:数值平均数的代表性主要有极差、平均差、方差和标准差、离散系数;位置代表值的代表性主要有四分位差、异众比例。,Page 22,第二节 统计变量离散程度的测定,一 测定离散程度的指标及其作用,二 极差、四分位差和平均差,三 方差和标准差,四 离散系数,五 异众比率,Page 23,一、测定离散程度的指标及其作用,1.说明数据的分散程度,反映变量的稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。2.衡量平均数的代表性。离散程度越大,平均数的代表性就越小。3.统计推断的重要依据判
11、别统计推断前提条件是否成立,衡量推断效果好坏的重要尺度。,Page 24,二、极差、四分位差和平均差,(一)极差(Range)极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。对于总体数据而言,极差也就是变量变化的范围或幅度大小,也称为全距组距数列中,极差最高组的上限-最低组的下限。优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。,Page 25,二、极差、四分位差和平均差,(二)四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:实质上是两端各去掉四分之一的数据以后的极差,表示占全部数
12、据一半的中间数据的离散程度。四分位差越大,表示数据离散程度越大。优缺点:是在一定程度上对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时。,Page 26,二、极差、四分位差和平均差,(三)平均差(Average Deviation)平均差各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为:优缺点:平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。,已分组数据:,未分组
13、数据:,Page 27,三、方差和标准差,(一)方差(Variance)的概念和计算方差是各个数据与其均值的离差平方的算术平均数.总体方差(2)的计算公式为:,样本方差(通常用 S2 表示)分母应为(n-1)。,已分组数据:,未分组数据:,Page 28,三、方差和标准差,标准差(standard Deviation):方差的算术平方根。总体标准差一般用表示。其计算公式为:样本标准差(S)分母应为(n-1)。标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度,分组数据:,未分组数据:,Page 29,计算平均差和方差、标准差,
14、Page 30,三、方差和标准差,(二)方差的主要数学性质常数的方差等于零。a为常数,则 变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:分组条件下,总体的方差等于组间方差与各组方差平均数之和。,组间方差,各组方差平均数,Page 31,三、方差和标准差,(三)标准化值(Z-score)标准化值或标准得分也称为Z值。对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。,Page 3
15、2,三、方差和标准差,假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张某第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。利用标准化值进行对比,表明第二次考试的成绩更好一些。,Page 33,三、方差和标准差,(四)对称钟形分布中的3 法则3 法则关于钟形分布的一个近似的或经验的法则:变量值落在-3,+3 范围以外的情况极为少见。因此通常将落在区间-3,+3 之外的数据称为异常数
16、据或称为离群点。,Page 34,四、离散系数,前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。例如,哪个变量的差异较大:体重,还是身高?例如,体重的差异哪个较大:父亲,还是婴儿?父亲:平均体重=70 kg,标准差=5 kg 婴儿:5 kg,1 kg,Page 35,四、离散系数,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程
17、度。将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是就标准差来计算的,称之为标准差系数:离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然.,Page 36,五、异众比率,异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。其值越小,数据集中程度越高,众数代表性越大。,Page 37,第三节 变量分布的偏度与峰度,一 矩(动差),二 偏度(Skewness),三 峰度(Kurtosis),Page 38,一、矩(动差),矩(动差)一系列刻画
18、数据分布特征的指标的统称。变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的 K 阶矩,即:,Page 39,K 阶原点矩(当a=0 时)是数据的K次方的平均数一阶原点矩即算术平均数;二阶原点矩即平方平均数。K 阶中心矩矩(当a=均值 时)是以均值为中心计算的离差 K 次方的平均数k=1时,称为一阶中心矩,它恒等于0,即 m1=0;k=2时,称为二阶中心矩,也就是方差,即m2=2。,Page 40,二、偏度(Skewness),偏度指数据分布的不对称程度或偏斜程度。以 对称分布 为标准来区分偏态分布又分左偏(负偏)和右偏(正偏).,左偏分布(负偏),右偏分布(正偏),Pag
19、e 41,偏态的测度方法(一)由均值与众数(中位数)之间的关系求偏态系数一般有:,Page 42,(二)由三个四分位数之间的关系求偏态系数,值域:-1 Sk 1,Page 43,(三)利用 3 阶中心矩来计算偏度系数。测定偏度最常用的方法原理:若分布不对称,则 3 阶中心矩不为0。不对称程度愈严重,3 阶中心矩的绝对值愈大。为消除量纲的影响,可除以 3。,Page 44,三、峰度(Kurtosis),峰度是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度.,尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄;平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。,Page 45,峰度系数原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方4所得到的相对数即可衡量峰度。对于正态分布曲线有:m4/4=3,故峰度系数为:当K=0时,分布曲线为正态曲线;当K0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭;当K0时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。,