《《变量分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《变量分析》PPT课件.ppt(36页珍藏版)》请在三一办公上搜索。
1、7/11/2023,第五章 变量数列分析,本章主要阐述变量数列描述性分析的基本方法,主要包括集中趋势测度与离散趋势测度,及偏度与峰度的测度方法。,5.1 变量数列分析概述,一.变量数列分析的内容 变量数列分析是对总体各单位按数量水准分组形成的分布数列进行定量分析,以揭示总体的分布特征、集中趋势、离散趋势等。主要内容有:(1)总体结构与分布特征.主要考察变量数列中各组在总体中所占的比重,分布特征与分布类型等.(2)集中趋势测度.主要考察变量数列中总体各单位某一数量标志值或统计指标的一般水平,主要测度有算均,调均,几均,中位数和众数等平均指标.,7/11/2023,(3)离散趋势测度.主要考察变量
2、数列中总体各单位数量标志或统计指标的差异程度,主要测度有全距,四方位差,方差与标准差,变异系数等指标.(4)偏度与峰度测定.主要考察变量数列次数分布的非对称程度和次数分布曲线的尖峭程度.二.变量数列分析的作用(1)认识作用.通过变量数列分析可以认识总体内部结构与分布特征,总体各单位的一般水平与差异程度,掌握客观现象的数量特征与规律.(2)比较作用.通过集中趋势与离散趋势测度,可以比较不同国家、地区、企业同类现象一般水平的高低及其差异程度以及收入差距是否扩大.,7/11/2023,(3)数量标准作用.以平均数为标准,可以判断某种现象或事物数量的大小,水平的高低,效果和质量的好坏.在制定各种管理定
3、额中,常以相应的平均数为基础.(4)推断作用.集中趋势测度的样本平均数和离散趋势测度的样本方差是抽样推断的重要依据.亦可根据总体单位总量及总平均数推算总体标志总量.三.变量数列分析的作用(1)注意总体各单位的同质性.若总体中极端值的非同质总体单位的混入,则大大削弱了平均指标的意义,扩大了总体单位之间的离散程度.(2)用组平均数补充总平均数.用组平均数对总平均数作补充说明,可以说明总平均数内部原因或说明不同时间,不同空间总平均数差异的原因.,7/11/2023,(3)用次数分布补充总平均数.总平均数把总体各单位的差异抽象化了,掩盖了总体各单位的差异及其分布状况,因此用次数或频率分布补充总平均数,
4、可以较全面地认识单体的数量特征.(4)集中趋势与离散趋势测度相结合.集中趋势测度的只能说明数列的一般水平,离散趋势测度的变异指标,可以衡量平均数代表性高低,评价现象变动的均衡性或稳定性,因此二者应结合应用.(5)注意一般与个别相结合.为了丰富平均数对客观现象的认识作用,往往需要结合典型事例,特别是要用先进和落后的典型来补充总平均数的不足.,7/11/2023,5.2 变量数列分布分析,一.次数分布与频率分布 变量数列次数分布是由变量的不同取值及其相应的频数所构成的分布数列;频率分布是由变量的不同取值及其相应的频率所构成的.在变量数列中,各组次数 fi占总次数的比率即频率.其满足,次数分布和频率
5、分布都能说明总体中所有个体在各组间的分布特征,因此在编制变量数列时,常把频率列入数列中,以便更好地说明问题.,7/11/2023,二.次数分布的主要类型 由于现象的性质不同,次数分布或频率分布有:(1)钟形分布:其特征是“中间大,两头小”,即靠近中间的变量值分布的次数或频率多,靠近两端的变量值分布的次数或频率少,绘成曲线图,像口钟。可分为对称分布(如图5-1(a)、右偏(图5-1(b)和左偏分布(图5-1(c).对称分布的特征是:中间变量值分布的次数或频率最多,两侧变量值分布的次数随着与中间变量值距离的增大逐渐减少,并围绕中心变量值两侧呈对称分布,最常见的最重要是正态分布,许多现象的总体分布都
6、趋于正态分布,因而它在统计研究和应用中具有极其重要的作用.,7/11/2023,(a),(b),(c),图5-1 钟形分布图,(2)U形分布:其特征是“中间小,两头大”,即靠近中间的变量值分布的次数或频率少,靠近两端的变量值分布的次数或频率多,绘成曲线图,像字母U。最常见的U型分布是人口死亡率的分布,即按年龄阶段来看,婴儿和老年死亡率较高,中年死亡率最低.(3)J形分布:其有两种类型,即正J形和反J形分布.如投资额与利润率大小一般呈正J形分布;如费用率按销售额大小呈反J形分布.,7/11/2023,三.变量数列分布分析 变量数列分布分析主要考察变量取值的分布类型,描述总体或样本的结构.变量数列
7、按变量的取值是否连续,可分为离散型与连续型变量数列.离散型变量宜采用直线图和直方图,连续型变量宜采用直方图,折线图,平滑图.变量数列分布的类型也有钟形分布,U形分布及J 形分布等.例5.1 表5-1所示是某市1000户被调查的居民家庭现有住房面积的分布.从中可看出,这1000户中,住房面积在60 m2以下的占3.1%,在120 m2以上的占42.1%.假定120 m2以下的居民都想提高到120 m2以上,全市现有57.9%的居民家庭低于这个值,因此该市地产商仍有较大的市场潜力.,7/11/2023,表5-1 某市居民家庭现有住房面积分布,7/11/2023,5.3 集中趋势测度,集中趋势是指变
8、量数列中数据分布的中心值或一般水平。变量数列是以平均数为中心而上下波动,故平均数反映了总体的集中趋势,它是总体分布的重要特征之一。集中趋势测度就是计算变量数列的平均数,而常见平均数有算术平均数、调和平均数、几何平均数、中位数和众数等,前三种称为数值平均数,后两种称为位置平均数。一.算术平均数 算术平均数是指变量数列中所有数据的总和除以数据个数所得这商。此为一般所称的平均数,用 来表示,其算式为,7/11/2023,1.简单算术平均数:其是用于未分组资料求平均数.2.加权平均数:其是用于分组数列求平均数.,其中 代表各组变量值的频率.看例5.34 注意:(1)权数对平均数大小起着权衡轻重作用,但
9、不 取决于它的绝对值的大小,而是取决于它的比重,故比重权更能反映权数的实质.(2)根据组距数列求加权算术平均时,需取组中值作为各组变量值的代表,是假定总体各单位在各组内部是均匀分布的,但实际并非如此,故这样计算的平均数只是一人近似数.如例4.1原始数据未分组的平均分为78.1,而例5.4分组后平均分为77.5分.,7/11/2023,3.算术平均数的性质:(1)算术平均数与总体个数乘积等于总体数据和.即,或,(2)各变量值与算术平均数差异总和为零.即,或,(3)各变量值与算术平均数差异的平方和最小.(4)组平均数 的加权平均数等于总平均数.,(5)=E(X),因 E(aX+b)=aE(X)+b
10、,即有书上8条.,7/11/2023,4.先进平均数 先进平均数是根据数列中比一般算术平均数先进的那一部分数据所计算的平均数.(即比平均数大的平均数)二.调和平均数 调和平均数是各个变量值倒数的算术平均数的倒数,又称倒数平均数,用H表示,调均也有简单也加权两种.,加权调均:(分组资料),其中n代表变量值项数,m代表调均的权数.,简单调均:(未分组资料),7/11/2023,例5.5 某工厂8个工人日生产某产品的件数分别为:20,22,23,25,26,24,28,30则算均为,其调均为,例5.6 将例5.3的数据更改为工资数及各段总工资总数所计算的调和平均数与例5.3的频数分布所计算的加权平均
11、数相等。即 已知各变量值和各组次数,采用算术平均法的加权平均数;与已知变量值和各组变量值的总和时,采用调和平均法求得的平均数是相等的。,7/11/2023,三.几何平均数 1.几何平均数的计算,例5.85.9具体的计算。2.几均,算均,调均的关系对同一变量数列而言,若分别计算几均,算均及调均,则有如下大小关系:(注数列 x 值都是正值),简单几均:,加权几均:,等号当且仅当 各 x 的值都为同一值.,7/11/2023,四.中位数 中位数是指在变量值大小排序后数列可变量中属于中间位置的变量值,又称二分位数.由于中位数位置居中,其数值不太大也不太小,因而可用其代表数列的一般水平.用 Me 表示中
12、位数,其确定有下列三种情形.(1)未分组资料求中位数.首先将n个数据由小到大排序;若n为奇数,则第(n+1)/2个数就是中位数;若n为偶数,则以第n/2与第n/2+1个数值的平均数作为中位数.(2)单项分组数列求中位数.首先应采用较小累计制求累计次数,其次用公式 决定中位数的位置.,中位数位置:(100+1)/2=50.5,中位数 M e=500元,7/11/2023,(3)组距变量求中位数.首先应采用较小(大)累计制求累计次数,其次用公式 决定中位数的位置所在的组别,最后根据均匀分布假设,用下列公式求得,7/11/2023,五.众数 众数是指在变量数列中出现次数最多的变量值,即现象总体中最常
13、见的数,通常用 M0 来表示,由于众数所出现的频率较高,有时利用众数来表示现象的一般水平或集中趋势.众数的确定有以下两种情形.1.单项分组数列求众数.根据单项数列确定众数,只要找到出现次数最多的变量值即为众数.如在表5-2中500元就是众数.(注:众数可能不唯一)2.组距变量数列求众数.此情形下,众数在次数最多的一组内,而此组称为众数组,由集中分配假设,众数取众数组的组中值,这样确定的叫粗众数.但再根据相邻组中的频数影响,较为合理的修正下众数的值.有:,7/11/2023,(1)金氏插值法:,(2)切伯插值法:,(3)皮尔逊经验法:根据统计得到一个经验公式:,7/11/2023,众数不受极端值
14、影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,7/11/2023,众数、中位数和平均数的关系,7/11/2023,数据分布的特征,7/11/2023,5.4 离散趋势测度,离散趋势是指变量数列中变量之间差异程度、分散程度或离中程度;用以测定离散趋势的指标为标志变异指标;而标志变异指标是衡量变量数列变量值离散程度的综合指标。标志变异指标可以评价平均数代表性大小。衡量事物变动的均衡性或稳定性。标志变异指标变小,平均数的代表性越大,数据取值越稳定。一.全距 全距是数列中最大值与最小
15、值之差,又称极差,表示某一总体全部变量值的变动范围。全距(R)越大,平均数的代表性就越低,反之,则越强。其计算 R=最大变量值最小变量值(单项数列)R=最高组上限最低组下限(组距数列),7/11/2023,全距易懂且计算简便,但易受极端值影响,不能准确反映数据的实际离散程度。,二.四分位差 四分位差是将一群由小到大排列的数列分为四等分,可得到三个分割点Q1,Q2,Q3,分别称为第一,第二,第三个四分位数。自Q1至Q3的距离为数列中间的一段,在此段内的数据占全部数据的50,Q1与Q3之差的绝对值的一半就是四分位差QD|Q1 Q3|/2.参看教材例5.16及5.17 四分位差计算不简便,由组距数列
16、求其较复杂,并且未考虑全部数据的差异,故实际工作中也很少用。,7/11/2023,三.平均差 平均差是变量数列中各变量值与算术平均数的离差绝对值的算术平均数,记AD,未分组资料:AD,分组资料:AD,参看教材例5.18及5.19平均差能够全面地准确地反映各变量值的离散程度,但带有绝对值符号,运算上很不方便,实际中也不常用。,7/11/2023,四.方差 方差是各变量值与算术平均数离差平方的平均数,其平均根称为标准差.这两个是最常用的离散趋势测度指标.其表示记号及计算公式为,(1)未分组资料:,注:一般用的更多的样本方差为,(2)分组资料:,参看例5.20及5.21,7/11/2023,五.方差
17、的性质,(1)(2)故有,(3)线性函数的方差,设 y=ax+b,则有,(4)方差的分解定理,即加法定理,一个分组数列的总方差,等于其各组组内方差的平均数与其组间方差之和.,详看例5.22(P74),7/11/2023,六.离散系数 离散系数也称变异系数,是衡量变量值离散程度的相对指标,通常用标志变异指标与相应的算术平均数的比值来表示.如有全距系数,平均差系数,标准差系数等.其中最常用的为标准差系数,记为 其应用时注意:(1)若两个数列或两个总体的均值相同,可直接比较标准差大小来衡量平均数代表性大小或取值的均衡性,而不必计算标准差系数.(2)若两个数列或总体的均值不同,则就计算标准差系数来比较
18、其平均数代表性大小.如甲,乙两车间工人日产量平均值分别为58件和65件,标准差分别为10件和13件,甲车间的标准差系数为0.17,乙车间的标准差系数为0.20,故甲车间工人的日产量平均值代表性大,工人技术熟练程度均衡.,7/11/2023,七.基尼系数 基尼系数也称落伦茨系数,是反映收入和财富平等程度的重要指标,亦可用于测定某些数列的离散程度,衡量事物变动的均衡性或稳定性.基尼系数是建立在落伦茨曲线基础上的,其纵轴表示收入比重的累计百分率,横轴表示人口按收入由低到高的累计百分率.图中对角线为绝对平均线,线上每一点都表示总人口中一定比重的人口在总收入中拥有相同比重的收入.而根据实际人口累计比重和
19、收入的对应关系而绘制的实际曲线,称为绝对不平等线,亦即落伦茨曲线.两条曲线围成的面积称为不平等面积(A).记基尼系数为 G越接近0,越平等,一般小于0.2是高度平均,在0.2至0.4之间为合理,0.6以上为高度不平均.实际中可用,7/11/2023,八.是非标志的方差 是非标志是指能将被研究的各个体划分为具有某种特征和不具有某种特征的两组的分组标志.设全部个体数为N,具有某种特征的标志表现用“1”表示,其个数为N1,其他的个数记为N0,记 p=N1/N,q=N0/N,例5.23,7/11/2023,一.偏度 偏度又称偏态,是指变量数列中次数分布的非对称程度.有时平均数与标准差相同的数列,但次数
20、分布的形态可能不完全一样,这与次数分布的对称程度有关.如果次数分布是完全对称的,称为对称分布,如果不是完全对称的,则称偏态分布.一般地有:对称分布 右偏分布 左偏分布 次数分布偏态的测定方法有算术平均数与众数比较法和动差法.,5.5 偏度与峰度,7/11/2023,1.算术平均数与众数比较法 这种方法是利用算术平均数,中位数,众数之间关系测定偏态的一种方法.可以用算术平均数与众数之间的距离来测定偏态的一个尺度.则有 绝对偏态量=,偏态系数 得到(1)k=0,(即),对称分布;(2)k0,(即),右偏分布;(3)k0,(即),左偏分布;,7/11/2023,2.动差法 动差又称距,原为物理学中力
21、与臂对重心关系的术语,这个关系和统计中变量与权数对平均数的关系相似.在统计学中,动差是表示数列中变量值x对特定值a的 r次方的算术平均数,称为变量x关于a的r阶动差,未分组动差,分组动差,当a=0时,即变量以原点为中心,上式称为原点r阶动差,当a=时,即变量以算术平均数为中心,则上式称为以 为中心的r阶动差.由定义可看出 一阶中心动差为0,二阶的为方差,以后常用三阶的中心动差来测定偏态.,7/11/2023,绝对偏态量:,相对偏态量:得到(1)M3=0,(即),对称分布;(2)M3 0,(即),右偏分布;(3)M3 0,(即),左偏分布;一般来说,相对偏态量 的取值在1到1之间.二.峰度 峰度
22、是次数分布曲线顶端的尖峭程度,又称峰态.一般是与正态分布相比而言的.所以峰度有三种,正态峰度(又称常态峰);尖顶峰度(又称高狭峰);平顶峰度(又称低阔峰).峰度的测定经常用四阶中心动差 M4 除以 所得的相对数为测量值.即,7/11/2023,由经验,可有下述判断原则:(1),正态峰度(常态峰);(2),尖顶态峰度,(高狭峰);(3),平顶态峰度,(低阔峰);(4),矩形分布;(5),U形分布.例5.26,例5.27三.偏度和峰度的应用 峰度和峰度主要用于检查样本的分布是否属于正态分布,然后判断总体的分布是否接近于正态分布.若样本次数分布的偏度系数 接近于0,而峰度系数 接近于3,则推断总体的次数分布接近于正态分布.,7/11/2023,例5.27,得,因为,样本不合格品的次数分布为右偏的,此分布为尖顶的峰度.,