统计学第四章数据的描述性分析.ppt

上传人:小飞机 文档编号:6193926 上传时间:2023-10-04 格式:PPT 页数:81 大小:2.20MB
返回 下载 相关 举报
统计学第四章数据的描述性分析.ppt_第1页
第1页 / 共81页
统计学第四章数据的描述性分析.ppt_第2页
第2页 / 共81页
统计学第四章数据的描述性分析.ppt_第3页
第3页 / 共81页
统计学第四章数据的描述性分析.ppt_第4页
第4页 / 共81页
统计学第四章数据的描述性分析.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《统计学第四章数据的描述性分析.ppt》由会员分享,可在线阅读,更多相关《统计学第四章数据的描述性分析.ppt(81页珍藏版)》请在三一办公上搜索。

1、第四章数据的描述性分析,本章内容,一、集中趋势的描述二、离散程度的描述三、分布的偏态与峰度,集中趋势的描述,数值平均数1.算术平均数2.调和平均数3.几何平均数,集中趋势的描述,位置平均数1.中位数2.众数,对比,离散程度的描述,绝对指标1.极差与四分位差2.平均差3.标准差与方差相对指标离散系数,离散程度的描述,数据标准化,分布的偏态与峰度,原点距中心距,分布的偏态与峰度,分布的偏态分布的峰度,集中趋势,集中趋势(Central Tendency)是一组数据向其中心靠拢的倾向。测定集中趋势就是寻找数据一般水平的代表值或中心值。集中趋势往往使用平均指标来测度,算术平均数,算术平均数(Arith

2、metic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。,简单算术平均数加权算术平均数分组数据算术平均数的数学性质,简单算术平均数,加权算术平均数分组,某厂某车间20名工人加工某种零件的产量资料如下:-单项式变量分布数列20名工人零件生产数量分组资料,加权算术平均数,权数,组距式,加权均值(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试成绩(X):0 20 100 人数分布(F):1 1 8 乙组:考试成绩(X):0 20 100 人数分布(F):8 1 1,选择-4,权数,次数f的作用:当变量值比较大的次数多时,平均

3、数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。有时权数也用比重(频率)来表示,算术平均数的数学性质,各变量值关于算术平均数的偏离,在平方的意义下达到最小,调和平均数,调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用 表示。,简单调和平均数加权调和平均数调和平均数是算术平均数的变形,调和平均数,某蔬菜批发市场三种蔬菜的日成交量数据如下,计算三种蔬菜该日的平均批发价格。,算术平均数,调和平均数,若已知成交额

4、,未知成交量,资料如下:,加权调和平均数,变量值倒数,简单调和平均数,调和平均数是算术平均数的变形,调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推,几何平均数,几何平均数(Geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。,简单几何平均数加权几何平均数,简单几何平均数,案例:某水泥厂1995年的水泥产量为100万吨,1996年与1995年相比增长率为9,1997年比1996相比增长率为6,1998年比1997

5、年相比增长率为20,求这三年的年平均增长率,简单几何平均数,案例2:一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计算该投资者在这四年内的平均收益率r,简单几何平均数,加权几何平均数,位置平均数1.中位数2.众数,中位数,中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。,由未分组数据确定中位数由单项数列确定中位数,分位数,数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 2

6、2,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,由未分组数据确定中位数,对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。,当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例:7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例:2、5、7、8、11、12,未分组数据的中位数(计算公式),分组数据确定中位数-单项式,组距式(见分位数),由单项数列确定中位数,按公式 确定中位数的位置并

7、对照累计次数确定中位数。,由单项数列确定中位数,先计算各组的累计次数,再按公式 确定中位数的位置,并对照累计次数确定中位数。,分位数,三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。九个数值可以将变量数列划分为项数相等的十部分,这九个数值就定义为十分位数(Dectile)99个数值可以将变量数列划分为项数相等的100部分,这99个数值就定义为百分位数(Percentile),四分位数,第一个四分位数称为下四分位数第三个四分位数称为上四分位数,1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,未分组资料和单项资料的四分位数,先排序,若

8、为单项分组资料,需计算累计频数再通过公式确定位置:如果四分位数的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。,数值型未分组数据的四分位数(7个数据的算例),原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:1 2 3 4 5 6 7,N+1,QL=23,QU=30,3.不易受极端值的影响(数据中有极大值或极小值时,影响不大),数值型未分组数据的四分位数(6个数据的算例),原始数据:23 21 30 28 25 26排 序:21 23 25 26 28 30位 置:1 2 3 4 5 6,QL=21+0.75(23-21)=2

9、2.5,QU=28+0.25(30-28)=28.5,2、分组资料,先求累积频数再确定位置最后依公式求四分位数(也是按比例分摊),其中为该分位数组的下限;为总次数;为较小累计该分位数所在组前一组的累计次数为分位数组的次数;为分位数组的组距。,以第一四分位数公式说明参数,众数,众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。,由未分组数据确定众数由单项数列确定众数由组距数列确定众数,由未分组数据确定众数,例1:7、6、8、2、3例2:7、6、8、2、3、4、3、2、3例3:7、6、8、2、3、4、3、2、3、2,由单项数列确定众数,由组距式数列确定众数,先确定众数组;再用下述

10、公式计算:,符号含义:(A)L为众数组的下限,U为上限;(B)i为众数组的组距;(C)1=fmfm-1,即众数组的次数与前一组次数之差;2=fm fm+1,即众数组的次数与后一组次数之差。,STAT,40 50 60 70 80 90 100,50 40 30 20 10,BC,ED,x y,(L)(U),Mo=L+x=U-y,O,A,F,重点考察众数位置和相邻两组次数的关系,众数取值的特点:众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。注意问题(1)优点:不易受极端值的影响。(2)缺点:未利用所有信息,缺乏敏感性和不适合代数运算,对比,1.众数、中位

11、数和算术平均数的关系确定分布是否有偏,偏斜情况如何,已知某班学生的平均年龄为17.8岁,18岁的人数最多,则该分布属于()。A正态 B左偏C右偏 D无法判断,对比,2.众数、中位数和算术平均数的特点与应用场合,位置平均数不易受极端值的影响,比较稳健。位置平均数的取值只与中间位置的一或两个数值有关,利用信 息不充分,忽略了其它数据的大小,并且不适合于代数运算。平均数所用的的数据信息比较完整,但易受极端值影响,1.计算平均指标最常用的方法和最基本的形式是()。A.中位数 B.众数 C.算术平均数 D.调和平数,2受极端数值影响最小的集中趋势值是()。A算术平均数 B调和平均数C几何平均数 D众数,

12、4位置平均数是指()A算术均值B调和均值C几何均值D众数E中位数,极差与四分位差,极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即:,四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:,离散程度刻画指标,极差:是数据离散程度的一种简单刻画,其中只考虑了两端数值,没有体现各单位变量值的变异程度,且易受极端值影响,四分位差:反映了数据排序后中间50%数据的离散程度,其值越小,说明中间50%数据越集中;四分位差是由位置平均数定义,不易受极端值影响,在某种程度上弥补了极差的不足,但同样没有考虑所有数

13、据,特点,平均差,平均差(Mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用 MD表示。,简单式平均差加权式平均差,简单式平均差,平均差:Avedev(),加权式平均差,标准差与方差,标准差(Standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。方差(Variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方;用 表示总体的方差;用 表示样本的方差标准差。,而样本标准差记为s,标准差的表达式,总体与样本标准差,简单式标准差 加权式标准差,简单

14、式标准差,总体标准差Stdevp(),结论:平均差和标准差的大小,,加权式标准差,总体与样本标准差,简单式,加权式,总体,样本,标准差:样本标准差Stdev()总体标准差Stdevp()方差:样本方差Var()总体方差Varp(),离散系数,对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,又称标准差系数(无名数)。其一般公式是:,离散系数,例:某地随机抽取一组男青年和女青年,测量他们的平均体重和标准差如下,离散系数为,说明女青年间体重的差异比男青年

15、要大一些,数据标准化判断是否有离群点,标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有:,度量的是数据偏离平均值有多少个标准差;经验表明:当数据分布对称时约有68.27%的数据与平均值的偏离在1个标准差的范围内,约有95.45%的数据与平均值的偏离在2个标准差的范围内,约有99.73%的数据与平均值的偏离在3个标准差的范围内;可见,偏离3个标准差之外的数据时很少的;一般,偏离3个标准差之外的数据就称为是离群点或异常值,也就是说,标准化之后约有99.73%(95.45%)的结果是在+-3(+-2)之间-实际中有此特性的是正态分布变量,数据标准化判

16、断是否有离群点,如果我们认为偏离超过3个标准差即为离群点,那么-3.6所对应的数值为离群点,数据标准化判断是否有离群点,Normsdist(z)=p(x1.5)=2(normsdist(-1.5)=0.1336Normsinv(probability):返回p(xz)=probability所对应的znormsinv(0.975)=1.96根据对称性,有normsinv(0.025)=-1.96,标准正态分布的有关函数,课后单选12:-normsinv(0.01)=2.33-normsinv(0.06)=1.55,数据分成k组,每组的次数ni,i=1.2.k,记 为第i组的第j个数据,为第i组

17、的平均数,为第i组的组内方差,则,各组内方差的加权平均数:,总方差,组间方差,组内方差,组内离差平方和,记 为总平均数,组间方差:,总方差:,可证明,也被称为方差加法定理,组间离差平方和,总离差平方和,第三章描述统计学:数量方法,STAT,例题:教材数据(ch4-方差分解),原点矩,k阶原点矩,一阶原点矩,二阶原点矩,k阶样本原点矩,一阶样本原点矩,二阶样本原点矩,中心矩,k阶原点矩,二阶原点矩,k阶样本原点矩,二阶样本原点矩,一般式-k阶原点矩,一阶原点矩-加权算术平均数,对于分组数据,中心矩,一般式-K阶中心矩,三阶中心矩,四阶中心矩,二阶中心矩-分组数据的方差,偏态,偏态(Skewnes

18、s)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。,偏态系数 的数值一般在0与3之间,越接近0,分布的偏斜度越小;越接近3,分布的偏斜度越大。大于0称为是正偏(右偏),小于0称为是负偏(左偏),例题,偏斜度:Skew(),偏态系数计算,我国1997年农村居民家庭按纯收入分组的有关数据,计算偏态系数,计算偏度系数,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭是多数,收入较高的家庭是少数,而且偏斜程度较大,说明特别高收入的家庭有,但越来越少,例题,左偏,峰度,峰度(Kurtosis)是分布集中

19、趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度。,正态分布的峰度系数为0,当0时为尖峰分布,当0时为平顶分布。,在有的定义中未减3,此时比较标准为3;在excel中已减3。,峰度:Kurt(),例题,Excel 函数,算术平均数:Average()调和平均数:Harmean()几何平均数:Geomean()中位数:Median()四分位数:Quartile()众数:Mode()全距:Max()-Min()平均差:Avedev()标准差:样本标准差Stdev()总体标准差Stdevp()方差:样本方差Var()总体方差Varp()偏斜度:Skew()峰度:Kurt(),将习题数据放在网上供学生下载;做网上考题模拟。,发展速度,调和平均数(算例),【例4.8】某蔬菜批发市场三种蔬菜的日成交数据如表4-2,计算三种蔬菜该日的平均批发价格,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号