统计学第四章数据的概括性度量.ppt

上传人:牧羊曲112 文档编号:6193929 上传时间:2023-10-04 格式:PPT 页数:103 大小:1.84MB
返回 下载 相关 举报
统计学第四章数据的概括性度量.ppt_第1页
第1页 / 共103页
统计学第四章数据的概括性度量.ppt_第2页
第2页 / 共103页
统计学第四章数据的概括性度量.ppt_第3页
第3页 / 共103页
统计学第四章数据的概括性度量.ppt_第4页
第4页 / 共103页
统计学第四章数据的概括性度量.ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

《统计学第四章数据的概括性度量.ppt》由会员分享,可在线阅读,更多相关《统计学第四章数据的概括性度量.ppt(103页珍藏版)》请在三一办公上搜索。

1、第四章 数据的概括性度量,4.1 集中趋势度量 4.2 离散程度的度量4.3 偏态与峰态的度量,数据分布的特征,4.1 集中趋势的度量,4.1.1.分类数据:众数4.1.2.顺序数据:中位数和分位数4.1.3.数值型数据:均值4.1.4.众数、中位数和均值的比较,、Mode众数、Median and Quartiles中位数和分位数、Mean平均数,Outline概要:,、分类数据:众数(Mode),1)集中趋势的测度值之一2)出现次数最多的变量值3)不受极端值的影响4)可能没有众数或有几个众数5)主要用于分类数据,也可用于顺序据和数值型数据,1、众数的概念,The ode is the va

2、lue of the observation that appears most frequently.众数是观察值中出现得最多的变量值。用Mo表示。In a set of measurements,the mode class is the class that occurs with greatest frequency.在数据集中,众数组是出现频率最高的一组。Set of data may have one mode(or modal class),or two or more modes(or modal class).数据集可能有一个众数(组),或两(多)个众数(组)。,Mode众数

3、,The modal class众数组,For large data sets the modal class is much more relevant than the a single-value mode.对于大的数据集来说,众数组比单个众数更合适。,Types of Mode 众数的种类,No mode无众数data:10 5 9 12 6 8Mode:一个众数data:6 5 9 8 5 5Bimodal:双众数data:25 28 28 36 42 42Multimodal:多众数 data:32 32 32 33 34 34 34 35 36 36 36,有时众数是一个合适的代

4、表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,2、分类数据的众数(算例),【例】根据第三章表3-3中的数据,计算“饮料类型”的众数,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值。我们看到,在所调查的50人当中,喝“碳酸饮料”的人数最多,为15人,占总被调查人数的30%,因此众数为“碳酸饮料”这一品牌,即 Mo碳酸饮料,3、顺序数据的众数(算例),【例】根据第三章例3.5 表3-10中的数据,计算众数,解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众

5、数为“不满意”这一类别,即 Mo不满意,4、数值型分组数据的众数(要点及计算公式),1.众数的值与相邻两组频数的分布有关,4.该公式假定众数组的频数在众数组内均匀分布,2.相邻两组的频数相等时,众数组的组中值即为众数,3.相邻两组的频数不相等时,众数采用下列近似公式计算,117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114

6、120 128 124 115 139 128 124 121,【例4.1】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。,数值型分组数据的众数(算例),数值型分组数据的众数(算例),【例4.1】计算50名工人日加工零件数的众数,、顺序数据:中位数和分位数 Median and Properties,1、中位数(概念要点),1)集中趋势的测度值之一2)排序后处于中间位置上的值,3)不受极端值的影响4)主要用于顺序数据,也可用数值型数据,但不能用于定类数据5)各变量值与中位数的离差绝对值之和最小,即,2、中位数位置的确定,未分组数据:,组距分组数据:,3、顺序数

7、据的中位数(算例),【例3.2】根据第三章表3-4中的数据,计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,4、数值型未分组数据的中位数(计算公式),数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 22,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,1)根据位置公式确定中位数所在的组2)采用下列近似公式

8、计算:,3)该公式假定中位数组的频数在该组内均匀分布,5、数值型分组数据的中位数(要点及计算公式),数值型分组数据的中位数(算例),【例4.3】根据例4.1 中的数据,计算50 名工人日加工零件数的中位数,6、四分位数(Quartiles),1)集中趋势的测度值之一2)排序后处于25%和75%位置上的值,3)不受极端值的影响4)主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数(位置的确定),未分组数据:,组距分组数据:,顺序据的四分位数(算例),【例4.4】根据第三章表3-10中的数据,计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为:QL位置(30

9、0)/475 上四分位数(QL)的位置为:QU位置(3300)/4225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此 QL 不满意 QU 一般,数值型未分组数据的四分位数(7个数据的算例),原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:1 2 3 4 5 6 7,N+1,QL=23,QU=30,数值型未分组数据的四分位数(6个数据的算例),原始数据:23 21 30 28 25 26排 序:21 23 25 26 28 30位 置:1 2 34 5 6,QL=21+0.75(23-21)=22.5,QU=2

10、8+0.25(30-28)=28.5,数值型分组数据的四分位数(计算公式),上四分位数:,下四分位数:,数值型分组数据的四分位数(计算示例),QL位置50/412.5,QU位置350/437.5,【例4.6】根据例4.1中的数据,计算50 名工人日加工零件数的四分位数,、定距和定比数据(数值型数据):均值(Mean),一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”

11、,统计学家与数学家,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。,调侃统计学家,1、均值的概念与性质,1)集中趋势的测度值之一2)最常用的测度值3)一组数据的均衡点所在4)易受极端值的影响5)用于数值型数据,不能用于定类数据和定序数据,(一)均值(算术平均数,2、均值计算公式,设一组数据为:x1,x2,xN 简单均值的计算公式为,设分组后的数据为:M1,M2,MN相应的频数为:f1,f2,fK加权均值的计算公式为,简单均值 Simple Mean,原始数据:10591368,加权均值(Weighted Mean),【例4.7】根据第三章表3-9中的数据,计

12、算电脑销售量的平均数,表4-3 某电脑公司销售量数据平均数计算表,加权均值(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试成绩(X):0 20 100 人数分布(F):1 1 8 乙组:考试成绩(X):0 20 100 人数分布(F):8 1 1,权数与加权,权数与加权,权数与加权,权数与加权,算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置,3、均值的数学性质,1).各变量值与均值的离差之和等于零,2).各变量值与均值的离差平方和最小,【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:,再求算术

13、平均数:,求各标志值的倒数:,,再求倒数:,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数,(二)、调和平均数harmean(harmonic mean),例某种蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各买1斤,求平均价格。(算术平均法)例类似地某人早、中、晚各买1元,求平均价格。,1、简单调和平均数(各变量值均为一个单位时使用),式中:x代表各个变量值,n代表变量值项数,(二).加权调和 平均数,适用于总体资料经过分组整理形成变量数列的情况,式中:为第 组的变量值;为第 组的标志总量。,解:,例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小

14、王买了2元白菜,3元菠菜,4元芹菜,问平均每斤菜的价格?,算术平均数与调和平均数的适用前提:A、已知基本公式母项资料用算术平均数计算(子项资料未知)B、已知基本公式子项资料用调和平均数计算(母项资料未知),调和平均数是算术平均数的变形,原来只是计算时使用了不同的数据!,(三)几何平均数(Geometric Mean),1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为,6.可看作是均值的一种变形,几何平均数,【例3.8】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.

15、5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,、众数、中位数 和均值的比较,1、众数、中位数和均值的关系,2、众数、中位数、平均数的特点和应用,(1)众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用(2)中位数不受极端值影响数据分布偏斜程度较大时应用(3)平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,数据类型与集中水平测度值,4.2 离散程度的度量,4.2.1.分类数据:异众比率4.2.2.顺序数据:四分位差数值型数据:方差及标准差4.2.4 相对离散程度:离散系数,、分类数据:异众比率,异众比率(Variation

16、 Ratio),1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为,4.用于衡量众数的代表性,fm众数组频数,异众比率(算例),【例4.9】根据第三章表3-3中的数据,计算异众比率,二、顺序数据:四分位差 Quartile Deviation,四分位差,1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性,四分位差,【例4.10】根据第三章表3-10中的数据,计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2,一般为3,满意为

17、 4,非常满意为5 已知 QL=不满意=2,QU=一般=3四分位差:QD=QU=QL=3 2=1,、定距和定比数据(数值型):方差和标准差,1、极差(Range),1).一组数据的最大值与最小值之差2).离散程度的最简单测度值3).易受极端值影响4).未考虑数据的分布,未分组数据 R=max(Xi)-min(Xi),5).计算公式为,2、平均差(Mean Deviation),1).离散程度的测度值之一2).各变量值与其均值离差绝对值的平均数3).能全面反映一组数据的离散程度4).数学性质较差,实际中应用较少,5).计算公式为,未分组数据,组距分组数据,平均差,【例4.11】根据第三章表3-1

18、3中的数据,计算电脑销售量的平均数,3、方差和标准差(Variance and standard deviation),1).离散程度的测度值之一2).最常用的测度值3).反映了数据的分布4).反映了各变量值与均值的平均差异5).根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,总体标准差,【例3.14】根据第三章表3-13中的数据,计算电脑销售量的标准差,4、样本方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距

19、分组数据:,方差的计算公式,标准差的计算公式,样本方差自由度(degree of freedom),1)一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值2)例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值3)样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本方差

20、,原始数据:10 5 9 13 6 8,样本标准差,样本标准差,原始数据:10 5 9 13 6 8,方差(简化计算公式),样本方差,总体方差,方差,各变量值对均值的方差小于对任意值的方差设X0为不等于X 的任意数,D2为对X0的方差,则,5、标准化值,1.也称标准分数2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为,标准分数(例题分析),Indicate that x1 is 0.695 standard deviations greater than the sample mean.表示家庭人均收入与平均数相比高0.695个标

21、准差。,Indicate that x2 is 1.042 standard deviations less than the sample mean.表示家庭人均收入与平均数相比低1.042个标准差。,Observations in two different data sets with the same standard score can be said to have the same relative location in terms of being the same number of standard deviations from the mean.两个不同的数据集若标准

22、分数相同,则表明它们有相同的相对位置。,标准分数没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,只是使该组数据的均值为0,标准差为1。,Standard score,The empirical rule can be used to determine the percentage of data values that must be within a specified number of standard deviation of the mean.经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比。,Empirical Rule经验法则,经验法则用于确定在

23、特定的平均数与标准差的范围内数据所占的百分比。如果一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围内。约有95%的数据在平均数加减2个标准差的范围内。约有99%的数据在平均数加减3个标准差的范围内。,Empirical Rule经验法则,The measurements falling out of 3 are called the Outlier.落在3个标准差以外的数据称为异常值。,The Interval 用区间表示,m-3s,m-2s,m-1s,m,m+1s,m+2s,m+3s,Outlier,Outlier,Chebyshevs theorem:For any set

24、 of observations,the minimum proportion of the values that lie within k standard deviations of the mean is at least:对任意分布形态的数据,落在k个标准差之内的数据至少有:where k is any constant greater than 1.K是大于1的常数。,Chebyshevs Theorem切比雪夫定理,6、相对离散程度:离散系数 Coefficient of Variation,离散系数(概念要点和计算公式),1).标准差与其相应的均值之比2).消除了数据水平高低和

25、计量单位的影响3).测度了数据的相对离散程度4).用于对不同组别数据离散程度的比较5).计算公式为,离散系数(实例和计算过程),【例4.14】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度,离散系数(计算结果),结论:计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,4.3 偏态与峰态的度量,4.3.1.偏态及其测度4.3.2.峰度及其测度,偏态与峰度分布的形状,偏态,峰度,偏态(Skewness),1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分

26、布5.计算公式为,偏态(实例),【例4.15】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数,农村居民家庭村收入数据的直方图,偏态与峰度(从直方图上观察),按纯收入分组(元),结论:1.为右偏分布 2.峰度适中,偏态系数(计算过程),偏态系数(计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰 度,峰度(概念要点),1.数据分布扁平程度的测度2.峰度系数=0扁平程度适中3.偏态系数0为尖峰分布5.计算公式为,峰度系数系数(实例计算结果),代入公式得,【例4.16】根据表4-8中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:由于=0.40,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,由Excel输出的描述统计量,本章小节,1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合偏态及峰度的测度方法用Excel计算描述统计量,结 束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号