统计学贾俊平第4章数据的概括性度量课件.ppt

上传人:小飞机 文档编号:2138148 上传时间:2023-01-17 格式:PPT 页数:97 大小:2.34MB
返回 下载 相关 举报
统计学贾俊平第4章数据的概括性度量课件.ppt_第1页
第1页 / 共97页
统计学贾俊平第4章数据的概括性度量课件.ppt_第2页
第2页 / 共97页
统计学贾俊平第4章数据的概括性度量课件.ppt_第3页
第3页 / 共97页
统计学贾俊平第4章数据的概括性度量课件.ppt_第4页
第4页 / 共97页
统计学贾俊平第4章数据的概括性度量课件.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《统计学贾俊平第4章数据的概括性度量课件.ppt》由会员分享,可在线阅读,更多相关《统计学贾俊平第4章数据的概括性度量课件.ppt(97页珍藏版)》请在三一办公上搜索。

1、1,第4章 数据的概括性度量,4.1 集中趋势的度量4.2 离散程度的度量4.3 偏态与峰态的度量,男性:110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124 95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130 125 110 90 110 110 95 95 110 105 80 100 110 130 105 105 120 90 100 105 100 120 100

2、100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90女性:80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85 75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90 105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80

3、80 80 95 100 90 100 95 80 80 50 88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90,统计图,统计表,?,引例,三个角度,平均值,形状,集中趋势,偏斜问题,概括性度量,分散趋势,变差,4.1 集中趋势的度量,集中趋势,集中趋势(Central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,

4、集中趋势,集中趋势,均值,中位数,众数,几何平均数,众数,众数(Mode)出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于定性数据,也可用于定量数据,众数(续),未分组数据,无众数原始数据:1 2 3 4 5 6 7,一个众数原始数据:1 2 3 3 3 4 5,多于一个众数原始数据:1 2 3 3 4 4 5,分类数据的众数,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo碳酸饮料,顺序数据的众数,解:这里的数据为顺序数据。变

5、量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型数据的众数,分组数据先在次数表中找出次数最多的那一组,称为众数组一般以Mo来表示若取众数组的组中点为众数,则称为粗众数Czuber插补法,数值型数据的众数,Czuber插补法,数值型数据的众数,示例,例解:,中位数,中位数(median)将一组数字由大排至小,位居中间的数值为该组数字的中位数。一般以Me来表示如果一组数列有奇数个观察值,则中位数为排序后数列的中间值如果一组数列有偶数个观察值,则中位数为排序后数列的中间两个观察值的算数平均数,中位数,未分组数据将n个数值由小至大排序

6、若n为奇数,决定中位数所在的位置n/2+1/2若n为偶数,则取第n/2与第n/2+1个之数值的平均数为代表各观察值与中位数差异的绝对值总和为最小。令为任意数,则:,顺序数据的中位数,解:中位数的位置为(300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般,数值型数据的中位数,例解66 70 71 76 80 84 92 n=7,则中位数所在的位置为第7/2+1/2()个数值(76)66 70 71 76 80 84 92 96 n=8,中位数所在的位置为第 8/2+1/2=4.5 个,取第n/2(第个)值与第n/2+1(第五个)值的平均数=(76+80)/

7、2=78,数值型数据的中位数,分组数据计算累加次数根据中位数所在的位次n/2 或n/2+1/2,找出中位数所在的组别以下列公式求出中位数:,数值型数据的中位数,数值型数据的中位数,已知第n/2的数值落于该组中,我们想要找出最接近第n/2的位置的一个推估数值,从第n/2个观察值到本组的下界之间共有几个观察值,组距为C,组次数为f,C/f可以看成每个观察值之间的单位距离,n/2,Fi-1,示例,例解:,均值,均值(mean)集中趋势的最常用测度值一组数据的均衡点所在,如同翘翘板的支点用于定量数据,不能用于定性数据资料易受到极端值或离群值得影响,均值,未分组数据总体均值,大N通常代表总体数值的个数,

8、总体均值是特定的一个常数值,均值,样本均值,小n通常代表样本观察值的个数,读作x-bar,样本平均值也一个常数吗?,均值,分组数据加权算术平均数,n,均值(续),加权(weighted)问题,均值(续),例解,均值(续),均值的性质均值是要找到一平衡点,均值(续),事实上,各个观察值与平均数差的总和为0,证明,均值(续),各个观察值与平均数差的平方和为最小,等于0,大于等于0,常数,均值(续),均值容易受到极端值的影响,若数据中有过大或过小的观察值时,不要以平均值来代表集中趋势。,均值(续),可以进行代数运算员工每人加薪5000元,均值(续),员工每人加薪5%,几何平均数,几何平均数(geom

9、etric mean)n 个变量值乘积的 n 次方根数据必须为正值才能计算几何平均数主要用于计算平均百分比(percentages)、比率(ratios)、指数(indexes)、成长率(growth rates)的计算计算公式为:,几何平均数,总体样本,几何平均数,可看作是均值的一种变形,几何平均数,例解 假设你去年薪资加薪百分之五,今年加薪百分之15,薪资的年平均成长率为?,平均增长率,分位数,分位数中位数又称为二分位数,即将数字数据由小至大排序后,切成二部分。大于及小于中位数者刚好各占所有数字数据的一半除了将数据作半切割外,我们也可以将数据切成四等分、十等分、或一百等分四分位数(Quar

10、tiles):Q1,Q2,Q3十分位数(Deciles):D1,D2,D3,百分位数(Percentiles):P1,P2,P3,分位数,百分位数,n小于10,不求十分位数,n100,不求百分位数,Q1=P25,Me=Q2=D5=P50,Q3=P75,顺序数据的四分位数,解:QL位置=(300)/4=75 QU位置=(3300)/4=225 从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中 四分位数为 QL=不满意 QU=一般,25%,25%,25%,25%,Data in Ordered Array:11 12 13 16 16 17 18 21 22,数值型数据的分位数,

11、切尾均值,切尾均值(trimmed Mean)去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n 表示观察值的个数;表示切尾系数,,小结(续),小结(续),R.I.PRest in Peace,他的溺亡完全是因为不懂统计,他还以为只要知道河水的平均深度就行了呢,小结(续),示例,农村家庭人均纯收入统计,示例,城镇居民家庭人均可支配收入统计,示例,香港分行业收入中位数,4.2 离散程度的度量,离散趋势测量群体中各个观察值之差异或离中程度的表征数离差小,表示各数值间的差异小,平均数较能代表群体中的各个数值,离差大,表各数值

12、之间的变动很大,较为分散,离散程度,离散程度,方差,标准差,离散系数,总体方差,样本方差,总体标准差,样本标准差,极差,四分位距,离散程度,异众比率,异众比率对分类数据离散程度的测度,非众数组的频数占总频数的比例,用于衡量众数的代表性计算公式为,异众比率,解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好,四分位差,对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差 Qd=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,顺序数据四分位差,解:设非常不满意

13、为1,不满意为2,一般为3,满意为 4,非常满意为5。已知 QL=不满意=2 QU=一般=3四分位差为 Qd=QU-QL=3 2=1,极差,极差未分组资料 R=Xmax Xmin(最大值-最小值)分组资料 R=Umax Lmin(最大组之上界 最小组之下界)离散程度的最简单测度值易受极端值影响,极差,极差,四分位距(Interquartile Range)也称为内距上四分位数与下四分位数之差 IQR=Q3 Q1反映了中间50%数据的离散程度不受极端值的影响,数值型数据的四分位差,IQR,Q1,Q3,IQR,Md,平均差,平均(绝对)差(Mean Absolute Deviation)各变量值与

14、其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少,平均差,未分组资料:,平均差,分组资料:,xi为组中值,fi为组次数,方差和标准差,方差和标准差数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,方差和标准差(续),总体方差和标准差,方差和标准差(续),样本方差和标准差,Degree of freedom,方差和标准差(续),方差和标准差(续),自由度(Degree of freedom)一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只

15、有n-1个数据可以自由取值,其中必有一个数据则不能自由取值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,方差和标准差(续),分组资料时,方差和标准差(续),方差和标准差(续),性质S20,只有在所有观察值皆相同时,等号才会成立,离散系数,离散系数(coefficient of variation)标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为:,离散系数(续),例解:A股票过去一年的平均价格为$100,标准差为$5;B股票过去一年的平

16、均价格为$50,标准差为$4请问哪一支股票的价格波动较厉害?A股票的CV=5/100=5%B股票的CV=4/50=8%,4.3 偏度与峰度的度量,偏度,偏度(skewness)Pearson于1895年首次提出 数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布,偏度,右偏Right-Skewed,左偏Left-Skewed,对称Symmetric,Mean,=,Median,=,Mode,Mean,Median,Mode,Mode,Median,Mean,偏度,根据原始数据计算根据分组数据计算,偏度,例解,偏度,结论:1.为右偏分布 2.峰度适中,某电脑

17、公司销售量分布的直方图,偏度,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,峰度,峰度(kurtosis)Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中(Mesokurtic-not too flat and not too peaked)峰态系数0为尖峰分布(Leptokurtic-peaked distribution),峰度,峰度,根据原始数据计算根据分组数据计算,峰度,结论:偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布,示例,上证指数收益率,示例,尖峰胖尾

18、股票收益率,示例(续),2009各地区人均国民收入,补充:为什么是“标准”差?,均值与标准差切比雪夫定理(Chebyshvs Theorem):无论数据为何种分配,令 c为任意大于1的常数,若一总体(或样本)的均值及标准差分别为及,则介于(c,c)内之观察值至少为(1 1/c2)。,补充:为什么是“标准”差?,-c,+c,介于两红线之间的观察值至少有(1-1/c2),当c=2时,至少75%(1-1/4)的观察值落在平均数左右两个标准差的范围内。当c=3时,至少89%(1-1/9)的观察值落在平均数左右三个标准差的范围内。当c=4时,至少93%(1-1/16)的观察值落在平均数左右四个标准差的范

19、围内。,补充:为什么是“标准”差?,经验法则:切比雪夫定理是一个较保守的估计,如果我们知道确切的分布,则能更精准的估算出落于某范围的概率对于近似正态分布(单峰对称)数据其m-s,m+s的区间内大约包含68%的数据;而m-2s,m+2s的区间内大约包含95%的数据;而m-3s,m+3s的区间内大约包含99.7%的数据,补充:为什么是“标准”差?,68%,95%,99%,+,-,+2,-2,-3,+3,补充:为什么是“标准”差?,例解:Consider a bell-shaped distribution approximately _ percentage of the values lies

20、between-2and+.,68%,+,-2,-,+2,95%,68%2=34%,95%2=47.5%,补充:为什么是“标准”差?,标准分某位同学在班上的成绩为85分,这个分数本身所传递的讯息很有限,我们通常想要进一步知道85分究竟是高还是低?也就是说,我们想知道这个分数离一般平均数多远?标准分:(standardized score)可以告诉我们观察值在所有数据中的位置,又称之为Z score,表示该观察值与平均数之间,间隔多少个标准差,小结(续),X与均值之间的实际距离,以标准差来表达,小结(续),例解:如果全班同学的统计学平均分数为85分,标准差为5分,请将将下列三位同学的分数改成标准化分数:80,70,90,小结(续),如果根据经验法则来看,分数低于80分的同学占全班的_%?有多少_的同学分数低于70?高于90分的同学占_%?,85,90,80,70,讨论:1、男生比女生开车速度快;女性优势?2、哪个国家更富有?3、如何理解“小日本”?4、如何看待工资“被增长”?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号