数据的描述统计数值法课件.pptx

上传人:牧羊曲112 文档编号:3051783 上传时间:2023-03-10 格式:PPTX 页数:52 大小:2.71MB
返回 下载 相关 举报
数据的描述统计数值法课件.pptx_第1页
第1页 / 共52页
数据的描述统计数值法课件.pptx_第2页
第2页 / 共52页
数据的描述统计数值法课件.pptx_第3页
第3页 / 共52页
数据的描述统计数值法课件.pptx_第4页
第4页 / 共52页
数据的描述统计数值法课件.pptx_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《数据的描述统计数值法课件.pptx》由会员分享,可在线阅读,更多相关《数据的描述统计数值法课件.pptx(52页珍藏版)》请在三一办公上搜索。

1、数据的描述统计数值法,3-2,Chapter Outline,3.1数据集中趋势的度量3.2数据离散程度的度量3.3百分位数、四分位数与盒式图3.4加权平均与分组数据数值3.5几何平均数3.6 偏度与峰度,3-3,3.1 描述集中趋势,除了数据的分布外,我们也想知道数据的集中趋势数据的集中趋势反映了数据的中心当代美国人的平均人是女人,每个女人平均有2.1个孩子,且这些女人住在平均价值是80000美元的住房中。,3-4,参数与统计量,参数:总体的描述性测度,总体的均值(期望值)总体方差总体概率统计量:样本的函数且不含有未知总体参数,关于样本的描述性测度,样本均值、方差样本比例,3-5,集中趋势测

2、度量,Mean,均值Median,Md中位数Mode,Mo众数,3-6,均值,3-7,Example:汽车里程油耗案例,计算如下5个数的平均数30.8,31.7,30.1,31.6,32.1,3-8,中位数,将数据从小到大排序,排在正中间的数,即有50%的数大于它,有50%的数小于它如果数据个数是奇数,中位数就是排在正中间的数如果数据个数是偶数,中位数是两个中间数的均值,3-9,Example:汽车里程油耗案例,计算以下5个数的中位数:30.8,31.7,30.1,31.6,32.1排序:30.1,30.8,31.6,31.7,32.1奇数,中位数是31.6,3-10,众数,总体或样本中出现次

3、数最多的变量值频数分布图中最大频数所对应的变量值最高频数可以多次出现当有两个众数时,数据称为双峰分布当有多个众数时,数据称为多峰分布定性数据(分类数据),其众数是某种类别众数用来描述定性数据时更有用,3-11,三者之间的关系,Figure 3.3,3-12,3.2 离散程度的测量,Figure 3.13,3-13,四种常用的统计量,Range 极差Variance 方差Standard 标准差DeviationCoefficient 变异系数of variant,3-14,极差,最大值与最小值间的差测度数据的波动幅度温差股票的振幅,3-15,方差,3-16,标准差,3-17,Example:C

4、hriss Class Sizes This Semester,3-18,Example:Sample Variance and Standard Deviation,3-19,正态分布总体的经验法则,Figure 3.14,3-20,经验法则表明:当一组数据近似正态分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,3-21,标准分(z Scores),计算公式对某一个数值在一组数据中相对位置的度量可用于判断一组数据是否有离群点无量纲及标准化处理,高考的标准分,T=500+100Z,考号 姓名

5、 语文 数学 外语 物理 理综 综合分10050516 张华 592 598 642 581 619 636 百分等级 821 837 922 791 883 913,23,IQ分数的标准分含义,IQ分数具有正态分布,其均值为100,标准差为15 IQ分数在85-115之间的人士占多大百分比IQ分数超过125的人士占多大百分比,变异系数(coefficient of variation),标准差与其相应的均值之比对数据相对离散程度的测度用于对不同组别数据离散程度的比较可以用来度量风险计算公式为,案例:哪种基金的收益波动大?,RS internet age 基金的平均年收益率10.93%,标准差

6、是41.96%;Franklin income A基金的平均年收益率13%,标准差是9.36%;Jacob internet基金的平均年收益率34.45%,标准差是41.16%,3-25,变异系数计算,RS Internet Age:41.96/10.93=3.839Franklin Income A:9.36/13=0.72Jacob Internet:41.14/34.45=1.194RS Internet 风险最大,Jacob 次之,Franklin风险最小,3-26,基尼系数(Gini coefficient),3-27,基尼系数=A/(A+B),3-28,世界的基尼系数:2009,3

7、-29,中国的基尼系数:1978-2008,3-30,3-31,3.3 百分位数、四分位数与盒式图,将数据递增排序,对于某个数值X,如果有p%的数据小于它,则称X为第p百分位数(percentile)第10百分位数第90百分位数,第25百分位数称为下四分位数或第一四分位数(first quartile)记为Q1 中位数、第50百分位数、第二四分位数第75百分位数称为上四分位数或第三四分位数(third quartile)记为Q3(Q3-Q1)内距 或四分位差(interquartile range)记为 IQR,3-32,3-33,计算百分位数,将数据按递增排序计算指数i=(p/100)n,n

8、为样本容量如果i不是整数,取比i的整数,这个整数表示p百分位数的位置如果i是整数,则p百分位数是递增顺序排列中位置i与i+1的平均值,3-34,Example(p=10th Percentile),i=(10/100)12=1.2不是整数,取2第10百分位数为11,070,3-35,五数概括法,最小值第一四分位数Q1中位数Md第三四分位数Q3最大值,盒子-胡须图(Box-and-Whiskers Plots),五数概括的一种扩展,用Q1、Md、Q3以及四分位差绘制随机抽取20顾客对某品牌电脑的满意度进行评分(1-10分),3-36,计算,Q1=7.5,Md=8,Q3=9,IQR=1.5内栏(i

9、nner fence):(Q1-1.5IQR)至(Q3+1.5IQR)区间外栏(outer fence):(Q1-3IQR)至(Q3+3IQR)区间胡须的画法:找到Q1到内栏间的最小值以及Q3到内栏间的最大值,3-37,找出异常值,轻微异常值(mild outlier):内栏与外栏间的数值极端异常值(extreme outlier):外栏之外的数值,3-38,3-39,Figure 3.19,3-40,MegaStat绘制的盒式图,3-41,3.4 加权与分组数据,某些数值相对于其它数值可能更重要变量值的重要程度,通常称为权重(weight)加权均值与加权方差,案例:支持率的计算,3-42,3

10、-43,分组数据的统计描述,概括成频数分布或直方图的数据原始数据无法观测到,只能看到每组的上下限和频数利用组中值和频数计算均值和方差属于加权形式,3-44,分组数据的均值和方差,45,3.5 几何平均数(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均,尤其是时序数据主要用于计算平均增长率、平均收益率计算公式为,5.可看作是均值的一种变形,46,一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,案例:股票投资平均收益率,47,平

11、均发展速度、增长速度,通常用几何平均法求得。计算公式为:,案例:人口2000年-2007年平均增长率,3-48,49,3.6 偏度与峰度,统计学家Pearson于1895年首次提出偏度(skewness)数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布,50,偏态系数(skewness coefficient),根据原始数据计算根据分组数据计算,51,峰态(kurtosis),统计学家Pearson于1905年首次提出数据分布相对于正态分布的尾部薄厚程度的测度峰态系数=3峰度适中峰态系数3为厚尾分布,52,峰态系数(kurtosis coefficient),根据原始数据计算根据分组数据计算,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号