统计学-第3章-用统计量描述数据课件.ppt

资源描述

《统计学-第3章-用统计量描述数据课件.ppt》由会员分享，可在线阅读，更多相关《统计学-第3章-用统计量描述数据课件.ppt（66页珍藏版）》请在三一办公上搜索。

1、数据分析(方法与案例),作者贾俊平,统计学,Statistics,2023-3-17,一些人使用统计就像喝醉酒的人使用街灯柱支撑的功能多于照明。Andrew Lang,统计名言,第 3 章用统计量描述数据,3.1 水平的度量 3.2 差异的度量3.3 分布形状的度量,Statistic,2023-3-17,学习目标,度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量,2023-3-17,哪名运动员的发挥更稳定?,在奥运会女子10米气手枪比赛中，每个运动员首先进行每组10抢共4组的预赛，然后根据预赛总成绩确定进入决赛的8名运

2、动员。决赛时8名运动员再进行10枪射击，再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中，进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表,2023-3-17,哪名运动员的发挥更稳定?,最会的比赛结果是，中国运动员郭文珺凭借决赛的稳定发挥，以总成绩492.3环夺得金牌，预赛排在第1名的俄罗斯运动员纳塔利娅帕杰林娜以总成绩498.1环获得银牌，预赛排在第4名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩487.4环的成绩获得铜牌，而预赛排在第3名的蒙古运动员卓格巴德拉赫蒙赫珠勒仅以479.6环的成绩名列第8名由此可见，在射击比赛中，运动

3、员能否取得好的成绩，发挥的稳定性至关重要。那么，怎样评价一名运动员的发挥是否稳定呢？通过本章内容的学习就能很容易回答这样的问题,3.1 水平的度量 3.1.1 平均数 3.1.2 中位数和分位数 3.1.3 用哪个值代表一组数据？,第 3 章用统计量描述数据,3.1.1 平均数,3.1 水平的度量,2023-3-17,平均数(mean),也称为均值，常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的，称为平均数，记为；根据样本数据计算的，称为样本平均数，记为x,2023-3-17,简单算数平均(Simple mean),设一组数据为：x1，x2，xn(总体数据xN),样

4、本平均数,总体平均数,统计函数AVERAGE,Excel,2023-3-17,加权平均数(Weighted mean),设各组的组中值为：M1，M2，Mk 相应的频数为：f1，f2，fk,样本加权平均：,总体加权平均：,2023-3-17,加权平均数(例题分析),2023-3-17,加权平均数(权数对均值的影响),【例】甲乙两组各有10名学生，他们的考试成绩及其分布数据如下甲组：考试成绩（x）:0 20 100 人数分布（f）：1 1 8 乙组：考试成绩（x）:0 20 100 人数分布（f）：8 1 1,3.1.2 中位数和分位数,3.1 水平的度量,2023-3-17,中位数(media

5、n),排序后处于中间位置上的值。不受极端值影响,2.位置确定,3.数值确定,2023-3-17,中位数的计算(数据个数为奇数),【例3-3】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排序:750 780 850 960 1080 1250 1500 1630 2000 位置:1 2 3 4 5 6 7 8 9,中位数 1080,2023-3-17,中位数的计算(数据个数为偶数),【例3-3】10个家庭的人均月收入数据排序:750 780 850 960 1080 1250 1500 1630 2000 2800

6、位置:1 2 3 4 5 6 7 8 9 10,统计函数MEDIAN,Excel,2023-3-17,四分位数用3个点等分数据(quartile),排序后处于25%和75%位置上的值,不受极端值的影响,2023-3-17,四分位数的计算(位置的确定),方法2：较准确算法(SPSS的算法),方法1：定义算法,2023-3-17,四分位数的计算(位置的确定),方法3：其中表示中位数的位置取整。这样计算出的四分位数的位置，要么是整数，要么在两个数之间0.5的位置上方法4：Excel给出的四分位数位置的确定方法如果位置不是整数，则按比例分摊位置两侧数值的差值,2023-3-17,四分位数的计算

7、(数据个数为奇数),【例3-4】9个家庭的人均月收入数据(4种方法计算)原始数据:1500 750 780 1080 850 960 2000 1250 1630 排序:750 780 850 960 1080 1250 1500 1630 2000 位置:1 2 3 4 5 6 7 8 9,方法1定义公式,2023-3-17,四分位数的计算(数据个数为奇数),【例3-4】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排序:750 780 850 960 1080 1250 1500 1630 2000 位置:1

8、2 3 4 5 6 7 8 9,方法2SPSS公式,2023-3-17,四分位数的计算(数据个数为奇数),【例3-4】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排序:750 780 850 960 1080 1250 1500 1630 2000 位置:1 2 3 4 5 6 7 8 9,方法34分数公式,2023-3-17,四分位数的计算(数据个数为奇数),【例3-4】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排序:750 780 85

9、0 960 1080 1250 1500 1630 2000 位置:1 2 3 4 5 6 7 8 9,方法4Excel公式,统计函数QUARTILE,Excel,2023-3-17,众数(mode),统计函数MODE,Excel,2023-3-17,众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据，也可用于顺序数据和数值型数据,2023-3-17,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42

10、,2023-3-17,分类数据的众数(例题分析),解：这里的变量为“饮料品牌”，这是个分类变量，不同类型的饮料就是变量值所调查的50人中，购买可口可乐的人数最多，为15人，占总被调查人数的30%，因此众数为“可口可乐”这一品牌，即 Mo可口可乐,2023-3-17,顺序数据的众数(例题分析),解：这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多，为108户，因此众数为“不满意”这一类别，即 Mo不满意,3.1.3 用哪个值代表一组数据？,3.1 水平的度量,2023-3-17,众数、中位数和平均数的关系,2023-3-17,众数、中位数、平均数的特点和应用,平均数易

11、受极端值影响数学性质优良，实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好,3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度：离散系数,第 3 章用统计量描述数据,2023-3-17,怎样评价水平代表值？,假定有两个地区每人的平均收入数据，其中甲地区的平均收入为5000元，乙地区的平均收入为3000元。你如何评价两个地区的收入状况？如果平均收入的多少代表了该地区的生活水平，你能否认为甲地区的平均生活水平就高

12、于乙地区呢？要回答这些问题，首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁，而大多数人的收入都很低，虽然平均收入很高，但多数人生活水平仍然很低。相反，乙地区多数人的收入水平都在3000元左右，虽然平均收入看上去不如甲地区，但多数人的生活水平却比甲地区高，原因是甲地区的收入差距大于乙地区,2023-3-17,怎样评价水平代表值？,仅仅知道数据的水平是远远不够的，还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大，各描述统计量对该组数据的代表性就越差，离散程度越小，其代表性就越,甲,乙,3.2.1 极差和四分位差,

13、3.2 差异的度量,2023-3-17,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为：R=max(xi)-min(xi),2023-3-17,四分位差(quartile deviation),也称为内距或四分间距上四分位数与下四分位数之差：Qd=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,25%,75%,3.2.2 方差和标准差,3.2 差异的度量,2023-3-17,方差和标准差(variance and standard deviation),数据离散程度的最常用测度值反映各变量值与均值的

14、平均差异根据总体数据计算的，称为总体方差(标准差)，记为2()；根据样本数据计算的，称为样本方差(标准差)，记为s2(s),2023-3-17,样本方差和标准差(sample variance and standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,2023-3-17,总体方差和标准差(Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,2023-3-17,自由度(degree of freedo

15、m),自由度的概念由统计学家R.A Fisher提出是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看，自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k,2023-3-17,自由度(degree of freedom),样本有3个数值，即x1=2，x2=4，x3=9，则 x=5。当 x=5 确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2

16、=7，那么x3则必然取2，而不能取其他值为什么样本方差的自由度为什么是n-1呢？因为在计算离差平方和时，必须先求出样本均值x，而x则是附件给离差平方和的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个样本方差用自由度去除，其原因可从多方面解释，从实际应用角度看，在抽样估计中，当用样本方差s2去估计总体方差2时，它是2的无偏估计量,2023-3-17,样本标准差(例题分析),【例3-5】计算计算9名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630,方差,标准差,统计函数STDEV,Excel,2023-3-17

17、,标准分数(standard score),1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理均值等于0，方差等于1计算公式为,2023-3-17,用SPSS对数据进行标准化,第1步：选择【Analyze】下拉菜单，并选择【Descriptive statistics-Descriptive】选项进入主对话框第2步：在主对话框中将变量选入【Variables】，然后选中【Save standardized values as variables】。点击【OK】(SPSS会将标准化后的变量以“Z”开头存放在原始变量

18、工作表中),对数据标准化,SPSS,2023-3-17,标准分数(例题分析),2023-3-17,经验法则,经验法则表明：当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,2023-3-17,经验法则(例题分析),9名员工月工资收入的经验法则,2023-3-17,切比雪夫不等式(Chebyshevs inequality),如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少

19、”对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值，但不一定是整数,2023-3-17,切比雪夫不等式(Chebyshevs inequality,对任意实数0,随机变量X与期望EX具有：或,2023-3-17,切比雪夫不等式(Chebyshevs inequality),对于k=2，3，4，该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,3.2.3 比较几组数据的离散程度离散系数,3.2 差异的度

20、量,2023-3-17,离散系数(coefficient of variation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,2023-3-17,离散系数(例题分析),【例3-7】评价哪名运动员的发挥更稳定,发挥比较稳定的运动员是塞尔维亚的亚斯娜舍卡里奇和中国的郭文珺，发挥不稳定的运动员蒙古的卓格巴德拉赫蒙赫珠勒和波兰的莱万多夫斯卡萨贡,2023-3-17,8名运动员射击成绩的误差图(例题分析),【Graphs】【Error Bar】【Simple】【Data in Chart Are】【Summ

21、aries of separate variables】变量选入【Error Bars】【Bars Represent】【Standard deviations】【Multiplier】框内输入所需的标准差倍数【OK】【例子】,3.3 分布形状的度量偏态与峰态,第 3 章用统计量描述数据,2023-3-17,偏态(skewness),统计函数SKEW,统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏态系数(coefficient of skewness)2.偏态系数=0为对称分布；0为右偏分布；0为左偏分布偏态系数大于1或小于-1，为高度偏态分布；偏态

22、系数在0.51或-1-0.5之间，为是中等偏态分布；偏态系数越接近0，偏斜程度就越低计算公式,Excel,2023-3-17,峰态(kurtosis),统计学家K.Pearson于1905年首次提出。数据分布峰值的高低测度统计量是峰态系数(coefficient of kurtosis)峰态系数=0扁平峰度适中峰态系数0为尖峰分布计算公式,统计函数KURT,Excel,2023-3-17,Excel中的统计函数,MODE计算众数MEDIAN计算中位数QUARTILE计算四分位数AVERAGE计算平均数HARMEAN计算简单调和平均数GEOMEAN计算几何平均数AVEDEV计算平均差STDEV

23、计算样本标准差STDEVP计算总体标准差SKEW计算偏态系数KURT计算峰态系数TRIMMEAN计算切尾均值,2023-3-17,用Excel计算描述统计量,将120的销售量的数据输入到Excel工作表中，然后按下列步骤操作第1步：选择【工具】下拉菜单第2步：选择【数据分析】选项第3步：在分析工具中选择【描述统计】，然后选择【确定】第4步：当对话框出现时在【输入区域】方框内键入数据区域在【输出选项】中选择输出区域选择【汇总统计】选择【确定】,2023-3-17,用Excel和SPSS计算描述统计量,Excel输出的描述统计量,2023-3-17,数据的描述统计量,2023-3-17,本章小节,度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量,结束,THANKS,

展开阅读全文