用图表和统计量看数据课件.ppt

上传人:小飞机 文档编号:1594278 上传时间:2022-12-09 格式:PPT 页数:87 大小:3.29MB
返回 下载 相关 举报
用图表和统计量看数据课件.ppt_第1页
第1页 / 共87页
用图表和统计量看数据课件.ppt_第2页
第2页 / 共87页
用图表和统计量看数据课件.ppt_第3页
第3页 / 共87页
用图表和统计量看数据课件.ppt_第4页
第4页 / 共87页
用图表和统计量看数据课件.ppt_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《用图表和统计量看数据课件.ppt》由会员分享,可在线阅读,更多相关《用图表和统计量看数据课件.ppt(87页珍藏版)》请在三一办公上搜索。

1、2022-12-9,2022-12-9,图并没有说谎,是说谎者在画图。 Benjamin Disraeli,统计名言,2022-12-9,怎样解决下面的问题?,当你获得了一个地区各年的GDP(国内生产总值)数据如何观察经济的走势?当你有一个班级学生考试分数的数据,如何知道全班学生的学习状况?当你有一个企业职工工资的数据,该怎样处理和分析它们?你要用这些数据做什么?你关心这些数据的那些特征?,2022-12-9,统计应用一种测量的平均数比单个的测量更可靠,即使用一种很准确、很可靠的仪器对同一物体进行重复测量,由于一些无法控制的因素的影响,每次得到的结果也不见得一样(美国)国家标准与技术协会(NI

2、STNational Institute of Standards and Technology)的原子钟非常准确,它的准确程度是每600万年误差1秒,但也并不是百分之百准确世界标准时间是世界协调时间(Universal Coordinated Time),它是由位于法国的塞夫尔的国际计量局(BIPM)所“编辑”的。BIPM并没有比NIST更好的钟,它给出的时间是根据世界各地200个原子钟的平均时间得来的,2022-12-9,统计应用把数据画图之后,要用用脑袋,沃德(Abraham Wald)和许多统计学家一样,在第二次世界大战时也处理了战争与相关的问题。他发明的一些统计方法在战时被视为军事机

3、密。以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时,开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标识出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是沃德建议,把剩下少数几个没有弹孔的部位补强。因为这些部位被击中的飞机都没有返航,资料来源:David S.Mroore著统计学世界,第 2 章 用图表和统计量看数据,2.1 用图表描述数据 2.2 用统计量描述数据,2.1 用图表描述数据 2.1.1 用图表展示定性数据 2.1.2 用图表展示定量数据,第 2 章 用图表和统计量看数据,2.1.1 用图表展示定性数据,2.1 用图表

4、描述数据,2022-12-9,用Excel生成频数分布表 (例题分析),【例】一家市场调查公司为研究不同类型饮料的市场占有率,对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的类型进行了记录,如果一个顾客购买某一类型的饮料,就将这一类型的饮料记录一次。右边就是记录的原始数据, 用Excel制作频数分布表,绿色健康饮品,2022-12-9,使用Excel数据透视表数计数 (pivot table),第1步:选择【数据】菜单中的【数据透视表和数据透视图】第2步:确定数据源区域第3步:在【向导3步骤之3】中选择数据透视表的输出位置 。然后选择【布局】第4步:在【向导布局】对话框中,依次

5、将“分类变量“(这 是饮料品牌)连续拖放两次:一次拖至左边的“行”区域 ,一次拖至 “数据”区域第5步:然后单击【确定】,自动返回【向导3步骤之3】对 话框。然后单击【完成】,即可输出数据透视表, 用数据透视表产生分类数据的频数分布,2022-12-9,使用Excel计数函数 (COUNTIF), 如果只需要计算某一类别的数据个数,可以使用Excel中的统计函数【COUNTIF】。在对话框【Range】后输入数据区域,在【Criteria】后输入数字、表达式、字符串等,计数单元格必须符合的条件,即可得出结果 例如,我们要计算出碳酸饮料出现的频数,在【Rang】后输入数据所在的区域,在【Crit

6、eria】后输入“碳酸饮料”,结果为15。如果数据区域是数值型数据,计算符合特定条件的数据个数,则可在【Criteria】后输入“某一数值”、“某一数值”、“=某一数值”,等等, 统计函数COUNTIF,2022-12-9,定性数据的图示条形图 (例题分析),2022-12-9,定性数据的图示条形图(bar Chart),用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(column chart),2022-12-9,定性数据的图示饼图(pie Chart),也称圆形

7、图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以3600确定,2022-12-9,定性数据的图示饼图 (例题分析),2022-12-9,定性数据的图示环形图(doughnut chart),环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究,2022-

8、12-9,定性数据的图示环形图(例题分析),【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1非常不满意;2不满意;3一般;4满意;5非常满意。,2022-12-9,定性数据的图示环形图 (例题分析),2.1.2 用图表展示定量数据,2.1 用图表描述数据,2022-12-9,生成频数分布表 (分组),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K 15确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,

9、即组距( 最大值 - 最小值) 组数统计出各组的频数,2022-12-9,生成频数分布表(例题分析),【例】某电脑公司2008年前4个月每天的销售额数据。用Excel生成频数分布表, 用Excel制作频数分布表,2022-12-9,使用Excel频数函数 (FREQUENCY),Excel的【直方图】工具的缺陷是:频数分布及直方图没有与数据链接,当改变任何一个数据时,频数分布表和直方图不会跟着改变使用统计函数【FREQUENCY】创建频数分布表和直方图可解决这一问题。具体步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数在对话框【Date

10、-array】后输入数据区域,在【Bins-array】后输入接受区域同时按下“ctrl-shift-Enter”组合键,即得到频数分布, 统计函数FREQUENCY,2022-12-9,分组数据直方图(histogram),用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1, 用Excel制作直方图,2022-12-9,用SPSS绘制直方图,第1步:选择【Graphs】下拉菜单,并选择 【histogram】选项进入主对话框第2步

11、:在主对话框中将变量选入【Variables】 ,点击【OK】, 用SPSS绘制直方图,2022-12-9,分组数据直方图(SPSS绘制的直方图),2022-12-9,分组数据直方图(直方图与条形图的区别),条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,2022-12-9,原始数据茎叶图(stem-and-leaf display),用于显示未

12、分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据,2022-12-9,用SPSS绘制茎叶图和箱线图 (包括直方图),第1步:选择【Analyze】下拉菜单,并选择 【Descriptive statistics-Explore】 选项进入主对话框第2步:在主对话框中将变量选入【Variables】, 点击

13、【Plots】,在对话框中选择【Stem- and-leaf】(根据需要可选【Histogram】以 给出直方图)。点击【Continue】回到主对话 框。点击【OK】, 用SPSS绘制茎叶图,2022-12-9,原始数据茎叶图(例题分析),某电脑公司销售额分布的茎叶图,2022-12-9,原始数据箱线图(box plot),用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Me

14、dian/Quart./Range箱线图,2022-12-9,原始数据简单箱线图(箱线图的构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,2022-12-9,原始数据简单箱线图(例题分析),2022-12-9,分布的形状与箱线图,不同分布的箱线图,对称分布,Bell-shaped distribution,Left-skewed distribution,左偏分布,右偏分布,Right-skewed distribution,2022-12-9,原始数据多批数据箱线图 (例题分析),【例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考

15、试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,2022-12-9,用SPSS绘制多批数据箱线图,第1步:选择【Graphs】下拉菜单,并选择 【Boxplot】第2步:在出现的对话框中选择【Simple】,在 【Data in Chat Are】中选择【Summaries of separate variables】,点击【Define】 返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选入 【Boxes Represent】,将“课程名称”选入 【Label Cases by】。点击【OK】, 用SPSS绘制箱线图,2022-12-

16、9,11名学生8门课程考试成绩的Median/Quart./Range箱线图,原始数据多批数据箱线图 (例题分析Median/Quart./Range),2022-12-9,11名学生8门课程考试成绩的Median/Quart./Range箱线图,原始数据多批数据箱线图 (SPSS绘制的箱线图),2022-12-9,原始数据多批数据箱线图(例题分析Median/Quart./Range),8门课程考试成绩的Median/Quart./Range箱线图,2022-12-9,两个变量间的关系二维散点图(2D Scatter plots),展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组

17、数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,2022-12-9,两个变量间的关系二维散点图(2D Scatter plots),2022-12-9,用SPSS绘制散点图矩阵 (Matrix Scatter),第1步:选择【Graphs】下拉菜单,并选择 【Scatter/Dot】第2步:在出现的对话框中选择【Matrix Scatter】(要绘制三维散点图,点击 【3D Scatter】,并定义各坐标轴),点击 【Define】,中将所有变量选【Matrix variables】,点击【OK】, 用SPSS绘制散点图,2

18、022-12-9,两个变量间的关系散点图矩阵(Matrix ScatterSPSS),温度,降雨量,产量,2022-12-9,两个变量间的关系散点图矩阵 (Matrix ScatterSTATISTICA),温度,降雨量,产量,2022-12-9,三个变量间的关系三维散点图(3D Scatter plotsSPSS),2022-12-9,三个变量间的关系三维散点图(3D Scatter plotsSTATISTICA),2022-12-9,三个变量间的关系气泡图(bubble chart),显示三个变量之间的关系图中数据点的大小依赖于第三个变量,2022-12-9,也称为蜘蛛图(spider

19、chart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度,比较多个样本的相似性 雷达图(radar chart),2022-12-9,比较多个样本的相似性 雷达图(例题分析),【例】2010年我国按收入等级分城镇居民家庭平均每人全年消费性支出数据如表。试绘制雷达图,今天的主食是面包,2022-12-9,比较多个样本的相似性 雷达图 (例题分析),2.2 用统计量描述数据 2.2.1 用一个值概括一组数据 2.2.2 找出数据彼此之间的差别 2.2.3 数据分布的形状,第 2 章

20、用图表和统计量看数据,2.2.1 用一个值概括一组数据,2.2 用统计量描述数据,2022-12-9,x,x,一组数据的平均数是多少(mean),也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,2022-12-9,平均数(mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,2022-12-9,中间的值是多少中位数(median),不受极端值的影响,排序后在中间的值,2022-12-9,中间的值是多少中位数 (9个数据的算例),【例】 9个家庭的人均月收入

21、数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,2022-12-9,中间的值是多少中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10, 统计函数MEDIAN,2022-12-9,用3个点等分数据四分位数(quartile),排序后处于2

22、5%和75%位置上的值,不受极端值的影响,2022-12-9,用3个点等分数据四分位数(位置的确定),方法2:较准确算法,方法1:定义算法,2022-12-9,用3个点等分数据四分位数(位置的确定),方法3: 其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4: Excel给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值,2022-12-9,用3个点等分数据四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据(4种方法计算)原始数据: 1500 750 780 1080 850 960 2000 12

23、50 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法1,2022-12-9,用3个点等分数据四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法2,2022-12-9,用3个点等分数据四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:

24、 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法3,2022-12-9,用3个点等分数据四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,方法4, 统计函数QUARTILE,2022-1

25、2-9,哪个数据出现的最多众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数,mo,2022-12-9,用哪个值代表这组数据?,平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用中位数不受极端值影响,具有稳健性数据分布偏斜程度较大时应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用,2.2.2 找出数据彼此之间的差别,2.2 用统计量描述数据,2022-12-9,最大的和最小的相差多少极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式

26、为,R = max(xi) - min(xi),2022-12-9,四分位差(quartile deviation),也称为内距或四分间距上四分位数与下四分位数之差 Qd = QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,2022-12-9,与平均数相比平均差多少平均差(mean deviation),各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为, 统计函数AVEDEV,2022-12-9,与平均数相比平均差多少方差和标准差 (variance and Standard deviation),标准差,方

27、差,标准差,样本方差和标准差,总体方差和标准差,方差, 统计函数STDEV,2022-12-9,自由度 (degree of freedom),自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k,2022-12-9,某个数据离平均数有多远标准分数(standard score),1. 也称标准化值2.对某一个值在一组数据中

28、相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5. 计算公式为,2022-12-9,标准分数 (例题分析),2022-12-9,经验法则,经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,2022-12-9,切比雪夫不等式(Chebyshevs inequality),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是

29、多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数,2022-12-9,切比雪夫不等式(Chebyshevs inequality),对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,2022-12-9,比较几组数据的离散程度离散系数(coefficient of variation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量

30、单位的影响4.用于对不同组别数据离散程度的比较5. 计算公式为,2022-12-9,离散系数 (例题分析),【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,2022-12-9,离散系数 (例题分析),结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,2.2.3 数据分布的形状,2.2 用统计量描述数据,2022-12-9,数据分布的形状偏态与峰态,偏态,峰态,2022-12-9,偏态(skewness), 统计函数SKEW,统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度(coefficient

31、of skewness)2.偏态系数=0为对称分布;0为右偏分布;0为左偏分布偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.51或-1-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低计算公式,2022-12-9,峰态(kurtosis),统计学家Pearson于1905年首次提出数据分布扁平程度的测度(coefficient of kurtosis)峰态系数=0扁平峰度适中峰态系数0为尖峰分布计算公式, 统计函数KURT,2022-12-9,用Excel和SPSS计算描述统计量,Excel 【工具】【数据分析】【描述统计】【确定】 【输入区域】(内键入数据区域) 【输

32、出选项】【汇总统计】【确定】SPSS 【Analyze】【Descriptive statistics】 【Descriptives】【variables】(选入变量)【Options】(选择需要的描述统计量) 【Continue】【OK】, Excel, SPSS,2022-12-9,Excel中的统计函数,MODE计算众数MEDIAN计算中位数QUARTILE计算四分位数AVERAGE计算平均数HARMEAN计算简单调和平均数GEOMEAN计算几何平均数AVEDEV计算平均差STDEV计算样本标准差STDEVP计算总体标准差SKEW计算偏态系数KURT计算峰态系数TRIMMEAN计算切尾均值,2022-12-9,本章小节,频数分布表的制作用图形看数据用统计量看数据用Excel计算描述统计量,结 束,THANKS,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号