《统计学ppt课件(含SPSS软件教程).ppt》由会员分享,可在线阅读,更多相关《统计学ppt课件(含SPSS软件教程).ppt(614页珍藏版)》请在三一办公上搜索。
1、统 计 学(含SPSS)实 验 室 机 房 版,建议在WindowsXP操作系统下安装SPSS11.0或SPSS11.0以上的版本,以便于全面展开本课程的学习。,课程简介 统计是搜集、分析、表述和解释数据的一门艺术和科学。研究随机现象的数量规律性。它在许多学科领域都有着重要的应用。它是解决社会经济实践活动中各种问题的有力工具之一。 统计学概念体系十分繁杂,大体可区分为基础统计与高级统计两个层次。基础统计主要研究截面数据中单变量数据的搜集、描述与推断,以及两个变量之间协变关系的描述与推断。高级统计则主要研究多变量数据的描述与推断,此外还包括序列数据的描述与推断。高级统计具体应包括:多元统计、非参
2、数统计、时间序列等。 无论是基础统计还是高级统计,都贯穿着描述与推断两条基本线索。本课程集中介绍基础统计的内容。这将为同学们今后的学习打下一个基础。 基础统计的内容主要包括:图表描述、统计量描述、参数估计、假设检验、方差分析、卡方分析、回归分析。其中:图表描述和统计量描述属于描述统计的内容;参数估计、假设检验、方差分析、卡方分析和回归分析属于推断统计的内容。同学们在本课程的学习中,要紧紧抓住描述与推断这两条线索,重点理解和掌握各种统计方法的原理。 统计实践活动要与大量的数据打交道,涉及十分繁杂的计算。统计软件在人们日常的统计工作中扮演着不可缺少的关键性角色。学会一两种统计分析软件的实际操作,是
3、十分必要的。目前的统计软件有:SAS、SPSS、S-PLUS、MINITAB、EXCEL等。其中,SAS与 SPSS是最为流行的两种统计软件。特别是SPSS,在各类院校以及科研机构中更为流行。 本课程根据SPSS自身的特点,以实际数据为纽带,将统计方法基本思想的理解与SPSS的实际操作做了有机的结合,力求使同学们在理解常用统计分析方法原理的同时,能够将统计软件灵活运用到实际的统计分析工作中去。,浏览向导 为充分体现统计学概念体系的内在关联性,本课程中的课件制作,打破了传统教材和课件中“章”、“节”、“目”的编排体例,而采用了“图形链接”的编排方法。在浏览课件的过程中,同学们要善于运用这些图形的
4、链接规律,以便展开整个课程的学习。现将本课程“课程讲解”课件的浏览方法简介如下: 一、 “概述”中出现了4个图形。第一图-“统计基本程序图”,概括了统计的基本程序和基础统计学的全部内容,是本课程的总图。图中的每一个对象,都设有链接。您将“鼠标箭头”指向某一对象,如果出现“小白手”,就表明此处设有链接,点入浏览就可获得有关此对象的内容讲解,这些都是统计学中处于核心地位的重要概念。 第一图中的“抽样”字样链接第二图-“抽样方法构成图”,概括了样本抽取的基本方法。根据课程大纲的要求,本课程并未对此展开介绍。第一图中的“描述”字样链接第三图-”统计描述方法构成图“,概括了统计描述的基本方法,包括两类方
5、法,图表描述与统计量描述。统计描述的具体方法由此图展开介绍。 第一图中的“推断”字样链接第四图-“统计推断方法构成图”,包括“参数估计”、“假设检验”、“方差分析”、“回归分析”等项。统计推断的具体方法由此图展开介绍。 二、本课程的课程讲解由8个部分构成(不包括“指数”和”时间序列”)。“1概述”、“2图表描述”、“3统计量描述”、“4参数估计”、“5假设检验”、“6列联分析”、7“方差分析”、“8回归分析”。每一部分中的第一张幻灯片中都设有一个“SPSS操作方法”链接。您可在学习了本部分所介绍的方法原理之后,再点击浏览“SPSS操作方法”。 三、每一张幻灯片中的有关链接都是“隐藏着的”,这主
6、要是为了保持版面的清晰和整洁。建议您在浏览每一张幻灯片时,经常用“鼠标箭头”去寻找设有链接的“小白手”, “小白手”会引导您看到更多的内容。“返回”的链接都设在幻灯片的左上角。右上角,左下角没有设置链接。右下角偶尔设有“继续”的链接。幻灯片的左上角或右下角以及版面中的各个对象如果没有设置链接,空点“鼠标箭头” 即可进入下一张幻灯片。 课件中 “图形链接” 和”链接暗设 “的编排方法,开始可能会使您觉着不习惯,但我们相信这一定难不着您。我们采取这种编排方法,还有另一个用意,就是希望您在对“图形”和“链接”的浏览过程中,能够玩索而有得。,用SPSS作数据集,概 述,从总体中抽取样本,由样本测得变量
7、的观测值,从而获取样本数据,根据样本数据计算有关的统计量,并由此来推断总体参数。 样本数据的整理过程与统计量的计算的过程同时也是对样本数据的描述过程,因此统计方法包括抽样、描述与推断三个方面的内容。,一个典型的统计问题 某电子公司采用新技术生产出一批高亮度灯泡。这批灯泡的使用寿命多长?合格率是多少?与传统技术相比,灯泡的使用寿命是否有所提高?,总 体,总体参数,样 本,图 表,统计量,样本数据,描述,推断,抽 样,统计的基本程序图,描述,推断,总体由我们所感兴趣的所有个体的集合构成。,个体,总体,200只灯泡样本的可使用小时数,某电子公司从其灯泡产品中随机抽取二百只,测得其使用小时数数据如下:
8、,我们对总体中众多个体某一个或几个方面的属性感兴趣,这些属性称为变量(variable) 。如本例中灯泡的“使用小时数”就是一个变量。,样本数据是就某一个或某几个变量,对样本中的个体集得到的数据。本例表中的数据就是一个典型的样本数据。,np项观测值(observation)。,数据阵列的一般结构,10青少年身高体重表,编码,为方便计算机操作可对品质型变量的取值进行编码。,10名青少年身高体重表,关于投票选举一次抽样调查的数据阵列,关于投票选举一次抽样调查的数据阵列,数据的误差,登记性误差,代表性误差,调查者造成的登记性误差,被调查者登记性误差,系统误差,随机误差,理论上可以避免,理论上不可避免
9、,背离随机原则的样本会造成数据的系统误差。抽样的随机性造成随机误差。,好的样本,总体,背离随机原则的坏的样本会造成数据的系统误差。,抽样误差(sampling error),抽样随机性造成的随机误差。,5种软饮料购买频数原始记录,三十名学生的身高与体重数据,某地一星期申请结婚女性年龄原始数据,11名学生各科成绩,食物中热量与脂肪两个变量的样本数据,10家饭店附近学生人数与季销售收入,行驶里数、运货次数和行驶时间样本数据,关于改革方案调查结果的样本数据,关于计算机课程教学意见的样本数据,四种颜色饮料销售量样本数据,男性与女性饮者啤酒偏好的样本数据,国籍与对等陌生人的态度样本数据,原料等级与产地分
10、布抽样数据,数据的计量有四种尺度,定类尺度nominal scale,定序尺度ordinal scale,定距尺度interval scale,定比尺度ratio scale,按照某属性对事物进行平行的分类。(=、),对事物类别间等级或顺序差别的测度。(、),对事物类别或次序之间差距的测度。(+、-),对事物类别或次序之间差距及差别程度的测度。(、),变量,变量值,编码,性别,男 女,1,2,人种,白 黄 棕 黑,1,2,3,4,定类尺度数据没有顺序和大小区别。,定类尺度,变量,编码,定序尺度数据不能测量差别的多少。,定序尺度,产品等级,一等品,二等品,三等品,1,2,3,对事物的态度,很满意
11、,满 意,中 立,不满意,反 对,1,2,3,4,5,变量值,定距尺度数据不能计算比值。,定距尺度,3点,6点,定比尺度数据可以计算比值。,定比尺度,6枚,3枚,变量类型的划分,品质型变量,数量型变量,10青少年身高体重表,品质型变量,品质型变量,数量型变量,关于投票选举一次抽样调查的数据阵列,某城市家庭对住房状况评价频数分布表,定序,数量型变量,定类,品质型变量,数量型变量,200只灯泡使用寿命频数分布表,表格使大量零散的原始数据更容易理解。,200只灯泡的使用寿命频数分布表,除表格和图形外,我们还可以计算有关的描述性统计量对样本数据加以概括,如:通过计算可得二百只灯泡使用小时数均值为 76
12、.1,用以概括地说明灯泡使用寿命的一般水平。,关于灯泡总体平均使用寿命的统计推断过程,随机抽样,非随机抽样,简单抽样,复杂抽样,重复抽样,不重复抽样,分层抽样,整群抽样,系统抽样,样 本,抽 样,样本数据,抽样方法构成图,图表描述,统计量描述,条形图,直方图,盒形图,饼形图,品质型变量,数量型变量,集中趋势,离散趋势,分布形态,均值,极 差,中位数,众数,方 差,偏度,峰度,总体,样本,统计描述方法构成图,分类型变量与分类型变量,数量型变量与数量型变量,顺序型变量与顺序型变量,分类型变量与数量型变量,数量型变量与分类型变量,分类型变量,顺序型变量,数量型变量,参数估计,逻辑斯蒂分析,假设检验,
13、回归分析,秩的方法,列联分析,方差分析,统计推断方法构成图,结 束,用SPSS作数据集,Statistical package for the social science (简写spss)是美国spss公司在20世纪80年代开发的大型统计学软件包。在全世界的范围内的科研活动中应用十分广泛。Spss for windows 11.0是其在90年代未推出的新版本。与其它统计软件相比,spss不用记忆繁琐、枯燥的语句和命令,只要用户具有一般的计算机和统计学知识,就能运用鼠标进行操作,得到所需要的统计分析结果。以下简明扼要地介绍定的具体使用方法。,Spss 对环境的要求,Spss 的安装,Spss
14、的界面,建立数据集,编辑数据集,数据运算,Spss for windows 版具有如下特点:,Sample data 1MBHelp files 11MBBasic scripting 2MBProduction mode facility 1MBStatistics coach 2MBSyntax guide 16MB,Spss 对环境的要求,启动计算机,将Spss 11.0光盘插入光驱,第一步,在“我的电脑”中点击“E”或“F”盘,找到spss文件夹,点击“ setup.exe”,启动安装程序,第二步,根据安装程序的提示向导,依次进行安装, 并输入软件系列号码、用户姓名和单位名称,第三步,
15、退出安装程序,第四步,SPSS安装步骤,SPSS的安装,Spss的主窗口- Data view 数据浏览界面,SPSS的界面,Spss的主窗口- variable view变量浏览界面,SPSS的界面,File: 文件操作完成文件的调入、存储、显示和打印等操作。,SPSS的界面,edit: 文件编辑完成文本或数据内容的选择、拷贝、剪贴、寻找 和替换等操作。,SPSS的界面,view: 浏览编辑完成文本或数据内容的状态栏、工具栏、字体、网格线和数值标签等功能的操作。,SPSS的界面,data: 数据管理完成数据变量名称和格式的定义,数据资料的选择、排序、加权、数据文件的转换、连接和汇总等操作。,
16、SPSS的界面,transform: 数据转换完成数据值的计算、重新编码和缺失值替代等操作。,SPSS的界面,analyze:统计分析完成一系列统计分析的选择和应用。,SPSS的界面,graphs:统计图表完成统计图表的建立和编辑。,SPSS的界面,utilities:实用程序有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等。,SPSS的界面,window: 窗口控制可进行窗口的排列、选择和显示等操作。,SPSS的界面,Help: 帮助帮助文件的调用、查询和显示等。,SPSS的界面,Spss的结果输出窗口,输出Spss的统计分析程序的结果,SPSS的界面,三十名学生的身高与体重数据,
17、建立数据集,数据集1,Spss的主窗口有两个界面:数据浏览界面(data view)与变量浏览界面(variable view)建立数据文件首先要定义变量。,建立数据集,Name: 变量名 在该栏输入变量名(只能用字母)本例定义5个变量:NumberSexAgeHeightweight,建立数据集,type: 变量类型 系统默认为数值型有8种类型可供选择:1.Numeric:数值型变量2.Comma:带逗号的数值型变量3.Dot:带圆点的数值型变量4.Scientific:科学记数法5.Date:日期型变量6.Dollar:货币型变量7.Custom currency: 自定义型变量8.Str
18、ing:字符型变量,为便于统计,本例全部定义为数值型。,建立数据集,width: 宽度本例中各变量的宽度:Number 2Sex 1Age 2Height 5Weight 4,建立数据集,decimals: 小数位数本例中各变量的小数位数:Number 0Sex 0Age 0Height 1Weight 1,建立数据集,label: 变量标签本例中各变量的标签:Number编号Sex 性别Age 年龄Height 身高Weight 体重,建立数据集,value: 数值标签本例定义“sex”数值标签:“男”“1”“女”“0”,建立数据集,missing: 缺失值本例选择无缺值。,建立数据集,co
19、lumns: 列宽本例中各变量数据管理器纵列宽全部定义为8。,建立数据集,align: 字符排列方向有三项选择:left 左对齐right 右对齐center 居中本例中全部选择右对齐。,建立数据集,measure: 数据量度有三项选择:scale 连续型变量ridinal 有序分类变量nominal 名义型变量本例中除 “sex”选为名义型变量外,其余均选连续型变量。,建立数据集,编辑数据集,1、插入变量,3、按体重排序,2、插入观测,4、行列互换,5、(按性别)数据拆分,6、分类汇总,编辑数据集,激活变量“age”点击“data”菜单点击子菜单“ insert variable” 系统自动
20、插入一个默认名为“var00001”的新变量。,编辑数据集,激活第3个观测点击“data”菜单点击子菜单“ insert case” 系统自动插入一个默认为第3的新观测。,编辑数据集,点击“data”菜单点击子菜单“ sort case”打开 sort case 对话框点击weight进行右侧框内选定ascending(升序) ok。,编辑数据集,点击“data”菜单点击子菜单“ transpose”打开 transpose对话框选中左侧框内的所有变量,点击进入右侧框ok。,编辑数据集,点击“data”菜单点击子菜单“ split file”打开split file对话框选中compare g
21、roups 选中sort the file by grouping variables 点击sex进入右侧groups based on框ok。,编辑数据集,点击“data”菜单点击子菜单“ aggregate”打开aggregate对话框将sex和age选入break variables框 作出相关的选择 ok。,编辑数据集,数据运算,1、计算:体重指数=体重/身高2,2、清点:身高160以下的人数,3、分组:按身高将观测分为4组,数据运算,点击“transfom”菜单点击子菜单“ compute”打开compute variable对话框在target variable中指定一个变量(可以
22、是新变量) 在typelable中定义生成数据的类型或标签在numeric expression框中键入公式ok。,供选择的100余种函数,数据运算,点击“transfom”菜单点击子菜单“ count”打开count occurrences of values within cases对话框在target variable中指定一个变量(如h) 将height点入numeric variables框再点击define values打开count values within cases:values to count对话框,来确定清点对象数值ok本例选择range中lowest through
23、160.0为清点范围ok。,数据运算,数据运算,点击“transfom”菜单点击子菜单“ categorize variables”打开categorize variables对话框在target variable中指定一个变量(如h)确定分组数(系统默认4组)ok。,数据运算,结 束,关键术语,统计学(statistics)搜集、分析、表述和解释数据的艺术和科学,总体(population)研究对象的全体,由个体构成,个体(elements)构成总体的基本单位,是搜集数据的直接对象,样本(sample)总体的一个子集,数据(data)被搜集、分析和解释的事实与数字,统计量(statistic
24、)从样本数据中计算出来的数,参数(parameter)对应于总体的常数,常数(constant)相对于变量而言的不变的数,描述统计学(descriptive statistics)用表图数值汇总数据的方法,统计推断( statistical inference)用从一个样本获得的数据对总 体参数进行估计或假设检验的过程,结 束,图表描述,用SPSS作图表描述,定类数据的图表描述,定序数据的图表描述,尺矩数据的图表描述,图表描述,多变量数据的图表描述,5种软饮料购买频数原始记录,定类数据的图表描述,频数是落在各类别中的数据个数。各类别频数与总频数之比称频率。频数和频率分别从绝对数和相对数上,反映
25、出数据在各变量值上的分布状况。,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,条形图(bar chart),定类数据频数分布的图示可采用饼形图或条形图,饼形图(pie chart ),用饼形图表示频率分布,频数,38%,10,0%,10,0%,16,0%,26,0%,38,0%,定类数据的图表描述,饼形图的组数不宜太多,38%,10,0%,10,0%,16,0%,26,0%,38,0%,定类数据的图表描述,可口可乐,雪碧,杏仁露,新 骑士,醒目,0,10,20,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,阿拉伯人的观赏习惯,中国人的观赏习惯,0,10,20,雪碧,新 骑士
26、,醒目,频数,可口可乐,杏仁露,欧美人的观赏习惯,定类数据的图表描述,甲乙两城市家庭对住房状况评价频数分布表,定序数据的图表描述,甲乙两城市家庭对住房状况评价频数分布条形图,甲城市,乙城市,定序数据的图表描述,甲城市,乙城市,甲乙两城市家庭对住房状况评价频数分布饼形图,10,0%,15,0%,31,0%,36,0%,8,0%,定序数据的图表描述,甲城市家庭对住房状况评价累积频数表,定序数据的图表描述,甲城市家庭对住房状况评价累积频数图,定序数据的图表描述,某地一星期申请结婚女性年龄原始数据,某地一星期申请结婚女性年龄排序,19 22 22 23 23 2323 24 24 24 25 2525
27、 25 26 27 27 2729 29 29 29 30 3030 31 31 33 33 3436 37 40 44 46 5660,某地一星期申请结婚女性年龄频数分布表,尺矩数据的图表描述,点线图简化了数据,而且没有任何信息损失。,变量取值较少时,适宜制作点线图。,点线图及后面将要介绍的各种图形适宜数量型变量数据的图示。,某地一星期申请结婚女性年龄频数分布点线图(line plot),尺矩数据的图表描述,某地一星期申请结婚女性年龄频数分布茎叶图(stem plot),能在变量取值较多的情况下,很好地显示分布状况,同时又没有丢失信息。但不适合观测较多的数据。,尺矩数据的图表描述,n =37
28、,年龄,70,60,50,40,30,20,10,14,24,某地一星期申请结婚女性年龄频数盒形图(box plot),最小观测值,中位数,下四分位数,上四分位数,最大观测值,最大观测值,适用变量取值较多和频数较多的情况,但有一定的信息损失。,尺矩数据的图表描述,11名学生各科成绩,11,11,11,11,11,n =,统计学,营销学,经济学,数学,英语,110,100,90,80,70,60,50,40,盒形图便于变量间频数分特征的比较。,11名学生各科成绩频数分布盒形图,尺矩数据的图表描述,直方图通常是等距的,适用于大量观测的情况,能很好地显示次数分布状况。但也丢失了不少数据细节。,某地一
29、星期申请结婚女性年龄频数分布直方图(histogram),尺矩数据的图表描述,二百只灯泡样本的可使用小时数,二百只灯泡使用小时数组距频数分布表,尺矩数据的图表描述,上限不在本组内,第一步 确定组数,第二步 确定组距,第三步 汇总频数,如78应汇入78-83组,本例SPSS默认组数为15 组。可见该方法并非绝对。,组距宜取整数。最好是5或5的倍数,组距=(最大观测值-最小观测值)组数,二百只灯泡的可使用小时数次数分布直方图,频数,频率,由频率所得的直方图与由频数所得的直方图的特征相同。,尺矩数据的图表描述,二百只灯泡的可使用小时数频数分布直方图,113.3,105.0,96.7,88.3,80.
30、0,71.7,63.3,55.0,46.7,60,50,40,30,20,10,0,将数据分为 9 组时的直方图,尺矩数据的图表描述,由直方图看次数分布特征,钟形的对称分布,尺矩数据的图表描述,钟形的右偏分布,由直方图看次数分布特征,尺矩数据的图表描述,钟形的左偏分布,由直方图看次数分布特征,尺矩数据的图表描述,正J形分布,由直方图看次数分布特征,尺矩数据的图表描述,反J形分布,由直方图看次数分布特征,尺矩数据的图表描述,U形分布,由直方图看次数分布特征,尺矩数据的图表描述,几种图示方法优劣比较,尺矩数据的图表描述,三十名学生的身高与体重数据,多变量数据的图表描述,180,170,160,15
31、0,140,60,50,40,30,身高,体重,三十名学生的身高与体重二维散点图(scater),在没有丢失任何数字信息的前提下,直观地显示了两个变量的关系。,多变量数据的图表描述,三个变量,两两之间的散点图构成了一个散点图矩阵。 对角线左下(或右上)的三个散点图,已经给出了数据集的全部信息。,三岁儿童身高、体重和体表面积数据的散点图矩阵,多变量数据的图表描述,3岁儿童身高、体重和体表面积数据的三维散点图,可同时观察三个变量之间的关系,我们被限制在三维空间内,无法做出四个变量或更多变量之间的散点图。,多变量数据的图表描述,城乡居民家庭人均活消费支出(单位元),雷达图可将这种具有8个变量的数据直
32、观地显示出来,多变量数据的图表描述,雷达图(raddar chart ),交通通讯,医疗保健,家庭设备用品及服务,衣着,食品,杂项商品与服务,居住,娱乐教育文化服务,多变量数据的图表描述,切尔诺夫脸,切尔诺夫脸随时间的变化,时间,多变量数据的图表描述,结 束,频数统计,饼形图,盒形图,散点图,直方图,茎叶图,条形图,用SPSS作图表描述,例1 5种软饮料购买频数原始记录,数据集2,频数统计,频数统计,选入分析变量,频数统计,四分位数,将数据分为设定的相等分数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,本例选系统默认项,频数统计,不输出图形,
33、条形图,饼形图,直方图,本例选系统默认项,频数统计,频数统计,本例选系统默认项,条形图,条形图,条形图,条形图,饼形图,选入分析变量,饼形图,饼形图,饼形图,二百只灯泡样本的可使用小时数,例2,数据集3,茎叶图,茎叶图,茎叶图,茎叶图,盒形图,盒形图,盒形图,例3 11名学生各科成绩,盒形图,数据集4,盒形图,盒形图,盒形图,直方图,直方图,直方图,数据集5,例4 12名大学生体重与沛活量,散点图,散点图,散点图,散点图,散点图,三十名学生的身高与体重数据,数据集1,例5,散点图,散点图,散点图,结 束,关键术语,频数分布(frequency distribution)对一数据集的表格汇总法,
34、显示若干无重叠组别中每一组的项目频数(个数)相对频数分布(频率) (relative frequency distribution)一数据集的表格汇总法,显示在若干无重叠组别的每一组的项目总数的相对频数,即分数或比率百分数频数分布(percent frequency distribution)用百分数表示的相对频数分布条形图(bar graph)一种图形方法,描述品质数据的频数分布饼形图(pie chart)一种描述品质数据频数或频率的图形方法直方图(histogram)一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量型数据的频数分布的图形累积频数分布(cumulative freque
35、ncy distribution)对数据的一种表格汇总,显示数据小于或等于每一组上限的项目个数或比率组中值(class midpoint)每一组在组下限和组上限正中间的值茎叶显示(stem and leaf display)一种同时排列数量型数据顺序并提供分布形态的深入信息的探索性数据分析技术散点图(scatter diagram)表示两个数据型变量之间关系的图形方法。一个变量列在横轴。一个变量列在纵轴上盒形图(box plot)一种形如盒的显示频数分布的图形切尔诺夫脸(the face of chernoff)表示多维变量数据的一种图形,结 束,用SPSS作统计量描述,统计量描 述,集中趋势
36、,分布形态,离散趋势,统计量描 述,观测值的分布同时具有集中与离散两个方面的趋势,集中趋势,集中趋势的极端情况,离散趋势的极端情况,集中趋势,众数,中位数,均值,众数、中位数、均值的比较,四分位数,集中趋势,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,Mo=可口可乐,众数是出现次数最多的变量值。,50次购买软饮料的频数,众数,某企业工人按日产量分组,甲乙两城市家庭对住房状况评价频数分布,非常不满意,不满意,一般,满意,非常满意,Mo=不满意,甲城市,乙城市,Mo=不满意,200只灯泡使用寿命频数分布表,200只灯泡使用寿命频数分布直方图,众数,由组距式频布表计算众数,众数,观测值从
37、小到大排序后,处于中间位置的变量值就是中位数。,Me=一般,甲乙两城市家庭对住房状况评价频数分布,中位数,200只灯泡使用寿命频数分布表,200只灯泡使用寿命频数分布直方图,中位数,中位数,(low quartile),(upper quartile),50%的观测值小于中位数,50%的观测值位于上下四分位数之间,50%的观测值大于中位数,四分位数,QL=不满意,QU=满意,Me=一般,甲城市家庭对住房增状况的评价,四分位数,Me=75.5,QU=85,QL=67,50%灯泡的寿命在67-85小时之间,200只灯泡使用寿命频数分布表,四分位数,某地一星期申请结婚女性年龄x,所有观测值相加再除以
38、观测值的个数得到样本的均值,又称为算术平均数(Arithmetic mean)。,简单均值,=30(岁),均值,200只灯泡使用寿命频数分布表,均值,均值的性质,1.所有观测值与其均值的离差之和等于0。,2.所有观测值与其均值的离差平方和最小。,+,-,均值,性质1,性质2,均值,统计描述的收益与损失,直方图,数 据,均值=19.2,数据被图示或计算出统计量时,其总体水平和结构状况显示出来了。但数据集的某些信息也丢失了。,均值,众数是观测值的重点,中位数是观测值的中心,均值是观测值的重心,众数、中位数、均值的比较,左偏,右偏,对称,三者的近似关系,众数、中位数、均值的比较,不同类型变量适用的集
39、中趋势测度指标,为该类变量最适用的测度指标,众数、中位数、均值的比较,Mo=可口可乐,甲商店,乙商店,Mo=可口可乐,两商店软饮料购买频数的众数都是可口可乐,但数据的离散程度不同。,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,离散趋势,Me=一般,甲城市,乙城市,非常不满意,一般,满意,非常满意,Me=一般,非常不满意,一般,满意,非常满意,两城市对住房条件评价的中位数都是一般,但数据的离散程度不同。,不满意,不满意,离散趋势,两组数据均值均为 ,但离散程度不同。,离散趋势,异众比,四分位差,极差,平均差,方差与标准差,离散系
40、数,离散趋势,50次购买软饮料的频数分布,异众比率越大,众数的代表性越差;异众比越小,众数的代表性越好。分类型变量适宜计算异众比率。,异众比,甲乙两城市家庭对住房状况评价频数分布,QL=不满意,QU=满意,数据编码:令非常不满意为1;不满意为2;一般为3;满意为4;非常满意为5。则:,结果说明 50%的家庭对住房状况在满意与不满意之间。,四分位差,QU=85,QL=67,18,200只灯泡使用寿命频数分布表,四分位差与盒形图,50% 的观测值集中于盒子之内。盒子越窄,表明集中程度越高,即离散程度越低。,QU=85,QL=67,四分位差,某地一星期申请结婚女性年龄,一般情况下,极差越大,离散程度
41、越大,但其值,易受极端值影响。,极差,极差及四分位差均相等,但离散程度不同。,平均差,50名工人日产零件数平均差计算表,所有观测值与其均值离差的绝对值的均值。,平均差,用于统计描述,n为样本数据的个数。,用于统计推断,因为s2为总体方差2 的无偏估计量。n-1称为自由度。,方差是所有观测值与其均值离差的平方的均值。标准差是所有观测值与其均值离差的平方的均值的平方根。,方差公式1,方差公式2,方差与标准差,此处,自由度是指样本数据中可以自由取值的个数。譬如:,样本容量为n,均值确定后,观测数据中只有n-1个可以自由取值,其中必有一个不能自由取值,因此自由度为样本容量减1。,均方差公式1,均方差公
42、式2,方差的含义不易理解,它的计量单位是观测值计量单位的平方。 标准差的计量单位与观测值计量单位是一致的。,用于统计描述,用于统计推断,50名工人日产零件数方差计算表,方差与标准差,=6.00,S=3.00,=6.00,S=2.71,=6.00,S=0.82,S=0.00,=6.00,理解标准差,方差与标准差,在均值上加减标准差,34.4-2s=20.6,34.4,X-s=27.5,34.4+2s=48.2,心跳数,学生数,27名学生每30秒心跳次数,均值=34.4标准差=6.9,观测值的大小大致不超过均值加减4个标准差的范围。 本例中均值加减2个标准差就几乎包含了所有的观测值。,24,21,
43、27,30,33,36,39,42,45,48,2,4,6,8,51,34.4+s=41.3,方差与标准差,标准得分(standard score),100对新娘和新郎,新娘的平均年龄为30.0岁,标准差为9.0岁;新郎的平均年龄为32.4岁,标准差为10.0岁。其中年龄最小的新娘为19岁,年龄最小的新郎为19岁。问:作为新娘和新郎,俩人哪个更年轻?,方差与标准差,标准得分含义的图示,xi (年龄),12,21,30,39,48,Zi (标准得分),-2.00,-1.00,0,1.00,2.00,方差与标准差,切贝谢夫( Tchebysheff)定理,在任意一个数据集中,至少有(1-1/z2
44、)的数据项与平均数的距离在 z 个标准差之内,其中z是任意大于1 的值。,方差与标准差,68%,95%,约100%,经验法则,如果数据近于钟形分布,则有:约68%的数据项与均值的距离在1个标准差之内;95%的数据项与均值的距离在2个标准差之内;几乎所有的数据项与均值的距离在3个标准差之内。,方差与标准差,8个企业产品销售数据,离散系数,离散系数,不同类型变量适用的离散趋势测度指标,为该类变量最适用的测度指标,离散系数,偏度,峰度,分布形态,偏度,三次动差,三次中心统计动差,偏 度,偏度,我国乡村家庭收入数据,偏度,频数分布的峰态,尖顶峰,正态峰,平顶峰,峰度计算公式,43 尖顶峰;4 =3 正
45、态峰 ; 43 平顶峰。,峰度,峰 度,四次中心统计动差,四次动差,峰度,我国乡村家庭收入数据,峰度,结 束,由 Frequencies 计算,由 descriptive statistics 计算,由 Explore 计算,用SPSS作统计量描述,三十名学生的身高与体重数据,数据集1,由 descriptive statistics 计算,由 descriptive statistics 计算,选入分析变量,由 descriptive statistics 计算,均值,合计,偏度,峰度,标准差,方差,全距,最小观测值,最大观测值,均值标准误,离散趋势,分布形态,输出顺序,按均值升序显示统计量
46、,按均值降序显示统计量,按变量名字母顺序显示统计量,按数据集中变量的排列顺序显示统计量,由 descriptive statistics 计算,由 descriptive statistics 计算,由 Frequencies 计算,选入分析变量,由 Frequencies 计算,四分位数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Explore 计算,选入分析变量,由
47、 Explore 计算,由 Explore 计算,由 Explore 计算,结 束,关键术语,平均数(mean)衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算中位数(median)衡量数据集中心位置的量度。中位数将所有的数据分为两个相等的部分,一部分的值都大于或等于它,而另一部分都小于或等于它众数(mode)衡量数据中心位置的量度。它是发生频数最高的数据值百分位数(percentile)至少有p%的数据项小于等于这个值,且至少有(100-p)%的数据项大于等于这个值。第50百分位数即为中位数四分位数( quartile )第25、第50、第75百分位数即为第1、第2、第3四分位数。
48、四分位数将数据集分为4个部分。每一部分含有25%的数据临界点(hinges)下端临界点为第1四分位数,上端临界点为第3四分位数。全距(range)用以衡量变异程度的量度,它是最大值减最小值的差四分位内距(interquartile range,IQR)用以衡量变异程度的量度,它是第3四分位数与第1四分位数之差方差(variance)用以衡量数据集变异程度的量度,是建立在距平均数离差的平方值的基础上的标准差(standard deviation)用以衡量数据集变异程度的量度,取方差的正的平方根Z分数(z-score)以距平均数的离差除以标准差所得的值。是标准化的数值,指数据值距离平均数的标准差的
49、个数切贝谢夫定理(chebyshers theorem)这一定理可以用于任何数据集,用来描述与平均数的距离在特定数目个标准差范围之内的数据项的百分比经验法则(empirical rule)这一法则适用于钟形分布的数据,用以描述与平均数的距离在1、2、3个标准差之内的数据项的百分比异常值(outlier)异常大或异常小的数据值,五数概括法(five-number summary)是一种探索性数据分析的技术。用五个数据值:最小值、第1四分位数、平均数、第3四分位数和最大值来概括数据集盒形图(box plot)一种用图形概括数据的方法。用一个以第1和第3四分位数为边界的盒来表明在中心位置50%的数据
50、。以一条横线(须线)从方盒两侧延伸以表明大于第3四分位数和小于第1四分位数的数据值的位置。所有异常值民予以标明协方差(covariance)用以衡量两变量间线性相关关系的数值量度。正值表示正相关,负值表示负相关相关系数(correlation coefficient)用以衡量两变量间线性相关关系的数值量度。加权平均数(weighted mean)将每个数据值予以一个权重以反映其在数据集中重要程度。以此获得的平均数即为加权平均数分组数据(grouped data)将数据分为若干个组并配以频数分布,而不记录原始数据的个体值偏度(skewness)对分布偏斜方向和程度的测度峰度(kurtosis)对