《应用统计学SPSS简介和入门.ppt》由会员分享,可在线阅读,更多相关《应用统计学SPSS简介和入门.ppt(68页珍藏版)》请在三一办公上搜索。
1、,SPSS简介和入门,有道无恃 道乃虚空 有恃无道 其恃也忽老子,SPSS简介 相关概念 数据录入和数据获取 菜单补充说明,1968年:斯坦福大学三位学生创建了SPSS(Statistics Package for Social Science)1968年:诞生第一个用于大型机的统计软件 1975年:在芝加哥成立SPSS总部 1984年:推出用于个人电脑的SPSS/PC+1992年:推出Windows版本,同时开始全球化发展 自SPSS 11.0起,SPSS全称为“Statistical Product and Service Solutions”,即“统计产品和服务解决方案”2009年:SP
2、SS定位为预测统计分析软件(Predictive Analytics Software)PASW IBM于2009年7月28日宣布以12亿美元收购SPSS公司,SPSS正式成为IBM Information Management产品线下品牌。2010年:重新更名为-IBM SPSS(最新版为22版,2013年8月下线),产品概述,SPSS软件的安装和使用,安装:启动计算机放入光盘按照提示选择典型安装输入合法序列号。启动:开始程序SPSS for Windows;双击桌面快捷方式。退出:同其他Windows下的软件;按提示将文件存盘(.sav为数据文件;.spo结果文件)。,启动SPSS,首先看
3、到的是数据编辑窗口,菜单栏,工具栏,SPSS启动界面,File:对SPSS文件的管理,包括新建、打开、保存文件等 Edit:与windows类似的编辑功能,如复制、剪切、粘贴、撤消等,以及系统参数设置 View:选择显示状态条、工具栏、网格线、变量标签、变量 视图及字体设置等 Data:实现文件级别的数据管理,如记录排序、记录拆分、记录筛选、合并文件等 Transform:实现变量级别的数据管理,如计算新变量、变 量值的分组合并、连续变量的可视化分段等,SPSS菜单栏,Analyze:SPSS的重点菜单项,涵盖各种主要统计分析功能 Graphs:绘制各种普通统计图及交互式统计图,如直方图、茎叶
4、图、箱图、残差图等 Utilities:提供各种实用性管理设置,如变量信息管理,输出 结果文件设置、菜单管理等 Windows:窗口拆分、最小化、当前窗口显示等 Help:帮助系统,SPSS菜单栏,打开文件,保存文件,打印,召回前次菜单操作,撤消,查找记录,查看变量信息,查找变量值,插入记录,插入变量,拆分文件,设置权重,选择记录,显示变量标签,使用数据集,SPSS工具栏,SPSS的常用窗口:Data、Syntax、Output、Draft Output、Script 几个术语:Case、Variable、Expression SPSS的运算符:基本运算:数学运算、关系运算、逻辑运算 算术运算
5、的优先顺序:括号、函数、乘方(冥)、乘 或除、加或减。同一优先级的按从左到右的顺序。SPSS的表达式:算术表达式、比较表达式、逻辑表达式,相关概念(1),SPSS的函数:十大类一百多个函数,包括算术函数、累计概率函数、概率密度函数、时间函数、逆分布函数、缺失值函数、随机函数、统计函数、字符串函数和其他函数。SPSS的文件类型:数据文件*.sav*.sys*.dat(.dbf.xls 等)、工作日志文件(.jnl)、结果文件(.spo)、命令文件或语法文件(.sps)、脚本文件(.sbs)、图形模板文件(.sct)。,相关概念(2),SPSS的数据格式:一般以行乘列的排列方式构造,行代表 cas
6、e(或记录),列表示variable(或变量)。“一个观测占一行,一个变量占一列”例1:观察了10名学生的体重,其中男性5人,女性5人应具有 210的数据结构(2个变量,10个观察对象)例2:一个22的四格表,应具有n2的数据结构(2个变量,n 个观察对象)例3:一个22析因设计,应具有n3的数据结构(3变量,n次 实验),相关概念(3),数据录入和数据获取,数据可以直接输入SPSS,或者从其他形式:SPSS数据文件、电子表应用软件(例如Microsoft Excel)、数据库软件(例如Microsoft Access)以及文本文件等导入(1)直接输入 数据录入三部曲:定义变量名指定变量的属性
7、录入数据(2)外部数据的获取(集中在File菜单下):对于SPSS格式和其他大多数常用格式的数据文件,均可通过的 FileOpenData或单击工具栏上的 打开,以excel格式数据的 读入为例作介绍。也可利用利用数据库ODBC接口读入数据及文本向导读入文本数据。,数据编辑窗口,语法编辑窗口,结果管理窗口,目录区,内容区,草稿结果窗口,结果的一种简化文本格式,即被word兼容的rtf 超文本格式,可在未安装SPSS的机子上使用 word等字处理软件将该结果打开,脚本窗口,用Sax Basic语言写的程序,用于使SPSS内部 操作自动化,也适用于高级分析人员,Case:组成数据文件的基本单位,即
8、观测记录 Variable:SPSS对变量有如下的约定(1)变量名最多有8个字符,第一个字符必须是字母 或,数字、$和下划线均可用在变量名中(2)以$开头的变量名为系统变量(不可命名)(3)变量类型:数值型、字符型(A)、日期型等 数字 Expression:(表达式)逻辑,SPSS的几个术语,SPSS的运算符,以cases(行)和variables(列)的格式进行组织,一行是指调查中一个观测对象所有问题的回答,一列指调查中对于一个问题所有观测对象的回答,表1 10名学生的体重,表 2 穿新旧两种防护服工人的皮肤炎症患病率比较,表3 两种药物治疗缺铁性贫血后红细胞增加数(百万/mm3),定义变
9、量名前,首先新建一个数据文件 使用该菜单还可新建语法文件、结果文件、草稿结果 文件和脚本文件,单击切换至变量视图,变量名,数据录入:例1,Type:变量类型 Width:字符宽度 Decimals:小数位数 Label:变量标签 Values:变量值 Missing:缺失值 Columns:单元格宽度 Align:变量值对齐方式Measure:变量的测量尺度,注:不同变量间各属性可直接进行复制粘贴,点击单元格,即出现如右图所示小方格,点击小方格进行变量类型设定,标准数值型,字符型,日期型,逗号数值型,圆点数值型,科学计数法型,美元数值型,用户自定义型,如:美元数值型,设定三个特定的缺失值,也可
10、设定缺失值区间,定类尺度(Nominal Measurement):无序分类变量,如性别可取“男”、“女”。只能计算频数和频率,定序尺度(Ordinal Measurement):有序分类变量,如对游泳的喜欢程度1非常喜欢,2喜欢,3无所谓,4不喜欢,5非常不喜欢,可计算频数、频率、累计频数、累计频率,定距尺度(Interval Measurement):对事物类别或次序之间间距的测度,如温度。无绝对“零点”,如0并不表示“没有”,仅仅是个测量值,定比尺度(Scale Measurement):能够计算两个测度值之间比值的一种计量尺度,如职工月收入。有绝对“零点”,0就表示“没有”,SPSS中
11、将定比尺度和定距尺度合并为一类,统称“Scale”,且作为默认值,表1 10名学生的体重,数据录入三种形式:1.开放题的录入 例:年龄(age):_岁2.单选题的录入 例:性别(gender):1 男 2 女3.多选题的录入 例:你在选择健康体检的医院时关注哪些因素:a.交通方便 b.检查项目 c.检查价格 d.服务质量 e.其他,完成变量定义后,点击Data View即可切换 回数据视图,进行数据录入,直接输入,每输入一个值后,按键盘上的向下方向键 或 按回车键,输入下一个值,与开放题不同的是单选题中可以定义变量值标签,可 以减少数据录入的工作量,且方便数据分析。,字符直接录入 字符代码+值
12、标签 数值代码+值标签(推荐,便于录入及分析),单选题录入的三种方式,多重二分法:每个选项定义一个变量 适用于:选项不太多,多重分类法:每个答案定义一个变量,该用几个变量由 实际可能给出的最多答案数而定 适用于:选项较多例:你对健康知识的了解主要来自哪些渠道(限选3项):a.刊物 c.电视 d.收音机 e.网络 f.朋友介绍 g.其他,SPSS中的文件类型,可以从电子表格式文件读入数据,第一行默认作为 变量名读入SPSS,打开数据文件 使用该菜单还可打开语法文件、结果文件、草稿结果 文件和脚本文件,确认是否要读入变量名,确认导入的单元格区域,也可进行自定义,Excel数据导入后数据显示如图,其
13、中变量名行就是原来Excel文件中的第一行,关于ODBS(Open Database)本课程不进行详述,感兴趣的同学可参考有关书籍。,文本文件是另一种常见的数据文件,许多电子表和数据库 可以将内容存成文本格式逗号和制表位用以区分每个变量,上图中以制表位来区分,用以指导对文本进行定义,确定不同变量的区分,选择定义好的格式或创建新格式。选择No创建新格式,从文本导入数据Step 1,如前所述,文件使用制表位格式,变量名位于文件顶行,选择Yes表明变量名从文件顶行读入,变量以特定界限区分,如逗号、制表位,从文本导入数据Step 2,键入2表明从文本文件的第2行开始读入数据,从文本导入数据Step 3
14、,用直观的界面快速确定是否从SPSS正确读入你所 要求读入的数据,选中Tab,从文本导入数据Step 4,为适合SPSS的格式,某些变量名可能被缩减,该对话框用以编辑不适当的变量,使之达到你的要求。同样可以更改变量类型,如将INCOME设为Dollar格式。,选中Dollar,选中INCOME,从文本导入数据Step 5,从文本导入数据Step 6,从文本文件导入数据完成,其中step5设置的 INCOME为Dollar形式,前面就File菜单下的New、Open、Open Database、Read Text Date已作了介绍,下面就File、Edit和View菜 单下的其他子菜单作补充介
15、绍,Save:保存,覆盖当前文件,Mark File Read Only:使数据文件标记为只读,原文件不能被覆盖。点击该菜单项后,若对原数据文件进行改变后,对其进行保存时跳出下图,提示保存为另一个文件名或至另一个目录,表明原文件不会被改动,Save As:另存文件,可以另存为SPSS格式或其他数据格式,点击Mark File Read Only后,菜单变为Mark File Read Write,点击之可以恢复到可改写的状态,Display Date File Information:在结果窗口中显示变量信息、变量值等Working File(显示当前文件信息)External File(显示
16、外部文件信息),查看详情,Cache Data:查看详情,Stop Processor:停止程序处理,Switch Server:用以转化、增加、编辑所登录的服务器,查看详情,Print Preview:打印预览,Recently Used Date:最近使用数据,Print:打印,Recently Used File:最近使用文件,Exit:退出,Undo:撤消,Cut:剪切,Redo:重复,Copy:复制,Paste:粘贴,Paste Variables:粘贴变量,Clear:清除,Options:设置系统参数,Find:查找,状态条,Status Bar:选中,则在右下角显示状态条,Fo
17、nts:字体设置,Toolbars:用以对工具栏进行设置,Grid Lines:选中显示网格线,Value Labels:默认情况下,数据视图中显示数值,选中该项,则数据视图中显示数值标签,Varibles:选中切换至变量视图,Ok:在下次读取该文件时(如下次运行一个统计程序时)产生缓存文件,多数情况下直接点ok即可,cache data(数据缓存):是指将当前数据文件的一份拷贝放入缓存,使多次处理程序时当前文件不必被重复读取,从而有效减少程序处理的时间。默认情况下,数据库自动产生一份数据缓存,但当使用 GET DATA语法命令读取数据库时,数据缓存不能自动产生,应该使用FileCache Data菜单使之产生。,Cache Now:立刻产生一个缓存文件,若当前文件被锁住“locked”而无法修改时使用之,或者数据文件很大,它能加快处理时数据视图内容的滚动速度。,默认情况下,单元格内显示的是具体变量值,鼠标放在该变量名上(列的开头),出现关于该变量详细描述的标签定义.,当前,变量marital的单元格中显示的是变量标签:Married和Unmarried,