《统计分析综合实验.ppt》由会员分享,可在线阅读,更多相关《统计分析综合实验.ppt(144页珍藏版)》请在三一办公上搜索。
1、1,四川大学工商管理学院 刘 馨 副教授(L),统计分析综合实验,2,统计学常用计算软件,SPSS(Statistical Package of the Social Sciences)(社会科学统计软件包)SAS(Statistical Analysis System)(统计分析系统).Excel,3,SPSS的统计功能,样本数据的描述和预处理假设检验(包括参数检验、非参数检验和其他检验)方差分析(包括一般的方差分析和多元方差分析)相关分析回归分析聚类分析和判别分析因子分析时间序列分析可靠性分析,4,主要内容,建立数据集数据的描述性分析参数估计假设检验方差分析相关与回归分析统计分析报告,5,
2、参考书目,统计学刘馨 编著 四川大学出版社 2006年统计学实验 冯力 主编 东北财经大学出版社 2008年,管 理 统 计 刘 馨,6,关于考试,以小组为单位,针对某一实际问题,用SPSS软件分析数据,写出统计分析报告。若设计问卷收集数据,每组最多由6位同学组成,若在网上下载数据,每组最多由4位同学组成。,7,统计分析报告的文本格式,标题调查研究的背景与现实意义调查方案的设计(数据来源)数据分析调查结论及相应的建议附件,实验一,8,建 立 数 据 集,9,一、SPSS 窗口介绍,启动后,显示数据编辑器(Data Editor)窗口,10,编辑窗口简要介绍,主菜单栏:将SPSS常用的数据编辑、
3、加工和分析的功能列出来。用户可以通过单击菜单完成相应操作。工具栏:将一些常用的功能用图形按钮的形式组织在工具栏中,使操作更加快捷和方便。数据编辑栏:显示和管理SPSS数据结构和内容。系统状态栏:显示系统的当前运行状态。,11,SPSS输出窗口,主菜单工具栏分析结果显示区状态显示区,12,二、变量类型和定义变量:,定义变量是输入数据的前提。启动后,显示数据编辑器窗口,弹出一个菜单窗口,点击该窗口下方的变量视图,打开如下窗口。,13,14,名称:输入变量名。类型:定义变量类型。分为字符型(String)、日期型(Date)、数值型(Numeric)。标签:进一步说明有关变量的详细含义。数值:对变量
4、值的进一步说明,主要用于对名义级变量和顺序级变量的“值”的说明。缺失:缺失值选择。列:在屏幕上,变量的显示宽度。对齐:显示的对齐方式。测量:选择测度级别,分为刻度级、序次级、名义级。,15,定义变量类型,通常选用数值型:包括正负符号、小数点和小数在内。逗号型:整数部分从个位开始每3位以一个逗号分隔。字符型:由一个字符串组成。,16,说明有关变量的含义,17,缺失值选择,对字符型或数值型,用户缺失值可以是13个特定的离散值。对数值型,用户缺失值可以在一个连续的闭区间内并同时再附加一个区间外的离散值。,18,数据的保存与读取(点击:文件),19,三、读入其他格式的数据,点击:文件 打开 数据 系统
5、弹出一个窗口:,选择文件类型 文件名 打开,20,进一步选择需要的数据:,21,实例:,某证劵公司从某城市有关营业所抽样调查得到散户股民买进、卖出和投资的有关数据,22,练习:某高校10名教师基本情况,实验二,23,数据的描述性分析,24,一、数据特征的描述性分析,1、反映集中趋势的统计量:众数(Mode):全部数据中出现次数最多的数值。中位数(Median):将全部数据按其大小顺序排列,处于中间位置的数值。四分位数(Quartiles):按顺序排列的一组数据被划分为四个相等部分的分割点的数值。平均数(Mean):将全部数据求其平均数。,25,2、反映离中趋势的统计量:,极差(Range):全
6、部数据中最大值与最小值的离差。标准差(Std.deviation):衡量全部数据与其平均数离差程度的重要标准。方差(Variance):标准差的平方。,26,3、反映分布特征的统计量:,偏度(Skewness):是指变量分布非对称的偏态方向程度。数据关于均值对称,斜度为0,否则为右偏(大于0)或左偏。峰度(Kurtosis):是指分布曲线顶峰的尖平程度,即数据集中在平均数周围的变量值的多寡程度。=0,为标准峰度;0,为尖顶峰度;0,为平顶峰度。,27,频数分析表:交叉列联表:列联表(cross tabulations)是用来描述两个或两个以上变量的联合分布的统计表。从中可以分析变量之间的相关关
7、系。,4、常用的统计表,28,条形图(Bar Chart)用宽度相同的条形的高度和长度表示次数分布。饼图(Pie Chart)用圆形及圆内扇形的面积来表示次数分布 直方图(Histogram)用直方图的宽度表示不同的区间(组),用竖立于区间上的矩形条,表示相应区间的数值的频次或频率。,5、统计图,29,箱形图(Boxplot)综合表述样本数据的中心特征和离散特征,显示数据的中心、范围、分布的主要特征。箱形图的基本构造:,下四分点,中位数,上四分点,极差,本体极大值,本体极小值,二、用SPSS作描述性分析,1、给变量值排序:在读入数据后,从主菜单数据开始,依次点击:数据 对个案排序 系统弹出一个
8、窗口,30,31,从左边框中的变量清单中,选取所要排序的变量送入右边的框中,在窗口的下部,选升序或降序。,32,2、给变量值排名次:,在读入数据后,从主菜单转换开始,依次点击:转换 个案排秩 系统弹出一个窗口可直接排名次,也可分组排名次,33,选取所要排序的变量,送入右边上面的变量框,可直接排名次,若选取所要分类的变量,送入右边标准框,可分类排名次。,34,实例:3.6根据某班学生的数据,进行身高排序;将学生的身高数据,按不同性别分组排名次。,练习:根据某地区推销员的销售数据,进行排序;将推销员的销售数据,按不同地区分组排名次。,35,3、频次、频率分析,中心描述与离散描述:,频次分析摸块(F
9、requency Process)不仅能分析样本数据的频次、频率,还可以统计出样本数据的均值、中位数、众数,极大值、极小值、上下四分点、极差、方差、标准差、均值标准差,以及斜度、峰度等。在读入数据后,依次点击:分析 描述统计 频率 系统弹出一个窗口,36,点击该窗口下面的统计量按钮,弹出一个新窗口,37,38,在主窗口,点击图表按钮,弹出一个新窗口,上块为图形类型选择块;下块为图的纵轴值选择块;,39,在主窗口,点击格式按钮,弹出一个新窗口,40,实例:,从某城市抽出来的30个商店中,查出某商品的价格数据(刻度级数据),进行频次分析。练习:抽样调查某单位16人的受教育程度的数据(顺序级数据),
10、进行频次分析。,41,4、列联表分析,读入数据后:点击分析 描述性统计 交叉表 系统弹出一个对话窗口。,42,43,点击单元格按钮,弹出一个新窗口,44,实例:,用AB两套方案对170余人进行培训,然后对培训后的业绩是否有明显改善做了统计,考察不同培训方案是否与业绩改进相关。,45,5、箱形图:,在读入数据后点击:分析 描述统计 探索,系统弹出一个窗口,46,点击主窗口下面的图表按钮,弹出一个新窗口,47,实例:,某单位女职工160人,男职工206人,对相应的年薪作箱形图。,48,6、变量重新赋值,对应于组距式的频数分析表可以通过SPSS的变量重新赋值功能来完成在读入数据后,依次点击:转换 重
11、新编码 成相同变量 或成不同变量 系统弹出一个窗口,49,从左框中选择一变量移如中间框,显示”变量名?”,右边输出变量框被击活,输入新变量名称,单击旧值和新值按钮,弹出一个新窗口,50,在旧值栏中选择一项输入原值,在新值栏中输入新值,单击添加按钮。,51,实 例:3.8,对某班学生的身高数据作统计分组.思考:操作步骤?,52,练习,某公司准备开发一楼盘“美丽家园”,主力户型为两室两厅一卫和三室两厅双卫的多层住宅,现对在该片区所开发楼盘的目标客户群作一调查。客户基本情况:客户性别、年龄、家庭人口数、学历以及家庭月收入水平。试分析相关数据,为公司确定开发方案和制定销售策略提供依据。,实验三,53,
12、参 数 估 计,54,一、参数估计的基本思想,1、统计量:统计量是不含任何未知参数的、随机样本X1,X2,Xn的函数。常用的统计量:,55,根据样本X1,X2,Xn构造一个统计量T(X1,X2,Xn)作为参数 的估计,T称为 的估计量。常见的最优估计量:,2、点估计:,56,3、区间估计,设总体分布中含有未知参数,根据样本 X1,X2,Xn构造两个统计量T1、T2 如果对于(01)有 p(T1 T2)=1-则称(T1,T2)为 的(1-)的置信区间。(1-)称为置信水平或概率保证程度,57,二、用SPSS作参数估计,1、和2的点估计:用频次分析模块来计算:在读入数据后,从主菜单分析开始,依次点
13、击:分析 描述统计 频数分析 系统弹出一个窗口,58,点击该窗口下面的统计量按钮,弹出一个新窗口,59,60,2、总体均值的置信区间的计算:,在读入数据后点击:分析 描述统计 探索,系统弹出一个窗口,61,点击主窗口下面的统计量按钮,弹出下面的窗口,置信度95%可修改,62,实例:5.9,根据某组学生的数据,估计总体(同年级的学生身高)均值、方差,计算总体均值的置信区间。练习:在对一项广告的效应进行的电话追踪调查中,30名被追踪者中有20名会连同产品一起想起新广告用语。试求在看过该广告的所有人中会想起新广告用语的所占的比重的置信区间。,实验四,63,假 设 检 验,64,一、假设检验的基本思想
14、,为了解总体的某些性质,做出某种假设,然后抽取样本,构造适当的统计量去检验这种假设是否合理(是接受还是拒绝H0),这一过程称为假设检验。,65,1、关于p值:,P值是一个与统计假设检验相联系的概率,国际通用的几个统计软件SPSS、SAS等在某种计算的结果中都有一个p值。P值即为否定H0的最低显著性水平 判断规则:p(给定的显著性水平),拒绝H0 否则:p,就接受H0。,66,2、单个总体均值的检验,获得来总体X的样本观察值:x1,x2,xn,总体方差 2已知或未知,进行总体均值是否发生变化的假设检验 H0:=0 H1:0 应用范围:比较采取某项措施前后的总体均值。,67,3、两个总体下均值的假
15、设检验,获得来自两个总体的相互独立的样本观察值:x1,x2,xn与y1,y2,ym,设总体方差 12和22,进行总体均值1与2差异的假设检验 第一步:第二步:,H0:21=22,H1:21 22SPSS把这个检验称为Levene检验,H0:1=2 H1:1 2 根据方差齐性检验的结果,选择不同的检验统计量进行检验,68,4、配对样本的T检验,若两个总体服从正态分布(如果不服从正态分布,要求大样本情形),在实验中,数据都是成对出现的,用配对样本T检验来处理:令ui=xi-yi(i=1,2,n),用单样本的T检验方法,检验ui均值与0是否有显著差异,从而得出两个总体的均值是否有显著差异。,69,独
16、立样本存放方式 配对样本存放方式:数值变量 分类变量 变量x 变量y 数字1 x x1 y1 数字2 x x2 y2 数字n x xn yn 数字n+1 y 数字n+2 y 数字n+m y,70,二、用SPSS作参数假设检验,1、均值过程:按分组变量计算因变量的描述统计量,如均值、方差、标准差、偏度、峰度等,并将计算结果并列显示,提供用户比较分析各组变量值的差异。在读入数据后,从主菜单分析开始,依次点击:分析 比较均值 均值 系统弹出一个窗口。,71,选择分组变量,如果点击下一层按钮,形成层控制变量,在每一层里进一步划分样本。,72,根据统计要求选择适当的统计量移入右框。,73,2、单样本T检
17、验,在读入数据后,从主菜单分析开始,依次点击:分析 比较均值 单样本T检验 系统弹出一个窗口,74,在检验值 格中,填入总体均值假设0值,点击选项按钮,弹出对话框,0,75,实例:,某单位女职工160人,男职工206人,工作性质不同,对相应的平均年薪作比较。某车间生产一种零件,已知其零件直径服从正态分布,直径长度为32,现在进行了某项工艺改革,需要检验零件的直径是否发生了变化,测定它们的直径长度是分别为:32.56,29.66,31.64,29.51,30.00,31.03,33.05,31.89,76,3、相互独立的两组样本的T检验,在读入数据后,从主菜单分析开始,依次点击:分析 比较均值
18、独立样本T检验 系统弹出一个窗口:,77,将分组变量放入右下框,击活定义组按钮,点击后弹出对话框,78,输入两个组的变量值,如果是连续变量,在选项分割点中,输入一个分界值。,79,实例:,用两种激励方法,对同样工种A、B两个班组进行激励,测得激励后业绩增长率(%),问:两种激励方法的平均激励效果有无显著差异?某城市某商业银行营业点抽样调查100名客户的有关资料,包括职业、性别、年龄、文化程度、年末储蓄存款余额、年收入等,试分析不同文化程度客户的储蓄存款余额的平均值是否有显著差异。6.17,80,练习:,上海的一家食品生产商开发出一种新口味的休闲食品。为了确保市场推广的成功,随机抽取了20位消费
19、者,以长期居住地将其分为长住者和暂住者,请他们尝试新产品后将其感受填入调查表中,只要求回答两种感受,即味道好(记为1)或味道不好(记为0),由此推断长住者和暂住者的口感是否有显著差异?,81,四、配对样本的T检验,在读入数据后,从主菜单分析开始,依次点击:分析 比较均值 配对样本T检验 系统弹出一个窗口:,82,从左框选出两变量,放入右边,两变量以差的形式出现。,83,实例:,用两套问卷测量20个管理人员的素质,两套问卷的满分都是200分,得到两套问卷的测量结果,问:两套问卷所得结果的平均值有无显著差异?,实验五,84,方 差 分 析,85,一、方差分析的基本思想,方差分析(Analysis
20、of Variances,简记为:ANOVA):是通过试验,观察一种或多种因素的变化,对试验结果的观察数值是否有显著影响,从而选出最优生产方案。例如:有几种不同的促销方式,要观察他们对同一产品的销售量有否显著影响,86,单因素方差分析的统计模型,方差分析的任务:一次完成对多个总体均值是否相同的检验。H0:1=2=a H1:H0不成立,87,单因素试验方差分析表,88,多重比较(用SPSS完成),若方差分析的结果为因子A各水平之间有显著差异:可进行各水平均值的两两比较,需要先进行方差齐性检验。可选择比较不同的组合的均值有无显著性差异。,89,双因素方差分析,双因素方差分析:分析两个因素各自的变异
21、对试验结果影响的显著性,有时还要分析两因素的联合影响(称为交互作用)对试验结果影响的显著性。例如:不同的激励方法、被激励者不同的素质对激励的效果的影响是否显著,90,无交互作用的方差分析,不需作重复试验,设因素A有a个水平,因素B有b个水平,在水平组合(Ai,Bj)下,观察值为xij,91,双因素试验方差分析表,92,有交互作用的方差分析,需作重复试验,设因素A有a个水平,因素B有b个水平,在水平组合(Ai,Bj)下,重复作n次试验,观察值为xijk,93,有重复试验的双因素试验方差分析表,94,二、用SPSS作方差分析,1、单因素方差分析 在读入数据后,从主菜单分析开始,依次点击:分析 比较
22、均值 一种方式方差分析 系统弹出一个窗口:,95,使用系统默认选项,点击OK,可得方差分析表,96,点击主窗口的选项按钮,弹出一个新窗口,,选择方差齐次性检验,97,点击主窗口的两两比较按钮,弹出一个新窗口:,根据Levene检验的结果进行选择,98,点击主窗口的对比按钮,弹出一个新窗口:,输入各组均值的系数,确定所要比较的组均值的组合,99,实例:7.1,为了对交通货运四个部门的服务质量进行评价,消费者协会在航空货运业、铁路货运业、公路货运业及水路货运业分别抽取了不同的企业作为样本。每个行业所抽取的企业(共24家),在服务对象、服务内容、企业规模等方面基本上是相同的,最近一年中消费者对这24
23、家企业投诉的次数统计表所示。试分析这几个部门之间的服务质量是否有显著差异?,100,练习:,设某单位的职工的工作岗位可以分成三类:一线工人、科以上干部、一般干部,试比较这三类职工的当前平均工资有否显著差异?,101,2、双因素方差分析,1)无重复双因素方差分析 在读入数据后,从主菜单分析开始,依次点击:分析 一般线性模型 单变量多因素方差分析 系统弹出一个窗口:,102,无重复实验,不要点击OK,系统默认选项是对主效应,交互效应作全分析,点击右边的模型按钮,弹出对话窗口:,103,点击定制按钮,激活相应的按钮,选择所要分析的效应,点击建立项框下的小箭头,出现下拉菜单,选择主效应。,104,点击
24、选项按钮,弹出一个新窗口:,105,点击主窗口的两两比较按钮,弹出一个新窗口,106,实例:7.2,某品牌汽车有4种颜色5个销地,不同颜色汽车在各个销售地的销售量不同,分析颜色和销地对汽车的销售量是否有显著影响。,107,练习:,某公司对某产品设计了4种类型的产品包装,又设计了3种销售方案,在某地区用3种销售方案,对4种包装的该产品试销一个月得业绩数据,分析不同包装、不同销售方案,对销售业绩是否有显著影响?,108,2)有重复双因素方差分析 在读入数据后,从主菜单分析开始,依次点击:分析 一般线性模型 单变量多因素方差分析 系统弹出一个窗口:,109,有重复实验,点击OK,系统默认选项是对主效
25、应,交互效应作全分析。,110,实例:,使用4种燃料,3种推进器作火箭射程试验,每一种组合情况做三次试验得火箭射程(单位:海里)如下表所示,试分析燃料、推进器和它们的交互作用对火箭射程是否有显著影响?,综合实验:,111,投 资 咨 询 服 务,实验六,112,相关与回归 分 析,113,一、相关与回归分析的基本思想,1、相关分析 相关分析(correlation analysis)是用于测量两个变量之间关系的强度及方向的最常用的方法。相关系数:是用来测定变量间相关密切程度和相关方向的指标。,114,Pearson相关系数:适用于刻度级数据Spearman、Kendall等级相关系数:用来测定
26、两组配对数据等级序列之间的相关密切程度和相关方向的指标。偏相关系数(partial correlation coefficient)测量的是当控制了其它变量的影响之后某两个变量之间的关联程度。,115,相关系数的显著性检验:,如果要作正负相关的双向检验,做双尾的T检验,如果只作正相关或负相关的检验,做单尾的T检验。,116,回归分析是研究随机变量之间的相关关系的一种统计方法,研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。被解释变量必须是刻度级变量,解释变量可以是刻度级、顺序级、名义级的变量。,2、回归分析,117,一元线性回归方程:多元线性回归方程:,118,回归方
27、程的显著性检验,1、拟合优度检验:复相关系数R2、F检验:检验回归方程的显著性3、t检验:检验变量xi是否显著,等价于检验假设:,119,引入一个变量或从回归中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量,这个过程反复进行,直到既无显著的自变量进入回归方程,也无不显著的自变量从回归方程中剔除为止。,逐步回归法(Stepwise),120,二、用SPSS作相关分析与回归分析,1、绘制散点图 读入(或送入)数据后:点击:图形 散点图,系统弹出一 个对话窗口。,121,选择简单散点图,单击定义按钮,打开对话框,122,123,2、简单相关分
28、析与等级相关分析,读入数据后:点击分析 相关分析 二元变量 系统弹出主对话窗口。,124,125,统计量中的选项只当在主对话框选择Pearson相关系数时,才被击活。,126,实例:,分析销售额与广告费的关系8.1某企业组织一次技术操作劳动竞赛,参赛者是不同等级工人中的佼佼者,考虑工人的技术等级和竞赛名次之间的相关性。,127,3、偏相关分析 读入数据后:点击分析 相关分析 偏相关系统弹出主对话窗口。,128,至少选择一个控制变量移入控制变量栏,129,选择零阶相关系数阵,比较两两相关性,130,实例:,某研究者收集了南方26个旅游风景区某年的商店投资数据、游客增长率和风景区的经济增长率,试从
29、变量之间的相关关系,寻求与风景区经济增长密切相关的因素。,练习:,经调查某地区1994年至2003年高级音响设备的数量、新结婚户数和户均收入水平资料,试分析市场上高级音响设备的需求量同新结婚的数量、户均收入水平之间的相关关系。,131,132,4、用SPSS处理线性回归问题:,读入(或送入)数据后:点击分析 回归分析 线性 系统弹出一个对话窗口。,133,134,逐步回归:,135,点击保存按钮,弹出新对话框,136,实例:,例:据经验知道,市场上高级音响设备的需求量同新结婚的数量之间具有正相关关系,还同户均收入水平具有一定的相关关系,经调查某地区1994年至2003年高级音响设备的数量、新结
30、婚户数和户均收入水平资料,如果2006年该地区的新结婚户数430万户,户均收入72.5千元,试估计该年高级音响设备的需求量。,137,练习:,研究某城市散户股民在“证劵市场的投资总额”是否可以用变量“证劵市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”来说明。本问题并不确切知道回归方程是什么,要依靠SPSS来作探索。,138,5、用SPSS处理非线性回归:,读入(或送入)数据后:点击分析 回归分析 曲线估计 系统弹出一个对话窗口。,139,140,拟合模型:,线性模型 y=b0+b1x二次模型 y=b0+b1x+b2x2复合模型 y=b0*b1x对数曲线模型 y=b0+b1lnx 三次模型 y=b0+b1x+b2x2+b3x3乘幂曲线模型 y=b0 xb1,141,点击主窗口右下角的保存按钮,弹出新对话框,142,实例:,在食物价格保持不变的条件下,关于人均食物支出与人均收入之间的曲线,在经济学上习惯称之为恩格尔曲线,假如我们得到如下的资料,试用幂函数形式拟合恩格尔曲线。,143,练习:,设某种产品生产过程中的半成品的废品率与它含的一种化学成分有关,经验观测到一批数据,用曲线估计两者之间的定量关系。,144,谢谢!,