《SPSS第三单元描述性统计分析.ppt》由会员分享,可在线阅读,更多相关《SPSS第三单元描述性统计分析.ppt(17页珍藏版)》请在三一办公上搜索。
1、第二单元 描述性统计分析,描述性统计分析是进行其他统计分析的基础和前提。在描述性分析中,通过各种统计图表及数字特征量可以对样本来自的总体特征有比较准确的把握,从而选择正确的统计推断方法。Spss的许多模块都可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在descriptive statistics菜单中,他们就是计算各种统计量或绘制统计图来实现描述功能。,(1)Frequencies过程:适用于连续型和离散型的随机变量,除可以输出均值、中位数、众数、标准差、方差、全距等样本统计量外,还可以生成频数分布表和条形图、饼图、直方图等常用的统计图。(2)Descriptives过程:适用于
2、连续型随机变量,可以输出均值、标准差、方差、全距等样本统计量。此外,还可以将原始数据标准化后得到的数据保存在一个新变量中,以便进一步统计分析。Descriptives的绝大多数功能都可以由Frequencies来实现,其操作过程、输出结果与Frequencies输出的统计量也近似。,(3)Explore过程:计算描述统计量,通过各类统计图等描述数据的分布类型;在描述数据分布特点方面表现出强大的功能,能够输出常见的描述统计量,还有箱式图、枝叶图、直方图、正态图等。(4)Crosstabs过程:适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。,一、frequenci
3、es过程频数分布表是描述性统计中最常用的方法之一,Frequencies 过程就是专门为产生频数表而设计的,它不仅可以产生单变量详细的频数表,显示文件中指定变量特定值发生的频数,还可以获得某些描述统计量或按要求给出某百分位点的数值以及常用的条图、圆图等统计图。AnalyzeDescriptive StatisticsFrequencies,【Display frequency tables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框,用于定义需要计算的其他描述统计量。,分布指标,百分位数指标,集中趋势指标,离散趋势指标,计算百分数时选此项,
4、【Charts钮】弹出Charts对话框,用于设定所做的统计图。Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。,二、Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并
5、列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。,变量列表顺序字母顺序均数升序 均数降序。,三、Explore过程主要用于对资料数据的性质、分布状况等完全不清楚时的进行分析,故称探索性分析。在常用的描述性统计指标的基础上,它又增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等,显得更加详细全面。还可以为以方差齐性为目的的变量变换提供线索,有助于用户制定继续分析的方案。,【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List框】用
6、于选入需要分析的变量。【Factor List框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。【Label cases by框】选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。,箱式图(box plot),使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。,显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。,现有某直销中心30名员工的工资测算数据两批,
7、第一批为工资调整前的数据,第二批为工资调整后的数据,绘出它们的箱线图(如上图),进行比较,可以很容易地得出:工资调整前,总体水平在752元左右,四分位距为307.5,没有异常值。经过调整后,箱线图显示,第2、29、10、24、27号为温和的异常值,第26、30、28号为极端的异常值。为什么会出现异常值呢?经过进一步分析知道,第2、29、10、24号员工由于技能强、工龄长、积累贡献大、表现较好,劳苦功高,理应得到较高的报酬;第27、26、30、28号职工则因为技能偏低、工龄短、积累贡献小且表现较差,得到的工资较低,甚至连一般水平也难以达到。这体现了工资调整的奖优罚劣原则。另外,调整后工资总体水平
8、比调整前高出270元,四分位距为106,工资分布比调整前更加集中,在合适的范围内既拉开了差距,又不至于差距太悬殊,还针对特殊情况进行了特殊处理。这种工资分布具有激励作用,可以说工资调整达到预期目的。,茎叶图(stem-leaf plot)将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。茎叶图的排列方式与频数表有些相似,每行由一个整数的茎和若干叶构成。左边是茎的数值,茎宽一般标在图的下方。右边是叶,图显示每个叶的尾数数值,同样在图的下方标示每个叶代表几个实际观察值。茎叶图可以非常直观地显示数据的分布范围和形态,近年非常流行。,1、茎叶图看起来与直方图很相似,但是茎叶图显示的变量信息却远比直方图详细。2、用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。3、茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。,四、Crosstabs过程,