《上机练习3 列联表分析与方差分析.docx》由会员分享,可在线阅读,更多相关《上机练习3 列联表分析与方差分析.docx(9页珍藏版)》请在三一办公上搜索。
1、上机练习3列联表分析与方差分析本上机练习的主要目的:熟悉如何利用SPSS与Excel进行列联表分析及方差分 析。本练习所使用数据文件为“carown.dat”、“fastfood.sav”和*Salary.sav”。1.列联表分析Q:如何利用列联表分析考察家庭成员数与家庭所拥有汽车数之间 的关系?(数据文件为“ Carown.daf)在这之前,我们首先检验各变量是否存在野码(wild code)或异常值(outlier), 这可以通过频数表以及箱形图(boxplot)来判断。Number of members in familyFreauencvPercentValid PercentCumu
2、lative PercentValid 011.01.01.021818.018.019.033030.030.049.042929.029.078.0555.05.083.0677.07.090.0733.03.093.0833.03.096.0922.02.098.01011.01.099.01111.01.0100.0Total100100.0100.0在家庭成员数的频数表中,我们发现,有一个样本的家庭成员数为0,而该变量 的取值范围为1, +s,该样本取值在其范围之外,即为野码(wild code)。对于野 码的处理,一般可以采用将该样本的此变量设为缺失值或直接去掉该样本的做法。Num
3、ber of cars the family ownsFreauencvPercentValid PercentCumulative PercentValid 17474.074.074.022323.023.097.0322.02.099.0911.01.0100.0Total100100.0100.0在家庭所拥有汽车数的频数表中,我们发现,有一个样本的家庭所拥有汽车数 为9,显然是一个极端值。我们利用boxplot也证实了该样本为一个异常值(outlier )。 异常值处于该变量的正常取值范围内,但可能会对该变量的相关统计结果产生较为 严重的影响。对于异常值的处理,一般可以采用直接去掉该样
4、本的做法或者根据情 况进行调整。而对于上述我们发现的异常值来说,我们可以直接去掉该样本。在上述数据清理的工作完成之后,我们可以开始进行列联表分析。因为列联表 分析只适用于分类变量,我们需要利用Transform今Recode今Into Different Variables.对家庭人数以及家庭所拥有汽车数进行分类,分别定义新变量member1 和cars1与之对应。具体对应关系如下:旧变量新变量新变量类别 定义旧变量新变 量新变量类别 含义membermember1member1carscars1cars11-211-2位成员111辆323位成员222辆以上434位以上成员下面我们以定义新变量
5、c ars1为例来对Recode函数功能进行说明。打开对话框后,选中变量cars,并点击按钮口,将其选入变量框中。然后在 “Output Variable”的“Name”中填入新变量名“carsl”,接下来点击按钮5烦加心燮.,分别填入对应的新旧变量值后点击“continue”。然后对相应的类别加以定义定义新变量member 1类似处理。接下来我们进行列联表分析。我们从主菜单中 选择Analyze今 Descriptive statistics今 Crosstabs.。点击下面的Statistics.按钮,选 择我们所需的统计指标。选择好以后点击“Continue”。完成后我们点击“OK”。C
6、ARS1 * MEMBER1 CrosstabulationCountMEMBER1Total12位成员3位成员4位以上成员CARS1 1 辆162631732辆以上242026Total18305199Chi-Square TestsPearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedf9.142a9.5777.67799Asymp. Sig.(2-sided)2.0102.0081.006a. 1 cells (16.7%) haveexpected count less th
7、an 5. The minimumexpected count is 4.73.Symmetric MeasuresValueApprox. Sig.Nominal byPhi.304.010NominalCramers V.304.010Contingency Coefficient.291.010N of Valid Cases99a. Not assuming the null hypothesis.b. Using the asymptotic standard error assuming the null hypothesis.从上面的分析我们可以知道,家庭成员数对家庭所拥有汽车数
8、具有显著的影响 (Chi-square所对应的显著性水平0.05)。不过,从Phi系数、Cramers V和列联系 数的大小来看,这两个变量之间的联系并不是很强。2. 单因子方差分析Q:如何利用单因子方差分析来判断不同种族类型员工的起薪是否 存在显著差异?(相应的数据文件为“Salary.sav”)我们利用“Salary.sav数据文件进行下面的方差分析,该数据文件中的各变量定 义参见数据字典“Salary_dct.doc”。要进行单因子方差分析,需要从主菜单中选择:Analyze今Compare means今 One-Way ANOVA.。然后,将变量salbegin选入“Dependent
9、 List(因变量)”,将 变量race选入“Factor (因子)”。点击下面的按钮“Options” ,在“Descriptive (描 述性统计)”和“Homogeneity of variance test (同方差检验)”前面打上勾。Salary 一 SPSS Data Editor One-ay AHOVAOne-Way ANOVA: Options4567822se:-:age educ10VDependent List: 詹 salbeginOKPasteResetCancelHelpStatisticsQescriptivdI- Fixed and random effect
10、s门 Homogeneity of variance test Brown-ForsytheI- WelchContinueCancelHelpMeans plotMissing Values”用于对精细趋势检验和精确两两比较的选项进行定义,一般我11I1,一 卜 I 厂 Exclude cases listwise匕不用争匕功能。按钮“Post Hoc .用于选择进行各组(组薮必须大于2 )间两 两比较的方法这里我们也不需要用到。泌Contrast.基本Exclude cases listwise1J27.300 JI 3.50066File Edit Vi ew Data Transfor
11、m Aiuilyze Gr aphs Utili ties Window Help 芽|口僵|与I e|c|国I冒俭|到唯|刮 圜垂庸I际回| 1:ld 1sexageeducjobcatsalarysalbegirworkrace 1点击“Continue”返回,点击“OK”。我们得到以下结果:DescriptivesNMeanStd Error95% Confidence Interval forMqw0370$17673.0$8,392.419$436.301$16,815.07$18,530.96$9,750$79,9801104$14678.9$5,008.239$491.098$1
12、3,704.96$15,652.92$9,000$44,100Total474-$17016 1$7,870 638$361 510$16,305 72$17,726 45$9,000$79,980Test of Homogeneity of VariancesSAIBFGINLevene Statisticdf1df2Sig.20.4881472.000上述描述性统计表明,少数族裔员工比白人员工的起薪低。不过,这两组样本 的同方差假设被拒绝。ANOVASALBEGINSum ofSauaresdfMean SquareFSia.Between Groups7.3E+0817277479171
13、2.022.001Within Groups2.9E+1047260536349.7Total2.9E+10473上述单因子方差分析的结果表明,白人员工与少数族裔员工的起薪存在显著差 异(显著性水平=0.001)。不过,在没有控制影响起薪的其它因素的情形下,我们 需要小心使用得到的上述结论。3. 多因子方差分析与协方差分析Q:如何在控制了员工受教育年限(educ)作用的条件下考察员工 性别(sex)与种族(race)对员工起薪(salbegin)的影响?(相应的 数据文件为“Salary.sav” )下面我们继续利用“Salary.sav ”数据文件进行多因子方差分析与协方差分析。要进行多因子
14、方差分析与协方差分析,需要从主菜单中选择:Analyze今General Linear Model 今 Univariate.。然后,将变量salbegin选入 “Dependent Variable(因 变量)”,将变量race和sex选入“Fixed Factor(s)(固定因子)”,将变量educ选入 “Covariate(s)(协变量)”。点击右边的按钮 “Options”,在“Descriptive (描述 性统计)”和“Homogeneity of variance tes(同方差检验)”前面打上勾。点击“Continue” 返回。为了获得变量race和sex的交互作用图,我们还需
15、要点击主界面右边的按钮“Plots”。分别将race和sex选入“Horizontal Axis”和 “Separate lines”中,然后点 击“Add”,并点击“Continue”返回。点击“OK”。我们得到以下结果:Descriptive StatisticsDependent Variable: SALBEGINSEXRACEMeanStd. DeviationN00$13351.2$3,064.9011761$11951.3$1,928.54740Total$13092.0$2,935.59921610$21593.8$9,677.7541941$16383.8$5,570.359
16、64Total$20301.4$9,111.781258Total0$17673.0$8,392.4193701$14678.9$5,008.239104Total$17016.1$7,870.638474Levenes Test of Equality of Error Variances aDependent Variable: SALBEGINFdf1df2Sig.16.1073470.000Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
17、a. Design: Intercept+EDUC+SEX+RACE+SEX * RACETests of Between-Subjects E ffectsDependent Variable: SALBEGINSourceType III Sum of SquaresdfMean SquareFSig.Corrected Model13895647512a43473911878105.760.000Intercept128446884.611284468853.910.049EDUC641467202316414672023195.289.000SEX1309946482113099464
18、8239.880.000RACE311484720.213114847209.483.002SEX * RACE11991060.949111991060.9.365.546Error1540525745446932847030.8Total1.6655E+11474Corrected Total29300904965473a. R Squared = .474 (Adjusted R Squared = .470)上述协方差分析结果表明,即使在控制了员工受教育年限(educ)作用的条件 下,员工性别(sex)与种族(race)的主效应仍然非常显著。不过,这两者之间的 交互作用不显著。下图说明
19、了种族对员工起薪的影响对于男性和女性来说是类似的,即员工性别 (sex)与种族(race)之间的交互作用不显著。snatLS kanmraM deram.Ls请继续使用Excel的“数据统计”功能完成以上各项任务, 具体操作可参考Exce统计中的应用。课堂练习。1. 请试着借助SPSS软件重新完成以前布置过的作业:/ 营销研究方法与应用P240,练习题2;/练习4 “方差分析”。2. 请先将定量变量“最近三个月内去洋快餐店消费次数”转换成定类变量(0-1次为 “几乎未去过”,2-5次为“有时会去”,6次以上为“经常去”),然后利用列联 表方法分别考察受访者的性别、文化程度、个人月收入等特征与“最近三个月内去 洋快餐店消费次数”之间的关系,并检验这些关系是否显著。如果我们还想了解受访 者的年龄与“最近三个月内去洋快餐店消费次数,之间的关系,是否能利用列联表的 方法?如果要利用列联表方法来考察它们之间的关系,应该怎样做呢?3. 利用协方差分析方法考察受访者的性别、文化程度、个人月收入和年龄对其“最近 三个月内去洋快餐店消费次数”(定量变量)的影响。