X2检验简单教程一学就会.docx

资源描述

《X2检验简单教程一学就会.docx》由会员分享，可在线阅读，更多相关《X2检验简单教程一学就会.docx（13页珍藏版）》请在三一办公上搜索。

1、X2检验X2检验是用途广泛的假设检验方法，它的原理是检验实际分布和理论分布的吻合程度。主要用途有：两个及以上样本率（或构成比）之间差异比较，推断两变量间有无相关关系。 X2检验类型有：四格表资料X2检验（用于两样本率的检验），行X列表X2检验（用于两个及两个以上样本率或构成比的检验），行X列列联表X2检验（用于计数资料的相关分析）。在 SPSS中，所有X2检验均用Crosstabs完成。界面说明【Rows框】用于选择行*列表中的行变量。【Columns框】用于选择行*列表中的列变量。【Layer框】Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不

2、同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入 Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中我们将进行详细的解释。Display clustered bar charts 复选框】显示重叠条图。【Suppress table复选框】禁止在结果中输出行*列表。Statistics 】按钮弹出Statistics对话框，用于定义所需计算的统计量。Chi-square复选框：计算X2值。Correlations复选框：计算行、列两变量的Pearson相关系数和Spearman等级相关系数。Norminal复选框组：

3、选择是否输出反映分类资料相关性的指标，很少使用。Contingency coefficient复选框：即列联系数，其值界于01之间；Phi and Cramers V复选框：这两者也是基于X2值的，Phi在四格表X2检验中界于-11之间，在R*C表X2检验中界于01之间；Cramers V则界于01之间；Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测应变量好，为0时表明自变量预测应变量差；Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量

4、的信息与前一变量无关。 Ordinal复选框组：选择是否输出反映有序分类资料相关性的指标，很少使用。Gamma复选框：界于01之间，所有观察实际数集中于左上角和右下角时，其值为1； Somersd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例； Kendalls tau-b复选框：界于-11之间；Kendalls tau-c复选框：界于-11之间；Eta复选框：计算Eta值，其平方值可认为是应变量受不同因素影响所致方差的比例；Kappa复选框：计算Kappa值，即内部一致性系数；Risk复选框：计算比数比OR值；McNemanr复选框:进行McNemanr检验，即常用的

5、配对计数资料的X2检验(一种非参检验);Cochrans and Mantel-Haenszel statistics 复选框：计算 X2 统计量(分层 X2，也有写为 X2M-HCMH的)，可在下方输出H0假设的OR值，默认为1。【Cells】按钮弹出Cells对话框，用于定义列联表单元格中需要计算的指标：Counts复选框组：是否输出实际观察数(Observed)和理论数(Expected)；Percentages复选框组：是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total)； Residuals复选框组：选择残差的显示方式，可以是实际数与理论数的差值(Unst

6、andardized)、标化后的差值(Standardized，实际数与理论数的差值除理论数)，或者由标准误确立的单元格残差(Adj. Standardized)；Crosstabs: Cell DisplayCount54 Observed!ExpectedPercentages r Row Column r TotalResidualsUnstandardicdStandardizedAdj. standardizedFormat 钮】用于选择行变量是升序还是降序排列。-Row OrderE scendingDescendingCrosstabs: Table Farat X分析实例一

7、、四格表资料的X2检验组另U愈合未愈合合计有效率（）呋喃硝胺5486287.09甲氰咪胍44206468.75合计982812677.78例6.1某医生用呋喃硝胺和甲氰咪胍治疗十二指肠溃疡，结果如下表，问两种药物治疗效果有无差别？【建立数据文件】由于此处给出的是频数表（大部分资料都以这种形式给出），因此在建立数据集时可以直接输入三个变量：行变量（分组变量）：变量名取“R”，变量值为1= “呋喃硝胺组”，2= “甲氰咪胍组” 列变量（疗效变量）：变量名取“C”，变量值为1= “愈合”，2= “未愈合” 指示每个格子中频数的变量：变量名取“F”，直接输入各个格子的频数。所建立的数据集如下表。然

8、后用Weight Cases对话框指定频数变量进行加权，最后调用Crosstabs过程进行X2检验。RCF1.001.0054.001.002.0044.002.001.008.002.002.0020.00【操作过程】Data=Weight Cases (对数据按频数进行加权)Weight Cases by单选框：选中Freqency Variable：选入 F单击OK钮Analyze=Descriptive Statistics=CrosstabsRows框：选入RColumns 框：CStatistics按钮：选中Chi-square复选框，单击Continue钮Cells.按钮：选中R

9、ow复选框，单击Continue钮单击OK钮【结果解释】上题分析结果如下：Case Processing SummaryCasesVa idMissingTotalNPercentNPercentNPercent组别*疗效126100.0%0.0%126100.0%首先是有效记录数和处理记录缺失值情况报告，可见126例均为有效值。组别 * 疗效 Cro sstabu latio n疗效Total愈合未愈合组别呋喃硝胺Count54862% within 组别87.1%12.9%100.0%甲氰米胍Count442064% within 组别68.8%31.3%100.0%TotalCount9

10、828126% within 组别77.8%22.2%100.0%上表为列出的四格表，其中加入变量值和变量值标签，看起来很清楚。Chi-Square TestsValuedfAsymp. Sig.(2-sided)Exact Sig. (2-sided)Exact Sig. (1-sided)Pearson Chi-Square6.133b1.013Continuity Correctiona5.1181.024Likelihood Ratio6.3041.012Fishers Exact Test.018.011Linear-by-Linear Association6.0841.014N

11、of Valid Cases126a. Computed only for a 2x2 tableb. 0 cells (.0%) have expected count less than 5. The minim um expected count is13.78.上表给出了一堆检验结果，从左到右为：检验统计量值(Value)、自由度皿。、双侧近似概率 (Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-sided)；从上到下为：Pearson卡方(Pearson Chi-Square即常用的卡方检验)、连续性

12、校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fishers 确切概率法(Fishers Exact Test)、线性相关的卡方值(Linear by Linear Association) 有效记录数 (N of Valid Cases)。另夕卜，Continuity Correction和Pearson卡方值处分别标注有a和b，表格下方为相应的注解：a.只为2*2表计算。b.0%个格子的期望频数小于5,最小的期望频数为13.78。因此，这里无须校正，直接采用第一行的检验结果，即X2=6.133, P=0.013

13、。因P=0.013，可以认为两种药物疗效有差异，结合样本率，可以认为呋喃硝胺有效率高于甲氰米胍。如何选用上面众多的统计结果令许多初学者头痛，实际上我们只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可，其余的对我们而言用处不大，可以视而不见。二、配对计数资料X2检验例6.2有28份痰液标本，每份分别接种在甲、乙两种培养基中，观察结核杆菌生长情况，结果如下表，试检验甲、乙培养基生长率有无差别。甲乙两种结核杆菌培养基的培养结果7径美苴乙培养基甲培养基甲培养基+合计+11920178合计121628【建立数据文件】输入三个变量：行变量(代表甲培养基)：变量名取“R”，变量值为1=

14、 “生长”，2= “未生长”列变量(代表甲培养基)：变量名取“C”，变量值为1= “生长”，2= “未生长”指示每个格子中频数的变量：变量名取“F”，直接输入各个格子的频数。所建立的数据集如下表。然后用Weight Cases对话框指定频数变量进行加权，最后调用Crosstabs过程进行X2检验。RCF1.001.0011.001.002.009.002.001.001.002.002.007.00【操作过程】1. Data=Weight Cases (对数据按频数进行加权)Weight Cases by单选框：选中Freqency Variable：选入 F单击OK钮2. Analyze=D

15、escriptive Statistics=CrosstabsRows框：选入RColumns 框：CStatistics按钮：选中Chi-square复选框（做成组X2检验，分析甲乙两培养基分析结果有无相关）选中McNemanr复选框:（做配对X2检验,分析甲乙培养基阳性率有无差异）单击 Continue 钮Cells.按钮：选中Row复选框，单击Continue钮单击OK钮【结果解释】Case Processing SummaryCasesVa idMissinaTotalNPercentNPercentNPercent甲培养基*乙培养基28100.0%0.0%28100.0%上表为有效

16、例数，缺失例数和总例数的情况,28例均有效.甲培养基*乙培养基Crosstabulatio nCount乙培养基Total+-甲培 +11920养基 -178Total121628上表输出配对四格表数据。Chi-Square TestsValuedfAsymp. Sig.(2-sided)Exact Sig. (2-sided)Exact Sig. (1-sided)Pearson Chi-Square4.215 b1.040Continuity Correctiona2.6581.103Likelihood Ratio4.6891.030Fishers Exact Test.088.048L

17、inear-by-LinearAssociation4.0641.044McNemar Test.021cN of Valid Cases28a. Computed only for a 2x2 tableb. 2 cells （50.0%） have expected count less than 5. The minimum expected count is 3.43.c. Binomial distribution used.上表为X2检验的结果。首先是成组X2检验，X2=4.21，P=0.040，可以认为甲乙两培养基的结果有相关性（即甲阳性，乙可能也阳性）。下面做了配对X2检验（

18、McNemar Test）, 用精确概率法计算，P=0.021 （双侧），可以认为甲乙两培养基阳性率差异有统计学意义。三、RXC表X2检验例6.3某市三个地区出生婴儿的畸形发生情况如下表，试比较这三个地区出生婴儿畸形率有无差异。地区畸形数无畸形数合计发生率（0）重污染区1143278339233.61一般市区444401034054710.95农村67827583428.03合计62551655228111.95这是3X2表资料，要进行3个样本率的比较。【建立数据文件】直接输入三个变量：行变量（分组变量）：变量名取“R”，变量值为1= “重污染区”，2= “一般市区”，“农村”。列变量（疗

19、效变量）：变量名取“C”，变量值为1= “畸形”，2= “非畸形”指示每个格子中频数的变量：变量名取“F”，直接输入各个格子的频数。所建立的数据集如下表。RCF111141232782144422401033167328275【操作过程】1. Data=Weight Cases （对数据按频数进行加权）Weight Cases by单选框：选中Freqency Variable：选入 F单击oK钮2. Analyze=Descriptive Statistics=CrosstabsRows框：选入RColumns 框：CStatistics按钮：选中Chi-square复选框单击 Contin

20、ue 钮Cells.按钮:选中Row复选框单击Continue钮单击OK钮【结果解释】Case Processing SummaryCasesValidMissinaTotalNPercentNPercentNPercent地区*疾病52281100.0%0.0%52281100.0%上表为有效例数，缺失例数和总例数的情况,52281例均有效。地区 * 疾病 Cro sstabu latio n疾病Total畸形非畸形地区重污染区Count11432783392% within 地区3.4%96.6%100.0%一般市区Count4444010340547% within 地区1.1%98.9

21、%100.0%农村Count6782758342% within 地区.8%99.2%100.0%TotalCount6255165652281% within 地区1.2%98.8%100.0%上表输出原始数据，并计算行百分数，重污染区畸形率为3.4%, 一般市区为1.1%, 农村为0.8%。Chi-Square TestsValuedfAsymp. Sig.(2-sided)Pearson Chi-Square148.984 a2.000Likelihood Ratio106.2442.000Linear-by-Linear Association84.7191.000N of Valid

22、 Cases52281a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 40.55.上上表为X2检验的结果，X2=148.984，自由度=2，P=0.000,可以认为这三个区新生儿畸形率差异有统计学意义，畸形率不同或不全相同。至于哪些地区有差别，那些地区没有差别，或都有差别，可进行X2分割。四、RXC列列联表资料X2检验列联表是指每个观察对象按两种属性交叉分组归类，而且每种属性的分类都是有序的，这样整理出的资料称双向有序列联表。配对计数资料就是一个2X2列联表。例6.4下表资料是4

23、92名不同期次矽肺患者其肺门密度级别的资料，试分析矽肺期次和肺门密度级别有无关系。不同期次矽肺患者肺门密度级别分布矽肺期次肺门密度级别合计+I4318814245I19672169m6175578合计50301141492该资料是一个3X3列联表。每个矽肺病人按矽肺的期次和胸片肺门密度的级别进行交叉分类归组。使用x2检验可以分析这两个属性之间有无相关性。【建立数据文件】直接输入三个变量：行变量（分组变量）：变量名取“R”，代表矽肺期次，变量值为1= “I期”，2= “II期”，3= “m期”。列变量（疗效变量）：变量名取“C”，代表肺门密度，变量值为1=+”，2=+”，3=+”。指示每个格

24、子中频数的变量：变量名取“F”，直接输入各个格子的频数。所建立的数据集如下表。RCF11431218813142112296237231632173355【操作过程】1. Data=Weight Cases （对数据按频数进行加权）Weight Cases by单选框：选中Freqency Variable：选入 F单击OK钮2. Analyze=Descriptive Statistics=CrosstabsRows框：选入RColumns 框：CStatistics 按钮：选中Chi-square复选框（做X2检验）选中Kendalls tau-b复选框（计算列联系数）选中Kappa复选框

25、（计算Kappa值，分析一致性）单击 Continue 钮Cells.按钮:选中Row复选框（计算行百分数）单击Continue钮单击OK钮【结果解释】Case Processing SummaryCasesValidMissingTotalNPercentNPercentNPercent矽肺期次*肺门密度级别492100.0%0.0%492100.0%上表为有效例数，缺失例数和总例数的情况,492例均有效。矽肺期次*肺门密度级别Cro sstabu latio n肺门密度级别Total+矽肺 I期 Count4318814245期次 within矽肺期次17.6%76.7%5.7%100.

26、0%期 Count19672169% within矽肺期次.6%56.8%42.6%100.0%皿期 Count6175578% within矽肺期次7.7%21.8%70.5%100.0%TotalCount50301141492% within矽肺期次10.2%61.2%28.7%100.0%上表输出原始数据，并计算行百分数。Chi-Square TestsValuedfAsymp. Sig.(2-sided)Pearson Chi-Square163.007 a4.000Likelihood Ratio184.7924.000Linear-by-Linear Association125

27、.5101.000N of Valid Cases492a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.93.上表结果为X2检验的结果，X2=163.007，自由度=4, P=0.000,可以认为矽肺期次和肺门密度有关，结合下表的列联系数(Kendalls tau-b)为0.498,两者呈正相关的关系，即矽肺期别越高，肺门密度级别也越高。Symmetric MeasuresValueAsymp.Std. ErroraApprox. TbApprox. Sig.Ordinal

28、by OrdinalKendalls tau-b.498.03413.680.000Measure of Agreement Kappa.127.0285.070.000N of Valid Cases492a. Not assuming the null hypothesis.b. Using the asymptotic standard error assuming the null hypothesis.上表输出Kendalls tau-b列联系数，其值为0.498，标准误为0.034,对列联系数检验的统计量为13.680，P=0.000。Kappa=0.127,其标准误=0.028，对Kappa值检验的统计量为5.070， P=0.000，可认为两者有一致性。根据经验KappaN0.75，表明两者一致性好；0.75KappaN 0.4,表明一致性一般；Kappa0.4表明一致性差。矽肺期次和肺门密度有一致性，但一致性差。

展开阅读全文