《卡方检验案例.ppt》由会员分享,可在线阅读,更多相关《卡方检验案例.ppt(89页珍藏版)》请在三一办公上搜索。
1、第九讲 卡方检验,一、检验的功能,1、适用资料计数数据 计数数据的统计分析,测量数据的统计 方法并不适用,卡方检验是较为常用的一 种方法。,拟合优度检验例 即通过实际调查与观察所得到的一批 数据,其次数分布是否服从理论上所假 定的某一概率分布;,2、卡方检验的功能,例,某广播电视台为了了解广大儿童对其提供的6种儿童节目的偏好(态度),随机抽取了300名儿童,问他们最喜欢哪一种节目(每人只能选一种),得到的数据如下表:,问:就调查的300人而言,他们对6个节目的 偏好(体现在人数)是否存在显著的差 异?,变量间的独立性检验,在对一批观察数据进行双向多项分类之后,这两个分类特征是独立无关的还是具有
2、连带相关的关系?,例,某师范大学为了了解广大师生对实行“中期选拨”制度的态度。曾以问卷调查的形式对977名低年级学生、790名高年级学生和764名教师进行随机调查,调查结果:,主要用于检验不同人群母总体在某一个变量上的反应是否有显著差异。例从四所幼儿园分别随机抽出6 岁儿童若 干,各自组成一个实验组,进行识记测 验。测验材料是红、绿、蓝三种颜色书 写的字母,以单位时间内的识记数量为 指标,结果如下。问四组数据是否可以 合并分析。,同质性检验,分组 红色字母 绿色字母 蓝色字母,1 24 17 192 15 12 93 20 20 144 10 25 28,理论基础是1899年皮尔逊的工作:在分
3、布拟合优度检验中,实际观察次数 与理论次数 之差的平方除以理论次数近似服从 分布,即:,二、检验的基本原理,-如果实际观察次数与理论次数的差异越 大,卡方检验的结果就越可能拒绝无差 虚无)假设接受备择假设。-理论次数 越大()拟合效果 越 好。,注,注 K 为类别的数目;是实际观察值;是理论(期待)次数;是约束条件数或利用观察数据时使 用的样本统计量的数目;,1、卡方检验基本公式,分类相互排斥,互不包容;观察值相互独立;期望次数的大小应大于或等于5(较好趋 近卡方分布的前提);,2、卡方检验的假设,自由度小时,必须,否则利用卡方 检验需要进行较正或用精确的分布 进行 检验;自由度大时,可以有少
4、许类别的理论次 数少于5;应用卡方检验时,应注意取样设计,保 证取样的代表性,否则依据卡方检验的 结果难以保证结论的科学性;,注,由于检验内容仅涉及一个变量多项分类的计数资料,也称one-way test)1、配合度检验的一般问题 即检验实际观察数据的分布与某理 论分布是否有显著的差别。,三、卡方检验应用一总体分布的拟合检 验(goodness of fit test 配合度检验),统计假设,2、检验过程,即:实际观察次数与某分布理论次数之间无差异;,依统计检验公式,计算实得卡方值,数理基础,作出统计决断,N:总数Pe:具体类别理论概率,例 某项民意测验,答案有同意、不置可否、不同意3种。调查
5、了48人,结果同意的24人,不置可否的人12人,不同意的12人,问持 这3种意见的人数是否存在显著差异?,3、离散型分布的拟合检验,对于连续随机变量的测量数据,有时不知道其总体分布,需要根据样本的次数分布的信息判断其是否服从某种确定的连续性分布。检验方法 将连续性的测量数据整理成次数分布表 画出相应的次数分布曲线;选择恰当的理论分布;进行拟合检验;,4、连续型分布拟合检验(例),例:下表是552名学生的身高次数分布,问这 些学生的身高分布是否符合正态分布?,169 170 2 15.38 3.03 0.00237 1 166 167 7 12.38 2.44 0.01201 7163 164
6、22 9.38 1.85 0.04260 24 0.167160 161 57 6.38 1.26 0.10888 60 0.150157 158 110 3.38 0.67 0.18858 104 0.471154 155 124 0.38 0.07 0.23544 130 0.277151 152 112-2.62-0.52 0.20615 114 0.035 148 149 80-5.62-1.11 0.12746 70 1.429145 146 25-8.62-1.70 0.05562 31 1.161142 143 8-11.62-2.29 0.01710 9 139 140 4-1
7、4.62-2.88 0.00396 2,身高 组中值 次数 离均差 Z分数 P 理论次数,0.125,0.09,其一、分组数据第1组理论次数的计算 注:=组上限的Z值-组下限的Z值其二、拟合指标卡方值的计算,分析,5、二项分类的配合度检验与比率显著检验,设总体比率为,且 时,结论:Z检验与卡方检验一致(样本比率p的真正分布是二项分布),男 生 女 生,某班有100名学生,男生的有42人,问男生的比率是否与0.5有显著差异?比率显著性检验,42 58 50 50,例,用卡方检验(配合度),当 且 时卡方检验公式,当期望次数小于5时,卡方检验需要校正,Yates建议的校正公式为:注:校正后的结果与
8、二项分布的结果一致,的连续性校正(二项分类数据或比率),1、功能(例)主要通过对两个或两个以上因素多项分 类的计数资料的分析,以研究两变量或多 个变量之间的关联性与依存性。,四、独立性检验(test of independence),独立性检验一般多采用表格的形式记录观察结果的计数资料,这种表格即列联表。RK 型列联表(二个因素:一个因素有R个分类,另一有K个分类),2、一个术语-列联表,RK 型列联表一般数据结构示意图,因素A,因素B,A1 A2.Aj AR,B1B2BiBk,统计假设 二因素或多因素之间是独立;(数据)理论次数的计算,3、独立性检验的一般问题与步骤,自由度的确定,卡方检验,
9、(公式1),统计推断,拒绝假设,接受假设,RC的卡方检验,允许有的格内的实计数 为0,最小的理论次数为0.5;RC 的卡方检验中最小的理论次数小于 0.5 或1(2 C列联表),一般采用合并 项目的方法,而不用连续性校正公式;,注,检验公式(各单元格理论次数5)自由度,因 素 A,分类1 分类2,因 素B,分类1 分类2,4、独立样本四格表 检验(列联表特例),注:独立样本四格表 检验相当于独立样本 比率差异的显著性检验。,随机抽取90名学生,将学生按性别与学习成绩进行分类,结果如下表,问男女大学生在学业成绩上是否有关联?或男女学生在成绩中等以上的比率是否存在显著差异?,学 业 水 平,中等以
10、上 中等以下,性别,男 女,例,Fisher精确概率检验(略)检验校正公式,5、四格表中若有单元格理论次数5,适用范围 分类变量数目多于2个 例:讨论性别(男、女)、婚姻(未 婚、已婚)及生活满意状况(刺 激、规律、无聊)之间的关系。,6、多重列联表分析,确定控制变量(分层变量)例性别分别对在控制变量的每一水平下的另两个 变量形成的列联表进行分析;例*男性婚姻状况与生活满意状态关联分析*女性婚姻状况与生活满意状态关联分析,多重列联表的分析,对于控制变量的不同水平所进行的单个列联 表分析、如果 值不显著,此时可以将各个水 平下的 值相加,以推测列联表中两 个变量总的 值,并进行关联性检定。,、当
11、控制变量各水平不一致时,必须单独就 个别关联表进行分析。,例,某通讯公司想了解大学生最喜欢的手机品 牌,随机抽取了72名大学生,调查性别、家庭经济水平以及最喜欢的手机品牌,来 探讨这三个变量之间的关系,调查结果如 下表。,甲 乙 丙,经 济 水 平,低,高,甲 乙 丙,手机品牌,性 男别 女,13 2 3 4 12 49 3 7 8 5 2,1、同质性检验(test for homogeneity)几个不同的因素之间是否有实质差异 判断几次重复实验的结果是否同质 单因素分类数据的同质性检验 样例,四、同质性检验与数据的合并,、计算各个样本组的 值和自由度;、累加各样本组 值,计算其总和及自由
12、度的总和;、将各个样本组原始数据按相应类合并,产生一个总的数据表,并计算这个总数 据表的 值和自由度;,检验过程,iv、计算各样本组的累计 值与总测试次数合 并获得的 值之差(异质性 值),其 自由度是各样本组累计自由度与合并后总 数据的自由度之差。异质性 值大于临界值,样本组间数据 异质;不显著,则同质;,1 24 17 192 15 12 93 20 20 144 10 25 28,例,从四所幼儿园分别随机抽出6 岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果:,问四组数据是否可以合并分析?,分组 红色字母 绿色字母
13、 蓝色字母,例对四所幼儿圆的幼儿颜色命名能力进行 了调查,调查材料是15种颜色的彩色铅 笔。凡能正确命名8种及8种以上颜色者 为达标,低于8 种颜色则未达标。调查 对象分4岁组、6岁组。四所幼儿园调查 的数据见下表。问这四所幼儿园儿童颜 色命名能力调查结果是否同质?颜色命 名与年龄是否有关联?,列联表形式的同质性检验,4岁组 49 70 1106岁组 64 39 103,小计 113 109 222,达标 未达标,年龄组,A幼儿园,B幼儿园,C幼儿园,D幼儿园,达标 未达标,达标 未达标,达标 未达标,达标 未达标,4岁组 11 18 10 15 15 20 13 17 6岁组 14 9 17
14、 10 16 9 17 11,年龄组,颜色命名能力,小计,合并数据表,变异原因,自由 P,合并 9.705 1.05,总计 9.809 4,(值分析结果),注,合并检验总表中儿童颜色命名能力与年龄是否有密切关联时,因自由度为1,值需进行连续性校正。,两格表与四格表数据合并方法(例)简单合并法 将所有数据合并成一个两格表或四 格表。适用条件:各分表同一分类特征比率接近;分表小样本齐性(值不显著),2、计数数据合并的方法,值相加法,男 17 5 22 0.773女 6 5 11 0.545 23 10 33,、例(四格表简单合并法),不同研究者的取样年龄,性别,某年龄特征,A 非A,A特征比率,3
15、4岁,56岁,男 12 3 15 0.800女 7 5 12 0.583 23 10 33,1.793 1.339,1.501 1.225,78岁,男 11 3 14 0.786女 11 9 20 0.550 22 12 34,2.004 1.416,A 非,男 女,51,43,64,30,94,相加法,、各分表 值相加;、df=分表的数目(各分表自由度之和)缺点:不太灵敏,分辨力较差,没有考 虑各分表的方向。例,值相加法,、适用条件 样本容量相差不超过2倍 表中各相应比率的取值在之间、检验公式(例),分表数目;,各分表 值的开方;,、适用条件 多个四格表中各相应 的 比率不在 间;各样本容量
16、相差较大(超过2倍),样本差异方向(即变化趋势)相同;,加权法,、显著性检验公式(例),分表数目;,第i个四格表的比率,第i个四格表边际次数,例 加权法计算及各符号含义,样本组 A 非A A的比率,男 女5 9,13 57 70 0.1857 3 23 26 0.115416 80 96 0.1667 0.0703 18.96 0.8333,男 女10 12,26 56 82 0.3171 11 29 40 0.275037 85 122 0.3033 0.0421 26.89 0.6967,男 女13 15,15 56 71 0.2113 2 27 29 0.069017 83 100 0.
17、1700 0.1423 20.59 0.8300,合并的条件 各分表同一分类特征比率接近;分表小样本齐性(值不显著)无关因素控制相同,各分表相应比率变 化相同;,RC表数据合并,、适用条件 各分表比率接近且各样本齐性,年龄组 A C 合计 计算结果,男 女15 19,12 13 7 32 18 17 23 58,合计 30 30 30,男 女20 25,15 17 9 41 26 23 31 79,合计 40 40 40,(0.3750),(0.4063),(0.2187),(0.3659),(0.4146),(0.2195),合并后结果,简单合并法,、例,合 并 后 结 果,性别 A B C
18、 合计 男 27 30 16 73 女 43 40 54 137合计 70 70 70 210,、具体操作 先计算各分表中单元格的理论次数,将各分表理论次数相加作为总表对应 格理论次数;然后将各分表的实计数合并,作为总 表的实计数;进行卡方检验df=(R-1)(K-1),分表理论次数合并法,、例,不同年级对学方法的评价,样本 评价 教法1 教法2 教法3 合计 计算结果,初一年级,很好 9(10.5)6(7.0)6(3.5)21一般 5(6.5)6(4.3)2(2.2)13不好 16(13.0)8(8.7)2(4.3)26合计 30 20 10 60,初二年级,很好 14(15.5)9(10.
19、3)(5.2)31一般 16(5.5)4(3.7)1(1.8)11不好 10(9.0)7(6.0)1(3.0)18合计 30 20 10 60,初三年级,很好 5(9.7)8(6.2)6(3.1)19一般 3(3.1)2(2.0)1(1.0)6不好 20(15.2)8(9.8)2(4.9)30合计 28 18 9 55,教法1 教法2 教法3,很好 一般 不好,(35.7),(23.5),(11.8),(15.1),(10),(5.0),(37.2),(24.5),(12.2),71,30,74,88,58,29,1、内涵 RC列联表经检验后A、B因素有关联,表明:A因素的多项分类中有一项分类
20、在B因 素多项分类中有关联;或B因素多项分类中至少有一项分类在 A因素多项分类中有关联。这种关联是体现在全体还是局部?对这 个问题的进一步分析即相关源的分析。,五、相关源的分析,将2 C分解成独立的22表进行分析,2、2C表的离析,离析过程、首先将2 C表分解为C-1个四格表,分解方法:据专业知识作直观分析,先将估计关联不明显的 四格表分解出来;,不显著,、逐项进行卡方检验,若关联不显著则合并,不显著,分解示意图,T1,T2,Tt,分解的22表 计算公式,注 t=1,2,.,C;N为总表中的总次数;为总表中边缘次数-横行;为总表中边缘次数-纵列;为总表中各格的实计数;,有一项调查结果如下,问二
21、因素是否有关联,并进一步分析相关源,即究竟在哪种态度上有显著差异?,拥护 不置可否 反对,男 女,30 30 30,30 60,N=90,例,解:分析思路,整体分析(23)结果:(关联不显著)是否在局部存在关联?开始离析,拥护 不置可否,男 女,T1,结果显示:在拥护与不置可否上并不存在性别差异,不反对 反对,男 女,T2,T1,结果显示:在反对与不反对上存在性别 明显的差异,总体上不存在关联,将2C列联表分解为非独立22表进行分析,主要应用领域 研究涉及几个对照组与控制组的比较例,评价 原方法(对照组)新法1 新法2 新法3 新法4,好 不好,8 12 21 15 19 22 18 9 15
22、 11,四格表,评价 原方法 新法1,好 不好,8 12 22 18,评价 原方法 新法2,好 不好,8 21 22 9,评价 原方法 新法3,好 不好,8 15 22 15,评价 原方法 新法4,好 不好,8 19 22 11,注:因为每一实验组都要与控制组比较,故此时各四格表间并不独立。,在保证总检验显著性水平为 时,各分解 四格表显著性水平的确定:,问题上例各分解四格表的显著性水平应是 多少?,有显著差异,有显著差异,因素A,因素B,A1 A2.Ai AR,B1B2BjBC,3、RC表的离析,先据专业知识或对总表的直观分析估计差 异不显著的项目分解出一个2C(或2 R)的列联表,进行 检
23、验,若不显著,则将此表合并成1C(或1R)表,再与 另一项组成新的2C(或2R)分解表。,离析过程(),合并示意图,因素A,因素B,A1 A2.Ai AR,B1B2,B1+B2B3,检验不显著,再进行新表的 检验,若差异不显著,再 以前面的方法合并数据,直至新的分解表 显著为止;若 检验差异显著时,再将该分解表2C(或2R)按2C表相关源分析过程进行 分析;,教育方法改革后的效果调查结果如下表,问教育方法与教育效果是否有关联?究竟与哪些年级有关联?,学生成绩 初一 初三 高一,效 果,显效,一般,无效,专业判断,例子,解:相关源离析过程,检验T1,显效一般无效,初三 高一,检验T2,初一 初三
24、及高一,显效一般无效,结果表明:初一与初三及高一年级在教育效果上存在显著差异。,540360320,322 898,1220,初一与初三及高一年级在教育效果上的分析,初一 初三及高一,显效一般无效,322 898,540360320,初一 初三及高一,一般无效,结论,差异不显著,合并数据。,继续分析,初一 初三及高一,显效一般无效,322 898,540360320,初一 初三及高一,一般无效,显效一般无效,初一 初三及高一,320 898,540680,结果:即教育效果与年级存在显著关 联,初一效果好,其三以上学 生效果不明显。,人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。,