《《应用统计学》第10章:卡方检验和非参数检验.ppt》由会员分享,可在线阅读,更多相关《《应用统计学》第10章:卡方检验和非参数检验.ppt(41页珍藏版)》请在三一办公上搜索。
1、1,第10章 卡方检验和非参数检验,本章教学内容:总体分布的卡方检验;两个比例差异的卡方检验(独立样本);两个以上比例差异的卡方检验(独立样本);独立性的卡方检验;两个比例差异的McNEMAR检验(相关样本);两个独立总体的非参数检验(Wilcoxon秩和检验);单因素方差分析的非参数检验(Kruskal-Wallis秩检验),2,在总体分布形式已知条件下未知参数检验问题。但实际问题中总体的分布形式往往是未知的,虽然根据中心极限定理可以有相当的把握认为大多数经济变量服从或近似服从正态分布,但有时为了使所做的统计推断更具说服力,就需要对总体的分布形式进行检验。,非参数检验概述,3,检验的基本原理
2、:(1)设x1,x2,xn为总体X的一组样本观察值,F(x)为某一已知分布的分布函数,1,2,r是F(x)的r个待定参数,分别是r个参数的点估计,以分别代替1,2,r,作原假设 H0:总体X的分布函数为F(x)(2)将F(x)的定义域划分为k个互不相交的区间(ai,ai+1,i=1,2,k;记fi为样本观察值x1,x2,xn落在第个区间(ai,ai+1 内的频数,并记 Pi=Pai X ai+1=F(ai+1)-F(ai),10.1 总体分布的 检验,4,为以F(x)为分布函数的随机变量在区间(ai,ai+1 上取值的概率,i=1,2,k。则当H0为真时,由贝努里定理,当n充分大时,n次独立重
3、复试验结果的实际频率 与其概率Pi之间的差异并不显著,于是显然可以用统计量来刻画它们间总的差异的大小。其中nPi为理论频数。其中nPi为理论频数。当H0为真时,下式的值就应当较小,5,(3)可以证明,当n充分大时(n50),若H0为真,则统计量 近似服从(k-r-1)分布。其中r为分布F(x)中待定参数的个数。于是在给定显著性水平下,若 就拒绝H0,说明总体X的真实分布函数与F(x)间存在显著差异;否则接受H0,即可以认为两者在水平下并无显著差异。,6,某厂有一台经常需要维修的设备,该设备中有一个易损坏的重负荷轴承,设备故障的主要原因是轴承损坏。为了制定该设备的维修计划和维修预算,需要了解该轴
4、承的寿命分布。下表给出了100个轴承寿命的观察数据,问:该轴承寿命是否服从正态分布?,7,解:由表中数据,用Excel可求得=120.95,S2=40.582,故可作原假设 H0:X N(120,402)将实轴划分为如下7个互不相交的区间。用Excel的FREQUENCY函数计算数据落在各区间内的频数,用NORMDIST函数求出各理论频数nPi,统计量的计算如表所示。,8,9,取显著性水平=0.25(由于原假设H0是我们希望得到的结果,为使检验结论更具说服力,控制的重点应是与原假设H0不真而接受H0的概率,故 应取的稍大些)。本例中k=7,r=2,k r-1=4。故在水平=0.25下接受原假设
5、H0,即可认为该轴承的使用寿命服从N(120,402)分布。,10,10.2 比例差异的 检验(独立样本),1.两个比例差异的检验 前面,我们研究了两个比例的Z检验。这部分从不同角度检验数据。假设检验过程使用近似卡方()分布的检验数据。如果想要比较两个独立样本组的分类变量,可以做两维的列联表,显示每组的第1类(正向类,如“成功”,“是”等)和第2类(反向类,如“失败”,“否”等)出现的频数,如表所示,11,为了检验组一样本有关类1的比例是否等于第二组样本有关类1的比例,即假设检验为:原假设为两比例之间无显著差异:备择假设为两比例之间有差异:使用卡方()检验的基本思路为:(1)确定统计量为 其中
6、 为列联表中特定单元的观测频数,为列联表中特定单元的期望频数,因此这里的统计量 是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的所有单元格取和求得;,12,(2)可以证明上述统计量 近似服从自由度为1的 分布,因此在显著性水平下,决策规则为:如果,拒绝 否则,接受。为了计算任意单元期望频数,必须知道如果原假设为真,那么两项比例 和 是相同的,但要计算的每组样本比例有可能不同。每组的样本比例都可以作为参数 和 的估计值。将两个独立比例参数估计组合起来的统计量比各自独立的比例参数估计提供更多的信息。用 表示两组组合样本属于前面表中类1比例的估计值,则 就是两组组合样本中属于类2比例的估
7、计值。使用该表中的符号,的定义如下式所示。,13,如下表所示:,14,应用案例,有两家酒店,为了确定服务质量,要求顾客离开时做满意度调查,顾客可能会再次入住;根据调查数据得到的列联表如下表所示。问在显著性水平的情况下,顾客会回到酒店一和酒店二的比例是否相同。,15,16,17,18,2.两个以上比例差异的检验,19,统计量是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的2c个所有单元格取和求得 统计量 的自由度为,20,此时,,21,应用案例,如果有四家酒店,根据调查数据得到的列联表如下表所示。问在显著性水平的情况下,顾客会回到这四家酒店的比例是否相同。,22,23,24,独立性检
8、验,25,假设在上面例子中的酒店顾客满意度的调查中,向表明不会再次入住酒店的顾客问第二个问题。即不会再次入住的原因是什么,包括价格、位置、客房服务和其他等。调查结果的列联表如下表所示。试问在显著性水平的情况下,不会再次入住理由与酒店之间是否有联系?,26,27,28,29,30,10.3 两个相关样本比例差异检验,31,32,33,应用案例,34,35,10.4 两个独立总体的非参数分析:Wilcoxon秩和检验,如果样本容量很小,并且无法确定样本数据是否来自正态分布总体,此时可以选择以下两种方法来分析两独立总体均值间的区别:(1)用不依赖于正态总体假设的Wilcoxon秩和检验;(2)对于数据进行正态转换后使用合并方差的t检验。,36,37,38,应用案例,39,40,41,10.5 单因素方差分析的非参数分析:Kruskal-Wallis秩检验,如果第9章中单因素方差分析的F检验的正态分布假设条件不符合时,可以使用Kruskal-Wallis秩检验。Kruskal-Wallis秩检验是两独立总体Wilcoxon秩和检验的延伸,主要用于检验项独立总体是否有相等均值。Kruskal-Wallis秩检验和单因素方差分析的F检验一样有效。,