《非参数检验-χ2检验.ppt》由会员分享,可在线阅读,更多相关《非参数检验-χ2检验.ppt(70页珍藏版)》请在三一办公上搜索。
1、连续型资料,资 料,离散型资料,小样本,大样本,秩和,符号,2分布,2分布是由正态分布推导出来的一种连续型随机变量的概率分布,数学形式:,22(k),k是自由度,表示定义式独立变量的个数。,设随机变量x1,x2,xk相互独立且都服从正态分布N(,2)。将它们标准化转变为标准正态变量U1,U2,Uk,k个独立标准正态变量的平方和被定义为2分布的随机变量2。,2 检验(Chi-square test),对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。,一、2检验的定义,2检验,2检验与测量数据假设检验的区别,测量数据的假设检验
2、,其数据属于连续变量,而2检验的数据属于点计而来的间断变量。,测量数据所来自的总体要求呈正态分布,而2检验的数据所来自的总体分布是未知的。,测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验,而2 检验在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。,二、2检验与连续型资料假设检验的区别,三、2检验的用途,适合性检验,独立性检验,同质性检验,适合性检验(吻合度检验),是指对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。适合性检验的零假设是观测次数与理论次数之间无差异。其中理论次数的
3、计算一般是根据某种理论,按一定的概率通过样本即实际观测次数来计算。这里所说的某种理论,可能是经验规律,也可能是理论分布。确定理论次数是卡方检验的关键。,是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。,独立性检验,在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行2 检验。,同质性检验,2检验的原理与方法,2检验的基本原理,2检验统计量的基本形式,2值的特点,2检验的基本步骤,2检验的注意事项,2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。实际观测值与理论推算值之间
4、的偏离程度就决定其2值的大小。理论值与实际值之间偏差越大,2值就越大,越不符合;偏差越小,2值就越小,越趋于符合;若两值完全相等时,2值就为0,表明理论值完全符合。,理论值,观测值,2检验统计量的基本形式,O实际观察的频数(observational frequency),E无效假设下的期望频数(expectation frequency),k,876只羔羊性别调察,抽样误差?,实质性变化?,要回答这个问题,首先需要确定一个统计量,将其用来表示实际观测值与理论值偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。,判断实际观测值与理论值偏离的程度,最简单的办法是求出实际观测值与
5、理论值的差数。,羔羊性别观察值与理论值,由于差数之和正负相消,并不能反映实际观测值与理论值相差的大小。,0,为了弥补这一不足,可先将实际观测值与理论值的差数平方,即(OE)2,再用差数的平方除以相应的理论值,将之化为相对数,从而来反映(OE)2 的比重,最后将各组求和,这个总和就是2。,羔羊性别观测值与理论值,2,(OiEi)2,Ei,2值就等于各组观测值和理论值差的平方与理论值之比,再求其和。,2值的特点,可加性,非负值,随O和E而变化,2值与概率P成反比,2值越小,P值越大,说明实际值与理论值之差越小,样本分布与假设的理论分布越相一致;,2越大,P值越小,说明两者之差越大,样本分布与假设理
6、论分布越不一致。,观测值与理论值的差异由抽样误差引起,即观测值理论值。同时给出相就的备择假设HA:观测值与理论值的差值不等于0,即观测值理论值,一般确定为0.05或0.01,1.提出无效假设H0,2.确定显著水平,基本步骤,3.计算样本的2值,4.进行统计推断,2 2,P,2 2,P,1、任何一组的理论次数Ei 都必须大于5,如果Ei 5,则需要合并理论组或增大样本容量以满足Ei 5,2、在自由度1时,需进行连续性矫正,其矫正的2c为:,2c,(OiEi 0.5)2,Ei,2检验的注意事项,2分布是连续型变量的分布,每个不同的自由度都有一个相应的2分布曲线,所以其分布是一组曲线。,由于检验的对
7、象次数资料是间断性的,而2分布是连续型的,检验计算所得的2值只是近似地服从2分布,所以应用连续型的2分布的概率检验间断性资料所得的2值就有一定的偏差。,由次数资料算得的2均有偏大的趋势,即概率偏低。当df=1,尤其是小样本时,必须作连续性矫正。,比较观测数与理论数是否符合的假设检验。,适合性检验,定义,适合性检验,适合性检验的df由于受理论值的总和等于观测值总和这一条件的约束,故df=n-1,例:国际柑橘协会讨论会宣布,每12个柑橘中,有一个坏的是霉菌引起的。从某地区抽取的132个柑橘中霉菌变质的柑橘有4个,问该地区柑橘霉菌感染变质与上述比例是否有显著差异?按国际柑橘协会讨论会的统计结果,13
8、2个柑橘应该有132/12=11人是霉菌感染变质的,剩下的121个非变质柑橘,代入公式有:因此,在0.05和显著性水平下,该地区被霉菌感染柑橘变质比率与国际柑橘讨论会的统计结果有显著差异,显然根据比例可知该地区柑橘霉菌感染率小于国际柑橘协会讨论会的统计结果。,例:在英语四级考试中,某学生做对了80个四择一选择题中的28题,现在要判断该生是否是完全凭猜测做题假如该生完全凭猜测做题,那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题,代入公式有:因此,该生可能会做一些题。,鲤鱼遗传试验子代观测结果,(1)H0:鲤鱼体色子代分离符合3:1比率;HA:鲤鱼体色子代分离不
9、符合3:1比率;,例:鲤鱼体色子代分离是否符合3:1比率,(2)取显著水平0.05,(3)计算统计数2:,df=k-1=2-1=1,在无效假设H0正确的前提下,青灰色的理论数为:,Ei 16023/4=1201.5,红色理论数为:Ei 16021/4=400.5,需要连续性校正,=75.41+226.22301.63,(4)查2值表,当df=1时,20.05 3.84。现实得2c 301.6320.05,故应否定H0,接受HA,即认为鲤鱼体色子代分离不符合3:1比率。,对于资料组数多于两组的值,还可以通过下面简式进行计算:,Oi 第 i 组的实际观测数,pi 第 i 组的理论比率,n总次数,独
10、立性检验,独立性检验的定义,22 列联表的独立性检验,2列联表的独立性检验,r列联表的独立性检验,独立性检验(independence test),又叫列联表(contigency table)2检验,它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。,(一)22列联表的独立性检验,设A,B是一个随机试验中的两个事件,其中A可能出现r1、r2个结果,B可能出现c1、c2个结果,两因子相互作用形成4格数,分别以O11、O12、O21、O22表示,下表是22列联表的一般形式,22列联表的一般形式,检验步骤,1.提出无效假设H0:事件A和事件B无关,同时给出HA:事件A和事件B有关
11、联关系;,2.给出显著水平,3.依据H0,可以推算出理论数,计算2值,4.确定自由度,df=(r-1)(c-1),进行推断。,H0 HA,H0 HA,2 2,P,P,2 2,例:有一调查以研究消费者对“有机”食品和常规食品的态度在超级市场随机选择个男性和个女性消费者,问他们更偏爱哪类食品,结果如下,例:有一调查以研究消费者对“有机”食品和常规食品的态度在超级市场随机选择个男性和个女性消费者,问他们更偏爱哪类食品,结果如下,提出假设:性别与对食品的偏爱无关:性别与对食品的偏爱有关确定显著水平(0.05)检验计算统计推断0.053.84,由于c0.052,所以应该否定而接受,即性别与对食品的偏爱有
12、关,男女消费者对两类食品有不同的态度,给药方式与给药效果的22列联表,1.H0:给药方式与给药效果相互独立。,HA:给药方式与给药效果有关联。,2.给出显著水平0.05,3.根据H0,运用概率乘法法则:事件A与事件B同时出现的概率为:P(AB)=P(A)P(B),口服与有效同时出现的理论频率口服频率有效频率,即P(AB)=P(A)P(B)98/193 122/193,理论频数Ei理论频率总数,(98/193 122/193)193,(98 122)/193=61.95,即EijRiCj/T=行总数列总数/总数,E11=R1 C1/T=61.95 E12=R1 C2/T=36.05,E21=R2
13、 C1/T=60.05 E22=R2 C2/T=34.95,给药方式与给药效果的22列联表,计算2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1,故所计算的2值需进行连续性矫正:,4.查2表,当df=1时,20.05 3.841,而2c=0.863 20.05,P0.05,应接受H0,拒绝HA,说明给药方式与给药效果相互独立.,2 2列联表的2检验可利用以下简式而不必计算理论次数:,T/2为矫正数,(二)2c列联表的独立性检验,2c列联表的一般形式,由于df=(2-1)(c-1)2,故计算值时不需作连续性矫正,检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟
14、蚜的毒杀效果是否一致?,三种农药毒杀烟蚜的死亡情况,1.H0:对烟蚜毒杀效果与农药无关,农药类型间互相独立;HA:二者有关,2.取显著水平0.05,3.统计数的计算,理论值的计算:,2值的计算:,(4)查2值表,进行推断查2表,当df=(2-1)(3-1)=2时,20.05 5.99,现实得27.69420.05,则拒绝H0,接受HA,说明三种农药对烟蚜的毒杀效果不一致。,简便计算公式,(三)rc列联表的独立性检验,rc列联表是指r3、c 3的计数资料,上表是rc列联表的一般形式。df=(r-1)(c-1)1,故不需进行连续性矫正。,rc列联表的计算公式:,i=1,2,r j=1,2,c,某医
15、院用碘及治疗地方性甲状腺肿,不同年龄的治疗效果列于下表,试检验不同年龄的治疗效果有无差异?,不同年龄用碘剂治疗甲状腺肿效果比较,1.H0:治疗效果与年龄无关;HA:治疗效果与年龄有关,即不同年龄治疗效果不同;,2.给出显著水平0.01,3.计算统计数2:,4.查2表,当df=(3-1)(4-1)6时,20.0116.81,所以246.98820.01,P0.01,应拒绝H0,接受HA,说明治疗效果与年龄有关。,适合性检验,2检验,独立性检验,多组资料,22列联表,2c列联表,rc列联表,多组资料,22列联表,2c列联表,rc列联表,用两种食物配方作大白鼠实验之结果(心肌坏死面积的格子数),数据
16、特点,特点:质变和量变并存策略:如将资料视为定量资料呢?如完全按定性处理呢?怎么办?,定量分析,定量分析结果显示:两组心肌坏死面积差别无统计学意义。,定性分析,2=2.108,P=0.147。结果显示:两组心肌坏死率差异亦无统计学意义。,等级分析,结论:两组心肌坏死严重程度的等级分布差别有统计学意义,甲组心肌坏死程度较严重。,n 秩和 A组29 968 B组28 685 合计57 1653 H=2.119,P=0.0341。,成组设计两样本比较,如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。,