《《比例检验》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《比例检验》PPT课件.ppt(46页珍藏版)》请在三一办公上搜索。
1、1,比例检验,2,比例检验适用条件,3,单比例检验(1-P);两比例检验(2-P);多比例检验X3(卡方分析)。,本节主要内容,4,比率检验,在实际工作中我们会遇到:1、所有的度量结果都是离散的,如“合格/不合格”、“良品/不良品”等。2、抽样检验的结果是“抽检100件产品,其中不合格的4件”,“抽检8片芯片,其中共发现22个瑕疵点”等3、去年公司顾客满意率为70%,今年调查了100个用户,其中75户表示满意,问今年的满意率比去年有提高吗?,5,处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。,离散数据分析的类型,6,过去,一产品的渗漏检测发现的缺陷品率为12%。现对过
2、程进行变更,从新过程抽样300个产品,其中30个是缺陷品。问在5%的显著性水平,过程是否得到了改善。,练习:,单比例检验,单比例检验:检验抽样对象比例与目标比例的差距,7,建立备选假设和零假设,新过程产生12%或更多的的缺陷品,新过程的缺陷品少于12%,确定显著水平:=0.05,单比例检验,8,计算P值:,统计 基本统计量 1-P单比率,单比例检验,9,单比例检验,本次操作要检验的比率,备折假设,10,单比率检验和置信区间 p=0.12 与 p 0.12 的检验样本 X N 样本 p 95%上限 精确 P 值 1 30 300 0.100000 0.133188 0.164,统计结论:,统计结
3、论:0.05,因此不能原假设。,业务结论:没有证据说明改善显著(需样本量计算)。,单比例检验,11,单比例检验,那么我们将样本量增大到10倍后,对于同样的检验问题其检验结果如何?,单比率检验和置信区间 p=0.12 与 p 0.12 的检验样本 X N 样本 p 95%上限 精确 P 值1 300 3000 0.100000 0.109467 0.000,12,单比例检验,从上例可以看出,要想从比率数据中获得显著性的结论,样本量要相当地大才有可能。,作单比率检验时,一定要注意样本量的重大作用,上例中,两组数据样本比率都是0.1,但30/300与300/3000是有不同含义。也就是说,统计学报相
4、信简单的百分数,一定要得知此百分数是从多大的样本量中获得的,13,单比例置信区间检验,单比率检验和置信区间 样本 X N 样本 p 95%置信区间 1 300 3000 0.100000(0.089492,0.111295),单比率检验和置信区间 样本 X N 样本 p 95%置信区间 1 30 300 0.100000(0.068492,0.139673),从上面的例子可以看出,样本量增大后,置信区间的宽度大大缩短了。,14,单比例样本量计算,15,功效和样本数量 单比率检验检验比率=0.12(与 0.12)Alpha=0.05备择比率 样本数量 目标功效 实际功效 0.1 3195 0.9
5、5 0.950040 0.1 2609 0.90 0.900111 0.1 2247 0.85 0.850161,单比例样本量计算,如果要证明改善有效,则要至少取样本量2247个。,16,双比率检验,17,了解这在两种工艺方法条件下产品不合格率是否有显著差别;采用某种服务方法是否比另一种服务方法让顾客满意率有显著提高,2比例检验:两个抽样对象比例是否存在差异,2比例检验,18,业务问题:分别从A、B两种工艺条件下随机500片花800片芯片,其中A种工艺条件下有340片为一等品,B种工艺条件下有350片为一等品。在=0.05下,检验A种工艺条件是否比B种工艺条件有较高的一等品率?,2比例检验(2
6、-P),19,1、建立备选假设和零假设,A种工艺条件下一等品率比B种工艺条件下一等品率低,A种工艺条件下一等品率比B种工艺条件下一等品率高,确定显著水平:=0.05,2比例检验(2-P),设P1、P2分别表示A、B两种工艺条件下的一等品率,H0:P1P2,H1:P1P2,20,2比例检验(2-P),2、样本量计算,双比率检验检验比率 1=比率 2(与)计算比率 2 的功效=0.4375Alpha=0.05 样本比率 1 数量 目标功效 实际功效 0.68 106 0.95 0.950049 0.68 87 0.90 0.903288 0.68 65 0.80 0.802332样本数量是指每个组
7、的。,21,3、进行检验,统计 基本统计量-P双比率,2比例检验(2-P),22,2比例检验(2-P),双比率检验和置信区间 样本 X N 样本 p1 340 500 0.6800002 350 800 0.437500差值=p(1)-p(2)差值估计:0.2425差值的 95%置信下限:0.197670差值=0(与 0)的检验:Z=8.90 P 值=0.000Fisher 精确检验:P 值=0.000,业务结论:A种工艺条件比B种工艺条件有较高的一等品率,统计结论:P0.05,选择备择假设,23,2比例检验(2-P),同种产品有甲、乙两种品牌。随机抽取800位及600位各自购买了甲乙两种品牌
8、顾客,其中甲品牌有340位顾客对其产品质量表示满意,乙品牌有180位顾客对其产品质量表示满意。在=0.05下,检验甲种品牌的顾客满意率比乙种品牌的顾客满意率高5%以上。,1、建立假设P1、P2分别表示甲乙两种品牌的顾客满意率H0:P1-P20.05H1:P1-P20.05,24,2比例检验(2-P),2、样本量计算,双比率检验检验比率 1=比率 2(与)计算比率 2 的功效=0.3Alpha=0.05 样本比率 1 数量 目标功效 实际功效 0.425 382 0.95 0.950287 0.425 309 0.90 0.900252 0.425 231 0.80 0.800022样本数量是指
9、每个组的。,25,2比例检验(2-P),3、检验,26,2比例检验(2-P),双比率检验和置信区间 样本 X N 样本 p1 340 800 0.4250002 180 600 0.300000差值=p(1)-p(2)差值估计:0.125差值的 95%置信下限:0.0828883差值=0.05(与 0.05)的检验:Z=2.93 P 值=0.002,统计结论:P=0.0020.05拒绝原假设业务结论:在=0.05水平下,可以断言甲种品牌的顾客满意率比乙种品牌的顾客满意率高5%以上。,27,卡方检验,28,卡方(2)分布,卡方分布与正态分布不同,它的分布函数图像不左右对称而是呈现右偏的。,2分布
10、是一族分布,其分布图与自由度有关,29,与正态分布不同,卡方分布是一种不对称分布。自由度为1或2时与自由度大于3时分布图呈现不同的形状。随着自由度的增加,其图像接近于正态分布的图像。与大多数分布相同,卡方分布也有卡方分布表,求得卡方值后,依照不同自由度,找出P值的临界值,当卡方值大于临界值即达统计显著意义,如果卡方值小于临界值即不达统计显著意义。,卡方(2)分布,30,卡方(2)检验的本质,将总体分成K类,每部分的比例分别为p1,p2,p3pk。假设在观察到的样本中,各类别的比率恰巧为p1,p2,p3pk。则抽取样本数为n的样本,在假设为真的情况下,我们可以先算出样本在各类别的预期分布,再与实
11、际上观察到的样本分布来比较,我们用英国统计学家Karl Pearson所发明的卡方(2,chi-square)检验来进行统计检定。,31,2检验用来对不同类别的目标量之间是否存在显著差异进行检验,也可以用来判断两组或多组的资料是否相关联也称为拟合度检验,即检验观察数据是否契合理论数据2检验是非参数检验的一种主要用于处理定类变量数据通常是频数,卡方(2)检验的本质,32,不用对参数进行假设 对分布较少有要求,也叫distribution-free tests 用于类别/顺序型数据 没有参数检验敏感,效力低因此在二者都可用时,总是用参数检验,卡方(2)检验的本质,33,列联表(contingenc
12、y table),列联表是由两个以上的变量进行交叉分类的频数分布表。,行数一般用字母r表示,列数用c表示。上面就是一个22的列联表。,34,观察频数fo和期望频数fe观察值的分布和期望值的分布,35,计算期望频数,第一步:算出行合计和列合计,36,第二步:代入下面公式算出期望频数。,计算期望频数,如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理,37,自由度,自由度(degree of freedom),是指可以自由取值的数据的个数。对rc维的列联表数据,自由度的计算公式为,自由度=(行数1)(列数1)=(r1)(c1),38,用fo
13、表示观察值频数(observed frequency),用fe表示期望值频数(expected frequency),则2检验统计量可以写为:,从上面的公式可以看出,2统计量度量的就是观察频数偏离期望频数的程度!,卡方检验统计量的计算,39,卡方检验的分析,从2统计量的计算公式看出,它有这样几个特征20,它是几个平方值的和2统计量的分布与自由度有关2统计量描述了观察值与期望值的接近程度。如果两者越接近,即fo-fe的绝对值越小,计算出的2的值越小;反之,则计算出的2的值越大。2检验正是运用2的计算结果与2分布中的临界值进行比较,做出对原假设接受或是拒绝的判断。,40,卡方检验的应用,某公司生产
14、的电子产品享有盛誉,现一种主要元件可从三个供货商采购,元件质量可分为两个等级,从一批元件中随机抽取1000件进行检验,结果如下表所示:,为了优化采购流程,现想知道各个供货商和质量等级间是否存在联系?,卡方检验:当需要验证是否存在差异的因子数大于等 于三的时候,用卡方检验,41,卡方检验的应用,1、建立假设 零假设 H0:供应商和元件等级之间是独立的 备择假设 H1:供应商和元件等级之间不独立,显著性水平:=0.05,自由度=(r-1)(c-1)=(3-1)(2-1)=2,42,卡方检验的应用,2、进行检验统计表格卡方检验,43,卡方检验的应用,卡方检验:一级品,二级品 在观测计数下方给出的是期
15、望计数在期望计数下方给出的是卡方贡献 一级品 二级品 合计 1 110 176 286 137.28 148.72 5.421 5.004 2 205 187 392 188.16 203.84 1.507 1.391 3 165 157 322 154.56 167.44 0.705 0.651合计 480 520 1000卡方=14.680,DF=2,P 值=0.001,期望值频数,观测值频数,卡方值,统计结论:P=0.0010.05拒绝原假设,业务结论:供货商和元件等级之间存在联系。元件的质量受供货商的影响!,44,卡方检验的应用,汽车销售商记录了销售303辆汽车的各项状况,包括:性别、婚姻状况、年龄、购车者国别、汽车尺寸、汽车车型。见TBL-汽车销售试分析销售“车型”与购买者性别有关吗?与购买者婚姻状况、年龄、国别有关吗?,例,45,卡方检验的应用,46,卡方检验举例,本钢热轧板销售给各分公司开卷时,剪切设备都不一样,抽取七家进行检验,验证是否对横折印有影响。,X2检验,