《表资料分析》PPT课件.ppt

资源描述

《《表资料分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《表资料分析》PPT课件.ppt（75页珍藏版）》请在三一办公上搜索。

1、第八章 RC表资料的分析,分类资料时常将分类频数排成R行C列的表格方式，称RC列联表(contingency table)，简称RC表RC表资料常用2检验。本章我们从2统计量的分布讲起，介绍多种RC表资料的检验方法。,预备知识 2分布,定义如果u1，u2，.，un是n个相互独立的标准正态变量，则称随机变量,服从自由度为df=n的2分布,2=u12+u22+.+un2,2 分布曲线偏向左边，随自由度df的不同而不同，自由度越小越偏，自由度相当大时，2分布曲线接近正态分布曲线。,2(df)表示水准的2界值，P(2 2(df)=。本书附表列出了按P(22(df)=编制的单侧2界值表。,例如，直接查

2、附表，得单侧2界值20.05(5)=11.07，它表示自由度df=5时，2值大于11.07的概率为0.05，即 P(211.07)=0.05.显然，P(211.07)=0.95。,2分布的常用性质,2分布具有可加性;常用作某些统计量分布的近似,例如，当处理组较多，各处理组样本含量较大时，Kruskal Wallis法的H分布可用2分布来近似。医学中2检验是常用的检验方法之一。,基本思想是衡量实际频数和理论频数之间的偏离度。检验统计量的意义和算法可用基本公式来说明：,8.2,Arc表示RC表中第 r 行(r=1，2，R)第c列(c=1，2，C)位置上的实际频数，简称实际数A；Trc表示与Arc相

3、应(同位置)的理论频数(频数期望值），简称理论数T。,一、2 检验的基本思想,第一节四格表的Pearson 2 检验,【例8.1】收治367例胃脘痛患者，随机分成两组，分别用新中药胃金丹和西药治疗，结果如表，两种药物疗效有无差别?,分析,胃金丹组占据部分,两组合计有效率,0.73400.9176=0.6735,假设两种药物的疗效相同，那么我们期望全部观察值中胃金丹的理论有效率是67.35%总的观察数是376，而胃金丹的期望有效数就是,0.6735 376=253.24,理论数是根据检验假设 H0 来确定的，H0 为比较的各组处理效果相同，均等于合计的处理效果，据此推出第 r 行第c 列位置上

4、理论数的计算公式,对例8.1 H0：即两组疗效相同；H1：即两疗效不相同。=0.05。,二、四格表的 2 检验,=56.77,按自由度df=1查附表2，20.05(1)=3.84，因220.05(1)，P0.05，按=0.05水准拒绝H0，认为两药治愈率不同。,n40，每个格子都有T5，用一般卡方检验,【SPSS操作】以组别、疗效及例数为变量名，建立数据文件L8-1.sav,点dataWeight Cases,对数据文件L8-1进行加权处理.即告诉软件,同一组中的例数是频数,如果不进行加权处理,软件不进行卡方检验,点Weight Cases By,把例数送Frequency,Analyze D

5、escriptive Statistics Crosstable，,选组别到Rows框，疗效到Column框.,Statistics，选 Chi-Square、Contingency coefficient，Continue。OK。,n=37640，所有理论频数5，Pearson 2=56.772，P=0.000，拒绝H0，认为两药治愈率不同,【例8.2】某中医院将71例血栓闭塞性脉管炎期23级患者随机分成甲、乙两组，甲组用活血温经汤，乙组用通塞脉1号治疗，结果如表10-4。问两药的疗效有无差别？,解 H0：两组疗效相同；H1：两组疗效不同,n40，最小理论数T12 933/714.18,因有

6、理论数1T5，用校正卡方,本例若不用校正2，则2=4.06，查2界值表，得P0.05，可见未校正的P值偏低，将得出相反的结论,2四格表2检验的注意事项,自由度为1的四格表，在总样本例数n40，有理论频数1T5时，用不校正的2值查2界值表，所得概率偏低，误差较大，必须校正,用专有公式计算2值，要先计算最小理论数。自由度df1时，u20.05/220.05(1)（即1.962 3.84），u20.01/220.01(1)（即2.57582 6.63），故n较大时的两样本率比较，既可用u检验，又可用2检验,分类资料在划分阳性、阴性时信息量损失太大，而且划分界限不同，得出的统计结论也可能不同。在资料的

7、划分归类时，必须结合专业知识，具备充分的理由才能确定某一划分界限。,第二节四格表确切概率法,四格表确切概率法(exact probabilities for 22 table)系费歇(Fisher)利用超几何分布于1934年提出。四格表资料：当总样本含量n40时；用其它假设检验方法所得概率接近检验水准时；四格表中有实际频数为0或有理论数T1时，都无法用2检验，常用四格表确切概率法作为四格表2检验应用上的补充。,四格表资料确切概率的计算公式为：,【例8.3】研究红花改善周围血管闭塞性病变患者的皮肤微循环状况，以安慰剂作对照，将38个病例随机分到2组，结果如表，试分析该药的疗效,H0：某药无效，

8、H1：某药有效。,样本含量n=37 40，宜采用四格表确切概率法。双侧确切概率P=0.001，单侧确切概率P=0.001，故拒绝H0，认为该药能够改善周围血管闭塞性病变患者的皮肤微循环状况。,【SPSS操作】四格表数据合为一列输入为变量x的值，变量m、n以值1、2分别代表数据所在的行或列。选择DataWeight Cases命令，把x选入Frequency Variable框进行加权。,选择AnalyzeDescriptive Statistics Crosstable命令，选m进入Rowss框，n进入Columns 框，击Statistics按钮，指定Chi-squarer，击Continu

9、eOK按钮，得到结果.,使用SPSS软件，以处理、疗效及例数为变量名，建立2行2列如图10-6的数据文件,选择AnalyzeDescriptive StatisticsCrosstable,选处理组进入Rowss框，安慰组进入Columns 框，击Statistics按钮，,指定Chi-squarer，击Continue,点OK按钮.,得到,由n3840，宜用Fishers Exact Test。双侧确切概率P0.003，单侧确切概率P0.001，故拒绝H0，认为该药能够改善周围血管闭塞性病变患者的皮肤微循环状况,第三节 RC表的统计分析,有双向无序RC表、单向有序RC表、双向有序属性不同的R

10、C表、双向有序且属性相同的R C表。不同的RC表，所使用的统计检验方法见图8-3.,一、双向无序RC表,双向无序RC表，满足2检验条件（表中没有小于5的理论频数，总例数很大）时，用2检验法，按下式计算Pearson卡方检验统计量2值.,【例8.4】某医院将用三种治疗方法治疗199例消化性溃疡住院病人，资料如表10-10。为避免中医不同证型对疗效比较的影响，试分析三种疗法治疗的病人按中医分型构成比有无差别。,H0：三组的中医分型构成比相同；H1：三组的中医分型构成比不同。=0.05 H0：三组的中医分型构成比相同；H1：三组的中医分型构成比不同。=0.05,以自由度df(R1)(C1)(31)(

11、41)6查2界值表，20.10(6)10.64，P0.10。,如使用SPSS统计软件：建立数据文件L8.4.sav以后，操作过程和界面都同例8.1。,按0.05水准不拒绝H0，可认为三组病人中医各型的构成比相同。,注意事项：1 RC表2检验对理论数T要求不宜有20%以上格子的T5，不能有T1。理论数太小时的处理办法：最好增加样本例数以增大理论数。删去理论数太小的行和列。将太小理论数所在行或列的实际数与性质相近的邻行邻列合并，使重新计算的理论数增大。须知，后两法可能会损失信息，也会损害样本的随机性，不同的合并方式有可能影响推断结论，故不宜作为常规方法。不满足2检验条件的RC表资料，最好计算RC表

12、的确切概率(Monte Carlo（确切概率：蒙特卡洛法）)。,2RC表的确切概率法计算概率的步骤：（1）确定一个统计量，例如2值，计算原表的2值记为02；（2）列出边际和固定的全部可能的RC表，对于每一个表计算该统计量（比如2值）及其P值。（3）凡统计量（比如2值）大于原始表的统计量值（即202）的那些RC表的P值之和，即为确切概率P值。,用SPSS,在数据编辑窗建立配伍格式数据文件以后,AnalyzeDsecriptive statisticCrosstabs,选择“行变量”进入Rows,选择“列变量”进入Columns。Statistics,选 Chi-squareContinue Ex

13、act:Monte Carlo:Continue;OK。即输出确切概率P值。,2.实验分组变量无序，指标变量有序时，宜用秩和或检验Ridit分析。但当实验分组变量有序，指标分组变量无序时，仍可用双向无序RC表分析方法,3.多个样本率或构成比的2检验拒绝H0时，只能认为各总体率或构成比之间总的来说有差别，不能说明它们彼此间都有差别，可进一步用2分割法作多个样本率间的“两两比较”。,处理双向有序且属性不同的RC表资料时，常常希望弄清两有序变量之间是否存在线性相关关系或是否存在线性变化趋势，故需选用定性资料的相关分析或线性趋势检验。,例8.7 就表8-7资料，推断老年环的混浊度与眼底动脉硬化级别是否

14、有关联？如有关联，关系的密切程度如何？,3、双向有序且属性不同的RC表,表8-11 不同级别眼底动脉硬化患者老年环混浊程度分布,注：()内为小于5的理论数。,关联性分析H0：老年环的混浊度与眼底动脉硬化级别无关；H1：老年环的混浊度与眼底动脉硬化级别有关。0.05。可用秩和检验或RIDIT分析,差异性检验 H0：眼底动脉不同硬化级别的混浊度差异，H1：眼底动脉不同硬化级别的混浊度差异，,线性趋势检验H0：老年环的混浊度与眼底动脉硬化级别无线性关系；H1：老年环的混浊度与眼底动脉硬化级别有线性关系。0.05。,使用SPSS统计软件：以混浊程度（标签老年环的混浊程度）、硬化级别（标签眼底动脉硬化级

15、别）及例数为变量名，建立25行3列的数据文件L8-5A.sav，,Analyze，Descriptive Statistics，Crosstable，选硬化级别到Rows框，混浊程度到Column框；,对例数加权,Statistics，选Chi-square、Correlations、Gamma；Continue；OK,小于5的格子有9个,超过20%,故合并b与,建立L8-5B.SAV.仿照上述重新分析如下:,可认为老年环混浊度与眼底动脉硬化级别有线性关系,从输出的对称性度量可知,Spearman等级相关系数=0.212,P=0.001,故拒绝H0,认为老年环混浊度与眼底动脉硬化级别有正相关关

16、系.,4.双向有序属性相同的列联表资料分析,同一批血样用两种方法都按k种分类进行检测的结果；同一医生对同一批病理切片标本的k种类别在两个不同时间评判等，都可归纳整理成形如表8-8的kk方表。,第四节 McNemar检验与Kappa检验,McNemar检验用来检验配对方表中关于对角线两侧的计数值是否对称，如果不对称，则表示两个评估结果不一致的部分在一个方向的改变较另一个大。其检验假设为：H0：xijxji，对于所有的ij，方表中关于对角线两侧的计数值对称，即两者吻合,dfk(k1)/2,一.McNemar检验,1.意义,2.配对四格表资料的McNemar检验（优势性检验）,可进行独立性检验（Pe

17、arson 2检验）、优势性检验（McNemar检验）、一致性检验（Kappa检验）。,配对四格表资料优势性检验的H0为行与列效果相同，则位于b、c两个位置上的样本数应近似相等，这样就可不考虑两法相同的例数（a与d），只比较两法结果相异的例数（b与c），若行属性优于列属性为b例，列属性优于行属性为c例，则在假设b、c两者来自的总体例数BC条件下，理论频数T可用（b+c）/2来估计，在排除了抽样误差的影响后，如果b、c两个位置上的频数之间的差异具有统计学意义，则说明其中一种方法的效果优于另一种。,McNemar检验的统计量：b+c40时：2(b-c)2(b+c)，df1（8-12）b+c40时，

18、2(|b-c|-1)2(b+c)，df1（8-13）b、c为两法结果相异的例数，分子中的1为连续性校正数。,【例8-6】用表8-9B资料检验：新法和老法是否独立：新法是否优于老法。检验两法是否独立，采用独立性检验，如有关联，可进而确定关系的密切程度。,H0：两法的检验结果相互独立(无关)；H1：两法的检验结果有关联（不独立）。=0.05。,可认为两检验结果有关联。,12.84，P0.005,按式8-8计算列联系数，Pearson列联系数C=0.45,检验新法是否优于老法，采用配对四格表McNemar检验，因b+c1340：2=(|2-11|-1)2(2+11)4.92，P0.05,可认为新法优

19、于老法,3.左右两侧比较的检验,【例8.7】某医院神经科对近三年收治的96例内囊出血病人的发生部位进行分析，发生于左侧者55例，右侧者4l例，试问内囊出血是否好发在左侧?,H0：左发生率右发生率，H 1：左发生率右发生率。,2(a-b)2(a+b)(55-41)2(55+41)=2.042,P0.1,不能认为内囊出血左右两侧发生率有差别。,二.Kappa检验,1Kappa检验的意义,医药工作检查同一患者、同一X片、同一病理切片可能判断不一致。也称一致性检验.,PA为实际观察到的一致率；,Pe为期望一致率(期望率),两次检查结果由于偶然机会所造成一致率,2.Kappa统计量,估计其抽样误差大小的

20、统计量为Kappa值的标准误，用符号sK表示,K值在1至1之间，见右表说明,3Kappa值的标准误,4Kappa值的假设检验,实际资料计算K值是样本统计量，存在抽样误差，H0:总体Kappa=0（即观察的一致性是由于偶然机会造成的）。当观察例数较多时，可用u检验，检验统计量为：,【例8.8】对100例肠结核患者同时作临床诊断和X线诊断，推断两种方法诊断结果是否吻合；推断两种方法诊断结果是否一致；推断两种方法诊断结果间有无相关关系。,（1）推断两法诊断结果是否相同用McNemar检验H0：经验诊断和X线诊断的结果相同；H1：X线诊断的检出率较高。=0.05。,df=k(k-1)/2=3(3-1)

21、/23，查表得20.05(3)7.81，P0.05，故拒绝H0，可认为X线诊断检出率高于经验诊断。,【SPSS操作】用X线诊断、临床诊断、例数为变量名，建立3列9行的数据文件L8-8sav，进行McNemar检验和Kappa检验,Analyze Descriptive Statistics Crosstabs，选X线诊断进Rows框，临床诊断进Columns框；Statistics，选Kappa、McNemar，Continue；OK。,输出结果2=10.135 P=0.017，拒绝H0，认为可以认为两医生读片诊断结果不吻合,（2）一致性(Kappa)检验：,H0：总体K=0，两者不一致；H1

22、：两者一致.=0.05,Kappa检验结果：u=2.885，近似概率P=0.004，故可认为两种方法诊断结果一致。,【例8.9】用168个血吸虫病肝纤维化病例进行回代检验，结果专家诊断为气虚血瘀的78例，判别模型诊断为气虚血瘀的82例，判别模型和专家诊断同诊断为气虚血瘀的72例。,McNemar检验 H0：两种诊断结果吻合；卡方=0.5625、P0.4533，可以认为两诊断结果吻合。,Kappa检验 H0：两种诊断结果不一致；Kappa值=0.8092，u=10.5004、P 0.0000，可认为两种方法诊断结果一致。,第五节多个样本率的两两比较,多个样本率（或构成比）的2检验，结论为拒绝H0

23、时，只能认为各总体率（或构成比）之间总的来说有差别，常需要进一步作“多重比较”，本节介绍用Bonferroni法调整检验水准作两两比较。,1多个实验组与同一对照组比较,2 检验拒绝H0时，用四格表进行两两比较不能再用原来的检验水准0.05作为是否拒绝H0的标准。需要重新规定检验水准,【例8.10】筛选治疗精神抑郁症的药物，均与同一安慰剂作对照，问各种药物的效果,本例2=12.05，P 0.01。=0.05水准认为不同药物治疗抑郁症的效果有不同,（1）药物1与安慰剂比较：2=1.20，P0.25，按=0.017不拒绝H0，认为药物1治疗无效。,（3）药物3与安慰剂比较：2=3.45，P0.05，

24、按=0.017水准不拒绝H0，认为药物3治疗抑郁症无效。,（2）药物2与安慰剂比较：2=11.28，P0.005，按=0.017水准拒绝H0，可以认为2号药物治疗有效。,H0：药物与安慰剂效果同,=0.05/(41)=0.017,22k表k组间的两两比较,需要对检验水准进行估计,四处理的两两比较进行4(41)/26次四格表的2检验，故检验水准0.05/60.0083,dfk1,第六节同一样本多个构成比的比较,k为构成比的个数；总样本含量n=n1+n2+nk,“两两比较”的统计检验公式,【例8.11】某医院对332例甲状腺患者进行手术针刺麻醉，试检验针麻效果的等级构成比是否相等,解 H0:总体

25、等级构成比相等,df3，P0.01，按0.01水准拒绝H0，认为针麻效果的总体等级构成比之间有差别。,需要进行6次四格表的2检验。故0.05时，两两比较的检验水准为0.05/60.0083，20.00836.9676,在总的0.05水准上，级和级、级和级，构成比的差别无统计学意义；而级和级、级和级、级和级、级和级，构成比的差别有统计学意义,【SPSS操作】以针麻效果和例数为变量名数据文件L8-11sav，进行同一样本中两个构成比比较,Analyze，Nonparametric tests，Chi-square test,将针麻效果选入Test Variable List框，Continue。O

26、K。,主要输出结果：如图8-7，2=173.325，自由度df=3，近似P值=0.000，在=0.05水准上，针麻效果四个等级构成比差别有统计学意义。,第七节计数资料比较时样本含量估计,1.估计总体率时样本含量的估算,当n(1-)5，或至少n和n(1-)都大于5时,p-=Z/2,n=(1-)(z/2)2,【例8-12】用针刺夹脊穴治疗脑卒中后痉挛性瘫痪患者显效率为 46.67%。采用单纯随机抽样方法进行了解，要求容许误差10，即要求p-10，=0.05时，应调查多少例？,n=0.4667(1-0.4667)(1.960.1)295.61。至少需调查97例。,当=0.5时，(1-)有最大值0.

27、25，由式8-26得到：,n=0.25(z/2)2（8-27）,【例8-13】欲对首乌合剂治疗喘息虚寒型慢性支气管炎有效率进行调查，要求容许误差控制在10，即要求p-10时，取0.05，估计所需观察样本例数。,按=0.5处理。按式8-26：n=0.25(1.96/0.10)2=96.04,至少需观察97例。,当接近于0或1时,2.样本率与总体率比较时样本含量的估算,双侧,单侧,【例8-14】已知传统针刺法治疗脑卒中后痉挛性瘫痪患者显效率为23.33%。希望了解改进用针刺夹脊穴治疗的显效率是否如某医生所说提高到了 46.67%，取0.05，=0.1，应调查多少例？,【DPS操作】试验设计样本含量

28、估计单侧检验样本和总体率差异所需样本含量，检验水准0.05、第2类错误0.10、总体率p0为23.33、样本率p1为46.67，确定。得N=34（例）。,3.完全随机设计两样本率比较时样本含量估计以n1=n2=n计算,单侧检验时改z/2为z。下同。,【例8-14】用旧药治疗慢性胃炎的近控率为30%，现试验新药疗效，要求新药的近控率必须达到50%才能推广使用，取0.05，0.10。估计每组所需观察病例数。,p130%，p250%，0.05，p(0.30.5)/204。双侧检验时，按式8-30：n=124.04,共需250个病例,单侧检验时，每组需101例，共需202个病例。,【DPS操作】试验

29、设计样本含量估计两总体率比较时样本含量，弹出对话框，水准用0.05、第2类错误0.10、总体1的率p1改用30.00、总体2的率p2改用50.00、样本比例用1.0:1.0，选用双侧，确定输出第一组样本含量估计值N1=125，第二组样本含量估计值N2=125例。如选用单侧，得到N1=102，N2=102。,4.两小样本率比较时样本含量的估计,5.配对计数资料比较时样本含量的估计双侧检验时，对子数n为：,【例8-15】用表8-3C的配对计数四格表可算出新法检出阳性率p126/50=0.52，老法检出阳性率p2=35/50=0.70；两法阳性一致率p16/50=0.32。(p1p22p)/2(

30、0.52+0.7020.32)/20.29。如果两种方法检测阳性率确有不同，分别估计双侧和单侧检验时，n最少需多少才能检验出两种方法检测阳性率不同？取0.05，0.1。,双侧,6.完全随机设计多样本率比较时样本含量估计,例8-16】由小样本得出三个地区花生污染黄曲霉毒素的污染率分别为79.3、31.8、27.6。如果三个地区污染率确有不同，各地区需观察多少例才能检验出来？（0.05，0.1）,pmax0.793，pmin0.276，以0.05，0.1及自由度df=k-13-12查表8-16的多样本率比较所需样本含量估计用值表得0.05，0.1（2）12.65，代入式8-33得,补充：两组可比性

31、(均衡性)分析,临床药理实验特别是新药申报资料,首先要求做可比性分析.各组病例治疗前的基线资料必须具有可比性(即均衡),才有可能消除待比较的两种疗法或两种药物在非特异性效应(药物净疗效以外的其它各种疗效)方面的影响因素,两药显示出来的疗效差别才是两药特异性效应之间的差别.,必须做的可比性检验项目和要求是:,1.性别比例;2.年龄组;,3.病情轻、中、重：中医可用中医证候积分表示；,4.疾病亚型(包括病程,合并症等,中医证型);,5.治疗前实验室及其器械检测指标:选择疗效评定指标;,6.主要的安全性指标:血压,心率,心电图,血尿常规,肝肾功能等;,检验统计量和公式:与疗效分析的假设检验相同,以P0.05为合格.,例：性别,病情，的轻、中、重可比性分析,1.两组性别的可比性分析,=0.0000,查卡方界值表，因为所以P0.05。,结论：两组性别比例的差别无统计学意义，可比性合格。,2.两组多列资料的可比性分析-病型的可比性分析,分组证型,受试组 100 59 49 19 85 312对照组 59 29 16 19 86 209 合计 159 88 65 38 171 521,命门火痕心脾受损肝郁不舒惊恐伤肾湿热下注合计,解：因为行列都是无序变量，所以采用卡方检验。,结论：两组阳痿病人中医证型比例差别有统计学意义，两组中医证型不均衡，可比性不合格。,

展开阅读全文