《分类资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《分类资料的统计分析.ppt(27页珍藏版)》请在三一办公上搜索。
1、分类资料的统计分析,计数资料的统计描述:绝对数、相对数率的标准化率的抽样误差及应用2检验,情景资料,1、调查了我班视力情况,近视者30人,计算近视率?2、计算我班的血型构成。3、研究某药效果,治疗了5人,治愈3人,如何描述其有效水平?4、某慢性病在深圳的死亡率为1.2%,在上海为3.1%,如何比较该病在两地的死亡水平。,(一)常用的相对数,1、率:说明某现象发生的频率或强度。率=K 常有百分率、千分率、万分率、十万分率等。选择原则:习惯用法 使得到的数字一般保留1-2位整数,以便阅读。,2、构成比,说明某一事物内部各组成部分所占的比重。构成比=,3、相对比,说明两事物之间的对比关系。相对比=A
2、事物/B事物 A、B可以是绝对数,也可是相对数;计算结果可是小数,也可是倍数。常用的有三种:(1)对比指标:同类事物指标的比值。如性别比。(2)关系指标:非同类事物指标的比值。如医护人员与病床数之比。(3)计划完成指标,4、注意事项,1、分母不可过小。2、不能以比代率 3、如何计算合计率(总率)。4、比较相对数时,注意资料的可比性。5、样本率的比较要进行假设检验。,某化工厂慢支患病与工龄的关系 工龄 检查人数 患者数 百分比(%)患病率(%)1 340 17 11.56 5.00 5 254 30 20.41 11.81 10 432 73 49.66 16.90 15 136 27 18.3
3、7 19.85 合计 1162 147 100.00 12.65,(二)标准化法,甲乙两医院某传染病各型治愈率比较 病型 甲院 乙院 病人数 治愈数 治愈率(%)病人数 治愈数 治愈率(%)普通型 300 180 60.0 100 65 65.5 重型 100 40 40.0 300 135 45.0 爆发型 100 20 20.0 100 25 25.0 合计 500 240 48.0 500 225 45.0 要比较甲乙两医院某传染病治愈率,要先消除病情构成的影响,即选取一种共同内部构成作为计算总率的基础,这种方法称为率的标准化法,这样计算得到的率称为标准化率(标化率、调整率)。,根据资料
4、不同,有直接法和间接法两种。直接法步骤:1、选取一个标准的内部构成,可以是标准人口数,也可是标准人口构成比,还可以用标准阳性率(间接法)。标准来源:A 具有代表性的、较稳定的、数量较大的人群作标准。时 间最好与被标化资料一致或较接近。B 以相比资料本身数据为标准,如甲院或乙院的数据、或两院合并的数据。2、计算标化率。,直接法,续,例:以甲院数据为标准计算乙院治愈率的标化率(直接法)乙院某传染病标化治愈率计算 病型 标准病人数 原治愈率(%)预期治愈人数 普通型 300 65.0 195 重型 100 45.0 45 爆发型 100 25.0 25 合计 500-265 乙院某传染病标化治愈率=
5、265/500=0.53=53.0%所以在共同的构成下,甲院治愈率为48%,乙院治愈率为53%,因此对该种传染病的治疗率是乙院较高.,间接法:间接法是在不知道被比较两者的分率,或某些组的调查人数太少,分率不可靠时采用的方法。如下例:已知甲地死亡总数为845人,乙地为679人,以及两地各 年龄组人口数,比较两地死亡水平。甲乙两地死亡标化率计算年龄组 标准死亡率 甲地 乙地(%)人数 预期死亡数 人数 预期死亡数 0 62.6 9300 582 4800 300 5 3.9 12200 48 6600 26 20 6.5 19000 124 35300 230 40 12.7 7600 97 28
6、00 36 60 41.3 1900 78 500 21 合计 15.4 50000 929 50000 613,计算标化死亡比(SMR):SMR=实际死亡数/预期死亡数 SMR1,说明标化率大于标准组 SMR1,说明标化率小于标准组 甲地SMR=845 929=0.91 甲地标化死亡率=15.4%0.91=14.03%乙地SMR=679 613=1.14 乙地标化死亡率=15.4%1.14=17.58%,1、根据资料选用相应的方法。2、标化率的大小随选定的标准的不同而不同。3、率的标化的目的在比较,标化率的差别,只反映资料 间率的高低、大小的相对关系,并不反映资料间率的 实际水平。4、如不计
7、算标化率,而分别比较各组的分率,也可得到 正确结论,但不能比较总率的大小。5、被标化的样本率若要进一步推断总体结果,还需对标 化后的样本率作假设检验。,注意事项,练习,1、描述计数资料的统计指标是;A.平均数 B.相对数 C.标准差 D标准误 E.变异系数 2、某一事件发生强度的指标应选 A 率 B 构成比 C 相对比 D 绝对数 E 以上都不对 3、某病发病率的分子是 A 是指一定时间内该病发生的新病例 B 是指该病发生的新、老病例 C 是指该病的老病例 D 是指现患病例 E 是指现患病例和老病例,练习,4、下列说法哪个是错误的 A 四个分率的总率为四个分率之和除以4 B 假设检验的结果不可
8、能性100%的正确 C 率和比不能混用 D 当n较少时,最好用绝对数和相对数一起表示相应的计数资料 E 标准误的本质是标准差5、欲比较甲,乙两矿工人矽肺患病的严重程度,但甲,乙两矿工人的工龄分布不同,此时适当的比较方法是:A.分工龄进行比较 B.用两个率比较的X2检验 C.不具可比性,不能比较 D.对工龄进行标化后再比较,练习,6、关于相对数,下列那项不正确 A 是分类变量资料的统计描述指标 B 各部分的构成比总和为100%C 计算相对数的分母不宜过小 D 率可表示事物内部某一部分所占的比重 7、相对比是A.B两个有关指标之比,两个指标要求 A 性质必须相同 B 性质必须不同 C 性质可以相同
9、也可以不同 D 性质最好相同 E 以上都不是,8、经调查得甲乙两地的冠心病粗死亡率都为40/万,按年龄构成标化后,甲地冠心病标化死亡率为45/万,乙地为31/万,因此可以认为 A.甲地年龄别人口构成较乙地年轻 B.乙地年龄别人口构成较甲地年轻 C.甲地冠心病的诊断较乙地准确 D.乙地冠心病的诊断较甲地准确 E.甲地年轻人患冠心病较乙地多9、是非题:用某药治疗某病,治了5例,治愈4例,则该药的治愈率为80%.,一、率的抽样误差 一般地,从一个阳性率为的总体中随机抽取含量为n的样本,则样本中的阳性数X服从二项分布B(n,),样本阳性率p与总体率之间也存在抽样误差,其大小用样本率的标准差来表示,即率
10、的标准误。总体标准误 s=(1)/n 样本标准误 Sp=p(1p)/n,总体率的估计和卡方检验,1、查表法 适用:n50时 2、近似正态法 适用条件:np和n(1-p)5 时,样本率的分布近似正态分布,可按正态分布原理估计总体率的可信区间。95%CI:p 1.96 Sp 99%CI:p 2.58 Sp,二、总体率的估计,1、直接计算概率进行比较 2、u检验适用条件:np和n(1-p)5时,样本率的分布近似正态分布。3、2检验:用于检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布等 推断多个样本率或构成比之间又无差别 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关检验两
11、种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,其诊断结果是否一致,三、率的假设检验,基本思想吸烟者与不吸烟者的慢性支气管炎患病率比较 分组 患病人数 未患病人数 合计 患病率(%)吸烟者 43(33.86)162(171.14)205(n1)21.0 不吸烟者 13(22.14)121(111.86)134(n2)9.7 合计 56(m1)283(m2)339(N)16.5 红色为实际数(A),蓝色为理论数(T)。假设吸烟与慢支之间无关,则两者总体的的患病率相同,暂时按合计率推算,即为16。5%。那么 T 11=n1m1/N=20556339=33.86 T 12=n1m2/N=20
12、5283339=171.14 T 21=n2m1/N=13456339=22.14 T 22=n2m2/N=134283339=111.86,(1)四格表资料的2检验,如果假设成立,那么,实际值和理论值的差值为0,否则它们相差很大。实际值和理论值之间的差距用2值表示。2=(AT)2/T.基本公式 2=(adbc)2N/(a+b)(a+c)(b+c)(b+d).四个表专用公式 2 反映了实际数和理论数的吻合程度。若假设成立,出现大的2值的可能性很小,若P,就拒绝假设;若P,则尚无理由拒绝它。,A 四格表资料指的是哪四个格子的数字(见有颜色部分)B 2检验的自由度V的计算 V=(R1)(C1)四格
13、表资料的自由度恒定为1。C 四格表资料2 检验的条件:第一种情况:N40,且T均5,用普通2检验 第二种情况:N40,但有1T5时,用矫正2检验 第三种情况:N40,或T1 时,用确切概率法 D 当P接近检验水准时,不要轻易下结论。E 在满足各自条件的前提下,2检验与U检验等价,2 值=U 2,注意:,例:荧光抗体法与常规培养法检验结果 荧光抗体法 常规培养法 合计+-+160(a)26(b)186-5(c)48(d)53 合计 165 74 239 若两种检验方法效果相同,那么,理论上c=b,但由于抽样误差的存在,对于样本b不等于c的情况,需进行假设检验。v=1 普通公式 矫正公式 b+c
14、40时可不矫正,b+c40时必须矫正。,(2)配对四个表资料2检验,适用于 A 多个率的比较 B 多个构成比的比较 C 双向有序分类资料的关联性检验,如 不同期次矽肺患者肺门密度级别分布 矽肺期次 肺门密度级别 合计+43 188 14 245 1 96 72 169 6 17 55 78 合计 50 301 141 492,(3)RC表的2检验,注意:A:RC表的2检验适用于以下条件 T1;并且1T5的格子数不超过总格子数的1/5。若条件不满足,可有三种方法处理:a 增加样本数 b 删除理论数太小的行或列 c 将性质相近的行或列合并 B:若结论是“差异具有统计学意义”,仅说明其中至少有一 组
15、与其他组存在差异,是否各组两两之间均存在差异,还需进一步作2 黄金分割检验。C:等级资料不适宜用2检验。,练习,1、从甲乙两文中查到同类研究的两个率比较的四个表资料,其卡方检验,甲文220.01(1),乙文220.05(1),可认为 A 两文结果有矛盾 B 两文结果基本一致 C 甲文结果更可靠 D 乙文结果更可靠2、RC表的卡方检验中,P0.05说明 A 被比较的任何两个率之间差别均有显著性 B 样本率之间没有显著性差别 C 至少某两个率之间有显著性差别 D 只有两个率之间有显著性差别 E 大多数样本率之间有显著性差别,3、下列哪项检验不适用卡方检验 A.两样本均数的比较 B.两样本率比较 C.多个样本构成比的比较 D.拟合优度检验4、假设对两个率差别的假设检验分用u检验和X检验,则算得的u值和X值的关系有 A.u检验比X检验准确 B.X检验比u检验准确 C.u=X2 D.u=E.X2=5、卡方检验中,四格表资料的自由度一定为1.,