分类变量资料统计分析讲义课件.ppt

上传人:牧羊曲112 文档编号:1605992 上传时间:2022-12-10 格式:PPT 页数:110 大小:1.33MB
返回 下载 相关 举报
分类变量资料统计分析讲义课件.ppt_第1页
第1页 / 共110页
分类变量资料统计分析讲义课件.ppt_第2页
第2页 / 共110页
分类变量资料统计分析讲义课件.ppt_第3页
第3页 / 共110页
分类变量资料统计分析讲义课件.ppt_第4页
第4页 / 共110页
分类变量资料统计分析讲义课件.ppt_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《分类变量资料统计分析讲义课件.ppt》由会员分享,可在线阅读,更多相关《分类变量资料统计分析讲义课件.ppt(110页珍藏版)》请在三一办公上搜索。

1、第十六章 分类变量的统计分析第1-3节 统计描述,刘颖 预防医学教研室,掌握: 常用相对数指标的意义、计算方法和注意事项; 率的标准误和总体率可信区间的估计方法及意义; u 检验和 检验的适用条件和计算方法。,熟悉: 率的标准化的意义和计算方法,第一节 常用相对数,绝对数(absolute number)分类变量资料整理后所得到的数据。相对数(relative number)分类变量资料的统计描述指标。,例1 某年某地流行性乙型脑炎发病 240 例、麻疹发病 200 例。240、200 绝对数绝对数说明在一定条件下该地该病实际发生的绝对水平,是制订疾病防治计划和统计分析的基础。,甲地麻疹发病率

2、 = 240 / 2000 = 12%乙地麻疹发病率 = 200 / 1000 = 20%,例2,常用相对数,1. 率(rate)又称频率指标或强度指标; 说明某现象发生的频率或强度; 常以 %、1 / 万、1 / 10万等表示。,例3 某年某市三个区的肠道传染病发病率区 人口数 发病人数 发病率()甲 98740 503 5.09乙 75135 264 3.51丙 118730 466 3.92合计 292605 1233 4.21,甲区发病率 = 503 / 98740 = 5.09,总发病率 = 1233 / 292605 = 4.21,2. 构成比 (constituent ratio

3、),又称构成指标或结构指标,说明某一事物内部各组成部分的比重或分布,常以百分数表示。,某一组成部分的观察单位数,100%,表16.1 2000年某医院某病住院与死亡人数病情严重程度 住院人数 病死数 死亡构成(%) 病死率(%) 轻 300 12 26.7 4.0 中 350 18 40.0 5.1 重 150 15 33.3 10.0 合计 800 45 100.0 5.6,构成比的特点,各构成部分的构成比总和为100% ; 某一部分所占比重的增减,会相应地影响其他部分,各构成比之间是相互制约的 。,3. 相对比(relative ratio ),表示两个有关指标之比,常以倍数或百分数表示。

4、,(或100%),例5 2000 年我国第五次人口普查结果,男 65355 万人,女子 61228 万人,试计算人口男女性别比。,例6 某市乙型脑炎的发病率 1990 年为 4.48/10 万,2000 年为 0.88 / 10 万,试计算相对比。 相对比 = 4.48 / 0.88 = 5.1(倍) 相对比 = 0.88 / 4.48100% = 19.64%,例16.3 甲、乙两地肺癌死亡率分别为23.1/10万、12.33/10万,则两地死亡率的相对比为23.1/12.33=1.87,即甲地肺癌死亡率是乙地的1.87倍,RR= 1.87。,计算相对数时分母不宜过小,即观察单位数应足够多。

5、 分析时构成比和率不能混淆(见表16-1)构成比说明事物内部各组成部分的比重或分布; 率说明现象发生的频率或强度。,第二节 应用相对数的注意事项,表16.1 2000年某医院某病住院与死亡人数病情严重程度 住院人数 病死数 死亡构成(%) 病死率(%) 轻 300 12 26.7 4.0 中 350 18 40.0 5.1 重 150 15 33.3 10.0 合计 800 45 100.0 5.6,相对数的比较应注意可比性 观察对象同质、研究方法相同、观察时间相等,以及客观条件一致; 资料内部构成是否相同。,率的标准化 要考虑存在抽样误差 率或构成比的比较应做假设检验,第三节 率的标准化法,

6、率的标准化法(standardization)在一个指定的标准构成条件下进行率的对比的方法。 实际工作中,对两个或多个频率指标进行比较时,若各组对象内部构成存在差异,且差异又影响分析结果,应该用率的标准化法进行比较。,表16.2 甲、乙两医院的治愈率,科别 住院人数 治愈人数 治愈率(%) 甲医院 乙医院 甲医院 乙医院 甲医院 乙医院 内科 1500 500 975 315 65.0 63.0 外科 500 1500 470 1365 94.0 91.0传染病科 500 500 475 460 95.0 92.0 合计 2500 2500 1920 2140 76.8 85.6,1.用“标准

7、人口”计算(1)选定标准:两医院各型病人相加;标准的选择方法:选择有代表性、较稳定、数量较大的人群,如全 国、全省的历年累计数据;在互相比较的两组资料中,任选其中一组或两组 合并作为共同标准。,标准化率的计算(直接法),(2)计算甲、乙两医院各型传染病病人的预期治愈人数:各型病人标准人口数分别乘以相应的原治愈率;(3)计算甲、乙两医院传染病的标准化治愈率:各型病人预期治愈人数相加除以标准总人数。,表16.3 标准人口数计算甲、乙两医院标准化治愈率(直接法),科别 标准人 原治愈率(%) 预期治愈人数 口数 甲医院 乙医院 甲医院 乙医院 内科 2000 65.0 63.0 1300 1260

8、外科 2000 94.0 91.0 1880 1820传染病科 1000 95.0 92.0 950 920合计 5000 76.8 85.6 4130 4000,乙医院标化治愈率=乙医院预期治愈人数之和/标准组总人数 =4000/5000*100%=80%,2. 用“标准人口构成比”计算,(1)将标准病人数换算成构成比;(2)计算甲、乙两医院各型传染病的分配治愈率: 标准人口构成比乘以相应原治愈率;(3)计算甲、乙两医院某传染病的标准化治愈率: 各型传染病分配治愈率相加。,表16.4 标准人口构成比计算甲、乙两医院标准化治愈率,科别 标准人口 原治愈率(%) 预期治愈率 构成比 甲医院 乙医

9、院 甲医院 乙医院 内科 0.4 65.0 63.0 26.0 25.2 外科 0.4 94.0 91.0 37.6 36.4传染病科 0.2 95.0 92.0 19.0 18.4合计 1.0 76.8 85.6 82.6 80.0,应用标准化法时的注意事项,当各比较组内部构成不同,并足以影响总率的比较时,应对率进行标准化后再作比较; 率的标准化的目的是消除混杂因素影响,使其具可比性;,各年龄组对应的率出现明显交叉时,宜分别比较各年龄组死亡率,而不用标准化进行比较; 如是抽样研究,两样本标准化率的比较应作假设检验。,标准化率已不能反映率的实际水平,它 只能表明相互比较资料间的相对水平; 选定

10、的标准构成不同,所得的标准化率 也不同,仅限于采用共同标准构成的组 间比较。,第十六章 分类变量的统计分析第4-6节 统计推断,刘 颖预防医学教研室,一、率的抽样误差和标准误 率的抽样误差的大小用率的标准误表示。,第四节率的抽样误差和总体率的估计,例16.5 欲了解某种新药对慢性乙型肝炎的疗效,对100名患者进行治疗,其中90人有效,试计算其标准误。,一、正态近似法适用条件:np 和 n(1-p) 5 时,可根据近似正态分布 的原理估计其可信区间。例16.5 试求该新药有效率的95%可信区间?,二、总体率的可信区间估计,二、查表法 适用条件:n 50 ,特别是 p 接近 0 或 1 时,此时资

11、料呈二项分布,可按二项分布的原理估计总体率的可信区间。,一、样本率与总体率比较的u 检验目的:推断样本率与总体率的差异是否仅由抽样所 致,其差异是否有统计学意义。总体率:一般是理论值、标准值或是经过大量观察 所得的稳定值。,第五节率的 u 检验,其中: 为样本率 为总体率 n 为样本含量,例16.7 某地区一般人群中乙型肝炎的阳性率为15%,现对该地区150名流浪者进行检查,其中阳性30人,问当地流浪者的阳性率是否高于一般人群的阳性率?,本例样本率为50%,np 和 n(1-p) 5 时,可认为呈近似正态分布,故可采用 u 检验。检验假设H0 : ,当地流浪者阳性率与一般人群相同H1: ,当地

12、流浪者阳性率高于一般人群单侧,计算 u 值 确定 P 值 ,下结论 u = 1.715 1.645,P 0.05,按a=0.05的检验水准,拒绝H0,接受H1,认为当地流浪者的阳性率高于一般人群。,目的:推断两样本率是否来自同一总体。适用条件:样本率符合近似正态分布的条件(n 较大,且 P 和 1-P 不太小,即 np 和 n(1-p)5时),可用率的 u 检验。,二、两样本率比较的 u 检验,式中: 、 为样本率,n1、n2为样本例数, X1、X2为阳性例数, 为两样本合并率。,例16.8 欲了解从事工农业生产的50岁以上人群高血压的情况,调查了首钢工人1281人,高血压患者386人,患病率

13、为30.13%;石景山区农民387人,高血压患者65人,患病率为16.80%,试问从事工农业生产的50岁以上人群高血压患病率有无差别?,本例两样本的乙肝携带人数均大于5,故可采用样本率的 u 检验。建立检验假设 H0 : H1:,计算 u 值,3. 确定 P 值 ,下结论 u = 5.17 1.96,P 0.05,按 a=0.05 的检验水准,拒绝H0,接受H1,从事工业生产和农业生产的50岁以上人群高血压患病率不同。,第六节 检验,检验(chi - square test)适用于: 分类变量资料中两个或多个样本的总体率是否相同,两个或多个样本的构成比是否相同,配对资料两种属性间的阳性率是否相

14、等。,(一)四格表的 检验基本思想 可用于两样本率的比较 表16-7 四格表 检验的基本结构,一、四格表的 检验,处理 发生数 未发生数 合计 A组 a b a + b B组 c d c + d 合计 a + c b + d n,上表中第 R 行、第 C 列的理论频数为:因此:,如果四格表中实际的发生数用 A 来表示,可通过下式计算 值:,基本思想:实际频数与理论频数吻合程度。 在检验假设成立的情况下, A 与 T 之差一般不会很大,此时 值也较小;反之, 值较大。 检验的自由度:v = (行数 - 1)(列数 - 1),例16.9 某医生欲比较A、B两种药物治疗老年期抑郁症的效果,将病情相近

15、的60名患者随机分成两组,分别用两种药物进行治疗,结果见表16-6,问两种药物治疗效果是否有差别?,(二)四格表的 检验的基本步骤,表16-6 A、B两种药物的疗效比较,建立检验假设 H0 : H1:,计算 统计量 计算各理论频数:,3. 确定 P 值 ,下结论 v = (行数 - 1)(列数 - 1)= 1 按 v = 1 ,查 界值表, ,故 P0.05,按 a=0.05 的水准,不拒绝H0,说明两种药物治疗效果差异无统计学意义。,(三)四格表的 检验的专用公式,(16-13),(16-15),(四)四格表的 检验的应用条件 P326,T5 且 n40 时,非连续性校正1T5 且 n40时

16、,连续性校正 T1 或 n 40时,确切概率法,(五)四格表的 检验的连续性校正,(16-16),(16-17),例16-9,3. 确定 P 值 ,下结论 v = (行数 - 1)(列数 - 1)= 1 按 v = 1 ,查 界值表, ,故 P0.05,按 a=0.05 的水准,不拒绝H0,说明两种药物治疗老年期抑郁症差异无统计学意义。,例16.10 脑胶质瘤患者43人,28例采用手术、15例采用放疗方法进行治疗(表16-8),试比较两种治疗方法治疗后出现的脑功能损伤发生率有无差异?,校正,表 16-9 配对22列联表基本结构,二、配对四格表 检验,乙属性 + + a b a + b c d

17、c + d 合计 a + c b + d n,甲属性,合 计,计算公式:,b + c 40 时,b + c40 时, 应作连续性校正 检验,(16-18),(16-19),例16.11 有50份痰液标本,每份分别接种在甲、乙两种培养基中,观察结核杆菌的生长情况,结果如表16-10,试比较两种培养基的效果?,表 16-10 甲、乙两种培养基培养效果比较,乙培养基 + + 27 12 39 3 8 11 合计 30 20 50,甲培养基,合 计,检验假设 H0 :总体B=C,两种培养基阳性率相同 H1:总体BC,两种培养基阳性率不同,计算 统计量 分析:由于 b + c = 12 + 3 = 15

18、 40, 可得 v = (行数 - 1)(列数 - 1)= 1,3. 确定 P 值 ,下结论 P0.05,按 a = 0.05 的水准,拒绝H0,接受H1,可以认为两种培养基的阳性率不同。,三、行列表 检验,当行和 / 或列大于 2 时, 称为行列表,又称为 RC 表。专用公式:,式中: n为总例数, A 为每个格子的实际数, nR 、nC分别为某格子实际数 A 对应的行合计和列合计。,例16.12 某预防医学研究人员调查了343例离退休老人的生活满意度和家庭关系,结果如表16-11所示,试分析家庭关系类型与老人生活满意度的关系。,(一)多个率比较,表 16-11 离退休老人家庭关系与生活满意

19、度,家庭关系 满意 不满意 合计 满意率(%) 和睦 174 60 234 74.36 一般 36 57 93 38.71 差 6 10 16 37.50 合计 216 127 343 62.97,检验假设 H0 :三种不同家庭关系的老人生活满意度相等 H1:三种不同家庭关系的老人生活满意度不同 或不全相同,计算统计量,n=343,且所有T5,3. 确定 P 值 ,下结论 v = (R-1)(C-1) = (3-1)(2-1) = 2, 查 界值表, ,P0.05,按 a = 0.05 的水准,拒绝H0,接受H1,三种不同家庭关系类型的老人生活满意度不同,家庭和睦老人生活满意率最高。,例16.

20、13 某研究者欲研究汉族、回族和满族居民职业分布情况,从三个民族居民中抽样,分别调查了145、97和99人,调查结果见表16-12。问三个民族职业构成是否不同?,(一)多个构成比比较,检验假设 H0 :三个民族职业构成比分布相同 H1:三个民族职业构成比分布不同或不全相同,计算统计量,n=341,且所有T5,3. 确定 P 值 ,下结论 v = (R-1)(C-1) = (3-1)(4-1) = 6, 查 界值表, ,P0.05,按 a = 0.05 的水准,不拒绝H0,尚不能认为三个民族居民的职业总体构成不同。,行列表 检验的注意事项,RC 表中不宜有1/5的格子小于5, 或者有一个格子的理

21、论频数小于1。 处理方法:增大样本例数; 删除理论数较小的行和列; 将理论数较小的行或列与性质相近的行或列合并。,对于单向有序序列的行列表, 如比较两种药物治疗某病的疗效, 其结果为痊愈、有效 、无效, 用 检验只能比较两种药物疗效的构成情况, 若比较两种药物的疗效是否相同, 则需要用秩和检验。,多个样本率或构成比的 检验,结果为拒绝 H0 时,只能认为各总体率或各总体构成比之间总的来说有差异,但不能说明他们彼此间都有差异,或某两两间有差别。可采用 分割法。,基本概念,总体与样本 变量与变量值 参数与统计量 误差 概率,复习,统计资料的类型,数值变量资料 分类变量资料 变量间的转化,统计工作的

22、基本步骤,u检验、 检验,参数估计假设检验:,1.总体是由( )组成。 A.部分个体 B.全部对象 C.全部个体 D.同质个体的所有观察值 E.相同的观察指标2.抽样的目的是( )。 A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例 D.研究总体统计量 E.研究特殊个体的特征3.参数是指( ) 。 A.参与个体数 B.总体中研究对象的总和 C.样本的统计指标 D.样本的总和 E.总体的统计指标,巩固题,4.反映计量资料平均的指标是( )。 A.频数 B.参数 C.百分位数 D.平均数 E.统计量5.表示总体均数的符号是( ) 。 A. B. C.X D. S E. M6.下列

23、指标中,不属于集中趋势指标的是( )。 A.均数 B.中位数 C.百分位数 D.几何均数 E.众数7.一些以老年人为主的慢性病患者,年龄分布的集中位置偏向于年龄大的一侧,称为( )。 A.正偏态分布 B.负偏态分布 C.对数正态分布 D.正态分布 E.对称分布,8.下面的变量中,属于分类变量的是 。 A 脉搏 B 血型 C 肺活量 D 红细胞计数 E 血压9.两组呈正态分布的定量资料,均数相差悬殊,若比较离散趋势,最好选用的指标为 。 A 全距 B 四分位数间距 C 方差 D 标准差 E 变异系数10均数与标准差之间的关系是A标准差越小,均数代表性越大 B标准差越小,均数代表性越小C均数越大,

24、标准差越小 D均数越大,标准差越大E标准差越大,均数代表性越大,11.以舒张压12.7KPa为高血压,测量1000人,结果有990名非高血压患者,有10名高血压患者,该资料属()资料。 A、计算 B、计数 C、计量 D、等级 E、都对12.描述计量资料的主要统计指标是 :A.平均数 B.相对数 C.t值 D.标准误 E.概率,13.测得10名乳腺癌患者化疗后血液尿氮含量(mmol/L)分别为3.43,2.96,4.43,3.03,4.53,5.25,5.64,3.82,4.28,5.25,试问:(1)该资料是总体资料还是样本资料?(2)其总体的同质基础是什么?(3)要表达资料的平均水平,该选用

25、什么统计指标?,1.下列指标,属于绝对数的是: 。 A 甲区的急性传染病人数为乙区的1.25倍 B 甲区某年急性传染病的发病率为382/ 10万 C 甲区占某市急性传染病的比重为18% D 某区某男身高为168厘米 E 以上都不是2.男性人口数/女性人口数,这一指标为:A率 B构成比 C相对比 D动态数列 E不是相对数3.构成比 。 A 反映事物发生的强度 B 反映了某一事物内部各部分与全部构成的比重 C 既反映了A也反映了B D 表示两个同类指标之比 E 以上都不是,1均数和标准差可全面描述( )资料的特征 。 A 所有分布形式 负偏态分布 正偏态分布 正态分布和近似正态分布 2血清学滴度资

26、料最常计算( )以表示其平均水平。 A均数 B中位数 C几何均数 D全距 E标准差,3比较身高与体重两组数据变异大小宜采用( ) A 变异系数 B 方差 C 标准差 D 四分位间距 4两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为( ) A全距 B四分位数间距 C方差 D标准差 E变异系数,5 应用( )指标描述最小组段无下限或最大组段无上限的频数分布。 A 算术均数 B 中位数 C 几何均数 D 全距 E 标准差6 描述一组偏态分布资料的变异度,以( )指标较好。 A 全距 B 标准差 C 变异系数 D 四分位数间距 E 均数,7.频数分布的两个重要特征是:

27、A. 统计量与参数 B. 样本均数与总体均数C. 集中趋势与离散趋势 D. 正态分布与偏态分布E. 样本与总体8.以下指标中( )可以用来描述计量资料的离散程度。 A.算术均数 B.中位数 C.几何均数 D.众数 E.全距,编号 性别 年龄 身高(cm) 坐高(cm) 血型 表面抗原 肝大1 男 7 116.7 66.3 A + + 2 女 8 120.0 68.3 AB 3 女 10 126.8 71.5 O +4 男 9 123.7 70.0 A . . . . . . . . . . . . . . . .,若干名儿童健康检查部分检测指标,问:1.上述变量中能形成计数资料的指标有: 2.

28、计量资料的指标有: 3.等级资料的指标有: 4.对于身高或坐高指标,在进行统计描述时宜计算( )和( )表示 其集中趋势和离散趋势?,例1 现有10名女大学生的口腔温度()分别为:36.7、36.8、36.8、37.0、37.1、37.2、37.1、37.0、36.9、37.3,分析其平均温度及离散程度。,例2 有7份血清的抗体效价为:1:2,1:4,1:8,1:32,1:32,1:64,1:64,求其平均效价。,例3 某传染病患者 10 例,他们的潜伏期分别为:4、4、5、5、6、7、7、9、12、20天,求传染病患者的平均潜伏期。,200个血铅测量值,例4 200 个血铅平均值,组段 频数f 累计频数f 累计频率()3 36 36 18.08 39 75 37.513 47 122 61.0 18 20 152 76.023 18 170 85.028 16 186 93.033 3 189 94.538 7 196 98.043 1 197 98.548 1 198 99.053 1 199 99.55862 1 200 100.0,200 名血铅频数表,9. 正态分布曲线下(1.645)区间的面积占总面积的()。 A95% B90% C97.5% D99%,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号