第九章流行病学研究中的偏倚及其控制课件.ppt

资源描述

《第九章流行病学研究中的偏倚及其控制课件.ppt》由会员分享，可在线阅读，更多相关《第九章流行病学研究中的偏倚及其控制课件.ppt（79页珍藏版）》请在三一办公上搜索。

1、第九章流行病学研究中的偏倚及其控制,Chapter 9 Bias,路滟,电话：86-25-86862755 (o) 电邮：,南京医科大学公共卫生学院流行病与卫生统计学系,第一节研究的真实性与可靠性,第二节研究的偏倚及其控制,总结,讲课提纲,流行病学的方法,观察法,实验法,理论法,临床试验现场试验社区试验,从统计关联到因果联系,暴露与疾病有无关联,偶然关联（随机误差）,有统计学关联,虚假关联,因果关联,选择偏倚信息偏倚混杂偏倚,是否符合因果推断标准,间接联系,直接联系,思考 ?,有人用病例对照研究方法探讨冠心病与喝咖啡的关系，选择同一医院的非冠心病的其他慢性病患者为对照，结果显示冠心病组

2、喝咖啡的量和次数显著地大于对照组，提示喝咖啡可能是冠心病的一个原因但进一步调查显示，这些慢性病患者较急性病患者或正常人喝咖啡少，提示该研究所选的对照组不是全部非冠心病病例的一个无偏样本，而可能包含了严重的选择偏倚，从而导致了喝咖啡与冠心病有关的“假关联”结果,真实性,准确性,效度 validity, accuracy：测量结果与真实情况符合的程度内部真实性外部真实性可靠性,可重复性,精密度,信度 reliability, reproducibility, repeatability, precision：在相同条件下重复测量同一个体/标本获得相同结果的稳定程度,第一节研究的真实性与可靠性,真

3、实性差可靠性好,真实性好可靠性差,真实性 vs. 可靠性,真实性好可靠性好,真实性差可靠性差,真实性 vs. 可靠性,内部真实性 vs. 外部真实性,内部真实性(internal validity): 从当前研究对象得到的结果能否准确地反映目标/源人群的真实情况外部真实性(external validity /generalizability): 从当前研究对象得到的结果能否适用于目标人群以外的其他人群（外推性）内部真实性是外部真实性的先决条件,推论代表性不好，内部真实性可能好，而外部真实性差。增加研究对象的同质性（如限制类型如年龄、职业、体质特征或疾病分型等），可改善内部真实性。增加研究对

4、象的异质性，可改善外部真实性。在实际研究需综合考虑研究对象的同质性和异质性问题。,内部真实性与外部真实性的联系,研究样本,? 内部真实性,其他人群,? 外部真实性 (外推性),内部真实性 vs. 外部真实性,影响真实性与可靠性的因素,变异生物学变异测量变异随机变异系统变异,变异的水平,180 ，174，215，305233，276，146，195205，188，190，295170，164，248，162220，219，228，250,295，146，220，162，228,219，164，190，188，233,205，276，195，215，170,源群体,样本A,样本B,样本C,高胆固醇

5、率,= 40%,= 20%,= 0%,高胆固醇率 = 25% （240mg/dL）,源群体与样本高胆固醇率的样本变异性示例,变异的水平,膳食与药物预防心机梗死的样本变异性示例,6%,9%,6%,9%,随机分布的,不可预测的不可避免的可估计误差大小通过增加样本量或重复测量取均值可以减小,系统的偏离真实值可避免的是必须控制的,(偏倚 bias),影响真实性与可靠性的因素,随机误差和系统误差的区别,(偏倚 bias),随机误差和系统误差的区别,Bias (600-540BC),Bias是古典文化中七贤人之一Lydia国王克利萨斯向Bias咨询建造、部署战舰防御爱奥尼亚人的最好方法，Bias为了避免战

6、争、流血，骗克利萨斯国王说，爱奥尼亚人正在买马准备陆地战，后来，Bias向克利萨斯国王承认，他说了谎，爱奥尼亚人实际上也在建造战舰，克利萨斯国王对Bias的本意表示赞许，与爱奥尼亚人讲和，后人将“背离事实”称为bias,(Hunter D. Father of all bias? BMJ 2002;324:1071,第二节研究的偏倚及其控制,偏倚 bias 是指研究设计、实施、分析和推断过程中存在的各种对暴露因素与疾病关系的错误估计，它系统地歪曲了暴露因素与疾病间的真实联系，是一种系统误差偏倚是有方向的。当研究结果因偏倚而被夸大时，称为正偏倚；当研究结果因偏倚而被缩小时，称为负偏倚,研究的偏

7、倚及其控制,如果用RR来表示人群中因素和疾病真实的联系强度，表示研究获得的因素和疾病的联系强度，则相对于危险因素，正偏倚时， RR；负偏倚时， RR 选择偏倚 selection bias信息偏倚 information bias混杂偏倚 confounding bias,研究的偏倚及其控制,选择偏倚 selection bias,选择偏倚是流行病学研究中由于被选入到研究中的研究对象与没有被选入者在暴露或疾病有关的特征上的差异所造成的系统误差表现：描述性研究：样本对总体的代表性分析性研究：增大或减少暴露与疾病、处理与效应的关联，导致效应估计的偏倚,入院率偏倚现患-新发病例偏倚检出症候偏倚纳入

8、/排除偏倚无应答偏倚失访偏倚易感性偏倚（志愿者偏倚和健康工人效应）,选择偏倚 selection bias,入院率偏倚,假如在人群进行一项病例对照研究，以B病为对照，研究A病与某因素X的关系。设人群中患A病与B病者各为5000人，暴露于因素X者各为750人，不暴露于因素X者各为4250人，X 在A、B患者中的暴露率均为15%,=1.00,入院率偏倚,现在医院进行病例对照研究研究A病与某X的关系；假定A病患者住院率60%，B病患者住院率25%，同时具有X因素者的住院率为40%，现就上述不同的入院率计算住院病人：A病有C因素人数：B病有C因素人数：A病住院而无C因素人数:B病住院而无C因素人数:,

9、现在医院进行病例对照研究研究A病与某X的关系；假定A病患者住院率60%，B病患者住院率25%，同时具有X因素者的住院率为40%，则该医院进行的病例对照研究的样本构成如下：,=0.575,入院率偏倚,入院率偏倚的测量,为正值，说明由于入院率偏倚的存在，使得暴露X与疾病A之间的联系强度高估了42.5%,假设总体的联系强度为OR1，病例对照研究样本的联系强度为OR2，则入院率偏倚可估计为,现患-新发病例偏倚,在Framingham心血管病的研究中，采用队列研究获得血清胆固醇与冠心病关系的结果不同于另一项病例对照研究的结果，具体结果见下表,注：*胆固醇值系第1次检查时的观测值；*胆固醇值系第6次检查时

10、的观测值,现患-新发病例偏倚,病例对照研究收集的大部分是现患病例，而队列研究可观察新发病例，这两种不同的病例所提供的有关所研究的暴露等情况会有很大的差别就此例进一步分析发现，许多患冠心病的患者在被诊断为该病后，改变了其原来的生活习惯或嗜好，如戒烟、多食低胆固醇食物、多进行体育锻炼等，从而使用于病例对照研究的患者血中胆固醇水平降低，或与一般人相比血胆固醇水平增长速度较慢所致,现患-新发病例偏倚,现患病例新病例偏倚的测量可依据队列研究和病例对照研究两研究不同的联系强度来估计假设队列研究的联系强度为OR1，病例对照研究的联系强度为OR2，现患病例新病例偏倚为负值，说明由于该偏倚的存在，使得病例对照研

11、究中高血胆固醇与冠心病之间的联系强度降低了51.7%,检出症候偏倚,某人进行了一项更年期服用雌激素与子宫内膜癌关系的病例对照研究，分别在同一个医院的不同科室选择了研究对象，经分析得到下表结果,检出症候偏倚,在肿瘤科，子宫内膜癌病人多由于她们服用雌激素后出现子宫出血而到医院检查，能及早发现该人群中的子宫内膜癌病人，且多为早期的病人，而没有服用者，由于没有子宫出血症状，减少了就诊机会，使该病不易及早被诊断出来，因而能得出雌激素和子宫内膜癌之间相关联的结论在妇科，这些患者大多数接受妇科检查，因此子宫内膜癌的检出与是否服用雌激素使妇科检查几率增加之间没有关系,健康工人效应,为了探讨职业暴露对人类健康的

12、危害，McMichael等在美国俄亥俄州的一个轮胎生产工厂，选择在岗及退休男性工人6678人作为暴露组，进行了回顾性队列研究。观察期间为19641972年共9年时间。以国家卫生统计中心编制的1968年美国男性年龄别死亡率作参比下表是同时期与钢铁工人、俄亥俄州人口及美国全国人口相比较的橡胶工人全死因死亡率（1/10万人年）,健康工人效应,下表为暴露组观察期间各年龄组的观察死亡数与以1968年美国男性年龄别死亡率作参比计算的期望死亡数之比,健康工人效应,下表是暴露组在岗工人及全部队列人口某些死因的SMR,健康工人效应,健康工人效应,根据上述资料，如何解释全死因及其它一些死因观察死亡数低于期望死亡数

13、的现象？根据以上数据是否能说明橡胶行业职业暴露对人群健康不但没有危害而且还有保护作用，为什么？在研究某些职业暴露的危害时，以一般人口作参比易受“健康工人效应”的影响，如何控制该种偏倚的产生？,健康工人效应的控制,不以一般人群作参比，对照组除研究因素之外的其它能影响疾病的因素与暴露组相一致用一般人群作参比，选择最好是与暴露组相同地区、相同年代、相同人群特征构成者方法校正研究人群各亚组预期死亡数按一定比例折扣(如90%)通过实际调查获得能够代表本地区的职工和一般人群死亡率的比值，以此为校正系数乘以研究人群各亚组预期死亡数进行校正；或用各亚组的死亡率比值（如年龄）作为校正系数，分别乘以研究人群相应各

14、亚组的预期死亡数进行校正,无应答偏倚,冠心病一级预防实验研究：随机抽取社区中年男子共3万人，干预组1万人，对照组2万人，干预组发出9968份调查表，得到7455人答复，应答率为74.8%，作者对干预组中应答者与无应答者的随访资料进行了比较,无应答偏倚,根据7455例应答者的资料不能反映干预组的真实情况，因为无应答率高达25%通过对应答者与无应答者随访资料的对比分析可见，冠心病、肿瘤、意外事故、自杀、其它及总的死亡率在应答组与无应答组皆不同，分别是22.80/万，47.75/万；13.41/万，39.79/万；6.71/万，23.87/万；6.71/万，15.91/万；18.78/万，79.58

15、/万及87.19/万，286.51/万，无应答者的死亡率都高于应答者由于无应答的存在，肯定造成了偏倚,排除偏倚,在研究对象的确定过程中，没有按照对等的原则或标准，而自观察组或对照组中排除某些研究对象，这样导致因素与疾病之间联系的错误估计，称为排除偏倚研究关于阿司匹林与心肌梗死关系的病例对照研究中，病例组和对照组不应包括慢性关节炎患者，亦不应包括慢性胃溃疡患者，因前者由于治疗需要一般服用此药，后者则由于此药易致胃出血很少用此药。若这两种疾病患者在两组分布不均，则可导致阿司匹林与心肌梗死关系的错误估计,志愿者偏倚,志愿参加观察者同非志愿者在关心健康、注意饮食及营养食疗、禁烟、禁酒、坚持体育锻炼等方

16、面有系统差异，因支援志愿者被入选为观察对象，而非志愿者落选，由此产生的选择偏倚，称为志愿者偏倚例如：美国曾采用邮寄问卷的形式，调查美国退伍军人的吸烟习惯。30天后总结收集的回复，并进行核实发现，不吸烟者有85回复了问卷，而抽烟者仅67。这必然导致低估了吸烟与所研究疾病的关系,选择偏倚的控制,研究设计阶段建立和利用健康监测系统信息。控制选择偏倚的关键在于获取有代表性的研究样本，而只有建立健全的健康监测系统，掌握全人群有关暴露和疾病发病的信息，才能最大限度地获取人群有代表性的样本采用严格科学的研究设计。在设计过程中应明确定义源人群和样本人群，根据研究性质预测获取样本过程中可能产生的各种选择偏倚

17、，采取措施减少或控制明确对象纳入标准、统一疾病诊断和监测程序。所有纳入研究的对象都必须符合事先设立的纳入标准，包括疾病诊断标准和暴露判别标准,选择偏倚的控制,资料收集阶段加强随访、提高应答率在资料收集阶段尽可能多地收集有关暴露史的各种信息，包括暴露程度、暴露时间、暴露改变以及改变的原因等,选择偏倚的控制,数据分析阶段在数据分析阶段控制选择偏倚往往为时已晚可以对无应答或中途退出者与应答或完成随访者作一些基线变量比较也可以根据先前的知识来估计可能存在的偏倚及其方向，并进行灵敏度分析还可以利用一些附加的方法学研究来量化预期存在的偏倚，如用不同对象入院率来估计伯克森偏倚等,信息偏倚 informa

18、tion bias,在获取暴露、结局或其他信息时所出现的系统误差或偏差叫信息偏倚。信息偏倚又称为错分偏倚（misclassification bias）来源：研究者、调查对象、测量工具、原始记录不准信息偏倚：同等发生于暴露组和非暴露组非特异性错分OR、RR1信息偏倚：不同等发生于暴露组和非暴露组特异性错分OR、RR 或高或低,回忆偏倚报告偏倚暴露怀疑偏倚诊断怀疑偏倚测量偏倚,信息偏倚 information bias,信息偏倚,某人进行了一项关于心肌梗死危险因素的病例对照研究，假设人群中有关膳食情况和疾病分布的真实情况如表,如果病例组和对照组均有20%的人低报了其膳食情况，则,信息偏倚,如果病

19、例组有20%的人低报了其膳食情况，则如果对照组有20%的人低报了其膳食情况，则,回忆偏倚,孕妇腹部X线暴露与小儿白血病关系：选择白血病住院儿童251名为病例组，选择了同医院、相同社会阶层、同年龄组、同出生地251名其他病患儿童为对照组，进行病例对照研究，获得下表,P0.05,回忆偏倚,同时为了了解研究对象所提供的过去暴露史的准确性，对部分研究对象比较了医院病历记录X线照射史与母亲回忆X线照射史,回忆偏倚,在病例对照研究中，错分的灵敏度指正确查出有暴露史者占实际有暴露史人数的比例；特异度指正确查出无暴露史者占实际无暴露史人数的比例,回忆偏倚的测量,=（0.939251-179）/（0.939+0

20、.706-1）=88,=（0.939251-193）/（0.939+0.706-1）=66,=251-88=163,=251-66=185,1.51,报告偏倚,与回忆偏倚不同，对象报告偏倚是因为对象有意夸大或隐瞒某些信息导致了对疾病或暴露程度的错误分类例如：近年来，有关人工流产与乳腺癌关系的病例对照研究时有报道，但有研究发现，乳腺癌患者由于种种原因，相对于对照来说更不愿意报告自己的人工流产史。由此所致的对暴露史的错分可能会低估人工流产与乳腺癌发病危险性的联系,诊断怀疑偏倚,由于研究者事先了解研究对象对研究因素的暴露情况，怀疑其已患某病，或主观上倾向于应该出现某种阳性结果，于是在作诊断或分析时，

21、倾向于自己的判断。由此造成的偏倚为诊断怀疑偏倚例如：在研究女性使用卫生棉条和中毒性休克综合症的病例对照研究中，由于临床医生已获得相当多的两者之间关系的研究信息，他们会有意无意地将处于经期且使用内用卫生棉条有相关症状的妇女诊断为中毒性休克综合症，从而夸大了经期使用卫生棉条和中毒性休克综合症间的联系,信息偏倚的控制,研究设计阶段对暴露因素必须有严格、客观的定义，并力求指标定量化要有统一、明确的疾病诊断标准调查表项目应易于理解和回答研究对象应清楚地了解本次研究的目的、意义和要求，以获取其配合和支持调查员需经过严格培训，能严谨客观地从事资料收集工作研究者应定期检查资料的质量，并设立质量控制程序,信息偏

22、倚的控制,资料收集阶段应尽量选用客观定量指标，可选用回忆指征帮助对象回忆，也可利用实物或照片来准确获取信息为了避免主观诱导对象，除了严格培训调查员外，在临床试验和某些现场研究中，应尽可能采用“盲法”以消除主观因素对研究结果的影响，但在采用“盲法”的同时需考虑其伦理学可行性研究中的各种测量仪器、试剂和方法都应标准化。应使用同一型号的仪器并定期校验；试剂必须是同一品牌、同一来源并力求同一批号；检测方法要统一，由专人测定,信息偏倚的控制,统计分析阶段错分偏倚的校正错分偏倚在所比较组内的分布可以相同，也可以不同，可用错分的灵敏度和特异度来表示当各比较组发生错分的灵敏度和特异度分别相同时，产生的错分偏倚

23、称为均衡性错分或非特异性错分。当各比较组发生错分的灵敏度和特异度各不相同时，称为非均衡性错分或特异性错分,混杂偏倚 confounding bias,吸烟、火柴与肺癌,吸烟、火柴与肺癌,烟草公司的研究者坚持认为火柴暴露可以引起肺癌，他们开展了一项大型的病例对照研究来检验这个假说研究者通过人群登记系统找到了1000名肺癌病例，其中820人曾携带过火柴；从人群中随机抽取了1000名对照，经X线确认未患肺癌，其中340人曾携带过火柴；根据这批数据，定量估计火柴与肺癌之间的关联,吸烟、火柴与肺癌,吸烟、火柴与肺癌,想分别了解一下吸烟者与不吸烟者中火柴与肺癌的关系结果发现在1000名病例中，900名为吸

24、烟者，其中810名曾携带火柴；在1000名对照中，300名为吸烟者，其中270名曾携带火柴分层绘制22表，计算火柴与肺癌的关联效应值,吸烟、火柴与肺癌,OR粗= 8.8 (7.2, 10.9)OR吸烟者 = 1.0 (0.6, 1.5)OR不吸烟者= 1.0 (0.5, 2.0),吸烟、火柴与肺癌,这个例子说明：即使本来没有任何效应，混杂也可以引起明显的效应在火柴与肺癌的关系中，吸烟就是一个混杂因素(confounding factor, confounder)，吸烟混淆了火柴与肺癌之间的真实关系现在我们想看看吸烟与肺癌的关系，不管是否携带火柴，应该构造什么样的表格呢？,吸烟、火柴与肺癌,OR

25、粗 = 21.0 (16.4, 26.9)OR携带火柴 = 21.0 (10.7, 41.3)OR不携带火柴 = 21.0 (13.1, 33.6),既与疾病有制约关系，又与所研究的暴露因素有联系的外来因素的影响，掩盖或夸大了所研究的暴露因素与疾病的联系，叫混杂偏倚；这种外来因素称为混杂因素混杂因素的条件必须与所研究疾病的发生有关，是该疾病的危险因素之一必须与所研究因素有关必须不是研究因素与疾病病因链上的中间环节或中间步骤,混杂偏倚 confounding bias,混杂偏倚 confounding bias,交互作用 interaction,也称相互作用，当两种或两种以上暴露因素同时存在

26、时，所致的效应不等于它们单个作用相联合的效应时，则称因素之间存在交互作用当前者大于后者时称正交互作用，说明两种或多种因素同时存在时效应增强，其生物学含义为协同作用(synergy) 当前者小于后者时称负交互作用，说明两种或多种因素同时存在时效应降低，其生物学含义为拮抗作用(antergy),混杂偏倚与交互作用的区别,为研究饮酒与高血压之间的关系，某学者1992年在社区人群筛检的基础上，随机选择了154名高血压病新病例作为病例组及583名正常人作为对照组，进行了病例对照研究，调查研究对象过去饮酒情况，得下表考虑到在分析饮酒与高血压病之间的关系时，体重指数可能是潜在的混杂因素，如何分析？,混杂偏倚

27、 confounding bias,混杂偏倚 confounding bias,混杂因素的条件必须与所研究疾病的发生有关，是该疾病的危险因素之一必须与所研究因素有关必须不是研究因素与疾病病因链上的中间环节或中间步骤,混杂偏倚 confounding bias,混杂偏倚 confounding bias,混杂偏倚 confounding bias,混杂偏倚及其方向与程度的测量公式如下若cOR aOR(f) 为正混杂，即由于f的混杂作用，使cOR高估了研究因素与研究疾病之间的联系若cOR aOR(f) 为负混杂，即由于f的混杂作用，使cOR低估了研究因素与研究疾病之间的联系由于超重混杂作用使饮

28、酒对高血压病的危险性低估了约7%,混杂偏倚的测量,混杂偏倚的控制,设计阶段：限制、配比、随机化限制(restriction): 对对象纳入条件予以限制，如性别、年龄、职业等匹配(matching): 匹配是指在为研究对象设立对照时，使病例和其对照在一个或多个潜在混杂因素上相同或相近，从而消除混杂因素对研究结果的影响随机化(randomization): 随机化是指以随机化原则将研究对象以同等的机率被分配在各处理组中，从而使潜在的混杂因素在各组间分布均衡。多用于实验研究，尤其是临床试验,混杂偏倚的控制,分析阶段：分层分析、标准化法、多因素分析分层（stratification）是指将研究所获资

29、料按混杂因素分成数层（亚组）进行分析，分层是最常用的检出和控制偏倚的方法之一当比较两个率时，如果两组对象内部构成存在的差别足以影响结论，可用率的标准化（standardization）加以校正，亦即使可能影响结果的因素受到同等的加权，使这两个率可比、无偏倚如果需要控制的混杂因素很多时，受样本量的影响，分层分析不再适用，可采用多因素分析的方法,偏倚及其控制,选择偏倚入院率偏倚 Berkson bias现患-新发病例偏倚 Neyman bias失访偏倚无应答偏倚.信息偏倚回忆偏倚测量偏倚混杂偏倚,总结,流行病学研究设计的最主要目的是：估计随机误差、控制偏倚，凸现出真实的联系。,Questions？,

展开阅读全文