《流行病学07流行病学中的偏倚.ppt》由会员分享,可在线阅读,更多相关《流行病学07流行病学中的偏倚.ppt(65页珍藏版)》请在三一办公上搜索。
1、预防医学系 程先进,Unit 7,流行病学研究中的偏倚,2023年10月2日,蚌埠医学院,3,引 言,研究的解说涉及到研究的真实性与因果推断的问题。研究的真实性直接关系到是否获得正确的结论,而真实性需要通过变异性估计来确定对于因果关系的研究,从研究结果如何做出正确的因果推断,也是非常重要的但在研究过程中,由于各种因素的影响,使研究结果与真实情况往往存在差异,有时甚至回作出错误的结论。原因:随机误差、系统误差(偏倚bias),2023年10月2日,蚌埠医学院,4,流行病学研究中的误差,误差(error)定义 指对事物某一特征的度量值偏离真实值的部分,即测定值与真实值之差分类 随机误差(rando
2、m error)系统误差(systematic error偏倚bias),2023年10月2日,蚌埠医学院,5,举例:用动脉血压计测量某人血压(实际值为80mmHg),各次读数的均值为100mmHg,系统误差和随机误差可用以下图示,随机误差,80,100,舒张压(mmHg),系统误差,发生频次,图3 血压计法测量舒张压值的分布,2023年10月2日,蚌埠医学院,6,流行病学研究中的误差,随机误差(random error)广义 因机遇不同估计总体参数时所产生的误差,如选择的机遇、时间的机遇狭义 随机抽样所得均值对总体均值的误差特点 没有固定方向和固定大小 一般呈正态分布,2023年10月2日,
3、蚌埠医学院,7,180,174,215,305233,276,146,195205,188,190,295170,164,248,162220,219,228,250,295,146,220,162,228,219,164,190,188,233,205,276,195,215,170,源群体,样本A,样本B,样本C,高胆固醇率,=40%,=20%,=0%,高胆固醇率=25%(240mg/dL),图1 源群体与样本高胆固醇率的样本误差示例,2023年10月2日,蚌埠医学院,8,流行病学研究中的误差,系统误差(偏倚bias)定义 属于系统误差,在研究或推论过程中所获得的结果系统地偏离其真实值特点
4、 具有单方向性 可高于真值,也可低于真值(按规律变化)分类 选择偏倚、信息偏倚、混杂偏倚,2023年10月2日,蚌埠医学院,9,流行病学研究中的误差,随机误差和系统误差的区别,2023年10月2日,蚌埠医学院,10,偏 倚(bias),偏倚 定义 属于系统误差,在研究或推论过程中所获得的结果系统地偏离其真实值特点 具有单方向性 可高于真值,也可低于真值分类 选择偏倚、信息偏倚、混杂偏倚,2023年10月2日,蚌埠医学院,11,偏 倚(bias),一、选择偏倚(selection bias)研究者在挑选研究人群时由于选择条件受限制或设计失误所致的系统误差,2023年10月2日,蚌埠医学院,12,
5、偏 倚(bias),常见种类 入院率偏倚 现患-新发病例偏倚易感性偏倚 无应答偏倚 检出征候偏倚 时间效应偏倚排除偏倚 志愿者偏倚,2023年10月2日,蚌埠医学院,13,偏 倚(bias),入院率偏倚(admission rate bias)利用医院就诊或住院病人作为研究对象时,由于入院率或就诊机会不同而导致的偏差,2023年10月2日,蚌埠医学院,14,偏 倚(bias),特别是用住院病人进行研究时,很容易产生这种偏倚,主要是因为住院病人作为研究对象时可能没有包括:(1)、抢救不及时而死亡的病例(2)、距离医院远的病例(3)、无钱住院的病例(4)、病情轻的病例 此外不同医院的技术专长、专业
6、水平也会造成不同疾病在不同的医院的就诊断或住院率的差别。,2023年10月2日,蚌埠医学院,15,偏 倚(bias),例如:在一般人群和住院病人中研究骨和运动器官疾病与呼吸道疾病之间的关系。一般人群 住院病人+合计+合计+17 207 224 5 15 20 184 2376 2560 18 219 237合计 201 2583 2784 23 234 257 OR 1.06 4.06,呼吸道疾病,2023年10月2日,蚌埠医学院,16,高血压 肝癌 糖尿病 合计+200 200 400 800 800 1600 合计 1000 1000 2000 OR=ad/bc=200800/200 80
7、0=1 说明肝癌的发生与高血压无关,例:以糖尿病为对照研究肝癌与高血压的关系,假如人群中糖尿病和肝癌患者各1000人,两种病人暴露于高血压者各200人,暴露率为20%,计算结果如下:,2023年10月2日,蚌埠医学院,17,假定肝癌、糖尿病、高血压患者的住院率分别为20%,50%和40%,计算结果如下:,高血压 肝癌 糖尿病 合计+104 140 244 160 400 560 合计 264 540 804 OR=ad/bc=104 400/160 140=1.86 说明两者有联系,2023年10月2日,蚌埠医学院,18,偏 倚(bias),现患-新发病例偏倚(prevalence-incid
8、ence bias)又称奈曼偏倚,凡因现患病例与新病例的构成不同,只调查典型病例或者现患病例的暴露情况,致使调查结果出现的系统误差都属于本类误差,2023年10月2日,蚌埠医学院,19,偏 倚(bias),例如:Friedman等人在美国弗明汉地区对心血管系统疾病的研究中发现,男性居民在队列研究和病例对照研究中RR和OR分别为2.4和1.16,进一步分析发现,冠心病病人在确诊后,改变了原来的生活习惯或嗜好,从而使血中胆固醇水平降低或与正常人相比血中胆固醇水平增长速度较慢所致。,2023年10月2日,蚌埠医学院,20,血胆固醇与冠心病的关系 队列研究 病例对照研究 病例 对照 合计 病例 对照
9、合计 75 85 462 547 38 34 72 75 116 1511 1627 113 117 230合计 201 1973 2174 151 151 302 RR=2.40 OR=1.16,胆固醇水平,2023年10月2日,蚌埠医学院,21,偏 倚(bias),易感性偏倚(susceptibility bias)观察对象可能因各种主客观原因不同,暴露于危险因素的概率不同,使得各比较组对所研究疾病的易感性有差异,从而可能夸大或缩小了暴露因素与疾病间的关联强度,导致两者间的虚假联系无应答偏倚(non-respondent bias)调查研究中那些因各种原因不回答或不能回答所提出问题的人、不
10、依研究设计接受治疗者人称为无应答者,2023年10月2日,蚌埠医学院,22,偏 倚(bias),检出征候偏倚(detection signal bias)在疾病和暴露之外存在一个征候因素,即一种临床症状或体征;这种症状或体征不是疾病的危险因素,但人们因具有这种征候去就诊,从而提高了早期病例的检出率;致使过高地估计了暴露程度,因而发生了系统误差,最终可能得出该征候因素与该疾病有联系的错误结论,2023年10月2日,蚌埠医学院,23,偏 倚(bias),时间效应偏倚(time effect bias)许多慢性病(如恶性肿瘤、冠心病)自接触有效暴露(内、外环境的危险因素)之日起至出现临床症状止,其间
11、经过一段漫长的潜隐过程;在此期间他们实际上是有暴露史但未出现症状,用现有检测手段未能发现有症状的病人;但由于无明显的症状,因此常被错误地归入健康对照组内,2023年10月2日,蚌埠医学院,24,偏 倚(bias),排除偏倚(exclusive bias)研究者在设计时除规定研究对象诊断标准、纳入标准外,还应规定哪些个体不能选作研究对象,即规定排除标准,这些标准在实施期间不得更改志愿者偏倚(volunteer bias)志愿参加观察的研究者同非志愿者在关心健康、注意饮食卫生及营养食疗、禁烟禁酒、坚持锻炼等方面有差异,因志愿者常被入选为观察对象,而非志愿者常被落选,故这样的观察或研究结果肯定有选择
12、偏倚,2023年10月2日,蚌埠医学院,25,偏 倚(bias),测量(以病例对照研究为例)总体 选择概率 暴露 非暴露 暴露 非暴露病例非病例,样 本,x,x1,x2,x3,x,x1,x2,x3,病例,非病例,Y=x/x,Y1=x1/x1,Y2=x2/x2,Y3=x3/x3,2023年10月2日,蚌埠医学院,26,偏 倚(bias),上图所示:总人群X.X3/X1.X2样本1 x.x 3/x 1.x 2根据选择概率1 选择偏倚 或=-1,Y.Y3,Y1.Y2,OR1-OR,OR,Y.Y3,Y1.Y2,2023年10月2日,蚌埠医学院,27,偏 倚(bias),选择偏倚控制方法了解整个研究中可
13、能出现的选择偏倚严格掌握研究对象纳入、排除标准取得研究对象合作,减少无应答、失访尽量采用多种对照采用严格科学的研究设计,2023年10月2日,蚌埠医学院,28,偏 倚(bias),二、信息偏倚(information bias)在收集和整理有关暴露或疾病资料时所出现的系统误差,主要发生在观察、收集资料及测量等实施阶段 这种偏倚既可来自于研究对象、研究者本身,也可来自于测量仪器、设备、方法等。,2023年10月2日,蚌埠医学院,29,偏 倚(bias),常见种类暴露怀疑偏倚 诊断怀疑偏倚测量偏倚 报告偏倚回忆偏倚 归类错误偏倚 诱导偏倚,2023年10月2日,蚌埠医学院,30,偏 倚(bias)
14、,暴露怀疑偏倚(exposure suspicion bias)研究者在收集并确定病例组的暴露比例时所具有的认真、细致、深入程度同对照组相比有重大的系统差别 诊断怀疑偏倚(diagnostic suspicion bias)常发生在前瞻性研究中,在病例对照研究中也可发生,特别是诊断亚临床病例,判断药物的毒副作用时,研究者主观偏见和研究对象的主观因素,2023年10月2日,蚌埠医学院,31,偏 倚(bias),测量偏倚(detection bias)实验过程中由于实验的仪器和试剂质量及操作人员的操作误差造成的偏倚称为测量偏倚,又叫检出偏倚 报告偏倚(reporting bias)研究对象的有意做
15、假所造成,即有意的夸大或缩小某些信息而导致的偏倚,亦被称作说谎偏倚,2023年10月2日,蚌埠医学院,32,偏 倚(bias),回忆偏倚(recalling bias)研究对象在回忆以往发生的事件或经历时,由于记忆失真或不完整在准确性和完整性上的差异所致的系统误差归类错误偏倚(misclassification bias)每项病症所用的客观诊断试验或测定仪器都有一定的灵敏度和特异度,而不可能是100%,于是就会产生一定的假阳性和假阴性错误即误诊和漏诊这就发生了错分,即本应是病人,错将他分入了对照组,而本应是健康者,错将其分入了病例组,2023年10月2日,蚌埠医学院,33,偏 倚(bias),
16、诱导偏倚(inducement bias)调查者的询问技术不正确,或为获得阳性结论诱使被调查者做一倾向性回答,往往表现为对病例组做诱导,而对对照组不做诱导或负诱导,由此只能作出虚假的结论,2023年10月2日,蚌埠医学院,34,偏 倚(bias),测量 信息偏倚的表现形式为错误分类,暴露状态、疾病结局、混杂因素都可能发生错分。目前用于错分的软件有很多种,以暴露因素的错分为例进行分析。以研究对象的一个样本(对照组)为例,令:真正暴露X=1,真正非暴露X=0;被分类为暴露X*=1,被分为非暴露X*=0。由此得到四个概率:,2023年10月2日,蚌埠医学院,35,偏 倚(bias),Se=暴露对象被
17、分为暴露的概率=灵敏度=Pr(X*=1 X=1)Fn=暴露对象被分为非暴露的概率=假阴性概率=Pr(X*=0 X=1)=1-SeSp=非暴露对象被分类为非暴露的概率=特异度=Pr(X*=0 X=0)Fp=非暴露对象被分类为暴露的概率=假阳性概率=Pr(X*=1 X=0)=1-Sp,2023年10月2日,蚌埠医学院,36,偏 倚(bias),假设研究对象B1是真正暴露,研究对象B0是真正非暴露,那么:,B1=预期被分类为暴露的研究对象数=Se B1+Fp B0(方程式1),*,2023年10月2日,蚌埠医学院,37,偏 倚(bias),B0=预期被分类为非暴露的研究对象数=Fn B1+Sp B0
18、(方程式2)注意:Se+Fn=Fp+Sp=1,故错分不改变总数:M0=B1+B0=(Se+Fn)B1+(Sp+Fp)B0=B1+B0 在大多数研究中,观察到的是正确分类数和错分类数的和。假定灵敏度和特异度分别为Se和Sp,(则Fn=1-Se,Fp=1-Sp),那么通过解方程式1和式2可以估计B1 和 B0,*,*,*,2023年10月2日,蚌埠医学院,38,偏 倚(bias),从方程式2得到:B0=(B0-Fn B1)/Sp代入方程式1得到:B1=Se B1+(B0-Fn B1)/Sp求得:B1=(B1 Fp M0)/(Se+Sp-1)B0=M0-B1同样可以从错分的病例数A1和A0来估计A1
19、和A0:A1=(A1-FpM1)/(Se+Sp-1),*,*,*,*,*,*,*,2023年10月2日,蚌埠医学院,39,偏 倚(bias),A0=M1-A1,M1是观察的病例总数,然后进行暴露分类的灵敏度分析。此方法可应用于病例对照、封闭队列和患病率调查资料的分析。信息偏倚=OR1-OR/OR如=0不存在如0存在,正偏倚,2023年10月2日,蚌埠医学院,40,偏 倚(bias),两种结果无差异性错误分类 暴露或疾病的错误分类同研究分组无关,各比较组间不存在差异;在多数情况下模糊了研究组的差异,使OR偏低差异性错误分类 暴露或疾病的错误分类同研究分组有关,各比较组间存在差异;造成高估或低估效
20、应值,2023年10月2日,蚌埠医学院,41,2023年10月2日,蚌埠医学院,42,两组调查所得暴露情况与实际暴露情况 实际暴露情况调查所得 病例 对照暴露情况+-合计+-合计+54 12 66 27 21 48-6 28 34 3 49 52 合计 60 40 100 30 70 100,2023年10月2日,蚌埠医学院,43,偏 倚(bias),OR=6070/30 40=3.5OR1=66 52/34 48=2.1信息偏倚=2.1-3.5/3.5=-0.400,负偏倚,低估。,2023年10月2日,蚌埠医学院,44,偏 倚(bias),控制方法明确资料收集方法和严格质量控制尽可能采用盲
21、法、进行一致性检验测量仪器、试剂、方法标准化采用客观指标的信息采用调查技巧避免回忆偏倚资料校正,2023年10月2日,蚌埠医学院,45,不识别混杂就难于立足与混杂世界,偏 倚(bias),三、混杂偏倚 暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰 混杂偏倚主要是由于混杂因素在两比较组分布不均而造成的。常常在资料分析阶段显露出来。因而一旦认识后可以设法纠正的。,2023年10月2日,蚌埠医学院,46,偏 倚(bias),混杂因素(confounder):又称为混杂因子,指能引起混杂的因素,即指与研究因素和研究疾病都有关,在各比较组中分布不均,可以歪曲因素与疾病之间真正联系的因素。
22、,2023年10月2日,蚌埠医学院,47,偏 倚(bias),混杂因素特点:(1)、不是要研究的暴露因素,而是外部变量。(2)必须与所研究的疾病有联系,是疾病的危险因素。(3)、必须与所研究的暴露因素有联系。(4)、不应是暴露与疾病因果链中的一个中间环节。,2023年10月2日,蚌埠医学院,48,偏 倚(bias),示意图 F(年龄)E(吸烟)D(肺癌),?,2023年10月2日,蚌埠医学院,49,偏 倚(bias),混杂偏倚 假关联继发关联直接因果关联的歪曲,C,E,D,D,E,F,D,E,F,(1)继发关联,(2)直接因果关联的歪曲,(3)直接因果关联的歪曲,图5 混杂偏倚引起假关联,?,
23、?,?,2023年10月2日,蚌埠医学院,50,偏 倚(bias),1.继发关联(secondary association)纯粹由混杂偏倚产生的关联怀疑的病因(暴露)E与疾病D并不存在因果关系,而由于两者(E,D)有共同的原因C,从而继发产生E与D的关联E与C也可以由于相关(因果方向不明)而产生继发关联,2023年10月2日,蚌埠医学院,51,黄色瘤D,喝咖啡E,高血清胆固醇C,吸烟C,胰腺癌D,冠心病E,?,?,例:,继发关联,2023年10月2日,蚌埠医学院,52,偏 倚(bias),2.直接因果关联的歪曲 怀疑的病因(暴露)E与疾病D既存在直接关联,又存在间接关联(图5,(2))或与其
24、他危险(保护)因素F存在相关(图5,(3))直接因果关联程度或方向将可能受到混杂干扰,歪曲估计值,2023年10月2日,蚌埠医学院,53,HIV感染D,性乱F,静脉吸毒E,?,例:,直接因果关联的歪曲,2023年10月2日,蚌埠医学院,54,偏 倚(bias),判定方法 专业知识分层分析进行定量判别,2023年10月2日,蚌埠医学院,55,偏 倚(bias),根据专业知识判别法1、人口统计学因素:性别、种族、职业、经济收入、文化水平等2、研究因素以外的其他危险因素如:饮水不卫生与食源性腹泻营养不良 饮酒与银屑病吸烟,2023年10月2日,蚌埠医学院,56,偏 倚(bias),分层分析进行定量判
25、别1、含有某可疑混杂因素(f)时:研究因素与研究疾病的效应估计值为:cRR或cOR,称为粗RR或OR2、排除该f的可能混杂作用时:研究因素与研究疾病的效应估计值为:aRR或aOR,称为调整RR或OR或aRRM-H或aORM-H表示,2023年10月2日,蚌埠医学院,57,偏 倚(bias),3、a 如cRR或cOR=aRRM-H或aORM-H,则f无混杂作用。cRR或cOR就不存在f的混杂偏倚b 如cRR或cORaRRM-H或aORM-H,则f有混杂作用。cRR或cOR就存在f的混杂偏倚。(1)、cRR或cOR aRRM-H或aORM-H,为正偏倚,阳性偏倚。(2)、cRR或cOR aRRM-
26、H或aORM-H,为负偏倚,阴性偏倚。,2023年10月2日,蚌埠医学院,58,偏 倚(bias),混杂偏倚=前提:可疑混杂因素和研究因素之间在引起所研究疾病时不能存在交叉作用。,cRR或cOR-aRRM-H或aORM-H,aRRM-H或aORM-H,2023年10月2日,蚌埠医学院,59,偏 倚(bias),举例:在一次非配对的病例对照研究中,暴露因素为E,疾病为D,潜在的混杂因素为年龄,研究结果如表1:,表1:因素E在各比较组的分布 因素E 病例 对照 有 30 18 无 70 82 合计 100 100 cOR=3082/18 70=1.91表示:因素E可能与疾病D的发生有关,2023年
27、10月2日,蚌埠医学院,60,偏 倚(bias),进一步考虑年龄对结果的影响(表2),可见对照组80%对象年龄小于40岁,病例组仅50%小于40岁,两组年龄分布不一致。表2:各比较组的年龄分布年龄(岁)病例 对照 40 50 8040 50 20合计 100 100,2023年10月2日,蚌埠医学院,61,偏 倚(bias),从表3可见:代表一般人群的对照组中小于40岁的暴露比例低于40岁及以上者。表3:对照组中因素E与年龄的关系年龄(岁)有E 无E E(%)40 8 72 10 40 10 10 50 合计 18 82 18,2023年10月2日,蚌埠医学院,62,偏 倚(bias),病例组
28、中因素E与年龄的关系如表4:表4:病例组中因素E与年龄的关系 年龄(岁)有E 无E E(%)40 5 45 50 40 25 25 10 合计 30 70 30,2023年10月2日,蚌埠医学院,63,偏 倚(bias),将上述对象按年龄分为小于40岁和大于等于40岁进行分层分析(表5)表5:因素E与疾病按年龄的分层分析 40 40 病例 对照 病例 对照 有 5 8 25 10 无 45 72 25 10合计 50 80 50 20,因素E,2023年10月2日,蚌埠医学院,64,偏 倚(bias),OR40=1.0,用Mantel-Haenszel计算调整后的效应估计值aOR为1.0。aOR cOR,此时可认为年龄作为一个混杂因素,夸大了E与D之间的真实联系。当外来干涉因素符合混杂因素的四个基本条件,其cRR或cOR=分层后的RRi或ORi,各分层的相等或相近,则混杂偏倚存在。,2023年10月2日,蚌埠医学院,65,偏 倚(bias),混杂偏倚的控制标准化率分析分层分析多变量分析配比随机化分配限制进入,