《描述性研究和分析性研究.ppt》由会员分享,可在线阅读,更多相关《描述性研究和分析性研究.ppt(132页珍藏版)》请在三一办公上搜索。
1、流行病学研究方法,描述性研究和分析性研究,描述性研究,描述性研究(descriptive study),也称“描述性流行病学”是利用已有的资料或特殊调查资料,经过整理归纳,以描述疾病或健康状态在人群的分布情况,为进一步的流行病学研究提供基础资料。,描述性研究的性质和任务,获得病因线索(疾病或健康状况的影响因素);有助于社区诊断,明确卫生保健和疾病防制的重点,为防制措施的制定提供依据。,描述性研究的特点,属于观察法为进一步分析研究提供基线资料提供病因线索无须设立对照常用指标:患病率,描述性研究的种类,现况调查以个体为单位收集信息生态学研究以群体为单位收集信息筛检快速找出可疑病人,现况研究,定义在
2、特定时点或时期内,对特定人群中某疾病或健康状况及相关影响因素进行调查,从而探索具有不同特征的暴露情况与疾病或健康状况的关系。又称为患病率研究、横断面研究适用于病程较长而患病率较高的疾病研究,现况研究的目的,分析疾病或健康状况与环境因素、人群特征间的关系,提出病因假设;确定高危人群、易感人群(如:抗体产生率);评价医疗卫生措施效果;了解人群健康水平,为卫生工作计划和决策提供依据。,现况研究的种类,普查抽样调查,普 查,定义在特定时间,对特定范围内所有对象进行调查。符合地理、生理特点的所有对象,普 查,目的了解疾病或健康状况的三间分布了解人群健康水平确定正常生理值范围早期发现和治疗病人评价卫生服务
3、利用率和效果,普 查,应遵循的原则所适用疾病应有明确诊断标准,且易于诊断,有切实可行的治疗方法患病率应较高明确普查范围、时间诊断方法应统一,有较高灵敏度和特异度,易实施控制漏查率(30%),普 查,局限性量大,不易细致费用大易漏检而出现偏倚,抽样调查,以随机样本信息推断总体情况基本原则随机抽样样本量适宜,抽样调查的一般步骤,界定总体选择适当的抽样方法确定抽样单位确定样本大小进行抽样调查收集、整理和分析资料,抽样调查的设计和实施,1、明确目的和对象普查糖尿病40岁以上的居民抽样调查成人肥胖情况18岁以上成人,抽样调查的设计和实施,2、确定调查的类型及抽样方法确定普查范围确定抽样方法单纯随机抽样系
4、统抽样分层抽样整群抽样多级抽样,单纯随机抽样(简单随机抽样),最简单、最基本的抽样方法从总体N个对象中,利用抽签或其他随机方法抽取n个总体中每个对象被抽到的概率相等,总体与样本示意图,系统抽样(机械抽样),将总体各个体单位按某种标志排列、连续编号根据总体数N和确定的样本数n,计算抽样距离(N/n),Systemic sampling,系统抽样(机械抽样),3.用单纯随机方法在第一组中确定一个起始号4.从此起始点开始,每隔K(K=N/n)个单位抽取一个作为研究对象,Systemic sampling,系统抽样示意图,整群抽样,Cluster sampling,将总体分成若干群组,抽取其中部分群组
5、作为观察单位组成样本,整群抽样示意图,分层抽样,Stratified sampling,将总体单位按某种特征分为若干次级(层),然后从每一层内单纯随机抽样组成一个样本。,分层抽样,Stratified sampling,按比例分配(proportional allocation)最优分配(optimum allocation),分层抽样示意图,多级抽样,将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将以上抽样方法结合使用,在大型流行病学调查中常用。,Multistage sampling,一级抽样单位Primary units,二级抽样单位Secondary units,多级抽样 M
6、ultistage sampling,抽样调查的设计和实施,3、确定样本含量需考虑的因素预期现患率对结果精确性的要求,即容许误差检验水准,即显著性水平个体间的变异性大小,即标准差s,计量资料样本大小估计公式Formulas for Numerical data,计数资料样本大小估计公式Formulas for Categorical data,当样本含量n30时,用右边的公式更合适。,抽样调查的设计和实施,4、确定研究指标和制定调查表调查指标一般包括的项目一般项目(个人基本信息)疾病相关指标暴露指标调查者信息,抽样调查的设计和实施,5、确定测量和检验方法简单、易行、灵敏、特异6、培训调查员,抽
7、样调查的设计和实施,7、资料的整理、分析,结果解释资料分析描述性分析(总的率、基本特征、疾病分布)相关分析或分组比较结果解释难确定暴露和结局间的时间先后,故一般不能解释为因果关系;有些暴露因素不受疾病状态影响,且有明确的前因后果时间特征,可解释为因果联系,现况调查中的常见偏倚,选择偏倚(selection bias)抽样不是完全按随机方式进行无应答偏倚幸存者偏倚,现况调查中的常见偏倚,信息偏倚(information bias)调查对象引起(病例易回忆暴露,对照可能遗忘)调查员偏倚测量偏倚,现况调查的优缺点,优点人群代表性好,结果易推广所用时间短、费用较低偏倚相对较小,现况调查的优缺点,缺点常
8、难以区分暴露和结局间的时间顺序只能反映疾病的分布,不能反映风险,因果论证力度较弱易出现生存偏倚,筛 检,定义运用简便、快速的试验或其他措施,将可能有病但表面上健康的人,同可能无病的人区别开来,以对疾病作出早期诊断和治疗,达到最佳预后。,3,1,1,2,2,3,筛检 诊断 治疗,试验阴性无该病,试验阳性经诊断后无该病,试验阳性确诊患该病,筛检及诊断步骤示意图,筛 检,目的和意义筛检疾病的危险因素,保护高危人群早诊断、早治疗,保证良好预后开展流行病学监测,实施筛检的条件,筛检试验必须安全可靠,有较高真实性和可靠性筛检试验可行,效益显著筛检试验应快速、简单、方便、价廉、易被接受针对的是重大公共卫生问
9、题有确诊和治疗方法疾病有较长潜伏期或可识别的临床前期症状、体征,选择筛检判断标准的原则,对严重、早期治疗效果好、漏掉一个则后果严重的疾病,可选择灵敏度高的标准对治疗效果不理想,确诊复杂,治疗费用高,误诊一个病人会造成严重后果的疾病,可选择特异度高的标准对于误诊和漏诊均重要的疾病,可选择灵敏度和特异度相等,或使正确指数最大的界限值为标准,筛检试验的评价指标,黄金标准病理学标准(组织活检和尸体解剖)外科手术发现或特殊的影像诊断长期临床随访结果公认的综合临床诊断标准金标准是相对的,选择应结合临床具体情况,评价筛检试验的四格表,黄金标准筛检试验 病例组 非病例组 合计阳性 a(真阳性)b(假阳性)a+
10、b阴性 c(假阴性)d(真阴性)c+d合计a+c b+d a+b+c+d灵敏度=a/a+c100 阳性预测值=a/a+b 100特异度=d/b+d 100 阴性预测值=d/c+d 100准确度=a+d/a+b+c+d 100 患病率=a+c/a+b+c+d 100,真实性指标,灵敏度将实际有病的人正确地判为患者的能力。,真实性指标,假阴性率,又称漏诊率是指筛检方法将实际有病的人错判为非患者的比例。,真实性指标,特异度指筛检试验能将实际无病的人正确判为非患者的比例。,真实性指标,假阳性率,又称误诊率是指筛检试验将实际无病的人错判为患者的比例。,真实性指标,约登指数又称正确指数,是综合评价真实性的
11、指标。约登指数=灵敏度+特异度-1,可靠性,又称信度,是指在完全相同的条件下,重复进行筛检试验获得相同结果的稳定程度。其影响因素包括试验条件观察者对象的个体变异,预测值(predictive value),又称诊断价值指用筛检结果来估计受检者患病或不患病的可能性大小。,预测值,疾病患病率低时,阳性预测值常比较低。,提高筛检效率的方法,选择患病率高的人群高危人群选用高灵敏度的试验 联合试验,联合试验,并联试验,又称平行试验,可提高灵敏度,减少漏诊,阴性预测值高(乳腺癌筛检)串联试验,又称系列试验,可提高特异度和阳性预测值(尿糖、餐后2h血糖)混合试验,根据指标性质和质量,综合使用并联和串联方法,
12、分析性研究,一、病例对照研究,(一)基本概念 选择患有特定疾病的人群作为病例组,和未患这种疾病的人群作为对照组,调查两组人群过去暴露于某种(些)可能危险因素的比例,通过比较两组暴露率或暴露水平的差异,判断暴露危险因素是否与疾病有关联及其关联程度大小的一种观察性研究。,病例对照研究原理示意图,(二)病例对照研究特点,属于观察研究方法 即研究者不给研究对象以任何干预,只是客观地收集对象的暴露情况疾病发生在前,研究在后观察方向由“果”及“因”即已知对象患病或未患病,再追溯其可能有关的原因研究对象按是否患有所研究的疾病分为病例组与对照组结论是通过比较分析暴露与疾病的联系得出的难以证实因果关系,只能推测
13、暴露与疾病是否有关联,暴露(Exposure),指研究对象曾经接触过某些因素,或具备某些特征,或处于某种状态。这些因素、特征或状态即为暴露因素。危险因素(risk factor)能影响人群发病率变动的内外环境因素。,暴露(Exposure),暴露因素可以是机体的特征,也可以是体外的;可以是先天的、人体固有的,也可以是后天获得的;可以是有害的,也可以是有益的。是研究者所关心的任何因素,也称研究变量。如:年龄、性别、BMI、血型、特殊职业暴露、环境污染、疾病家族史、某种基因型、吸烟、少食果蔬、高盐饮食、运动、平衡膳食。,历史与典型范例,上世纪50年代:吸烟与肺癌(Doll与Hill)上世纪60年代
14、:早孕服用雌激素与少女阴道腺癌,实例1.吸烟与肺癌的病例对照研究,Doll与Hill于19481952年进行研究。从伦敦20所医院及其他几个地区选取确诊的肺癌1465例。每一病例按性别、年龄组、职业等配一个非肺癌对照。调查两者吸烟暴露情况。经分析:肺癌病人中不吸烟者的比例远小于对照组,差别显著;肺癌病人在病前10年内大量吸烟者(25支/日)显著多于对照组;随着每日吸烟量的增加,肺癌预期死亡率升高;肺癌病人开始吸烟的年龄较早,持续的年数较多。,实例2:年轻女性阴道腺癌与母亲妊娠期服用己烯雌酚的关系,背景:19661969年Vincent纪念医院7例阴道癌患者,1522岁女青年类型异常;时间、地区
15、分布异常集中;年龄分布异常这些分布的差异(属于描述性流行病学范畴)提示了线索:该地区有某种/些因素与阴道腺癌异常发病有关。,病例对照研究:,选病例组:8例,均经病理确诊;选对照组:每个病人配4个对照,共32个对照,选自与病例同一医院(病房)出生、出生日期与病例前后不超过5天的女青年。调查:设计几十种有关因素,对病例组、对照组及其她们的母亲进行了调查。统计学处理:结果 母亲怀孕期用雌激素(已烯雌酚)、母亲怀孕时阴道出血、以往流产史均有统计学意义。,结论:,作者认为母亲妊娠早期开始持续服用已烯雌酚显著地增加了其女儿青春期发生阴道腺癌的危险性。OR=28.0根据这一研究结果,又鉴于阴道腺癌的严重性,
16、美国FDA撤消了怀孕妇女使用已烯雌酚的批准书。,(三)设计与实施,提出假设制定研究计划培训调查员执行计划资料整理分析撰写研究报告,研究计划中的核心内容,确定病例与对照的匹配方式研究对象/病例与对照的选择样本含量的估计研究因素的选择和资料的收集常见偏倚及其控制设计调查表,代表性 选择的病例要足以代表总体的病例,对照足以代表产生病例的总体人群或源人群(resource population)可比性 病例组与对照组在年龄、性别等主要特征方面无明显差异,(四)病例与对照选择的基本原则:,1、病例的选择,来源 医院病例资料社区人群资料类型新发病例 新近发生,回忆准确,首选现患病例 回忆易受到影响,但数量
17、多 死亡病例 误差大,极少利用病例的规定诊断明确,尽量使用金标准,统一诊断标准,2、对照的选择:,最好与病例的人群来源一致,代表无该病的随机样本。可以是同一医院或其他医院诊断为其他疾病的病人(非同一系统病例);可以是社区人口的非病例或健康的抽样;原则:候选对象必须来自产生病例的总体。即对照一旦发生所研究的疾病,就能成为病例组的研究对象。,对照的条件与来源,条件:未患此病的人(可以是其它疾病);不能为有共同危险因素的疾病病人;除研究因素外其它条件一致;来自同一人群;来源:从医院病人中选对照;从全人口中选对照;从亲属、同事、邻居中选对照。,(五)病例与对照的比较方法,成组比较配比法优点:提高可比性
18、缺点:增加对照寻找难度,易发生“配比过度”,(六)样本含量的估计,人群中研究因素的暴露率比值比(odds ratio,OR)值,检验的显著性水平把握度1-根据以上有关参数查表或代公式计算,(七)资料来源与收集,医院病案记录、疾病登记报告检测病人体液标本或病人生活的环境询问调查,1).选择偏倚(selection bias):对象选择阶段 入院率偏倚/伯克森偏倚具有或不具有某因素的患者入院率不同无应答偏倚检出症候偏倚:虚假因果联系 奈曼偏倚/幸存者偏倚控制:合理选择病例与对照,(八)常见偏倚及控制,2).信息偏倚(information bias):,资料收集阶段 回忆性偏性调查偏倚控制:采用客
19、观指标、做好调查技术培训与质量控制,两组调查条件一致,3)、混杂偏倚(confounding bias),混杂因素:是研究之外因素,既和疾病有联系(本身是危险因素),又和研究因素的暴露有联系的因素。年龄、性别最常见控制匹配 把混杂因素作为匹配因素分层分析 按混杂因素进行分层多因素分析,一、资料整理资料的核查、检错、归档。二、资料分析的准备资料的分组、归纳、编码、录入计算机。,四、资料的整理与分析,(一)统计描述1、描述研究对象的一般特征:研究对象人数及各种特征的构成、如性别、年龄、职业、疾病类型的分布等。2、均衡性检验:比较两组某些基本特征是否相似或齐同,目的是检验病例组与对照组是否有可比性。
20、(二)统计推断和分析,资料的分析,1.成组比较法资料的分析,两组暴露率是否存在差异,用卡方检验验证。即验证研究因素与疾病之间有否统计学联系。其计算可按传统的四格表的专用公式。,统计学假设检验:,RR(relative risk)相对危险度表示暴露组与非暴露组发病率之比,分析疾病与暴露之间联系强度,是一种概率。病例对照研究中不能计算概率,只能用OR代替RR。RR=暴露组的发生率/非暴露组的发生率。(表示E组的发生率是非E组的多少倍)OR的含义与RR近似。,计算关联强度:,比值比(odds ratio,OR)来估计暴露因素与疾病的关联强度指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非
21、暴露人数的比值。即OR=(a/c)/(b/d)=ad/bc。,OR的意义,OR=1:无关联,1正关联,危险因素 1 负关联,保护因素OR在0.91.1,暴露与疾病无联系OR在0.60.8或1.21.6,有弱联系OR在0.40.5或1.72.5,有中度联系OR在0 0.3或2.6,有强联系。,OR可信区间,由于OR值是通过一组样本调查所得的点估计值,存在抽样误差。因此,应该估计其可信区间。如果OR的95%可信区间包含1,则表明联系无统计学意义。若OR1.0,则因素为疾病的保护因素。,例:石棉与胸膜间皮瘤病例对照研究,检验病例组与对照组两组的暴露率差异是否有统计学意义,可以用卡方检验。x=(ad-
22、bc)*n/(a+b)(c+d)(a+c)(b+d)=28.94p0.001结论:两组的暴露率经统计学检验存在差异。计算暴露与疾病的关联强度,OR值的含义:暴露组的患病危险性为非暴露组的多少倍。上题例子中:OR=40*67/9*36=8.27结论:接触石棉者发生间皮瘤的危险性为未接触者的8.27倍。,1:1配对研究计算公式,2.配对病例对照研究的结果分析,结论:动脉管炎与患有钩体病有密切联系,其联系强度为39。,钩体病与脑动脉管炎的1:1病例对照研究,进行病例对照研究时应注意的事项,病例和对照的选择应应规定严格的定义、入选标准、除外标准。病例应尽量选用新诊断的病例。研究的关键是如何选择对照。在
23、危险因素的暴露方面,对照是一般人群的代表。对照与病例应有同等的暴露机会。病例和对照的暴露资料来源和资料搜集方法应尽可能相似。,如果怀疑职业暴露与疾病有关,应调查研究对象的全部职业史。尽可能用多种不同来源获取职业史。暴露的定义宜既不太宽、又不太窄。所研究的暴露应较常见(人群的暴露率5%)。匹配时,应注意勿匹配过头。,病例对照研究的优点,所需样本量小,省时、省钱、省人力,易于组织,出结果快;可同时进行一病多因的研究;特别适于病因复杂、潜伏期长的疾病及罕见病的病因研究。,病例对照研究的缺点,不能直接计算发病率、死亡率,不能直接计算RR,也不能证实因素与疾病因果关系易造成选择偏倚难以避免回忆偏倚选择对
24、象较困难,混杂的影响较难控制不适用于人群中暴露比例很低的因素,队列研究,队列研究又称定群研究、前瞻性研究、随访研究或者纵向研究。将一个范围明确的人群按是否暴露于可疑因素及其暴露程度分为不同的亚组,在一定时期内,随访观察和比较两组人群的发病率和死亡率。,(一)基本概念,队列研究是“由因及果”的研究,它所验证的暴露因素在研究开始前就已经存在了,研究者知道每个暴露对象的分组情况,这与病例对照研究不同。队列研究的目的是某特定暴露因素对单一疾病发病率或死亡率的影响,但它同时可观察到暴露因素对整个人体健康系统的影响。,特点,属于观察法研究开始于疾病发生前按暴露与否确定分组观察方向由因及果能验证暴露与疾病的
25、因果关系,用 途,检验病因假设描述疾病的自然史,前瞻性队列研究;历史性队列研究;双向性队列研究。,(二)队列研究的种类,队列研究的指征,要有明确的研究目的和检验假设所研究疾病的发病率和死亡率一般不应低于5要有把握获得观察人群的暴露资料要有确定发病或死亡等结局的简便而可靠的手段应能获得足够数量的观察人群,且该人群能被长期随访要有足够的人力、物力和财力,(三)研究实例,吸烟与肺癌的研究,(四)队列研究的实施,确定研究目的确定研究人群 研究人群的类型;暴露人群的选择;非暴露人群的选择;确定研究因素暴露资料的收集确定研究结局如何进行随访随访期的定义研究对象的随访,选择队列人群的基本要求,人群相对稳定尽
26、量选择医疗卫生记录完整,易调查或查询的人群不应选择污染比较严重地区的人群研究的疾病在人群中有较高发病率,暴露人群的选择,特殊暴露人群:指具有某种特殊暴露经历的人群,如暴露于某种毒物、暴露于污染的饮用水等。观察由单一暴露因素所导致的影响健康的多种效应。一般暴露人群:由具有不同暴露因素的个体组成,如研究因素包括饮用污染水、肝炎、黄曲霉毒素摄入量。研究多种暴露与多种疾病之间的关系。,暴露资料的收集,对暴露因素应进行定量,定量有利于增加对疾病因果关系的可信性。除注意暴露的剂量外,还应考虑作用时间的长短和中间是否曾经停止过。有关暴露因素的资料可以通过医学记录、工厂记录或者专门设计的调查表来收集。,非暴露
27、人群的选择,是由没有受到暴露因素影响的个体组成,在定群研究中作为暴露人群的对照。分为三类:内对照:这是最理想的对照;平行外对照:在职业流行病学研究中多见;一般社会人群对照;,同一研究人群中部分没有暴露或具有最低暴露剂量的人员即为内对照。如,研究某人群吸烟与疾病的关系,不吸烟者或少量吸烟者即为内对照。是最理想的对照。除了暴露因素外,其他因素与暴露人群的可比性强。,没有暴露或具有较低暴露水平的其他人群属于外对照。在职业流行病学研究中常用。如将具有某可疑暴露因素的某工厂的全体工人作为暴露组,而无该暴露因素的其他工厂作为非暴露对照。,一般人群的发病率和死亡率比较稳定且容易获得,可节省大量的时间和经费。
28、缺点是提供的资料比较粗糙,有时会低估暴露与疾病之间的联系。,(五)研究内容与资料收集,研究内容筛检研究对象与收集基线资料确定研究结局或终点确定随访内容和间隔时间,筛检出适宜的对象,剔除不合格对象对暴露情况进行调查,筛检研究对象与收集基线资料,结局是指研究者预期的结果事件。如吸烟与冠心病的关系,发生了冠心病即研究对象出现了结局。结局不局限于发病,还可以是死亡、各种化验指标(如血清中抗体、血脂、血糖)等。,每个研究对象的开始随访和终止随访的日期应被定义。随访时间的长短取决于暴露与疾病的联系强度,暴露因素作用越强,随访时间越短;随访时间的长短也与疾病的潜伏期有关,潜伏期短的疾病,随访可以很快结束,而
29、潜伏期长的慢性病,随访时间可以延续许多年。,研究对象的随访,保证随访成功是定群研究的关键之一,随访的目的有确定研究对象是否处于观察之中;确定研究人群中的各种疾病事件;进一步收集有关暴露与混杂因素的资料。随访的方法:利用常规登记的人群和疾病资料,如职工人事登记资料、疾病报告卡、死亡证明等;特殊安排的随访,如家访、电话访问或通信等。,在设计阶段,需对样本大小进行计算,以便了解需随访多少人才能发现暴露与疾病之间的联系。非暴露人群的发病率(P0)暴露人群的发病率(P1)所要求达到的显著性水平()要求达到的研究功效(),1、率的计算累积发病率(CI):当研究人群的数量较多,人口比较稳定时,以固定人口为分
30、母,全年某疾病发病的累积总数做分子。发病密度(ID):观察时间较长,人口很难稳定时,用总人数是不合理的,以人时为单位。分子为随访期间 被研究疾病的发病或死亡数,分母为“人时”。,(六)队列研究的资料整理与分析,2、人时的计算,当观察时间长,对象被观察的时间长短不一,以人为单位计算率不合理,较合理的方法是加入时间因素,用统一的标准来计算对象的暴露经历。以个人为单位,计算暴露人年,适用于样本量不大;使用寿命表法计算人年;用观察人数乘以随访时间,单位为人年。,3、暴露与发病关联指标计算,队列研究与病例对照研究的不同,可直接计算发病率。常用:相对危险度(RR)归因危险度(AR)归因危险度百分比人群归因
31、危险度与人群归因危险度百分比,暴露组的发病(死亡)率与非暴露组的发病率之比。表明暴露组发病或死亡的危险是非暴露组的多少倍。,表明暴露组与对照组发病危险相差的绝对值,又称率差,即危险特异地归因于暴露因素的程度。,对个体而言,吸烟者患肺癌的危险比患心血管病的危险性大。就人群而言,吸烟者引起心血管疾病的危害要大得多。前者具有病因学意义,后者具有疾病预防和公共卫生学意义。,又称病因分值(EF),指暴露人群中发病归因于暴露的成分占全部病因的百分比。,上例中,AR%=()/48.33=90.7%说明吸烟者中的肺癌不是完全由吸烟所致,90.7%归因于吸烟。,人群归因危险度(PAR)及百分比,表示全人群中由于暴露(某因素)所致的发病率或死亡率占人群所有发病率或死亡率的百分比,It代表全人群的率,I0代表非暴露组的率,(七)常见偏倚,选择偏倚信息偏倚混杂偏倚,优点,暴露发生在结局之前,资料可靠;可直接计算发病率,可直接分析病因的作用;可同时观察一种暴露与多种疾病的关系;有助于了解疾病的自然史。,缺点,不适用发病率低的疾病;对象不易保持依从性;研究费时、费钱、费力;研究设计要求相对严密。,谢 谢Thank You,