医学论文中的常见统计学错误.ppt

资源描述

《医学论文中的常见统计学错误.ppt》由会员分享，可在线阅读，更多相关《医学论文中的常见统计学错误.ppt（34页珍藏版）》请在三一办公上搜索。

1、医学论文中的常见统计学错误,中国疾病预防控制中心金水高,正确的统计学方法必须贯穿于从课题的统计设计到论文撰写的全过程。,不管是实验室研究、临床研究还是现场调查，其数据的归纳整理，都要列成一定的标准格式，以便于进行计算机的录入及统计分析。其基本要求为：1.横为记录，纵为变量2.对每个变量要起合适的变量名3.对分类变量中用字符表示的取值在进行计算机录入时必须按照一定的规矩将其转换为数值。,表1高血压患者治疗周后的效果,表2人群危险因素调查的数据格式,从统计学的角度，我们并不关心数据是来自临床还是实验室还是现场，我们首先关心的是：数据中那些属于研究者所关心的“产出”？即所谓的因变量反应变量？这些往往

2、是研究者的研究设计假设中的产出。这些数据的属性：是定性还是定量资料。确定了所关心的研究产出后，其它的变量就都可以解释为是这类变量的属性。研究者要做的工作是：分析这些产出的基本情况研究这些属性是否对于他所关心的产出存在关联，或叫有影响。这就是统计的几件基本工作：定水平，作比较，找关系。,一、计数资料分析中的常见错误举例,率与构成比某研究想了解筛查与自查相比发现的肝癌病例分期是否存在差异，是否筛查更能发现早期肝癌病人。,一、计数资料分析中的常见错误举例,率与构成比（续）,一、计数资料分析中的错误举例,2.样本量/阳性例数较少时的统计分析,某市乙肝表面抗原检测结果,某市各区的乙肝表面抗原阳性率（%）

3、,一、计数资料分析中的错误举例,3.一般的2检验只能得到总的是否存在差异的结论。,某病不同月份检出率,2=58.16 P0.0000,一、计数资料分析中的错误举例,类似这样的错误不仅存在于计数资料的统计分析中，经常还发现于Logistic回归的结果分析中。不同职业对于某种职业肿瘤的危险度分析,二、统计图表的错误使用,1.统计表的误用：主要是不符合主谓语要求。在统计表中，要突出研究者所要分析的指标，要将其准确的描述清楚，例如在不同条件下该指标的变化、差异等。因此一般，要将不同条件作为主语，指标作为谓语。统计制表要符合主谓语的原则。,统计表的正确表达格式,主谓语颠倒的例子,正确的表达方式,二、统计

4、图表的错误使用,2.统计图的误用：1）线图的误用：线图只能用于描述某个指标（如吸烟率）随定量指标（如时间、身高）发生变化的情况。而不能用来描述某个指标（如吸烟率）在某个定性/分类指标不同取值/分类（如地区）之间的差异。因为分类指标中的各个分类值之间没有大小的关系。2）图的滥用：在PPT中用图比较清晰，而在论文中除非表示趋势，一般不建议用图。,二、统计图表的错误使用,错误的横坐标表示正确的横坐标表示,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误比数比与相对危险度的关系用哑变量表示的自变量各个水平之间的比数比的估计比数比与相对危险度的正确解释（因素之间作用大小的比较）,三、Lo

5、gistic 回归中的主要统计学错误,哑变量设置中的错误下例是一个有关分类变量赋值的例子：某个吸烟调查中一些自变量的意义及赋值变量名变量意义变量可能取值研究者对变量的赋值A 如果想要烟，你认为非常容易；1 你能容易得到吗？有点容易；2 有点困难；3 非常困难。4B 在过去的一个月里，没有看到过；1 你是否在电视里看到看到过，是关于反对吸烟的；2 过有关吸烟的任何内容？看到过，是关于赞成吸烟的；3 看到过，反对与赞成的都有。4C 你的祖母是否吸烟？不吸；1 不知道；2 吸烟。3,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误：存在的主要问题剖析：变量A、B、C均为分类变量

6、，而分类变量的各个分类值之间是没有大小的。解决的办法：设置哑变量。用哑变量表示变量B的取值可能可能回答B1B2B3 没有看到过 000 看到过，是关于反对吸烟的100 看到过，是关于赞成吸烟的010 看到过，反对与赞成的都有001,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系：队列研究中暴露与患病的关系暴露情况患病情况合计患病未得病暴露组 a ba+b未暴露组 c dc+d 合计 a+cb+da+b+c+d,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系：相对危险度：RR=a(a+b)/c(c+d)=a(c+d)/c(a+b)比数比

7、：OR=a(a+b)/b(a+b)/c(c+d)/d(c+d)=(ad)/(bc)当，a(a+b),c(c+d)时，可以有a(a+b)ab 及c(c+d)cd此时，才可以有：RROR因此要分析什么时候存在这种关系，什么时候不存在。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计假设在研究吸烟与一些因素的关系时，拟合了下列形式的Logistic回归方程：Logit(P|y=1)=b0+b1 B1+b2 B2+b3 B3+b4(SEX)+b5（AGE）y=1为吸烟，y=0 为不吸烟。AGE为年龄（岁）。SEX为性别，SEX=1为男性，SEX=0为女

8、性。B1,B2,B3的定义同前。b0为截距，b1-b5分别为各自变量的偏回归系数。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计我们的研究设想是比较看到过烟草广告不同情况对于吸烟的影响。进行比较的指标是OR。因此要估计不同情况下的OR大小。自变量第一个水平，B1=0,B2=0,B3=0,其比数为：P0/(1-P0)=expb0+b4(SEX)+b5（AGE)。第二水平：B1=1,B2=0,B3=0,P2/(1-P2)=expb0+b1+b4(SEX)+b5（AGE)。第三水平：B1=0,B2=1,B3=0,P3/(1-P3)=expb0+b2

9、+b4(SEX)+b5（AGE)。第四水平：B1=0,B2=0,B3=1,P4/(1-P4)=expb0+b3+b4(SEX)+b5（AGE)。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计自变量的第二水平（看到过关于反对吸烟广告的组）与对照组（没有看到过任何吸烟广告组）的OR为：OR(二水平：一水平)=expb0+b1+b4(SEX)+b5（AGE)/expb0+b4(SEX)+b5（AGE)=exp(b1)。其他各组与对照组的OR可以仿照计算。即，OR(三水平：一水平)=exp(b2),OR(四水平：一水平)=exp(b3)。,三、Log

10、istic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计设置为哑变量后各水平之间的比数比变量水平一水平二水平三水平四水平对照（一水平）1 exp(-b1)exp(-b2)exp(-b3)二水平exp(b1)1exp(b1-b2)exp(b1-b3)三水平exp(b2)exp(b2-b1)1 exp(b2-b3)四水平exp(b3)exp(b3-b1)exp(b3-b2)1,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计设置为哑变量后各水平之间的比数比变量水平一水平二水平三水平四水平对照（一水平）1 1.

11、56 3.56 0.86二水平0.641 0.44 1.81三水平0.28 2.28 1 4.14四水平1.16 0.55 0.24 1,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释某文献在研究影响妇女产前检查的可能因素时，拟合了一个Logistic回归模型。在进行分析后，认为由于量纲相同，可以由回归系数的绝对值直接判定它们与产前检查关联强弱。其结论为：孕产期卫生知识妇女文化程度妇女年龄丈夫文化程度丈夫职业家庭距卫生院距离。,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释某文献对一些自变量的设置变量名分组年龄1：15-2：20-45妇女受教育程度1：初中以下 2：初中及以上丈夫的职业1：农业 2：非农业,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释设置为哑变量后各水平之间的比数比变量水平一水平二水平三水平四水平对照（一水平）1 1.56 3.56 0.86二水平0.641 0.44 1.81三水平0.28 2.28 1 4.14四水平1.16 0.55 0.24 1,谢谢,

展开阅读全文