《医学科研设计与统计分析错误辨析与释疑.ppt》由会员分享,可在线阅读,更多相关《医学科研设计与统计分析错误辨析与释疑.ppt(104页珍藏版)》请在三一办公上搜索。
1、统计学学术讲座,题目:医学科研设计与统计分析 错误辨析与释疑作者:胡良平单位:军事医学科学院 生物医学统计咨询中心,问候,向您们重视科研工作科学性与严谨性的人们表示衷心地感谢!希望我的讲课能给您们带来一些欢乐和帮助!,开场白,别人喜欢以美酒会友本人习惯以问题酬宾首先请大家思考并回答下面的问题:,问题1:错在哪?,为了将某种治疗失眠的药物与安慰剂的疗效进行比较,根据失眠程度打分,1=轻度、2=中度、3=重度、4=极重度,很多人用t检验比较试验组与对照组失眠的平均值;若有5个访视点,仍对每个时间点进行t检验,对吗?,问题2:错在哪?,某单位试图比较6种降压药(含安慰剂)对飞行员的降压效果,在一段时
2、间内让他们每人随机地依次服6种药,每服一种药要重复观测7个数据,即从每位飞行员身上要观测42个数据,然后分析各药物的疗效。,问题3:用t检验处理下面 的资料错在哪?,心功能不全*与溶栓的关系,组 别 有*例数 无*例数 溶 栓(n=216)75 141未溶栓(n=356)162 194计算结果:2=6.422,P0.01。原作者的结论:溶栓与心功能不全的相关分析,发现两者的联系有统计学差异。,问题4:这样下结论错在哪?,问题的总结,在实际工作者运用统计学的过程中,从基本概念、科研设计、统计分析,到结论的陈述,错误无处不在,80%的误用率是十分保守的估计,我们生物医学统计咨询中心试图通过我们的努
3、力,使80%10%。,介绍,军事医学科学院生物医学统计咨询中心成果3项、著作7部、论文百篇举办全国培训班数十期、(业务范围详见下页),服务范围,1、大、中型科研课题协作;2、新药临床试验数据分析;3、生物医学科研人员和临床大夫科研素质的提高、科研设计与统计分析能力的培养。,敬告,科研要创新,创新不容易;理念很重要,设计定乾坤;资料要准确,分析应合理;推理有依据,结论方可信;劝君别着急,我能帮助您!,培训班消息,科研设计和统计分析及统计软件(SAS、SPSS)应用培训班时间:2004年08月12-17日地点:北京市太平路27号主讲:胡良平,与胡良平联系方式,电话及传真:E-mail:网站:100
4、850北京市太平路27号军事医学科学院生物医学统计咨询中心,讲授计划,一、统计分析方法合理选用 的预备知识与要领二、统计分析常见错误辨析 与释疑,专题一,统计分析方法合理选用的预备知识与要领,一、预备知识,(1)统计学包括哪些内容?(2)什么叫因素和水平?(3)资料类型如何划分?(4)什么叫交互作用?,一、预备知识,(5)什么叫多因素统计 分析?(6)什么叫多元统计分析?(7)什么叫实验设计类型?,(1)统计学包括哪些内容?,统计研究设计;统计资料的表达与描述;定量与定性资料统计分析;相关与回归分析;多元统计分析;生存资料统计分析;时间序列分析;,(2.1)什么叫因素和水平?,因素:研究者关心
5、的实验条件;水平:因素的具体表现形式。例:温度(30、60、90);药物种类(A、B、C)药;药物剂量(1、5、10)mg。,(2.1)实验因素与区组因素?,实验因素:研究者特别关心的实验条件,如:温度、药物种类、药物剂量,等;区组因素:即重要的非实验因素,如:性别、年龄、体重。,(3)资料类型如何划分?,定量(计量、计数);定性(名义、有序)。计量资料(如成人血液中钾含量:4.6mmol/L);计数资料(如脉搏:72次/min);名义资料(如血型:A、B、O、AB);有序资料(如疗效:痊愈、好转、无效、死亡)。,(4)什么叫交互作用?,假定某药对某病患者的疗效如下:药物 剂量:小 中 大 A
6、 优 中 差 B 中 优 差 C 差 中 优 三种药对某病的疗效将随着剂量的改变而改变。,(5)什么叫多因素统计分析?,一般指:同时考察影响结果的原因变量有多个,而结果变量只有一个,如:多因素设计资料的方差分析;多元线性回归分析;多元Logistic回归分析,等。,(6)什么叫多元统计分析?,一般指:同时考察影响结果的原因变量有一个或多个,而结果变量也有多个,如:多因素设计资料的多元方差分析;多重线性回归分析;主成分分析、聚类分析,等。,(7)什么叫实验设计类型?,在设计实验和分析定量资料时,都不可避免地要涉及到“实验设计类型”的概念。简单地说:实验设计类型就是合理安排实验因素和区组因素的具体
7、方法,例如:,(7)什么叫实验设计类型?,例1:成组设计:分别测量学术厅内男性与女性的身高所得的实验资料,就叫来自“成组设计的定量资料”;例2:配对设计:将在场的所有人按性别、年龄、身高配对,然后用两台血压计分别测各对人的血压所得的资料叫来自“条件相近者配对设计资料”。,最常见的设计类型,单因素设计(包括:单组设计、配对设计、成组设计、单因素多水平设计);析因设计;具有重复测量设计。,最常见的设计类型,三类常见实验设计类型举例,【例1】已知正常人乙酰胆碱脂酶的平均值为1.44单位,现测得13例慢性气管炎患者的乙酰胆碱脂酶分别为:1.50,2.19,2.32,2.41,2.11,2.54,2.2
8、0,2.36,1.42,2.17,1.84,1.96,2.39 问:慢性气管炎患者与正常人的平均乙酰胆碱脂酶之间的差别有无显著性意义?,单组设计举例,【例2】从八窝大白鼠中分别选出同性别、体重相近的两只,喂以水解蛋白和酪蛋白的饲料,四周后测定其体重增加情况,结果如下:窝编号 1 2 3 4 5 6 7 8 含酪蛋白组 82 66 74 78 82 76 73 90 含水解蛋白组15 28 29 28 24 38 21 37 问:两种饲料对大白鼠体重增加量之间的差别的影响有无显著性意义?,配对设计举例,【例3】有两组小儿肝炎患者,其一为甲、乙肝炎病毒混合感染,其二为重叠感染,治愈者的治愈天数如下
9、:混合感染(n1=9):55 25 14 26 42 23 40 27 56 重叠感染(n2=9):20 34 173 27 88 16 57 77 25 试比较两组疗效之间的差别有无显著性意义?,成组设计举例,【例4】研究单味中药对小白鼠细胞免疫机能的影响,把40只小白鼠随机分为四组,每组10只,雌雄各半,用药15d后,进行E-玫瑰结形成率测定,结果如下:对照组 14 10 12 16 13 14 12 10 13 9 党参组 21 24 18 17 22 19 18 23 20 18 黄芪组 24 20 22 18 17 21 18 22 19 23 淫羊藿组 35 27 33 29 31
10、 40 35 30 28 36,单因素四水平设计举例,【例5】某医科大学病理生理学教研室研究三种因素“小鼠种别A、体重B和性别C”对皮下移植SRS瘤细胞生长特性影响的结果,A、B、C三因素各有两个水平。A分为A1:昆明种、A2:沪白1号;B分为B1:2425克,B2:1315克;C分为C1:雄性、C2:雌性。共选了24只小鼠,在接种后第8天测得肿瘤体积见表1,请问:这是一种什么设计类型?应当对此资料作怎样的分析?,表1 三因素影响下小鼠第8天肿瘤体积 因素 肿瘤体积(cm3)|C 因素A与B:A1(B1 B2)A2(B1 B2)C1 0.7069 1.0838 0.0628 0.4712 0.
11、7854 0.9425 0.0942 0.0880 0.3581 0.3335 0.0471 0.1759 C2 0.0785 0.5027 0.0126 0.2246 0.1885 0.9550 0.0126 0.2513 0.3403 0.9215 0.0094 0.3676 0.2503 0.8514 0.0125 0.1327,三因素析因设计举例,表2 接受不同处理的家兔血浆中K+含量的测定结果处理组 家兔 血浆中K+含量(ppm)|(因素A)编号 缺氧时间T(h):T1(0)T2(0.5)T3(1)T4(2)A1(适应组)1 154.5 129.8 122.7 171.7 2 173
12、.0 124.0 170.4 168.6 3 186.0 131.0 137.0 138.0 4 161.0 154.0 178.0 128.0 5 187.0 158.0 162.0 152.0A2(平原组)6 144.4 135.5 149.9 129.1 7 147.1 134.2 138.3 146.1 8 183.6 189.3 190.5 227.3 9 181.7 160.3 163.3 163.3 10 166.7 136.8 134.6 142.5A3(急性缺 11 173.3 231.4 293.7 401.4 氧组)12 155.1 199.6 191.8 203.4 1
13、3 177.9 153.6 158.7 240.3 14 158.2 146.7 135.2 228.7 15 180.4 170.8 226.2 267.7,具有一个重复测量的两因素设计,【例6】某研究者为了探讨两种不同处理(因素A)和不同剂量(因素B)作用下不同时间点(因素T)上NFS-60细胞凋亡情况,将全部样品随机地均分为6个组,每组含3个样品。对各组中的每个样品在处理后5个不同时间点上观测200个细胞,数出凋亡细胞个数。因素A分为:即A1(单纯照射)、A2(照射+过钒酸钠(Perv)),各处理组的照射剂量(因素B,Gy)又分为0、3、10。设计格式和资料见表3,试判断此资料所取自的实
14、验设计类型,并对资料作相应的统计分析。,表3 不同处理和不同剂量作用下不同时间点上NFS-60细胞凋亡情况处理组 照射剂量 样品 200个细胞中凋亡细胞数|(因素A)(Gy)编号 时间T(h):T1(12)T2(24)T3(36)T4(48)T5(60)A1(照射)0 1 3 7 7 10 17 2 5 3 5 7 18 3 5 6 8 14 14 3 1 4 7 10 20 33 2 3 4 14 22 37 3 3 5 9 19 31 10 1 6 18 38 83 101 2 4 16 42 91 120 3 5 18 45 92 117A2(加Perv)0 1 4 6 4 12 14
15、2 2 4 6 14 17 3 3 7 3 11 19 3 1 5 7 7 14 17 2 3 5 9 12 19 3 7 6 6 15 16 10 1 5 10 16 33 49 2 4 12 12 37 44 3 3 9 14 36 52,具有一个重复测量的三因素设计,【例7】用贲门癌患者的标本制成液体,在三种不同处理条件下观测鸡胚背根神经节与鸡胚交感神经节中长出突起的神经节的比例。现有贲门癌患者10例,将每人的标本均分成三份,分别给予三种不同的处理(因素A),即A1(加入100ng/ml神经生长因子)、A2(加入200ng/ml神经生长因子)和A3(单用贲门癌培养液);并对每种处理后的标
16、本中的两种类型的神经节(因素B),即B1(背根神经节)与B2(交感神经节),观测长出突起的神经节的比例(Y)。设计格式和资料见表4,试判断此资料所取自的实验设计类型,并对资料作相应的统计分析。,表4 贲门癌患者的标本经三种处理后两种神经节中长出突起的神经节的比例病例号 Y(长出突起的神经节的比例)|A1(B1 B2)A2(B1 B2)A3(B1 B2)1 0.50 0.43 0.50 0.43 0.80 0.50 2 0.63 0.38 0.55 0.50 0.71 0.63 3 0.50 0.50 0.54 0.50 0.83 0.67 4 0.43 0.43 0.50 0.38 0.70
17、0.57 5 0.50 0.40 0.50 0.57 0.70 0.71 6 0.44 0.38 0.63 0.50 0.77 0.63 7 0.43 0.50 0.50 0.38 0.69 0.50 8 0.63 0.44 0.40 0.38 0.70 0.50 9 0.44 0.50 0.50 0.44 0.67 0.50 10 0.44 0.43 0.45 0.40 0.60 0.75,具有两个重复测量的两因素设计,二、合理选用统计分析方法的要领,(1)定量资料统计分析的要领(2)定性资料统计分析的要领(3)相关与回归分析的要领(4)多元资料统计分析的要领,(1)定量资料,统计分析方法合
18、理选用的要领:1、正确判定设计类型 2、检查资料前提条件,定量资料的参数与非参数检验,参数检验:u检验、t检验、方差分析、T2检验、Wilkss 检验;非参数检验:符号秩检验、秩和检验、等。,参数检验前提条件,独立性 正态性 方差齐性,可用t检验处理的定量资料所对应的设计类型及前提条件,独立性1、单组设计(正态性)2、配对设计(差量正态性)3、成组设计(正态性、方差 齐性),可用方差分析处理的定量资料所对应的设计类型及前提条件,设计类型:单因素多水平设计 其他多因素设计前提条件:独立性 正态性 方差齐性,定量资料实例,要想合理选用统计分析方法处理下面的定量资料,应当如何着手考虑?,表1 甲、乙
19、两种药物治疗高血脂病前后血清胆固醇(mmol/L)变化的测定结果 编 血清胆固醇值(mmol/L)|号 甲药:治疗前 治疗后 乙药:治疗前 治疗后 1 6.78 6.27 6.80 5.44 2 7.38 6.48 6.50 5.40 3 6.62 5.77 7.34 5.03 4 6.15 5.55 7.15 5.04 5 6.00 5.30 6.10 5.97 6 7.10 7.10 6.35 4.68 7 6.45 5.80 7.50 6.08 8 6.15 6.27 6.15 5.71 9.6.00 6.95 10.6.45 5.01 11.6.70 6.10 12.6.17 6.45
20、,本例的设计名称,具有一个重复测量的两因素设计。一个:指重复的方向上有一个因素,即“时间”;两个:指整个实验涉及到两个实验因素,即“时间与药物”。,(2)定性资料,统计分析方法合理选用的要领:1、认准列联表类型 2、检查资料的前提条件 3、弄清分析的目的,列联表类型,22表有四型;RC表有四型;高维表有三型。每一类仅举一例。,第一类表,介绍22表中的第一型,即横断面研究设计的22表。,横断面研究设计22表举例,手术时 感染 未感染间(h)例数 例数 5 13 229 5 7 56,横断面研究设计22表计算方法,(1)N40且理论频数T5,可用一般卡方检验;(2)N40但至少有一个1T5,可用校
21、正的卡方检验;(3)N40或有一个T1,应选用Fisher的精确检验;(4)若用软件计算,均可选用Fisher的精确检验结果。,另外三类四格表,(1)来自队列研究设计的四格 表;(2)来自病例-对照研究设计的 四格表;(3)来自配对设计的四格表。实例和分析方法从略。,第二类表,介绍RC表中的第二型,即结果变量为有序变量的RC表。,单向有序RC表举例,结果变量为有序变量的单向有序RC表计算方法,(1)秩和检验;(2)Ridit分析;(3)有序变量的Logistic 回归分析。,另外三型RC表,(1)双向无序的RC表;(2)双向有序且属性相同 的RC表;(3)双向有序且属性不同 的RC表。实例与方
22、法选用从略。,第三类表,介绍高维表中的第一型,即结果变量为二值变量的高维表。,结果变量为二值变量的三维列联表举例,高维表的计算方法,结果变量为二值变量的高维列联表的计算方法:(1)加权卡方检验;(2)多元Logistic回归分析(3)对数线性模型,另外两型高维表,(1)结果变量为多值有序变量的高维列联表;(2)结果变量为多值名义变量的高维列联表。实例与方法从略。,(3)相关回归分析要领,统计分析方法合理选用的要领:1、以专业知识为依据 2、绘制变量间散布图,(3)相关回归分析要领,例如:测量教室中10名男性的身高与体重的数据,可否进行直线相关与回归分析?若测量教室中10名男性身高、测量10名女
23、性体重的数据,可否进行直线相关与回归分析?,(3)相关回归分析要领,测量教室中10名男性的身高与血压的数据,可否进行直线相关与回归分析?若测量10只动物用某药后的血糖随时间变化的数据,可否进行直线相关与回归分析?,(4)多元资料,统计分析方法合理选用的要领:1、以专业知识为依据 2、了解变量基本关系 3、弄清统计分析目的,专题二,统计分析常见错误辨析与释疑,专题二提纲,第一部分 实验设计第二部分 定量资料统计分析第三部分 定性资料统计分析第四部分 直线相关回归分析,专题二提纲,第五部分 多元统计分析第六部分 资料的综合分析第七部分 结果的解释第八部分 统计描述与表达,第一部分:与实验设计 有关
24、的问题,请辨析问题中与实验设计有关的错误,并分析产生错误的根本原因、危害性和消除错误的对策与建议。,例1,(1)买得起马,买不起鞍;(2)缺胳膊少腿我不怕,因为我 身穿盔甲;(3)迫着脑袋定方案,随心所欲 高科研。,(例1)的具体内容,为了考察阿仑膦酸防治牙槽骨吸收的效果,有人设计了如下的实验:取34个月龄的SD大鼠45只,将45只大鼠随机分入六个组,其中第一组至第五组均为8只大鼠,第六组为5只大鼠,各组含义如下:,组别 形成各组实验的条件,1 给大鼠去势、结扎、用药 2 给大鼠结扎、用药 3 给大鼠去势、结扎、不用药 4 给大鼠结扎、不用药 5 给大鼠去势、不用药 6 空白对照(即假手术)组
25、,错在哪?,结构变形分析法,结构变形现原型:结扎与否 去势与否 用药与否:用 不用结扎 去势 A组 B组结扎 不去势 C组 D组 不结扎 去势 X1 E组不结扎 不去势 X2 F组 由于原作者少设计了两组,导致一个非平衡的多因素设计的出现,组间可比性差,结论可靠性差!,(例2)独生子女成了“小皇帝”,为了观察甲紫注入某种动物正常腮腺后组织病理变化情况,有人选择6个月龄、体重2025kg的中国实验用小型猪15只,雄性9只、雌性6只。每只动物任选一侧腮腺为实验侧,另一侧作为正常对照,以消除个体差异及增龄对实验结果的影响。,按注入药物后1周、2周、1个月、3个月及6个月将15只动物随机分为5组,每组
26、3只(每个组的3只动物分别随机注入0.6ml、1.0ml及4.0ml 1%某药物溶液),然后观察组织病理变化情况。,(例3)动物不会提抗议,任我将它们来摆布!,某研究者为研究bFGF对肌成纤维细胞的作用及其对创面愈合的影响,利用大鼠30%深。烫伤模型。观察的指标有-平滑肌肌动蛋白等定量指标。,原作者设计的三个组如下:(1)正常对照组(将大鼠背部皮肤置于37水中8s);(2)单纯损伤组(造成30%TBSA深。烫伤),在伤后3h切取创面组织检测多项定量观测指标的数值;(3)在(2)的基础上,用bFGF治疗。在伤前、伤后3h、6h、1d、3d、7d、14d切取创面组织检测多项定量观测指标的数值。将第
27、(3)组产生的7个小组数据分别与第(1)、(2)组比较,用t检验。问:这样的实验设计科学吗?,(例4)单枪匹马斗群雄,分4批实验分别确定4个实验因素的所谓“最佳水平”。(1)摸索“培养基含水量”对产物的影响;(2)摸索“起始pH值”对产物的影响;(3)摸索“温度”对产物的影响;(2)摸索“光线”对产物的影响;,将四批实验的最好结果组合在一起,就一定是最优的实验条件吗?,第二部分:与定量分析 有关的问题,所谓“与定量分析有关的问题”,就是在实验研究中,影响因素为定性的(有时也包含定量的),观测结果是定量,希望比较各实验条件下定量观测结果的平均值之间的差别是否具有统计学意义。,(例1)单腿“踢”向
28、全世界,用多次t检验处理此资料合适吗?,例2:“组别”一词真厉害 它使“博导”成“驳倒”,某研究者在研究“N-甲基-D-天冬氨酸及其非竞争性受体阻滞剂和钙离子对培养的鼠视网膜神经细胞的作用”时,做了一个较复杂的实验,其设计格式和资料如表1所示。,主要实验结果见下表,用t检验处理下面的资料正确吗?,对差错的辨析与释疑,该实验研究中涉及到3个实验因素:NMDA(N-甲基-D-天冬氨酸)用否;MK801(非竞争性受体阻滞剂)用否;Ca2+用否。,对差错的辨析与释疑,何设计?怎样分析?,例3:夏天穿棉袄反常!,某人在研究“准分子激光治疗性角膜切削术治疗角膜浅层病变的实验和临床研究”时,收集到表1资料。
29、,例3:续,该资料的正确表达格式,例4,问题虽然不复杂,却能难倒科学家!您若不信请尝试,吃一堑来长一智。,表1 不同药物对小鼠迟发超敏反应的影响结果药 物 剂 量 鼠数 耳肿重量 P 值(g/kg)(只)(mg)与对照比 与Cy比对照-10 21.22.7补肾药 5 10 22.33.5 0.05补肾药 10 10 18.83.1 0.05补肾药 20 10 16.52.4 0.01Cy 0.025 10 11.21.5 Cy+补肾药 0.025+5 10 14.32.9 0.01Cy+补肾药 0.025+10 10 18.63.6 0.01Cy+补肾药 0.025+20 10 19.23.4
30、 0.01 注:补肾药全称为补肾益寿胶囊,请问:如何正确分析此资料?,表2 表1资料的第一种变形结果 药物 耳肿重量(mg)|种类 药物剂量(g/kg):0 0.025 5 10 20补肾药 21.22.7.22.33.5 18.83.1 16.52.4Cy药 21.22.7 11.21.5*注:各组均有10只小鼠,“.”表示补肾药未用的剂量,“*”表示Cy药未用的剂量,表3 表1资料的第二种变形结果Cy药剂量 耳肿重量(mg)|(g/kg)补肾药剂量(g/kg):0 5 10 20 0 21.22.7 22.33.5 18.83.1 16.52.4 0.025 11.21.5 14.32.9
31、 18.63.6 19.23.4 注:各组均有10只小鼠,(例5)我只问一个“简单问题”,某临床医生前来进行统计咨询,她说:我有一个简单的问题,其大意如下:给30名某病患者服用一种药物后测量其体内的放射性物质的含量,具体做法如下:每天在离每位患者不同距离处(5种距离)测量其体内的放射性物质的含量,连续共测了8天。观测指标是定量的。请问该用什么统计分析方法处理资料?,(例5)续,分析该定量资料的关键在于正确判定其实验设计类型;这个实验设计类型叫做:具有两个重复测量的两因素设计。,第三部分:与定性分析 有关的问题,所谓“与定性分析有关的问题”,就是在实验研究中,影响因素为定性的,观测结果也是定性,
32、希望研究定性变量之间的因果关系或相互关系。,(例1)鱼刺卡喉仍狂唱,用卡方检验处理此资料合适吗?,(例2)我“会用”秩和检验啦!,表3 CAM-1和CD44s的表达与食管癌TNM分期的关系-分期 n X/n H P-a 7 3/7 b 10 8/10 6.1191 0.0134 23 21/23-,(例2)续,表3 CAM-1和CD44s的表达与食管癌TNM分期的关系-分期 阳性数 阴性数 合计-a 3 4 7 b 8 2 10 21 2 23-,正确列表格式,有1/2格内理论频数小于5,故宜选用Fisher的精确检验。,(例3)数据合并会“显灵”,在两个年龄组内,饮酒者与不饮酒者患病比例相同
33、,但若将两个饮酒组数据合并,两个不饮酒组数据合并,饮酒者与非饮酒者患病比例分别为50.00%与27.78%,两者之间的差别具有统计学意义,结论为:饮酒者较非饮酒者易于缓肺癌,此结论可信吗?为什么?,(例3)数据合并会“显灵”,两者之间的差别具有统计学意义,结论为:饮酒者较非饮酒者易于患肺癌,此结论可信吗?为什么?,(例4)用卡方检验实现 定性资料的相关分析,年龄 例数!(岁)X:+20 215 67 8 30 9 89 131 40 248 168 42=503.776,P0.0001 结论:年龄与指标X的取值间有直线相关关系。(对吗?),分析与释疑,分析上面的资料前,应先叫出列联表的正确名称,然后,给出分析目的。双向有序且属性不同的二维列联表有四个分析目的:其一、各行结果之差别有无统计学意义;其二、两有序变量之间的相关性;其三、两有序变量之间是否呈直线关系;其四、各行频数分布是否相同。,分析与释疑,其一、各行结果之差别有无统计学 意义;用秩和检验、Ridit分析,有序变量的Logistic回归分析;其二、两有序变量之间的相关性;用Spearman秩相关分析,等;,分析与释疑,其三、两有序变量之间是否 呈直线关系;用线性趋势检验;其四、各行频数分布是否相同;用一般的卡方检验或Fisher的精确检验。,