《临床科研数据分析的注意事项.ppt》由会员分享,可在线阅读,更多相关《临床科研数据分析的注意事项.ppt(45页珍藏版)》请在三一办公上搜索。
1、临床科研中数据分析的常见注意事项,提纲,数据处理的一般原则与基本内容统计方法选择的基本思路具体案例分析几种比较实用的方法附录:常用数据分析的SAS程序,第一部分,数据处理的一般原则与基本内容,数据处理,数据处理定义:对数据的采集、存储、检索、加工、变换和传输。基本目的:从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。组成数据管理(约占全部工作量的60%-80%)数据分析(约占全部工作量的20%-40%),数据处理的一般原则与基本内容,数据库设计数据录入数据管理数据审核异常(缺失)值的处理,统计整理:根据研究目的对原始数据进行科学的分类、汇总
2、和显示;使之系统化、条理化、直观生动和反映总体的数量特征和规律。数据分析统计方法的选择统计描述与统计推断,离群数据的处理,离群数据严重偏离群体平均水平的数据,多为错误(如DBP=880mmHg),少量为异常的真实值可严重掩盖事实真相或扭曲两者间的关系处理原则手工处理:正态分布:3|均数标准差|偏态分布:99.5%或0.5%软件处理箱式图:距箱体底线或顶线距离超过箱体高度1.53倍者,缺失数据的处理,缺失值部分研究指标记录不完整,导致其值缺失后果:导致研究效率的下降数据的常见缺失机制完全随机缺失:缺失资料与完整资料的特征无显著性差异非随机缺失:缺失资料与完整资料的特征存在显著性差异,常见处理措施
3、直接剔除:适用于缺失量极少且为完全随机缺失单独列为一类:适用于缺失量较大,且难以合理填补者缺失值填补:均数替代中位数替代最后观察值结转回归算法多重填补法,统计方法前提条件的检查与描述,统计学最难以掌握之处数据分析人员最应该首先掌握的技能熟悉各种统计方法的前提适用条件合理选择最合适的统计方法,第二部分,统计方法选择的基本思路,统计方法选择的核心要素,研究目的组间差异显著性检验?优效性检验?等效性检验?非劣效性检验?相互关系相关与回归、关联性分析(OR、RR、AR)、其它设计类型完全随机设计?配对设计?随机区组设计?交叉设计?析因设计?其它设计?数据类型计量资料?分类资料?等级资料?分布特征正态分
4、布?对数正态分布?其它偏态分布?,统计方法选择总结,统计方法选择总结(续),统计方法选择总结(续),常见统计分析的错误,普查还是抽样调查?普查无统计推断随机抽样还是非随机抽样?非随机抽样不能使用普通的统计推断方法资料类型误认未能满足所选择统计的前提适用条件单因素ANOVA代替重复测量资料的方差分析,常见统计分析的错误,未进行数据审核数据中存在逻辑错误数据中存在异常值数据中存在过多的缺失值,常见统计分析的错误,统计方法选择不当选择t检验时未考虑数据的分布类型将方差分析拆分成多个t检验用单因素方差分析解决重复测量资料使用四格表卡方检验时未考虑N和T的大小使用卡方检验解决等级资料问题,使用线性回归解
5、决非线性问题使用Logistic回归解决队列研究的资料使用普通方差分析解决协方差/多元方差分析问题多元统计时未考虑自变量的共线性主成分分析与因子分析误用其它,线性回归与非线性回归,常见统计分析的错误,结果表述不当过于看重P值的大小而忽视Power的影响片面夸大统计学意义的作用错误理解P0.01与P0.05的关系显著性检验包打天下优效、等效和非劣效性检验少为人知,常见统计分析的错误,未考虑多重共线性回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反,
6、多重共线性的识别,最简单的方法计算模型中各对自变量间的相关系数,并进行显著性检验,若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性如果出现下列情况,暗示存在多重共线性模型中各对自变量之间显著相关。当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号同预期的符号相反。,第三部分,具体案例讨论,案例1,ABC三组不同时点某指标的变化情况应该选用何种统计学方法?如果重复测量方差分析得出结论为差异有统计学意义,如何判断具体哪两个或多个时点间比较有统计学意义?如何判断A、B、C三组各时点(T0、T1、T2、T3)间不同组别的变化情况?(如
7、判断T2时点,A、B、C三组某指标的情况)如何两两比较?若为随机区组资料,如何进行上述问题的统计?,重复测量设计,定义将一组或多组受试者先后重复地施加不同的处理措施,或在不同场合和时间点进行多次测量(至少两次)的研究设计配对设计是最简单的重复测量设计重复测量设计为特殊的两因素设计其中的一个因素固定为时间因素分类对每个对象在同一时间不同因子组合间测量较为少见,如裂区设计对每个对象在不同时间点上重复测量临床研究中极为常用,重复测量设计的方差分析,重复测量设计在临床研究中极为常见(方法详见程序)可用普通线图描述不同组别某指标随时间变化的趋势,重复测量设计,优点每一个体作为自身的对照,克服了个体间的变
8、异,减少了一个差异来源。分析时可更好地集中于处理效应;每一个体作为自身的对照,所需样本量相对较小,更加经济.缺点滞留效应(Carry-over effect)前面的处理效应有可能滞留到下一次的处理潜隐效应(Latent effect)前面的处理效应有可能激活原本以前不活跃的效应学习效应(Learning effect)由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高,重复测量设计,重复测量设计方差分析的统计前提每个处理条件内的观察都是独立的;每个处理条件内的总体分布是正态分布或多元正态分布;每个处理条件内方差齐;每个被试者的多元观测值之间存在相关(不能用单因素方差分析代替).,重复测量
9、设计,为何要把测自不同时间点上的数据看成是多元的呢?因为同1 个体的数据重复测自同1个受试对象,它们之间往往有较高的相关性。这种相关性通常会减少误差项变异,从而使得F测验的分母变小,其后果是F检验更易于到达显著即使无效假设是正确的.换句话说,犯一类错误的概率加大了,重复测量设计,样本必须为进行多次重复测量的数据。可以是对同一条件下同一因变量的重复测量目的在于研究各种处理间差异是否有统计学意义的同时,研究受试着间的差异;也可以是不同条件下同一因变量的重复测量目的在于研究各处理间差异是否有统计学意义的同时,研究形成重复测量条件间的差异以及这些条件与处理间的交互效应。GLM:重复测量资料方差分析的主
10、要手段数据结构:若干次重复测量结果作为不同因变量出现在数据文件中。,重复测量设计,重复测量设计与随机区组设计(时间为区组因素)相同点数据结构极为相似,甚至完全一样不同点重复测量设计:的处理因素在区组(受试者)间是随机分配的,区组内的各时间点是固定的,不能随机分配;区组内的数据来自于同一受试者;随机区组设计:区组内的受试者彼此独立,处理只能在区组内随机分配,每个受试者接受不同的处理,即区组内的数据来自于不同的受试者。使用随机区组设计方差分析处理重复测量设计资料,会增大犯类错误的风险。,重复测量资料的方差分析,将不同时点的测量值作为不同的变量data ex12_3;input t0-t4 g;ca
11、rds;120 108 112 120 117 1 118 109 115 126 123 1119 112 119 124 118 1 121 112 119 126 120 1127 121 127 133 126 1 121 120 118 131 137 2122 121 119 129 133 2 128 129 126 135 142 2117 115 111 123 131 2 118 114 116 123 133 2131 119 118 135 129 3 129 128 121 148 132 3123 123 120 143 136 3 123 121 116 145
12、126 3125 124 118 142 130 3;proc glm;class g;model t0-t4=g;repeated time 5 contrast(1);run;,SAS分析结果,重复测量资料统计分析常见错误,重复进行各时间点不同组别间的t(或F)检验忽略个体曲线变化特征重复测量数据不满足常规曲线拟合方法所要求的独立性假设差值比较缺乏信度用差值做组间比较须慎重须与协方差分析区别开来,案例2,不同处理措施和时间对某一指标的影响试验对象:大鼠(每个时点宰杀一批)问题A、B处理效果间有无差异?AT2、BT2间有无差异?,案例2,研究设计重复测量设计?两因素两水平的析因设计?随机区组
13、设计?三者的异同点是什么?,多因素方差分析,单因素分析多因素分析线性模型方法:研究自变量与因变量间关系多元方差分析、多元回归分析和协方差分析判别函数分析和聚类分析:事物的合理分类;主成分分析、典型相关等:如何用较少的综合因素代替为数较多的原始变量,类似于人大代表的选举。,多因素方差分析,定义把总变异按照其来源(或实验设计)分为多个部分,从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法。析因设计、正交设计、嵌套设计、裂区设计等优点:效率较高可以在一次研究中同时检验具有多个水平的多个因素各自对因变量的影响以及各因素间的交互作用要求各个因素每一水平的样本必须是独立的随机样本重复观测的数据
14、服从正态分布,且各总体方差相等。,析因设计的几个基本概念,单独效应(少有人关注)其它因素水平固定时,同一因素不同水平间的差异。主效应某一因素各水平间的平均差别即单独效应均数主效应间相互独立可视为多个单因素方差分析交互作用当影响因子不唯一时,必要注意因子间的相互影响。如果因子间存在相互影响,称为具有交互作用;如果因子间是相互独立的,则称为“无交互影响”,随机区组设计和两因素析因设计异同,共同点都具有两个研究因素不同点区组设计中两个因素的地位不同,研究区组因素是为了消除区组因素对处理因素的干扰;两因素析因设计中两个因素的地位相等,既要研究两个因素的主效应和单独效应,同时还要研究两者的交互效应,协方
15、差分析,定义:利用线性回归方法消除混杂因素影响后的方差分析是单因素方差分析的扩展基本思想将研究因素以外的其它因素作为协变量,建立线性回归方程,并利用这种回归关系把协变量的影响扣除后再进行各组Y的修正均数间判别的假设检验;实质从Y的总变异中扣除协变量对Y的回归平方和,对残差平方和作进一步分解后再进行方差分析,以更好的评价各种处理的效应。,协方差分析与多元线性回归,相同点协方差分析的本质就是多元线性回归不同点(侧重点不同):协侧重于分析离散变量的影响,而多侧重于连线变量的影响协方差分析兼具单因素方差分析和多元回归分析的优点在考虑连续变量影响的条件下检验离散变量对因变量的影响,有助于排除非实验因素的
16、干扰作用。要求:各样本都来自方差齐的正态总体,各组的总体直线回归系数相等且都不为0(什么意思?)此处的对应于协变量。分析前应先进行方差齐性检验和回归系数的假设检验,若符合或经变量变换后符合上述条件,方可作协方差分析。,自变量选择,原则应该入选的一个不能少,不该入选的一个不要注意避免自变量的共线性原因:自变量过多或过少会大幅度降低回归模型的精度自变量过少就一定程度上失去了多元分析的意义自变量共线性的存在会歪曲自变量与因变量的关系应将回归效果显著的自变量纳入方程,将不显著的自变量从方程中剔除专业人员和统计学家根据专业知识和经验确定文献提示单因素分析全局择优法逐步选择法,附录,常用数据分析的SAS程
17、序,常用数据分析的SAS程序,计量资料集中趋势与离散趋势proc means n nmiss median mean range q1 q3 var std cv data=tmpp2 maxdec=1;var y x1-x4 time1-time6;class sex group;run;配对t检验;proc sort data=tmpp2;by sex;proc ttest data=tmpp2;paired x1*x2 x3*x4;by sex;run;proc ttest data=tmpp2;paired x1*x2 x3*x4;where sex=1;run;成组t检验;proc
18、ttest data=tmpp2;var x1-x4 y time1-time6;class sex;run;proc sort data=tmpp2;by month;proc ttest data=tmpp2;var x1-x4 y time1-time6;class sex;by month;run;单因素方差分析proc glm data=tmpp2;class group;model y=group;lsmeans group/pdiff;run;,常用数据分析的SAS程序,卡方检验;proc freq data=tmpp2;table sex*case/chisq expected
19、;run;相关分析;proc corr data=tmpp2;var x1-x4;with y;run;proc corr spearman data=tmpp2;var x1-x4;with y;run;线性回归分析proc reg data=tmpp2;model y=x1 x2 x3;run;Logistic回归分析proc logistic desc data=tmpp2;model case=sex group x1-x4;run;Cox回归分析proc phreg;model t*y(1)=x1-x6/selection=stepwise sle=0.10 sls=0.15;run;*自变量筛选;proc phreg;model t*y(1)=x4 x5/risklimits;run;重复测量资料的方差分析proc glm data=tmpp2;model time1-time6=group;repeated time 6 contrast(1);run;,谢谢大家,