《医学实验设计与统计分析.ppt》由会员分享,可在线阅读,更多相关《医学实验设计与统计分析.ppt(106页珍藏版)》请在三一办公上搜索。
1、实验设计与数据分析思路,统计工作的步骤,设计搜集资料整理资料分析资料,实验以后,叫来统计员不如让他做一个尸体剖检。他可能能说出实验失败的原因。,To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination:he may be able to say what the experiment died of.Fisher,一、实验设计的分类,二、实验设计的特点,1.能人为设置处理因素2.可以随机化分组3.能有效地控
2、制误差,节省人、财、物力,提高效率,三、实验设计的基本要素,(一)处理因素,处理因素:即研究因素,是研究者通过实验来科学地考察其作用大小的因素。非处理因素:影响实验结果,对正确评价处理因素的作用有一定干扰的因素。选择处理因素时要注意:(一)抓实验中的主要因素(二)分清处理因素和非处理因素(三)处理因素必须标准化,(二)受试对象,1.动物的选择 种类、品系、年龄、体重、窝别、营养其选择原则和方法根据研究目的而定。选用与人的功能、代谢、结构及疾病特点相似的实验动物。选用与遗传背景明确,具有已知菌丛和模型形状显著且稳定的实验动物。选用解剖、生理特点符合实验目的的实验动物。选用存在某些特殊反应的不同种
3、系实验动物。选用人兽共患疾病的实验动物。2.人的选择:病例的来源 诊断标准 纳入标准 排除标准 遵循医德的要求,(三)实验效应,(一)选择观察指标的基本原则:客观性 精确性 灵敏性 特异性(二)指标的观察:对实验效应的观察应避免偏倚 应注意处理因素与效应的关系,四、实验设计的基本原则,对照原则随机原则重复原则均衡原则,(一)对照的原则,1.设立对照的意义 使实验组和对照组的非处理因素一致,从而使处理因素的效应得以显露。,2.常见的对照形式:空白对照:对照组不加任何处理因素 安慰剂对照:假干预对照 实验对照:施加基础实验条件(非处理因素)标准对照:以现有的标准或正常值作对照 自身对照:实验在同一
4、受试对象上进行 相互对照:几个实验组互相对照 历史对照:以过去的研究结果作对照,(二)随机的原则,1.随机化的意义 随机化:每一个受试对象都有同等的机会被分配到任何一组。随机“随便”2.随机化的实施 1.随机数字表 2.随机排列表 3.抽签、计算器(机),(三)重复的原则,重复:就是实验要有足够的样本含量 样本含量太大,浪费人力、财力、物力,增加系统误差出现的可能性。样本含量不足,检验效能(Power,1)偏低,导致总体中本来具有的差异无法检验出来。,1.影响样本含量大小的因素:1.第一类错误的概率(检验水准)。2.检验效能(把握度1)0.75。3.所比较的两个总体参数的差值:4.总体标准差:
5、,2.常用的估计样本含量的方法(1)样本均数和总体均数的比较(2)配对设计和交叉实验的样本含量估计:,注意:可取单双侧 只取单侧例8.1 P108,(3)两样本均数比较时的样本含量:(4)样本率与总体率比较时的样本含量:(5)两样本率比较时的样本含量:,(6)配对计数资料(7)多个样本均数比较(8)多个样本率比较(9)估计总体均数(10)估计总体率(11)直线相关分析的样本含量,四、均衡的原则,(一)均衡的意义 设法使各实验条件下的受试对象所受的非处理因素的干扰和影响基本相同。(二)均衡对照的实施 贯彻均衡的原则就是对照组除了缺少处理因素外,其他条件应与实验组均衡一致。,五、实验设计,完全随机
6、设计配对(伍)设计交叉设计拉丁方设计析因设计正交实验设计均匀设计,(一)完全随机设计(Completely random design)又称成组设计和单因素设计,将实验对象按完全随机化的原则分配至两个或多个处理组去进行实验观察,仅涉及一个因素即处理因素(可以有2个或多个水平)。,表5-1 对照组和各实验组家兔血清ACE浓度比较(U/ml),完全随机设计要求,组间均衡可比。先按主要影响因素分层,而后在分层基础上随机分配样本。尽量使每组间样本数相等或接近。完全随机设计各组样本含量可以不等,但在样本总量不变的条件下,n1=n2时检验效率较高。,(二)配对(伍)设计(Paired/Randomized
7、 block design),先将受试对象按配比条件配成对子或配伍组,以消除配伍因素的影响,再将各对或各配伍组中的个体按随机分配的原则给予不同的处理,又称随机区组设计。配比条件:常以主要的非处理因素作为配比条件。,表4-9 不同药物作用后小白鼠肉瘤重量(g),例题3:用中医辨证分为脾胃虚寒、中气下陷、胃火炽盛、肝郁乘脾与肝胃不和5个证型的20个病情相近胃溃疡患者,每种证型有4个患者。比较小柴胡汤(简记为A)、六君子汤(简记为B)、吴茱萸汤(简记为C)、保和丸(简记为D)四种方剂(处理组数k=4)的疗效。1.根据以上资料,你如何设计?2.请简述该资料的分析思路。,(三)交叉设计(Cross-ov
8、er design),将A、B两种处理先后施加于同一批受试对象,随机地使半数受试者先接受A后接受B,而另一半受试对象则正好相反,即先接受B再接受A,由于两种处理在全部实验过程中交叉进行,称为交叉设计。方法:将受试对象随机分为两组,一组第一阶段接受A处理、第二阶段接受B处理,另一组顺序刚好相反。,例9.7 某研究者在针刺麻醉研究中,欲通过12只大白鼠研究A、B两种参数电针刺激后痛域值上升情况,同时还考虑了个体差异与A、B顺序对痛域值的影响。根据此研究目的,用何种实验设计方法为宜,并作分组设计。,SPSS例题:为比较血液透析过程中,低分子肝素钙()与速避凝()对凝血酶原时间(tt)的影响,选择例接
9、受血液透析的病人为研究对象,采取二阶段交叉设计,试验数据见下表,试分析之。,SPSS演示:Anaylyze general linear model univariate(单变量方差分析)dependent variable(因变量):tt fixed factor(s)固定因子变量:stagedrug random factor(s)(随机变量):subjectModelunivariate:model specify model:custom(自定义模型)model:stagedrugsubject build term(s)(构造项目):main effects(主效应),附表 两种抗凝
10、药物对tt(s)的影响,结果分析:组间效应检验drug,F=0.580,P=0.456,不能认为不同药物对血浆凝血酶原时间有影响;stage,F=1.470,P=0.241,不能认为不同阶段对血浆凝血酶原时间有影响;subject,F=3.108,P=0.010,认为不同病人的血浆凝血酶原时间有显著差异。,(四)拉丁方设计(Latin square design),按拉丁字母组成的方阵来安排实验的三因素等水平设计。该设计同时考虑三个因素(一般是一个处理因素、两个配伍组因素)对实验结果的影响。是在随机区组设计的基础上,多安排了一个对实验结果有影响的非处理因素,增加了均衡性,减少了误差。行、列:代
11、表控制因素的水平 方阵中的字母:代表处理因素的水平要求:三个因素 无交互作用 水平数相等 方差齐,设计步骤:1.根据主要因素的水平数,确定基本型拉丁方,并使另外两个次要因素的水平数与之相等。2.将基本型拉丁方随机化,按随机化后的拉丁方安排实验。3.规定行、列、字母所代表的因素和水平,通常字母表示主要处理因素。优点:节约样本量 使观察单位更加区组化和均衡化,进一步减少抽样误差,提高效能。缺点:要求三因素无交互作用且水平数相等,实际工作中有一定的局限性。,例9.9 某肿瘤研究所拟通过动物实验研究4种抗癌药物的抑癌作用,同时考虑4个不同剂量和不同瘤株对抗癌药物的作用。用何实验设计可达到此研究目的?(
12、实验过程是用4种瘤株匀浆接种小白鼠,7d后分别用4种抗癌药物,各取4种不同剂量腹腔注射,每日1次,连续10d,停药1d,处死后解剖测瘤重)。,SPSS演示例题:5种防护服,有5个人在不同的5天中穿着测定其脉搏数(试验以脉搏作为人对高温反应的指标),试比较5种防护服在不同天气对人脉搏的影响是否不同?5套防护服编号为A、B、C、D、E,5名试验对象编号为甲、乙、丙、丁、戊,试验日期编号为1,2,3,4,5。试验结果见下表。,SPSS演示:Anaylyze general linear model univariate(单变量方差分析)dependent variable(因变量):x fixed
13、factor(s)固定因子变量:ijk Modelunivariate:model specify model:custom(自定义模型)model:ijk build term(s)(构造项目):main effects(主效应)Continueoptionsunivariate:options display mean for:j compare main effectsContinueok,结果分析:组间效应检验因素i,F=16.271,P=0.000,可认为受试者间效应显著,不同人在高温时的脉搏次数有显著意义;因素j,F=2.897,P=0.068,可认为不同试验日期间效应不显著,不同
14、试验日期对脉搏的影响无显著意义;因素k,F=1.243,P=0.344,可认为不同防护服试验日期间效应不显著,不同防护服间对脉搏的影响无显著意义。,组间效应检验,单变量检验,(五)析因设计(Factorial experimental design),是一种将两个或多个因素的各水平交叉分组进行实验的设计。它不仅可检验各因素内部不同水平间有无差异,还可检验2个或多个因素间是否存在交互作用(interaction)。若因素间存在交互作用,表示各因素间不是独立的,一个因素的水平发生变化,会影响其他因素的实验效应;反之,若因素间不存在交互作用,表示各因素间是独立的,任一因素的水平发生变化,不会影响其他
15、因素的实验效应。,A的主效应,A的单独效应,B的单独效应,B的主效应,若将上表中的4个均数作线图,得两条几乎平行的直线,表示交互作用很小。反之,若得两条相互不平行的直线,则说明两因素可能存在交互作用。,单独效应(simple effect):指其它因素的水平固定时,同一因素不同水平间的差别。主效应(main effect):某一因素各水平间的平均差别。交互作用(interaction):当某一因素的各个单独效应随另一因素的不同水平变化而变化时,则称这两个因素间存在交互作用。,析因设计时,分析的因素数和水平数不宜过多,一般因素数不超过4,水平数不超过3 实验组数=各因素水平数的乘积。设计模型:2
16、2 222 32 223优点:是一高效的实验设计方法,不仅能分析各因素内部不同水平间有无差别,还可分析各因素间的交互作用。缺点:与正交实验设计相比,属于全面试验,因此,研究的因素个数和因素的水平数不宜过多。,原 则:,若存在交互作用,需逐一分析各因素的单独效应,此时分析主效应无意义;若不存在交互作用,则两因素的作用相互独立,只需考虑各因素的主效应即可。,例 某医生欲研究A、B两药是否有治疗缺铁性贫血的作用,以及两药间是否存在交互作用。用何试验设计达到研究者的研究目的,并做出设计分组。,例 SPSS演示,Anaylyze general linear model univariate(单变量方差
17、分析)dependent variable(因变量):x fixed factor(s)固定因子变量:a、bPlotsunivariate:profile plots(单变量方差分析:轮廓图)ahorizontal axis(水平轴);bseparate lines(分离线);addContinueoptionsunivariate:options factor(s)and factor(s)display means for:a、b、a*b descriptive statistics estimates of effect size(效应大小估计)observed power homoge
18、neity test(齐性检验)Continueok,描述性统计量,误差齐性检验,组间效应检验,1.误差方差齐性检验,方差齐。2.组间效应检验:因素A,F=168.750,P=0.000,可认为甲药效应显著,使用A药与不使用A药有显著差异,使用A药的均数为1.650,大于不使用A药的均数(0.900);因素B,F=90.750,P=0.000,可认为乙药效应显著,使用B药与不使用B药有显著差异,使用B药的均数为1.550,大于不使用B药的均数(1.000);因素A*B,F=36.750,P=0.000,可认为甲药与乙药交互作用效应显著。3.由“甲药状态(A)*乙药状态(B)”表明:甲乙同时使用
19、的均数最大,其次单独使用甲药,再次是单独使用B药。4.2表明:2(A)(0.955)2(B)(0.821),可认为各因素对总变易的贡献,从大到小依次为A、B、A*B。5.两条直线不平行,提示因素A与因素B存在交互作用。,Estimated Marginal Means(估计边缘均数),(六)正交实验设计(Orthogonal experimental design),1.概念:正交试验设计是利用一套规范化的正交表,使每次试验的各因素及其水平得到合理安排的高效多因素实验设计。常用于分析多个因素不同水平及个别因素间交互作用对某观察指标的影响,如寻找疗效好的药物配方、医疗仪器多个参数的优化组合、生物
20、体的培养条件等寻求最优搭配方案的研究。,2.正交试验的优点,(1)能在很多试验方案中挑选出代表性强的少数几个试验方案,并且通过这少数试验方案的试验结果的分析,推断出最优方案;(2)作进一步的分析,得到比试验结果本身给出的还要多的有关各因素的信息。,3.正交表的类型:,(1)相同水平正交表:形式为 Ln(Km),同一正交表中各列的水平数相同,故各列的自由度相同,自由度=k-1,既水平数-1。2水平正交表:L4(23),L8(27),L32(231),L64(231),L12(211)3水平正交表:L9(34),L27(313),L81(340),L18(37)4水平正交表:L16(45),L32
21、(48),L64(421)5水平正交表:L25(56),L32(49),5水平以上:用正交拉丁方。这一类正交表不仅可以考察各因子对试验指标的影响,还可以考察因子之间的交互作用影响。,4.正交试验方案设计,例题:,注意:主效应因素尽量不放交互列。如A、B因素已放列1、列2,则C 因素就不放列3。,如果A安排在列1,B安排在列2,那么AB安排位置就从表9-20中的(1)横着向右看,(2)竖着向上看,它们的交叉点是3,此3就是AB要安排在列3。同理,B安排在列2,C安排在列4,BC就安排在列6。AC安排在列5。,确定各组的试验条件:,5.分析正交试验结果,方法1 直观分析(极差分析),(1)计算极差
22、,确定因素的主次顺序,第j列的极差,或,极差越大,说明这个因素的水平改变对试验结果的影响越大,极差最大的那个因素,就是最主要的因素。,(2)确定最优方案,如果不考虑交互作用,则根据各因素在各水平下的总产量或平均产量的高低确定最优方案;如果考虑交互作用,则取各种搭配下产量的平均数,按优化标准确定最优方案。,方法2 方差分析法,基本思想与双因素方差分析方法一致:将总的离差平方和SS分解成各因素及各交互作用的离差平方和,构造F统计量,对各因素是否对试验指标具有显著影响,作F检验。,无重复的两水平正交实验及方差分析,注意:最优实验条件的确定对显著因子应该取最好的水平对不显著因子的水平可以任意选取,在实
23、际中通常从降低成本、操作方便等角度加以选择。,重复测量数据的两水平正交实验及方差分析,AnalyzeGeneral Linear ModelUnivariateModel:custom:选择分析的因素continue ok(交叉设计、拉丁方设计、析因设计等的SPSS方差分析步骤相同)注意:最后的结论及最优配方的确定,SPSS的应用,六、数据分析思路,(一)资料的整理 1.核查资料 2.资料的数量化 3.资料的分组(二)资料的描述性统计分析 1.对资料一般特征的描述 2.对研究项目的描述性统计分析(三)资料的组间均衡性检验(四)资料的推断性统计分析 1.单因素分析 2.多因素分析(五)资料的重复
24、性的评价(六)研究结果的解释,(一)数据的处理,数据处理:医学数据的统计处理涉及到医学专业知识、统计专业知识、处理数据的经验和技巧等,是一门很高超的艺术。关键环节:1.原始数据的采集 2.数据的录入和管理 3.数据处理中的几个基本问题 4.恰当选用统计方法 5.统计分析选择的基本思路,1.1 原始数据的采集,医学研究的原始数据常列成二维结构,即行和列结构的数据集形式。,1.2 数据的录入和管理,1.3 数据处理中的几个基本问题,数据核查:EpiData软件 逻辑检查 数据核对离群数据的处理:统计软件一般都有判断离群数据的方法。箱式图统计方法前提条件的检验:应用参数检验往往要求数据满足某些前提条
25、件:如:两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,以及正态性检验。在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。,1.4 恰当选用统计方法,1.5 统计分析选择的基本思路,第一层面:看反应变量是单变量、双变量还是多变量;第二层面:看资料的类型(计量资料、计数资料、等级资料)第三层面:看单因素还是多因素 第四层面:看单样本、两样本或多样本 第五层面:是配对或配伍设计 第六层面:看是否满足检验方法所需的前提条件。,(二)计量资料的统计分析,2.1数值变量的统计描述指标,2.1计量数据的统计描述,1.在医学杂志中,正态或近似正态资料,常以 的形式表
26、达,描述和比较数据的平均水平和离散程度。2.偏态分布或特定资料(生存时间、病程、潜伏期时间等)用中位数和四分位间距描述。表达形式:(M,Q)3.等比数据和正偏态数据可用几何均数和几何标准差描述。表达形式:GSG,2.2单变量计量资料的分析1.样本均数与总体均数比较,分析思路:,1.样本均数与总体均数比较,即(代表未知)与已知0(理论值、标准值或稳定值)比较。例:某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?,2.两个相关样本均数的比较,分析思路:,例:为比较两种方
27、法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里罗紫法测定其结果如表3-3第(1)(3)栏。问两法测定结果是否不同?,3.两个独立样本均数比较完全随机设计两样本均数比较成组设计的两样本均数比较,分析思路:,例:为研究国产新药阿卡波糖胶囊降血糖效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜唐苹胶囊),分别测得试验开始前和8周后空腹血糖,算得空腹血糖下降值见表3-4,能否认为国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同?,4.多个样本均数比较,分析思路:,
28、表5-1 对照组和各实验组家兔血清ACE浓度比较(U/ml),(三)单变量计数资料的分析,3.1 双向无序资料的2检验,(42.01),(37.99),(51.99),(47.01),双向无序分类变量,采用行列表的2检验,计算Pearson 2值,推断两个分类变量之间有无关系(或关联);可进一步计算Pearson列联系数C,分析关系的密切程度。,3.2 双向无序资料的2检验,分组变量无序,指标变量有序,采用非参数检验的Wilcoxon秩和检验或 Kruskal and Wallis H检验;或行平均分差检验。,3.3 单向有序资料的2检验,3.4 双向有序资料的2检验,若bc40,,3.5 配
29、对22列联表资料的2检验,(四)单变量等级资料的分析,1.建立检验假设:H0:治疗前后白细胞总数差值的总体中位数为0,即Md=0 H1:Md0 0.052.计算检验统计量T值 求各对的差值 编秩 求秩和3.确定P值(T界值:540);4.做出推断结论,4.1 两组配对等级资料的比较Wilcoxon单样本秩和检验,4.2 两组独立样本等级资料的比较秩和检验(Wilcoxon rank sum test),(一)成组设计两组计量资料的秩和检验,例7.3 某医师为研究血清铁蛋白与肺炎的关系,随机抽查了肺炎患者和正常人若干名,并测得血清铁蛋白如表7-3,问肺炎患者与正常人血清铁蛋白含量有无差别?,4.
30、3 两组等级资料的秩和检验,若选行列表资料的卡方检验,只能推断两组肺炎样本疗效构成比的差别有无统计学意义,损失疗效的“等级”信息,应采用秩和检验,可推断两组等级强度的差别有无统计学意义,比较两组病情的疗效。,4.4 成组设计多样本比较的秩和检验(Kruskal-Wallis H test,H检验),(五)双变量资料的分析,表3 12只大白鼠的进食量与体重增加量,例:用某饲料喂养12只大白鼠,得出大白鼠的进食量与体重增加量如表3,对大白鼠的进食量与体重增加量进行回归分析。,(六)多变量资料的分析,6.1有应变量的多元分析,表 多元分析的数据类型(有应变量),若应变量Y为数值型随机变量,且服从正态
31、分布,可选用多元回归分析或多元逐步回归分析,回归方程形如:若因变量Y为分类变量(二分类或多分类),且以判别分类为主要目的,自变量满足多元正态分布,可选判别分析或逐步判别分析,判别函数形如:若因变量Y为生存时间,并含有截尾数据,可选Cox模型做生存分析,风险函数形如:若因变量为含截尾数据的生存时间,自变量只有1个处理因素,可选用Kaplan-Meier法做生存分析。若因素Y为二类变量或多分类变量,且以分析危险因素为主要目的,如果为配比设计,选条件Logistic回归,如果无配比设计,选非条件Logistic回归,回归模型形如:,(六)多变量资料的分析,6.2无因变量的多元分析,表 多元分析的数据
32、类型(无应变量),欲将变量或观察单位划分为性质相近的k类,可选用聚类分析。若将n个观察单位聚为k类(kn),可选用样品(Q型)聚类方法。若将m个变量(指标)聚为k类(km),可选用指标(R型)聚类方法。为达到既变量降维,又对变量进行分类的目的,可选用主成分分析或因子分析。,(六)多变量资料的分析,6.3相关分析 若分析1个变量与1组变量的相关关系,可选多重线性相关分析;若分析1组变量与另1组变量的相关关系,可选典则相关分析;,6.4当代数据分析技术数据挖掘 神经网络 决策树 关联规则 模糊聚类,(七)如何分析图表?,3.1图表是科研论文的基础,没有图表就没有自然(实验性)科学的论文。(少数理论成果例外)3.2每幅图表的分析可有下述阶段:扫描:揭示图表中的一般特征。聚焦:将分析的重点集中于某12个关键内容(关键点)。解剖:对关键内容(关键点)进行深入剖析。归纳:总结关键内容的学术要点、亮点、创新点。凝练:凝练出进一步研究的科学问题。3.3对图表的分析要遵循“四句话”的改造制作功夫:由此及彼,由表及里,去粗取精,去伪存真,统计表,附表 标题,备注:,统计图,Thanks!,