医学数据统计分析方法-——基础篇课件.pptx

上传人:小飞机 文档编号:3718353 上传时间:2023-03-16 格式:PPTX 页数:196 大小:3.04MB
返回 下载 相关 举报
医学数据统计分析方法-——基础篇课件.pptx_第1页
第1页 / 共196页
医学数据统计分析方法-——基础篇课件.pptx_第2页
第2页 / 共196页
医学数据统计分析方法-——基础篇课件.pptx_第3页
第3页 / 共196页
医学数据统计分析方法-——基础篇课件.pptx_第4页
第4页 / 共196页
医学数据统计分析方法-——基础篇课件.pptx_第5页
第5页 / 共196页
点击查看更多>>
资源描述

《医学数据统计分析方法-——基础篇课件.pptx》由会员分享,可在线阅读,更多相关《医学数据统计分析方法-——基础篇课件.pptx(196页珍藏版)》请在三一办公上搜索。

1、医学数据统计分析方法,基础篇,相关问题,一、医学资料类型二、常见医学实验设计类型三、资料的统计描述和结果表达四、常用统计推断方法五、多因素分析方法,一、医学资料类型,1.定量资料(计量资料)2.定性资料(分类资料)(1)二项分类(计数资料)(2)多项分类 无序多分类 有序多分类(等级资料),1.定量资料,定义:是对每个观察对象的观察指标用定量方法测定该项指标的数值大小所得的资料,一般有度量衡单位。举例:某市某年7岁男孩身高值(120.2cm,118.6cm,121.8cm),2.定性资料,定义:是先将观察对象的观察指标按性质或类别进行分组,然后清点各组该观察指标的数目所得的资料。举例:二分类:

2、卫生统计学教研室教师性别 构成:男:3人,女:5人,无序多分类:某人群血型构成:A型:25人;B型:20人AB型:10人;O型:30人有序多分类:临床化验中,将化验结果按(50);(30);(20);(10);按疗效可分为治愈(10);显效(20);好转(30);无效(15);,根据分析的需要,计量资料、计数资料等级分组资料可以互相转化。例如每个人的血红蛋白,原属计量资料;若按血红蛋白正常与异常分为两组,得出各组的人数,是计数资料;若按血红蛋白含量的多少分为五个等级:6(g%)(重度贫血)、6(g%)(度贫血)、9(g%)(轻度贫血)12.5(g%)(血红蛋白正常)、16(g%)(血红蛋白增高

3、),计算各等级人数,就是等级分组资料。,二、常见医学实验设计类型,1.完全随机设计(成组设计)2.配对设计3.随机区组设计(配伍组设计)4.析因设计,1.完全随机设计(成组设计):,将受试对象完全随机地分配到各个处理组中 或 分别从不同总体中随机抽样进行研究。,2.配对设计,将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。(1)配对两个受试对象 A,B处理。(2)同一受试对象或同一样本的两个部 分 A,B处理。,(3)同一受试对象处理(实验或治疗)前后比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较,这种配对称为自身对比(

4、self-contrast)。有争议:越来越多的学者认为应该把(3)当做重复测量设计。,3.随机区组设计,又称 配伍设计,是配对设计的扩展。先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。,4.析因设计,是将每个因素的所有水平都互相组合,从而对两个或多个处理进行评价,是一种多因素的交叉分组设计。它不仅可以作每个因素各水平间的比较,而且还可以进行交互作用的分析。通过比较还能寻求最佳组合。,总实验数是各因素水平数的乘积。如四因素同时进行实验,若每个因素取2个水平,实验总数为24=16;若3水平,34=81

5、;若4水平,44=256;因此,析因设计水平不宜太多,一般取2个或3个。,22析因设计模式 表1 22析因设计,第一组:一般疗法第二组:一般疗法+甲药第三组:一般疗法+乙药第四组:一般疗法+甲药+乙药,三、资料的统计描述和结果表达,1.各指标的基本情况,定量资料:最小、最大值 正态分布:均数、标准差、非正态分布:中位数、四分位数间距 定性资料:各类频数 各等级频数,正态分布:均数()、标准差()、最小、最大值如:平均年龄:40.5岁 年龄():40.53.6岁 年龄:40.53.6(minmax:3460)岁,(定量资料的表达1),非正态分布:中位数、四分位数间距、最小、最大值病程中位数:M=

6、3.65年 病程:M(Q)=3.65(5.12)年(minmax:2月12年),定量资料的表达2,例1:,(图形表达1)线图,(图形表达2)半对数线图,例2:,(图形表达3)-条图,例3:,(图形表达4)-百分条图,例4:,(图形表达5)-圆图,例5,(图形表达6)-箱式图,例6,(图形表达7)-散点图,例7,(图形表达8)-直方图,四、常用统计推断方法,1.参数估计2.假设检验3.完全随机设计常用假设检验方法4.配对设计常用假设检验方法5.配伍组设计常用假设检验方法6.析因设计常用假设检验方法,1.数据的统计推断-参数估计,参数估计:估计值,95%CI(可信区间)例如:三个疗程后,试验组比对

7、照组平均降低体重6.25kg(95%CI:4.178.27kg)。,假设检验:检验统计量,P 值(确切值)例如:用药一个疗程后,试验组的ESS评分的增加比对照组平均提高36.5分(95%CI:18.554.5),经 t 检验两组有统计学差异(t=3.26,P=0.0018)。,2.数据的统计推断-假设检验,假设检验方法的选择依据:,应根据分析目的、设计类型、资料类型、样本含量大小等选用适当的检验方法。,3.完全随机设计 假设检验方法,3-1 完全随机设计 两组定量资料 比较:若总体服从正态分布且总体方差齐同,采用成组 t 检验;若总体服从正态分布且总体方差不齐同,采用成组 检验;若总体不服从正

8、态分布或/和方差不齐,采用两个独立样本比较的 Wilcoxon秩和检验,应用条件验证,正态性检验两样本的方差的齐性检验,正态性检验,即检验样本是否来自正态总体。,按所取的水准做出判断结论:(1)若P,按所取的水准,不拒绝H0,则认为总体不服从正态分布。,两样本的方差的齐性检验,方差齐性:是指方差相等。适用条件:两样本均来自正态分布总体。H0:1222 H1:1222 0.1,按所取的水准做出判断结论:(1)若P,按所取的水准,不拒绝H0,则认为两总体方差具有齐性。,例1:成组 t 检验,即:,例2:成组 检验,3-2 完全随机设计 多组定量资料 比较:若正态分布且方差齐同,采用单因素方差分析(

9、one-way ANOVA);若非正态分布或/和方差不齐,可进行变量变换后采用单因素方差分析或采用完全随机设计多个样本比较的Kruskal-Wallis H 检验。,某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组,进行双盲试验。6周后测得低密度脂蛋白作为试验结果(表4-3)。问:4个处理组患者的低密度脂蛋白含量总体均数有无差别?,例3:单因素方差分析,H0:1=2=3=4,即 4个试验组的总体均数相等H1:4个试验组的总体均数不全相等=0.05,先进行正态性检验、方差齐性检验,满足应用条件后,进行方差分析,多组比较的方差分析,

10、方差分析:(ANOVA,Fishers F test)整体比较(F值,P值)两两比较:(multiple comparison)整体比较有差异后进行两两比较(P值)Tukey,SNK,Dunncan,Dunnett,Scheffe,LSD,Bonferroni,Sidak,3-3 完全随机设计 两组定性资料 比较:计数资料:采用完全随机设计 2 检验,或 Fisher 确切概率法;等级资料:多采用两个独立样本比较的 Wilcoxon秩和检验 或Ridit 分析。,完全随机设计四格表资料2检验专用公式:(n40且所有的T5),完全随机设计四格表资料2检验的校正公式:(n40 且某一个理论数1T5

11、),最小理论频数TRC的判断:R行与C列中,行合计数中的最小值与列合计数中的最小值所对应格子的理论频数最小。如本例,第2行与第2列所对应的格子理论频数最小(4.67)。,某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果如下表。问两组降低颅内压的总体有效率有无差别?,例4:完全随机设计 2 检验 专用公式(非校正公式),两组降低颅内压有效率的比较,SPSS实现:,例5:完全随机设计两组等级资料:,上表中完全随机设计两组等级资料比较多采用两个独立样本比较的 Wilcoxon秩和检验 或Ridit 分析。,3-4 完全随机设

12、计 多组定性资料 比较:计数资料:采用完全随机设计 2 检验,或 Fisher 确切概率法;等级资料:采用多个独立样本比较的Kruskal-Wallis H 检验或Ridit分析。,例6:完全随机设计 行列表资料2 检验,多个样本率的比较,某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?,三种疗法有效率的比较,H0:1=2=3,即三种疗法治疗周围性面神经麻痹的有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等=0.05=21.04,=2,查 界值表得P0.005。按=0.05 水准,拒绝H0,接受H1,可认为三种疗法治

13、疗周围性面神经麻痹的有效率有差别。,行列表资料2检验简化公式:,行列表2检验时的注意事项1.不宜有1/5以上的理论频数小于5或有1个格子的理论频数小于1。解决的办法有四种:(1)性质相近邻行或邻列合并。(2)增加样本量。(3)删去理论数太小的行或列。(4)确切概率法,2.单向有序行列表(如下页表所示):(1)效应在构成比上有无差异:2检验。(2)效应有无差异:秩和检验 或Ridit分析。,3.双向有序且分类属性不同行列表(如下页表)(1)粗略分析两个变量有无关系(用2检验)(2)详细分析两个变量有无相关关系及相关方向(用Spearman等级相关分析方法)(3)详细分析两个变量是否存在线性变化趋

14、势(用有序分组资料的线性趋势检验),4.双向有序且分类属性相同行列表 一致性检验(计算Kappa值),5.当多个样本率(或构成比)比较的2检验,结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若想进一步了解哪两者的差别有统计学意义,可用2检验多重比较。,例7:完全随机设计多组等级资料比较采用多个独立样本比较的Kruskal-Wallis H 检验或Ridit分析。,4.配对设计 假设检验方法,4-1 配对设计 定量资料 比较:若差值服从正态分布,采用配对t 检验;若差值非正态分布,可进行变量变换后采用配对t 检验或采用

15、配对设计Wilcoxon符号秩检验,例8:配对t 检验同源配对,H0:d=0 H1:d 0 0.05,其中,式中d为每对数据的差值,为差值的样本均数,Sd为差值的标准差,为差值样本均数的标准误,n为对子数。,例9:配对t 检验 异源配对,4-2 配对设计 定性资料 比较:计数资料:采用配对设计2 检验(McNemars Test)或配对设计Wilcoxon符号秩检验;等级资料:配对设计Wilcoxon符号秩检验,某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见下表。问两种方法的检测结果有无差别?,例10:配对设计2 检验,两种方法的检测结果,若两种

16、处理方法无差别,总体:B=C。因抽样误差不可避免,样本往往bc,需进行假设检验(McNemar test),检验统计量为。,计算公式 1.b+c40 时 2.b+c40时,H0:总体B=CH1:总体BC=0.05b+c=12+2=14 40。,=1,查 界值表得P0.05。按=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检测结果不同。,5.随机区组设计 假设检验方法,5.配伍组设计 定量资料 比较:若正态分布且方差齐同,采用双向分类的方差分析(two-way classification ANOVA);若非正态分布或/和方差不齐,可进行变量变换后采用双向分类的方差分析或采用Frie

17、dman M 检验。,例11:随机区组设计方差分析,某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将15只染有肉瘤小白鼠按体重大小配成5个区组,每个区组内3只小白鼠随机接受三种抗癌药物,以肉瘤的重量为指标。问三种不同药物的抑瘤效果有无差别?,SPSS实现:,注意:方差分析的结果若拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。要分析哪些两组间有差别,应进行多个均数间的多重比较。,区组因素应是对试验结果有影响的非处理因素。区组内各试验对象应均衡,区组之间试验对象具有较大的差异为好,这样利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出

18、来。,当区组间差别有统计学意义时,随机区组设计的误差比完全随机设计小,试验效率得以提高。,例12:析因设计方差分析,SPSS实现:,五、多因素分析方法,1.多(元)重线性回归2.Logistic 回归3.Cox 模型,1.多(元)重线性回归,多重线性回归(multiple linear regression)用于分析一个应变量(连续性变量)和多个自变量之间的线性关系.,多元线性回归分析一般步骤:(1)根据样本数据求得模型参数的估计值,(2)对回归方程及各自变量做假设检验,并对方程的拟和效果及各自变量的作用大小做出评价。,决定系数R2,说明自变量能够解释Y变化的百分比。其值越接近于1,说明模型对

19、数据的拟和效果越好.,复相关系数,可以用来度量应变量Y 和多个自变量之间的线性相关程度.如果只有一个自变量时,,标准化回归系数由于各变量的测量单位不同,单从各偏回归系数的绝对值大小来分析难以得出正确的结论。,数据标准化:,数据标准化得到的回归方程称为标准化回归方程,相应的回归系数即为标准化回归系数。意义:用来比较各自变量对Y的影响强度,通常在有统计学意义前提之下,标准化回归系数的绝对值越大说明相应自变量对Y 的作用越大。,例5-1,为了研究影响糖尿病患者糖化血红蛋白(HbA1c)的主要危险因素,研究者收集糖尿病患者的糖化血红蛋白(Y,%)、年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固

20、醇(X3,mmol/L)、收缩压(X4,mmHg)和舒张压(X5,mmHg)等数据资料。现从中随机抽取了20例,数据见表5-1,试作多元线性回归分析。,表5-1 20例糖尿病患者的数据资料,对以上数据通过SPSS软件计算,主要结果如下表:,表5-2 回归方程的方差分析表,表5-3 偏回归系数估计结果,回归方程,方程有统计学意义。由表5-3可见,自变量X2、X3、X4 按 水平有统计学义,X1 和X5 无统计学意义。,例5-2,27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖测量值(y)见下页表,试建立血糖与其他几项指标的多元线性回归方

21、程。,SPSS实现:,(1)应用条件Y-连续性变量残差服从正态分布,方差相同应变量的观测值相互独立(2)样本含量 多元线性回归时,应该注意样本含量n与方程中自变量个数m的比例,经验上n至少应是m 的520倍。,多元线性回归,(3)定性变量的数量化二分类定性变量处理方法可以用0或1表示,如,多分类定性变量处理方法:如果有k 类,则可用k-1个取值为0或1的哑变量来赋值表达。如常见血型分为 4类,A型(1 0 0)B型(0 1 0)AB型(0 0 1)O型(0 0 0),有序变量处理方法:可以按“1、2、3、”的赋值方法直接引入回归模型。如果样本量较大,也可化作哑变量引入回归模型。,(4)多重共线

22、性 当自变量间存在较强的线性关系时,会使多元回归方程中的参数估计不准确,影响多元线性回归分析的结果。(5)关于变量筛选 在自变量较多的情况下,使用逐步回归分析常能使问题得到简化,但不要盲目信任逐步回归得到的结果,最好结合所要研究的问题和专业知识确定应选择的变量。,OR及95%CI 并说明谁与谁比较!,2.影响疗效的多因素分析logistic回归,Logistic 回归模型 设因变量Y是一个二值变量,取值为:Y=,1 出现阳性结果(发病、死亡等)0 出现阴性结果(未发病、存活等),记在这m个自变量作用下阳性结果发生的概率为 P=P(Y=1|X1,X2,X3,.,Xm),logistic回归模型可

23、表示为,常数项或截距,,为回归系数。,Logistic regression analysis,logistic回归模型还可以表示成如下线性形式 等号左端为阳性结果与阴性结果发生概率之比的自 然对数,称为P 的logit变换,记为logit(P),即,对于发病率较低的慢性疾病如心脑血管疾病、恶性肿瘤等,由于P很小,优势比可以作为相对危险度(RR)的近似估计,即,例5-3 研究吸烟(X1)、饮酒(X2)与食道癌(Y)关系的病例对照资料,试作logistic回归分析。,表13-2 吸烟与食道癌关系的病例对照调查资料,各变量赋值情况如下:,用SPSS统计软件logistic回归过程可得到如下主要结果

24、,例5-4 26例冠心病病人和28例对照者进行病例对照研究,例5-4 数据录入,(1)logistic回归分析的应用 logistic回归分析可以用于流行病学、临床试验数据分析、药物或毒物的剂量反应和预测与判别等多个方面。,logistic回归应用及注意事项,(2)自变量的取值 二分类变量:可以使用0或1编码无序多分类变量:需要转化为哑变量连续变量:有三种处理方法(1)直接使用原始观测值(2)将连续变量按取值区间分成若干等级组,按 给分,然后按连续变量进行处理。(3)将连续变量按不同区间分成 g个组后,化作g-1个哑变量处理。,年龄变量离散化处理的赋值方法,(3)样本含量 logistic回归

25、的所有统计推断都是建立在大样本基础上的,因此其应用的一个基本条件是要求有足够的样本含量,实际中病例和对照的人数应至少各有3050例,方程中的变量个数愈多需要的例数也就愈大。对于配对资料,一般样本的匹配组数应为纳入方程中的自变量个数的20倍以上。,3.反应疗效快慢的多因素分析 生存分析,生存率或生存曲线 RR及 95%CI 并说明谁与谁比较!,生存分析(Survival analysis)是将研究对象的随访结局和随访时间两个因素同时结合起来考虑的一种统计分析方法。(是临床试验和队列研究的一种重要分析手段),随访资料数据特点:(1)应变量有两个:生存时间和结局(2)生存时间存在不完全数据(即截尾数

26、据)其数据的特殊性决定了此类资料不能用t-test 和 F-test。,生存时间类型:(1)完全数据(complete data)(2)截尾数据(censored data)。注意:完全数据提供了病人确切的生存时间,是生存分析的主要依据。截尾数据(删失数据)也提供部分信息,说明病人在某时刻之前没有死亡。,(2)半数生存期 又称为中位生存期(Median survival time):即寿命的中位数(计算方法不同于普通的中位数),表示有且只有50%的个体可活这么长时间。,生存分析的基本方法非参数法:乘积极限法 寿命表法 2.参数法:3.半参数法:COX比例风险模型,乘积极限法(Kaplan-me

27、ier曲线),横轴生存时间 t 纵轴生存率 生存率曲线阶梯形,寿命表法-生存率曲线,横轴术后年数 t 纵轴 k 年生存率 生存率曲线折线形,例5-5,SPSS实现:,例5-6,SPSS实现:,生存曲线Log-rank检验时序检验(Log-rank test):,例5-7,COX比例风险回归模型 在临床医学中,对病人治疗效果的评价有时用时间的长短来衡量,如肺炎病人从治疗开始到退烧所需时间;某癌症病人手术后的生存时间;白血病病人经化疗后的缓解期等,这类时间统称为生存时间。生存时间的长短同病人的治疗措施、病人体质、病情轻重及机体免疫状况等因素有关。我们把这些自变量称为预后因素。,由于时间长短不满足于正态分布和方差齐性的要求,不便用多元线性回归来分析生存时间与预后因素之间的关系,所以,COX于1972年提出了比例风险回归来分析生存资料。,COX比例风险回归模型:为具有协变量X的个体在时刻t时的风险函数,又称为瞬时死亡率。是所有危险因素为0 时的基础风险率,它是未知的,但假定它与 是呈比例的。,相对危险度估计:点估计:区间估计:,例5-8,SPSS实现:,谢谢各位!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号