医学统计学九双变量回归与相关课件.ppt

上传人:小飞机 文档编号:3807222 上传时间:2023-03-22 格式:PPT 页数:98 大小:1.95MB
返回 下载 相关 举报
医学统计学九双变量回归与相关课件.ppt_第1页
第1页 / 共98页
医学统计学九双变量回归与相关课件.ppt_第2页
第2页 / 共98页
医学统计学九双变量回归与相关课件.ppt_第3页
第3页 / 共98页
医学统计学九双变量回归与相关课件.ppt_第4页
第4页 / 共98页
医学统计学九双变量回归与相关课件.ppt_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《医学统计学九双变量回归与相关课件.ppt》由会员分享,可在线阅读,更多相关《医学统计学九双变量回归与相关课件.ppt(98页珍藏版)》请在三一办公上搜索。

1、2023/3/22,医学统计学,1,双变量回归与相关,Bivariate Regression&Correlation,第二军医大学卫生统计学教研室 张罗漫,第9章,2023/3/22,医学统计学,2,讲课内容:第一节 直线回归(重点)第二节 直线相关(重点)第三节 秩相关 第六节 两条回归直线的比较 第七节 曲线拟合,2023/3/22,医学统计学,3,第2、第3、第4章介绍了计量资料单变量的统 计描述与统计推断:P.13 例2-1:计算101名成年女子血清总胆固 醇的平均指标与变异指标。P.51 例3-7:比较阿卡波糖胶囊(试验组)与拜 糖苹胶囊(对照组)降低糖尿病人的空腹血糖值 有无差别

2、。P.73 例4-2:比较安慰剂组、降血脂新药2.4g 组、降血脂新药4.8g组、降血脂新药7.2g组降 低患者的低密度脂蛋白含量有无差别。,2023/3/22,医学统计学,4,在医学研究中常要分析两变量间或多变 量间的关系:年龄与血压 药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等,2023/3/22,医学统计学,5,事物间的相关关系确定性关系 两变量间的函数表达式 圆的周长与半径的关系:C2R 路程与速度、时间的关系:LST 数学中X与Y的直线函数关系:Ya+bX 非确定性关系 两变量间存在关系,但未精 确到可以用函数表达式来描述。年龄与血脂的关系;身高与体重的关系;体重与体表面积

3、的关系。,2023/3/22,医学统计学,6,第一节 直线回归,Linear Regression,2023/3/22,医学统计学,7,一、直线回归的概念“回归”是一个借用已久因而相沿成习 的统计学术语。直线回归是分析成对观测数据中两变量 间线性依存关系的方法。,2023/3/22,医学统计学,8,生物遗传学上的“回归”Pearson K(英,18571936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高间(X,英寸)存在线性依存关系:=33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高

4、比其父亲高。Galton F(英,18221911)将这种现象称之为子一代身高向人群平均身高的“回归”。,2023/3/22,医学统计学,9,Regression 释义,210=1024,2023/3/22,医学统计学,10,Francis Galton,Francis Galton 爵士(英,18221911)是达尔文(Charles Darwin)的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。,2023/3/22,医学统计学,11,Karl Pearson,Karl Pearson(英,18571936)是Francis

5、Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。,2023/3/22,医学统计学,12,天文学上的“回归”地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置(南、北纬23027),分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。,2023/3/22,医学统计学,13,日常生活中的“回归”现象 1岁姜二狗,7岁姜二狗同学,20岁小姜同志,30岁姜科长,40岁姜处长,

6、50岁姜局长,60岁姜老,70岁老姜,80岁姜二狗。,目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、“回归系数”等统计学概念。,2023/3/22,医学统计学,14,例 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。,2023/3/22,医学统计学,15,年龄(岁)X,尿肌酐含量,hat,2023/3/22,医学统计学,16,各散点呈直线趋势但并非均在一条直线上根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别,称为直线回归方程。,2023/3/22,医学统计学,17,二、直线回

7、归方程的求法,2023/3/22,医学统计学,18,CASIO fx-3600PV计算器计算a、b与r,步骤 键 盘 说 明 1 MODE 2 进入线性回归模式 LR 2 SHIFT KAC 清除以前储存数据 3 13 XDYD 3.54 DATA 数据输入 11 XDYD 3.01 DATA 9 XDYD 3.09 DATA 4 SHIFT r 显示相关系数 0.8818 5 SHIFT a 显示截距 1.6617 6 SHIFT b 显示回归系数 0.1392 SHIFT DEL 删除输错的一对数据,2023/3/22,医学统计学,20,年龄(岁)X,尿肌酐含量,Y,(mmol/24h),

8、2023/3/22,医学统计学,21,b 的意义,斜率(slope),年龄每增加1岁,尿肌酐含量平均增加0.1392(mmol/24h),b的单位为(Y的单位/X的单位),2023/3/22,医学统计学,22,a 截距(intercept,constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。,a 的意义,2023/3/22,医学统计学,23,回归直线的有关性质,直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。,对于X各个取值,相应Y的总体均数,2023/3/22,医学统计学,24,X,Y,2023/3/22,医学统计学,25,三、直线回归

9、方程中的统计推断,(一)回归方程的假设检验,1.方差分析(1)建立检验假设并确定检验水准 H0:=0 H1:0=0.05,的分解,重点,2023/3/22,医学统计学,26,因变量Y总变异 的分解,X,Y,Y,2023/3/22,医学统计学,27,SS总=SS回+SS残,2023/3/22,医学统计学,28,未引进回归时的总变异:(sum of squares of deviation from mean)引进回归以后的剩余变异:(sum of squares of residuals)回归的贡献,回归平方和:(sum of squares due to regression),Y的总变异分解

10、,2023/3/22,医学统计学,29,(3)计算检验统计量F值,SS总=lYY=1.0462 SS回=blXY=l2XY/lXX=5.8452/42=0.8134SS残=SS总SS回=1.04620.8134=0.2328,v总=v回+v剩v总=n1,v回=1,v残=n2,2023/3/22,医学统计学,30,F0.01(1,6)=13.74,2023/3/22,医学统计学,31,2.t 检验,回归的剩余标准差,2023/3/22,医学统计学,32,(2)计算检验统计量 t 值,(1)建立检验假设并确定检验水准,(3)确定P值下结论,2023/3/22,医学统计学,33,(二)总体回归系数的

11、可信区间,此区间不包括=0,结论为b有统计学意义。,2023/3/22,医学统计学,34,SPSS结果,2023/3/22,医学统计学,35,(三)利用回归方程进行估计与预测,1.总体均数 的可信区间,:给定X后对应Y的总体均数,给定X后对应Y的样本均数,2023/3/22,医学统计学,36,2.个体Y值的容许区间,给定X后对应个体Y值波动范围,2023/3/22,医学统计学,37,X Y(体重,kg)(体表面积,103cm2)11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01414.4 5.83014.9 6.10215.2

12、6.07516.0 6.411,例 某地10名三岁儿童体重与体表面积,2023/3/22,医学统计学,38,可信区间与容许区间示意(confidence band&tolerance band),X 体重,Y 体表面积,2023/3/22,医学统计学,39,第二节 直线相关,Linear Correlation,2023/3/22,医学统计学,40,生物遗传学上的“相关”在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量X,儿子身高作为应变量Y。Pearson K(英,18571936)在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自

13、变量X与应变量Y,也不必计算回归方程。Galton F(英,18221911)将这种现象称之为“相关”。,2023/3/22,医学统计学,41,当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关。两个变量有共变现象,称为有相关关系。相关关系不一定是因果关系。,一、直线相关的概念,2023/3/22,医学统计学,42,相互关系示意图,2023/3/22,医学统计学,43,相关系数的性质,两变量间的线性关系密切程度与相关方 向用直线相关系数r表示。1 r 1r0为正相关r0为负相关r0为零相关或无相关,2023/3/22,医学统计学,44,二、相关系数的意义与计算,Pears

14、on 相关系数,标准化后的协方差,2023/3/22,医学统计学,45,2023/3/22,医学统计学,46,SPSS结果,2023/3/22,医学统计学,47,三、相关系数的统计推断,(一)相关系数的假设检验,尿肌酐含量与年龄之间无直线相关关系,2023/3/22,医学统计学,48,附表2,附表13,2023/3/22,医学统计学,49,(二)总体相关系数的可信区间,相关系数的抽样分布在0时呈偏态分布,Z变换后服从正态分布,2023/3/22,医学统计学,50,相关系数的抽样分布(|=0.8,n=100,1000次抽样),=-0.8,=0.8,2023/3/22,医学统计学,51,R.A.F

15、isher(1921)的 z 变换,z 近似服从均数为,标准差为 的正态分布。,2023/3/22,医学统计学,52,相关系数的z变换值的抽样分布(=-0.8),变换前,变换后,2023/3/22,医学统计学,53,相关系数的z变换值的抽样分布(=0.8),变换前,变换后,2023/3/22,医学统计学,54,相关系数的可信区间估计,1.将 r 变换为 z。2.根据 z 服从正态分布,估计 z 的可信区间。,3.再将 z 变换回 r。,2023/3/22,医学统计学,55,求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的 r=0.974,试求总体相关系数 的95%可信区间。,z的95%

16、可信区间:,2023/3/22,医学统计学,56,四、决定系数,0R21 Y的总变异中回归关系所能解释的百分比 年龄可解释尿肌酐含量变异性的77.75%,2023/3/22,医学统计学,57,五、直线回归与直线相关的区别与联系,区别 r没有单位,b有单位;相关表示相互关系,没有依存关系;回归有依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回 归分析;当Y是随机变量,X是控制变量时,理论 上只能作回归而不能作相关分析;,2023/3/22,医学统计学,58,区别 I型回归:Y是随机变量,X是控制变量;II型回归:Y与X均是随机变量。同一资料中由X推算Y与由Y推算X的回归方程不同:

17、,2023/3/22,医学统计学,59,联系均表示线性关系符号相同:共变方向一致,假设检验结果相同:tr=tb,可以互相换算:,2023/3/22,医学统计学,60,六、直线回归与相关应用的注意事项,相关:X与Y没有主次,为双向。回归:Y依X变化而变化,为单向。自变量的选择:原因、容易测量、变异小要有实际意义。,1.根据分析目的选择变量及统计方法,2023/3/22,医学统计学,61,孩子的身高与小树的高度间显示出显著的相关性,2023/3/22,医学统计学,62,有无异常点,谨慎剔除。,2.进行相关、回归分析前要绘制散点图,进行判断,2023/3/22,医学统计学,63,离群值对相关的影响,

18、2023/3/22,医学统计学,64,样本的间杂性对相关性的误导,2023/3/22,医学统计学,65,3.用残差图考察数据是否符合模型假设条件,Y与X为线形关系误差服从均数为0的正态分布方差相等各观察单位独立,回归模型应用前提条件:,2023/3/22,医学统计学,66,e,0,2023/3/22,医学统计学,67,0,0,0,0,e,e,e,e,2023/3/22,医学统计学,68,P值越小越有理由认为变量间直线关系 存在,不能说关系越密切。直线回归关系可以内插,不宜外延。当样本含量较大时,统计学检验的作用 减弱。r0.05/2,100=0.195,4.结果的解释及正确应用,2023/3/

19、22,医学统计学,69,第三节 秩相关,Rank Correlation,一、Spearman 秩相关,2023/3/22,医学统计学,70,应用条件:1.不服从双变量正态分布而不宜作积差 相关分析;2.总体分布类型未知;3.原始数据用等级表示。,2023/3/22,医学统计学,71,work years of potential life lost,2023/3/22,医学统计学,72,2023/3/22,医学统计学,73,或用秩Pi、Qi直接计算积差相关系数r,附表14(n50),2023/3/22,医学统计学,74,SPSS结果,2023/3/22,医学统计学,75,第六节 两条回归直线

20、的比较,一、两个回归系数的比较,二、两个截距的比较,2023/3/22,医学统计学,76,2023/3/22,医学统计学,77,Y,X,bc,b2,b1,bc,0,2023/3/22,医学统计学,78,第七节 曲线拟合,2023/3/22,医学统计学,79,一、曲线拟合的一般步骤 1.依据分析目的确定X与Y,根据两变量 散点图、结合专业知识选择曲线类型。2.求回归方程:曲线直线化。3.拟合优度:R2。,2023/3/22,医学统计学,80,CRF:促肾上腺皮质激素释放因子 ACTH:肾上腺皮质激素,例9-13,2023/3/22,医学统计学,81,例9-13数据散点图,CRF(nmol/L)X

21、,Y,ACTH(pmol/L),2023/3/22,医学统计学,82,2023/3/22,医学统计学,83,例9-13数据对X作对数变换散点图,Y,ACTH(pmol/L),lg CRF(nmol/L)X,2023/3/22,医学统计学,84,例9-14,2023/3/22,医学统计学,85,例9-14数据散点图,病人住院天数(天)X,Y,预后指数,2023/3/22,医学统计学,86,lnY,预后指数,例9-14数据对Y作对数变换散点图,病人住院天数(天)X,2023/3/22,医学统计学,87,2023/3/22,医学统计学,88,二、曲线拟合的用途 1.定量刻画X与Y的关系。2.用决定系

22、数R2反应两变量曲线关系的密切程度。,2023/3/22,医学统计学,89,Y,X,0,三、常见的几种曲线,对数曲线,2023/3/22,医学统计学,90,Y,X,0,指数曲线,2023/3/22,医学统计学,91,Y,X,0,Y=b0+b1 X+b2 X2,抛物线,2023/3/22,医学统计学,92,Y,X,Y=b0+b1 X+b2 X2+b3 X3,0,3次多项式曲线,2023/3/22,医学统计学,93,SPSS中曲线模型,2023/3/22,医学统计学,94,例9-13,例9-14,2023/3/22,医学统计学,97,讲课内容:第一节 直线回归(重点)第二节 直线相关(重点)第三节 秩相关 第六节 两条回归直线的比较 第七节 曲线拟合,2023/3/22,医学统计学,98,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号