《卫生统计学(钟崇洲)10-直线回归.ppt》由会员分享,可在线阅读,更多相关《卫生统计学(钟崇洲)10-直线回归.ppt(36页珍藏版)》请在三一办公上搜索。
1、直线相关与回归,钟崇洲,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、(伸开大拇指与中指两端的最大长度)做了测量,发现:,历史背景:,儿子身高(Y,英寸)与父亲身高(X)存在线性关系:,回归与相关 regression and correlation,变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。,第一节 直线回归 第二节 直线相关 第三节 Spearman等级相关,两个关系:依存关系:应变量(dependent variable)Y随
2、自变量(independent variable)X变化而变化。回归分析 互依关系:应变量Y与自变量 X间的彼此关系 相关分析,实 例,散点图,第一节 直线回归,回归关系:例如血压和年龄的关系,称为直线回归(linear regression)。,目的:建立直线回归方程(linear regression equation),一、直线回归方程,一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标。,b:斜率(slope),回归系数(regression coefficient)。意义:X每改变一个单位,Y平均改变b个单位。b0,Y随X的增大而增大(减少而减少)斜上;b0,Y随X
3、的增大而减小(减少而增加)斜下;b=0,Y与X无直线关系 水平。b越大,表示Y随X变化越快,直线越陡峭。,二、回归方程参数的计算,最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。,散点图,回归参数计算的实例,三、回归系数的假设检验,b0原因:由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,公式,n2,Sb为回归系数的标准误,SY.X为Y的剩余标准差扣除X的影响后Y的变异程度。,(一)t 检验;,任一点P(X,Y)的纵坐标被回归直线与均数截成3段:,图 应变量Y的平方和划分示意图,SS总SS回归SS残差,(二)方差分
4、析,SS残差越小,SS回归越大,表明回归模型的预测效果越好。,四、直线回归方程的区间估计,五、回归方程的应用,1.预测(forecast)(给定X值,估计Y)2.控制(给定Y值范围,求X值范围),第二节 直线相关,回归-变量间的依存关系,相关-变量间的互依关系,直线相关(linear correlation):简单相关(simple correlation),用于双变量正态分布资料。,图74 相关系数示意图,散点呈椭圆形分布,X、Y 同时增减-正相关(positive correlation);X、Y 此增彼减-负相关(negative correlation)。,散点在一条直线上,X、Y 变
5、化趋势相同-完全正相关;反向变化-完全负相关。,图75 相关系数示意图,X、Y 变化互不影响-零相关(zero correlation),一、相关系数概念,相关系数(correlation coefficient),又称积差相关系数(coefficient of product moment correlation),或 Pearson 相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。r 样本相关系数,r无单位,-1 r 1。r 值为正 正相关,为负 负相关;(与回归系数b的符号相同)|r|=1-完全相关,|r|=0-零相关。,二、相关系数的意义,三、相关系数的计算,四、相关系数的
6、假设检验,r0原因:由于抽样误差引起 存在相关关系,公式,,n-2,Sr-相关系数的标准误,注意:对于同一资料,tbtr,检验完全等价,习惯上,相关系数的绝对值|r|在:0.3以下,称为微弱线性相关;,称为低度线性相关;,称为显著线性相关;0.8以上,称为高度线性相关。,区别:,六、直线回归与相关的区别与联系,1.资料:,X、Y服从双变量正态分布,Y正态随机变量,X为选定变量,2.应用:,回归 由一个变量值推算另一个变量值,相关 只反映两变量间互依关系,3.回归系数有单位,相关系数无单位,联系:,七、直线回归与相关的应用注意事项,要有实际意义 不能任意“外延”绘制散点图,第三节 等级相关ran
7、k correlation,适用资料:不服从双变量正态分布 总体分布类型未知 原始数据用等级表示,等级相关系数 rs(即Spearman Correlation Coefficient)反映两变量间相关的密切程度与方向。,表7-3 等级相关系数计算表,注意:相同秩次较多时应校正rs。,1、两变量X,Y间存在直线回归关系,即基本上可以确定两者有因果关系。()2、回归系数越小,两变量相关关系也越不密切。()3、n=10,r=0.90,可认为两变量呈中高度相关。()4、直线回归中,b的假设检验结果P0.05,说明该回归方程有应用价值。(),1、相关系数r的意义是()A.X与Y的从属关系 B.两总体之
8、间的直线相关关系 C.表示两变量的相关方向和关系的密切程度D.表示X与Y之间的直线相关关系的密切程度和方向 E.以上都不是,2、在相关分析中,相关系数假设检验时,P值越小,则:A.两变量相关性越好 B.结论可信度越大 C.认为总体具有线性相关的理由越充分 D.抽样误差越小E.Y随X变化的变化率越大3.对两个变量进行直线相关分析,r0.39,P0.05,则说明两个变量之间()A.有伴随关系 B.有数量关系 C.有因果关系 D.有直线相关关系 E.无直线相关关系4.分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则应采用()A.秩相关分析 B.相关分析 C.直线回归分析 D.t检验 E.以
9、上都不是,5、关于相关与回归的联系,下列说法中不正确的是()A.对同一组数据若同时计算b和r,它们的正负号是一致的B.对同一组数据,b和r的假设检验是等价的C.用回归可以解释相关 D.决定系数r2越接近1,说明引入回归的效果越好 E.对同一组数据,b与r是相等的6、用最小二乘法确定的直线回归方程,可保证各观察点()A.距直线的纵向距离相等 B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等 D.与直线的垂直距离的平方和最小E.与横轴的纵向距离的平方和最小,7、在双变量(X,Y)的相关与回归分析中有()A.r值增加,b值增加 B.|r|值增加,|b|值增加C.r0时b0 D.r0时b 0 E.r=0时b=08、对直线回归系数进行假设检验,其无效假设H0是()A.=0 B.=1 C.0 D.t0.05,按=0.05 水准,可认为()A.肺活量与体重大小无关 B.肺活量随体重增加而增加C.体重与肺活量间有函数关系存在 D.体重与肺活量均值有差别E.体重与肺活量间无线性相关关系存在,