《相关与回归分析课件.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析课件.ppt(37页珍藏版)》请在三一办公上搜索。
1、第十章 线性相关与回归 regression and correlation,叶孟良,变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。两种关系:依存关系:应变量(dependent variable)Y 随自变量(independent variable)X变化而变化。回归分析 互依关系:变量Y与变量 X间的彼此依赖关系。相关分析,线性相关线性回归,内容:,直线相关,相关-变量间的互依关系,直线相关(linear correlation):简单相关(simple correlation),用于双变量正态分布资料。,散点图,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据
2、应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,图10-2 相关系数示意图,散点呈椭圆形分布,X、Y 同时增减-正相关(positive correlation);X、Y 此增彼减-负相关(negative correlation)。,散点在一条直线上,X、Y 变化
3、趋势相同-完全正相关;反向变化-完全负相关。,图10-2 相关系数示意图,X、Y 变化互不影响-零相关(zero correlation),非线性相关,一、相关系数概念,相关系数(correlation coefficient),又称积差相关系数(coefficient of product moment correlation),或 Pearson 相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。r 样本相关系数,r无单位,-1 r 1。r 值为正 正相关,为负 负相关;(与后面回归系数b的符号相同)|r|=1-完全相关,|r|=0-零相关。,二、相关系数的意义,三、相关系数的计
4、算,例10.1 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,测量结果如表10-1所示,试计算身高与前臂长之间的相关系数。,表10-1 12名男青年身高与前臂长的测量结果,散点图,四、相关系数的假设检验,r0原因:由于抽样误差引起,=0 存在相关关系,0,公式,,n-2,Sr-相关系数的标准误,五、总体相关系数的区间估计(了解),六、进行线性相关的注意事项,1、相关系数0表示正相关,相关系数0表示负相关,相关系数=0表示无线性相关,并不表示没有任何关系。2、资料要求双变量正态分布。3、对相关系数要做假设检验4、相关未必有真联系,两变量间相关关系是一种共变关系,不
5、一定就代表因果关系。,实 例,散点图,直线回归,函数关系:确定。例如圆周长与半径:y=2r。,回归关系:不确定。例如血压和年龄的关系,称为直线回归(linear regression)。,目的:建立直线回归方程(linear regression equation),根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。,一、直线回归方程,一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标。,b:斜率(slope),回归系数(regression coefficient)。意义:X每
6、改变一个单位,Y平均改变b个单位。b0,Y随X的增大而增大(减少而减少)斜上;b0,Y随X的增大而减小(减少而增加)斜下;b=0,Y与X无直线关系 水平。b越大,表示Y随X变化越快,直线越陡峭。,二、回归方程参数的计算,最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。,因为直线一定经过“均数”点,回归参数计算的实例,三、回归系数的假设检验,b0原因:由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,(一)方差分析;(二)t 检验,X,(一)方差分析,Y的离均差平方和的分解,几个平方和的意义,本例计算:,公式,n2,S
7、b为回归系数的标准误,SY.X为Y的剩余标准差扣除X的影响后Y的变异程度。,(二)t 检验,t t 0.01(9)=3.250 p0.01,意:两种检验是完全等价的,即,四、进行线性回归分析的注意事项,1、资料要求:满足线性、独立、正态、等方差四个条件2、要有实际意义3、须对回归系数进行假设检验4、使用回归方程计算估计值时,不可以把估计范围扩大到自变量的取值范围以外。,区别:,五、直线回归与相关的区别与联系,1.资料:,X、Y服从双变量正态分布,Y正态随机变量,X为选定变量,2.应用:,回归 由一个变量值推算另一个变量值,相关 只反映两变量间互依关系,3.回归系数有单位,相关系数无单位,联系:,六、直线回归与相关的应用注意事项,要有实际意义 不能任意“外延”绘制散点图,