一元线性回归PPT课件.ppt_三一办公31ppt.com

资源描述

《一元线性回归PPT课件.ppt》由会员分享，可在线阅读，更多相关《一元线性回归PPT课件.ppt（78页珍藏版）》请在三一办公上搜索。

1、作者贾俊平,统计学(第三版),2008,2008年8月,不要过于教条地对待研究的结果，尤其当数据的质量受到怀疑时。 Damodar N.Gujarati,统计名言,第 8 章一元线性回归,8.1 变量间关系的度量 8.2 一元线性回归的估计和检验8.3 利用回归方程进行预测8.4 用残差检验模型的假定,2008年8月,学习目标,相关关系的分析参数的最小二乘估计回归直线的拟合优度回归方程的显著性检验利用回归方程进行预测用残差证实模型的假定用 Excel 和SPSS进行回归,2008年8月,子代与父代一样吗？,Galton被誉为现代回归和相关技术的创始人。1875年，Galton利用豌豆

2、实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆，并说服他在英国不同地区的朋友每一组种植10粒种子，最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较当结果被绘制出来之后，他发现并非每一个子代都与父代一样，不同的是，尺寸小的豌豆会得到更大的子代，而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型)，后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代)，这一趋势现在被称作“回归效应”。人们发现它的应用很广，而不仅限于从一代到下一代豌豆

3、大小问题,2008年8月,子代与父代一样吗？,正如Galton进一步发现的那样，平均来说，非常矮小的父辈倾向于有偏高的子代；而非常高大的父辈则倾向于有偏矮的子代。在第一次考试中成绩最差的那些学生在第二次考试中倾向于有更好的成绩(比较接近所有学生的平均成绩)，而第一次考试中成绩最好的那些学生在第二次考试中则倾向于有较差的成绩(同样比较接近所有学生的平均成绩)。同样，平均来说，第一年利润最低的公司第二年不会最差，而第一年利润最高的公司第二年则不会是最好的如果把父代和子代看作两个变量，找出这两个变量的关系，并根据这种关系建立适当的数学模型，就可以根据父代的数值预测子代的取值，这就是经典的回归方法要解

4、决的问题。学完本章的内容你会对回归问题有更深入的理解,2008年8月,回归分析研究什么？,研究某些实际问题时往往涉及到多个变量。在这些变量中，有一个变量是研究中特别关注的，称为因变量，而其他变量则看成是影响这一变量的因素，称为自变量假定因变量与自变量之间有某种关系，并把这种关系用适当的数学模型表达出来，那么，就可以利用这一模型根据给定的自变量来预测因变量，这就是回归要解决的问题在回归分析中，只涉及一个自变量时称为一元回归，涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系，则称为线性回归(linear regression)；如果因变量与自变量之间是非线性关系则称为非线性回归(n

5、onlinear regression),8.1 变量间的关系 8.1.1 变量间是什么样的关系？ 8.1.2 用散点图描述相关关系 8.1.3 用相关系数度量关系强度,第 8 章一元线性回归,2008年8月,怎样分析变量间的关系？,建立回归模型时，首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题变量之间是否存在关系？如果存在，它们之间是什么样的关系？变量之间的关系强度如何？样本所反映的变量之间的关系能否代表总体变量之间的关系？,8.1.1 变量间是什么样的关系？,8.1 变量间的关系,2008年8月,函数关系,是一一对应的确定关系设有两个变量 x 和 y ，变量 y 随变

6、量 x 一起变化，并完全依赖于 x ，当变量 x 取某个数值时， y 依确定的关系取相应的值，则称 y 是 x 的函数，记为 y = f (x)，其中 x 称为自变量，y 称为因变量各观测点落在一条线上,2008年8月,相关关系(几个例子),子女的身高与其父母身高的关系从遗传学角度看，父母身高较高时，其子女的身高一般也比较高。但实际情况并不完全是这样，因为子女的身高并不完全是由父母身高一个因素所决定的，还有其他许多因素的影响一个人的收入水平同他受教育程度的关系收入水平相同的人，他们受教育的程度也不可能不同，而受教育程度相同的人，他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系，但它

7、并不是决定收入的惟一因素，还有职业、工作年限等诸多因素的影响农作物的单位面积产量与降雨量之间的关系在一定条件下，降雨量越多，单位面积产量就越高。但产量并不是由降雨量一个因素决定的，还有施肥量、温度、管理水平等其他许多因素的影响,2008年8月,相关关系(correlation),一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时，变量 y 的取值对应着一个分布各观测点分布在直线周围,8.1.2 用散点图描述相关关系,8.1 变量间的关系,2008年8月,散点图(scatter diagram),2008年8月,用散点图描述变量间的关系(例题分析),【例】为研究销售收入与广告费用支出之

8、间的关系，某医药管理部门随机抽取20家药品生产企业，得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系,原始数据,2008年8月,散点图(销售收入和广告费用的散点图),8.1.3 用相关系数度量关系强度,8.1 变量间的关系,2008年8月,相关系数(correlation coefficient),度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的，称为总体相关系数，记为若是根据样本数据计算的，则称为样本相关系数，简称为相关系数，记为 r也称为Pearson相关系数 (Pearsons correlation coeffici

9、ent)样本相关系数的计算公式,用Excel计算相关系数,2008年8月,相关系数的性质,性质1：r 的取值范围是 -1,1|r|=1，为完全相关r =1，为完全正相关r =-1，为完全负正相关r = 0，不存在线性相关关系-1r0，为负相关0r1，为正相关|r|越趋于1表示关系越强；|r|越趋于0表示关系越弱,2008年8月,相关系数的性质,性质2：r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等，即rxy= ryx性质3：r数值大小与x和y原点及尺度无关，即改变x和y的数据原点及计量尺度，并不改变r数值大小性质4：仅仅是x与y之间线性关系的一个度量，它不能用于描述非线性

10、关系。这意为着， r=0只表示两个变量之间不存在线性相关关系，并不说明变量之间没有任何关系性质5：r虽然是两个变量之间线性关系的一个度量，却不一定意味着x与y一定有因果关系,2008年8月,相关系数的经验解释,|r|0.8时，可视为两个变量之间高度相关0.5|r|0.8时，可视为中度相关0.3|r|0.5时，视为低度相关|r|0.3时，说明两个变量之间的相关程度极弱，可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上,2008年8月,相关系数的显著性检验(检验的步骤),1.检验两个变量之间是否存在线性相关关系采用R.A.Fisher提出的 t 检验检验的步骤为提出假设：H

11、0：；H1： 0计算检验的统计量用Excel中的【TDIST】函数得双尾计算P值，并于显著性水平比较，并作出决策若P，拒绝H0,2008年8月,相关系数的显著性检验(例题分析),【例】检验销售收入与广告费用之间的相关系数是否显著 (0.05)提出假设：H0：；H1： 0计算检验的统计量3. 用Excel中的【TDIST】函数得双尾P=2.743E-090.05，拒绝H0，销售收入与广告费用之间的相关系数显著,8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型 8.2.2 参数的最小二乘估计 8.2.3 回归直线的拟合优度 8.2.4 显著性检验,第 8 章一元线性回归,8.

12、2.1 一元线性回归模型,8.2 一元线性回归的估计和检验,2008年8月,什么是回归分析？(regression analysis),重点考察考察一个特定的变量(因变量)，而把其他变量(自变量)看作是影响这一变量的因素，并通过适当的数学模型将变量间的关系表达出来利用样本数据建立模型的估计方程对模型进行显著性检验进而通过一个或几个自变量的取值来估计或预测因变量的取值,2008年8月,回归模型的类型,2008年8月,一元线性回归,涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable)，用y表示用来预测或用来解释因变量的一个或多个

13、变量称为自变量(independent variable)，用x表示因变量与自变量之间的关系用一个线性方程来表示,2008年8月,一元线性回归模型(linear regression model),描述因变量 y 如何依赖于自变量 x 和误差项的方程称为回归模型一元线性回归模型可表示为 y = b0 + b1 x + ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数,2008年8月,一元线性

14、回归模型(基本假定),因变量x与自变量y之间具有线性关系在重复抽样中，自变量x的取值是固定的，即假定x是非随机的误差项满足正态性。是一个服从正态分布的随机变量，且期望值为0，即 N(0 , 2 ) 。对于一个给定的 x 值，y 的期望值为E(y)=0+ 1x方差齐性。对于所有的 x 值，的方差一个特定的值，的方差也都等于 2 都相同。同样，一个特定的x 值， y 的方差也都等于2独立性。独立性意味着对于一个特定的 x 值，它所对应的与其他 x 值所对应的不相关；对于一个特定的 x 值，它所对应的 y 值与其他 x 所对应的 y 值也不相关,2008年8月,估计的回归方程(estimate

15、d regression equation),总体回归参数和是未知的，必须利用样本数据去估计用样本统计量和代替回归方程中的未知参数和，就得到了估计的回归方程一元线性回归中估计的回归方程为,其中：是估计的回归直线在 y 轴上的截距，是直线的斜率，它表示对于一个给定的 x 的值，是 y 的估计值，也表示 x 每变动一个单位时， y 的平均变动值,8.2.2 参数的最小二乘估计,8.2 一元线性回归的估计和检验,2008年8月,参数的最小二乘估计(method of least squares ),德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方

16、和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,2008年8月,Karl Gauss的最小化图,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),2008年8月,参数的最小二乘估计 ( 和的计算公式), 根据最小二乘法，可得求解和的公式如下,2008年8月,参数的最小二乘估计(例题分析),【例】求销售收入与广告费用的估计回归方程，并解释回归系数的含义,第1步：选择【工具】下拉菜单，并选择【数据分析】选项第2步：在分析工具中选择【回归

17、】，选择【确定】第2步：当对话框出现时在【Y值输入区域】设置框内键入Y的数据区域在【X值输入区域】设置框内键入X的数据区域在【置信度】选项中给出所需的数值在【输出选项】中选择输出区域在【残差】分析选项中选择所需的选项,用Excel进行回归分析,2008年8月,参数的最小二乘估计(例题分析),【例】求销售收入与广告费用的估计回归方程，并解释回归系数的含义,2008年8月,参数的最小二乘估计(例题分析),8.2.3 回归直线的拟合优度,8.2 一元线性回归的估计和检验,2008年8月,变差,因变量 y 的取值是不同的，y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取

18、值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差来表示,2008年8月,误差分解图,x,y,2008年8月,误差平方和的分解 (误差平方和的关系),SST = SSR + SSE,总平方和(SST),回归平方和(SSR),残差平方和(SSE),2008年8月,误差平方和的分解 (三个平方和的意义),总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差回归平方和(SSRsum of squares of regression)反映自变量 x 的变化对因变

19、量 y 取值变化的影响，或者说，是由于 x 与 y 之间的线性关系引起的 y 的取值变化，也称为可解释的平方和残差平方和(SSEsum of squares of error)反映除 x 以外的其他因素对 y 取值的影响，也称为不可解释的平方和或剩余平方和,2008年8月,判定系数R2 (coefficient of determination),回归平方和占总误差平方和的比例,反映回归直线的拟合程度取值范围在 0 , 1 之间 R2 1，说明回归方程拟合的越好；R20，说明回归方程拟合的越差决定系数平方根等于相关系数,用Excel进行回归,2008年8月,估计标准误差(standard er

20、ror of estimate),实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项的标准差的估计，是在排除了x对y的线性影响后，y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为,用Excel进行回归,8.2.4 显著性检验,8.2 一元线性回归的估计和检验,2008年8月,线性关系的检验,检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较，应用F检验来分析二者之间的差别是否显著回归均方：回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方：残差平方和SSE除以相应的自由度(n-k

21、-1),2008年8月,线性关系的检验 (检验的步骤),提出假设H0：1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平，并根据分子自由度1和分母自由度n-2求统计量的P值作出决策：若P，拒绝H0。表明两个变量之间的线性关系显著,用Excel进行回归,2008年8月,回归系数的检验和推断,在一元线性回归中，等价于线性关系的显著性检验采用t检验,检验 x 与 y 之间是否具有线性关系，或者说，检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数的抽样分布,2008年8月,回归系数的检验和推断(样本统计量的分布),是根据最小二乘法求出的样本统计量，它有自己的分布的分布

22、具有如下性质分布形式：正态分布数学期望：标准差：由于未知，需用其估计量se来代替得到的估计的标准差,2008年8月,回归系数的检验和推断 (检验步骤),提出假设H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平，计算出统计量的P值，并做出决策P，拒绝H0，表明自变量是影响因变量的一个显著因素,2008年8月,回归系数的检验和推断 (b1和b0的置信区间),b1在1- 置信水平下的置信区间为 b0在1- 置信水平下的置信区间为,用Excel进行回归,8.3 利用回归方程进行预测 8.3.1 平均值的置信区间 8.3.2 个别值的预测区间

23、,第 8 章一元线性回归,2008年8月,区间估计,对于自变量 x 的一个给定值 x0，根据回归方程得到因变量 y 的一个估计区间区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate),8.3.1 平均值的置信区间,8.3 利用回归方程进行预测,2008年8月,平均值的置信区间,利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的平均值的估计区间，这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为,20

24、08年8月,个别值的预测区间,利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的一个个别值的估计区间，这一区间称为预测区间(prediction interval) y0在1-置信水平下的预测区间为,2008年8月,置信区间和预测区间,2008年8月,用Excel中的FORECAST函数进行线性回归的点预测,第1步：选择【fx】插入函数，并选择【统计】函数中的 FORECAST(x,known_ys,known_xs)函数第2步：当对话框出现时在【X】为需要进行预测的数据点(或数据区域) 在【known_ys】中输入y的数据区域在【known_xs】中输入x的数据

25、区域【注】若要同时返回一组预测值，则需要首先选择输出区域，然后同时按下【Ctrl+Shift+Enter】键,用FORECAST函数进行点预测,2008年8月,用SPSS进行回归,第1步：选择【Analyze】下拉菜单，并选择【Regression - linear】选项，进入主对话框第2步：在主对话框中将因变量(本例为销售收入)选入【Dependent】，将自变量(本例为广告费用)选入【Independent(s)】第3步：点击【Save】在【Predicted Values】下选中【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mea

26、n】和【Individual】(输出置信区间和预测区间) 在【Confidence Interval】中选择所要求的置信水平(隐含值95%，一般不用改变) 在【Residuals】下选中【Unstandardized】和【standardized】(输出残差和标准化残差) 点击【Continue】回到主对话框。点击【OK】, 用SPSS进行回归,2008年8月,置信区间和预测区间(例题分析),点预测值,置信线,预测线,2008年8月,置信区间和预测区间(例题分析),2008年8月,预测时需要注意的问题,在利用回归方程进行估计或预测时，不要用样本数据之外的x值去预测相对应的y值因为在一元线性回归

27、分析中，总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中，它们之间的关系可能是某种曲线此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围是在xL和xU之间，那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差,2008年8月,实际数据是曲线而模型为直线,x,E(y),xL,xU,E(y),8.4 用残差证实模型的假定 8.4.1 检验方差齐性 8.4.2 检验正态性,第 8 章一元线性回归,8.4.1 检验方差齐性,8.4 用残差证实模型的假定,2008年8月,

28、残差(residual),因变量的观测值与根据估计的回归方程求出的预测值之差，用e表示反映了用估计的回归方程去预测而引起的误差可用于确定有关误差项的假定是否成立用于检测有影响的观测值,2008年8月,残差图(residual plot),表示残差的图形关于x的残差图关于y的残差图标准化残差图用于判断误差的假定是否成立检测有影响的观测值,2008年8月,残差图(形态及判别),(a)满意模式,残差,x,0,2008年8月,残差与标准化残差图(例题分析),点预测值,残差,标准残差,2008年8月,残差图(例题分析),销售收入与广告费用回归的残差图,8.4.2 检验正态性,8.4 用残差证实模型

29、的假定,2008年8月,标准化残差(standardized residual),残差除以它的标准差也称为Pearson残差或半学生化残差(semi-studentized residuals) 计算公式为,注意：Excel给出的标准残差的计算公式为这实际上是学生化删除残差(studentized deleted residuals),2008年8月,标准化残差图, 用以直观地判断误差项服从正态分布这一假定是否成立若假定成立，标准化残差的分布也应服从正态分布在标准化残差图中，大约有95%的标准化残差在-2到+2之间,2008年8月,标准化残差图(例题分析),销售收入与广告费用回归的标准化残差图,2008年8月,本章小结,相关关系的分析参数的最小二乘估计回归直线的拟合优度回归方程的显著性检验利用回归方程进行预测用残差证实模型的假定用 Excel 和SPSS进行回归,结束,THANKS,

展开阅读全文