《线性回归.完整PPT资料课件.ppt》由会员分享,可在线阅读,更多相关《线性回归.完整PPT资料课件.ppt(64页珍藏版)》请在三一办公上搜索。
1、第四讲线性回归,(优选)第四讲线性回归,对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;5690665 51.该检验利用方差分析的方法进行。t P|t| 95% Conf.0011525 .0001057 -7.0009697 -.2317112 .-+-pwcorr hhwktot yrsch income, sig从标准回归系数判断,income的作用显然远远超过yrsch的作用统计量F服从第一自由度为1,第二自由度为n-2的F分布。当两个变量同时与第三个变量相关时,将第三个变量
2、的影响剔除后,另外两个变量之间的相关程度Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。表现这一数量关系的数学公式称为多元线性回归模型;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;,导论,统计分析:根据统计数据提供的资料,揭示变量之间的关系,并由此推演为事物之间内在联系的规律性,为什么学习回归分析,回归分析探讨客观事物之间的联系,表现为变量之间的统计关系建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法因因变量衡量方式的不同
3、,回归分析可分为线性回归和非线性回归线性回归适用于因变量为连续衡量的场合非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合即便在这两大类中,分析方法又可区分为许多不同的类型根据处理的变量多少来看,回归分析又分为:简单相关和一元回归:研究的是两个变量之间的关系多元相关或多元回归:研究的是多个变量之间的关系,本章主要内容,9.1变量间的相关关系(correlation)9.2线性回归概述9.3. 一元线性回归9.4. 多元线性回归,9.1变量间的相关关系(correlation),1、函数关系,回归分析前,首先必须掌握变量之间是否相关;只有变量之间存在关系,才有必要进行回归分析假若x增
4、加时,y的取值发生相应变化,则x和y之间是相关的假若x增加时,y的取值没有确定的变化,x则y和之间是不相关的,或是没有相关关系的变量之间的相关关系归纳起来可以分为两种:函数关系和统计关系,2、统计相关,现实事物之间的联系不像函数关系那样容易确定现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们的关系准确地描述出来;当一个变量取一定的值时,另一个变量可能有多个取值当一个变量的值不能由另一个变量的值唯一确定时,这种关系称为统计关系统计关系不如函数关系直接和明确;但通过对大量数据的观察和研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同,3、相关关系的特点,双向变化关
5、系;一个变量的取值不能由另一个变量的取值唯一确定;当x取一定的值时,y可能有多个取值,因为还受到其他因素的影响;不确定关系难以用函数关系来衡量和描述,但这并不表示x和y之间无规律可循;类似定性描述相关分为线性相关和非线性相关。,4、相关分析,对两(多)个变量之间的关系进行描述,分析它们是否相关关系是否密切关系的性质是什么(是正相关还是负相关)随着x的变化,y值的变化程度就确定二者是否相关和相关的强度当x增加(减少)时,y的取值也随之增加(减少),则x和y之间呈正相关关系;相反,当x增加(减少)时,y的取值却随之减少(增加),则和之间呈负相关关系相关分析的方法包括散点图和相关系数,相关散点图(s
6、catter plot),相关系数,图形虽然直观,但不够精确;对散点图的视觉分析带有很大的主观性;需要更精确和更客观的度量;相关系数可准确地描述变量之间的线性相关程度;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;若相关系数是根据总体数据计算的,称为总体相关系数,记为;若是根据样本计算出来的,则称为样本相关系数,记为r;在统计学中,一般用样本相关系数来推断总体相关系数。,相关系数:性质与方向,相关系数:程度,根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验的基础之上。,相关系数:其它特征,相关系数的计算,. correlate
7、变量名 :. correlate也可写为corr,是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令; :需要生成相关关系的变量名称如:corr age edu weight height若要给出相关系数(每个变量的上行)及其假定检验的P指,使用命令: pwcorr 变量名,sig,9.2线性回归概述“回归”一词来自英国学者、优生学的创始人S. F. Galton(1822-1911)。Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。,1、回归分析,通过找出代表变量之间关系的直线图形或直线方程
8、来描述变量之间的数学关系这条直线称为回归直线;该直线方程称为回归方程。一元线性回归是回归分析中最简单、最基本的回归分析,描述两个变量之间的关系。它是根据统计资料,寻求一个变量与另一个变量关系的恰当数学表达式的经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法:其中一个变量作为DV或被解释变量,通常用y表示;另一个变量IV(预测变量或解释变量)通常用x表示。,2、相关分析与回归分析之别,依存关系与平等关系。回归反映两个变量的依存关系,一个变量的改变引起另一个变量的变化,是一种单向的关系;其y变量称为因变量,被解释变量;在相关分析中,变量和变量处于平等地位:双向关系关系程度与影响大小。相
9、关分析主要是刻画两类变量间线形相关的密切程度;而回归分析不仅要揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。因此,回归是对两(多)个变量作定量描述,研究变量之间的数量关系,从已知的一个变量的取值预测另一个变量的取值,得到定量结果。,3、回归分析的目的,从一组样本数据出发,确定解释变量( IV )与被解释变量(DV)之间的数学关系式;回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。对该关系式的可信程度进行各种统计检验;从影响DV的一组IV中找出哪些变量的影响是显著的,那些是不显著的。利用直线方程(即所求的关系),根据一个或几个变量的取值来估计或预测DV的取值,并给出这
10、种估计或预测的置信度。预测是有规律的。如,利用汽车的速度来预测它刹车所需要的距离利用学生的中学成绩来预测考上大学的成功率精确的y值是不可预测的,靠近实际值。,4、回归分析的用途,用于研究一个IV对一个数值型DV在数量上的影响程度。设有两个变量,x,y,其中,y的取值随x取值的变化而变化,故y是DV,x是IV。,对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。若x以代表年龄,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系,线性回归模型:回归直线,儿童的年龄与教育之间存在很强的正向相关关系线条就是回归直线(regression line)如何将变量之间的相关关系用数学
11、关系的代数表达式表达出来,线性回归的理论模型,等式(9.1)称为一元线性回归模型,描述因变量y如何依赖于自变量x和误差项e而异。在该模型中,y是x的线性函数(0+1x 部分)加上误差项e。其中, 0和1是模型的未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);0+1x反映了由于x的变化而引起的y的变化,也称为边际变化(当变量x变化一个单位时,变量y改变的数量)e是被称为误差项的随机变量,代表因主观和客观原因而不可观测的随机误差,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y的线性关系所揭示的变异性。,(9.1),线性回
12、归模型的基本假定,(1)零均值,即 。误差项是一个期望值=0 的随机变量在自变量取一定值的条件下,其总体各误差项的条件平均值为0。这意味着,在等式(9.1)中,由于0和1都是常数或系数,故有因此,对于一个给定的x值,y的期望值为(2)等方差,即对于所有的x值,e的方差2都相同(3)误差项服从正态分布,且相互独立,即,(9.2),总体回归方程 (equation)(I),根据回归模型的假定,误差项的期望值为0;因此,y的期望值等于一元总体回归方程:,(9.4),(9.3),总体回归方程(II),(预测的)回归方程,回归分析的三种检验,F检验用于检验回归方程的显著性R2用于测度回归直线对观测数据的
13、拟合程度;也称判定系数、可决系数(coefficient of determination)t检验用于检验自变量回归系数的显著性,reg edu age,上部分分为左右两个区域左边是方差分析。方差部分给出回归平方和(Model)、残差平方和(Residual),总平方和(Total),自由度(df),回归和残差的均方(MS)右边是回归统计量。包括检验统计量(F),F检验的显著水平(ProbF),R2(R-square)(判定系数),Adj R-squared(调整后的R2),观测值的个数(即样本量),估计标准误差(Root MSE)下部分是参数估计的内容。包括回归方程截距(_cons)和斜率(
14、Coef)的参数估计、标准误、t 统计量,P值(P|t|),置信区间(95% Conf. Interval),这意味着,在等式(9.对回归系数显著性的检验,检验自变量对因变量的影响是否显著,也即是检验各解释变量的回归系数是否等于0;MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pr(0.如果回归系数1 0 ,也不能得出两个变量之间存在线性关系的结论。0000,有充分的理由拒绝原假设,教育与孩子年龄之间的线性关系
15、是显著的0955109 2.sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pr(0.线条就是回归直线(regression line)这条直线称为回归直线;,(1)判定系数R2:概念与计算,对估计的回归方程拟合优度的度量,也就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判定回归方程对样本数据的代表程度;该指标是建立在对总离差(deviation)平方和进行分解的基础之上。显然,各样本观测点(散点)与样本回归直线靠得越紧,SSR/SST则越大,直线拟合得越好。将该比例定义为判定系数或可决系数,记为
16、R2,(1)判定系数R2:意义,若所有观测值都落在回归直线上,则 R2 = 1,拟合是完全的,模型具有完全解释能力;如果回归直线没有解释任何离差,则y的总离差全部归于残差平方和,即SST=SSE, R2 = 0,表示自变量x对因变量y的变异缺乏解释能力通常观测值都是部分地落在回归线上,即0 R2 1R2 越接近1,表明回归直线的拟合优度越好;反之, R2 越接近于0,则回归直线的拟合程度就越差。就上面的例子而言,判定系数的实际意义是,在教育水平取值的离差中,有将近86%可以由年龄与教育之间的线性关系来解释;即86%的差异是由孩子的年龄决定的孩子年龄可以解释教育差异的86%。,(2)F检验:概念
17、,对总体回归方程的显著性检验,是对因变量与所有自变量之间的线性关系是否显著的一种假设检验;回归分析的主要目的是,根据所建立的估计方程用自变量x来估计、预测因变量y的取值;当我们建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量x和y之间的关系,需要通过检验后才能证实;该检验利用方差分析的方法进行。F统计量定义为:平均的回归平方和与平均的残差平方和(均方误差)之比。,(2)F检验:计算方法,MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;MSE(mean square error)即残差均方,等于
18、残差平方和除以它的自由度;统计量F服从第一自由度为1,第二自由度为n-2的F分布。,(2)F检验步骤,利用F统计量进行回归方程显著性检验的步骤如下:(1)提出假设:H0: 1 = 0(两个变量之间的线性关系不明显)H1: 1 0 (两个变量之间存在显著的线性关系)若原假设成立,说明回归总体缺乏显著线性关系,反之表明回归总体存在显著的线性关系,即自变量x对y有显著的线性作用,解释变量总体系数不为零。(2)计算回归方程的F统计量值(3)根据给定的显著水平确定临界值F(1,n-2),或计算F值对应的P值(4)做出判断。若F值大于临界值F(1,n-2)或p F = 0.0000,有充分的理由拒绝原假设
19、,教育与孩子年龄之间的线性关系是显著的,(3)T检验定义,对回归系数显著性的检验,检验自变量对因变量的影响是否显著,也即是检验各解释变量的回归系数是否等于0;之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与0有显著差别,它不提供回归方程中的各自变量回归系数与因变量关系的显著性;在一元线性回归模型中,如果回归系数 1 = 0,则回归线是一条水平线,表明因变量的取值不因自变量而异,即两个变量之间没有线性关系;如果回归系数1 0 ,也不能得出两个变量之间存在线性关系的结论。该结论依赖于这种关系是否具有统计意义上的显著性。,(3)T检验检验步骤,(a)首先提出原
20、假设和备择假设:H0: 1 = 0H1: 1 0 (b)计算回归系数t 的统计量值(c)根据给定的显著水平确定临界值,或计算t值所对应的P值(d)作出判断。若t值大于临界值或p,则拒绝原假设,表明自变量对因变量的影响是显著的;反之,则不能拒绝原假设,没有证据证明对y产生显著影响。在一元线性回归中,回归方程的显著性检验可以替代回归系数的显著性检验:方程只有一个自变量,F检验和t检验是等价的,且F = t2。如H0 被t检验拒绝,则也将被F检验拒绝。但在一般的多元回归条件下,两种检验要说明的问题不同、作用不同,故不能相互取代。,标准误差(standard error of estimate),T值
21、的计算公式:估计标准误差是对误差项的标准差2的估计。它可以被看作是在排除了x对y 的线性影响后,y随机波动大小的一个估计量数值越小,回归直线的拟合优度越好在上面例子中,Root MSE = 1.1912。表明在用年龄预测教育水平时,平均的预测误差1.19,Stata回归分析的路径与方法,Statistics Linear models and related Linear regression,窗口对话框,9.3. 一元线性回归,一元线性回归命令,. Regress 因变量 自变量 ,选择项 :线性回归的命令参数:模型的因变量:模型的自变量:选择项. regress height age,估计
22、与预测,求出回归方程后,可立即用该回归方程进行回归预测,并求出预测值的标准误、绘出95%的置信区间曲线在Stata中,所有关于回归方程的诊断和应用均构成单独的命令,需要在拟合完回归方程后才能使用计算预测值和残差的窗口路径: Statistics Postestimation Prediction, residuals, etc.,9.4. 多元线性回归 (multiple regression analysis)(multivariate analysis),为什么进行多元回归分析,一元线性回归是在不考虑其他因素或假定其他影响确定的条件下,分析一个自变量对另一个因素的影响,所进行的分析是比较理
23、想的。但任何事物(因变量)总会受到其他多种因素(多个自变量)的作用;一元回归分析不能完整地揭示事物之间的真正联系;仅仅考虑单个变量是不够的;多元回归分析(multivariate analysis):弥补不足,是分析多种因素共同作用于一个因变量的良好工具;只有采用多元回归分析方法,将多个因素同时进行考虑,才能更好地揭示事物之间的联系。,多元线性回归分析,研究在线性相关的条件下,两个或两个以上自变量与一个因变量的数量变化关系;表现这一数量关系的数学公式称为多元线性回归模型;多元线性回归模型是一元线性回归模型的拓展,其基本原理与一元线性回归模型类似,但计算上要复杂得多,故往往需要借助计算机来完成;
24、,多元线性回归模型,设因变量为y,n个自变量分别为x1,x2,x3,xn描述因变量y如何依赖自变量和误差项而异的模型称为多元回归模型(multiple regress model):,模型的假定与回归方程,多元线性样本回归方程,偏相关关系(partial correlation)(I),.pwcorr hhwktot yrsch income, sig是否相关,关系程度,关系方向.graph matrix hhwktot yrsch income注意图形(hhwktot与yrsch)的形状这是两两关系分析,不提供以下信息:当第三个因素考虑在内后,两两相关关系是否显著非线性关系回答该问题需要使用
25、偏相关分析方法,偏相关关系(II),当两个变量同时与第三个变量相关时,将第三个变量的影响剔除后,另外两个变量之间的相关程度工具:计算偏相关系数公式:如有x1,x2,x3三个变量;计算x1,x2只见的相关关系:,偏相关关系(III),(obs=6097)Partial correlation of hhwktot with Variable | Corr. Sig.-+- yrsch | -0.0908 0.000 income | -0.2741 0.000-+-,.corr hhwktot yrsch income,异同比较,(obs=6097) | hhwktot yrsch income
26、-+-hhwktot | 1.0000 yrsch | -0.2176 1.0000 income | -0.3341 0.4187 1.0000,. pcorr hhwktot yrsch income,回归分析,. regress hhwktot yrsch income, beta-hhwktot | Coef. Std. Err. t P|t| Beta-+- yrsch | -.5025551 .0705833 -7.12 0.000 -.0942719 income | -.0011525 .0000518 -22.25 0.000 -.294639 _cons | 29.4608
27、1 .5690665 51.77 .-回归方程为:,标准回归系数,. regress hhwktot yrsch income, beta-hhwktot | Coef. Std. Err. t P|t| Beta-+- yrsch | -.5025551 .0705833 -7.12 0.000 -.0942719 income | -.0011525 .0000518 -22.25 0.000 -.294639 _cons | 29.46081 .5690665 51.77 .-输出结果不同:置信区间换成了标准回归系数常数项的标准偏回归系数总是0,故没有输出结果;其余内容不变从标准回归系数
28、判断,income的作用显然远远超过yrsch的作用,逐步回归(Stepwise regression),后退法(backward):事先给定从方程中剔出自变量的临界值pr。模型开始包括所有变量,其后,每个回合去掉一个p值最大的自变量;直到所有自变量的p值都等于或低于指定的临界值前进法(forward):事先挑选自变量进入方程的临界值pe。开始时方程中没有自变量,然后,按照自变量对因变量贡献的大小依次挑选进入方程,每选入一个变量,都要对已在模型中的变量进行检验,剔除p值大于临界值的变量,直到方程外变量的p值均大于指定的临界值、再没有自变量可引入方程为止。这样保证最后所得的变量子集中的所有变量都
29、是有统计学意义的,. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pr(0.05) begin with full modelp = 0.9464 = 0.0500 removing hanzu p = 0.4427 = 0.0500 removing gaozhongp = 0.5929 = 0.0500 removing dazue p = 0.3556 = 0.0500 removing chuzhong Source | SS df MS Number of obs = 1219-+- F( 4
30、, 1214) = 169.01 Model | 115091.899 4 28772.9746 Prob F = 0.0000 Residual | 206678.564 1214 170.245934 R-squared = 0.3577-+- Adj R-squared = 0.3556 Total | 321770.463 1218 264.179362 Root MSE = 13.048- hhwktot | Coef. Std. Err. t P|t| 95% Conf. Interval-+- age | .2317112 .0955109 2.43 0.015 .0443264
31、 .419096 girl | 15.90959 .770415 20.65 0.000 14.3981 17.42108 urban | -4.693933 .8519099 -5.51 0.000 -6.365312 -3.022554 income | -.0007623 .0001057 -7.21 0.000 -.0009697 -.0005548 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-,. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income
32、 urban,pe(0.05) begin with empty modelp = 0.0000 F = 0.0000 Residual | 206678.564 1214 170.245934 R-squared = 0.3577-+- Adj R-squared = 0.3556 Total | 321770.463 1218 264.179362 Root MSE = 13.048- hhwktot | Coef. Std. Err. t P|t| 95% Conf. Interval-+- girl | 15.90959 .770415 20.65 0.000 14.3981 17.4
33、2108 income | -.0007623 .0001057 -7.21 0.000 -.0009697 -.0005548 urban | -4.693933 .8519099 -5.51 0.000 -6.365312 -3.022554 age | .2317112 .0955109 2.43 0.015 .0443264 .419096 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-,多重共线性,然而,在实际问题中,一些基本假定往往不能满足,使OLS方法失去BLUE性质一般情况下,随机扰动项均值等于0的假设条件基本能够
34、得到满足;即便不满足也不会影响解释变量的系数,只会影响截距项同样,随机扰动项正态分布的假设通常也能够成立。即便不成立,在大样本的情况下也会近似成立截面数据时,可能出现异方差,从而使分析结果产生偏差自变量之间不高度相关的假定有时得不到满足,造成多重共线性现象纵向数据中,随机扰动项可能自相关,造成由于序列自相关而引起的多重共线性,多重共线性的定义及后果,一些自变量或全部自变量高度相关(相关系数在0.80以上),即自变量之间有近似线性关系不仅出现于线性回归分析中,也适用于非线性多元回归完全多重共线性和不完全多重共线性后果:严重多重共线性时,参数估计的符号与其预期意义相反,使分析结果难以解释,得出完全
35、错误的结论完全的多重共线性:导致(1)参数估计值不确定(2)方差无限扩大,多重共线性的后果,不完全的多重共线性。可能导致以下现象:(1)虽然参数估计仍是无偏估计,但不稳定(2)参数估计的方差随共线性程度的增强而增大(3)t检验失效,区间估计失去意义。这是因为,存在多重共线性时,参数估计值的方差与标准差变大,t统计量的拒绝域变小(临界值增大),使通过样本计算的t值小于临界值,从而使我们错误地作出参数为0的推断若自变量内在相关程度太大,一个因素对因变量的影响可能取代另一个因素的影响,或相互抵消各自对因变量的作用,使原本具有显著性的解释因素变得无显著性意义,从而将重要的解释变量排除在模型之外,多重共线性的判别方法,简单相关系数矩阵法(辅助手段):这是一个简单的方法。一般情况下,当系数在0.8以上时,即可初步判定两个变量之间存在线性相关但是,相关系数受到其它因素的影响,不一定反映变量之间真实的相关程度;需采用其它方法再检验变量显著性与方程显著性综合判断法:若判定系数大,F值显著大于临界值,但t值不显著,则可认为存在多重共线性 辅助回归法 逐步回归法,多重共线性的判别方法:辅助回归法,