《线性回归ppt课件.ppt》由会员分享,可在线阅读,更多相关《线性回归ppt课件.ppt(32页珍藏版)》请在三一办公上搜索。
1、线性回归分析,第一节 一元线性回归模型第二节 多元线性回归模型第三节 回归方程统计检验第四节 多重共线性问题第五节 虚拟变量的应用 第六节 统计软件在线性回归分析中的应用,第一节 一元线性回归模型,一元线性回归模型的由来:假设在总体中满足Y=A+BX+,Y为随机变量,X为确定变量;将随机样本的观测数据代入方程中,则有:yi = a+bxi+ei,ei为样本随机误差项。 y=a+bx。参数a、b用最小平方法(Ordinary Least Squares)求得,即所有观测值与估计值之间的误差平方和最小。一元线性回归模型y=a+bx的作用:简化x、y之间的关系,以直线作为简化方式;用x来预测y的变化
2、,以直线作为预测的准则;研究x在多大程度上解释y的变化。,一元线性回归系数,一元回归系数的含义:a是直线在y轴上的截距,代表y的基础水平;b是直线的斜率,代表x变化一个单位时,y的平均变化 ;变量变换:由于直线关系是最简单的(叠加)关系,所以,尽量用直线作为预测或估计的准则;当因变量y与自变量x是非线性关系时,可以通过变量变换使经过变换的新变量对于参数是线性的。,关于最小平方法,一元线性回归模型的估计方法:最小平方法;最小平方法的统计性质:回归方程的拟合误差总和等于0,即ei 0;误差平方和最小,即在所有拟合散点的直线中,根据最小平方法原则得到的回归直线使n个散点(yi,xi)沿y轴方向到直线
3、的距离平方和最小;y的平均值等于y的平均值;x与e相互独立,即x与e的协方差等于0,Cov(x,e)= (xi-x)(ei)/n =0;y与e相互独立,即y与e的协方差等于0;直线通过n个散点的重心点,即x与y的均值确定的点,一元线性回归模型的假设,模型的假设条件(assumption)。统计理论已经证明,在满足一定的假设条件下,样本数据的最小平方估计是总体参数的最佳线性无偏估计。在推断总体参数或进行统计检验时,必须考虑总体回归模型中的随机误差项的分布特征 。对总体随机误差的假设:高斯假设:零均值性;等方差性;误差之间独立;误差项与自变量相互独立;误差的正态分布性;违反假设可能产生的影响。,第
4、二节 多元线性回归模型,含义和作用分析一个随机变量与多个变量之间线性关系的最常用的统计方法。它用变量的观察数据拟合所关注的变量,并以线性关系式表达所关注的变量,并且回答这种表达的解释程度有多高;检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。因变量(dependent variable)和自变量(independent variable)的确定是建立回归模型的主要任务。,回归方程的系数,回归系数的意义:b0,b1,b2,bk 称为回归平面的系数。bj,j1,2,k表示其他变量xi在i1,2,k固定时,xj 每变化一个单位,y的平均变化。无论其他
5、变量在什么水平上,只要其他变量固定,那么,xj 的变化对y的影响都是相等的;至于y的取值,则与各个变量的当前水平有关 。,标准化回归系数,定义:若先将所有的自变量和因变量进行标准化处理(均值为0,标准差为1),然后进行回归得到标准化回归方程,该方程的系数称为标准化回归系数。作用每一个标准化系数都表示,当其他变量不变时,xj变化一个标准差单位,y的标准差的平均变化。表示的是方程内变量之间的相对重要性;通过绝对值的比较,可回答在诸多解释变量中,哪个变量更重要的问题 。,方程的解释能力及其测量,方程的确定能力:所得回归方程在多大程度上解释了因变量的变化,或者说方程对观察值的拟合程度如何;确定系数(c
6、oefficient of determination) R2:R2(y-y均值)2/(y-y均值)2 ,其值越接近1,表明方程中的变量对y的解释能力越强。 它是方程拟合优度的度量,R2越大说明回归方程拟合优度越好,自变量与因变量线性关系越强,即回归方程中的自变量对y的解释能力越强。R2越小说明自变量与因变量的线性关系越弱,它们之间的独立性越强,或者说对x的了解无助于对y的预测。,方程解释能力的其他测量,调整的确定系数:R2adj1(n-1)(1- R2)/(n-k-1):R2是受自变量个数与样本规模之比(k:n)影响的系数,一般常规是1:10以上为好。当这个比值小于1:5时,R2倾向于高估实
7、际的拟合优度,为了避免这种情况,采用R2adj代替R2 。多元相关系数R(multiple correlation):对R2开方就得到R,R越接近1,表明y与所有x之间的线性关系越密切;实际上,R是y观测值与y预测值之间的简单相关系数。,方程解释能力的其他测量,净确定系数(partial coefficient of determination):表示方程中的每一个变量xi对减少余差平方和的边际贡献,表示xi对y的边际解释能力。如,y对两个自变量进行回归,在控制x1的条件下,x2对y的解释能力为:R2y2.1 RSS(1,2)RSS(1)/ESS(1) R2y.12R2y.1/(1R2y.1)
8、. R2y2.1的值域为0,1,它度量了x2对y的边际影响,度量的手段是比较两步回归之间发生的变化,并用于判断自变量的重要性。净相关系数:净确定系数的开平方。,第三节 回归方程的统计检验,回归方程的显著性检验:即检验样本y与x,x的线性关系是否显著,即判断能否肯定总体回归系数中至少有一个不等于0。方差分析的主要目的就是进行回归方程的检验 ;回归系数的显著性检验:当回归方程检验显著时,便可以认为回归方程中至少有一个回归系数是显著的;希望在方程中保留最重要的变量,删除不显著的变量,即对自变量进行取舍。回归系数采用t检验的方法。常数项一般不是研究的重点,即使不显著也保留。,回归系数的推断统计,回归系
9、数的置信区间:根据用户需要,SPSS可提供95%的置信区间;STATA可根据命令提供其他可信度的置信区间。回归系数不显著的原因:t(bjBj)/sj,sj为bj的标准误。样本量太小,或者变量个数较多,使n-k变小,从而使sj增大,t值变小;xj的变化范围太小,即xj的标准差过小;xj与方程中的其他变量线性相关,当变量间的相关系数增大时,也使sj变大;y与xj有关联,但却是非线性的;y与xj确实不存在显著的关系 ;,第四节 多重共线性,多重共线性的含义及其影响:多元线性回归模型参数b的求解过程中,要求自变量间线性无关,从而最小平方法求出唯一一套b估计值。当自变量之间高度相关时,回归方程中的自变量
10、就会相互消弱各自对y的边际影响,使本身回归系数的数值下降而其标准误扩大,出现回归方程整体显著,但各个自变量都不显著的现象。当多重共线性发生时,方程的回归系数不可靠。注意:多重共线性指的是自变量之间的线性相关,当自变量之间为非线性相关时,不一定产生严重的多重共线性问题 。,多重共线性的检验,多重共线性的存在依据:方程的确定系数很高,且y与各自变量的相关系数也很高,但自变量的回归系数均不显著;多个自变量的情形,某一自变量可被其他变量线性表达出来;方程的确定系数很高,但每一自变量的偏确定系数很小。统计软件SPSS、STATA给出多重共线性检验的指标值,如容限度(tolerance)、方差膨胀因子(v
11、ariance inflation factor,符号为VIF)及用于共线性判断的特征值和状态指标(Eigenvalues and condition indexes)。,多重共线性的检验,检验指标及其计算容限度:以每个自变量xi作为因变量对其他自变量回归时得到的余差比例(1Ri2);表示所有自变量能够提供的独立信息占本身方差的比例;容限度很小时说明xi与其他变量的信息的重复性越大,其对y的边际解释能力越小;小于0.1认为这一变量与其他自变量之间的多重共线性超过了容许界限。方差膨胀因子为容限度的倒数,表示共线性问题时所有自变量回归系数的方差扩大多少倍。,多重共线性的解决方法,补救多重共线性影响
12、的办法:去掉与y相关程度较低,与其他自变量高度相关的变量;去掉可被其余自变量线性表示出的变量;增加样本规模;采用新的样本数据,在数据中重新抽取一个样本,有可能会减弱其中变量的多重共线性,因为数据样本的变化,往往会对方程的回归系数及其标准误产生影响;利用先验信息组合变量,如因子分析;将截面数据与时序数据结合;变量变换,如对数变换、倒数变换等。注意,在时间序列方程中,若原来模型的误差项ei相互独立,变换后的误差vieiei-1,i=1,2,,n,则可能相互不独立,它称为自相关现象。,最优回归方程的选择,最优回归方程所谓最优回归方程即确定系数尽可能大,且包含了尽可能多的对y有较大影响的变量,同时这些
13、变量又都是显著的。选择方法:逐步回归,第五节 虚拟变量,虚拟变量的建立:设x是有k分类的名义变量,用k-1个取值为0或1的虚拟变量(dummy variable)分别代表各类别的属性,当案例属于一个虚拟变量所代表的类别时,这个虚拟变量就赋值为1,否则就赋值为0。参照类(reference category):没有纳入线性回归方程的类别。,虚拟变量的应用,虚拟变量回归系数的意义:表示该类别与参照类均值之差,因此又称其为差别截距。若一个回归分析中只有虚拟变量且这些虚拟变量都代表某一个原变量的不同类别,则这一回归的整体检验等价于单因素方差分析。若一个回归分析中只有两个因素形成的虚拟变量,则这一回归分
14、析等价于双因素方差分析 。,虚拟变量的检验,采用虚拟变量的回归分析的检验:由于虚拟变量的的取值只有0和1,因此,检验的只是取值为1的类别的平均值是否与参照类的平均值有明显差异 。其他形式的分类变量编码:效应编码(effect coding);正交编码(orthogonal coding);非正交编码(nonorthogonal coding)。,第六节 统计软件在线性回归分析中的应用,SPSS软件模型设置、统计量选择、检验图形设置分析结果的解释STATA软件各种设置的命令分析结果的解释,SPSS图形的检验功能,检验误差项是否呈正态分布(Histogram of *zresid):做法:以回归方
15、程的标准化误差为横坐标,以标准化误差的频数为纵坐标,并提供正态分布参照线 ;回归方程预测值与误差项的关系图(散点图):做法:以回归方程标准化预测值为横坐标,以标准化误差为纵坐标。作用:线性关系的检查:若实际数据中变量间真为线性关系,该散点图无明显趋势;均方差性的检查:若均方差性存在,横轴各点上散点的纵向分布宽度应该相等;特异值的检查:若存在超出正负2区间的标准化误差值,便可认为是特异值。,SPSS图形的检验功能,偏差散点图:(Patial residual plot of x1 with y):即单个变量净解释作用的检查,检查单个自变量的边际影响。检查的是:该自变量与其他自变量所不重合的信息与
16、其他自变量解释因变量后所剩下的未解释信息之间的关系。 误差序列相关的检查: Durbin-Watson统计量用来检验误差项之间是否存在序列相关。d的值域为0,4,在误差不存在序列相关时,d值应该在2左右。d值小于2时意味着相邻的误差之间存在正相关;d值大于2意味着相邻的误差存在负相关。不一定只有时间序列数据才存在序列相关问题,各自独立的变量之间出现序列相关的原因:变量设置问题,如,某自变量应该与因变量是二项式关系,但回归中只设为一次项关系;遗漏了其他重要的自变量 。,STATA相关分析的应用,相关分析:Pearson相关的命令corr y x1 x2给出相关系数矩阵corr y x1 x2,c
17、ovariance给出的是协方差矩阵配对相关的命令pwcorr y x1 x2功能同corr,给出相关系数矩阵pwcorr y x1 x2,sig给出显著性检验pwcorr y x1 x2,sidak sig用sidak检验法将多重比较纳入考虑来调整显著度Spearman级序相关测量的命令:spearman y x肯德尔系数级序相关测量的命令:ktau y x数量型变量的净相关分析:pcorr a b c控制其他变量后两变量之间的相关,STATA线性回归模型设置,基本模型设置的命令:reg y x1 x2 x3reg y x1 x2 x3,robust计算稳健标准差的估计值,称为稳健回归;re
18、g y x1 x2 x3,beta给出标准化回归系数,便于变量解释能力大小的比较;sw reg y x1 x2 x3, pr(.05)反向剔除的逐步回归;xtreg y x1 x2 x3,re面板(横剖时间序列)数据线性回归分析,STATA线性回归分析应用,模型的预测值、残差及作图reg y x1 x2 x3基础模型预测y值并给出标签predict yhatlabel variable yhat ”predict y”预测残差并给出标签predict e, residlabel variable e ”residual”回归图形graph twoway lfit y x1 x2 基本回归图 g
19、raph twoway lfit y x1 x2 | scatter y x1 x2回归线与散点图结合,STATA线性回归分析的检验,模型系数的显著性检验reg y x1 x2 x3基础模型;quietly reg y x1 x2 x3不输出回归表,可作系数检验的前提test x1 x2 x3检验三个变量的系数是否为0;test x11,检验x1的系数是否为1;test x1=x2,检验x1与x2的系数是否相等;corr, _coef检验各个自变量之间的相关,用于多重共线性的检验;模型整体的显著性检验通过F检验完成,STATA虚拟变量的应用,虚拟变量的设置假定type为三分类变量。tab ty
20、pe, gen (type)生成三个0、1变量;xi i.type生成两个0、1变量,以type1为参照类;虚拟变量回归reg y x1 x2 type2 type3;areg y x1 x2, absorb (type)之前不用生成虚拟变量,将type统一估计,不给出单个虚拟变量的回归系数;xi: reg y x1 x2 i.type 之前不用生成虚拟变量,模型估计时自动将type生成2(即k1)个虚拟变量。,STATA线性回归分析的诊断,回归诊断:对遗漏变量二次幂及以上形式的检验:ovtest异方差检验hettest,显著的异方差性意味着标准误和假设检验可能无效;图形检验异方差性和误差的正态性:rvfplot相对y平均水平的离散度大可能造成异方差性;对称意味着于正态误差假定相一致;预测变量y在x每个取值上的残差图rvpplot x1某个自变量净(边际)作用的考察:avplot x1;考察所有自变量的净作用则avplots非线性关系的检验:acprplot high, lowess,