《《线性回归的》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《线性回归的》PPT课件.ppt(62页珍藏版)》请在三一办公上搜索。
1、第五章 线性回归的定式偏差,线性回归的定式偏差,本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等导致的线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响、判断和处理的方法等。,线性回归的定式偏差,第一节 变量关系非线性第二节 异常值第三节 规律性扰动第四节 解释变量缺落第五节 参数变化,第一节 变量关系非线性,(一)问题(二)发现和判断(三)问题的处理和非线性回归 1.泰勒级数展开法 2.非线性最小二乘法,(一)问题,例:变量之间的真实关系 其中 满足 和线性回归模型的其他假设。使用的模型 因为 所以 不可能 始终为0。,例:变量之间的真实关系 其中 满足 和线
2、性回归模型的其他假设。使用的模型 变换 后模型为 因为 不可能始终为0。回归分析的有效性失去了保障,(二)发现和判断,用数理经济分析方法,对模型的关系进行更深入的分析。根据数据及其分布图形、散点图进行直接判断。非线性变量关系的残差序列图,(三)问题的处理和非线性回归,1、模型修正和变换 恢复模型的合理非线性形式 然后再变换成线性模型,泰勒级数展开法,2、泰勒级数展开法 假设一个非线性的变量关系为:在 处对 作泰勒级数展开:,整理可得:若令:可以得到:泰勒级数展开的反复迭代,3、非线性最小二乘法(非线性最优化等)直接用Eviews软件进行估计。,例51:,某地总消费和收入两个变量的数据如下表所示
3、。Y为总收入,C是消费,散点图,C在Eviews中专门用于表示常数项,因此用CC表示消费。,线性回归结果,残差序列图,非线性回归结果,第二节 异常值,问题异常值的发现和判断问题的处理,(一)问题,现实经济中常常存在这样的情况,一些突发事件或变化对经济活动或经济关系造成短暂的但确实很显著的冲击影响。这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系。这种情况在经济数据中反映出来,就会表现为一个脱离基本趋势的异常值。如果所研究的经济问题或者相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非0的问题。,(一)问题的特征,
4、例如变量 和 在长期的关系中,基本上都满足线性回归模型的各个假设,但在时刻 有了一个突发情况,如果仍然用线性回归模型这个模型的误差项 的均值,实际上就是,(一)问题的特征,这种情况如果不作处理,那么线性回归结果就会差强人意。因为此时适用普通最小二乘法的前提条件即模型的第二条假设不成立,参数估计量的性质和相关统计推断都会失效。,(二)发现和判断,克服异常值对线性回归分析影响的前提,是发现和判断异常值是否存在和在哪些时点存在。方法一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件、以及数据序列的直接分析。方法二是进行残差序列分析。这是从技术角度发现和判断异常值问题的基本方法。因为异常
5、值只是个别情况,因此即使模型存在异常值问题,最小二乘估计仍是一致估计量,回归残差仍然能很好的近似得出模型的误差项,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。,(二)发现和判断,基本方法:回归残差序列分析具体方法:模型假定成立的前提下,残差服从正态分布根据残差序列计算残差的标准差用 去除各个残差,如果发现某个残差 存在 的情况时,应该高度怀疑模型在时点 存在异常值问题,(二)发现和判断,异常值的检验注意有经济意义的根据。,(三)问题的处理,问题方法:引入一个针对性的虚拟变量,定义式为 得到一个新的回归模型,(三)问题的处理,由于两个模型的误差项之间有关系因此,例:P66,引入虚拟
6、变量后的回归结果,引入虚拟变量后的回归残差图,第三节 规律性扰动,问题问题的发现与判断问题的处理,一、问题,除了异常值问题以外,周期性或其它规律性扰动,也会使线性回归模型的误差项偏离零均值的假设。此外,在横截面数据计量经济分析中,观测对象的性别、年龄、受教育程度等特征差异,也是规律性扰动因素。这些问题不影响变量关系的总体趋势,但都会对变量关系产生规律性影响,如果不预先加以处理或排除掉,就会导致误差项均值非零的问题出现,影响回归分析的效果。,一、问题,例如,变量Y的季度数据中,第一季度总会受到一个季节性因素的影响。如果我们忽视这种影响,用两变量模型,或多元模型,研究Y的规律,就会遇到误差项非0问
7、题,即,二、问题的发现和判断,经济问题背景分析回归残差序列图分析两种分析相结合,确定其是否属于规律性扰动,三、问题的处理,解决规律性扰动问题的方法之一就是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。但这样容易产生两个问题:一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致误差序列自相关问题。因此,它不是克服规律性扰动对线性回归分析影响的好方法处理规律性扰动的较好方法是引进虚拟变量,有时需要引进多个虚拟变量。,例如(1),在上个例子中,第一季度存在季节性因素的影响,在这个例子中,可使用虚拟变量,把模型改为,或,那么新模型的误差项就不再存在均值非
8、0的问题,回归分析的效果就能得到保证。,例如(2),如果第一季度受到一种季节性因素影响,第三季度受到另一种方向和力度不同的因素的扰动,那么可以引进两个虚拟变量,即,和,将两个虚拟变量引入模型,模型变为,或,对于截面数据计量分析的例子,对于截面数据计量分析中,观测对象特征差异导致的规律性扰动,也可以利用虚拟变量加以处理。如观测对象的性别是一个影响因素,解决的办法就是在模型中引进虚拟变量,即,这个虚拟变量就能解决由于观测对象的性别因素所导致的误差项均值非0问题。,注 意,利用虚拟变量解决扰动问题时,引进虚拟变量是有限度的,因为引进一个虚拟变量就意味着要多估计一个参数和损失一个自由度,对回归分析的效
9、果有不利影响。引进虚拟变量要注意“虚拟变量陷阱”。即属性和类别的个数与虚拟变量个数一致,模型无截距。如上述季节性扰动模型同时引进对应全部4个季节的,按照类似规则定义的四个虚拟变量 那么因为这4个虚拟变量相加等于1,则当这四个变量同时出现在一个模型中,必然导致解释变量严格线性相关,导致模型的崩溃。同样,在考虑性别因素时,若同时引进男性和女性两个虚拟变量也会落入虚拟变量陷阱,所以,引进虚拟变量时,应该谨慎。,例题(考虑性别的一个回归模型),看年薪和教龄之间的散点图,不加虚拟变量的回归结果,加上虚拟变量后的回归结果,第四节 解释变量缺落,问题发现与判断问题的处理,问题,解释变量缺落,也是引起误差项均
10、值非0问题的常见原因。所谓解释变量缺落,就是线性回归模型设定的变量关系中,忽略了某些重要的、对被解释变量有趋势性影响的因素。被忽略的因素对被解释变量的影响,会从误差项中表现出来,导致误差不再是纯粹的随机扰动。,例如,若真实的变量关系为,若采用变量关系,发现和判断:经济背景分析和残差序列分析,e,问题的处理,根据找到的原因即缺落的解释变量,针对性的加入该缺落的解释变量,就可以解决问题。,第五节 参数变化,问题发现和判断问题的解决,问题,参数改变是指在考察期间(样本数据范围),变量关系中的参数发生变化,这种问题也可以被理解为模型的稳定性问题。这时实际上不能用同一个线性回归模型研究变量在整个考察期间
11、的关系。如果忽视这种模型参数变化,也会导致误差项均值非0问题。,问题,以两变量线性关系在考察期【0,T】中的t时刻参数发生变化为例。这种情况下,真实的变量关系可以用【0,t】和【t,T】两个时期中的两个模型分别表示,即,其中,和 都满足均值为0和线性回归模型的其它假设,且,如果忽略模型参数的变化,用同一变量关系,代表Y和X在整个【0,T】时期的关系,那么在两个时期中的误差项就分别为,和,因此,两个时期误差项的均值分别为,和,很显然,除非 和 同时成立,否则 的均值不可能在两个时期都始终为0。因此在参数发生改变时,必然导致误差项均值非0的问题。,二、发现和判断,发现和判断模型参数改变的基本方法,
12、也是经济问题背景分析和残差序列分析相结合。如果以i为横轴,残差e为纵轴的残差序列分布,存在某个时期附近转折的情况,就应该考虑变量关系在该时刻可能存在参数改变。,邹检验,以怀疑发生结构参数变化的时点为界,把观测样本分为两组(每组样本容量必须大于模型的解释变量数),分别为两个子样本的样本容量。对两个子样本和全样本分别进行回归,将两组子样本回归的残差平方和加总得到,称为无约束的残差平方和,它的自由度为 全样本的回归残差平方和为,自由度为 称为有约束的残差平方和。用“有约束的残差平方和”减去“无约束的残差平方和”,自由度为K+1。,邹检验,F(K+1,),左表给出19701991年各年的个人储蓄Y和个人收入X的数据,均以10亿美元计。用邹检验以判明从时期19701980年到时期19811991年储蓄收入关系是否出现显著变化。,F【(19953.781010.8425103.470)/2】/【(1010.842+5103.470)/(22-2-2)】20.362 F的临界值在95的置信度下为3.55,在99的置信度下为6.01,F的值明显大于F的临界值,所以判定结构不稳定,在1981年发生了结构变化。,利用虚拟变量检验结构的稳定性,引入虚拟变量:模型设定为,上述结果表明,截距和斜率均发生显著变化,即结构不稳定。,