《《回归分析部分》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《回归分析部分》PPT课件.ppt(72页珍藏版)》请在三一办公上搜索。
1、多元统计课程设计之回归分析,长春工业大学,线性回归模型,一元线性回归模型多元线性回归模型p=1时,先做散点图;p=2时,回归平面;p=3时,回归超平面,几何图形无法表示,回归模型的基本假设,1.解释变量y为随机变量,而解释变量 为非随机变量,观测值 是常数。2.Gauss-Markov条件(等方差及不相关假定条件),回归模型的基本假设,3.正态分布假设 即4.通常为了便于数学上的处理,还要求n p,即样本容量的个数要多于解释变量的个数。,对线性回归模型通常要研究的问题,1.如何根据样本求出参数 及方差 估计;2.对回归方程及回归系数的种种假设进行检验;3.如何根据回归方程进行预测和控制,以及如
2、何进行实际问题的结构分析。,正态假设下,参数的最小二乘估计(OSLE)与极大似然估计(MLE)一致,即若线性回归模型为,其中则有,可得,若称 为 的残差。则误差项方差 的无偏估计为,回归分析步骤,step1:确定模型变量;step2:收集、整理统计数据;step3:确定理论回归模型的数学形式;step4:模型参数估计;step5:模型检验;step6:模型改进;step7:回归模型的运用。,确定模型变量,首先要根据所研究问题的目的设置因变量y,然后再选取与y有统计关系的一些变量作为自变量。对一个具体的经济问题,当研究目的确定之后,被解释变量容易确定,被解释变量一般直接表达、刻画研究的目的。而对
3、被解释变量有影响的解释变量往往不容易被确定。,一是由于认识有局限性,我们不可能完全了解对被解释变量有重要影响的全部因素。二是为了模型参数估计的有效性,设置的解释变量之间应该是不相关的。三是我们从经济关系角度考虑非常重要的变量应该引进,但在实际中并没有这样的统计数据。这一点在我国建立经济模型时经常会遇到。这时可以考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标。,注:1.不要认为一个回归模型中解释变量越多越好。可能选取与问题无关的变量,也可能由于一 些变量具有较强相关性,他们所反映的信息 有较严重的重叠,即出现共线性问题。另当 变量太多,计算工作量太大,计算误差积累 也大,估计出的模型
4、参数精度自然不高。2.回归变量一般一次并不能完全确定,通常要 经过反复试算,最终找出最合适的一些变量。,收集、整理统计数据,确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。数据的收集是建立回归模型的重要一环,是一项基础性工作,样本数据的质量如何,对回归模型的水平有至关重要的影响。,常用的样本数据分为时间序列数据和横截面数据 时间序列数据按时间顺序排列的统计数据。对于时间序列数据要注意数据的可比性和数据的统计口径问题。时间序列数据容易产生模型中随机误差项的序列相关,这是因为许多经济变量的前后期之间总是有关联的。对于具有随机误差项序列相关的情况,要通过对数据的某种计算整理来消除序列相关
5、性,最常用的处理方法是差分法。,横截面数据在同一时间截面上的统计数据。用横截面数据作为样本时,容易产生异方差性。对于具有异方差性的建模问题,数据整理就要注意消除异方差性,这常与模型参数估计方法结合起来考虑。时间序列结合横截面数据形成面板数据,由协整分析专门处理,样本容量的选择 无论是时间序列数据还是横截面数据,样本容量的多少一般要与设置的解释变量数目相配套。通常为了使模型的参数估计更有效,要求样本容量n大于解释变量的个数p。当np时,普通的OLSE方法失效。n与p的比例 据英国统计学家M.Kendall,n应是p的10倍。这有时很难做到,但在收集数据时,应尽可能多收集一些样本数据。,统计数据的
6、整理 统计数据的整理中不仅要把一些变量数据进行折算、差分,甚至把数据对数化、标准化等,有时还须注意剔除个别特别大或特别小的“野值”。在统计数据质量不高时,经常会遇到这种情况。当然,有时还须利用插值的方法把空缺的数据补齐。,确定回归模型的数学形式,一元回归模型 绘制变量y与x的样本散点图,若n个样本点大致分布在一条直线周围,可考虑采用线性回归模型。多元回归模型 关于所有变量求相关阵,观察y与各自变量的相关系数,若与某些自变量相关系数较高,则说明y与这些自变量高度线性相关,故可考虑建立y与这些自变量的线性回归模型。但仅凭相关系数不能确定自变量的取舍。有时可做y与某变量的散点图,来大致确定模型的数学
7、形式。,经济回归模型的建立,通常要依据经济理论和一些数理经济学结果。有时,我们无法根据现有资料确定模型的形式,这时可以采用不同的形式进行计算机模拟,对于不同的模拟结果,选择较好的一个做为理论模型。尽管模型中待估的未知参数要等到参数估计、检验之后才能确定,但在很多情况下,可根据实际问题对未知参数的正负及大小范围事先给予确定。,模型的参数估计,线性回归模型未知参数的估计最主要的方法是普通最小二乘估计(OLSE)。运用OLSE估计未知参数时应首先看具体问题的样本数据是否满足模型的基本假定,只有满足基本假定的模型才能应用OLSE。满足G-M条件的最小二乘估计称为最佳线性无偏估计,即未知参数的所有无偏估
8、计中,方差最小的估计。正态假定下,极大似然估计(MLE)与OLSE一致。,对于一元线性回归模型,在满足模型基本假定的条件下,我们可以求得,由上述计算结果,回归系数 的波动不仅与随机误差的方差 有关,而且还与自变量x取值的离散程度有关。如果x的取值比较分散,即x的波动较大,则 的波动就小,的估计值 就比较稳定。反之,若原始数据x是在一个较小的范围内取值,则 的估计值稳定性就差。而回归常数 方差也不仅与随机误差的方差 和自变量x取值的离散程度有关,而且还同样本数据的个数n有关。显然数据n越大时,方差越小。,对于多元回归模型,也有类似的结论。为了使未知参数的估计值更稳定,在收集数据时,就应该考虑x的
9、取值尽可能的分散一些,不要挤在一块,样本量也应尽可能大一些,样本量n太小时,估计量的稳定性肯定不会太好。,模型检验,对于回归模型的检验一般需要进行统计检验和模型经济意义的检验。统计检验通常是对回归方程的显著性检验、回归系数的显著性检验、拟合优度检验、随机误差项的序列相关检验、异方差性检验、解释变量的多重共线性检验等。经济意义检验是判断模型在通过一系列统计检验后,模型因变量y与各自变量的数量关系能否得到合理的经济解释。,回归方程显著的F检验,对多元线性回归方程的显著性检验就是要看自变量 从整体上对随机变量y是否有明显的影响。为此提出原假设,若原假设被接受,表明随机变量y与 之间的关系由线性回归模
10、型表示不合适。F检验的结果常给出P值。给定显著性水平,若P值小于该显著性水 平,拒绝上述原假设,若P值大于等于该显著性水平,接受原假设。,回归系数的显著性t检验,在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,我们总想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程。所以需要对每个自变量进行显著性检验。检验某变量的显著性,就是检验该自变量对y的作用是否显著,采用t检验,原假设为 若接受原假设,则自变量不显著;若拒绝原假设,则自变量显著。结果仍以P值给出。,由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,可采用逐步回归方法,
11、也可采用一种简单的剔除多余变量的方法后退法。当有多个自变量对因变量y无显著性影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,先剔除其中t的绝对值最小的(或P值最大的)一个变量,然后再对求得的新回归方程进行检验,有不显著变量再剔除,直到保留的变量都对y有显著影响为止。也可根据对问题的定性分析选择t值较小的变量先剔除。,一元回归模型相关系数的显著性检验,对于一元线性回归模型,我们可用变量x与y之间的相关系数来检验回归方程的显著性。样本相关系数r表示x和y的线性关系的密切程度。相关系数的取值范围为(-1,1)。r=1表示x与y完全正相关,r=-1表示x与y
12、完全负相关,此时,所有对应样本点均在一条直线上。,一般地,即使x与y有确定的非线性函数关系,它们的相关系数r大多在(-1,1)并不等于1,这是因为简单相关系数只是反映两国变量间的线性关系,并不能反映变量间的非线性关系。故即使r=0也不能说明x与y无任何关系。在实际中r=0的情况很少,即使是两个毫不相关的变量序列,它们的相关系数r绝对值都会大于0。当x与y之间有线性统计关系时,r的绝对值在(0,1)内变化。,相关系数有个明显的缺点,即它接近于1的程度与数据组数n有关。当n较小时,相关系数的绝对值容易接近于1;当n较大时,相关系数的绝对值容易偏小。特别,当n=2,相关系数的绝对值总为1。故样本量n
13、较小时,仅凭相关系数较大就说变量x与y有密切的线性关系,就太匆忙了。相关系数的显著性检验结果一般以P值给出,若P小于给定的显著性水平,则认为y与x间的相关系数显著不为0。,对于两个随机变量,其相关程度的强弱按其总体的相关系数大小分为以下几个等级:绝对值在0.8,1 时,视为高度相关;绝对值在0.5,0.8)时,视为中度相关;绝对值在0.3,0.5)时,视为低度相关;绝对值在(0,0.3)时,表明两个变量间的 相关程度极弱,在实际应用中可视为不 相关;相关系数等于0时,两个变量不相关。,在实际应用中我们往往只能得到样本相关系数r,而无法得到总体相关系数。用样本相关系数判定两变量间相关程度的强弱时
14、一定要注意样本量的大小,只有当样本量较大时用样本相关系数判定两变量间相关程度的强弱才可信服。需要正确区分相关系数显著性检验与相关程度强弱的关系,相关系数的t检验显著只表示总体相关系数显著不为零,不能表示相关程度高。,在样本容量充分大时,可以把样本相关系数r作为总体相关系数,不必关心显著性检验结果。对于一元线性回归模型,以上三种显著性检验的结果完全一致,故对一元线性回归实际只需要作其中一种检验即可。但对于多元线性回归这三种检验并不等价。,对于多元统计模型,除了上述两种显著性检验结果,还可以关注偏决定系数和偏相关系数。在多元回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y
15、与自变量以及自变量之间的相关性的数量。根据偏相关系数,可以判断哪些自变量对因变量的影响较大,而选择必须考虑的自变量,对于那些对因变量影响较小的自变量,则可以舍去不顾,故在剔除某个自变量时,可以结合偏相关系数考虑。,拟合优度检验,定义回归平方和与总离差平方和之比为决定系数,也称为判定系数、确定系数,记为。决定系数是一个回归直线与样本观测之拟合优度的相对指标,反映了因变量的变异中能用自变量解释的比例。其数值在01之间,可用百分比表示。若决定系数接近于1,说明因变量不确定性的绝大部分能由回归方程解释,回归方程拟合优度就好;反之,若其数值不大,说明回归方程的效果不好,应进行修改,可考虑增加新的自变量或
16、者使用曲线回归。,注:1.当样本量较小时,即使决定系数很大,也不要急于下结论,可结合样本量和自变量个数对决定系数做调整,计算调整的决定系数。,2.即使样本量不小,决定系数很大,也不能可定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。尤其当自变量的取值范围很窄时,线性回归的效果通常较好,此时的线性回归模型不能用于外推预测。可用模型失拟检验来判定因变量与自变量之间的真实函数关系是线性还是曲线的,若是曲线的到底是哪一种曲线。这种检验需要对自变量有重复观测数据,而经济数据建模通常不能得到重复数据,此时可用残差分析判定回归方程的正确性。,3.样本量很小时,对于很小的决定系数也不能急于
17、下结论线性回归不显著。事实上,不论检验结果是否显著,都应该尝试改进回归的效果,如增加自变量,改用曲线回归等。4.在实际应用中,决定系数到底多大时,才算通过了拟合优度检验?这要根据具体情况来定。需要指出的是,拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,决定系数等于0.7左右我们也给回归模型以肯定的态度。5.当样本量与自变量个数接近时,决定系数易接近1。,对于模型假设检验结果的解释,对于回归模型显著性F检验 一般情况下,当原假设被接受时,认为在给定的显著性水平下,在自变量 对因变量y无显著影响,于是通过各自变量去推断y也就无多大意义。此时,可能这个问题本应用非线
18、性模型描述,而我们误用线性模型了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把一些影响因变量y的自变量漏掉了,故从上述两方面都应考虑重新建模。,当我们拒绝了原假设,也不能认为这个回归模型已经完美,此时我们只能认为这个回归模型在一定程度上说明了自变量与因变量y的线性关系。因为此时我们仍不能排除我们可能漏掉了一些重要的自变量。此时,还需要借助决定系数、散点图、残差图等工具进一步分析,若各种方法结论一致,才可下结论。,当样本容量n较小,变量个数p较大时,F检验或t检验的自由度太小,此时尽管样本决定系数很大,但参数估计的效果很不稳定,有可能出现决定系数很大但方程显著性检验却通不过等现
19、象。,残差分析,一个线性回归方程通过了t检验或F检验,只表明变量x与y之间的线性关系是显著的,或者说线性回归方程是有效的,但不能保证数据拟合的很好,也不能排除由于意外原因而导致的数据不完全可靠,比如有异常值出现、周期性因素干扰等,只有当与模型中的残差项有关的假定满足时,我们才能放心运用回归模型。因此,在利用回归方程作分析和预测前,应用残差图诊断回归效果与样本数据质量,检查模型是否满足基本假设,以便对模型作进一步修改。,以自变量x作横轴(或以因变量回归值 作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,就可得到残差图,其可以对数据质量作一些分析。不同的残差图说明了样本数据的不同表现。,在
20、残差分析中,一般认为超过 或 的残差为异常值,考虑到普通残差的方差不等,用残差作判断和比较会带来一定的麻烦,故引入标准化残差和学生化残差。标准化残差使残差具有可比性,其绝对值大于3的相应观测值即判定为异常值,这简化了判定工作,但没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,因而在寻找异常值时,用学生化残差优于用普通残差,认为其绝对值大于3的相应观测值为异常值。,关于基本假设的检验,异方差检验自相关性检验多重共线性检验,异方差检验,异方差违背了模型中随机误差等方差且独立的假设,即异方差产生的原因1.建立回归模型时,某一因素或一些因素随着 解释变量观测值的变化而对被解释变量产生
21、不同的影响,导致随机误差项产生不同方差。2.样本数据为截面数据时,易产生异方差。3.利用平均数作为样本数据,也容易产生异方 差。,当存在异方差时,普通最小二乘估计存在以下问题:1.参数估计值虽然无偏,但不是最小方差线性无偏估计;2.参数的显著性检验失效;3.回归方程的应用效果极不理想,异方差性检验方法,残差图分析等级相关系数法,残差图分析法 这是一种直观、方便的分析方法。它以残差为纵坐标,以其它适宜的变量为横坐标作散点图。常用的横坐标有三种选择(1)以y的拟合值为横坐标;(2)以自变量为横坐标(一元模型中可用);(3)以观测时间或序号为横坐标。,一般情况下,当回归模型满足所有假定时,残差图上的
22、n个点三部应是随机的,无任何规律的,若回归模型存在异方差时,残差图上的点的散布呈现出相应的趋势:若残差值随x值增大而增大(或随x值增大而减小),具有明显的规律,可认为存在异方差。,等级相关系数法 又称斯皮尔曼(Spearman)检验,应用较为广泛。其既可用于大样本,也可用于小样本。,具体步骤:step1:作y关于x的普通最小二乘回归,求出残 差;step2:取残差的绝对值,把自变量样本和残差 绝对值序列按递增或递减次序排列后分 成等级,计算等级相关系数step3:作等级相关系数的显著性检验。当n8 时,对等级相关系数进行t检验,关于异方差性的诊断,方法很多,至于哪种检验方法最好,目前没有一致的
23、结论。残差图方法直观但较粗糙,登记相关系数检验要比残差图检验方法更为可取。当残差散点呈现无任何规律的分布时,可认为无异方差性,若残差点分布有明显规律,可认为存在异方差性。对于既无明显分布规律、分布似乎又不随机,我们就要慎重了,这时,需要借助等级相关系数检验会哦其他方法来判断异方差性。,异方差性问题的处理方法,消除异方差性的方法通常有加权最小二乘法(WLS)、Box-Cox变换法、方差稳定性变换法等,其中WLS最为常用。,加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,有一定的局限性。当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,而不是大幅度
24、改进。加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也不总是研究者需要的。在一些特定场合下,即使数据存在异方差,也仍可选择使用普通最小二乘估计。,出现异方差性时,消除异方差影响的方法很多,较广泛的是加权最小二乘法,若软件无加权最小二乘功能,可通过变换数据来实现,但有可能无法进行拟合优度检验。,当误差项服从正态分布,因变量与自变量之间遵从线性回归函数,只是误差项存在异方差时,应采用加权最小二乘估计,以消除异方差影响;当误差项不仅存在异方差,且误差项不服从正态分布,因变量与自变量之间也不遵从线性回归函数关系时,应采用方差稳定变换。,自相关性检验,自相关性违背了模型误差项等方
25、差且独立的基本假设,即自相关性产生的原因1.时间序列容易出现自相关性;2.遗漏关键变量时会产生序列的自相关性;3.经济变量的滞后性会给序列带来自相关性;4.采用错误的回归函数形式也可能引起自相关性;5.蛛网现象可能带来序列的自相关性;6.对数据加工处理而导致误差项之间产生自相关性。,自相关性检验方法,图示检验法自相关系数法DW检验回归检验法也很受人们推崇,图示检验法 图示法是一种直观的诊断方法,其把给定的回归模型直接用普通最小二乘法估计参数,求出残差项,描绘残差的散点,根据残差的相关性来判断随机项的序列相关性。,残差的散点图通常有两种绘制方式:1.绘制以 为纵坐标,以 为横坐标绘制散点图。若大
26、部分点落在第1、3象限,表明随机扰动项存在着正的序列相关;若大部分点落在第2、4象限,则随机扰动项存在着负相关。2.按照时间顺序绘制回归残差项的图形。若残差随t的变化逐次有规律的变化,呈现锯齿形或循环形状的变化,就可断言残差存在相关,表明随机扰动存在着序列相关;若残差随t的变化逐次变化并不断改变符号,则随机扰动存在负相关,称之为蛛网现象;若残差随t变化逐次变化并不频繁改变符号,而是几个正的残差后面跟着几个负的,表明随机扰动存在正相关。,自相关系数法 自相关系数的取值范围为-1,1,当自相关系数接近1时,表明误差序列存在正相关,当自相关系数接近-1时,表明误差序列存在负相关。在实际应用中,用残差
27、求出的样本自相关系数与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用DW检验方法。,DW检验方法 DW检验是一种适用于小样本的检验方法,且只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。,应用DW检验方法,求出DW值后,根据样本容量n和解释变量的数目k(包括常数项)查DW分布表,得临界值dL和dU。DW在0,dL,存在正相关;DW在(dL,dU,不能判定是否有自相关;DW在(dU,4-dU),无自相关;DW在4-dU,4-dL),不能判定是否有自相关DW在4-dL,4,存在负相关。当DW值在2左右时,无需查表即可认为模型不存在自相关性。,DW检验的局限:1.DW检验有
28、两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时,只有增大样本量或选取其他方法;2.DW统计量的上、下界标要求n15;3.DW检验不适应随机项具有高阶序列相关的检验。,自相关处理方法,若是回归模型选用不当造成自相关,则应改用适当的回归模型;若是缺少重要的自变量,则应增加自变量;若上述两种方法都不能消除序列相关性,则需采迭代法、差分法、科克伦-奥克特迭代法、普莱斯-温斯登迭代法等。,在实际应用中,自相关系数接近1时,我们采用差分法而不用迭代法。一阶差分法是对原始数据的一种修正,但有时一阶差分法可能会过度修正,使得差分数据中出现负自相关的误差项,故从一定意义上说,差分法要慎用。只有当
29、自相关系数等于1或者接近于1时,差分法效果才会好。,多重共线性检验,多重共线性产生的原因 客观地说,某一经济现象,涉及多个影响因素时,这多个影响因素之间大都有一定的相关性。当这种相关性较弱时,我们一般认为符合多元线性回归模型的要求;当相关性较强时,认为是一种违背多元线性回归模型基本假设的情形。研究经济问题涉及时间序列资料时,容易出现共线性;利用截面数据建立回归方程也尊在自变量高度相关的情形。,多重共线性的诊断方法,方差扩大因子法特征根判定法直观判定法,消除多重共线性的方法,剔除一些不重要的解释变量增大样本容量回归系数的有偏估计(岭回归、主成分回归、逐步回归法、特征根法、偏最小二乘法等)。,回归
30、分析中,有时也需要进行数据的中心化、标准化处理,也要注意异常值和强影响点的诊断和处理,SAS实现,reg过程 proc reg data=输入数据集 选项;var 可参与建模的变量列表(左数第一 个为因变量);model 因变量=自变量表/选项;print 输出结果;plot 诊断图形;run;,注:Reg过程是交互式过程,在使用了nun语句提交了若干个过程步语句后,可继续写其他的reg过程步语句,提交运行,直到提交quit语句或开始其他过程步或数据步才终止。Model语句中选项用“selection=选择方法”,选择方法指的是自变量选择方法,包含none(全用,默认),forward(逐步引入法),backward(逐步剔除法),stepwise(逐步筛选法),maxr(最大增量法),minr(最小增量法),rsquare(选择法),adjrsg(修正选择法)和CP(Mallows的Cp统计量法)Print di/列出Yi的预测值Yi及置信区间(95%)Print clm/估计均值E(yi)(i=1,n)及95%置信限4.Plot 因变量*自变量/conf 95;/省略conf 95=不带置信限。,