《第1章双变量回归分析.ppt》由会员分享,可在线阅读,更多相关《第1章双变量回归分析.ppt(50页珍藏版)》请在三一办公上搜索。
1、第一章 双变量回归分析,教师:卢时光,1.回归分析的性质,F.加尔顿(Francis Galton)发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。K.皮尔逊(Karl Pearson)证实了加尔顿普遍回归定律。皮尔逊收集了1000多个家庭的身高记录。他发现对于父辈高的群体,儿辈的平均身高低于他们的父辈,而对于父辈矮的群体,儿辈的平均身高则高于他们的父辈。用加尔顿的话来说,就是“回归到中等(regression to mediocrity)”。,1.2 回归的现代定义回归分析是关于研究一个应变量对另一个解释变
2、量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。回到加尔顿的例子:我们关心给定父辈身高,找出儿辈平均身高的变化。值得注意的是,随着父辈身高的增加,儿辈平均身高也在增加。,如左图所示:注意对应任一给定的父辈的身高,都有一个儿辈身高的分布范围。我们勾画了一条通过这些散点的一条直线,以表示儿辈平均身高如何随父辈身高的增加而增加的。这条线我们称为回归线(regression line)。,1.3 统计关系和确定性关系如上例中,我们不像经典物理学中考虑的那种变量之间的函数或确定性依赖关系。在回归分析中,我们考虑的是一类所谓统计依赖关系。在变量之间的统
3、计关系中,我们主要处理是随机变量,也就是有着概率分布的变量。例如,作物收成对气温、降水、阳光及施肥的依赖关系是统计性质的。这个性质的意义在于:这些解释变量固然重要,但是并不能够使农业学家准确地预测作物的收成。一则这些变量的测量是有误差的,二则还有一大堆影响到作物收成的变量,我们无法一一识别出来。,1.4 回归和因果关系虽然回归分析是研究一个变量对另一些变量的依赖关系,但它并不一定意味着因果关系。用肯达尔和斯图亚特的话说:“一个统计关系式,无论多强也不管多么有启发性,却永远不能确立因果方面的联系,对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。”例如在诸多有趣的经济指标中有一个“裙
4、子长短指数”。这个指数用女性穿着裙子的长短来判断经济的好坏。当经济不好时,失业率增加,女性就业更困难,短裙看起来能年轻、活力一些,有利于寻求新的职位。但是我们不能因此得到结论:在座的女生穿着短裙是因为经济不好,或者因为在座的女生穿着短裙所以中国的经济不好。从逻辑上说,统计关系式本身不意味着任何因果关系。,1.5 数据的性质用于经济分析的数据有三类:时间序列、横截面数据、和混合数据。时间序列:对一个变量在不同时期取值的一组观测结果。例如随着年份GDP的变换、上证综合指数的每日变换等等。基于时间序列数据的计量分析,大多假定所依据的时间序列数据是平稳的(stationary)。粗略地来说,如果一组时
5、间序列数据,它们的均值和方差在时间上没有系统的变化,就是平稳的。要记住:每当你使用时间序列数据时,你都要问一问它的平稳性如何。,横截面数据:对一个或多个变量在同一个时点上收集的数据。例如2012年9月份,全国主要30个省份的生猪的产量和价格、全国每个高校2012届大学生的就业率等等。横截面数据也有其自身的问题,特别是异方差(heterogeneity)的问题。有的省(湖南、江西)生产巨量的生猪,而有的省(北京和广东)生产量很少。当我们的统计分析中包含有相异的单元时,我们必须考虑尺度效应,以避免把苹果和桔子混同了起来。混合数据:兼有时间序列和横截面数据。例如人口普查数据,从1980到2012年中
6、国人口总量变化是时间序列,而2012年不同省市人口的分布则是横截面数据。,2.双变量回归分析,2.1 一个例子假定一个国家人口总体由60户家庭组成,X表示家庭周可支配收入,Y表示家庭周消费支出。,将这60户按照收入划分为10组,分析每一组的家庭消费支出。对应每周收入在80美元的5户,每周家庭消费支出在55到75美元不等。上表中,每一纵列给出的是在给定的收入水平X下的消费支出Y的分布。就是说,它给出了以X为给定值条件下的Y的条件分布。散点图根据表格的数据制成。,现在,对于给定的X,例如X=80美元,有5个Y值:55、60、65、70和75美元。因此给定X=80得到这些消费支出中任何一个概率是1/
7、5。用符号来表示:对于Y的每一条件概率分布,我们能够计算出来它的均值,称为条件均值或条件期望,记做E(Y|X=Xi),并读作“在X取特定Xi值时Y的期望值”。给定X=80,Y的期望或条件均值为:,回到散点图中,我们更清楚的发现,虽然,每个家庭的消费支出都不相同,但随着收入的增加,消费水平平均地说也在增加。观测红色的粗圆点代表的Y的各个条件均值,这种察觉就更加的直观和形象。散点图表明,这些条件均值都落在一个有正斜率的直线上。这个直线叫做总体回归线。更简单地说,它是Y对X的回归。,在几何意义上,总体回归线就是当解释变量取给定值时,应变量的条件均和或期望的轨迹。,2.2总回归函数(PRF)从前面的讨
8、论中,我们清楚地看到,每一条件均值E(Y|Xi)都是Xi的一个函数,用符号来表示:其中,f(Xi)表示解释变量Xi的某个函数(在上例中,E(Y|Xi)是Xi的一个线性函数),我们把 称为总体回归函数(PRF)或简称为总体回归(PR)。它说明在给定的Xi下,Y的分布均值与Xi有函数关系,或者,它表明了Y的均值是怎样随X而变化的。PRF的函数形式是一个经验方面的问题,例如,经济学家会提出消费和收入有线性关系,这样PRF常常被写作其中12为不知的参数,称为回归系数,也分别被称为截距和斜率系数。,2.3 线性的含义对线性的第一种解释是,Y的条件期望是Xi的线性函数,从几何意义上来看,这时回归曲线是一条
9、直线。按照这种解释,诸如E(Y|Xi)=1+2+Xi2回归函数,变量X以指数2出现,就不是线性的。对线性的第二种解释是,Y的条件期望E(Y|Xi)是诸参数的一个线性函数,它可以是也可以不是X的线性函数。这样E(Y|Xi)=1+2Xi2就算一个线性模型,而E(Y|Xi)=1+22Xi2则不是。在我们这里,我们认为“线性”是对参数为线性的情形,因此,从现在开始“线性”一词总是指对参数为线性的一种回归(即参数总是以它的1次方出现);对解释变量X则可以是或不是线性的。E(Y|Xi)=1+2Xi和E(Y|Xi)=1+2Xi2都是线性回归模型(LRM)。,2.4 总回归方程的随机设定前面的例子中,随着家庭
10、收入的增加,家庭消费支出平均的也增加。但是对个单独某个家庭来说,消费支出水平却不一定随收入水平增加而增加。例如,对应于每周100美元的收入水平,有一家庭的消费支出是65美元,而对应于收入80美元的两户家庭,消费支出为70和75美元。那么,在个别家庭的消费支出与给定的收入水平之间存在什么关系呢?我们在前面的分析中看到,给定收入水平Xi的个别家庭的消费支出围绕在收入为Xi的所有家庭的平均消费支出的周围,也就是围绕在它的条件均值。因此我们可以把个别家庭的Yi围绕在它的期望值的离差(deviation)表述如下:,ui被称为随机干扰或随机误差项。给定X水平,个别家庭的支出可以表示为两个成分之和(1)E
11、(Y|Xi)代表相同收入水平的所有家庭的平均消费支出,这个成分被称为系统性或确定性成分,以及(2)ui被称为随机的或非系统性的成分。也可以理解为ui是所有影响Y的,但是没能包含到回归方程中的,被忽略变量的替代变量。方程:表示一个家庭的消费支出,线性地依赖于它收入加上干扰项。给定X=80,各个家庭的消费支出表达为:,回到刚才的式子:现在,如果两边取期望,则:式中,E(Y|Xi)是条件期望,是一个常数,故EE(Y|Xi)就是它自身。而E(Yi|Xi)就是E(Y|Xi),故:因此,假定回归线从Y的条件均值通过,就意味着,ui的(以给定的Xi为条件的)条件均值为零。,2.5 随机干扰项的意义干扰项是从
12、模型中没有包含的而又集体地影响着Y的全部变量的替代物。为什么我们不构造一个包含尽可能多的变量的复回归模型?理由如下:1.理论的含糊性;2.数据的欠缺;3.核心变量和周边变量;4.人类行为的内在随机性;5.“不好的”替代变量;6.节省的原则;7.错误的函数形式。为了所有上述理由,我们在随后的学习中会发现,随机干扰项在回归分析中扮演了极其重要的角色。,2.6 样本回归函数(SRF)注意我们前面的例子中,我们假定一个国家是由60户家庭组成的,故我们得到的是一个关于这60户家庭收入和消费支出的完整的总体数据。在大多数实际情况下,我们仅有对应于某些固定的X的Y值的样本,这样我们就必须面对抽样问题,例如有
13、下列两组抽样数据:,问题:我们能够从抽样数据中预测整个总体中对应于给定的X的平均每周消费支出Y吗?将表中的数据描绘为散点图:,在散点图中,我们画了两根样本回归线以尽量好的拟合这些散点。SRF1是根据第一个样本的数据,而SRF2是根据第二个样本的数据。那么,两条回归线中那一条代表“真实”的总体样本回归线?事实上,我们不可能有绝对把握知道哪一条代表了真实的总体回归线。因为抽样的波动,它们最多也不过是真实总体回归线的一个逼近而已。一般的来说,从N个不同样本中会得到N个不同的样本回归函数,并且这些样本回归函数不大会一样。类比总体回归函数,我们能够写出一个代表样本回归线的样本回归函数(SRF):这里 分
14、别是Y,1和2的估计量。,我们还能把SRF表达为它的随机形式:其中,除了定义过的符号外,表示样本残差项。概念上,类似于ui,并且可把它当做是ui的估计量,把它引入到SRF中的理由和把ui引入PRF中来,是出于同一个理由。至此,总的来说,回归分析仅仅是依据某总体的一个样本的时候比不是这样的时候多。我们的主要目的是根据样本回归函数(SRF):来估计总体样本函数(PRF):,对于X=Xi,我们有一个观测值Y=Yi。我们可以根据SRF将所观测的Yi表达为:也可以根据PRF,表达为:现在,对于图中所示的Xi,明显过高的估计了那里的真实的E(Y|Xi),类似的对于A点左侧,SRF低估了真实的PRF,而右侧
15、则恰好相反。,现在,重要的问题:既然认识到了样本回归函数不过是总体回归函数的一个近似,能不能设计一种规则或方法,使得这种近似是一种尽可能“接近”的近似?尽管真实的总体回归函数永远不得而知。,3.双变量回归模型:估计问题,3.1 普通最小二乘法原理回顾双变量总体回归函数(PRF):这个PRF不是直接可以观测的。我们通过样本回归函数(SRF)去估计它:这里,是Y的估计值(条件均值)。,我们把式子改写为:这样残差 不过是实际Y值与估计值 之间的差。对于给定的Y和X,我们希望样本回归函数(SRF)能够尽可能的接近实际的Y,这样我们采用如下原则:选择这样的SRF,使得尽可能的小。,上述标准似乎很给力,但
16、却存在缺陷。因为在总和:中,得到的权重和 一样多,而显然后两者离样本回归线距离要远得多。这样可能所有的 都散布的很远,但是 代数和却很小(甚至为零)。为了避免这样的问题,最小二乘准则要给出样本回归函数(SRF),使得:尽可能小,其中 是残差平方和。我们即将看到,它得出来的估计量有很好的统计性质。很明显,残差平方和是关于估计量 的某个函数:,的最小二乘估计其中,n是样本大小。这组联立方程被称为正则方程。,解上述方程组:,最小二乘(OLS)估计量的性质OLS估计量是纯粹由可观测值(样本值)表达的,因此这些量是容易计算的;这些量是点估计量,对于给定的样本,每一估计量仅提供有关总体参数的一个值;从样本
17、数据得到OLS估计值,很容易画出样本回归线,这样得到的样本回归线有如下性质(不证明):1.它通过X和Y的样本均值;2.估计的Y均值等于实测的Y的均值;3.残差 的均值为零;4.残差 和预测的Yi值不相关;5.残差 和Xi值不相关。,3.2经典线性回归模型:最小二乘模型的基本假定如果我们的目的仅仅是估计,那么上节讨论的OLS就足够了。事实上,我们不仅仅是要估算出 的值,而且要对真实的 推断,我们想知道 离它的真期望值 有多近。为此,我们要对Yi的产生方式作出某些假设。而 表明,Yi是依赖于Xi和ui。因此除非我们明确Xi和ui是怎样产生的,我们将无法对Yi作出任何统计推断,也就无法对 作出统计推
18、断。就是说,为了回归估计的有效解释,我们对变量Xi和误差项ui作出假定是极其重要的。,我们在前面探讨过线性的定义,在我们这里我们将始终坚持这一定义。,假定1:线性回归模型。回归模型对参数而言是线性的。,我们关于总体样本函数(PRF)的讨论中,隐含着这样一个假定“重复抽样中的固定值”。对它的理解很重要。回到我们最初的例子上:我们假定一个由60户家庭组成,我们统计了这60户家庭的收入X和家庭消费支出Y的数据。这样我们把收入值固定在80美元/周,随机的抽取一个家庭,并观测它的周家庭消费支出,例如说60美元;接着我们仍然把收入X固定在80美元/周,再随机的抽取令一个家庭,观测它的周家庭消费支出为75美
19、元。在每次抽取(重复抽样)中,我们都把X值固定在80美元上,直到所有周收入为80美元的家庭统计完毕。事实上我们例子中的数据就是这样产生的。所有的这些意味着,我们的回归分析是条件回归分析,就是以X给定值为条件的。,假定2:在重复抽样中X值是固定的。,假定3:干扰项ui的均值为零。对于给定的X值,ui的条件期望(均值)为零,用公式来表达:,其实,这个假定无非是告诉我们,凡是模型中没有包含的,没有被作为解释变量的其他而被归结为ui的因素,都不应该对Y的均值产生系统性的影响。或者说,正的ui和负的ui相互抵消了,以至于它们对Y的平均影响为零。,对于每个ui的方差,都是某个等于2的正常数。意味着,对应于
20、不同的X值的Y总体均有相同的方差。图3.4和3.5都表明了随收入增加,平均消费水平增加。3.4中消费支出方差在所有的收入水平下保持不变,而3.5则变大。当X=X1时,消费水平平均地离PRF更近,而X=X3时,消费水平围绕PRF分布更远,显然X=X1时的数据Y对我们来说更可靠一些。,假定4:同方差性或ui的方差相等。对于给定的X值,对所有的观测,ui的方差是恒定的。用公式来表达:,假定5:各个干扰项之间无自相关。给定任意两个X值:Xi和Xj(ij),ui和uj之间的相关为零。用符号来表示:,用专业的术语来说,就是无序列相关或无自相关。如果上述假定不成立,ut和ut-1存在相关关系,那么Yt不仅仅
21、取决Xt而且还取决于ut,因为ut-1在一定程度上决定了ut。我们利用假定5,就是只考虑Xt对Yt的影响,而不去担心u之间的可能到相关关系而对Y产生的影响。,干扰u和解释变量X之间是不相关的。如果X和u是相关的,例如X和u正相关,那么当u增加的时候X也增加。类似的,如果X和u负相关,则当u增加时X减少。我们将无法准确地区分X和u各自对Y产生了什么样的影响。,假定6:ui和Xi的协方差为零。用符号来表示:,对于前例,如果我们只有一组X和Y的观测值,我们将无法从这一次观测中去估计参数,对于两个参数估计,我们至少需要两组数据。,假定7:观测次数n必须大于待估计的参数个数。,回到前面的公式中:如果全部
22、的X值都相等,则Xi=,那么上式中的分母就为零,从而我们无法估计2,也就无法估计1。要把回归当做一种工具来使用,Y和X两者均有变化是前提,换句话说,变量必须在变。,假定8:X值要有变异性。在一个给定的样本中,X值不可以完全是相同的。,如果模型中漏掉了一些重要的变量,或者选择了错误的函数形式,或者对所含变量作出了错误的随机假定,那么我们就要质疑回归的有效性。,假定9:正确地设定了回归模型。另外一个说法是,在经验分析中所用的模型没有设定偏误。,这一假设,我们将在后续的学习中加以解释它的重要性。,假定10:没有完全的多重共线性。就是说,解释变量之间没有完全的线性关系。,3.3最小二乘估计的精度或标准
23、误差我们估算出来的 的“可靠性”或者精密度如何呢?在统计学上一个估计量的精密度是由它的标准误(se)来衡量的。var方差,se标准误,2是假定4中的ui的共同方差。,附 方差的推导,除了2以外,上述方程中的一切变量均可以从数据中估计出来,2由下面公式估算:是真正的但未知的2的OLS估计量,n-2被称为自由度(df)的个数,则表示残差平方的总和或者剩余平方和(RSS)。,注意 的方差,有如下特点:的方差和2成正比,而与 成反比。就是说,给定的2,X值变化越大,方差越小,从而2的估计精度越高。此外,随样本容量n的增加,中的项数将增加,2的估计精度随n的增加而增加。的方差与2和 成正比,而与 和样本
24、大小n成反比。最后,由于 是估计量,对于给定的样本,它们还可能是相互影响的。这种依赖性由它们之间的协方差来衡量。,3.5 判定系数r2:“拟合优度”的一个度量如果所有的观测点都落在样本回归线上,我们就得到了一个“完美”的拟合。但是这种情况很少发生。一般的是情形下,总有一些正的 和负的。我们所能希望的仅仅是围绕着回归线的残差尽可能的小。判定系数r2(双变量情形)和R2(多变量的情况)就是告诉人们这条样本回归线对数据的拟合程度有多么好的一个总度量。,r2称为(样本)判定系数,它是对回归线拟合优度的最为常用的一种度量。r2度量了在Y的总变异中,由回归模型解释的那部分所占的比例或百分比。r2的性质:1
25、.它是一个非负数。2.它的界限为0 r2 1。,r2的更简便的求解公式,一个例子每周家庭消费支出Y和每周家庭收入的调查数据-Y美元 X美元 Y美元 X美元 70 80 115 180 65 110 120 200 90 120 140 220 95 140 155 240 110 160 150 260-利用EViews 6.0 软件计算结果如下:Dependent Variable:YMethod:Least SquaresDate:08/18/11 Time:16:27Sample:1 10Included observations:10=VariableCoefficientStd.Er
26、rort-StatisticProb.=C24.454556.4138173.8127910.0051 X0.5090910.03574314.243170.0000=R-squared 0.962062Mean dependent var111.0000Adjusted R-squared 0.957319S.D.dependent var31.42893S.E.of regression 6.493003Akaike info criterion6.756184Sum squared resid 337.2727Schwarz criterion6.816701Log likelihood-31.78092Hannan-Quinn criter.6.689797F-statistic 202.8679Durbin-Watson stat2.680127Prob(F-statistic)0.000001,