《第2讲 简单线性回归课件.ppt》由会员分享,可在线阅读,更多相关《第2讲 简单线性回归课件.ppt(91页珍藏版)》请在三一办公上搜索。
1、1,计量经济学,(1) 简单二元回归y = b0 + b1x + u,2,本章大纲,简单回归模型的定义普通最小二乘法的推导OLS的操作技巧测量单位和函数形式OLS估计量的期望值和方差过原点回归,3,讲义大纲,一些术语的注解一个简单假定条件期望零值假定 何为普通最小二乘法普通最小二乘法的推导,4,术语注解,在简单二元回归模型y = b0 + b1x + u中, y通常被称为因变量,左边变量,被解释变量,或回归子。x通常被称为自变量,右边变量,解释变量,回归元,协变量,或控制变量。,5,等式y = b0 + b1x + u只有一个非常数回归元。我们称之为简单回归模型, 两变量回归模型或双变量回归模
2、型.b0 , b1被称为回归系数。 b0也被称为常数项或截矩项,或截矩参数。 b1代表了回归元x的边际效果,也被成为斜率参数。u 为误差项或扰动项,它代表了除了x之外可以影响y的因素。,6,线性的含义: y 和x 之间并不一定存在线性关系,但是,只要通过转换可以使y的转换形式和x的转换形式存在相对于参数的线性关系,该模型即称为线性模型。如, y=eb0+b1x+u 。,7,简单二元回归模型例子,如:简单的工资方程wage= b0 + b1(years of education) + u上述简单工资函数描述了受教育年限和工资之间的关系, b1 衡量了多接受一年教育工资可以增加多少。,8,.,.,
3、.,.,y4,y1,y2,y3,x1,x2,x3,x4,u1,u2,u3,u4,x,y,总体回归线,样本观察点和相应误差,E(y|x) = b0 + b1x,9,.,.,.,.,y4,y1,y2,y3,x1,x2,x3,x4,1,2,3,4,x,y,样本回归线,样本数据点和相关的误差估计项,10,推导方法(一):OLS,正式解一个最小化问题,即通过选取参数而使下列值最小:,11,推导方法(一),如果直接解上述方程我们得到下面两式:,12,普通最小二乘法的推导,13,因此OLS估计出的斜率为,14,普通最小二乘法的推导,根据样本均值的定义以及加总的性质,可将第一个条件写为,15,普通最小二乘法的
4、推导(二):矩方法,回归的基本思想是从样本去估计总体参数。 我们用(xi,yi): i=1, ,n 来表示一个随机样本,并假定每一观测值满足yi = b0 + b1xi + ui。,16,普通最小二乘法的推导,首先由E(u|x) = E(u) = 0 可知: Cov(x,u) = E(xu) = 0 为什么? Cov(x,u) = E(xu) E(x)E(u)而由E(u|x) = E(u) = 0 可得Cov(x,u) = E(xu) = 0 。,17,普通最小二乘法的推导,可将u = y b0 b1x代入以得上述两个矩条件。这样我们可以得到两个矩条件约束: E(y b0 b1x) = 0 E
5、x(y b0 b1x) = 0,18,普通最小二乘法的推导(二),目标是通过选择参数值,使得在样本中矩条件也可以成立。样本中矩条件可以表示为:,19,关于u的假定,假定总体中误差项u的平均值为零 E(u) = 0(2.5)该假定是否具有很大的限制性呢?,20,关于u的假定,比如, E(u)=5. 那么 y = (b0 +5)+ b1x + (u-5),所以, E(u*)=E(u-5)=0.上述推导说明我们总可以通过调整常数项来实现误差项的均值为零, 因此该假定的限制性不大。,21,条件期望零值假定,我们需要对u和 x之间的关系做一个关键假定。理想状况是对x的了解并不增加对u的任何信息。换句话说
6、,我们需要u和x完全不相关:E(u|x) = E(u),22,由于我们已经假定了E(u) = 0,因此有E(u|x) = E(u) = 0。该假定是何含义?E(u|x) = E(u) = 0. (2.6),条件期望零值假定,23,在教育一例中,假定u 代表内在能力,条件期望零值假定说明不管解释教育的年限如何,该能力的平均值相同。 E(ability|edu=6)=E(ability|edu=18)=0.,条件期望零值假定,24,假设期末成绩分数取决于出勤次数和影响学生现场发挥的因素,如学生个人素质。score =b0 + b1attend +u那么上述模型中假设(2.6)何时能够成立?,条件期
7、望零值假定,25,OLS斜率估计法总结,斜率估计量等于样本中x 和 y 的协方差除以x的方差。若x 和 y 正相关则斜率为正,反之为负。,26,关于OLS的更多信息,OLS法是要找到一条直线,使残差平方和最小。残差是对误差项的估计,因此,它是拟合直线(样本回归函数)和样本点之间的距离。,27,讲义总结,介绍简单线性回归模型介绍通过随机样本的数据运用普通最小二乘法估计斜率和截距的参数值,28,(2)简单二元回归,y = b0 + b1x + u,29,本章大纲,简单回归模型的定义推导普通最小二乘法的估计量OLS的操作技巧测量单位和回归方程形式OLS估计量的期望值和方差过原点的回归,30,讲义大纲
8、,OLS的代数特性拟合优度Goodness of fit 使用stata做OLS 回归改变测量单位对OLS统计量的效果,31,OLS的代数性质,OLS 的样本残差平均值也为零.,32,OLS的代数性质,解释变量和OLS残差之间的样本协方差为零:,33,OLS的代数性质,OLS回归线总是通过样本的均值。,34,OLS的代数性质,我们可把每一次观测看作由被解释部分和未解释部分构成.预测值和残差在样本中是不相关的,35,OLS的代数性质,36,更多术语:拟合优度,定义总平方和为总平方和SST是对y在样本中所有变动的度量,即它度量了y在样本中的分散程度将总平方和除以n-1,我们得到y的样本方差。,37
9、,更多术语,解释平方和定义为它度量了y的预测值的在样本中的变动残差平方和定义为残差平方和度量了残差的样本变异,38,SST, SSR 和 SSE,y 的总变动可以表示为已解释的变动SSE和 未解释的变动SSR之和,即: SST=SSE+SSR,39,证明 SST = SSE + SSR,因此我们得到: SST = SSE + SSR.该证明中我们使用了一个事实, 即样本中因变量的拟合值和残差不相关.,40,拟合优度,我们如何衡量样本回归线是否很好地拟合了样本数据呢? 可以计算模型解释的总平方和的比例,并把它定义为回归的R-平方 R2 = SSE/SST = 1 SSR/SST,41,拟合优度,
10、R-平方是已解释的变动占所有变动的比例它因此可被看作是y的样本变动中被可以被x解释的部分R-平方的值总是在0和1之间,42,拟合优度,在社会科学中,特别是在截面数据分析中, 回归方程得到小的R-平方值并不罕见。值得强调的是表面上低的R-平方值不一定说明OLS回归方程是没有价值的,43,拟合优度,Example 2.8CEO薪水和净资产回报Example 2.9竞选结果和选举活动开支,44,例:CEO的薪水和资本权益报酬率,45,例:CEO的薪水和资本权益报酬率,变量salary衡量了已1000美元为单位的年薪,其最小值,均值和最大值分别为:(min, mean, max)=(223, 1281
11、, 14822).Roe净收入/所有者权益,为三年平均值。N=209. 估计得到的关系为:(estimated salary)=963.191 + 18.501 roe.,46,例:CEO的薪水和资本权益报酬率,对估计量的解释:963.19:常数项的估计值衡量了当roe为零时CEO的薪水。18.5:b1 的估计值反应了ROE若增加一个百分点工资将增加18500美元。如果 roe=30, 估计的薪水应该是多少?,47,使用 Stata 进行OLS回归,我们已经推导出公式计算参数的OLS估计值,所幸的是我们不必亲手去计算它们。 在Stata中进行回归非常简单,要让y对x进行回归,只需要输入 reg
12、 y x,48,测量单位,假定薪水的单位是美元,而不是千美元,salarys.在Salarys对roe进行回归时OLS截距和斜率的估计值是多少?,49,测量单位,原估计方程(estimated salarys)=963.191 + 18.501 roe现在估计方程 (estimated salarys)=963191 + 18501 roe一般而言,当因变量乘上常数c,而自变量不改变时,OLS的截距和斜率估计量也要乘上c。,50,测量单位,如果定义 roedec = roe/100,那么样本回归线将会从(estimated salary)=963.191 + 18.501roe 改变到 (es
13、timated salary)=963.191 + 1850.1roedec一般而言,如果自变量除以或乘上某个非零常数,c,那么OLS斜率将乘以或除以c,而截距则不改变。,51,在简单回归中加入非线性,线性关系并不适合所有的经济学运用然而,通过对因变量和自变量进行恰当的定义, 我们可以在简单回归分析中非常容易地处理许多y和x之间的非线性关系.,52,自然对数,53,在工资教育的例子中,假定每增加一年的教育,工资的百分比增长都是相同的能够给出不变的百分比效果的模型是:如果 , 可以得到,54,例 2.10,将对数工资方程和该方程相比,55,自然对数的另一个重要用途是用于获得弹性为常数的模型在CE
14、O的薪水和企业销售额的例子中,常数弹性模型是,56,变量的原始形式和其自然对数的不同组合,57,简单二元回归 (3),y = b0 + b1x + u,58,本章大纲,二元回归模型的定义推导普通最小二乘法的估计量OLS的操作技巧测量单位和函数形式OLS估计量的期望值和方差过原点回归,59,OLS估计量的期望值和方差,从总体中抽取的不同的随机样本可得到不同的OLS估计量,我们将研究这些OLS估计量的分布。首先,我们在一些假定下证明OLS的无偏性。,60,假定SLR.1 (关于参数是线性的),在总体模型中,因变量 y 和自变量 x 和误差 u 的关系可写作y = b0 + b1x + u , 其中
15、 b0 和 b1 分别是总体的截距参数和斜率参数,61,假定SLR.2 (随机抽样):,假定我们从总体模型随机抽取容量为n的样本, (xi, yi): i=1, 2, , n, 那么可以写出样本模型为: yi = b0 + b1xi + ui,62,假定 SLR.3 和 SLR.4,SLR.3, 零条件期望:假定 E(u|x) = 0 . 那么在随机样本中我们有 E(ui|xi) = 0SLR.4 (自变量中的样本变动):在样本中,自变量 x 并不是一个不变常数。,63,定理2.1 (OLS的无偏性),使用假定SLR.1到SLR.4,我们可以得到无论b0,和b1 取什么值,它们的OLS估计量的
16、期望值等于它们各自的真值。证明:,64,OLS的无偏性(继续),为了考虑无偏性,我们需要用总体的参数改写 估计量 把公式简单地改写为,65,OLS的无偏性(继续),66,OLS的无偏性(继续),因此,分子可被改写为:,67,OLS的无偏性(继续),68,OLS的无偏性(继续),69,无偏性总结,b1 和 b0 的OLS估计量是无偏的 无偏性的证明依赖于我们的四个假定-如果任何假定不成立,OLS未必是无偏的记住无偏性是对估计量的描述-对于一个给定的样本我们可能靠近也可能远离真实的参数值,70,例2.12,学生的数学表现和学校的午餐项目Using 409 Michigan high school
17、data for 1992 1993, we estimated thatPredicted math10=32.14-0.319lnchprg,Math10: maths score for the 10th gradeLnchprg: partipation of the lunch program该例研究了是否参加学校的免费午餐项目是否能够提高学生在数学考试中的成绩。我们用Math10来表示10年级学生的数学成绩,用Lnchprg表示可以参加学校的免费午餐项目的学生的比例。,71,学生的数学成绩和学校的免费午餐项目,估计所得方程说明参加免费午餐的学生的比例越多,他们的成绩越差。可信吗?,
18、72,学生的数学成绩和学校的免费午餐项目,产生上述结果的一个可能是u 和 x是相关的。比如,u包括了贫困率,它影响学生的学习表现,又和是否有资格参加免费午餐项目高度相关。,73,OLS估计量的抽样方差,现在我们知道估计量的随机抽样分布以真值为中心 ; 接下来想知道的是这个分布散开的程度;了解这一点(分布的分散程度),将对我们如何能够在所有的估计量中,或至少在无偏估计量这一类估计量中选出最优的一个具有一定的指导意义。,74,OLS估计量的抽样方差,在一个附加假定下计算这个方差会容易的多,因此有假定 SLR.5 (同方差性): Var(u|x) = s2 (Homoskedasticity),75
19、,.,.,x1,x2,同方差的情形,E(y|x) = b0 + b1x,y,f(y|x),76,.,x,x1,x2,y,f(y|x),异方差的情形,x3,.,.,E(y|x) = b0 + b1x,77,OLS的抽样方差(继续),Var(u|x) = E(u2|x)-E(u|x)2 E(u|x) = 0, 所以 s2 = E(u2|x) = E(u2) = Var(u)因此 s2 也是无条件方差,被称作误差方差 s, 误差方差的平方根,被称作是误差的标准差 所以: E(y|x)=b0 + b1x and Var(y|x) = s2,78,工资方程中的异方差性,当Var(y|x)值和x 相关时,
20、我们称误差项具有异方差性。举例来说,如果我们假设工资一式满足同方差性,那么就意味着不管educ值为何水平,工资的分布相对于教育水平而言都是相同的。Var(u|educ)=Var(wage|educ)= s2如果接受高等教育的人面临的机会更多,收入的差异可能更大,在这一情形中,上述假定未必成立。,79,OLS的方差(继续),80,OLS的方差(继续),81,定理 2.2 ( OLS 估计量的抽样方差 ),在假定 SLR.1 到 SLR.5 下,我们有(2.57):并且,82,OLS估计量样本方差的总结,误差方差 s2 越大,斜率估计量的方差也越大 xi 的变动越大,斜率估计量的方差越小,因此我们
21、应该选择尽可能的分散开的xi。在实验数据中这一点(增大xi的变动)有时是可能的,但在社会科学中我们很少可以人为地增加xi的变动。大的样本容量能够减小样本斜率估计量的方差。,83,估计误差方差,我们不知道误差方差 s2 是多少,因为我们不能观察到误差 ui 我们观测到的是残差 i我们可以用残差构成误差方差的估计,84,估计误差方差,首先,我们注意到 s2=E(u2), 所以s2的无偏估 计量是ui 是不可观测的,但我们能够找到一个ui的无偏 估计量,85,误差方差估计量(继续),86,误差方差估计量(继续),误差方差的估计,由前面我们知道OLS的残差满足两个约束: 如果我们知道了残差中的n-2个,就能够通过以上约束求出剩余两个残差。因此OLS的残差只有n-2个自由度,我们得到的无偏估计:,87,88,过原点的回归,某些情形下,我们希望如下约束:x=0时,y 的期望值也是0.此时原本有非零截距的回归模型就变换成无截距的模型。规范回归模型:此时估计值例如:若收入(x)为零时,那么所得税(y)也必须是零,此时适用于无截距线性回归。,89,90,总结,OLS的无偏性 OLS的抽样方差标准差和标准误的定义估计误差方差,误差方差的估计,定理2.3 的无偏估计 在假定SLR.1-SLR.5下,我们有,91,