简单回归模型.ppt_三一办公31ppt.com

资源描述

《简单回归模型.ppt》由会员分享，可在线阅读，更多相关《简单回归模型.ppt（64页珍藏版）》请在三一办公上搜索。

1、第二章简单回归模型,回归的历史含义F.加尔顿最先使用“回归（regression）”。父母高，子女也高；父母矮，子女也矮。给定父母的身高，子女平均身高趋向于“回归”到全体人口的平均身高。,简单回归模型的定义,回归的现代释义,回归分析用于研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。关注对象：（1）用x来解释y（2）研究y如何随x而变化,商品需求函数：,警察和犯罪率：,除x外其他影响y的因素如何处理？y和x函数关系如何设定？,简单回归的几个问题：,y=0+1 x+u,扰动项u的引入。x和y的非线性关系怎么办？生产函数：,两个例子,yield=0+1 fertilizer+u,

2、wage=0+1 educ+u,其他因素不变，u=0，则：1=yield/fertilizer 1=wage/educ 变化解释变量fertilizer或educ时，能假定其他因素不变吗？,解释变量x和扰动项u关于均值独立：均值独立比“不相关”更强相关关系度量的是变量间的线性关系。若x表示受教育水平，u是个人能力，假定可能成立吗？,关于u的假定,E(u|x)=E(u),对于模型：如方程包含常数项，可以假定：若E(u)=a0，可将模型调整为：零条件均值假定：,y=0+1 x+u,E(u)=0,y=0+a+1 x+u1,E(u|x)=0,总体回归函数（PRF）,E(y|x)=0+1 x,PRF是

3、确定的，未知的,总体回归函数（传统思路）,假想案例,总体回归函数的随机设定,随机误差项的意义,假设一个国家只有60户居民，他们的可支配收入和消费支出数据如下（单位：美元）：,假想案例,描出散点图发现：随着收入的增加，消费“平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,E(Y|Xi)=0+1Xi=17.00+0.6Xi,“天行有常，不为尧存，不为桀亡。应之以治则吉，应之以乱则凶。”-荀子天论,E(Y|Xi)=0+1Xi,总体回归函数,其中：Y被解释变量；,X解释变量；,0，1回归系数（待定系数或待估参数）,总体回归模型的随机设定,对于某一个家庭，如何描述可

4、支配收入和消费支出的关系?,某个家庭的消费支出分为两部分：一是E(Y|Xi)=0+1 Xi，称为系统成分或确定性成分；二是ui，称为非系统或随机性成分。,Yi=E(Y|Xi)+ui=0+1 Xi+ui,Yi=0+1 Xi+ui,E(Y|Xi)=0+1 Xi,随机性总体回归函数,确定性总体回归函数,随机误差项u的意义,反映被忽略掉的因素对被解释变量的影响。或者理论不够完善，或者数据缺失；或者影响轻微。模型设定误差度量误差人类行为内在的随机性,普通最小二乘法,对于一元回归模型：两个条件：两个未知数：所有的yi和xi都是已知数据。,E(u)=0,E(u|x)=0E(xu)=0,yi=0+1 xi

5、+ui,0 和 1,方程组：用样本矩代替总体矩：,E(y-0-1 x)=E(u)=0Ex(y-0-1 x)=E(xu)=0,当满足条件：OLS估计量：,实际上就是y和x的样本协方差与x的样本方差之比。,拟合值：给定截距和斜率估计值，y在x=xi时的预测值该函数为样本回归函数（SRF）残差：,普通最小二乘法（传统思路）,如何得到一条能够较好地反映这些点变化规律的直线呢？,Q=,=,通过Q最小确定这条直线，即确定，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。,残差的平方和最小,求Q对两个待估参数的偏导数：,即,样本回归函数,为研究总体，我们需要抽取一定

6、的样本。,第一个样本,样本回归线,样本均值连线,样本回归函数,第二个样本,样本回归线,样本均值连线,总体回归模型和样本回归模型的比较,几个例子,首席执行官的薪水和股本回报率？,工资和受教育程度投票结果与竞选支出：,Xi,yi,y1,y2,y3,u1,u2,u3,E(y|xi)=0+1 xi,注意：分清几个关系式和表示符号,（2）样本（估计的）回归直线：,（3）总体（真实的）回归模型：,（4）样本（估计的）回归模型：,（1）总体（真实的）回归直线：,ui随机误差项残差项,OLS操作技巧,（1）残差和及样本均值都等于零,OLS估计量代数性质,=,=,（2）回归元和残差的样本协方差为零,（3）总在

7、OLS回归线上,（4）拟合值的样本均值等于yi的样本均值,（5）拟合值和残差的样本协方差为零,.,.,.,.,.,.,.,.,y,x,yi,xi,A,0,=,+,总离差=回归差+残差,回归差：由样本回归直线解释的部分残差：不能由样本回归直线解释的部分,可以证明:,离差平方和分解,总平方和解释平方和残差平方和 SST=SSE+SSR,=,+,利用性质（1）和性质（5）：,=1,解释平方（SSE）和在总平方和（SST）中所占的比重越大，说明样本回归模型对样本数据拟合的程度越好。因此，用来表示拟合优度的可决系数定义为：,R2,R2 的取值范围是 0，1。对于一组数据，TSS是不变，所以ESS

8、（），RSS（）,拟合优度与判定系数（可决系数）,R2=0时表明解释变量x与被解释变量y之间不存在线性关系；R2=1时表明样本回归线与样本值重合；一般情况下，R2越接近1表示拟合程度越好，x对y的解释能力越强；看似很低的R2值，并不意味着OLS回归方程没有用！,R2=,=,=,=(R)2,度量单位和函数形式,改变度量单位对OLS估计量的影响,首席执行官的薪水和股本回报率？,若salarydol=1000salary，即将薪水单位由千美元调整为美元，模型估计结果为：,若股本回报率由百分比调整为小数，即roedoc=roe/100，模型估计结果为：,若将薪水单位调整为美元，股本回报率调整为小

9、数，模型估计结果？,判定系数R2为什么不变？,弹性度量：双对数模型 yt=a xtb 两侧同取对数，加入扰动项：Lnyt=Lna+b Lnxt+ut 令a*=Lna，yt*=Lnyt，xt*=Lnxt，上式表示为 yt*=a*+bxt*+utCobb-Douglas生产函数 Q=A L K,模型的非线性,双对数模型与线性模型的区别双对数模型中斜率系数b为y对x的弹性E：Lnyt=a*+b Lnxt+ut b=E=线性模型中斜率系数b为x 对y的边际影响：yt=a+bxt+ut b=dy/dx 从而弹性E=(dy/dx)(x/y)=b(x/y)双对数模型中弹性E是不变的，线性模型中弹性随着x/y

10、的变化而变化。,增长率测度：半对数模型 Lnyt=a+bxt+ut b反映x一单位变动导致y的相对变动：当x表示时间时，b为y的增长率。令 yt=y0(1+r)t 两侧同时取对数：Lnyt=Lny0+tLn(1+r)当r很小时，b=Ln(1+r)r,人力资本研究中，通常会使用半对数模型：这里wage为工资收入，edu为受教育年限，ability为能力，work为工作经验。引入work2是因为人们通常认为存在最优工作年限！半对数模型中，参数1的含义为：1=如果使用线性模型，即被解释变量为wage，则参数1的含义为,线性对数模型 yt=a+b Ln xt+ut（b0）家庭预算的截面研究中，一类支出

11、y和收入x的关系。预算花费在这种商品之前，收入要达到一个确定的临界水平e-a/b。而且支出随着收入的增加而单调增加，但其增长率递减，该商品消费的边际倾向(b/x)和弹性(b/y)都随着收入增加而递减。,倒数模型 yt=a+b/xt+ut,菲利普斯曲线,恩格尔消费曲线,多项式模型：二次函数：yt=b0+b1 xt+b2 xt2+ut 交叉乘积项：yt=b0+b1 x1t+b2 x2t+b3 x1tx2t+ut,吸烟与肺癌,关于参数线性，而不是关于变量线性！可以通过变量替换，转化为线性模型！,“线性”回归的含义,OLS估计量的期望值和方差,高斯-马尔可夫定理（参见P97）,如果满足古典线性回归模型

12、的基本假定，则在所有的线性估计量中，OLS估计量是最优线性无偏估计量（BLUE）。,线性性无偏性有效性,简单回归的高斯马尔科夫假定假定1：关于参数线性 y=0+1 x+u（1）假定2：随机抽样有一个服从总体模型（1）的随机样本(xi,yi):i=1,2,n，n为样本容量假定3：解释变量的样本有变异 xi的样本实现值，xi:i=1,2,n不是完全相同的数值假定4：零条件均值 E(u|x)=0假定5：同方差性 Var(u|x)=2,线性性,可以表示为因变量数据yi的线性函数。,证明：,=,=,=,其中,=,线性估计量分布的推导比非线性估计量容易,无偏性,证明：,=,=,=,=,=1,1,无偏

13、估计量,有偏估计量,1,=,OLS估计量的方差比其他线性无偏估计量的方差都小。,最小方差性与有效性,1,一致性（参见P158）,1,概率密度,OLS估计量的抽样方差,为什么要估计方差？,方差反映了数据的离散程度和估计结果的精确性。,受教育年限与每小时工资,1,同方差,（递增型）异方差,假定4：零条件均值 E(u|x)=0假定5：同方差性 Var(u|x)=2,估计0时，最好有，此时0估计量的方差最小，但1估计量的方差不受影响。为什么？,2的估计量（无偏）：,扰动项方差（2）的估计,OLS估计量的样本方差和标准误,当x=0时，y的期望值为零收入为零，收入税所得为零木材砍伐量为零，木材剩余物为零模型形式：残差平方和最小：,过原点回归,注意：对于过原点回归：标准的可决系数（R2）可能为负。如果真实情况下0 0，使用过原点回归模型会导致1的估计量有偏且不一致。如果0=0，使用含截距项的回归模型，由于没有利用 0=0的信息，会有信息损失（方差变大）。因此，很少使用过原点回归模型！,如果模型没有解释变量，即 0 的OLS估计量是多少？可决系数（R2）等于多少？,问题：,

展开阅读全文