多元线性回归模型课件.pptx

资源描述

《多元线性回归模型课件.pptx》由会员分享，可在线阅读，更多相关《多元线性回归模型课件.pptx（106页珍藏版）》请在三一办公上搜索。

1、第三章经典单方程计量经济学模型：多元线性回归模型Multiple Linear Regression Model,1,一元回归分析,总体回归函数线性总体回归函数：总体回归模型或总体回归函数的随机设定形式样本回归函数样本回归模型或样本回归函数的随机设定形式,2,E(Y|X)= 0 + 1 ,E(Y|X)=f(),回归分析的主要目的：根据样本回归函数SRF，估计总体回归函数PRF。,3,2.3 一元线性回归模型的参数估计,一、参数的普通最小二乘估计（OLS）二、参数估计的最大似然法(ML) 三、参数估计的距估计法,4,2.3 一元线性回归模型的参数估计,5,四、最小二乘估计量的性质,一元线性

2、回归模型的统计检验,一、拟合优度检验二、变量的显著性检验 F检验、t检验、Z检验三、参数的置信区间,6,多元线性回归模型内容,多元线性回归模型概述多元线性回归模型的参数估计多元线性回归模型的统计检验案例,7,3.1 多元线性回归模型概述(Regression Analysis),一、多元线性回归模型二、多元线性回归模型的基本假设,8,一、多元线性回归模型,9,总体回归模型,（i=1,2,n）,总体回归模型：,k为解释变量的数目；习惯上，把常数项看成为虚变量的系数，该虚变量的样本观测值始终取1。于是，模型中解释变量的数目为（k+1）。；j称为回归参数（regression coeffic

3、ient）。,10,总体回归模型还可以写成：,Y= 0 + 1 1 + 2 2 + +,Y = 0 + 1 1 + 2 2 + + ,总体回归函数：描述在给定解释变量Xi条件下被解释变量Yi的条件均值。,j也被称为偏回归系数(partial regression coefficients)，表示在其他解释变量保持不变的情况下，Xj每变化1个单位时，Y的均值E(Y)的变化。或者说j给出了Xj的单位变化对Y均值的“直接”或“净”（不含其他变量）影响。,总体回归函数,11,总体回归模型的矩阵表示,12,样本回归函数与样本回归模型,从一次抽样中获得的总体回归函数的近似，称为样本回归函数（sample

4、regression function）。样本回归函数的随机形式，称为样本回归模型（sample regression model）。,13,样本回归函数的矩阵表示,14,二、多元线性回归模型的基本假设,15,1、关于模型关系的假设(与一元回归模型基本相同）,假设1. 回归模型设定是正确的。假设2. 解释变量具有变异性假设3. 各自变量之间不存在严格线性相关性（无完全多重共线性）假设4. 随机干扰项具有条件零均值性假设5. 随机干扰项具有条件同方差及不序列相关性假设6. 随机干扰项满足正态分布,16,Y = 0 + 1 1 + 2 2 + + ,3.2 多元线性回归模型的估计,一、普通最小二乘

5、估计二、最大似然估计三、矩估计四、参数估计量的性质五、样本容量问题六、估计实例,17,说明,估计方法：三大类方法：OLS、ML或者MM在经典模型中多应用OLS在非经典模型中多应用ML或者MM,18,一、普通最小二乘估计(OLS),19,1、普通最小二乘估计,最小二乘原理：根据被解释变量的所有观测值与估计值之差的平方和最小的原则求得参数估计量。,20,已知,假定,步骤：,21,22,正规方程组的矩阵形式,条件？,23,OLS估计的矩阵表示,24,2、正规方程组的另一种表达,25,3、随机误差项的方差2的无偏估计,M为等幂矩阵,26,27,二、最大似然估计,28,1、最大似然法,最大似然

6、法(Maximum Likelihood,ML)，也称最大或然法，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。基本原理：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。ML必须已知随机项的分布。,29,2、估计步骤:以一元模型为例,Yi的分布,Yi的概率函数,Y的所有样本观测值的联合概率似然函数,30,对数似然函数,对数似然函数极大化的一阶条件,结构参数的ML估计量,31,分布参数的ML估计量,32,3、似然函数,33,4、ML估计量,由对数似然函数求极大，得到参数估计量,结果与参数的OLS估

7、计相同,34,分布参数估计结果与OLS不同,35,注意：ML估计必须已知Y的分布。只有在正态分布时ML和OLS的结构参数估计结果相同。如果Y不服从正态分布，不能采用OLS。例如：选择性样本模型、计数数据模型等。,36,三、矩估计Moment Method, MM,37,1、参数的矩估计,参数的矩估计就是用样本矩去估计总体矩。用样本的一阶原点矩作为期望的估计量。用样本的二阶中心矩作为方差的估计量。从样本观测值计算样本一阶（原点）矩和二阶（原点）矩，然后去估计总体一阶矩和总体二阶矩，再进一步计算总体参数（期望和方差）的估计量。,38,样本的一阶矩和二阶矩,总体一阶矩和总体二阶矩的估计量,总体参数

8、（期望和方差）的估计量,39,2、多元线性计量经济学模型的矩估计,如果模型的设定是正确，则存在一些为0的条件矩。矩估计的基本思想是利用矩条件估计模型参数。,一组矩条件，等同于OLS估计的正规方程组。,40,四、参数估计量的性质,41,说明,在满足基本假设的情况下，多元线性模型结构参数的普通最小二乘估计、最大或然估计及矩估计具有线性性、无偏性、有效性。同时，随着样本容量增加，参数估计量具有渐近无偏性、渐近有效性、一致性。利用矩阵表达可以很方便地证明,注意证明过程中利用的基本假设。,42,1、无偏性,这里利用了假设: E(X)=0,43,2、有效性（最小方差性）,44,五、样本容量问题,45,1、

9、最小样本容量,所谓“最小样本容量”，即从最小二乘原理和最大或然原理出发，欲得到参数估计量，不管其质量如何，所要求的样本容量的下限。,样本最小容量必须不少于模型中解释变量的数目（包括常数项）,即 n k+1,46,2、满足基本要求的样本容量,从统计检验的角度： n30 时，Z检验才能应用； n-k8时, t分布较为稳定。,一般经验认为: 当n30或者至少n3(k+1)时，才能说满足模型估计的基本要求。,模型的良好性质只有在大样本下才能得到理论上的证明。,47,六、例题,48,地区城镇居民消费模型,被解释变量：地区城镇居民人均消费Y解释变量：地区城镇居民人均可支配收入X1前一年地区城镇居民人均消费

10、X2样本：2006年，31个地区,49,数据,50,变量间关系,51,变量间关系,52,OLS估计,53,OLS估计结果,54,ML估计,55,ML估计结果,56,MM估计,57,MM估计结果,58,3.3 多元线性回归模型的统计检验 Statistical Test of Multiple Linear Regression Model,一、拟合优度检验二、方程的显著性检验(F检验) 三、变量的显著性检验（t检验）四、参数的置信区间,59,一、拟合优度检验 Goodness of Fit,60,2、可决系数与调整的可决系数,总离差平方和的分解,61,可决系数（ Coefficient o

11、f Determination ）,该统计量越接近于1，模型的拟合优度越高。,从R2的表达式中发现，如果在模型中增加解释变量， R2往往增大。,这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。,但是，由增加解释变量引起的R2的增大与拟合好坏无关，所以R2需调整。,62,调整的可决系数（adjusted coefficient of determination）,其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。,调整的可决系数多大才是合适的？,63,二、方程的显著性检验(F检验)Testing the Overall Significance of a Multip

12、le Regression (the F test),64,1、假设检验（Hypothesis Testing）,所谓假设检验，就是事先对总体参数或总体分布形式作出一个假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确，然后根据样本信息，观察由此假设而导致的结果是否合理，从而判断是否接受原假设。判断结果合理与否，是基于“小概率事件不易发生”这一原理的。,65,2、方程显著性的F检验,方程的显著性检验，旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。在多

13、元模型中，即检验模型中的参数j是否显著不为0。,66,F检验的思想来自于总离差平方和的分解式 TSS=ESS+RSS,如果这个比值较大，则X的联合体对Y的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。,67,地区城镇居民消费模型,拒绝0假设，犯错误的概率为0,68,3、关于拟合优度检验与方程显著性检验关系的讨论,69,对于一般的实际问题，在5%的显著性水平下，F统计量的临界值所对应的R2的水平是较低的。所以，不宜过分注重R2值，应注重模型的经济意义；在进行总体显著性检验时，显著性水平应该控制在5%以内。,70,三、变量的显著

14、性检验（t检验） Testing the Significance of Variables (the t test),71,方程的总体线性关系显著不等于每个解释变量对被解释变量的影响都是显著的。必须对每个解释变量进行显著性检验，以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。,72,1、t统计量,以cii表示矩阵(XX)-1 主对角线上的第i个元素,73,2、t检验,设计原假设与备择假设：,H1：i0,给定显著性水平，可得到临界值t/2(n-k-1)，由样本求出统计量t的数值，通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)判断拒绝或不拒绝原假设

15、H0，从而判定对应的解释变量是否应包括在模型中。,H0：i=0 （i=1,2k）,74,地区城镇居民消费模型,75,四、参数的置信区间 Confidence Interval of Parameter,76,1、区间估计,回归分析希望通过样本得到的参数估计量能够代替总体参数。假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围（例如是否为零），但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上“近似”地替代总体参数的真值，需要通过构造一个以样本参数的估计值为中心的“区间”，来考察它以多大的可能性（概率）包含着真实的参数值。这种方法就是

16、参数检验的置信区间估计。,77,如果存在这样一个区间，称之为置信区间； 1-称为置信系数（置信度）（confidence coefficient），称为显著性水平；置信区间的端点称为置信限（confidence limit）。,78,2、参数的置信区间,在(1-)的置信水平下,79,3、如何才能缩小置信区间？,增大样本容量n，因为在同样的样本容量下，n越大，t分布表中的临界值越小，同时，增大样本容量，还可使样本参数估计量的标准差减小。提高模型的拟合优度，因为样本参数估计量的标准差与残差平方和呈正比，模型优度越高，残差平方和应越小。提高样本观测值的分散度,一般情况下，样本观测值越分散，(X

17、X)-1的分母的|XX|的值越大，致使区间缩小。,80,81,GPA=1.392-0.0135hsper+0.00148sat,例题：,n=1500， 2 =0.273, 2 =0.287,Hsper：在高中班上的名次的百分数Sat：学习能力测验中数学与英语的综合成绩,问题1：hsper的系数为负数能讲得通？问题2：评论各变量之间关系,3.4 回归模型的其他函数形式,82,说明,在实际经济活动中，经济变量的关系是复杂的，直接表现为线性关系的情况并不多见。如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线（Pillips cuves）表现为双曲线形式

18、等。但是，大部分非线性关系又可以通过一些简单的数学处理，使之化为数学上的线性关系，从而可以运用线性回归模型的理论方法。,83,一、模型的类型与变换,1、倒数模型、多项式模型与变量的直接置换法,例如，描述税收与税率关系的拉弗曲线：抛物线 s = a + b r + c r2 c0 s：税收； r：税率,设X1 = r，X2 = r2，则原方程变换为 s = a + b X1 + c X2 c0,84,2、幂函数模型、指数函数模型与对数变换法,例如，Cobb-Dauglas生产函数：幂函数 Q = AKLQ：产出量，K：投入的资本；L：投入的劳动,方程两边取对数： ln Q = ln A + l

19、n K + ln L,85,生产函数（production function）是指在一定时期内，在技术水平不变的情况下，生产中所使用的各种生产要素的数量与所能生产的最大产量之间的关系。,86,1、生产从经济学角度来讲，生产含义是十分广泛的，它不仅仅意味着制造了一台机器或生产出一些钢材等，它还包含了各种各样的经济活动。如：律师为他人打官司，商场的经营，医生为病人看病等等。这些活动都涉及到某个人或经济实体提供产品或服务。因此，简单讲，任何创造价值的活动都是生产。2、生产要素在西方经济学中，生产要素一般被划分为劳动、土地、资本和企业家才能这四种类型。1）劳动：指人们在生产过程中提供的体力和脑力的

20、总和。2）土地：不仅指土地本身，还包括地上和地下的一切自然资源，如森林、江河湖泊、海洋和矿藏等。3）资本：资本可以表现为实物形态或货币形态。资本的货币形态又称为货币资本；资本的实物形态又称资本品或投资品，如厂房、机器、原材料等。4）企业家才能：指企业家组织建立和经营管理企业的才能。,87,假定X1、X2Xn顺次表示某产品生产过程中所使用的n种生产要素的投入数量，Q表示所能生产的最大产量。Q= f（L，K，N，E）式中，各变量分别代表产量、投入的劳动、资本、土地、企业家才能。其中N是固定的，E难以估算。在经济学分析中，通常只使用劳动（L）和资本（K）这两种生产要素，所以生产函数可以写成：Q

21、 = f(L，K),88,生产函数分一种可变投入生产函数和多种可变投入生产函数。在微观经济学中，一种可变投入的生产函数通常用来考察短期生产理论，两种（或以上）可变投入的生产函数用来考察长期生产函数。1、一种可变投入生产函数对既定产品，技术条件不变、固定投入(通常是资本）一定、一种可变动投入（通常是劳动) 与可能生产的最大产量间的关系，通常又称作短期生产函数。,89,2、多种可变投入生产函数在考察时间足够长时，可能两种或两种以上的投入都可以变动、甚至所有的投入都可以变动，通常称为长期生产函数。在这里，长短期的划分是以生产者能否变动所有的要素投入量来作为标准的，而不同的产品的生产，长短期

22、的划分是不固定的（纺织厂-1年，豆腐坊-3月）。所以对于长短期的区分，有如下标准：短期是指生产者来不及调整所有生产要素的数量，至少有一种生产要素的数量是固定不变的时间周期。长期是生产者可以调整全部生产要素的数量的时间周期。,90,1、固定替代比例生产函数固定替代比例生产函数是指在每一产量水平上任何两种要素之间的替代比例都是固定的。,91,函数的通常形式是 Q=aL+bK , 其中 Q是产量，L、K分别表示劳动和资本，常数a、b0。,2、固定投入比例生产函数（也被称为里昂剔夫生产函数）固定投入比例生产函数是指在每一个产量水平上任何一对要素投入量之间的比例都是固定的。,92,函数的通常形式

23、为 Q=min cL，dK ，其中Q是产量，L、K分别表示劳动和资本，常数c、d0，分别为劳动和资本的生产技术系数，它们分别表示生产每一单位的产品所需要的固定的劳动投入量和资本投入量。,L,3、柯布-道格拉斯生产函数,20世纪30年代，数学家柯布(C.W.Cobb)和经济学家道格拉斯(Paul H. Douglas)，利用美国1899-1922年的数据资料导出了著名的C-D函数： =1.01 0.25 0.75 从此不断有新的研究成果出现，使生产函数得研究与应用呈现长盛不衰的局面。,93,3、柯布-道格拉斯生产函数柯布道格拉斯生产函数被认为是一种很实用的生产函数，因为该函数以其简单的形式具备

24、了经济学家所关心一些性质，它在经济理论的分析和应用中都具有一定意义。,94,函数的通常形式Y=A 其中A、为三个参数，且 0、1。、分别表示劳动和资本在生产中所占的相对重要性。为劳动所得在总产量中所占的份额，为资本在总产量中所占的份额。,95,增加技术因素之后，可变为：,Y=A(t) 式中Y是工业总产值，At是综合技术水平，L是投入的劳动力数（单位是万人或人），K是投入的资本，一般指固定资产净值（单位是亿元或万元，但必须与劳动力数的单位相对应，如劳动力用万人作单位，固定资产净值就用亿元作单位），是劳动力产出的弹性系数，是资本产出的弹性系数，表示随机干扰的影响，1。,96,从这个模型看出，决

25、定工业系统发展水平的主要因素是投入的劳动力数、固定资产和综合技术水平（包括经营管理水平、劳动力素质、引进先进技术等）。根据和的组合情况，它有三种类型：+1，称为递增报酬型，表明按技术用扩大生产规模来增加产出是有利的。+1，称为递减报酬型，表明按技术用扩大生产规模来增加产出是得不偿失的。+=1，称为不变报酬型，表明生产效率并不会随着生产规模的扩大而提高，只有提高技术水平，才会提高经济效益。,97,Y=A 经对数变换，可用如下双对数线性回归模型进行估计：n Y = 0 A+式中， 0 =lnA,98,案例：表1列出了2010年中国39个制造业的工业总产值（Y）与固定资产净值（K1）、流动资产

26、（K2）以及年均的从业人员（L）。建立2010年中国制造业的生产函数。,99,100,101,根据Stata回归，输出结果如下：,102,资本K的散点图,劳力l的散点图,103,lnY=1.818+0.677（lnK）+0.290（lnL）R2=0.9408回归结果表明，在2010年，lnY变化的94.1%可由资本与劳动投入的变化来解释。在5%的显著水平下，模型的线性关系显著成立。,104,有lnY的参数估计来看，2010年，中国工业总产出关于资本投入的产出弹性为0.677，表明当其他因素保持不变时，工业的资本投入增加1%，总产出将增加0.677%。同样的，当其他因素保持不变时，劳动力投入每增长1%，工业总产出将增加0.29%。,105,可见资本投入的增加对工业总产出的增加起到了更大的作用。与C-D函数中参数的差别？估计的资本投入与劳动投入的产出弹性之和为0.967，接近于1.,106,

展开阅读全文