庞皓3多元线性回归模型ppt课件.ppt

资源描述

《庞皓3多元线性回归模型ppt课件.ppt》由会员分享，可在线阅读，更多相关《庞皓3多元线性回归模型ppt课件.ppt（71页珍藏版）》请在三一办公上搜索。

1、多元线性回归模型,计量经济学,第三章,2,引子:中国已成为世界汽车产销第一大国,2009年，为应对国际金融危机、确保经济平稳较快增长，国家出台了一系列促进汽车消费的政策，有效刺激了汽车消费市场，汽车产销呈高增长态势，首次成为世界汽车产销第一大国。2009年，汽车产销分别为1379.1万辆和1364.5万辆，同比增长48.3%和46.15%。是什么因素导致中国汽车数量的增长? 影响中国汽车行业发展的因素并不是单一的，经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境，都会使中国汽车行业面临机遇和挑战。,3,分析中国汽车行业未来的趋势,应具体分析这样一些问题：中国汽车市场发展的

2、状况如何？（用销售量观测）影响中国汽车销量的主要因素是什么？（如收入、价格、费用、道路状况、能源、政策环境等）各种因素对汽车销量影响的性质怎样？（正、负）各种因素影响汽车销量的具体数量关系是什么？所得到的数量结论是否可靠？中国汽车行业今后的发展前景怎样？应当如何制定汽车的产业政策？很明显，只用一个解释变量已很难分析汽车产业的发展, 还需要寻求有更多个解释变量情况的回归分析方法。,怎样分析多种因素的影响？,4,本章主要讨论: 多元线性回归模型及古典假定多元线性回归模型的估计多元线性回归模型的检验多元线性回归模型的预测,5,第一节多元线性回归模型及古典假定一、多元线性回归模型的意义一

3、般形式：对于有K-1个解释变量的线性回归模型注意：模型中的（j=1,2,-k）是偏回归系数样本容量为n 偏回归系数：控制其它解释量不变的条件下，第j个解释变量的单位变动对被解释变量平均值的影响，即对Y平均值“直接”或“净”的影响。,5,6,多元线性回归中的“线性”指对各个回归系数而言是“线性”的，对变量则可以是线性的，也可以是非线性的例如：生产函数取对数这也是多元线性回归模型，只是这时变量为lnY、lnL、lnK,7,多元总体回归函数条件期望表现形式：将Y的总体条件期望表示为多个解释变量的函数，如:注意：这时Y总体条件期望的轨迹是K维空间的一条线个别值表现形式：引入随机扰动项或表示为

4、,8,多元样本回归函数 Y 的样本条件均值可表示为多个解释变量的函数或回归剩余（残差）：其中,9,二、多元线性回归模型的矩阵表示,多个解释变量的多元线性回归模型的n组样本观测值，可表示为用矩阵表示,9,10,总体回归函数或样本回归函数或其中：都是有n个元素的列向量是有k 个元素的列向量（ k = 解释变量个数 + 1 ）是第一列为1的nk阶解释变量数据矩阵， (截距项可视为解释变量总是取值为1),矩阵表示方式,11,三、多元线性回归中的基本假定,假定1：零均值假定（ i=1，2，-n）或矩阵表示： E（u）=0,12,假定2、无自相关假定假定3、同方差假定也可以合并

5、为：,13,假设（2），（3）说明随机项u的方差协方差矩阵为对角矩阵：,14,三、多元线性回归中的基本假定,假定2和假定3：同方差和无自相关假定：或用方差-协方差矩阵表示为:,（i=j）,(ij),0,15,假定4、解释变量与随机项不相关,16,假定5、各解释变量之间不存在严格的线性关系，即不存在严格的多重共线性。也就是要求，解释变量观测值矩阵X的秩满足:,即X是满秩的。此时矩阵XX也是满秩的，所以行列，保证了可逆。,17,补充假定:正态性假定,17,第二节多元线性回归模型的估计,一、普通最小二乘法（OLS）原则：寻求剩余平方和最小的参数估计式即求偏导，并令其为0 其中即,18,正规

6、方程可以写成：也就是：,最小二乘估计的矩阵表示,对样本回归方程：两边同时左乘X：因为（由正规方程得到）:,根据基本假设: 可逆，方程左乘得到OLS估计量：,21,OLS回归线的数学性质 (与简单线性回归相同),回归线通过样本均值估计值的均值等于实际观测值的均值剩余项的均值为零被解释变量估计值与剩余项不相关解释变量与剩余项不相关（j=1,2,-k）,21,22,二、 OLS估计式的统计性质,1、线性特征是Y的线性函数，因是非随机或取固定值的矩阵 2、无偏特性 (证明见教材P101附录3.1) 3、最小方差特性在所有的线性无偏估计中，OLS估计具有最小方差

7、(证明见教材P101或附录3.2) 结论：高斯-马尔科夫定理：在古典假定下，多元线性回归的 OLS估计式是最佳线性无偏估计式（BLUE）,23,线性性其中,高斯-马尔科夫定理证明（概要）,24,无偏性：证明：,即其中：两边取期望：,25,最小方差性在所有线性无偏估计量中，OLS估计量具有最小方差。为了求方差，需要计算方差协方差矩阵,方差协方差矩阵的计算,26,27,三、 OLS估计的分布性质基本思想：是随机变量，必须确定其分布性质才可能进行区间估计和假设检验是服从正态分布的随机变量，决定了Y也是服从正态分布的随机变量是Y的线性函数，决定了也是服从正态分布的随机变量,28, 的期望 (

8、由无偏性) 的方差和标准误差：可以证明的方差协方差矩阵为（见下页）这里的（其中是矩阵中第 j 行第 j 列的元素）所以（j=1,2,-k）,的期望与方差,29,其中：,(由无偏性),(由同方差性),(由OLS估计式),29,注意是向量,的方差-协方差,30,四、随机扰动项方差的估计,一般未知，可证明多元回归中的无偏估计为：(证明见P103附录3.3) 或表示为将作标准化变换：,30,对比: 一元回归中,31,未知时的标准化变换,因是未知的，可用代替去估计参数的标准误差: 当为大样本时，用估计的参数标准误差对作标准化变换，所得 Z 统计量仍可视为服从正态

9、分布当为小样本时，用估计的参数标准误差对作标准化变换，所得的 t 统计量服从 t 分布：,31,32,五、回归系数的区间估计,由于给定，查t分布表的自由度为 n-k 的临界值或或表示为,32,33,第三节多元线性回归模型的检验,一、多元回归的拟合优度检验多重可决系数：在多元回归模型中，由各个解释变量联合起来解释了的Y的变差，在Y的总变差中占的比重，用表示多元回归中多重可决系数可表示为,33,判定系数的不足可以证明，判定系数是模型中解释变量个数的不减函数，这给对比含有不同解释变量个数的模型的决定系数带来困难。,34,判定系数随着回归变量个数增加的直观说明,在多元回归中，除非新增

10、加的回归变量系数估计值恰好为0，否则只要增加回归变量个数，拟合优度就增大。比如从一元回归模型开始加入第二个回归变量。当使用OLS估计含两个变量的模型时，OLS找到使残差平方和最小的系数取值。如果OLS碰巧选择的新回归系数为0，无论是否加入第二个变量，RSS都相同。但是如果OLS选择的是非零值，则相对于不包含这个回归变量的回归来说，必定降低RSS。,36,修正的可决系数思想：可决系数只涉及变差，没有考虑自由度。如果用自由度去校正所计算的变差，可纠正解释变量个数不同引起的对比困难。回顾: 自由度：统计量的自由度指可自由变化的样本观测值个数，它等于所用样本观测值的个数减去对观测值的约束个数。

11、,37,可决系数的修正方法总变差 TSS 自由度为 n-1 解释了的变差 ESS 自由度为 k-1 剩余平方和 RSS 自由度为 n-k 修正的可决系数为（对增加的解释变量施加了“惩罚”）,与的关系可见：（1）。意味着随着解释变量的个数增加，比增加的慢。（2）总是非负，但是可能为负。（3）可以用于比较解释变量个数不同的模型。但只有被解释变量形式相同时，才具有可比性,39,39,二、回归方程的显著性检验（F检验）,基本思想：在多元回归中包含多个解释变量，它们与被解释变量是否有显著关系呢？当然可以分别检验各个解释变量对被解释变量影响的显著性。但是我们首先关注的是所有解释变量联

12、合起来对被解释变量影响的显著性, 或整个方程总的联合显著性，需要对方程的总显著性在方差分析的基础上进行F检验。,40,40,在讨论可决系数时已经分析了被解释变量总变差TSS的分解及自由度： TSS=ESS+RSS注意: Y的样本方差= 总变差/自由度即显然，Y的样本方差也可分解为两部分，可用方差分析表分解,40,1.方差分析,41,总变差 TSS= 自由度 n1 模型解释了的变差 ESS= 自由度 k1剩余变差 RSS= 自由度 nk,变差来源平方和自由度方差归于回归模型 ESS= k-1归于剩余 RSS= n-k总变差 TSS= n-1基本思想: 如果多个解释变量联合起来对被解

13、释变量的影响不显著, “归于回归的方差“ 比“归于剩余的方差”显著地小应是大概率事件。,方差分析表,42,2. F检验,原假设:（所有解释变量联合起来对被解释变量的影响不显著）备择假设: 不全为0建立统计量(可以证明): 给定显著性水平，查F分布表中自由度为 k-1 和 n-k 的临界值，并通过样本观测值计算F值,42,43,F检验方式,如果计算的F值大于临界值，则拒绝，说明回归模型有显著意义，即所有解释变量联合起来对Y确有显著影响。如果计算的F值小于临界值，则不拒绝，说明回归模型没有显著意义，即所有解释变量联合起来对Y没有显著影响。一般统计软件直接给出F，和对应的P值。,可

14、决系数和F检验的关系,（1）都是对回归方程的整体显著性检验；（2）两者同增同减，具有一致性。,45,三、各回归系数的假设检验,注意: 在一元回归中F检验与t检验等价, 且 (见教材P87证明)但在多元回归中，F检验显著，不一定每个解释变量都对Y有显著影响。还需要分别检验当其他解释变量保持不变时，各个解释变量X对被解释变量Y是否有显著影响。方法：原假设（j=1,2,k）备择假设统计量t为：,46,给定显著性水平，查t分布表的临界值为如果就不拒绝，而拒绝即认为所对应的解释变量对被解释变量Y的影响不显著。如果就拒绝而不拒绝即认为所对应的解释变量对被解释变量Y的影响是

15、显著的。讨论：在多元回归中，可以作F检验，也可以分别对每个回归系数逐个地进行 t 检验。 F 检验与t检验的关系是什么？,对各回归系数假设检验的作法,47,F检验和t检验区别和联系F检验是模型整体显著性的检验。T检验是单个系数的显著性检验F检验通过（H0被拒绝），说明模型整体显著，但不表示每个系数都显著F检验不通过（不能拒绝H0），说明模型整体不显著，每个回归系数都不显著。在一元回归中，F=t2 ，两者实际等价。,48,第四节多元线性回归模型的预测（略）,49,第五节案例分析,研究的目的要求为了研究影响中国税收收入增长的主要原因，分析中央和地方税收收入增长的数量规律，预测中国税收未来的增长趋

16、势，需要建立计量经济模型。研究范围：1978年-2007年全国税收收入理论分析：为了全面反映中国税收增长的全貌，选择包括中央和地方税收的“国家财政收入”中的“各项税收”（简称“税收收入”）作为被解释变量；选择国内生产总值（GDP）作为经济整体增长水平的代表；选择中央和地方“财政支出”作为公共财政需求的代表；选择“商品零售价格指数”作为物价水平的代表。,50,51,52,序列Y、X2、X3、X4的线性图,可以看出Y、X2、X3都是逐年增长的，但增长速率有所变动，而且X4在多数年份呈现出水平波动。说明变量间不一定是线性关系，可探索将模型设定为以下对数模型：注意这里的“商品零售价格指数”,（X4）

17、未取对数。,53,三、估计参数,模型估计的结果为：,(0.6397) (0.1355) (0.1557) (0.0055) t= (-4.4538) (3.0420) (4.2788) (2.0856),F=673.7521 df=30,54,模型检验：,1、经济意义检验：模型估计结果说明，在假定其它变量不变的情况下，当年GDP每增长1%，税收收入会增长0.4123%；当年财政支出每增长1%，平均说来税收收入会增长0.6664%；当年商品零售价格指数上涨一个百分点，平均说来税收收入会增长0.0115%。这与理论分析和经验判断相一致。2、统计检验：拟合优度：，表明样本回归方程较好地拟合了样

18、本观测值。 F检验：对已得到 F =673.7521，给定查表得自由度k-1=3和n-k=26的临界值：，因为 F=673.7521 ，说明模型总体上显著，即“国内生产总值”、“财政支出”、“商品零售价格指数”等变量联合起来确实对“税收收入”有显著影响。,54,t 检验,分别针对，给定显著性水平 ,查t分布表得自由度为n-k=21的临界值。由回归结果已知与、、、对应的t值分别为：-4.4538、3.0420、4.2788、2.0856，其绝对值均大于，这说明在显著性水平下，分别都应当拒绝说明当在其它解释变量不变的情况下，解释变量“国内生产总值” 、“财政支出” 、“商品零

19、售价格指数” 分别对被解释变量“税收收入”Y都有显著的影响。,55,第六节非线性回归模型,一、可线性化的模型二、不可线性化的模型三、如何处理非线性效应,56,一、可线性化模型,经过适当的变量变换或函数变换就可以转化成线性回归模型,57,多项式模型倒数变换模型（双曲函数模型）,58,双对数模型（幂函数模型）半对数模型,59,二、不可线性化模型,无法通过变量变换或函数变换的方式转化为线性模型。将其进行泰勒展开，再用迭代估计方法进行估计。EVEIWS提供的非线性最小二乘方法（NLS）,60,三、如何处理非线性效应,引例：隐含的假设边际效应（比如边际消费倾向）为常数。这在实际中可能并不成立，边际效应

20、可能与X1,或者X2的水平有关。如何建模？,1、多项式建模方法,在模型中出现解释变量的二次项。例如：此时边际消费倾向为：,应该采用几次多项式？,X的阶数越高，越灵活。但是也加入了更多的回归变量，会降低系数估计的精度。要权衡灵活性和统计精确度。不要一味追求高的项数，足够就行。可以通过t检验帮助确定。直到所有阶数的系数都显著为止,（2）对数建模方法,三种对数回归模型,65,66,67,（3）自变量的交互作用,（以两个连续型自变量为例）Y表示收入的对数X1表示工作经验X2表示受教育的年数年资的边际影响：b1+b3*X2教育的边际影响：b2+b3*X1,68,（4）一个综合的例子,Translog模型

21、(C-D生产函数的扩展）,本章小结,1. 多元线性回归模型及其矩阵形式。2. 多元线性回归模型中对随机扰动项u的假定，除了其他基本假定以外，还要求满足无多重共线性假定。3. 多元线性回归模型参数的最小二乘估计量；在基本假定满足的条件下，多元线性回归模型最小二乘估计式是最佳线性无偏估计量。4. 多元线性回归模型中参数区间估计的方法。,69,5. 多重可决系数的意义和计算方法，修正可决系数的作用和方法。6. 对多元线性回归模型中所有解释变量联合显著性的F检验。7. 多元回归分析中，对各个解释变量是否对被解释变量有显著影响的t检验。 8. 非线性回归模型的建立和系数含义,70,71,71,THANKS,第三章结束了！,

展开阅读全文