计量经济学-简单线性回归.ppt

资源描述

《计量经济学-简单线性回归.ppt》由会员分享，可在线阅读，更多相关《计量经济学-简单线性回归.ppt（60页珍藏版）》请在三一办公上搜索。

1、计量经济学,Telephone:186-4166-2376,适用专业：会计学（学术硕士）,第一章：简单线性回归,2,从2004中国国际旅游交易会上获悉，到2020年，中国旅游业总收入将超过3000亿美元，相当于国内生产总值的8%至11%。（资料来源：国际金融报2004年11月25日第二版）是什么决定性的因素能使中国旅游业总收入到2020年达到3000亿美元？旅游业的发展与这种决定性因素的数量关系究竟是什么？怎样具体测定旅游业发展与这种决定性因素的数量关系?,引子:中国旅游业总收入将超过3000亿美元吗？,第一节：回归分析与回归方程,3,本节基本内容:回归与相关总体回归函数随机扰动项样本回

2、归函数,第一节：回归分析与回归方程,4,一、回归与相关1.经济变量间的相互关系熟知的关系：确定性的函数关系现实的关系：不确定性的统计关系相关关系(为随机变量)没有关系,第一节：回归分析与回归方程,5,函数关系：对于任意X，有唯一的Y与其对应。确定函数的方法：描点、连线待定系数法 Y=Kx+b（线性关系两点足矣）,相关关系：某一个X对应的Y不唯一，不确定。由于大体上具有关系Y=Kx+b 因此该关系用Y=Kx+b+问题：如何确定K和b呢，因为任意两点确定的Y=Kx+b可能都不一样。,6,相关关系的类型从涉及的变量数量看简单相关；多重相关（复相关）从变量相关关系的表现形式看线性相关；非线

3、性相关从变量相关关系变化的方向看正相关；负相关；不相关总体线性相关系数：样本相关系数,7,一、回归与相关2.回归分析,Y的条件分布当解释变量（自变量）X取某固定值时（条件），Y的值不确定，Y的不同取值形成一定的分布，即Y的条件分布。Y的条件期望对于X的每一个取值，对Y所形成的分布确定其期望或均值，称为Y的条件期望或条件均值,8,回归线:此时对于每一个X的取值，将有某一Y的条件期望与之对应。将轨迹连接所形成的直线或曲线，称为回归线。这样，就将相关关系转换为我们以前的函数关系。,9,回归线:此时对于每一个X的取值，将有某一Y的条件期望与之对应。将轨迹连接所形成的直线或曲线，称

4、为回归线。这样，就将相关关系转换为我们以前的函数关系。,10,回归函数：应变量Y 的条件期望随解释变量X 的变化而有规律的变化，如果把Y的条件期望表现为X的某种函数这个函数称为回归函数。回归函数分为：总体回归函数和样本回归函数,举例：假如已知100个家庭构成的总体。,11,例:100个家庭构成的总体(单位:元),相关关系的一对多，转变为函数关系的一对一。,二、总体回归函数,1.总体回归函数的概念前提：假如已知所研究的经济现象的总体应变量Y和解释变量X的每个观测值,可以计算出总体应变量Y的条件均值，并将其表现为解释变量 X的某种函数这个函数称为总体回归函数（PRF）,2.总体回归函数

5、的表现形式,（1）条件均值表现形式假如Y的条件均值是解释变量X的线性函数，可表示为：（2）个别值表现形式对于一定的X，Y的各个别值Yi分布在的周围，若令各个Yi与条件均值的偏差为ui,显然ui是随机变量,则有进而,14,三、随机扰动项概念:各个Yi值与条件均值的偏差ui代表排除在模型以外的所有因素（简单回归，就是指X以外的所有因素）对Y的影响。性质：ui是期望为0有一定分布的随机变量。重要性：随机扰动项的性质决定着计量经济方法的选择。引入随机扰动项的原因：（1）未知影响因素的代表；（2）无法取得数据的已知影响因素的代表；（3）众多细小影响因素的综合代表；（4）模型的设定误差；（4

6、）变量的观测误差；（5）变量内在随机性.,15,四、样本回归函数,1样本回归线：对于X的一定值，取得Y的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹称为样本回归线。2样本回归函数：如果把应变量Y的样本条件均值表示为解释变量X 的某种函数，这个函数称为样本回归函数（SRF）。注意：由于每次抽样都能获得一个样本，就可以拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有许多条（SRF不唯一）,16,SRF2,总体回归,样本回归1,样本回归,均值表现：样本回归函数如果为线性函数，可表示为其中：是与相对应的的样本条件均值和分别是样本回归函数的参数个值表现：应变量的实际观测

7、值不完全等于样本条件均值，二者之差用表示,称为剩余项或残差项：因此可表示为：,17,3样本回归函数的表现形式,18,4对样本回归的理解,如果能够获得和的数值，显然:和是对总体回归函数参数和的估计是对总体条件期望的估计在概念上类似总体回归函数中的，可视为对的估计。,19,样本回归函数与总体回归函数的关系,SRF PRF A,用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差，SRF 总会过高或过低估计PRF。要解决的问题：寻求一种规则和方法，使得到的SRF的参数和尽可能“接近”总体回归函数中的参数和。这样的“规则和方法”有多种，最常用的是

8、最小二乘法,20,5回归分析的目的,21,第二节：简单线性回归模型的估计,本节基本内容:简单线性回归的基本假定普通最小二乘法参数估计式的统计性质,22,一、简单线性回归基本假定（1）对模型和变量的假定如；假定解释变量X是非随机的，或者虽然是随机的，但与扰动项ui是不相关的；假定解释变量在重复抽样中为固定值；假定变量和模型无设定误差。（2）对随机扰动项ui的假定（高斯假定）假定1：零均值假定在给定X的条件下，ui的条件期望为零。,23,假定2：同方差假定在给定X的条件下，ui的条件方差为某个常数假定3：无自相关假定随机扰动项ui的逐次值互不相关假定4：随机扰动ui与解释变量X 不相关

9、假定5：对随机扰动项分布的正态性假定,24,二、普通最小二乘回归,OLS的基本思想不同的估计方法可得到不同的样本回归参数和，所估计的也不同。理想的估计方法应使与的差即剩余越小越好因可正可负，所以可以取最小，即,现实中，由于样本量很小，对于每一个具体的X，对应的Yi往往只有一个值，无法取样本均值，即便有的X对应多个Yi，由于样本量的关系，这些不同X对应的也并非刚好在一条线上。因此我们只能找一条近似的直线，使得最小。,25,用克莱姆法则求解得观测值形式的OLS估计式：其中,取偏导数为0，得正规方程,2.无偏特性:3.最小方差特性：在所有的线性无偏估计中，OLS估计具有最小方差

10、结论：在古典假定条件下,OLS估计式是最佳线性无偏估计式（BLUE）,26,1.线性特征：是的线性函数,三、OLS估计式的统计性质：高斯定理,27,三、OLS估计式的统计性质：高斯定理,无偏性,有效性,28,第三节拟合优度的度量,本节基本内容:什么是拟合优度总变差的分解可决系数,概念：样本回归线是对样本数据的一种拟合，不同估计方法可拟合出不同的回归线，拟合的回归线与样本观测值总有偏离。样本回归线对样本观测数据拟合的优劣程度拟合优度拟合优度的度量建立在对总变差分解的基础上,29,一、什么是拟合优度?,30,二、总变差的分解,分析Y 的观测值、估计值与平均值的关系将上式两边平方加总，可

11、证得（TSS）（ESS）（RSS）,总变差（TSS）：应变量Y的观测值与其平均值的离差平方和（总平方和）解释了的变差（ESS）：应变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和RSS）：应变量观测值与估计值之差的平方和（未解释的平方和）,31,变差分解的图示,32,三、可决系数,以TSS同除总变差等式两边：或定义：回归平方和（解释了的变差ESS）在总变差（TSS）中所占的比重称为可决系数，用表示:或,作用：可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。特点：可决系数取值范围：随抽样波动，

12、样本可决系数是随抽样而变动的随机变量可决系数是非负的统计,33,可决系数的作用和特点,可决系数只是说明列入模型的所有解释变量对因变量的联合的影响程度，不说明模型中每个解释变量的影响程度（在多元中）.回归的主要目的如果是经济结构分析，不能只追求高的可决系数，而是要得到总体回归系数可信的估计量，可决系数高并不表示每个回归系数都可信任.如果建模的目的只是为了预测因变量值，不是为了正确估计回归系数，一般可考虑有较高的可决系数.,34,运用可决系数时应注意,35,第四节回归系数的区间估计和假设检验,本节基本内容：OLS估计的分布性质回归系数的区间估计回归系数的假设检验,36,一、

13、OLS估计的分布性质,是服从正态分布的随机变量,决定了也是服从正态分布的随机变量，是的线性函数，决定了也是服从正态分布的随机变量。,期望：,方差：,标准差：,无偏估计：,37,根据本科知识（概率论）,在已知时,在未知时,38,二、回归系数的区间估计,一般情况下，未知，以为例，下式成立根据t分布的特点因此：同理：,39,二、回归系数的区间估计,再看：,说明如下问题：我们的初心是“探寻”总体回归函数的和，上式告诉我们，有1-的可能性在向左右扩展（方圆）的区间中，同理。这说明和就在和附近的方圆范围内。,40,三、回归系数的假设检验（非零检验）,计量经济学研究的目的：经济变量

14、X是否对Y具有线性影响？即Y=1+2X+u是否成立？如果总体回归方程中的k=0，特别是2=0，说明X对Y没有影响，否则X对Y有影响。但是我们永远无法得知k，我们只能获得，得知k在的方圆范围内，但这一范围内有个数很特殊，就是0，那么k不会是0吧，这很关键。关于k是否是0的判断，就需要假设检验。,以为例，前面已知：假定（统计学叫原假设H0：），则有如果，则符合常理，即H0:很有可能如果，为小概率事件，即H0:不太可能,如前，一方面取决于，一方面需要查表。在计量分析软件中，常用伴随概率P来判断的大小，因此软件会自动计算出P。那么什么是P，如何利用P呢？P指的是t分布的统计量大于的概率如

15、果P很小，小于设定的，说明很大，必然在t分布边远的两侧，即，可能性太小，拒绝。,42,用 P 值判断参数的显著性,43,本节主要内容：回归分析结果的报告被解释变量平均值预测被解释变量个别值预测,第五节回归模型预测,经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用了以下规范化的方式：例如：回归结果为,44,一、回归分析结果的报告,45,二、被解释变量平均值预测,计量经济预测是一种条件预测：条件：模型设定的关系式不变；所估计的参数不变。解释变量在预测期的取值已作出预测。对应变量的预测分为对平均值预测和对个别值预测对应变量的预测又分为点预测

16、和区间预测我们首先学习对被解释变量平均值的预测，即对给定Xf下，对应的所有的Y的均值E（Y|Xf）的预测。对E（Y|Xf）的预测分为点预测和区间预测，显然点预测就是把Xf代入所求的回归线。进而：,红点是几呢？,46,二、被解释变量平均值预测,由于存在抽样波动，预测的平均值不一定等于真实平均值，那么我们苦苦想知道的大致在哪个范围内呢？这就涉及到区间预测（类似前面的区间估计）。根据最小二乘法：,在未知时,服从正态分布,47,二、被解释变量平均值预测,根据t分布的特点因此有即我们想知道的，将以1-的可能性出现在区间L,R之中。即出现在以为中心，半径为的方圆范围内。,48,三、被解释变量个

17、值预测,对X=Xf的前提下，对某一个Yf 的预测同样分为点预测和区间预测。规定：点预测同样用如下方式计算那么，区间估计呢？由于某个具体的Yf 是随机变量，点估计的也是随机变量，令，根据最小二乘法性质，也是正态分布的随机变量。可证明：,某个黄点是几呢？,49,三、被解释变量个值预测,由此可知：根据t分布性质：进而可见，某个同样落在以为核心的方圆范围内，此时的方圆半径为。,50,被解释变量均值预测与个值预测比较,（1）两者的点估计是相同的。（2）两者的区间估计都是在以为中心，某个半径范围内；但是两者的区间半径不同。总体均值是个确定的值（固定的靶子），因此它与（枪眼）的差异，只由决定，即只

18、受抽样波动（枪的好坏）影响；个值是个随机的值（流动的靶子），因此他与的差异，由自身的随机性和的抽样波动共同影响。因此对均值预测要比对个值预测更精确（更好瞄准）,被解释变量均值预测与个值预测比较,52,第六节案例分析,提出问题：改革开放以来随着中国经济的快速发展，居民的消费水平也不断增长。但全国各地区经济发展速度不同，居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。研究范围：全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。,53,理论分析：影响各地区城市居民人均消费支出

19、的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入。从理论上说可支配收入越高，居民消费越多，但边际消费倾向大于0，小于1。建立模型：其中：Y城市居民家庭平均每人每年消费支出(元)X城市居民人均年可支配收入(元),54,数据：从2002年中国统计年鉴中得到,55,估计参数,具体操作：使用EViews 软件包。估计结果：,假定模型中随机扰动满足基本假定，可用OLS法。,56,模型检验1拟合优度检验：，说明X对Y的解释占了近94%2参数显著性检验：2对应的伴随概率P=0.000，说明2显著不为0；1对应的伴随概率P=0.334，说明1不具有显著性。3经济意义检验：解释变量的系数为0.758511，说明城镇居民人均可支配收入每增加1元，人均年消费支出平均将增加0.758511元。这符合经济理论对边际消费倾向的界定。,57,点预测：西部地区的城市居民人均年可支配收入第一步争取达到1000美元(按现有汇率即人民币8270元)，代入估计的模型得第二步再争取达到1500美元(即人民币12405元)，利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平,58,区间预测,59,即是说：,平均值置信度95%的预测区间为（6393.03，6717.23）元。,平均值置信度95%的预测区间为（9292.33，10090.83）元。,第一章结束,60,

展开阅读全文