《高级计量经济学绪论.ppt》由会员分享,可在线阅读,更多相关《高级计量经济学绪论.ppt(79页珍藏版)》请在三一办公上搜索。
1、高级计量经济学,南京财经大学统计系:陈耀辉,联系方式:,手机:宅电:Email:工作室:Z1-317QQ:873392985家庭住址:东方天郡13栋803室,教材:,美威廉格林著,费剑平译,计量经济分析(第五版),中国人民大学出版社,2007年版。William H.Greene,Econometric Analysis(fifth Edition)可参阅:William H.Greene,Econometric Analysis(sixth Edition),课外阅读书目:,1.李子奈编著,计量经济学,高等教育出版社,20052.伍德里奇著:横截面与面板数据的经济计量分析,王忠玉译,中国人民
2、大学出版社,2007年3.迈克尔 P莫瑞著,现代计量经济学(上下册),费剑平译,机械工业出版社,2009年4.张晓峒著,计量经济分析,经济科学出版社,2000年5.美约翰斯顿、迪纳尔多著,唐齐民等译,计量经济学方法(第四版),中国经济出版社,2002年6.英克里斯布鲁克斯著,金融计量经济学导论,邹宏元主译,西南财经大学出版社,2005年7.美科林卡梅隆等著,微观计量经济学方法与应用,机械工业出版社,2008年8.罗素戴维森等著,计量经济理论和方法,沈根祥译,2006年9.高铁梅主编,计量经济分析方法与建模,清华大学出版社,2008年10.张晓峒主编,计量经济学软件Eviews使用指南,南开大学
3、出版社,2004年12月,必读的杂志:,1.经济研究2.统计研究3.数量经济技术经济研究4.管理世界5.Journal of Econometrics6.Journal of Applied Econometrics7.Econometrics Theory8.Journal of Business and Economic Statistics9.Econometrica10.Empirical Economic,相关数据网站:,计量经济学常用软件:,学习要求及达到的目的,学习要求:1.不迟到、不早退、不无故旷课2.课内外学习时间比例至少为133.课内的案例课后一定要自己动手做一遍4.认真完
4、成课后作业达到的目的:1.进入应用计量经济学的殿堂2.充分了解计量经济学理论背景3.熟练应用计量经济学方法解决实际问题,考核方式:,2010级:笔试(闭卷)和课程论文相结合2009级:课程论文,主要内容:,第1讲 绪论第2讲 经典多元线性回归模型(2-9)第3讲 广义回归模型(10-15)第4讲 计量经济模型中的估计理论(16-18)第5讲 应用计量经济学专题(19-22),第1讲 绪论,一、计量经济学二、计量经济建模三、数据与方法论四、回归分析与线性模型设定,一、计量经济学,定义产生与发展模型学科性质应用计量经济学的内容体系,1.计量经济学的含义,弗里希1933年在计量经济学杂志创刊号中写下
5、了一段话:“用数学方法探讨经济学可以从好几个方面着手,但任何一个方面都不能和计量经济学混为一谈。计量经济学与经济统计学绝非一码事;它也不同于我们所说的一般经济理论,尽管经济理论大部分具有一定的数量特征;计量经济学也不应视为数学应用于经济学一同义语。经验表明,要真正理解现代经济生活中的数量关系,统计学、经济理论和数学这三者都是必需的,但没有哪一个方面是足够的。三者结合起来才是有力的,这种结合便构成了计量经济学”。,萨缪尔森、科普曼斯、斯通:“计量经济学可定义为:根据理论和观测的事实,运用合适的推理方法,对实际经济现象进行的数量分析。”本课程:计量经济学就是在经济理论的指导下,根据实际观测的统计数
6、据(或以客观事实为依据),运用数学和统计学的方法,借助于计算机技术从事经济关系与经济活动数量规律的研究,并以建立和应用计量经济模型为核心的一门经济学科。,计量经济学的发展可分为三个时期:(1)20世纪20-40年代(2)20世纪50-70年代(3)20世纪80年代至今,计量经济学,经典计量,初级,中级,高级,微观计量,非参数/半参数,时间序列,Paneldata,二、计量经济建模(步骤),一、理论模型的设计二、样本数据的收集三、模型参数的估计四、模型的检验,建模流程,理论模型的设计,对所要研究的经济现象进行深入的分析,根据研究的目的,选择模型中将包含的因素,根据数据的可得性选择适当的变量来表征
7、这些因素,并根据经济行为理论和样本数据显示出的变量间的关系,设定描述这些变量之间关系的数学表达式,即理论模型。,下页,设计理论模型的步骤,理论模型的设计主要包含三部分工作选择变量确定变量之间的数学关系拟定模型中待估计参数的数值范围,确定模型所包含的变量,在单方程模型中,变量分为两类。作为研究对象的变量,也就是因果关系中的“果”,例如生产函数中的产出量,是模型中的被解释变量;而作为“原因”的变量,例如生产函数中的资本、劳动、技术,是模型中的解释变量。确定模型所包含的变量,主要是指确定解释变量。可以作为解释变量的有下列几类变量:外生经济变量、外生条件变量、外生政策变量和滞后被解释变量。其中有些变量
8、,如政策变量、条件变量经常以虚变量的形式出现。,下页,确定了被解释变量后,怎样正确地选择解释变量?,选择的依据有三点:1.需要正确理解和把握所研究的经济现象中暗含的经济学理论和经济行为规律,这是正确选择解释变量的基础.2.选择变量要考虑数据的可得性.3.选择变量时要考虑所有入选变量之间的关系,使得每一个解释变量都是独立的.注意:在选择变量时要特别注意不要选择与被解释变量无关系、不重要的变量以及不独立的变量。,确定模型的数学形式,选择了适当的变量,接下来就要选择适当的数学形式描述这些变量之间的关系,即建立理论模型。(1)借鉴前人的研究成果(2)用散点图判断(3)用多个模型模拟,再进行比较选择,拟
9、定理论模型中待估参数的理论期望值,理论模型中的待估参数一般都具有特定的经济含义,它们的数值,要待模型估计、检验后,即经济数学模型完成后才能确定,但对于它们的数值范围,即理论期望值,可以根据它们的经济含义在开始时拟定。这一理论期望值可以用来检验模型的估计结果。拟定理论模型中待估参数的理论期望值,关键在于理解待估参数的经济含义。,样本数据的收集,样本数据的收集与整理,是建立计量经济学模型过程中最为费时费力的工作,也是对模型质量影响极大的一项工作。从工作程序上讲,它是在理论模型建立之后进行,但实际上经常是同时进行的,因为能否收集到合适的样本观测值是决定变量取舍的主要因素之一。,下页,常用样本数据,常
10、用的样本数据有四类:(1)时间序列数据(2)截面数据(3)虚变量数据(4)面板数据,下页,常用样本数据的质量,样本数据的质量问题大体上可以概括为完整性、准确性、可比性和一致性四个方面。,时间序列数据,时间序列数据是一批按照时间先后排列的统计数据,一般由统计部门提供,在建立计量经济学模型时应充分加以利用,以减少收集数据的工作量。在利用时间序列数据作样本时,要注意以下几个问题。一是所选择的样本区间内经济行为的一致性问题。二是样本数据在不同样本点之间的可比性问题。三是样本观测值过于集中的问题。四是模型随机误差项的序列相关问题。,截面数据,截面数据是一批发生在同一时间截面上的调查数据。例如,工业普查数
11、据、人口普查数据、家计调查数据等,主要由统计部门提供。用截面数据作为计量经济学模型的样本数据,应注意以下几个问题。一是样本与总体的一致性问题。二是模型随机误差项的异方差问题。,虚变量数据,虚变量数据也称为二进制数据,一般取0或1。虚变量经常被用在计量经济学模型中,以表征政策、条件等因素。,面板数据,完整性,完整性,即模型中包含的所有变量都必须得到相同容量的样本观测值。这既是模型参数估计的需要,也是经济现象本身应该具有的特征。但是,在实际中,“遗失数据”的现象是经常发生的。,准确性,准确性,有两方面含义,一是所得到的数据必须准确反映它所描述的经济因素的状态,即统计数据或调查数据本身是准确的;二是
12、它必须是模型研究中所准确需要的,即满足模型对变量口径的要求。,可比性,可比性,也就是通常所说的数据口径问题,在计量经济学模型研究中可以说无处不在。而人们容易得到的经济统计数据,一般可比性较差,其原因在于统计范围口径的变化和价格口径的变化,必须进行处理后才能用于模型参数的估计。,一致性,一致性,即总体与样本的一致性。违反一致性的情况经常会发生,例如,用企业的数据作为行业生产函数模型的样本数据,用人均收入与消费的数据作为总量消费函数模型的样本数据,用31个省份的数据作为全国总量模型的样本数据,等等。,模型参数的估计,模型参数的估计方法,是计量经济学的核心内容。在建立了理论模型并收集整理了符合模型要
13、求的样本数据之后,就可以选择适当的方法估计模型,得到模型参数的估计量。模型参数的估计是一个纯技术的过程,包括对模型进行识别(对联立方程模型而言)、估计方法的选择、软件的应用等内容。,模型的检验,一般讲,计量经济学模型必须通过四级检验:(1)经济意义检验(2)统计学检验(3)计量经济学检验(4)预测检验,经济意义检验,经济意义检验主要检验模型参数估计量在经济意义上的合理性。主要方法是将模型参数的估计量与预先拟定的理论期望值进行比较,包括参数估计量的符号、大小、相互之间的关系,以判断其合理性。,统计检验,统计检验是由统计理论决定的,目的在于检验模型的统计学性质。通常最广泛应用的统计检验准则有拟合优
14、度检验、变量和方程的显著性检验等。,计量经济学检验,计量经济学检验是由计量经济学理论决定的,目的在于检验模型的计量经济学性质。通常最主要的检验准则有随机误差项的序列相关检验和异方差性检验,解释变量的多重共线性检验等。,模型预测检验,预测检验主要检验模型参数估计量的稳定性以及相对样本容量变化时的灵敏度,确定所建立的模型是否可以用于样本观测值以外的范围,即所谓的模型超样本特性。,下页,模型预测检验,预测检验主要检验模型参数估计量的稳定性以及相对样本容量变化时的灵敏度,确定所建立的模型是否可以用于样本观察值以外的范围即模型的超样本特性。具体检验方法为:(1)利用扩大了的样本重新估计模型参数,将新的估
15、计值与原来的估计值进行比较,并检验二者之间差距的显著性;(2)将所建立的模型用于样本以外某一时期的实际预测,并将该预测值与实际观测值进行比较,并检验二者之间差距的显著性。,上页,流程图,设计理论模型,收集统计资料,模型的参数估计,建立具体模型,模型检验,是否合符标准?,征求决策者意见,是否可用于决策?,应用,预测未来,评价政策,结构分析,修改整理模型,修改模型,理论模型与数据收集阶段,参数估计与模拟阶段,政策分析与模型应用阶段,理论研究或经验总结,三、数据与方法论,四、回归分析与线性模型设定,回归分析:问题的引入回归分析线性回归模型附:渐进分布理论简介,1.总体均值与样本均值 How to f
16、ind the relationship between X and Y?理论上应寻找总体回归函数(PRF),即在给定X时,Y的条件均值的函数:Y|x=E(Y|X)=F(X),(一)回归分析:问题的引入,回归分析(Regression Analysis):一种最常用的统计分析工具,用来分析一个变量关于其他变量的依赖关系。X 与 Y间的回归关系可用来研究X对Y的影响,或用X来预测Y。,但我们往往只能得到样本数据。因此自然想到用样本均值来估计总体均值,并寻找样本回归函数(SRF):mY|x=f(X),PRF,SRF,X,Y,We hope the SRF is a good estimate of
17、 the PRF.,Table 2.1 Joint frequency distribution of X=income and Y=saving rate,A simple illustration:how to find the sample mean,表 2.1 是1960年美国1027个家庭关于收入X(1000$)与储蓄率Y(%)的联合频率分布.p(xi,yj)=the proportion of the 1027 families who reported the combination(X=xi and Y=yj).,The conditional mean of Y given
18、X=xi is,mY|X,Conditional mean function of Y on X,Fig 2.1,同样地,如果可获得总体数据,就可得到给出X值时Y的总体条件均值(population conditional means),(xi,yj)=joint frequencies of the population(xi)=j(xi,yj)=marginal frequencies of X(yj|xi)=(xi,yj)/(xi)=conditional frequencies of Y given XX=i xi(xi)=population mean of XY|X=j yi(yj
19、|xi)=population conditional mean of Y given X,Y|x=E(Y|X)=F(X),mY|x=f(X),Question:how to get f(x)?,如果经济理论表明:Y|X=+X 但表2.1显示 mY|X 并非一条直线-我们是保持 mY|X 的原样呢?还是对样本的 mY|X通过一条直线来平滑:m*Y|X=a+bX,-如果用平滑线,如何寻找该直线?-用平滑线m*Y|X估计总体均值,要比用样本均值mY|X估计的效果更好吗?,如果经济理论表明:Y|X=X-如何寻找该曲线(curve)?平滑的样本曲线 m*Y|X 仍能告知有关 Y|X的相关信息吗?,2.
20、条件分布,假设(X,Y)的联合概率密度函数(joint probability density function,pdf)为 f(x,y),则 X的边际密度函数(marginal pdf):fX(x)=f(x,y)dy Y在 X=x 的条件密度函数(conditional pdf):fY|X(y|x)=f(x,y)/fX(x),条件 pdf fY|X(y|x)完全描述了Y 对 X的依赖关系。,已知条件pdf,可计算:,条件期望(The conditional mean),条件方差(The conditional variance),条件偏度(The conditional skewness),
21、条件峰度(The conditional kurtosis),(二)回归分析,What statistical properties does E(Y|X)possess?,1.回归函数及其性质,定义 Regression Function:称条件期望 E(Y|X)为总体Y关于 X 的回归函数(regression function)。,Lemma Law of iterated expectation:EE(Y|X)=E(Y),例:设 Y=工资,X=1(女性)and X=0(男性),则 E(Y|X=1)=女性员工平均工资 E(Y|X=0)=男性员工平均工资,EE(Y|X)=P(X=1)E(Y
22、|X=1)+P(X=0)E(Y|X=0)=全体平均工资=E(Y),一般地:记Z=h(X,Y),则 E(Z)=EXE(Z|X),Question:Why is E(Y|X)important from a statistical Perspective?,假设我们希望使用X的函数g(X)来预测Y,且使用均方误(Mean Square Error,MSE)准则来评估 g(X)逼近Y的程度。则均方误准则(MSE criterion)下的最优预测就是条件期望E(Y|X)。,定义 MSE:The mean square error of function g(X)used to predict Y is
23、 defined as MSE(g)=EY-g(X)2,记 g0(X)=E(Y|X)则 MSE(g)=EY-g(X)2=EY-g0(X)+g0(X)-g(X)2=EY-g0(X)2+Eg0(X)-g(X)2+2EY-g0(X)g0(X)-g(X)=EY-g0(X)2+Eg0(X)-g(X)2=方差+偏误2 方差测度了Y对其期望的真实误差(true error)。偏误20,且 g(X)=g0(X)时等号成立.因此,选择 g(X)=E(Y|X)可使 MSE(g)达到极小。,证明:使用方差与偏误平方分解技术,问题:Why EY-g0(X)g0(X)-g(X)=0?,Theorem Regressio
24、n Identity:给定 E(Y|X),总有如下等价式:Y=E(Y|X)+=Y-E(Y|X)这里 称为回归扰动项(regression disturbance)且满足 E(|X)=0,证明:定义=Y-E(Y|X),则 E(|X)=EY-E(Y|X)|X=E(Y|X)E(Y|X)=0,2.回归函数的等价形式,注意:,(a)回归函数 E(Y|X)可用来通过X的信息预测Y的均值;(b)E(|X)=0 意味着回归误差 不包含X的任何可用来预测Y的信息。换言之,所有可用来预测Y期望值的信息都完全包含在 E(Y|X)之中。条件 E(|X)=0 对模型参数经济含义的解释至关重要(crucial)。,(c)
25、E(|X)=0 意味着 E()=EE(|X)=0 且 E(X)=EE(X|X)=EXE(|X)=EX0=0,(三)线性回归模型,但总起来看,回归函数 E(Y|X)的函数形式未知。,Question:How to model E(Y|X)?,1.建立条件期望 E(Y|X)的模型,在经典计量经济学中:By restricting the class of functions F,we solve the MSE-minimization problem,一般地,当用线性函数(linear functions)来近似 g0(X):E(Y|X)=0+1X1+kXk时,也称该式为非随机线性回归模型。其等
26、价的随机线性回归模型为 Y=0+1X1+kXk+,同样地,当用非线性函数来近似 g0(X)=E(Y|X):E(Y|X)=h(Y,X,)时,可以用类似的方法来得到E(Y|X)的非线性回归函数。,因此,可通过求解如下最小化问题:min EY-(0+1X1+kXk)2得到回归函数E(Y|X)的线性函数式。,由于总体的数据往往无法得到,一般是在一个有限容量下的样本来估计线性回归函数。,2.抽样数据下的样本线性回归模型,样本回归函数与总体回归函数图,渐进分布理论简介,一、引论 高级计量经济学大都依赖于渐近分布理论。本节介绍相关的知识。根据抽样分布理论,简单随机抽样的样本分布依赖于总体及样本容量的大小:,
27、附:,另一方面,对标准化样本均值(standardized sample mean),称样本均值的分布在点退化(n)。,有(对任意n):E(Z)=0,Var(Z)=1,二、三种类型的收敛:,记Xn为一随机变量序列:cumulative distribution function(cdf):Fn(x)=P(Xnx),expectation:E(Xn),Variances:Var(Xn),lim P(|Xn-c|)=0 对所有0,Convergence in Mean Square.如果存在常数c,使得 lim E(Xn-c)2=0,则称Xn依均方收敛于c。,推论1:对随机变量Xn,如果 limE
28、(Xn)=c,limVar(Xn)=0则Xn依均方收敛于c.,证:E(Xn-c)2=E(Xn-E(Xn)+E(Xn)-c2=EXn-E(Xn)2+EE(Xn)-c2+2E(Xn-E(Xn)(E(Xn)-c)=Var(Xn)+E(Xn)-c2+2(E(Xn)-c)EXn-E(Xn)=Var(Xn)+E(Xn)-c2 取极限:limE(Xn-c)2=0+0=0,证;记An=|Xn-c|,其中0。由Chebyshev 不等式有:0P(An)E(Xn-c)2/2取极限:0 limP(An)0即有:lim P|Xn-c|=0,推论2:如果Xn依均方收敛于c,则必依概率收敛于c。,注意:依概率收敛是依分布
29、收敛的特例,这时极限分布退化为一个点。,三、样本均值的渐近性,Law of Large Numbers(LLN):In random sampling from any population with E(X)=,Var(X)=2,the Sample mean convergences in probability to the population mean:Plim(1/n)Xi=E(X)=,1、大数定理,在更弱化的条件下,LLN仍可以使用。主要的弱化:针对Xi的简单随机抽样这一条件(独立同分布性(independent identically distribution,iid)。同分布
30、性(identically distributed)可以弱化;但独立性(independent)不能太弱化。,Weak Law of Large Number(WLLN):,该极限要存在,Plim(1/n)Xi=E(X)是这里的一个特例,注意:概率统计中心极限定理应用题-保险公司多年统计表明,在索赔户中,被盗赔户占20%。X为随机抽查700索赔户中因被盗向保险公司索赔的户数(1)写出X的分布(2)利用中心极限定理求被盗索赔户不少于14户不多于30户的概率近似值 提问者:tony0510-最佳答案1)p=0.2 X服从二项分布B(n,p)=(700,0.2)2)E=np=140,Var=np(1
31、-p)=112 中心极限定理(X-np)/根号(np(1-p)逼近 N(0,1)P(14X30)=P(X30)-P(X14)=用上面的式子代入查表可得,式子太麻烦这里很难写,方法有了应该会做了吧 样本均值的极限分布(limit distribution)退化于处,而渐近分布(asymptotic distribution)则是N(,2/n)。显然,后者提供了更有用的信息。,2、中心极限定理,在更弱化的条件下,CLT仍可以使用。主要的弱化:针对Xi的简单随机抽样这一条件(独立同分布性(independent identically distribution,iid)。同分布性(identical
32、ly distributed)可以弱化;但独立性(independent)不能太弱化,否则CLT不成立。,如,同分布性弱化(允许方差不同):,该极限要存在,CLT的一个更一般的陈述为:,有时需要讨论多元中心极限定理(multivariate version of CLTs),也可仿照前面,写出多元CLT更一般的陈述。,3、样本矩函数的渐进性,一般地:对随机变量序列Tn,Vn,Wn,有如下引理:,S1,S2表明:连续函数的概率极限是概率极限的函数(函数符号与极限符号可交换位置)。S3,S4表明:当一个随机变量具有概率极限,另一变量具有极限分布,则该两变量的和或积的分布可视为前者的概率极限(常数)与后者的极限分布的和或积。,