面板数据相关资料.docx

上传人:小飞机 文档编号:1676721 上传时间:2022-12-13 格式:DOCX 页数:31 大小:728.01KB
返回 下载 相关 举报
面板数据相关资料.docx_第1页
第1页 / 共31页
面板数据相关资料.docx_第2页
第2页 / 共31页
面板数据相关资料.docx_第3页
第3页 / 共31页
面板数据相关资料.docx_第4页
第4页 / 共31页
面板数据相关资料.docx_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《面板数据相关资料.docx》由会员分享,可在线阅读,更多相关《面板数据相关资料.docx(31页珍藏版)》请在三一办公上搜索。

1、面板数据I变截距模型1.1 Pooled Cross Section 数据Pooled cross section数据是指不同时点(可能)不同截面的数据。而面板数据是指不同时点相同截面的数据。在面板数据中,同一截面不同时点的观测值不会是独立的。因为,这些数值可能受到共同因素的影响。Panel data也叫做longitudinal data。混合数据增加了样本容量,因此提高了估计的精度和检验功效。同时,混合数据也被用于考察变量分布随着时间的变化,或者变量之间的关系随着时间的变化规律。考察的方法是加入时间虚拟变量。例:National Opinion Research Centers Gener

2、al Social Survey搜集了19721984年妇女就业、家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括:教育程度、年龄、种族、地区、生活环境(农村、城镇、小城市等)。(数据文件:fertil1.raw)kids = b0 + b1 educ + b2 age + b3 age2+ b4 race + b5 farm+ b6 town + b7 D74 + b8 D76 + b9 D78 + b10 D80 + b11 D82 +b12 D84 + ut 例:接受教育程度对工资的影响以及工资的性别差异 (File:cps.wfl;data file: cps78_85

3、.raw)模型设定:log(wage) = b0 + b1 y85 + b2 educ + b3 y85educ + b4 exper + b5 union + b6 female+ b7 y85 female + ut 模型估计:结论分析:例:废物焚化厂对周边房屋价格的影响 (File:kielmc.wfl;data file: kielmc.raw)Kiel and McClain (1995)研究了废物焚化厂对周边(North Andover, Massachusetts)房屋价格的影响。1978年有消息流传要在North Andover建立废物焚化厂,1981年正式动工(1985年正式

4、运营)。利用1978年、1981年的房屋价格数据检验:废物焚化厂周边的房屋价格低于远处的房屋价格。房屋价格为实际价格(排除物价指数的影响)。要分析废物焚化厂对周边房屋价格的影响,不能简单回归如下模型:rprice = b0 + b1 nearinc + u, 比如利用1981年的数据进行回归,那么b1体现了81年近处价格与远处价格的差异,但b1没有体现焚化厂对近处房屋价格的影响。因此,要分析焚化厂对近处房屋价格的影响,应该观察近处与远处的房屋价格在1981的差异年是否比1978年的差异有了明显的变化。方程设定如下:rprice =b0 + b1 y81 + b2 nearinc + b3 (y

5、81nearinc) + u,其中,nearinc为0-1虚拟变量。y81=0,nearinc =0,rprice =b0 + u。因此,b0体现了1978年远处的房屋平均价格。y81=0,nearinc =1,rprice =b0 +b2 + u。因此,(b0 +b2)体现了1978年近处的房屋价格,b2体现了1978年近处房屋价格与远处房屋价格的差异。y81=1,nearinc =0,rprice =b0 + b1 + u。(b0 +b1)体现了1981年远处的房屋价格,b1体现了远处房屋价格在81年与78年的差异。y81=1,nearinc =1,rprice =b0 + b1 + b2

6、 + b3 + u。(b0 + b1 +b2+ b3)体现了1981年近处的房屋价格,(b2+ b3)体现了1981年近处与远处的房屋价格差异。这样可以清晰地看出,b3体现了近处与远处的房屋价格在1981的差异年是否比1978年的差异。问题就归结于检验b3的显著性。练习题: 1 回归方程,进行检验并解释其含义。Log(rprice) =b0 + b1 y81 + b2 nearinc + b3 (y81nearinc) + u2 加入其它控制变量(房龄、距市中心距离、卧室数目等)重新回归方程进行检验。1.2 面板数据定义时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据

7、;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时期构成的截面观测值,从纵剖面(longitudinal section)上看每个个体都是一个时间序列。面板数据用双下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , TN表示面板

8、数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, , N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列(个体)。例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据yi t, i = 1, 2, , N; t = 1, 2, , T,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,或者

9、每个个体的观测值个数是相同的,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中缺失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值

10、顺序是按地区名的汉语拼音字母顺序排序的。表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)地区人均消费1996199719981999200020012002CP-AH(安徽) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ(福建) 4011.775 4853.441 5197.041 5314.521 5522.762

11、6094.336 6665.005CP-HB(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ(黑龙江) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6

12、091.331CP-JX(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD(山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-

13、SH(上海) 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94CP-SX(山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210资料来源:中国统计年鉴1997

14、-2003。表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)地区人均收入1996199719981999200020012002IP-AH(安徽) 4106.251 4540.247 4770.470 5178.528 5256.753 5640.597 6093.333IP-BJ(北京) 6569.901 7419.905 8273.418 9127.992 9999.700 11229.66 12692.38IP-FJ(福建) 4884.731 6040.944 6505.145 6922.109 7279.393 8422.573 9235.

15、538IP-HB(河北) 4148.282 4790.986 5167.317 5468.940 5678.195 5955.045 6747.152IP-HLJ(黑龙江) 3518.497 3918.314 4251.494 4747.045 4997.843 5382.808 6143.565IP-JL(吉林) 3549.935 4041.061 4240.565 4571.439 4878.296 5271.925 6291.618IP-JS(江苏) 4744.547 5668.830 6054.175 6624.316 6793.437 7316.567 8243.589IP-JX(江

16、西) 3487.269 3991.490 4209.327 4787.606 5088.315 5533.688 6329.311IP-LN(辽宁) 3899.194 4382.250 4649.789 4968.164 5363.153 5797.010 6597.088IP-NMG(内蒙古) 3189.414 3774.804 4383.706 4780.090 5063.228 5502.873 6038.922IP-SD(山东) 4461.934 5049.407 5412.555 5849.909 6477.016 6975.521 7668.036IP-SH(上海) 7489.45

17、1 8209.037 8773.100 10770.09 11432.20 12883.46 13183.88IP-SX(山西) 3431.594 3869.952 4156.927 4360.050 4546.785 5401.854 6335.732IP-TJ(天津) 5474.963 6409.690 7146.271 7734.914 8173.193 8852.470 9375.060IP-ZJ(浙江) 6446.515 7158.288 7860.341 8530.314 9187.287 10485.64 11822.00资料来源:中国统计年鉴1997-2003。 图2 15个省

18、级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列图4 15个地区的人均消费散点图(7个时期) 图5 15个地区的人均收入散点图(7个时期)(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符

19、号代表一个省级地区的7个观测点组成的时间序列,相当于观察15个截面上两个变量的时间序列数据的散点图。图7中每一种符号代表一个年度的截面散点图(共7个时期),相当于观察7个时期上两个变量的截面数据的散点图。图6 人均消费对收入的面板数据(15个时间序列叠加)图7 人均消费对收入的面板数据(7个时期叠加) 为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消

20、费和收入都有了相应的提高。 图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图EViews文件说明(dataeviews-panel_cons.wfl)income_* :名义收入;consume_* :名义消费;ip_*:实际收入;cp_*:实际消费;p_*:价格指数。操作方法:建立工作文件(File)建立面板(Object)定义截面标示符(Define)定义变量名称(Sheet)拷贝数据(或通过Import导入数据)练习题:1 利用Consume.xls建立Eviews工作文件2 观察不同截面的cp(ip)的时间趋势图; (如果是

21、建立pool,需要将Stacked文件按照时间将原文件拆分,即新文件的结构是截面数据)3 观察不同截面的cp和ip的散点图;(需要建立stack文件,将不同时期的横轴变量罗列成一个变量;将不同时期的纵轴变量拆分成T个变量,然后用scatter观察:即第一个变量对所有其他变量的散点图)4 观察不同时期上cp(ip)的截面图;(如果是建立pool,需要将Stacked文件按照截面将原文件拆分,即新文件的结构是时间序列数据)5 观察不同时期上cp和ip的散点图;(需要建立stack文件,将不同截面的横轴变量罗列成一个变量;将不同截面的纵轴变量拆分成N个变量,然后用scatter观察:即第一个变量对所

22、有其他变量的散点图)Panel Data的EViews操作1建立Panel的方法(1)直接在File-New workfile中完成(2)如果数据是以叠加的形式存放的,如下表所示注意:数据文件中必须存有截面变量和时间变量。可以采用第二种方法。Step1:建立undated的工作文件 Step2:导入数据 Step3:Proc/Structure current page 1.3 混合估计模型用面板数据建立的模型通常有三种,即混合估计模型、固定效应模型和随机效应模型。所谓混合估计模型是指斜率和截距双固定的模型。如果从时间上看,不同个体之间不存在显著性差异。从截面上看,不同截面之间也不存在显著性差

23、异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。比如,在例1中,在每一年,不同省份的消费与消费的关系均相同;对每一个省份来说,每年的消费与收入的关系也相同。在这种情况下,就可以使用混合估计模型。如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型, , i = 1, 2, , N; t = 1, 2, , T m和不随i,t变化。称模型(1)为混合估计模型。对混合估计模型可以通过三种OLS方法进行估计。(1) 组内估计量个体的均值为, i = 1, 2, , N 1其中,(i = 1, 2, , N)。模型的离差形式为: 2OLS估

24、计量为:称为组内估计量(Within group estimator)。(2) 组间估计量变量的总均值为个体的均值离差形式为:OLS估计量为:称为组内估计量(Within group estimator)。又被称为LSDV估计量(Least squares dummy variables)或协方差估计量(covariance estimator)。(3) OLS估计量个体的均值离差形式为:其中,OLS估计量为:可以证明,。因此,OLS估计量又可以写作因此,OLS估计量为组内估计量与组间估计量的加权和。截距项的估计量为:以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果

25、如下:= 129.6313 +0.7587 IPit (2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.9915个省(市)的平均边际消费倾向为0.76。1.4 固定效应模型1.4.1 个体固定效应模型在面板数据中,如果不同的截面或不同的时期对应的截距项不同,那么称之为变截距模型。变截距模型可以分为固定效应和随机效应模型两种。首先来看固定效应模型。1 个体固定效应模型的设定模型设定为: , i=1, 2, , N; t = 1, 2, , T 其中,ai为不随时间变化的不可观测的随机变量,用于反映个体之间的差异。如果ai与X相关,则称

26、为固定效应模型(entity fixed effects regression model)。即: ,t = 1, 2, , T 3将(2)式中每个方程写成矩阵形式, 4其中, i=1,2,N 5将(4)式进一步表示为: 6即: 72 个体固定效应模型组内估计假定:,由于ai与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。由于ai不随着时间而变化,因此可以通过离差的形式将其消除。模型两边取均值,可得: 其离差形式为:离差形式将ai消除掉了,不存在误差项与X相关导致的不一致问题。组内估计的一大优点是,不论ai与X是否相关,由于ai不随时间变化,因此组内离差会将ai消除掉。因此,组内

27、估计量是无偏的、一致的。但组内估计的一大缺点是,凡是不随时间变化的变量,比如性别、种族、地理位置等,都会在组内离差转换时被消除掉。因此,组内估计无法估计这种变量的影响。组内估计的矩阵表述两端乘以矩阵Q, 8注意,Q为对称幂等矩阵,且Qe=0。可以得到: 9应用OLS方法得到的OLS估计量: 10是无偏的,当N或T时,是一致的。其协方差矩阵为:。3 个体固定效应模型LSDV估计在固定效应中,传统的观点将ai视作与一样的未知参数,用于反映不同方程的不同截距项。这可以通过加入截面虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。对于N个截面,需要加入N-1个截面虚拟变量。因此其估计量称为LS

28、DV(Least Squares Dummy Variables)估计量。当N较大时,这种估计方法损失了大量的自由度。因此,这种方法适用于当N较小的情况。对于来讲,LSDV估计量与组内估计量完全相同。LSDV还可以估计出ai。而且采用LSDV估计可以更直观地计算估计量的自由度。是无偏的,当N或T时,是一致的。也是无偏的,但仅当T时,才具有一致性。当T固定,而N时,ai的LSDV估计量不具有一致性。因为,每增加一个截面,ai也增加一个未知参数。4 个体固定效应模型的设定检验LSDV的另一个好处是可以通过F统计量对个体效应的显著性进行检验。原假设H0:不同个体的模型截距项相同(建立混合估计模型)。

29、备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。F统计量定义为: 11其中k表示解释变量的个数(不包括常数项),SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。(混合估计模型给出公共截距项。)用上例计算,已知SSEr = 4824588,SSEu = 2270386,F= 7.15F0.05(14, 89) = 1.81因为F= 7.15 F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。1.4.2 时期固定效应模型模型设定为: , i=1, 2,

30、 , N; t = 1, 2, , T 其中,t为不随个体变化的不可观测的随机变量,用于反映不同时期的差异。如果t与X相关,则称为时期固定效应模型(time fixed effects regression model)。即: ,i = 1, 2, , N 12将上式中每个方程写成矩阵形式, 13或者表示为其中, 14将上式进一步表示为: 15即: 161 时期固定效应模型的组内估计由于t与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。由于t不随着个体而变化,因此可以通过离差的形式将其消除。模型两边取均值,可得: 其离差形式为:离差形式将t消除掉了,不存在误差项与X相关导致的不一

31、致问题。与个体固定效应相类似,时期固定效应模型的组内估计优点是,不论t与X是否相关,由于t不随个体变化,因此组内离差会将t消除掉。因此,组内估计量是无偏的、一致的。但组内估计的一大缺点是,凡是不随个体变化的变量,比如政策、气候等,都会在组内离差转换时被消除掉。因此,组内估计无法估计这种变量的影响。2 组内转换的矩阵表述利用相似的方法定义矩阵Q, 17注意,Q为对称幂等矩阵,且QeN=0。两边同时乘以Q可以得到: 18应用OLS方法得到的OLS估计量: 19是无偏的,当N或T时,是一致的;其协方差矩阵为: 20也是无偏的,但仅当N时,才具有一致性。3 时期固定效应的LSDV估计如果将 t 视作与

32、一样的未知参数,用于反映不同方程的不同截距项。这可以通过加入时期虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。为了避免多重共线性,对于T个截面,需要加入T-1个截面虚拟变量。因此其估计量称为LSDV(Least Squares Dummy Variables)估计量。当T较大时,这种估计方法损失了大量的自由度。因此,这种方法适用于当T较小的情况。对于来讲,LSDV估计量与组内估计量完全相同。LSDV还可以估计出t。而且采用LSDV估计可以更直观地计算估计量的自由度。是无偏的,当N或T时,都是一致的。也是无偏的,但仅当N时,才具有一致性。当N固定,而T时,t 的LSDV估计量不具有一

33、致性。因为,每增加一个时期,t也增加一个未知参数。4 时期固定效应的LSDV估计如果采用LSDV估计,可以通过F统计量对时期固定效应的显著性进行检验。H0:对于不同横截面模型截距项相同(建立混合估计模型)。H1:对于不同横截面模型的截距项不同(建立时期固定效应模型)。F统计量定义为:F= 21其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时期固定效应模型的)的残差平方和。非约束模型比约束模型多了T-k个被估参数。用上例计算,已知SSEr= 4824588,SSEu= 4028843,F= 3.19F0.05(6, 87) = 2.2因为F= 3.19 F0.05(14,

34、 89) = 2.2,拒绝原假设,结论是应该建立时期固定效应模型。1.4.3 双因素固定效应模型模型设定为: , i=1, 2, , N; t = 1, 2, , T 其中,ai为不随时间变化的不可观测的随机变量,用于反映个体之间的差异;t为不随个体变化的不可观测的随机变量,用于反映不同时期的差异。如果ai、t与X相关,则称为时期个体固定效应模型(time and entity fixed effects regression model)。矩阵表示为1 双因素固定效应的组内估计由于ai、t与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。但可以通过离差的形式将其消除。对模型在不同

35、时期和不同个体上分别求均值,得到离差形式,组内转换后的方程已经不包含ai、t,可以直接利用OLS方法进行估计。2 组内估计的矩阵表述仍然采用Wallace and Hussain(1969)的组内转换方法。令其中,I表示单位矩阵,e表示所有元素为1的列向量,J表示所有元素为1的(NTNT)矩阵,。注意观察矩阵Q的特点,Q为幂等对称矩阵。两边同时乘以Q,可得:3 双因素固定效应的LSDV估计可以采用加入虚拟变量的方法来估计。但是对于个体效应和时期效应必须加入(N-1)+(T-1)个虚拟变量。这会丧失大量自由度,并容易引起多重共线性问题。的LSDV估计量与组内估计量完全相同。a、l的估计量分别为:

36、如果满足上述模型假定条件,对模型(12)进行OLS估计,全部参数估计量都是无偏的和一致的。4 双因素固定效应的设定检验如果将a、l视作未知参数,可以通过F统计量对时期、个体固定效应的显著性进行检验。H0:,。即对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。H1:存在明显差异或存在明显差异,即不同横截面,不同序列,模型截距项不相同(建立时期个体固定效应模型)。F统计量定义为:F= 其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时期个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N+T-2个被估参数。用上例计算,已知SSEr= 4824588,S

37、SEu= 2045670,F= 5.6F0.05(20, 81) = 1.64因为F= 5.6 F0.05(14, 89) = 1.64,拒绝原假设,结论是应该建立时期个体固定效应模型。给定时间效应,可以检验个体效应的显著性。H0:,给定。此时无约束模型仍然为混合估计模型,而受约束模型则为仅带有时间虚拟变量的模型。构建F统计量。类似地,给定个体效应,可以检验时间效应的显著性。H0:,给定。此时无约束模型仍然为混合估计模型,而受约束模型则为仅带有个体虚拟变量的模型。构建F统计量1.4.4 组间估计实践中另外一种被经常引用的估计量是组间估计量。与组内估计不同,组间估计是利用均值方程进行估计。不论把

38、和视作随机变量还是待估参数,个体固定效应或时期固定效应的组间估计方程都是一样的。在个体固定效应模型中,组间估计是估计如下方程:在时期固定效应模型中,组间估计是估计如下方程: 在双因素固定效应模型中,组间估计可以通过两种方式进行。如果把和视作随机变量,估计方程为:如果把和视作待估参数,则估计方程为:显然,如果和与X相关,那么组间估计量是不一致的。1.5 随机效应模型在模型, i =1,2, N; t=1, 2, , T如果和为随机变量,则称为随机效应模型。其中,称为个体随机效应,称为时间随机效应。基本假定:,令,则根据上述假定,。因此,随机效应模型又被称作误差成份模型(error compone

39、nt)或方差成分模型(variance component)。1.5.1 单因素随机效应模型当模型中仅存在个体随机效应,, i =1,2, N; t=1, 2, , T则称为个体随机效应模型。将其写作, i =1,2, N; t=1, 2, , T其中,每个个体所对应方程的矩阵表达式为:, i=1, 2, , N其中,。所有N个方程的矩阵表达式为:其中,。其中,。的协方差矩阵为:其逆矩阵为:在上述假定下,v的协方差矩阵为:1 组内估计(协方差估计)在随机效应模型中,仍然可以采用Q矩阵,OLS估计可以得到的协方差估计量。在随机效应模型中,不论N或T,均是无偏和一致的,但不再是有效的。因为同一个个

40、体在不同时期上的观测值存在相关。这时,需要利用GLS估计方法。2 组间估计,3 GLS估计因为均包含,因此,同一截面内不同期的误差项存在相关。即,为了得到参数的有效估计量,必须使用GLS方法。GLS估计量为:其中,,。要得到参数的GLS估计量,首先要估计出vi的协方差矩阵V。根据Wansbeek-Kapteyn(1982,1983)和Maddala(1971),将V写作:令,则,其中。注:矩阵P和Q的性质:矩阵P的性质:(1) 对称幂等矩阵,即P = P,Pm = P。(2) 根据定理:幂等矩阵的秩等于其迹,可以证明Rank(P) = tr(P) = 1(3) 设X为由K个变量(X1, X2,

41、 , XK)的观测值组成的矩阵,PX得到的矩阵表示X的均值,即其第k列的元素均为变量Xk的均值。(4) Pe = e矩阵Q的性质:(1) 对称幂等矩阵,即Q = Q,Qm = Q。(2) Rank(Q) = tr(Q) = T-1(3) 设X为由K个变量(X1, X2, , XK)的观测值组成的矩阵,QX得到的矩阵表示X的离差,即其第k列的元素均为变量Xk的离差。(4) Qe = 0另外,PQ = 0,P + Q = IT。事实上,对任意实数r,因此,协方差矩阵的逆矩阵可以写作:将其带入GLS估计量公式中,可得:实践中,成份方差和是未知的,因此,需要首先得到和的一致估计量,然后再将其带入GLS

42、估计量表达式。这便是可行的GLS方法(FGLS)或者称之为两步GLS(Two-Step GLS)。很多学者提出了和的不同的估计方法。常用的有三种方法:Swamy-Arora(1972), Wallace-Hussain(1969)和Wansbeek-Kapteyn(1983)。由矩阵P和Q的性质,可得: (5) (6)由(5)可以得到的估计量: 由(6)可以得到的估计量: Wallace-Hussain(1969)利用OLS估计残差作为v的替代。Wansbeek-Kapteyn(1982)则利用组内估计(LSDV或固定效应估计)的残差作为v的替代。Swamy-Arora(1972)采用两步回归法进行估计,即利用组内(即固定效应)和组间估计的残差项。第一步是进行组内回归 ,i=1,2,N如前所述,这等价于在方程两边同时乘以矩阵Q,然后用OLS进行回归。即 令其残差项表示为,则的估计量为:第二步是进行组间回归,方程两边同

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号