[经济学]Chapter16 面板数据.doc

资源描述

《[经济学]Chapter16 面板数据.doc》由会员分享，可在线阅读，更多相关《[经济学]Chapter16 面板数据.doc（31页珍藏版）》请在三一办公上搜索。

1、面板数据I变截距模型1.1 Pooled Cross Section 数据Pooled cross section数据是指不同时点（可能）不同截面的数据。而面板数据是指不同时点相同截面的数据。在面板数据中，同一截面不同时点的观测值不会是独立的。因为，这些数值可能受到共同因素的影响。Panel data也叫做longitudinal data。混合数据增加了样本容量，因此提高了估计的精度和检验功效。同时，混合数据也被用于考察变量分布随着时间的变化，或者变量之间的关系随着时间的变化规律。考察的方法是加入时间虚拟变量。例：National Opinion Research Centers Gener

2、al Social Survey搜集了19721984年妇女就业、家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括：教育程度、年龄、种族、地区、生活环境（农村、城镇、小城市等）。（数据文件：fertil1.raw）kids = b0 + b1 educ + b2 age + b3 age2+ b4 race + b5 farm+ b6 town + b7 D74 + b8 D76 + b9 D78 + b10 D80 + b11 D82 +b12 D84 + ut 例：接受教育程度对工资的影响以及工资的性别差异（File：cps.wfl；data file: cps78_85

3、.raw）模型设定：log(wage) = b0 + b1 y85 + b2 educ + b3 y85educ + b4 exper + b5 union + b6 female+ b7 y85 female + ut 模型估计：结论分析：例：废物焚化厂对周边房屋价格的影响（File：kielmc.wfl；data file: kielmc.raw）Kiel and McClain (1995)研究了废物焚化厂对周边（North Andover, Massachusetts）房屋价格的影响。1978年有消息流传要在North Andover建立废物焚化厂，1981年正式动工（1985年正式

4、运营）。利用1978年、1981年的房屋价格数据检验：废物焚化厂周边的房屋价格低于远处的房屋价格。房屋价格为实际价格（排除物价指数的影响）。要分析废物焚化厂对周边房屋价格的影响，不能简单回归如下模型：rprice = b0 + b1 nearinc + u, 比如利用1981年的数据进行回归，那么b1体现了81年近处价格与远处价格的差异，但b1没有体现焚化厂对近处房屋价格的影响。因此，要分析焚化厂对近处房屋价格的影响，应该观察近处与远处的房屋价格在1981的差异年是否比1978年的差异有了明显的变化。方程设定如下：rprice =b0 + b1 y81 + b2 nearinc + b3 (y

5、81nearinc) + u,其中，nearinc为0-1虚拟变量。y81=0，nearinc =0，rprice =b0 + u。因此，b0体现了1978年远处的房屋平均价格。y81=0，nearinc =1，rprice =b0 +b2 + u。因此，（b0 +b2）体现了1978年近处的房屋价格，b2体现了1978年近处房屋价格与远处房屋价格的差异。y81=1，nearinc =0，rprice =b0 + b1 + u。（b0 +b1）体现了1981年远处的房屋价格，b1体现了远处房屋价格在81年与78年的差异。y81=1，nearinc =1，rprice =b0 + b1 + b2

6、 + b3 + u。（b0 + b1 +b2+ b3）体现了1981年近处的房屋价格，（b2+ b3）体现了1981年近处与远处的房屋价格差异。这样可以清晰地看出，b3体现了近处与远处的房屋价格在1981的差异年是否比1978年的差异。问题就归结于检验b3的显著性。练习题： 1 回归方程，进行检验并解释其含义。Log(rprice) =b0 + b1 y81 + b2 nearinc + b3 (y81nearinc) + u2 加入其它控制变量（房龄、距市中心距离、卧室数目等）重新回归方程进行检验。1.2 面板数据定义时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据

7、；截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以，面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时期构成的截面观测值，从纵剖面（longitudinal section）上看每个个体都是一个时间序列。面板数据用双下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , TN表示面板

8、数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，yi ., ( i = 1, 2, , N)是横截面上的N个随机变量；若固定i不变，y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列（个体）。例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据yi t, i = 1, 2, , N; t = 1, 2, , T，如果从横截面上看，每个变量都有观测值，从纵剖面上看，每一期都有观测值，或者

9、每个个体的观测值个数是相同的，则称此面板数据为平衡面板数据（balanced panel data）。若在面板数据中缺失若干个观测值，则称此面板数据为非平衡面板数据（unbalanced panel data）。例1：1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（不变价格）和人均收入数据见表1和表2。数据是7年的，每一年都有15个数据，共105组观测值。人均消费和收入两个面板数据都是平衡面板数据，各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值

10、顺序是按地区名的汉语拼音字母顺序排序的。表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据（不变价格）地区人均消费1996199719981999200020012002CP-AH（安徽） 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ（北京） 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ（福建） 4011.775 4853.441 5197.041 5314.521 5522.762

11、6094.336 6665.005CP-HB（河北） 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ（黑龙江） 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL（吉林） 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS（江苏） 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6

12、091.331CP-JX（江西） 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN（辽宁） 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG（内蒙古） 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD（山东） 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-

13、SH（上海） 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94CP-SX（山西） 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ（天津） 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ（浙江） 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210资料来源：中国统计年鉴1997

14、-2003。表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据（不变价格）地区人均收入1996199719981999200020012002IP-AH（安徽） 4106.251 4540.247 4770.470 5178.528 5256.753 5640.597 6093.333IP-BJ（北京） 6569.901 7419.905 8273.418 9127.992 9999.700 11229.66 12692.38IP-FJ（福建） 4884.731 6040.944 6505.145 6922.109 7279.393 8422.573 9235.

15、538IP-HB（河北） 4148.282 4790.986 5167.317 5468.940 5678.195 5955.045 6747.152IP-HLJ（黑龙江） 3518.497 3918.314 4251.494 4747.045 4997.843 5382.808 6143.565IP-JL（吉林） 3549.935 4041.061 4240.565 4571.439 4878.296 5271.925 6291.618IP-JS（江苏） 4744.547 5668.830 6054.175 6624.316 6793.437 7316.567 8243.589IP-JX（江

16、西） 3487.269 3991.490 4209.327 4787.606 5088.315 5533.688 6329.311IP-LN（辽宁） 3899.194 4382.250 4649.789 4968.164 5363.153 5797.010 6597.088IP-NMG（内蒙古） 3189.414 3774.804 4383.706 4780.090 5063.228 5502.873 6038.922IP-SD（山东） 4461.934 5049.407 5412.555 5849.909 6477.016 6975.521 7668.036IP-SH（上海） 7489.45

17、1 8209.037 8773.100 10770.09 11432.20 12883.46 13183.88IP-SX（山西） 3431.594 3869.952 4156.927 4360.050 4546.785 5401.854 6335.732IP-TJ（天津） 5474.963 6409.690 7146.271 7734.914 8173.193 8852.470 9375.060IP-ZJ（浙江） 6446.515 7158.288 7860.341 8530.314 9187.287 10485.64 11822.00资料来源：中国统计年鉴1997-2003。图2 15个省

18、级地区的人均消费序列（纵剖面）图3 15个省级地区的人均收入序列图4 15个地区的人均消费散点图（7个时期）图5 15个地区的人均收入散点图（7个时期）(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)用CP表示消费，IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符

19、号代表一个省级地区的7个观测点组成的时间序列，相当于观察15个截面上两个变量的时间序列数据的散点图。图7中每一种符号代表一个年度的截面散点图（共7个时期），相当于观察7个时期上两个变量的截面数据的散点图。图6 人均消费对收入的面板数据（15个时间序列叠加）图7 人均消费对收入的面板数据（7个时期叠加）为了观察得更清楚一些，图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出，无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消

20、费和收入都有了相应的提高。图8 北京和内蒙古1996-2002年消费对收入时序图图9 1996和2002年15个地区的消费对收入散点图EViews文件说明（dataeviews-panel_cons.wfl）income_* ：名义收入；consume_* ：名义消费；ip_*：实际收入；cp_*：实际消费；p_*：价格指数。操作方法：建立工作文件（File）建立面板（Object）定义截面标示符（Define）定义变量名称（Sheet）拷贝数据（或通过Import导入数据）练习题：1 利用Consume.xls建立Eviews工作文件2 观察不同截面的cp（ip）的时间趋势图；（如果是

21、建立pool，需要将Stacked文件按照时间将原文件拆分，即新文件的结构是截面数据）3 观察不同截面的cp和ip的散点图；（需要建立stack文件，将不同时期的横轴变量罗列成一个变量；将不同时期的纵轴变量拆分成T个变量，然后用scatter观察：即第一个变量对所有其他变量的散点图）4 观察不同时期上cp（ip）的截面图；（如果是建立pool，需要将Stacked文件按照截面将原文件拆分，即新文件的结构是时间序列数据）5 观察不同时期上cp和ip的散点图；（需要建立stack文件，将不同截面的横轴变量罗列成一个变量；将不同截面的纵轴变量拆分成N个变量，然后用scatter观察：即第一个变量对所

22、有其他变量的散点图）Panel Data的EViews操作1建立Panel的方法（1）直接在File-New workfile中完成（2）如果数据是以叠加的形式存放的，如下表所示注意：数据文件中必须存有截面变量和时间变量。可以采用第二种方法。Step1：建立undated的工作文件 Step2：导入数据 Step3：Proc/Structure current page 1.3 混合估计模型用面板数据建立的模型通常有三种，即混合估计模型、固定效应模型和随机效应模型。所谓混合估计模型是指斜率和截距双固定的模型。如果从时间上看，不同个体之间不存在显著性差异。从截面上看，不同截面之间也不存在显著性差

23、异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。比如，在例1中，在每一年，不同省份的消费与消费的关系均相同；对每一个省份来说，每年的消费与收入的关系也相同。在这种情况下，就可以使用混合估计模型。如果从时间和截面看模型截距都不为零，且是一个相同的常数，以二变量模型为例，则建立如下模型，， i = 1, 2, , N; t = 1, 2, , T m和不随i，t变化。称模型(1)为混合估计模型。对混合估计模型可以通过三种OLS方法进行估计。（1）组内估计量个体的均值为， i = 1, 2, , N 1其中，（i = 1, 2, , N）。模型的离差形式为： 2OLS估

24、计量为：称为组内估计量（Within group estimator）。（2）组间估计量变量的总均值为个体的均值离差形式为：OLS估计量为：称为组内估计量（Within group estimator）。又被称为LSDV估计量（Least squares dummy variables）或协方差估计量（covariance estimator）。（3） OLS估计量个体的均值离差形式为：其中，OLS估计量为：可以证明，。因此，OLS估计量又可以写作因此，OLS估计量为组内估计量与组间估计量的加权和。截距项的估计量为：以例1中15个地区1996和2002年数据建立关于消费的混合估计模型，得结果

25、如下：= 129.6313 +0.7587 IPit (2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.9915个省（市）的平均边际消费倾向为0.76。1.4 固定效应模型1.4.1 个体固定效应模型在面板数据中，如果不同的截面或不同的时期对应的截距项不同，那么称之为变截距模型。变截距模型可以分为固定效应和随机效应模型两种。首先来看固定效应模型。1 个体固定效应模型的设定模型设定为：， i=1, 2, , N; t = 1, 2, , T 其中，ai为不随时间变化的不可观测的随机变量，用于反映个体之间的差异。如果ai与X相关，则称

26、为固定效应模型（entity fixed effects regression model）。即：，t = 1, 2, , T 3将（2）式中每个方程写成矩阵形式， 4其中， i=1,2,N 5将（4）式进一步表示为： 6即： 72 个体固定效应模型组内估计假定：，由于ai与X相关，因此不能直接用LS方法估计，LS估计量不具有一致性。由于ai不随着时间而变化，因此可以通过离差的形式将其消除。模型两边取均值，可得：其离差形式为：离差形式将ai消除掉了，不存在误差项与X相关导致的不一致问题。组内估计的一大优点是，不论ai与X是否相关，由于ai不随时间变化，因此组内离差会将ai消除掉。因此，组内

27、估计量是无偏的、一致的。但组内估计的一大缺点是，凡是不随时间变化的变量，比如性别、种族、地理位置等，都会在组内离差转换时被消除掉。因此，组内估计无法估计这种变量的影响。组内估计的矩阵表述两端乘以矩阵Q， 8注意，Q为对称幂等矩阵，且Qe=0。可以得到： 9应用OLS方法得到的OLS估计量： 10是无偏的，当N或T时，是一致的。其协方差矩阵为：。3 个体固定效应模型LSDV估计在固定效应中，传统的观点将ai视作与一样的未知参数，用于反映不同方程的不同截距项。这可以通过加入截面虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。对于N个截面，需要加入N-1个截面虚拟变量。因此其估计量称为LS

28、DV（Least Squares Dummy Variables）估计量。当N较大时，这种估计方法损失了大量的自由度。因此，这种方法适用于当N较小的情况。对于来讲，LSDV估计量与组内估计量完全相同。LSDV还可以估计出ai。而且采用LSDV估计可以更直观地计算估计量的自由度。是无偏的，当N或T时，是一致的。也是无偏的，但仅当T时，才具有一致性。当T固定，而N时，ai的LSDV估计量不具有一致性。因为，每增加一个截面，ai也增加一个未知参数。4 个体固定效应模型的设定检验LSDV的另一个好处是可以通过F统计量对个体效应的显著性进行检验。原假设H0：不同个体的模型截距项相同（建立混合估计模型）。

29、备择假设H1：不同个体的模型截距项不同（建立个体固定效应模型）。F统计量定义为： 11其中k表示解释变量的个数（不包括常数项），SSEr，SSEu分别表示约束模型（混合估计模型）和非约束模型（个体固定效应模型）的残差平方和。非约束模型比约束模型多了N-1个被估参数。（混合估计模型给出公共截距项。）用上例计算，已知SSEr = 4824588，SSEu = 2270386，F= 7.15F0.05(14, 89) = 1.81因为F= 7.15 F0.05(14, 89) = 1.81，所以，拒绝原假设。结论是应该建立个体固定效应模型。1.4.2 时期固定效应模型模型设定为：， i=1, 2,

30、 , N; t = 1, 2, , T 其中，t为不随个体变化的不可观测的随机变量，用于反映不同时期的差异。如果t与X相关，则称为时期固定效应模型（time fixed effects regression model）。即：，i = 1, 2, , N 12将上式中每个方程写成矩阵形式， 13或者表示为其中， 14将上式进一步表示为： 15即： 161 时期固定效应模型的组内估计由于t与X相关，因此不能直接用LS方法估计，LS估计量不具有一致性。由于t不随着个体而变化，因此可以通过离差的形式将其消除。模型两边取均值，可得：其离差形式为：离差形式将t消除掉了，不存在误差项与X相关导致的不一

31、致问题。与个体固定效应相类似，时期固定效应模型的组内估计优点是，不论t与X是否相关，由于t不随个体变化，因此组内离差会将t消除掉。因此，组内估计量是无偏的、一致的。但组内估计的一大缺点是，凡是不随个体变化的变量，比如政策、气候等，都会在组内离差转换时被消除掉。因此，组内估计无法估计这种变量的影响。2 组内转换的矩阵表述利用相似的方法定义矩阵Q， 17注意，Q为对称幂等矩阵，且QeN=0。两边同时乘以Q可以得到： 18应用OLS方法得到的OLS估计量： 19是无偏的，当N或T时，是一致的；其协方差矩阵为： 20也是无偏的，但仅当N时，才具有一致性。3 时期固定效应的LSDV估计如果将 t 视作与

32、一样的未知参数，用于反映不同方程的不同截距项。这可以通过加入时期虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。为了避免多重共线性，对于T个截面，需要加入T-1个截面虚拟变量。因此其估计量称为LSDV（Least Squares Dummy Variables）估计量。当T较大时，这种估计方法损失了大量的自由度。因此，这种方法适用于当T较小的情况。对于来讲，LSDV估计量与组内估计量完全相同。LSDV还可以估计出t。而且采用LSDV估计可以更直观地计算估计量的自由度。是无偏的，当N或T时，都是一致的。也是无偏的，但仅当N时，才具有一致性。当N固定，而T时，t 的LSDV估计量不具有一

33、致性。因为，每增加一个时期，t也增加一个未知参数。4 时期固定效应的LSDV估计如果采用LSDV估计，可以通过F统计量对时期固定效应的显著性进行检验。H0：对于不同横截面模型截距项相同（建立混合估计模型）。H1：对于不同横截面模型的截距项不同（建立时期固定效应模型）。F统计量定义为：F= 21其中SSEr，SSEu分别表示约束模型（混合估计模型的）和非约束模型（时期固定效应模型的）的残差平方和。非约束模型比约束模型多了T-k个被估参数。用上例计算，已知SSEr= 4824588，SSEu= 4028843，F= 3.19F0.05(6, 87) = 2.2因为F= 3.19 F0.05(14,

34、 89) = 2.2，拒绝原假设，结论是应该建立时期固定效应模型。1.4.3 双因素固定效应模型模型设定为：， i=1, 2, , N; t = 1, 2, , T 其中，ai为不随时间变化的不可观测的随机变量，用于反映个体之间的差异；t为不随个体变化的不可观测的随机变量，用于反映不同时期的差异。如果ai、t与X相关，则称为时期个体固定效应模型（time and entity fixed effects regression model）。矩阵表示为1 双因素固定效应的组内估计由于ai、t与X相关，因此不能直接用LS方法估计，LS估计量不具有一致性。但可以通过离差的形式将其消除。对模型在不同

35、时期和不同个体上分别求均值，得到离差形式，组内转换后的方程已经不包含ai、t，可以直接利用OLS方法进行估计。2 组内估计的矩阵表述仍然采用Wallace and Hussain（1969）的组内转换方法。令其中，I表示单位矩阵，e表示所有元素为1的列向量，J表示所有元素为1的(NTNT)矩阵，。注意观察矩阵Q的特点，Q为幂等对称矩阵。两边同时乘以Q，可得：3 双因素固定效应的LSDV估计可以采用加入虚拟变量的方法来估计。但是对于个体效应和时期效应必须加入(N-1)+(T-1)个虚拟变量。这会丧失大量自由度，并容易引起多重共线性问题。的LSDV估计量与组内估计量完全相同。a、l的估计量分别为：

36、如果满足上述模型假定条件，对模型（12）进行OLS估计，全部参数估计量都是无偏的和一致的。4 双因素固定效应的设定检验如果将a、l视作未知参数，可以通过F统计量对时期、个体固定效应的显著性进行检验。H0：，。即对于不同横截面，不同序列，模型截距项都相同（建立混合估计模型）。H1：存在明显差异或存在明显差异，即不同横截面，不同序列，模型截距项不相同（建立时期个体固定效应模型）。F统计量定义为：F= 其中SSEr，SSEu分别表示约束模型（混合估计模型的）和非约束模型（时期个体固定效应模型的）的残差平方和。非约束模型比约束模型多了N+T-2个被估参数。用上例计算，已知SSEr= 4824588，S

37、SEu= 2045670，F= 5.6F0.05(20, 81) = 1.64因为F= 5.6 F0.05(14, 89) = 1.64，拒绝原假设，结论是应该建立时期个体固定效应模型。给定时间效应，可以检验个体效应的显著性。H0：，给定。此时无约束模型仍然为混合估计模型，而受约束模型则为仅带有时间虚拟变量的模型。构建F统计量。类似地，给定个体效应，可以检验时间效应的显著性。H0：，给定。此时无约束模型仍然为混合估计模型，而受约束模型则为仅带有个体虚拟变量的模型。构建F统计量1.4.4 组间估计实践中另外一种被经常引用的估计量是组间估计量。与组内估计不同，组间估计是利用均值方程进行估计。不论把

38、和视作随机变量还是待估参数，个体固定效应或时期固定效应的组间估计方程都是一样的。在个体固定效应模型中，组间估计是估计如下方程：在时期固定效应模型中，组间估计是估计如下方程：在双因素固定效应模型中，组间估计可以通过两种方式进行。如果把和视作随机变量，估计方程为：如果把和视作待估参数，则估计方程为：显然，如果和与X相关，那么组间估计量是不一致的。1.5 随机效应模型在模型, i =1,2, N; t=1, 2, , T如果和为随机变量，则称为随机效应模型。其中，称为个体随机效应，称为时间随机效应。基本假定：，令，则根据上述假定，。因此，随机效应模型又被称作误差成份模型（error compone

39、nt）或方差成分模型（variance component）。1.5.1 单因素随机效应模型当模型中仅存在个体随机效应，, i =1,2, N; t=1, 2, , T则称为个体随机效应模型。将其写作, i =1,2, N; t=1, 2, , T其中，每个个体所对应方程的矩阵表达式为：， i=1, 2, , N其中，。所有N个方程的矩阵表达式为：其中，。其中，。的协方差矩阵为：其逆矩阵为：在上述假定下，v的协方差矩阵为：1 组内估计（协方差估计）在随机效应模型中，仍然可以采用Q矩阵，OLS估计可以得到的协方差估计量。在随机效应模型中，不论N或T，均是无偏和一致的，但不再是有效的。因为同一个个

40、体在不同时期上的观测值存在相关。这时，需要利用GLS估计方法。2 组间估计，3 GLS估计因为均包含，因此，同一截面内不同期的误差项存在相关。即，为了得到参数的有效估计量，必须使用GLS方法。GLS估计量为：其中，,。要得到参数的GLS估计量，首先要估计出vi的协方差矩阵V。根据Wansbeek-Kapteyn（1982，1983）和Maddala（1971），将V写作：令，则，其中。注：矩阵P和Q的性质：矩阵P的性质：（1）对称幂等矩阵，即P = P，Pm = P。（2）根据定理：幂等矩阵的秩等于其迹，可以证明Rank(P) = tr(P) = 1（3）设X为由K个变量（X1, X2,

41、 , XK）的观测值组成的矩阵，PX得到的矩阵表示X的均值，即其第k列的元素均为变量Xk的均值。（4） Pe = e矩阵Q的性质：（1）对称幂等矩阵，即Q = Q，Qm = Q。（2） Rank(Q) = tr(Q) = T-1（3）设X为由K个变量（X1, X2, , XK）的观测值组成的矩阵，QX得到的矩阵表示X的离差，即其第k列的元素均为变量Xk的离差。（4） Qe = 0另外，PQ = 0，P + Q = IT。事实上，对任意实数r，因此，协方差矩阵的逆矩阵可以写作：将其带入GLS估计量公式中，可得：实践中，成份方差和是未知的，因此，需要首先得到和的一致估计量，然后再将其带入GLS

42、估计量表达式。这便是可行的GLS方法（FGLS）或者称之为两步GLS（Two-Step GLS）。很多学者提出了和的不同的估计方法。常用的有三种方法：Swamy-Arora（1972）, Wallace-Hussain（1969）和Wansbeek-Kapteyn（1983）。由矩阵P和Q的性质，可得：（5）（6）由（5）可以得到的估计量：由（6）可以得到的估计量： Wallace-Hussain（1969）利用OLS估计残差作为v的替代。Wansbeek-Kapteyn（1982）则利用组内估计（LSDV或固定效应估计）的残差作为v的替代。Swamy-Arora（1972）采用两步回归法进行估计，即利用组内（即固定效应）和组间估计的残差项。第一步是进行组内回归，i=1,2,N如前所述，这等价于在方程两边同时乘以矩阵Q，然后用OLS进行回归。即令其残差项表示为，则的估计量为：第二步是进行组间回归，方程两边同

展开阅读全文