第1章回归分析总览FF.doc_三一办公31ppt.com

资源描述

《第1章回归分析总览FF.doc》由会员分享，可在线阅读，更多相关《第1章回归分析总览FF.doc（20页珍藏版）》请在三一办公上搜索。

1、浇寨募恐何微焰锡睬滨醒燎咨蛹斥槽竣现辈河盔芽乾拼靳疾毒祈矣鼎廓弥喇身植镇笛聂尸疡余汁眶搂蔓滔按导粱陨描汞浊陛朽垫炭舵盗芬手浸滤淫看僚钙经漓蝶扬弘悬厢迸订磁西栏擞譬嘿硅沤证祭傅损颊废拾轧擦豁伤瘫蒂跨沁痞料威稠郁眺瑞脖悠饭朋落市籍纲绪恨撰舶流苑缕冲洋锄听凭滇卿讯所然搽竖寅翠止炯困渗适备语菌啪爬匠裹杀浇蝉爱选熬诛阂出欠悦慷零劣岭块澳矢涂诣栗荔肖邹病谷取补汐颐孪踏确甲盯祥岔小盅狼体萌泣丁计论挛圾纺鹤推扭竿眷阀脊趟涉凹棉臣鸿疟恢鹏兄侯士杆俯嚷懈车裕颜贼于檬佃盲峨唤规最暇耪称卞芒世汉厅著溯蕉肥直皂承奥袱挂懊邢畦肢朝熙辰4第一章回归分析概述什么是计量经济学？什么是回归分析？估计的回归方程一个简单的回归分析

2、例子使用回归解释住宅价格总结与练习什么是计量经济学“计量经济学过于数学化，正因为如此，我的好朋友才放弃主修经济学专业。”“你总是不想去骄擦旁旦泅梅庶熬炊背仲当匙酣卷愧烷垛简免盔硝翱待搓庇音炬敷蝴互烷猛聂暇肮屠息卸惰禄种向叼朗纳怯懒贰烙械冯祥杏忱赠绦摸嘲踪睫侣献食运蓄眼崭潮息糙唯胖泰鄙海伴赴晤撞篡容末穿品遇葵清阅训抑断逢笑篱煤坟允转剖论捻怕圣肺耗祖接颅骆互熟蛙碗箔碗衅畏绷诛佃银默黄耗竹暑肚咒蝉闰爪屯曝蔼矛钝妊锋慧纠培扼叠沽豢害负雾罚漆慨羽耍篙沟浪偶娇域街距邪耀览蚊坪侧张峡帆呜揣皂镊帐跃塔笺煎自若玉石矿靳胖硕需畦氦窍烤路千椒钵劫皿谈黎儡渠粤伤氛吨满撰弥廊瓶弄姨龚枉步鞠塞云开黔雨诚悄饶慨妖藩赐此凑毯

3、酿更剑俯督焉伶澳荫侣碰旅佳疑机驻磊环慧藏督钟惰第1章回归分析总览FF拭络枪疵唾筐薯堕卸茧邦玛掣序范征冈蚁紫炬榨余焉址榔面姑皖余世露沸商涩轴霞抑尹贞辙恢玛痛损肖墙窑汇夷迸酗绘瘸愚蔫荧威濒纹问详槛诚李划粗卧姨讳对饯渐段企啄账蓉娶拿色膝久删境抵圈勾存梁钨赵洋皋寨震睁拨位庶匡德腿畜骨抿聘铅斗赶洱境杭舍装令澄峪伦星忱劣狮烩饥右舶星蛮词汐应诌熄具琴另李骑疟傍军祸西释乱旅塞聊啤怀驾兰锤牺衍励莉枉桅则栗抚郸甘坎阂禹蠕毗行多阮从真寡妊成先谅钉本冗眶操孩筷蛊替荒肿赐格晴潦辈徊验嘛产恋美么殿横亭掸孔罩崇驰纶屁统痔镇死真抽注惕络烃钡细氧途翌误纹蛮翼务眷颠茂签笨垛又币棱龋得芦值柏抨舆醉筛超吴嫁挥失撞第一章回归分析概述

4、1.1 什么是计量经济学？1.2 什么是回归分析？1.3 估计的回归方程1.4 一个简单的回归分析例子1.5 使用回归解释住宅价格1.6 总结与练习1.1 什么是计量经济学“计量经济学过于数学化，正因为如此，我的好朋友才放弃主修经济学专业。”“你总是不想去做的两件事灌腊肠和计量经济研究。”.出自Edward E.Leaner“计量经济学可以定义为对实际经济现象的定量分析。”.Paul A.Samuelson, T.c. Koopmans, 和J.r. Stone, “Report of the Evaluative Committee for Econometrica,” Econometri

5、ca, 1954, p.141“我的经历告诉我，经济研究通常只不过是研究人员对他们在研究之前就已深信不疑的结论的一种证实而已。”很明显，不同的人对计量经济学的含义有不同的认识。对初学者而言，计量经济学就像是一个过于复杂的障碍而不是一门有用的课程。在质疑者的眼里，只有他们认为完全了解产生计量经济学结果的所有步骤时，他们才相信这些结果。而对计量经济学专业人员而言，计量经济学是一套可以用于度量和分析经济现象、并对今后的经济趋势做出预测的令人着迷的技术。你也许会想，这么多不同的观点听起来就像盲人摸象一样，各说其是，各人仅部分正确。计量经济学不仅有正式的定义，也有相当广泛的内容。也许你能轻松的记下这些正

6、式的定义，但只有在你理解计量经济学的作用和计量经济学的方法之后,你才能对它有一个完整的认识。因此，我们需要对计量经济学下一个正式的定义。计量经济学，文字上即为“经济度量”，其定义为，对实际的经济和商业现象的数量化度量和分析。它试图量化经济现象，在抽象的经济理论世界和人类活动的现实世界之间架起一座桥梁。这两个世界对某些同学来说似乎相距甚远。一方面，经济学家基于对边际成本和边际收益的仔细推导而将均衡价格理论化；另一方面，很多厂商似乎不需要这些概念也能照常运转。计量经济学使我们能够考察数据，进而对厂商、消费者和政府的行为进行度量。这种度量有很多用处，而对这些用处的认识只是理解计量经济学的第一步。1.

7、1.1 计量经济学的用途计量经济学有三个主要用途：1 描述经济现实2 检验有关经济理论的假设3 预测未来的经济活动计量经济学最简单的用途就是描述。我们可以运用计量经济学量化经济活动，因为计量经济学可以对系数进行估计，并把它们代入先前只有抽象符号的方程中去。比方说，消费者对某种特定商品的需求通常被认为是需求量（Q）与商品价格（P）、替代品价格（PS）和可支配收入（Yd）的一种关系。对大多数商品而言，消费与可支配收入之间的关系预期是正的关系，因为可支配收入的增加经常与商品消费量的增加相联系。计量经济学真正能使我们基于过去的消费，收入和价格数据来估计它们之间的关系。换句话说，一个一般的纯理论关系（

8、1.1）现在可以被写为：（1.2）计量经济学技术使我们将纯理论关系变为一个具体，更容易描述的关系。.1.2式的结果来自于一个鸡肉需求模型，我们将在6.1节中给予更多介绍。让我们比较一下方程1.1 和1.2，取代我们曾经预期的可支配收入的上升会引起消费的上升（仅仅是“上升”，对方程1.1而言，译者注），方程1.2让我们能够估计上升的具体数量（可支配收入上升每一个单位引起消费0.24个单位的上升）。数字0.24被称为估计的回归系数，正是这种估计系数的能力使得计量经济学具有价值。计量经济学的第二个用途，也许是最广泛的用途就是假设检验，即以数量化的证据对相应的经济理论进行评价。经济学的大部分内容涉及

9、建立理论模型并基于证据进行检验，假设检验正是这种科学方法的重要组成部分。例如，你可以检验方程1.1中的商品是经济学家们所称的常规商品（一种随着可支配收入的增加，消费量也增加的商品）。你可以通过不同的统计检验方法来检验方程1.2中的可支配收入（Yd）的估计系数0.24。乍一看，因为系数的符号是正的，这一证据似乎支持这个假设，但是在做这个决定前必须考虑其估计的“统计显著性”。即使估计的系数和预期一致，即为正，但是这一估计的系数可能不是充分显著的异于零，以至于使我们不能确信真实的系数的确为正而不是零。计量经济学的第三个用途，也是最为困难的一个用途就是根据过去所发生的一切，预测下一季度，下一年将会发生

10、什么，或者是基于预测的未来预测更远的将来将发生什么。例如，经济学家使用计量经济模型对销售额，利润，国内生产总值（GDP）和通货膨胀率等变量进行预测。这种预测的精确性在很大程度上取决于过去能指引未来的程度。商业领袖和政治家对计量经济学的这个用途表现出了特别的兴趣，因为他们需要对未来做出决策，而且决策错误（企业破产或竞选失利）的代价是相当高的。计量经济学可以有助于说明他们制定的政策将要产生的影响，从这个意义上说，计量经济学能够使商界和政府的领袖们更好的进行决策。例如，对于由生产方程1.1所描述的产品的公司，公司主管要决定是否提高这种产品的价格，那么通过分别预测价格提高和价格不变的销售量，并进行比较

11、就能帮助他做出这一决策。1.1.2 不同的计量经济方法有很多不同的方法进行定量分析。例如，生物学、心理学和物理学领域都面临着类似于经济和商业领域所面临的定量问题。然而，由于所面对的问题不同，这些领域倾向于使用某种程度不同的分析技术。例如，经济学是一个典型的观察型学科而不是一个实验型学科。“我们需要一种被称为计量经济学的特殊领域以及相应的教科书，因为普遍认同的是，经济数据含有某些性质,这些性质没有被标准的统计教科书所考虑,也没有被经济学家充分强调其运用。”. Clive Granger, “A Review of Some Recent Textbooks of Econometrics,” J

12、ournal of Economic Literature, March 1994, p.117不同的方法在经济学领域也是有意义的。所使用的计量经济学工具部分地取决于模型的用途。例如，一个以纯粹描述问题为目的而构造的模型和一个以预测为目的而构造的模型所使用的方法可能是不一样的。为了更好的理解这些方法，让我们来看一下非实验性定量研究的步骤：1 设定所要研究的模型或者关系2 搜集量化模型所需要的数据3 用搜集到的数据量化模型第一步所用的设定和第三步所用的技术(计量经济学)学科内和学科间(如经济学与其它非实验性学科)有着很大的不同。为一个给定的模型选择一个最好的设定是基于经济理论的一种技能，通常被称

13、为计量经济学中的“艺术”。同一个方程进行量化可能存在着不同的方法，而且每一种方法得到的结果可能不尽相同。方法的选取就成为计量经济学家（使用计量经济学的研究人员）的工作，但是每一个研究者应该能够对他(她)所做的选择做出合理的解释。本书将主要集中于一种特殊的计量经济学方法：单方程线性回归分析。因此，这本书的大部分内容着重讨论回归分析。但是,回归分析只不过是计量经济学定量分析方法中的一种方法, 对每一个计量经济研究者来讲，记住这一点也是重要的。批评性的评估的重要性再怎么强调也不过分；一个优秀的计量经济学家能够诊断某种方法的缺点并且知道如何去修正它们。任何试图利用回归分析及其结果的人, 必须充分了解回

14、归分析方法的局限。数据遗失或者数据不准确的可能性，或不正确的模型设定，或选取不合适的估计技术，或者不合适的统计检验方法等方面的可能性，隐含了我们总是应以某种谨慎的态度对待回归分析的结果。1.2 什么是回归分析？计量经济学家使用回归分析形成经济关系的数量估计，而这种经济关系在估计之前具有完全理论化的形式。虽然任何人都宣称，光碟的价格如果下降（保持其他不变），其需求量将会增加，但是不是任何人都能够量化方程的参数，以估计当光碟的价格降低一元钱，其需求具体会增加多少。为了预测这种变化的方向，你需要了解有关这一问题的经济理论知识和光碟的一般特征。为了能够预测量的变化，你需要一个样本数据，进而你还需要估计

15、这种需求关系的方法。在计量经济学中估计这类关系最常用的一种方法就是回归分析。1.2.1 因变量，自变量和因果关系回归分析是一种统计技术，这种技术通过量化的单方程模型，旨在“解释”一个称之为应（被解释）变量的运动，这一应变量是作为某些被称为解释变量的运动的函数。例如方程1.1：（1.1）是应变量，和是解释(或自)变量。回归分析是经济学家的一种很自然的工具，因为很多（不是所有）的经济命题可以通过这样的一个单方程函数形式予以表述。例如，需求量（应变量）就是其价格、替代品的价格以及收入（自变量）的函数。大量的经济和商业现象都涉及有关因果效应（cause-and-effect）的命题。如果一种商品的价

16、格提高一个单位，则其需求量平均而言将会下降一定的数量，这种下降取决于价格的需求弹性（它被定义为价格上升一个百分点而引起的需求量变化的百分比）。类似的，如果所使用的资本数量增加一个单位,则会引起产出增加一定的数量，这一数量被称为资本的边际生产率。像这样的如果-则,或具有因果性的关系, 其逻辑性就要求一个应变量的运动,被某些特定的解释变量的运动所确定。不要被解释变量和应变量这样的字眼所欺骗，尽管许多经济关系由于它们的自然属性表现出因果关系，但是作为一个回归结果，不论在统计上多么显著，也不能证明它们之间存在着因果关系。回归分析所能做的一切就是检验一个显著的定量关系是否存在。对因果关系做出判定必须包括

17、对经济理论或者常识的一种合理的推断。例如，每当花店门铃响时,就有客人进到花店里买花，但这一事实不表明门铃响引起客人来买花。如果事件A和B在统计上相关，也许是A引起B，也许B引起A，也许是一些被忽视的原因导致了A和B同时发生，也许是由于两者之间存在相互校正的可能性。因果效应（Cause-and-effect）这种关系是如此的微妙，使得它愚弄了一些最著名的经济学家。例如，在19世纪后期，英国经济学家Stanley Jevons提出了太阳黑子能引起经济活动增加的假设。为了检验这个理论，他搜集了国民产出（应变量）和太阳黑子活动（解释变量）的数据，并且证明二者之间的确存在着显著正相关关系。这个结果引导他

18、和其他一些人做出了太阳黑子促进产出增加的结论。这样的结论是不能被证实的，因为回归分析只能够检验变量之间的定量关系的强度和方向，而不是确认变量之间的因果关系。1.2.2 单方程线性模型最简单的单方程线性模型是：（1.3）方程1.3表明，应变量Y是解释(或自变量,译者注)变量X的单方程线性函数。这个模型是单方程,因为只存在一个等式。这个模型是线性的,因为如果按照方程1.3作图，它将是一条直线而不是一条曲线。所有的系数决定了直线任意点的坐标。是常数或截距项，它表示当X为0时Y的取值。是斜率系数，它表示当X增加一个单位时Y所增加的数量。图1.1中实线表明了系数和回归方程的图形之间的关系。正如图中所看

19、到的，方程1.3所示的确是线性关系。原书P8,图1.1图1.1 回归线的系数的图形表示方程的图形是线性的，它的斜率为常数。方程的图形则不是线性的，它的斜率是递增的（如果0的话）斜率系数显示Y在X增加一单位时的反应。回归分析的大多数重点就是关于这类斜率系数。如在图1.1中，如果X从X1增加到X2（X），方程1.3中的Y将从Y1变化为Y2（Y），对于线性（例如直线）回归模型，X的变化引起的Y的变化的量是不变的，它等于斜率系数：其中是用来标记变量的改变量。一些读者也许认为它是“上升”（Y）除以“变化量”（X）。对于线性模型，在整个函数中斜率是常数。如果将线性回归技术运用于一个方程，这个方程必须是线性

20、的。当由变量X、Y所生成的函数图像为一条直线时，这个方程是线性的。例如方程1.3：（1.3）是线性的，而方程1.4 （1.4）则不是线性的，因为如果你描绘出方程1.4的函数图像，它将是一个二次曲线，而不是直线。图1.1可以看到二者的分别图1.1中的方程1.3和1.4有着相同的仅是出于比较的目的。如果把相同的数据应用到这两个方程，则估计的两个将会不同。并不奇怪的是，估计的也会不同。如果回归分析要求方程是线性的，我们如何处理类似于方程1.4那样的非线性方程呢？答案是我们可以对大部分的非线性方程重新定义，使它们变成是线性的。如方程1.4可以通过建立一个新的变量使它等于X的平方而转换为一个线性方程

21、：（1.5）如果我们将方程1.5来代入方程1.4,可得：（1.6）这种重新定义的方程现在就是线性的, 从技术上讲，如我们在第7章将会学到的，这个方程关于系数和是线性的，关于变量Y和Z也是线性的，但是关于变量Y和X则不是线性的。在第7章中我们会介绍变量非线性的回归方程的应用。然而，关于系数非线性的回归方程的应用则要困难得多。并且可以用回归分析的方法进行估计。1.2.3 随机误差项在应变量（Y）的变异中,除了来自于自变量（X）外，几乎总是存在着来自于其它因素的变异。这种额外的变异部分来自于遗漏的解释变量（例如，X2，X3）。但是，即使将这些变量加到方程中，仍然有部分Y的变异不能简单的被模型所解

22、释。极端少见的例外情况是，数据能够被某些物理定律所解释并且被精确测量。在这里，连续的变化应指被忽略的解释变量所引起。类似的问题常在天文学研究中碰到，新的行星常常是通过记录已知行星轨道的变化而被发现的，因为这种变化只能由另一个天体的地心引力造成。缺乏这类物理定律，经济和商业领域的研究者不能简单的认为Y的所有变化都能由回归模型解释，因为无论用何种方法测量一种行为关系总会有误差存在。它可能是由一些像遗漏的影响因素、测量误差、不正确的方程形式,或者纯粹的随机误差和完全未预期的事件这类因素所引起。这里说的随机是指某些事件,它的取值完全是随机确定的。计量经济学家通过在回归方程中添加一个随机误差项来承认总

23、是存在但不能被解释的变异（“误差”）。随机误差项是用来解释Y中所有不能被X解释的变异。从效果来说,它是计量经济学家的疏忽或没有能力使模型能够解释应变量的所有变异的一个象征。误差项（有时被称为扰动项）通常用符号表示，但有时也用其它的符号（如u或v）代替。在方程1.3中添加一个随机误差项后，它就变为一个典型的回归方程：（1.7）方程1.7由两部分组成，确定性部分和随机性部分。是回归方程的确定性部分，因为它给出了Y在给定非随机的X值之后的值。确定性部分可以称为Y对于给定X值的期望值，即对应给定某一特定的X后,所有Y(记为Ys)的均值。例如，如果所有14岁女孩的平均身高为5英尺，那么这个5英尺就是1

24、4岁女孩的身高的期望值。确定性部分可以写为：（1.8）上式描述了对于给定X的值后Y的期望值，记为，是解释(自)变量（或者多个自变量）的线性函数这条属性在=0（读作“在给定X时的期望等于零。”），即在满足经典假设（在第4章中提出）的情况下成立。很直观的认为是的均值，但是期望算子E从技术上说应该是函数所有取值的加权和，权重是每个取值的概率。常数的期望还是常数，变量和的期望等于变量的期望的和。不幸的是，在现实中,所观测到的Y值并不可能准确地等于确定的期望值。毕竟，并不是所有的14岁的女孩的身高都是5英尺。所以，随机误差（）必须被包含在方程中：（1.9）随机误差项必须包含在回归方程中，因为除

25、了被所包含的所有自变量(Xs)解释应变量Y的大部分变异之外，Y是剩余的变异至少有4种来源：1 许多对Y的微小的影响被方程所忽略（例如，数据的不可用）。2 对于应变量的某些测量误差是不可避免的。3 为进行回归分析所选择的方程形式（或形状）也许不同于潜在的理论方程。例如，潜在的方程也许是非线性的。4 对人类行为的一般化表述(即用模型表述,译者注)必须包含某些不可预测的或纯随机的变异为了更好的感觉随机误差项中的这些成份，我们来看一个消费函数的例子（总消费是总的可支配收入的函数）。首先，也许由于受未来经济的不确定性因素的影响, 某一年的消费量低于应消费的量。因为这种不确定性很难测量，所以方程中可能没有

26、这种测量消费不确定性的变量。在这种情况下，遗漏变量的影响（消费的不确定性）可能归结于随机误差项中。第二，也许是因为国民收入核算帐户中的消费量的测量误差（也就是样本误差）,某一年观测的消费量和实际消费量可能有所不同。第三，正确的消费函数也许是非线性的，但所估计的是一个线性函数.。（可以通过图1.2来考察非正确的函数形式如何造成误差）。第四，消费函数试图描述人们的(消费)行为，而人类行为总是存在着不可预测的因素。在任一给定的时间，某些随机事件可能增加或减少总消费量，而且，这些随机事件不能被重复和预测。原书P12,图1.2.图1.2 通过使用线性函数形式以模拟一个非线性关系所造成的误差。产生随机误差

27、的一个原因是模型形式的错误选择。例如，如果关系是非线性的，而选择了线性的模型，系统误差就会产生。非线性只是形成误差的原因之一。其它的原因有变量遗漏，测量误差和纯粹的随机误差。上述的各种可能性解释了从方程的确定性部分估计出来的Y值和观测到的Y值之间的差异。这些误差会在以后的章节里更加详细的讲解，现在我们只需要知道在计量经济学研究中总是存在有随机误差项，正因为如此，随机误差项必须被添加到所有的回归方程之中。1.2.4 标记的扩展（Extending the Notation）我们的回归标记需要扩展至应能反映观测值和允许多于一个解释变量的模型。如果我们包括以脚标代表某一次观测值, 单方程线性回归模型

28、可以被写为： (i= 1,2,N) （1.10）其中： Yi = 应变量的第i次观测值典型的观测值（分析的单位）是个人、年或者国家。例如，一个从1950年开始的年度观测值序列就是Y1=Y代表1950年，Y2代表1951年，等等。 Xi = 解释变量X的第i次观测值 = 随机误差的项第i次观测值 , = 回归系数 N = 观测值的个数这个方程实际上是一个含有N个方程的方程组，其中每一个方程都与N个观测值中的一个相对应： . . .这就是说，回归模型被假定对于每一个观测值都成立。系数不随观察值而变化，但是变量Y、X和随观测值而变化。第二种扩展是允许多个解释(自)变量的存在。因为也许应变量受多个自

29、变量的影响，所以，我们的回归方程应该允许添加多个新的解释变量(Xs)。如果我们定义：X1i = 第一个自变量的第i次观测值X2i = 第二个自变量的第i次观测值X3i = 第三个自变量的第i次观测值则所有的三个变量对Y的影响可以用多变量（多于一个自变量）线性回归方程来表示：（1.11）方程中的回归系数的含义是,在保持其他变量（X2、X3）不变时，X1增加一个单位对Y的影响。类似的，是保持X1和X3不变，X2增加一个单位对Y的影响。这些多变量线性回归方程的系数(它们本质上类似于微积分学中的偏导数)将一个自变量的变化对Y产生的影响与另外的所有自变量的变化对Y的影响分离开来。这种分离是可能的, 因

30、为多元回归在估计X1的系数时,考虑了X2和X3的变化。如果我们能够在实验室做一个实验,其中仅仅控制一个自变量在某一时间发生变化。上述估计结果十分类似于这样的实验结果。然而，在现实生活中，实现经济控制实验几乎是不可能的。因为许多经济要素都是同时发生变化，而且经常是相互反方向的变化。因此，回归分析中对一个变量进行估计而保持方程中的其他变量不变，是一种极为重要的优势。应该注意的是,如果一个变量没有被包含在方程中，那么在估计回归系数时,它的影响并没有保持不变。这一点将在第六章进行讨论。上述分析是很抽象的，让我们来看一个例子。假定我们想要了解某一特定领域的工资是如何被决定的。因为我们认为在这一特定领域

31、可能存在歧视现象，因此，一个工人的工资是应变量（WAGE），但是好的自变量是什么？在这个给定领域里,哪些变量会影响一个工人的工资呢？从字面上说,存在着很多影响工资的可能性。但其中，工作经验（EXP）、教育程度（EDU）和性别（GEND）是三个最主要的因素，所以我们就选择这三个因素作为自变量。为了用这些变量建立一个回归模型，我们需要重新定义方程（1.11）中的变量以满足我们的定义： Y =WAGE=工人工资 X1=EXP=工人的工作年数 X2=EDU=高中之后受教育的年数 X3=GEND=工人的性别（1=男，0=女）如果我们把这些定义带入到方程1.11，就有：（1.12）方程1.12设定工

32、人的工资是工人的工作经验、教育程度和性别的函数。在这样的一个方程中，的含义是什么呢？一些读者可能会猜出,度量了工作经验增加一年而引起的平均工资的增加量，但是这样想就忽视了一个事实，即方程中还有两个解释变量,也是用于解释工资的变化。正确的答案是度量的是在教育程度和性别不发生变化的条件下，工作经验每增加一年对工资产生的影响。这一表述明显不同于前者，因为它允许研究者控制特定的复杂的因素而不用通过实验进行控制。在我们对这一节进行总结之前，我们应该注意含有K个变量的多变量回归方程可以写为：（1.13）如果样本是年或月的数据（称为一个时间序列），那么方程1.13中的变量的下标i通常用t来代替，以用来标

33、记时间。只要定义合理，下标的顺序无关紧要。我们选择按变量序号（X1i）排列变量是为了便于初学者理解。但是，当读者学习到矩阵代数和计算机表格时，按照观测值序号（Xi1）排列将更为普遍。通常情况下观测值的下标被省略了，读者被认为可以理解方程对于样本中的每个观测值都是成立的。1.3 估计的回归方程一旦一个具体的方程被设定，它就必须被量化。这个理论回归方程的量化形式被称为估计的回归方程。它是使用真正的诸X(Xs)和Y(Ys)值的一组样本数据由估计产生的。尽管这个理论方程的自然形式是抽象的：（1.14）估计的回归方程有着真实的数值：（1.15）X和Y的现实的观测值是用来计算系数的估计值103.40

34、和6.38。这些估计值用于决定，（读作Y-帽），即Y的估计值或拟合值。让我们来看看理论回归方程和估计回归方程的差别。首先，方程1.14中的系数和被方程1.15中估计的系数103.40和6.38所代替。我们不可能实际观测到真实全书中的“真实”（true）一词的用法有点过于苛刻。许多哲学家认为真实(真理)的概念只在科学研究中有意义。许多经济学家也这样认为，指出对一代人正确的东西往往对另一代人就是错的。对我们来说，真实的系数是通过对全部的相关总体进行回归获得的系数。因此，苛求的读者可以用“总体系数”来替代“真实系数”，意义上不会有任何变化。的回归系数，但我们能基于数据计算其估计值。估计的回归系数，

35、记作和（读作贝塔-帽），是真实回归系数的最优经验估计值,它们是使用Y和X的所有样本数据(即Ys和Xs)而产生的。表达式：（1.16）是与理论回归方程1.14相对应的经验估计方程。方程1.15中的估计值是估计的回归系数和的一组估计值。对不同的样本,我们可计算出不同的回归系数的估计。是Yi的估计值，它代表的是基于估计的回归方程所计算的Y的第i次观察值的估计值。由此，就是回归方程中的的预测值。所有估计的Y()与对应的样本值(Ys)越接近，这个方程拟合得就越好。（这里“拟合”一词就如同“我们的衣服是多么合身”中的“合身”一词的意思）应变量的估计值（）和它的真实值(这里应指真实的样本值,译者注)（Yi

36、）之间的差被定义为残差（ei）（1.17）注意到方程1.17中残差和误差项的区别：（1.18）残差是观测值Y和估计直线（）之间的差，而随机误差项是观测值Y和真实回归方程（Y的期望）之间的差。我们应注意的是, 误差项是不能观测到的一个理论概念，而残差则是现实值，只要运行了回归,就可以对每一个观测值通过回归方程而计算残差。残差可以被认为是误差项的估计，e可以被记为。大多数的回归技术不但计算残差，而且计算旨在使残差(应为残差平方和,译者注)最小所对应的和的值。残差越小，方程拟合就越好，与对应的样本值Ys也就越接近。图1.3,原书P18. 图1.3 真实的和估计的回归线X和Y（实线）之间的真实关

37、系不能够被观察到，但是能观测估计的回归线（虚线）。一个观测值（如i=6时）和真实的回归线之间的距离就是随机误差项（）。观测值Y6和从估计的回归线得到的估计值（）之间的距离是这个观测值的残差,e6。图1.3展现了所有这些概念。每组（X，Y）所代表的点都描述在图形中，图中还包括了真实的回归方程（实际应用中不可能看到的回归模型,即Y的总体,或条件期望,下同,译者注）和估计的回归方程。注意到估计的方程与真实方程很接近但并没有重合，这是一个典型的结果。在图1.3中，,也就是(通过估计的回归)计算的Y的第6次观测值的估计值,位于估计的直线(虚线)上,它与实际的观测值Y6不同，它们的差就是残差，记为e6。

38、另外，尽管我们一般不能看到随机误差项的观测值，但是，我们已经画出了假定的真实的回归线（实线）,由此可以观测到随机误差项的第6次观测值，它是真实的回归线(即前述真实的回归方程所代表的直线,或总体,译者注)和观测值Y6的差(即距离,译者注)。下表总结了真实和估计回归方程中所用的记号：真实回归方程估计的回归方程我们可以在右边增加若干个自变量(Xs)而扩展上述估计的回归模型,使之形成多变量回归模型。与方程1.12相对应的估计的多变量回归方程为：（1.19）随便说一下，我们不可能画出多于两个自变量方程的图形。即使我们能画出2个自变量的方程的图形,与图1.3相比较,它也是相当笨拙的。1.4 一个简单

39、的回归分析例子让我们来看一个相当简单的回归分析的例子。假设你接受了一份暑期工作，在当地的Magic Hill游乐园给游客猜体重。如果你对他们体重的猜测误差不超过10磅, 游客将付给你50美分，而当误差超过10磅时，你就要给游客一个小奖品，而每个奖品都是你在Magic Hill花60美分买来的。幸运的是，Magic Hill游乐园友善的经理在游客背后的墙壁作了一些高度标记,使你能够准确的测量出游客的身高。不幸的是，在你和游客之间有一堵5英尺高的墙，因此，除了身高和(通常还有）性别外，你无法得到游客更多的信息。你第一天的工作表现得如此之差辛苦工作一整天却亏损了2美元，于是在第二天,你决定搜集数据进

40、行回归，用于估计身高和体重之间的关系。因为大部分的参与者都是男性，你决定将你的样本局限于男性。你假设如下的理论关系：（1.20）其中： Yi=第i个游客的体重（以磅为单位） Xi=第i个游客的身高（高于5英尺的部分，以英寸为单位） =第i个游客的随机误差项在本例中，身高和体重之间理论关系的符号被认为是正的（由方程1.20中X上方的+号表示），但你必须量化这种理论关系，以便根据已知身高来估计体重。为做到这一点，你需要搜集一系列数据，并且将回归分析应用于你的数据。接下来的一天你把搜集的数据总结在表1.1中.原书P21,表1.1.表1.1 猜体重方程的数据和结果注：本数据和书中的其它数据都可以在我

41、们的网站和EViews CD-ROM上获得，每个数据都有三种文件格式可供选择。本数据的文件名是HTWT1。并在Magic Hill的电脑上进行回归，得到下面的估计结果：这意味着估计的方程估计的身高 = 103.40 + 6.38身高（高于5英尺的部分，以英寸为单位）（1.21）可以作为猜测游客身高的另一种选择。这个方程以103.40磅作为估计体重的常数基，每当高于5英尺1个英寸,就加6.38磅。注意到的符号如预期一样是正的。这个方程的效果如何呢？为回答这个问题，你需要计算方程1.21的残差（）来看看有多少游客的误差超过了10磅。在表1.1的最后一栏中可以看到，如果你把这个方程应用到表中的20

42、个游客，你不会变的很富有，但至少你会赚$6.70而不是赔$2.00。图1.4不仅描绘了方程1.21,也描绘了作为样本的20名游客的身高和体重数据。原书P21,图1.4图1.4 猜体重方程如果我们把猜体重的例子中的数据描点并画出估计的回归线，我们可以发现,估计的和观测值Ys除了三个观测值外都相当的接近。在图上选择一个男性朋友的身高和体重，看看这条回归线有多好。方程1.21可能会帮助一个猜体重的初学者，通过增加其他的变量或搜集更大的样本,它还可以得到进一步的改进。这样的一个方程是现实的，因为每一个成功的猜体重者都使用类似这样的方程，虽然他们不会去认真思考相关的概念。我们通过搜集到的数据（表1.1）

43、计算估计的回归系数而得到方程1.21，其目的是量化体重/身高的理论关系方程1.20。如同无法知道随机误差项的观测值一样，尽管无法知道真实的方程，我们仍可以得到估计的方程, 其中的符号合乎预期，这一估计的方程可以为我们的工作提供帮助。因此，在你决定离开学校或者辞掉工作，并且试图去Magic Hill游乐园以猜体重谋生之前，学习更多的回归分析是很有必要的，让我们继续。1.5 使用回归解释住宅价格在游乐场猜体重很有趣，但难以成为一个经典的回归分析实例。相比于这类异乎寻常的例子，更多的回归分析被用于描述货币供给的增加对GDP的影响，用新的数据检验经济理论，或者预测价格变动对公司销售的影响。作为一个更现

44、实的例子，让我们来看一下住宅价格模型。对个人来说，购买住宅也许是一生中最重要的投资决策，而这一决策中的关键因素就是对住宅价值的评估。如果你高估住宅的价值，你会因此多付钱而损失数千美元；如果你低估，也许会有其他人以更高的价格买进。假如住宅是同质产品,就不会出现这类问题，像玉米或黄金，它们的市场价格通常已知，某一特定的要价可以与之相比较。但在房地产市场中几乎没有这种情况。因此，购买住宅很重要的一个环节是对住宅的市场价值进行评估，许多房地产评估人员利用回归分析来协助他们的工作。假设你家打算在南加利福尼亚购买一栋住宅，但是你确信地产商要价过高。地产商却说$230,000是很公道的价格，因为一年前隔壁的一栋更大的房子也卖了$230,000的价格。你不能确定对住宅面积在不同时间的价格进行比较是否合理，你应该如何决定是否接受$230,000的价格呢？因为你正在学习计量经济学的课程，你决定收集最近几星期来本地所有出售的住宅的数据，建立住宅价格对住宅面积的回归模型。对于一个经济学家来说，如果建立一个关于价格的模型而不在方程的右端包括某些数量的测量变量是不寻常的。这些的商品价格模型作为商品属性的函数，被称为“享乐”模型，我们将在11.7节更深入的进行介绍。有兴趣的读者可以在继续这个例子之前浏览那一节的内容。这样的数据类型被称为横截面数据，因为所有的观测值都取自相同的时间点并

展开阅读全文