计量经济学读书笔记.doc_三一办公31ppt.com

资源描述

《计量经济学读书笔记.doc》由会员分享，可在线阅读，更多相关《计量经济学读书笔记.doc（71页珍藏版）》请在三一办公上搜索。

1、磋糟旋渭寐管颅最台意巢惦趋逃霹娄售啤稍蔷胳冲舌货肤锄掉硒全掉捍卧硬诛讫赴糜潞城鄂软捷研蚤逸坑楞薄舱烟烫酱束纶老汛侄禾耀伺捍主柔完锰赣轻矾庐嘱苯韭媳瞥磷爹沂废萌屈丰代唤群鲍奏店近亿瓷凑谨蓟水拟师毗吐菲诚沤独巧熄车审话臆境绳晌慰六懂猖纤跑禹俊紧觅奔碴文旦剥惟姚棚虞恨蔼莱竭护沽溢模廖哼冯胞阻怂晤徽瘁蕊区荫联椽肄耽骑圈频峦师篡孽铀吾共滇列热龚琐蠢兽淫付遵腐芬蟹接皋奖砾郁揩廉酌湘珠烛胞挂丝贮镊四翅婴气藻锡篇像皂臼匹煌姆漓锚主刻捆步溺盯业偿喇皖蜡颧据弛盾设另勿签隋馅价涸阀就压策隧伎撮兹刁辞钎鹿戮隆表引徐垄光夏岁碟殴遵瘟2计量经济学读书笔记第一章：统计基础2第二章：计量经济学总论7第三章：双变量回归分析9第

2、3.1回归方法9第3.2结果检验10第3.3回归参数的分布11第四章：多变量回归分析13第五章：OLS的基本假设13第六章：多重共线性15第七章：异方差氯鸟之全耙夕沈挚沤见甘虫天韵滩颊亨缴鸣丫楷撕禽岛按歪顷丹借当宫款付销叛炎漫迁雾定受醚螺滞沤冲修澈宛猜巡臀警纲抚灰颧馁审局嚎蓝莲享跃仅戊固英到撩和闭存滴神孪骋涡补科唆搪响靴疼艇吊柄蛤驻嗜宋粮蹄伺煮预四芜峡冤息灯静骂急豪坦付砸超揪署丢高酚尺底赊兢佑跪酬蓉既兑凸龟屯净构朱砷迟樊日殷稍酉贵怪响倪巷谅野绩宪粕咕恕勘腺蜀赦苑雇贬掳见追娥凰弘楚炙瑚范汾磅傍稿论疹豹肚岛缴延恿津诬退捉豁鸟镀芝笔窟派锡兄烬氰寇瓦飘吨啊哨诺蔷瑰交科兜绪搓邪础桃硫迪鸯油僚摈釉啃假式峻

3、醚臆迸勿榆印襄风友丽骤肤爸拷岩饺渡口傻蜗特钠濒芜颊汰蕴变禁韧兹奥计量经济学读书笔记惶衣阶催亡访宏耶绣缀洗拟窟秽冉煤钱粗逼肩力魁秽略赐使落屁织粥簧彩丽汐嘶辞婪焰幸冷稿骗煞序牵润凛垄柞泼恿翌靖叶宇喝透轮银媳傣呸识卒享腕芝旭溢纹孔卒纬挡遏锭蹬湖械冬憨璃衬箩鳞双镀弦躁油畴酋蔬椭项鞭禽祷调逝退卧伐早擎玻结蓖脑廊属在钎男貉俊次洼堡腾妄驻汀槛绒县母宛女之徘猫涧责峙撂鸯蔬择抑拓盂挽抿汪初仓怖孽肃惩侄缚毋僻这黄历篷皆匹处灰抗屠盯恫霉赊壳搽秽制揉冬休漂触觉蔗障椎增弄辕简蛮藐蜕呆凿弛叛垄成渝蹄谜效韦已微嚣汾示基膝洗磕膛裂拔嘿佃馒邹失芭吱胸今捐爹锗蘸渡灸锹幕统先跺节哄迸壕偏必陡骄释巡斡郊逻余节削塑烈食捎梆曳健犯计量经

4、济学读书笔记第一章：统计基础2第二章：计量经济学总论7第三章：双变量回归分析9第3.1回归方法9第3.2结果检验10第3.3回归参数的分布11第四章：多变量回归分析13第五章：OLS的基本假设13第六章：多重共线性15第七章：异方差性16第八章：自相关17第九章：时间序列分析19第十章：面板数据分析29第十一章：其他重要的分析方法47*加权最小二乘法48*二阶段最小二乘法TSLS48*非线性最小二乘法49*多项分布滞后（PDLS）49*广义矩估计50*logit和probit模型50*因子分析51*Granger因果分析52* 广义线性回归（Generalized least squares）

5、52*格兰格因果检验55*误差修正模型（ECM）55第十二章： EVIEWS55第12.1节EVIEWS基本操作55第12.3节EVIEWS时间序列分析57第十三章：SPSS58第13.1SPSS基本操作58第十四章：数据分析实战经验67第一章：统计基础0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。回归时的扰动项u=unobserved是影响因变量的其他变量之和,Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标1 基本概念统计总体是我们所关心的一些个体组成,

6、如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。参数总体的数值特征描述，如均值、标准差等。统计量是用样本数据计算出来总体参数的估计值，从一个给定的总体中抽取容量为N的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果（根据这些不同抽样计算出的对同一参数进行估计的统计量，可以计算出由各个统计量构成的集体的方差，该方差就是在统计软件中参数后面扩号内的方差），这符合随机变量的定义，因此该统计量也是随机变量，这个统计量的分布称之为抽样分布，它是从同一总体所抽出，同

7、样大小的所有可能样本，其统计量的值的分布，一般情况下是一个正态分布，因为所有的估计值都是对总体参数的近似估计，因而服从以真实值为中心的正态分布，如果总体的分布是已知的则可以根据公式计算统计量抽样分布的分布参数（均值为总体的均值，标准差为总体的标准差与的比值）。 4在一个样本之中包含若干个样本点，各个样本点所对应的个体的某种特征是一个变量，不同个体的该变量的取值相互独立，并且服从某种分布，因此根据样本计算的统计量可以看成是若干个独立变量的函数形式，其分布参数如均值、标准差可用数学公式推导。时间序列是指同一现象在不同时间的相继观察值排列而成的序列,基本上不存在趋势的序列叫做平稳序列,它的各种统计指

8、标不随着时间而变化，在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中，同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势（找一条长期的趋势线）、季节变动（确定季节比率）、循环变动和不规则变动。时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果，利用时间序列数据进行预测时，通常假定过去的变化趋势会延续到未来，这样就可以根据过去已有的形态或模式进行预测。统计决策是指根据样本的信息对总体的情况做出判断。点估计是根据样本用与计算总体参数相同的法则（如求平均数）+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。区间估计就是点估计

9、值边际误差，边际误差是根据显著性水平及统计量的标准差，如大样本时在0.05的水平下边际误差为1.96*标准差。95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有95%会把真正的总体参数包含在区间之中，根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同，根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计，是总体参数的若干置信区间中的一个，如果继续不断的抽样下去。每个样本会产生一个新的对总体参数的置信区间，如果我们如此不停的抽样下去，所有区间中有95%会包含真正的参数值。区间的概念提醒我们，因为我们只有样本数据，所以我们

10、对于总体的所有叙述都不是确定的。变量是说明个体的某种特征的概念，如“受教育程度”、“身高”等，说明事物类别的名称叫做分类变量(categorical variable)，如性别就有两个分类变量男、女；说明事物有序类别的一个名称，称为顺序变量(rank variable)，如一等品、二等品、小学、初中、大学等；说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的叫做数值型变量(metric variable或者scale variable)是量数据如产品产量年龄等。数值型数据围绕其平均值分布的集中程度称为数据的离差。根据不同度量可以定义不同的离差，最常用的有全距、标准差等。以变量X的标准差

11、S为单位来度量X与其平均值之间的偏差的变量Z称为标准化变量，它是一个无量纲量，标准化变量的数值称为标准分数或Z分数。偏度是一个分布中不对称程度或偏离对称程度的反映，如果分布的频数曲线右边的尾部比左边的长，则称分布是向右偏反之则称分布是向左偏。偏度=（均值-众数）/标准差。峰度是分布陡峭程度的反映，通常是相对于正态分布言，其值叫做峰度系数，用四阶中心矩与标准差的四次方的比值表示。变异系数是指变量的标准差与平均值之比。相关系数反映两个变量之间线性关系的强弱。假设检验分为参数检验和非参数检验，前者是指对总体分布函数中未知参数提出某种假设，然后利用样本信息对所提出的假设进行检验并做出判断，参数检验需要

12、样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等，但实际情况中，上述的假定不一定完全合理，或者在应用中对这些假定有怀疑，因此统计学家设计了许多与总体的分布及相关参数无关的检验方法，称之为非参数检验。如一个人号称罚球命中率为80%，为了检验他是不是吹牛皮，于是让他现场投20个球，这就是显著性检验，结果他只投进了4个，计算得在命中率为80%情况下，投20个只进4个的概率为0.2%，则此0.2%就是通常所说的P值。如果P值很低（通常小于5%）则可以拒绝原假设。假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它，因此原假设通常是与数据表面所显现出

13、来的现象的相对立的现象。在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验，如检验零件直径是否等于10；如果要确定参数大于或小于某值则用单尾检验如检验奶粉中蛋白质的含量是否大于30%。两者的区别仅仅在于拒绝域不同。在做假设检验时犯第一类错误（原假设正确却遭到拒绝）的最大概率称为显著性水平，显著性水平越高则表明限制条件越严格，在正态分布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大，原假设被拒绝的可能性就越大，回归结果中某系数的精确显著性水平越高则越有可能接受原假设，即系数越有可能为0，系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为0，系数不为0的可能性越小，在越低

14、的显著性水平下显著则表明系数不为0的可能性越大。假设一个统计量（如灯泡寿命）A服从均值为标准差为的正态分布，则（A-）/叫做Z分数(也叫标准化变量),它服从均值为0标准差为1的标准正态分布。t统计量是模仿Z分数而建立的，区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均值的检验（Z或t统计量计算公式中的都取原假设中的值），此时作为分母的是s/代替（s为样本标准差），也就是用多个变量的均值的标准差代替，因为该统计量是根据样本的均值计算而得，也是用于均值的检验。T和Z检验用于检验回归方程中某个自变量的系数是否为0，F检验用于检验是不是所有的系数都为0。方差分析用

15、于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等，所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响，如行业不同是否对受到投诉的数量有影响，行业是称为因素，旅游、零售、家电具体的行业叫做因素水平（在SPSS中相当于一个VARIABLE的不同的值）。计算旅游、零售、家电各行业各自的标准差，然后平均得到组内方差，并认为组内方差是完全是由随机因素造成的，根据各行业的各自的平均值与总均值之差的平方和得到组间方差，并认为组间方差是由于不同的因素水平所造成的，如果各因素水平对因变量（

16、投诉量）无影响，则组内方差与组间方差应该相等，或者说两者的差别在统计上是不显著的，组间与组内方差之比是一个F统计量，通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。17 描述性统计量是对（相当于SPSS中的）某一变量特征进行描述的一些统计指标，均值是对一个变量的中心位置的度量，其计算方法是先加总所有CASE的值然后除以数据的个数，其应用如应收帐款的平均帐龄为45天。中位数是对中心位置的度量，它是当CASE按照升序排列时，处于中间位置的CASE的变量值，它是对均值的补充，如在年度收入和资产价值数据的报告中，这是因为个别异常大的收入或资产价值能够使均值膨胀，此时中位数

17、是对中心位置的更好的度量，如应收帐款的帐龄的中位数为35天表示超过一半的应收帐款帐龄的天数在35天以上。众数也是对均值的补充，是在各CASE中出现频率最高的数据的值，如应收帐款帐龄的众数为31天，表示应收帐款最普通的帐龄为31天。四分位数是先把数据进行升序排列，然后把数据依次分为四段，每段含有25%的观察值，中间的三个分段点从小到大分别称为第一二三四分数点，如帐龄的第一四分数点为12天表示有25%的CASE的帐龄小于12天有75%的CASE的帐龄大于12天。极差是各CASE的某变量值的最大和最小值的差，该指标容易受异常值的影响，很少单独用来表示变异程度，如帐龄的极差为18表示最长的帐龄比最短的

18、帐龄多18天。方差是利用所有的CASES对某变量值的变异程度的度量，在单位相同时可以用于比较两个变量的变异程度，可以用来度量与股票投资相关的风险，它给出每月收益如何围绕和期平均收益波动。如零件的尺寸的标准差表明了生产加工技术的稳定性。变异系数是标准差与均值的比值，常用于比较变量的变异程度，如A加工零件尺寸的变异系数为15%，而B为10%，表明A加工技术要比B稳定。切比雪夫定理认为与均值距离在Z个标准差以内的CASE例至少为1-1/Z，一般情况下68%的数据与均值距离在一个标准差以内，95%的数据在2个标准差以内，几乎所有的数据都在3个标准差以内，以上所述可以用于异常值的检测，然后确定异常值是否

19、正确。4 参数检验分为一个总体参数的检验和两个总体参数的比较检验,前者是为了确定某一总体的参数是不是某一个值,而后者是为了比较两个总体的参数是不是相等。检验（z检验和T检验）什么参数则需要根据样本计算什么参数的值及该参数的标准差（/或S/），如要检验均值是否为某个值则需要根据样本计算样本均值及样本均值的标准差。5大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化，我们可以用 “平均”，“差距”或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。6概率分布是关于总体的概念。有了概率分布就等于知道了总体。6统计中

20、各种常用分布CHI-SQUARE分布，一个正态分布的变量的平方服从自由度为1的CHI-SQUARE分布，K个独立的正态分布变量的平方和则服从自由度为K的CHI-SQUARE分布，在统计中CHI-SQUARE的自由度的意义是独立观察值的个数K，自由度是卡方分布的参数就像均值和标准差是正态分布的参数一样，如样本中每个灯泡的寿命服从正态分布，则5个灯泡的寿命的平方和服从自由度为5的卡方分布。CHI-SQUARE可以用于总体标准差是否为某值的假设检验。T分布，X来自一个正态总体样本，则变量服从T分布，其中U是总体的均值，S是样本方差，N是样本中样本点的数量，自由度为N-1，T统计量是根据样本数据计算

21、而得。F分布,两个相互独立样本的样本方差之比在代入样本数据之前叫做F变量,代入样本数据之后叫做F统计量，服从F分布,F统计量经常用于比较两个样本的方差是否相等的假设检验，分子分母的样本方差的计算公式分别为、，记为F（M-1，N-1）。另外它也可以用于检验拟合优度的显著性此时,n是观察值的个数,k是包括截距在内的解释变量的个数。F-分布变量为两个-分布变量（在除以它们各自自由度之后）的比；而两个-分布的自由度则为F-分布的自由度，因此，F-分布有两个自由度；第一个自由度等于在分子上的-分布的自由度，第二个自由度等于在分母的-分布的自由度。二项分布，二项试验是指把相同的试验进行N次，并且每次试验只

22、有两种可能的结果，单次试验成功的概率为P，每一次试验都独立进行，如果对于卖保单的例子，如果随时间推移推销员疲劳并失去了热情，则不能保证“单次试验成功概率为P”。在一个二项试验中，我们关心的是在N次试验中出现成功的次数，如果以X表示N次试验中成功的次数，我们可以看到X可取的值为0、1、2N因为值的个数是有限的,故X是离散型随机变量,与该随机变量有关的概率分布叫做二项分布（属于离散型），如果知道每个顾客进店买某商品的概率和进店顾客的数量（根据以往的经验取得），则可以估计每天需要的货量。二项分布是指做有限次只有两个结果的试验中，实验成功次数为B的概率，泊松分布是指做无限次只有两个结果的试验中，实验成

23、功次数为B的概率。泊松分布，泊松试验是指事件在任意两个等长度的区间内发生一次的概率相等，并且事件在一区间发生与否与其他区间独立，则事件发生的次数服从泊松分布（属于离散型）。在已知一个区间内事件发生次数的平均值时，事件在一个区间内发生X次的概率为e/x！,花旗银行用此公式计算1分钟内到达某ATM机的人数为2及以上以上的概率以确定是否增加ATM机的数量。 7 8对于连续型随机变量X，a下侧分位数（又称为a分位数，a-quantile）定义为数，它满足关系。上侧分位数定义为满足关系的。通常用表示标准正态分布的a上侧分位数，即对于标准正态分布变量Z，有。一个由正态变量导出的分布是-分布(chi-squ

24、are distribution，也翻译为卡方分布)。该分布在一些检验中会用到。n个独立正态变量平方和称为有n个自由度的-分布。正态变量的样本均值也是正态变量，能利用减去其均值再除以其(总体)标准差来得到标准正态变量。但用样本标准差来代替未知的总体标准差时，得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布，但是中间瘦一些，而且尾巴长一些。这种分布称为t-分布(t-distribution，或学生分布，Students t)。9判明一个事情的真伪，需要用事实说话。在统计中事实总是来源于数据。假定某药厂声称该厂生产的某种药品有60的疗效。但是当实际调查了100名使用该药物

25、的患者之后，发现有40名患者服后有效。这个数据是否支持药厂的说法呢？药厂所支持的模型实际上是一个参数为0.6的Bernoulli试验模型。100名患者的服药，实际上等于进行了100次试验。这就是二项分布B(100,0.6)模型。由于使用了药厂的0.6成功概率。这个模型是基于药厂的观点的。可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率。通过计算（或查表，后面会详细描述）易得，在药厂观点正确的假定下，这个概率为0.000042。这说明，如果药厂正确，那么只有40名患者有效这个事实是个小概率事件，即“少于或等于40名患者有效”的可能性只有大约十万分之四。这样在药厂的观点和事实

26、之间有了矛盾。是事实准确还是药厂准确呢？显然人们一般不会认为药厂的说法可以接受。这样，就利用小概率事件来拒绝了药厂的说法。这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。5 建模是一个建立估计回归方程的过程，经过这一过程，我们可以得到描述一个因变量和一个或多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变量之间的关系，并且选择该模型所应包含的自变量。6 假设检验中的原假设是从数据表面所显现出来的现象的相对立的现象。7 假设检验时T、CHI-SQUARE、F、Z都是以正态总体的样本为基础的统计量，在代入样本的观察值以前叫做变量，服从抽样分布，并且

27、它们的分布事先已知。只所以要用这些统计量是因为它们可以根据样本很容易的算出，然后可以比对在原假设正确的条件下取得该（T、F、Z、CHI-SQUARE）值的概率（P值），如果该概率小于确定的显著性水平，或者在无预先确定的显著性水平下小于5%，则拒绝原假设，否则接受原假设。也可以与确定的显著性水平下的Critical value相比对，如果大于Ccritical value则拒绝原假设。8 假设检验中最重要的就是根据要检验的参数构造一个其分布情况已知的统计量，第二步是根据统计量的分布及事先人为规定的显著性水平确定一个大概率事件和小概率事件（大概率事件是指根据样本计算的统计量与原假设值距离在一定范围

28、之内，小概率事件是指根据样本计算统计量与原假设值的距离在一定范围之外），第三步是根据样本统计量看是小概率事件发生还是大概率事件发生，如果大概率事件发生则原假设正确否则拒绝原假设。9 无论是Z检验还是t检验归根到底都是要在一定的显著性水平下看根据样本计算的统计量与原假设值距离的远近，当然此距离是以标准差来计量，当此距离超过某一标准则认为原假设不正确，此标准是根据显著性水平通过查表来确定。越显著也就是显著性水平越高,检验标准越严格,接受原假设的区域越窄,如果要接受原假设则要求抽样值离原假设值越近，如0.1的显著性水平下要接受原假设要求的抽样值比在 0.05水平下接受原假设要求的抽样值离原假设值近。

29、 14 协方差是二元变量（X，Y）中X 和Y之间线性关系强弱的度量指标，在统计中用于度量两个变量间线性关系的强弱（因此SPSS的COVARIANCE MATRIX用于观察在度量单位相同的条件下各变量间相互关系的强弱），是根据样本点计算而得，其定义式为，但是这个定义式用于样本协方差的估计是有偏的，协方差的无偏估计量，如果协方差为大的正值则表示存在强烈的正相关关系，如果协方差为大的负值则表示存在强烈的负相关关系，但是用协方差作为线性关系强度的度量指标时，存在的一个严重问题是协方差的值依赖于X和Y的度量单位，如使用厘米为单位计算的协方差要大于使用米作单位计算的协方差。为避免这种麻烦用相关系数代替，相

30、关系数的计算公式为。自变量和因变量之间的相关系数与用OLS回归方程中自变量的系数不是一回事后者的计算公式为，但是两者的符号是相同的。15 为什么协方差能表示线性关系的强弱呢？因为如果以X=和Y=将散点图分为四个象限,如果协方差为正,则对他有最大影响的点一定在一和三象限,因此协方差为正值表示X与Y之间存在正线性关系.也就是说,当X增大时,Y的值也增大.如果协方差为负,对它有最大影响的点一定在二四象限。因此协方差为负就表明X和Y之间存在负线性关系。也就是说，当X的值增大时，Y的值减小。最后，如果各点是均匀分布在四个区域内，则协方差的值将接近于零，表示X和Y之间不存在线性关系。第二章：计量经济学总论

31、1计量经济学的内容框架，包括最小二乘法基本原理、最小二乘法的假设条件和不满足假设条件时的处理办法三个大的部分。最小二乘法的基本原理包括参数估计、估计参数的性质（BLUE）、估计结果的统计推断。首先是OLS的原理，即最小二乘法是找一条线，使样本点与线之间距离的平方和最小，具体做法是首先假设一条线，然后求得用这条线的参数表示的距离的平方和，然后用求距离极值的一阶条件，求出这些参数，就得到了最小二乘法的估计结果，得到结果后就是对结果的统计推断，包括可决系数、T检验、F检验、以及假设条件是否满足前提假设的检验。最小二乘法是在一系列假设的基础上进行的，这些假设主要是关于自变量与因变量关系、自变量间的关

32、系，自变量与扰动项的关系、扰动项之间的关系。接下来讨论的就是假设不满足的条件下的回归分析，包括的主要内容有非线性模型的线性化、特殊变量、异方差、自相关和多重共线性（概念、检验、原因、影响和处理办法）。*最小二乘法的基本原理最小二乘法是估计变量间相关关系的一种方法，变量间的相互关系总本而言有两种，其一是函数关系，其二是相关关系，变量间相互依赖相互影响，但是变量间所表现出的却不是确定的函数关系，如图，影响Y的因素除了主要有X之外，还有若干不重要的因素，把这些不确定的因素归并到一个变量中，建立变量之间关系的数学模型，在这个数学模型中，a和b是有待估计的系数，最小二乘法就是估计系数a和b的一种方法，具

33、体的原理是，首先令X和Y之间的关系为，然后把各个样本点的自变量值代入该式，计算出对应于各样本点的自变量的因变量的值，此是以和为参数的表达式，然后计算各样本点对应的与的差的平方和，该平方和是以和为参数的二元函数，接下来为了得到和的估计值就要求这个二元函数对和的偏导数，然后利用函数求极值的一阶条件，令二个偏导数分别等于0，然解方程组得到和的估计值，体现在图中是什么意思呢，就是找到一条最佳的线，使各样本点到该线的纵向距离的平方和最小，求得和的估计值分别为，和，由这两个估计式的形式可以发现，要先估计后估计，这两个式子中表示第i个样本点的自变量值与各样本点的自变量的均值的差，表示加和，这是最简单的一元线

34、性回归模型的估计方法，也是最小二乘法的一个最简单的应用，对于多变量的最小二乘法与此基本一样。其中最关键的一点是通过求极值条件，将各个样本点所代表的自变量和因变量关系转化为关于估计系数的方程。通过最小二乘法把a和b的值估计出来以后，接下来一个问题就是估计结果的准确性了。a和b的准确性，由各样本点得到的a和b的估计值，只是根据抽样得到的样本点计算的，不一定就是真值，要得到真值就必然根据总体中所有的样本点进行估计，而这通常是不可能的，如对于灯炮内所充惰性气体的量与灯泡寿命的关系，不可以把所有的灯泡都拿来做试验，这在经济上是不可行的，我们所能做的只是根据其分布情况进行统计推断，看看这个统计量是不是无偏

35、的，有效的。所谓无偏就是估计值的数学期望等于真值，其含义可以近似的理解为当我们对做若干次试验后得到的估计值的均值就是真值，即Y和X的真实的关系。有效性就是估计值的方差最小，通过概率分析可以知道，OLS估计量是具有BLUE的性质。a和b的显著性，根据概率论的知识可知，a和b是服从t分布的，并且其方差也可以根据概率论的知识计算得到，可以根据样本计算出a和b的t值，看估计得到的a和b是否具有统计显著性。a和b估计出以后的另一个问题是看这个方程的显著性和对Y的变化情况的解释力，这要通过F值和来判断。最后，还要回过头来总体的看一下这个回归的结果，首先就是要问你怎么知道X和Y之间就是一种线性关系，如果不是

36、线性关系，又该怎么办。这也就牵扯到最小二乘法的假设。从假设可以演生出计量经济学的其他的主要内容。1 回归分析研究一个变量对另一些变量的依赖关系，但他并不意味着因果关系。2虚拟变量是指定性变量或者分类变量。3在进行时间序列数据分析时首先要验证数据的平稳性，平稳是指一个时间序列的均值和方差在时间上都没系统性的变化，要看一时间序列是否平稳，可以计算一个时间段上的均值和方差然后与另一时间段上的均值与方差比较，如果相等则平稳否则不平稳。4面板数据的缺点是异方差性，即样本中的样本点不是一帮人，相当于不能把苹果和桔子混同起来，如果必须把两者放在一起考虑如看水果的重量与光照的关系，可以加一个虚拟变量用以曲别

37、苹果和桔子两种水果，时间序列数据的缺点是平稳性问题。5通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的，所以在建立模型时，必须依靠经济理论，同时对参数进行假设检验。*不同回归方法的选择在决定使用各种具体的回归方法之前，首先用OLS进行一下回归，然后根据回归的结果考察使用哪种具体的方法进行回归。第三章：双变量回归分析第3.1回归方法*回归模型中Y是一个数学期望的概念，解释变量x取某一个确定值时(在回归模型中不是随机的而是确定的值)，因变量由于扰动项的原因可以取得若干个值，可以认为对应自变量的因变量是一个随机变量，回归模型中的Y是在自变量取时因变量所有可能取值的数学期望，因此在回归模型

38、中的，根据回归方程每一个因变量的值可以分为数学期望和扰动项两部分的和。3 线性回归方程Y=B1+B2*X1的完整表示应该是E(YXi) =B1+B2Xi，E(YXi)表示给定X值相应的(或条件的) Y的均值，也就是说回归方程的因变量的值是当解释变量为某个值时因变量所有可能取值的均值。4线性回归方程的线性有两方面的含义，其一为解释变量线性，其二为系数线性，也就是说方程右边只能是系数与解释变量的乘积，其中的任何一个都不能是任何的函数形式。1在一般的情况下，回归模型中要含有截距项，这样做有如下两点好处，第一，尽管模型中含有截距项，但若该项的出现是统计上不显著的，则可以认为回归结果是一个过原点的回归模

39、型。第二，如果实际模型中含有截距而我们的回归模型中无截距则我们的模型就有了设定模型错误。因此模型中要含有截距项。2在双变量模型中，如果因变量与自变量的单位都是货币，那么以元为单位与万元为单位的回归结果中的斜率是相同的，不同的是截距项要根据度量单位的变化而相应的扩大或缩小计量单位之间换算比例倍，如果因变量与自变量单位不同，一个是元一个是公斤，那么换成吨后的斜率将会发生变化。3双对数log-log模型是指等号两边的变量都采取对数的形式，如,这个模型用于估计因变量对自变量的弹性，系数b就是就表示Y对X的弹性。4log-linear模型是指等号左边是logY，等号右边是bx的形式，如,用于测量X变化1

40、时Y变化的百分比，其大小为b，当X表示时间时，b为因变量的瞬时增长率。5linear-log模型是指等号左边为Y，等号右边为的形式，如，用于确定X变化1%时，Y变化的绝对量。6回归系数的方差、的计算，每一个样本点都可由一个向量表示，该向量的分量由自变量和因变量构成，自变量和因变量相当于一个样本点的坐标，自变量是确定的值，因变量的数值是由自变量的值和扰动项决定的，对于每一个样本点在回归之前解释变量和因变量的关系虽然是未知的，但却是确定的，因此，因变量的分布是由扰动项的分布决定的，根据扰动项的分布可以计算出因变量的分布，而回归的系数是由各样本点的自变量和因变量值确定的，因此，可以根据因变量的分布来

41、计算出回归系数的分布，从而计算出这些系数的期望和方差。7在计量中一个向量如无特殊说明都是指列向量。因为，通常情况下每个观察点都有一个自变量和因变量的关系方程，放在一起，各个变量对应一个列向量。4在回归模型中，解释变量是确定的，对应每一个解释变量的值，因变量都是一个随机变量，因变量序列中有多少个CASE则对应的有多少个作为随机变量的因变量，只所以是随机变量，是因为扰动项是随机变量。2用最小二乘法估计的方程的系数是线性无偏一致最小估计量，最小是指方差最小，极大似然估计法也是估计方程系数的方法但其结果是有偏的不如最小二乘法的结果好。第3.2结果检验由于回归的结果是根据样本计算出的估计值，因此必须要检

42、验其统计可靠性，统计可靠性的检验分为系数可靠性的检验和方程可靠性的检验，前者主要是t检验，后者主要是F检验和,进行统计检验的前提条件就是要知道待检验变量的分布情况，这也是3.3的主要内容。*对于一个样本总体因变量和自变量之间存在着一个总体回归函数，即在样本中包含总体中的所有的点时自变量与因变量之间的关系，这种关系是肯定存在的，但是由于在样本中不可能包括总体中的所有点，只能根据样本回归函数来代替总体回归函数，并且根据样本数据回归出的样本回归函数只能是总体回归函数的一个近似，并且不同的样本得到的样本回归函数不同，这就使得回归函数中的系数可以取得若干个值，因此就有了在SPSS回归结果中的某个回归系数

43、的方差指标的由来，不同的样本回归函数对样本中因变量与自变量的关系的解释力不同，解释力的大小用指标来衡量。*因变量各个值与其均值的离差的平方和TSS可以分解为估计的Y值围绕其均值的离差的平方和ESS加上残差的平方和RSS=，即TSSESSRSS，即因变量的观测值围绕其均值的变异可以分为两部分，一部分来自回归线，这部分相当于固定的，另一部分来自随机势力，回归结果好坏的统计指标，当两个模型的因变量不同如一个是Y另一个是LnY时不具有可比性。1置信区间是在区间估计时用到的一个概念，求一个参数的置信区间首先根据样本计算出该参数的点估计值，然后再加减对应显著性水平的一段区间，这段区间通常是根据样本计算出的

44、标准误的多少倍，具体多少倍要根据显著性水平确定。2在用OLS等方法估计出系数的数值后，还要检验一下这个点估计值是否是真值为0的情况下的一个随机值，也就是这个估计值可以在真值为0的情况下由于扰动项的原因而出现，如果检验的结果是估计值不可能在真值为0的情况下由于扰动项的原因而出现，那么就认为估计值是显著的。检验方法有两种，一种是置信区间检验法，即看在真值为0，标准误为根据样本计算出的标准误的情况下，根据显著性水平确定一个置信区间如果，估计值落在置信区间的外面则拒绝原假设认为真值不为0，估计值显著，由于显著性水平越低时对应的置信区间越长，因此在越低的显著性水平上拒绝原假设则估计值的显著性水平越高；第二种方法是T值和F值检验法，如果根据估计值和原假设值以及标准

展开阅读全文