第五章 虚拟与离散变量回归模型.docx

上传人:小飞机 文档编号:1674573 上传时间:2022-12-13 格式:DOCX 页数:60 大小:592.63KB
返回 下载 相关 举报
第五章 虚拟与离散变量回归模型.docx_第1页
第1页 / 共60页
第五章 虚拟与离散变量回归模型.docx_第2页
第2页 / 共60页
第五章 虚拟与离散变量回归模型.docx_第3页
第3页 / 共60页
第五章 虚拟与离散变量回归模型.docx_第4页
第4页 / 共60页
第五章 虚拟与离散变量回归模型.docx_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《第五章 虚拟与离散变量回归模型.docx》由会员分享,可在线阅读,更多相关《第五章 虚拟与离散变量回归模型.docx(60页珍藏版)》请在三一办公上搜索。

1、第五章 虚拟与离散变量回归模型前面所研究的回归模型,其变量都是在取一些实际的数值,一般是连续的。实际工作中经常遇到变量取离散数值情形,它的回归模型需要给予特殊的考虑。在经济分析中还经常遇到因变量不是数值,比如买与不买,升与降,有与无等。这些选择可以给予一个虚拟变量并赋以数值代表。这样的回归当然就更有特色了。本章就研究这一类回归模型。第一节 虚拟变量作自变量的模型在回归模型中,因变量往往不仅受到那些取实际数值的自变量(如价格、工资收入、产量、温度、距离、重量等等)的影响,而且受到一些不取实际数值的自变量(如性别、国籍、种族、颜色、学位、地震、罢工、政治动乱、政府更叠等等)的影响。要在模型中反映这

2、种影响,可以引进虚拟变量,人为给予这些因素赋以一定数值。如果某因素只有二种选择(如性别),可以引进虚拟变量当然也可以给Di赋值(1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。如果某因素有多项选择,如学位,你可以引进虚拟变量等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。 一、虚拟变量作加项,工资性别差异设对某种职业者的工资采集了10个样本,列于下表,工资单位略去,性别栏中1表示男性,0表示女性。表5.1.1序号12345678910工资22.019.018.021.718.521.020.517.017.521.2性别1001011001我们以性别为自变量建立回归模型(5.

3、1.1)对于表中资料回归得它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数1的t统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。一般地,对模型(5.1.1)(5.1.2)(5.1.3)若1显著性检验通过,应认为Di的属性集合存在显著差别。上面的模型除了考虑性别外,没有考虑任何其它因素。如果考虑其它因素对工资的影响,比如工龄,可以取实际数值,以X表示,则有模型 (5.1.4)此时 (5.1.5) (5.1.6)如果系数1是统计显著的,表示工资还是存在性别差异。如果某个因素有3个属性,能不能用这种两项选择的开关变量表示呢?可以

4、使用两个开关变量。比如学位分3个等级:学士,硕士,博士,就引进建立如下模型 (5.1.7)则 (5.1.8) (5.1.9) (5.1.10)不过更多的情况是将两个虚拟变量用来区分两个因素,如用D1区分性别,用D2区分肤色,等等。可以使用更多的虚拟变量,如有人研究业余兼职者的工资状况,建立过如下的回归方程 (5.1.11)式中X1是第一职业工资,D2D5都是开关变量,用来区分肤色(白人,非白人),居住地(城区,非城区),地域(西部,非西部),学历(高等教育,非高等教育)。X6是年龄。这一段谈到的都是虚拟变量作加项,它影响回归方程的均值。二、虚拟变量作乘项,储蓄与收入分段拟合比较这一段考虑虚拟变

5、量作乘项,它影响回归方程的斜率。开始我们也看一个具体的数值例子。表5.1.2是英国19461963年居民储蓄与收入资料,单位是百万英镑。表5.1.2年份储蓄收入年份储蓄收入19460.368.819550.5915.519470.219.419560.9016.719480.0810.019570.9517.719490.2010.619580.8218.619500.1011.019591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.5013.519621.7523.919540.4314.319631.9925.2

6、表上粗略显示,资料可以分为两个时期:19461954年为战后恢复时期,19551963年为振兴时期。我们可以分别建立两个回归方程(5.1.12)(5.1.13)对于本例具体资料,可以回归得(5.1.14)(5.1.15)两个方程的斜率不一样,反映储蓄增长速度后来加快了。要检验这组资料是否真的应该划分为两组,建立两个回归模型,或说要检验这两个回归方程是否有显著性差别,可以使用Chow检验法(具体方法在后面介绍)。但是,一组资料用两个方程描述会带来诸多不便。使用虚拟变量,可以用一个方程描述回归方程斜率参数(非常数因子)的变化。对于本例资料,可以建立如下方程(5.1.16)其中Y为储蓄,X为收入,D

7、为二值虚拟变量则(5.1.17)(5.1.18)对于本例资料,可以计算得回归方程(5.1.19)取Di=0,则(5.1.20)取Di=1,则(5.1.21)与两个方程效果是一致的(末位数含有舍入误差)。效果是一致的,为什么要采用一个方程而不用两个方程?除了便于统一处理外,一个方程很大的优点是增加了自由度,从而增加了参数估计的精度。样本数几乎增加一倍,而因增加变量数仅减少两个自由度,我们知道自由度=n-m。有人使用虚拟变量建立失业率与工作空位率之间的关系,也是有一个参数变化点:(5.1.22)这里UN是失业率(unemplogment rate),V是工作空位率(job-vacancy rate

8、),D是二值开关变量。有人建立起服装消费与性别、文化教育的关系,使用两个开关变量(5.1.23)这里Y是服装的消费量,X是收入,D1用来区分性别,D2用来区分受教育程度。由于考虑女性受过高等教育者的服装消费远大于其它人,即性别因素与受教育程度有交互作用,故将回归方程改进为(5.1.24)即添加一项(D1iD2i)以反映交互作用。下面我们仍以表5.1.2资料为例介绍Chow检验。设有n1组资料可以是多元,以及n2组资料(Y2i, X2i), X2i须与X1i维数相同,对它们分别建立回归模型:(5.1.25)(5.1.26)Chow检验的目的是鉴别这两个模型究竟有无显著性差别。它的步骤如下:(1)

9、合并这两组资料,建立一个统一模型:(5.1.27)算得残差平方和S,其自由度是n1+n2-m。(2)分别计算两个单独模型的残差平方和S1(自由度n1-m)与S2(自由度n2-m)。(3)令S3=S1+S2 (自由度是n1+n2-2m),S4=S-S3(自由度是m),建立统计量(5.1.28)在两个单独的回归模型一致的假设下,统计量F应服从自由度为的F分布,在显著性水平下,查得临界值,如果F超过了临界值,就在置信水平1-下拒绝两个回归模型一致的假定。Chow检验简便易于操作,但是结果比较粗糙。如果拒绝了一致性假设,只知道两个模型存在显著性差异,可是到底是不一样,还是i不一样,就不得而知了。在表5

10、.1.2资料中,算得(5.1.29)故拒绝两个单独模型一致的假定,即认为英国在战后恢复期与振兴期的居民储蓄与收入关系存在显著性差异。下面以本段资料给出算例与计算程序及结果。算例5.1.2 分段回归与Chow检验读者可以从打印出来的含虚拟变量数据具体体会虚拟变量的构造与作用,最后的拟合效果图(图5.1.2.1)清楚显示这个分段回归,是分两段直线段。-虚拟变量分段回归与 Chow 检验, 例 5.1.2. 例512.D 数据文件中, n=18, m=1, N1=9N1+N2=N, 分段回归第二组资料的个数是 9要显示原始资料吗? 0=不显示, 1=显示 (0)总的回归方程 样本总数 18Y = -

11、1.0821 + .1178 X1 总的残差平方和 Q : .5722 自由度 : 16第一个回归方程 样本总数 9Y = -.2663 + .0470 X1 第一个方程的残差平方和 Q1 : .1397 自由度 : 7第二个回归方程 样本总数 9Y = -1.7501 + .1504 X1 第二个方程的残差平方和 Q2 : .1931 自由度 : 7现在作两个回归方程差异显著性 Chow 检验 请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=?统计量: 5.0371 临界值: 4.6001显著, 两个回归方程存在显著性差异 下面引进虚拟变量作回归 要打印重新构造的回归

12、资料吗? 0=不打印, 1=打印 (1)打印重新构造的含有虚拟变量的回归数据 .3600 1.0000 8.8000 8.8000 .2100 1.0000 9.4000 9.4000 .0800 1.0000 10.0000 10.0000 .2000 1.0000 10.6000 10.6000 .1000 1.0000 11.0000 11.0000 .1200 1.0000 11.9000 11.9000 .4100 1.0000 12.7000 12.7000 .5000 1.0000 13.5000 13.5000 .4300 1.0000 14.3000 14.3000 .590

13、0 .0000 15.5000 .0000 .9000 .0000 16.7000 .0000 .9500 .0000 17.7000 .0000 .8200 .0000 18.6000 .0000 1.0400 .0000 19.7000 .0000 1.5300 .0000 21.1000 .0000 1.9400 .0000 22.8000 .0000 1.7500 .0000 23.9000 .0000 1.9900 .0000 25.2000 .0000 打印使用虚拟变量的回归方程 Y= -1.7502 + 1.4839 X1 + .1505 X2 + -.1034 X3 打印使用虚

14、拟变量的回归分析结果 现在作线性回归显著性检验, 计算t,F,R 统计量请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=?-线 性 回 归 分 析 计 算 结 果 样本总数 18 自变量个数 3- 回归方程 Y = b0+b1*X1+.+b3*X3Y= -1.7502 + 1.4839 X1 + .1505 X2 + -.1034 X3 回归系数 b0, b1, b2, ., b3 -1.7502 1.4839 .1505 -.1034- 残差平方和: .33 回归平方和: 6.69 误差方差的估计 : .0185 标准差 = .1360-线 性 回 归 显 着 性 检

15、 验 显著性水平 : .050- 回归方程整体显著性F检验, H0:b0=b1=.=b3=0 F统计量: 93.8415 F临界值F(3, 14) 3.344 全相关系数 R : .9760- 回归系数逐一显著性t检验, H0:bi=0, i=1,.,3 t 临界值 t( 14) 1.7613 回归系数b1-b 3的t值: .7035 2.0601 .6934-要作回归预测吗? 键入 0=不预测, 1=要预测 (1)要打印拟合数据吗? 0=不打印, 1=打印 (0)计算结束。 -三、横截面分析下表列出的资料曾被Y.Grunfeld用作著名的投资理论研究。Y资料列表示总投资,X1表示公司资产价值

16、,X2表示公司股票价值。从纵向看,资料形成一个时间序列,随年份而变化,表中列出的是从1935年到1954年。资料有两组,一组是A公司的,一组是B公司的。从横向看,在一个固定的年份,采集来的资料可以组成一个横截面分析。但是很遗憾,这个表中每个横截面只有两组资料,比如在1935年,只有 Y X1 X2317.63078.52.812.93191.51.8这么少数据,不可能建立回归模型算出回归方程。 表5.1.3投资分析资料A公司B公司年份YX1X2YX1X21935317.63078.52.812.93191.51.81936391.84661.752.625.90516.08.01937410.

17、65387.1156.935.05729.07.41938257.72792.2209.222.89560.418.11939330.843413.2203.418.84519.923.51940461.24643.9207.228.57628.526.51941512.04551.2255.248.51537.136.21942448.03244.1303.743.34561.260.81943449.64053.7264.137.02617.284.41944547.54379.3201.637.81626.791.21945561.24840.9265.039.27737.292.419

18、46688.14900.9402.253.46760.586.01947568.93526.5761.555.56581.4111.11948529.23254.7922.449.56662.3130.601949555.1370.21020.132.4583.8141.81950642.93755.61099.032.24635.213.671951755.94833.01207.754.38723.8129.71952897.24924.91430.571.78864.1145.519531304.46241.71777.390.081193.5174.819541486.75593.62

19、226.368.61188.9213.5对于A、B公司资料,可以分别建立关于时间序列的模型:(5.1.30)(5.1.31)由于资料较多,回归没有问题。对于表中资料,我们具体计算得(5.1.32)(5.1.33)(5.1.34)三者的残差平方和都比较大,A方程的为143205.8,B方程的为1774.9,自由度都是17。总残差平方和为164213.8,自由度为37。从方程来看,从资料来看,这二者都是有显著差异的,可是作两个方程显著性差异的Chow检验,统计量为1.5035,临界值为3.2759(显著性水平0.05),居然结论是二者无显著性差异。原来,Chow检验是个一揽子检验,包括三个方程的残

20、差平方和与自由度,又有很强的假定:它们的方差来自同一正态母体,所以可能发生差异性互相抵消的结果。在本例,Chow检验只作参考。假设检验理论本来如此,拒绝了原假设H0,肯定有显著性差异;未拒绝H0,只能是暂时接受选择假设H1,还需作进一步分析。算例5.1.3 横截面分析模型我们选本例的主要目的是介绍利用时间序列资料作横截面分析的虚拟变量方法。首先建立虚拟变量模型:(5.1.35)这样有40组资料,5个自变量,回归得(5.1.36)从这个总方程里我们可以得到两个横截面方程。如令t=1(或t=2,,10)得(5.1.37)当然它比较适用于i=1,2的资料,即(5.1.29)所列的资料,它不正是一个横

21、截面分析吗?又比如令t=20或(t=11,,19)得:(5.1.38)它当然也应该适合两个公司的最后一组资料。可惜的是,本应该有20个横截面分析方程,可是它们实际上只有两个。但是,无论如何,横截面方程是有了,同时拟合精度还可以,因为整个方程拟合效果还好,拟合效果图见图5.1.3。为节省篇幅,没有打印两次回归的原始资料。使用者只须注意准备原始数据文件时,将表5.1.3中B公司的资料整体移到A公司资料之下方,形成一个40行、3列的数据块,然后按这个块键入资料。这个横截面分析调用的是上一段算例5.1.2使用过的程序,下面是它的人机对话。-横截面分析, 例 5.1.3. 第一列为 Y, 以后各列为 X

22、例513.D 数据文件中, n=40, m=2, N1=20N1+N2=N, 分段回归第二组资料的个数是 20要显示原始资料吗? 0=不显示, 1=显示 (0)总的回归方程 样本总数 40Y = -58.1096 + .0980 X1 + .3765 X2 总的残差平方和 Q : 164213.8000 自由度 : 37 第一个回归方程 样本总数 20 Y = -149.7815 + .1193 X1 + .3714 X2 第一个方程的残差平方和 Q1 : 143205.8000 自由度 : 17 第二个回归方程 样本总数 20 Y = -.5779 + .0529 X1 + .0931 X2

23、 第二个方程的残差平方和 Q2 : 1774.9010 自由度 : 17现在作两个回归方程差异显著性 CHOW 检验 请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.05)统计量: 1.5035 临界值: 3.2759 不显著, 两个回归方程无显著性差异 下面引进虚拟变量作回归 要打印重新构造的回归资料吗? 0=不打印, 1=打印 (1)打印重新构造的含有虚拟变量的回归数据 317.6000 1.0000 3078.5000 3078.5000 2.8000 2.8000 391.8000 1.0000 4661.7000 4661.7000 52.6000

24、52.6000 410.6000 1.0000 5387.1000 5387.1000 156.9000 156.9000 257.7000 1.0000 2792.2000 2792.2000 209.2000 209.2000 330.8000 1.0000 4313.2000 4313.2000 203.4000 203.4000 461.2000 1.0000 4643.9000 4643.9000 207.2000 207.2000 512.0000 1.0000 4551.2000 4551.2000 255.2000 255.2000 448.0000 1.0000 3244.1

25、000 3244.1000 303.7000 303.7000 499.6000 1.0000 4053.7000 4053.7000 264.1000 264.1000 547.5000 1.0000 4379.3000 4379.3000 201.6000 201.6000 561.2000 1.0000 4840.9000 4840.9000 265.0000 265.0000 688.1000 1.0000 4900.9000 4900.9000 402.2000 402.2000 568.9000 1.0000 3526.5000 3526.5000 761.5000 761.500

26、0 529.2000 1.0000 3254.7000 3254.7000 922.4000 922.4000 555.1000 1.0000 3700.2000 3700.2000 1020.1000 1020.1000 642.9000 1.0000 3755.6000 3755.6000 1099.0000 1099.0000 755.9000 1.0000 4833.0000 4833.0000 1207.7000 1207.7000 891.2000 1.0000 4924.9000 4924.9000 1430.5000 1430.5000 1304.4000 1.0000 624

27、1.7000 6241.7000 1777.3000 1777.3000 1486.7000 1.0000 5593.6000 5593.6000 2226.3000 2226.3000 12.9300 .0000 191.5000 .0000 1.8000 .0000 25.9000 .0000 516.0000 .0000 8.0000 .0000 35.0500 .0000 729.0000 .0000 7.4000 .0000 22.8900 .0000 560.4000 .0000 18.1000 .0000 18.8400 .0000 519.9000 .0000 23.5000

28、.0000 28.5700 .0000 628.5000 .0000 26.5000 .0000 48.5100 .0000 537.1000 .0000 36.2000 .0000 43.3400 .0000 561.2000 .0000 60.8000 .0000 37.0200 .0000 617.2000 .0000 84.4000 .0000 37.8100 .0000 626.7000 .0000 91.2000 .0000 39.2700 .0000 737.2000 .0000 92.4000 .0000 53.4600 .0000 760.5000 .0000 86.0000

29、 .0000 55.5600 .0000 581.4000 .0000 111.1000 .0000 49.5600 .0000 662.3000 .0000 130.6000 .0000 32.0400 .0000 583.8000 .0000 141.8000 .0000 32.2400 .0000 635.2000 .0000 136.7000 .0000 54.3800 .0000 723.8000 .0000 129.7000 .0000 71.7800 .0000 864.1000 .0000 145.5000 .0000 90.0800 .0000 1193.5000 .0000

30、 174.8000 .0000 68.6000 .0000 1188.9000 .0000 213.5000 .0000打印使用虚拟变量的回归方程 Y= -.5831 + -149.1996 X1 + .0529 X2 + .0664 X3 + .0931 X4 + .2784 X5 打印使用虚拟变量的回归分析结果 现在作线性回归显著性检验, 计算t,F,R 统计量请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.05)-线 性 回 归 分 析 计 算 结 果 样本总数 40 自变量个数 5- 回归方程 Y = b0+b1*X1+.+b5*X5Y= -.5831

31、 + -149.1996 X1 + .0529 X2 + .0664 X3 + .0931 X4 + .2784 X5 回归系数 b0, b1, b2, ., b5 -.5831 -149.1996 .0529 .0664 .0931 .2784- 残差平方和: 144980.70 回归平方和: 4876556.00 误差方差的估计 : 3624.5180 标准差 = 60.2040-线 性 回 归 显 着 性 检 验 显著性水平 : .050- 回归方程整体显著性F检验, H0:b0=b1=.=b5=0 F统计量: 228.7240 F临界值F(5, 34) 2.494 全相关系数 R :

32、.9855- 回归系数逐一显著性t检验, H0:bi=0, i=1,.,5 t 临界值 t( 34) 1.6909 回归系数b1-b 5的t值: .2826 .0905 .1119 .0443 .1320-要作回归预测吗? 键入 0=不预测, 1=要预测 (0)要打印拟合数据吗? 0=不打印, 1=打印 (0)计算结束。 -四、季节分析下面我们讲怎样使用虚拟变量作季节分析。许多经济资料受季节影响,如销售旺季一般在第一季度。我们作季节分析有两个任务,一是如何在回归模型中反映季节影响,二是如何在回归模型中消除季节影响。消除季节影响的任务也是重要的,这样可以看到总的趋势。许多重要经济指针如物价指数,

33、是消除了季节影响的。我们可以使用虚拟变量来达到上述双重目的。设建立如下回归季节分析模型(5.1.39)其中这里假定第一季度为基准。如果系数2、3、4为统计显著的,则表示存在显著的季节因素影响,而且可以定出各季节的单独回归方程。最后的系数是对非季节因子作响应的,它就剔除了季节影响。下面我们以具体资料作说明。算例5.1.4 季节分析模型下表是美国制造业在1965年至1970年利润与销售额的资料。每年分4个季度统计,单位为亿美元。 表5.1.4美国制造业利润销售额数据年度季度利润销售额1965I10.503114.862II12.092123.968III10.834121.454IV12.2011

34、31.9171966I12.245129.911II14.001140.976III12.213137.828IV12.820145.4651967I11.349136.989II12.615145.126III11.014141.536IV12.730151.7761968I12.539148.862II14.849158.913III13.203155.727IV14.947168.4091969I14.151162.781II15.949176.057III14.024172.419IV14.315183.3271970I12.381170.415II13.991181.313III12.174176.712IV10.985180.370建立(5.1.39)的季节分析模型,调用本例程序回归得:对于回归系数的显著性t检验,在0.05显著性水平下,临界值为1.729,t统计量分别为1.97,0.33,0.27,3.17。可见第二季度D

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号