《含有定性信息的多元回归分析.ppt》由会员分享,可在线阅读,更多相关《含有定性信息的多元回归分析.ppt(20页珍藏版)》请在三一办公上搜索。
1、第7章 含有定性信息的多元回归分析:二值(或虚拟)变量,7.2 只有一个虚拟自变量,例7.1 小时工资方程:是否存在性别歧视利用wage1.raw中的数据,对女性 对男性取男性组为基组,控制受教育程度、工作经历和现职任期。男性和女性之间没有差别的虚拟假设:对立假设:对女性存在性别歧视,reg wage female educ exper tenure Source|SS df MS Number of obs=526-+-F(4,521)=74.40 Model|2603.10658 4 650.776644 Prob F=0.0000 Residual|4557.30771 521 8.74
2、72317 R-squared=0.3635-+-Adj R-squared=0.3587 Total|7160.41429 525 13.6388844 Root MSE=2.9576-wage|Coef.Std.Err.t P|t|95%Conf.Interval-+-female|-1.810852.2648252-6.84 0.000-2.331109-1.290596 educ|.5715048.0493373 11.58 0.000.4745802.6684293 exper|.0253959.0115694 2.20 0.029.0026674.0481243 tenure|.1
3、410051.0211617 6.66 0.000.0994323.1825778 _cons|-1.567939.7245511-2.16 0.031-2.991339-.144538-,负截距:没有意义;因为样本中没有一个人具有接近于零的educ,exper,tenure.Female的系数:如果找到受教育程度、工作经历和现职任期相同的一个女性和一个男性,那么平均来看,女性每小时比男性要少挣1.81美元。,现在,把模型中的其他解释变量都去掉:reg wage female Source|SS df MS Number of obs=526-+-F(1,524)=68.54 Model|82
4、8.220467 1 828.220467 Prob F=0.0000 Residual|6332.19382 524 12.0843394 R-squared=0.1157-+-Adj R-squared=0.1140 Total|7160.41429 525 13.6388844 Root MSE=3.4763-wage|Coef.Std.Err.t P|t|95%Conf.Interval-+-female|-2.51183.3034092-8.28 0.000-3.107878-1.915782 _cons|7.099489.2100082 33.81 0.000 6.686928 7
5、.51205-,男性平均每小时挣7.1美元,女性平均工资是7.1-2.51=4.59美元,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法.,例7.2 拥有计算机对大学GPA的影响,其中,虚拟变量PC在学生拥有一台计算机时取值1,其他情况下取值0。用GPA1中数据reg colGPA PC hsGPA ACT-colGPA|Coef.Std.Err.t P|t|95%Conf.Interval-+-PC|.1573092.0572875 2.75 0.007.0440271.2705913 hsGPA|.4472417.0936475 4.78 0.000.2620603.632
6、423 ACT|.008659.0105342 0.82 0.413-.0121717.0294897 _cons|1.26352.3331255 3.79 0.000.6047871 1.922253-,ACT的系数和t值都很小,去掉没什么影响,例7.3 培训津贴对培训小时数的影响,因变量是企业的雇员进行培训的小时数。变量grant是虚拟变量,1988年得到培训津贴的企业取值1,否则取值0。变量sales和employ分别表示企业的年销售额和雇员人数注意:hrsemp不能以对数形式进入方程,因为它对回归中用到的105个企业中的29个都取值0。,利用jtrain中的数据.reg hrsemp
7、grant lsales lemploy if year=1988 Source|SS df MS Number of obs=105-+-F(3,101)=10.44 Model|18622.7268 3 6207.57559 Prob F=0.0000 Residual|60031.0921 101 594.367249 R-squared=0.2368-+-Adj R-squared=0.2141 Total|78653.8189 104 756.28672 Root MSE=24.38-hrsemp|Coef.Std.Err.t P|t|95%Conf.Interval-+-grant
8、|26.2545 5.591765 4.70 0.000 15.16194 37.34705 lsales|-.9845809 3.539903-0.28 0.781-8.006797 6.037635 lemploy|-6.069871 3.882893-1.56 0.121-13.77249 1.632744 _cons|46.66508 43.4121 1.07 0.285-39.45284 132.783-,在控制了销售额和就业的情况下得到津贴的企业平均对每个工人多培训26.25个小时。,对一个定性变量所度量的影响并不是因果效应的。那些得到津贴的企业可能在没有得到津贴的情况下也会更多地
9、培训其他工人。,例7.4 住房价格回归,利用hprice1中的数据.reg lprice llotsize lsqrft bdrms colonial lotsize Source|SS df MS Number of obs=88-+-F(5,82)=30.67 Model|5.22415052 5 1.0448301 Prob F=0.0000 Residual|2.793453 82.0340665 R-squared=0.6516-+-Adj R-squared=0.6303 Total|8.01760352 87.092156362 Root MSE=.18457-lprice|Co
10、ef.Std.Err.t P|t|95%Conf.Interval-+-llotsize|.2082573.065013 3.20 0.002.0789258.3375889 lsqrft|.6940851.0945776 7.34 0.000.5059401.88223 bdrms|.0289947.0289314 1.00 0.319-.0285591.0865486 colonial|.0523387.0449236 1.17 0.247-.0370287.141706 lotsize|-2.58e-06 3.36e-06-0.77 0.444-9.26e-06 4.09e-06 _co
11、ns|-1.593851.7257491-2.20 0.031-3.037598-.1501052-,例7.5 对数小时工资方程,将例7.1中工资方程的因变量换成log(wage),并增加exper和tenure的二次项而重新估计,Female的系数表示:在educ,exper,tenure的相同水平上,女性比男性约少挣100*0.297=29.7%。精确计算应为:,7.3 使用多类别虚拟变量,例7.6 对数小时工资方程估计工资对如下四组人都不同的模型:已婚男性、已婚女性、单身男性、单身女性选择单身男性组为基组,再定义3个虚拟变量,注意:存在截距项时,只能定义3个虚拟变量,定义4个则产生完全共
12、线性,陷入虚拟变量陷阱;不存在截距项时,定义4个虚拟变量。,利用wage1数据 gen male=(!female)gen single=(married)gen marrmale=(married&male)gen marrfem=(married&female)gen singfem=(female&single)gen singmale=(male&single).reg lwage marrmale marrfem singfem educ exper expersq tenure tenursq Source|SS df MS Number of obs=526-+-F(8,517)
13、=55.25 Model|68.3617623 8 8.54522029 Prob F=0.0000 Residual|79.9679891 517.154676961 R-squared=0.4609-+-Adj R-squared=0.4525 Total|148.329751 525.28253286 Root MSE=.39329-lwage|Coef.Std.Err.t P|t|95%Conf.Interval-+-marrmale|.2126757.0553572 3.84 0.000.103923.3214284 marrfem|-.1982676.0578355-3.43 0.
14、001-.311889-.0846462 singfem|-.1103502.0557421-1.98 0.048-.219859-.0008414 educ|.0789103.0066945 11.79 0.000.0657585.092062 exper|.0268006.0052428 5.11 0.000.0165007.0371005 expersq|-.0005352.0001104-4.85 0.000-.0007522-.0003183 tenure|.0290875.006762 4.30 0.000.0158031.0423719 tenursq|-.0005331.000
15、2312-2.31 0.022-.0009874-.0000789 _cons|.3213781.100009 3.21 0.001.1249041.5178521-,选择单身男性为基组,三个虚拟变量的估计值度量的都是与单身男性相比工作的比例差异。如:在保持其他因素不变的情况下,已婚男性约比单身男性多挣21.3%,已婚女性比单身男性少挣19.8%。估计单身女性和已婚女性的差异为-0.11-(-0.198)=0.088;但是我们不能利用该方程检验这个差异是否统计显著;要想得到,可以选择二者之一作为基组,重新估计该方程。,通过虚拟变量来包含序数信息,例7.7 相貌吸引力对工资的影响将人分为三类进行
16、回归分析:一般水平、低于一般水平和高于一般水平,其中一般化的那一组作为基组。对男性的估计方程对女性的估计方程,例7.8 法学院排名对起薪的影响,利用lawsch85中数据定义虚拟变量top10,r11_25,r26_40,r41_60,r61_100,并让这些变量在排名落在相应的区间时取值1。以排名在100名以后的法学院委基组。,gen r61_100=(rank60&rank|t|95%Conf.Interval-+-rank|-.0033246.0003485-9.54 0.000-.004014-.0026352 LSAT|.0046965.0040105 1.17 0.244-.003
17、2378.0126308 GPA|.2475239.090037 2.75 0.007.0693964.4256514 llibvol|.0949932.0332543 2.86 0.005.0292035.160783 lcost|.0375538.0321061 1.17 0.244-.0259642.1010718 _cons|8.343226.5325192 15.67 0.000 7.2897 9.396752-,涉及虚拟变量的交互作用,例7.9 计算机使用对工资的影响定义compwork虚拟变量,一个人在工作中使用计算机取值1;comphome:一个人在家使用计算机取值1基组:在家
18、和工作中都不使用计算机的人,容许出现不同的斜率例7.10 对数小时工资方程利用wage2中数据 gen femed=female*educ.reg lwage female educ femed exper expersq tenure tenursqFemale 系数误差变大,因为female*educ与female高度相关。,例7.11 种族对棒球运动员薪水的影响,利用mlb1中数据 reg lsalary years gamesyr hrunsyr rbisyr runsyr fldperc allstar black hispan blckpb hispph基组是白人运动员。变量black和hispan是每个运动员的二值指标。变量percblck是该队所处城市中黑人的百分比,perchisp是拉美裔比例。,例7.12 拘捕率的一个线性概率模型,利用crime1中数据,Arr86为二值变量,若一个人在1986年曾被拘捕过则取值1,否则取值0上式为刻画arr86的一个线性概率模型。,gen arr86=(narr86).reg arr86 pcnv avgsen tottime ptime86 qemp86,