Stata软件之回归分析解析.ppt

资源描述

《Stata软件之回归分析解析.ppt》由会员分享，可在线阅读，更多相关《Stata软件之回归分析解析.ppt（39页珍藏版）》请在三一办公上搜索。

1、计量经济软件应用,Stata软件实验之一元、多元回归分析,内容概要,一、实验目的二、简单回归分析的Stata基本命令三、简单回归分析的Stata软件操作实例四、多元回归分析的Stata基本命令五、多元回归分析的Stata软件操作实例,一、实验目的：掌握运用Stata软件进行简单回归分析以及多元回归分析的操作方法和步骤，并能看懂Stata软件运行结果。,二、简单回归分析的Stata基本命令,简单线性回归模型(simple linear regression model)指只有一个解释变量的回归模型。如：其中，y 为被解释变量，x 为解释变量，u 为随机误差项，表示除 x 之外影响 y 的因素；称

2、为斜率参数或斜率系数，称为截距参数或截距系数，也称为截距项或常数项。简单线性回归模型的一种特殊情况：即假定截距系数时，该模型被称为过原点回归；过原点回归在实际中有一定的应用，但除非有非常明确的理论分析表明，否则不宜轻易使用过原点回归模型。,二、简单回归分析的Stata基本命令,regress y x 以 y 为被解释变量，x 为解释变量进行普通最小二乘(OLS)回归。regress命令可简写为横线上方的三个字母reg。regress y x,noconstanty 对 x 的回归，不包含截距项(constant)，即过原点回归。predict z 根据最近的回归生成一个新变量 z，其值等于每

3、一个观测的拟合值（即）。predict u,residual根据最近的回归生成一个新变量 u，其值等于每一个观测的残差（即）。,三、简单回归分析的Stata软件操作实例,实验 1 简单回归分析：教育对工资的影响劳动经济学中经常讨论的一个问题是劳动者工资的决定。不难想象，决定工资的因素有很多，例如能力、性别、工作经验、教育水平、行业、职业等。在这里仅考虑其中一种因素：教育水平，建立如下计量模型：其中，wage 为被解释变量，表示小时工资，单位为元；edu为解释变量，表示受教育年限，即个人接受教育的年数，单位为年；u为随机误差项。假定模型(3.1)满足简单回归模型的全部5条基本假定，这样的OL

4、S估计量将是最佳线性无偏估计量。请根据表S-2中给出的数据采用Stata软件完成上述模型的估计等工作。,三、简单回归分析的Stata软件操作实例,1、打开数据文件。直接双击“工资方程1.dta”文件；或者点击Stata窗口工具栏最左侧的Open键，然后选择“工资方程1.dta”即可；或者先复制Excel表S-2中的数据，再点击Stata窗口工具栏右起第4个Data Editor键，将数据粘贴到打开的数据编辑窗口中，然后关闭该数据编辑窗口，点击工具栏左起第二个Save键保存数据，保存时需要给数据文件命名。2、给出数据的简要描述。使用describe命令，简写为：des 得到以下运行结果；,三、

5、简单回归分析的Stata软件操作实例,结果显示“工资方程1.dta”数据文件包含1225个样本和11个变量；11个变量的定义及说明见第3列。,三、简单回归分析的Stata软件操作实例,3、变量的描述性统计分析。对于定量变量，使用summarize命令：su age edu exp expsq wage lnwage，得到以下运行结果，保存该运行结果；第1列：变量名；第2列：观测数；第3列：均值；第4列：标准差；第5列：最小值；第6列：最大值。,三、简单回归分析的Stata软件操作实例,4、wage对edu的OLS回归。使用regress命令：reg wage edu，得到以下运行结果，保存该运

6、行结果；(1)表下方区域为基本的回归结果。第1列依次为被解释变量wage，解释变量edu，截距项constant；第2列回归系数的OLS估计值；第3列回归系数的标准误；第4列回归系数的 t 统计量值；写出样本回归方程为：即如果受教育年限增加1年，平均来说小时工资会增加0.39元。,三、简单回归分析的Stata软件操作实例,(2)表左上方区域为方差分析表。第2列从上到下依次为回归平方和(SSE)、残差平方和(SSR)和总离差平方和(SST)；第3列为自由度，分别为k=1，n-k-1=1225-1-1=1223，n-1=1225-1=1224；第4列为均方和(MSS)，由各项平方和除以相应的自由度

7、得到。(3)表右上方区域给出了样本数(Number of obs)、判定系数(R-squared)、调整的判定系数(Adj R-squared)、F统计量的值、回归方程标准误或均方根误(Root MSE，或 S.E.)以及其他一些统计量的信息。上述回归分析的菜单操作实现：StatisticsLinear models and relatedLinear regression弹出对话框，在Dependent Variable选项框中选择或键入wage，在Independent Variables选项框中选择或键入edu点击OK即可,三、简单回归分析的Stata软件操作实例,5、生成新变量 z 为

8、上一个回归的拟合值，生成新变量 u 为上一个回归的残差；然后根据 u 对数据进行从小到大的排序，并列出 u 最小的5个观测。命令如下：predict z(生成拟合值)predict u,residual(生成残差)sort u(根据 u 对数据从小到大排序)list wage z u in 1/5(列出 u 最小的5个观测值以及对应的实际样本观测值和拟合值)即对于观测 1，小时工资的实际观测值(wage)为2.46，拟合值(z)为9.10，残差(u)为-6.64。,三、简单回归分析的Stata软件操作实例,6、画出以wage为纵轴，以edu为横轴的散点图，并加入样本回归线。命令如下：graph

9、 twoway lfit wage edu|scatter wage edu得到以下运行结果，保存该运行结果；,三、简单回归分析的Stata软件操作实例,7、wage对edu的OLS回归，只使用年龄小于或等于30岁的样本。命令如下：reg wage edu if age=30得到以下运行结果，保存该运行结果；写出样本回归方程为：对于年龄在30岁及以下的劳动者，增加 1 年受教育年限使得工资会增加0.41元，略高于针对全体样本的估计值。,三、简单回归分析的Stata软件操作实例,8、wage对edu的OLS回归，不包含截距项，即过原点回归。命令如下：reg wage edu,noconstant

10、得到以下运行结果，保存该运行结果；,三、简单回归分析的Stata软件操作实例,9、取半对数模型。模型(3.1)假定增加 1 年受教育年限带来相同数量的工资增长；但美国经济学家明瑟(J.Mincer)等人的研究表明，更合理的情况是增加 1 年受教育年限导致相同百分比的工资增长。这就需要使用半对数模型(对数-水平模型)，即：其中lnwage是小时工资的自然对数；斜率系数的经济含义是：增加 1 年受教育年限导致收入增长，该百分比值一般称为教育收益率或教育回报率(the rate of return to education)做lnwage对edu的回归，命令如下：reg lnwage edu 得到以

11、下运行结果，保存该运行结果(见下页)；,三、简单回归分析的Stata软件操作实例,写出样本回归方程为：结果表明教育收益率的估计值为5.03%，即平均而言，增加 1 年受教育年限使得工资增长5.03%。,三、简单回归分析的Stata软件操作实例,10、最后可建立 do 文件把前面所执行过的命令保存下来。在do文件的编辑窗口中（点击Stata窗口工具栏右起第5个New Do-file Editor键即打开Stata的do文件编辑窗口）键入如下命令和注释，并保存为“工资方程1.do”文件。该文件的内容为：use“D:讲课资料周蓓的上课资料数据【重要】【计量经济学软件应用课件】10649289stat

12、a10工资方程1.dta“,clear/打开数据文件des/数据的简要描述su age edu exp expsq wage lnwage/定量变量的描述性统计reg wage edu/简单线性模型的OLS估计graph twoway lfit wage edu|scatter wage edu/作图reg wage edu if age=30/只使用年龄小于或等于30岁的样本进行OLS估计reg wage edu,noconstant/过原点回归reg lnwage edu/对数-水平模型,三、简单回归分析的Stata软件操作实例,实验 2 简单回归分析：学校投入对学生成绩的影响表S-3记

13、录了一些学校某个年份高一学生的平均成绩及有关学校的其他一些信息。本实验主要考察学校的生均支出(expend)对学生数学平均成绩(math)的影响；生均支出代表了学校的经费投入水平，从理论上说，在其他条件不变的情况下，学生在生均支出越高的学校中能够获得更好的教学资源(包括更优秀的师资、更好的硬件设备等)，从而学习成绩也应该越高。请根据表S-3中给出的数据采用Stata软件完成相关模型的估计等工作。1、打开数据文件。双击“学校投入与学生成绩.dta”文件，或点击Stata窗口工具栏Open键选择“学校投入与学生成绩.dta”即可；或复制Excel表S-3中的数据后点击Stata窗口工具栏Data

14、Editor键，将数据粘贴到数据编辑窗口中，关闭该窗口，点击工具栏Save键保存数据，保存时要给数据文件命名。,三、简单回归分析的Stata软件操作实例,2、假定生均支出(expend)与影响学生数学成绩的其他因素不相关，建立如下四个简单回归模型：水平-水平模型：水平-对数模型：对数-水平模型：对数-对数模型(常弹性模型)：水平-水平模型的命令及运行结果如下：reg math expend估计结果表明：学校生均支出增加1千元，使得学生数学平均成绩将提高2.46分；,三、简单回归分析的Stata软件操作实例,水平-对数模型的命令及运行结果如下：reg math lnexpend估计结果：即学校生

15、均支出增加1%，使得学生数学平均成绩将提高0.11分；,三、简单回归分析的Stata软件操作实例,对数-水平模型的命令及运行结果如下：reg lnmath expend估计结果：即学校生均支出增加1千元，使得学生数学平均成绩将提高7%；,三、简单回归分析的Stata软件操作实例,对数-对数模型的命令及运行结果如下：reg lnmath lnexpend估计结果：即学校生均支出增加1%，使得学生数学平均成绩将提高0.32%；,四、多元回归分析的Stata基本命令,对于多元线性回归模型：regress y x1 x2xk 以 y 为被解释变量，x1,x2,xk 为解释变量进行普通最小二乘(OLS)

16、回归。regress命令可简写为reg；regress y x1 x2xk,noconstanty对x1,x2,xk的回归，不包含截距项，即过原点回归；test x1 x2 x3根据最近的回归进行 F 检验，原假设为：test 根据最近的回归进行F检验，原假设为：,五、多元回归分析的Stata软件操作实例,实验 1 多元回归分析：工资方程利用数据文件“工资方程1.dta”建立工资方程考察影响小时工资(wage)的因素，重点关注受教育年限(edu)的系数，即教育收益率(即对数-水平模型的斜率系数)。1、打开数据文件。直接双击“工资方程1.dta”文件；或者点击Stata窗口工具栏最左侧的Ope

17、n键，然后选择“工资方程1.dta”即可；2、简单回归分析。首先建立简单回归模型(对数-水平模型)：命令及运行结果如下：reg lnwage edu,五、多元回归分析的Stata软件操作实例,回归结果表明：如果不考虑其他因素的影响，教育收益率的估计值为5.03%，即平均而言，增加 1年受教育年限使得工资增长5.03%。,五、多元回归分析的Stata软件操作实例,3、多元回归分析。除了受教育年限(edu)之外，工作经验(exp)也是影响小时工资(wage)的重要因素。从理论上分析，其他条件不变，工作经验越长表明劳动者的工作经验越丰富，劳动生产率也越高，从而工资水平较高。如果工作经验(exp)与受

18、教育年限(edu)不相关或相关程度很低，那么在工资方程中是否加入工作经验(exp)对教育收益率的估计几乎没有影响；但如果工作经验(exp)与受教育年限(edu)显著相关，那么在工资方程中不加入工作经验(exp)会使得教育收益率的估计有偏误。为此，需要首先考察样本中工作经验(exp)与受教育年限(edu)是否显著相关，方法是计算二者之间的样本相关系数并进行显著性检验，使用的命令如下：pwcorr edu exp,sig(pwcorr求样本相关系数命令，选项sig表示列出原假设H0为相关系数等于0的假设检验的精确显著性水平，即统计量的相伴概率值),五、多元回归分析的Stata软件操作实例,得到以下

19、运行结果：可见，edu与exp的样本相关系数为-0.5005，显著性水平即假设检验统计量的相伴概率值为0.0000，即拒绝相关系数等于0的原假设，edu与exp之间存在显著负相关；因此，如果理论上exp对工资(wage)的影响为正，那么在回归方程中遗漏了exp 会使得 edu 的系数估计产生负的偏误，即估计值偏低。为此，考虑使用多元回归模型：使用的命令及运行结果如下：,五、多元回归分析的Stata软件操作实例,reg lnwage edu exp(1)表下方区域为回归分析的主要结果。第1列分别为被解释变量Lnwage，解释变量edu，解释变量exp以及截距项；第2列显示回归系数的OLS估计值；

20、第3列显示回归系数的标准误；第4列显示回归系数的 t 统计量；第5列显示 t 检验的精确的显著性水平(即 t统计量的相伴概率P值)；最后两列显示置信水平为95%的回归系数的置信区间。,五、多元回归分析的Stata软件操作实例,结果样本回归方程为：回归系数下方括号中所示数字从上到下依次为回归系数的标准误、t 统计量和P值；edu的系数和截距项在1%显著性水平上统计显著，exp的系数在5%显著性水平上统计显著，说明教育(edu)和工作经验(exp)对小时工资(wage)均有显著的正向影响；这一结果也可以从回归系数的置信区间中可以看出，即两个系数的95%的置信区间均不包含0，至少可以在5%显著性水平

21、上分别拒绝这两个系数等于 0 的原假设。两个斜率系数的经济含义：如果保持工作经验(exp)不变，受教育年限(edu)增加 1 年，平均来说小时工资会增加5.67%，即教育收益率为5.67%；另一方面，如果保持受教育年限(edu)不变，,五、多元回归分析的Stata软件操作实例,工作经验(exp)增加1年，平均来说小时工资会增加0.29%，即工龄的收益率为0.29%。前面的分析指出：理论上 exp 对 lnwage 的影响为正，而样本中 edu 与 exp 显著负相关，那么与上述多元回归模型相比，采用只包含 edu 的简单回归模型就会使得 edu 的系数估计值偏低。分析结果证明了这一点，简单回归

22、模型中 edu 的系数估计值为 0.0503(5.03%)，而多元回归模型中 edu 的系数估计值为0.0567(5.67%)，后者大于前者。,五、多元回归分析的Stata软件操作实例,(2)表左上方区域为方差分析表。第2列从上到下依次为回归平方和(SSE)、残差平方和(SSR)及总离差平方和(SST)；第3列为自由度；第4列为均方和(MSS)，由各项平方和除以相应的自由度得到(3)表右上方区域。样本数(Number of obs)为1225；回归模型总体显著性检验 F 检验的 F 统计量等于45.75，其精确的显著性水平(即相伴概率值)为0.0000，可以拒绝所有的斜率系数都等于0的原假设，

23、即模型总体显著成立；判定系数(R-squared)为0.0697，调整的判定系数(Adj R-squared)为0.0681，略小于判定系数；均方根误(Root MSE)，也就是回归模型标准误S.E.或为0.51234。,五、多元回归分析的Stata软件操作实例,实验 2 多元回归分析：学习努力程度对大学英语成绩的影响数据文件“大学英语成绩.dta”(或表S-4)为某高校大一学生英语期末考试成绩及相关信息，本例关注学生的学习努力程度对期末成绩的影响，并且用学生的上课出勤率和完成作业的情况衡量学习努力程度。建立如下模型并进行回归分析：其中 final 为英语期末考试成绩，attend 为本学

24、期英语课的出勤率(百分数)，homework 为本学期英语课课后作业的完成率(百分数)；1、打开数据文件。直接双击“大学英语成绩.dta”文件；或点击Stata窗口工具栏最左侧的Open键，然后选择“大学英语成绩.dta”即可；2、上述模型的回归分析。命令及运行结果如下：reg final attend homework,五、多元回归分析的Stata软件操作实例,结果显示样本回归方程为：attend 和 homework的回归系数在10%的显著性水平上显著。在保持作业完成率(homework)不变的条件下，上课出勤率(attend)提高10个百分点将令其期末成绩提高0.80分；在保持上课出勤率

25、(attend)不变的条件下，作业完成率(homework)提高10个百分点将令其期末成绩提高0.65分；可以认为学习努力程度的确影响期末成绩。判定系数和调整的判定系数仅为0.02，表示attend 和 homework两个变量联合起来仅能解释 final 总变异的2%多，表明模型的总体,五、多元回归分析的Stata软件操作实例,拟合程度不高。显然，除了学习努力程度(attend和homework)之外，学生先前的英语水平也会对期末成绩(final)起到决定性作用；而且如果先前的英语水平与学习努力程度(attend和homework)相关，那么遗漏了先前的英语水平作为解释变量就会使得学习努

26、力程度(attend和homework)的系数估计值产生偏误。为此，考虑使用入学考试成绩(entry)衡量先前的英语水平。首先估算entry和attend以及entry和homework的样本相关系数；命令为：pwcorr entry attend homework,sig,五、多元回归分析的Stata软件操作实例,可以看出，entry和attend 以及 entry和homework 都是显著负相关的，因此如果理论上 entry 对 final的影响为正，那么遗漏了entry的上述二元回归模型就会使得 attend 和 homework 的OLS估计值偏低；因此，在上述二元回归模型的基础上加

27、入 entry 作为解释变量：回归分析的命令及运行结果如下：reg final attend homework entry,五、多元回归分析的Stata软件操作实例,样本回归方程为：结果表明，加入entry作为解释变量后 attend 和 homework的系数估计值变大了，而且在统计上更为显著；entry的系数也显著为正。模型分析结果表明，对于先前英语水平(entry)相同的学生，学习努力程度能够对期末成绩产生显著的正向影响。具体数值是，在其他条件相同的情况下，上课出勤率(attend)提高10个百分点将令期末成绩提高1.23分，作业完成率(homework)提高10个百分点将令期末成绩提高

28、0.67分。另外，模型的判定系数和为0.17，相比原二元模型大大提高，说明从拟合优度角度看，现三元模型要比原二元模型好很多。对三元模型的系数进行F 检验。三元回归显示的估计值为0.5278，想进行假设检验；(即考察入学成绩的变化是否能够带来期末成绩的相同变化)，可使用如下 test 命令：,test entry=1结果显示 F 统计量为96.66，其相伴概率值为0.0000，即可以拒绝的原假设；类似地，对于假设检验；，命令及结果如下：test entry=0.5结果 F 统计量的相伴概率值为0.5633，不能拒绝的原假设；test命令用于F 检验的联合检验。比如考察是否同时为0，即；中至少有一个不为0；命令及结果如下：test attend homework 结果 F 统计量的相伴概率值为0，即拒绝同时为0的原假设，也就是说不能认为学习努力程度对期末成绩没有影响。,End,

展开阅读全文