《STATA分析面板数据回归.ppt》由会员分享,可在线阅读,更多相关《STATA分析面板数据回归.ppt(67页珍藏版)》请在三一办公上搜索。
1、STATA在实证研究中的应用,刘永东中国科学院农业政策研究中心,Company Logo,Outline,Discrete Choice Model及STATA应用,4,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,软件名称 最新版本 安装文件大小 SAS 9.1.3 3GSPSS 15.0 1CDStata 10.0 94MGAUSS 8.0 25M计量经济学专用Limdep/Nlogit 9.0/4.0 3MShazam 10.0 90MEviews 6.0 100MWinrat 6.0 21MTSP 5.0 R free 30M,中国科学院农业政策研究中心
2、,Company Logo,STATA数据分析基础,Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985到现在,已连续推出1.1,1.2,1.3,1.4,1.5,及2.0,2.1,3.0,3.1,4.0,5.0,6.0,7.0.,8.0,9.0.,10.0等多个版本。Stata里不要修改原始数据,不可恢复,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,Stata主要功能数据管理功能统计分析功能统计分析:描述统计、交叉表格回归分析:OLS,2SLS,Log
3、it,Probit,Tobit,Heckman,GMM,Panel data,Time series,Survey data多变量分析:multivariate regression,cluster analysis,抽样和模拟:绘图功能编程和矩阵运算功能,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,Stata软件的特点Stata功能强大Stata软件小巧Stata操作灵活、简单,易学易用Stata编程语言简单,容易上手Stata功能更新快,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,三类文件数据文件:*.dta程序文件:*.
4、do结果文件:*.log四个窗口和1个程序编辑器,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,STATA的界面,中国科学院农业政策研究中心,Result Window,Command Window,Review Window,Variable Window,Buttons,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,中国科学院农业政策研究中心,STATA的界面Buttons:open,save,print,open log file,open viewer,bring results window to front,bring
5、 graph window to front,open do-file,edit window,browse window,continue,break,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,Stata的运行方式菜单操作:执行菜单操作后,在结果窗口能够显示命令行和命令的结果命令行操作:在命令窗口中直接写入命令,一次只能写一行命令程序操作:利用do edit编辑do文件,执行批量的命令,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,如何导入数据直接输入(通过edit窗口)粘贴数据(通过edit窗口)容易出错用命令从外部文件导
6、入(insheet命令)insheet命令:Insheet using filename,options通过option指定外部文件类型 Excel的sls文件不能直接读取如何导出数据粘贴使用outsheet命令,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,如何保存数据Save命令如何调用数据Use命令Use filename,options查看内存中的数据Browse命令List命令order命令,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,练习数据导入,中国科学院农业政策研究中心,Company Logo,STATA数据分
7、析基础,do-file什么是do-file?通俗来说,do-file就是STATA命令和程序的记事本。使用do-file的理由?可追溯过往操作可以整合庞杂的命令,减少命令输入便于发现错误怎么打开do-file?ButtonDo-file中做注释程序前打*号,换行/,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,do-file如何写do-file?规范的do-file应该包括哪些内容第一步:清理内存,clear第二步:设定内存,set memory第三步:指定路径cd:f/research/stata/.Use打开文件(比Global libname方便)Glob
8、al libname“文件夹路径”,用$libname代替该路径第四部:打开log:Cap log closeLog using filenameLog的暂停和开启,log on/log off查看log:view d:statadataauto.log,中国科学院农业政策研究中心,Company Logo,clearset memory 50mcd F:stata seminarpractise datacap log closelog using zheda.loglog onuse 2006.datause ruralincome.dta,clearsum ruralincomeview
9、 zheda.log,Company Logo,STATA数据分析基础,数据的初步处理If语句,in语句和by语句生成新变量generate和egen(egen后面可以跟函数,比generate功能强大)改名字Rename替换ReplaceSTATA中的逻辑运算符And/or:&/|等于“=”,不等于“!=”(负值=),中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,数据的初步处理删除/保留 变量或者观测Drop/keep排序Sort与gsort的区别(gsort可以设置排序,多个变量排
10、序)gsort variable,option(降序在变量前加-)gsort-year code,generate(order)合并数据Merge(两个或多个文件必须有一个唯一对应的默认值建立链接关系)save 2004_2006.dta sort year codesave,replacefile 2004_2006.dta saveduse ruralincome.dta,clearsort year codemerge year code using 2004_2006.dta需要检查variables窗口 是不是有1,2 的情况存在,如果存在需要重新检查续接数据Append use 2
11、004_2005.dta,clear append using 2006.dta,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,数据的初步处理贴标签LabelLabel dataLabel var des(显示命令)label var code 省代码“label data 农村收入“des 面板数据与截面数据转换Reshape long reshape wide ruralincome,i(code)j(year)面板到截面Reshape wide reshape long ruralincome,i(code)j(year)截面到面板“压缩”数据(如取平均值
12、)Collapse collapse(mean)ruralincome,by(code),中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,数据的初步处理STATA中常用的operator生成dummyXi:i.year_n与_N的区别(_N默认最大值)面板数据tsset code year 告诉stata是面板数据,然后使用下面功能滞后算子l.差分算子d.截面数据滞后与滞前 _n+1 _n-1 bysort code:gen try1=ruralincome_n-1 bysort是通过code相同的变量才进行命令,中国科学院农业政策研究中心,Company Log
13、o,STATA数据分析基础,练习数据处理,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,STATA的描述统计功能Summarize最常用的描述统计命令均值、方差、百分位数、最大值、最小值use final.dta,clearsumTable功能强大的表格统计命令(常用)多变量表、多变量表Tabulate简写为tab,是table的简化版Count数数命令Correlate相关系数Pwcorrcorrelate姊妹版Corr可以报告协方差,pwcorr可以报告p值(p值表示两变量在多大的显著程度上是相关的)Corr删除所有缺失值,pwcorr仅删除pairwise
14、中的缺失值,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,STATA的描述统计功能画图直方图Histogram,options(kden,normal)分布检验的图形QQ图qnorm,pnorm对称分布symplot均匀分布quantile数学变换后的分布检验qladder,中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,STATA的描述统计功能画图Graph命令Graph bar/box/dot/pieGraph twoway(双变量图)Graph twoway line/scatter/connected(连线图)Graph m
15、atrix(多个变量矩阵图),中国科学院农业政策研究中心,Company Logo,STATA数据分析基础,练习数据的描述性统计,中国科学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,OLS的五个经典假设1 线形模型假设Y=X+u2 样本随机3 E(u|x)=04 不存在完全共线性5 同方差假设其中前四个假设保证OLS估计量无偏,加上第五个假设,使得OLS成为BLUE(Best Linear Unbiased Estimator)如果假设不再满足,则需要新的估计方法。,中国科学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,STATA的
16、应用估计命令Reg dependent independent,options预测值Predict newvariable,option(xb,residuals)保存回归结果est store/drop/restoreuse final.dtagen en=food/expenditurereg ruralincome enpredict residhat,residualsest store ols,中国科学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,STATA的应用输出回归结果outreg using 文件名,coefastr p 3aster repla
17、ceoutreg using outcome.doc,3aster replaceoutreg using 文件名,coefastr se 3aster append outreg using outcome.doc,3aster appendoptioncoefastr:给系数加星号P:系数下面标P值Se:系数下面标标准误差3aster:加3个星号,1,5,10,中国科学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,各种统计检验在STATA中的实现总体均值的检验ttest总体方差的检验sdtest相关性检验Pwcorr正态分布检验sktest/swilk,中国科
18、学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,OLS中涉及的检验回归系数的检验线性检验Test非线性检验testnl异方差estat hettest 多重共线性多重共线性的表现:拟合优度很大,但是系数显著程度很低检验:系数之间的相关系数,膨胀系数检验(vif)解决:增加样本容量,删除共线变量,重新设定模型,中国科学院农业政策研究中心,Company Logo,简单回归分析与STATA应用,练习OLS的STATA操作,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,什么是内生性公式上来说,内生性会导致OLS的经典假设E(u|x)=
19、0不再成立,从而导致估计量不再一致。逻辑上来讲,内生性是因为解释变量与残差相关,而这意味着被解释变量也会影响解释变量,从而无法确定实证研究中常常关心的因果关系。内生性产生的原因:测量误差 而e和u有关系遗漏重要变量反向因果关系,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,什么是工具变量法工具变量法就是寻找一个外生的冲击,来识别内生变量对于被解释变量的影响,X,Y,u,IV,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,IV选取的几个标准IVY(iv与y无关)IV与X相关IV选取的几个例子教育与工资wage=f(educ,
20、others)然而工资和教育可能都会受个人能力的影响,比如智商,内生性问题出现了。第一个IV,母亲的教育程度第二个IV,出生的季度Which is better?,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,IV选取的几个例子教育与工资第一个IV,与educ关系密切,however,可能不是一个外生的iv第二个IV,是个外生的IV,however,可能与educ的关系不大,尤其是高学历的人。入学法要求7岁才可上学,同时要求年满16岁才可以退学,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,IV选取的几个例子服兵役对收入的
21、影响Income=f(serving,others)Serving和income可能与个人能力有关,内生性!draft lottery,对1月1日-12月31日,每天随机赋1-365的整数。只有小于90才有资格当兵。IV,draft lottery是否小于90,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,两阶段最小二乘法(2SLS)第一阶段,用其他解释变量和工具变量回归内生变量第二阶段,用第一阶段得到的拟合值,运行最初的方程常用的检验关于IV的检验Overid test(检验iv是否外生,原假设iv是外生的,工具变量数必须大于内生变量数)显著性检验(lv是
22、否与x有直接关系)关于内生性是否存在的检验Hausman testHausman test 检验结果2sls ols 如果一致则无内生性,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,两阶段最小二乘法(2SLS)关于内生性是否存在的检验(ols和2sls的结果不一致就说明存在内生性,把永远是一致的结果放在第一位2sls,可能不不一致的放在第二位ols)Hausman test,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,Seeming Uncorrelated Regression(SUR),中国科学院农业政策研究中心,
23、Company Logo,内生性及STATA处理方法,方程组,x and y endogenous var(内生变量),z predetermined var(外生变量)(前定变量个数=内生变量个数-1)前定变量个数内生变量个数-1 则过度识别识别问题估计问题Reduce form(用前定变量表示内生变量)Structure form2SLSRun endogenous var on predetermined varUsing fitted value,run structure form,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,Recursive
24、Model,中国科学院农业政策研究中心,Company Logo,内生性及STATA处理方法,Generalized Least Square,中国科学院农业政策研究中心,Ols是GLS的一个特例,Company Logo,内生性及STATA处理方法,3SLSStep one:treat endogeneity(y 和z1,z2,IV1,IV2回归;X和z1,z2,IV1,IV2回归)Step two:estimateStep three:identify system equations,中国科学院农业政策研究中心,Company Logo,文章讲评,Challenging,compleme
25、nting or assuming the Mandate of Heaven?Political distrust and the rise of self-governing social organizations in rural China,中国科学院农业政策研究中心,Company Logo,文章讲评,H1:Other things being equal,villagers political distrust in local governments increases their participation rate in self-governing social orga
26、nizations.H2:Other things being equal,higher level of public goods investment and election quality(a)directly reduces villagers participation rate and(b)indirectly reduces villagers participation rate via the channel of increased political trust in local governments.,中国科学院农业政策研究中心,Company Logo,文章讲评,
27、H3:Other things being equal,(a)tension between sub-village lineage groups reduces villagers participation rate and(b)the number of ancestral halls/temples is positively correlated with villagers participation rate in self-governing social organizations.,中国科学院农业政策研究中心,Company Logo,文章讲评,中国科学院农业政策研究中心,
28、Company Logo,文章讲评,中国科学院农业政策研究中心,Company Logo,文章讲评,中国科学院农业政策研究中心,Company Logo,文章讲评,农民组织对村庄公共融资的影响:掣肘还是助推?农村税费体制改革前后农民负担变化的启示,中国科学院农业政策研究中心,Company Logo,文章讲评,中国科学院农业政策研究中心,Company Logo,文章讲评,中国科学院农业政策研究中心,Company Logo,中国科学院农业政策研究中心,Company Logo,中国科学院农业政策研究中心,Company Logo,中国科学院农业政策研究中心,Company Logo,中国科学
29、院农业政策研究中心,Company Logo,内生性及STATA处理方法,练习2SLS和3SLS的STATA操作,中国科学院农业政策研究中心,Company Logo,Limited Dependent Var Model,Unlimited Dependent,Limited Dependent,Noncategorical,Categorical,Ordered,Unordered无好坏优劣之分,Count data(数数的数据分析,无类别之分,保证数据是离散的,且不小于0,Order probit,Probit and logit,中国科学院农业政策研究中心,Company Logo,D
30、iscrete Choice Model,Choice set 的三个条件Mutually exclusive(相互排斥)Discrete(离散的)Exhaustive(可穷尽的)注意选择集必须符合条件,中国科学院农业政策研究中心,Company Logo,Discrete Choice Model,中国科学院农业政策研究中心,Company Logo,Discrete Choice Model,中国科学院农业政策研究中心,Company Logo,Discrete Choice Model,估计most likelihood estimate如何解释logit和probit模型的估计结果以l
31、ogit为例系数意义不大Marginal effect更有意义(系数的显著性),而marginal effect依赖于x(与x和有关)mfx(可指定系数),中国科学院农业政策研究中心,Company Logo,Discrete Choice Model,Multinomial logit model,Independence of Irrelevance Alterntives(IIA),Odds ratio,中国科学院农业政策研究中心,Company Logo,Discrete Choice Model,一个例子 bus;car,then odds ration=1 bus;car,but
32、red bus and blue bus,then IIA FAILS!(就不能用简单的logit模型)更加复杂的模型Nest logitOrdered logitLogit/probitIvprobitMlogit,base(),中国科学院农业政策研究中心,Company Logo,Panel Data,Simple regression with variable interceptsFixed effect model Random effect modelFixed or Random?Xtreg,fe(cv)Hausman test(fixed effect model检验结果放在第一位,random effect model检验结果放在第二位),中国科学院农业政策研究中心,Thank You!,欢迎指正!,