《STATA统计软件操作.ppt》由会员分享,可在线阅读,更多相关《STATA统计软件操作.ppt(30页珍藏版)》请在三一办公上搜索。
1、STATA统计软件操作,Stata入门Stata的数据读入数据库的描述变量的生成与处理数据的合并数据的转换单变量描述双变量描述,描述数据的统计量图形的制作参数估计:区间估计假设检验方差分析相关分析线性回归分析,Stata入门,五大功能:数据管理、统计分析、图形制作、矩阵运算和程序设计。界面:Command(命令)、Results(结果)、Review(回顾)、Variables(变量)。菜单基本功能:文件(File)、编辑(Edit)、偏好(Prefs,用户界面设置菜单)、数据(Data,数据的基本处理、描述、排序、改变变量、生成新变量、整合数据、拆分数据等)、图表(Graphics)、统计(
2、Statistics数据分析)、使用者(User)、窗口(Window)、帮助(help)快捷根据图表的基本功能:Log(记录文件窗口)、Viewer(帮助窗口)、Results(分析结果窗口)、Do-file Editor(编程窗口)、Data Editor(数据编辑窗口)、Data Browse(数据浏览窗口)、Clear-more-Condition(显示更多结果)、Break(不要显示更多结果)。,Stata数据的读入,log文件。创建文件:log using“文件路径和名称”,其后带append表示在原有文件的基础上增加新内容,其后带replace表示取代原记录文件;暂停:log o
3、ff;再次开始:log on;关闭:log close。数据的存储空间:增加存储空间(set mem 40m)清空存储空间(clear,相当于drop all)。,Stata数据的读入,数据的读入:可直接读入下列尾缀形式的数据.dta/.txt/.raw/.xls;读入文件中的部分变量:use a b c using“文件路径和名称”;读入文件中的部分样本:use“文件路径和名称”in X/Y(X、Y表示个案序号);读入文件中某些特征的样本:use“文件路径和名称”if 条件句;,数据库的描述,描述数据的基本情况:describe,ddescribe,simple:只展示变量名;describ
4、e,short:报告变量总体情况;describe,detail:输出全部变量的全部信息;describe a b c:描述部分变量的情况。变量编码本:codebook。codebook+变量名:描述变量特征。,Stata数据类型及特点,与数据类型对应的是数据库中变量的存储类型(storage type):。字符型:保存格式为str,省略表示的是字符位数数值型:保存格式有byte,int,long,float,double。默认格式是float,前三种只保留整数,占空间最大到最小的顺序是double,float,long,int,byte压缩变量的命令为compressCompress为压缩所
5、有变量;Compress yr*为压缩共同前缀的变量;Compress a-c为压缩从a到c之间的所有变量。,数据库的描述,描述变量取值的基本命令参数:inspect。显示数据:browse直接进入数据的浏览窗口;list最好指定变量,否则会输出数据中所有变量的分布。数据排序:sort。例:比较城乡孩子的性别bysort urban:inspect girl或者sort urban然后by urban:inspect girl.,变量的生成与处理,注意事项:不要使用新变量取代旧变量;充分了解原始变量的分布以及每个数值代表的含义;遵循不重不漏;将原始变量和新变量的取值进行对比,检查是否有误;注意
6、原始变量的缺失值。使用genreplace命令生成新变量;genreplace if共同使用形成分组变量recode v,gen(nv)recode v v的取值nv的取值*=其他取值(*表示所有其他没有列出的数值),gen(新变量名)recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7*=.,gen(edu),变量的生成与处理,生成分类变量:egen 新变量命cut(旧变量名),at(取值的下限)eg:egen agegrp1=cut(age),at(0,7,13,16,20)按照变量b的分类生成均值变量:egen a_mean=mean(a
7、),by(b)生成一个变量b和c的行均值变量(avg),忽略缺失值:egen avgrmean(b c)生成标准数值:egen zweight=std(weight)计算每一年观察的样本,从而了解在每年的调查中,有多少相同的样本(或相同的个体):gen numobs=count(personid),by(personid year),数据的合并(纵向),纵向合并:作用:增加样本量命令:append菜单:Data-Combine datasets-Append datasets;程序:append using“文件路径和名称”;append using“文件路径和名称”,keep 变量名。,数据
8、的合并(横向),横向合并作用:增加变量(merge)。菜单:Data-Combine datasets-Merge two datasets或Data-Combine datasets-Merge multiple datasets程序:先看使用数据:use“文件路径和名称”,sort 关键变量名,save“文件路径和名称”,replace;再看主要数据,use“文件路径和名称”,sort关键变量名;最后,合并数据:merge 关键变量名 using“文件路径和名称”,keep(变量)。,数据的合并(系统变量),关于系统变量:_merge,它的取值限于1观察值仅来自主要数据,使用数据没有匹配的
9、样本,2观察值仅来自使用数据,主要数据没有匹配的样本,3观察值来自于主要数据和使用数据。若使用update选项,还会有:4观察值来自于主要数据和使用数据,且主要数据的缺失值得到更新,5观察值来自于主要数据和使用数据,且两个数据的数值不匹配。,数据的转换(reshape),数据的结构:宽数据(wide format)长数据(long format)菜单:Data-Create or change variables-Other variable transformation commands-Convert data between wide&long。,数据转换:长宽,程序:reshape w
10、ide 变量名,i(观察值的标识符)j(次标识符)。“变量名”表示一组同样内容的变量的共同的前缀,即X_ij中的X,指定希望转换的变量名称;选项i及括号捏的变量一起,指定观察值的标识符,或表示取值独一无二、代表每个逻辑观察值的变量。eg:gsort mothid-age;by mothid:gen order=_n;reshape wide kidid age girl yob,i(mothid)(order)。,数据转换:宽长,程序:reshape long 变量名,i(观察值的标识符)j(次标识符)。“变量名”表示根据次标识符指定的、有共同主干但尾缀不同的一组变量,生成一(多)个新变量;选
11、项i指定观察值的标识符,具有独一无二的取值,是代表每个逻辑观察值的变量。,单变量描述,单个变量频数统计:.tabulate a相当于tab a。多个变量的单变量描述:.tab1 a b c。,双变量描述,交互分类表:.tab a b或者.tab2 a b c(给出其中任意两变量的交互分类表)附加命令的功能。统计量的检验:Chi2:计算Person卡发值,检验交互表中的行与列变量是否独立,不能用于加强数据;exact:展示Fisher精确检验的显著水平;expected gamma:展示Goodman和Kruskal的gamma值和其渐近线的标准误,适合于定序数据,不能与加权数据连用;lrchi
12、2:展示似然卡方,若任意单元格的频数为0,该选项无法执行;taub:展示Kendall的tau-b值及其渐近线的标准误,适合于定序数据;V:展示Cramer的V。,双变量描述,附加命令的功能。单元格:cchi2:展示每个单元格对Person卡方的贡献;clrchi2展示每个单元格对似然卡方的贡献;column提供列百分比;row提供行百分比;cell提供总百分比;expected提供每个单元格的期望频数;nofreq不显示频数或者不显示具体表格,直接显示统计量。missing将缺失值与有效值同样对待;wrap不自动换行宽表;nokey不显示单元格提示;nolabel不使用数值标签。,描述数据的
13、统计量,sum+变量名;sum a,detail(给出更详细的信息);bysort urban:sum a(在不同城乡分布中统计变量a)tab 分组变量a,contents(mean b sd b)表示按照变量a分组计算变量b的均值和标准差;tab a b,contents(mean c sd d)表示按照变量a和b分组计算变量c的均值和d的标准差;,描述数据的统计量,tab a b,contents(mean c),row col,表示按照变量a和b分组计算变量c的均值,然后计算行和列均值。tabstat a b c d展示一个或多个数值型变量的描述性统计量,默认输出均值;tabstat a
14、 b c d,by(e)statistics(mean sd median)columns(statistics)表示按照e分类计算变量a、b、c、d的均值、标准差、中位值,格式是列为统计量。tab a b,sum(c)表示按照变量a、b分类计算c的统计量,图形的制作,y和x的散点图:graph twoway scatter y x;twoway scatter y x;scatter y xy和x的线图:graph twoway line y x;twoway line y x;line y x。注意:先将x排序再做图,否则图会杂乱无章。按照x变量分类的纵向条形图:graph bar y,o
15、ver(x);按照x变量分类的横向条形图:graph hbar y,over(x);给变量x、y、z(三者之和为100%)生成饼图:graph pie;按变量x的分类,生成一张饼图:graph pie,over(x),图形的制作,直方图。生成一张变量x的取值图:histogram x;按变量x的分类,生成一张其取值图histogram x,discrete;箱线图。按变量x的分类,生成变量y的箱线图:graph box y,over(x);按变量x的分类,生成变量y1和y2的箱线图graph box y1 y2,over(x);按变量x的分类,生成变量y的横向箱线图:graph hbox y,
16、over(x);矩阵图。生成x1、x2、x3的矩阵图,只显示一半:graph matrix x1 x2 x3,half将图形x1和x2合并:graph combine x1 x2,区间估计,单个总体均值的区间估计:求多个变量的置信区间,对变量的数目没限制:ci x1 x2 x3。eg:bysort urban:ci x1 x2 x3 if age14.mean x1 x2 x3,输出均值、标准误和95%的置信区间。按变量e分类来求取a、b、c三个变量的区间估计:mean a b c,over(e),区间估计,单个总体比例的区间估计计算a这个二分变量的比例、标准误和95%的置信区间:propor
17、tion a。按b分类来计算a这个二分变量的区间估计:proportion a,over(b)。,区间估计,单个总体比率的区间估计按城乡分类,估计体重身高之比的区间估计:ratio(weight/height),over(urban)注意:stata默认输出的是95%的置信区间,若想要99%或90%的置信区间,则须在命令最后写“,level(99)”或“,level(90)”,假设检验,一个总体均值的检验:ttest 变量=数值。例如:ttest height=160 if age14或者ttest height=160 if age14,level(99)两个独立样本均值比较的t检验:tte
18、st a,by(b)。eg:分城乡孩子的体重差异检验:ttest weight,by(urban),假设检验,配对样本均值比较的t检验:ttest a1=a2。多个总体均值差异的检验,即方差分析:oneway y x(y为因变量,x为类别自变量)例如:oneway weight sibs if age13,tab scheffe。(tab输出各组描述性统计结果,scheffe采用scheffe方法提供多重组间比较结果),方差分析,双(多)因素方差分析:anova y a b(a、b为因素)anova y a b a*b(加入a、b的交互作用)协方差分析:anova y a b c,cont(c
19、);指定c为连续变量,相应地a、b、c为类别变量。anova y a b c,category(a b),指明a、b为分类变量,从而暗示其他变量c为连续变量。,相关分析,corr a b c。输出a、b、c的相关系数矩阵。pwcorr a b c。剔除缺失值计算相关的结果。pcorr a b c。输出偏相关分析结果,即控制其他变量后的两变量之间的相关。,回归分析,一元线性回归:reg y x,选择项。预测y值:predict yhat;估计残差:predict e,resid;估计标准残差:predict se,rstandard。多元线性回归。reg y x1 x2 x3。虚拟变量回归:i.reg y x1 x2 i.x3.,