《SAS课件——第16讲-描述性统计过程.ppt》由会员分享,可在线阅读,更多相关《SAS课件——第16讲-描述性统计过程.ppt(93页珍藏版)》请在三一办公上搜索。
1、描述性统计过程,Means过程Freq过程Tabulate过程univariate过程plot过程chart过程rank过程,1,描述性统计过程Means过程1,统计关键字,2,统计关键字名称所代表的统计量名称所代表的统计量n单元格频数p,Means过程,roc means 选项列表; by 变量表(分组变量); class 变量表(分组变量); freq 变量(数值变量,用以表示相应记录出现的频数) weight变量(数值变量,用以表示相应记录的权重系数) var 变量表(待分析的数值变量); id 变量表(待分析的数值变量); output ;run;,means过程的一般格式,3,Mea
2、ns过程proc means 选项列表;means过,1. proc means ,4,1. proc means 4,5,5,2. Output语句,Output语句的选择项包括:out= sas数据集 指定输出数据集名。统计关键字 = 输出变量名字 指定新数据集中的统计项,并给这些统计项的变量命名。等号右边各变量名代表var语句中对应变量的相应统计量。例如:Proc means;var x1 x2;output out=stats mean=ma mb std=sa;Run;其中ma代表x1的均值,mb代表x2的均值,sa代表x1的标准差,x2的标准差不输出。,6,2. Output语句O
3、utput语句的选择项包括:6,例7-2-1 利用means过程按班级class进行单变量统计。Score1数据集中含有学生成绩的永久数据集。注意by语句与class语句的不同。下面是Score1中的数据:,7,例7-2-1 利用means过程按班级class进行单变量统,*ex7-2-1; libname ep D:sasdataSASLX;PROC means data=ep.score1 maxdec=3; var t1-t3; class clas; title statistics with a class variable;run;,输出中最多显示3位小数,8,*ex7-2-1;
4、输出中最多显示3位小数8,*ex7-2-1; Proc sort data=ep.score1; by clas;run;PROC means maxdec=3; by clas; var t1-t3; Title statistics with by variable;run;,9,*ex7-2-1; 9,使用class语句数据集不需要sort过程排序;使用by语句数据集事先要进行排序。而且两个语句使得输出格式也有些不同。请仔细体会他们的差别。,10,使用class语句数据集不需要sort过程排序;使用by语句,例7-2-2略; 例7-2-3 在某一年级中,测得15名男生的身高,数据存于文件
5、“e:sasdtfit1.txt”中,求出身高的平均值、标准差、变异系数和95%的置信区间。*ex7-2-3; DATA STUDENT; INFILE E:SASDTFIT1.TXT;LENGTH NAME $ 10; INPUT NUM $ NAME SEX $ H W;PROC MEANS DATA=STUDENT N MEAN STD CV LCML UCML;VAR H;RUN;,11,例7-2-2略; 11,Freq过程,进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可能的分布有一个比较全面
6、的了解,用于帮助我们决定进一步的研究方法和方向.我们将介绍如何用编程和INSIGHT模块进行描述性数据分析.,12,Freq过程 进行统计分析首先应该对我们手头上的数据,例7-3-1对学生成绩进行分段统计分析。Score2.txt为含学生成绩的数据文件,把学生的平均成绩分成A(大于等于80)、B(大于等于60,小于80)、C(小于60)三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数。libname ep e:saslx;data b;/*读入数据*/infile e:sasdtscore2.txt;input num $ t1-t3;v=MEAN(OF t1-t3);run;PR
7、OC FORMAT ; /*产生成绩等级的格式*/VALUE vfmt LOW-60=C60-80=B80-HIGH=A; run;PROC FREQ data=b; /*对成绩各等级频数分析*/FORMAT v vfmt.;TABLES v; run;,13,例7-3-1对学生成绩进行分段统计分析。Score2.txt,14,14,PROC FREQ DATA=数据集名; TABLES 变量; RUN;,PROC FREQ DATA=数据集名; TABLES 变量*变量 变量*变量 . . ./ nocol norow nocum nofreq nopercent missing list
8、out=数据集 outpct ; WETGHT 变量名; BY 变量名;RUN;,一般是分类变量,freq过程的一般格式,15,PROC FREQ DATA=数据集名;,FREQ(频数)过程-定义输出格式的FORMAT过程,roc format; (用于Fitness数据集) value oxyfmt 32.5-37.5=32.5-37.7 37.5-42.5=37.5-42.5 42.5-47.5=42.5-47.547.5-52.5=47.5-52.5 52.5-57.5=52.5-57.5 57.5-62.5=57.5-62.5 ;run;,当37.5oxygen42.5 37.5-42
9、.5,16,FREQ(频数)过程-定义输出格式的FORMAT过程pro,FREQ(频数)过程-综合例子,Proc freq data=fitness; format age agefmt. oxygen oxyfmt.; tables group age / nocum; tables age*oxygen / nocum; tables group*age / list nocum; tables group*age /out=out outpct;run;proc print data=out;run;,(bstat21.sas),要求输出集中还包含列百分数和行百分数,17,FREQ(频数
10、)过程-综合例子Proc freq dat,18,18,19,19,20,20,21,21,22,22,23,23,24,24,25,25,菜单操作进行简单统计分析,利用SAS/INSIGHT进行简单分析我们仍以GPA数据集为例进行窗口操作分析。具体操作步骤如下:,26,菜单操作进行简单统计分析利用SAS/INSIGHT进行简单分,进入INSIGHT模块后,选择要分析的数据集dst.bclass,要看变量sex和weight的柱状图和直方图,可以:1. 在表格中选中要分析的变量名sex和weight,方法是:用鼠标先选中其中一个变量列的表头,然后按住ctrl键不放,选中另一个变量列表头。2.
11、选择菜单“分析直方图/条形图”,27,进入INSIGHT模块后,选择要分析的数据集dst.bcla,28,28,29,29,30,30,31,31,32,32,(抽取),33,(抽取)33,(输出),34,(输出)34,35,35,分析员应用及变量的取值分布,用分析员应用进行频数统计并作分布图 1.选菜单栏目的 统计(Statistics)= 统计描述(Descriptive)= 频数统计(Frequency Counts)=弹出频数统计窗口; 2.在弹出的频数统计窗口中选分析变量-产生频数表; 3.在频数统计窗口下方选 plots 纽; 4.在弹出菜单的条形图(Bar charts)框中点击
12、在Horizontal前方的方框上,使之打勾; 5. OK = OK.则显示结果. 6.击在屏幕左边的Code上显示完成分析的SAS程序.,36,分析员应用及变量的取值分布 用分析员应用进行频数统计并作,37,37,Tabulate过程,roc tabulate 选项列表; by 变量名称(分组变量); class 变量名称(分组变量); freq 变量名称(数值变量,用以表示相应记录出现的频数) weight变量名称(数值变量,用以表示相应记录的权重系数) table , , var 变量名称(待分析的数值变量,统计量列入相应的表单元格);run;,38,Tabulate过程proc tab
13、ulate 选项列表;,tabulate过程中table语句用来实现具体的表格绘制过程,其后是作为表格三个维度的分组变量,表示三个维度的变量间以逗号分隔,三个维度分别是页(page)、横轴(side)和纵轴(top)。三个维度不必全部指定,如果只指定一个维度(如本例),SAS将其当作纵轴处理;如果指定两个,SAS将其作为横轴和纵轴处理,前面的变量为横轴,后面的变量为纵轴;若指定三个维度,在最前的变量为页,中间的为横轴,最后的为纵轴。,39,tabulate过程中table语句用来实现,同一维度可以是一个变量,也可以是多个变量的排列组合,多个变量的排列组合形式如下:,(1)并列:变量间以空格相间
14、隔,如 “a b”的表格形式如下:,(2)交叉:变量间以星号(*)相连接,如“a*b”的表格形式如下:,(3)混合形式:变量间以空格或星号分隔,必要时加圆括号,如“a*(b c)”的表格形式如下:,40,同一维度可以是一个变量,也可以是多个变量的排列组合,多个变量,另外,和变量一同在table语句中出现的还有一些表示特定统计量的SAS关键词,可以控制相应统计量在表格中的显示。Tabulate过程可以计算的统计量及其在table语句中的名称如下表。,41,另外,和变量一同在table语句中出现的还有一些表示特定统计,Summary过程,Proc Summary与Proc Means有相同的功能与
15、用法.后者缺省为print,将结果输出到OUTPUT窗;前者缺省为noprint, 不输出结果到OUTPUT窗.,PROC Summary DATA=数据集名 maxdec=位数 fw=域宽 print 输出统计量名列; VAR 变量名列; CLASS 变量名列; BY 变量名列; ID 变量名; OUTPUT OUT= 数据集名 记入数据集统计量名列;RUN;,42,Summary过程Proc Summary与Proc Mea,在proc means或proc summary中,可用多个output语句,它有三种方式规定输出数据集中的统计量: statistic-keyword= 仅适用于一
16、个统计量多个变量; statistic-keyword=name-list ; statistic-keyword(variable-list)=name-list ; 可指定仅对某些变量计算这一统计量. 缺省情形是在输出数据集中由变量 _stat_ 来注明统计量名 .,43,在proc means或proc summary中,例:设输入数据集有变量X1,X5,以下给出OUTPUT语句及选项OUT=生成输出数据集包含统计量和名字: (1) output out=b1 mean= ; /* 输出数据集1中包含5个变量的均值,变量名为X1,.,X5 */(2) output out=b2 mean
17、=m1 m2 var(x3)= ; /* 输出数据集2中包含变量X1,X2的均值,变量名为m1,m2;以及x3的方差,变量名字仍为X3 */(3)output out=b3 mean(x3 x4)=m3 m4 std(x5)=s5; /* 输出数据集3中包含变量X3和X4的均值,存放均值的变量名为m3和m4, 变量X5的标准差存放在S5中 */,44,例:设输入数据集有变量X1,X5,以下给出OUTPUT语,(4) output out=b4 mean= max(x1)= sum(x3)= /autoname; /* 输出数据集4中包含: 5个变量的均值,变量名为x1_Mean,., x5_M
18、ean; 变量X1的最大值,变量名为x1_Max; 变量X的总和,变量名为x3_Sum . */,(5) 当使用Class语句时,与由OUTPUT语句生成的数据集内容有关的选项和语句:PROC的选项nway; WAYS语句和 TYPES语句. (见Bstat33.sas),45,(4) output out=b4 mean= ma,univariate过程,roc univariate 选项列表; by 变量名称(分组变量); class 变量名称(分组变量); freq 变量名称(数值变量,用以表示相应记录出现的频数) weight变量名称(数值变量,用以表示相应记录的权重系数) histo
19、gram 变量名称/选项列表 output var 变量名称(待分析的数值变量);run;,univariate过程和以上两个过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在univariate过程中计算(如众数),以及univariate过程中所具有的绘图功能。histogram语句即用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。,46,univariate过程proc univariate 选项,UNIVARIATE过程除了可以完成与MEANS过程相同的基本统计量外,还可以计算变量的极端值
20、、分位数,生成频率表,并支持对数据进行正态性检验。UNIVARIATE与MEANS过程不同的功能包括:描述变量极端值的情况。计算分位数,如中位数,1/4和3/4分位数。生成若干个描述变量分布的图。生成频率表。对数据进行正态性检验。,47,UNIVARIATE过程除了可以完成与MEANS过程相同的基,48,48,RPOC UNIVARIATE DATA=数据集名 noprint mu0=值 plot normal; VAR 变量名列; BY 变量名列; ID 变量名; OUTPUT OUT= 数据集名 关键名= 变量名 . . . . . . PCTLPTS=p1,p2,. PCTLPRE=前缀
21、词; .RUN;,用户另指定要求计算的p1%,p2%分位数.,49,RPOC UNIVARIATE DATA=数据集名 n,proc univariate data=fitness ; var runtime oxygen ; id age; run; proc univariate data=fitness noprint ; var runtime ; output out=percents p10=op10 p90=op90 median=median q1=q1 q3=q3 pctlpts=20 80 pctlpre=p qrange=iqrange range=range ; pro
22、c print data=percents ; run;,50,proc univariate data=fitnes,proc sort data=sasuser.fitness out=sorted; by group; run; proc univariate data=sorted; var weight; by group; run; proc univariate data=sasuser.fitness plot normal; var weight; run;,51,proc sort data=sasuser.fitn,直方图和分布的拟合检验 UNIVARIATE过程-变量分
23、布的图形描述,PROC UNIVARIATE DATA=数据集名 noprint ; VAR 变量名列 ; HISTOGRAM 变量名列 / midpoints=中点列 normal(mu=均值 sigma=标准差 图象选项) exp(theta= 阈值 图象选项) lognormal(theta=阈值 图象选项) ; INSET 统计量关键名= 显示名 格式 ; QQPLOT 变量名列 / square . . . ; PROBPLOT 变量名列 / . . . ; BY 变量名列 ; ID 变量名 ; RUN ;,52,P,直方图和分布的拟合检验 UNIVARIATE过程-,直方图和分布的
24、拟合检验 UNIVARITE过程-例子,proc univariate data=sasuser.fitness; var oxygen; id age;run;proc univariate data= sasuser.fitness; var oxygen; histogram;proc univariate data= sasuser.fitness noprint; histogram oxygen; title Histogram;run;,(Bstat41.sas),53,直方图和分布的拟合检验 UNIVARITE过程-,proc univariate data= sasuser.
25、 fitness noprint; histogram oxygen / midpoints = 32 to 60 by 4 normal(L=2 color=orange w=4); inset n mean(4.1) std(4.2);run;proc univariate data= sasuser. fitness noprint; histogram oxygen/midpoints = 32 to 60 by 4 normal(L=1 w=2) lognormal(L=2 w=3 theta=30) exponential(L=8 w=4 theta=30);run;quit;,5
26、4,proc univariate data= sasuser.,直方图和分布的拟合检验练习题,1.打开FITNESS数据集,并用菜单系统或编程方法完成以下分析计算:计算变量OXYGEN和RUNTIME的均值、方差、标准差、偏度和峰度;指定GROUP为BY变量后,分别计算三组数据的以上几个描述统计量;(2) 在OXYGEN的直方图中如何拟合一条正态分布曲线?这条正态曲线的均值和方差是多少?怎样改变拟合曲线的均值和方差?,55,直方图和分布的拟合检验练习题1.打开FITNESS数据集,,直方图和分布的拟合检验练习题,(3) 对变量OXYGEN绘制经验分布函数曲线和QQ图,并检验该变量的分布是否为
27、正态分布(=0.05和=0.15)?(4) 变量RUNTIME的标准差和极差是什么?这些值说明什么?(5) 绘制分类变量GROUP(测量水平指定为Nom)的条形图,并问属于组2的频数有多少?,56,直方图和分布的拟合检验练习题(3) 对变量OXYGEN绘制,直方图和分布的拟合检验练习题,. 打开CLASS数据集,可类似完成题1中的练习.这里分类变量为SEX或AGE,数值变量为WEIGHT和HEIGHT.另要求:(1) 计算AGE的频数分布表,并要求输出按年龄由大到小的频数表;(2) 绘制AGE的条形图,并要求生成水平条形图.3. 打开SASUSER.GPA数据集,该数据集收集了224名学生的资
28、料,考察的变量有7个,包括: GPA中学生的平均等级; HSM高中数学平均等级;,57,直方图和分布的拟合检验练习题. 打开CLASS数据集,,直方图和分布的拟合检验练习题,HSE高中英语平均等级; HSS高中科学平均等级; STAMSTA测验数学部分的得分; SATVSTA测验口语部分的得分; SEX学生的性别.试完成以下分析计算: (1) 作各变量的直方图,查看其分布情况并简答; (2) 研究GPA分数的分布.说明极端值情况. (3) 画出GPA的盒形图,并说明如何解释.通过直方图、盒形图、各统计量、分布检验结果简述GPA分布的特点.,58,直方图和分布的拟合检验练习题 HSE高中英,Gp
29、lot / plot过程,roc gplot 选项列表; bubble 散点图表达式 bubble2 散点图表达式 plot 散点图表达式 plot2 散点图表达式run;,从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可以是同一变量,也可以是两个不同的变量)。,59,Gplot / plot
30、过程proc gplot 选项列表;,roc gchart 选项列表; 图形关键词 变量名称/选项列表 run;,gchart过程的一般格式,gchart过程可以使用的图形关键字及其所绘制的图形类型,60,roc gchart 选项列表;gchart过程的一般格,图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。其后的选项比较重要的有:(1)type=统计量关键字,表示以图形对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(freq)、均数(mean)、总计(sum)、频数百分比(pctn)等;(2)su
31、bgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量;(3)sumvar=变量名(数值变量),指定要进行统计计算的变量,也就是“type=统计量关键字”选项中统计量的计算所依据的变量。,61,图形关键字后的变量名用以指定进行图形描述时的,roc gplot 选项列表; bubble 散点图表达式 bubble2 散点图表达式 plot 散点图表达式 plot2 散点图表达式run;,gplot过程的一般格式,从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图。bubble2语
32、句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可以是同一变量,也可以是两个不同的变量)。,62,roc gplot 选项列表;gplot过程的一般格式,散点图表达式的一般形式为:(1)bubble和bubble2语句:纵坐标变量名*横坐标变量名=泡尺寸变量名(变量值以泡的大小表示),三者均应为数值变量;(2)plot和plot2语句:纵坐标变量名*横坐标变量名,此处等号及其后的部分可以省略,此时SAS以默认的散点类型绘制散点图;若等号后为n(n为正整数,是散
33、点类型的编号),SAS则以指定的编号对应的散点类型绘制散点图;若等号后为分类变量名(可为字符型或数值型,为数值型时作为离散型变量处理,每一个值将被当作一个类别),此变量的具体值(或与每个具体值对应的图形)将被作为散点用来绘制散点图。,chart过程和plot过程的一般格式及各选项使用方法分别与gchart过程和gplot过程是基本相同的,不同之处仅在于后两者中涉及到有关三维和图形元素(颜色等)的语句和选项在前两者中是无效的。例如vbar3d语句在chart过程中无效,bubble语句在plot过程中无效。其余的语句和选项使用方法完全相同,所以在掌握了gchart过程和gplot过程后,char
34、t过程和plot过程你会不学自通。,63,散点图表达式的一般形式为: chart过程和p,1. GCHART过程(1) 语法格式 GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为:PROC GCHART DATA = ; /RUN;,64,1. GCHART过程64,GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2-5。 图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。,65,GCHART过程可以使用的图形关键字及其所绘制的图形,选项比较重要的有: TYPE =
35、 统计量关键字,表示以图形对变量(SUMVAR所指定的变量)的哪一种统计量进行描述,比如频数(FREQ)、均数(MEAN)、总计(SUM)、频数百分比(PCTN)等; SUBGROUP = 变量名(分组变量),指定要进行分组(各组段内再分组)的变量; SUMVAR = 变量名(数值变量),指定要进行统计计算的变量,也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量。,66,选项比较重要的有:66,(2) 画条形图(直方图) 使用VBAR关键字可以画条形图。例如,画出数据集Mylib.sryzc中Income变量的条形图的代码如下:proc gchart data = mylib
36、.sryzc; vbar Income;run; 结果如图所示。,67,(2) 画条形图(直方图)67,其中绘图用的变量用VBAR语句给出,如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在INSIGHT中横轴标的是区间的端点值。 可以指定分组的变量,例如在每个区段内再分段,可以用如下代码:proc gchart data = mylib.sryzc; vbar Income / subgroup = R_Id;run; 结果如图所示。,68,其中绘图用的变量用VBAR语句给出,如果把VBAR改,(
37、3) 画三维条形图 使用BLOCK关键字可以画三维条形图。例如,画出数据集mylib.sryzc中Income变量的三维条形图的代码如下:proc gchart data = mylib.sryzc; block Income/ group = R_Id;run; 结果如图所示。,69,(3) 画三维条形图69,(4) 画饼形图 使用PIE关键字可以画饼形图,PIE3D关键字可以画三维饼形图。例如,画出数据集mylib.sryzc中Income变量的三维饼形图的代码如下:proc gchart data = mylib.sryzc; PIE3D Income;run; 结果如图所示。,70,(
38、4) 画饼形图70,2. 使用GPLOT过程绘制散点图和连线图 通常用散点图和连线图可以表示: 一个变量随另一个变量的变化; 变量之间的关系; 数据值的分布。(1) GPLOT过程的一般格式PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ;RUN;常用的选项见表2-6。,71,2. 使用GPLOT过程绘制散点图和连线图71,表2-6 PLOT语句的选项,72,表2-6 PLOT语句的选项选项意义说明FRAM | NO,SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。选项见表2-7。表2-7 SYMB
39、OL语句的选项,73,SYMBOL语句用来控制表示点的符号和点间的连线。其,(2) 散点图 绘制家庭总收入对家庭总支出的散点图,代码如下:proc gplot data = mylib.sryzc; plot Income*outgo;run; 结果显示了一个GRAPHICS窗口,绘出了以Income为纵轴、以Outgo为横轴的散点图(见图)。,74,(2) 散点图74,可以在图中按第三个变量分组画出散点图(如图2-48右),代码如下:proc gplot data = mylib.sryzc; plot Income*outgo = r_id; symbol1 color=black v =
40、 star; symbol2 color=blue v = dot;run;,75,可以在图中按第三个变量分组画出散点图(如图2-48右,(3) 连线图 为了绘制连线,只要在SYMBOL语句中指定i = join。例如绘制家庭总收入对家庭编号的连线图(图2-49左),代码如下:proc gplot data = mylib.sryzc; plot Income*id; symbol i=join v=star;run;,76,(3) 连线图76,也可以分地区绘制家庭总收入对家庭编号的连线图(图2-49右),代码如下:proc gplot data = mylib.sryzc; plot Inc
41、ome*id=r_id; symbol1 color=black i=join v = star; symbol2 color=blue i=join v = dot;run;,77,也可以分地区绘制家庭总收入对家庭编号的连线图(图2-,图形的调整与输出 在图形中也可以用TITLE语句和FOOTNOTE语句给图形加标题和脚注。 还可以在图形的标题、标签中使用TrueType字型的汉字,例如:goptions ftext=宋体 htitle=4 cells htext=3 cells;proc gplot data=sasuser.class; title 试验SAS图形的汉字功能; symbo
42、l i=none v=square; plot weight*height; label weight=体重 height=身高;run; 输出结果见图。其中GOPTIONS中的FTEXT选项指定图形中文本的字体。,78,图形的调整与输出78,为了把GRAPH绘制的图形保存为兼容的图形文件,只要在显示某一页图形输出时,选“File-Export”菜单,在出现的输入文件名的窗口选择适当的文件类型,如BMP、WMF、JPEG、PS,等等。 要打印GRAPH生成的图形,只要选“File-Print”。这样用Windows的打印驱动程序与SAS/GRAPH的图形驱动配合来打印。另外,SAS/GRAPH
43、模块还提供了许多种打印机的独立的驱动程序,可以不依赖于Windows的打印驱动,具体请参考有关资料或帮助。,79,为了把GRAPH绘制的图形保存为兼容的图形文件,只要,例 下表为长沙市某大学160名正常成年女子1999年体检资料中的血清甘油三酯的测量结果(mmol/L),请对其进行统计描述。,80,例 下表为长沙市某大学160名正常成年女子1999年体检资,按要求我们来计算该指标的均数、中位数、标准差和若干个重要的百分位数以及四分位数,并以直方图来表现此资料的分布特征。,先将数据转换成SAS数据集的格式,编程时直接引用就可以了。我们先来计算所要的描述性统计量。 计量资料的描述性统计功能通常用S
44、ummary过程、Means过程和univariate过程来实现。tabulate过程也可以实现描述性统计功能,但它和以上三个过程来比就显得复杂了一些,其实tabulate过程的过人之处在于对含有较多分类变量的资料的汇总性分析,以后大家用到的时候会慢慢体会到这一点。这里我们分别以三个过程来完成对该例题的描述性统计分析 将上表中的数据以文本文件的形式录入,文件名为case2_1,存入目录“D:SAS_Teach”下。,81,按要求我们来计算该指标的均数、中位数、标准差和若干个重要的百,(1)以means过程进行分析,libname a D:SAS_Teach;data a.case2_1; in
45、file D:SAS_Teach data2_1.txt; input x;run;proc means n mean median p1 p5 p95 p99 q1 q3 max min; var x;run;,82,(1)以means过程进行分析libname a D:S,默认情况下,Means过程会给出频数、均数、标准差、最大值和最小值等,若默认情况满足需要,则Proc Means后的所有选项(代表所要求计算的统计量)皆可省略,否则需一一写出,如以上程序。,83,默认情况下,Means过程会给出频数、均数、标准差、最大值和,(2)以summary过程进行分析,libname a D:SA
46、S_Teach;data a.case2_1; infile D:SAS_Teach data2_1.txt; input x;run;proc summary; var x; output out=temp1 mean=m median=md p1=pt1 p5= pt5 p95=pt95 p99=pt99 q1=qt1 q3=at3;run;proc print data=temp1;run;,84,(2)以summary过程进行分析libname a D:,要注意在summary过程中对output语句的使用,他将需要显示的统计量以自定义变量的形式存储在自命名的输出数据文件中(但还是不能
47、自动在结果中显示)。最后使用print过程将输出数据文件显示出来。,结果和means过程相同,只不过统计量名称变成了自定义的形式。,85,要注意在summary过程中对output语句的使用,他将需,(3)以univariate过程进行分析,libname a D:SAS_Teach;data a.case2_1; infile D:SAS_Teach data2_1.txt; input x;run;proc univariate; var x; run;,其实在实现描述性统计功能方面,univariate过程和means过程的操作程序差不太多,所不同的是默认状态下前者比后者给出的描述性统计
48、量要完整的多,univariate过程在默认状态下(不列出任和选项)可以给出几乎全部的描述性统计量,并显示样本位置假设检验的t统计量及其对应的双侧概率值。,86,(3)以univariate过程进行分析libname a,87,87,88,88,下面我们进行第二项工作,绘制直方图。 绘制直方图可用Chart或Gchart过程来完成。直方图的绘制需要先编制频数表,也就是先要将各观测值按照其大小归入相应的组中。完成这一部分的工作我们需要用到SAS程序的条件语句和赋值语句。在这里我们要建立一个新变量y,以表示不同的组,它的值就等于相应组的组中值。,所有160个观测值中,最大的为1.77,最小的为0.
49、51,我们以0.1为组距,将所有观测值归入13个组。以下是以直方图描述该资料分布的SAS程序。,89,下面我们进行第二项工作,绘制直方图。 所有160个观测值中,,libname a D:SAS_Teach;data a.case2_1; infile D:SAS_Teach data2_1.txt; input x;if x=0.6 and x=0.7 and x=0.8 and x=0.9 and x=1.0 and x=1.1 and x=1.2 and x=1.3 and x=1.4 and x=1.5 and x=1.6 and x=1.7 then Y=1.75;run;proc
50、gchart; vbar y / type=freq levels=13 inside=freq space=0 width=6;run;,90,libname a D:SAS_Teach;90,proc gchart; vbar y / type=freq levels=13 inside=freq space=0 width=6;run;,Vbar语句表示我们要做的是竖立的条形图,其后跟的是作图所要依据的分类变量,这里我们以变量y来做直方图。斜杠后的内容是对所做条形图进行控制的选项,本段程序所涉及的各选项的含义和功能见下表,91,roc gchart; Vbar语句表示我们要做的是竖立,还