SAS软件与统计应用教程.ppt

资源描述

《SAS软件与统计应用教程.ppt》由会员分享，可在线阅读，更多相关《SAS软件与统计应用教程.ppt（81页珍藏版）》请在三一办公上搜索。

1、第二章 SAS的描述统计功能,2.1 描述性统计的基本概念2.2 在SAS中计算统计量2.3 统计图形,2.1 描述性统计的基本概念2.1.1 统计学的基本概念2.1.2 表示数据位置的统计量2.1.3 表示数据分散程度的统计量2.1.4 表示数据分布形状的统计量2.1.5 其它统计量,2.1.1 统计学的基本概念1.总体与样本总体(population)：总体是指所研究对象的全体组成的集合。样本(sample)：样本是指从总体中抽取的部分对象（个体）组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1，X2，Xn表示，其观测值（样本数据）则表示为x1，.，xn，

2、为简单起见，有时不加区别。,2.参数与统计量参数(parameter)：参数是用来描述总体特征的概括性值。如总体平均值（）、总体方差（2）、总体比例（）等。统计量(statistics)：统计量是用来描述样本特征的概括性值。如样本均值（）、样本方差（s2）、样本比例（P）等。,2.1.2 表示数据位置的统计量如果要用简单的数字来概括一组观测数据x1，.，xn，可以使用“位置统计量”来作为数据的总体代表，常见的位置统计量有：均值、中位数、分位数、众数等。1.均值（Mean）均值是所有观测值的平均值，是描述数据取值中心位置的一个度量：,2.中位数（Median或Med）中位数是描述观测值数据中

3、心位置的统计量，大体上比中位数大（小）的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响，具有稳健性。中位数的计算方法是：首先将数据从小到大排序为：x(1)，.，x(n)，然后计算,3.众数（Mode）观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中，常需考虑频数，因此众数用得多些。4.百分位数（Percentile）分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数，并分别记为Q3和Q1。,2.1.3 表示数据分散程度的统计量1.极差（Range）与半极差（Interquartile

4、range）极差就是数据中的最大值和最小值之间的差：极差=maxxi minxi 上、下四分位数之差Q3 Q1称为四分位极差或半极差，它描述了中间半数观测值的散布情况。2.方差（Variance或Var）方差是由各观测值到均值距离的平方和除以观测量减1：,3.标准差（Standard deviation或Std Dev）方差的开方称为标准差：标准差的量纲与原变量一致。4.变异系数（Coefficient of Variation或CV）变异系数是将标准差表示为均值的百分数，是观测数据分散性的一个度量，它在比较用不同单位测量的数据的分散性时是有用的：,2.1.4 表示数据分布形状的统计量偏度和

5、峰度是描述数据分布形状的指标。1.偏度（skewness）偏度是刻画数据对称性的指标。偏度的计算公式为：在SAS中：关于均值对称的数据其偏度为0；左侧更为分散的数据，其偏度为负，称为左偏；右侧更为分散的数据，其偏度为正，称为右偏。,2.峰度（kurtosis）峰度描述数据向分布尾端散布的趋势。峰度的计算公式为：利用峰度研究数据分布的形状是以正态分布为标准（假定正态分布的方差与所研究分布的方差相等）比较两端极端数据的分布情况，若近似于标准正态分布，则峰度接近于零；尾部较正态分布更分散，则峰度为正，称为轻尾；尾部较正态分布更集中，则峰度为负，称为厚尾。,2.1.5 其它统计量1.均值的标准误（S

6、td Error Mean或Std Mean或Std error）2.校正平方和（Corrected sum of squares）,3.未校正平方和（Uncorrected sum of squares）4.k阶原点矩其中A1即为均值。5.k阶中心矩,2.2 在SAS中计算统计量2.2.1 用INSIGHT计算统计量2.2.2 用“分析家”计算统计量2.2.3 编程实现描述性统计,2.2.1 用INSIGHT计算统计量 INSIGHT可以非常方便地计算各种统计量。1.实例数据【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查（单位：元），试分别统计收入和支出情况。将表2-1中

7、数据通过Excel导入到SAS数据集Mylib.sryzc中，4个变量名分别为：ID、R_ID、Income和Outgo，相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。,2.在INSIGHT中打开数据集在菜单中选择“Solution（解决方案）”“Analysis（分析）”“Interactive Data Analysis（交互式数据分析）”，打开“SAS/INSIGHT Open”对话框，在对话框中选择数据集：Mylib.sryzc，单击“Open（打开）”按钮，即可在INSIGHT中打开数据窗口，如图所示。,3.计算统计量选择菜单“Analyze（分析）”“Distrib

8、ution(Y)（分布）”，打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中，选择Income为分析变量，选择R_Id，为分组变量。单击“Output（输出）”按钮，在打开的对话框中包含描述性统计量选项。,选择选项矩统计量和分位数，取消默认的选项：“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”，单击“OK”按钮，即可得到变量Income按“R_Id”分组的各种矩统计量（Moments）和分位数（Quantiles），如图所示。,2.2.2 用“分析家”计算统计量1.启动“分析家”选择主菜单“Solutions（解决方案）”“

9、Analysis（分析）”“Analyst（分析家）”，打开“分析家”窗口。选择主菜单“File（文件）”“Open By SAS Name”，打开“Select A Member”对话框，选择数据集Mylib.sryzc。,2.通过Summary Statistics菜单计算描述性统计量选择主菜单“Statistics（统计）”“Descriptive（描述性统计）”“Summary Statistics（汇总统计量）”，打开“Summary Statistics”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变量，如图所示。,单击“Statistics”按钮

10、，打开“Summary Statistics：Statistics”对话框。对话框中列出可以计算的所有统计量（如右图所示）。描述性统计量如下图所示。,3.通过Distributions菜单计算描述性统计量选择主菜单“Statistics（统计）”“Descriptive（描述性统计）”“Distributions（分布）”，打开“Distributions”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变量。单击“OK”按钮，即可得到关于变量Income的矩统计量和基本统计测度,2.2.3 编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算，它们在

11、功能范围上有许多的重复，下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。FREQ过程常用来计算分类变量取值的频数，而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。,1.FREQ过程 FREQ过程包括多个控制频数输出与检验的语句和选项，格式如下：PROC FREQ DATA=;TABLES;FORMAT.;RUN;其中PROC FREQ语句调用FREQ过程，标志FREQ过程的开始；TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算，可以多次使用。,例如，统计数据集Mylib.sryzc中变量R_Id和In

12、come频数的代码如下：proc freq data=mylib.sryzc;tables R_Id Income;RUN;显示结果如图所示。,2.MEANS过程(1)语法格式 MEANS过程的一般格式：PROC MEANS DATA=；VAR；BY；CLASS；RUN；,PROC MEANS语句后的选项主要用来指定所要计算的统计量，默认情况下，MEANS过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。VAR语句引导所要进行分析的所有变量的列表，SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。BY语句与CLASS语句所指定的分类变量用来进行分组统

13、计，但输出格式不同。,如对数据集Mylib.sryzc中的Income变量计算简单统计量，只要用如下MEANS过程：proc means data=mylib.sryzc;var Income;run;结果如图2-15所示。,(2)使用统计量关键字列表在PROC MEANS语句中使用统计量关键字列表：proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;run;结果如图2-16所示。,可以计算的描述性统计量关键字及其含义见下表。,(3)使用CLASS语句和BY语句使用CLASS语句和

14、BY语句可以分组计算分析变量的描述统计量值，由CLASS语句和BY语句指定的变量在分析中起分组（类）的作用，被称为分类变量。两个语句的区别是：使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。,使用BY语句之前先排序，如下代码可以在上例中按变量R_Id分组统计：proc sort data=mylib.sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;

15、var Income;by R_Id;run;,使用CLASS语句分组较为简单，如下代码也可以在上例中按变量R_Id分组统计：proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;,3.UNIVARIATE过程 UNIVARIATE过程的一般格式为：PROC UNIVARIATE DATA=；VAR;BY|CLASS;HISTOGRAM/;OUTPUT OUT=;RUN；,UNIVARIATE过程和MEANS过程的格式非常相似，相同的语句和选项其含义也相同，

16、所不同的是某些统计量只能在UNIVARIATE过程中计算（如众数），而且UNIVARIATE过程中具有绘图功能。其中，HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）。,输出包括五个部分。第一部分是矩统计量，各统计量已在2.1.1中作了介绍。第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果，包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高

17、值。,2.3 统计图形2.3.1 定量变量的图形表示2.3.2 分类变量的图形表示,2.3.1 定量变量的图形表示1.直方图对于数值型变量，常用直方图（histogram）来展示变量取值的分布。将变量取值的范围分成若干区间，在等间隔区间的情况，每个区间的长度称为组距。考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数、频率或密度（频率组距），在高度是密度的情况，每一矩形的面积恰是数据落入区间的频率，这种直方图可以估计总体的概率密度。,图2-22 密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式，另外也提供了设定分组

18、的方法。,2.盒形图盒形图（boxplot，又称箱图、箱线图、盒子图）是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。图2-23的左边是根据居民家庭的收入情况所绘的盒形图；右边是分地区情况所绘的盒形图。,3.散点图通常得到的数据可能有两个变量，比如家庭的收入和支出情况的数据，这里家庭总收入是一个变量，而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系，这时可以用一个变量为横坐标（如家庭总收入），另一个为纵坐标（这里是家庭总支出）来作图（图2-24）。这种图称为散点图(Scatter Plot)。,4.线图线图(Line Plot)用来表示变量间的取值变化情况，有单式和复式

19、两种（图2-25）。在复式线图中可用不同颜色的实线来标志区别，如图2-25右所示。,2.3.2 分类变量的图形表示分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例，常用的有条形图、饼图和马赛克图。1.条形图条形图(Bar Chart)给出分类变量取每个值的频数，如图2-26所示为变量R_ID取值的条形图。,2.饼图通常，饼图(Pie Chart)可以对分类变量描述其频数取值的比例，对于数值变量，则像直方图那样应先计算各区间取值的频数，再按比例画出。图2-27中给出的是家庭支出分组频数的饼图。要注意的是，如果有太多的分组，那么饼图就不那么好看了。,3.马赛克图马赛克图(Mosa

20、ic Plot)一般不对单个变量作，而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例，如图2-28所示。,2.4 用SAS绘制统计图形2.4.1 用INSIGHT绘制统计图形2.4.2 用“分析家”绘制统计图形2.4.3 编程绘制统计图2.4.4 图形的调整与输出,2.4.1 用INSIGHT绘制统计图形 INSIGHT模块可以画出多种统计图形，而且图形清晰、美观。1.绘制直方图选择菜单“Analyze（分析）”“Histogram/Bar Chart(Y)（直方图/条形图）”，打开“Histogram/Bar Chart(Y)”对话框。在数据集的变量列表

21、中，选择变量，然后单击“Y”按钮。,单击“Output（输出）”按钮，在打开的对话框中选择“Labels（标签）”选项，如图所示，以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。,单击“OK”按钮，即可得到直方图如图2-30左所示。单击图形框左下角处的三角形，在打开的菜单中选择“Values（值）”，即可在图中显示频数值，如图2-30右所示。,2.绘制条形图 INSIGHT模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮，在弹出的菜单中选择“Nominal（列名型）”，如图左所示。选择菜单“Analyze”“Histogram/Bar Chart(Y)”，打开“Hi

22、stogram/Bar Chart(Y)”对话框。在数据集的变量列表中选择变量，然后单击“Y”按钮，如图右所示。,单击“Output（输出）”按钮，在打开的对话框中选择“Labels（标签）”选项，单击“OK”按钮返回对话框。单击“OK”按钮，即可得到条形图如图2-34左所示。如果选择Income_freq（见2.2.2节）作为分析变量，则可以得到图2-34右所示的条形图。,3.绘制盒形图选择菜单“Analyze”“Box Plot/Mosaic Plot(Y)”，可以对区间型变量作盒形图，对分类型变量作马赛克图。打开“Box Plot/Mosaic Plot(Y)”对话框。在数据表sryz

23、c的变量列表中，选择income变量，然后单击“Y”按钮，income变量被选定，如图左所示。单击“Output”按钮，在打开的对话框中选择“Labels”选项，取消“Y Axis Vertical”如图右所示。,单击“OK”按钮，即可得到盒形图如图2-36左所示。,在“Box Plot/Mosaic Plot(Y)”对话框中选定多个分析变量，可以将多个盒形图画在一个坐标系下，这样便于比较变量的取值情况，如图所示。图形分析：从图中可以看到支出数据在均值两边的分布近似对称，说明低于和高于平均支出的家庭几乎各占一半；收入数据的二分之一分位数在均值的左边，说明大部分人的收入低于平均收入。另外，10号

24、家庭的收入是一个极端值，它不具有代表性。,4.绘制马赛克图选择“Analyze（分析）”“Box Plot/Mosaic Plot(Y)（盒形图/马赛克图）”命令，可以对分类变量作马赛克图。下面以2.2.2中修改过的数据集sryzc为例，作出R_Id变量和Income_freq变量的马赛克图。,4.绘制马赛克图首先将R_Id变量改为“列名型”（参见图2-33左）。选择菜单“Analyze（分析）”“Box Plot/Mosaic Plot(Y)（盒形图/马赛克图）”，打开“Box Plot/Mosaic Plot(Y)”对话框。在数据集sryzc的变量列表中，选择R_Id变量，然后单击“Y”

25、按钮，R_Id变量被选定，单击“OK”按钮，得到结果如图2-38所示。,5.绘制散点图选择菜单“Analyze”“Scatter Plot(Y X)”，打开“Scatter Plot(Y X)”对话框。在变量列表中，选择Income，单击“Y”按钮，Income变量被选定为Y轴变量，选择Outgo，单击“X”按钮，Outgo变量被选定为X轴变量，如图左所示。单击“OK”按钮，即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。,在数据集窗口选中所有1号地区的观测号，图2-40是在散点图中区分两个地区的情况，细点为2号地区，粗点为1号地区。从该图可以看出1号地区比2号地区在收入和

26、支出水平上都要高出许多。,6.绘制线图选择菜单“Analyze（分析）”“Line Plot(Y X)（分布）”，打开“Line Plot(Y X)”对话框。在数据集sryzc的变量列表中，选择ID变量，单击“X”按钮，ID变量被选定为X轴，然后选择Income变量，单击“Y”按钮，如图左所示。单击“OK”按钮，即可得到线图如图右所示。,若在“Line Plot(Y X)”对话框中，将ID变量选定为X轴，选择Income变量和Outgo变量，单击“Y”按钮。单击“Output（输出）”按钮，在打开的对话框中选择“Labels（标签）”选项，如图左所示，以便输出的图形显示中文标签名。两次单击“

27、OK”按钮，得到关于Income变量和Outgo变量的复式线图（图右）。,2.4.2 用“分析家”绘制统计图形1.绘制饼图在“分析家”中打开数据集mylib.sryzc。选择主菜单“Graphs”“Pie Chart”，打开“Pie Chart”对话框，选择变量列表中的Income，单击“Chart”按钮，选定分析变量，如图左所示。所得饼图如图右所示。,2.绘制条形图选择主菜单“Graphs”“Bar Chart”“Horizontal”，打开“Horizontal Bar Chart”对话框，选择变量列表中的INCOME，单击“Chart”按钮，选定分析变量，选择R_ID变量，单击“St

28、ack By”按钮，再选中3-D选项，如图左所示。单击“OK”按钮，得到水平条形图，如图右所示。,2.4.3 编程绘制统计图 SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来。在SAS/GRAPH模块的支持下，SAS可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图，等等。,1.GCHART过程(1)语法格式 GCHART过程用于绘制直方图、饼形图（扇形图）、三维直方图等表示变量分布的图形。其语法格式为：PROC GCHART DATA=；/RUN；,GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2-5。图形关键字后的变量名用以指定进行图形描述时

29、的分组变量，可以是数值型的（此时以各组的组中值为分组的标志），也可以是字符型的。,选项比较重要的有：TYPE=统计量关键字，表示以图形对变量（SUMVAR所指定的变量）的哪一种统计量进行描述，比如频数（FREQ）、均数（MEAN）、总计（SUM）、频数百分比（PCTN）等；SUBGROUP=变量名（分组变量），指定要进行分组（各组段内再分组）的变量；SUMVAR=变量名（数值变量），指定要进行统计计算的变量，也就是“TYPE=统计量关键字”选项中统计量的计算所依据的变量。,(2)画条形图（直方图）使用VBAR关键字可以画条形图。例如，画出数据集Mylib.sryzc中Income变量的条形图的

30、代码如下：proc gchart data=mylib.sryzc;vbar Income;run;结果如图所示。,其中绘图用的变量用VBAR语句给出，如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同，它在横轴标的是区间的中点值，而在INSIGHT中横轴标的是区间的端点值。可以指定分组的变量，例如在每个区段内再分段，可以用如下代码：proc gchart data=mylib.sryzc;vbar Income/subgroup=R_Id;run;结果如图所示。,(3)画三维条形图使用BLOCK关键字可以画三维条形图。例如，画出

31、数据集mylib.sryzc中Income变量的三维条形图的代码如下：proc gchart data=mylib.sryzc;block Income/group=R_Id;run;结果如图所示。,(4)画饼形图使用PIE关键字可以画饼形图，PIE3D关键字可以画三维饼形图。例如，画出数据集mylib.sryzc中Income变量的三维饼形图的代码如下：proc gchart data=mylib.sryzc;PIE3D Income;run;结果如图所示。,2.使用GPLOT过程绘制散点图和连线图通常用散点图和连线图可以表示：一个变量随另一个变量的变化；变量之间的关系；数据值的分布。(

32、1)GPLOT过程的一般格式PROC GPLOT DATA=;PLOT*=/;SYMBOLn;RUN；常用的选项见表2-6。,表2-6 PLOT语句的选项,SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号，可以是1-99，缺省为1。选项见表2-7。表2-7 SYMBOL语句的选项,(2)散点图绘制家庭总收入对家庭总支出的散点图，代码如下：proc gplot data=mylib.sryzc;plot Income*outgo;run;结果显示了一个GRAPHICS窗口，绘出了以Income为纵轴、以Outgo为横轴的散点图（见图）。,可以在图中按第三个变

33、量分组画出散点图（如图2-48右），代码如下：proc gplot data=mylib.sryzc;plot Income*outgo=r_id;symbol1 color=black v=star;symbol2 color=blue v=dot;run;,(3)连线图为了绘制连线，只要在SYMBOL语句中指定i=join。例如绘制家庭总收入对家庭编号的连线图（图2-49左），代码如下：proc gplot data=mylib.sryzc;plot Income*id;symbol i=join v=star;run;,也可以分地区绘制家庭总收入对家庭编号的连线图（图2-49右），代码

34、如下：proc gplot data=mylib.sryzc;plot Income*id=r_id;symbol1 color=black i=join v=star;symbol2 color=blue i=join v=dot;run;,2.4.4 图形的调整与输出在图形中也可以用TITLE语句和FOOTNOTE语句给图形加标题和脚注。还可以在图形的标题、标签中使用TrueType字型的汉字，例如：goptions ftext=宋体 htitle=4 cells htext=3 cells;proc gplot data=sasuser.class;title 试验SAS图形的汉字功能

35、;symbol i=none v=square;plot weight*height;label weight=体重 height=身高;run;输出结果见图。其中GOPTIONS中的FTEXT选项指定图形中文本的字体。,为了把GRAPH绘制的图形保存为兼容的图形文件，只要在显示某一页图形输出时，选“File-Export”菜单，在出现的输入文件名的窗口选择适当的文件类型，如BMP、WMF、JPEG、PS，等等。要打印GRAPH生成的图形，只要选“File-Print”。这样用Windows的打印驱动程序与SAS/GRAPH的图形驱动配合来打印。另外，SAS/GRAPH模块还提供了许多种打印机的独立的驱动程序，可以不依赖于Windows的打印驱动，具体请参考有关资料或帮助。,

展开阅读全文