SAS软件中insight模块.ppt_三一办公31ppt.com

资源描述

《SAS软件中insight模块.ppt》由会员分享，可在线阅读，更多相关《SAS软件中insight模块.ppt（50页珍藏版）》请在三一办公上搜索。

1、补充：不需编程的SAS应用：SAS/INSIGHT,启动SAS/INSIGHT的方法：从菜单启动从命令条启动,这时SAS/INSIGHT必须先选择一个要分析、观察的数据集。如果要生成新数据集，按New按钮，如果要打开已有数据集，按Open按钮。图 4是SAS/INSIGHT运行时的样子。,数据窗口：SAS/INSIGHT提供了一个类似于电子表格的数据窗口来管理数据集。图 5为显示了数据集SASUSER.CLASS的数据窗口：,此数据集是一个班19个学生的一些情况，包括姓名、性别、年龄、身高、体重。我们看到，数据窗口标题行显示了打开的数据集的名字，标题行下左上角有一个向右的小三角，这是数据窗口

2、的菜单，见图 6,三角下方的19是观测行数，右方的5 是变量个数。窗口内每行最左边的方块是观测的绘图标记，用于在图形中标记观测；然后是观测序号；再往右是各变量的值。数据窗口中的各变量用作列标题，如图 5中的NAME、SEX、AGE、HEIGHT、WEIGHT就是数据集SASUSER.CLASS中的五个变量的名字。在每一个变量名的上面有两个标签，右边一个代表变量的量测水平，分为区间变量（Int）和名义变量（Nom）。区间变量是取连续值的变量，只能为数值；名义变量是取离散值的变量，一般为字符型，也可以取数值。变量名上面左边的标签代表变量在分析中的缺省用途，比如NAME上面的Label表示此变量的值

3、（学生姓名）在绘图中用来标记观测，SEX上面的Group表示此变量（性别）用来分组，等等,数据窗口可以用来建立新数据集。在SAS/INSIGHT内用“File|New”菜单或在启动INSIGHT 的窗口（图 3）按“New”按钮，将出现一个空的数据窗口。这时，可以直接向第一行输入数据，比如要输入 1.1.3 中的C9501数据集，就可以在第一行的前四列中分别输入李明、男、92、98，这时各列自动取变量名为A、B、C、D，而且量测水平自动定为前两个字符型是名义变量（Nom），后两个数值型是区间变量（Int）。为了修改变量名和变量的用途，从数据窗口的菜单（图 6）选Define Variables

4、，出现图 7的定义变量窗口：,在这里可以修改变量名，给变量加标签（Label），可以选择变量的量测水平，可以规定变量的用途。变量的标签是对变量的一个可以长达40个字符的描述，可以用于以后的输出，可以用汉字。,定好变量名等属性后就可以继续输入其它数据行，每输入一行后回车，直至把全部数据输完。为了使回车时光标从前一行尾部进到下一行第一格，可以从数据窗口菜单（图 6）中选“Data Options”，在弹出的对话框中（图 9）,选择回车的方向（Direction of Enter）为左下（Down and Left）。为了保存输入的数据集，选“File|Save|Data”菜单，出现图 8 那样的输

5、入数据集的窗口：,可以选择数据集放在哪一个数据库，可以输入一个数据集名，把这里的A改成c9501，按OK钮就可以保存数据集。对于比较小的数据集（几个、十几个变量，几十个观测），用SAS/INSIGHT的数据窗口可以迅速而直观地输入。对于更大量的数据，一般从其它格式转换而得。在数据窗口中如果需要修改某一个值，只要直接用鼠标点到其单元格修改，然后把输入光标离开其所在行就实现了修改。在单元格之间移动可以用鼠标单击、制表键、回车、上下光标键等方法。要保存所作的修改还需要用“File|Save|Data”菜单。当数据窗口中变量较多时，可以用滚动条滚动窗口内容来查看。如果某个变量比较重要，可以考虑把它放到

6、第一列的位置，这只要先单击该变量的名字选中它，然后在图 6的菜单中选Move to First。要把某列移到最后，选中它后用Move to Last菜单。,选中一列只要单击其变量名。如果要选中多个列，在选中一个后按住Ctrl键单击其它的名字可以添加选中其它变量。选中一个变量后按住Shift单击另一个变量名可以选中这两个变量及它们之间的所有变量。选中的多个列也可以用Move to First和Move to Last移动。要选中一个观测（行），只要单击其观测号（行号）。选多个观测可以用Ctrl单击或Shift 单击的方法。选中的观测也可以用Move to First和Move to Last移动

7、到最前或最后。还可以选中某些列同时选中某些行。只要在后续的选中操作时用添加选中（Shift单击或Ctrl 单击）即可。用鼠标在数据窗口数值显示部分拖出一个方框也可以选定一部分数值。,选定了列或者行以后，用“Edit|Delete”菜单可以删除选定的列或行。要取消所有选中，只要单击某一单元格而不是行、列标题即可。下面简单介绍一下数据窗口菜单（图 6）中各命令：Find Next 在选定了若干个观测的情况下，把下一个被选定的观测显示在窗口第一行的位置。Move to First 把选定的行或列移到最前。Move to Last 把选定的行或列移到最后。New Observations 用于快速添加

8、若干个空数据行，弹出一个对话框要求输入添加的观测数，缺省是100个。添加的空行中字符型数据先填空值，数值型数据先填缺失值（用单独的小数点代表）。New Variables 用于快速添加若干个新变量。,Sort 在选定了一列的情况下，把数据集按此列从小到大排序；在选定了多列的情况下，按选定的变量次序按这些变量综合排序，比如在SASUSER.CLASS窗口中先选定SEX 然后用Ctrl单击附加选定HEIGHT，然后排序，这样的结果是把数据集先按女、男生排序然后在女生内部和男生内部分别按身高从小到大排序。如果没有选定任何列，则弹出一个菜单，询问按哪些变量排序，比如说对SASUSER.CLASS数据，

9、可以先点SEX，然后单击Y按钮，把性别加入了排序变量中，再选HEIGHT，单击Y按钮，把身高作为第二排序变量，再单击排序变量中的HEIGHT，单击Asc/Des按钮（这是要求对身高值要由高到低排序），按OK后数据将按性别分组，然后女生、男生内部分别按身高由高到低排列。,Define Variables 设定变量的名字、标签、量测水平、缺省分析用途等，见图 7。可以在生成新数据集时定义变量，也可以对已有数据集的变量属性进行修改。Fill Values 用于自动生成一个等差数列变量。先选定一个数值型变量，然后用此命令，将弹出一个对话框要求输入起始值（Value）和增量（Increment），比如起

10、始值填100，增量填50，则此变量的在各观测中的值分别填入为100，150，200，。,Extract 这是一个很强的功能，它可以把选定的部分行、部分列或者部分行列取出到另一个窗口。比如，在SASUSER.CLASS中先选定所有女生的观测，再用添加选择（Shift 或Ctrl单击）的办法选定NAME和HEIGHT变量，然后用此命令，可以打开一个SASUSER.CLASS1 数据窗口，此数据窗口中只有姓名和身高两列和女生的观测行。可以用主菜单中的“File|Save|Data”把此新数据集保存为WORK.CLASS1（尽量不用永久数据集存放练习用的数据集）。这样可以由已有数据集挑选部分列、部分行

11、组成新数据集。,一维数据探索,1 直方图：步骤，改变图形大小，保存图形，设置菜单 2 盒形图:步骤，解释，加菱形，选定观测，分组盒形图；3 马赛克图：画法（单个变量，多个变量）,二维数据探索,1 曲线图：单个Y变量，多个Y变量，显示记录，改标签；2 散点图：画法，选观测值，改标签，刷亮；3 散点图矩阵：画法，选中观察值,数据探索三维,SAS/INSIGHT对三维数据可以作称为旋转图的三维散点图。比如，要对SASUSER.CLASS 中的学生年龄、身高、体重作三维散点图，在数据窗口依次选定AGE、HEIGHT、WEIGHT，然后启动菜单“Analyze|Rotating Plot”,可以生成

12、一个三维散点图。图 21是经过旋转后的图形。,这种三维散点图之所以称为旋转图，是因为坐标系可以在三维空间绕原点任意旋转。图形的左侧有一个小工具栏，其中有向上、下、左、右、逆时针、顺时针旋转的图标，再往下有一个滚动条，用它来规定自动旋转的速度。左下角是图形的菜单（向右的三角形）。为了旋转坐标系，单击左侧的旋转方向图标。按住旋转图标可以连续旋转。按住Shift或Ctrl 再旋转可以实现自动旋转。当鼠标光标移到图形的四个角时光标形状变成了手的形状，单击可以旋转，拖动可以连续旋转，拖动时“抛出”可以自动旋转。自动旋转中可以随时拖动图形以改变旋转方向。,旋转图的菜单（图 22）中，Ticks用来调整坐标

13、轴刻度，Axes可以选坐标轴以数据中心点为原点、以左端点为原点、不画坐标轴。Observations指定画出所有观测，如果没有选中此项则只画被选中的观测。Rays从原点向每个散点画射线。Cube在散点四周画一个长方体盒子。Depth可以使离视点近的点画得较大，离得远的点画得较小。Fast Draw指定用另一种较快的绘图方法绘图。Markers Sizes选择散点的大小。,图形的调整,SAS/INSIGHT提供了很强的调整绘制的图形的功能。比如，调整坐标轴的画法，点的大小、符号、颜色，隐藏某些观测，等等。给不同观测使用不同的符号和颜色画点有助于迅速区分不同类观测的特点。,比如，SASUSER.I

14、RIS 数据集中包含了Fisher著名的Iris数据，其中有三种不同的鸢尾属植物的花瓣、花萼长、宽的测量数据，希望从这些测量数据找出区分这三种植物的指标。为了直观看到不同植物的测量数据的特征，最好用不同颜色画每一种植物的散点。打开数据集后，选定分类变量SPECIES，调用“Analyse/Box Plot/Mosaic Plot”菜单来作其马赛克图，可以看到此变量的三个值为Virginica、Versicolor、Setosa。用“Edit|Windows|Tools”菜单可以打开一个工具窗口，如图 23。这个窗口可以改变观测符号的颜色、符号，连线的线型、线宽，可以放大图形局部。,在打开的马赛

15、克图中先选定Virginica，这时所有类型Virginica的观测被选中，按一下工具窗口中的红色，就给所有这些观测规定了绘图符号为红色。类似指定Virsicolor 为绿色，Setosa为蓝色。作PETALWID（花瓣宽）对PETALLEN（花瓣长）的散点图，可以作出三种不同植物用不同颜色绘点的散点图，见图 24。,利用一个变量的不同值来确定观测绘点的颜色还可以自动进行，方法是先选定该变量（如SPECIES），然后单击工具窗口的渐变颜色棒，就可以为SPECIES的每一不同值分配一种不同颜色。这一方法不仅适用于SPECIES这样的名义变量，也适用于数值型变量。颜色棒的颜色可以调整，比如要把颜色

16、棒变为由红到蓝，只要把红色方块拖到颜色棒左端，把蓝色方块拖到颜色棒右端。为了改变绘点符号的大小，调用图形菜单（图形边角上的向右三角符号）中的Marker Sizes 菜单可以选择一个合适的符号大小。,利用一个分类变量来决定不同的绘点符号除了上述的对每一类观测分别选定，然后指定绘点符号的办法，还可以选定这一分类变量，然后单击工具栏中绘点符号下面的多种符号的长棒形图标，可以自动为每一类分配一个绘点符号。不同类观测用不同的颜色和符号来绘点是一种强有力的数据探索手段，恰当使用可以直观地发现不同类型观测的区别。,分布研究,SAS/INSIGHT提供了很强的一维分布研究功能。对连续型变量，除了可以画直方图

17、、盒形图外，还可以作各种统计表，比如矩、分位数表，可以在直方图上画拟合密度曲线，可以检验分布是否来自正态、对数正态、指数、威布尔分布，等等。对离散型变量，可以画马赛克图、条形图、频数表。,为了研究SASUSER.CLASS中身高的分布，在未选中变量的情况下，启动“Analyze|Distribution(Y)”菜单，出现图 25的选择变量对话框：,选Y变量为HEIGHT，按OK可以打开一个新窗口，显示身高的直方图、盒形图、矩统计量表（图 26）：,分位数表：,在Graphs菜单中已选了直方图、盒形图，还可以作QQ图，即分位数分位数图。,图 28为身高的正态QQ图，其中画出了班上19个学生的19

18、个点，每个点的纵坐标为变量值，而横坐标为该值的累计百分比频数对应的标准正态分位数。比如，身高最低的一个为51.3，其累计百分比频数（即51.3的经验分布函数值）为5.3%，即身高小于51.3的占5.3%，而标准正态分布的0.053分位数为-1.84570，所以此点的横坐标即-1.84570。如果身高服从正态分布，QQ图的散点应大致在一条直线附近变动。QQ图的各种不同形状能够反映出变量分布的偏斜情况和重、轻尾情况。在QQ图中也可以选观测、刷亮等。画出QQ图后选主菜单中的“Curves|QQ Ref Line”可以为图中散点画一条拟合直线。,图 28的身高的QQ图显示身高基本服从正态分布。如果我们

19、画SASUSER.GPA中GPA分数的QQ 图（图 30）：,就可以看到GPA的分布呈现左偏的情况。这是因为，在QQ图的左下端，GPA散点的走向比正态（图中直线）偏下，说明GPA分布的左尾比正态长；在QQ图的右上端，GPA散点的走向比正态偏右下，说明GPA分布的右尾比正态短，即分布左偏。作为验证，可以看一看的图 29直方图：,图 32给出了与正态相比左偏、右偏、轻尾、重尾的分布的QQ图的典型模式：,除了可以作正态分布QQ图外，还可以作对数正态、指数分布、威布尔分布的QQ图。对数正态要指定参数Sigma，威布尔分布要指定形状参数C。,SAS/INSIGHT为研究一维变量分布除画直方图外还提供了两

20、类分布密度估计：参数估计和非参数估计。参数估计可以拟合正态、对数正态、指数、威布尔分布密度。非参数估计使用核估计。比如，为了估计身高的正态密度并把密度曲线叠加在直方图上，选“Curves|Parametric Density”，弹出对话框图 31：,指定正态分布且方法为用样本估计分布密度参数。按OK后作出的图见图 33：,为了作身高密度的核估计图，选“Curves|Kernel Density”，弹出一个对话框，可以选三种核函数：正态核、三角核、二次函数核，可以自动拟合最优的密度估计（方法为AMISE）或者自己指定平滑参数C。见图 33。作了密度曲线图后在图形下面将出现显示密度估计主要参数的

21、表格.,单击其中的曲线标志可以加亮显示图中的曲线。对参数密度估计，给出了估计的参数，比如正态的均值、方差；对核估计，给出了核函数类型，及平滑参数值。有些参数旁边有一个滑块，可以手工选择参数的值。比如拖动核估计中的平滑参数，此参数变小时估计的曲线变粗糙，变大时曲线变光滑。,在“Curves”菜单中还提供了对样本经验分布函数的估计。选“Curves|Empirical CDF”即绘制样本经验分布函数。选“Curves|CDF Confidence Band”并选一个置信限可以在经验分布函数两边画分布函数的置信限，见图 35：,用经验分布函数估计分布函数相当于用直方图估计分布密度。分布函数也可以用参

22、数分布函数（如正态分布）来估计。选“Curves|Parametric CDF”并选分布类型可以画出估计的分布函数。图 35中的光滑曲线即用正态分布估计身高的分布函数。,SAS/INSIGHT还可以进行分布检验，可以检验数据是否来自某一类分布（参数未知），或检验数据是否来自某一特定分布（参数已知）。选“Analyze|Test for Distribution”，并选择是检验正态、对数正态、指数、威布尔分布中哪一个，选正态后，得到图 36的结果它给出了分布类型、估计的分布均值、标准差，及Kolmogorov D统计量的值，并给出了检验H0：样本来自正态分布的检验p值（Prob D）为.15，说明检验结果不显著，不能否定正态假设。,如果要检验数据是否来自某一特定分布，选“Curves|Test for a Specific Distribution”，并指定分布类型、分布参数，可以计算检验的Kolmogorov D统计量及相应p值。图 37是检验身高是否标准正态分布的结果，可以看出p值为0.0001高度显著，应该否定数据来自标准正态的假设。,

展开阅读全文