SAS系统快速入门(共20).ppt

上传人:牧羊曲112 文档编号:6518474 上传时间:2023-11-08 格式:PPT 页数:65 大小:2.94MB
返回 下载 相关 举报
SAS系统快速入门(共20).ppt_第1页
第1页 / 共65页
SAS系统快速入门(共20).ppt_第2页
第2页 / 共65页
SAS系统快速入门(共20).ppt_第3页
第3页 / 共65页
SAS系统快速入门(共20).ppt_第4页
第4页 / 共65页
SAS系统快速入门(共20).ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《SAS系统快速入门(共20).ppt》由会员分享,可在线阅读,更多相关《SAS系统快速入门(共20).ppt(65页珍藏版)》请在三一办公上搜索。

1、第2章 SAS系统快速入门,清华大学经管学院 朱世武Z,本章内容提要,SAS系统简介 SAS系统工作环境 存取和管理数据 呈现数据 分析数据,SAS系统简介,全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制 1972研制出第一版,1976年成立了SAS软件研究所,正式推出了SAS软件,现在是8.2版 是用于数据分析与决策支持的大型集成信息系统,统计分析功能是它的重要组成部分和核心功能 国际上的标准软件系统,SAS功能模块,BASE SAS模块 SAS/STAT-统计分析模块 SAS/ETS-经济计量学和时间序列分析模块 SAS/OR-运

2、筹学模块 SAS/QC-质量控制模块 SAS/IML-交互式矩阵程序设计语言模块 SAS/GRAPH-绘图模块 SAS/FSP-快速数据交互式菜单系统模块 SAS/AF-交互式应用开发模块,SAS功能模块,SAS/ASSIT-菜单驱动界面模块 SAS/ACCESS-访问外部数据模块 SAS/EIS-企业信息系统模块 SAS/INSIGHT-可视化探索工具模块 SAS/CALC-电子表格模块 SAS/CONNECT-分布式数据处理模块 SAS/WA-企业级数据仓库管理模块 SAS/EM-企业级数据挖掘模块,SAS模块的分类,SAS系统的特点,由大型机系统发展而来 针对专业用户进行设计 程序驱动,

3、功能强大 高级编程语言 具有工业用途的分析软件,SAS技术水平的三个层次,第一层面:会使用SAS菜单以及一些菜单界面的SAS模块,了解初步的SAS BASE语句,能用SAS系统作简单的数据加工处理和分析,具有一定的数理统计知识,掌握一定的SAS STAT过程。第二层面:精通SAS BASE,能用SAS语言编写复杂的SAS程序,能用SAS BASE进行大型的、复杂的数据加工整理和呈现,掌握SAS和外部数据文件的接口,会进行复杂的统计建模和分析等,初步掌握一种基于SAS的开发工具。第三个层面:在一、二层面基础上,进一步掌握SAS/AF,SAS/IML等,能开发基于SAS的数据管理和分析模块。,本章

4、目的,让初学者能够快速地熟悉SAS系统的应用,完成一些简单的数据处理和分析,即快速得到SAS技术第一层面水平。本章主要介绍SAS系统的菜单操作,配合命令和功能键的使用。有些地方也会附带介绍SAS系统中的一些基本概念,使初学者能够边练习边了解SAS系统。本章基于SAS菜单操作,基本上都可以通过SAS语言编程来实现。所以,读者一定要学好本书以后关于SAS语言方面的内容,那些才是SAS软件的精华,只有利用SAS语言编写程序才能更有效地发挥SAS软件的强大功能。本章目的绝不是本书的目的,仅具备第一层面的SAS水平是很难体会SAS的优势,不如学其它任意一种简单的统计分析软件。,SAS的工作界面,缺省情况

5、下的活动窗口,SAS资源管理器窗口 结果窗口 编辑器窗口(F5)日志窗口(F6)输出窗口(F7),资源管理器窗口,管理SAS逻辑库和文件快捷方式 逻辑库存贮SAS文件 文件快捷方式标识外部文件 四个系统逻辑库:Maps Sashelp Sasuser Work,编辑器窗口,编辑器窗口用来编辑SAS 程序,编辑器能够实现如下的功能 对SAS语言的彩色编码和语法检查 可展开或折叠程序片段 可记录宏 支持键盘快捷方式(Alt 或 Shift)加上其它键 多层撤消和恢复,SAS程序的一般特点,语句用分号结束 不区分大小写 空格、空行一般可以任意放置 SAS程序由数据步和过程步构成,日志窗口,程序行黑色

6、:以语句标号开始 提示蓝色:以NOTE开始 警告绿色:以WARNING开始 错误红色:以ERROR开始,输出窗口,输出SAS程序的执行结果,结果窗口,结果窗口可以查看和管理SAS程序的输出结果,两类菜单栏,菜单栏的下拉菜单 操作:点菜单栏中的按钮,弹出菜单操作:相应窗口点鼠标右键,命令行,命令行中输入SAS命令,工具栏,定制工具栏:右击工具栏选定制,SAS窗口条,通用极大极小化窗口操作,浏览文件,资源管理器窗口是管理SAS文件的简单界面,数据库操作,SAS8.2系统的四个预定义数据库:Work数据库叫做临时库,存放在其中的SAS文件叫临时文件,这些临时文件当退出SAS系统时会被自动删除。Sas

7、user库保存与用户个人设置有关的文件,它是永久的,即退出SAS时文件不会被删除。Sashelp库保存与SAS帮助系统、例子有关的文件,是永久的。Maps,建立一个新的数据库,在资源管理器窗口双击逻辑库图标。选文件新建 输入newlib,引擎选项中保留默认项,选中启动时启用 可以选择其他的引擎,读入不同格式的数据文件。点击浏览按钮,选上这个数据库的目录,点击确定。点击确定按钮,在资源管理器窗口出现newlib图标。,在资源管理器窗口双击Sashelp数据库图标。在数据库中找到一个叫Class的数据表文件,选中这个文件的图标,在弹出菜单中选复制。回到上一级目录,双击Newlib数据库图标。在空白

8、处点鼠标右键,在弹出菜单中选粘贴。在新建的数据库中出现一个Class的文件。用户还可以实现将数据表文件打印、删除、重命名等操作,复制SAS数据表到新的数据库中,创建文件快捷方式,选文件另存为,在保存在一栏中选择你要保存的目录,在文件名中输入文件名newproc,点保存按钮。在资源管理器窗口双击文件快捷方式图标。选文件新建,则出现一个文件快捷方式赋值的窗口。输入名称newproc,选中启动时启用。点击浏览按钮,选择刚才保存的文件newproc.sas。点确认。,功能键,调出功能键(KEYS)窗口,F9调出功能键窗口。例如F3、F8是提交SAS程序 F4是调用刚提交的程序 F5、F6和F7分别是调

9、用编辑器窗口、日志窗口和输出窗口。CLTE是清除窗口中的内容,添加新的功能键定义,按F9调出功能键窗口按F12添加新的功能键在命令行中输入命令“END”或“SAVE”来保存这个设置。这个设置一直有效,直到用户再次修改或清除它。,SAS数据集,在SAS系统中,数据是以数据集的形式来存储和处理的。SAS数据集(SAS Datasets)可以看作由若干行和若干列组成的表格。SAS 数据集存放在以特殊格式存放的二进制文件中,用一个SAS逻辑名来使用SAS数据集,不需要知道它在磁盘存储的物理地址。数据集的每一行叫做一个观测(Observation),每列叫做一个变量(Variable)。SAS数据集等价

10、于关系数据库系统中的一个表,SAS数据集有时也称作一张表。,以Class数据表文件为例,这个文件实际上就是一个数据集。这个数据集中有5个变量,分别是姓名(name)、性别(sex)、年龄(age)、身高(height)、体重(weight)。数据集中有19个观测,其中每一个学生的资料都是一个观测,每个观测包括了以上5个变量的数据。,Observation,Variable,SAS名字由英文字母、数字、下划线组成;第一个字符必须是字母或下划线;名字最多用32个字符,大写字母和小写字母不区分。,有关SAS名的约定,SAS数据集用两级水平名命名:第一级名字是SAS逻辑数据库的库名;第二级是文件的名字

11、。例如Sashlep.Class,Sashelp是数据库的名字,而Class则是文件本身的名字。临时数据集和永久数据集的区别:临时库数据集可以使用单水平名或双水平名;而永久库数据集必须使用双水平名字来加以确认。例如Work.Class和Class都代表临时库中的文件,而Sashlep.Class则是永久库中的文件。,浏览和编辑数据,打开数据表文件:选择下拉菜单工具表编辑器。在VIEWTABLE窗口状态下选择文件打开。在对话窗口中选择相应的数据库和要打开的文件 在命令行中输入“VT(数据表文件名字)”。其中,数据表文件名字必须根据刚才介绍的命名规则来输入(临时数据集用单水平或双水平名,永久数据集

12、用双水平名),移动和隐藏列,隐藏 选中这一列,然后在弹出菜单中选Hide(隐藏)一项,则这一列自动隐藏起来,但并没有从数据集中删除。要恢复显示这一列,可以选数据隐藏取消隐藏,在HideUnhide窗口中双击Hidden栏中的列变量Weight,将Weight放回到Displayed一栏中,点OK确认。则Weight列又再次显示。,移动 点击要移动的列的标题,这样就选择了这一列数据。按住鼠标左键拖动这一列到另一列的之前或之后,放开鼠标键就能改变列的顺序,改变列的标题,如果这一列没有被赋与标签值,则在表中显示的标题是这一列变量的变量名;点击某一列的标题(以Weight列来示范),在弹出菜单中选Co

13、lumn Attributes,在Column Attributes窗口中的Label一栏中输入Weight in pounds,然后点Apply按钮确认。列标题被改为Weight in pounds。然后点Close关闭该窗口。,提示 改变列的标签只能是对当前窗口有效,一旦关闭该数据表文件,列的标签恢复到原来的缺省值。因此,为了保存改变的列标签,需要将该文件另存为另外一个数据表文件。,对数据排序,学生的身高进行排序的操作:在下拉菜单中选编辑编辑模式。或直接点工具栏中的编辑图标。则VIEWTABLE窗口从浏览模式转换到编辑模式。点列标题Height选中这一列,在弹出菜单中选Sort(排序),选

14、Descending(降序)或Ascending(升序)。则身高数据自动按降序或升序排列。也可以在选中这一列之后,点工具栏的升序排序或降序排序图标,提示 各种类型的数据都可以进行排序,如果是符号变量则按字母的顺序排列,数值变量按数值大小进行排序,时间变量按时间先后排序。按某一个变量进行排序,则整个观测都按新的顺序排列,而不仅仅是这一列的数据。排序后,观测的排列顺序改变了,我们可以了解到各个学生之间的身高关系。在编辑状态下进行排序,则新的顺序关系被保存下来。当用户关闭该窗口之后,再打开这个数据集,则显示的是新的顺序关系,对数据进行筛选,在VIEWTABLE窗口状态下,选菜单数据Where。出现一

15、个WHERE EXPRESSION的对话框 在对话框的Available Column一栏中点Sex,在Operators中选EQ(等于)。在Available Column一栏中出现了一列,点击它。在新出现的窗口中选F一项。可以在Where一栏中看到这样的语句:Sex EQ F。这个语句的意思是选择性别是女性的观测数据。点OK确认。可以看到VIEWTABLE窗口只显示了女学生的资料,以上的操作选择了Class数据中的一个子集,但并没有从数据集中删除其它数据。要恢复原来的数据显示,只需要选菜单数据Where清除则可。要保存这个子集可以将子集保存为另外一个文件,编辑单元格,在VIEWTABLE窗

16、口的编辑模式下可以修改原来的数据:只需要点击要修改的单元格,输入你要修改的数据,则原来的数据被置换。若不想修改或想重新修改,点工具栏的取消行编辑图标,返回到修改前的状态。如果想保存修改,则选择菜单文件保存,或直接点保存图标。,用其它方式浏览和编辑数据,在FSVIEW窗口中查看和编辑数据:在命令行中输入“FSV(数据集名)”;操作实例;FSVIEW窗口的最大好处是它能够快速的打开一个数据表文件,比VIEWTABLE方式要快得多。,在FSEDIT窗口中浏览和编辑数据:在命令行中输入“FSE(数据集名)”操作实例。,导出数据,选择菜单文件导出数据。出现Export Wizard窗口。在Library

17、一栏中选NEWLIB,在Member一栏中选CLASS。点Next按钮选择一种导出的数据类型。例如Microsoft Excel 97 or 2000。点Next按钮。,点Browse按钮。在另存为窗口选择你要保存文件的目录,并输入文件名。点Finish按钮。一个Excel格式的新数据文件被保存下来,导入数据,选菜单文件导入数据。出现Import Wizard窗口在文件格式选项中选择要导入的文件格式。例如选Microsoft Excel 97 or 2000。点Next按钮,点Browse按钮,选择需要导入的数据文件。进入下一步在Library一栏中选择要存放SAS数据集的数据库,在Membe

18、r一栏中输入新的数据集的名字点Finish按钮确认。一个新的数据集自动产生。,创建查询,有时候用户需要了解数据集中各个变量之间的关系或这数据集之间的关系。这就需要对SAS数据集执行交互式的查询。用户可以使用SAS系统的SQL Query窗口。但复杂的查询需要用户对数据库的查询语言有一定的了解。在下面我们将介绍一些简单的查询,包括对数据取子集、排序和创建新的变量。,对数据取子集,选菜单工具查询。启动SQL窗口。在Table Sources一栏中点选NEWLIB数据库。在Available Tables一栏中出现NEWLIB.CLASS数据集。双击这个数据集,将它放到Selected Tables

19、栏中。点OK按钮确认。在SQL QUERY COLUMNS窗口的Available Columns一栏中点选Name、Sex、Age、Height和Weight,点向右箭头,将这些变量放到Selected Columns一栏中。点鼠标右键,在弹出菜单中选Where Conditions for Subset一项在WHERE EXPRESSION窗口的Available Columns一栏中点变量Sex,在弹出菜单中选操作符EQ(等于)。这时在Available Columns中出现了一项,点中它,在弹出菜单中选F。可以看到Where框下出现语句Sex EQ F。点按钮确认。,回到SQL QUE

20、RY COLUMNS窗口,在弹出菜单中选Run QueryRun Immediate。查询的结果马上显示在输出窗口。,创建新的变量,重新创建查询或启动查询界面:重复对数据取子集操作中的、步 在SQL QUERY COLUMNS窗口中点选Build a Columns按钮 在BUILD A COLUMN EXPRESSION窗口的Available一栏中点Height变量。在弹出窗口中选操作符“”(乘号),点,输入30.5,点OK确认。在弹出窗口选操作符“”(除号),点,输入12。可以看到,在Column Expression一栏中显示“Height*30.5/12”的表达式,点OK。,在弹出的

21、Expression Column Attributes窗口中输入变量名(Alias Name)“h_cm”、格式(Format)“5.1”、标签(Label)“Height in cm”。点OK确认在SQL QUERY COLUMNS窗口的弹出菜单中选Run QueryRun Immediate。输出结果在输出窗口中显示,呈现数据,产生HTML输出:选工具选项参数选择;在参数选择窗口中选结果标签;选创建列表、创建HTML;在结果选项中选按生成状态查看结果及首选Web浏览器;点确定。,结果窗口有两个输出文件,SAS输出格式和HTML格式。保存HTML文件,可以双击这个文件,在浏览器中选文件另存

22、为。编辑HTML的源代码。在结果窗口点选HTML文件,在弹出菜单中选编辑源,则在新的编辑器窗口中显示HTML文件的源代码。编辑完之后保存,则新的源代码取代原来的源代码,文件的显示也会改变。,提交程序,查看报表的输出效果:proc print data=newlib.class;run;,以报表形式显示数据,选菜单工具报表编辑器。在数据选择窗口选择要创建报表的数据集。点确定。,保存报表,资源管理器窗口双击Newlib库的图标。进入Newlib库后,在弹出菜单中选新建。在对话窗口中选目录,并点确定。在弹出的目录创建窗口输入目录的名字,如“NEW”,点确定。则一个名叫“NEW”的目录文件被创建。激活

23、REPORT窗口,选文件保存报表。在保存定义窗口,逻辑库名、目录名和报表名中分别输入Newlib、new和newreport。点确定,对报表中的列进行操作,删除列 在REPORT窗口状态下,点击需要删除的列的标题,则列标题变黑(表示选中了这一列)。选编辑删除,则这一列从报表中删除 移动列 点Sex标题,选编辑移动下一选定项的左边,再点Name标题。则Sex列移动到Name列的左边,对列进行分组 将Sex列移动到Name列的左侧,双击Sex标题,在弹出的定义窗口的用法一栏中选择分组变量。点确定,对数据选取子集,在报表中也能实现对数据选取子集 选子集Where,在Where窗口中输入语句sex=“

24、F”,然后点确定按钮。则REPORT窗口只显示女生的资料。子集的条件随用户的需要,也可以是多个条件,如可以输入sex=“F”and Age13。则窗口只显示13岁以上的女生资料。要撤销子集的选取 可以选子集撤销最后一个Where。窗口又恢复显示所有的数据。用户根据自己的要求修改报表的外观,然后保存或者打印报表,用汇总报表显示数据,选菜单解决方案分析分析家 选文件用SAS名称打开。在选择成员窗口,点选Newlib库的Class文件。点确定按钮。在Analyst窗口显示了Class数据集 选工具查看器设置,在Viewer Settings窗口中选Output标签,选Create HTML file

25、 of result,并取消Provide source code。点OK确认。则输出的结果同时显示在浏览器中 选报表表,点左上角的图标,在First Report Style窗口中选Analysis Variables标签,双击要分析的变量,例如Age、Height和Weight 点Statistics标签,双击要汇总的统计量,如MEAN、MIN、MAX和STD等。点OK,用SAS/INSIGHT分析数据,SAS/INSIGHT是在基本的SAS系统基础上添加的一个模块,提供了数据交互输入、数据探索、分布研究、相关分析、各种图形等功能 启动INSIGHT的最快速的方法是直接在命令行中输入INS

26、IGHT。这时,系统要用户选择一个数据集。选择Newlib库中的Class数据集。点打开按钮,进入INSIGHT界面以后,用户可以看见INSIGHT提供了一个类似于电子表格的数据窗口来管理数据集。INSIGHT提供了十分方便的数据探索功能。对一维数据,可以作直方图、盒形图、马赛克图,对二维数据,可以作散点图、曲线图、散点图矩阵,对三维数据可以作旋转图(三维散点图)。在图上可以选定一些观测,这些选择结果会同时反映在数据窗口和其它图中。,一维数据分析,以数据集Newlib.Class为例。选择变量Height作直方图。选分析柱状图条形图。在柱状图条形图窗口中点选变量Height,再点Y按钮,将变量

27、放入方框Y,点确定,盒形图,仍然以Height为分析变量。选分析盒形图马赛克图。在盒形图马赛克图窗口中点选变量Height,再点Y按钮,将Height放到方框Y中。点确定,马赛克图,盒形图马赛克图对连续型变量作盒形图,对离散型变量将作马赛克图。例如对性别可以作马赛克图,二维数据分析,曲线图 有一个取值由小到大的X变量,有一个或几个Y变量,以X变量为横坐标对Y 变量画曲线。散点图 也有一个X变量和一个Y变量,但不要求X变量有从小到大的次序,画图不用连线而是用散点画出每一对X、Y坐标。散点图矩阵 画出多个变量两两间的散点图以考察多变量关系。,三维数据分析,SAS/INSIGHT对三维数据可以作称为

28、旋转图的三维散点图。例如以Newlib.Class数据集的Age、Height和Weight变量作为图形的三个坐标轴。在菜单分析旋转图中,分别选取以上三个变量作X、Y、Z轴 这种三维散点图之所以称为旋转图,是因为坐标系可以在三维空间绕原点任意旋转。图形的左侧有一个小工具栏,其中有向上、下、左、右、逆时针、顺时针旋转的图标,再往下有一个滚动条,用它来规定自动旋转的速度。左下角的小三角图标是图形的菜单。为了旋转坐标系,单击左侧的旋转方向图标。,按住旋转图标可以连续旋转。按住Shift或Ctrl 再旋转可以实现自动旋转,回归分析,可以选择回归的方法和随机变量的分布。点输出按钮,选择你要显示的回归分析

29、。选择之后点确定。如果对这些选择不太确定,可以先点应用按钮,预先观看分析结果,觉得回归的方法不合理或输出的分析不够详细,可以关闭输出结果,再进行选择。,在SASINSIGHT中能够实现回归分析。选分析拟合,在拟合窗口中将Height选为Y变量(因变量),将Weight选为X变量(自变量)。,编程进行数据加工整理的重要性,通过以下几个例子来说明:CAPM在中国股市的检验 收益率计算波动率计算数据展现,CAPM在中国股市的检验,见相应文件的计算要求D:学生成果XJ,收益率计算,第19章内容,波动率计算,6章:data a;set fdata.a1a0001;sum+clpr;data b;merg

30、e a a(firstobs=6 rename=(sum=sum_1);ma5=(sum_1-sum)/5;run;例中,计算变量CLPR的5日滑动平均值,体现了用简单方法处理复杂的问题的技巧。用通常的循环语句写相应的程序更复杂,且占有的资源会更多。,数据展现-一个画面放四幅图,12章例子:proc greplay nofs igout=fdata.graph gout=fdata.graph;tc sashelp.templt;template l2r2;treplay 1:a1a0001 2:a1a0002 3:szzz 4:szcz;run;例中,将上证指数,上证A股指数,深证成指和深证综指这四幅时序图放在一个画面上。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号