数据分析方法第一章.ppt

上传人:牧羊曲112 文档编号:6166766 上传时间:2023-10-01 格式:PPT 页数:111 大小:2.07MB
返回 下载 相关 举报
数据分析方法第一章.ppt_第1页
第1页 / 共111页
数据分析方法第一章.ppt_第2页
第2页 / 共111页
数据分析方法第一章.ppt_第3页
第3页 / 共111页
数据分析方法第一章.ppt_第4页
第4页 / 共111页
数据分析方法第一章.ppt_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《数据分析方法第一章.ppt》由会员分享,可在线阅读,更多相关《数据分析方法第一章.ppt(111页珍藏版)》请在三一办公上搜索。

1、1,第一章 概述,第一章 数据描述性分析,数据的描述性分析即从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也进一步分析的基础。,1.1 一维数据的数字特征1.2 数据的分布2.3 多维数据的数字特征与相关分析,2,第一章 概述,1.1.1 表示位置的数字特征1.1.2 表示分散性的数字特征1.1.3 表示分布形状的数字特征,1.1 一维数据的数字特征,设有一维数据:x1,x2,xn是研究对象的样本观测值,数据分析的任务是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量

2、概括它的主要信息或特征数字特征:数据的集中位置、分散程度、数据分布的形状特征等等。,3,第一章 概述,1.1.1 表示位置的数字特征(统计量)如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量:,均值能够概括反映所有各项数据的平均水平。有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏抗扰性(稳健性)易受异常值的影响而使其值有较大变化。,4,第一章 概述,设x1,.,xn是n个观测值,它们的次序统计量为x(1),x(2

3、),x(n),即 x(1)x(2)x(n)x(1)为最小次序统计量,x(n)为最大次序统计量,,5,第一章 概述,2.中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有稳健性。计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,6,第一章 概述,3.分位数(Percentile)根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是一种分割值。分位数也是描述数据分布和位置的统计量。对0p1,数据x1,.,xn的p分位数是,0.

4、5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3=M0.75和Q1=M0.25。,4.三均值,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性,7,第一章 概述,设数据是总体X的样本,总体的分布函数是F(x),设总体的均值为=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计:,设总体分布F(x)是连续分布,0p1,称满足的p为总体分布F(x)的p分位数,当总体p分位数为唯一的情况时,在一定条件下,样本的p分位数M p是总体分位数p相合估计,即当n充分大时,p M

5、 p,8,第一章 概述,1.1.2 表示分散性的数字特征1.方差(Variance或Var):是由各观测值到均值距离的平方和除以观测量组数减1,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;方差的开方称为标准差(Standard deviation或Std Dev):标准差的量纲与原变量一致。,9,第一章 概述,变异系数(Coefficient of Variation或CV):是将标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的,无量纲量:变异系数的值越大,说明数据集中相对于均值的变化就越大。,2.极差(Range)与半极

6、差(Interquartile range)极差就是数据中的最大值和最小值之间的差:极差=x(n)-x(1)=maxxi minxi上、下四分位数之差R3=Q3 Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况,具有抗扰性稳健性;极差有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。,10,第一章 概述,设数据是总体X的样本,则数据的方差s2、标准差s、变异系数CV分别是总体方差2=Var(X)、总体标准差、总体变异系数r=/的相合估计:即当样本容量n充分大时,有2 s2,s,rCV 正态总体N(,2)的上、下四位数分别为 0.75=+0.6745,0.25=-0.67

7、45 总体的四分位极差为r1=0.75-0.25=1.349,则有=r1/1.349,总体标准差的一个抗扰性的估计四分位数标准差:,11,第一章 概述,3.上、下截断点:用来判断异常值的简便方法:Q3+1.5 R1,Q1-1.5 R1大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。总体为正态分布N(,2)时,上、下截断点分别为 0.75+1.5 r1=-2.698,0.25-1.5 r1=-2.698 数据落在上、下截断点之外的概率为0.00698,即对容量n较大的数据,异常值的比率约为0.00698,12,第一章 概述,1.1.3 表示数据分布形状的统计量 偏度和峰度是

8、描述数据分布形状的指标。1.偏度(skewness):偏度是刻画数据对称性的指标。偏度的计算公式为:关于均值对称的数据其偏度为g1=0;左侧更为分散的数据,其偏度为负(g10),称为右偏。,13,第一章 概述,2.峰度kurtosis:峰度描述数据向分布尾端散布的趋势 利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若1 近似于标准正态分布,则峰度接近于零;2 尾部较正态分布更分散,则峰度为正,称为轻尾;3 尾部较正态分布更集中,则峰度为负,称为厚尾。,14,第一章 概述,15,第一章 概述,设x1,.,xn是总体X的样本,3

9、、4分别表示总体X的3、4阶中心矩,即 3=E(X-)3,4=E(X-)3其中=E(X),则 总体偏度为:G 1=3/3 总体峰度为:G 2=(4/4)-3且数据的偏度g1和峰度g2分别是总体偏度G 1和总体峰度G 2 的相合估计,即当n充分大时,有 G 1 g1,G 2 g2总体偏度是度量总体分布是否偏向某一侧的指标;总体峰度是以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同,16,第一章 概述,在SAS中计算一维数据的数字特征1 PROC MEANS过程2 PROC UNIVARIATE过程,17,第一章 概述,1.MEANS过程(1)MEANS过程的一般

10、格式:PROC MEANS 选择项 统计量关键字列表;VAR 变量表;要分析的变量名列BY 变量表;按变量名列分组统计,要求数据集已按变量名列排序CLASS 变量表;按变量名列分组统计,不要求数据集排序FREQ 变量表;表明该变量为分析变量的频数WEIGHT 变量表;表明分析变量在统计时要按该变量权重ID 变量表;输出时加上该变量作为索引OUTPUT OUT=数据集 统计关键字=变量名;指定统计量的输出数据集名关键字=.;指定统计量对应的新变量名,18,第一章 概述,二、选择项说明 DATA=SAS数据集 将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。

11、NOPRINT 说明不输出任何描述性统计值。MAXDEC=n 指出MEANS用于输出结果的最大小数位(0),缺省值为7。FW=n n为输出统计量时的字段宽度,缺省值为12。VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。N表示观察值的总数;WGT表示权重和WDF表示权重和减1;DF表示自由度N-1MISSING 指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。统计量 用来指定进行计算的描述性统计量。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。,19,第一章 概述,三、MEANS过程中常用的统计量关键字有:l基本统计量 N MEAN STD

12、 CV SUM VAR RANG MIN MAX USS CSSl与假设检验有关的统计量 STDERR(标准误)T PRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限),四、PROC MEANS过程中的其他语句 lVAR语句:列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。l BY语句:指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序),20,第一章 概述,可以计算的描述性统计量关键字及其含义见下表。,21,第一章 概述,(3)使用CLAS

13、S语句和BY语句 使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。,22,第一章 概述,使用BY语句之前先排序,如下代码可以在上例中按变量R_Id分组统计:proc sort data=mylib.sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median

14、 p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id;run;,23,第一章 概述,使用CLASS语句分组较为简单,如下代码也可以在上例中按变量R_Id分组统计:proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;,24,第一章 概述,l FREQ语句:指定某一变量,表示同一观察的出现次数。l OUTPUT OUT=数据集:将MEANS过程的结果输出给指定的数据集中。,八、缺失数据处理 1VAR变量:MEANS过程

15、在开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。2变量:若观察在BY变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算分析。,25,第一章 概述,3.UNIVARIATE过程 UNIVARIATE过程与MEANS的功能大同小异,他们都可以可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等统计量。而且UNIVARIATE过程中具有绘图功能。其中,HISTOGRAM语句用来指示SAS对其

16、后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线),26,第一章 概述,UNIVARIATE过程的一般格式为:PROC UNIVARIATE 选择项;VAR 变量表;指定要分析的变量名列BY 变量表;按变量名列分组统计,要求数据集已按该变量名列排序FREQ 变量;表明该变量为分析变量的频数WEIGHT 变量;表明分析变量在统计时要按该变量权重ID 变量表;输出时加上该变量作为索引OUTPUT OUT=SAS数据集 关键字=名称;指定统计量的输出数据集名关键字=.指定统计量对应的新变量名PCTLPTS=PCTLPRE=;指定所需百分位数对应的输出

17、变量名,27,第一章 概述,二、选择项说明DATA=数据集 该选择项指定PROC UNIVARIATE使用的SAS数据集。缺省值为最新建立的数据集。NOPRINT 指定抑制产生报表。PLOT 指定给出三幅数据图:茎叶图(或水平棒图)、盒状图和正态概率图。FREQ 该选择项给出变量值、频数、百分数、累计百分数组成的频数表。,28,第一章 概述,NORMAL 指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。正态检验:若在过程中指定NORMAL选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于2000时,计算Shapiro-Wilk统计量W,

18、W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显著水平由Royston近似正态变换获得;当样本量大于2000时,计算Kolomogorov统计量。W值越大越表示数据来自正态分布。PrW给出了概率(0P1)值P,P值越接近0,则表示越拒绝数据来自正态分布的假设。,29,第一章 概述,PCDLDEF=1|2|3|4|5 指定计算百分位数的方法。缺省此项,则PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF 指定计算方差时的分母。DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。缺省值为VARDEF=D

19、F。ROUND=舍入单位。,30,第一章 概述,三、过程中常用的统计量关键字SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:基本统计量 N MEAN STD(标准误)CV SUM VAR(方差)RANG 等百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 与假设检验有关的统计量 STD MEAN(标准误)T,31,第一章 概述,输出包括五个部分。第一部分是矩统计量,各统计量已在前面作了介绍。第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分

20、位间距 第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。,32,第一章 概述,data examp1_1;input x;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 7

21、4.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76

22、.5 70.4;,例1.1,33,第一章 概述,proc univariate data=examp1_1 noprint;var x;output out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;proc print data=out;run;data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;run;proc print data=a;var Q;*只输出Q;没有输出所有的arun;,34,第一章 概述,proc univari

23、ate data=examp1_1 noprint;var x;Output out=out mean=mean Median=Median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1 var=var std=stdcv=cv QRANGE=QRANGE;proc print data=out;run;,例1.2,35,第一章 概述,data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE;U=Q3+1.5*QRANGE;sigma=QRANGE/1.349;run

24、;proc print data=a;run;data b;set examp1_1;if 64.3=x82.7 then delete;run;proc print data=b;run;,36,第一章 概述,proc univariate data=examp1_3 noprint;var x x1 x2 x3;output out=out mean=mean1 mean2 mean3 mean4var=var1 var2 var3 var4 std=std1 std2 std3 std4Median=M1 M2 M3 M4 RANGE=RANGE1 RANGE2 RANGE3 RANGE

25、4Q1=Q11 Q12 Q13 Q14 Q3=Q31 Q32 Q33 Q34 QRANGE=QRANGE1 QRANGE2 QRANGE3 QRANGE4Skewness=SKEWNSS1 SKEWNSS2 SKEWNSS3 SKEWNSS4KURTOSIS=KURTOSIS1 KURTOSIS2 KURTOSIS3 KURTOSIS4;proc print data=out;,例1.3,37,第一章 概述,data a;set out;Q111=0.25*Q11+0.25*Q31+0.5*M1;Q112=0.25*Q12+0.25*Q32+0.5*M2;Q113=0.25*Q13+0.25*

26、Q33+0.5*M3;Q114=0.25*Q14+0.25*Q34+0.5*M4;D1=Q11-1.5*QRANGE1;U1=Q31+1.5*QRANGE1;D2=Q12-1.5*QRANGE2;U2=Q32+1.5*QRANGE2;D3=Q13-1.5*QRANGE3;U3=Q33+1.5*QRANGE3;D4=Q14-1.5*QRANGE4;U4=Q34+1.5*QRANGE4;run;proc print data=a;var Q111 Q112 Q113 Q114 D1 D2 D3 D4 U1 U2 U3 U4;run;,38,第一章 概述,小结 本次课主要学习了表征一维数据位置、分散

27、性和分布形状等的数字特征以及SAS求数字特征的PROC MEANS过程与PROC UNIVARIATE过程,39,第一章 概述,1.2 数据的分布 数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,必须研究数据的分布,数据分布的主要描述方法是:1.2.1 直方图、经验分布函数和QQ图1.2.2 茎叶图1.2.3 数据的分布拟合检验与正态性检验,40,第一章 概述,1.2.1 直方图、经验分布函数和QQ图1.直方图 对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频

28、数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度频率组距。,41,第一章 概述,例 某工厂生产一种零件,由于生产过程中各种随机因素的影响,零件长度不尽相同。现测得该厂生产的100个零件长度(单位:mm)如下:,频率直方图作法,129,132,136,145,140,145,147,142,138,144,147,142,137,144,144,134,149,142,137,137,155,128,143,144,148,139,143,142,135,142

29、,148,137,142,144,141,149,132,134,145,132,140,142,130,145,148,143,148,135,136,152,141,146,138,131,138,136,144,142,142,137,141,134,142,133,153,143,145,140,137,142,150,141,139,139,150,139,137,139,140,143,149,136,142,134,146,145,130,136,140,134,142,142,135,131,136,139,137,144,141,136.,这100个数据中,最小值是128,最

30、大值是155。,128,155,42,第一章 概述,作频率直方图的步骤,(1).先确定作图区间 a,b;,a=最小数据-/2,b=最大数据+/2,,是数据的精度。,本例中=1,a=127.5,b=155.5。,(2).确定数据分组数 m=1.87(n1)2/5+1,组距 d=(b a)/m,子区间端点 ti=a+i d,i=0,1,m;,43,第一章 概述,(3).计算落入各子区间内观测值频数 ni=#xj ti1,ti),j=1,2,n,频率 fi=ni/n,i=1,2,m;,44,第一章 概述,(4).以小区间 ti-1,ti 为底,yi=fi/d(i=1,2,m)为高作一系列小矩形,组成

31、了频 率直方图,简称直方图。,45,第一章 概述,密度直方图与频数直方图SAS软件利用proc capability过程会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。,46,第一章 概述,直方图是阶梯形,而常用的概率密度曲线是光滑曲线;参数分布拟合就是在限定的参数分布类中利用数据估计其中参数,用估计的参数所对应的密度曲线去拟合直方图边缘的形态。SAS有如下常用参数分布类型:,正态分布:,对数正态分布:,指数分布:,47,第一章 概述,Gamma分布:,Weibull分布:,Beta分布:,48,第一章 概述,2 经验分布函数,直方图较适合总体分布为连续型的,

32、对一般总体,通常用经验分布函数估计其总体分布函数F(x),设x1,.,xn是总体的样本,其经验分布函数是,经验分布函数Fn(x)是非降右连续的阶梯函数,是总体分布函数F(x)的相合估计,即当n充分大时:Fn(x)F(x)。SAS软件利用proc capability可以做出Fn(x)与拟合的总体分布函数的图形,其中I()是示性函数即,49,第一章 概述,3.QQ图,直方图与经验分布函数图难于从图上判断样本分布是否近似于某种类型的分布,QQ图却能。以正态分布为例说明QQ图的做法:,设x1,.,xn是总体的样本,其次序统计量为x(1),x(2),x(n),(x)是标准正态分布函数,-1(x)是其反

33、函数,其QQ图是由以下点构成的散点图:其中横坐标是(i-0.375)/(n+0.25)的分位数,0.375和0.25是修正量。若样本数据近似于正态分布,在QQ图上近似的在直线y=x+上,此直线的斜率为标准差,截距是均值。,50,第一章 概述,其它的分布,也有相应的QQ图,其中散点的横坐标是该分布的对应的分位数,可以判断数据是否近似服从该类型的分布;利用QQ图还可以获得样本的偏度与峰度的有关信息,当数据不是来处正态总体时,QQ图的散点图是弯曲的,并可根据图像的弯曲的某些特点判断偏度或峰度的正负。,51,第一章 概述,4 散点图 通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家

34、庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图。这种图称为散点图(Scatter Plot)。,52,第一章 概述,5.线图 线图(Line Plot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。,53,第一章 概述,SAS的Proc capability过程:不但具有univariate的分析功能,且能做直方图、拟合参数概率密度、作经验分布曲线及拟合的分布曲线、作QQ图等。基本语句:Proc ca

35、pability options;Histogram variables/options;Cdfplot variables/options;QQplot variables/options;1)Proc capability options可包括以下选项:DATA=SAS数据集 指定所分析与作直方图的SAS数据集名称;Graphics:指明作高分辨率图形,缺省时将输出由字符构成的低高分辨率图形Noprint:取消与univariate过程相同的有关描述性统计的输出,54,第一章 概述,Histogram variables/options;*作直方图对指定的变量variables作直方图,o

36、ptions可以是:Midpoins=values:设置分组区间的中点值,可以逐个列出(等间隔);也可以用“Midpoins=a TO b BY c”方式指定,其中a和b分别为各区间中点的初值和终值,c为步长。缺省时,系统自动根据数据确定各区间中点值。Vscale=scale:规定直方图在每个区间上柱的高度标准,其中scale可以是:Count,Percent,Proportion,分别表示每个区间上柱高为数据个数、数据个数占整个数据量的百分比和比例。缺省时,为Percent.Normal(或Lognormal,Gamma,Weibull,Beta,Exponential):要求在直方图上拟合

37、指定的分布的概率密度函数曲线,可以同时列出一种或多种分布,其中的参数系统将自动用其极大似然估计值代替,也可在分布名称后加括号予以指定:,55,第一章 概述,各分布密度中的参数均用“Sigma=value”来指定;Normal分布中的均值用“MU=value”指定;Gamma分布中的参数用“Alpha=value”指定;Weibull分布中的参数c用“C=value”指定;Beta分布中的参数、用“Alpha=value Beta=value”指定;其中上面的所有的“value”可用“EST”代替,表示用其极大似然估计值代替相应参数。如:Normal(MU=EST Sigma=1)Lognorm

38、al(Sigma=3)Beta(Alpha=1.5 Beta=2)此过程还对所拟合的分布自动输出第1章所述的几种分布拟合检验(2检验,Kolmogorov-Smirnov检验,Anderson-Darling检验,CramervonMises检验)的统计量的值和检验p值。,56,第一章 概述,另外,除正态分布外,其他分布均是单侧的,一般需要指定门限参数的值,也可在分布名称后的括号内加“Theta=value”指定,如“Weibull(Theta=value C=2)”,其中value比数据的最小值还要小,若不指定则自动设为“Theta=0”,同时Beta分布中的参数、的和要大于相应变量的观测值

39、的最大值,57,第一章 概述,Cdfplot variables/options;作经验分布函数曲线及拟合的分布函数曲线;其中options是前述的6种分布QQplot variables/options;作QQ图Options指定作QQ图的分布名称也是前述6种分布;作QQ图时:Lognormal必须在其后括号内至少写上“Sigma=value”或“Sigma=SET”;Gamma分布和Weibull分布要写上“Alpha=value或SET”及“C=value或SET”;Beta分布要写上“Alpha=value或SET Beta=value或SET”。,58,第一章 概述,例1.4,dat

40、a examp1_4;input x;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6

41、67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;,59,第一章 概述,例1.4,proc capability data=examp1_4 graphics noprint;histogram x/normal(mu

42、=est sigma=est)vscale=proportion;cdfplot/normal(mu=est sigma=est);qqplot x/normal(mu=est sigma=est);run;,60,第一章 概述,PLOT与GPLOT过程,可用于描绘散点分布图,以直观地显示数据的变化趋势及数据间的相关关系等。DATA D3;DO X=0 TO 360 BY 20;Y=SIN(X*3.14159/180);OUTPUT;END;PROC PLOT;PLOT Y*X;RUN;,61,第一章 概述,Plot of Y*X.Legend:A=1 obs,B=2 obs,etc.1+A

43、A|A A|A A Y|A A|0+A A A|A A|A A|A A-1+A A-+-+-+-+-+-0 100 200 300 400 X,62,第一章 概述,通过PLOT过程提供的其它语句和选择项可对散点图作出如下更加具体的要求:l 可以根据用户的要求选择散点图的作图符号;l 可以用变量值加标签。l 可以选择坐标的刻度、间隔及标记;l可以选择图的大小;可在一页纸上画两个以上图。l 两个散布图可以重叠在一张图上。l可绘制等值线图(或称轮廓图,层次图等)。l可对图沿水平方向或垂直方向进行扩展.,63,第一章 概述,PLOT语句说明,在PLOT过程中可使用下列语句:PROC PLOT opti

44、ons;BY 变量表;.*可选语句 PLOT yvariable*xvariable=symbol/options;,选择项(1)data=sasdataset:指出作图用的数据集,缺省时,以最新的数据集作图;(2)Vpercent=percent或Vpct=percent:规定该过程产生的散点图在垂直方向占一页的比例,如“Vpct=33”表示让proc plot过程在每一页作3张图,每张图占一页的1/3;(3)Hpercent=percent或hpct=percent:规定各图在水平方向上占一页的比例;,64,第一章 概述,PLOT yvariable*xvariable=symbol/op

45、tions;,说明作图变量,点表示的符号及坐标刻度规定等,其中yvariable*xvariable指出作图的数据集中变量的名称,中间用*连接;symbol指出散点的表示符号,如*,+等,缺省时用A,B等;plot后可依次列出多组变量,如“Plot X1*Y1 X1*Y2 X2*Y1”等;斜杠后的options可以省略也可以是以下内容(1)Haxis或Vaxis=a to b by n:定义横坐标或纵坐标上的刻度;(2)Overlay:将PLOT后的几对变量所形成的散点图做在同一坐标系内,如“Plot X1*Y1=F X1*Y2=T”;(3)Box:要求将图做在一个矩形框内。,65,第一章 概

46、述,应用举例 例 某一地区有12个采样点,测得某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。程序如下:DATA DD;INPUT COD BOD;CARDS;1112.3 154.5 1560.2 210.3 899.5 133.6800.4 110.2 1443.2 180.8 1555.5 201.4700.4 103.5 456.3 90.7 1433.2 177.71421.5 171.0 1600.3 221.5 560.8 80.9PROC PLOT;PLOT COD*BOD;RUN;,66,第一章 概述,2000+|A 1500+A A A|A A COD|A

47、 1000+|A|A A|500+A A-+-+-+-+-+-+-+-+-+-80 100 120 140 160 180 200 220 240,67,第一章 概述,GPLOT语句说明,在GPLOT过程中可使用下列语句:PROC GPLOT options;PLOT yvariable*xvariable/options;Symbol options;,PROC GPLOT选择项主要指出作图用的数据集。,PLOT yvariable*xvariable/options;与前面的基本相同,只是options除指坐标轴的刻度外,还可用“Caxis=color”指定坐标轴的颜色,其中color可以

48、是“red,blue,green,yellow”等;,Symbol options;主要用来定义绘图的符号、颜色、是否连线及线条的粗细:,68,第一章 概述,(1)Value或V=symbol:定义点的表示符号,symbol可以是:plut(+)square,dot,point,star,diamond,triangle,circle等。,(2)I=interpolation:确定散点之间连线的形状:interpolation:join(用直线连接);spline(用光滑线连接);needl(从数据点向水平轴画垂线);none(不画线);缺省时为none(3)C=color:指定点或线的颜色(

49、4)W或Width=n:确定连线的粗细,缺省时为1。,69,第一章 概述,应用举例 例 某一地区有12个采样点,测得某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。程序如下:DATA DD;INPUT COD BOD;CARDS;1112.3 154.5 1560.2 210.3 899.5 133.6800.4 110.2 1443.2 180.8 1555.5 201.4700.4 103.5 456.3 90.7 1433.2 177.71421.5 171.0 1600.3 221.5 560.8 80.9PROC GPLOT data=DD;PLOT COD*BOD

50、;Symbol value=dot I=spline C=red W=2;RUN;,70,第一章 概述,1.2.2 茎叶图茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。,茎叶图的三列数茎叶图有三列数:左边的一列表示茎,也就是变化不大的位数,从小到大;右边的一列数为统计数(某行数据频数),它是上(或下)向中心累积的值,中心的数表示最多数组的个数;中间的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号