SAS系统的基本统计分析功能.ppt

上传人:小飞机 文档编号:5447397 上传时间:2023-07-08 格式:PPT 页数:89 大小:1.46MB
返回 下载 相关 举报
SAS系统的基本统计分析功能.ppt_第1页
第1页 / 共89页
SAS系统的基本统计分析功能.ppt_第2页
第2页 / 共89页
SAS系统的基本统计分析功能.ppt_第3页
第3页 / 共89页
SAS系统的基本统计分析功能.ppt_第4页
第4页 / 共89页
SAS系统的基本统计分析功能.ppt_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《SAS系统的基本统计分析功能.ppt》由会员分享,可在线阅读,更多相关《SAS系统的基本统计分析功能.ppt(89页珍藏版)》请在三一办公上搜索。

1、4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析,第四章 SAS系统的基本统计分析功能,总体均值的区间估计,总体方差 已知时:,总体方差 未知时:,(给定显著性水平),某学校在新生中随机抽出25名学生做IQ测试,测试的平均成绩为120分;若新生的IQ成绩服从正态分布,且其标准差为5分,在显著性水平为0.05条件下,试建立IQ平均成绩的置信区间。,data IQSCORE1;n=25;mean=120;sigma=5;alpha=0.05;z=probit(1-alpha/2);lc=mean-z*sigma/sqrt(n);uc=mean+z*sigma/sqrt(n);pro

2、c print;run;,例4.1,总体均值的区间估计,(给定显著性水平),(标准正态分布左侧p分位数),例4.2,若例4.1中,新生总体IQ成绩的标准差未知,其样本标准差的计算结果为5分,在显著性水平为0.05条件下,试建立IQ平均成绩的置信区间。,data IQSCORE2;n=25;mean=120;s=5;alpha=0.05;t=tinv(1-alpha/2),n-1);lc=mean-t*s/sqrt(n);uc=mean+t*s/sqrt(n);proc print;run;,总体均值的区间估计,(给定显著性水平),(t分布的左侧p分位数),data E3;n=100;s2=9;

3、alpha=0.01;chi1=cinv(alpha/2,n-1);chi2=cinv(1-alpha/2),n-1);lc=(n-1)*s2/chi2;uc=(n-1)*s2/chi1;proc print;run;,(卡方分布的左侧p分位数),对于正态分布总体,当已知样本的原始数据时,可以利用Capability过程的Intervals语句计算总体均值和方差的置信区间,或者利用Means过程的CLM统计量计算总体均值95的置信区间。,输出结果:,用SAS/INSIGHT作置信区间,输出结果:,用分析员应用作置信区间,输出结果:,4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分

4、析,第四章 SAS系统的基本统计分析功能,正态性检验,用编程作正态性检验,在PROC UNIVARIATE语句中加上NORMAL选项,输出结果(部分),步骤,步骤,用SAS/INSIGHT作正态性检验,用分析员应用作正态性检验,两独立样本的均值检验,用编程作两独立样本的均值检验,设 和 分别是来自两个正态分布总体 和 的独立样本,检验假设:,PROC TTEST DATA=数据集;CLASS分类变量名;VAR分析变量名列;RUN;,TTEST过程的一般形式:,输出结果:,用分析员应用作两独立样本的均值检验,(作均值检验前需先检验两样本方差是否相等),(SAS/INSIGHT未提供两独立样本均值

5、检验的功能),输出结果,?,检验两独立样本的方差是否相等:,方差检验输出结果,若样本呈非正态分布,则t检验无效,可使用非参数检验中的Wilcoxon秩和检验方法检验两独立样本的中心位置是否相同。,输出结果,配对样本的均值检验,设 为第 个样本单位实验前后的对比测量值,且,为 总体的均值,则检验假设:,data tempulse;set sunny.pulse;d=pre-post;run;proc means mean stderr prt maxdec=4;var d;run;,输出结果,输出结果(部分),4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析,第四章 SAS系统的

6、基本统计分析功能,正态分布等间隔测度的变量X与Y之间的相关关系,可用皮尔逊(Pearson)相关系数来测算,即:,有序变量或不满足正态分布假设的变量X与Y之间的相关关系,可用斯皮尔曼(Spearman)等级相关系数来测算,即:,式中,分别为变量 秩次,分别为 的平均。,相关系数的计算,编程,常用选项有:,PEARSON 计算皮尔逊相关系数(缺省值);SPEARMAN 计算斯皮尔曼等级相关系数;NOSIMPLE 不打印输出各变量的描述性统计量;NOPROB 省略检验统计量p-值;COV(COVARIANCE)打印协方差矩阵;NOCCORR 储存时省略相关系数;OUTP=指定皮尔逊相关系数存储的数

7、据集;OUTS=指定斯皮尔曼相关系数存储的数据集。,数据集SUNNY.CARS是关于不同类型汽车的价格和性能的数据资料,各变量含义如下:MANUFAC(制造商)、MODEL(型号)、MIDPRICE(中间价)、CITYMPG(市内每加仑油平均行驶哩数)、HWYMPG(高速公路每加仑油平均行驶哩数)、CYLINDER(汽缸数)、EGNSIZE(配置引擎容量:升)、RPM(达到最大功率时每分钟转数)、REVLTNS(最高速行驶一哩时引擎转数)、FUELTNK(储油箱容量:加仑)、PERFORM(使用效率:功率与车重之比)。,例4.9,输出结果,proc corr data=sunny.cars n

8、osimple noprob;var midprice citympg hwympg cylinder egnsize;with rpm perform;run;,相关系数的计算,步骤,SAS/INSIGHT方式,分析员应用方式,4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析,第四章 SAS系统的基本统计分析功能,4.4 回归分析,4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断,现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作用的变量称为自变量,通常用X表示,它

9、是引起另一现象变化的原因,是可以控制、给定的值;而受自变量影响的变量称为因变量,通常用Y表示,它是自变量变化的结果,是不确定的值。,各类回归分析的SAS过程及对资料的要求,4.4 回归分析,4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断,线性回归分析,式中:分别为因变量和自变量的第 次观测值;为待估参数;为残差(假设满足相互独立、正态分布、零均值、同方差)。,一元线性回归模型:,利用最小二乘法(LSE)估计未知参数,有:,即回归趋势方程为:,只有通过统计检验的回归方程才可以用来解释 之间的关系,并根据 的取值对相应的 进行预测;检验回归方

10、程拟合程度的统计量及参数主要有:用来检验回归系数显著性的 值及其概率 和标准差,用来检验回归方程整体拟合优度及显著性的 值及其概率、判定系数、标准差、自由度 等。,线性回归分析,点预测,线性回归分析,单个预测值的置信区间(CLI),预测值均值(回归均值)的置信区间(CLM),预测(已知 预测),线性回归分析,则多元线性回归模型为:,记,利用最小二乘法(LSE)估计未知参数,有:,线性回归分析,点预测,线性回归分析,单个预测值的置信区间(CLI),预测(已知,预测),预测值均值(回归均值)的置信区间(CLM),REG过程可以计算回归函数的各种参数、显著性检验、方差分析、置信区间、残差分析等。,线

11、性回归分析,PROC REG过程的常用选项有:,SIMPLE 计算并打印各变量的基本描述性统计量;SXORR 打印各变量的相关行列式;NOPRINT 不打印输出;OUTEST=数据集名 指定回归值输出的数据集;COVOUT=数据集名 将所估计的协方差阵存入数据集;OUTSSCP=数据集名 指定相关矩阵输出的数据集。,线性回归分析,MODEL语句常用选项有:,MODEL语句用来设定回归模型中因变量、自变量及有关回归计算、估计、预测值和残差等内容。,MODEL语句常用选项有:,回归线的作图,proc reg data=sunny.bclass;model weight=height/CLM;run

12、;proc gplot data=sunny.bclass;plot weight*height;symbol v=star h=0.7 i=rl c=orange ci=blue w=2;run;,Data new;input height;cards;170 173 174 175;proc sort data=sunny.bclass out=sorted;by height;Data new;Set sorted new;proc reg data=new;model weight=height/p;id height;run;,proc reg data=sunny.cars;mod

13、el midprice=citympg hwympg cylinder egnsize rpm revltns fueltnk perform/selection=stepwise;run;,proc reg data=sunny.cars;model midprice=citympg hwympg cylinder egnsize rpm revltns fueltnk perform;run;/*delete citympg hwympg fueltnk perform;print;run;*/,REG过程具有连续交互性,执行了部分语句后,仍可继续提交语句让它执行,直至提交quit语句或因

14、执行其它过程而终止.,SAS/INSIGHT方式,分析员应用方式,线性回归分析,4.4 回归分析,4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断,非线性回归分析,当两变量呈非线性关系时,可对变量作变换后再作线性回归分析,也可以利用PROC NLIN或PROC GLM过程直接进行非线性拟合;若进入回归的变量有一定的优先次序(如对多项式,线性项先于二次项,二次项先于三次项等),应该用型平方和及相应的 统计量;若平等地考虑各个变量是否进入回归,则可用平方和及其相应的 统计量。,拟合多项式回归,SAS/INSIGHT方式,进入INSIGHT方式并

15、调入数据后,在下拉菜单中选:,拟合多项式回归,编程,Data tem;set sunny.bclass;a2=height*height;a3=height*height*height;a4=height*height*height*height;Run;proc glm data=tem;model weight=height a2 a3 a4/ss1;run;,4.4 回归分析,4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断,回归诊断,合适模型,存在有例外数据点,模型不合适,存在有强影响点,回归诊断,回归诊断的方法,考察余差,由余差与

16、因变量的散点图,考察余差是否满足等方差、相互独立的假定或模型是否适合;直接由余差的散点图,考察余差是否满足等方差、相互独立的的假定或模型是否适合;由标准化余差(standardized residual)或学生化余差(studentized residual),检测各观测数据相对于拟合的回归是否为例外点(一般认为标准化余差绝对值超过2者,需考察其是否为例外点)。,有时将标准化余差也称作学生化的,而把学生化余差称作将观测排除在外的(studentized residual without current Obs),回归诊断的方法,识别有影响的观测,DFFITS统计量是衡量一个观测排除与否对预测影

17、响的统计量,若(为进入回归的自变量个数),则可认为该观测是对回归有较大影响的观测;Cook D统计量是从回归系数的改变来衡量一个观测影响的统计量,若,则可认为该观测是对回归有较大影响的观测。,回归诊断的方法,共线性诊断,由方差膨胀因子 来衡量回归系数估计量由于自变量共线性而引起的方差增加相对量,若,则可认为该自变量有共线性问题存在;由条件指数(Condition Index)衡量变量间的线性相关程度,若条件指数过大并伴随一个变量超过0.5的方差比例,则可认为该自变量有共线性问题存在(一般认为条件指数值在1030之间为弱相关,在30100之间为中等相关,大于100为强相关)。,回归诊断的方法,复

18、验数据,确认有无数据输入错误发生;若数据有效,则模型可能不适合,可考虑使用高阶模型;对于有效但可能反常的数据,可考虑增加样本容量以验证现有的拟合结果;因为某些有影响观测可能包含重要信息,不能轻易将其剔除,若要剔除,也应给出对剔除观测的描述和说明。,对于例外观测或强影响观测的处理:,回归诊断的实现,SAS/INSIGHT方式,考察余差:,SAS/INSIGHT方式,考察余差:,回归诊断的实现,输出结果:,利用右键弹出菜单中Extract选项生成数据子集:,SAS/INSIGHT方式,检测观测对回归的影响-Cook D,回归诊断的实现,输出结果:,利用右键弹出菜单中Extract选项生成数据子集:

19、,SAS/INSIGHT方式,回归诊断的实现,检测观测对回归的影响-Dffits,输出结果:,利用右键弹出菜单中Extract选项生成数据子集:,SAS/INSIGHT方式,共线性诊断-方差膨胀因子,回归诊断的实现,利用Fit(X Y)菜单拟合线性回归时,方差膨胀因子(VIF)自动包含在拟合窗中,由输出结果可以看出,各变量的方差膨胀因子均小于10,即可认为模型中各自变量间不存在共线性问题。,SAS/INSIGHT方式,共线性诊断-条件指数和方差比例,回归诊断的实现,输出结果:,分析员应用方式,回归诊断的实现,制作余差或标准化余差等的散点图:,输出结果:,分析员应用方式,回归诊断的实现,考察余差

20、及有影响的观测,输出结果(diagnostics table):,(可将该结果另存为SAS数据集work.diagnostics),输出结果:,分析员应用方式,回归诊断的实现,共线性诊断,输出结果(部分):,编程,回归诊断的实现,proc reg data=sunny.cars;model midprice=cylinder egnsize rpm revltns/r influence;run;output out=test predicted=p residual=r student=stdr cookd=cookd dffits=dffits;run;Quit;,考察余差及有影响的观测,

21、输出结果(部分):,Work.test数据集(部分):,data outlier;set test;where abs(stdr)2 or cookd0.04348 or abs(dffits)0.4663;proc print;run;,将标准化余差绝对值大于2,或Cook D统计量大于4/n=0.04348,或Dffits统计量绝对值大于=0.4663的观测挑出来作进一步分析,输出结果:,制作余差或标准化余差等的散点图:,编程,回归诊断的实现,proc reg data=sunny.cars;model midprice=cylinder egnsize rpm revltns;run;plot student.*p./vref=3 2-2-3 vaxis=-4 to 4 by 1;symbol v=star h=0.7 cv=blue;run;,界定纵轴指定坐标的参考线,输出结果:,共线性诊断:,编程,回归诊断的实现,proc reg data=sunny.cars;model midprice=cylinder egnsize rpm revltns/collin vif;run;,输出结果(部分):,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号