SAS系统的多元统计分析功能.ppt

上传人:小飞机 文档编号:5447399 上传时间:2023-07-08 格式:PPT 页数:52 大小:465KB
返回 下载 相关 举报
SAS系统的多元统计分析功能.ppt_第1页
第1页 / 共52页
SAS系统的多元统计分析功能.ppt_第2页
第2页 / 共52页
SAS系统的多元统计分析功能.ppt_第3页
第3页 / 共52页
SAS系统的多元统计分析功能.ppt_第4页
第4页 / 共52页
SAS系统的多元统计分析功能.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《SAS系统的多元统计分析功能.ppt》由会员分享,可在线阅读,更多相关《SAS系统的多元统计分析功能.ppt(52页珍藏版)》请在三一办公上搜索。

1、SAS系统用于多元统计分析的过程有:,多变量分析-PRINCOMP(主分量分析),FACTOR(因子分析),CANCORR(典型相关分析),MDS(多维标度过程),MULTTEST(多重检验),PRINQUAL(定性数据的主分量分析),CORRESP(对应分析);判别分析-DISCRIM(判别分析),CANDISC(典型判别),STEPDISC(逐步判别);聚类分析-CLUSTER(谱系聚类),FASTCLUS(K均值快速聚类),MODECLUS(非参数聚类),VARCLUS(变量聚类),TREE(画谱系聚类的结果谱系图并给出分类结果).,第五章 SAS系统多元统计分析功能,5.1 主成分分析

2、与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,为了全面系统地分析和研究某些社会经济问题,可能必须同时考虑许多存在一定内在联系和相互关联的经济指标,这些指标所反映的信息会有某种程度的重叠,但去除变量又会导致某些信息的损失;主成分分析通过降维的方法,把相互关联的多个变量转变成少数互不相关的新变量(即主成分,也称为综合变量),各主成分由原来变量的线性关系表示,其包含信息量的多少由各自的方差测定,主成分的方差越大,所包含的信息量就越多。,PRINCOMP过程的主要功能:,完成主成分分析;主成分的个数、

3、名称及得分是否标准化均可由用户自己规定;输入的数据集可以是原始数据集、相关阵或协方差阵等;计算结果有:简单统计量、相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例、累计比例等;可揭示变量间的共线关系,若某特征值特别接近于0,则说明变量线性相关。,PROC PRINCOMP DATA=OPTIONS;VAR 变量名列;WEIGHT 变量名列;FREQ 变量名列;PARTIAL 变量名列;BY 变量名列;RUN;,PRINCOMP过程的一般形式:,PROC PRINCOMP过程的常用选项有:,OUT=把计算的统计量存入指定的数据集;COVARIANCE(或COV)指定

4、以协方差矩阵为分析数据,缺省则以相关系数矩阵为分析数据;N=正整数 指定要保留的主成分个数;PREFIX=主成分名 为主成分命名,缺省则自动命名为:PRIN1,PRIN2,;STANDARD(或STD)对各主成分进行标准化,使各主成分的方差为1;NOINT 作协方差矩阵主成分分析或相关行列主成分分析时,各变量不对其平均数加以修正。,VAR语句 指定主成分分析中使用的变量;WEIGHT语句 对已输入的资料附加加权数据;FREQ语句 表示变量的频数;PARTIAL语句 除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;BY语句 按指定变量分类(需先排序)后,对 每一个分类进行主成分

5、分析。,PROC PRINCOMP过程的常用语句有:,data one(type=corr);_type_=corr;input _name_$x1 x2 x3 x4 x5;cards;x1 1.x2 0.577 1.x3 0.509 0.599 1.x4 0.387 0.389 0.436 1.x5 0.462 0.322 0.426 0.523 1;run;proc princomp;run;,输出结果:,用SAS/INSIGHT方式进行主成分分析,用分析员应用方式进行主成分分析,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程

6、5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,因子分析是主成分分析的推广,它通过少数几个不可直接测量的、独立的、专业上有意义的公因子来说明相关变量之间复杂结构关系;因子分析与主成分分析的不同:后者是寻找反映多个指标的独立的综合指标,而前者是寻找解释多个指标的独立的公因子,若初始因子难以合理解释,可利用因子旋转法从旋转后因子得到合理解释;因子分析的主要用途:利用公因子来探索和解释原多个指标对个体特征的描述,对原始变量进行分门别类的综合评价等。,PROC FACTOR过程的常用选项,PROC FACTOR过程的常用选项,VAR语句 指定因子分析中使用的

7、变量;WEIGHT语句 对已输入的资料附加加权数据;FREQ语句 表示变量的频数;PARTIAL语句 除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;BY语句 按指定变量分类(需先排序)后,对 每一个分类进行因子分析。,PROC FACTOR过程的常用语句,PROC SCORE DATA=SCORE=OUT=;VAR 用来计算得分的原始变量集合;RUN;,计算因子得分,data one(type=corr);_type_=corr;input _name_$x1 x2 x3 x4 x5;cards;x1 1.x2 0.577 1.x3 0.509 0.599 1.x4 0.3

8、87 0.389 0.436 1.x5 0.462 0.322 0.426 0.523 1;run;proc factor scree nfact=2 score rotate=varimax;var x1-x5;run;,输出结果(1):,输出结果(3):,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,判别分析是根据表明事物特点的变量值及其分类,求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法;判别分析的步骤:在各归

9、属类的K个独立变量中,选择对判别分析有显著影响的P个独立变量;利用被选定的P个独立变量的观测值拟合判别函数;计算判别函数的误判率,分析判别函数模型的选择是否正确;利用已建立的判别函数判别新样本(观测值)的归属类别。,PROC STEPDISC DATA=OPTIONS;VAR 变量名列;CLASS 因(类)变量;BY 变量名列;RUN;,STEPDISC过程的一般形式,(利用逐步判别分析法对变量进行筛选),STEPDISC过程的一般形式,PROC DISCRIM DATA=OPTIONS;CLASS 因(类)变量;VAR 变量名列;PRIORS 概率;WEIGHT 变量名列;TESTCLASS

10、 变量名列;BY 变量名列;RUN;,DISCRIM过程的一般形式,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,CLASS语句 指明归属类的变量;VAR语句 指定判别分析中使用的变量;WEIGHT语句 对已输入的资料附加加权数据;PRIORS语句 指定先验概率;TESTCLASS语句指定存储在TESTDATA中的某些变量,以检验其观测值是否存在误判的情况;BY语句 按指定变量分类(需先排序)后,对 每一个分类进行判别分析。,PROC DISCRIM过程的常用语句,proc stepdisc data=sunny.ban

11、kry method=stepwise;var x1-x4;class y;run;,输出结果(部分):,proc discrim data=sunny.bankry pool=test slpool=0.05 listerr outstat=one;var x2 x3;class y;run;proc print data=one;run;,输出结果(部分):,可见,应拒绝两类的协方差矩阵相等的原假设,即两类的协方差矩阵不满足方差齐性的要求,应建立二次判别函数.,输出结果(部分):,data two;input x1-x4 y;cards;0.040.011.500.710-0.06-0.0

12、61.37 0.400 0.07-0.011.370.340-0.13-0.141.420.440 0.150.062.230.561 0.160.052.310.201 0.290.061.840.381 0.540.112.330.481;run;proc discrim data=one testdata=two testlist;class y;testclass y;run;,输出结果:,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过

13、程,聚类分析是依据事物的性质和特征的不同,将具有相似性质或距离的个体聚为一类,具有不同性质的个体聚为不同类的分类方法;聚类分析与判别分析的区别:前者是用某种方法把分类未知的观测进行合理分类,使同一类的观测比较接近,是无指导的学习;后者则是已知分类然后总结出判别规律,是有指导的学习;SAS系统提供了谱系聚类(常用)、快速聚类、变量聚类等聚类过程。,谱系聚类法有合并聚类和分割聚类两种,前者是把较有密切相似性关系的个体逐一聚类,由原来的n个类最后变成一个新类;后者是把非相似性关系的个体逐一分割出去,由原来的一个类最后变成n个新类,以合并聚类法较为常用;两类之间距离的定义方法主要有:最短距离法(Sin

14、gle Linkage Method)、最长距离法(Complete Linkage Method)、类平均法(Average Linkage Method)、重心法(Centrorid Linkage Method).,CLUSTER过程,实现谱系聚类的分析过程,CLUSTER过程的常用选项,能最大限度地控制情报损失,最为常用,CLUSTER过程的常用选项,VAR语句 指定聚类分析中使用的变量;ID语句 指定用于识别观测值的标志变量;COPY语句 将指定的输入数据集中的变量复制到由OUTTREE=所指定的输出数据集中;BY语句 按指定变量分类(需先排序)后,对每一个分类进行聚类分析。,CLUSTER过程的常用语句,TREE过程,把CLUSTER过程中由OUTTREE指定的数据集作为输入,画出谱系聚类的树图,并按用户指定的聚类水平产生分类结果数据集.,proc cluster data=sunny.city out=clust std method=ward;var x1 x2 x3 x4 x5;proc tree data=clust horizontal;run;,输出结果:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号