SAS系统的多元统计分析功能.ppt

资源描述

《SAS系统的多元统计分析功能.ppt》由会员分享，可在线阅读，更多相关《SAS系统的多元统计分析功能.ppt（52页珍藏版）》请在三一办公上搜索。

1、SAS系统用于多元统计分析的过程有：,多变量分析-PRINCOMP（主分量分析）,FACTOR（因子分析）,CANCORR（典型相关分析）,MDS（多维标度过程）,MULTTEST（多重检验）,PRINQUAL（定性数据的主分量分析）,CORRESP（对应分析）；判别分析-DISCRIM（判别分析）,CANDISC（典型判别）,STEPDISC（逐步判别）；聚类分析-CLUSTER（谱系聚类）,FASTCLUS（K均值快速聚类）,MODECLUS（非参数聚类）,VARCLUS（变量聚类）,TREE（画谱系聚类的结果谱系图并给出分类结果）.,第五章 SAS系统多元统计分析功能,5.1 主成分分析

2、与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,为了全面系统地分析和研究某些社会经济问题，可能必须同时考虑许多存在一定内在联系和相互关联的经济指标，这些指标所反映的信息会有某种程度的重叠，但去除变量又会导致某些信息的损失；主成分分析通过降维的方法，把相互关联的多个变量转变成少数互不相关的新变量（即主成分，也称为综合变量），各主成分由原来变量的线性关系表示，其包含信息量的多少由各自的方差测定，主成分的方差越大，所包含的信息量就越多。,PRINCOMP过程的主要功能：,完成主成分分析；主成分的个数、

3、名称及得分是否标准化均可由用户自己规定；输入的数据集可以是原始数据集、相关阵或协方差阵等；计算结果有：简单统计量、相关阵或协方差阵，从大到小排序的特征值和相应特征向量，每个主成分解释的方差比例、累计比例等；可揭示变量间的共线关系，若某特征值特别接近于0，则说明变量线性相关。,PROC PRINCOMP DATA=OPTIONS；VAR 变量名列；WEIGHT 变量名列；FREQ 变量名列；PARTIAL 变量名列；BY 变量名列；RUN；,PRINCOMP过程的一般形式：,PROC PRINCOMP过程的常用选项有：,OUT=把计算的统计量存入指定的数据集；COVARIANCE(或COV)指定

4、以协方差矩阵为分析数据，缺省则以相关系数矩阵为分析数据；N=正整数指定要保留的主成分个数；PREFIX=主成分名为主成分命名，缺省则自动命名为：PRIN1,PRIN2,；STANDARD(或STD)对各主成分进行标准化，使各主成分的方差为1；NOINT 作协方差矩阵主成分分析或相关行列主成分分析时，各变量不对其平均数加以修正。,VAR语句指定主成分分析中使用的变量；WEIGHT语句对已输入的资料附加加权数据；FREQ语句表示变量的频数；PARTIAL语句除去特定变量的线性效果后，利用偏相关分析或者协方差矩阵进行分析；BY语句按指定变量分类（需先排序）后，对每一个分类进行主成分

5、分析。,PROC PRINCOMP过程的常用语句有：,data one(type=corr);_type_=corr;input _name_$x1 x2 x3 x4 x5;cards;x1 1.x2 0.577 1.x3 0.509 0.599 1.x4 0.387 0.389 0.436 1.x5 0.462 0.322 0.426 0.523 1;run;proc princomp;run;,输出结果：,用SAS/INSIGHT方式进行主成分分析,用分析员应用方式进行主成分分析,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程

6、5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,因子分析是主成分分析的推广，它通过少数几个不可直接测量的、独立的、专业上有意义的公因子来说明相关变量之间复杂结构关系；因子分析与主成分分析的不同：后者是寻找反映多个指标的独立的综合指标，而前者是寻找解释多个指标的独立的公因子，若初始因子难以合理解释，可利用因子旋转法从旋转后因子得到合理解释；因子分析的主要用途：利用公因子来探索和解释原多个指标对个体特征的描述，对原始变量进行分门别类的综合评价等。,PROC FACTOR过程的常用选项,PROC FACTOR过程的常用选项,VAR语句指定因子分析中使用的

7、变量；WEIGHT语句对已输入的资料附加加权数据；FREQ语句表示变量的频数；PARTIAL语句除去特定变量的线性效果后，利用偏相关分析或者协方差矩阵进行分析；BY语句按指定变量分类（需先排序）后，对每一个分类进行因子分析。,PROC FACTOR过程的常用语句,PROC SCORE DATA=SCORE=OUT=；VAR 用来计算得分的原始变量集合；RUN；,计算因子得分,data one(type=corr);_type_=corr;input _name_$x1 x2 x3 x4 x5;cards;x1 1.x2 0.577 1.x3 0.509 0.599 1.x4 0.3

8、87 0.389 0.436 1.x5 0.462 0.322 0.426 0.523 1;run;proc factor scree nfact=2 score rotate=varimax;var x1-x5;run;,输出结果（1）：,输出结果（3）：,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过程,判别分析是根据表明事物特点的变量值及其分类，求出判别函数，再根据判别函数对未知所属类别的事物进行分类的一种分析方法；判别分析的步骤：在各归

9、属类的K个独立变量中，选择对判别分析有显著影响的P个独立变量；利用被选定的P个独立变量的观测值拟合判别函数；计算判别函数的误判率，分析判别函数模型的选择是否正确；利用已建立的判别函数判别新样本(观测值)的归属类别。,PROC STEPDISC DATA=OPTIONS；VAR 变量名列；CLASS 因(类)变量；BY 变量名列；RUN；,STEPDISC过程的一般形式,(利用逐步判别分析法对变量进行筛选),STEPDISC过程的一般形式,PROC DISCRIM DATA=OPTIONS；CLASS 因(类)变量；VAR 变量名列；PRIORS 概率；WEIGHT 变量名列；TESTCLASS

10、变量名列；BY 变量名列；RUN；,DISCRIM过程的一般形式,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,CLASS语句指明归属类的变量；VAR语句指定判别分析中使用的变量；WEIGHT语句对已输入的资料附加加权数据；PRIORS语句指定先验概率；TESTCLASS语句指定存储在TESTDATA中的某些变量，以检验其观测值是否存在误判的情况；BY语句按指定变量分类（需先排序）后，对每一个分类进行判别分析。,PROC DISCRIM过程的常用语句,proc stepdisc data=sunny.ban

11、kry method=stepwise;var x1-x4;class y;run;,输出结果(部分)：,proc discrim data=sunny.bankry pool=test slpool=0.05 listerr outstat=one;var x2 x3;class y;run;proc print data=one;run;,输出结果(部分)：,可见，应拒绝两类的协方差矩阵相等的原假设，即两类的协方差矩阵不满足方差齐性的要求，应建立二次判别函数.,输出结果(部分)：,data two;input x1-x4 y;cards;0.040.011.500.710-0.06-0.0

12、61.37 0.400 0.07-0.011.370.340-0.13-0.141.420.440 0.150.062.230.561 0.160.052.310.201 0.290.061.840.381 0.540.112.330.481;run;proc discrim data=one testdata=two testlist;class y;testclass y;run;,输出结果：,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程5.2 因子分析与FACTOR过程5.3 判别分析与STEPDISC、DISCRIM过程5.4 聚类分析与CLUSTER过

13、程,聚类分析是依据事物的性质和特征的不同，将具有相似性质或距离的个体聚为一类，具有不同性质的个体聚为不同类的分类方法；聚类分析与判别分析的区别：前者是用某种方法把分类未知的观测进行合理分类，使同一类的观测比较接近，是无指导的学习；后者则是已知分类然后总结出判别规律，是有指导的学习；SAS系统提供了谱系聚类(常用)、快速聚类、变量聚类等聚类过程。,谱系聚类法有合并聚类和分割聚类两种，前者是把较有密切相似性关系的个体逐一聚类，由原来的n个类最后变成一个新类；后者是把非相似性关系的个体逐一分割出去，由原来的一个类最后变成n个新类，以合并聚类法较为常用；两类之间距离的定义方法主要有：最短距离法(Sin

14、gle Linkage Method)、最长距离法(Complete Linkage Method)、类平均法(Average Linkage Method)、重心法(Centrorid Linkage Method).,CLUSTER过程,实现谱系聚类的分析过程,CLUSTER过程的常用选项,能最大限度地控制情报损失，最为常用,CLUSTER过程的常用选项,VAR语句指定聚类分析中使用的变量；ID语句指定用于识别观测值的标志变量；COPY语句将指定的输入数据集中的变量复制到由OUTTREE=所指定的输出数据集中；BY语句按指定变量分类（需先排序）后，对每一个分类进行聚类分析。,CLUSTER过程的常用语句,TREE过程,把CLUSTER过程中由OUTTREE指定的数据集作为输入，画出谱系聚类的树图，并按用户指定的聚类水平产生分类结果数据集.,proc cluster data=sunny.city out=clust std method=ward;var x1 x2 x3 x4 x5;proc tree data=clust horizontal;run;,输出结果：,

展开阅读全文