《SAS多元统计分析.ppt》由会员分享,可在线阅读,更多相关《SAS多元统计分析.ppt(84页珍藏版)》请在三一办公上搜索。
1、Chapter7 SAS多元统计分析,Chapter7 SAS多元统计分析,多元统计分析是统计学的重要应用工具,SAS实现了许多常用的多元统计分析方法。SAS用于多变量分析的过程有PRINCOMP(主成分分析)、FACTOR(因子分析)、CANCORR(典型相关分析)、MDS(多维标度过程)、MULTTEST(多重检验)、PRINQUAL(定性数据的主分量分析)、CORRESP(对应分析),用于判别分析的过程有DISCRIM(判别分析)、CANDISC(典型判别)、STEPDISC(逐步判别),用于聚类分析的过程有CLUSTER(谱系聚类)、FASTCLUS(K均值快速聚类)、MODECLUS
2、(非参数聚类)、VARCLUS(变量聚类)、TREE(画谱系聚类的结果谱系图并给出分类结果)。,下一页,返回本节首页,Chapter7 SAS多元统计分析,一、主成分分析二、因子分析三、聚类分析四、判别分析,下一页,返回本节首页,上一页,一、主成分分析,主成分分析简介数学模型与几何解释PRINCOMP 过程菜单操作方法主成分的应用 主成分回归:解决多重共线性问题 综合评价,下一页,返回本节首页,上一页,主成分分析简介,在实际经济工作中,我们经常碰到多变量或多指标问题,比如,企业经济效益的评价、地区经济发展情况比较等问题。这些问题的研究一般都先要设定研究的指标,也就是设定评价企业经济效益与评价地
3、区经济发展情况的指标体系。由于变量或指标较多,分析问题具有相当的复杂性。然而,在多数情况下,这些不同的变量或指标之间,存在一定的相关性。这样,人们自然希望用较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量或信息涵盖了原来变量或指标的信息。利用这种降维的思想,产生了主成分分析方法。,下一页,上一页,主成分分析,就是设法将原来变量或指标重新组合成一组新的、互不相关的几个综合变量或指标,同时根据实际需要从中选取几个较少的综合变量或指标来尽可能多地反映原变量或指标的信息。这种将多变量或多指标转化成少数几个互不相关的综合变量或综合指标的统计方法叫做主成分分析或称主分量分析。需要注意的是,主成
4、分分析往往不是目的,而是达到目的的一种手段。因此,它常常用在大型研究项目的某个中间环节中。例如,将它用到多重回归中,便产生了主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。另外,主成分分析还可以用于典型相关分析、聚类分析和因子分析中。,下一页,返回本节首页,上一页,数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,这种由讨论多个指标
5、降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,主成分分析的几何解释,平移、旋转坐标轴,为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑
6、xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来
7、的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,PRINCOMP 过程进行主成份分析,PRINCOMP过程的一般格式:Proc Princomp DATA=数据集;Var 变量列表;Partial 变量列表;Weight 变量;Freq 变量;By 变量;Run;,下一页,上一页,PROC PRINCOMP语句TYPECOV或TYPECORR指明数据集类型,例如:DATAnew TYPECORR:表明new为一相关系数CORR数据集。OUT输出数据集存储原始数据和主分量得分等。OUTS
8、TAT输出数据集存储变量的平均数、标准差、相关系数、特征值、特征向量等。另外,COV指定由协方差矩阵计算(一般由相关系数矩阵进行);N个数指定主分量个数。STD将输出标准化的主分量得分。NOINT不含截距。NOPRINT不输出分析结果。PROC PRINCOMP过程中的主要语句VAR语句指明分析的数值变量。PARTIAL语句指明对偏相关或协方差矩阵进行分析的数值变量。,下一页,上一页,例:对我国上市公司的经济效益水平进行主成分分析,选择的主要经济效益指标共有以下几个:资金利税率,产值利税率,百元销售成本实现的利润,百元销售收入实现的利税,流动资金周转次数,主营业务利润增长率等6个。试分析经济效
9、益的主要影响因素。,下一页,上一页,Data sasuser.jjxy;infile“x:jjxy.txt”;input name$x1-x6;run;proc princomp data=sasuser.jjxy n=6 out=prin;var X1-x6;run;proc print data=prin;var prin1-prin6;run;,下一页,上一页,第一、第二主成分的表达式为:PRIN1=0.469779 X1+0.440631 X2+0.371196 X3+0.472717 X4+0.122706 X5+0.456998 X6PRIN2=0.008123 X1-0.2724
10、33 X2+0.442503 X3-0.012902 X4+0.797595 X5-0.305909 X6,下一页,上一页,如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印,进而对各上市公司的经济效益进行分类,那么可编写如下语句:Proc sort data=prin;By descending prin1;Run;proc print data=prin;Var prin1 x1 x2 x3 x4 x5 x6;Title 用第一主成分反映的经济效益情况依次列出各公司名单;Run;Proc sort data=prin;By descending prin2;Run;Pr
11、oc print data=prin;Var prin2 x1 x2 x3 x4 x5 x6;Title 用第二主成分反映的经济效益情况依次列出各公司名单;Run;,下一页,返回本节首页,上一页,菜单操作方法,单击solutions=analysis=analyst(在这里选择需要分析的数据集)=statistics=MULTIVARIATE=PRINCIPAL COMPONENT(主成份分析),下一页,返回本节首页,上一页,主成分在综合评价中的应用,例:主成分分析在企业经济效益综合评价中的应用综合评价值,其中,下一页,上一页,Rank 语句(有序变量转换成名次变量),proc rank da
12、ta=输入数据名 选项串;/*选项包括:ties=high(或=low)相等数据取高(或低)名次(内设为均值);descending 数据由大到小排成名次1,2,;out=输出文件名*/var 被排序数值变量名串;ranks 名次变量名串;run;,下一页,上一页,计算综合得分及名次,data new;set prin;z=prin1*0.6824/(0.6824+0.2093)+prin2*0.2093/(0.6824+0.2093);run;Proc rank data=new;Var z;Ranks zrank;Run;,说明:1.主成分分析是通过降维技术用少数几个综合变量来代替原始多个
13、变量的一种统计分析方法。这些综合变量集中了原始变量的大部分信息。2、第一主成分所包含的信息量最大,第二主成分其次,其它主成分依次递减,各主成分之间互不相关,这就保证了各主成分所含的信息互不重复。3.取多少个主成分,既要考虑至(前几个主成分的累计贡献率达到一定比例,也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。4.当各变量的单位不相同时,应从相关矩阵出发进行主成分分析。5.计算出主成分之后,应对要使用的前若干个主成分作出符合实际背景和意义的解释。,下一页,返回本节首页,上一页,二、因子分析,因子分析简介因子分析数学模型FACTOR 过程因子分析应用,下一页,返回本节首页,上一页,因子分
14、析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,因子分析简介,下一页,上一页,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综
15、合评价。而这三个公共因子可以表示为:,称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。,下一页,上一页,因子分析数学模型,设 个变量,如果表示为,下一页,上一页,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,即不相关;,即 互不相关,方差为1。,下一页,上一页,即互不相关,方差不一定相等,。,下一页,上一页,因子载荷矩阵的估计方法:主成分分析法主因子法极大似然估计法,下一页,返回本节首页,上一页,FACTOR 过程,SAS/STAT 模块中的 FACTOR 过程可
16、以用来进行因子分析、分量分析、因子旋转。对因子模型可以使用正交旋转和斜交旋转,可以用回归法计算得分系数,同时也可以把因子得分的估计值存储在输出数据集中。FACTOR 过程的结构如下:,下一页,上一页,FACTOR 过程格式:,PROC FACTOR DATA=数据集;PRIORS 公因子方差;VAR 变量表;PARTIAL 变量表;FREQ 变量;WEIGHT 变量;RUN;,下一页,上一页,PROC FACTOR语句的,OUTSTAT=输出数据集用于存储因子分析的结果。METHOD=因子选择方法包括PRINCIPAL,PRINIT,USL,ALPHA,ML,HARRIS,IMAGE,PATT
17、ERN。常用方法为PRINCIPAL(主成份法)、ML(极大似然法)和PRINIT(迭代主因子法)。SCORE表示要求算出因子得分模型中的系数。NORMKAlSER|RAW|WEIGHT|COV|NONE,为因子旋转指定因子模型中列的标准化方法。PRIORS=指定计算共性方差初始估计值的方法。包括ONE,MAX,SMC,ASMC,INPUT,RANDOM。其中ONE(等于1.0),SMC(多元平方相关系数),RANDOM(0与1之间的随机数)。ROTATE因子转轴方式包括NONE,VARIMAX,QUARTMAX,EQUAMAX,ORTHOMAX,HK,PROMAX,PROCRUSTE5。常用
18、的有VARIMAX(最大方差转轴法)、ORTHOMAX(正交最大方差转轴法)和PROMAX(在正交最大方差转轴的基础上进行斜交旋转)。SIMPLE结果输出包括简单统计数。CORR结果输出包括相关系数。NFACTOR=n要求保留n个公因子,否则只保留特征值大于1的那些公因子。,下一页,返回本节首页,上一页,因子分析应用,计算因子得分,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,下一页,上一页,实例分析:80-90 年代我国经济发展情况分析,为分析我国80年代(1980-1991年)经济发展情况,采用8 个指标:
19、x1:社会总产值;x2:国民收入;x3:一次性能源生产总量;x4:货物周转量;x5:固有的固定资产投资额;x6:职工工资总额;x7:社会商品零售额;x8:财政收入。考虑经济逐年增长,以每年值对上年的比为随机变量的观测值,(见程序中数据表)对其做因子分析并分析因子含义。,下一页,上一页,data sasuser.ecm1;input y x1-x8;cards;19801.11671.10090.98721.05631.06651.19441.18890.983519811.06341.06860.99251.00970.89491.06161.09811.004119821.09821.080
20、41.05621.07461.26641.07561.09361.031619831.11691.11231.06731.0771.12621.05961.10871.111219841.11831.19341.09241.11671.2451.21271.1851.202519851.26051.2421.09881.1151.41791.22021.2751.242719861.14961.11951.03011.11161.17731.20011.14981.21119871.20941.1851.03571.10321.16151.13341.17581.048519881.29311
21、.26041.04971.07181.20231.23131.27841.109419891.15651.11251.06091.07410.91771.13051.08991.121719901.10191.09171.02251.02411.15511.1271.02451.123719911.15161.12051.00891.06791.24311.12631.13441.0901;run;,下一页,上一页,proc factor data=sasuser.ecm1 outstat=ecfact;var x1-x8;run;proc print data=ecfact;run;proc
22、 factor data=sasuser.ecm1 priors=max n=2 outstat=ecfact2 rotate=v;var X1-X8;Run;proc print data=ecfact2;run;第一个 proc factor 语句用来调用因子分析过程,处理的数据是ecm1,方法是主成份分析,outstat=输出比out=更详尽,包括描述统计量、corr(or cov)、特征根、主因子等;第二个proc factor 规定了先验公因子方差估计,取相关变量的最大值,执行主因子分析;同时要求提取两个因子n=2并产生方差最大旋转。,下一页,返回本节首页,上一页,说明1:建立了因子
23、分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。,说明2:因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,
24、即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,下一页,返回本节首页,上一页,三、聚类分析,聚类分析简介聚类分析种类Q型聚类系统聚类分析:直观,易懂;快速聚类:快速,动态;有序聚类:保序(时间顺序或大小顺序);R型聚类 CLUSTER过程的一般格式聚类分析应用,下一页,返回本节首页,上一页,聚类分析简介,俗话说:“物以类聚,人以群分”,在自然科学和社会科学等各领域中,存在着大量的分类问题。例如在档案学中,人们根据档案文件的不同内容把各种文件分别归类存放。在营销学中,营销人员根据消费者的消费特征把消费者分成不同类型。在生物学中,根据动物的不同习性把动物分成不同种类。在经
25、济学中,根据居民家庭生活消费支出结构,把来自不同地区的消费者分成不同的消费层次。在投资学中,根据投资者的投资行为把投资者分成风险厌恶型、风险中性和风险爱好型等等。所有这些涉及根据已知现象的某些“相似”特征进行分类的问题都可归结为统计学中的聚类分析。,下一页,上一页,所谓聚类分析就是根据样品或指标的“相似”特征进行分类的一种多元统计分析方法,这里的类就是“相似”元素的集合。聚类分析起源于分类学,只不过早期对现象的分类,由于技术上的落后和对分类要求不高,人们主要依靠经验和专业知识来进行,很少利用数学工具进行定量的研究。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切
26、地进行分类,于是人们逐渐地把数学工具引用到了分类学中,这便形成了数值分类学这一学科,之后又将多元分析的技术引入到数值分类学,便又从数值分类学中分离出一个重要分支聚类分析,也称为群分析。与多元分析的其他方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是由于该方法应用方便,分类效果较好,因此越来越为人们所重视。近些年来聚类分析的方法发展较快,内容越来越丰富。,下一页,上一页,聚类分析的主要步骤:根据研究的目的选择合适的聚类变量;计算相似性测度;选定聚类方法进行聚类;对结果进行解释和验证。,下一页,上一页,系统聚类分析方法:设有N个样品,每个样品有P项指标。系统聚类的基本思想是:
27、首先定义样品间(变量间)的距离(或相似系数)和类与类之间的距离。一开始将每个样品各自自成一类,这时类间的距离与样品间的距离是一致的,然后将距离最近的两个类进行合并形成一个新类,并计算新类与其它类之间的距离,再按距离最小准则并类。每并类一次,类的个数就减少1,这一过程一直持续到所有的样品都被归为一类为止。,返回本节首页,上一页,CLUSTER过程的一般格式,PROC CLUSTER METHOD=name;var variables;copy variables;ID variable;by variables;FREQ variable;RUN;,可选语句,下一页,上一页,常用的聚类分析方法及
28、其SAS名如下:(1)AVERAGE或AVE:类平均法,距离为平方距离,除非规定NOSQUARE。(2)CENTROD或CEN:距离为平方距离,除非规定NOSQUARE。(3)COMPLETE或COM:最长距离法(4)EML:最大似然谱系聚类(5)SINGLE或SIN:最短距离法。(6)WARD或WAR:WARD最小方差法。(7)MEDIAN|MED:中间距离法(8)FLEXIBLE|FLE:可变距离法,下一页,上一页,PROC CLUSTER语句中的选择项(options)常用的有以下几类:(1)数据集选项data=sas-data-set:规定输入数据集名。如果数据集的类型为TYPE=DI
29、STANCE,那么数据被认为是距离阵,否则认为是欧氏空间中的坐标数据,并计算欧氏距离。OUTTREE=sas-data-set:生成记录聚类过程的输出数据集,用于画谱系聚类图的TREE过程可使用该数据集。如果缺省,采用DATAn规则来命名。,下一页,上一页,(2)聚类前的数据处理及聚类细节选项STANDARD|STD:对变量进行标准化处理,使处理后的数据均值为0,方差为1。该选项仅用于输入的数据是坐标数据。NOSQUARE:阻止过程在使用AVE、CEN、MED或WARD等方法进行聚类时对距离进行平方。NOEIGEN:阻止计算立方聚类标准的特征根。BETA:对可变类平均法规定参数值。NONORM
30、:防止把距离规范化为单位均值或单位均方。如同WARD方法一起使用,该选项阻止过程用总离差平方和去除类间平方和得到平方半偏相关。,下一页,上一页,(3)控制输出选项PSEUDO:输出伪F统计量和伪T2统计量,该选项仅对数据为坐标数据或方法为AVE、CEN和WARD时有效。RSQARE:|RSQ:输出R2和半偏R2。该选项仅对数据为坐标数据或方法为AVE、CEN和WARD时有效。PRINT=n|P=n:指定输出聚类过程的最后n层。SIMPLE:输出每个变量的描述性统计量。,下一页,上一页,2VAR语句该语句的一般格式为:var variables;该语句规定用于进行聚类分析数值型变量,如缺省,则使
31、用所有在其它语句中没有出现的数值型变量。3COPY语句该语句的一般格式为:copy variables;该语句把列出的变量(一般是VAR等其它语句没有列出的)从输入数据集复制到OUTTREE所规定的数据集中,以备后用。,下一页,上一页,4ID语句该语句的一般格式为:ID variable;该语句指定一个变量作为识别聚类过程中的输出,并作为OUTTREE规定的数据集中的观测,缺省时,系统用Obn,表示第n个观测。在聚类分析中,为识别观测通常使用该语句。,下一页,返回本节首页,上一页,聚类分析应用,下表是我国1990年30个省市自治区经济发展主要指标:生产性固定资产投资、职工工资总额、职工人数、国
32、民生产总值、国民收入生产额、国民收入消费额、国民收入积累额、居民消费水平、运输货物周转量。九个指标可以用九个变量来代表。若要对各省市自治区经济发展的基本情况进行分析,比较好的做法是,从表中的数据出发,按经济发展基本情况指标的“相似”程度先对这些省市自治区进行分类,然后再根据分类结果对每一类进行比较细致的分析或评价,这样就能更清晰地了解我国各类地区的经济发展状况和水平,为进一步作出相关决策提供依据。这正如把我国分为沿海经济发达地区、中西部经济欠发达地区,对这两个地区分别采取不同的政策措施一样。,下一页,上一页,data sasuser.ecodevelop;input province$x1-x
33、9;cards;北京84.98118.9454.9500.72336.79179.07206.511284303.3天京68.3469.4284.3300.31234.41132.0394.91258307.3河北118.77129.3652.7819.95631.37401.72214.226351552.5山西86.0390.7438.7398.24278.99183.04117.87571681.1内蒙45.1166.2396.7286.62210.52170.4392.87679620.24辽宁187.31217.81012.2964.89770.95479.08243.0710651
34、145.2吉林60.595.2517.3393.9304.75228.06101.44847470.3黑龙江117.9153.6856.2634.74505.02331.69168.03836842.5上海152.75146.8508.1744.67586.84266.12275.991837105.3江苏164.99184.6879.91314.391057.12583.91396.63812650.6浙江118.09102.8476836.81698.41407.53265.34860392.7安徽70.1186.7484.8606.54497.41342.89138.21574639.3
35、福建58.9265.6310.9465.84359.83258.15114.05794288.8江西44.0465.7386.1417.15308.65227.1696.76565304.5山东225.8161.9767.5332.131030.35568.11429.5627803.6河南123.06123.9692.6895.74687.89472.25238.514561215湖北87.32131.2698.5792.54603.45427.97142.63736668.2湖南69.17110.2551702.64540.31370.61142.84556756.6广东247.95223
36、.3785.5471.841034.91653.24360.6957633.5广西38.8362.4311.8392.83300.28238.7880.7525381.3海南21.3220.6105.995.0172.347.4240.7964917.9四川143.95185.7936.11146.63865.84662.59239.39570647.2贵州32.6742.5225.5254.51198.18154.1458.72441234云南51.760.7291.9395.99281.22203.7695.04512238.2西藏6.044.715.824.4516.817.478.95
37、6478.2陕西62.4576.1379.2374.85273.95219.7219.7587396.7甘肃40.7754.9231.9234.39185.88150.0577.75561392.7青海15.1917.366.466.2846.1437.3118.6173149.1宁夏15.321567.461.0544.1934.2122.5260876.5新疆68.7267.4300.6251.88179.15138.2790.62854199;run;,下一页,上一页,proc cluster data=sasuser.ecodevelop method=ward std outtree
38、=eco1 pseudo;id province;run;proc cluster data=sasuser.ecodevelop method=wardstd outtree=eco1 pseudo;id province;run;,下一页,上一页,选项聚类方法采用WARD最小方差聚类法,选项std要求对原始数据标准化,这样做的好处是消除了指标之间由于量纲不同而不可比的问题。选项outtree=给出输出数据集的名字为eco1,该数据集记录了整个聚类过程,通常它都是作为画 聚类图的TREE过程的输入数据集,参见以下的TREE过程。选项pseudo要求输出伪F统计量和伪T2统计量.程序中没有给出
39、分析变量表明没有在其它语句中出现的所有数值型变量都作为聚类变量,本例为X1X9,ID语句用于识别输出结果中的样品,本例识别变量为province。以上程序运行结果如下:,由WARD聚类法给出的聚类过程,从并类(-Clusters Joined-)所在的两列可以看到,WARD法首先把海南和宁夏聚为一类,记为CL29;接下来把江西和广西聚为一类,记为CL28;第三次是把CL29与青海聚为一类,记为CL27。由于CL29已含有海南和宁夏两个样品,所以CL27含有海南、宁夏和青海三个样品,与“FREQ”列对应该行的值是一致的,这一过程一直持续到所有样品被归为一类,并类思想与所解释的三个类的合并过程是一
40、样的。,下一页,上一页,为了直观地看出WARD法的聚类过程,以下程序利用画聚类图的TREE过程绘制出了整个聚类过程图。proc tree data=eco1 n=4 out=out1 horizontal graphics;id province;run;proc sort;by descending cluster;run;proc print data=out1;id province;by descending cluster;run;,下一页,上一页,TREE过程的输入数据集是CLUSTER过程输出的数据集eco1,选项out=out1规定输出一个包含聚类结果的输出数据集,该选项必须与
41、n=选项联合使用以给出类的个数。选项horizontal和 graphics要求绘制水平的、根在左侧的高分辨率聚类图。如果horizontal缺省,则绘制一个垂直的、根在上部的高分辨率聚类图。如graphics缺省,则在OUTPUT窗口绘制一个低分辨率的聚类图。程序中sort过程和print过程要求按类降序(descending)排列,并分类打印输出,其中识别变量仍为地区名。,下一页,上一页,说明:,SAS中有关聚类分析的过程还有fastclus(快速聚类)、aceclus(变量分割聚类)和varclus(指标聚类),其中varclus的聚类对象是指标,而cluster、fastclus和ac
42、eclus的聚类对象都是样品,后两者主要用于大型数据集的聚类。,下一页,返回本节首页,上一页,四、判别分析,下一页,返回本节首页,上一页,判别分析简介判别分析的SAS过程判别分析实例,判别分析简介,判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。,下一页,上一页,例如:某些昆虫的性别只有通
43、过解剖才能够判别,但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。这样虽非100%准确的判别,至少大部分是对的,而且用不着杀生。此即判别分析。,下一页,上一页,根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。采用不同的判别规则,又有 Fisher、Bayes、距离判别方法。Fisher 判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样本点都投影到这个轴上形成一个投影值,对这个投影轴的方向要求是:使每一类内的投影值所形成的类内离差值尽可
44、能小,而不同类之间的投影值所形成的类间离差值尽可能大。,下一页,返回本节首页,上一页,Bayes 判别思想是根据先验概率求出后验概率分布,并根据后验概率分布作出统计推断,所谓先验概率就是用概率描述人们事先对所研究的对象的认识程度,而后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出的概率。它是对先验概率修正后的结果。距离判别思想是根据各样本与各母体之间的距离远近作出判别,即根据资料建立关于各母体的距离判别函数式,将各样本数据逐一代入求出距离值,判别样本属于距离值最小的那个母体。,下一页,返回本节首页,上一页,判别分析的SAS过程,DISCRIM 过程可以进行参数判别分析和非参数判别分
45、析,一般格式如下:PROC DISCRIM DATA=数据集 选项;CLASS 分类变量;VAR 判别变量列表;RUN;其中,ROC DISCRIM 语句中的数据集为训练数据的数据集,包括一个分类变量和用来建立判别公式的自变量集合。可以用 TESTDATA 指定一个检验数据集,用“OUTSTAT 数据集”指定输出判别函数的数据集。用“OUT 数据集”指定训练样本及组密度估计数据集,用”TESTOUT 数据集“指定检验数据的后验概率及分类结果。,下一页,返回本节首页,上一页,判别分析实例,人文与发展指数是联合国开发计划署于1990年5月发表的第一份人类发展报告中公布的。该报告建议,目前对人文发展
46、的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:出生时的预期寿命、成人识字率和实际人均GDP。将一生三个指数合成为一个指数就是人文发展指数。今从1995年世界各国人文发展指数(1992年)的排序中,选取高发展水平和中等发展水平的国家各5个作为两组样品,另选四个国家作为待判样品,资料如下:试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。,下一页,上一页,下一页,上一页,data develp;input type life rate gdp;cards;1 76 99 5374 1 79.5 99 5359 1 78 99 53721 72.
47、1 95.9 5242 1 73.8 77.7 53700 71.2 93 4250 0 75.3 94.9 3412 0 70 91.2 33900 72.8 99 2300 0 62.9 80.6 3799.68.5 79.3 1950.69.9 96.9 2840.77.6 93.8 5233.69.3 90.3 5158;Run;,下一页,上一页,proc discrim simple wcov distance list;class type;var life rate gdp;run;,程序说明:在上面的程序中,首先利用DATA步创建了一个用于建立判别函数(准则)和归类的名为dev
48、elp的SAS数据集,其中变量type为分类变量,可以是字符型的,也可以是数值型。本例为数值型的,取值0(中等发展国家)和1(高发展国家),当然也可以是其它数值。变量life代表出生时的预期寿命,rate代表成人识字率,而gdp代表实际人均国内生产总值。DATA步数据行中的最后四个观测是待判别的样品,并不参与判别函数的构建,TYPE变量值缺省表示要求判别归类。注意这四个观测也可以另形成一个待判数据集作为PROC DISCRIM语句中的一个选项。,下一页,上一页,上面程序判别过程中的选项simple要求计算各类样品的简单描述统计量,选项wcov要求计算类内协方差阵,选项distance要求计算马
49、氏距离,选项list要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。,下一页,上一页,线性判别函数如下:中等发展水平:,高发展水平:,下一页,上一页,聚类分析与判别分析的区别,一、分析目的不同。判别分析的目的是把待判的样品归入已知的类中,而聚类分析事先并没有类,它的目的正是根据分类对象的数据特征按一定规则把分类对象分成若干类。二是已知条件不同。判别分析事先有类,即对类有事先的了解,并具有来自不同类的若干样品,而聚类分析只有待分类的若干样品及其指标值。三是分析方法不同。判别分析根据已知样品建立判别函数和判别准则,并据此对待判样品进行归类,而聚类
50、分析则是根据样品或指标之间的“相似”程度直接对样品或指标进行分类。四是分析结果不同。判别分析的结果是把待判样品归入某一类,而聚类分析则是把样品或指标分成事先并没有的类,使得同一类里的这些现象在某种意义上倾向于彼此“相似”,而在不同类里的对象倾向于不“相似”。当然两者之间也存在一定的联系。除了“类”的定义相似外,判别分析中对类的事先了解和确定常常可以通过聚类分析得到。,下一页,返回本节首页,上一页,1.对2005年全国31个省市自治区城市设施水平的七项指标做主成分分析,选择反映城市设施水平的指标见下表(摘自中国统计年鉴2006),要求选取累积贡献率85%的前几大主成分,对第一主成分的得分进行排序