判别分析(第7讲).ppt

上传人:牧羊曲112 文档编号:6221661 上传时间:2023-10-06 格式:PPT 页数:81 大小:2.34MB
返回 下载 相关 举报
判别分析(第7讲).ppt_第1页
第1页 / 共81页
判别分析(第7讲).ppt_第2页
第2页 / 共81页
判别分析(第7讲).ppt_第3页
第3页 / 共81页
判别分析(第7讲).ppt_第4页
第4页 / 共81页
判别分析(第7讲).ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《判别分析(第7讲).ppt》由会员分享,可在线阅读,更多相关《判别分析(第7讲).ppt(81页珍藏版)》请在三一办公上搜索。

1、判别分析,上海*通信技术有限公司Mr Jim()2013-05,培训大纲,一、概述二、距离判别三、贝叶斯判别四、费希尔判别,判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测数据属于那一类的统计分析方法。,概念:,判别准则:用于衡量新样品与各已知组别接近程度的思路原则。判别目的:1)判别函数,以便根据计量变量来确定一个观测属于哪一类2)一组计量变量的线性组合,他能最好的区分各类3)计量变量的子集,以便最后的分类 判别函数:基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的描述指标。,按照判别准则来

2、分有 距离判别、费希尔判别与贝叶斯判别,距离判别:根据各样品与各母体之间的距离远近做出判断 贝叶斯判别:贝叶斯判别思想是用先验概率求出后验概率,并依据后验概率分布做出统计推断.费希尔判别:费希尔判别思想主要是把两类投影到一条直线上,使组间差异尽可能大,组内差异尽可能小.是一种先进行高维向低维投影,再根据距离判别的一种方法.借助方差分析的思想构造判别函数(相当于一种投影),使组间区别最大,组内离差最小,然后代入新样本数据,将其与判别临界值比较以确定应判为至哪一总体.,培训大纲,一、概述二、距离判别三、贝叶斯判别四、费希尔判别,距离判别法,判别准则:对于任给一次观测值,若它与第 类的重心距离最近,

3、就认为它来自于第 类。,马氏距离 两总体的距离判别1、协方差相等,因此有,判别函数:,2、当总体的协方差已知,但不相等,3、当总体的协方差未知时,用样本的离差阵代替,步骤如下:(1)分别计算各组的离差矩阵 和;(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,判类。,多总体的距离判别法,则,设有 个 元总体,分别有均值向量 和协方差阵,对任给的 元样品,判断它来自哪个总体,计算 到 个总体的马氏距离,比较后,把 判归给距离最小的那个总体,若,错判概率,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。,设两总体,分别服从 其线性判别函

4、数为:,不妨设,则当 时,,当两总体靠得比较近时,即两总体的均值差异较小时,无论用何种判别方法,判错的概率都比较大,这时的判别分析也是没有意义的,因此只有当两总体的均值有明显差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验.,data ds511;input id x1-x4 group$;cards;1 13.85 2.79 7.80 49.60 A2 22.31 4.67 12.31 47.80 A3 28.82 4.63 16.18 62.15 A4 15.29 3.54 7.50 43.20 A5 28.79 4.90 16.12 58.10 A6 2.18 1.06

5、 1.22 20.60 B7 3.85 0.80 4.06 47.10 B8 11.40 0.00 3.50 0.00 B9 3.66 2.42 2.14 15.10 B10 12.10 0.00 5.68 0.00 B;run;data d511test;input id x1-x4 group$;cards;11 8.85 3.38 5.17 26.10.12 28.60 2.40 1.20 127.00.13 20.70 6.70 7.60 30.20.14 7.90 2.40 4.30 33.20.15 3.19 3.20 1.43 9.90.16 12.40 5.10 4.43 24

6、.60.17 16.80 3.40 2.31 31.30.18 15.00 2.70 5.02 64.00.;run;proc discrim data=ds511 testdata=d511test list testlist;class group;var x1-x4;run;,距离判别样例:,两个数据集:ds511、d511test,分别是训练数据和待判别的数据。在discrim语句中,要用testdata=d511test来指明,d511test是待判别的数据集。输入字符串数据时,可以用英文句点.来表示空字符串。LIST,印出各觀察值被分類的結果TESTLIST,印出被測試資料內所有觀

7、察值,data d511;input id x1-x4 group$;cards;1 13.85 2.79 7.80 49.60 A2 22.31 4.67 12.31 47.80 A3 28.82 4.63 16.18 62.15 A4 15.29 3.54 7.50 43.20 A5 28.79 4.90 16.12 58.10 A6 2.18 1.06 1.22 20.60 B7 3.85 0.80 4.06 47.10 B8 11.40 0.00 3.50 0.00 B9 3.66 2.42 2.14 15.10 B10 12.10 0.00 5.68 0.00 B11 8.85 3.

8、38 5.17 26.10.12 28.60 2.40 1.20 127.00.13 20.70 6.70 7.60 30.20.14 7.90 2.40 4.30 33.20.15 3.19 3.20 1.43 9.90.16 12.40 5.10 4.43 24.60.17 16.80 3.40 2.31 31.30.18 15.00 2.70 5.02 64.00.;run;options ps=60 ls=75;proc print data=d511;run;proc discrim data=d511 simple wcov pcov wsscp psscp distance li

9、st;class group;var x1-x4;run;,Options ps=60 ls=75表示输出屏幕定义为一页60行,每行75字符,proc print以报表方式输出数据集,wsscp,打印各组的离差交乘积和矩阵,这个程序与前一个程序略有不同,它没有采用两个数据集,而是把训练数据和待判别数据全部写到一个数据集:d511。,distance,打印各组之间的马氏距离,和F统计量。,SSCP=(Xi-avg(Xi)2#Sums of Squares and Crossproducts 平方和与交叉乘积平方和,Pooled covariance matrix:(合并样本协方差矩阵),后验概率

10、计算公式:,PROC DISCRIM OPTIONS 选项:(1)DATA=训练数据集(2)OUT=指定生成一个数据集,其包含来自data=的所有数据,每个观测来自不同组的后验概率及判别结果.*(3)TESTDATA=待判数据集(4)WCOV,组内协方差(5)WCORR,印出各類別之相關矩陣(6)SIMPLE,印出原始變數之平均數,標準差等(7)PCOV,合并样本协差阵(8)PCORR,(9)TESTLIST,列出testdata数据集的全部分类结果(10)TESTLISTERR,仅当使用tstclass语句给出检验集中各观测所属类别时,该选项要求列出testdata数据集中被错误分类的观测。

11、*(11)NOSUMMARY,分類結果暫時不印出*(12)THRESHOLD=P,指定一個最小的事後機率(posterior probability),PROC DISCRIM OPTIONS 选项:Method=normal|npar 缺省值为method=normal,假设每类样本服从正态分布,如指定method=npar时,采用非参数方法估计类密度,所以必须指定选项k=或r=中的一个。Pool=no|test|yes 当pool=test时,要求对组内协方差的齐性进行似然比检验,然后根据检验结果建立线性或非线性函数再进行判别归类。缺省值为yes(假定各类的协方差矩阵相等)重新分类选项:l

12、ist:输出重新分类结果 listerr:仅输出被错误分类的观测 noclassify:不对输入data=数据集进行重新判别分类交叉确认(舍一法)分类选项:crosslist:输出交叉确认(舍一法)的分类结果 crosslisterr:仅输出使用交叉确认(舍一法)分类方法被错误分类的观测 crossvalidate:要求对输入data=数据集进行交叉确认分类,只在输出窗口给出概括分类的列联表,没有每个观测具体的分类结果。如果已经有选项crosslist,crosslisterr或者outcross=,该选项不需要再指定。,有关非参数法的选项K=k-为k最近邻规则指定一个k值.R=r-为核密度估

13、计指定一个半径r.Kernal=Biweight|Epanechnikov|Normal|Triweight|Uniform 指定核函数,缺省为Uniform|uni.4)Metric=diagonal|full|identity 为计算平方距离时指定所选用的距离,缺省为full.Diagonal为对角阵,identity为单位阵,如method=normal,则metric=full.,培训大纲,一、概述二、距离判别三、贝叶斯判别四、费希尔判别,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔

14、也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,贝叶斯判别法,一、标准的Bayes判别,一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,贝叶斯(Bayes)判别就具有这些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。,则 判给,在正态的假定下,为正态分布的密度函数。,判别规则,则 判给。,上式两边取

15、对数,下面讨论总体服从正态分布的情形,问题转化为若,则判。,当协方差阵相等时,去掉与i无关的项,等价的判别函数为:,判别函数退化为,令,问题转化为若,则判。,令,完全成为距离判别法。,令,有,问题转化为若,则判。,当先验概率相等,即 时,考虑错判损失的Bayes判别分析,设有总体,具有概率密度函 数。并且根据以往的统计分析,知道 出现的概率为,。,D1,D2,Dk是R(p)的一个划分,判别法则为:,关键的问题是寻找D1,D2,Dk划分,这个分划应该使平均错判率最小。,当样品X落入Di时,判,【定义】(平均错判损失),C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划

16、,是Bayes判别分析的解。,用 表示将来自总体Gi的样品错判到总体Gj的条件概率。,【定理】,且相应的密度函数为,损失为 时,划分的贝叶斯解为,若总体G1,G2,Gk的先验概率为,其中,含义是:当抽取了一个未知总体的样品值x,要判别它属于哪个总体,只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定样品属于该总体。,下面在k=2的情形下,计算作为例子,我们讨论。,由此可见,被积函数在D1是负数时,可使ECM最小,则有分划,Bayes判别准则为:,令,特别地,若,则 判给。与标准Bayes判别等价,Obs group x1 x2 x3 x4 1 1 228 13

17、4 20 11 2 1 245 134 10 40 3 1 200 167 12 27 4 1 170 150 7 8 5 1 100 167 20 14 6 2 225 125 7 14 7 2 130 100 6 12 8 2 150 117 7 6 9 2 120 133 10 26 10 2 160 100 5 10 11 3 185 115 5 19 12 3 170 125 6 4 13 3 165 142 5 3 14 3 135 108 2 12 15 3 100 117 7 2,胃癌检验的生化指标,Group=1,胃癌Group=2,萎缩性胃炎Group=3,非胃炎,data

18、 d522;input group x1-x4;cards;1 228 134 20 11 1 245 134 10 401 200 167 12 27 1 170 150 7 81 100 167 20 14 2 225 125 7 142 130 100 6 12 2 150 117 7 62 120 133 10 26 2 160 100 5 103 185 115 5 19 3 170 125 6 43 165 142 5 3 3 135 108 2 123 100 117 7 2;proc print data=d522;run;proc discrim data=d522 pool

19、=no distance list;class group;priors 1=0.33333 2=0.33333 3=0.33333;var x1-x4;run;,Priors语句,指出每组患者的先验概率。Priors probabilities 直接对各总体的先验概率进行赋值 Priors proportional:利用各总体样本占全部训练样本的比例为各总体的先验概率赋值Priors equal 指定各总体的先验概率相等,此为priors语句的默认选项.,培训大纲,一、概述二、距离判别三、贝叶斯判别四、费希尔判别,Fisher判别,在应用多元统计方法解决分类问题时,问题之一就是维数问题。在低

20、维空间里解析上或计算上行得通的方法,在高维空间里往往行不通。因此,降低维数有时就成为处理实际问题的关键。可以考虑把d维空间的样本投影到一条直线上,形成一维空间,这在数学上是容易办到的。然而,即使样本在d维空间里形成若干紧凑的相互分得开的集群,若把它们投影到一条任意的直线上,也可能使几类样本混在一起而变得无法识别。但在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线。这就是Fisher法则所要解决的基本问题。,Fisher判别,Fisher判别,费希尔判别的基本思想是投影(或降维),Fisher方法是要找到一个

21、(或一组)投影轴w使得样本投影到该空间后能在保证方差最小的情况下,将不同类的样本很好的分开。并将度量类别均值之间差别的量称为类间方差(或类间散布矩阵);而度量这些均值周围方差的量称为类内方差(或类内散布矩阵)。Fisher判决的目标就是:寻找一个或一组投影轴,能够在最小化类内散布的同时最大化类间散布。,由于 是线性函数,一般可将 表示为 对于线性函数,它的几何表示就是空间中的一条直线或平面,或超平面,如果我们把两总体、看成空间的两个点集,该平面所起的作用就是尽可能将空间两个点集、分开,如图所示。,Fisher判别,要选择一个正确的投影方向,使同类样品点沿该方向在直线上的投影点尽可能集中,不同类

22、样品点尽可能分开,这就是费希尔提出的关于未知样品归属于两类总体的模型形成思想。,Fisher判别,选择合适的投影方向,就是要建立合适的判别函数。若判别函数是 则为线性判别分析 否则为非线性判别分析,如,Fisher判别,设已知两总体 和,通过分析研究在、两总体中分别提取了 个特征量,然后对、两总体分别作、次试验,得、两总体的试验观测数据如下:,两总体的Fisher判别法,现将 总体的第 个样本点 投影到 平面上得投影点 即 平面上投影点 的重心,记为,两总体的Fisher判别法,其中类似可得总体 在 平面上的投影点 以及 平面上投影点 的重心,记为,两总体的Fisher判别法,其中,按照费歇尔

23、的思想:不同总体、的投影点应尽量分开,用数学式子表示,为;同一总体的投影点应尽量集中,用数学式子表示,即为或,两总体的Fisher判别法,两总体的Fisher判别法,显然式上式又可表示为,两总体的Fisher判别法,类内散度足够小类间散度足够大,令则,两总体的Fisher判别法,对于令,则对于,两总体的Fisher判别法,其中,即有,两总体的Fisher判别法,令 有亦即,两总体的Fisher判别法,在上式中,与 无关,只对方程组的解起共同扩大倍数作用,对判别函数来讲没有影响,故可令,于是得 解线性方程组式,可求得判别函数系数。于是建立起两总体、的判别分析数学模型,即为,两总体的Fisher判

24、别法,判别准则函数的矩阵形式,判别准则函数的矩阵形式,判别函数的显著性检验,判别函数数学模型的建立是在假定两组试验数据取自不同的总体,但是如果两组试验数据的各特征变量的平均值差异不显著,从而所建的判别函数数学模型就没有价值。为此,需要检验两总体是否有显著差异。检验所用的标准是以马氏(Mahalanobis)D2距离为基础所构成的统计量:其中,全部符号同前。,对于给定显著水平,查F 分布表,可得临界值。如果F,则表明、两总体有明显差异,判别函数数学模型可靠;反之不然。此外,在实际应用中,还可用判别模型的回判率 来检验模型的效果,所谓判对是指原属于 类,而回判结果也是 类,原属于 类,回判结果也是

25、 类。否则称错判。一般若 75就认为判别模型有效,否则就认为无效。,判别函数的显著性检验,待判样品的归类,求得判别函数模型后,可由式算出由投影平面 上两总体的投影点集的重心、可给出两总体投影点集的分界点(又称门槛值)的计算公式,在实用上有多种计算公式,这里给出常用最简单的计算公式。,对于待判样品,将其投影到平面 上得投影点(又称判别分),。由此有如下结论:当时,若,则认为属于A类,若,则认为属于B类,对于的情况作相仿讨论。,判别函数的显著性检验,多个总体的Fisher判别法,多个总体的Fisher判别法,在高维的X空间,多个总体的Fisher判别法,在低维的Y空间,在高维的X空间,多个总体的F

26、isher判别法,准则函数,多个总体的Fisher判别法,多个总体的Fisher判别法,多个总体的Fisher判别法,data d522;input group x1-x4;cards;1 228 134 20 11 1 245 134 10 401 200 167 12 27 1 170 150 7 81 100 167 20 14 2 225 125 7 142 130 100 6 12 2 150 117 7 62 120 133 10 26 2 160 100 5 103 185 115 5 19 3 170 125 6 43 165 142 5 3 3 135 108 2 123 1

27、00 117 7 2;,proc candisc data=d522 out=can532 ncan=2 distance simple;class group;var x1-x4;run;proc plot data=can532;plot can2*can1=group;run;proc print data=can532;run;proc discrim data=can532 distance list;class group;var can1 can2;run;proc discrim data=can532 pool=no distance list;class group;var

28、 can1 can2;run;,Candisc过程专用于SAS系统内的典型判别分析,但在使用的时候candisc过程一般仅给出典型变量和其得分数据,要获得完整的判别分析结果,需要再将candisc过程的输出结果作为discrim过程的输入.ncan=2指出原始数据投影到2维空间中,使类间距离最大化,类内距离最小化后,所得的2维数据。Simple:计算数据的简单描述性统计量Distance:在结果中输出类的均值间的平方马氏距离,为什么要进行典型判别?,有利于画图;使 的分母尽量不是0;(检验各组的均值是否相等的统计量).典型判别过程仅起到把多个分析变量降维的作用;最后需要把典型变量作为新的分析变量利用距离判别法或Bayes判别法进行判别.,谢 谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号