第六章判别分析方案课件.ppt

资源描述

《第六章判别分析方案课件.ppt》由会员分享，可在线阅读，更多相关《第六章判别分析方案课件.ppt（83页珍藏版）》请在三一办公上搜索。

1、第六章判别分析discriminant analysis,判别分析的基本概念两总体判别分析多总体判别分析SPSS的判别分析过程,一、判别分析的基本概念,判别分析问题的描述：已知若干组分类数据现有一新样本，要求判定新样本数据属于已知分类中的哪一类判别分析的关键：判别函数：由描述各类的数值指标构成的分类规则，明确已知各类应如何区别例：肝炎病人的诊断两总体判别：肝炎病人和正常人判别依据：一些化验指标，形成判别公式-判别函数,Simple,Two-Group DA,x,判别规则,中国属于发展中国家还是发达国家？,Pattern Recognition Problem,判别分析与方差分析、聚类分析,聚

2、类分析与判别分析间的联系,先采用聚类分析获得各个个体的类别（classification）；然后采用判别分析建立判别函数，对新个体进行类型识别（identification）,聚类分析的数据格式,k,判别分析的数据格式,判别分析的方法与数学描述,数据描述对于m类总体G1，G2，Gm，其分布函数分别为f1(y)，f2(y)，fm(y)，对于一个给定样品y，我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。误判问题肝功指标高就一定是肝炎病人吗？,误判率Misclassification(1-D case),两总体单指标的判别分析，假设正态分布，等方差,判

3、别规则,转氨酶,肝炎患者,非患者,非典？,?,Best-In What Sense?,Minimizes probability of misclassificationMaximizes posterior probability of correct classificationMany othersFor example minimizes the cost of misclassification具体问题具体分析疾病的诊断市场分析,Lots of perspectives suggest this basic rule as best,影响误判率的因素,当分布中心过于接近，误判率很高,

4、三总体单指标,组均值差异,Three groups-Two features,二、两总体判别分析,基本思想：样品和哪个总体距离最近，就判断它属于那个总体。设：两个总体G1和G2，x是一个p维样本，x到总体G1和G2的马氏距离分别记为d2(x,G1)和d2(x,G2),判别规则：若d2(x,G1)d2(x,G2),认为x属于G2。或判别函数：W(x)=d2(x,G2)-d2(x,G1),所谓“等距离”：到两总体距离相等的点构成类分界线,1.马氏等距离法,两指标、正态分布且方差相等的两总体,类分界线,样本点到某一类的距离越近,属于该类的概率越大,线性判别函数,设G1N(1,1)和G2N(2,2)为

5、两正态总体，且协差阵相等，即1=2=，则样本x到G1、G2的马氏距离为,可以证明：,容易看出上述函数W(x)为x的线性函数，称为线性判别函数，判别准则：W(x)与0比较,令W(x)=0可以得到两类分界线,Linear Discrimination Rule,考察p=1的情况,设G1N(1,2)和G2N(2,2)，判别函数为：,x=0.5,误判率P(2/1)=0.3085,误判率P(1/2)=？,12时，非线性判别函数,判别函数W(x)为x的二次函数,G1:N(80,0.25),G2:N(75,4),75,80,x0=78,已知G1是设备A生产的产品，G2是设备B生产的产品。A设备质量高，其产品

6、平均耐磨度1=80，方差12=0.25，B设备质量较差，其产品平均耐磨度2=75，方差22=4。现有一产品X0，其耐磨度x0=78，试判断该产品是哪台设备生产的。建立判别规则，误判率多大？,考察p=1的情况,直观上看，x0距1较近,但是考虑到相对分散度，,判别准则,x1,x2,误判率：4.5%,2.Fisher 判别法,判别思想：投影，使多维问题简化为一维问题来处理方法：寻找原变量x的一个线性组合，使得各组在此方向上投影的差异最大化，再选择合适的判别规则对样品进行分类判别。,Fishers approach,Find a linear combination of variables x th

7、at would produce“maximally different”discriminant scores across group,数学模型,设：线性组合的系数向量为a,考虑线性组合：z=xaz:x在a方向的投影通过寻找合适的a，使投影到此方向的组间变异大，组内变异比较小，即使组间变异/组内变异（离差平方和）取最大值。,两总体Fisher判别函数,设：两协差阵相等的总体G1:n1个样本，G2:n2，1，2和分别表示两总体均值和总均值线性组合的系数向量为a,考虑线性组合：z=xa投影后的组内变异：组内离差平方和为,投影后的组间变异：组间离差平方和为,以上证明，当a-1(2-1)时满足我们

8、的要求，即：判别投影方向在两类均值点的连线上。通常我们将a标准化。判别函数为：z=x-1(2-1),判别规则：zc时，xG2；zc时，xG1，,Linear Discriminators,critical value,投影方向,判别函数,判别得分,c2c1,xG1c3c1,xG2,练习题,两类总体相关统计资料如下：,一个新的样本为x=(0.0,0.5)，问x属于（1）类还是（2）类。,解法1：马式等距离法解法2：Fisher法,解：求Fisher判别函数z=x-1(2-1),结论：x属于（1）类,例：books by mail,某书商从事邮购书业务。有50,000个顾客的统计数据，现公司计划推

9、销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单，即只向有可能购买该书的顾客推销，以降低成本。为了了解顾客情况，公司从50,000个现有顾客中随机抽取1000人发订购单，其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。对1000个顾客样本进行判别分析，选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者，1购买者,求判别函数系数a-1(2-1),判别函数为z=-0.056month+1.577artnum,z2=-0.0569.41+1.5771=1.05,z1=-0.056

10、12.73+1.5770.33=-0.19,c=(1.05-0.19)/2=0.43判别规则：z0.43buyer,SPSS输出结果,判别规则：zc=(1.018-0.0922)/2=0.4629buyer,判别函数：,判别变量和标准化判别函数的相关系数,购买艺术书越多的顾客越可能购买，越近期的顾客越可能购买,判别得分的分布,Non-buyers,buyers,z=0,z=0,回判结果,误判率25%,发出263封订购信，约18.3%会订购,协方差阵相等的检验-Boxs test,H0:1=2=m协方差不等时的判别：非线性判别函数如果仍用线性判别，误判率增大,组内协方差相等时,Books by

11、mail,协方差相等算法的误判率,协方差不等算法的误判率,发出263封订购信，约18.3%会订购,发出197封订购信，约20.3%会订购,判别函数的鉴别能力类中心差异的显著检验Wilkss test,为什么要检验？类中心距离太近时，误判率高。如果某个判别函数不能拒绝原假设，则这个判别函数的判别能力很差,如何检验：该判别函数在各类中心相等 H0:1=2,3.Bayesian approach,前面两种方法中都没有考虑各类中样本数的差异没有考虑误判带来的不对称经济损失当各类样本数不同/误判损失不对称时，是否会影响判别函数的选取或判别规则？,Incorporating Prior Probs考虑先验

12、概率,R1的误判率高于R2,考虑到各类样本容量不同对误判率的影响，判别规则应作适当调整,3.Bayesian approach,贝叶斯的统计思想：假定对研究的对象已有一定的认识（常用先验概率反映这种认识），然后抽取一个样本，用样本来修正已有的认识。,影响分类的因素,先验概率用概率描述的人们事先对所研究对象的认识误判损失cost of misclassification:x被判为属于G2，而它实际属于G1，则称发生了误判误判可能会带来经济损失当误判损失不对称时（比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时），我们通常会改变判别准则（使之偏向误判成本低的一方），宁可将G2误

13、判给G1，也不愿相反。,3.Bayesian approach,基本思路：误判期望损失最小化设有m个总体G1,Gm,其概率密度函数分别为fi(x),i=1,2m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i)，那么，对于判别规则R产生的误判概率记为P(j/i,R),有：,如果已知x来自总体Gi的先验概率为qi(i=1,2,m)，则在规则R下，误判期望损失为：,贝叶斯定理,若总体G1,Gm的先验概率为qi，且相应的密度函数为fi(x)，损失是C(j/i)时，则划分R的贝叶斯解为：,当抽取了一个未知总体的样品值x(p维向量），要判断它属于哪个总体，只要先计算出个按先验分布加权的误判

14、平均损失hj(x)，然后比较这m个平均损失的大小，取其中最小的，则判定x来自该总体,两总体判别,设有2个总体，其先验概率分别为q1,q2，满足：qi0，qi=1，误判成本分别为C(1/2),C(2/1)，h1(x)=q2f2(x)C(1/2),h2(x)=q1f1(x)C(2/1),R1=x|q2f2(x)C(1/2)q1f1(x)C(2/1),两总体判别,其中：z-Fisher判别函数得分，c-两个类中心连线的中点（Fisher判别准则）,当先验概率和误判损失各类都相等时，即为Fisher判别。先验概率/误判损失不对称时，相当于对原判别值做一个修正,如果f1(x)与f2(x)分别为Np(1,

15、)和Np(2,)，则,练习题,考虑下列判别分析问题：随机抽取60个样本，相关统计资料如下：,一个新的样本为x=(0.0,0.5)，问x属于（1）类还是（2）类。,Books by mail,1000个样本顾客中，buyer只有83人，其他917名都是non-buyer,先验概率相差很大。做先验概率修正后，分类结果：,修正后（Bayers法）,发出197封订购信，约20.3%会订购,发出44封订购信，约43.2%会订购,修正前,误判损失修正,此例为典型非对称误判损失：非买者误判为买者，损失较小（邮资费、资料费、人工费），设为1元；买者误判为非买者损失较大，为一本书的净利润，设为6元,发出160封

16、订购信，约21.3%会订购：准确率下降！,净利润=634-1126=78,净利润=611-110=56,仅先验概率修正,3 Groups in 2 Dimensions,三、多总体判别分析,Partitioning 2-D Space,Alternate View,Likelihood View,Non-Linear Discriminators两个判别变量、三类,四、SPSS的Discriminant过程,Discriminant过程的大部分功能都可以通过对话框来指定，还有一些功能可以在Syntax页中给予补充或修改。例如，指定各类的先验概率；显示旋转方式和结构矩阵；限制提取的判别函数的数目

17、；读取一个相关矩阵；分析后把相关矩阵写入文件；指定对参与分析的观测量进行回代分类，对没有参与分析的观测量进行预测分类等。,SPSS的判别分析方法,为研究舒张期血压和血浆胆固醇对冠心病的作用，某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标，结果如下，试作判别分析，建立判别函数以便在临床中用于筛选冠心病人。,判别分析数据结构,设一分组变量表示分组类别,判别分析过程,分析分类判别.，弹出判别分析对话框。,定义分组变量取值范围,SPSS提供6种方法进行判别函数分析：强迫变量进入法及其他5种逐步进入法,强迫进入法：已选变量全部进入模型,逐步进入法,选择满足指定条件的样本进行分

18、析,定义分组变量取值范围,分组变量最大值,分组变量最小值,逐步进入方法选择对话框,“组间最小F比率”值最大的变量,“统计量”对话框,“分类”对话框指定分类参数和判别结果,合并组内协方差阵，用于类协方差相等时,“保存”对话框,计算结果,舒张压对冠心病的影响大于胆固醇,类均值处的线性判别函数,判别方程为：D=0.638X1+0.800X2-10.753依此方程，病人组的中心得分点为1.11198，正常人组的中心得分点为-1.04248。本例为二类判别，二类判别以0为分界点，若将某人的舒张压和胆固醇值代入判别方程，求出的判别分0的为冠心病人，判别分0的为正常人。,例：mba-car-preferre

19、nce,前一章MBA汽车偏好例先用快速聚类将偏好数据分为3类再用判别分析建立判别函数首先进行方差检验，以确定判别方法再进行相应的判别分析，给出误判率,协方差相等假设下的判别结果,Territorial Plot,Territorial Plot,Draw in perpendicular bisectors,Territorial Plot,This is“closest mean”classification.,用方差不等方法的判别结果,Territorial Plot显示的分界为非线性,将数据快速聚为4类后判别分析,方差相等方差不等先验概率交叉检验,通信公司客户细分,某通信公司以服务项目将

20、客户分为以下四类：basic service,e-service,plus service，total service依据下述变量进行判别：Age in Years，Marital status，Household income in thousands,Years at current address,Retired,and Gender，Number of people in household，Level of education，Years with current employer,Boxs Test test,不考虑异方差,本章小结,判别分析：已知m类总体，对于一个给定样品y，判断

21、来自哪个总体。主要问题：寻找最佳的判别函数和建立判别规则马氏等距离法样本点到哪个类中心的马氏距离最近就归属于哪一类Fisher方法以类中心连线为投影方向（类间距离最大）建立判别函数Bayesian方法先验概率和不对称误判成本修正,本章小结-续,判别分析之检验类协方差相等的检验：Boxs test类方差相等：判别函数为线性函数，类分界线为直线类方差不等：非线性函数，类分界线为曲线类均值相等的检验：Wilkss test判别函数个数：分类数-1,人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。,

展开阅读全文