第五章 判别分析ppt课件.ppt

上传人:牧羊曲112 文档编号:1892259 上传时间:2022-12-24 格式:PPT 页数:165 大小:2.92MB
返回 下载 相关 举报
第五章 判别分析ppt课件.ppt_第1页
第1页 / 共165页
第五章 判别分析ppt课件.ppt_第2页
第2页 / 共165页
第五章 判别分析ppt课件.ppt_第3页
第3页 / 共165页
第五章 判别分析ppt课件.ppt_第4页
第4页 / 共165页
第五章 判别分析ppt课件.ppt_第5页
第5页 / 共165页
点击查看更多>>
资源描述

《第五章 判别分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五章 判别分析ppt课件.ppt(165页珍藏版)》请在三一办公上搜索。

1、,第五章,把对象归类,判别分析,(Discriminant Analysis),2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,第章 判别分析,要点,5.1 判别分析的基本思想,5.2 距离判别,5.3 贝叶斯判别,推荐阅读,5.4 费雪尔判别,5.5 建立判别函数的方法,5.6 SPSS判别分析过程,返回,第5章 判别分析,学习目的和要求: 通过本章的学习,使学生了解判别分析概念及其适用范围,掌握四种判别分析的方法及其应用。应用SPSS进行计算处理。,2008.8,安徽财经大学统计与应用数学学院,5.1.1 引 例,5.1.2 判别分析的基本思想,

2、5.1.3 判别分析的类型,5.1 判别分析的基本思想,返回,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、引 例 1,2、引 例 2,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、引 例 1,5.1.1 引 例,某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项症状指标数据,就可以从这些指标数据发现各类病人的区别。把这种区别表示为一个判别公式,在测得一个新病人若干项症

3、状指标的数据时,就可以根据其指标数据用判别公式诊断,判定他患的是哪种病。,2008.8,安徽财经大学统计与应用数学学院,2、引 例 2,5.1.1 引 例,有一些昆虫的性别很难看出,只有通过解剖才能够判别; 但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。,2008.8,安徽财经大学统计与应用数学学院,2、引 例 2,5.1.1 引 例,这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。,2008.8,安徽财经大学统计

4、与应用数学学院,5.1.1 引 例,在生产、科研和日常生活中经常遇到需要判别的问题: 在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来判断其性别是男性还是女性。在税务稽查中,要判断某纳税户是诚实户还是偷税户。 ,2008.8,安徽财经大学统计与应用数学学院,这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。 判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。,5.1.1 引 例,2

5、008.8,安徽财经大学统计与应用数学学院,1、判别分析基本思想,2、判别分析基本思路,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,3、数据格式,2008.8,安徽财经大学统计与应用数学学院,1、判别分析基本思想,5.1.2 判别分析的基本思想,判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。,2008.8,安徽财经大学统计与应用数学学

6、院,用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,GK (所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X), FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。,1、判别分析基本思想,5.1.2 判别分析的基本思想,判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。当然,我们应该要求判别准则在某种意义下是最优,例如错判的概率最小或错判的损失最小等。,2008.8,安徽财经大学统计与应用数学学院,设有G1、G2、GK个总体; 从不同的总体中抽出不同的

7、样本; 根据样本 建立判别法则 判别新的样品属于哪一个总体; 当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。,2、判别分析基本思路,5.1.2 判别分析的基本思想,2008.8,安徽财经大学统计与应用数学学院,3、判别分析的数据格式,5.1.2 判别分析的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、按判别的组数,2、按判别函数的形式,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,3、按处理变量的方法,4、按判别准则,

8、2008.8,安徽财经大学统计与应用数学学院,5.1.3 判别分析的类型,根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。,本章的大部分内容是讨论定量资料的判别分析。,2008.8,安徽财经大学统计与应用数学学院,1、按判别的组数分,5.1.3 判别分析的类型,按判别的组数分,有两组判别分析和多组判别分析。,本章的大部分内容是讨论两组判别分析。,2008.8,安徽财经大学统计与应用数学学院,2、按判别函数的形式分,5.1.3 判别分析的类型,按判别函数的形式(区分不同总体所用的数学模型)分,有线性判别和非线性判别。,本章的大部分内容是讨论线性判别函数及其应用。,2008.8,安徽财

9、经大学统计与应用数学学院,3、按判别时处理变量的方法不同,5.1.3 判别分析的类型,根据判别时处理变量的方法不同,有逐步判别和序贯判别。,本章的大部分内容是讨论序贯判别。,2008.8,安徽财经大学统计与应用数学学院,4、按判别准则不同,5.1.3 判别分析的类型,按判别准则(判别的依据或标准)的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。,距离判别原理简单,直观易懂。,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,2、与聚类分析的联系,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本

10、思想,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,判别分析必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。对类的事先划分常常通过聚类分析得到;,5.1.4 判别分析与聚类分析的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,对于聚类分析来说,一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使的同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性

11、的统计)。,5.1.4 判别分析与聚类分析的区别和联系,2008.8,安徽财经大学统计与应用数学学院,5.1.4 判别分析与聚类分析的区别和联系,2、与聚类分析的联系,聚类分析和判别分析有相似之处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。,2008.8,安徽财经大学统计与应用数学学院,聚类与判别,聚类(clustering)分成几类?每个样品属于哪一类?判别(discriminate)已知分成几类(有师分类)根据训练样品建立判别函数根据判别函数对待判样品进行归类,2008.8,安徽财经大学统计与应用数学学院,5

12、.2 距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体判别,5.2.3 多总体判别,2008.8,安徽财经大学统计与应用数学学院,1、距离判别基本思想,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2008.8,安徽财经大学统计与应用数学学院,1、距离判别基本思想,5.2.1 距离判别的基本思想,距离判别的基本思想按就近原则归类: 首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第 i 类。,2008.8,安徽财经大学统计与应用

13、数学学院,用统计语言表述:已知总体G1,G2,GK,从每个总体中分别抽取n1, n2, ,nk个样品,每个样品皆测量 P个指标,对新样品X=(X1,X2,XP),计算 X 到 G1,G2,GK的距离,记D(X, G1), D(X,G2) ,D(X, GK),按距离最近准则判别归类:,即根据资料建立关于各总体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各总体之间的距离值,判样品属于距离值最小的那个总体。,2008.8,安徽财经大学统计与应用数学学院,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。,距离判别也称为直观判别法,因其方

14、法直观、简单。该方法适用于连续型变量的判别分类;对变量的概率分布不要求有什么限制。,1、距离判别基本思想,5.2.1 距离判别的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2、应用实例,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,设有两个总体G1和G2,X是一个P维样本,定义样本X到总体G1和G2的距离d2(X,G1)和d2(X,G2),当总体G1和G2为正态总体且协差阵相等时,距离选用马氏距离,即,其

15、中:1,2,1,2分别为总体G1和G2的均值和协差阵。,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,用如下的规则进行判别:若样本X到总体G1的距离小于到总体G2的距离,则认为样本X属于总体G1,反之则认为样本X属于总体G2;若样本X到总体G1和G2的距离相等,则让它待判。这个准则的数学模型为:,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,(5.1),2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,与上述准则等价的想法,就是算出样品x 到总体G2和G1

16、的距离差,若差值为正,则样品X属于G1,否则,X 属于G2,据此考查二者的差,假设,则可证明:,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,已知时,令,W(X)=,W(x)=,令,当,(是一个已知的p维向量),2008.8,安徽财经大学统计与应用数学学院,于是判别规则(5.1)可表示为:,如W(X)0,如W(X)0,待判,如W(X)=0,称W(X)为判别函数。由于它是线性函数,又称为线性判别函数, 称为判别系数 ( 类似回归系数)。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也

17、最广泛。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,未知时,可用样本来估计。设,是从G1中取出的样本,,是从G2中取出的样本,,则,的估计为:,当,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,它是 x 的二次函数,相应的判别规则为:,2008.8,安徽财经大学统计与应用数学学院,需要指出的是,按最小距离规则判别是会产生误判的。为了说明问题,不妨设G1和G2为正态分布,分别为N(1,2)和N(2, 2)(12),那么由图 5-1可以看出:当Y事实上属

18、于G1,它的观察值(测量值)在=(1+2)/2的右边,这时如果按上面讨论的规则就应把Y判断为属于G2,因为Y距G2的均值比距G1的均值要近。这就造成了错判。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,图 5-1,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,由图可以看出,当两总体G1与G2十分接近时,则无论用什么方法,误判概率都很大,这时的判别是没有意义的。即如果两个总体(类别)间的差异本来就不显著,那么就根本没有必要去作判别,即有效的判别必须以显著的差异为前提。因此,在考虑建立判别函数之前,应

19、首先检验总体间是否存在显著的差异(在判别之前应对两总体的均值是否有显著差异进行检验)。,H0:,H1:,2008.8,安徽财经大学统计与应用数学学院,另外,以上讨论的判别函数及规则并没有涉及到总体的具体分布类型,只要逆矩阵存在就可以。当两总体的协方差矩阵不同时,就不能用前文的W(X)进行判别,这时可直接计算马氏距离进行判别。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,2、应用实例,5.2.2 两总体距离判别,例5.2:例4.4.3中我们曾研究过全国城镇居民月平均消费情况,当划分为两类时,结果列于spssex-5:表5-1。120号省区为一类,

20、记为G1,2127号省、市、区为另一类,记为G2。试判别西藏、上海、广东三个省、市、区应归属哪一类(表后三行是待判的三省区数据)?,2008.8,安徽财经大学统计与应用数学学院,类G1为低消费的总体,类G2为高消费的总体。经计算,各类样品的指标均值为:,2、应用实例,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,总体协差阵的逆矩阵为:,0.539 0.044 -0.106 0.003 0.088 0.064 0.179 -0.053 0.044 0.032 -0.040 -0.025 0.106 -0.052 -0.042 -0.123-0.106 -0.040 0

21、.385 -0.006 -0.143 0.061 0.067 0.059 0.003 -0.025 -0.006 0.620 -0.495 0.122 0.627 -0.0830.088 0.106 -0.143 -0.495 0.713 -0.331 -0.583 -0.0120.064 -0.052 -0.061 0.122 -0.331 0.503 0.433 -0.0760.179 -0.042 0.067 0.627 -0.583 0.433 4.780 -0.015-0.053 -0.123 0.059 -0.083 -0.012 -0.076 -0.015 0.652,2008.

22、8,安徽财经大学统计与应用数学学院,将原27个样品的回判结果及3个待判样品的判别结果列于表Spssex-5:5-2和表5-3,回判误判率为零,西藏、上海、广东,三个省区应归属于高消费的总体G2。,2008.8,安徽财经大学统计与应用数学学院,1、多总体距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2008.8,安徽财经大学统计与应用数学学院,类似于两总体情况,计算样品 X 到每个总体的距离d2(X,Gi)(i=1,2,-k,),然后比较这些距离,如 X 距离总体Gi的距离最短,则判X属于总体Gi。,1、多总体距离判别,

23、5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,设有个总体 G1,,Gk, 它们的均值分别是 , 协方差矩阵均是 ,则,(1)协方差矩阵相同,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,判别函数为:,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,相应的判别准则为:,当,若有某一个,对一切,待判,,当,未知时可用其估计量代替。,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,1、多总体距离判别,5.2.3 多总体距离判别,此时判

24、别函数为:,(2)协方差矩阵不相同,2008.8,安徽财经大学统计与应用数学学院,相应的判别准则为,当,未知时,可用,的估计量代替。,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,5.3 贝叶斯判别,返回,5.3.1 Bayes判别的概念,5.3.2 Bayes判别的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,返回,5.3.1 Bayes判别的概念,5.3.2 Bayes判别的统计思想,5.3 贝叶斯判别,2、Bayes判别的概念,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,5.3.1

25、 Bayes判别的概念,距离判别只要求知道总体的特征量(参数)均值和协差阵,不涉及总体的分布类型,当参数未知时,就用样本均值和样本协差阵来估计。距离判别方法简单、结论明确,是很实用的方法。,但距离判别方法也有缺点,一是判别法与各总体出现的机会大小(先验概率)完全无关;二是判别方法没有考虑错判造成的损失,这是不合理的。 Bayes判别法正是为解决这两方面问题而提出的判别方法。,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,5.3.1 Bayes判别的概念,设有两个总体G1和G2,根据某一判别规则,将实际上为G1的概率判为G2或者将实际上为G2的个体判为G1的概率就是误判概

26、率,一个好的判别规则应当使误判概率最小。,2008.8,安徽财经大学统计与应用数学学院,除此之外,还有一个误判损失问题或者说误判产生的花费问题,如把G1的个体误判到G2的损失比G2的个体误判到G1严重得多,则在作前一种判断时就要特别谨慎。譬如在药品检验中把有毒的个体判为无毒的其后果比无毒个体判为有毒的严重得多,因此一个好的判别规则还必须使得误判损失为最小。,实际应用中,由于错判损失不容易确定,因此,判别分析中各种误判的后果允许看作是相同的。,1、距离判别的不足之处,5.3.1 Bayes判别的概念,2008.8,安徽财经大学统计与应用数学学院,我们仍以两个总体的情况来讨论,设所考虑的两个总体G

27、1与G2分别具有密度函数f1(x)与f2(x),其中x为p维向量,R1为根据我们的规则要判为G1的那些x的全体,而R2=-R1是要判G2的那些x的全体。显然R1与R2互斥完备,某个个体实际是来自G1 ,但被判为G2的概率为 来自G1被判为G1的概率为,2008.8,安徽财经大学统计与应用数学学院,类似地,来自G2被判为G1以及来自G2被判为G2的概率分别为,1、距离判别的不足之处,5.3.1 Bayes判别的概念,2008.8,安徽财经大学统计与应用数学学院,又设P1和P2分别表示总体G1和G2的先验概率,且P1 + P2 =1,于是:,2008.8,安徽财经大学统计与应用数学学院,判别样品的

28、归属时,考虑的不是建立判别式,而是计算新给样品属于各总体的后验概率P(Gi|x) i=1,k。比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法通常用于多组判別。,2、 Bayes判别的概念,5.3.1 Bayes判别的概念,2008.8,安徽财经大学统计与应用数学学院,1、Bayes判别的统计思想,返回,5.3.1 Bayes判别的概念,5.3.2 Bayes判别的统计思想,5.3 距离判别,2、先验概率,3、后验概率,4、判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,1、Bayes判别的统计思想,5.3.2 Bayes判别的统计思

29、想,假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后我们抽取一个样本,用样本来修证已有的认识(先验概率分布),得到后验概率分布。比较这些概率的大小,将待判样品判归为来自概率最大的总体。,简单地说:贝叶斯判别是根据先验概率分布,求出后验概率分布,对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。,2008.8,安徽财经大学统计与应用数学学院,2、先验概率,5.3.2 Bayes判别的统计思想,用概率来描述人们事先对所研究对象的认识的程度,或称为验前概率(qi )。即已知 K个总体(G1,G2,GK )各自出现的概率为q1,q2,qk (qi0, q1+ q2+ +

30、 qk =1)。 比如:研究人群中得癌症(G1 )和没有得癌症( G2 )两类群体的问题,由长期经验知: q1 =0.001, q2 =0.999。这组验前概率q1,q2,qk称为先验概率。,2008.8,安徽财经大学统计与应用数学学院,2、先验概率,5.3.2 Bayes判别的统计思想,先验概率是一种权重(比例), 所谓“先验”是指先于我们抽取样品作判别分析之前。Bayes判别准则要求给出qi 的值。 qi 的赋值方法有以下几种:,2008.8,安徽财经大学统计与应用数学学院,(1)利用历史资料及经验进行估计。例如,某地区成年人中得癌症的概率为P(癌)=0.001 q1,而P(无癌)=0.9

31、99 q2。,2、先验概率,5.3.2 Bayes判别的统计思想,2008.8,安徽财经大学统计与应用数学学院,2、先验概率,5.3.2 Bayes判别的统计思想,(2)利用训练样本中各类占的比例 作为qi的值,其中ni是第i类总体的样品数; ,这时要求训练样本是通过随机抽样得到的,各类样品被抽到的机会大小就是验前概率。,2008.8,安徽财经大学统计与应用数学学院,(3)假定q1=q2= =qk=,2、先验概率,5.3.2 Bayes判别的统计思想,2008.8,安徽财经大学统计与应用数学学院,3、后验概率,5.3.2 Bayes判别的统计思想,根据具体资料、先验概率、特定的判别规则所计算出

32、来的概率,它是对先验概率修正后的结果,或称为条件概率。,2008.8,安徽财经大学统计与应用数学学院,又设样品x来自总体Gi的先验概率为qi,i=1,k, 满足q1+qk=1. X 到Gi的平方马氏距离是,设有k个总体 G1,Gk, 且,2008.8,安徽财经大学统计与应用数学学院,来自 Gi 的X的概率密度为:,利用贝叶斯理论,x 属于Gi的后验概率(即当样品x已知时,,它属于Gi的概率)为,2008.8,安徽财经大学统计与应用数学学院,4、判别函数和判别准则,5.3.2 Bayes判别的统计思想,判别函数可为后验概率P(g /x)或错判的平均损失E(h /x)。,2008.8,安徽财经大学

33、统计与应用数学学院,4、判别函数和判别准则,5.3.2 Bayes判别的统计思想,判别准则为后验概率最大或错判的平均损失最小,可以证明两者是等价的。Bayes 判别可直接用于待判样品的分类。,2008.8,安徽财经大学统计与应用数学学院,建立的判别规则为:计算样品X 到每一个组中心的广义平方距离,并把 X 判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关。,2008.8,安徽财经大学统计与应用数学学院,X到Gi的广义平方距离定义为,gi=,ln,若,0,hi=,-2lnqi,若q1,qk不全相等,0,若,若,2008.8,安徽财经大学统计与应用

34、数学学院,由此可推出属于Gi的后验概率为:,可采用如下的判别规则:,2008.8,安徽财经大学统计与应用数学学院,则广义平方距离将退化为平方马氏距离,即,实际应用中,以上各式中的,一般都是未知的,需要通过样本进行估计。,2008.8,安徽财经大学统计与应用数学学院,5.4 费雪尔判别,返回,5.4.1 Fisher判别的基本思想,5.4.2 Fisher判别函数和准则,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别基本思想,返回,5.4.1 Fisher判别的基本思想,5.4.2 Fisher判别函数和准则,5.4 费雪尔判别,2008.8,安徽财经大学统计与应用数学学院,

35、1、Fisher判别的基本思想,5.4.1 Fisher判别的基本思想,Fisher 判别法是一种线性判别的方法,通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别准则,将待判的样品进行分类判别通常用于两组判別问题。,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别函数和准则,返回,5.4.1 Fisher判别的基本思想,5.4.2 Fisher判别函数和准则,5.4 费雪尔判别,2、应用实例,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别函数和判别准则,5.4.2 Fisher判别函数和判别准则,假定判别函数为:

36、Yi=C1X1+C2X2+CPXP (i=1,2k)其中:K:判别类别数目;Y:判别分数或判别值; X1 ; ; XP:判别变量或自变量; C1 ; ; CP:判别系数,表示各判别变量对判别值的影 响;,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,1、Fisher判别函数和判别准则,5.4.2 Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,2、应用实例,

37、5.4.2 Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,2、应用实例,5.4.2 Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,2、应用实例,5.4.2 Fisher判别函数和判别准则,2008.8,安徽财经大学统计与应用数学学院,多元分析中有一个非常重要的思想方法,就是采用降维技术,把RP中的点通过适当方式投影到低维空间,即用低维向量近似地替代P维向量,然后在低维空间上在进行组的判别。,2008.8,安徽财经大学统计与应用数学学院,考虑只有两个(预测)变量的判别分析问题。 假定这里

38、只有两类。数据中的每个观测值是二维空间的一个点。见图。 这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。,2008.8,安徽

39、财经大学统计与应用数学学院,两类Fisher判别示意图,X2,X1,Y=b1X1+b2X2,G1,G2,2008.8,安徽财经大学统计与应用数学学院,投影(变换):,将多元观测值X变换成一元观测值Y,使得由总体G1和G2导出的尽可能地分开。费歇尔建议用X的线性组合来建立Y,因为它是X的非常简单的函数,易于掌握;费歇尔的方法并未假定总体具有正态性,但是隐含有总体协方差矩阵相等的假定,,因为使用了公共协方差矩阵的联合估计量。,2008.8,安徽财经大学统计与应用数学学院,这个线性函数把P维空间中的已知类别总体以及已知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。

40、这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。,2008.8,安徽财经大学统计与应用数学学院,设有两个总体 G1、G2,其均值分别为,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,5.5.1 引 例,5.5.2 判别分析的基本思想,5.5 建立判别函数的方法,返回,2008.8,安徽财经大学统计与应用数学学院,1、全模型法,

41、返回,5.5.1 建立判别函数的方法,5.5.2 判别分析的基本模型,5.5 建立判别函数的方法,2、逐步判别法,2008.8,安徽财经大学统计与应用数学学院,选择变量是判别分析中的一个重要问题,变量选择是否恰当,是判别效果优劣的关键。一般来说,各变量在判别式中的判别能力不同,有些很重要,有些不重要,如果在判别式中将其最主要的变量忽略了,相应的判别效果一定不好;如果一些判别能力差的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果。同时,由于指标之间有相关性,一个指标可能由其他几个指标来代替。因此,筛选具有显著判别能力的变量来建立判别式就有特别重要的意义。,5.5.1 建立判别函

42、数的方法,2008.8,安徽财经大学统计与应用数学学院,建立判别函数常用的方法有全模型法和逐步判别法。,5.5.1 建立判别函数的方法,2008.8,安徽财经大学统计与应用数学学院,1、全模型法,将用户指定的全部变量作为判别函数的自变量,而不管该变量是否对研究对象显著或对判别函数的贡献大小(是SPSS预设的方法),适合于对研究对象的各变量有全面认识的时候使用。否则未加选择的使用全部变量,可能会产生较大的偏差。,5.5.1 建立判别函数的方法,2008.8,安徽财经大学统计与应用数学学院,2、逐步判别法,从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型

43、中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。,在选择变量进入模型时,每步只有一个变量可被选入。选择过程不考虑未被选入的变量之间的关系,因此,一些重要变量可能被排除。逐步判别选出的L个变量,不一定是所有L个变量组合中最优的组合。但在L不大时,往往是最优组合。,5.5.1 建立判别函数的方法,2008.8,安徽财经大学统计与应用数学学院,4、逐步判别法,整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著变量。反映在输出结果上,通

44、常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。,逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。,5.5.1 建立判别函数的方法,2008.8,安徽财经大学统计与应用数学学院,1、基本模型,2、模型估计过程,返回,5.5.1 建立判别函数的方法,5.5.2 判别分析的基本模型,5.5 建立判别函数的方法,3、判别分析的假设条件,2008.8,安徽财经大学统计与应用数学学院,5.5.2 判别分析的基本模型,1、基本模型,判别分析的基本模型是判别函数:,其中:y时判别值;

45、xi为各判别变量;Ci为相应的判别系数,它表示个判别变量对于判别函数值的影响 在判别分析时,判别变量较多时,判别函数也往往有多个。,2008.8,安徽财经大学统计与应用数学学院,对于分为 m类的研究对象,建立m个线性判别函数。对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。,5.5.2 判别分析的基本模型,1、基本模型,2008.8,安徽财经大学统计与应用数学学院,5.5.2 判别分析的基本模型,2、模型估计过程的简略描述,首先将判别变量表示的k维空间进行选管,寻找某个角度是个分组平均值的产别尽可能大,然后将其作为判别的第一维度(即投影)。 在这一

46、维度上可以代表或解释原始变量组间方差中最大的部分。上述判别函数就表达了原始数量值转换至这一维度的系数方程式。,2008.8,安徽财经大学统计与应用数学学院,对应第一维度的判别函数称为第一判别函数。,然后按照同一原则寻找第二维度,并建立第二判别函数。 如此下去,直至推导出所有的判别函数。 建立后续判别函数的条件是:判别函数之间完全独立。 实际上这样推导出的函数有:,5.5.2 判别分析的基本模型,2、模型估计过程的简略描述,2008.8,安徽财经大学统计与应用数学学院,判别分析的假设条件,分组类型在两种及以上,即: 各判别变量必须是定量变量,并且要求观察值数量(casek+2)。 每一个判别变量

47、不能是其他判别变量的线性组合。 各组案例的协方差阵相等。 各判别变量之间具有多元正态分布。,2008.8,安徽财经大学统计与应用数学学院,典则判别分析,典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。对于分为K组的研究对象,建立K-1个典则判别函数而不管自变量有几个。它是一种降维的技术,因为判别函数个数少于分类组数,因此它不能用于对待判样品的分类,可以用于计算判别分及画散点图和区域图。,2008.8,安徽财经大学统计与应用数学学院,5.6 SPSS判别分析过程,返回,在SPSS主菜单中选

48、择AnalyzeClassifyDiscriminant,可实现判别分析。,2008.8,安徽财经大学统计与应用数学学院,Discriminant,2008.8,安徽财经大学统计与应用数学学院,Grouping Variable:已知的观测量所属类别的变量(分类变量),在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量,按上面一个箭头按钮,使该变量名移到箭头按钮右面,“Grouping Variable”下面的矩形框此时矩形框下面的“Define range”按钮加亮,按该按钮,屏幕显示,一个小对话框,供指定该分类变量的数值范围。,2008.8,安徽财经大学统计与应用

49、数学学院,Discriminant对话框,2008.8,安徽财经大学统计与应用数学学院,选择分类变量及其范围,定义分类变量范围的小对话框如下图 所示。 在Minimum:后面的矩形框中输入该分类变量的最小值;在Muximurn:后面的矩形框中输入该分类变量的最大值。,2008.8,安徽财经大学统计与应用数学学院,分类变量范围对话框,2,2008.8,安徽财经大学统计与应用数学学院,指定判别分析的自变量 在主对话框的左面的变量表中选择表明观测量特征的变量,按下面一个箭头按钮,把选中的变量移到“Independents:”下面的矩形框中,作为参与判别分析的变量。,2008.8,安徽财经大学统计与应

50、用数学学院,Indepents对话框,数据变量输入框,2008.8,安徽财经大学统计与应用数学学院,数据判别分析 完成前面四步骤的操作即可使用各种系统默认值对工作数据集的数据进行判别分析了。,2008.8,安徽财经大学统计与应用数学学院,选择观测量 如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。一般均使用数据文件中的所有合法观测量。此步骤可以省略。,20

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号