《模式识别 第8讲 近邻法ppt课件.ppt》由会员分享,可在线阅读,更多相关《模式识别 第8讲 近邻法ppt课件.ppt(58页珍藏版)》请在三一办公上搜索。
1、模式识别,授课教师 薛耀红,第8讲 近邻法,本节课主要内容,1 最近邻法2 k近邻法3 改进的近邻法3.1 快速搜索近邻法3.2 剪辑近邻法3.3 压缩近邻法4 最佳距离度量近邻法,回顾,最简单的分段线性分类器:把各类划分为若干子类,以子类中心作为类别代表点,考查新样本到各代表点的距离并将它分到最近的代表点所代表的类。极端情况,将所有样本都作为代表点 近邻法,1 最近邻法,问题描述:,特征向量 类别X=(0.1,0.1) ?,1 最近邻法,最小距离分类器:将各类训练样本划分成若干子类,并在每个子类中确定代表点,一般用子类的质心或邻近质心的某一样本为代表点。测试样本的类别则以其与这些代表点距离最
2、近作决策。该法的缺点是所选择的代表点并不一定能很好地代表各类,其后果将使错误率增加。最近邻法的基本思想:以全部训练样本作为“代表点”,计算测试样本与这些“代表点”,即所有样本的距离,并以最近邻者的类别作为决策。近邻法是由Cover和Hart于1968年提出的,随后得到理论上深入的分析与研究,是非参数法中最重要的方法之一。,1 最近邻法,将与测试样本最近邻样本的类别作为决策的方法称为最近邻法。,1 最近邻法,1 最近邻法,在二维情况下,最近邻规则算法使得二维空间被分割成了许多Voronoi网格,每一个网格代表的类别就是它所包含的训练样本点所属的类别。,最近邻法的错误率,最近邻法的错误率是比较难计
3、算的,这是因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。,红点表示A类训练样本,蓝点表示B类训练样本,而绿点O表示待测样本。假设以欧氏距离来衡量,O的最近邻是A3,其次是B1,因此O应该属于A类;但若A3被拿开,O就会被判为B类。,最近邻法的错误率,这说明计算最近邻法的错误率会有偶然性,也就是指与具体的训练样本集有关。同时还可看到,计算错误率的偶然性会因训练样本数量的增大而减小。因此我们就利用训练样本数量增至极大,来对其性能进行评价。这要使用渐近概念,以下都是在渐近概念下来分析错误率的。,最近邻法的错误率,当最近邻法所使用的训练样本数量N不是很大时,其错
4、误率是带有偶然性的。,下图所示为一个在一维特征空间的两类别情况:,X表示一待测试样本,而X是所用训练样本集中X的最邻近者,则错误是由X与X分属不同的类别所引起的。,最近邻法的错误率,由于X与所用训练样本集有关,因此错误率有较大偶然性。但是如果所用训练样本集的样本数量N极大,即N时,可以想像X将趋向于X,或者说处于以X为中心的极小邻域内,此时分析错误率问题就简化为在X样本条件下X与一个X(X的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(1|X)与P(2|X),那么对X值,在N条件下,发生错误决策的概率为:,最近邻法的错误率,而在这条件下的平均错误率 P称为渐近平均错误率,是
5、PN(e)在N的极限。为了与基于最小错误率的贝叶斯决策方法对比,下面写出贝叶斯错误率的计算式: 其中,最近邻法的错误率,若是两类问题,则 贝叶斯错误率: 最近邻法错误率:可见在一般情况下P是大于零的值,只要P(1|X)P(2|X)0。,最近邻法的错误率,有以下两种例外情况P0:P(1|X)1P(1|X)P(2|X)1/2。,最近邻法的错误率,请想一下,什么情况下P(1|X)1或P(2|X)=1? P(1|X)= P(2|X)会出现什么什么情况?,一般来说,在某一类样本分布密集区,某一类的后验概率接近或等于1。此时,基于最小错误率贝叶斯决策基本没错,而近邻法出错可能也很小。而后验概率近似相等一般
6、出现在两类分布的交界处,此时分类没有依据,因此基于最小错误率的贝叶斯决策也无能为力了,近邻法也就与贝叶斯决策平起平坐了。,从以上讨论可以看出,当N时,最近邻法的渐近平均错误率的下界是贝叶斯错误率,这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。,最近邻法的错误率,最近邻法的错误率,最近邻法的错误率高于贝叶斯错误率,可以证明以下关系式成立:,由于一般情况下P*很小,因此又可粗略表示成:,可粗略说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。,小结,模式识别(机器自动分类)的基本方法有两大类:一类是将特征空间划分成决策域,这就要确定判别函数或确定分界面方程。另一种方法则称为
7、模板匹配,即将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类。,前面讨论的方法可以说都是将特征空间划分为决策域,并用判别函数或决策面方程表示决策域的方法。,近邻法则在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板,用测试样本与每个模板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。,作业:,1、什么是模式与模式识别?2、一个典型的模式识别系统主要由哪几个部分 组成?3、什么是后验概率?4、描述贝叶斯公式及其主要作用。5、请详细写出感知器训练算法步骤。6、请详细写出Fisher算法实现步骤。,2 k近邻法,k-近邻法: 最
8、近邻法的扩展,其基本规则是,在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成ki, i1,c。判别函数为: gi(x)=ki, i=1, 2,c。,决策规则为:,k-近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。,2 k近邻法,从样本点x开始生长,不断扩大区域,直到包含进k个训练样本点为止,并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别。,K近邻法的错误率,对于最近邻法PN(e|x,x)P(1|x) P(2|x) + P(2|x) P(1|x)当N-时, P(i|x) 近似等于P(i|x) PN- (e|x,x)P(1|x)
9、P(2|x) + P(2|x) P(1|x)对于K近邻法,K近邻法的错误率,对所有的x,有: PN- k(e|x) CkP*(e|x)(CkP*(e|x)为贝叶斯条件错误率的函数)根据Jensen不等式, P=EPNk(e|x) ECkP*(e|x) CkE P*(e|x) = Ck( P*)不等式关系P* P Ck( P*) Ck-1( P*) C1( P*) 2 P* (1- P* ),k近邻法的错误率,最近邻法和k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。 在k 的条件下,k-近邻法的错误率要低于最近邻法。在k 的条件下,k-近邻法的错误率等于贝叶斯误差率。,3
10、 改进的近邻法,尽管近邻法有其优良品质,但是它的一个严重弱点与问题是需要存储全部训练样本,以及繁重的距离计算量。,但以简单的方式降低样本数量,只能使其性能降低,这也是不希望的。为此要研究既能减少近邻法计算量与存储量,同时又不明显降低其性能的一些改进算法。,改进的方法大致分为两种原理。一种是对样本集进行组织与整理,分群分层,尽可能将计算压缩到在接近测试样本邻域的小范围内,避免盲目地与训练样本集中每个样本进行距离计算。,另一种原理则是在原有样本集中挑选出对分类计算有效的样本,使样本总数合理地减少,以同时达到既减少计算量,又减少存储量的双重效果。,3.1 改进的近邻法-快速搜索近邻法,这种方法着眼于
11、只解决减少计算量,但没有达到减少存储量的要求。,基本思想: 将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离。这些组又可形成层次结构,即组又分子组。 因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系。,快速搜索近邻法,(1)样本集的分级分解 首先将整个样本分成l个子集,每个子集又分为它的l个子集,如此进行若干次就能建立起一个样本集的树形结构。分成子集的原则是该子集内的样本尽可能聚成堆,这可用聚类方法实现。 结点参数: 树形结构,每个结点表示一样本子集,描述该子集的参数是:,快速搜索近邻法,用树结构表示样本分
12、级:p: 树中的一个结点,对应一个样本子集KpNp : Kp中的样本数Mp : Kp中的样本均值rp : 从Kp中任一样本到Mp的最大距离,快速搜索近邻法,(2)快速搜索算法 要实现快速搜索近邻,需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集,从而可将无关的样本子集尽快排除;另一方面在某样本子集内寻找哪个样本是近邻时,需快速排除不可能为近邻的样本。 这两个快速判别算法可用以下两个规则表示。,快速搜索近邻法,规则1: 如果存在 则 不可能是X的近邻。其中B是待识别样本在搜索近邻过程中的当前近邻距离,B在搜索过程中不断改变与缩小。算法开始可将B设为无穷大。 表示待识样本X到结点 的
13、均值点距离。,快速搜索近邻法,规则2:如果 其中Xi ,则Xi不可能是X的近邻。 由此可见,只要将每个样本子集 中的每个样本Xi到其均值Mp的距离D(Xi,Mp)存入存储器中,就可利用上式将许多不可能成为测试样本近邻的训练样本排除。,快速搜索近邻法,(3)搜索算法 搜索算法的大体过程是这样的: 当搜索树形样本集结构由高层次向低层次深入时,对同一层次的所有结点,可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点(样本子集)。但是这往往不能做到只留下唯一的待搜索结点,因此必须选择其中某一结点先深入搜索,以类似于深度优先的方法确定搜索路径直至叶结点。然而在该叶结点中找到的近邻并不能保证确实是全
14、样本集中的最近邻者,所找到的该近邻样本需要在那些有可能包含最近邻的样本子集中核对与修正,直至找到真正的最近邻样本为止。,树搜索算法,置B=,L=0,p=0将当前结点的所有直接后继结点放入一个目录表中,并对这些结点计算D(x,Mp)根据规则1从目录表中去掉step2中的某些结点如果目录表已无结点则置L=L-1,如果L=0则停止,否则转Step3。如果目录表有一个以上的结点,则转step5在目录表中选出最近结点p为当前执行结点。如果当前的水平L是最终水平,则转Step6,否则置L=L+1,转Step2对当前执行结点p中的每个xi,根据规则2决定是否计算D(x, xi)。若D(x, xi)B,则置N
15、N=i和B= D(x, xi),处理完当前执行结点中的每个xi后转Step3当算法结束时,输出x的最近邻xNN和x与xNN的距离B,3.2 改进的近邻法-剪辑近邻法,目的:去掉靠近两类中心的样本?基本思想:当不同类别的样本在分布上有交迭部分的,分类的错误率主要来自处于交迭区中的样本。当我们得到一个作为识别用的参考样本集时,由于不同类别交迭区域中不同类别的样本彼此穿插,导致用近邻法分类出错。因此如果能将不同类别交界处的样本以适当方式筛选,可以实现既减少样本数又提高正确识别率的双重目的。为此可以利用现有样本集对其自身进行剪辑。,3.2 改进的近邻法-剪辑近邻法,剪辑的过程是:将样本集KN分成两个互
16、相独立的子集:考试(test)集KT和参考(reference)集KR。首先对KT中每一个Xi在参考集KR中找到其最近邻的样本Yi(Xi) 。如果Yi与Xi不属于同一类别,则将Xi从考试集KT中删除,最后得到一个剪辑的样本集KTE(剪辑样本集),以取代原样本集,对待识别样本进行分类。剪辑的结果是去掉两类边界附近的样本。,MULTIEDIT算法,正太分布样本集合,正太分布样本集合,正太分布样本集合,正太分布样本集合,非正太分布样本集合,非正太分布样本集合,非正太分布样本集合,3.3 改进的近邻法-压缩近邻法,压缩近邻法:利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样本的条件下,
17、仍能对原有样本的全部用最近邻法正确分类,那么该样本集也就能对待识别样本进行分类,并保持正常识别率。,3.3 改进的近邻法-压缩近邻法,定义两个存储器,一个用来存放即将生成的样本集,称为Store;另一存储器则存放原样本集,称为Grabbag。其算法是:初始化。Store是空集,原样本集存入Grabbag;从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本。样本集生成。在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类。若分类错误,则将该样本从Grabbag转入Store中,若分类正确,则将该样本放回Grabbag中。结束过程。若Grabbag中所有样
18、本在执行第二步时没有发生转入Store的现象,或Grabbag已成空集,则算法终止,否则转入第二步。,4. 最佳距离度量近邻法,在x的局部临近区域中,定义新的距离函数,其中xl为x的局部邻域中的样本,可以证明, x的最近邻x必有满足:,按照上面定义的新距离,在x的局部邻域中选择x的最近邻x,则可使有限样本与无限样本的错误率之差在均方意义下达到最小。,需要说明:上述距离度量使通过对P(wi|x)在x的局部邻域区域中做线性近似得到的,因此,它只适合于KN中与x 较为接近的那些样本。,距离度量 的计算(两类情况),令A表示以x为中心的一个局部邻近区域,A中有NA个样本xl,其中 个属于wi类,局部样
19、本均值的估计为则有,4. 最佳距离度量近邻法,根据 寻找 x 最近邻的程序步骤(两类情况),(1) 计算|x-x1|, |x-xN| (2) 找出与x 距离是最短的NA个近邻xl,l=1,2,lNA,(3) 利用xl计算M1-M0 (4) 计算|(M1-M0)T (x-xl1)|, |(M1-M0)T (x-xlNA) 选出其中最小者,若为xlk ,则xlk为x的按照距离 度量的最近邻,即xlk x,5. 模式分类方法总结,一、参数判别分类方法与非参数判别分类方法的区别 从参数判别方法看,它的前提是对特征空间中的各类样本的分布清楚,因此一旦要测试分类样本的特征向量值X已知,就可以确定X对各类的
20、后验概率,也就可按相应的准则计算与分类。如果这种分布可以用正态分布等描述,那么决策域的判别函数与分界面方程就可用函数的形式确定下来。所以判别函数等的确定取决于样本统计分布的有关知识。因此参数分类判别方法一般只能用在有统计知识的场合,或能利用训练样本估计出参数的场合。,模式分类方法总结,一、参数判别分类方法与非参数判别分类方法的区别非参数分类判别方法则着眼于直接利用训练样本集,省去参数估计这一环节,这样一来,从保证最小错误率的原则出发计算确定判别函数的方法就不适用了。因此非参数分类判别方法只能根据一些其它准则来设计分类器。分类器的效果好坏,常指分类的错误率,一般在理论上很难说明,主要靠实践来检验
21、。所选择的判别函数型式,所使用的训练样本集,以及所用的算法对结果都会有影响。,模式分类方法总结,二、非参数分类判别方法的基本做法 使用非参数分类判别方法进行分类器设计主要包含两个步骤: (1)一个是确定的使用的判别函数类型或决策面方程类型,如线性分类器,分段线性分类器,非线性分类器等或近邻法等。如果使用人工神经元网络,则怎样的网络结构也隐含了所使用的函数形式。 (2)另一个步骤是在选定的函数类型、网络结构等条件下,确定相应的参数,从而完成整个分类器设计。,模式分类方法总结,三、决策面方程的显式表示和隐式表示 对一个分类的决策域划分一般可采用两种形式,一种是用函数直接表示分界面方程,如线性方程式
22、表示的边界等。另一种则用隐含形式,例如我们用最小距离分类器就代表了这种类型,其实这两种形式是等价的。如二维空间的最小距离分类器用最小距离表示等价于连接m1与m2线的垂直平分线 。 本章学习的Fisher准则、支持向量机与局部训练法等用的是显式表示,而错误修正法和近邻法则可以说是隐式表示。,模式分类方法总结,四、基于相似度的分类判别方法 判别函数的隐式表示与使用基于相似度判别的原则有关。如近邻法是用距离远近表示相似程度,错误修正法用样本向量与增广权向量的点积运算,也可在一定程度上看作相似度。在多类问题上,往往用计算相似度较方便。,模式分类方法总结,五、Fisher准则 Fisher准则是传统模式识别方法中的典型方法,它强调将线性方程中的法向量与样本的乘积看作样本向量在单位法向量上的投影,如能做到不同类的样本在法向量上的投影呈现类内聚集,类向分开的效果,则对减少错分类有利。所得最佳法向量计算式为 。,模式分类方法总结,六、感知准则函数方法 这种方法提倡用错分类提供的信息修正错误,这种思想对机器学习的发展以及人工神经元网络的发生发展产生深远影响。 七、近邻法 近邻法训练样本数量较多时,从渐近错误率角度看,其错误率比较小,是经常使用的模式识别分类方法,比较适合在多类别情况下使用。,