模式识别二次线性分类错误率.ppt

资源描述

《模式识别二次线性分类错误率.ppt》由会员分享，可在线阅读，更多相关《模式识别二次线性分类错误率.ppt（91页珍藏版）》请在三一办公上搜索。

1、1,2.3 二次和线性分类器,前面讲的统计决策理论提供了分类器设计的基础。,这一小节讨论二次和线性分类器。所以叫作二次或线性分类器是因为分类（决策）面方程的数学形式是二次或线性的。,这样的分类器又叫参数分类器，因为它们由一些参数所规定（如分布的均值和方差）。非参数分类器以后要讲。,2,这一节的目的（概念）有两个：,在一定的分布和条件下（如正态、等协方差矩阵），贝叶斯决策可以导致二次或线性分类器。虽然贝叶斯决策（似然比检验）在错误率或风险上是最优的，但必须知道类条件密度。在大多数应用场合，类条件密度函数是从有限的样本中估计的。后面我们将讲一些密度函数估计的方法。但密度函数的估计本身是一件复杂工作

2、（其难度不低于分类）并且需要大量样本。,3,即使我们得到了密度函数，有时用似然比检验的方法也很难计算，需要大量的时间和空间。因此我们有时考虑更简便易行的分类器设计方法。用二次、线性、分段线性分类器。即先规定分类器的数学形式，然后在适当的准则下，来确定这些参数。这一节先分析在什么条件下贝叶斯分类器变成二次和线性分类器，然后讨论当这些条件不满足时，如何设计“性能好”的参数分类器。,4,一.两类问题的二次和线性分类器,对于似然比检验的决策规则：,5,当各类的类条件密度是高斯分布时，,mi和Ki为均值向量和协方差矩阵。,6,这时似然比为,定义，-2倍自然对数,则:,7,上式是二次分类器。计算x到各类均

3、值mi的Mahalanobis距离，然后和阈值相比较，决定x属于第一或第二类。,8,在一维时，马氏距离，即比较用方差标准化的一般距离。,展开h(x)式，有,（）,式中,9,决策边界h(x)=T是二次曲面（超曲面）：超椭球面、超双曲面、超抛物面、超平面等，或它们组合的形式。（为了确定二次曲面的形状，首先要消掉x的各分量相乘的项，可采用旋转坐标系的方法，把坐标轴旋转到A（）的特征向量的方向。曲面的几何形状由A的特征值决定。如果A的特征值全部是正的，则是超椭球面；如果特征值有些正，有些负，则是超双曲面；如果有些特征值是0，则是超抛物面。）,10,当x落到决策边界的某一侧时，就把它分到相应的类。也可

4、以把上述二次分类器用到非高斯分布的密度函数，但这时不能保证错误率最小。（但所确定的边界是和二阶统计矩（均值、方差）最相匹配的。）任何具有（）式的分类器都叫作二次分类器。只有A、b、c是由高斯密度函数确定时，才叫高斯分类器。,11,例1：两维时的二次分类器的决策边界,假定两类模式都是高斯分布的，参数为：,求的分类边界，并画出其曲线。,12,解：,13,假定T=0，h(x)=T=0化为：,，是一双曲线。,14,15,16,当先验概率相等时，最小错误率决策规则选择密度函数大的。由于第二类在x2方向上的方差大于类1的，这样密度函数p(x|2)在x2方向上将有较广的延伸。使得在左边R2区域内有p(x|

5、2)p(x|1)，尽管这些点比较靠近类1的均值点。在前面的h(x)=xTAx+bTx+c中，如果两类的协方差矩阵相等，K1=K2=K，则矩阵A=0，这时决策规则为：,17,这时的决策边界就退化为线性决策边界（超平面），相应的分类器为线性分类器。,式中,18,二.判别函数和多类分类器,判别函数,当模式有类，这时的最小错误率的决策规则可以表示为：,若,（）,式中,称为判别函数（discriminant function）。它表示决策规则。,19,由贝叶斯公式，和等价。即把用在（）式中时，决策结果和是一样的。当先验概率相等时，p(x|k)也是一组等价的判别函数。一般地，若是任意一组判别函数

6、，则下面定义的也是一组等价的判别函数：,a0,b是常数。（也可以是x的函数，但不能是k的函数。）,20,同样，若f是单调增函数，则它和也是等价的判别函数。这些性质可以使我们从一组判别函数推导出另外的判别函数，以便计算上更加简单，或者意义更清楚，便于理解。,21,当每类都是正态分布，其均值和协方差矩阵分别为mk和Kk时，这时的最小错误率决策规则的判别函数为：,多类的二次和线性分类器,由于自然对数是单调增的，所以可以定义下面等价的判别函数：,22,（）,这是二次判别函数。当所有类的先验概率相等时，可以省略。,前面已经证明，当两类的协方差矩阵相等时，二次分类器退化为线性分类器。多类时也是如此。

7、,23,当时，（）式化为：,上式中，由于第一项和第四项对所有的类都是相同的，所以等价的一组判别函数为：,（）,上式是x的线性函数。下面考虑一些特定情况，说明二次和线性分类器的应用。以下假定各类的先验概率都相等。,24,例2：最小距离分类器。假定各类的先验概率相等，而且各类，即x的各个分量不相关，且各类等方差。,解：这时的判别函数化为（P22（）式）：,后两项对所有类是共同的，可以省略。分母中的也可以去掉，因而有等价的判别函数：,这时的决策规则的含义是：x离哪类的均值最近，就把它分到哪类。,25,例3：内积分类器（相关分类器）,有,假定。利用线性判别函数,若进一步假定每类的均值的模相等，即|

8、mk|相等，它们分布在半径为|mk|的一个超球面上，且由于假定先验概率也相等，因此，等价的判别函数为：,26,即将测量向量x和每类的均值mk作内积（或称相关），然后选择值最大的，作为它的类。,上述例子是通信理论中信号检测的一个经典例子。,假定有Nc种已知信号要检测。令x(t)表示接收到的信号，mk(t)是已知的信号，k=1，2，Nc。当mk(t)发送时，加入了白噪声w(t)，,27,白噪声w(t)是零均值、等方差、不相关的信号（随机过程）。即在任意时刻ti，w(ti)的均值为0，方差为，且当时，。,即：,如果随机向量x和mk是由相应的时间函数取样而成，即,28,29,这是一个相关分类器（内积

9、分类器）的模式识别问题。假定|mk|2相等，即所有的信号具有相等的能量。,30,把接收到的信号和已知信号作相关mkTx，然后选择相关最大的。作相关时通常通过一个“匹配滤波器”来实现。,31,在连续时，判别函数：,另外，mk和x间的相关也可以通过一个线性滤波器的输出来实现。,构造一个函数gk(t)，使满足 gk(Tt)=mk(t)，则（线性系统的杜哈美尔积分）,32,即滤波器的输出是相关值，而滤波器的脉冲响应是gk(t)，匹配滤波器可由专门的仪器来作。,*可以把上面的线性分类器的讨论再进一步。在线性分类器,中，如果把向量在K的特征向量的坐标系下表示（作变换），并作比例变换使所有分量的方差变为1，

10、这时，线性分类器将作mkTx相关运算。在通信问题中，如果噪声信号是相关的，而且方差是变化的，那么最优的信号检测是使噪声变为不相关的，然后作相关或匹配滤波器运算。,33,三.Fisher线性分类器另一种决策准则（另外一种解决思路）,在前面一节中，我们讨论了两种形式的分类器，在n维空间内分析了它的判别边界。其中分类的参数如A、b、c和T都是确定的，如果模式满足高斯分布，那么分类器可以使错误率、最小风险或者NeymanPearson准则最小。,34,但在某些情况下，不知道类条件密度函数，因此不可能找出最优分类器。在另外一些情况下，虽然可以对类条件密度进行估计，但推导最优分类器的计算量太大。,因此，实

11、际工作中，一般是先假定一种分类器的数学形式，如线性或二次分类器，然后确定它的参数，使它对某种适当的准则函数最优，如类间的分离性等。在一般情况下，这种准则函数不一定是错误率，而是更加简单和易于分析的。,35,人们在线性分类器上作了许多工作。这不仅因为它形式简单，而且用分段线性的组合可以任意逼近复杂的决策边界。我们先介绍其中的一种：Fisher线性分类器（两类问题）。,线性分类器的形式：,寻找分类器的参数，能够使以下的Fisher准则函数最大：,（3.21）,36,（3.22a）,式中,（3.22b）,希望使两类的均值离得越开越好，而方差尽可能的小。,回想一下，若有,即,37,（3.23a）,这时

12、h(x)（分类器的输出）的均值和方差为,（3.23b）,方程（3.21）和参数c无关（相减），因此c可以包括到阈值T里去。因此只要找出b就可以了。对准则函数求导并令其等于0，有,变换后的均值和方差,38,（3.24）,（3.25）,39,利用（3.23）式可以求出、，然后代入上式，但为了简单，有时就把b定为,（3.26）,而把项放到阈值里去。,40,这样分类器的形式就成为：,当K1=K2=K时，（3.26）式的b和（3.9 a）的成比例。这样，当模式满足高斯分布，且协方差矩阵相等时，使Fisher准则最优等价于最小错误率最优。,41,小结,这一章首先讨论了一些简单的决策理论,最小错误率、风险

13、、NeymanPearson 似然比检验，只是阈值不同。,最小最大决策，当先验概率变化时，使最大的错误率最小。序贯决策：测量的维数可变时，分析了阈值和错误率间的关系。在独立同分布的假定下分析了维数的期望值。,42,这一章还介绍了线性和二次分类器,对于多类模式识别问题的判别函数。讨论了最近距离分类和相关分类。讨论了两类问题的一种线性分类器Fisher分类器。在高斯分布、等协方差矩阵的情况下，Fisher分类器等价于最小错误率分类器。,43,*这类线性分类器的更一般解法,线性分类器是最容易实现的。然而，只在正态分布和等协方差的情况下，线性判别函数才是贝叶斯意义上最优的。在通信系统的信号检测中，等协

14、方差矩阵是合理的。但在不少应用场合，并不满足协方差矩阵相等。在设计正态分布、不等协方差的线性分类器，在设计非正态分布的线性分类器上有不少研究成果。当然，它们不是最优的。但简单易行，可以补偿性能上的损失。下面我们更一般地讨论这一问题。,44,令,任务是要确定和。,表示x在V方向上的投影。投影后的均值和方差是衡量类可分性的一个准则。,45,投影比要好。投影后的均值和方差是衡量类可分性的一个准则。,46,令是任一准则函数（要最大或最小的），要确定使f最大（小）的v和v0。,47,由于,代入，有：,48,由以上两式可以计算出v，但由于错误率只依赖v的方向，而不是它的大小。因而可以消去v

15、的常数系数（不是mi和ki的函数）。,解出：,式中，,49,注意，上面得出的v和f无关，f只是出现在s中。回想在正态、等协方差的情况下，有这里是用s和(1s)对K1和K2作加权平均。当f的具体形式给出后，v0是的解。,50,例1：Fisher线性分类器。,因此s0.5,Fisher准则不依赖于v0。因为v0从和相减中消失了。,最佳的,51,例2：另种准则是,解出后有,Fisher准则不能确定v0。,52,2.5 分类器的错误率问题,对样本进行分类是PR的任务之一。在分类过程中总会有错误率，当先验概率和类条件密度函数已知，采用的决策规则也确定后，错误率也就固定了。错误率反映了模式分类问题

16、本身的固有复杂程度。也是衡量分类器性能的重要指标。分类器是否和要解决的问题相匹配。,一.错误率的计算和估计,53,从上式可以看出，在x是多维时，P(e)的计算要进行多重积分。当类条件密度函数的解析形式比较复杂时，P(e)的计算相当困难。,错误率的计算公式前面已经分析，对两类问题：,54,由于错误率对模式识别系统的重要性和复杂性，人们对错误率的计算和估算方法进行了大量的研究。方法主要有以下几类：,按公式计算错误率；估算错误率的上限；从实验中估计错误率。,这一小节先讨论前两种方法。,55,正态分布且等协方差矩阵时；当x的各分量间相互独立时；（参考清华的书，略）。下面讨论估计错误率上限的方法,二.在

17、一些特殊情况下错误率的计算,56,模式可分性度量反映了模式分类的困难程度，和错误率有密切关系。既有理论上的意义，也用在特征抽取和选择等问题上。这一节介绍模式可分性的两种重要度量：偏离度（divergence）和Bhattacharyya距离。（泾渭分明，西瓜瓤和籽）先对一般的概率密度函数定义这两个量。然后在多元高斯情况下，看看会有什么结果。,三.模式可分性的度量,57,对于对数的似然比检验：也是一个随机变量。它可以用两个密度函数和来描述。如下图所示，当两个密度函数偏离较大时，错误率一定低，反之会大。,偏离度和Bhattacharyya距离,58,两类模式可分性的一种度量是它们均值的差，称为

18、偏离度D。,59,偏离度的定义为：,定义量：,称为有（单）向偏离度，或第i类相对第j类的相对信息。有些作者称它为Kullbackliebler数。,60,由上两式可知,这样，当相对信息H(1，2)和H(2，1)大时，D也大，可分性好。,可分性的另一种度量是Bhattacharyya距离：,而量，有时称为Bhattacharyya系数。,61,这两个量比起偏离度来，直观上更难解释。但若将写为：,我们可以给出Bhattacharyya距离的一种解释，如下图：,62,63,若原来的两个密度函数分的较开，则f相对于2的期望将较小（1）。,这时的ln值将会大，Bhattacharyya距离将会大。,6

19、4,反之，若p1(x)和p2(x)近似重叠，则期望值将较大，ln将较小。即Bhattacharyya距离小。如下图：,65,偏离度和B距离是真的距离度量吗？,偏离度和Bhattacharyya距离都满足：,在一对一的线性变换下不变；,当x的分量独立时，这两个量都满足相加性（对每个成分）。,66,令表示偏离度或Bhattacharyya距离，有：,但它们都不满足距离的三角不等式，所以都不是真实的距离。但它们满足下面的性质：,67,对于高斯分布的数据，可以推导出它的偏离度的封闭形式解。,高斯分布下的偏离度和Bhattacharyya距离,而,68,由于,而且由,有,69,和,70,同样，有：,这

20、就是高斯分布的偏离度。,71,对于高斯分布的Bhattacharyya距离，有相似的推导。,72,其中的指数项可以化为：,可以化为,73,其中,74,75,可以证明,（）,以及,（）,76,证明的思路和技巧：定义量,先证明,由此再证：,以及,77,由上面各种关系证明（）和（）。,这是对于高斯分布的Bhattacharyya距离。,78,由上式的B和前面的,可以看出，当两类的协方差矩阵相等时，K1=K2=K，,此时的D 和B 是等价的度量，而且和两类均值间的马氏距离等价。说明D 和B 确是两类间偏离和距离的一种度量。,79,上一小节定义了偏离度和Bhattacharyya距离。下面分析它们和错误

21、率的关系。这一节讨论似然比检验的错误率的上界。它们是基于Bhattacharyya距离及其推广。,四.错误率的Bhattacharyya和Chernoff界,最小错误率的上界,最小错误率（有时也叫贝叶斯错误率）eB 为：,80,利用不等式,上式可以化为：,即,这个结果称为Bhattacharyya界。,81,若利用不等式,和前面的推导一样，可得更一般的Chernoff界：,式中,对于高斯密度函数，可以解出上面的积分，得,82,比较一下B 和，有,即当时,Chernoff界就变为Bhattacharyya界。,83,使用Chernoff界的优点是：,它可以求出错误率的紧上界(求适当的s），此时

22、s一般不等于。,利用可以估计各个类的错误率和，以及使用任何阈值T的似然比检验的错误率。,*下面我们分析Chernoff界的另一种推导方法。,84,*2.一般似然比检验的Chernoff界,考虑一般的对数似然比检验：,而,85,或,现定义一组（族）新的密度函数：,86,由于的积分等于，所以也是密度函数，其积分等于1。,下面分析错误率：,由于，是实数，函数是的单调减函数。,在积分区域内，有,87,上式的积分小于1,用同样的方法可以建立的界,另外的方法是利用下面等价的对数似然比检验,88,并定义量,上面和的界也称为Chernoff界。,用和上面同样的推导序列，有,令，而且由于，可得,89,使等式成立的s0即为要找的s0。,前节所建立的总错误率也可以利用本节的结果来得到。,和的紧上界可以由选择s以使e的指数项最小来实现。这时对和都有：,90,而,上式右端为,这时，,91,使和得到紧上界的s0同样使Pre有紧上界。一般在许多情况，上界在s0处有较平的特性。常选以避免解最优化问题。,

展开阅读全文