基于统计决策的概率分类法.ppt

资源描述

《基于统计决策的概率分类法.ppt》由会员分享，可在线阅读，更多相关《基于统计决策的概率分类法.ppt（114页珍藏版）》请在三一办公上搜索。

1、第2章基于统计决策的概率分类法,2.1 研究对象及相关概率2.2 贝叶斯决策2.3 贝叶斯分类器的错误率2.4 聂曼-皮尔逊决策2.5 概率密度函数的参数估计2.6 概率密度函数的非参数估计2.7 后验概率密度分类的势函数方法,第2章基于统计决策的概率分类法,获取模式的观察值时，有二种情况：*确定性事件：事物间有确定的因果关系。第三章内容。*随机事件：事物间没有确定的因果关系，观察到的特征具有统计特性，是一个随机向量。只能利用模式集的统计特性进行分类，使分类器发生分类错误的概率最小。,1.两类研究对象,2.相关概率,1）概率的定义,设是随机试验的基本空间（所有可能的实验结果或基本事件的

2、全体构成的集合，也称样本空间），A为随机事件，P(A)为定义在所有随机事件组成的集合上的实函数，若P(A)满足：,2.1 研究对象及相关概率,（3）对于两两互斥的事件A1，A2，有,（1）对任一事件A有：0P(A)1。,（2）P()=1，事件的全体,则称函数P(A)为事件A的概率。,设A、B是两个随机事件，且P(B)0，则称,为事件B发生的条件下事件A发生的条件概率。,3）条件概率定义,（1）不可能事件V的概率为零，即P(V)=0。,2）概率的性质,(2-1),（1）概率乘法公式：如果P(B)0，则联合概率 P(AB)=P(B)P(A|B)=P(A)P(B|A)=P(BA),（3）贝叶斯公式：

3、在全概率公式的条件下，若P(B)0，则将(2-2)，(2-3)式代入(2-1)式中，有：,(2-4),4）条件概率的三个重要公式：,则对任一事件B有：,（2）全概率公式：设事件A1，A2，An，两两互斥，且,(2-2),(2-3),今后的分类中常用到类概率密度p(X|i)：i类的条件概率密度函数，通常也称为i的似然函数。,设随机样本向量X，相关的三个概率：,（2）后验概率P(i|X)：相对于先验概率而言。指收到数据X（一批样本）后，根据这批样本提供的信息统计出的i类出现的概率。表示X 属于i类的概率。,5）模式识别中的三个概率,（1）先验概率P(i)：根据以前的知识和经验得出的i类样本出现的

4、概率，与现在无关。,（3）条件概率P(X|i)：已知属于i类的样本X，发生某种事件的概率。例对一批得病患者进行一项化验，结果为阳性的概率为95%，1代表得病人群，则X化验为阳性的事件可表示为,P(2|X)表示试验呈阳性的人中，实际没有病的人的概率。,若用某种方法检测是否患有某病，假设 X 表示“试验反应呈阳性”。则：,例如：一个2类问题，1诊断为患有某病，2诊断为无病，,P(2)表示该地区人无此病的概率。,则：P(1)表示某地区的人患有此病的概率，,P(X|2)表示无病的人群做该试验时反应呈阳性(显示有病)的概率。,值低/高,值低/高,P(X|1)表示患病人群做该试验时反应呈阳性的概率。,

5、P(1|X)表示试验呈阳性的人中，实际确实有病的人的概率。,？,？,通过统计资料得到,（4）三者关系：根据(4-4)贝叶斯公式有,（2-5）,M：类别数,2.决策规则,2.2.1 最小错误率贝叶斯决策,讨论模式集的分类，目的是确定X属于那一类，所以要看X来自哪类的概率大。在下列三种概率中：先验概率P(i)类(条件)概率密度p(X|i)后验概率P(i|X),采用哪种概率进行分类最合理？,1.问题分析,后验概率P(i|X),2.2 贝叶斯决策,设有M类模式，,(2-6),最小错误率贝叶斯决策规则,虽然后验概率P(i|X)可以提供有效的分类信息，但先验概率P(i)和类概率密度函数p(X|i)从统计

6、资料中容易获得，故用Bayes公式，将后验概率转化为类概率密度函数和先验概率的表示。由：,可知，分母与i无关，即与分类无关，故分类规则又可表示为：,(2-7),几种等价形式：,对两类问题，(2-7)式相当于,可改写为：,统计学中称l12(X)为似然比，为似然比阈值。,对(2-9)式取自然对数，有：,(2-7)，(2-8)，(2-9)都是最小错误率贝叶斯决策规则的等价形式。,例2.1 假定在细胞识别中，病变细胞的先验概率和正常细胞的先验概率分别为。现有一待识别细胞，其观察值为X，从类条件概率密度发布曲线上查得：,试对细胞X进行分类。,解：方法1 通过后验概率计算。,方法2：利用先验概率和类概率密

7、度计算。,，是正常细胞。,证明：贝叶斯分类器在最小化分类错误率上是最优的。,2.2.2 最小风险贝叶斯决策,1.风险的概念*自动灭火系统：*疾病诊断：,不同的错判造成的损失不同，因此风险不同，两者紧密相连。,考虑到对某一类的错判要比对另一类的错判更为关键，把最小错误率的贝叶斯判决做一些修改，提出了“条件平均风险”的概念。,对M类问题，如果观察样本X被判定属于i类，则条件平均风险ri(X)指将X判为属于i类时造成的平均损失。,2.决策规则,式中，,i 分类判决后指定的判决号；j 样本实际属于的类别号；,将自然属性是j类的样本决策为i类时的是非代价，即损失函数。,每个X 都按条件平均风险最小决策，

8、则总的条件平均风险也最小。总的条件平均风险称为平均风险。,条件平均风险与平均风险的区别,1）多类情况,设有M 类，对于任一X 对应 M个条件平均风险：,对每个X有M种可能的类别划分，X被判决为每一类的条件平均风险分别为r1(X)，r2(X)，rM(X)。决策规则：,，i=1,2,M,由已知，先验概率和类条件概率根据损失函数，计算条件风险,个条件风险中，最小的条件风险为，,则,说明：用先验概率和条件概率的形式：,p(X)对所有类别一样，不提供分类信息。,，i=1,2,M,决策规则为：,2）两类情况：对样本 X,当X 被判为1类时：,当X 被判为2类时：,（2-15）,（2-16）,由（2-15）

9、式：,决策规则：,，为阈值。,计算。,计算。,定义损失函数Lij。,判别步骤：,类概率密度函数p(X|i)也称i的似然函数,解：计算和得：,例4.2 在细胞识别中，病变细胞和正常细胞的先验概率分别为,现有一待识别细胞，观察值为X，从类概率密度分布曲线上查得,损失函数分别为L11=0，L21=10，L22=0，L12=1。按最小风险贝叶斯决策分类。,为病变细胞。,损失函数为特殊情况：,3.(0-1)损失最小风险贝叶斯决策,1)多类情况,(0-1)情况下，可改写成：,最小错误率贝叶斯决策,2)两类情况,决策规则为,或从式(2-20)导出似然比形式：,式中：,决策规则：,类似地，,Lij(X)

10、的确定：根据错误造成损失的严重程度，及专家经验确定。,2.2.3 正态分布模式的贝叶斯决策,许多实际的数据集：均值附近分布较多的样本；距均值点越远，样本分布越少。此时正态分布（高斯分布）是一种合理的近似。,正态分布概率模型的优点：*物理上的合理性。*数学上的简单性。,图中为某大学男大学生的身高数据，红线是拟合的密度曲线。可见，其身高应服从正态分布。,1.相关知识概述,1）二次型,二次型中的矩阵A是一个对称矩阵，即。,含义：是一个二次齐次多项式，,3）单变量（一维）的正态分布,密度函数定义为：,曲线如图示：=-1，=0.5；=0，=1；=1，=2.,一维正态曲线的性质：,（2）曲线关于直线 x=

11、对称。,（3）当 x=时，曲线位于最高点。,（4）当x时，曲线上升；当x时，曲线下降.并且当曲线向左、右两边无限延伸时，以x轴为渐近线，向它无限靠近。,（1）曲线在 x 轴的上方，与x轴不相交。,（5）一定时，曲线的形状由确定。越大，曲线越“矮胖”，表示总体的分布越分散；越小。曲线越“瘦高”。表示总体的分布越集中。,4）3规则,即：绝大部分样本都落在了均值附近3的范围内，因此正态密度曲线完全可由均值和方差来确定，常简记为：,p(x),5）多变量（n维）正态随机向量,密度函数定义为：,式中：；,|C|：协方差矩阵C的行列式。,多维正态密度函数完全由它的均值向量 M 和协方差矩阵C所确定，简记为：

12、p(X)N(M,C),为协方差矩阵，是对称正定矩阵，独立元素有个；,以二维正态密度函数为例：等高线（等密度线）投影到x1ox2面上为椭圆，从原点O到点M 的向量为均值M。椭圆的位置：由均值向量M决定；椭圆的形状：由协方差矩阵C决定。,协方差矩阵Ci：反映样本分布区域的形状；均值向量Mi：表明了区域中心的位置。,2.正态分布的最小错误率贝叶斯决策规则,1）多类情况,具有M 种模式类别的多变量正态密度函数为：,前面介绍的Bayes方法事先必须求出p(X|i),P(i)。而当 p(X|i)呈正态分布时，只需要知道 M 和 C 即可。,每一类模式的分布密度都完全被其均值向量Mi和协方差矩阵Ci所规定

13、，其定义为：,对正态密度函数，为了方便计算，取对数：,对数是单调递增函数，取对数后仍有相对应的分类性能。,最小错误率Bayes决策中，i类的判别函数为，,去掉与i无关的项，得判别函数：,正态分布的最小错误率Bayes决策的判别函数。,(2-25),di(X)为超二次曲面。可见对正态分布模式的Bayes分类器，两类模式之间用一个二次判别界面分开，就可以达到最优的分类效果。,判决规则同前：,2）两类问题,(2)当C1=C2=C时：由式(2-25)有,由此导出判别界面为：,为X的线性函数，是一超平面。当为二维时，判别界面为一直线，如图2.4所示。,(2-28),两类相同，抵消,展开相同，合并,判别界

14、面如图2.5所示。,图2.5 C1=C2=I且先验概率相等,例2.3 设在三维特征空间里，有两类正态分布模式，每类各有4 个样本，分别为,其均值向量和协方差矩阵可用下式估计：,(2-30),(2-31),式中，Ni为类别i中模式的数目，Xij代表在第i类中的第j个模式。两类的先验概率。试确定两类之间的判别界面。,解：,经计算有,因协方差矩阵相等，故(2-28)为其判别式。由于,图中画出判别平面的一部分。,描点：,2.3 贝叶斯分类器的错误率,2.3.1 错误率的概念,错误率：将应属于某一类的模式错分到其他类中的概率。,是衡量分类器性能优劣的重要参数。,定义为,表示n重积分，即整个n维模式空间上

15、的积分。,式中：；是X的条件错误概率；,平均错误率,错误率的计算或估计方法：,按理论公式计算；计算错误率上界；实验估计。,设R1为1类的判决区，R2为2类的判决区，分类中可能会发生两种错误：,将来自1类的模式错分到R2中去。,将来自2类的模式错分到R1中去。,错误率为两种错误之和：,4.3.2 错误率分析,1两类问题的错误率,一维情况图示：,(4-33),(4-33),两类问题的最小错误率贝叶斯决策规则：,用后验概率密度表示为,用先验概率和类概率密度函数表示为,或,判别界面为：,两类问题最小错误率贝叶斯决策中错误率P(e|X)为：,(2-33),令，则,在最小错误率贝叶斯决策中，判别界面位于两

16、曲线的交点处，即：,可以看出这个错误率是所有错误率中最小的（图中三角形的面积减小到0），但总错误概率不可能为零。,通常需要考虑总错误概率，仅使一类样本的错误概率最小是没有意义的，因为这时另一类的错误概率可能很大。,其他情况下的错误率：,设共有M类，当判决时：,当 X 判为任何一类时，都存在这样一个可能的错误，故,2.多类情况错误率,总错误率为,正确分类概率,则：,错误率=,简化计算，假定。,4.3.3 正态分布贝叶斯决策的错误率计算,1正态分布的对数似然比,设,对数似然比决策规则：,若,则,令，有,由正态分布概率密度函数,有,h(X)是X的线性函数，故h(X)是正态分布的一维随机变量。,计算

17、错误率较为方便。,2对数似然比的概率分布,均值：,方差：,1和2间的马氏距离平方,图2.9 对数似然比h(X)的概率分布,3正态分布最小错误率贝叶斯决策的错误率,两类问题最小错误率贝叶斯决策的错误率：,其中，,令,若，则,计算结果通过查标准正态分布表求得。,图2.10 错误率与马氏距离的关系,P(e)随着的增大而单调递减，只要两类模式的马氏距离足够大，错误率就可以减到足够小。,2.3.4 错误率的估计,1已设计好分类器时错误率的估计,1）先验概率未知随机抽样,N：随机抽取的样本数；,k：错分样本数。,2）先验概率已知选择性抽样,分别从1类和2类中抽取出N1和N2个样本，,用N1+N2=N个样

18、本对设计好的分类器作分类检验。,设1类被错分的个数为k1，2类错分的个数为k2。,k1、k2统计独立，联合概率为,式中，i是i类的真实错误率。,总错误率的最大似然估计为,2未设计好分类器时错误率的估计,要求：用收集到的有限的N个样本设计分类器并估计其性能。,错误率的函数形式：(1,2)。,1：用于设计分类器的样本的分布参数；2：用于检验分类器性能的样本的分布参数。,设是全部训练样本分布的真实参数集；,为全部样本中N个样本分布的参数估计量。,有,将有限样本划分为设计样本集和检验样本集的两种基本方法：,1）样本划分法,将样本分成两组，其中一组用来设计分类器，另一组用来检验分类器，求其错误率。取不同

19、划分方法的平均值作为错误率的估计。,缺点：需要的样本数N很大。,2）留一法,将N个样本每次留下其中的一个，用其余的(N-1)个设计分类器，用留下的那个样本进行检验，检验完后重新放回样本集。,重复进行N次。注意，每次留下的一个样本应当是不同的样本。,适用于样本数较小的情况。,缺点：计算量大。,2.4 聂曼-皮尔逊(Neyman-Person)决策,适用于P(i)或P(i)和Lij(X)难以确定时。,基本思想：限制一个错误概率，追求另一个最小(二类问题)。,在两类问题贝叶斯决策的错误率公式中：,1 基本思想,式中，,先验概率通常为常数，故一般也称P1(e)和P2(e)为两类错误率：,P1(e)：1

20、类模式被误判为2类的错误率；,P2(e)：2类模式被误判为1类的错误率。,聂曼-皮尔逊决策出发点：在P2(e)等于常数的条件下，使P1(e)为最小，以此确定阈值t。,一维情况聂曼-皮尔逊决策示意,此时聂曼-皮尔逊决策含义：在虚警概率P2(e)是一个可以承受的常数值的条件下，使漏报概率为最小。,求解问题：在P2(e)等于常数的条件下，求P1(e)极小值的条件极值问题。P2(e)的值一般很小。,2.判别式推导,式中：待定常数；P2(e)常数。,求P1(e)最小，即是求Q最小。,构造辅助函数,要使Q最小，积分项至少应为负值，即在R1区域内，至少应保证,（2-57）,同理由式(2-57)有：,在R2区

21、域内至少应保证,由于和是已知的，所以聂曼-皮尔逊决策最终归结为寻找似然比阈值。,求解值从常数P2(e)入手，这时由有,即是P2(e)的函数，通过查标准正态分布表可以求得的值。,表中末行系函数值：(30)(31)(39),纵向值：的整数部分和小数点后第一位。,横向值：的小数点后第二位。,表中为 0时，()的值。,1标准正态分布表,复习,2.正态分布的概率计算,左边阴影部分的面积表示为概率。即分布函数,在任一区间内取值的概率：,当时，;,解：(1),(2),(3),例2.4 一两类问题，模式分布为二维正态，其分布参数协方差矩阵为C1=C2=I，设P2(e)=0.046，求聂曼-皮尔

22、逊决策规则的似然比阈值和判别界面。,i=1，2,解：(1)求类概率密度函数正态分布的类概率密度函数为,已知，又计算得：,(2)求似然比,(3)求判别式,决策规则：,两边取自然对数，有,得判别式,（2-62）,(4)求似然比阈值,由与的关系有,分离积分，向正态分布表的标准形式,变换，有,令有：,查正态分布数值表，要求P2(e)=0.046。,在表上查。,当时，。,对应=？,对应=1.69,，即,有,计算得,由（2-62）式得判别界面：,图2.12 聂曼-皮尔逊决策结果,2.5 概率密度函数的参数估计,2.5.1 最大似然估计,两类估计方法：,概率密度函数的形式未知，直接估计概率密度函数

23、的方法。,已知概率密度函数的形式而函数的有关参数未知，通过估计参数来估计概率密度函数的方法。,*参数估计法：,*非参数估计法：,两种主要参数估计法：,最大似然估计、贝叶斯估计。,设：i类的类概率密度函数具有某种确定的函数形式；,是该函数的一个未知参数或参数集。,最大似然估计把当作确定的未知量进行估计。,从i类中独立地抽取N个样本：,1.似然函数,称这N个样本的联合概率密度函数为相对于样本集X N 的的似然函数。,在参数下观测到的样本集X N 的概率(联合分布)密度,2.最大似然估计,根据已经抽取的N个样本估计这组样本“最可能”来自哪个密度函数。（“最似”哪个密度函数）,也即：要找到一个，它

24、能使似然函数极大化。,由求得。,为一维时的最大似然估计示意图,的最大似然估计量就是使似然函数达到最大的估计量。,为便于分析，定义似然函数的对数为,的最大似然估计是下面微分方程的解：,设i类的概率密度函数有p个未知参数，记为p维向量,此时,解以上微分方程即可得到的最大似然估计值。,3.正态分布情况举例,设i类：正态分布、一维模式、概率密度函数为,待估计参数为，2。,（4-69）,其中，。,若X N表示从i中独立抽取的N个样本，则的似然函数为,其中，,得,由以上方程组解得均值和方差的估计量为,类似地，多维正态分布情况：,均值向量的最大似然估计是样本的均值；,最大似然估计结果：,协方差矩阵的最

25、大似然估计是N个矩阵的算术平均。,2.5.2 贝叶斯估计与贝叶斯学习,贝叶斯估计和贝叶斯学习将未知参数看作随机参数进行考虑。,1贝叶斯估计和贝叶斯学习的概念,1）贝叶斯估计,步骤：,2）贝叶斯学习,迭代计算式的推导：,（2-72）,（2-71）,式中,除样本XN以外其余样本的集合,（2-72）,（2-73）,将（2-73）式代入（2-72）式得,类似地，,（2-74）,（2-75）,将（2-75）式代入（2-74）式得,（2-76）,参数估计的递推贝叶斯方法，迭代过程即是贝叶斯学习的过程,迭代式的使用：,*给出X2，对用X1估计的结果进行修改。,2正态分布密度函数的贝叶斯估计和贝叶斯学习,1）

26、贝叶斯估计,*逐次给出X3，X4，XN，得到,式中，,（2-79）,有,由于,有,式中，,与最大似然估计形式类似,式中，,同前,2）贝叶斯学习,图2.14 均值的贝叶斯学习过程示意图,可见：,则利用贝叶斯估计得到的M的后验概率密度函数为,其中，,根据贝叶斯学习得到的类概率密度函数为,2.6 概率密度函数的非参数估计,2.6.1 基本方法,根据样本直接估计类概率密度函数的方法。,1.出发点：基于事实,p(X)：类概率密度函数。,随机向量X落入区域R的概率P为。,设从密度为p(X)的总体中独立抽取的样本X1,X2,XN。若N个样本中有k个落入区域R中的概率最大，则,：希望是X落入区域R中概率P的一

27、个很好的估计。,类概率密度函数p(X)的估计：,设p(X)连续，区域R足够小且体积为V，p(X)在R中没有变化，X是R中的点。有,得,X点概率密度的估计,2.存在的两个问题,（2-91）,1）固定V，样本数增多，则k/N以概率1收敛。但只能得到在某一体积V中的平均估计。,2）N固定，V趋于零，或发散到无穷大。没有意义。,必须注意V、k、k/N 随N变化的趋势和极限，保持合理性。,3.估计的步骤：,*构造一串包含X的区域R1，R2，RN，,*对R1采用一个样本估计，对R2采用两个样本，,*假定VN是RN的体积，kN是落入RN内的样本数目，是 p(X)的第N次估计，有,4.为保证估计合理性应满足的

28、三个条件,1）,2）,3）,使式右边能以概率1收敛于p(X),（2-92）,落入RN中的样本数始终是总数中的极小部分,5.两种非参数估计法：Parzen窗法、kN近邻估计法。,2.6.2 Parzen窗法,1Parzen窗估计的基本概念,设区域RN：d维超立方体，棱长：hN，则,以原点为中心的超立方体,当Xi落入以X为中心，体积为VN的超立方体时：,否则,落入超立方体内的样本数为,（2-95）,代入得,Parzen窗法基本公式,实质：窗函数的作用是内插，样本对估计所起的作用取决于它到X的距离。,为密度函数应满足的两个条件：,2窗函数的选择,1）方窗函数,2）正态窗函数,3）指数窗函数,一维形

29、式,满足条件和的都可以作为窗函数。最终估计效果的好坏与样本情况、窗函数以及窗函数参数的选择有关。,定义,有,如何选取根据经验折中考虑。,限制条件：,1）总体密度函数p(X)在X点连续；,2）窗函数满足以下条件：,3）窗函数受下列条件的约束：,有,估计结果：,解：估计结果,*具有一般性，适用于单峰、多峰形式。,Parzen窗法特点：,*要得到较精确的估计必须抽取大量的样本。（一般非参数估计法的共同问题）比参数估计法多得多；样本数目随模式维数一般按指数规律增长。,4.6.3 kN-近邻估计法,基本思想：,使体积为样本密度的函数，而不是样本数N的函数。,限制条件仍然是：,例4.5和4.6中，用kN-近邻法估计的p(X)的结果：,，。,4.7 后验概率密度函数的势函数估计法,势函数的确定方法有两种方法：,第i类判别函数的迭代算法：,说明,解：从图上可看出两类模式不是线性可分的，选择指数型二维势函数（）：,结束,

展开阅读全文