《模式识别郝旷荣Chap3MSSB-HKR.ppt》由会员分享,可在线阅读,更多相关《模式识别郝旷荣Chap3MSSB-HKR.ppt(90页珍藏版)》请在三一办公上搜索。
1、1,3.1.什么是概率总体的估计?3.2 正态分布的监督参数估计3.3 非监督参数估计3.4 总体分布的非参数估计 本章小结,第三章 概率密度函数的估计,2,学习目的掌握最大似然估计、贝叶斯估计和贝叶斯学习方法的原理和应用掌握最大似然估计、贝叶斯估计和贝叶斯学习等三种方法的区别。掌握监督参数估计和非监督参数估计的特点和应用范围掌握正态分布下的非监督参数估计的参数特点,第三章概率密度函数的估计,3,3.1.什么是概率总体的估计?,在一般的模式识别问题中,通常并不知道所讨论问题的概率结构,所知道的只是一些一般性的、模糊的知识,以及一些可能的样本。因此,为了在这些已知信息的基础上利用统计方法设计分类
2、器,就需要事先利用它们对概率总体做出估计。,4,概率总体估计的基本问题利用样本来估计未知的概率和概率密度函数将估计出来的概率和概率密度函数作为它们的实际值来使用,3.1.什么是概率总体的估计?,5,概率总体估计问题的分类参数估计:参数估计:在已知概率密度函数形式的条件下进行的估计称为参数估计 非参数估计:在未知概率密度函数形式的条件下进行的估计称为非参数估计,3.1.什么是概率总体的估计?,6,极大似然估计Bayes 估计Bayes学习,3.2 正态分布的监督参数估计,7,假定每个样本的类别是已知的,并且可以把它们按照类别分成c组:H1,H2,Hc 其中Hj的样本都属于j类,而且它们都是按类条
3、件概率密度函数p(X|j)从概率总体中独立抽取的。如果能假定p(X|j)的函数形式,并且把它的参数看成是未知向量,记为j,则只要j一经确定,概率密度函数就完全确定了。,极大似然估计,8,问题的简化为了强调类条件概率密度函数p(X|j)同j有关,可以把它记成p(X|j,j)或p(X|j)。假定在样本集Hi中不包含关于j(ji)的信息,也就是说不同类的参数是无关的。,极大似然估计,9,问题的划分整个参数估计问题就可以按模式类分成c个单独的问题来处理在每个问题中,用按概率密度函数p(X|j)独立地抽取的样本集去估计未知参数向量j。,极大似然估计,10,似然函数的构造设样本集H包含n个独立抽取的样本,
4、即H=X1,X2,Xn,那么有:其中p(H|)称为关于样本集合H的的似然函数。,极大似然估计,11,极大似然估计的主要思想如果在一次观察中一个事件出现了,那么可以认为这个事件出现的可能性很大也就是说,可以认为p(H|)达到了极大值使p(H|)达到极大值的就是它的极大似然估计,极大似然估计,12,极大似然估计的计算方法设是有r个分量的列向量:定义梯度算子:定义对数似然函数,极大似然估计,13,求解极大似然方程组:,极大似然估计,14,极大似然估计举例一维正态分布下的极大似然估计多维正态分布下的极大似然估计,极大似然估计,15,一维正态分布下的极大似然估计如果Xk 是一维向量且p(Xk|)是一维正
5、态分布,那么其中,极大似然估计,16,设则对数似然函数为:,极大似然估计,17,极大似然方程组为:,极大似然估计,18,的极大似然估计为:,极大似然估计,19,有时上式是多解的,上图有5个解,只有一个解最大即.,20,多维正态分布下的极大似然估计如果Xk是d(d1)维向量且p(Xk|)是d维正态分布,那么 其中,极大似然估计,21,极大似然估计为:,极大似然估计,22,Bayes决策的回顾:设A=1,2,r是r个可能的动作的有限集合;=1,2,s是s个自然状态的有限集合;(i|j)是当自然状态为j时,采取动作i所造成的损失;特征向量X是n维随机向量;p(j|X)是在给定X的条件下自然状态为j的
6、后验条件概率密度;那么对特定的X,采取动作i造成的平均损失,即条件期望损失或条件风险为:,Bayes 估计,23,如果将观察到一个X时采取的决策记为(X)(决策函数),那么总的风险可以表示为:其中R也称为Bayes风险,使R最小的决策称为Bayes决策,即:如果,则=k。,Bayes 估计,24,将问题转化为参数估计问题:设有一个样本集合(而不是一个样本),要找出估计量(而不是最佳决策),用来估计样本集合所属总体分布的某个真实参数(而非状态)使贝叶斯风险最小。变量的对应关系:样本样本集决策 状态j P(j)P(),Bayes 估计,25,损失函数在Bayes估计中,Bayes风险R可以用下面的
7、积分来描述:其中 称为损失函数。,Bayes 估计,26,条件风险因为所以其中为可能取值的参数空间。,Bayes 估计,27,条件风险与Bayes风险的关系 是给定X条件下估计量 的期望损失,通常称为条件风险条件风险与Bayes决策中给定X时决策i的条件风险 具有对应关系 使条件风险最小的估计量也一定能使Bayes风险R最小,Bayes 估计,28,Bayes估计量使条件风险 最小的估计量,Bayes 估计,29,Bayes估计定理如果损失函数是二次函数,即则的Bayes估计量 是在给定X时的条件期望,即,Bayes 估计,30,Bayes估计定理的证明关键在使条件风险 最小,Bayes 估计
8、,31,因为所以,Bayes 估计,32,因此当 时,条件风险 达到最小从而Bayes估计量为:,Bayes 估计,33,Bayes估计量的计算步骤确定的先验分布p()由样本集H=X1,X2,Xn求出样本联合分布p(H|)求出的后验分布求出Bayes估计量,Bayes 估计,34,单变量正态分布Bayes估计假定总体概率密度函数是正态的,并设均值是未知参数,而方差2是已知的,即:的先验概率密度可以表示为求均值的Bayes估计量,Bayes 估计,35,的Bayes估计量 可表示为所以是比例因子,与无关,Bayes 估计,36,Bayes 估计,37,因此p(|H)仍然是一个正态密度函数,故有即
9、:,Bayes 估计,38,Bayes 估计,其中 是样本均值。,39,解出n和n,可得:将n,n代入P(|H)可以得到后验概率,再用公式,Bayes 估计,40,最终估计结果,Bayes 估计,41,估计特例当先验分布为 且2=1时,,Bayes 估计,42,设用H表示样本集合,为了强调样本集的作用,把后验概率记为p(i|X,H)。根据Bayes法则:,Bayes学习,43,极大似然估计利用似然函数p(X|)=p(X),在 可能有尖锐的峰。参数 为随机变量,如果 在 处不为零且无突变,则p(|X)在 将有凸峰,从而根据Bayes公式 是 的极大似然估计,Bayes解的结果与极大似然解的结果近
10、似相等。,Bayes学习,44,如果 p(|X)在 没有尖锐凸峰,Bayes解的结果不能用极大似然解的结果近似,我们仍然可以通过Bayes公式求解,Bayes学习,45,1.贝叶斯学习的概念:求出的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个的估计值的修正值当观察N=4时,对进行修正,向真正的靠近当观察N=9时,对进行修正,向真正的靠的更近当N,N就反映了观察到N个样本后对的最好推测,而N2反映了这种推测的不确定性,N,N2,N2 随观察样本增加而单调减小,且当N,N2 0 当N,P(|xi)越来越尖峰突起N,P(|xi)函数,这个过程成为贝叶斯学习。,46,Bayes
11、学习,47,假定先验概率的值是已知的,即P(i|H)=P(i),同时假设样本的类别也是已知的,即可以把样本集按类别分成c个子集:H1,H2,Hc 其中Hi的样本都属于i类,而且只要ij,Hj中的样本就不会影响p(X|i,H)。所以,Bayes学习,48,Bayes学习的目的Bayes学习的目的是求出概率函数p(X|H),它应尽可能地接近未知的p(X)。为此,可对联合概率密度p(X,|H)关于积分:,Bayes学习,49,Bayes学习的目的关键方程由于假定X的选择和H中样本的选择是独立进行的,所以,Bayes学习,50,用Bayes学习求解p(X|H)的计算步骤确定密度函数p(X|)的形式和未
12、知参数确定参数的先验概率密度p();确定从未知概率密度函数p(X)的总体中抽取的样本集H=X1,X2,Xn 计算:,Bayes学习,51,单变量正态分布Bayes学习假定概率密度函数p(x)是正态的,并设均值是未知参数,而方差2是已知的,即:的先验概率密度可以表示为从概率总体中独立地抽取n个样本构成的样本集H=x1,x2,xn求类条件概率密度p(x|H),Bayes学习,52,求解后验概率密度p(|H),Bayes学习,53,Bayes学习,54,Bayes学习过程n表示在观察到一组样本后,对的最好的推断,而n则反映了这个推断的不确定性。由于 随n的增加而单调减小,且当n时,它与 一样趋于零,
13、所以每增加一个观察 样本都可以减少对的推断的不确定性。当n增加时,p(|H)的峰会变得越来越突起,且当n时,它趋于一个狄拉克函数。,Bayes学习,55,条件概率密度函数p(x|H)的计算,Bayes学习,56,最终计算结果若把p(x|H)看作是x的函数,则它正比于所以p(x|H)也服从正态分布,其均值为n,方差为,即:,Bayes学习,57,极大似然估计是把参数看作确定的未知参数,并且把使似然函数达到最大值的作为参数的极大似然估计量。Bayes估计是把参数看作随机的未知参数,假定具有已知的先验分布p(),并且把使得条件风险 最小的 当作的Bayes估计量。Bayes学习是利用的先验分布及样本
14、提供的信息求出的后验分布p(|H),然后直接求总体分布p(X|H),3.3.4 极大似然估计、Bayes估 计和Bayes学习之间的关系,58,在不知道类条件概率密度函数形式的情况下如何估计概率密度函数的方法,3.4 非参数估计,59,条件概率密度和混合密度p(X)设p(X)表示未知概率密度函数,那么一个向量X落在区域R中的概率P可以用下式计算:概率P可以看作是密度函数一种平滑了的表示,3.4.1概率密度函数估计的基本方法,60,设n个样本X1,X2,Xn是从概率密度函数为p(X)的总体中独立抽取的,则n个样本中有k个样本落在区域R中的概率应符合二项分布:而k的数学期望为:所以可以认为P的估计
15、是:,3.4 非参数估计,61,假设p(X)连续,并且R小到使p(X)在其中几乎没有什么变化,那么:式中X是R中的一点,V是R的体积,于是p(X)可以用下式估计:,3.4 非参数估计,62,平均估计如果体积V是固定的,而样本取得越来越多,则比值 k/n以概率收敛。从而可以得到一个p(X)的平均概率估计,3.4 非参数估计,63,如果想得到p(X)而不是p(X)的平均概率估计,则必须让体积趋于零。但是若样本数n固定而体积V趋于零,就会使区域不断缩小,以致最后在这个区域中不再含有任何样本。这样就会得出p(X)0的估计。而如果碰巧有一个或几个样本同X重合,则估计就会发散到无穷大。这两种情况都是不正确
16、的。实际上样本总数是有限的,所以体积不允许任意小。,3.4 非参数估计,64,用pn(X)逼近p(X)如果理论上有可能采用无限多个样本,为了估计在X点的概率密度函数值,可以构造一串包含X的区域序列R1,R2,Rn,第一个区域被采用时用一个样本,第二个区域被采用时用两个样本,等等。设Vn是Rn的体积,kn是落到区域Rn中的样本的数目,pn(X)是p(X)的第n次估计,则有:,3.4 非参数估计,65,pn(X)应该满足的条件(1)(2)(3),3.4 非参数估计,66,三个条件的意义条件(1)可使平均估计P/V收敛于p(X)条件(2)对p(X)0的点有意义,可使频率在概率的意义上收敛于概率P 条
17、件(3)使pn(X)收敛,3.4 非参数估计,67,假定Rn是d维超立方体,hn是Rn的侧棱的长度,则它的体积为:,3.4.1 Parzen窗法,68,方窗函数(u)是一个以原点为中心的单位超立方体,3.4.1 Parzen窗法,69,当某一个Xi落在以X为中心的体积为Vn的超立方体内时,有:因此落在这个超立方体内的样本数为:,3.4.1 Parzen窗法,70,基于方窗函数的概率估计如果定义则可以把pn(X)看作一个平均值:,3.4.1 Parzen窗法,71,窗函数必须满足的基本条件(1)(u)0(2)据此可以证明:(1)pn(X)0(2),3.4.1 Parzen窗法,72,其它常用窗函
18、数(1)三角窗函数(2)正态窗函数(3)指数窗函数,3.4.1 Parzen窗法,73,三角窗函数,3.4.1 Parzen窗法,74,正态窗函数,3.4.1 Parzen窗法,75,指数窗函数,3.4.1 Parzen窗法,76,设pn(X)的均值和方差分别是:和如果 且 那么称pn(X)收敛于p(X),3.4.2 密度函数估计的收敛性,77,pn(X)收敛的其它4个条件(1)(2)(3)(4),3.4.2 密度函数估计的收敛性,78,条件(1)和(2)可以保证窗函数有比较好的性质,条件(3)和(4)的意思是说,当样本数n越来越大时,体积Vn必须趋于零,但是其速率应低于1/n。,3.4.2
19、密度函数估计的收敛性,79,均值的收敛性,3.4.2 密度函数估计的收敛性,80,因为所以当hn趋于零时,n(X-V)趋于一个以X为中心的函数。从而当p(X)在X处连续时,有:,3.4.2 密度函数估计的收敛性,81,方差的收敛性,3.4.2 密度函数估计的收敛性,82,因此从而,3.4.2 密度函数估计的收敛性,83,假定待估计的未知概率密度函数是两个均匀分布密度函数的混合,即:,3.4.2 Parzen窗法应用举例,84,如果采用正态窗函数并设那么pn(X)就是一个以个样本为中心的正态密度窗函数的一个平均,即:,3.4.2 密度函数估计的收敛性,85,考虑h1取0.25,1和4三个不同的数值,用随机数发生器按给定的概率密度函数产生随机样本,然后用上式估计pn(X),计算结果如下:,3.4.2 密度函数估计的收敛性,86,3.4.2 密度函数估计的收敛性,87,3.4.2 密度函数估计的收敛性,88,3.4.2 密度函数估计的收敛性,89,3.4.2 密度函数估计的收敛性,90,本章小结,应用统计决策理论设计分类器,当概率密度函数未知时,模式识别问题转化为概率密度函数估计问题。在实际应用中,有一定的困难:先验概率和类概率密度函数有充分的先验知识,或样本足够多。,