模式识别课件第三章概率密度估计打印.ppt

上传人:牧羊曲112 文档编号:6052514 上传时间:2023-09-18 格式:PPT 页数:96 大小:1.66MB
返回 下载 相关 举报
模式识别课件第三章概率密度估计打印.ppt_第1页
第1页 / 共96页
模式识别课件第三章概率密度估计打印.ppt_第2页
第2页 / 共96页
模式识别课件第三章概率密度估计打印.ppt_第3页
第3页 / 共96页
模式识别课件第三章概率密度估计打印.ppt_第4页
第4页 / 共96页
模式识别课件第三章概率密度估计打印.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《模式识别课件第三章概率密度估计打印.ppt》由会员分享,可在线阅读,更多相关《模式识别课件第三章概率密度估计打印.ppt(96页珍藏版)》请在三一办公上搜索。

1、第三章 概率密度估计,3.0 引言3.1 参数估计3.2 非参数估计3.3 说明,3.0 引言,进行Bayes决策需要事先知道两种知识:各类的先验概率;观测向量的类条件概率密度。知识的获取(估计):一些训练数据;对问题的一般性的认识。,3.0 引言,3.0 引言,类的先验概率的估计(较容易):依靠经验;用训练数据中各类出现的频率估计。用频率估计概率的优点:无偏性;相合性;收敛速度快。,类条件概率密度的估计(非常难):概率密度函数包含了一个随机变量的全部信息概率密度函数可以是满足下面条件的任何函数,p(x)0,3.0 引言,概率密度估计的两种主要思路:参数估计:根据对问题的一般性的认识,假设随机

2、变量服从某种分布,分布函数的参数通过训练数据来估计。非参数估计:不用模型,而只利用训练数据本身对概率密度做估计。,3.0 引言,“Curse of dimensionality”:We need lots of training data to determine the completely unknown statistics for multi-D problems.A rule of thumb:“use at least 10 times as many training samples per class as the number of features(i.e.D)”Hence

3、,with some a priori information,it is possible to estimate the parameters of the known distribution by using less number of Samples,3.1 参数估计,3.1 参数估计,最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。贝叶斯估计把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。,3.1 参数估计,最大似然估计(Maximum Likelihood),需

4、做以下假设:参数是确定(非随机)而未知的量。按类别把样本集分开,假定有c个类,则可分成c个样本集X1,X2,Xc,其中Xj中的样本都是从概率密度为p(x|j)的总体中独立抽取出来的。,3.1 参数估计,类条件概率密度p(x|j)具有某种确定的函数形式,但其参数向量 j 未知。假定Xi中的样本不包含关于j(ji)的信息。也就是说不同类别的参数在函数上是独立的。这样就可以分别对每一类进行处理。也就是说Xi中的样本只对i 提供有关信息,而没有关于j(ji)的任何信息。,3.1 参数估计,在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度抽取样本集X,用X去估计出未知参数。已知某一类样本集X

5、包含有N个样本,即X=x1,x2,xN,3.1 参数估计,由于假设样本是独立抽取的,所以,相对于样本集X的的似然函数。,3.1 参数估计,似然函数:,对数似然函数:,等价,参数求解:梯度为0。,3.1 参数估计,最大似然估计示意图,3.1 参数估计,Find value of unknown parameter maximizes,For different,theobserved samples givesdifferent p(X|)valuesfor p(xk|)densities,The argument for themaximum of suchproducts is ML est

6、imate,log p(X|)will notdiffer the argument ofthis maxima,单变量正态分布,3.1 参数估计,正态分布假设下的极大似然参数估计:,其中 和 为未知参数。,由,单变量正态分布,知,3.1 参数估计,正态分布假设下的极大似然参数估计:,3.1 参数估计,以 和 代入上式,解上述方程组,得,多元正态分布似然函数:,3.1 参数估计,设x1,x2,xn是从p(x|,)选取的特征向量,其联合分布为,多元正态分布均值估计:,均值的最大似然估计与无关!,3.1 参数估计,多元正态分布协方差矩阵的估计:,3.1 参数估计,令,A=-1,正态分布假设下的极大

7、似然参数估计:多元正态分布协方差矩阵的估计:,3.1 参数估计,正态分布假设下的极大似然参数估计:多元正态分布协方差矩阵的极大似然估计是有偏估计:,无偏估计:,3.1 参数估计,Bayes估计:最大后验概率估计(maximum a posteriori),设有一个样本X(而不是x),要求找出估计量(而不是选出最佳决策),用来估计X所属总体的分布的某个真实参数(而不是真实状态k)使带来的贝叶斯风险最小,就是贝叶斯估计。,3.1 参数估计,Bayes估计:贝叶斯决策和贝叶斯估计两者都立足于使贝叶斯风险最小,只是要解决的问题不同:一是要决策x的真实状态,而另一个则是估计X所属总体分布的参数。二者的各

8、变量之间存在一一对应的关系,3.1 参数估计,Bayes估计:,3.1 参数估计,Bayes估计:,根据贝叶斯公式,3.1 参数估计,Bayes估计:,可得、x的联合分布,3.1 参数估计,Bayes估计:,为 可能取值的参数空间。,为给定x条件下估计量 的期望损失(条件风险),与贝叶斯决策中给定x时决策 的条件风险 是对应的。,3.1 参数估计,Bayes估计:,因此同贝叶斯决策一样:使条件风险 极小时的估计量 也一定使贝叶斯风险R最小。,如果 的估计量 使条件风险最小,则称 是关于 的贝叶斯估计量。,若求解贝叶斯估计量 必须定义适当的损失函数。,3.1 参数估计,Bayes估计:,一般地,

9、损失函数可定义成不同的形式,因而得到不同的贝叶斯估计量。,以二次函数作为损失函数,即平方误差损失函数,3.1 参数估计,Bayes估计:,定理:如果损失函数为二次函数,即 则 的贝叶斯估计量 是在给定x时 的条件期望。即,3.1 参数估计,Bayes估计:,证明:由于贝叶斯估计使贝叶斯风险R达到最小,要使贝叶斯风险,达到最小,相当于被积函数(条件风险),3.1 参数估计,Bayes估计:,3.1 参数估计,Bayes估计:,3.1 参数估计,Bayes估计:,选择,使第二项为零,从而使条件风险 最小,所以贝叶斯估计量为,3.1 参数估计,Bayes估计:,确定 的先验分布,利用此定理,可以对平

10、方误差损失函数求解贝叶斯估计量,步骤如下:,由样本集X=x1,x2,,xn求出样本联合分布,它是 的函数,利用贝叶斯公式,求出 的后验分布,3.1 参数估计,Bayes估计:,利用定理求出贝叶斯估计量,3.1 参数估计,Bayes估计举例:以单变量正态分布为例,并假定总体方差为已知,待估计的仅是均值。设总体分布密度为,3.1 参数估计,Bayes估计举例:,假定关于 的先验知识可用一个已知的先验密度 来表示,并假定 服从均值为 方差为 的正态分布,即,其中 和 是已知的。,表示 的最好的先验推测,度量了对这个推测的不确定性。,3.1 参数估计,Bayes估计举例:,设样本集X=x1,x2,xn

11、是取自 正态分布,其中 是未知参数,且假定 为随机参数,具有先验分布,要求用贝叶斯估计方法求出 的估计量。,3.1 参数估计,Bayes估计举例:对于二次损失函数的贝叶斯估计,根据定理,有,可得,3.1 参数估计,Bayes估计举例:,由 求得。,从上式可看出,首先是求 的后验分布,由于其先验分布 为已知,可应用贝叶斯公式,3.1 参数估计,Bayes估计:,其中,是一个比例因子,仅与X有关而与无关。,由于,3.1 参数估计,Bayes估计:,3.1 参数估计,Bayes估计:,和 无关的因子全部吸收到 和 中,这样 是 的二次函数的指数函数,仍是正态密度,可以把 写成,即,3.1 参数估计,

12、Bayes估计:,应用待定系数法,令上面两式对应的系数相等,即求得 和,3.1 参数估计,Bayes估计:解前面方程得,3.1 参数估计,3.1 参数估计,Bayes估计:,求 的贝叶斯估计,得出 的贝叶斯估计值,3.1 参数估计,Bayes估计:,假设先验分布 为标准正态分布,即=N(0,1),且总体分布的方差 也为1,则,与最大似然估计 有类似的形式,只是分母不同。,3.1 参数估计,Bayes估计:,通常 是mn和 线性组合,两者的系数均为非负,并且和为1。即,3.1 参数估计,位于mn和 的连线上。,Bayes估计:,如果 说明对先验估计非常不确定,用样本均值mn和代替了,3.1 参数

13、估计,如果 则是一种退化情况。对先验估计 非常确信。,称为“决断因子(dogmatism)”,该值不是无穷大且样本足够多时 趋近于样本均值mn,两种极端情况:,p(x|X)p(x|i,Xi)的估计,得到均值的后验密度p(|X)后,可以计算类条件概率密度p(x|X)。分别讨论单变量和多变量的情况。,贝叶斯估计,单变量的情况,根据以下公式:,p(x|X)p(x|i,Xi)的估计,得到:,p(x|X)p(x|i,Xi)的估计单变量的情况,其中,故,此时,方差和2相比增加了,因为对均值的不确定性增加了对x的不确定性。这样就确定了类条件概率密度。和最大似然估计不同,贝叶斯估计方法估计了p(x|X)的分布

14、,而最大似然估计只是估计了方差和均值。,p(x|X)p(x|i,Xi)的估计单变量的情况,多变量的情况,假设:,p(x|X)p(x|i,Xi)的估计,进行配方和变量代换,简化为,利用对应项相等的原则,得:,p(x|X)p(x|i,Xi)的估计多变量的情况,可以证明,(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1A,如果利用积分:,p(x|X)p(x|i,Xi)的估计多变量的情况,可以证明,因为x可以看成两个互相独立的变量的和,故:,Bayes(MAP)估计与ML估计的关系:当样本数趋于无穷时,MAP估计一般趋向于ML估计ML估计也可以看作参数的先验概率密度函数服从均匀分布(相当于

15、没有先验知识)的MAP估计当参数的先验概率密度函数比较准确时,MAP估计的小样本性质大大优于ML估计。,3.1 参数估计,参数估计中的模型选择问题:实际工作中处理的大都是高维数据:d 10。统计学中经典的多元(高维)分布很少,研究最详尽的是多元正态分布。近几十年的研究发现,实际所处理的高维数据几乎都不服从正态分布。通过增加模型的复杂程度(参数的个数),如正态模型的线性组合高斯混合模型,试图“逼近”真实的分布,出现了过拟合问题。,3.1 参数估计,与参数估计需要事先假定一种分布函数不同,非参数估计(non-parametric method)不做任何模型假设。主要方法:概率密度的估计Parzen

16、法;kN近邻法。,3.2非参数估计,3.2非参数估计,一个向量x落在区域R中的概率为,3.2非参数估计,P是概率密度函数p(x)的平滑的(或者取平均的)版本。可以通过估计概率P来估计概率密度函数p。假设n个样本x1,xn都是根据概率密度函数p(x)独立同分布(i.i.d.)的抽取而得到的。,其中k个样本落在区域R中的概率服从二项式定理:,3.2非参数估计,k的期望值为,k的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k/n就是概率P的一个很好的估计。当样本个数n非常大时估计将非常准确。如果假设p(x)是连续的,并且区域 R足够小,以至于在这个区间中p几乎没有变化,那么有,3.2非参数

17、估计,其中x为一个点,而V则是区域R 所包含的体积。得到p(x)的估计为,3.2非参数估计,区域R的体积,R中的点,固定,越来越多,在概率上收敛,p(x)的平均估计,R足够小,3.2非参数估计,估计x点的密度构造一串包括x的区域序列R1,R2,Rn,对R1,采用一个样本估计对R2,采用两个样本估计设Vn是Rn的体积,kn是落入Rn中的样本数,p(x)的第n次估计,3.2非参数估计,满足,p(x),3.2非参数估计,有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个确定的体积函数来逐渐收缩一个给定的初始区间。第二种方法是确定kn为n的某个函数,这样,体积就必须逐渐生长,直到最后能包含进

18、x的kn个相邻点,这就是kn-近邻法”。这两种方法最终都能够收敛,但是却很难预测它们在有限样本情况下的效果。,3.2非参数估计,这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计出测试样本点处的真正的概率密度函数。,3.2非参数估计,根据某个函数逐渐缩小区域面积,缩小区域面积的方式依赖于样本点的,两种非参数方法:Parzen窗法:使区域序列的体积Vn按n的某个函数随n的增大的关系不断缩小,如VnV1/n,而对kn和kn/n加以限制使,3.2非参数估计,两种非参数方法:kn近邻估计:使kn为n的某个函数随N的增大而变大,如knn,而Vn的选取使相应的Rn是只包含kn个近邻点的最小区域,

19、其体积可以作为x点密度估计时的最小Vn。,3.2非参数估计,两种常用的核(窗)函数:均匀核(窗):x=(x1,x2,xd)Rd,3.2非参数估计,正态(高斯)核:,3.2非参数估计,核函数要满足概率密度函数的条件。,Parzen窗法:把核函数看作“窗”,根据样本 x1,x2,xn,若xi落入以x为中心,以hn为棱长的超立方体Rn中,则计数为1,否则为0,则,落入立方体Rn中的样本数,3.2非参数估计,根据,hN是控制“窗”宽度的参数,根据样本的数量选择。这就是Parzen窗方法。,叠加函数,叠加基函数,使用kn个以样本xi为中心的窗函数叠加对x处的概率密度进行估计。样本较密集的区域上概率密度值

20、较大。,3.2非参数估计,窗函数一般应满足下面的条件:,保证,3.2非参数估计,窗的宽度hn对pn(x)的影响。定义n(x)如下:,则pn(x)为,hn和 的关系如图所示。,3.2非参数估计,不同窗宽的估计效果:二维圆周对称正态Parzen窗的例子,其中h取三个值。,3.2非参数估计,不同窗宽的估计效果:具有5个样本点的样本集进行Parzen窗概率密度估计结果。,3.2非参数估计,对于任意的hn,分布是归一化的,即,3.2非参数估计,hn(Vn)的选取将在很大程度上影响pn(x)。如果Vn太大,估计结果的分辨率很低;如果Vn太小,估计结果的稳定性不够;有限样本个数的约束下,只能取某种折中。如果

21、样本个数无限,就可以在n增加时,让Vn缓慢地趋近于零,同时pn(x)收敛于某个概率密度函数p(x)。,对于固定的x值,pn(x)依赖于样本x1,xn,即pn(x)具有均值 和方差,3.2非参数估计,hn(Vn)的选取将在很大程度上影响pn(x)。,为了保证收敛性,必须对未知的概率密度函数p(x)、窗宽度hn和窗函数 做必要的约束,通常要求p()在点x处连续。下面将证明只要满足下列条件就能保证收敛:,3.2非参数估计,均值的收敛性因为样本xi都是未知概率密度p(x)的独立同分布的抽样得到的,故有,3.2非参数估计,这个方程表明均值的期望是未知概率密度函数值的平均对未知概率密度函数和窗函数的一种卷

22、积。,方差的收效性因为pn(x)是一些关于统计独立的随机变量的函数的和,所以其方差就是这些分开项的和,所以有,3.2非参数估计,方差的收效性去掉第二项,使用上面公式,有,3.2非参数估计,为了得到较小的方差,必须要有较大的Vn值。因为大的Vn能够把概率密度函数中的局部变动都平滑掉。然而,因为当n趋近于无穷大时,分母仍为有限值,因此可以让Vn趋近于零,只要nVn趋近于零,并且仍然得到零方差。,举例说明考虑当p(x)是零均值、单位方差、单变量的正态情况。固定窗函数的形式为,3.2非参数估计,令,使用不同窗宽和样本数量对一维正态概率密度进行Parzen窗的估计效果。,3.2非参数估计,使用不同窗宽和

23、样本数量对二维正态概率密度进行Parzen窗的估计效果。,3.2非参数估计,使用不同窗宽和样本数量对混合概率密度函数进行Parzen窗的估计效果。,3.2非参数估计,均匀核函数Parzen窗估计的几何意义:点x处概率密度=,3.2非参数估计,Parzen窗方法的特点:适用于各类复杂概率密度的估计 规则的、不规则的、单峰的、多峰的要求样本分布较好且数量大估计过程复杂窗函数对提高精度和减少样本数量非常重要!,kn近邻估计:均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。kn近邻估计:把窗扩大到刚好覆盖kn个点。落在窗内的样本点的数目固定,窗宽是变化的。kn根据样本总数

24、n选择。,3.2非参数估计,概率密度估计表达式:点x处窗的“体积”是Vn:,3.2非参数估计,一个kn近邻估计例子,对两个一维概率分布的一些kn近邻估计,一个高斯函数,一个是三角形分布,当n值为有限时,估计结果显得非常“粗糙”和“崎岖不平”,3.2非参数估计,kn的选择:渐进收敛容易保证;有限样本性质、最小平方误差与Parzen窗几乎相同。,3.2非参数估计,3.3 说明,高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。先估计概率密度,再进行分类,可能走了“弯路”。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号