《概率密度函数的估计.ppt》由会员分享,可在线阅读,更多相关《概率密度函数的估计.ppt(77页珍藏版)》请在三一办公上搜索。
1、第三章 概率密度函数的估计,请各位思考的问题,1、我们可以构造一个比贝叶斯规则更好的分类器吗?2、利用贝叶斯法则构造分类器的前提条件是什么?3、为何要估计密度以及如何估计密度?,Table of Contents,3.1 引言,基于样本的Bayes分类器:通过估计类条件概率密度函数,设计相应的判别函数,分类器功能结构,基于样本的直接确定判别函数方法,基于样本的Bayes分类器设计,Bayes决策需要已知两种知识:各类的先验概率P(i)各类的条件概率密度函数p(x|i),知识的来源:对问题的一般性认识或一些训练数据基于样本的两步Bayes分类器设计利用样本集估计P(i)和p(x|i)基于上述估计
2、值设计判别函数及分类器面临的问题:如何利用样本集进行估计估计量的评价利用样本集估计错误率,引言,基于样本的Bayes分类器,最一般情况下适用的“最优”分类器:错误率最小,对分类器设计在理论上有指导意义。获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。,引言,直接确定判别函数,基于样本的直接确定判别函数方法:针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。这些准则的“最优”并不一定与错误率最小相一致:次优分类器。实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数g(x)=wTx(决策面是超平面),能否基于样本直接确定w?,引言,
3、概率密度估计的方法,类的先验概率P(i)的估计:用训练数据中各类出现的频率来估计依靠经验,引言,类条件概率密度函数的估计:两大类方法参数估计:概率密度函数的形式已知,而表征函数的参数未知,需要通过训练数据来估计最大似然估计Bayes估计非参数估计:概率密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计Parzen窗法kn-近邻法,3.2 参数估计,统计量:总体的某种信息是样本集K=x1,x2,xN的某种函数f(K)。参数空间:总体分布的未知参数所有可能取值组成的集合(),点估计和区间估计点估计的估计量(variable)和估计值(value):,估计量的评价标准,估计量的评价标
4、准:无偏性,有效性,一致性无偏性:E()=有效性:D()小,估计更有效一致性:样本数趋于无穷时,依概率趋于:,3.2.1 最大似然估计,Maximum Likelihood(ML)估计估计的参数是确定而未知的,Bayes估计方法则视为随机变量。样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|i)与参数的依赖关系,用p(x|i,)表示。独立地按概率密度p(x|)抽取样本集K=x1,x2,xN,用K估计未知参数,似然函数,似然函数:,对数(loglarized)似然函数:,最大似然估计,最大似然估计,最大似然估计,
5、最大似然估计示意图,最大似然估计,计算方法,最大似然估计量使似然函数梯度为0:,最大似然估计,3.2.2 贝叶斯估计-最大后验概率,用一组样本集K=x1,x2,xN估计未知参数未知参数视为随机变量,先验分布为 p(),而在已知样本集K出现的条件下的后验概率为p(|K)最大后验概率估计-Maximum a posteriori(MAP),贝叶斯决策问题与贝叶斯估计问题,贝叶斯决策问题:样本x决策ai真实状态wj状态空间A是离散空间先验概率P(wj),贝叶斯参数估计问题:样本集K=xi估计量s真实参数s参数空间S是连续空间参数的先验分布p(s),贝叶斯估计,贝叶斯风险最小估计问题:用一组样本集K=
6、x1,x2,xN估计未知参数,使估计带来的风险最小。,贝叶斯(最小风险)估计,参数估计的条件风险:给定x条件下,估计量的条件风险,参数估计的风险:估计量的条件风险的期望,贝叶斯估计:使风险最小的估计,贝叶斯估计,贝叶斯估计(II),贝叶斯估计,损失函数定义为误差平方:,定理 3.1:如果定义损失函数为误差平方函数,则有:,贝叶斯估计的步骤,确定的先验分布 p()由样本集K=x1,x2,xN求出样本联合分布:p(K|)计算的后验分布计算贝叶斯估计,贝叶斯估计,3.3 正态分布的参数估计,最大似然估计示例贝叶斯估计示例,3.3.1 一元正态分布例解,最大似然估计,一元正态分布均值的估计,最大似然估
7、计,一元正态分布方差的估计,最大似然估计,多元正态分布参数最大似然估计,最大似然估计是一致估计均值估计是无偏的,协方差矩阵估计是有偏的。协方差矩阵的无偏估计是:,总体均值向量和协方差矩阵,最大似然估计,3.3.2 一元正态分布贝叶斯估计例解,总体分布密度为:,贝叶斯估计,均值为随机未知变量,的先验分布为:,用贝叶斯估计方法求的估计量,样本集:K=x1,x2,xN,计算的后验分布:,一元正态分布例解(II),计算的后验分布:,贝叶斯估计,计算的贝叶斯估计:,一元正态分布例解,总体分布密度为:,均值为随机未知变量,其先验分布为:样本集:K=x1,x2,xN,计算的后验分布:,贝叶斯估计,3.4 非
8、参数估计,非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称作模型无关方法。参数估计需要事先假定一种分布函数,利用样本数据估计其参数。又称作基于模型的方法两种主要非参数估计方法:核函数方法直方图法Parzen窗法kN-近邻法神经网络方法:PNN,参数PK非参数:,非参数估计的优点:(1)在利用样本数据对总体进行估计时,不依赖于总体所属的分布总体的分布形式,尤其是当对总体的分布不是很清楚时,因而非参数模型的适用性比较广,与参数方法相比,具有较好的稳健性。(2)由于不必假定总体分布的具体形式,所以也无需多总体分布所具有的参数进行估计和检验。如果方法选择得当,非参数
9、估计方法与参数估计的效果相差不多,尤其当参数估计的假设不满足时,非参数估计会比参数估计方法更为有效。非参数估计也有其缺点:(1)如果对总体的了解足以确定它的分布类型,非参数估计就不如参数估计那样有更强的针对性。(2)它没有充分利用样本所携带的关于总体的信息,因而有时它的效率会低一些,或者在相同的精度下,非参数估计比参数估计需要更大的样本。,1、计算最大值与最小值的差(知道这组数据的变动范围):,2、决定组距与组数(将数据分组),组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。组距:指每个小组的两个端点的距离,,3、决定分点,,画频率分布直方图的步骤,4、列出频率分布表.,5
10、、画出频率分布直方图。,抽查某地区55名12岁男生的身高(单位:cm)的测量值如下:128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 142.4 140.8 127.7 150.7 160.3 138.8 154.3 147.9 141.3 143.8 138.1 139.7 142.9 144.7 148.5 138.3
11、135.3 134.5 140.6 138.4 137.3 149.5 142.5 139.3 156.1 152.2 129.8 133.2试从以上数据中,对该地区12岁男生的身高情况进行大致的推测。,例 题,解:频率分布表如下:,频率分布条形图如下:,身高,利用样本频率分布对总体分布进行相应估计,(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线总体密度曲线。,(2)样本容量越大,这种估计越精确。,(1)上例的样本容量为50,如果增至500,其频率分布直方图的情况会有什么变化?假如增至5000呢?,总体密度曲线,产品尺寸,a,b,(图中阴影部分的面积,表示
12、总体在某个区间(a,b)内的取值概率)。,用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值概率。,总体密度曲线反映了总体在各个范围内取值的概率,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,直方图估计法作为一种非参数估计方法,广泛被应用,直方图方法的特点是方法简单直观,但直方图在处多维数据时计算十分复杂,数据的大小范围必须事先知道,密度估计结果曲线不光滑;因此人们开始考虑用核估计方法进行密度估计。SILVERMAN 把直方图估计看成是一种一维非参数核密度估计
13、方法,宽度选择对界的影响很大,当直方图的宽度取得很小时个体特征很明显出现多峰状态(图1a),但当宽度越来越大时个特征逐渐消失(图1c)。因此,如果使用直方图估计密度时宽度选择必须适中,宽度过大或过小都可能掩盖主统计特征。图1b 较为合理。,直方图总结,2、核函数方法基本思想,令R是包含样本点x的一个区域,其体积为V,设有n个训练样本,其中有k落在区域R中,则可对概率密度作出一个估计:,相当于用R区域内的平均性质来作为一点x估计,是一种数据的平滑。,有效性,当n固定时,V的大小对估计的效果影响很大,过大则平滑过多,不够精确;过小则可能导致在此区域内无样本点,k=0。此方法的有效性取决于样本数量的
14、多少,以及区域体积选择的合适。,收敛性,构造一系列包含x的区域R1,R2,,对应n=1,2,,则对p(x)有一系列的估计:,当满足下列条件时,pn(x)收敛于p(x):,区域选定的两个途径,Parzen窗法:区域体积V是样本数n的函数,如:,K-近邻法:落在区域内的样本数k是总样本数n的函数,如:,Parzen窗法和K-近邻法,3.4.1 Parzen窗方法,定义窗函数,1维数据的窗函数,概率密度函数的估计,超立方体中的样本数:概率密度估计:,核函数的选择可以有多种:如Parzen 窗(uniform)、三角(Triangle)、Epanechikov、四次(Quartic)、三权(Triwe
15、ight)、高斯(Gauss)、余弦(Cosinus)、指数(Exponent)等。核函数的选择取决于根据距离分配各个样本点对密度贡献的不同。通常选择什么核函数不是密度估计中最关键的因素,因为选用任何核函数都能保证密度估计具有稳定相合性。最重要的是带宽对估计分布的光滑程度影响很大,自然地如何选择带宽将成了最重要的问题。核函数的密度估计之所以能受到欢迎,是因为它在带宽选择上能从数学的角度进行论证带宽最优原则。并且在独立同分布的情况下,核估计量具有逐点渐进无偏性和一致渐进无偏性、均方相合性、强相合性、一致强相合性等。,核函数的形式重要吗?,窗函数的要求,上述过程是一个内插过程,样本xi距离x越近,
16、对概率密度估计的贡献越大,越远贡献越小。只要满足如下条件,就可以作为窗函数:,窗函数的形式,窗函数的宽度对估计的影响,hn称为窗的宽度,窗函数的宽度对估计的影响,识别方法,保存每个类别所有的训练样本;选择窗函数的形式,根据训练样本数n选择窗函数的h宽度;识别时,利用每个类别的训练样本计算待识别样本x的类条件概率密度:采用Bayes判别准则进行分类。,3.4.2 核函数方法,估计的目的:从样本集K=x1,x2,xN估计样本空间中任何一点的概率密度p(x)基本方法:用某种核函数表示某一样本对估计密度函数的贡献,所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计,非参数估计,核函数方法图解,
17、非参数估计,一个样本对自己所在位置的分布贡献最大,离得越远贡献越小,基本方法,基本思想:,两种常用的方法:Parzen窗法:kN-近邻法:,非参数估计,3.4.3 Parzen窗法,样本集KN=x1,x2,xN区域RN是一个d维超立方体,棱长hN,体积VN=hNd定义窗核函数:,落入超立方体内样本数kN:某点概率密度p(x)的估计,非参数估计,计数函数,核函数的选择,核函数需满足归一化条件:,两种常用的核函数:均匀核(方窗):正态核(高斯窗):,非参数估计,窗宽的选择,hN是控制“窗”宽度的参数,根据样本的数量选择。太大:平均化,分辨力低太小:统计变动大,不同窗宽的估计效果,非参数估计,估计密
18、度函数的统计性质,为保证估计依概率渐进收敛到真实的概率密度,即:,估计密度函数是渐进无偏和平方误差一致的。其充要条件:,非参数估计,63,Parzen窗法示例1,非参数估计,估计单一正态分布,64,Parzen窗法示例2,非参数估计,估计两个均匀分布,示例代码,mus=0.2 0.3;0.35 0.75;0.65 0.55;0.8 0.25;C=0.018 0.007;0.007 0.011;z=gauss(200,mus,C);x,y=gendat(z,100);w=parzenc(x);%Parzenfigure(1);scatterd(z);hold on;plotm(w);figure
19、(2);scatterd(z);hold on;plotc(w);z=gauss(1000,mus,C);x,y=gendat(z,900);w=parzenc(x);figure(3);scatterd(z);hold on;plotm(w);,有限样本的影响,密度估计的均方误差:,维数灾难(Curse of Dimensionality):当维数较高时,样本数量无法达到精确估计的要求。,非参数估计,kN-近邻法,均匀核函数Parzen窗估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。kN-近邻估计:把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定,窗宽是变化的。kN根据样本总
20、数N选择。概率密度估计表达式:,非参数估计,点x处窗的“体积”是Vn,收敛条件,经验值,kN-近邻法举例,kN的选择:渐进收敛容易保证;有限样本性质、最小平方误差与Parzen窗方法几乎相同。,非参数估计,3.5 分类器错误率的估计,在处理实际问题时,更多的是利用样本来估计错误率。对于已设计好的分类器,利用样本来估计错误率。Test Dataset。对于未设计好的分类器,需将样本分成两部分(Train Dataset和Test Dataset)。,1.已设计好的分类器的错误率估计,错误率的估计:错分样本数/总样本数,错误率估计,这是错误率的最大似然估计。错分样本数k是随机变量,服从二项分布,错
21、误率估计的统计性质,是真实错误率的无偏估计,测试样本数越多,1)估计越有效,2)估计的置信区间越小。如果已知各类的先验概率,则可进行选择性抽样产生测试样本集,这比随机抽样更为有效。,错误率估计,未设计好的分类器的错误率估计,需要把样本集分为训练集和测试集C-法:利用N个样本设计,也利用这N个样本测试。得到乐观估计。U-法:把样本集分为训练集和测试集。得到保守估计。样本划分法:样本数需要比较多,测试样本数越多越有效。留一法:样本较少时,N-1个样本设计,另一样本测试,遍历N个样本。假设错分样本数为K,则错误率估计为:,错误率估计,3.6 讨论,概率密度函数包含了随机变量的全部信息,是导致估计困难
22、的重要原因。高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。先估计概率密度,再进行分类,可能走了“弯路”。,作业完成后请实名制发表在群社区的论坛里QQ群:93954992,练 习,1.有一个容量为50的样本数据的分组的频数如下:,12.5,15.5)3,15.5,18.5)8,18.5,21.5)9,21.5,24.5)11,24.5,27.5)10,27.5,30.5)5,30.5,33.5)4,(1)列出样本的频率分布表;,(2)画出频率分布直方图;,(3)根据频率分布直方图估计,数据落在15.5,24.5)
23、的概率是多少?,2.对某电子元件进行使用寿命追踪调查,情况如下:,(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件使用寿命在400小时以上的概率。,练 习,习题,一元正态分布的最大似然估计:假设样本x服从正态分布N(,2)已获得一组样本 x1,x2,xN 用C/Java/Matlab语言设计一程序片断,计算上题中的估计参数(,2)试简述参数估计,非参数估计和非参数分类器等概念间的关系证明对正态总体的期望u的最大似然估计是无偏的,对方差s2的最大似然估计是有偏的。,习题,已知一数据集有两类样本,第一类有四个样本,分别为:(0,0,1),(1,1,1),(1,0,1)及(1,0,0),第二类也有四个样本,分别为:(0,0,0),(1,1,0),(0,1,0)及(0,1,1)。1)试求该数据集的均值向量和协方差矩阵。2)说明该协方差矩阵中每个元素的含义。给出Parzen窗估计的程序框图。,