《概率密度函数的估计非参数估计.ppt》由会员分享,可在线阅读,更多相关《概率密度函数的估计非参数估计.ppt(31页珍藏版)》请在三一办公上搜索。
1、模 式 识 别,第3章 概率密度函数的估计,总体分布的非参数估计,前面的方法密度函数的形式已知存在问题密度函数的形式常常未知一些函数形式很难拟合实际的概率密度经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,因此用非参数估计,总体分布的非参数估计,非参数估计处理问题直接用已知类别样本去估计总体密度分布p(x|i)需要计算p(x|i)的每个点的值方法用样本直接去估计类概率密度p(x|i)以此来设计分类器,如窗口估计用学习样本直接估计后验概率p(i|x)作为分类准则来设计分类器如k近邻法.,本章只考虑第一种方法,总体分布的非参数估计,概率密度函数估计的基本思想一个随机变量x落在区域R的概率为
2、P,p(x)是要求的x的概率密度,概率P是p(x)在区域R上平滑或平均后得到的概率,我们可以通过估计P来估计p(x)的平滑值,总体分布的非参数估计,估计概率P假设有N个样本X=(x1,x2,xN)T都是独立同分布的,概率密度函数是p(x)。N个样本中有k个落入在R内的概率符合二项分布,即:其中P是样本x落入R内的概率Pk是k个样本落入R内的概率,总体分布的非参数估计,估计概率P则随机变量k的数学期望:E(k)=NPk可以直接从训练样本估计得到根据N个训练样本中落入区域R的样本数k,可得到概率P的一种估计,为:,总体分布的非参数估计,估计概率p(x)设p(x)在R内连续变化当R逐渐减小的时候,小
3、到使p(x)在其上 几乎没有变化时,则:,总体分布的非参数估计,估计概率p(x)密度p(x)的估计:上式就是对x点概率密度p(x)的估计值,(V足够小),真实概率是 0.7,横坐标是k/N,纵坐标是概率分布,总体分布的非参数估计,p(x)估计值的收敛性讨论当V固定的时候N增加,k也增加,当 时,则k/N在概率上收敛但我们只能得到p(x)的空间平均估计,即,必须让体积V趋于零。,总体分布的非参数估计,p(x)估计值的收敛性讨论N固定,体积V变小当 时,如果k=0当 时,如果k0,所以如果样本有限,则估计值一定有方差。,总体分布的非参数估计,p(x)估计值的收敛性讨论考虑无限多样本情况构造一串包括
4、x的区域序列R1,R2,RN.对R1采用1个样本进行估计,对R2采用2个样本进行估计,VN是RN的体积,KN是N个样本落入VN的样本数则,密度的第N次估计:,总体分布的非参数估计,p(x)估计值的收敛性讨论若pN(x)收敛于p(x)应满足三个条件:,总体分布的非参数估计,两种非参数估计方法Parzen窗口估计使得序列VN以N的某个函数的关系不断缩小并对随机变量kN和kN/N加上必要的限制条件,确保估计值的收敛例如:kN近邻估计让kN为N的某个函数,而VN的选取是使相应的RN正好包含x的kN个邻域例如:,Parzen窗口估计使得序列VN以N的某个函数的关系不断缩小并对随机变量kN和kN/N加上必
5、要的限制条件,确保估计值的收敛,KN近邻估计让kN为N的某个函数,而VN的选取是使相应的RN正好包含x的kN个邻域,Parzen窗口估计,假设RN为一个d维的超立方体,hN为超立方体的长度超立方体体积为:定义窗函数,Parzen窗口估计,落入超立方体的样本数为:代入,得Parzen窗法的基本估计公式,Parzen窗口估计,保证估计量pN(x)为密度函数而对窗口函数的限制,Parzen窗口估计,窗函数d=1,窗口为一线段d=2,窗口为一平面d=3,窗口为一立方体 d3,窗口为一超立方体窗函数选择,Parzen窗口估计,窗函数宽度对幅度的影响,窗函数越宽,幅度越小,二维正态对称Parzen窗口,P
6、arzen窗口估计,窗函数宽度对估计结果的影响,二维正态对称Parzen窗口,训练样本数为5,窗函数宽度对分类器边界的影响,窗函数宽度较窄,,决策边界复杂,窗函数宽度较宽,,决策边界平滑,Parzen窗口估计,估计量pN(x)的性质希望达到,Parzen窗口估计,估计量pN(x)的性质限制条件(1)pN(x)在x点连续(2)窗函数满足(3)窗宽受下列条件约束,Parzen窗口估计,kN近邻估计,窗函数法问题(对hN的选择问题)若hN选太小,则大部分体积将是空的(即不包含样本),从而使PN(x)估计不稳定。若hN选太大,则PN(x)估计较平坦,反映不出总体分布的变化kN近邻法的思想体积是数据的函数,而不是样本数N的函数根据KN选择hNKN是N的函数,kN近邻估计,kN对估计结果的影响,导数不连续,kN近邻估计,K=5,