《非参数密度估计和回归.ppt》由会员分享,可在线阅读,更多相关《非参数密度估计和回归.ppt(33页珍藏版)》请在三一办公上搜索。
1、第十章 非参数密度估计和非参数回归简介,10.1非参数密度估计 10.1.1 一元密度估计 10.1.2 多元密度估计10.2非参数回归,10.1非参数密度估计,例10.1在美国黄石国家公园有一个间歇式的温泉,它的喷发间隔很有规律,大约66分钟喷发一次,实际上从33分钟到148分钟之间变化,水柱高度可达150英尺,由于其喷发保持较明显的规律性,人们称之为老忠实.问题:人们想知道间隔时间的密度函数.,一元密度估计,直方图记录了每个区间中点的个数或频率,但很难给出较为准确的密度估计.核密度估计:原理和直方图类似,计算某一点周围点的个数.若数据为,在任意一点x处的一种核密度估计为其中 K(.)称为核
2、函数,满足对称性及h称为带宽,一般,h越大,估计的密度函数就越光滑,但偏差可能较大,选择的原则是使得均方误差最小为宜.(交叉验证法,直接插入法)注:该估计利用数据点 xi 到x的距离来决定 xi 在估计点x的密度时所起的作用,局部多项式密度估计:目前最流行,效果很好的密度估计方法.对每一个点x拟合一个局部多项式来估计该点的密度.k近邻估计:无论欧氏距离多少,只要是x点的最近的k个点就可参与加权.一种具体的k近邻密度估计:令 表示按升幂排列的x到所有n个样本点的欧氏距离.K的取值决定了估计密度曲线的光滑程度,k越大越光滑.与核估计结合起来定义广义的k近邻估计:,多元密度估计,对于二元数据,可以画
3、二维直方图.假定x为d-维向量,则多元密度估计可以为其中,10.2 非参数回归,回归是指给了一组数据 之后,希望找到一个X变量和Y变量的一个关系:主要目的是对m(x)进行估计.例10.2 研究摩托车碰撞,变量times(X)为在模拟的和摩托车相撞之后的时间,变量accel(Y)是头部的加速度.问题:X和Y之间有何种函数关系?,回归实际上就是把原始数据点光滑化,线性回归是最光滑的,此外还可以用多项式或其它函数来拟合.在非参数回归中,主要考虑的是局部加权回归方法,有核光滑,局部多项式回归,k-近邻光滑,样条光滑等,滑动平均:最初等的平滑是三点滑动平均,把每一点的Y值用该点的和邻近两点的平均代替.平
4、均的点数越多,就越光滑.核回归光滑:基本思路和三点平均是类似的,只不过作平均时是按照核函数进行加权平均.Nadaraya-Watson形式的核估计,GausserMuller核估计:其中,k-近邻光滑:令Jx表示和x最近的k个点的集合,此时其中局部多项式回归:假定在局部上,回归函数m(.)在x的邻域点z可以由Taylor展开来近似:,需要估计出,再加权,这归结为所谓的局部的加权多项式回归,它要选择,使得下式最小记这样的对 的估计为,由此得到 的估计也就是说在每一点x的附近运用估计:当p=1时称为局部线性估计.局部多项式估计有很多优点:兼备有NadarayaWatson估计和Gausser-Mu
5、ller估计二者的优点,而且在边沿附近的性质又优于这二者.,Loess局部加权多项式回归 最初由Cleveland 提出,后又被Cleveland离该点越远,权重越小,该点的回归函数值就是这个局部多项式来得到,而用于加权最小二乘回归的数据子集是由最近邻方法确定.最大优点:不需要事先设定一个函数来对所有数据拟合一个模型.Loess很灵活,适用于很复杂的没有理论模型存在的情况.数据越密集,Loess的结果越好.,光滑样条:原理是调和拟合度和光滑程度.选择的近似函数f(.)要使下式尽可能地小:当(0)大时,二阶导数要很小才行,这样就使得拟合很光滑,但第一项代表的偏差就可能很大.Friedman超光滑法:这种方法会使得带宽随着x变化.对每个点有三个带宽来自动选取,这依据该点每边的邻域中的点数而定,不用迭代,该方法是源于斯坦福大学的Friedman用Fortran程序来实现.,第十章 非参数密度估计 和非参数回归简介,主要内容:10.1非参数密度估计 一元密度估计 多元密度估计 10.2非参数回归,