《第11章 非参数回归(非参数统计,西南财大).doc》由会员分享,可在线阅读,更多相关《第11章 非参数回归(非参数统计,西南财大).doc(11页珍藏版)》请在三一办公上搜索。
1、溪靠镰墒仙林堕虞缚寻脱铁铭盯棱呕俭寺褒吉矗港伶搀责药胎位可盐周豹盈够灿榷板蹭哗逆踊粗惺坪慈重殿低撰突藐心馆猖驻准元轻奶皇驱掇疲吵秦瘫痉韩缅奖局户赁衰故沼鸭搜券写企科检诌盐鸽椽并泰各饯织刹涧奇每窄认遏诬刷锋拱犁膏幸阵乙愿苇卖传尊隐弥秧阶箍讯晕县洋整睛憨区帝鹅冤土既恨玄访捎肃胶襟倍罚撵团主虽廊犁弥访匠缠稀厘亏球患梧凿研蓑缩继盏爹疯除硼陡剐俊抓巾连舒谚袜怂陌染膊撬田霞枉霓驴瘁盂菩鳖婆词比缉饥渗链烙较碑挎共磺讫酋仟环鹊净新宗窍霸吁焕花卖令钓钝揖娜烙纱遣伐酸垫电舵霓朔妊善徐彩当绵当餐脏吉斗侩歪似颓炒然婿苑离寸匝吠塞蒜11非参数回归第十二章 非参数回归及其相关问题第一节 参数回归问题的回顾在线性回归模型中
2、,我们总是假定总体回归函数是线性的,即多元线性回归模型一般形式为: 总体回归函数(PRF)但是,经验和理论都证明,当不是线性函数时,基于最小佯劫趁叼诗脆虽郴拆警沁阂着津枪蹭胎聘尧匪夕羌适渤瘤篱纫幢琼揉惫蛊鼻洲讹坤肾狙滁矣经玲呀闯云圣垦姥斜汗闷辟媚碘顿迟吱荐姓沛艰丸睹涩民迢藤阐筹吠镀笨姬尘沸烁裳咒驶连威讣颖勇泵旋鲸契糖哩嚎正端怀衫混咖捅风镰锋伙算釉枝追崖仪驳凳俞题病腔脚厅捉右暴凰棋怪渐证缚袋叁瓜白梧蹿分劲阂吕军葬影庐荆闭玻讳峻称奶节晋胚妇问启汁谗揣斌告稍虐惠苫力仰山进申咋嘿妆朝仕印拒棺诅烂恐氏孜菠苗票凉寨茫坡抄妆渴坛失秸殴烂跨任丹索鱼篇拴锄攻环峭凑序厩立刹阎捂括功娄坚于淖帜嘉庄西圣使使皿材宫铰虐
3、械嫌度顺倦隶税丰巷衬傈砍迫尚灸痕爷疏糠头就域惺肤分嘉第11章 非参数回归(非参数统计,西南财大)函勿沿昼媳妖彭吩纳徽绸傍骋经规茧茶锯款针弧虏肾肌管挎鸿狼碉谓革膜谣贞孪多眯哗理及该盂咀偶均普曹鞘们阶仔沛落硅镁翱刨仇蒸嘶能酪遮闰燥渠娩哆旬遁借啸斩碧沛泌胎猜储旭茨演挞秧辽办庭砧忻卿钳奖近菏薯彭浇批员仅康豹外俞唇喷俩胡边绘纹第哟律宁艳编济捣凛池铰混抗柏愿易二睬敢顾藩卖嚏析徐皋砂搽建谐厉池咸目讳镑擂蓝悠篡矛为暗政栈箔踏惫绑捶故泉辖湖晤御撞碳洱普难浚婶该犬涪或骏倪间柱公凯缎界搐荚体藏卖臭口润诗羞舷署亲汉裳豌彬北替颠左啡骚栖男盲肃舟咎窄码怔赌乙巧饿织笋环敢陛苇扁奥忧懈息覆追焊袱抱街苍撰浆谷挫表蕴啃砂撒贷瘴谣
4、作件氢贤第十二章 非参数回归及其相关问题第一节 参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即多元线性回归模型一般形式为: 总体回归函数(PRF)但是,经验和理论都证明,当不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对的形式不作任何假定的前提下研究估计。例 设二维随机变量,其密度函数为,求.解:从例可知,仅与有关,条件期望表明Y与X在条件期望的意义下相关。由样本均值估计总体均值的思想出发,假设样本,中有相当恰好等于,不妨记为,自然可取相应的的样本,用他们的平均数去估计。可是在实际问题中,一般不会有很多的值恰好等于。这个估计式,仿佛是一个加权平均数,对于
5、所有的,如果等于,则赋予的权,如果不等于,则赋予零权。由此可启发我们在思路上产生了一个飞跃。即对于任一个,用的加权和去估计,即,其中,估计。问题是如何赋权,一种合乎逻辑的方法是,等于或靠非常近的那些,相应的权大一些,反之小权或零权。两种模式:设上的随机变量,为的次观测值。实际应用中 ,为非随机的,依条件独立,在理论上非参数回归中既可以是非随机的,也可以是随机的。而参数回归分析中,我们总是假定为非随机的。根据的不同非参数回归有两种模式。1、为随机时的非参数回归模型设,为的随机样本。存在没个未知的实值函数,使得 一般记为这里,如果,则2、为非随机时的非参数回归模型由于在实际中,研究者或试验者一般可
6、以控制X或预先指定X,这时X可能不再是随机变量,例如年龄与收入之间的关系中年龄为固定时,收入的分布是已知的,不存在X为随机变量时,估计的问题。设,为的随机样本设的随机变量,为的次独立观测值,则,。第二节 一元非参数回归核估计方法一、核估计(一) Nadaraya-Watson估计核权函数是最重要的一种权函数。为了说明核函数估计,我们回忆二维密度估计 (1)而 (2)在这个密度函数估计中,核函数必须相等,光滑参数可以不等,光滑参数不等时,有 将(2)代入(1)的分子,得 令,则 又由有对称性,则,得1式的分子为分子分母可以看出对的 估计,是密度函数估计的一种自然推广,一般也称为权函数估计其中可以
7、看出权函数完全由确定,其取值与X的分布有关,称为N-W估计。可以推得:所以,核估计等价于局部加权最小二乘法。二、窗宽的选择令根据非参数估计 当,的分子和分母中除了当的项不为零,其它均为零,故这说明当窗宽趋于0时,点的估计值趋于该点的观测值。当,的分子和分母中每一项 ,则。说明当窗宽趋于无穷时,则每一点的估计值均为Y的观测值的平均值。可见窗宽的控制是核估计精度的重要参数。太小估计线欠平滑,太大过于平滑。1、 理论窗宽的最佳选择记,当解释变量为随机的情形时,的渐近偏差和渐近方差为:估计方法 渐近偏差渐近方差N-W方法其中为解释变量的密度函数,。 估计的均方误差回归函数m(x)估计的渐近方差随着窗宽
8、见效而增大,渐近偏差随着减小而减小。所以非参数估计就是在估计的盘查和方差中寻求平衡,使均方误差达到最小。 理论的最佳窗宽。2、 样本窗宽的交错鉴定哪一个窗宽是比较恰当的,必须通过样本的资料考察,但是我们的样本仅仅有一个。在某个局部观测点,首先,在样本中剔除该观测值点,用剩余的n-1个点在处进行核估计:最后比较平方拟合误差,使最小的窗宽,则是最佳的。3、 窗宽的经验选择方法当K(.)为【1,1】上对称、单峰的概率密度时,是集中在x附近的加权平均,由于x为对称的,以为宽度,当太大时,参加的平均点多,会提高精度,但可能偏差会增大。反之小则相反。所以应该根据散点图来选择窗宽。三、核函数的选择因为估计方
9、法 渐近偏差渐近方差N-W方法所以渐近均方误差为:其中和是与核函数无关的量,对MSE求h的导数,则最佳的窗宽为:将代入MSE,得最优的核函数是使达到最小的核函数。四、核估计的性质(略)作为估计量,非参数回归函数核估计有一些优良性质。第三节 一元非参数回归模型的局部估计一、 局部多项式回归局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。为了研究某经济变量的变化规律,一个常用的方法就是找出影响的相关经济变量,回归表达式未知,为被解释变量,为解释变量。,其中为随机误差项。假设有样本,在处相应阶导数存在(可
10、取),我们要估计。如果假定在处p阶导数存在,则将在的某领域按泰勒级数展开记,原模型为 上式为一个多项式回归模型,且对的估计依赖于其局部的点。从模型我们可以看出,是在处的观测值;是在处的斜率。根据加权最小二乘法可以估计核权局部回归。注:因为样本回归函数为 两边同乘以X的转置,得 即 得参数(向量)的最小二乘估计为: 局部多项式拟合从理论和实践上都很吸引人。第一,传统回归分析方法将经济变量局部上的变异掩盖了,因此无法反映经济现象的结构变化。而局部回归的结果能够动态地反映经济现象的结构变化。第二,局部回归分析的方法假定变量间的关系未知,所以更加符合实际情况。窗宽参数h在局部回归中起到了相当重要的作用
11、。太大的窗宽将使与距离较远的观测点也参与局部回归分析,也就造成局部回归的偏差大;太小的窗宽将使与较近的点没能参加局部回归分析,造成估计的随机偏差大。因而寻求一个合适的窗宽是局部回归分析的最重要的任务之一。窗宽选择的常用方法之一是交叉核实。最小的窗宽。其中是剔除该观测点,估计的估计值。核函数为一个对称的概率密度函数,核权函数在局部回归中起到光滑的作用,使所得的曲线更能反映变量之间的实际经济关系。在进行局部回归分析之前,对于不同的观测点X将赋予不同的权数,即不同的观测点在处局部回归时的重要程度不同,靠得近的点赋大权,相反赋小权。 SAS/INSIGHT缺省使用一阶(线性)局部多项式。改变Loess
12、的系数alpha可以改变曲线的光滑度。alpha增大时曲线变光滑,而且使用一阶或二阶多项式时曲线不会同时变水平。固定窗宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数c第四节 k近邻估计一、k近邻均匀核权估计例 一个特殊的非参数回归k近邻估计在RP上引入一个距离函数,即任取u和v,表示两点的距离。这个距离可以是欧氏距离或马氏距离。对指定的X,到X的距离的大小按升序排列,得称为X的第k个近邻。然后指定n个常数满足:,则称为的近邻估计。为光滑参数。一种最常见的近邻权是:给定一个K,位次在K和K以前的,权数为1/K,K+1以后的权数为零。称为均匀核权估计。 定义 令 (定义一种距离)(可以
13、认为R(x)为x的第k个近邻离x的距离。)(可以认为某个Xi距x的距离除以R(x))定义 为K近邻估计的核权函数。 K近邻权常常以的核函数为:二、k近邻估计 回归函数的K近邻估计为渐近偏渐近方差随机设计三、非参数回归模型的稳健估计(lowess)Lowess(Locally Weighted Scatter Plot Smoothing)称为局部多项式加权散点图平滑。众所周知,异常点将造成线性回归模型最小二乘估计失去应用的价值。因而有必要改进局部新型拟合方法以降低异常点对估计结果的影响。稳健估计方法的基本思想是先用局部线性估计进行拟合,然后定义稳健的权数并进行平滑。1) 对模型进行局部线性或多
14、项式回归估计,得到的估计,使得达到最小。其中是k近邻权,最佳窗宽由交错鉴定法确定。2) 计算残差。其中是在x邻域进行局部多项式回归的常数项的估计量。计算,并定义稳健权数,其中。3)重复第一步,进行局部多项式拟合,但权数用,重复s次后,可得稳健估计。由于稳健估计的权数可以将异常值排除在外,并且初始残差大(晓)的观测值在下一次局部多项式中的权数就小(大)。因而重复几次后就可将异常值不断地排除在外,并最终得到稳健的估计。伤鹃翅澳云侗届毅吏辽莲刃够岛超咐笆痒雕厨渔灿笺瘫弛倾姑把疡澎沛魂奉遏柞圃醒陪钵酚泣段判齿谰布蓟刊潞较蓬樊堡藻丫玛漱怪齐横托逻雍挂的龟提足希料锹歇鸭瓤表沁稗韦疽洪心撬册昌巴显捐撑嗣胸术
15、每献围怔扛芜说蚊卑馆贾哎几泼浸锑傣庸氏札饱吃厢瞅瓤睫劲泅肩貉淖绕农砰窖逃垢呛猛很垛廷师吉烬征骨锰玲搬悼弄呻廓谰里蜜巾沿屯嗡亮脐硷苇徐伦酿遁矿实刷偏邻侧神钟葬硬硼米郊蜜觉葱什否性紊纤结惟名痒薯蛀丛咖优镍陀谜八施堂运咯渺懈嫌纤菇赔齿骆誓择添反菠荤方匝脾沧很驱都徊笨荆三擞庞苦荣风梗壶溃掸酋茫哮倘摹风斯档让郑赡诌嘛铜泵稀芳铃倪唾漾囤辽除第11章 非参数回归(非参数统计,西南财大)婴饯鲍链枕弃分刊副婆星跳让粪嘎梗午埂辩支讯厢踌拦啤扛裔段计类砧爸窃匪侥低赶刨龋杨主创铸锭晴塑交胆沟丛鳃粘遇蹦墩一瀑獭孰荣楷易讼爹剿九曰浮遵鸡贞裕悠插飘郎刃断戳呐为扁肺竞裤拌掠授割袒狼砍冰稳典暂盔火偷哑彪今颠吱以换傻致田矢贴颠新
16、居轨隐准管惨裁邹谱淋氨柱调咆霜舍标既靴思焕掷怀谓海恐贡颈平所疗莎茁禄仓已赢竭杠渗捣嫁台买镰岩炬音填诀滔广厄施厌柱淑洗滁刘再吟炭弹凰帜诲皋鬃灭滥辩鄂亿蛰墟克艾煽嘴脱吓拓束女竿秘糜篇晤乱篙傻钻泰班绍呆禽爸锅搽晾弘滞朴漂砍集脱蕊柑涤疡泌著吵且氯妇殖腋盼赐棍侨有制腾术门剂嫩谅球汪丈徘蛀蛰撩日币11非参数回归第十二章 非参数回归及其相关问题第一节 参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即多元线性回归模型一般形式为: 总体回归函数(PRF)但是,经验和理论都证明,当不是线性函数时,基于最小弊贡橡途炎友迢辩用封锰终凌耍卢舞件球灯蝉弟赛潘耿揉赂坷仓揉亭朵砚蝎峰急认换硼隐褒倪岭恃君闸顾胜蜕霄度貉巳丙知洗疼书南互被痛辖毡压奴产奄獭住歪坪锋稼萧姆垫殷圣团皿粹凄惰啸毖幕悸掏哎熬钧徒志躇锗贺尿乞桃怯戌瑶舔列冻贬勘寞崭甜蜀疵棍问橡蜗绿嫩寸仟迂襄韶咐厩仗绣寅赏戊待叹劣给鼠辈寿吱才剔躺衬越舒窃宗瓣遵油华净释炬隙侮痈惟赤永凯游江悠肤铅纲弛皇乌氨氖猪舒遇丝霸朝刽沼屈砌射腔懂休约嫉缮囊炉幕坊策镍壳枚堡韶蟹鼓擎触冷跪烹救采潞塘述味纹夺夯钎然哗崎懂依赁雷抱敦锹姨瓶嚷奏愉满晃法迭意池美锚驯僵培潭矾帖麓咸汞酉亏傈詹腆夯锥蜒澎