《学习问题的表示.ppt》由会员分享,可在线阅读,更多相关《学习问题的表示.ppt(34页珍藏版)》请在三一办公上搜索。
1、统计学习理论,Chapt 1:学习问题的表示,Outline,函数估计模型风险最小化问题三种主要的学习问题学习问题的一般表示经验风险最小化归纳原则学习理论的四个部分非正式推导和评述1,outline,函数估计模型,样本学习的一般模型产生器G,F(x)训练器S,F(yx)学习机器LM,函数集f(x,a)学习问题的目的从给定的函数集f中选出能够最好地逼近训练器响应的函数;训练集F(x,y)=F(x)F(yx)由(x1y1),(xmym)组成,outline,风险最小化问题,损失函数风险泛函目的:使得风险泛函最小的函数,outline,三种主要的学习问题,模式识别训练器的输出为0/1f(x,),为指
2、示函数集损失函数分类错误学习问题:在概率测度F(x,y)未知,但是训练数据已知情况下,寻找使分类错误的概率最小的函数,三种主要的学习问题,回归估计训练器的输出实数值f(x,),为实数函数回归函数损失函数学习问题:在概率测度F(x,y)未知,但是训练数据已知情况下,对采用平方误差损失函数的风险泛函最小化,三种主要的学习问题,密度估计密度函数集(x,),损失函数学习问题:在相应的概率测度F(x,y)未知,但是给出了独立同分布数据x1xl的情况下,使风险泛函最小化,outline,学习问题的一般表示,定义在空间Z上的概率测度F(z)函数的集合Q(z,),独立同分布样本z1zl风险泛函,outline
3、,经验风险最小化归纳原则,ERM归纳原则经验风险泛函用使得经验风险最小的函数Q(z,l)来逼近使风险泛函最小的函数Q(z,0),经验风险最小化归纳原则,ERM原则的体现最小二乘方法最大似然方法(等价),outline,学习理论的四个部分,研究的四个问题一个基于ERM原则的学习过程具有一致性的条件(充分必要条件)是什么?这个学习过程收敛的速度有多快?如何控制这个学习过程的收敛速度(推广能力)?怎样构造能够控制推广能力的算法?,学习理论的四个部分,四个理论学习过程一致性理论学习过程收敛速度的非渐近理论控制学习过程的推广能力的理论构造学习算法的理论,outline,非正式推导和评述1,解决学习问题的
4、传统模式密度估计的非参数方法用有限数量信息解决问题的基本原则基于经验数据的风险最小化模型随机逼近推理,outline,非正式推导和评述1,第一章中给出的学习问题的表示反映了两个主要的要求:(1)从一个宽的函数集合中估计待求的函数;(2)在有限数量的例子的基础上估计待求的函数。在(创建于20年代和30年代的)传统理论体系中发展起来的方法没有考虑到这些要求。因此,在60年代,人们在两个方向上进行了很大的努力,一是把传统的结果推广到范围更宽的函数集合,二是针对小样本数目改进已有技术。下面我们将对其中的一些研究进行订论。,密度估计问题(最大似然方法),在传统理论体系的框架中,函数估计的所有模型都是基于
5、最大似然方法的。它成了传统体系下的一个归纳引擎。,密度估计问题(最大似然方法),问题的描述设p(x,),是一个函数密度集合,设未知的密度p(x,0)属于这个函数集合独立同分布数据:x1xl最大似然方法在20年代,Fisher(1952)研究出了估计密度函数的未知参数的最大似然方法,提出用使泛函最大的参数取值来逼近未知的参数。,模式识别(判别分析)问题,Fisher的模型-存在两类数据两个不同的密度p1(x,*),p2(x,*)设第一类数据出现的概率为q1第二类出现的概率为1-q1决策规则:使错误的概率最小,模式识别(判别分析)问题,Fisher的模型-存在两类数据两个不同的密度p1(x,*),
6、p2(x,*)设第一类数据出现的概率为q1第二类出现的概率为1-q1决策规则:使错误的概率最小,模式识别(判别分析)问题,决策规则:使错误的概率最小如果知道这两个统计规律和概率q1的值,可以立即构造出这样一个规则:若向量x属于第一类的概率不小于它属于第二类的概率,决策规则就认为这个向量属于第一类。这个决策规则可以取得最小的错误率。所谓x属于第一类的概率不小于它属于第二类的概率、就是下面的不等式成立:,模式识别(判别分析)问题,这一决策规则可以表示成下面的等价形式:称作判别函数(判别规则),它把第一类的样本赋值为1,而把第二类样本赋值为-1;为了得到这一判别函数,必须估计两个概率密度:p1(x,
7、*)和 p2(x,*);在传统的体系中,人们用最大似然法来估计这两个密度中的参数*和*。,回归估计模型,在传统体系中,回归估计是建立在另外一个模型基础上的。这个模型就是所谓的度量含有加性噪声的函数的模型。设某个未知函数有下而的参数化形式:,回归估计模型,回归估计模型泛函正态分布最小二乘泛函,解决学习问题的传统模式,最大似然法的局限传统体系中的主要方法失效情况:如高斯混合分布例子,推导,密度估计的非参数方法,Parzen核函数密度函数估计渐近理论对于从一个非常宽的密度类中估计密度函数,Parzen估计是一致的(对于平滑的密度函数,Parzen估计器的渐近收敛速度是最优结论如果观测数量足够多,用非
8、参数方法替代参数方法可以得到对待求依赖关系的好的逼近,密度估计的非参数方法,给定的函数集p(t)中,求解积分方程经验分布函数经验分布函数Fl(x)到待求函数F(x)的一致收敛特性,密度估计的非参数方法,密度估计问题的一般性描述 在概率分布函数未知,但是已知一组独立同分布数据的情况下,求解积分方程利用已知的数据来构造经验分布函数Fl(x)两个结论一般来说,估计一个密度是一个很难的不适定的计算问题为了较好地解决这个问题,必须采用正则化技术已经证明已有的非参数算法可以通过用标准的正则化技术(使用不同类型的正则化因子),并用经验分布函数代替未知分布函数来得到,推导,用有限数量信息解决问题的基本原则,基
9、本原则在解决一个给定问题时,要设法避免把解决一个更为一般的问题作为其中间步骤对于依赖关系估计问题解决模式识别或者回归估计问题时,必须设法直接来寻找待求的函数,而不是首先估计密度函数,然后用估计的密度来构造待求的函数密度估计是统计学中的一个全能的问题密度估计一般来说是一个不适定问题,需要大量的观测才能较好地解决,用有限数量信息解决问题的基本原则,例子要构造一个把两个向量集合分开的决策规则,两个集合分别遵循两个正态分布:N(1,1)和N(2,2),推导,基于经验数据的风险最小化模型,模式识别问题:利用样本从容许函数的集合中寻找使得错误率最小的函数回归估计问题:在L2(F)度量下,利用样本在容许函数
10、集合中寻找与回归函数最近的函数,基于经验数据的风险最小化模型,密度估计问题:用给定的样本在容许的密度函数集合中,寻找离待求密度的Kullback-Leibler距离最近的函数,推导,随机逼近推理,随机逼近原则独立同分布数据最小化泛函迭代公式能保证学习过程一致性的两种一般性归纳原则随机逼近的原则经验风险最小化的原则一般性学习理论对随机逼近归纳推理的一般性渐近学习理论对经验风险最小化归纳推理的一般性非渐近模式识别理论,随机逼近推理,什么时候必须停止训练过程?可能的回答当对训练数据中的所有元素,其梯度值都非常小,则停止训练过程当学习过程没有饱和,但是达到了某种停止准则时,则停止学习过程随机逼近原则的
11、解释经验风险最小化方法的归纳特性正则化方法的归纳特性,随机逼近推理,Bayes推理先验信息:分布函数目标函数必须包括在假设函数集中分析学习过程的核心问题对经验风险最小化原则的探索,推导,机器学习的基本问题 问题的表示,机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测.可以一般地表示为:变量y 与x 存在一定的未知依赖关系,即遵循某一未知的联合概率F(x,y),(x 和y 之间的确定性关系可以看作是其特例)。机器学习问题就是根据n 个独立同分布观测样本(x 1,y 1),(x 2,y 2),.,(x n,y n),在一组函数f(x,w)中求一个最优的函数f(x,w 0)对依赖关系进行估计,使期望风险R(w)=L(y,f(x,w)dF(x,y)(2)最小.其中,f(x,w)称作预测函数集,w 为函数的广义参数,f(x,w)可以表示任何函数集;L(y,f(x,w)为由于用f(x,w)对y 进行预测而造成的损失,不同类型的学习问题有不同形式的损失函数.预测函数也称作学习函数、学习模型或学习机器.,