《机器学习优化课件.ppt》由会员分享,可在线阅读,更多相关《机器学习优化课件.ppt(70页珍藏版)》请在三一办公上搜索。
1、优化这件小事,内容介绍,你见过的优化?无约束优化梯度下降法牛顿法约束优化二次规划非线性规划,Example,优化问题的表示,不专业的“定义”,最优化,就是1.构造一个合适的目标函数,使得这个目标函数取得你想要的“最优解”;2.找到一个能让这个目标函数取得最优解的方法;,目标函数,问题来了,我们怎么求解呢?,冰山一角,梯度下降法、牛顿法,梯度下降法,梯度下降法,1,0,J(0,1),梯度下降法,0,1,J(0,1),梯度下降法,梯度下降法,梯度下降法,小试牛刀-编程实现,房屋价格预测问题:请尝试不同的步长设置,最佳步长,最速下降法,最速下降法,最速下降法,最速下降法,最速下降法,Do you r
2、emember Hessian matrix?,原来如此简单,最佳步长计算-编程试试看吧!,计算最佳步长计算-试试看,Slide No.28,clearsyms x1 x2;%定义符号变量fx=2*x12+x22;%定义符号函数X0=1,1;%初值g=jacobian(fx,x1,x2);%求符号函数的梯度H=jacobian(g,x1,x2);%求符号函数的Hession矩阵x1=X0(1,1);x2=X0(1,2);%赋初值g0=eval(g);H0=eval(H);%求符号函数在x1=1、x2=1梯度、Hession矩阵k=0;fprintf(n)while norm(g0)eps%停机
3、判断条件 lamda=g0*g0/(g0*H0*g0);%求lamda fprintf(k=%2d,lamda=%19.16f,x1=%19.16f,x2=%19.16f,fx=%19.16f,norm(p)=%19.16fn,k,lamda,x1,x2,eval(fx),norm(g0)X0=X0-lamda*g0;x1=X0(1,1);x2=X0(1,2);g0=eval(g);H0=eval(H);k=k+1;end,参考例子:Matlab代码实现,你发现了吗?,这个算法的优缺点?,梯度下降-远不止如此,(1)批量梯度下降速度比较慢,受内存的限制,不能再运行中加入新的样本进行运算(2)随
4、机梯度下降随机梯度下降是通过每个样本来迭代更新一次(3)小批量梯度下降将批量梯度下降法中m替换成mini-batch,在此将mini-bach的size远小于m的大小,循环 m/b次直到收敛或是循环次数达到,并没有结束,前沿算法,梯度下降的各种变体1.Momentum法2.Nesterov加速梯度法3.Adagrad法4.Adadelta法5.RMSprop法6.适应性动量估计法(Adam)其他手段:1.对SGD进行平行或分布式运算2.重排和递进学习3.批量标准化4.梯度噪声.,休息一下,牛顿法,“牛顿法”与牛顿的关系?牛顿法最初由艾萨克牛顿在流数法(Method of Fluxions,16
5、71年完成,在牛顿去世后的1736年公开发表)中提出。,牛顿法,Do you remember 泰勒展开?,Do you remember Hessian matrix?,简单的计算步骤,再现房屋价格预测问题,这个算法的特点?,牛顿法,牛顿法优点:牛顿法具有二阶收敛速度。对二次正定函数,仅需一步迭代即可达到最优解,具有二次终结性。牛顿法缺点:(1)牛顿法是局部收敛的,即初始点选择不当,可能会导致不收敛;(2)牛顿法不是下降算法,当二阶Hesse阵非正定时,不能保证是下降方向;(3)二阶Hesse阵必须可逆,否则算法将无法进行下去;(4)对函数分析性质要求苛刻,计算量大,仅适合小规模优化问题。,
6、改进算法,1.阻尼牛顿法:增加沿牛顿方向的一维搜索2.Goldstein-Price方法:将牛顿方法与最速下降法结合3.其他改进,总结,作业,场景描述:一组登山运动员,为到达山谷最低处寻找水源,通过GPS定位当前位置的坐标为(0,1),海拔为2km。专家分析,此山走势可用函数 z=(x-1)4+y2近似表达,请帮助登上运动员确定行走路线,快速找到水源。考察:分别运用最速下降法与牛顿法,比较收敛性。,牛顿法,继续努力!,二次规划,最简单的约束非线性规划问题.,二次规划,二次规划:带有二次目标函数和线性约束的最优化问题.,Slide No.52,二次规划,Matlab中求解二次规划,二次规划,二次
7、规划,定义 如果目标函数或约束条件中至少有一个是非线性函数,则最优化问题就叫做非线性规划问题,一般形式:(1)其中,是定义在 Rn 上的实值函数,非线性规划的基本概念,Slide No.57,罚函数法,罚函数法基本思想是通过构造罚函数把约束问题转化为一系列无约束最优化问题,进而用无约束最优化方法去求解这类方法称为序列无约束最小化方法简称为SUMT法 其一为SUMT外点法(惩罚函数法)其二为SUMT内点法(障碍函数法),惩罚函数法PK障碍函数法,障碍函数法,核心:在可行域X的内部与边界面较远的点上,障碍函数与原目标函数应尽可能的接近,而在接近边界面的点上,障碍函数取相当大的数值。,近似规划法的基本思想:将问题中的目标函数 和约束条件 近似为线性函数,并对变量的取值范围加以限制,从而得到一个近似线性规划问题,再求解,把其符合原始条件的最优解作为解的近似,近似规划法,Matlab求解非线性规划问题,其中X为n维变元向量,G(X)与Ceq(X)均为非线性函数组成的向量。,Slide No.67,Slide No.68,Slide No.69,Slide No.70,作业,面积S=100,a=2要求:采用lingo,matlab函数,自己选择优化算法求解均可。,