支持向量机原理.docx

上传人:牧羊曲112 文档编号:5304559 上传时间:2023-06-24 格式:DOCX 页数:32 大小:355.83KB
返回 下载 相关 举报
支持向量机原理.docx_第1页
第1页 / 共32页
支持向量机原理.docx_第2页
第2页 / 共32页
支持向量机原理.docx_第3页
第3页 / 共32页
支持向量机原理.docx_第4页
第4页 / 共32页
支持向量机原理.docx_第5页
第5页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《支持向量机原理.docx》由会员分享,可在线阅读,更多相关《支持向量机原理.docx(32页珍藏版)》请在三一办公上搜索。

1、支持向量机1简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求 交统计学习理论的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了 解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正 统的讲法都是从VC维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来 就讲分类超平面什么的。这份材料从前几节讲的logistic回归出发,引出了 SVM,既揭示了模 型间的联系,也让人觉得过渡更自然。2重新审视logistic回归Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组

2、合作为自 变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid 函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。形式化表示就是假设函数&3) = g(风)=其中x是n维特征向量,函数g就是logistic函数。一的图像是可以看到,将无穷映射到了(0,1)。而假设函数就是特征属于y=1的概率。P(y = 1 |= &(x)P(y = 0 |= 1 一处(功当我们要判别一个新来的特征属于哪个类时,只需求,若大于0.5就是y=1的类,反之 属于y=0类。再审视一下匚二,发现匚二只和上有关,成上0,那么芸,g(z)只不过是用来映射,真实

3、的类别决定权还在: 还有当上:=时,-匕、;=1,反之匚二=0。如果我们只从出发,希望模型达到的目标无非就是让训练数据中y=1的特征上“。,而是y=0的特征。Logistic回归就是要学习得到,使得正例的特征远大于0,负例的特征远小于0,强调在全部训练实例上达到这个目标。图形化表示如下:中间那条线是二 :,logistic回顾强调所有点尽可能地远离中间那条线。学习出的结果也就中间那条线。考虑上面3个点A、B和C。从图中我们可以确定A是x类别的,然而C我们是 不太确定的,B还算能够确定。这样我们可以得出结论,我们更应该关心靠近中间分割线的点, 让他们尽可能地远离中间线,而不是在所有点上达到最优。

4、因为那样的话,要使得一部分点靠近 中间线来换取另外一部分点更加远离中间线。我想这就是支持向量机的思路和logistic回归的不 同点,一个考虑局部(不关心已经确定远离的点),一个考虑全局(已经远离的点可能通过调整 中间线使其能够更加远离)。这是我的个人直观理解。3形式化表示我们这次使用的结果标签是y=-1,y=1,替换在logistic回归中使用的y=0和y=1。同时将 替换成w和b。以前的=二一二-一二上一 -、,其中认为=:o现在我们替换孔为b,后面替换- 一为*一一 ,匚:一(即上)。这样,我们让;-.二.:,进一步-= 7: i = 1m| = L这里用II -11 = 1规约w,使得

5、*上是几何间隔。到此,我们已经将模型定义出来了。如果求得了 w和b,那么来一个特征x,我们就能够分类 了,称为最优间隔分类器。接下的问题就是如何求解w和b的问题了。y = _L 由于* =】不是凸函数,我们想先处理转化一下,考虑几何间隔和函数间隔的关系,|h 11 我们改写一下上面的式子:m唱心鬲s.t. g(由七-F h) i = 1T. ? m这时候其实我们求的最大值仍然是几何间隔,只不过此时的w不受* 二】的约束了。然而这 个时候目标函数仍然不是凸函数,没法直接代入优化软件里计算。我们还要改写。前面说到同时 扩大w和b对结果没有影响,但我们最后要求的仍然是w和b的确定值,不是他们的一组倍

6、数 值,因此,我们需要对?做一些限制,以保证我们解是唯一的。这里为了简便我们取=:o这样的意义是将全局的函数间隔定义为1,也即是将离超平面最近的点的距离定义为L由于求化的最大值相当于求的最小值,因此改写后结果为:这下好了,只有线性约束了,而且是个典型的二次规划问题(目标函数是自变量的二次函数)。 代入优化软件可解。到这里发现,这个讲义虽然没有像其他讲义一样先画好图,画好分类超平面,在图上标示出间隔 那么直观,但每一步推导有理有据,依靠思路的流畅性来推导出目标函数和约束。接下来介绍的是手工求解的方法了,一种更优的求解方法。6拉格朗日对偶(Lagrange duality)先抛开上面的二次规划问题

7、,先来看看存在等式约束的极值问题求法,比如下面的最优化问 题:mi% /(w)s.t. hi(w) 0, i 1,. J.目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子, 得到拉格朗日公式为(叫/?) = f(w) + 目底(w)i= 1.L是等式约束的个数。然后分别对w和F求偏导,使得偏导数等于0,然后解出w和片。至于为什么引入拉格朗日 算子可以求出极值,原因是f(w)的dw变化方向受其他不等式的约束,dw的变化方向与f(w) 的梯度垂直时才能获得极值,而且在极值处,f(w)的梯度与其他等式梯度的线性组合平行,因 此他们之间存在线性关系。(参考最优化与KK

8、T条件)然后我们探讨有不等式约束的极值问题求法,问题如下:mi%s.t. 0这里的P代表primal。假设】或者*.=:,那么我们总是可以调整*:和阡来使得 V有最大值为正无穷。而只有g和h满足约束时,*”为f(w)。这个函数的精妙之处在 于兰-,而且求极大值。因此我们可以写作d-p(w)/(w) if w satisfies primal constraints oc otherwise.这样我们原来要求的min f(w)可以转换成求二二八* 了。min = mhi max C(w. a, 0) 4ww a .i3 : a, 0我们使用,来表示二二二。如果直接求解,首先面对的是两个参数,而也

9、是不等式约束,然后再在w上求最小值。这个过程不容易做,那么怎么办呢?|%(也 目)=min (w. a, 3).D的意思是对偶,将问题转化为先求拉格朗日关于w的最小值,将w和看作是1知 B)求最大值的话:max 0p(o, /?) = max min(w, a. d).a.,(3: a(0 : Qj 0 w这个问题是原问题的对偶问题,相对于原问题只是更换了 min和max的顺序,而一般更换顺序的结果是Max Min(X) = MinMax(X)。然而在这里两者相等。用“ 来表示对偶问题如下:Id* = maxcv./3) 0 w 1 w arf3: a,0下面解释在什么条件下两者会等价。假设f

10、和g都是凸函数,h是仿射的(affine,Thcre而血阳如龄山队顽瑚=房W +贝)。并且存在w使得对于所有的i,,(w)使得件是原问题的解, 是对偶问题的解。还有: 15 1 = 1,. Tm我们将约束条件改写为:我(理)=一叫壮丁工+ b) + 1色0.从KKT条件得知只有函数间隔是1 (离超平面最近的点)的线性约束式前面的系数 也就是说这些约束式= 对于其他的不在线上的点(M打),极值不会在他们所在 的范围内取得,因此前面的系数七,.注意每一个约束式实际就是一个训练样本。看下面的图:实线是最大间隔超平面,假设X号的是正例,圆圈的是负例。在虚线上的点就是函数间隔是 1的点,那么他们前面的系

11、数疽:气 其他点都是二=。这三个点称作支持向量。构造拉格朗 日函数如下:1m(w,6,a) = glhH2舟(u7 抑 + b) 1.注意到这里只有心没有阡是因为原问题中没有等式约束,只有不等式约束。下面我们按照对偶问题的求解步骤来一步步进行,d* = max min 3)首先求解 m 的最小值,对于固定的的的最小值只与w和b有关。对w和b分别求偏导数。mw(uk b. a = w 2 皿夕4” = 0i- i并得到将上式带回到拉格朗日函数中得到,此时得到的是该函数的最小值(目标函数是凸函数)代入后,化简过程如下:mL(wf b, a) = : IIw II 2 田i y(wTx(i) + &

12、) - 1 i=l1mmm=-wrw aiywrx - g ayb + %i=l4=11=1mmmm=:w 奁)- 2 %/如工- atyb + 缶 i=li=li=lt=lmmmm=:w2 时那)一(如。一 础b + 缶i=li=li=li=l1mm m=方2叫y如一 2 atyb + 皿i=li=l i=l1 mmm=-wr 皿 yU)x)一 b 2 &iV)+ 2 叫i=lt=lt=l/ mT mmm=-:(2并或)j 2础或)一2时+ =1/ i=li=li=lmmmm=-住)(或) gy如)-b 色y“)+ g-正(的)&i=lij=1这里我们将向量内积表示为-此时的拉格朗日函数只包

13、含了变量亡。然而我们求出了己才能得到w和b。d* max min tv, /3)接着是极大化的过程K : &m mmaXfl W(a) = f 皿一石 舟舟场心技抑点) i=1ij=st ctj 0? i = 1. . . ., mm五 = 0,i=l前面提到过对偶问题和原问题满足的几个条件,首先由于目标函数和线性约束都是凸函数, 而且这里不存在等式约束h。存在w使得对于所有的i,、。因此,一定存在使 得*是原问题的解,是对偶问题的解。在这里,求七就是求了。w 22如果求出了七,根据J即可求出w (也是,原问题的解)。然后即可求出b。即离超平面最近的正的函数间隔要等于离超平面最近的负的函数间隔

14、。关于上面的对偶问题如何求解,将留给下一篇中的SMO算法来阐明。这里考虑另外一个问题,由于前面求解中得到我们通篇考虑问题的出发点是,根据求解得到的心,我们代入前式得到it?rz + b = 皿夕w) t + hm=口诏(抑应)+ b. i= 1也就是说,以前新来的要分类的样本首先根据w和b做一次线性运算,然后看求的结果是大 于0还是小于0,来判断正例还是负例。现在有了 .,我们不需要求出w,只需将新来的样本和 训练数据中的所有样本做内积和即可。那有人会说,与前面所有的样本都做运算是不是太耗时 了?其实不然,我们从KKT条件中得到,只有支持向量的七:,其他情况.t因此,我 们只需求新来的样本和支

15、持向量的内积,然后运算即可。这种写法为下面要提到的核函数 (kernel)做了很好的铺垫。这是上篇,先写这么多了。7 核函数(Kernels)考虑我们最初在线性回归”中提出的问题,特征是房子的面积X,这里的x是实数,结果y是房 子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次 多项式来逼近这些样本点。那么首先需要将特征x扩展到三维侦,然后寻找特征和结果 之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中我们希望将得到的特征映射后的特征应用于SVM分类,而不是最初的特征。这样,我们需要将 前面史:公式中的内积

16、从*,映射到至于为什么需要映射后的特征而不是最初的特征来参与计算,上面提到的(为了更好地拟合)是 其中一个原因,另外的一个重要原因是样例可能存在线性不可分的情况,而将特征映射到高维空 间后,往往就可分了。(在数据挖掘导论Pang-Ning Tan等人著的支持向量机那一章 有个很好的例子说明)将核函数形式化定义,如果原始特征内积是:,映射后为二工,那么定义核函数(Kernel)为到这里,我们可以得出结论,如果要实现该节开头的效果,只需先计算毋,然后计算 扣 f即可,然而这种计算方式是非常低效的。比如最初的特征是n维的,我们将其映射到 维,然 后再计算,这样需要;的时间。那么我们能不能想办法减少计

17、算时间呢?先看- 一个例子,假设x和z都是n维的,K(xf z) = (xTz)2展开后,得这个时候发现我们可以只计算原始特征x和z内积的平方(时间复杂度是O(n),就等价与计 算映射后特征的内积。也就是说我们不需要花时间了。现在看一下映射函数(n = 3时),根据上面的公式,得到也就是说核函数- - =_只能在选择这样的作为映射函数时才能够等价于映射后特征的内积。再看一个核函数对应的映射函数(n = 3时)是更一般地,核函数-=二对应的映射后特征维度为;,(这个我一直没有理解)。由于计算的是内积,我们可以想到IR中的余弦相似度,如果x和z向量夹角越小,那么核函数值越大,反之,越小。因此,核函

18、数值是*和初”的相似度。再看另外一个核函数这时,如果x和z很相近(巾),那么核函数值为1,如果x和z相差很大(*、), 那么核函数值约等于0。由于这个函数类似于高斯分布,因此称为高斯核函数,也叫做径向基函 数(Radial Basis Function简称RBF)。它能够把原始特征映射到无穷维。既然高斯核函数能够比较x和z的相似度,并映射到0到1,回想logistic回归,sigmoid函 数可以,因此还有sigmoid核函数等等。下面有张图说明在低维线性不可分时,映射到高维后就可分了,使用高斯核函数。LinearGaussian来自 Eric Xing 的 slides注意,使用核函数后,怎

19、么分类新来的样本呢?线性的时候我们使用SVM学习出w和b,新来 样本x的话,我们使用* 来判断,如果值大于等于1,那么是正类,小于等于是负类。 在两者之间,认为无法确定。如果使用了核函数后,上”就变成了 f是否先 要找到然后再预测?答案肯定不是了,找很麻烦,回想我们之前说过的wTx b =(:也补临)I + bm=W皿见抑+ b.i- I只需将替换成e*,然后值的判断同上。8核函数有效性判定问题:给定一个函数K,我们能否使用K来替代计算二,也就说,是否能够找出一个, 使得对于所有的x和z,都有二匚- 比如给出了 - - = - 是否能够认为K是一个有效的核函数。rV CiJ 曾(aCtfiJ

20、iv (0下面来解决这个问题,给定m个训练样本z ,每一个上 对应一个特征向量。那么,我们可以将任意两个和”带入K中,计算得到。i可以从1到m,j可以从1到m,这样可以计算出m*m的核函数矩阵(Kernel Matrix)。为了方便,我们将核函数矩阵和阳上,都使用K来表示。如果假设K是有效地核函数,那么根据核函数定义翼M = K (必Lx。)=申(虹口)申(需仍)=尤可)=。(*叫霓订)=灼 可见,矩阵K应该是个对称阵。让我们得出一个更强的结论,首先使用符号已折来表示映射函 数煎上的第k维属性值。那么对于任意向量z,得Kz = EEi J=W 渺3)财3”)勾i 3=f遍工旗(”)句i j k

21、=EEE E城(H地(M肉k i j= 祸印) 0.最后一步和前面计算- - = - _时类似。从这个公式我们可以看出,如果K是个有效的核 函数(即和等价),那么,在训练集上得到的核函数矩阵K应该是半正定的 (,)这样我们得到一个核函数的必要条件:K是有效的核函数= 核函数矩阵K是对称半正定的。可幸的是,这个条件也是充分的,由Mercer定理来表达。Mercer 定理:如果函数K是理*缪-玉上的映射(也就是从两个n维向量映射到实数域)。那么如果K是一个有效核函数(也称为Mercer核函数),那么当且仅当对于训练样例其 相应的核函数矩阵是对称半正定的。Mercer定理表明为了证明K是有效的核函数

22、,那么我们不用去寻找*,而只需要在训练集上求出各个门,然后判断矩阵K是否是半正定(使用左上角主子式大于等于零等方法)即可。T 许多其他的教科书在Mercer定理证明过程中使用了 范数和再生希尔伯特空间等概念,但在特 征是n维的情况下,这里给出的证明是等价的。核函数不仅仅用在SVM上,但凡在一个模型后算法中出现了 、*,我们都可以常使用 U* 去替换,这可能能够很好地改善我们的算法。9规则化和不可分情况处理(Regularization and thenon-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使 用核函数来将特征映射到

23、高维,这样很可能就可分了。然而,映射后我们也不能100%保证可 分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分 隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩小,可见以前的模型对噪声 非常敏感。再有甚者,如果离群点在另外一个类中,那么这时候就是线性不可分了。这时候我们应该允许一些点游离并在在模型中违背限制条件(函数间隔大于1)。我们设计得到 新的模型如下(也称软间隔):IT 血5力+。匚&s.t. 妒 1 ? = 1,. . ., m& 孑 0,1 = 1引入非负参数后(称为松弛变量),就允许某些样本点的函数间隔小于1

24、,即在最大间隔区间 里面,或者函数间隔是负数,即样本点在对方的区域中。而放松限制条件后,我们需要重新调整 目标函数,以对离群点进行处罚,目标函数后面加上的CL;=-7:就表示离群点越多,目标函数值 越大,而我们要求的是尽可能小的目标函数值。这里的C是离群点的权重,C越大表明离群点 对目标函数影响越大,也就是越不希望看到离群点。我们看到,目标函数控制了离群点的数目和 程度,使大部分样本点仍然遵守限制条件。模型修改后,拉格朗日公式也要修改如下:这里的己和也都是拉格朗日乘子,回想我们在拉格朗日对偶中提到的求法,先写出拉格朗日公式 (如上),然后将其看作是变量w和b的函数,分别对其求偏导,得到w和b的

25、表达式。然后 代入公式中,求带入后公式的极大值。整个推导过程类似以前的模型,这里只写出最后结果如下:此时,我们发现没有了参数,与之前模型唯一不同在于心又多了匚三。的限制条件。需要提醒 的是,b的求值公式也发生了改变,改变结果在SMO算法里面介绍。先看看KKT条件的变化:皿=0 = v(僧3% + 方)m 1(14)皿=。=,(僧工 + b) (15)0 v 皿 V + 方)=Li: 16)第一个式子表明在两条间隔线外的样本点前面的系数为0,离群样本点前面的系数为C,而支持 向量(也就是在超平面两边的最大间隔线上)的样本点前面系数在(0,C)上。通过KKT条件可 知,某些在最大间隔线上的样本点也

26、不是支持向量,相反也可能是离群点。10 坐标上升法(Coordinate ascent)在最后讨论V*”的求解之前,我们先看看坐标上升法的基本原理。假设要求解下面的优化问题:max IV (ai,皿,cvmj. a这里W是向量的函数。之前我们在回归中提到过两种求最优解的方法,一种是梯度下降法,另外一种是牛顿法。现在我们再讲一种方法称为坐标上升法(求解最小值问题时,称作坐标下降 法,原理一样)。方法过程:Loop until convergence: For i 1,* m, 也:=arg max. lV(ctj 】也1j最里面语句的意思是固定除亡之外的所有:*:,这时W可看作只是关于2的函数,

27、那么直接对亡求导优化即可。这里我们进行最大化求导的顺序i是从1到m,可以通过更改优化顺序来使W能够更快地增加并收敛。如果W在内循环中能够很快地达到最优,那么坐标上升法会是 一个很高效的求极值方法。下面通过一张图来展示:椭圆代表了二次函数的各个等高线,变量数为2,起始坐标是(2,-2)。图中的直线式迭代优化的 路径,可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只 优化一个变量。11 SMO 优化算 法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为

28、最快的二次规划 优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines了。我拜读了一下,下面先说讲义上对此方法的总结。首先回到我们前面一直悬而未解的问题,对偶函数最后的优化问题:要解决的是在参数* *上求最大值W的问题,至于和秒都是已知数。C由我们预先设定,也是已知数。按照坐标上升的思路,我们首先固定除以外的所有参数,然后在亡上求极值。等一下,这个思路有问题,因为如果固定以外的所有参数,那么亡将不

29、再是变量(可以由其他值推出), 因为问题中规定了m=一皿见.i=2因此,我们需要一次选取两个参数做优化,比如和*,此时七可以由I和其他参数表示出来。这样回带到W中,W就只是关于的函数了,可解。这样,SMO的主要步骤如下:Repeat till convergence 1. Select some pair and aj to up dale next (using a lienristic that tries to pkt the two that will allow ns to make the biggest progress towards the global maKiTnuni)

30、.2. Reoptimize VK(cv) with respect to and aj, while holding al the otlicr cts (k 手、W j) fixed.意思是,第一步选取一对亡和弋,选取方法使用启发式方法(后面讲)。第二步,固定除:和之外的其他参数,确定W极值条件下的:,七由#表示。SMO之所以高效就是因为在固定其他参数后,对一个参数优化过程很高效。下面讨论具体方法:假设我们选取了初始值 - *满足了问题中的约束条件。接下来,我们固定上,这样W就是和七的函数。并且和满足条件:m街,+ 俨)=一 皿见.i=3由于都是已知固定值,因此为了方面,可将等式右边标记成

31、实数值。1矿_ a/% =顼当,和异号时,也就是一个为1,一个为-1时,他们可以表示成一条直线,斜率为1。如F图:(0)cj alf横轴是,纵轴是*,I和*既要在矩形方框内,也要在直线上,因此L = max(Of a2 倪。H = min(Cf C -F cz2 ,同理,当:和*,同号时,L = max(Of a2 -F a C) H = minQCf a2 + a】)然后我们打算将亡用七表示:Oil = (C Q翊然后反代入W中,得应皿皿:. . .= VK(C -顷别)9点4 .,%)展开后W可以表示成心L其中a,b,c是固定值。这样,通过对W进行求导可以得到*,然而要保证七满足三* -二

32、z nBWjuncltpp&d我们使用表示求导求出来的*,然而最后的七,要根据下面情况得到:_ new a2H,UTilippedifHEUtjUTlc/ippcd A Hif L o野EppM 鱼 Hif QneurTippcc l,Vi,求导得到:经过对偶后为:N NNniin 甲(dr) = niin ;旗 月为亏)% -旗 , aa i=i j=i=s.t.这里与W函数是一样的,只是符号求反后,变成求最小值了。巳和疽是一样的,都表示第i个 样本的输出结果(1或-1)。经过加入松弛变量后,模型修改为:0ctf 1这个过程和之前对偶过程一样。重新整理我们要求的问题为:N NNI理n甲0)=

33、叫用月即K(耳,祈a/tj - %J=1 J=1jf=0tzj CVit(11)2 g =0j=l与之对应的KKT条件为:t L0 Ofj C / q = L(12)cr. = C yiui 1.这个KKT条件说明,在两条间隔线外面的点,对应前面的系数H为0,在两条间隔线里面的对应心为C,在两条间隔线上的对应的系数H在0和C之间。将我们之前得到L和H重新拿过来:L = max(O,cr2 -的),H= min(CtC+cr2 -ttj.(13)L = max(O,tr2 +% -。, H= min(C+cr2 +吼).(14)之前我们将问题进行到这里,然后说将用*表示后代入w中,这里将代入,-

34、中,得W =;凡】箫+:K“O; +3&CI明 +片。|外 + 玲电玲 a ai +%n3u,(24其中IKg = K(习月)* = 肉。;匕=,+$劣。;垃一月) J=3这里的和七代表某次迭代前的原始值,因此是常数,而和八是变量,待求。公式(24) 中的最后一项是常数。由于和*满足以下公式n处务* +此* = 一北仅= 711 +因为-的值是固定值,在迭代前后不会变。那么用s表示”:,上式两边乘以时,变为:1 + sa 2 = % + m ;=质(26)其中nW =一i = X代入(24)中,得= 2.7 nL 二 T H; l.(17)那么在特殊情况下,|可能不为正,如果核函数K不满足Me

35、rcer定理,那么目标函数可能变得非正 定,|可能出现负值。即使K是有效的核函数,如果训练样本中出现相同的特征X,那么|仍有 可能为0o SMO算法在I不为正值的情况下仍有效。为保证有效性,我们可以推导出I就是的二阶导数,L。,没有极小值,最小值在边缘处取到(类比了 ),时更是单调函 数了,最小值也在边缘处取得,而七的边缘就是L和H。这样将一=乙和盆=H分别代入中 即可求得的最小值,相应的七还是* 也可以知道了。具体计算公式如下:1(19)=力(品十万)-5%人(希岳)-%灰(如舄),H = %+炫-可,明=+叫+!妒K(&印+如+ 5叫K团温)Wh = HE + W+?特 K(知电 + sH0K(鬲,祐.至此,迭代关系式出了b的推导式以外,都已经推出。b每一步都要更新,因为前面的KKT条件指出了*和的关系,而E和b有关,在每一步计算出心后,根据KKT条件来调整bo

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号