《2022机器学习公式详解.docx》由会员分享,可在线阅读,更多相关《2022机器学习公式详解.docx(151页珍藏版)》请在三一办公上搜索。
1、机器学习公式详解1 .第1章绪论2 .第2章模型评估与选择3 .第3章线性模型4 .第4章决策树5 .第5章神经网络6 .第6章支持向量机7 .第7章贝叶斯分类器8 .第8章集成学习第9章案类10:第10章降维与度量学习11 .第11章特征选择与稀疏学习12 .第12章计算学习理论13 .第13章半监督学习14 .第14章概率图模型15 .第15章规则学习16 .第16章强化学习第1章绪论式(LI)(iXJ)-EP3)I(M)“)PSX,2o)AcJ*-Y参见式(1.2)式(1.2)EeC)EEEP(Z)Kh(X)/(x)P(hIXX)/UT-E小)psx,&)El(MN)”(N)d/=EP(
2、三)EPmI、).;/,*-*A=权即P(三)EPslX)-2MiyP(X).1K显然成立解析g:EEER)I(Mn)/(N)P(MX,匕)/ut-EP(N)EEl(MN)P伍IX)4f-X/A=EP(x)X;P(h|X,.)521(Mx)/W)aX-Xa,T:首先要知道此时我们假设f是任何能将样本映射到01的函数.存在不止一个/时,服从均匀分布,即每个,出现的概率相等.例如样本空间只有两个样本时,二(4H2)M=Z那么所有可能的真实目标函数,如下:A:/l(Nl)-OJI(XJ)-0;h/2(x1)三O,(a)-1;h:(三)三lf3(2)O;/4:1)=1.0.23.+).(.0.15.-
3、)此处用表示样本,以和坐标(WS作出区分其中,和分别表示样本为正例和为反例,数字表示学习器/预测该样本为正例的概率,例如对于反例球说,当前学习器/()预测它是正例的概率为ns?.上面给出的预测结果已经按照预测值从大到小排序根据“西瓜书”上给出的绘制方法,首先需要对所有测试样本按照学习器给出的预测结果进行排序,接着将分类阈值设为一个不可能取到的最大值.显然,此时所有样本预测为正例的概率都一定小于分类阈值,那么预测为正例的样本个数为0,相应的真正例率和假正例率也都为0,所以我们可以在坐标00)处标记一个点.接下来需要把分类阈值从大到小依次设为每个样本的预测值,也就是依次设为077,0.62,0.5
4、8,0.47,0.33,0.23,0.15,然后分别计算真正例率和假正例率,再在相应的坐标上标记点,最后再将各个点用直线连接,即可得到RCC曲线.需要注意的是,在统计预测结果时,预测值等于分类阈值的样本也被算作预测为正例.例如,当分类阈值为C力时,测试样本/被预测为正例,由于它的真实标记也是正例,所以此时叫是一个真正例.为了便于绘图,我们将T轴(假正例率轴)的“步长”定为二,珊由(真正例率轴)的“步长”定为;根据真正例率和假正例率的定义可知,每次变动分类阈值时,若新增个假正例,那么相应的T轴坐标也就增加若新增j个真正例,那么相应的畸Ii坐标也就增加高.按照以上讲述的绘制流程,最终我们可以绘制出
5、如图2/所示的RCC曲线.图2-1RoC曲线示意注:表示红色线段;表示蓝色线段;一表示绿色线段在这里,为了能在解析式(2.21)时复用此图,我们没有写上具体的数值,转而用其数学符号代替.其中绿色线段表示在分类阈值变动的过程中只新增了真正例,红色线段表示只新增了假正例,蓝色线段表示既新增了真正例也新增了假正例.根据AUa直的定义可知,此时的AlM值其实就是所有红色线段和蓝色线段与7轴围成的面积之和.观察图2-1可知,红色线段与了轴围成的图形恒为矩形,蓝色线段与了轴围成的图形恒为梯形.由于梯形面积式既能算梯形面积,也能算矩形面积,所以无论是红色线段还是蓝色线段,其与轴围成的面积都能用梯形公式来计算
6、:-TJ(弘+16+1)其中,一4为”高、的为“上底”,为“下底”.那么对所有红色线段和蓝色线段与7轴围成的面积进行求和,则有11l一rE(Th4-,)(的物.t=l此即AUC式(2.21)X=焉E(l(x)/(z-)I(z)=/(X-)解析按照我们上述对式(2.20)的解析思路,La可以看作是所有绿色线段和蓝色线段与1/轴围成的面积之和,但从式(2.21)中很难一眼看出其面积的具体计算方式,因此我们进行恒等变形如下:J-(1(/(*),l*-*D-/=F1(x+)(x)+i(x+)=(x)三+*ZHLe-CD-*11-=!W(n)一=5,卫Z1(x)(x)2m+mu/M.小I()-(x)1.
7、,n-在变动分类阈值的过程当中,如果有新增真正例,那么图21就会相应地增加一条绿色线段或蓝色线段,所以上式中的.K可以看作是在累加所有绿色和蓝色线段,相应地,后面的内容便是在求绿色线段或者蓝色线段与“轴围成的面积,即:y)三r,D-一,-与式(2.20)中的求解思路相同,不论是绿色线段还是蓝色线段,其与Q轴围成的图形面积都1可以用梯形公式来进行计算,所以上式表示的依旧是一个梯形的面积公式.其中U即梯形的“高”,中括号内便是“上底+下底,下面我们来分别推导一下“上底”(较短的底)和“下底”(较长的底).由于在绘制RCr曲线的过程中,每新增一个假正例时T坐标也就新增一个步长,所以对于1“上底”,也
8、就是绿色或者蓝色线段的下端点到轴的距离,长度就等于U乘以预测值大于/(n的假正例的个数,即!E1(3)V/Gr)而对于“下底”,长度就等于二二乘以预测值大于等于人的假正例的个数,即m式(2.27)l(x)-/严4txmi/解析截至2018年12月“西瓜书”第1版第30次印刷,式Q.27)应当勘误为E = nunc (:)dWMmt /具体推导过程如下:由“西瓜书”中的上下文可知,对C“进行假设检验,等价于本章附注中所述的对P曲叁打假设检验,所以在“西瓜书”中求解最大错误率7等价于在附注中求C解事件最大发生频率由附注可知C=minCa.t.(:)曲f)所以A=Inin?(:)曲1一刖尸ral7)
9、式(2.41)E(/:D)=Epl/|z:Pl-yp2=ED(/(a)-7()+/M-yo)a=Eo(/(;D)一/(,)月+EDIV(Jr)-Jto/+ED2(fl.D)-fix)(7(X)ITd)=ED(/(室D)-f(x)s+Ed(/()-Vd)1=ED(/(;。)-7(*)a+I(7()-y+y-yp)a=%(/(z;D)-用)卉+%(/(X)-yt+ED电+2E(/(X)-J)(y-加)-%f(/(;D)-/(x)t+(7()一+如Rlto-一:减一个八公再加一个,属于简单的恒等变形-:同一样,减一个再加一个u属于简单的恒等变形()-:同一样,将最后一项利用期望的运算性质进行展开解析
10、-:首先将中括号内的式子展开,有ED(/(;D)-7(x)i+(7()-yo)i+2(/(室D)-/(x)(7()-yp).然后根据期望的运算性质EA-Y-EL:E1可将上式化为(;D)-)j(/()-Vd)1+ED2(f(x;D)-f(x)(f(x)-yo)l.一:再次利用期望的运算性质将第3步得到的式子的最后一项展开,有ED2(/3;D)-加)(/(x)-yo)l-Ed2(x;D)-/(x)-/()-Ed|2(/(;D)-/(x)皿.首先计算展开后得到的第1项,有ED2U(MD)_/()-,(到=Ed2(三;D)加)-2/()-f(x).由于N)是常量,所以由期望的运算性质:E1r.A-1
11、3.1EB(其中AB均为常量)可得Ed2U(MD)-7()7()-2f(x)%f(x;D)-2()f(x)由式(2.37)可知E(rD)l。0,所以Ep2(fx.D)-7(x1)f(*)=2.)fix)-2px)./(x)=(接着计算展开后得到的第二项ED2(j(xD)-f(x)yo=2E11j(xD)yp-2(z)EDd由于噪声和/无关,所以“工0和助是两个相互独立的随机变量.根据期望的运算性质EbVVl.EXEIW(其中讲口为相互独立的随机变量)可得ED2(/(工;D)-,)H=2Ed(z;。)2,(工)EDM=2E0/(*。)1EDfol-2/()EDyo三2/()EdFvdI-2f(x
12、)E11IvdI=0,所以“2(/3;0-,力)伊力-加)=%2(z;D)-/(z)f(x-Ed2(/3;D)-喇血=0+0nI:因为工)和U均为常量,根据期望的运算性质,有中的第2项En(/(*)y)=(,y)同理有中的最后一项(,一y)(y-沏)2(f(x)-y)Ep-y11.由于此时假定噪声的期望为零,BIJEnfe-IZDl-O,所以2Ed(/(n)-(V-刖)-2(7(x)-j)-0=0.附注二项分布参数加勺检验1设某事件发生的概率为,D未知.做E次独立试验,每次观察该事件是否发生,以Ti己该事件发生的次数,则Y服从二项分布由m.D),现根据Y检验如下假设:Hq:PAi;HI:p.由
13、二项分布本身的特性可知:礴小,取到较小值的概率越大.因此,对于上述假设,一个直观上合理的检验为夕:当YWr时接飘否则就拒绝Hn其中,CUN表示事件最大发生次数.此检验对应的功效函数为)-p(xO-1-P(XO氢A】_广由于“越小,K取到较小值的概率越大”可以等价表示为:RX,C)是关于,的减函数,所以H(P)P(Xc=-c是关于的增函数,那么当禽时,MR)即Mri的上确界.又根据参考文献口中5.1.3的定义1.2可知,检验水平C默认取最小可能的水平,所以在给定检验水平C时,可以通过如下方程解得满足检验水平C的整数:更为严格的数学证明参见参考文献山中第二章习题7a=sup(p).显然,当D内时有
14、Qt-Slip(p),即()对于此方程,通常不一定正好解得一个使得方程成立的整数C较常见的情况是存在这样一个倒吏得营(:)出(1-网广,Q此时,Q只能取万或者日+1.若门虹,则相当于升高了检验水平C;若C取自+】则相当于降低了检验水平m具体如何取舍需要结合实际情况,但是通常为了减小犯第一类错误的概率,会倾向于令Q取L下面考虑如何求解E易证%伉)是关于O的减函数,再结合上述关于不的两个不等式易推得C=minCs.t.E(:j(1a参考文献陈希孺.概率论与数理统计M.合肥:中国科学技术大学出版社,2009.第3章线性模型式(3.5)甯i=2-Xeig)解析EEsb-VIyIr,by已知七,所以a=
15、(一=/iTi/:1m=2(弘一叼-b)(-引E2.(arf-yrr,r,)/mmmB1b!J/mm=2(wxi三1三1/=2卜6V2(y叼)式(3.7)以q-工)解析令式(3.5)等于0,有wim0=10Xd-22(1-b)zj,MI口1初?=的石_工蚂.fc=li=l11。、1?.1S由于令式(3.6)等于0可得,nr,又因为,占且,则b=#-Wi,代入上式可得wiinm52?-$2u-$2(s-vf)xi,i=l1-WEj?=E眄一旷片+,孙i=li=lUl曰i三1/ilUlyJ2=_物Cq=Vift至Z/=与、2片=将占白会和Mm三T白m断(片)i=l()代入上式,即可得式(3.7):
16、如果要想用PythOn来实现上式的话,上式中的求和运算只能用循环来实现.但是如果能将上式向量化,也就是转换成矩阵(即向量)运算的话,我们就可以利用诸如NUmPy这种专门加速矩阵运算的类库来进行编写.下面我们就尝试将上式进行向量化.If?)=将m/M代入分母可得mEM(XjT)-=LEdTEXii=m-M)(4-*)又因为电一日点七楼汽EE.IWEX1T=J1=rm-jt=mj2=j2-JrFr,则有3(切片一.一ii+)二,一一.一总)ZZl(r)(.:必1-i)j若令r11;12i,j,-Ici/r.JI为去均值后的a三;V三(.Vi,L,.,Va:,-e-0)T为去均值后的I/,代入上式可
17、得N、ZJlJ的为彳加列的列向量吗Ml而式(3.10)-2X1(XwV)/w解析将入y-Xtr)T(1/,w展开可得EA=VrV-VirXw-wXvW1XXw对阖七导可得%_%_w+o=O-XTu-XTy(XTX+XTX)W=2XT(Xiir-MarxxaxAjct矩阵微分式k=k=,F-=A+4)X式(327)Ea)=E(-+hj(Sq)1解析将式(3.26)代入式(3.25)可得m,三m(lM(稣+(1-*)M&例)I其中3)二1二。,代入上式可得-E(In(MTl+I一机)一In(l+JTAt)由于30或1,则Z1(-h(),1i-ln(l)5w=l两式综合可得K粉=E(y-b(l+-)
18、由于此式仍为极大似然估计的似然函数,所以最大化似然函数等价于最小化似然函数的相反数,即在似然函数前添加负号即可得式(3.27).值得一提的是,若将式(3.26)改写为p(v,!z,:w,6)-(Pl;。)MA)住.6)3,再代入式(3.25)可得咐=WhI(3(禽;0)卢3(禽M尸)m(玳M(P1出;户)+(1-断)加3(飘;Q)ferlVR=(机(m(pi出;砌-m3(却0)+卜佃(0)I我MSD(石砌=EmlD+h*()三EG#TZ-In(1+4*)U=I显然,此种方式更易推导出式(3.27).式(3.30)翳=-毕心-m知)解析此式可以进行向量化.令小工,代入上式得1.4=1m=一弘)=
19、X(6-Ir)=XT(PI(X-1/).式(332)j_9丁(耿1)(出一1-3w(7o+7)w解析jw0-w1W(n+)WWT(Ee+)wIgF)TTI:WT(Eo+E)w3心I)TTTU外产9W(b+)W=w(-1)(-l)wW(2o+Si)W-式(3.37)SAW=XSttw解析由式(3.36),可定义拉格朗日函数为1.(w.X=wSw+AlwSuw-1).对f球偏导可得L(wt)(w,Sw)$Ad(WlS.to-1)wi)w+Ihn-(SkSj)w(Slr+Sj)w=IShW2ASw.这是由于SbsLSs三令上式等于O即可得-2SfrW+2Sww-OSkW=ASMlM由于我们想要求解的
20、只有ff,而拉格朗日乘子调体取值多少都无所谓,因此可以任意设定工来配合我们求解E注意到SbW=(il-1)(-w1如果我们令入IA仆叫那么上式即可改写为SbW=A(4,-1),将其代入SAW=ASbuJ即可解得W=S(ii-J式(3.38)Sw=(o-J参见式(3.37)式(3.39)幡=S(一J参见式(3.37)式(3.43)Sb-St-SwN=-)3尸a=l解析由式(3.40)、式(3.41)、式(3.42河得:N=)(A-产-EE(x-j)(aB-i)1*i=J2f(r*=1=1.整理一下可得(A=-log3x1-=-=2xll占.j-1=由以上两个方程可以解得1B=D=XB=丁又因为I
21、还需满足约束D41,显然所以,I=及=Q=;是满足所有约束的最优解,即当前最小化问题的最小值点,同时也是/3的最大值点.将 =项| =”弋入“5.4)中可得/f-.,-J=Vk-log:-=-n-IogJ-=l211nWnFlnn。-1以=1所以n.zJ在满足约束匕时的最大值为kf.Vx4=I下面求最小值.如果不考虑约束X而仅考虑DqL贝Jei.,人)可以看作D个互不相关的一元函数的和,即/(j,1tr)g(n),Jl其中,Eh)=-了a1。了hWnWL那么当trJo(n川/,分别取到其最小值时,)也就取到了最小值.所以接下来考虑分别求厂,各自的最小值,由于q(h)M7理/的定义域和函数表达式
22、均相同,所以只需求出)的最小值也就求出了H羽)”/)的最小值.下面考虑求“工力的最小值,首先对MZl段于北求一阶和二阶导数,有4项)=-d;=-x-x=小)d(z1)一四-春)1显然,当。*4*】时,=-J11恒小于0,所以(Mi)是一个在其定义域范围内开口向下的凹函数,那么其最小值必然在边界取.分别取h=。和Ti=L代入方)可得计算信息燧时约定:若=(1,贝/kH=Og()=-Ol0g9O=O=Uog9I=0所以,Mr力的最小值为0,同理可得“工。.”人)的最小值也都为0,即4、.xj的最En=I.Xfc=1小值为0.但是,此时仅考虑约束DMgv)-国前.总的遍历所有属性,找到最优划分属性/
23、11然后根据尚最优划分点将特征空间划分为两个子空间,接着对每个子空间重复上述步骤,直至满足停止条件.这样就生成了一棵CART回归树,假设最终将特征空间划分为H个子空间小片一Ru,那么CART回归树的模型式可以表示为/(X)=TWRm).m-1同理,其中的c示的也是集合A中的样本H;应的输出值的均值.此式直观上的理解就是,对于一个给定的样本,首先判断其属于哪个子空间,然后将其所属的子空间对应的输出值作为该样本的预测值.如参考文献1李航.统计学习方法M.北京:清华大学出版社,2012.第5章神经网络式(5.2)Atrl=Mu-v)rl解析此式是感知机学习算法中的参数更新式,下面依次给出感知机模型、
24、学习策略和学习算法的具体介绍1感知机模型已知感知机由两层神经元组成,故感知机模型的式可表示为y=/Mixi_a)=fwrx-,),其中,NURn,为样本的特征向量,是感知机模型的输入;9/是感知机模型的参数,wR,为权重,闩为阈值.假定f为阶跃函数,那么感知机模型的式可进一步表示为用M)代表阶跃函数y三wx-三f。书由于Fl维空间中的超平面方程为+Mj,+ttMTa+6=11,Ti+=0.所以此时感知机模型式中的WT工A可以看作是n维空间中的一个超平面,将ri维空间划分为ICiZ-630和MJTWn两个子空间,落在前一个子空间的样本对应的模型输出值为b落在后一个子空间的样本对应的模型输出值为0
25、,如此便实现了分类功能.感知机学习策略给定一个线性可分的数据集T(参见本章附注),感知机的学习目标是求得能对数据集了中的正负样本完全正确划分的分离超平面“Jir自=(k假设此时误分类样本集合为MCr对任意一个误分类样本来说,当wx-(),模型输出值为。=1,样本真实标记为VO;反之,当Mj工一Q。时,模型输出值为0=0,样本真实标记为V-L综合两种情形可知,以下式恒成立:管一y)(ST工一)所以,给定数据集T,其损失函数可以定义为1.(w.)-Ely-y)(w,X-).a”显然,此损失函数是非负的.如果没有误分类点,则损失函数值为0.而且,误分类点越少,误分类点离超平面越近,损失函数值就越小.因此,给定数据集T,损失函数皿例是关于S那的连续可导函数.