现代机器学习-基于深度学习的图像特征提取解析.doc

资源描述

《现代机器学习-基于深度学习的图像特征提取解析.doc》由会员分享，可在线阅读，更多相关《现代机器学习-基于深度学习的图像特征提取解析.doc（23页珍藏版）》请在三一办公上搜索。

1、现代机器学习理论大作业（基于深度学习的图像特征提取）基于深度学习的图像特征提取摘要：大数据时代的来临，为深度学习理论的发展创造了良好的条件。本文介绍了深度学习的发展背景，主要讨论了深度学习中的自编码的方法，对自编码方法实现仿真应用，期望在以后能应用到SAR图像上进行自动特征提取，最后阐述该理论的目前遇到的困难。关键词：深度学习 autoencoder convolution pooling一引言机器学习是人工智能的一个分支，而在很多时候，几乎成为人工智能的代名词。简单来说，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。从1980年代

2、末期以来，机器学习的发展大致经历了两次浪潮：浅层学习（Shallow Learning）和深度学习（Deep Learning）。第一次浪潮：浅层学习1980年代末期，用于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显示出优越性。这个时候的人工神经网络，虽然也被称作多层感知机（Multi-layer Per

3、ceptron），但实际上是一种只含有一层隐层节点的浅层模型。90年代，各种各样的浅层机器学习模型相继被提出，比如支撑向量机（SVM，Support Vector Machines）、Boosting、最大熵方法（例如LR， Logistic Regression）等。这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。这些模型在无论是理论分析还是应用都获得了巨大的成功。相比较之下，由于理论分析的难度，加上训练方法需要很多经验和技巧，所以这个时期浅层人工神经网络反而相对较为沉寂。2000年以来互联网的高速发展，对大数据的智能化分析和预测提出了巨

4、大需求，浅层学习模型在互联网应用上获得了巨大成功。最成功的应用包括搜索广告系统（比如Google的AdWords、百度的凤巢系统）的广告点击率CTR预估、网页搜索排序（例如Yahoo!和微软的搜索引擎）、垃圾邮件过滤系统、基于内容的推荐系统等。2006年，加拿大多伦多大学教授、机器学习领域泰斗Geoffrey Hinton和他的学生Ruslan Salakhutdinov在顶尖学术刊物科学上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的信息：1. 很多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2. 深度神经

5、网络在训练上的难度，可以通过“逐层初始化（Layer-wise Pre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。第二次浪潮：深度学习自2006年以来，深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年，美国国防部DARPA计划首次资助深度学习项目，参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据，就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型，由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度，目前深度学习的理论研究还基

6、本处于起步阶段，但在应用领域已显现出巨大能量。2011年以来，微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率2030，是语音识别领域十多年来最大的突破性进展。2012年，DNN技术在图像识别领域取得惊人的效果，在ImageNet评测上将错误率从26降低到15。在这一年，DNN还被应用于制药公司的Druge Activity预测问题，并获得世界最好成绩，这一重要成果被纽约时报报道。今天Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，正是因为它们都看到了在大数据时代，更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载

7、的复杂而丰富的信息，并对未来或未知事件做更精准的预测。在工业界一直有个很流行的观点：在大数据条件下，简单的机器学习模型会比复杂模型更加有效。例如，在很多的大数据应用中，最简单的线性模型得到大量使用。而最近深度学习的惊人进展，促使我们也许到了要重新思考这个观点的时候。简而言之，在大数据情况下，也许只有比较复杂的模型，或者说表达能力强的模型，才能充分发掘海量数据中蕴藏的丰富信息。运用更强大的深度模型，也许我们能从大数据中发掘出更多有价值的信息和知识。为了理解为什么大数据需要深度模型，先举一个例子。语音识别已经是一个大数据的机器学习问题，在其声学建模部分，通常面临的是十亿到千亿级别的训练样本。在Go

8、ogle的一个语音识别实验中，发现训练后的DNN对训练样本和测试样本的预测误差基本相当。这是非常违反常识的，因为通常模型在训练样本上的预测误差会显著小于测试样本。因此，只有一个解释，就是由于大数据里含有丰富的信息维度，即便是DNN这样的高容量复杂模型也是处于欠拟合的状态，更不必说传统的GMM声学模型了。所以从这个例子中我们看出，大数据需要深度学习。浅层模型有一个重要特点，就是假设靠人工经验来抽取样本的特征，而强调模型主要是负责分类或预测。在模型的运用不出差错的前提下（如假设互联网公司聘请的是机器学习的专家），特征的好坏就成为整个系统性能的瓶颈。因此，通常一个开发团队中更多的人力是投入到发掘更好

9、的特征上去的。要发现一个好的特征，就要求开发人员对待解决的问题要有很深入的理解。而达到这个程度，往往需要反复地摸索，甚至是数年磨一剑。因此，人工设计样本特征，不是一个可扩展的途径。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。所以“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1. 强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2. 明确突出了特征学习的重要性，也就是说，同过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，使分类或预测更加容易。与人工规则构

10、造特征的方法相比，利用大数据来学习特征，更能刻画数据丰富的内在信息。所以，在未来的几年里，我们将看到越来越多的例子：深度模型应用于大数据，而不是浅层的线性模型。图像是深度学习最早尝试的应用领域。早在1989年，Yann LeCun (现纽约大学教授) 和他的同事们就发表了卷积神经网络（Convolution Neural Networks，简称CNN）的工作。CNN是一种带有卷积结构的深度神经网络，通常至少有两个非线性可训练的卷积层，两个非线性的固定卷积层（又叫Pooling Laye）和一个全连接层，一共至少5个隐含层。CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发，尤其

11、是模拟视觉皮层V1和V2层中Simple Cell和Complex Cell的行为。在很长时间里，CNN虽然在小规模的问题上，如手写数字，取得过当时世界最好结果，但一直没有取得巨大成功。这主要原因是，CNN在大规模图像上效果不好，比如像素很多的自然图片内容理解，所以没有得到计算机视觉领域的足够重视。这个情况一直持续到2012年10月，Geoffrey Hinton和他的两个学生在著名的ImageNet问题上用更深的CNN取得世界最好结果，使得图像识别大踏步前进。在Hinton的模型里，输入就是图像的像素，没有用到任何的人工特征。这个惊人的结果为什么在之前没有发生？原因当然包括算法的提升，比如

12、dropout等防止过拟合技术，但最重要的是，GPU带来的计算能力提升和更多的训练数据。百度在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题，并推出相应的桌面和移动搜索产品，2013年，深度学习模型被成功应用于一般图片的识别和理解。从百度的经验来看，深度学习应用于图像识别不但大大提升了准确性，而且避免了人工特征抽取的时间消耗，从而大大提高了在线计算效率。可以很有把握地说，从现在开始，深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。二深度学习中的sparse autoencoder2.1 sparse autoencoderDeep learnin

13、g领域比较出名的一类算法sparse autoencoder，即稀疏模式的自动编码。sparse autoencoder是一种自动提取样本（如图像）特征的方法。把输入层激活度（如图像）用隐层激活度表征，再把隐层信息在输出层还原。这样隐层上的信息就是输入层的一个压缩过的表征，且其信息熵会减小。并且这些表征很适合做分类器。我们知道，deep learning也叫做无监督学习，所以这里的sparse autoencoder也应是无监督的。如果是有监督的学习的话，在神经网络中，我们只需要确定神经网络的结构就可以求出损失函数的表达式了（当然，该表达式需对网络的参数进行”惩罚”，以便使每个参数不要太大）,

14、同时也能够求出损失函数偏导函数的表达式，然后利用优化算法求出网络最优的参数。应该清楚的是，损失函数的表达式中，需要用到有标注值的样本。那么这里的sparse autoencoder为什么能够无监督学习呢？难道它的损失函数的表达式中不需要标注的样本值（即通常所说的y值）么？其实在稀疏编码中”标注值”也是需要的，只不过它的输出理论值是本身输入的特征值x，其实这里的标注值y=x。这样做的好处是，网络的隐含层能够很好的代替输入的特征，因为它能够比较准确的还原出那些输入特征值。Sparse autoencoder的一个网络结构图如下所示： 2.2 损失函数无稀疏约束时网络的损失函数表达式如下：稀疏编码

15、是对网络的隐含层的输出有了约束，即隐含层节点输出的平均值应尽量为0，这样的话，大部分的隐含层节点都处于非激活状态。因此，此时的sparse autoencoder损失函数表达式为：后面那项为KL距离，其表达式如下：隐含层节点输出平均值求法如下：其中的参数一般取很小，比如说0.05，也就是小概率发生事件的概率。这说明要求隐含层的每一个节点的输出均值接近0.05（其实就是接近0，因为网络中激活函数为sigmoid函数），这样就达到稀疏的目的了。KL距离在这里表示的是两个向量之间的差异值。从约束函数表达式中可以看出，差异越大则”惩罚越大”，因此最终的隐含层节点的输出会接近0.05。假设我们有一

16、个固定样本集，它包含个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例，其代价函数为：这是一个（二分之一的）方差代价函数。给定一个包含个样例的数据集，我们可以定义整体代价函数为：以上公式中的第一项是一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。权重衰减参数用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义：是针对单个样例计算得到的方差代价函数；是整体样本代价函数，它包含权重衰减项。以上的代价函数经常被用于分类和回归问题。在分类问题中，我们用或，来代表两种类型的标签，这是因为 sigmoid激

17、活函数的值域为；如果我们使用双曲正切型激活函数，那么应该选用 -1 和 +1 作为标签。对于回归问题，我们首先要变换输出值域，以保证其范围为（同样地，如果我们使用双曲正切型激活函数，要使输出值域为）。我们的目标是针对参数和来求其函数的最小值。为了求解神经网络，我们需要将每一个参数和初始化为一个很小的、接近零的随机值（比如说，使用正态分布生成的随机值，其中设置为），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化

18、，而不是全部置为。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有，都会取相同的值，那么对于任何输入都会有：）。随机初始化的目的是使对称失效。2.3 反向传播算法梯度下降法中每一次迭代都按照如下公式对参数和进行更新：其中是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。我们首先来讲一下如何使用反向传播算法来计算和，这两项是单个样例的代价函数的偏导数。一旦我们求出该偏导数，就可以推导出整体代价函数的偏导数：以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰

19、减是作用于而不是。反向传播算法的思路如下：给定一个样例，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括的输出值。之后，针对第层的每一个节点，我们计算出其“残差” ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为（第层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（译者注：第层节点）残差的加权平均值计算，这些节点以作为输入。下面将给出反向传导算法的细节：进行前馈传导计算，利用前向传导公式，得到直到输出层的激活值。对于第层（输出层）的每个输出单元，

20、我们根据以下公式计算残差：对的各个层，第层的第个节点的残差计算方法如下：将上式中的与的关系替换为与的关系，就可以得到：以上逐次从后向前求导的过程即为“反向传导”的本意所在。计算我们需要的偏导数，计算方法如下：最后，我们用矩阵-向量表示法重写以上算法。我们使用“” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若，则。那么，反向传播算法可表示为以下几个步骤：1 进行前馈传导计算，利用前向传导公式，得到直到输出层的激活值。2 对输出层（第层），计算： 3 对于的各层，计算： 4 计算最终需要的偏导数值：实现中应注意：在以上的第2

21、步和第3步中，我们需要为每一个值计算其。假设是sigmoid函数，并且我们已经在前向传导运算中得到了。那么，使用我们早先推导出的表达式，就可以计算得到。最后，我们将对梯度下降算法做个全面总结。在下面的伪代码中，是一个与矩阵维度相同的矩阵，是一个与维度相同的向量。注意这里“”是一个矩阵，而不是“ 与相乘”。下面，我们实现批量梯度下降法中的一次迭代：对于所有，令 , （设置为全零矩阵或全零向量）1 对于到，使用反向传播算法计算和。2 计算。3 计算。更新权重参数：现在，我们可以重复梯度下降法的迭代步骤来减小代价函数的值，进而求解我们的神经网络。三实验仿

22、真3.1 利用autoencoder提取特征从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张，现在需要用sparse autoencoder的方法训练出一个隐含层网络所学习到的特征。该网络共有3层，输入层是64个节点，隐含层是25个节点，输出层当然也是64个节点了。其实实现该功能的主要步骤还是需要计算出网络的损失函数以及其偏导数。下面用简单的语言大概介绍下这个步骤，方便理清算法的流程。1. 计算出网络每个节点的输入值（即程序中的z值）和输出值（即程序中的a值，a是z的sigmoid函数值）。2. 利用z值和a值计算出网络每个节点的误差值（即程序中的delta值）。

23、3. 这样可以利用上面计算出的每个节点的a，z，delta来表达出系统的损失函数以及损失函数的偏导数了，当然这些都是一些数学推导。其实步骤1是前向进行的，也就是说按照输入层隐含层输出层的方向进行计算。而步骤2是方向进行的（这也是该算法叫做BP算法的来源），即每个节点的误差值是按照输出层隐含层输入层方向进行的。下面看一下实验流程：首先运行主程序train.m中的步骤1，即随机采样出10000个小的patch，并且显示出其中的204个patch图像，图像显示如下所示：然后运行train.m中的步骤2和步骤3，进行损失函数和梯度函数的计算并验证。进行gradient checking的时间可能会太

24、长，我这里大概用了1个半小时以上，当用gradient checking时，发现误差只有6.5101e-11，远小于1e-9，所以说明前面的损失函数和偏导函数程序是对的。后面就可以接着用优化算法来求参数了，本程序给的是优化算法是L-BFGS。经过几分钟的优化，就出结果了。最后的W1的权值如下所示： 3.2 Self-taught learningSelf-taught learning是用的无监督学习来学习到特征提取的参数，然后用有监督学习来训练分类器。这里分别是用的sparse autoencoder和softmax regression，实验的数据依旧是手写数字数据库MNIST Datas

25、et。采用数字59的样本来进行无监督训练，采用的方法是sparse autoencoder，可以提取出这些数据的权值，权值转换成图片显示如下：但是本次实验主要是进行04这5个数字的分类，虽然进行无监督训练用的是数字59的训练样本，这依然不会影响后面的结果。只是后面的分类器设计是用的softmax regression，所以是有监督的。最后的结果精度是98%，而直接用原始的像素点进行分类器的设计不仅效果要差（才96%），而且训练的速度也会变慢不少。3.3 convolution与 pooling在全局连接网络中，如果我们的图像很大，比如说为96*96，隐含层有要学习100个特征，则这时候把输入

26、层的所有点都与隐含层节点连接，则需要学习106个参数，这样的话在使用BP算法时速度就明显慢了很多。所以后面就发展到了局部连接网络，也就是说每个隐含层的节点只与一部分连续的输入点连接。这样的好处是模拟了人大脑皮层中视觉皮层不同位置只对局部区域有响应。局部连接网络在神经网络中的实现使用convolution的方法。它在神经网络中的理论基础是对于自然图像来说，因为它们具有稳定性，即图像中某个部分的统计特征和其它部位的相似，因此我们学习到的某个部位的特征也同样适用于其它部位。下面具体看一个例子是怎样实现convolution的，假如对一张大图片的数据集，r*c大小，则首先需要对这个数据集随机采样大小为

27、a*b的小图片，然后用这些小图片patch进行学习（比如说sparse autoencoder），此时的隐含节点为k个。因此最终学习到的特征数为：虽然按照convolution的方法可以减小不少需要训练的网络参数，比如说96*96，,100个隐含层的，采用8*8patch，也100个隐含层，则其需要训练的参数个数减小到了103，大大的减小特征提取过程的困难。但是此时同样出现了一个问题，即它的输出向量的维数变得很大，本来完全连接的网络输出只有100维的，现在的网络输出为89*89*100=792100维，大大的变大了，这对后面的分类器的设计同样带来了困难，所以pooling方法就出现了。为什么

28、pooling的方法可以工作呢？首先在前面的使用convolution时是利用了图像的平稳性特征，即不同部位的图像的统计特征是相同的，那么在使用convolution对图片中的某个局部部位计算时，得到的一个向量应该是对这个图像局部的一个特征，既然图像有平稳性特征，那么对这个得到的特征向量进行统计计算的话，所有的图像局部块应该也都能得到相似的结果。对convolution得到的结果进行统计计算过程就叫做pooling，由此可见pooling也是有效的。常见的pooling方法有max pooling和average pooling等。并且学习到的特征具有旋转不变性。从上面的介绍可以简单的知道，c

29、onvolution是为了解决前面无监督特征提取学习计算复杂度的问题，而pooling方法是为了后面有监督特征分类器学习的，也是为了减小需要训练的系统参数（当然这是在普遍例子中的理解，也就是说我们采用无监督的方法提取目标的特征，而采用有监督的方法来训练分类器）。本次实验是练习convolution和pooling的使用，更深一层的理解怎样对大的图片采用convolution得到每个特征的输出结果，然后采用pooling方法对这些结果进行计算，使之具有平移不变等特性。首先来看看整个训练和测试过程的大概流程：在训练阶段，是对小的patches进行whitening的。由于输入的数据是大的图片，所以

30、每次进行convolution时都需要进行whitening和网络的权值计算，这样每一个学习到的隐含层节点的特征对每一张图片都可以得到一张稍小的特征图片，接着对这张特征图片进行均值pooling。有了这些特征值以及标注值，就可以用softmax来训练多分类器了。在测试阶段是对大图片采取convolution的，每次convolution的图像块也同样需要用训练时的whitening参数进行预处理，分别经过convolution和pooling提取特征，这和前面的训练过程一样。然后用训练好的softmax分类器就可进行预测了。训练特征提取的网络参数用的时间比较多，而训练比如说softmax分类器

31、则用的时间比较短。在matlab中当有n维数组时，一般是从右向左进行剥皮计算，因为matlab输出都是按照这种方法进行的。当然了，如果要理解的话，从左向右和从右向左都是可以的，只要是方便理解就行。程序中进行convolution测试的理由是：先用cnnConvolve函数计算出所给样本的convolution值，然后随机选取多个patch，用直接代数运算的方法得出网络的输出值，如果对于所有(比如说这里选的1000个)的patch，这两者之间的差都非常小的话，说明convution计算是正确的。程序中进行pooling测试的理由是：采用函数cnnPool来计算，而该函数的参数为polling的维

32、数以及需要pooling的数据。因此程序中先随便给一组数据，然后用手动的方法计算出均值pooling的结果，最后用cnnPool函数也计算出一个结果，如果两者的结果相同，则说明pooling函数是正确的。程序中颜色特征的学习体现在：每次只对RGB中的一个通道进行convolution，分别计算3次，然后把三个通道得到的convolution结果矩阵对应元素相加即可。这样的话，后面的Pooling操作只需在一个图像上进行即可。由于只需训练4个类别的softmax分类器，所以其速度非常快，1分钟都不到。训练出来的特征图像为：最终的预测准确度为：Accuracy: 80.406%3.4构建deep

33、 network网络练习2个隐含层的网络的训练方法，每个网络层都是用的sparse autoencoder思想，利用两个隐含层的网络来提取出输入数据的特征。本次实验验要完成的任务是对MINST进行手写数字识别，当提取出手写数字图片的特征后，就用softmax进行对其进行分类。进行deep network的训练方法大致如下：1. 用原始输入数据作为输入，训练出（利用sparse autoencoder方法）第一个隐含层结构的网络参数，并将用训练好的参数算出第1个隐含层的输出。2. 把步骤1的输出作为第2个网络的输入，用同样的方法训练第2个隐含层网络的参数。3. 用步骤2 的输出作为多分类器so

34、ftmax的输入，然后利用原始数据的标签来训练出softmax分类器的网络参数。4. 计算2个隐含层加softmax分类器整个网络一起的损失函数，以及整个网络对每个参数的偏导函数值。5. 用步骤1，2和3的网络参数作为整个深度网络（2个隐含层,1个softmax输出层）参数初始化的值，然后用lbfs算法迭代求出上面损失函数最小值附近处的参数值，并作为整个网络最后的最优参数值。上面的训练过程是针对使用softmax分类器进行的，而softmax分类器的损失函数等是有公式进行计算的。所以在进行参数校正时，可以对把所有网络看做是一个整体，然后计算整个网络的损失函数和其偏导，这样的话当我们有了标注好了

35、的数据后，就可以用前面训练好了的参数作为初始参数，然后用优化算法求得整个网络的参数了。关于深度网络的学习几个需要注意的小点（假设隐含层为2层）：利用sparse autoencoder进行预训练时，需要依次计算出每个隐含层的输出，如果后面是采用softmax分类器的话，则同样也需要用最后一个隐含层的输出作为softmax的输入来训练softmax的网络参数。由步骤1可知，在进行参数校正之前是需要对分类器的参数进行预训练的。且在进行参数校正(Finetuning )时是将所有的隐含层看做是一个单一的网络层，因此每一次迭代就可以更新所有网络层的参数。另外在实际的训练过程中可以看到，训练第一个隐含层

36、所用的时间较长，应该需要训练的参数矩阵为200*784(没包括b参数),训练第二个隐含层的时间较第一个隐含层要短些，主要原因是此时只需学习到200*200的参数矩阵，其参数个数大大减小。而训练softmax的时间更短，那是因为它的参数个数更少，且损失函数和偏导的计算公式也没有前面两层的复杂。最后对整个网络的微调所用的时间和第二个隐含层的训练时间长短差不多。实验结果：第一个隐含层的特征值如下所示：第二个隐含层的特征值显示不知道该怎么弄，因为第二个隐含层每个节点都是对应的200维，用display_network这个函数去显示的话是不行的，它只能显示维数能够开平方的那些特征，所以不知道是该将20

37、0弄成20*10，还是弄成16*25好，很好奇关于deep learning那么多文章中第二层网络是怎么显示的，将200分解后的显示哪个具有代表性呢？待定。所以这里暂且不显示，因为截取200前面的196位用display_network来显示的话，什么都看不出来：没有经过网络参数微调时的识别准去率为：Before Finetuning Test Accuracy: 92.190%经过了网络参数微调后的识别准确率为：After Finetuning Test Accuracy: 97.670%四深度学习研发面临的重大问题4.1 理论问题理论问题主要体现在两个方面，一个是统计学习方面的，另一个

38、是计算方面的。我们已经知道，深度模型相比较于浅层模型有更好的对非线性函数的表示能力。具体来说，对于任意一个非线性函数，根据神经网络的Universal Approximation Theory，我们一定能找到一个浅层网络和一个深度网络来足够好地表示。但深度网络只需要少得多的参数。但可表示性不代表可学习性。我们需要了解深度学习的样本复杂度，也就是我们需要多少训练样本才能学习到足够好的深度模型。从另一方面来说，我们需要多少计算资源才能通过训练得到更好的模型？理想的计算优化方法是什么？由于深度模型都是非凸函数，这方面的理论研究极其困难。4.2 建模问题在推进深度学习的学习理论和计算理论的同时，我们是

39、否可以提出新的分层模型，使其不但具有传统深度模型所具有的强大表示能力，还具有其他的好处，比如更容易做理论分析。另外，针对具体应用问题，我们如何设计一个最适合的深度模型来解决问题？我们已经看到，无论在图像深度模型，还是语言深度模型，似乎都存在深度和卷积等共同的信息处理结构。甚至对于语音声学模型，研究人员也在探索卷积深度网络。那么一个更有意思的问题是，是否存在可能建立一个通用的深度模型或深度模型的建模语言，作为统一的框架来处理语音、图像和语言？4.3 工程问题需要指出的是，对于互联网公司而言，如何在工程上利用大规模的并行计算平台来实现海量数据训练，是各家公司从事深度学习技术研发首先要解决的问题。传

40、统的大数据平台如Hadoop，由于数据处理的Latency太高，显然不适合需要频繁迭代的深度学习。现有成熟的DNN训练技术大都是采用随机梯度法（SGD）方法训练的。这种方法本身不可能在多个计算机之间并行。即使是采用GPU进行传统的DNN模型进行训练，其训练时间也是非常漫长的，一般训练几千小时的声学模型所需要几个月的时间。而随着互联网服务的深入，海量数据训练越来越重要，DNN这种缓慢的训练速度必然不能满足互联网服务应用的需要。Google搭建的DistBelief，是一个采用普通服务器的深度学习并行计算平台，采用异步算法，由很多计算单元独立地更新同一个参数服务器的模型参数，实现了随机梯度下降算法

41、的并行化，加快了模型训练速度。与Google采用普通服务器不同，百度的多GPU并行计算平台，克服了传统SGD训练的不能并行的技术难题，神经网络的训练已经可以在海量语料上并行展开。可以预期，未来随着海量数据训练的DNN技术的发展，语音图像系统的识别率还会持续提升。参考文献：1BENGIO YLearning deep architectures for A1JFoundations and Trends in Machine Learning，2009，2(1)：1-1242 D. Ciresan, U.Meier, J.Masci, and J. Schmidhuber. A committe

42、e of neural networks for traffic sign classification. In Neural Networks (IJCNN), The 2011 International Joint Conference on, pages 19181921. IEEE, 2011. 103HINTON G，OSINDERO S，TEH YA fast learning algorithm for deep belief netsJNeural Computation，2006，18(7)：1527-15544 Y. Boykov, O. Veksler, and R.

43、Zabih. Fast approximate energy minimization via graph cuts. IEEE Trans. Pattern Anal. Mach.Intell., 23(11):12221239, 2001. 55LECUN Y，BOTTOU L，BENGIO Y，et a1Gradientbased learning applied to document recognitionJProceedings of the IEEE，1998，86(11)：2278-23246 D. Ciresan, U.Meier, J.Masci, and J. Schmi

44、dhuber. A committee of neural networks for traffic sign classification. In Neural Networks (IJCNN), The 2011 International Joint Conference on, pages 19181921. IEEE, 2011. 107 C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Scene parsing with multiscale feature learning, purity trees, and optimal c

45、overs. In Proceedings of the International Conference on Machine Learning(ICML), June 2012. 2, 68 J. Carreira and C. Sminchisescu. CPMC: Automatic Object Segmentation Using Constrained Parametric Min-Cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012. 29 Y. Boykov and V. Kolm

46、ogorov. An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision.IEEE Trans. Pattern Anal. Mach. Intell., 26(9):11241137, 2004. 510 Y. Boykov and M. P. Jolly. Interactive graph cuts for optimal boundary & region segmentation of objects in n-d images. In Proceedings of International Conference of Computer Vision (ICCV),volume 1, pages 105112, 2001. 11

展开阅读全文