CNN特征可视化报告.ppt_三一办公31ppt.com

资源描述

《CNN特征可视化报告.ppt》由会员分享，可在线阅读，更多相关《CNN特征可视化报告.ppt（18页珍藏版）》请在三一办公上搜索。

1、卷积神经网络特征可视化报告,Annual Report,汇报人：龚志雄,首先介绍一篇可以视为CNN可视化开山之作的论文：Visualizing and Understanding Convolutional Networks。作者是Matthew D.Zeiler和Rob Fergus，于2014年发表在ECCV（欧洲计算机视觉国际会议）。通过反卷积可视化等技术，作者改进了AlexNet的网络结构得到了ZFNet，使得识别率进一步提高。今年来CNN在图像分类和物体检测领域大放异彩，主要是以下几项因素的作用:1.数以百万计带标签的训练数据的出现；2.GPU的强大计算能力；3.更好的模型调优策略：

2、如DropOut策略，使得训练大的模型成为可能。尽管如此，从科学的角度来看，这是令人很不满意的。因为我们并不能解释这个复杂的模型，也就不理解为什么它能达到这么好的效果，而不了解这个模型如何工作和为什么有作用，我们改进模型就只能使用试错法。这篇论文提出了一种新的可视化技术，揭示了模型中任意层的特征图片与输入之间的响应关系。,论文介绍,上面的结构就是作者此篇论文中使用的CNN网络结构，它是根据AlexNet的网络结构改进而来的，本文选择了ImageNet2012作为训练集（130万张图片，超过1000种类别）。训练过程在一块GTX580 GPU上进行，总共进行了70次全库迭代，运行了12天。,单击

3、此处编辑内容,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,论文介绍,本文将中间层特征反向映射到像素空间，观察什么样的输入会导致特定的输出，可视化过程基于（Zeiler 2011）提出的反卷积网络实现。本文模型中，卷积网的每一层都附加了一个反卷积层，每一层反卷积层有三个操作：unpooling：本文用了一种近似的方式计算max pooling的逆过程，在max pooling的过程中，用“Switches”表格记录下每个最大值的位置。在unpooling的过程中，我们将最大值标注回记录所在的位置，其余位置填0，右下图片显示了unpooling的过程。,论文介绍,矫正：在卷积网中，

4、我们通过Relu激活函数来保证所有输出都是非负数，这个约束对反卷积依然成立，因此将unpooling得到的重构信号送进Relu函数中计算，右下图显示的就是Relu函数的图像。反卷积：反卷积使用已经训练好的卷积核的转置作为核，与矫正后的特征图进行卷积运算。,论文介绍,论文介绍,论文介绍,论文介绍,上面三张图显示的是layer1layer5的部分节点通过反卷积过程产生的可视化特征图。对于网络中的每个节点，展示了9张在该节点上刺激最强的图片。左边显示的是通过反卷积得到的可视化特征图，右边显示的是对应的原始图片。通过观察上面三幅图片，我们至少可以得出两点结论：1.CNN特征提取具有层次化的特点，第一、

5、二层响应物体的边缘、轮廓、颜色信息，第三层捕获相似的纹理，第四、五层开始体现类与类之间的差异。2.每个节点只关注自己关注的特征，而对其他特征不予理会。例如layer5的第一行第二列的九张图片，都只提取了背景中的草地特征，而没有关注五花八门的前景特征。,论文介绍,特征在训练过程的演化：上图显示的是layer1layer5所得到的反卷积可视图在训练迭代次数为1，2，5，10，20，30，40，64时的演变情况，由此可以得出结论：底层特征需要少量的迭代训练就能收敛，但高层特征需要更多次的迭代才能收敛，只有所有层都收敛时，分类模型才能使用。这也提供了一种确定迭代次数的思路：当观察到高层网络的可视图收敛

6、时，就可以不用训练了。,单击此处编辑内容,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,论文介绍,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,论文介绍,上面一张图片显示的是“遮挡敏感性实验”的结果图，这个实验的过程是用一个灰色方块随机遮挡图片的某个区域，观测这种操作对第五层的strongest feature map和分类结果的影响。第a列是三张输入图片，在没有灰色方块遮挡的情况下分别被网络分类为：博美犬，车轮，阿富汗猎犬。这三张输入图片在第五层都有一个对应的strongest feature map，也就是激活值最大的一个feature map，第c列的黑框图片

7、就是将这三张strongest feature map用反卷积技术可视化。可以看到图二反卷积后显示的是车上的文字，但最终分类结果是车轮。图三反卷积后显示的是右边女人的脸，但分类结果是阿富汗猎犬，所以复杂图片里高层所关注的特征并不一定是分类的结果。,论文介绍,b列的三张图片显示的是随着灰色方块位置的变化，strongest feature map的激活值的变化情况。横纵坐标表示灰色方块在原图中的位置，颜色从蓝到红表示激活值从小到大。第一张图片，遮挡狗脸时，strongest feature map的激活值是最小的；第二张图片，遮挡汽车上的文字（包括反卷积图像里没有显示的文字）时，stronges

8、t feature map的激活值是最小的，说明这个feature map的作用就是来提取文字特征；第三张图片，遮挡人脸（包括男人的脸）时，strongest feature map的激活值是最小的，说明这个feature map的作用就是来提取人脸的。,论文介绍,d列的三张图片显示的是随着灰色方块位置的变化，正确分类准确率的变化情况。横纵坐标表示灰色方块在原图中的位置，颜色从蓝到红表示准确率从小到大。第一张图片，遮挡狗脸时，正确分类准确率是最低的；第二张图片，遮挡车轮时，正确分类准确率是最低的；第三张图片，遮挡整只狗时，正确分类准确率是最低的；经过这个实验，回答了论文中提到的一个问题：a n

9、atural question is if the model is truly identifying the location of the object in the image,or just using the surrounding context.,论文介绍,反卷积可视化技术显示了AlexNet的一些问题，a是第一层卷积核，c是AlexNet网络的第二层可视化特征图。a中混杂了大量高频和低频的信息，缺少中频的信息；c中由于选择了4作为跨度，产生了无用的特征（第一行第二列）。为了解决这些问题，作者做了以下工作：将第一层卷积核大小由11*11调整为7*7；将第一层和第二层卷积过程的跨

10、度由4调整为2，调整后的结果为b和d。最终模型错误率为14.8%，比AlexNet提高了0.5个百分点。,单击此处编辑内容,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,论文介绍,CNN可视化还有另外一种方法：梯度上升法，这种方法的目的是合成一张在某个网络节点上产生最大激活值的输入图片。为了合成这张图片，我们开始从一张随机像素值的噪声图片 x 开始，接下来，我们使用这张噪声图作为CNN网络的输入向前传播，然后取得其在网络中第 i 层 j 个卷积核的激活值 a_ij(x)，按照右边的公式反向传播更新输入图片。不断重复上述过程，直到图像 x 能够让第 i 层第 j 个节点具有较高的激活值。,梯度上升可视化,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,梯度上升可视化,上图是通过梯度上升得到的一些可视化结果，这种方法一个很大的问题就是得到的图片会有很多重叠，不易于观察。,单击添加标题，建议您在展示时采用微软雅黑体,单击此处辑内容,梯度上升可视化,

展开阅读全文