Boosting自下而上和自上而下的视觉特征的显著性估.ppt

资源描述

《Boosting自下而上和自上而下的视觉特征的显著性估.ppt》由会员分享，可在线阅读，更多相关《Boosting自下而上和自上而下的视觉特征的显著性估.ppt（31页珍藏版）》请在三一办公上搜索。

1、,Boosting Bottom-up and Top-down Visual Features for Saliency Estimation,Boosting 自下而上和自上而下的视觉特征的显著性估计,主要内容,摘要,自由观赏自然场景时，最好的视觉显著模型尽管有显著的最新进展，在预测眼睛注视与人类的表现仍然落后。多数模型是基于低层次的视觉特点，自顶向下的特点的重要性尚未得到充分探讨或建模。在这里，我们结合了低级别的功能，如方向，颜色，强度，以前最好的自下而上的模式，采用自顶向下的视觉认知功能（例如，脸，人类，汽车等）的显著图，使用回归、SVM和AdaBoost分类，从这些特点里学习直接映射

2、这些功能的的眼睛注视。通过广泛的试验三个基准眼球跟踪数据集，使用三种流行的评价分数，我们展示了：我们的Boosting模型优于27个最先进的模型，是迄今为止在注视预测最准确的模型。此外，我们的模型没有如区域分割这样复杂的图像处理，成功地检测到的最显著的一个场景中的对象。,视觉注意的过程中一直是许多心理学，神经科学，计算机视觉等研究的对象。相应地，一些计算模型已经在机器学习，计算机视觉和机器人领域引起关注。几个应用程序也已经被提出，并进一步提出了在这一领域的兴趣，包括：，自动创建拼贴5，视频压缩6 9，非真实渲染8，广告设计10。自下而上的显著性的模型经常被评估，在自由观看任务中，预测人的注视。

3、今天，许多显著性模型基于各种各样令人信服的技术，仍然每年都会有人引进新模型。然而，在预测眼睛注视时，模型和人类间观察员（IO）有很大的差距。IO模型“对于一个给定的刺激的输出，通过整合眼睛注视建成地图，而不是观看那个刺激。该模型预计将提供预测模型的准确度的程度，不同的人可能是对方的最好的预测者。上面提到的模型和人类之间的差距主要是由于自顶向下的因素的作用（参照图1）。,一、介绍,一、介绍,它被认为是自由观看的早期阶段（前几百毫秒），主要是基于图像醒目性的注意，后来，高层次的因素（例如，行动和事件）指导眼球运动5339。这些高层次的因素可能不一定转化为自下而上的显著性（例如，根据颜色，强度或方向

4、），应考虑分开。举例来说，一个人的头部可能在其余的场景中不会特别突出，但可能会引起人们的注意。因此，结合高层次概念和低层次的功能扩展现有模型，并达到人类的表现似乎是不可避免的。,一、介绍,由1的启发，我们提出了三个贡献显著性的学习。首先，我们结合最好的两个方面：自下而上和自上而下的因素。通过比较29个显著性模型，我们整合功能，最好的自下而上的模式已经发现预测与自上而下的因素，如人脸，人，车，等人的注视，培养几个线性和非线性分类从这些功能中的录制品。第二，我们更强调内部零件更准确的显著性检测瞩目的对象（例如，人类上部）。通过大量的实验，我们证明了我们的相结合的方法，超过以前显著的学习方法（1 4

5、8），以及其他最新的方法，在3个数据集上，使用3个评价得分。第三，我们证明了我们的模型能够在一个场景中检测到最突出的对象，接近主流的显著区域检测的表现。,一、介绍,相关工作：显著性模型简介显著性模型一般可以分为认知（生物）或计算（数学），而有些发生在之间。几款根据Itti等人的自底向上的显著性模型4。这种模型是先执行Koch和Ullman的计算架构基于特征整合理论1516。在这个理论中，图像被分解为低一级的属性，如跨越几个空间尺度，然后归一化和线性或非线性相结合，形成一个主显著图的颜色，强度和方向。这一理论的一个重要组成部分是作为图像区域及其周围环境的独特性，显著性定义中心环绕的想法。这个模

6、型还提出一个合适的架构适应视觉搜索理论和对象检测模型（例如，18）。基于去相关的神经反应，Diaz等人29提出了一种有效的模型被称为自适应白化显著性（AWS）的显著性。Le Meur等33，Marat等36，Kootstra等17提出的模型是其他以认知的调查结果为导向的模型。另有，基于概率模型、基于频率模型等，这里不一一介绍。,一、介绍,与手动设计显著性措施相比，我们按照训练分类的一种学习方式，直接从人眼跟踪数据。其基本思路是的加权组合的功能，其中权重学会从一个大的库对自然图像的眼球运动，可以增强显著性检测比未经调整组合特征映射。学习方法也有容易适用于通过提高要素权重目标对象的可视化搜索的好处

7、。在下面，我们提出了一个朴素贝叶斯公式的显著性估计。让我们是一个二元变量表示的显著位置的图像像素X=（X，Y）与特征向量f，其中“s等于1”表示这个像素是突出的（也就是说，它可以吸引人类的眼睛）和零。像素x的概率是显著的可写为：,二、学习一个视觉显著性的模型,上面的公式是基于假设特点可以出现在所有的空间位置（即，x和f是相互独立的，则p（f|x）=p（f）。我们进一步假设，在S的先验概率（即，位置突出与否）都是平等的。上式右边的第一项测量由于上面的图像的像素的特征的显著性，而第二项措施显著性的基础上的像素的空间位置。我们学习使用p（s|f）分类标注数据（倾向的位置）。我们估计p（s|x）：,其

8、中，d（X，X0）是归一化的像素x从中心像素的X0的距离。,二、学习一个视觉显著性的模型,低层次（自下而上）特点传统上，强度，方向和颜色已被用于对静态图像的显著性推导。动态场景（视频），闪烁和运动特点也已经被其他几个低级别的特点（例如，大小，深度和光流）增加5556。在这里，我们先调整每个图像为200200像素，然后提取一组特点，我们使用低级每个像素1，因为他们已经被证明与视觉注意力相关的特点，并有潜在的生物合理性1615。低层次的特点列举如下：13个在4个方向3尺度的可操纵金字塔过滤器的局部特点使用Itti和Koch显著的方法4计算的3强度，方向和颜色（红/绿和蓝色/黄色）对比通道。3个红色

9、，绿色和蓝色通道，以及3个功能相对应的各颜色通道的概率值。5在6个不同尺度中值滤波器滤波的图像的三维颜色直方图计算从上述颜色通道的概率。,二、学习一个视觉显著性的模型,这样产生了30个低级的特点。中心环绕操作需要注意的是，直接施加在地图的某些特点（例如，Ltti特征映射）。虽然在实践中，它是作为一个功能，可以使用任何自下而上的模型，在这里，我们利用Torralba 32，AWS29，GBVS20的模型，因为这些模型具有较高的固定预测能力，采用完全不同的显著性机制的速度，可以计算出从其他低级别的特点。样本图像中提取的特征示于图2。,二、学习一个视觉显著性的模型,二、学习一个视觉显著性的模型,高级

10、别（自顶向下）特点。高级别特点，如人脸和文字14，人车1，对称性17，和体征已建议直接关注。据悉，这些都是通过一个人的一生的时间获得的先验知识一个挑战是检测情感（情绪）的功能和语义（高层次的知识）场景属性，如因果关系和行动的影响力，这被认为是很重要的引导注意力。这些因素都影响眼球固定的位置和持续时间13。我们将我们的功能集包括如下的高级别的功能：。由于摄影师的倾向帧图像和对象水平所形成的水平线。实施由Felzenszwalb的变形部分模型的人和车探测器（DPM）50。使用Viola和Jone代码的人脸检测51。,二、学习一个视觉显著性的模型,从注释的数据，我们注意到，某些地区吸引更多的关注对象

11、，例如人类上部（头区）和脸部（眼睛，鼻子和嘴）（见图3）。为了提高这些地区的显著性，我们了解到该对象的平均显著图从训练数据了解到对象的检测区域。,二、学习一个视觉显著性的模型,另一个重要特点是在前中心的基础上发现的：大多数的录制品在中心附近发生的图像（即中心偏置39）。与基线的方法进行公平比较的分类（AWS和GBVS模型），我们在这里单独对待中心功能。根据公式2，我们把每个模型的显著性图与p（s|x）相乘，p（s|x）是每个像素打牌中心的距离。最终，所有的特点都变成34（30自底向上+4自上而下）向量（不含中心），被送入分类器（在下一节中解释）。,二、学习一个视觉显著性的模型,分类器我们调查线

12、性和非线性分类器的固定预测能力。线性分类通常比较快，通过矩阵运算计算了解到的权重是比较容易解读。另一方面，非线性模型通常是速度慢，但更强大的。回归。假设特征矢量f和显著性s之间的线性关系，解方程FW=S，其中，F和S是训练数据为f和s的矩阵。解决的办法是：W=F+S，F+是通过SVD分解最小二乘伪逆矩阵F。为了避免数值不稳定，这些特征向量的特征值是小于的最大特征值的一半的伪逆的计算过程中被丢弃。对于测试图像，特征提取，然后学习的映射被用于产生一个向量，然后调整大小到200200的显著图。,二、学习一个视觉显著性的模型,SVM。使用liblinear的支持向量机2，liblinear是一个公开的

13、SVM matlab版，我们也训练SVM分类器。我们采用了线性的内核，因为它们是更快的执行以及非线性多项式和RBF内核的固定预测1。回归，而不是预测的标签（即，1/-1）相似，在测试中，我们使用的WT的值F+b，其中W和b的学习参数。要调查的非线性映射功能显著性，我们使用AdaBoost算法52，在应用场景分类和识别物体时，其中有许多吸引人的理论性。鉴于N标记的训练实例(ui,vi)，vi1,+1，uiU，AdaBoost的结合了一些弱分类器Ht学到了强分类器H(u)=sign(f(u)；f(u)=，这里t是第t个分类器。,二、学习一个视觉显著性的模型,本节对分类和功能提出一个全面的评估。在这

14、里，我们不仅评估了我们的模型，也比较几款模型以供日后参考。我们能够运行27个显著性模型。此外，我们还实施了其他两个简单但功能强大的模型：Gaussian Blob和人类中间观察者模型。Gaussian Blob的是一个简单的2D高斯形状的绘制图像的中心，它是预期预测人的目光，以及如果这样的凝视强烈图像中心的周围聚集。对于一个给定的刺激，当他们观看刺激时，中间观察员的模型输出一个通过整合比其他物体测试的地图。模型地图可以根据记录眼球运动来调整原始图像的大小。,三、实验程序,3.1 眼动数据集由于可用的眼球运动数据集有不同的统计、各类刺激、受试者人数，在这里，我们利用公平的基准数据集来比较模型。第

15、一个数据集，MIT 1，从Flicker和LabelMe46 采集到的包含1003幅图像的数据集。图像的最长尺寸是1024，其他的尺寸范围从405到1024。它有779幅景观图像和228幅人像图像。15人类受试者观看的图像。图像显示3秒，每两个之间有1秒的灰色屏幕。第二个数据集，Toronto 21，是显著模型评价最高和最广泛使用的数据集。它包含120室内和室外场景的彩色图像。随机图片4秒，图像之间有2秒灰度掩模，20个的主题。NUSEF是最近推出的数据集，它有758幅包含情感的场景/物体如表现力的面孔，裸体，不愉快的概念和概念的语义（动作/原因）的图像图像。总共75名自由查看图像数据集的一部

16、分，每幅图片观察5秒（每幅图像有平均25个不同的观察者）。,三、实验程序,3.2 评价指标由于没有一个独特的得分可以进行显著模型评价，我们报告了三个结果。应该说一个模型表现良好的话，应该所有分数都比较高。ROC曲线下面积(AUC)；使用这个分数，视为二元分类的图像中的每个像素上的模型的显著图;较大的显著度值大于阈值的像素被分类为迷恋，而其余的像素被分类为非迷恋21。人类注视被用作地面参考。通过不同的阈值，ROC曲线绘制的假阳性率与真阳性率，这条曲线下的面积表示：显著图预测实际人眼注视。,三、实验程序,我们训练和测试分类在MIT的数据集交叉验证后段。第2.2节（K=10，M=100，除了最后一个

17、含103）。在MIT的所有图像数据集的一个训练有素的模型，然后应用到其他数据集。表1示出模型的AUC分数。,四、模型比较和结果,四、模型比较和结果,NSS和CC不乘以中心偏置的分数结果示于图中4。增压（无中心，但与AWS和GBVS为特征），在几乎所有的情况下赢得了GBVS和AWS。总体而言，这个数字显示，而许多模型得分低于高斯模型，提高模型性能站在高斯的顶部，超过3个数据集和分数显示提高模型在大多数情况下是最好的。因为有更多的概念和自上而下的刺激因素，在这些数据集模型和IO模型在NUSEF和MIT的数据集之间有较大的差距。Tavakoli40表现最好，超过Toronto的数据集，缺乏太多的自上

18、而下因素，此数据集的图像排名提升至第二。除去在内部零件上的强调，在MIT的数据集上，AUC的增压从0.806减少到0.792。,四、模型比较和结果,四、模型比较和结果,四、模型比较和结果,4.2显著性物体检测的应用图8显示与人类的注释和我们的模型预测的例子。可以看出，即使是显著的对象是不是靠近中心位置时，它能够成功地检测最突出的物体。,四、模型比较和结果,结合自下而上和自上而下的特点，我们学到了一些模型的视觉显著性，在相同的数据和分数上比较其准确性。我们的方法允许添加更多的特点，如其他自下而上的模式或其他自上而下的功能显著图。在分类中，使用SVM和回归预测的AdaBoost具有最好的预测精度。

19、它优于大部分现有模型，是迄今为止表现人类最接近的模型，它可以几种方法提高计算机视觉的性能。它也竞相表现用于检测最突出的一个场景中的对象。我们的方法的一个优点是它的一般化的方式，一个数据集上进行训练的分类器在其他数据集上也表现良好，而不是为每个单独的数据集（而不是48）的训练和测试。我们详尽地与最先进的模型比较显示，虽然跨数据集和分数上排名不同，部分模型（GBVS20，Judd等人1，严等人31，AWS29，ICL24，TAVAKOLI等人40）是比别人的模型更好。,五、讨论和结论,我们方法的应用之一是通过比较在不同群体的人注意他们之间的分歧，比如年轻人与老年人，男性与女性主体模型参数（W），进

20、行行为学研究。虽然在纯粹的低级特点基础上开发更有效的自下而上模型总是受欢迎的，但是，建设更多的预测模型时，添加更多自顶向下的因素是非常重要的。由于模型是基于不同的显著性机制，结合他们可能会提高结果，从而帮助弥合人类和模型之间在自由观赏自然场景时的差距。,五、讨论和结论,作者提取了34个特点向量（30自底向上+4自上而下），送入分类器。使用回归、SVM和AdaBoost分类，将多种底层和高层特征进行组合来实现显著性检测。作者使用采集到的眼动数据作为评价指标来提取正样本和负样本。作者在三个基准眼球跟踪数据集进行实验，使用三种流行的分数评价，证明的该模型是相当准确的。此外，作者成功地检测到的一个场景中最显著的对象，没有使用如区域分割这样复杂的图像处理。这篇文章的主要贡献就在于作者测试了多种分类器在显著图计算上的性能。,六、读者小结,Thank You!,

展开阅读全文