视频监控与视频分析第十三章目标跟踪ppt课件.ppt

资源描述

《视频监控与视频分析第十三章目标跟踪ppt课件.ppt》由会员分享，可在线阅读，更多相关《视频监控与视频分析第十三章目标跟踪ppt课件.ppt（126页珍藏版）》请在三一办公上搜索。

1、第十三章：基于运动视频的目标跟踪,2015.9于深圳,视频监控与视频分析,视频运动目标检测与跟踪是计算机视觉领域中的一个核心问题机器人视频压缩医疗诊断人机交互智能视频监控,论文背景,论文背景,视频监控在银行、电力、交通、安检以及军事设施等领域的安全防范和现场记录报警等方面有着非常广泛的应用。,统计数据显示，英国目前有400多万个摄像机，而伦敦的居民平均每个人每天要被摄像机拍摄300次。,公安部主导的“平安城市”计划，促进了视频监控市场的迅速增长，全国约有200万个监控摄像机用于城市监控与报警系统。,青藏铁路全线1300路通道采用视频分析，对全线铁路进行入侵保护。,监控技术发展的三个阶

2、段,当今社会信息的高度密集化、复杂化。人们所面临的突发事件、异常事件越来越多传统的人力视频监控已经达不到实时处理突发事件的目的,1 vs 1,1 vs N,智能视频监控系统是利用计算机视觉技术，在不需要人为干预的情况下，对视频信号进行处理、分析和理解，并对视频监控系统进行控制，从而使视频监控系统具有像人一样的智能。,视频运动目标的检测和跟踪是智能视频监控系统中的关键技术，分别处于整个系统的前期和中期处理阶段，为后期的高层视觉处理提供分析依据。,低层视觉处理,中层视觉处理,高层视觉处理,智能视频监视系统的基本框架,视频运动目标的检测和跟踪也是近年来的一个研究热点，许多重要国际会议和期刊发表了大量

3、目标检测与跟踪方面的论文。,图像处理、计算机视觉的顶级会议和期刊会议 ICCV： International Conference on Computer Vision CVPR： International conference on Computer Vision and Pattern Recognition ECCV： European Conference on Computer Vision期刊 PAMI： IEEE Transactions on Pattern Analysis and Machine Intelligence IJCV： International Journ

4、al of Computer Vision PR： Pattern Recognition. TIP： IEEE Transactions on Image Processing IVC： Image and Vision Computing,利用序列图像在时间和空间上的冗余信息，将场景中的运动目标从背景中分离出来。主要困难在于光照变化、背景物运动干扰、运动目标阴影以及摄像机运动等干扰因素。主要方法：帧间差法光流法背景减除法,先对背景进行建模，然后将当前帧与背景模型进行比较，区分出前景和背景。,运动目标检测,目标跟踪的目的就是通过对视频数据的处理与分析，将图像序列中不同帧内同一运动目标关

5、联起来，从而计算出目标的运动参数，如位置、速度、加速度以及运动轨迹等。视频目标跟踪问题分类：照摄像机的数目：单摄像机跟踪和多摄像机跟踪目标的性质：刚体目标和非刚体目标的跟踪跟踪目标的数目：单目标跟踪和多目标跟踪,运动目标跟踪,按照其执行的先后顺序，主要有两种方式：.先检测后跟踪,运动目标检测与跟踪的关系,t 时刻,t+1 时刻,.边检测边跟踪将目标的检测与跟踪相结合，利用跟踪结果来确定检测所要处理的区域范围，跟踪时则利用检测来获得目标状态的观测。,运动目标检测与跟踪的关系,(c),(b),(a),内容提要,1. 研究背景2. 主要研究工作3. 总结创新处4. 进一步研究的内容,1. 视频

6、运动目标检测基于背景模型的运动检测2. 视频单目标跟踪目标表示模型的建立特征空间选择，模型更新，漂移问题3. 视频多目标跟踪数据关联，目标之间的相互遮挡,主要研究工作,视频运动目标检测,背景减除法是运动目标检测的主流方法，先对背景进行建模，然后将当前帧与背景模型进行比较，区分出前景和背景。由于背景通常不是静止不变的，会随着环境的变化而变化，如何建立一种能够适应环境变化的背景模型，是背景减除法的研究重点。,背景减除法,统计背景模型：单高斯模型混合高斯模型非参数模型,单高斯模型：假定每个像素特征在时间域上的分布可以由单个高斯分布来描述,混合高斯模型(GMM)：为了描述分布形式更为复杂的背景，

7、有必要应用到多模态的分布形式。,经典GMM方法中存在的问题,基于像素建模，计算量大忽略了图像结构信息高斯成分数目难以确定,GMM改进方法引入MRF非参数密度估计高斯个数自适应选择 ,GMM模型定义高斯成分每个成分的权重,更新权重对于匹配的成分，更新其均值和方差,为指示变量，若高斯成分与匹配,GMM模型更新,，否则,GMM模型估计,根据对高斯成分进行递减排序前面b个成分作为背景分布，其余成分为前景分布T: 背景高斯成分在整个分布中所占的最小比重，可以看成是超像素点为背景点的最小先验概率,1. 视频运动目标检测基于背景模型的运动检测2. 视频单目标跟踪目标表示模型的建立特征空间选择，模型

8、更新，漂移问题3. 视频多目标跟踪数据关联，目标之间的相互遮挡,主要研究工作,基于概率图模型目标建模的视觉跟踪算法,可分性目标模型与背景具有足够的可区分性;一致性在相邻帧之间,前景在前景模型上的测量值具有良好的连续性和稳定性;,目标表示模型,对跟踪目标的特征描述，在初始帧通过手工或自动初始化，用于后续帧中的匹配搜索，以找出与模型最相似的目标区域。,颜色直方图忽略了目标的空间结构信息 Snake轮廓模型仅考虑目标的边界，在目标与背景容易混淆的情况下，目标模型通常容易退化局部特征模型一组局部特征来表示，缺乏目标的全局结构信息，稳定性较弱，易受噪声、目标姿态以及光照条件的影

9、响。 2D/3D空间模型模型参数估计的运算量很大，并且难以保证模型的精度。,常见的目标模型,本文的目标模型,思考：如何建立一种目标模型，能够统一描述目标的全局特征和局部特征。设计一种基于概率图模型的目标表示模型，利用具有仿射不变性的局部区域特征描述目标的细节信息，全局上则用特征间的空间约束关系反映目标的空间结构信息，通过概率图模型将这些信息结合起来。,MSER特征,MRF,概率图模型在概率论和图论之间架起了一座桥梁，能够有效解决应用数学和工程中的两个重要问题：不确定性和复杂性。常用的有，贝叶斯网络(BN),马尔可夫随机场(MRF)和条件随机场模型(CRF)等,节点(Nodes) ：随机变

10、量（局部特征的状态）边(Edges)：变量之间的概率关系,拓扑结构,根据特征区域的尺度以及和特征间的欧式距离来定义节点间的邻域关系,图模型中节点的邻域定义为,模型的定义,为节点所对应的椭圆参数。,模型的定义,势函数,特征状态节点之间的势函数,状态节点与对应观测之间的似然函数,跟踪算法框图,空间域上概率图模型的状态配置推断,根据当前时刻的图像观测，在定义的图模型中进行贝叶斯推断，得到所有节点的联合状态后验概率分布,采用信任传播算法(Belief Propagation,BP)，通过消息传播的方式，计算后验概率,时间域上的粒子滤波跟踪,在概率图模型中，每个节点的状态表示为空间中的概

11、率分布函数，由于目标状态的变化可以认为是分布函数在时间域上的传播过程，因此跟踪问题可作为概率推断问题，顺序地推断每个时刻下状态的概率分布。,t 时刻,t +1 时刻,实验结果,本文算法,文献33,文献98,33 Comaniciu, D., V. Ramesh and P. Meer, Kernel-based object tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003. 25(5): p. 564-577.,98 Nummiaro, K., E. Koller-Meier and

12、L.V. Gool, An adaptive color-based particle filter. Image and Vision Computing, 2003. 21(1): p. 99-110,实验结果,位置误差,相对尺度误差,场景不同位置处的光照条件有所不同，并且被跟踪的行人朝着摄像机的方向行走，因此在图像上的尺度变化较大。,实验结果,本文算法,文献33,文献98,部分遮挡情况下的跟踪结果,1. 视频运动目标检测基于背景模型的运动检测2. 视频单目标跟踪目标表示模型的建立特征空间选择，模型更新，漂移问题3. 视频多目标跟踪数据关联，目标之间的相互遮挡,本论文的主要工作,基于特征

13、空间自适应选择的视频跟踪算法,监视场景中，由于光照变化，背景变化或是目标尺寸变化，目标的外观会发生改变，采用固定目标模型的视觉跟踪方法通常不能适应这些变化，需要不断对模型进行调整更新。,根据目标的外观变化直接调整目标模型的参数,先定义一个特征空间集，跟踪过程中将目标模型转换到当前选择的特征空间下。,模型更新,更新方法,在选择的特征空间下，利用特征直方图描述目标和背景,目标直方图,背景直方图,目标区域和背景区域,颜色特征空间集,RGB三个色彩分量的49种线性组合,对于选择的特征空间，目标和背景之间差异越大，越适合于目标跟踪。,2g-b,r-2g+2b,2r-g,-r+2g+b,通过引入信息论中

14、的交叉熵来衡量前景目标与背景之间的差异。,特征空间选择,交叉熵(Cross Entropy)作为信息熵的一种应用，可以看成是两个概率分布之间的信息量差异。为了方便，算法中我们应用交叉熵的对称形式，即对称交叉熵：,分别为目标和背景的特征直方图,选择最大的特征空间作为当前特征空间：,似然图像,根据目标和背景特征直方图，计算特征值所对应的对数似然比,交叉熵由小到大,偏移问题(Drift Problem),模型更新的一个主要难点是模型的偏移问题(Drift Problem)。由于遮挡物或背景象素的影响，目标模型在更新时，利用了错误的信息造成模型误差，随着跟踪过程的推进，更新中的累计误差使模型对目

15、标的描述能力逐渐减弱，造成目标模型与目标观测间的匹配度下降。减小非目标观测对目标模型的影响，是解决偏移问题的关键。,通过前景目标分割的方法，减小背景对目标模型的影响。利用二维CRF (Conditional Random Field) 模型对跟踪目标的时空上下文信息进行建模，然后使用近似推断算法估计出模型的全局最优解，实现对目标象素点的标记。,前景目标分割,颜色特征函数,光流特征函数,连通性约束函数,前景目标分割,给定图像帧,的后验概率,定义为：,CRF模型直接对标记变量,分布进行建模，后验概率,CRF模型参数学习和推断,利用条件极大似然 (Conditional Maximum Like

16、lihood) 准则训练该条件判别模型：,随机梯度增长算法搜索参数的最优解，学习规则为,例如，时域势函数系数按下式迭代更新,CRF模型参数学习和推断,采用极大后验边缘准则(Maximum Posterior Marginals, MPM)求取概率上最优的标记场，每个标记变量的值按下式计算：,其中用LBP (Loop Belief Propagation)算法计算得到。,跟踪算法流程图,实验结果,混淆背景,实验结果,部分遮挡,本文算法,文献41,41 Collins, R. and Y. Liu, On-Line selection of discriminative tracki

17、ng features. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2005. 27(10): p. 1631-1643.,实验结果,本文算法,文献41,目标尺度变化,1. 视频运动目标检测基于背景模型的运动检测2. 视频单目标跟踪目标表示模型的建立特征空间选择，模型更新，漂移问题3. 视频多目标跟踪数据关联，目标之间的相互遮挡,主要研究工作,概率多目标跟踪算法,数据关联：在观测数据和目标之间建立起对应关系状态估计：每个目标根据其对应的观测进行状态估计,与单目标跟踪相比，多目标跟踪增加了数据关联问题。多目标跟踪的过程可以

18、划分为以下两个阶段：,最近邻算法联合概率数据关联滤波器（JPDAF）多假设跟踪算法（MHT）,数据关联方法,为了处理多目标跟踪中的不确定性，近年来，基于贝叶斯理论的方法被大量应用于视频多目标跟踪问题，这些方法在贝叶斯理论框架下，将多目标跟踪问题转化成一个推断目标状态最大后验概率的过程。,为每个目标分配一个单目标跟踪器，相互独立地跟踪每个目标，通过设计一些特殊的方法来处理目标之间的交互和遮挡问题。通过提高目标状态空间的维数，构造出包含所有目标的联合状态空间，并在构造的空间中估计所有目标的联合状态。,目标状态估计,维数灾难问题,贝叶斯框架下有两类方法:,跟踪问题可以看成是一个动态系统的状态

19、估计问题，对动态系统的分析和推断一般需要建立状态空间模型。,表示时刻的目标状态（如目标的位置，速度，尺度等）,观测方程,贝叶斯滤波跟踪,状态转移方程,表示时刻的目标观测,贝叶斯滤波的基本原理就是在所有已知信息的基础上，推断系统状态变量的后验概率密度分布。针对视频跟踪问题，贝叶斯滤波就是从所有得到的图像观测数据，推断出当前时刻（时刻）目标状态的后验概率分布,预测(prediction) 更新(updating),贝叶斯滤波跟踪,卡尔曼滤波器网格滤波器粒子滤波器,粒子滤波算法本质上是利用一组带有权值的随机样本近似描述系统状态的后验概率密度，进而可以估计目标的状态向量。,内容提要,1. 研

20、究背景2. 主要研究工作3. 总结创新处4. 进一步研究的内容,内容提要,1. 研究背景2. 主要研究工作3. 总结创新处4. 进一步研究的内容,多摄像机下的运动目标检测与跟踪完全遮挡或是长时间遮挡问题复杂场景中一些极端条件下的多目标跟踪问题，如目标特别密集，目标分辨率非常低等,需进一步研究的内容,目标跟踪meanshift,应用背景 1.智能监控 2.道路监控系统 3.人机交互 4.精确制导系统 5.医学诊断,常用方法静态背景下 1.时域差分法 2.背景差分法 3.光流场法动态背景下 1.匹配块法 2.光流估计法 3.图像匹配法 4.运动估计法,动态背景下的常用算法 1.卡尔曼滤波

21、根据物理学中运动方程来估计目标的位置 2.均值漂移根据模板匹配的方法来估计目标位置 3.粒子滤波,均值漂移概述均值漂移是由Fukunaga1975年提出的一种块匹配的方法图象分割、目标检测、视频跟踪,核估计介绍设X1,X2, Xn是从总体中抽出的独立同分布的样本，X具有未知的密度函数f（x），则f（x）的核估计为：核函数的选择条件 K(x)=-K(x) K(x)0 核函数必须为凸函数,常见的核函数以上是均匀核、依潘涅契科夫核，双权核、高斯核、双指数核、双依潘涅契科夫核。,Epanechnikov核，形式如下：其中Cd为d维单位球的体积。另一种常用的核函数是正态核函数,选择核估

22、计的原因 1.客服了直方图估计对高维数据的失效性。 2.能够比较好的抑制噪声的影响 3.增强数据的有效性,均值漂移具体步骤 1.目标模型的计算定义函数b(xi*)是像素xi*在量化的特征空间的索引号。则特征u=1,m在目标模式中出现的概率可表示为：其中k()为核函数，即加权函数，()为Kronecker函数，定义为:,2.候选目标的计算：设xi是候选目标区域的象素位置，在当前帧中基于图像特征u=1,.,m的候选目标中出现的概率函数可以表示为：,其中归一化常数Cy为：在计算过程中，h可以选与目标窗口的像素数。qu和pu(y)就是描述目标和候选目标的特征向量。,3.相似度的计算Bhattac

23、haryya系数：描述目标与候选目标的相似程度，该系数越大，目标与候选目标越近似。,自适应相似度最大值的计算在当前帧将相似度函数p(y) ,q在目标预测位置y0附近泰勒展开式为：其中：,核从当前位置y0移向新的位置y1的计算：其中g (x )= -k (x),整个算法流程在当前帧以y0为起点，计算候选目标的特征pu(y0)u=1，2.m;计算候选目标与目标的相似度：计算权值wii=1，2.m利用Mean-Shift算法，计算目标新位置,更新pu(y1)u=1，2.m，计算若 ,那么y1=(y0+y1)/2,直到若，则停止；否则y0y1转步骤。限制条件：新目标中心需位于原目标中心附近。,

24、Meanshift优缺点：优点算法复杂度小；是无参数算法，易于与其它算法集成；采用加权直方图建模，对目标小角度旋转、轻微变形和部分遮挡不敏感等。,缺点搜索窗的核函数带宽保持不变缺乏必要的模板更新算法；目标的运动不能过快,讨论： 1.窗函数带宽不变解决方法：基于边界力计算的带宽变化的方法 camshift算法 3步法 2.模板更新解决方法：实时模板更新双系数模板更新 3.移动速度的限制：卡尔曼滤波结合,openCV中meanshift算法实现Camshift算法中变带宽的计算方法,openCV均值漂移 1.目标模型色彩空间的选择算法中选用HSV空间中的H分量原因：此空

25、间中的各个分量互相依赖不强此空间更接近人眼的感官方式 H分量代表的是最基本的颜色色调只用一种色彩分量，计算简单。,2.目标计算直方图的计算对目标区域内做H分量的直方图计算。 (2)计算直方图的反向投影 (3)利用此反向投影计算整幅图，得到整幅图的反向投影。 (4)以y0作为初始中心计算当前帧中窗口的重心坐标。 (5)如果|y0-y1|k,则停止，否则y0=y1转(4),对openCV中meanshift的讨论 1.为什么要进行直方图的反向投影呢？ 2.为什么不计算巴氏系数也能达到跟踪的目的呢？,H分量直方图和反向投影,原图反向投影,H分量直方图,重心坐标的计算矩的概念：其中Mjk

26、为f(x，y)的j+k阶矩。物体的重心坐标如下式计算 x=M10/M00 y=M01/M00,Camshift计算窗宽 1.当前帧中用的窗比上次计算出来的窗长和宽大20个像素。 2.在此窗中计算外界椭圆的各个参数 3.重新计算重心坐标 4.标记目标,外接椭圆各个参数的计算长轴与x轴夹角 l为长轴 w为短轴,椭圆参数计算图,黑=0 白=255 黑=20 白=255,效果,未遮挡情况,遮挡旋转情况,优点： 1.算法简单，可以实时检测 2.基本上可以跟踪要跟踪的目标 3.在轻微遮挡，变形和旋转的情况下可以实现跟踪,缺点 1.基于单一的颜色直方图进行跟踪，抗干扰能力差。 2.目标的移动速度不能过

27、快 3.检测的区域有限,抗干扰能力差,讨论怎样能提高抗干扰能力? 怎样跟踪告诉运动的目标？怎样解决遮挡，形变，旋转问题？,Tracking-Learning-Detection,目标跟踪算法,liangshuai UESTC,目录,TLD算法简介 TLD框架结构 P-N Learning TLD算法实现,目录,TLD算法简介 TLD框架结构 P-N Learning TLD算法实现,TLD算法简介,TLD(Tracking-Learning-Detection)是英国萨里大学的一个捷克籍博士生Zdenek Kalal在2012年7月提出的一种新的单目标长时间跟踪算法。,该算法与传统跟踪算法

28、的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题。同时，通过一种改进的在线学习机制不断更新跟踪模块的“显著特征点”和检测模块的目标模型及相关参数，从而使得跟踪效果更加稳定、鲁棒、可靠。,目录,TLD算法简介 TLD框架结构 P-N Learning TLD算法实现,TLD框架设计,TLD是一个用于针对视频中未知物体长期跟踪的架构。简单来说，TLD算法由三部分组成：跟踪模块、检测模块、学习模块。,跟踪模块是观察帧与帧之间的目标的动向。,检测模块是把每张图看成独立的，然后去定位。,学习模块将根据跟踪模块的结果对检测模块的错误进行评估，生

29、成训练样本来对检测模块的目标模型进行更新，避免以后出现类似错误。,TLD结构特点,TLD跟踪系统最大的特点就在于能对锁定的目标进行不断的学习，以获取目标最新的外观特征，从而及时完善跟踪，以达到最佳的状态。也就是说，开始时只提供一帧静止的目标图像，但随着目标的不断运动，系统能持续不断地进行探测，获知目标在角度、距离、景深等方面的改变，并实时识别，经过一段时间的学习之后，目标就再也无法躲过。,TLD技术采用跟踪和检测相结合的策略，是一种自适应的、可靠的跟踪技术。TLD技术中，跟踪器和检测器并行运行，二者所产生的结果都参与学习过程，学习后的模型又反作用于跟踪器和检测器，对其进行实时更新，从而保证了即

30、使在目标外观发生变化的情况下，也能够被持续跟踪。,目录,TLD算法简介 TLD框架结构 P-N Learning TLD算法实现,P-N Learning 模块介绍,P-N LearningTLD架构的学习模块。学习模块的目的是为了提高检测器的性能。学习器是一个在线的过程。在视频流的每一帧中，我们希望能够评估当前检测器，确定出其错误并及时更新以避免将来出现类似错误。,P-N学习的主要思想就是检测器的错误能够被两种类型的专家（P-experts和N-experts）标识出。P-experts仅识别错误的负样本，N-experts仅识别错误的正样本。当然，P-N专家自身也有可能会发生错误，但是，他

31、们的相互独立性又能够相互弥补双方的错误。,P-N学习公式化,x是特征空间X的一个样本，y是标签空间Y的其中一个标签，Y=-1,1。在一组例子里，X被称为未被标记的样本集合，Y称为标签集合。L=(x,y)称为被标记集合。,P-N学习的任务就是学习训练得到这样一个分类器 f：XY根据已标注的数据集Ll来自引导地把未标记样本Xu变为标记样本。,分类器 f 为一个来自于由参数参数化的函数族F的函数，训练过程主要就和参数的估计相关连。,P-N学习的输入是一个标记集合Ll和一个未标记集合Xu,P-N Learning 结构特点,P-N学习主要包括四个模块：,（1）一个待学习的分类器,（2）训练样本集一些

32、已知类别标签的样本,（3）监督训练一种从训练样本集中训练分类器的方法,（4）P-N experts 在学习过程中产生正、负样本的函数,P-N学习最重要的部分是分类器的错误估计。关键的想法是把假的正样本和假的负样本分别独立的处理，每一部分由一个独立的专家分析（P专家或N专家）。,P-experts将那些被分类器错误标记为负样本的样本，赋予“正”的标签，并添加到训练样本集中,N-experts则将那些被分类器错误标记为正样本的样本，赋予“负”的标签，并添加到训练样本集中,P-N Learning模块图,P-N Learning迭代机制,P-experts第K次迭代产生正样本数：,N-expert

33、s第K次迭代产生负样本数：,第K次迭代前错误的样本数：,P-N Learning性能指标,P-precision P-recall N-precisionN-recall,P-N Learning的收敛和稳定,我们定义：,于是就得到迭代等式：,过渡矩阵M的特征值为：,当特征值都小于1时，向量收敛到 0,P-N Learning的收敛和稳定,P-N Learning的运行机制,b）中待检测目标在一个视频帧中可能同时出现在好几个区域，并且待检测目标在相邻视频帧之间的运动没有连续性,c）中每个视频帧中，目标只可能出现在一个区域，并且，相邻视频帧之间检测到的目标区域是连续的，构成了一个目标的运动轨

34、迹。这种性质，我们称之为“结构性”,P-N学习的关键就是找到这种结构性的数据，从而来判别检测模块所产生的错误标签。,P-N Learning的运行机制,由上例我们可以看出：,P-experts寻找视频序列中的时域上的结构性特征，并且假设目标是沿着轨迹线移动的，P-experts记录目标在上一帧中的位置，并根据帧与帧之间的跟踪算法来预测目标在当前帧中的位置。如果检测模块将跟踪算法预测到的目标在当前帧中的位置标记为负标签，那么P-experts就产生一个正的训练样本。,N-experts寻找视频序列中的空间域上的结构性特征，并且假设目标在一个视频帧中只可能出现在一个位置。N-experts对检测模

35、块在当前帧中的所有输出结果以及跟踪模块的输出结果进行分析，并找到具有最大可能性的那个区域。当前帧中所有目标可能出现的区域当中，如果某个区域同最大可能性区域之间没有重叠，就将其认定为负样本。另外，具有最大可能性的那个区域，被用于重新初始化跟踪模块。,P-N Learning的运行机制,-experts 产生错误的正样本,N-experts 找到目标最可能位置,目录,TLD算法简介 TLD框架结构 P-N Learning TLD算法实现,综合框图,一些基本定义,在任意时刻，被跟踪目标都可以用其状态属性来表示。该状态属性可以是一个表示目标所在位置、尺度大小的跟踪框，也可以是一个标识被跟踪目标是否可

36、见的标记。,目标的形状采用图像片p来表示，每一个图像片都是从跟踪框内部采样得到的，并被归一化到15*15像素的大小,两个图相框pi,pj的相似度：,目标模型,目标模型是一个代表迄今为止观测到的被检测目标及其周围背景的数据结构，它是一系列正样本和负样本的集合,任意给定一个图像片P和目标模型M，我们定义几个量化指标：,（1）正样本最近邻相似度,（2）负样本最近邻相似度,（3）前50%正样本的正最近邻相似度,（4）相关相似度,（5）保守相似度,目标模型,最近邻分类器（Nearest Neighbor classifier）：,在TLD算法中，相似度（）被用于指出一个任意的图像块和目标模型中的部分有

37、多大的相似,相关相似度用来定义最近邻分类器,如果,那么图像块P被分类为正样本,目标模型更新,为了把一个最新被标注的图像块整合到目标模型，我们采用如下策略：只有当最近邻分类器估计出的标签和P-N专家估计出的标签不一致时，才将这个图像块加入到目标模型中。,定义分类边缘：,对于一个图像片，如果分类边缘小于一个值，那么就把这个图像块添加到目标模型中。,目标检测器,检测器通过一个扫描窗口来扫描输入图像，然后判断出每一个图像块有没有目标。,扫描窗口参数设置为：,缩放比例的步长系数为1.2，水平步长是宽度的10%，垂直步长是高度的10%，最小的扫描窗口大小为20个像素。,这样一来，对于大小为320*240

38、的图像来说会产生约5万个图相框。这是一个非常巨大的数字，如果没有非常有效的分类器，计算运行将十分缓慢。,级联分类器（Cascsded classifier）,考虑到需要处理矩形框的数量太大，每一个图像块的分类都必须非常有效。我们把分类器划分为三个模块：,目标检测器,（1）图像片方差检测模块（Patch Variance）（2）集成分类器（Ensemble Classifier）（3）最近邻分类器（NN Classifier）,目标检测器,Patch Variance（图像片方差检测模块）,这个分类器模块去除所有像素方差小于被跟踪图相框像素方差50%的图相框,方差,Ensemble Classi

39、fier（集成分类器）,经过图像片方差检测之后未被去除的图相框进入集成分类器。集成分类器又可以分成n个基本的分类器。每个基本的分类器i进行像素的比较，产生一串2进制的代码x，这串2进制代码指向一个后验概率Pi(y|x) y属于0,1，所有基本分类器产生的后验概率会被平均，集成分类器就把平均后验概率大于50%的图相框认为是包含目标的图相框。,NN Classifier （最近邻分类器）,图相框P就被认为是包含目标的图相框,跟踪器,TLD算法的跟踪模块（Tracker），是一种在名为中值流跟踪（Median-Flow tracker）的跟踪方法基础上增加了跟踪失败检测算法的新的跟踪方法。中值流跟踪

40、方法利用目标框来表示被跟踪目标，并在连续的相邻视频帧之间估计目标的运动。,中值流跟踪方法：,在上一帧的目标框中选择若干个像素点作为特征点，在下一帧中寻找上一帧中的特征点在当前帧的对应位置。然后将这若干个特征点在相邻两帧之间的位移变化进行排序，得到位移变化的中值，利用该中值，得到小于中值50%的特征点，将这50%的特征点作为下一帧的特征点，并依次进行下去。,在TLD算法中，原作者将10*10的格子中的像素点作为初始特征点，并利用金字塔LK光流法来在连续的相邻视频帧之间估计若干特征点的运动。,跟踪器,跟踪模块的跟踪失败检测算法：,中值流跟踪算法的前提假设是目标是可见的，所以当目标完全被遮挡或者消失于视野，则不可避免地出现跟踪失败。为了能够解决这些问题，我们采用如下策略:,让表示其中某一个点的移动位移，表示位移中值，则残差可定义为。如果残差大于10个像素，那么就认为跟踪失败。这个策略能够很稳定地就确定出由剧烈移动或者遮挡所造成的跟踪失败。,综合器,综合器（Integrator）把检测器和跟踪器得到的目标框予以综合，并作为TLD最后的输出。如果跟踪器或者检测器都没有得到目标框，那么就认定当前帧中被跟踪目标没有出现的，否则，综合器将具有最大保守相似度的图像片作为最终的目标框所在位置。,

展开阅读全文