视频中目标轨迹提取算法设计与实现.doc

资源描述

《视频中目标轨迹提取算法设计与实现.doc》由会员分享，可在线阅读，更多相关《视频中目标轨迹提取算法设计与实现.doc（46页珍藏版）》请在三一办公上搜索。

1、题目视频中目标轨迹提取算法设计与设计摘要视频中运动目标轨迹的提取与分析是智能监控视频分析的重要基础。目前世界上覆盖着数以千万计的视频监控摄像头，这些监控摄像头在航天、军事、交通、安防等各个领域均发挥着重要的作用。当需要查找某个关键事件时，如果使用传统人为快进快退的方式，那么将会耗费大量的人力。而基于提取视频目标的视频摘要技术的实现将大大提高关键事件查找的效率和准确率。本文在对基于运动对象的视频摘要技术进行研究的基础上，论述了基于运动对象的视频摘要系统的基本框架，给出了基于混合高斯模型的背景建模，该算法解决了光线亮度变化、阴影、遮挡以及非静态背景问题，精确的检测出运动目标。论述了基于

2、均值漂移和粒子滤波的跟踪算法，实现了多目标、目标碰撞情况下的轨迹提取。最后，在轨迹后处理模块中，使用线性插值的方法对运动目标的轨迹进行插值处理，有效的解决了运动目标轨迹抖动漂移的问题。本文采用基于OpenCV结合VS2012实现了视频中目标轨迹的提取。关键词：视频摘要目标检测跟踪混合高斯背景模型轨迹提取轨迹处理ABSTRACTExtraction and analysis of the video moving target trajectory is an important foundation for intelligent surveillance video analysis

3、.The world is covered with tens of millions of video surveillance WebCam, these surveillance WebCam play an improtant role in aerospace, military, transportation, security and other fields. When you need to find a key event, If you are using the traditional man-made fast-forward and rewind the way,

4、it will spend a lot of manpower. While if you using Moving Object Trajectory based video abstract, you can quickly check over a certain period of time.In this paper, we discussed moving objects based on the basic framework of video synopsis after we researched moving objects based video synopsis. we

5、 given a moving objects detection based background model of Mixture of Gaussian. the algorithm solves the light intensity changes, shadows, occlusion and the problem of non-static background, accurate detection of moving targets.Finally,trajectory post-processing module,we using a linear interpolati

6、on method for processing the trajectory of the moving object, and effective solution to the problem of moving target trajectory drift. Our paper will using VS2012 with OpenCV for moving object extraction.Keywords: Video Synopsis Moving Detection and Tracking Mixture Of Gaussian Background Model Traj

7、ectory Extraction Trajectory Processing目录第一章绪论11.1 引言11.2 国内外研究现状21.2.1 视频摘要31.2.2 运动目标检测41.2.3 运动目标跟踪51.3 本文的研究内容7第二章基于运动对象的视频摘要系统92.1 视频摘要技术分类92.1.1 静态视频摘要102.1.2 动态视频摘要112.2 基于运动对象视频摘要142.2.1 视频摘要系统基本框架142.2.2 运动目标检测跟踪152.2.3 运动目标轨迹提取及后处理15第三章运动目标检测173.1 运动目标检测方法概述173.2 常用的运动目标检测173.2.1 帧间差分法

8、173.2.2 光流场法183.2.3 背景建模法193.3 背景建模方法203.3.1 均值法建模203.3.2 中值法建模203.3.3 单高斯模型213.3.4 混合高斯模型223.4 实验结果23第四章运动目标跟踪254.1 常用运动目标跟踪方法254.1.1 基于特征匹配跟踪方法254.1.2 基于区域匹配的跟踪方法254.1.3 基于活动轮廓模型的跟踪方法264.1.4 基于团块跟踪方法264.2 基于均值漂移和粒子滤波的运动目标跟踪274.2.1 均值漂移和粒子滤波算法分析274.2.2 均值漂移和粒子滤波跟踪过程274.3 实验结果29第五章轨迹提取和轨迹后处理315.1

9、轨迹提取315.2 轨迹后处理325.2.1 线性插值325.2.2 线性插值近似计算325.2.3 实验结果335.3 系统平台的搭建335.3.1 OpenCV简介335.3.2 轨迹提取系统搭建33第六章总结与展望376.1 总结376.2 展望37致谢39参考文献41第一章绪论1.1 引言近年来，随着人们对社会公共安全的需求不断增长，智能视频监控吴瑞红，美国城市视频监控系统概况，中国安防,2011，(1):131-133.技术广泛发展使得监控摄像头已经在日常生活中被广泛的应用。然而在装备监控摄像的同时，监控录像的检索与查看依然是一项高成本的、耗时、费力的工作，当用于调查取证时，

10、这样不仅使监控成本提高，且高强度的查看分析容易使人疲劳，出现纰漏，不利于安全监控。视频摘要系统的出现，解决了海量视频采集乱、调阅慢、分析难等问题。视频摘要(Video Synopsis)是对视频内容和结构的一个有意义概括，以自动或半自动的方式对运动目标进行检测跟踪，提取感兴趣的运动目标，然后对各个目标的运动轨迹进行分析，最后将不同的目标拼接到一个共同的背景场景中，并将它们以某种有意义的方式进行组合，形成简洁的能够充分表现视频语义内容的概要。视频摘要技术目前在视频分析和基于内容的视频检索中都扮演着重要角色。视频摘要技术中使用的技术有运动目标检测跟踪、最优轨迹选择与填充、轨迹融合、摘要生成等关键技

11、术。充分将基于混合高斯背景建模的运动检测、基于均值漂移和粒子滤波的跟踪、遗传算法、轨迹选择与填充算法、图像融合算法与视频摘要生成相结合。运动检测是将监控场景内活动的部分从背景环境中分离出来，运动目标检测是计算机视觉中进行运动分析的基础。运动目标跟踪就是在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。本文旨在建立一个应用于复杂背景下使用基于混合高斯背景建模的运动检测和基于均值漂移和粒子滤波的运动跟踪的方法，精确提取视频中运动目标的轨迹，并通过线性插值的算法对提取的轨迹进行后处理的鲁棒系统，最后优化得到轨迹可直接应用于视频摘要系统。本文以工程应用为目的，使用了开源的计

12、算机视觉库OpenCV（Open Source Computer Vision Library）2.4.5、Visual Studio 2012开发工具搭建视频轨迹提取和后处理系统，并可将本文结果用于视频摘要的生成系统。1.2 国内外研究现状智能视频分析作为计算机视觉在安防领域的一个分支，在过去十几年间已经得到了广泛的发展和应用。国外对于智能视频分析的研究开始于上世纪九十年代。卡耐基梅隆大学的Michael Mauldin等人在1994主持开发的lnformedia视频数据库项目，这个项目也成为了智能视频分析研究领域的先驱。该系统实现了对视频媒体的理解，其中包含了视频检索、可视化、归档等功能；

13、1997年美国国防高级研究署（DARPA）设立了以卡耐基梅隆大学为首联合十几所大学和研究机构设立重大视频监控项目VSAM（Video Surveillance And Monitoring）；1997年德国曼海姆大学由WEfelsberg博士主持的项目MoCA项目也在视频处理技术方面做了大量的研究工作。该项目进行了诸如视频切分、视频流中文字的检测、定位与识别、人脸检测和视频摘要等方面的研究，MoCA项目还研究了视频流中运动对象的分割和识别问题；IBM公司下属的Almaden研究中心研究丌发的基于视频内容检索的QBIC(Query By Image Content)系统，提供图像、视频、文本和语

14、音多种形式的多媒体信息检索功能，是最早的基于内容的视频检索原型系统，其系统框架与技术对图像处理系统的发展有深远的影响。目前国际上对于视频的分析技术的研究上已经相当深入，但是在如视频语义（如文字，人脸等）方面，尚未有完整的解决方案。我国虽然在智能视频分析领域起步比较晚，但发展较为迅速。到目前为止，也取得了不少令人瞩目的成就。如中国科学院北京自动化研究所下属的模式识别国家重点实验室视觉监控研究处于领先地位。他们对交通场景的视觉监控研究有基于三维线性模型定位、基于扩展卡尔曼滤波器的车辆跟踪算法、人的运动视觉监控基于步态的远距离身份识别和行为。在模式识别领域提出了对目标运动轨迹和行为特征的学习的模糊自

15、组织神经学习算法，取得了一定的成就。还有微软亚洲研究院多媒体计算组主要从事视频视觉信息分析的研究，该研究组是国内最早开展视频、图像检索技术研究的机构。他们对视频的检索和压缩、频摘要的提取、新闻视频的自动分割、运动分析、字幕识别以及人脸识别等问题进行了全面深入的研究，并提出了很多比较成熟有效的算法。1.2.1 视频摘要视频摘要作为视频智能分析技术之一，具有非常重要的实用价值，可以减小视频的数据量，提高视频检索和视频浏览的速度，大大提高视频数据的利用效率。根据表现形式的不同，视频摘要可分为静态的视频摘要和动态的视频摘要两类。静态的视频摘要，又称为视频概要(Video Summary) 吴倩，史萍，

16、视频摘要技术浅析，中国传媒大学学报（自然科学版），2008，15(2):54-58，是以静态的方式来表现视频的内容，它是从视频流中抽取或生成的有代表性的图像。即通过一系列关键帧组成相应的语义单元表示视频的内容，如标题、故事板、幻灯片等。故事板是从原始视频中提取的按照一定顺序和一定形式排列的多帧代表帧图像序列，这些代表帧又称为关键帧(key frame)，它可以给用户提供视频的总体描述，在浏览中也可以方便地定位到用户感兴趣的部分。有些此类摘要用某一图像的面积占整个故事板面积比例的大小来反映视频中相应内容的重要程度。动态的视频摘要，又称为缩略视频(Video Skimming) 欧阳建权，李锦涛，

17、张勇东等，视频摘要技术综述，计算机工程，2005，31(10):7-9，是图像序列及其伴音的集合。它本身也是一段视频，但比原视频要短得多。缩略视频可以分为精彩剪辑视频、专题缩略视频和一般缩略视频三类。精彩剪辑视频一般由原始视频中的精彩画面组成，并且不包含故事的结局，在电影电视中为了吸引观众而广泛应用。专题缩略视频是特定领域视频的摘要，专题缩略视频的实现一般都要结合该领域相关的知识并来采用比较特殊的方法来实现。一般缩略视频是相对于专题缩略视频而言的，它是由一些视频片段组成的序列，用户可以通过播放这些相对短小的视频片段来了解整个视频的内容。根据摘要技术的不同可以将视频摘要分为两大类。（1）基于关键

18、帧的视频摘要。视频的关键帧是反映镜头中主要信息内容的一帧或多帧图像。通过多个关键帧组合成视频得到视频摘要，允许用户通过少量的关键帧快速浏览原始视频的内容，并提供快速检索。基于关键帧 Alan Hanjalic,HongJiangZhang.An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis,IEEE Transactions on Circuits and Systems for Video Technology,1999,9(8):1280-1

19、289.DOI:10.1109/76.809162的视频摘要首先分割出视频中的每组镜头，然后从每一组镜头中提取若干关键帧。选取关键帧的标准在于帧与帧之间的差异性，基本上以视觉特征信息如颜色分布、运动方向等作为衡量标准。但关键桢的选取依赖于阈值的选择，计算量也太大，很难做到实时处理，还有就是仅有颜色特征等单一特征不能很好地表达视频的内在语义。（2）基于对象的视频摘要基于对象的视频摘要是近年来提出的一种新的动态视频摘要技术 A. Rav-Acha, Y. Pritch, and S. Peleg, Making a Long Video Short: Dynamic VideoSynopsis,P

20、roc. IEEE Conf. Computer Vision and Pattern Recognition, June 2006.435-441.，有效地保持了视频内容随时间动态变化的特征，同时最大限度的减少时间空间冗余。随着视频摘要技术的发展，各种基于该思想的新方法也被广泛应用到监控领域的视频摘要研究中。本文主要论述基于运动对象的视频摘要方法。1.2.2 运动目标检测在现实生活中，大多数情况下人们对视频中感兴趣目标的特征很简单：一个正在移动的物体，即大量有意义的视觉信息包含于运动之中。运动目标检测的目的是将序列图像中运动对象从背景图像中提取出来。运动区域的有效检测分割对目标的跟踪及轨迹后

21、处理非常重要。目前较为常见的运动目标检测方法有：帧间差分法、光流场法、背景建模法。（1）帧间差分法帧间差分法 A. J. Lipton, H. Fujiyoshi, and R. S. Patil, Moving target classification and tracking from real-timevideo, in Proc. IEEE Workshop Applications of Computer Vision, 1998, pp. 8-14.是最为常用的运动目标检测和分割方法之一。将同一背景不同时刻两幅图像进行比较，可以反映出一个运动物体在此背景下运动的结果。基本原理就是

22、将前后两帧图像对应像素值相减，从相减的图像中，很容易发现运动目标的信息。在环境亮度变化不大的情况下，如果对应像素值相差很小，可以认为此处景物是静止的，如果图像区域某处的像素值变化很大，可以认为这是由于图像中运动物体引起的，将这些区域标记下来，利用这些标记的像素区域，由于减出的部分可以大致确定运动目标在图像上的位置，使用相关法时就可以缩小搜索范围。计算帧差经常使用像素或像素块的差分。帧间差分法的特点是速度快，对于动态环境具有较强的自适应性，鲁棒性较好，但一般不能完全提取出所有相关的特征像素点，这样在运动实体内部容易产生空洞现象。（2）光流场法光流（Optical Flow）是一种简单实用的图像运

23、动的表达方式，通常定义为一个图像序列中的图像亮度模式的表观运动，即空间物体表面上的点的运动速度在视觉传感器的成像平面上的表达。光流场是一种以灰度梯度基本不变或亮度恒定的约束假设为基础的目标检测的有效方法。光流法D. Meyer, J. Denzler, and H. Niemann, Model based extraction of articulated objects in image sequences for gait analysis, in Proc. IEEE Int. Conf. Image Processing, 1998, pp. 78-81.主要原理是，首先计算连续两帧

24、视频图像中运动目标处的光流，对于具有一致性的光流，判断为背景，而不具一致性的光流部分则为运动目标。可采用Horn光流算法 Horn B.K.P, Schunck B.G. Determining optical flow. Artificial Intelligence, 1981; 17: 185-204.、五点约束光流算法孙宏，基于特征光流的运动目标跟踪算法研究及电视跟踪试验平台系统实现，硕士学位论文，西安交通大学，2002.等方法提取序列图像中的运动目标，最终达到目标与背景的分离。光流计算法的优点在于光流不仅携带了运动目标的运动信息，能够检测独立运动的对象，不需要预先知道场景的任何信息

25、，并且能够适用于静止背景和运动背景两种环境，可用于摄像机运动的情况，有较好的适应性。但当目标与背景图像的对比度太小，或图像存在噪音时，单纯的从图像灰度强度出发来探测目标的光流场方法将会导致很高的虚警率。另外，这种方法的计算复杂耗时，除非有特殊的硬件支持，很难实现实时运动目标的检测。从而导致光流计算法的实用性比较差。（3）背景建模法除帧间差分法外，背景估计是解决静止或缓变背景下运动目标检测和分割的另一条思路。通过背景建模法 N. Friedman and S. Russell, Image segmentation in video sequences: a probabilistic appr

26、oach, in Proc. 13th Conf. Uncertainty in Artificial Intelligence, 1997, pp. 1-3，利用相邻序列图像估计视频中不变的背景，进而提取当前帧中的非背景像素集合(即运动目标)。它的基本思想是输入图像与背景模型进行比较，通过判定灰度等特征的变化，或用直方图等统计信息的变化来判断异常情况的发生和分割运动目标。简单常用的方式为：直接抽取视频序列中某一幅图像，或计算多幅图像的平均值作为背景。它一般能够提供最完全的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。大多数研究人员目前都致力于开发不同的背景模型，以期减

27、少场景变化对于运动分割的影响，背景差法是一种有效的运动目标检测算法。但是当摄像机运动的情况下，背景图像也在不停的快速变化中，在这种情况下还没有合适的背景建模方法可以利用。本文主要研究内容基于背景建模法的运动目标检测算法，使用了基于混合高斯模型进行背景建模。1.2.3 运动目标跟踪目标跟踪就是在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。目前较为常见的目标跟踪方法大致分为四类：基于特征匹配的跟踪、基于区域匹配的跟踪、基于轮廓匹配的跟踪、基于团块匹配的跟踪。（1）基于特征匹配的跟踪特征匹配 B. Coifman, D. Beymer, P.McLauchlan, a

28、nd J. Malik, Areal-time computer vision system for vehicletracking and traffic surveillance, Transportation Res.: Part C, vol. 6, no. 4, pp. 271288, 1998.跟踪的基本思想是：不将整个运动区域作为一个整体来跟踪，而是跟踪一组运动目标中具有不变性质的特征点，如角点或者边缘线条。不管是刚体运动目标还是非刚体运动目标，在序列图像相邻的两帧图像中，由于图像序列间的采用时间间隔很小，可以认为个体特征在运动形式上具有平滑性。因此可以用直线、曲线、参照点等特征

29、来跟踪运动目标。典型特征匹配跟踪流程图如图1.1所示:图1.1 典型特征匹配跟踪流程基于特征匹配跟踪算法的优点实现简单，对光线变化不敏感。但是缺点是对于运动目标进行复杂运动的情况，如遮挡，交错等，对于运动目标的特征提取跟踪就较为困难的问题。同时，这种方法存在着运动初始化较困难，对噪声较为敏感等问题。（2）基于区域匹配的跟踪区域匹配跟踪 A. Galata, N. Johnson, and D. Hogg, Learning variable-length Markov models of behavior, Comput.Vis. Image Understanding, vol. 81, n

30、o. 3, pp. 39813, 2001的基本思想是把预先提取的运动区域作为匹配的目标模板，设定一个匹配度量，然后在下一幅图像中，全图匹配搜索目标图像，把度量取极值时的位置判定为最佳匹配点。区域跟踪的方法主要分为检测和预测两部分。其中检测部分完成检测运动目标随时间变化的形状和运动，预测部分主要采用滤波跟踪技术，估计区域的几何形状及运动速度。基于区域的跟踪方法的显著优点是对运动目标中存在的遮挡问题不太敏感，而且这种跟踪方法可以改善图像的分割。（3）基于轮廓匹配的跟踪基于活动轮廓 V. Caselles, R. Kimmel, G. Sapiro, Geodesic active contour

31、s, in: Processing ofIEEE International Conference on Computer Vision95, Boston, MA, 1995, pp.694699.的跟踪方法是利用一条封闭的参数化曲线来表达运动目标轮廓，在由图像构造的特征场中通过极小化曲线函数为参数的能量来进行动态迭代，使得该轮廓能够自动连续更新。它的中心思想是最小化图像能量函数。Snake是能量极小化的样条函数，内力约束它的形状，外力引导它的行为，图像力将其拖向显著的图像特征。Snake利用对光照变化相对不敏感的轮廓信息来对目标物体进行建模，并对轮廓的曲率和物体的运动加入平滑性约束。这比直

32、接对整个物体建模更具有普适性，比利用角点等图像底层信息进行信号分析更能够抵御场景干扰。相对于区域跟踪方法，该方法计算量小，若开始能够合理分开每个运动目标并实现轮廓初始化，那么即使有部分遮挡，也能连续的进行跟踪，但是初始化轮廓通常是很困难的。（4）基于团块匹配的跟踪基于团块(Blob) Y. Wu and T. S. Huang, A co-inference approach to robust visual tracking, in Proc. Int. Conf.Computer Vision, vol. II, 2001, pp. 26-33的跟踪算法基本原则是对候选像素进行图像分割，判

33、断该像素是属于目标还是属于背景或者属于其他的区域。基于团块的跟踪算法也可以称为基于图像分割的跟踪，因为它和图像分割所使用的基本方法是一致的，都是根据给定线索优化像素的选择、合并和分离，都把具有相同特征的像素点集合成一个区域。它与传统的图像分割的不同在于目标视觉跟踪的目的是在图像序列中进行目标定位，可以有一定程度的像素分类不准确，只需分割结果足可区分目标和背景，而传统的图像分割算法需要精确显示目标轮廓。分割线索一般有目标的运动特征、纹理特征和图像深度信息等。团块跟踪主要是在团块的基础上，使用一定的匹配搜索算法，完成运动目标跟踪。其匹配搜索算法可以是全局搜索或者预测搜索方法，常见的预测搜索滤波器有

34、Kalman滤波器、粒子滤波器。本文使用了基于均值漂移和粒子滤波的团块匹配跟踪。1.3 本文的研究内容本文后续讲解主要围绕视频摘要中的轨迹提取及轨迹后处理展开的。第一章论述课题开展的背景，并对视频摘要、运动目标检测跟踪技术研究的国内外现状做了简要介绍，同时对论文的结构进行安排。第二章介绍视频摘要技术的常用方法，提出一种基于运动对象的视频摘要方法。第三章首先介绍了运动目标检测常用方法，随后分析了均值、中值、单高斯模型建模和混合高斯模型的背景建模方法，并最终获得前景目标和背景图像。第四章分析对比了己有的运动目标的跟踪方法，研究了滤波的基本理论，提出了一种基于均值漂移和粒子滤波的跟踪方法，该

35、方法能够实现对目标的稳定和准确跟踪。第五章提出了一种抗遮挡的运动轨迹提取方法。根据目标轨迹是否存在漂移的情况，对提取目标轨迹采用基于线性插值的轨迹后处理，能够较好地解决多个运动目标发生部分遮挡情况下的轨迹漂移问题。第六章总结与展望，对全文进行了总结，并指出了其中的不足，进而对今后的发展方向和前景做了展望。第二章基于运动对象的视频摘要系统视频摘要，是以自动或半自动的方式通过对视频的结构和内容的分析，从原视频中提取有意义的部分，将它们以某种方式合并而成的紧凑的、能充分表现视频语义内容的视频浓缩。2.1 视频摘要技术分类根据表现形式的不同，视频摘要可分为静态的视频摘要和动态的视频摘要两类。静态

36、的视频摘要，是以静态的方式来表现视频的内容，它是从视频流中抽取或生成的有代表性的图像。即通过一系列关键帧组成相应的语义单元，概括表示视频镜头的内容，如标题、故事板、幻灯片等。故事板是从原始视频中提取的按照一定顺序和一定形式排列的多帧代表帧图像序列,这些代表帧又称为关键帧，它可以给用户提供视频的总体描述，在浏览中也可以方便地定位到用户感兴趣的部分。有些此类摘要用某一图像的面积占整个故事板面积比例的大小来反映视频中相应内容的重要程度。动态的视频摘要，是图像序列及其伴音的集合，它本身也是一段视频，但比原视频要短得多。缩略视频可以分为精彩剪辑视频、专题缩略视频和一般缩略视频三类。精彩剪辑视频一般由原始

37、视频中的精彩画面组成，并且不包含故事的结局，在电影电视中为了吸引观众而广泛应用。专题缩略视频是特定领域视频的摘要，专题缩略视频的实现一般都要结合该领域相关的知识并来采用比较特殊的方法来实现。一般缩略视频是相对于专题缩略视频而言的，它是由一些视频片段组成的序列，用户可以通过播放这些相对短小的视频片段来了解整个视频的内容。基于关键帧的视频摘要的最小单位是“帧”，存储空间较小且方便传输，但并不能完整表示每个目标的完整运动轨迹，不利于视频目标检索。基于对象的视频摘要的最小单位是“对象”，最大限度的减少时间空间的冗余，且为视频检索等上层开发提供对象结构，能在监控安防中快速响应紧急事件，定位到事件相关“对

38、象”，但存在处理复杂，摘要生成困难的问题。2.1.1 静态视频摘要视频摘要建立在视频内容分析的基础之上，实现静态视频摘要的关键在于关键帧的提取。下面介绍两类常用的关键帧提取方法，即基于镜头的关键帧提取方法与基于场景的关键帧提取方法。（1）基于镜头的关键帧提取方法镜头是一个连续的视频序列，一个镜头往往只表现一个事件，即这些序列中不存在摄像机的突变或者是场景的突变，故其各图像帧的关联性很大，关键帧提取比较简单，其中最简单自然地提取方法就是提取每个镜头中的首帧或尾帧作为关键帧 Alan Hanjalic,HongJiangZhang,An Integrated Scheme for Automate

39、d Video Abstraction Based on Unsupervised Cluster-Validity Analysis.IEEE Transactions on Circuits and Systems for Video Technology,1999,9(8):1280-1289.DOI:10.1109/76.809162。关键帧提取的多少要根据镜头内容的变化决定，若内容变化不大，则一帧就足够了，若是内容变化很大，需要根据内容提取多个关键帧。在抽取多个关键帧时，要有一定的衡量标准，使得提取的关键帧既能完整表达视频内容而且冗余度又小，由于目前计算机语义理解并不令人满意，大多以

40、底层视觉特性，例如颜色、运动等作为衡量标准。1）基于颜色的方法：在图像序列的底层视觉特征中，颜色信息最为稳定，一般不会受到图像转动或压缩的影响，所以对关键帧的提取往往采用基于颜色的方法。基于颜色的方法主要有两种，一种是在提取第一帧作为关键帧的基础上，用其余帧的颜色直方图与上一个关键帧作比较，如果差值大于设定的阈值 T，则此帧就作为关键帧；另一种关键帧提取方法是基于颜色聚类的方法，在对各图像帧的颜色直方图作统计后，将它们进行聚类，这样各图像帧就分为相关性比较小的类，然后提取各个类中质心位置的图像帧作为关键帧，这样提取出的关键帧冗余性就比较小。虽然上述的基于颜色的方法比较简单而且效果比较好，但是仍

41、然存在不足，一是阈值需要人为设定，大多时候需要多次实验而且精确度不高；二是仅仅依靠颜色信息往往忽略视频内容。2）基于运动的方法：当视频帧在时序上有动态变化时，依靠基于颜色的方法是无法准确提取关键帧的，这就需要基于运动的方法。此方法最常用的就是光流法，通过分析每个图像帧的光流场强度来判断其运动强度，然后选取出运动强度比较小的图像帧作为关键帧。3）全景图拼接法：对于视频序列来说，其内容都是变化的，仅仅依靠基于颜色和运动的方法提取一幅关键帧来表示视频的内容是不现实的，为了提取更简明扼要的关键帧，就需要运用全景图拼接技术。全景图拼接技术将镜头中背景相同或部分相同的图像帧合成为一幅图像，从而用一幅图像表

42、现该镜头的内容。全景图拼接技术排除了连续图像帧中的时间与空间的冗余，从而能在时间与空间上对视频数据进行压缩，具有很好的效果。全景图描述可以分为两个步骤，第一步是套用一定的运动模型如旋转模型、仿射模型、平移模型、平面透视模型等交换连续帧的运动；第二步是通过估算摄像机的运动参数对图像进行变形处理，然后拼接成一幅全景图像。这个方法能够很完整的保存背景信息，但是却无法显示运动物体的运动信息，信息量仍然不能满足要求。很多学者对这一问题进行了研究，他们将全景图分为两类，一是只包含静止的背景信息的全景图，另一类是包含动态的前景物体的全景图，然后将这两类全景图结合在一起就能构成最终的全景图。虽然该方法能够比较

43、有效地表现视频内容，但是它对视频的内容要求比较高，它并不适用于摄像机运动复杂以及背景与前景交替频繁的视频，只是比较适用于摄像机运动确定的视频。（2）基于场景的关键帧提取方法基于镜头的关键帧提取方法虽然比较有效，但是对于包含很多镜头的长视频，关键帧提取就比较复杂，数以百计的关键帧才能完整的表示视频内容，既费时又费力。基于此原因，人们开始考虑基于更高一层的视频单元的关键帧提取法，称之为基于场景的关键帧提取法。这里的场景比视频层次结构中的场景更广泛、更丰富，它可以是一个事件、一幕情景，甚至是整个视频序列。其中FX PaloAlto实验室的漫画书就是比较有名的基于场景的关键帧提取方法，而且取得了比较

44、好的效果。但是，在基于场景的关键帧提取方法中，仍然有很多问题需要进一步的分析研究，例如阈值的选取，场景的重要程度的衡以及聚类数目的定义。除了上述的用关键帧构造静态视频摘要的方法，还有许多结合其他技术的静态视频摘要生成法，如雅典大学把遗传算法和模糊算法运用到静态视频摘要中，马里兰大学通过把视频序列表示成为高维特征空间的曲面来生成视频摘要。此外还有结合人脸探测、小波变换等技术来提取关键帧的方法。但是从目前的发展来看，上述所有方法都有利有弊，还没有一种通用的非常有效的方法。2.1.2 动态视频摘要动态视频摘要技术的新兴技术基于运动对象的摘要，有效地保持了视频内容随时间动态变化的特征，同时最大限度的减

45、少时间-空间冗余。随着视频摘要技术的发展，各种基于该思想的新方法也被广泛应用到监控领域的视频摘要研究中，其中比较经典的有如下的几种方法：（1）基于运动过程的动态视频摘要基于运动过程的动态视频摘要 Yael Pritch, Clustered Synopsis of Surveillance Video, IEEE Advanced Video and Signal BasedSurveillance. 2009, pp. 195-200主要思想是将在原始视频中不同时发生的活动在视频摘要中无遮挡的情况下同步播放。产生一个在时间和空间上相对紧凑并且包含原始视频中必要活动的视频摘要。如果再相对较长的

46、一段视频中只有单个或较少对象出现，可以生成一个频闪电影形式的摘要，既在同一小的帧序列中显示同一对象在各个小的时间段内的位置和运动情况。该方法得到的视频摘要仍然为一段视频，表现了镜头中的动态变化，但该方法调整了活动间的时序关系。（2）基于相似活动聚类的视频摘要基于相似活动聚类的视频摘要 Y. Pritch, A. Rav-Acha, A. Gutman, and S. Peleg, Webcam Synopsis: Peeking Around theWorld. Proc. IEEE, Conf. Computer Vision, Oct. 2007是一种新的产生简短连贯视频摘要的方法，在视频

47、摘要中，如果同一画面总播放的活动室累死的，这样将能更有条理地表现出视频内容，所以该方法的中心思想是先将类似活动聚类，然后以a）中基于运动过程的动态视频摘要方法为基础来形成视频摘要。该方法用将类似活动聚类且只同时播放类似活动的方法来达到提高浏览效率的母的，所得的视频摘要条理较为清晰，大大提高了浏览效率，同时，使得非正常活动更容易被检测到。（3）基于3D-空间-时间描述中的“管带”排列视频摘要3D空间-时间描述中的“管带”排列视频摘 U. Vural, Y. S. Akgul. Eye-gaze based real-time surveillance video synopsis. Pattern RecognitionLetters 30 (2009) 11511159.要主要用于视频中感兴趣对象是运动对象的情况。该方法的主题思想史将视频转化到一个3D的空间-时间描述中，将每一个对象看作一段“管带”，将对象分割提取并建好背景模型后，将“管带”以最优的排列组合整合到背景图像形成的3D空间-时间描述中，将管带的重要度计算出来，按其重要度由高到低选取，改变选取的管带数量就可以按照用户的要求来形成不同长度的视频摘要。（4）基于用户关注空间与注意力分析的视频摘要

展开阅读全文