软件工程毕业设计论文运动相机下的移动物体分割算法研究.doc

资源描述

《软件工程毕业设计论文运动相机下的移动物体分割算法研究.doc》由会员分享，可在线阅读，更多相关《软件工程毕业设计论文运动相机下的移动物体分割算法研究.doc（53页珍藏版）》请在三一办公上搜索。

1、毕业设计（论文）说明书学院软件学院专业软件工程年级 2007 姓名指导教师 2011年 6月 22日毕业设计（论文）任务书题目：运动相机下的移动物体分割算法研究学生姓名学院名称软件学院专业软件工程学号指导教师职称讲师一、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）视频中的移动目标提取与分割是视频监控以及物体跟踪等应用中用途十分广泛的一项技术。在摄像机固定的情况下，已知背景信息，当图像变化的时候，帧间差就是变化的部分。然而，随着移动拍摄设备的应用和普及，越来越多的视频已经打破之前相机位置固定的假设，因此没有办法通过简单的帧间差来

2、得到视频变化的部分。国内外很多大学和研究机构在这一难题上做出了不少探索和贡献。卡耐基梅隆大学的舍赫教授提出运用视频追踪点轨迹矩阵的秩约束来对运动中摄像机视频的前、背景模型进行稀疏建模，再通过该稀疏模型对整帧图像利用图分割算法和马尔科夫链进行0-1标记来获得移动物体的分割的算法。这个算法很好的解决了运动中摄像机视频中的移动目标提取的问题，而且避免了使用耗费时间和资源的三维建模。本次设计基于舍赫教授的论文，对该算法进行实现和研究，从而能够对移动摄像机视频下的目标提取算法和技术进行应用和开发，为相关需要视频监控的行业和领域提供必要的理论依据和技术支持。二、参考文献1Y. Sheikh, O. Jav

3、ed and T. Kanade. Background subtraction for freely moving camerasA. In: Proceedings of IEEE 12th International Conference on Computer VisionC. IEEE: 2010. 1219-1225.2 P. Sand and S. Teller. Particle Video: Long-range motion estimation using point trajectoriesJ. International Journal of Computer Vis

4、ion, 2008, 80(1): 72-91.3 G. Bradski and A. Kaehler. Learning OpenCV: Computer Vision with the OpenCV libraryM. OReilly Media, 2008.4 W. Zhang, X. Cao, Y. Hou et al. Detecting and extracting the photo composites using planar homography and graph cutJ. IEEE Transactions on Information Forensics and S

5、ecurity, 2010, 5(3): 544-555.5 C. Zhang, X. Guo and X. Cao. Duplication Localization and SegmentationA. In: Proceedings of Pacific-Rim Conference on MultimediaC. Springer: 2010. 578-589.6 M. Cho, Y. Shin, and K. Lee. Unsupervised detection and segmentation of identical objectsA. In: Proceedings of I

6、EEE Conference on Computer Vision and Pattern RecognitionC. IEEE: 2010. 16171624.7 D. Lowe. Distinctive image features from scale-invariant keypointsJ. International Journal of Computer Vision, 2004, 60(2): 91110.8 C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localiz

7、ation by efficient subwindow searchA. In: Proceedings of IEEE Conference on Computer Vision and Pattern RecognitionC. IEEE: 2008. 18.9 R. Hartley and A. Zisserman. Multiple view geometry in computer visionM. Cambridge Univ. Press, 2004.10C. Wren, A. Azarbayejani, T. Darrell et al. Real time tracking

8、 of the human bodyJ. IEEE TPAMI, 1997.11D. Hochbaum and V. Singh. An efficient algorithm for cosegmentationA. In: Proceedings of IEEE International Conference on Computer VisionC. IEEE: 2009. 269276.12W. Hardle and L. Simar. Applied multivariate statistical analysisM. Springer Verlag, 2007.13C. Bish

9、op. Pattern recognition and machine learningM. Springer, 2006(4).14A. Elgammal, R. Duraiswami, D. Harwood et al. Background and foreground modeling using nonparametric kernel density estimation for visual surveillanceA. In: Proceedings of the IEEEC. IEEE, 2002.15N. Friedman and S. Russell. Image seg

10、mentation in video sequences: A probabilistic approachA. In: Proceedings of Conf. Uncertainty in Artificial IntelligenceC. 2000.16I. Haritaogolu, D. Harwood, and L. Davis. W4: Real-time surveillance of people and their activitiesJ. IEEE TPAMI. 2000.17R. Jain and H. Nagel. On the analysis of accumula

11、tive difference pictures from image sequences of real world scenesJ. IEEE TPAMI.1979.18O. Javed, K. Shafique, and M. Shah. A hierarchical approach to robust background subtraction using color and gradient informationA. In: Proceedings of IEEE Workshop on Motion and Video ComputingC. IEEE: 2002.19Y.

12、Sheikh and M. Shah. Bayesian object detection in dynamic scenesJ. IEEE TPAMI, 2005.20C. Stauffer and E. Grimson. Learning patterns of activity using realtime trackingJ. IEEE TPAMI. 2001.三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）本次毕业设计着重于视频的数据提取和分割算法的实现。视频数据提取方面，参考桑德教授的微粒视频一文，运用光流和特征追踪相结合的方

13、法在给定视频中提取追踪点轨迹，再根据舍赫教授的论文讲述的算法，通过运用RANSAC算法对追踪点轨迹进行秩约束，实现稀疏模型的建立。通过稀疏模型，运用马尔科夫链和图分割算法对视频帧进行0-1标记，最后得到目标提取和分割结果。数据提取方面，要注意阅读桑德教授主页关于微粒视频的说明和数据说明。下载代码并阅读理解，认清其实现原理。另外，桑德教授的主页上有充足的测试视频和源数据，可以用来做测试和实验。算法实现方面，需要了解和实现RANSAC、马尔科夫链和图分割算法。数学方面，要求阅读和理解仿射变换矩阵的秩约束原理和贝叶斯概率公式。衡量实验效果的主要指标是分割结果的准确率和查全率，如果运用桑德教授的数据的

14、话，可以直接使用对应视频的基准值。指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称运动相机下的移动物体分割算法研究学院名称软件学院专业名称软件工程学生姓名指导教师（内容包括：课题的来源及意义，国内外发展状况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。）1. 课题来源及意义随着摄像技术的应用和普及，越来越多的摄像装置被应用到日常生活和生产当中。其中视频监控和物体识别和追踪是最为热门的一个领域。但是，随着应用的推广和普及，视频数据量的不断扩大，单纯的视频采集系统已经不能满

15、足日益增长的视频监控需求。对于视频的理解和分析等智能功能则占据了更为重要的需求地位。由于数据规模的庞大和人力资源的昂贵，计算机视觉算法和技术应运而生。模式识别与机器学习知识被广泛的应用于视频监控和物体识别和追踪的领域。在摄像装置拍摄的视频中，固定相机位置作为长久以来的假设和技术瓶颈正在被打破，由于背景的移动，前景移动物体的提取和分割已经不能运用于非位置固定的相机的算法。所以，本设计希望能够实现移动摄像装置视频中提取移动物体的算法并且研究之。2国内外发展状况无论在国内还是国外，运动中相机的移动目标检测都是一个技术难题。一般相机位置固定的情况下，背景相减的算法，即帧间差，能够很好的提取运动目标。早

16、在70年代，背景相减和运动分割算法就被提了出来，基于的假设是相机静止。当相机位置静止这个假设被打破之后，比如手持摄像机或者搭载在交通工具上的摄像机，由于背景相对于画面也在运动，所以单纯运用帧间差不能提取运动的目标。该项技术如果能够得到实现和普及，那么它将大大推动视频监控的应用范围，比如智能汽车上的路况判断和标志牌识别。我国在视频监控已经颇为成熟并且应用广泛，智能车的发展和应用也是未来的热门研究方向之一，比如每年的本田智能车大赛，都吸引了很多高校的参与和竞争，创意和新技术也层出不穷。这都为移动相机的视频监控提供了很好的研究前景和应用方向。 3研究目标本设计旨在实现舍赫教授于2010年发表的“自由

17、移动相机中的背景减算法”一文中的运动目标提取算法。通过实现这个算法，掌握其中的技术要领，发现其中的潜在问题，从而为以后的研究找到目标和技术方向。 4研究内容首先，本设计着手于研究微粒视频算法。该算法是通过合成光流和特征点跟踪来得到追踪点轨迹的。因为光流是较密集但是没有长期信息，特征点追踪则是较长期但是很稀疏。通过合成这两个技术，微粒视频将会得到一个折衷的方案，即较为密集同时比较长期的追踪点轨迹。其次，对于微粒视频算法所得到的数据进行分析，判断如何处理这些轨迹点才能为以后的算法所用。再次，对于计算机视觉当中的仿射、透视几何变换进行学习和研究，明白该算法所基于的秩约束的原理。接下来，研究0-1标记

18、使用的算法，弄清其原理并且能够清楚明白马尔科夫链和图分割算法在该体系框架内实现的技术细节。最后，探索该方法的局限性，探讨改进算法的可能性。试图为解决该方法的局限性打下基础。5研究方法一，进行移动中相机的视频采集；二，对视频进行微粒视频算法处理生成追踪点轨迹；三，对追踪点轨迹进行分析和筛选，得到可供算法使用的追踪点轨迹矩阵；四，使用RANSAC算法，估计符合仿射矩阵秩约束的最大子矩阵，通过子矩阵建立背景的稀疏模型，剩余的点用来建立前景的稀疏模型；五，计算0-1标记的后验概率，其中，似然函数由标记像素和前、背景稀疏模型的相似度进行确定，并用图分割算法进行解空间的探索；利用马尔科夫链算法计算标记向量

19、的先验概率。从而得出最优标记向量。实验评价部分，通过对查全率和查准率的计算，得到实验的效果。再此基础上与其他方法比较衡量，分析该算法的不足和缺陷，同时对不同参数下的算法效果进行统计和分析。6研究手段对于微粒视频的算法，使用C+和OpenCV库函数实现。对于运动物体的检测，也用C+和OpenCV进行实现。在实验数据处理方面，利用Matlab进行分析和处理。7进度安排2010.11 学习光流、特征点追踪、仿射变换、贝叶斯理论、马尔科夫链和图分割。2010.12 学习使用OpenCV。2011.01 阅读文献，确定技术方案。2011.02 下载实验数据和相关算法的实现代码，弄清技术细节。2011.0

20、3 编程实现算法。2011.04 编程实现算法并进行实验。2011.05 对实验结果进行分析，运用评价体系衡量实验结果。2011.06 撰写毕业设计报告，通过答辩。8实验可行性分析和已具备的实验条件微粒视频的实现可以从作者的主页上找到。同时，测试用例也可以找到。对于跟踪点的处理，可以通过简单的筛选处理来实现，较为简单。RANSAC算法较为成熟，运用秩约束的估计可以通过计算放射变换的误差来实现。这个部分虽然没有现成的代码，但是通过伪代码来写实现并不难。至于标记时采用的一系列算法，都是较为经典和成熟的，实现起来虽然不简单但是是可行的。总而言之，该实验方案是可行的。9主要参考文献1 Y. Sheik

21、h, O. Javed and T. Kanade. Background subtraction for freely moving camerasA. In: Proceedings of IEEE 12th International Conference on Computer VisionC. IEEE: 2010. 1219-1225.2 P. Sand and S. Teller. Particle Video: Long-range motion estimation using point trajectoriesJ. International Journal of Com

22、puter Vision, 2008, 80(1): 72-91.3 G. Bradski and A. Kaehler. Learning OpenCV: Computer Vision with the OpenCV libraryM. OReilly Media, 2008.4 W. Zhang, X. Cao, Y. Hou et al. Detecting and extracting the photo composites using planar homography and graph cutJ. IEEE Transactions on Information Forens

23、ics and Security, 2010, 5(3): 544-555.5 C. Zhang, X. Guo and X. Cao. Duplication Localization and SegmentationA. In: Proceedings of Pacific-Rim Conference on MultimediaC. Springer: 2010. 578-589.选题是否合适：是否课题能否实现：能不能指导教师（签字）年月日选题是否合适：是否课题能否实现：能不能审题小组组长（签字）年月日摘要移动相机下的移动目标提取已经成为计算机视觉领域中十分热

24、门的一个话题，同时，也有很多的人力物力被投入到这个议题的研究实现以及改进当中来。传统上，背景减算法是被用来做目标提取的最流行的算法，因为传统上的监视系统中的相机摄像装置都是被固定安装的，这样的话，背景就是不变的而前景物体通常是动着的。然而，随着移动电话、手持摄像装置的不断普及和发展，越来越多的视频序列是被移动着的相机所拍摄的，在这些视频当中，已有的算法显然已经不适用了。自然而然的，对那些在移动视频中提取前景目标的算法的市场需求就显得十分迫切。本毕业设计提供了卡内基梅隆大学的舍赫教授在2009年提出的移动相机下的背景减算法的一种实现。基本上本论文的实现是基于该篇论文的，但是本毕业设计在此基础

25、上也加入了一些别的算法和策略，并做了一些修改。实验结果证明本毕业设计的方法是行得通的。首先，SIFT特征点被从每一帧中提取出来，并且基于此，两个匹配矩阵被建立出来，而后初始的轨迹序列被通过合并这两个匹配矩阵建立出来。接下来，马萨诸塞理工学院的桑德博士提出的微粒视频技术也被加入进来用来提高轨迹的密度。接下来就是通过随即一致性算法和神经网络技术分别建立系数模型和二值标记。另外的，框级定位结果被通过稀疏模型建立出来。关键词：目标提取；计算机视觉；背景减算法；移动相机ABSTRACT Object detection and segmentation has long been a hot topi

26、c in the area of Computer Vision. There has been a large amount of effort undertook in this problem. Traditionally, background subtraction was the most popular method to do this job, basically because in traditional supervise system, the cameras were always static; thus, there was an assumption in t

27、raditional algorithms in such object detection problem: the background is at static and the foreground is moving. However, as the developing of mobile phones as well as digital video capture devices, theres a growing number of video sequences are taken by such mobile devices, which old algorithms ca

28、n not handle with. Consequently, the market need of algorithms to solve the object detection problem is also growing at an amazing speed due to existed algorithm can not handle those problems in moving cameras. We propose an implementation of a novel algorithm about background subtraction and object

29、 detection in moving camera settings. Basically, our method is according to a previous work of Prof. Sheikh from Carnegie Mellon University. Also, we do some modification and add some new process in this framework. The experimental results show that our method works well. Firstly, out method use SIF

30、T to extract feature points from each frame of given video sequence and match them frame-by-frame. Secondly, the two match matrices are combined together to form a initial trajectory matrix. Particle Video technique, proposed by Dr. Sand from Massachusetts Institute of Technology, is also included t

31、o obtain more dense trajectories. Then sparse labeling of trajectories is accomplished by Random Sample Consensus and dense labeling is accomplished by Artificial Neural Network. A box-level bounding result is also obtained by Efficient Sub-window Search according to the sparse model.Key words: obje

32、ct detection; computer vision; background subtraction; mobile camera.目录第一章绪论131.1 选题背景131.2当前技术现状14第二章背景技术162.1 特征点以及SIFT提取和匹配162.2 多视角几何背景17第三章程序实现193.1问题的提出及其现实意义193.2算法流程203.3特征点的提取223.4特征点的匹配233.5轨迹的提取253.6轨迹矩阵的多视角设定以及秩约束273.7利用RANSAC建立稀疏模型273.8 运用ESS实现框定位313.9二值标记算法的实现34第四章实验结果及讨论364.1 数据集来

33、源和描述364.2 实验结果以及讨论374.2.1 从算法的各个步骤分析384.2.2从不同数据集的角度分析40第五章总结和展望425.1算法实现的总结425.1.1 特征点的提取和轨迹矩阵的建立425.1.2 稀疏模型的实现425.1.3 框定位算法的实现435.1.4 像素级标定的实现435.2 过程中遇到的问题以及解决43参考文献45外文资料47中文译文48致谢53第一章绪论1.1 选题背景计算机视觉，作为近20年从出生到发展的一门新兴学科，在包括从军用到民用的诸多领域都有着卓越的贡献和长足的发展潜力。它是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼

34、对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。考虑到人类已经进入信息时代，计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机，而另一方面是计算机的功能越来越强，使用方法越来越复杂。从另一个方面讲，它同样可以被看作是生物视觉的一个补充。在生物视觉领域中，人类和各种动物的视觉都得到了研究，从而建立了这些视觉系统感知信息过程中所使用的物理模型。另一方面，在计算机视觉中，靠软件和硬件实现的人工智能系统得到了研究与描述。生物视觉与计算机视觉进行的学科间交流为彼此都带来了巨大价值。智能计算机的其中一项

35、要求，就是能够使得计算机能够像人类一样，理解周围的信息，包括视觉信息，声音信息，还有温度信息等。计算机视觉，脱胎于传统图像处理，更着重于解决计算机如何学习人类的思考和理解模式，将视觉信息（瞬间的视觉图像，也可以是一系列的图像序列）转化为有意义的，较为简化的数字信息。因为能够将人从繁重并且重复的工作中解脱出来而去从事更有创造性的工作，计算机视觉于是有着它广阔的应用前景。视频监控和追踪从计算机视觉的应用诞生的年代起，就一直是热门的应用领域。随着城市以及各种场所对安全等要求的逐渐提高，越来越多的人力和物力被投入到视频监控项目的开发和运作当中。视频监控是安全防范系统的重要组成部分，它是一种防范能力较强

36、的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控技术也有了长足的发展。我国的“天网”计划就是一个明证。视频监控系统的发展大致经历了三个阶段。在90年代初以前，主要是以模拟设备为主的闭路电视监控系统，称为第一代模拟监控系统。90年代中期，随着计算机处理能力的提高和视频技术的发展，人们利用计算机的高速数据处理能力进行视频的采集和处理，利用显示器的高分辨率实现图像的多画面显示，从而大大提高了图像质量，这种基于 P C机的多媒体主控台系统称为第二代数字化本地视频监控系统。九十年代末，随着网络带宽、计算机处理能

37、力和存储容量的快速提高，以及各种实用视频处理技术的出现，视频监控步入了全数字化的网络时代，称为第三代远程视频监控系统。第三代视频监控系统以网络为依托，以数字视频的压缩、传输、存储和播放为核心，以智能实用的图像分析为特色，引发了视频监控行业的技术革命。然而，视频监控还是处于需要大量人力投入其中，究其原因，就是计算机对于视频的理解还不能达到人类大脑的水平，物体的辨识、提取，人物的动作识别等等问题，在当今的计算机视觉领域仍然是个热点。随着计算机视觉算法的不断完善，视频监控所需要的人力将会大大减少，从而显著地降低成本，这也是民用计算机视觉的市场价值所在。在视频监控应用当中，如何提取目标物体是很重要的研

38、究方向。比如在路口的交通监控当中，如何自动地提取车辆和行人。传统上，这样的算法都借助比对相邻的两帧来实现。这样做的原因是传统上大多数摄像装置都是固定安装在一个固定的位置上的，比如路口的电线杆上，楼层的墙角落里。或者，有些可以旋转的摄像头，在短时间内可以看作是静止的。也就是说，摄像头所拍摄的场景相对于摄像头本身是不运动的。这样一个假设所带来的效果是在短时间内如果不出现我们感兴趣的物体（如运动着的车辆和行人）的话，摄像装置所拍摄的视频应该是相同的，如果相邻两帧或几帧出现了较大的不同，那么很可能的原因就是出现了运动着的物体，而这个物体很可能就是视频监控中感兴趣的前景物体。然而，随着全球技术和经济的不

39、断发展，便捷随身的通讯设备逐渐进入了生活的主流。手机的拍摄装置和不断便捷的摄像装置的发展也是一日千里，由移动设备拍摄的视频信息的数量已经远远超过了不容忽视的程度。如何在移动设备所拍摄的视频中应用已有的各种监控算法，也成为一个必须要解决的问题。所以本论文将集中讨论如何在移动相机所拍摄的视频中进行前景物体的提取。移动相机所拍摄的视频与传统的视频最大的不同就是，在移动相机所拍摄的视频当中，由于相机本身是运动的，那么背景相对于相机也是运动的。这样一来，通过比对相邻两帧的差别来辨别前景物体的方法将不再适用。本论文的目的就是探讨一种能够在前景和背景都在变化的情况下能将两者较为完美的区分并且分割出来的算法并

40、且予以实现。本文的工作将为以后后续的有关移动相机视频处理的应用和讨论提供支持和话题。1.2当前技术现状移动视频当中的目标提取在目前的应用当中，很大一部分是依靠传感器的精确性来实现的。光电传感器通过被安装在多种移动平台上用于执行安全及监察任务。如安装用于执行警务的巡逻直升机上，监视边界及更为普遍的探测可能的动态场景变化。在不同的监察和监视任务中使用无人驾驶和其他机上平台，成像传感器同样被应用于多种地面运动车辆上。但是无论怎样，即使是固定平台也总不是防震的(如支架摇摆等) 。在这些情况下，保证足够的精度及可靠性来探测场景的动态对人工的操作员们是一项巨大的挑战。运动目标很快被漏掉，且已探测到的目标

41、很容易丢失。更具挑战性的由传感器运动、运动的传感器平台以及光学参数变化导致的动态性问题也需待解决。因此，很有必要为操作人员提供必需的功能性支持。现有系统的能力到目前为止都具有相当的局限性，其需要关于飞行及记录参数的高精度数据，待观测的背景信息等，否则就只能对相对运动做出粗略的评估。、与硬件方法不同，视觉的算法虽然精度有所下降，但是更具有鲁棒性。移动相机的目标提取在近几年在计算机视觉里面一直是一个热门题目。最初，为了解除相机移动所带来的误差，一些方法采取了自运动估计补偿的策略，企图通过计算相机自身在三维世界中的运动方向、速度来还原图像，通过给图像中的像素一个补偿的运动向量来完成。这样做的好处是通

42、过建模相机所处场景的三维模型并且估计相机自身的运动方向和速度，能够完美地还原相机场景当中的具体位置。这样做的缺点就是对整个附近场景建模所需要的数据量比较巨大，不利于实时实现。更严重的是，由于这些方法本身数学模型是建立在放射几何投影的条件下的，所以它要求的极为苛刻。这个方法假设是背景的运动必须能够被归纳到一个平面当中，或者围绕固定轴旋转。这样的话，最普遍意义下的手持摄像装置的运动方式将毫无疑问地被排除在外。这是自运动估计方法的最大的不足。除此之外，还有一些别的技术和方法也被运用到了这个问题当中来，比如将整个场景分成多个片，每一个片用一个近似的小平面来估计，然后再估计每一个小平面的运动状态，再通过

43、还原每一个小平面的运动来还原整个场景。以上的各种方法，基于的都是相机稳定和自运动估计的技术，对于过于随意且无法平面近似的运动都无能为力。这也是之后的各种方法所着重要解决的问题。本论文所实现的算法，不存在任何的类似于上述的假设，纯粹是根据图像中的跟踪点轨迹，通过仿射矩阵的秩约束来对图像的像素进行粗分类，然后才是像素级别的细分类，这个方法将完全使用于手持移动摄像装置的应用范畴。如果追踪点足够多而且足够准确的话，本论文实现的方法的效果将会是极为精确的。第二章背景技术2.1 特征点以及SIFT提取和匹配图 2-1 SIFT特征点提取的步骤SIFT(Scale Invariant Feature Tr

44、ansform)算法7是一种提取图像局部特征、用于表达整幅图像的方法,其目的是在尺度空间寻找极值点,提取特征点位置、尺度及旋转不变量.（2）该算法的实现包括两个阶段,第一阶段是SIFT特征的生成,第二阶段是构造特征描述符,以实现不同图像的特征点匹配.（3）采用SIFT算法,可以更加准确地提取出图像的特征,利用先验条件和RANSAC算法,能进一步去除误匹配,使得所提取的特征点得到了更好地匹配。SIFT方法包括基于高斯差分尺度空间的特征点检测和特征点的描述与匹配。特征点检测分为三步：（1）建立高斯差分尺度空间（2）极值点检测（3）边缘像素剔除。SIFT算法的主要步骤如下：1）DOG尺度空间的构建：

45、为了有效地在尺度空间检测到稳定的关键点，Lowe提出了高斯差分尺度空间(DOG scale space)，利用不同尺度的高斯差分核与图像卷积生成。DOG算子计算简单，是归一化LoG(Laplacian-of-Gaussian)算子的近似。2）尺度空间极值点检测：对于图像上的点，计算其在每一尺度下DOG算子的响应值。为了寻找尺度空间上的极值点，每个检测点要和它同尺度的8个相邻点和上下相邻尺度对应的92个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。3）精确确定极值点位置：通过拟和三维二次函数以精确确定关键点的位置。所用的拟合函数为DOG算子的二阶泰勒展开式。并通过检测高斯差分算

46、子的主曲率来滤除边缘响应。4）关键点方向分配：利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。5）特征点描述符生成：实际计算过程中，为了增强匹配的稳定性，Lowe建议对每个关键点使用44邻域内共16个种子点来描述，这样对于一个关键点就可以产生128个数据，即最终形成128维的Sift特征向量。图2-2 高斯差分金字塔示意图图2-3 特征描述符示意图当两幅影像的SIFT特征向量生成以后,就要采用一种相似性准则来寻找最佳匹配的位置。SIFT算法采用欧氏距离对特征向量进行评价,当欧氏距离最近两个点的比值小于阈值时接受此匹配点。一般该点为其最近邻。2.2 多视角几何

47、背景单应性是几何9中的一个概念。单应性是一个从实射影平面到射影平面的可逆变换，直线在该变换下仍映射为直线。具有相同意义的词还包括直射变换、射影变换和射影性等，不过“直射变换”也在更广义的范围内使用。形式化地说，射影变换是一种在射影几何中使用的变换：它是一对透视投影的组合。它描述了当观察者视角改变时，被观察物体的感知位置会发生何种变化。射影变换并不保持大小和角度，但会保持重合关系和交比两个在射影几何中很重要的性质。射影变换形成了一个群。对于更广义的射影空间具有不同维度或不同的域来说，“单应性”代表射影线性变换（由其相关的向量空间的线性变换导出的可逆变换），而“直射变换”（意为“把直线映射为直线”）更为广义

展开阅读全文