视觉技术的发展毕业论文.doc

资源描述

《视觉技术的发展毕业论文.doc》由会员分享，可在线阅读，更多相关《视觉技术的发展毕业论文.doc（9页珍藏版）》请在三一办公上搜索。

1、毕业论文排版样文目录1 视觉技术的发展21.1计算机视觉技术22立体视觉技术研究32.1双目立体视觉技术42.1.1 双目立体视觉概述42.1.2 图像获取42.1.3 摄像机的标定52.1.4 图像预处理62.1.5 立体匹配6致谢8参考文献8附录：91 视觉技术的发展1.1计算机视觉技术计算机视觉既是工程领域也是科学领域中的一个富有挑战性的重要研究领域。计算机视觉是一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中，其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等18。视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断和军

2、事等领域中各种智能自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战。“计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图像信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起19。”作为一门学科，计算机视觉开始于 60 年代初，但在计算机视觉的基本研究中的许多重要进展是在 80 年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科20。不少学科的研究目标与计算

3、机视觉相近。这些学科包括图像处理、图像识别、景物分析、图像理解等。由于历史发展或领域本身的特点这些学科互有差别，但又有某种程度的相互重叠。为了清晰起见，把这些与计算机视觉有关的学科从研究目标和方法角度加以归纳 21。（1）图像处理图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如，可通过处理使输出图像有较高的信噪比，或通过增强处理突出图像的细节，以便于操作员的检验。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取。（2）图像识别图像识别技术根据从图像抽取的统计特性或结构信息，把图像分成预定的类别。在计算机视觉中图像识别技术经常用于对图像中的某些部分 (例如分割区域) 的识别

4、和分类。（3）图像理解给定一幅图像，图像理解程序不仅描述图像本身，而且描述和解释图像所代表的景物，以便对图像代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语，以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理以外还需要具有关于景物成像的物理规律的知识以及与景物内容有关的知识。在建立计算机视觉系统时需要用到上述学科中的有关技术，但计算机视觉研究的内容要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉的计算理论。八十年代初，马尔(Marr)从神经生理学、心理物理学和临床神经病理

5、学角度对人类视觉进行了系统的理论研究，并以此为根据提出了视觉计算三层表象理论，该理论是迄今为止最为系统的视觉理论，对神经科学的发展和人工智能的研究产生了深远的影响21。马尔的三个表象层次如图2-1 所示。Marr的计算视觉理论把视觉过程看作一个信息处理过程，并把这一过程分为三个层次：计算理论；算法与数据结构；硬件实现。这一理论强调计算理论层次，并根据Warrington 22临床神经学的研究结果，阐明视觉目的是从图像中建立物体形状和位置的描述。在这一层次把视觉过程主要规定为从二维图像信息中定量恢复图像所反映的三维场景中物体的形状和空间位置，即三维重建。图1 视觉系统的三个表象层Marr 将三维

6、重建这一过程分为三个层次。前期视觉处理阶段是由输入的二维图像获得二维要素图，包括检测灰度变化，表示和分析局部几何结构以检测照明效应等处理。中期视觉处理阶段是对二维要素图进行一系列运算得到能反映可见表面几何特征的表象，即二维半(2.5 维)图。这些运算包括由立体视觉运算物体的深度信息；根据灰度、纹理等信息恢复表面方向；由运动视觉运算获取表面形状和空间关系信息等。后期视觉处理阶段是从二维半图像获取场景物体的三维描述，识别出场景中这些物体的位置和姿态。2立体视觉技术研究立体视觉是计算机视觉领域的一个重要课题，它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值，其应用包括移动机器人的

7、自主导航系统，航空及遥感测量，工业自动化系统等。立体视觉的研究由如下几部分组成24：（1）图像获取用作立体视觉研究的图像的获取方法是多种多样的，在时间、视点、方向上有很大的变动范围，直接受所应用领域的影响。立体视觉的研究主要集中在三个应用领域中，即自动测绘中的航空图片的解释，自主车的导引及避障，人类立体视觉的功能模拟。不同的应用领域涉及不同类的景物，就场景特征的区别来分，可以划分成两大类，一类是含有文明特征的景物；另一类是含有自然特征的景物和表面。不同类的景物的图像处理方法大不相同。（2）图像匹配图像匹配是立体视觉系统的核心，是建立图像间的对应关系从而计算视差的过程，是极为重要的。（3）深度计

8、算立体视觉的关键在于图像匹配，一旦精确的对应点建立起来，距离的计算相对而言只是一个简单的三角计算而已。然而，深度计算过程也遇到了显著的困难尤其是当对应点具有某种程度的非精确性或不可靠性时。粗略地说，距离计算的误差与匹配的偏差成正比，而与摄像机组的基线长度成反比。加大基线长度可以减少误差，但是这又增大了视差范围和待匹配特征间的差别，从而使匹配问题复杂化了。为了解决这一问题出现了各种匹配策略，如由粗到精的策略、松驰法等。2.1双目立体视觉技术2.1.1 双目立体视觉概述双目立体视觉理论建立在对人类视觉系统研究的基础上，通过双目立体图像的处理，获取场景的三维信息，其结果表现为深度图，再经过进一步处理

9、就可得到三维空间中的景物，实现二维图像到三维空间的重构。Marr和Poggio以及Grimson2526最早提出并实现了一种基于人类视觉系统的计算视觉模型及算法。双目立体视觉系统中，获取深度信息的方法比其它方式较为直接，它是被动方式的，因而较主动方式（如程距法）适用面宽，这是它的突出特点。双目立体视觉技术的实现可分为图像获取、摄像机标定、图像预处理、图像匹配等步骤。下面依次介绍各个步骤的实现方法和技术特点27。2.1.2 图像获取双目立体视觉的图像获取是由不同位置的两台或者一台（CCD）摄像机经过移动或旋转拍摄同一幅场景，获取立体图像对。双目立体视觉模型如图 2-2所示。图2 双目立体视觉模型

10、双目立体视觉系统中，深度信息的获得是分两步进行的。第一部分，在双目立体图像间建立对应点，也就是搜索对应点的问题，是双目立体视觉的关键；第二部分，根据对应点的视差计算出深度，也就是建立摄像机模型问题。双目立体视觉模型中，双摄像机彼此参数一致，光轴平行且垂直于基线，构成一个共极性（epipolar）结构，这样做是为了缩小对应点的搜索空间，只有水平方向的视差，简化了对应点的搜索过程。2.1.3 摄像机的标定对双目立体视觉而言，CCD摄像机、数码相机是利用计算机技术对物理世界进行重建前的基本测量工具。对它们的标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法，分别得到两个摄像机的内、外

11、参数，再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。目前常用的单摄像机标定方法主要有：（1）两步法首先采用透视矩阵变换的方法求解线性系统的摄像机参数，再以求得的参数为初始值，考虑畸变因素，利用最优化方法求得非线性解，标定精度较高。（2）张正友标定方法可以通过不同位置和方向的几个平面来求解内部参数，然后再计算摄像机的外部参数的方法进行摄像机的标定。此方法计算比较直接，精度也较高。比较有代表性的双摄像机标定方法有：（1）Fusiello 方法此方法简单而且精确，且实现较为容易，仅用了22行Matlab代码。（2）杜歆的二步旋转法此方法不仅能够应用于双摄像机的标定，还可以应用于多摄

12、像机系统。2.1.4 图像预处理在采集图像时，由于两台摄像机所处的方位不同，因此不同视角接收到的光强稍有不同，各摄像机的增益、电平不能保证完全一致，以及图像采集卡不同通道之间的噪声也不完全相同等原因，都将导致在实际获得的立体图对中相同场景点像素灰度值存在着差异。这些差异值如果没有在立体匹配之前进行消除，会对立体匹配结果产生很不利的影响。因此，在进行立体匹配之前先要对图像对进行预处理。比较常用的预处理方法有边缘检测、边缘锐化、噪声平滑滤波、几何校正等处理。2.1.5 立体匹配立体匹配28就是在两幅图像的匹配基元之间建立对应关系的过程，它是双目体视中最关键、困难的一步。与普通的图像配准不同，立体像

13、对之间的差异是由摄像时观察点的不同引起的，而不是由其它如景物本身的变化、运动所引起的。三维重构经过匹配之后，得到了空间的离散点，点与点之间的情形是未知的，更不能构成平面或曲面，为了使物体真实地显示出来，需要对这些点进行剖分，赋予其深度信息，从而得到场景的三维重构模型。三维实体模型的表示方法主要有体单元法、八叉树、多面体、高度图、样条、多边形、分形几何及小波、Alpha形体、线框模型、三角形网格和符号表示等。在本论文的双目立体视觉重构研究中，三维数据是利用立体视觉匹配获得的离散数据，通常可以用深度图来表示，由于存在着遮挡现象，有时采集的数据并未提供景物的全部信息，这种数据的一个明显特征是该数据集

14、可以投影到和深度测量轴垂直的平面区域上，为了与真正的三维数据区分，这种数据称为 2.5D（2.5维）数据，通常几个 2.5D数据可以合成一个 3D数据集。三维实体模型的表示方法应该能同样方便地处理这两种数据类型，三角形网格能比较好地满足这种需求29。近来，三角形网格由于其表示大量离散数据的高效性越来越多地应用于机器人相关领域，如可以用来定义物体形状，计算机图形学、动画、数字化表面的逼近、地形信息系统、多视图集成、CAD逆模型建立。主要是计算机视觉方面和地形信息恢复方面的研究人员采用三角形网格逼近范围数据。计算机视觉方面的研究人员主要是利用三角形网格构造物体模型用于模式识别，他们采用无空洞和无畸

15、变的三角形网格逼近数字化曲面，这并不需要处理范围和曲率的不连续问题，因此可以用许多小的三角形去达到所需的精度。相反地形方面的研究人员关注三角形网格的表面特征，他们应用Delaunay三角形剖分来限制三角形网格的生成，形成三角形非均匀网格(Triangulated irregular net- works)，用来逼近任意区域的表面。生成的三角形网格应满足以下特征：(1)网格的几何性和拓扑性应该正确，三角形不能相交；(2)三角形网格的质量应尽可能地好，包括尽可能少的狭长三角形；(3)三角形网格的边界应位于模型的边界；(4)三角形网格不能与物体边界相交30-32。对空间点集进行三角网格剖分的方法一般

16、可以分为两种33，一种称为映射法，此方法是将空间中的离散点集向某个平面定向投影，然后对投影后的点集进行二维平面上的三角剖分，然后在剖分结果上加入第三维信息，最终完成空间点的剖分，但是此法只适用于定向投影无重叠的曲面，而对于某些定向投影有重叠的复杂曲面，则要对整个曲面进行分片剖分处理，然后再将剖分结果合并起来34。而且，在平面上达到最优的三角剖分时，其所对应的空间三角剖分未必也是最优的，出现“尖”三角形的几率很大，这样对重构曲面的质量将产生影响35。另外一种方法是对三维空间中的点集进行直接三角剖分，由于剖分过程按照某一特定规则进行，并且考虑到空间中点的相互位置关系，因而可以达到较好的剖分效果。待

17、添加的隐藏文字内容2致谢时光飞逝，三年的研究生求学生活即将结束，在我论文完成之际，谨向我的导师、同学和亲朋好友致以诚挚的感谢。参考文献1 Manjula Patel and Philip J. Willis. FACES: Facial Animation, Construction and Editing System. EUROGRAPH91，p33-45.2 晏洁.从一般人脸模型到特定人脸模型的修改.计算机工程与科学，1997,19(2):21-24.3 晏洁.显示具有真实感的三维合成人脸图形的两种方法.计算机工程，1998,24(1):49-52.4 晏洁，高文.基于一般人脸

18、模型修改的特定人脸合成技术.计算机辅助设计与图形学学报，1999,11(5):389-394.5 金辉，高文.人脸面部混合表情识别系统.计算机学报，2000,23(6):602-608.6 李保洲，何听等.基于特征点的特定人脸三维网格生成.计算机工程，1999,25(9):57-58.7 梅丽，鲍虎军，郑文庭，彭群生.基于实拍图象的人脸真实感重建.计算机学报，2000,23(9):998-1002.8 Making Faces.Httpa/9 I-Chen Lin,Cheng-Sheng Hung, Tzong一er Yang, Ming ouhyoung. A Speech Driven T

19、alking Head System Based on a Single Face Image，Proc. CAPTECH99, HongKong, p43-49.10 Tshukasa Noma, Kyoji Oishi,Hiroshi Futsuhara. Motion Generator Approach totranslating Human Motion from Video to Animation. Proc. CAPTECH99, HongKong, p50-58.附录：本课题为探索基于BP神经网络的唇裂手术效果预测的初步性研究，课题为选定的43例单侧唇裂手术前后唇部照片建立了数字化数据映射关系，在研究中我发现，上唇轮廓形态标准化数据的采集方式直接决定预测的准确性。作为初步研究，我选择了形态描述相对简单的单侧唇裂作为实验对象，研究结果令人满意。课题原拟建立多种手术方式的效果预测数学模型，但我发现BP神经网络结合图像预处理工作可以给每一病例提供数据对应关系，因此不同手术方式可以共用同一个数学模型进行预测运算，同样的道理，在此模型基础之上进行双侧唇裂手术效果预测研究，只需要重新设定上唇典型解剖标志点。

展开阅读全文