硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc

资源描述

《硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc》由会员分享，可在线阅读，更多相关《硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc（52页珍藏版）》请在三一办公上搜索。

1、摘要基于内容的视频检索技术是当前研究的热点问题。它主要是利用视觉特征，如颜色、纹理、形状和空间关系等特征来进行检索。这种检索方式突破了传统的基于文本检索技术的局限，直接对视频内容进行分析并抽取特征，然后利用这些内容特征建立索引并进行检索。本文首先详细地阐述了基于内容的视频检索技术的原理、关键技术和研究现状，并对基于纹理和形状检索的视频信息管理系统进行了分析。本文的重点是研究了视频图像中的纹理和形状特征的提取算法和检索方法，对灰度共生矩阵特征描述参量的物理意义进行了阐释，对基于形状特征提取的三种不同算法Canny、拉普拉斯和Sobel的检索效果进行了比较。本次实验在形状特征的提取算法中使用了检

2、索效果比较好的Canny算法，在纹理特征的提取算法中使用了灰度共生矩阵算法。本课题利用SQL Server和 Visual C+6.0编程实现了基于形状和纹理的视频特征的提取和检索信息管理系统，并对检索的查到率和查准率进行了统计。实验证明，该系统在检索一些具有较典型纹理和形状特征的图像时，具有较好的检索效果。关键词：形状；纹理；基于内容的视频检索；不变矩；灰度共生矩阵AbstractAt present, Content-Based Video Retrieval (CBVR) is becoming a hot research topic. It is a retrieval techno

3、logy based on the vision features, such as the color, texture and shape. This retrieval method breakthrough the limitation of traditional one based on text. It analyzes and extracts features of video content directly, then uses these features to establish a retrieve system as an index.Firstly, we de

4、scribe the principle, essential technology, and the present research situation of the content-based video retrieval system in detail, and then analyze the texture and shape based video retrieval system.We lay a strong emphasis on the research of texture and shape character pick-up algorithm and retr

5、ieval technology, explain the meaning of the parameters of Gray-Level Co-occurrence Matrix, and compare the result of three algorithm Canny, Laplacian and Sobel.We select Canny and Gray-Level Co-occurrence Matrix in this system. We implement a shape and texture based video information management sys

6、tem with SQL Server and Visual C+, evaluate the performance of it.The experiments show that the performance of the retrieval system based on texture and shape is relative good especially in searching the image with typical texture and shape character.Key words：Shape; Texture; Content-Based Video Ret

7、rieval; Moment Invariant; Gray-Level Co-occurrence Matrix第一章绪论11.1课题的研究背景11.2课题的研究内容及成果3第二章基于内容的视频检索技术421 基于内容的视频检索概述422 基于内容的视频检索的关键技术和研究现状52.2.1基于内容的视频检索的关键技术52.2.2 基于内容的视频检索技术研究现状7第三章纹理和形状特征的算法选择931纹理特征的选择93.1.1 纹理描述93.1.2 纹理特征123.1.2.1 Tamura 纹理特征123.1.2.2 自回归纹理模型143.1.2.3 灰度共生矩阵153.1.3 相似性度量

8、技术1732形状特征的选择183.2.1 图像边缘检测技术183.2.1.1边缘检测原理和分类183.2.1.2梯度算子边缘检测算法193.2.1.3 Canny边缘检测算法213.2.1.4几种边缘检测算法的比较223.2.2 形状特征描述233.2.2.1矩的概念及意义243.2.2.2Hu不变矩253.2.2.3边界不变矩253.2.2.4数据处理26第四章纹理形状检索在视频管理系统中的实现274. 1 纹理算法及各参数解读274. 2 形状算法比较及试验总结294. 3 视频管理系统的框架324. 4 应用程序界面与功能简介354.4.1 管理端应用程序功能实现354.4.2 客户端

9、应用程序功能实现374.5加纹理和形状特征后的视频检索实验结果394.5.1颜色单特征检索与颜色和纹理特征相结合的检索对比394.5.2颜色单特征检索与颜色和形状特征相结合的检索对比41第五章总结与展望455.1本文工作455.2本课题未来研究方向45第一章绪论1.1课题的研究背景随着信息时代的到来，海量的多媒体信息涌入了人们的工作和生活。如何在这些信息中提取自己需要的信息，逐渐成为一个人们无法回避的课题。互联网上出现的一些搜索引擎已经可以帮助人们以关键字的形式在浩瀚的网络信息海洋中浏览特定的信息，然而在检索多媒体信息，尤其是视频信息方面，国内外现有的原型系统依然还有待完善。自张宏江博士

10、于1993年第一次提出了“基于内容的图像查询和视频检索方法1”以来，前人已经作了大量的工作，大都按照1中所提出的基本方法展开研究。该方法只需分析视频的序列结构，按帧的内容变化程度区分视频的变化。这套多媒体检索和查询方法不但可以对视频内容进行实时分析，而且实现了视频与音频的快速集成这一重大突破，建立了现代视频检索和内容查询的基本框架，也为视频信息的管理系统的研究和开发奠定了良好的基础。在经历了十多年电脑和软件技术的飞速发展后，基于内容的多媒体信息管理的工作如今主要集中在识别和描述图像的颜色、纹理、形状和空间关系上，对于视频数据，还有视频分割、关键帧提取、场景变换探测以及故事情节重构问题。可见，它

11、已经发展成为一门涉及面很广的交叉学科，融合了图像处理、模式识别、计算机视觉、人工智能、人机交互、信息检索等技术。由于基于内容的检索有着广泛的需要，并有着较好的市场前景，为适应这种需要，国际标准化组织（ISO）在制定MPEG-1、MPEG-2及MPEG-4的标准基础上又推出了一种新的标准MPEG-7。 MPEG-7标准的正式名称为“多媒体内容描述接口”（Multimedia Content Description Interface）。MPEG-7标准对各种不同类型的多媒体信息进行标准化描述，并将该描述与所描述的内容相联系，以实现快速有效的搜索。MPEG-7既不同于基于波形和基于压缩的表示方式如

12、MPEG-1和MPEG-2，又不同于基于对象的表示方式如MPEG-4。MPEG-7目的是对视音频信息进行描述，而不考虑信息的存储、编码、传输、显示等技术。它涉及广泛的媒介类型：静止画面、图形、三位模型、音频、话音、视频以及它们的结合（如多媒体）。MPEG-7数据流可以是MPEG-4数据流、录像带、CD中的音乐、声音或语音、打印图像和网络上的交互式多媒体装置。它的重点在于提供一种新的视音频描述方法，这样它的处理对象不再是纯文本，但除了视音频信息还要包括文本内容，因而支持其它标准组织提出的纯文本方法。所以需要为视音频内容的描述和文本内容的描述提供了合适的、必要的接口。MPEG-7专家组的工作计划是

13、，与1998年10月开始对外征集提议，1999年12月提出了工作草案，2000年10月提出委员会草案，2001年2月提出最终委员会草案，2001年7月提出国际标准草案，2001年9月提出正式的国际标准。随着MPEG-7标准制订的完成，多媒体信息处理研究的前沿已从编码（MPEG-1，MPEG-2，MPEG-4）转移到自动识别。目前，基于内容的图像/视频检索研究已成为多媒体领域的热点，国际上越来越多的专家和研究机构投入到这项工作中来。例如IBM的QBIC方案2，哥伦比亚大学开发的VisualSeek和MetaSeek3以及MIT媒体实验室采用交互学习的思想开发出PHOTOBOOK图像检索系统4等等

14、。图1.1提供了一个抽象的MPEG7流程,将会有助于解释MPEG7所关注的主要问题。这一流程包括了特征提取（分析）、内容描述、搜索引擎（应用程序）三个部分,特征提取和搜索引擎并不包括在标准之中，其原因一是为了促使各公司和研究所间的竞争；二是为以后各种新技术的发展留下余地。MPEG7和其它MPEG标准一样遵循同一原则：即它只规定最后的数据格式，而不管采用何种方法获得这些数据格式。MPEG7只规定了信息内容描述格式，而不规定如何从原始的多媒体资料中提取内容描述的方法。如何有效利用MPEG-7标准所综合规定的描述符及描述方案进行图像/视频的检索，目前还很不成熟，这是一个值得研究的问题。用户媒体数据

15、特征提取内容描述搜索引擎MPEG-7的范围图1.1 MPEG-7的范围1.2课题的研究内容及成果本文所做研究主要涉及了视频信息管理和基于内容图像检索两大块。前人已经按照MPEG-7规定的标准描述接口实现了一个具有初步检索功能的视频信息管理系统，客户可以通过文本描述和颜色直方图进行视频检索。本文要做的就是通过添加纹理和形状特征检索使得该系统功能更加强大。为了达到这个目的，笔者首先对现有的视频管理系统进行了深入的了解，然后分别对纹理和形状特征提取和检索算法进行研究、分析和比较，选定了适合我们现有视频库的算法，并把算法进行优化，最后将优化的算法加入到视频信息管理系统中，将完善后的系统检索效果与加入纹

16、理形状检索之前相比较，得出最后的实验结论。为了更好地进行实验，我们更新了原有的视频数据库，将原有的300多段MPEG-1和MPEG-2视频扩充到500段，其中包括新闻、广告、体育、戏曲、影视、音乐、风景等七大类。库中的视频有的是数字Beta播出带上载而来，有的则是通过电视采集卡采集，它们的视频质量参差不齐，因此针对这个视频库得出的实验结果适用面将更加广。本课题最终将一个融入了纹理和形状特征检索的比较完善的视频管理系统呈现在大家面前，并通过大量的实验数据验证了它的检索性能更优于原有的系统。第二章基于内容的视频检索技术21 基于内容的视频检索概述基于内容的视频检索（Content-Based V

17、isual Retrieval，简称CBVR）就是从多媒体数据中提取出特定的信息线索（如颜色、纹理、形状，视频中的镜头、场景、镜头的运动，声音的音色、音调、响度等），然后根据这些线索从大量存储在视频数据库中的视频源中进行查找，从而检索出具有相似特征的视频数据。基于内容的视频检索的应用使人们可以方便地访问数字图书馆、进行视频点播（VOD）、远程教学和网上购物等。因此，基于内容的视频检索具有极大的实用价值和广阔的商业前景。基于内容的视频检索提供了这样一种算法：在没有人工参与的情况下，自动提取并描述视频的特征和内容。这是一门交叉学科，以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础，从

18、认知科学、人工智能、数据库管理系统以及人机交互、信息检索等领域，引入新的媒体数据表示和数据模型，从而设计出可靠的系统。它的系统流程如图2.1。目前，基于内容的视频检索研究，除了识别和描述图像的颜色、纹理、形状和空间关系外，主要的研究集中在视频分割、特征提取和描述、关键帧提取和聚类以及结构分析等方面。基于内容的检索有如下特点：1、直接从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限；直接对图像、视频、音频进行分析，抽取特征，并利用这些内容特征建立索引进行检索。2、基于内容的检索是一种近似匹配，在检索的过程中，它采用相似性匹配的方法逐步求精来获得查询的结果，即查询是一个

19、迭代过程，不断减小查询结果的范围，直到定位到目标。这一点与常规数据库检索的精确匹配方法有明显不同。3、特种抽取和索引建立可由计算机自动实现，避免了人工描述的主观性，也大大减少了工作量。视频视频分割关键帧提取运动分析特征提取视频片断摘要视频片断注释视频片断数据库离线在线用户视频浏览视频片断分割关键帧提取运动分析特征提取视频片断查询图2.1基于内容的视频检索系统结构图对视频流建立层次表示后，就可以对视频流进行快速查询和检索，从用户角度看，视频的查询类型可以有：1 用户希望找到曾经看过的某个视频片断；2 用户希望寻找以前从未看过的某个视频片断；3 用户只有一些含混不清的想法。理想情况下，视频

20、数据库系统应该提供上述三种不同类型的查询。为实现上述目标，必须在查询和快速搜索过程中充分利用有关视频的各种表示信息。22 基于内容的视频检索的关键技术和研究现状2.2.1基于内容的视频检索的关键技术基于内容的视频检索技术是新兴的研究领域，主要目的是从视频的数据内部查找线索以供查询，其中的许多关键技术目前仍未很好的解决。（1）镜头边界检测镜头分割是基于内容的视频检索系统的第一步，能否准确的检测出镜头边界，直接关系到以后的处理，所以镜头分割有必要进行重点的研究。基于压缩域的镜头转换算法已经被提出来，但是，许多算法需要进行阈值的设定。镜头分割的通常算法中阈值的选取是一难点，由于不同视频具有不同的特

21、征值，若用固定的阈值去分割成段不具有智能性，必然会造成漏检、多检或误检，从而造成使用的局限性。因此需要自适应的阈值选取法，通过对一段视频自动选择适合该视频自身特征值的阈值，来分割视频片断，得到最佳的镜头边界转换帧，从而达到很高的精确检测度。目前，自动选取阈值来实现镜头边界转换的算法非常少还不成熟，仍在探索阶段。（2）关键帧提取关键帧是用于描述一个镜头的代表图像帧，它反映一个镜头的主要内容。对于一段较长的视频，镜头非常多，浏览起来不方便。而我们将视频流分割成镜头，需要在其中找出一幅或几幅关键帧来代表此镜头的内容。关键帧的选取一方面要能够反映镜头的主要内容，因此其描述应尽可能的准确；另一方面为便

22、于管理，数据量应尽量的小，且计算不宜复杂。（3）镜头聚类镜头聚类是研究镜头间的关系，把内容相近的镜头组合起来，形成场景关键帧。根据聚类的目的的不同，视频聚类可分为两类：一类是把同属于一个场景的镜头进行聚类，以形成层次型的视频结构场景，此种聚类不但要考虑镜头内容的相似性，还要考虑时间上的连续性；另一类是对视频进行分类，只考虑特征相似性，而不考虑时间的连续性。根据镜头的重复程度，分为对话型、动作型和其他类型3类。（4）特征提取视频具有各种视觉和听觉特征以及其他时间和空间关系，对于同一种特征，有不同的描述方法，比如颜色特征，有直方图、颜色距、主颜色等多种特征描述法。综合利用多种特征，并调用合适的

23、特征描述来支持查询，按照用户的查询要求合并各种特征的检索结果，来达到较高的检索率，也是一个研究难点。（5）视频数据库模型建立视频数据库模型，可以为视频数据库和视频信息内容的存取提供基础。视频包含的信息量大，内涵比较丰富，但结构比较复杂特殊，数据量也比较大，所以必须把现有的视频信息重新进行组织，使之成为便于搜索、易于交互的数据。（6）智能化的人机界面用户的查询接口应该是直观易用的，系统除了提供示例和描绘查询基本接口之外，其用户查询接口应提供丰富的交互能力，使用户在查询中表达对媒体语义的感知，调整查询参数及组合，最终获得满意的查询结果。2.2.2 基于内容的视频检索技术研究现状近年来，图像、视

24、频和音频等多媒体信息检索技术越来越受到重视。最著名的研究项目当数94年到98年NSF、APRA和NASA资助的数字图书馆项目（Digital Library），它的主要研究目标是搜集、存储和组织数字信息的新技术，并通过网络实现信息的搜索、检索和处理。Carnegie Mellon University 是比较早致力于此项目的研究者之一，1996年他们开发出Informedia 数字视频库系统并且此系统一直处于不断成熟完善。目前，Informedia系统采用了综合的语音、语言、图像理解技术，对视频进行转录、分割和检索，并开发了“视频段”的快速检索技术。它可以满足任意主题的查询，可提供对电视/广播

25、新闻和纪录片的全内容的搜索和查询，还可对在线档案提供日常内容的提取、分析和存储的全自动的智能过程，而且已有超过2000小时的新闻节目档案。Cue Video系统是个基于Web的多特征检索的多媒体数据库系统，它支持多媒体内容的离线浏览和检索，以及支持对不同格式的多媒体内容的多种检索和浏览模式。Cue Video系统用音频和视觉特征对事件建立索引，这个离线的自动索引过程包括语音识别、语音分割、语音检索、视频分割、视频摘要和基于图像内容的检索，检索的结果产生多特征的检索数据库。哥伦比亚大学研究的VideoQ系统对运动、形状、颜色、纹理特征建立索引，对检索的特征都有相应的特征数据库。视频镜头的数据库是

26、以MPEG压缩视频流的方式存储的，通过对视频片断进行分类，并赋以一些标次（如户内、户外、有无人脸等），建立视频片段的检索。ViBE是组织具有大量视频序列的视频数据库的可浏览和可检索的范例系统。利用从压缩视频流的DC序列中提取出来的特征数据，把视频序列分割成镜头，每个视频镜头有关键帧的分级树结构表示，而且镜头自动地分类成预先定义的某个假语义类。普适的多媒体内容访问系统UMA系统实现了以视频内容为中心的普适多媒体内容访问，该系统由一个基于MPEG7标准的视频分析平台和一个内容自适应的视频流化服务器组成。该系统将视频内容分析、内容描述和视频压缩、传输有机结合起来，能够为用户提供灵活的个性化服务。QB

27、IC系统 QBIC(Query By Image Content)是由IBM Almaden研究中心开发的，是“基于内容”检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息，对大型图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。TVFI系统（Tsinghua Video Find It），是清华大学开发的视频节目管理系统。这个系统可以提供如下几个功能：视频数据入库、基于内容的浏览、检索等。TVFI提供多种模式访问视频数据，包括基于关键字的查询、基于示例的查询、按视频结构进行浏览、

28、以及按用户自己预先定义的类别进行浏览。第三章纹理和形状特征的算法选择MPEG-7标准对多媒体内容描述接口的各个方面已经做了非常详尽合理的规定，本文严格按照该标准进行设计，以下将针对视频管理系统中纹理和形状特征检索展开论述。31纹理特征的选择纹理的概念最初起源于人类的触觉“对一个事物(或物体)表面的触感”，这是人类身体肌肤的感觉。在此基础上，将人类视觉与此关联起来，人对纹理的理解就不再局限于身体接触，而是成为了一个重要的视觉信息5。在我们周围的环境，纹理的分布十分广泛，也十分复杂。对于视觉上的纹理理解研究已经超过了三十年，发展了包括随机场模型和多分辨率技术等，对纹理进行描述和分析的各种技术，在

29、纹理分割、纹理分类、纹理合成等多个方面都进行了有关的研究工作6。尽管对纹理分析的研究历史比较长，但是真正将其实际应用到视频图像数据的处理还只是在近若干年才开始的。作为一个重要的、新兴的应用方向，针对大规模图像和视频信息进行基于内容的图像检索是纹理分析的一个重要贡献。应用纹理作为视觉特征，人们可以在图像库搜索到相似的图案(pattern)。例如，要查询“所有云层覆盖率低于百分之二十的地球卫星图像”或者“从四川省的航拍图中寻找有竹林覆盖区域的图像”，此类检索要求都需要通过纹理特征的提取和比较来完成。3.1.1 纹理描述与另一个基本视觉特征颜色不同，纹理体现的是一个区域的属性，而不仅仅是一个点。对单

30、独的点来说，是不存在纹理属性的。虽然每个人都能够辨识纹理，但是很难给纹理下一个准确的定义，直到目前为止，还没有一个被所有研究者认可的精确纹理定义。一般认为类似于布纹、草地、砖砌墙面等具有重复性结构的图像叫纹理图像。纹理图像在局部区域内可能呈不规则性，但整体上则表现出某种规律性，其灰度分布往往表现出某种周期性。纹理图像所表现出来的这种特有的性质就叫纹理。图像或物体的纹理或纹理特征反映了图像或物体本身的属性。在图像处理中纹理有着广泛笼统的含义，Haralick. R.M认为纹理是所有物体表面的一种内在的属性，它带有物体表面重要的结构信息。Pickett认为:“纹理是用来描述二维变化阵列的，阵列元素

31、和间隔规律可以任意安排，只要保持一定的特征重复性”。Hawkins对纹理有更详细的描述:“纹理的标志有三项要素:某种局部的序列性在比该序列更大的区域内不断重复。序列是山基本部分非随机排列组成的。各部分大致都是均匀的统一体，纹理区域内任何地方都有大致相同的结构尺寸。”因此，可以这么说，纹理是对图像的象素灰度级在空间上的分布模式的描述，反映物体的质地，如粗糙度、光滑性、颗粒度、随机性和规范性等7。纹理特征就是从物体图像中计算出一个值，对物体灰度级变化的特征进行量化。通常，纹理与物体的位置、走向、尺寸、形状有关，但与平均灰度级，即亮度，是无关的。图3.1列出了一些比较典型的纹理图像，而图3.2则列出

32、了一个包含多个纹理区域的图像。图3.1一些典型的纹理图像图3.2包含多个纹理区域的图像纹理的描述技术大体上可以分为三大类:统计法、结构法和频谱法8 9。统计方法是最早的纹理描述方法之一。它又分为空间域方法和变换域方法，包括自相关函数、纹理边缘、结构元素、灰度的空间共生概率(spatial gray-tone co-occurrence probabilities)、灰度行程和自回归模型。统计方法将纹理描述为光滑、粗糙、粒状等特征。基于直方图的纹理度量是典型的统计方法。由于在灰度直方图中各个像素的灰度是独立进行处理的，不具有像素之间相对位置的信息而受到限制。因此，研究图像的两个象素组合中灰度配

33、置的情况时，不仅应考虑强度分配，还应考虑具有相同强度值或者近似强度值的象素位置，才能更好地表现纹理特征。结构方法就是假定纹理模式由纹理基元的空间排列组成，使用基元和特定的排列规则来描述纹理。结构法研究的主要内容便是基元及其空间关系。基元一般定义为具有某种属性而彼此相连的单元的集合，属性包括灰度、连同区域的形状、局部一致性等。空间关系包括基元的相邻性、在一定角度范围内的最近距离等等。根据基元间的空间联系，纹理可以分为弱纹理或强纹理。进一步细分，可以根据基元的空间共生频率来划分，也可以根据单位面积内的边缘数来区别。基元也可以定义为灰度行程。频谱方法的典型是对图像进行傅立叶变换，从傅立叶频谱成分的分

34、布中来求得纹理特征10。频谱分析技术是用区域自相关函数或傅立叶变换域的能量分布来检测纹理的周期，包括计算峰值处的面积、峰值处的相位、峰值与原点的距离平方、两个峰值间的相角差等手段。3.1.2 纹理特征就其广义而言，纹理特征就是图像局部性质(灰度分布函数)的统计。一个纹理图像.IJ以看成一组独立的同分布随机变量W(j, k)经一个空间算子O()作用而生成的结果F(j, k)。其中确定W的分布形式和O的结构后，可用观测值F对W的各参数以及O的系数进行估计，并利用这些数字特征构造图像的纹理特征。于是，问题就归结为经典的参数估计理论和诸如回归分析、规划论之类的模型研究。从这一观点可构造包括Markov

35、随机域模型、Julesz模型、自回归模型和线性规划模型等。下面给出几个目前在图像检索中常用的经典纹理特征:3.1.2.1 Tamura 纹理特征基于人类对纹理的视觉感知的心理学的研究，Tamura等人提出了纹理特征的表达11。Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性，分别是粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(line likeness)、规整度(regularity)和粗略度(roughness)。其中，前三个分量对于图像检索尤其重要。接下来我们着重讨论粗糙度、对比度和方向度三种特征的定义和数学表

36、达。（1）粗糙度：粗糙度的计算可以分为以下几个步骤进行。首先，计算图像中大小为2k x 2k个象素的活动窗口中象素的平均强度值，即有（3.1）其中k=0，1，2， 5。而是位于的像素强度值。然后，对于每个像素分别计算它在水平和竖直方向上互不重叠的窗口之间的平均强度差：（3.2）其中对于每个像素能使E值达到最大（无论水平还是竖直方向）的k值用来设置最佳尺寸。最后，粗糙度可以通过计算整幅图像中的平均值来得到，表达式为：（3.3）式（3.3）中的m和n分别为水平和垂直方向的象素总数。表示粗糙度特征的另一种改进形式是采用直方图来描述的分布，而不是像上述方法一样简单地计算的平均值。这种

37、改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域，因此对图像检索更为有利。（2）对比度：对比度是通过对象素强度分布情况的统计得到的。确切地说，它是通过来定义的，其中是四次矩而是方差。对比度是通过如下公式衡量的: （3.4）（3）方向度：方向度的计算需要首先计算每个象素处的梯度向量。该向量的模和方向分别定义为：（3.5）其中和分别通过图像卷积下列两个3x3操作符所得的水平和垂直方向上的变化量。（3.6）当所有像素的梯度向量都被计算出来后，一个直方图被构造用来表达的值。该直方图首先对的值域范围进行离散化，然后统计了每个组(bin)中相应的大于给定阈值的像素数量。这个直方图对于

38、具有明显方向性的图像会表现出峰值，对于无明显方向的图像则表现得比较平坦。最后，图像总体的方向性可以通过计算直方图中峰值的尖锐程度获得，表示如下: （3.7）式（3.8）中的P代表直方图的峰值，为直方图中所有的峰值。对于某个峰值P，代表该峰值所包含的所有的bin，而是具有最高值的bin。3.1.2.2 自回归纹理模型最近二十年来，有大量的研究集中在应用随机场模型表达纹理特征。在这一方面，Markov随机场(Markov random field ，MRF)模型取得了很大的成功12。自回归纹理模型(simultaneous auto-regressive，SAR)就是MRF模型的一种应用实例。

39、在SAR模型中，每个像素的强度被描述成随机变量，可以通过与其相邻的像素来描述。如果s代表某个像素，则其强度值g(s)可以表达为它的相邻像素强度值的线性叠加与噪音项之和，如下所示: (3.8) 其中是基准偏差，由整幅图像的平均强度值所决定，D表示了s的相邻像素集，是一系列模型参数，用来表示不同相邻位置上的像素的权值。是均值为0而方差为的高斯随机变量。通过上式可以用回归法计算参数和标准方差的值，它们反映了图像的各种纹理特征。例如，较高的表示图像具有很高的精细度，或较低的粗糙度。又比如，如果S正上方和正下方的很高，表明图像具有垂直的方向性。最小误差法(least square error)和极大似

40、然估计(maximumlikelihood estimation)可以用来计算模型中的参数。此外，SAR的一种变种称为旋转无关的自回归纹理特征(rotation-invariant SAR或RISAR )，具有与图像的旋转无关的特点。定义合适的SAR模型需要确定相邻像素集合的范围。然而，固定大小的相邻像素集合范围无法很好地表达各种纹理特征。为此，有人提出过多维度的自回归纹理模型(multi-resolution SAR或 MRSAR )，能够在多个不同的相邻像素集合范围下计算纹理特征。3.1.2.3 灰度共生矩阵灰度共生矩阵方法13，建立在估计图像的二阶组合条件概率密度函数基础上。这个方法有

41、较长的研究历史，是当前人们公认的一种重要的纹理分析方法。假定待分析的纹理图像为一矩阵图像，水平和垂自方向上各有和个像元，将每个像元上出现的灰度量化为层。设为水平空间域，为垂自空间域，为量化灰度层集。集为行列编序的图像元集，则图像函数f可表示为一个函数指定每一个像元具有个灰度层中的一个值G，即。在纹理图像中，在某个方向上相隔一定距离的一对像元灰度出现的统计规律，应当能具体反应这个图像的纹理特征。可以用一对像元的灰度出现矩阵来描述这个统计规律，进而由共生矩阵计算出一些参数定量描述这个纹理的特性。灰度共生矩阵是描述在方向上，相隔d像元距离的一对象元分别具有灰度层i和j出现的概率，其元素可记为。当和d

42、选定时，也可简单记为。显然灰度共生矩阵是一个对称矩阵，其阶数由图像中的灰度层数来决定。这个矩阵是距离和方向的函数，在规定的计算窗口或图像区域内统计符合条件的像元对数。对一个3x3的计算窗口，若其行列标号如下：（3.9）如考虑方向、距离为1的像元对集，则有：（3.10）在给定方向和距离时，实际常通过计算共生灰度i和j像元对数来表示。例如距离为d，方向为和的公式分别为：（3.11）和（3.12）其中：k，m和l，n分别在所选计算窗口中变动，#表示使大括号成立的像元对数。同理，可以确定其他方向上的的计算公式。由灰度层共生矩阵可以计算出一组参数，用来定量描述纹理特性。有人总结可计算14种参数，

43、其中下面五种是比较常用的参数：（1）能量：（3.13）（2）熵：（3.14）（3）惯性矩：（3.15）（4）局部平稳性：（3.16）（5）相关：（3.17）其中，如何选择距离d和方向，以及如何用共生矩阵的参数作纹理分析，长期以来一直是研究者们关心的课题。利用纹理特征进行图像检索，我们可以构造四个方向的共生矩阵M（1，0），M（0，1），M（1，1），M（1，-1），分别计算各矩阵的前4个特征量，最后以各特征量的均值和标准差作为纹理特征向量中的各个分量。由于以上各个分量的物理意义和取值范围不同，可以利用高斯法对它们进行内部归一化处理。3.1.3 相似性度量技术在基于纹理图像

44、检索的研究初期，多数研究人员将基于纹理的图像检索研究重点放在有效的提取纹理特征方面，纹理特征相似度的研究却相对落后14。实际上，特征提取和特征相似性度量都是图像检索的关键技术。有效、准确的纹理特征提取，只有通过有效、准确的特征相似度比较，才能发挥其优势，最终获得满意的检索结果，二者相辅相成、缺一不可。在基于内容的图像检索中，通过计算查询图像或例子图像与图像库中的图像之间在视觉特征上的相似度进行匹配搜索。因此，一个合适的特征相似度计算方法，或者相似性度量方法，对检索的效果会产生很大的影响15。以下是比较常见的两种度量方法。（1） L1和L2距离：如果图像特征的各分量之间是正交无关的，并且各维度的

45、重要程度相同，两个特征向量A和B之间距离可以用L1距离或者L2距离来度量。其中L1距离，即绝对值距离(又称Manhattan度量或网格度量，属于一阶Minkowski度量)，可以表示为: （3.18）其中N是特征向量的维数。类似地，L2距离(也称为欧拉距离)可以表示为: （3.19）（2）马氏距离：如果特征向量的各个分量间具有相关性或者具有不同的权重，可以采用马氏距离(Mahalanobis distance)来计算特征之间的相似度。马氏距离的数学表达为: （3.20）其中C是特征向量的协方差矩阵。该距离标准常用来计算SAR特征的相似度。当特征向量的各分量间没有相关性，马氏距离还可以进一步简化，因为这时只需要计算每个分量的方差。简化后的马氏距离如下所示: （3.21）使用马氏距离

展开阅读全文