信息管理和信息系统第4章.ppt

资源描述

《信息管理和信息系统第4章.ppt》由会员分享，可在线阅读，更多相关《信息管理和信息系统第4章.ppt（73页珍藏版）》请在三一办公上搜索。

1、第四章多媒体信息存储与检索,信息存储与检索,本章目录,第一节引言第二节多媒体技术概述第三节多媒体数据模型第四节多媒体数据压缩技术第五节基于内容的多媒体检索技术,2,信息存储与检索,第一节引言,随着信息时代的到来，信息多元化程度加深，人们不再满足于单一的文本交流。多媒体技术的出现，使得信息的表达方式更生动、更容易被人们所理解，因此迅速成为信息存在的主要方式。,3,信息存储与检索,第一节引言,传统的信息检索系统只处理文本和非结构化的数据，信息是以离散的形式(如字符、数字等)存储在关系数据库中，并以结构化查询语言(SQL)或超链接来进行查询检索；而多媒体数据则是连续的、形式多样的、海

2、量的信息，并且多媒体数据(如图像、视频)在不同的人眼中可能有不同的理解，要把所有不同的解释都用关键字(文本或数字)来表示显然是不可能的。另外，关键字不能有效地表示视频数据的时序特征，也不支持语义关系，因此需要开发出一种新的检索技术来检索多媒体数据。为了适应这一需求,人们提出了基于内容的多媒体信息检索思想。,4,信息存储与检索,第一节引言,为了适应这一需求，人们提出了基于内容的多媒体信息检索思想。基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。他的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。目前，基于内容的多媒体信息检索的主要工

3、作集中在识别和描述图像的颜色、纹理、形状和空间关系上，对于视频数据，还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。由此可见，这是一门涉及面很广的交叉学科，需要以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础，还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型，从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。,5,信息存储与检索,第二节多媒体技术概述,4.2.3 多媒体技术的主要研究内容,3,6,信息存储与检索,4.2.1 多媒体的概念,（一）媒体的含义“媒体”一词的含义很多，但在计算机领域中主要有两层含义：

4、一是指信息的物理载体，如磁盘、磁带、光盘等；另一是指信息的表现或传播形式，如声音、文字、图像、动画等。根据国际电信联盟（ITU：International Telecommunication Union）电信标准部推出的ITU-TI.374建议的定义，可以将媒体划分为如下五类：（1）感觉媒体（2）表示媒体（3）表现媒体（4）存储媒体（5）传输媒体,7,信息存储与检索,4.2.1 多媒体的概念,（一）媒体的含义(1)感觉媒体：指直接作用于人的感觉器官，使人产生直接感觉的媒体。如引起听觉反应的声音，引起视觉反应的图像等。(2)表示媒体：指传输感觉媒体的中介媒体，即用于数据交换的编码。如图像编码（J

5、PEG、MPEG等）、文本编码（ASCII码、GB2312等）和声音编码等。(3)表现媒体）：指进行信息输入和输出的媒体。如键盘、鼠标、扫描仪、话筒、摄像机等为输入媒体；显示器、打印机、喇叭等为输出媒体。(4)存储媒体：指用于存储表示媒体的物理介质。如硬盘、软盘、磁盘、光盘、ROM及RAM等。(5)传输媒体：指传输表示媒体的物理介质。如电缆、光缆等。,8,信息存储与检索,4.2.1 多媒体的概念,（二）多媒体的含义在人们的日常谈论中，多媒体的“媒体”常常泛指“感觉媒体”，但多媒体技术所处理的“媒体”主要是指“表示媒体”，而“多”则表示信息表示媒体的多样化。现在的多媒体技术往往与计算机联系在一起

6、，是指利用计算机技术把各种信息媒体综合一体化，使它们建立起逻辑联系，并进行加工处理的技术。所谓加工处理主要是指对这些媒体的录入、对信息进行压缩和解压缩、存储、显示、传输等。因此，多媒体不是“混媒体”。尽管包含的媒体元素很多，但并非机械地将他们拼凑在一起。,9,信息存储与检索,4.2.2 多媒体技术的关键特征,多媒体技术主要体现出综合处理多种媒体信息的特点，包括信息载体的：（1）多样性（2）集成性（3）交互性（4）实时性（5）互补性这5个特性缺一不可。其中，多样性、实时性和互补性是基础，集成性是手段、方式或形式，交互性是核心或灵魂。,10,信息存储与检索,4.2.2 多媒体技术的关键特征,1.

7、信息载体多样性指文字、文本、图形、图像、视频、语音等多种媒体信息于一体。2.交互性多媒体的第二个关键特性是交互性。所谓交互就是通过各种媒体信息,使参与的各方(不论是发送方还是接收方)都可以进行编辑、控制和传递。交互性将向用户提供更加有效的控制和使用信息的手段和方法,同时也为应用开辟了更加广阔的领域。交互可做到自由地控制和干预信息的处理,增加对信息的注意力和理解,延长信息的保留时间。,11,信息存储与检索,4.2.2 多媒体技术的关键特征,3.互补性每一种媒体都有其自身规律,各种媒体之间必须有机地配合才能协调一致。多种媒体之间的协调以及时间、空间的协调是多媒体的关键技术之一。4.实时性所谓实时就

8、是在人的感官系统允许的情况下,进行多媒体交互,就好像面对面(Face To Face)一样,图像和声音都是连续的。实时多媒体分布系统是把计算机的交互性、通信的分布性和电视的真实性有机地结合在一起。5.集成性多媒体技术是多种媒体的有机集成。它集文字、文本、图形、图像、视频、语音等多种媒体信息于一体。,12,信息存储与检索,4.2.3 多媒体技术的主要研究内容,多媒体技术的研究内容包括：多媒体数据处理技术，如多媒体数据模型、多媒体数据压缩、多媒体数据存储与检索技术等；多媒体数据传输技术，如多媒体网络技术、多媒体视频点播技术等；多媒体专用设备技术，如多媒体专用芯片技术、多媒体专用输入/输出技术等。本

9、章内容将只对多媒体数据处理技术作出阐述。,13,信息存储与检索,第三节多媒体数据模型,4.3.3 音频的数据模型,3,14,信息存储与检索,4.3.1 多媒体数据模型概述,（一）多媒体数据模型的概念数据模型是数据库系统中的术语,用来表示实体以及实体间的联系。数据库的数据模型由三部分组成：数据库的数据结构、数据库操作集合和完整性规则集合。其中，最重要的部分是反映能够数据库逻辑结构的数据结构，因为数据模型的作用就是能清晰地表示数据库的逻辑结构，以便使用户更有效地存取数据。最著名的数据模型有层次模型、网状模型和关系模型。,15,信息存储与检索,4.3.1 多媒体数据模型概述,（一）多媒体数据模型的

10、概念多媒体数据模型的基本任务是：能够表示各种不同媒体数据的构造及其属性特征；同时能够指出不同媒体数据之间的相互关系，包括相互之间的信息语义关系，以及媒体特性之间的关系，主要是时空特性关系。在多媒体信息检索系统的框架下，如何进行多媒体数据模型的构建工作呢？注意两方面的问题：第一，数据模型应该根据用户能够指定的、存储于系统的数据来定义。数据模型应该能够把常规数据类型和多媒体类型进行整合，而且应该提供对这种数据进行分析、检索和查询的方法。第二，系统应该为多媒体数据的内部表示提供一个模型，这个模型的定义对于有效的查询处理来说是至关重要的。,16,信息存储与检索,4.3.1 多媒体数据模型概述,（二）多

11、媒体数据模型的体系结构一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。,17,信息存储与检索,4.3.1 多媒体数据模型概述,（三）多媒体数据模型的种类多媒体数据模型的分类没有定则。基于不同结构不同层次，可以将其分为超媒体模型、时基媒体模型、基于媒体内容模型、文献模型和信息元模型等。基于模型的性质，又可以将其分为表现模型和同步模型。基于不同的建模方法，则可将其分为NF2数据模型、面向对象数据模型和对象-关系模型等。,18,信息存储与检索,4.3.2 图像的

12、数据模型,图像可模型化为图像和图像对象，图像可以包含许多图像对象，并对图像对象的解释是领域相关的。图像数据模型可以分为三个层次：语义表现层、逻辑表现层和物理表现层。1、物理表现层物理表现层提供原始图像数据，即图像的物理表示及物理特性。物理特性和领域无关，可直接从物理表现中抽取或预先抽取存于计算机中。图像的物理层特征主要包括颜色、纹理、轮廓等视觉信息。,19,信息存储与检索,4.3.2 图像的数据模型,2、逻辑表现层逻辑表现层包括图像逻辑属性和图像对象的逻辑属性。用于描述一个集成实体图像性质的属性称为图像逻辑属性，如一副图像中包含的对象数，对象间的空间关系等。用于描述图像中的对象集合性质的属

13、性称为图像对象逻辑属性，如每个对象的最小边界矩形，对象的空间位置等。3、语义表现层图像的语义表现层是用于描述图像所表明的高层领域的概念，通常图像的主题、作者的创作意图，个人的印象等，具有很大的不确定性。语义特征主要通过用户从图像本身进行认知，需要人工捕捉，主观感受因素较强，常常会因人而异。对于图像语义特征的提取和描述，可以加工成知识库，提供智能检索服务。,20,信息存储与检索,4.3.2 图像的数据模型,21,信息存储与检索,4.3.3 音频的数据模型,音频信息也可以采用文本处理的方法，选择主题词、关键词对音频内容加以人工标引，揭示音频的主题内容及特征，例如对于一首歌曲，歌词就是它的内容描述

14、。但这些仍属于传统文本处理的范畴，它与基于音频内容的特征处理完全不同。所谓基于音频内容的特征处理方法，就是针对音频信息的物理样本、基本属性等进行分析处理，通过数学与统计学方法来获得音频信息物理、听觉、语义等不同层次（或级别）上的特征，并揭示特征之间的相互关系。下面就介绍几个通过短时处理技术得到的比较常用而且重要的特征:（一）音调（二）响度（三）过零率（四）亮度（五）带宽,22,信息存储与检索,4.3.4 视频的数据模型,视频就是一组连续的静态图像按照时间的顺序连续更换形成的动画、影像等。简单地说，视频数据是连续的图像序列。在对视频进行分类和检索之前，必须了解视频的数据结构。视频数据可用故事单元

15、、场景、镜头、帧来描述。对于视频文件来说，我们也可以利用与处理图像和音频相同的方法，进行视频外部特征信息的文本著录，以实现简单的初级检索。然而，与图像、音频一样，只有对基于视频内容本身进行处理才能获得更有效的检索。,23,信息存储与检索,4.3.4 视频的数据模型,24,信息存储与检索,第四节多媒体数据压缩技术,4.4.3 音频压缩的标准,3,25,信息存储与检索,4.4.1 数据压缩技术概述,（一）多媒体数据压缩的必要性和可能性数据压缩就是以一定的质量损失为容限，按照某种方法从给定的信息源中推出简化的数据表述，它通过减少信号空间的量，使信号能安排到给定的信息集或样本集中。一般说来，多媒体

16、数据中存在的数据冗余类型主要有以下几种：（1）空间冗余（2）时间冗余（3）结构冗余（4）视觉冗余（5）听觉冗余（6）知识冗余,26,信息存储与检索,4.4.1 数据压缩技术概述,（一）多媒体数据压缩的必要性和可能性一、空间冗余是静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性，但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如：图像中有一片连续的区域，其像素为相同的颜色，空间冗余产生。二、时间冗余是序列图像中经常包含的冗余。一组连续的画面之间往往存在着时间和空间的相关性，但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。

17、例如：房间里的两个人在聊天，在这个聊天的过程中，背景（房间和家具）一直是相同的，同时也没有移动，而且是同样的两个人在聊天，只有动作和位置的变化。,27,信息存储与检索,4.4.1 数据压缩技术概述,（一）多媒体数据压缩的必要性和可能性三、结构冗余是在某些场景中，存在着明显的图像分布模式，这种分布模式称作结构。图像中重复出现或相近的纹理结构，结构可以通过特定的过程来生成。例如：方格状的地板，蜂窝，砖墙，草席等图结构上存在冗余。已知分布模式，可以通过某一过程生成图像。四、视觉冗余是人类的视觉系统对图像场的敏感性是非均匀和非线性的。对亮度变化敏感，而对色度的变化相对不敏感；在高亮度区，人眼对亮度变化

18、敏感度下降；对物体边缘敏感，内部区域相对不敏感；对整体结构敏感，而对内部细节相对不敏感。可以根据这些视觉特性对图像信息进行取舍。,28,信息存储与检索,4.4.1 数据压缩技术概述,（二）多媒体数据压缩的基本要求对多媒体数据进行压缩处理需要两个过程。一是编码过程，即将原始数据经过编码进行压缩，以便于存储和传输；另一是解码过程，对编码后的数据进行解码，还原为可以使用的数据。对数据进行压缩处理一般具有以下基本要求：（1）可还原（2）压缩比高（3）重现质量好（4）计算成本低（5）实时性好,29,第四章,30,信息编码,Huffman编码Huffman编码时采取从后向前推，即以概率最小的向概率大的方

19、向进行编码处理，最后建立一颗Huffman编码树。各个符号作为二叉树的叶结点，每个节点有一个权，它是符号出现的概率。,第四章,31,信息编码,建立Huffman编码树的步骤描述如下：将信息集合中的各信息元素按概率依次从大到小排列。使概率最小的二组信息元素分别对应于码和码。将这两个信息元素的概率相加，作为另一组信息元素出现的概率。再一次重新依次按概率大小排序。重复以上步骤，直到剩下最后一个元素，并将其作为树根。,第四章,32,4.1、信息编码,Huffman编码举例下面几个图可以看到Huffman编码的构造过程是一个反复比较的过程，它总是选择两个使用频率较小的结点进行合并，生成出一个树，这个树经

20、过编码后就会得到Huffman编码。,第四章,33,信息编码,在上图中各点中的数字代表各点的使用次数，您可以把这几个方块想成A，B，C，D，它们在某一文章中的使用频率为7次，5次，1次等等。,第四章,34,信息编码,选择使用率小的两个点1，3构成新点4。,第四章,35,信息编码,在状态1图中选择5，4（也是两个最小的，注意不是1，3，因为1，3现在已经归在4里面了）进行合并。,第四章,36,信息编码,在状态2表中的最小两个点已经变为7，6了，这时合并它们两个生成新点13。,第四章,37,信息编码,只剩两个点了，不管多少它们也是最小的了，合并了算了。,第四章,38,信息编码,请注意这个编码，每个

21、点下面有两个分枝，分别编码为0，1。至此编码结束，所得到编码即从最上面的点延线下行，至所要编码的点，将沿路经过的0和1记录下来就是了。,第四章,39,信息编码,Huffman编码所以能获得高效编码，原因就在于高概率的信息元素总是取短码。由此也可以得出结论，即信源中各信息元素的概率分布越是不均匀，Huffman编码的有效性越能发挥出来。而一旦信息元素发生的概率趋于平衡，Huffman编码有效性也将随之势去。,第四章,40,信息压缩技术,文本信息压缩技术空格压缩技术其压缩思路是压缩文本信息中连续出现的空格。具体的处理过程是扫描待压缩的原始信息，统计出其中连续出现的空格，并用一个特殊的字符和数字表示

22、这一串连续空格，其压缩格式为：压缩指示字符用来标明在该处发生了空格压缩，而连续空格计数则表示所压缩的空格数量，这样，可以用两个字符表示原始信息中的连续空格。,第四章,41,信息压缩技术,位图压缩技术位图压缩方法是在文件中建立位图来标志某个字符的存在与否。凡在位图中标明为有效字符的位置，在压缩的文件中对应位置有相应的字符出现。在压缩后输出文件中，这个无效字符不出现，释放时再把这些无效字符按实际位置加到文件中。用位图方法压缩数据，首先要确定数据流中出现概率最大的一个字符。继而要对源数据流中字符建立位图字符，利用它标志出事先所确定的、以最大概率出现的字符位置，并将其压缩掉。,第四章,42,信息压缩技

23、术,游程编码技术在游程编码中需要标出被压缩的字符，也即要占用3B；第一个字节是压缩指示字符；第二个字节纪录连续出现的字符；第三个字节纪录重复字符出现的次数。,第四章,43,信息压缩技术,前端/后端压缩编码技术前端压缩技术，即当下一个字段中有若干字符与上个字段中有重复时，则在下一个字段开头用一个数字表示重复字符数。主要用于有序信息中存在大量重复字符串的情形。,第四章,44,信息压缩技术,半字压缩编码技术半字压缩是由位映像派生出来的一种压缩方法。它对数字字符串的压缩非常有效。ASCII码的数字字符编码的前4位完全相同，也就是说，在存储数值型数据时，每个字节中有4位并不表示具体数值。利用这个特性，就

24、可以把占2B的数字字符压缩到1B中去，即压缩掉1B中的4位，这就是半字压缩。半字压缩也需要压缩指示字符作为标志，并有计数加以控制。,第四章,45,信息压缩技术,多媒体信息压缩技术图像信息压缩技术概述游程长度压缩：将一扫描行中的颜色值相同的相邻像素用一个计数值和那些像素的颜色值来代替。霍夫曼编码压缩，其基本原理是频繁使用的数据用较短的代码代替，很少使用的数据用较长的代码代替，每个数据的代码长度各不相同。,第四章,46,信息压缩技术,数据流压缩技术COS（capacity optimized storage）压缩技术的基本思想是：将数据流像积木一样，分解为一个个组件，再分解的同时产生组件组装的指令

25、。重复的组件只保留一份，这样很多重复的数据块便被剔除，因此可以节省大量的存储空间。,信息存储与检索,4.4.1 数据压缩技术概述,（三）多媒体数据压缩方法的分类（1）按照压缩方法是否产生失真分类根据解码后数据与原始数据是否完全一致进行分类，压缩方法可被分为有失真编码和无失真编码两（2）按照压缩方法的原理分类根据编码原理进行分类，大致有预测编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码，其他编码方法基本上都是有失真的编码。,47,信息存储与检索,4.4.2 图像压缩的标准,（一）JPEG2000压缩标准简介国际标准化组织（ISO）和国际电工

26、协会（IEC）联合成立了一个联合图像专家组（Joint Photographic Experts Group，简称JPEG），经过5年艰苦而细致的工作，与1991年3月提出了ISO CDIO918号建议草案多灰度静止图像的数字压缩编码，该草案经批准成为ISO10918标准，即通常所说的JPEG标准。JPEG标准是一个适用于彩色和单色多灰度的静止数字图像的压缩技术标准。,48,信息存储与检索,4.4.2 图像压缩的标准,（二）JPEG2000的基本结构,49,信息存储与检索,4.4.2 图像压缩的标准,（三）JPEG2000的特点（1）压缩比高（2）支持无损压缩（3）支持渐进式传输（4）可自定义

27、“感兴趣区域”（5）可以描述多种色彩模式（6）图像处理简单,50,信息存储与检索,4.4.3 音频压缩的标准,（一）音频压缩编码的基本方法（二）电话质量的语音压缩标准（三）调幅广播质量的音频压缩标准（四）高保真立体声音频压缩标准,51,信息存储与检索,4.4.4 视频压缩的标准,视频压缩的一个重要标准是MPEG，即运动图像专家组（Moving Picture Expert Group）。该专家组成立于1988年，在国际标准化组织（ISO）和是国际电工委员会（IEC）的管辖之下。该组织现已公布的MPEG标准如下：,52,信息存储与检索,4.4.4 视频压缩的标准,MPEG-1（ISO/IEC11

28、17），1993年8月公布，其全称为“适于约1.5Mb/s以下数字存储媒体的运动图像及伴音的编码”所谓数字存储媒体（DSM）是指常见的数字存储设备，如CD-ROM、DAT、硬盘、可写光盘等。该标准也适于远程通信，如综合业务数字网、局域网等。MPEG-1标准包括MPEG系统（ISO/IEC11172-1）、MPEG视频（ISO/IEC11172-2）、MPEG音频（ISO/IEC11172-3）和测试验证（ISO/IEC11172-4）四大部分内容。,53,信息存储与检索,4.4.4 视频压缩的标准,MPEG-2（ISO/IEC13818），1994年11月公布，其全称为“运动图像及其伴音通用编

29、码”。适用于多媒体计算机、多媒体数据库、多媒体通信、常规电视数字化、高清晰度电视（HDTV）及交互式电视（ITV）等领域。MPEG-2标准包括MPEG系统、MPEG视频、MPEG音频和一致性四大部分内容，它克服并解决了MPEG-1标准不能满足的日益增长的多媒体技术、数字电视技术、多媒体分辨率和传输率等方面的技术要求的缺陷。,54,信息存储与检索,4.4.4 视频压缩的标准,MPEG-4（ISO/IEC14496）,1999年1月公布版本1（V1.0），同年12月公布版本2（V2.0）。该标准的初衷主要是面向电视会议、可视电话等超低码率的压缩编码需求，在制定过程中，MPEG组织深深感受到人们对媒

30、体信息，特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。MPEG-4与MPEG-1、MPEG-2等有很大差异，它为多媒体数据压缩编码提供了更为广阔的平台，它定义的是一种格式、一种框架，而非具体算法，它希望建立一种更自由的通信与开发环境。于是MPEG-4的新目标为：支持多种多媒体的应用，特别是多媒体信息基于内容的访问和检索，可根据不同的应用需求，现场配置解码器。编码系统也是开放的，可随时加入新的有效的算法模块。该标准适用于多媒体Internet、视频会议和视频电话、交互式视频游戏、多媒体邮件、基于网络的数据服务、光盘等交互式存储媒体、远程紧急事件系统、远程视频监控及无线多媒体通信等

31、。,55,信息存储与检索,4.4.4 视频压缩的标准,MPEG-7，于2000年11月公布，其全称为“多媒体内容描述接口”。它将为各种类型的多媒体信息规定一种标准化的描述，这种描述与多媒体信息的内容一起，支持对用户感兴趣的图形、图像、3D模型、视频、音频等信息以及它们的组合的快速有效查询，满足实时、非实时以及推-拉应用的需求。MPEG-7只规定信息内容描述格式，而不规定如何从原始的多媒体资料中抽取内容描述的方法。MPEG-7的应用领域有数字图书馆、多媒体目录服务、图像分析、音乐词典、教育、多媒体编辑、多媒体业务引导等。,56,信息存储与检索,第五节基于内容的多媒体检索技术,4.5.1 基于内

32、容的多媒体信息检索原理,1,4.5.3 基于内容的音频检索,3,57,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（一）基于文本的多媒体信息检索的局限性目前，常用的多媒体信息检索方法是基于文本的多媒体信息检索方法（Text-Based Retrieval，简称TBR）。该方法是针对多媒体的物理及内容特征，抽取出关键词进行著录或标引，建立类似于文本文献信息检索系统的索引数据库。这样，多媒体信息检索实际上就转化成为对多媒体信息进行描述的关键词检索。常用的抽取关键词的字段有文件名或目录名、多媒体标题、多媒体周围文本信息或解说文字等。,58,信息存储与检索,4.5.1 基于内容的多媒体

33、信息检索原理,基于文本的多媒体信息检索方法的主要优点是技术简单，标引和检索方便。它的实质就是文本检索，只是检索结果和输出形式不同而已，因此它的应用与实施方式简单，实现成本也比较低。,59,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,然而，这种检索方式的应用是有局限性的。首先，它不能真正反映信息的内容。这种检索采用文本来表达多媒体的内容，检索对象的不一致决定了在这种信息传递过程中必定会有大量信息的丢失，这样就不可能完全反映信息的内容；其次，多媒体信息是一种抽象程度很大、随意性很强的信息，缺乏一般意义上的规范性，同样的信息不同的人会有不同的理解，这样便会使得在用文字描述多媒体信息时，

34、不可能做出一个非常准确而完整的描述。,60,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（二）基于内容的多媒体信息检索的特点及应用所谓基于内容检索（Content-Based Retrieval，简称CBR），就是从媒体数据中提取出特定的信息线索，然后根据这些线索从大量存储在数据库中的媒体中进行查找，检索出具有相似特征的媒体数据出来。从技术上将，基于内容的多媒体信息检索具有如下特点：（1）直接从媒体内容中提取特征线索。,61,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（2）基于内容的检索是一种近似匹配，与传统信息检索的精确匹配方法有明显不同。（3）特征提取和索引

35、建立可由计算机自动实现，避免了人工描述的主观性，也大大减少了工作量。（4）整个过程是一个逐步筛选和不断求精的过程。,62,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（三）基于内容的多媒体信息检索系统的体系结构基于内容检索技术一般用于多媒体数据库系统之中，也可以单独建立应用系统，例如指纹系统、头像系统或其他的应用系统。从基于内容检索的角度出发，系统由组织媒体输入的插入子系统、对媒体做特征提取的媒体处理子系统、储存插入时获得的特征和相应媒体数据的数据库以及支持对该媒体的查询子系统等组成，同时需要相应的知识辅助支持特定领域的内容处理。多媒体数据库中基于内容检索系统的结构示意如图：,

36、63,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（三）基于内容的多媒体信息检索系统的体系结构,64,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（三）基于内容的多媒体信息检索系统的体系结构 1插入子系统该子系统负责将媒体输入到系统之中，同时根据需要为用户提供一种工具，以全自动或半自动(即需用户部分干预)的方式对媒体进行分割或分割，标识出需要的对象或内容关键点，以便有针对性地对目标进行特征提取。2特征提取子系统对用户或系统标明的媒体对象进行特征提取处理。特征提取可以由人完成，例如给出一些描述特征的关键字：也可以通过对应的媒体处理例程完成，提取些所关心的媒体特征

37、。提取的特征可以是全局性的，如整幅图像或视频镜头的颜色分布，也可以针对某个内部的对象，如图像中的子区域、视频中的运动对象等。在提取特征时，往往需要知识处理模块的辅助，由知识库提供有关的领域知识。,65,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（三）基于内容的多媒体信息检索系统的体系结构 3数据库媒体数据和插入时得到的特征数据分别存入媒体数据库和特征数据库。媒体库包含各种媒体数据，如图像、视频、音频、文本等。特征库包含这种媒体用户输入的特征和预处理自动提取的特征。数据库通过组织与媒体类型相匹配的索引来达到快速搜索的目的，从而可以应用到大规模多媒体数据检索过程中。4查询子系统

38、主要以示例查询的方式向用户提供检索接口。检索允许针对全局对象(如整幅图像、视频镜头等)，也允许针对其中的子对象以及任意组合形式来进行。检索返回的结果按相似程度进行排列，如有必要可以进步进行查询。检索主要是相似性检索，模仿人类的认知过程，可以从特征库中寻找匹配的特征，也可以临时计算对象的特征。对于不同的媒体数据类型，具有各自不同的相似性测度算法，检索系统中包括一个较为有效和可靠的相似性测度函数集。,66,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（四）基于内容的多媒体信息检索的流程和指标基于内容检索是一个逐步求精的过程。主要过程如图所示。(1)初始检索说明：用户开始检索时，要形成

39、一个检索的格式，最初可以用特定的查询语言来形成。系统对示例的特征进行提取，或是把用户描述的特征映射为对应的查询参数。(2)相似性匹配：将特征与特征库中的特征按照一定的匹配算法进行匹配。满足一定相似性的一组候选结果按相似度大小排列返回给用户。(3)特征调整：用户对系统返回的一组满足初始特征的检索结果进行浏览，挑选出满意的结果，检索过程完成；或者从候选结果中选择一个最接近的示例，进行特征调整，然后形成一个新的查询。(4)重新检索：逐步缩小查询范围，重新开始。该过程直到用户放弃或者得到满意的查询结果时为止。,67,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（四）基于内容的多媒体信息检

40、索的流程和指标,68,信息存储与检索,4.5.1 基于内容的多媒体信息检索原理,（四）基于内容的多媒体信息检索的流程和指标基于内容的检索系统由于采用相似性匹配，检索到的对象往往存在一定的误差，这个误差常用查到率（Recall）和查准率（Precision）来表示。查到率是指数据库中所有的相关对象是否都查到了，查准率是指查到的对象是否都是正确的，均用百分比来表示。,69,信息存储与检索,4.5.2 基于内容的图像检索,（一）基于内容的图像检索的类型（1）颜色检索（2）形状检索（3）纹理检索（4）草图检索（5）对象检索（二）研究性基于内容的图像检索系统简介（三）商业性基于内容的图像检索系统简介,

41、70,信息存储与检索,4.5.3 基于内容的音频检索,（一）基于内容的音频检索的类型基于内容的音频检索是指通过音频特征分析，对不同音频数据赋以不同的语义，使具有相同语义的音频在听觉上保持相似。根据音频信息的特征，音频可以分语音、音乐和其他声响，因此，基于内容的音频检索也可以相应地划分为基于语音的检索、基于音乐的检索和基于一般音频的检索三类。（二）研究性基于内容的音频检索系统简介,71,信息存储与检索,4.5.4 基于内容的视频检索,（一）基于内容的视频检索的类型基于内容的视频检索既能向用户提供基于颜色、纹理、形状及运动特征等视觉信息的检索又能提供基于高级语义信息的检索，具有在镜头、场景、情节等不同层次上进行检索的功能,能满足用户基于例子和特征描述的检索要求。（1）基于关键帧的检索（2）基于运动特征的检索（3）基于视频语义特征的检索（二）基于内容的视频检索系统简介,72,Thank You!,

展开阅读全文