多媒体技术word版.docx_三一办公31ppt.com

资源描述

《多媒体技术word版.docx》由会员分享，可在线阅读，更多相关《多媒体技术word版.docx（156页珍藏版）》请在三一办公上搜索。

1、第1章绪论什么是媒体？媒体是指传播信息的媒介。是人用来传递信息与获取信息的工具、渠道、载体、中介物或技术手段。存储信息的实体：媒质承载信息的载体：媒介什么是多媒体？以数字化为基础 ;对多种媒体信息进行采集、编码、存储、传输、处理和表现;综合处理多种媒体信息并建立起有机逻辑联系；集成为一个系统并能具有良好交互性；多媒体举例1. 多媒体课件文字、图形、图像、声音、动画、影像等多种媒体素材在时间和空间两方面进行集成，使他们融为一体并赋予交互特性，满足辅助教学。软件 PowerPoint、Authorware2. 多媒体查询系统多媒体硬件系统：包括计算机、各种外部设备以及与各种外部设备的控制接口

2、卡（其中包括多媒体实时压缩和解压缩电路）软件系统：包括多媒体驱动软件、多媒体操作系统、多媒体数据处理软件、多媒体创作工具软件和多媒体应用软件。1.1 多媒体的基本概念概念1 ：国际电信联盟（ITU）对媒体分类感觉、表示、显示、存储、传输感觉媒体直接作用于人的感官、使人能直接产生感觉的一类媒体听觉、视觉、触觉嗅觉等表示媒体信息的表示形式，为了加工感觉媒体而构造出来的一种媒体图像、图形、视频等图像：BMP、JPG、PNG、GIF等；语音：MP3、WMA、 WAV、 APE、AAC等；视频：MP4、 3GP 、 WMV 、 AVI 、 flv等；图形：3ds、OBJ、STL、VRML等；显示媒体

3、表现和获取信息的物理设备，感觉媒体与通信电信号进行转换的一类媒体可分为：输入表现媒体，输出表现媒体显示器、打印机、扬声器、键盘、摄像机存储媒体存储数据的物理设备，用于存放表示媒体的一类媒体硬盘、光盘等传输媒体传输数据的物理媒体，用来将表示媒体从一处传送到另一处的物理传输介质各种通信电缆五类媒体的关系是什么？冯诺伊曼结构：运算器、逻辑控制装置、存储器、输入和输出设备如下图概念2 ：什么是多媒体定义1：（Lippincott，Byte杂志 1990）计算机交互式综合处理多种媒体信息 - 文本、图形、图像、声音，使多种信息建立逻辑连接，集成为一个系统并且具有交互性。输入设备控制器存储器输出

4、设备CPU显示媒体显示媒体表示媒体表示媒体感觉媒体感觉媒体传输媒体存储媒体定义2：（IBM Multimedia Foundation 1990）多媒体是下面两种以上媒体组成结合体：文本、图形、动画、静态视频、动态视频、声音。这就意味着电视节目、动画片、个人视话都可被看作是多媒体。定义3：（J. Morgen，SGI，1992）多媒体是传统的计算媒体：文本、图形、图像以及逻辑分析方法等与视频、音频以及为了知识创建和表达的交互式应用的结合体。定义4：（汪成为， 1994）所谓多媒体技术就是能对多种载体（媒介）上的信息和多种存储体（媒质）上的信息进行处理的技术。多媒体的关键特性特性1：多样性

5、图像图形文字视频图形符号视觉（静止）（动态）其他表示为视觉的媒体二维动画三维动画语言文字真实感生成动态影像视频抽象化抽象化信息载体的多样性是相对于计算机而言的，指的就是信息媒体的多样化，有人称之为信息多维化。媒体分类视觉声音听觉声响（自然界）语音（人类语言）音乐抽象化听觉振动运动触觉传感发生器触觉其他感觉其他（嗅觉、味觉等）特性2：交互性（易于人和计算机的交互）交互可以增加对信息的注意力和理解力，延长信息保留的时间。当交互性引入时，“活动”本身作为一种媒体便介入到了数据转变为信息、信息转变为知识的过程之中。交互的类型视觉：图形用户界面听觉：声音用户界面触觉：实体用户界面交互水平从数据库

6、中检录出某人的照片、声音和文字材料，是多媒体的初级交互应用；通过交互特性使用户介入到信息过程中，不仅仅提取信息，是中级交互应用水平；当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时，这才是交互式应用的高级阶段，这就是虚拟现实（Virtual Reality）。虚拟现实虚拟现实技术（Virtual reality），“灵境”，利用计算机系统和各种显示及控制设备生成一个逼真地可交互地具有视觉、听觉、触觉等沉浸感觉的三维环境的技术。沉浸性：使用户难以觉察、分辨出其自身正处于一个由计算机生成的虚拟环境中；交互性：使用户通过自己的行为自主地改变所处的虚拟环境、感受内容；构想性：依靠自身的感

7、知和认知能力可全方位地获取知识，发挥主观能动性，寻求对问题的完美解决；交互设备穿戴设备非穿戴设备力反馈设备1.WIMP界面Window：窗口，图形用户界面的基础Icon:图标Menu:菜单Pointer:指针交互方式键盘鼠标显示器特性3：集成性（实现了信息处理的集成性）多媒体信息媒体的集成处理这些媒体的设备与设施的集成特性4：协同性每一种媒体都有其自身规律，各种媒体之间必须有机地配合才能协调一致。时间、空间和内容方面的协调是多媒体的关键技术之一。特性5：实时性实时性是指在多媒体系统中多种媒体间无论在时间上还是在空间上都存在着紧密的联系，是具有同步性和协调性的群体。实时多媒体分布系统是

8、把计算机的交互性、通信的分布性和电视的真实性有机地结合在一起。归纳叙述多媒体关键特性及这些特性之间的关系多样性、交互性、集成性、（协同性和实时性）。信息载体的多样性是集成性的基础，没有多种信息媒体，也就无法进行多媒体信息的集成化处理；处理多媒体的设备与设施的集成性是实现交互性的前提，没有系统、网络、软硬件设施的集成，就无法为用户交互式使用、加工和控制信息提供平台。多媒体的协同性是指各种媒体之间必须有机地配合才能协调一致，时间、空间和内容方面的协调是多媒体的关键技术之一。多媒体的实时性是指在多媒体系统中多种媒体间无论在时间上

9、还是在空间上都存在着紧密的联系，是具有同步性和协调性的群体。什么是WIMP 交互范式？你认为未来人机交互的发展趋势是什么？u 集成化：人机交互将呈现出多样化、多通道交互的特点。语音、手势、表情、眼动、唇动、头动等交互手段将集成在一起，是新一代自然、高效的交互技术的一个发展方向。u 网络化：新一代的人机交互技术需要考虑在不同设备、不同网络、不同平台之间的无缝切换和延伸，支持用户随时随地利用多种简单的自然方式进行人机交互，而且包括支持多个用户之间以协作的方式进行交互。u 智能化：在人机交互中，使计算机更好地自动捕捉人的姿态、手势、语音和上下文等信息，了解人的意图，并做

10、出合适的反馈或动作，提高交互活动的自然性和高效性，使人机间的交互像人人交互一样自然。u 标准化：从降低产品成本，提升设备的兼容性和可扩张性能等角度，人机交互标准的设定是一项长期而艰巨的任务，并随着社会需求的变化而不断变化。u 应用：AI 、VR 、AR 、大数据结合，应用到数据分析、数字娱乐、游戏等1.2 多媒体技术的产生与发展应用需求计算机发展初期：只能用数值媒体承载信息输入/输出：纸带和卡片（机器语言）极少数计算机专业人员能使用上世纪50s70s：出现了高级语言，文字作为信息载体输入/输出：键盘/显示器等，英文（汇编等）应用扩大到具有一般文化程度的科技人员80s开始

11、：人们致力于将声音、图形和图像作为新的信息媒体输入输出计算机输入/输出：1984年Apple公司的Macintosh机上引进了“bitmap”的图形机理和Mouse输入文化水平较低的人（包括儿童）启蒙发展阶段多媒体计算机技术最早起源于八十年代中期。1984年,Apple公司在研制Macintosh计算机时,为了改善人机交互界面, 创造性地使用了位映射(bitmap)、窗口(window)、图符(icon)等技术, 所带来的图形用户界面(GUI), 同时鼠标作为交互设备配合GUI使用, 大大方便了用户的操作。1985年,Microsoft公司推出了Windows,它是一个多任务的图形操作环境。

12、1985年,美国Commodore公司首先推出世界上第一台多媒体计算机Amiga系统。其CPU采用Motorola M68000, 3个专用芯片: 图形处理芯片Agnus 8370, 音响处理芯片Paula 8364, 视频处理芯片Denise 8362。Amiga机具有自己专用的操作系统, 能够处理多任务, 并具有下拉菜单、多窗口、图符等功能。1986年,荷兰Philips公司和日本Sony公司联合出CD-I（Compact Disc-Interactive）,同时公布了该系统所采用的CD-ROM光盘的数据格式,这项技术对大容量存储设备光盘发展起着巨大的影响,并经ISO认可成为国际标准。该系

13、统把高质量的声音、文字、计算机程序、图形、动画以及静止图像等都以数字的形式存放在容量为650MB的5英寸只读光盘上。最早家庭所用的多媒体系统。多媒体热潮的兴起MPC联盟规定多媒体计算机包括5个基本的部件：个人计算机、只读光盘驱动器（CD-ROM）、声卡、Windows 操作系统和一组音箱或耳机1990年10月, 微软公司 MPC1.0标准（286/386）。1993年，由IBM、Intel等 MPC2.0（486）。 1995年6月, MPC3.0（586）。1996年以后, 新的个人机均支持基本多媒体功能。项目MPC-1MPC-2MPC-3CPU16MHz386SX（推荐386DX或486

14、SX）25MHz486SX（推荐486DX或DX2）75MHzPentium或兼容芯片（推荐100MHzPentium）RAM2MB4MB8MB硬盘30MB160MB540MBCD-ROM150KB/S300KB/S600KB/S声卡8位数字声音，8个合成音、MIDI16位数字声音、8个合成音、MIDI16位数字声音、WAVETABLE、MIDI显卡640480，16色（推荐256色）640480256色（推荐65536色）64048065536色（推荐图形加速卡）项目MPC-1MPC-2MPC-3视频播放35224030FPS（35228825FP）15Bit/PixesI/O端口MIDI接

15、口、串并口、游戏杆接口MIDI接口、串并口、游戏杆接口MIDI接口、串并口、游戏杆接口操作系统DOS版本3.1以上、Windows3.0带多媒体扩展DOS版本3.1以上、Windows3.1Windows3.1多媒体的第二次浪潮一批设备普及移动终端、VR设备、交互设备一批产品出现 HTC VIVE、 Oculus、Unity3D一批产业出现美国硅谷、中国中关村等互联网媒体 Youtube、乐视等产业化前景极好用途范围极为广泛信息处理手段得以加强高速计算能力大规模存储高速通讯网人机交互形式（4 4 种）计算机计算机；人人；人计算机；计算机计算机机计算机（数据传输）多

16、媒体信息系统：为综合考虑多媒体信息的处理、统一数据格式、网络传输协议与标准奠定了基础。人人人（通过计算机）计算机是高效信息传递媒介，如发邮件。计算机成为 “宽”通道，不仅使用文本。如果计算机可以理解信息的含义，做到自动语言翻译，可提高人人交互的水平。人工智能-深度学习语音识别：速记准确率达 95% ；图像识别： ImageNet 比赛的图像识别准确率95% ；文字识别： OCR 技术，识别率超过 99.9% % 国际象棋：深蓝围棋：a AIpha 人计算机（克服局限）人的思维模式：形象、联想、多样、模糊、并行计算机的工作方式：精确、清楚、串行、

17、方法：形式化描述问题；找到一个算法解决问题以合理的复杂程度在计算机上实现算法。多媒体利用各种信息媒体形式，集成使用声、图、文等来承载信息，缩短了信息传递的路径。信息共享数据结构提供数据处理基础高效的算法和高速的网络通信提高表示概念的能力声音，图像，视频，动画丰富信息获取和传递手段1.3 多媒体技术研究的主要内容 1.3.1 多媒体技术的基础媒体（第二章）媒体的性质与相应的处理方法每一种媒体的采集、存储、传输和处理数据压缩（第三章）文本、图像、视频、图形 JPEG 、MPEG4 、H.26L 等1.3.2 多媒体软硬件平台技术硬件光盘驱动器、声音适配器、图

18、形显示卡、扫描仪、打印机、数码相机、交互设备软件操作系统： windows 编辑创作软件：Photoshop、、会声会影、Cool edit 专用软件：Unity 3D1.3.3 网络媒体与应用技术基于网络的分布式系统实时性和同步性 HTML5 ：移动互联网；超文本标记语言的第五次重大修改；支持MPEG-4、H.264及WebM等影音编码； WebGL ：用于在任何兼容的Web浏览器中呈现交互式3D和2D图形； 1.3.4 多媒体信息管理与处理技术多媒体数据量大、种类多；文件系统管理方式多媒体信息以文件的形式存储在计算机中，操作系统的文件管理功能可以实现

19、信息存储管理等。对于不同格式的文件采用相应的软件进行打开、编辑、修改。当多媒体信息较少时，浏览查询方式快捷，当多媒体数量和种类较多时，管理不方便。多媒体数据库扩充关系数据库方式文件系统与数据库相结合，多媒体数据以文件系统存放，用关系数据库存放媒体类型、应用程序名、媒体属性、关键词等。面向对象数据库方式将面向对象程序设计语言与数据库技术结合由于继承、封装、多态的特性，设计出高内聚、低耦合的系统结构，使得系统更灵活、更容易扩展。多媒体信息的检索基于内容的多媒体信息检索技术（Content-basedRetrieval，CBR）。u 通俗的说，就是

20、从媒体数据中提取出特定的信息线索，然后根据这些线索从大量存储在数据库中的媒体中进行查找，检索出具有相似特征的媒体数据出来。u 根据用户的要求，可分为文本、声音、图形、图像、动画等检索。1.4 多媒体技术的应用1 、教育与培训教育、培训的应用大约占40% 。幼儿启蒙教育中小学教学大众化教育技能训练2 、商业广告宣传在因特网上使用的多媒体应用之一就是产品广告和促销服务。电视和杂志广告常在显著位置刊登厂商的网址。在因特网上提供产品信息，能够进入另一个全球市场，花费很少的额外投资，增强效果。在在线产品目录和小册子中添加多媒体内容，可使用户对产品感兴趣，增加销售

21、量和知名度。如，汽车经销商提供从软件产品到汽车的“虚拟试用”。高质量的多媒体三维动画广告在电视上越来越多。3 、影视娱乐影视娱乐和游戏产品是多媒体计算机应用的一个重要方面。面向家庭娱乐的多媒体软件、游戏产品、音乐、影像和游戏光盘，计算机和网络游戏。使用不同节目的多媒体软件，在家中利用多媒体计算机学习各种生活技能或发展业余爱好和丰富学习内容。4 、网络通信多媒体通信信息服务多媒体通信技术可以把电话、电视、图文传真、音响、摄像机等各类电子产品与计算机融为一体，形成新一代的家电类消费。由计算机完成音频、视频信号

22、采集，音频、视频的特技处理，压缩多媒体信息网络传输，解压缩、音频播放和视频显示远程信息服务由多媒体通信和分布式系统相组合的分布式多媒体计算机系统，使远程信息服务（远程多媒体信息的编辑、获取和传输同步）成为可能。在远程教育系统中，中央电视大学和各高等院校远程医疗在远程医疗会诊系统中，利用多媒体会议系统，与病人面对面交谈，进行远程咨询和检查，甚至在远程专家指导下进行手术。在医院与医院之间，甚至国与国之间的医疗系统建立信息通道，实现信息共享。目前的瓶颈是网络的带宽。多媒体会议通过计算机远程参

23、加会议或交流，以可视化的、实时的、交互的形式实现在不同地理位置上人们的多媒体资源共享和信息交流。多媒体会议技术在远程教育、远程医疗、经济或军事决策、金融服务等方面广泛应用。 ISDN 上按H.320 标准协议规范、局域网按照H.323 协议规范、公用电话网按照H.324 标准协议规范。如，我国已经建立了国家会议电视骨干网，在全国安装了几百个会议系统点。多媒体视频点播已建立有线电视台600 多座，有线电视用户约几千万户。视频点播系统的主要功能是，用户在家里的计算机或电视机前，不需要从电视频道收看电视节目，通过遥控器和菜单任意点播视频点播系统

24、的电影、电视和新闻。军事通讯5 、办公自动化多媒体技术的出现，改变人机交互界面，提供各种灵活方便的输入手段，使计算机使用简单。电视会议系统：通过网络实现面对面交谈；多媒体数据的存储和查询打破了单一的文本信息存储的局面，使用各种图、文、声并茂的信息处理；光笔、扫描和录音等多媒体输入方式简化了信息输入计算机的难度。6 、公共服务多媒体信息咨询公共服务可在机场、码头、车站、旅游胜地、娱乐中心和连锁店、展览馆公开场所，使用多媒体技术编制的各种图文并茂的软件，开展商业销售、导游等各种宣传活动。如房地产公司使用多媒体技术

25、可不用把用户带到现场，通过计算机演示楼房的外貌、内部结构、装修、周围环境等，通过语言解说，使人身临其境。各公司、企业、学校等都有自己的信息网站。7 、电子出版物多媒体电子出版物存储容量大，一张光盘可存储几百本长篇小说。媒体种类多，可以集成文本、图形、图像、动画、视频和音频等多媒体信息。运输与携带方便，检索迅速，可长期保持，不会出现纸面出版物那样变色、虫蛀和粉化等现象。及时传播，经由计算机网络立即发行到世界各地。价格低廉本章重点多媒体技术的概念与分类多媒体的三大关键特性信息载体的多样性、交互性和集成性多媒体技术的发展历程多媒体技术的优势改善了人类信息的交

26、流缩短了人类交流途径第2章媒体及媒体技术2.1 媒体的种类和特点视觉媒体图片上文已有视觉媒体一：文本字符代码及字符格式表示的数据字符代码的识别是计算机文字处理程序的基础英文常用的ASCII （American Standard Code for Information Interchange 美国信息交换标准代码）7位 / 1个字节：(a)控制字符： 0-31和127(b)可打印字符： 32-126视觉媒体一：文本字符代码及字符格式表示的数据文本识别是计算机文字处理程序的基础ASCII：美国信息交换标准代码中文编码: 字符集中每个字符指定的存储位置，字符集中字符的数字编号；GB2312

27、国家标准，共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；GBK：汉字内码扩展规范（注意：十六进制和十进制） Unicode ：计算机工业中的国际字符标准集。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。视觉媒体1：文本1.字符编码2.字符显示3.文本可视化字符的显示点阵字符：每个字符定义为称为字符掩膜的矩阵；每个元素为一位二进制数，1表示字符的笔画经过此位，该像素置为字符颜色；0表示字符的笔画不经过此位，该像素置为背景颜色。字符的8方向编码优点：显示速度快；缺点：(a)将耗费巨大的存储空间； (b)放大后在文字

28、边缘出现锯齿状；矢量字符：将字符表达为点坐标的序列，相邻两点表示一条矢量，字符的形状便由矢量序列刻画。方向编码式字符：用有限的若干种方向编码来表达一个字符矢量表示：问题：边缘不光滑Bezier曲线是用数学方法计算出来的曲线，用来把多个点连成自由形态的光滑曲线或曲面，字体中Postscript Type、 TrueType、OpenType都采用。数字字体字体：包含一整套字符的数据文件,如宋体等；字形：字符形状，如笔画粗细、浓淡、倾斜等；字号：字的大小；一种字体有多种字形，一种字形有多种字号；字符的显示 Windows系统中字体设置上方选择菜单Windows字体 C:WindowsFont

29、s 扩展名为FON，点阵字库,如fixedsys常规字体；扩展名为TTF，矢量字库，如幼圆常规字体；文字的显示程序Visual C+ CFont myFont; /创建字体对象BOOL CreateFont(int nHeight, /字体的高度int nWidth, /字体的宽度int nEscapement, /字体显示的角度int nOrientation, /字体的角度int nWeight, /字体的磅数BYTE bItalic, /斜体字体BYTE bUnderline, /带下划线的字体BYTE cStrikeOut, /带删除线的字体BYTE nCharSet, /所需的字符

30、集BYTE nOutPrecision, /输出的精度BYTE nClipPrecision, /裁减的精度BYTE nQuality, /逻辑字体与输出设备的实际字体之间的精度BYTE nPitchAndFamily, /字体间距和字体集LPCTSTR lpszFacename /字体名称);视觉媒体一：文本文本文件分类非格式化文本文件只有文字信息，没有其他格式信息格式化文本文件带有各种文本排版信息等格式信息的文本文件段落格式、字体格式、文章的编号、分栏、边框文本编辑工具 Office； WPS ; EditPlus； Notepad+数据可视化指将文本数据以视觉的形式来呈现，如图表或

31、地图等，以帮助人们了解这些数据的意义；数据可视化软件工具（1） PowerPoint（2） Excel（3） Google charts（4） SmartBi视觉媒体二：图像图像是指由输入设备捕捉的实际场景画面，或以数字化形式存储的任意画面;静止的图像是一个矩阵，由一些排成行列的点组成，这些点称之为像素点（pixel）;二维数组表示数字图像生成(a)设备采集模拟图像图像图像采样图像图像编码图像(b)软件生成程序直接生成：例如 Visual studio 画板 MFC编程心形线 x=a*(2*cos(t)-cos(2*t) y=a*(2*sin(t)-sin(2*t)int a=10

32、0;for( double t=0.0; tSetPixel(x,y, RGB(255,0,0); 阿基米德曲线数字图像生成计算机图形投影生成：例如 Meshlab 图像的主要技术参数参数一：分辨率每英寸包含的像素总数水平方向的像素数竖直方向的像素数每毫米的线数或行数包括：屏幕分辨率：显示器屏幕显示图像的最大显示区图像分辨率：数字化图像的大小像素分辨率：像素的宽高比，一般为1:1 打印分辨率（DPI）：每英寸所能印刷的点数参数二：图像深度（图像的最大颜色数）（a ）1：位：黑白2 色；（b ）4 位：： 16 色；（c ）8：位： 256 色；（d ）24 位：

33、真彩色；（e ）32 位：alpha 通道；用256级灰度来记录图像中的透明度信息，定义透明、不透明和半透明区域；图像文件大小= （高宽像素位数）/8 （字节）例如：分辨率为640 480 的256 色的图像大小为：640 480 8 位/ 8 位=307000 （字节应用：两幅图像合成Newimage= alpha (IMG1)+ （（ 1-alpha ）） (IMG2)ALPHA 为权值 0,1for 每个像素， i ，j 表示行列Newimage(i,j, 红) = IMG1(i,j, 红)*ALPHA + IMG2(i,j, 红)*(1-ALPHA);Newim

34、age(i,j, 绿) = IMG1(i,j, 绿)*ALPHA + IMG2(i,j, 绿)*(1-ALPHA);Newimage(i,j, 蓝) = IMG1(i,j, 蓝)*ALPHA+ IMG2(i,j, 蓝)*(1-ALPHA);end 参数三：真彩色与伪彩色真彩色：像素的颜色值用3 个字节红、蓝、绿表示；问题：1024*768 分辨率的真彩色图像需要多少显存？伪彩色：图像的每个像素值实际上是一个索引值或代码，该代码值作为彩色查找表的表项入口地址；根据该地址可查找显示图像时使用的R 、G 、B 强度值。这种用查找出的R 、G 、B 强度值产生的色彩称为伪彩色；

35、伪彩色的优点：在帧缓存单元（显存）不增加的情况下，具有大范围挑选颜色的能力伪彩色的缺点：调色板与原始图像的颜色不匹配，图像出现色偏；图像的基本格式：BMP 文件格式（位图）1. 图像文件头：提供文件的格式、大小等信息；2. 位图信息头：提供图像数据的尺寸、位平面数、压缩方式、颜色索引等信息；3. 颜色表（可选）：调色板；备注：真彩色时空；4. 位图数据：图像数据，定义位图的字节阵列。位图数据位图数据记录了位图的每一个像素值，记录顺序是在扫描行内是从左到右，扫描行之间是从下到上。当biBitCount=1，时， 8 个像素占1 个字节；当biBi

36、tCount=4，时， 2 个像素占1 个字节；当biBitCount=8，时， 1 个像素占1 个字节；当biBitCount=24 时，1 个像素占3 个字节。 24 位RGB 按照B 、G 、R 的顺序来存储每个像素的各颜色通道的值，32 位按照B 、G 、R 、Alpha 存储。图像的基本格式：BMP 文件格式调色板：颜色查找表，索引号与颜色对应关系。索引：(蓝，绿，红)0号：(fe，fa，fd)1号：(fd，f3，fc)2号：(f4，f3，fc)3号：(fc，f2，f4)4号：(f6，f2，f2)5号：(fb，f9，f6)Class RGBQUADBYTE rgbBlu

37、e; - 蓝色强度BYTE rgbGreen; - 绿色强度BYTE rgbRed; - 红色强度BYTE rgbReserved; - 保留位图数据：对齐 Windows 寻找空间4 个字节要求每行的数据的长度必须是4 字节的倍数，如果不够需要进行比特填充（以0 填充），这样可以达到按行的快速存取。填充后每行的字节数：RowSize=4(widthbitCouns+31)/32 取整 width 是以像素为单位的行宽度，bitCounts 表示像素的位数例题biBitCount=8;bfWidth=925;bfHeight=925;biSizeImage=858400按照填充公式

38、：每行有数据RowSize=4(widthbitCouns+31)/32=928字节每行计算数据：925*1=925 bytes每行填充了3 bytes ；验证：一共925 行，共填充925*3=2775 bytes图像计算数据：925*925*1=855625 bytes 相差：2775 bytesbiBitCount=24;bfWidth =499;bfHeight=365;biSizeImage=547500按照填充公式：每行有数据RowSize=4(widthbitCouns+31)/32=1500字节每行计算数据：499*3=1497 bytes每行填充了3 bytes

39、；验证：一共365 行，共填充365*3=1095 bytes图像计算数据： 499 *365*3=546405bytes ，相差：1095bytes图像的读取和处理： MATLABMATLAB 是美国MathWorks 公司出品的商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境；图像处理工具箱（Image ProcessingToolbox ），以黑盒方式提供了图像变换、图像增强、图像复原、图像编码与压缩等技术；基本函数图像读取：imread （）图像显示：imshow （）存储图像：imwr

40、ite （）彩色图像转灰度图像：rgb2gray （）图像二值化：graythresh （）im2bw （）直方图：imhist （）边缘检测：edge （）增加亮度： imadd （）图像分割算法概念：图像分割是将图像分成各具特性的区域，并提取出感兴趣目标的技术和过程。灰度图像分割方法：（a ）基于阈值的分割：通过阈值对不同物体进行分割；（b ）基于边缘的分割：通过直接确定区域间的边界来实现分割；（c ）基于区域的分割：把各像素划归到各个物体或区域中；（a ）基于阈值的分割原理：利用图像中背景与对象之间的

41、灰度差异多媒体技术设f(x,y) 表示原图像，g(x,y) 表示分割后的图像，T 为选定的灰度阈值，分割算法表为:或其中：“1” 表示物体（对象、目标）“0” 表示背景。关键：阈值的选择方法1 ：多阈值法设置两个灰度阈值T1 、 T2, T1T2 ，这两个阈值间的灰度范围都对应于目标，即方法2 ：灰度直方图阈值法图像的灰度级范围为0,1,2,l-1 ，设灰度级为i 的像素素个数为n i ，则一幅图像的总像素N 为：灰度级i 出现的概率定义为：灰度直方图：灰度级的函数，它表示图像中具有某种灰度级的像素的个数，反映了图像中某种灰度出现的频率。图像的灰度直方图中横

42、坐标是灰度级，纵坐标是该灰度级出现的频率或像素个数。 20 世纪60 年代中期，Prewitt 提出了“直方图双峰法”，如果灰度直方图呈现明显的双峰状，则选取两峰之间的谷底对应的灰度级作为阈值。谷底就是直方图的极小值。为了求解极小值点：将各端点相连，形成直方图的包络线h(z) ，这是一条曲线，它的极小值满足 :方法3 ：大津法OTSU原理：类间方差最大假设原始灰度图像灰度为灰度级为的像素个数为，则图像的全部像素数为，归一化直方图为。阈值t 将图像划分为两类：C0类出现的概率：C1类出现的概率：C0类的灰度均值：C1类的灰度均值：C0类方差：C1类方差：for (k=0;kfmax)fmax=icv;thresholdValue=k; （b ）基于边缘的基本原理：当物体与背景有明显对比度时，通过跟踪图像的边界，进而实现图像分割。结论：一阶导数在图像由暗变明的位置处有1 个向上的阶跃，而其它位置都为0 ，这表明可用一阶导数的幅度值来检测边缘的存在，幅度峰值一般对应边缘位置一个二元连续函数表示为f(x,y) ，它在 (x,y) 的梯度可表示为：信号与系统分析中基本运算相关与卷积，在实际图像处理中都表现为邻域运算。邻域运算：输出图像中每个像素是由对应的输入像素及其一个邻域内的像素

展开阅读全文