数字媒体及应用.ppt

上传人:牧羊曲112 文档编号:5984669 上传时间:2023-09-11 格式:PPT 页数:120 大小:2.68MB
返回 下载 相关 举报
数字媒体及应用.ppt_第1页
第1页 / 共120页
数字媒体及应用.ppt_第2页
第2页 / 共120页
数字媒体及应用.ppt_第3页
第3页 / 共120页
数字媒体及应用.ppt_第4页
第4页 / 共120页
数字媒体及应用.ppt_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《数字媒体及应用.ppt》由会员分享,可在线阅读,更多相关《数字媒体及应用.ppt(120页珍藏版)》请在三一办公上搜索。

1、2023/9/11,1,第3章 数字媒体及应用,本章要点 数值信息与数值计算 文本与文本处理 图像与图形 数字声音及应用 数字视频及应用,2023/9/11,2,3.1 数值信息与数值计算,ISO的定义:数据是对事实、概念或指令的一种特殊表达形式,可以进行通信、转换或加工处理。一般的数字、文字、图画、声音、活动图像都是数据,计算机通过二进制编码形式对其进行处理。计算机内部把数据区分为数值型和非数值,2023/9/11,3,一、数的进制,1、什么是二进制十进制特点:基数为十,逢十进一使用十个不同的数字符号权值为十KnKn-1 K1K0.K-1K-2K-m=Kn 10n+Kn-1 10n-1+K1

2、 101+K0 100+K-1 10-1+K-2 10-2+K-m 10-m二进制特点:基数为二,逢二进一使用两种不同的符号,即0和1。权值为二n进制特点:基数为n,逢n进一最常用的是八进制和十六进制,2023/9/11,4,2.为什么要使用二进制?(优点)0,1两个状态易物理实现运算规则简单与逻辑运算联系紧密,一、数的进制,2023/9/11,5,二进制与十进制对照表,2023/9/11,6,不同进制间的转换,二进制,八进制,十进制,十六进制,2023/9/11,7,八、十六进制化为十进制,规则:按“权”展开 例:(1999.8)10=1103+9 102+9 101+9 100+8 10-

3、1“权”,(1101.1)2=123+1 22+0 21+1 20+1 2-1,2023/9/11,8,八、十六进制化为十进制,例1:将二进制数101.01转换成十进制数。(101.1)2=1 22+0 21+1 20+1 2-1=(5.5)10,例2:将八进制数34.6转换成十进制数。(34.6)8=3 81+4 80+6 8-1=(28.75)10,例3:将十六进制数2AB.6转换成十数(2AB.6)16=2 162+10 161+11 160+6 16-1=(683.375)10,2023/9/11,9,十进制化为二进制,十进制整数化外二进制整数规则:除二取余,直到商为零为止,倒排例:将

4、十进制数86转化为二进制 2|86 0 2|43 1 2|21 1 2|10 0 2|5 1 2|2 0 2|1 1所以,(86)10=(1010110)2 0,2023/9/11,10,十进制化为二进制,十进制小数化外二进制小数规则:乘二取整,直到小数部分为零或给定 的精度为止,顺排例:将十进制数0.875转化为二进制数 0.875 2 1.75 2 1.5 2 1.0 所以(0.875)10=(0.111)2,2023/9/11,11,八进制化为二进制,规则:每一个八进制数改写成等值的三 位二进制数,次序不变例:(17.36)8=(001 111.011 110)2=(1111.01111

5、)2,2023/9/11,12,十六进制化为二进制,规则:每一个位十六进制数改写成等值 的四位二进制数,次序不变例:(3A8C.D6)16=(0011 1010 1000 1100.1101 0110)2=2,2023/9/11,13,二进制数的运算,算术运算:加法、减法。0+0=0 0+1=1 1+0=1 1+1=10 0-0=0 0-1=1 1-0=1 1-1=0逻辑运算:或()、与()、取反。00=0 01=1 10=1 11=100=0 01=0 10=0 11=10 取反为1 1取反为0注意:算术运算会发生进位、借位,逻辑运算则按位独立进行,不发生位与位之间的关系,其中,0表示逻辑假

6、,1表示逻辑真。,2023/9/11,14,比特:bit(位),以“b”表示,是计算机中表示信息的最小单位。字节:byte(位组),8个bit;以“B”表示,一个字符用一个字节表示。1KB=1024B,1MB=1024KB,1GB=1024MB;1TB=1024GB速率:波特,b/s,bps;1kb/s=1000b/s。字:word,数据存取和计算的单位。,二进制信息的计量单位,2023/9/11,15,二、数值信息的表示,数值信息:有大小、正负之分的数据。1、整数的表示不带符号的整数(正整数):8位:0255,16位:065535带符号的整数:符号位(0:正;1:负)最高位为符号位8位:-1

7、27+127,16位:-32767+32767,2023/9/11,16,二、数值信息的表示,原码:将整数化为二进制数,符号位置0(正数)或1(负数)(+43)原=00101011;(-43)原=10101011反码:负数的反码:符号位为1,绝对值部分与原码相反。(+43)反=00101011;(-43)反=11010100负数的补码表示:符号位也是“1”,其余为反码的最低位加“1”。(+43)补=00101011;(-43)补=11010101,2023/9/11,17,注意:-0与+0在补码表示法中相同,而在原码、反码表示却不同。相同位数的二进制补码,表示的范围比原码、反码多一个。正数的原

8、码、反码、补码都相等,即表示方法只有一种。用一个字节表示二进制补码,表示的范围为:-128+127,二、数值信息的表示,2023/9/11,18,关于BCD码:编码方法:用4个二进制位表示1个十进制数字。例:(-43)BCD=1 0100 0011Pentium机的四种不同的带符号整数:16位整数:二进制16位补码(-215216-1)短整数:二进制32位补码长整数:二进制64位补码BCD整数:十进制18位,二、数值信息的表示,2023/9/11,19,2、实数的表示:浮点表示法(浮点数)用指数(整数)和尾数(纯小数)来表示实数的方法。浮点数的表示方法不唯一,长度越长,范围越大,精度越高。,二

9、、数值信息的表示,2023/9/11,20,Pentium机32位浮点数的表示(自左至右):第1位:符号位,0表示正数,1表示负数第2-9位:偏移阶码,1254分别表示-126+127,0和255有特别说明。第10-32位:尾数,表示数值的小数部分。数值的整数部分为1,也就是说,数值的绝对值在1和2之间。将浮点数转换为绝对值在1和2之间的数值,乘以2幂次方(用阶码表示)例:将(2.5)10用32位浮点数表示。(2.5)10=(1.01)22+1,转换的结果为:第1位:0(正数)第2-9位:1000 0000(相当于2的正1次方)第10-32位:010 0000 0000 0000 0000 0

10、000(相当于0.25,整数部分1是隐含的),二、数值信息的表示,2023/9/11,21,3、数值计算科学工程领域:Fortran、C语言、MATLAB 社会、经济、管理领域:统计分析软件:SAS和SPSS 办公领域:“电子表格”(spreadsheet):Excel,二、数值信息的表示,2023/9/11,22,2 文本与文本处理,文本:基于特定字符集的、按一定格式组织起来的、具有上下文相关性的一个字符流,每个字符均使用编码表示。,计算机对文本的处理,2023/9/11,23,编码字符集,字符(character)是记录语言的符号,它适用于一种或多种书面语言。编码字符集(coded cha

11、racter set)按某种规则编码的字符的有序集合。每个编码字符集有两个最重要的属性:字汇(repertoire):编码字符集中有哪些字符编码规则:如何确定每个字符的代码码长:字符代码的长度。它决定了代码空间的大小定长码:7位,8位,双字节,4字节可变长码:单双4字节码ASCII码(P84),2023/9/11,24,1、西文字符的编码 西文字符集 标准 ASCII 字符集ASCII 字符集采用 7 位编码每个 ASCII 字符以一个字节存放 扩充 ASCII 字符集:标准ASCII 码+扩展ASCII 码,字符的编码,2023/9/11,25,标准ASCII 字符集的特点:数字、字母连续存

12、放 Asc(“A”)+32=Asc(“a”)有 96 个可打印(显示)字符,32 个控制字符,共有 128 个字符,2023/9/11,26,汉字编码字符集,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。汉字的特点:数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字)多个国家和地区使用:港台地区,日、韩、朝、新、马等字形复杂,同音字多,异体字多。我国汉字编码的国家标准:GB2312-80(6763个常用简体汉字和682个非汉字字符)GBK-95(20902个CJK汉字和符号)GB18030-2000,2023/9/11,2

13、7,(1)GB2312 80 汉字编码(1981年)包括 6763 个汉字和 682 个非汉字字符 GB2312 构成:一级常用汉字 3755 个,按汉语拼音排列二级常用汉字 3008 个,按偏旁部首排列非汉字字符 682 个 GB2312 构成一个二维平面,分成 94 行和 94列,行号称为区号,列号称为位号 区位码的区号和位号分别加上 32,得到国标交换码 国标码的两个字节的最高位置 1,得到 PC 机常用的机内码,2023/9/11,28,GB2312字符集及其码位分布,2023/9/11,29,GBK字符集及其码位分布,总计 23940 个码位,共收入 21003 个汉字和883图形符

14、号双字节编码,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”;简体和繁体汉字在同一个字符集中;包含了中、日、韩认同的全部CJK汉字;与GB2312-80保持向下兼容;,2023/9/11,30,GB18030-2000的编码,采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0 x00至0 x80码位。双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0 x81至0 xFE,尾字节码位分别是0 x40至0 x7E和0 x80至0 xFE。四字节部分采用GB 11383未采用的0 x30到0 x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0 x8

15、1308130到0 xFE39FE39。,2023/9/11,31,GB18030 双字节汉字的代码空间,2023/9/11,32,GB18030 四字节汉字的代码空间,2023/9/11,33,GBK和GB18030的应用,条件:输入显示与打印处理:排序、检索、分词.举例:扩充的汉字:朱鎔基,冃 冄 円 冇 冊 冋 冎 冏 冐 冑 冓 冔 冘 冚 冝 冞 繁體字:南京大學計算機係,今天天氣很好。,2023/9/11,34,汉字编码 小结,GB2312-80,GB18030-2000,GBK,CJK汉字字汇,兼 容,兼容,UCS/Unicode,ISO 646,ISO 2022,兼 容,兼容,

16、映射,2023/9/11,35,文本的准备,文本信息的输入:,2023/9/11,36,汉字的键盘输入编码输入编码要求:易学、易记、效率高、重码少、容量大输入编码分类:数字编码字音编码字形编码形音编码用不同的输入编码方法输入同一个汉字,其内码是一样的,汉字键盘输入,2023/9/11,37,原理:用专用笔在专用书写板上书写汉字(或符号)计算机实时自动识别 用该汉字(或符号)对应的代码进行保存例:“汉王”手写笔 正识率达到 90%以上,识别速度超过12字/秒,联机手写汉字识别,2023/9/11,38,分类:孤立语音/连续语音识别 小词汇量/大词汇量语音识别 特定人/非特定人语音识别 现状:特定

17、人连续语音识别率已达到 90%以上 目标:非特定人大词汇量的连续语音识别,汉语语音识别,2023/9/11,39,原理:用扫描仪将书、报等纸质文本的内容输入计算机现状:多字体、多字号、中西文混排、文字表格混排;识别率已达 99%,扫描后的图像文本,预处理,版面分析,文字切分,特征提取,文字识别,后处理,识别后的编码文本,图:印刷体文字识别的过程,印刷体汉字识别(汉字OCR),2023/9/11,40,原理:先用普通的笔在普通的纸上写汉字,再用扫描仪扫入计算机进行识别 特征:二维的汉字点阵图像 现状:难度较大,目前还在实验阶段 目标:非特定人脱机手写印刷体汉字的实用化,脱机手写汉字识别,2023

18、/9/11,41,文本处理(Text Processing),对字、词、短语、句子、篇章的检查、统计、识别、转换、压缩、存储、检索、分析、理解和生成等,2023/9/11,42,1、简单文本(纯文本)除了表达正文的字符和几个打印控制字符外,不含其它格式信息和结构信息。简单文本又称为纯文本,ASCII文本,其文件的后缀为“.txt”(文本文件)简单文本为一种线性结构,由若干行构成,每行由若干个字构成2、丰富格式文本在简单文本中增加格式控制和结构说明信息,构成丰富格式文本RTF是一种中间格式,它的目的是使各种丰富格式文本相互交换使用,文本的类型,2023/9/11,43,超文本采用一种网状结构来组

19、织信息一个超文本由若干个文本块组成,这些文本块称为节点节点可以是文字、图形、图像、声音或视频基于多媒体信息结点的超文本,也称为超媒体。例:Windows中的“帮助”文件就是一种典型的超文本,超文本,2023/9/11,44,超文本结构,a3,2023/9/11,45,文本的分类,按是否格式化分:简单文本(plain text)/丰富格式文本(rich text)按结构分:线性文本/超文本(hypertext)按是否可执行来分:静态文本/动态文本/主动文档,2023/9/11,46,文本处理软件,(1)面向通信的文本处理软件:Outlook Express(2)面向办公的文本处理软件:MS Wo

20、rd,WPS2000(3)面向印刷出版的文本处理软件:“飞腾”排版软件,PageMaker,PDF Writer(4)面向网络信息发布和电子出版的文本处理软件:FrontPage,PDF Writer,2023/9/11,47,文本的输出(阅读、浏览与打印),过程:对文本的格式描述进行解释生成文字和图表的映像(bitmap)传送到显示器或打印机输出2种文本阅读器/浏览器:嵌入在文本编辑(处理)软件中,如微软的Word,独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等。,2023/9/11,48,输出过程中字形的生成,过程:先根据字符的字体确定相应的字型库(font)

21、,再按照该字符的代码从字型库中取出该字符的形状描述信息,然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换,最后将变换得到的字形放置在页面的指定位置处。2种不同的字库:点阵描述 轮廓描述,2023/9/11,49,3.3 图象与图形,数字图像按其生成方法可以分为两大类:通过数字化设备获取的图像,它们称为取样图像(sampled image)、点阵图像(dot matrix image)、位图图像(bitmap image),以下简称图像(image);计算机合成的图像(synthetic image),它们称为矢量图形(vector graphics)

22、,或简称图形(graphics);两者在外观上很难区分两者有许多不同的属性,一般需要使用不同的软件进行处理,2023/9/11,50,图像的获取过程,图象的获取设备:扫描仪,数码相机,2023/9/11,51,(1)取样:将图像分成 M*N 个点进行取样(2)分色:将每个点分成 R、G、B 三个基色。(3)量化:对每个分量进行 A/D 转换,再用数字量表示,图像的数字化,2023/9/11,52,功能:将现实的景物输入到计算机内 种类:2D 扫描仪、数码相机、3D 扫描仪等,数字图像获取设备,2023/9/11,53,每个取样点称为像素 彩色图像用三个矩阵来表示矩阵的行数称为垂直分辩率矩阵的列

23、数称为水平分辩率矩阵的元素值是像素颜色分量的亮度值 一幅取样图像,除了像素数据外,还有以下属性:图像分辩率:图像在屏幕上的大小位平面的数目:彩色分量的数目颜色模型:描述彩色图像所使用的颜色描述方法像素深度:各种颜色(亮度)分量的位数之和,图像的表示方法与主要参数,2023/9/11,54,黑白图象的表示,Black and white image,2023/9/11,55,灰度图象的表示,Gray scale image,2023/9/11,56,彩色图像的表示,图像的主要参数:图像分辨率,位平面数目,颜色空间的类型,像素深度(所有颜色分量的位数之和)等,2023/9/11,57,图像数据的压

24、缩,图像数据量的计算公式(以字节为单位):数据量=图像水平分辨率图像垂直分辨率像素深度8 数据压缩的必要性数据压缩的可能性数据压缩的两种类型:无损压缩有损压缩压缩编码方法的评价:压缩倍数的大小,重建图像的质量(有损压缩时)压缩算法的复杂程度,2023/9/11,58,图像压缩编码的国际标准,JPEGJPEG2000,2023/9/11,59,常用的图像文件,要求:熟悉常用的图象文件名了解它们有什么特性和适用的场合,2023/9/11,60,BMP图像文件,微软公司提出,在Windows操作系统下使用的一种标准图像格式,支持单色、16色、256色、真彩色图像,一个文件存放一幅图像,可以使用RLC

25、进行无损压缩,也可不压缩图像数据,非压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows 应用软件都能支持。,2023/9/11,61,TIF图像文件,是一种工业标准,有许多图像图形应用软件支持这种文件格式,大量使用于扫描仪和桌面出版,使用RLC、LZW等方法对图像数据进行无损压缩。支持单色、彩色图像。,2023/9/11,62,GIF 图像,颜色数较少(不超过256色),文件特别小,压缩比可调,适合网络传输。由于颜色数量受到限制,GIF更适合用来做插图、剪贴画等,用于色彩数要求不高的场合。GIF图象具有累进显示功能。GIF89a格式能够支持透明背景(JPEG不支持)。目前网页上有

26、大量的静态与动态GIF图象(20)。属COMPUSERVE公司,2023/9/11,63,GIF图像数据的交叉存储,行号 像 素 交插遍次 0 1 1 4 2 3 3 4 4 2 5 4 6 3 7 4 8 1 9 4 10 3 11 4 12 2 13 4 14 3 15 4 16 1 17 4 18 3,2023/9/11,64,GIF图像的累进显示,2023/9/11,65,GIF图像的累进显示,2023/9/11,66,GIF支持透明背景,GIF 图象中的某个色彩,在浏览器显示该图像时被忽略而不被显示出来。效果是使图像浮现在页面上,增强了网页的外观。例,2023/9/11,67,ANI

27、MATED GIF,将数张图片存成一个文件,从而形成动画效果 1 打开第1张图片;2 插入其他的图片;3调整每张图片显示的时间;4设定重复次数;5 放入网页,例,2023/9/11,68,数字图象处理,内容:去噪、增强、复原、分割、提取特征、压缩、存储、检索等主要目的:(1)提高图像的视感质量。如进行图像的亮度和彩色变换,增强或抑制某些成分,对图像进行几何变换,包括特技或效果处理等,以改善图像的质量。(2)图像复原与重建。如进行图像的校正,消除退化的影响,产生一个等价于理想成像系统所获得的图像,或者使用多个一维投影重建该图像。(3)图像分析。提取图像中的某些特征或特殊信息,如频域特征、灰度或颜

28、色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征以及关系结构等,从而为图像的分类、识别、理解或解释创造条件。(4)图像数据的变换、编码和数据压缩,用以更好地进行图像的存储和传输。(5)图像的存储、管理、检索,以及图像内容与知识产权的保护等。,2023/9/11,69,数字图像的应用,(1)图像通信。包括图像传输、电视电话、电视会议等。(2)遥感。(3)医疗诊断。(4)工业生产中的应用。如产品质量检测,生产过程的自动控制等。(5)机器人视觉。(6)军事、公安、档案管理等其他方面的应用。如军事目标的侦察,制导和警戒,自动火器的控制及反伪装,指纹、手迹、印章、人像等的处理和辨识,古迹和图片档

29、案的修复与管理等。,2023/9/11,70,常用(通用)图像编辑软件,微软公司 画图软件(paint):可查看和编辑处理.jpg、.gif 或.bmp图像。微软公司 imaging for windowsMicrosoft Photo EditorUlead system 的PhotoImpactACD System公司的ACDSee32Adobe PhotoShop,2023/9/11,71,什么是计算机图形(graphics),使用算法或几何要素(如点、线、面、体的位置、形状和大小)及表面材料的性质,在计算机中对景物和形体(无论是真实的还是假想的)进行描述(modeling),需要显示时

30、,计算机根据观察者的位置及光线的设定,生成该景物的图象。,2023/9/11,72,形体与景物的建模方法,2023/9/11,73,合成图像(graphics)的绘制,从景物的模型生成具有高度真实感的该景物的图像,此即所谓的图像绘制(rendering),也称为图像合成(image synthesis)。图像绘制的过程包括如下处理:,2023/9/11,74,计算机图形的应用,(1)计算机辅助设计和辅助制造(CADCAM)。(2)利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等。(3)作战指挥和军事训练。(4)计算机动画和计算机艺术。(5)其它:电子出版、数据处理、工业监控、辅助

31、教学、软件工程等。,2023/9/11,75,矢量绘图软件,专业绘图软件:AutoCADMAPInfo、ARCInfo办公与事务处理、平面设计、电子出版等领域:Corel公司的CorelDraw,Adobe 公司的Illustrator,Macromedia公司的FreeHand,微软公司的Microsoft Visio等内嵌的绘图软件,2023/9/11,76,计算机图形的标准,图形软件(编程语言)标准:国际标准:二维图形标准GKS,三维图形的国际标准是GKS-3D、PHIGS,工业标准OpenGL,微软公司的Direct-3D。图形数据交换标准:国际标准:CGM、WebCGM、SVG和ST

32、EP,公司标准:Autodesk公司的DXF,以及Microsoft公司的WMF等。,2023/9/11,77,3.4 数字声音,数字声音的特点:是一种连续媒体,传输与播放有实时性要求数据量大,对存储和传输的要求很高。数字声音的类型:取样(波形)声音语音(3003400Hz)全频带声音(2020kHz)计算机合成声音合成音乐(MIDI)合成语音,2023/9/11,78,波形声音的获取,方法:,2.量化(quantization,AD conversion),3.编码(encoding),模拟声音信号,1.取样(sampling),2023/9/11,79,波形声音获取设备,联机获取设备(声卡

33、),脱机获取设备:数码录音笔,2023/9/11,80,声卡的基本构成,2023/9/11,81,声卡的功能与原理,波形声音的获取、编码;波形声音的重建、播放;MIDI消息的输 入;MIDI声音的合成、播放;(CD-ROM 驱动器的控制,CD-DA声音的播放),2023/9/11,82,声音的重建解码:把压缩编码的声音恢复成压缩前的状态数模转换:将数字量转换为模拟量插值处理:将离散样本变为连续的声音声卡输出的声音送到音箱去发音普通音箱:接收重建的模拟声音信号数字音箱:直接接收声卡输出的数字声音信号,声音的播放,2023/9/11,83,声音录制与播放的处理过程,波形声音的表示及参数,二进制串行

34、表示,比特流(bitstream)形式按一定的标准或规范进行了压缩编码数据的结构按物理属性(时间,声道)进行组织,语义上没有结构化。主要参数:sampling frequency(取样频率)quantization bits(量化位数)number of sound channels(声道数目)encoding method(compression method)(压缩编码方法)bit rate(码率,比特率),每秒钟的数据量,2023/9/11,85,波形声音的数据压缩,波形声音的码率=取样频率 量化位数 声道数 全频带声音的压缩编码:第1代压缩编码:PCM编码第2代压缩编码:感知声音编码,

35、2023/9/11,86,语音压缩编码的3类方法,波形编码语音质量高、算法简单、易实现参数编码(模型编码)模型编码:模拟人发声过程,声音质量差,用于保密通信混合编码码率适中、压缩比较高、语音质量较好,2023/9/11,87,全频带声音的第1代编码技术,全频带声音指的是10 Hz20,000 Hz范围里的所有可听声音.也叫做宽带声音或高保真(high-fidelity)声音;第1代全频带数字声音(CD,DAT)的编码采用PCM编码:采样频率:44.1 kHz 或 48 kHz量化精度:16位声道数目:1或2码率:705.6/768(kb/s)或 1.41/1.54(Mb/s),2023/9/1

36、1,88,全频带声音的第2代编码技术,目标:在保持高保真声音质量(transparent compression)的前提下,降低码率,减轻网络带宽的压力;不但充分使用声音信息的统计冗余,而且利用人耳的听觉特性,即使用“心理声学模型(psycho-acoustic model)”,来达到压缩数据的目的,称为感知声音编码(perceptual audio coding)。,2023/9/11,89,全频带数字音频的编码标准,MP3音乐是什么?Dolby AC-3是什么?Real Audio是什么?,2023/9/11,90,关于流媒体,音(视)频媒体的传输要求高带宽连续实时传输平稳传输,克服突发问

37、题传输音(视)频媒体的2种方式先下载,后播放(下载方式,需要等待很长时间,有很大的存储需求)边下载,边播放(流式传输方式,不需要下载完整个文件,只需经过几秒或十数秒的启动延时即可进行播放),2023/9/11,91,什么是流媒体(Streaming)技术,流媒体技术就是允许在窄带网上让用户一边下载一边收看(听)音视频连续媒体的技术。(Small packets of information comprising an audio or video file flow sequentially across the net to your computer only a step ahead o

38、f when you view(or listen to)them)使用流式传输技术的音/视频媒体,称为流媒体。1995年出现,优点:1.等待时间大大缩短;2.减少了对缓冲容量的需求;3.降低了对网络带宽的要求。,2023/9/11,92,流媒体是如何工作的?,a streaming media link is clicked,http(TCP),sends a steady and continuous data stream,2023/9/11,93,HTTP,RTSP,and RTP/RTCP,the proper player or plug-in,Web服务器,Web browser

39、,HTML files,(客户端),http/TCP,启动A/VHelper程序,参数:编码类型,服务器地址等,RTSP/TCP,RTP/UDP,控制播放、暂停、快进、快倒及录制等命令,将A/V数据传输给A/V客户程序,RTCP/UDP,2023/9/11,94,Streaming Technologies,四方面的技术内容:Encoding and creation tools(制作)Servers and media files(发布)Transmission(传输)Media players or plug-ins(播放)三个公司的产品:Real Networks公司的 Real Med

40、ia微软公司的 Windows Media 苹果公司的 Quick Time,2023/9/11,95,波形声音的文件格式,.wav(waveform),主要用在PC上,.PCM,使用PCM编码的声音文件,.VOC,声霸卡使用的音频文件格式mp2,MPEG Layer I,II,mp3,MPEG Layer III,rm,ra(RealAudio),RealNetworks的流式声音文件.wma,微软公司的流式声音文件.aif(Audio Interchangeable File Format),苹果机,2023/9/11,96,数字语音编码标准,标准方法比特率质量时间应用G.711PCM64

41、4.41972PSTNANSI 1015LPC-102.42.71976保密通信G.721ADPCM324.11984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA)VSELP83.51992IS 96(北美CDMA)QCELP1-83.41993日本蜂窝通信VSELP6.83.31993G.729ACS-ACELP84.21995IP电话G.723.1(H.323,H.324)ACELP6.33.981995IP电话半速率GSM(欧洲蜂窝通信)AMR5-63

42、.41995新的低速率ANSI标准MELP2.43.31996,2023/9/11,97,数字语音的应用,记录/回放方式的应用数字录音机(DAT)数码录音笔 语音复读机,电子有声读物,通信/广播方式的应用电话,移动电话IP电话DAB,合成声音的应用自动应答系统虚拟播音员Story on demand,2023/9/11,98,语音合成(TTS),查找拼写错误,对不规范或无法发音的字符进行过滤。分析文本中词或短语的边界,分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。,根据文本的结构、组成和标点符号,确定发音时语气的变换以及不同音的轻重方式。分析并决定各个音节的声调、语气和停顿方

43、式,发音的轻重、长短等,2023/9/11,99,音乐合成(MIDI),乐曲的计算机表示方法MIDI Message乐曲的制作软件音序器存放乐曲的文件.MID 文件播放乐曲的软件 媒体播放器乐器声音的生成 声卡上的音乐合成器,2023/9/11,100,音序器软件的功能,MIDI乐曲的记录与制作;MIDI乐曲的编辑,包括各种修改功能;MIDI乐曲的播放,包括任意轨道的播放;MIDI乐曲的存储;乐谱的生成与打印。,2023/9/11,101,MIDI合成器的特性 1,MIDI合成器相当于一个电子乐队,它划分成16个 Channel(通道),每个通道是1个逻辑合成器,各个逻辑合成器可演奏不同的乐器

44、和不同的乐谱。每个通道的volume,pan,reverb level及其它特性均可独立设置。,2023/9/11,102,MIDI合成器的特性 2,每个通道能演奏最多128种不同的乐器(称为音色)。不同乐器有不同编号(称为Program或Patch号)。每个通道一次只能演奏一种乐器,但可随时改变。,2023/9/11,103,基于PC的电脑音乐系统,视频(video):随时间变化其内容的一组图象(24,25,30帧/秒),又叫运动图象或活动图象(motion picture)。常见视频信号:电视,电影,动画等.视频信号的特点:内容随时间而变化,伴随有与画面动作同步的声音(伴音),人类接受的信

45、息70%来自视觉,其中活动图象是信息量最丰富、直观、生动、具体的一种承载信息的媒体。视频信息的处理是多媒体技术的核心。,3.5 数字视频及应用,2023/9/11,105,电视信号的彩色空间,彩色电视信号在远距离传输时,使用亮度信号Y和两个色度信号U、V来表示,与RGB表示可按下式进行转换:亮度分量 Y=0.3*R+0.59*G+0.11*B 色度分量 U=0.493*(B-Y)色度分量 V=0.877*(R-Y)使用Y、U,V彩色空间的优点:Y和U,V是独立的,因此彩色电视和黑白电视都可以使用,Y分量可由黑白电视接收机直接使用而不需做任何进一步的处理;可以利用人的视觉特性来节省信号的带宽和功

46、率,通过选择合适的颜色模型,可以使U,V的带宽明显低于Y的带宽,而又不明显影响彩色图像的质量。,数字视频信号的获取,视频信号数字化过程:,亮度信号的取样频率:13.5MHz,U,V色度信号的取样方式有多种不同格式,2023/9/11,107,亮度信号的取样(CCIR601),ITU-R BT.601标准(CCIR601,美国称为D1标准),对3种制式电视的取样频率和有效分辨率都作了统一规定。每一行的像素数目:PAL:13.5MHz=62525N=15625N,N=864NTSC:13.5 MHz=52530N=15734N,N=858 有效(可显示)像素 均统一为:720,2023/9/11,

47、108,色度信号的取样(CCIR601),人对颜色的敏感程度远不如对亮度信号那么灵敏,所以色度信号的取样频率可以比亮度信号的取样频率低,以减少数字视频的数据量。色度信号的取样频率有4种:,色度信号的4种取样格式,常用数字视频信号的规格,2023/9/11,111,视频捕获(采集)卡的功能,从多种视频源中选择一种作为视频输入;支持不同的电视制式;能同时处理图像信号的伴音;可在显示器上监看输入的视频信号,其位置及大小可调;能将计算机生成的图像/图形/文本与视频图像迭加处理;可随时冻结(定格)一幅画面,并按指定格式保存;可 实时压缩与存储视频及其伴音信息;可 实时解压缩并播放视频及其伴音信息,输出设

48、备可选(VGA监视器、电视机、录相机等),视频采集(捕获)卡的结构,2023/9/11,113,数字摄像头,最高分辨率为640480,一般都是352288,速度一般在30fps(每秒30帧)以下,镜头的视角可达到45-60度,支持USB接口 或FireWire(火线)接口。,2023/9/11,114,数码摄像机,提供480线以上的分辨率,清晰度高,自动对焦(Auto focus),自动曝光(Auto Expose),使用M-JPEG或MPEG-2进行压缩编码,然后记录在磁带或磁盘上,提供录音功能,数据量很大,采用USB接口或IEEE1394(FireWire)接口,后者传输速率可以达到200

49、-800MB/s。,2023/9/11,115,数字视频的压缩编码标准,2023/9/11,116,数字视频的应用模式,Recording and playback模式VCDDVD数字录像带Communication 模式单向(Broadcasting:数字电视,Web-TV)双向(Interactive:ITV,VOD,可视电话,视频会议),2023/9/11,117,数字视频应用的关键技术,存储/通信介质与信息记录/传输方法(物理层)大容量(高速率)可靠性数据组织与存取方法(系统层)随机存取不同系统之间的互操作音视频数据编码(应用层)数据压缩、可伸缩性、基于内容、抗错能力,音视频同步,实时

50、播放,数字电视的传播途径,数字视频节目,视频服务器,光盘制作,地面无线(DVB-T),卫星(DVB-S),CATV(DVB-C),Internet,VCD,DVD,解码器,电视机,PC机,2023/9/11,119,VOD系统的分类,按系统规模:小型视频点播系统:100个用户以内中型视频点播系统:100300之间大型视频点播系统:300户以上按响应方式:True VOD Near VOD按交互性:节目内交互(intraprogram)全交互电视节目间交互(interprogram),2023/9/11,120,VOD系统的组成,包括:服务器,网络和客户端3大组成部分,客户/服务器模式,连续媒体

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号