《多媒体通信技术研究论文.doc》由会员分享,可在线阅读,更多相关《多媒体通信技术研究论文.doc(11页珍藏版)》请在三一办公上搜索。
1、研究生多媒体通信技术课程报告题 目: 多媒体同步技术 学 号 姓 名 院(系、所) 一、 背景随着网络通信技术、巨容量存储技术、计算机处理能力、用户界面以及信息压缩技术的发展和改进, 使得在用户操作环境内使用不同的媒体成为现实.这些媒体可以组合在一起提供非常广泛的应用, 如教学、广告、娱乐以及可视电话和会议电视等在多媒体系统中一个非常重要的环节是多媒体数据的表现, 这是指将各种类型的媒体按照某种关系同时和或顺序地表现出来. 多媒体数据主要有3 种类型: 静态、动态和混型。静态型是指以不同空间方位排列的文本和图象组成的电子文件, 是与时间无关的媒体对象. 动态型数据是指语音讲解、视频图象或动画等
2、依赖于时间的媒体。混合型是由静态和动态类型数据构成的复合表现形式。在多媒体应用中, 为了加深对某一目标对象的理解, 往往需要对某些媒体执行诸如加速、减慢、重复或重新生成组合等交互性操作, 从而要求多媒体系统中不同媒体之间具有独立性、共存性、集成性和交互性.另外, 各种媒体经由不同传输路径时, 也会引起不同程度的延迟和误差, 从而破坏了媒体间的协调性。多媒体对象的表现不仅包括静态的( 即在某一时间段上表现保持不变) , 如以不同空间方位排列的文本、图像或图形, 而且包括动态的即时变的表现类型, 如音频和视频, 动态和静态的复合, 如带语音注解的文献. 这种复合表现形式在多媒体应用环境中更普遍,
3、表现是多媒体信息系统的一个重要特征, 是需要一定时空的一次活动. 多媒体对象在整个表现过程中与时间有关, 同时在每个表现点上又与空间相关。多媒体对象表现的基本思想是以时间为主线来安排活动的开始、中断、继续、终止等操作, 仅在合成对象上附加各自的空间特性( 置、大小等) 。 可见, 多媒体对象表现的关键是确定多媒体对象在时间上的顺序, 即多媒体的时间同步。多媒体技术需要同时处理声音、文字、图像等多种媒体信息,在多媒体系统所处理的信息中,各个媒体都与时间有着或多或少的依从关系。系统中各媒体在不同的通信路径上传输,将分别产生不同的延迟和损耗,造成媒体之间协同性的破坏,因此,媒体同步也是一个关键问题。
4、多媒体系统中有一个核心系统(即多媒体操作系统)就是为了解决声音、图像、文字等多媒体信息的综合处理,解决多媒体信息的时空同步问题。二、 多媒体同步概念与要求我们一般的,称维持一个或者多个的多媒体时间顺序的过程为多媒体同步过程。多媒体通信的同步是在整个多媒体通信过程中的,而不仅仅是在多媒体显示过程中才有的。多种媒体的相互关系可以总结为一下三种:内容关系、空间关系、时间关系。多媒体同步主要是以上三种关系的确定。不难看出,在这3种同步关系中,时间关系是最重要的一种,在实际应用中时间关系也是考虑得最多的一种关系。实际上,多媒体同步指的就是各类媒体在事件发生时间顺序的确立。多媒体的同步类型可以分为三种:上
5、层同步,中层同步和底层同步。同步的要求主要是:多媒体通信同步、多媒体表现同步、多媒体交互同步、时延抖动和时延。根据多媒体同步体系结构中的不同层次的同步要求,在实现系统中表现为不同的多媒体同步。上层同步也称为表现级同步或交互同步、应用层同步,即用户级同步。在这一级,用户可以对各个媒体进行编排,由此决定何种媒体何时以何种时空关系表现出来;中层同步是信息合成同步,即不同媒体类型的数据之间的合成,所以,合成同步又称为“媒体之间的同步”。这层同步涉及到不同类型的媒体数据,侧重于它们在合成表现时的时间关系的描述。媒体之间的同步,除了数据的开始点和结束点必须保证以外,从开始点到结束点的整个过程中均要求保持同
6、步;底层同步即系统同步,也称为媒体内部同步。该层同步是要完成合成同步所描述的各媒体对象内数据流间的时序关系,要根据具体多媒体系统性能参数来进行。三、 多媒体时间同步关系多媒体的同步就是指各个媒体间的发生时间顺序的关联问题,这就不得不去面对一个时间的先后关系问题。3.1 媒体间的时间顺序关系图3.1两个对象中的关系媒体类型可以分为连续媒体和离散媒体。连续媒体就是在时间上是连续的占有一定的时间,并且媒体的每个单元的播放时间相同。离散媒体包括文字和静态图像等,它们不占有时间域,表现为显示或不显示两种状态,它们不随时间变化,但在具体应用时,同样可以赋予时间特性。图3.1表示的是两种媒体对象中的典型的七
7、种时间关系,其他的时间关系都是由这其中关系直接或间接组合。主要关系:A在B之前无混叠;A在B之前有混叠A先结束;A和B同时发生但是A先结束;A和B同时发生同时结束;A刚完成,B接着发生;B先发生,A先结束;B先发生A和B同时结束。3.2 媒体间的时间同步媒体中的时间同步主要分为两步:媒体对象的内部同步和媒体对象间的同步。媒体对象内部同步主要是指一种连续媒体各个单元之间的时间关系,比如视频中图像信号的发送,每个帧之间的时间关系,如图3.2:图3.2媒体对象间的同步指不同媒体对象之间的时间关系。如图3.3描述的就是一种视频(包括图像、声音)各个不同媒体对象间的关系。图3.3从同步建立的时间来区分,
8、同步可以划分为实时同步和综合同步两种。实时同步是指在动态的过程中两媒体间时刻要保持同步的关系状态。所谓综合同步是指将不同的信息(这些信息可能是离散的,也可能是连续的)按照人为给定的时间顺序即同步关系进行播放的过程。四、 多媒体同步模型4.1 层次同步模型层次同步模型主要由两项基本操作构成:串行同步和并行同步。层次模型的同步都是基于这两种操作而言的。层次模型的特点是,并发的同步都是同时进行的也是同时结束的,在现实中大部分都会不能达到这种要求,所以在层次模型中就引入了“延时”的概念。延时的对象可以解决串行同步中各个多媒体对象中不连续性,以及并行的同时开始同时结束的问题。但是这种同步依然有无法描述的
9、情况。4.2时间间隔同步模型时间间隔同步模型考虑同步对象之间的时间延迟关系。两个对象之间的时间关系有多种分类方法。在这种模型中,一个媒体对象播映所持续的时间称为一个时间间隔。图3.1表明的也是一种分类方法。在上述的七种关系基础上,时间间隔模型又定义了10标准操作:四种一元操作(图4.1),五种二元操作(图4.2),一种三元操作(图4.3)。一元操作:图4.1二元操作:图4.2三元操作:图4.3时间间隔模型可以处理那些不能预测持续时间的情况,因此也可用于处理用户交互操作,它对媒体对象的内容做了一个很好的抽象。但该方法不能对偏移进行描述,也不能对媒体对象子单元间的时间关系作直接描述。4.3 时序P
10、etri网模型时序Petri网(TimedPetriNetS)模型是由Petri网加上时间说明扩展而成的。这种同步关系模型易于集成时间独立媒体对象和交互式对象,易于集成对偏移QOS的描述,但该方法对媒体对象内容的抽象不好,媒体对象被分成了许多子对象,此外描述较为复杂。4.4 时间轴模型时间轴模型,所有的单个媒体对象都被放到一个代表真实的全局的时间轴上,各个对象互相独立,删除其中的某个对象不会影响到其他对象的同步,因而易于维护,如图4.4所示。图4.4 时间轴模型时间轴模型用途十分广泛,很多系统都采用这种形式描述多媒体对象的同步关系。但由于同步是定义在固定的时间点上,因此当对象包含有不能预测持续
11、时间的子单元时,情况就会比较复杂,那么在实现时必须考虑以下问题:(1)时间轴上的每个媒体单元必须保证时刻与时间轴同步,由此来保证它与其它对象之间的同步;(2)时间轴上的每个媒体单元的播放时间必须是已知的,不能出现媒体单元时间不可知的情况。五、 多媒体同步方法多媒体同步是多媒体通信技术中最关键的部分,所以国内外有很多相关研究定义各种各样的同步方法,在这里就不一一列举,主要提出三类的同步方法。5.1 分层同步法在这种同步方法中,多媒体对象被看成一棵树,而树中的每个节点代表了分支的串行或并行表现。分层同步主要基于两种同步操作:一种是串行同步动作,另一种是并行同步动作川。动作可以是单一的也可以是复合的
12、,单一的动作用来处理单个媒体对象的表现,复合动作是同步操作和单一动作的结合。层次模型结构清晰,在谋体对象合成后,便于更改,这有利于合成多媒体对象的编辑,正是由于其操作简单,使其得到了广泛的应用。然而,由分层结构带来的限制使得同步只能发生在起点和终点进行同步,这就使得分层同步无法从媒体对象中进行抽取,只能达到粗粒度的同步效果。这也决定了很多情况下无法用分层结构来描述。5.2 时间轴同步法将所有独立的对象都关联到一个时间轴上进行描述的方法称之为时间轴同步法。去掉时间轴上的任何一个对象都不会影响其他对象的同步,这种同步方法需要维持一个整体时间,每个对象可以将整体时间映射到它的局部时间,并依据此局部时
13、间来表现。当局部时间与整体时间的误差超出一个指定限度时,则需要重新与整体时间进行比较并校准。通过时间轴方法同步的对象可以较好地从单媒体对象和多媒体对象的内部进行抽取。然而,多媒体流之间的相关性使得基于整体时间的同步方法不能有效地表述不同流之间的同步情况。5.3 参考点同步法时间相关的媒体表现被认为是一个具有固定时片表现的离散子单元序列。子单元在对象中的位置被称为参考点,参考点同步被定义为同时表现的两个不同对象的子单元的关系。与基于时间轴的同步方法类似,基于参考点的同步可以在表现的任何时候实现同步。但是,相对分层同步来说,基于参考点的同步还需要检测媒体之间的不协调,这就增加了操作的复杂性。另外,
14、单纯的基于参考点同步不能实现多媒体表现中的延迟动作。总结起来基于参考点的媒体间同步法具有以下优点:1) 动态对象的表现可以在松散和紧密的复合同步之间进行灵活选择,从而使得这种方法比只使用一个绝对或虚拟的时间轴作为同步依据的方法更灵活:2) 在一些不可预测的表现情况下(如出现网络阻塞的情况),该方法也能很好地处理对象之间的同步;3) 如果表现对象延迟了,则利用这种方法仍然能够保持住同步点;待添加的隐藏文字内容24) 通过改变动态对象的表现周期,可以非常简单地实现快进、回放以及减慢等操作,而且这些操作也不会影响同步点。六、 多媒体同步技术(集成语言SMIL)多媒体通信的关键问题,是如何利用同步机制
15、使两个多媒体片段并行播放(比如视频配上同步的字幕和音频)。SMIL就解决了这个问题。SMIL是同步多媒体集成语言(Synchronized Multimedia Integration Language)的缩写,念做smile.它是由W3C(World Wide Web Consortium)组织规定的多媒体操纵语言。SMIL与我们网页上用的HTML的语法格式非常相似。后者主要针对普通的网络媒体文件进行操纵(文字、图片、声音、动画、视频的机械堆砌),而前者则操纵多媒体片断(对多媒体片断的有机的、智能的组合)。SMIL语言特点:(1) 避免使用统一的包容文件格式 因为我们的多媒体文件的格式的时非
16、常多的,例如:像声音就有*.mp3、*.wav、*.ra等等;视频的格式更是多的出奇:*.mpg、*.avi、*.mov、*.rm等等;图片的格式就更加不用说了。J 如果我们想在本地机器上直接播放或者在网络上用流式播放的方式来播放若干个文件。当然我们希望的是不要总让我们自己打开文件。而是,在上一个文件播放完成以后,就播放下一个。播放列表是个办法。但是,如果格式不一样,并且要求多个片断同时播放(例如:显示图片的同时,有解说的声音。图片和声音是两个文件),那么以前唯一可行的办法就是用对媒体的编辑软件把这些多媒体文件整合成一个文件。这就必须统一使用某种文件格式。如果我们用SMIL来组织这些多媒体文件
17、,那么可以在不对源文件进行任何修改的情形下,获得我们想要的效果(从这里来看,SMIL好像是穿珍珠项链用的金丝线,只是把它们穿起来组成一个整体,而不会破会它们)。(2)同时播放在不同地方(服务器上)的多媒体片断 如果上面第一点你还可以用其他的办法做到,那么这一条恐怕你就没辙了。考虑这样一个实际问题:假如我们现在想把一段电视采访的实况(视频文件)加上解说(包括声音解说(音频文件)和文字解说)。姑且假定例子中的视频文件是甲服务器上的A文件,音频文件是乙服务器上的B文件,而解说文字却是丙服务器上的C文件。传统的方法在这里就束手无策了,而SMIL可以非常轻松的做到这一点。 (3)时间控制 如果我们不想用
18、整个视频文件,而只想用其中的某一部分。传统的方法中唯一可行的就是用剪辑软件来剪辑。费时费力不说,弄不好就弄巧成拙,把想要的给剪掉了!而SMIL完成这件事真的是易如反掌!看这样一个例子:设视频文件A的时间长度是10秒,我们要用的是25秒,其他部分我们不想要,只要用SMIL规定:在该视频文件A的第二秒开始播放,播放到第五秒结束就可以了。 时间控制的另外的部分是动画和转场效果。如果上面的时间控制是丝绸,那么这个就是在它上面的双面刺绣!后面我们将要详细讨论这个问题。(4)对整个演示进行布局 我们把上面提到的那个例子拿来说明这个问题:由于我们有视频、有文字我们希望什么样的布局呢?一般的情形下在一个区域(
19、屏幕的上部)播放视频,在另一个区域显示文字(屏幕的底部)。当然,如果你认为在视频上面显示文字效果更好的话,那也是可以的。用SMIL实现这样的效果异常容易! (5)多语言选择支持 分析这样一个实际例子:我们要为某种产品作宣传,其宣传对象是多个国家的人,有英语国家的、有法语国家的、有德语国家的等等。当然最主要是讲中文的国家的人(我是中国人!)。如果我们想要所有的人都可以听懂、看懂我们的介绍,那么我们就的准备不同语言版本的媒体文件。传统的方法是让用户来选择,然后从服务器上下载相应的版本。麻烦就不用讲了。万一我们的选择老外都看不懂(有时候,我到德文、日文、朝鲜文的站点上,就不知道他们讲些什么东西L),
20、这怎么办?如果把他们用SMIL来组织起来、规定好,那么SMIL语言将根据具体的语言设置来播放相应版本的演示。就是方便! (6)多带宽选择支持 由于各个用户连接到Internet的方式不尽相同,所以其连接的速度差别也较大。为了让他们都能够看到我们的演示,我们可以制作适应不同传输速度的演示。在传统的方法中,往往要用户自己选择他的机器连接所对应的传输速度,然后播放相应得演示文件。这确实解决了一些问题。实际上,并不是所有的用户都知道自己的连接速度,就是知道了,还得选择不也是非常麻烦吗?L SMIL解决这个问题如同吹灰!播放器检测出用户的连接速度后,就同服务器“协商”,要求传输并播放相应的演示文件。方便
21、乎?这也就是流技术中常常说的智能流(Surestream)中的一种.。SMIL最大的问题就是带宽问题。在internet上传输多媒体,就必须需要精确的同步,在通常情况下,一个浏览器仅仅下载流媒体文件的一部分,并且当文件播放时下载过程仍在继续。由于几种类型的多媒体能够同时传送给Web客户,这一过程实际上是并行完成的。以前因为大多数Web用户依赖于Modem,同步的多媒体演示通常对它们来说所需的带宽太高以至于无法胜任,但随着宽带网络的发展,多媒体同步的带宽难题已得到了很大的改善。针对以上问题,现在有几种主流的改进方案,其中一种就是预先传送整个文件而不是他的一部分到对端。SMIL可以帮我们解决很多同
22、步方面的问题,但它并不是万能的,所以我们也需要根据不同的情况建立不同的同步模型,再结合SMIL来进行更好的同步。七、 总结本文主要是针对多媒体通信同步问题的调研与探究,介绍性的描述了多媒体同步关系和要求,同步的模型以及同步的方法。针对以上的方法模型并没有具体的描述某个实例,去详细描述多媒体通信同步模型的建立和方法的选择。当然多媒体通信的同步,最重要的还是针对相关问题如何建立相关模型。本文类属于综述性的文章,就此结束。八、 参考文献1 许延,常义林,刘增基.多媒体同步技术研究. 西安:西安电子科技大学,2000.2王红爱.多媒体通信中同步问题研究.铁道部科学研究院.20053 许延,常义林,刘增基.多媒体同步系统中补偿缓冲区的设计.西安电子科技大学学报.20034 王钢. 多媒体通信媒体间同步技术的研究与实现.武汉理工大学,20045 蒋泰.多媒体同步技术研究.桂林电子工业学院,19986 宋军. 多媒体通信媒体间同步技术综述. 电信科学.19967 刘勇. 多媒体同步技术. 北京邮电大学学报. 19988 陈芳,沈晓军,陈洁.多媒体同步技术的研究. 北京工业大学学报. 19969