论文大规模分布式互联网应用的.docx

上传人:小飞机 文档编号:1675610 上传时间:2022-12-13 格式:DOCX 页数:14 大小:893.49KB
返回 下载 相关 举报
论文大规模分布式互联网应用的.docx_第1页
第1页 / 共14页
论文大规模分布式互联网应用的.docx_第2页
第2页 / 共14页
论文大规模分布式互联网应用的.docx_第3页
第3页 / 共14页
论文大规模分布式互联网应用的.docx_第4页
第4页 / 共14页
论文大规模分布式互联网应用的.docx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《论文大规模分布式互联网应用的.docx》由会员分享,可在线阅读,更多相关《论文大规模分布式互联网应用的.docx(14页珍藏版)》请在三一办公上搜索。

1、大规模分布式互联网应用的测量摘要:日益提高的效率与安全性需求催生了大量的大规模分布式新型互联网应用。这些网络应用所呈现的动态、分散、可扩展、高容错、隐私性强等特点,给网络应用的设计与管理带来了挑战。针对大规模分布式互联网应用进行测量,了解其行为特征、拓扑结构和流量特征,对于改进和管理互联网应用具有重要的参考价值。本文总结了新型互联网应用的测量研究框架,对新型互联网应用的特点、测量需求、技术难点进行分析,并以对等网络(P2P)在线视频服务、分布式匿名通信服务为例进行实例分析,介绍测量关键技术和未来研究方向。关键词:分布式;互联网应用;测量1 引言在信息社会,通信网络成为21世纪全球最重要的基础设

2、施之一。功能各异、形式多样的应用系统对数字信息的综合采集、存储、传输、处理和利用,最终都通过无处不在的网络平台完成,从而将全球范围的人类社会更紧密地联系起来,以不可抗拒之势影响和冲击着人类社会政治、经济、文化、军事、日常工作和生活的方方面面。随着互联网在世界范围内的迅猛发展,通过网络实现全社会的信息共享已逐渐成为现实。人们对互联网应用的效率与安全性的需求也日益提高,这种应用需求直接催生了大量的大规模分布式新型网络应用,这些新型应用从服务模式上解决传统网络应用在性能、安全性上的瓶颈问题,因此得到了广泛接受与快速发展。例如,近年来,伴随着世界网络经济的快速发展,对于包括网络电视、远程教育、视频会议

3、、在线游戏等在内的大量新兴网络应用服务的需求量剧增,而这些应用服务又都需要在线视频广播技术的支持。因此,在线视频服务作为一种具有变革意义的新型网络服务类型,自其诞生之初就吸引了研究界和产业界的注意。然而,以IPTV为代表的视频服务的发展始终受到各种因素的制约和困扰。传统的客户/服务器模式提供的点播和单播服务存在服务器接入链路带宽、输入/输出性能的瓶颈,而IP组播(IP Multicast)体系结构1和内容传送网络技术(Content Delivery Networks)也存在着可扩展性、部署成本等方面的问题。对等网络(P2P)在线视频服务是近年来兴起的新型大规模分布式网络应用,相比于传统的在线

4、视频服务,对等网络体系结构具有很多优势:首先,对等网络技术不依赖于网络路由器和底层基础设施,因此具有高性价比和比较好的可扩展性;其次,在对等网络中,每个节点既是服务器又是客户端,既是资源消耗者又是资源提供者,因此有多少需求就会产生多少资源,这就解决了在线视频服务巨大的需求规模带来的问题;再次,对等网络技术解决了原本客户/服务器网络架构对服务器过分依赖而导致的利用率低等问题,在一定程度上实现了对网络带宽资源的合理分配,缓解了网络带宽不足的问题,而且还丰富了节目源,让用户的选择余地更大。基于上述原因,对等网络在线视频技术越来越受到产业界的广泛青睐,展现了巨大的生命力。分布式匿名通信服务是伴随着互联

5、网应用的普及而产生和兴起的另外一种典型大规模分布式新型互联网应用。所谓匿名,是指保护用户身份信息的隐私,它已经成为很多网络应用的基本需求。在电子商务、电子选举、电子拍卖以及Web浏览、电子邮件、即时通信、在线医疗咨询甚至军事通信、情报通信等各种网络应用中,都存在保护用户身份以及通信关系等隐私信息不被泄漏的需求。然而,当前的互联网协议并不提供对匿名性保护的支持,网络管理人员、网络服务提供商甚至非法监听者都可以通过种种手段来获取网络使用者的身份信息、行为习惯等,危害个人隐私。尽管加密协议(如SSL、TSL、IPSec等)可以防止对通信过程中传递的信息内容进行窃听和分析,但是通过对网络数据报文的分析

6、仍能解析出通信的源地址、目的地址、报文长度、通信时间以及通信频率等,从而获知通信者的身份信息、网络行为特征或通信者之间的对应关系,侵犯个人隐私。这种缺乏隐私保护的现状已经严重影响了互联网应用的普及。因此,网络匿名通信技术作为一种保护网络用户隐私的基本手段,已经成为学术界、企业界甚至国家安全部门普遍关心的重要技术。如今,伴随着通信网络尤其是互联网的飞速发展以及新的网络应用的不断产生与普及,匿名技术得到了长足发展。大量的实用匿名技术被开发出来并被应用到匿名连接、匿名邮件、匿名存储、匿名选举等领域中。这些新型的互联网应用的产生和发展使其用户人数快速膨胀,对于互联网的研究与管理也产生了巨大的影响。以P

7、PLive(一种典型的对等网络在线视频系统)为例,2005年使用PPLive的用户数量为370万人,到2009年其用户数量将达到3690万人 Multimedia research group inc. Global Forecast 0805.html。对等网络在线视频流量发展至今已经成为网络流量的重要组成部分,而且随着用户增长其比重呈现上升趋势。Tor匿名通信系统的用户规模也达到几十万,大量网络用户通过网络匿名系统进行无序无控的信息交换,对于互联网的管理提出了巨大的挑战。因此,针对大规模分布式互联网应用进行测量,了解其行为特征、拓扑结构和流量特征,对于改进和管理互联网应用具有重要的参考价值

8、。本文针对大规模分布式新型互联网应用的测量问题进行研究,首先概述了现有的新型互联网应用的应用特点、测量需求、技术难点,然后以对等网络在线视频服务、分布式匿名通信服务为例进行实例分析,介绍测量关键技术和未来研究方向,最后总结全文并指出互联网应用测量的未来发展方向。2 新型互联网应用测量概述针对新型互联网应用的研究需求主要由两部分构成。一方面,从管理角度,有必要对这些应用的发展情况、其拓扑特征以及流量特征等进行了解,以实现对其监测、引导、控制等方面的需求;从另一方面来看,现有的新型互联网应用基本上都是基于大规模分布式网络用户相互协作的模式提供服务,因此对用户行为特征、地理分布以及拓扑特征等信息有所

9、了解,有助于设计出更符合真实网络应用环境的系统或协议。目前,新型互联网应用存在诸多问题需要解决:这类应用通常启动多个并发进程(或线程)进行数据传输和消息通信,极大地增加了网络负担,使网络拥塞现象日益严重;另外,其参与者往往是处于互联网边缘的个人用户,这类计算机系统缺乏有效的保护措施,再加上防火墙穿透技术在新型网络应用中的广泛使用,使得原本一些相对安全的主机失去保护而暴露于各种网络攻击之下;最后,新型网络应用中的共享资源以及通信过程往往缺乏有效的监管机制,大量的数字媒体被非法传播或受到恶意篡改,给知识产权拥有者造成巨大的经济损失,给互联网的内容监管也带来了挑战。简单的封杀、禁止新型网络应用并不能

10、最终解决问题,需要寻求网络用户、网络运营商以及内容提供商三方公平博弈共赢的解决方案。准确细致地测量、分析新型网络应用的性能,在网络监管、网络应用优化以及可生存性等多个层次上探索可行的技术方案,是有效解决上述问题的关键。然而,目前的新型网络测量技术与分析方法尚未成熟,不能完整、准确地获取新型网络应用的拓扑结构、用户行为、系统性能和连接与流量特征等信息,很难系统地分析网络特征。主要原因在于:(1)新型网络应用成长速度快,网络规模巨大,现有的原本只适合于中小规模网络的测量和拓扑分析方法不能直接应用到新型网络应用环境;(2)新型网络应用具有很强的动态特性,节点上下线频繁,覆盖网络的流量特性也不再像传统

11、的电信业务流量那样符合泊松模型,传统的网络测量分析手段在速度和效率上不能满足要求;(3)新型网络应用本身具有异构特性,网络中的节点通过不同的方式连接到互联网上,原有手段难以测量处于防火墙后面的节点;(4)目前对新型网络应用本身了解甚少,测量分析工作不得不建立在一些假设基础上,难以保障测量数据和拓扑分析的准确性、有效性和完整性;(5)很多新型网络应用具有抵御测量的措施,以躲避针对新型网络应用的识别与监管,需要结合特定测量对象研究具有针对性的测量技术来破解这些措施。从新型网络应用的发展趋势和应用情况来看,目前针对新型网络应用测量的研究框架如下图所示:图1. 新型网络应用测量的研究框架具体的研究内容

12、包括:1. 测量框架研究:研究新型网络应用的体系结构,建立规范、完整的测量系统框架;研究快速测量方法和测量数据获取策略;研究主被动相结合的新型测量方案;利用形式化的方法研究测量结果的完备性与正确性;研究测量系统的评价指标,包括稳定性、资源消耗代价、结果可靠性、准确性等;开发测量系统的仿真验证平台等;2. 测量测度研究:定义统一的、具体的、可重复的测量测度,从而解决目前测量目标分散,结果各异的问题,满足研究者、用户、运营商、应用运行人员之间知识传递以及进行不同系统比较的需求;3. 测量关键技术:包括面向运行规律的测量和面向运行效果的测量。从具体的测量内容来看,面向运行规律的测量包括用户行为的测量

13、与建模、网络拓扑的测量与建模、网络流量的测量与建模等内容,需要解决的技术难点包括用户行为特征的发现与采集、网络流量的识别等;面向运行效果的测量主要是从用户的角度对互联网应用系统进行测量研究,包括系统可用性测量、系统效率的测量等内容,需要解决的技术难点是测量结果的可信性验证等问题;4. 新型网络应用的设计与改进:基于网络应用的研究成果,设计更符合新型网络运行特征的协议或系统。对等网络在线视频服务、分布式匿名通信服务是两种典型的大规模分布式互联网应用。接下来,本文以这两种系统的测量为例进行实例分析,介绍测量关键技术和未来研究方向。3 对等网络在线视频服务的测量3.1 相关研究概述随着对等网络在线视

14、频服务的广泛流行,大量成功的商业对等网络在线视频系统(如PPLive、PPStream等)迅速发展起来,对等网络在线视频流量在网络流量中迅速地占据着越来越大的比例。面对这样的情况,对对等网络在线视频系统进行详细的测量就显得尤为必要了。通过测量,我们能够了解对等网络在线视频系统的行为特征、拓扑结构和流量特征等信息,这些对于改进和管理对等网络在线视频系统、优化网络资源配置等都有着重要的参考价值。a.被动嗅探方法b.主动爬行方法图2. 测量方法示意图对等网络在线视频系统规模巨大并且具有动态性特征,加上对等网络在线视频协议大部分都是私有、未公开的,这些都增加了对对等网络在线视频系统进行测量的难度。如果

15、掌握了某对等网络在线视频协议,就可以比较容易地取得系统日志,根据日志提供的信息对系统进行分析。张(音译,Zhang)等人在2中对于CoolStreaming系统的用户行为和视频质量接受度进行了测量,这是第一篇对等网络在线视频测量的文章。 吴(音译,CWu)等人在3和4中分别给出了UUSee的拓扑结构特征和流量特征。对于那些不公开协议的系统,测量方法可以分为被动嗅探(Passive Sniffing)和主动爬行(Active Crawling)两类。黑晓军(音译,XHei)、阿里(SAli)、希尔沃斯顿(TSilverston)分别在57中使用的测量方法就是被动嗅探。被动嗅探方法可以对被测系统的

16、流量特征(包括上下行带宽、TCP Transmission Control Protocol,传输控制协议/UDP User Datagram Protocol,用户数据报协议流量比例、TCP连接特征等)进行测量,可以发现被测系统在网络资源占用方面的一些特征,但无法了解网络的全局情况;为了克服这一缺点而发展起来的主动爬行方法则需要设计符合被测系统通信协议并且专用于测量的客户端-爬行器(Crawler),这种客户端能够与被测系统所有的节点进行通信,通过通信可以获得所需要的测量数据。黑晓军的8、9和胡( 音译,L.Vu)的10、11则都是首先对被测系统的通信协议进行分析,然后通过设计一个支持协议的

17、爬行器来主动探测系统并收集信息,从而达到测量系统的目的。对于对等网络在线视频系统的测量内容有很多,可以总结分类为用户行为、系统性能和连接与流量特征三大类。在目前的相关研究中,对于PPLive的测量工作做得比较多也最为深入。整体上看对等网络在线视频系统设计方面的研究相对已经比较深入,而在系统测量和安全方面的研究目前仍处于起步阶段,其主要原因在于目前所有对等网络在线视频协议为各个商业公司私有,无形中成为制约这些研究开展的主要障碍。要进行详细科学的系统测量必须掌握通信协议。3.2 对等网络在线视频系统的测量方法目前关于测量方面的相关研究一般采取以下三种方法:1. 基于嗅探的被动测量方法:所谓被动方法

18、就是将被测系统看作黑盒,利用像Tcpdump等嗅探器来捕捉系统通信流量,再进行分析测量。这类方法可以在不了解协议约定的情况下使用,一般搭建一个真实环境,通过嗅探机对客户端与对等网络络的通信流量进行统计测量。这样的测量方法只能对TCP/UDP流量比、上传下载带宽占用情况等一些初步的流量行为进行测量,而且也只能反映出本地客户端的情况,无法对整个对等网络有一个全局的了解。早期的一些测量研究中由于没有协议格式约定因此普遍采用这种方法;2. 基于协议逆向工程的主动方法:所谓主动测量方法是首先对被测系统的通信协议进行分析,然后通过设计一个爬行器来主动探测系统并收集信息,从而达到测量系统的目的。由于协议私有

19、的原因,目前的对等网络在线视频协议通信数据并没有进行加密处理,所有协议数据通过明文传输。另一方面,由于目前流行的对等网络在线视频系统普遍采用数据驱动(Data-Driven)方法设计,思路基本接近,因此协议设计中存在一些公共的要素成分,像邻居表、缓存映像(Buffer Map,BM)、视频数据块、频道或用户标识(ID)等。通过包嗅探将原始数据捕获,结合系统设计原理,利用逆向工程的方法,一般可以在通信过程分析中发现这些重要的数据模式,进而可以分析出协议的格式约定和语义信息。目前出现的对等网络在线视频测量研究基本上采取这样的研究思路;3. 基于客户端接口的主动方法:主动方法需要收集各个客户端的数据

20、,最为准确方便的方法是客户端提供测量接口。但是这样的要求很难满足。一方面协议开发者在协议设计过程中很少考虑系统测量方面的接口,另一方面商业私有协议为了保证其优势地位也不愿提供这样的接口。不过目前对等网络在线视频研究是一个在学术界和工业界都非常活跃的领域,一些研究机构为了获得更为准确的数据往往与对等网络在线视频公司展开合作。公司发布一些带有测量接口的客户端供用户下载,研究人员利用这些测量接口进行数据收集和分析。这一类研究由于要求比较好的合作条件因此相对比较困难。代表工作像3、4,研究者与UUSee合作进行了大规模的数据采集与分析。综合来看,基于对等网络在线视频的测量研究仍然处于起步阶段,国外在这

21、方面的研究从2005年左右开始而国内则在近一两年才展开。由于协议私有化壁垒的限制使得测量规模有限,测量方法也很不成熟。比如,基于嗅探的被动测量方法,相关研究一般是在校园网或者实验室环境下搭建测试平台,虽然得到的统计数据是基于真实流量,但是其实验规模限制了结论的普适性。从数据获取方法上看,基于协议逆向解析的主动测量方法仍然是当前的主流方法。对等网络在线视频协议的逆向解析工作不仅是系统测量研究的基础,对于今后基于主动方式的对等网络视频监管也具有重要的实际意义;另外具备了良好的数据获取条件后,对等网络在线视频系统的主动测量策略也是需要深入研究的重要问题。与文件共享服务不同,视频服务对实时性要求高,系

22、统的行为表现与用户的行为相互影响,这些都使得系统拓扑表现出很强的动态特征,而在这种环境下如何有效提取系统的拓扑特征目前还没有比较有价值的参考工作。3.3 用户行为测量用户行为特征与系统性能存在互相制约的关系,了解了用户行为特征可以更好地优化系统性能,反之系统性能好坏将影响用户的行为表现。在对等网络在线视频系统中,影响系统性能的用户行为主要表现在节点数量、节点到来与离开规律、节点生存期等方面。用户一旦使用对等网络在线视频软件观看在线视频,那么他的主机就成为了对等网络在线视频系统中的一个节点(Peer),我们用IP地址与端口号(TCP/UDP)来标识一个节点。测量系统中节点的行为,即测量了系统的用

23、户行为。(1) 节点数量无论是单个频道规模(单个频道的节点数量)还是整个对等网络在线视频系统中节点总数的变化都是很有时间规律的5、8、10。在对PPLive系统一天中节点数量变化的统计测量实验中,节点数量的高峰值一般出现在北京时间晚八点到零点之间,而零点到上午八点之间节点数量迅速减少,上午八点以后节点数量再逐渐上升5。由此我们可以看出,节点数量的变化规律与人们的作息时间相符合,根据时间可以推测出PPLive系统的大部分用户来源于中国。频道规模与该频道节目受欢迎程度相关。据统计,流行频道的同时在线人数可达几千或上万人,而非流行频道的同时在线人数可能只有几十人甚至几人。中国的春节联欢晚会是中国人最

24、重视的一个节目,2006年1月28日,在播放春晚的八点到零点之间测量收看春晚的节点数量,其总数达到了20万之多5。(2) 节点的到来与离开规律用户选择了一个频道之后,他的主机就作为一个节点出现在系统之中,这叫做节点的到来。而用户离开一个频道或者关掉对等网络在线视频软件,则导致一个节点的离开。电影频道和电视频道的节点到来规律基本一致,并且符合节点数量的变化规律。而电影频道和电视频道的节点离开规律则有不同。在电影频道中,节点的离开数量每一个半小时或者两个小时会出现一个峰值,在电视频道中就没有这种峰值的出现5。之所以出现这种不同,是用户的观看习惯造成的。用户选择一个节目以后,一般会等到节目播完以后再

25、离开,而电影频道的节目时间长度一般为一个半小时到两个小时,所以就出现了上述的离开峰值。(3) 节点的生存期节点的生存期即节点从到来直到离开所持续的时间。节点生存期长度变化范围很大,其跨度为几分钟到十几小时,但是90%的节点生存期都小于1.5个小时5、7、11。由此,我们可以说对等网络在线视频系统的用户是“不耐心的”。造成这种“不耐心”的原因大致有以下几点:1)用户在使用在线视频服务时需要守在电脑前,一旦用户要离开,则没有必要继续此服务,而用户是不会过长时间地守在电脑前面的;2)用户会根据自己的兴趣选择节目,因此可能会不停地更换频道;3)用户可能会因为延迟等因素而失去耐心,选择离开。(4) 节点

26、的地理分布可以通过对节点的IP地址进行统计来得到其地理分布。根据测量,在PPlive系统中90%以上的节点来源于亚洲,其次是北美洲5。3.4 系统性能测量在线视频系统中播放的所有视频都被分割成视频块(Chunk)并储存在视频服务器(Origin Video Server)中。视频服务器作为一个始终有效的视频资源贯穿于在线视频系统全部生命期。节点可以从频道服务器(Channel Server)中获取所有频道的视频信息,从种子服务器(Tracker Server)中获取系统中的所有节点的信息。如图2所示,当一个新节点要加入系统时,首先访问频道服务器选择所要观看的频道。然后根据频道服务器返回的频道标

27、识到种子服务器上获取一个节点列表,节点列表上所列即是当前系统中观看此频道的所有节点的信息。接下来新节点会选择列表中的一部分节点,通过TCP或者UDP协议与之建立联系。新节点也可以与视频服务器建立联系,直接从视频服务器上下载视频数据。新节点通过以上三步成功地加入系统以后,就可以开始下载视频数据进行观看,并同时上传自己缓存的视频数据。节点之间通过交换缓存映像来交换彼此的有效缓存信息,再通过高效的调度算法来选择合适图3. 节点通信过程的伙伴节点,请求自己感兴趣的视频块。在自己的生存期中,节点不停地寻找新的适合的伙伴节点,以便能够持续下载视频数据,从而保证流畅的视频播放效果。在线视频系统的缓存机制一方

28、面能够有效地保证视频播放质量,提高系统播放性能,但是,另一方面也会造成播放启动延迟和节点间播放滞后等问题,影响系统的整体性能。对于系统性能的测量可以总结为以下三个方面:(1) 视频缓存情况节点播放视频前进行的视频缓存对于启动延迟和节点间播放滞后都有影响,对于节点的缓存视频大小的测量,可以通过统计视频块位图左侧连续的bit-1数量获得;同时,也可以统计位图中所有的bit-1,从而了解节点所有缓存视频块的信息。目前的统计结果是,大部分节点在播放之前需要缓存7M左右的数据5。(2) 启动延迟(Start-up Delay)启动延迟是指从选择频道直至节点开始播放视频之间的时间,包括两部分:频道选择至播

29、放器弹出延迟和播放器弹出至开始播放视频延迟。缓存机制要求节点先缓存一定数量的视频块以后再开始播放视频,因此启动延迟在在线视频系统中是不可避免的。频道的启动延迟长度与自身的流行度有关,流行频道的启动延迟时间较短,一般为10秒到20秒,非流行频道的启动延迟则能达到几分钟以上5、8。若一个频道的启动延迟时间过长,会使用户失去耐心而离开,所以启动延迟的长短会严重影响用户行为。(3) 节点间播放滞后(Playback Lags among Peers)节点间播放滞后是指节点之间视频播放点的差异,这也是由于缓存机制造成的。节点加入系统以后需要缓存一定量的视频,若是节点所在地的网络情况较差,就会造成缓存完成

30、缓慢,从而导致节点的滞后播放。播放滞后的节点的视频播放点位置比较靠前,因而不能向视频播放点靠后的节点传送有用的视频数据。如果系统中播放滞后的节点过多,就会导致系统整体上传能力的下降,影响系统整体性能。缓存映像中的偏置(offset)域标识了节点缓存的第一块视频块,可以将其看作是节点的视频播放点,因此节点偏置之间的差异能够反映出节点间播放滞后的情况。通过收集缓存映像,统计偏置情况,测得数据驱动系统中节点视频播放点差异较大,节点之间视频播放差距甚至可达一百多秒5、8。3.5 连接与流量特征测量目前,连接与流量特征的测量都是以TCP流量为主要研究对象,进而按照以下原则划分数据流和控制流:TCP连接里

31、的大包(大于等于1000Bytes)传送的是视频数据;其余的流量(所有UDP包和小于1000Bytes的TCP包)都是控制流。在此基础之上对节点的流量行为进行深入的测量分析,主要包括:(1) 冗余视频流量冗余下载是指节点重复下载相同的视频块。节点若是过多地下载冗余视频块,会耽误后续视频块的下载,从而影响视频的连续播放,并且还会造成网络带宽的浪费,严重影响系统的性能。通过以下方法可以测得冗余下载流量大小:首先测量得到实际下载视频流量大小,然后通过计算视频播放时间和视频播放速率的乘积得到实际播放视频大小,二者相减就得到冗余下载流量。在线视频系统的视频冗余下载率一般都在15%之内5,对于视频播放基本

32、没有影响,是可以接受的。这主要是因为在线视频系统的缓存机制给了节点充分的时间交换缓存信息,从而有效地减少了冗余下载。(2) 上传与下载视频流量特征每个节点的上传和下载视频流量虽然会因为受到节点所在网络环境的影响而有所不同,但还是具备以下基本特征:1)下载视频流量高于但不会过高于视频播放速率,这与BitTorrent 一种下载工具尽可能多地占用下载带宽的特点不同;2)节点的上传流量可以远远大于下载流量;3)但并不是所有节点的上传流量都高于其下载流量。在对等网络在线视频系统中,节点按上传能力可分为三类: Amplifier(放大器),上传流量远远高于下载流量的节点;Forwarder(转发器),节

33、点上传下载流量基本相同;Sink(末端),节点提供很少甚至不提供上传流量。(3) 视频TCP连接特性这里所说的视频TCP是指传送视频数据的TCP链接。对等网络在线视频系统中10%的视频TCP连接持续时间不会超过10分钟5。但是即使是持续时间不长,由于传递的是视频数据,所以也占据着比较大的网络带宽。我们对于以前网络流量的认识可以通过重尾(Heavy-Tailed)分布来刻画,可以形象地描述为 “老鼠和大象(Mice and Elephants)”,即网络中99%的流(老鼠)占据1%的网络带宽,但是随着对等网络在线视频的飞速发展,这种格局将被打破。需要指出的是,这样的流量划分原则存在一定的问题,从

34、而会影响测量的准确性。据统计,大部分节点被网络地址转换(NAT Network Address Translation)或防火墙所屏蔽,因此在视频数据传输中需要用UDP取代TCP。根据实际统计,网络地址转换内部PPLive节点的UDP流量占到总流量的80%左右,在这种情况下依据以上原则进行流量划分做出的统计结果显然是不精确的。这一问题有待进一步的研究。3.6 进一步的研究目前对等网络在线视频系统呈现出强劲的市场发展趋势,使得新型的视频服务提供商不断涌现,但在给人们带来娱乐和方便的同时,也带来了隐忧。因为众多节点代替了原有的集中服务器提供服务,这就给管理部门的监管带来了巨大的困难;同时随着对等网

35、络流媒体所产生的流量日益增大,占据了大量的互联网带宽,对其他应用的服务质量也形成了威胁,因此识别对等网络流媒体并对其进行监控成为亟待解决的问题。这在研究领域也成为一个新的研究热点,网络、分布式系统以及多媒体领域的会议和期刊都设立相关主题报告这方面最新的研究进展。但是由于诸多技术和社会原因,该领域的研究工作困难重重。目前的研究工作可以分为两个方面,一是对当前广泛流行的几种对等网络在线视频系统的通信行为、协议格式、语义格式等进行深入研究和分析,利用逆向工程的分析方法对相关协议进行逆向解析,从而突破主动测量方法中数据获取上的障碍。另一方面,对系统进行准确有效地测量需要根据在线视频服务的特点设计合适的

36、测量策略,为下一步对等网络视频监管提供借鉴。我们在对PPLive等对等网络在线视频系统的逆向分析方面也作了有益的尝试并取得良好效果。4 分布式匿名服务的测量4.1 相关研究概述匿名系统是近年来出现的一种以保护个人隐私为目的的新型网络通信系统。匿名技术的研究大约始于1981年,乔姆(David Chaum)提出消息混合(MIX)12的思想并将其应用到不可追踪的电子邮件系统中,成为此领域的开创性工作。在匿名技术发展的最初十年中,由于互联网尚未普及,针对网络匿名技术的研究并不多见。但在此阶段提出的一些基本匿名机制如MIX、DC-Net13等为匿名技术的研究奠定了非常坚实的基础,这些匿名机制至今仍广为

37、人们研究应用。进入到二十世纪九十年代,匿名技术得到了长足的发展。从目前来看,国内外匿名技术的研究主要集中在如下几点:1)匿名属性的度量与分析;2)实用匿名机制与系统的研究与构建;3)匿名应用技术研究。然而,匿名系统的应用与发展遇到一些实际问题:首先,目前的匿名系统基于分布式网络传输加密信息,这给恶意用户提供了匿名扩散有害信息与进行网络攻击的可能。匿名系统已成为互联网内容安全和网络安全管理的盲点。因此,有必要针对大规模分布式匿名系统进行测量研究,揭示匿名系统的实际部署与运行情况,为信息安全管理决策提供实际数据支持;其次,匿名系统的匿名性与可用性依赖于用户的行为。现有的对匿名系统的研究大多基于假想

38、条件下的系统规模、用户行为特征与流量特征。针对实际环境下的匿名系统运行情况、成员行为特征、流量特征进行测量对于进一步构建安全、高效的匿名系统,提高匿名系统的服务质量、安全性有着重要意义。因此,针对匿名系统进行测量研究,对于大规模分布式匿名系统的管理与研究具有实际意义。针对匿名系统的测量从2007年起才刚刚开始出现。测量对象主要是应用最为广泛的Tor匿名系统以及基于Tor构建的隐蔽服务。从测量的内容来看,现有的工作主要集中在应用情况的测量上14-16,主要目标是通过对链路带宽、延迟、吞吐量等的测量,发现影响Tor性能的因素并提出相应的改进手段。从测量方法来说,主要采用的是基于客户端模拟的方法,参

39、与整个匿名系统的运行,从而获得相关信息。然而,目前匿名系统的测量研究还存在如下几点问题:首先,从测量对象来看,目前的测量主要集中在Tor系统,而对于其他已经获得广泛应用的大规模分布式匿名的测量并没有开始进行;其次,从测量内容来看,目前的测量还仅限于系统中的“自由获取资源”,即系统中目录服务器列举的路由节点。然而,由于匿名系统的特殊性,系统中很大一部分资源是“限制性获取资源”,即出于安全性考虑,不期望被攻击者获取全局视图的资源。其中,Tor的设计者专门针对如何构建抵御监管的匿名系统问题发表论文17,就限制性资源的发布策略等方面提出了对抗监管的措施。JAP的设计者也针对资源发布策略进行研究18,提

40、出可以利用客户端图灵测试来防止自动的资源获取。美国麻省理工学院的研究人员也针对如何抵御带内(In-Band)和带外(Out-of-Band)的资源自动获取提出多通道、特异性资源的发布策略19。这种策略是匿名系统所独有的特性,针对这类资源的获取及测量的研究目前没有报道;其次,从测量方法来看,目前匿名系统的测量主要还是基于模拟客户端的主动测量方式,基于流量特征的被动测量以及流量特征模型的建立以及基于主被动相结合的匿名系统的测量体系结构都尚待研究;最后,从测量结果的分析来看,目前的测量更加侧重的是对系统性能影响,基于测量结果形成的行为特征模型进行匿名性分析的研究还处于空白之中。4.2 大规模分布式匿

41、名系统的测量研究框架为满足匿名系统的研究与管理提出的测量需求,可以针对大规模分布式匿名系统的核心网络部署、行为特征模型、流量特征模型等进行测量与研究,在技术研究层面形成主被动测量关键技术,研制原型系统;在理论研究层面形成匿名系统真实环境下的运行特征与模型,分析系统匿名性与可用性,并提出符合匿名系统真实特性的匿名机制。研究框架图如下:(1) 匿名系统的资源发现与获取策略:针对匿名系统的不同资源发布策略,进行资源获取方式研究,分析获取代价,形成有效资源获取策略;图4. 大规模分布式匿名系统测量研究框架(2) 匿名系统的网络部署情况测量与分析:研究主被动相结合的匿名系统网络部署测量方法,针对网络拓扑

42、、系统规模、隐蔽服务、成员行为特征、用户行为特征等关键属性进行测量,建立匿名系统真实成员、用户行为特征模型;(3) 匿名系统的运行情况测量与分析:研究多特征融合的匿名通信流量检测算法与基于节点模拟的主动测量方法,针对匿名系统的流量特征、连接特征等进行测量,建立匿名系统的真实流量特征模型;(4) 符合匿名系统真实特性的匿名机制研究:基于真实环境下的匿名系统行为特征模型、流量特征模型的测量结果,分析匿名系统的匿名性与可用性,提出符合匿名系统真实特性的匿名机制;(5) 匿名系统测量原型系统研究:设计并实现大规模分布式匿名系统的测量原型系统。4.3 匿名系统的资源发现与获取策略对于匿名系统的构建者来说

43、,抵御监管(censorship-resistance)是一个很重要的设计目标。所谓匿名系统的资源,泛指匿名用户接入匿名系统、使用匿名系统所必需的资源,包括目录服务器地址、路由节点地址、接入节点地址、路由节点证书、密钥等信息。这些信息对于匿名系统的监管者来讲也十分重要。从目前匿名系统的设计来看,匿名系统的资源主要可以分为两类:“自由获取资源”和“限制性获取资源”。其中,自由获取资源主要包括匿名系统正常运行时所需的资源,而限制性获取资源主要作为系统额外增加抵御监管手段所必需的资源。自由获取资源往往自由发布,不采取控制措施,而限制性获取资源往往采用多种特异性的资源发布方式发布,目标是使监管者无法获

44、取系统资源的全局视图。限制性资源发布策略具有如下的关键属性:1. 资源状态:指的匿名系统发布的资源是否会随时间、环境等特点而发生变化,例如JAP的核心网络基本不发生变化,可以称为静态资源,但其接入节点是动态变化的;2. 通道:指的是发布资源依赖的网络协议或方法,可以分为带内通道(In-Band Tunnel)和带外通道(Out-of-Band Tunnel),带内通道指的是依赖系统设计的协议发布资源的方法,典型的带内通道包括:域名解析系统(Domain Name System,DNS)、邮件、超文本传输协议(HyperText Transfer Protocol,HTTP)等,典型的带外通道包

45、括:电话、短信等;3. 感知:指的是资源发布方是否能够对请求获取资源的用户进行唯一标识。对于无感知(无用户标识)的发布策略,匿名系统对所有请求资源的用户采取同样方法的处理。对于有感知的发布策略,匿名系统可以对不同用户的资源请求进行特异性处理,发布不同的资源。显然,这种情况下对资源的获取更加困难;4. 反馈:指的是资源发布方是否能够对不同的用户索取到的资源进行后继分析,发现不同用户索取资源的不同结局后采取相应的对策。因此,需要针对匿名系统的“限制性获取资源”发布策略进行研究,分析发布策略的特点,建立资源获取代价分析模型,形成有效的资源获取策略。4.4 匿名系统的网络部署情况测量与分析对于匿名系统

46、的安全管理需求来说,了解匿名系统网络的部署情况,有利于研判匿名系统对信息安全管理的影响。对于匿名系统的研究需求来说,了解匿名系统的网络部署有助于对实际环境下匿名系统的匿名性与可用性进行分析。从匿名系统的网络构成来看,主要可以分成两种类型:有中心节点的分布式网络和无中心节点的纯对等网络。从构成网络的节点来看,主要可以分为两种类型:专用节点和志愿者节点。JAP采用若干组专用服务器构成核心网络,并利用大规模分布式节点作为接入资源。此外,Tor和I2P等匿名系统还支持基于匿名系统的隐蔽服务(在Tor系统中称为Hidden Service,在I2P系统中成为eepsite)。Tor和I2P都是采用志愿者

47、构建网络,但网络拓扑各不相同。如下图所示,Tor是一种有中心目录服务器的网络,客户端向目录服务器发出路由信息请求,获取全局路由视图;I2P的设计目标则是无中心的对等网络,系统采用“FloodFill 有人译作“漫水算法”。”算法维护存储节点接入信息与路由信息的分布式网络数据库,并采用KAD作为备用维护算法。a. Tor网络结构b. I2P网络结构c. JAP网络结构图5. 典型匿名系统的网络结构但在I2P的目前版本,还利用网页集中发布部分节点信息,作为新用户接入系统的启动信息。因此,可以研究主被动相结合的匿名系统网络部署测量方法,针对网络拓扑、系统规模、隐蔽服务、成员行为特征、用户行为特征等关

48、键属性进行测量,建立匿名系统真实的成员、用户行为特征模型。4.5 匿名系统的运行情况测量与分析匿名系统的运行情况测量关注的主要是真实环境下匿名系统的流量特征模型,主要目的是为匿名机制的设计与分析提供准确的测量数据。从匿名系统的数据传输特性来看,现有的匿名系统在消息传输过程中普遍采用加密手段来保护消息内容,防止针对消息的追踪,但是在初始加入(bootstrap)、获取网络资源、路由信息交换等阶段可能具有净荷特征。因此,可以利用用户在使用匿名系统时,在接入、传输等不同关键阶段的报文结构特征、时间特征、净荷特征,结合部署测量与限制性获取资源发现返回的地址特征、端口特征、证书特征等,研究多特征融合的匿名通信流量检测方法。同时利用节点模拟等主动测量方法,获取匿名系统的连接特征信息。最终建立匿名系统的真实流量特征模型。4.6 符合匿名系统真实特性的匿名机制研究匿名系统的行为模型与流量模型在此前的匿名研究中具有很重要的地位,然而现有的研究基本上都是基于假设与模拟的模型进行研究。例如,在Stop-And-Go Mix的安全性分析等相关工作中,对匿名系统的流量模型进行假设,认为流量的到达符合泊松分布并利用排队理论进行分析。然而,实际匿名系统环境下的流量特征并没有得到验证。另外,我们在以往的工作中曾对匿名系统在实际环境下可能存在用户退出系

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号