《无锡市财政灾备技术报告.doc》由会员分享,可在线阅读,更多相关《无锡市财政灾备技术报告.doc(32页珍藏版)》请在三一办公上搜索。
1、目 录一研究内容21.1 主要研究的内容和特点21.1.1 信息系统应用现状21.1.2 存在的主要问题31.2技术原理及结构31.2.1 概述31.2.2 设计原则51.2.3 灾备技术规划51.2.4 容灾备份软件设计111.2.5系统网络拓扑结构241.3 关键技术及创新点251.3.1 问题的提出251.3.2 面临的主要技术难题261.3.3 实现的方法及原理271.3.4 技术创新点271.4 本研究达到的技术水平28二. 主要技术指标282.1研究的试验方法282.2技术路线302.3已达到的技术指标30三、主要技术、经济指标对比分析(国内外最先进的)31四、存在问题及今后的目标
2、31基于虚拟中间件服务器技术的财政综合灾备系统研究与实现技术报告一 研究内容随着无锡市财政局信息化的进一步发展,信息系统的重要性越来越高,其中预算执行付系统、非税收入系统、契税征管系统、建设资金管理四个系统的重要性更高,系统数据需要进行实时容灾,保证业务系统7X24连续不间断运行。因此,无锡市财政局灾备系统(以下简称灾备系统)的建设目标是保证业务系统7X24连续不间断运行的应用灾备,这是灾备系统级别最高的目标。传统把“备份/恢复”的技术领域,称为离线数据保护,就难以满足要求。必须寻求新的技术途径来实现。1.1主要研究的内容和特点1.1.1 信息系统应用现状由于财政工作职能和要求的多样性以及财政
3、业务的开拓发展,使得支撑各项业务开展的软件系统越来越多。现有各类大小业务系统20多个,有涉及财政收支的预算执行系统、非税收入征缴系统、契税征管系统、财税库系统,有支持全局办公的办公自动化系统、内外网站系统、邮件系统,以及关系财政业务的部门预算系统、预算级次核定系统、会计信息管理系统、土地出让金系统、建设资金管理系统、内控系统、账务系统等等软件系统,用“软件系统多”多来形容一点也不为过。长期以来,由于受“任务驱动、应急开发”模式的影响,各财政业务系统的建设缺乏全局考虑,缺乏统一的平台和标准,“信息孤岛”现象严重。每个应用系统的数据大都分散存储、分散备份,存在管理困难、扩展性差、效率低、安全性低等
4、诸多问题。另外,财政各项业务的开展离不开与全系统和其它部门的信息化沟通,为保证财政业务信息化办公的高效畅通,现在财政纵向和横向的网络已经全部连通。我局纵向实现了与财政部、省财政厅以及无锡2市七区的全部网络连通(即广域网),横向实现了与各级预算支出单位、非税收入单位、人民银行、国地税和9家商业银行的网络连接(即城域网),内部实现了全局的网络连通(即局域网)。用“网络连接多”可形象比喻已建成的立体化多方位的网络系统。1.1.2存在的主要问题随着财政体制改革的不断推进和科学、精细化管理的不断深入,现有的财政业务信息化系统已难以满足业务信息化所覆盖的面越来越大、新的业务系统不断上线要求。同时,业务系统
5、对IT系统的依赖性越来越高,对财政而言,健全的业务数据既是财政的宝贵资源,又是维持其正常运转所必须的基本条件。如何安全、高效地管理好业务数据,确保信息资源的安全和完整,使机构免遭信息灾难,已经成为摆在我们面前迫切需要解决的问题了。为了确保财政业务的连续性和数据的安全性,预防灾难的发生以及如何解决一旦灾难发生即能快速恢复的手段、建立一套行之有效的数据存储及灾难恢复系统已成为当务之急。1.2技术原理及结构1.2.1 概述长期以来,为任务关键型的应用制定的灾难恢复计划,需要对这些应用进行复制,并且在容灾点拥有备用的服务器,一旦灾难发生,就可以立刻接手运行。在过去,第二级的应用仅限于从磁带中得以恢复,
6、作为其保护模式,这种方法会导致多天的恢复时间。即使你已经复制了该应用的数据,通常也不太可能有一个完全一样的服务器来恢复该应用备份。要么需要对不同的的硬件进行裸机恢复,要么就购买一个新的操作系统和应用安装,在这个过程中还要有安装数据库所需的所有补丁备份。采用虚拟机,实际上是虚拟的机器它们都是运行同一套驱动程序,如果它们从一台主机转移到另一台主机,你几乎区分不出来。这个“硬件不同”的问题可得到有效的解决。在数据的恢复方面,与以往的依赖磁带进行转移不同的是,现在你定期对你的虚拟机安排快照,然后通过复制连接,将它们转移到容灾点。如果网管能够正确考虑通信的优先级,它就不会对实时的复制造成干扰。所以,采用
7、服务器虚拟化很容易部署和集成,因而成为了容灾的有效工具。服务器虚拟化能解决容灾的三大问题:成 本: 虚拟化可以直接部署在生产和恢复中心,帮助公司减少物理服务器的数量。依赖性: 虚拟化消除了大部分硬件的依赖性。迅速恢复:虚拟化的服务器图象能够迅速得到部署,在某些情况下,图象还能在物理系统间迁移。如果要在容灾战略中采用服务器虚拟化,存储管理员必须考虑到他们的数据保护、恢复点粒度和存储目标。数据保护(备份)服务器虚拟化和容灾面临的一大挑战就是缺乏有效的、可使用的备份数据,也就没有太多可恢复的东西了。虚拟化自身并不能保证数据的可恢复性。备份虚拟服务器有一些可用的方法,其结果各不相同。如果在每台虚拟机中
8、设置常规的备份代理,你就能把获得的结果与代理设在物理服务器环境中的结果作对比。恢复点粒度由于软件成本降低带来利益,常规备份代理会偏向于图象备份,此时备份战略必须不遭破坏,且能提供粒度(文档水平)的恢复能力。依靠第三方软件工具,能自动实现全备份和增量备份,而不必采用离线虚拟机。这种能力还能对文档进行恢复。恢复性能备份和恢复虚拟服务器是I/O的功能。虚拟化之所以具有吸引力,是因为它能够加强使用空闲的服务器资源。对许多处于工作期的系统而言,这么做非常正确,而当系统处于备份期或者更具体地说处于恢复期时,情况就不同了。在恢复灾难的时候,可能需要同时恢复同一个物理系统中的多台虚拟服务器,这时产生的I/O就
9、会成为严重的“瓶颈”问题。只是硬件可用,并不能保证满足恢复时间目标。对宕机时间很短甚至没有宕机时间的应用程序,仅仅是虚拟化并不足够,还需要增加故障切换元件,满足恢复需求。同理,有些应用程序的恢复点目标很严格,但是数据损失的容忍能力很弱乃至没有,此时可能需要采用复制的方法,保证在备份期间保护数据。对于一项容灾战略而言,除非具有外部元件,否则世界上所有的虚拟化、图象备份和数据复制也不为多。一般情况是,虚拟服务器已经部署或即将部署在一个中心,将备份发送到中心之外或者在各个中心之间复制数据。1.2.2 设计原则1、容灾备份的解决方案,应采用 “应用级”、“数据级”的系统构架技术方案及异步的数据复制方案
10、;2、异地灾备中心应靠虑数据初始化、应用系统及数据迁移方案迁移方法、保障措施等;3、主备机房发生灾难时,系统平台应有备份应用恢复的实施方案。 1.2.3 灾备技术规划系统容灾备份技术是指通过建立远程数据备份中心,将主中心数据实时或非实时地复制到备份中心。正常情况下,系统的各种应用运行在主中心的计算机系统上,数据同时存放在主中心和备份中心的存储系统中。当主中心由于断电、火灾甚至地震等灾难无法工作时,则立即采取一系列相关措施,将网络、数据线路切换至备份中心,并且利用备份中心计算机系统重新启动应用系统。这里最关键的问题就是切换过程时间最短,同时尽可能保持主中心和备份中心数据的连续性和完整性。而如何解
11、决主中心和备份中心数据库的数据备份和恢复则是容灾备份方案的重点。1.2.3.1 灾难备份层次对于灾难备份的结果,就是要保证数据和业务的可用性(Availability),根据通用性和成本来考虑,业务的可用性目前有三个级别(见下图“可用性金字塔” ):其中,业务连续性是可用性的最高级别,也是最难实现的部分,业务连续性的实现要依赖高可用性和灾难恢复的实现,而单点故障的消除是保证业务连续性最基本的手段。 从灾备系统实施的层次来看,灾备体系应该包括数据和应用两个部分。数据灾备是基础,应用的灾备是建立在数据灾备基础之上的。对于数据的保护,又应该从两个级别来考量(见上图“数据保护的级别” )。第一个级别是
12、数据安全,这是保证数据可用的最基本的手段。数据安全包括我们通常谈到的一级存储和二级存储,一级存储就是我们通常所说的磁盘阵列存储等,二级存储是通常所说的用磁带介质、光介质等完成的备份。第二级别是指数据724的高可用性,为实现数据的高可用性,我们可以采用双机容错或者服务器集群的方式来实现。在数据保护的两个级别中,企业可以按照自己对关键业务连续性的要求来确定采用数据保护的方式,一般来说,对数据依赖不是很强,并且不一定要求数据724有效的中小型企业,可以通过本地备份就能实现对数据的保护,而对于金融、银行、电信等运行着大量关键业务,需要业务和数据实时有效的行业,就需要考虑更高级别的数据保护方式。 应用灾
13、备是在数据灾备的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统。在发生灾难时,远程系统迅速接管业务运行,应用灾备则是灾备系统建设的最高级目标。 1.2.3.2 灾难备份系统架构一个完整的容灾系统应该具有丰富的层次构造,包括以下几个部分: 本地高可用系统通过本地的高可用系统实现一级安全体系,该体系确保局部故障和单点故障的系统应用安全。采用双机容错或者服务器集群的方式来实现。 远程数据镜像系统远程镜像系统是灾备系统的重要组成部分,它可为两地点间的重要信息传输提供丰富的存储空间,保证主站点和备份站点之间数据的同步。远程镜像系统的实现有三种方式。 1、数据库复制 采用数据库监督远程镜像的
14、做法使得IT环境中的镜像变得有意义,一般通过数据库管理器来完成,并且能对本地和远程的支持作出更为熟悉和灵活的决定。这种同步化过程在发生重大运行失误时开始运作。但是,在这种方式中,每一次数据更新时,需要传递大量信息,为确保这其中的相互联系和复制的一致性而引起的开销是十分可观的。 2、远程文件系统镜像 对于具有多种应用程序的主机来说,采用文件系统远程镜像的做法是恰当的。这尤其适用于低配置的服务器。文件级别的复制能圆满完成替代位置数据的更新。这些产品作为主机上的软件分层驱动程序而传送,并且一般要在本地或广域连接中遵守网络上的习惯协议,诸如TCP/IP等。但这些方法在实现时,可能需要更改操作系统或改变
15、需要保护的多主机平台。 3、存储子系统的远程镜像 当用户拥有几台不同的主机并且其中还包括有核心主机时,或者当用户仅仅只想从应用程序处理机上移走远程镜像时,将如何处理呢?这可以通过存储子系统镜像的方式。单一的存储子系统可以用来从服务型主机的立场上提供远程双重拷贝。原主机和备份主机从冗长的I/O开销中解脱出来,并可以削减等待时间。大多数执行过程都能利用原位置和备份位置的闲置资源以加速程序的运转。由此产生的远程镜像吞吐量远远大于数据库和文件系统的设计要求。远程高可用系统远程的高可用管理系统,即远程应用切换,也就是应用灾备,它实现二级的远程广域范围管理(Global Cluster),这一层次基于本地
16、的高可用系统之上,实现故障的分类和采取对应的故障接管机制。 在远程灾备系统中,要实现完整的应用灾备,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。数据磁带备份系统数据备份系统一般采用磁带库来完成,用户可以根据自己的存储系统架构来选择备份方式,如LANfree或者Serverless等。数据备份系统是整个存储系统非常重
17、要的后备支撑,一旦遭受到误操作、黑客攻击等灾难时,如果用户制定了有效的备份策略,备份系统可以很好地恢复灾难前的数据内容。此外,数据备份介质还可以通过别的方式存放在专门的备份中心或者公司异地的存放中心,以确保当地发生自然灾难时备份介质的有效。总之,容灾的根本是恢复,而灾难恢复计划(DRP),是指在灾难前、灾难中和灾难后采取的一些手段和措施。灾难恢复计划应该是一个全面的、经过测试的、可以保证数据和应用恢复的计划。灾难恢复计划对于公司的生存是很重要的,一个经过测试的灾难恢复计划能使得公司从一个无法预计的灾难中在可能的时间内进行恢复,并且不影响公司的正常业务运作。1.2.3.3 容灾技术分析容灾建设是
18、一项系统工程,包括智能资源建设,容灾战略构想、容灾组织建设、容灾操作流程;业务逻辑容灾,数据复制和应用恢复以及应急应用逻辑调整;容灾信息技术基础设施建设,技术实现和基础设施。其中最受关注的是技术实现,技术实现虽然是一个子层面的内容,而实际上贯穿了容灾建设的始终,各种方案差异也几乎全在于所选择的技术实现不同。技术对于容灾系统的影响主要在实时数据远程复制、网络连接、应用接管和回切、运行监控和日常管理四个方面。实时数据复制技术的选择实时复制技术要完成生产数据到容灾中心的复制工作。从存储、SAN、操作系统,到平台软件,业务,各个层次都有自己的复制技术。 基于存储的复制技术目前主流的存储设备厂商在其存储
19、产品上均有基于存储设备的灾备解决方案,如EMC的SRDF,IBM的PPRC。这种解决方案是一种数据存储的物理镜像,它将数据在物理层面上,在两套存储设备中通过SAN制作或生成两套数据镜像。这两套存储设备可以是本地的,也可以是远程的。当本地的生产系统发生故障时,备份系统主机可以连接上备份存储系统,开启业务。 基于SAN的复制技术SAN的复制技术是通过虚拟存储技术在SAN层次截获数据写操作,并进行远程复制,所有存放在虚拟存储管理的LUN(磁盘卷)上的数据都能够自动被复制,而且与业务、应用甚至服务器无关,大大简化了容灾设计和实施。但是与存储数据复制类似,SAN层的数据复制带宽要求更高,而且对于累积增量
20、的保护较差,可能因为数据溢出,因此需要更多的带宽去复制数据。 基于操作系统的复制技术有些操作系统如AIX他本身就具有数据跨存储设备的镜像功能。与本机硬盘单镜像设置的不同,这种灾备方式可以由操作系统通过SAN发起在两个存储设备间保存两份相同的数据。当本地的生产系统发生故障时,备份系统主机可以连接上备份存储系统,开启业务。IBM的GEORM,VERITAS的Storage Replicator、Volume Replicator。 基于平台软件的复制技术平台软件层面的复制技术是被广泛采用的技术之一,对不同的平台软件,技术各有不同。我们的平台软件有Oracle数据库、Sybase数据库,其中关键支撑
21、业务都是Oracle数据库。以Oracle为例,Oracle复制技术,主要是Data Guard技术。 基于业务的复制技术基于业务的数据复制技术适合三层架构的应用,在容灾中心除了存储,主机系统外,还需要和生产中心一样的中间件服务器。数据过程如下: 1、前台客户端发起一个交易; 2、交易中间件提交交易到远程交易中间件; 3、远程交易系统处理完请求,并完成写数据库,返回结果 4、本地交易系统处理后,写数据库并返回前台客户端处理结果。 由此可见,基于业务的数据复制技术是以提供相同的输入,相同的处理,来保证相同的输出,从而达到数据复制的目的。因此,基于业务的数据复制技术,虽然交易一致性好,但是需要和业
22、务程序开发结合,实现复杂。对于我们已经成型的业务并不适合。根据以上分析,我们选择了基于SAN和操作系统复制技术。以上几种方式的比较:基于存储技术基于数据库技术应用软件同步操作系统软件投资规模硬件(固定)+软件(低)+实施(中)硬件(灵活)+软件(低)+实施(中)硬件(灵活)+软件(高)+实施(高)硬件(灵活)+软件(中)+实施(中)投资保护是否否是主机依赖性否是是是实施工作量中小大中实施难度中低高中适应范围和约束条件专用存储连接链路;高端存储设备近距离,简单应用应用系统成熟;网络设施完备;长期的开发和维护力量高网络带宽;特定的文件系统格式技术成熟度成熟不很成熟不同的项目有不同结果中对系统性能的
23、影响小大大中运行维护的要求低中高中灾难情况下的数据丢失量同步:没有丢失;异步:1分钟以内通常异步,几十兆数据丢失通常异步,数据丢失1分钟以内同步:没有丢失;异步:1分钟以内同异步方式选择同步和异步有以下区别:同步可以保证主备中心数据完全一致,而异步则会在灾难时有少量数据丢失。同步对主机I/O性能有一定影响,视传输距离、方式而定。异步对主机性能的影响很小。只推荐同步具有很大的风险同步数据复制,要求每个IO都必须到远程绕一圈后才算结束,在多个方面存在性能瓶颈:1、在非容灾状态,或异步情况下,主机只要写一个磁盘阵列的Cache就算I/O结束了,该过程大约2ms。而同步方式要求串联写两个磁盘阵列的Ca
24、che,才算I/O结束。2、主、备中心之间,通常只有12根光纤。同步方式下,这就相当于在高速的主机和存储间,放了一个非常窄的通道。这立即成为整个系统的瓶颈,我们配置高速磁盘阵列、支持大量主机接口、非常高的IOPS值,等等,一切都不能充份发挥其能力。3、主、备中心之间有距离,这又造成了系统延时,对性能的影响是明显的。4、在高IO负载的情况下,根据大量测试和实际情况,同步复制会出现性能“拐点”,即“性能雪崩”,此时性能会急剧下降80以上。由于以上的原因,同步必然对系统性能产生明显影响,具体影响的程度,与应用状况、通信带宽、距离、系统架构等多方面因素相关,很难给出一个精确的计算结果。容灾的实施是为了
25、避免风险,而如果只有同步复制方式,则会带来更大的风险。一旦系统上线后,发现出现性能雪崩、或批处理时间大量延长、系统超高负荷,而此时升级到异步又非常困难,则整个容灾项目就会失败。根据目前用户核心系统的实际情况和系统重要性级别(1、非税收入 2、集中支付 3、契税征管 4、建设资金管理),采用同步异步复制方式。1.2.4 容灾备份软件设计 根据无锡市财政局容灾备份的需要,我公司建议选择Symantec基于操作系统的容灾备份软件,作为无锡市财政局容灾备份平台。UNIX服务器镜像/集群软件系统设计无锡市财政局现有两台IBM S85小型机,两台小型台共享一台7133磁盘阵列,使用IBM HACMP软件。
26、考虑新增一台IBM小型机、两台光纤存储设备,通过Veritas Foundation构建UNIX服务器镜像、集群软件。 产品介绍我们通常把备份/恢复的技术领域称为离线数据保护。离线的数据保护方式因为其停机时间和数据损失的缺陷,对于现在7X24运行的核心业务系统越来越显得不足。Veritas Storage Foundation, 的主要功能有:减少停机时间:物理错误的冗余:数据容灾基于SAN环境的跨阵列远程镜像:逻辑错误的快速恢复:多种快照技术没有数量限制的快照技术,可以让用户在最短的时间里,恢复出错的文件系统。在线的(不停机)存储管理:扩展,调整卷结构,提高系统读写速度:文件系统自动调节,最
27、优化利用缓存。达到最优读写性能。构建动态多路径管理,提高SAN传输效率。提高读写性能。多种卷结构,优化读写效率。最大化利用资源,自动化管理资源。在线管理异构的磁盘阵列。统一管理使用。基于策略的管理模式,变被动为主动的管理模式。优化数据库性能。Symantec建议利用VERITAS Storage Foundation系列软件的镜像技术,来构建容灾方案。利用VERITAS Storage Foundation的镜像技术构建容灾系统是非常简单的,它只有一个条件,就是将生产中心和灾备中心之间的SAN存储区域网络通过光纤连接起来,建立城域SAN存储网络。然后,我们就可以通过Storage Founda
28、tion提供的非常成熟的跨阵列磁盘镜像技术来实现同城容灾了,容灾方案的结构如下图所示:从原理上讲,在城域SAN存储网络上的两套磁盘系统之间的镜像,和在一个机房内的SAN上的两个磁盘系统之间的镜像并没有任何区别。就如上图,如果我们把“同城容灾中心”几个字去掉,我们就无法分辨左边的系统和右边的系统到底是在同一个机房,还是远在几十公里以外。利用光纤将生产中心和灾备中心的SAN网络连接起来,构成城域SAN网络以后,利用 VERITAS Storage Foundation的先进的逻辑卷管理功能,我们就可以非常方便的实现生产中心磁盘系统和灾备中心磁盘系统之间的镜像了。如下图所示。我们可以看到,利用VER
29、ITAS Storage Foundation,我们可以创建任意一个逻辑卷(Volume)供业务主机使用,实际上是由两个完全对等的,容量相同的磁盘片构成的,两个磁盘片上的数据完全一样,业务主机对该Volume的任意修改,都将同时被写到位于生产中心和灾备中心的两个磁盘系统上。采用这种方式,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主机而言是完全同等的。利用城域SAN存储网络和VERITAS Storage Foundation镜像功能,我们可以非常轻松的实现数据系统的异地容灾。并且消除了复制技术(无论是同步还是异步)的切换的动作,从而保证零停机时间,零数据损失的实现。集群系统是目前应用
30、高可用的主要手段。由多台主机,连接共享的存储磁盘阵列,实现应用在多台主机上的并行运作(需要应用支持,如Oracle RAC)或者Active/Standby 模式运作,当单个主机上的应用,或者主机本身发生错误时,由其他服务器接替工作,最终实现应用的高可用。针对用户的需求,以及用户具有的硬件架构,Veritas Cluster为了提供一个高可靠集成的系统,Veritas群集软件在系统和网络的几个方面提供了一个完全集成的方案,包括管理、监控、检测、恢复重要的应用。VERITAS Cluster Server (VCS) 是一个商用的企业级软件解决方案,它可提供全面的可用性管理,把计划的和非计划的停
31、机时间降到最低。该产品能满足发展的但严格的世界电子商务模式所要求的正常工作时间。电子商务需要增加不停机时间以保证为顾客进行各种服务;不管哪种企业,多大规模,VERITAS Cluster Server (VCS)都能为他们的“无间断商务”发挥重要作用。VCS使得企业的SAN得以完善,它提供客户端对存储数据的访问,既可以是通过光纤直接连到磁盘阵列,也可以通过光纤交换到“存储池”。本地集群定义 一个VCS集群由连接到共享存储设备的不同应用组合的多重系统构成。VERITAS Cluster Server 监控和控制应用和数据库,并且能够在软硬件发生多种故障时对应用和数据库进行故障切换或重启。常常定义
32、一个集群为一套连接到冗余网络联接的系统。这种方案能够在应用、操作系统或硬件在某个站点发生故障时,恢复本地的UNIX或Windows服务器,也可以尽可能的降低应用系统计划内和计划外的停机时间。 本地集群,也称为共享存储集群,是目前最流行的通过应用和数据库故障切换提供高可用性的方案。 环境 用于应用和数据可用性的冗余服务器、网络和存储架构使用多重服务器与共享存储系统的连接。 系统被连入一个专用的网络互联结构中,通常使用以太网传递系统状态和软硬件资源的信息VCS使用快速专用协议GAB/LLT进行状态通信。 集群中的每个系统都能够在需要时访问共享存储系统上的应用数据 区别于扩展集群,它不把数据复制或镜
33、像到其他数据中心(往往在单一阵列中,利用镜像/RAID来提供磁盘保护) SAN结构可以简化大型的集群(大于两个节点),这在当前的所有集群中具有代表性。例如,使用交换机和集线器 所有集群组件服务器、SAN结构、存储系统全部共存于某个站点上。 集群中的所有服务器在一个单独的位置(单数据中心)优点 使用共享存储系统上的数据实现应用恢复(零数据损失) 将应用和数据库的停机时间降至最低(自动故障切换) 优化服务器整合(N+1故障切换情形) 快速恢复时间目标,满足严格的服务水平协议和高可用性 缺点 在灾难中,数据中心或站点成为单一的故障点扩展集群(城域灾难恢复 / 区域集群)注意:一份单独的白皮书详细说明
34、了区域集群(campus clustering)配置,可以通过VERITAS 网站查找定义 扩展/区域集群(stretch / campus clustering)是一种扩展到两个以上站点的集群,它使用光纤连接进行数据镜像和集群通讯。当企业在办公地点采用了SAN结构,且要在短距离进行灾难恢复时,通常采用这种典型结构。VERITAS在华尔街的许多客户已经搭建了区域集群,他们利用VERITAS Volume Manager 镜像将数据中心隔开几英里远,通过这种方式为本地站点故障(例如火灾、洪水或当地停电等)提供了灾难恢复能力。另外,区域集群为扩展数据中心面临的有限增长空间提供了持续的可用性。 环境
35、 一个集群通过子网或SAN光纤通道,扩展到多个建筑、数据中心或站点 在建筑物、数据中心或站点最多可自由分配32个节点 本地存储系统在集群节点间相互镜像 使用DWDM的新数据交换机,能够支持长达100KM的距离 站点间的距离取决于存储网络基础架构 优点 区域集群对每个站点都提供了本地高可用性,防护站点故障。 成本效率,单一方案无需复制(采用远程镜像同步地将数据拷贝到全部站点,零数据损失) 将应用和数据库的停机时间降至最低(自动或手动故障切换) 充分利用现有的SAN基础架构 外观和操作与配置本地集群环境很相似无需进行特殊的配置 防护单一故障地点发生的与气候相关的停电和电力网故障 允许数据中心扩展创
36、建一个跨越站点的服务器、存储系统和应用的单一逻辑群 允许跨多重网络进行故障切换(提供DNS升级)(可以通过咨询服务按需定制VCS 3.5中的代理选件,这些代理选件包含在VCS 4.0基础产品中)缺点 成本需要SAN架构光纤通道 距离受存储系统限制拥有足够性能的镜像存储能力广域灾难恢复Cluster ACluster B广域灾难恢复在灾难发生时为数据和应用提供了最多的保护。这种结构需要利用两个或多个子网,部署两个或更多的数据中心。站点停电时,所有服务和数据将被迁移到二级“热”站点上,对用户而言仍然是可用的。这种结构牵涉到决定二级站点的准确性。例如,二级站点的位置不应该与发生故障的主站点处在同一条
37、故障通路上,不能接近机场或处于相同的电力网内,并且要保持足够远的距离以避免气候同时影响两个站点。包括VERITAS在内的几家公司为企业实施灾难恢复最优方案提供咨询服务。 根据政府规定或公司被强制遵守的服务水平协议,部署广域灾难恢复是一种比较有代表性的情况。同时,有一些在世界的其他地点有办公机构的公司也可以利用这种结构。根据定义,典型的配置广域灾难恢复要求是IP网络可用,以及客户对距离的需求超过100KM。二级站点是“热”站点,在主站点发生故障时二级站点的服务器和存储系统是可用的。站点之间通过IP网络相互连接。环境 在主站点配置本地集群,在二级站点配置另一个本地集群至少两个集群 o 两个或多个子
38、网 o 两个或多个集群 在每个站点的集群间复制数据,VERITAS每个集群最多支持32个节点,每个站点最多支持64个集群优点 本地集群的全部优点 异步模式下的数据复制是没有距离限制的 在本地建筑、数据中心或地理区域内防范灾难 使用IP网络,支持任何距离上集群集群的通讯 本地自动进行应用的故障切换,也可通过手动“单键点击”恢复到远程站点 对VERITAS或第三方复制方案提供支持缺点 解决方案更加复杂(必须在任何故障情形下通盘考虑复制方向和数据流通)VCS 的特点:最多支持32节点。从GUI管理界面监视多达256个32节点集群服务器。一个集群中支持无限数量的服务组。支持多种服务组之间的依赖关系,可
39、动态配置。VCS 使用专用通讯协议(GAB)进行集群内节点间通讯。GAB运行在另外一个专用通讯协议(LLT)之上,采用第二层的DLPI协议的LLT提供可靠的、负载均衡的、高速的心跳通讯,与使用TCP/IP堆栈方式进行心跳通讯相比,具有极大的优势。专用通讯协议使得VCS扩展也非常方便。VCS也支持磁盘心跳 I/O Fencing 使用SCSI 3 persistent group reservations (在VCS 4.0版本),防止split-brain的发生。为不同用户提供不同的集群管理权限,例如数据库管理员只能通过VCS进行数据库的切换/启动/关闭等。支持多种多样的磁盘系统,所有支持的系
40、统都通过VERITAS iLab(集成实验室)的认证。通过Storage Foundation Cluster File System 与VCS结合提供该支持最多支持16个节点对同一文件系统同时进行读写访问。VERITAS是目前唯一提供 Oracle 9i RAC 运行在cluster filesystem上的公司。VCS支持多种操作系统,多种数据复制方法的切换。(Veritas/VVR EMC/ HDS/ )支持服务器内和服务器间的多网卡多IP地址切换。无单点故障:had 和 shadow 互为VCS冗余进程。换提供Plug-and-play 支持,只需在图形管理界面填入应用有关参数即可。提
41、供软件开发包(Software Developers Kit ,SDK)。对于普通应用,可以方便地使用VCS自带的 Application代理进行管理对于特殊应用,可以使用C+, perl, or shell编写VCS客户化代理。可以中止整个集群服务,但是保持所有应用继续提供服务。因此,在进行集群维护和升级等操作时,不会对应用造成任何影响。VCS自动同步所有节点上的配置文件。VCS 使用播种(seeding)机制。当整个集群中所有节点关闭后,管理员可以选择启动集群中任意数目的节点, VCS 没有限制集群中最小节点数目。这意味着VCS在只剩下极少数节点,甚至可以在只有一个节点情况下启动服务。支持
42、在不同操作系统平台上的统一的命令行、图形管理界面和WEB界面。使用安装程序,在集群中任何一台服务器上就可以将整个集群中所有服务器安装,并且在安装过程中回答几个简单问题就可以统一进行集群配置。Windows PC服务器数据复制软件、Windows PC服务器集群软件对于无锡市财政局的重要Windows服务器,我们通过VRTS REPLICATION EXEC 3.1 Windows PC服务器数据复制软件,实现Windows PC服务器的复制,另外结合VRTS STORAGE FOUNDATION HA 5.0实现业务系统的自动切换。Windows PC服务器系统备份/恢复软件 系统设计无锡市财
43、政局众多业务系统,包括契税、内控、办公自动化、票据、部门预算、财税库等,均是运行Windows操作系统,考虑到Windows操作系统的不稳定性,以及无锡市财政局Windws业务的重要性,一旦系统出现故障,需要在短时间内恢复,我公司建议配置SYMC BACKUP EXEC SYSTEM RECOVERY,可以几分钟(而非几小时)内完成Windows系统恢复。 产品介绍Symantec LiveState Recovery 解决方案(以前称为 Symantec V2i Protector)。帮助企业在几分钟内全面恢复Windows系统的裸机或单个文件或单个文件夹,并为 Windows 系统和数据提
44、供全面的保护。快速、频繁地捕获整个服务器或台式机的操作状态或实时状态的时间点快照,无需中断用户的工作或应用程序的使用。 这些时间点快照将所有的文件和卷(无论是否在使用、隐藏或加密)、应用程序和设置包括到一个易于管理的文件中。因此,能在短短数分钟内,重建整个系统或执行裸机还原(bare metal recovery),轻松将被摧毁的系统还原至指定时间。管理员不再需要使用传统的恢复方法,花费数个小时的时间来重新构建系统和恢复数据,即可将崩溃的系统回调至精确时间点。LiveState Recovery的工作流程:卷恢复点代理被安装到关键服务器,台式机和笔记本上对整个系统进行快照并存到一个轻便的文件中
45、,创建一个唯一的时间点“恢复点”卷恢复点能保存在任何基于磁盘的存储设备中,如闪存/CD/DVD出现灾难时,恢复环境可以用来恢复到一个确切的时间点选择需要的恢复点,然后系统会恢复到它原始的工作状态 操作系统,应用程序,配置信息等LiveState Recovery 的特点:时间点裸机恢复 - Symantec LiveState Recovery 独有的恢复功能中包括 Symantec Recovery Disk,该功能自动检测硬件,并加载合适的驱动程序以启动计算机。因此无需人工构建恢复软盘。还可以使用 Symantec Recovery Disk 来检查磁盘的完整性或执行病毒扫描。事件驱动备份
46、 出现足以威胁系统稳定性的事件时,自动备份系统。这些事件包括:(1) 应用程序安装(使用 setup.exe、install.exe 或 MSIEXEC);(2) 用户登录/注销;和 (3) 数兆字节的存储发生更改。性能调节 通过调节调度作业或自由作业的性能,提高台式机和服务器的性能。此功能还能减少网络通信量。从动态磁盘转换为基本磁盘 对 Veritas Volume Manager (VVM) 磁盘进行动态状态备份,并可恢复至动态状态,从而对使用 VVM 创建的多种复杂存储配置提供无中断且灵活的完整保护。交互式远程恢复 使用产品 CD 中包含的 Symantec Recovery Disk,
47、远程恢复服务器和台式机(通过内嵌的 Symantec pcAnywhere 托管技术)。*Microsoft VSS 集成 自动将 Microsoft Volume Shadow Copy Service (VSS) 兼容的数据库设置为备份所需的静默状态,而不使其实际脱机,从而使数据库更加自动化,更易于备份。合并备份集 通过定期将增量备份全部合并到一个增量备份文件中,减少存储备份所需的磁盘空间。热映像 使用快照技术,在工作时捕获备份(即实时备份),而不中断用户的工作或应用程序的使用。LiveState Recovery 支持的备份/恢复方式:增量备份 仅捕获上次备份后发生的更改,从而增加备份的频率,降低磁盘存储空间要求。这样一来,还可以节约时间和存储资源。