中端存储容灾解决方案.doc

上传人:文库蛋蛋多 文档编号:2292305 上传时间:2023-02-09 格式:DOC 页数:41 大小:564.50KB
返回 下载 相关 举报
中端存储容灾解决方案.doc_第1页
第1页 / 共41页
中端存储容灾解决方案.doc_第2页
第2页 / 共41页
中端存储容灾解决方案.doc_第3页
第3页 / 共41页
中端存储容灾解决方案.doc_第4页
第4页 / 共41页
中端存储容灾解决方案.doc_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《中端存储容灾解决方案.doc》由会员分享,可在线阅读,更多相关《中端存储容灾解决方案.doc(41页珍藏版)》请在三一办公上搜索。

1、XXXX数据容灾系统建设方案 目 录第1章前言3第2章需求分析42.1容灾系统需求42.2项目建设目标5第3章XXX基金数据容灾系统技术方案63.1容灾系统术语与定义63.1.1灾难定义63.1.2灾备站点63.1.3恢复时间目标(RTO)与恢复点目标(RPO)63.1.4业务持续计划(BCP)与灾难恢复计划(DRP)63.2灾难恢复过程与灾难备份技术73.2.1系统灾难级别定义73.2.2灾难恢复过程83.2.3灾难备份技术93.2.4灾难备份中心103.3RPO与RTO113.4容灾系统数据复制133.4.1数据复制方式选择133.4.2磁盘阵列复制技术优势143.4.3第三方软件复制技术

2、优势153.5容灾系统拓扑图163.5.1RecoverPoint数据异步复制163.5.2MirrorView数据同步复制173.5.3灾备系统应用平台173.5.4容灾系统配置18第4章容灾系统管理设计19第5章容灾系统工作流程设计235.1日常工作流程设计235.2系统变更流程235.3计划内切换流程235.3.1生产中心向备份中心切换流程235.3.2备份中心向生产中心回切流程245.4计划外非切换流程25第6章EMC技术服务266.1技术服务内容266.2现场安装服务内容266.3现场维护技术支持286.4现场维护响应时间296.5现场维护响应流程306.6定期巡检服务30第7章方案

3、所需产品介绍327.1EMC CX3-40F磁盘阵列介绍327.2EMC RecoverPoint介绍367.3EMC MirrorView同步软件介绍39第1章 前言XXX基金管理有限公司是目前我国资产管理规模最大的基金公司之一,在国内基金公司中名列前茅,信息化建设是基金管理信息系统建设中的重要环节,信息化建设的基础是各个业务系统中的数据,数据的安全是信息化建设的重中之重,公司目前已针对深圳和北京两个数据中心的数据,通过高安全性的磁盘阵列来提供较高级别的数据保护。 但是,随着业务系统的发展,随着竞争的不断加剧,为了提供更高的客户的信用度使我们的企业在竞争中时时处于优胜之地,在重要交易系统中,

4、数据已经能仅提供简单的本地保护,因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,我们需要更高的系统可用性,当业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。EMC公司作为存储业界的领头羊,很荣幸能与XXX基金一起,帮助XXX基金建立一套功能完善的、技术先进的数据容灾系统,保证此次数据容灾建设的顺利成功。EMC公司基于信息为核心提出的E-Infostructure正是在存储平台上提供了完整的集中、备份、容灾存储解决方案, 为各行业信息平台提供了坚实的信息

5、基础设施.提高了系统及数据库的处理能力、可靠性、业务连续性和可扩展性,使平台建设具有最佳的投入产出比。EMC是世界领先的企业存储技术供应商,致力于为全球所有企业用户提供数据存储系统的完整解决方案。在过去几年中,EMC公司与政府、企事业单位、大专院校有着非常好的合作, EMC智能企业存储设备CLARiiON 系列在客户的各类应用中扮演了重要的角色,EMC设备的可靠性、高性能、完善的售后服务得到用户的高度评价。第2章 需求分析2.1 容灾系统需求在传统以往的业务系统中,往往仅考虑本地高可用,即通过集群的双机系统(Cluster或HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切

6、换到后备服务器上。该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。但是,随着业务系统的发展,随着竞争的不断加剧,为了提供更高的客户的信用度使我们的企业在竞争中时时处于优胜之地。在一些重要的系统中,客户已经不满足于简单的本地保护。因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,越来越多的客户提出了要求更高的系统可用性,要求当业务系统可以在发生上述灾难时快速恢复,将损失降到最低点,甚至要求实现真正的异地容灾保护。因为生产过程停

7、顿将会对运营造成相当大的代价,所以业务连续性是一个关系到最终赢利的问题,无中断灾难恢复对于系统来说至关重要,客户必须制定即时业务重启计划,而不是需要数天或数周的恢复计划;未来采用的应用系统程序要随着生产系统的调成而不断的更新,程序最终投入使用之前,完备的测试工作是必不可少的,采用数据复制技术可以快速的生成现有系统的数据影像,通过对数据影像的测试,完成应用程序的快速部署。生产系统的高可用设计我们目前已经达到,但是当生产系统所处环境发生“灾难”,造成整个机房节点的失效,则本地的任何高可用技术保障都将随之失效;而要消除“灾难”对应用系统的影响,则需要在异地建立容灾备份系统,相对于生产系统建立数据的复

8、制、应用的复制环境,及时地恢复对客户访问的响应。XXX基金目前在深圳和北京有两个数据中心,之间通过专线连接,两且两个数据中心均有EMC的CX3-40磁盘阵列,已具备数据容灾的基本条件,在现有的存储系统基础上实现数据容灾,方便快捷,且成本节约。鉴于连接两地专线的速度,容灾系统只能实现数据的异步传输,要达到数据的零丢失,还需要实现同步的数据复制,目前规划与证券通讯数据中心的CX3-40实现数据同步复制。已达到数据的最佳保护效果。EMC 网络存储提供了可以达到上述要求的业务连续性解决方案。2.2 项目建设目标容灾建设的目标是保证业务安全,在灾难情况下,最大限度地保护公司资产,减少公司各方面的损失,保

9、证各项业务连续。满足核心管理系统灾难恢复计划要求(本次容灾系统的建设目标主要是针对核心IT管理系统的恢复,属于DRP灾难恢复计划范畴)设计的,从灾难预防和灾难恢复等方面进行容灾系统建设,最大限度地保证系统的可用、可靠。根据以上总体目标,落实到灾建设的实际情况,容灾建设的具体目标确定如下:在北京与深圳的数据中心间,实现数据的异步传输,将北京数据中心的数据复制到深圳数据中心,尽可能减少数据丢失。在深圳数据中心与深圳证券通讯中心机房的阵列之间实现数据同步复制,保证数据的零丢失,真正实现数据级的容灾:RPO=0。第3章 XXX基金数据容灾系统技术方案3.1 容灾系统术语与定义3.1.1 灾难定义由于人

10、为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。3.1.2 灾备站点所谓灾难备份站点,也称为灾难恢复中心或容灾中心,就是指企业除了拥有一套完整的计算机网络系统(称为生产中心)之外,另外建立一套计算机网络系统。这套系统能在突发性灾难发生,造成生产中心停止工作时,迅速并及时地接管原来运行在生产中心的所有或部分业务,达到减少或避免灾难事件发生时所造成的损失,为企业用户提供完善、优质服务的目的。3.1.3 恢复时间目标(RTO)与恢复点目标(RPO)RTO,Recover Time Ob

11、ject,恢复时间指标,是指当灾难发生后,生产系统需要多长时间能够恢复生产,它是衡量企业在灾难发生后多长时间能重新开始运转的指标。RPO,Recover Point Object,恢复点指标,是指灾难发生后,容灾系统能把数据恢复到灾难发生前的哪一个时间点的数据,它是衡量企业在灾难发生后会丢失多少生产数据的指标。3.1.4 业务持续计划(BCP)与灾难恢复计划(DRP)BCP关注在中断期间和之后维持机构的业务功能。BCP可以专门为某个特定的业务处理编写也可以涉及到所有关键的业务处理。IT系统在BCP中被认为是对于业务处理的支持。在某些情况下,BCP可能没有涉及到对过程的长期恢复并使其回到正常运行

12、状态,而只是包含过渡的业务连续性需求。灾难恢复计划、业务继续计划和场所紧急计划可以附加在BCP之后。在BCP中设定的职责和优先顺序应该和其在操作连续性计划(COOP)中的一致以消除可能的冲突。DRP应用于重大的、通常是灾难性的、造成长时间无法访问正常设施的事件。通常,DRP指用于紧急事件后在备用站点恢复目标系统、应用或计算机设施运行的IT计划。DRP的范围可能和IT应急计划重叠,但是DRP的范围比较狭窄,它不涉及到无需重新配置的小型危害。根据机构的需要,可能会有多个DRP附加在BCP之后。3.2 灾难恢复过程与灾难备份技术3.2.1 系统灾难级别定义引起灾难的因素很多,目前,对灾难的定义众说纷

13、纭,没有统一的认识,我们将灾难定义为任何不可预知的影响企业正常运行的事件(也包含预知事件产生的不可预知的影响)。灾难可能是部分或全部的计算机软硬件设备、附属设备、文档表格或机房环境损坏,以至于严重影响数据中心正常运行的事件,它可能由于自然灾害、突发事件、设备故障及人为因素等造成。不是所有的灾难都会毁掉整个数据中心。很多灾难规模较小,如果有的话也只会影响到一个或者两个系统。尽管没有正式的行业标准,但是我们还是可以根据灾难的严重程度定义下面这样的灾难级别。 一级受到攻击和分析的威胁。如果有人声称知道业务系统里有后门可以进入或者准备用病毒发动攻击,我们就认为正在受到攻击和分析的威胁。 遇到这种情况就

14、,用户需要要加强安全戒备,截击攻击者。此时,企业或机构还没有受到损失,攻击行动还没有开始。 二级这一情况不会对数据系统产生冲击,但是它仍然是企业必须解决的问题。例如,即使安全漏洞让入侵者获得了敏感的信息,但是数据系统仍然在运行。但是,你必须立即扭转这一局面。 三级单个系统故障:单个系统故障造成其离线时间超若干分钟或者任意长时间,离线时间取决于系统受到威胁的程度。这种情况需要立即进行应用转移,如果可能的话,要转移到本地的备用系统上;否则,必须把系统从磁带上恢复到备用的硬件上。一般来说,这种情况不会对商业运行造成巨大影响,但是必须尽快解决问题。 四级单处致命故障或者多处非致命故障:在这种情况下,对

15、商业运行的直接威胁已经发生,但是,数据中心仍然在正常运行。如果有可能,还是要恢复到备用硬件和或进行本地的应用转移,但是响应时间现在变得非常重要。到达这一级别,系统正面临大面积的威胁。 五级数据中心即将或者已经发生故障,甚至更糟:断电、间谍活动、恐怖活动,以及自然灾害都可以归入这一类。远程的应用转移或者使用基于磁带备份的数据来重建数据中心是唯一的选择;这一级别会假设生产设施会有相当长的一段时间无法使用。3.2.2 灾难恢复过程灾难恢复是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。在企业所面临的以上多种级别的灾难中,对于一级至三级灾难,

16、企业数据中心的基本环境并没有受到严重的损害,在数据中心体系架构设计合理和系统维护较完善的前提下,基本可以恢复业务运行。对于五级灾难,企业数据中心的物理设施受到了严重的损害或者无法进行维护,如果需要尽快恢复企业生产业务,就需要建立灾难备份中心,利用灾难备份中心的设备恢复企业生产。对于四级灾难,在已经建立灾难备份中心的情况下,可以将部分或全部业务转移到灾难备份中心继续生产。在灾难恢复过程中,以下几种关键技术是必不可少的。 灾难备份技术灾难备份是指将数据从企业数据中心移动到另一个地点,以便最终恢复。可以使用磁带备份的异地存储,或者数据中心到另一地点的数据复制实现。一般来说,灾难的发生是不可避免的,只

17、是机率有大有小,而灾难备份是一个持续性的工作,会伴随业务正常运行的整个生命周期,绝不可以因为建立了灾难备份系统或灾难备份中心就认为万事大吉了。 高可用性技术这指的是将一个或者多个数据系统故障转移至同一站点里立即可用的硬件资源上。例如,如果某个数据服务器发生了故障,你可以立即让同一数据中心里的另一台物理机器投入在线工作。在这一层次上,几乎所有的解决方案都用到了集群(Cluster)技术。 远程高可用性技术远程高可用性把高可用性推向了一个更高的级别,它指的是在物理地点之间进行的数据系统故障转移。一般来说,这包括通过DNS、WINS等等进行路由的变更,这样客户的计算机就可以在不同的物理地点、不同的子

18、网上连接到这些资源。这种类型的解决方案一般都会因为路由的原因而需要花更长的时间进行故障转移,但是这种类型的解决方案几乎总是比其他任何形式的恢复技术(在速度上)快很多。3.2.3 灾难备份技术显然,在以上三种关键技术中,灾难备份的实现是最重要的。只有在远离生产中心的地点保留生产数据的备份,即异地数据,企业才可能在数据中心遭受严重灾难后进行恢复。这里指的“远离”,根据灾难的不同,也有不同的含义。例如,对于一般性火灾,不同建筑物之间的距离已经足够;对于水灾或地震等自然灾害,可能需要几百公里的距离。参照国际灾难备份行业的通行灾难备份等级划分原则,根据异地数据的多寡,异地数据与生产数据的差异程度,以及灾

19、难恢复环境的完备程度,将灾难备份系统从低到高划分为如下七个等级: 等级零:无异地备份等级零没有在异地保存备份数据,未制定灾难恢复计划,不具备灾难恢复能力。 等级一:备份介质异地存放等级一是对关键数据进行备份并存放至异地,没有可用的备份中心及备份数据处理系统、备份网络通信系统,未制定灾难恢复计划。 等级二:备份介质异地存放及备用场地等级二是对关键数据进行备份并存放至异地,并制定相应的灾难恢复计划。具备备用的办公及计算机场地,一旦灾难发生,需要重新调配数据处理系统及网络通信系统资源,利用异地备份数据恢复关键业务系统运行。 等级三:备份介质异地存放及备份中心等级三是对关键数据进行备份并存放至异地,并

20、制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及异地备份数据恢复关键业务系统运行。 等级四:定时数据备份及备份中心等级四是在备份介质异地存放的基础上,利用通信网络将部分关键数据定时批量传送至异地,并制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及备份数据恢复关键业务系统运行。 等级五:实时数据备份及备份中心等级五是利用通信网络将关键数据实时备份至备份中心,并制定相应的灾难恢复计划;具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统。一旦灾难发生,可在

21、备份中心利用实时备份数据恢复关键业务系统运行。 等级六:零数据丢失等级六是利用通信网络将关键数据同步镜像至备份中心,实现零数据丢失,并制定相应的灾难恢复计划。具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统,且具备完全的网络切换能力。一旦灾难发生,可在零数据丢失的基础上恢复关键业务系统运行不同等级的灾难备份系统,其投资差异非常巨大,企业需要根据实际情况,主要是遭受严重灾难后的损失情况,以及发生灾难的几率,建立满足企业需求的灾难备份系统。3.2.4 灾难备份中心所谓灾难备份中心,也称为灾难恢复中心或容灾中心,就是指企业除了拥有一套完整的计算机网络系统(称为生产中心)之外,另外建立一套

22、计算机网络系统。这套系统能在突发性灾难发生,造成生产中心停止工作时,迅速并及时地接管原来运行在生产中心的所有或部分业务,达到减少或避免灾难事件发生时所造成的损失,为企业用户提供完善、优质服务的目的。依照上述灾难备份系统的七个层次,灾难备份中心可以大致分为非实时和实时两种模式。 非实时模式就是利用磁带备份技术,计算机中心人员每天定时备份生产机中心数据,并及时送往灾难恢复中心,尽量保证灾难恢复中心拥有生产中心的最新数据,一旦灾难发生,灾难恢复中心可将业务在较短的时间内恢复运作。这模式的特点是在数据备份问题上技术难度不大,但很难保证生产中心与备份中心间数据的实时性一致。 实时模式就是在生产中心和灾难

23、恢复中心之间通过通信线路,利用数据实时备份,将生产中心主机的数据实时送往灾难恢复中心,保证生产中心与备份中心间数据一致或近似一致。当灾难发生,生产中心陷于瘫痪时,灾难恢复中心在最短的时间内,接管所有或部分业务,恢复系统正常运作。对于以上所定义的各种故障及灾难,灾难恢复中心建设的设计目标是:灾难或其他不可抗拒的事件发生时,最大程度地保护所有系统数据的安全,几十分钟至几小时内恢复所有外界与系统主机的连接并正常运作。上述目标的实现以以下两个主要方面为前提条件:第一,实现灾难恢复的主要步骤及操作模式。包括:由灾难中心主管确认灾难的确发生;在灾难中心主机作断点分析,查明交易情况;完成网络物理切换(手工或

24、自动);启动灾难中心主机应用系统(手工或自动);主机系统重新与分行连线,完成灾难中心切换任务(自动)。第二,灾难恢复有关制度及运作模式的建立。包括灾难恢复的运作完全采用实时自动方式,及灾难恢复的运作采用人工干预与部分自动相结合的方式。3.3 RPO与RTO 在建立灾难恢复系统是,人们往往会问:“建立这样一个系统需要多少投资?”要想阐述清楚此问题,首先要明白两个指标:RTO和RPO。RTO,Recover Time Object,恢复时间指标,是指当灾难发生后,生产系统需要多长时间能够恢复生产,它是衡量企业在灾难发生后多长时间能重新开始运转的指标。不同的高可用性系统会产生不同的恢复时间指标,以某

25、一数据中心被毁导致系统中断为例,如果企业部署了远程高可用性系统,数据中心业务可能在数十秒钟或数分钟左右恢复;如果企业没有部署远程高可用性系统,但是具备了比较完备的灾难恢复环境,可能需要数十分钟至数小时才能恢复业务;如果企业仅仅使用异地的磁带备份来进行恢复,则往往需要几天甚至几周的时间。虽然恢复时间指标是灾难恢复系统的关键指标,但另一个指标可能更重要。在发生灾难时没有保存到异地的数据很可能将永久性的丢失,这种数据丢失多数情况下是无法挽回的。RPO,Recover Point Object,恢复点指标,是指灾难发生后,容灾系统能把数据恢复到灾难发生前的哪一个时间点的数据,它是衡量企业在灾难发生后会

26、丢失多少生产数据的指标。秒分小时日周秒分小时日周数据丢失恢复时间系统运行灾难恢复系统运行理想状态下,我们希望RTO=0,RPO=0,即灾难发生对企业生产毫无影响,既不会导致生产停顿,也不会导致生产数据丢失。从当前计算机技术水平来说,我们可以为用户建设这种类型的容灾系统,其中最著名的例子当属VISA和Master的结算系统,由于这两个银行结算组织占据了全球银行结算业务的重要地位,他们的结算系统不允许发生任何停顿和数据丢失的情况,即使在“911”这种极端情况下。但实现这样的容灾系统的投资巨大,它结合了存储数据复制技术、服务器操作系统镜像技术、集群技术、数据库高可用性设计、应用系统高可用性设计、同步

27、容灾技术、异步容灾技术、同城容灾方案、异地容灾方案,以及相应的管理流程和意外事件反映处理流程等详细的规章制度,和人员配备、行政保障手段(通信、交通等),综合在一起完成一个完整的容灾方案(实际是双生产中心或多生产中心方案,并没有单纯的容灾中心)。但是这种方案的投资过于巨大,目前中国可能除了个别特殊性质的企业外,不会有太多的企业会去实现这个系统。一般来说,只要根据公司所能够承受的数据丢失量就能够确定你所在机构的RPO。公司一般都以数据时间的形式来表示这种尺度。例如,很多基于磁带的DR系统有至少24小时的RPO。尽管我们可以保证丢失更少的数据,但是最差的情况会是没有人及时进行每天的备份。所以如果企业

28、在一天结束的时候碰到了灾难,而系统管理人员还没有完成磁带备份(这是一个很不幸、但也不常见的情况),企业就会丢失一个工作日的数据。企业需要确切地确定它能够承担在一次灾难中丢失多少数据,这一点是至关重要的。一个机构要如何确定这个数量则是艺术和科学的结合,其方式就和确定RTO数量一样。首先,到所要考察的数据系统的用户以及这些领域的管理层去,询问在灾难发生的时候他们能够承受的数据丢失量。得到的答案几乎总是不切实际的;典型的回答更有可能是“零数据丢失”。尽管实现这个RPO是有可能的,就像上面的例子一样,但是所需要的巨大的基础结构、带宽和软件成本使它只能够用于极度昂贵数据,而不能用于所有的情况。如果确实需

29、要“零数据丢失”,那就要用心了有多种灾难恢复计划可以选用,但是要记住的是:大多数都需要大规模、基于硬件的复制系统,而且需要光纤连接。如果能够通过协商获得一个更加灵活的RPO,那么在不同价位就有多种选择。基于软件的复制系统、基于硬件的镜像、Business Continuance Volume(BCV)和其他记录工具,以及无数基于磁带的系统都是可选的。混合使用或者匹配使用这些类型的系统,企业可以创建能够满足从几分钟到多个小时RPO的要求。企业还可以将其中的许多方案应用到单个的数据系统上,这样就能够获得不同的能力,以处理有不同RPO要求的不同系统。RPO是需要正确定义和量化的、但是比较难以处理的尺

30、度之一。然而,对RPO的估计将会决定企业能够使用的灾难恢复解决方案的类型,以及企业的灾难恢复解决方案最终将花费的资金。3.4 容灾系统数据复制数据的远程复制技术是容灾系统的核心技术,它对于数据系统的一致性和可靠性以及系统的应变能力具有举足轻重的作用,通过有效的数据复制,远程的业务数据中心与本地的业务数据实现同步或近似同步,确保一旦本地系统故障,远程的容灾中心迅速进行完整的接管。考虑容灾系统的数据复制技术时,以下几点必须重点考虑: 远程数据中心应具有与本地系统完全同步的能力,确保灾难发生时恢复数据的一致性。 实时复制系统具有广域线路故障时的重新同步机制(即一旦传输网络故障恢复时传输重新同步)。

31、实时复制系统具有对复制数据进行验证的能力。 实时复制系统对于正常的数据系统I/O访问不应产生效率上的不利影响,在线路无法出现同步时不应影响本地数据访问。 实时复制系统应在任何情况下确保数据包的原有顺序,以保证数据的一致性。 3.4.1 数据复制方式选择目前,业界具有容灾功能的常用解决方案主要包括以下几类:磁盘阵列复制技术,主要由一些磁盘阵列厂商提供,如EMC SRDF、IBM PPRC 、HP BusinessCopy、HDS TrueCopy等;存储卷复制技术,由一些卷管理软件厂商提供,如VERITAS VVR;数据库复制技术,由数据库厂商以及一些第三方厂商提供,如DSG RealSync,

32、Quest SharePlex等;应用层复制技术,由各系统的应用厂商自己提供。另外还有一类,基于第三方磁盘阵列实现数据复制,典型的有EMC RecoverPoint,基于磁盘阵列来实现数据复制,同时提供数据复制管理功能。磁盘阵列复制技术:主要适用于数据中心级的海量数据复制,此技术用户必需采用支持该功能的磁盘阵列型号,而这些阵列大都为高端阵列,投资非常昂贵。并且,由于证券行业用户的带宽有限,而磁盘阵列复制技术对带宽的要求又相对很高,动辄需要上GB的带宽。此外,采用磁盘阵列复制技术,其目标端无法提供实时数据查询,由于目标端数据库在复制过程中不能被打开,难于实现交易与查询的分离,同时也造成大量投资浪

33、费。存储卷复制技术:主要适用于工作组级的数据复制,它对CPU资源占用高。同样由于目标端数据无法提供实时数据查询和对带宽的要求高。应用层复制技术:只适合那些在应用中提供了该技术的应用,由于它的非标准化、开发和维护工作量大,使得其应用不成熟也不普遍。数据库数据复制:属于逻辑数据复制。典型的逻辑数据复制是通过数据库日志实现的。数据库日志是以逻辑的方式记录了数据库的物理操作。数据容灾是通过对数据库日志中的记录的复制完成数据库复制的技术。当主用系统发生操作时,数据库自动记录日志,并将日志进行归档。容灾系统中,日志被传送到备用系统,备用系统根据主用系统的日志本系统中进行对应的操作,保证备用系统和主用系统的

34、一致性。第三方软件实现:目前典型的是EMC的RecoverPoint软件,简单而经济高效地在各个品牌阵列上保护或复制数据,支持光纤或IP链路的数据同步、异步复制,无需购买“光纤通道-IP”转换器,并支持将本地和远程站点上的数据恢复到任意时间点,实现数据持续保护。缺点是需要在服务器上添加相应的数据分离程序。3.4.2 磁盘阵列复制技术优势存储阵列复制技术适合对象:优点:缺点:l 主要适用于数据中心级的海量数据复制。l 用户必需采用支持该功能的磁盘阵列型号。l 支持阵列上的所有数据类型复制。l 可支持同步、异步方式复制l 不占用主机CPU资源ll 目标端数据不可用:目标端数据库在复制过程中不能被打

35、开;l 必需同构:源和目标必需要求相同的磁盘阵列、相同的操作系统、相同的数据库版本;l 带宽高:最好提供独占的光纤网络,需要GB级的带宽。从上面存储阵列复制技术的特点来看,选用磁盘阵列复制技术更为简单,不需要在服务器上部署软件,可提供同步复制方式,达到RPO=0的技术要求。这正好可以达到我们要求的在深圳数据中心与证券通讯数据中心的数据同步复制,实现数据零丢失的保护。3.4.3 第三方软件复制技术优势功能好处连续远程复制 (CRR) 利用异步、近于 CDP(连续数据保护)的技术跨任意距离使用双向、异构数据块级复制,以实现具备时间点回滚能力的灾难恢复。 基于策略的管理 利用服务级别策略,这些策略通

36、过管理复制迟滞、数据压缩和带宽优先级划分来优化存储和 Internet 协议 (IP) 广域网 (WAN) 资源。 与应用程序的集成 利用应用程序集成功能支持在复制和 CDP 中使用智能书签,这些集成功能利用了供应商提供的应用程序编程接口 (API),如 Microsoft 虚拟设备接口 (VDI),以及针对 SQL Server 和 Microsoft Exchange 的卷影复制服务 (VSS)。 对所有数据更改执行数据块级日志记录 支持对任意时间点映像的完整读/写存取,同时通过灵活的保护和恢复选项防止数据损坏。 高级技术 使用比同类解决方案明显更少的带宽,通过内置 WAN 加速和压缩高效

37、地将数据传输到远程站点。 从以上的优势可以看出,我们要将北京数据中心的数据复制到深圳数据中心,在带宽小,容灾RPO要求高的情况下,这种提供数据高级管理的软件正是我们需要的,在保证了数据复制的同时,还能节约专线的带宽。3.5 容灾系统拓扑图3.5.1 RecoverPoint数据异步复制此次规划将北京数据中心的EMC CX3-40上的关键数据复制到深圳数据中心的CX3-40上,由于两地之间专线的带宽有限,鉴于上面的分析,我们采用EMC Recoverpoint软件,将北京阵列上的数据定时异步复制到深圳的阵列上,拓扑图见上图。如上图所示,北京与深圳的两台EMC CX3-40存储设备通过光纤分别连接

38、到RecoverPoint设备上,两台RecoverPoint设备间采用IP专线网络连接。北京数据中心,在需要进行数据远程复制的系统上安装一个驱动程序,用于直接截取系统中的数据写命令,RecoverPoint设备收当到主机的写磁盘命令后,经过处理(对数据进行压缩,压缩率可以达到15倍左右),然后定时通过IP方式进行传送,透过专线网络将数据传送到深圳的RecoverPoint设备处,形成历史快照后,再写入到深圳的磁盘阵列系统中,保持与北京阵列上的数据一致性。在写入到深圳的磁盘阵列后,可再通过深圳数据中心的MirrorVIew,将数据实时同步到证券通讯数据中心的阵列上,进一步保证数据的可用性。Re

39、coverPoint不经过主机,不依赖磁盘阵列,完全独立的运行,克服异构存储系统和服务器环境,并可实现一对多的容灾,降低了容灾建设成本。通过IP 网络,搭建数据容灾架构,延长了容灾的距离,充分利用现有资源,完成数据的容灾保护,为保障数据的高安全性和可靠性打下良好基础。3.5.2 MirrorView数据同步复制如上图所示,XXX深圳数据中心的磁盘阵列与证券通讯数据中心的磁盘阵列通过长波光纤连接,搭建数据容灾架构。为了保证当XXX深圳本地数据中心的存储设备发生内部问题或被破坏后,业务还能正常提供服务,需要将本数据实施容灾保护。由于当前生产中心的数据存储系统,采用的是EMC CX3-40F磁盘阵列

40、,实施基于硬件级的容灾,需要在证券通讯中心再添加一台EMC 相同配置的磁盘阵列CX3-40F。将新的磁盘阵列按上图所示,与现有的CX3-40F通过长波光纤连接到一起,通过EMC MirrorView软件,逐字节的同步两台CX3-40上的需要同步的数据,当生产系统的主机需要将数据写入到本地磁盘阵列上时,会先写到证券通讯数据中心的CX3-40上,再写入本地生产中心的CX3-40上,在两台阵列均完成写入操作时,则反馈给主机数据已写入完成的信息,这就保证了两台阵列上的数据完全相同,不会在本地的阵列被破坏时,发生数据丢失的错误,在容灾发生时,RPO=0。一旦生产中心的设备出现故障,或出现其他容灾时,由于

41、两台阵列的数据完全相同,只需要将容灾中心的阵列分离,并将容灾中心服务器上的备用业务系统运行起来, 即可恢复正常生产。3.5.3 灾备系统应用平台同时,容灾系统需要接管生产系统的应用,必须配置管理系统运行的服务器平台,同样出于经济性的考虑,容灾系统服务器可以选用性能要求低于生产系统的服务器,并且仅运行于单机状态。3.5.4 容灾系统配置本次数据容灾系统,所需配置如下:详细配置见报价清单EMC CX3 MirrorView/s软件两套EMC CX3-40及SAN附属设备一套EMC RecoverPoint软件两套第4章 容灾系统管理设计今天,信息科技专业人士面临的一个重要任务是降低部署和扩展关键性

42、企业应用所需要的成本。这些成本主要包含应用本身的软件注册、规划设置和维护等费用。但是,应用后端基础设施也是成本的一个重要组成部分,这些基础设施包括输入/输出(I/O)通道硬件、实际的物理存储和存储服务(包括用于确保业务连续性的服务)。存储网络的利用率的不断提高有助于降低开发和维护企业级应用所需要的成本。建设一个能够实现物理存储和存储服务的共享基础设施让企业可以提高这些现有基础设施的利用率。所降低的这些成本主要归功于存储利用率因为存储和服务器在存储网络中的整合而获得的提高。但是,这个优化机会同时也带来了一系列挑战和相关的成本。随着存储网络环境的不断发展,对于存储网络环境的全面管理服务的需求也变得

43、更加明显。尽管很多存储网络环境通常是利用某个磁盘子系统公司提供的设备和服务构建的,但是这种趋势正在发生变化。由于很多企业想在谈判中占得优势,不希望被某个供应商所限制,所以它们开始纷纷邀请多个供应商来为它们的业务展开竞争。因此,由多个厂商的设备构成的存储网络正在逐步增加,并且进一步提高了管理任务的复杂性。即使在同一个子系统供应商的解决方案中也可能存在四或五个不同的原始设备制造商(OEM)厂商的设备。针对这种管理多样化的存储网络环境的挑战,出现了很多用于满足这种需求的新型应用和服务。有些解决方案是由子系统供应商或者存储交换机供应商提供的,而有些则是由第三方公司提供的。存储和存储网络管理解决方案已经

44、变得与它们所要管理的供应商设备一样多。尽管每种管理软件解决方案可以提供自己的功能集和优势,但是大部分解决方案可归纳为三到四个主要的类别。随着存储网络环境的不断发展,对于存储网络环境的全面管理服务的需求也变得更加明显。针对整个存储环境、全面的服务集合包括了组件管理、交换阵列管理、资源管理、数据管理和应用管理等。组件管理组件管理包括一系列用于配置和管理某个系统或者交换阵列中一组组件的工具。因为这些系统或者交换阵列通常包含多个供应商提供的组件,所以每个供应商一般都需要提供它们自己的组件管理器。一个组件管理器一次只能对一个组件执行任务。组件管理器所执行的功能通常会随着配置的不同而不同。尤其需要指出的是

45、,这些功能包括对设备进行初始配置,设置和监控阈值,以及管理设备系统镜像或者固件。交换阵列管理交换阵列管理包括一系列旨在以一种更加面向系统的方式对待系统及其组件的工具。因为一个交换阵列可能包含来自于多个供应商的大量组件,很多这样的交换阵列管理工具都已经发展为可以管理“综合性交换阵列”。综合性交换阵列没有定义任何标准的应用编程接口(API)或者信息接口,它代表了大量复杂的设备与不同的接口和API。交换阵列管理应用通常可以提供三种常见的服务,即交换阵列发现(Fabric Discovery)、交换阵列监控和报告(Fabric Monitor and Report),以及交换阵列配置(Fabric C

46、onfiguration)。交换阵列发现是指应用能够利用交换阵列中的特定组件所支持的任何API或者接口,发现这些组件,包括它们的资产信息、配置和统计信息。通常,交换阵列管理器将根据所发现的组件配置,绘制出网络拓扑。交换阵列监控和报告服务是指利用从交换阵列组件中搜集到的任何信息,提供一个关于交换阵列的运行状况、配置和库存信息、相关关联的系统级视图。这个视图可以通过一组报告或者一个实时的快照视图提供。交换阵列配置服务通常表现为两种形式。在提供交换阵列配置服务时,交换阵列管理器只需根据需要,调用各个组件管理器来配置交换阵列的实际组件。交换阵列配置的另外一种更加智能化的形式是交换阵列管理器可以利用所提

47、供的组件API,根据用户输入的信息或者自动判断,自动地配置多个组件。在任何一种情况下,交换阵列管理器都可以将所要做的配置改动与已知的最佳实践或者已有策略相比较,以提供一个额外的控制层。资源管理资源管理包含一系列旨在管理某个系统或者交换阵列中、用于用户或者组件自身的资源的工具。这些资源可能包括交换阵列带宽、连接路径、磁盘、每秒IO次数(IOPS)、CPU和内存。这些资源可能是物理资源,但是在存储虚拟化的情况下也可能是一种虚拟资源。资源管理系统的两种最常见的活动是趋势和容量规划。用户可以管理资源的分配、供应、监控和报告。其中每个方面都可以通过现有的策略进行手动或者自动的管理。例如,某项策略可能会决定某个特定的数据库在什么时候需要添加存储容量。同一项策略可能会调用某个自动执行的流程,从某个特定的磁盘中分配附加的容量,并将这些容量供给该应用使用。资源管理系统负责控制用户和系统管理员对这些资源的使用权限。新用户及其资源控制或者使用范围也由资源管理系统管理。数据管理数据管理包括一系列旨在确保系统中数据可用性(无论数据使用什么格式)的工具。数据管理通常需要保障数据的完整性、可用性和访问性能。数据管理服务通常包括廉价磁盘冗余阵列(

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号