某某公司灾难恢复技术方案-改进版-加案例版.docx

上传人:牧羊曲112 文档编号:1763604 上传时间:2022-12-17 格式:DOCX 页数:97 大小:756.79KB
返回 下载 相关 举报
某某公司灾难恢复技术方案-改进版-加案例版.docx_第1页
第1页 / 共97页
某某公司灾难恢复技术方案-改进版-加案例版.docx_第2页
第2页 / 共97页
某某公司灾难恢复技术方案-改进版-加案例版.docx_第3页
第3页 / 共97页
某某公司灾难恢复技术方案-改进版-加案例版.docx_第4页
第4页 / 共97页
某某公司灾难恢复技术方案-改进版-加案例版.docx_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《某某公司灾难恢复技术方案-改进版-加案例版.docx》由会员分享,可在线阅读,更多相关《某某公司灾难恢复技术方案-改进版-加案例版.docx(97页珍藏版)》请在三一办公上搜索。

1、某某公司灾难备份系统集成项目技术响应文件目 录1 项目简介41.1 项目概述41.2 项目目标与原则41.2.1 项目目标41.2.2 项目建设原则51.2.3 项目建设内容82 技术方案描述92.1 技术方案设计92.1.1 用户现状分析92.1.2 技术方案设计原则92.1.3 技术方案拓扑图102.1.4 技术方案概述112.1.5 技术方案优势总结122.1.6 灾难恢复方案122.1.6.1 关键业务系统中普遍存在的问题142.1.6.2 实施业务连续性方案的意义152.1.6.3 惠普灾难恢复方法172.1.6.3.1 什么是容灾系统172.1.6.5.2.3某某公司系统数据容灾的

2、远程复制182.1.6.4 容灾系统的管理192.1.6.4.1 组织机构192.1.6.4.2 管理制度和操作规程202.1.6.4.3 灾难的预防202.1.6.4.4 灾难恢复计划的测试、试运行和维护212.1.6.5 培训测试及维护222.1.6.5.1 培训222.1.6.5.2 测试灾难恢复计划222.1.6.5.3 测试方法232.1.6.5.4 测试的频率232.1.6.5.5 可能引起变化的因素232.1.6.5.6 测试流程的制定232.1.6.5.7 维护242.1.6.6 惠普公司容灾实施服务内容252.1.6.6.1 方案实施核心服务(Core Service)252

3、.1.6.6.2 方案实施增值服务(Value-Added Service)272.1.6.7 客户收益292.1.6.8 HP容灾解决方案优势292.1.6.9 产品配置302.2 软件系统方案322.2.1 实现容灾系统的软件配置342.2.2 数据复制模式及实时性352.2.3 容灾数据的使用362.2.4 容灾数据的一致性372.2.5 容灾方案的恢复时间及恢复点382.2.6 系统升级392.2.7 VxVM及VVR复制对系统的性能影响402.2.8 容灾技术对照412.2.9 Symantec/Veritas系统实施案例422.3 HP EVA8400磁盘阵列特性432.3.1 E

4、VA8400与IBM 4800的比较优势:442.3.2 概述482.3.3 新特性482.3.4 功能与优势492.3.5 虚拟化概述:502.3.6 软件解决方案522.3.7 EVA8400的保修服务532.3.8 技术规格552.4 灾备管理及应用服务器562.4.1 设备选型562.4.2 机架式服务器配置设计572.4.3 机架式服务器选型572.4.4 惠普服务器管理系统602.4.4.1 虚拟连接管理602.4.4.2 服务器系统管理软件672.4.4.2.1 远程管理及控制672.4.4.2.2 分发及部署682.4.4.2.3 安全管理682.4.4.2.4 虚拟环境管理6

5、82.4.4.2.5 性能管理683 惠普技术服务实施方案693.1 技术服务实施计划693.1.1 技术服务实施概述693.1.1.1 技术服务实施总体要求693.1.1.2 服务范围和服务内容693.1.2 项目人员组成703.1.2.1 项目组织结构图703.1.2.2 惠普项目组成员职责703.1.3 服务实施计划进度表713.1.4 服务准备阶段723.1.5 技术服务现场实施阶段734 培训服务784.1 培训服务内容784.2 课程介绍794.2.1 EVA磁盘阵列管理培训794.2.2 备份系统培训804.2.3 灾难恢复培训805 技术支持与售后服务815.1 中国惠普技术支

6、持机构分布状况815.1.1 惠普上海支持中心及主要成员介绍815.2 设备质保期内售后服务方案825.2.1 保修内容825.2.2 保修期内服务流程845.2.3 保修期内紧急故障处理流程855.3 保修期后服务内容865.3.1 基于服务器或存储设备的软硬件支持服务875.3.2 基于服务器或存储设备的主动式服务905.3.3 可订购的技术服务905.3.4 设备质保期后服务价格925.4 免费技术支持926 设备清单931 项目简介1.1 项目概述随着社会飞速发展,在越来越多的企业实现了数据、应用大集中以后,数据的安全、业务的连续性等就成了企业管理者必须认真思考的问题。自然灾害、人为失

7、误,这些大大小小、似乎是防不胜防的灾难事件给我们的正常生活和工作带来了许多负面的影响,比如经济损失、信誉受损,甚至可能导致企业倒闭。为了避免或者尽量减轻这些事故或者灾难对业务的影响,企业必须建设完善的数据备份及灾难恢复系统。灾难恢复对企业而言,已不再以单纯的IT环境为对象,而是将快速恢复整个业务流程及运营作为最终目的,其中的关键,就是恢复核心数据及关键业务应用的运行。所以,企业的灾难备份策略,要围绕“快速恢复整个业务流程及运营”这个最终目的。而灾难备份方案,则要紧紧扣住“恢复核心数据及关键业务应用的运行”这个关键点。首先是数据级的灾难备份与恢复,紧接着是主要业务应用的灾难备份与恢复。灾备系统应

8、能达到:一旦主系统出现问题,能在数秒钟内自动而正确无误地切换到灾备系统,保持整个系统继续运行;待主系统修复之后能很方便地复原,使整亇系统继续正常运行。1.2 项目目标与原则1.2.1 项目目标结合某某公司IT基础架构的现状,规划将IBM 4800上的数据容灾至容灾中心的新磁盘阵列上。具体需要实现以下具体目标:(1)高可靠性保障系统数据容灾之后必须保证其正确性和完整性,不能有任何数据丢失,尽可能减少业务系统的停机时间。(2)高性能设计新的存储上线后将面临大量的用户业务请求,和不断新增的业务内容,用户同样不能忍受任何性能瓶颈,因此要求提供的存储设备是在大吞吐量以及海量数据环境中具有高性能设计的产品

9、。(3)高扩展性系统数据量在未来会有不断增长,因此要求提供的存储设备具有容量以及处理能力上无缝的扩展能力,存储设备的初始容量要能够满足未来3-5年的数据存储要求。(4)数据安全性磁盘、RAID级别的故障,业务不中断,数据不丢失;阵列级别的故障,业务中断不超过1小时,数据不丢失;机房级别的故障,业务中断时间可预见,数据丢失为分钟级;发生误删除、病毒等逻辑错误,数据在小时级别恢复;(5)高效易管理性通过灵活高效的灾难恢复技术,可以将灾难恢复系统设备和灾难恢复流程统一的管理起来,降低管理的复杂度,满足系统对恢复点目标和恢复时间目标的要求。1.2.2 项目建设原则在系统的建设过程中,我们遵循的建设原则

10、是:统一规划,分步实施,目标明确;坚持科学性、先进性、实用性、可靠性和标准化等原则;调动各方面的积极性;制定严格的网络安全机制、用户使用原则和违约处理原则;特别强调应用与服务。(1)统一性原则为了能够更好地实施某某公司灾难恢复系统,我们坚持某某公司统一领导的原则;根据实际业务流程和管理范围,对系统规划、系统实施进行统一的部署;系统建设要统一组织实施,即体现在主要业务软件统一开发、使用人员统一培训等方面。(2)持续发展原则工程设计方案应立足当前,着眼长远;适应电信设备进网管理系统业务发展的需要,树立全局意识;进行统一、长远的规划,逐步实施。(3)科学性原则应用系统的设计遵循科学性原则,包括数据结

11、构和标准体系要符合办公系统信息的内在逻辑体系,同时,要充分考虑人的的认知结构。选用适用的标准和科学的方法是本方案遵循的科学性原则。以软件工程理论以及当前软件开发技术的理论为基础,应用系统架构完全采用这些已经得到实践证明的科学技术,以科学理论为准绳,来指导我们的系统设计和开发工作。(4)标准化原则系统建设将遵守国际标准、国家标准及行业标准,使系统具有良好的兼容性。从计算机技术和网络技术以及通信技术的发展来看,标准化无疑是技术突飞猛进的一个重要因素,只有采用标准化的技术和标准化的协议才能和国际接轨,才能和全球信息高速公路接轨,交换数据和信息资源,才能保证系统的开放性。系统平台的选型、系统的接口、数

12、据库标准等等必须采用相关的国际标准、国家标准。没有国际、国家标准的地方根据应用的要求需要制定自己的标准,以保证将来系统的扩展性。系统平台必须采用国际标准的数据库来实现空间数据的管理,对各类应用服务提供标准的服务接口和规范,支持开放性技术,以方便不同应用需求。保证设计实现的质量,以及便于日常维护和系统的扩展。系统应建立完备的数据标准,数据的组织应符合相关主要国际和国家标准;对于未有明确规范的部分,则建立自己的标准并予以规范。(5)先进性原则系统开发需采用成熟的高新科技,以目前较为先进的方法实现需要的功能,既反应当今科技的先进水平,又具有发展潜力。(6)实用性原则实用性就是能够最大限度地满足实际工

13、作要求,是每个信息系统在建设过程中所必须考虑的一种系统性能,它是自动化系统对用户最基本的承诺。所以,从实际应用的角度来看,这个性能更加重要,为了提高办公自动化和管理信息系统中系统的实用性,应该考虑如下几个方面:n 系统总体设计要充分考虑用户当前各业务层次、各环节管理中数据处理的便利性和可行性,把满足业务需求作为第一要素进行考虑;n 采取总体设计、分步实施的技术方案,在总体设计的前提下,系统实施中可首先进行业务处理层及管理中的低层管理,稳步向中高层管理及全面自动化过渡,这样做可以使系统始终与用户的实际需求紧密连在一起,不但增加了系统的实用性,而且可使系统建设保持很好的连贯性;n 全部人机操作设计

14、均应充分考虑不同用户的实际需要;n 用户接口及界面设计将充分考虑人体结构特征及视觉特征进行优化设计,切合实际的了解工作人员和用户的使用习惯,界面尽可能美观大方,及具有良好可操控性。(7)可靠性原则系统设计时,首先考虑选用稳定可靠的产品和技术,使其具有必要的纠错能力,并且适合计算机网络通信技术的更新换代。各应用系统的运行,365天不间断,要求系统能长期稳定可靠地工作。在系统发生故障时,要有及时有效的备份办法处理,使其不影响其它应用系统的运行,保证系统数据不丢失和迅速恢复。(8)可扩展性原则计算机技术、网络技术、通信技术正处于一个不断飞速发展的时期,随着公司信息化建设的不断推进,所涉及的业务的需求

15、会不断的飞速上升,可以预料需求也是不断增长变化的。在软件结构设计过程中,必须充分考虑未来信息的增长趋势,尽量选用可升级的结构,为系统功能的扩充和技术的平滑升级提供极大的方便。因此整个系统的建设要遵循可扩展性的原则:系统适应灵活多变的业务逻辑,充分发挥数据与应用逻辑相分离的思想,适应用户不断变化的业务和功能上的拓展。系统具有安全方便的移植能力,为用户系统的升级提供保证。另外,服务端的发展是有一个过程的,相应的负荷也是一个由小到大的过程。按最经济的原则,将系统规划成一个扩展性很强、且在扩容升级时浪费最少的系统。遵循开放性原则,能够支持多种硬件设备和网络系统,软件支持二次开发。应用系统采用标准数据接

16、口,具有与其他信息系统进行数据交换和数据共享的能力等。应用软件顺应当今软件设计发展方向,采用浏览器服务器(B/S)结构和模块化设计,采用模块化,标准二次可开发的组件设计思路保证所设计的内容具有最好的可扩展性。(9)安全性原则在线业务系统的特点决定了安全性将是软件系统设计中首要考虑的因素。系统操作权限要有严格设定,数据库的安全措施是保证系统的安全运行的基础。除了在硬件/网络、操作系统、数据库一级提供可靠的安全保密措施以外,上层应用系统的设计也必须进一步强化确保用户数据在存储、传输、查询等过程中的绝对安全,杜绝非法用户未经授权地对数据进行修改和操作数据(10)可管理原则系统应具备安装快速简捷、配置

17、方便容易、使用简单方便等特点。系统用户的素质千差万别,系统建成后,一定要适用于广大的系统使用人员。1.2.3 项目建设内容项目建设内容包括: 在灾备中心建设一套系统的数据级别灾难恢复系统,防范本地机房站点级灾难,同时开发一套数据级灾难恢复计划,并做相应的灾难恢复演练和灾难恢复培训,规范后续灾难恢复计划的管理、维护和更新。 购置一套高性能、高可靠性、高可扩展性磁盘阵列EVA8400,用于容灾中心。2 技术方案描述2.1 技术方案设计2.1.1 用户现状分析某某公司在本地本地和异地均有服务器和交换机,本地和异地之间,通过光纤连接,在本地有一台IBM 4800存储,现在需要在异地新购一台存储设备,以

18、实现本地和异地之间的存储容灾。在本地灾难发生时,使数据和应用在一定时间内,2.1.2 技术方案设计原则根据我们对某某公司灾难恢复系统建设需求的了解和以往实施各大型项目的经验,我们认为,本系统在规划和设计过程中,应遵循以下一些原则:l 开放性和标准性考虑到存储系统未来引进新的业务系统,使用的通信协议和数据格式都有可能不同,因此,系统须支持多种标准的通信协议和数据格式,并完成数据格式的统一转换。同时,系统采用的计算机网络体系结构以及通信协议要符合国家安全标准要求。我们将依据国际标准和国家标准,为用户建立一个开放、完善的系统,有效地保护用户投资。l 成熟性与先进性系统要真正发挥出作用,首先必须能够稳

19、定、正常地运行,这就需要建立在成熟的技术基础之上。而在兼顾系统成熟性的前提下,采用业界先进的技术,才能保证系统的先进性,使计算机系统发挥最大的效率,并随着技术的不断发展得到相应的更新。l 可靠性与可用性采用计算机系统的目的就是为了提高工作效率,更好地实现本工程的各类建设目标。因此在系统的设计过程中,我们将努力采用各种先进技术来加强系统的高可靠性和高可用性,以保证系统连续、正常地工作。l 可扩展性根据某某公司业务发展的要求,现有系统的设计必须具有一定的扩展能力,留有升级的余地,以满足业务的发展和快速、方便的联网。我们将采用结构化、开放的、易于扩展的体系结构,在充分利用现有资源、保护现有投资的前提

20、下,保证系统的可扩充性,适应业务的持续发展需要。l 安全性和保密性建设系统软、硬件的选型和建设模式的制定都必须充分考虑采用成熟、可靠的产品和技术措施,保证系统的安全。同时在通过采用各种手段保证敏感信息的安全。l 易操作性和可维护性现代计算机系统越来越复杂,这就对操作管理人员提出了更高的要求。一个技术再尖端的计算机系统,如果用户不能自如地进行操作管理,也不可能成为一个好的系统,甚至会导致系统仅仅成为一个摆设。因此,我们的系统将贯彻面向最终用户的原则,建立友好的用户界面,使操作简单、直观、灵活,易于学习掌握,便于用户使用和管理,以发挥系统的最大实际效益。2.1.3 技术方案拓扑图根据某某公司系统灾

21、难恢复要求设计的架构如下图:2.1.4 技术方案概述结合系统对灾难恢复数据级容灾的要求, 该方案采用新购买一台高性能的EVA8400,做为对原有的IBM 4800的容灾,采用DL580服务器作为灾备管理的应用服务器,采用Veritas的VERITAS Volume Manager软件,做为两台阵列之间的容灾软件。存储和备份系统设备配置方案如下:设备编号设备名称数量备注1磁盘阵列1台HP EVA8400,32个300G 15K FC硬盘, 配管理小家电,配CV管理软件10T容量许可证,10根15米的LC到LC接口的光纤线,原厂机柜。3年7*24小时级别服务。2容灾软件1套Veritas VERI

22、TAS Volume Manager软件。3灾备服务器8套HP DL580R052.1.5 技术方案优势总结 惠普灾难恢复解决方案针对IT系统对于企业业务起关键作用的客户以及监管审计机构对业务连续和灾难恢复有明确要求的客户量身打造,涵盖电信、银行、税务、电力、社保、保险、证券、基金、制造业等重点行业。业务连续和灾难恢复解决方案是惠普公司专为希望采用远程灾难恢复的方式实现关键业务数据保护的企业用户提供实施帮助而设计的,它通过惠普公司业务连续专家,项目管理专家和一系列经过验证的分析、设计、实施以及测试服务步骤为您提供全面和详尽的容灾方案部署和应用,并帮助客户从技术、流程、人员三方面提高业务持续能力

23、,保证企业的正常运作和发展,其服务内容主要涵盖高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理、大型灾害的应对计划和策略以及业务持续性管理团队建设与咨询、应急指挥中心和通讯系统等。 HP EVA8400 企业虚拟阵列旨在为大中型企业市场中的客户提供领先的高性能、高容量和高可用性“虚拟”阵列存储解决方案。 与传统架构的存储相比,这些解决方案不但可以降低IT成本和复杂性,而且可以节约时间、空间和总体拥有成本。EVA专为迫切需要提高存储利用率和可扩展性的数据中心而设计,能够提供始终如一的高性能交易I/O,满足具体应用的需求,可轻松进行容量扩展,同时还提供即时复制功能和简化的存储管理功能。

24、2.1.6 灾难恢复方案惠普公司为上海制造厂提供的灾难恢复方案具有以下特点和优势: HP根据二十多年业务连续和灾难恢复建设经验总结归纳了业务连续和灾难恢复建设方法论,可以系统的指导容灾系统的建设 完整详尽的数据远程备份和灾难恢复方案,惠普能够提供从服务器、网络、存储、SAN、监控、远程集群等全面解决方案。避免容灾实施只是片面实施了存储复制 容灾实施内容包括技术、流程、人员三个方面,并可以协助用户制定灾难恢复计划(DRP) 大量实施案例,经过验证的容灾系统实施和支持能力,丰富的实施经验和人员,强大的专人支持HP全球超过5000名关键系统支持工程师和600名通过认证的SAN工程师。HP公司目前在中

25、国有40名售前技术工程师,70名资深的技术咨询工程师,和超过300名有丰富经验的安装调试人员和故障处理工程师,并有20多位容灾咨询顾问和多位通过国际容灾协会认证专家。以XP/EVA为基础的灾难恢复解决方案作为惠普公司成熟的数据保护解决方案之一,已经在国内为许多用户进行安装运行。我们希望利用最好的资源协助某某公司建立灾难恢复/恢复系统,并且在日常的维护中给予及时的响应,确保整个系统实施和运转正常。在今天的科技社会中,IT技术的运用已经渗透到了我们生活和工作的各个层面,为我们带来了以往任何一次技术革命都没有的便利和迅捷,可以说,由于采用了IT技术的新的生产方式已经基本上代替了原来的生产方式,成为现

26、代社会运作和发展的主流,我们对计算机系统的依赖超过了以往任何一种技术。然而计算机系统在为业务的迅猛发展提供信息技术基础架构的同时,也带来了以往我们不曾发觉的负面因素。例如由于信息和处理的高度集中使业务运转过度依赖于IT系统,并会因为IT系统的突发问题而受到很大影响,严重的甚至可以导致业务系统无法正常进行。这些问题包括了进行系统检修和升级带来长时间的系统停机,系统自身的或者人为的因素或事故发生连锁性的扩大,以及不可预见的故障和突发性灾难等等。如何避免业务运转受到影响,或者使业务影响尽可能降到最低,这是每一个企业管理者必须考虑和重视的问题。某某公司经过长期的思考,如何切实有效的保障综合营帐等关键业

27、务系统的连续运行已经成为某某公司管理层十分关注的问题。本方案涵盖高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理和大型灾害的应对计划和策略,业务持续性管理团队建设和咨询等诸多方面的服务,可以帮助客户从技术、流程、人员三方面提高业务持续能力,保证企业的正常运作和发展。2.1.6.1 关键业务系统中普遍存在的问题提高IT系统的高可靠性以及IT系统的容灾建设早已不再是新鲜的话题了,随着许多电信运营商用户实施业务系统大集中,针对IT系统的高可靠性和容灾能力的需求日渐突出,很多电信运营商都已经实施了有针对性的容灾系统,并且更多讨论的是如何实现业务数据的有效保护和电信业务的连续性运行。然而,目

28、前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅有技术层面的缺陷,更多的是在流程和人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。我们可以列举出其中的一些:1 仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种产品的堆积。仅实现了数据的远程复制或者离线存放,没有进行灾难的各种场景测试和灾难预演,并缺乏灾难恢复机制和危机应对流程。发生灾难时,不知道到底数据或者系统能否恢复正常。2 进行了一定的测试和预演,但是缺少相应的灾难恢复计划和特殊情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时,

29、百废待兴、千头万绪的情况下,没有依据和参考,可能无法顺利进行有关操作。3 有了灾难恢复计划等必要文档,但是没有及时的将IT系统,业务流程和管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。4 具备了以上的要素,但是容灾系统的建设局限在IT部门,缺少业务部门的参与和管理高层的介入和全力支持。发生灾害时,IT系统能够恢复但是业务流程仍无法恢复运转。除了以上列出的问题之外,还有许多问题如容灾系统的负载能力估计不足,实施过程中没有严格遵循高可靠标准,实施过程工作界面过多沟通不足,日常运维管理方面存在不足和漏洞,缺少厂商、系统集成商的后续支持服务等等都可能导致业务持续性系统建设的失败。除了以上的问

30、题之外,另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计,非计划性停机只占13%的停机概率,而在非计划停机中大型自然灾难占的比例就更低了。所以在项目实施时,未能很好的优化现有系统和流程,没有充分发掘现有潜力,未能将日常操作流程和业务持续性目标充分整合,虽然实现了容灾但是仍没有从本质上解决持续性问题。HP公司提供的业务连续性解决方案是基于HP公司长期的实践经验和业界公认的业务持续方法论(BCP),结合客户的具体实际情况,采用业界先进成熟的产品和技术,由资深顾问和技术专家构成的实施小组遵循IT服务管理(ITSM)理念进行实施。充分考虑

31、了以上普遍性问题,保证了项目目标的成功实现,同时HP公司可以提供整个容灾项目的整体解决方案单点后续支持服务,这一点完全不同于业界其他友商仅能提供单一产品支持的服务模式。2.1.6.2 实施业务连续性方案的意义某某公司业务发展的速度是非常惊人的,这点可从业务连续多年快速的发展反映出来。这样的飞速发展使某某公司在单位时间内的盈利水平不断提高,因此,业务的间断直接意味着收入损失;另一方面,提供高可靠性、高水准的客户服务也是某某公司保持竞争能力和市场份额的重要手段;随着支撑某某公司业务运营的IT系统建设的不断发展,某某公司在享受IT支撑系统带来的高效率、高盈利的优势的同时,其业务运作也更加依赖于IT系

32、统的稳定运行,其结果是,一旦发生大的灾难,IT系统及其所支持的关键业务系统将处于瘫痪,用户信息、运营数据等也随之丢失,这样的后果,显然是某某公司不愿意看到的。所以某某公司对其计算机业务系统的连续运行,业务系统、业务数据的高可用性以及业务计算机系统抵御灾难能力的要求也必然急剧提高。综上所述,某某公司建设灾难备份中心有如下的意义:l 重要业务数据在灾难发生后得以保护。l 重要业务在灾难发生后可以在一定的时间内恢复,连续运行。对于HP提供的方案,即使在本地的IBM 4800发生宕机,数据仍可持续进行读写,完全不影响业务的进行,切换时间为零。l 业务计算机系统抵御灾难的级别提高。l 提升了关键业务系统

33、的高可用性,减少计划性停机对业务的影响。l 进一步提高某某公司在行业中的声誉,增强客户及潜在客户对企业的信心。l 增加对竞争对手的优势。l EVA 8400较之IBM 4800,性能指标上更加先进(具体见本方案第44页“EVA 8400与IBM 4800优势比较表”)。能使容灾系统地高性能运转。2.1.6.3 惠普灾难恢复方法2.1.6.3.1 什么是容灾系统容灾系统是业务永续运行的重要的组成部分。所谓灾难,通常是指引起关键业务的信息服务中断,且中断的时间及造成的损失超出企业所能承受的范围之外的意外情况。引起灾难的因素很多,可以是系统环境中的软件、硬件故障,有意或过失的人为破坏,还可能是因火灾

34、、飓风、地震而引起的数据处理设备的损坏等等,只要造成了关键业务的中断,都是灾难。而容灾就是通过预先建立的备份中心、备份设备和备份数据等,在可以容忍的时间内恢复业务系统的正常运行,将企业因业务中断而导致的损失降低到预定的程度。相对于业务永续运行来说,容灾强调的是企业的关键业务在灾难发生时的应对能力和恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的损失降低到最小程度。显然,它并不保证业务的零间断能力;实际上,容灾系统的整个灾难恢复过程必须会造成一段时间的业务中断。另外,也正是因为可以容忍一段时间的业务间断,所以其实施难度、周期和规模都要远远小于实现业务持续性系统的建设。从广义上

35、讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾,例如主机集群:当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常工作。而我们平时讲到的容灾,尤其是值得重视的容灾,一般都是指远程容灾。远程容灾可以这样理解:在各行业企业用户的IT系统中,必然有一部分(尤其是核心部分)是非常重要的,我们叫它生产中心。人们往往给生产中心配备一个备份中心,该备份中心是远程的,并且在生产中心的内部,已经实施了各种各样的数据保护。不论采取什么方式进行保护,当火灾、地震这类突发性灾难发生时,一旦生产中心瘫痪了,备份中心将能接管生产系统,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火

36、灾、地震等灾难性事件时,该系统仍要保持正常进行,不能因为调度中心出现灾难性事件,全国的铁路系统就处于瘫痪状态,让灾难不合理地蔓延。我们认为,一个有效的高可靠性计算环境应该能够做到:l 数据中心任何计算机系统硬件,软件及应用的单点故障将不会影响整个数据中心的处理工作;l 数据中心由于灾难(火灾、地震、断电)等原因无法工作时,应有一个备份数据中心能够迅速接管关键应用,继续运行;l 主数据中心恢复后,应用系统、业务数据应能迅速切换回主中心运行。2.1.6.5.2.3某某公司系统数据容灾的远程复制通常说来,对于远程灾难恢复方案建议用户建立两个数据中心,主中心和备份中心。正常情况下,应用运行在主数据中心

37、的计算机系统上,数据也存放在主中心的存储系统中。当主数据中心由于断电,火灾甚至地震等灾难无法工作时,则立即采取一系列相关措施,将网络、电话线路切换至备份中心,并且利用备份中心计算机系统重新启动应用系统。而这里最关键的问题就是切换过程时间最短,同时尽可能保持主数据中心和备份中心数据的连续性和完整性。而由于财务数据的重要性,如何解决主、备中心数据库数据备份,恢复则是灾难恢复方案的重点。传统的磁带备份方式一般采取定点备份,而当系统崩溃时。距最近一次备份时间之间的数据将全部丢失。无法恢复。而且磁盘备份、恢复时间比较长由于速度馒,缺乏实时性,无法满足用户大数据量数据恢复及数据库连续性,实时性的要求。而现

38、在流行的灾难恢复方案主要是采用实时的数据备份的方式。它的主要原理是通过通信线路,实时地将主中心更新数据拷贝至备份中心存储系统中,保证主、备中心数据的实时一致性。当主中心无法工作时,备份中心可以立即接管业务,并且确保数据的最大完整性。根据用户现状,其主要实施方法有:a. 通过高端存储阵列容灾:例如IBM的ERM镜像软件,可以实现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝维护。不占用主机CPU,内存,I/O资源,其缺点是本地的存储设备一旦发生损坏,则容灾中心的容灾存储设备不能实时启动,本地灾难发生后,必须断开与远程的链接,且由于容灾中心的数据均为裸数据,所以重新启动应用需要一定的时

39、间,视数据类型的不同,此切换时间,在数分钟至数十分钟,且在此时间内,会发生数据丢失现象。b. 采用Veritas 的Storage Foundation软件,同时将数据写到本地和远程的数据中心。采用这种方式与应用和存储都无关,可实现异构存储且不需修改应用,分别使用HP EVA 8400和IBM DS4800的其一部分的存储空间通过VERITAS Storage Foundation进行磁盘卷的镜像。使得IBM DS4800发生得任何失效,最后一刻的数据都在数据容灾中心的HP EVA 8400磁盘存储上存在。并且如果服务器并未发生停机,则所有应用皆可正常运行,没有任何的停机及切换时间存在。容灾方

40、式比较采用IBM 4800采用HP EVA8400加Veritas 软件数据丢失本地存储宕机后,数据可能产生丢失本地存储宕机后,数据不丢失。应用启动时间本地存储宕机后,异地启动应用,需要一定时间,从数分钟到数十分钟不等。本地存储宕机后,所有应用均可正常运行,没有任何的停机及切换时间存在。存储IBM 4800指标更优秀的 EVA 8400根据某某公司系统的现状,我们认为采用采用Veritas Volume Manager进行异构系统的容灾方案才是符合某某公司实际需求。2.1.6.4 容灾系统的管理2.1.6.4.1 组织机构容灾备份系统需要由专门机构(指定现有相关部门或者设立新机构)负责日常的管

41、理、维护、以及灾难发生后的系统恢复等工作。该机构的主要职责、职能主要包括:(1)备份系统的日常维护工作,确保当前备份系统是正常、有效的、以及数据备份的完整性、一致性;(2)测试及研究工作。测试工作包括对当前备份系统、备份数据有效性、可用性的测试、以及对应用软件的升级测试等;研究与容灾备份相关的技术方案优化以及相关制度、规程的完善;(3)日常管理、协调职能。负责本部门的日常管理工作,并负责与主用中心、以及相关方面的协调工作;(4)灾难发生后的系统恢复以及生产组织职能;2.1.6.4.2 管理制度和操作规程容灾备份系统的管理、维护、系统恢复、生产组织等需要完善的管理制度和严密的操作规程予以约束、规

42、范,以确保备份系统的可用性和生产恢复的有效性。在建设容灾备份系统的同时,应结合自身情况建立并不断完善相关的管理制度、操作规程,其中包括:(1)容灾备份工作的领导与组织分工;(2)容灾备份中心机构的职能、职责;人员岗位责任制度;(3)日常维护管理制度和操作规程;(4)测试管理制度;(包括备份系统有效性测试、应用软件升级测试等)(5)灾难/故障的监测与分析、报告制度、以及审批流程规定;(6)系统恢复/切换的操作流程和规范;(7)备份系统恢复运行后的生产组织制度;(其中应包含数据的安全与备份)(8)主用系统重新恢复工作的管理与组织制度。2.1.6.4.3 灾难的预防系统容灾应包含灾难预防的内容,即研

43、究相应对策将灾难带来的损失降低到最小程度,这包括:(1)系统技术设计方案的不断优化,在不断提升系统自身安全可靠性的同时,使系统和数据备份的实施、管理、操作更简便、运行更可靠;(2)容灾备份策略和技术方案的不断完善,不断提高备份数据的一致性、完整性,缩短系统运行中断的时间;(3)相关管理制度、操作流程和规程的不断完善、改进;(4)努力减少系统的安全隐患;(5)可能也包括备份系统机房地点的合理选择等。2.1.6.4.4 灾难恢复计划的测试、试运行和维护通过测试、试运行可检验灾难恢复系统功能是否达到设计要求。测试和模拟试运行可以检验灾难恢复计划文档资料的完整性,恢复策略的正确性,可以提高工作人员的操

44、作熟练程度。应选择适当的灾难恢复计划测试策略。通过测试可以提高灾难恢复计划的质量,改进灾难恢复过程,可以使相关部门配合有序,同时由于应用系统环境如系统环境、网络配置、应用系统恢复的优先级不断变化,灾难恢复计划也应随之进行修改。2.1.6.5 培训测试及维护经过努力建立起的灾难恢复计划系统,某某公司必须通过内部培训和周期性的测试才能为各层次参予人员所了解、掌握。同时随着某某公司IT数据中心业务的不断完善和发展,各方面的条件和情况亦会变化,因此还需要有稳定可靠的维护。2.1.6.5.1 培训 成立专门的灾难恢复计划小组; 选定一些对业务或技术非常熟悉的关键人员作为灾难恢复小组参予人员。以保证在危机

45、处理的正确、高效。 制定培训计划: 让大家了解项目的背景,以及各人在灾难发生时的相应责任,应掌握的知识与技能; 计划培训进度与日程; 协调各相关部门负责人,保证培训时间; 管理培训质量。2.1.6.5.2 测试灾难恢复计划测试灾难恢复计划,不仅可以验证计划的有效性、完整性,亦可以帮助大家熟悉过程,做好准备工作。归纳如下: 验证计划过程与策略,发现疵暇之处 可以获得具体的恢复时间概念(如网络是如何被恢复的,速度如何) 可以测试备份主机系统与网络系统的效率 可以向领导、审计、管理、媒体等展示 可以使整个队伍熟练其各自的角色与责任2.1.6.5.3 测试方法测试的很重要的一个原则是不停生产机,采用独

46、立或并行的方式进行。如果是并行则可以与生产环境比较结果。测试的第二个原则是按模块进行,即将庞大的系统分解开来,按模块独立测试,而非一开始就动员全行测试。由于各模块的相对独立性,测试是可以分解成一个一个模块进行的。这样的难度较小,也易于组织与管理。2.1.6.5.4 测试的频率测试目标是为了保持系统的现时性,即系统能跟上变化的步伐,但同时亦要考虑费用问题等。2.1.6.5.5 可能引起变化的因素 主要操作系统的升级 重要应用软件和改变 主要硬件改变 人员变动2.1.6.5.6 测试流程的制定测试流程的制定是在测试中最为重要的一环,只有测试是在可控的前提下,测试才具备检验系统安全性、锻炼应急队伍的

47、意义。因此客户测试流程的制订需要在最终客户、相关设备的供应商和灾备系统实施方三方共同协商确定,已确保原有系统的稳定运行。2.1.6.5.7 维护为保证灾难恢复计划的稳定可靠运行,需要有明确的维护政策,保证人员及资金的适当投入。并定期检查报告,管理层可以了解其状态。2.1.6.6 惠普公司容灾实施服务内容HP公司为某某公司提供的远程灾难备份解决方案由目前业界技术最为先进的HP EVA系列磁盘阵列以及相应的光纤交换机和用来连接主数据中心和备份数据中心的光纤网络设备组成。在某某公司容灾项目的实施过程中,HP公司将委派具有丰富项目实施经验的项目经理,使用项目管理的方法对容灾方案的实施进行高效的统一管理;并利用HP容灾专家丰富的容灾知识和实施经验,结合广泛

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号