《业务连续性计划.ppt》由会员分享,可在线阅读,更多相关《业务连续性计划.ppt(81页珍藏版)》请在三一办公上搜索。
1、CBK DomainBusiness Continuity Planning业务连续性计划,2,业务连续性计划(BCP)和灾难恢复计划(DRP)涉及到正常业务运作遭遇重大中断时对业务的保持。BCP和DRP涉及到保护关键业务过程免遭重大系统和网络故障的影响所进行的特定的准备、测试和更新活动。业务影响评估(也被称为业务影响分析)确定严重的计算或通讯服务中断对某个业务单位产生影响的程度。这些影响可以是经济的(定量的),使用金钱来衡量损失;也可以是运作的(定性的),使用丧失运作能力的程度来衡量。Common Body of Knowledge study guide,本章知识概要,3,内容目录,BCP
2、概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档构成BCP团队构成BCP测试和更新,4,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,5,BCP概述,灾难的定义,灾难(Disaster)是突发的、导致重大损失的不幸事件,包括:自然的(Natural),如地震(Earthquakes)、洪水(Floods)、强对流天气(Storms)、火山爆发(Volcanic Eruptions)、自然火灾(National Fires);系统/技术的(System/Technical),如硬件、软件中断(Outages)、系统/编程错误
3、(Errors);供应系统(Supply Systems),通讯中断、配电系统(Power Distribution)中断、管道破裂(Burst Pipes);人为的(Man-Made),爆炸(Explosions)、火灾(Fires)、故意破坏(Purposeful Destruction)、航空器坠毁(Aircraft Crashes)、有害物质泄漏(Hazardous Spills)、化学污染(Chemical Contamination)、有害代码(Malicious Code)政治的(Political),如恐怖袭击(Terrorist Attacks)、骚乱(Riots)、罢工(S
4、trikes)。,6,BCP概述,机构的灾难,对于机构来说,任何导致机构关键业务功能在一定时间内无法进行的事件都被视为灾难,其特点表现为:计划之外的服务中断;长时间的服务中断;中断无法通过正常的问题管理规程得到解决;中断造成重大损失。中断事件是否被机构视为灾难,与中断所影响的业务功能对机构的关键程度,以及中断的时间长短有关。,7,BCP概述,BCP的目的,业务连续性计划是机构信息系统安全项目的一部分,其目的是在中断事件发生时通过以下措施为机构提供系统的可用性:针对紧急情况采取快速、准确和标准的响应;在既定时间范围内恢复机构的关键功能;减少事件造成的损失;记录明确的恢复规程;提供恢复所需的资源和
5、联络清单;事先对恢复规程进行测试,培训恢复团队;记录关键记录和信息的存储、保护和获取规程;遵循法律、法规和行业规范的要求。,8,BCP概述,BCP的制定过程,项目管理和启动(Project Management and Initiation)业务影响分析(Business Impact Analysis)制定恢复策略(Develop Recovery Strategies)编制计划(Plan Design and Development)测试、培训和更新(Testing,Training and Update),9,BCP概述,BCP相关计划之间的关系,业务连续性计划(Business Con
6、tinuity Plan,BCP)关注在中断期间和之后维持机构的业务功能,提供重大中断恢复期间维持重要业务运行的规程,和IT相关的仅限于其对业务处理的支持,灾难恢复计划、业务恢复/复原计划和场所紧急计划可以附加在BCP之后。业务恢复/复原计划(Business Recovery/Resumption Plan,BRP)涉及到在紧急事件后对业务处理的恢复,提供灾难后立即恢复业务运行的规程,但和BCP不同,它在整个紧急事件或中断过程中缺乏确保关键处理连续性的规程。BRP的制定应该与灾难恢复计划和BCP进行协调。BRP应该附加在BCP之后。,10,BCP概述,BCP相关计划之间的关系(续1),操作连
7、续性计划(Continuity of Operations Plan,COOP)关注位于机构(通常是总部单位)备用站点的关键功能,以及这些功能在回到正常操作状态之前最多30天的运行。由于COOP涉及到总部级的问题,它和BCP是互相独立制定和执行的。COOP强调机构在备用站点恢复运行能力,所以计划不一定需要包括IT运行。另外,它不涉及到无需重新配置到备用站点的小型危害。COOP可以将BCP、BRP和灾难恢复计划做为附录。支持连续性计划IT应急计划(Continuity of Support Plan/IT Contingency Plan)支持连续性计划和IT应急计划是同义词,每一个重要的应用和
8、通用支持系统都要制定IT应急计划,在机构的BCP中可能会维护多个应急计划。,11,BCP概述,BCP相关计划之间的关系(续2),危机通信计划(Crisis Communications Plan)机构应该在灾难之前做好其内部和外部通信规程的准备工作。危机通信计划通常由负责公共联络的机构制定。危机通信计划规程应该和所有其它计划协调以确保只有受到批准的内容公之于众。计划规程应该做为附录包含在BCP中。通信计划通常指定特定人员做为在灾难反应中回答公众问题的唯一发言人。它还可以包括向个人和公众散发状态报告的规程。计划中包括记者招待会的模板。计算机事件响应计划(Cyber Incident Respon
9、se Plan)建立处理针对机构IT系统攻击的规程。这些规程被设计用来协助安全人员对有害的计算机事件进行识别、消减并进行恢复,这些事件的例子包括对系统或数据的非法访问、拒绝服务攻击、或对硬件、软件、数据的非法更改(如有害逻辑:病毒、蠕虫或木马等)。本计划可以包含在BCP的附录中。,12,BCP概述,BCP相关计划之间的关系(续3),灾难恢复计划(Disaster Recovery Plan,DRP)应用于重大的、通常是灾难性的、造成长时间无法访问正常设施的事件。通常,DRP指用于紧急事件后在备用站点恢复目标系统、应用或计算机设施运行的IT计划。DRP的范围可能和IT应急计划重叠,但是DRP的范
10、围比较狭窄,它不涉及到无需重新配置的小型危害。根据机构的需要,可能会有多个DRP附加在BCP之后。场所紧急计划(Occupant Emergency Plan,OEP)在发生有可能对人员的安全健康、环境或财产构成威胁的事件时,为设施中的人员提供反应规程。OEP在设施级制定,与特定的地理位置和建筑结构有关。根据美国总务管理局(GSA)的OEP模板维护GSA所属设施的OEP计划。设施OEP可以附加在BCP之后,但是独立执行。,13,BCP概述,BCP相关计划之间的关系图,14,BCP概述,BCP与其它项目的关系,BCP应该与机构的业务目标一致,是整体业务决策的一部分。BCP应该是机构安全项目的一部
11、分,并且与安全项目的其它内容相协调。在规模较小的机构中,BCP可以是机构安全计划的一部分。在比较大型和复杂的机构中,安全计划中可能会包含BCP的概要,详细的内容在专门的文档中记录。,15,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,16,BCP项目规划,BCP项目规划,BCP项目规划阶段的活动包括:确定BCP需求,可以包括有针对性的风险分析以识别关键系统可能的中断;向管理层推销BCP理念,获得管理层的支持;了解相关法律、法规、行业规范以及机构的业务和技术规划的要求,以确保BCP与其相一致;任命BCP项目负责人,建立BCP团队,包括业务和技
12、术部门的代表;制定项目管理计划书(Work Plan),其中应明确项目范围、目标、方法、责任、任务及其进度;确定收集数据所需的自动化工具;向管理层提交项目规划和状态报告;确定项目进度。,17,BCP项目规划,BCP项目负责人,业务连续性协调人做为BCP项目负责人全面负责项目的规划、准备、培训等各项工作:计划的开发团队与管理层的沟通和联络;有权与计划相关的所有人员进行直接接触和沟通;充分了解中断对机构业务的影响;全面了解机构的需求和运作,有能力平衡机构中相关部门的不同需求;比较容易接触到高级管理层;了解机构的业务方向和高级管理层的意图;有能力影响高级管理层的决策。,18,BCP项目规划,BCP项
13、目的关键角色,除了高级管理层和项目负责人以外,BCP项目的关键角色还包括:恢复团队(Recovery Teams),在灾难发生时进行评估、恢复、复原等相关工作的多个团队;业务部门代表(Business Unit Representatives),识别机构的关键业务功能,协助恢复策略的选择和制定;危机管理团队(Crisis Management Team),在灾难发生时进行重要决策和组织协调;用户(Users),应了解丧失服务时各自的职责;系统和网络专家(System and Network Experts),提供专业指导和建议;信息安全部门(Information Security Depar
14、tment)法律代表(Legal Representatives),19,BCP项目规划,BCP策略条款,对BCP项目的规划最终应该形成业务连续性策略条款,该条款记录BCP的:目的、范围和需求;基本原则和指导方针;职责和责任;关键环节的基本要求;策略条款应得到高级管理层的正式批准,并公布成为机构的政策,指导机构业务连续性相关工作。,20,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,21,业务影响分析,业务影响分析概述,在制定BCP之前必须进行业务影响分析(Business Impact Analysis,BIA),以确定机构关键的业务功能
15、。BIA包括定量(Quantitative)分析和定性(Qualitative)分析。其中,定量分析以货币的方式得出灾难或中断事件造成的影响;定性分析以划分严重程度的方式得出灾难或中断事件造成的影响。BIA通过分析得出的数据和信息确定功能的最大允许中断时间(Maximum Tolerable Downtime,MTD),据此可以确定各项功能恢复的优先顺序。BIA的成败关键在于收集相关数据,数据的来源可以包括各种统计数据、问卷调查和访问相关管理人员等。,22,业务影响分析,BIA的目的,协助机构管理者了解潜在中断对机构的影响;识别机构的关键功能以及支持这些功能的IT资源;协助管理人员识别机构功能
16、支持方面的不足;排定IT资源的恢复顺序;分析中断的影响,包括损失的利润、增加的运行费用、收入的延期以及对竞争能力和公众信心的打击;确定每一项业务功能的恢复窗口(Recovery Windows),如确定机构可以使用手工作业或其它替代方式执行关键功能的时间长度。,23,业务影响分析,BIA的过程,确定信息收集技术;选择受访者(Interviewees);定制收集经济和运作影响信息的问卷;分析信息;确定时间关键(Time-Critical)的业务功能;确定最大允许中断时间(Maximum Tolerable Downtime,MTD);基于MTDs排定关键业务功能的恢复顺序;准备和提交BIA报告。
17、,24,业务影响分析,BIA的问卷设计,机构应根据其企业文化、管理习惯、自身特点设计适合于受访者的BIA问卷,问卷内容可包括:问卷基本信息,如受访者姓名、部门、职位、联络方式、受访时间等;业务功能概况,如名称、规模、运行时间、员工数量、客户数量、重要的时间段、高峰业务量、法规要求、与其它业务或支持系统的关系、以及运行方式及其关键方法、应用程序和网络的简单描述等;业务中断对业务成本或收入的影响,如增加开支租用额外设备或人员等;业务中断对业务运作的影响,如无法对客户提供服务等;业务中断可能承担的法律责任,如合同违约、违反相关规定等;业务中断对声誉的影响,失去客户信任、客户流失等;依赖于哪些技术系统
18、,如硬件、软件、数据、网络等;现有的业务连续性措施、业务应急方法及其成本等。,25,业务影响分析,BIA的信息分析,完成信息收集后,应对信息进行整理、归纳和分析,并将相关结果反馈给业务部门进行确认。信息分析应关注以下问题:识别业务活动中最关键的功能,以及支持这些功能的IT资源,并分析这些资源无法获得时对机构的运作和财务的影响;可以使用定性或定量的自动化工具辅助进行信息的整理和分析;识别业务功能之间以及关键IT资源之间的依赖关系;请各业务部门熟悉业务的代表检查和确认信息分析的结果。,26,业务影响分析,支持资源的确定,确定关键功能的所有支持资源(包括非计算机资源)、资源的使用时间段、缺少该资源对
19、功能的影响以及资源之间的依赖关系。应该建立应急计划团队来确定资源对关键功能的支持情况,团队应包括:业务组,如业务职能部门的代表等 设施管理组 信息技术管理组 其它组,如财务管理、人事、培训、保安、计算机安全、内部审计、法律和公共关系等。,27,业务影响分析,支持资源的种类,支持关键功能的资源包括:人类资源(Human resources),如操作员、专家、系统用户等。处理能力(Processing capability),如数据中心、备用数据中心、网络、小型机、工作站、个人计算机等。基于计算机的服务(Computer-based services),如语音和数据通信服务、数据库服务、公告服务等
20、。自动化应用和数据(Automated applications and data),计算机设备上运行的各种程序和存储的数据。物理基础设施(Physical infrastructure),如办公室、办公家具、环境控制系统、电力、上下水、邮件服务等。文档和票据(Documents and papers),如合同、票据、计划、规程等文件、文档和资料。,28,业务影响分析,紧急情况举例,BCP/DRP需要考虑的紧急情况多种多样,不同地区、不同性质的机构所侧重考虑的也有所不同,通常需要考虑的包括:电力中断 火灾、洪水、风暴、地震 系统设备和软件故障 丧失基础设施功能(如电信等)测试造成的中断 关键人
21、员缺席 恐怖袭击、爆炸、罢工,29,业务影响分析,预期潜在紧急情况,预期各种可能出现的紧急情况时需要考虑类似下面这些问题:人力资源,人们还能否工作?在罢工事件中关键人员能否工作?是否有人能够替代这些人员?人们能否便捷地抵达备用站点?处理能力,计算机是否损坏?如果部分计算机无法使用应该怎么办?基于计算机的服务,能否进行计算机通信?人们之间如何通信?信息服务是否中断?会中断多长时间?自动化应用和数据,数据的完整性是否遭到损坏?应用程序是否被破坏?应用程序能够在其它平台下运行?物理基础设施,人们是否有地方办公?人们是否有完成工作所需的设备?文档和票据,所需的文件能否找到?找到后还能否使用?,30,业
22、务影响分析,确定最大允许中断时间,业务影响分析(BIA)的核心任务是确定关键业务功能及其支持资源的最大允许中断时间(MTDs),此过程应注意以下问题:必须考虑业务功能之间的依赖关系,支持多个业务功能的资源其关键程度较高;资源需求计划(Resources Requirement Planning)用于确定业务单位在备用站点重建业务功能所需的资源,该计划虽然不是BIA的主要工作,不过有有助于更好地确定关键的IT资源;中断时间超过最大允许中断时间(Maximum Tolerable Downtime,MTD)将造成业务难以恢复,越是关键的功能或资源,MTD应该越短,比如可分为关键(1-4小时)、紧急
23、(24小时)、重要(72小时)、一般(7天)、非必要(30天);根据MTDs排定关键业务功能及其支持资源的恢复顺序。,31,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,32,BCP策略选择,确定防御性控制,BIA中确定的一些中断影响可以通过遏制、探测和或降低对系统影响的防御性措施予以消减或清除。一些常用措施如下所列:UPS和/或备用发电机 空调系统预留富余容量 火灾、烟感探测器和消防系统 水害探测器和防水措施 紧急断路器 备份和离站存储 最小特权,33,BCP策略选择,不同阶段的应急计划策略,紧急响应(Emergency response
24、)阶段,事件发生初期为保护生命和减少损失所采取的行动。恢复(Recovery)阶段,事件发生后为了继续关键功能所采取的行动。复原(Resumption)阶段,事件发生后为了恢复到正常运行状态所采取的行动。,34,BCP策略选择,不同层次的恢复策略,业务恢复(Business Recovery)确定关键业务功能及其支持资源的恢复顺序;设施和供应恢复(Facility and Supply Recovery)确定备用设施的恢复规程,包括确定建筑、场地、安防、环境供电等配套设施、办公设备、家具、用品等;用户恢复(User Recovery)确定人工操作规程及其相关的关键记录的管理、人员的通知、交通、
25、饮食、住宿等相关事宜;技术恢复(Technical Recovery)确定数据中心和网络的恢复方法;数据恢复(Data Recovery)确定关键软件、数据的备份、存储和恢复方法。,35,BCP策略选择,人力资源的应急考虑,重大事件发生后,首要问题是保护人的生命。平时加强员工培训和制定相关文档有助于事件发生后员工采取有效的应急措施。重大事件发生后,员工首先考虑的是保护其家庭和财产而不是进行工作,所以要考虑雇佣额外或临时工作人员的问题。雇佣额外或临时工作人员时要考虑到所带来的额外的安全问题。,36,BCP策略选择,设备更换的应急考虑,供应商协议,与硬件、软件和支持供应商签订紧急维护服务的SLA。
26、设备存货,预先采购所需的设备并将其存储到安全的离站地点。现有的兼容设备,现在库存的设备、租用的热站点中使用的设备以及部门中其它机构使用的设备。,37,BCP策略选择,服务、程序和数据的应急考虑,基于计算机服务的应急考虑:服务水平协议(Service level agreement,SLA),与服务提供商签订的服务协议中应考虑到在紧急情况下提供服务的问题,如将通信路由更改到备用站点、供应商自身的应急计划、紧急情况下的服务优先权等。在发生广泛的灾难时,可以使用无线通信设备,宽带数据通信的应急问题是一个难点。应用程序和数据的应急考虑:常规备份和离站(off-site)存储是主要的应急策略。备份频率和
27、备份介质的运输是需要着重考虑的问题。,38,BCP策略选择,网络的应急考虑,双电缆布线和预留额外的数据插座 关键网络设备的冗余或容错 冗余的远程通信链路 冗余网络服务提供商(NSP)由NSP或ISP提供冗余 与NSP或ISP签订的SLA,39,BCP策略选择,基础设施和文档的应急考虑,基础设施的应急考虑:备用站点和离站存储设施的安全保卫、消防、环境控制以及防范人为和自然灾害等问题。主站点到备用站点的设备和人员运输问题。文档和票据的应急考虑:重要的文件、资料包括应急计划本身应该有离站存储,并且在紧急情况发生是能够获得和使用。,40,BCP策略选择,电源的应急考虑,不间断电源(Uninterrup
28、ted Power Supply,UPS)双电源,一台主机安装两套电源系统,当主电源出现硬件故障时,第二电源可以继续支持主机。双回路,采用双回路电力供应,在主回路出现故障时,第二回路可以继续供电。备用发电机,发电机可以直接联线到站点的供电系统并且可以被配置为在探测到供电中断的情况下自动启动。,41,BCP策略选择,BCP策略的技术指标,恢复时间目标(Recovery Time Objectives,RTO)在系统的不可用性严重影响到机构之前所允许消耗的最长时间。恢复点目标(Recovery Point Objectives,RPO)数据必须被恢复以便继续进行处理的点。也就是所允许的最大数据损失
29、量,42,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,43,冗余技术 RAID,廉价磁盘冗余阵列,廉价磁盘冗余阵列(Redundant Arrays of Inexpensive Disks,RAID)使用三种技术:镜像(Mirroring),系统同时将数据写到两个分离的硬盘驱动器或驱动器阵列。优点是减少停机时间、简化数据恢复和提高从磁盘读取的性能。缺点是磁盘写入较慢。较验(Parity),确定数据是否丢失或被覆盖的技术。优点是无需存储数据拷贝就可以保护数据。条纹(Striping),通过将数据分布到所有的驱动器来提高硬件阵列控制器的性能
30、。条纹可以在字节或数据块级别进行。RAID的技术可以通过硬件也可以通过软件实现。热交换(Hot-Swappable)驱动器,在磁盘驱动器故障时无需关闭系统就可以交换磁盘驱动器。,44,RAID的新分类,防故障磁盘系统(Failure Resistant disk Systems,FRDSs)能够防止因磁盘故障丢失数据;容错磁盘系统(Failure Tolerant disk Systems,FTDSs)磁盘系统单一部件故障情况下仍能提供数据访问;容灾磁盘系统(Disaster Tolerant disk Systems,FTDSs)包含多套位于不同区域的组件,任何组件都可独立提供存储数据访问;
31、,冗余技术 RAID,45,电子跳跃,电子跳跃(Electronic vaulting)是在主站点通过电子方式向远程站点进行备份或取回备份。使用宽带通信链路进行的电子跳跃可以使系统备份更加自动化、减少了人力消耗、节省了时间、提高了效率并降低了成本。电子跳跃可以实现交易信息的实时备份,提高了系统的可用性。电子跳跃站点的位置可以是机构自己的备份站点,也可以是商业备份站点或互惠站点。,冗余技术 远程冗余技术,46,电子日记,电子日记(Remote Journal),将事务(特别是数据库)处理的明细记录通过电子的方式传输到远程设施的存储设备中。如果需要对服务器进行恢复,可以通过电子的方式从远程设施中取
32、回所存储的明细记录来恢复交易、应用或数据库数据。远程日记可以通过批处理进行也可以使用缓存软件不间断地进行。远程日记缩短了恢复时间并且减少了两次传统备份之间服务器遭到损害时的数据损。,冗余技术 远程冗余技术,47,磁盘复制 同步复制,同步复制也被称为镜像复制(Mirroring)主服务器的变化被同时添加到复制服务器 RTO可减小到几个小时,RPO可被减少为未提交工作的损失。会降低主服务器的性能,带宽要求高 适用于可用性要求很高的应用。,冗余技术 远程冗余技术,48,磁盘复制 异步复制,异步复制也被称为投影复制(Shadowing)不断地获取主服务器的日志变化并将此变化添加到复制服务器 RTO在数
33、小时和一天之间。RPO是映像服务器接收的最后数据 对主服务器的性能影响小,带宽要求低 适用于小带宽长距离的网络,冗余技术 远程冗余技术,49,负载均衡,通过负载均衡(Load Balance),流量可以被动态分配到一组运行相同应用程序的多个服务器上。负载均衡既可以提高整个系统的性能,又可以在服务器出现故障时将该服务器承担的服务分配到运行中的服务器执行。在不同站点的服务器之间进行的负载均衡还可以在某一站点无法提供服务时将该站点承担的服务分配到运行中的站点执行。,冗余技术 远程冗余技术,50,备用设施的类型,热站点(Hot Site)冷站点(Cold Site)温站点(Warm Site)移动站点
34、(Mobile Site)冗余站点(Redundant site)互惠协议(Reciprocal/mutual agreement)多处理中心(Multiple Processing Centers)服务中心(Service Bureaus),冗余技术 备用站点,51,热站点和冷站点,热站点,是满足系统需求、规模适当的办公场所,其中配置了所需的基础设施、服务、系统硬件、软件、实时数据和支持人员,通常24小时有人值守。接到应急计划启动通知时只需要进行适当的路由转换和通知就可以提供主站点的关键应用服务。冷站点,通常具有充足空间和支持IT系统的基础设施和服务(电源、电信连接和环境控制),站点不包含I
35、T设备并且通常也不包含办公自动化设备如电话、传真机或复印机。,冗余技术 备用站点,52,热站点和冷站点(续),温站点,介于热站点和冷站点之间,依据恢复策略需求和投入限制配置部分IT资源,不包含实时数据,运行主站点应用之前需要进行部分设备或软件安装,数据上载工作。移动站点,是内部配置适当电信装备和IT设备的可移动拖车,可以被机动拖放和安置在所需的备用场所,提供关键的应用服务,如电话交换功能等。,冗余技术 备用站点,53,冗余站点和互惠协议,冗余站点,也被称为镜像站点,是具有完整和实时信息镜像的完全的冗余设施。镜像站点与主站点在所有的技术层面上都是一致的。由于在主站点和备用站点同时处理和存储数据所
36、以这些站点提供了最高的可用性。互惠协议,两个或多个在IT配置和备份技术上相似或相同的机构签订正式协议互相做为对方的备用站点,或者联合租用一个备用站点。因为在发生灾难事件期间,每一个站点必须能够在承担自己的工作负荷之外支持其它站点,所以达成互惠协议时必须谨慎从事。,冗余技术 备用站点,54,多处理中心和服务中心,多处理中心就是将处理任务分布到一个机构的多个不同的兼容数据处理中心,由这些中心分担处理工作,当某个中心发生灾难时,其它中心可以接替该中心处理的工作。这种方式需要处理中心维护比正常需要高出较多的处理能力,并且要确保各处理中心软件版本和数据的同步;服务中心为多个机构提供数据处理服务,可以为客
37、户提供灾难恢复期间的数据处理服务。服务中心如果为用户预留额外的处理能力,其成本也是很高的,所以提供灾难恢复服务的处理中心并不多。,冗余技术 备用站点,55,备用站点比较,冗余技术 备用站点,56,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,57,BCP计划文档,应急计划的内容,支持信息(SUPPORTING INFORMATION)通知启动阶段(NOTIFICATION/ACTIVATION PHASE)恢复阶段(RECOVERY PHASE)重建阶段(RECONSTITUTION PHASE)计划的附录,58,BCP计划文档,支持信息的
38、介绍部分,目的(Purpose),阐述制定计划的原因和目标。适用性(Applicability),作用范围以及与其它计划的关系。范围(Scope),设定启用计划的条件。参考需求(References/Requirements),描述制定计划的背景和法规需求。变化记录(Record of Changes),记录计划的变动情况。,59,BCP计划文档,支持信息的运行概要部分,系统描述(System Description),对系统的体系结构和功能进行的一般性描述,包括运行环境、物理位置、用户位置以及外部关系如备份规程、安全控制、电信链接等。继任序列(Line of Succession),定义负责
39、人缺席的情况下的继任者,计划的最高负责人通常是机构的CIO。职责(Responsibilities),表述应急团队的整体结构以及每一个团队具体成员角色和职责。,60,BCP计划文档,通知/启动阶段的通知部分,应该描述在工作时间和非工作时间通知恢复人员的方法。一种通用通知方法是呼叫树(Call Tree)。应该包括主要的和备用的联络方法,应该包括在某个人无法联系上时应该采取的规程。通知还应该发给会因为不知情而受到负面影响的外部机构或互联的伙伴系统。通知中所传递的信息类型应该在计划中载明。,61,BCP计划文档,通知/启动阶段的损害评估部分,损害评估(Damage Assessment)小组通常是
40、第一个得到事件通知的小组。应该在确保人员安全的前提下尽快完成。在书面计划无法得到的情况下,具有损害评估职责的人员应该了解和能够执行这些规程。损害评估应该涉及到紧急情况的原因、损失情况、影响范围、物理结构现状、IT设备的功能状态(可用、部分可用、完全丧失)、需更换的项目、预计恢复所需的时间等。一旦系统的影响被确定,就应该将最新信息和对此情况的响应计划通知给适当的团队。,62,BCP计划文档,通知/启动阶段的计划启动部分,只有当损害评估的结果显示一个或多个系统启动条件被满足时,IT应急计划才应被启动(Activation)。如果满足启动条件,应急计划协调人或CIO(如果适用)应启动计划。启动条件应
41、该在应急计划策略条款中予以说明,可以根据人员安全、设施损失、系统损失、受损系统的关键程度、预计的中断持续时间等确定。,63,BCP计划文档,恢复阶段,恢复行动的顺序(Sequence of Recovery Activities)行动的顺序应该反映出系统允许的中断时间,以避免对相关系统及其应用的重大影响。恢复规程(Recovery Procedures)恢复规程应该按照直接和逐步的风格书写。为了防止在紧急事件中产生困难或混乱,不能假定或忽略规程的步骤。检查列表的形式有助于撰写顺序的恢复规程和在系统无法正常恢复时解决问题。,64,BCP计划文档,重建阶段,恢复原站点 确保充足的基础设施支持,如电
42、源、供水、电信、安全、环境控制、办公设备和用品 安装系统硬件、软件和固件。此行动应该包括与恢复阶段类似的详细恢复规程 测试系统 测试系统运行以确保完全的功能性 备份应急系统中的运行数据并上载到被恢复系统中 终止操作关闭应急系统、终止应急操作对应急站点的所有敏感材料加以保护、清除和或重新配置安排恢复人员回到原设施,65,BCP计划文档,计划的附录,应急计划团队成员的联络信息。供应商联络信息,包括离站存储和备用站点的POC(Point Of Contact)。系统恢复或处理的标准操作规程和检查列表。支持系统所需的硬件、软件、固件和其它资源的设备和系统需求清单。每个条目应该包含详细内容,包括型号或版
43、本号、规格说明和数量。供应商SLA、与其它机构的互惠协议和其它关键记录。备用站点的描述和说明。BIA报告,包含系统各部分相互关系、风险、优先级别和影响的有价值的信息。BIA应该做为一个附录包含在计划中以便在启动计划时参考。,66,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,67,BCP团队,BCP团队组成,应该指定适当的团队来执行所选择的应急计划策略。除了计划的总协调人以外还可能包括:高级管理人员 管理小组 损害评估小组 操作系统管理小组 系统软件小组 服务器恢复小组(如客户服务器、Web服务器)LAN/WAN恢复小组 数据库恢复小组 网
44、络运行恢复小组 应用程序恢复小组,68,BCP团队,BCP团队组成(续1),电信恢复小组 硬件拯救小组 备用站点恢复协调小组 原站点恢复拯救协调小组 测试小组 监管支持小组 运输布置小组 媒体公关小组 法律事务小组 物理人员安全小组 采购小组(设备和用品),69,BCP团队,BCP团队组成(续2),应该根据其所具备的技能和知识将人员分配到这些团队中。每一个团队都应该得到培训并时刻准备在中断事件发生需要启动计划时展开工作。小组应该具有充足的规模以便在某些成员缺席的情况下保持有效性,也可以指定预备小组成员。继任序列计划,70,BCP团队,BCP团队培训,培训是应急团队有效执行应急计划的保证,培训内
45、容应该包括:计划的目的 团队之间的协调与沟通 汇报规程 安全需求 团队特有的处理过程(通知启动、恢复和重建阶段)个人职责(通知启动、恢复和重建阶段)培训应该至少一年进行一次,新员工上岗之前应该接受应急计划培训。培训最终应该使得他们能够无需实际文档的协助就能够执行相应的恢复规程。,71,BCP概述BCP项目规划业务影响分析BCP策略选择冗余技术BCP计划文档BCP团队BCP测试和更新,72,BCP测试和更新,BCP计划测试,对应急计划的测试有助于发现应急计划中存在的问题和缺陷,是对员工进行相关知识的培训和技能的演练的重要手段,测试的方式有:结构化检查(Structured Walk-Throug
46、h),召集职能部门的代表检查计划的细节,包括计划的每一个步骤和相关规程以确保其正确性。检查列表(Checklist),将计划分发到各职能部门,每个部门对计划的要素进行逐一检查以确保计划涉及到了所有应该考虑的因素。模拟(Stimulation),在模拟中断场景下执行应急计划以检验所有运行和支持功能在各种中断情况下的响应能力。不涉及到备用站点的实际部署。,73,BCP测试和更新,BCP计划测试(续),并行(Parallel),是对备用站点的实际运行测试,将关键系统部署到备用站点并且运行以检验其运行效果并与主站点的系统进行比较。完全中断(Full Interruption),完全关闭正常运行的系统,
47、使用离站存储的资源和应急团队在备用站点运行系统关键功能。应该制定测试计划,测试计划应设计为对所选择的测试要素有明确的测试目标和成功标准。测试结果和学习到的经验应该记录到文档。在测试中和测试后检查中收集到的有助于提高计划效率的信息应该添加到应急计划中。,74,BCP测试和更新,BCP计划更新,因为应急计划所涉及的各种因素如业务重心的转移、技术的发展、人员的变动都会影响到应急计划的效率和可行性,所以应急计划应该根据这些因素的变化进行更新。对应急计划的测试可以发现应急计划中的错误和缺陷以便对应急计划进行必要的修改。不同机构根据其特点可采取不同的更新频率,但是应急计划一年至少应该进行一次测试和调整,在
48、所涉及的因素发生重大变化时应随时更新。应急计划的更新和修改应该纳入更改管理(change management)系统中进行。,75,自测题,76,What is the window of time for recovery of information processing capabilities based on?,A)Quality of the data to be processed.B)Nature of the disaster.C)Criticality of the operations affected.D)Applications that are mainframe
49、based.,自测题1,77,When preparing a business continuity plan,who of the following is responsible for identifying and prioritizing time-critical systems?,A)Executive management staff B)Senior business unit management C)BCP committee D)Functional business units,自测题2,78,The Recovery Point Objective in Disa
50、ster Recovery Planning refers to which of the following?,A)Point to which application data must be recovered to resume business transactions B)Maximum elapsed time required to complete recovery of application data C)Point to which application data must be recovered to resume system operations D)Poin