业务连续性和灾难恢复.ppt

资源描述

《业务连续性和灾难恢复.ppt》由会员分享，可在线阅读，更多相关《业务连续性和灾难恢复.ppt（56页珍藏版）》请在三一办公上搜索。

1、业务连续性和灾难恢复Business Continuity and Disaster Recovery,CISSP第六版培训PPT之九,关键知识领域,A.理解业务持续性要求A.1 起草并记录项目范围与规划B.进行业务影响分析B.1 识别关键业务功能并进行优先排序B.2 判断可接受的最长停工时间以及其他标准B.3 评估运行中断的威胁（如本地范围、区域范围、全球范围）B.4 定义恢复目标C.制定恢复策略C.1 实施备份存储策略（如异地存储、电子仓储、磁带轮换）C.2 站点恢复策略D.理解灾难恢复过程D.1 应对D.2 人员D.3 通讯D.4 评估D.5 修复D.6 提供培训E.执行、评估与维护计划

2、（如版本控制、发行）,目录,业务连续性和灾难恢复（Business Continuity and Disaster Recovery）BCP项目组成（BCP Project Components）预防措施（Preventive Measures）恢复策略（Recovery Strategies）保险（Insurance）恢复和重建（Recovery and Restoration）测试和评审计划（Testing and Revising the Plan）,业务连续性和灾难恢复,标准和最佳实践（Standards and Best Practices）使BCM成为企业安全计划的一部分（Maki

3、ng BCM Part of the Enterprise Security Program）,灾难的定义,灾难（Disaster）是突发的、导致重大损失的不幸事件，包括：自然的（Natural），如地震（Earthquakes）、洪水（Floods）、强对流天气（Storms）、火山爆发（Volcanic Eruptions）、自然火灾（National Fires）；系统/技术的（System/Technical）,如硬件、软件中断（Outages）、系统/编程错误（Errors）；供应系统（Supply Systems），通讯中断、配电系统（Power Distribution）中断、管

4、道破裂（Burst Pipes）；人为的（Man-Made），爆炸（Explosions）、火灾（Fires）、故意破坏（Purposeful Destruction）、航空器坠毁（Aircraft Crashes）、有害物质泄漏（Hazardous Spills）、化学污染（Chemical Contamination）、有害代码（Malicious Code）政治的（Political），如恐怖袭击（Terrorist Attacks）、骚乱（Riots）、罢工（Strikes）。,机构的灾难,对于机构来说，任何导致机构关键业务功能在一定时间内无法进行的事件都被视为灾难，其特点表现为：计划

5、之外的服务中断；长时间的服务中断；中断无法通过正常的问题管理规程得到解决；中断造成重大损失。中断事件是否被机构视为灾难，与中断所影响的业务功能对机构的关键程度，以及中断的时间长短有关。,灾难恢复计划和业务连续性计划,业务连续性规划（BCP）,IT灾难恢复计划,业务连续性管理,焦点,重点,目标,解决方案,要解决的问题,积极的预防响应和恢复,技术过程人员,企业高可用服务水平管理业务连续性计划,实现和维护已选择的企业IT基础架构的可用性级别,有效地管理和控制IT基础设施，以提高整体运行可靠性,提供有效的计划以最大限度地减少关键过程在重大中断事件停机时间,可用性可靠性可恢复性,业务连续性

6、管理,标准和最佳实践（Standards and Best Practices）,标准和最佳实践（Standards and Best Practices）,BS25999的英国标准协会（BSI）的标准业务连续性管理（BCM）。此BS标准有两个部分：BS25999-1：2006业务连续性管理规则实践。BS25999-2：2007业务连续性管理规范。ISO/IEC27031：2011ISO22301待定国际标准的业务连续性管理体系。该规范文件对哪些组织将寻求认证。该标准将取代BS25999-2。2012年中期公布业务连续性协会的最佳实践指南（GPG）DRI国际研究所的业务连续性规划师专业实务,使

7、BCM成为企业安全计划的一部分（Making BCM Part of the Enterprise Security Program）,定义角色和职责,开发策略,识别所有涉及计算的资产,开发标准,开发过程,审核和监控规划,意识教育和培训规划,BCP项目组成,项目范围Scope of the Project BCP策略BCP Policy 项目管理Project Management 业务连续性计划要求Business Continuity Planning Requirements 业务相关性分析Business Impact Analysis(BIA)相互依存性Interdependenci

8、es,BCP项目组成,BCP委员会业务部门Business units高级管理人员Senior managementIT部门IT department安全部门Security department通信部门Communications department法律部门Legal department,项目范围,评估资源了解公司业务重点和方向,BCP策略,识别并记录政策的组成部分。识别和定义BCP可能会影响组织的政策。确定相关立法，法律，法规和标准。咨询行业专家确定“最佳行业惯例”指导方针。进行差距分析。找出该组织目前实施连续性规划方面，并阐明在BCP执行完毕后它的愿景。撰写新政策草案。组织内有不同的

9、部门审查草案。把从各部门反馈加入修订草案。获取最高管理层对新政策的批准。发布最终草案，并在整个组织公布和分发。,项目管理,优势Strengths,弱点Weaknesses,机会Opportunities,威胁Threats,有帮助为实现该目标,有害为实现该目标,源于内部（组织的属性）,源于外部（环境的属性）,优势项目团队的特点，使其比其他团队具有更大的优势弱点相对于其他团队，使该团队处于不利地位的特征机会可能有助于该项目的成功因素威胁可能有助于该项目的失败因素,BCP项目的关键角色,除了高级管理层和项目负责人以外，BCP项目的关键角色还包括：恢复团队（Recovery Teams），在灾难发生

10、时进行评估、恢复、复原等相关工作的多个团队；业务部门代表（Business Unit Representatives），识别机构的关键业务功能，协助恢复策略的选择和制定；危机管理团队（Crisis Management Team），在灾难发生时进行重要决策和组织协调；用户（Users），应了解丧失服务时各自的职责；系统和网络专家（System and Network Experts），提供专业指导和建议；信息安全部门（Information Security Department）法律代表（Legal Representatives）,业务连续性计划要求,业务相关性分析（BIA）,建立内容,风

11、险管理,风险识别,风险分析（包括业务影响分析）,风险评估,风险处置,监控审查,沟通协调,业务影响分析概述,在制定BCP之前必须进行业务影响分析（Business Impact Analysis，BIA），以确定机构关键的业务功能。BIA包括定量（Quantitative）分析和定性（Qualitative）分析。其中，定量分析以货币的方式得出灾难或中断事件造成的影响；定性分析以划分严重程度的方式得出灾难或中断事件造成的影响。BIA通过分析得出的数据和信息确定功能的最大允许中断时间（Maximum Tolerable Downtime，MTD），据此可以确定各项功能恢复的优先顺序。BIA的成败

12、关键在于收集相关数据，数据的来源可以包括各种统计数据、问卷调查和访问相关管理人员等。,风险评估,组织中对时间最敏感的资源和活动所有的漏洞组织的最紧迫的资源和活动的威胁和危害削减重要服务和产品的可能性，长度或中断的影响措施单点故障，就是威胁业务连续性的关键点由于关键技能或技能严重缺乏造成的业务连续性风险由于外包供应商和供应商造成的连续性风险BCP计划没有涵盖本部门或者BCP计划并没有很好的落实而造成的业务连续性风险,风险评估评价和流程,风险评估最终目标确定和记录单点故障根据威胁制定组织特定业务流程优先列表为开发风险控制管理策略汇总信息，并为解决风险制定行动方案识别风险接受记录，或记录确认不会被解

13、决的风险BCP委员会需要梳理设备故障或不可用设备不可用工具（暖通空调，动力，通信线路）设备不可用关键人才变得不可用供应商和服务供应商变得不可用软件和/或数据损坏,资产赋值,关键的业务流程（1）薪金处理（2）时间和考勤报告（3）时间和考勤核对（4）时间和考勤批准,业务流程（2）：时间和考勤报告关键的资源LAN服务器WAN访问电子邮件大型机访问电子邮件服务器,资源恢复优先顺序LAN服务器高WAN访问中电子邮件低大型机访问高电子邮件服务器高,确认关键的IT资源,来自用户、业务流程、所有者、应用程序所有者和其他相关组的输入,确认中断的影响和允许的最长停工时间,确定恢复优先次序,相互依存性,

14、定义基本业务功能和支持部门。确定这些职能部门之间的相互依存关系。发现可能影响必要的，让这些部门共同发挥作用的机制，所有可能的中断。识别并记录可能破坏跨部门沟通的潜在威胁。收集有关这些威胁的定量和定性信息。提供恢复功能和通信的替代方法。提供理由的一份简短声明中对每个威胁和相应的信息。,预防措施,适当、成本低廉的预防性方法和主动采取的措施比反应性的方法更加优越。制定何种预防性机制应根据业务影响分析的结果来决定，但其中就包含以下这些内容：设施建筑材料的强化。冗余服务器和通信连接。从不同变压器接入的电源线路。冗余供应商支持。购买保险。购买UPS和发电机。数据备份技术。介质保护安全装置。增加关键设备的存

15、货。火灾探测和灭火系统。,恢复策略,恢复策略,RTO（Recovery Time Objectives）在系统的不可用性严重影响到机构之间允许消耗的最长时间。RPO（Recovery Point Objectives）数据必须被恢复以便继续进行处理的点。也就是所允许的最大数据损失量。,RPO,RTO,周,日,小时,分,秒,秒,分,小时,日,周,磁带备份,定期数据复制,异步数据复制,同步数据复制,应用系统远程切换,人工迁移,磁带恢复,恢复策略,业务流程恢复Business Process Recovery 设施恢复Facility Recovery 供给技术恢复Supply and Techno

16、logy Recovery 选择软件备份设施Choosing a Software Backup Facility 终端用户环境End-User Environment 数据备份选择方案Data Backup Alternatives 电子备份方案Electronic Backup Solutions 高可用High Availability,业务流程恢复,业务流程是一组相互关联的步骤，它通过特定的决策活动完成一个特殊的任务。业务流程拥有可重复的起点和终点，它应该组合公司提供的服务、资源和运作知识。必须了解以下重要的业务流程项目：需要的角色需要的资源输入和输出的机制工作流程步骤需要的完成时间与

17、其它流程之间的接口这将有助于团队确定相关威胁，并采用控制措施确保将流程中断造成的影响降到最小。,设施恢复,完备场所（hot site）优点租用设施，几小时即可投入运行高度可用性常用于短期解决方案而非长期解决方案可以进行年度检查缺点价格昂贵硬件和软件的选择有限基本完备场所（warm site）和基础场所（cold site）租用设施，只有部分设施优点便宜成本较低，因此可以使用较长时间如果使用所有权硬件或者软件，更为实用缺点不能立即投入使用不能进行年度运作测试不能立即获得运作所需的资源,设施恢复,互惠协议两个或多个在IT配置和备份技术上相似或相同的机构签订正式协议互相做为对方的备用站点，或者联合

18、租用一个备用站点。因为在发生灾难事件期间，每一个站点必须能够在承担自己的工作负荷之外支持其它站点，所以达成互惠协议时必须谨慎从事。互惠协议两个或多个在IT配置和备份技术上相似或相同的机构签订正式协议互相做为对方的备用站点，或者联合租用一个备用站点。因为在发生灾难事件期间，每一个站点必须能够在承担自己的工作负荷之外支持其它站点，所以达成互惠协议时必须谨慎从事。,设施恢复,热站点（Hot Site）冷站点（Cold Site）温站点（Warm Site）移动站点（Mobile Site）冗余站点（Redundant Site）,设施恢复,多处理中心就是将处理任务分不到一个机构的多个不同的兼容数据处

19、理中心，由这些中心分担处理工作，当某个中心发生灾难时，其他中心可以接替该中心处理的工作。这种方式需要处理中心维护比正常需要高出较多的处理能力，并且要确保各处理中心软件版本和数据的同步；服务中心为多个机构提供数据处理服务，可以为客户提供灾难恢复期间的数据处理服务。服务中心如果为用户预留额外的处理能力，其成本也是很高的，所以提供灾难恢复服务的处理中心并不多。,不同站点之间的区别,热战的优点几个小时内即可投入运行。高度的可用性。只适合用作短期而非长期解决方案。可以进行年度检查。热战的缺点非常昂贵。硬件和软件选择有限。,温站和冷战的优点比较便宜。由于成本较低，可以使用更长时间。如果使用所有权硬件或软件

20、，则温站和冷战更加实用。温站和冷战的缺点不能立即投入使用。不能进行年度运作检查。不能立即获得运作所需的资源。,供给技术恢复,硬件备份供应商协议，与硬件、软件和支持供应商签订紧急维护服务的SLA。设备存货，预先采购所需的设备并将其存储到安全的离站地点。现有的兼容设备，现在库存的设备、租用的热站点中使用的设备以及部门中其他机构使用的设备。软件备份许多公司出资给软件供应商开发专用的软件，而当软件供应商破产后，客户并不能访问整个公司所依赖的软件的代码。业务连续性计划委员会需要在分析过程中把这个问题确定为一种脆弱性，并采取预防性措施软件托管。软件托管：指由第三方机构保存源代码、编译代码备份、手册和其他支

21、持材料。软件供应商、客户和第三方机构应签署一份合约，说明什么时候、谁能够怎样处理源代码。这份合约通常会规定，只有在供应商倒闭，无法完成合约规定的责任，或供应商违反原始合约的情况下，客户才能访问源代码。如果发生上述情况，客户仍然能够通过第三方托管机构访问源代码和其他材料，使它的权益得到保护。,选择软件备份设施,文档和票据的应急考虑：重要的文件、资料包括应急计划本身应该有离站存储，并且在紧急情况发生是能够获得和使用。BCP和DRP文档计划应该有两或三个副本，其中一个副本保存在主要场所，而其他副本则应保存在另外的地方，以防主要设施遭到破坏。通常应分别在业务连续性计划协调员家中和异地设施保存一个副本，

22、这样做可以降低在需要时无法取得计划的风险。这些计划不用保存在文件柜中。而应保存在防火的保险柜内。在异地设施中保存时，它们获得的保护应该和主要场所获得的保护相当。,选择软件备份设施,人力资源重大事件发生后，首要问题是保护人的生命。平时加强员工培训和制定相关文档有助于事件发生后员工采取有效的应急措施。重大事件发生后，员工首先考虑的是保护其家庭和财产而不是进行工作，所以要考虑雇佣额外或临时工作人员的问题。组织应该制定好管理人员继任规划。这表示如果一名高级管理人员退休、离开公司或遇害，组织可以执行预先制定的步骤来保护公司。继任计划规定谁将接管并承担这个职位的责任。,终端用户环境,业务连续性计划团队需要

23、理解当前的运作和技术工作环境，分析其关键部分，以便对他们进行复制。将管理人员的结构表示成树状，如果灾难发生，由位于树顶的那个人通知他下面的两名管理员，这两名管理者再次依次通知他们下面的三名管理者，直到通知到所有的管理者。那些执行关键功能的员工必须首先返回工作岗位。因此用户环境的恢复应分阶段完成。第一个阶段负责恢复最关键部门的运作，第二个阶段恢复第二重要的工作，依此类推。如有必要，应该手动执行当前的自动化任务。,数据备份选择方案,完全备份（Full Backup），顾名思义，就是对所有数据进行备份，并将其保存在某种类型的某种类型的存储媒质中。差异备份（Differential Backup）对上

24、次完全备份后发生改变的文件进行备份。增量备份（Incremental Backup）备份在上次完全备份或增量备份后发生改变的所有文件不能将差量备份和增量备份混杂起来。这种重叠可能造成文件丢失。,电子备份方案,同步复制也被称为镜像复制（Mirroring）主服务器的变化被同时添加到复制服务器RTO可减小到几个小时，RPO可被减少为未提交工作的损失。会降低主服务器的性能，带宽要求高适用于可用性要求很高的应用。同步复制也被称为镜像复制（Mirroring）主服务器的变化被同时添加到复制服务器RTO可减小到几个小时，RPO可被减少为未提交工作的损失。会降低主服务器的性能，带宽要求高适用于可用性要求很高

25、的应用。,电子备份方案,高可用,冗余-容错-故障转换通过负载均衡（Load Balance），流量可以被动态分配到一组运行相同应用程序的多个服务器上。负载均衡既可以提高整个系统的性能，又可以在服务器出现故障时将该服务器承担的服务分配到运行中的服务器执行。在不同站点的服务器之间进行的负载均衡还可以在某一站点无法提供服务时将该站点承担的服务分配到运行中的站点执行。,高可用,保险,在业务影响分析阶段，团队很可能发现几个组织无法预防的威胁。为这些威胁承担全部风险往往非常危险，这就是我们购买保险的原因。决定是否为某一特定的威胁购买保险，以及在选择保险时购买多大的保险范围，应取决于在业务影响分析阶段确定的

26、威胁发生的可能性和潜在损失。保证购买的保险覆盖范围能填补当前预防性措施留下的空白。公司应当每年对购买的保险进行审核。,恢复和重建,为计划制定目标Developing Goals for the Plans实现战略Implementing Strategies,恢复和重建,修复小组（restoration team）应负责获取备用站点到工作和运行环境，使备用站点投入运行救援团队（salvage team）应该是负责开始恢复原始站点,时间表,响应,恢复,重新开始,时间零点,事件,整体恢复目标：尽可能快地恢复正常,在几分钟到几小时：,在几分钟到天,几周到几个月,为计划制定目标,责任每个参与恢复和连续

27、性计划的个人都应该有书面的责任，保证在一个混乱的局面清醒的认识自己的职责。权威在危机时期，重要的是要知道谁是负责人。优先非常重要的是知道什么是关键的哪些是次要的。实施和测试一旦制定了连续性计划，就必须将他付诸实现。,实现战略,恢复行动的顺序（Sequence of Recovery Activities）行动的顺序应该反映出系统允许的中断时间，以避免对相关系统及其应用的重大影响。恢复规程（Recovery Procedures）恢复规程应该按照直接和逐步的风格书写。为了防止在紧急事件中产生困难或混乱，不能假定或忽略规程的步骤。检查列表的形式有助于撰写顺序的恢复规程和在系统无法正常恢复时解决问题

28、。,实现战略,恢复原站点确保充足的基础设施支持，如电源、供水、电信、安全、环境控制、办公设备和用品安装系统硬件、软件和固件。此行动应该包括与恢复阶段类似的详细恢复规程测试系统测试系统运行以确保完全的功能性备份应急系统中的运行数据并上载到被恢复系统中终止操作关闭应急系统、终止应急操作对应急站点的所有敏感材料加以保护、清除和或重新配置安排恢复人员回到原设施,测试和评审计划,检查列表测试Checklist Test将计划分发到各职能部门，每个部门对计划的要素进行逐一检查以确保计划涉及到了所有应该考虑的因素。结构化分布排练测试Structured Walk-Through Test召集职能部门的代表

29、检查计划的细节，包括计划的每一个步骤和相关规程以确保其正确性。Simulation Test在模拟中断场景下执行应急计划以检验所有运行和支持功能在各种中断情况下的响应能力。不涉及到备用站点的实际部署。并行测试Parallel Test是对备用站点的实际运行测试，将关键系统部署到备用站点并且运行以检验其运行效果并与主站点的系统进行比较。,测试和评审计划,完全中断测试Full-Interruption Test完全关闭正常运行的系统，使用离站存储的资源和应急团队在备用站点运行系统关键功能其他类型测试Other Types of Training 除了灾难恢复培训之外，还应该就其他问题接受培训应急响

30、应Emergency Response制定好的行动计划，用于帮助人们在危急情况下能够更好地应付遭到的破坏,计划更新,因为应急计划所涉及的各种因素如业务重心的转移、技术的发展、人员的变动都会影响到应急计划的效率和可行性，所以应急计划应该根据这些因素的变化进行更新。对应急计划的测试可以发现应急计划中的错误和缺陷以便对应急计划进行必要的修改。不同机构根据其特点可采取不同的更新频率，但是应急计划一年至少应该进行一次测试和调整，在所涉及的因素发生重大变化时应随时更新。应急计划的更新和修改应该纳入更改管理（change management）系统中进行。,维护计划,原因业务连续性过程没有整合入变更管理过程基础架构和环境发生变化公司进行重组、裁员或合并硬件、软件和应用程序发生变化制定计划后，人们认为没有必要再做其他的工作人员发生更换大型计划要进行许多维护工作计划并不直接带来利润方法使业务连续性成为每个业务决策的一部分将维护责任整合入职位描述将维护工作表现包含在个人评估中执行包括灾难恢复、连续性文档与措施的内部审计进行应用计划的常规演习将BCP整合入当前的变更管理过程,维护计划,交流和讨论,10.06.2023,

展开阅读全文