《数据中心机房应急预案.docx》由会员分享,可在线阅读,更多相关《数据中心机房应急预案.docx(9页珍藏版)》请在三一办公上搜索。
1、数据中心机房应急预案数据中心机房应急预案 1 目 录 一、基本原则 . 3 二、应急事件级别定义 . 3 三、组织机构及职责 . 4 3.1 应急领导小组组织机构 . 4 3.2 应急领导小组职责 . 4 3.3应急小组成员职责 . 5 四、应急响应机制 . 6 4.1基本处理流程 . 6 4.2机房应急开关机具体措施 . 7 4.3服务器及存储设备故障处理 . 7 五、应急方案 . 8 5.1网络故障事件应急预案 . 8 5.2服务器故障应急预案 . 8 5.3灾害性事件应急预案 . 10 5.4其他突发事件应急预案 . 10 六、后期处置 . 10 七、应急保障 . 11 2 一、基本原则
2、 (1)居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则; (2)统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则,并按照事件级别迅速上报相关领导和责任人。 (3)制度规范,加强管理。严格按照事件处理流程规范操作,使突发应急的工作规范事件化、制度化。 (4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。 (5)主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。 二、应急事件级别定义 根据网络与信息安全突发公共事件的可控性、严重程度和影
3、响范围,一般分为四级:I级、II级、III级、IV级。国家有关法律法规有明确规定的,按国家有关规定执行。 I级:重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。 II级:重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。 III级:某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。 3 IV级:重要的网络与信息安全系统受到
4、一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。 三、组织机构及职责 3.1 应急领导小组组织机构 3.2 应急领导小组职责 1、应急总指挥职责 保证在任何时间,及时协调应急行动所有涉及的岗位人员; 提供必须的紧急响应设备; 在紧急情况下全面负责紧急行动; 在必要时向外界求救,例如:119、110、120等。 2、应急副总指挥职责 在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; 根据获得的应急信息下达命令。 4 3、各相关设备负责人职责 负责尽快收集信息向应急总指挥汇报事故情况; 负责现场临时设备抢救和对事态的控
5、制; 听从上级指挥人员的指挥。 3.3应急小组成员职责 值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。 二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。 对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出应急预案界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。 5 四、应急响应机制 4.1基本处理流程 值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对
6、于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。 正常情况下,要求值班人员在30分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动应急预案,并严格按照应急预案所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。 在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。 6 4.2机房应急开关机具体措施 机房各设备关闭顺序如下: 4.3服务器及存储设备故障处理 排错流程 7 五、应急方案 5.1网络故障事件应急预案 1.发
7、生网络故障事件后,系统使用人员应及时报告应急小组。 2. 应急小组及时查清网络故障位置和原因,并予以解决。 3.不能确定故障的解决时间或解决故障的期限并属较大及其以上的,应急小组应报告所领导。 4. 网络系统故障突发事件分级: 故障等级 故 障 现 象 1级 网络完全拥塞或设备宕机 网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响 网络或设备故障对重要的客户造成严重影响 2级 网络或设备的性能严重下降,对最终客户的业务运作产生重要影响 部分区域网络故障 一般网络节点发生故障 大部分客户的网络通讯质量下降 3级 网络或设备性能受损,但最终客户大部分业务仍可正常工作 报警出错和操作命令
8、反常 4级 其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用 5.2服务器故障应急预案 1.服务器故障后,应急小组确定故障设备及故障原因,并通知相关厂商。 2.根据服务器修复和恢复系统所需时间,由所领导决定是否启用备份设备。 3.如启用备份设备,在服务器故障排除后,应急小组在确保不影响正常业务工作的前提下,利用网络空闲时期替换备用设备。如不启用备份设备,应急小组应积极配合相关厂商解决服务器故障事件。 8 5.3空调设备故障处理 若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。 5.4消防设备故障处理 一旦机房发生火
9、灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全; 人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出; 人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 5.5 电源设备故障处理 在紧急情况发生时,应按如下步骤进行关机: 确认所有负载均已安全关机。 关闭UPS负载电源。 将UPS的系统启用开关切换到off 的状态。 将DC电池连接断路器切换到off的位置。 将所有电池
10、拉出到红色电池断开线以外。 断开PDU上的断路器。 将PDU后面总输入断路器切换到断开位置。 将每个上行主电路断路器切换到断开位置。 9 5.3灾害性事件应急预案 1.一旦发生灾害性事件,应急小组每一位成员都应有责任在第一时间进入机房抢救服务器及存储设备。 2.应急小组对服务器及存储设备的损坏程序进行评估。如服务器损坏或存储设备损坏无法使用,立即联系相关厂商,进入维保服务程序。 3.根据服务器或存储设备修复和恢复系统所需时间,由所领导小组决定是否启用备份设备。 5.4其他突发事件应急预案 应急小组立刻派出技术人员进入现场,制定相应措施,根据实际情况灵活处理,并按要求报告所领导小组。 六、后期处
11、置 1 故障排除后,应急小组向各部室发出故障解除、系统恢复正常运行通知。 2. 系统恢复运行后,相关操作人员尽快通知参保单位和个人办理社会保险业务事项,并对故障发生前所进行过的业务操作进行检查,核对业务数据是否正确或有无丢失,不正确或有丢失的应马上更正或补录,确保数据的正确和完整。对在故障期间采用手工受理的事项,应及时在系统中补充完善。 3. 所领导组织有关人员及有关技术专家组成事件调查组,对事件发生原10 因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,总结经验教训,完善信息系统应急处理预案,整改信息系统存在的隐患。 七、应急保障 1. 预留一定数量的网络硬件设备和服务器,用于预防或应对信息系统突发事件。 2. 选择熟悉信息系统软硬件的专业公司作为信息系统应急处理的社会应急支援单位,提供技术支持和服务。信息系统服务器以及存储设备要与专业厂商签定维保协议,明确备用设备的供应时间。 3. 强化信息安全宣传教育,提高信息安全防御意识。每年至少组织开展一次全局范围内的信息网络安全教育,提高全局职工信息安全防范意识和能力。 11