2019数据中心场地基础设施运维管理标准.docx

上传人:李司机 文档编号:7147052 上传时间:2024-06-15 格式:DOCX 页数:49 大小:182.59KB
返回 下载 相关 举报
2019数据中心场地基础设施运维管理标准.docx_第1页
第1页 / 共49页
2019数据中心场地基础设施运维管理标准.docx_第2页
第2页 / 共49页
2019数据中心场地基础设施运维管理标准.docx_第3页
第3页 / 共49页
2019数据中心场地基础设施运维管理标准.docx_第4页
第4页 / 共49页
2019数据中心场地基础设施运维管理标准.docx_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《2019数据中心场地基础设施运维管理标准.docx》由会员分享,可在线阅读,更多相关《2019数据中心场地基础设施运维管理标准.docx(49页珍藏版)》请在三一办公上搜索。

1、数据中心场地基础设施运维管理标准一、规范性引用文件5二、术语和缩略语52.1 术语52.2 缩略语7三、管理范畴83.1 管理目标83.2 参与数据中心建设过程83.3 测试验证93.4 技术文档103.5 管理边界10四、安全管理和质量管理114.1 人员安全114.2 物理环境安全114.3 质量管理12五、人员管理135.1 组织及人员135.2 培训及认证145.3 运维外包服务商15六、设施管理166.1 资产数据库166.2 预防性维护166.3 操作流程176.4 工具及备件管理186.5 供应商管理186.6 生命周期管理196.7 运维管理系统19七、运行管理207.1 运行

2、管理制度207.2 设施监控、巡检、及交接班管攀217.3 机房清洁管理217.4 标签标识管理217.5 变更管理217.6 事件管理227.7 应急响应227.8 容量管理237.9 能效管理237.10 预算管理24八、附录:数据中心场地基础设施运维管理最佳实践257.11 试验证的最佳实践257.12 据中心市电断电应急预案397.13 据中心机房基础设施运维人员架构图447.14 据中心场地基础设施运维中易犯的十大错误45一、规范性引用文件下列文件对于本文件的应用是必不可少的。凡凡是注明日期的引用文件,仅注日期的版本适用于本文件。凡是不注明日期的引用文件,其最新版本(包括所有的修改单

3、)适用于本文件。GB50157电子信息系统机房设计规范GB26860电力安全工作规程发电厂和变电站电气部分D1.408电业安全工作规程二、术语和缩略语1.术语1. 数据中心(DataCenter)主要功能为容纳一个计算机房和该计算机房的各个支持区的一栋建筑或者一栋建筑的一部分。包括容纳信息技术系统的主机房、支持信息技术系统运行的辅助区和行政管理区。2. 场地基础设施(SiteInfrastructure)数据中心内为信息技术系统提供运行保障和运行环境的场地设施。包括容纳IT系统的主机房,支持IT系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护IT系统的辅助设施

4、。3. 运维管理(OperationandMaintenanceManagement)对数据中心场地基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。运维管理包括制定运维制度和计划、执行运维计划、响应场地基础设施故障、突发事件等紧急情况。4. 生命周期(1.ifeCyCle)通常指数据中心从投产到经济寿命结束的全过程。但也有将投产前的规划期、设计期、建设期、测试验证期作为生命周期一部分(孕育期)的说法。5. 测试验证(COmmiSSiOning)验证并记录数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。6. 健康评估(HeaIthASSeSSinent

5、)全面系统性地对机房现有使用状态、设备运行情况、运维管理制度及流程等进行全方位的检查。7. 预防性维护(PreVentiVeMaintenanCe)为降低产品发生失效或功能退化的概率,按预定的时间间隔或按既定的准则实施的维护.8. 风险评估(RiSkASSeSSinent)针对运行的设备所面临的威胁、存在的弱点、造成的影响,以及三者综合作用所带来风险的可能性的评估,同时确定风险是否可容许的全过程。9. 容量管理(CaPaCityManagement)对于基础设施在空间、电力承载能力、制冷能力等方面的评估,以满足IT数据存储和处理的需要容量。为了实现其目标,容量管理需要与业务及IT战略流程保持密

6、切的联系。10. 资产管理(AssetManagement)对于数据中心基础设施中每个资产建立独有的标识,并详细进行资产描述、制造商、型号、安装日期、保修期等信息的记录管理。11. 可用性(Availability)在所有要求的外部资源得到提供的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要求的功能状态的能力。它是衡量数据中心等级、运维水平的重要指标。可用性的计算如下:可用性冰蚊理12. 绿色运行(GreenOperation)指数据机房中的制冷、照明和电气等能取得最大化的能源效率和最小化的环境影响。13. 负载(1.oad)指连接在电路中的电源输出的设备。负载是把电能转换成其他形式

7、的能的装置。14. 气流组织(Ai1.FIOWOrganiZatiOn)指在机房内对冷热气流的流向按一定要求进行疏导和组织。2.缩略语1 .PUE(PowerUsageEffectiveness,电力使用效率)PUE是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比。PUE=数据中心总设备能耗/TT设备能耗PUE是一个比值,越接近1表明能效水平越好.2 .S1.A(Service1.evelAgreement,服务等级协议)服务提供商和客户之间签署的、描述服务范围和约定服务级别的协议。3 .MOP(MethodOfProcedure,维护作业程序)MOP是维护作业程

8、序,用于规范和明确数据中心基础设施运维工作中各项设施的维护保养审批流程、操作步骤。4 .SOP(StandardOperatingProCedUre,标准操作流程)SOP即标准操作流程,是将某一项工作的标准操作步骤和要求以统一的格式描述出来,用来指导和规范Fl常的运维工作。5.EoP(EmergencyOperatingProcedure,应急操作流程)EOP是应急操作流程,用于规范应急操作过程中的流程及操作步骤。确保运维人员可以迅速启动,确保有序、有效地组织实施各项应对措施。6.CMMS(ComputerizedMaintenanceManagementSystem,计算机化维护管理系统)用

9、以系统性地设置并跟踪运维任务的执行情况,存储操作流程及相应运维人员的操作权限等维护工作相关信息。三、管理范畴1 .管理目标数据中心场地基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑数据中心所支持的应用的可用性要求、数据中心场地基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(S1.A)的形式呈现。不同应用的可用性目标的数据中心,可设定不同等级的数据中心场地基础设施的运维管理目标。2 .参与数据中心建设过程数据中心运维团队应充分了解自己将要管理的场地基础设施。对于新建数据中心,应尽早参与数据中心场地基础设施

10、的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。1. 应参与规划设计数据中心的规划设计是一个谨慎和严谨的过程,需要所有参与数据中心建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,场地基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。2. 应参与相关供应商遴选数据中心场地基础设施运维团队应参与数据中心基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,

11、还需要对后续的设备保修等服务提出要求。3. 应参与建造管理数据中心的场地基础设施运维团队应积极参与数据中心场地基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。数据中心场地基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。3 .测试验证数据中心场地基础设施投产前的测试验证是确保数据中心场地基础设施满足设计要求和运行要求的关键环节。1. 时间和预算数据中心的业主应设立测试验证专项预算,预算应包括外

12、部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测数据中心场地基础设施交付投产的日期。2. 测试验证参与方项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。数据中心场地基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。数据中心关键设备提供商及工程总包商,应积极配合测试验证

13、工作,应在供应商合同中对此项有明确要求。3. 测试验证内容验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。4. 设施健康评估当接手已在运行的数据中心场地基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。4 .技术文档完整

14、并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从业主或者原运维单位得到场地基础设施的全套相关文档,包括但不限于:数据中心的规划设计资料及竣工图纸、反映机房最近一次改造后真实现状的图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、数据中心所在建筑的建筑设计资料、竣工图纸。整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。5 .管理边界为了明确管理责任,数据中心场地基础设施运维团队应将可能影响数据中心场地基础设施

15、运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。四、安全管理和质量管理1 .人员安全数据中心场地基础设施运维团队要编制正式的数据中心生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保数据中心运维人员的人身安全。相关安全生产规范主要包括: 数据

16、中心生产环境安全管理规范; 数据中心场地基础设施各系统安全管理手册: 数据中心场地基础设施涉及安全的应急预案; 数据中心场地基础设施管理过程涉及的技术方案中的安全管理策略。数据中心场地基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。相关国家、行业规程包括但不限

17、于: GB26860电力安全工作规程发电厂和变电站电气部分; D1.408电业安全工作规程。2 .物理环境安全应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。应了解数据中心所在地的历史自然灾害情况。包含但不限于GB50174及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。应建立并执行严格的数据中心设备、人员、车辆进出管理制度。应设立不同安全区等级(参考IS027001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客

18、。3 .质量管理在数据中心场地基础设施运维过程中建立完善的质量管理体系,是保障以上数据中心场地基础设施运维趋于卓越的重要因素和手段。数据中心场地基础设施运维团队的所有关键工作应包括以下的质量管理要素:1. 质量保证 过程制定; 程序制定; 过程审核和批准; 过程和程序培训。2. 质量控制 事件回顾; 质量检查和检验; 定期质量审核。3. 质量改进 故障分析; 经验教训; 优化及创新计划。五、人员管理1 .组织及人员1. 组织架构数据中心运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基础设施运维团队中除

19、现场负责人外,可按照工作内容分设以下几个主要职能岗位: 运维巡检团队主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。 技术管理团队主要职责:对数据中心场地基础设施提供运维技术支持,解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。 物理环境安全管理团队主要职责:对物理环境安全进行管理,进行安全巡检等工作。2. 人员配制场地基础设施运维人员的配备应根据运维管理目标或S1.A来确定。中高等级的数据中心,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管

20、理程序中明确规定资质等级与操作权限的一致性。高等级以及具有一定规模的数据中心,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。运维团队的关键闵位应有人员备份和储备。数据中心场地基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。3. 绩效管理为了提高运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行

21、和维护场地基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。4. 人员管理制度为了保障场地基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于): 日常活动管理制度; 人员安全操作制度; 运维人员基本素质养成管理制度: 安全运行奖惩制度; 节能运行奖惩制度; 技术创新奖励制度; 人员晋升

22、制度; 人才储备制度;5.2培训及认证1. 员工培训及资格认证计划对于场地基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括数据中心基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等;对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。可.借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。2. 历史事件分析学习运维团队应将数据中心基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前

23、予以培训,以避免相同的事件再次发生。3. 组织学习运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。3.运维外包服务商1. 基础设施运维外包服务商的选择数据中心场地基础设施属于关键性设施,选择外包运维团队时应考察其数据中心基础设施的运维服务的资质、能力和经验。如数据中心作为商业物业的一部分整体外包运维,应要求外包运维机构针对数据中心基础设施设施部分设立专门的有数据中心基础设施运维经验的团队,并严格按数据中心基础设施的运维规程规范执行。2. 运维外包服务商的管理对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行

24、培训并得到相关的认证后才能从事相关的工作。外包服务商需要严格遵循数据中心基础设施既定的操作流程和安全守则。数据中心基础设施运维管理的最终责任承担者是数据中心管理者,责任无法外包。因此,数据中心应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。六、设施管理6.1资产数据库数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。资产数据库应最少包括以下信息:资产ID:每个资产的唯一标识号种类:一级分类(如电气、制冷、消防系统)子类:二级分类(如UPS、电池、PDU等)描述:资产的文字

25、说明制造:资产的制造厂家型号:制造厂家的产品型号规格:资产的规格或者标称值位置:位置TD(房间或区域)购买人:资产维护的负责人序列号:制造厂家的序列号安装日期:资产的投产日期保修期限:保修到期的日期更换:预计的资产更换日期维护频次:年检、季检、月检等2.预防性维护1.预防性维护计划预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实

26、维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。预防性维护包括并不限于以下系统设备或内容: 冷水机组、精密空调; UPS,开关、和发电机组; 消防系统和监控系统检验; 蓄电池放电测试; 配电装置(高低压配电装置)的绝缘性定期试验; 二次保护定值实验; 柴油发电机启动测试; 每年雨季之前进行的数据中心防雷接地装置测试等。6.2.2工单管理运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。计算机化维护管理系统应该对每份工单

27、从产生到完成进行全程的跟踪。3.操作流程数据中心基础设施的所有操作,均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。1. 维护作业程序MOP:对数据中心关键基础设施设备的每次维护、维修、安装操作,都应事先制定一份MOP。可要求设备供应商提供M0P的建议,但对于M0P最终确认审核的责任在于运维团队,批准责任在于运维管理团队。2. 标准操作流程SOP所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOPo例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。3. 应急操作流程EOP应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的

28、例子: 一路市电供电时中断; 双路市电供电时同时中断; 发电机组启动失败; 发电机在带关键负载时故障停机: 单个冷却塔时故障停机; 全部冷却塔都故障停机; 单台UPS时故障停机。3 .工具及备件管理运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。5 .供应商管理应该按照数据中心基础设施运维的资质、以往的

29、经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。所有供应商到达场地执行维护程序之前,应通过场地相关规程的培训,获得场地运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。供应商的每次场地维护活动都应该提交现场服务报告并存档。运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(S1.A)、工作范围、针对设施的培训和认证情况等信息。6 .生命周期管理应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更

30、换的计划及预算,及时报告给运维管理部门。风险评估主要评估内容包括: 资产重要性识别; 资产威胁识别; 资产脆弱性识别; 风险值的计算。 在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析。 对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。6.7运维管理系统数据中心可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。七、运行管理1 .运行管理制度数据中心场地基础设施运维团队应建立并严格执行运行管理制度,包括:1. 巡检相关管理制度 日常巡视巡检管理制度;

31、值班管理制度; 交接班管理制度; 通知矩阵。2. 工作流程相关管理制度 工单处理流程; 例会制度; 工作总结报告制度(日、周、月、季、年总结报告); 交付管理规范; 运维质量管理办法文档管理制度; 工具备件管理制度。3. 安全相关管理制度 机房出入管理制度; 机房现场管理制度; 机房卫生管理制度; 信息安全相关管理制度。4. 故障处理管理制度 设备操作管理制度; 设备故障处理流程; 应急准备和应急响应流程; 维护作业计划管理制度; 故障隐患跟踪反馈管理制度; 紧急事件汇报流程。5. 经营相关管理制度员工行为规范;考勤管理制度;人员管理考核制度。1 .设施监控、巡检、及交接班管理应配备环境、动力

32、、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。3 .机房清洁管理应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。4 .标签标识管理应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括: 设备标识:包括设备名称、型号、编号、资产编号等; 线缆标识:包括起始端信息、终止端信息、设备名称等; 警示标识:如“设备已带

33、电/危险”、“禁止合闸”、“禁止分闸”等; 物理环境标识:如位置标识、区域标识等 系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。2 .5变更管理任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。6 .事件管理应制定事件管理流程,明确不同等级事件下相应的处理流程。1. 事件等级定义一般事件:任何没有达到数据中心设计和运行标准的异常事件;严重事件:任何没有达

34、到数据中心设计、运行标准的事件,且对提供的服务造成中断的事件;重大事件:任何没有达到数据中心设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。2. 事件升级当事件暂时无法排除,需要逐级报告,进入事件升级流程。如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。7 .应急响应1. 设施应急预案演练运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括:沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。应急演练的演练原

35、则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。7. 7.2人员安全应急流程数据中心场地基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。8 .容量管理容量管理可包括但不限于以下方面:1. 空间容量 IT设备摆放空间; 基础设备设施摆放空间; 综合布线线路空间,配线架管理。2. 能力容量 电力供应容量; 空调供应容量; 综合布线信息点容量; 互联网接入容量。设施运维团队应与IT部门定期沟通,动态了解TT需求的预测,并通报设施容量的使用

36、情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。当场地基础设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建数据中心的计划。9 .能效管理1. 能效监测数据中心场地基础设施运维团队应了解并记录数据中心在不同工况及不同外界气候条件下的电力使用效率PUE的变化情况,从中发现趋势,以不断优化运行方案。2. 了解IT设备运行特征数据中心基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解TT设备的运行峰谷期.应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对

37、方案。3. 管理气流组织应封堵设施建筑所有可能的漏风口,维持设施的正压。应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。4. 运行阈值设定应基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。7. 10预算管理运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。预算应包括但不限于以下内容: 基于S1.A的人力预算; 备件及工具、仪器采购费用; 应急维护材料费用; 专业外包维保和应急服务费用; 政策性等强制检测服务费用; 整改或节能改造预算; 突发问题备用

38、金。八、附录:数据中心场地基础设施运维管理最佳实践附录A测试验证的最佳实践北京中科仙络咨询服务有限公司-王茜数据中心的测试验证是业主对于数据中心建造质量进行确认的一个过程。在欧美的建筑行业,测试验证作为工程质量管理的规定步骤已经存在了30多年。近10年来,欧美的数据中心客户已经把测试验证作为数据中心工程质量管理的规定动作,国内近几年建设的大型数据中心也都开始把测试验证作为必须的要求。但相对起国外,行业人士预计还有80%的国内数据中心没有聘用专业的第三方机构进行数据中心的测试验证,这为数据中心的稳健运行埋下了隐患。一、数据中心测试验证概述ASHRAE(美国采暖、制冷与空调工程师学会)对数据中心测

39、试验证的定义是:数据中心测试验证是一个系统性的质量验证过程。此过程验证并记录该数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。测试验证处在数据中心建设和投产运行的关键的、承上启下的节点。数据中心的规划、设计、建设阶段投资大,周期长,测试验证是确保投资达到预期目标的最重要手段,可以看作是数据中心建设的终点。于此同时,测试验证也是数据中心运行的起点,一个专业和完善的测试验证可以极大降低数据中心在其运行早期的故障率,并为其全生命周期的稳健运行奠定基础。数据中心生命周期如图1所示。漫长,它们的最终目的都是要数据中心在上线之后能够持续稳定运行,满足用户的运行要求。而在数据中心

40、生命周期的任何阶段,都有可能因为规划的不合理、设计的失误或者建造质量的不合格,产生诸多问题,影响到未来的正常运行。测试验证的目标就是发现数据中心当前的问题(比如断路器的线可能接反;线路标识不全;或者是电路接点没有拧紧),并且提醒业主所有的单点故障点(供配电及制冷系统上可能引起系统中断的点),为潜在的问题敲警钟。测试验证所处的关键时间节点决定了它的重要价值。对于一个数据中心来说,测试验证不仅是唯一验证系统性能、测试设备极限负载能力、降低基础设施设备早期故障率的机会,也是运维人员了解和实际接触将来管理对象、验证运维操作流程是否正确的过程,所以运维人员应该积极参与到测试验证中,借此机会熟悉系统和设备

41、,并为以后的运维工作积累实际操作和应急情况处理的经验。部分数据中心的建设者认为测试验证与工程监理、设备开机调试类似,是否还有必要将此过程单独进行?其实工程监理主要关注于工程的安全、进度、预算、材料质量的把控,现场人员比较少,一般只有1-2人,他们的专业多数是通而不精,也不需要专业的仪器,不能对机房整体输出性能负责。设备开机调试由设备供应商进行,主要关注于单一设备的输出指标达到供应商的投标承诺值,并且确保设备处于良好的状态,但设备调试不做故障的模拟,不对数据中心整体系统进行测试。而测试验证与工程监理相比较,主要关心最终的整体工程结果的性能符合设计要求和运行要求,现场人员多(大型项目10人左右),

42、验证人员为各专业的专家,借助大量专业仪器、假负载来验证机房实际运行的效果;与设备开机调试相比较,测试验证由第三方专业公司进行,关注单一设备的同时,更关注整体系统的性能符合设计要求和运行要求,并通过假负载模拟故障情况,检验系统的抗故障能力,设备调试只是测试验证工作内容的一个重要组成部分。所以测试验证的作用对于整个数据中心机房的建设和运行不可替代,应该成为每一个数据中心建设工程的标准流程。二、确保测试验证实施效果的关键因素确保数据中心的验证效果有三个关键因素:选择一家专业的第三方验证服务机构是确保高质量验证结果的第一要素。美国绿色建筑委员会(USGBC)明确要求验证机构应该是没有参与数据中心项目设

43、计和建造的独立第三方机构。只有专业的第三方机构才能保证测试验证结果的正确性和公正性,真正为业主负责,为机房未来的稳健运行把关。准备合理的预算是确保验证效果的第二要素。专业和周密的测试验证需要许多专家和测试工程师的介入,需要大量精密的测试仪器和假负载,模拟测试时需要耗电,柴油机测试需要耗油,这些都需要数据中心建设的项目管理者及早为测试验证留足预算资金。为测试验证留出时间是确保验证效果的第三要素。很多工程项目管理者往往因为建设工期紧、领导急于投产而没有留出验证的时间,这会为后期的安全运行埋下诸多隐患,所以要尽早准备验证工作,为测试验证留出时间。三、测试验证的内容数据中心的规模越大、设计等级越高、设

44、备配置越复杂,需要测试验证的内容也就越多。测试验证的内容可以按照实施的顺序和验证的对象两种方式来划分。1 .按照实施的顺序测试验证工作从建造阶段就应该开始介入,直到数据中心上线之前结束,是机房上线运行前的最后一道工序。按照实施的顺序,我们可以把测试验证分为厂验、到货及安装、功能元件测试、功能系统测版、系统联调及故障模拟五个阶段。(1)厂验厂验是在设备发货之前,在设备原厂或者第三方的实验室进行的设备运行和功率容量的基础验证。厂验的对象是机房的主要设备,包括发电机、UPS、冷水机组、空调等。这些设备对机房整体系统有至关重要的影响,所以发货前必须按照厂家或者行业标准的条件和步骤进行厂验,目的就是验证

45、设备的性能参数符合招投标文件,功能满足设计要求,避免设备发货前就有无法弥补的缺陷。测试验证的机构需要全程参加厂验,测试报告由厂家提供,测试验证团队审核。(2)到货及安装测试验证团队应该在设备到达安装现场时进行到货检查,检查的对象包括发电机、UPS、冷水机组、空调等主要设备,检查的目的是确认到货设备与厂验中的设备一致,无损坏无更换。在主设备安装完成后,测试验证团队需要对安装质量进行检查,确保设备的安装满足设计、组装、使用、维护、人身安全和当地法规等要求。设备的安装质量直接影响以后的运行稳定性,很多设备故障都是由于安装不合格引起的。比如在风冷空调的安装过程中,如果安装管路过长、落差过大就容易在运行

46、中造成烧压缩机的严重故障,所以安装质量是测试验证过程中非常需要关注的内容。可以说厂验和到货、安装检查是测试验证进入核心工作的必要前提。(3)功能元件测试测试验证团队需要在功能元件测试阶段完成设备的性能测试和启动测试,并验证设备能够在基础负载下运行,这个阶段是针对单体设备的测试验证,是为后面的系统测试验证做准备。由于数据中心的设备非常繁杂,这个阶段的测试验证关键就是要保证核心设备和核心系统的每个链条上的原件和路径都得到实际的测试和验证。对于主要系统功能元件的测试验证内容,我们将在按照验证对象的划分方式中详述。(4)功能系统测试功能系统测试是针对由单体设备组成的子系统来进行的测试验证工作。主要内容包括验证子系统是否己经做好与其他系统联合运行并支持数据中心运转的准备:测试、调整制冷系统,以保证风量和冷冻水流量满足设计要求;分别在正常、维护和应急模式下,通过监控系统验证设定点、报警、功率数和性能状态的反馈是否正确。数据中心基础设施中对于可用性及可靠性影响最大的子系统是供配电子系统。随着数据中心热密度的上升,空调系统的重要性也随之上升。而安防监控的参数设置可能影响以上两个系统的动作,因此这三个子系统的测试验证也是数据中

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号