数据中心运维操作标准及流程.docx

上传人:李司机 文档编号:7223202 上传时间:2024-07-04 格式:DOCX 页数:22 大小:27.31KB
返回 下载 相关 举报
数据中心运维操作标准及流程.docx_第1页
第1页 / 共22页
数据中心运维操作标准及流程.docx_第2页
第2页 / 共22页
数据中心运维操作标准及流程.docx_第3页
第3页 / 共22页
数据中心运维操作标准及流程.docx_第4页
第4页 / 共22页
数据中心运维操作标准及流程.docx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《数据中心运维操作标准及流程.docx》由会员分享,可在线阅读,更多相关《数据中心运维操作标准及流程.docx(22页珍藏版)》请在三一办公上搜索。

1、数据中心运维操作原则及流程郑州向心力通信技术股份有限公司1机房运维管理前期准备1.1 管理目的机房基本设施运维团队应与业主管理层、IT部门、有关业务部门共同讨论拟定运维管理目的。制定目的时,应综合考虑机房所支持的应用IKJ可用性规定、机房基本设施设施的级别、容量等因素。目的宜涉及可用性目的、能效目的、可以用服务级别合同(S1.A)的形式呈现。不同应用的可用性目的的机房,可设定不同级别的机房基本设施的运维管理目的.1.2 参与数据中心建设过程机房运维团队应充足理解自己将要管理的场地基本设施。对于新建机房,应尽早参与机房基本设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中

2、得到充足的考虑;同步为后期做好运维工作打下基本。1.2.1 应参与规划设计机房的规划设计是一种谨慎和严谨的过程,需要所有参与机房建设的有关方共同完毕,才干保证规划和设计的有效性、实用性等规定。其中,基本设施运维团队应提出运维规定,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。1.2.2 应参与有关供应商遴选机房基本设施运维团队应参与机房基本设施设备供应商选择H勺全过程,及时地理解多种产品及服务的品牌、型号、规格等核心参数,使之更能满足运维H勺规定。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出规定。1.2.3应参与建造管理机房卧J基本设施

3、运维团队应积极参与机房基本设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。机房基本设施运维团队应充足理解施工过程中的工艺。对于新建数据中心,从施工质量和后来运维以便性出发,尽早发现施工过程的问题,及时纠正,以便后来运维和节省后来整治成本。1.3测实验证机房基本设施投产前的测实验证是保证机房基本设施满足设计规定和运营规定的核心环节。1.3.1时间和预算机房的业主应设立测实验证专项预算,预算应涉及外部测实验证服务提供商的有关技用,以及在测实验证阶段产生的电我、水费、油费等有关费用。应制定测实验证的工期规划,以

4、更精确地预测机房基本设施交付投产的口期。1.3.2测实验证参与方项目建设管理部门可作为测实验证工作的主体责任单位:运维管理部门可作为测实验证工作的主体审核单位;第三方测试服务商可作为测实验证H勺实行单位及整体组织工作的协调单位。但运维管理部门应规定测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基本设施运维团队可参与测实验证工作,在此过程中熟悉设施和设备,可建立有关运维技术文档库,为后期的运维工作做好准备。机房核心设备提供商及工程总包商,应积极配合测实验证工作,应在供应商合同中对此项有明确规定。1.3.3测实验证内容验证应覆盖所有核心子系统和设备应具有的功能和核心I1.勺操作程序

5、,保证满足设计规定,必要时可做故障情景模拟来检查。测实验证中发现设计或者建设阶段H勺问题,应当在报告中充足体现;可以改造IKJ部分,应规定建设单位进行改造;不能改造或临时不需改造部分,应作为风险点在运维过程中予以特别的注重,并制定有关预案。1. 3.4设施健康评估当接手已在运营的机房基本设施的运维工作前,运维团队应对设施的状况进行健康评估,理解潜在风险点,其中可以改造的部分,应当申请予以优化改造。不能改造的部分,应当作为风险点在运维中予以特别I1.勺注重,并制定有关预案。1.4 技术文档完整并精确的技术文档是后期运营、维护、维修、故障诊断、优化改造IKJ基本。运维团队在开展运维工作前,应从施工

6、单位得到场地基本设施的全套有关文档,涉及但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及有关操作文档和保修保养资料、机房臼动操作系统的逻辑图及阐明文档、监控系统I1.勺点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定期限内进入运维管理知识库,并按照质量管理的原理和规定设定文档IKJ起草、变更、审核、批准、保存、分发等职责权限。1.5 管理边界为了明确管理责任,机房基本设施运维团队应将也许影响机房基本设施运维0时达到的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界线。这些因素涉及但不限于:不归木部门负责,但也

7、许对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。2安全管理和质管理建议2.1 人员安全机房基本设施运维团队要编制正式的机房生产环境(工作场合)的安全方针,设定严格II勺安全生产规范:并根据安全方针制定有效H勺、明确的安全筹划,来专家和培训安全原则、危险辨认、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以保证机房运维人员的人身安全。有关安全生产规范重要涉及: 机房生产环境安全管理规范: 机房基本设施各系统安全管理手册; 机房基本设施波及安全的应急预案: 机房基本设施管理过程波及的技术方案中的安全管理方略。机房基本设施中与电气有关

8、的工作存在着固有危险。设施运维团队应当创立一份正式电气安全筹划,以最小化所有工作人员受到电气伤害的风险,保证现场电气系统达到有关法规原则。电气安全筹划中的条款应规定电气工作人员在有资质和具有合理安全工作流程的前提下才干进行操作,并应运用防护设备和其她控制手段,如上锁挂牌设备。此筹划I1.勺创立旨在避免员工受到电击、烧伤、电弧和其她潜在电气安全隐患,同步规定其遵守法规原则。有关国家、行业规程涉及但不限于: GB26860电力安全工作规程发电厂和变电站电气部分: D1.408电业安全工作规程。2.2 物理环境安全应理解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜涉及但不限于:周边交通

9、路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。应理解机房所在地的历史自然灾害状况。涉及但不限于GB50174及T1.A-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。应建立并执行严格的机房设备、人员、车辆进出管理制度。应设立不同安全区级别(参照IS027001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。2. 3质量管理在机房基本设施运维过程中建立完善的质量管理体系,是保障以上机房基本设施运维趋于卓越H勺重要因素和手段。机房基本设施运维团队的所有核心工作应涉及如下的质量管理要素:2. 3.1质量保证过

10、程制定:程序制定;过程审核和批准;过程和程序培训。2.3.2质量控制 事件回忆; 质量检查和检查: 定期质量审核。2.3.3质量改善故障分析;经验教训:优化及创新筹划。3人员管理建议3.1 组织及人员3.1.1 组织架构机房运维团队应有清晰的组织架构,同步对各岗位有明确的岗位职责阐明并在i1.和机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基本设施运维团队中除现场负责人外,可按照工作内容分设如下几种重要职能岗位: 运维巡检团队重要职贡:对基本设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序H勺执行者。 技术管理团队重要职责:对机房基本设施提供运维

11、技术支持,解决技术问题,承当机房基本设施一般性的优化改造工程的项目管理工作,宜涉及电气、空调、弱电等系统的技术人员。 物理环境安全管理团队重要职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2人员配制机房基本设施运维人员I1.勺配备应根据运维管理目的或S1.A来拟定。中高级别的机房,可按照7X24的运营规定配备运维人员。上岗人员应具有国家规定的相应资格证书。应在运维管理程序中明确规定资质级别与操作权限的一致性。高级别以及具有一定规模H勺机房,每个班组应配备具有电力、暖通、弱电专业能力H勺运维人员,以达到“即时应急响应”的工作状态。级别相对低的机房,每个班需要至少配备一人,达到“即时报

12、警”11勺工作状态。运维团队的核心岗位应有人员备份和储藏。机房基本设施运维管理团队的核心管理人员或核心岗位人员在正常运维工作开展中应采用A、B角色配备,平常工作中应注意角色的分派和工作的配合。其他岗位人员宜建立良好I1.勺循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基本知识。3.1. 3绩效管理为了提高机房运维人员的技术技能、职业素养和倡导团队合伙精神,专业地、高效率地运营和维护机房基本设施,有必要建立人员的核心绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改善。3.1.4人员管理制度为了保障机房基本设施运维团队的创新性、稳定性、

13、持续性,应通过建立合理H勺人员管理制度,约束人员H勺工作态度、行为规范,提高人员I1.勺工作热情、工作效率和执行力,激发人员正面影响,使团队始终保有活力来共同努力达到服务级别合同的规定,运维团队应当建立运维人员H勺各项管理制度。这些管理制度应当重要涉及(但不限于): 平常活动管理制度; 人员安全操作制度: 运维人员基本素质养成管理制度; 安全运营奖惩制度: 节能运营奖惩制度: 技术创新奖励制度: 人员晋升制度; 人才储藏制度;3. 2培训及认证3.1.1 员工培训及资格认证筹划对于机房基本设施运维团队新员工应进行完整及严格的培训I,以保证其尽快具有岗位需要之知识及能力。培训内容应涉及机房基本设

14、施的所有系统H勺工作原理、操作流程、应急预案、以及管理制度等。对于所有运维人员宜设定以知识更新、技能提高为目的的年度培训及认证筹划。宜规定运维人员不断提高理论知识,以便于在缺少操作程序的应急状态下进行对的H勺处置。可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格H勺评估工作。3.1.2 历史事件分析学习运维团队应将机房基本设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训I,以避免相似H勺事件再次发生。3.1.3 3组织学习运维团队管理者应积极参与行业交流,理解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整治。3.3运维外包

15、服务商3.3.1基本设施运维外包服务商的选择机房基本设施属于核心性设施,选择外包运维团队时应考察其机房基本设施的运维服务I1.勺资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应规定外包运维机构针对机房基本设施设施部分设立专门I1.勺有机房基本设施运维经验I1.勺团队,并严格按机房基本设施的运维规程规范执行。3. 3.2运维外包服务商的管理对于外包服务商的员工H勺管理原则应当参照运维团队内部员工同等规定,行关人员只有在进行培训并得到有关的认证后才干从事有关H勺工作。外包服务商需要严格遵循数机房基本设施既定的操作流程和安全守则。机房基本设施运维管理的最后责任承当者是机房管理者,贡任无法

16、外包。因此,机房应保存运维核心管理人员,对于外包团队打勺工作进行审核、监督和绩效评估管理。4设施管理建议3.1 资产数据库数据中心应建立完整及实时更新的资产数据库。数据库应涉及所有核心基本设施设备的清单,还应记录设备设施I1.勺运营状况、事件状况、变更状况、维护保养频次等信息。资产数据库应至少涉及如下信息:资产ID:每个资产的唯一标记号种类:一级分类(如电气、制冷、消防系统)子类:二级分类(如UPS、电池、PDU等)描述:资产的文字阐明制造:资产的制造厂家型号:制造厂家的产品型号规格:资产的规格或者标称值位置:位置ID(房间或区域)购买人:资产维护的负责人序列号:制造厂家的序列号安装日期:资产

17、的投产日期保修期限:保修到期的口期更换:估计的资产更换日期维护频次:年检、季检、月检等4. 2避免性雒护4.1.1 避免性维护筹划避免性维护是为了延长设备H勺使用寿命和减少设备故障的概率而进行的有筹划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严市之前被发现。运维团队应根据系统设备状况与供应商进行沟通,按照供应商IKJ建议提前制定年度、季度、月度避免性维护筹划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地贯彻维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运营状态数据进行记录和趋势量化分析,对于异常的趋势,做出报警及有关预案。避免

18、性维护涉及并不限于如下系统设备或内容: 冷水机组、精密空调;UPS,开关、和发电机组: 消防系统和监控系统检爸; 蓄电池放电测试: 配电装置(高下压配电装置)的绝缘性定期实验; 二次保护定值实验: 每年雨季之迈进行的数据中心防雷接地装置测试等。4.2.2工单管理运维团队应建立避免性维护及保养的工单管理系统,工单应列出工作内容、完毕相应工作需要的工具及备件、工作估计完毕的时间、工作负贡人等信息。计算机化维护管理系统应当对每份工单从产生到完毕进行全程的跟踪。4.3操作流程机房基本设施的所有操作,均应事先制定具体的操作流程,通过审核后存档并在后期运营阶段严格执行。4.3.1雒护作业程序MOP对机房核

19、心基本设施设备的每次维护、维修、安装操作,都应事先制定一份MOP,可规定设备供应商提供MOP的建议,但对于MC)P最后确认审核的责任在于运维团队,批准责任在于运维管理团队。4.3.2原则操作流程SOP所有核心基本设施设备在多种状况下都能执行的常用操作都应制定原则操作流程SOP例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。4. 3.3应急操作流程EOP应急操作流程合用于有也许发生的严重故障状况。如下为部分严重故障的例子: 一路市电供电时中断: 双路市电供电时同步中断; 单个精密空调时故障停机: 所有精密空调都故障停机; 单台UPS时故障停机。4.4工具及备件管理运维团队应根据

20、资产分类清单及其分类制定地低备件库存清单并及时补充备件。测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运营温度测试、风速测试、环境温度测试、噪音测式等的仪器仪表。仪器仪表应当定期校准。应制定有关规定对操作工具、仪器仪表实行人员负货制或者交接班负责制等管理制度。备件和工具应定期进行盘点。4. 5供应商管理应当按照机房基本设施运维的资质、以往的经验、业界的口碑等因素,以注重避免性和预测性维护和提高可用性的相似原则来选择合格H勺供应商。所有供应商达到机房执行维护程序之前,应通过机房有关规程的培训,获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要

21、严格遵循操作流程。操作时需由运维团队的人员陪伴并监督记录流程的执行状况。供应商的每次机房维护活动都应当提交现场服务报告并存档。运维团队应当建立供应商H勺绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(S1.A).工作范畴、针对设施的培训和认证状况等信息。4.6 生命周期管理应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的筹划及预算,及时报告给运维管理部门。风险评估重要评估内容涉及:资产重要性辨认: 资产威胁辨认: 资产脆弱性辨认; 风险值的计算: 在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的

22、改善,做好综合投资回报分析: 对于冗余设备宜设立轮换运营机制,以延长整体设备的生命周期。4.7 运维管理系统机房可建立自动化维护管理系统MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完毕状况。5运营管理建议5.1 运营管理制度机房基本设施运维团队应建立并严格执行运营管理制度,涉及:5.1.1 巡检有关管理制度 平常巡视巡检管理制度; 值班管理制度; 交接班管理制度: 告知矩阵。5.1.2 工作流程有关管理制度 工单解决流程; 例会制度: 工作总结报告制度(日、周、月、季、年总结报告: 交付管理规范: 运维质量管理措施文档管理制度; 工具有件管

23、理制度。5.1. 3安全有关管理制度 机房出入管理制度: 机房现场管理制度: 机房卫生管理制度: 信息安全有关管理制度。5.1.4故障解决管理制度 设备操作管理制度; 设备故障解决流程: 应急准备和应急响应流程; 维护作业筹划管理制度; 故障隐患跟踪反馈管理制度; 紧急事件报告流程。5.1. 5经营有关管理制度 员工行为规范: 考勤管理制度: 人员管理考核制度。5.2设施监控、巡检、及交接班管理应配备环境、动力、安防等监控系统以便于运维人员及时理解设施各系统及设备的运营状态和及时发现异常状况。应规定相应的运营人员对设施运营状态的巡视频次、巡视工作内容及规范。运营人员交接班时应对当班执行的操作、

24、变更及观测到的任何异常数据或现象进行交接和签收。5.3机房清洁管理应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指引。5.4标签标记管理应建立针对数据中心场地基本设施设备和物理环境完整的、清晰的标签标记管理系统。应至少涉及: 设备标记:涉及设备名称、型号、编号、资产编号等: 线缆标记:涉及起始端信息、终结端信息、设备名称等; 警示标记:如“设备已带电/危险”、“严禁合闸、严禁分闸”等: 物理环境标记:如位置标记、区域标记等: 系统图展板标记:如电气、暧通、消防、弱电系统图展板。此类标记便于运维人员清晰、快捷地掌握区域及整个数据中心

25、系统的配电、制冷、消防、弱电I1.勺原理及核心点位。5.5变更管理任何对于设施运营状态的变更应进行预先的风险分析,并基于风险级别,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范畴I1.勺告知。变更结束后,应向相应范畴部门通报变更成果。5.6 事件管理应制定事件管理流程,明确不同级别事件下相应的解决流程。5.6.1 事件级别定义一般事件:任何没有达到机房设计和运营原则的异常事件;严重事件:任何没有达到机房设冲、运营原则的事件,且对提供的服务导致中断的事件;重大事件:任何没有.达到机房设计、运营原则的事件,且对提供的服务导致中断,且影响范畴大的事件。5.6.2 事件升级当

26、事件临时无法排除,需要逐级报告,进入事件升级流程。如遇特殊状况,与直接主管联系不上时,可越级向上一级主管报告。5.7 应急响应5. 7.1设施应急预案演习运维团队应针相应急操作流程EOP进行定期的演习工作,重要涉及:沙盘演习:参与演习的!运维人员集合,并分别口述在发生紧急状况下F1.身所应承当的职责及将会执行H勺方案及环节:跑位演习:参与演习H勺人员跑位到模拟故障现场,模拟解决故障,参与人员应清晰地说出故障的解决方案及环节。应急演习H勺演习原则是:尽量接近真实状况,在条件容许的状况下尽量真实地解决故障。在运营中的J某些特定场景下也可以进行应急演习,如发电机带载实验等。5. 7.2人员安全应急流

27、程机房基本设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演习。应急流程可涉及设立现场急救包以及联系本地医疗急救机构的方式等。5.8 容量管理容量管理可涉及但不限于如下方面:5.8.1 空间容量 IT设备摆放空间: 基本设备设施摆放空间; 综合布线线路空间,配线架管理。5.8.2 能力容量 电力供应容量; 空调供应容量: 综合布线信息点容量; 互联网接入容量。设施运维团队应与IT部门定期沟通,动态理解IT需求的预测,并通报设施容量的使用状况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。当机房基本设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建机房

28、的筹划。5.9 能效管理5.9.1 能效监测机房基本设施运维团队应理解并记录机房在不同工况及不同外界气候条件下H勺电力使用效率PUE的变化状况,从中发现趋势,以不断优化运营方案。5.9.2 理解IT设备运营特性机房基本设施运维人员应具有一定H勺IT设备有关知识,理解服务器、网络、存储等设备的运营特点和功耗状况。还应理解客户或顾客的业务基本状况,理解IT设备的运营峰谷期。应与客户或顾客有关部门做好沟通,针对高密度IT负载I1.勺部署做出预测,并制定有关应对方案。5.9 .3管理气流组织应封堵设施建筑所有也许H勺漏风口,维持设施的正压。应疏导设施内气流II勺流向、封堵所有也许的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。5.10 4运营阈值设定应基于安全性及运营效率的综合考虑,建立运营阈值设定指南,设立监控报警阈值、空调回风温度等。5.10预算管理运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性H勺沟通解释工作。预算应涉及但不限于如下内容:基于S1.A1.n人力预算; 备件及工具、仪器采购费用; 应急维护材料费用; 专业外包维保和应急服务费用: 政策性等强制检测服务费用; 整治或节能改造预算;突发问题备用金。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号