《信息中心机房运维管理办法.docx》由会员分享,可在线阅读,更多相关《信息中心机房运维管理办法.docx(33页珍藏版)》请在三一办公上搜索。
1、附件1:*信息中心机房运维管理办法第一章 总 则第一条 本管理办法以信息中心提高信息机房运维工作质量,加强日常管理工作为目的,保证机房的各类设施设备时刻处于良好的运行环境、设备安全稳定运行,确保“响应及时、保障一线”为原则,明确运维中心工作人员的职责分工和日常管理、告警及应急管理等内容。第二条 为完善信息中心机房工作管理办法,依据*信息系统运行管理相关规定和信息中心信息系统运行管理办法,结合信息中心机房实际情况,特制定本办法。第三条 本办法适用于信息中心机房的日常管理及故障处理等工作。第二章 职责分工第四条 运维中心是信息系统基础平台的运行维护部门,运维中心的机房运维工作人员为各信息机房提供7
2、*24小时的现场保障。主要负责信息机房的日常值班、门禁权限的管理、机房设备管理、设备告警及各类故障的应急处理。第三章 管理办法内容第一节 权限管理第五条 为加强信息机房的安全管理,提高安全管理水平,各信息机房大门、监控室、机房主要出入口、缓冲区、机房配电室、等出入口设置了门禁管理系统。门禁系统将按照“分区管理、授权进出、规范管理”的原则进行管理。(一) 门禁授权管理分级1、一般授权:为8小时工作时间有效的门禁授权,工作时间以外及周六日无效。适用于普通工作人员使用。2、特殊授权:为24小时工作时间有效的门禁授权,节假日有效。适用于24小时现场职守人员及其他特殊需求工作人员使用。相关工作人员因工作
3、需要或其他原因需开通机房门禁授权的,首先要详细填写信息中心机房门禁授权申请单(见附件3)中的每一项内容,经相关领导允许并确认签字后,将信息中心机房门禁授权申请单原件返回给机房值班人员,由机房运维人员根据申请单情况,进行开通指纹授权确认。(二) 门禁授权审批流程:1、提交的申请表中需要明确填写申请原因,授权时间及授权范围等内容,申请表需申请人签字,经运维中心领导审批。2、门禁授权办理。通过审批的申请单,将由机房运维组为员工办理门禁授权系统。员工在因长时间外出或离开本工作岗位时,需及时将其门禁授权予以清除或办理授权失效。日常管理及具体操作授权由机房值班人员负责。已开通的门禁的申请单由机房运维组归档
4、、管理、保存。(三) 未经门禁授权登记进出的 1、未经授权或经运维中心领导同意,工作人员不得私自带不相干的人员进入设有门禁的工作场所及机房。2、对于需要进入办公区域及机房内进行操作,办公的人员需经相关负责人同意并有指定的监护人进行陪同监护工作,方可进入,进入人员应按规定填写好机房出入登记表(见附件4)。第二节 机房设备管理第六条 加强机房的安全管理,杜绝人为因素对机房造成影响,为设备提供安全的运行环境,保证机房内设备处于最佳运行状态。1、 机房内设备必须按照相关规定放置,并有明确设备标识。未经运维中心相关负责人批准,任何部门及人员不可以放置任何设备于机房内;2、 设备的维护必须由专人负责,他人
5、不可随意操作;设备需要停机检查时,须经运维中心相关负责人批准后,方可进行;3、机房维护终端不可安装各种与设备维护无关的应用程序,不可使用外来磁盘进行数据拷贝。维护终端应该有明确的防病毒措施,定期进行检查。4、机房内各种工具、仪表、小车等未经允许不准擅自带出机房,使用时需要填写设备借用登记表(见附件5),使用后归还原处。第三节 问题管理及缺陷管理第七条 问题管理、缺陷管理的目的是消除或减少机房运维工作中机房各设备发生故障事件的数量和严重程度,防止相同事件的再次发生,从建立一个稳定的运行环境,提高信息系统服务的可靠性。 (一) 问题管理包括主动性问题管理和被动问题管理两类活动。前者的目标是通过找出
6、基础设施中的薄弱环节来阻止事件再次发生,以及提出消除这些薄弱环节的建议;后者的目标是找出导致以前发生事件的根本原因,以及提出解决措施或纠正建议。(二) 问题管理、缺陷管理着重于消除事件或减少事件发生,确定事件的根本原因。主要活动包括分析事件、找出问题、确定根本原因以及找出解决方案,以消除事件或在其发生时降低对机房环境和信息系统的影响。(三) 问题管理依赖于有效的事件记录,事件记录应记录所发生的事件,并对事件进行详细的描述。信息中心机房运维的事件记录有机房巡检表(见附件6)、交接班日志(见附件7)、机房运维日汇报(见附件8)。(一) 机房运维负责人担当问题管理负责人,负责在问题和已知错误的整个生
7、命周期内对其发展情况进行监控,确定并监控其影响度;监控问题和已知错误的分析诊断情况和方案实施情况。(二) 一旦找到问题的根源和与此问题相关的事项,以及处理它的应急措施。并确定对问题最合适的解决方案进行修复解决。第八条 缺陷管理(一) 机房运维人员对设备进行固定巡检、巡检时应注意检查设备状况,对于发现的缺陷,若可以随手消除的应即随手消除,事后在班组进行相应的记录;属不能随手消除缺陷的,应及时登录缺陷并汇报负责人。 (二) 通过巡检、操作和信息中心机房运维的事件记录,进行分析发现并记录设备缺陷,提出消缺要求,采取措施,为消缺工作顺利进行创造条件。(三) 对发现的重大缺陷,及时通知设备维修人员到现场
8、进行消缺,部分必须在设备停用后才能消除的缺陷或没有消缺所必须的备品备件的缺陷时需要进一步观察、分析才能确认的缺陷,且暂时不会对设备、系统或人身安全构成立即的危害,也不会给业务运行带来严重损失的设备缺陷。(四) 在设备缺陷未消除前组织运行值班人员加强检查监视,采取措施防止缺陷造成的影响扩大。第四节 安全管理第九条 安全管理规定1. 工作人员,没有操作票及监护人禁止进入信息机房进行任何操作,进入机房需填写“操作工作票”,征得相关负责人同意并签字,指定监护人后方可进入机房操作。2. 操作票当日签署当日有效,隔日需另签操作票。操作票需填写清楚施工单位人员及联系方式,工作任务主要内容,工作时间,批准人及
9、监护人签字。3. 机房内禁止吸烟,严禁存放和使用易燃易爆、剧毒及腐蚀性物品。4. 运维人员应切实遵守安全制度,认真执行用电、防火的规定,做好防水、防火、防爆、防盗、防雷、防冻、防潮等工作,确保人身和设备的安全。5. 机房运维人员应加强防火安全学习,定期进行安全防火检查。一旦发生火情,应按制定的灭火流程进行处理,并立即报告。6. 机房必须配备一定数量的合适消防器材和防护用具。各种消防器材和防护用具应按规定定点放置,随时保持有效,过期的灭火装置及时更换。机房值班人员和维护人员应掌握灭火常识和消防器材的使用。7. 机房应有可靠避雷装置, 雷雨季节应加强对机房内部安全设备、地线及防护电路的检修和整改。
10、8. 在维护、测试、磁带更换、光盘更换、故障处理、日常操作以及工程施工等工作中, 应采取预防措施, 防止造成工伤和事故。10、各种测试仪表和电器设备的外壳,要接地良好,插拨电路盘应使用抗静电手环。高压操作时应使用绝缘防护工具,注意人身和设备安全。不同种类的电源应使用不同的插座。11、各机房应在显眼处张贴消防逃生示意图和机房灭火流程。12、机房用电须经相关负责人批准, 指定用电接点后, 方可接电。第五节 值班管理及日常管理第十条 为保证机房设备的正常运行,维护日常工作秩序,特制定机房值班管理和日常管理办法:1. 值班时间为:周一至周日全天值班。2. 值班范围包括公司本部各信息机房内的监控区、设备
11、区、UPS区、电池区;确保每个区域环境正常和设备的稳定运行。3. 值班人员必须认真履行职责,加强责任感,保持警惕。4. 值班人员须按时到岗离岗,不得迟到早退空岗。有事须事先请假,以便安排临时替代人员,不准私自让他人代班、调班。5. 值班前及在岗期间不得饮酒,不得使用中心设备处理与工作无关事务和个人事务,不得将无关人员带入岗位。6. 值班人员必须定时按巡视内容要求对机房各区域进行全面巡查,并填写相应巡检记录表及交接班登记表。7. 值班人员在值班期间遇到有人访问机房时,须要求对方出具操作票,并有监护人进行全程陪同监护。当遇监护人不在现场时,值班人员有权利和义务终止访问人进行机房内的任何操作。8.
12、值班期间一旦发生突发事件,值班人员必须迅速分析原因并按操作程序采取有效措施予以处置,不得以任何理由推诿、拖延障碍处理时间,必要时根据应急预案联系设备厂商,重大问题要及时向机房负责人报告,并详细做好记录。9. 值班人员必须熟悉掌握所有设备的工作原理,操作程序,熟悉应急预案、应急程序及应急措施。10. 值班人员未经主管人员批准,不得擅自更改网络和主机设备等配置参数。机房内的设备、配件、软件、资料等任何物品不允许私自带出机房。第六节 告警管理及应急管理第十一条 告警级别设定 根据机房设备的重要性,及影响信息系统运行的严重性,现将机房告警分为以下三个级别:1. 主要告警:包括通风设备组(新风机、排风机
13、的报警为主);2. 严重告警:包括空调及环境监控设备组(精密空调、机房专用柜机空调、温湿度、漏水监测、防雷器);3. 紧急告警:包括消防、供配电、UPS设备组(消防系统控制箱、UPS、蓄电池、配电开关状态、动力配电柜、ATS状态)。第十二条 告警及应急管理1. 值班人员必须按照规定定时巡检,巡检项目包括:机房空间各处安全隐患,各设备有无异常气味、声音,各设备供电状况,各设备指示灯,强电箱供电状况,UPS运行状况,空调运行状况,设备间温湿度状况,消防控制器状况,视频监控状况,机房前后门状况等等。2. 机房各处安全隐患包括空间内有无异味、火花等异常状况。有异味时应尽可能找出根源,及时处理。根据源头
14、材质用正确的方法消灭隐患。3. 各设备供电情况和指示灯状况包括查看各类设备是否正在运行,有无供电报警状况,供电不正常时,检查相应供电源头状况,机柜PDU、航空插头等,并根据*机房电源、空调等物理设备故障现场处置预案(见附件2)启动相应的应急预案。4. UPS运行状况主要查看监控器上输入输出电压电流及其负载,强电输入是否异常报警,电池模块指示灯是否正常。若出现强电输入异常报警情况,立即查看电源输入强电箱是否异常,并根据*机房电源、空调等物理设备故障现场处置预案(见附件2)启动相应的应急预案。5. 检查精密空调运行状态,包括温度、湿度、故障报警等。若出现温度过高,空调故障报警时,应根据*机房电源、
15、空调等物理设备故障现场处置预案(见附件2)启动相应的应急预案。6. 消防控制器状况包括面板各项指示灯是否正常,是否因为不同问题报警,并采取必要措施。若出现烟感或温感误报的情况,排查确认无隐患后取消报警,并在交接班时说明情况,以便及时修理。若同时报警,在最短时间确认是否为火灾后,采取相应措施,应根据*机房电源、空调等物理设备故障现场处置预案(见附件2)启动相应的应急预案。第七节 文档管理第一条 建立信息机房基础设施清单这部分内容包括机房内设备的名称、型号、数量、投运时间、放置地点等有关记录。第二条 建立系统登记册 内容包括机房运行配套的软件系统,如门禁系统、环境监测系统、视频监控系统、巡更系统,
16、等系统的版本号、主要功能等有关记录。第三条 故障情况记录根据机房巡检时所发现的故障情况,以及处理过程、处理结果,详细的记录在巡检表、交接班及日汇报表中。并将相关的表单存放于固定的文件柜中进行保存,做到有据可依,有据可查。第八节 培训及考核管理第一条 培训管理1、 进行培训需求调查;2、 提出培训需求;3、 对培训需求进行分析;4、 确定培训需求;5、 制定培训计划;6、 报告领导审批;7、 培训计划实施。第二条 考核管理考核的因素主要分为:工作业绩、文档和例外考核三部分。1、工作业绩:是考核的主要内容,指员工每月工作计划的完成情况;2、文档:是指按管理制度的相关规定,必须定时上交的日报、周报等
17、;3、例外事件考核:出勤、重大贡献、重大失误及其他项目的考核。第四章 附则第十三条 本制度由信息中心负责解释。第十四条 本制度自发布之日起执行。附件2:*机房电源、空调等物理环境设备故障现场处置预案信息系统机房是保障信息系统稳定运行的至关重要条件。为进一步提高系统、网络的运行效率和维护质量,执行规范化的管理和设施、设备养护,确保全网安全、稳定运行。机房运维组工作人员应加强业务学习,不断提高专业技能,树立全员服务、全力保障的意识,做到“响应及时、保障一线”。机房管理员负责机房的日常管理工作。保证机房的各类设施设备时刻处于良好的运行状态,确保设备安全稳定运行。特制订本应急流程。一、机房火灾处理流程
18、1、值守人员应判断故障是否属于紧急状态并采取相应的处理流程。2、机房发生火灾时,应立即按下火警报警按扭,及时断开事故部位电源,采取必要的隔离措施并用灭火器灭火。当火势有扩大趋势或已经不能控制要及时拨打119火警。3、火灾后应掌握的原则是边救火、边报警。4、消防车到来之后,一切听从消防指挥人员的指挥,配合消防专业人员扑救或做好辅助工作。 使用器具:灭火器、水桶、脸盆、铁锨,水浸的棉被等。 5、机房必须具备完善的安全责任制度,管理人员须长期具备安全防范的意识,并具备基本的安全防护知识与方法,要求做到“四知”:知报警电话;知重点部位;知消防器材位置;知消防器材使用方法。这样才能既防患于未然又具备充分
19、的紧急应对能力。6、联系电话:火警:119 、 物业消防电话: 、 物业维修班: 7、机房消防系统示意图:二、电源、配电系统、UPS 故障处理流程2.1 在日常巡检工作中应注意:1)检查每台UPS设备的工作状态,记录负载值。2)检查UPS有无报警。3)UPS设备有无发热、异味、冒烟等现象。4)UPS设备机柜间有无局部过热现象。5)电气连接有无异常。6)检查UPS电源指示灯,及其他指示灯是否正常。7)检查每台配电柜的的工作状态,记录电压、电流值。2.2 机房预防性维护内容:实地巡检机房时,应将UPS设备逐个仔细查看,不得有遗漏。在巡检UPS时不得进行任何其它工作,更不得开关机或移动设备等等。每日
20、巡检中发现的空调、UPS设备电源、报警指示灯异常应立即通知相关负责人,并将发现的设备缺陷、异常记入机房巡检表。对危急安全运行的缺陷要立即汇报上级主管部门及领导,并迅速设法处理。2.3 联系电话并通知相关负责领导。当UPS出现故障时,应及时与UPS厂家负责人员联系,确认处理方式,放可对UPS进行应急处理。2.4 UPS主机面板示意图 若亮光状态条显示黄色或红色,即表示故障,应当尽快与UPS厂家联系维修! 2.5 UPS系统故障处理流程图: 完成相关负责人的通报工作后,应立即对故障情况、通报情况、及相关维护厂家的响应情况进行登记,并通报信息中心相关领导。 跟踪各厂家的故障解决情况,故障解决后,应立
21、即对解决情况进行登记。四、空调系统故障处理流程2.1 在日常巡检工作中应注意:1)观察并记录机房内各区间的温湿度测量器的温度、湿度。2)观察并记录每台空调机的温度、湿度。3)检查每台空调机是否有故障报警显示。4)检查空调电源指示灯,及其他指示灯是否正常。5)检查空调是否漏水。2.2 机房预防性维护内容:在实地巡检机房时,应注意观察记录机房各区域内的温度、湿度,查看空调的报警记录,电源指示灯。在巡检空调时不得进行任何其它工作,更不得开关机或移动设备等等。每日巡检中发现的空调设备电源、报警指示灯异常应立即通知相关维修人员进行维修处理,说明初步判断结论后,适情况而定要求空调负责人应在1-2小时内到达
22、现场处理故障。并通知相关负责人知道。 2.3 空调维修联系电话:巡检时发现空调系统故障处理流程图:五、机房防漏水处理流程1、值守人员应判断漏水状态并采取相应的处理流程。2、机房内备有吸水海绵,水桶,防水塑料布,防水胶带等防漏水应急辅材。2、当遇到下雨等特殊天气,机房值班人员将采取不定时、多频率巡检巡视机房情况,以备第一时间发现漏水隐患。3、当发生漏水情况时,值班人员应立即采用相应的机房防漏水应急辅材进行处理,用海绵及报纸吸拭漏水,把水桶放置漏水处用于接水,并用防水塑料布把重要设备盖住,已避免造成事故和损失。4、经过上述紧急处理后,联系物业进行后续的防漏水处理,并进行维修。并且第一时间汇报给相关
23、负责人和领导知道5、联系电话:物业维修班:附件3:信息中心机房门禁授权申请表姓 名单 位电 话工作证号码申请授权原因需要授权位置、级别A座330机房入口门机房门B座9层机房入口门机房门C座2层机房入口门机房门C座5层机房入口门机房门工作时间有效24小时有效 申请人签字: 日期: 负责人签字: 日期:附件4:机房出入登记表机房出入登记表序号姓名联系方式公司名称进机房事由日期批准人123456789101112131415附件5: 设备借用登记表使用责任人联系电话使用责任人单位 借用时间归还时间设备使用详情借用设备详情设备型号: SN:数量及其他: 负责人签字: 日期: 附件6:问题处理单 编号:
24、问题名称所属运维组发现人发现时间问题情况发现人:处理情况 处理单位:签字确认运维组负责人:运维中心负责人:附件7:缺陷处理单 编号:缺陷名称所属运维组发现人发现时间缺陷情况发现人:责任单位确认并提出处理方案见附件:责任单位:监理意见运维中心负责人签发施工后消缺所用工时、材料、工器具消耗见附表:处理情况处理单位:验收签字监理单位:责任单位:运维中心负责人:发现单位:附件8:故障处理单编号:设备消缺单名称内容:运维中心负责人:监理单位:责任单位:承包单位:附件9: 机房巡检记录表 月 日 星期 天气: 室外温度: 值班人: 接班人:UPS负载整流器逆变器电池UPS上午交接班上午下午下午晚上晚上上午
25、交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上UPS1UPS2温度湿度压缩机风机加热器上午交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上上午交接班上午下午下午晚上晚上1#空调2#空调3#空调配电柜情况漏水报警系统防雷系统消防系统备注机房交接班情况打扫卫生情况空调有无漏水签字机房室内有无异常有无报警声有无烟味、火情空调是否制冷照明是否正常钢瓶间事件记录 交接班日志单值班人员名单日期空调系统环境监控系统UPS加湿器温湿度漏水防雷消防系统其他设备当值事件记录当值事件遗留事项交接姓名:交接时间:附件10:附件11:培训记录单序号培训项目培训内容培训时间培训老师说明