《硬件维保服务标准v10.doc》由会员分享,可在线阅读,更多相关《硬件维保服务标准v10.doc(53页珍藏版)》请在三一办公上搜索。
1、目 录一 概述3二 服务需求分析42.1驻场服务需求分析42.2培训服务需求分析4三 驻场服务方案53.1机房设备运维服务53.1.1服务要求53.1.2服务内容63.2 主机、网络设备运维服务93.2.1服务要求93.2.2服务内容103.2.3 重要时刻专人值守服务113.2.4 设备搬迁、业务割接支持服务113.3基础运维服务管理流程163.3.1 运维服务方式173.3.2 服务管理制度规范19四 设备维保服务方案224.1设备故障级别定义及响应时限224.2电话技术支持服务234.3远程技术支持服务234.4现场技术支持服务244.5设备巡检服务244.6备件支持服务304.7培训服
2、务304.8故障升级服务324.9项目文档管理服务324.10技术服务样单33五 应急处置方案345.1应急预案体系架构原则345.2应急预案的内容355.3应急小组人员安排355.4应急服务流程355.5 风险分析和应对措施375.5.1系统可能存在的紧急情况375.5.2应对措施及建议385.6 应急保障体系40六 交付管理体系416.1 基于ITIL的基础运维管理416.2 基于ISO20000的服务体系486.3 风险控制管理516.4 技术文档的提交和管理53一 概述任何计算机系统(包括服务器、存储、网络系统以及其他外设)在安装配置完成,投入运营和使用之后的整个运行周期,需要不间断监
3、控和维护,在必要的时候,还需要进行维修和系统升级。这一点在高端的使用环境中尤为重要,因为对于一个相对复杂的系统环境,如果日常的监控和维护工作安排的比较合理,并且得到了贯彻,往往可以在一些软硬件故障出现之前做出预判,从而为及时和顺利的解决可能出现的问题打下良好的基础,甚至预先避免故障的发生。 但是在实际工作环境中,这一点往往被忽视,很多数据中心在购置了昂贵的中高端计算机产品之后,出于种种考虑(往往是为了节省支出或者是意识不到维保的重要性),对计算机系统的态度是放任运行,只靠自身的IT技术员做一些最基本的管理和使用工作,直到发生了无法解决的问题和故障之后,再迫不得已的去联系产品厂商或供应商安排维修
4、,而由于系统故障所造成的损失(比如数据的丢失),常常已经是无法挽回了,这实在是得不偿失的。因为对于一个非消耗性产品来说,购置费用只是对其投入的一部分而已,在其整个运行周期中的维护和保修支出,并非什么额外开支,而是理所当然的消耗。如上段所述,如果这些数据中心在整个系统的运行期间对系统安排了合理的日常监控和维护,因为系统故障引起的损失即使不可避免,也可以尽量最小化,并且大大缩减故障的解决时间和解决难度,及早恢复系统的正常运行。很多人认为买维保服务等同于买保险,其实这观念是错误的。因为买保险只是配件损坏后才给保修或更换,而维保服务是从您购买之后的全程服务,换句话说除了配件损坏后更换,更重要的工作是故
5、障发生前已做了大量工作规避故障的发生,减少损坏。如果真的要做一个类比,就相当于我们在日常生活中配备一个营养师,目的就是为了规避生病风险,减少没必要损失。因为营养师能够指导人们在如何健康饮食、如何预防疾病以及辅助治疗,并能够设计好方案和跟踪服务,所以选择一个好的维保服务商就为了规避风险、减少损失。综上所述,对于一个数据中心的IT掌舵人或者决策者来说,一个最起码的公式应该在头脑中形成:计算机系统运营消耗(初期的购买,安装及配置费用)(系统维护,升级及整个运行期间的保修费用)(系统使用人员的培训费用)上述公式如果转化成语言描述,那就是:在一个计算机系统配置好以后,在其整个使用周期里,为其安排合格的系
6、统管理员,并且为该系统购买合适的维保服务。新疆浦汇信息为了可以绐客户提供贴身的IT顾问服务及完整优质的数据中心解决方案,确保客户数据管理中心维保服务的万无一失,我公司联合神州数码、携手国内外知名IT厂商,整合了从服务器、存储、网络等各种技术, 为客户提供从服务器、虚拟化、数据集中备份保护、存储容灾归档、应用交付、网络优化及安全防护等完整、优质的解决方案和技术服务。我公司技术团队基于按需分配、灵活扩展的特性,结合最新的云计算和虚拟化技术,为客户量身定制功能完善的虚拟化数据中心解决方案。在极大的降低客户IT成本和运营成本基础上,并为客户数据中心的长期扩展留下足够的空间。让客户可以在低成本、高效益、
7、安全及稳健的IT架构中,无忧无虑地发展其核心业务。 另外,为了更好的模拟客户机房环境,专注为客户提供专业的、可信赖的产品与解决方案,新疆浦汇信息投资近200万元率先在新疆本土建立了虚拟化应用实验室及浦汇云平台。雄厚的技术力呈也成为众多用户选择新疆浦汇信息的首要条件。二 服务需求分析2.1驻场服务需求分析为保证客户IT系统的正常持续运行,按照客户的需求,可以对IT基础硬件系统提供驻场维护服务。包括每周1天8小时驻场,每月提交驻场工作报告,每季度进行设备详细巡检,具体为:检查服务器/小机、存储、网络及数据库状态,分析操作系统瓶颈及运行状态。同时对进程分析,CPU分析,I/O、磁盘、内存和CACHE
8、使用状态分析,并提交巡检报告。节假日及重点时期巡检服务,国家法定大于等于3天的节假日、国家重大会议、活动等特殊时段前,按照用户要求及时完成巡检,并提交巡检报告,并解决相关问题及故障。当对相关进行设备搬迁、业务割接时,会根据用户提出的需求提供至少一名技术工程师进行现场服务,以保障搬迁和割接工作的顺利进行。2.2培训服务需求分析培训,主要依据实际案例,并对整个解决过程所涉及的相关知识和技巧进行说明,及利用内部资料进行高级技术培训,此类免费培训不得低于2次,不少于30人次,培训所有费用由投标方承担,全年提供免费咨询。 三 驻场服务方案3.1机房设备运维服务3.1.1服务要求3.1.1.1建立机房管理
9、服务体系建立规范、高效的机房管理服务体系是本项目的一个重要内容。通过本项目的实施,应根据对客户机房管理特点,按照ITIL/ISO20000/ISO9001有关规范建立机房管理服务体系。达到下列目标:1、实行集中统一的运维服务管理模式,从分散管理向集中管理转变;2、建立统一高效灵活的服务平台,从无序服务向全面有序的优质服务升级;3、将ITIL标准融入服务规范中,规范标准的运行维护管理流,保证运维服务工作的流程化、规范化和合理化。投标方将在本项目中帮助客户建立包括但不限于如下的管理制度,进行机房管理服务:1、IT系统重要作业公告制度2、安全保密制度3、防病毒管理制度4、非机房人员参观接待管理制度5
10、、服务器管理制度6、固定资产管理制度7、机房管理制度8、突发事件升级和管理流程9、值班登记制度10、环境卫生管理制度11、机房环境及空调要求12、机房消防安全制度13、技术档案管理制度14、客户投诉管理制度15、设备定期维护制度16、值班人员工作制度17、例会制度18、驻场服务行为规范3.1.1.2 7*24小时应急响应和每周一天8小时维护值班投标方将组织驻场2人的专业维护队伍,驻场在客户机房提供驻场服务。提供1名相关资质认证工程师现场驻场(1名紧急轮换工程师),负责对HP主机及存储设备进行日常维护、巡检以及故障处理,并提供已过保修期的设备的维保服务;定期提供性能评估和优化服务、定期提供性能评
11、估和优化服务、版本管理和补丁升级服务。驻场工程师将提供每周一天8小时驻场值班,保证7*24小时应急响应。主要工作内容包括:机房值守负责提供724小时应急响应负责机房环境、安全及设备状态的巡检;负责日常系统告警监控,故障受理和事件处理;负责事件处理的闭环监控,对超时事件处理进行登记和提示;负责机房作业随工及检查。必须保证通讯联系的24小时畅通,实时响应,电话接通率不低于90;值班人员必须如实、准确填写各项值班文档,不得涂改、伪造、隐瞒值班记录。对自己无法解决的问题,能够准确区分网络、数据库、中间件、操作系统、主机存储、硬件、应用软件等故障,并能准确进行技术支持寻求。执行首问负责制,即对申告的故障
12、,不论系统平台故障还是应用系统故障,都要进行全程跟踪和协调处理,并执行闭环管理。3.1.2服务内容3.1.2.1日常机房管理服务外来人员接待外来人员包括参观客户以及维护客户两类。当班人员将对这两类人员的到来进行接待,包括带领其出入机房。出入机房的管理要求1.维护人员进入机房必须佩戴岗位标志牌。2.非机房维护人员出入机房,要求如下:a)非机房维护人员因工作需要,必须进入机房内,须经运行维护部门的同意,办理“临时出入证进入。b)工程部门、施工单位及相关施工人员进入机房施工,须经运行维护部门的同意,办理有期限性的“施工出入证”后,方可进入机房进行施工。施工结束后,应有施工人员负责清洁和整理,获得当班
13、人员同意后,方可离开机房。c)执行紧急抢修的施工人员可直接与机房的值班负责人联系后进入,紧急抢修完毕后应签名登记,现场清洁整理由抢修人员负责,获得当班人员同意后,方可离开机房。d)参观学习人员,须事先经信息中心负责人批准,参观人员必须由专人带领陪同,原则在主机房走廊隔窗参观,确定要进入机房内参观的需运行维护部门批准,办理“临时出入证”进入。e)外方专家进入机房施工进行调测工作,须经运行维护部门批准,办理有期限性“施工出入证”后进入。3.非机房维护人员进入机房须遵守机房管理制度,服从当班人员的指挥。当班人员根据“临时出入证”和“施工出入证”予以配合并登记。 3.1.2.2机房管理要求1.遵守机房
14、内的各项规章制度和各种设备的操作规程;出入机房要登记,未经批准,任何与维护无关的人员禁止出入机房。2.保持机房清洁整齐,定期打扫,严禁在机房内吸烟、饮食、睡觉、打电子游戏机以及其它与工作无关的事情。3.在值班期内,应按时对机房、设备进行巡视,巡视时应特别注意告警、可移动设备的状态、正在施工的设备和相关的安全保卫等情况。不得任意关闭设备。4.要加强对机房内施工的监督,防止人为事故的发生。在对设备进行维护操作时,必须在机架或列架显著位置悬挂醒目的工作提示牌。5.工程施工中,不得影响现有通信设备。施工人员应严格服从值班人员的管理,如有影响现用通信设备,或动用传输通道,必须事先以书面形式通知运行维护部
15、门,及时做好防范措施,并按有关规章制度办理。机房环境日常巡检服务驻场服务团队将安排定期机房物理环境的巡检工作。负责机房环境巡检,包括电源系统、空调系统、门禁系统、报警系统、消防系统的检查,填写机房巡检记录。(具体定期巡检时间由双方协商确认)工作内容包括:1. 检查机房的温/湿度;2. 检查机房的空调设备;3. 检查机房的系统设备;4. 检查机房的门禁系统状况;5. 检查机房的清洁状况; 6. 检查各种设备的码放情况;7. 参与机房作业检查和施工验收机房辅助设备驻场服务根据各类设施的具体需要,定期对机房内保障设施进行日常维护保养。并对监控和检查过程中发现的故障和异常情况进行处理和解决。具体维护管
16、理方案如下:UPS设备UPS检查设备运行状态是否正常;定期进行深度巡检,每次巡检后组织一次电池放电;故障处理空调类设备空调类设备检查运行状态是否正常;定期进行全面巡检;故障处理监控系统监控系统检查运行状态是否正常;定期进行巡检和数据备份;故障处理(以上具体定期检查时间由双方协商确认)3.1.2.3 UPS主机、电池设备维护方案对UPS系统,将提供日常检查设备运行状态是否正常;以及定期深度巡检,每次巡检后组织一次电池放电的服务。同时还将对UPS系统提供技术保障和故障处理。巡检内容描述:(1)对设备参数进行测量及检查、对元器件老化情况提出意见;根据电池放电情况及电池的各项技术统计和测试结果对电池系
17、统的运行工作情况提出意见。(2)每次巡检对电源系统各主要部件的工作状况、电池系统的工作情况等向用户提供UPS巡检报告,准确及时向用户反馈电源系统的工作状况,提前发现问题,及时解决问题,确保系统始终处于稳定、安全、高效的工作状态。3.1.2.4机房专用空调机组设备维护方案对空调类设备,将提供日常检查运行状态是否正常和定期全面巡检的服务。同时还将对空调系统提供技术保障和故障处理。巡检内容描述检查控制器设置情况,压缩机吸、排气压力。压缩机工作电流。高低压力报警值,风机噪音及运行电流,加热器过热保护,冷凝器散热情况,制冷循环中各部件的运行情况。过滤网及加湿器等耗材的清洁情况等。对检查中发现的故障及时修
18、复。提交检查报告及处理结果。3.2 主机、网络设备运维服务3.2.1服务要求对硬件设备的运行情况进行必要的监控和检查,对硬件设备出现的错误信息进行分析及故障诊断;提供硬件设备的现场维护及换件服务,确保故障硬件的及时更换;提供硬件设备的技术支持和咨询服务,能根据业务需要提供合理可行的解决方案,提供硬件设备升级、扩充的技术咨询和必要的解决方案;提供硬件硬件设备搬迁移机、业务割接现场技术支持服务;必须按月度提供硬件设备的驻场维护报告,以便及时了解硬件设备运行及维护情况;配合客户进行硬件资产管理,记录设备配置变更和调整、设备连接、系统和设备的微码升级等情况。服务商应对硬件设备的资源利用情况进行监控,对
19、硬件资源的整合提供合理可行的集成整合或优化调整方案,确保硬件设备能够被充分利用,节约我公司的硬件采购和维护成本,对现有的硬件设备进行合理规范的管理和监控。3.2.2服务内容投标方提供的主机、存储系统的运维服务包括:主机、存储、网络设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。主机存储系统基本服务内容:序号服务模块内容描述提供方1现场备件安装配合用户进行。按备件到达现场时间工程师到达现场投标方2补丁服务消除软件漏洞给系统带来的安全隐患,并对安装补丁所引起的系统连锁反应进行合理的平衡。投标方3升级服务对系统进行软件或硬件的升级,以改进、完善现有系统或消除现有系统的漏洞
20、。投标方4现场故障诊断按服务级别:每周一天8小时投标方5电话远程技术支持724小时投标方6问题管理系统对遇到的问题进行汇总和发布投标方7系统优化对客户系统的括主机、存储设备、提供优化服务。投标方投标方现场值守人员可进行监控管理的内容包括: CPU 性能管理; 内存使用情况管理; 硬盘利用情况管理; 系统进程管理; 主机性能管理; 实时监控主机电源、风扇的使用情况及主机机箱内部温度; 监控主机硬盘运行状态; 监控主机网卡、阵列卡等硬件状态; 监控主机HA运行状况; 主机系统文件系统管理; 监控存储交换机设备状态、端口状态、传输速度; 监控备份服务进程、备份情况(起止时间、是否成功、出错告警);
21、监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题; 对存储的性能(如高速缓存、光纤通道等)进行监控。3.2.3 重要时刻专人值守服务投标方深刻知道保证重要时刻设备稳定运行对客户成功尤为关键,因此,投标方可对客户提供重要时刻的专人现场值守支持,包括重大会议期间、年终结算日、生产网重大割接或可能对其业务运营产生重大影响的时刻。节假日及重点时期涉及的巡检服务,国家法定大于等于3天的节假日、国家重大会议、活动等特殊时段前,按照用户要求及时完成巡检,并提交巡检报告,并解决相关问题及故障。如需专人值守,客户需至少提前3周与授权服务商客户服务经理联系。对每位合约客户,授权服务商均需按事先
22、合同约定提供专人值守服务。客户如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。3.2.4 设备搬迁、业务割接支持服务当客户有机房设备搬迁、业务割接等服务需求时,投标方按照标准流程提供技术支持服务,根据用户提出的需求提供至少一名技术工程师进行现场服务,以保障搬迁和割接工作的顺利进行。前期准备1、确认当前以及新机房设备的摆放在进行设备统计时,同时也应该根据主机统计的情况绘制形成一套当前设备机房摆放图纸。与此同时双方应勘查新的机房环境,特别要注意的是新机房的空间,电力,网络线路走向这几个要素。当前机房设备摆放图此次搬迁涉及的主机设备当前位置的简图。它的作用是事先核查好设备放置的位置
23、,有助于搬迁的顺序规划和查找。新机房设备摆放图设备搬迁入新的机房后的摆放位置简图。它的作用是合理的规划使用机房摆放空间、预留操作维护空间、为各类线缆数量长短布置的制作起指导,为制定每个设备搬迁顺序提供依据。具体到每台设备摆放到具体的机柜的具体位置(精确到上到哪个位置)。2、统计搬迁的设备情况我们会根据设备和应用系统的重要情况,对相关系统进行分类,合理安排搬迁计划和应急策略。3、搬迁设备地址变更及备份恢复测试建议用户在设备正式搬迁前,将相应系统的IP地址变更为新规划地址。这样也能减少搬迁时刻的时间压力。由于系统已经运行很长时间,我们建议在对系统做地址变更的同时,完成系统的停止服务、启动服务、开关
24、机演练。同时为了保证备份系统的可用性,我们建议对相关的备份系统做一次恢复演练,以防止由于设备或系统损坏后系统数据恢复不了的问题。主要内容包括:备份恢复演练计划在某个周末进行,从周五下班开始到下周一上班前完成;各个应用系统按照备份要求做一次全备份;备份完成后,按照正常操作流程,停止应用服务、关机、开机;变更系统IP地址,调整相关配置;恢复备份系统;按照应用集成商提供的测试方法对应用系统进行简单测试,以测试应用系统及相关数据是否恢复正常;及时发现和解决问题,总结和归纳,以进一步完善搬迁操作流程;具体的IP地址变更及备份恢复系统的操作流程,由应用系统负责方提供并实施。4、搬迁机房环境勘查l 确定机房
25、环境准备情况;l 确认新机柜位置及机柜内电源到位情况;l 电源提供是否符合要求;l 线缆连接情况确认;l 网络准备情况及相关的安全策略设置等信息;l 搬迁设备运输线路勘查,制定出最佳搬迁路线。系统备份在正式搬迁之前,我们要对需要搬迁设备的系统进行一次全备份。具体的备份方法根据应用系统各自的特点和要求不同而不同,原则上由相应的维护单位来完成。对于那些没有备份系统的应用,我们会根据应用系统的具体情况,采用数据备份的方式,将应用系统一些关键的应用备份出来,以保证应用系统的备份恢复。对于操作系统数据备份,主要备份各个主机操作系统,方法一,为硬盘的Clone,即制作一块与现有的操作系统盘一摸一样的镜像盘
26、,在现有的操作系统出现问题时只需更换硬盘就可以恢复系统正常启动使用。方法二,使用tar技术对/root目录进行备份,存入硬盘,如果系统出现不稳定或异常,只需解tar即可恢复。移机操作1、协商沟通会议在正式搬迁前,将相关各方召集起来召开协商沟通会议。对搬迁中的相关问题最后确认落实。2、通告用户系统通知全体用户,系统计划停止对外服务的时间和预计恢复时间,在此期间需要用户在服务停止前将各自与系统相关的文件数据进行在各自主机上的本地备份和保存。3、停止应用服务及关机按照应用系统停止服务的操作流程,停止相关应用服务,关闭电源。4、设备断电、下架、包装、编号设备断电工作,由设备的供货商负责执行。主机设备供
27、应商检查自己的主机系统,确认可以断电后,进行操作。以下几点:搬迁时需要注意 正确关闭电源顺序 关闭操作系统 关闭主机电源 关闭外设电源 (如磁盘阵列,磁带库等); 关闭其他设备电源和机柜电源 关闭总电源。 防静电工作虽然计算机是靠电力工作的,但静电却会给计算机带来致命伤害,尤其是可能对主板芯片造成永久性损坏。静电产生的原因很多:各种电源设备可能产生静电,计算机显示器可能产生静电,工作中的手机、对讲机也会在周围空间产生大量的静电,这就要求我们要特别小心静电的干扰,全面预防。尽量使服务器及其周边设备的接地良好。如果设备没有接地,当我们要接触里面的板卡时,应先用接地导线或其他放电设施对其进行放电。对
28、设备进行操作时,应配戴防静电手套,如果没有的话,也可以用手触摸一下机箱外部的金属来放掉自身携带的静电。此过程主要是耐心和细致,并且需要合理的现场指挥,这时需要双方的技术人员通力合作,总集成商与客户领导现场指挥,所有设备供应商与设备搬迁项目组成员负责具体实施工作。设备下架、包装、编号工作,由物理运输的小组负责。设备运输组在主机设备完全断电后,开始按照操作流程的规范说明,进行设备下架、包装编号,编号按照前期准备阶段规划的进行。我们的目标是:掌握原有的主机设备情况,力求要做到每一条物理,逻辑的线缆,专线都心中有数,所有设备的配置,每个接口都要一清二楚。所有包装箱都要按照规范编号,标注;所有主机设备,
29、线缆都要贴标签;所有接口的配置,说明都要有文字上的说明。每台机器运输之前都要按照制定的规范标准贴好标签,特别是多端口的机器,每个接线端口都贴上标签,与接线的另一端相对应。最后,对设备标识完成后,注意做好标识的备份工作,以备设备重装时核查。 5、设备装车和运送此过程仍然主要是耐心和细致,并且需要合理的现场指挥,设备的装车原则应遵照后进机房的先装车,先进机房的后装车。同时投标方项目实施组以及用户设备搬迁人员将会安排专人全程押送跟车,确保运输途中如果出现问题可以及时解决。6、设备的开箱,上架设备搬运到新的机房后,首先确定设备的放置位置,检查电源等相关事宜是否做好,最后,进行物理连接。注意事项:区域规
30、划:在设备安装时,最好按网络拓扑结构进行区域的规划,并为以后的扩展保留空间和相关接口。对机柜进行有效的固定。机柜不能是直接摆放在静电地板上,而要进行有效的固定,这样安装才可靠。 不同的物理设备,根据机柜情况和上架辅材将机器设备进行上架。进行设备的物理连接,连接网络连接线缆、连接存储线缆,连接键盘鼠标、连接电源线、连接KVM系统等。系统恢复系统的恢复包括服务器主机系统、网络设备和数据库系统的恢复、应用软件系统的恢复、数据的恢复、网络通信的恢复等,所以有效的系统运行恢复是这几个部分整体的有效恢复,否则系统恢复可能是无效的。必须制定相关的严密管理制度和操作流程规范。1、环境的恢复环境的恢复包括:电力
31、情况确认,设备摆放位置确认(机架空间分配,机架强度确认),各种线路终端连接准确到位,网络环境具备等内容。电力情况确认:测试UPS输出后到达机架最终给各个设备进行供电的线路电源电压,电流的稳定情况,零地电压,火地电压情况,设备电源接口类型,确认电源连接。摆放位置确认:机架空间应在设备运输之前合理的分配完毕,各个空间是否已经安装好设备托架,如果设备自带上架导轨应及时安装。每个机架空间均应该帖上标识,以便设备上架时不会出现装错的混乱情况。线路终端确认:根据具体摆放的设备确认网线,光纤线,电源线的数量并连接到位。网络环境确认:相关配置参数已经提供,相应的网关设置已经完成,DNS配置也已经完成,具备网络
32、联通环境。2、设备系统的恢复开机操作:1.打开总电源;2.打开计算机机柜电源;3.打开外部设备电源(如磁盘阵列,磁带库等);4.待外部设备自检完成后,最后打开主机电源。主机加电启动,需要技术人员全程跟踪主机设备的启动情况,详细观察系统启动时的每一个设备启动信息,如果出现问题及时诊断,排除。系统启动后,对系统的各个关键功能进行测试:网络连通情况,ping测试,telnet测试,ftp测试I/O功能测试,对硬盘,磁盘阵列进行读写操作,确认各个存储的情况3、应用系统恢复按照正常流程启动相关应用服务。这个启动服务流程,严格按照操作流程来启动服务。4、系统测试应用系统恢复后,要进行应用测试,检查系统是否
33、运行正常,是否能够正常提供服务。主机系统及应用恢复后,系统观察期,观察期内设备配置可能会进行多次更改,设备也可能因为搬运造成工作不稳定的情况,这些问题都需要一个观察期进行发现和解决,所以投标方的技术组和用户的技术人员应该向用户做出说明,在此期间,系统的服务处于不稳定期,希望用户多加理解和支持。搬迁工作验收系统试运行期结束后,开始与用户一起进行系统的验收。投标方公司负责提交验收报告以及测试方案给用户搬迁项目负责人员。 审核通过后,开始执行验收。验收测试完毕,将移交所有的搬迁文档资料、各个硬件供货商以及软件开发商的搬迁资料汇总,一起提交给用户的搬迁负责人员。最后签署搬迁项目验收报告。3.3基础运维
34、服务管理流程基础运维管理是整个项目成功的关键,也是为满足客户IT运维服务管理体系,将ITIL标准融入服务规范中,规范标准的运行维护管理流程,保证运维服务工作的流程化、规范化和合理化的需要。我们认为基于ITIL的服务管理流程,是在充分沟通的基础上,进行了实地调查后,才能够制定出满足客户实际需要的切实可行的流程。因此实施整个机房服务管理体系建设,应分阶段分步骤的完成。投标方将在本项目运维中按照ITIL标准提供相应的服务及驻场管理。整体服务流程:3.3.1 运维服务方式投标方建议用户采用的服务方式为两种:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。技术人员现场值守运行维护服务的基本操作
35、流程如下图所示:定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:3.3.2 服务管理制度规范l 服务时间(1) 接收服务请求和咨询:每周一天8 小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。(2) 在非工作时间设置有专人7*24 小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24 小时机房监控人员的机房突发情况汇报。(3) 服务响应时间:故障级别响应时间故障解决时间I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。1小时 12小时以内II级:属于严重问题;其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影
36、响正常业务运作。2小时12小时以内III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。4小时12小时以内IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。4小时 48小时以内技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于6小时内解决故障,投标方将在8小时内提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。l 行为
37、规范(1) 遵守用户的各项规章制度,严格按照用户相应的规章制度办事。(2) 与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。(3) 出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。(4) 现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电话时要文明礼貌,语言清晰明了,语气和善。(5) 遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。l 现场服务支持规范运维服务人员要做到耐心、细心、热心的服务。工作要做到事事有记录、事事有反馈、重大问题及时汇报。严格遵守工作作息时间,严格按照
38、服务工作流程操作。(1) 现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严谨、规范;现场支持时必须遵守用户单位的相关规章制度。(2) 现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的前提下开展工作。 (3) 现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并及时上报负责人,寻找其他解决途径。(4) 故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出人和问题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和解决技巧。l 问题记录规范根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现
39、场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要项目组的分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:(1) 问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系统缺陷类问题提交单,提交服务支持中心。(2) 问题分析。服务中心接到用户提交的问题单,要组织相应人员对问题单中描述的问题进行分析研判,确定问题的类型(技术问题、业务问题
40、或者操作问题)。属于技术问题,提交服务中心技术人员对存在的问题提出具体的处理意见和建议;属于业务问题,提交服务中心业务人员进行处理;属于操作问题,可安排相关人员对问题提出人进行解释,并将系统缺陷类问题提交单转为系统咨询类问题提交单。(3) 问题确认、解决。服务中心的技术人员和业务人员收到系统缺陷类问题提交单后,对提交的问题进行归类汇总和分析、确认。可以解决的,明确问题解决的具体处理建议和措施,经主管领导签字同意后,交实施人员进行解决方案的实施。服务人员确认是否解决,并将解决方法附在系统缺陷类问题提交单上反馈给问题提出人员。(4) 问题上报。服务人员收到经业务或技术人员确认的系统缺陷类问题提交单
41、后,上报服务中心。(5) 问题回复。服务中心根据提交问题的进行分析,制定解决方案并进行实施的解决,同时做好变更记录。将解决方案汇总后及时向问题提交单位或问题交办单位作出回复,并将分析过程和问题产生原因一并提交。四 设备维保服务方案4.1设备故障级别定义及响应时限l 故障级别定义投标方根据客户不同的故障级别启动不同的服务流程,尽快修复故障,恢复设备正常运行。投标方工程师可通过电话指导、远程登陆或现场服务等方式进行故障修复,并保证满足双方约定的服务等级中相应故障级别的处理时限。投标方执行严格的故障级别响应制度,根据故障对业务系统的影响程度分为四个级别。硬件故障级别定义详细如下:故障级别故障现象典型
42、事件一级故障系统宕机或关键性故障导致系统不可用 系统中止 系统功能性故障导致数据丢失或系统不可用 系统功能性故障致使系统失效 系统故障致使关键任务应用程序重新启动二级故障系统性能严重损坏,但系统仍可正常运行。 应用程序较频繁地发生故障,未导致数据丢失 管理系统发生了严重的、但可预测的故障故障 系统性能严重降低三级故障系统运行正常,仅受到有限的影响。 系统温度报警 系统部分配置修改 心跳线部分损坏四级故障在产品功能、安装配置方面需要信息或支援。 系统权限问题 一些概念的解答 系统管理方面的问题l 服务响应时限投标方将在合同规定时间到达现场,并开始不间断工作,直到故障排除。对于影响业务的故障,在进
43、行故障处理时,投标方将优先考虑业务恢复,然后再彻底解决故障。本项目中将按照客户对要求负责的保修及技术支持服务,对所负责设备提供服务,提供7*24小时故障报修服务,30分钟内响应,工程师1小时内到达现场,投标方承诺:12小时内解决设备故障,即核心配件(本地存备件)12小时内更换完毕。 4.2电话技术支持服务投标方将提供724小时全国统一服务热线,针对遇到使用中的疑难问题或者设备出现不正常状态时进行解答,帮助客户了解其业务系统目前状况和可能存在的安全隐患等,并提出相应的可行性建议。我们的专职热线工程师将被安排坐席进行全天值班响应,在接到客户相关人员服务请求电话后根据故障级别30分钟内做出及时响应并
44、给出解决方案。当投标方呼叫中心座席工程师接到故障申告后,将首先听取客户现场人员关于系统设备的故障特征描述、当前环境状况、之前所完成的操作等详细信息情况。经过初步的情况了解、故障分析后,投标方一线坐席技术人员将帮助客户有关技术负责人或工程师进行故障定位、诊断、排除。神州数码锐行快捷服务全国服务热线:( 座机可以拨打免费电话:800-810-6661 密码:7653;( 手机用户请拨打:400-610-6661新疆浦汇信息服务中心:0991-88181354.3远程技术支持服务对于通过电话指导不能解决的故障,投标方在征得客户许可的前提下,技术支持工程师将通过远程终端登录手段,登录到故障设备,结合电
45、话沟通阶段所获得的故障状态信息,进行故障诊断,查找故障出现的原因,指导现场维护人员进行故障排除。客户负责在每个需要进行远程技术支持服务的服务器上,提供必要的远程技术支持所需局端设备如调制解调器、计算机等,为投标方技术支持人员提供设备服务器的网络登录密码、远程维护拨号上网电话号码、设备服务器的IP地址、专属设备操作员名及登录密码等信息,并在现场协助。投标方提供远程支持所需软件。投标方在远程接入后的所有动作,均由客户管理人员进行相应权限批准后才会执行,并且在确定故障原因、准备进行故障排除时,投标方技术人员会根据实际情况制定相应的故障解决方案,待由客户审核批准后,单独(或与用户技术人员共同)实施完成
46、故障排除操作。等候客户指令的时间,不计为故障的解决时间。按照客户要求如果远程2小时内无法排除故障的,必须安排熟悉系统的工程师在1小时内赶赴现场进行及时处理。4.4现场技术支持服务对于电话/远程接入支持不能解决的事项,投标方将为客户提供技术支持服务。当投标方接到客户的故障申告电话后,第一时间提供实质性响应。当投标方工程师在经过判断,确认通过电话、远程接入支持方式无法解决问题的情况下,将在1小时内安排经验丰富的技术工程师现场响应,提供现场技术支持。投标方的服务人员在处理故障时在故障处理时有客户系统维护人员在场协同,在必须进行系统重装或系统启动等较大操作时,投标方将在得到客户系统主管批准后方可实施,实施期间二线专家将提供远程或现场支持保障。投标方的服务人员在处理故障后,将向客户维护人员解释故障原因和解决方法,以及在日常维护中的预防措施。4.5设备巡检服务为了让客户及早预知设备故障、及时排查潜在隐患、减少设备发生故障的概率,通过系统调整等手段,减少设备发生故障的概率,保证设备稳定、高效运行。除了主场人员定期对设备的巡检外,投标方还可以为客户本次参保的设备提供现场健康检查服务,定期