《IT运维服务运营方案设计(推荐).doc》由会员分享,可在线阅读,更多相关《IT运维服务运营方案设计(推荐).doc(22页珍藏版)》请在三一办公上搜索。
1、IT运维服务部运营方案目 录1、部门宗旨32、业务范围33、运维服务管理体系33.1运维服务管理对象33.2 运维系统功能框架43.3运维管理组织结构43.3.1运维部负责人53.3.2总工53.3.3服务台63.3.4网络组63.3.5服务器组63.3.6桌面组73.3.7 IDC机房组73.3.8 各组组长73.4运维服务流程83.4.1项目运维服务工作流程图83.4.2服务台93.4.3事件管理93.4.4工单管理93.4.5问题管理93.4.6变更管理103.4.7配置管理103.4.8 工程师考核103.4.9知识库管理103.4.10统计及工作报告104、人员管理114.1轮岗原则
2、114.2工程师等级114.3晋升原则114.4绩效管理115、运维服务内容125.1服务目标125.2IT资产统计服务125.3网络、安全系统运维服务125.4服务器、存储系统运维服务135.5数据库系统运维服务135.6桌面、终端运维服务146、应急服务响应措施146.1应急预案实施基本流程156.2突发事件应急策略157、服务管理模式167.1服务模式167.2服务时间167.2行为规范161、部门宗旨立足集团()、结合集团()业务工作及信息化建设实际,完善运维管理体系的建设,加强运维人员梯队建设,加强信息系统正常运行保障,“以流程为导向,以服务为核心”提高服务质量水平、转变服务理念、拓
3、宽服务范围、提高服务效率、减少故障发生率,降低运维成本、提升用户服务满意度。2、业务范围基础业务: IT基础设施运维(校园网、视频监控网、广播电视网、电话网、服务器及终端设备等);应用软件系统运维。IDC机房运维;拓展业务:承接网络工程、运维项目;IT咨询服务等等。3、运维服务管理体系运维服务管理体系规定了IT运维活动涉及的各类实体,以及这些实体间的相互关系。相关的实体按照IT运维服务管理体系进行有机组织,并协调工作,按照服务协议要求提供不同级别的IT运维服务。3.1运维服务管理对象运维服务管理对象包括基础设施、应用系统、用户、供应商、以及IT运维部门和人员,具体内容如下:(1)基础设施包括网
4、络、主机系统、存储/备份系统、终端系统、安全系统、以及机房动力环境等。(2)应用系统包括内部办公、教学系统、门户网站、各类应用系统等。(3)用户包括使用如上IT应用系统的用户。(4)供应商包括基础设施和应用系统的供应商等。(5)运维部门和人员包括IT运维服务部及集团()内部参与IT运维活动的相关部门和人员。3.2 运维系统功能框架根据集团()的系统结构和业务开展需要,IT运维服务部将维护框架分为8个具体组成部分,分别为:服务台、事件管理、工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管理、统计等9个子项。而具体运维流程将以此为依据开展工作。3.3运维管理组织结构IT运维服务部的运维
5、管理结构位三层模式,具体如下图所示。由运维部负责人与集团()进行业务范围接洽,并签订外包协议,负责集团()整体运维工作,包括各种制度的制定和实施。各运维组组长负责本小组规范化、标准化建设,建立运维档案、知识库等,并带领小组成员进行运维工作。各小组成员在小组长的指导下开展维护工作。3.3.1运维部负责人职责:负责部门整体运营,规划、执行、完善信息化运维工作。职位描述:1、整体负责运维服务项目计划的制定,领导各组组长并安排运维工作,每周听取各组组长的工作汇报,负责考核各组组长工作完成情况。2、根据运维目标,指导各小组组长开展用户服务工作,确保运维工作能够满足用户的实际需要;3、建立和持续完善运维管
6、理体系,优化运维流程流程,解决运维服务中出现的特殊问题;4、规划并提升运维工程师专业服务能力,在整体上提高用户满意度;5、制定和持续完善绩效考核体系;6、制定整理运维项目的应急预案系统,并指导运维工程师实施;3.3.2总工职责:网络规划、网络建设方案制定,核心网络设备管理,对网络组工作进行技术支持。职位描述:1、 集团()通信网、电话网、广播电视网、监控网等网络的规划、建设方案制定。2、 网络核心设备(路由器、防火墙、交换机等)的运行维护与管理。3、 绘制网络拓扑图、制定网络核心设备配置参数信息档案、建立网络核心设备台账等。4、 对网络组工作进行技术支持与指导。3.3.3服务台职责:故障电话受
7、理,文档管理、人员管理、数据统计。职位描述1、 负责IT业务的救助电话的受理工作;2、 故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态;3、 进行维护故障统计、用户满意度统计、工作报表输出等工作;4、 协助部门负责人,进行文档整理、归类、保存等工作。5、 协助部门负责人,进行人员考核管理、工资核算等。3.3.4网络组职责:网络线路维护管理,维护集团()网络系统正常,解决网络相关故障,网络项目的建设等。职位描述:1、对现有网络设备(非核心)、局域网络及配线间的日常管理维护;2、保证外网光纤线路正常,保证局域网运行正常;3、对网络系统和网络设备的运行状态进行监控;4、保障通讯网、监控网
8、、广播电视网正常运行,及时解决故障。5、编写网络部分的应用处理预案并实施。6、网络项目的建设施工。3.3.5服务器组职责:服务器软硬件、操作系统、数据库、安全软件、应用系统等运行维护以及数据的安全管理。职位描述:1、监测服务器软硬件运行状况,性能监视及优化,作必要调整;2、及时处理服务器软硬件遇到的故障并做好记录;3、监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整,保证应用和数据库系统的安全性、完整性和运行效率;4、及时处理应用系统、数据库等遇到的故障并做好记录;5、制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;6、及时更新操作系统、安全软件等系统补丁,
9、保障系统的安全;3.3.6桌面组职责:维护集团()桌面系统运行正常,解决终端、外设故障,保障应用系统客户端正常运行。职位描述:1、各部门电脑、打印机、考勤机、消费机等的维护;2、ERP、CRP、一卡通等各应用系统客户端的维护、技术支持及培训工作;3、Windows、Office等及其它办公软件维护、技术支持及培训工作。3.3.7 IDC机房组职责:维护集团()桌面系统运行正常,解决终端、外设故障,保障应用系统客户端正常运行。职位描述:1、机房电力、精密空调、UPS等设备的监控、维护与管理;2、机房通信线路、网络设备、服务器等的日常监控、维护及管理;3、检查系统设备,排除安全隐患;4、分析系统日
10、志,及时发现异常现象;5、机房日常报表的填报与汇总。3.3.8 各组组长职责:各小组组长除具有本小组所有职责外还应该包括:制度建设、人员培训、设备管理等相应职责。3.4运维服务流程IT运维服务管理流程涉及服务台、事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供应商管理等,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。 3.4.1项目运维服务工作流程图3.4.2服务台服务台是支持IT运维服务的核心功能,与各个流程联系密切。所有管理流程都要通过服务台为用户提供单点联系,解答用户的相关问题和需求,或为用户寻
11、求相应的支持人员。 在本系统中,服务台是接收各种来源服务请求和相关信息反馈的唯一入口和出口,同时服务台还负责一般请求、通过知识库(历史事件)能够解决的请求;他也是复杂问题二线处理的桥梁。3.4.3事件管理事件管理流程的主要目标是尽快恢复IT服务提供并减少其对业务的不利影响,尽可能保证最好的IT服务质量和可用性等级。事件管理流程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和诊断、事件的解决和恢复以及事件的关闭。本系统把所有服务请求和报警归结为事件。事件管理是提供服务台和事件管理者对于事件记录、处理、查询、审核、派发等功能。它也包括通过和IT监控系统对接,把其发送报警形成事件的功能。3.
12、4.4工单管理工单管理:工单是IT现场运维、二线支持的任务载体,运维工程依据所接收工单进行IT运维工作。工单管理是对工单实现创建、变更、查询浏览、派发、监督等功能的模块。3.4.5问题管理问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,通过合适的控制过程,尤其是变更管理和发布管理,负责确保解决方案的实施。问题管理还将维护有关问题、应急方案和解决方案的信息。问题管理是针对已处理事件的遗留问题或处理事件的方案只是治标不治本的不能彻底解决问题而考虑的模块。根据事件、及处理方案,问题处理人经过调查、诊
13、断并提出最终解决方法。3.4.6变更管理变更管理实现所有IT基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。其主要目标是以对服务最小的干扰实现有益的变更。变更管理是要对重大IT资源的新增、变更、升级等IT运维活动进行审核的功能,以免这些活动对现有IT资源的可用性造成没有必要的影响和破坏;同时,他还要实现在工单中产生的变化进行后审计的功能。3.4.7配置管理配置管理流程负责核实IT基础设施和应用系统中实施的变更以及配置项之间的关系是否已经被正确记录下来;确保配置管理数据库能够准确地反映现存配置项的实际版本状态。 配置管理实际上是全部IT资
14、源的统一管理的功能,包括IT资源整个生命周期的参数或配置的变化记录的管理。管理信息主要涉及分类、型号、版本、位置,状态、相关资料等基本信息还包括核心参数等 3.4.8 工程师考核绩效考核可以加快运维人才的培养,提高运维队伍专业技能素质,充分调动运维人员的工作热情和积极性,提高工作效率,最大限度地提高部门整体效益3.4.9知识库管理知识库管理:知识库是提供给IT运维人员重要的技术资料内容,他汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料手册。在本系统中,知识库管理提供便于使用的人机接口、快速查询的技术手段和维护手段。3.4.10统计及工作报告运维管理系统提供一线解决率统计、客户满意度
15、统计、按分类的事件汇总统计、工作报告生成的功能,按照一定格式根据事件数据、工单数据、问题数据、配置数据、变更数据可以帮助运维管理者能把运维的所做的工作内容清晰的罗列出来。4、人员管理4.1轮岗原则全体运维部人员统一管理,运维工程师实行轮岗制,坚持多岗锻炼、全面培养、科学配置、优化结构的原则。 有利于管理技术人员多岗位实践锻炼,提高素质 有利于加强管理技术人员队伍建设,优化结构; 有利于增强管理技术人员队伍生机与活力,提高效率; 工程师通过轮岗认定合格,个人技术达到相应水平的可以获得所在轮岗小组相对应级别的技能认定,各小组的技能认定做为工程师晋升等级的必要条件。4.2工程师等级工程师等级按着IT
16、运维技能、工作年限、学历、专业等因素划分为技术员、助理工程师、工程师、资深工程师、主管工程师、高级工程师、特级工程师、专家级工程师、教授级工程师、首席工程。4.3晋升原则工程师晋升计划是为了完善人力资源成长机制,构建良性循环的人才梯队,实现部门可持续发展的目标。影响工程师晋升的因素包括:工作量、绩效考核成绩、IT运维技能水平、工作年限、特殊技能等。(具体见IT运维服务部工程师职称晋升管理制度)4.4绩效管理根据服务台、组长、组员等不同岗位提取考核指标,制定客观、明确的考核标准,选择科学合理的考核方法。绩效考核要做到:客观、公正、公开、公平、科学;真实、准确;民主与集中相结合;责、权、利相结合;
17、定性与定量相结合;考核方法要科学、可行;考核周期要适当;考核等级或计分要合理;考核结果要反馈;考核人员要合格、到位;考核要规范化、制度化。(具体内容需制定考核细则)5、运维服务内容5.1服务目标运维服务部提供的运行维护服务包括,信息系统相关的主机设备、操作系统、数据库和存储设备的运行维护服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备、通讯设备
18、、监控设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标: 运行状态、故障情况 配置信息 可用性情况及健康状况性能指标5.2 IT资产统计服务服务内容包括: 硬件设备型号、数量、版本等信息统计记录 软件产品型号、版本和补丁等信息统计记录 网络结构、网络路由、网络IP地址统计记录 综合布线系统结构图的绘制 其它附属设备的统计记录5.3网络、安全系统运维服务从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。 设备基础性能检测:cpu、内存使用情况监测; 设备日志查看;
19、 设备snmp状态; 测试Ping,tracert等工具的连通性; 网络安全策略应用是否正常; Internet带宽流量的实时监测; 网络拓扑链路状态监测; 异常网络数据包流量; Dos、ddos等网络攻击情况监测; Internet线路的误码率、丢包率监测;5.4服务器、存储系统运维服务提供的服务器、存储系统的运维服务包括:服务器、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。进行监控管理的内容包括: CPU 性能管理; 内存使用情况管理; 硬盘利用情况管理; 系统进程管理; 主机性能管理; 实时监控主机电源、风扇的使用情况及主机机箱内部温度; 监控主机硬盘
20、运行状态; 监控主机网卡、阵列卡等硬件状态; 主机系统文件系统管理; 监控存储交换机设备状态、端口状态、传输速度; 监控备份服务进程、备份情况(起止时间、是否成功、出错告警); 监控记录磁盘阵列等存储硬件故障提示和告警,并及时解决故障问题; 对存储的性能进行监控。5.5数据库系统运维服务提供的数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。进行监控管理的内容包括: 数据库基本信息:文件系统、碎片、
21、死锁、CPU占用率较大或时间较长的SQL语句。 表空间使用信息监测; 数据库文件I/0读写情况; Session连接数量监控; 数据库监听运行状态监测; 查看每日数据备份、数据同步是否正常; 报警日志监测; 对表和索引进行Analyze,检查表空间碎片; 检测数据库后台进程; 数据库对象的空间扩展情况监测;5.6桌面、终端运维服务负责对终端PC、笔记本以及工作站的操作系统、应用软件和硬件的维护,解决使用人员在应用过程中遇到的问题并进行简单培训,完成打印机、考勤机、消费机等其他终端的故障处理工作。6、应急服务响应措施运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。但在服务维护过程中,意外
22、情况将难以完全避免。我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。6.1应急预案实施基本流程已解决扩大应急发现故障启动应急预案,并通知领导按事件流程处理初步判定故障恢复联系技术支持处理联系开发人员或厂家工程师现场处理一般事件突发事件 总结,修订应急预案已解决未解决突发事件应急组未解决已解决汇报进度汇报进度汇报增援记录6.2突发事件应急策略(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关
23、注事件流程及进展情况,并做好登记工作上报领导。(2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动应急预案,并严格按照应急预案所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。7、服务管理模式7.1服务模式由IT运维服务部对整个集团现有IT资源进行普查,并根据普查结果并参考市场运维价格制定运维外包协议,价格至少要比市场价格低三分之一,由信息处牵头与IT运维服务部签订IT运维外包协议,根
24、据协议价格由集团按月拨付运维费用。7.2服务时间(1) 在工作时间内设置由专人职守的热线电话,非工作时间设置有专人7*24 小时接听的移动电话热线,接听服务请求,并记录服务台事件处理结果。(2) 服务响应时间:故障级别响应时间故障解决时间I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。10分钟,30分钟内提交故障处理方案4小时以内II级:属于严重问题;其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。10分钟,2小时内提交故障处理方案6小时以内III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。20分钟,
25、2小时内提交故障处理方案12小时以内IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。30分钟,4小时内提交故障处理方案24小时以内7.2行为规范(1) 遵守集团()的各项规章制度,严格按照集团()相应的规章制度办事。(2) 与集团()运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。(3) 出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。(4) 现场技术支持时要精神饱满、态度温和。接听电话时要文明礼貌,语言清晰明了,语气和善。(5) 遵守保密原则。对集团()的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。