中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt

上传人:仙人指路1688 文档编号:2815977 上传时间:2023-02-25 格式:PPT 页数:29 大小:2.68MB
返回 下载 相关 举报
中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt_第1页
第1页 / 共29页
中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt_第2页
第2页 / 共29页
中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt_第3页
第3页 / 共29页
中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt_第4页
第4页 / 共29页
中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt》由会员分享,可在线阅读,更多相关《中国移动拓展思路勇创新实现应急保障早、快、小(1).ppt(29页珍藏版)》请在三一办公上搜索。

1、拓展思路,勇创新,实现应急保障“早、快、小”,汇报内容,总体介绍,管理流程及组织方案,应急保障关键技术介绍,应急保障案例及成效,后续思路,应急保障系统的建设理念,应急保障系统的建设,首先要明确系统“保什么、怎么保、追求什么”。我们认为一个完善、高效的应急系统应具备以下特点:,浙江公司应急保障系统具备处理故障时“发现早、响应快、影响小”等能力,及时、快速,分层分级,重点业务重点保障,总体能力及时发现问题快速定位问题快速处理问题系统快速恢复,分层依据系统每层架构特点,构建不同的应急保障方案;实现应急保障体系的多样化、立体化分级不同重要等级的业务系统,采用不同级别的应急保障机制实现资源使用效益的最大

2、化,业务分类根据不同业务特点及保障需求,制定不同的应急方案实现前后台业务部署分离,单笔业务与批量业务部署分离重点保证重点保障前台业务、客户主动发起业务实现业务应急保障主次有序,重点突出,管理高效,应急保障系统建设现状,核心业务系统均建设了对等的同城异地应急容灾系统,核心系统组网现状,采用的应急容灾核心技术方案,应用服务集群部署技术:借助智能DNS,实现应用服务与前端WEB服务间的多路访问模式(类似TAF技术)实现应用服务数据库访问的自动重连,存储底层数据复制技术:关键业务系统的数据库存储采用底层数据复制技术(HP CA),保障数据准实时同步到容灾系统,数据库多节点集群技术:数据库采用ORACL

3、E RAC+TAF集群模式,实现节点的自动切换,增强本地数据访问的高可用性,数据库系统容灾自动监测分析及切换技术:采用突破性的创新理念及技术,实现系统健康度的自动监测,并依据结果实现容灾的自动切换,借助负载均衡器及智能DNS,实现前端WEB服务的集群部署,主备节点自动、快速切换针对关键类业务,提供轻量级的应急系统,实现快速切换,汇报内容,总体介绍,管理流程及组织方案,应急保障关键技术介绍,应急保障案例及成效,后续思路,依托完善的应急保障管理体系,确保系统的快速恢复,完善的组织职责设置,全面的业务影响性分析,完善的恢复策略设置,有效的计划测试、培训和演习,标准的灾难恢复流程定义,浙江公司已构建了

4、较为完善的应急保障管理体系;体系中的每个环节都有相应的执行文档,已经规范化的实施流程,评估各类应用系统和服务流程,决定其对公司的业务重要性评估灾难或服务中断带来的成本损失 定义应用系统和业务服务流程的恢复优先级,清晰定义各类关键业务系统的RTO、RPO指标明确规定备份的频率、方式制定容灾点选择标准按照高性价比的原则选择出最优的恢复策略,灾难恢复流程划分为以下阶段:通知启动阶段恢复阶段重建阶段关闭阶段,制定测试计划内容定义测试计划类型规范测试流程制定培训计划定义演习内容规范演习流程,规划和建立应急保障管理团队制定其组成结构和其相应的角色、职责、岗位人员明确其灾难或重大故障是的沟通模式,浙江公司应

5、急保障管理体系已通过了ISO20000认证,应急保障组织的设置方案,在规范的管理体系中,每个环节都有标准执行文档,基于灾难恢复流程,科学有序的实施应急保障,信息技术中心根据集团公司和浙江公司业务连续性计划,充分支持业务的需求和需要来规划应急保障管理流程。设置了专门的应急组、应急角色,并制定了科学的灾难恢复流程,基于规范化流程,确立了与其他部门间的沟通机制,公司各部门间的应急保障主控流程,各部门职责:市场部:危机应急方案的业务总调度;和信息技术部讨论后决定启用什么样的应急流程;信息技术部:危机的准确诊断;危机诊断信息的及时报告;涉及到技术层面的危机修复 客户服务部:服务应急方案(包括营业厅通告、

6、解释口径制定等)的及时调度客户服务中心:危机处理应急流程的执行(例如:为用户提供紧急复机、跟用户做好相关的解释工作等)网管中心:协调地市网络部对地市市场部门提供的投诉用户进行及时复机,涉及相关子流程:危机信息上报流程;危机诊断和应急处理流程危机信息知会流程 处理进展信息知会流程,应急演练的常态化、规范化,有力保障了容灾切换的成功率,演练原则:为确保BOSS容灾系统层随时正常可用,需要增强操作人员对系统层容灾切换步骤的熟练程度,保证切换工作顺利,有序,高效的完成 演练范围:包括BOSS系统中已建设容灾的相关系统,根据后期容灾系统建设情况,调整相应的演练范围演练内容:抽查操作时,被抽查人根据指定的

7、系统,可参照操作手册进行操作,要求被抽查人能在具体操作中做到正确、熟练的执行相关步骤 演练时间:演练时间分为月演练和周演练 月演练指每月执行一次所有容灾系统的切换演练;周演练指每周执行一次指定容灾系统(演练范围中选定两个)的切换演练 演练人员:演练人员范围包括系统优化室主机组所有成员,演练过程记录表,规范全面的演练方案,有力保证了应急演练的效果,应急演练执行方案,涉及到的相关文档,15,构建应急预案库,完善应急保障处理机制,针对每类故障类型、来源、以及业务场景,构建对应的预案关联信息,规范每种故障、灾难的处理流程、提升应急保障的响应效率,以及保障实施的准确性目前预案库主要涵盖了安全,网络,硬件

8、设备,应用软件,备份,机房,电源安全等在定义应急预案时,也同时制定相应的演练措施,并定期实施应急演习,应急预案库包含的应急方案及预案类别,应急预案启动条件及执行人,汇报内容,总体介绍,管理流程及组织方案,应急保障关键技术介绍,应急保障案例及成效,后续思路,借助BAM系统,及时预见系统潜在故障,全路径全流程-全地域全用户立体监控,业务层:IT部门管理者将重点关注逻辑层:应用维护和优化人员关注整个应用系统的状态物理层:配置管理员了解物理设备的存放位置和信息,性能数据:实时KPI数据,帮助了解系统状态配置数据:帮助了解配置信息以及变化告警数据:按照设定阈值产生告警信息。帮助运维人员快速判断系统故障,

9、借鉴TAF实现机制,实现从应用层到数据层多通路间的透明切换,透明应用切换技术(TAF):是指“应用程序数据库”连接的自动切换和重新连接,而这一切对客户端应用均为透明。我们创新性的将此理念运用到前端应用服务之间的访问连接上,通过成功整合Oracle数据库和Tuxedo中间件的TAF技术,构建出了“三层架构环境下的透明应用切换”的高可用系统,大大增强系统应急容灾能力,减少了应用切换时间,构建数据库容灾自动监测分析及切换平台,实现电信级的业务连续性,针对数据库系统的容灾,构建自动监控分析及切换控制平台,实现对生产系统和容灾系统运行状况的监测,以及故障发生时的指标数据采集,并最终依据容灾切换计算公式,

10、给出切换概率及建议。同时能够自动实施容灾切换操作。采用上述技术后,浙江公司BOSS容灾切换时间平均由1.5小时缩短到5分钟,平台监测功能:对生产系统,主要监测其是否会产生需要进行容灾切换的故障的趋势对容灾环境,主要监测系统的软硬件配置等,是否和生产环境相同,以保证在切换时,容灾系统完全具备切换条件采集生产系统和容灾系统的运行指标,并综合分析整个系统需要切换容灾的可能性,容灾系统是否具有切换条件等综合因素,给出最终容灾切换的概率自动切换功能 通过配置,支持自动或者手工启动来实施容灾切换 该平台向生产系统和容灾系统下发一系列的控制命令,并由生产系统和容灾系统进行自动的切换,所有操作均自动完成,降低

11、对切换过程中工程师个人能力的依赖,应急子系统的建设情况,为了进一步提升BOSS业务服务的连续性运营能力,构建了专业化的应急小系统,提供充值卡充值、缴费、开户、补卡、充值、缴费开机等前台业务的应急受理。应急小系统的建设有效完善了应急保障体系的阶梯化组成机制,提供各类应急处理流程,确保系统故障期间客户关键业务的不间断受理,主要建设方案采用数据库BCV技术,周期性(1天)复制生产数据到BC数据库中,并以BC库为应急数据库根据每类业务的应急处理流程单独实现应用服务,并独立部署为每类应急业务提供特殊的前台WEB服务,并部署在WEB集群主机上提供应急业务数据修复功能,实现客户应急数据同步到生产库中技术特点

12、 应急服务与正常服务分离部署,相互影响较小应急状态下,只需调整智能DNS域名配置,将正常前台域名指向应急服务地址,即可完成应急切换,其时间可控制在1分钟之内,借助应急子系统,实现快速、轻量级的业务连续性保障,应急系统提供开户、补卡、充值、停复机和资料查询服务;应急系统所有界面布局和操作风格完全同目前营业系统的界面风格;使用应急系统前,准备工作:给应急系统号码库存发放应急系统启用后需要使用的号码资源;需要为营业厅准备实物的SIM卡库存,以便应急情况下开户和补卡使用;,汇报内容,总体介绍,管理流程及组织方案,应急保障关键技术介绍,应急保障案例及成效,后续思路,借助规范化管理以及创新技术应用,应急保

13、障系统的总体实施成效,数据库多节点TAF技术的运用,有力保障系统连续性运营能力,28%,36%,采用TAF技术,在故障发生时只要不是所有节点同时出现问题,业务就可以继续进行如果是个别数据库节点出现问题,只有技术人员会通过监控系统发现问题,前台业务人员甚至毫无感觉,往往连报障都没有根据统计,从改造上线以来,营业系统的计划外停机时间降低了28%,计划内停机时间下降了36%在TAF技术支撑下,进行系统维护时可以逐个重起数据库实例,该实例上的连接会透明切换到别的实例,对前台基本不造成影响,大大降低了维护操作的难度和代价,案例分析综合查询子系统的应急保障流程,一线人员报障,并联系接口负责人服务台发布故障

14、信息单到各个业务部门,以及地市公司接口负责人联系应急专家组,由专家组负责启动应急保障流程专家组确定应急方案后,在厂家人员配合下,实施应急保障在灾难恢复过程中,依据预定的部门间知会机制,定期告知业务部门灾难处理情况灾难处理完成后,在测试确认后,由服务台发布故障恢复信息单,告知业务部门及地市分公司,汇报内容,总体介绍,管理流程及组织方案,应急保障关键技术介绍,应急保障案例及成效,后续思路,应急保障的后续演进思路,系统体系架构方面借助”云计算“技术,实现从数据存储、数据库访问、应用中间件、到前端WEB部署,各个层面软硬资源管理的虚拟化构建“云平台”,实现系统应用服务的高可扩展性、高可用性利用“云平台”技术,实现应急保障的无缝、透明切换,后续演进思路(架构创新、管理优化),应急保障管理方面进一步优化管理流程,规范应急保障操作流程基于ITIL最佳实践,完善危机上报,识别,处理,升级,反馈,回顾等流程完善公司部门间的应急保障协调机制,提升危机事件处理效率,云计算技术架构的引入,将增强系统应急保障能力,Thanks,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号