中国移动MISC系统应急容灾方案.ppt

上传人:laozhun 文档编号:2671786 上传时间:2023-02-22 格式:PPT 页数:32 大小:1.34MB
返回 下载 相关 举报
中国移动MISC系统应急容灾方案.ppt_第1页
第1页 / 共32页
中国移动MISC系统应急容灾方案.ppt_第2页
第2页 / 共32页
中国移动MISC系统应急容灾方案.ppt_第3页
第3页 / 共32页
中国移动MISC系统应急容灾方案.ppt_第4页
第4页 / 共32页
中国移动MISC系统应急容灾方案.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《中国移动MISC系统应急容灾方案.ppt》由会员分享,可在线阅读,更多相关《中国移动MISC系统应急容灾方案.ppt(32页珍藏版)》请在三一办公上搜索。

1、中国移动MISC系统应急容灾方案,提纲,总体目标及概述,单节点应急方案,业务旁路应急方案,浙江应急演练介绍,总体目标,制定容灾备份应急调度的重要性数据网系统作为移动数据增值业务是公司新的业务增长点,在业务发展期,保证稳定的业务质量是对业务发展的必要支撑;数据网设备相比传统的G网设备,其稳定性较差,发生局部或全部故障的比率较大,需要利用全网资源进行灾备和应急调度;系统应急方案的原则和特点业务恢复时长尽可能短;业务表征尽可能保持不变;导出、导回的操作难度和对业务的影响需要总体评估;对用户的感知影响尽可能小,对用户产生的投诉处理尽可能清晰、明确;灾备应急方案实施层面:系统内进行灾备应急省内系统间灾备

2、应急省际系统间灾备应急原则上先系统内、再省内、再省际,概述,概述MISC系统目前承载梦网SMS、MMS、WAP业务,在防止SP欺诈,提高客户满意度方面起到重要的作用。为了提升MISC系统总体稳定性,中国移动集团公司网络部制定了MISC容灾方案及应急预案。给出在系统各个环节出现问题情况下制定相应的处理手段和策略。范围本文对MISC需要考虑的绝大多数可能的灾难情况和需要作出应急处理的情况给出解决方案。,MISC系统应急方案处理原则,MISC系统应急演练方案分为两部分:1、MISC系统内部应急方案2、MISC系统旁路应急方案应急处理原则:1、MISC系统在采取应急措施时,应首先采用内部应急方案恢复业

3、务。2、在内部应急方案在短期内无法回复业务时,应实施MISC系统旁路应急方案。,提纲,总体目标及概述,单节点应急方案,业务旁路应急方案,浙江应急演练介绍,单节点组网情况,对于单点MISC系统的故障可以分为:硬件环节、软件环节二类:硬件环节:网络设备(防火墙、交换机)服务器磁盘阵列光纤交换机,软件环节MISC应用层:前置机、Kernel业务应用层:WWW PORTAL、WAP PORTAL、WTBS、SSOORACLE数据库 中间件:BEA Tuxedo、Weblogic单点MISC系统故障主要通过设备双(多)机冗余实现容灾对于存储和数据库,通过建立容灾数据库实现容灾,单节点组网情况(设备冗余)

4、,MISC系统设备冗余备份网络设备(防火墙、交换机)MISC前置机、MISC核心服务器WWW PORTAL、WAP PORTAL、WTBS、SSO数据库服务器 磁盘阵列 光纤交换机,双机冗余,单节点组网情况(容灾数据库),主、备存储之间定期进行数据同步。通过采取双存储、双数据库实例方式,当任何一台数据库发生故障时,业务不中断。当阵列发生故障时,可以在30分钟内切换到备库。当系统数据库持续三十分钟不可用,经过初步判断预计恢复时间将大于三小时,将启动容灾数据库方案。,数据同步,Primary Site,FC,Secondary Site,FC,SAN Network,DB01,DB02,DB03,

5、DB04,单节点组网情况(数据异地存放),数据备份定期执行异地数据备份。与财务报表相关的数据备份,其内容为MISC数据库的原始数据和话单文件。实现方式是磁带备份,异地存放,由异地数据备份执行人定期执行异地(至少应在距离150米的不同建筑物)存放,实现数据的安全存放。,提纲,总体目标及概述,单节点应急方案,业务旁路应急方案,浙江应急演练介绍,全网组网情况,系统组网全网MISC由中央及31省MISC节点组成,各节点之间相互连接,呈网状组网结构,各省ISMG、WAP GW等网元与本省MISC连接。业务鉴权对于本地业务由本省MISC完成用户及定购关系鉴权;对于全网业务,由用户归属地MISC完成用户及定

6、购关系鉴权。数据存储各省用户数据存放在用户归属地MISC,全网业务数据存放在各个MISC,本地业务数据存放在业务接入地MISC。,全网组网情况,MISC省MISC负责本省梦网短信、WAP、彩信等业务鉴权,若省MISC发生故障,将导致本省用户访问全网、本地梦网业务出现异常。WAP全网WAP业务集中在中央接入,本地WAP业务在所在省MISC接入。若中央MISC系统发生故障,将导致全网WAP业务出现异常;若省MISC发生故障,将导致本省WAP业务出现异常。,MISC系统旁路应急方案,在MISC系统无法实现鉴权功能,即MISC系统完全失效的情况下采用旁路应急方案。,SMS业务应急方案描述,短信业务旁路

7、MISC系统,该方式总体思路是当DSMP系统失效时,在业务网关上直接将SP业务设置为可信任SP业务,即无需通过DSMP系统鉴权,使业务旁路DSMP系统,维持业务在连续性上的要求。,SMS业务简要流程,现有梦网数据业务简要流程(以下的简要流程仅将最关键的步骤抽取,只关心旁路措施影响到的重要步骤)(1)SP发起:SP发送业务梦网业务网关DSMP系统鉴权通过用户接收到SP业务;(2)用户发起:梦网用户发送定购请求梦网业务网关DSMP系统鉴权通过用户成功定购SP业务;如果DSMP系统失效,那么按照现有信令规则,业务流将不会自动旁路,SP和用户的业务流程将中断。在此情况下,为保证业务正常提供,可以在梦网

8、业务网关直接将SP设置为可信任的SP,即该类SP无需通过DSMP系统进行鉴权。旁路后简要梦网数据简要业务流程(1)SP发起:SP发送业务梦网业务网关用户接收到SP业务;(2)用户发起:梦网用户发送定购请求梦网业务网关梦网业务网关将定购请求直接发送给SP判断(此步骤需要SP进行判断,SP侧有可能不支持);,梦网业务旁路应急预案触发条件,触发条件:DSMP系统中断业务超过60分钟,并且预计恢复时间超过120分钟(考虑到DSMP系统比较庞大,启动业务时间较长)。前提条件:i.已经确定旁路时是否所有SP都需要旁路(即旁路策略);ii.已经确定旁路时,配置旁路数据的SP的顺序;iii.集团公司层面已经允

9、许在应急条件下进行旁路操作;更改后会改变现有的梦网数据业务流程,另外此措施还涉及到网络系统侧的调整。采取该措施之前,务必需要集团公司的许可和协调。,梦网WAP业务和梦网彩信业务,彩信业务无法旁路,需要系统改造支持。(已提出系统改造需求)如果DSMP系统整体失效,梦网WAP业务无法旁路。因梦网WAP业务直接由DSMP系统承载,如果DSMP系统整体失效,梦网WAP业务无法提供。对梦网WAP业务的保障通过镜像方式可以实现WAP Portal和WTBS的镜像切换。,全网组网情况(WAP镜像),WAP镜像通过WAP网关配置域名动态解析,将全网WAP业务访问从中央站点分流到各个省站点当中央站点发生异常时,

10、可由各省站点快速恢复业务。当省站点发生异常时,可以将业务切由中央或其他省点处理。通过实施WAP镜像,实现WAP业务的异地容灾。当故障时间持续三十分钟不可用,经过初步判断预计恢复时间将大于三小时,将启动完网WAP业务异地容灾方案。,提纲,总体目标及概述,单节点应急方案,业务旁路应急方案,浙江应急演练介绍,浙江MISC系统容灾演练方案,系统内部:浙江MISC系统从组网结构上采用了负载均衡结构,系统内部某一设备发生异常系统依然可以正常承载业务。系统外部:发生特殊事件MISC系统无法正常承载业务,其他外部相关网元采用旁路功能最大限度的保证业务不受影响。,方案简介,浙江MISC系统承载着浙江SMS、MM

11、S、WAP等业务业务。由于MISC系统采用的是负载均衡的组网架构,因此当MISC系统内部网络、主机单台设备发生异常后,MISC系统依然可以正常承载业务。当MISC系统存储或者数据库发生异常,将启动容灾数据,通过修改MISC应用数据库连接将应用切换到容灾数据库最大限度的保证业务正常运行。当浙江WAP系统由于异常原因不可用时候。修改浙江的域名,将改区域名指向修改到中央的WAP PORTAL。保证用户可以正常使用全网WAP业务,但及浙江本地WAP业务将无法使用。当浙江MISC系统不可用时,周边网元采用旁路功能保证业务可以继续使用。由于涉及的设备比较多,因此将整个演练分三次进行:网络设备、主机设备、数

12、据库。,网络设备应急演练,单台PIX防火墙故障:关闭主用防火墙,模拟单台PIX防火墙故障单台四层交换故障:关闭四层交换,模拟单台四层交换故障单台6509交换机故障:关闭主用防火墙,模拟单台6509交换机防火墙故障 以上测试均模拟的是设备单点故障,每一步测试完毕以后应恢复网络到正常状态才能进行下一步测试。,主机设备应急演练(1),单台WAP PORTAL主机发生故障 将一台WAP PORTAL主机网线拔离。模拟单台WAP PORTAL主机发生故障。其他WTBS,WWW,SSO操作方式类似。单台MISC.KERNEL前置应用发生异常 将一台MISC.KERNEL前置机网线拔离。模拟单台MISC.K

13、ERNEL前置机发生故障。,主机设备应急演练(2),单台MISC.KERNEL应用发生异常 1、将一台MISC.KERNEL主机网线拔离。模拟单台MISC.KERNEL主机发生故障。2、修改前置机的指向,将有问题的MISC.KERNEL机器隔离。具体操作如下:以misc16用户登录各前置机主机 修改misc_svr.ini文件,将红色标注的主机10.203.32.12删除 IP地址WSNADDR=/10.203.25.13:19684;/10.203.32.12:19684,数据库主备切换,将DB01机器的网线剥离。模拟主数据库DB01出现异常。此时数据库会自动切换到DB02机器。进行业务测试

14、。将DB01机器网线插回。模拟主数据库故障排除恢复。,数据库发生异常演练,启动容灾数据库。以oralce用户登录浙江MISC.KERNEL主机,修改tnsnames.ora文件 修改后,切换到misc16用户,运行stopall.sh停止MISC.KERNEL应用,运行tmboot-y,startall.sh启动MISC.KERNEL应用。停止BOSS相关接口进程修改Portal系统的数据连接:登陆console,主要包括www,sso,wap,wtbs,以SSO为例:进入/opt/aspire/product/sso16/sso01/ssodomain目录,运行 down脚本。进入/opt/

15、aspire/product/sso16/ssoadmin/ssodomain目录,运行down脚本。进入/opt/aspire/product/sso16/ssoadmin/ssodomain目录,运行start脚本。进入/opt/aspire/product/sso16/sso01/ssodomain 目录,运行 start脚本。其他产品,www,wap,wtbs跟sso类似。其他暂时不用更改(admin,1862,oam等)。,业务旁路,WAP业务 WAP PORTOL/WTBS发生故障时,通知WAP网关将浙江WAP镜像上的业务倒到中央DSMP。短信业务容灾 MISC系统短信业务发生中断

16、时,通知短信网关将业务量位于前10SP在网关上的属性设置为“可信任SP”-不经过DSMP处理。,浙江应急演练总结,从总体上讲,本次应急演练是比较成功的,根据方案操作,能确保DSMP在不同故障情况下不中断业务,但是仍存在一些细节问题:1、卓望原应急方案中指出当kernel故障时,不需要手工屏蔽该kernel,前置机能自动识别,但在实际操作中,需要修改前置配置并重起前置机。2、数据库容灾方案虽然可行,但需要修改的配置文件和重起的设备台多,即使是操作熟练也需要将近2个小时。以浙江4台kernel、2台www/sso、2台wap/wtbs,共要修改12个配置文件(www/sso、wap/wtbs的weblogic配置是独立的),重起20个进程,平均每次重起在5分钟左右。希望在今后,卓望能对进一步优化系统:如前置能自动识别并旁路故障kernel、配置文件的修改及进程的重起能通过SOMP完成等。使容灾方案更具有可操作性。,通过MISC OMC实现数据库应急切换,通过MISC OMC实现前置机切换,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号