《609故障管理与故障分析.ppt》由会员分享,可在线阅读,更多相关《609故障管理与故障分析.ppt(23页珍藏版)》请在三一办公上搜索。
1、中国科学院计算机网络信息中心 中国科技网 All rights reserved,中国科技网网络中心 运行部2009年9月9日,李宏Tel:,故障管理与故障分析,故障管理与故障分析,运维体制,故障申报,故障分级,故障管理,故障分析,典型故障,故障控制,中国科技网战略目标的转变工作重点由运维转向服务十二个地区分中心成立沈阳、长春、兰州、西安、新疆、上海、南京、武汉、广州、成都、昆明、合肥三级运维体制网络中心、地区分中心、所级网管,运维体制,网络中心与地区分中心、所级网管员一起共同承担运维工作向所级网管申报向地区分中心申报向网络中心申报,运维体制,北京网络中心7x24小时申报电话:58812000
2、Email:承诺一站式申报受理,故障申报,地区分中心申报热线沈阳:13840158799长春:13353296592上海:13381928555广州:13924182757南京:13705175463武汉:13995653371,成都:13388165490昆明:13888045157新疆:13999988220西安:13363907810兰州:13893315405合肥:13956058417,故障申报,特大故障,一级故障,二级故障,三级故障,故障分级,故障定义:特大故障是指全网瘫痪、核心网络部分瘫 痪、分中心节点网络瘫痪或50%以上用户 上网受影响的事件响应时间:立即响应处理要求:立即处理
3、故障上报:立即上报,故障分级,故障定义:骨干线路中断、国际线路中断、国内互联 互通线路中断、BGP中断或Ospf中断,核心网、分中心线路不可用,核心网、分 中心设备不可用,20%用户上网受影响的 事件响应时间:立即响应处理要求:立即处理故障升级:1小时未能解决,升级为特大故障,故障分级,故障定义:所级出口设备故障,所级出口线路故障,路由、病毒爆发等故障,影响全所上网响应时间:立即响应处理要求:立即处理故障升级:1小时未解决,升级为一级故障,故障分级,故障定义:线路丢包,个别网站不可达,以及其他非 中断性网络问题,网络基本可用响应时间:立即响应处理要求:立即处理故障升级:4小时未解决,升级为二级
4、故障,故障分级,故障管理,中国科技网与IBM公司合作,引进先进的ITIL标准的管理理念,开发流程管理系统,针对故障、配置以及工作流程等进行有效管理,故障管理,故障定级、录入短信通知故障处理记录故障自动升级故障统计报表故障排查数据库,故障分析,我们对中国科技网近期发生的故障进行了初步的统计分析,故障分析,1、以下故障仍然是故障的主要来源线路故障内网故障安全问题路由故障2、重大故障的原因运行商线路割接机房停电线路损坏安全(病毒、ddos攻击)3、机房环境故障成上升趋势供电、空调故障4、用户端发生的故障超过50%,故障分析,主动发现问题的能力大有改观,科技网仍将继续努力提高主动发现问题的能力,典型故
5、障,骨干网故障,故障描述:线路中断,路由器pos端口双down处理过程:1、需要单位网管员配合,首先检查两端设备2、向电信运营商申报故障3、打环测试,进行故障隔离定位排障总结:处理类似故障,非常需要用户端网管员配合如果配合及时,会大大提高故障处理的效率,典型故障,所级出口设备故障,故障现象:某独立所用户申报,所内用户上不了网处理过程:1、检查线路没有问题,远程登录路由器2、发现所级出口路由器上有大量NAT配置,引起cpu资源耗尽3、取消NAT配置,故障排除排障总结:这是典型的因用户在出口路由器上配置不当,引起故障 不建议用户在出口路由器上,做针对内网管理的配置,典型故障,内网设备板卡故障,故障
6、现象:监控发现,京区某用户网络中断处理过程:1、第一时间联系所级网管,确认是内网交换机板卡故障2、网络中心立即派出2名工程师,去协助所级网管处理故障3、更换板卡后,故障解决,并协助用户做内网优化排障总结:这是典型的互相协作,快速排障的例子,正式因为所级网管的快速定位故障,大大提高了故障处理效率,典型故障,小结,从以上案例我们可以体会到:科技网承担的运维工作很大程度上依赖于地区分中心、所级网管的工作一定要充分发挥地区分中心、所级网管的积极性,这样才能提高运维工作的效率各个运维单位应该互相协作、互相支持、积极配合,共同做好运维工作,故障控制,故障控制的目标:有效避免或减少故障发生提高故障处理效率科技网针对故障处理工作采取措施:7x24小时待机,及时上网,必要时立即赶到机房加强监控室的技术力量,有故障能第一时间处理加强故障管理,提高故障处理要求在网络维护和网络调整工作中,要求网络不断或瞬断,故障控制,故障控制的办法:1、合理设计,减少故障点,规避故障2、必要的备份设备、备份器件、备份线路3、必要的应急响应措施或方案,应对突发事件4、必要的网管软件,提高监控能力,及时发现故障5、重大节日、重大应用的保障,中国科学院计算机网络信息中心 中国科技网 All rights reserved,李宏运行部Tel:,感谢您长期的大力支持!,