山东移动告警关联总结.ppt

上传人:文库蛋蛋多 文档编号:2226365 上传时间:2023-02-02 格式:PPT 页数:42 大小:2.48MB
返回 下载 相关 举报
山东移动告警关联总结.ppt_第1页
第1页 / 共42页
山东移动告警关联总结.ppt_第2页
第2页 / 共42页
山东移动告警关联总结.ppt_第3页
第3页 / 共42页
山东移动告警关联总结.ppt_第4页
第4页 / 共42页
山东移动告警关联总结.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《山东移动告警关联总结.ppt》由会员分享,可在线阅读,更多相关《山东移动告警关联总结.ppt(42页珍藏版)》请在三一办公上搜索。

1、山东公司告警关联试点总结,中国移动通信集团山东有限公司网络部2009年11月,目录,参数优化,2,KPI效果评估,3,4,问题及解决建议,网管部署,1,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,告警关联网管部署的关键点,做好网管软硬件负荷的评估,告警关联规则的部署,告警平台网管告警ID的准确性,网管功能部署的关键点概述,在部署关联规则时需要注意以下情况:1、同一告警符合多条关联规则:同一告警可能会符合多条关联规则,在关联分析时需要设置一定的优先级。2、工程告警是否纳入告警关联:根据本省网管负荷情况对工程告警告警量进行评估,确定工程告警是否纳入告警关联的范围。3、监控功能需求

2、:为确保后期功能的有效推广及应用,需要充分考虑日常监控的需求。,关联功能实现效果的充分验证,关联自动派单功能的优化,进行必要扩容和合理网管架构设计,建议采用多线程处理,提高关联效果和处理效率,根据维护经验和现网实际情况合理调整X、Y值,提高标准化告警匹配率,确保告警关联效果,优化关联告警派单的抑制功能,网管部署的关键点网管准备,告警关联是标准化告警平台的一个核心模块,更是话务网管的重要功能部分。为后期告警关联功能的顺利部署及未来功能的可拓展性,需要对省内的网管系统进行了必要的调整,以确保告警关联功能顺利开发、部署和应用。,1、功能的部署尽量减少对生产系统的影响:实现1套采集支持2套监控平台,部

3、省接口独立上报,确保调测不影响其它业务功能应用,如集团告警上报。,2、改造告警队列,增加单独的告警关联处理队列,避免由于告警关联处理不及时带来的告警积压,在进行同时功能优化时不影响生产平台。,3、充分考虑告警关联功能的可拓展性:实现资源数据的信息同步,确保资源数据一致,支持未来的跨专业告警关联功能。,4、网管系统硬件准备:提前评估硬件处理负荷,将监控平台的服务器(HP9000 Superdome)升级-由24核1.1GHz调整为56核、104G内存。,关联规则部署情况,山东公司目前核心网和无线网有爱立信、华为、诺基亚共计3个设备厂家,16种类型设备,对应了89条关联规则。,网管部署的关键点功能

4、验证,关联规 则验证,现网验证是根据现网实际告警进行验证,主要是查看关联效果、告警内容是否能够正确解析、关联时间窗是否有效等,模拟验证是通过手工生成告警的方式在测试环境中进行程序验证,目的是用来测试关联规则配置的准确性。模拟验证正常后关联规则才能正式上线。,关联规则验证分类,关联规则验证方法,网管部署关键点自动派单,关联告警派单功能实现要求:自动派单机制的优化:子告警派单抑制充分理解各时间窗设置,合理设置派单延时:需要关注的时间是关联时间窗、子告警派单延时、主告警派单延时、系统(流程接口)派单延时。,关联告警派单实现方式:1、自动派单功能实现方式:优先告警标题派单,次之告警级别。关联告警派单延

5、时是以主告警或衍生告警的告警标题为准。2、增加关联自动派单分析策略:在原有自动派单模块增加关联告警派单分析的处理分支,实现子告警工单抑制确保存在关联关系一组告警仅派发一张工单。3、关联告警的派单原则:关联的一组告警只要存在活动告警(包括主告警和次告警)而达到派单延时则派单。4、告警平台子告警工单信息的填写:子告警的工单号、工单状态等信息和主告警相同,实时同步于主告警的工单信息。5、工单信息中子告警的呈现方式:关联告警的主告警作为工单标题,主告警的告警正文信息全部填写在工单的故障描述中,而子告警的关键信息如网管告警流水号、告警标题、告警发生时间等补充在工单的故障信息描述中。,关联效果展示关联规则

6、维护,按照集团告警关联功能规范实现主次关联、衍生两大类关联配置功能,五小类关联规则配置功能。考虑了功能的可扩展性,在新增关联规则或修改关联规则时,只需要极少的开发工作和配置内容即可。,支持关联规则的维护功能,包括文件的导出、规则修改及删除功能功能。(修改和删除功能加权限控制),对关联时间窗、告警门限及是否启用可进行修改,关联效果展示告警呈现、查询,关联告警以树状结构呈现,和流水告警(非关联告警)同窗口展示,动态更新。满足监控需求,规避了关联告警呈现重复的问题.,确认窗口,活动窗口,清除窗口,规范要求符合多个关联规则的告警仅入库一次,告警关联查询呈现,关联效果展示关联告警自动派单,子告警的工单号

7、和主告警相同,工单状态等实时同步于主告警,主次关联派单,次告警的关键信息写入故障描述,故障工单,告警平台,衍生关联派单,子告警信息,目录,参数优化,2,KPI体系效果评估,3,网管部署,1,4,问题及解决建议,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,华为设备告警关联规则,山东公司为华为设备告警关联试点的牵头省,共梳理告警关联规则56条:主次关联规则30个,涉及网元类型有HLR、MSC_SER、MGW、BSC、STP、SSA、TMG 共7类衍生告警关联规则26个,涉及网元类型有MSC、MSC_SER、HLR、MGW、BSC、STP共6类。,主次关联规则 关联方式均为根据告警

8、正文或告警报文 的其他字段,衍生关联规则 关联方式有同源关联和阈值触发两类,关联规则效果的现网验证,生产应用验证,日常监控关联告警呈现自动派单的问题,统计结果验证,根据一段周期内的单条关联规则效果评估报表数据,现网验证,关联规则有效、准确部署,汇总问题、分析原因、有计划解决,促进系统稳定运行,统计验证方法说明:首先查询一个统计周期(建议一周时间)的现网告警,按单条关联规则效果评估报表查看告警关联匹配数是否正确,确认是否有告警没有正确匹配关联规则。再根据告警匹配数从多到少的顺序,查看关联成功数是否正确,是否存在多关联、漏关联,关联成功数统计不正确等情况。其中重点关注关联匹配的准确性和X、Y设置是

9、否合理。,关联规则的优化过程及建议,验证 采用合理、有效的验证方法,制定测试、问解决计划,确保充分发现问题,优化 优化关联规则时间窗、KEY值及系统功能,提升关联效果,修改完善 分析问题根源,分步骤实施,完善系统功能。主要由网管厂家开发人员配合完成,关联规则时间窗优化,试点期间主要对华为设备的关联规则时间窗的设置进行优化验证,分别通过三天的数据进行了效果对比测试。,其他关联规则的参数优化包括:关联规则涉及告警ID的整理、关联规则触发条件的修改等。,自动派单规则延时的设置及优化,派单延时、关联时间窗、系统派单延时(告警平台和派单系统接口导致的延时)三个时间设置的是否合理将直接影响关联告警派单的压

10、缩情况:告警自动派单时间设置:告警的派单延时=关联时间窗+系统派单延时说明:系统自动抑制子告警派单关联告警自动派单建议采用优先告警标题的方式。注意收集本省告警平台和工单系统接口导致的系统延时,子告警的工单号和主告警相同,工单状态实时同步于主告警,目录,参数优化,2,KPI体系效果评估,3,网管部署步骤,1,4,问题及解决建议,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,告警关联功能部署后告警量效果评估,通过告警关联有效实现了告警的压缩,实时监控的1-3级告警得到有效压减,日告警总体压缩比在20%左右,日压减告警在1万条以上。,告警关联总体压缩比,关联自动派单效果评估,关联后,

11、823,关联前,1128,通过对比关联前后自动派单量,工单量有一定降低,关联派单前日均工单1128张,关联派单后,日均工单823张。日均关联派单88张,平均每张工单5个告警,压缩比例约27%(含省内关联派单)。,系统关联派单,关联派单涉及告警数目,关联后工单数量持续下降,关联效果评估KPI指标,KPI考核指标情况(10月26日-10月30日),标准化KPI指标-厂家关联分析有效率报表(10月26日),关联效果评估 KPI指标,单条关联规则压缩率情况(TOP10)(10月26日-10月30日),华为,关联效果评估 KPI指标,爱立信单条关联规则压缩率情况(TOP10)(10月26日-10月30日

12、),爱立信,关联效果评估 KPI指标,单条关联规则压缩率情况(TOP10)(10月26日-10月30日),诺基亚,目录,参数优化,2,KPI体系效果,3,4,问题及解决建议,网管部署的步骤,1,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,项目实施中发现的典型问题,告警定位信息解析模块部署后,发现部分告警不能正常解析。经查询原因,发现现网部分告警与程序开发时提取的告警正文信息有变化,导致告警正文信息中关联需要的KEY值不能正常解析。,问题1:告警定位信息不能正常解析,重新对告警内容中的告警定位信息进行整理。如果有新版本网元入网或网元升级时,一定要验证告警内容是否发生变化。如果变

13、化涉及到关联的KEY值,会导致关联规则无效。,解决办法:,告警关联项目实施中发现的问题主要有:关联功能软件缺陷、关联规则KEY值信息不准确、自动派单错误等三类问题。附件为关联规则验证中发现的所有问题。,是。华为设备不同版本有可能告警信息不同,版本升级时尤其要关注告警正文信息的变化情况。告警正文定位信息的变化将直接影响关联效果,是否为共性问题:,告警定位信息不能正常解析案例说明,问题说明:在进行关联规则验证过程中,发现华为设备主次关联M3UA路由不可用导致M3UA目的实体不可达的关联规则匹配率较低。处理过程:查询历史告警发现有部分符合关联关系的告警未匹配到关联规则上,查看“M3UA目的实体不可达

14、”告警信息发现,部分局点的告警信息中关联规则中需要的定位信息“目的实体名称”设置为“NULL”,导致关联规则无法生效。解决措施:重新对全网的网元定义数据进行了规范,防止由于参数缺失等不规范情况出现。问题解决。,项目实施中发现的典型问题,日常监控发现,在活动告警窗口中的部分告警所有子告警已经是清除状态,但是告警仍然在客户端活动窗口中,无法自动清除。注:多为瞬间恢复告警,问题2:关联告警在客户端无法自动清除,当瞬时告警发生时,即告警信息与告警清除信息间隔时间特别短,如果当时告警量较大,服务器与客户端通信的第三方软件会在客户端积压少量告警。造成了客户端先收到告警的清除消息,后收到告警信息,导致告警无

15、法自动清除,问题原因:,在客户端增加缓冲机制,对找不到对应活动告警的清除告警消息进行缓冲处理,在收到告警上报信息时才清除缓冲告警。问题解决。,解决方案:,瞬断告警,告警历时在1秒以内,项目实施中发现的典型问题,网元间目的信令点不可达告警关联规则(省内规则)在派生告警时出现多条告警(应该仅派生一条告警),问题3:衍生告警出现重复的问题,目的信令点不可达告警在网元间告警关联分析中符合两条关联规则,一是多网元至同一网元目的信令点不可达规则,二是两网元间的目的信令点不可达告警关联规则。关联分析引擎中使用了多线程处理方式,因为互斥规则存在系统BUG,导致衍生多条告警。,问题原因:,修改关联规则的控制逻辑

16、,仅派生一条告警。问题解决。,解决方案:,项目实施中发现的典型问题,网管告警ID有误导致告警关联规则无法生效,无法进行正常关联。同时影响了各KPI指标的统计,问题4:网管告警ID规则错误导致 关联失败,新版本的多维梳理表对网管告警ID重新进行了梳理,导致告警关联规则无法生效。按照新版本多维梳理表重新整理网管告警ID,原因及解决办法:,是否为共性问题:,是。加强对平台告警标准化匹配率的管理和维护,特别加强对网管告警ID和告警标题的关注,有部分关联告警自动派单后,发现工单的内容比实际的关联告警缺失部分子告警信息。,问题5:关联派单子告警信息缺失,经查看,出现此类问题的工单对应的关联告警中,关联的子

17、告警较多,而程序中对某些传送给流程的字段设置了最大长度限制。关联子告警的数目超过了长度限制导致部分子告警信息缺失。,问题原因:,解决办法:,修改程序逻辑,去除告警及流程间相应应字段的最长长度限制。问题解决。,项目实施中发现的典型问题,告警关联派单部署后,发现部分工程告警进行了派单,而部分告警应该派单而没有派单的情况。,问题6:关联派单错误,经查询发现,一组告警关联告警中会存在工程告警和非工程告警。我省使用通过判断主告警是否为工程告警判断是否派单。如果一个告警符合多个关联规则或嵌套关联关系时,在告警派单时,未把关联关系取全导致。完善自动派单功能,按照最根节点的告警派单。增加告警派单唯一性判断,确

18、保告警不重复派单。对自动派单规则配置有误导致派单失败的问题,完善自动派单规则,解决办法:,同一个关联告警派发多张工单。,问题7:关联告警重复派单,衍生告警的关联效率较高,会关联多条告警,在自动派单时因子告警太多在触发流程时返回给告警平台的信息是触发流程失败,告警侧在收到失败信息时将再次发起流程导致重复派单问题。但流程侧虽然返回给告警是失败信息但是却正常生成工单。经检查发现为告警和流程的握手协商信息判断时存在bug,修改后问题解决。,解决办法:,目录,参数优化,2,KPI体系效果,3,4,问题及解决建议,网管部署的步骤,1,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,告警关联项

19、目实施的几点经验,关联分析非常复杂,告警关联分析必须保证很快的处理效率。如果处理较慢,造成告警积压,关联分析的时间就远远晚于告警发现时间,影响正常的集中监控。另外在自动派单应用后会导致关联告警的子告警或主告警已经派单,而没有完成关联分析的处理环节,也就达不到告警关联的目标,关联派单抑制更无从谈起。必须有效提高告警关联分析引擎的处理效率。,经验1:提高告警关联分析引擎效率,为有效达到关联告警的派单抑制功能,必须充分理解关联告警(包括主告警、子告警)涉及的派单时延、关联时间窗口、系统(流程接口)派单延时等时间点之间的关系,尽量细化关联告警涉及的自动派单延时,提高派单抑制效率。,经验2:细化自动派单

20、规则,提高派单抑制效率,告警关联项目实施的一点经验,由于某些厂家设备(如华为设备)存在同一告警在不同软件版本中的告警定位信息不同的情况,所以在告警关联规则部署前需要首先验证相关设备关联规则中涉及的告警信息在现网中的关联定位信息情况,以保证关联规则部署后告警关联的有效性。,经验3:关联规则部署前提前确认告警定位信息,网管系统底层设计的健壮性是影响关联效果及系统稳定性的最关键因素,目录,参数优化,2,KPI体系效果,3,4,问题及解决建议,网管部署的步骤,1,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,一、基于告警关联实现网元间工程告警标识,通过提取告警定位信息中的对端局向名称或

21、对端信令点编码,判断对端网元是否是工程网元,如果是工程网元则把此告警标注为工程告警,通过告警正文解析定位到的网元间工程告警,需要外部资源信息的支撑,二、优化自动派单功能,规避重复派单,实现原则:自动派单应用后,对设备频发告警会导致重复无效工单大量派发。通过新增数据库方式记录历史自动派单关键信息(如网元名称、告警标题、告警发生时间等),一定时间窗内的同类工单不再重复派单,该告警的派单信息将会填写关联工单的工单信息,上线后,270,上线前,562,功能上线前、后工单量变化情况,功能上线后派单量情况,抑制工单量情况,重复派单规避案例说明,DEZGM12网元分别在01:26:27、01:26:47、1

22、:37:23三个时间点发生同一告警标题为ACTIVE UNIT FAULTY的告警,三个时间点的时间间隔正好在规避派单时间窗(目前设置为4小时)内,01:26:27、1:37:23两时刻发生的告警不再派单,但工单信息及状态和第一个派单的工单信息同步。,三、告警平台其它特色功能,跨专业告警关联:按照专业间告警发生的同源性进行了跨专业告警关联规则的梳理。目前山东公司已经实现了爱立信、华为、诺基亚承载网CE和话务网软交换专业间的告警关联。注:跨专业告警关联需要完善的综合资管系统的支撑。告警自处理功能:告警自处理是在通过对故障处理流程进行,通过网管系统进行固化,系统自动发送指令到网元进行相应的故障处理

23、。客户端可以对自处理过程和执行结果进行全程呈现,通过设置处理时限等手段来规避自处理带来的风险。故障处理经验库的应用:在告警平台上建立故障经验库模块,有两个应用,一是在平台上监控人员可以根据告警信息直接查看、学习相应的故障经验信息。二是自动派单时会将相应的故障经验在工单中提供,以供故障处理人员参考。,目录,参数优化,2,KPI体系效果,3,4,问题及解决建议,网管部署的步骤,1,4,4,经验共享,5,4,特色功能介绍,6,4,项目总结,7,项目总结,项目的管理和控制,关联规则的充分验证和测试,系统运行稳定性、健壮性,项目,告警标准化匹配准确性,规则验证期间需要进行充分的测试和验证,充分发现问题并及时跟踪解决。为减少对生产系统的影响。至少保证一周的统计数据稳定后再进行生产应用,做好项目管理,细化人员(包括网管厂家侧项目负责人)分工及职责,及时跟踪项目时间进度和质量,确保项目有效实施,加强标准化告警匹配率的管理和维护,为告警关联的部署提供基础数据,进一步提升告警关联匹配准确度。,系统上线运行后持续跟踪系统运行情况,关注突发大告警量等情况系统运行的稳定性。,相关信息,华为告警关联规则梳理表,试点运行周报,特色功能相关截图信息-山东,告警标准化kpi报表-山东,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号