《广东移动告警关联推广材料.ppt》由会员分享,可在线阅读,更多相关《广东移动告警关联推广材料.ppt(26页珍藏版)》请在三一办公上搜索。
1、告警关联项目推广介绍,广东公司2009年11月,目录,告警关联功能部署验证方法,1,告警关联规则优化方法,2,3,告警关联指标分析方法,告警关联项目全生命周期,中国移动告警关联规则梳理表,现网验证,分析优化,专家评审会,告警关联是一个不断完善不断优化的持续改进型的项目!,告警关联功能整体部署步骤,各省在现网部署告警关联程序各省选择关联规则在现网中部署各省对告警关联功能进行验证,包括规则生成、入库、呈现、派单。,各省对关联规则验证失败的进行详细分析与优化修改 各省对已产生关联的关联规则进行关联条件的优化分析,由业务人员对告警关联规则进行梳理由牵头省对告警关联规则进行评审并发布,由厂家对告警关联功
2、能进行开发由厂家对关联规则进行配置开发,告警关联功能部署广东工作时间表,7月,7月底,8月,功能开发,功能部署,关联规则验证分析,网管厂家对告警关联功能进行开发与测试根据已评审过的关联规则,开发所有规则配置脚本文件,并进行测试,在现网中部署告警关联主程序,配置告警关联规则从关联规则部署,关联告警生成、呈现、入库、派单进行验证解决现网运行过程中产生的各类问题,确保功能稳定。,对已有关联告警生成的规则,进行合理性的验证对在现网环境下无法产生关联告警的规则进行分析,更正并优化关联规则条件,5月,规则梳理,对告警关联梳理表按牵头省进行梳理告警关联规则梳理表评审,11月,告警关联分析推广,根据试点省前期
3、告警关联功能在现网中部署验证的情况进行经验总结向全国推广告警关联分析功能,告警关联程序部署,广东公司共在现网中部署告警关联规则80条,涵盖了爱立信和华为两个厂家的所有主次和衍生关联规则,广东在现网中累计成功验证了45条告警关联规则,总体验证率为56.25。还未验证成功的关联规则共37条,其中爱立信5条,华为30条。,告警关联功能部署方法,每一条关联规则都有一个对应的XML配置文件,里面定义了告警关联名称,告警关联类型,父告警和子告警(以网管告警ID告警标题唯一识别一条告警),告警关联量值(X:时间窗和Y:数量基线),告警关联规则条件。衍生告警正文等。,1、告警关联主程序;2、告警关联规则配置模
4、块;3、告警关联KPI报表程序;,各省从告警关联梳理表中选择现网设备相关的关联规则进行部署,各省拿到告警关联程序包后在现网部署功能,1、告警关联正常运作2、告警关联规则配置模块是否生效3、告警关联KPI报表是否正常生成,1、规则配置文件是否与告警多维梳理表的关联规则一致2、关联告警能否正确生成,验证告警关联规则的正确性,测试告警关联主程序各项功能的可用性和稳定性,告警关联功能验证方法,功能验证,建议:各省在告警关联程序部署的初期,必须密切留意告警关联各功能程序的运行状态以及与其相关的周边功能的状态,确保告警关联程序异常能够及时发现和处理,且不影响其他功能的正常运作。,客户端程序与告警库验证,界
5、面与配置文件验证,报表程序与数据源验证,告警关联功能部署举例,1、衍生告警存在告警指纹重复问题广东发现关联分析主程序生成的衍生告警指纹重复,影响到后续的告警历史库的同步,直接引发告警系统占用主机资源严重而使主机崩溃。【解决过程】已升级新的关联分析主程序,加上内部程序的唯一码判重,可以保证生成的告警指纹唯一。【经验分享】要留意关联告警的入库情况,及时发现入库异常。,2、不需关注的告警屏蔽告警关联程序部署中发现,有不需要被处理的告警进入了关联,产生了不需要处理的告警关联。【解决过程】告警关联功能要处理的告警应为13级告警、非工程告警和非退网网元的告警,在告警关联主程序的入口处应该进行告警过滤,屏蔽
6、了四级告警、工程告警以及退网网元,只保留现网有业务告警。【经验分享】告警关联功能的入口应是需要被关注和需要被处理的告警,在实施过程中应该予以限制。,告警关联规则验证方法,规则验证,建议:各省在告警关联规则部署中,必须先核查关联规则配置文件,确保与告警关联规则梳理表一致,以免日后验证工作中增添干扰源。,表征:某告警关联规则无法生成关联,无匹配告警,检查项:1、网管告警ID2、告警标题3、网元类型4、告警关联类型5、量值设置6、告警关联规则条件,一般问题出现在1、2点,目标:两者信息完全一致,前提,验证,建议采取在测试环境中,人工生成所有规则的告警,进行要部署规则的测试验证。目标:验证率100,规
7、则中的问题必须在现网部署前全部解决。,告警关联功能部署举例,1、爱立信主次-基站低压引起小区退服规则【问题描述】该规则一直无法产生关联告警,且仅能匹配一种告警,另外一种无法匹配。【解决过程】经查看告警关联规则XML配置文件,发现其中主告警“RADIO X-CEIVER ADMINISTRATION BTS EXTERNAL FAULT”告警标题写成“RADIO X-CEIVER ADMINISTRATION”,导致该类告警无法进入此关联规则,最终导致无法产生关联告警。更新规则后在现网验证,已有关联告警产生,问题解决。【经验总结】若关联规则一直无法产生关联,建议先查看告警关联规则源文件,告警匹配
8、规则是否配置错误,一般来说为网管告警ID或者告警标题错误。,2、爱立信主次-APG进程启动导致进程相关的如计费_统计等告警规则【问题描述】该关联规则一直无法生成关联告警,且能匹配的告警类型不全,有一种告警一直无法匹配。【解决过程】经查看关联规则XML配置文件,发觉CPT FAULT的网管告警ID为“001-001-00-800070”,经查看告警多维梳理表,发觉有误,应为“001-001-00-800069”。更新规则后在现网验证。【经验总结】若关联规则一直无法产生关联,建议先查看告警关联规则源文件,告警匹配规则是否配置错误,一般来说为网管告警ID或者告警标题错误。,告警关联功能部署建议,因告
9、警关联规则配置文件是以网管告警ID告警标题唯一确定一类告警,存在网管告警ID与告警标题不一致导致无法确认一类告警。基于爱立信多维梳理表是以告警标题为KEY值,告警标题已足以唯一确定一类告警,因此广东在部署爱立信告警关联规则上,去掉网管告警ID条件,仅以告警标题作为唯一匹配条件,以免增加不确定因素。建议:各省也可以参照告警多维梳理表中的KEY值来部署关联规则配置文件中的KEY值。,目录,告警关联功能部署验证方法,1,告警关联规则优化方法,2,3,告警关联指标分析方法,告警关联规则优化,告警关联功能部署验证后,保证了功能的稳定性和规则的正确性。接着进入了告警关联规则的分析优化工作阶段。,关联规则部
10、署后不断验证,对异常的关联规则和需要优化的关联规则进行标识和统计。,通过各种分析方法与手段,结合各省实际运维情况,对关联规则进行分析和调优。,部署优化后的关联规则,进行现网验证,目标:1、告警关联能够有效减少告警呈现量和工单派发量2、能够有效自动分析故障定位,相关告警实际时间间隔和次数是否与关联规则中的量值有出入导致无法关联,相关告警是否在现网出现过是否未匹配导致无网管告警ID,告警关联规则优化方法,问题1:某些规则无法产生关联/关联极少解决方向:查找分析无法生成关联的原因,是否存在关联告警?,关联规则量值是否合理?,相关告警实际情况是否能满足关联规则条件,关联规则条件是否合理?,告警没出现的
11、原因告警未匹配原因,告警实际不能满足关联规则条件的原因,分析关联规则量值的合理性,制定关联规则修改方案,重新部署关联规则。,异常,注意:要结合实际运维要求合理优化,存在正常情况的无关联告警产生,不要为了产生关联而搞关联。,继续观察对未匹配告警进行梳理,告警关联规则优化方法,问题2:某些以压缩告警的关联规则没有很好的压缩告警解决方向:横向比较优化规则量值,规则A(x1,y1),规则A(x2,y2),规则A(x3,y3),分析这些规则的压缩情况,挑选最优量值,配置多种目标规则条件与量值的关联规则,规则A(x1,y1)压缩量,匹配告警数,规则A(x2,y2)压缩量,匹配告警数,规则A(x3,y3)压
12、缩量,匹配告警数,规则A(x2,y2),优化,同一告警会同时匹配到多条关联规则的特性,分析压缩量和匹配告警数两个指标考虑,根据压缩效果目标选定合适的量值,告警关联规则优化方法,问题2:某些以压缩告警的关联规则没有很好的压缩告警解决方向:横向比较优化规则量值,优化,分析这些规则的压缩情况,规则A(x1,y1)压缩量,匹配告警数,规则A(x2,y2)压缩量,匹配告警数,规则A(x3,y3)压缩量,匹配告警数,分析压缩量和匹配告警数两个指标考虑,要增大压缩率,一般采取增大X值以加长关联时间,使更多的告警能够被关联在一起,Y值可不变或者稍微增加以升高关联门槛,减少衍生告警数量。,通过分析告警压缩量和匹
13、配告警数两个指标,在所匹配的告警数变化不大的情况下,告警压缩量得到提升,衍生告警数量得到减少为确实能够提升告警压缩效能的体现。,建议:在告警关联规则梳理表中的量值具有一定的指导性意义,量值的调优应该在关联规则原量值基础上作微调,不应作太大改动,否则将影响规则本来的关联意义。,建议:请避免单方面考虑告警压缩效能从而导致以下两种不应该出现的情况:1、告警匹配数量减少,使得本来应该被关联的告警被排除在外。2、时间窗设置过大,使得告警关联成为纯粹的告警合并容器。,告警关联规则优化举例,异常:M3UA偶联中断导致的M3UA信令全阻规则,优化原因:该关联规则一直无法生成关联告警。优化方法:修改该规则的关联
14、条件。分析过程:1、从告警库中抽样分析,发现在关联条件范围内产生了该规则的子告警和父告警,但是无法被关联。2、查看关联规则,发现该规则需要满足父告警的SPID与子告警的SAID要一样才能被关联。3、广东现网中SAID与SPID的命名规则不一致,此关联条件不成立。结论:该规则的关联条件不符合现网情况,需修订完善关联规则。,异常:APG进程启动导致进程相关的如计费统计等告警规则,优化原因:该关联规则一直无法生成关联告警。优化方法:增大该规则的X量值,以便告警容易产生。分析过程:1、查看历史库,发现同一网元产生该规则关联告警的时间间隔均在5分钟以外;2、把X调整为10分钟后,再到现网验证;3、发现能
15、够产生关联关系。结论:该规则X值应为10,才能有效产生告警关联。,告警关联规则优化举例,优化:同一网元SNT告警合并规则优化,优化原因:该规则衍生告警过多,达不到告警合并效果。优化方法:通过部署不同X、Y量值的规则,进行横向对比。分析过程:1、当X不变,Y增大,衍生告警数量和原始告警数量变化不大。2、当Y不变,X变大,衍生告警数量和原始告警数量一致。3、当Y2时,X越大,衍生告警产生的越少,原始告警量变化不大。结论:该规则适当增加X值,满足对告警进行合并的目的。,目录,告警关联功能部署验证方法,1,告警关联规则优化方法,2,3,告警关联指标分析方法,告警关联指标,告警关联功能是在支撑系统底层实
16、现,天生缺乏显性化的效能呈现,必须提供相应的显性化呈现和分析依据。集团制定了中国移动告警标准化运维管理指标体系,并部署了告警关联相关报表。通过对告警关联相关指标进行分析,可以辅助告警关联的验证和优化工作。,告警关联指标分析方法,单条规则分析指标报表,以规则为粒度统计此规则的告警关联相关指标对于进行规则优化分析工作有很大用途,1、如果匹配数为0,则有可能匹配规则异常。2、如果匹配数过少,则可以分析关联规则和量值的合理性。,压缩量要与关联成功数做参照,若压缩量不理想,可以优化此规则,增加压缩比,关联成功数要与匹配告警数做参照,若关联成功比不高,可以优化此规则,增加成功比例,以减少衍生告警产生为目的
17、进行量值优化时,增加时间窗或者加高门槛。主次告警应该只能进行适当必要性优化,在关联规则原则前提下,可以适当考虑放宽关联限制进行优化,调高X值,降低Y值。,运维管理体系指标分析应用情况,告警关联压缩量平均为21365条,总体压缩率平均为7.48。,某日共派发告警关联工单1908张,其中1254张是衍生告警派单,654张为主次告警派单,派单量占工单总量28.7,工单量比同期工单量减少约300张左右。,特色跨专业告警关联尝试,CE-MGW告警拓扑关联呈现通过接入数据网CE告警,与软交换MGW告警进行关联;通过综合资源系统平台提供设备网元拓扑资源,进行关联呈现。能够快速发现由于CE端口down导致MGW退服故障。,请领导指示!,感谢聆听!,中国移动广东公司,网络质量是通信企业生命线,附件,