《江苏移动公司告警关联工作汇报.ppt》由会员分享,可在线阅读,更多相关《江苏移动公司告警关联工作汇报.ppt(34页珍藏版)》请在三一办公上搜索。
1、中国移动江苏公司网络部 2023年2月,江苏公司告警关联工作汇报,-2-,目录,网管部署,指标分析,江苏特色,愿景期望,优化阶段,意义和目的,现网IP、软换设备组网,组网复杂,故障点多,故障原因可能是传输网、IP承载网、交换等各种设备,在故障处理过程中,故障定位困难,故障定位时间长。,现网告警数量巨大,派发告警工单多,使监控人员和维护人员陷入大量工单中,影响故障处理和设备维护等正常工作。,现网设备不断增多,人员不变,如何避免维护人员花大量时间在工单处理上。,工程频繁,传输网、承载网、相邻网元工程,都会导致大量无效告警工单。,1、告警关联:快速准确故障定位,2、告警关联:告警压缩派单、减少工单量
2、,3、告警关联:解决无效工程告警工单,4、告警关联:提高工作效率、提升故障处 理质量,告警关联:高质高效低成本运维!,告警关联项目过程,准备阶段,程序开发,测试阶段,优化阶段,正式运行,告警标准化系统上线运行告警关联规则梳理,系统设计系统开发与集成测试,关联规则测试系统派单测试,关联规则优化系统派单优化,KPI指标分析,准备阶段,告警标准化系统上线运行,告警关联规则梳理,2008.09江苏话音网告警标准化系统试运行,2009.07江苏告警话音网标准化系统正式上线运行,2009.03-集团组织安徽会议对话音网告警关联规则评审,2008.03-江苏牵头梳理话音网卡特设备的告警关联表,2009.10
3、-集团组织安徽会议对TD告警关联规则评审,2009.07-江苏牵头梳理大唐TD设备的告警关联表,2008.05江苏牵头话音网卡特设备告警梳理,2008.05江苏话音网告警标准化系统开发,卡特、大唐告警关联规则梳理,江苏为大唐TD设备告警关联试点的牵头省,共梳理告警关联规则31条,其中主次关联规则21条,衍生告警关联规则10条。涉及网元类型有RNC、NodeB 2类。,江苏为卡特设备告警关联试点的牵头省,共梳理告警关联规则45条,其中主次关联规则4条,衍生告警关联规则41条。涉及网元类型有HLR、MSC_SER、MGW、BSC 4类。,程序开发阶段,2009年5月集团在杭州组织告警标准化评审会,
4、会上讨论形成中国移动省级话务网网管系统告警关联功能规范,并制定了告警关联工作时间进度计划,江苏按此计划进行告警关联程序的开发。,5月中旬完成系统设计,包括所有模块的设计:关联分析引擎、KPI指标计算模块、自动派单调整。,7月中旬完成系统开发与集成测试,包括各功能模块的开发和实验室测试:告警关联规则查询、维护,告警关联呈现,关联分析引擎,关联告警派单,KPI统计报表。,7月底完成告警关联程序部署。,测试阶段,验证每条关联规则是否在网管正确部署,确保不影响告警监控与工单的正常派发。,告警关联测试目的,模拟验证、逐条验证、正向验证、反向验证、报表验证,告警关联验证方法,验证关联规则的准确性:该告警关
5、联条件是否正确,告警关联时间窗、频次是否合理,定位信息是否正确。验证关联告警的准确性:满足条件的告警是否正常关联,有无误关联,关联告警生成时间和关联告警清除时间是否正确。验证派单的准确性:主/衍生告警工单是否及时派发,次/子告警工单是否被抑制。,告警关联测试项目,测试阶段最重要、繁琐、耗时的是告警关联规则验证,其它测试还有关联呈现、关联查询、关联配置、关联派单、系统稳定性测试。,测试阶段-五种验证方法,模拟验证 在测试环境中,模拟上报满足触发关联条件的设备告警,验证关联告警是否正常建立;模拟上报满足关联告警解除的设备告警,验证关联告警是否正常清除。逐条验证 根据关联规则梳理表逐条到告警标准化系
6、统查询,并核对关联告警的关联时间窗口、量值、触发关联条件是否与关联规则相符,保证该条关联规则的部署正常。正向验证 每天在话务网管上查询昨天的历史关联告警,检查是否存在不满足关联条件但产生关联告警;检查关联告警的告警关联产生时间、告警关联清除时间等是否正确。反向验证 每天从EOMS中导出昨天的EOMS工单,检查是否存在符合告警关联条件应抑制派单,但未生成关联告警按原子告警或次告警派单的现象。报表验证 根据KPI报表中的单条关联规则效果评估表中的告警匹配数和关联成功数等各项数值进行对比,检查程序是否存在异常。,测试阶段-五种验证方法的比较,关联规则验证情况,江苏公司共部署了239条关联规则,验证了
7、225条关联规则。涵盖了核心网、无线网、TD网的所有设备,涉及卡特、华为、爱立信、大唐4个设备厂家,16种设备类型。,关联派单部署流程,测试阶段-关联派单部署要点,关联派单部署原则:主告警、衍生告警工单及时派发,同时抑制次告警、子告警工单,确保不影响现网正常派单。,江苏经验:在测试阶段,不能够完全依靠网管厂家,需要维护人员严格逐条关联规则验证和关联派单规则验证。,-13-,目录,优化阶段,指标分析,江苏特色,愿景期望,网管部署,优化阶段,经过测试阶段试运行观察和KPI统计分析,发现告警关联效果不理想,主要表现为告警关联数目少;部分省甚至出现告警关联后,告警工单不降反升的现象。,测试阶段问题,增
8、加关联告警数目,降低工单量。,优化目的,关联规则优化尽可能多的告警参与关联。关联派单优化在保证所有告警及时派发工单的前提下,主告警或衍生告警工单早于次告警或子告警工单派发,从而抑制次告警或主告警工单,达到降低工单量的目的。,优化思路,集中处理,快速响应,手段建设,关联规则优化经验1-制定关联规则原则,为达到告警工单压缩最大化效果,需将尽可能多的告警参与关联,尽可能压减工单,减少工单量。,二级告警派单延时30分钟,关联时间窗口设置为25分钟。三级告警派单延时60分钟,关联时间窗口设置为55分钟。,原则1:频次关联时间窗口尽可能大。频次关联时间窗口=子告警派单延时,保证工单及时派发。,原则2:频次
9、关联的次数尽可能少。设置为2次。频次门限越低,参与关联的机会越多。,关联规则优化经验2-增设衍生规则,优化原因:告警关联对工单的压减效果不明显,有些频发关联告警在关联规则表中没梳理出来。,优化方法:每天从EOMS系统导出工单,分析频发告警工单,是否有在一段时间内频发的告警工单(1小时内有2条同样的告警工单),如有则将此告警增设为频次关联告警。,优化结果:江苏共增设华为频次关联规则28条,卡特频次关联规则14条,爱立信频次关联规则23条,大唐频次关联规则2条,卡特主次关联规则1条。,关联派单优化1-关联告警派单原理,首先按告警标题完全匹配再次按告警标题模糊匹配最后按告警级别匹配,告警标准化系统的
10、派单原则,关联告警优先派单,原单条告警派单作为补充的互补的原则。即“关联告警派单规则生效,则次/子告警的原派单规则失效;关联告警派单规则失效,则次/子次告警的原派单规则生效”。,关联告警派单原则,告警级别派单:一级告警1分钟不恢复派单,二级告警30分钟不恢复派单,三级告警60分钟不恢复派单。告警标题派单则根据本省运维需要设置个性化的按不同告警标题设置不同的派单延时。,告警标准化系统的具体派单规则,关联派单优化2-改变关联告警生成时间,优化前关联告警生成时间:是告警建立关联关系的时刻,而不是主告警或衍生告警的第一条子告警的产生时间。优化后关联告警生成时间:主告警或衍生告警的第一条子告警产生时间作
11、为关联告警的产生时间。,改变关联告警生成时间,简化关联派单设置,优化后效果:使用原派单原则,无需增设关联派单规则。,举例:二级告警的派单规则:30分钟不恢复派单。为保证工单及时派发,必须设置频次关联时间窗口=子告警派单延时。设置二级告警的告警关联时间窗口为25分钟。,关联派单优化3-制定派单优化两原则,主次关联告警无需另设派单规则。按主告警派单规则派单。当达到主告警派单延时,立刻派发工单,将此段时间内的主次告警正文做附件放在EOMS工单里。如主告警派单后,若此时还处在在关联时间窗口,还有告警参与关联,在告警关联时间结束时,将这段时间的告警正文追加到EOMS工单中。,主次关联告警派单规则,衍生关
12、联告警派单规则,衍生关联告警无需另设派单规则。按关联告警级别、原子告警的告警标题派单。无需计算告警关联时间窗、子派单延时、关联派单延时之间的关系。,优化后效果,告警关联实施后,日均工单量为 1050张,比告警关联实施前减少200张工单,工单量下降16%,其中TD告警关联实施后尤为明显。,-21-,目录,指标分析,网管部署,优化阶段,江苏特色,愿景期望,KPI指标1-标准化考核指标统计报表,下表选取10月份中的6天的标准化考核指标统计报表数据。,在日常运维中,每天分析各项KPI指标,对各项指标心中有数,关注指标异常波动,及时发现网元设备、厂家网管、话务网管、EOMS系统故障,排除潜在隐患。,KP
13、I指标异常常见原因,KPI指标2-厂家关联分析有效率报表,下表为10月份厂家关联分析有效率报表数据。,不同设备厂家的关联分析压缩率与厂家的告警机制相关,卡特和华为设备存在较大压缩空间。如出现关联分析压缩率低于正常值,需进行分析,需要检查关联程序是否运行正常。,KPI指标3-单条关联规则效果评估报表,下表为10月26日单条关联规则效果评估报表部分数据。,如报表中所有关联规则均无数据,可能关联程序出现问题。如报表中某一关联规则长期无主告警或衍生告警需查看该告警正文、定位字段等是否发生改变,如改变需修改关联规则表。,KPI指标4-话务网厂家告警统计报表,下表为10月26日话务网厂家告警统计报表数据。
14、,重点关注一级告警的数量,一级告警正常在总量2%以下,如出现大量一级告警可能为网元工程、告警未梳理导致的告警不能与梳理表中的匹配、网元异常等问题。上图贝尔设备出现大量一级告警为贝尔新版本IPSTP设备工程调测引起,需联系厂家进行告警梳理。,KPI指标5-多维梳理表分析报表,如告警匹配率较低可能为设备版本升级,需尽快进行告警梳理,以免影响监控日常运行。上图贝尔LSTP经梳理告警匹配率已达99.87%。,-28-,目录,江苏特色,网管部署,指标分析,优化阶段,愿景期望,与动环告警关联,接入动环常见告警,与无线和TD的告警进行关联,方便维护人员进行故障定位,快速处理故障。,工程告警屏蔽,定位信息=局
15、向名称=NULL(65535),模块号=53,链路名称=SUZHLR71_01(2),网络指示=国内主用网,目的信令点编码=0 x9FBE8,源信令点编码=0 x9FA64,信令链路编码=1,原因值=48,华为设备实现关联的工程告警,根据告警正文定位对端网元的目的信令点编码,在资源系统中查找到此信令点编码的工程状态,如处于处于工程状态,则此告警被打上工程标记,从而工单抑制派发。,利用网元间告警关联将工程对端网元打上工程标记。当某网元进行工程调测时,可能会引起与之相关的多个网元产生大量告警,如果不屏蔽这些告警就会派发大量无效工程告警工单。,-31-,目录,网管部署,指标分析,优化阶段,愿景期望,江苏特色,期望愿景,多专业综合关联,话音网告警关联经验推广。集成动环、传输、数据等各专业,形成多专业综合告警关联。,单专业综合关联,基于资源系统的话音网综合告警关联。,单专业简单关联,话音网内简单告警关联(话务网、无线网、TD网)。工程告警屏蔽。,本项目实现简单告警关联、部分依赖资源的告警关联、部分工程告警屏蔽,实现告警工单压减。今后将对告警从深度(资源关系)和广度(多专业)两个维度进行挖掘、拓展,从而提高故障定位的快速性和准确性。,附件,-34-,感谢聆听!,网络质量是通信企业生命线,