《基于关联规则的通信网络告警相关性分析模型.docx》由会员分享,可在线阅读,更多相关《基于关联规则的通信网络告警相关性分析模型.docx(12页珍藏版)》请在三一办公上搜索。
1、基于关联规则的通信网络告警相关性分析模型*国务院侨办科研基金资助项目(03QZR5)。吴扬扬吴扬扬,教授,国立华侨大学信息学院计算机科学系,研究方向为数据库技术和数据挖掘,发表论文二十多篇。电话:0595-22991503; E-mail: wuyy,陈怀南陈怀南,工程师,福建省电信公司泉州分公司,研究方向为数据库技术和电信网络管理。(1华侨大学计算机科学系,福建泉州 362021; 2福建省电信公司泉州分公司,福建泉州 362000)摘 要:在通信网络运行过程中,每天都会产生大量告警,将数据挖掘中的关联规则发现技术用于分析历史告警数据,可发现告警相关性规则。这些规则可辅助故障定位和告警过滤,
2、以减轻网络管理员的工作强度,提高工作效率。本文分析了通信网络原始告警信息的特点,提出了一个基于关联规则的通信网络告警相关性分析模型,该模型通过对原始告警数据进行预处理,不仅有效地解决了网络告警时间不同步问题,使得处理后的告警数据可直接用一般的关联规则挖掘工具发现告警相关规则,还大大地压缩了挖掘结果,提高了规则的准确率。初步的实验表明这种分析模型具有实用价值。关键词:告警相关性;关联规则挖掘;数据预处理1. 引 言故障管理作为通信网络日常维护的基础,对网络的正常运行起着举足轻重的作用。当网络中出现故障时,会引发一系列的告警,但并不是所有的告警都表明故障原因,因此需要对网络中发生的告警事件进行相关
3、性分析,确定产生故障的根本原因。故障处理过程一般分三个处理阶段:故障相关性分析、故障定位、故障验证。目前的网络故障处理工作主要靠网络工程师依据个人的维护经验对告警进行人工分类、判断、分析,并最终得出告警的来源。由于通信网络是由交换机、传输设备、动力设备等多种部件组成,在什么情况下由网络的哪些节点上的哪些设备产生告警以及告警内容和格式都是由生产厂商定义好的,并非所有设备都会告警,不同设备的告警信息内容不同,对同一类设备而言不同生产厂商定义告警信息的内容和格式也有差异,而且一个设备故障经常引起其他设备产生告警,所以告警数目庞大、告警之间的相关性复杂,完全靠人工分类、判断效率很低。目前故障管理面临的
4、主要挑战在于报警的及时性、准确性和灵活性。一旦告警信息产生,网络监控中心必须在最短的时间内准确定位故障点,根据故障原因发布故障单,并派遣维修人员修复故障。因此在故障管理过程中,需要引入能对全网告警进行全程的、多层次的、复杂的相关性分析,以便进行告警过滤,帮助定位故障。有些网络管理系统提供告警相关性分析功能,但这些告警相关性分析功能大多建立在用户定制的处理逻辑或关联规则之上1,系统需要根据预先定义的处理逻辑来过滤冗余告警,分析告警之间的相关性,如NetLog故障管理系统2,其强大的相关性分析功能的实现方法是:系统根据用户定制的关联规则,从一组事件中推测出作为这组事件起因的根源性事件,产生一条新的
5、更抽象的决策事件,或关联出互相依赖的互为事件。要充分发挥这些系统的相关性分析功能,关键在于如何得到告警事件的关联规则和告警设备的关联规则。本文研究如何有效地利用数据挖掘中的关联规则挖掘工具,分析历史告警信息,得到告警之间的关联规则以及告警设备的关联规则,这些规则既可用于帮助网络管理系统用户定制关联规则,以利用网管系统的告警相关性分析功能帮助定位故障,也可辅助网络管理人员分析当前告警信息,进行网络故障的定位检测和预测严重故障等等。采用关联规则挖掘方法的优点是不需要知道网络拓扑结构关系,当网络拓扑结构发生变化时,可以通过告警的历史记录进行分析,自动发现新的告警相关性规则,因此基于数据挖掘告警相关性
6、系统能够很快调整适应一些变化快的通信网络,解决通信网络中出现的新问题,基于数据挖掘的方法有较好的网络适应性。本文在深入研究告警信息的特点和需求的基础上,提出了一个基于关联规则挖掘的告警相关性分析模型,相对于其他分析方法3456,该模型具有如下特点:l 适用性广:本分析模型只需使用一般告警数据项的历史记录,与网络的拓扑结构无关,可适用于不同的电信网络;l 容易实现:数据经过预处理后,可直接用一般数据库的关联规则挖掘工具实现告警关联规则挖掘任务;l 比较准确:因为本模型在定义告警事务时,不仅考虑告警时间还考虑到告警解除时间,所以,挖掘出来的告警关联规则比较准确地反映了告警的相关性;l 挖掘结果易于
7、理解:挖掘出来的关联规则直观地反映了不同告警之间关联关系和告警设备之间的关联关系,有助于告警信息过滤、定位故障。2. 告警相关性分析模型2.1 告警信息基本形式电信网络故障被定义为网络中的电信设备或软件模块异常。故障发生时系统状态会发生变化,从而引发告警事件。电信网络告警信息一般只有经历系统状态发生变化的设备名称类型、故障症状、发生时间、告警等级等,没有提供识别故障所需的故障发生的详细地点和原因等数据。因为电信网络是由多种设备相互连接起来的,一个部件故障会影响到很多设备,从而引发很多设备告警,甚至同一个设备多次告警。蜂拥而致的告警为数据挖掘提供了丰富的数据源,因为这些告警数据记录了故障所波及的
8、系统相关部件的状态变化,告警数据历史记录背后蕴藏了各种故障发生引起系统变化的规律。分析、处理一条告警信息,需要这条告警信息中包含产生告警的部件名称,具体故障信息,故障产生时间。专业网管系统一般具有告警信息的实时接收、存储和查询功能,其告警表一般包含有这类数据,可直接从那里提取。表1列出了一般告警表中均具有的数据项,我们可将它们作为告警关联规则挖掘的数据源。表1:主要的告警数据项数据项名说 明1TID产生告警信息的被管理设备名称,电信网络中每个设备均有一唯一的网络设备名称,用于告警、配置时的区别2NEType被管理网元设备类型3Address设备端口位置,设备的具体单元4EntityType端口
9、属性,可分为CEPT1等5Condition告警信息的具体描述6Servrity告警等级,有CIRTICAL,INFO,CLEARD等7EventTime事件产生时间8SeviceAffect是否影响业务,有NSA与SA两种表2:几个告警实例TIDNETypeAddressEntityTypeSeverityConditionServiceAffectEventTimeQZLOCALJYFOUR/79ISM4RDITP2.8CEPT1INFOPFcREMNSA2003-6-1 0:10:28QZLOCALLXFOUR/84ISM4RDITP1.15CEPT1INFOPFcREMNSA2003-
10、6-1 0:10:30QZLOCALJYFOUR/79ISM4RDITP2.8CEPT1CLEARDPFcREMNSA2003-6-1 0:40:55QZLOCALLXFOUR/84ISM4RDITP1.15CEPT1CLEARDPFcREMNSA2003-6-1 0:40:57例如:在表2所给出的告警实例中,TID:QZLOCALJYFOUR/79代表泉州本地网中一个设备的名称,处理故障时,需要根据该设备的名称,来判断故障发生地点等相关机房信息;NEtype:ISMRDI,说明该传输设备是ISM(Intelligent Sync Mux),同时软件数据配置成上、下电路型,该字段表述的是设备类
11、型,对实际告警处理意义不大;Address:TP2.8表示该设备具体产生信息的一个部件,TP表示机盘类型为支路单元盘,2表示第二块支路单元盘,8表示是该支路单元盘的第8个支路;EntityType:CEPT1 代表TP2.8的端口属性是2M电路;Severity:INFO,信息类型的告警,这是一种告警等级较低的告警。告警等级是用来提醒网络管理人员是否需要做出快速反应,技术人员可以根据不同的告警等级知道自己进行修复的时限,等级从高到低依次为CRITICAL,PROMPT,DEFFERD,INFO,CLEARD,其中CLEARD的告警等级与其他告警等级的关系是产生与解除的关系,表2中,第一条记录是
12、告警产生,第三条记录对应于该条告警解除;Condition:PFcREM这条告警信息表明远端收信号不好,问题发生在告警部件发信号、远端设备收信号线路上,处理障碍时需要根据该条信息,判断具体可能故障段落,并派相关技术人员到现场进行处理;ServiceAffect: NSA(no service affected) 表明该告警信息不影响网络使用,SA(service affected)表明该条告警信息实际影响的业务,该字段的定义在各相关专业厂家网管的定义各不相同,因此借鉴意义不大;EventTime:第一条记录的2003-6-1 0:10:28 表示 2003年6月1日 0:10:28是产生的告警
13、时间,第三条记录的2003-6-1 0:40:55表示2003年6月1日 0:40:55 是产生解除告警的时间。实际上,用于分析处理具体告警信息,定位一个故障(告警)的主要字段是TID,ADDRESS,CONDITION和EventTime。我们需要知道发生故障的网元设备名称及相关部件,才能对应具体的物理设备及端口位置;需要知道发生的具体信息,初步判断可能的问题,对应可能的解决办法;需要知道该条信息的发生时间,做告警的总体分析及具体掌握告警的处理方法与时限。2.2告警关联规则模型关联规则描述不同事物之间的相互依存性和关联性,关联规则的基本模型是7:设I =i1, i2, im为项的集合。设任务
14、相关的数据D为数据库事务(transaction)的集合,其中每个事务T是项的集合,使得TI 。每一个事务有唯一的标识,记TID。设A是一个项集,如果AT,则称事务T包含A。一个关联规则是形如AB的蕴涵式,这里AI, BI,并且AB=F。规则AB在事务数据库D中的支持度(support)是事务集中包含A和B的事务数与所有事务数之比,即概率P(AB),记为support(AB)。规则AB在事务集中的可信度(confidence)是指D中包含A的事务的同时包含B的事务的百分比,即条件概率P(B|A),记为confidence(AB)。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于
15、用户给定的最小支持度(min_supp)和最小可信度(min_conf)的关联规则。关联规则挖掘通过分析事务数据库中的事务,发现不同项之间的关联关系,其中事务是由项组成的集合。直接运用一般的关联规则挖掘工具对原始告警进行相关性分析存在的如下问题:l 一个故障往往引发很多个告警:一个故障可能导致同一设备产生多个告警;故障本身可能间歇性发生,这意味着每当故障发生时,告警事件便产生;一个告警可能被多个网络部件检测到,每一个部件都发送告警事件;l 告警事件中包含许多无须关注的信息和冗余信息;l 数据不完整:通常都假设可以获得网络设备发出的全部告警信息,但在某些特殊情况下,一些信息无法获得,例如网络管理
16、通道中断,告警信息就无法继续传送;l 时间不同步:在庞大的通信网络中,同类,异类设备网元的时间无法统一,导致告警事件的时间存在一定的误差,给告警事件的分析带来很大的困难。鉴于以上的问题,我们重点分析了电信网络中相关告警的特点,采用以下处理方法将原始告警组织成一个个告警事务,解决了多个相关告警时间不同步问题:1对原始告警数据预处理,提取出TID,Address,Condition,AlarmTime(告警时间)和ClearTime(解除时间)。这里的ClearTime是一个很重要的因素,但它只是作为一条独立的告警存在于后续的告警数据中,所以,往往被忽略。告警的解除时间可以从后续的告警中识别提取出
17、来,如表2第4行的告警实际上是第一行的告警的解除报告,第一条告警的解除时间,必须从第4行的告警中提取出来。2TID,Address,Condition几个字段进行合并处理:定位一个故障(告警)必须根据发生故障的网元设备名称及相关部件,才能判断具体的物理设备及端口位置;根据故障的具体信息,才能判断可能的问题,对应可能的解决办法。3时间折叠处理:为解决相关告警时间不同步的问题,本文提出时间折叠窗口的概念,在一段时间内发生的几件事件可以被看作是同时发生的。如果时间折叠窗口被设置为0,那么序列模式就是两个事件发生在不同的时间里如A告警与B告警发生在不同时间里。如果时间折叠窗口被设置为一段时间间隔(例如
18、一分钟或者是一小时),那么在这段时间内的告警在分析中可以被看作是同时发生的。4聚集处理:将告警按其产生时间与清除时间做对应的聚集处理。因为对一个告警信息来说,如果是它触发了另一个告警信息的产生,那么解除这个告警同样会使它触发的相关告警也被解除,所以将告警产生时间在同一时间折叠窗口内并且解除时间也在同一时间折叠窗口内的告警组织成一个告警事务。基于上述考虑,一个告警关联规则模型可形式化定义为:令TID+ADDRESS+CONDITION为告警项,AI=ai1, ai2, aim为告警项的集合。设d为折叠时间窗口长,告警数据集AD为告警事务的集合,其中每个告警事务AT是告警项的集合,使得ATAI,A
19、T中的每个告警项的告警原始信息的告警产生时间均在同一折叠时间窗口中,并且其解除时间也均在同一折叠时间窗口中。每一个事务有唯一的标识,记作TID。设X是一个告警项集,如果XAT,则称告警事务AT包含X。例如:如果折叠时间窗口长设为2分钟,则表2中的4个告警,可组成一个包含2个告警项的告警事务:QZLOCALJYFOUR/79+TP2.8+PFcREMQZLOCALLXFOUR/84+TP1.15+PFcREM经过上述处理,数据量大大压缩。一个告警关联规则是形如XY的蕴涵式,这里XAI, YAI,并且XY=F。规则XY在告警事务数据集AD中的支持度(support(XY))是告警事务集中包含X和Y
20、的告警事务数与所有告警事务数之比。规则XY在事务集中的可信度(confidence(XY))是指包含X的事务同时包含Y的百分比。给定一个告警事务数据集AD,挖掘告警相关规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(min_supp)和最小可信度(min_conf)的告警关联规则。3. 实验3.1 数据准备数据准备是数据挖掘过程中必不可少的一步,数据挖掘最后成功与否,数据准备起到了至关重要的作用。目前我国各电信运营商大都拥有一个规模宏大的电信网络,如本地程控交换网、长途和国际交换网、本地光缆网、SDH和PDH传输网、接入网、帧中继网、分组交换网、DDN网、智能网、ISDN网、ATM
21、宽带业务网、多媒体通信网以及互联网等多种电信网络。原中国电信自九五计划以来已经建设运行的网管与监控系统主要有(如图1):图1 已建成运行的网管与监控系统l 电话交换网网管系统:国际电话网络管理系统、国内长途电话网管系统、本地电话网网管与集中维护系统;l 传输网网管系统:PDH、SDH、DWDM网管系统;l N0.7信令网网管系统:国际七号信令网管系统、骨干网N0.7信令网网管系统、省级N0.7信令网网管系统;l 智能网管理系统:骨干智能网营业管理系统、智能网业务管理中心系统;l 数字同步网监控与管理系统;l 数据网网管系统;l 市内电话业务计算机综合管理系统;l 通信电源、机房空调集中监控系统
22、等。运行维护人员可以通过这些管理系统,对电话网、传输网、信令网、同步网等实时监视;可以对全网进行数据配置和数据管理;对全网的运行情况进行统计分析,制定网络发展规划方案,等等,基本实现了对各个专业网络的集中监视、指挥、控制、调度和分析,对保证网络正常运行和业务质量发挥了明显作用。实验中,我们以2003年6月到2004年1月泉州电信网络的告警原始数据作为实验数据,图2列出部分实验数据。图2 实验数据数据准备工作包括: l 数据采集:我们直接从专业网管相应的告警表中提取原始告警数据,按上述模型的要求进行处理提取出每条告警的TID,Address,Condition,AlarmTime和ClearTi
23、me;l 将TID,Address,Condition几个字段进行合并;l 时间折叠处理:设定的折叠时间窗口长为5分钟。然后,按告警产生时间与解除时间做对应的聚集处理,将告警产生时间在同一时间折叠窗口内并且解除时间均在同一时间折叠窗口内的告警组织成一个个告警事务。3.2 应用挖掘工具发现关联规则l 选择挖掘工具:本实验选用了IBM公司的数据挖掘工具IM for Data的关联挖掘;l 指定最小支持度为1%,最小置信度25%。结果得到告警相关性规则678条,图3列出了部分结果。图3 告警相关性规则本模型在定义告警事务时,不仅要求同一事务中所有告警项的告警产生时间在同一时间折叠窗口内还要求其解除时
24、间也必须在同一时间折叠窗口内,大大压缩了挖掘的结果集,使得挖掘结果比较准确地反映了告警的相关性。对此我们做了比较,如果像其它模型45只考虑告警产生时间,不考虑告警清除时间,选择同样的原始告警数据、同样的折叠时间窗口长、同样的最小支持度和最小置信度,挖掘结果得到告警相关性规则1378条,这些多出来的规则绝大部分是无用的。3.3 分析结果大多数的规则正如所期望的那样,反映了告警信息的相关性和网元设备的相关性:如:结果集中的规则DONGHAIDP/50+-+ LOCALXPMUXTWO/02+-+表明名称为DONGHAIDP/50的设备与名称为LOCALXPMUXTWO/02的设备存在较强的告警相关
25、性,经检查这是因为两设备间对开的通路多。又如:NANANLD/31+TP7.12+HcLOS NANANMS/10+TP7.12+PFcREM,很清晰地看到由于NANANLD/31的部件TP7.12产生的HcLOS的告警信息导致NANANMS/10的部件TP7.12产生PFcREM告警,这条相关性规则说明了两个问题:网络资源的相关性:NANANLD/31+TP7.12与NANANMS/10+TP7.12在网络连接上是相关的;告警信息的相关性:HCLOS的告警信息与PFCREM告警信息相关。据维护人员经验分析,本方法增加了对告警清除时间这一方面的考虑是很有效的。4. 小结根据目前电信网络维护管理
26、现状及需求,本文在深入研究告警信息的特点的基础上,提出了一个基于关联规则挖掘的告警相关性分析模型,并采用C+语言开发了用来对告警数据进行预处理的程序,实现了包括时间段(时间序列)选择、告警清除时间的识别提取、时间折叠窗口长设置、对告警时间段及告警清除时间进行时间折叠处理,将原始告警组织成告警事务等功能。实验结果表明,经过处理后的告警事务集可直接用一般的关联规则挖掘工具实现告警关联规则挖掘任务,本文所提出的告警相关性分析模型具有实用性和一定的创新性。参考文献:1 梁冰.BRM:行业应用新宠。计算机世界报,第14期。2 故障模块 事件 处理 故障处理 日志管理.htm。3 Denise W Gue
27、r, Lrfan khan, Richard Ogier, An Artificial Intelligence Approach to Network Fault Management, http:/www.sce.carleton.ca/netmanage/docs/ An_AI_Approach.pdf.4 Hatonen K, Klemettinen M, manila H et al, Knowledge Discovery from Telecommunication Network Alarm Database, 12th international conference on
28、Data Engineering (ICDE 96), New Orleans, Louisiana, 1996.5 Htnen,K., Klemettinen,M., Mannila, H., Ronkainen, P., Toivonen, H., TASA: Telecommunications Alarm Sequence Analyzer, In IEEE/IFIP Network Operations and Management Symposium (NOMS96), pp.520-529, Kyoto, Japan, April 1996.6 郑庆国,吕卫锋. 通信网络中的告警
29、相关性研究.计算机工程与应用,2002.2。7 Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, 北京:高等教育出版社,2001。An Association-Rule-Based Model for Telecom Alarm Correlation AnalysisWU Yangyang1, CHEN Huainan2(1 Computer Science Department, HuaQiao University, Quanzhou, Fujian 362021,China;2 Fujian T
30、elecom Corporation Quanzhou Branch, Quanzhou, Fujian 362000,China)Abstract: Telecommunication networks produce large volumes of alarms daily. Using technology of association rule mining, alarm correlation rules can be discovered from telecom network alarm databases. The discovered rules are useful i
31、n locating problems in the network and filtering redundant alarms. In this paper, the alarms from telecom networks are discussed and then an association-rule-based model for telecom alarm correlation analysis is introduced. The model gives an approach to combine the correlated alarms to form an alar
32、m transaction. The approach not only solves the problem of loss of synchronization of correlated alarm in the network, but also reduces the number of rules in the result. With this approach, general tools of association rule mining can find the interesting alarm correlation rules. The primary experiment shows the model is practical.Key words: alarm correlation; association rule mining; data preprocess