中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc

上传人:仙人指路1688 文档编号:3043071 上传时间:2023-03-09 格式:DOC 页数:43 大小:541.50KB
返回 下载 相关 举报
中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc_第1页
第1页 / 共43页
中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc_第2页
第2页 / 共43页
中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc_第3页
第3页 / 共43页
中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc_第4页
第4页 / 共43页
中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc》由会员分享,可在线阅读,更多相关《中国移动NGBOSS2BOMC(V3.0)监控管理中心分册.doc(43页珍藏版)》请在三一办公上搜索。

1、中国移动通信企业标准QB-J-0XX-2010业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范监控管理中心分册版本号:1.0.0 目 录1.范围12.引用标准33.术语和定义54.符号和缩略语65.总体功能描述75.1功能定位75.2功能框架85.3功能演进96.功能要求106.1告警管理106.1.1告警策略管理106.1.2告警数据处理146.1.3告警操作166.2预警管理186.2.1预警策略管理186.2.2预警数据处理216.2.3预警操作226.3诊断管理246.3.1概述246.3.2故障定位与诊断266.3.3故障恢复286.3.4诊断操作固化286.4操作控制

2、管理296.4.1维护控制296.4.2部署控制316.4.3自动巡检336.5监控展示346.5.1展示内容356.5.2展示方式377.接口要求408.技术要求429.编制历史439.1版本信息439.2更新时间431. 范围本规范作为中国移动业务支撑网运营管理系统NG2-BOMC3.0规范的组成部分,阐述了监控管理中心总体架构和建设目标,从体系结构、管理范围、功能和技术要求等方面进行了规范性描述。本规范适用于中国移动业务支撑网运营管理系统的开发、设计和建设,供中国移动内部和厂商共同使用;是中国移动各省(直辖市、自治区)业务支撑网运营管理系统建设和软件开发的技术指导性文件。中国移动业务支撑

3、网运营管理系统NG2-BOMC3.0规范由一本总册、7本分册组成,分别为:中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-总册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-资源管理分册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-指标管理分册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-监控管理中心分册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-业务管理中心分册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-运维管理中心分册中国移动业务支撑网

4、运营管理系统NGBOSS2-BOMC(V3.0)规范-运营分析中心分册中国移动业务支撑网运营管理系统NGBOSS2-BOMC(V3.0)规范-省部两级接口分册2. 引用标准1NGBOSS2-BOSS(V3.0)业务规范V1.0.02NGBOSS2-BOSS(V3.0)技术规范V1.0.03NGBOSS2-CRM(V3.0)业务规范V1.0.04NGBOSS2-CRM(V3.0)技术规范V1.0.05NGBOSS1-宽带P-BOSS(V1.0)业务规范V1.0.06NGBOSS1-宽带P-BOSS(V1.0)技术规范V1.0.07NGBOSS2-BASS(V3.0)业务规范V1.0.08NGBO

5、SS2-BASS(V3.0)技术规范V1.0.09业务支撑系统运营管理指标体系(v1.2)10中国移动业务支撑网运营管理系统规范V2.0.03. 术语和定义表3-1 术语定义表:名词解释资源运营管理系统所有管理对象,包括业务支撑网各系统的软硬件、应用、业务。概念来源于SID模型中的ManangedEntity。业务资源的一类,指运营商为客户提供的服务,也可以叫做业务服务。如:缴费、开户等。应用资源的一类,从系统的视角定义各系统模块提供的服务,也可以叫做应用服务。如:计费预处理、计费采集等。逻辑资源资源的一类,逻辑上客观存在的管理对象。如:文件系统、表等。物理资源资源的一类,物理上客观存在的管理

6、对象。如:主机、系统软件等。业务过程业务过程是一组有关联的业务的组合,用来描述特定业务场景下一组业务的序列关系。故障指因业务支撑系统错误或反映支撑系统部分或全部功能不能正常使用的状态 如:系统宕机、进程僵死等。告警告警是指在资源出现故障或性能达到阈值时,监控系统或者资源本身对外发布的警示信息。预警预警是指除明确的故障告警以及性能告警以外,通过对性能数据分析,发现潜在的问题,提前产生的警示信息。指标采用量化的方式对一个对象进行测量评价的数据定义称为指标。指标包括故障指标、性能指标等。指标维度指标维度是指在用指标评价对象的时候,所引用的不同视角。指标类型对指标按评价要求进行的分类,如时长、效率、数

7、量等。组织指以人为元素构成的实体,如:移动公司、业务支撑中心、各科室部门。可用性业务可用性是对业务是否可用表现的评价。业务水平业务水平管理是通过建立业务水平标准,从区域或渠道等维度评估业务办理效率。业务健康度业务健康度基于业务管理模型将业务可用性、业务水平,结合应用及平台资源使用情况通过计算实现对业务运营健康状态的综合评价。服务水平指业务支撑部门对外提供服务的性能和质量度量。能力管理指通过对业务支撑系统测量和记录系统容量、系统性能等服务信息来评估和预测系统和业务的未来需要。4. 符号和缩略语表4-1符号和缩略语说明缩写英文中文描述BOMCBusiness Operation Managemen

8、t Center业务支撑网运营管理系统BOSSBusiness Operation Support System中国移动定义和建设的业务运营支撑系统BASSBusiness Analyse Support System业务分析支撑系统CRMCustom Relationship Management客户关系管理PBOSSProduct Business Operation Support System产品运营支撑系统BAMBusiness Activity Monitor业务活动监控KPIKey Performance Indicator关键运行指标KQIKey Quality Indicat

9、or关键质量指标4AAccount、Authentication、Authorization and Audit帐号管理、授权管理、认证管理与审计管理ITILIT Infrastructure LibraryIT基础设施库,是英国国家电脑局开发的IT管理最佳实践文档CIConfiguration Item配置项CMDBConfiguration Management DatabaseITIL中定义的配置管理数据库SLAService Level Agreement服务级别协议SLMService Level Management服务水平管理SNMPSimple Network Manageme

10、nt Protocol简单网络管理协议CORBACommon Object Request Broker Architecture 公共对象请求中介结构SMTPSimple Mail Transfer Protocol简单邮件传送协议FTPFile Transfer Protocol文件传输协议WAPWireless Application Protocol无线应用协议5. 总体功能描述5.1 功能定位监控管理中心在原有业务管理平台基础上,从使用对象的角度进行功能归整和聚合,形成面向监控人员日常告警管理、故障诊断、操作控制等的监控全周期闭环管理功能,同时增加了面向监控和运维人员的预警管理功能,

11、对潜在的业务问题进行提前预警,进而实现对业务支撑系统基础架构和业务服务的集中监控、一点监控,达到及时发现问题,辅助快速定位及解决问题的目标。n 面向监控人员,满足平台、应用、业务运行监控的需要,提供告警和预警管理功能,对平台、应用、业务提供全面的监控管理。n 面向运维人员提供预警管理、故障诊断和操作控制功能,以运维人员的日常工作为目标,实现日常维护工作的电子化、集中化、自动化,提高运维工作协同能力,强化知识积累,提升运维人员工作效率和准确性。n 主要包括预警管理、告警管理、诊断管理、操作控制管理功能,以及监控展示能力建设;n 监控数据范围:监控数据按数据类型可划分为告警数据和性能数据;按资源类

12、型划分又分为:物理资源数据、应用资源数据、业务资源数据、逻辑资源数据、其他资源数据。图5-1监控管理中心功能定位及关系示意图监控管理中心以“一点监控、全面监控”能力整合为基础,提供业务支撑系统的全生命周期闭环监控管理功能,通过综合运营门户对外提供监控管理能力和监控展现,同时通过综合运营门户进行监控策略部署和优化;监控管理中心通过资源管理获取基础资源及关系数据,为故障诊断和恢复提供基础数据;通过指标管理的统一指标库获取基础监控数据,包括性能数据、故障数据等,进行统一的规则设置,触发相应的告警及预警信息。监控管理中心对自身触发的告警和预警信息进行集中展现,并提供统一的操作管理功能,同时,对业务管理

13、中心和运营分析中心的相关告警和预警信息进行统一的展现和操作。监控管理中心通过与运维管理中心的双向互通,实现运维工单流转的闭环。5.2 功能框架监控管理中心包括预警管理、告警管理、诊断管理、操作控制管理,通过监控展示实现监控管理的统一集中展现。图5-2监控管理中心功能框架图n 监控展示:按照全景展示的总体目标,对监控展示范围、展示方式进行明确的定义和说明,通过不同粒度展示运营的状态。n 预警管理:预警管理包括预警策略管理、预警处理、预警操作。预警策略管理提供警生成策略、预警自动推送策略配置等功能;预警处理按照预警策略配置提供预警生成、预警推送的规则执行功能;预警操作提供丰富的预警日常操作功能。

14、n 告警管理:告警管理包括告警策略管理、告警处理、告警操作;告警策略管理提供告警生成、告警自动处理等灵活的策略配置,告警处理提供告警生成、告警自动处理等策略规则执行功能,告警操作面向监控管理人员提供日常告警处理功能。n 诊断管理:诊断管理包括故障定位与诊断、故障恢复、诊断操作固化。诊断管理在获得故障信息后,通过相关信息收集、参照固化的诊断流程,进行故障定位,进而进行故障恢复。诊断操作固化是诊断管理的基础,包括诊断操作和修复操作固化等。n 操作控制管理:操作控制管理包括维护控制、部署控制、自动巡检。维护控制是日常运维的集中操作控制平台,为运维人员提供监测和操作控制的一体化管理功能部署控制提供统一

15、平台实现软件分发与部署的流程化和自动化,包括软件包的分发、部署和结果检查等;自动巡检为日常运维管理中的日常巡检操作提供规范化管理和自动化执行等功能。5.3 功能演进监控管理中心是在原有业务管理平台基础上演进而来,保留并整合了前期规范中告警处理、性能处理等功能,形成了告警管理和预警管理,在故障监控功能上扩展为诊断管理、操作控制管理,并将原有的拓扑应用整合到监控展示中,对监控展示进行了丰富和扩展。以下是BOMC系统监控管理方面的功能演进: 表5-1 监控管理中心演进说明功能前期本期远期预警管理性能处理关键资源的预警管理,简单初步的预警分析方式。广泛的资源覆盖,复杂的预警分析方法和策略配置。告警管理

16、告警处理、性能处理对告警管理功能进行分层,包括告警策略管理、告警数据处理、告警操作。丰富扩展告警生成策略,优化告警数据处理规则及告警操作。诊断管理基本的诊断平台,诊断信息收集、诊断操作固化。诊断流程自动化。操作控制可选项基本维护控制平台建设,部署控制规范化管理,提供自动巡检部署和统一执行功能;丰富操作控制内容及方式,实现部署控制自动化、巡检智能化。6. 功能要求6.1 告警管理告警管理提供告警生成、告警自动处理等灵活的策略控制功能,以及IT基础设施、应用软件及业务运行状态告警数据的统一处理和告警操作功能。告警管理主要包括告警策略管理、告警处理、告警操作等功能。6.1.1 告警策略管理告警策略管

17、理,包括告警信息定义,告警策略配置,告警策略展现,告警策略查询、策略有效性验证等功能,通过灵活的告警策略配置保证监控的快速部署和实施,通过告警策略有效性管理保证告警的准确性,并通过告警策略的展现和查询,帮助监控人员对告警策略进行全面掌握。n 告警信息定义,对告警信息数据分类和告警信息的内容及级别进行定义和管理;n 告警策略配置,包括对告警的生成策略、告警推送策略、告警自动处理策略进行统一配置管理。n 告警策略展示和查询,提供对告警策略配置现状进行全景展示,并提供按条件查询。n 告警策略验证,提供相关的机制对告警策略的有效性、告警触发的及时性、准确性等进行验证。6.1.1.1 告警信息定义n 告

18、警数据分类:按照告警数据所属资源的类别,将告警数据划分为如下类别:平台告警、应用告警、业务告警、逻辑类告警、其他类告警。针对每种类别的告警,根据告警信息的严重程度、影响范围以及与企业相应考核指标的关系确定告警级别,具体参考以下三级:严重告警(Critical)、重要告警(Major)、轻微告警(Minor)。 严重告警(Critical):指告警信息的严重程度高、对系统业务影响重大,需要 7 x 24 小时处理的告警。 主要告警(Major):指告警信息的严重程度较高、对系统业务有一定影响,需要 5 x 8 小时处理的告警。 轻微告警(Minor):指告警信息的严重程度低、对系统业务影响小的告

19、警,不需要处理,关注即可。建议告警级别与颜色的对应关系见下表:表 6-1 告警级别颜色对应表告警级别颜色严重告警(Critical)红色主要告警(Major)紫色轻微告警(Minor)黄色n 告警数据内容告警数据内容可以参考以下内容:表 6-2 告警数据内容表中文名称说明告警的序列号产生告警消息的序列号告警KPI标识告警KPI的标识配置项关联的配置项告警发生时间告警发生时间告警确认时间告警确认时间告警清除时间告警清除时间原始告警类型原始告警数据中的告警类型原始告警级别原始告警数据中的告警级别重定义告警类型处理后告警数据中的告警类型重定义告警级别处理后告警数据中的告警级别告警状态告警当前状态告警

20、源告警发生源确认操作员确认操作员用户名清除操作员清除操作员用户名告警标题告警标题告警内容告警内容6.1.1.2 告警策略配置【功能定义】告警策略配置的效率,是监控快速部署、提高系统监控效率的保证,同时可以极大地提高管理人员的工作效率。【功能要求】n 告警生成策略配置 故障类告警信息,按照级别定义自动生成相应告警。 性能指标包括平台性能指标、应用性能指标、业务性能指标,根据阀值进行告警配置,生成相应级别告警。包括:1. 静态阀值告警:指性能指标数据超过设定的静态阀值触发的告警事件。2. 动态阀值告警:指性能指标数据超过动态阀值触发的告警事件,动态阀值是指监控周期内随时间变化按照策略配置进行动态变

21、化的阀值。n 告警自动处理策略配置提供对告警批量自动处理的相关策略,为定期维护和批量处理提供灵活的配置,如某天上午10点到下午5点进行某系统维护和升级,则可以通过对系统相关实体在这个时段内进行告警策略无效配置。n 告警推送策略配置 告警推送就是通过丰富的告警推送接口,进行告警推送,对不同的监控人员可以推送不同的告警消息,可以按如下告警分类进行告警信息推送定制,如告警级别、告警实体对象、告警实体类别、告警实体业务类别、告警实体地域属性等;监控人员可以定制接收告警推送的时间段,按时间段进行推送,如在某时间段接受3级电子渠道业务告警;策略配置实现以下功能: 提供通用策略配置模板,包括生成策略模板、自

22、动处理模板、推送策略模板,并提供按照监控实体、告警类型等分类的策略配置模板; 提供策略配置模版定制功能,新增监控实体类可以通过配置模版定制告警策略。 提供策略配置模版编辑功能,实体类的监控策略的变化,通过模版编辑进行修改更新; 告警策略配置可以部分或全部引用配置模版,也可以独立完成配置,独立配置优先于模板配置生效,保证监控策略配置的灵活性。 支持通过统一的图形化的配置界面,实现灵活的配置参数设定。6.1.1.3 告警策略展现及查询【功能定义】通过告警策略展现,使监控人员对被管实体告警策略的配置情况全面掌握,并通过设定条件,对具体的告警策略进行查询。【功能要求】n 按照告警策略类别等进行告警策略

23、展现,对被管实体的监控策略通过实时的查询,准确反映当前被管实体的监控策略;n 在监控视图上,提供展示被管实体的告警策略功能;n 系统实时对所有被管实体的监控策略作查询并记录;n 提供监控策略的查询功能,对被管实体监控策略作关键字查询,则展示与关键字相关的被管实体的监控策略;n 提供按实体类的查询,展示同类实体的监控策略;n 提供告警策略报表统计;6.1.1.4 告警策略验证 【功能定义】告警策略的配置,可以实现对被管实体进行监控,而告警策略是否有效则是监控有效性的保证,告警策略的失效会带来极大的监控隐患,通过告警策略有效性验证可以保证告警策略的有效性。【功能要求】n 告警策略配置完成后,可以通

24、过自动或手动进行有效性验证,并对有效性进行图形化展示;n 提供告警策略有效性验证规则定义,定义告警策略有效性验证标准。n 对监控实体进行告警策略有效性进行批量验证。n 定期进行告警策略有效性监测,对无效监控策略进行告警;6.1.2 告警数据处理告警处理主要包含对告警数据的系统后台处理,包括告警数据的预处理、告警级别定义、告警关联、告警压缩、告警过滤、告警归并等。对故障类告警信息、性能数据进行统一的、可配置的规则化处理。6.1.2.1 处理原则n 实时性:保证能够及时处理关键告警信息。n 准确性:保证告警信息的准确并能根据配置要求得到准确处理。n 参数化管理:提供灵活的参数化配置,保证告警处理具

25、有很强的适应性。6.1.2.2 数据处理【功能定义】根据告警策略配置,对告警数据进行处理。【功能要求】n 告警规则处理 根据告警生成策略配置,对故障告警数据、性能数据、业务告警数据等进行规则化处理,生成相应的告警; 根据告警自动处理策略配置,进行告警自动化处理; 根据告警推送的策略配置,进行告警自动推送处理;n 告警过滤按维护要求和管理部门的要求及实际管理情况,针对单位时间内发生大量告警或者已知告警,设置过滤规则,过滤从底层产生的告警信息中不重要的信息,减少大量无用告警的干扰,以提高监控与处理的效率。同时可以根据业务与平台的关联关系,对业务与平台两层面的告警数据进行关联分析,定位主要告警、过滤

26、掉关联告警,提高告警的处理效率。告警过滤需要提供灵活的过滤规则,可按告警配置项、告警级别、告警类别、告警标题、告警时间等设置过滤规则。被过滤的告警信息可以选择是否入告警数据库。对已设定的过滤规则需要提供保存和修改功能,便于维护人员灵活选择。告警过滤应实现对以下告警的过滤: 频繁发生的同一告警 由主要告警引起的相关大量的关联告警 用户确认一段时间内可以忽略的告警 周期产生的维护类告警 已进入服务管理流程进行处理,一定时间内重复发送的告警 特殊情况下,只需要记录不需要展现的特殊资源的相关告警nn 告警压缩 告警压缩是对不同时间产生的相同告警,将其压缩成一条告警信息,同时累计该告警的次数,第一次告警

27、发生时间和最后发生时间等。 在进行告警压缩时,应只保留一条压缩后的告警信息,应更新告警记录的发生次数、最后发生时间等信息。 应能够灵活的定义压缩规则,通过组合不同的告警信息字段设置告警压缩规则。n 告警信息丰富应能够实现与资源数据的实时关联,对告警信息进行丰富,增加对告警信息的描述,如对于系统告警,增加相应的厂家、设备型号和描述信息等。n 告警关联处理实现告警发生及恢复、维护期设备告警处理等告警关联处理功能。提供告警关联恢复功能,如当一个端口发生故障后,如果重新恢复正常,那么应能够自动找到其相关的端口故障事件,并将其状态设置为清除,表示故障已经恢复。提供用户灵活定义告警关联规则的功能。通过组合

28、不同的告警信息字段设置告警关联处理规则。根据日常维护的需要设置设备维护时间,在此期间系统应对其产生告警信息进行特殊处理,如增加维护期标识、降低告警级别等。根据维护的实际情况,迅速计算出各类历时信息,如收到告警到告警确认历时、告警发生到告警恢复历时等。灵活的设置各类告警历时的门限,一旦出现超越门限情况,应能够进行告警级别自动升级等相关操作。提供用户灵活定义各类告警历时的计算规则。提供用户灵活定义历时越限情况下的告警自动处理规则。n 告警推送系统提供告警推送功能,将告警信息以各种手段(手机短信、EMAIL等)转至指定的维护人员,应能够灵活的设置推送条件、告警内容等。 告警推送条件告警推送的设置条件

29、:告警级别、告警发生时间、告警标题、告警类型、告警设备所在地区、告警内容关键字模糊匹配、需要通知的相关系统和人员等。管理员可以存储设定的告警推送条件,并可对告警推送条件列表进行增、删、改、查等操作。 告警推送内容 可以根据告警数据的内容自由定义推送内容,并能手工编辑推送内容。系统可根据规则对告警自动进行工单创建,并将告警事件工单发送到运维管理中心进行处理。n 告警级别重定义根据系统平台及应用逻辑在结构、功能等方面发生的变化,重新定义告警数据所属的类别和级别,保证告警系统处理的正确性。6.1.3 告警操作【功能定义】告警操作面向监控人员提供告警操作管理功能,包括告警故障定位、告警确认、告警清除、

30、告警升降级、告警派单、告警推送、告警显示过滤、告警查询。【功能要求】n 告警故障定位告警故障定位应与配置数据和应用逻辑相结合,参考设备厂商或应用软件开发商提供的最小粒度进行定位,如主机、CPU、路由模块、网络接口卡、关键业务点等。应能够灵活调用诊断管理相应诊断功能,告警故障定位至少要做到被管资源级或关键业务点。n 告警确认 告警确认主要是对告警承载的信息予以认可,以形成有效的告警。 系统应产生确认时间等确认信息。 支持告警批量确认的功能。 提供自动确认配置功能。 应能够通过组合不同的告警信息字段设置告警自动确认规则。n 告警清除 主要是对于系统中已经处理完毕的告警信息,设置相关的标志,标记为清

31、除。 支持告警自动清除配置;应能够通过组合不同的告警信息字段设置告警自动清除规则。 支持批量告警清除;n 告警升级 支持告警的自动升级配置 告警人工升级n 告警降级 支持告警的自动降级配置 告警人工降级n 告警派单 支持自动派单配置,按照规则配置自动生成工单,规则可包含(告警实体、告警级别、告警类别等告警属性以及告警产生的时间属性); 支持手工工单派发;n 告警推送 支持自动推送配置,配置按照时间、监控管理人员等的推送策略; 可以根据告警数据的内容自由定义推送内容,并能手工编辑内容。 支持多种推送方式,包括短信、邮件等; 支持批量告警推送;n 告警显示过滤对单位时间内发生的大量告警,能按定制的

32、条目(可包含告警元素、告警级别、告警类别或告警节点等)进行过滤。告警显示过滤用于过滤掉从底层提取的告警信息中监控人员认为不重要的信息,只显示监控人员关心的告警信息,从而减少大量无用告警的干扰,以提高监控与处理的效率。n 告警查询 提供定制化的预定义告警查询功能 提供多种条件组合的告警查询6.2 预警管理预警管理,是指除明确的故障告警以及性能告警以外,以历史数据为参考,引入简单的分析方法,通过对性能数据分析处理,发现潜在的问题,提前产生预警,预警可能是告警及故障的准确预判,也可能是正常运营状态下对非合理的运营数据的提示,目的是为运维人员及监控人员获得提前的问题感知能力,得到相对多的处理时间,提供

33、防范问题发生的手段。通过预警策略管理提供灵活的预警控制,主要实现IT基础设施、应用软件及业务运行状态预警的统一处理、操作功能。预警管理主要包括预警策略管理、预警处理、预警操作等功能。6.2.1 预警策略管理预警策略管理,包括预警信息定义,预警策略配置,预警策略展现,预警策略查询等功能,通过预警策略配置的多样性和灵活性保证预警的相对准确性和有效性,并通过告警策略的展现和查询,使运维人员及监控人员对预警策略进行全面掌握。n 预警信息定义,对预警信息数据分类和预警信息的内容及级别进行定义和管理;n 预警策略配置,包括对预警的生成策略、预警推送策略进行统一配置管理。n 预警策略展示和查询,提供对预警策

34、略配置现状进行全景展示,并提供按条件查询。6.2.1.1 预警信息定义n 预警数据分类按照预警数据所属资源的类别,将预警数据划分为如下类别:物理类预警、应用类预警、业务类预警、逻辑类预警、其他类预警。针对每种类别的预警,根据预警信息的严重程度、影响范围以及与企业相应考核指标的关系确定预警级别,具体参考以下2级:重要预警(Major)、一般预警(Normal)。 重要警(Major):指预警信息的严重程度较高、潜在的问题发生的可能性较高,需要 5 x 8 小时处理的预警。 一般预警(Normal):指预警信息的严重程度低、潜在的问题发生的可能性较低,可以作为运营问题分析关注的内容即可。建议预警级

35、别与颜色的对应关系见下表:表 6-3 预警级别颜色对应表预警级别颜色重要预警(Major)橙色一般预警(Normal)黄色n 预警数据内容预警数据内容可以参考以下内容:表 6-4 预警数据内容表中文名称说明预警的序列号产生预警消息的序列号预警KPI标识包含单个或多个KPI的标识配置项名称配置项的识别名预警发生时间预警发生时间预警确认时间预警确认时间预警清除时间预警清除时间原始预警类型原始预警数据中的预警类型原始预警级别原始预警数据中的预警级别预警状态预警当前状态预警源预警发生源确认操作员确认操作员用户名清除操作员清除操作员用户名预警标题预警标题预警内容预警内容6.2.1.2 预警策略配置【功能

36、定义】预警策略配置的效率,是监控快速部署、提高系统监控效率的保证,同时可以极大地提高运维人员和监控人员的工作效率。【功能要求】n 预警生成策略配置 多个相关的低级别故障类告警信息,按照配置策略自动生成相应预警。 对单个或多个性能数据进行分析处理,生成相应级别预警。包括:(一) 趋势预警:在特定的预警周期内,单个性能数据趋势变化幅度超过相应的阀值,则产生相应级别的预警;多个性能数据的变化幅度超过相应的阀值,则产生相应级别的预警。图6-1趋势预警示例图(二) 异动预警:对历史数据进行处理,形成正常的性能数据周期性趋势数据,实际采集的性能数据与趋势数据进行对比,对变化异常的数据进行预警。图6-2异动

37、预警示例图n 预警推送策略配置 预警推送就是通过丰富的预警推送接口,进行预警推送,对不同的运维管理人员可以推送不同的预警消息,可以按如下预警分类进行预警信息推送定制,如预警级别、预警实体对象、预警实体类别、预警实体业务类别、预警实体地域属性等;运维管理人员、监控管理人员可以定制接收预警推送的时间段,按时间段进行推送定义,如在某时间段接受严重级平台类预警;策略配置实现以下功能: 提供通用策略配置模板,包括生成策略模板、推送策略模板; 提供配置模版定制功能,新增监控实体类可以通过配置模版定制预警策略。 提供配置模版编辑功能,实体类的监控策略的变化,通过模版编辑进行修改更新; 预警策略配置可以部分或

38、全部引用配置模版,也可以独立完成配置,独立配置优先与模板配置生效,保证预警策略配置的灵活性。 支持通过统一的图形化的配置界面,实现灵活的配置参数设定。6.2.1.3 预警策略展现及查询【功能定义】通过预警策略展现,使监控管理人员对被管实体预警策略的配置情况全面掌握,并通过设定条件,对具体的预警策略进行查询。【功能要求】n 按照预警策略类别等进行策略预警策略集中展现;n 提供预警策略的查询功能,对预警策略作关键字查询,则展示与关键字相关的被管实体的预警策略;n 提供预警策略报表统计功能;6.2.2 预警数据处理【功能定义】预警数据处理主要包含对预警数据的系统后台处理,包括预警数据规则处理、预警压

39、缩、预警信息丰富、预警关联处理、预警推送等。对来自平台类、应用类、业务类的预警事件进行统一的、可配置的规则化处理。【功能要求】n 预警规则处理 根据预警生成策略配置,对故障告警数据、性能数据、业务告警数据等进行规则化处理,生成相应的预警; 根据预警推送的略配置,进行预警自动推送处理;n 预警压缩 预警压缩是对不同时间产生的相同预警,将其压缩成一条预警信息,同时累计该预警的次数,第一次预警发生时间和最后发生时间等。 在进行预警压缩时,应只保留一条压缩后的预警信息,应更新预警记录的发生次数、最后发生时间等信息。 应能够灵活的定义压缩规则,通过组合不同的预警信息字段设置预警压缩规则。n 预警信息丰富

40、应能够实现与资源数据的实时关联,对预警信息进行丰富,增加对预警信息的描述,如对于系统预警,增加相应的厂家、型号设备和描述信息等。n 预警关联处理提供用户灵活定义预警关联规则的功能。通过组合不同的预警信息字段设置预警关联处理规则。根据日常维护的需要设置设备维护时间,在此期间系统应对其产生预警信息进行特殊处理,如增加维护期标识、降低预警级别等。根据维护的实际情况,迅速计算出各类历时信息,如收到预警到预警确认历时、预警发生到预警恢复历时等。提供用户灵活定义各类预警历时的计算规则。n 预警推送系统提供预警推送功能,将预警信息以各种手段(手机短信、EMAIL等)转至指定的维护人员,应能够灵活的设置推送条

41、件、预警内容等。 预警推送条件预警推送的设置条件:预警级别、预警发生时间、预警标题、预警类型、预警设备所在地区、预警内容关键字模糊匹配、需要通知的相关系统和人员等。管理员可以存储设定的预警推送条件,并可对预警推送条件列表进行增、删、改、查等操作。 预警推送内容可以根据预警数据的内容自由定义推送内容,并能手工编辑内容。 6.2.3 预警操作【功能定义】预警操作面向运维人员和监控人员提供预警操作管理,包括预警问题定位、预警确认、预警清除、预警推送、预警显示过滤、预警查询等操作。【功能定义】n 预警问题定位提供对重要预警的问题定位能力,应与资源管理、业务管理中心、运营分析中心提供的相应查询、展示、分

42、析能力相结合,进行预警问题的粗粒度的定位,并根据问题潜在的影响范围和影响程度,进行相应的推送操作。n 预警确认 预警确认主要是对预警承载的信息予以认可,以形成有效的预警。 系统应产生确认时间等确认信息。 支持预警批量确认的功能。n 预警清除 主要是对于系统中已经处理完毕的预警信息,设置相关的标志,标记为清除。 支持预警自动清除配置;应能够通过组合不同的预警信息字段设置预警自动清除规则。 支持批量预警清除;n 预警推送 支持自动推送配置,配置按照时间、维护管理人员等的推送策略; 可以根据告警数据的内容自由定义推送内容,并能手工编辑内容。 支持多种推送方式,包括短信、邮件等; 支持批量预警推送;n

43、 预警显示过滤单位时间内发生的大量预警,能按定制的条目(可包含预警元素、预警级别、预警类别或预警节点等)进行过滤。显示维护管理人员、监控管理人员关心的预警信息,从而减少轻微预警的干扰,以提高监控与处理的效率。n 预警查询 提供定制化的预定义预警查询功能; 提供多种条件组合的预警查询;6.3 诊断管理诊断管理主要是指在收到故障告警后,管理员综合使用各方面信息,对故障进行根源定位、诊断以及快速修复的过程。其主要目的是加快故障解决的速度,提高业务的可用性。故障诊断不仅针对告警和预警,也针对业务性能问题。同时诊断管理也为运维管理中心的事件和问题管理流程中相应诊断和恢复环节提供技术支撑。6.3.1 概述

44、事件和问题的处理是一个闭环的过程,诊断管理是其中的一个环节。事件(告警)处理的过程如下图所示:图6-3 故障处理全流程示意图故障检测主要通过监控管理中心完成,同时业务管理中心和运营分析中心提供辅助支持。对于重要的故障需要在运维管理中心生成事件单,进行分级、分类,然后交由专门的二线技术专家进行分析和诊断,并实际解决该故障,保证业务服务的正常运行,当确定业务服务正常运行后,运维管理中心关闭该事件。诊断管理包括了事件的闭环处理流程中的故障定位、诊断和恢复的过程。图6-4 诊断管理与相关功能域关系示意图诊断管理主要与下述中心或者系统进行交互:1. 监控管理中心诊断管理从告警管理中获得所有的告警信息,采

45、用告警管理中的事件关联规则定位根原因。在故障定位和诊断的过程中,需要采集大量的详细数据,可以通过监控中心的操作控制管理功能获取。当确定故障根源后,如果有解决方案,则调用监控中心的控制管理功能对系统进行修复操作。2. 业务管理中心在故障定位和诊断过程中,使用业务管理中心的业务过程模型进行业务相互间的影响分析。3. 运维管理中心诊断管理可以查询发生故障的配置项上面最近所发生的事件和变更纪录,也可以查询与故障配置项相关的其他配置项上的事件和变更纪录。诊断管理可以查询运维中心的知识库,以帮助找到合适的解决方案。诊断管理可以根据故障现象在运维中心的已知错误中查找,即查找相同的事件或者问题,然后使用其解决方

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 成人教育


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号