综合运维管理系统实施培训技术方案(DOC55页).doc

上传人:牧羊曲112 文档编号:1888226 上传时间:2022-12-24 格式:DOC 页数:55 大小:8.20MB
返回 下载 相关 举报
综合运维管理系统实施培训技术方案(DOC55页).doc_第1页
第1页 / 共55页
综合运维管理系统实施培训技术方案(DOC55页).doc_第2页
第2页 / 共55页
综合运维管理系统实施培训技术方案(DOC55页).doc_第3页
第3页 / 共55页
综合运维管理系统实施培训技术方案(DOC55页).doc_第4页
第4页 / 共55页
综合运维管理系统实施培训技术方案(DOC55页).doc_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《综合运维管理系统实施培训技术方案(DOC55页).doc》由会员分享,可在线阅读,更多相关《综合运维管理系统实施培训技术方案(DOC55页).doc(55页珍藏版)》请在三一办公上搜索。

1、目录第1章 项目概况31.1. 项目总体背景31.2. 系统维护内容31.3. 项目的总体思路31.3.1. 整体思路31.3.2. 达到的效果31.4. 总体要求31.5. 需求分析31.6. 建设目标3第2章 综合运维管理系统功能32.1. 综合运维系统架构图32.2. 综合监控32.2.1. 综合监控的优势和亮点32.2.2. 管理监控与值班监控的功能32.2.3. 设备运行的功能32.2.4. 线路流量的功能32.3. 主机系统服务资源管理32.3.1. 系统和通用应用数据采集32.3.2. 主机管理32.3.3. 数据库管理32.3.4. 中间件管理32.3.5. 应用管理32.4.

2、 存储管理32.4.1. 存储管理的优势和亮点32.4.2. 部署方式32.5. 故障告警管理32.5.1. 故障管理的优势和亮点32.5.2. 我司故障管理详细介绍32.5.3. 基线数据管理的功能32.5.4. 告警日志查询的功能32.5.5. 辅助查询的功能32.5.6. ARP干扰设置的功能32.5.7. 其他告警32.6. 报表管理32.6.1. 报表管理的优势和亮点32.6.2. 报表内容说明32.6.3. 报表展现类别说明32.6.4. 报表提供方式32.7. 机房管理32.8. 统一监控平台32.8.1. 服务拓扑展现功能说明32.8.2. 运行展现功能说明32.8.3. 告警

3、展现功能说明32.9. 系统管理32.9.1. 系统管理的优势和亮点32.9.2. 用户管理的功能32.9.3. 用户操作审计的功能32.9.4. 当前在线用户的功能32.9.5. 当前用户编辑的功能32.9.6. 网管邮件发送帐号的功能32.10. 交通运维管理功能32.10.1. 服务台32.10.2. 事件管理32.10.3. 问题管理32.10.4. 变更管理32.10.5. 发布管理32.10.6. 资产配置管理32.10.7. 作业管理32.10.8. 知识管理32.10.9. 服务级别管理32.10.10. 排班管理32.11. 硬件&基础软件32.11.1. 硬件构成32.11

4、.2. 故障恢复3第3章 项目管理与实施计划33.1. 项目总则33.2. 项目组织机构33.2.1. 组织架构保证33.2.2. 人员稳定33.3. 项目进度计划33.4. 项目范围内容33.5. 项目实施地点33.6. 项目进度管理33.7. 项目合同变更管理33.8. 项目质量管理33.9. 服务内容33.10. 项目管理33.11. 项目交付成果33.12. 实施准备33.13. 实施人员清单33.14. 实施工作进度计划33.15. 实施技术资料3第4章 培训方案34.1. 培训总论34.2. 培训内容34.2.1. 培训课程表34.2.2. 课程内容简介3第3页共55页第1章 项目

5、概况1.1. 系统维护内容 xxx辖区内道路上总队与支队自建视为所有科技管控设备、执法站的科技设备及系统,统一到云南省公安厅交通管理警察总队布置的科技信息化相关平台。1.2. 项目的总体思路1.2.1. 整体思路项目要在整体统一规划的基础上,采取分阶段、分步骤的策略对现有的信息系统进行建设,实现网络设备的集中监管和维护,通过集中部署管理方式、实现对网络设备的集中监管,全面建成实现一体化统一信息系统交通运维系统平台,实现整个道路交通管理基础设施的集中监控、集中管理和集中维护,全面提高交通管理基础设施运行、管理和维护水平。1.2.2. 达到的效果综合运维管理系统的全面建设,将为基于信息化系统的各项

6、业务和工作的顺利开展提供坚实的技术支撑,为交警日常工作提供良好环境和坚实的基础保障,交通管理部门作为项目成果的使用者、管理者和直接受益者,将从不同角度和层面感受到项目所产生的变革,具体价值体现为:给予交通管理部门一个全局化的管理视角,能够杜绝信息系统运转过程中的黑箱现象,避免管理死角的出现。通过简单直观的图形管控手段替代传统上不直观、不友好的管理界面,通过图形、动画、数据等多媒体手段的集成全方位展现整体信息系统动态运转情况,让管理人员对信息系统的运行情况做到全局掌握和实时了解,及时发现异常或问题,从而迅速介入和及时处理,做到问题早发现、早解决,提高对设备运行管理质量和保障能力。提供对多厂商、跨

7、平台异构交通管理系统的统一管理支持,由管理平台屏蔽它们的底层差异性,采取统一的管理维护方式,从而简化管理、降低管理难度,避免重复投资导致的资金浪费,实现经济好省。管理覆盖全面,实现对构成的各要素、各环节进行全面监控,主要是数据交换平台(网络)、安全,管理平台开放的体系架构和高度的可扩展性不但能够充分满足当前的管理需要,而且能够充分适应未来管理发展的变化,快速实现对新技术、产品的支持和适应,保护现有投资,实现向后兼容性。提供丰富的展现和分析手段,资源使用、系统负荷压力分布一目了然,为有效评估和科学评价提供帮助,确保资源的分配与使用更加科学合理;提高交通管理部门响应速度和支持保障能力,具备从容应对

8、各种突发事件的能力,通过统一平台的主动检测监控,实现各种问题的及时发现、分析、定位并提供一系列管理手段帮助实现故障的快速诊断和精确定位,帮助管理维护人员迅速锁定故障根原因,从而采取正确的措施迅速排障,最大限度降低故障对业务运转的影响;为多部门、多专业进行高效协同提供统一平台,使不同岗位和专业的管理人员,各司其职,相互协调,相互监督,运转流畅,使信息运维管理工作步入管理规范化、管理科学化和办公现代化的轨道;详实的运行维护数据为推行量化的精细管理奠定了基础,解决了交通管理部门进行有效绩效考评的困难,为上级部门和主管领导客观评价交通管理部门的工作成效提供了有力的论据,也有助于交通管理部门客观检查、审

9、视自身工作,总结成绩、经验,发现不足,制定改进计划,持续改进、提高和优化信息管理维护工作;准确掌握问题、故障的多发点,从设计、运行、管理等多环节切入寻找影响系统正常、稳定和可靠运转的关键因素,为深入优化、升级、改造提供有力的数据支持,从而确保信息管理和决策的科学性。集成安全管理,统一管理监控入口,及时捕捉影响系统安全的各种风险因素,提高信息系统整体安全性和坚固性;变被动的响应为主动监控;变事后修复为事前预防;变复杂操作维护为简单管理;变孤立分散管理为集中统一管理;全面扭转交通管理部门在运维工作中被动局面,借助于统一信息内网监管平台的有力支撑,有力推动交通管理部门朝着“全面实现以预防为主、修复为

10、辅的主动式管理”的目标迈进。该项目建设完成后,将会对运行维护和管理水平的整体提高发挥积极的推动和促进作用,做到故障早发现、早解决,确保计算机网络连续、可靠、安全运行,降低发生故障的可能性,提高信息运维部门的运行管理水平和服务保障能力,为信息运维综合监管系统的持续建设与深入应用提供强有力的支持与保障。1.3. 总体要求结合项目特点综合运维管理系统要求如下:实时掌握网络性能数据和故障信息,其中性能数据的获取时间不高于5分钟,告警数据的获取时间不高于30秒。按时间段(天/周/月/季度/年)统计分析网络运行情况,支持设备性能和链路性能图表。实现全路段系统汇总运行的统计分析,例如CPU平均使用情况、内存

11、最大使用情况等。分析数据可以层层下钻,看到各个网络设备相关指标的分析情况。也可以分析某段时间内不同区域不同指标的情况。实时监控、展现网络设备关键指标的变化情况。 支持统一告警台视图展现,可将监控的所有的内容所产生的事件汇总到统一的展现界面,并可通过事件的点击追溯到事故资源的详细指标信息中。核心网络实时监控和分析展现是对核心网络数据深入统计分析,更好地了解核心网络系统的运行状况、分析异常数据变动的原始数据原因。核心网络分析展现通过数据抽取对业务数据进行分析结果展现,同时提供分析所需要的细粒度数据和汇总数据。网络实时监控和分析展现能按时间段(天/周/月/季度/年)统计分析网络指标的情况,分析数据可

12、在时间维度逐层向下查看详细数据。(1)系统需提供多种统计分析手段,如排序、同比、环比等而无需输入任何分析公式(2)监控信息刷新频率可以按照用户的需要进行灵活调整(3)满足实时抽取关键数据,按日批量和增量抽取明细数据(4)监控信息刷新频率可以按照用户的需要进行灵活调整1.4. 需求分析根据需求来看,实际运维工作中是有一些管理工具进行监控工作。但是从实际运维管理工作需求角度出发,现有的管理工具存在较多的问题,这种问题体现在工具相互之间缺乏关联性,工具的非定制性导致采集数据和的实际运维工作存在较大的偏差,因此对于综合运维管理系统需求集中体现在以下几个方面:1) 所有交通管理设备均纳入综合运维管理系统

13、管理综合运维管理系统首先需要的是将所有交通管理设备均纳入管理,这是运维工作管理的基础和核心。只有当所有设备都在管理范围内,对其进行的监控、告警、统计、分析、报表才有实际意义。目前虽然有了一些监控工具,但从实际情况来看,并未将所有设备纳入监控范围,从监控本身角度存在较大的缺失。2) 全面增强的基础监控KPI网络管理系统必须摆脱依赖于原有工具来开展运维工作的情况,需要根据自身运维管理工作特点,有目的有计划的展开各类管理对象的专题分析,比如网络设备监控、链路监控、服务器监控、数据库监控等,通过梳理现有的监控指标尤其是全国范围内用户对上述设备的管理指标,建立健全对基础监控的KPI库,将各类风险纳入到综

14、合运维管理系统中,实现综合运维管理系统及时、快速、有效的对各类故障进行事前可知、事中可控、事后可查的目标。1.5. 建设目标根据局现状和需求进行统筹规划,本着“从实际需要出发,保护已有投资”的原则,将目前已有的、针对网络的分散式监控管理系统,以及数据处理中心的动力集中到一个统一的监控系统,并以适当的形式进行集中展现,为运维人员进行系统、设备的监控、故障定位、故障诊断和解决等运维工作提供信息来源。实现集中统一的事件监控、集中统一的性能监控,从而实现综合运维管理系统的各项业务功能要求。利用综合运维管理系统全面主动反映个业务系统的运行健康情况,通过多种分析手段为合理有效地分配各运维人员和值班人员的人

15、员调度,为制定设备升级、扩容方案提供决策支持。通过综合运维管理系统对业务核心数据进行分析和实时监控,并实现丰富、科学、美观的展示。第2章 综合运维管理系统功能我司系统采用层次化设计,对系统的各个层面进行了建模和抽象,使得各结构层面之间既相互独立,又相互关联,最大程度上提高了系统运行的效率。2.1. 综合运维系统架构图我司平台的架构图如下:从上图,可以直观的看出我司模块清晰,层次分明。各模块之间既相互独立,又互相关联,共同实现了对被管对象的集中监控和管理,另外也通过WEB方式为用户进行了统一的展现。2.2. 综合监控综合监控部分主要是对系统各个监控对象进行快速浏览时使用,适合用户查看管理对象的日

16、常运行情况,操作简单,界面直观明了。通过全网设备负载、线路流量自动TOP N排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。综合监控功能包括:管理监控、值班监控、设备运行、线路流量、峰值流量、环境监控、告警总览、服务总览。2.2.1. 综合监控的优势和亮点l 综合监控是我司系统对所有被管对象的一个综合展示窗口,展现直观方便、关联性强。l 支持全网设备负载自动TOP N排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。l 提供可配置功能,在一个界面上可以配置多个可视化项目。用户可以配置自己个性化的监控首页,这样就可以让用户把自己最关心的东西,一进系统就能马上看到。l 通过业务视

17、图展现各类服务逻辑,并对服务系统的诸多业务关键参数(KPI)进行监控,作为服务管理的基础。l 全网线路流量TOP N排序和峰值流量的展现,告诉用户当前网络的主要流量有哪些、在哪里。l 全网告警预览。让用户一幕了然了解网络中的问题所在。l 自动生成全网设备运行统计率报表。方便用户了解全网的设备运行状况。2.2.2. 管理监控与值班监控的功能对于不同的管理人员对于数据指标的查看需求也有区别,我司系统提供了详细和简单两种不同的管理信息界面,对于值班员偏重于信息的关联,对于运维人员更偏重于信息指标的完整。对于值班员和管理者需要查询的实时信息也是不同类型,系统按照管理要求提供了快捷值班监控和管理监控两个

18、页面。值班监控可通过定制化配置用户所关心关键指标,并实时数据展现,而管理监控则着重于从网络、服务、业务三个方面呈现实时管理效果。2.2.3. 设备运行的功能展现整体系统设备运行情况,并展现CPU/MEM设备TOPN的当前状态2.2.4. 线路流量的功能展现整体系统设备运行情况,并展现流量/帧流量设备TOPN的当前状态2.3. 主机系统服务资源管理通过我司综合管理平台,主要是在用户环境中实现对主机系统及相关系统的综合管理,包括:所有被管信息的收集、系统管理、数据库和中间件的管理、存储系统的管理、资源信息库管理、统一监控平台(对第三方管理软件的整合)。数据采集是针对不同的对象所采用的不同采集方式,

19、包括SNMP、SYSLOG、业务和应用仿真、透明Agent等。对象抽象化层主要负责获取对象的信息,将它们抽象成管理对象,向上屏蔽不同交通管理对象的差异。业务层主要提供具体的应用功能,如服务拓扑管理、报表分析和流程管理等。访问层用户展示管理信息、暴露管理功能,用户通过它发出管理命令,执行日常管理任务。支持的主机类型有:WindowsIBM AIXHP-UNIXSolarisLinux(REDHATSUSE)FreeBSDCentOSNovell TUR642.3.1. 系统和通用应用数据采集我司综合管理平台支持通过SYSLOG、命令集/透明AGENT、SNMP、端口应用仿真等多种监测方式监测服务

20、器,可以获取远程服务器的系统资源,我司支持对Windows、UNIX、Linux、AIX、Solaris、HPUX等多种服务器系统管理和监视,对服务器操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。管理和监视服务器上各应用服务的运行状态和性能数据,包括Ema、HTTP、FTP、EMA、Apache/IIS、数据库、DNS、DHCP服务以及各中间件等。如下图所示:2.3.1.1. 进程状态分析服务器进程控制对整个服务器的运行至关重要,会影响到其操作系统的正常运行和关键服务的正常运行,所以实时掌握服务器的所有进程运行情况是很有必要的

21、。正常情况下运行着大量的系统进程和应用进程。它们在运行过程中会消耗服务器的资源,甚至一些非法的进程可以造成服务器的瘫痪,所以服务器的进程管理也是很有必要的。首先就是进程的数量,第一,如果服务器里运行着的进程过多,势必会占用大量系统资源,进程数量越多,造成服务器不稳定的可能性就越大,所以监视所有进程的总数量可以帮助用户及时了解到服务器的资源情况,出现异常,也可以第一时间让用户了解到他必须现在去看看到底发生了什么事?第二,相同名字的进程数量过多,大部分时间意味着病毒爆发,所以监视同名进程的数量也是很有意义的。我们提供了进程数量的监视,时刻监视服务器所有进程数量或进程名字和设置匹配的进程数量,当出现

22、异常时会在第一时间内提醒用户,保证用户尽早发现问题、解决问题,避免更严重的故障发生。我司综合管理平台能够以表格的方式实时显示服务器的所有进程运行情况,包括进程名称、CPU利用时间、CPU占用情况、当前内存占用情况、运行状态等等,为用户分析服务器的当前运行情况提供详细的实时数据来源。我司综合管理平台支持对服务器上的应用进程情况进行监视,支持使用*和?的通配符统计符合条件的应用进程的数量,当该数量超过/小于指定的阈值时,系统将触发告警。我司综合管理平台也可以直接监视某些特定名称的进程的活动状态。系统中的某一活动着的进程可能对用户非常重要,所以用户会关心这个进程是否一直在进程列表中,我们称这样的进程

23、为“关键进程”;当这些进程出现在进程表中或者不出现在进程表中时,系统将自动触发告警,提醒管理人员及时处理。我司综合管理平台提供对指定进程进行CPU利用率、内存利用率不间断监视的功能。每一个进程都会占用系统资源,如CPU、内存,当某一个进程或某几个进程占用的CPU过高时,会影响到整个服务器的运行,使得运行速度变慢,使得其他进程因为分享不到CPU而无法正常运行;某些进程如果存在内存泄露等问题,会不断申请内存,导致系统内存溢出。我司综合管理平台自动每分钟从服务器上获取最新的进程运行数据,提供各进程的运行趋势分析图,包括进程的CPU占用趋势图、物理内存利用率趋势图,方便管理人员查看各进程一段时间以来的

24、运行情况。2.3.1.2. 文件系统分析很多的应用服务都需要使用磁盘空间进行数据的存储和处理,所以一般情况下,服务器的磁盘空间应该保持一定的空白容量,当磁盘空间低于可控制下限时,用户应该马上进行相应处理,避免磁盘空间被占满后关键服务不能正常运行的情况发生。而且磁盘空间被占满也有可能是病毒引起的,这需要管理人员第一时间就要掌握到,尽量避免病毒的扩散和维护关键服务的正常运行。文件系统分析主要提供服务器上各文件系统的空间大小和使用情况(已用空间、剩余空间、利用率)以及文件系统的名称、类型等基本信息。管理人员可以指定系统的刷新间隔,自动以一定的频率从服务器上读取文件系统信息和参数,便于服务器文件系统的

25、状态监视和处理。2.3.1.3. CPU利用率1、服务器CPU的利用率,可针对系统的每个CPU分别分析其相应的利用率;2、服务器当前进程列表所占用的CPU利用率,CPU使用时间;3、显示服务器CPU性能(分进程显示)实时变化情况和历史变化趋势;4、服务器CPU阈值告警,当服务器CPU负载过大/小,能产生报警;5、服务器进程CPU占用阈值告警,当进程占用CPU过大/小,能产生报警;2.3.1.4. 内存利用率1、服务器内存的利用率;2、服务器当前进程列表所占用的内存利用情况,内存利用率;3、显示服务器内存利用率(分进程显示)实时变化情况和历史变化趋势;4、服务器内存利用率阈值告警,当服务器内存利

26、用率过大/小,能产生报警;5、服务器进程内存利用率阈值告警,当进程占用内存过大/小,能产生报警;2.3.1.5. 硬盘性能分析我司综合管理平台可以收集磁盘性能I/O状态信息。帮助用户分析磁盘读取的繁忙程度,由于磁盘I/O信息是影响系统性能的常见因素,进而得到对优化整个系统性能的参考指标。2.3.1.6. 服务器日志查询、分析我司综合管理平台采用syslog、WMI、telnet、ssh的方式来读取所监控服务器的日志,并可按分钟、小时、日等方式对日志进行查询与分析。2.3.2. 主机管理l 提供对WINDOWS、AIX、LINUX、Solaris等主机系统进行全方位的监测和管理,帮助用户及时了解

27、到各类系统的KPI的运行状态。l 可以关联告警系统,对主机关键指标的异常状态进行告警,让用户可以及时的知道并进行处理。l 可以关联告警系统,对主机的异常进程,或进程的异常状态进行告警,让用户可以及时的知道并进行处理。l 支持动态数据流转图,可以图形化展现CPU负载、内存使用率、硬盘容量、应用进程、文件占用空间、网络流量等信息。l 取数方式灵活,支持Agent和Agentless两种方式供用户选择。l 数据展现方式多样、层层递进物理拓朴图、监控总览、数据流转图、业务拓朴图。我司综合管理平台提供对WINDOWS、AIX、LINUX、Solaris等主机系统的多方面监测和管理:对Windows操作系

28、统主要可以监控如下内容: 服务器的配置信息:自动获取服务器名称、IP地址、系统版本、CPU个数、磁盘大小、内存大小等; 服务器的运行状态:服务器运行状态、服务器磁盘状态、网卡状态、进程总数 服务器CPU运行情况:CPU用户时间百分比、CPU系统时间百分比、CPU运行队列进程个数 服务器内存使用情况:内存利用率、虚拟内存(交换区)的使用率、交换SWAP分区页数量(换入/换出); 服务器磁盘运行指标:磁盘空间利用率、磁盘读/写速率、磁盘TPS指标。 服务器文件管理指标:各文件系统分区的使用率和空闲空间、指定的关键文件是否存在和当前大小; 服务器关键进程运行指标:包括进程ID、进程名、进程状态、占用

29、CPU时间、内存占用大小等; 服务器日志告警:检查服务器的关键日志文件,提取相关的错误日志信息(Warning/error/fa)并生成告警;实时监控操作系统,数据库和应用系统中制定的日志文件,并可根据其中的特定信息,执行用户预定义的操作; HA状态监控,对HA的状态、系统间切换和节点间切换等状态进行主动监测,并记录每一次发生切换发生的时间、相关服务器名称等信息。 对系统服务进行监控,对重要服务的运行故障进行实时告警。下图是我司综合管理平台对Windows监控的界面:对AIX、Solaris、Linux等类Unix系统主要可以监控如下内容: 服务器的配置信息:获取服务器名称、IP地址、系统版本

30、、CPU个数、磁盘大小、内存大小等; 服务器的运行状态:服务器运行状态、服务器磁盘状态、网卡状态、进程总数 服务器CPU运行情况:CPU用户时间百分比、CPU系统时间百分比、CPU运行队列进程个数 服务器内存使用情况:内存利用率、虚拟内存(交换区)的使用率、交换SWAP分区页数量(换入/换出); 服务器磁盘运行指标:磁盘空间利用率、磁盘读/写速率、磁盘TPS指标。 服务器文件管理指标:各文件系统分区的使用率和空闲空间、指定的关键文件是否存在和当前大小; 服务器关键进程运行指标:包括进程ID、进程名、进程状态、占用CPU时间、内存占用大小等; 服务器日志告警:检查服务器的关键日志文件,提取相关的

31、错误日志信息(Warning/error/fa)并生成告警;实时监控操作系统,数据库和应用系统中制定的日志文件,并可根据其中的特定信息,执行用户预定义的操作; HACMP状态监控:对HACMP的状态、系统间切换和节点间切换等状态进行主动监测,并记录每一次发生切换发生的时间、相关服务器名称等信息。 对CICS Region的监控:通过监控相关的日志(Prepare日志、Comm交通管理日志、Abort日志等)、并辅以模拟连接(将连接结果发送到我司综合管理平台),我们可以做到对P系统主机上CICS的状态和队列进行监控。下图是我司综合管理平台对AIX系统监控的界面2.3.3. 数据库管理l 可以实现

32、对多种数据库的监控和管理,方便用户对多种业务平台进行统一管理。l 实现对数据库容量、命中率、会话信息、日志信息等实现全面监控,并为用户提供直观的数据报表,方便掌握数据库的运行状态。l 可以关联告警系统,对数据库关键指标的异常状态进行告警,让用户可以及时的知道并进行处理。l 支持动态数据流转图,可图形化多角度动态全方位展现数据库诸如CPU、缓存、表空间、锁、缓存、读写速度多种信息。我司综合管理平台可以对服务器上的DB2 、ORACLE、SQLSERVER、SYBASE、INFORMIX等数据库系统提供状态监测和管理。数据库服务监视主要是对大型数据库系统的性能、事务、连接等性能数据进行监视。我司综

33、合管理平台通过JDBC连接到指定的大型数据库服务上,执行管理人员指定的SQL语句,然后对所获得的结果进行分析处理,如果大于指定的阈值,则自动触发数据库服务监视告警。通过SQL语言对数据库的系统表进行监视,可以对数据库的表空间(空闲率)进行容量规划,并能够对表空间的使用情况进行定期分析和预警;可以实时监控当前连接数据库的会话,并能够在连接数据库出现问题触发告警;可以获取会话级的数据库运行性能参数,并对性能参数进行关联性分析,进行告警监测;可以处理数据库的事务提交数、事务回滚数、顺序扫描总数、排序总数、排序所使用的最大磁盘空间等系统运行状态参数的监测和告警;可以对数据库的磁盘IO参数如读取数、缓冲

34、区读取数、写入数、缓冲区写入数等数据进行监测;可以对数据库的内存使用率、数据库容量、交易量、数据库连接数、进程状态、数据库资源使用率等信息进行监测;我司综合管理平台可以对数据库的表空间(空闲率)进行容量规划,并能够对表空间的使用情况进行定期分析和预警。可以处理数据库中的各数据表的记录数、锁模式、索引、Extents、总页数、使用页数等性能指标进行监测。可以对数据库的交易日志进行监视。由于生产环境使用的是IBM的DB2数据库,现以DB2为例介绍监控内容 DB2高可用性灾难恢复(HADR)状态监控和告警 数据库状态:监听器是否工作,数据库是否工作; 数据库的基本配置信息:数据库名、版本、32/64

35、位、并行状态、归档模式、归档目录,基本配置等。 数据库进程监测信息:进程占用CPU时间、内存大小、数据库进程总数; 数据库自身告警信息:获取数据库的告警信息并告警; 数据库SGA监测信息:高速缓冲区大小、重做日志缓冲区大小、共享池大小、数据字典缓存大小、共享库缓存大小、SQL缓存大小; 数据库SGA性能监测:高速缓冲区命中率、共享库缓存命中率、共享数据字典缓存命中率、磁盘排序/内存排序比率; 实时SQL监测:要求能够捕捉瞬时的或一段时间内(比如五分钟内)执行的SQL语句,使管理员可以有效地获取关于正在执行的事务的详细信息; 前十条性能最差的SQL语句等。 数据库表空间运行监测:制定表空间的使用

36、空间大小,表空间使用率等、表空间碎片FSFI比率、读/写表空间平均时间; 数据库表空间配置信息:表空间名称、初始大小、Next扩展值大小、扩展次数; 数据库文件性能:数据文件名、数据文件大小、状态、读写次数、读写时间; 数据库回滚段监测:回滚段名、回退段当前大小、命中率(取得次数和等待次数的比率),压缩次数; 数据库会话信息监测:会话ID、用户名、占用CPU时间、内存排序次数、扫描表次数、读写次数、提交次数、所占用游标数、缓冲区命中率、已连接的用户数、空闲的连接数; 数据库会话安全监测:判断是否有未经授权的IP地址、用户、时间段、使用特殊工具访问数据库的行为; 数据库资源锁监测:监测数据库资源

37、锁的情况,对超过锁定时间、锁过滤条件的资源锁生成相应告警。对参数和性能的管理,我司同时都支持实时运行数据流转图和详细数据表查询功能,同时支持对查询的数据进行历史记录分析和告警管理。2.3.4. 中间件管理l 实现对不同种类中间件信息的实现全面监控,并为用户提供直观的数据报表,方便掌握中间件的运行状态。l 支持与业务管理的联动。l 可以关联告警系统,对中间件关键指标的异常状态进行告警,让用户可以及时的知道并进行处理。我司综合管理平台支持对常用的中间件系统进行监控和管理,如:WebLogic、MQ、Websphere,分述如下:1、WebLogic监控对weblogic支持但不限于如下管理指标:监

38、控描述监控描述WebLogic 数据库连接池WebLogic WEB应用监测指标名称当前激活会话数服务器名称最大会话数当前容量会话总数活动连接数WebLogic EJB监测指标活动连接比名称等待连接数类型最大可用数激活次数泄露连接数钝化次数最大等待时间缓存ejb个数连接池最大容量Weblogic JTA事务ejb池名称JTA事务总回滚比例ejb池类型资源错误回滚比例使用的ejb个数应用错误回滚比例空闲ejb个数系统错误回滚比例超时ejb个数WebLogic JVM监控等待ejb个数当前虚拟机运行时空闲堆栈ejb事务名称当前虚拟机运行时堆栈大小ejb事务类型堆栈利用率提交的事务总数WebLogi

39、c Servlet监测回滚得事务总数名称超时得事务总数平均执行时间Weblogic 运行队列信息最大执行时间对象名称执行次数当前空闲执线程计数WebLogic基本配置信息队列中最长的等待时间服务器名称服务请求总数(吞吐量)服务器运行的Weblogic版本队列中等待的请求数(队列长度)服务器监听端口服务器运行状态对参数和性能的管理,我司同时都支持实时运行数据流转图和详细数据表查询功能,同时支持对查询的数据进行历史记录分析和告警管理。2、Websphere监控对websphere支持但不限于如下管理指标:接口变更JVMWebSphere的JVM信息事务WebShpher的事务信息JDBCWebSp

40、here的JDBC连接池线程池WebSphere的线程池信息系统信息WebSphere的系统信息WebWebsphere的Web信息ServletWebShpher的Servlet信息对参数和性能的管理,我司同时都支持实时运行数据流转图和详细数据表查询功能,同时支持对查询的数据进行历史记录分析和告警管理。3、MQ监控MQ_BaseinfoMQ队列管理器基本信息MQ_QueuesMQ队列列表、名称MQ_QueueStatMQ队列状态、深度、IPPROCS、OPPROCS、UNCOMMQ_ChannelsMQ通道列表、名称、INDOUBT、SUBSTATE、LASTSEQNO、CURSEQNO、M

41、CASTATMQ_ChstatusMQ通道状态、本地队列及通道(包括集群通道)、死信队列满对MQ支持但不限于如下管理指标:对参数和性能的管理,我司同时都支持实时运行数据流转图和详细数据表查询功能,同时支持对查询的数据进行历史记录分析和告警管理。2.3.5. 应用管理l 应用仿真式的监控方式,“一语中的”的告诉客户行还是不行。l 可以实时管理和监视这些应用的配置和连接等信息,并可以通过数据表、图例等方式实时的进行展现,真实的反映这些应用的运行情况。l 统提供各种基础信息服务如FTP服务、POP3服务、SMTP服务、TCP端口、流媒体服务以及DNS、DHCP、目录服务等的监视,可以对这些服务的有效

42、性、服务状态等实施集中、实时的监视。l 关联告警系统,及时的告诉用户什么应用出现了问题,帮助用户及时处理。2.4. 存储管理2.4.1. 存储管理的优势和亮点n 全面管理FC-SAN l异构管理,支持多厂商 l全面支持FC各类型产品n 可视化动态展现l拓扑图方式显示网络,明确清晰 l管理到位,支持盘阵组件监管 n 主动式故障管理 l高频监控设备状态 l主动告知,故障及时处理 n 可落地的管理实践 l组件生命周期管理,到期主动提醒 l运维信息明确,提高故障处理便捷性 2.4.2. 部署方式存储环境监控要求:1) FC交换机、磁盘阵列接入IP网络,且组件服务器IP可达;2) 安装有HBA卡的主机,

43、必须安装Provider,并对外开放相关SMI-S协议接口;3) IP网络中需要假设一台代理机,用于监管和配置磁盘阵列,此机上需要安装有盘阵provider,同厂商的provider一般能监控46个盘阵,所以当用户环境中同一产品的provider超过4个,可能需要部署多个代理机;4) 组件服务器用于安装存储、Vmware管理的系统,支持虚拟机方式;可与我司共用一个数据库,在监控量合适的情况下,数据库服务器可与我司安装在一台物理机上。2.5. 故障告警管理故障管理是事前管理的有效手段之一,故障管理能对来自网络设备、主机、数据库、存储系统、网管系统本身以及其它硬、软件系统等所产生的事件进行归类。用

44、户可以根据自定义的等级条件来划分事件的等级,还可以将事件归类到具体的事件组中,并且可以根据定义的行为执行条件来执行某事件产生时所对应的动作(例如在客户端发出报警声音、自动发送 E-ma 通知负责人等)。故障管理功能包括:网络告警、服务告警、环境告警、基线数据管理、告警日志查询、负载设置和ARP干扰功能。2.5.1. 故障管理的优势和亮点l 支持联动告警,提高用户对于故障的响应速度。l 支持符合告警,为客户提供了“智能化”的运维监控平台,提高运维效率,可以根据客户的关注给出不同的告警设置方案。l 提供告警事件的压缩、事件组合和抑制、对外接、送功能。l 针对网络、主机、流量、各类系统软件、业务系统

45、各类KPI指标均可提供告警功能。l “定时体检”“有疾病预兆时全面检查”的启发式告警方式。比如说,对于一个关键业务,事先设定好一个关键监控点(告警触发点),平时只监控这个点,当这个点越过阈值时,系统会全面采集该关键监控点相关的所有的基础信息(包括网络、服务器、数据库、中间件、机房环境信息等),减轻了数据采样对网络的压力,降低了轮询在业务高峰时段对业务本身的影响,所有的设置可由客户设定,避免了“黑盒子”效应。l 对告警划分层次之后有助于效率的提高,这样一来客户就不必为繁多的无关告警所苦恼了。l 支持基线告警。l 支持自定义时间段,方便用户根据实际情况发出告警。l 短信平台强大,接口众多。l 对非

46、法IP地址进行ARP干扰,拒绝黑客、网络扫描等异常行为,为稳定的网络运行保驾护航。2.5.2. 我司故障管理详细介绍2.5.2.1. 事前的运维管理我司注重运行维护的管理,偏向于事前管理而非事后管理,因此特别强化了基于事件的故障管理与故障预警管理。设备失效固然是严重故障,但 我司产品的设计并非让用户被动地等待“出事”,绝大多数告警项的设计是为了建立“预警”机制。例如,对一条千兆网络连接300M的流量不算大事件,但是如果考虑到日常的流量一般不会超过100M,这就是“事件”,通过设置流量告警上限同时结合延时设置 (过滤偶尔的峰值流量),可以及时地发现问题。2.5.2.2. 全面的告警监视我司支持从网络的第2层到第7层实施全面的故障告警管理,包括网络类告警、服务类告警、环境类告警和其他类告警。2.5.2.3. 独立的事

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号