惠普公司技术建议书.doc

上传人:laozhun 文档编号:3462527 上传时间:2023-03-13 格式:DOC 页数:40 大小:2.08MB
返回 下载 相关 举报
惠普公司技术建议书.doc_第1页
第1页 / 共40页
惠普公司技术建议书.doc_第2页
第2页 / 共40页
惠普公司技术建议书.doc_第3页
第3页 / 共40页
惠普公司技术建议书.doc_第4页
第4页 / 共40页
惠普公司技术建议书.doc_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《惠普公司技术建议书.doc》由会员分享,可在线阅读,更多相关《惠普公司技术建议书.doc(40页珍藏版)》请在三一办公上搜索。

1、某某公司技术建议书中国惠普有限公司中国惠普有限公司起草日期:2007年12月04日版 权 说 明本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属中国惠普有限公司所有,受到有关产权及版权法保护。任何个人、机构未经中国惠普有限公司的书面授权许可,不得复制或引用本文件的任何片断,无论通过电子形式或非电子形式。本建议方案由中国惠普有限公司根据某某公司(以下简称“某某公司”)的需求编制,其使用范围仅限于客户为满足自身项目的需要而进行的方案选型。任何超出本范围的使用需事先得到中国惠普有限公司的书面授权许可。目 录第一章总述4第二章方案总体架构52.1.总体设计思

2、路52.2.建设原则62.3.方案总体架构8第三章监控管理平台103.1.监控管理平台架构103.2.监控管理平台产品推荐123.3.网络性能和故障监控133.3.系统监控有代理方式173.3.1.系统管理173.3.2.数据库监控223.3.3.中间件监控243.3.4.相关产品的特点253.4.系统监控无代理方式293.4.1.主要功能特点293.4.2.小结353.5.统一事件处理平台353.6.第三方集成和功能扩展383.7.统计报表39第四章与服务管理平台集成42第一章总述HP公司一直活跃在国内外的IT运行管理市场,并以其许多重要的成功案例享有美誉和相当高的市场占有率。在技术迅猛发展

3、的今天,交通行业的IT化也在飞速发展,整个IT系统的综合利用正逐步走向一体化,HP的硬件、软件和实施经验,必然有助于商务电子化进程的发展壮大。本建议书将针对某某公司(以下简称“某某公司”)应用系统管理建设的需求进行相应分析,并在此基础上,介绍基于HP管理平台的解决方案,旨在通过HP及合作伙伴在国内外相关领域内的成功经验,为某某公司应用系统管理建设一个功能完整、灵活可靠、安全和可扩展的IT系统管理监控平台。第二章方案总体架构2.1. 总体设计思路随着计算机技术的不断发展,某某公司的IT基础架构也随之不断发展。目前,某某公司已经建立在全国乃至全球的网络基础上建设了各种电子业务系统。随着乘坐飞机的乘

4、客人数的不断增多,IT基础架构和系统规模也不断膨胀。目前,对于某某公司,IT对业务的支撑力度已经是越来越强大;而另一方面,业务也愈来愈依赖于IT。IT系统的稳定性有效性可靠性将对业务造成直接的影响。因此,如何对IT进行有效监控管理,如何对故障进行及时有效地排除故障,如何及时发现IT的各种潜在隐患,也已提上日程。单纯依赖人工方式已经很难有效及时地掌握如此庞大的IT系统的全面状况;对故障的及时处理和发现潜在隐患就更加困难了。而且,业务部门对于IT部门的定位正在转为服务的使用与服务的提供之间的关系。业务部门对IT提供的服务要求越来越高,对于系统的可用性实时性都提出了更高的需求,目前的管理模式和人工方

5、式已经无法满足。这些都已经对某某公司的IT建设提出了新的要求。本次项目的主要目标之就是通过实施电子化的监控工具以对系统及各应用软件进行有效监控,实现对故障的及时发现和对性能状况的准确把握;当然,监控的最终目的仍然是为了解决问题和避免问题;所以,我们同时也通过IT服务管理流程来实现对故障的及时有效处理,对潜在隐患的及时排除,通过量化指标来确保所提供的IT服务的持续性和质量标准。事件管理流程的建立和服务台的实施将使IT运维人员从无序、被动的、疲于奔命的救火队员的角色转换为有序、主动的和积极的IT服务提供者。由于,某某公司已经实施了惠普公司的OpenView Service Desk作为IT服务台,

6、那么就存在和现有的IT服务管理平台的功能集成。因此,对于某某公司的系统管理需求,惠普公司认为它不但是系统硬件、网络环境、应用软件平台等方面建设,还应同时兼顾与之相配套系统运作管理,服务台热线, IT组织及管理流程等的建设,从而确保系统的稳定性, 可靠性以及满意的客户服务,使IT能够对政务的连续性提供保障。惠普提供的IT监控服务解决方案不仅是一个软件安装、实施的过程,而且是针对IT运维体系的全面解决方案。我们提供的设计方案包含监控部署设计,系统管理软件、应用管理软件等运营工具系统的设计实施,惠普公司希望通过这个项目的成功实施,帮助某某公司作到: 建立统一的系统管理平台,监控、管理某某公司现有的各

7、种服务器、数据库、中间;建立统一的应用管理平台,监控、管理某某公司现有的关键业务应用系统; 及时掌握各种资源现状和运行信息,为信息分析、系统优化、决策提供支持,实现管理信息和经验的共享; 与现有的IT服务管理平台集成,实现通过有效的管理组织和流程,保障业务的稳定、高效、持续的运行。2.2. 建设原则开放性和标准化原则以HP OpenView为平台建立起的IT监控服务管理平台具有很好的开放性。HP公司很早就公布了Openview丰富的应用开发接口API。被众多的合作伙伴看好,并将HP OpenView作为其网络设备管理的平台软件,如Cisco公司的Cisco WORKS,3COM公司的Trans

8、cend,BAY Networks公司的Optivity等。这些厂商的网络设备管理软件均可透过HP OpenView界面进行调用,监控、配置和管理,网络事件的报警及事件的记录均可反映到HP OpenView环境中,充分体现了良好的集成性。HP OpenView解决方案的API接口是基于C语言的,提供了功能强大的可调用的管理函数和公共服务。通过这种方式支持用户及第三方合作伙伴开发多平台的、可扩展的分布式网络管理应用软件。HP公司是网管论坛的成员之一,同时HP Sevice Desk 网管流程管理模块又是全球少数几个通过国际ITIL组织标准认证的产品之一。先进性和可扩展性原则HP Openview

9、 整体解决方案在满足国际网管组织的标准同时,采用了先进的专利技术,例如在系统管理中,使用了独特的智能代理技术,从而达到智能的高效管理,又实现了管理信息的低开销;特别是结合先进的IT管理理念和管理流程的设计(符合国际ITIL标准),使得IT监控服务管理平台达到了整体的先进性,同时Openview模块化的产品结构和分级管理的优势,使得随着未来的业务提升,管理系统具有良好的可扩展性。经济和实用性相结合的原则此次IT监控服务管理平台的设计面向某某公司的需求,在核心功能保证的同时,可以附加针对性的二次定制开发,所以具有很强的实用性,可以满足监控不同系统的实际需要,也使性价比得到大幅提升。可靠性和稳定性原

10、则Openview管理模块已在中国市场上销售十余年,核心模块已到了8.0版本,所以功能使用已非常可靠、稳定。高可用性和高可管理性原则Openview 的功能模块都为HP公司开发,故HP OpenView各模块间可以保持统一的应用界面,方便使用和管理,也节约了对管理人员的培训时间。系统管理员可通过简单易用的图形界面,用鼠标拖拉对象就可完成各种系统资源的复杂管理工作,不必去记不同平台、不同系统上的复杂操作命令,同时支持WEB形式的远程操作,降低管理难度和管理工作量。同时简单易用的图形界面使用户易于掌握,能快速实施系统管理任务。这样使IT监控服务管理平台具有较高的可用性、可管理性和可维护性,使管理人

11、员易于维护,并且能通过相应的功能模块对服务器、数据库、中间件、应用等进行实时监控和管理。2.3. 方案总体架构我们为某某公司设计的方案功能逻辑分为两大层:IT 监控管理平台层和IT服务管理平台层。如下图所示:一、IT监控管理平台我们针对某某公司系统管理需求,从用户的实际需要出发,提供一套全面的综合的运行维护管理系统,包括:系统管理:收集主机、网络,数据库的故障,并可通过定制的过滤策略实现对故障的管理,同时,可形成历史记录供今后管理员参考故障再次发生时的解决方法。实时监控主机、数据库和中间件的各性能状态,并形成历史记录,供分析和上报使用。数据库、中间件管理: 监控数据库、中间件的故障和相关的性能

12、参数,从而管理企业内部的关键的业务应用运行状况。与第三方集成: 与存储管理软件等第三方软件集成,实现统一的事件管理。二、IT服务管理平台 在本次方案中,由于IT服务管理平台在某某公司已经实施,那么主要工作是与IT服务管理平台的集成,包括包括如下几方面。 可以将故障事件传给IT服务管理平台,形成票单。 如果有需要,监控管理平台还可以接受IT服务管理平台输出的事件,在监控管理平台主控台执行脚本和命令行等。 还可以进行部分配置项信息的传递。第三章监控管理平台3.1. 监控管理平台架构为了满足某某公司对于应用系统综合管理的要求,我们推荐HP公司的业界最先进的IT系统综合管理解决方案:企业级的统一的事件

13、管理平台,先进的系统、数据库、中间件监控解决方案,业务流程监控解决方案,如下图所示。在本建议书中,根据HP对IT管理系统的深刻认识和成功经验,为了实现对硬件设备和软件系统的监控进行管理,我们推荐采用HP OpenView Operations/Performance作为核心的故障/性能监控管理平台。配合网络管理软件HP OpenView Network Node Manager和针对各种应用的智能插件(Smart Plug-Ins)实现对网络、系统、数据库、中间件的集中监控和事件处理中心。同时,由于某某公司的服务器数量大,种类多,我们在这里也推荐部分服务器使用无代理方式进行监控。何谓无代理监控

14、?即通过远程进行监控,而不需要在被监控系统上安装任何程序或Agent,通常监控通过标准协议和登录完成,例如对于Tuxedo的监控将通过Tuxedo客户端来进行通讯。为什么推荐部分采用无代理的监控方式呢?因为它有如下的优点: 更为便捷的部署:由于不需要在被管系统中安装代理,部署通常就更为便捷; 变更管理的复杂性低:由于只需要升级中央服务器,升级流程通常就更为简单; 数据权限的一致性:通常一个机构的多个部门都需要使用数据,而标准的技术(如SNMP或WBEM) 可以让多个部门和工具方便地使用同一数据; 被管系统所使用的资源更少:一般来说,在一个系统中,无代理监控是基于代理监控的一个子集,因此需要的资

15、源就较少; 由于没有代理成本,被认为是更经济的解决方案。但也由于技术的限制,一般适合在非关键的服务器。对于具备以下条件的服务器,我们还是建议采用传统的Agent监控: 需要获取大量深度监控数据用于分析,例如想通过监控数据库获取大量信息来分析数据库性能。 对于有些关键监控数据无法从远程获取。 用户网络条件特别不理想。 需要非常复杂的性能监控,获取大量历史数据并分析。总而言之,使用惠普公司的产品SiteScope用于无代理远程监控,OVO作为监控管理平台,完成事件关联、处理及报警功能。3.2. 监控管理平台产品推荐因此,产品推荐如下:1) HP OpenView Operations 和HP Op

16、enView Network Node Manager 搭建网络、系统综合管理平台,实现对重要主机服务器的管理,包括主机的故障管理和性能管理,同时完成对网络拓扑、网络故障、网络性能;网络和系统事件的统一监控,将主机管理与网络管理纳入到Openview的统一管理平台中。2) HP OpenView Performance Manager 实现对重要主机系统的性能管理,包括性能监控、告警、报告等。3) HP OpenView OVOP Agent 安装在重要被管主机上,实现对被管主机的服务器系统的故障和性能管理,每台被管主机上安装一套。4) HP OpenView Smart Plug-In fo

17、r Database 数据库管理插件,实现对重要Oracle和SQL Server数据库运行状态的实时监控及故障与性能管理。5) HP SiteScope实现无代理管理,实现对一般服务器的故障管理、性能管理和之上的应用管理。6) HP OpenView Reporter报表工具,实现对故障数据和性能数据的统计分析功能。OpenView Operations将为某某公司提供一个公共的企业级管理控制台,从一个地点就可以管理某某公司的所有软、硬件。采用OpenView Operations 作为统一事件处理平台,统一对IT的事件进行处理。以统一界面集中管理事件。用户可以在事件主控台上看到所收到得事件

18、的发送源系统名,事件类型,事件产生的时间等。事件主控台的设置有很强的灵活性,可根据用户的不同要求而改变,以适应用户业务的需要。通过OpenView Operations的控制台上对事件的自动触发,可以和服务管理平台集成,生成各种票单,传入流程处理环节。3.3. 网络性能和故障监控对于网络通信系统的监控,我们推荐采用以HP OpenView Network Node Manager 为核心的网络管理解决方案来实现对于配置,故障,性能及安全的管理。HP OpenView Network Node Manager(NNM)是领先的网络管理解决方案,它以直观的图形方式提供了深入的网络视图。Networ

19、k Node Manager能够发现网络设备,并提供显示网络实际状况的视图。多层次映射图显示了哪些设备和网络分段工作正常,而哪些部分需要引起注意。当报警浏览器上显示出主要设备的故障事件时,Network Node Manager功能强大的关联引擎(correlation engine)就能够分析事件流并找到故障的根本原因。趋势分析、阈值和数据仓库等功能实现了防患于未然的网络管理。Network Node Manager是基于SNMP管理协议的平台,它提供了业界最为广泛的SNMP协议的支持,从SNMP v1到SNMP v2以及基于partition认证的SNMP v3都提供了广泛的支持。随着当代

20、IP网络技术的飞速发展,围绕Network Node Manager之上,OpenView提供了更多的技术手段来拓展IP网络管理的手段来超越传统基于SNMP管理的局限性。同时OpenView Network Node Manager作为管理平台,提供了大量的第三方管理软件的集成,如应用广泛的CiscoWorks2000设备管理软件。网络配置管理在网络配置管理的方面,主要通过OpenView Network Node Manager 采用SNMP采集的方式来实现。NNM的自动发现和监控机制能够发现网络节点(包括路由器,交换机和第二层的交换设备如网桥等),检测网络连接,生成和保持TCP/IP网络图

21、,通过色彩确定网络设备的运行状态,使用OpenView Windows的Pan和Zoom的功能在保持总图象的同时将视点着重于大型子图的关键区域。通过MIB浏览器了解外围设备的工作状况,对不能监视的外设,可通过在被管节点上扩展SNMP子代理,在管理站上装载其MIB的方式对其进行监视。使用预定义的MIB应用或创建MIB查询应用监视网络连接的通信速率,信息流量等。NNM的这种特点使得具有多厂家系统平台、网络、计算机等复杂环境的管理变得更加真实、直观和简便。Network Node Manager可以发现网络上的TCP/IP、IPX(在Windows NT操作系统上被Network Node Mana

22、ger支持)和Level2设备,支持DHCP(动态主机配置协议),并将这些信息以直观的图形格式表示出来(Level2发现功能包括支持Bridge、Repeater/802.3、或者MAU MIBs的设备)。Network Node Manager持续地监控网络上新的设备和网络设备状态。发现和监控功能还可以探测到位于广域网上的设备。Network Node Manager自动发现的网络拓扑图除了可以自动得发现网络配置结构之外,NNM还可以动态地自动更新网络拓扑图和事件信息。网络拓扑是以图形或者表格的格式表现的,提供了最大程度的灵活性。另外,SNMP Data Presenter令用户可以查询网络

23、的SNMP数据,例如接口流量、CPU负荷或者通讯路由(traffic routing)等,以帮助进行网络诊断和计划。NNM对于所搜集到的信息具有简化功能,提供发现过滤,拓扑过滤,图象过滤功能,使企业可以根据自己的需要,选择要发现监控的对象,定制MAP的显示内容,通过这些功能可以减少网络流量的负担,更能让管理人员集中注意力于重要和密切关心的网络部分。NNM支持Cisco Discovery Protocol(CDP View),可以形成针对Cisco设备的拓扑结构图。并可方便的查询Cisco设备的配置信息,包括Cisco设备中的VLAN设置,以及和此设备连接的设备信息。网络故障管理对于网络故障的

24、管理,这里分别从故障数据的采集,故障信息的处理,以及故障信息的展现三个不同的阶段来阐述。故障数据的采集:对于IP网络故障数据的采集,传统上主要采用的是周期性通过ICMP ECHO来了解某一IP节点的状态以及SNMP协议的状态轮询、MIB采集和网络设备主动发送的SNMP Trap(Inform)来实现,OpenView Network Node Manager正是采取以上方法的IP 管理平台,通过合理的设置轮询的周期来有效的监控网络故障,同时通过图形化的手段直观地展现故障及对于运行的影响。除了以上提到的snmp方式之外,某些网络设备,例如 CISCO设备,可以将运行日志syslog写在某台主机上

25、,所以可以通过分析syslog的方法来了解网络设备的运行状况。OpenView Smart-Plug-In for Data Network Devices通过对于常见的数据网络设备的运行日志文件定制管理模板,从中提取故障事件。故障事件数据处理:由于网络管理涉及的管理对象分布广泛,如何在大量的故障信息中获取有价值的信息将会是网关系统的重要工作,所以作为一个网管系统,事件信息的过滤和关联是相当重要的一个功能。本方案中所有的重大网络故障信息将统一的集成到OpenView Operation Manager的综合处理平台上,OpenView Operation Manager提供了完善的事件过滤功能

26、,例如对于通过显示该事件的始发时间,最终发生时间以及重复次数将大量的重复事件压缩到一条;与此同时,OpenView Network Node Manager和Operation Manager提供的事件关联引擎有效的关联处理一些常见的网络故障,例如:连接设备失效,定期的维护,重复的网络报警、成对的报警事件等关联逻辑。故障信息的展现:这里包括了多级别报警,故障在图形化界面上的显示以及由故障触发一些通知的手段组成。OpenView 提供了基于Java的故障管理客户端,使得操作员可以通过远程登录了解到目前的运行状况,同时OpenView也提供了事件触发的手段,例如可通过配置在重大事件发生时拨打呼机、

27、email或短消息(需短信网关支持)通知网络管理员。对于性能管理的方面,建议以OpenView Network Node Manager为采集平台,通过NNM的Data collection & Threshold Alarming进行snmp数据采集和在此基础上的阈值报警,其snmp数据采集可定时倒入其数据仓库(通用关系型数据库,可以是NNM内置数据库,Oracle或SQL Server),这些数据将被汇总和调整。事实上,包括端口流量,误码率,路由表,帧和字节数的统计等等都可通过SNMP的采集取得,而且Network Node Manager事先已经配置好了一系列的Data Collecti

28、on,包括端口利用率、节点响应时间等等。OpenView Network Node Manager数据仓库包括了一个开放的结构,允许报告和数据精简工具的存取,历史数据的分析功能使得网络经理们可以防患于未然地维护网络的正常运行。同时数据仓库中的数据可以在NNM中以图表的方式显示,以供管理者分析网络的状态和趋势。3.3. 系统监控有代理方式3.3.1. 系统管理系统故障管理建议采用OpenView Operations实现系统故障管理。利用OpenView Operations可以对某某公司的系统中主机的运行状况进行监控,使系统管理人员及时了解服务器的重要资源和参数运行状况,出现故障时迅速报警,并

29、可自动采取措施排除故障,保证关键服务器的可用性和可靠性。OpenView Operations是Manager/Agent管理结构:管理中心安装OpenView Operations Manager,被管理系统上安装OpenView Operations Agent,其中Agent(代理)是智能型的和主动的,能够实施策略并协调与Manager的关系:它们监控事件和状态,提供配置、管理服务的接口。OVO的agent是智能的即在网络不通或者是管理站down机的情况下,可以不经上报管理站,直接在本地自动采取相应的行动解决故障。在管理中心安装好Operations Manager后,Agent可通过网

30、络自动分发到被管理系统。OpenView Operations对系统资源及日志的管理功能包括:1. 监控操作系统运行参数可实时监控所有安装该模块的被管理系统的以下运行参数: CPU利用率,显示系统、用户、空闲时间的百分比; 交换空间利用率; 文件系统使用情况,如:磁盘空间利用率、文件大小等; I/O的使用情况 并可根据需要定义参数的报警门限,当某参数超过门限值时,Agent向管理中心产生报警信息,并自动执行用户预定义的动作。2. 监控用户自定义的性能参数用户可以利用OpenView Operations定义自己感兴趣的一些性能参数,如:服务器上某-网卡端口速率在7M以上的时间,并可根据自己的需

31、要定义参数的报警门限,当某参数超过门限值时,Agent向管理中心产生报警信息,并自动执行用户预定义的动作。3. 监控操作系统关键日志文件通过OpenView Operations Agent,可实时跟踪所有安装该模块的被管理系统的任意日志文件的变化情况,利用该功能,可跟踪操作系统、数据库及用户应用系统的日志文件,当日志文件中出现的用户所需的特定信息,判断目前系统的运行状况,自动执行用户预定义的动作,从而实现对操作系统、数据库及应用系统运行的动态监控。同时向管理中心产生报警信息。4. 监控用户自定义日志文件OpenView Operations Agent不但可监控操作系统的特定日志文件,用户还

32、可以在被管理系统上自己定义并生成一些自己感兴趣的日志文件,如:某些特定操作记录、某些应用程序输出结果等。通过OpenView Operations Agent跟踪所有被管理系统上的这些日志文件的变化情况,当日志文件中出现的用户所需的信息时,自动执行用户预定义的动作,同时向管理中心产生报警信息。这样一来用户可灵活定制用户自己的管理策略。5. 监控主要的配置文件可对客户指定的配置文件进行监控,当配置文件被修改后,产生告警,并且可将修改的部分记录下来,如增加了哪些还是删除了那些。6. 监控用户指定的进程通过OpenView Operations Agent,可实时跟踪所有安装该模块的被管理系统的任意

33、关键进程和服务的运行状态,利用该功能,可跟踪操作系统、数据库及用户应用系统的进程和服务,当这些进程和服务出现故障或停止时,则立即向管理中心产生报警信息并自动执行预定义的动作,如自动恢复进程和服务的运行。例如:当某台WEB服务器上的HTTP进程突然停止了,Agent监控到这一信息后,自动向管理中心报警,并执行系统命令重起HTTP进程。系统性能管理对于某某公司中的关键服务器系统资源,如CPU,DISK,MEMORY,NETWORK的使用情况、性能参数如何,是否满足业务发展需要等,也是管理所实现的重要内容。OpenView Performance软件模块,提供给某某公司一个端到端性能管理的强有力解决

34、方案。其中OpenView Performance Manager安装在管理中心,是一个集中的性能管理控制台。它提供一个统一的图形界面和一个公用的方法,用于集中监视、分析、比较、预测系统资源利用情况测量数据(即性能数据)。OpenView Performance Agent安装在被管理系统上,系统资源利用情况的测量数据(性能数据)就是由Agent收集的。同时通过OVPM可以对将来的数据进行预测:即根据原来的历史数据可以粗步预测将来的性能走势。OpenView Performance在以下两个主要领域提供功能强大的性能管理能力:IT资源规划和服务管理OpenView Performance解决方

35、案,提供了IT资源运行情况的历史性能数据,这些性能数据是IT计划活动之关键。Performance Agent带有专利智能收集技术,安装在分布式IT环境的具体系统上。它从应用软件、数据库、网络和操作系统,收集广泛的资源和性能测量数据。Performance Agent对这些数据进行汇总,为这些数据打上时间标记,并将这些数据记录到Performance Agent所在的本地系统上。Performance Agent还提供一条途径,来跟踪端到端应用软件响应时间:它可利用Application Response Measurement(ARM*,应用程序响应时间测量)规范,来进行应用程序响应时间测量

36、,监控关键客户机/服务器应用程序的性能。使用Performance Agent历史性能数据,Performance Manager管理控制台使得对资源使用率和性能趋势的检测和了解成为可能。通过这种检测和了解,你可以发现导致性能不足的瓶颈问题,并且你可以对你的IT资源进行规划,以确保业务的性能要求得到满足。通过比较系统活动级别,可以平衡工作负载,以使现有设备得到最优使用。Performance Agent数据还可以被输出,以用于容量计划(capacity planning)、统计分析和电子表格应用。IT可用性管理和问题解决Performance Agent不断地监视其数据,以探测意外性能情况。意

37、外性能情况可能基于某个推测,或基于若干准则的结合,可以使用阈值和持续时间来定义。例如可以定义,当一个客户/服务器应用程序的响应时间超过了一个预先定义的域值(或者当CPU使用率保持在75以上,而等待队列长度大于3,且持续5分钟以上),就发生一个意外性能情况。每当Performance Agent探查到一个意外情况,就产生一个报警消息。Performance Manager管理控台接收并维护Performance Agent报警信息列表,这些消息可发生于网络的任何地方。要获知关于某个报警的更多信息,选中该报警信息,Performance Manager就会自动给出描述该意外性能情况的一张图和数值数

38、据。这为你提供了对有关IT性能计量的一个与时间相关的管理信息视图,从而提供对慢速响应时间的原因诊断。同时当收到警报信息时,Performance Manager可自动启动预定义的本地动作,如发电传或电子邮件信息等。OpenView Performance所监控的性能参数包括:CPU性能相关管理参数CPU使用率以及用户活动CPU中运行的队列长度、系统呼叫次数CPU运行在用户态的百分比CPU处于空闲状态的百分比磁盘性能相关管理参数硬盘的忙碌程度硬盘忙碌期间的平均队列长度可以进行页面交换的空闲磁盘块文件系统容量及文件系统空间利用率磁盘使用率与用户、虚拟内存每逻辑卷的读写、次数与I/O速率内存性能相关

39、管理参数每秒钟页面调入和调出数量系统与用户进程对可用物理内存的使用率物理、可用内存调入和调出错误、交换I/O、虚拟内存读写与高速缓存容量进程性能相关管理参数进程与主进程识别号码、进程运行优先选项、用户名、进程的CPU使用率、磁盘I/O速率、内存使用情况进程驻留集大小与进程等待的资源等待运行进程队列长度、可运行态进程运行队列长度用户程序运行状况管理参数应用的CPU、I/O与虚拟内存使用率应用的进程数量、进程等待状态以及总体进程运行周期应用活动进程数量与主要错误应用的交易名称、次数、平均响应时间、响应时间参数分布与失败交易数网络流量主机网络的I/0主机网络的收包率主机网络的发包率主机网络的冲突率主

40、机网络的错误率NFS调用率3.3.2. 数据库监控对数据库的采集,Openview有专门针对数据库的智能插件DBSPI来完成对数据库的管理。它也是预先就做好了对各种数据库采集和监控的模板,简化管理员的工作。DBSPI插件安装后即可投入使用,只需要极少的配置,通过分散在各处的IT人员的协同努力就可提供服务。管理应用或数据库的数据收集需求将会预定义,而更正操作(操作员激活或自动激活)可以预先设置。此外,OVO提供的诊断报告和图表用于提供故障发生时的状态信息,同时为未来的分析提供趋势和历史数据。这些缺省设置可由IT工作人员进行设置,以提供满足该机构特定需求的特定信息。对于缺省DBSPI没有提供的KP

41、I,可以通过简单的二次开发实现,DBSPI可以通过标准的SQL语句进行扩展,不需要用户掌握另外的私有开发语言。我们推荐采用HP OpenView SMART Plug In for Oracle/DB2/Informix实现对数据库的管理功能。它是网络系统管理平台HP OpenView Operations上的插接件,提供对分布在企业范围的、多厂商环境的Oracle/DB2/Informix数据库集中的监视、控制与管理。其主要功能有:监视数据库的状态、CPU利用率、数据库空间使用率、数据进程数目、数据库连接数目、缓冲区命中率、锁状态、数据库日志等。如果状态出现问题,可以给数据库操作员报警并关联

42、预定义的校正或预防动作。这些动作包括:启动和停止数据库服务器;输入/输出数据;归档/存储数据;执行SQL的启动,停止,状态,和日志文件工具;配置参数文件等。采集,分析,过滤,监视数据库的表空间,碎片情况。连续监控数据库表剩余空间并与预定义的阈值比较。以图和报表的方式显示任何数据库实例和相关的可用资源的历史和实时信息,包括:显示数据库用户,交易,共享内存,和其它的实例的摘要信息;显示分配的表空间,自由空间和碎片;计和缓冲区效率统计;会话和SQL活动;等待状况;优化器效率。可对数据库的资源状况进行分析: 为数据库提供不间断的监测。其中包括自动发现环境,在监测到潜在的问题或错误时发生警告和警报,在适

43、当的情况下执行自动纠正例程,当需要立即管理时,与先进的通知系统接口以获取远程消息。 在被授权的情况下,通过分配最大的可用空间来调整增长的数据库对象的大小,从而避免空间不足的问题影响用户生产率。 为有关恢复或用户定义操作的报告提供解释数据点。管理员可以通过一个本地数据点快速地检索关于参数值、历史和警报的更详细的上下文数据。自动测量档案目的设备上的可用自由空间量,并确定适合于剩余空间的档案日志数量。为维护充足的档案容量提供有价值的管理效率。 跟踪在为服务器实例指定的时间段内发生的存取连锁行的次数。 跟踪在每个轮询期间等待阻塞恢复的比率,它为数据库性能提供了一个关键的基准数据。高的等待率表明存在潜在

44、的表冲突问题。 监测缓冲区命中率,显示了读取数据缓存的操作与全部读操作的比率。3.3.3. 中间件监控对中间件的采集,Openview有专门针对中间件的智能插件来完成对中间件的管理。它也是预先就做好了对各种中间件采集和监控的模板,简化管理员的工作。HP OpenView Smart-Plug-in for Websphere 管理套件实现对于Websphere中间件系统的数据采集和管理。具体监控的参数主要有以下几方面:l 可用性包括:应用服务器状态、管理服务器状态l 应用服务器的性能包括: JVM内存使用情况、缓冲区线程请况等l EJB包括: EJB Pool使用请况包括命中率、EJB的平均响

45、应时间、EJB的调用情况包括从数据库导入导出的频率等l Servlets包括: Session的平均存活时间、Session接入和有效的情况l Web Application包括: 每秒Servlet的请求、Servlet的平均响应时间、每秒Servlet的错误、Web Application每分钟导入或重新导入Servlet的数量l JDBC包括: JDBC连接池的连接数、等待连接的线程数、客户等待连接的平均时间、连接池使用情况、客户等待连接超时数、连接池的处理量l 事务(Transaction)包括: 全局和本地事务的期限、本地事务提交的平均期限、全局和本地事务的回滚、超时和提交数等。3.

46、3.4. 相关产品的特点数据采集方面OVO主要通过Agent实现IT系统网管系统的数据采集功能,其中包括对主机、数据库、中间件、业务应用对象,实现告警数据、和性能数据的采集。通过OVO agent及其扩展功能,OVO的数据采集具有一下特点: l 高效性所有的数据采集都通过OVO的agent进行,其中对主机和网络的采集是系统缺省的功能,根据HP公司长期研发操作系统的经验,所有的采集都是发生在系统内核级的,因此能够保证其高效性。对主机系统的采集500多个参数,占用CPU资源可以保持在1以下。同时对于采集对象,OVO会合理安排采集时间,例如有100个指标是要求5分钟采集一次的,OVO会计算将这100

47、个采集任务分布在5分钟的时间间隔中,而不会到一个时间点统一采集,这样可以避免对系统造成不必要的压力。l 完备性通过OVO的agent可以采集所有被管设备的信息,包括系统缺省的和二次开发的,并且支持对业务性能数据的补采和重采机制。同时Agent和网管服务器之间的通信机制采用安全加密的https协议,杜绝了SNMP协议可能造成的数据丢失(SNMP采用UDP协议,是一种不建立连接的协议,不能发现数据丢失),当数据传输错误时,系统会主动要求重新发送。l 实时性对于告警数据,要求很高的实时性,以保证能够尽快的发现故障,对于网络设备,我们要求所有的网元将Trap地址指向网管服务器以达到实时处理的目的。在OVO内部,对告警信息和性能信息采用不同的处理流程,告警的所有信息都是先处理、后入库的,对告警的过滤、关联、匹配等都是在内存中进行的。l 开放性和标准化OVO的采集可以使用被管平台支持的任意语言进行能力的扩展,具有开放的SDK,用户可以使用任何语言扩展其功能,而不局限于网管厂家所提供的私有语言,Openview具有专门的开

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 成人教育


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号