一体化运行监测管理.docx

上传人:小飞机 文档编号:4928934 上传时间:2023-05-24 格式:DOCX 页数:12 大小:142.95KB
返回 下载 相关 举报
一体化运行监测管理.docx_第1页
第1页 / 共12页
一体化运行监测管理.docx_第2页
第2页 / 共12页
一体化运行监测管理.docx_第3页
第3页 / 共12页
一体化运行监测管理.docx_第4页
第4页 / 共12页
一体化运行监测管理.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一体化运行监测管理.docx》由会员分享,可在线阅读,更多相关《一体化运行监测管理.docx(12页珍藏版)》请在三一办公上搜索。

1、一体化运行监测管理一、一体化运维思路(1)一体化运行维护管理平台将所需要监控运维的内外场设备、资源配置管理、运维流程、运维可视化展 现和门户等功能整合在一起,并逐步结合日常运维管理规范和体系,实现统一的 监控数据采集、一体化的报警数据处理、集中的配置管控、统一的故障流程处理, 实现运维端到端闭环的处理环节,确保发生一事、处理一事、关闭一事,让运维 工作不再复杂、无序,而是规范、高效、有序的。(2)统一的资产配置管控管理构建统一的资产配置管理数据库,实现资产配置信息的联合、灵活、合规化 管理,将生产环境中的各类硬件、软件,外场感知设备、立杆/柱、取电信息以及 内场的物理/虚拟服务器、数据库、网络

2、、业务系统、中间件、文档、虚拟资源等 应统一纳入管理,实现资产配置信息的可控、可视与可管理,协助分析故障影响 范围、变更影响范围,帮助运维人员厘清生产环境中配置信息及其关联关系,为 整体环境的运维管理提供支撑作用。配置管理数据库的建设要支持灵活、动态、可视化原则,能够快速构建符合 金华银行管理需求的配置模型,支持模型的灵活定义和修改,支持配置信息的多 种采集方式,能够协助用户方快速梳理、收纳生产环境中的资产配置信息,并通 过可视化的配置视图和关系视图来直观呈现出配置关系,绘制一幅描述配置信息 的“地图”,为故障定位、影响分析等提供配置依据。(3)集中的基础架构监控管理综合运维管理平台的基础架构

3、是构建信息化运维管理的基础,所有业务系统 均依赖于网络、云平台、操作系统、数据库、中间件、存储、应用服务等基础架 构运行,各项资源的运行稳定直接关系到业务系统乃至日常业务工作的正常开展, 因此有必要对这些分散的IT资源进行全面的监控,了解每一项资源的运行性能 和告警信息,一方面通过了解资源的运行性能,分析资源运行趋势,掌握资源运 行态势,能够进一步合理利用资源,对IT资源的使用、分配和调整提供容量依 据,掌握资源运行规律,降低乃至避免各种运行风险;另一方面通过合理的阈值 监控和告警机制,及时将IT资源的异常和故障情况快速告知运维人员,实现故 障的快速告警、准确定位、及时解决,以保障IT资源的稳

4、定运行。(4)规范的运维服务流程管理以ITIL/ISO20000等标准和实践为指导,设计、建立符合用户实际情况和管 理需要的运维服务流程,树立面向业务服务的IT运维管理理念,建立科学合理 的流程指标,由粗放管理向精细管理转变;实行集中统一的IT运维管理模式, 由分散管理向集中管理转变;建立统一高效灵敏的网络管理系统,由无序服务向 有序服务转变;建立规范标准的IT运维管理流程,由职能管理向流程管理转变; 应用先进、实用、高效的IT运维管理工具,由被动管理向主动管理转变。(5)运维决策支持建立直观、真实的运维可视化展现,综合网络中的感知终端、通信设备、网 络传射、应用系统等各类资源运行情况以及运维

5、技术人员的日常运维管理工作情 况,有效的展示内部的IT资源运行情况、性能状况、服务工单情况等,使领导、 管理者、技术人员能迅速了解自己关心的问题,满足不同层次人员对系统一目了 然直观了解的需求。二、系统功能系统提供运行状态监控功能,运行状态监测功能主要依托成熟的运行监控软 件zabbix等软件,实现对相关主机系统、桌面PC机、网络设备、安全设备、数 据库、存储系统、IT环境的集中监控和管理,基于流数据进行网络安全分析,能 够及时采集各类告警信息、性能数据和配置数据,进行集成统一的分析、查询、 报告和展示等。运行监测的功能包括但不限于以下几个方面:(1)设备资产服务管理主要实现设备全生命周期可视

6、化管理、便捷智能的维修任务分配和维修过程 管理、同时包含有计划的设备巡检、备件出入库管理等功能,将运维管理相关的 人员、设备、数据、流程集成在一个平台中并进行充分的交互及共享。包括备品 备件管理、设备管理、故障维修、巡检计划、综合统计分析以及系统参数管理等, 主要负责整体运维业务的管控,决策分析和系统运行设置。(2)设备运行综合监控基于图形化管理平台,管理各种设备异常预警信息和维修任务的下发,管理 设备故障维修的进展和运维人员的处置进度。主要功能包括综合数据展示、设备 运行监测设置、设备异常管理、阈值参数动态管理等。(3)设备运行性能监控对服务器和虚拟集群运行情况的监控,包括硬件状况、资源使用

7、情况、健康 状况;虚拟资源管理,实现对Vmware、Ctrix、HyperV、PowerVM、KVM等虚拟 化平台的集中管控,及云资源的流程化申请、调整、销毁的管理过程。对操作系统、中间件和数据库等软件实现运行情况监控,对相关监管指挥系 统服务的运行状况实现监控;存储监测:对存储设备进行监控。网络拓扑管理:实现网络设备和链路的自动发现并生成网络拓朴,不含网络 设备监测许可。对相关功能模块的访问和调用情况进行记录和分析,并生成评估优化报告。对接口的监控,系统接入了很多采集接口和数据接口,支持对采集接口以及 数据接口的集中监控,自动生成运维报告。(4)数据分析处理中心结合大数据、物联网、AI等前沿

8、技术,整合前端监测设备采集的数据资源, 基于运维自动化、业务流程管理、配置管理和集中监控等智能引擎,建立数据基 库和综合分析中心,对各项监测运维的应用展示平台提供数据和业务支撑。(5)故障异常预提醒可实时记录包括设备温湿度、电压电流、重点设备CPU、内存、硬盘使用率, 工控机散热异常等多种隐患异常,同步录入模型分析库进行异常分析比对,及时 进行故障预警。(6)故障精准定位通过多种状态展示方式准确定位故障原因,详细展示设备多项状态参数,针 对动态变化数据生成动态趋势图,实现精准锁定具体异常指标,快速确定处置措 施。(7)配置及管理功能基于CMDB配置自动发现工具,CMDB配置数据库用于集中动态的

9、管理用户 配置数据,实现配置库模型建立、配置审核、版本管理、配置关系可视化等,配 置以群组的形式展示。用户在CMDB中看到自己的配置群组,也可以被授权的配 置群组。维护群组主要针对采集入库的数据进行综合管理,包括分组管理、分类 管理、群组动态展示以及权限管理。1、应用资源监控系统支持面向云平台、物理/虚拟服务器、存储设备、应用系统等软硬件资源 的监控与预警。针对应用的监控系统采用监控代理的方式实现监控,在云数据中心环境下, 支持代理和非代理方式进行监控采集。代理采集方式可将代理程序内置至虚拟机 模板当中,将可在虚拟化机被创建时,就可以实现该虚拟机上所有基础应用资源 的监控。(1)服务器硬件监控

10、实现对国内外主流品牌的服务器硬件监控,应支持通过IPMI协议实现硬件 级监测,监控指标包括:服务器电流、传感器风扇、传感器状态、传感器温度、 服务器电源功率等。(2)存储监控系统支持通过SMI-S、SNMP协议对主流存储设备进行监控。主要包括控制 器、磁盘阵列、物理磁盘、存储池、存储卷、网络文件系统、通道卡信息、网络 状态、电源、风扇、RAID、端口。若设备支持,支持监控设备环境参数,如温度、风扇、电源电压等,并能提 供SNMP Trap、Syslog方式,系统支持接收存储设备主动告警。(3)云管理平台监控通过与云管理平台进行对接实现云资源监控,应支持国内外主流厂商的云平 台监控。(4)Doc

11、ker虚拟化监控应支持对轻量级容器Docker监控,包括Docker容器rootfs性能、容器读写 性能以及容器磁盘、IO、CPU、内存、网络等性能情况。(5)操作系统监控可监测众多的服务器操作系统,包括Windows、Ubuntu、CentOS、Redhat、Mac OSX、Fedora、CoreOS;可自动监测服务器的各类性能指标,包括CPU、RAM、磁盘、负载、文件 系统、网络、监测、服务等指标;可自动监测服务器重要事件,包括Windows Event、Syslog;可监测一些常见的系统服务,包括HTTP、DNS、TCP、SSH、SNMP、WMI。(6) 中间件监控系统支持对各类中间件进

12、行监控:Web 服务中间件,包括 Apache、Tomcat、IIS、Nginx、JBoss、Lighttpd、Weblogic、 Websphere;缓存中间件,包括Redis、Memcached;消息中间件,包括 ActiveMQ、RabbitMQ、Kafka;大数据中间件,包括 HAProxy、Elasticsearch、Hadoop。(7) 数据库监控支持传统关系型数据库与NoSQL数据库的监控:可监测各类传统关系数据库,包括:MySQL、PostgreSQL、SQLServer. DB2. Oracle、Sysbase、Informix;可监测各类NoSQL数据库,包括:Cassan

13、dra、MongoDB。(8) 大数据(Hadoop)监控当前云数据中心在大数据方面发展势头明显,大数据云成为云数据中心的主 要研究方向之一,同时也是云数据中心与实战结合的关键点。在大数据云的建设 方面Hadoop技术占据的重要角色,运维系统支持面向Hadoop核心组件(HDFS、 MapReduce、Yarn、Zookeeper)及内部消息中间件(RibbitMQ)的监控。(9) 监控可视化展现系统支持对上述资源监控后,可通过定义不同维度仪表盘来实现监视指标的 可视化呈现,系统支持按照时间轴方式同步展现多个指标,即管理人员查看某个 时间节点的运行情况时,系统仪表盘将同步联动该资源在该时间节点

14、上的全部监 控指标信息。(10 )组件标签化管理系统支持以标签的方式来实现对大量被管资源进行分组、分类管理,以灵活 应对复杂数据中心基础架构管理和展现要求,通过可视化界面,管理人员即可对 每一类被管资源打上一个或多个标签。标签可以自由定义,运维人员可以按照预先设定好的管理规范或命名规则来 为主机或设备增加任意维度标签,如数据中心、业务、位置、集群、管理组等标 签。标签定义完成后,管理人员即可在监视视图上通过标签来过滤、整合所关心 资源的运行状态,多角度、多层次查看资源运行态势,快速呈现高负荷资源并钻 取查看。2、网络设备监控通过 SNMP、ICMP、NetBIOS、ARP、Traceroute

15、、Telnet 等多种手段自动发 现、识别设备,并采集到的设备各种配置信息、拓扑链接信息进行拓扑计算,得 到网络实际的物理和逻辑链路信息,生成链路拓扑图。支持网络全网拓扑发现和自动增量发现,能跟踪拓扑变化信息,对重大的链 路拓扑变化发出告警。3、视频设备监控提供按照GB/T28181规范与视频监控平台对接,通过国标对接从视频监控 平台获取摄像机设备清单,支持规范中约定的视频图像格式的解码。(1)视频设备在线监测基于GB/T28181规范获取视频监控平台中摄像机设备的运行状态,状态指 标包括:SIP信令状态、视频流状态、关键帧状态,以及设备的网络联通状态监 测。(2)视频图像质量诊断监测提供对视

16、频图像质量的诊断分析功能,通过定时轮询机制,对图像处理和识 别技术定期进行视频图像质量的诊断和分析,分析视频图像是否存在:无视频信 号以及其他视频图像异常故障检测(如:视频亮度、条纹、模糊、偏色、雪花等)。无视频信号检测:自动检测视频丢失、无视频信号、黑屏、蓝屏的图像现象。其他视频图像故障包括:自动检测由于各种摄像头故障引起的画面过亮、过 暗等情况,视频图像中出现的条纹;由于聚焦不准等情况引起的视频图像模糊, 视频图像的偏色现象,视频图像中的雪花等现象。(3)录像完整性监测提供对视频录像完整性监测,并将最近30天的录像存储状态进行列表展现, 提供对每天的录像情况钻取功能,可查看最近30天每天录

17、像缺失的情况。4、集中告警管理(1)告警接入管理系统支持对网络、应用监视工具汇聚的告警统一接入,也支持对ZABBIX等 开源监控系统的告警接收。(2)告警操作处理系统支持对告警流水式查看,能够通过时间轴查看告警生成情况,并通过查 看某个时间的告警事件。也支持通过区块化方式查看告警事件,支持通过告警关 联对应的资源业务标签,通过业务标签对故障告警进行区块化分类汇总。通过区 块化对告警的告警数量、紧急程度进行呈现,方便运维人员直观快速的掌握告警 信息。告警信息能够自动关联CMDB的配置信息,掌握故障资源的相关管理信息, 提升故障处理效率。系统支持对告警事件的过滤查看,可以灵活设置告警过滤条件,选取

18、自身关 注的告警类型。支持对告警进行合并操作,将相关联的告警事件进行合并。支持 对告警的关闭操作,支持多项关闭选项,比如:故障已经恢复、计划停机、监控 系统误报等。支持人工和自动激发工单。(3)告警影响分析通过监控告警与CMDB配置关系的关联分析,支持对告警的故障影响分析。5、服务流程管理系统内置符合监故障维护业务的流程场景,包括故障的事件工单,支持根据 实际维护需求进行流程自定义调整,从流程建模、工单管理实现对运维服务流程 的管理。可与知识库、配置库结合,支持通过手机短信或者电子邮件通知相关人 员;支持处理过程关键信息的记录与分类,支持流程处理过程跟踪.用户:。, 艇模型 i壮委协作Q州 O

19、 S!阜:.,_!_单-.岷脚.讨伽:1 9 g ftLSK :、/; O 的鼬m 起丁L -f *:忐.3国 ITIL ,gvOp$ /图1运维流程整体设计思路(1) 工单管理支持分类导航显示工单,包括待办工单、关注的工单、参与的工单和所有工 单查询;支持多种方式排序,包括综合排序、按创建时间、按优先级等排序;支持常规的按标题和流水号搜索工单,也支持按工单状态、优先级、创建人和执行人实现高级搜索;工单处理支持接单、提交、回退、改派、跳转等多种操作,提交之后通过追加“已提交”或“已完成”等动态标签提醒用户操作成功;工单支持开放式的回复功能,通过及时回复快速了解详情和处理工单;工单支持关注功能,

20、用户可以关注他人的工单;支持工单动态,以流程环节分组展现给相关用户,包括工单流转信息、回复信息等;工单处理过程中支持邮件、短信、微信、站内信等方式将工单提醒通知给相关用户;支持触发器简化流程,可实现定时任务和自动任务。(2) 流程模型流程模型应支持灵活的动态建模功能,可根据实际管理环境和管理需要自由、灵活的定义和调整模型,对于流程建模功能,应能够满足以下需求:支持web在线的流程自定义,实现流程环节可定义,流程处理人可定义,流 程展现可定义,无需任何编码;支持流程环节添加、删除和编辑,位置上下可移动;支持由发起人指定、由上一个环节指定、自动分配和主动认领等任务分派方 式,支持任务的干预和改派;

21、流程支持会签功能,同一个环节由多人联合处理;支持流程在不同环节展现不同的表单,表单支持自定义字段,字段类型包括 时间、短文本、数字、长文本、附件、下拉列表、单选项、多选项、图片等,表 单支持复制功能;支持流程通知,在流转过程中支持短信或邮件形式给相关人员发送阅知信息, 发送阅知信息不影响流程流转;支持流程模型的授权功能,不同的流程由不同的用户进行管理和使用;支持流程模型的复制、删除、启动和停用功能。6、集中运行展现提供读取资源运行状况的集中展示平台,将通过运行一览视图、业务监测统 计视图等方式查看当前系统的整体运行情况。提供可视化设计器,用于对运维数 据的统计形成图表。(1)可视化展现提供场景

22、化的可视化图表展现,支持投放大屏。内置多种运维场景模板,支 持根据实际情况梳理特定场景进行定制化展现。图3设备状态监控图4数据库带宽监控图5数据库活动量监控图6监控问题列表(2)运维数据统计综合运维系统提供对视频资源的运行状态统计形成报表,包括:可用性报表:航道感知设备、通信终端、监控视频、网络、服务器、数据库、 中间件、虚拟机等软硬件的可用性统计报表;性能报表:通过资源的运行性能进行分析形成性能统计报表,掌握运行性能 趋势分析,诊断性能瓶颈;工单报表:工单数量、工单时长等。7、运维管理门户运维服务门户是运维管理系统的人机交互界面,为综合运维管理平台提供权 限管理和统一访问入口,实现日常运维工作的便捷化操作。图7运维管理用户界面示意图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号