采油三厂云中心建设及应用项目V2.docx

上传人:牧羊曲112 文档编号:1743478 上传时间:2022-12-16 格式:DOCX 页数:30 大小:2.26MB
返回 下载 相关 举报
采油三厂云中心建设及应用项目V2.docx_第1页
第1页 / 共30页
采油三厂云中心建设及应用项目V2.docx_第2页
第2页 / 共30页
采油三厂云中心建设及应用项目V2.docx_第3页
第3页 / 共30页
采油三厂云中心建设及应用项目V2.docx_第4页
第4页 / 共30页
采油三厂云中心建设及应用项目V2.docx_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《采油三厂云中心建设及应用项目V2.docx》由会员分享,可在线阅读,更多相关《采油三厂云中心建设及应用项目V2.docx(30页珍藏版)》请在三一办公上搜索。

1、采油三厂云中心建设及应用完成 单位:技术指导人:姚伟明项目负责人:宁莹项目组成员:宁莹 李化斌 李录兵张晓莉 周维琴审 核:中国石油天然气股份有限公司长庆油田分公司2017年12月12日成 果 简 介一、 成果背景银川生产指挥中心现有中心机房和备用机房2座,服务于生产、办公服务器74台,在用业务应用系统38个。原有中心已经使用很长时间,随着设备的老旧,机房运维成本越来越高,隐患也越来越多;同时IT设备面临服务器数量多、品牌杂,运行超年限,性能下降,脱保率高等问题,导致厂内每年在IT上面的固定投资及运维成本也很高。随着集团对数据安全、机房动力设备实施监控和油田开发的要求越来越高,数据积累又呈几何

2、级增长,传统机房愈来愈不能满足现实的需求。通过创新性手段引入最先进的技术解决实际问题,是解决问题的有效手段。以云计算为核心的新型数据中心作为信息行业的创新应用模式,是新一代技术变革的核心。通过引入新型监控系统,搭建以云计算为核心的云中心,可以有效解决上述问题。基于以上背景,搭建以“中心机房动环监控系统”为依托的云计算虚拟平台,形成采油三厂云中心,在保证稳定性,降低成本的同时提高了效率。二、 成果创新点以云计算为基础,通过虚拟化技术虚拟化技术进行整合,组建统一的服务器硬件虚拟化资源池,在实现资源复用提升。1. 机房内安装18套高清视频监控设备,通过IP协议传输至NVR硬盘录像机,终端利用web访

3、问将视频图像实时上传至管理员办公室,实现机房全天候实时监控。2. 机房动力环境监控系统将空调、供配电、门禁、温湿度、漏水检测等重要指标参数进行整合。通过设定基础数值,实现高低限报警,以给管理员发送短信、管理员办公室声光报警两种形式告警,并通过实时数据分析、统计,监控系统将自动生成日报、月报功能。3. 建立监控平台,直观显示空调、漏水、配电系统、UPS等动力、环境设备运行参数,实现机房运行状态在线监控。4. 从云计算管理平台中可直观显示虚拟主机承载业务系统情况,以及每项业务系统运行状态,并可进行业务系统迁移或更改数据存储。三、 应用效果有效提升运维效率,实现人员优化:通过现代化自动监测和科学管理

4、以及机房环监控系统,达到724365的全面集中监控和管理,在保障机房环境及设备安全高效运行的同时实现机房无人值守。2. 大幅度提升了系统稳定性和数据安全性,提高了资源利用率:通过利用云计算虚拟化技术、网络技术、数据共享存储技术,建成系统稳定、安全可靠、集中统一的云计算虚拟平台,达到降低业务中断频次,缩短系统部署周期,提升了数据存储的安全性。3. 大幅度降低了CPEX(投资成本)和OPEX(运营成本):建成的云计算平台将扩展出较目前5倍以上的虚拟服务器,保障未来业务系统对服务器资源的使用需求;在经济效益上未来5年将节约服务器购置费30.4万,节约服务器维护成本费113万,年节约电费20余万元。4

5、.标准化的产品和技术,可复制性强,可在集团各单位快速推广。目 录一、机房建设及应用现状4二、云中心项目建设6三、项目价值28采油三厂云中心项目建设及应用一、机房建设及应用现状1.1新型数据中心建设及应用现状随着社会的进步,目前传统的数据中心面临着两大问题,一是对于数据中心的监控系统来说,随着服务器数量的增加,运维人员成本的提升,传统的监控运维系统已经愈来愈不能满足现实的需求。二是服务器效率低下形成了计算资源的巨大浪费,存储的数据共享效率低,形成了存储资源的巨大浪费;数据中心扩容需要长时间宕机,影响正常的生产,且随着技术的不断变革,也不能满足企业日益提升的安全性要求。 在此背景下,以云计算为核心

6、的云中心应运而出。云中心包含两个方面,一个是运用新的技术和方案监控监测数据中心,可以降低运维成本,在减少人工支出基础之上加强对数据中心安全性的监测,另外依托云计算,另外是利用云计算虚拟化技术、网络技术、数据共享存储技术,建成系统稳定、安全可靠、集中统一的云计算虚拟平台。作为技术革命的核心,以现代监控系统和云计算为要点的云中心目前已经广泛应用到各行各业。而对于石油行业来说,目前美孚、壳牌等全球化的石油企业IT系统均已云化,而云化的IT系统则在方方面面帮助这些体力大力提升效率,降低运营成本。目前全球大部分先进企业均已根据自身的企业搭建新型云中心,不仅提升了效率降低了运维成本,也大大降低了数据安全的

7、风险。1.2采油三厂中心机房建设及应用现状 一是机房动力、环境设备作为机房设备运行的基础支撑,其良好的运行是保证机房计算机系统安全可靠运行的前提,一旦出现故障(如机房的温度、湿度过高、电力系统不稳定、机房安全措施不完善致使非核心工作人员进出机房操作等),很可能引发机房事故,导致不必要的经济损失。 二是目前服务器维护工作面临品牌杂、脱保率高、硬件资源使用率低、服务器性能下降等问题。并且服务器存在大数据量存储空间、应用数据备份以及未来高扩展性等需求。1.3 搭建云中心的必要性随着信息化技术的发展和全面应用,信息数据中心机房已成为第三采油厂正常运营的重要组成部分,计算机系统设备数量与日俱增,规模越来

8、越大,为保证信息数据中心机房安全正常运行,与之配套的机房动力环境设备(如供配电、UPS、精密空调等)等系统必须时时刻刻为计算机系统提供正常的运行动力及运行环境。一旦机房动力环境设备出现故障,便会影响到计算机系统的运行,对数据处理、传输、存储以及整个系统运行的可靠性构成威胁,若机房动力及环境设备出现故障不能及时被发现,从而没有得到及时的处理,不但会影响整个单位业务系统的正常运行,而且会造成计算机和通信设备故障甚至报废,使系统陷入瘫痪,造成严重的后果和无法挽回的损失。尤其需要实时交换数据的单位的机房,一旦系统发生故障,造成的经济损失更是不可估量,因此,机房实时监控管理显得更为重要。目前机房采取管理

9、人员24小时专人值班的方式,定时巡查机房各动力环境设备。但这样不仅加重了管理人员的负担,而且往往不能及时发现机房设备的运行故障(如供电电压异常、UPS或精密空调内部某部件故障)及机房环境的异常(如漏水、机房温度、湿度超标等),对事故发生时间、频率及原因等也无科学的管理与数据分析,从而造成故障得不到及时排查处理,这对机房的安全运行无疑又是一个不利因素。因此对信息数据中心机房的动力设备及环境情况进行实时的监控管理极其必要, 特别是随着近年来国家出台了相关信息化建设的规定,数据中心综合管理系统已成为了信息数据中心机房系统中必不可少的一部分。采油三厂因为生产建设的不断高速发展,业务不断扩大,信息系统的

10、复杂程度越来越高,同时业务服务器数量也在不断扩大,当前,采油三厂共有:生产指挥平台实时数据库、生产指挥平台中间数据库、后台数据库、数字化生产管理平台、静态数据系统、生产数据库、网络安全系统、视频转发系统、专项费用管理系统、采油工程报表等多个业务系统,约为40余台服务器。数量众多的服务器由多种品牌共同构成,且型号各异,具体有HP、IBM、Lenovo、CISCO、DELL等,维护起来较为复杂,工作量较大,且根据前期统计,服务器脱保率过高,达到90%左右,后期维护成本较大;服务器硬件资源使用率普遍较低,内存、CPU、硬盘使用率均值在40%左右,在一定程度上浪费了设备性能;由于全厂信息系统建设时间较

11、早,所以现有服务器大多数运行时间过长,有些超过五年之久,致使部分硬件老化,服务器性能下降,为有效的解决上述问题,并在对现有资源的合理利用下,提出虚拟化云计算中心解决方案,加强我厂信息化的综合水平,建设采油三厂的大数据云计算中心。二、云中心项目建设2.1设计依据与原则从实际出发,在有限的预算下,追求最高的性能。监控系统严格按照“严格、合理、可靠、经济、完善”和“无人值班、少人值守”的要求进行设计,保证技术先进性,系统高可靠性,运行管理方便,同时可扩展能力强,模块化结构有利于扩容与扩展。适应监控数字化、网络化发展趋势,不落后,不重复投资;采用内部局域网或广域网通信和管理,更稳定安全。采用TCP/I

12、P方式,被监控机房可以很容易地与监控管理中心及数据库建立起联系,用较低的成本对被监控机房的动力设备、机房环境等信息实施统一平台下的监控。监控主机采用采集、解析、传输和报警一体化设计,报警迅速,数据显示及时,数据记录完整,数据分析直观;系统以模块化设计,具有开放性,能灵活地组建各种规模的监控系统,与企业内部网络系统连接,不管是何种网络传输方式都能有机融合成一个整体,将是十分重要的。机房大小差异较大,要求设计的系统能适合各种实际情况,有较强的可扩性,能随时适应对系统的扩容要求。云计算虚拟平台设计上则需要整合信息化建设资源,充分利用现有设备及环境,对现有平台进行调整、升级和改造,满足我厂应用需要。具

13、体包括:采用云计算技术,结合创新建设模式,搭建标准统一、功能完善、系统稳定、安全可靠、纵横互通、集中统一的云计算平台,为各部门信息资源共享、数据交换和系统办公提供良好的支撑。通过建设云计算平台,方便未来将新增应用快速部署到云计算平台上,大大缩短新IT系统的上线时间,预期将节省设备30%,节约能耗50%。解决“信息孤岛”,实现信息共享,提高信息安全水平,提升监控能力和响应速度,提高工作效率,从而为全厂提供更为高效的信息服务。通过降低成本、提升效率、节能减排,满足我厂要贯彻落实科学发展观,转变发展模式的需要。满足在云计算平台上搭建应用系统的需要,包括以三层架构为主的应用系统,以及大访问量的应用系统

14、、大数据处理量的应用系统以及大计算量的应用系统。2.3 项目设计内容2.3.1监控系统设计内容根据生产建设发展需要,对机房进行动力环境集中监控, 统一监测,一旦出现异常情况,需要第一时间通知系统管理人员,及时告警,及时排除隐患和故障,保障系统正常,使损失降到最低限度。项目的建设内容为:1. 机房温湿度监测:安装温湿度传感器,监控机房温湿度情况。2. 消防漏水监测:消防监测包括烟感监测,机房内配置烟感烟感探头;漏水监测通过漏水检测系监视空调漏水和窗户漏水。3. UPS监测:监测机房内UPS关键数据指标。4. 电压监测:监测机房内电压。5. 空调监测:监测空调运行状况,对普通空调安装来电自启动功能

15、。6. 门禁监控:监测机房的进出。7. 视频监控:通过视频监控机房内部情况。2.3.2 虚拟平台设计内容针对采油三厂信息系统存在的问题以及需求,以充分保护现有投资为核心原则,展开对采油三厂云计算中心的全面建设。通过此次方案的部署,将会对采油三厂信息系统的存储层、网络层、计算层进行全面的融合和升级。解决方案分为四个部分:核心层、汇聚层、计算层、存储区域。核心层:以加强核心交换机的处理能力,提升用户网络访问质量,满足云计算中心对硬件资源的需求,对核心交换机进行升级,新采购一台数据中心级设备;汇聚层:汇聚层为服务器提供与内网的连接,实现了远程管理,及应用服务,此次汇聚层交换机将采用IRF虚拟化技术,

16、将两台物理交换机虚拟为逻辑上的单台交换机,可以提高运行的可靠性以及运行效率;计算层:通过虚拟化技术,将现有十三台性能较好的服务器,通过虚拟化技术进行整合,构建为统一的硬件资源池,根据实际的业务需要,为不同虚拟机分配不同的硬件资源,实现业务的灵活搭建,以及高效的扩展能力,利用虚拟化专有的技术特性,保障平台上业务的安全、稳定、与可靠,消除物理机对应用系统的运行限制;存储区域:本方案将采用两台共享存储,并配备两台存储交换机,分别通过8GB FC接口实现互联,两台存储交换机与两台共享存储设备都采用1+1互为热备的方式。云计算虚拟平台设计图2.4 项目系统技术概述2.4.1 温(湿)度监测系统在重要的计

17、算机机房中,设备对温(湿)度等运行环境的要求非常严格。根据主机房实际面积在机房加装温(湿)度传感器,以实时客观检测机房内的温(湿)度。在监控本系统,温(湿)度传感器将把检测到的温(湿)度值实时传送到监控主机中,并在监控界面上以图形形式直观地表现出来。管理员可实时了解机房各点的实际温(湿)度值,一旦机房内实际温(湿)度值越限,系统触发语音报警或短信报警。系统还可以将一段时间内机房里的温度值通过历史曲线直观地表现出来,以方便管理人员事后进行分析查看查看,为今后管理提供依据。2.4.2 配电监测系统把三相电压传感器或单相电压传感器并到配电的三相电源或单相电源线上,分别监测配电的三相电压和单相电压,软

18、件应满足对供电电压的波动监测,并具备告警功能,用户可以通过分析有关参数的历史曲线,清楚地知道供电电源的质量是否可靠完好。2.4.3 空调系统空调来电自启动装置,自动感应停电事件,在再次来电时,可以发出指令,使空点进入到停电前的运行状态,空调自启动装置可以学习多种类型空调的红外指令,要求可以根据情况进行延迟启动设置。空调检测和来电自启动联动,再初次触发启动失败的情况下,可以进行二次的启动触发,确保空调进入正常的运行状态。2.4.4 漏水监测系统 漏水检测系统分点式和线式两种,分别对某一采集点的漏水情况和某一曲线之间的路径上的漏水情况进行实时的检测,在检测到有漏水情况发生时,马上触发报警信息。2.

19、4.5 UPS监控通过由 UPS厂家提供的通讯协议及智能通讯接口,对 UPS 进行全面监控,对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视,一旦有部件发生故障,系统会自动报警。并且实时监视UPS的各种电压、电流、频率、功率等参数,并有直观的图形界面显示。系统可全面诊断UPS状况,监视UPS的各种参数。一旦UPS报警,将自动切换到相关画面,并在现场伴随有报警声音。可根据用户需要设置短信通知。对于重要的参数,可作曲线记录,可查询一年内的曲线,使管理人员对UPS的状况有全面的了解。UPS通过SNMP采集信息,在物理联结上直接通过局域网与监控服务器相连。一般UPS的监测可以

20、采集如下表所示的运行参数(具体指标根据不同的品牌和型号有所差异,我们可以采集厂商协议支持的所有指标):UPS 产品通过SNMP取的值01基本信息0101系统启动时间0102UPS厂家0103UPS模型标号0104UPS代理软件版本。02 电池信息0201电池状态0202当前电量可以坚持的时间0203剩余电量%0204当前电池的电压 单位是0。1V0205当前电池的电流 0。1支流安培0206UPS电池外壳的环境温度03输入部分的信息0301线路编号0302当前输入的频率单位“0。1Hz”0303当前输入的电压,单位“均方根伏特”0304当前输入的电流0。1均方根安培”0305当前实际输入电力大

21、小单位“瓦04UPS输出信息0401当前输出的动力源0402“当前输出频率单位“e”0403线路编号0404当前输出电压。单位“均方根伏特”0405“当前输出电流。0。1均方根安培”0406当前输出功率0407占用的UPS功率容量百分比2.4.6 消防检测系统(烟雾检测)机房内大部分时间处于无人值守状态,通过加装烟雾传感器,可以实时检测机房区域消防情况,正常时无报警信息。通过烟雾传感器,能够准确地检测烟雾,当烟雾浓度超过限量时,传感器向采集模块输出告警信号。通过采集模块,将干接点变化信号经过数字处理后送到监控主机发出报警,即可达到实时监测机房内的火灾情况。 2.4.7 综合监控报警平台综合监控

22、报警平台利用现有的机房环境监测软件,把机房环境监测软件采集到的机房环境信息,包括温度、湿度等监测信息跟用户设置的阀值对比,如果超过正常的范围,则会触发报警。 监控系统采用采集、解析、传输和报警一体化设计,报警迅速,数据显示及时,数据记录完整,数据分析直观;系统以模块化设计,具有开放性,能灵活地组建各种规模的监控系统,与企业内部网络系统连接,不管是何种网络传输方式都能有机融合成一个整体,本系统有较强的可扩性,能随时适应对系统的扩容要求。系统提供多种报警手段(语音、手机短信、电话语音、电子邮件等)结合使用,灵活方便;对电话和短信报警均可记录;支持通过短信查询系统设备参数和状态。在UPS出现故障、温

23、湿度值偏离等故障出现时,监控系统能通过短信、电话等途径告警并告知系统管理员。同时也可配置根据通讯网管和蓄电池检测子系统的报警信息进行短信报警的功能。短息报警应支持日志功能,对每一次的报警内容,报警动作做完整的记录。2.4.7.1 实时数据的采集和展现数据的采集是以轮循的方式进行,支持多个线程并发采集(最多支持100个设备的并发采集),采集到的原始数据经过预处理,进入阀值处理模块,根据用户事先定义好的阀值,判断此次采集的数据是否正常或者异常,如果异常则立即触发报警模块的处理,然后数据进入历史数据库。2.4.7.2 历史数据的存储和展现采集到的数据除了进行实时的判断和触发报警外,根据用户的设置的保

24、存的周期,进入历史数据库供以后分析使用,历史数据库放置所有探头的各次监测结果值和采集的具体时间,系统提供历史报表分析,历史图表分析,可以提供曲线图,饼图,柱状图等图形展现历史数据。通过系统可以查询最近一天、一周、一月、一年,以及任意时间段的历史监测数据,通过曲线图和表格的方式显示。通过曲线图可以显示最近一天每小时、每月30天平均的最大值、最小值、最近监测值三条曲线。通过表格可以显示最近一天、一周、一月、一年的历史监测数据,包括统计时间、最近监测值、最近监测时间、监测最大值、最大值时间、监测最小值、最小值时间,警告次数、严重次数。2.4.7.3 短信和语音报警在语音报警方面,除了通过语音告知管理

25、员出错的节点信息外,系统还支持语音查询功能,即用户拨打语音查询号码,根据语音提示,用户可以选择收听任何一个节点当前的数据,这样系统管理员即使不在计算机旁,也可以查询环境监控系统中所有的数据,真正作到了远程无人值守。对告警提供声音、邮件、短信、电话语音等告警响应。对于告警响应实现方式的设计如下:声音告警:当特定的告警发生后,在指定的工作站发出告警声音,提示管理员发生了故障。不同的告警级别将采用不同的告警声音进行区分。短信通知:当特定的告警发生后,发送手机通知到对应的管理维护人员告知或敦促进行处理。用户可以在类似“告警配置”界面中设定发送短信的告警类别或告警级别。邮件报警:当特定的告警发生后,发送

26、邮件通知到对应的管理维护人员告知或敦促进行处理。电话语音通知:当特定的告警发生后,拨手机或电话通知,到对应的管理维护人员接听语音告警。同样用户可以在类似“告警配置”界面中设定发送电话语音告警类别或告警级别。2.4.7.4 告警展现在报警处理完成后,系统提供集中的告警展现功能,以一个集中统一的方式展现包括网络告警、机房告警、主机告警等在内的所有告警信息,提供查询统计功能。告警展现功能如下:1、告警列表和告警详细信息在同一视图里展现,方便查看各告警详细信息;2、告警列表包括级别、告警源名称、所属单位、告警时间、告警摘要等;3、提供告警查询功能,可以根据各种复杂条件进行查询;4、告警列表支持Exce

27、l导出功能;5、需要提供各种告警统计报告,如告警频率、告警比较、告警分布等报告。2.4.7.5 事件和报表报表展现功能,提供各种运行分析和性能报告,监控管理人员能根据这些报告准确评估环境运行情况,及早发现故障隐患和评估威胁。数据展现层应提供完整的事件查询和报表统计的功能,能够从多方面多角度查询发生的事件,以及恢复和处理的情况。事件的查询结果用图形和表格直观反应。报表的统计结果,都可以输出到EXCEL。此外系统提供一定的定制报表,满足不同用户层的管理需要2.4.7.6 系统配置和管理监控软件作为一个完整的管理系统,提供了基本的用户管理、权限管理等通用的功能外,还提供本系统特有的功能,主要有:l

28、监测设备配置:提供监测设备,如环境监测、UPS等监测设备的配置, 包括监测数据采集周期、采集方式、采集参数等设置,监测指标的设置。l 监测视图配置:根据用户实际情况,定制环境监测,应用监测,以及网络拓扑的图形。l 报警配置:提供短信、电话、邮件等报警配置,根据实际情况设置报警管理的手机号码,或邮件地址,并根据周历、日历两种情况进行值班配置。2.4.7.7 与其他系统的接口机房环境集中监控系统提供便利的接口,可以提供给其他系统调用环境动力监测到的数据,提供WEB SERVICES方式,提供数据库查询方式,提供文本数据方式。根据与其他系统确定的协议,我们将历史或者实时的数据转换为其他系统需要的形式

29、,开放给其他系统使用。2.4.8 云计算虚拟平台设计云计算虚拟化平台系统分为三层次:物理资源层、系统资源层、应用资源层;物理资源层:通过CAS KVM系统将服务器、网络、存储资源进行整合成资源池。为虚拟化平台提供物理资源分配。系统资源层:通过CAS CVK对各虚拟机进行统一管理,整个系统打包成一个文件的方式存放在共享存储中。应用资源层:依托于系统资源层中的虚拟服务器,每个虚拟机服务器可承载单个或多个应用。2.4.8.1 物理资源层计算资源池设计:在搭建服务器资源池之前,首先应该确定资源池的数量和种类,并对服务器进行归类。归类的标准通常是根据服务器的CPU类型、型号、配置、物理位置来决定。对云计

30、算平台而言,属于同一个资源池的服务器,通常就会将其视为一组可互相替代的资源。所以,一般都是将相同处理器、相近型号系列并且配置与物理位置接近的服务器比如相近型号、物理距离不远的机架式服务器或者刀片服务器。在做资源池规划的时候,也需要考虑其规模和功用。如果单个资源池的规模越大,可以给云计算平台提供更大的灵活性和容错性:更多的应用可以部署在上面,并且单个物理服务器的宕机对整个资源池的影响会更小些。但是同时,太大的规模也会给出口网络吞吐带来更大的压力,各个不同应用之间的干扰也会更大。如果有条件的话,通常推荐先审视一下企业自身的业务应用。可以考虑将应用分级,将某些级别高的应用尽可能地放在某些独立而规模较

31、小的资源池内,辅以较高级别的存储设备,并配备高级别的运维值守。而那些级别比较低的应用,则可以被放在那些规模较大的公用资源池(群)中。初期的资源池规划应该涵盖所有可能被纳管到云计算平台的所有服务器资源,包括那些为搭建云计算平台新购置的服务器、企业内部那些目前闲置着的服务器以及那些现有的并正在运行着业务应用的服务器。在云计算平台搭建的初期,那些目前正在为业务系统服务的服务器并不会直接被纳入云计算平台的管辖。但是随着云计算平台的上线和业务系统的逐渐迁移,这些服务器也将逐渐地被并入云计算平台的资源池中。在云计算平台搭建完毕以后,企业的服务器资源池可以如下图所示:在云计算平台上线以后,原有非云计算平台上

32、的应用会逐步向云计算平台迁移,空出的服务器资源池也会逐渐并入云计算平台的资源池中。其状态可以用下图所示:虚拟化管理平台体系将IT数据中心的物理服务器资源以树形结构进行组织管理,统一称之为为物理层资源。云资源中的被管理对象之间的关系可以用下图描述:HA集群设计:为了提升云业务系统的可靠性,在云计算平台的计算资源池建设时,可以将多个物理主机合并为一个具有共享资源池的集群。CVM HA功能会监控该集群下所有的主机和物理主机内运行的虚拟主机。当物理主机发生故障,出现宕机时,HA功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。当某一虚拟服务器发生故障时,HA功能也会自动的将该虚拟机

33、重新启动来恢复中断的业务。除了对集群中的物理服务器节点进行持续检测之外, HA软件模块还对运行于物理服务器节点之上的虚拟机进行持续检测。在每台服务器节点上都运行了一个本地资源管理器守护进程,它是HA软件模块中直接操作所管理的各种资源的一个子模块,负责对本地的虚拟化资源进行状态检测,并通过shell脚本调用方式实现对资源的各种操作。当守护进程检测到本机的某台虚拟机出现通信故障时,首先将事件通知给DC,由DC统一将该虚拟机状态告知集群内所有的物理服务器节点,并按照一定的策略算法,为该故障的虚拟机选择一个空闲的服务器节点,在该节点上重启该虚拟机。DRS动态资源调度:CVM提供的动态资源调整功能可以持

34、续不断地监控计算资源池的各物理主机的利用率,并能够根据用户业务的实际需要,智能地在计算资源池各物理主机间给虚拟机分配所需的计算资源。通过自动的动态分配和平衡计算资源,动态资源调整特性能够: 整合服务器,降低IT成本,增强灵活性; 减少停机时间,保持业务的持续性和稳定性; 减少需要运行服务器的数量,提高能源的利用率。随着业务量的增长,虚拟机对计算资源需求会相应的迅速增加。此时其所在物理主机的可用资源可能就不能再满足其上承载的虚拟机的计算需要。CVM动态资源调整功能组件可以自动并持续地平衡计算资源池中的容量,可以动态的将虚拟机迁移到有更多可用计算资源的主机上,以满足虚拟机对计算资源的需求。即便大量

35、运行SQL Server的虚拟机,只要开启了动态资源调整功能,就不必再对CPU和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能,也可以显著地提升数据中心内计算资源的利用效率,降低数据中心的成本与运营费用。虚拟机资源限额:通过资源限额方式来为虚拟机指定资源调度的优先级。有三种预设的限额分配方式:高、中、低。虚拟机资源限额机制为了确保每个虚拟机对资源的调度下限,如果物理服务器上没有发生虚拟机的资源抢占行为,那么,即使是低优先级的虚拟机也有可能独享该物理服务器上绝大部分的资源。当所有的虚拟机都处于满负载运行的情况下,CPU资源严格按照权重比例进行调度,以确保所有的虚拟机都能抢占到一定数量的

36、资源,保证业务的可用性。一旦某个虚拟机的负载回落到权重比例之下,那么,其它的虚拟机可以抢占本属于该虚拟机的资源,以最大限度地利用物理资源的利用率,保证应用程序的运行效率。2.4.8.2 系统资源层存储资源池设计:通过资源限额方式来为了达到系统的故障快速切换,本方案中配置后端共享存储,以实现动态HA和迁移,这样可以将云计算平台中每个虚拟机的文件系统创建在共享的SAN集中存储阵列上。虚拟机文件系统是一种优化后的高性能集群文件系统,允许多个云计算计算节点同时访问同一虚拟机存储。由于虚拟架构系统中的虚拟机实际上是被封装成了一个档案文件和若干相关环境配置文件,通过将这些文件放在SAN存储阵列上的文件系统

37、中,可以让不同服务器上的虚拟机都可以访问到该文件,从而消除了单点故障。系统支持一台故障后,快速切换到另一台的功能,切换时间大概在0-10分钟以内。存储是指虚拟机文件(含数据文件和配置文件)保存的地方。按照存储的位置可以划分为两类:本地磁盘存储和通过网络存储在远端服务器上。本地存储包括:本地目录文件、LVM逻辑存储卷、SCSI/FC存储;网络存储则包含:iSCSI网络存储、NFS网络文件系统、共享文件系统和Windows系统共享目录。这里我们选择比较典型的三种应用配置来说明: 本地目录文件、iSCSI存储和共享文件系统。网络资源池设计:目基础网络采用“扁平化”设计,核心层直接下联接入层,市去了中

38、间汇聚层。随着网络交换技术的不断发展,交换机的端口接入密度也越来越高,“扁平化”组网的扩展性和密度已经能够很好的数据中心服务器接入的要求。同时在服务器虚拟化技术应用越来越广泛的趋势下,扁平化二层架构更容易实现VLAN的大二层互通,满足虚拟机的部署和迁移。相比传统三层架构,扁平化二层架构可以大大简化网络的运维与管理。核心与接入层之间采用二层进行互联,实现大二层组网,在接入层构建计算和存储资源池,满足资源池内虚拟机可在任意位置的物理服务器上迁移与集群。分层分区设计思路:根据业务进行分区,分成计算区、存储区和管理区。计算、存储区域内二层互通,区域间VLAN隔离;根据每层工作特点分为核心层和接入层,网

39、关部署在核心层。2.4.8.3 应用资源层应用资源层云计算管理平台由三个组件构成:虚拟化内核平台:运行在基础设施层和上层客户操作系统之间的虚拟化内核软件。针对上层客户操作系统对底层硬件资源的访问,用于屏蔽底层异构硬件之间的差异性,消除上层客户操作系统对硬件设备以及驱动的依赖,同时增强了虚拟化运行环境中的硬件兼容性、高可靠性、高可用性、可扩展性、性能优化等功能。虚拟化管理系统主要实现对数据中心内的计算、网络和存储等硬件资源的软件虚拟化管理,对上层应用提供自动化服务。其业务范围包括:虚拟计算、虚拟网络、虚拟存储、高可用性(HA)、动态资源调度(DRS)、虚拟机容灾与备份、虚拟机模板管理、集群文件系

40、统、虚拟交换机策略等。云业务管理中心:由一系列云基础业务模块组成,通过将基础架构资源(包括计算、存储和网络)及其相关策略整合成虚拟数据中心资源池,并允许用户按需消费这些资源,从而构建安全的多租户混合云。其业务范围包括:组织(虚拟数据中心)、多租户数据和业务安全、云业务工作流、自助式服务门户、兼容其他云平台的RESTAPI接口等。应用资源层管理平台2.5 系统特点 监控高度集成联动功能系统在同一平台上可将动力环境、门禁、数字视频、IT网管等整体集成,远程浏览器访问界面应与监控主机完全一致,以提高系统可靠性、可管理性、易用性、安全性。可实现多种监控系统联动功能,具备跨系统联动,通过软件平台独有的策

41、略模块间的连线关联即可实现不同子系统间的联动控制,如红外入侵、消防、门禁、摄像机录像等综合联动。开放式数据库接口系统采用SQL数据库,与数据库接口采用ODBC技术,使系统从根本上脱离了数据库的限制,也就是可支持各种类型数据库。提供ODBC接口供第三方软件集成或集成第三方软件,能充分保证系统二次开发的灵活性及今后功能的无限扩充性。提供标准的SNMP服务、OPC服务和BACnet接口,以便将来与楼控或其他系统接口。系统提供一个完备的二次开发平台,开发人员可以嵌入各种windows控件,可以用标准的脚本语言对功能进行任意扩充。监控管理系统具备强大的扩展能力,可以建成最小的基本系统,也可以建成较全面的

42、大系统。并可对多个机房的集中监控,全面满足系统扩容的需要。 中心物理稳定可靠性监控系统采用技术成熟的设备和软件,具有良好的电磁兼容性和电气隔离性能,不影响被监控设备正常工作;系统具有容错能力,不会用户误操作等原因使系统出错、退出或死机。可靠性高,能24*365不间断运行,平均无故障时间大于20万小时。在排除硬件及监控设备故障时,系统误报率小于0.1%。系统数据可自动备份,并可在系统中直接对数据进行备份和恢复。供电意外中断恢复来电后,监控系统自动重启、恢复。 物理设备兼容及可扩充性支持各种厂家的智能设备,多厂商的空调与UPS支持所有提供开放协议接口的设备。监控系统的设计符合国际工业监控开放式设计

43、标准,模块化结构设计,国际标准接口,便于扩展各种监控内容,方便日后维护管理。安全性严格的密码管理,多级(5级以上)权限管理,确保系统运行安全。系统提供完善的操作管理功能,口令验证及权限验证。系统应具有防止非法入侵、攻击及病毒侵扰的功能。操作管理分权限管理。支持用户管理和组管理。每个用户组可以设定组成员特定的权限,包括允许查看的内容、允许控制的设备等。所有操作有详细记录,包括操作人员工号、被操作设备名称、操作内容、操作时间等;每个远程用户的登录,其登录时间、主机IP及用户名均应完整记录,其所进行的操作:修改系统配置、控制设备运行等,也完整记录,存入历史数据库。系统管理员可以随时检查每个用户所作的

44、操作。 全面的能耗管理监控系统的能耗管理包括:能耗PUE值监测、温度云监控、空调控制、新风机控制、智能照明、节能建议等。通过对能耗报表的分析,帮助用户梳理能源消耗的时间、地点等信息,通过监控、管理和报表分析,可以更好地帮助管理者们找到能耗的焦点,并对重点能耗区域进行有效的管控,真正实现节能环保、绿色运行。 丰富的管理功能不仅仅是单一的监控系统,同时是一个管理系统,增加了机房设备管理、值班日志、报表、报警确认管理、事件处理管理等许多十分必要而且有效的管理工具,机房的监控和管理一体化,更加突出体现整体智能机房的概念。能实时动态显示监测数据,并以图表的形式显示历史数据。提供报警屏敝、报警解除通知、定

45、时发送信息等功能。 实现动态资源分配虚拟化平台可以自动的将超出的应用服务器迁移到其他负载较低的计算节点上,从而保障数据中心始终保持平稳的运行状态。如果要针对数据中心内的物理计算节点停机维护时,可以自由的将该节点上承载的应用服务器迁移到其他计算节点上,而这一切都是在完全保障业务不间断运行的情况下完成的。 提高计算资源利用率虚拟化整合带来的另一个好处是大大提高了资源利用率。每一台虚拟服务器都可以利用虚拟对称式多重处理技术,通过使单个虚拟机能够同时使用多个物理处理器,增强了虚拟机性能。每个虚拟服务器可以根据其上应用的负载,以最合理的方式分配计算资源。资源利用率的提高,意味着同样的硬件条件,可以承载更

46、多的业务负载。即不需要新采购大量的硬件设备,就将信息化平台的性能提升了数倍。 提供高性能并发计算在虚拟化的数据中心中池化集群的内存资源供分布式缓存服务器使用,把数据从传统的关系型数据库中解放出来,数据平滑移动到中间件应用层,分布在整个网格集群环境中。通过优化内部数据结构的存储方式,把内存作为一种资源,达到了可高并发访问数据的目的。在进行大规模并行计算方面,云平台下的应用作为客户端发出计算请求,为完成计算请求作业,首先将其拆分成若干个任务,然后分配到分布式数据网格的各个节点去执行,经过计算处理之后,相关计算节点的结果自动汇总到发出此计算请求的客户端并得出最终结果。大大提高了并发计算的能力。 保障

47、业务连续使用虚拟化技术中的高可用、动态迁移、实时容错等高级功能,为运行于虚拟化平台上的业务系统带来更简单、更经济、更可靠的业务连续性和高可用性保障。首先,高可用功能能够在计算节点在发生宕机时,自动在其他有足够剩余资源且正常运行的计算节点上重新启动宕机计算节点上的虚拟应用服务器,其故障恢复时间能够达到5分钟以内,从而将计算节点意外宕机造成的业务中断时间缩短至最短,有效提高业务的连续性。其次,动态迁移功能可以将正在运行中的虚拟服务器从一台物理服务器迁移到另一台物理服务器上,这个过程中应用服务不会中断。当需要对计算节点进行停机维护时,可以有计划的将计算节点上的虚拟应用服务器动态迁移到其他有可用计算资源的计算节点上,从而实现无中断的设备维护。同时,动态迁移还可实现物理服务器到虚拟服务器的转化,即通过使用虚拟化的组件可以将基于X86架构下的不同系统的物理机转化为虚拟机,转换过程中不需要物理服务器停机,保证了业务的高可用。通过集中式管理控制台和直观的转换向导同时可以完成多个转换。在需要的时候,可以将物理机克隆并备份为虚拟机,作为灾难恢复计划的一部分。本次虚拟化技术系统建设完成后,可以利用P2V技术,实现现有数据中心的基于X86架构的所有系统在线迁移到警务中心新机

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号