《备份系统建设中常见的四个认识误区.docx》由会员分享,可在线阅读,更多相关《备份系统建设中常见的四个认识误区.docx(18页珍藏版)》请在三一办公上搜索。
1、1 .概述1.1. 项目背景某集团财务公司是集团控股的非银行金融机构,是集团资金归集平台、集团资金结箕平台、集团资金监控平台、集团金融服务平台,为集团及下属成员单位提供存款、货款、代理支付、内部转账、供应链贸易融资、外汇结售汇、个性化资金管理子平台、投资顾问等金融服务,促迸资金效率提升、降低财务成本,加强集团对资金流的风险监控.近年来,随着集团整体不断发展壮大,成员单位数量不断增加,运用新的技术手段提升运营能力愈发迫切.金融外联系统作为财务公司对外服务的市要窗口,由网上银行、移动终端、银企直联、财企直联等渠道层应用组成,渠道层应用对交易和数据的强实时一致性要求不高,更多的是采用分布式中间件、微
2、服务框架,按照业务渠道构建高内聚低融合的组件化服务,以实现快速响应流量变化、提高运行可克性.以当前流量估箕,虚拟机资源需要21台,但随有接入单位的增加,资源消耗快速增长,系统整体的横向扩展能力亟待提升.同时,随若金融科技风险不断爆密.金融监管部门对信息科技的监管体系日益完善,对信息系统安全性、稳定性要求进一步提高.现有硬件与存储资源已近饱和,存储设备存在老化现象,磁盘故障率增长.为提升业务连续性指标,急需重构数据存储容灾技术方案,以满足监管要求;为更好地服务集团及各成员单位,为企业数字化提供技术支撑,满足信息科技的监管要求,打造一个安全、鬼定、可能、高效的核心基础平台成为财务公司信息化建设的垂
3、点.1.2. 当前基础架构情况原生产环境是以X86虚拟化为主的资源区,随着业务系统的快速增多,现有架构的已无法灵活扩展资源.原生产环境机构图如下:原生产环境资源存在的问题主要集中在以下几点:1、系统运维效率需要提升现有系统架构采用VMware+FCSAN传疣架构,基础设施架构维护大量占用变更窗口.如扩容存楮系统,要停机、添加磁盘、磁盘初始化等一系列操作.如扩展计算资源,要进行手动均衡、物理服务器添加、虚拟化软件安装配置等操作.2、业务连续性需要提升现有集中式存牌采用RAID5方案,设备使用年限长,如出现故障数据丢失风睑较大,且修宜故障所需时间较长.维护虚拟化集群设备工作量大,为避免系统数据丢失
4、,维护作业一般翕要先把整个系统全部停机,严重影晌生产系统的业务连续性.如集群X86服务器出现单点故障,在集群资源配置不当的情况下,易产生连锁反应,造成集群性能明显下降.3、系统部署时效需要提升现有金融外联系统基础环境无法快速响应业务变化,柒道层应用的快速扩展不仅要求IT资源快速上线,也要求服务的快速响应.现有的基础环境架构在快速扩容和维护便利等方面的表现不尽如人意。4、系统资源利用率需要提升现有集中式存储设备相对昂发,存储架构一旦落地部署成型,后续扩展性较差.当出现高并发、大容量文件存储等情况的时候,容易受到硬件性能与容量限制.现有数据量培长迅速,如何构建一个统一可弹性扩展的存储池,将计算、内
5、存资源通过虚拟化的方式组成资源池,响应业务系统快速扩展要求,是摆在我司面前一项现实而紧迫的任务.1.3. 建设目标采用集数据计算、存储、网络等资源于一体的超融合技术架构搭建IT基础设施,实现系统资源便利部署、高效稳定,提升运维效率.提高财务公司整体的数据处理能力和系统资源储备.不仅满足传统网络架构云资源模式的IaaS,PaaS,还可以满足向下兼容,资源弹性伸缩,数据多副本冗余.在满足当前系统建设对服务器的需求的同时,为未来信息系统的建设发展提供一个灵活的、快速响应的、稳定可靠的服务器基他环境,最终实现系统资源横向的灵活扩展,增强业务连续性保护,较好的满足业务系统稳定安全运行要求.结合以上情况,
6、本项目的建设目标主要包括以下几个方面:1、为金融外联系统规划超融合平台环境,提供相关服务器基础软硬件资源.2、运维管理区增加超融合环境覆盖.3、针对现网结构进行整体网络优化设计改造,包括运维管理区网络改造、金融外联区超融合网络建设等.1.4. 建设原则IT基础设施平台建设需做到合理化、规范化和科学化,以应用为先导、统一规划,集中管理,在满足应用系统架构设计需求和业务数据对计算存储资源功能和性能需求的前提下,通过资源的统一分配和部善,结合超融合技术,最大化地提商资源的灵活性和利用率,满足应用业务需求扩充与资源部署变更的发展需要.本次项目按照以下原则迸行设计:1、以系统的高可用性为原则.整个虚拟化
7、平台的规划建设要满足高可用要求,包括服务器硬件、网络等方面不能存在单点故障风险.2、以具备良好的扩展性为原则.虚拟化平台在规划和建设时,需要考虑其扩展能力,在计算资源和存储资源不足时,能够平滑进行扩展。3、以确保安全性为原则.一是确保数据安全,出现单点故障不能出现数据损坏或丢失;二是确保网络安全,按照服务器的安全等级划分安全域,并且配置网络访问策略.4、以技术先进性为原则.在技术路线选择和产品的选型方面,要充分考虑其技术先进性,能够代表当今技术的主流发展方向.5、以技术可靠性为原则,在技术路线选择和产品的选型方面,要充分考虑技术的可靠性,选择技术成熟、运行稳定的技术方式.6、以合理的性价比为原
8、则,虚拟化平台的建设要结合公司信息系统的实际情况.合理制定建设方案,避免不必要投入。7、以优先采用安全可控信息技术为原则.在能够满足项目需求的情况下,优先选择国产技术和产品.2 .技术选型我司的数据中心基于VMware+FCSAN传统虚拟架构,生产环境整体架构已完全成型.以超融合架构替代生产环境基础架构,为避免造成现有系统运行发生风险,影响业务系统稳定运行,超融合架构在使用前,须进行充分测试,且按系统级别逐个进行部署与切换,因此,我司联合集成服务商对传统架构和超融合架构进行了比较,并对各类超融合产品进行分析.2.1. 传统架构和超融合架构的对比传统架构和超融合架构通过可维护性、可扩展性、可靠性
9、3个方面进行比蛟,具体比较情况见下表.比较项超融合架构传统FCSAN架构可维护性计算资源存储资源融合部署于同一节点服务器;标准X86服务器和万兆交换机;计箕资源与存储资源分离;专用存睹硬件和网络可扩展性分布式架构,支持横向扩展;统一资源池,按需分配,自动均衡;控制器集中架构;存储控制器存在性能瓶颈;可靠性多副本,纠错码(EC),数据丢失风睑小;硬件故障时数据再建速度快;集中存储,磁盘损坏数据丢失风险大;硬件故障时性能下降严重;综合来看,超融合架构变革更多是基于分布式存储对传统存储的替代,结合虚拟化部署方式,实现基础环境的动态扩展、快速交付,进一步简化了IT架构,降低了使用成本和运维难度.分布式
10、存精可以采用多副本机制,数据副本分散在不同的节点服务器,当一个节点数据出现损坏,其他节点仍可以提供服务,保障了数据安全性,维持了业务连续性.分布式存储也可以采用纠删码方式来保证数据的可疣性。相对三副本,EC数据冗余保护机制在提供高可靠性的同时也能够提供更高的磁盘利用率,比如4+2纠删码的利用率是66%,可用容量是三副本冗余的2倍.2.2. 超融合产品选型HCI厂商给用户提供的产品形态一股有两种:纯软件方案和一体机方案.采用超融合软件方案,用户可以基于超融合软件和自己选定的X864ARM等架构通用服务器硬件构建超融合基础架构;采用超融合一体机方案,厂商根据客户的需求,和自身的产品策略,为用户提供
11、的开箱即用一体机,超融合一体机=超融合软件+厂商选定并适配的X86、ARM等架构通用服务器.采用超融合一体机的好处是使用方便,开箱即用,部署快捷方便,软件与硬件配套性蛟好,堪定性强,安全可靠,出于降低维护和服务支持的红杂度的考虑,我司对4家超融合一体机厂商情况开展了调研.产品Nutanix联想X86SMARTXHalo华为FusionCube1000深信服aServer软件架构NutanixZBS华为分布式存储基于CePh集群主机数=33-2553-2562-1024资源消耗4cores3-4cores=4cores8cores分布式存储副本2-32-32-32-3EC支持EC-X不支持N+2
12、不支持NVMeSSD缓存支持支持支持支持虚拟化平台支持VMware.Kvm,Hyper-VVMware,XenVMware.KvmVMware、Kvm运维管理PrismSMTXOSFusionCubeCenteraclod从简便运维和软硬件统一菅理的角度考虑,我司决定采用华为超融合。华为超融合在策略上,不采取平台锁定,实现了广泛的平台支持,不仅支持华为FusionSphere,VMware、KVM等主流的虚拟化平台,还可以支持SAPHANA、Oracle.IBMDB2xSybaSe等主流数据库平台.FusionCube采用全对称分布式架构,内嵌分布式存储引擎,元数据均匀分布在所有节点,无单独元
13、数据节点,消除了性能瓶颈.FusionCube在节点间采用IB互联,RDMA等技术解决10瓶颈.同时,FusionCube还采用NVMeSSD,不仅具备PCIESSD的高性能,同时具有SATA硬盘的热插拔和即插即用特性,没有运动部件,相比SATA盘年化故障率大幅降低。提供了图形界面的安装方式和超统一的管理界面,部署时间最短能降低到11分钟,更能方便地实现端到端的统一管理、配置和监控,实现一个管理界面管理所有软硬件资源。3 .方案设计3.1. 整体规划原则对金融外联系统及应用平台的基础环境采用超融合方案改造,通过SSD加速,采用多副本技术存储虚拟机.按照每台虚拟机80OG硬盘、内存32G、8核C
14、PU,考虑平台冗余,整个超融合集群可部署大约28台虚拟机.32.群硬件规划项目型号节点详细配3?数Al超融合一体机FusionCube10002288HVS处理器:2x英特尔9至强,金牌5220R(2.2GHz24-Core)内存:512GB(16*32GB)*硬盘:2块600GBSAS系统盘,2块1.6TNVMe加速盘,8块4TB7200转SATA数据盘3台网络:9个IOGE光接口(含模块)2个GE(RJ45)接口;阵列:1块SR150-M(Avago3408)SAS/SATARAID卡RAIDO,1,10-12Gbs-noCache:交换机CE6820-48S6CQ48*10GSFP+j6
15、*100GQSFP28,2*交流电源4台3.3.集群软件规划组件基线软件包备注FusionCubeFusionCube6.0.5.SPC100FusionCube6.0.5.SPC100,Builder.ovaFusionCubeBuilder虚拟机系统镜像安装包FusionCube6.0.5.SPC100.zip用于安装FusionCube的管理软件.FusionCube6.0.5.SPC100_Driver.zip用于安装FusionCube所标各种驱动.FusionCube6.05SPClooJOOls.zip工具类文件.华为分布式存储华为分布式存储8.0.1.SPH602华为分布式存储
16、一801.SPC600.tar.gz用于安装华为分布式存储存储软件.华为分布式存储一OS-V2.0SP5-X86_64-dvd.iso用于安装FCC虚拟机节点操作系统镜像安装包.FusionComPUteFusionCompUte8.0.1FusionCompute_CNA-8.0.0-X86_64.iso用于部署X86架构服务器FUSionCompute8.0.0(KVFUSiOnComPUte_VRM-8.0.0-X86_64.isoM)计算节点和管理节点.FusionComputeJnstaller-8.0.0.Z1PFusionCompute8.0.1_UPgrade.ZiP3.4.集
17、群斐源规划整体可用资源规划:资源类型资源总量CPU:共计288核内存:共计1536GB存储池裸容量:EC4+2设计下,可使用约:46TB本次项目计划部署实施3节点超融合集群,考虑到集群冗余性机制,为避免集群节点故障造成的虚拟机故障:资源项目资源预留建议按照集群冗余性考虑,3节点集群,建议不超过各集群资源的75%集群CPU资源预留:集群总CPU资源的25%集群内存资源预留:集群中内存资源的25%集群存储资源预留:集群中存储资源的20%FusionCube出厂时会预安装CNA.VRMxFusionManager.华为分布式存储Manager和FusionCubeCenter等部件,每个部件占用资源
18、如下:管理VMvCPU(max)MEM(GB)Storage(GB)FusionManager(GMN)4680VRM4580华为分布式存储Manager416160GFusionCubeCenter416160G3.5.网络规划带外管理负责服务器远程管理与配置,使用服务器自带管理端口,每台服务器一个端口,分配带外管理IP地址后,可远程控制.两台管理交换机用于集群中各服务器间的数据交互,要求必须使用万兆以太网络接入,建议使用低交换延时以太网交换机.业务网络交换机间配置级联或堆叠,以实现链路冗余性.管理平面用于管理集群各节点服务器,每节点使用两块千兆以太网口,分别连接两台管理交换机,两个接口组成
19、bond,以实现链路冗余.业务平面用于虚拟机对外提供访问,每个节点使用两块万兆以太网口,分别连接到业务网络的交换机上,两个接口组成bond,以实现链路冗余.存储平面用于华为分布式存储内部通信,每个节点使用两块万兆以太网口,分别连接到两台管理交换机,两个接口组成bond,以实现修路冗余.f会务上与t三*f三三XSttacISft二:bond设备端口示怠如下:IP地址需求:服务器台数BMCIP地址数管理VM虚拟参数V1.AN主备ip合计数浮动ip数FusionCubeCenter10221FusionComputer10221业务平面虚拟V1.ANipl&BUSERVM112543.6.华为分布式
20、存脩规划配置3台超融合主机,每个主机预留一个华为分布式存储存储IP,用于不同主机间华为分布式存储存部池网络流S1.每台主机配置2块600CBSAS系统盘:采用SSD磁盘作为数据缓存,每台主机配置2块1.6TNVMe加速盘,提升超融合集群IO性能:傩台主机配置8块4TBSATA数据盘,采用EC4+2冗余存储配置,去除虚拟化平台必要的存储开精可供虚拟机使用的空间大概15.8T左右。FIIsioiiStorage管理集群Host1Host2Host3储规格如卜.:节点类型主存规格缓存规格MCNA8*3726GSATA.DISKl*2980GSSD-CARDMCNA8*3726GSATA,DISKl*
21、2980GSSD_CARDSCNA8*3726GSATA_D1SKl*2980GSSD-CARDEC(纠删码)是提高存储系统数据可匏性的一项编码技术.写入的对象被拆分为K个数据块,然后编码生成M个校验块,总共K+M份数据通过DHT算法分别存入不同便盘中.当系统出现故障,丢失了某些块时,只要这个对象丢失的块数目不超过M,就可通过数据恢至箕法,将丢失的数据块从剩余的块中计算出来.在这种方式下,空间的利用率约为K(K+M),数据的可奥性由M值的大小决定,M越大可靠性越高,EC4+2相比EC2+1,虽然能容忍节点故障数量仍然是1个,但它可以允许2个节点分别有1块硬盘故度总计2块硬盘故障而数据不丢失.而
22、实际情况下,硬盘故障的概率是远远低于整个节点故障的,所以EC4+2还是非常可免的,在空间利用率上也远高于三副本,三副本的得盘约为33.3%,EC4+2的得盘率约为66.6%.存储池配置如下:存储池冗余策略华为分布式存储EC4+23.7.用户设置规划分类用户设置2288HVS登录iBMC的用户名和密码FusionCubeBu登录FUSionCUbeBuilderOS的用户名和密码分类用户设置ilder使用WinSCP上传软件包到FusionCubeBwIder时使用的用户名和密码登录FusionCubeBuilderWebUI的用户名和密码FusionCubeCenter登录FusionCube
23、CenterOS的用户名和密码使用WinSCP上传软件包到FusionCubeCenter时使用的用户名和密码登录FUSiOnCUbeCenterWebUl的用户名和身码华为分布式存储登录华为分布式存储DeViCeManager的用户名和密码3.8.部署安装安装流程如下:4.实施经验4.1. 华为分布式存储容B计算1.多副本冗余方式华为分布式存慵大概容量=所有用于数据盘的磁盘容18总和/副本数,因华为分布式存储的元数据会占用一部分空间,实际的有效容量会比这个值小.具体计凭方法如下:单盘的有效容量(TB)=(z*0.91)-p*r1024)*qk华为分布式存储有效容量=单盘的有效容量.总盘数.1
24、)Z=盘或SSD卡标称容量(TB).其中盘或卡的标称容量z为GB时,需转换为TB(GB1000).2)r=华为分布式存楮OSD开销(GB).华为分布式存储OSD开销固定为20.7GB.3)p=主存对应的OSD进程数。主存对应的OSD进程数p,不同的介质p取值不同,HDD盘和SSD盘,1个硬盘上运行的OSD进程数固定为1,SSD卡做主存时,P=(卡的容员/60OG)向上取整。4) k=副本数,副本数为2副本或者3副本,根据实际项目配置进行计算.5) q=磁盘空间利用率,该值固定为0.952、细删码冗余方式存储池可得容量=裸容量*0,909(进制转换)*(1-预留比率)*冗余利用率*(I-DlF特
25、性消耗)更删压缩比D冗余利用率:EC配置为N+M时冗余校验空间占比为M(N+M)2)HDD盘按照需要按照每64K占用1K、非SASSSD盘按照每64K占用4K进行扣除,NVMeSSD盘不占用3)更删压缩比:华为分布式存博block估箕授权默认使用1.4的重删压缩比4.2.应用系统迁移由于金融外联系统要求7*24小时服务,在切换到超融合环境后,需要将SAN存储的数据迁移到华为分布式存储上.为尽量减少切换带来的影响,可对应用程序、存储数据分别采用不同策略进行迁移.1、SAN存硫数据建议使用第三方工具进行迁移,例如OradeGoIdenGate,IBMDataReplicationManagemen
26、t,可以实现在线不停机迁移数据.但是业务系统切换需要停机窗口,但是时间会很短。2、对于应用系统程序,如系统架构不是很复杂、系统节点间关联性不强、节点数量不高的情况下,可采用更新在超融合部罟应用系统程序,更新部署能比较好的兼容超融合环境,但整体迁移工作耗时会比较长。但面对规模比较大的系统迁移工作,还是采用迁移工具比较瑁妥,例如Rainbow,可以降低整体业务的迁移时长,支持并发性迁移,多次数据同步功能保障数据一致性,同时支持迁移过程中数据加密传输,避免数据被窃取非法利用.3、最好不要迁移与硬件绑定的业务系统。业务系统能用离线迁移尽量就用离线迁移.迁移后,业务系统切换完,不要立刻删除原系统资源,以便回退操作.为保障迁移保证数据完整性,业务验证翕要业务应用厂商支撑.5.总结金融外联系统超融合基础环境部署实施后,相关系统虚机及数据也已顺利切换到超融合平台,当前业务运行平稳.在基础环境运维效率、基础资源利用率、业务连续性等方面得到了显著提升。其主要体现在以下几个方面:一是空间资源集中化,最大化减少空间占用;二是运维管理统一化,一个界面统一软硬件管理;三是交付便捷化,大幅压缩了从设计到交付的周期;四是数据安全提升,多副本、跨节点备份的方式实现了数据的可症性提升.