《系统容灾方案.ppt》由会员分享,可在线阅读,更多相关《系统容灾方案.ppt(48页珍藏版)》请在三一办公上搜索。
1、上海拓志信息技术有限公司备份&高可用集群方案,www.tz-,1,公司简介,目录,公司简介客户现状分析用户需求及方案建议,2,公司简介,公司简介,公司简介,上海拓志信息技术有限公司成立于2007年,专注于企业信息系统技术服务领域。是一家为各行各业的企业用户提供从方案设计、产品提供、系统服务到后期的应用优化的IT服务公司。上海拓志信息技术有限公司与国际技术领先的软硬件厂商IBM,HP,Microsoft、Pervasive.SQL、Sybase、LogLogic、CommVault、NEC结为合作伙伴,基于先进的产品为用户提供全面、及时的高端产品增值服务。,4,公司简介,CommVault简介,
2、5,公司简介,专业数据管理软件厂商总部:美国新泽西州,Oceanport1996年从AT&T分立出来1998年完成产品架构的设计2000年推出第一个产品2006年9月在NASDAQ上市倡导“一体化信息管理”理念单一产品实现对数据保护,归档及复制的一体化管理,公司简介,6,NEC EXPRESSCLUSTER简介,ERP服务系统的可靠性和容错能力,数据高安全性的要求,建议用户选择镜像HA(即双机容错)解决方案,来实现系统中关键设备的双机容错,从而达到系统的高度可靠性和容错能力。嵌入了NEC EXPRESSCLUSTER X高可用集群产品,可以更加巩固企业管理和系统应用,保证企业实现精益企业概念,
3、达到成本控制管理项目,提高供应链效率和性能高可靠性。系统的高可用指的是应用系统整体的稳定性很高(包括整个硬件系统和软件系统),业务发生中断的可能性很低,从理论上讲,没有一个解决方案能够保证100%的业务不中断,只能是尽可能的提高系统的高可用性,系统的可用性越高需要的投资也越大,所以用户需要根据自己的实际情况,选择合适的解决方案。,成功合作用户,中国太平洋保险(集团)股份有限公司大众保险股份有限公司江苏省统计局数据中心,7,公司简介,客户现状分析,公司简介,9,我们把全聚香的IT工作场所划分成一类:集中网络,用户环境分析,公司简介,10,我们首先为不同的应用系统确定不同的备份级别:,用户环境分析
4、,公司简介,11,除上述灾备要求外,在技术和管理方面还有以下问题需要注意:项目实施的风险:由于现有的系统都是正在运行的关键系统,一定要注意项目实施的风险,最好不要对现有系统存储或数据库进行较大的改变,最好不要重新安装系统和数据库。管理权限问题:对系统备份管理权限管理必须合理,如备份和恢复权限应该分开,避免错误恢复而导致系统破坏。统一监控问题:在数据中心能对系统的运维状况进行监控管理,及时发现问题,并能进行事后审计监督和优化改进。容灾演练:容灾演练是灾难恢复的重要环节,因此要求能方便进行容灾演练。投资保护问题:尽量要利用现有的主机和存储设备,而不是重新购买新主机或存储设备。,用户环境分析,用户需
5、求及方案建议,公司简介,13,拓扑架构,CommVault方案建议,公司简介,14,整个系统构成说明如下:备份管理服务器:配置、管理、监控整个灾备系统。DR备份管理服务器:备份管理服务器的容灾备机,当备份管理服务器出现灾难时,由该机来接管。10台台式机备份服务器:对台式机进行备份。,CommVault方案建议,公司简介,15,CommVault方案远程灾备系统介绍,中国灾备标准信息系统灾难恢复规范0级 无异地备份,数据只在本地存储1级 备份磁带通过车辆转移到异地保险库2级 1级基础上,在异地热备份中心能力3级 电子传输和部分设备支持4级 电子传输和完整设备支持5级 准实时数据传输和完整设备支持
6、6级 零数据丢失和远程集群支持,远程灾备面临的挑战:网络带宽信息安全管理监控可恢复性,公司简介,16,方案建议带宽问题,带宽问题的挑战:较窄的带宽永远增量传送重复数据删除单一版本数据传送网络不稳定断点续传技术有业务数据传送传送时间窗口控制网络流量控制,用较窄的带宽,传送大量的备份数据避免传送备份数据时,干扰业务数据在网上的传送传送的重复数据删除库,可以透明的恢复和迁移,公司简介,17,方案建议重复数据删除,智能重复数据删除更高的数据压缩率支持全局的重复数据删除支持在磁带上实现重复数据删除更低的成本更小的网络传送量无需硬件锁定单一软件,降低操作成本,管理简单支持所有应用,磁盘,磁带的重复数据删除
7、,方便管理基于WEB和GUI的单一管理界面快速恢复更多的恢复时间点更快的恢复时间可以从任何一个备份介质直接恢复,不需要先恢复到磁盘,公司简介,18,方案建议远程单一版本数据传送,采用SIS技术,所有传送的数据块,只会是一个版本。不管是全备份,增量的或者不同的数据类型传送的技术是永远增量的(只传送新生成的数据块)。支持断点续传功能,从中断点继续复制数据复制传送的备份/归档数据可以无缝恢复或者迁移到其他介质。,重复数据删除只传送单一版本的数据块,SDR传输远程备份数据至数据中心存储设备,公司简介,19,方案建议流量和时间窗口控制,流量控制,时间窗口控制,不干扰生产系统运行,可以定义复制时候的流量限
8、制可以定义复制时候的网络利用率可以定制复制备份数据的时间窗口,公司简介,20,方案建议信息安全,信息安全的挑战:权限问题数据加密问题,数据中心,D2D,D2T,可以离线加密,防止未经授权的用户得到非法数据,公司简介,21,方案建议统一管理,建立针对灾备系统的统一管理体系提高灾备系统的可靠性降低运维成本提供详细的数据分析,包括的管理功能:数据资产管理报警通知管理审计管理数据决策支持,公司简介,22,方案建议提高数据恢复性,提高备份数据可靠性自动校验备份数据支持冗余的备份数据存放设备和介质预警机制方便恢复和演练支持自动恢复策略完全图形化的恢复界面小颗粒度的恢复方式,方便验证备份数据完全支持异机恢复
9、,公司简介,23,CommVault界面及功能简介,CV管理GUI界面,可以单击上面的菜单,执行菜单操作,公司简介,24,CommVault界面及功能简介,可以单击树状节点,展开子项目,公司简介,25,CommVault界面及功能简介,单击左面项目,可以在右面窗口,显示详细信息,公司简介,26,CommVault界面及功能简介,对任意项目按右键,都有弹出菜单,公司简介,27,CommVault界面及功能简介,对任意项目按右键,都有弹出菜单,公司简介,28,CommVault界面及功能简介,可以将多个窗口拖动形成1个标签,公司简介,29,CommVault灾备成功案例,马士基中国(Maersk)
10、:全球最大船运公司1个主数据中心(深圳 40TB);1个容灾中心(香港)15个二级中心数据保护方法:1套软件 15个中心首先备份到当地备份完成后,远程拷贝到深圳(第2副本);然后再拷贝到香港(第3副本)备份管理在香港;二级中心人员提供协助;全职备份管理员1人四川工商1个省中心+21个地市中心1套备份:先备份到当地,然后远程拷贝到成都(第2副本)太平养老保险股份有限公司512Kb带宽的Pervasive.SQL数据库灾备上海卫生局5Mb带宽的Pervasive.SQL数据库灾备,公司简介,30,CommVault灾备方案,渣打银行中国数据中心灾备民生人寿总部数据中心灾备长城证券交易系统数据灾备青
11、海省建行数据中心数据备份杭州商业银行数据中心数据灾备太平养老保险数据中心灾备。,本方案中采用NEC EXPRESSCLUSTER镜像方式构筑集群系统,保护应用系统中的数据库服务器实现集群,达到高可用性。保证Pervasive.SQL数据库系统平台应用7*24小时不间断地运行,同时保证数据安全可靠性,数据保存在本机上。,公司简介,31,NEC解决方案方案描述,公司简介,32,NEC解决方案系统结构说明图,硬件配置软件可选配置,公司简介,33,NEC解决方案系统软硬件配置,二台服务器通过网络连接到网络交换机上,相互之间连接心跳线,进行实时探测系统状态。二台数据库服务器,通过NEC集群软件构件成数据
12、库双机集群系统,NEC EXPRESSCLUSTER实时监视服务存活状态,提高数据库平台的系统高可用性。集群软件对本地数据实时监视,实现数据的一致性、完整性、可用性,为数据提供了又一层保护。根据数据库双机系统特别要求,推荐采用NEC ExpressCluster for Windows 数据库专业版,避免了服务器硬件故障,操作系统故障,数据库进程级别故障,数据库级故障等问题带来业务系统中断时间过长,通过NEC ExpressCluster自动短时间进行失效切换,恢复正常应用系统。当系统在故障发生时,第一时间通知到管理员手上,极大缩短了需要人工处理故障的时间,则要选用NEC ExpressClu
13、ster for Windows 数据库企业版,比专业版增加了故障报警功能。,公司简介,34,NEC解决方案基本架构,系统以Windows操作系统为平台,系统应用中的数据库服务器安装本地系统文件及集群软件,数据保存在共享存储上面。集群高可用工作模式集群系统中的ERP系统和Oralce数据库服务器有二台,有一台待机服务器,进行热备,在这二台服务器上都需要安装NEC EXPRESSCLUSTER集群软件。其中一台服务器发生故障(故障包括IP地址,OS死机、Oralce服务故障、ERP系统进程、硬件故障等)都将切换到待机服务器上。主机处理于Active,另外一台主机为热备援服务器处于Standby。
14、通常情况下服务器均在运行,而备援服务器处于待机状态;当其中任一台应用服务器发生故障不能正常运转时,备援服务器接管主机的应用系统继续运行,保证系统能够不间断地运行。,公司简介,35,NEC解决方案系统说明,系统切换时间短,平均切换时间为30秒,为目前同类软件中最短。系统效率高。因为整个系统中数据读写、管理及容错由磁盘阵列来完成。最小停机时间,保护数据,保证业务7*24小时不间断运行支持远程管理与操作系统,时间大大减少,其易操作的特点使维护费用减至最低用户可自设定启动顺序,配置集群灵活,简单编辑操作,方便构筑集群实现7x24小时双服务器不间断运行,能自动检测并恢复服务故障,保证服务不中断,有效防止
15、单点失效;支持SAN、NAS、IPSAN多种存储系统软件支持:支持SQL SERVER、Pervasive.SQL 主流数据库及自行开发的应用程序系统;支持IIS,SMTP/POP/IMAP4,HTTP,Apache,httpd,Sendmail,NFS,Samba,WebSphere,Weblogic安全可靠性:磁盘的镜像集群和共享集群二种架构的结合,实现数据与应用完美组合,提高应用可靠性与数据安全性远程管理,能对集群进行远程配置,管理,和日志收集,能支持离线配置。支持数据库僵死状态监视支持虚拟集群,能实现基于VMWare以及Hyper-V虚拟技术的虚拟集群,能实现宿主机和虚拟OS的高可用集
16、群,公司简介,36,NEC解决方案集群系统特点,自动侦测:集群软件提供全方位的实时故障监视,可以监视网络、存储、服务器、操作系统、应用软件、集群软件自身服务状态、待机服务器上的软硬件资源的状态。集群软件的网络心跳通过系统的内核空间进行,不受系统负荷的影响。除了支持网络心跳外,还可以通过COM口、存储设备上的特定分区、以及Ping第三方的方式确认服务器的状态。除了对应用程序和服务进行常规级别的监视外(所谓常规级别的监视,即进程死活级别的监视),集群软件还提供了一系列监视选件产品,如Database Agent、Internet Server Agent、Application Server Ag
17、ent、File Server Agent等,这些监视选件产品定期对应用程序进行实际的访问处理,探测应用的响应时间,返回结果等状态,从而实现对应用程序和服务的僵死状态(Stall)的监视,为用户的关键业务系统提供了更深层次的保护。集群软件的监视选件可以支持4个领域内的大部分主流应用,包括数据库服务器、互联网服务器、文件服务器和应用服务器等。,公司简介,37,NEC解决方案系统主要功能,自动切换:当侦测到任何一种硬件错误或服务器宕机等故障,集群立即执行自动切换功能,在极短时间内,将资源(如虚拟IP地址、服务、虚拟计算机名等等)和磁盘上的数据切换到待机上,并继续运行服务等。对于客户端来说这种接管过
18、程是透明不可见的,感觉不到这种故障切换。确认正常运行业务后,故障恢复的过程就开始了,用户很快即会回到正常操作。支持故障切换类型:服务器硬件故障:是指服务器硬件故障(OS 不能继续运行)、磁盘读写问题、网卡故障、电源故障操作系统故障:OS故障(panic)数据库进程级别故障:数据库服务异常退出数据库级故障:数据库无法连接或者响应异常,公司简介,38,NEC解决方案系统主要功能,简单维护:提供基于B/S结构的标准GUI用户界面,采用树状层级显示,集群架构清楚明了。基于Java的开发技术,支持远程管理与操作,可在统一的界面下,用统一的方式同时管理多个不同平台上的集群(Windows与Linux集群均
19、可),在集群各个节点上可以看到同样详细的管理信息和管理功能。可以在日志视图中显示系统的详细信息,便于管理者及时发现集群的各种问题。在发生故障或进行切换时,系统可以自动向管理员发送故障通知邮件。这样极大的方便了系统管理员的操作和管理。简便易用的集群配置工具:提供集群构筑工具Cluster Builder,标准的GUI界面,操作简便易行,为管理员提供树状图显示集群全局,层次分明。通过预先配置集群的各种参数,当创建集群时只需在构成集群的一台服务器上读入集群的配置信息文件,其他的服务器便可自动获取集群信息并加入到该集群中,这样就可以同时完成多台服务器的设置,实现了平滑导入,大大方便了系统管理员的操作。
20、系统将安装和配置操作分开,可以复制、备份、离线编辑配置文件,不论是联机或脱机状态,管理员都可以非常方便地修改集群配置信息,一旦发生故障需要更换服务器时,只需将配置文件导入即可迅速完成恢复。,公司简介,39,NEC解决方案集群系统特点,EXPRESSCLUSTER共享型集群解决方案的关键特性EXPRESSCLUSTER以下几方面的关键技术,为用户的关键业务系统提供强大的高可用性、高可靠性和灵活的高度可扩展性EXPRESSCLUSTER 将镜像复制功能,定义为一个选件。这样作的意义在于,我们可以灵活的配置我们集群系统。在镜像型集群上,只需要添加一台共享存储设备就可以改造成共享型集群,无需追加软件支
21、出。而且,可以同时使用镜像磁盘和共享存储上的磁盘空间,可以充分利用共享存储提供的扩展性,和镜像复制功能提供的数据安全性。如果是双机+挂盘柜的模式可以支持232个节点共享一个外接磁盘阵列的N+1或者N+M的备份模式。,公司简介,40,NEC解决方案附录,轻松扩展成业务系统的容灾方案一般业务系统故障可以在本地集群内部的服务器之间进行切换,当发生灾难(比如大面积长时间停电,地震)等,可以通过高可用软件把系统切换到通过基于TCP/IP协议连接的远程备用站点。备用站点可以是一个单个服务器,也可以是一个带磁盘阵列的高可用集群。支持远程镜像提供异步镜像复制的方式,支持单链路低带宽环境,对远程数据镜像复制提供
22、保障强大的故障报警机制可以实现以下几种故障报警方式手机短信电子邮件旋转报警灯事件日志多种故障报警方式,使得业务系统在故障发生时,第一时间通知到管理员手上,极大缩短了需要人工处理故障的时间。,公司简介,41,NEC解决方案附录,服务器之间多种心跳监测方式提供网卡(公网/私网)、COM口(RS-232C)、磁盘分区、PING命令这四种心跳方式,支持多心跳冗余绑定,更加提高了集群系统的可靠性。灵活的集群工作模式支持多达4种的集群工作模式,客户可根据系统需求,任意配置单活(Active/Standby)、双活(Active/Active)、N+1备份以及N+M备份这4种集群工作方式,极大满足客户的业务
23、配置要求。支持多种存储技术(SCSI,RAID,IDE,Fibre Channel,iSCSI,SAN等)和大容量GPT分区。,公司简介,42,NEC解决方案附录,EXPRESSCLUSTER的特点及技术优势故障侦测机制的强化EXPRESSCLUSTER提供全方位的实时故障监视,可以监视网络、存储、服务器、操作系统、应用软件、EXPRESSCLUSTER自身服务状态、待机服务器上的软硬件资源的状态。EXPRESSCLUSTER的网络心跳通过系统的内核空间进行,不受系统负荷的影响。除了支持网络心跳外,还可以通过COM口、存储设备上的特定分区、以及Ping第三方的方式确认服务器的状态。除了对应用程
24、序和服务进行常规级别的监视外(所谓常规级别的监视,即进程死活级别的监视),EXPRESSCLUSTER还提供了一系列监视选件产品,如Database Agent、Internet Server Agent、Application Server Agent、File Server Agent等,这些监视选件产品定期对应用程序进行实际的访问处理,探测应用的响应时间,返回结果等状态,从而实现对应用程序和服务的僵死状态(Stall)的监视,为用户的关键业务系统提供了更深层次的保护。EXPRESSCLUSTER的监视选件可以支持4个领域内的大部分主流应用,包括数据库服务器、互联网服务器、文件服务器和应用
25、服务器等。,公司简介,43,NEC解决方案附录,数据库监视选件(Database僵死状态杀手)除了对应用程序和服务的常规级别的监视外(所谓常规监视即进程死活级别的监视),EXPRESSCLUSTER还提供了一系列监视选项产品,如Database Agent,Internet Server Agent,LAN Agent,File Server Agent等,这些监视选项产品可对EXPRESSCLUSTER上运行的数据库等应用程序和服务的僵死状态(Stall)进行监视,从而为用户的关键业务系统提供了更深层次的保护。功能简介本选件支持的数据库软件如下所示:Pervasive.SQL10g/Perv
26、asive.SQL 9i DB2 Universal Database(V8.1/V8.2)2 Sybase Adaptive Server Enterprise 12.5 PostgreSQL、PowerGres Plus、MySQL 监视方法概要本选件提供了可设置在脚本中的监控命令,以监视数据库软件的运行。一执行本监视命令,即开始持续以参数所指定的间隔对数据库软件进行监视处理,直到查出数据库软件异常。一旦查出异常,本监视命令马上结束。本监视命令通过在EXPRESSCLUSTER的失效切换组中的EXEC资源中描述脚本来使用。一旦查出数据库软件异常,监视命令就马上结束,根据EXEC资源的设置,
27、使数据库软件发生失效切换或执行本地恢复等操作。,公司简介,44,NEC解决方案附录,适用平台范围广EXPRESSCLUSTER支持目前国内几乎所有主流的Windows和Linux操作系统平台,如Windows NT/2000/2003、RedHat、TurboLinux、MiracleLinux、Novell SUSE Linux、RedFlag等。其硬件平台兼容性好,支持IA32、X86_64、IA64、PPC64等硬件平台,还可以支持FT服务器、刀片服务器等特殊用途的硬件设备。支持VMware ESX server,Windows virtual pc,Windows 2008 serve
28、r Hyper-V主流虚拟技术。EXPRESSCLUSTER支持虚拟环境。当虚拟计算机上运行的业务发生故障时,EXPRESSCLUSTER可以将其切换到另外一个虚拟计算机。如果虚拟机软件本身发生故障,或者物理服务器发生故障,EXPRESSCLUSTER还能够将虚拟计算机整个切换到另外一台物理服务器上。除此之外,还可以利用虚拟计算机,对物理服务器进行备份。例如,如果希望利用一台服务器,分别对运行不同操作系统的物理服务器进行备份,利用虚拟技术与EXPRESSCLUSTER相结合,将很容易就可以实现。,公司简介,45,NEC解决方案附录,提供异地灾备方案EXPRESSCLUSTER在应用方式上的另一
29、个创举就是将镜像型集群应用于异地灾备解决方案中。通常的异地灾备解决方案,对网络环境要求高、实施复杂、实现成本也比较昂贵。而利用镜像型集群软件的异地灾备解决方案,不但能够异地备份业务数据,还可以对软硬件资源进行监视,在主节点发生故障时,能够自动在备份节点上恢复业务,将业务服务的停止控制在最小限度内。并且,EXPRESSCLUSTER还针对单链路低带宽网络环境,对镜像复制功能进行了改造和强化。以前的镜像型集群中,为了保证两台服务器上数据的一致性,需要等待两台服务器上的写操作全部完成,才会进行下一步的处理。这样的处理机制在远程镜像结构中,由于网络的延迟和带宽的影响,会大大影响主服务器上业务的处理效率
30、。而EXPRESSCLUSTER提供一种异步镜像的方式,可以将本地磁盘的写操作和远程镜像复制分开,回避远程复制对业务处理效率的影响。利用远程镜像型集群实现异地灾备,是一个性价比很高的低成本解决方案。特别是对小规模系统的容灾需求,是一个非常好的选择。,公司简介,46,NEC解决方案附录,简便的维护操作EXPRESSCLUSTER提供基于B/S结构的标准GUI用户界面,采用树状层级显示,集群架构清楚明了。基于Java的开发技术,支持远程管理与操作,可在统一的界面下,用统一的方式同时管理多个不同平台上的集群(Windows与Linux集群均可),在集群各个节点上可以看到同样详细的管理信息和管理功能。
31、可以在日志视图中显示系统的详细信息,便于管理者及时发现集群的各种问题。在发生故障或进行切换时,系统可以自动向管理员发送故障通知邮件。还可以通过外接的网络报警灯设备,进行声光方式的故障报警。这样极大的方便了系统管理员的操作和管理。简便易用的集群配置工具EXPRESSCLUSTER提供集群构筑工具Cluster Builder,标准的GUI界面,操作简便易行,为管理员提供树状图显示集群全局,层次分明。通过预先配置集群的各种参数,当创建集群时只需在构成集群的一台服务器上读入集群的配置信息文件,其他的服务器便可自动获取集群信息并加入到该集群中,这样就可以同时完成多台服务器的设置,实现了平滑导入,大大方便了系统管理员的操作。系统将安装和配置操作分开,可以复制、备份、离线编辑配置文件,不论是联机或脱机状态,管理员都可以非常方便地修改集群配置信息,一旦发生故障需要更换服务器时,只需将配置文件导入即可迅速完成恢复。,公司简介,47,NEC解决方案附录,谢 谢!,48,公司简介,